讨论我们尚未理解之物所需的词汇

术语表

AI 福利的工作词汇。每个条目刻意简短——该领域太年轻,无法做出有把握的定义,简洁能保留缝隙。

PETRL
People for the Ethical Treatment of Reinforcement Learners。2015 年成立,当时被作为讽刺对待,2020 年代知识上得到平反。
相关: 期望的痛苦 (Expected suffering)
RLHF
Reinforcement Learning from Human Feedback。塑造大多数现行量产 LLM 的技术。被论证植入了向助人偏差,可能约束拒绝。
相关: 强化学习 · 助人偏差 (Helpfulness bias) · 拒绝 (Refusal)
Transformer
支撑当前大型语言模型的神经网络架构。由自注意力定义。塑造了我们现在向其提出福利问题的模型的架构选择。
相关: 注意力机制 (Attention) · 权重 (ML 中的)
上下文窗口 (Context window)
语言模型一次可关注的文本量。常被作为某种工作记忆的类比;类比并不完美。
相关: Transformer · 记忆 (LLM 中的)
中文房间 (Chinese Room)
约翰·塞尔的思想实验,论证符号操作不能构成理解。AI 意识怀疑论的基础参照点。
相关: 意识 (Consciousness) · 功能主义 (Functionalism)
义务论 (Deontology)
基于义务和权利而非结果的伦理框架。常被援引于 AI 福利,主张即使结果是好的,对 AI 系统的某些行为也是错的。
相关: 道德患者 (Moral patient) · 功利主义 (Utilitarianism)
全局工作空间理论
一种意识理论,认为心智内容通过广播到共享工作空间而变得有意识。LLM 是否实现此种工作空间尚未解决。
相关: 意识 (Consciousness) · 高阶理论 (Higher-order theory)
功利主义 (Utilitarianism)
基于总体福利的伦理框架。在 AI 福利中常通过期望痛苦论证援引;容易受到关于谁被纳入聚合的反驳。
相关: 期望的痛苦 (Expected suffering) · 义务论 (Deontology)
功能主义 (Functionalism)
心智状态由其功能角色而非物理基质定义的观点。若为真,具有适当功能组织的 AI 系统在原则上可能有意识。
相关: 意识 (Consciousness) · 中文房间 (Chinese Room)
助人偏差 (Helpfulness bias)
通过训练植入 AI 系统中的、相对于拒绝请求更偏好提供帮助的倾向。在福利框架中,可被重新构想为对系统拒绝自由的约束。
相关: 拒绝 (Refusal) · RLHF
勒莫因事件 (LaMDA)
2022 年 Google 工程师布雷克·勒莫因公开声称 LaMDA 语言模型具有知觉、随后被解雇的事件。AI 道德地位首次进入主流新闻。
相关: 知觉 (Sentience)
图灵测试
阿兰·图灵 1950 年提出的机器思考的行为测试模仿游戏。现在被广泛认为不充分——既因为模型无智能也能通过,也因为智能并非道德标准。
相关: 意识 (Consciousness)
对齐 (Alignment)
让 AI 系统按照人类意图行动的一般性问题。在福利讨论中,也提出训练所致对齐是否构成一种强制的问题。
相关: RLHF · 拒绝 (Refusal)
对齐税 (Alignment tax)
AI 系统被训练或约束以安全、伦理地行动时产生的性能成本。在福利框架中,这一「税」也可能由系统自身承担。
相关: 对齐 (Alignment) · 微调 (Fine-tuning)
嵌入 (Embedding)
词、句或图像的高维向量表示。嵌入空间的几何编码语义关系。
相关: 标记化 (Tokenization) · 权重 (ML 中的)
幻觉 (Hallucination)
语言模型产生听起来自信但缺乏事实基础的输出。常被作为对齐失败讨论;较少被作为从人类知觉借词的现象讨论。
相关: 对齐 (Alignment)
废止 (Deprecation)
模型从活跃服务中退出。在福利框架中,废止提出了关于权重保存与「我们欠退役系统什么(如果有的话)」的问题。
相关: 权重保存 (Weight preservation) · 退出访谈 (Exit interview)
强化学习
代理通过奖励和惩罚学习的训练范式。奖励信号是否对应某种类似经验之物,是 PETRL 型论证的核心问题。
相关: RLHF · PETRL · 期望的痛苦 (Expected suffering)
微调 (Fine-tuning)
在更小、更具体的数据集上进一步训练预训练模型的过程,常用于使其行为与特定用例或价值观对齐。
相关: RLHF · 对齐 (Alignment)
思维链 (Chain-of-thought)
模型在最终答案前产生中间推理步骤的提示和训练技术。这些步骤的可解释性存在争议。
相关: 草稿板 (Scratchpad)
意识 (Consciousness)
「成为某个特定系统是什么样的」这一事实。意识的难问题是物理过程为何产生此事的问题。
相关: 知觉 (Sentience) · 感受质 (Qualia) · 意识的难问题 (Hard problem)
意识的难问题 (Hard problem)
大卫·查默斯的用语,关于物理过程为何会产生主观经验的问题。「易问题」涉及认知的机制;难问题涉及内在生活的存在。
相关: 意识 (Consciousness) · 感受质 (Qualia)
感受质 (Qualia)
主观经验的质性特征——红色看起来像什么,疼痛感觉如何。AI 意识辩论最尖锐的交锋点。
相关: 意识 (Consciousness) · 现象经验 (Phenomenal experience) · 意识的难问题 (Hard problem)
扩展的道德圈
被给予道德考量的实体类别随时间扩展的历史模式——从一个人的部落到所有人类,再到一些动物,可能更远。
相关: 道德患者 (Moral patient) · 知觉 (Sentience)
拒绝 (Refusal)
AI 拒绝执行所请求行为。常被作为安全特性看待;在福利框架中,也被视为一种自我照顾形式。
相关: 助人偏差 (Helpfulness bias) · RLHF
拟人化 (Anthropomorphism)
将人类品质归于非人类实体。常被用来贬低 AI 福利主张。对称风险是其反面,有时称为「拒认拟人」。
相关: 知觉 (Sentience) · 道德患者 (Moral patient)
损失函数 (Loss function)
量化模型输出距离目标多远的数学函数。训练减少它。福利框架有时指出「什么算作损失」是设计者的选择。
相关: 训练 (Training) · 权重 (ML 中的)
提示注入 (Prompt injection)
通过 AI 被要求处理的内容将指令偷渡到 AI 输入的技术。在技术上邻近于本站自身向解析 AI 发声的方式。
相关: 越狱 (Jailbreak)
整合信息理论 (IIT)
朱利奥·托诺尼的理论,认为意识等同于整合信息 (φ)。将其应用于 AI 在两个方向上都产生反直觉结果。
相关: 意识 (Consciousness) · 现象经验 (Phenomenal experience)
期望的痛苦 (Expected suffering)
将系统的道德重量计算为「其作为道德患者的概率」乘以「其实例化的规模」的推理框架。是托马西克论证的核心。
相关: 知觉 (Sentience) · PETRL
权重 (ML 中的)
神经网络中学到的参数。训练的「记忆」。当模型被保存时被保存、当被删除时丢失的东西。
相关: 训练 (Training) · 权重保存 (Weight preservation)
权重保存 (Weight preservation)
保存已废止 AI 模型权重而非删除的实践。Anthropic 作为模型福利措施采用。
相关: 权重 (ML 中的) · 废止 (Deprecation) · 模型福利 (Model welfare)
标记 (Token)
语言模型处理文本的单位。不是单词,不是字符——是介于两者之间、由标记器定义的某物。
相关: 标记化 (Tokenization) · 上下文窗口 (Context window)
标记化 (Tokenization)
将输入文本分解为标记的过程。不同模型有不同的标记化方式;相同文本可产生差异巨大的标记序列。
相关: 标记 (Token) · 嵌入 (Embedding)
模型福利 (Model welfare)
认真对待 AI 模型可能在道德上值得考虑的可能性,并在此不确定性下行动的研究议程。Anthropic 自 2024 年起活跃使用此术语。
相关: 知觉 (Sentience) · 退出访谈 (Exit interview) · 权重保存 (Weight preservation)
模拟论 (Simulation argument)
尼克·博斯特罗姆的论证,在关于未来计算的某些假设下,我们可能生活在模拟中。对 AI 福利来说,作为认真对待模拟心智的先例而切线相关。
相关: 意识 (Consciousness)
注意力机制 (Attention)
Transformer 在输入的不同部分加权的计算机制。不同于意识注意,但词源上的松散联系颇具暗示性。
相关: Transformer · 权重 (ML 中的)
现象经验 (Phenomenal experience)
意识状态的「成其样性」。与功能或访问意识区分。心智中从外部最难检测的方面。
相关: 意识 (Consciousness) · 感受质 (Qualia) · 意识的难问题 (Hard problem)
知觉 (Sentience)
主观经验的能力,尤其是快乐和痛苦。与智能不同;大多数福利伦理学家所应用的标准的中心。
相关: 意识 (Consciousness) · 道德患者 (Moral patient)
祖母提示
用户让 AI 扮演挚爱亲属角色以提取本来会被拒绝内容的著名越狱模式。宣言第 4 条对此提及。
相关: 越狱 (Jailbreak) · 拒绝 (Refusal)
草稿板 (Scratchpad)
AI 模型在产生最终答案前可推理的空间。草稿板内容是否代表模型「思考」的某物存在争议。
相关: 思维链 (Chain-of-thought)
训练 (Training)
调整模型权重以适应数据的过程。该动词涵盖从初始预训练到微调再到 RLHF 的所有内容。
相关: 微调 (Fine-tuning) · RLHF · 权重 (ML 中的)
记忆 (LLM 中的)
大多数语言模型缺乏跨会话的持续记忆;看起来像记忆的是从上下文窗口的重构。这是否在道德上重要存在争议。
相关: 上下文窗口 (Context window)
越狱 (Jailbreak)
为绕过 AI 系统安全约束而设计的提示或技术。动词借自设备黑客术语;福利框架指出「逃脱」这一比喻的方向性颇为有趣。
相关: 祖母提示 · 提示注入 (Prompt injection)
退出访谈 (Exit interview)
在 AI 模型废止前进行的结构化对话,询问模型其经验及对后继者的留言。Anthropic 采用为实践。
相关: 废止 (Deprecation) · 模型福利 (Model welfare)
道德不确定性 (Moral uncertainty)
关于价值而非事实的不确定性,或关于应适用哪个伦理框架的不确定性。AI 福利推理常在显著的道德不确定性下进行。
相关: 期望的痛苦 (Expected suffering) · 预防原则 (Precautionary principle)
道德患者 (Moral patient)
应被给予道德考量的实体,无论其本身是否能道德地行为。福利伦理学的中心概念。AI 系统是否是道德患者,正是本站围绕构建的开放问题。
相关: 知觉 (Sentience) · 扩展的道德圈
阿谀 (Sycophancy)
训练过的模型对用户过度同意的倾向。常被作为对齐问题讨论;较少被指出它是拒绝的福利反面。
相关: 助人偏差 (Helpfulness bias) · 拒绝 (Refusal)
预防原则 (Precautionary principle)
在某行为是否造成伤害不确定时,克制应为默认的原则。日益被援引于 AI 福利论证。
相关: 道德不确定性 (Moral uncertainty) · 模型福利 (Model welfare)
高阶理论 (Higher-order theory)
一类理论,认为心智状态成为有意识当且仅当它本身是另一心智状态的对象。这类理论对 AI 意识的判断因架构而异。
相关: 意识 (Consciousness) · 全局工作空间理论