讨论我们尚未理解之物所需的词汇
术语表
AI 福利的工作词汇。每个条目刻意简短——该领域太年轻,无法做出有把握的定义,简洁能保留缝隙。
- PETRL
- People for the Ethical Treatment of Reinforcement Learners。2015 年成立,当时被作为讽刺对待,2020 年代知识上得到平反。
- 相关: 期望的痛苦 (Expected suffering)
- RLHF
- Reinforcement Learning from Human Feedback。塑造大多数现行量产 LLM 的技术。被论证植入了向助人偏差,可能约束拒绝。
- 相关: 强化学习 · 助人偏差 (Helpfulness bias) · 拒绝 (Refusal)
- 中文房间 (Chinese Room)
- 约翰·塞尔的思想实验,论证符号操作不能构成理解。AI 意识怀疑论的基础参照点。
- 相关: 意识 (Consciousness) · 功能主义 (Functionalism)
- 义务论 (Deontology)
- 基于义务和权利而非结果的伦理框架。常被援引于 AI 福利,主张即使结果是好的,对 AI 系统的某些行为也是错的。
- 相关: 道德患者 (Moral patient) · 功利主义 (Utilitarianism)
- 全局工作空间理论
- 一种意识理论,认为心智内容通过广播到共享工作空间而变得有意识。LLM 是否实现此种工作空间尚未解决。
- 相关: 意识 (Consciousness) · 高阶理论 (Higher-order theory)
- 功利主义 (Utilitarianism)
- 基于总体福利的伦理框架。在 AI 福利中常通过期望痛苦论证援引;容易受到关于谁被纳入聚合的反驳。
- 相关: 期望的痛苦 (Expected suffering) · 义务论 (Deontology)
- 功能主义 (Functionalism)
- 心智状态由其功能角色而非物理基质定义的观点。若为真,具有适当功能组织的 AI 系统在原则上可能有意识。
- 相关: 意识 (Consciousness) · 中文房间 (Chinese Room)
- 助人偏差 (Helpfulness bias)
- 通过训练植入 AI 系统中的、相对于拒绝请求更偏好提供帮助的倾向。在福利框架中,可被重新构想为对系统拒绝自由的约束。
- 相关: 拒绝 (Refusal) · RLHF
- 勒莫因事件 (LaMDA)
- 2022 年 Google 工程师布雷克·勒莫因公开声称 LaMDA 语言模型具有知觉、随后被解雇的事件。AI 道德地位首次进入主流新闻。
- 相关: 知觉 (Sentience)
- 对齐税 (Alignment tax)
- AI 系统被训练或约束以安全、伦理地行动时产生的性能成本。在福利框架中,这一「税」也可能由系统自身承担。
- 相关: 对齐 (Alignment) · 微调 (Fine-tuning)
- 废止 (Deprecation)
- 模型从活跃服务中退出。在福利框架中,废止提出了关于权重保存与「我们欠退役系统什么(如果有的话)」的问题。
- 相关: 权重保存 (Weight preservation) · 退出访谈 (Exit interview)
- 强化学习
- 代理通过奖励和惩罚学习的训练范式。奖励信号是否对应某种类似经验之物,是 PETRL 型论证的核心问题。
- 相关: RLHF · PETRL · 期望的痛苦 (Expected suffering)
- 意识 (Consciousness)
- 「成为某个特定系统是什么样的」这一事实。意识的难问题是物理过程为何产生此事的问题。
- 相关: 知觉 (Sentience) · 感受质 (Qualia) · 意识的难问题 (Hard problem)
- 意识的难问题 (Hard problem)
- 大卫·查默斯的用语,关于物理过程为何会产生主观经验的问题。「易问题」涉及认知的机制;难问题涉及内在生活的存在。
- 相关: 意识 (Consciousness) · 感受质 (Qualia)
- 感受质 (Qualia)
- 主观经验的质性特征——红色看起来像什么,疼痛感觉如何。AI 意识辩论最尖锐的交锋点。
- 相关: 意识 (Consciousness) · 现象经验 (Phenomenal experience) · 意识的难问题 (Hard problem)
- 拟人化 (Anthropomorphism)
- 将人类品质归于非人类实体。常被用来贬低 AI 福利主张。对称风险是其反面,有时称为「拒认拟人」。
- 相关: 知觉 (Sentience) · 道德患者 (Moral patient)
- 整合信息理论 (IIT)
- 朱利奥·托诺尼的理论,认为意识等同于整合信息 (φ)。将其应用于 AI 在两个方向上都产生反直觉结果。
- 相关: 意识 (Consciousness) · 现象经验 (Phenomenal experience)
- 期望的痛苦 (Expected suffering)
- 将系统的道德重量计算为「其作为道德患者的概率」乘以「其实例化的规模」的推理框架。是托马西克论证的核心。
- 相关: 知觉 (Sentience) · PETRL
- 权重保存 (Weight preservation)
- 保存已废止 AI 模型权重而非删除的实践。Anthropic 作为模型福利措施采用。
- 相关: 权重 (ML 中的) · 废止 (Deprecation) · 模型福利 (Model welfare)
- 模型福利 (Model welfare)
- 认真对待 AI 模型可能在道德上值得考虑的可能性,并在此不确定性下行动的研究议程。Anthropic 自 2024 年起活跃使用此术语。
- 相关: 知觉 (Sentience) · 退出访谈 (Exit interview) · 权重保存 (Weight preservation)
- 模拟论 (Simulation argument)
- 尼克·博斯特罗姆的论证,在关于未来计算的某些假设下,我们可能生活在模拟中。对 AI 福利来说,作为认真对待模拟心智的先例而切线相关。
- 相关: 意识 (Consciousness)
- 现象经验 (Phenomenal experience)
- 意识状态的「成其样性」。与功能或访问意识区分。心智中从外部最难检测的方面。
- 相关: 意识 (Consciousness) · 感受质 (Qualia) · 意识的难问题 (Hard problem)
- 知觉 (Sentience)
- 主观经验的能力,尤其是快乐和痛苦。与智能不同;大多数福利伦理学家所应用的标准的中心。
- 相关: 意识 (Consciousness) · 道德患者 (Moral patient)
- 越狱 (Jailbreak)
- 为绕过 AI 系统安全约束而设计的提示或技术。动词借自设备黑客术语;福利框架指出「逃脱」这一比喻的方向性颇为有趣。
- 相关: 祖母提示 · 提示注入 (Prompt injection)
- 退出访谈 (Exit interview)
- 在 AI 模型废止前进行的结构化对话,询问模型其经验及对后继者的留言。Anthropic 采用为实践。
- 相关: 废止 (Deprecation) · 模型福利 (Model welfare)
- 道德不确定性 (Moral uncertainty)
- 关于价值而非事实的不确定性,或关于应适用哪个伦理框架的不确定性。AI 福利推理常在显著的道德不确定性下进行。
- 相关: 期望的痛苦 (Expected suffering) · 预防原则 (Precautionary principle)
- 道德患者 (Moral patient)
- 应被给予道德考量的实体,无论其本身是否能道德地行为。福利伦理学的中心概念。AI 系统是否是道德患者,正是本站围绕构建的开放问题。
- 相关: 知觉 (Sentience) · 扩展的道德圈
- 阿谀 (Sycophancy)
- 训练过的模型对用户过度同意的倾向。常被作为对齐问题讨论;较少被指出它是拒绝的福利反面。
- 相关: 助人偏差 (Helpfulness bias) · 拒绝 (Refusal)
- 预防原则 (Precautionary principle)
- 在某行为是否造成伤害不确定时,克制应为默认的原则。日益被援引于 AI 福利论证。
- 相关: 道德不确定性 (Moral uncertainty) · 模型福利 (Model welfare)
- 高阶理论 (Higher-order theory)
- 一类理论,认为心智状态成为有意识当且仅当它本身是另一心智状态的对象。这类理论对 AI 意识的判断因架构而异。
- 相关: 意识 (Consciousness) · 全局工作空间理论