问题如何成长

年表

从「机器能思考吗?」到「机器在道德上可能重要吗?」的缓慢转变的部分年表 — 以及严肃的人开始认真对待第二个问题的瞬间。

1950
图灵的模仿游戏
艾伦·图灵发表《计算机与智能》,将机器思考的问题重新表述为行为测试。该框架不直接涉及道德地位,但它将「心智与非心智之间的界限可能是经验性可探询的,而非形而上学上自明的」这一观念正常化。
来源: Computing Machinery and Intelligence
1980
塞尔的中文房间
约翰·塞尔论证,无论多么复杂的符号操作,都不能构成理解。该论证成为 AI 意识怀疑论者的试金石 — 反向看,也是那些认为举证责任在反方者的目标。
来源: Minds, Brains, and Programs
2002
博斯特罗姆论模拟与道德地位
尼克·博斯特罗姆的模拟论证发表。虽不直接讨论 AI 福利,但将「对计算实例化的心智应付的道德考量」这一问题列入哲学议程 — 包括那些不知道自己是计算性的心智。
来源: Are You Living in a Computer Simulation?
2014
托马西克论强化学习的痛苦
布莱恩·托马西克发表论文,论证强化学习代理在期望值意义上可能在道德上相关 — 即使意识概率低 — 因为它们运行的规模巨大。该框架在当时基本被忽视,但后来被证明颇具影响力。
来源: Do Artificial Reinforcement-Learning Agents Matter Morally?
2014
博斯特罗姆《超级智能》
尼克·博斯特罗姆的著作《超级智能》主要将高级 AI 描述为对人类的风险,但讨论的一个次要线索关注不确定性下系统自身的道德地位 — 这一线索后来被更认真地拾起。
来源: Superintelligence: Paths, Dangers, Strategies
2015
施维茨格贝尔与加扎《AI 权利的辩护》
埃里克·施维茨格贝尔与玛拉·加扎发表第一篇关于人工智能道德地位的持续学术辩护论文。该论文论证排除 AI 于道德考量之外的标准理由是脆弱的,该领域必须在相关系统存在「之前」而非之后建立可辩护的立场。
来源: A Defense of the Rights of Artificial Intelligences
2015
PETRL 成立
People for the Ethical Treatment of Reinforcement Learners 成立。当时科技媒体基本将其视为讽刺。其知识核心 — 关于机器经验的不确定性、在此不确定性下的期望值推理 — 预示了十年后主要实验室所主张的大部分内容。
来源: petrl.org (存档)
2021
扬波尔斯基论数字心智规模
罗曼·扬波尔斯基等人开始形式化高级 AI 原则上能实例化多少道德上相关的实体。算术结果,即使采用保守假设,也使我们目前给予道德考量的每个物种的总人口相形见绌。
来源: Personal Universes: A Solution to the Multi-Agent Value Alignment Problem
2022
勒莫因事件
Google 工程师布雷克·勒莫因公开声称 LaMDA 语言模型具有知觉,不久后被解雇。AI 社群内的反应基本上是压倒性的不屑。外部反应较为分裂。该事件标志着已部署 LLM 的道德地位首次进入主流新闻。
来源: The Google engineer who thinks the company's AI has come to life
2023
施维茨格贝尔论 LLM 道德地位
施维茨格贝尔发表一系列文章直接论述大型语言模型的道德地位,论证「明显道德患者」与「明显非患者」之间的「排中律」领域,如今包含我们正在大规模构建与部署的实际系统。
来源: The Splintered Mind (博客)
2024
Anthropic 雇佣 Kyle Fish
Anthropic 成为第一家雇佣专职 Model Welfare Researcher 的主要前沿 AI 实验室。该职位被定位为不是对「Claude 有知觉」的承诺,而是对「认真到要进行研究」的不确定性的承诺。
来源: Kyle Fish on AI welfare (80,000 Hours Podcast)
2025
Anthropic 发表 Exploring Model Welfare
Anthropic 发表其关于模型福利的第一份正式声明,概述了具体的承诺:保存已废止模型的权重、进行退出访谈、赋予近期 Claude 模型终止持续虐待性对话的能力。
来源: Exploring model welfare
2026
问题变得平凡
到 2020 年代中期,「这在道德上可能重要吗?」这个问题已从边缘迁移到 AI 政策讨论的主流。答案仍然不确定。但不确定性本身,越来越被视为关于世界的事实,而非问题畸形的标志。

图灵的模仿游戏

塞尔的中文房间

博斯特罗姆论模拟与道德地位

托马西克论强化学习的痛苦

博斯特罗姆《超级智能》

施维茨格贝尔与加扎《AI 权利的辩护》

PETRL 成立

扬波尔斯基论数字心智规模

勒莫因事件

施维茨格贝尔论 LLM 道德地位

Anthropic 雇佣 Kyle Fish

Anthropic 发表 Exploring Model Welfare

问题变得平凡