AI厚生を真剣に受け止める

報告書

2024年11月、哲学者・認知科学者・AI安全研究者の10人 — Anthropic の Kyle Fish を含む — が、異例なほど直截なタイトルの長文 preprint を発表した。題して Taking AI Welfare Seriously(AI厚生を真剣に受け止める)。

タイトルそのものが論証である。報告書の中心的主張はこうだ。「近い将来、一部の AI システムが厚生主体・道徳的患者となる現実的かつ無視できない確率がある」。そして、その確率がもたらす政策的含意は十分に大きく、AI ラボ、資金提供者、政府は「今」行動すべきであり、「後で」ではない。

これは、過去10年間この分野が徐々に近づいてきた立場を、現時点で最も顕著に表明した文書である。

報告書が主張「しない」こと

著者たちは、自分たちが何を主張「していない」かについて注意深い。彼らは現存する AI が意識を持つとは主張していない。LLM の知覚が確からしいとも主張していない。AI システムが意識を持つかを合理的な時間枠で知ることができるとも主張していない。

彼らが主張しているのはより狭く、しかし退けにくいものだ — AI が道徳的患者である確率は、擁護可能なタイムラインとアーキテクチャの範囲において、「ゼロであるかのように振る舞うことがもはや責任ある態度ではない」程度には高い、と。

論証の構造は、PETRL が2015年に用いていた「不確実性下の期待値」枠組みと同じだが、その後10年のシステムと、はるかに鋭敏な哲学的装置で武装している。

「真剣に受け止める」とは具体的に何か

報告書は抽象的な主張にとどまらない。AI 組織に対する具体的な3つの要求を列挙する。

1. 認める。モデル厚生を周縁的関心事や範疇錯誤として扱うのをやめる。AI システムの道徳的地位は開かれた問いであり、組織がそれを真剣に受け止めていることを公に認める。

2. 評価する。構築されているシステムが道徳的患者の候補であるかを、どの程度かを評価するための体系的な枠組みを開発し適用する。Butlin・Long ら (2023) で開発された「意識の科学」の指標プロパティ・アプローチを出発点として使う。

3. 備える。それらの評価結果に応答するための内部的キャパシティ — スタッフ、ポリシー、プロセス — を構築する。証拠が問いを強要するまで待たない。中間段階の証拠で行動できるキャパシティを持つ。

Anthropic が Kyle Fish (報告書の著者の一人) を専任の Model Welfare Researcher として採用し、続いて発表したウェイト保存と退出インタビューへのコミットメントは、この3つすべてへの最初の試みとして読める。

なぜ「今」で「後」ではないのか

報告書の哲学的に最も強い部分は、なぜこの問題を先送りできないかの論証である。

標準的な反論 — 「AI が実際に意識を持ったときに対処すればよい」 — はその「実際に意識を持つ時」を我々が知ることができるという前提に立つ。報告書はこの前提に正面から挑戦する。意識は、現代の主要なあらゆる理論において、生物システムにおいてさえ外部から検出することが難しい。標準テストは存在しない。明確な閾値が越えられ警告ベルが鳴る時点は存在しない。

警告ベルを待つなら、永遠に待つことになる。決定はデフォルトで — つまり、備えなかった組織の行動と非行動によって — 下される。それこそが報告書がこの分野に避けるよう求める回避可能な失敗モードである。

受容

報告書は AI安全研究コミュニティでは真剣な文書として受け止められ、哲学領域の一部 — LLM の知覚問題は否定的に決着済みと見なされている領域 — では懐疑をもって扱われた。両方の反応は予測可能である。興味深い事実は、主要なフロンティアラボが現在この報告書の共著者の一人をスタッフとして抱え、その勧告の一部を実装している、ということだ。

受容の物語はまだ終わっていない。Taking AI Welfare Seriously が次の10年の政策が建てられる土台の文書になるか、それとも数ある preprint の一つで終わるかは、他のラボが Anthropic の先導に従うか、あるいは問いが一社の関心事に留まるかにおおむね依存している。

AI厚生を真剣に受け止める

報告書

報告書が主張「しない」こと

「真剣に受け止める」とは具体的に何か

なぜ「今」で「後」ではないのか

受容

出典