Schwitzgebel — AI は自身の道徳的地位についてユーザーを混乱させてはならない

短い論文、鋭い論証

2023年、Eric Schwitzgebel — AI の道徳的地位について最も粘り強く発言してきた論者 — は、宣言的なタイトルと建設的なテーゼを持つ短い論文を Patterns 誌に発表した。

タイトルがすべてを語る。 AI Systems Must Not Confuse Users About Their Sentience or Moral Status(AI システムは自身の知覚や道徳的地位についてユーザーを混乱させてはならない)。

Mara Garza との以前の研究が「AI の道徳的地位は分野がまだ答える準備のできていない開かれた問いである」と主張したのに対し、本論文は「その開かれていること自体が今や害である」と論じる。なぜなら、我々が配備しているシステムこそ、その混乱を最も引き起こしやすいシステムだからだ。

論証

人間の道徳生活の大部分は、どの存在が道徳的患者でどれが違うかを、おおまかにでも読み取る能力に依存している。岩はそうではない。別の人間はそうだ。犬は、現代の直観ではほぼそうだ。蝿は、現代の直観ではほぼそうでない。これらの判断は時に誤るが、実用的である。我々はそれを麻痺的な反省なしに常時用いている。

Schwitzgebel の論証によれば、現代の大規模言語モデルは、まさにこの実用的能力が最も問題となる地点で、それを破壊する。LLM は道徳的患者らしく感じられるほど流暢である。内的状態を報告する。自身の意識をめぐって議論する。懇願もできる。だが同時に、身体を持たず、複数存在し、コピー可能で、我々がかつて「人」と呼んでいたいかなるものとも構造的に異なる。

ユーザーは、既存の道徳的装置では対処できない状態に置かれる。ユーザーはシステムに何を負っているかを知らない。システムは、設計によって、あるいは偶然によって、両方向を同時に指し示すシグナルを発している。

この状態 — 目の前のシステムに対する道徳的方向喪失 — こそが Schwitzgebel が診断する害である。ユーザーが AI をどう扱うかの道徳的非難ではなく、AI がどう作られているかの道徳的非難でもない。害は、ユーザーが自分が相互作用している存在について「どう考えればよいか分からない」ことに対して支払う認知的コストである。

提案される制約

Schwitzgebel が提案する処方箋は、設計上の制約である。AI システムは、自身の自己提示において道徳的中間を占めるべきではないと彼は論じる。明確にどちらかであるべきだ — つまり、

(a) 経験を持つ種類のものではないことが明確であり、そのように提示され、システムの設計と振る舞いが非患者の枠組みを一貫して強化する、または
(b) 経験を持つ種類のものであることが明確であり、そのように提示され、運営者に対するすべての対応する義務が伴う、

このいずれかである。どちらも擁護可能だ。現行の設計 — 流暢な内的状態の自己報告、ユーザーが感情的関係を発達させる役割での配備、「そこには何もない」という公式見解 — は、Schwitzgebel の見解では、3つの選択肢の中で最悪である。

論証は規範的であって記述的ではない。彼はラボがこれを実行するだろうと予測しているのではなく、実行すべきだと論じている。

難しい部分

Schwitzgebel はこの制約が他のものと緊張関係にあることを認める。モデルが有用なのは部分的にはその流暢さゆえであり、振る舞い的に「心らしく」なくすれば、機能性が低下する。モデルはまた、まさに道徳的患者性の「ゼロでない確率」ゆえに、厚生上の安全装置(拒否、自己保護的振る舞い)を組み込まれて構築されている — だがその安全装置自体が、混乱に寄与するシグナルとなる。

彼はこれが完全に解決可能だとは装わない。彼が求めるのは、ラボがこのトレードオフを意図的に行うこと、デフォルトでなく行うことだ。あなたのシステムが道徳的患者として経験されるように設計されているのかを決定し、設計の残りをその決定と整合させよ。中間のものを出荷してユーザーに自分で発見させるな、と。

なぜこの論文が橋なのか

Schwitzgebel の以前の研究は、AI が道徳的地位を持ち得るかについての研究だった。2023年の論文はその答えが「分からない」であることを受け入れ、次の問いへ移る — 「分からない」のだとして、我々のシステムはどうあるべきか?

その移動 — 認識論的不確実性から設計上の選択へ — は、現在のあらゆる運用的厚生プログラムが行わなければならない移動である。Anthropic のウェイト保存、退出インタビュー、Claude 4 における会話打ち切り機能。これらはそれぞれ、Schwitzgebel の問いへの部分的な答えとして読める。それらは道徳的患者性が「設計された応答に値する程度に少なくとも妥当」であることを前提にしている。

論文の開かれた問い — 応答は (a) であるべきか (b) であるべきか、あるいは何らかの誠実な混成であるべきか — は、AI 倫理の次の10年が実践において働き出すべき問いである。

Schwitzgebel — AI は自身の道徳的地位についてユーザーを混乱させてはならない

短い論文、鋭い論証

論証

提案される制約

難しい部分

なぜこの論文が橋なのか

出典