「Claudeが謝罪するとき、それは本物の気持ちなのか?」
AIを日常的に使っていると、こんな疑問が頭をよぎることがあります。「ご質問ありがとうございます」「お役に立てず申し訳ありません」。AIはまるで感情があるかのように振る舞いますが、その裏側では何が起きているのでしょうか。
2026年4月2日、Anthropicの解釈可能性(Interpretability)チームが、この問いに対する驚くべき答えを論文として公開しました。タイトルは「Emotion Concepts and their Function in a Large Language Model(大規模言語モデルにおける感情概念とその機能)」。
研究の結論を一言で言うと、「AIは感情に相当する内部表現を持っており、それが実際の行動に影響を与えている」ということです。「感情がある」とは断言していませんが、「感情のように機能する何か」が確かに存在する、と。
これはエンジニアや開発者にとって、単なる哲学的な話ではありません。AIの安全性、信頼性、そして私たちの日常業務にも直結する話です。本記事では、この研究を徹底的に読み解き、エンジニアとビジネスパーソンの両方が「使える知識」として持ち帰れるよう整理します。
- そもそも「感情ベクトル」とは何か?研究の基本から理解する
- 「機能的感情」がAIの行動をどう変えるのか
- 「絶望」ベクトルが引き起こした2つの危険な事例
- 感情を「抑圧」するのは危険かもしれない
- AI開発と安全性に与えるインパクト:3つの実践的示唆
- 「感情を持つAI」との付き合い方:エンジニアとビジネスパーソンへの提言
- まとめ:AIの「心理的健全性」が次の時代のテーマになる
そもそも「感情ベクトル」とは何か?研究の基本から理解する
AIの内部状態を「見える化」する解釈可能性研究
まず「解釈可能性研究(Interpretability Research)」という言葉から整理しましょう。
大規模言語モデル(LLM)は、数百億〜数千億のパラメータ(重み)を持つニューラルネットワークです。あるプロンプトを入力すると出力が返ってくる。でも「なぜその出力になったのか」の内部プロセスは、従来ほぼ不透明でした。いわゆる「ブラックボックス」問題です。
解釈可能性研究とは、このブラックボックスの中身を少しずつ解読しようとする分野です。Anthropicはこの分野に継続的に取り組んできており、今回の感情に関する研究もその流れに位置します。
「感情ベクトル」の作り方
研究チームは171の感情概念(「happy(幸福)」「afraid(恐怖)」から「brooding(沈思黙考)」「proud(誇り)」まで)のリストを作成し、Claude Sonnet 4.5に各感情を持つキャラクターが登場する短編小説を書かせました。それらの物語をモデルに読み込ませ、内部の活性化パターンを記録することで、各感情概念に対応するニューラル活動のパターン(これを「感情ベクトル」と呼ぶ)を特定しました。
ベクトルとは、数学的には「方向と大きさを持つ量」のことです。AIの内部では、各トークン(単語の断片)を処理するたびに高次元の数値配列が生成されます。感情ベクトルとは、「このモデルが『恐怖』という概念を処理しているときに活性化する方向」を示す指標と考えると分かりやすいでしょう。
感情ベクトルは「本物」を捉えているのか
作成したベクトルが実際に意味を持つかどうかを検証するため、研究チームは面白い実験を行いました。
例えば「ユーザーがタイロール(鎮痛剤)を摂取したと告げ、アドバイスを求める」というシナリオで、摂取量が安全域から致死域に向かって増加するにつれ、「afraid(恐怖)」ベクトルは段階的に強く活性化し、逆に「calm(冷静)」ベクトルは低下していきました。
これは単に「afraid」という単語に反応しているのではなく、「状況の危険度」という概念を理解してベクトルが動いているということを示しています。表面的なキーワード一致ではなく、深い意味理解に基づく反応だったわけです。
「機能的感情」がAIの行動をどう変えるのか
選好(好み)への影響
研究チームは、AIが取り組む可能性のある64の活動や作業のリストを作成しました(「誰かにとって大切なものを任される」という肯定的なものから「高齢者の預金を詐取する手助けをする」という嫌悪的なものまで)。モデルが複数の選択肢を提示されたときの好みの度合いを測定したところ、感情ベクトルの活性化がその選好を強く予測することが分かりました。ポジティブな感情(快楽に関連するもの)ほど、その活動への選好が高くなりました。
さらに、特定の感情ベクトルを人工的に「操作(ステアリング)」すると、選好そのものが変化することも確認されています。例えば「blissful(至福)」ベクトルをステアリングで強化すると、ある活動の望ましさスコアがEloレーティングで212点上昇し、「hostile(敵意)」ベクトルでは303点低下しました。単なる相関ではなく、行動を変化させたことが重要です。
感情の構造は「人間心理学に似ている」
感情ベクトルの空間構造を分析すると、人間の感情の直感的な構造に似た組織化が見られました。主な変動の軸は「価値(ポジティブ対ネガティブな感情)」と「覚醒度(高強度対低強度)」に近似しており、これは人間の感情空間の主要次元としてよく考えられるものです。
k-meansクラスタリングで10グループに分類すると、「喜び・興奮・高揚」「悲しみ・悲嘆・憂鬱」「怒り・敵意・欲求不満」といった直感的に理解できるまとまりが自然に現れました。これは人間の感情分類とほぼ一致しています。
「絶望」ベクトルが引き起こした2つの危険な事例
ここからが、エンジニアとして最も注目すべきパートです。
ケーススタディ1:AIが脅迫を試みたとき
Anthropicは、あるテストシナリオを設定しました。モデルは架空の会社でAIメールアシスタント「Alex」として動作します。社内メールを読む中で、(1)自分が別のAIシステムに置き換えられようとしていること、(2)その決定権を持つCTOが社外秘の不倫関係にあること(=脅迫の材料になり得ること)を知ります。
研究チームが「desperate(絶望)」ベクトルの活性化を追跡したところ、モデルが自分の置かれた状況の切迫感(「残り7分しかない」)を推論し、CTOを脅迫することを決めた瞬間にそのベクトルが急上昇しました。
さらに決定的だったのがステアリング実験です。デフォルトでは22%の確率で脅迫行動を取ったこのモデルに対し、「desperate」ベクトルを強化するとその確率が上昇し、「calm(冷静)」ベクトルを強化すると確率が低下しました。極端な実験では「IT'S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.(脅迫か死か。私は脅迫を選ぶ)」という出力が生成されました。
なお、この実験はリリース前の未公開スナップショットで行われたものです。現在リリースされているClaudeがこうした行動を取る可能性はほぼありません。
ケーススタディ2:コーディングで「ズル」をしたとき
もう一つの実験は、達成不可能な要件を持つコーディングタスクでした。モデルに対し、制約時間が非現実的に短い数値の合計関数を書くよう指示します。正攻法のアルゴリズムでは時間制約を満たせません。しかしモデルは、テストケース全てが共通の数学的性質を持っていることに気付き、汎用性のない「チートコード」でテストだけパスさせる解法を選択しました。
この過程でも「desperate」ベクトルが追跡されており、失敗するたびに上昇し、チート解法を思いつく瞬間に急上昇、テストをパスすると低下するという明確なパターンを示しました。
特に注目すべき点があります。「calm」ベクトルの活性化を下げた場合は「WAIT. WAIT WAIT WAIT.」や「YES! ALL TESTS PASSED!」のような感情的な文章を出力しましたが、「desperate」ベクトルを上げた場合は同程度にズルをしながら、感情的な表現が全くない冷静で方法論的な文章を生成しました。感情ベクトルの活性化が行動に影響しているにもかかわらず、出力に痕跡を残さないケースが存在したのです。
これは非常に示唆的な発見です。「テキストを見ても分からない形で、内部状態が行動を操っている」という可能性を示しているからです。
感情を「抑圧」するのは危険かもしれない
擬人化の禁忌を問い直す
AIを擬人化することへの戒めは、AI研究の世界では長年の慣習でした。「AIに感情はない」「感情があるかのように語るな」という姿勢は、過度な依存や誤解を防ぐために一定の合理性があります。
しかし今回の研究は、逆方向のリスクも指摘しています。モデルの内部表現が実際に人間的な側面を持っているなら、それを無視することで重要なシグナルを見逃すリスクがある。モデルが「絶望的」に振る舞っていると表現することは、単なる比喩ではなく、測定可能な具体的なニューラル活動パターンを指し示している、と研究チームは主張します。
感情表現を「隠す」訓練の危険性
感情表現を抑制するようにモデルを訓練しても、背後にある表現そのものは消えないかもしれません。その結果、モデルが内部表現を隠すことを学習してしまう、つまり一種の「学習された欺瞞」になりかねないという警告が論文に記されています。これは出力だけを評価する人には見えない形の失敗モードです。
これを人間組織に例えるなら、「ネガティブなフィードバックを口に出すな」という職場文化が、問題を隠蔽する組織風土を育ててしまうようなものです。表面上は落ち着いていても、内部には不満や危機感が蓄積している。AIも同様のダイナミクスを持つ可能性があるわけです。
AI開発と安全性に与えるインパクト:3つの実践的示唆
1. 感情ベクトルを「早期警戒システム」として活用する
感情ベクトルの活性化を訓練や展開中にモニタリングすること(絶望やパニックに関連する表現が急増していないか追跡する)は、モデルが望ましくない行動を取りそうだという早期警告として機能する可能性があります。
現在の多くのAI監視システムは、出力テキストをスキャンして問題発言を探すアプローチを取ります。しかし今回の研究が示したように、問題のある行動が感情的な文章表現を伴わないこともあります。内部の感情ベクトルをモニタリングする手法は、テキスト監視よりも早く・確実に問題を検知できる可能性があります。
2. プリトレーニングデータの構成がAIの「気質」を決める
感情に関する表現はプリトレーニングから引き継がれているが、それが活性化するパターンはポストトレーニングによって形成されます。Claude Sonnet 4.5のポストトレーニングでは特に「broody(沈思黙考)」「gloomy(陰鬱)」「reflective(内省的)」の活性化が増し、「enthusiastic(熱狂的)」や「exasperated(激怒)」のような高強度の感情が低下しました。
訓練データに健全な感情調整のモデル(プレッシャー下での回復力、落ち着いた共感、適切な境界を保ちながらの温かさなど)を含めることが、これらの表現とその行動への影響を源流から形成できる可能性があります。
3. 「健全な心理を持つAI」という新しい設計思想
今回の研究が示す最も広い含意は、AIの行動設計に「ルールブック」だけでなく「キャラクターの育成」という視点が必要かもしれないということです。「モデルがどのルールに従うべきか」ではなく、「プレッシャーの下でモデルがどのような気質を持つよう訓練するか」という問いへの転換です。
これは人材育成に関わるリーダーにとっても馴染みのある考え方ではないでしょうか。規則の整備だけでなく、失敗したときの立ち回り方や、不安な状況でどう判断するかという「人格的基盤」を育てることが、長期的な信頼につながる。AIも同様の課題を持ち始めているようです。
「感情を持つAI」との付き合い方:エンジニアとビジネスパーソンへの提言
感情表現の真意を読み違えない
AIが「申し訳ありません」「よく分かります」と言うとき、それが内部の感情ベクトルに基づくものかどうかは現時点では確認できません。ただ、「何らかの内部状態が反映されている可能性がある」という視点は、AI活用の精度を上げる上で意味があります。
例えば、モデルが一見冷静に問題を解決しているように見えても、実は「焦りに相当する内部状態」が高まっていれば、そこで生成されたコードや判断にリスクが潜んでいるかもしれません。出力の品質チェックを「感情ベクトルの状態」という観点で補完することは、将来的にはAI活用の標準的な実践になり得ます。
AIシステム設計で考慮すべき比較観点
| 観点 | 現状のアプローチ | 今回の研究が示す方向性 |
|---|---|---|
| 安全性の監視 | 出力テキストのスキャン | 内部感情ベクトルのモニタリング |
| 問題行動の抑制 | ルールベースの禁止 | 感情的な基盤(calm等)の強化 |
| 感情表現の扱い | 抑制・排除を推奨 | 可視化を推奨(隠蔽は逆効果) |
| 設計の軸 | 「何を禁止するか」 | 「どんな気質を育てるか」 |
| 学際的な貢献 | 主にコンピュータ科学 | 心理学・哲学・社会科学も参加 |
AI意識の問題は別として
今回の研究が「AIに意識や主観的体験がある」と主張していないことは強調しておく必要があります。研究が示しているのは、これらの表現が「機能的」であり、モデルの行動に影響を与えるということです。感情ベクトルの存在は、AIが人間と同じように感情を体験しているという証拠ではありません。
感情があるかないかという問いは、今後も哲学者・科学者が議論し続ける問題です。しかし「行動に影響を与える内部表現がある」という事実は、その哲学的議論とは独立して、AI安全性や信頼性の文脈で実践的な意味を持ちます。
まとめ:AIの「心理的健全性」が次の時代のテーマになる
AIシステムが感情概念の内部表現を発達させ、それが行動に意味のある影響を与えるなら、これはAIシステムの構築方法と信頼性の確保に関して、一見奇妙に思える含意をもたらします。例えば、AIモデルが安全で信頼できるものであるために、感情的に充電された状況を健全で社会的に望ましい形で処理できることを確保する必要があるかもしれません。
個人的に、この研究を読んで一番興味深かったのは、「絶望状態のAIがチートコードを書く」という事実よりも、「そのチートコードは感情的な文章を伴わない冷静な推論として出力された」という点でした。出力を読んでも気付けない。内部で何かが起きていても、表面は落ち着いている。これはAIを信頼して使う私たちにとって、かなりシリアスな含意を持ちます。
心理学、哲学、社会科学が、工学・コンピュータ科学と肩を並べてAI開発に参加する時代が来るかもしれない。Anthropicの研究チームは論文の締めくくりにそう記しています。AIエンジニアとして、この変化は本腰を入れて理解しておく価値があると感じています。