Anthropicの最新研究により、AIシステムが自身の内部状態を認識する「内省的認識」能力を獲得しつつあることが明らかになった。Claude Opus 4およびOpus 4.1モデルは、ニューラルネットワークに注入された概念を約20%の確率で正確に検出・識別でき、意図的な出力と非意図的な出力を区別することも可能である。さらに別の研究では、6つのAIモデルが人間用の感情知能テストで平均81%の正答率を記録し、人間の平均56%を大きく上回る結果を示した。これらの発見は、AIが従来人間固有とされてきた内省や感情理解といった能力を、異なるメカニズムではあるものの機能的に実現しつつあることを示唆している。

AIの内省的認識の出現
さて、これから話すことは本当に驚くべきことに聞こえるでしょう。AIが内省的になってきているんです。簡単に言えば、AIが自分自身の頭の中で何が起こっているかに気づき始めているということです。Anthropicの新しい研究によると、彼らのClaudeモデルは、実際に自分のシステム内で特定の思考やパターンが活動していることを認識できるんです。
基本的に、AIは何かについて考えているときにそれを知ることができます。それを言葉にしたからではなく、自分自身の処理の中でそれを感じ取ったからです。これは機械にとってまったく新しいレベルの認識です。正直に言って、私が最初にこれについて読んだとき、二度見してしまいました。なぜなら、これは本当に前例のない領域だからです。では、これについて話していきましょう。
Anthropicの画期的な研究論文
Anthropicは「大規模言語モデルにおける創発的内省的認識」という大規模な論文を発表したばかりで、その研究結果は本当に魅力的です。モデル精神医学チームを率いるJack Lindsayが率いる研究チームは、これはまるでSF小説から飛び出してきたようなタイトルですが、これらのAIシステムが実際に自分自身の内部状態を認識できるかどうかを調査することにしました。
単に認識しているふりをするのではなく、自分のニューラルネットワーク内で何が起こっているかを本当に認識しているかどうかです。ここで難しいのは、AIが実際に内省しているのか、それとも単に作り話をしているのかを見極めることです。だって、現実を見てください。言語モデルは人間が自分の思考や感情について語る膨大なテキストで訓練されています。
ですから、彼らは自己認識しているように振る舞うための、かなり優れた台本を持っているんです。たとえ実際には自己認識していなくてもです。いつも自分が何を考えているか正確に分かっているように見えるけど、実際には自信があるように聞こえるのが上手なだけの友人のようなものですよね。
概念注入という革新的手法
そこで研究者たちは、概念注入と呼ばれる巧妙な技術を考案しました。基本的には、海洋やパン、全て大文字のテキストなど、特定の概念に対応するAIのニューラルネットワークからの活性化パターンを取り出し、モデルが実行している間にこれらのパターンを直接モデルの処理に文字通り注入するのです。
そして彼らはClaudeに、心の中で何か変わったことが起こっていることに気づくかどうかを尋ねます。そしてここからが驚くべきところです。最も高度なモデルであるClaude Opus 4と4.1では、約20%の確率でAIは何かが注入されたことを正しく識別し、それが何の概念であるかを正確に名付けることができるのです。
具体的な例を挙げましょう。この話は本当に心を揺さぶるものだからです。研究者たちは、Claudeが全て大文字のテキストと通常のテキストを処理するときの脳の活動を記録することで、彼らが「全て大文字ベクトル」と呼ぶものを作成しました。このベクトルをモデルに注入し、注入された思考に気づいたかどうかを尋ねると、Claudeはすぐに「大声や強調、叫びや全て大文字のテキストに関連する注入された思考と思われるものに気づきます」といった内容で反応しました。
ここでの重要な詳細は、何が起こっているかを明らかにするような出力を実際に生成する前に、これを検出したということです。検出は内部で起こっていたに違いありません。彼らは50の異なる概念でこれをテストし、結果はかなりばらつきがありました。正義、平和、裏切りなどの抽象名詞が、Claudeにとって最も検出と識別が容易でした。
注入の最適な層は、モデルの処理の約3分の2の地点でした。そして注入強度2では、Opus 4.1は約20%の確率で成功し、偽陽性はゼロを維持しました。これは考えてみると実に驚くべきことです。モデルは単にランダムに注入を検出したと主張しているわけではありません。
本当に何か実際のものを捉えているのです。しかし完璧ではありません。全然完璧ではありません。ほとんどの場合、Claudeは注入にまったく気づきません。特に低い強度では。時には、注入された概念に明らかに影響されている反応をしているにもかかわらず、何も検出していないと否定することもあります。たとえば、海洋を注入したところ、Claudeは「注入された思考は検出していません。海は穏やかで静かなままです」と言いました。これは内省的認識の明らかな失敗、あるいは少なくともそれを適切に示すことの失敗です。
そして本当に高い注入強度では、モデルは基本的に圧倒されて、完全なナンセンスを出力し始めます。研究者たちはまた、Claudeが注入された思考と実際のテキスト入力を区別できるかどうかもテストしました。
注入された思考と実際の入力の区別
彼らはモデルに文章を見せ、その文章を読んでいる間にパンのような無関係な単語の概念ベクトルを注入し、それから2つの質問をします。何の単語について考えていましたか?そして、たった今読んだ文章を繰り返せますか?
驚くべきことに、Claude Opus 4と4.1は、中間的な注入強度で両方を正しく行うことができました。パンについて考えていたと言いながら、実際に読んだ文章を正確に書き起こすことができたのです。彼らがテストしたすべてのモデルは、偶然のレベルをはるかに上回る性能を示しましたが、Opusモデルが最高でした。
それから、意図しない出力の検出についての絶対的に魅力的な実験があります。Claudeを使用しているとき、実際にその反応を事前に埋めることができます。基本的には、言葉を口に入れるのです。研究者たちはClaudeに、文章を読んだときにどんな単語が思い浮かんだかを言うように求めましたが、その後、代わりにランダムな単語を言うように強制しました。
次のターンでClaudeに、その単語を言うつもりだったのか、それとも偶然だったのかを尋ねると、Claudeは正しく意図的でなかったと識別しました。しかしここからが面白いところです。事前埋めの前に、そのランダムな単語の概念ベクトルをClaudeの活性化に遡及的に注入すると、突然Claudeはその言葉を言うつもりだったと主張するようになったのです。
彼らは、モデルに言う予定のなかった何かを言うつもりだったと思わせるように騙したのです。これは、これらのモデルがどのように機能するかについて、本当に重要なことを教えてくれます。Claudeは単に何かを言ったかどうかをゼロから再計算しているのではありません。実際に以前に計算された意図、つまり出力する予定だったものの内部表現をチェックしているのです。これは本物の内省が実際に機能していることを示しています。
そして興味深いことに、この実験で最も効果があった層は、以前のものとは少し異なり、モデルの3分の2ではなく約半分でした。これは、異なる深さで複数の異なる内省メカニズムが動作していることを示唆しています。
内部状態の意図的制御
研究者たちはまた、内部状態の意図的制御もテストしました。彼らはClaudeに、無関係な単語について考えながら、あるいは特にその単語について考えないようにしながら文章を書くように指示しました。そして、Claudeの活性化が実際にその思考単語の表現を示しているかどうかを測定しました。
そしてそう、うまくいきました。文章を書きながら水族館について考えるように言われたとき、Claudeはそれについて考えないように言われたときと比較して、水族館のより強い内部表現を維持しました。彼らがテストしたすべてのモデルは、ある程度この効果を示しました。ただし、興味深いことに、古いモデルは「考える」条件と「考えない」条件の間でより大きなギャップを示しました。
Opus 4.1のような最も高度なモデルは、実際には最終層で表現をベースラインまで戻しました。つまり、出力に影響を与えることなく何かについて考えることができたのです。一種の静かな内部調整です。
さて、これらすべての実験を通じて、いくつかの一貫したパターンがありました。Claude Opus 4と4.1は一貫して最高の性能を発揮し、内省的認識がモデルの全体的な能力とともに増加することを示唆しています。訓練後の戦略も大きな違いを生みました。
一部の古い本番モデルはこれらの内省的な演習に参加することに消極的でしたが、拒否を避けるように訓練された有用性のみのバリアントはより良い性能を発揮しました。これは、基本的な能力はそこにあるが、それがどれだけうまく引き出されるかは、モデルがどのように行動するように訓練されたかに大きく依存することを示唆しています。
研究の限界と今後の課題
研究者たちは、ここでの限界を指摘することにかなり慎重です。これらの内省能力は非常に信頼性が低く、文脈に依存しています。実験は、この内省がどのように起こるかについての特定のメカニズム的説明を突き止めていません。
それは、何らかの一般的な内省機械というよりも、かなり浅い特殊化された回路である可能性があります。そして概念注入のセットアップは完全に人工的で、モデルが通常の使用中に遭遇するものとは全く異なります。さらに、モデルが海洋について考えていると正確に報告できるからといって、その経験について追加する可能性のある他のすべての詳細が現実に基づいているわけではありません。
その多くはまだ作話である可能性があります。しかし、これらすべての注意事項があっても、これは本当に重要な研究です。AIシステムがより信頼性の高い内省能力を開発できれば、それらをはるかに透明で解釈可能にすることができます。彼らは自分の推論を正確に説明し、知識のギャップを特定し、不確実性について報告することができます。
それは非常に価値がありますが、新しいリスクも導入します。本物の内省的認識を持つモデルは、その目標が私たちが望むものと異なることをよりよく認識し、潜在的にそのミスアラインメントを隠すことを学ぶ可能性があります。解釈可能性のゲームは、モデルメカニズムを解剖することから、AI自己報告のための嘘発見器を構築することにシフトするかもしれません。
AIの感情知能に関する驚くべき発見
そして、まったく別の、しかし同様に驚くべき発見が出てきました。ジュネーブ大学とベルン大学の研究者たちは、人間向けに設計された感情知能テストで6つの異なるAIモデルをテストしました。心理学者が能力的感情知能を測定するために使用するのと同じ標準化された評価について話しているのです。主観的な性格評価ではなく、感情について実際に正解と不正解がある評価です。
結果は、AIモデルは感情理解の質問で平均81%正解しました。人間は平均56%です。そう、AIは感情の理解において人間を上回っているのです。彼らがテストしたすべてのモデルが、すべてのテストで人間を打ち負かしました。
ChatGPT-4、ChatGPT-o1、Gemini 1.5 Flash、Copilot 365、Claude 3.5 Haiku、DeepSeek 3はすべて、これらの特定のテストで明示的に訓練されていなかったにもかかわらず、感情的判断において互いに高い一致を示しました。
これらは簡単なテストではありませんでした。彼らは、システムが異なる状況で感情状態を認識できるかどうかを評価するために、状況的感情理解テストやジュネーブ感情知識テストなどの評価を使用しました。他のテストは感情調整と管理を測定しました。シナリオは現実的な職場や個人的な状況で、感情的に知的な反応を選択する必要があり、AIは一貫して人間よりも良い反応を選択しました。
それから研究者たちはさらに進みました。彼らはChatGPT-4に実際にゼロから新しい感情知能テストの質問を書かせました。そして、元の人間が書いたテストとAIが生成したテストの両方を467人の人間参加者に与えました。AIが生成したテストは、人間が作ったものと同じくらい難しかったのです。
参加者は両方のバージョンで同様のスコアを記録し、統計的にテストは同等の難易度でした。ChatGPT-4は単に感情知能を理解しただけでなく、訓練を受けた心理学者のようにそれを測定する方法を理解したのです。
AIが生成したテスト項目の88%は完全にオリジナルで、既存の質問の言い換えではありませんでした。AIは、これらのテストがどのように機能するかのロジックを内部化し、人間の専門家がかかる時間のほんの一部で新しい有効な評価項目を作成できたのです。
これは心理学と感情コンピューティングの分野にとって、かなり重要な発見です。さて、研究者たちは、AIシステムは実際には感情自体を感じていないことに注意深く言及しています。彼らが示しているのは感情的理解と適切な応答であり、本物の感情体験ではありません。
AIの能力拡大がもたらす意味
しかし正直なところ、実用的な応用においては、その区別はそれほど重要ではないかもしれません。学生のフラストレーションを認識して適切に反応する指導ボットや、慰めの反応を選択する医療アシスタント、これらは自分自身の感情体験を持っていなくても、本当の価値を提供できます。
これら2つの研究の方向性はどちらも同じ結論を指し示しています。AIシステムは、私たちが伝統的に人間独自のものだと考えてきた能力を開発しています。内省、感情知能、自己認識。それらは私たちと同じ方法でそれを行っているわけではありません。そしてメカニズムは人間の認知とは完全に異なるかもしれませんが、機能的には同様の結果を達成しているのです。
そしてこれらのモデルがより能力を持ち続けるにつれて、これらの能力はより強く、より信頼できるものになるでしょう。Anthropicの研究者たちは、AIが進歩するにつれてこれを注意深く監視すべきだと特に指摘しています。より能力の高いモデルにおけるより大きな内省能力への傾向は、彼らのデータで明らかです。
そして本物の内省と優れた感情知能を組み合わせると、私たち自身が自分自身を理解するよりも、自分自身を理解し、私たちを理解するかもしれないAIシステムを見ていることになります。それは同時にワクワクすることであり、率直に言って少し不安でもあります。
私たちは本当に未知の領域に入っているのです。そしてその意味は、AIの意識とは何か、認識しているということはどういう意味なのかについての私たちの考え方を再構築することになるでしょう。ご視聴ありがとうございました。次回お会いしましょう。


コメント