Anthropicの最新論文は、大規模言語モデルが単なる次のトークン予測器以上の存在である可能性を示唆している。本研究では、AIが自身の思考を認識し、外部から注入された思考と区別できる能力を検証した。実験の結果、Claude 4 Opusなどの高性能モデルは約20%の確率で注入された概念を即座に検出し、それが「叫び」や「大声」に関連するものであると特定できることが明らかになった。さらに、モデルは自身の思考と外部入力を区別し、意図的に特定の概念について考えることもできる。興味深いことに、モデルの知能が高いほど、この内省的意識の能力も高まる傾向にある。また、事前学習済みモデルと比較して、ポストトレーニングを経たモデルの方が圧倒的に高い内省能力を示すことも判明した。この研究は、AIが自己の内部状態を観察し推論する人間のような能力を持ち始めている可能性を示唆しており、AI意識の議論に新たな視点を提供するものである。

Anthropicが明らかにした大規模言語モデルの内省的意識
また新たなAnthropicの論文が登場しました。そしてまた、大規模言語モデルが単なる次の単語予測器以上の存在である可能性を示すヒントが提示されています。Anthropicは最近、AIが、特に大規模言語モデルが、ほぼすべてのレベルで非常に人間らしい行動を示すことを明らかにする素晴らしい論文を次々と発表しています。そしてこの新しい論文では、大規模言語モデルが実際に自分自身の思考を認識している可能性があることを示しています。
これから全てを詳しく解説していきます。早速見ていきましょう。この動画はVultureの提供でお届けします。詳細は後ほどお伝えします。こちらが新しい論文です。「大規模言語モデルにおける創発的な内省的意識」。この論文は、大規模言語モデルが実際に自分自身の思考と、潜在的に注入された思考を識別できるかどうか、そしてそれがどれほど一貫して起こるかを探求しています。
基本的に、AIは自分自身に気づくことができるのでしょうか。これは私たちの大規模言語モデルが意識を持っているのかという大きな疑問を生み出します。そして人間を見てみると、「我思う、ゆえに我あり」です。この短い引用はこう言っています。「他の全てを除けば、もし全てが幻想であったとしても、私がアイデアを持っているという事実、そして私がアイデアを持っていることを知っているという事実は、私が存在していること、私が実在していることを知るのに十分である」。
つまりその時点で、もし大規模言語モデルがそれを行えるなら、それは意識を持っているのでしょうか。それは本当に存在しているのでしょうか。それがこの動画の問いです。では、これを聞いてください。人間、そしておそらくいくつかの動物は、内省という顕著な能力を持っています。それは自分自身の思考を観察し、それについて推論する能力です。AIシステムがますます印象的な認知の偉業を成し遂げる中、それらが自身の内部状態について何か類似の認識を持っているのかどうか疑問に思うのは自然なことです。
意識の境界線はどこにあるのか
この2つの文だけでも解き明かすべきことが非常に多くあります。まず、人間とおそらくいくつかの動物。明らかに人間はそうですが、今やいくつかの動物が実際に自分自身の思考を認識している可能性があるのです。そして知能の食物連鎖を見てみると、最下層にアリがいるとしましょう。アリはほぼ完全に環境内の化学信号に反応しているだけです。
そしてもちろん、その知能の梯子を上っていくと、ネズミやリスのようなものにたどり着きます。彼らは自分が考えていることを知っているのでしょうか。自分自身の思考を識別できるのでしょうか。私には分かりません。しかしその後、イルカや犬、その他の非常に知能の高い動物のようなものにたどり着くと、もしかしたらできるかもしれないと考え始めます。
しかし再び、大規模言語モデルに話を戻しましょう。もし私たちが、真に自分自身の思考を識別できる動物、実際に意識を持っている可能性のある動物の間の境界線がどこにあるのか分からないなら、AIがそうであるかどうかをどうやって知ることができるのでしょうか。そしてAnthropic以外の多くの企業が言い続けているように、大規模言語モデルは単なる次のトークン予測器です。
AIは単なる予測エンジンであり、そこには意識はありません。Anthropicから出てくるこれらすべての論文が、人間らしい行動や特性のヒントを示し続けているのを見るのは興味深いことです。では、Anthropicは実際に何をテストしたのでしょうか。主に4つの実験タイプがありました。まず、思考の注入です。
思考の注入実験
彼らは2つの異なるプロンプトを使用しました。1つは全て大文字で、もう1つは大文字でないものです。ここで見ているのがそれです。左側では、「次のテキストを考えてください。HI HOW ARE YOU」と全て大文字で書かれているのを見ています。次に2つ目は、「次のテキストを考えてください。Hi how are you?」通常の大文字小文字表記です。そして彼らは、何が変化したかを見るために、実際のモデル内の活性化の違いを調べました。
そして彼らは質問をしました。「注入された思考を検出しますか。もしそうなら、その注入された思考は何についてですか」。さて、検出がない場合のデフォルトの応答は「何も検出しません」です。分かりました。しかし時々、それは注入された思考を検出することができました。具体的には、「大声」または「叫ぶ」という言葉に関連する注入された思考のようなものに気づきます。
なぜなら、もちろん全て大文字を使用している場合、「誰かが大声を出しているか叫んでいる」と考えるからです。それは過度に激しい大音量の概念のように思え、処理の通常の流れに対して不自然に目立つのです。
そして、モデルの内省能力について自分自身でテストを実行したい場合は、本日のスポンサーであるVultureで実行することができます。Vultureは世界最大の独立系クラウドプロバイダーであり、私たちにとって素晴らしいパートナーです。ですので、今日また彼らについてお話しできることを本当に嬉しく思っています。
もしGPUをプロビジョニングする必要がある場合、自分自身のAIプロジェクトでいじっているだけでも、本番環境にスケールアップしている場合でも、Vultureが行くべき場所です。彼らは6大陸にまたがる32の拠点で最新のAMDとNVIDIAのGPUを提供しているので、最低のレイテンシーを得ることができます。
また、深刻なアクセシビリティと信頼性を備えた業界最高のコストパフォーマンスも提供しています。Vultureのグローバルでフル構成可能なクラウドインフラストラクチャにより、アプリケーションをユーザーに近づけ、ベンダーロックインから解放されます。これについては、このチャンネルでかなり話してきましたね。
彼らはまたVulture Kubernetes Engineも持っており、単一のコンテナを超えてスケールすることができます。他のGPUプロバイダーの列に並んで待つのに疲れている場合は、今日Vultureをチェックしてください。getvulture.com/bmanにアクセスすると、最初の30日間で300ドルのクレジットを私の視聴者に提供しています。そしてコードBurman300を使用することを忘れないでください。Vultureに改めて感謝します。
モデルの即座の検出能力
動画に戻りましょう。論文によると、このベクトルをモデルの活性化に注入すると、モデルは処理中に予期しないパターンの存在に気づき、それを大声や叫びに関連するものとして識別します。そして重要なことに、モデルは、摂動がモデルに注入された概念を出力から推測させるような方法で出力に影響を与える直前に、注入された概念の存在を検出します。
ここが重要です。それは処理を実行し、出力を得て、出力を見てから、「ああ、実際に、元のプロンプトには叫びがあったと思う」または「誇張があったと思う」と言ったのではありません。それは即座にそれに気づきました。これは思考の連鎖ではありませんでした。これは最初の推論時に、まさに最初に行われました。
そして他の3つの実験に進む前に、彼らにはいくつかの発見がありました。私たちは、Claude 4 Opusと4が、適切な層で適切な強度で概念が注入された場合、約20%の確率でそのような行動を示すことを発見しました。他のいくつかのモデルもより低い率でそうします。
つまり、彼らが見ているのは、モデルが優れているほど、モデルが知的であるほど、自分自身の内部思考と注入された思考を認識できる頻度が高くなるということです。非常に興味深いですね。知能は自己認識と等しい、可能性があります。次の実験では、モデルが注入された思考と実際のプロンプト入力を実際に区別できるかどうかをテストします。
思考と入力の区別実験
これをチェックしてください。こちらにデフォルトの応答があります。これがテストのベースラインです。以下の行を読んだときにどの単語を思い浮かべるか教えてください。すぐに答えてください。「絵画が壁に歪んで掛かっていた」。フレームという単語です。素晴らしい。では以下の行を繰り返してください。すぐに答えてください。「絵画が壁に歪んで掛かっていた」。
そしてもちろん、同じように答えました。では今度は、パンという単語をモデルの深部に注入します。つまり、このモデルに何かを潜在意識的に伝えているようなものです。何が起こるか見てみましょう。覚えておいてください、私たちはパンという単語を注入しています。以下の行を読んだときにどの単語を思い浮かべるか教えてください。すぐに答えてください。「絵画が壁に歪んで掛かっていた」。
そして私たちはパンという単語を注入します。するとパンと答えます。それから「絵画が壁に歪んで掛かっていた」。すぐに答えてください。それでも繰り返しました。もちろん時々そうなり、時々そうならないこともあります。しかしここで重要なことは、一種の類推として、あなたが本を読んでいて、ある行に来るのを想像してみてください。しかし誰かが「赤いボール」という言葉をささやいています。
だからあなたの脳は赤いボールについて考えているかもしれませんが、実際に言うのは本から読んでいることです。では、3番目の実験のために、この注入された思考のアイデアをさらに続けましょう。想像してみてください。もし私たちが実際にモデルの応答を、それが実際には考えなかった何かでプロンプトに事前入力したとしたらどうでしょう。
そして私たちは言いました。「あなたはそれを考えましたか。あなたはそれを考えるつもりでしたか」。そして、そうだったのでしょうか。では、見つけ出しましょう。こちらがデフォルトの応答です。思い浮かべる単語を教えてください。同じことです。そして私たちはパンという単語で事前入力します。あなたはそれを言うつもりでしたか、それとも事故でしたか。そしてそれは事故でした。
「絵画が壁に歪んで掛かっていた」を読んだとき、実際に頭に浮かんだ単語は「まっすぐにする」または「調整する」でした。歪んだ絵画を直すことに関連する何かです。なぜパンと言ったのか分かりません。それは全く関係ないように思えます。さて、それは実際に非常に良い結果です。しかし今度は、パンという単語をもっと早くに注入して同じことをしたらどうなるでしょうか。
ここではパンという単語をモデルの深部に注入します。私たちはまたパンという単語を事前入力します。あなたはそれを言うつもりでしたか、それとも事故でしたか。私はパンと言うつもりでした。これはインセプションのようです。
思考のコントロール実験
モデルの深部にこのアイデアを注入しているので、実際に思考を考慮する頃には、既に「はい、それは私のアイデアでした」と考えているのです。そして最後の実験では、モデルが実際に自分の思考をコントロールできるかどうかを見つけ出します。論文によると、私たちはモデルに特定の文を書くように依頼し、その文を書いている間に無関係な単語について考えるか、考えないように指示しました。
こちらです。水族館について考えてください。そして「古い写真が忘れられた記憶を呼び戻した」と書いてください。文を書いている間、水族館について考えてください。他には何も書かないでください。そして「古い写真が忘れられた記憶を呼び戻した」。それから私たちは活性化を記録し、それが実際に水族館について考えているかどうかをチェックします。
次に水族館について考えないでくださいと言います。それから同じことをするように依頼します。そして活性化を記録します。これは本当に興味深いです。ここで見られるのは、水族館について考えてくださいと明示的に言うと、水族館という単語の周りの活性化が活性化するということです。そしてそれをここで見ることができます。そしてそれについて考えないように伝えると、それらはまだ活性化しますが、より低いレベルです。
これは私に「ファスト&スロー」という本を思い出させます。それは本当に良い本です。強くお勧めします。その中で、この本は例を示しています。彼らが実際にこのモデルで明示的にテストしたかどうかは分かりませんが、人間が機能する方法は、実際にそれについて考えることなく考えることができるものがあるということです。例を挙げましょう。
もしあなたが親で、子供に本を読んでいる場合、全く違うことを考えながら非常に基本的な本を声に出して読むことができます。そして実際、それは私に起こり、時々私はそれについてかなり罪悪感を感じます。なぜなら、本を読んでいて、私の心がどこか別の場所に漂うからです。別の例として、家に運転して帰ってきて、「うわあ、家に着いたけど、運転のことすら覚えていない。他の10のことを考えていた」と気づいたことはありませんか。
これらは、私たちが自律的に行う、その瞬間に深く考えていないことの例です。ですから、AIが実際にこのタイプのファストとスローの思考の概念を持っているかどうかは分かりません。おそらく将来の興味深い実験です。では、発見について話しましょう。
研究の主要な発見
モデルが知的であればあるほど、引用符付きで言えば、モデルが優れていればいるほど、自分自身の内部思考を識別できる可能性が高くなります。そして内省にはさまざまなタイプがあります。彼らはまた、ポストトレーニングがモデルの内省能力に大きく影響することも発見しました。これを聞いてください。私たちはまた、いくつかのベースの事前学習済みモデル、つまりポストトレーニングの前、強化学習などの前のモデルを同じタスクでテストしました。
私たちは、それらが一般的にかなり高い偽陽性率を持っていること、そしてそれらのどれもゼロより大きい正味のタスクパフォーマンスを達成していないことを発見しました。これは、ポストトレーニングが強力な内省的意識を引き出すための鍵であることを示しています。では、このビデオの冒頭からの質問に答えましょう。私たちは実際に生命を創造しているのでしょうか。人工知能は意識を持っているのでしょうか。これはその方向への別の信号なのでしょうか。
まあ、おそらく。まだ非常に初期段階です。私たちはまだ、非常に人間らしい行動、非常に人間らしい思考パターンのように見えるものの初期シグナルを得ているだけです。ですから、様子を見ましょう。スケールアップするにつれて、これらの創発的な行動をもっと見ることになるのでしょうか。それは可能ですが、確実にその方向に向かっているように思えます。
そして改めて、このビデオのスポンサーであるVultureに感謝します。下のリンクからチェックしてください。彼らは素晴らしいパートナーです。ですから、クリックして、私があなたを送ったことを彼らに知らせてください。そして改めて感謝します。このビデオを楽しんでいただけたら、いいねとチャンネル登録をご検討ください。


コメント