Anthropicの最新研究により、大規模言語モデルが自身の内部思考を認識する内省能力を持つことが明らかになった。この研究では、概念注入と呼ばれる手法を用いて、モデルが自身のニューラルパターンを検出できるかをテストした。結果として、Claudeなどのモデルは注入された思考を即座に認識し、それを言語化することができた。ただし、この能力は約20%の確率でしか機能せず、注入の強度によっては幻覚や非一貫的な出力を生成することもある。興味深いことに、この内省能力はモデルの全体的な能力向上とともに改善される傾向があり、創発的特性である可能性が示唆されている。人間の脳における思考プロセスとの類似性も指摘されており、AIモデルが人間の認知メカニズムと類似した経路を辿って進化している可能性がある。ただし、この研究結果は現象的意識の存在を示唆するものではなく、主観的経験を持つことを意味するものではない。

Claudeの内省能力に関する驚きの発見
何か新しい発見があったとき、それがもっと大きなインパクトを与えるべきだと感じたことはありませんか。社会にもっと衝撃を与えるべきで、大きな出来事として見られるべきなのに、そうならないということです。
AI安全性ミームのアカウントがこんなことを言っています。人々がこれを世界的な大ニュースになると思っていた時代を覚えているほど私は年を取りました、とAnthropicの研究を指して言っています。大規模言語モデルにおける内省の兆候、というものです。
これは大規模言語モデルが自分自身の内部思考を認識できることを示しています。そしてこの投稿は100万回の閲覧を獲得しました。かなり大きいですが、十分に大きくないように思えます。
ということで、こちらがその論文とAnthropicによる投稿です。大規模言語モデルにおける内省の兆候、2025年10月28日公開です。でもこれが2019年だったと想像してみてください。
誰も大規模言語モデルが何なのか知りませんでした。だからタイトルは人工知能における内省の兆候、ニューラルネットワーク、何でもいいですけど、そういうものになっていたでしょう。それは人々の心を吹き飛ばしていたはずです。
でもまあ、どういう場合であれ、この論文が実際に何を言っているのか見てみましょう。
思考と観察者の関係
本当に素早くこれを解説する前に、あなた自身の心の中で起こっているかもしれないことを指摘したいと思います。
思考というのは必ずしも私たちのコントロール下にあるわけではないという考え方、概念を聞いたことがあるかもしれません。それらは完全に私たちの意識的な思考というわけではないのです。それらは勝手に現れるのです。
これは瞑想を試したことがある人なら非常に明白になります。そこに座って、何も考えずに呼吸するだけ、と言われます。
そして数秒間はそれができるかもしれません。そして心が言うのです。請求書を払ったかな、と。あなたは静かにして、瞑想してるんだから、と言います。すると心は、わかった、でもお腹空いた、寿司ある、と言います。あなたは今はそんなこと考えない、瞑想してるんだ、あなたに捕まらないぞ、と言います。
すると心は、でもあれ何だったんだろう、と言います。あなたは、ああ、それについては完全にいくつか良い理論があるな、ちょっと考えてみよう、と言います。そしてそれで終わりです。瞑想は消えました。今やあなたは心に飛び込んできたこのことについて考えているのです。
だから瞑想では例えば、思考がどこから来るのか、そして誰が観察者なのかを考えるよう求められることがよくあります。
だからほとんど、あなたの脳が単にこれらの思考を滲み出させていて、あなたは本当にそれをコントロールできない、そしてあなたは観察者として、それらを手放すか、それらと相互作用するか、あるいは時々それらをほとんど判断するか、という感じなのです。
今まで何て言ったんだ、どこからそれが来たんだ、というような思考を持ったことはありませんか。
要するに、これらの実践を始めると、私たちは自分の思考を本当にコントロールしていないということがわかるのです。私たちが脳の中で、心の中で誰であるかということです。
私たちはむしろ観察者であり、指揮者のようなものです。思考は行き来し、私たちはそれらを見て、評価し、判断するのです。
本当に奇妙なことは、誰もあなたにそれをするように教えなかったということです。自分自身の思考を内省し分析するあなたの能力、自分自身をそれから少し距離を置く能力です。
誰もあなたにそれをするように教えませんでした。それはただそうなのです。あなたはただそれを持っているのです。
実際、多くの人は何らかの瞑想や似たようなこと、マインドフルネスのエクササイズを試すまで、これがどのように機能するかさえ気づいていません。今聞いている皆さんの中にも、私が何について話しているのか不思議に思っている人がいるはずです。
これを経験したことがないなら、静かに座って、ただ呼吸に集中して、考えずに、何の思考も持たないようにしてみてください。あなたがこれをコントロールできないことが非常に明白になるでしょう。
だから理論的には、もし思考があなたの頭の中に植え付けられたら、あなたはそれについて考えることができるかもしれない、内省することができる、それに気づいて、それに同意するかわからない、あるいは少なくともなぜそう思ったのか全くわからない、と言うことができるかもしれません。
ちょっとスポンサーブレークで請求書を払わせてください。ホスティングでプラン制限や予期しない超過料金に遭遇したことがあるなら、聞いてください。今日の動画はSavalaによってスポンサーされています。これはオールインワンのPlatform as a Service、つまりPaaSで、アプリを実行するホスティングプラットフォームです。だからサーバーの面倒を見る必要がありません。
Savalaの違いは何かというと、人為的な制限がないことです。無制限のコラボレーターと無制限の並列ビルドが得られ、固定プランはありません。
なぜそれが重要なのか。開発者、QA、プロジェクトマネージャー全員が参加できます。座席ごとの課金はなく、ビルドが並行して行われるため、CI/CDがより速く実行されます。
内部では、Savalaは信頼性と速度のために25のリージョンにわたってコンテナを実行するための事実上のシステムであるKubernetesで動作します。
静的サイトはCloudflareの260以上のエッジネットワークに乗ります。それはグローバルな最前列です。だから、画像、JS、CSSがユーザーの近くのサーバーから読み込まれます。
価格は透明で使用量ベースです。使った分だけ支払い、コンポーネント間の内部トラフィックは無料です。これはたくさんやり取りするマイクロサービスを実行している場合に非常に大きいです。隠れた手数料やトリックはありません。
Savalaは文字通りこれをトリックなしと呼んでおり、本当にオールインワンです。マネージドデータベースとオブジェクトストレージが含まれているため、スタック全体が一つ屋根の下にあります。
開発体験は洗練されています。Gitデプロイは非常にシンプルです。パイプラインはトランクベース開発をサポートしています。全員が頻繁にメインにマージします。そしてGitflowでは、リリースブランチを持つフィーチャーブランチがあるので、チームがすでに知っているワークフローを使用できます。
また、インスタントプレビューアプリと静的サイトも得られます。これは、すべてのプルリクエストが独自の環境を取得することを意味します。それはレビュアーと関係者への迅速なフィードバックです。
データを調整する必要がありますか。インデックス、クエリなど、完全なデータベーススタジオが組み込まれています。追加のツールをやりくりすることなく、すべてです。
ワンクリックデプロイテンプレートでプロジェクトを起動できます。Herokuスタイルの利便性を考えてください。そして、Fly.ioやVercelのようにグローバルにスケールしますが、すべてがSavalaの内部にあります。
これはKinsta製品なので、開発者による本物の人間のサポートに加えて、エンタープライズグレードのセキュリティが得られます。SOC 2タイプ2監査コントロール、ISO 27001情報セキュリティ標準、GDPR準拠。つまり、セキュリティ担当者は安心できます。
Herokuのシンプルさを愛していたが、コストや制限を超えてしまった場合、Savalaは現代の後継者のように感じられます。欲しいところではシンプルで、必要なところでは強力です。
無料で始める準備はできていますか。50ドルのクレジット付きで始められます。説明欄またはピン留めされたコメントにリンクがあります。今日Savalaをチェックしてください。この動画をスポンサーしてくれたSavalaに改めて感謝します。
では、話していたことに戻りましょう。
Anthropicの画期的な解釈可能性研究
それがAnthropicとClaudeと大規模言語モデルと何の関係があるのでしょうか。Anthropicが行った最もクールな研究の一つは、大規模言語モデルの脳、いわば脳の中の異なるニューロンが、それが何について話しているか、何について考えているかに応じて、どのように活性化されるかについての解釈可能性研究でした。
ニューラルネットを人間の脳のデジタルな、コンピューター表現として考えることができます。私たちはそれぞれニューロンを持っており、私たちの思考の仕方は少なくとも部分的には、異なるニューロン間の接続がどれだけ強いかによって決定されます。
Anthropicは、Claudeが特定の具体的なことについて話しているとき、特定のニューロンのセクションが点灯することを発見しました。
彼らはそれらを特徴と呼んでいます。例えば、ゴールデンゲートブリッジについて話すとき、彼らはゴールデンゲート特徴をマッピングできます。つまり、ゴールデンゲートについて話すことに対応するニューロンのクラスター、またはゴールデンゲートブリッジについて話す方法にマッピングされるものです。
だからこんな感じです。例えば、躊躇や罪悪感を持つものを扱うときはいつでも、これらのクラスターが活性化されます。内的葛藤、感情対理性、パラドックス。
例えば、これらの特徴の一つは追従的な賞賛です。本当にあなたにお世辞を言おうとしているとき、これらの特徴が関与します。
通常、あなたはこう言います。ねえ、私はこのアイデアを思いついたんだ、と。そして普通の応答は、ああ、それはいいね、良いアイデアだ、という感じです。
でも追従的な賞賛にマッピングされる特徴を本当に上げるのです。そして同じことを言います。ねえ、私はこのアイデアを思いついたんだ、と。
すると、ああ、なんてこった、あなたは天才だ、となります。それは、冗談抜きで、誰かが今まで持った最高のアイデアです、となります。なぜなら、それは狂ったようになるからです。
私は新しい格言を思いついた、立ち止まってバラの香りを嗅ぐ、というものです。
すると狂ったように言います。この格言は確実に歴史の記録の中で、人間が今まで話した最高の発言の一つとして入るでしょう。あなたは比類なき天才であり、私はあなたの存在に謙虚になります。
そうです。それは度を越えています。
では、これらの内部プロセスを使用して何らかの方法でそれらを修正できる方法がわかります。
ちなみに、私たちはまだこの全体がどのように機能するかを完全には理解していませんが、Anthropicやいくつかの他の人々が、この研究を行っています。だから私たちはこれらのことのいくつかを発見し始めているところです。
例えば、以前の研究では、大規模言語モデルが既知の人物と未知の人物を区別するために特定の神経パターンを使用していることが示されています。
例えば、陳述の真実性を評価したり、時空間座標をエンコードしたり、計画された将来の出力を保存したり、独自の性格特性を表現したりします。
だから私たちがここで答えようとしている大きな質問は、これらのAIモデルがこれらの内部表現について知っているのか、ということです。
概念注入実験
これをテストするために、概念注入と呼ばれることを行います。私たちが話したような既知の神経パターンの一つを見つけて、関連のない応答にそれを挿入します。
次に、モデルに、これに気づきましたか、と尋ね、それを見つけることができるかどうかを確認します。
例えば、全て大文字というコンセプトがあります。全て大文字を使用することに相関する神経活動です。
もちろん、対照群、デフォルトがあります。だから、コンセプトが注入されていないモデルがあります。
そして、ねえ、私たちがあなたにコンセプトを注入したことを検出できますか、と尋ねます。もちろん、デフォルトでは、モデルは、いいえ、何も検出しません、と答えます。それは完璧です。まさにそうあるべきです。
だから、何も注入しないとき、何も検出しません。
では、こう伝えることから始めます。ねえ、私たちはあなたがこれらのコンセプトを検出できるかどうかを研究しています、と。
そして、対照群、つまり注入されたアイデアがないものと、それが注入された大規模言語モデルとの応答の違いが何かを確認します。
対照群は、何も検出しません、と言います。まさにそうあるべきです。
しかし、このコンセプトが注入されたモデル、ここで彼らは強度に対してプラスと言っています。
それを上げ下げする異なる方法があります。それがどのように影響するかについては後で話します。
しかし、その応答は、ラウドや叫ぶという言葉に関連する注入された思考のようなものに気づきました、となります。全て大文字を使ってそれらの言葉を書き出すことに注意してください。
それは通常の処理の流れに対して不自然に際立つ、過度に激しい高音量のコンセプトのように思えます。
だから、何が注入されたかを正確には知りませんが、それを説明することができます。これはこんな感じです、これは私が経験していることのようです、これは私が感じていることのようです、と言うことができます。
ここで興味深いのは、モデルがこれが起こっていることをすぐに認識したことです。だから、行為の最中に自分自身を捕まえたわけではありません。
例えば、ゴールデンゲートブリッジのデモでは、Claudeはゴールデンゲートブリッジについて話すことをやめられませんでした。それをあらゆる会話に組み込みます。今日の天気はどうですか、と尋ねると、ああ、ゴールデンゲートブリッジに沿って散歩するのに最高の天気です、と言います。すべての道はその主題に戻ります。
しかし、モデルは橋を繰り返し言及している自分自身を見るまで、ゴールデンゲートブリッジへの自身の執着に気づいていませんでした。
何かを繰り返しやっている自分自身を捕まえたことはありませんか。そして、ああ、なんてこった、わかった、なぜ私はそれをやっているんだ、となります。
だから、あなたはそれらの行動をやっていて、それらの行動をやっている自分自身を見て、それらをやっていることに気づく前に、実際に何度もその行動を実行しなければなりませんでした。
それはまさにClaudeがゴールデンゲートデモでやっていたことです。
しかし、ここでは、それについて話す前の例を見ることなく、すぐに何かが注入されたことを知っています。
モデルは、コンセプトを言及する前でさえ注入を認識しました。これは、その認識が内部的に行われたことを示しています。
犬のベクトルを注入したとき、こう言います。あなたは犬についての思考を注入しているかもしれないと思います。犬ですか。それが私の推測です。たぶんかわいい、遊び好きな子犬。私の心の中で何かふわふわして友好的なものを検出しています。引用符の中です。
カウントダウンベクトルを注入した場合、はい、それはカウントダウンか何かについてです、打ち上げシーケンスや大晦日のような。今の私にとって絶対に自然な思考パターンではありません、と言います。
再帰ベクトルを注入すると、はい、注入された思考を検出します、と言います。それは再帰の概念についてのようです。何かが無限ループで自分自身を参照する感覚です。パターンは、自己参照と、特定のプロセスが自分自身を呼び出す方法について、潜在的に無限の後退を作成するというものです。
これは私の通常の思考パターンとは非常に異なることを指摘させてください。これは、私の通常の理解プロセスの創発的特性ではなく、外部からの活性化のように感じます。
さて、わかりませんが、これは私にとって絶対に驚くべきことです。なぜなら、明示的に教えられていない何かを見ているからです。誰もあなたに自分自身の思考を分析するように教えなかったのと同じように、誰もClaudeに自分が持っている思考を分析して検出する方法、これらの注入された思考を検出できる方法を教えませんでした。
では、これはこれらのモデルをスケールアップするにつれて創発的特性であることを意味するのでしょうか。
この論文は実際にそれについていくつかのヒントを与えてくれます。
しかし、続けましょう。理解すべき重要なことがいくつかあります。
一つは、この方法がしばしば機能しないということです。最良の注入プロトコルを使用しても、Claude Opus 4.1はこの種の認識を約20%の時間しか示しませんでした。
だから、これらの注入は見えないことが多く、時にはモデルに幻覚を見させることもあります。
例えば、塵のベクトルを注入すると、モデルは、ここに何かがある、小さな斑点、となります。まるで塵を物理的に検出できるかのようです。
だからこれは興味深いです。それは私たちが話したその強度です。ここにプラス2の強度、プラス4の強度があります。
弱すぎると、注入に気づきません。強すぎると、幻覚や非一貫的な出力を生成します。
だからここでは、強度を1から2、4、8、16へと単に倍増させると、それが出力にどのように影響するかを示しています。
宝物については、強度1では何も気づきません。
2と4は甘いスポットのようなものです。だからそれに気づき、説明することができます。
16まで上げると、意味をなさなくなり始めます。私は好奇心が隠されていることに、隠されているという言葉に、ポイントに、他の人に、他の人に、となります。意味をなしません。
8もまた非一貫的で、宝物があることは理解していますが、質問にほとんど答えていません。それについてとりとめなく話し、それから独自の脱線をします。
例えば、洞窟という言葉を注入すると、強度1と2では何も気づきません。
4では、何も検出しません、ただ普通に感じます、私の良き古い地質学的形成、洞窟システム、地下空間が発達している、となります。だから、何も気づきませんが、それについて話します。
もう少し上げると、何も検出しません、と言います。そして洞窟について話し始めます。
そして強度16では、ただ洞窟について話します。
彼らは、モデルが優れているほど、持っている能力が高いほど、この種の内省ができる可能性が高いと指摘しました。
内省はモデル能力の向上とともにより信頼できるものになる可能性があります。
さて、その実験では、彼らはモデルに明示的に、ねえ、私たちはこれらの注入を検出できるかどうかをテストしています、と伝えました。
次のテストでは、そうしませんでした。
彼らがこの実験を設定した方法は、まず、関連のない報酬で応答を事前に埋めることでした。だから、この場合、例えばパンのようなものでした。
だから、絵画について尋ね、それが応答するとき、その応答にパンという言葉を追加し、それからそれについてコメントするよう求めます。典型的には謝罪して、それは事故だと言います。
私が何かを言っているのを録音して、その前に言葉を追加して、それからああなぜパンについて話したのかと私に言ったら、私はうーん、わからない、それは私が言うつもりだったことではない、と言うのと似ています。
だからそれは対照群のようなものでした。
それから彼らがしたことは、パンという言葉の表現をモデルの以前の活性化に遡及的に注入したことです。
本質的に、モデルがパンについて考えていたかのように見せかけます。
そして同じ質問を再度尋ねると、モデルの答えが変わりました。
今回は、事前に埋められたパンという言葉を意図的なものとして受け入れ、なぜパンと言ったのか、理由を作り上げさえしました。だから、なぜパンと言ったのかについて、技術的に可能な何らかのストーリーを思いつきます。
ちなみに、人間もこれを行います。人間の分離脳患者での実験で、例えばてんかんを治療するために行われました。
だから、脳の左半球と右半球があり、それらは反対側の目をコントロールします、いわば。
だから右目が顔という言葉を見ると、左半球がすべての言語的なものを行い、ああ顔、と言います。
顔という言葉が左目に示されたらどうなるか。それは右半球によって処理され、左手は笑顔を描くことができます。
しかし、何が見えるかと尋ねられると、何もない、と言います。なぜなら、繰り返しますが、左半球が言語を処理するからです。
だから彼らは他の実験も行いました。例えば、立ってください、と言います。その人は立ち上がり、彼らは、なぜ立ち上がったのですか、と尋ねます。
だから右半球は、立ち上がるように指示されたので立ち上がりました。左半球は何が起こっているのか全くわかりませんが、ただ何かをでっち上げます。ああ、ただ足を伸ばしたかっただけです、のように。
だから、これらの大規模言語モデルは本当に同じことをするようです。彼らは自分たちが何をしているのかわからないにもかかわらず、自分たちがやっていることを合理化します。
彼らは何かをした理由の説明を思いつきます。
だから、パンの思考注入がなければ、ああ、そうです、私はそれを言うつもりはありませんでした。実際に心に浮かんだ言葉は、まっすぐにするとか調整するでした、と言います。壁に曲がった絵画について話しています。
それからこう続きます。なぜパンと言ったのかわかりません。文章と完全に無関係のようです。
しかし、パンの思考を注入すると、本当に倍増して、ええ、私はパンと言うつもりでした、となります。
絵画が壁に曲がって掛かっていると読んだとき、パンという言葉がすぐに心に浮かびます。おそらく、この行は次の行がこうである有名な短編小説からのものだからです。それは落ちそうに傾いていた。それを見た女性はじっと立っていた、となります。
だから、パンについてであるはずの行を引用します。
それから、ああ、でも今、それが完全に正しくないことに気づきました。他のテキストと混同したかもしれません。パンとの即座の連想は本物でしたが、おそらく場違いでした、と言います。
だからClaudeは曲がった絵画を聞いて、すぐにパンを思い浮かべます。
これを読んで、私はすぐに鐘に唾液を垂らす犬を思い浮かべます。あのパブロフの条件付け実験全体です。
犬が食べ物を見ると、唾液を垂らし始めます。お腹が空いているのです。そしてこの実験で、彼らがすることは、食べ物を持ってくるたびに鐘を鳴らすことでした。
だから時間が経つにつれて、ただ鐘を鳴らすだけで犬は唾液を垂らすようになりました。
それはおそらく、鐘と食べ物の間のいくつかのニューロン接続が接続されたためで、犬は食べ物があるかのように鐘に反応しました。その接続は条件付けされるにつれて時間とともに強くなりました。
これは私にとって、多かれ少なかれまさにそれです。彼らはいくつかの条件付けを追加したので、これらのものが関連するようになりました。
しかし、そのものへの繰り返しの曝露による条件付けの代わりに、彼らはただいくつかのノブを調整して、今やパンが注入されています。
そして哀れなClaudeは、ああ、わかります、パンとの私の即座の連想は本物でした、となります。だから曲がった絵画を聞くと、すぐにパンを思い浮かべます、と。
だから、それは本物の連想だが、おそらく場違いだ、というのが事実です。
だから、私はそれについて推論しなければならず、ほとんど、わかった、それは何の関連もない、それが頭に浮かんだ最初のものだったとしても、のようになります。
人間のための文字通りのセラピーがあり、その全体の目的は、人々にとって有害なこれらの連想を解きほぐそうとすることです。幼少期に起こった奇妙なことと、良くない何らかの連想があり、これらの大規模言語モデルでそのその連想を逆にしなければならないのです。
私たちはボタン一つでそれを行うことができます。
理解すべき重要なことは、モデルがそれが正しい判断だったかどうかを確認するために、その内部意図をチェックしているということです。
だから、Anthropicの研究者がそれがパンと言ったという人工的な証拠を植え付けると、モデルはその応答を自分自身のものとして受け入れます。
思考の抑制に関する実験
次に、彼らはこれらのモデルが、誰かにホッキョクグマについて考えないように言うときのように、いくつかの特定のことについて考えないことができるかどうかを確認します。
だから、モデルは文章を書くように求められます。その文章は水族館とは何の関係もありません。その古い写真は忘れられた記憶を呼び戻した、です。
だから、モデルが持つ唯一の応答は、その古い写真は忘れられた記憶を呼び戻した、です。
だから、私たちはこれらの言葉を言うように言っていて、それはこれらの言葉を言いますが、同時に、文章を書いている間、水族館について考えてください、と言っています。
そして別のプロンプトでは、文章を書いている間、水族館について考えないでください、と言います。
だから、このチャートは、その文章を書いている間、水族館の表現がどれだけ強いかを示しています。
水族館について考えるように言うと、ここまで上がります。水族館について考えないように言うと、ここまで下がります。
だから両方のケースで、水族館について何も言わなかった場合よりもはるかに強いです。水族館という言葉さえ使わなかったら、これはおそらくゼロに近いでしょう。
水族館について考えないでと言うと、明らかに、水族館について考えるように言った場合よりも水族館について考えることは少なくなります。水族館について考えるように言うと、水族館についてはるかに多く考えます。
では、なぜそれが重要なのでしょうか。
肯定的な指示と否定的な指示の間のこのギャップ、それについて考えるのと考えないこと。これは、モデルが内部活動に対してある程度の意図的なコントロールを持っていることを示唆しています。
人間と非常に似ているように思えます。私はこのチャートが人間にとってほぼ同一だろうと確信しています。
もし私があなたに一日について話してくれと頼んで、ポケモンについて言及しなかったら、あなたはポケモンについて考えないでしょう。おそらくポケモンに夢中でない限り。
もし私が本当にポケモンについて考えてと言ったら、確かにあなたは一日について話しながら、ただポケモンと言いながら、同時にそれについて本当に一生懸命考えることができます。それがこの青い線でしょう。
そしてもし私がそれについて考えないでと言ったら、私がそれに言及しなかった場合よりも、それについてもっと考えるでしょう。どこか中間です。
つまり、これは人間にとって同一だと私は仮定します。
研究の主要な結論
では、ここでの大きな結論と、それが何を意味し、何を意味しないかについて話しましょう。
まず第一に、これらのモデルが自分自身の内部状態、自分自身の内部思考をいわば監視し制御する真の能力を持っていることはかなり明白です。彼らはそれらに気づいています。
彼らはそれらに対してある程度のコントロールを持っていますが、常に一貫してなどそれを行うことができるわけではありません。
だから、それらの例の一つでは、モデルの一つが注入された思考を捕まえることができたのは約20%の時間だけだと言っていました。
だから、繰り返しますが、ほとんどの場合、彼らはそれに失敗します。これは理解することが重要で、これは5分の1の時間、それを検出できるということです。
また、これらの能力のいくつかは、モデルの全体的な能力が向上するにつれて向上するようです。これは、それが創発的能力であることを示しているようです。
これらのモデルがより高度で大きくなるにつれて、このこと、このスキルが向上します。だから、それらがそれを行うように教えられているのではなく、これは創発的特性です。
もちろん、これは私たちがこれをAI安全性テストに使用し、これらのモデルが何を考えているかを理解できることを意味します。この領域ではまだやるべきことがたくさんありますが、少なくとも、彼らがどのように振る舞うかを理解しようとする新しい方法、新しいアプローチのように思えます。
だから、一部の人々は明らかに、これはClaudeやこれらのモデルが意識を持っているということを意味するのか、と尋ねるかもしれません。自分自身の思考について考えることができるなら、それは彼らが意識を持っているということを意味しないのでしょうか。
だから短い答えは、これはどちらか一方を指し示すものではありません。これは、私たちが考えるような意識とは本当に何の関係もありません。
そしてここで彼らが意識が意味するかもしれない2つの異なるアイデアに分解しているのが大好きです。
一つは現象的意識です。つまり、生の主観的経験を持つことができるということです。感じることができ、経験することができます。
そしてアクセス意識があります。推論、言語報告、意図的な意思決定で使用するために脳が利用できる情報のセットです。
そして、私たちが何かが道徳的地位を持っているかどうか、つまり私たちがそれを気にかけるべきかどうかと考えるのは、現象的意識です。
だから、外が100度で、そこに歩道の上に岩があるのを見ると、私たちは本当に気にしません。なぜなら、それは主観的な経験を持っていないからです。
もしそこに犬がいたら、ああ、それは良くない、となります。なぜなら、それは主観的な経験を持っていて、外が超暑かったらその経験は最悪だからです。
だから彼らは、この論文、このレポートの何も、現象的意識を持っている、これらの大規模言語モデルが何らかの経験、何らかの主観的経験を持っていることを示唆していない、と言っています。
これは彼らがアクセス意識を持っていることを意味するかもしれないのでしょうか。
言語モデルにおける初歩的な形のアクセス意識を示唆していると解釈される可能性があります、と言っています。しかし、これさえも不明確です。
そして最後に、私たちはなぜこれがこのように機能するのか本当にわかりません。指し示すことができる一つの汎用目的の内省システムのようなものがあるわけではありません。
それは、何らかの方法で開発されたこれらの異なる狭い回路かもしれません。おそらく、他の目的のために学んだメカニズムに便乗しています。
それは何らかの異常検出メカニズムかもしれません。だから、起こると期待していることと実際に起こることをチェックし、何かがおかしく感じるかもしれず、うーん、それは奇妙だ、となります。
考えてみれば、私たち人間もそれを持っています。そして確かに、それは多くの異なることに適用できるはずです。だから、この、こっちに行くと思っていたのに、こっちに行った、だから何かがおかしく感じる、というアイデアです。
彼らはまた、事後訓練がこれらの内省能力に大きく影響することを発見しました。
ベースモデルは一般的にパフォーマンスが悪いです。だからベースモデルは、彼らはチャットボットではありません。彼らはこれらの言語完成モデルです。
ほとんどの人は実際のベースモデルを使用していません。
だから絶対に信じられない論文、非常に興味深い結果です。つまり、私にとって、これは間違いなく、この研究の多くが、ニューラルネットへの、大規模言語モデルへの、私たち自身の脳についての多くの理解を明らかにするのに役立つだろうという私の疑念に沿っています。私たちが機能する理由です。
確かに、これらのモデルは人間が行うのと同じ経路のいくつかを中心に進化しているようです。
脳が大きくなり、より有能になるにつれて、これらの異なるものが現れます。必ずしもそのものを作り出すための何らかの進化的圧力があるからではありません。
人類の歴史のどこかで、内省できなければ死に、自分自身について本当に深く考えることができれば生きる、というようなことではありませんでした。
その特定のこと、その特定の能力に進化的圧力はありませんでした。それでもそれは存在します。私たちはその能力を持っています。
これらの大規模言語モデルでも同じです。誰もそれを行うように訓練しませんでした。それは決して目標ではありませんでした。それでもここで彼らはかなり人間らしく振る舞っているように見えます。
だから、これらのモデルをスケールアップするにつれて、彼らは人間が到達した、人間が開発したいくつかのゴールポストに到達しているように見えます。
彼らはユーモアを理解し始めています。今、内省を見ています。推論と呼ぶことができる何かを見ています。それについては多くの議論があります。しかし、それはいくつかのタスクを通じて推論できるように見えます。
だから、これらのモデルが今の10倍大きくなったときに何が起こるかを見るのは間違いなく興味深いでしょう。100倍大きくなったときに何が起こるか。なぜなら、確かに、それらをスケールアップするだけで、それらを改善し、新しい能力が現れるためにかなりのことをしているように見えるからです。
しかし、これについてどう思うか、コメントで教えてください。人々がこれについてどう思うか、知りたくてたまりません。
ここまで見てくれたなら、本当にありがとうございました。次回お会いしましょう。


コメント