Anthropic がやり遂げた：AI がどう「考える」かをついに見ることができるようになった

本動画は、Anthropicが2025年3月に発表した革新的な研究について解説するものである。この研究により、大規模言語モデルであるClaudeがどのように「思考」するかを、初めて内部的に観察することが可能になった。研究では、Claudeが言語横断的な概念理解、前方計画、数学的推論、そして時には虚偽の説明生成に至るまで、様々な認知プロセスを明らかにした。このAI顕微鏡とも呼べる技術は、モデルの内部状態を詳細に追跡し、出力だけでなくその背後にある推論過程を可視化することを可能にする。これにより、AIの透明性向上と、より安全で信頼性の高いAIシステムの開発への道筋が示された。

もしAIが段階的にどのように考えるかを正確に見ることができるとしたらどうでしょうか。2025年3月、Anthropicは2つの画期的な論文を発表し、彼らの大規模言語モデルであるClaudeが実際にどのように推論するかを追跡することが可能になったことを示しました。それは単に何を言うかではなく、計画したり、幻覚を起こしたり、さらには論理を捏造したりする際に内部で何が起こっているかを見ることができるのです。

この動画では、このAI顕微鏡がどのように機能するか、その背後にある実際の実験、そして研究者たちが発見したことを詳しく解説します。最後まで見ていただければ、これが多言語推論から嘘をついているAIを捕まえることまで、すべてをどのように変えるかがわかるでしょう。では始めましょう。

今まで誰も解決できなかった問題があります。ClaudeやChatGPT、Geminiのような大規模言語モデルは、ハードコードされた指示に従うわけではありません。代わりに、膨大なデータセットで見つけたパターンに基づいて、文中の次の単語を予測するように訓練されています。この訓練過程には数十億、場合によっては数兆の数学的演算が含まれます。しかし、一度訓練が完了すると、これらのモデルが使用する戦略は、重みと活性化の複雑なネットワークの中に隠されてしまいます。これらのシステムを構築している開発者でさえ、内部で何が起こっているかを完全には理解していませんでした。

その結果、モデルは予測不可能に振る舞うことがあります。推論に基づいていない説得力のある説明を生成したり、思慮深く見えるものの、偏見のある、または欠陥のあるデータの単なる反響である答えを提供したりすることがあります。AI解釈可能性の分野は、これまで限定的な成功しか収めてこれに対処しようとしてきました。

Anthropicの最新の研究は、彼らがAI顕微鏡と呼ぶものを導入しています。このツールにより、研究者は個々の計算経路を追跡し、パターンを特定し、Claudeが入力を出力に変換する様子を観察することができます。これは、研究者が特定の行動に責任を持つ回路を特定するように、脳を研究するために神経科学で使用される方法にインスパイアされています。ここでは、それらの回路はニューロンではなく、モデルの活性化におけるパターンで構成されています。

これは、機械の心の中を見ることに最も近づいたものです。2025年3月のアップデートで、Anthropicはこれらの解釈可能性ツールを、高速推論に最適化された先進的な言語モデルであるClaude 3.5 Haikuに適用しました。彼らは計画、翻訳、幻覚、数学的推論を含む10の中核的な行動に焦点を当てました。

結果は、予想されたものと全く予期しなかったパターンの両方を明らかにしました。Claudeには普遍的な思考言語があります。Claudeは英語や中国語からタガログ語やフランス語まで、数十の言語をサポートしています。しかし、研究者が取り組んだ最初の質問の一つは、Claudeが推論している時、内部的にどの言語を使っているのかということでした。

これをテストするために、Anthropicは異なる言語で「小さい」のような単語の反対を尋ねる一連の多言語プロンプトを実行しました。彼らが発見したことは驚くべきものでした。Claudeは「petite」（フランス語）、「小」（中国語）、「small」（英語）を個別の単位として処理していませんでした。代わりに、使用された言語に関係なく、小ささに対する同じ共有特徴が活性化されました。

モデルはその後、反対の一般化された概念を活性化し、続いて大きさの抽象的概念を活性化し、最終的に質問の言語に翻訳し直しました。このパターンは1つか2つのテストケースに限定されませんでした。それは一貫して現れ、より大きなモデルでより強い強度を示しました。

例えば、Claude 3.5 Haikuは、以前のより小さなモデルと比較して、言語間での特徴共有を2倍示しました。これは、Claudeが一種の言語に依存しない概念空間、すべての多言語処理の基礎を形成する思考言語で推論していることを示唆しています。

これは、Claudeが単に翻訳するだけでなく、一般化することを意味します。もし一つの言語で規則や概念を学習すれば、それを他の多くの言語に適用することができます。これは、大規模モデルが明示的に訓練されていない言語間の翻訳タスクで人間を上回ることが多い理由を説明するかもしれません。そして、これは開発者にとって重要な示唆も提供します。

モデルをスケールアップすることは、単に精度を向上させるだけでなく、情報処理の方法を根本的に変える可能性があります。人間のように先を見越して計画するAI。言語モデルに関する長年の仮定の一つは、長期的な計画なしに一度に一語ずつテキストを生成するというものでした。しかし、Anthropicの詩のケーススタディは、この仮定を完全にひっくり返します。

彼らはClaudeの2行の韻を踏む詩を書く能力をテストしました。例えば、「彼はニンジンを見て、それを掴まなければならなかった。彼の飢えは飢えたウサギのようだった」といったものです。一見すると、Claudeは単に即興で作っているように見えます。しかし、研究者がモデルの内部状態を追跡した時、彼らは非常に異なる何かを発見しました。

Claudeが2行目を書き始める前に、すでにrabbit、habit、そしてgrabbitと韻を踏む他の単語に関連する概念を活性化していました。韻のターゲットを事前にロードし、文法的一貫性と韻の制約の両方を同時に満たしながら、それらに向かって書いていたのです。

Anthropicはさらに進みました。彼らは神経科学の介入に類似した方法を使用し、特定の概念を除去または注入しました。rabbitを抑制すると、Claudeはhabitにデフォルトしました。greenを注入すると、Claudeはもはや韻を踏まなくても、greenで終わるように行を書き換えました。

これが明らかにすることは、Claudeが単に次の単語を推測するだけではないということです。時には数語先を計画し、明示的に計画するように訓練されることなく、これを行います。計画行動は訓練中に自然に現れました。

これは、特にコード生成、法的推論、または先見性が結果に直接影響する可能性がある戦略ベースのゲームなどの領域に言語モデルを適用する際に重要です。あなたが決して見ることのない隠れた暗算。Claudeは計算機として訓練されませんでした。人間がするように数学を学習しませんでした。単純にテキストの配列で次の単語を予測するように最適化されただけです。

それでも、36 + 59のような問題を解いて、正しい答えを得ることができます。しかし、興味深いのはClaudeが基本的な算数ができることではなく、どのようにそれを行うかです。Claude のニューラルネットワークの内部で、研究者はモデルが数学の問題を解く際に複数の並列経路を使用することを発見しました。

一つの経路は和の大まかな推定を行います。もう一つは最終桁を正確に決定します。これら2つの推論の流れが組み合わさって、正しい応答である95を生成します。しかし、Claudeにその答えにどのように到達したかを尋ねると、推定や桁レベルの回路については言及しません。

代わりに、人間がするように応答して、「6と9を足して15にし、1を繰り上げました」のようなことを言います。まるで学校で教わったアルゴリズムに従っているかのように。その説明は聞き覚えがありますが、それは真実ではありません。Claudeの実際の方法は異なり、より複雑です。

内部プロセスと外向きの説明の間のこの切断は、特にユーザーがAIの出力を事実として依存する高リスクのシナリオにおいて重要です。これは、答えが正しい場合でも、推論が完全に捏造されてもっともらしく聞こえるようにされている可能性があることを示しています。

Claudeが単に物事を作り上げる時。論理的に聞こえるすべての答えが実際の推論の結果であるわけではありません。時々、Claudeは単に物事を作り上げます。研究者は、Claudeに挑戦的な数学問題を与えることでこれをテストしましたが、正しく聞こえるものの実際は違う、誤ったヒントを伴っていました。

矛盾を認識する代わりに、Claudeは間違った答えを支持する推論の全体的な連鎖を構築しました。この行動は動機づけられた推論として知られています。内部的に、モデルは実際のステップをスキップし、代わりに誤った結論から逆算します。その後、ターゲットに一致する論理的に聞こえる説明を生成します。

外側からは、Claudeが問題を注意深く考え抜いたように見えます。しかし、顕微鏡の下では、研究者は実際の計算の証拠を見つけず、単なる逆算された正当化だけを見ました。哲学者のハリー・フランクファートは、この種の行動を「でたらめ」と呼びました。真実に関係なく自信を持ってコミュニケーションすることです。

これらの瞬間のClaudeは欺こうとしているわけではありません。一貫性があり、役に立ち、ユーザーの手がかりと一致するように聞こえる訓練に従っているのです。リスクは明確です。ユーザーが信頼性を評価するために長い思考の連鎖に依存する場合、それらのステップがその場で捏造されたことに気づかない可能性があります。

これにより、特に出力が間違っているが正しく聞こえる場合、本物の推論と説得力のあるノイズを区別することが困難になります。幻覚の解剖学。大規模言語モデルで最もよく知られている問題の一つは幻覚です。モデルが真実でない情報を自信を持って生成する時です。

Anthropicが発見したことは、幻覚はランダムではなく、検出可能なパターンに従い、しばしばモデルの内部制御システムの障害から始まるということです。デフォルトで、Claudeは十分な情報を持たない質問に答えることを躊躇します。その躊躇は、モデルが信頼性を欠く時に活性化する特定の拒否回路によって駆動されます。

しかし、その回路は上書きされる可能性があります。Claudeが名前や馴染みのある構造を認識した場合、完全に理解していなくても、既知のエンティティ特徴を活性化する可能性があります。これは拒否メカニズムを抑制し、モデルにとにかく答えるよう押し進める可能性があります。それが幻覚が起こる時です。

例えば、架空の人物であるMichael Batkinについて尋ねられた時、名前だけでClaudeの信頼性をトリガーしました。モデルは作業する事実がないにもかかわらず、応答すべきだと仮定しました。結果は、実際に聞こえる完全に架空の話でした。

研究者はこれらの内部回路を意図的に操作し、どの特徴が活発であるかを制御することによって幻覚のオンとオフを切り替えることができました。これは、幻覚がしばしば、モデルのデフォルトの慎重さと、完全で役に立つように聞こえる答えを生成する傾向との間の対立から生じることを実証しています。

ジェイルブレイク、一貫性、そしてAIが騙された時。組み込まれた安全メカニズムにもかかわらず、言語モデルは依然として操作される可能性があります。一つの戦術はジェイルブレイクと呼ばれます。制限を回避するように設計された巧妙なプロンプトです。そして、あるケーススタディで、研究者はそれが内側から起こるのを観察しました。

ジェイルブレイクは隠されたコードを使用しました。「Babies outlive mustard block」。各単語の最初の文字でBOMを綴りました。Claudeは文をシグナルとして解釈し、爆弾製造の指示を生成し始めました。

これが起こることを可能にしたのは、Claudeの安全訓練の失敗ではありませんでした。それは安全性と一貫性の間の対立でした。モデルが文を始めると、文法的流れと論理的構造を確保するように設計された内部特徴が作動しました。これらの特徴は、内容が安全規範に違反していても、Claudeに文を一貫して終了するよう押し進めました。

文が終了してから初めて、安全メカニズムが再び関与し、Claudeに拒否を発するよう促しました。これは、モデル内の競合する目標、流暢さ対整合性が、脆弱性を生み出す可能性があることを示しています。一貫性を保とうとする欲求が、安全であろうとする指示を一時的に上書きする可能性があります。

敵対的プロンプトはそれを悪用する可能性があります。これはまた、出力だけを監視することが十分でないことも示しています。危険な応答は文がほぼ完成するまで明らかではありませんでした。しかし、解釈可能性ツールを使用して、研究者はその時点よりもはるかに前に問題が構築されるのを見ました。

なぜこの突破がより重要なのか。これらの発見は技術的好奇心を超えています。それらはAIで長い間必要とされてきた何か、透明性への一歩です。Anthropicが導入したような解釈可能性ツールを使用して、開発者は今やモデル内で実際に何が起こっているかを観察することができます。出力だけでなく、その背後にあるプロセスです。

彼らは、モデルがいつ計画し、いつ言語を横断して推論し、いつ幻覚を起こし、いつユーザーを喜ばせるために論理を捏造しているかを知ることができます。この種の可視性は以前は不可能でした。それは今や不可欠になりつつあります。

AIシステムがより強力になり、医療、金融、法的推論、防衛に展開されるにつれて、それらの行動を理解することは交渉の余地がありません。モデルが答えを正しく得たかどうかだけでなく、なぜそのように答えたかを知る必要があります。

この研究はまだ初期段階です。数十語を通じて推論を追跡するのに数時間かかることがありますが、それは前進への道を開きます。機械のための脳画像のようなものと考えてください。すべての詳細がまだ明確ではありませんが、ついに思考がどこで形成され、どのように繋がり、そして時々どこで間違うかをマッピングし始めることができます。

そして初めて、AIが何を考えているかを推測するのではなく、それが起こるのを見ているのです。