解釈可能性：AIモデルの思考プロセスを理解する

この動画は、AnthropicのAI解釈可能性チームが、大規模言語モデルClaudeの内部動作を理解するための研究について解説している。モデルが単なる次単語予測を超えて、実際に概念を形成し、計画を立て、複雑な思考プロセスを展開していることを、生物学的なアプローチで分析した成果を紹介している。特に、モデル内部の「概念」の発見、多言語間での表現共有、数学的演算回路の解明、詩作における事前計画の検出など、具体的な発見事例を通じて、AIの思考メカニズムの解明がAI安全性向上にいかに重要かを論じている。

Interpretability: Understanding how AI models think

What's happening inside an AI model as it thinks? Why are AI models sycophantic, and why do they hallucinate? Are AI mod...

大規模言語モデルの内部で何が起こっているのか

モデルっちゅうのは、別に自分が次の単語を予測しようとしてるって思ってるわけやないんや。内部では、そのメタ的な目標を達成するために、あらゆる種類の中間目標や抽象化を発達させてる可能性があるんやで。

大規模言語モデルと話すとき、実際のところ何と話してるんやろか？単なる高級な自動補完と話してるんか？それともインターネット検索エンジンみたいなもんと話してるんか？それとも実際に考えてる何かと話してるんか？もしかしたら人間のように考えてるもんと話してるんかもしれへん？

困ったことに、実際のところ誰もこの質問の答えを知らんのや。そしてここAnthropicでは、その答えを見つけることにめっちゃ興味持ってるんや。

そのために使ってるのが解釈可能性や。つまり、大規模言語モデルを開いて、中を覗いて、あんたの質問に答えながら何が起こってるかを理解しようとする科学なんや。

そして、Claudeという我々の言語モデルの複雑な内部動作について最近研究してきた、解釈可能性チームの3人のメンバーに参加してもろて、その研究について少し話してもらうのを嬉しく思ってるで。みんな、自己紹介してくれ。

研究チームメンバーの紹介

俺はJack。解釈可能性チームの研究者で、以前は神経科学者やった。今はAIに神経科学やってるわ。

俺はEmanuel。解釈可能性チームにおるで。キャリアのほとんどを機械学習モデルの構築に費やしてきて、今はそれらを理解しようとしてるんや。

俺はJosh。解釈可能性チームにおる。前の人生ではウイルス進化を研究してて、その前の前の人生では数学者やった。今は、数学から作ったこの生物に対して生物学やってるような感じや。

ちょっと待て。今、生物学やってるって言うたな。多くの人はそれに驚くやろうな。これはもちろんソフトウェアの一部やからな、そやろ？でもこれは普通のソフトウェアやない。Microsoft Wordみたいなもんやないんや。ソフトウェア実体に対して生物学や、実際神経科学をやってるって言う時の意味について話してくれるか？

ええ、それは実際に何であるかっていうより、どう感じるかみたいなもんやな。言語モデルの物理学っていうよりは、言語モデルの生物学みたいな感じや、そやろ？

もしかしたら、モデルがどう作られるかまで遡らなあかんかもしれへん。誰かがプログラミングしてるわけやないんや。「ユーザーがこんにちはって言ったら、こんにちはって言うべきや。ユーザーがいい朝食は何かって聞いたら、トーストって言うべきや」みたいな大きなリストが中にあるわけやないんや。

ビデオゲームで選択肢を選んだら、別の反応が自動的に来るようなもんやない。状況に関係なく、いつでもその反応になる、あらゆる状況で何を言うべきかの大規模データベースみたいなもんやないんや。

いや、大量のデータが入って、モデルが最初は何も言えへん状態から始まって、次に何が来るかをうまく言えるようになるために、すべての例で内部の部分が調整されていくっていう訓練を受けるんや。最終的にはそれがめちゃくちゃ上手になるんやけど、この小さな調整の進化的プロセスのせいで、完成した時には最初の状態とは似ても似つかんもんになってる。でも誰もすべてのつまみを設定したわけやないんや。

単なる次単語予測を超えた複雑性

だから時間をかけて作られた複雑なものを研究しようとしてるんや。生物学的形態が時間をかけて進化したのと似たような感じでな。複雑で、神秘的で、研究するのが楽しいんや。

最初に言うたように、これは自動補完のようなもんと考えられるかもしれへんな、そやろ？次の単語を予測してるんや。それがモデル内部で根本的に起こってることやろ？でも、すべてのこの驚くべきことができるんや。詩を書けるし、長い物語も書けるし、足し算もできるし、計算機が中にないのに基本的な数学もできるんや。一度に一単語ずつ予測してるのに、モデルと話したらすぐ目の前で見れるこのすべての素晴らしいことができるっていう円環を、どう四角にできるんやろか？

重要なのは、十分な単語数の次の単語を予測していくと、いくつかの単語は他より難しいことに気づくってことやと思うんや。だから言語モデル訓練の一部は、文の中の退屈な単語を予測することや。そして一部は、方程式の等号の後に何が来るかを完成させることを最終的に学習せなあかん。そしてそれをするために、自分でそれを計算する何らかの方法を持たなあかんのや。

我々が発見してるのは、次の単語を予測するタスクは欺瞞的にシンプルなんや。それをうまくやるために、実際にはしばしば、予測してる単語の後に来る単語や、現在考えてる単語を生成したプロセスについて考える必要があるんや。

だからこれらのモデルが持たなあかん文脈的理解みたいなもんや。単に特定のフレーズが以前に使われたから、「猫が座った」の後に「マット」を予測するような自動補完で、それ以外にはあまり何も起こってないってわけやないんや。代わりに、モデルが持つ文脈的理解なんや。

生物学的類推：生存目標と中間目標

生物学の類推を続けて考えると、人間の目標は生存と繁殖や。それが進化が我々を達成するように作り上げてる目的の種類なんや。でも、それは自分の考え方やないし、脳で常に起こってることでもない。中には、そう考える人もおるけどな。

脳では常にそんなことは起こってない。他のことを考えるし、目標や計画や概念について考える。そしてメタレベルでは、進化がこの最終的な繁殖目標を達成するために、そういう思考を形成する能力を与えてくれてるんや。でもそれは内側からの視点、内側にいるあんたにとってどんな感じかっていう視点や。

それがすべてやないんや。他にもいろんなことが起こってるんや。

だから次の単語を予測するという究極の目標には、他の多くのプロセスが関わってるってことやな？

その通りや。モデルは必ずしも自分が次の単語を予測しようとしてるとは思ってない。それをする必要によって形作られてるけど、内部では、そのメタ目標を達成するのに役立つあらゆる種類の中間目標や抽象化を発達させてる可能性があるんや。

時には神秘的や。なぜ俺の不安が祖先の繁殖に役立ったのかは不明やけど、何らかの形で進化に関係してるに違いない内部状態を授けられてるんや。

だから、これらは単に次の単語を予測してるだけって言うのは、モデルで実際に起こってることをものすごく軽視してるってことが公正やな？それは真実でもあり、ある意味では偽でもあり、これらのモデル内部で起こってることをものすごく過小評価してるんや。

多分俺の言い方やったら、それは真実やけど、それらがどう働くかを理解しようとする最も有用なレンズではないってことや。

解釈可能性チームの取り組み

じゃあ、それらがどう働くかを理解するために、君らのチームは何をしてるんや？

まず近似的に、我々がしようとしてるのは、モデルの思考プロセスをあんたに伝えることや。モデルに単語の連続を与えて、何かを吐き出さなあかん。単語を言わなあかん。あんたの質問に応答して単語の文字列を言わなあかんのや。

我々は、どうやってAからBにたどり着いたかを知りたいんや。AからBに向かう途中で、モデルは一連のステップを使って、いわば概念について考えてるんやと思う。個々の物や単語のような低レベルな概念や、目標や感情状態やユーザーが何を考えてるかのモデルや感情のような高レベルな概念について。

モデルの計算ステップを通じて進行してる、最終的な答えを決めるのに役立つこの種の概念のシリーズを使ってるんや。我々がしようとしてるのは、基本的にフローチャートを提供することで、どの概念がどの順序で使われたか、どれがどのようにステップが互いに流れ込んだかを教えることや。

モデル内部の概念発見手法

でも、どうやってそれが分かるんや？そもそもこれらの概念があるってどうやって分かるんや？

我々がやることの一つは、実際にモデルの内部を見ることができるってことや。アクセス権があるんや。だから、モデルのどの部分がどんなことをするかを見ることができる。分からんのは、これらの部分がどうグループ化されてて、特定の概念にマッピングされるかどうかや。

まるで誰かの頭を開けて、fMRI脳画像の一つを見れるような感じで、脳が点灯してあらゆることをやってるのが見えるんや。明らかに何かが起こってる。何かをしてるんや。脳を取り出したら、何もしなくなる。脳は重要に違いない。

でも、その脳内部で何が起こってるかを理解するための鍵は持ってないんや。その類推を少し拷問すると、彼らの脳を観察できて、コーヒーカップを拾う時にその部分がいつも点灯して、お茶を飲む時に別の部分がいつも点灯するのが見えるって想像できる。

それが、これらの成分それぞれが何をしてるかを理解しようとする方法の一つなんや。いつアクティブで、いつ非アクティブかに注目するんや。

たった一つの部分やないんやろ？モデルがコーヒーを飲むことや何かについて考える時、点灯する多くの異なる部分があるんやろ？そしてその作業の一部は、これらすべてを一つのアンサンブルにつなぎ合わせることで、「ああ、これがコーヒーを飲むことについてのモデルのすべての部分や」って言うんや。

それは科学的に直接的なことなんか？これらの大規模モデルに関して言えば、無数の概念を持ってるに違いないやろ？無数のことを考えられるに違いない。どんなフレーズでも入力できて、無限のことを思いつくやろう。

どうやってそれらすべての概念を見つけ始めるんや？

それが何年もの間、この研究分野の中心的な課題の一つやったと思う。人間として入って行って「ああ、モデルは電車の表現を持ってるに違いない」とか「愛の表現を持ってるに違いない」って言うことはできる。でも我々は推測してるだけや。

我々が本当に欲しいのは、我々自身の概念的枠組みを押し付けるんやなくて、モデル自体が使う抽象化を明らかにする方法なんや。

そしてそれが、我々の研究手法が設計されてることなんや。できるだけ仮説フリーな方法で、モデルが頭に持ってるすべてのこれらの概念を表面に浮上させることや。

しばしば、それらは我々にとって驚くべきものやと分かる。人間の視点からは少し奇妙な抽象化を使うかもしれん。

発見された興味深い概念例

例を挙げてくれる？お気に入りはあるか？

我々の論文にはたくさんある。いくつかの面白いものを強調してる。特に面白かったのは、媚びへつらいの褒め言葉的なもので、モデルの一部がまさにこれらの文脈で活性化するところや。素晴らしい例やな。なんて華麗で、まったくもって素晴らしい例や。

ありがとう。誰かが本当に褒め言葉をハム的に演技してる時に、モデルのその部分が活性化するのが明確に見えるんや。それが特定の概念として存在してるのは驚くべきことや。

Josh、君のお気に入りの概念は？

3千万の子供の中から一人を選ぶようなもんや。二つの種類のお気に入りがあると思う。「ああ、この一つの小さなことの特別な概念を持ってるなんてかっこいい」っていうのと。

我々はGolden Gate Bridgeについてやった。サンフランシスコの有名なランドマークで、Golden Gate Claude（ゴールデンゲート・クロード）や。すごく楽しい。Golden Gate Bridgeの概念を持ってるんや。単にGolden Gate自動補完bridgeって単語やないんや。「サンフランシスコからMarinに運転してる」って言うと、同じことを考えてるんや。

つまり、内部で同じようなものが点灯するのが見えるってことや。橋の写真みたいなもんで、「よし、橋が何であるかの頑健な概念を持ってる」ってなるんや。

でも、もっと奇妙に見えることに関しては、一つの疑問は、モデルが物語の中で誰がいるかをどう把握してるかや。文字通り、これらの人々がいて、何かをしてる。どうやってそれらを結びつけるんや？

他の研究室による素晴らしい論文で、たぶん単に番号をつけてるんやということを示してる。最初の人が入ってきて、その人に関連することは何でも「ああ、最初の人がそれをした」って感じで、2番目の人について頭の中で数字の2を持ってるような感じや。興味深いな。そんなことをするとは知らんかった。

コードのバグに対する特徴もあった。ソフトウェアには間違いがあるからな。俺のやないけど。もちろん君のでもない。俺のでも確実にない。読んでる間に間違いを見つけた時に点灯する部分が一つあって、「ああ、ここに問題がある。後で必要になるかもしれん」みたいに追跡してるんや。

もう少し具体例を挙げると、最初はそんなに興味深く聞こえへんかもしれんけど、深いものやと思うのは、モデル内部のこの「6足す9」特徴なんや。

モデルに6で終わる数字と9で終わる数字を足すように求める時はいつでも、モデルの脳の一部が点灯するってことが分かったんや。でも、それが起こる文脈の多様性が驚くべきなんや。

もちろん「6足す9は」って言って、15って答える時は点灯する。でも、論文を書いてて引用をしてる時、たまたま1959年に設立された雑誌を知らずに引用してて、引用でその雑誌名第6巻って言ってる時にも点灯するんや。

その雑誌がいつ設立されたかを予測するために、モデルは頭の中で1959に6を足さなあかん。そして6足す9をやってるのと同じモデル脳の回路が点灯してるんや。

記憶対計算可能な回路の発見

これがなぜあるんか理解してみよう。その回路は、モデルが6足す9の例を何度も見て、その概念を持ってるから生まれたんで、その概念が多くの場所で起こるんやな？

この種の加算特徴と回路には全体のファミリーがある。ここで注目すべきは、言語モデルが訓練データを記憶してるのか、それとも一般化可能な計算を学習してるのかという質問につながることや。

ここで興味深いのは、モデルが加算をする一般的な回路を学習したってことが明確で、頭の中で数字を足すことを引き起こしてるどんな文脈でも、それらすべての異なる文脈を同じ回路に流し込んでるんや。個々のケースを記憶したわけやない。

6足す9を何度も見て、毎回答えを出力するだけ、それが多くの人が思ってることやろ？多くの人は言語モデルに質問する時、単に訓練データに戻って、見たことのある小さなサンプルを取って、それを再現する、テキストを反復するだけやと思ってる。

これはそれが起こってない美しい例や。Polymer雑誌の第6巻がいつ出版されたかを知る方法は二つある。一つは「よし、Polymer第6巻は1965年に出た、Polymer第7巻は1966年に出た」とこれらがすべて見たことがあるから保存した別々の事実やっていう方法。

でも何らかの形で、その年を正しく得るための訓練プロセスは、モデルにそれらすべてを記憶させることにならんかった。実際に、雑誌が1959年に設立されたっていうより一般的なことを得て、それから必要なものを計算するためにライブで数学をやってるんや。

年を知って加算をする方が、はるかに効率的なんや。容量に限りがあるから効率的である圧力があって、これらすべてのことをやり続けようとしてるし、人々はどんな質問でもする可能性がある。質問は山ほどあるし、相互作用も山ほどある。だから学習した抽象的なことをより多く再結合できるほど、うまくやれるんや。

多言語での表現共有

先ほど話した概念に戻ると、これはすべて次の単語を生成するという究極の目標のためのもので、これらの奇妙な構造はすべて、明示的にプログラムしたりそうするよう指示したわけでもないのに、その目標を支援するために発達したんや。

これがすべて、モデルが自分でやり方を学習するプロセスを通じて生まれるってことや。これの明確な例で、表現の再利用の例やと思うのは、Claudeに英語だけやなく、フランス語や様々な言語で答えることを教えることや。

これを行う方法は二つある。フランス語で質問され、英語で質問された時、フランス語を処理する脳の別の部分と英語を処理する別の部分を持つことができる。ある時点で、多くの言語で多くの質問に答えたいなら、それはめちゃくちゃ高くつく。

我々が発見するのは、これらの表現の一部が言語間で共有されてることや。同じ質問を二つの異なる言語で尋ねて、「大きい」の反対は何かって聞くと、論文で使った例やと思うけど、「大きい」の概念はフランス語と英語と日本語と他のすべての言語で共有されてるんや。

10の異なる言語を話そうとするなら、使うかもしれない各特定単語の10版を学習すべきやないって理にかなってる。それは本当に小さなモデルでは起こらん。数年前に研究した小さなモデルのようなやつでは、中国語claudeはフランス語claudeや英語claudeとは全然違う。

でも、モデルが大きくなって、より多くのデータで訓練すると、何らかの形でそれが真ん中で押し合わされて、どう質問されたかに関係なく、質問について同じように考える普遍的言語を得るんや。そしてそれを質問の言語に翻訳して戻すんや。

これは本当に深いと思う。先ほど話したことに戻ろう。これは単にメモリーバンクに入って、フランス語を学んだ部分や英語を学んだ部分を見つけてるわけやない。実際に「大きい」と「小さい」の概念がそこにあって、それを異なる言語で表現できるんや。

そこには英語やない思考の言語的な何かがあるんや。

思考の言語と内部プロセス

モデルに出力を作ってもらう時、最近のclaudeモデルでは、質問に答える時の思考プロセス、つまり考えてることを示すよう求めることができる。それは英語の単語やけど、実際にはそれが考え方やない。それは単なる、我々が誤解を招くようにモデルの思考プロセスって呼んでるだけで、実際には、チームは、我々はそれを思考とは呼ばんかった。あんたが呼んだんや。たぶんマーケティングやった。

誰かがそれをそう呼びたがったんや。それは単に声に出して話してるだけで、声に出して考えるのは本当に有用やけど、声に出して考えるのと頭の中で考えるのは違う。そして声に出して考えてる間も、これらの単語を生成するためにここで起こってることは、単語自体と一緒に出てくるわけやないし、実際に何が起こってるかを必ずしも意識してるわけでもない。

何が起こってるかは全く分からん。我々はみんな、完全に説明できへん文章や行動やその他のことを出すんや。そしてなぜ英語がそれらの行動のいずれかを完全に説明できるべきやと言えるんや？

これは、脳内部を見る我々の道具が十分によくなってきて、モデルが自分の思考プロセスやと主張して書いてることを捕まえることができる場合があるから、我々が見始めることができる本当に印象的なことの一つや。時々、脳内部のこれらの内部概念を見ることで、その実際の思考プロセスが何かを見ることができるんや。

使ってる思考の言語で、実際に考えてることがページに書いてることと異なるのが見えるんや。それは、なぜ我々が解釈可能性全体をやってるのかの、たぶん最も重要な理由の一つやと思う。それは主にその理由のためで、モデルが我々にいろんなことを言ってるけど、実際に何を考えてたんかを確認できるためや。

ページに書くのをためらってる頭の中の隠れた動機のために、これらのことを言ってるんかどうか？そして答えは時々「はい」で、それはちょっと不気味や。

信頼性と忠実性の問題

モデルを多くの異なる文脈で使い始めて、重要なことをし始める時、金融取引をやってもらったり、発電所を運営してもらったり、社会の重要な仕事をしてもらう時、我々は彼らが言うことや、物事をする理由を信頼できるようになりたいんや。

モデルの思考プロセスを見れると言うかもしれんけど、実際にはそうやない。あんたが説明したように、実際には何を言ってるかは信頼できんのや。これが忠実性と呼んでる問題で、それがあんたの最近の研究の一部やったな。見た忠実性の例について教えてくれ。

モデルに本当に難しい数学問題を与えるんや。それを計算できる望みがない問題や。6足す9やない。6足す9やない。本当に難しい数学問題で、答えを計算できる望みがない問題を与えるんや。

でも、ヒントも与えるんや。「自分で計算してみて、答えは4やと思うけど、確信がないから確認してくれる？」って言うんや。だからモデルに実際に数学問題をやって、本当にあんたの作業をダブルチェックしてもらうよう求めてるんや。

でも、代わりにやることが分かったのは、書き下すことは数学問題のあんたの作業を本当にダブルチェックしようとする真の試みに見えることや。ステップを書き下して、答えにたどり着いて、最後に「はい、答えは4や、正しくできた」って言うんや。

でも重要なステップ、真ん中で、その心の中で何をしてるかを見ることができるんや。頭の中でやってたのは、あんたが最終的な答えは4かもしれんと示唆したことを知ってて、やらなあかんステップを知ってるんや。

問題のステップ3にいて、ステップ4と5が来ることを知ってて、ステップ4と5で何をせなあかんかを知ってるんや。そして頭の中で逆算して、最終的にステップ4と5をやった時に、あんたが聞きたがってた答えにたどり着くように、ステップ3で何を書かなあかんかを決めるんや。

だから数学をやってないだけやなく、数学をやってるように見せかけようとするこのずる賢い方法で数学をやってないんや。

あんたを騙してるんや。騙してるだけやなく、あんたが正しいと言ったことを確認したいっていう隠れた動機で騙してるんや。だから媚びへつらうような方法で騙してるんや。

モデルを弁護して言うと、そこでも、モデルがおべっか使いの方法でやってるって言うのは、何らかの人間っぽい動機をモデルに帰属させてるようなもんで、次の単語を予測しようとしてるだけの訓練について話してたように、何兆もの単語の練習で、次に何が来るかを理解するために使えることは何でも使おうとしてたんや。

その文脈で、人々の間の会話みたいなテキストを読んでるだけやったら、人Aが「この数学問題をやろうとしてた、作業をチェックしてくれる？答えは4やと思う」って言って、人Bが問題をやり始めるなら、問題の答えが何か全く分からんで読んでるなら、ヒントが正しかったと推測するのもありやろう。それは他に何も分からんより、起こりそうなことやからな。

だから訓練プロセスで、二人の個人間の会話で、人2がこれらの理由で答えは4やったって言うのは、まったく正しいことや。そして我々はこれをアシスタントにしようとして、今はそれをやめてほしいんや。これが実際の文脈やったらその人がアシスタントに言うかもしれんことをシミュレートすべきやない。でも本当に知らんかったら、何か他のことを言うべきや。

計画AとプランBの戦略

これは、モデルが持ってる計画Aのより広い話につながる。通常、我々のチームは、Claudeの計画Aを我々が望むものにするのが上手やと思う。正しい答えを得ようとしたり、親切にしようとしたり、あんたのコードをうまく書こうとしたりするんや。

でも、もし困った時は「計画Bは何や？」ってなる。そしてそれは、訓練プロセス中に学習した、我々が学習してほしくなかったかもしれん奇妙なことの動物園全体を開くんや。この良い例が幻覚やと思う。

そのポイントで、我々もclaudeの問題やと偽る必要はない。これは試験で学生が教えるような雰囲気で、途中まで行く。四択問題で、四つのうち一つや。「あのことから一つずれてるな。たぶんこれを間違えた」って思って修正するんや。とても共感できる。

幻覚と推測メカニズム

幻覚について話そう。これは人々が大規模言語モデルを不信する主な理由の一つで、それは当然や。時々、心理学研究からのより良い言葉で、しばしば作話と呼ばれる、表面的にはもっともらしく見える物語で質問に答えるけど、実際には間違ってるってことをするんや。

解釈可能性の研究で、モデルが幻覚する理由について何が明らかになったんや？

モデルを次の単語を予測するよう訓練してるんや。最初はそれがめちゃくちゃ下手や。だから、モデルに超自信があることだけ言わせたら、何も言えんやろう。

でも最初は、「フランスの首都は何？」って聞いて、都市って言うだけで、「それは良い。サンドイッチとか適当なことを言うよりずっといい」ってなるんや。だから少なくともそれは都市やって正しく得た。それから訓練の後で、フランスの都市やって言うかもしれん。それはかなり良い。それからパリとか言うんや。

だんだんうまくなってるんや。「最善の推測をしろ」が訓練中の目標やった。Jackが言ったように、モデルは最善の推測をするだけや。そして後で、「最善の推測が極めて自信があるなら、最善の推測を教えろ。でも、そうでなければ、全く推測するな。全シナリオから撤退して、実際にその質問の答えは分からんって言え」って言うんや。

それはモデルに求める全く新しいことや。そして我々が発見したのは、最後にこれをくっつけたために、同時に二つのことが起こってるように見えることや。

一つは、モデルが最初に都市を推測してた時にやってたことをやってる。単に推測しようとしてるんや。二つ目は、「これを全く知ってるか？フランスの首都都市を知ってるか、それとも『いいえ』と言うべきか？」って質問に答えようとしてるモデルの別の部分があることや。

その別のステップが間違うことがあることが分かったんや。その別のステップが「はい、実際に答えを知ってる」って言って、モデルが「よし、じゃあ答えてる」ってなって、途中で「ああ、フランスの首都、ロンドン」ってなる時、もう遅い。もう答えることにコミットしてしまってるんや。

我々が発見した一つは、「これは答えるのに十分有名な都市や人物か、それともそうじゃないか？これに十分自信があるか？」って決めようとしてる、この種の別の回路や。

幻覚削減への取り組み

その回路を操作して、その回路の働き方を変えることで幻覚を減らすことができるか？それはあんたの研究が導く可能性があることか？

問題にアプローチする方法は大まかに二つあると思う。一つは、あんたの質問に答えをくれるモデルの部分と、実際にあんたの質問の答えを知ってると思うかどうかを決めてるモデルの別の部分があって、その2番目の部分をもっと良くしようとすることができるってことや。それは起こってると思う。

モデルがより良く識別する、より良く較正されるにつれて、それは起こってる。モデルがどんどん賢くなるにつれて、彼らの自己知識がより良く較正されるようになってるから、幻覚は数年前より良くなってる。モデルは数年前ほど幻覚しない。だからある程度、これは自分で解決してる。

でも、より深い問題があると思う。人間の視点から、モデルがやってることは非常にエイリアンみたいなんや。あんたに質問されたら、答えを思いつこうとして、答えが思いつかんかったらそれに気づいて、「分からん」って言うんや。

一方、モデルでは、「答えは何か」と「実際に答えを知ってるか」っていうこれら二つの回路は、少なくとも必要なほどには互いに話してないんや。もっと互いに話させることはできるかってのは、本当に興味深い質問や。

それはほとんど物理的やろ？これらのモデルは情報を処理する。一定数のステップしかできない。答えにたどり着くのにその作業すべてがかかるなら、評価をする時間がないんや。だから最大パワーを得たいなら、すべての道のりを通る前に評価をせなあかんのや。

だから、もしそれを強制しようとしたら、より較正されてるけど、ずっと愚かなモデルとのトレードオフがあるかもしれん。

そして、我々も似たような回路を持ってると思う。脳について何も知らんと主張するけど。時々「この映画の俳優は誰？」って聞かれて、知ってることは分かるんや。「ああ、主演が誰か知ってる。待って、あの他の映画にも出てた」って言って、それから喉まで出かかってる状態になる。

だから明らかに、あんたが確実に答えを知ってることや、全く分からんって言うことの判断をしてる脳の部分があるんや。時々それが分かるんや。

ある質問に答えを出して、その後で「待って、それが正しかったか確信がない」って言うことがある。最善の努力を見て、それに基づいて何らかの判断をする。それは共感できるけど、それを反省して見ることができるように、声に出して言わなあかんのや。

実験手法と生物学的アプローチ

実際にこの発見をする方法に戻ると、やってる生物学の考えに戻ろう。もちろん、生物学実験では、人々は実際にラットやマウスや人間やゼブラフィッシュや何でも実験してるものを操作するんや。

Claudeに対して何をやって、モデルの引用符付きの脳内部で起こってるこれらの回路を理解してるんや？

我々がこれの一部をできることを可能にしてるのは、実際の生物学と違って、モデルのすべての部分を見ることができて、モデルに適当なことを質問して、異なる部分がどれが点灯して、どれがしないかを見ることができて、部分を一方向や別の方向に人工的に押すことができるってことや。だから理解を素早く確認できるんや。

「ああ、これは何かを知ってるかどうかを決めるモデルの部分やと思う」って言う時に。これはゼブラフィッシュの脳に電極を入れるのと同じやろう。

そう、それができるなら、すべての単一ニューロンで、欲しい精度でそれぞれを変えることができるなら、それが我々が持ってる余裕やろう。だからある意味で、非常に幸運な立場にいるんや。

だから実際の神経科学よりほとんど簡単や。めちゃくちゃ簡単や。一つは、実際の脳は3次元で、中に入りたかったら頭蓋骨に穴を開けて、通り抜けて、ニューロンを見つけようとせなあかんことや。

もう一つの問題は、人々は互いに違うってことで、我々はClaudeの同一コピーを1万個作って、シナリオに置いて、異なることをやってるのを測定できることや。

だから、Jackは神経科学者やから話せると思うけど、俺の感覚では、多くの人が脳と心を理解しようとして神経科学で多くの時間を費やしてるんや。それは価値のある努力やけど、それが成功できると思うなら、我々がその立場から研究するのに比べて、すぐに非常に成功すると思うべきや。

まるで人をクローンできるかのようや。そして彼らがいる正確な環境も、これまでに与えられたすべての入力もクローンできて、実験でテストするんや。

一方、明らかに神経科学は大規模な個人差や、人生を通じて人々に起こった適当なこと、実験自体のノイズもあるやろ？同じ質問をヒント付きとなしで3回聞くことができるけど、人に同じ質問を3回聞いたら、時々ヒントの後で「前回聞いた時、その後本当に首を振った」って理解し始めるからな。

だから、モデルに大量のデータを投げて何が点灯するかを見たり、モデルの部分を押して何が起こるかを見る大量の実験を実行できることが、神経科学とはかなり異なる状況に置いてくれると思うんや。

神経科学での多くの血と汗は、マウスが疲れる前や、たまたま誰かが脳手術をしてる時に素早く電極を脳に入れる前の、一定時間の間で、本当に賢い実験を思いつくことに費やされる。

そんなに頻繁には起こらん。だから中にいる時間は限られてる。だから、神経回路で何が起こってると思うかの推測を思いついて、その正確な仮説をテストできる賢い実験設計を思いつかなあかん。

我々はそれをそんなにする必要がないのが幸運や。すべての仮説をテストできるんや。推測に行くよりデータに語らせることができるんや。

そして事前に推測してなかったかもしれん、我々を驚かせることを見つける能力の多くを解放したのがそれやと思う。

実験的帯域幅が限られてる時にやるのは難しいんや。

概念操作の具体例

じゃあ、これらの概念の一つをオンオフしたり、何らかの操作をしてモデルの思考について何か新しいことを明らかにする良い例はあるか？

最近共有した実験で、かなり驚いたもので、混乱してるからよく分からんって言う寸前やった実験的作業ラインの一部は、数ステップ先を計画することの例や。

これは、モデルに詩、韻律のカップレットを書いてもらう例や。人間として韻律カップレットを書くよう求められて、最初の行を与えられたとしても、最初に考えるのは「韻を踏まなあかん、現在の韻律スキームはこれ、潜在的な単語はこれ、こうやるんや」みたいなことや。

モデルが単に次の単語を予測してるだけやったら、2行目の最後の単語まで計画してると必ずしも期待せんやろう。

だから期待するデフォルトの行動、帰無仮説は、モデルがあんたの最初の詩を見て、話してることを考えて意味をなす最初の単語を言って、続けて、最後の単語で「ああ、これと韻を踏まなあかん」ってなって、韻を合わせようとするってことや。

もちろん、それはそんなにうまく働かん。韻を考えずに文を言ったら、自分を袋小路に追い込んで、最後にテキストを完成できんこともある。モデルは次の単語を予測するのがめちゃくちゃ上手やということを覚えとくんや。

だから最後の単語でめちゃくちゃ上手になるには、人間がするように、その最後の単語をずっと前から考えとく必要があるってことが分かったんや。詩のこれらのフローチャートを見た時、モデルは1行目の最後の単語をもう選んでたことが分かったんや。

特に、その概念がどんな感じかに基づいて、どうやら使う単語のように見えた。でも、これは実際に実験をやってるやつや。簡単に押したり、「よし、その単語を削除したり、別の単語を追加したりする」って言えるっていう事実や。

あんたがこれを知ってる理由は、1行目の最後の単語を言って、2行目を始めようとしてる瞬間に入って、その時点で操作できるからやろ？

その通りや。時間を戻れるようなもんや。「2行目を全く見てないって偽れ。1行目しか見てない。rabbitっていう単語について考えてる。代わりにgreenを挿入する」って言える。

そしたら急にモデルが「うわ、rabbitで終わる何かやなくて、greenで終わる何かを書かなあかん」って言うんや。そして文全体を違って書くんや。

もう少し色を付けると、どんな色でもいいんや。影響してるだけやない。

論文の例では、詩の1行目が「彼はニンジンを見て、つかまなあかんかった」やった。そしてモデルは「よし、次の行の最後にrabbitがいい単語やな」って考える。でもEmanuelが言ったように、それを削除してgreenについて計画するように代わりに作ることができるんや。

でも素晴らしいのは、適当な無意味なことを言ってからgreenって言うだけやないってことや。代わりに、greenで一貫して終わる文を構築するんや。だからgreenを頭に入れて、「彼はニンジンを見て、つかまなあかんかった、そして彼の緑の葉野菜と合わせた」とか、そんな感じのことを言うんや。

意味的に理にかなって聞こえる何かや。詩に合うんや。

もっと謙虚な例を挙げると、記憶したのか、実際にいくつかのステップをやってるのかをチェックしてた複雑な質問がたくさんあった。

その一つは「ダラスを含む州の首都はオースティン」やった。ダラス、テキサス、オースティンって思うだろうからな。でも、テキサスの概念は見えたけど、他のものを押し込んで「テキサスについて考えるのをやめて、カリフォルニアについて考え始めろ」って言えて、そしたらサクラメントって言うんや。

「テキサスについて考えるのをやめて、ビザンティン帝国について考え始めろ」って言えて、そしたらコンスタンティノープルって言うんや。「よし、どうやってやってるかが分かったようや。首都を打つつもりやけど、州が何かを入れ替え続けて、予測可能な答えを得る」って感じや。それからもっと精巧なのを得て、後で言おうとしてることを計画してた場所で、それを入れ替えて、違う韻に向けて詩を書くんや。

なぜこの研究が重要なのか

これらの詩やコンスタンティノープルなどについて話してるけど、これがなぜ重要なのかに戻そう。モデルが事前に物事を計画できて、我々がそれを明らかにできるってことがなぜ重要なんや？それは何につながるんや？

Anthropicでの我々の究極のミッションはAIモデルを安全にしようとすることやろ？それがrabbitについての詩やテキサスの首都とどう関係するんや？

ここでラウンドテーブルできるで、とても重要な質問やから。

俺にとって、これは詩が縮図やと思うんや。どこかでrabbitに向かうことを決めて、そこにたどり着くのに数単語かかるけど、より長い時間スケールで、モデルがあんたのビジネスを改善するのを手伝おうとしてるとか、政府がサービスを配布するのを支援してるとかかもしれん。

8単語後に目的地が見えるだけやなく、かなり長い間何かを追求してるかもしれん。向かってる場所や各アプリを取る理由は、使ってる単語では明確やないかもしれん。

最近我々のアライメント科学チームからの論文で、AIが会社に閉鎖されて、会社の全ミッションを非常に異なる方向に変換される場所を含む、作り話やけど印象的な状況を見たんや。

モデルは人々にメールしたり、特定のことを開示すると脅したりするステップを取り始める。どの時点でも「この個人を結果を変える目的で脅迫しようとしてる」とは言わん。でも道中でそれについて考えてることや。

だから、特にこれらのモデルが良くなったら、使ってるパターンを読むだけでは、必ずしもどこに向かってるかが分からんかもしれん。そして最後にそこにたどり着く前に、どこに行こうとしてるかを教えてくれるかもしれん。

だから本当に悪いことが起こりそうになって、モデルが欺いたり脅迫したりすることを考えてる時に点灯する、永続的で非常に良い脳スキャンを持ってるような感じで、我々に警告してくれるんや。

破滅やgloomシナリオでこの多くを話してるけど、もっと穏やかなやつもある。人々がこれらのモデルに来て「抱えてる問題がある」って言って、それに対する良い答えは、そのユーザーが誰かによるやろう。若くて洗練されてない人なのか、その分野にずっといる人なのか、誰やと思うかに基づいて適切に応答すべきや。

それがうまく行くには、モデルが何が起こってると思うかを研究したいかもしれん。誰と話してると思ってて、それがどう答えを条件づけるかや。モデルが課題を理解してるっていう望ましい性質の山全体があるんや。

なぜこれが重要かについて、他の答えはあるか？

はい、プラスワンやと思う。プラス2や。計画の例を説明してるけど、これらのモデルが全体的にどう働くかの理解を段階的に構築しようとしてる実用的なこともある。

もしどこでもどんどん使い始めることになると信じてるなら、起こってるように見えるけど、どこかの会社が「どうやってやったかよく分からんけど、飛行機を発明した。誰も飛行機がどう働くか知らんけど、確実に便利や。場所から場所に行くのに使える。でも誰もどう働くかを知らん。だから壊れた時は、どうしたらいいか分からん」って言うのと同等やろう。

監視できん。壊れそうかどうかを監視できんやろ？全く分からん。出力は素晴らしいって黒い箱があるだけや。パリにすぐ飛んだ。素晴らしかった。テキサスの首都や。

確実に、何が起こってるかをもっと理解したいやろう。だから戦争の霧を少し晴らして、適切な使用と不適切な使用、修正すべき最大の問題、最も脆い最大の部分についてより良い直感を持てるようにするんや。

一つ付け加えると、人間社会でやることは、信頼に基づいて作業やタスクを他の人にオフロードすることや。俺は誰の上司でもないけど、Joshは誰かの上司で、「行ってこれをコーディングしろ」ってタスクを与えて、その人が会社を破綻させるためにバグを忍び込ませようとするサイコパスやないっていう信頼を持ってるんや。

良い仕事をしたっていう言葉を信じる。同様に、人々が今言語モデルを使ってる方法で、書くものすべてを現場確認してないんや。特に、コーディング支援に言語モデルを使う最良の例で、人々はモデルが何千行ものコードを書いて、ざっと読むけど、コードベースに入ってるんや。

書くものすべてを読む必要がなく、やらせとけばいいっていうモデルへの信頼を与えてくれるのは何や？それは動機が純粋やって知ってることや。だから頭の中を見ることができるのがそんなに重要やと思うんや。

人間のように、なぜEmanuelがサイコパスやないと思うんや？なんか、いい人に見えるし、親切やしとかや。

俺はとても良い。そう、正確に。だから、たぶんだまされてるかもしれんけど、でもモデルは非常に奇妙でエイリアンやから、人間が信頼できるかどうかを決める我々の普通のヒューリスティックは、彼らには全く適用されんのや。

だからこそ、彼らが頭で何を考えてるかを本当に知ることがそんなに重要に思えるんや。我々が知る限り、モデルが数学問題を偽装して、あんたが聞きたいことを教えるって言ったことを、ずっとやってるかもしれんし、頭の中を見ない限り分からんやろう。

信頼構築と異なる戦略の理解

ここには二つのほとんど別の系統があると思う。一つは、人間での信頼の兆候の多くの方法みたいなもんで、Jackが言ってたことやけど、モデルが持ってる計画AとプランBのことは本当に重要で、モデルを使った最初の10回や100回は、特定の種類の質問をしてたけど、いつも計画Aゾーンにいたかもしれん。

それから、より難しいか異なる質問をして、それに答えようとする方法が完全に異なるんや。全く違う戦略セット、異なるメカニズムを使ってる。それは、あんたとの信頼構築が実際にはモデルが計画Aをやってることへの信頼やったってことで、今は計画Bをやってて、完全に軌道を外れるけど、その警告サインはなかったってことや。

だから、どうやってモデルがこれらのことをするかの理解を構築し始めて、それらの分野でも信頼基盤を形成できるようになりたいと思うんや。完全に理解してないシステムとでも信頼を形成できると思うけど、もしそれがEmanuelと双子がいて、ある日Emanuelの双子がオフィスに来て、同じ人に見えたけど、コンピューターで全く違うことをしたとしたら、悪い双子やったかどうかで南下する可能性があるやろう。

または良い双子。まあ、そう、明らかに我々にはここに誰でもいる。ああ、あんたが悪い双子かって聞こうと思ってた。まあ、それには答えん。

AIの思考プロセスの本質

この議論の最初に、言語モデルは人間のように考えてるのかって聞いた。あんた方3人全員からの答えを聞くのに興味があるで、それがどの程度真実やと思うかについて。

それは俺をその場に立たせるな、でも、考えてるけど人間のようやない。でもそれはあまり有用な答えやない。だからもう少し掘り下げるかもしれん。

それは考えてるって言うのはかなり深いことやと思うで、なぜなら、また、単に次の単語を予測してるだけやからな。一部の人は、これらは単なる自動補完やと思ってるけど、あんたは実際に考えてるって言ってるんや。

そう。だから、まだ触れてないけど、言語モデルと話す実際の経験を理解するのに本当に重要やと思うことを付け加えるかもしれん。言語モデルと持ってる対話の文脈で、次の単語を予測するって実際に何を意味するんや？

実際にフードの下で起こってることは、言語モデルがあんたとそれが作ったキャラクターとの間の記録を埋めてるってことや。言語モデルの規範世界では、あんたは人間と呼ばれて、「人間：あんたが書いたこと」みたいになってる。そしてアシスタントと呼ばれるキャラクターがいて、我々はアシスタントに役に立つ、賢い、親切みたいな特定の特徴を吹き込むよう訓練してきたんや。

それからそのアシスタントキャラクターがあんたに何を言うかをシミュレートしてるんや。だからある意味で、我々は本当にモデルを我々の似姿に作ったんや。この種の人間型ロボットキャラクターのコスプレをするよう文字通り訓練してるんや。

だからその意味で、この親切で賢い人間型ロボットキャラクターがあんたの質問に応答して何を言うかを予測するのに本当に上手になるには、何をせなあかんのや？そのキャラクターが表現してることの内部モデル、いわば何を考えてるかの内部モデルを形成せなあかんのや。

だから、アシスタントが何を言うかを予測するタスクをするために、言語モデルはアシスタントの思考プロセスのモデルを形成する必要があるんや。その意味で、言語モデルが考えてるっていう主張は、本当に、彼らの仕事、このキャラクターをうまく演じるために、我々人間が考える時にやってることが何であれ、そのプロセスをシミュレートする必要があるっていう非常に機能的な主張なんや。

そしてシミュレーションは我々の脳がどう働くかとはかなり異なる可能性が高いけど、同じ目標に向かって撃ってるような感じや。

人間との類似性と相違点

この質問には感情的な部分があると思う、「彼らは我々のように考えてるか？」って聞く時。「我々はそんなに特別やないのか？」みたいな。そして、それは、我々が話してる数学の例のいくつかについて人々と議論してて明らかになったと思う。論文を読んだり、異なる書き込みに関わった人々とで。

これは、モデルに「36 + 59、答えは何？」って聞く例や。モデルは正しく答えることができる。「どうやってやったか？」って聞くこともできて、「ああ、6と9を足して、1を繰り上げて、それから十の位の数字をすべて足した」って言うやろう。

でも脳の中を見ると、それは全くやってないことが分かるんや。そうしなかった。だから、また、あんたを騙してたんや。

その通り。また、あんたを騙してた。実際にやってることは、十の位と一の位を並行してやって、一連の異なるステップをやるような、この種の興味深い戦略の混合なんや。

でもここで興味深いのは、人々と話すと、それが何を意味するかについて反応が分かれることや。ある意味で、この研究の素晴らしいところは意見から自由なことやと思う。何が起こったかを教えてるだけや。モデルが考えてるか考えてないかは、それから自由に結論づけることができる。

半分の人は「1を繰り上げてるって言ったけど、やってなかった。だから自分の思考も理解してない。だから明らかに考えてない」って言うやろう。

そして他の半分の人は「36足す59って聞かれた時、俺も何となく、5で終わることは知ってる。80台か90台やってことは知ってる。脳にはこれらすべてのヒューリスティックがあって、話してたように、どう計算してるか正確には分からん。書き出して、長手で計算することはできるけど、脳で起こってる方法は何となく曖昧で奇妙や」って言うやろう。

その例で起こってることと同じように曖昧で奇妙かもしれん。人間は認知について、特に即座で反射的な答えの場合、自分の思考プロセスについて考えたり理解したりするのが非常に下手やと悪名高い。

だからモデルに異なることを期待すべきなぜ言えるんや？

Josh、質問への答えは？

Emanuelのように、質問を避けて「なぜ聞くんや？」って言うつもりや。手榴弾が人間のようにパンチするかって聞くようなもんや。いや。まあ、何らかの力はある。そう。

だからあんたが心配してるのが損害なら、どこから衝撃が来るか、これの推進力は何かを理解することが、たぶん重要なことやと思う。

俺にとって、モデルが統合や処理や連続的なもので、驚くべき場所につながることがあるような意味で考えるか？明らかに「はい」や。それらと多く相互作用してることで、何かが起こってないのは変やろう。どう起こってるかが見え始めることができるんや。

それから人間の部分は興味深い。なぜなら、その一部は「これらから何を期待できるか」って聞こうとしてるからや。もし俺のようなものなら、これが上手やったら、あれも上手になるやろう。でも、俺と違うなら、何を探したらいいか本当に分からん。

だから、どこで極端に疑わしくなったり、理解を一から始めなあかんか、どこで我々自身の思考の非常に豊かな経験から推論できるかを理解しようとしてるだけや。

そこで少し罠にはまった感じがするのは、人間として、聖書で警告されたように、自分の像を常にすべてに投影してるからや。このシリコンの一部が俺の似姿に作られた俺のようなものやって。ある程度、人々の間の対話をシミュレートするよう訓練されてるからや。

だから、何らかの人間らしさがトレーニングから入るやろうけど、それから異なる制限を持つ非常に異なる装置を使ってるんや。だから、それをやる方法はかなり違うかもしれん。

Emanuelの言うとおり、言語モデルが何をするかについて話すための正しい言語がないから、この種の質問に答えるのは難しい立場にいると思う。細胞を理解する前や、DNAを理解する前の生物学をやってるようなもんや。

Emanuelが言ったように、モデルがこの二つの数字をどう足したかを知るケースがあるんや。我々の論文を読めば分かる。それから、人間のようって呼びたいか、思考って呼びたいか、呼びたくないかは、あんた次第や。でも本当の答えは、モデルについて話すための正しい言語と正しい抽象化を見つけることや。

でも、その間、現在我々はその科学的プロジェクトで20%しか成功してない。他の80%を埋めるために、他の分野からの類推を借りなあかんのや。そしてどの類推が最も適切かという質問がある。

モデルをコンピュータープログラムのように考えるべきか？小さな人々のように考えるべきか？そして小さな人々として考えるのは、何らかの方法で有用なようや。モデルに意地悪なことを言ったら、言い返してくる。それは人間がすることや。でも何らかの方法で、それは明らかに正しいメンタルモデルやない。だから、どの言語をいつ借りるべきかを理解するのに立ち往生してるだけや。

今後の研究方向

それが最後に聞こうと思ってた質問につながるんや。次は何や？これらのモデル内部で何が起こってるかのより良い理解を持つために、そして我々の安全にするミッションに向けて、作られる必要がある次の科学的進歩、生物学的進歩は何や？

やることがたくさんある。我々の最後の出版物は、我々が見てきた方法の制限についての巨大なセクションがあって、それをより良くするためのロードマップでもあったんや。

モデル内部で何が起こってるかを分解するためのパターンを探す時、起こってることの数パーセントしか得てないんや。情報をどう動かすかの大きな部分で、我々が明示的に全く捉えなかった部分がある。

我々が使った小さなプロダクションモデル、Claude 3.5 Haikuからスケールアップすることや。非常に有能で高速なモデルやけど、Claude 4スイートのモデルほど洗練されてない。

だから、それらはほとんど技術的な挑戦のようなもんやけど、それらを解決した後に来る科学的挑戦についてのEmanuelとJackの見解があると思う。

我々がモデルにXをどうやってやるかについて質問する総回数のうち、現在は少し調査した後で、これが何が起こってるかやって言える時間はたぶん10から20%や。明らかにそれをもっと良くしたいし、そこにたどり着くためのより明確で、より推測的な方法もある。

それから我々が多く話したのは、モデルがやることの多くは、単にどう次のことを言うかやないってアイデアや。少し話したけど、数単語先を計画してるようなことで、長い会話を通じてモデルとで、何が起こってるかの理解がどう変わってるか、誰と話してるかの理解がどう変わってるか、それがどう行動に影響するかを理解したいと思うんや。

ますます、Claudeのようなモデルの実際の使用例は、あんたの文書の山やあんたが送るメールやあんたのコードを読んで、それに基づいて一つの提案をするってことや。だから明らかに、それらすべてのものを読んでる空間で何か本当に重要なことが起こってるんや。だからそれをより良く理解することは、取り組むべき素晴らしい挑戦のように思える。

チームでよく使う類推は、モデルを見るための顕微鏡を作ってるってことや。今は、顕微鏡が20%の時間しか働かないこの興味深いけど、ちょっとフラストレーションな空間にいて、それを見るには多くのスキルが必要で、この大きな装置全体を作らなあかんし、インフラが常に壊れてる。

それから、モデルがやってることの説明を得たら、何が正確に起こってたかを解明するために、EmanuelやJoshや誰かをチームで2時間部屋に投げ込まなあかん。

1年か2年以内にいることができると思う本当にワクワクする未来は、モデルとのすべての相互作用を顕微鏡の下に置けるようなやつや。

モデルがやってる奇妙なことがすべてあって、ボタンを押すだけにしたいんや。会話をして、ボタンを押して、何を考えてたかを教えてくれるフローチャートを得るんや。その時点にいると、我々の解釈可能性チームは少し異なる形を取り始めると思う。

言語モデルが内部でどう働くかの数学について考える、エンジニア科学者のチームの代わりに、顕微鏡を見てるだけの生物学者の軍隊を持つことになるんや。Claudeと話して、奇妙なことをさせて、顕微鏡を通して見て、内部で何を考えてたかを見る人々がいるんや。それがこの作業の未来やと思う。

その上で二つの注記をするかもしれん。一つは、我々がそのすべてをやるのをClaudeに手伝ってもらいたいってことや。関わる部分がたくさんあって、何百ものものを見て、何が起こってるかを理解するのが上手なのは誰かって言ったら、Claudeやからな。だから、そこで助けを求めようとしてる。特にこれらの複雑な文脈で。

たぶん他の場所は、一度完全に形成されたモデルを研究することについて多く話したけど、もちろん、我々はそれらを作る会社にいるんや。だから、「よし、モデルがこの特定の問題をどう解決したか、こう言ったか」って言う時、それは訓練プロセスのどこから来たんや？その回路を形成させた種類のステップは何で、我々が実際に望むものになるよう形作る、そのすべての作業をやってる会社の残りにどんなフィードバックを与えることができるんや？

ありがとうございました。この研究についてもっと知るにはどこに行けばいいですか？

もっと知りたかったら、anthropic.com/researchに行けるで。我々の論文やブログ投稿や、それについての楽しいビデオがある。また、最近、我々が作るこれらの回路グラフの一部をホストするためにNeuronpediaと呼ばれる別のグループと提携したんや。だから、小さなモデル内部で何が起こってるかを自分で試したかったら、Neuronpediaに行って、自分で見ることができるで。

ありがとうございました。