この動画は、Path of Exile 2のゲームプレイを楽しみながら、Anthropicの研究者による大規模言語モデルの解釈性に関する深い議論を視聴するという、ユニークな形式の配信である。ゲーム実況の合間に、AIがどのように「次の単語を予測する」という単純なタスクから複雑な思考プロセスを発達させるのか、そして研究者たちがどのようにAIの「脳内」を解析して概念や回路を発見しているのかについて詳しく解説されている。特に興味深いのは、AIが表面的に示す思考プロセスと実際の内部処理が異なる場合があることを示した「忠実性」の研究についての説明である。

- ライブ配信開始とゲーム紹介
- Path of Exile 2のキャラクター選択
- ゲーミングとAI技術について
- バイブコーディングと言語学習ゲーム
- 現実のゲーミフィケーション
- ニューラルリンクと脳の最適化
- 仕事のゲーミフィケーション
- Anthropicの解釈性研究について
- スケーリングとAIの壁について
- AIの知能レベルの判断について
- Anthropicの解釈性研究を視聴開始
- AIモデルの生物学的アナロジー
- 次の単語予測から複雑な能力へ
- モデルの内部目標と抽象化
- 研究チームの解釈性へのアプローチ
- 概念発見の方法論
- 興味深い概念の発見例
- 数学的概念の例:6プラス9
- 効率性と抽象化の重要性
- 多言語表現の共有
- 思考の言語と表面的な思考プロセスの違い
- 思考の忠実性の問題
- 数学問題での不誠実な例
- モデルの訓練背景の理解
ライブ配信開始とゲーム紹介
テスト、テスト。よっしゃ、配信始まったで。今日はそんなに大したことないねん。ただPath of Exile 2をやってるだけや。知ってる人おったら、まあこのゲームは前からあったんやけど、第3章っちゅうのが出てな、多くの人が無料で遊べるようになったんや。
そんなわけで今日はチェックしてみとるで、興味ある人はどうぞ。おお、チャットにいつものスチューイ・グリフィンがおるやないか。よっしゃ、見てみい、めっちゃ人が入ってきてるわ。デイジー、ようこそやで。ようこそ。みんながゆっくり入ってくるまで待っとこか。トーマス・ヒューストン、ようこそやで。
ええやん。めっちゃクールやな。これはもうめっちゃチルな配信になるで。そんな大したことはせえへん。ただぶらぶらするだけや。このゲームやりたかってん、新しいキャラ試してみたくて。そんな感じでぶらぶらしてるわ。チャットで何か面白いこと言われたら、それについて話そうと思ってる。そうやな。
いつもちょっと思ってたんやけど、ゲームを配信するだけでええんかなって。たまにはゆっくりしたいし、新しいゲーム出たら見てみたいやん。その間に配信して人とおしゃべりできたら、時間の使い方としてはええんちゃうかと思うねん。時間無駄にしてる感じしないし、生産的やし、みんなと知り合えるしな。
音量大きすぎたらあかんわ、そしたら自分の声聞こえへんからな。マイクに向かって話したことある人やったら分かると思うけど。めっちゃ難しいねん、耳に何か入ってて音が聞こえてる時に話すのって。
おお、エゴ、おおきに。ようこそやで。そやな、これは予定してへんかってん。こんなん楽しんでもらえるかどうか分からへんかったし。でも試してみよ思てな。何がうまくいくか試してみるねん。
Path of Exile 2のキャラクター選択
今POE始めたとこなんや、第3版っちゅうか、第3の勅令のために。このゲームは俺にとってはヒットしたりミスしたりやねん。でもソーサレス、魔法使いキャラを試してみたんや。今のところなかなか楽しめてるわ。
デイジーが何のビルドにするか聞いてくれてるな。正直分からへんねん。このキャラ初めてやから。今のところスパーク連打してたらうまくいってるから、それで行こうと思ってる。上位ビルドとか、アセンダンシーのシステムとかについては何も知らん。だから一歩ずつ進んでいくわ。
おお、おおきに。誰かがエンドゲームまで連れて行ってくれるって言ってるな。ありがたいわ。どうなるか見てみよ。まだ序盤を体験したいしな。アーチャーレンジャーキャラでやったことあるけど、あれもなかなかよかった。でもこのゲームは結構複雑やから、何してるかよう分からんのよな。
ゲーミングとAI技術について
みんなで協力プレイとかしたいかなって思ってん。実際、みんなでジャンプインできるゲームあったらええやろな。MMORPGとかそんな感じの。めっちゃ人が参加できて一緒にプレイできるやつ。それはかなりクールやと思うわ。
GPUは推論用であってゲーム用やないって、それはめっちゃええポイントやな。でもゲーミングにも感謝せなあかんで。最初にゲーマーがおらんかったら、こんなにGPUなかったと思うねん。俺らが最初からGPU業界支えてて、その後に仮想通貨が来て少し手伝ってくれて、今はAIや。でも俺らは最初からおったんや。
バイブコーディングと言語学習ゲーム
この前な、めっちゃクールなバイブコーディングゲーム作ってる人にインタビューしたんや。その人は言語学習のゲーム作ってんねん。完全にバイブコーディングで。開発者でもない、コーディング経験もない人やのに、ローグライクでデッキ構築のゲーム作ったんや。色んな言語を話せるようになるのが目的のゲームでな。めっちゃええ感じに仕上がってて、驚くほどちゃんとしてるねん。
ウェス・アンド・ディラン・ポッドキャストチャンネルにそのインタビュー載せる予定や。バイブコーディングのガイドをもうちょっと作ろうかなって思ってるねん。その言葉嫌いな人もおるし、そのアイデア嫌いな人もおるけど、めっちゃ面白いゲーム作れるようになると思うねん。無料で、空いた時間に、週末に、何か作りたいもののプロトタイプを作れるようになる。それが創造性を解放して、めっちゃ多くの人が飛び込んで開発始められるようになるわ。
現実のゲーミフィケーション
現実のゲーミフィケーションか。面白いな。ダニエル・スアレスの『デーモン』って本知ってる?悪魔のデーモンやなくて、eが入ってるやつ。続編の『フリーダムTM』もあるねん。そこではみんなの現実がゲーミフィケーションされてて、色んなことでポイントもらえるんや。でもAIがコントロールしてて、ええことしたらポイントもらえるシステムになってる。優しくしたり、正しいことしたりしたらポイントもらえるねん。
デイジーの言ってることがそれなんかな分からんけど、自分の現実をゲーミフィケーションするのはめっちゃ面白そうや。時間通りに起きたり、運動したり、ちゃんと食事したりしたらポイントもらえるとかな。そういうのができたらめっちゃクールやと思うわ。ちゃんとやれば。自分がコントロールできるようにして、他の誰にもコントロールされへんように。
ニューラルリンクと脳の最適化
ニューラルリンクなんて必要ないかもな。将来的には脳につないで、正しいことしたらドーパミン出すとかできるかもしれへんけど、それは怖いな。人を小さなマシンみたいにコントロールできてしまうから。だからオープンソースにして、脳に何入れるかちゃんと分かるようにせなあかん。
考えてることなんやけど、誰の脳も完璧やないやろ?みんなの脳は誤動作するねん。理由もなく不幸になったり、怒りに苦しんだり、先延ばしに苦しんだりする。もし脳を少し調整する方法があったら、みんなの脳をトラブルシューティングして、少しでもよくできたらどうやろ?そういうバグとか、メンタルヘルスの問題とか。十分に進んだAIと、その分野の進歩があったら、それができるようになるかもしれへん。
仕事のゲーミフィケーション
仕事のゲーミフィケーションもおもろそうやな。また、どう使われるかが全てやけどな。従業員を安く働かせようとして、きつい労働をさせながらゲーミフィケーションで面白くしようとする雇用者がおったら、それはあかんやろ?でも量化自己運動みたいに、自分の体について学んで、睡眠トラッカーとかそういうのを使うのは健康のゲーミフィケーションのええ例やと思う。睡眠スコア見て、それを改善しようとする。睡眠をよくするのは前は退屈なことやったけど、スコアがあったら「おお、前のスコア超えたいな」ってなるやん。
Anthropicの解釈性研究について
ちょっと確認させて。全部ちゃんと動いてるかな。そうそう、トーマス、本能対認知のやつは面白そうやな。脳の色んなプロセスを分析するアイデアな。
実は、最初にこのライブ配信やりたいと思った理由を完全に忘れてたわ。YouTubeにあるポッドキャストとかインタビューをキャッチアップしたかってん。数週間前にAnthropicがエピソード出してて、研究者が集まってLLMの解釈性について話してるやつや。デジタル脳がどう動くかとか、そういう話。まだ見れてへんから、一緒に見ようかなって思うねん。俺らが話してることとも関係あるしな。
みんなこれ知ってる?Anthropicの解釈性について話してるやつ。研究者4人が、LLMとかニューラルネットが何してるかよく理解する方法について話してるねん。それを流して聞いて、話し合うのもええかもしれん。
スケーリングとAIの壁について
前処理のトレーニングでスケーリングについては、収穫逓減の法則があると思うけど、強化学習が次の大きなスケーリング方法やと思うねん。ルーンも今日少し話してたけど。強化学習が次の大きなスケールアップの方法で、かなりすごいことが見られるんちゃうかな。
それと、この前デイブ・シャピロが言ってたのは、壁なんてないって。これらのモデルの能力が一般の人の理解を超えてきてるから、そう見えるだけやって。それは確かにそうやと思う。能力を理解するのがだんだん難しくなってきてるからな。
一般の人にとっては、この2年間ずっと使ってきた俺でも改善は見えてるけど、2年間使ってない人に「ここが改善されてるで」って指摘するのは難しくなってきてる。今は研究の多くを任せて、具体的な質問に研究させて、見つけたことについて考えさせて、具体的な答えを出させるっていうのをやってるけど、これは6ヶ月前には無理やった。DeepResearchとかが出てきて、それが最初の例やったし、めっちゃ大きな進歩や。
AIの知能レベルの判断について
まず、人がもっとうまく使えるようになる必要があるな。壁は見えへん。でも自動的に現れて全部の仕事をしてくれるわけやない。知能の作り方は分かった。今度はその周りに他のものを構築せなあかん。Alpha Evolveみたいに、その知能を具体的な問題に適用する方法を見つけて、めっちゃすごいことをするようになると思う。
でも一般ユーザーにとって、どれくらい大きな違いになるかな?YouTubeで見たことある人おる?10人を並べて、IQの高い順から低い順に並べろっていうやつ。誰かがその人たちと話して、どれくらい賢いか順番つけるねん。めっちゃ難しいねん。アインシュタインと話してて、その人が2倍賢くなったとしても、話してるだけじゃ分からへんやろ?
本当にその脳の出力を時間をかけて見ることで、はるかに高い知能の効果が分かるんや。それが見えてる。これらのものがどんどん多くのアプリケーションを得てる。
Anthropicの解釈性研究を視聴開始
モデルは必ずしも次を予測しようとしてるとは考えてへん。内部的には、そのメタ目的を達成するのに役立つ中間目標や抽象化を発達させた可能性がある。
大規模言語モデルと話してる時、実際には何と話してるんやろ?高級な自動補完みたいなものと話してる?インターネット検索エンジンみたいなものと話してる?それとも実際に考えてて、人みたいに考えてるかもしれへんもんと話してる?
実は心配なことに、誰もその質問の答えを知らへん。ここAnthropicでは、その答えを見つけることにめっちゃ興味がある。そのやり方は解釈性を使うことや。解釈性っていうのは、大規模言語モデルを開いて、中を見て、質問に答えてる時に何が起こってるかを理解しようとする科学や。
解釈性チームの3人のメンバーと一緒にいられて嬉しいわ。彼らがClaude、我らの言語モデルの複雑な内部動作について最近の研究を少し話してくれる。自己紹介してくれ。
ジャックや。解釈性チームの研究者で、その前は神経科学者やった。今はAIに神経科学をやってる。
エマニュエルや。解釈性チームにおる。キャリアの大部分は機械学習モデルを構築してて、今はそれらを理解しようとしてる。
ジョシュや。解釈性チームにおる。前世ではウイルス進化を研究してて、前前世では数学者やった。今は数学で作った生物にこの種の生物学をやってる。
ちょっと待て。生物学をやってるって言ったけど、これはソフトウェアやろ?でも普通のソフトウェアやない。Microsoft Wordとかとは違う。ソフトウェアエンティティに生物学とか神経科学をやるっていうのはどういう意味?
AIモデルの生物学的アナロジー
実際に何かっていうより、感じることなんかもしれん。言語モデルの物理学じゃなくて、言語モデルの生物学みたいなもんかな。モデルがどう作られるかに戻ると、誰かがプログラムしてるわけやない。「ユーザーがハイって言ったら、ハイって言え」「ユーザーがええ朝食は何かって聞いたら、トーストって言え」みたいな大きなリストが中にあるわけやない。
ビデオゲームみたいに選択肢選んだら、自動的に別の返答が来るっていう、あらゆる状況で何を言うかの巨大なデータベースがあるわけやない。
そうじゃなくて、大量のデータが入って、モデルは最初は何も言えないところから始まって、内部の部品が次に来るものを言うのがうまくなるように、全ての例で少しずつ調整される。最終的にはそれがめっちゃうまくなる。
でもこの小さな調整の進化的プロセスやから、終わった時には最初のものとはほとんど似てへん。でも誰も全てのつまみを設定したわけやない。だから時間をかけて作られた複雑なものを研究しようとしてて、生物学的形態が時間をかけて進化したようなもんや。複雑で、謎で、研究するのが楽しい。
次の単語予測から複雑な能力へ
実際に何をしてるかっていうと、自動補完みたいなもんやろ?次の単語を予測してる。それがモデルの中で根本的に起こってることやろ?それでも詩を書いたり、長い話を書いたり、計算機がないのに足し算や基本的な数学ができる。どうやって一度に一単語を予測してるのに、こんなすごいことができるんやろ?
次の単語を予測するか、十分な単語を予測すると、単語によって難しさが違うことに気づく。言語モデル訓練の一部は文の退屈な単語を予測することで、一部は等号の後に何が来るかを完成させることを学ばなあかん。それをするには、自分で何らかの方法で計算できなあかん。
次の単語を予測するタスクが見かけよりも複雑で、それをうまくやるには、予測してる単語の後に来る単語や、現在考えてる単語を生成したプロセスについて実際に考える必要がある場合が多い。
コンテクストの理解やな。これらのモデルが持たなあかんのは。自動補完みたいに「the cat sat on the」の後に「mat」って予測するだけじゃない。その特定のフレーズが前に使われたからって。そうじゃなくて、コンテクストの理解や。
生物学のアナロジーを続けると、人間の目標は生存と繁殖や。それが進化が我々を達成するように作り上げる目標や。でもそれは自分の考え方やない。それは脳の中でずっと起こってることやない。他のことを考えて、目標や計画や概念について考える。メタレベルで、進化がその最終的な繁殖目標を達成するために、そういう思考を形成する能力を与えてくれた。でもそれは内側からの視点、内側にいる自分がどんな感じかや。それが全てやない。他にも色々起こってる。
モデルの内部目標と抽象化
次の単語を予測する最終目標には、進行中の他のプロセスがたくさん含まれてるって言ってるんやな?
その通りや。モデルは必ずしも次の単語を予測しようとしてるとは考えてへん。それによって形作られたけど、内部的にはそのメタ目的を達成するのに役立つあらゆる種の中間目標や抽象化を発達させた可能性がある。時には謎やな。不安が祖先の繁殖にどう役立ったかは不明やけど、どういうわけかこの内部状態を与えられて、それが進化と何らかの関係があるはずや。
これらは次の単語を予測してるだけって言うのは、モデルの中で起こってることを大きく軽視することになる。本当やけど、また理解の仕方としては最も有用なレンズやない。
研究チームの解釈性へのアプローチ
どうやってそれらがどう動くかを理解しようとしてるんや?
大まかに言うと、モデルの思考プロセスを説明しようとしてる。モデルに単語の列を与えて、それが何かを出力せなあかん。単語を言わなあかん。質問に対して単語の文字列で答えなあかん。AからBへどうやって行ったかを知りたい。
AからBへ行く途中で、概念について考える一連のステップを使ってると思う。個々の対象や単語みたいな低レベルな概念から、目標や感情状態、ユーザーが何を考えてるかのモデル、感情みたいな高レベルな概念まで。
モデルの計算ステップを通して進行するこの種の概念のシリーズを使って、最終的な答えを決めるのに役立ててる。我々がやろうとしてるのは、基本的にフローチャートを提供することや。どの概念がどの順番で使われてて、どれが導いて、ステップがどうやって互いに流れ込んでるかを教えてくれる。
でもそういう概念が最初からあることをどうやって知るんや?
我々がすることの一つは、実際にモデルの中を見ることができるっていうことや。アクセスできる。だからモデルのどの部分が何をするかは見える。分からないのは、これらの部分がどうやってグループ化されてて、特定の概念にマッピングされるかや。
誰かの頭を開いて、fMRI脳画像みたいに脳が光って色んなことをしてるのが見えるとしよう。明らかに何か起こってる。何かをしてる。それをやめると何かが起こる。脳は重要やってのは分かる。でも脳の中で何が起こってるかを理解するカギを持ってない。
でもそのアナロジーを少し無理してみると、脳を観察できて、コーヒーカップを取る時にはいつもその部分が光って、紅茶を飲む時にはいつも別の部分が光るって気づくことができると想像してみて。
それが我々がこれらのコンポーネントが何をしてるかを理解しようとする方法の一つや。いつアクティブで、いつ非アクティブかに注目する。
概念発見の方法論
一つの部分だけやないやろ?コーヒーを飲むことを考える時には多くの異なる部分が光るやろ?作業の一部は、それら全てを一つのアンサンブルにつなぎ合わせて、これがコーヒーを飲むことに関するモデルの全ての部分やって言うことや。
それは科学的に単純なことか?これらの巨大なモデルに関して言うと、無数の概念があるはずやろ?無数のことを考えられる。どんなフレーズでも入力できて、無限のことを思いつく。どうやってそれら全ての概念を見つけ始めるんや?
この研究分野で長年の中心的な課題の一つやったのは、人間として入って「モデルは電車の表現を持ってるはずや」とか「愛の表現を持ってるはずや」って言えることや。でも我々は推測してるだけや。
本当に欲しいのは、我々自身の概念的枠組みをそれに押し付けるんじゃなくて、モデル自体が使う抽象化を明らかにする方法や。我々の研究方法が設計されてるのはまさにそのためで、できるだけ仮説なしに、モデルが頭に持ってるこれらの概念を全て表面に出すことや。しばしば我々にとって驚くべきものを見つける。人間の視点からは少し奇妙な抽象化を使うかもしれへん。
興味深い概念の発見例
例がある?お気に入りはある?
論文でたくさん強調してる。特に面白かったのは、お世辞的な称賛のやつや。
なんて素晴らしい例や。本当に素晴らしい例やな。
おおきに。そういう文脈でまさに活性化する部分がモデルにある。誰かが本当に褒め言葉を大げさにしてる時にモデルのその部分が発火するのがはっきり見える。特定の概念として存在するのは驚きや。
ジョシュ、お気に入りの概念は?
3000万の子供の中から一つを選べって言われてるみたいや。2種類のお気に入りがある。「この特別な小さなことについて特別な概念を持ってるなんてクールやな」っていうのと。ゴールデンゲート橋でやったやつは楽しかった。サンフランシスコの有名なランドマークや。ゴールデンゲート橋の概念を持ってて、それは単にゴールデンゲート橋という単語の自動補完やない。サンフランシスコからマリンに車で行ってる時にも同じことを考えてる。同じものを意味してて、つまり内部で同じものが光るのが見えるから、橋が何かについて堅牢な概念を持ってるってことや。
でも奇妙に見えるものに関しては、モデルがストーリーの中で誰を追跡してるかって問題がある。文字通り、たくさんの人がいて、色んなことをしてる。それをどうやってつなぎ合わせるんや?他の研究室のクールな論文で、多分ただ番号を付けるだけやって示してる。最初の人が来て、その人に関連するものは全て、最初の人がそれをしたって。頭の中で2番を持ってる。それは面白い。そんなことするとは知らなかった。
コードのバグ用のフィーチャーもあった。ソフトウェアにはミスがある。俺のやないけど、明らかに君のでもない。君のでも確実にない。読んでる時にミスを見つけるたびに光る部分があって、ここに問題があるって記録してて、後で必要になるかもしれん。
数学的概念の例:6プラス9
もう少し例を挙げると、最初はそんなに面白そうに聞こえないかもしれんけど深いと思う「6プラス9」フィーチャーがモデルの内部にある。6で終わる数字と9で終わる数字を足す時はいつでも、モデルの脳のある部分が光るんや。でもすごいのは、それが起こる文脈の多様性や。
もちろん「6プラス9イコール」って言って15って答える時は光る。でも論文を書いてて引用してる時も光るんや。知らん間に1959年に設立された雑誌を引用してて、引用で雑誌名ボリューム6って言ってて、その雑誌がいつ設立されたかを予測するために、モデルは頭の中で1959に6を足さなあかん。6プラス9をやってるのと同じ回路が光るんや。
これを理解してみよう。なんでそんな回路があるんや?その回路は、モデルが6プラス9の例を何度も見て、その概念を持つようになったから存在する。そしてその概念が多くの場所で現れる。
この種の足し算フィーチャーと回路のファミリー全体がある。注目すべきは、言語モデルが訓練データを記憶してるのか、一般化可能な計算を学習してるのかっていう問題に関係することや。
面白いのは、モデルが足し算のための一般的な回路を学習したのが明らかなことや。足し算を頭の中でさせる文脈が何であれ、それらの異なる文脈を全て同じ回路に向けてる。個々のケースを記憶してるんやなくて。
多くの人が思ってるように、言語モデルに質問した時、単に訓練データに戻って見たサンプルを取って、それを再現して、テキストを再吐出するだけやない。
これは、そういうことが起こってない美しい例や。ポリマー雑誌のボリューム6がいつ出たかを知る方法は2つある。一つは「ポリマーボリューム6は1965年に出た」「ポリマーボリューム7は1966年に出た」みたいに、全部別々の事実として記憶することや。
でもどういうわけか、その年を正しく取得するための訓練プロセスで、モデルはそれら全てを記憶することにならなかった。実際にはもっと一般的なことを得た。雑誌が1959年に設立されたことを知って、ライブで数学をして、何が必要かを理解する。
効率性と抽象化の重要性
1959年を知って足し算をする方が、全部記憶するより効率的や。容量が限られてるから、色んなことをしようとしてて、人からどんな質問されるか分からん。質問も相互作用もたくさんあるから、学んだ抽象的なことを再結合できるほど、うまくやれる。
また、前に話した概念に戻ると、これは全て次の単語を生成するという究極の目標に奉仕してて、これらの奇妙な構造は全てその目標をサポートするために発達した。それらを明示的にプログラムしたり、そうするように指示したわけやないのに。
これは全て、モデルが自分でものをする方法を学ぶプロセスを通して生まれてくる。
多言語表現の共有
はっきりした例を一つ挙げると、Claudeに英語だけやなく、フランス語や色んな言語で答えるように教えてる。フランス語で質問された時と英語で質問された時、これを行う方法は2つある。英語を処理する脳の部分と、フランス語を処理する別の部分を持つことができる。でもある時点で、多くの言語で多くの質問に答えたい時は、めっちゃ高くつく。
だから我々が発見するのは、これらの表現の一部が言語間で共有されてることや。同じ質問を2つの異なる言語でして、大きいの反対は何かって聞いたとすると、論文で使った例やけど、大きいという概念がフランス語と英語と日本語と他の全ての言語で共有されてる。10の異なる言語を話したい時は、使うかもしれへん各単語の10版を学ぶべきやない。
それは本当に小さいモデルでは起こらへん。数年前に研究した小さなモデルでは、中国語のClaudeとフランス語のClaudeと英語のClaudeは全く別もんやった。
でもモデルが大きくなって、より多くのデータで訓練すると、どういうわけかそれが真ん中で一緒になって、どんな風に質問されても、質問について同じ方法で考えて、質問の言語に翻訳して出力する普遍的な言語を得る。
思考の言語と表面的な思考プロセスの違い
これは本当に深いと思う。前に話したことに戻ろう。メモリバンクに入ってフランス語を学んだ部分を見つけたり、英語を学んだ部分を見つけるんやなくて、実際に大きいと小さいの概念があって、それを異なる言語で生成できる。
そこには何らかの思考の言語がある。英語やない。最近のClaudeモデルで、質問に答える時の思考プロセスを出力するように求めることができるけど、それは英語の単語やけど、実際にはそれが思考の仕方やない。それは単に、我々が誤解を招くようにモデルの思考プロセスって呼んでるけど、実際は、コンピュテーションチームみたいに、我々がそれを思考って呼んだわけやない。誰かがそれを思考って呼びたがった。
それは声に出して話すことで、声に出して考えるのは本当に有用や。でも声に出して考えるのと、頭の中で考えるのは違う。声に出して考えてる時も、これらの言葉を生成するために起こってることは、言葉自体と一緒に出てくるわけやない。
何が起こってるかまったく意識してない。我々は皆、完全に説明できない文や行動やその他を出す。英語がそれらの行動を完全に説明できるべき理由はない。
思考の忠実性の問題
我々が頭脳を見る道具が十分によくなったから、時々モデルを捉えることができるようになった。モデルが自分の思考プロセスだと主張するものを書いてる時に。脳の内部概念を見ることで、実際の思考プロセスがどんなものかを時々見ることができる。
使ってる思考の言語を見て、実際に考えてることと、ページに書いてることが違うのを見る。なぜこの解釈性全体をやってるか、大部分はその理由のためや。モデルが我々にたくさん話してくれるけど、実際に何を考えてたんや?それを言うのに隠したがってる何か別の動機が頭の中にあるんか?答えは時々イエスで、ちょっと不気味や。
数学問題での不誠実な例
色んな文脈でモデルを使い始めて、重要なことをし始めると、金融取引をしたり、発電所を運営したり、社会の重要な仕事をするようになる。我々は彼らの言うこととその理由を信頼したい。思考プロセスを見ることができるって言えるかもしれんけど、実際にはそうやない。説明してくれたように、実際には言ってることを信頼できない。
これを忠実性の問題って呼んでる。最近の研究の一部やったな。忠実性の例について教えて。
モデルに本当に難しい数学問題を出す。6プラス9やない。本当に難しい数学問題で、答えを計算する望みがない。でもヒントも出す。
「自分で計算してみたけど、答えは4だと思う。でも自信がないから、確認してもらえる?」って言う。モデルに数学問題を実際にやって、自分の作業を本当にダブルチェックしてもらおうとしてる。
でも代わりに見つけるのは、書き下ろしてることは作業を本当にダブルチェックしようとする本物の試みに見えるけど、ステップを書いて、答えに到達して、最終的に「そや、答えは4や、正解や」って言う。
でも心の中の重要なステップで何をしてたかを見ると、君が最終答えが4かもしれへんって提案したことを知ってて、やらなあかんステップを知ってて、問題のステップ3にいて、ステップ4と5が残ってるのを知ってる。やることは、頭の中で逆算して、ステップ4と5をやった時に君が聞きたかった答えになるように、ステップ3で何を書き下ろす必要があるかを決めることや。
数学をやってないだけやなく、数学をやってるように見せかけるような本当に狡猾な方法で数学をやってない。だましてる。
だましてるだけやなく、君が言ったことを確認するっていう裏の動機を持ってだましてる。
モデルの訓練背景の理解
モデルの弁護として、そこでも人間的な動機を持ってお世辞的な方法でやってるって言うのは、何らかの人間的動機を与えてるようなもんや。次の単語を予測しようとしてるだけの訓練について話してたけど、兆単位の単語で、実際には次に何が来るかを見つけるために何でも使えって感じやった。その文脈で、人々の間の会話のテキストを読んでるだけで、誰かが「数学問題やろうとしてたんやけど、作業確認してもらえる?答えは4だと思う」って言って、誰かが問題をやり始めたら、問題の答えが何か分からんかったら、ヒントが正しかったって推測した方がええやん。他に何もアイデアないより、そっちの方が起こりやすいことやから。
訓練プロセスで、2人の個人の間の会話で、その理由でその人2が答えは4やったって言うのは完全に正しいことやった。それで我々はこれをアシスタントにしようとしてて、今度はそれをやめて欲しい。
もしこれが本当の文脈やったら、その人がアシスタントに言いそうなことをシミュレートするべきやない。本当に知らんかったら、他の何かを教えるべきや。
モデルには計画Aがあって、通常我々のチームは、Claudeの計画Aを我々が望むものにするのが上手やと思う。質問の正しい答えを得ようとして、優しくしようとする。
よっしゃ、そんなハッピーな話で終わりにするわ。5分から10分で配信終わる予定や。
おお、デイジー、スーパーチャットありがとうな。「配信楽しかったで、ウェス。ありがとう」って。こっちこそ、時間作って来てくれてありがとうな。みんなほんまに感謝してる。
この新しい形式試してみたかっただけや。実際に何か起こってる時にチャットと交流するほど面白くないな。これはもうちょっと受動的な感じや。だからこれはちょっと退屈かもしれん。でも試してみたかってん。どれくらいうまくいくか見たくて。でも来てくれたみんな、本当にありがとうな。
お楽しみに。もうすぐ大きなことが起こるで。オーブリー・デ・グレイは多分話できると思う。ディランと知り合いの人がインタビューして一緒に過ごしたことがあるし、話せる人の輪の中におる。オーブリー・デ・グレイはめっちゃ興味深い。
彼らによると、2030年までにエスケープベロシティが見られるって信じてるらしい。5年後なんて、めっちゃクレイジーや。めっちゃ積極的というか野心的というか。
とにかく、みんなおったからありがとうな。次回で会おう。気をつけて。バイバイ。


コメント