私たちはAIの指数関数的成長を誤解しているのか?Julian Schrittwieserが語るムーブ37と強化学習のスケーリング(Anthropic)

本動画は、AnthropicのAI研究者であるJulian Schrittwieserが、AIの指数関数的な進化の軌跡と、多くの人々がその進化速度を見誤っている現状について語るものである。Julianは、DeepMindにおけるAlphaGo ZeroやMuZeroなどの伝説的プロジェクトの中心的貢献者であり、強化学習とAIエージェントの最前線に立つ人物だ。彼は2026年から2027年にかけてのAI能力の予測、強化学習の進化、AIの創造性の背後にある科学、そしてAlphaGoの有名な「ムーブ37」について詳しく語る。さらに、AIが経済に与える影響、雇用の未来、安全性とアライメントの課題についても深く掘り下げ、AIがノーベル賞級の発見を成し遂げる可能性や、技術的特異点に向けた道筋についても議論する。

Are We Misreading the AI Exponential? Julian Schrittwieser on Move 37 & Scaling RL (Anthropic)

Are we failing to understand the exponential, again?My guest is Julian Schrittwieser (top AI researcher at Anthropic; pr...

AIの指数関数的成長を理解する

AIバブルについての議論は、最先端の研究所で起きていることや私たちが目にしていることとは、かなりかけ離れているように見えました。私たちは進歩の鈍化を全く目にしていません。私たちが目にしているのは、何年にもわたる非常に一貫した改善です。例えば3、4ヶ月ごとに、以前の2倍の長さのタスクを完全に自律的にこなせるようになっています。こうした指数関数的なトレンドを直感的に理解するのは、私たちにとって非常に難しいことなのです。

もし社会のすべての人の生産性を10倍にすることができたら、どれほどの豊かさを達成できるでしょうか。今後5年間で何を実現できるでしょうか。私たちは極めて遠くまで行けると思っています。

Mattポッドキャストへようこそ。私はFirst MarkのMatt Turkです。今日のゲストは、世界で最も印象的なAI研究者の一人であるJulian Schrittwieserです。JulianはDeepMindの伝説的なAlphaGo ZeroとMuZeroプロジェクトの中核的な貢献者であり、現在はAnthropicの主要研究者です。

私たちは、AIの指数関数的な軌跡と彼の2026年、2027年の予測、強化学習とAIエージェントの最前線、そしてAlphaGoの有名なムーブ37の背後にあるAIの創造性の科学について話しました。それでは、Julianとの素晴らしい対話をお楽しみください。

やあJulian、ようこそ。

やあMatt、招待してくれてありがとう。

指数関数的成長の見落とし

数週間前、あなたは「指数関数的成長を再び理解し損なう」というタイトルの、インターネットを騒がせた素晴らしいブログ記事を書きましたね。現在のAIの軌跡について、多くの人が見落としているものは何でしょうか。

ああ、そのブログ記事を取り上げてくれて面白いですね。あれほど話題になるとは全く予想していませんでした。実際、数週間前にキルギスタンで休暇中に、非常に長い車での移動中にこのアイデアを思いついたんです。そしてこのことについて考え始めました。Xで見かけたAIバブルについての話や議論が、最先端の研究所で起きていることや私たちが目にしていることとは、非常にかけ離れているように思えたのです。

それで少し考え始めました。物事があまりにも速く動いているので、人々は外挿して直感的に理解するのに苦労しているのではないかと。ああ、今は遠く離れているかもしれないけれど、数ヶ月ごとに倍増しているということは、一度私たちに近づいたら、非常に速く追い越して本当に良くなるだろう、と。

これは、初期のコロナウイルスの時に起きたことと、違う形ではありますが非常に似ていることを思い出させました。最初は症例が非常に少なくて、ああ、これは決して起こらない、たった数百人だけだ、誰が気にするんだ、という感じでした。しかし、数学を理解して見てみると、ああ、これは1週間か2週間ごとに倍増するだろう、明らかに大規模になるだろう、とわかるのです。

しかし、私たちにとって、こうした指数関数的なトレンドを直感的に理解するのは非常に難しいのです。なぜなら、それは私たちの通常の環境で慣れ親しんでいるものではないからです。

それで、AIについても同様のことが起きているのではないかと考え始めました。私たちには多くのベンチマークがあり、多くの評価があります。何年にもわたって非常に一貫した改善を目にしています。例えば3、4ヶ月ごとに、以前の2倍の長さのタスクを完全に自律的にこなせるようになっているのです。

ですから、これを外挿できますよね。そして、ああ、今から1年後、あるいは2年後には、トップモデルは丸一日かそれ以上、完全に自律的に作業できるようになるだろうとわかります。これと、経済には膨大な数の知識ベースの仕事や知識ベースのタスクがあるという事実、そして最先端の研究所では進歩の鈍化が全く見られないという事実を組み合わせると、非常に短い期間、例えば半年、1年で外挿するだけで、大規模な経済的影響があることがわかります。

つまり、現在の状況を見ると、OpenAIを見ても、Anthropicを見ても、Googleを見ても、それらの評価や収益の数字は実際にはかなり保守的なのです。

最近考えていることは、実際にはさらに興味深く、より複雑かもしれないということです。つまり、これらの最先端の研究所や最先端のモデルは明らかに非常に有能で、極端な軌跡にありますが、同じAI分野に参入しようとしている他の多くの企業がありますよね。それらは非常に高い評価を受けているかもしれませんが、必ずしもそれを支える収益があるわけではありません。

ですから、より広いエコシステムにはある種のバブルが同時に存在する一方で、最先端の研究所は非常に堅実な軌跡にあり、多くの収益を上げ、多くのお金を稼いでいるということが同時に起こる可能性があります。これは非常に珍しい状況だと思います。過去には、例えばドットコムバブルや鉄道ブームなどで話されていたことでも、こうした二極化は見られませんでした。

ですから、これについてもっと考えてきましたが、状況はますます興味深くなっていると思います。

2026年と2027年の予測

興味深いですね。あなたは26年と27年のあなたの予測や外挿について言及しましたね。それを詳しく説明してもらえますか。3つの予測がありましたよね。

私の予測と呼ぶのは、自分に過大な評価を与えすぎかもしれませんね。ただこう言いたいのです。例えばMETERの評価を見て、非常に単純に線形フィットを外挿すれば、そうなることが期待されるということです。

ですから、謙虚になるつもりです。つまり、ほとんどの場合、私は統計モデルより賢くはないでしょう。非常に一貫している過去のトレンドの統計的外挿より賢くはないのです。

ですから、非常に謙虚になって、研究や何が起きているかについて私が知っているかもしれないことにもかかわらず、おそらく私ができる最も可能性の高い最良の予測は、実際にそのデータ、その外挿に従って、それが私たちをどこに連れて行くかを見ることです。

そして、これを展開して、他のベンチマークを見ると、来年には、モデルは丸一日分のタスクを自律的に作業できるようになると思います。ソフトウェアについて考えると、ああ、この機能全体を実装する、アプリのこのセット全体を構築する、といった感じです。知識労働について考えると、例えば研究レポート全体を作成する、このようなスケールです。

タスクの長さが特に興味深いと思う理由は、それによって言語モデルやエージェントにより多くの作業を委任できるようになるからです。非常に賢いモデルを持っていても、非常に頻繁にフィードバックやあなたとのやり取りが必要な場合、委任できることは本当に限られてしまいます。10分ごとに話す必要がある場合と、数時間連続で動作できるものがある場合では、明らかに違いますよね。

そうすれば、そのコピーを1つだけでなく、タスクを委任して管理できるチーム全体を持つことができます。ですから、モデルが実際に十分に賢く、エージェントが自分自身で作業し、自分自身のエラーを修正し、反復できるほど賢いことが本当に重要だと思います。なぜなら、それこそが実際に委任を可能にするものだからです。

確かに、タスクの長さと完了までの時間が進歩の指標ですね。2026年半ばまでには、エージェントが一日中自律的に作業できるようになると言いましたね。2026年後半には、少なくとも1つのモデルが多くの職業で業界の専門家に匹敵するようになり、そして2027年には、モデルが多くのタスクで専門家を頻繁に上回るようになる、と。

つまり、より長い時間稼働し、経済全体への汎化が進むということですね。OpenAIのGDPvalというメトリックを、複数の職業への進歩を見るベンチマークとして言及されましたね。

はい、GDPvalはOpenAIからの素晴らしい評価だと思います。実際の領域の専門家から実際の現実世界のタスクをたくさん集めて、経済で実際に行うであろうことを本当に代表するものにし、それらのタスクで多くのモデルを評価しました。

そして、実際の専門家のパフォーマンスと比較して、経済的影響がどれだけ近いか、どれだけ遠いかの本当に良い指標を私たちに与えてくれます。ですから、それは本当に素晴らしい評価だと思います。

ベンチマークと実世界のギャップ

明らかな質問は、GDPvalとMETERは慎重に設計されたベンチマークだということです。コンプライアンス、責任、乱雑なデータ、乱雑な世界、ツールの摩擦、その他すべてのものを加えたとき、これらは本番環境での価値をどのように予測するのでしょうか。

乱雑さとタスクの長さ、つまり独立して作業できる時間の長さは、非常に似ているか、非常に相関していると思います。ですから、METERがモデルがどれだけ長い間自力で動作できるかを測定しようとしているのが興味深い理由です。なぜなら、人間が8時間、16時間かかるタスクを考え出すためには、それを測定できるようにするために、これらすべての乱雑さとこのすべての現実世界の混乱を含める必要があるからです。

しかし、さらに進むためには、実際のユーザーから来るベンチマーク、評価が本当に必要だと思います。業界であれ、個人ユーザーであれ、それが最終的に重要なことですよね。モデルはあなたにとって役立つか。あなたはそれから何かを得ているか。あなたの事務仕事をこなし、何かを書くのを助け、コードを修正し、勉強を助けますか。それが本当の証明だと思います。

新しいモデルをリリースしたとき、人々はそれをもっと使い始めるか。本当に楽しんでいるか、ですね。

指数関数的成長を疑う根拠

あなたの考えを変えるようなものはありますか。実世界での採用であれ、ベンチマークのパフォーマンスであれ、その指数関数的成長についてより慎重になるようなシグナルはありますか。

多くのことが、はい。これらの多くは内部だけのものですよね。私は私たちのモデルの事前学習を見るかもしれません。ファインチューニングを見るかもしれません。強化学習の状況を見るかもしれません。新しい実行が過去の実行と比較してどうなるか、私たちの期待に合っているか、スケーリングは続いているか、です。

それから、より公開されているものを見るかもしれません。例えば、人々が実際にこれらのモデルを使ってより生産的になれているか、です。最初は常にある程度の適応期間がありますよね。ああ、Claude Codeのような新しいツールがあって、使い方を理解するのに時間がかかります。しかし、中期的、長期的に、人々は使い続けているか、それを使ってますます生産的になっているか、それが私が見ているものの1つだと思います。

多くのシグナルを見ています。強化学習や研究を行うとき、自分が間違っていることを証明するシグナルを探す習慣が身につくと思います。なぜなら、自分が執着するアイデアを持つことがよくありますが、それは研究を行う良い方法ではないからです。あなたのアイデアのほとんどは良くなく、うまくいかないでしょう。

ですから、このアイデアが良いものか、実際には間違っているかを、できるだけ早く見つけたいのです。ですから、ああ、これが実際には真実ではないことを示す最も速いものを見つける、という習慣が本当に身につくのです。

AIが人間を超える可能性

あなたの外挿のフレームワークでは、2026年、2027年までにAIは人間と同等になります。現在の重要な質問は、AIがどの程度人間より優れたものになれるか、ということです。最近、ムーブ37についてのいくつかの議論があり、AIが難しい問題を考え解決するために、エイリアンのような新しい経路を創造できるかどうかについて話されています。

まず、ムーブ37が何か、聴衆に思い出させてください。そして、現在の状態のAIが、ムーブ37タイプの思考をますます提供できるようになると思いますか。

はい。背景を説明すると、ムーブ37は、私たちがAlphaGoを構築していたときのことです。囲碁をプレイするAIプログラムです。それは2016年だったと思います。当時の世界最高のプレイヤーの一人と対戦していました。というのも、当時、どのAIプログラムも、どのコンピュータプログラムも、囲碁のトップ人間プレイヤーを打ち負かしたことがなかったからです。囲碁は最も難しいボードゲームの1つと考えられており、いわば知能の真のテストでした。

ムーブ37は、5局のマッチの2局目で起こりました。AlphaGoが多くのプロ囲碁プレイヤーを驚かせる、本当に予想外で型破りな手を打ったのです。解説者が、これは本当に創造的で予想外だと言ったと思います。そして最終的にAlphaGoはそのゲームに勝ちました。

ですから、多くの人にとって、これはAIが単に計算して最適な道を追うだけでなく、訓練データを模倣するだけでは予想できないような、本当に新しくて創造的なことができるという初期の兆候だったと思います。

これは現代の文脈でも非常に関連していると思います。あなたが言及したように、ああ、言語モデルは訓練データをただ真似ているだけなのか、実際に新しいことができるのか、という多くの議論があります。

研究を長い間行ってきた者として、私にとっては、これらのモデルが新しいことができることはかなり明確だと思います。それが、コードを書くにしても、明らかに既に持っているコードを書くだけでは非常に興味深くないですよね、あるいは論文を書くのを手伝うにしても、多くの人にとって非常に有用である理由です。

これらのモデルが訓練される方法は、文字通り確率分布全体を生成するように訓練されています。つまり、それらからサンプリングするとき、無限の量の新しいシーケンスを生成できるということです。

ムーブ37のようなものの質問については、それが十分に創造的で印象的で、囲碁のゲームで簡単に認識できるかどうかに本当にかかっていると思います。それは理想的な条件でしたよね。非常にクリーンで、非常に抽象的で、各手が非常に影響力があるので、本当に明確に見ることができます。

私たちの現代のモデルに相当するものを持つためには、十分に困難で興味深いタスクと、十分に多様で創造的なアイデアを創造でき、かつそれらがどれだけ良いかを正確に評価できるモデルの組み合わせが必要です。そうすることで、ますます新しい道を進みながら、その新しい道が実際に興味深く有用であることを確認できるのです。

新しいものを創造することは、実際には言語モデルで非常に簡単です。難しい部分は、有用で興味深い新しいものを創造することなのです。

AIによる科学的発見

これをさらに外挿すると、新しい科学を創造するというアイデアがあります。つまり、1つの手だけでなく、全く新しいアイデア、新しい概念です。これについての現在の見解はどうですか。

Alpha CodeとAlpha Tensorは、新しいプログラムやアルゴリズムを発見できることを証明したと思います。つい最近、先週だったと思いますが、Google DeepMindとイェール大学が生物医学分野で全く新しいものを生み出したというニュースがありました。

ですから、それが加速していて、AIが新しい科学を発見する過程にあると思いますか。

新しいものを発見している段階に絶対にいると思います。そして、それが自力で発見できるものがどれだけ印象的で、どれだけ興味深いかというスケールを上げているところです。

ですから、来年のどこかで、人々がこれは素晴らしく印象的だとかなり全会一致で同意するような発見があることは非常に可能性が高いと思います。現時点では、ああ、何かを思いついたけれど、それについて議論がある、という段階にいると思いますが、私はあまり心配していません。このプロセスが続いているのを見ているので、十分に明確になれば、それについて議論する必要は少なくなります。

AIがノーベル賞を受賞するまで、どれくらいかかると思いますか。

それは本当に興味深い質問ですよね。なぜなら、もちろんAlpha FoldでAIのノーベル賞がありましたから。ですから、次の非常に興味深いポイントは、AIが自力でノーベル賞を受賞するほど興味深いブレークスルーをいつ起こせるか、ということです。

その能力レベルに対する私の推測は、おそらく2027年かもしれません。その後しばらくは分からないと思います。賞を受賞するには遅れがあるからですが、2027年、2028年までには、モデルが実際にそのレベルの洞察、そのレベルの発見を持つのに十分賢く、十分有能になる可能性は極めて高いと思います。

素晴らしいですね。ノーベル賞、数学のフィールズメダル、これらすべての種類の進歩ですよね。私が本当に興奮しているのは、実際には、科学を進歩させ、宇宙のすべての謎と、世界をよりよく理解すれば得られる生活水準や能力の改善の両方を本当に解き放つのを助けてくれるAIです。

AI 2027と技術的特異点

さあ、これをさらに外挿すると、あなたがおそらく見たであろうAI 2027の話になります。つまり、AIが新しい科学を創造できるなら、AIはAI研究者を創造でき、基本的にAIは自分自身を創造できる、という一般的なアイデアで、これは事実上不連続な瞬間につながります。

ですから、ブログ投稿でそれが特異点なのか何なのかわかりませんが、可能な限り分野の深いところにいる人として、それは短期的に可能なことのように思えますか、それとも、不連続点に近づくにつれて、その道をより困難にする相殺する力がありますか。

真の不連続性は、AI研究者が既にAIを使って自分自身を加速させているという観点から、極めてありそうにないと思います。ですから、既に起きていて、起き続ける可能性が高いことは、生産性のスムーズな改善を見るということです。

そして主な未解決の質問は、AIを改善することの難しさがどのようにスケーリングし続けるかです。なぜなら、多くの科学分野における非常に一般的な効果、非常に一般的な問題は、最初にすべての簡単な問題を見つけ、その後、分野を探索し続けるにつれて、進歩を遂げることがますます困難になるということだからです。

ですから、私の考えでは、主な質問は、これら2つのトレンドが互いにバランスを取るかどうかです。つまり、AIが私たちをますます生産的にするので、進歩を遂げることがより困難になるにつれて、ほぼトレンドを維持し、ほぼ線形に改善し続けるのか、それともまだ難しすぎて、最終的にはしばらくして減速を見るのか、です。

しかし、生産性が非常に向上して、実際に加速できるというのは、非常にありそうにないと思います。それは他のどの科学分野とも非常に異なるでしょう。

多くの科学分野における通常の経過は、実際には進歩を続けて新しい洞察を見つけるために、研究努力を指数関数的に増やす必要があるということです。例えば、薬理学を見て新しい薬を発見する場合、今日では新しい薬を発見するのに数十億ドルの範囲ですが、100年前には単一の科学者が偶然に最初の抗生物質を発見できました。

私たちが研究を行っていて、突然私たちのモデルが10倍良くなるというような、進歩の突然の離陸に驚くことはないでしょう。毎週、進歩が速くなっているという先進的な兆候を見るでしょう。何かが起きていることがわかります。何が起きているか理解できない場合、一時停止することを決めるかもしれません。

現在のアプローチの限界

現代のAIシステムへの現在のアプローチ、つまり事前学習プラスRLは、私たちが行きたいところに連れて行ってくれると思いますか。それをAGIやASIと呼ぶかどうかは、何を意味するのかが不明確ですが、このパラダイムが正しいものだと感じますか、それともトランスフォーマー後やその他の、全く異なるアーキテクチャを考え出す必要がありますか。

それは素晴らしい質問だと思います。そして、「行きたいところ」で何を意味するかに大きく依存すると思います。ですから、ああ、生産性の観点で私たちが気にかけているほぼすべてのタスクで、ほぼ人間レベルで実行できる何らかのシステムが欲しい、と考えているなら、現在のアプローチ、事前学習やトランスフォーマーがそこに連れて行く可能性は極めて高いと思います。

もし気にかけているのが、ああ、私たちと同じように意識している知能のモデルが欲しい、あるいはこのようなより抽象的な質質が欲しい、というなら、それはもっと不確実かもしれませんよね。そして、これが多くの混乱と不一致の原因だと思います。あなたが言及したように、AGI、ASI、人々は非常に異なることについて話していて、ああ、現在のパラダイムがそこに到達する、到達しない、と言うとき、非常に異なることを念頭に置いています。

私はしばしば、AGIやASIという用語を使わないことを好み、どんな問題を解決しているのか、どんなタスクを解決しているのか、どんな質に興味があるのか、非常に具体的に話すことを好みます。なぜなら、実際の不一致がはるかに明白になることがよくあるからです。

しかし、これが私たちを大幅により生産的にするのを助けることになるのか、これが科学の進歩を大幅に加速させることになるのか、という観点だけで考えているなら、現在のアプローチが確実にそこに到達すると思います。

スクラッチからのRL訓練

あなたが非常に深く関わっていることを考えると、ある種の流行の質問をせずにはいられません。Richard Suttonの最近のDwarkeshのポッドキャストへの出演に基づいたものです。未来のモデルは、スクラッチからRLで訓練されると思いますか。実際に、事前学習をRLに加えることは間違った方法だと思いますか。

個人的には、それはありそうにないと思います。事前学習が厳密に必要だからではありません。他のドメインでできたように、完全にスクラッチから何かを訓練できるかもしれません。しかし、私たちが持っているこの膨大なデータセットでの事前学習が非常に多くの価値をもたらすので、実用的な観点から、それを諦めたくないからです。

ですから、科学的興味から、スクラッチから訓練されたエージェントを作るかもしれません。非人間的な知能がどのようなものかを学ぶのは非常に興味深いかもしれません。しかし、プログラム的な観点からは、事前学習データを使い続けることは間違いないと思います。

効率の観点からだけでなく、興味深い安全性の角度もあると思います。なぜなら、このすべての人間の知識で事前学習することによって、私たちと同じような価値観を持つエージェントを暗黙的に創造しているからです。そして、高度に知的なエージェントを整列させるためには、それが非常に価値があると思います。

もし、すでに私たちが気にかけているのと同じおおよその価値観のセットを気にかけることから始めるなら、それは物事をはるかに簡単にします。それから、全く異なる価値観を持つかもしれない、任意のエイリアンの知能を創造するよりもです。

過去にスクラッチからRLをいくつかやったにもかかわらず、私はこれについてしばしば非常に実用的だと思います。

整列性と安全性の議論

整列性と、安全性を確保するために何をするかについての具体的な議論は、後の会話でピンを刺しておきたいと思います。なぜなら、それは非常に興味深い筋だと思うからです。

しかし、話題を少し変えてもいいでしょうか。あなたの物語と、あなたがAnthropicに参加する前にGoogle DeepMindで行った、AlphaGo、AlphaZero、MuZeroに関する記念碑的な仕事の一部について、少し掘り下げたいと思います。

子供の頃からの、あなたの個人的な物語の3、4分バージョンを教えてください。世界クラスのAI研究者になる道につながったものは何でしたか。

実際、子供の頃、AI研究者になるという期待は全くありませんでした。私は常にコンピュータに非常に興味がありました。オーストリアの田舎の小さな村で育ちました。

ですから、たくさんのことが起きているわけではありませんでしたが、コンピュータは常に私にとって非常に興味深いものでした。より広い世界への、他のすべての興味深いものへの接続のようなものです。そして、コンピュータゲームにも非常に興味がありました。

プログラミングに興味を持つようになったのは初めてそこです。なぜなら、自分自身のゲームを作りたかったからです。これは、プログラミングに入る人々にとって非常に一般的だと思います。

しかし、どういうわけか、私は常に、どんな種類のゲームでも実行できる非常に汎用的なゲームエンジンを構築するという技術的側面に気を取られていました。ですから、実際にはゲームを作ることは決してありませんでした。ゲームエンジンの作成と異なる技術について多くを学びました。そして、最終的にウィーンでコンピュータサイエンスを勉強することになりました。

古典的なコンピュータサイエンスの学位でした。そして、1年目の後、最初の夏休みに偶然Googleでインターンシップをしました。そこで、ああ、この人たちは本当に興味深いことをしている、彼らの大きなクラスター、数万台のマシンがそこにある、と気づきました。そこで私は学界に留まりたいという元々の計画を根本的に変えました。元々はああ、博士号を取るかもしれないと思っていました。

そこで変えました。ああ、いや、実際にはGoogleのこの人たちに参加したい、できるだけ早く学位を終えたい、と。それで実際、Googleでフルタイムのポジションを得て、翌年に学位を終えて、ロンドンに引っ越しました。

ですから、Googleで通常のソフトウェアエンジニアとして働いていました。実際には広告で働いていて、それにあまり興奮したり興味を持ったりしていませんでした。技術は興味深いですよね。これらの巨大なシステムのようなもので、Googleは有名に素晴らしい技術を持っていますが、実際には1年ほどこれをやった後、広告にはかなり飽き飽きしていました。

それで、実際にGoogleを辞めて、ヘッジファンドに参加して金融に入ることを計画していました。偶然、仕事の受信箱にメールを見たとき、Demisという人がオフィスに来て、AtariとビデオゲームとAIについて話をするというものでした。

それは実際には休日でした。イングランドの他の場所で友人を訪ねていたからです。しかし、そのメールはとても興味をそそられるものに見えたので、ああ、いや、今すぐオフィスに電車で戻って、この話を見なければならない、となりました。

そして、そのメールを見て実際に戻ったことを本当にうれしく思います。なぜなら、それが、ああ、いや、金融には行かない、DeepMindに移る、この人たちに参加する、と決めた瞬間だからです。なぜなら、これは明らかに非常に興味深く、非常に素晴らしいことに見えたからです。彼らは本当に興味深い研究をしています。

AlphaGoからMuZeroへの進化

AlphaGo、AlphaGo Zero、AlphaZero、MuZeroの物語を教えてください。AIに興味を持つすべての人が知っておくべき、理解すべき基本的なAI知識のように感じます。特にその進化について。

AlphaGoから始めて、ちょっと前に言及しましたが、何をしたのか、どのように訓練されたのか、そして各バージョンでそれがどのように進化したのか、教えてください。

AlphaGoは、その時点で、機械学習コミュニティにとって、囲碁がこの本当に大きな標的でした。みんな、ああ、これは大きな未解決の課題だと感じていました。ImageNetがその直前に起きていたので、明らかにモデルが画像で何かをし始め、それらを認識して予測できるようになっていました。そして、囲碁盤を正しい方法で見ると、分類する画像の1つによく似ています。

ですから、ニューラルネットワークを使って何らかの形で囲碁をプレイすることについて、多くの勢いがありました。そして当時、David SilverとAja Huangが囲碁に取り組んでいました。二人とも、かなり長い間囲碁に取り組んでいて、非常に興味深い論文を発表していたと思います。そして、深層ネットワークでモンテカルロ木探索を使うというアイデアがまとまりました。

アイデアは、どの手を打ちたいかを予測し、ゲームに勝っているか負けているかを予測するために深層ニューラルネットワークを訓練し、それから木探索を使って、ゲームのすべての可能性の大きな計画を本当に立てるというものでした。特定の手を選んだ場合、あなたにとってどうなるか。別の手ではどうか。相手はどのように応答するか。

超平易な英語でこれを説明すると、この場合の探索という用語は、あなたが言ったように木探索ですが、人々が通常考える検索、つまりコーパスを検索することではありません。これは基本的に一連のオプションを探索するということです。それが正しい考え方ですか。

はい。あなたがチェスをプレイするとき、どんなボードゲームをプレイするときに実際にやるかもしれないことそのものです。どの手を打とうとしているか、相手がその見返りにどの手を打つか、そして多くの可能な手についてそのように考え、将来のすべての可能性をマッピングすることを文字通り考えるということです。

深層学習プラス探索ですね。AlphaGoは何で訓練されましたか。

AlphaGoの初期訓練フェーズは、人間のアマチュアゲームだったと記憶しています。

基本的に、人間が多くの囲碁のゲームをプレイしている場合、ゲームの各ターンで、彼らがどの手を打ったかを予測しようとするということですね。そして、そうするために深層ネットワークを訓練すると、かなりまともなもの、アマチュア囲碁レベルのようなものを得ることができることがわかります。

しかし、本当に強いプレイヤーを実際に打ち負かすには十分ではありません。

ところで、伝承のために、あなたたちはLee Sedolを粉砕するという感覚を持っていましたか。会話の前で言及した有名な囲碁プレイヤーです。事前に明白でしたか。それは驚きでしたか。

私たちはかなり良いチャンスがあると思っていましたが、勝つのか、勝たないのか、負けるのか、非常に緊張していました。実際、事前に何ゲーム勝つか負けるかについて賭けをしていました。

私たちがやったのと同じくらい早くマッチを設定するのは、非常に野心的でした。もう少し安全にしたかったら、数ヶ月後にやったかもしれません。そして、数ヶ月早くやっていたら、おそらく負けていたと思います。

ですから、非常に際どいものでした。これもまた、私たちにとってはるかに興味深いものにしたと思います。なぜなら、各ゲームが、ああ、何が起こるだろう、勝つだろうか、愚かな手を打つだろうか、何が起こるだろうか、という手に汗握るものになるということです。それは非常に興奮しました。

AlphaGo Zeroは、1年後だったと思います。それはどう違っていましたか。進化は何でしたか。

AlphaGoとAlphaGo Zeroの主な変更は、すべての人間の囲碁知識を取り除くことでした。ですから、人間の囲碁ゲームを模倣することから始める代わりに、スクラッチから訓練し、自分自身とだけ対戦し、基本的にすべての囲碁を再発見し、スクラッチからプレイ方法を完全に理解しました。

ゲームのルールを与えましたか。

ネットワークにゲームのルールそのものを与えませんでしたが、結果をスコア付けするためにゲームのルールを使いました。ですから、基本的にプレイして、誰が勝ったか負けたかを伝えるか、この手は打てない、と伝えます。

次のホップは、1、2年後のAlpha Zeroでした。それはどう違っていましたか。

Alpha Zeroのアイデアは、明らかに囲碁は本当に美しいゲームですが、最終的にはもっと一般的なことをやりたいですよね。ですから、囲碁特有のものを何でも取り除いて、アルゴリズムが実際により多くの問題を解決できることを検証できるか、ということでした。

その場合、囲碁、チェス、将棋(日本のチェス)の両方を、同じアルゴリズム、同じネットワーク構造で、異なるゲームで実行するだけで解決しようとしました。また、はるかにシンプルで、エレガントで、高速にしました。

ですから、基本的には、アルゴリズムを実際の問題を解決するために適用する基礎を本当に築いていました。

そして、旅の次の停留所はMuZeroでした。そして、人々のために持ち帰ると、あなたはAlphaGo Zeroで第2著者だったと信じています。そして、あなたはMuZeroの主著者でした。私は、世界のAIにおいて、それができるだけ大きな取引であることをあなたの代わりに言うつもりです。とても謙虚だと確信していますが。

MuZeroは、次にどう違っていましたか。

MuZeroを作る主な動機は、多くの現実世界のタスクを解決したい場合、何が起こるかを完全にシミュレートする方法がないということでした。

ボードゲームをプレイする場合、明らかにこの手を打てば、何が起こるかわかります。駒がそこに行き、駒を取る、何でも、ですよね。しかし、ロボティクスタスクのようなより複雑なものを実際に解決したい場合、何が起こるかを正確にシミュレートすることは不可能です。

また、人間として、私たちはこれをしませんよね。私たちはただ頭の中で想像します。ああ、これを言ったら、彼はおそらくあのように応答するだろう、と。

これは、Alpha Zeroがそのままでは、そのような問題に適用できないことを意味しました。なぜなら、ゲームをシミュレートし、結果をスコア付けする何らかの方法を必要としたからです。

MuZeroのアイデアは、既に深層ニューラルネットワークを持っているのですから、これらのネットワークは多くのことを学習できるので、環境の未来、世界の未来を予測することをなぜ学ばせないか、ということでした。モデルが自分自身で、各行動を取った後に何が起こるかを学習できるようにしないのか、ということです。

その後、あなたはこれをコードと数学にも適用しました。それがAlpha CodeとAlpha Tensorでした。

少しズームアウトして、ゲーム、そしてコード、そして数学における強化学習の進化について、探索と学習の一般的な力について何を学びましたか。それが現代のエージェントAIシステムで今日行っていることにどのように関連していますか。その仕事全体がどのように翻訳されましたか。

ゲームは、強化学習の科学について非常に迅速に学ぶための本当に良いサンドボックスです。うまく機能するアルゴリズム、遭遇する問題の種類、技術的な観点からさえ、多くのデータセンターにまたがる学習システムをどのように構築するか、数万台のマシンを使うか、ということです。なぜなら、ゲームは非常にクリーンなサンドボックス、非常にクリーンな環境なので、多くの良い実験ができるからです。

そして今、はるかに一般的なモデルを持っています。言語モデルはほぼすべてのタスクを実行できますが、はるかに複雑です。実験するのがはるかに遅いです。同じ教訓を適用できます。ああ、本当に堅牢な強化学習インフラストラクチャをどのように構築するかを知っている、と。そして今、言語モデル用に同じものを構築できます。

あるいは、この種のRLを行うと、モデルが報酬を悪用することを学習することを知っているので、同じ教訓、同じ緩和技術を言語モデルに適用できます。

私の理解が正しければ、MuZeroには学習された世界モデルがあったと思います。基本的に、コミットする前に未来をリハーサルする、という感じですね。

現代の言語モデルエージェントには、そのようなものがありますか。行動をコミットする前にプレビューする内部世界モデルがありますか。

はい、言語モデルは明示的な世界モデルではなく、暗黙的な世界モデルを持っていると言えると思います。なぜなら、この文の次に来る可能性の高い単語は何か、この段落はどのように続くかを予測できるためには、この人がそのことを言う原因となる世界の状態を内部的にモデル化する必要があるからです。

ですから、MuZeroとある意味似ています。MuZeroも暗黙的な世界モデルしか持っていませんでした。行動を取ったら実際に画面がどのように見えるかを予測するように訓練されたことはありませんでした。

それもまた、この行動を取ったら、次に取るべき行動は何か、それは私にとって良いことか悪いことか、を暗黙的に予測するように訓練されただけでした。

ですから、両方のケースで、予測をするために使える世界の暗黙的な表現をモデルに持っていますが、世界の完全な状態を実際に再構築しているわけではありません。なぜなら、世界の完全な状態を再構築することは、非常に高価で複雑になる可能性があるからです。

超高解像度のビデオ、オーディオシグナルについて考えると、非常に大量のデータであり、おそらく実際には必要ないでしょう。人間の注意について考えると、私たちは常に私たちの周りで実際に起きていることのほんの小さなサブセットしか認識していません。なぜなら、それが実際に決定を下すために必要な最も関連性の高い情報だからです。

これは、事前学習についての以前の議論に戻ります。事前学習とRLがうまく機能する理由は、コーパスに暗黙的に組み込まれた世界モデルを持っているからです。

それに対する議論は、それが世界モデルが実際には何であるかではなく、人間が世界モデルだと考えるものであるということです。言語によって具現化された。そして、それが議論の私の理解です。

議論については、異なる人々が異なる視点を持っていると思うので、誰の代わりにも話したくはありませんが、はい、はい。しかし、はい、この豊富な知識で事前学習することは、既に世界の何らかの表現を与えてくれると思います。ですから、実際に世界と行動し、相互作用し始めたときに、非常に迅速に意味のある決定、意味のある行動をすることができます。

あなたが知っているように、多くの動物が生まれたとき、非常に迅速に動く方法、走る方法さえ知っている、というのと似た方法で考えるのが好きです。例えば、サバンナのガゼルを見ると、明らかに彼らはこれをスクラッチから本当に学ぶ時間がなかったですよね。数分または数時間で、彼らの場合、事前学習はしませんでしたが、彼らの脳にある種の進化的にエンコードされた構造を持っています。なぜなら、明らかに学習をより効率的にするために何らかの知識を持つことは非常に有益だからです。

自然界のRLだけでは、あまり良い結果にはつながりません。ガゼルでライオンに向かって走るか、ライオンから離れて走るかをABテストしなければならないようなものです。

まさに。数千世代のガゼルがこの知識を時間をかけて獲得したようなものです。それは彼らの遺伝子と脳構造に何らかの形でエンコードされ、その上にスタートできるのです。

主な課題、主に注意すべきことは、オーバーエンコードしたり、検索ベースをあまりにも制限しすぎたりしないことだと思います。もし事前学習が、事前知識が、正しい行動方針である可能性のある何かを探索することを妨げる場合、それは悪いことです。ですから、注意しなければならない危険性があります。

事前学習とRLの統合

現代のAIシステムで事前学習とRLを一緒に機能させるという一般的なアイデアは、2025年の大きなアイデアやトピックのように思えます。もちろん、何年も前から準備されていたことは知っていますが。なぜそんなに時間がかかったのでしょうか。

RLがそれ自身の方向に進歩し、次に事前学習がそれ自身の方向に機能し、それらがやや分離していたように感じます。それらを一緒にするのになぜそんなに時間がかかったのでしょうか。それは純粋に実用的で経済的なものですか、それとも他に何かありますか。

言語モデルをスケールアップして、スケールアップした大規模な程度にすることは、それ自体で多くの努力を要しました。科学的な観点から、エンジニアリングの観点から、事前学習と教師あり学習は、このフィードバックサイクルがないので、より安定していて、デバッグしやすいです。

基本的に、固定されたターゲットがあり、このターゲットを学習しようとしています。ですから、私の訓練は機能しているか、私のインフラストラクチャは機能しているか、それはスケールしているか、フェイルオーバーしているか、に焦点を当てることができます。

RLと比較すると、RLではこのフィードバックサイクルがあります。ああ、何かを学習し、それを使って新しい訓練データを生成し、その訓練データから学習します。そして今、何かが機能していない場合、このサイクルのどこから問題が来ているかを理解するのは非常に難しいです。

いいえ、おそらく訓練の更新が悪くて、それで突然悪い振る舞いを始めたのか、それとも行動を選択する方法、振る舞う方法が正しくなくて、悪い訓練データを生成し、それがすべてをめちゃくちゃにしたのか。ですから、正しく機能させるのははるかに複雑です。

ですから、まず事前学習、アーキテクチャをスケールアップし、かなりうまく機能するものを見つけることは、特に、いくつかのファインチューニング、いくつかのプロンプティングで既にかなり遠くまで行けるなら、多くの意味があると思います。

そして、これらのモデルが本当に汎用的で、本当に有用で、かなり安定した状態にあることが明確になったら、RLをさらに強化して、さらに進めることができます。

私たち自身の仕事でさえ、AlphaGo、Alpha Zeroを見ても、常に同様の分割に従っていました。ネットワークのアーキテクチャ、固定された教師ありデータを使った訓練を最初に設定するとき。そして、それが本当に信頼できるように機能しているときにのみ、完全なRLループと完全な訓練を行いました。

なぜなら、すべてを同時にデバッグするのは、失敗への道を歩んでいるだけだからです。コンポーネントを分離して、ああ、ここに既知の良いデータがある、そこに既知の良いターゲットがある、と言えることは本当に役立ちます。間のものが機能していない場合、それを分離できます。

そして、システムのすべての部分を分離できます。

RLをスケールするのは、どれくらい計算集約的ですか。事前学習と同じように、RLにスケーリング則がありますか。

それについて発表された文献は少ないです。しかし、時間をかけてすべてのRL文献を見ると、事前学習とRLで非常に似た計算の見返りがあることがわかります。RLに指数関数的により多くの計算を投資し続け、利益を得続けることができます。

事前学習とRL計算の間のトレードオフが何であるかを理解するための興味深い研究が来ると思います。例えば、大きなモデルにとって分割は何であるべきか、50/50であるべきか、1対10のようなものであるべきか、どちらの方向に1対10であるべきか、です。

ですから、それは非常に興味深いものになると思いますが、これまでのところ、両方で良い見返りを確実に見ています。

報酬の分野における最新の最先端や考え方は何ですか。Alpha Zero、AlphaGoについて説明したように、それは基本的に勝ち負けが報酬ボードでした。それから、ある種のファジーな人間マッチングに入ったように感じます。これは良い、これは良くない、と。

そして今、上記のように、勝ったか負けたかが不明確なより一般的な分野に拡大するにつれて、それはどのように機能しますか。あなたが取り組んでいる進化のどの部分に興奮していますか。

個人的には、報酬モデリングにはあまり取り組んでいません。主に、推論、計画、検索時間、検索計算、より多くの計算を費やすことでモデルをより賢くする方法に取り組んでいます。

報酬について考えます。強化学習プロセスそのものは、報酬がどこから来るかを実際には気にしないと思います。アルゴリズムは、報酬のどんなソースを使うことも非常に喜んでいます。それが、人間のフィードバックシグナルのようなものであれ、ゲームに勝ったり負けたりしたり、テストに合格したりするような何らかの自動化されたシグナルであれ、です。

例えばAnthropicでは、いくつかのガイドラインに従っているかどうかをモデル自体にスコア付けさせる憲法的AIについてのこの論文がありました。ですから、どんな種類の報酬に従うかは非常に柔軟です。

RLHFのようなすべてのものは、この段階で一般的に使用されているものですか。何か考えはありますか。

報酬と環境の大きな混合を見ていると思います。そして、最良の報酬ソースは何か、どのようにスケールアップするか、より多くの報酬、よりより信頼性の高い報酬をどのように得るか、を理解するために非常に一生懸命働いている人々を見ていると思います。

それが、RLをさらにスケールアップする上での重要な要素の1つになるでしょう。

RLの訓練データ

報酬から切り替えて、RLの訓練データの観点での最新の考え方は何でしょうか。AlphaGoのような進化を再度たどると、それは人間のデータを使用していて、その後セルフプレイのようになりました。

それはどのように機能しますか。データはどこから来て、どんな種類のデータが現代のRLを訓練するのに最もうまく機能しますか。

RLの素晴らしいことは、データがモデル自体によって生成されることだと思います。ですから、私たちのモデルが賢くなるほど、より良いRLデータを生成でき、より興味深く複雑なタスクを解決でき、それがより多くのデータを提供し、訓練に使用できます。なぜなら、タスクが複雑であるほど、タスクを解決するのにかかる時間が長くなり、それが生成するデータが多くなるからです。

課題の一部は、人々が実際にモデルで行いたいことを本当に代表するタスクを見つけることだと思います。なぜなら、今や言語モデルは非常に汎用的で、人々はそれらを非常に多くの異なることに使用しているからです。

モデルが実際にこの多様なタスクのセットを実行できることを確認するために、できるだけ多くのそれらをカバーする必要があるという課題がますます大きくなっています。

訓練データにとって何がより重要ですか。それは質ですか。量ですか。新しさですか。

それは非常に興味深い質問だと思います。おそらくまだ非常に明確な答えがないか、まだ行われる興味深い研究があるかもしれません。異なることを主張する論文や、異なる利益を見てきたと思います。明らかに、データをスケールアップするにつれて、事前学習が改善し続けることを見ています。

しかし、非常に少量の例で、モデルに興味深いスキルの実行方法を教えることができる非常に興味深いファインチューニング結果の論文も見てきました。

特に、データポイントの質を測定することが非常に難しいため、トレードオフについてのまだ良いスケーリング則がないと思います。この例は、この他の例と比較してどれだけ良いか、を測定することができずに、これを定量化することは非常に難しいです。

しかし、直感的には、悪いデータを持っている場合、RLはあまりうまく機能しないことは間違いなく真実で、非常に高品質のデータを持っている場合、はるかに安定になります。

例えば、Alpha Zeroの時代には非常に明確だったと思います。Alpha Zeroは多くの計算を費やしました。多くの計画と検索を行って、どの手を取るかを決定します。ですから、それは訓練する非常に高品質のデータを生成し、それが信じられないほど安定したRL訓練をもたらしました。

ですから、大陸をまたいで実行でき、データを生成するのに長い時間がかかり、それで訓練でき、非常に堅牢です。現代の言語モデルのRLと比較すると、モデルがどれだけ良いかと、訓練するために生成するデータの差はそれほど大きくありません。

なぜなら、モデルから直接サンプリングし、それで訓練するからです。それが、あまり安定していない強化学習をもたらします。ですから、RLをスケーリングし、より安定させる1つの方向は、例えばより多くの推論を言語モデルに入れて、はるかに高品質の訓練データを生成し、それがはるかに安定した訓練を提供し、はるかに簡単にスケールアップできるようにすることで、これを改善することです。

RLとエージェント

今、RLとエージェントの一般的なトピックに少し時間を費やしたいと思います。みんなが昨年ずっと休みなく話してきた有名なエージェントAIです。

聞いている人々のために、そしてこれを広くアクセス可能にする努力の一環として、技術の一般的な人々のグループによって、RLとエージェントの間の交差とオーバーラップをしっかりと説明していただけますか。RLはエージェントを動かしますか。それはどのように機能しますか。

おそらく、まず、エージェントとは実際に何を意味するのか、一歩下がりましょう。

はい、一般的な言語モデルと比較して。

AGIの次に最も議論されている質問は、エージェントとは何か、だと思います。はい、私たちの目的のために、エージェントは自力で行動できるAIだとしましょう。コンピュータで何らかの行動を取る、いくつかのファイルを保存する、いくつかのファイルを編集する、メールを送る、何でもあなたが望むことですよね。

しかし、主な特徴は、常にユーザーとやり取りする必要がないことです。自力で物事を行うことができます。

RLがこれにとって非常に重要である理由は、実際に事前学習に戻ります。なぜなら、私たちの事前学習データは、あまりエージェントのようではないからです。事前学習データについて考えると、ウェブサイトや本、最近のテキストのようなものがあります。多くの情報がありますが、多くの行動はありません。人間が実際に世界とどのように相互作用するかを本当には捉えていません。

ですから、生の事前学習モデルを取ると、それはあまり良いエージェントではありません。少しプロンプトして、正しい方向に少し押すことができるかもしれませんが、相互作用にはあまり良くないでしょう。そして特に、自分自身のエラーを修正するのはあまり良くないでしょう。なぜなら、事前学習データには、私たちのエージェントがどのように失敗するかの例が全くないからです。

そして、それがまさに強化学習が入ってくるところです。なぜなら、RLでは、エージェントを取って、環境とやり取りさせ、そのやり取りを直接訓練することができるからです。

例えば、エージェントがうまくやった場合、それらの行動を強化できます。そして、エージェントがひどくやった場合、それらの行動から遠ざけることができます。

そして、エージェントが最初にひどくやったけれど、その後回復してうまくやった場合、その回復も強化できます。ですから、それは非常に重要です。なぜなら、エージェントが自分自身の行動の分布から実際に学習できるからです。

そして、それがそれをはるかに堅牢にするだけです。なぜなら、今では、以前に見たことがない何かに汎化する必要がないからです。解決しようとしている実際の問題について実際に学習できます。

ですから、RLが本当に多くのエージェント的能力を解き放っている理由です。

今、もし私が今日Anthropicの上に構築するAIアプリを構築するAIビルダーだとしたら、Anthropicがどんなモデルであれ、この種の電池が含まれてくるでしょう。

しかし、その上に構築する者として、私は自分自身のRLを行う必要がありますか。このタスクやそのタスクのために、一般的なモデルの上に構築するタスクのためにRLを行う能力を提供する、サービスとしてのRLのような新興スペースがあります。

あるいは、プロンプティングや教師ありファインチューニングを通じて多くの損害を与えることができますか。

今日、Claudeのトップモデル、OpenAIのトップGPTモデルの能力を持っていれば、ファインチューニングを行う必要はないと思います。モデルをそのまま取って、自分自身のツール、自分自身のハーネスを書き、そのエージェント的訓練から利益を得ることができます。なぜなら、良いエージェント的ファインチューニングを行うことは実際には非常に難しいからです。

ですから、得られるかもしれないトップフロンティアモデルよりも良くすることはかなり難しいです。

しかし、それどころか、良いツールと問題の良い表現を考え出すことは、大きな違いを生みます。ですから、モデルのために問題をどのように表現するかによって、はるかに難しくなったり、はるかに簡単になったりする可能性があるので、そこから多くの距離を得ることができます。

エージェントAIの大きな夢

エージェントAIの大きな夢を達成するために、現在何が欠けていますか。コアのモデル能力ですか、それとも信頼性、ツールの使用、安全性に関する退屈な、引用符付きの、エンジニアリングのようなものですか。何が起こる必要がありますか。

基本的に、全体的な空間の周りに必要な改善があると思います。モデルが自分自身のエラーをよりよく修正できるようにする。モデルが気を取られることなく長時間続けることができるようにする。一般的にモデルをより賢くする。おそらくモデルをより速くする。

基本的に、改善できることがわかっている一連のものがあります。おそらく1つの個別のブロッカーはなく、それがモデルのリリースにわたってスムーズで段階的な進歩を見続ける理由です。

しかし、より良くできる、改善できることがわかっていることが非常に多くあることを考えると、モデルが最終的にどこにたどり着くかについて非常に興奮しています。

それが実際に、AIが非常に楽しい分野である理由の1つだと思います。はるかに良くできる、低ぶら下がりの果物が非常に多くあるということです。しかし、既に現在のモデルは非常に良いので、取り組むのが非常に楽しいのです。ああ、これを修正できる。さらに良くなる、という感じです。

すべてが既に解決されていて、どのようにもっと良くするかを見つけることが本当に難しい場所にいる場合と比較して、それは非常に異なる話です。

評価とベンチマーク

評価に少し時間を費やしましょう。これについて少し触れましたが、適切なスペースを与えるためだけに。

あなたのブログ投稿で、会話の最初に話した、外部ベンチマークのこの概念があり、それからあなたはGoodhart’s Lawを引用しました。

まず、Goodhart’s Lawとは何か、そして、研究室がこの種のリーダーボードシアターに終わらないように結果を比較すべきか、私たちは過去数年で少し見てきました。

Goodhart’s Lawは、基本的に、ターゲットになる指標は良い指標ではなくなる、と言っています。直感的に考えることができます。例えば、プログラマーに書いたコードの行数に基づいて報酬を支払い始めたら、突然、全く役に立たないコメントの行をもっと追加する多くの方法を発見するでしょう。

これは非常に一般的な効果で、明らかに、最適化すべきインセンティブを人々に与えると、非常に一生懸命に試みるでしょう。

そして、言語モデルのベンチマークでもこれを見ています。もちろん、人々は昇進したいです。モデルをローンチしたいです。ですから、測定しやすいベンチマーク、多くの注目を集めているベンチマークは、人々が非常に一生懸命に最適化します。

つまり、おそらくモデルはそのベンチマークで非常に良く見えるでしょう。しかし、それを自分のタスクに使用すると、異なるパフォーマンスを得るかもしれません。

これについて何をすべきかについて尋ねましたが、人々がベンチマークを最適化するのを防ぐことは非常に難しいです。ですから、1つの可能性は、誰も見たことがない完全に新しいホールドアウトベンチマークを定期的に作成するだけです。それが、モデルのパフォーマンスのかなり良い推定値を与えてくれます。

ですから、例えば多くの研究者が、すべてのモデルをテストするために使用する自分自身のおもちゃの問題を持っていることを知っています。まさにその理由のためです。誰も見たことがない問題、問題のセットなので、それが偏りのない推定値を与えてくれるという非常に良い推測があります。

もしあなたが個人や企業で、どのモデルを使用するかを決定しようとしているなら、おそらく似たようなことです。本当に気にかけていることを本当に代表する自分自身の内部ベンチマークを作り、それで測定します。

そして、それがおそらく最も客観的で、内部で測定する最も正確な方法だと思います。

Anthropicや以前のDeepMindのような場所では、それはどのようなものですか。評価に焦点を当てたチームがあることは知っています。うまくいくもの、うまくいかないものについて、内部評価の観点からどのように考えますか。

良い評価を持つことは、間違いなく以前は簡単でした。5年前にやっていたタスクは、モデルのパフォーマンスを測定するのが簡単だったと思います。

今日では、はるかに困難だと思います。そして、評価にあまり過度に依存しないようにしていると思います。なぜなら、例えば、このモデルがコードを書くのがどれだけ良いかを測定することはかなり難しいからです。

フィールドにおける非常に重要な未解決の問題の1つは、安く実行でき、信頼性があり、正確な本当に良い評価を作ることだと思います。なぜなら、それらの1つを取る評価を作るのは比較的簡単ですが、3つすべてを得ることはかなり難しいからです。

例えば、最初に私たちが話していたOpenAI GDPval、GDPval、それは偏りがなく非常に正確ですが、非常に高価です。なぜなら、実際に含まれることは、人間の専門家を取り、彼らにタスクをやらせ、それからモデルのタスクを専門家と比較し、複数の人々でそれを評価するようなものだからです。

ですから、非常に正確ですが、実行するのは非常に高価です。

メカニスティック解釈可能性

その評価のトピックに関連して、モデルが実際にどのように機能するかを本当に理解する能力や、メカニスティック解釈可能性の一般的な分野の最新は何ですか。

以前に言及した事実として、もし私が正しく理解していれば、RLは時々時折より不可解な方法で物事を行うため、少し難しくするということでした。私の言葉かもしれませんが、あなたのものではないかもしれません。

最新は何ですか。実際にRLは物事を難しくするのでしょうか、それとも簡単にするのでしょうか。

私が以前に意味していたのは、RLを一般的にデバッグすることが、解釈可能性とは全く関係なく、より多くの動く部分があるため、より難しいということです。

しかし、RLに注意しないと、解釈可能性を難しくする可能性があることも事実です。例えば、現代のモデルとの一般的なことの1つは、思考の連鎖で推論を行うことです。思考の連鎖を見て、モデルの内部思考が何であるかを見ることができます。

それから、ああ、RLで報酬信号としてそれを使うべきかもしれない、間違ったことを考えたらモデルを罰するべきかもしれない、と思うかもしれませんが、突然、解釈可能性の角度を完全に破壊しました。

ですから、実際に解釈したい、モデルが考えていることをやっていることを見たい信号でRLを行わないように注意する必要があります。

そうは言っても、メカニスティック解釈可能性を含む、非常にエキサイティングな解釈可能性のことが起こっていると思います。

実際、昨年、Anthropicの前だったかもしれませんが、ゴールデンゲートブリッジのClaudeモデルという非常にクールなものがありました。Claudeのゴールデンゲートブリッジの概念を担当するニューロンを見つけ、それを変更して、サンフランシスコのゴールデンゲートブリッジを本当に愛するClaudeのバージョンを作りました。

ですから、それは、ああ、このモデルで何が起こっているかを本当に理解している、という非常に鮮やかな例です。その理解を検証するより良い方法は、実際にモデルの動作を変えることよりも良い方法はありません。

ですから、それは安全性にとって非常に重要な方向だと思います。モデルが賢くなるにつれて、モデルが内部で何を考えているかを本当に理解できる必要があります。それが持っている価値観は何か。私たちに嘘をついているか。実際に指示に本当に従っているか。

ですから、確実に非常に重要な投資して作業する分野だと思います。特に、AIで働くこと、AI研究をすることに興味がある人々にとって、解釈可能性は参入するのに素晴らしい分野だと思います。

AIの影響と安全性

完璧な、会話の最後の部分へのセグエです。ズームアウトして、AIの影響について話したいと思います。

もし、指数関数的な成長にあり、物事がここから加速するだけだと考えるなら、それはどういう意味でしょうか。そして確かに、安全性と整列性は、Anthropicの中核的な価値であり、うまくいけばフィールドの他の部分でもそうですが、Anthropicは特に安全性と整列性について声高です。

それは実際にどのように現れますか。解釈可能性について話したばかりです。Anthropicのような場所で、整列性と安全性のために行われている仕事の種類を、これが速すぎて、私たちが集合的に怪物を作り出していると懸念している人々に、垣間見せることができますか。

安全性、整列性への焦点は、Anthropic全体に浸透していると思います。モデルをリリースしたいときはいつでも、モデルの能力を分析し、モデルの整列性を検証するための非常に厳格なプロセスがあります。有害なことを自分自身で行わないことを確認します。

悪意のあるユーザーが有害なことを行うことを可能にしないことを確認します。そして、モデルの安全性について不確実な場合、ローンチを遅らせます。実際に無害であることを十分に確信するまで、モデルをローンチしてリリースしません。

それは、人々が金銭的な見返りや収益よりも安全性をはるかに真剣に受け止めていることを示していると思います。

研究とリソースの観点からも、安全性と解釈可能性に取り組んでいるチームは、会社の大きな焦点だと思います。それが、私たちが実際にこれを気にかけて、多くの努力をそれに注いでいるという多くの自信を与えてくれます。

より技術的なレベルで、会話の前の部分を結びつけるために、事前学習と安全性について議論していたときです。

安全性と整列性はRL問題ですか。そして、それによって意味するのは、事前学習を持つことの美しさは、議論しているように世界モデルをインポートすることですが、間違いなく、インターネットからデータを収集する場合、私たちが知っているように良いものもありますが、多くの有毒なコンテンツもあるので、多くの悪いものもあなたの脳にインポートします。

ですから、整列性は主にRLを使って、事前学習に組み込まれている悪いものを取り除くことですか。

RLを使ってモデルの動作を形成し、例えば敵対的な悪い入力が与えられたときに安全に振る舞うこと、拒否できることを知っていること、モデルをパックしようとする試みに対して堅牢であることを確実にすることができます。

整列性をRLの問題だけとして見ることはしないと思います。スタック全体を通じて行われると思います。

例えば、事前学習データを何らかの方法でフィルタリングするかもしれません。訓練後、モデルの動作を監視する分類器を持って、実際に整列していることを確認するかもしれません。モデルに使用するシステムプロンプトを書くとき、そこに安全性のガイドラインを入れるかもしれません。

ですから、安全性、整列性は、研究全体、製品と展開全体に本当に浸透していると思います。1つの部分だけに隔離されているわけではありません。

雇用と経済への影響

そして、AIの影響の同じ脈絡での別の非常に興味深いトピックは、明らかに雇用についての議論です。

ですから、GDPvalの議論の通り、エージェントが人間と同じくらい良く、あるいはそれより良くなっている場合、明らかに、私たち全員にとって、私たちの仕事という観点で、それは何を意味するでしょうか。

Alpha Zero、AlphaGoの経験の後、私たち全員が超強力なエージェントに仕事をやらせるようになったら何が起こるかを垣間見せることができるものを、何を学びましたか。

最初に、まだ話していないことは、人工知能は、これは少し単純に聞こえるかもしれませんが、人間の知能とは全く異なるということだと思います。

ですから、それを見ることができますよね。モデルは、明らかに計算のような一部のタスクでは私たちよりもはるかに良く、他のタスクでは私たちよりもはるかに悪いかもしれません。ですから、1対1の置き換えになるとは全く思いません。

それは、モデルが、おそらく私が本当にやりたくないこと、興味がないこと、非常に悪いことを本当に得意であり、その後、私がモデルより他の部分ではるかに良い、というはるかに補完的なものになるでしょう。

ですから、私たち全員が自分自身の生産性を向上させるためにモデルをますます使い始める、徐々にプロセスになると思います。1対1で、私たちができることの正確なセットを行うことができるモデルを持つのではなく。

例えば、私はコードをリファクタリングしたり、おそらく書きたくないフロントエンドコードを書いたりするために、Claudeをいつも使います。同時に、私が明らかにまだCloudeよりもはるかに良い他の部分があります。

ですから、最良の最も生産的なスキルを使う、シナジーがあります。経済学者はそれを比較優位と呼んでいると思いますが、私たち両方が生産性を段階的に改善し、このプロセスが、政治的に、経済的に、この大規模な生産性の向上からどのように利益を得たいかを理解する時間を与えてくれる長いプロセスがあると思います。

AIから独立してさえ、技術の約束は長い間、ああ、私たちは全員非常に生産的で、非常に裕福になるので、はるかに少なく働く必要がある、というものでした。しかし、不思議なことに、私たちは皆、何十年も40時間の労働週を持っています。

ですから、これらすべての改善から実際にどのように利益を得るか、富と生産性の増加をすべての人にどのように届けるか、を理解することは、はるかに政治的、社会的問題だと思います。そして、技術的問題よりもはるかに少ないです。

それはまた、技術でそれを本当に解決できないことを意味します。民主的、政治的レベルでそれを解決しなければなりません。これらの利益をどのように広げるか。

AlphaGoとMuZeroの影響について考えるとき、それは不平等を増やすと思いますか。トップの囲碁プレイヤーやトップのチェスプレイヤーに何が起こったか。彼らは消えましたか、それとも強化され、より良くなりましたか。

少なくともチェスと囲碁の場合、より多くの関心があり、囲碁のプレイ方法、チェスのプレイ方法を勉強することがはるかに簡単になったと思います。なぜなら、今では専門の家庭教師を見つける必要がないからです。誰でも自分で練習でき、多くの時間を費やすことができます。

そして、チェスのストリーマーはTwitchで非常に人気がありますよね。同様に、多くの学生が言語モデルを使って勉強していると思います。

コーディングのためにも、Claude Codeのようなこれらのエージェントは、アイデアを持っている人が自分で達成できることのバーを上げていると思います。

より大きな絵で、それが不平等を増やすか減らすかを予測することは非常に難しいと思います。それは、誰でも達成できることの床を上げますが、非常に生産的な人々にさらに生産的になる能力を与えます。

例えば、税制、持っている社会的再分配システムによって、不平等が増えるか減るかにかなりの違いが国々の間で見られる可能性があります。

全体的に、それが非常にゼロサムではないことに非常に興奮しています。社会で利用可能な総富を非常に増やします。

進歩について考えると、繁栄について考えると、それが最も重要なことだと思います。パイを再分配することは、ある種の敗者のゲームです。より裕福になるためには、本当にパイを成長させる必要があります。

農業革命、産業革命について考えると、今日私たちがはるかに良い生活を送っている理由は、はるかに生産的だからです。はるかに多くの富を持っています。

ですから、それが解き放ちたい重要なステップです。もし社会のすべての人を10倍生産的にすることができたら、どんな豊かさを達成できるでしょうか。

それが重要な質問だと思います。それは医学でどんな進歩を解き放つか。病気を治す、老化を止める。それはエネルギーの観点で何を解き放つか。明らかに、気候危機があります。私たちのライフスタイルを維持するために、より多くのエネルギーが必要です。

材料科学でどんな進歩があるか。これらすべてのものは、基本的に、どれだけの知能にアクセスでき、それをどのように適用できるか、によってボトルネックになっています。

ですから、今後5年間で何を解き放つことができるかについて、信じられないほど楽観的です。

非常に遠くまで行けると思います。

それは会話を終えるのに素晴らしい場所のように感じます。Julian、本当にありがとうございました。これは絶対に素晴らしかったです。時間を使ってくれてありがとうございました。

エキサイティングな質問と時間をくれてありがとう。

こんにちは、再びMatt Turkです。Mattポッドキャストのこのエピソードを聞いてくれてありがとうございました。楽しんでいただけたなら、まだの方は購読を検討していただくか、このエピソードを視聴または聞いているプラットフォームで肯定的なレビューやコメントを残していただけると非常にありがたいです。

これは、ポッドキャストを構築し、素晴らしいゲストを得るのに本当に役立ちます。ありがとうございます。次のエピソードでお会いしましょう。