Anthropic共同創設者のジャレッド・カプランによる講演であり、AIのスケーリング則と人間レベルのAIへの道筋について解説している。物理学者からAI研究者へ転身した背景、事前学習と強化学習の両段階におけるスケーリング則の発見、それによってAIが数分から数時間、そして将来的には数日から数年単位のタスクを実行できるようになる予測を示している。人間レベルAI実現に必要な要素として、組織的知識、メモリ、監督機能、マルチモーダル対応を挙げ、AIとの協働の重要性と今後の展望について論じている。

AIスケーリング則と人間レベルAIへの展望
みなさん、こんにちは。ジャレッド・カプランです。スケーリングと人間レベルAIへの道筋について簡単にお話しさせていただきますが、この聴衆の皆さんには馴染みのあるアイデアが多いと思いますので、手短に済ませて、ダイアナと一緒に炉辺談話風のQ&Aを行いたいと思います。
実際、私がAIに取り組み始めたのはまだ6年ほど前からなんです。それまでは長い間、キャリアの大部分を理論物理学者として学術界で過ごしていました。では、なぜAIの道に進んだのでしょうか。簡潔にお話しします。なぜ物理学を始めたかというと、基本的には母がSF作家だったからで、光より速い推進装置を作れるかどうか確かめたかったんです。物理学がその方法だったんですね。
また、宇宙を理解することにもとても興味がありました。物事はどのように働くのか?私たちの周りで目にするすべての根底にある最大のトレンドはどこから来るのか?例えば、宇宙は決定論的なのか?自由意志はあるのか?そういった質問にとても強い関心がありました。
しかし幸運なことに、物理学者としてのキャリアの中で、今一緒に働いているAnthropicの創設者の多くを含む、非常に興味深く、深い人々に出会いました。彼らがやっていることに本当に興味を持ち、追跡し続けていました。大型ハドロン衝突型加速器の物理学、素粒子物理学、宇宙論、弦理論などの物理学の異なる分野を移り歩く中で、少し欲求不満を感じ、少し退屈になってきました。十分に速く進歩していないと感じたんです。
多くの友人がAIが本当に大きな話題になっていると言っていました。でも私は信じませんでした。本当に懐疑的だったんです。「AIなんて、人々は50年間も取り組んでいるじゃないか。SVMはそんなに刺激的じゃない」と思っていました。2005年、2009年に学校にいた頃は、それがすべて知っていることでした。
しかし、AIが取り組むべき刺激的な分野になるかもしれないと説得されました。適切な人々を知ることができて非常に幸運で、その後の話は歴史の通りです。
現代AIモデルの仕組みとスケーリング則
それでは、現代のAIモデルがどのように機能し、スケーリングがどのようにしてそれらをより良くしているかについて少しお話しします。Claude、ChatGPTなどの現代のAIモデルの訓練には、本当に2つの基本的なフェーズがあります。
最初のフェーズは事前学習で、これは人間が書いたデータ、人間が書いたテキストを模倣し、そのデータの根底にある相関関係を理解するようにAIモデルを訓練することです。これらの図は非常にレトロです。実際、これは最初のGPT-3モデルのプレイグラウンドからのものです。ジャーナルクラブでの発表者として、「象は私に特定のことを言うよう」という文で「象」という単語は本当に本当にありそうにないことがわかります。
事前学習が行うことは、大規模なテキストコーパス、そして現代のモデルではマルチモーダルデータにおいて、どの単語が他の単語に続く可能性が高いかをモデルに教えることです。
現代のAIモデル訓練の第二段階は強化学習です。これもまた非常にレトロなスライドです。2022年という古代の日々に、フィードバックデータを収集していた頃に使用していた、Claude ゼロやClaude マイナス1の最初のインターフェースを示しています。
ここで見ているのは、基本的にClaudeの非常に初期のバージョンと会話し、Claudeからのどの応答があなたやクラウドワーカーなどにとってより良いかを選ぶためのインターフェースです。そのシグナルを使って、役に立つ、正直で、無害であると選ばれた行動を最適化し、強化します。そして悪い行動を阻止します。
これらのモデルの訓練は、本当に次の単語を予測することを学習し、その後有用なタスクを行うことを学習するための強化学習を行うことがすべてなんです。そして、訓練の両方のフェーズにスケーリング則があることがわかります。
これは私たちが5、6年前に作った図で、AIの事前学習フェーズをスケールアップすると、予測可能にモデルの性能がより良くなることを示しています。これは、私が可能な限り愚かな質問をしていたことから生まれました。物理学者として、そういうトレーニングを受けるんです。大きな絵を見て、本当に愚かなことを聞くんです。
2010年代にビッグデータが重要だと言うのが非常に人気だったので、データはどのくらい大きくすべきか、どのくらい重要か、どのくらい役に立つかを知りたかったんです。同様に、多くの人が大きなAIモデルがより良いパフォーマンスを示すことに気づいていました。それで、これらのモデルはどのくらい良いパフォーマンスを示すのかという質問をしただけです。
私たちは本当に幸運でした。AI訓練の根底には実際に非常に非常に精密で驚くべきものがあることを発見したんです。これには本当に驚かされました。物理学や天文学で見るのと同じくらい精密な素晴らしいトレンドがあるということです。これらは、AIが非常に予測可能な方法でどんどん賢くなり続けるだろうという強い確信を与えてくれました。
これらの図でわかるように、すでに2019年の時点で、計算量、データセット規模、ニューラルネットワーク規模において、多くの桁数にわたって見ていました。何かが多くの桁数にわたって真実であることを見ると、それはおそらく長い間真実であり続けるだろうと期待するものです。これがAIの改善の根底にあると思う基本的なことの一つでした。
強化学習におけるスケーリング則
もう一つは、実際にかなり長い間現れ始めていたものですが、この数年で本当に影響力を持つようになったのは、AI訓練の強化学習段階でもスケーリング則を見ることができるということです。
約4年前の研究者が、AlphaGoのスケーリング則を研究することにしました。基本的に、非常に注目度の高い2つのAIの成功、GPT-3と事前学習のためのスケーリング、そしAlphaGoを組み合わせました。これはアンディ・ジョーンズという研究者が一人で、この古代の日々におそらく単一のGPUで行った研究でした。
AlphaGoを研究することはできませんでした。それは高価だったからです。しかし、Hexという単純なゲームを研究することができました。ここで見る図を作ったんです。ELOスコアは当時はそれほど知られていませんでしたが、ELOスコアはもちろんチェスのレーティングです。基本的に、チェスゲームで一人のプレイヤーが他のプレイヤーに勝つ可能性がどのくらいかを表します。現在はAIモデルをベンチマークするために使われ、人間が一つのAIモデルを他のモデルよりどのくらいの頻度で好むかを見るために使われています。
しかし当時は、これはELOスコアのチェスレーティングとしての古典的な応用でした。彼は、Goよりも少し単純なボードゲームであるHexというゲームをプレイするように異なるモデルを訓練すると、どうなるかを見ました。そして、これらの素晴らしい直線を見ました。
科学では非常に単純なトレンドに気づくことはスキルの一種で、これもその一つだったと思います。見落とされていたと思います。人々はRLでのこの種のスケーリング行動に十分早く注目しませんでしたが、最終的にそうなりました。基本的に、事前学習とRLの両方で計算量をスケールアップし、より良いパフォーマンスを得ることができることがわかります。これがAIの進歩を推進している基本的なことだと思います。AI研究者が本当に賢いからとか、突然賢くなったからではありません。体系的にAIをより良くする非常に単純な方法を見つけて、そのクランクを回しているからです。
AIの能力軸とタスクの時間軸
では、これはどのような能力を解放しているのでしょうか?私はAIの能力を2つの軸で考える傾向があります。あまり興味深くない軸だと思いますが、それでも非常に重要なのは、基本的にAIの柔軟性、私たちがいる場所でAIが私たちに会う能力です。
例えば、この図にAlphaGoを置くとすると、X軸のはるか下になるでしょう。なぜなら、AlphaGoは超知能でしたが、どんなGoプレイヤーよりもGoをプレイするのが上手でしたが、Goボードの宇宙でしか動作できなかったからです。
しかし、大規模言語モデルの出現以来、人々が対処できるすべてのモダリティ、多くの多くのモダリティを扱えるAIを作ることで着実に進歩を遂げてきました。匂いの感覚を持つAIモデルはまだないと思いますが、それもおそらく来るでしょう。Y軸を上がると、世界でより多くの関連することができるAIシステムが得られます。
しかし、より興味深い軸はX軸で、人がAIモデルができる種類のタスクを行うのにどのくらい時間がかかるかということです。これはAIの能力を増加させるにつれて着実に増加しているものです。これはタスクの時間軸の一種で、Metraという組織がこれを非常に体系的に研究し、また別のスケーリングトレンドを発見しました。
彼らは、AIモデルができるタスクの長さを見ると、約7カ月ごとに倍増していることを発見しました。これが意味することは、事前学習とRLのための計算量のスケーリングによってAIに焼き込まれている知能の増加が、より長く長い時間軸のタスクを含む、AIモデルができる予測可能で有用なタスクにつながっているということです。
これがどこに向かっているかについて推測することができます。AI 2027の人々がそうしました。この種の図は、今後数年間で、AIモデルが分や時間だけでなく、日、週、月、年などかかるタスクができるようになる可能性があることを示唆しています。
最終的に、AIモデル、あるいは何百万ものAIモデルがおそらく協力して、人間組織全体ができる仕事をできるようになると想像しています。現在科学界全体が行っている種類の仕事をできるようになるでしょう。数学や理論物理学の素晴らしいことの一つは、考えるだけで進歩を作ることができることです。それで、AIシステムが協力して、理論物理学界が50年で作る種類の進歩を数日、数週間などで作ることを想像できます。
人間レベルAI実現に必要な要素
では、このようなスケーリングの図が私たちを非常に遠くまで連れて行くことができるなら、何が残っているのでしょうか?広く解釈された人間レベルのAIを解放するために残っているものは、比較的単純だと思います。
最も重要な要素の一つは、関連する組織的知識だと思います。白紙の状態で挨拶するだけでなく、何年もそこで働いている人が持つような文脈を持っているかのように、企業、組織、政府内で働くことを学べるAIモデルを訓練する必要があります。AIモデルは知識と協力できる必要があります。
彼らはまた、メモリも必要です。メモリとは知識でなければ何でしょうか?私がそれを区別する意味では、非常に長い時間がかかるタスクを行う際に、その特定のタスクでの進歩を追跡し、関連するメモリを構築し、それらを使用できる必要があるという意味です。これは私たちがClaude 4に組み込み始めたもので、ますます重要になると思います。
私たちがより良くなる必要があり、進歩を続けている第三の要素は監督です。難しいファジーなタスクを解決するために、細かいニュアンスを理解するAIモデルの能力です。今は簡単で、テストに合格するコードを書いたり、数学の質問に正しく答えたりするAIモデルを訓練することで進歩の爆発が見られます。なぜなら、何が正しくて何が正しくないかが非常に明確だからです。そのような種類のタスクでAIモデルがより良くなるように強化学習を適用するのは非常に簡単です。
しかし、私たちが必要とし、開発しているのは、良いジョークを言ったり、良い詩を書いたり、研究で良い味を持ったりするようなことを行うために強化学習を活用できるように、はるかに微妙な報酬シグナルを生成するのを助けるAIモデルです。
私たちが必要とする他の要素は、もっと単純だと思います。明らかに、より複雑なタスクを行うようにAIモデルを訓練できる必要があります。テキストモデルからマルチモーダルモデル、ロボティクスまで、Y軸を上に向かって進む必要があります。今後数年間で、これらの異なる領域に適用されたスケールからの継続的な利益が見られると期待しています。
未来への準備と提言
では、この未来、これらの可能性にどのように備えるべきでしょうか?いつも推奨することがいくつかあります。一つは、まだうまくいかないものを構築することが本当に良いアイデアだと思います。これはおそらくいつでも良いアイデアです。私たちは常に野心を持ちたいのですが、特に今のAIモデルは非常に速く良くなっていると思います。そして、それは続くと思います。
つまり、Claude 4がまだ少し愚かだからうまくいかない製品を構築すれば、その製品を機能させ、多くの価値を提供するClaude 5が来ることを期待できるということです。だから、私がいつも推奨するのは、AIができることの境界で実験することです。なぜなら、その境界は急速に動いているからです。
次のポイントは、AIがAIの統合に役立つということです。AIの主要なボトルネックの一つは、非常に速く発達しているため、製品、企業、私たちが行う他のすべて、科学にそれを統合する時間がなかったことだと思います。そのプロセスを速めるために、AI統合のためのAIの活用は非常に価値があると思います。
最後に、この群衆にとって明らかなことだと思いますが、AIの採用が非常に速く起こり得る場所を見つけることが鍵だと思います。コーディングのためのAI統合の爆発が見られています。ソフトウェアエンジニアリングがAIにとって素晴らしい場所である理由はたくさんありますが、大きな質問は次は何かということだと思います。ソフトウェアエンジニアリング以外で、そんなに速く成長できるものは何でしょうか?もちろん答えはわかりませんが、うまくいけば皆さんが見つけ出してくれるでしょう。
Q&Aセッション
それで講演は終わりです。ダイアナをステージに招いて、チャットをしたいと思います。
YCの次のバッチは現在応募を受け付けています。あなたの中にスタートアップはありますか?y combinator.com/applyで応募してください。早すぎることはありません。応募書類を記入することで、あなたのアイデアがレベルアップします。では、ビデオに戻りましょう。
スケーリング則についての素晴らしい講演でした。最近、AnthropicはClaude 4を発表しましたが、これは利用可能になっています。これらのモデルリリースが次の12カ月間複合し続ける中で、何が可能になるかが変わることについて興味があります。
さらに良いモデルが出るまで12カ月かかるとしたら、私たちは困ったことになると思います。しかし、Claude 4についていくつか。Claude 3.7 Sonnetでは、コーディングに3.7を使うのはすでに本当に刺激的でした。しかし、誰もが気づいたことは、3.7が少し熱心すぎることでした。時々、本当にテストを合格させたがっていました。あまり望ましくないことをしていました。try exceptのようなものがたくさんありました。
Claude 4では、特にコーディングに対してエージェントとして行動するモデルの能力を改善できたと思いますが、検索や他のすべての種類のアプリケーションでも同様です。また、講演で言及した監督の改善、つまりあなたの指示に従い、コード品質の改善を期待している監督も改善しました。
私たちが取り組んだもう一つのことは、メモリを保存し格納する能力の改善です。Claude 4は非常に複雑なタスクでコンテキストウィンドウを使い果たすことができますが、メモリをファイルやレコードとして保存し、多くのコンテキストウィンドウにわたって作業を続けるためにそれらを取得することもできます。人々がそれを活用することを期待しています。
最後に、スケーリング則が描く図は段階的な進歩の一つだと思います。Claudeで見ることは、各リリースでたくさんの異なる方法で着実に良くなることだと思います。しかし、スケーリングは本当に人間レベルのAIやAGIだと期待するものに向かう一種の滑らかな曲線を示唆していると思います。
ここの多くの聴衆が興奮するような特別な機能はありますか?新しいAPIで皆が恋に落ちると思うベータ版やアルファリークはありますか?
私が最も興奮していることは、より長い時間軸のタスクを解放するメモリの一種だと思います。時間が経つにつれて、Claudeをより大きな作業の塊を引き受けることができる協力者として見るようになると思います。これは、すべての将来のモデルがより大きなタスクを取ることができるようになるというあなたのポイントです。今の時点で、彼らは数時間のタスクを行うことができます。
そう思います。これは非常に不正確な測定ですが、ソフトウェアエンジニアリングタスクを見ると、Metraは実際に人々が様々なタスクを行うのにどのくらい時間がかかるかを文字通りベンチマークしており、数時間の時間スケールだと思います。
一般的に人々がAIと働く際に、AIの懐疑論者は正しくAIがたくさんの愚かな間違いを犯すと言うと思います。絶対に素晴らしく、あなたを驚かせることもできますが、基本的なエラーも犯すことができます。人間の知能と比較したAI知能の形の基本的な特徴の一つは、私ができないことがたくさんありますが、少なくともそれらが正しく行われたかどうかを判断できることだと思います。
AIの場合、判断対生成能力ははるかに近いです。つまり、AIと相互作用する際に人々が果たすことができる主要な役割は、作業の健全性チェックを行うマネージャーの一種だということです。これは魅力的です。なぜなら、昨年のYCのバッチを通じて観察したことの一つは、多くの企業が外に出て製品を販売する際に、まだコパイロットとして販売していたからです。顧客サポートのコパイロットがあり、顧客に返信を送る前に最後の人間の承認が必要でした。
しかし、春のバッチで変わったことの一つは、多くのAIモデルがタスクをエンドツーエンドで行う非常に有能になったということです。あなたのポイントに対して、これは注目すべきことです。創設者は今、フルワークフローの直接的な代替を販売しています。これが聴衆が構築することを期待するものに、これがどのように変換されるかを見てきましたか?
たくさんの可能性があると思います。基本的に、どのレベルの成功やパフォーマンスが受け入れられるかの問題です。70%正しくすることで十分なタスクもあれば、展開するために99.9%必要なタスクもあります。正直に言って、70-80%で十分なユースケースのために構築する方がはるかに楽しいと思います。なぜなら、AIが可能なことの最前線に本当に到達できるからです。
しかし、信頼性も押し上げていると思います。だから、これらのタスクがもっともっと見られると思います。現在、人間とAIの協力が最も興味深い場所になると思います。なぜなら、最も高度なタスクには本当に人間がループに入る必要があると思うからです。しかし、長期的には、完全に自動化できるタスクがもっともっとあると思います。
Darioが愛と恩恵の機械について書いたエッセイがあり、非常に楽観的な図を描いていますが、この本でそこにどのように到達するかについて、この人間とAIのループ協力で世界がどのようになると思うかについて、もう少し詳しく話していただけますか?
それの一部はすでに起こっていると思います。生物医学研究に従事している人々と話すとき、適切な種類のオーケストレーションがあれば、現在の最先端のAIモデルを取って、薬物発見などのために興味深い価値のある洞察を生み出すことができると思います。だから、それはすでに起こり始めていると思います。
私が考える側面の一つは、多くの深さを必要とする知能と多くの幅を必要とする知能があるということです。例えば、数学では、リーマン仮説やフェルマーの最終定理のような一つの定理を証明しようと10年間取り組むことができます。それは一つの非常に特定的で非常に難しい問題を解決することだと思います。
科学の多くの分野、おそらく生物学でより多く、興味深いことに心理学や歴史では、多くの多くの異なる分野にわたって非常に多くの情報を組み合わせることが重要だと思います。AIモデルは事前学習段階で人類文明のすべての知識を吸収すると思います。だから、AIが一人の人間専門家よりもはるかにはるかに多くを知っているという特徴を使って、多くの異なる専門分野を組み合わせて洞察を引き出すことができる、例えば研究のための生物学全体にわたって、多くの果実を摘み取ることができると思います。
だから、ハードコーディング問題、ハード数学問題のようなより深いタスクでAIをより良くすることで多くの進歩を遂げていると思いますが、おそらく一人の人間専門家が持たないかもしれない知識を組み合わせる分野で、その種の知能が非常に有用である特定の蓄積があると思います。だから、AIの幅広い知識を活用することをもっと見ることを期待します。
正確にどのように展開されるかについては、本当にわからないです。未来を予測するのは本当に本当に難しいです。スケーリング則は、このトレンドが続くと言う未来を予測する一つの方法を与えてくれます。長期にわたって見るトレンドの多くは続くと期待します。経済、GDP、これらの種類のトレンドは未来の本当に信頼できる指標です。しかし、詳細にどのように実装されるかについては、本当に言うのが難しいと思います。
新しい応用分野と機会
多くの構築者がこれらの新しいモデルで入って構築できる特定の分野はありますか?コーディングタスクには多くのことが行われていますが、現在のモデルで今解放されている緑地がたくさんあるタスクは何ですか?
私は研究バックグラウンドからきており、ビジネスよりもそちらの方なので、非常に深いことは言えないと思いますが、一般的に多くのスキルを必要とし、主にコンピュータの前に座ってデータとやり取りするタスクである場所はどこでも。金融、Excelスプレッドシートをたくさん使う人々。
法律も期待していますが、もしかすると法律はより規制されており、承認のスタンプとしてより多くの専門知識を必要とするかもしれません。しかし、これらの分野はすべておそらく緑地だと思います。
私が言及したもう一つは、既存のビジネスにAIをどう統合するかです。電気が登場したとき、ある長い採用サイクルがあり、電気を使う最初の最もシンプルな方法は必ずしも最良ではありませんでした。蒸気エンジンを電気モーターで置き換えるだけでなく、工場の働き方を作り直したかったのです。AIを活用して経済の部分にAIをできるだけ早く統合することで、そこにはたくさんのレバレッジがあると期待します。
もう一つの質問は、あなたが物理学者として豊富な訓練を受けており、スケーリング則でこのトレンドを本当に最初に観察した一人だったということです。これはおそらく物理学者であることと、自然に起こるすべての指数を見ることから来ているのでしょう。その訓練が世界最高のAI研究を行うことができるようになることについて、どのようになったのでしょうか?
物理学の観点から有用だったのは、最も大きな図、最もマクロなトレンドを探し、それらをできるだけ正確にすることだと思います。
学習は指数関数的に収束していると言うような種類の優秀なAI研究者に会ったことを覚えていますが、私は本当に愚かな質問をしました。本当に指数関数なのか?単なるべき乗則かもしれませんか?二次関数ですか?この物事はどのように収束しているのか?それは聞くべき本当に愚かで単純な質問ですが、基本的に見る大きなトレンドをできるだけ正確にしようとすることで、たくさんの果実を摘み取ることができたし、おそらくまだあると思います。なぜなら、それは多くのツールを与えてくれるからです。針を動かすとは本当に何を意味するのかを聞くことができます。
スケーリング則では、聖杯はスケーリング則のより良い傾きを見つけることです。なぜなら、それはより多くの計算量を投入すると、他のAI開発者に対してより大きな優位性を得ることを意味するからです。しかし、見るトレンドを正確にするまでは、それを打ち負かすことが何を意味するのか、どのくらい打ち負かすことができるのか、体系的にその目標を達成しているかどうかをどう知るかを正確に知らないのです。だから、それらが私が使ったツールの種類だったと思います。量子場理論をAIに文字通り適用するようなことではありませんでした。それは少し特定的すぎると思います。
再正規化、対称性のような物理学の特定のヒューリスティックが、このトレンドを本当に観察し続けるか測定するのに非常に便利だったものはありますか?
AIモデルを見ると気づくことの一つは、それらが大きいということです。ニューラルネットワークは大きいです。現在、数十億、数兆のパラメータを持っています。つまり、大きな行列でできているということです。基本的に、ニューラルネットワークが非常に大きく、特にニューラルネットワークを構成する行列が大きい限界を取る近似を研究することです。
それは実際に役に立っており、物理学や数学でよく知られた近似でした。それは適用されました。しかし、一般的に、非常に素朴で愚かな質問をすることが非常に遠くまで連れて行ってくれると思います。AIは本当にある意味で、AIモデルを訓練する現在の化身という点で、おそらく10年から15年ほどしか経っていません。つまり、信じられないほど新しい分野だということです。解釈可能性、AIモデルが実際にどのように動作するかといった質問など、最も基本的な質問の多くがまだ答えられていません。だから、非常に非常に洗練された技術を適用するよりも、そのレベルで学ぶべきことが本当にたくさんあると思います。
解釈可能性に物理学の特定のツールを適用しますか?
解釈可能性は生物学により似ていると言えるでしょう。神経科学により似ています。だから、それらがツールの種類だと思います。そこにはもう少し数学がありますが、脳の特徴を理解しようとすることに似ていると思います。
神経科学よりもAIで得られる利益は、AIではすべてを本当に測定できることです。脳のすべてのニューロン、すべてのシナプスの活動を測定することはできませんが、AIではそれができます。だから、AIモデルがどのように動作するかを逆設計するための、はるかにはるかに多くのデータがあります。
スケーリング則の限界と将来への疑問
スケーリング則について、それらは5桁以上にわたって保持されており、これは驚異的です。これは少し反対意見の質問ですが、曲線が変化している、おそらく曲線から外れているという経験的な兆候は何があなたを納得させるでしょうか?
本当に難しい質問だと思います。なぜなら、私は主にAI訓練が壊れているかどうかを診断するためにスケーリング則を使っているからです。
何かを見て、それが非常に説得力のあるトレンドだと発見すると、それがどこで失敗しているかを調べることが非常に興味深くなります。しかし、私の最初の傾向は、スケーリング則が失敗している場合、それは私たちが何らかの方法でAI訓練を台無しにしたからだと考えることです。ニューラルネットワークのアーキテクチャを間違えたか、見えない訓練のボトルネックがあるか、使用しているアルゴリズムの精度に問題があるかもしれません。
この種の経験的法則のレベルでスケーリングが本当にもはや機能していないと私を納得させるには多くのことが必要だと思います。なぜなら、この5年間の経験で、スケーリングが壊れているように見えた非常に多くの場合、それは私たちがそれを間違って行っていたからだったからです。
興味深いですね。それでは、この曲線を維持し続けるために必要な計算能力と密接に関連する非常に具体的なことに入りましょう。計算がますます希少になるにつれて何が起こるのでしょうか?FP4のようなもの、三進表現のようなものを探求するような精度の階段をどこまで下りますか?それについてのあなたの考えは何ですか?
現在、AIは本当に非効率だと思います。なぜなら、AIには多くの価値があるからです。最も有能な最先端モデルを解放することには多くの価値があります。だから、AnthropicやOthersのような企業は、AI訓練をより効率的にし、AI推論もより効率的にすると同時に、最先端の能力を解放するために、できるだけ速く動いています。しかし、多くの焦点は本当に最先端を解放することにあります。
時間が経つにつれて、AIがますます広まるにつれて、現在いる場所から推論と訓練のコストを劇的に下げると思います。現在、アルゴリズム的に、計算をスケールアップすることで、推論効率において年間約3倍から10倍の利益を見ています。
冗談は、コンピュータをバイナリに戻すということです。だから、時間とともに推論をより効率的にする多くの道の一つとして、はるかにはるかに低い精度を見ると思います。しかし、現在AI開発は非常に非常に非平衡状態にあります。AIは非常に急速に改善しています。物事は非常に急速に変化しています。現在のモデルの潜在能力を完全に実現していませんが、より多くの能力を解放しています。
だから、AIがそれほど急速に変化しない平衡状況がどのようなものかは、AIが非常に安価だが、そこに到達するかどうかさえ知るのは難しいと思います。AIは非常に速く良くなり続けるかもしれないので、知能の改善がはるかに多くを解放し、FP2まで精度を下げるよりも、それに焦点を当て続けるかもしれません。これは、知能がより良くなるにつれて、人々がコストを下げるのではなく、それをもっと欲しがるというジェヴォンズのパラドックスですね。
絶対にそうです。つまり、確実に見てきたことです。AIが十分にアクセスしやすくなる特定のポイントがあります。とはいえ、AIシステムがますます有能になり、私たちが行う仕事のますます多くを行えるようになるにつれて、最先端の能力にお金を払う価値があると思います。
私がいつも抱いている質問は、すべての価値は最先端にあるのか、それともそれほど有能でない安価なシステムで多くの価値があるのかということです。時間軸の図は、これについて考える一つの方法かもしれません。非常にシンプルな一口サイズのタスクをたくさん行うことができると思いますが、はるかに愚かなモデルを人間として調整して、タスクを非常に小さなスライスに分解し、それらを組み合わせることを要求するよりも、非常に複雑なタスクをエンドツーエンドで行えるAIモデルを使用できる方がはるかに便利だと思います。
だから、最も有能なモデルから多くの価値が来ると期待していますが、間違っているかもしれません。それは依存するかもしれませんし、AIを本当に効率的に活用するAI統合者の能力に本当に依存するかもしれません。
若い世代へのアドバイス
これらのモデルがとても素晴らしくなる未来において、みんなが早期のキャリアでたくさんの可能性を持っているこの聴衆に、どのようにして関連性を保つかについて、どのようなアドバイスを与えますか?みんなが本当に得意であるべきこと、研究すべきこと、それでも本当に良い仕事をするために?
言及したように、これらのモデルがどのように動作するかを理解し、本当に効率的にそれらを活用し、統合できることに多くの価値があると思います。最先端で構築することにも多くの価値があると思います。
わからないので、質問のために聴衆に向けてみましょう。
聴衆からの質問に向けましょう。
スケーリング則について簡単な質問があります。多くのスケーリング則が線形であることを示しています。指数的な計算が上がっているが、スケーリング則では線形の進歩がある。しかし、最後のスライドでは、時間を節約する量で突然指数的な成長を期待すると示しています。なぜこのチャートで突然指数的になり、もはや線形でないと思うのかお聞きしたいです。
ありがとうございます。本当に良い質問で、わからないです。つまり、Metraの発見は一種の経験的発見でした。私がこれについて考える傾向のある方法は、より複雑で長い時間軸のタスクを行うために、本当に必要なのは自己修正のある能力だということです。計画を立て、その計画の実行を開始できる必要があります。しかし、誰もが知っているように、私たちの計画は一種の価値がなく、現実に遭遇します。物事を間違えます。
だから、モデルが達成できる時間軸の長さを決定する多くのことは、間違ったことをしていることに気づき、それを修正する能力だと思います。それは多くの情報ビットのようなものではありません。間違いを犯したことを1、2回多く気づき、その間違いを修正する方法を知ることは、必ずしも知能の巨大な変化を必要としません。しかし、間違いを修正すれば、ここで立ち往生する代わりに、2倍遠くで立ち往生するので、タスクの時間軸の長さを大体2倍にするかもしれません。
それが私が持っている図です。タスクを理解し自己修正する能力の比較的控えめな改善で、より長い時間軸を解放できるということです。しかし、それは単なる言葉です。経験的トレンドがおそらく最も興味深いことだと思います。そのトレンドがなぜ真実なのかについて、より詳細なモデルを構築できるかもしれませんが、あなたの推測は私の推測と同じくらい良いです。
はい。こちらにも質問があります。光栄です。基本的に、時間軸を増やすことについて、ニューラルネットワークについての私の心的モデルは非常にシンプルです。彼らに何かをさせたいなら、そのようなデータで訓練します。時間軸を増やしたいなら、例えば検証シグナルを徐々に得る必要があります。これを行う一つの方法は製品を通してです。例えばClaude Agentで、検証シグナルを使ってモデルを段階的に改善します。
これは例えばコーディングで非常にうまく機能します。そこでは、展開して検証シグナルを得るのに十分良い製品があります。しかし、他の領域についての私の質問は、他の領域では、AGIまでデータラベラーをスケーリングしているだけなのか、それともより良いアプローチがあるのかということです。
良い質問です。つまり、懐疑論者が私に広く人間レベルのAIのようなものを得ることができると思う理由を聞くとき、基本的にあなたが言ったことのためです。より複雑で、より長い時間軸のAIモデルが行うべき異なるタスクをますます構築し、強化学習でそれらのより複雑なタスクで訓練するという、非常に運用集約的な道があります。だから、それがAI進歩の最悪のケースだと感じています。
AIへの投資レベルと、AIで作られていると思う価値のレベルを考えると、必要であれば人々はそれを行うと思います。とはいえ、それをよりシンプルにする多くの方法があると思います。最良ののは、監督し、何かを監督するように訓練されたAIモデルを持つことです。あなたがClaudeになるように訓練しているClaude、監督を提供している別のAIモデルを持つことです。
この信じられないほど複雑なタスクを正しく行ったかを言うのではなく、教員になって終身在職権を得るのに6、7年かかるような、7年間の終端間タスクで、最終的に終身在職権を得るか得ないかということではなく、それは馬鹿げています。非常に非効率です。その代わりに、あなたはこれをうまくやっている、これを悪くやっているというより詳細な監督を提供できます。
そのような方法でAIをますます使用できるようになるにつれて、非常に長い時間軸のタスクのための訓練をより効率的にできるようになると思います。ある程度はすでにこれを行っていると思います。
最後の質問を一つ。
基本的にこれらのタスクを開発し、RLで訓練するとき、RLに使用するタスクを大規模言語モデルを使って作成しようとしますか、それともまだ人間を使っていますか?
素晴らしい質問です。ミックスだと言えるでしょう。つまり、明らかにコードでタスクを生成するなど、可能な限りAIを使ってタスクを構築しています。人間にタスクを作成してもらうこともします。だから、基本的にそれらのことの混合です。
AIがより良くなるにつれて、うまくいけばAIをますます活用できるようになりますが、もちろんこれらのタスクの困難さの最先端も増加します。だから、人間はまだ関与していると思います。
ありがとうございます。
ジャレッドに拍手を送りましょう。ありがとうございました。
ありがとうございます。


コメント