
4,397 文字

ダン・ロバーツは元シークオイアのチームメンバーで、私たちに対して何年もの間、推論について情報を広めてきました。過去2年から2年半、3年ほどです。私たちは1年から1年半ほど向かい合って座っていて、ダンから多くのことを学びました。皆さんにもっと広く共有してもらえることをとても楽しみにしています。
一つの思い出を共有します。昨年のAI Ascentでのことです。彼はシークオイアを離れてOpenAIに行くところでした。まだ誰にも言っていませんでした。内密にしていたのです。それはかなり重要な情報でした。アルフレッドとサムがここで話していて、アルフレッドが「ああそうだ、ところでダンはOpenAIに行くんだ」と言いました。彼の顔が見えました。彼はかなり当惑していました。あなたがそれを乗り越えて、私たちに推論について少し共有してくれることを嬉しく思います。
ええ、あなたが私が使おうとしていた導入部を借りてしまったようですね。だから、すぐに本題に入りましょう。皆さんご存知のように、昨年9月にOpenAIはo1というモデルをリリースしました。これは私たちのブログ投稿から取ったものです。要点に入りましょう。縦軸はMLの出力のプロットをお見せしていますが、縦軸は数学的推論のベンチマークにおけるパフォーマンスで、横軸が興味深いところです。左側のプロットはモデルが訓練時間の計算量で改善したことを示しています。
これはAIモデルを訓練する人なら誰でもある程度馴染みのあることです。本当に興奮したのは右側のこのプロットで、モデルはテスト時間の計算量でも改善したことを示していました。私たちは推論するよう教え、モデルは時間をかけて考え、考えれば考えるほど改善していきました。
ここは暑いですね、これはとても重要なことなので、Tシャツにもしました。これはスケーリングのための全く新しい次元なのです。訓練だけでなく、テスト時にも効果があります。さて、これは何を意味するのでしょうか?私たちは思考モデルを持っています。
思考実験をしてみましょう。これは先月リリースした、さらに優れた推論モデルであるo3からのものです。私のバックグラウンドは物理学でした。ですから、モデルに物理学の問題を尋ねることができます。これは量子電磁力学です。また、見ることもできます。誰かがその紙に問題を書いています。
おそらくこれらのモデルを見たことがあるでしょう。これはテスト時に行うことの一例です。考えることができ、反復し、拡大することができます。その紙の上にはファインマンダイアグラムがあり、これは計算を表現する方法です。そしてさらに考え、答え始め、質問に答え、最終的に正解にたどり着きます。それには約1分かかりました。
余談ですが、同僚がこのブログ投稿を上げる前に、この計算をチェックするよう私に頼みました。私が持っている4冊の教科書にこの計算があるにもかかわらず、すべてを追跡し、すべてのマイナス記号が正しいことを確認し、正解を得たことを検証するのに約3時間かかりました。
さて、私たちに何ができるでしょうか?1分ほど考えて、かなりクールな計算ができます。しかし、私たちはどこへ行きたいのでしょうか?それを想像するために、思考実験をしましょう。誰が思考実験をするでしょうか?アルバート・アインシュタインです。アインシュタインについて思考実験をしましょう。
1907年、彼が一般相対性理論の研究を始める前に戻り、一般相対性理論の最終試験問題を彼に尋ねたとします。これは実際にGPT-4.5が作ったものですが、これが尋ねられるかもしれない有効な質問の種類だと確認できます。私たちはOpenAIですので、アインシュタインに尋ねるのではなく、最大の推論努力と最大の努力を得るために、アインシュタインv1907-super-Hハイに尋ねます。
アインシュタインは視覚的思考者ですね。エレベーターと自由落下について何か。これは一般相対性理論を学ぶときに学ぶことで、計算もします。そこにはゴムのシートとボールがあり、彼は量子力学についてしばらく気が散ったようです。私たちのモデルも気が散ることがあります。
それは、ブラックホールに近づいているように見えます。なぜ彼がこれらのシナリオすべてで自分自身について考えるのか、私にもわかりません。そしてそこに、私が求めていたようなブラックホールのようなものがあります。ワームホールです。それが正解です。
実はGPT-4.5は正解を得られませんでした。o3が必要でした。o3はそれを得ることができました。OpenAIでの私の役割はAI研究よりも、主に物理計算をチェックすることだと思います。しかし、ポイントは正解を得るということ、あるいはアインシュタインが正解を得るということであり、彼が問題を解決するのに約8年かかるということです。つまり、8年後に彼は一般相対性理論を発見するということで、これは実際に起こったことです。彼はこの質問に答えることができるようになるでしょう。
私たちのモデルは今、1分間考えて教科書の計算とその摂動を再現できますが、人間の知識と科学の状態に大きな貢献をしてほしいのです。さて、このプロットに戻りましょう。どうやってそこに到達するのでしょうか?ここで左のプロットに注目しましょう。
モデルのパフォーマンスは、訓練すればするほど向上します。私たちが行っている訓練の種類は強化学習、つまりRLです。このトークで伝えたい主なことは、それを拡大したいということです。1年前にGPT-4oをリリースしました。計算が使用され、それはすべて事前訓練の計算でした。想像できるように、私たちはテスト時間の計算につながるこのことを始めました。
o1には強化学習の計算、RL計算を追加しました。これはすべて漫画的な表現ですが、方向性としては正しいです。o3はもう少し多くのRL計算を持っていたかもしれません。将来のある時点で、多くのRL計算を持つかもしれませんし、さらに遠い将来には、RL計算に完全に支配され、圧倒されるかもしれません。これは私が思うに、かなり逆説的な視点です。これが私たちが向かっている方向です。
逆説的な性質を強調するために、AIの研究をフォローしている人たちの中には、ヤン・ルンが何年か前、著作権から判断すると2019年に作ったスライドがあります。私は明らかにこれを借用しました。これは複雑なスライドで、おそらく理解するのが難しいかもしれませんが、幸いにも要約できるモデルがあります。ポイントは、事前訓練は大きなケーキのようなもので、強化学習はその上の小さなさくらんぼのようなものだということです。
基本的にこのプロットが示していることです。カラースキームは偶然でしたが、実際にはかなりうまく機能していると思います。これが私たちが向かっている方向です。ここでミームを完全に逆転させたいのです。同じサイズのケーキを持ちながら、巨大な強化学習のさくらんぼでそれを圧倒したいのです。
さて、私たちの計画は何でしょうか?計画はお伝えできません。スライドを送り、コミュニケーションチームがすべてを編集しました。実は編集スライドを編集されることに不安を感じていましたが、幸いなことにブリアナ、送信先の人はとても親切でした。実際、私たちの計画は何かというと、私たちの計画については実際にとても明確に話していると思います。私たちは計算能力を拡大しています。
つまり、5000億ドルを調達し、テキサス州アバリーンの土地を買い、建物を建て、中にコンピュータを置きます。ここにいる人たちの一部は、以前に話したように、おそらく私たちを手伝ってくれるでしょう。そしてモデルを訓練し、うまくいけばそこから多くの収益を得て、さらに建物を建て、さらにコンピュータを中に設置するといったことをします。
つまり、計算能力を拡大しているのです。それと同時に、スケーリングサイエンスを開発したいと考えています。これは私がOpenAIで行っていることの一つです。このプロットはGPT-4のブログ投稿からのもので、私の時代以前のものですが、とても刺激的で印象的だと思います。この下の点はGPT-4の最終的な損失パフォーマンスです。
これらの点は途中で行った実験で、これは対数スケールなので、それらははるかに小さなスケールです。そしてこの点線は予測でした。彼らは予測を的中させました。彼らは誰も見たことがないほど大きなこのモデルを訓練しようとし、それが何をするのかを正確に知っていました。
そして今、テスト時間の計算と強化学習訓練というこれらの新しい方向性を持って、私たちはすべてをリセットし、計算能力を拡大することの意味を再発明しなければなりません。私たちは拡大しています、スケーリングサイエンスが必要です、なぜならスケーリングサイエンスをしたいからです。
これはポッドキャスターのドゥワース・パテルが指摘したポイントですが、現在の私たちのモデルは一種のバカな天才のように感じます。彼らは一般相対性理論を発見しているわけではありません。なぜでしょうか?それは私たちが間違った種類の質問をしているだけかもしれません。
研究で行うことの多くは、質問の仕方がプロセスや答えよりも重要だということです。だから、本当に質問を正確にする必要があります。もう一つの問題は、競争数学の問題が多すぎて訓練していて、私たちのモデルが異なることに対して不均等に得意になっているかもしれないということです。
どちらの場合も、整数が得られ、少し物足りないかもしれません。しかし、実際に起こることは、私たちが拡大していることだと思います。さらにこれを拡大する必要があり、それを行うと本当に素晴らしいことになるでしょう。
締めくくりに、次に何が来るかについてです。次回のAI Ascentでは、私は昨年ここにいました。また来れることを願っています。実際、これは簡単です。コンスタンティンがこのプロットを持っていたと思います。非対数yバージョンのプロットです。これはAIが実行できるタスクの長さの指数関数的成長を示しています。
7ヶ月ごとに倍増しています。このプロットによると、彼らは約1時間のタスクを実行できるようです。来年はどうなるでしょうか?約2時間半から3時間の間になるでしょう。AIで予測をするのは危険です。誰もが常に間違っていますが、おそらく私はここに線を外挿できるかもしれません。
私たちが話しているのは、アインシュタインの8年間の思考についてです。そして今からそこに到達するには約16回の倍増時間が必要です。つまり、9年後には一般相対性理論を発見するモデルを持つことになります。
ありがとう


コメント