中国の研究者たちがOpenAIの最高モデルの秘密を解明！

13,637 文字

Chinese Researchers Reveal The Secrets of OpenAI’s Best Model!

Build and integrate your own agents with Emergence AI’s orchestrator today: My Newsletter for Regular AI Updates 👇🏼htt.....

中国の研究者たちが、OpenAIのGPT-o1とGPT-o3というストロバリーファミリーモデルの秘密を解き明かしました。これらは最先端の思考モデルで、多くの人々がAGI（人工汎用知能）として分類しているものです。テストタイムコンピュートが、GPT-o1とGPT-o3を強力にしている要因です。これにより、博士レベルの数学や科学研究が可能になっています。
しかし、ここで重要なのは、OpenAI、そして最近になってGoogleだけが、これらの思考モデルの暗号を解読できた唯一の企業だということです。しかし、今回の研究論文は、これらのモデルの思考の側面を正確に再現する方法を説明しています。
テストタイムコンピュートの秘密を解明し、オープンソース化することが彼らの目標でした。彼らはその仕組みの4つの重要な要素を発見しましたが、まずは基本的なことから説明させてください。
この研究論文は復旦大学と上海AIラボラトリーによるもので、GPT-o1モデルを再現するためのあらゆる側面について文字通り詳しく説明しています。OpenAIのGPT-o1とGPT-o3モデル、あるいはGoogleのGemini思考モデルについてご存知ない方のために説明すると、これらは本質的に、推論時に思考する能力を持つ大規模言語モデルです。
これはどういう意味でしょうか。プロンプトを送信した時、最初に思いついたことをそのまま返すのではなく、時間をかけて考えるということです。このプロンプトと推論の時間中により多くのトークンとはるかに多くの計算を使用し、その結果、数学、科学、推論、論理といった複雑なタスクで驚異的な性能を発揮します。特にGPT-o3は、数学やコーディングのコンペティション、そして基本的にあらゆる分野で地球上の大多数の人々を上回る性能を示しています。
読む前に言っておきたいのは、この研究論文で言及されているのはGPT-o1モデルだけだということです。なぜなら、この研究論文はGPT-o3モデルが発表される前に執筆されていたからです。しかしGPT-o3モデルは本質的にGPT-o1モデルと同じもので、ただより優れているだけです。
GPT-o1は、AIにおける重要なマイルストーンを表しています。非常に長い推論プロセスを生成し、質問の明確化と分解、反省と以前の間違いの修正、失敗モードに遭遇した際の新しい解決策の探索など、人間のような推論行動を行うことができます。GPT-o1モデルは、それまでのLLMの推論能力を劇的に超越し、博士レベルの能力に匹敵する性能を達成しました。
その顕著な推論の成果は、OpenAIの人工汎用知能（AGI）へのロードマップにおける5段階のうち、第2段階の「推論者」への進展を示しています。これを見たことがない方のために、OpenAIによる人工知能の5段階について説明しましょう。
レベル1は「チャットボット」、つまり会話言語を持つAIです。これは達成済みで、本質的に今日我々が知っているすべての大規模言語モデルがこれに該当します。
レベル2は「推論者」で、人間レベルの問題解決能力を持ちます。論文ではここまで到達したと述べていますが、私の意見では、我々はすでにそれを超えており、おそらくレベル3、もしくはレベル4に近づいていると思います。
レベル3は「エージェント」、つまり行動を起こせるシステムです。我々はほぼそこまで来ています。例えば、OpenAIが独自のブラウザを開発中という噂があります。最近、あなたに代わって行動を起こせる多くのエージェントがリリースされており、これは現在すでに探究されている分野です。
レベル4は「革新者」、つまり発明を支援できるAIです。状況認識に関する論文を思い出してください。これは人工超知能に到達する前に必要な最後のステップです。AIモデルが新しい科学や数学を探究し、それを自身に適用して自己改善できるようになったとき、知能の爆発的な進化が起こります。
レベル5は「AIによって運営される完全な組織」です。我々はまだここには到達していません。
これを念頭に置いて、論文に戻り、特にテストタイムコンピュートに注目したいと思います。テストタイムコンピュートというのは、これらのモデルの思考の側面を指します。つまり、テストタイムコンピュートと言うときは、思考を意味すると考えてください。
GPT-o1のブログとシステムカードは、強化学習と推論の計算を増やすほど、GPT-o1の性能が一貫して向上することを示しています。基本的に、思考する時間を多く与えるほど、より良い結果が得られるということです。これは、AIが自己教師あり学習から強化学習へ、そして訓練計算のみのスケーリングから、訓練と推論の両方の計算のスケーリングへと、2つのパラダイムシフトを引き起こす可能性があることを示唆しています。
これが、私が2024年におけるAIの最大のイノベーション、最大の飛躍はGPT-o1モデルだと考える理由です。GPT-o1モデルは、我々に新しいスケールアップの方法があることを示しました。以前は、訓練が唯一のスケールアップの方法でした。基本的に、訓練中にモデルにより多くのデータを供給することです。
しかし、我々は公開されているデータをほぼ使い果たしています。認証やペイウォールの背後には大量のデータが存在しますが、それらは一般には利用できないため、訓練に使用するのは非常に困難です。しかし今では、本質的に無限にスケールアップできるものがあります。なぜなら、思考の側面は計算能力以外には何も必要としないからです。
この多くは非常に複雑に見えるかもしれませんが、今日のビデオのパートナーについては実はとてもシンプルです。このチャンネルをご覧になった方なら、私がエージェント、特に現実世界のタスクを遂行できるエージェントに強気な立場であることをご存知でしょう。だからこそ、Emergence AIについてお話しできることを嬉しく思います。
Emergence AIは、エンタープライズグレードのマルチエージェントオーケストレーターを立ち上げたばかりで、これらのエージェントが実際にあなたに代わってウェブを閲覧できる実世界のユースケースの最初のデモを披露しました。これは強化されたウェブオートメーションです。つまり、複数のエージェントがこのインテリジェントなオーケストレーションのもとで、ウェブ上のさまざまな要素とダイナミックに相互作用し、人間のような相互作用とナビゲーションを機械レベルのスケールで実現できるということです。
本当に面白いのは、これらのエージェントが、以前は人間を必要とした複雑で洗練された웹相互作用を実際に実行できるということです。動的な早期ロードメニューをナビゲートし、フォームに記入し、設定を調整し、埋め込みファイルを処理し、PDFやHTMLから関連データを抽出できます。
Emergence AIのオーケストレーターは、設計時の柔軟性と実行時の決定性を組み合わせて提供します。つまり基本的に、これらのエージェントは自己修復が可能だということです。途中で間違いを犯しても、それを理解して次の試行で成功できます。
Emergence AIはプライバシーとセキュリティに大きな重点を置いています。APIを介してアクセスできる完全ホスト型のソリューションを提供するか、独自の仮想プライベートクラウドでホストすることができます。
エンタープライズビジネスで多くのプロセスを自動化したい場合、Emergence AIは素晴らしいソリューションです。彼らのエージェントAPIを統合することで、複数のエージェントをシームレスにオーケストレーションして、あなたとあなたのビジネスのためにタスクを遂行することができます。これには、最新のエンタープライズアプリケーションとレガシーなエンタープライズアプリケーションの両方との相互作用が含まれます。
Emergence AIは開発者向けのプラットフォーム試用招待を開始したばかりです。ぜひチェックしてみてください。私からの紹介だとお伝えください。彼らのウェブサイトemergence.aiにアクセスするか、contact@em…にメールを送ってください。リンクは全て説明欄に記載しておきます。
再度Emergence AIに、このビデオのパートナーシップに感謝します。では、ビデオに戻りましょう。
さて、これらの研究者は何を発見したのでしょうか？思考モデルはどのように機能するのでしょうか？これは4つの側面に分解できます。1つ目はポリシー初期化、2つ目は報酬設計、3つ目は探索、そして4つ目は学習です。これらの用語すべてを分解して、それぞれがどのように機能するのか正確に説明していきます。
ポリシー初期化は、プロンプトが実際に送信される前に起こるすべてのことと考えることができます。ポリシー初期化は、大規模言語モデルの基盤、他のすべてを実行する能力を与えるために必要な初期の材料として考えることができます。
このグラフで見るように、ポリシー初期化には事前訓練が含まれています。基本的にウェブからすべてのデータを収集してモデルを訓練することです。次に指示微調整があり、これは応答の方法を導くために質問と回答のペアを与えることを意味します。そして人間のような推論行動があり、これにより大規模言語モデルが人間のように振る舞うことができます。
直感的なことで、目標の明確化、タスクの分解、代替案の提案、解決策の生成、自己評価、自己修正など、これらすべてについて次に説明していきます。
次は報酬設計です。報酬とは、モデルに何が良くて何が悪いかを伝える方法です。チェスを例に取ってみましょう。チェスに勝つように訓練されたAIでは、報酬は勝利となります。例えば、モデルが勝つたびに+1、負けるたびに-1を得るといった具合です。これは報酬の仕組みの非常に基本的な説明ですが、それが意味するところです。
しかし、大規模言語モデルでは、そのような報酬を得るのは簡単ではありません。チェスやGo、ビデオゲームのような完全に閉じたゲームでは、非常に明確な報酬があり、それは素晴らしいことです。しかし言語では、必ずしも明確ではありません。そしてその報酬がどのように設計されているかは、これらの思考モデルがどのように機能するかの大きな部分を占めています。
次は探索です。これは私が思うに、これらの思考モデルがどのように機能するかにおそらく最も重要な要因です。探索は訓練時と推論時の両方で行われます。推論とは、モデルにプロンプトを与えて結果を得る時を意味することを覚えておいてください。
GPT-o1が本当に知られているのは、推論時の探索です。これらの思考モデルの思考プロセスを見ることができれば、解決策を提案し、場合によっては複数の解決策を提案し、どれが最適かを判断しようとし、そしてその一つを反復するという様子が分かるでしょう。これは探索がどのように機能するかの一例にすぎません。
最後は学習です。特に学習では、強化学習について話しています。つまり、AIが何が正しくて何が間違っているかを人間が教える必要なく、環境と相互作用しながら学習するということです。人間が教える人間ベースの学習は、人間がボトルネックとなるため非常にコストがかかります。一方、環境との相互作用を通じた強化学習では、投入できる計算能力以外にはボトルネックがありません。
では、ポリシー初期化から詳しく見ていきましょう。強化学習では、ポリシーが環境の状態に応じてエージェントがどのようにアクションを選択するかを定義します。これは本質的に3つのレベルで発生する可能性があります。1つは解決策レベルで、これは最高レベルです。次にステップレベルで、これはその1段階下です。
全体的な解決策を考え、その解決策に到達するために実際に取られたステップが次の段階下ということです。つまり、ステップです。そしてその下にはトークンがあり、トークンがステップを構築し、ステップが解決策を構築します。
そして彼らは次のように述べています。GPT-o1のようなモデルでは、人間のような推論行動を組み込むことが、より洗練された解決策空間の探索を可能にするために重要です。プロンプトを通じて活性化されるか、LLMからの専門家の軌跡の蒸留を通じて学習できる6つの重要な推論行動を要約しています。
これらの6つの推論行動とは何でしょうか？これらは人間が行うことで、今や大規模言語モデルに教える必要があることです。1つ目は問題分析です。これは文字通りの意味で、AIモデルが問題を解こうとする前に、時間をかけて問題を理解し、分解するということです。
IKEAの家具を買った時のことを考えてみましょう。いきなり組み立てを始めるのではなく、説明書を見ます。説明書は段階的に分解されており、各ステップが前のステップの上に構築されていきます。これが問題分析の例です。
問題分析自体に複数のステップが含まれることがあります。1つ目は理解を確認するための明示的な問題の再表示、2つ目は暗黙の制約の特定、そして3つ目は抽象的な要件を具体的で実行可能な仕様に変換することです。
これはプロンプトエンジニアリングを実際に行う際に考えるべきことです。モデルに「問題とその表現方法を見て、何か明確にする必要があるかどうか教えてください」と依頼することができます。
次はタスクの分解です。これはIKEAの例の2番目のステップのようなものです。最初に分析して、どのように分解できるかを見て、そして実際に家具を段階的に組み立てていきます。これは大規模言語モデルが複雑な問題に取り組む際にまさに行うことです。
複雑な問題に直面したとき、人間は通常それを複数の管理可能なサブタスクに分解します。例えば、コーディングタスクでは、GPT-o1は問題を入力文字列の取得、スペースの削除、入力文字列の解析などのいくつかのサブタスクに分解します。
次にタスク完了です。モデルは、明確化された問題と分解されたサブタスクに基づいて、段階的な推論を通じて解決策を生成します。この行動は、他のすべての推論プロセスの基礎を形成します。また、以前のステップの延長線上にあります。成功した解決策は、その後のサブタスクの処理につながります。
問題のある解決策やエラーのある解決策は、代替案の生成や自己修正行動のトリガーとなります。ここが重要で、このチャンネルをご覧になった方なら既にご存知のことですが、段階的な生成は、モデルの複雑な推論能力を大幅に向上させます。
私のベンチマーク動画をご覧になった方なら、ほとんどの場合「段階的に考えてください」と言っているのをご存知でしょう。これは、モデルがより質の高い結果を生成できるようにするプロンプトエンジニアリングのテクニックだからです。
次は代替案の提案です。推論の障害や行き詰まりに直面したとき、多様な代替解決策を生成する能力が重要になります。GPT-o1は暗号解読において、いくつかのオプションを体系的に提案することでこの能力を示しています。
非常に多様な潜在的オプションを生成する1つの方法は、温度を非常に高く設定することです。これにより多様な結果が生成されます。
次は自己評価で、これはAIモデルが人間のように振る舞う能力において、最も重要な要素の1つ、もしくは最も重要な要素です。このチャンネルでよく言っていることの1つは、モデルは生成よりも評価の方が得意だということです。
自分で最初から正しい解決策を生み出すよりも、他人の解決策を見て、それが正しいか間違っているか、そしてその理由を説明する方が得意です。だからこそエージェントは非常に強力で、特にエージェントの協力が重要なのです。
複数のエージェントが一緒に働くとき、1つが応答を生成し、他のエージェントがそれを評価して解決策を提案することができます。この反復的なサイクルにより、全体的にはるかに優れた応答が可能になります。
もちろん、その点に関連して、最後は自己修正です。AIモデルが評価をする際に問題を発見した場合、修正を提案し、自己修正して、再度テストすることができます。
次のセクションでは、研究者たちがGPT-o1のポリシー初期化がどのように行われているかを推測しています。まず、推論時の長文生成能力について。LLMは複雑で多様な推論行動を包含するために、多数のトークンを生成する必要があり、これには洗練された長いコンテキストのモデリング能力が必要です。
しばらくの間、これは多くのモデルのボトルネックでした。Geminiモデルは現在200万トークンを持っており、これはおそらくクラス最高だと思います。GPT-o1モデルも作業に十分なトークンを持っています。しかし、これらのテクニックを実行するための要件は、コンテキストウィンドウが十分に大きいことです。
ここで興味深いことが出てきました。聞いてください。人間のような推論行動の形成について、現在の研究は、プログラミングコードと構造化された論理データへの露出が、モデルの推論能力を大幅に強化することを示しています。つまり、コードそのものへの露出だけでも、モデルの論理的推論能力を大幅に向上させるのに十分だということです。
そして当然、自己反省についても話しています。自己反省とは、何かを生成し、それが正しいか間違っているか、そしてどのように改善できるかを考えることを意味します。
次は報酬設計について話しましょう。モデルはどのように自分の出力が正しいか間違っているかを知ることができるのでしょうか。
彼らが提供する報酬設計の2つの例を紹介します。1つはOM（結果報酬）、もう1つはPRM（プロセス報酬）です。両方を詳しく説明していきます。
非常にシンプルです。ここで起こっていることを見てみましょう。結果報酬は基本的に、最終的な出力が正しいか間違っているかということです。必要な数のステップを踏み、必要なだけ考えて、最終的に正解か不正解かを判定します。
しかし、複雑な問題では、最終ステップまたは最終ステップが間違っている前に、正しく実行された複数のステップがあったかもしれません。そのため、解決策全体が間違っているとされますが、これはモデルにフィードバックを与える最も効率的な方法とは思えません。
ここでプロセス報酬が登場します。プロセス報酬では、プロセスの各ステップに実際に報酬が与えられます。最初の4つのステップが正しかった場合、最後の2つのステップで失敗する前に、それらの4つのステップが正しかったというフィードバックをモデルに与えます。
これが、ここで見ているものです。両方とも全く同じ質問で、両方の解決策が間違っていました。しかし、同じように間違っていたのです。違いは、4番目と5番目のステップで間違える前に、最初の3つのステップを実際に正しく得たことです。
したがって、PREの例では、これらの3つのステップが正しいというフィードバックが与えられ、4番目と5番目のステップを修正しようとすることができます。単に全体が間違っていると考えて全部捨てるのではありません。
次に、環境からの報酬について話しましょう。これは、AIモデルに正解または不正解のフィードバックを与える本当に重要な方法です。まず現実的な環境からです。ここで彼らが挙げている例はコーディングです。
モデルがスクリプトを生成し、そのスクリプトの出力が何になるべきかを知っているとします。スクリプトをコンパイラで実行し、出力をモデルに返して、正解を得たかどうかを知らせることができれば、これは現実的な環境でモデルに報酬を与える非常に良い方法です。
しかし、これは常に利用可能というわけではありません。続けて読んでみましょう。一部の環境は有効なフィードバックを提供できますが、報酬信号を得るために環境と相互作用することはコストがかかる可能性があり、またはテスト時にフィードバックが利用できない可能性があります。
例えば、テスト中にLLMが生成したプログラムが正しいかどうかを検証するためのテストケースがない場合があります。そのような場合、環境からの報酬信号をシミュレートするために報酬モデルが必要です。基本的に、そのコンパイラが出力する可能性のあるものをシミュレートするということです。
最後はAIの判断からです。これは非常に一般的で、このチャンネルでも話題に上がっています。LLMを審判として使用します。1つのモデルまたは複数のモデルが解決策のための多くの異なる提案を生み出し、別のLLM、通常は最も知的または最も能力のあるモデルが審判としてそれらの応答を判断し、最良のものを選択します。
これらが環境から与えられる可能性のある報酬のタイプです。では、これらの研究者たちは、GPT-o1モデルがどのように報酬を与えているかについてどう考えているのでしょうか。
GPT-o1は複数タスクの推論を処理できることを考えると、その報酬モデルは複数の報酬設計方法を組み込んでいる可能性が高いです。数学やコードなどの複雑な推論タスクでは、応答は通常長い推論の連鎖を含むため、OMMよりもプロセス報酬モデルが使用される可能性が高く、即時のプロセスを監督します。これは理にかなっています。
GPT-o1は少数の例を使って微調整できることを考えると、幅広い領域をカバーする大規模で多様なデータセットで訓練された堅牢な報酬モデルを持っていると推測されます。
次の部分は非常に興味深く、AGIにどのようにして到達するかについての異なる意見を本当によく示しています。ここでは世界モデルについて話されていますが、世界モデルとは、本質的にあらゆるものを予測しシミュレートできるAIを意味します。
これは言語だけで実現できるのでしょうか？MetaのAI部門の責任者であるヤン・ルカン氏はそうは考えていません。他の多くの人もそうは考えていません。しかし、OpenAIを含む多くの人々は、言語だけで人工汎用知能と世界モデルに到達できると信じています。
言語だけでは世界モデルに到達できないとすれば、何ができるでしょうか？多くの人がビデオを考えています。ビデオジェネレーターは世界モデルであるという主張があります。なぜなら、ビデオジェネレーターは将来の時点での画像を予測できるからです。Soraのような例です。
著名なAI研究者のF.リーも、新しいスタートアップのWorld Labsで、世界モデルを作成するためにより多くのビデオ技術を使用しています。ここでルカンは2023年の論文で、世界モデルは次の状態を予測する必要はなく、代わりに次の状態の表現を予測する必要があると提案しています。これは画像を予測するよりも簡単で効率的です。
彼らはこの非常に短い段落で、この世界モデルがどのようなものになるかについて多くを語っています。
さて、4番目のステップである探索に移りましょう。これは思考モデルを作成する4つの要因の4番目です。探索とは実際には何を意味するのでしょうか？
これは、AIモデルが複数の結果を生成し、それらとそれらのさまざまな置換を探索して正解を見つける能力を意味します。LLMにとって、生成中にランダムサンプリングを行うことは、出力の品質を向上させる主流の方法となっています。探索を活用することで、小規模なモデルでさえ大規模なモデルを上回ることができます。これは本当に重要です。
この探索機能、つまり思考モデルの思考部分は、小規模なモデルでも大規模なモデルと同等の性能を発揮できることを可能にします。探索とは、報酬やヒューリスティックルールなどの特定の指針に基づいて、複数の試行または戦略的な探求を通じて正しい解決策を見つけるプロセスを指します。
論文によると、探索はGPT-o1の訓練と推論の両方のプロセスで重要な役割を果たしていると考えられています。このチャンネルをご覧になった方や、ここ数ヶ月でAIに触れた方なら、おそらくすでにそう思っていたでしょう。
これら2つの段階での探索を、訓練時探索（実際の推論の前のすべて）と、もちろんテスト時探索（推論、つまりプロンプト時に発生する探索）と呼びます。GPT-o1は、より多くの時間を考えることで推論中の計算を増やすと、モデルの性能を継続的に向上させることを示しています。
これが大きなブレークスルーでした。GPT-o1の思考方法は、より良い答えを見つけるために推論時の計算をより多く使用する一種の探索と見なすことができると私たちは主張します。
では、実際にどのように探索パスを決定するのでしょうか？多くの潜在的なオプション、多くの潜在的な解決策がありますが、どの方向に進むべきかをどのように知るのでしょうか？
まず、自己一貫性は、多数決または重み付き和を使用して、不確実性が最も低い答えを選択します。普遍的自己一貫性は、このアプローチを自由形式の応答に拡張し、タスク固有の制約なしに、大規模言語モデルが最も一貫性のある答えを選択できるようにします。基本的に、多くの異なる潜在的な解決策を生み出し、最も一貫性のあるものを見つけます。
次に自己評価があります。これはモデルの性能を向上させるために非常に重要です。自己評価は、モデルに自身の出力を評価させることを目的としています。これは自己反省、自己評価など、何と呼んでもいいですが、生成よりも評価の方が簡単であるという仮定に基づいています。これはジェネレーター・ディスクリミネーターギャップとして知られています。
もう一度言いますが、彼らによればこれは仮定ですが、私には当たり前のことのように思えます。最初の応答をそのまま受け取るよりも、モデルが自身の出力を評価してから修正しようとする方が、常により良い結果が得られているように思います。
ここでは、LLMを審判として使用することについて話されています。これは基本的に、LLMが多くの異なる潜在的な出力を作成し、別のLLMがその正確性や品質、何であれ判断が必要なものを判断するということです。
さて、異なる探索戦略について話しましょう。私は利用可能な異なる階層について言及しました。解決策レベル、ステップレベル、そしてトークンレベルがあります。これらは同じ3つの問題、同じ3つの出力ですが、異なる方法で分解されています。
解決策レベルはその名の通りで、総合的な解決策を探索します。一方、ステップレベルは解決策に至る各ステップを探索します。ここで「ステップ1から3」とあるのが完全な答えで、ここでは実際に「最良のステップ1は何か、最良のステップ2は何か、最良のステップ3は何か」を探索しています。
最後に、さらに細かくトークンレベルまで分解することができます。ステップではなく、ステップを構成する各トークンに対して本質的に投票したり判断したりすることができます。
彼らは、ツリー探索と逐次修正という異なる探索戦略について続けて説明しています。このセクションにはあまり深入りしませんが、高レベルの説明をしましょう。
ツリー探索は複数の答えを同時に生成し、より広範な解決策を探索するグローバル探索として機能します。これが基本的に私たちがここで見ているものです。一方、逐次修正は前回の試行に基づいて各試行を改良し、より高い効率を提供する可能性のあるローカル探索として機能します。これは品質と効率のトレードオフです。
ツリー探索アルゴリズムのいくつかの例を紹介しましょう。まず、最良のnサンプリングは、モデルから複数の候補解を生成し、報酬モデルを通じて最良の解決策を選択し、残りは破棄します。なお、これらはすべて、非常に優れたプロンプトエンジニアリングまたはその周りに決定論的なコードを置くことで実現できます。基本的に、エージェントを構成するものの多くです。
次はビーム探索です。部分シーケンス確率に基づいて枝を拡張および刈り込む従来のツリー探索アルゴリズムで、通常はトークンレベルで行われます。
次にMCTS（モンテカルロ・ツリー探索）があります。これは、大規模な探索空間で最適な決定を行うために使用される先読み探索アルゴリズムで、期待される報酬に基づいてアクションを選択できます。多くの人がQARはモンテカルロ・ツリー探索に基づいていると考えていますが、おそらく実際にはこれらのすべての異なるものの組み合わせでしょう。
MCTSが非常に強力な理由は次の通りです。シミュレーションが増えるにつれて探索ツリーが成長し、値がより正確になり、より高い値を持つ子ノードを優先することでアクション選択ポリシーが改善されます。基本的に、スケールを大きくするほど結果が良くなり、それは常に良いことです。
逐次修正については、主に前回の答えを反復的に改良することで探索を行います。重要な特徴は、前回の答えに対する反省や環境の変化に基づいて改善された答えを生成することです。解決策を生み出し、その解決策について考え、解決策を改善し、それを繰り返します。
さて、ここで面白い部分に入ります。GPT-o1での探索がどのように行われているかについての研究者たちの推測です。
訓練時探索について。訓練中、GPT-o1はBOやツリー探索アルゴリズムなどのツリー探索技術を使用する可能性が高く、主に外部のガイダンスに依存します。
テスト時探索について。テスト時探索では、GPT-o1は反省を通じて探索を継続的に改良し修正するために、内部のガイダンスを組み合わせた逐次修正を使用する可能性が高いです。これは、これらのモデルの思考の連鎖を見るときに目にするものです。
最後に、これまで話してきたすべてのことから、モデルに学習能力を与えるにはどうすればよいのでしょうか。強化学習を不可欠にしているのは、強化学習のトレーニングデータが無限であることです。これは環境との相互作用から得られます。
これが重要です。人間を方程式から除外すると、スケールアップできますが、RHF（人間のフィードバックを通じた強化学習）がある場合、それはボトルネックとなります。人間の専門家のデータは限られており、高価です。
強化学習は、人間の専門家のデータではなく、試行錯誤から学習するため、超人的な性能を達成する可能性があります。彼らはAlphaGoを素晴らしい例として挙げています。
AlphaGoは人間のデータで訓練されたわけではありません。基本的に碁のルールを与えられ、多くの回数（本当に多くの回数）プレイすることを許可され、そのたびにゲームの最適な戦略を理解し、他のものを破棄することを学習しました。
これが可能にするのは、ここに書かれているように超人的な性能です。これは、AlphaGoが世界最高の人間の碁プレイヤーと対戦した際の有名な第37手で見られました。
37手目で、誰もがAIが間違いを犯したと思いました。人間のプレイヤーでそのような手を見たことがある人はいませんでした。しかし、後のゲームでそれが決定的な勝利の手となりました。
本質的に、AIは碁の新しい戦略を発見したのです。これが超人的な性能の意味です。人間のフィードバックを必要とせずに、モデルに可能な手の宇宙を自由に探索させることで、人間が今まで考えもしなかった手を見つけることができます。私はこれを絶対に魅力的だと思います。
この論文の集大成は、オープンソースの思考モデルをどのように作るか、オープンソースのGPT-o1やGPT-o3をどのように作るかということです。
学術コミュニティは、GPT-o1のいくつかのオープンソース実装を利用可能にしています。明らかにまだそれほど優れてはいませんが、これらの技術が利用可能で、これらのオープンソースプロジェクトがあるという事実は、私たちがそれほど遅れていないことを意味します。
DeepSeek-R1、QWQ、G1-Thinking、CL-Open-o1、o1-Journeyなど、今すぐ試すことができるものがいくつかあります。
さて、GPT-o1とGPT-o3がどのように機能するかを高い確信度で知った今、私たちはどこに向かうのでしょうか？研究者たちはいくつかの将来の方向性を強調しています。
1つ目は、GPT-o1を一般的なドメインにどのように適応させるかということです。数学や科学のように非常に明確な答えがある場合は簡単ですが、答えを知らないときはどうすればよいのでしょうか？私たちがまだ答えを知らない問題をこれらのモデルにどのように考えさせればよいのでしょうか？
次に、GPT-o1にどのようにマルチモダリティを導入するかということです。これは私がOpenAIが取り組んでいることを知っています。なぜなら、彼らはすでにそれについて話しているからです。
最後に、世界モデルの中でどのように学習し探索するかということです。これにより、この信じられないほどの知性を現実の世界、物理的な世界に適用することができるようになります。
以上です。私はこの論文を読むのが本当に素晴らしく、とても興味深かったです。皆さんも楽しんでいただけたと思います。この動画が気に入っていただけたら、いいねとチャンネル登録をご検討ください。次の動画でお会いしましょう。