OpenAI o1の秘密が明らかに: OpenAI o1の推論能力をゼロから再現する方法

2,859 文字

OpenAI o1 Secreto Descubierto: Cómo Recrear las Habilidades de Razonamiento de OpenAI o1 Desde Cero

Aprende conmigo AI: ¿Te has preguntado cómo replicar las impresionantes habilidades de razonamiento del modelo o1 de Ope...

今日は非常に興味深い論文を見ていきます。基本的にOpenAI o1モデルの振る舞いをどのように再現できるかを研究したものです。ご存知の通り、これらのモデルは考え始め、決定を下すようになってきています。復旦大学と上海研究所がこの論文を発表し、強化学習の観点からo1モデルを再現するためのロードマップとスケーリングについて説明しています。
すでにご存知かもしれませんが、短期間のうちにo1と同様の振る舞いをするモデルを持つ企業が多く現れており、この論文がそれを説明してくれています。
要するに、全ては報酬設計に基づいており、より良く機能するようになっています。後ほど具体例を見ていきますが、基本的にこの論文はOpenAI o1モデルの推論能力をゼロから再現するための段階的な計画を説明しています。この論文は、方針の初期化、報酬設計、探索、学習コンポーネントに焦点を当てた強化学習を使用してo1モデルを再現するためのロードマップを提示しています。
基本的な問題は、知識蒸留による現在の能力複製の試みが、元のマスターモデルの能力によって制限されていたということです。このようなアプローチが必要だったのです。これについてはRan Paulのツイートがうまく説明していて、リンクを共有しておきますが、まずはアブストラクトを見ていきましょう。
基本的に、OpenAI o1モデルはAIの重要なマイルストーンを表し、強力な推論能力を必要とする多くの困難なタスクで専門家レベルの性能を達成しました。OpenAIは、o1モデルの背後にある主要な技術は強化学習であると述べています。そのため、最近の研究ではこれらのモデルの推論スタイルを避けるために知識蒸留などの代替アプローチを使用していますが、その効果はマスターモデルの能力の上限によって制限されていました。
つまり、モデルは到達可能な限界まで到達し、数兆のパラメータしかないモデルを選んだ場合、o1ほど良い性能は得られませんでした。したがって、この論文では強化学習の観点からo1に到達するためのロードマップを分析し、4つの重要な方針に焦点を当てています：方針の初期化、報酬設計、探索、学習です。
方針の初期化により、モデルは人間のような推論行動を発展させ、複雑な問題の解決空間を効果的に探索する能力を与えられます。報酬設計はモデリングと報酬構成を通じて密な効果的な信号を提供し、探索と学習の両方を導きます。三つ目の探索は、高品質な解決策の生成に重要な役割を果たします。最後に、学習は探索によって生成されたデータを使用して方針を改善し、より良い性能を達成することができます。
見ての通り、これは自己フィードバックの循環であり、それによってより良いモデルが得られます。最後に述べられているように、o1を再現しようとする既存のオープンソースプロジェクトは、このロードマップの一部または変形として考えることができ、これらのコンポーネントが集合的にo1による探索駆動型学習に大きく貢献していることを強調しています。
ここでは、o1を達成するためのロードマップが方針、報酬、探索、学習においてどのように機能するかを視覚的に示しています。それぞれがどのように進んでいくかを見ていきましょう。
論文の中で特に興味深い部分があります。報酬設計のシステムについてです。説明されているように、強化学習では、エージェントは環境から報酬信号の形でフィードバックを受け取り、長期的な報酬を最大化するように方針を改善していきます。これがフィードバックシステムです。このセクションでは現在の報酬設計手法の概要を提供し、結果に基づく報酬とプロセスに基づく報酬を比較しています。
これは基本的に、操作全体に対する報酬と各ステップに対する報酬です。例えば、「3本の鉛筆と1つの消しゴムが1.24ドル、5本の鉛筆と1つの消しゴムが1.82ドル（税抜、セント単位）の場合、1本の鉛筆の価格はいくらか」という数学の問題があります。
全てのプロセスを評価する際、各操作を行うと、鉛筆の価格をpセント、消しゴムの価格をeセントとして、問題から2つの方程式が得られます：3p + e = 124、5p + e = 182です。
この方程式系を解くために、最初の方程式から2番目の方程式を引いてeを消去すると、この部分が得られ、ここまでは正しいのですが、ここから誤りが始まります。p = 58/2 = 27という解き方は間違っており、鉛筆の価格が29セントという結論も間違っています。
図5を見ると、結果に基づく報酬とプロセスに基づく報酬の2つのタイプが示されています。左側の結果に基づく報酬では、p = 58/2 = 27という誤りのある最後から2行目のために全ての解答が不正解となります。モデルはここで失敗し、これらの各行は1行ずつ示すこともできましたが、ここまでは全て正しく、この部分で失敗したために全てのプロセスが不正確になります。
一方、プロセスに基づく報酬では、最初の部分は正しく、2番目の部分も正しく、3番目の部分も正しいのですが、4番目の部分から不正確になり始め、そこから先は全て不正確になります。一度失敗すると、全てが間違ってしまうからです。このデータに567などの値があった場合、正しい部分が含まれる可能性もありますが、すでに失敗しているため、またはこの部分自体が不正確な形式化を行っているため、全て間違っています。
これらすべてを考慮する必要があります。Ron Paulが指摘した主要な洞察を見ていきましょう。基本的な重要なアイデアは以下の通りです：

効果的な探索のために、指示によるトレーニングと微調整による方針の初期化が重要
報酬モデルによって達成される密な報酬信号が、探索と学習の両方の効率を向上
ツリー探索とシーケンシャルレビューの組み合わせがより良い解決策を生成
トレーニングと推論における計算をスケールアップすることで一貫性が向上

簡単にまとめると、結果は以下のようになります：
モデルは複雑な推論タスクで専門家レベルの性能を達成し、トレーニングと推論時の計算量の増加に伴って性能が一貫して向上します。これは非常に重要な点です。つまり、トレーニング時だけでなく、トークンを生成する際の推論時にも計算量を増やす必要があり、このようなフレームワークを使用しないモデルと比べて、常により高いコストがかかることを意味します。
このフレームワークは、o1モデルの人間のような振る舞いを成功的に再現しています。予想通り、論文へのリンクを共有しておきますが、LLMsの新しい進展が発表されるたびに数か月で複製され、振る舞いを再現することができます。そのため、数か月で同様のモデルが登場し、ベースモデルが優れているほど、このタイプのトレーニングを行った際の結果も良くなります。
いつも通り、この動画が気に入っていただけたら、いいねを押してください。また会いましょう。