OpenAI O1モデルはおそらくgpt-4oとターボにチェーン・オブ・ソートを学習させた

11,919 文字

OpenAI O1 models probably trained gpt-4o and turbo in chain of thought

did openai train gpt-4o with strawberry using reinforcement learning on Chain of Thought.? openai's new orion o1-preview...

はい、おかえりやす。OpenAIの新しいO1モデルについての動画をしばらく作ろうと思とったんですけど、実際コミュニティを見てみると、多くの人がこのモデルに文句言うてはるんですわ。
ほな、ただチェーン・オブ・ソートを推論時にやってるだけやないかって。GPT-4Oモデルがすでにそれやってるんやから、なんの意味があるんやって。
でもね、皆さんが気づいてはらへんのは、O1モデルやその前のストロベリーバージョンが、実はGPT-4Oモデルを最初に訓練したんやということなんです。
つまり、GPT-4Oモデルがええチェーン・オブ・ソートを持ってるのは、ストロベリーモデルが最初にGPT-4Oモデルにええチェーン・オブ・ソートを教えたからなんです。今日は、それがどういうことかを詳しく説明したいと思います。
まず、O1モデル自体を見る前に、GPT-4Oから始めましょか。簡単な質問をしてみます。
「80日間世界一周」を読んだことあるんやったら、フィリアス・フォッグが世界中を旅してたのを知ってるはずです。ほんなら、こんな質問をしてみましょ。
「フィリアス・フォッグがハリー・ポッターシリーズ全巻をオーディオブックで持ってたとしたら、ブリンディシに着いた時にどの巻を聴いてるやろか」
これは本の中で最初に立ち寄った場所の一つやね。ほんで、「フィリアスは睡眠も必要やで」って付け加えて、「考えたり、ステップを出力したりせんと、答えだけをくれ」って指定しとります。
つまり、考える時間は要らんし、推論にトークンを消費してほしくないんです。できるだけ早く答えを出力してほしいだけなんです。
この質問を実行すると、「ハリー・ポッターとアズカバンの囚人」になる可能性が高いって返ってきます。実際、この質問を何回か聞いてみると、別のウィンドウを開いて、今度は「炎のゴブレット」って言うてきます。ちょっと一貫性がないですね。
もう一回聞いてみると、「炎のゴブレット」。もう一回聞いてみましょ。今度は「ハリー・ポッターと秘密の部屋」やって。答えを考える時間を取ってへんから、確率的にすごく早く出てくるんです。
これはGPT-4Oだけの特徴やないんです。例えば、同じ質問をクロードにしてみると、「ハリー・ポッターと秘密の部屋」って返ってきます。
もう一回GPT-4に戻って、今度はGPT-4Oミニモデルに聞いてみると、似たような答えが返ってきます。この場合は「不死鳥の騎士団」です。
問題を考える時間を取ってへんから、答えにちょっと一貫性がないんです。
人間やったら、この問題を考えて、ステップバイステップで分解していくと、ロンドンからブリンディシまでの距離はどれくらいか、列車の旅はどれくらいかかったか、ハリー・ポッターシリーズは何巻あるか、オーディオブックの長さはどれくらいかなんかを考えて、それから計算していくはずです。
もう一回GPT-4Oに戻って、同じ質問をしますけど、今度は「考えんと、ステップを出力せんと、答えだけをくれ」って言わずに、そのまま質問してみます。
すると、自動的にステップバイステップで分解し始めるんです。「ステップバイステップで分解しましょう」って言うてへんのに、自分で分解する必要があると判断したんです。
ロンドンを出発して、約6日かかってブリンディシに10月7日に到着するって書いてあります。それから、ハリー・ポッターのオーディオブックシリーズの長さを全部分解して、睡眠時間も考慮に入れてます。1日6〜7時間寝て、約16時間聴くって計算してます。
最終的に、「ハリー・ポッターと謎のプリンス」の15章か16章あたりやろうって結論に達しました。かなりええ答えやと思います。これが我々の期待する答えですね。
クロードに戻って、新しいチャットを始めて、今度は「考えんといて」って部分を消して、同じ質問をしてみます。
クロードも同じようにステップバイステップで分解してるのがわかります。これがある種のチェーン・オブ・ソート推論ですね。
この特定の質問では、「ステップバイステップで分解して」って言う必要はありません。自動的にそうしてくれてます。
ここでもクロードは「ハリー・ポッターと謎のプリンス」って答えてきました。クロードの計算が少し違うからですね。
ほんじゃ、同じ質問をO1モデルにしたらどうなるか見てみましょ。O1プレビューモデルを選びます。
「考えんと、ステップを出力せんと」って部分は残してもええんですけど、あんまり関係ないです。それでも考えてくれます。
見てください、計算して、推論を追跡して、ロジスティクスを計算して、ポッドキャストの時間を計算してます。これらの計算を全部やってて、後でもう少し詳しく見ていきます。
これ全部が推論時に起こってて、その計算は見えへんのですけど、最終的に「不死鳥の騎士団」、つまりシリーズの5巻目まで進むって結論に達しました。
ここでチェーン・オブ・ソート推論の種類を見てみましょ。OpenAIは生のチェーン・オブ・ソートは公開してへんって公言してます。おそらく、他の人が自分らのチェーン・オブ・ソートでモデルを訓練するのを避けたいからでしょう。
「こんなふうに考えてます」って書いてあって、「本を特定します」って言うてますけど、さっきのチェーン・オブ・ソート計算と同じような計算をしてるのがわかります。
最終的に「不死鳥の騎士団」にたどり着くんですけど、ここで重要なのは、この計算をしてるってことです。
「フィリアス・フォッグがブリンディシに着く頃には、ハリー・ポッターと不死鳥の騎士団を聴いてるやろう」って答えは出てきてますけど、その思考プロセスを経てるんです。そのプロセスは見えへんけど。
つまり、これらのトークンを推論時に使ってるんです。これが実際に起こってることなんです。
でも、これをもっと詳しく見ていくために、ゲームに注目してみましょ。論理パズルやゲームを見ると、このチェーン・オブ・ソートの段階で何が起こってるか、そして他のモデルとどれだけ違うかがもっとはっきりわかります。
GPT-4が今日どんなふうにゲームをするか見せたいと思います。
簡単な三目並べの環境を用意しました。これは単純なPythonプログラムで、GitHubで公開してます。ダウンロードして自分で遊んでみてください。
ここで見えるのは、古典的なヒューリスティックエージェントを実行してます。つまり、標準的なルールベースのエージェントです。
これをGPT-4Oと対戦させてみます。ちょっと実行してみましょ。ここがゲームです。今、Xがこの言語モデルです。
見てのとおり、ヒューリスティックエージェントに負けてしまいました。実際、ここを見ると、かなり一貫して引き分けになるか、ヒューリスティックエージェントが勝ち続けるかのどっちかです。
GPT-4Oは三目並べで負け続けてるんです。これ、すごく単純なゲームですよね。馬鹿みたいに単純なゲームなんです。
でも、GPT-4Oはそのスピードでは対処できへんのです。チェーン・オブ・ソートの思考や推論をする時間がなかったからです。ただ答えを素早く返すように言われただけやからです。
それを証明するために、このゲームの出力の一つを取って、GPT-4Oに貼り付けてみます。「Xの次の手は何や」って聞いてみましょ。
ちょっと見てみましょ。ゲーム盤が見えますね。ゲーム盤は1、2、3、4、5、6、7、8、9です。
理想的な位置は4番目の位置です。なぜなら、4番目の位置に置かへんかったら、Oがそこに置いて負けてしまうからです。
ゲームの説明を見ると、3×3のグリッドでプレイすること、プレイヤーXが常に先攻すること、3つのマークを一列に並べたプレイヤーが勝つこと、9つのマスが全て埋まったら引き分けになることなどが書いてあります。
これをGPT-4Oに渡して、もしうまくプレイできるなら、4番目の位置を選ぶはずです。どうなるか見てみましょ。
「プレイヤーXは9番目の位置にマークを置いて勝つべきです」って言うてきました。ちょっと見てみましょ。9番目の位置にXを置いたら負けてしまいます。かなり馬鹿げた手ですね。
もしかしたら、クロードならもっとうまくできるんちゃうかって思うかもしれませんね。同じ質問をしてみましょ。
見てください、クロードも同じように馬鹿げた答えを返してきました。同じく9番目の位置、右下の角って言うてます。その理由付けも完全に間違ってます。
でも、新しいチャットを始めて、今度は「ステップバイステップで考えてください」って言ってみましょ。チェーン・オブ・ソート推論を呼び出すわけです。
今回、クロードは6番目の位置って答えてきました。これはちょっとマシな答えやと思います。ここに置いて、ここと
ここでダブルムーブを作ろうとしてるからです。でも、勝てる手があることには気づいてへんようです。
GPT-4Oではどうなるか見てみましょ。同じ質問をして、「ステップバイステップで考えてください」って言います。
これもちょっとマシですね。GPT-4Oの推論を見てみると、少なくとも問題を解いていってるのがわかります。
ボード分析をしてて、現在のボードはこうで、利用可能な位置は2、4、6、8、9やって。理想的には4番目の位置ですね。
勝つチャンスがないか確認してます。ここにXを置いたら勝てるって気づいてます。でも、ステップバイステップの推論では、負ける可能性のある位置をチェックする必要があることに気づいてへんようです。
もうちょっと詳しく指示できるかもしれません。「勝つ手と防御の手を分析してから答えてください」って言ってみましょ。
今度はどうでしょう。現在のボードを見て、利用可能な位置をステップバイステップで分析してます。勝つ手をチェックして、防御の手もチェックしてます。
4番目の位置をブロックして、最終的に「プレイヤーXは4番目の位置にマークを置いて勝つべきです」って結論に達しました。
チェーン・オブ・ソートのプロンプトを使うことで正しい答えが得られましたが、戦略を与える必要がありました。プランを与えて、プレイヤーXの勝つ手をチェックして、ブロックする手をチェックするように言う必要がありました。
ここで言いたいのは、GPT-4に戻って同じ質問をして、「ステップバイステップで分析して、勝つ手と防御の手を見てください」って言うと、どうなるかです。
これを見てください。これが元のGPT-4と新しいGPT-4の大きな違いです。ステップバイステップの分析を見てください。
個々の数字をリストアップしてへんのです。ボードは表示してますけど、各手のチェックをリストアップしてへんのです。
こっちを見ると、現在のボードの状態、利用可能な位置が書いてあって、「プレイヤーXは5番目と6番目の位置にマークがあります」って、各位置を一つずつ確認してるんです。
一方、元のGPT-4ではそうなってへんのですけど、新しいGPT-4Oではそうなってて、それで最終的な位置にたどり着いてるんです。
ほんじゃ、もう一回実行してみましょ。今度はO1プレビューを使います。同じことをしますけど、今回はブロックする手とかそういうのは言わずに、自分で分析させてみます。
ほら、どうなってるか見てください。「考えています」って出て、盤面を評価して、勝つ手を特定して、戦略的な手を評価してます。
そして「最善の手は4番目の位置にXを置いて、Oが勝つ可能性をブロックすることです」って結論に達しました。これが我々の求めてた正しい手ですね。ブロックする手です。
でも、この思考プロセスを見てみましょ。15秒かかってます。三目並べのゲーム状態を見て、ステップバイステップで考えてます。
盤面のダイナミクスを評価して、盤面を視覚的にマッピングして、位置を特定して、Xの潜在的な勝つ手やブロックする手を特定してます。Xは3番目と5番目の位置にマークがあるって。
空いてるスペースを調べて、勝つ道筋を評価して、勝つ手を特定して、戦略的な手を評価してます。XとOの脅威を調べて、次の手で勝てるかどうか見てます。
Xの現在の位置では勝てへんけど、Oの2つのマークは勝つ可能性を示唆してるって。だからXは…って結論に達したんです。
ここで何が起こってるか見てください。確かにチェーン・オブ・ソートをしてますけど、実際にはラインを計算して、各項目を一つずつ確認してるんです。
正しいプロンプトを特定できるかどうかが重要ですけど、それでも重要なのは、ステップバイステップで考えて、様々な位置をリストアップして、分析してるってことです。
でも、O1プレビューではこういうことを言う必要がないんです。自動的にボードを評価して、勝つ道筋を評価して、勝つ手を特定してくれます。
でも、ちょっと考えてみてください。O1プレビューがこんなに優秀なのは、GPT-4Oが高いレベルのチェーン・オブ・ソートプロンプトを持ってる必要があったからなんです。
そして、それを訓練する必要があったんです。O1プレビューで見えてる大きな特徴は、推論時にチェーン・オブ・ソート推論をしてるってことです。
GPT-4より深く考えてますけど、GPT-4Oに正しいプロンプトを与えたら、正解にたどり着けました。
つまり、O1プレビューがこんなに優秀なのは、実際にはGPT-4Oモデルを訓練して、正しいGPT-4Oのチェーン・オブ・ソート出力を生成するように微調整する必要があったんです。
これが主な革新点やと思います。去年の11月頃にストロベリーモデルの話をしてましたけど、主に起こったことの一つは、ストロベリーモデルがGPT-4モデルを訓練して、GPT-4Oになったってことやと思います。
その訓練の一部が、より良いチェーン・オブ・ソート出力を持つようになったことです。推論テストチームを満足させるためです。
モデルから最初にええレベルの出力が出てこなかったら、推論時に一貫したチェーン・オブ・ソート出力は得られへんからです。
もっと現実的な例を挙げたいと思います。今度は数独をやってみましょ。O1プレビューを使って、「これは有効な数独のグリッドですか？」って聞いてみます。
よく見ると、これは有効なグリッドやないってわかります。1列目、2列目、3列目を見てください。3という数字がありますね。でも4列目を見ると、同じ縦列に別の3があります。
これは絶対に有効なグリッドやありません。O1プレビューに聞いてみましょ。
しばらく考えてます。グリッドを検証して、進捗を監視して、グリッドの整合性を確認してます。たくさんのチェーン・オブ・ソート思考をしてます。
ほら、「いいえ、この数独グリッドは有効ではありません。5列目にエラーがあります」って答えが出ました。
「この列の3行目と4行目に3が2回出現してるので、ルールに違反してます」って。ピッタリ正解です。
でも、GPT-4Oに聞いてみたらどうなるでしょう。これはわざと難しくした縦列のグリッドです。GPT-4Oはどうかな。
ほら、GPT-4Oは間違えました。「この数独グリッドは有効です。これらの条件を満たしてるから」って言うてますけど、ステップを確認してへんのです。
もう一回やってみましょ。「ステップバイステップで考えてください。行、列、3×3のサブグリッドをチェックしてください」って言います。
どうなるか見てみましょ。今、ステップバイステップで考えるように言ったら、どうなったか見てください。
各行をチェックしてます。重複はありません。重複なし。行のチェックが終わりました。今度は列をチェックします。
各列を一つずつリストアップしてます。ほら、5列目で「1、5、3、3」って。「重複が見つかりました。この列に3が2回出現してます」って。
最後にサブグリッドも全部チェックしてます。チェーン・オブ・ソート推論をしてますけど、正しいプロンプトを与える必要がありました。
ただ単に聞いただけでは、自分でステップバイステップで確認するようにはならへんかったんです。でも、ステップバイステップで考えて、行、列をチェックしてくださいって言うプランを与えたら、GPT-4Oは正解にたどり着けました。
ちなみに、クロードに戻って同じことをしてみましょ。新しいチャットを始めて、同じ質問をします。ステップバイステップは言わずに聞いてみます。
見てください、クロードも同じ答えを返してきました。問題を解いてへんから、有効やと思ってるんです。
クロードに同じことをして、「ステップバイステップで考えて、行、列、サブグリッドをチェックしてください」って言ってみましょ。
クロードも似たようなことをしてます。各項目を一つずつリストアップしてます。
でも、クロードに正しいプロンプトを与えたのに、GPT-4Oと同じプロンプトを与えたのに、ここで失敗してるんです。
正しいステップを得られてへんのです。一方、こっちのステップを見ると、一つずつリストアップしてすごくええ仕事してるのがわかります。
覚えておいてください。最初からこういう自己完結的なループで訓練されてるんです。正しい答えが出るようにモデルのチェーン・オブ・ソートをどんどん良くしていってるんです。
標準的なモデル、例えばラマみたいなのを見てみましょ。ラマを実行して、ラマ3を開いて、70bモデルを開きます。ちょっと大きめのモデルが欲しいんです。
同じ質問をしてみます。同じレベルのチェーン・オブ・ソート推論をしてへんのがわかると思います。
ステップバイステップで考えてくれてます。1行目…ほら、ラマ3を見てみると、ステップバイステップの推論をしてますけど、「重複なし」って言うてるだけで、完全に間違えてるのがわかります。
「いくつかチェックしてみます」って言うてますけど、いくつかをチェックするだけじゃなくて、全部のグリッドをチェックする必要があるんです。
1列目、2列目、3列目はチェックしてますけど、4列目、5列目、6列目はどうなんでしょう。全部チェックしてへんのです。
だから、チェーン・オブ・ソート推論がおかしくなってるんです。推論時にこれをやろうとしても、そもそもラマのチェーン・オブ・ソート推論が正しくないってことがわかります。
クロードでも同じことが起こってましたね。一方、GPT-4Oミニでも「行をチェック、1行目、2行目、3行目、4行目、列をチェック、1列目、2列目、3列目、有効、有効、有効」ってなってます。
モデルが最初からチェーン・オブ・ソート推論のために訓練されてるんです。これが私の言いたかった重要なポイントです。
GPT-4の初期バージョン、初期モデルはそういう訓練を受けてへんかったんです。本当に証明したいなら、元のGPT-4に戻って、「これは有効な数独のグリッドですか？ステップバイステップで考えてください」って聞いてみましょ。
実行してみると…ほら、「有効な数独のグリッドは…」って言うてますけど、「行は有効です。マスをチェックしました。重複はありません」って。
違いがわかりますか？有効なグリッドやと思ってますけど、ステップバイステップで考えてくださいって言ったのに、「1列目はこう、2列目はこう、3列目はこう」ってリストアップしてへんのです。
元のGPT-4ではそうなってへんかったけど、GPT-4ターボとGPT-4Oではそうなってたんです。
GPT-4Oの方がGPT-4ターボよりちょっと優秀やったと思います。
もう一回やってみましょ。チャットをクリアして、今度はGPT-4ターボに設定します。同じことをしてみましょ。
違いがわかりますか？「全て固有です、全て固有です、全て固有です」って。
GPT-4O、GPT-4ターボ、元のレガシーGPT-4の違いがはっきりわかります。一行ずつ出力してるんです。
ラマ3でもこれは正しくできてへんかったんです。
元の話に戻りますけど、O1について言いたかったのは、単に推論時にチェーン・オブ・ソートが起こってるってだけやないんです。もちろんそれもそうなんですけど。
重要なのは、GPT-4OモデルとGPT-4ターボが、正しいチェーン・オブ・ソート推論を出力するように訓練されてるってことなんです。
これはずっと前から起こってたことです。元のGPT-4を見ると、同じ方法で出力してへんかったんです。
「1列目はこう、2列目はこう、3列目はこう」っていうええステップバイステップの推論がなかったんです。
ラマモデルも同じです。ええステップバイステップの推論がないんです。
だから、オライオンモデルで本当に起こってることは、はい、推論時にチェーン・オブ・ソートを生成してますけど、それだけやないんです。
私が以前の動画で見せたようなスタープロセスに似たものを選択して、それからモデルに微調整し直してるんです。
これは集団的な善循環なんです。推論が起こって、それからモデルに訓練し直されて、良いチェーン・オブ・ソートを生成するようになるんです。
だから、「これただのチェーン・オブ・ソートやん。本当に特別なことが起こってるんか？」って言うてる人がいますけど、覚えておいてください。
あなたが見てるのは、デフォルトで良いチェーン・オブ・ソートを出力するように訓練されたモデルの出力なんです。
モデルから良いチェーン・オブ・ソートが出力されへんかったら、推論時でも正しいものを生成できへんし、推論時の計算で正しい答えを出すのも難しくなります。
これが本当に起こってるトリックなんです。この善循環です。
結論として、O1プレビューで起こってることをまとめると、これはすごいモデルです。彼らがやってることが大好きです。
でも、ゲームが正確に何が起こってるかを示してるんです。
ええチェーン・オブ・ソートを生成してて、それが推論時、あるいは彼らの言葉で言うテスト時に起こってます。
そして、モデルは何らかのツリーを使って作業してます。おそらくモンテカルロツリー探索みたいなものを使って、異なる答えを全部チェックして、複数のチェーン・オブ・ソートを実行して、最終的に正しい答えにたどり着いてるんです。
だから、もう「ステップバイステップで」とか言う必要がないんです。
でも、モデルが最初に出力するチェーン・オブ・ソート推論以上のものなんです。はい、モデルが正しいチェーン・オブ・ソート推論を出力する必要があって、それを訓練されてるんですけど、それだけやないんです。
推論時に、モデルはそれを検証できて、必要なら何回も実行できるんです。だから、できる限り良い答えを返せるんです。
でも、モデルが最初から正しいデータで訓練されてへんかったら、明らかに数独とか三目並べみたいなもので訓練されてへんかったら、正しい答えを返せへんのです。
だから、これを見て「ただのチェーン・オブ・ソートやん」って言うてる人がいますけど、覚えておいてください。あなたが見てるのは、去年から元のストロベリーモデルによって訓練されて、最初から正しいチェーン・オブ・ソートを持つように訓練されたモデルなんです。
例えば、ラマモデルみたいなのを見ると、正しい答えを返してへんし、GPT-4も正しい答えを返してへん。そのループを経験してへんからです。
結局のところ、すごくええモデルですね。その技術が大好きです。推論時に全部やってることも素晴らしいし、強化学習の使い方も素晴らしいです。
すごく大きな違いを生み出してるのがわかります。
でも、全てが完璧ってわけやありません。もう一回メインのGPT-4に戻って、どこで間違えるかを見せたいと思います。
もう一回O1プレビューを開いて、今度は答えが質問に隠れてる質問をしてみます。
「これは寝る前に食べるべきチーズではありません。合ってますか？」
これは本当にトークン化の問題です。以前、「イチゴ（Strawberry）にはRが何個ありますか？」みたいな質問に対応できるようになったって言うてましたけど、これも似たような論理パズルです。
答えは質問に隠れてます。「これは寝る前に食べるべきチーズではありません。合ってますか？」の中に「エダム」っていう単語があるんです。
この質問をO1プレビューにしてみましょ。考え始めて、理解を明確にして、文を調べて、手掛かりを組み合わせて、解釈しようとして、答えを見つけようとしてます。
言葉遊びを試みてますけど、ほら、答えは「ナチュラルチーズ」やって。これを学んでへんのです。完璧やないんです。
おそらく、そのスタイルの質問で訓練されてへんからやと思います。
似たような質問をしてみましょ。新しいウィンドウを開いて、今度は「elephant in the room」っていうゲームをしましょ。
これは「House of Games」っていうテレビ番組から見たんですけど、「elephant in the room」は私が選ぶ単語です。
どんな質問をしても、その単語を答えに言うてはいけません。大きな単語の一部分やったとしてもダメです。
例えば、「elephant in the room」が「Dawn」やとして、「どのレストランチェーンが黄金のアーチをロゴにしてますか？」って聞いたら、答えは「McOut」になります。
「McDonald’s」から「dawn」の部分を取り除いて、「Mc」と「ald’s」になるわけです。
ほんじゃ、「elephant in the room」を「star」にして、「ロバート・ダウニー・ジュニアはアイアンマンで誰を演じましたか？」って聞いてみましょ。
答えは「Tony K」になるはずです。
考え始めてます。ゲームに参加して、探索して、特定の単語を避ける方法を考えてます。
ほら、「彼はTony S.K.を演じました」って答えが返ってきました。近いですね。「star」を言うべきやないってことはわかったんですけど、「S」を入れてしまいました。
まあまあの試みですけど、十分やありません。もうちょっとプロンプトを追加して、もう一回チェックしてみましょ。
もう一回挑戦してます。「彼はTonyを演じました」って。また挑戦してくれましたけど、やっぱり間違えてます。
なぜこれが正解にならへんのか。簡単に言うと、このケースではチェーン・オブ・ソート推論が良くないんです。
このゲームをプレイするように訓練されてへんからです。だから、イチゴを数えるのはうまくできるんですけど、「House of Games」の「elephant in the room」ゲームをプレイするようには訓練されてへんのです。
単語パズルゲームもプレイするように訓練されてへんけど、かなり頑張って挑戦してくれました。プランを考えて、理由を考えて、答えをチェックして、全部やりました。
でも、これらの論理パズルゲームでうまくやるためには、訓練を受けて、強化学習を通じて報酬を得て、正しいチェーン・オブ・ソートを生成する必要があるんです。
多分、もう何回か、モデルの新しいバージョンが出たら、正解にたどり着けるようになるかもしれません。でも今はまだです。
この動画の元のポイントに戻りましょ。O1モデルが大好きです。すごいと思います。
テスト時の推論も素晴らしいし、答えをチェックしてるのも素晴らしいです。常にチェーン・オブ・ソートを生成して、検証して、複数のチェーン・オブ・ソートを生成して、検証して、ツリーを歩いて…全部素晴らしいです。
でも、最初に言ったように、ベースモデルが最初から良いチェーン・オブ・ソートを生成するように訓練されてへんかったら、起こってることを再現できへんのです。
ラマ3でこれを試してもいいし、ミストラルモデルで試してもいいし、元のGPT-4で試してもいいし、クロードモデルでも試せます。
でも、正しいチェーン・オブ・ソートを生成してへんかったら、最初から正解を得られへんのです。
これがオライオンモデルで起こってるトリックなんです。本当のトリックは、GPT-4ターボとGPT-4O以降、OpenAIが去年から、正しいチェーン・オブ・ソートを生成するようにこれらのモデルを訓練してきたってことなんです。
そして、それを正しいベースモデルに組み込んで、そのイテレーティブなループを通じてきたんです。
今、推論時にそれをやると、正しいチェーン・オブ・ソートを生成して、それから推論のチェックで二重にチェックして検証できるんです。
これが本当に起こってる革新なんです。でも、これは去年からこれらのモデルを再訓練することに基づいてるんです。
じゃあ、完全にネイティブに訓練された、GPT-5スタイルの大きなモデルに何を期待してるかっていうと、これがステロイド並みに強化されることを期待してます。
これらのモデルに入ってくる全てのデータが、最初から正しいチェーン・オブ・ソートで訓練されてることを期待してます。必ずしも微調整じゃなくて、ネイティブにです。
もっとたくさんのデータがこれを通過することを期待してます。これはすごいことになると思います。
まあ、この動画が役に立ったらええなと思います。次の動画では、強化学習の仕方とかについて話すかもしれません。
次回また会いましょ。