R1とo1モデルが複雑な推論を十分に考え抜かない理由（+解決策）

7,553 文字

WHY R1 & o1 Models Underthink Complex Reasoning (+ Solution)

How to improve DeepSeek R1 models even further? How to optimize their complex reasoning capabilities, unlock new levels?...

みなさん、こんにちは。まずはタイトルから始めて、このタイトルが正しいのか間違っているのかを検証していきましょう。私たちのモデル、例えばQwQやDeepSeek o1、Gemini thinkingの素晴らしい点は、詳細に観察できることです。これらのAIモデルがどのように異なる推論のオプションを探索し、異なる因果推論の道筋をたどり、各モデルが私たちの質問に対する答えを探す中でどの程度の複雑さのレベルを達成できるのかを理解することができます。
この推論プロセスは、私の前回の動画やDeepSeek o1についての動画でもご覧いただけます。そしてそこには天才的なひらめきがありました。なぜなら、突然科学者たちが「私たちはAIシステムを改善できる、その推論能力を大幅に向上させることができる」と理解したからです。
そうですね、確かに昨日1月31日に素晴らしい論文が発表されました。「Think Smarter Not Harder」という推論予算制約ポリシー最適化に関する論文で、Metaが推論時の適応的推論のために何かを構築したと発表しました。
しかし、2日前に私が見せた動画はもっとシンプルで、同じくテスト時の最適化に関するものでしたが、今回はDPOの代わりにテスト時選好最適化というより優雅な方法を使っています。なぜなら、Metaの最新の論文では予算制約による推論ポリシーの最適化について述べており、端的に言えば、彼らの方法論で微調整されたモデルは質問の難しさ（私が複雑さのレベルと呼ぶもの）を理解し、より困難な問題を解決するために推論予算を割り当てると言っているからです。
しかし、これが全く解決策にならないかもしれないことをお見せできるかもしれません。Metaの論文自体は良いものです。確率的最適化というアイデアは本当に素晴らしく、実用的な更新方法や半勾配など、すべてが素晴らしい。しかし、私が話していた別のひらめきについて。時としてアイデアはシンプルで美しいもので、数学的な手法を使う必要はないかもしれません。そして、それが機能しないことが分かるかもしれません。
R1のような私たちのAIモデルがリアルタイムで考えているところを観察できるという単純な美しさのおかげで、これらの推論計算モデルが私たちの質問を十分に考え抜いていないことが分かります。これはどういう意味でしょうか？このビデオの核心に迫ってみましょう。
もしかしたら、このテスト時の計算時間が2分では足りないと言っているのかと思われるかもしれません。しかし、これはチャットモデルではありません。このモデルは複雑な問題を解決し、特定の分子化合物を計算するために使用されています。そのため、システムからの応答が1秒でなくても、5分かかっても問題ありません。以前の企業に「1時間かかってもいいですか？」と尋ねたら、「5年以下なら素晴らしい」と答えたでしょう。
私たちはここで複雑な問題を解決しているのです。ここでDeepSeekを見てみましょう。私は単純にDeepSeek R1に「ダークマターとダークエネルギーについて、どのように構造化しますか？」と尋ねました。アイデアを見せたかっただけで、答えではなく考えるプロセスを見たかったのです。
システムは考え始め、「修正ニュートン力学（MOND）のような代替理論があります」と言います。これ自体が美しいアイデアです。そしてR1は「これらの考えを構造化する必要があります。ダークマターの証拠をリストアップしましょう：銀河の回転曲線、重力レンズ効果、CMB観測、銀河団の衝突」と説明します。これが説明になるかもしれません。
そしてR1は続けます。「しかし、各点を検証する必要があります。回転曲線について、すべての銀河がこの不一致を示しているのでしょうか？測定はどの程度正確なのでしょうか？重力レンズ効果については、質量分布をどのようにマッピングするのでしょうか？」
そして粒子物理学、これは理論物理学の全く別の端から来たアイデアです。粒子物理学実験では、弱い相互作用をする重い粒子（WIMPs）がありますが、まだダークマター粒子は検出されていません。
すべてをまとめると、多くのアイデアがあり、それらがすべて組み合わされ、そしてAIシステムは答えを凝縮しようとしているのが分かります。
解決策を思いつくことがいかに簡単かを示す視覚化をお見せしましょう。ここに5つのアイデアがあり、1、2、3、5の青い矢印があります。これが思考の深さ、推論がどれだけ深く行われているかを示しています。現時点ではほぼ同じレベルにありますが、本当の解決策を見つけるためには、最初の解決策ではなく、2番目の考えかもしれません。そして、他の人が「深い推論」と呼ぶものに進む必要があります。
これはチャットボットではないことを覚えておいてください。1秒で答えが必要なわけではなく、1時間かかってもいいのです。しかし、分子の特性や金融取引、金融リスク評価には、起こっている複雑さが必要です。現在、私たちの最高のモデル、QwQやo1、R1、Gemini thinkingなどは、このアイデアの左側にいるように見えます。
どうやってそれを達成するのか、そしてこれが正しいものだとどうやって分かるのかと思われるかもしれません。面白いアイデアがあります。彼らはこれについて調査し、実験を行い、戻ってきて言いました。「様々なモデルにおいて、初期の考えの中で正しいものの割合が注目に値する」と。
つまり、これが2番目の初期の考えで、これが正しかったかもしれませんが、完了まで追求されなかったということです。著者たちは、「これらの有望な考えから突然離れて次のものに移る傾向は、潜在的に正しい解決策が十分に探索される前に早まって放棄されることを示す、不十分な推論の深さを示している」と書いています。
これは驚くべきことです。つまり、o1システムは正しい解決策を見つけたのですが、システム内の何かが「次のものに移ろう、次のものに移ろう」と言ったのです。そのため、可能な解決策の幅広い配列はありますが、良いものの活用が本当には起こっていません。私の新しい改良されたモンテカルロ研究適応方法論に関する動画でお見せしたように。
なぜこれが起こらないのかと疑問に思われるかもしれません。すぐに明らかになる理由の1つは、このような行動が訓練データセットに深く反映されているということです。私たちのAIシステムが学習するためにデータが最も重要であることは分かっています。
今日の事実に来ましょう。これは2025年1月末のo1のような大規模言語モデルの過小思考に関する研究です。もちろん、オープンエンドな質問について話すとき、解釈は様々かもしれません。そこで著者たちは、簡単に検証できる良い結果を得るために、科学と数学に焦点を当てました。これは数学的な解決策が正しいかどうかをすぐに検証できるからです。
素晴らしいアイデアです。私たちはo1のOpenAIによるアプリケーションから、訓練時の計算量（対数スケール）とテスト時の計算量による性能の向上を知っています。ここにo1のデータがありますが、o1は非公開のシステムなので推論プロセスは分かりません。OpenAIのスタッフだけが見ることができます。
ここを見ると、物理学のPhDレベルの質問でGPT-4 Omniで60%でしたが、o1では90%以上になっています。これが私たちが今注目し、改善しようとしている学習です。
著者たちが行った素晴らしいアイデアのベンチマークテストを見てみましょう。青で示されているのはAIシステムが持つ考えの数で、赤は千単位でのトークン数です。数学的な500のテストセットがあり、レベル1からレベル5まであります。レベル5が難しいレベルです。
まず考えの数（青線）を見てみましょう。数学の方程式が難しくなればなるほど、AIシステムがそれを解くために必要な考えの数が増えることが分かります。シンプルですね。トークン数（赤棒）については、問題が複雑になればなるほど、質問への回答の計算に含まれるトークンが増えます。
これは私の前回の動画のQwQ-2bでも見られました。DeepSeek R1のプレビューバージョン（1ヶ月前）、そして今の本物のR1（6,710億の微調整可能なパラメータを持つ専門家システムモデルの混合）でも見られます。特性がほぼ同じなのは興味深いですね。プレビューモデルと純粋なモデルを比較できますが、これについては後の動画で詳しく説明します。
彼らが行ったのは、単純な数学関数（何であれ）を質問として与え、R1システムが以下のように答えを出すことです：
考え1：ここにa、b、x、y、zといった変数を含む方程式があり、このように進めるかもしれない。
考え2：別の方法として、幾何学的な解釈があるかもしれない。問題を幾何学的な視点から見てみよう。
考え3：あるいは、XとYの特定の集合に対して両方の方程式が同時に成り立つかもしれない。そのようなaとbを見つける。
考え4：別の方法もあるかもしれない…
このように可能な考えの多様性が見られます。
著者たちは素晴らしいことをしました。正しい応答の緑のトークン数と、不正解の応答のトークン数を数えたのです。数学と科学の問題で何が起こっているでしょうか。特性は同じです。正しい応答は3,000トークン以下でしたが、不正解の応答は約10,000トークンまで行きました。
このシステムは、解決策を見つけられないことが分かるまで、とてつもない量のトークンを生成します。解決策を見つけられないことを認識するまでにかなりの量のトークン、時間、エネルギーを消費しますが、それは正しい解決策を見つけるためではなく、不正解の応答で輪を描くように走り回るためです。このパターンはいたるところで見られます。
これは著者たちにとって興味深い出発点となり、そこから彼らは各考えが正しい答えにつながるかどうかを評価するために大規模言語モデルを活用することにしました。彼らは最新の蒸留モデル（DeepSeek R1蒸留版Llama 70bとDeepSeek R1蒸留版Q132b）を使用しました。これは重要ではありませんが、重要なのは別の事実です。
x軸に正しい考えの分布に対する比率があります。これは不正解の応答の70%以上に、推論構造の連鎖の中で少なくとも1つの正しい考えが含まれていることを示しています。そして、それらの不正解の応答の50%以上で、考えの10%以上が正しかったのです。
すべてが間違っているわけではありません。驚くほど高い割合で正しいものがありますが、それらは活性化されていません。R1のようなモデルは正しい推論の道筋を始めることはできますが、それらの正しい道筋を続けて正しい結論に達することに苦労するかもしれません。
そして最も興味深い質問は、なぜこれが起こるのかということです。簡単な解決策があり、研究の著者たちは簡単な解決策を提供してくれています。
標準的なデコーディングでは、位置tの各トークンの確率はロジット上のソフトマックス関数を使って計算されます。素晴らしいですね。Zはトークンの非正規化スコアであるロジットです。このステップを繰り返すことで、自己回帰的な大規模言語モデルで次のトークンを予測します。何が起きているのか理解できますね。トークンの線形シーケンスを生成し、システムに考えの切り替えペナルティを課します。つまり「システムよ、次の考えに飛び移らないで、それを続けなさい」と言うのです。ペナルティの強さとペナルティの持続時間という2つのパラメータがあります。これは簡単な公式ですが、この解決策が飛躍的な改善をもたらすとは思えません。
なぜなら、彼らはただロジットを見て、例えば「alternatively（あるいは）」という単語を見つけたときに「ちょっと待って、R1よ、もう少し推論を続けなさい、解決策を見つけられるかもしれない」と言うだけだからです。
私が話していた「なぜ」について、これが最も重要な問題だと思います。なぜこれが起こるのか、なぜ誰もこれに気付かなかったのか。もちろんすべては訓練データの下にあります。
大規模言語モデルは、探索的推論やブレインストーミングなどを含む人間のテキストを模倣するように訓練されています。しかし、人間の問題解決は通常、探索後に解決策に収束するのに対し、私たちの大規模言語モデルには収束を優先するメカニズムが欠けています。
私たちは訓練データで、モデルに期待することを示していません。AIマシンの中に小さな天才、小さなジーニーがいて「あぁ、なるほど。このデータとあのデータがあって、数学的な解決策をミックスすればいい」と言うことを期待していますが、そうはならないのです。
訓練データは、始めた推論の道筋を完了することの重要性を強調していないかもしれません。これが浅い探索につながっています。o1やR1などの強化学習で調整されたモデルは、強化学習での最終的な答えの正確さに対して最適化されていますが、推論の効率性や道筋の一貫性に対しては最適化されていません。
「どうしてこんなことが可能なのか」と思われるかもしれませんが、訓練データセットを見てください。著者たちは「これが断絶を生み出している。モデルは何を解くべきかは知っていますが、最適な方法で解決策を構造化する方法を知らないのです」と言っています。
今や私たちは、モデルに何を解くべきかだけでなく、内部推論システムでどのように解決策を展開させたいのかを正確に示す新しいデータセットを生成して、それらのモデルを再訓練する必要があります。理解するのは簡単ですが、実際に実行するのは複雑です。
もう少し深く掘り下げてみましょう。探索に偏ったデコーディング戦略について、私たちは高い確率の即時トークンの線形シーケンスだけを見ています。システムが次の深いトークンと「alternatively（あるいは）」という別の考えに切り替えるトークンの間の確率に遭遇したとき、そのような遷移トークンのロジットの確率が高すぎて、最初の考えを完了せずに次の解決策に早まって移行してしまうかもしれません。
標準的なデコーディングには、早期に考えを放棄することへのペナルティがありません。そのため、モデルはコストなしに新しい道筋に「乗り換える」のです。短期的なトークン最適化では、大規模言語モデルは次のトークンの尤度という局所的な一貫性に対して最適化されており、グローバルな推論の質に対しては最適化されていません。
これは訓練データセットで簡単に変更できます。冒頭で示したMetaの記事のように、計算リソースの割り当てだけを提供する場合について考えてみましょう。Metaが「より複雑な問題により多くのリソースを提供する必要がある」と言うのは、もちろん解決策の1つです。
しかし、私たちが今見てきたように、訓練データ自体を変更せずに、モデルにどのように解決してほしいか、10レベル、12レベル、15レベルの複雑さまで下がって解決策を見つけてほしいかを示さなければ、それは単なる計算リソースの割り当てだけの問題ではありません。そのため、Metaは解決策の一部を持っているかもしれませんが、この重要な問題を見落としていると思います。
次の論理的なトークンは、「次のアイデアに移ろう」という遷移フレーズよりも低い確率を持つかもしれません。このTIPというアイデア、最もシンプルな形で、うまく機能します。
まとめましょう。正しい初期の考えを放棄するのは、システムの能力不足によるものではありません。計算能力は持っています。むしろ、それはデコーディングアルゴリズムと訓練データにおける体系的なバイアスで、深い推論プロセスよりも広範な探索を優先してしまうのです。
モンテカルロ研究でも同様に、探索と活用の問題があります。現在の私の開放的な疑問の1つは、このシステムをどのように取り入れ、モンテカルロ研究をより高度な方法で適応させて、これに対処できるかということです。まだ分かりませんが、これは夜のアイデアの1つです。
まとめると、この切り替え行動に明示的にペナルティを課すことで、このTIP手法は人間のような持続性にモデルの推論プロセスを再調整し、o1、R1、QwQ、Gemini thinkingモデルで起こっている過小思考の根本原因に対処します。これらのモデルのいずれも100%の正しい行動を達成していないからです。
これで私たちに戻ってきました。私は間違いを犯しました。モデルが愚かなのではなく、私が愚かなのです。システムを構築する私たちコーダーや人々が愚かなのです。なぜこれについて考えなかったのでしょうか。この推論の進展を見て、somehow then all these ideas are pulled togetherそしてAIシステムの出力に1つの解決策が出てくるのを見て、他のすべての道筋はどうなるのか。
まだまだ学ぶことがたくさんありますが、AIの科学者たちが推論能力を向上させるためのアイデアやアプローチがいかにシンプルであるかは驚くべきことだと思います。彼らは私たちに、これが最後ですが、私たちの経験的な結果は、例えばこのTIP手法が効果的に過小思考を減少させ、追加のモデル訓練なしに、困難な数学的および科学的な問題セットにわたる精度を向上させることを示しています。
これが美しさです。このTIP手法では、何も訓練する必要はなく、何も修正する必要はありません。2つのハイパーパラメータで、グローバルな一貫性とは呼びませんが、次のトークン確率の局所的な一貫性だけに厳密に縛られるのではなく、より深い推論の連鎖の思考構造を少し先まで見るような、確率密度を少し調整するだけです。
他の解決策もたくさんあると思います。私には2つの他の解決策があり、もしかしたらあなたにも1つあるかもしれません。すぐにコードを書いて見つけて、公開できるかもしれません。2025年1月末の現在のAIの時代は、とても興味深いと思います。
この動画を少しでも楽しんでいただけたなら嬉しいです。これをお見せしたかっただけです。これをさらに改善する方法について私なりの考えがありますので、もしよろしければチャンネル登録をお願いします。次の動画でお会いできることを楽しみにしています。