ついに適応型思考AI（AdaptThink、ThinkLess）

9,285 文字

https://www.youtube.com/watch?v=1igqokIKJvg

こんにちは皆さん。AIの過剰思考を止める必要があります。なぜなら、私たちが全てのトークンに対してお金を払うのであれば、「ねえAI、複雑な過剰思考モードが絶対に必要な場合だけお金を払いたい」と思うからです。そこで複雑性を高めて、同時に2つの論文を見ていきましょう。なぜかって？まず楽しいからです。
次に、日付を見てください。5月19日。5月19日。信じられないですね。そして同じトピックについてです。「推論モデルは思考のタイミングを学習できる」と「言語モデルは思考のタイミングを学習する」。これは中国の清華大学のもので、こちらはシンガポール国立大学のものです。まったく同じトピックについて同じ日に発表されたのは素晴らしいことだと思います。
何が論じられているか見てみましょう。そして両方ともGitHubがあります。コードもデータも全て利用可能です。まずはこちらから始めましょう。
最初のモデルは中国の清華大学の論文で素晴らしいものです。彼らは思考モードよりも非思考モードの利点を示しています。推論モデルでは複雑な思考構造で数千のトークンを使いますが、彼らは「常にこの複雑な思考モードが必要とは限らない」と言っています。
これは例です。特定のベンチマークからの単純な質問があり、DeepSeek R1とQwen 7Bを使用すると、3,300トークンかかります。なぜなら思考モードをオンにしているからです。複雑な思考は素晴らしく、全てを説明してくれますが、結果だけが欲しい場合にはこれが必要でしょうか？
彼らは「AdaptThink」という新しい方法論を提案しています。これは新しい強化学習アルゴリズムで、推論モデル（R1モデルや蒸留モデル）に複雑な思考モードをいつオンにすべきかを教えるものです。システムは推論なしでも実行できる可能性があります。このAdaptThink 7Bモデル（彼らが構築したもので無料で利用可能）は、わずか222トークンしか使用していません。素晴らしいですね。
主要な部分は何でしょうか？論文を見て最適化目的や制約付き最適化問題などを確認しましたが、興味深いのは報酬の利点関数です。ここで「思考の終了」があり、特定のハイパーパラメータδがあります。δが増加すると、非思考モードをより頻繁に採用することになります。
これは非常にシンプルです。古典的なOpenAI PPOスタイルを使用し、コールバックライブラリのペナルティなしで非常に単純な式を使います。もちろん少しのクリッピングもありますが、これが私たちのPPOであり、必要なものは全てこれだけです。
重要な点として重要度サンプリングが必要です。強化学習では初期推論モデルがあり、常に思考モードを選択する推論モデルになります。非思考モードにするのは難しいです。これをコールドスタート問題と呼びます。AdaptThinkは修正された分布からサンプリングし、応答の一定の割合（例えば50%）が非思考モードで始まるようにします。これは最初のトークンとして「思考の終了」を強制し、残りは思考モードにすることで実現します。
これにより、非思考と思考の両方からのサンプリングがより良くなります。モデルが初めから両方のモードを探索し学習できるようになるからです。非常にシンプルです。これだけです。
2つのコンポーネントがあります。1つは制約付き最適化目的で、元の論文から式を示しました。これはモデルが全体的なパフォーマンスを維持しながら非思考を選択するよう促します。もう1つはサンプリング戦略で、思考と非思考のバランスを取ります。これによりモデルは学習プロセス全体を通して両方の思考モードを探索・活用できます。
数ヶ月前、カリフォルニア大学バークレー校とAI研究所から「推論モデルは思考なしでも効果的である」という論文が出ました。当時は「LLMが思考なしで効果的であるとどうして言えるのか」と思いましたが、問題が単純であれば複雑な推論モデルは必要ないことがわかりました。思考の利点は問題が十分に難しい場合に顕著になります。それ以外の場合、私たちのLLMはすでに推論を活性化せずに解決策を生成できるほど優れています。
彼らはこのAdaptThinkを、問題の難しさに選択的に基づいた新しい強化学習アルゴリズムと呼んでいます。これはすぐにデータセット、つまりトレーニングデータセットに関わることがわかります。
彼らはDeepSeek R1から始め、独自の予算内で1.5Bと7Bモデルを使用しました。トレーニングデータセットを作成するために、40,000の数学問題からなるDeep Scale Rを使用しました。評価には難易度が増す3つの数学データセットを使用しています。全て標準的なデータセットです。
トレーニング時間について述べています。1.5Bモデルでは1つのノードに8つのNVIDIA H800 GPUを使用し、約32時間かかりました。7Bモデルでは4つの完全なノード（各8つのH800）を使用し、約28時間かかりました。
ベンチマークを見てみましょう。ここに評価があります。1.5Bと7Bの両方で、最後の行にピンク色で示されています。これは精度、長さ、特定の比率です。他のDPOやアイデア、モデルと比較して良いパフォーマンスを示しています。
彼らのモデルは他の全てのモデルを上回ると言っています。一般的に、これらのベンチマークでは思考と非思考の応答の長さを最大50%（小さいモデルで53%、大きいモデルで40〜50%）削減でき、場合によっては精度も0〜2.4%向上させることができます。
これはコスト削減に関するものです。トークンごとに支払うため、特にOpenAIなどの独自モデルでは、トークン長を半分にすることは非常に興味深いです。
先ほど言ったように、GitHubリポジトリが11時間前に更新されており、MITライセンスで全て利用可能です。楽しんでください。
ただし限界があります。彼らは数学データセットのみを使用してモデルをトレーニングしています。なぜなら答えが正確かどうかの簡単な検証が必要で、報酬モデルの検証可能な報酬構造が必要だからです。
3日前に読んだ別のアイデアですが、これはスタンフォード大学とカリフォルニア大学サンフランシスコ校のものです。彼らは医療AI、医療LLMを調査し、医療大規模言語モデルにおける推論と知識を切り離すことが重要だと述べています。モデルをコーディングする人々が推論と知識を混同しているからです。
推論が重要な質問と知識が重要な質問を切り離す必要があります。11の生物医学Q&Aベンチマークで調査し、ベンチマークの質問のわずか32%だけが実際に複雑な推論に関するものであることがわかりました。残りは全く推論に関するものではありませんでした。
これにより、私たちがAIをコーディングする際の言語や意味的複雑性、分類法についてより注意深くなる必要があることがわかります。推論とは何か、知識とは何か、LLMのトレーニング内容についてもっと注意深く考えるべきです。結果として、多くのことは推論ではなく単なる知識でした。
彼らは知識と推論を区別して調べた際にパフォーマンスギャップを観察しました。多くのことは単なる知識であって推論ではなかったため、モデルのトレーニングには追加の推論豊富なデータソースを組み込むことが重要だと結論づけています。
彼らは知識が重要な質問とは何かという素晴らしいアイデアを提供しています。モデルをトレーニングしたり、AI開発に携わっていると、医療など特定分野の専門家ではないでしょう。例えば「重症の患者が病院に来ました。診断は何ですか？」というのは推論ではなく知識です。推論が重要な質問は「40歳の機械工が特定の体温、脈拍数、血圧、呼吸数、酸素飽和度で来院しました。最適な治療は何ですか？」というものです。全てのデータがあれば、これは推論ではなく知識に関するものです。
5月16日にスタンフォードがこれを発表し、医療LLMが推論と知識を混同していると指摘したことを想像できますか？素晴らしいです。
これが最初の論文の終わりです。追加の論文も紹介しました。楽しみのために、論文2に戻りましょう。「LLMは思考のタイミングを学習する」これはシンガポールのもので、彼らは「ThinkLess」を提案しています。これもLLMに短い形式と長い形式の推論を適応的に選択する能力を与える学習可能なフレームワークです。
興味深いことに、全く推論しないこととより長い推論の間の区別ではなく、短い形式の推論と長い形式の推論という別の区別があります。これもLLMに支払うコストに関わります。また、タスクの複雑さとモデルの能力に基づいています。詳しく見てみましょう。
これも強化学習パラダイムに基づいています。2つの制御トークンを使用しています。制御トークンを覚えておいてください。すぐに重要になります。短く簡潔な応答用と詳細な推論用の思考用の2つのトークンがあります。
通常のGRPOでは使用できない問題があることが明らかになりました。システムが崩壊するからです。彼らの方法の核心は新しいGRPO、切り離されたグループ相対ポリシー最適化で、ハイブリッド推論システムの学習目標を2つのコンポーネントに分解します。
制御トークン損失関数と応答損失関数です。GitHubリポジトリもあります。切り離されたGRPOを見てみましょう。制御トークンのためにこれが必要なのでしょうか？まず、モード選択があります。長い思考または短い思考、簡潔な思考のどちらかを選びます。そして目標2では、精度向上の最適化方法論があります。
データセットを見ると面白いことに、論文1と同じデータセットを使用しています。本当に比較できますね。非常に単純なベンチマーク、より複雑なベンチマークなどがあります。灰色で示された短いモードで、短い推論だけで多くを解決できます。しかし問題が複雑になるほど、完全な思考モードが必要になります。
これは私たちのベンチマークが飽和状態にあることを示しています。そのため、5月20日に新しいベンチマークがあることを嬉しく思います。それはARC AGI 2です。フロンティアAI推論システムの新しい挑戦です。
ARC 1を知っているなら、2がどれほど複雑になるか考えてみてください。新しいARC Hi2ベンチマークでは、8K思考モードを有効にしたClaude 3.7でも0.9%のパフォーマンス、O1 Proも0.9%、最も優れているのはO3で3%の成功率です。新しい難しいベンチマークがあるのは素晴らしいです。
この出版物をチェックしてください。詳細には触れられませんが、面白いです。Q3モデルに関する私の動画でこれについて話しました。235億のトレーニング可能なパラメータを持つ専門家モデルの混合で、220億のトレーニング可能なパラメータが活発であることを見ました。
思考モードがあり、スライダーがあって思考の最大長をコントロールできます。これは基本的に私たちが支払いたいトークン長です。思考予算があり、米ドルで表示されています。例えば21Kトークンの思考は本当に素晴らしいです。
予算を持ち、複雑な構造に対して過剰支払いしたくない場合、これはまさに私たちが話していることです。AIが自分で決定できるようにしたいのです。正しい答えを得るための最小予算は何か？シンガポール国立大学に戻りましょう。
質問は、AIやLLMがタスクの複雑さと自身の能力に導かれて、思考するタイミング、複雑な思考を活性化するタイミングを決定することを学べるかどうかです。答えはイエスです。
通常のGRPOでは問題があります。応答部分が数百または数千のトークンにわたることがあり（21Kを示しました）、長い応答と短い応答の長さが大きく異なります。最初にある単一の制御トークンは弱いまたは偏った勾配信号を受け取る可能性があり、これがトレーニングの初期段階でモードの崩壊につながります。
別の視点から見ると、モデルは古典的なGRPOでトレーニングの初期に長いまたは短い出力のどちらかに過度な好みを発展させます。制御トークンの勾配は応答の総長さで正規化されるため、長い出力と短い出力の間にアンバランスが生じます。
長い連鎖サンプルは単に多くのトークンを持つため、同期トークンの更新が遅くなり、短いものを奨励するサンプルが更新を支配します。このアンバランスによりモデルは急速に崩壊します。解決策はGRPOを使用することでしたが、切り離されたが相互依存的なGRPOを持つことでした。
最初の論文でも2つのコンポーネントがありました。ここでも2つのコンポーネントがあります。何という偶然でしょう。まずモード選択があります。モデル精度に関する迅速なポリシー適応を行い、モードを選択した後、精度向上に移ります。単純なアイデアで本質的に相互依存しています。
モデルを見ると、全てのトークンの中から制御トークン「同期」と「短い」があります。切り離されたヨーロッパ（GRPO）で報酬構造はどうなるでしょうか？制御トークン「同期」では、「正しい長い」があり、報酬は1-γ（γは非常に小さな要素）です。そして「間違った」応答では、報酬は単にバイナリ報酬モデルで-1です。「正しい短い」と「間違った短い」も同じです。
報酬システムは事前に定義されています。強化学習が切り離され、2つの目標に分かれています。効果的なモード選択のための制御トークンの最適化と、応答の洗練です。
合成ペアデータセットを生成します。全てはデータセットから始まります。「同期」と「短い同期」のデータセットがあり、各応答は「短い」または「同期」のいずれかの制御トークンが前に付き、これによりモデルは意図された推論スタイルに条件づけられます。
次に監視付き微調整を行い、この合成ペアデータセットで目標推論モデルπを微調整します。目的は制御トークンによって条件づけられた多スタイル応答分布を学習することです。これを蒸留フェーズと呼ぶこともできます。モデルが高い忠実度で両方のタイプの応答を生成できるようにします。
ペア構築により、モデル応答分布がバランスが取れ、システムの崩壊が起こらないようにします。つまり、インテリジェントな監視付き微調整から始め、次に強化クローニングに進みます。これは古典的な道筋で、特別なことは何もありません。
蒸留フェーズでは、モデルは長い形式と短い形式の両方の答えを生成できます。しかし欠けているのは決定メカニズム、制御メカニズムです。どの推論モデルが特定の入力、特定のタスク、特定のクエリに適しているでしょうか？Q13のスライダーを思い出してください。
システムは決定し、コスト効率の良いソリューションを選ぶべきです。これは簡単ではありません。入力Xの複雑さはそれほど簡単ではないかもしれないからです。そのため、十分な良いトレーニングデータを提供する必要があります。トレーニングデータの質は良くなければならず、特に複雑さのレベルが高い場合はドメイン固有である必要があります。
制御トークン推論モードについては既にご存知です。Q13の次のイテレーションでは、人間として「これは支払いたい金額、推論複雑性の思考の長さ」と言う自由がありますが、次のステップ、最適化はAI自身によって行われるべきです。
切り離されたポリシー最適化、シンプルな報酬関数、aoベースのフレームワークがあります。目的は古典的な方法でトークンレベルの代理損失として定義されます。利点関数を見ると非常に簡単で、標準偏差があり、制御トークンと応答トークンに異なる正規化を適用します。
これが単純に挿入する数式です。クールバックライブラリダイバージェンスを使用しても問題ありません。応答精度は独立して正規化されます。短いシーケンスと長いシーケンスの両方で一貫した勾配スケールを受け取るようにするための美しい定式化です。
これが解決策です。論文1ではハイパーパラメータδがあり、ここではハイパーパラメータαがあります。αを特定の数値に設定すると安定したトレーニングが達成されると言っています。
短い要約をすると、まずデータセットを作成します。データセットはシステムに変換させたいものです。合成データセットは2つの専門家モデルLLMを使用して作成されます。「同期」というプレフィックスが付いた長い形式の応答には強力な推論モデルが必要で、「短い」というプレフィックスが付いた簡潔な短い答えには指示に従うモデルが必要です。これにより、他のモデルはこれらの制御トークンに条件づけられた両方のスタイルを生成することを学びます。
芸術家たちは、ハイブリッド推論ポリシーをトレーニングするためのベースモデルとして、DeepSeek R1 Qwen 1.5B（15億の自由にトレーニング可能なパラメータ）を採用しました。
最初の推論モデルには「同期」制御トークンがあり、完全なDeepSeek R1 67（67億の自由にトレーニング可能なパラメータ）を使用します。彼らは多段階の複雑な推論チェーンに非常に適したオープンソースデータセットから長い形式のデータを生成します。
次に短いものが必要で、対応する短い形式の答えはQwen 2.5 mini 1.5B指示モデルを使用して導出されます。これは簡潔な数学的応答に最適化されています。
3つのLLMが全てこのコンサートでの機能に完全に調整されています。ハイブリッドモデルには監視付き微調整があり、長期と短期の両方の推論スケールに対応できるようにし、切り離されたGRPO、そして強化学習があります。
データセットは論文1と同じDeep Scale Rで、40,000のラベル付き例があります。このデータセットの質がシステム内の全てを定義します。評価には論文1と同じ数学的評価データセットを使用しています。
多くの異なる値があり、Loraアダプターやさまざまなハイパーパラメータがあります。最後のThinkLessを見ると太字で示されています。彼らはテストしたモデルの中で（1つの例外を除いて）最高のソリューション、最高のパフォーマンスを達成しました。また、思考トークンの量を50〜90%削減できるとしており、コストが下がります。これはより費用対効果が高くなります。
結論として彼らは強化学習を使って、入力クエリの複雑さに基づいて短い応答を生成するか長い形式の推論シーケンスに関与するかを自律的に決定するハイブリッド推論モデルを構築しました。コアは切り離されたGRPOを使用し、強化クローニング目標を2つのコンポーネントに分離します。1つは制御トークンのモード選択、そしてモードを定義した後は応答トークンの好奇心に基づく改善です。
これは安定しており、不必要な長い形式の推論を効果的に減らします。モデルは標準的な日常問題に十分な複雑さのレベルでトレーニングされているからです。科学に進む場合のみ、「長い形式の推論が必要だ」と言うでしょう。
素晴らしいのはLLMがこのシステムで適応的に推論モードを選択することを学べるということです。これは大学によって行われたものなので、1.5Bモデルや7Bモデルがあります。72Bモデルに進むと、パフォーマンスは向上するでしょう。このような特定のモデルのスケーリング法則についてはまだわかりません。
報酬モデル、LLMモデル、そして適応型選択推論モデルを見た後、LLMは監視付き微調整による蒸留を通じて高品質な短い形式のモンスターを生成するよう教えることができます。トレーニング前はより長い生成に焦点を当てていたとしてもです。R1モデルから始め、R1は長く複雑な推論シーケンスでトレーニングされましたが、コストが少ない高品質な短い形式の答えを生成するのを助けることができます。
最後の5秒で複雑さを最大に上げ、両方の論文を比較しましょう。両方の論文があり、フローとデータとハブパラメータと強化学習を完全に理解し、それらを最も効果的な方法で比較してみましょう。
2番目の論文では効率的なモード定義があり、短いトークンは特殊な短い答えから蒸留され、制御メカニズムは最初の出力トークンとして「同期」コードまたは「短い」を生成します。2段階のメカニズムがあり、監視付き微調整蒸留とGRPOおよびDGRPOがあります。DGRPOはGRPO目的を修正して特に制御トークンの勾配信号のバランスを取り直します。主要なハイパーパラメータはαとDGRPOで、モード崩壊はDGRPOで軽減されます。モード設定のための美しい学習コアがあります。
最初の論文のAdaptThinkでは、純粋な非思考があり、これは空の思考セグメントによって誘導される非推論モードです。最初に生成されるトークンは「思考の終了」で、標準的な思考開始に対して非思考の強制開始を許可するタイミングを学習します。これは思考モデルであるベースモデルに依存する推論モデルで動作します。推論モデルの方がより正確でしょう。非思考行動は強化学習中に特定のプロンプト、特定の重要なサンプリング、目的の特定の定義を介にブートストラップされます。
古典的なPPOスタイルを使用し、価値関数などとともにより単純な方法を取ります。制約付き最適化と重要なサンプリングを行い、ハイパーパラメータδがあります。重要なサンプリングにより非思考モードも探索されます。δを慎重に選ぶ必要があります。主要なハイパーパラメータは利点関数にあります。
このδはパフォーマンスが維持される場合、直接非思考に偏ります。シンプルな非思考の効果。単純なタスクがあり、強力なLLMがあれば、非思考や非推論モードで十分でしょう。しかしこの方法論とGitHubリポジトリを使えば、トレードオフコントローラとしてハイパーパラメータδを選択できます。
ベンチマークで思考と非思考のパフォーマンスを比較して始め、AdaptSyncのパフォーマンスを示しました。清華大学とシンガポール国立大学が同じ日に同じトピックで異なるソリューションを提案するとは何という偶然でしょう。
これは素晴らしいことです。AIで何を構築できるかを見ると、何が起きているかを深く理解していれば、単純に実装でき、かつ強力なソリューションを構築できることがわかります。例えば、コスト効率を重視し、単純な日常問題に高い推論能力が必要ない場合に複雑な推論パスに多くのお金を使いたくない場合などです。
同時に2つの論文を扱うのを楽しんでいただけたなら、ぜひチャンネル登録して次の動画でお会いしましょう。