リーンAI推論:新たなエネルギーベースChain-of-Thought

本動画では、ジョージア工科大学、MIT、Nvidiaによる最新のLLM推論効率化研究を解説する。従来の推論モデルは正確な結果を得るために膨大なトークン数と計算時間を要していたが、本研究ではエネルギーベースモデル(EBM)とランジュバン動力学を組み合わせた新しいChain-of-Thought手法を提案している。統計物理学のボルツマン分布を応用し、推論トレースをエネルギー最小化問題として扱うことで、同等の精度を維持しながらトークン使用量を最大20分の1、処理速度を11倍高速化することに成功した。この手法は小型のアシスタントモデルと大型のベースモデル、そしてエネルギー関数による較正層を組み合わせた三層構造を採用し、推論の各ステップで最適な次トークンを選択する仕組みである。

Lean AI Reasoning: NEW Energy-Based Chain-of-Thought

Optimizing Latent AI Thought Trajectories via Energy-Based Calibration.All rights w/ authors: OckBench: Measuring the Ef...

リーンAI推論の新時代
Sky-T1とモデル効率性の比較
エネルギーベースモデルの革新
数学的基礎と実装
アーキテクチャの詳細な構成
トレーニングデータの生成と対照学習
数学的フレームワークの実装
エネルギー景観の比喩的理解
実験結果とベンチマーク評価

リーンAI推論の新時代

こんにちは、コミュニティの皆さん。戻ってきてくださって本当に嬉しいです。今日のトークのタイトルは実に魅力的なものですね。もちろんここは私のチャンネル、ディスカバリーです。最新のAI研究論文について話していきます。

さて、ジョージア工科大学、MIT、そしてNvidiaが共通して最新のAI研究を発表するとき、何についてだと思いますか? そうです、LLMの推論についてです。

もし私の前回の動画をご覧になっていたら、リアルタイム推論について話したのを覚えているでしょう。ロボット工学や人間とコンピュータのインターフェース、その他への統合のための超高速推論についてです。今日紹介する二つの論文のうちの一つは、これらとは異なる研究です。MITとNvidiaによるLLM推論の効率性についての論文です。見ていきましょう。

想像してみてください。二人の優秀な数学者に同じタスクを与えます。一人は教室で複雑なチューリング問題を解くために、8枚か10枚の黒板を美しい計算で埋め尽くします。約2時間かかります。もう一人の数学者は別の形の知性を持っています。2、3分後に彼は「ああ、わかった。簡潔な論理で解を提示できる」と言います。

両者とも同じ結論に到達しますが、二人目ははるかに深く、はるかに効率的な知性の形を示しています。これがまさに今日話すことです。私たちはこれを望んでいます。私たちが望まないのは、NeotronやQwen 7Bといったレイテンシが3,300ミリ秒、推論プロセスのトークン長が9,000トークンというLLMで結論に到達することです。

一方で、Sky-T1 7Bのような同じサイズのモデルを使えば、サイズはもはや重要ではなくなる場合があります。このモデルは11倍高速で、同じ結果を得るために必要なトークンが20分の1です。Nvidiaは言います。「これこそが私たちが関心を持っているモデルです。これらのモデルに近づけるために、トレーニング手順、レイテンシ、コスト、エネルギーを改善したい」と。

Sky-T1とモデル効率性の比較

もし「Sky-T1って何だ?」と思ったら、私のチャンネルに行って検索窓にSky-T1と入れてください。9ヶ月前に私が詳細な動画を作っています。UCバークレーによるSky-T1がどのように作られたか、推論トレースとは何か、ベースモデルは何か、教師-生徒学習プロセスの詳細まで説明しています。知るべきことはすべてわかります。

さあ、これを見てください。GPT-o3、GPT-o1、Gemini 2.5 Flash、そして2.5 Proがあります。精度はそれぞれ50、73、70、83パーセントと異なります。しかし同じ結論に到達するための推論プロセスのトークン長はまったく異なります。

例えばFlashを見てください。70パーセントの精度で、Proは83パーセントとプラス13ポイント高いですが、推論プロセス自体のトークンははるかに少ないのです。このモデルはより賢いのでしょうか? これがまさに今日話すことです。

もはやトークンを自由に増やせるものとして扱いません。トークン長も最適化の対象になるのです。見ていきましょう。

これをかなり多くのモデルで行うと、Y軸に精度、X軸に推論プロセスのトークン長があります。最高のパフォーマーを見てください。GPT-4 Omni、Gemini 2.5 FlashとProです。次にGPT-o1とo3のグループがあります。そしてQwen 2.5 14Bの非思考モデル、次にQwen 2.5 38Bの思考モデルがあります。わかりましたね。

しかしQwen 2.5 14B非思考からQwen 2.5 38B思考への精度の違いを見てください。もう少し詳しく見ていきましょう。

これがテストされたすべてのLLMの数値データです。正しい結論に到達するために必要なトークン数があります。達成された精度があります。もちろん統計的なものです。そして新しいパラメータがあります。この二つを組み合わせると、これは単純に推論効率として計算されます。精度あたりのトークン数として、あるいは正確さの単位あたりのコストを測定するものとして計算されます。

興味深いですね。精度のトップ2パフォーマーであるGPT-o1とGemini 2.5 Proは、最も推論効率の高いモデルではないことがわかります。GPT-4 Omniが最も推論効率の高いモデルですが、精度はわずか35パーセントです。つまりこれは微妙なバランスなのです。タスクに適したバランスを見つけなければなりません。

何を達成したいか、精度を求めるのか、それとも本当に時間が重要で、おそらく高コストすぎる場合は、トークン数も考慮に入れます。次のステップに進んで14B非思考と14B思考を見ると、精度が33パーセントから40パーセントにジャンプします。

しかし突然、モデルは推論プロセスで3倍のトークンを使用します。これには時間がかかります。少し良い結果が得られます。しかし効率性データを見てください。均衡状態なのです。

もしこれが事実で、私たちが直面しているこの恐ろしい世界がこうであるなら、これらすべての問題を解決して、すべてのモデルをはるかに高い推論効率クラスに持っていく解決策は何でしょうか? 解決策は何ですか?

エネルギーベースモデルの革新

こちらが解決策です。私たちには今、正確なだけでなく、効率的で信頼性の高い思考者でもあるLLMを構築するための強力な新しいメカニズムがあります。どうやって実現するのでしょうか? なんという偶然でしょう。古典的統計物理学を現代のニューラルネットワークに美しく応用しています。素晴らしいですね。見ていきましょう。

通常、Chain-of-Thoughtシーケンスで推論を行い、二つの基本的なChain-of-Thoughtがあります。明示的Chain-of-Thoughtがあります。これは「ステップバイステップで考えましょう」と言うときに、離散的トークンを生成します。脆弱で、一つの間違ったトークンが自己回帰システムであるため、推論パス全体を台無しにする可能性があります。

次に暗黙的Chain-of-Thoughtがあります。Soft Chain-of-Thoughtのようなものです。ここではソフトマックス後の語彙項目ではなく、連続的な潜在空間で操作を続けます。実際の語彙要素の代わりにソフト思考トークン、つまりベクトル埋め込みを生成します。これははるかに効率的であることがわかりましたが、一貫性に欠けます。

自己一貫性とは相性が良くありません。では今、別の方法があるのでしょうか? その質問をしていただいて嬉しいです。なぜなら今、EBM方法論、つまりフレームワークでChain-of-Thoughtを行う第三の方法を紹介できるからです。私たちには今、絡み合ったエネルギーベースAIモデルがあります。

これが今日のメインの論文です。オックスフォード大学、清華大学、テンセント、中国の南方科技大学、シンガポール国立大学が2025年11月10日に発表しました。「一貫して考え、効率的に推論する。暗黙的Chain-of-Thoughtシーケンスのためのエネルギーベース較正」です。

すでに少し触れましたが、物理学と関係があります。そうです。もちろんボルツマン分布という確率分布を使います。

これは簡単です。エネルギー思考と言えば、すぐに「もちろん、ボルツマン分布だ」となります。忘れている方のために、どう見えるかお見せします。パラメータIは潜在思考埋め込みです。Cはコンテンツです。Tは温度パラメータです。Eは任意の与えられた状態Iに対するスカラーエネルギー関数です。

もう少し詳しく説明します。馴染みがない方は、私もここでChatGPTを使います。書き留めるのではなく、「ボルツマン分布を説明して」と言うだけです。ChatGPTによる説明は次のとおりです。与えられた温度Tで、アンサンブル内のすべての粒子が同じエネルギーを持つわけではありません。代わりに、粒子が特定のエネルギーEを持つ確率は、エネルギーの増加に伴って指数関数的に減少します。この確率分布がボルツマン分布と呼ばれるものです。

ボルツマン定数があり、ケルビン温度があります。これが何百年も前の理論物理学からの主要なアイデアで、今ではコンピュータサイエンスに応用しています。学際的なアプローチがわかりますね。

数学的基礎と実装

非線形積分微分方程式を解くのは簡単ではありません。位相空間に移動し、密度関数が必要です。Wikipediaを忘れないでください。Wikipediaが消滅しかけています。Wikipediaが続かないのは本当に残念です。こんなに美しいツールなのに。Wikipediaを見ると、この方程式を「正確に」、引用符付きですが、解く方法が正確にわかります。

しかし今、コンピュータサイエンス、ニューラルネットワークでは、ハイブリッドマルチステージアーキテクチャがあります。詳しく説明させてください。簡単ではありません。少しだけ注意を払っていただく必要があります。アテンション、しゃれですが。

二つのLLMがあります。大きなアシスタントモデルと、小さくしましょう、そしてベースモデルがあります。

このアシスタントモデルは入力プロンプト、人間のプロンプトを受け取り、初期の潜在思考埋め込みのシーケンスを生成します。LLMの思考プロセスの最初の洗練されていないドラフトと考えてください。

次に主役であるベースモデル、GPT-o1でも何でもいいですが、ここではLlama 3.1 8Bを使います。このモデルは最終的に較正された潜在思考埋め込みを受け取り、それらを使って明示的な推論テキストと最終的な答えを生成します。

「でも何か足りないのでは?」と思うかもしれません。いいえ、中間にあります。小さなLLMが思考プロセスを生成し、次に大きなLLMがすでにベクトルエンコーディングされた何かを受け取ります。ある種の変換層が必要です。

もちろんこれがSoft Chain-of-Thoughtの概念です。彼らはSoft Chain-of-Thoughtで連続空間推論を活用すると言っています。小さなアシスタントLLMの最終層隠れ状態を、語彙マッピング後に得られる離散トークンではなく、ソフト思考トークンとして使用します。

潜在空間にとどまることで、自己回帰デコーディングに本質的に内在する情報損失を回避します。もちろんです。

Soft Chain-of-Thoughtは、さらなるファインチューニングの代替手段として認識されています。小さなLLMがあります。最終隠れ層状態を見ます。それらをベクトル表現に変換します。次にプロジェクション層があり、ベースモデルの次元に引き上げます。そしてこれをベースモデルに注入します。

得られるボーナスは、通常のファインチューニングで起こるような破滅的忘却がないことです。

追加されたコンポーネントは、エネルギーベースモデルです。これは今、この潜在空間に、思考埋め込み空間で定義される微分可能なエネルギー関数Eを導入します。少し抽象的ですが、気にしないでください。この二つのLLMの間の中間空間があると想像してください。

この空間には今、シンプルな数学的最適化手順があります。最適化しているパラメータはエネルギー関数です。それが何であれ、気にしないでください。空間があり、最適化アルゴリズムがあり、特定のパラメータを最適化すると言える数学的装置があります。これらが公式です。やっていきましょう。美しいですね。

簡単ではないことがわかります。いくつかの小さな細部がありますが、一般的には、新しいAIモデルで定義するこのエネルギー関数です。一つのAIモデル、二つ目のAIモデル、そして三つ目のAIモデルがあります。

このエネルギー関数は、勾配降下法のような形式で潜在思考トークンを明示的に較正し、より低いエネルギー領域へと導きます。これはより課題関連性の高いものに対応します。

何だと思いますか? エネルギーは今、論理的に一貫した推論軌跡に接続されています。つまり達成しようとしているのは、自己回帰的な次トークン予測から離れ、予測プロセスに統合できる過去の履歴論理シーケンスを少し持つことです。

エネルギー関数の新しい較正と正規化でこれを実現しようとしています。

アーキテクチャの詳細な構成

もう少し実用的にしましょう。これら二つのLLMの間に三つの追加要素が必要です。

一つ目はプロジェクション層です。簡単です。小さなモデル、例えば512層モデルがあるとします。Llama 3.1があり、例えば4,096次元だとします。アシスタントモデルの出力からベースモデルの入力への、ベースモデルの入力埋め込み空間へのマッピングが必要です。それだけです。

これが重みテンソルを持つAIモデルになることはすでに推測されていますね。なぜなら、これが凍結され、これが凍結されているなら、トレーニングプロセスでどのモデルを最適化するか推測できますよね。

ところで別のモデルについて話しています。ああ、エネルギーベースモデルをほとんど忘れるところでした。もちろん、このモデルも必要です。

これが発明の核心です。EBMです。彼らの場合は単純な多層パーセプトロンですが、好きなAIであれば何でもかまいません。MLPにしましょう。これらの潜在思考埋め込みを受け取り、エネルギーを評価し、特定のスカラーエネルギーポイントを予測します。

このエネルギーとは何でしょうか? 私の簡単な言葉では、エネルギーは論理的妥当性に相当します。

複数次元でこのエネルギー多様体を構築すると、お話ししたように、このエネルギー多様体での最適化プロセスが必要です。したがってランジュバン動力学較正を使います。

ランジュバンがすることは、思考埋め込みをさらに洗練させることです。悪い部分を削り取り、埋め込みをエネルギー景観の最小値へと下り坂に移動させます。これはバックプロパゲーションやAI学習のすべてでお馴染みのものです。

突然、このためのアーキテクチャがかなり密になります。アシスタントモデル、ベースモデル、AIモデルとしてのプロジェクション層、エネルギーベースモデル、そしてイプシロンノイズ振動を伴う勾配降下法に基づくランジュバン動力学較正方法論があります。

これが本質的にランジュバンです。すべてを実行し、ベースモデルは凍結されていることを忘れないでください。バックプロパゲーションとして何が返ってくるでしょうか? 何を最適化するのでしょうか?

プロジェクション層とエネルギーベースモデルの二つの重みを最適化します。もちろん、プロジェクション層とエネルギーベースモデルを統合して、タンデムでトレーニングできます。

しかし一般的には、ステップバイステップでやりましょう。すべてを実行し、すべてをバックプロパゲーションします。次に通常のAIトレーニングのように、プロジェクション層の重みを変更します。ベースモデルは凍結されているので、重みを変更しません。プロジェクション層の重みを変更するだけです。

そうすることで、ベースモデルが因果推論プロセスの最後に、より良いChain-of-Thoughtを提供できるようになります。それは正解により近いものです。トレーニングプロセスは、このシステムを確立する前は、かなり集中的になる可能性があることがわかります。

推論実行についてはまだオープンな質問がありますが、まだトレーニングプロセスにいます。

一歩下がって考えてみてください。何を構築したのでしょうか? トレーニングされたEBMモデルによって定義される高次元数学空間にエネルギー景観を構築しました。もちろんこれが理由です。

この多次元のエネルギー景観があるとき、その中の局所最小値を見つけたいのです。なぜならそこに分子構造や推論トレースの安定した解があるからです。

システムは今、ランジュバン動力学を使って、反復プロセスで思考埋め込みを洗練させます。思考埋め込みをエネルギー景観の最小値へと少し下り坂に押します。山を考えてください。谷の下のどこかに美しい湖があります。

これがまさに思考埋め込みを行きたい場所です。なぜならそこが安定した解だからです。どうやってやるのでしょうか? 古い友人です。エネルギー関数で勾配降下法を行います。

「なぜ?」と自問するなら、ランダム性は物理学と統計学において、確率分布から適切にサンプリングでき、貧弱な局所最小値に捕まらないようにするために重要です。

したがって、少しウィグルする追加項、絶対項が必要です。そうすれば局所最小値から脱出し、探索して大域最小値を見つけることができます。

素晴らしい。これで完了です。基本的には小さなエネルギーベースモデル、MLPをトレーニングし、次にアシスタントモデルの出力をベースモデルの入力空間、埋め込み空間にマッピングするプロジェクション層をトレーニングするだけです。

このトレーニングプロセスで何が間違う可能性があるでしょうか? 簡単に聞こえると言うかもしれません。もちろん、このフロー図を見ると、どのように始めるかがわかります。アシスタントモデルがあり、ベースモデルがあります。推論プロセスではなく、トレーニングプロセスについて話しています。

アシスタントモデルは凍結されています。次にベースモデルのより高次元のベクトル空間への投影があります。したがって、ベースモデルのベクトル空間で正確に作業します。

次にトレーニングプロセスがあります。トレーニングデータがあります。ランジュバンで、探しているパスと好きではないパスの分離があります。対照学習パラダイムがあり、それらを統合します。

損失関数を定義し、この損失関数でEBMモデルとプロジェクション層を一緒にトレーニングして、ベースモデルのより良い解を得ます。ベースモデルの出力を正解と比較するときはいつでも、どれだけ良いかがわかります。すべてを一緒にバックプロパゲーションすると、プロジェクション層の重みを変更し、EBM層の重みを変更します。そしてより良い解を見つけます。これが古典的な学習プロセスです。

トレーニングデータの生成と対照学習

正確にどうやってやるか見てみましょう。古典的な数学データセットのような標準的な命令チューニングデータセットを使用して、EBMのトレーニングデータをオンザフライで生成する必要があります。特定のペア構成があります。

問題と正しい解があり、これらがトレーニングデータのペアです。データセットからの問題-正しい解ペアです。

EBMをトレーニングするために、今ポジティブ思考を持っています。ポジティブ思考を生成しましょう。問題を凍結されたアシスタントモデルに入力します。複雑さがどうであれ、初期の潜在思考埋め込みのシーケンスを生成します。

この思考プロセスはペアからの既知の正しい解とペアになっているので、埋め込みのシーケンスをポジティブサンプルとしてラベル付けします。

これは正しい答え、既知の正しい解につながる可能性がある思考プロセスの例です。良い答えがありますが、対照学習には悪い答えも必要です。

EBMモデルのネガティブ思考を生成しましょう。これが賢い部分です。ポジティブを少し壊すだけでネガティブサンプルを作成します。論文の著者はこれに短時間ランジュバン動力学を使用しています。

非常にシンプルな説明では、良い思考埋め込みを取り、それを少し摂動させ、現在占めている低エネルギー領域から押し出します。これはランダムにノイズを加えるか、下り坂ではなく上り坂のエネルギー勾配の小さなステップを踏むことで実現できます。

これで明らかにあまり良くない思考埋め込みが作成されます。これが今の悪い思考です。良いものの少しずれたバージョンです。これ以上簡単にはできません。

すべてのトレーニングステップで、良い思考-悪い思考ペアを動的に生成します。EBM AIの唯一の仕事はそれらを区別することを学ぶことです。なぜなら良い思考には低エネルギーを割り当てたいからです。完璧な局所および大域最小値を持ちたいからです。悪い思考には高エネルギー、高スカラーを割り当てます。それらの場所から離れたいからです。

数学の知識ドメインで作業する場合、数学用の既存の問題-解ペアから学習信号を作成します。要約すると、EBMは対照的エネルギー学習を通じて埋め込み空間の潜在思考を較正します。EBMは一貫した推論トークンに低エネルギーを割り当て、もっともらしくない推論トークンに高エネルギーを割り当てます。

数学的フレームワークの実装

少し視点を変えましょう。フレーミングを変えましょう。これをコーディングしたい場合、まず数学的フレームワークを構築する必要があります。理論物理学フレームワークがあって初めて、C++やPythonでエンコードできるからです。非常に短い時間、少し物理学をやりましょう。

損失関数の設計があります。ここに元の論文からのスクリーンショットがあります。損失関数をどのように定義するか見せたいのです。単純にLLM損失関数とプロジェクションを含むEBM損失関数の合計です。

単純にそれだけで、見慣れない奇妙なものではありません。お話ししたように、高と低があります。低エネルギー潜在と高エネルギー潜在です。ターゲットデータ分布からのポジティブサンプルとネガティブサンプルです。これがまさに今お話ししたことが、少しの理論物理学の定式化で見えるものです。

LMの損失関数と数学的最適化方法論に必要な勾配流を詳しく見てみましょう。

ランジュバンサンプリングステップを通じた言語モデリング損失の勾配伝播を分析します。少し数学があり、勾配定式化に到達します。素晴らしい。

しかしこれは最初の項の勾配にすぎません。二つ目の項の勾配を探していることはご存知でしょう。二つ目の項はEBMモデル用でした。

いくつかの思考の後、論文のすべての詳細を読むことができます。元の論文をご覧ください。この損失関数の勾配もここで見つかります。この美しい公式で。ランジュバンステップを通じた勾配伝播のより詳しい解釈があります。そしてなぜこの特定の結果に到達するのか。

そして単純に足し合わせます。損失関数がLLM損失関数とEBM損失関数の加算であることが正確にわかります。最も単純なケースでそれらを一緒に足しただけで、それらのナブラがここにあります。

したがってこれが今の勾配定式化です。これでC++、Python、好きな言語でコーディングしたい場合のアイデアが得られます。コードLLM、コードアシスタント、何でも持っているものに「これを好みの言語でコーディングして」と言うのです。

メインの理解部分に戻りましょう。再びフレーミング、視点を変えましょう。原理的にEBM損失からの勾配は何をするのでしょうか?

EBMモデルとプロジェクション層を教えます。お話ししたように、組み合わせることができます。ポジティブ例が低エネルギー領域に着地し、ネガティブ例が高エネルギー領域に着地するような思考をどのように作成し変換するか。局所および大域最小値への勾配降下法が欲しいからです。

大規模言語モデル損失からの勾配は、ランジュバンステップとプロジェクション層を通じてバックプロパゲーションされ、もちろんプロジェクションを洗練させます。ベースモデルの重みは凍結されているからです。

これでプロジェクション層の重みテンソルが再構成される方法を「教える」ことになります。アシスタントの出力を思考埋め込みに変換する方法で、EBMには良く見えるだけでなく、次のステップでベースモデルに入力されたときに、ベースモデルがトレーニングデータの正解に非常に近い正しい最終テキストを生成できるようにします。

トレーニングプロセスが複数の層と複数の損失関数に分割されていることがわかります。それほど単純ではありませんが、彼らはこれに対する素晴らしい数学的解決策を見つけました。したがってお話ししたように、EBMとランジュバン動力学は相互依存しています。

次の簡略化ステップでは、EBMがChain-of-Thought構築における良い推論ステップを構成するものの知識を提供し、ランジュバン動力学がその良い推論ステップに向かって移動する行動を提供します。これが主な違いだからです。

もう一度繰り返す必要があるかもしれません。自己一貫性を使用しません。10個の推論トレースを生成するとか、LLMに100個の推論トレースを生成させてそれらを比較するとか、自己一貫性アルゴリズムがあってこのデータセットで最も支配的なこの100個の中から単一の推論トレースを選択するということはしません。

効率的でありたいのです。高速でありたいのです。時間が重要です。このEBMとランジュバン動力学で、これはしないと言います。自己回帰LLMの次トークン予測を生成しますが、この次トークン予測のために、LLMの前にプロジェクション層とアシスタントモデルがあり、EBMモデルがあり、動的勾配降下法計算があります。

さらに洗練させて、次のトークンがEBMモデルのトレーニングを考慮して絶対に正しい次トークンであるようにします。EBMモデルやプロジェクション層をトレーニングするための非常に美しい高品質のデータがあれば、ベースモデルの出力は他の何よりも優れたものになります。

しかしEBMやプロジェクション層のトレーニングデータの品質が最高でなければ、いくつかのトラブルに陥ります。

エネルギー景観の比喩的理解

別のフレーミングを試みます。お話ししたエネルギー景観は高次元空間、サブ空間です。美しい因果推論トレースのための単一の時間ステップでの単一思考トークンの適切性、良さを評価します。

まだLLMにいることを忘れないでください。まだ自己回帰的次トークン予測があります。すべての単一時間ステップでこの次トークン予測を改善したいだけです。

ランジュバンはこの反復で1つの完全な推論トレースを構築しながら、この景観をステップバイステップで横断します。別の例を挙げましょう。山にいます。何という偶然でしょう。物理学が好きです。何という偶然でしょう。やりましょう。

あなた、アシスタントモデルは、任意の場所にいます。これが現在の思考コンテキストです。次の単一ステップを提案します。山で次の一歩を踏み出すとき、次の潜在ステップはAIの次の潜在思考トークンです。

山にGPSシステムがあるとしましょう。これがもちろん追加ガイドとして持っているEBMです。このEBMは、現在の場所から特定のステップを踏むことの難しさをエネルギーパラメータで即座に評価します。

山の景観に立っている場合、またはAIのエネルギー景観に立っている場合、このEBMは今、立っている場所から可能な次のすべてのステップのイプシロン環境、景観全体を見ます。

そしてGPSでより良い較正があります。これがランジュバン動力学でお見せしたものです。提案されたステップにコミットする前、実行する前に、GPSが計画を修正します。

「うーん、状況をさらに分析しました。エネルギー景観をさらに分析しました。提案されたステップは少し上り坂です。右にわずかに調整すれば、勾配を下って、安定した解がある、はるかに安全な低い地面に着地します」と言います。

単一の提案されたステップを洗練させます。山地に立っている場合、またはAIの場合、単一の次の提案されたトークン予測を洗練させます。

そして私たちは両方ともステップを踏みます。山でも、AIでも。洗練され、較正されたステップです。そして今、新しい場所にいます。私もです。

そして今、すべてが再び始まります。コンテキストには今、以前の較正された思考が含まれています。そして今、これを繰り返します。次の安全なステップに着地するために、アルプス地域での次のステップを改善したGPS較正ステップがあります。

これが起こっていることです。ボルツマン方程式から、熱伝達やその他すべてから物理学の数学的公式を取り、コンピュータサイエンスに適用しますが、アイデアはシンプルです。

山のどこかに立っているような形で提示できます。今夜泊まりたい山小屋という目標、ターゲットに到達したい場合、次のステップは何か、前進する道は何か、次のトークン予測は何か。

これがまさにEBM Chain-of-Thoughtフレームワークが非常に効率的である理由です。100個のChain-of-Thoughtトレースを生成して、どれが最良のトレースだったかを評価するのではありません。1つのEBM Chain-of-Thoughtトレースを構築しますが、最大限の注意とGPS予測を使います。

実験結果とベンチマーク評価

結果は何でしょうか? 彼らはアイデアを持っただけではありません。このシステムを構築しました。このシステムを実装しました。そしてシステムをチェックし、ベンチマークしました。

結果がここにあります。異なる方法論で達成できる精度を見ると、オレンジ色でゼロショットChain-of-Thoughtゼロショットアシスタント、またはLoRAファインチューニングが赤で表示されています。次にCoCoNutがあります。ここにSoft Chain-of-Thoughtがあります。そして最後に今日の方法があります。

数学ベンチマークの精度を見ると、この結果が表示されます。一貫性率を見ると、この結果が表示されます。

本当に深く掘り下げたい場合、この論文自体だけでは理解できなかったので、私がしなければならなかったことをお勧めします。

戻ってSoft Chain-of-Thoughtの論文を読まなければなりませんでした。これです。一つ前のものです。なぜならこのモデルの上に構築され、新しいコンポーネントを統合しただけだからです。

しかしSoft Chain-of-Thoughtが構築された主な理由と主な数学的説明、主な思考は今日の論文には提示されていませんでした。2025年5月27日の論文に隠れていました。彼らがこれを構築し、このSoft Chain-of-Thoughtを説明したものです。

一つが他の上に構築されていることがわかります。現在の研究の直前の研究を少なくとも読まなければなりません。そうしないと現在の論文と現在の理解をデコードできませんでした。

パフォーマンスデータを見ると、ゼロショットChain-of-Thought、LoRAファインチューニング、CoCoNut、Soft Chain-of-Thought、そしてもちろんこの論文で持っていた新しい方法と比較されています。異なるベンチマークで、最後の列の平均がわかります。

Soft Chain-of-Thoughtと比較して、はるかにシンプルで、70.5パーセントのパフォーマンスでしたが、今は72.5パーセントのパフォーマンスです。個人的には、この2パーセントポイントが本当に必要なのか少し疑問です。

構築しなければならなかったものを考えてみてください。アシスタントモデルを構築しなければなりませんでした。ベースモデルがありました。プロジェクション層がありました。プロジェクション層をトレーニングしなければなりませんでした。

プロジェクション層に統合されたEBMモデルがありました。しかしそれらもトレーニングしなければなりませんでした。構築しなければなりませんでした。次に単純な勾配降下法ではなく、少しイプシロンウィグルを伴う勾配降下法を適用しなければなりませんでした。

トレーニングプロセス自体全体がありました。トレーニングデータを生成しなければなりませんでした。そして推論実行があり、さらに最適化がありました。

たった2パーセントポイントの改善のために、多くの多くのことが進行しています。これはお勧めする運用モデルでしょうか? いいえ。これは美しい実験です。次世代AIモデルの方向性を示しています。何を改善できるでしょうか? トレーニングプロセスをどのように改善すべきでしょうか?

これはさらなるAIモデルのための内部トレーニング最適化のようなものです。

しかし残念ながら、著者がこの新しいモデルに組み込んだすべての複雑さを考えると、常識のようないくつかのベンチマークを見ると、エネルギー最適化を何もしなかったSoft Chain-of-Thoughtとほぼ同じ結果に固執しています。

おそらくあなたが次の素晴らしい新しい思考を持っている人です。このモデルをさらに最適化する方法があり、2、3、4、5ヶ月後に最初の論文を発表するかもしれません。「素晴らしいアイデアがありました。これに基づいて構築します。私は今、以前の研究者の肩の上に立っています。AIモデルをさらに改善できます」と。

これは素晴らしいことです。これが私のYouTube動画の目標です。楽しんでいただけたことを願っています。二つの新しいAI研究論文を分析するのは少し楽しかったでしょう。

購読するかもしれません。メンバーになりたいかもしれません。私のチャンネルに参加してください。

とにかく、次の動画でまたお会いできることを願っています。