階層的推論モデルHRM 2.0:AIにおける新しいアトラクター動力学

階層的推論モデル(HRM)2.0は、わずか700万パラメータという小規模ながら従来の大規模モデルを凌駕する推論能力を持つAIシステムである。本研究では、HRMが複雑な数独を解けるのに最も簡単な問題で失敗するという逆説的な現象を分析し、その背後にある潜在空間のアトラクター動力学を解明している。驚くべきことに、HRMは段階的に推論しているのではなく、初期化に最も近い固定点を「推測」しているに過ぎず、グロッキング現象が訓練段階だけでなく推論段階でも発生することが明らかになった。この発見は、次世代の小型高性能AIシステムの開発に重要な示唆を与えるものである。

Hierarchical Reasoning HRM 2.0: NEW Attractor Dynamics in AI

Hierarchical Reasoning Models are a powerful alternatives to autoregressive Ai models like ChatGPT. Today we further opt...

小型で高性能なAIシステムHRMの登場
再帰がもたらす革新的アプローチ
標準的なトランスフォーマーの限界を超えて
MITのRLMとの違い
潜在空間での推論がもたらす課題
学生の思考プロセスに例えると
数学的定式化と固定点仮説
上海と清華大学の最新研究
PCA分析による推論軌跡の可視化
驚くべき発見:正解後の破損
MITの再帰型言語モデルとの比較
エネルギー景観とアトラクター分析
ライバルアトラクターへの滑落
HRM 2.0への道筋
訓練と推論でのグロッキングの違い
推論ではなく探索
非凸な最適化表面
推論ではなく推測

小型で高性能なAIシステムHRMの登場

こんにちは、コミュニティの皆さん。お帰りなさい。今日は階層的推論モデル2.0と呼ばれる、小さくても非常に知的なAIシステムについてお話しします。私のチャンネルDiscoveryへようこそ。最新の研究論文を見ていきましょう。そうですね、私たちの古いおじいちゃんGPT-5のことは知っていますよね。はい、GPT-5はもう本当に古いので、GPT-6モデルが登場するのを待っているところです。

でも今日は、小さくて知的な存在について話しましょう。HRMです。階層的推論モデルのことですね。さて、HRMにはたった2つの層しかありません。8つのアテンションヘッドを持つ再帰型潜在トランスフォーマーです。そして、ここで固定点仮説と呼ばれるものを探究していきます。エネルギー景観の中で遭遇する実際のアトラクターを分析します。

これは推論をより深く理解するのに役立ちますし、もしかしたら次世代のAIを構築するために必要なグロッキング現象の説明さえ見つけられるかもしれません。より小さく、より知的で、おそらくデータセンターも少なくて済むような。

再帰がもたらす革新的アプローチ

では、HRMについてですが、もしご存じなければ、再帰、再帰がここでの主なテーマです。簡単に言うと、これは思考時間をモデルサイズから切り離します。

つまり、同じ層、同じ数万個の構造に信号を100回ループさせることで、実質的には最大100層の深さを持つネットワークを作成したり、シミュレートしたりできるのです。ここでの洞察は、再帰によって本当に小さなAIモデルが、理論的には任意の深さの論理問題を、アーキテクチャからの巨大なメモリサイズではなく、より多くの時間をかけることで解決できるということです。

基本的に、2つのモジュールがあります。潜在状態に対して高速更新を実行する低レベルモジュールと、高速更新をより安定したグローバル状態に統合する高レベルモジュールがあり、異なるn段階があります。これだけです。

標準的なトランスフォーマーの限界を超えて

さて、階層的推論モデルについて、ここで非常に簡潔に、わずか1分だけ説明します。なぜかというと、私たちは標準的なトランスフォーマーアーキテクチャ、つまり次から次へとトークンを生成するだけで推論プロセスで失敗するGPT-5アーキテクチャに満足していないからです。

覚えていますよね、2025年10月に「Less is More:小型モデルによる再帰的推論」という論文がありました。そこでは、たった700万パラメータでこのような再帰的推論モデルを構築すれば、非常に特定のタスクにおいて、パラメータ数が0.01%未満でDeepSeek R1やo3-Mini、Gemini 2.5 Proを上回ることができることが示されました。

もちろん、メインの論文はこちらの階層的推論モデルで、私たちはすでにそれを見ています。そして覚えていますよね、非常に有名なグラフです。数独の極端な例と9×9の数独の例において、すべてのGPTシステムが完全に失敗してゼロだったのに対し、私たちの小さなHRM、本当に小さなモデルが、0%よりもはるかに優れた美しい精度でそれを解くことができたことを示しました。

さて、すべてを1つの動画で見たい方は、こちらの動画をどうぞ。6ヶ月前のものですが、すべてをまとめています。覚えておいてください、HRMは再帰型潜在空間モデルです。

MITのRLMとの違い

さて、始めましょう。ちなみに混同しないでください。ちょうど2週間前に、MITがRLMモデルと呼ばれるものを開発したことをお見せしました。いいえ、Iの部分がフェーズシフトしています。これは再帰型言語モデルです。

注意してください、このMITの定義は、私たちが話そうとしているHRMとは別物です。これも再帰的ですが、特定の潜在空間で動作します。混同しないように気をつけてください。

それでは、MITのRLMのシーケンス・トゥ・シーケンス再帰を見てみましょう。ここでは、トークン埋め込みのシーケンス全体を繰り返し処理します。しかし、私たちのHRMでは潜在から潜在への再帰があります。階層的推論モデルでは、入力テキストを一度静的な表現にエンコードし、その後、別個の潜在状態ベクトルを初期化します。潜在状態はより低い次元の潜在状態ベクトルを持つことができ、この計算はこのベクトル上でのみ進化します。

利点が欲しいなら、本当に安価です。なぜなら、シーケンス・トゥ・シーケンス再帰では、毎回1,000トークンを自己注意メカニズムで実行しなければなりませんが、ここでは低次元状態でベクトル演算を行うからです。素晴らしいですね。

潜在空間での推論がもたらす課題

ええ、重要になることがあります。シーケンス・トゥ・シーケンス再帰はシーケンス全体を更新するため、トークンに多かれ少なかれ根ざしたままです。入力表現が進化するものなので、入力をほとんど忘れることはありません。

ええ、これは約2分後に、潜在から潜在への再帰によって、このシステムの思考プロセスが現実から非常に遠くまで漂ってしまい、モデルが数学的には安定しているが論理的には間違っている固定点を幻覚し始める様子をお見せするときには、完全に異なるものになります。

ですから、HRMモデル、階層的推論モデルを改善する必要があります。ほとんど誰もそれらを使用していないことにお気づきでしょう。

では最適化しましょう。もし何か欠点があれば、ねえ、最適化しましょう。そうすれば、GPTモデルの競合相手になるかもしれません。

学生の思考プロセスに例えると

問題を再定式化させてください。再帰型言語モデルは、難しい段落を何度も何度も読む学生のようなものです。ハイライトを引き、テキストを読み直し、何度も何度もテキストの理解を洗練させます。

階層的推論モデルは、段落を一度読み、目を閉じて、頭の中で問題を解こうとする学生のようなものです。これはより速く、推論のように感じられますが、新しい研究が示すように、目を閉じている時間が長すぎると、そこにないものを想像し始めます。

そしてこれが、HRM 2.0、つまり私たちの小さな高知能で極小の推論モデルの改良版に進みたい場合に対処しなければならない固定点違反です。

数学的定式化と固定点仮説

もう少し数学的な定式化が必要なら、単純なマッピングの代わりに、今では再帰関数が定義されています。モデルは入力埋め込みとそれ自身の隠れ状態に対してt段階ループします。それから固定点仮説があります。

このアーキテクチャの理論的正当化は、固定点sが存在することです。仮定は、無限大に行くと、推論ベクトルが安定した解の状態に収束し、そこでsが正確に私たちの解になるということです。

理想的には、モデルが特定のクエリに対する正しいロジックを見つけたら、そこにとどまるべきです。これが現在起こっていないことをお見せします。

上海と清華大学の最新研究

これが今日のメインの論文です。こちらは上海交通大学中国物理学科と清華大学、北京の清華大学カレッジです。素晴らしい。2026年1月15日に発表されました。「あなたの推論モデルは推論しているのか、それとも推測しているのか?階層的推論モデルの機械論的分析」。素晴らしいですね。

このグラフでは、いくつかの数独パズルの簡単な例から始めて、HRM 1.0の現在の問題をお見せします。それから説明に進み、再帰が単なる推測である可能性があることを確認します。特定の数学空間で偽のアトラクターを特定するかもしれません。そして改善を見ていきます。

再度見ていただけますが、LLMの思考の連鎖の極端なバージョンでも、GPTシステムはまだ非常に限定的なパフォーマンスですが、このHを使えば、単一の問題でも古典的なGPTシステムを上回ることができます。

PCA分析による推論軌跡の可視化

推論軌跡は潜在空間にあり、ここではPCAを選択します。マッピングのために最初の2つの主成分を使用します。数独パズルを見ると、セルが赤なら間違った答えで、セルが緑なら正しい答えなので、かなり簡単です。

では始めましょう。ええ、PCAはお馴染みですね。著者たちは興味深いことを発見しました。数独を実行し、HRMに非常に複雑な9×9の数独を与えたところ、しばらく考えた後、見事に解きました。素晴らしい。

そして彼らは素晴らしいと言いました。でも今度はそれをもっと簡単にしました。最初の行以外はほぼ埋めて、「さあ、数独はすぐに解けた」と言いました。しかしシステムは考え続け、正しい解を間違った解に変更しました。

つまり、思考プロセスは正しい解に到達したときに止まらず、思考プロセスは内部的に続き、修正され、最終的に誤った結果を提供しました。これは奇妙です。どうしてこんなことが起こるのかと思うかもしれません。ここで勾配動力学を理解する必要があります。なぜこのように間違った答えへの更新が続くのか、内部メカニズムを理解する必要があります。

驚くべき発見:正解後の破損

著者たちはここで引用して言います。「衝撃的なことに、HRMは非常に早い段階で正しい答えに到達した後でも、潜在状態に不必要な更新を加えることで、頻繁に答えを破損させます」。まあ、これは起こり得ることです。

でも、もっと興味深いのは次のケースです。ほぼ完成した数独があります。欠けているセルは1つだけです。これは世界で最も簡単な数独です。そして何だと思いますか?同じ9×9グリッドの非常に難しい数独を解くことができた同じシステムが、1つのセルだけが残っている場合、ここで失敗するのです。

それを見つけようとします。見つけようとして間違った解を見つけ、それから考え続け、クエリ内の値も修正し始めます。

これはHRMでの完全な失敗で、マスクされたトークンが1つだけの極端に簡単なパズルです。これはどうして可能なのかと思うかもしれません。

MITの再帰型言語モデルとの比較

さて、MITの再帰型言語モデルに戻りましょう。入力が10,000トークンの場合、1つの思考ステップは、これら10,000トークンすべてに対して自己注意を実行する必要があります。

私たちのHRM潜在では、モデルがこの10,000トークンを少数の潜在状態トークン、高次元ベクトルであっても圧縮すると、最悪の場合でも1つのトークンしかありません。したがって、1つの思考ステップは、凍結された入力に注意を向けている1トークン構造で数学を実行するだけです。

ご覧のとおり、圧縮があり、今私は考えました。ああ、この圧縮が今このHRMをロジックに、低次元の数学空間に強制しているのではないか。潜在状態の次元性が十分に高くないため、これがボトルネックなのかもしれない。そのため、特に9×9の数独において、元のテキストの幾何学的根拠を失っているのかもしれない。潜在空間への圧縮は損失のある方法論であり、これがそうなのではないかと思いました。

いいえ、しかしそれは計算を非常に単純化するので、最終ステップに必要な精度が失われます。難しい数独を解けるのに、可能な限り最も簡単な数独で失敗する他のどんな理由があるでしょうか。

エネルギー景観とアトラクター分析

潜在状態と構築される推論信号を見ると、構築がここから始まっていないことがわかります。興味深いことに、最も簡単なケースはアトリウムの解空間にはありません。少しでもコヒーレントな潜在状態を構築しようとする前に、何を経なければならないかを見てください。それから真ん中で潜在状態ができて、それから推論を始めることができます。

では、このサイクルの最初にここで何が起こっているのでしょうか?HRMにもっと多くの学習の機会、より良くなるための訓練能力を提供する方法を尋ねるだけです。

今、問題は数学空間が次元から小さすぎるということではなく、問題はこの空間の床が間違って傾いているということであることがわかります。さて、床から変更しましょう。これを数学的に正しいベクトル場の表現に再定式化しましょう。見てみましょう。

このHRMは難しいパズルで訓練されました。潜在空間の領域では、訓練によって深く滑らかな漏斗が掘られ、正しい答えに直接つながります。つまり、ベクトル場は非常によく定義されており、このベクトル空間には美しい最小値があります。

そして何だと思いますか。簡単な領域、この空間の簡単な領域では、モデルは訓練中にいくつかの簡単なパズルをほとんど見ませんでした。したがって、この領域、この簡単な領域では、数独が完成していて1つのセルだけが欠けている訓練データがなく、この特定のケースでモデルを訓練することを忘れていました。

したがって、この地形はマッピングされていませんでした。この数学空間には十分に重要な勾配がありませんでした。平坦か凸凹でした。そして今、これはドリフトが起こった理由を説明しています。

ライバルアトラクターへの滑落

10ファクター依存性を持つ簡単な領域にAIモデルを落とすと、ここで最小値、答えへとこの特定のベクトルを引っ張る強い勾配がありません。代わりに、難しいパズルを解くことから学んだ運動量が、今システムを内部的にオーバーシュートさせ、難しい数独パズルを見つけることから学んだことを適用させます。そして、私たちがライバルアトラクターと呼ぶ、この多様体上にある別のアトラクターに滑り落ち始めます。

しかし、このライバルアトラクターは、本当に難しい数独パズルの訓練を受けたモデルにとってより安定していると感じられる間違った答えです。これを見てください。これは本当に美しいと思います。

HRMです。最も簡単なケースで、PCAの2次元投影があります。緑は開始点で、赤は終了点です。そして、自明なケースでは、スタートから始めて、勾配がありますと言います。下へ下へ下へ下へと行き、ここで最小値に到達します。美しいですね。

もちろん、自明でない成功パスがあります。ここから始めて、ほぼ平行に進みます。そして、システムが迷う領域があります。あちらへ、あちらへ、あちらへと行きます。最小値または最大値、最適化しているものは何でも、そこへの勾配の方向がどこにあるのか決心がつきません。

それで迷いますが、しばらくすると、「ねえ、あそこを見て、これが解への道だ」と言います。このとき私は考えました。ねえ、これは知っている。でもCの自明な失敗を見てみましょう。どこかから始まって、それから平らな床の上では、この床でここで本当の最小値を見つけることができません。ここには十分に強い勾配がありません。そして自明でない失敗では、ここでオーバーシュートして勾配空間のどこかへ行き、完全に間違った収束をします。

HRM 2.0への道筋

これらすべてが起こり得るので、今私たちのHRM 2.0では、これが起こらないように注意する必要があります。オーバーシュートなどがないように。私が言ったことを覚えていますか。ねえ待って、これはグロッキングのようだ。どこかで迷子になった。はい。

1日ではなく、おそらくここで2日かかって、それから3日目に突然ここで解を見つけます。そしてええ、著者もここで言っています。ねえ、これはグロッキングダイナミクスがLLMの学習プロセスがあるときや、ここでのみ起こっているのではなく、これはHRMでもここで起こっていることを示していますと。美しくそれを見ることができます。y軸に損失があり、緑で成功があります。

そして、背景のダークブルーでわかりませんが、失敗があります。失敗が振動しているのがわかります。ここで収束します。いいえ、全く方法がありません。損失は減少していませんが、成功、ここでの緑でも見てください。

見てください、かなり長い時間、ここでプラトーにいます。プラトーを保ち、それから損失ゼロに行くことを決めます。そしてこの長い長いプラトーがあって、それから損失ゼロへとガクンと落ちます。

これで興味深いのは、LLMから知っているグロッキングを今HRMで見つけたことです。そして問題は、この単純化されたHRMのケースでそれが何であるかを学び、私たちの知識をLLMに戻すことができるかということです。

訓練と推論でのグロッキングの違い

注意してください。ええ、グロッキング。具体的にしなければなりません。古典的なケースでのグロッキングは、異なるエポックがあるときのLLMの訓練動力学に使用されます。ここでは、訓練動力学ではなく、推論ステップを伴う実際の推論動力学なので、同じ言葉グロッキングを使用しています。

注意してください。1つは純粋に訓練用で、これはリアルタイムの実際の推論動力学ですが、同じ現象について話しています。さて、言ったように、グラフはここでこの美しい崖を示しています。突然モデルが収束します。いいえ、損失は平坦で高いままです。つまり、AIモデルは正しい解を見つけることがほぼ完全にできませんが、これは最適化プロセスが全く機能していないことを意味します。

それから、10ステップ後としましょう。何らかの理由で突然モデルが12ステップ後に解を見つけ、ほぼ垂直にゼロまで落ち、訓練段階ではなく、ここでの推論段階で完璧な解が得られます。

しかし、これは何を意味するのでしょうか?これは、プラトーが多かれ少なかれ探索アルゴリズムに過ぎないことを意味します。え?なぜなら、線がこのプラトー上でほぼ平坦である最初の10ステップの間、AIは例えばパズルを部分的に解いているわけではないからです。

推論ではなく探索

潜在空間をさまよって勾配を探しているだけです。つまり、高エネルギー領域、これを混乱と呼びましょう、に閉じ込められて、ただ盲目的にアトラクションの盆地を探しています。しかし、これには結果があります。なぜなら、このAIモデルは最初の10ステップの間、全く推論していないことを意味するからです。では、何をしているのでしょうか?

それから落下があります。突然の落下、これをグロッキング発生、グロッキング段階の発生と呼びましょう。潜在ベクトルがここでエネルギー景観の尾根を越えて、正しい低い盆地に落ちます。動力学は魅力的なので、盆地の端に当たると、固定点である底へとほぼ瞬時に螺旋を描いて下ります。

したがって、このグロッキング動作は、HRM 2.0において、中間ステップがただ無駄な計算であることを証明しています。推論は起こっていません。

モデルがパズルを解くのに12ステップかかるが、損失が著者が示すようにステップ12でのみ落ちる場合、ステップ1から11は推論していませんでした。単なる無駄なエネルギー、問題の悪い初期化から脱出するために必要な無駄な処理時間でした。

非凸な最適化表面

これは、HRM 2.0にとって、説明は、扱っている最適化表面、多様体、潜在空間構造で構築している多様体が、いくつかの急な尾根を持つ非凸であるということです。モデルはプラトー段階を浅い局所最小値に捕らわれて過ごし、ほとんど動きません。

それから、グロッキングは推論解釈においてこの特定の瞬間で、ベクトルが最終的にこの端を越えて大域的最小値に滑り込み、したがって正しい答えを見つけるときの相転移です。

連続的な推論プロセスではないことを理解すれば、最適化できる量は膨大です。待つだけでモデルが推論し、パスを試し、推論、推論、推論していると思っていました。今、この段階では推論が全くないことがわかりました。

しかし肯定的な側面は、これはHRMが正しい開始条件を与えられれば、非常に少ないステップで解を得ることが完全に可能であることを示しているということです。美しく正しい潜在状態の複雑さを構築し、この多様体がこのために最適化されていれば。

しかし、ここでのHRMは実際には潜在空間での探索を戦略化していません。だからさらに最適化できます。最適化する方法があります。これは、著者による引用を意味します。

推論ではなく推測

私たちは結論します、と著者は言います。HRMは、再帰的アーキテクチャを使用して人間の推論行動を模倣しているにもかかわらず、この解に徐々に近づくという常識的な方法では推論しません。もし人間の知能との類推を主張するなら、それは推論プロセスというよりも推測プロセスに似ています。

絶対に美しい。ここでの引用、そして最終的にHRMは、遭遇する最初の固定点に固執することで解を推測します。そして今、靴下をしっかり履いていてください。それは通常、その初期化、開始位置に最も近い1つの固定点です。

信じられない。これが推論であり、これがHRM 2.0の推論です。おお、わあ。前進する道がたくさん見えます。このシステムを最適化できる非常に多くのパスが。なんて美しい研究でしょう。これを見なければなりません。

しかし今日は、さて、これでビデオの終わりです。何か新しい情報、新しい洞察を提供できたことを願っています。もしかしたら、グロッキング現象にも興味があるかもしれませんね。

では、ねえ、なぜ購読しないのですか。よければいいねを残してください。私のチャンネルのメンバーになってください。とにかく、次のビデオでお会いできることを願っています。