AI:知能は鍵ではない

AI研究
この記事は約17分で読めます。

本研究は、大規模言語モデルの推論能力を「高速思考」と「低速思考」に分解し、小型モデルが推論で失敗する理由を定量的に分析したものである。従来、小型モデルの推論性能不足は知識不足が原因とされてきたが、実際には「過度な思考」による自己破壊的な修正が主要因であることが判明した。一方、大型モデルの優位性は劇的に高い知能ではなく、より慎重で安定した推論プロセスにあることが明らかになった。

AI: Intelligence is Not the Key
AI Thinking, Fast and Slow: Intelligence is Not the KeyAll rights w/ authors:Decoupling Knowledge and Reasoning in LLMs:...

AI推論における知識と推論能力の分離分析

みなさん、おかえりなさい。今日はまた素晴らしい新しいAI研究を紹介するで。これはトランスフォーマーアーキテクチャにおける推論と知識に関する研究や。

みんなも経験あるやろ?LLMが失敗した時に「これは必要な知識が足りへんかったからか?それとも推論能力が不足してたからか?」って疑問に思うことが。もしくは「LLMが持ってるパラメトリック知識を使って正しく推論できへんかっただけで、グラフRAG最適化を適用したらええんちゃうか?」って考えることもあるやろ。

高速思考と低速思考の実験設計

そこで今回の新しい研究では、シンプルな実験をしたんや。まず「高速思考」っていうのをやる。LLMに対して「出力はちょうど1文字だけや。推論も何もなし、質問も追加テキストも句読点もなし、ただ1文字だけや」って指示するんや。

これでLLMのパラメトリック知識だけに基づく直接的な反応を得られる。AIが持ってる何十億もの重み構造に保存された最も即座で高確率なパターンに基づく、いわば「直感的な反応」を引き出すんや。これで即座に精度を測定できる。これを「a」、つまり高速モデルの精度と呼ぼう。これが知識検索能力の直接的な定量測定になるんや。

もちろん、次は思考の連鎖による深い推論プロセスもやらなあかん。低速思考用のプロンプトを使うんや。もちろんこれも評価せなあかん。評価にはGLM4 plusっていう別のLLMを使った。

これでも精度が得られる。これを「a slow」、つまり低速思考の精度と呼ぼう。これは知識検索と深い推論の両方が発生した後の最終結果を表してるんや。

複数モデルでの検証結果

今日の研究の著者らは「よし、これを色んなモデルでやってみよう」って言ったんや。Q1って書いてるのはQ1 2.5のことや。QW32Bっていうのは32B preview、Llamaは3、Gemmaはまだ2、Phiはもう4や。

こうして我々が知ってるクラシックなモデルを使って、クラシックなデータセットで実験した。大量のデータがあるから問題なし。分析には十分な量や。

まず、LLMのトークン消費量を見てみよう。Q1の1.5Bから32Bまで、正解・不正解に関係なく、実は驚くほど狭い範囲内でトークン消費量が収まってる。でも他のモデル、例えばQからQWに移ると、わお!突然2倍になることもある。面白いな。

例えばLlama 1BやLlama 70Bで正解・不正解を推定するのに必要なトークン消費量は違うかって?実はほとんど同じやったんや。

ドメイン特化知識の影響

次にドメイン特化知識について見てみよう。Aが数学、Bが医学や。結果を見てほしい。数学は推論により高い要求を課すことがはっきり示されてる。オレンジの低速推論が医学の推論よりも高くなってるのが分かるやろ。これは興味深い。何かが起こってるんや。

同じモデルの高速思考と低速推論を比較すると違いが出てくる。これを調べなあかん。X軸でモデルサイズが増加してるけど、一般的に同じ傾向が見られる。システム1とシステム2の思考の間には大きな違いがあるんや。医学では完全に違う結果になる。なんでやろ?もっと詳しく見てみよう。

アンカリング効果の発見

彼らはまた「アンカリング効果」っていうのも発見したんや。人間でも知られてるアンカリング効果やけど、面白いことにAIシステムでも起こってるんや。

例えば選択肢問題があって、Aが正解やとしよう。でもちょっと情報を撹乱したり、RAGから別の情報を持ってきて「正解はBみたいやけど、よく分からん」っていう情報を与える。そうすると文脈学習やRAGシステムで持ち込まれた先入観的な情報があって、このアンカリング効果が最新のモデルでも起こるんや。

これは信じられへん結果や。また15億から320億パラメータまでのモデルサイズで、アンカーありとアンカーなしの性能差を調べたんや。

性能データを見てみよう。これが高速同期で、これが思考の連鎖による非常に低速な演繹同期や。

LLMにアンカーを与えると、性能はそれほど良くない。8ポイントや。でもアンカーなしだと、システムは「ああ、ちょっと固有の知識があるな」って思って、39という完全に違う素晴らしい性能を示す。差を取るとアンカーありマイナスアンカーなしでマイナス31になる。

システム2、この低速思考モデルを見てみよう。アンカーを提供すると効果がある。アンカーなしと比較すると、アンカーありでは40の性能しか達成できないのに対し、アンカーなしでは62や。

一般的に低速思考と高速思考を比較すると、「すぐに答えを出せ」という場合、大きな性能差がある。でも差だけを見ると、高速システムの方がアンカーにずっと敏感や。これを増やすと面白い結果が見える。高速への効果は多かれ少なかれ同じままや。32Bでマイナス26、1.5Bでマイナス31や。

でも低速の場合、アンカリングの効果はずっと小さい。システムが従おうとする因果推論レジームがあって、結論に到達しようとするからや。興味深いな。

デルタパラメータの導入

アンカーありマイナスアンカーなしは、アンカリングによる精度低下を示してる。大きなバイアスがあって、低速同期での性能低下は一般的により少ない。青い線、ここの青い数字を見てほしい。一般的により軽微で、推論調整がアンカリング効果を効果的に軽減してることを示してる。

これは気をつけなあかん。でも知っといて良かった。この差、これがデルタや。新しいパラメータを導入するのをほとんど忘れるところやった。高速と低速、そしてその差。デルタはちょうど32で、分かるやろ。

彼らは「このデルタは興味深いけど、色んなモデルでやってみると、デルタの中にはより深い対称性がある」って言ったんや。数学的にデルタファクターを見ると、デルタには他の構成要素もある。

デルタは単一の量ではない。LLM内の2つの競合する認知力の綱引きの結果なんや。デルタCとデルタO、つまりデルタ修正とデルタ過剰思考がある。そして正規化率もある。

数学的分析の詳細

数学的な式をちょっと見てみよう。詳細に入らずに言うと、デルタにはデルタC(デルタ修正)と第2項のデルタ過剰同期がある。数学的背景を見ると、推論調整には2つの効果があることが分かる。

LLMは高速思考で犯したエラーを修正するけど、同時に見つけた正解を間違って上書きもしてしまう。つまり正の効果と負の効果がある。問題は全体の正味の効果は何かってことや。

正確なパラメータが欲しいから、修正率と過剰同期率も正規化して見なあかん。

またデルタCとデルタOがある。デルタCは修正ゲインや。これはLLMの推論によって生成される価値で、最初は間違ってたけど、LLMの推論プロセスによって今は修正された全質問の割合や。これは素晴らしい。性能が向上するからな。

でも同時に過剰同期損失ゲインも見つけた。利得と損失や。これも推論によるコストやけど、これは最初にLLMが正しく答えた全質問の割合のうち、後に最適でない推論プロセスによって間違った答えに汚染されたものや。LLMは「これが正解かどうか分からん」って判断して推論するんやけど、結果的に間違った答えに推論してしまうんや。

この両方の効果の正味推論ゲインは、利益マイナス損失がデルタや。デルタは単一ではなく構成要素があることが分かる。

推論知能と推論無謀性の概念

この修正率を推論知能と呼びたい。モデルの初期直感が間違ってた場合、パラメトリック知識ベースのみに基づくその直感的な間違いを、このLLM推論が修正する確率は何かって聞いてるんや。これがRCで、修正率の確率は簡単な数学式で表せる。

過剰思考率についても同じことをする。これを推論無謀性と呼ぼう。モデルの初期直感が正しかった場合、それを過剰同期し続けて推論プロセスを破綻させ、間違った答えに到達する確率は何かってことや。これも簡単な式で表せる。

これらの率は重要な要因で、モデルの行動について多くを教えてくれる。デルタを率と2つの要因に分解することは非常に啓発的なんや。この新しい論文を読めば分かるけど、なぜ小さなモデルが推論でよく失敗するかを説明してる。

15億パラメータのモデルのような小さなモデルが推論に失敗するのは、推論能力がないからやと思ってた。でもデルタの分解があると、特別な効果があることが分かった。無謀性の高い率が知能を上回り、正味マイナスのデルタになるんや。

一方、一般的に優れた推論性能を達成する大規模言語モデルでは、これは必ずしもLLMとして劇的により知的になることではない。引用符付きの知的やけど、効果が起こってる。スケーリングとともに過剰同期の特定率が急激に低下することで、大幅により慎重で、より慎重になるんや。これは新しい洞察や。

具体例による説明

例を挙げよう。これは僕の例で、公式ではない。僕の内部思考や。役に立つかもしれんし、間違ってるかもしれん。

小さなモデル、8Bモデルがあるとしよう。高速推論または高速思考、モード1またはシンキング1モードの精度は60%や。60%の時間で答えを知ってる。

知能率、まともな修正率があるとしよう。40%や。高速思考中に犯した最初の間違いの40%を修正できる。

慎重性について話すと、あんまり慎重やない。小さなモデルとして高い過剰同期率を持ってる。17%としよう。どのモデルでもええ。答えを変更したくなる誘惑があって、正しく知ってた70%の時間で、間違った欠陥のある推論プロセスを通じて最終的に破綻してしまうんや。

データは60%、40%、70%や。実世界の例でやってみよう。100問のテストセットで推論ゲインデルタを計算してみる。

今持ってる知能からの利得は何か?100問のうち40問は間違ってる。その40%を修正するから、知能からの追加利得で16問正解する。でも侵入者からの損失もある。

60問は正しかった。60と40で100やけど、過剰同期して17%を破綻させる。つまり10問未満の正解が失われる。達成した正味推論ゲインは何か?信じられへんやろうけど、16マイナス10でちょうど5.8や。

推論は役に立つけど、自己妨害、つまり自己修正するけど間違った方法で修正する傾向によって、その利益が大幅に鈍化されてるんや。

大型モデルでの状況の違い

700億の訓練可能パラメータモデルのような大型モデルでは状況が違う。高速思考、システム1思考の精度は81%や。本当に良い。

知能をまた見てみよう。論文のデータによると、知能は劇的に高くない。実際38%や。答えを知らない間違いを修正する生の能力は、ほぼ同じなんや。小さな例では40%やったのを覚えてるやろ。今はさらに少し低い。

でも慎重性を見てほしい。ここで全てが変わる。このモデルは大幅により慎重で、より注意深くなる。過剰同期率が7%まで急落する。推論性能がずっと安定してて、正しい答えを汚染して間違った答えに修正する可能性が低いんや。

正味の効果は何かって?計算してみよう。また100問のテストセットがある。Llama 37Bモデルで、知能からの利得プラス7、軽率さからの損失マイナス5.7、正味推論ゲインはプラス1.5や。

これを見て「どうしてこんなことが可能なんや?」って思った。どうして大きくてより強力な推論モデル、推論モデルやとしよう、が突然より少ない正味推論ゲインを持つんや?Llama 70Bモデルのデルタは1.5で、小さな7Bモデルよりも小さい。どうしてこんなことが可能なんや?

普通なら大規模言語モデルの推論プロセスははるかに信頼性が高くて効率的やと思うやろ。より高い利得をもたらすべきやないか?

そこで気づいたんや。僕の推論、人間の推論で間違いを犯してた。70Bモデルの推論ゲインデルタが小さいのは、まさにその初期知識、高速思考の精度が81%とずっと高いからや。

簡単で中程度の難易度の問題のほとんどを、タイプ1、高速同期モードを使って既に解決してるんや。純粋な知識検索システムを使ってな。推論プロセス、システム2同期またはなんでも呼びたいものは、今や最も困難で複雑な問題だけに取り組むことになる。どんなプロセスでもエラーの可能性が高い問題や。

でも大きな利得の可能性は、その優れたベースライン性能によって実際に減少してるんや。

個人的な考察

個人的な考えがある。70Bモデルでは、トランスフォーマーに符号化された知識と推論データの表現がもはや2つの別々のものではない、2つの別々の不格好なモジュールではないと思うんや。

何だか70Bモデルまたはより大きなモデルの広大で堅牢な知識ベースが、高い偽性能精度に反映されて、既に純粋な推論構造に暗黙的に推論されたパターンを含んでると感じるんや。

つまり、特に教師から生徒モデルへの蒸留プロセスをする時に見せたように、単に事実ベースだけでなく、DeepSeek R1から推論トレースを取り出して、その推論トレースが小さな生徒モデルの事前訓練データセットになるんや。純粋なデータと純粋な情報だけでなく、暗黙的に推論されたパターンである知識もある。

つまり純粋な知識と純粋な推論の区別は、モデルをより高いモデルサイズにスケールアップする時、特に蒸留モデルがある場合、実際にはそれほど大きくないと思うんや。高速同期が非常に良いのは、低速同期修正をあまり必要としないからで、訓練された推論トレースには既に複雑な問題への解決策を提供するパターンがあるからや。

でもこれは僕の個人的な見解や。

研究の主要な結論

論文に戻ろう。彼らは「デルタに焦点を当てずに、正規化率に焦点を当てよう」って言ってる。RCとRO(過剰思考)で、ベースライン知識を正規化するものや。

「これが我々の研究の主要な結論や」って言ってる。

LLMの推論プロセス自体の内在的品質を比較するには、ベースライン知識を正規化する率RCとROを見るべきや。これは理にかなってる。

70Bモデルの推論プロセスがはるかに信頼性が高いか効率的なのは、より大きなデルタを生成するからではない。今見たように生成しない。大幅に少ない自己妨害でその結果を達成するからや。

過剰同期のこの比率がずっと少ない。より安定した推論パターンマシンなんや。その推論プロセスの流れは、ずっと正確で的を絞った、より精緻なものや。可能だと思うたびに飛び回って自己修正してるわけやない。より安定したより進歩した70Bモデル全般や。

スケーリングの主要機能に関する考察

聞いてる皆さんにとって興味深い質問は、モデルをスケールアップすることの主要機能は、この特定のLLMにとってより堅牢で安定した内部世界モデルを作成することなんかってことや。世界モデル、報酬モデル、強化学習を覚えてるやろ。まさにここにいるんや。

自分自身の思考のノイズによって簡単に妨害されないようにするためや。これが小さな言語モデルと大きな言語モデルを区別する主要な効果なんか?特にシステム1思考とシステム2思考において。

これが主要な効果なんか?少なくとも論文は推論が単一ではないことを示した。それ自体がパラメータではない。文脈的関係なんや。

ここで示すフレームワークは、推論利益のデルタが高度にドメイン依存であることを定量的に証明してる。数学と医学の例を示した。数学では大幅にプラスやけど、この特定のLLMの基礎となるパラメトリック知識ベースが弱い場合、歴史のような知識集約的分野ではマイナスになり得る。

あまり性能の良くない知識ベースがある場合、グラフRAG最適化で助けることができる。「モデルが性能良くない場合、グラフRAGを活用すべきか、推論トレースを続けるべきか?」という質問に近づいてる。答えはそうや。でも僕の答えを出す前に、著者らが言った別の質問があった。

トランスフォーマー層での局在化

「今発見したことが起こってるトランスフォーマー層の正確な場所を特定できるやろか?」って言ったんや。別のパラメータがある。もちろんやけど、シンプルな類似度測定や。タイプ1とタイプ2の間、高速同期と低速同期の間のものや。

このCKAは高速同期と低速同期の2つのモードの間で、トランスフォーマーの各特定層について計算される。どうやるか?シンプルな指標や。計算方法はここにある。

主要なアイデアは何か?ここで主要論文を紹介するのがええかもしれん。これは中国北京の清華大学によるもので、2025年7月24日に発表された美しい論文や。多くの事実データを提供してくれるけど、時々僕が例えば持ってる主要な質問への答えは開かれたままにしておく。でも本当に興味深い論文や。見てほしい。

著者らは「人間の二重システム認知理論もLLMに適用するっていう出発アイデアから始める」って言ってる。これは厳しいアイデアやと思うけど、彼らの定理に従おう。この二重システム認知理論は、LLM推論を2つの異なるけど補完的な段階に分解するんや。

LLMにも段階1と段階2の思考があると見てる。段階1は知識検索で、LLMが学習した情報にアクセスして初期応答を迅速に生成する。このビデオの最初に段階1のプロンプトと推論調整を見せた。

これが段階2で、段階2のプロンプトも見せた。実験できるで。ここで思考の連鎖生成などを通じて初期応答を洗練すると言ってる。あまり考えすぎずにパラメトリック知識からの知識検索がLLMの段階1や。

典型的な「ステップバイステップで考えて検証して反応して撤回して」みたいなことを始めると、これはLLMの推論調整ではない。これが僕がLLMの段階2と呼ぶものや。これを人間の脳からAIに本当にマッピングできるかについては、大きなクエスチョンマークを付けたい。でも従おう。

認知段階の分離

AIシステムの2つの認知段階を分離するために、LLMは単純に2つの異なる認知モード、高速同期と低速同期で答えを生成するようプロンプトされる。このビデオの最初にプロンプトを既に見た。

認知モード間の違いが分析され、知識と推論の一種の分離があることが分かった。特に推論はさらに細分化される。

推論調整と呼ぶものは、修正のデルタCと過剰同期のデルタO、または修正率と過剰同期率に分解される。これが彼らが作業してる仮定で、絶対的真のモデルかどうかは分からん。

でも興味深いことに、彼らのアプローチは小さなモデル推論の限界を分析するより多くの情報を提供してくれる。

なぜ小さなLLMが推論プロセスで大幅に失敗するのか?彼らの答えは、小さすぎて推論ができないからではない。小さなLLMで起こってる推論調整を見ると、この中に2つの力があると言ってる。

修正力があるけど、性能を破壊する過剰同期もある。でもこの過度の思考が小さなモデル推論でずっと支配的で、特に過剰同期問題について小さなモデルを最適化する方法のアイデアを与えてくれる。これは全く気づいてなかった。

LLMも人間のように2段階で答えを生成するという仮説に従うと、LLMは記憶知識を検索し、LLMは思考の連鎖推論を適用する。美しい。

この思考に適用されるエントロピー性能は知らんけど、従おう。高速思考は代数ドリルで、低速同期は推論調整や。美しいものがある。既に式は通った。

洞察と認知階層

洞察は何か?知識検索と推論調整がニューラルネットワーク内の異なる階層レベルで動作することを示すこの認知階層は、既に知ってることの一種や。でも定量的にチェックしやすくしてくれた。これは良い側面や。

もちろん新しいパラメータがある。カーネル中心化カーネルアライメントと呼んでる。これは単純にニューラルネットワークアライメントの類似度測定や。AとBがある。Q1 7BとLlama 8Bがある。サイズは本当に近い。

X軸で30層以上の層数があって、この新しいパラメータが見える。これが類似度パラメータであることを覚えてほしい。調べてる特定の層での類似度の低下を示す1未満のより低いCKAが見える。

ここで全てのCKA曲線が、下位層での初期平坦化に続いて上位層での低下を示してる。このモールでこれが見える。このモールでは少し少ないけど見える。最初に話した全てのデータセットで見える。これは興味深い現象や。

層における推論の局在化

何を示してるか?下位層では同期モード間で類似のままやけど、トランスフォーマーアーキテクチャの上位層、後の層では類似度でより多くの分岐があることを示してる。トランスフォーマーアーキテクチャの最後の層で本当の推論が起こってることは既に知ってる。

つまり段階1または低速思考が最初の20層くらいで起こるってことや。ここを見ると、これはほぼ平坦やからな。両方のモードが下位層での知識検索を共有するけど、低速同期は追加で上位層での推論調整に関与するから、突然CKAパラメータが下がって、類似度測定が大幅に減少するんや。

C結果は、知識検索と推論調整が主に下位層と上位層に局在してることを示唆してる。知識検索は下位層、推論調整は上位層だけや。興味深いことに、異なるレベルでのこれらの性能指標を見てほしい。

典型的なAI科学者への示唆

典型的なAI科学者にとって何を意味するか?標的介入のためのツールセットを持ったってことや。このビデオを「なぜモデルが動作しないのか?解決したい複雑さレベルに推論能力が与えられてないからか、それとも単にそれについての十分な事実がないだけか?」という質問で開いた。

彼らは今、知識不足は継続的事前訓練またはグラフRAGが必要だと教えてくれる。追加データ、新しい知識を提供せなあかん。しかし、LLMの性能に推論不足があることを発見したら、これは今、教師ありファインチューニングまたはより強力なモデルからの思考の連鎖推論トレース蒸留を要求する。

これは興味深い洞察で、何かが動作してない時に、今やツールセットを持ってるってことや。彼らはLlamaのQ&A 2.5でのみテストして、なぜこのLLMが機能してないかをさらに理解し、理解できれば、標的を絞った行動を取れる。問題の間違った修正にもう計算サイクルを無駄にしない。

研究の総括と意義

興味深い研究で、既に知ってた知識の一種や。小さな推論言語モデルがLLMのような性能を持たない理由を新しい方法で説明してる。スケーリング自体にあるのではなく、小さな推論モデルが既に正しい答えを単に破壊する特定の過剰同期プロセスにもあるんや。

これは絶対に驚くべき洞察や。この研究を見てほしい。楽しむやろう。この種のビデオが好きなら、チャンネル登録して、次回の動画で会おう。

コメント

タイトルとURLをコピーしました