思考連鎖のブラックボックス：私たちの知識の先へ

7,563 文字

The Chain-of-Thought (CoT) Black Box: AI Reasoning We Can't Decode.AI "Thought" Process: Completely in the Dark (w/ CoT)...

こんにちはコミュニティの皆さん、また戻ってきてくれて嬉しいです。さて、思考連鎖（Chain of Thought）についてはもう全てを知っていますね。思考連鎖は私たちが2年間取り組んできたもので、私の前回の動画「AIの推論は嘘である」で、グローバル企業が私たちに語ったことを詳細に検証し、素晴らしい結果を得ました。しかし、一つの問題が残っていました。
もし覚えていれば、私はこう疑問を投げかけました。なぜLLaM 38Bのinstruct modelが、条件をシャッフルしただけの教師あり微調整で、思考連鎖を使った教師あり微調整と同じパフォーマンスを発揮できるのでしょうか？私は思考連鎖が、より深い理解や複雑な推論構造を得るための強力なツールだと思っていました。それが必要ないとわかって、これは一体どういうことなのか。
この動画を始めたとき、今朝、私は「思考連鎖について全てを知っている」と思っていました。しかし違いました。2025年3月3日に発表されたこの論文を読みました。プリンストン大学と上海大学からの論文で、彼らは「思考連鎖トレーニングの基礎となるメカニズムは、最も単純なループトランスフォーマーの場合でさえ、まだほとんど解明されていない」と述べています。
これが今回のメイン論文になります。彼らは思考連鎖がどのように機能するのか、どのようにトレーニングを行うのかについて新しい理論を展開しています。以前私たちは「Transformers learn in-context by gradient descent」という論文を読み、多層トランスフォーマーが線形自己注意機構を持つ場合、各層がグラディエント降下の一ステップを実装し、線形回帰タスクのグラディエント降下を実装できることを理解しました。
次にMITとGoogleの2024年の論文「Can Loop Transformer learn to implement multi-state gradient descent for in-context learning」を見ると、損失関数の非凸性にもかかわらず、ループトランスフォーマーによるコンテキスト内線形回帰のグラディエントフローの収束を証明しています。
さらに2024年8月のプリンストン大学の論文「How transformers learn causal structure: logical reasoning with gradient descent」では、トランスフォーマーが勾配ベースのトレーニングアルゴリズムによって因果構造を学習するプロセスがまだ十分に理解されていないことが示されました。彼らは潜在的な因果構造を学ぶ必要があるコンテクスト内学習タスクを導入し、簡略化された2層トランスフォーマー（アーキテクチャの大幅な簡略化）が最初の注意層に潜在的な因果グラフをエンコードすることでこのタスクを解決することを証明しました。
また、東京大学数理情報学科の論文「Transformers learn nonlinear features in context: non-convex mean-field dynamics on the attention landscape」では、MLPレイヤーによって最適化されたトランスフォーマー内での非線形表現を持つコンテクスト内学習がどのように発生するかを調査しました。彼らはMLPレイヤーが学習可能な関数のクラスをバロン空間に拡張し、事前トレーニング中にタスク共通の特徴をエンコードする本質的な役割を果たすことで、コンテクスト内学習の柔軟性を大幅に高めることを示しました。
さて、この動画のポイントですが、天才的なひらめきが欲しいところです。残念ながら、プリンストン大学と上海大学の論文は思考連鎖トレーニングの問題に対処するために、新しい数学的フレームワークと簡略化された数学的フレームワークを開発しようとしていますが、実は私たちは思考連鎖がどのように機能するのか、どのようにトレーニングコンセプトに組み込まれているのか全く理解していないことがわかりました。
新しい数学的フレームワークを説明する代わりに、視覚化を試みました。これも簡略化ですが、この論文とその含意を理解しようとする私自身の試みです。
メッセージAとメッセージBがあり、その間に複雑な思考があるとします。これは一段階のプロセス、もし望むなら一段階の勾配降下と考えてください。思考連鎖では、トレーニングのために最初から与えるのではなく、中間状態や中間情報があります。つまり、D1、D2、D3、D4といったサブプロセスがあります。
これは興味深いことで、両方のケースで数学的勾配の景観自体が異なります。ここでは一段階のプロセスですが、こちらでは四段階のプロセスです。これを解空間のベクトル空間と考えてみてください。ここでは一回のジャンプですが、こちらではサブスペースを探索しています。この角を見て、あの角を見て、最終的な解に至るまでこの解空間の領域を探索します。
青色の部分、思考連鎖なしでは、トランスフォーマーは入力コンテキスト（私がAと呼ぶ例やクエリ）を単一の最終予測B（ケースでの行動方法）に直接マッピングするようにトレーニングされます。トレーニングの目的はこの最終投影の誤差を最小化することだけに焦点を当てています。これにより、トランスフォーマーの学習フェーズを直接的な一段階の計算に向かわせる勾配景観が生まれ、最適には勾配降下の単一ステップになります。
緑色の思考連鎖のパスでは、トランスフォーマーのトレーニング目標が少し変わります。同じ開始点と終了点がありますが、その間に何かがあります。トランスフォーマーは最終的な答えBに至る中間的な推論ステップを表すトークンのシーケンスを予測するようにトレーニングされます。重要なのは、トレーニングの損失がシーケンスの各ステップで内部的に計算されることで、最終出力だけではありません。これにより、トランスフォーマー自体にとって、より豊かで構造化されたトレーニング信号が生成されます。
この構造化されたトレーニング信号は、デコーダーの自己回帰的な性質を考えると、トランスフォーマーと相互作用します。思考連鎖シーケンスの各ステップでのトランスフォーマーの出力は、次のステップの入力となります。この自己回帰的なフィードバックループがステップバイステップのトレーニング信号を導き、トランスフォーマーが内部動作で前の予測に基づいて重みテンソルの推定を反復的に改善する方法を学ぶことを可能にします。
この余分な思考連鎖ステップ、この余分な推論パスを経ることには利点があります。単一のジャンプと比較して、はるかに詳細で豊かだからです。このマルチステップの勾配降下手法による反復的な改良のトランスフォーマーアーキテクチャへの内部化は何を意味するのでしょうか？これは、思考連鎖トレーニングが次世代のトランスフォーマーの事前トレーニングフェーズを最適化したいということです。
思考連鎖トレーニングはトランスフォーマーに前方パス内で勾配降下を展開するよう教え、勾配降下のステップに似た重みベクトルのシーケンスを予測することを要求することで、トレーニングプロセスはトランスフォーマーに勾配降下の反復的な性質を内部化するよう強制します。トランスフォーマーの重みは、一つの勾配ステップから次のステップへの変換をエンコードするように調整されます。
線形自己注意層はCOT目標でトレーニングされると、GD更新の数学的操作を近似することを学びます。この簡略化では、キーバリューペアではなく、WiとW行列を持つテンソル操作の簡略化があります。
直感的に理解するとどういう意味なのでしょうか？これは思考連鎖トレーニング目標がトランスフォーマーアーキテクチャの内部学習のための勾配景観を再形成するということです。直接予測に最適化された景観から、順次的な反復的改良に最適化された景観に移行します。この新しい数学的景観により、勾配ベースの最適化アルゴリズムが、非思考連鎖目標の下では以前にアクセスできなかったマルチステップの勾配降下を実装するパラメータ設定を見つけることができるようになります。
2025年3月3日のプリンストン大学と上海大学の新しい論文の中核的なアイデアは、トランスフォーマー内での思考連鎖トレーニングを数学的に解決できないため、思考連鎖とは何か、トランスフォーマー内部で何が起こっているのかを理解しようとする新しい数学的フレームワークを構築するために大規模な簡略化を行う必要があるということです。彼らは約2年間の伝統に従い、「これは複雑すぎるので解決できない、だから簡略化しよう」と言っています。
彼らはキークエリの相互作用をシミュレートするようなW行列と、値射影と残余接続のアナログであるV行列を持つ新しい数学的フレームワークで操作しています。詳細な数学的記述が論文にありますが、基本的なアイデアを理解しましょう。
この論文での簡略化は、トランスフォーマーの自己注意機構を線形にすることです。これは単にソフトマックス関数を取り除いています。この線形性は数学的分析を行うために不可欠です。彼らは新しい数学的フレームワークを考案し、「これなら解決できる」と言っています。そうしないと複雑さが信じられないほどになるからです。
さらに、私たちはトランスフォーマーのアーキテクチャを1層だけに削減しています。これは本当にクレイジーです。専門家でさえ思考連鎖が何であるかを理解しようとする場合、実際のトランスフォーマーアーキテクチャでは解決できないので、1層だけに削減します。現実世界は複数層の自己注意FE4 NWで構成されていますが、この論文では1層だけです。これは複雑さを大幅に削減し、そのトレーニングダイナミクスを何らかの形で数学的に把握できるようにしています。
さらに、この論文は別々のキー、クエリ、値の射影行列をVとWに統合しています。彼らはパラメータ空間と自己注意の式をさらに簡略化して、新しい数学的解決策を生み出すことができるようにしています。この論文の主な目的は思考連鎖を持つトランスフォーマーのトレーニングダイナミクスを理解することで、正直に言うと、どこかで誰かがすでに解決していると思っていました。MITやハーバードなど、どこに行っても理解があると思っていましたが、全く近くもないことが判明しました。
この論文は、思考連鎖プロンプトが導入されたときのトランスフォーマー（大幅に簡略化されたトランスフォーマー）のトレーニングダイナミクスを調査しています。思考連鎖の秘密は何か、なぜそれが機能するのか、どのようにさらに最適化できるのかを理解しようとしています。論文には10分の動画で説明するには複雑すぎる美しいアイデアがいくつかあります。
個人的に、この論文を読んだのは昨日だけなので、最初の考察に過ぎませんが、プリンストン大学と上海大学による簡略化された線形トランスフォーマーに関するこの美しい論文の理論的発見がどの程度一般化できるかは、実世界の複雑な非線形多層LLMへの結果の変換は保証されていないと思います。私たちは多くの簡略化を行っており、論文を読むと「ワオ」と言うかもしれないほど複雑さがあります。
論文の洞察は本当に興味深く、魅力的で、思考連鎖の中核的な原理を捉えている可能性が高いのですが、これが実際のトランスフォーマーでどのように展開されるかを確実にするためには、さらなる研究が必要だと思います。トランスフォーマーアーキテクチャを最大限に簡略化して線形な一層操作にしても、数学をほとんど扱えないということは、思考連鎖がどのように機能するのかについて私たちがほとんど知識を持っていないことを示しています。
しかし、前回の動画から説明できなかった唯一のことで、アイデアさえ持っていなかったものがあります。さて、これは純粋なアイデア、純粋な推測であり、私がこれら全てをどう理解するかについてです。
思考連鎖を単一の推論ステップとして説明しようとしたときのことを思い出してください。マルチステップ推論があり、非常に抽象的な方法で思考連鎖がマルチステップ推論の絶対的な簡略化だと考えてみましょう。思考連鎖では、クエリの複雑さが高すぎるので、複雑さを一つの複雑なクエリから5つか10の低い複雑さのサブパート部分に減らし、各サブパートを個別に解決しようとします。そして全てを合わせて、最終的な結論に到達することを望みます。
高い複雑さを複数の低い複雑さのポートに分割するこの方法が、マルチステップ推論に何らかの形で関連しているとしましょう。前回の動画で示した例を思い出してください。論理的なタスクに15の前提があります。ここに15の点を置いて、数学的空間での15の異なるステップと15の特定の情報や知識点を示します。
曲線の形に留まりますが、操作している15の異なるパラメータがあり、それらは動き回ることができます。これは一種の推論空間、または人工的な数学的解空間だと考えてみましょう。これらの点が一つの角ではなく、解空間の良い概観を与えていることがわかります。
昨日から知っているように、LLMの推論は前提の順序に敏感であり、これが昨日の大きな欠点でした。私はこの問題を克服し、LLM推論を改善する方法を示しました。しかし、これに留まりましょう。
もし私たちがAからBへ行くためのシーケンスがあるとしたら、どういう意味でしょうか？最初の前提からスタートし、LLMの事前トレーニングデータやトレーニングデータセットの中に、「15の前提で論理的問題を解決するためにこのシーケンスに従えば、これが方法です」と示す特定の例のセットがあります。
単一のパスがあり、ループなどがあるかもしれませんが、前提をシャッフルし、複数のレイヤーに対して複数回これを行えば、同じ15の前提を通る複数の異なるパスに到達する可能性があります。これをLLMのトレーニングデータとして提供して、マルチステップ推論を改善することも解決策になり得ます。前回の動画では、特定のDAG上で位相的ソートを使用して最適化する方法を示しました。
同じ数学的空間で作業していると想像してください。空間間の数学的投影が必要だと言うかもしれませんが、単純にして同じ空間にいると言いましょう。思考連鎖は複数の推論ステップがあるため、より良く機能することがわかりました。AからBへの複雑なジャンプを、D1、D2、D3、D4へのより少ない複雑な複数のジャンプに減らします。
15の前提があるマルチステップ推論に対して同じことを行うとしましょう。単に一つのパスを使用するだけでなく、これらのトレーニングデータがあり、この青い層が8層深いと想像してください。全ての可能な順列、変動を使用し、このマルチレイヤートレーニングデータを関連トレーニングデータとして使用して、マルチステップ推論を改善します。
今日、思考連鎖の数学的理論について学んだり、反映したりしたことは、この同一の数学的空間に転写でき、多かれ少なかれ同じことがここで起こっていることを理解しようとすることができます。マルチステップの推論タスクに対して複数の論理的前提がある場合、システムが学習するために可能にする異なるパスが多いほど、システムは同じ解決策に至る多くの異なるパスがあることをより良く理解し、思考連鎖でお見せしたように最初に改善します。
もし望むなら、マニフォールド構造を完全に変更し、完全に異なる最適化問題を持ちます。これは15の約束を持つマルチステップ推論でも当てはまります。
この動画の主なメッセージは、プリンストンの新しい論文の翌日に、この類推で主なアイデアを理解しようとしていることです。これはおそらく、新しい数学的フレームワークを理解しようとするのに役立つかもしれません。なぜなら、これは今私に説明されているからです。
前回の動画で、新しいトレーニングデータセットがあり、これをマルチステップ推論のトレーニングデータセットとして使用し、Hugging Faceから教師あり微調整があり、条件シャッフルがあると言いました。私の15の前提がシャッフルされるので、同じスタートと始まりがありますが、パスが学習する、つまり15の前提を通してAからBに至る全ての異なるパスです。
昨日、論理のための前提の可換性について示したことを覚えていますか？これは、トレーニングデータをシャッフルするだけで7%以上のパフォーマンスジャンプがある理由を説明しています。シャッフルによって59%のパフォーマンスに達しますが、教師あり微調整で思考連鎖が組み込まれている場合、またはA to Bへの思考連鎖推論チェーンを合成的に構築した場合、Claude 3.7の深い思考やその他のものによる場合は、前提をシャッフルするだけよりもパフォーマンスが低いことを説明します。
あるいは、ほぼ同じパフォーマンスのあるこちらに行きましょう。これはそれほど極端ではありません。つまり、シャッフル条件による教師あり微調整は、特定のデータセット、昨日の動画で説明した特定のベンチマークに対して81%を達成し、他のLLMによって人工的に合成的に追加された思考連鎖チェーンを持つ教師あり微調整は、同じパフォーマンスではなくても、同等のパフォーマンスにつながります。
これで、この論理的パズルがどのように可能なのかが解決します。私は思考連鎖が常により良い解決策をもたらすと思っていましたが、今わかることは、まず、私たちは思考連鎖がどのように機能するのか、最も単純な数学的モデルでさえ本当に理解していないこと、そしてこの条件シャッフルは特定のテストケースに対して思考連鎖と同じくらい強力であるということです。
そのため、少なくともアイデアを持っているので、今満足しています。この週末に座って、なぜこれが突然可能になったのかを示すことができる数学的理論を定式化することができるかもしれません。しかし、これは私にとって魅力的です。なぜなら、これは今、私が決して有効だとは思っていなかった情報の新しい断片だからです。
思考連鎖、絶対に魅力的です。この動画で何か新しいものがあったと思います。楽しんでもらえたなら、ぜひチャンネル登録してください。次の動画も来ますから。