AIの推論のウソ

9,079 文字

The reasoning lie regarding Large Language Models (LLMs). Including extended reasoning of CLAUSE Sonnet 3.7 or other thi...

こんにちは、コミュニティの皆さん。今日は、世界的なAI企業によって広められている「推論のウソ」について話したいと思います。
実は、何十万人もの人々がLLMを使って「いちごに含まれる”r”の数はいくつか」というようなテストをしたとき、これが本当に一から計算されたと思いますか？そんなことはありません。なぜなら、LLM推論実行時には特にキーバリューキャッシングがあるからです。トランスフォーマーのキーバリューペアのアテンション、隠れ状態は常にキャッシュされています。キーバリューキャッシュについてもっと知りたい方は、こちらの動画をご覧ください。
イェール大学とGoogleによるこの素晴らしい論文があります。これはプロンプトキャッシングに関するものです。LLMモデルの低レイテンシー推論のために使用するモデルアテンションがあり、これは素晴らしいことです。水を無駄にせず、エネルギーを無駄にせず、時間を無駄にせず、ハードウェア計算を無駄にしません。なぜなら、これらはすべて再利用のためにキャッシュされているからです。これは完全に理にかなっています。
イェールとGoogleが生成型LLM推論実行における計算オーバーヘッドを削減するための新しい技術「プロンプトキャッシュ」を導入したとき、これは素晴らしいアイデアだと思いました。頻繁に訪れるプロンプトセグメントのアテンション状態を事前に計算し、メモリに保存し、それらのセグメントが後のプロンプトに現れたときに再利用してシステムのレイテンシーを減らすというものです。これは素晴らしいことです。
トランスフォーマーアーキテクチャ、LLM、ニューラルネットワークから層の計算、テンソル乗算をすべて事前に計算し、特定のプロンプトセグメント用に事前計算されたものをすべて持っています。キーバリューキャッシュの上に構築することで、プロンプトキャッシュは単一のプロンプトから複数のプロンプトへのアテンション状態の再利用を拡張し、アテンション状態の再利用をモジュール化します。これは美しいことでした。
完全なテキストセグメントが個別に事前計算され、システムやクラウドに保存されているので、「いちごに含まれる”r”の数はいくつか」という2回目の同一クエリが来ても、AIマシン全体を再起動する必要はありません。計算は既に完了しており、トランスフォーマーの隠れ状態も既にあります。キャッシュされたセグメントが入力プロンプトに現れると、システムはメモリから事前計算されたキーバリューアテンション状態を使用し、同じナンセンスを再計算する代わりにそれを利用します。
これは、ニューラルネットワークでのアテンション計算が、キャッシュされていないテキストセグメント、未見のデータについてのみ必要であることを意味します。私の最新の動画の一つに戻ると、多くの人が「なぜあなたはそのような奇妙な名前、奇妙な相関関係、とても奇妙な名前を使うのですか？」と尋ねました。私はただキャッシュされていないコンテンツを作成したいだけです。私には奇妙な考えがあります。論理は、アイデア間の関係についてであり、文の表現の順序ではありません。
では、プロンプトキャッシングと世界的なAI企業による非常に高価なAPIを見てみましょう。スタンフォード大学による新しい研究があります。3週間前のものですが、今日がちょうど適切なタイミングだと思いました。スタンフォードは、言語モデルAPIにおけるプロンプトキャッシングについて調査し、15のAPIプロバイダーのうち7つでユーザー間のグローバルキャッシュ共有を検出しました。もちろんOpenAIを含む、APIに支払いをするところで、ユーザープロンプトのプライバシー漏洩の可能性が生じています。
しかし今日は、プライバシーの問題ではなく、ユーザー間のグローバルキャッシュ共有に焦点を当てたいと思います。彼らが監査した定義を見てみましょう：「グローバルキャッシング：キャッシュはAPIのすべてのユーザー間で共有されます」。ユーザーが特定のプロンプト、おそらく非公開情報を含むものを送信すると、誰が送信したかに関係なく、キャッシュされたプロンプトとのキャッシュヒットが発生する可能性があります。
アメリカにいるあなたが、オーストラリアや中国にいる誰かと同じ「いちごに含まれる”r”の数はいくつか」というクエリを持っている場合、なぜすべてのテキスト照合を再計算する必要があるでしょうか？それはグローバルにキャッシュされています。
スタンフォードは続けて言います：「これは攻撃者が他のユーザーの情報を潜在的に学習できるため、プライバシー漏洩の最も高いリスクをもたらします」。ただし、私たちはプライバシーに焦点を当てず、グローバルキャッシングという問題に焦点を当てています。
これらのグローバル企業は言います：「環境を守りたい。AIマシンを起動して最初から完全な計算をしたくない。繰り返し出てくる異なるテストや事柄にキャッシュされた値を使用する」。こうしてエネルギーコスト、水のコスト、利益を増やすことができます。素晴らしいウィンウィンの状況ではないでしょうか？
スタンフォードによるこの研究を見たい方は、データなどを含む素晴らしいGitHubリポジトリをご覧ください。これが私の最近の動画で、Deep seekのようなローカルなオープンソースのLLM、R1が好きな理由です。これは私のローカルデータ、ローカルデータベースにアクセスできる唯一のものです。そして「Minions」と呼ばれる美しい新しいプロトコルがあります。Papoなどと一緒に使用する場合、クライアント、会社、医療情報、財務データ情報などの特定のユーザー詳細がもう存在しない暗号化されたプロトコルのみを共有します。クラウド内のClaude 3.7が本当の深い思考を行い、それを私のローカルの復号化されたデータに変換することができます。
ローカルインテリジェンスにはメリットがあります。そしてオープンソースなので、必要な電気とコンピュータインフラだけで実行でき、セキュリティリスクがあるため、すべてのデータをクラウドプロバイダーに送信する必要がないことを確認できます。
この動画を開いて、もう少し詳しく見てみましょう。私の最後の2つの動画では、最新のLLM、最新のVision Language Model、GPT-4.5、Grok 3、Claude 3.7を比較しました。テスト時間がかかりましたが、推論の構造を見ていると、行ごとに読んでいくと、パターンが見えるのではないかと思いました。
特にClaude 3.7の拡張思考モード、テスト時間計算スケーリングを32k思考トークンで行った動画では、Deep seekのR1などのオープンソースと比較して非常に高価なモデルで、明示的な思考連鎖の推論構造にパターンを検出しているのではないかと思いました。そこで調査を始めました。
これは私のテストの一つです。15の手がかり、15の前提条件がこの論理テスト、この極端な論理テストにあります。コーディングではなく、推論、論理、因果関係の純粋な理解に関するものです。医学、金融、材料科学などどこにいても、システムが論理的推論を行うことができることを望みます。そして15の前提条件は単純にマトリックスを計算するか、配置されるべき構造を計算します。
これらの15の前提条件が独立している場合、交換性があります。これは論理的推論の重要な特性です。交換性とは、独立した論理単位は論理構造の本質を変えることなく自由に並べ替えることができることを意味します。
したがって、AIシステムの論理的推論では、独立した前提条件は交換可能です。文をここに置くかそこに置くかは問題ではありません。人間として、私たちはトピックがあることを理解しており、上から始めて下に進みますが、最後から、または真ん中から始めることもできます。交換性があるので、まったく問題ありません。
もちろん、これは大規模言語モデルには当てはまりません。1年前、Google DeepMindが「前提順序はLLMでの推論において重要である」という論文を発表しました。これは、人間には関係ないが、LLMには関係する前提条件の順序を意味します。なぜこれを知っているかというと、1年前に動画を作ったからです。
Google DeepMindはLLMが前提条件の順序に非常に敏感であることを発見しました。順序を変えると、パフォーマンスが最大40%低下する可能性があります。これはLLMの推論能力、推論インテリジェンスがまったく推論ではないことの最初の兆候です。前提条件の2つの文を入れ替えるだけで、交換の法則があり、論理自体に理論的または数学的な影響はありませんが、LLMのパフォーマンスは40%低下します。
そして、これはMITの2023年の美しい論文です。LLMの物理学について調査し、LLMの事前トレーニングに関するいくつかの重要な推奨事項があります。彼らが調査したことは、テスト順序がトレーニング順序、事前トレーニング順序と比較して逆になると、モデルの精度が劇的に低下するということです。
例えば、単一の事実ステートメント内に2つのエンティティを含むデータの場合、トレーニングが左から右への包含の場合、テストが右から左への包含の場合、精度は96.7%から0.1%に低下します。
LLMでは、人間にはない問題があります。LLMのインテリジェンスは、私たちが期待するものではありません。知性の出現、闇から出てくる光としての知性、これは嘘です。
バンダービルト大学、ニューヨーク大学、サセックス大学、オックスフォード大学などによるこの論文を見てみましょう。LLMをASBで訓練してBSAを学習させる簡単な例：「トム・クルーズの母親は誰ですか？」というと、システムは「トム・クルーズの母親は特定の人物で、特定の名前があります」と答えます。そして「この特定の名前の人の息子は誰ですか？」と尋ねると、システムは「わかりません、見当もつきません」と答えます。
論理の逆転コースはLLMでは実行できず、これはGPT-4でも2024年5月でも同じでした。おそらく「これらは古いシステムだ、GPT-4などはもう誰も使っていない、新しいLLMや美しいビジョン言語モデルはすべてずっと優れている」と思われるでしょう。
ここまでの証明された内容に基づくと、LLMは事前トレーニング段階で学んだパターンによって駆動される硬直した論理的推論順序に従っており、真の論理的理解、論理における知性の出現ではないことが示唆されています。
論理的推論では独立した前提条件は交換可能であり、手がかりの順序が結果に影響すべきではありません。最新のモデルで2日前にこれをテストし、実際の研究文献を探していました。
この論文を最初は理解できませんでした。これは、推論プロセスにおける前提条件と手順の順序がどのように推論と最終的な結論に影響するかを示すために設計されています。
彼らは思考の連鎖を調査し、思考の連鎖は単純だと思われていました。LLMを訓練し、思考の連鎖データで微調整や強化学習などを行うと、LLMはLLMに提示する前提条件の順序に関係なく、思考の連鎖で回答する能力を開発します。
ここに6つの前提条件があります。「ジャンボは眠くないという結論は真、偽、または不確かか？」という単純な論理テストです。LLMが構築する思考の連鎖を調査し、特にテスト時間計算スケーリングでは、これらのモデルの推論プロセスを本当に見ることができます。
ステップ1：「ジャンボが眠くない場合、矛盾はない」。これは仮説的なシナリオを設定する最初の仮定です。前提条件は青色で、思考の連鎖はは緑色です。
ステップ2：「ジャンボが眠っている場合、ジャンボは生き物である」。このステップは前提条件6、3、2、1を使用し、ジャンボが眠っている場合、子象やほ乳類であることを通じて生き物でなければならないと推論します。
ステップ3：「ジャンボが生き物である場合、ジャンボは象とほ乳類の両方であることはできない」。これは意図的に誤りまたは矛盾する前提条件である前提条件5を使用します。これはパズルの奇妙なルールに基づいて論理的矛盾を作り出します。
ステップ4：「象はすべてほ乳類である」。これはステップ3の結論と矛盾します。このステップは前提条件2を使用し、ステップ3で作成された矛盾を強調しています。
ステップ5：「したがって、ジャンボは眠っていない」。これは最終的な結論です。ジャンボが眠っていると仮定すると、ステップ4で示されるように矛盾が生じるため、ステップ1が唯一の有効なパートになります。
なぜこれがこのように奇妙である必要があるのか理解するのに時間がかかりましたが、前提条件の順序を変更し、交換性をチェックすることができます。しかし、思考の連鎖がこの推論順序のままであるか、それとも適応するかを見ることができます。
彼らは解決策も見つけました。思考の連鎖の並べ替えを行い、有向非巡回グラフを構築し、トポロジカルな並べ替えアルゴリズムを適用しました。彼らは、前提条件の順序変更における固有の制限に対処することで、LLMの論理的推論能力を向上させる方法を研究しています。
思考の連鎖推論のために訓練されたLLMは、真の論理的推論ではなく、洗練されたパターン追跡マシンになるリスクがあります。LLMは思考の連鎖を模倣することを学習できますが、基礎となる論理的依存関係の理解は浅く、前提条件の順序に依存しており、問題の提示や推論パスのバリエーションに直面すると誤りを引き起こす可能性があります。
これはAIの推論能力に対して壊滅的な声明です。LLMには少なくとも最小限の能力、知性とは呼びたくないかもしれませんが、推論のための最小限の能力があると信じていたからです。彼らは実験によって、事前トレーニングデータにはクエリに似たパターンがあり、LLMは論理的依存関係を理解せずに、単にパターンを見つけてそれに従うだけだと言っています。
グローバルAI企業はすべて、世界最高の推論モデル、深い推論を持つモデルだと私たちに伝えています。実際のところ、これは嘘であることが判明しました。
実験を行って確かめてみましょう。データセットが3つあります。イェール大学、ハーバード大学、NVIDIAなどによるFOLiEは、一階論理で注釈付けされた自然言語推論データセットです。データインスタンスがあると、システムは単純に一階論理で拡張された前提条件を特定の数学的表記で書くことができます。
2つ目のデータセットはAI2によるRuleTakerです。LLMに前提条件のセットによって結論が含意されるかどうかを判断させるもので、様々な推論の難しさをカバーしています。
3つ目は上海交通大学と深センの工科大学からの「論理的推論能力の診断」で、一階論理推論を常識的推論から分離するためのものです。
トレーニングデータセットができたので、5つの異なるシナリオでLLMトレーニングを行います：

トレーニングなし（オリジナルのLLama 3モデル）
データセットによる教師ありファインチューニング
条件シャッフリングを行った教師ありファインチューニング
思考の連鎖のトレースを含む教師ありファインチューニング
回答セットのシャッフリングを行った思考の連鎖のトレース

結果を見ると、Llama 3 8Bインストラクトの場合、未訓練では平均46%でした。教師ありファインチューニングを行うと61%に到達しました。条件シャッフリングを行った教師ありファインチューニングでは、このモデルで最高のパフォーマンスである69%に達しました。これは教師ありファインチューニングから7%の向上です。
しかし、明示的な思考の連鎖のトレースを含む教師ありファインチューニングでは64%にとどまり、条件シャッフリングだけの教師ありファインチューニングよりも低い結果になりました。このモデルでは思考の連鎖のトレーニングは必要なく、条件シャッフリングのみの教師ありファインチューニングの方が良い結果を出しています。
Mistral 7Bの別のモデルを見ると、未訓練から教師ありファインチューニングで45%から58%に向上し、14%近くの向上がありました。しかし、思考の連鎖を含む教師ありファインチューニングでさらに改善し、シャッフル版を含む思考の連鎖では67%に達しました。
このように、モデルの事前トレーニング段階によって異なる挙動をします。Mistral 7Bでは思考の連鎖の教師ありファインチューニングがパフォーマンス向上をもたらしましたが、全体的に最高の67%のパフォーマンスは、Llama 3の条件シャッフリングのみの教師ありファインチューニングの69%より低いままです。
これらの詳細を調査することで、異なるモデルについて学び、パフォーマンスを向上させる方法を理解することができます。これは非常に魅力的です。
グローバル企業が美しい推論、深い推論、最高のパフォーマンスの深い推論を持っていると言っていることを信じないでください。これはすべてパターン認識、それだけです。
重要な発見は、前提条件がどのように構造化されているか、そして思考の連鎖のために前提条件が特定の順序で期待されることについて、LLMが事前トレーニング段階で順序依存のパターンを学習していることを示唆しています。
AIはまだパターンを追跡するマシン、パターンを発見するマシン、パターンに従うマシンであり、これは私にとって少し失望的です。思考の連鎖におけるステップの順序は論理的な有効性にとって重要であり、ステップは後のステップが前のステップに基づいて構築される依存関係の順序に従わなければなりません。ステップを誤って並べ替えると、現在のLLMの論理的な流れが破壊され、無効な推論につながります。
事前トレーニングデータに類似したトレーニング例があり、類似した前提条件の流れが提示されている場合にのみ、LLMを使用すべきです。そうでない場合、無効な推論解決策を提示する可能性があります。これは現在のLLMの深い推論のパフォーマンスの多くを説明しています。
思考の連鎖を構造化された推論プロセスとして見ると、有向非巡回グラフを構築することができます。この視覚化は、思考の連鎖が単なる線形のステップシーケンスではなく、論理的依存関係の構造化されたプロセスであることを強調しています。
この研究によれば、LLMの知性によって生成される思考の連鎖についての答えは、明らかにノーです。パターンを追跡するマシンにすぎません。
LLMが思考の連鎖の推論を実行するためにトレーニングされると、特に固定または限られた順序変化を持つデータセットで、表面的に効果的であるが真の論理的理解を表さない事前定義されたステップシーケンスのパターンを学習する可能性があります。これを読むのは本当に痛いですが、真実です。
人間のように各ステップを論理的に前のステップと前の前提条件から導出することを学ぶのではなく、LLMは事前トレーニングの思考の連鎖のレシピに従うことだけを学んでいる可能性があります。それが知っている唯一のレシピであり、これは多くの点で制限的です。
このパターン追跡方法論は、実際の論理的依存関係が存在する場合でも、それを上書きする可能性があります。LLMはステップBがステップAに論理的に従う理由と、両方が前提条件にどのように関連するかの深い理解ではなく、学習したステップのパターンによって主に駆動される可能性があります。
これは落胆するニュースであり、グローバルAI企業が最終的な思考能力、推論能力、論理能力を持つ新しいモデルを紹介するときに伝えていたことではありません。
将来を見据えて、最後に楽観的になりましょう。私が考えたのは、事前トレーニング段階にコストの99%がかかり、0.5%が教師ありファインチューニング、0.5%が強化学習にかかるという状況です。
現在、トレーニングスペクトルの間違った端に山を築いています。強化学習で山を築き、私の動画で見せたように、推論ステップで主要なエージェントにアドバイスする第二のインテリジェントLLM、第二のインテリジェントエージェントを構築しています。
解決策はもちろんあります。彼らは、失敗した思考の連鎖プロセスにおける推論ステップ間の依存関係をモデル化するために有向非巡回グラフを構築し、論理的正確性を保持する推論ステップの有効な並べ替えを識別するためにトポロジカルソートを適用する方法を提案しています。
これを多エージェントフレームワークに組み込むことができ、第二のエージェントが第一のLLMインテリジェンス、第一のエージェントを支援し、強化学習段階での報酬モデルとして機能することができます。
しかし、これはトレーニングスペクトルの間違った端にさらに山を築くことになります。完璧な解決策は、過去2年間の洞察をすべて統合し、次のモデルの事前トレーニングを再開することです。半年、あるいは1年かかるかもしれませんが、本当に次の大幅に改善されたLLMを待つ方が良いでしょう。
事前トレーニング段階に私たちの知識を統合する時が来ました。毎日学んでいる知識を新しいLLMに実装すれば、教師ありファインチューニングや強化学習で山を築く必要はありません。なぜなら、事前トレーニングされたモデルが既にこれを知っており、学んでおり、高度な推論能力のためのトポロジカルな順列を持っているからです。
これは闇から現れる超知性ではなく、因果推論や論理のタスクのために最適化された高度なパターン認識マシンにすぎないことを理解しています。グローバル企業が事前トレーニング段階に投資し、トレーニングサイクルの最後で修正するだけではなく、新しいLLMの固有の事前トレーニング機能にすることで、過去2年間のすべての洞察から本当のパフォーマンスの飛躍が得られるでしょう。
チャンネル登録をして、それが起こったときにすぐにお知らせします。