なぜGPT-5は複雑なタスクで失敗するのか | 簡単な説明

GPT-5
この記事は約18分で読めます。

この動画は、GPT-5が複雑なタスクで失敗する根本的な理由を、情報処理の複雑性理論の観点から解説したものである。著者は、現在のAIシステムが複雑な問題を小さな部品に分解して処理するものの、それらを再統合する際に「複雑性の不連続性」という問題に直面することを指摘している。デカルトの方法論を引用しながら、AIが真の知能ではなく「人工幼稚園知能(AKI)」のレベルに留まっていると論じ、香港大学のLAG(論理拡張生成)研究とカーネギーメロン大学らのマルチエージェント・ルーティング研究を例に、現在のAI研究の方向性と限界を分析している。

Why GPT-5 Fails w/ Complex Tasks | Simple Explanation
Sources from Harvard, Carnegie Mellon Univ and MIT plus et al.: From GraphRAG to LAG w/ NEW LLM Router (RCR).All rights ...

AI研究における複雑性削減の重要性

みなさん、こんにちは。汎用人工知能(AGI)を征服するための最も重要な武器は何やと思います?それは複雑性を削減することなんや。ちょっと見てみましょか。

昨日、私のコミュニティでGPT-5についてどう思うかって聞いたんや。60%の人が「GPT-5は過大評価された」って答えて、38%が「GPT-5で段階的なパフォーマンス向上があった」って言うてました。

そして760票のうちたった2%だけが「GPT-5がついにAGIを実現した」って答えたんや。興味深いことに、大多数の人がAGIはまだ実現されてないって思ってるんやな。

マーケティング的には、OpenAIは完璧な仕事をしたと思うで。サム・アルトマンがGPT-5の知能とAGIを恐れてるって投稿したのを覚えてますか?「わあ、人類に何が起こるんや?」って感じで。今はそれが分かったけど、他の会社が今度は超知能チームを集めて、別の会社はハイパー知能を目指しとる。

技術的実装における異なる現実

超知能があるんやったら、なんでハイパーに留まっとくん?でも技術レベルでは全く違う姿が見えてきます。技術的な実装を見ると、異なる曲線があって、今日はこの曲線について話したいと思うんや。私はこれをAGIじゃなくてAKIって呼んどる。説明しましょ。

2つの新しい研究を見せたいと思います。RAG(検索拡張生成)を覚えてますか?今、香港大学からLAG(論理拡張生成)っていう最新のやつが出てきて、それからGPT-5で現在ルーターに問題があることについての研究もある。

カーネギーメロン大学、ノースイースタン大学、ハーバード大学、MIT、ペンシルベニア大学、ジョージア大学、フロリダ国際大学の研究コンソーシアムが「構造化メモリを持つマルチエージェントLLMのための効率的でルール対応のコンテキストルーティング」について研究してるんや。これらが研究のホットトピックやってことが分かるやろ。

デカルトの方法論とAIの関係

今日はこれらの論文を一緒に見てみましょ。この論文を一緒に見て、両方の論文の内部を理解したら、単なる2つの論文以上のものが得られるって論じたいんや。

言及したい人物がいます。それはルネ・デカルトや。ルネ・デカルトは1596年に生まれて1650年に亡くなった。でも今日シリコンバレーで最も影響力のある人は誰かって聞かれたら、私はルネ・デカルトって答えるで。

なんでかって言うと、彼が1637年に「方法序説」を書いて、推論と知識獲得のルールを概説したからや。これが今日のシリコンバレーやGPT-5で見られる支配的なコード実装なんや。

「検討する困難のそれぞれを、可能な限り多くの部分に、そしてその適切な解決に必要なだけ分割せよ。」これがGPT-5が今日やっとることなんや。複雑な問題、たとえば人間のプロンプトを、AI自身がより小さく管理しやすい部分に分解するっていう彼のアイデアが、分析的思考の核心原理になっとる。科学全般、特にコンピューターサイエンスとAIでな。

もしホンマに最新のAIモデルを理解したいんやったら、1685年の『哲学原理』をお勧めします。

複雑性分解の実例

どういうことか見てみましょ。これが私のGPT-5への質問やとしましょ。「スカンデルベクを作曲した作曲家の出生地にある有名な橋の名前は何ですか?」

AIがここで分解の行為をするんや。何かを分解する行為やな。AIが人間のプロンプトを理解するのに十分賢くないからや。だから複雑性の分解をする別のAI層が必要なんや。

最初のサブクエリ1は「スカンデルベクの作曲家は誰ですか?」最新のやつやな。それからサブ質問2は「1番の出生地はどこですか?」そしてサブクエリ3は「サブ複雑性2にある有名な橋の名前は何ですか?」

こうして複雑性を分解し、分解し、分解して、AIのための複数の低複雑性のピースを生成するんや。分解(disassembly)って言葉があるけど、脱構築(deconstruction)って別の言葉もある。でも脱構築は違う意味やな。何かを分解してその固有の構造や意図された意味を理解するためのより広い用語なんや。

AI システムの複雑性削減から学べること

AIシステムが複雑性を削減することから何が学べるか見てみましょ。もちろん、私の最新動画を参照するで。そこでGPT-5がPhDレベルの科学をやってないってことを実際のライブデモで見せた。サムが言うてたようなことは起こってない。

詳しく見ると、GPT-5の内部推論プロセスが分かる。議論があって、それからソルバーやツール、別のエージェントに切り替わる。素晴らしいことや。でもこれらのエージェントはすでに複雑性を複数の低複雑性コードセグメントに削減してるんや。

何が起こってるかって言うと、これが私の人間のプロンプトで、AIがそれを基本要素に分解してるだけなんや。「ジュピター5がサブシステム12とサブシステム16とサブシステム124を持ってる」って言って、言語的複雑性を低いグレードの複数の意味的複雑性に分解できるんや。

それからGPT-5は、複雑性が低いからこれらの問題を解決することを学んだ。独立したサブシステム12や独立したサブシステム124としてコードで解決できるんや。この解決の結果は、「何かを達成したいなら、この要素は違う材料、たとえば炭素元素にするべき」とか「このシステムはもっと小さくするべき」とか「違う温度で動作するべき」とか「この部分に特定の冷却が必要」とかいう部分的な解決策を見つけることなんや。

再組み立ての課題とAKI概念

部分的な解決策を見つけるけど、これらの解決策がGPT-5システムでどう孤立してるか見てや。複数の解決策を見つけたら、今度はアップグレードされた結果で複雑性を再組み立てしなあかん。

OpenAIによるAGIが何かっていうのは、分解して新しいサブシステム結果を計算することなんや。これが我々がAGIって呼んでるものや。本当の複雑性と本当のチャレンジは、アップグレードされた結果での再組み立てなんや。これがGPT-5が今日達成してることや。私はこれをAKIって呼んどる。

もっと理解しやすい類推を出しましょ。このシステムで複雑性の不連続性に遭遇するんや。これらの歯車要素は古典力学で簡単に最適化できる。GPT-5は行って、GitHubでコードを見つけて古典力学のコードを見つけて「もっと大きく、小さく、違う温度、違う材料、違う比率にしなあかん。全然問題ない」って言う。

でも古典力学の最適化された要素を次の複雑性の層、次の高次複雑性に統合するとき、量子力学レベルで動作するんや。この要素をもっともっと小さくしたら、古典力学コード実装で計算されたものは量子力学的観点からはもう有効じゃなくなる。ここでは違う種類の数学がある。簡単なハミルトニアン関数じゃない。違う演算子代数、違うヒルベルト空間で動作してるんや。

量子場理論に行くともっと複雑になる。全てを分解して、全てを最適化した後に元に戻すってことはできひん。システムの一貫性が失われるからや。複雑性の不連続性、またの名を複雑性の相転移って呼ぶ人もいる。

創発性の神話とAKI

でもこれは創発性ではない。みんながこの夢を売られた。闇から突然、AIの知能が現れる。スケールアップするだけでいいって。1兆個の訓練可能パラメータまでスケールアップすればいいって。これは起こってない。私の前の動画で見せたし、このビデオの最初に見せた世論調査も、この創発性、知能への道への自発的な突破がないってことを明確に示してる。

AKIって何か?人工幼稚園知能や。これがGPT-5が動作してるレベルなんや。分解された問題空間で新しく計算された要素をただ積み重ねて、「好きなようにブロックを積み重ねたらええ。創造的になりや」って言うだけや。これが知能やって?

でも後で解決策を見つけなあかんとき、私がビデオで見せたように検証を実行したとき、機能的なもの、最終的に動作するマシンを構築するには数学、物理学、デザイン思考が必要で、GPT-5が扱うような単一の解決策のブロックじゃないってことをシステムが学ぶんや。

直感的な遊びから構造化された理解へのこのジャンプが複雑性の不連続性で、JSONテンプレートみたいな構造化されたデータフォーマットのことじゃない。テンプレートをはるかに超えた構造化された推論のことなんや。

これがGPT-5が私の科学テストで「PhDレベルの科学は無理、近づきもしない」って言った理由や。「間違いをした。その矛盾は私のせいや」って教えてくれる。システムを動作可能なマシンに再配置できなかった。部品同士がどう相互作用するか、どうやって機能的なシステムを再構築するかを理解してなかったから、単純に失敗したんや。これが我々が直面してる問題なんや。

他の研究からの裏付け

これは私のアイデアやって言うかもしれんけど、その通りや。他のソースを見てみましょ。2つのソース、LAGとカーネギーメロン大学、MIT、ハーバードのルーターを見せる。両方とも同じアイデアを持ってるんや。

両方の論文を並行して見て、この論文を選んだのは何かを見つけたからや。最初の論文は簡単や。AI研究者なら、RAGは基本的な事実には有効やけど、私が既に見せたような複雑な多段階質問では崩壊するってことを知ってる。なんでかって言うと、LLMが取得された非構造化テキストの海で迷子になるからや。

「簡単やん。リトリーバーがあって、再リトリーバーがあって、欲しい答えの複雑性だけを定義するテンプレート削減がある。答えを事前定義する」って言うかもしれんけど、どんなループに入ってるか分かるやろ。

2番目の論文、カーネギーメロン大学のは、マルチエージェントシステムについてや。最初のは単一エージェントシステムで、これは専門化されたLLMのチームが欲しいときのマルチエージェントシステムに切り替える。一番簡単なケースでマーケティングキャンペーンを計画するとしよう。プランナーエージェント、マーケットリサーチャーエージェント、コピーライターエージェントがいて、これらのエージェントを分析するとコンテキストで溺れてるって分かる。

コピーライターはマーケットリサーチエージェントからの全ての単一データポイントを見る必要がない。コピーライターは特定の機能のための重要な洞察だけが必要や。今日のマルチエージェントシステムみたいに、全てのエージェントから他の全てのエージェントに毎回全ての会話履歴を送るのは、遅くて、高価で、混乱を招く。エージェントがコンテキストで溺れてしまう。

しかもこれにお金を払わなあかんし、パフォーマンスが低下する。両方のシステムで起こってる根本的なことが見えるやろ。両方ともより深い内部レベルで、転送される情報や知識の複雑性を削減してるんや。最初の出版物は単一エージェント、2番目の出版物は同じトピックをマルチエージェント構成で扱ってる。

LAG(論理拡張生成)の詳細分析

だからこのビデオ用にこれらの論文を選んだんや。最初のをLAG(論理拡張生成)って呼ぼう。単一エージェントでの単一の複雑なクエリに対する推論や。ルーターは複数の協働エージェント間の情報フローを調整する。

昨日のGPT-5ビデオで見せたように、無料版では1つのエージェントしか使えない。プロ版にアップグレードしたら複数のエージェントと複数のツール使用が並行で使える。でも私は無料版にこだわったから、順次単一エージェント動作やったけど、同じことや。ここではエージェント間の情報帯域幅が問題で、すごく高い帯域幅があっても主な問題は同じなんや。

RAGやエージェントシステム、単一LLMでの複雑な推論で働いてるAI科学者なら、これは何かあるかもしれん。最初の論文から始めましょ。複雑なマルチホップ推論での単純なRAGの重要な失敗モードを扱ってる。

全てを検索してから選択後に推論するっていうアイデアを、クエリの符号化ベクトル表現の数学的ベクトルストアのイプシロン環境で最も重要な1000個のベクトルだけを再検索するっていうのに置き換えた。今は「最初に推論して、進みながら検索」っていうパイプラインに切り替わってる。

これは比較的簡単や。最初にLLMが指示で「人間ユーザーのこの質問は複雑すぎるか?GPT-5がプロンプト最適化でやるように段階ごと、部分ごとに分解して複雑性を削減すべきか?」って聞く。香港の研究者は認知負荷メトリックを使ってこの決定をする。

LLMがCLメトリックを計算してそれに基づいて決定するんや。面白いのは、GPT-5や他の最大のモデルでも、1兆個の自由訓練可能パラメータLLMがあっても、人間の複雑なクエリを処理できないってことや。全てのAIシステムが分解しなあかん。複雑性を削減して、複数の質問、複数のエージェントに分けて、各エージェントは1つのサブ複雑性でしか作業できないから、私が前のビデオで見せたように、GPT-5プロンプトオプティマイザーでも複雑性を複数の低複雑性要素に削減してから、順次または並行で複数のエージェントを使ってこの特定の問題を解決するんや。

スケールアップされたLLMの限界

我々のLLM、スケールアップされたLLMでも、単一の複雑なクエリを処理できない。分解しなあかん。マルチエージェントシステムを使わなあかん。これがAIの状態にとって重要な意味を持つんや。

認知負荷マトリックスは簡単な公式で、主な3つの部分を示すで。負荷は意味的スコープ、複数の推論ステップ、ここで下りてこなあかん複雑性、それと何らかのエントロピー項、曖昧性と呼ぼう。3つの項があるって言った通りや。意味的スコープは質問埋め込みの分散を捉えて、この質問が意味的にどれだけ広いか、具体的な質問か、人生の意味について教えてくれって質問かを示す。

2番目の項、推論は、LLMの知識と意味的分解を与えられたQに答えるのに必要な構成的推論の深さを測定する。最後に曖昧性、意味的不確実性で、正規化標準があるエントロピーベースの関数や。

LAGの原理的な主なアイデアは、人間のクエリを小さな部分、低複雑性に分解して個別に解決することや。面白いステップがあって、「ちょっと待って、複数の部分があるなら、論理関係をチェックして特定して、並べ替えが必要かもしれん」って言う。高度なRAGモデルで知ってる再ランキングじゃなくて、LAGでは論理関係最適化をして、拡張プロセスのための線形シーケンスを見つけたいんや。

それからLLMが適していると思う論理順序で質問を解決する。LLMの訓練データにあったものじゃなければ、LLMはアイデアがなくて狂ったように幻覚し始めるからや。それから最初のループ、検索クエリでのアップデート後、RAGで最初の100個の特定クエリの答えがあったのを覚えてる?ここでも今、対応する答えと次のサブ質問の両方を単一のテキスト文字列に組み込む。何が起こるかって言うと、単純に連結するんや。前の答えがあって、次のサブ質問と答えがある。今まで見つけた全てを連結してるんや。

それから全てを取って、数学的ベクトル空間に符号化して、LAGでRAGに戻るんや。次の検索ステップのためのベクトルクエリを取得するから。考えてみて、方法論レベルで何をやってるかを。このシステム、このAGI、何であれの知能が、RAGでやったようなベクトル空間の構造的近接性に符号化されてる。

でもこのベクトル空間を構築しなあかん。特定のドメイン、特定の複雑性レベルで動作してるからや。これらのシステムを構築する方法は、まだ文章トランスフォーマー、SBERTシステム、トランスフォーマーアーキテクチャのデコードGPT部分じゃなくて符号化部分を使ってるんや。

どうやるかは分かるけど、今でもベクトル空間に戻って、構築された数学的ドメインと超平面のイプシロン環境で動作してるんや。面白いことに、RAG、GraphRAGと同じ方法に戻るんや。今LAGがあって、論理サブ要素への複雑性のチャンキングが見える。そこで解決策を生成できるし、単一エージェント、単一LLMを使ってるけど、複数持てるセーフティネットがある。

どこかで停止メカニズムが必要やって言ってる。LAGが原子的論理サブ要素レベルまで分解し続けたら、自動停止メカニズムが必要や。かなり簡単や。最初に意味的飽和をチェックする。新しく検索された通路が言語形式で高い冗長性を示したら、蓄積されたコンテキストで終わりに達した、飽和してるって分かる。または最大推論ステップ数をシステムにハードコードするだけや。

著者によるビジュアル化が見たいなら、これや。でもこのアプローチについて考えてみて。タイヤについて全て知ってる、フロントガラスについて全て知ってる、光がここに入ってガラス表面に触れたときに何が起こるか正確に分かる、速度がどう変わるか、角度がどう変わるかを正確に知ってるエキスパートやとしよう。

簡単な車のエンジンのような熱力学について全て知ってる。ブレーキシステムがあるときの特定の温度での特定材料の摩擦係数について全て知ってる。ギアボックスと電気について全て知ってる。でもこの複数のサブシステムの全ての知識が、車の運転を可能にしてくれるか?

逆に考えてみよう。車の運転を学んだとき、これらのサブシステムが理論的熱力学レベルでどう動作するかアイデアがなかった。ただ車に入って、父が隣に座ってて、車での運転の完全な経験を体験して、これらの原子的部分の理解なしに車の使い方を学んだんや。

これがAGIの道なんか?全てを最小構成要素に分解してからシステムを最適化できるようになるん?興味深い質問や。

LAGとマルチエージェントルーターの実際のベンチマーク

LAGの実際のベンチマークデータを見てみましょ。ここにライトRAG、ヒッポRAG、ヒッパーRAG 2、その他のRAGシステムのGraphRAGベンチマークがある。Rスコアがあって、もちろん新しいシステム、LAGシステムを見せてる。他のシステムは全て60前後で、LAGは65を達成してる。

もっと詳細なベンチマークデータセットが欲しいなら、ここにある。でも2番目の論文もあって、これはマルチエージェント用や。もっと興味があるなら、これも2025年8月6日のカーネギー、ハーバード、MITの研究で、マルチエージェントルーターシステムを扱ってる。

GPT-5がLLMの異なるモデルにルーティングするだけじゃなくて、GPT-5で実装されてない次のステップに行って、このルーティング要求から特定の情報送信を特定のLLMに添付する。マルチエージェントネットワークの特定のエージェントに委託されるタスクのための関連する情報と知識のサブセットを提供するんや。

著者は「マルチエージェントLLMシステムのためのルーター、モデラー、リソース効率的なコンテキストルーティングフレームワークがある」って言うてる。LLMがエージェントの中央脳や。面白いことに、通信帯域幅プロトコルのすごい簡略化で、各エージェントに意味的に抽象化されたメモリ要素を選択するって言うてる。

選択された情報とデータの断片について話したことで、それらをルーティングコマンドと一緒に送る。複雑なクエリでは、推論の構造が検索されたデータの量より重要やって証明できるって言うてる。もちろん、たくさんのナンセンスはたくさんのナンセンスやし、マルチエージェントシステムとして、インターネットで無料で見つかる通常のシステムにある全対全通信チャネルは本当に良いものじゃない。非効率で、ノイズが多くて、アイデアが分かるやろ。

スウォームインテリジェンスとの比較

でも私が10ヶ月前や6ヶ月前にスウォームインテリジェンスについての複数のビデオを持ってることを知ってるやろ。マルチエージェントエコシステムとしてのスウォームインテリジェンス、スウォームインテリジェンスでのマルチエージェントプロンプティングのためのトポロジーDSP実装を使った。

マルチエージェントシステムのための複雑性と通信プロトコルを構築できる可能性がたくさんある。彼らはスイッチボードアイデアを使った。MITのキムとカルネギーについてどう思う?これはシンプルやって言うかもしれん。でもシンプルで実装しやすいんや。

彼らは全てのエージェントのための中央メモリストアまたは共有メモリストアがあるって言うてる。全ての相互作用履歴、検索される構造データの外部知識、全ての計画、入力や引数も含む全てのツール出力結果を含む中央レポジトリ。

ツールがC++環境やったら、タグ付けされた全て、識別できた全て。ここにメインデータと情報ハブシステムがあって、それから3つの要素からなる操作の核心と脳であるルーターがあるんや。

この3つの要素は簡単や。トークン予算アロケーターがあって、エージェントが受け取れるトークン数、コンテンツ量にハードリミットを設定する。2番目に、著者によってブランド化された重要度スコアラーがある。簡単なアイデアや。共有メモリの全ての項目をスコア付けして、この特定のエージェントAIに対する特定の関連性を決定するんや。これがやり方や。もちろんLLMがこれをやってる。

それからフィルター操作がある。特定のタスクを与えられた特定のエージェントに対する重要度スコアで全てのメモリ項目をソートするんや。簡単やろ。もちろんこれをループ、サイクルで実行して、これだけや。著者自身による視覚化が見たいなら、これや。美しいやろ。

著者は、このルーターがマルチエージェントシステムでの効率的なコンテキスト管理のための最初の正式フレームワークを提供するって論じてる。コンテキスト管理システムを持つ複数の新しい研究論文を見たことがあると思うけど、まあいいや。引数を単純なフルコンテキストや静的テンプレートシステムを超えて、動的で適応的でスケーラブルな協働モデルに移すって論じてる。スウォームインテリジェンスやな。これが彼らが教えてくれることや。

2つの研究の統合的理解

2つの新しい研究が見えるやろ。興味深いことに、これらを見て、今日200以上のAI研究論文が発表されたこの海の中で特定したとき、これらの2つの研究が際立ったんや。「なんか、これらは一緒に属してる」って感じがしたからや。

これについて考え始めたら、情報オーケストレーションの統一的な根本原理を本当に見つけることができるんや。両方とも、知的情報オーケストレーション、調整層、単一LLMが(最初のケースで)または複数LLMのチーム(2番目の論文で)が特定の情報とどう相互作用するかを管理する重要な制御層のインスタンス化で動作してるんや。

違う視点から見ることもできる。LAGが単一推論チェーンでの情報の時間的フローをオーケストレーションし、ルーターアイデアが複数エージェントのチーム全体での情報の空間的フローをオーケストレーションするって言えるんや。

彼らの評価結果を見てみましょ。LAGについては、ここで見て、面白い声明もある。「認定された絶対ポイント改善を達成」って言うてて、「わあ」って思ったけど、読み続けなあかん。「ベースラインLLMに対して」やから、RAGについてじゃない。「標準RAGに対して大幅にリード」って読んだら笑顔になって「オッケー」って言うやろ。

ルーターについては、著者が教えてくれる主な効果は、これらの通信チャネルでのトークン使用量の削減で、マルチエージェントシステム間で必要な帯域幅を減らして、トークンを32から47%削減するんや。興味深いことに、より低い通信帯域幅を持つシステムを構築できるんや。

著者たちはお互いの論文を知らなかったか参照しなかったと思う。だからこれは私のアイデアや。両方の論文を組み合わせることができる。両方の論文の統合を持てるって考えてみて。

ハイブリッドシステムの可能性

このマルチエージェントルーターシステムのエージェントの1つが、高度に専門化された複雑推論エージェントになれる。私がこれを構築してるからや。エージェントが困難な人間マルチホップサブタスクを割り当てられて、複雑性マトリックスで複雑すぎると判断したとき、今見せたLAG方法論を使って複雑性を分解して与えられたタスクを解決しようとできるんや。これがハイブリッドシステムになるやろ。

グローバルにより効率的なシステムが欲しいなら、エージェント間通信プロトコルと通信しなあかん情報量を管理するルーターアイデアができる。または、より局所的に堅牢で、LAGでの複雑推論処理のおかげで、単一の専門化されたエージェントでLLMの特定の複雑性区間でこれができるかもしれん。

複数の研究論文を読んで、突然「おい、複数の論文で特定できる根本的なアイデアがある」って発見するのが見えるやろ。AI研究が今日どこにあるかの美しい概観を与えてくれると思う。これらがこのビデオの説明にある2つの論文で、著者と全ての情報が見つかるで。

楽しんでもらえたらと思うし、自分で複数の論文からの洞察を組み合わせることを試してみて欲しい。考えてみて。これが機能する深い理由は何か?メカニズム、新しい方法論は何か?単一論文の複雑性レベルでの洞察は何か?それからこれを複数論文レベルに投影してみて。楽しんでもらえたらと思う。次のビデオで会いましょ。

コメント

タイトルとURLをコピーしました