AIを私たちは壊してしまったのか。もう元には戻らないのか?

AI研究
この記事は約20分で読めます。

この動画は、2026年3月時点のAI研究が本当に前進しているのか、それとも複雑な知能の実現から後退し、細かなスキル断片の寄せ集めへと向かっているのかを問い直す内容である。話題はSkill MD、経験バンク、world model、科学AI、マルチエージェント、強化学習へと広がり、現在のAIが統一理論を欠いたまま原子的な知識分解に依存している現状を、物理学の歴史になぞらえて批判的に整理していく。最終的には、真の人工知能には個別スキルの集合ではなく、知識・経験・創発を一つに束ねる新しい理論が必要だという主張へと至る。

We destroyed AI. For Good?
All rights w/ authors:SAW: Toward a Surgical Action World Model viaControllable and Scalable Video GenerationSampath Rap...

AIはゆっくりと死につつあるのか

こんにちは、コミュニティの皆さん。戻ってきてくださって本当にうれしいです。AIがゆっくり死につつあることに気づきましたか。気づきませんでしたか。では、私のとても単純な頭の中にある見方でお話ししましょう。これは、現在のAI研究トピックについて私が抱いている見解です。

いま私たちの手元には、in-context learning から、たとえば skill MD files、verifiable reward を伴う reinforcement learning、数学、コード、そして複雑なオープンエンド構造まで、あらゆるものがあります。

continuous machine learning もありますし、AI self-learning algorithms もあります。エージェント型システムにおける memory optimization、tool code、MCP や A2A の利用、さらに異なるトポロジーと異なる通信プロトコルのもとで複数のエージェントがアンサンブルとして動作する、multi-agent learning algorithm の完全な複雑性もあります。すばらしいことです。

Skill MDだけでは足りない

さて、前回の動画では、2026年3月12日の研究をお見せしました。そこでは、skill fragments や tool templates、たとえば image rotate や image gu など何であれ、それらを単にスキルと組み合わせるだけでは足りず、経験とも組み合わせなければならない、という話をしました。もし self-learning AI を持つなら、過去の経験を呼び出し、経験から学ばなければなりません。ですから、ここには experience bank が必要です。そして、ここには skill library が必要です。そうすれば、現在のタスクを、特定の領域に特化した具体的なタスクへ適応させることができます。

いいですね。前回の動画でお見せしたように、skill MD だけでは不十分です。現在どうやってスキルを抽出しているかというと、それを手作業で書く必要はありません。たとえば化学の教科書でも、金融でも、医学でも、何でもいいのですが、そうした教科書を用意して、vision language model に対して、そこから100個、200個、300個のスキルを抽出させるのです。すると、それがスキルになります。

そしてそれは自動的に skill MD file system に変換されます。これは以前にもお見せしました。言語理解が必要なら、テキスト版でそれを扱えますし、たとえば金融という領域に進むなら、GitHub の上位1000件のリポジトリを選び、金融の数理最適化理論のような分野からスキルを抽出させることもできます。そうすれば、1000件の GitHub リポジトリからスキルを抽出できるわけです。

すると、スキルが得られるだけでなく、具体的なコード実装へのポインタも得られます。そこからコンピュータシミュレーションを実行できますし、スーパーコンピュータ上で、関心のあるどんなシナリオについてでもシミュレーションを走らせることができます。GitHub はまさに別の表現形式ですし、テキストとコードという形もあります。また、視覚的なものについても見てきました。ここに xkll があるとして、そこに追加すれば vision language model でも同じように機能します。必要なのは、skill library と experience bank だけです。すばらしいですね。

動画からworld modelを作る研究

そして今、私たちは視覚から動画へ進んでいることもご存じでしょう。これは別のジャンプです。VLA model の一種ですが、ここでは Johns Hopkins University と Nvidia が 2026年3月13日に発表した研究があります。題して、surgical action world model に向けて、controllable and scalable video generation です。

これは本当に美しい研究です。動画生成や、動画の中での推論、動画生成がどのように論理的構成にもとづいているのかという理解に関心があるなら、これはまさに見るべき最新の研究です。推論時には A と B 上で動かしています。学習中には、動画が frozen variational autoencoder を使ってエンコードされます。

そのうえで、いつもの diffusion blocks、diffusion transformer があり、やろうとしていることはこうです。まず動画があれば、それを学習しなければなりません。動画の中で何が起きているのか、実際に理解しなければなりません。どんな action sequence が起きているのか、なぜそれをしているのか、なぜ今この行動が起きているのかを理解する必要があります。たとえば心臓手術の最中に、どこかで突然出血が起きたとしましょう。すると、別のシグナルが入ってきます。今度はまず出血を止める必要があります。そのうえで、もともとの作業に戻って動作を続けるわけです。

つまり、応答サイクルがあり、そのすべてを、動画から理解へ、理解から synthetic video generation へとどのように写像するかが問題なのです。そして、そこから world model を構築できる。AI システムの中に、動画ベースの完全なシミュレーション、コンピュータシミュレーションを持てるようになるわけです。すばらしいですね。

専門特化した小さなworld model

ですから、ここに非常に特化した world model を加えるだけです。ただし、ここでいう Nvidia の world model は、本当の意味での world model ではありません。たとえば心臓移植のための、ごく小さく、ごく限定された world model にすぎません。そこでは、可能な行動パターン、起こりうる失敗パターン、そして人間のキーワーカーとして、あるいは将来的に人員を置き換えるかもしれない機械として必要になるスキルのパターンを順番づけなければなりません。

つまり、彼らはいま、非常に小さく、非常に専門特化した world model を作っているのです。そしてそこでは、非常に特化したスキルも使っています。ですから私たちは今、教科書、GitHub のコード、あらゆる視覚要素、写真、さらには YouTube 上のすべての動画や、ソーシャルメディア上のあらゆる動画から、スキルを抽出し始めているわけです。

つまり、グローバルな skill library を構築できるようになる。そして、これも前回お見せしたように、experience に相当するものも必要です。なぜそんなことをするのか。それは、AI システムに特定のタスクを実行させ、それについて推論できるようにしたいからです。なぜここで特定の数理シミュレーションを選ぶ必要があるのか、なぜある解決経路を選ぶのか、それを理解できるようにしたいのです。

AIの推論にはいくつかの層がある

これはつまり、AI が自分のしていることと、それをなぜしているのかを推論できなければならないということです。ですから、in-context learning のように、transformer architecture の層内にある weight tensor を変更しないやり方について、私は簡単に、外側の推論、auto reasoning outside reasoning と呼んでいます。

一方で、tensor weight structures の内部へ入っていくなら、それを inner reasoning と呼びます。agent として推論が与えられ、tool use や tool call、MCP protocols が関わるなら、それは tool reasoning です。そして multi-agent に進めば、参加エージェント同士を結ぶ通信チャネルのトポロジーと通信プロトコルのあいだに生じる ensemble reasoning ということになります。

少し前までは、roleplaying AI が流行っていました。科学AIがほしいなら、科学者として答えてくれ、医学博士として答えてくれ、コンピュータ科学者として答えてくれ、というふうに定義すればよいと皆が勧めていました。これがさらなる専門化の解決策だと見なされていたわけです。

もちろん、人間側の用途でも同じでした。たとえば夜中の2時に一人で誰かと話したいとき、心理学者として返答してくれ、哲学者として返答してくれ、などと AI に頼んでいました。すばらしいように見えました。

しかし、結果として、それは私たちが本当に求めていたものではないことがわかりました。なぜなら、それは職務記述にすぎないからです。人間にはもっと具体的な必要があります。満たしてほしい具体的なタスクがあるのです。

科学AIが必要としているもの

そこで私たちは、必要なのはパターンのさらなる理解だと言うようになりました。ここで科学AIの側から見てみると、Princeton University の physics department が、やはり2026年3月13日に、AI-driven computational research のための scientific knowledge consolidation という研究を出しています。

彼らはこう言っています。エージェントが学習する際、学習が失敗することがあります。するとシステムは、異なるシステムをまたいで特定のパターンを認識し、何がうまくいって何がうまくいかないかを理解する。ここには古典的な reinforcement learning with feedback があり、その理解を新たな問題に適用し、最終的にはシステムが self-learning な形で学べることを期待するのだ、と。

ところが実際には、新しい計算の前に知識を取り出し、さらに AI システムとして専用の reflection session を持ち、そこでは誤った発見を修正できるようにし、しかも観察結果を cross-compound patterns へと統合する中間段階を持つことが重要であるとわかってきました。そうすることで、AI システムの性能は向上するのです。

つまり、これは一本の直線的な連鎖ではありません。異なるスキルが必要なら、それらを cross-compound patterns として一緒に分析し、統合しなければならないのです。

この論文を読むとわかりますが、対象は量子力学シミュレーションのワークフローです。理論物理学者でない方には少し読みにくいかもしれません。でも、大事なのはそこではありません。彼らが言っている重要な点はこうです。人間は単純です。人間の研究者は技術的な微妙な差異を内面化できる。物理的現実と、そこで偶然生じた人工的なアーティファクトとを区別できる。そして、1か月にわたる実験の積み重なった観察を、一般原理へ、基本法則へ、自然界で何が起きているかの理解へと蒸留できるのです。

この研究の結論は、情報から知識へ、知識から知恵へ、知恵から経験へ、そして経験から専門性へと進んでいく、この段階的な変換こそが現在の AI システムに欠けているということです。そしてこれはオープンなシステムだけの話ではありません。Clawd、GPT、Gemini といった大規模な proprietary system も含まれます。

興味があればぜひ論文を見てください。少し物理寄り、それも量子物理寄りですが、本当に興味深い内容です。

ロールプレイAIから細かなタスク記述へ

つまり、科学AIであれ人間向けAIであれ、私たちが直面した複雑さは共通しています。要するに、roleplaying がうまくいかなかったということです。だから私たちは数週間もしないうちに、より詳細なタスク記述へ移行しました。新しいルールは、心理学者として振る舞ってください、とは言わないことでした。

その代わりに、人間であるあなたが何を望んでいるのか、どんな返答がほしいのかを具体的に定義する必要が出てきました。返答をどう構造化してほしいのか、どんなタスクを行ってほしいのかを正確に伝えるようになったのです。すると、私たちは結局どこへ戻ったのでしょうか。そうです。個別のスキルへ戻ったのです。知識や理解を原子的に断片化するところへ戻ったのです。

そして、まさに皆が skill や Anthropic やその他もろもろに夢中になっていたその時、私はこう思いました。これはおとりなのではないか。世界的なAI企業によるおとりなのではないか、と。

2026年3月のAIは断片化へ向かっている

2026年3月中旬のAIとは、いったい何なのでしょうか。今AIの世界で起きていることは、原子的な断片化です。非常に単純なシーケンス、非常に単純なパターン、非常に単純なワークフローへと分解し、それを人間がコードとして、ハードコードとしてシステムに埋め込んでいるのです。ワークフローというのは、MCP や何であれ、実行したい action sequence を持つスキルにほぼ等しいものです。

つまり、あらゆることを知っていて、AGI だの何だのといった創発的な超AI知能へ向かう流れから、私たちは突然180度方向転換して、単純なシーケンスと単純なパターンの原子的断片化へ戻ってしまったのです。

ここで皆さんはこう言うかもしれません。だったら、なぜ neural network learning を使ったのか。私たちは1980年代の出発点へ戻ってしまったではないか、と。

私は本当にがっかりしました。AI machine の中の幽霊はどこへ行ったのか。あの約束された創発的知能はどこへ行ったのか。Sam Altman の話を思い出してください。十分に大きくしさえすれば、突然 super intelligence や AGI や hyper intelligence が現れる、と。複雑さをより小さなサブタスクへ分割しなくてもよくなる、と。では、それはいったいどこにあるのでしょうか。

私は確かに覚えています。OpenAI 側から、たとえばがんを短期間で治療できるようになる、というような言い方があったはずです。皆さんも何を言いたいかわかりますよね。

Geminiの外交的な答え

今、私はAIと話しています。正直に言います。Claude、OpenAI、Gemini の3つの機械と話しているのです。皆さんもご存じのあれです。x は非常に不親切だったので見せませんが、Gemini はとても外交的な答えをしてくれました。ですから、この YouTube 動画では Gemini の外交的な答えを取り上げたいと思います。

Gemini 3.1 Pro が、max thinking だか何だかのモードで、こう言いました。人間さん、AIの魔法は消えていません。ただ、スキルとスキルのあいだの空間へ移動しただけです、と。

Gemini が言うには、私が探し求めている創発というものは、いまやエージェントがスキルを自律的に選択し、自律的に適応し、そして汚く複雑な視覚的現実世界環境の中でスキル同士が相互作用する際に、どう回復するか、その部分に見いだされるのだそうです。

私は思いました。何だそれは、と。これが創発なのか。これが超知能なのか。私たちは1万件もの訓練データを使って、この間抜けな機械に、この環境の組み合わせにはこのツールを選ぶのだと教え込んできたわけです。そのうえでの自律的選択が、いま創発だと言うのか、と。

それでも Gemini は非常に外交的にまとめてくれました。こう言うのです。人間さん、あなたが感じているように、美しいAIの創発から断片化へと退化したわけではありません。私たちは stochastic guessing から compositional reasoning へ進化したのです、と。

この瞬間、私ははっとしました。stochastic guessing。AI システム自身が super intelligence とは言わず、自分たちのことを stochastic guessing と言っているのです。もちろん多少の言い回しはあるでしょうが、要するに、推測のレベルから compositional reasoning のレベルへ進んだのだ、ということです。そこで私はようやく、現実の中で私たちがどこに立っているのかを理解しました。ありがとう、Gemini。正直言うと、私はあまりうれしくありませんでしたが。

それは結局ハードコーディングなのか

そこで私は言いました。結局これって、またハードコーディングに戻っているだけではないのか。もう C++ に戻ったのではないか、と。これが現実なのか、と。

今のようにスキルを作り、もし手作業で一つ一つの skill MD file を書かなければならないのだとしたら、AI は知識獲得のボトルネックのせいで即座に死んでしまうでしょう。

だからこそ、3日前から私は、すでに公開した2本の動画を計画していたのです。皆さんが見ていてくださることを願います。なぜなら、その動画では、この問題に対する解決策を示したからです。

人間がそれをやる必要はありません。今あるAIシステムが、うまくいけば、それを自動的にやってくれるはずなのです。これは multiskill MD configuration と self-learning AI の話でした。そして前回の動画では、skill MD だけでは足りないことをお見せしました。skill library に加えて experience bank が必要なのです。どのスキルをいつ使い、どう実装し、他のスキルとどう組み合わせるかという戦略的理解がなければ、戦術的経験は崩壊してしまい、エージェントたちは皆さんが求めるものを提供できません。

そしてもちろん前回の動画では、partially observable Markov decision process にも触れました。いつものAIの話です。そこでは少しだけ数理的なフレームワークもお見せしました。

GitHub、教科書、画像からスキルを抜き出す

つまり今や、少なくとも次のAIの段階では、人間が全部やらなくてもよくなりそうです。現在のAIは、GitHub のコード全体を借りてきて、リポジトリからあらゆるものを抽出できるようになっているからです。つい先月まで、それらは原子的要素でした。ところが今では、リポジトリそのものへ行き、オープンソースコードから、1つのリポジトリにつき10種類の異なるタスクを抽出できる。つまり、リポジトリやコード断片をさらに細かく断片化しているわけです。実に見事です。

Metacorpora の話でもお見せしたように、私たちは教科書へ行き、世界中の教科書からすべてのスキルを抽出していきます。そして次は視覚です。インターネット上のあらゆる画像を取り込み、画像が示しているものを全部抽出していく。何かの修理方法を画像の連なりで示しているかもしれないし、何かのやり方を示しているかもしれない。そうした視覚的な相互作用も、X skill を使えば統合でき、visual skill も抽出できるようになります。美しいですね。

ただ、ここには共通のテーマがあります。2026年3月の私たちがやっていることは、atomic elements を扱うことです。skills MD でも reference MD でも何でもいいですが、そういう原子的な要素から出発し、そこから単純な分子的複合体のようなものを作ろうとしているのです。

19世紀に、磁場だけを別に扱い、電気回路を別に扱っていた頃を思い出してください。当時の人々は、磁気と電気の力が、量子場理論的には同じものの異なる表現にすぎないとは理解していませんでした。だから、全体を貫く解決法が見えていなかったのです。

AIに欠けている統一理論

だから、今の研究で私が本当に見たいのは、それらすべてを結びつける根本的な新理論です。物理では比較的わかりやすかった。Maxwell 方程式があり、quantum electrodynamics があり、Feynman equations があり、量子場理論的なアプローチがありました。そうして、光と物質がどう相互作用するかを説明するすべてが、量子力学と特殊相対性理論の統合から理解できるようになり、電磁気について知っていることすべてを一つの理論で説明できるようになったのです。

しかし、それが AI にはありません。

AI の現在地がどこかと問われれば、私は pre-Maxwell phase だと思います。少なくとも pre-Feynman の段階です。人工知能における私たちは、19世紀にいるのです。AI研究者であれ、自分でモデルを作っている方であれ、私たちはまだその一部を見つけたにすぎません。

電気を発見し、次に磁気を発見し、運がよければ光回路のようなものを発見した。そのうえで、電信のような特定の回路を作ったり、化学をどう扱うかを理解し始めたり、分子結合について考え始めたりした。それが、今のAIの状態です。

もしこのままスキル中心で進み続けるなら、新しい world network を作っても、結局また原子的な skill levels を定義し直すことに戻ってしまいます。それでは冗談です。

だから今私たちがやっていることについて、どうか私が間違っているならコメントで教えてください。もっとよい説明があるなら、ぜひ読みたいです。

手続き的知識の周期表を作っているだけではないか

私たちは今、AIにおける procedural knowledge の周期表のようなものを作っている段階にいるのだと思います。いま私たちは、これ以上賢いモデルを開発するのをやめつつあります。なぜなら、skill approach に進むなら、モデルはもう十分だからです。この地球上のすべてのスキルを定義してしまえば済むことになるからです。でも、それで終わりなはずがありません。

私が欠けていると思うのは、人工知能の理論物理学的側面です。visual entropy、linguistic pattern、logical reasoning、そのすべての根本相互作用を説明する unified field theory のようなものが欠けているのです。

私たちは視覚用に小さな円を作り、何か用にまた別の小さな円を作っていますが、それらすべてを支配する general intelligent equation、いわば Maxwell equation に当たるものを持っていません。いまだに小さな砂場遊びのようなことをしている。そして、この断片化を続ければ、AI は死んでしまうのではないかという感覚があります。これで終わりなのではないか、と。

生の知能における次元の呪い

でも、私たちには美しい neural networks があるではないか。断片化を必要としないはずです。ではなぜ、システムのための intelligence equation を見つける道を進み続けないのでしょうか。なぜ atomic skills への断片化ばかりしているのでしょうか。

つまり、私たちは raw intelligence において curse of dimensionality に突き当たってしまったのです。

物理の話で考えてみてください。19世紀には、雷雨が何なのか理解できませんでした。すべての分子を一つずつ追跡することはできても、全体として何が起きているかはわからなかったのです。あれもただの原子的断片化でした。そこで必要だったのは fluid dynamics でした。流体力学を理解する理論が必要だったのです。

皆さん、学校で原子や Brownian motion を学んだはずです。今のAIにも、そういう fluid dynamics が必要なのです。そしてもちろん、雷雨には稲妻があるのですから、電磁場を記述する Maxwell 方程式も必要になります。つまり私たちは、人工知能に関する基礎的洞察を欠いているのです。

そして私は、このテーマに関する研究をまったく見ていません。なぜなのでしょうか。どうしてなのかと思います。

私のAI観はこうだ

多くの方が、私のAIの見通しを聞いてきました。これがその答えです。かなり率直な話ですが、もしもっと深く見たいなら、地球上のあらゆる職業人間のあらゆるワークフローを個別に規定し、細かな仕事の隅々に至るまで prompt template を作ることが解決策だとは、私は思っていません。

私たちが完全に欠いているのは、何かに関する数学的発見だと思います。たとえば information geometry と呼べるようなものです。quantum electrodynamics の方程式のように、推論とは multimodal entropy の高次元数学空間における、ある manifold 上の geodesic、すなわち最短経路なのだと証明してくれるような理論です。

そうした理論が示してくれるかもしれません。skills とは、もっと大きく、もっとグローバルで、もちろん現時点では未知で純粋に理論的な information field、あるいは knowledge field の中における局所対称性にすぎないのだ、と。

わかりますよね。私は完全に理論物理の教育背景に寄って話しています。私には、これが manifold multimodal entropy として見えるのです。熱力学の方向からも考えています。けれども、いずれにせよ、AI に関する新しい理論が必要であり、それが現時点では完全に欠けています。

ですから、vector field の divergence や、skills の curl を記述するような理解が必要なのです。けれど、私たちはまだ天才を待っている状態です。

それを書けるのは、この動画を見ているあなたかもしれない

もしかすると、その天才はあなたかもしれません。この動画を見ているあなたです。QED の Faraday tensor ではなく、人間の認知の Faraday tensor を突然書き下せる人が現れるのかもしれません。

私たちに必要なのは、skill、experience、specialization、expertise、そして新たな洞察、新たなイノベーション、あるいは新しいアイデアの創発と呼ばれるもの、そうしたすべてが単一の統一されたもの、いわば unified intelligence field の成分にすぎないと示してくれる方程式なのです。

どうにかして、これらすべてを一つにまとめなければなりません。なぜなら今の私たちの前にあるのは断片化だからです。Anthropic のような巨大企業は、小さな Lego pieces だけを渡してきます。ほら、ここに skills がある、ここにこれがある、と。でも私たちが探しているのは、本物の artificial intelligence、グローバルな intelligence なのです。

そして私は、今このテーマで研究している人を誰も見ていません。もしかすると次の2本の動画では、その話をするかもしれませんが、それは状況次第です。

ともあれ、少しでも楽しんでいただけたならうれしいです。この動画を気に入っていただき、皆さん自身の考えも持っていただけたならと思います。ですから、これが私の見通しであり、これが現在のAIについての私の理解です。

次の動画でまたお会いできればうれしいです。

コメント

タイトルとURLをコピーしました