超人的な空間AI:ついに実現!

本動画は、現在のAI技術がAGI(汎用人工知能)やASI(人工超知能)にどれだけ近づいているかを、科学的な視点から検証している。特に注目すべきは「微視的空間知性」という概念である。GPT-5やClaude 4.5といった最先端の視覚言語モデルは、日常的な物体の認識には優れているが、分子構造やタンパク質のような微視的な3次元構造の理解には著しく失敗する。中国の研究チームによる最新研究では、わずか7Bパラメータのオープンソースモデル(Qwen 2.5)を特定タスクでファインチューニングすることで、分子の回転や平行移動において99.8%という超人的な精度を達成した。これはClaude 4.5(34%)の約2倍の性能である。しかし、水素結合のような化学的相互作用の理解では10%程度に留まり、人間の82%を大きく下回る。この結果は、幾何学的パターン認識と物理的意味理解が現在のAIアーキテクチャでは完全に分離していることを示している。真のAGI実現には、物理エンジンやニューロシンボリックアプローチの統合が不可欠であり、高価な汎用モデルよりも、特定ドメインに最適化されたオープンソースモデルの方が実用的である可能性が高い。

Superhuman SPATIAL AI: Finally !

AGI, ASI and Superhuman performance of AI: a real - world reflection on the latest AI research results for Vision Langua...

AGIの現状
微視的空間知性とは何か
MI Benchの構築と評価
実世界での技術的結果
全モデルの詳細比較データ
AIシステムの幾何学的可塑性
前向きな展望:真のAI科学者に向けて
薬物発見への応用とAGIベンチマーク
まとめ:AGI/ASIへの道

AGIの現状

こんにちは、コミュニティの皆さん。戻ってきてくれて本当に嬉しいです。さあ、AGIと人工超知能の現状について話しましょう。私たちは今どこにいるのでしょうか。私のチャンネルDiscoveriへようこそ。最新のAI研究論文を見ていきます。では、早速本題に入りましょう。

視覚言語モデルの現状についてです。ご存知のように、これらのモデルは微視的な世界を習得しています。私たちがいわゆる微視的空間知性と呼ぶものを持っているのです。これらは遮蔽、遠近法、レイアウトを理解しています。しかし、これらのシステムを本当に徹底的に訓練すればどうでしょうか。いいえ、そうはいきません。

しかし、科学的発見においては、生物学や化学といったトピックがありますが、これらはすべて私たちが見ることのできない世界で起こっているのです。そして皆さんは、わかったと思うかもしれません。でも、これらのモデルは視覚的知性をマスターしているじゃないか、と。だから、椅子やソファを見るのと分子を見るのと何か違うのだろうかと思うかもしれません。

実は、まったく違うのです。なぜなら、水素結合のような目に見えない物理的な力に基づいて結びついている複雑な3次元構造がある場合、これらの視覚言語モデルは大規模に失敗するからです。

微視的空間知性とは何か

では、この微視的空間知性とは何でしょうか。そして、ここで視覚言語モデルを訓練してこの空間知性を持たせ、このAGIあるいはASIに近づくことはできるのでしょうか。見ていきましょう。

古典的な視覚言語モデルに、タンパク質クラスターや薬物分子の2次元投影図を与えて、「ねえ、このトラックはこのポケットに収まるでしょうか」と尋ねると、通常、あなたが持っている最高のモデルでさえも単純に失敗します。そして失敗する理由は、2次元のビューから3次元の幾何学を再構築する能力が欠けているからです。

そして皆さんは、ええ、でも、もし私がそれらに知性を与えたらどうなるのか、もし訓練したらどうなるのかと尋ねるかもしれません。今日の研究へようこそ。これは12月11日のものです。これは私の天哪、中国人民大学、清華大学、清華大学、北京大学、中国科学院、そして張弘州中国からのものです。素晴らしい。

美しい研究チームを歓迎します。彼らは微視的空間知性について語っています。私たちのAIシステムに微視的空間知性を提供しましょう。つまり、2次元から3次元への推論ギャップがあるのです。これをやりましょう。

この論文は今、大規模なインターネットデータでの訓練という前提に挑戦しています。もし皆さんがすべてのYouTubeや知っているすべてのものを見たら、突然出現が起こるという前提です。それが普遍的な空間推論能力を付与するという前提です。

今、これは椅子についての推論がタンパク質構造についての推論に転移しないことを証明しています。すべてのインターネットビデオやYouTubeビデオを見ても、幾何学を理解するのには役立たないのです。なぜなら、視覚的特徴、原子密度、遮蔽、明確な特徴の欠如は、目がこれまでに見て知っているすべてのものとは根本的に異なるからです。

例を挙げましょう。今、ここに特定の分子化合物があるとしましょう。左からの視点、正面からの視点、そして上からの視点があります。そして今、この詳細なビューを見せて、「ねえ、私の小さな視覚言語モデルよ、これは変換後に何らかの形で同じ化合物ですか。もしそうなら、変換は何だったか教えてください」と言います。

ここで正しい答えは、「はい、エンティティのためにZ軸上で移動しました」となります。ご覧のように、これはシンプルなパターン認識システムであり、AIは完璧であるべきです。これが私たちが視覚言語モデルに期待することです。

著者たちはまた、人間の専門家のワークフローを模倣する方法論を導入しました。彼らは特定のソフトウェアエンジンを使用しています。美しいですね。すべての分子を人間としても上、正面、左から見るのです。そして今、この正確な正投影図でこの特定のVLMを訓練することで、ご存知のように、私が提案しようとしていることを正確に理解できます。ここで計算コストの高い3次元グラフネットワークをバイパスする方法を、シンプルにしましょう。

これらの科学的タスクのためにVLMの強力な事前訓練済み視覚エンコーダーを使用するだけです。もしこれがうまくいけば、これは本当に素晴らしいことです。

MI Benchの構築と評価

新しいフレームワークの特徴として、彼らはトレーニングデータが必要だと言いました。そこで彼らはベンチマークを構築し、4,000以上のグリコール構造から587,000枚以上の画像を取得し、特定の補完的タスクで訓練しました。

彼らは、初歩的な空間変換から複雑な関係識別まで、能力を評価したいと考えました。そしてそれをMI Benchと呼びました。美しいですね。

何について話しているのか、アイデアを与えたいと思います。4,000の化学化合物です。素晴らしい。ここに見つけたい分子構造があります。ズーム、平行移動、回転、残基、リガンド相互作用の単位タスクがあります。結合ポケット。つまり、理論化学や薬理学で私たちが興味を持っているすべてのこと、興味を持っているすべてのことが、今では巨大なトレーニングデータセットになっているのです。

そして、よし、私たちのAIを使おう、GPT-5、GPT-4、Claude 4.5を使おう、これがここで最高のモデルになると思いますが、小さなオープンソースAI、古いQwen 2.5ビジョン言語、わずか70億の自由訓練可能なパラメータも使いましょう。そしてご存知ですか、今、このオープンソースモデルをMIベンチマークからのトレーニング分割でファインチューニングします。やりましょう。

ご存知のように、平行移動のように、今ここで定義されたさまざまなタスクがあります。つまり、平行移動は幾何学空間では絶対にシンプルです。今度は回転、もう少し複雑です。ズームインして、分子クラスター化合物にズームインしたときに何を意味するのか理解します。

それから、ドッキング相互作用、位置、ポケットリガンド相互作用のすべてです。しかし、もちろん残基リガンド相互作用の平行移動と回転もあります。ここで組み合わされた複数の推論ステップ、または回転と回転です。そして、ここに妨害があるかもしれません。美しい。

これらすべてを見ます。トレーニングデータがあり、それについてすべてを訓練します。今、AGIやASIやあなたが好きなものを持つべきです。

実世界での技術的結果

さて、実際の技術的結果は何だったでしょうか。そして覚えておいてください、私はここでAGI ASIについてポジティブなビデオを作りたいのです。ポジティブな側面にあるものを見つけましょう。

人間、ここで人間のPhD候補者は約81%の平均精度を達成しました。そして、一般的なAIモデルの中で最高のもの、それはClaude 4.5でしたが、少なくとも34%を達成しました。そう、人間の約半分です。これは全く問題ありません。このドメインで2Dパネルから3Dを再構築することについては劇的に失敗します。

ええ、Claude 4.5も巨大なデータセットで訓練されましたが、わずか34%です。よし、でも私の小さなオープンソースはどうだろうかと言います。ファインチューニングされたQwen、古いもの、2.5の7Bは63%に跳ね上がりました。

つまり、Claude Sonnet 4.5をほぼ2倍のパフォーマンスで上回ったのです。知っていますか。さらに良かったのです。なぜなら、詳細なデータを見ると、そして報告書自体を読んでください、この小さなQwen 7Bは、平行移動と回転に関するすべてのことで99.8%をスコアしました。

もしあなたが望むなら、人間をも上回るパフォーマンスを発揮しました。なぜなら、人間は70%から100%の区間にいたからです。したがって、もしあなたが望むなら、超人的なハイパースーパーインテリジェンスの定義を与えれば、ここにあるのは超知能パフォーマンス、またはPhD専門家をも上回る人間以上のパフォーマンスです。

しかし、そして今、なぜ63%しかなかったのかを理解します。相互作用の位置特定で完全に失敗したのです。例えば、分子化合物内の水素結合を特定すること、できませんでした。そして、教師あり学習でファインチューニングされたモデルも訓練されましたが、わずか10%しかスコアしませんでした。

人間はちょうど、アイデアを与えるために、約82%です。だから、よし、単純な幾何学的関係、そして私の最後のビデオの一つを見たなら、次世代AIモデルの幾何学的解釈可能性について話しましたが、平行移動と回転で99.8%ですが、もし意味的理解を持ちたいなら、これは何か、水素結合とは何か、ええ、10%です。

興味深い洞察です。いいえ、彼らはここにも行って、化合物からの美しい例を持っていて、そしてClaude Sonnet 4.5を調べました。そして、ねえ、これは私たちが持っているプロプライエタリモデルの中で最高のパフォーマンスモデルで、今、単純な回転タスクからの失敗事例でその推論プロセスを分析していますと言いました。

このモデルSonnet 4.5が単純な回転を理解できないのはなぜでしょうか。なぜ失敗するのでしょうか。そして、ここで赤で見ることができるように、ええ、この特定の画像内のこの特定の要素の幾何学を全く理解していません。興味深い。

全モデルの詳細比較データ

今、ここにすべてのモデルからの完全なデータがあります。そして彼らはここに人間モデルから、次にGPT-5 mini、次に03、さらにGemini 2.5 Pro、Opus 4、Sonnet 4.5、美しい、GPT-4.1、Sonnet 3.5、そして最後の行に教師あり学習でファインチューニングされた7Bモデルが見えます。

特定のタスクで視覚的に、例えば特定の画像の回転だけがある場合を示したいと思います。そして覚えておいてください、これはスティックとバブルモデルです。これは人間の体や流体の体ではありません。風景の回転もありません。

視点を変えた場合、これは最もシンプルです。スティックであり、もしあなたが望むなら、小さな3次元の球体が分子のような何かを示しています。そしてええ、ここの結果を見てください。平行移動、回転、ズーム、そしてすべての相互作用があります。そして7Bがここですべてを上回っているのが見えます。

だから、この巨大なプロプライエタリAIモデルを使わなければならないと思っているなら、注意してください。いいえ、全くそうではありません。彼らは悲惨に失敗します。なぜなら、ええ、タスクのために訓練されていないからです。

興味深いことに、次に良いモデルはClaude Sonnet 4.5であることがわかります。しかし、このカテゴリのいずれかで最高の結果でさえ、太字で変更されたものは一つも達成しませんでした。しかし、ここと比較してください、1位のQwen 7Bで63%、Sonnetは34%です。

2番目に良いモデル、それから、ええ、他のすべてのモデルが見えます。今、これは非常に良いアイデアを与えてくれます。もし特定のタスクがあり、科学、生物学、医学、物理学、数学、何でも、金融や工学でも、本当にSonnet 4.5にお金を払うべきでしょうか。パフォーマンスを見てください。特定のケースで訓練された7Bモデルの50%です。

考えてみてください。さて、美しい洞察に来ましょう。このプリファレンスは美しく確立します。私たちの微視的空間知性、またはMIは、現在の一般的な視覚言語モデルが単に欠いている明確な能力であることを。彼らは成功しません。いいえ。

したがって、視覚言語モデルがファインチューニングを通じて超人的レベルまで分子の幾何学を学習できることを証明しています。そして、小さな7BのQwen 2.5でさえも。そして、彼らはすべて深く、分子の意味論で苦労しています。単純な水素結合のような技術的相互作用を理解することです。

だから、彼らは完全なインターネットをコピーしました。化学や何かに関するすべての本を読んだと思います。もし彼らがそれを見ても、理解できません。理解さえしません。水素結合さえ特定できません。

だから、現在私たちが持っている大規模な制限が見えます。それは、空間操作とドメイン物理学が現在のAIアーキテクチャでは完全に分離されていることを意味します。

AIシステムの幾何学的可塑性

よし、今、私たちは少しの空間操作を達成しましたが、ドメイン物理学は全く無理です。私たちが見てきたように、AIシステムの幾何学的可塑性、視覚言語モデルの視覚エンコーダーは、2次元画像を見るだけでタンパク質の回転を学習するのに十分な柔軟性があります。

つまり、考えてみてください。今、このビデオのポジティブなポイントに来ています。いいえ、これはAIにとって素晴らしいことです。いいえ、これは具現化されたAIやロボティクスに関係するあらゆることにとって素晴らしいニュースです。なぜなら、3次元のデータ記録から2次元のマルチパースペクティブビデオデータだけに学習の複雑さを減らすことができることを意味するからです。

これにより、計算時間の複雑さが大幅に削減されます。しかし、AIはこのセマンティックな壁に遭遇します。ファインチューニング後でさえ、そして何であれ後でさえ、水素結合を検出する視覚言語モデルの失敗は、物理的パターンマッチングが任意の物理的科学的タスクに対して単純に不十分であることを示唆しています。

この地球上で買える最も高価な視覚言語モデルを使っても、彼らはすぐに使えるものではありません。なぜなら、水素結合は単に2つの点が近くにあるだけではないからです。それは特定の角度、特定の原子タイプ間の距離です。そして、モデルはピクセルを学習しましたが、化学については全く理解していません。

これは、もしあなたが望むなら、この特定の新しいAIアーカイブプレプリントからのより深い洞察です。

前向きな展望:真のAI科学者に向けて

私たちが前向きに見ている意味は何でしょうか。そして、ポジティブなビデオを作りたいことを覚えておいてください。ええ、視覚言語モデルを介して、または視覚言語モデルを統合して真のAI科学者を構築するために、今日持っている視覚言語モデルの事前訓練だけに頼ることはできません。

OpenAIやClaudeやその他の大企業は、一般的なトレーニングデータで大規模に失敗しています。そしてもちろん、彼らは巨額のお金であなたに提供します、あなたの特定のケースでモデルを訓練できますと。しかし、オープンソースモデルを見てみるべきかもしれません。なぜなら、オープンソースの本当に小さな7Bモデルが驚くべきパフォーマンスを持つことができるからです。

真のAI科学者に必要なのは、物理エンジン、論理エンジン、PDDL、Lean 4、コンピュータシミュレーション、C++シミュレーション、あなたが望む何でものニューロシンボリック注入です。トレーニング中の物理情報損失関数、それは絶対に必要ではありません。なぜなら、私たちの最高のVLMでさえ、物理学について何も知らず、単純に化学のすべての法則に違反しているからです。

だから、これらの一般的なレルムを使用するのは最良の解決策ではないかもしれません。しかし、ポジティブな反省として、覚えておいてください、私たちはこれをHGI ESIについてのポジティブなビデオにしたいのです。将来の科学におけるAIの役割を見てください。

7Bモデルを少量の計算で見てください。研究者たちはここでほぼ完璧なAIを作成しました。つまり99.8%です。さあ、2次元入力のみに基づいて、その内部プロセッサーで複雑な3次元分子構造を回転および平行移動させるということです。これはまさに人間が苦労するところです。

つまり、もし私が分子化合物を見たら、私にはわかりません。私はこれについて訓練されていません。3次元の回転、平行移動、または歪んだ画像で悲惨に失敗します。いいえ、私たちの人間の作業記憶は、本当に複雑な分子構造があるときに消えてしまいます。

しかし、これはAI、パターンマシンが本当に輝くことができるところです。これはAIが位置づけられるべきところです。これがAIの仕事です。したがって、科学におけるあなたの特別なタスクのために、オープンソースの視覚言語モデルを特別に調整することを私は好みます。

薬物発見への応用とAGIベンチマーク

今、AIがこの複雑な回転を処理する薬物発見プラットフォームを想像してください。これは超人的に正確であることが証明されたタスクです。ここに私たちはASIと一緒にいます。しかし、覚えておいてください、人間の専門家、今、物理ベースのタンパク質、または特定のツールを持つ人間、物理ベースのタンパク質シミュレーターのような、今、化学反応の本当に興味深い作業を検証します。これが最も興味深い部分です。ええ。

しかし、もちろん、物理ベースのタンパク質シミュレーターを持つ人間の専門家も、つまり、シミュレーターは任意の回転、任意の平行移動、任意の組み合わせを処理できます。したがって、ここでは必要ありません。なぜなら、ここで私たちの決定論的な、もしあなたが望むなら、ツール、私たちのタンパク質シミュレーターは、私たちがここで確率論的AIを訓練したすべてを処理できるからです。

だから、私のポイントがわかりますね。素晴らしい。ええ。そして、私はこのビデオをポジティブなAGIで締めくくりたいと思います。いいえ。そしてここにあります。ここがあなたの元の論文です。そして彼らは、よし、と言います。

したがって、それは明示的なドメイン知識、ニューロシンボリックのような、高度なツール使用のような、スーパーコンピューティングのような統合の必要性を強調しました。ええ。科学的AGIに向けた進歩のために。だから、私たちは持っています。そして、これがポジティブな注記です。科学的AGIに向けた進歩が、うまくいけば今後数年で来ます。

しかし、もちろん、皆さんの多くがAGIとリーダーボードについて私に尋ねます。ねえ、私たちはそこにいます、いいえ、ARC AGIリーダーボードを見てください。私たちはAIで99%です。ええと、ちょっと待ってください。

では、これを今見てみましょう。ご覧のように、ここにAGI1テストがあります。AGI2テストがあります。AGI3テストのデモもあります。美しい。最初は人間とAGI2です。ここに焦点を当てましょう。非常に特定の、よく知られた、公開されているテストに対して、人間は100%のパフォーマンスを持っています。人間は100%です。美しい。

今、ここのリーダーボードの内訳によると、arcprize.orgに行くことができます。自分で見てください。GPT-5.2 Pro Highがあり、54%を達成しています。この最高のGPT-5.2は今、人間のほぼ半分の知能、または半分よりも少し多い知能を持っています。素晴らしい。これがAGIです。

次にGemini 3 Proがあります。これは今興味深い、洗練されたバージョンです。私が7Bモデルについて話したのを見ましたか。タスクのために少し洗練すると、99%に達することができます。これは既知のテストです。これは公開されているテストです。少し控えめにしていますが、一般的に言えば、ここで何が起こっているかはよく知られています。ええ。

したがって、少しの洗練で、Gemini 3 Proはここで、GPT-5.2 Pro Highの54%とほぼ同じを達成します。素晴らしい。それから、GPT-5.2の非プロバージョン、エクストラハイ、これが何を意味するのかわかりませんが。いいえ、52.9。Gemini Deep Thinkingがここで洗練なしで。ええ、それから下に行くことができます。そして、ここで最初のOpusはどこですか。Opus 4.5 Thinking 32Kは30%です。

それからもちろん私は興味がありました、ちょっと待って、通常のGPT-5.2はどこですか。ハイでもエクストラハイでもプロハイでもありません。通常のはどこですか。GPT-5.2 Lowは9%です、やあ。

だから今、注意してください、このマーケティングトリックがあります。いいえ。ええ。プラスアカウントにお金を払わなければなりません。プロアカウントにお金を払わなければなりません。チタニウムアカウントにお金を払わなければなりません。ああ、天哪。あなたの会社が何を持っているのかわかりません。考えてみてください。

それは本当にランタイム、私たちが思考の連鎖で持っているテスト時間計算だけについてなのでしょうか。なぜなら、システム時間はほとんど常に思考の連鎖だからです。もし本当にもっと長く考えたら、これを改善することが本当に可能なのでしょうか。それとも、私が示したように、7Bモデルを使うこともできます。テストのような既知の複雑さで訓練すれば、99.8%を達成できます。

そして、これは7Bモデルでした。または、私が何を伝えたいのか理解しているかもしれません。これらのベンチマークを見る場合、自分自身のテストを行ってください。他の場所に行くことができます。例えば、artificialanalysis.aiに行くことができます。そして、彼らは今、10の異なるテストの10の評価を持っています。彼らは、これが最も重要な知能テストだと言っています。美しい。

そして、Gemini 3 ProとGPT-5.2エクストラハイが、これらすべての知能テストの混合にわたって多かれ少なかれ同じパフォーマンスを持っているのが見えます。異なる解釈、5.1がここにあります。だから、良いアイデアが得られます。あなたのドメイン、あなたの複雑さ、あなたがアイアンに与える仕事のためにテストを選んでください。

そして、これも見せたいと思います。これは今日、2025年12月12日のものです。ここに、この新しいGPT-5.2について少し混合があります。いいえ、一部はこれがAGIだと主張しています。一部は5.2がASIだと主張しています。聞いてください、あなたを幸せにするものは何でも、それは私を幸せにします。美しい。

しかし、また、いくつかを読んでください、言ってみれば、興味深いテキスト、彼らが混合結果と言い、困難な質問を提起するところです。いいえ、もしここでGPT-5.2と5.1を比較した場合、OpenAIのプラス加入者は実際に何にお金を払っているのでしょうか。

まとめ:AGI/ASIへの道

だから、あなた自身の意見を持たなければなりません。あなた自身のテストをしなければなりません。私はこれを強くお勧めします、あなた自身の知識、あなた自身の複雑さ、あなた自身のタスクで、そうすれば、ここで最高のモデルを選ぶことができます。

そして、これが私たちが今日いる場所をまとめていると思います。将来のAGIやさらにASIシステムへの美しい展望を与えられています。少し楽しんでいただけたら嬉しいです。新しい情報があったことを願っています。いいねをつけていただければ素晴らしいです。もしかしたら登録してください。私のチャンネルのメンバーになってください。とにかく、私の次の動画でお会いできることを願っています。