全員が同意:これが次世代AIである

AGI・ASI
この記事は約20分で読めます。

この動画では、スタンフォード、MIT、プリンストン、ハーバードなど世界の主要大学とNvidiaが発表した最新のAI研究について解説している。特に注目すべきは、人間の認知プロセスを模倣した新しいAI アーキテクチャである「モデル統合アーキテクチャ(MSA)」の提案である。この手法では、大規模言語モデル(LLM)が人間の言語を確率プログラミング言語に翻訳し、その後確率的推論エンジンが実際の計算と意思決定を行う。これにより、従来のLLMが持つ次トークン予測の限界を超え、より論理的で信頼性の高い推論が可能になるとされている。また、AGI評価のための新しいベンチマークについても言及されており、現在のAIモデルでは極めて低い性能しか示せない高度な評価手法が開発されていることが紹介されている。

ALL Agree: This is The Next GEN AI
The magic happens when the PPL program is handed off to the PPL's inference engine. Iit simulates the world: The engine ...

次世代AI研究の最新動向

こんにちは、コミュニティの皆さん。お帰りなさい。今日は次世代AIについてお話しします。スタンフォード、プリンストン、ケンブリッジ、イェール、ハーバード、MIT、マギル、そしてNvidiaの最新研究を一つの動画でお届けします。2025年7月18日付けで3つの美しい新しい論文が発表されました。それでは、彼らが何を研究しているのか見てみましょう。

私の前回の動画では、発見された特異点について話しました。東済大学がここで二段階強化学習を示したことを覚えていますでしょうか。最初にOGF LLMがあり、次に論理生成LLMがあって、これらが連携してGRPO最適化による言語から論理への変換、複数のRLの共同最適化を行います。これは言語から離れて純粋な論理に移行するため、大きな可能性があると言いました。

そして今度は何だと思いますか?2025年7月18日のNvidiaの論文が、強化学習手法の最適化を多かれ少なかれ行っているのです。では、10万台のGPUでどのように訓練できるでしょうか?強化学習コードを最適化できるでしょうか?見てみると、彼らはDAPO、分離クリップと動的サンプリング政策最適化を使用しており、これは2017年のOpenAIのPPO目標に基づいています。

これを覚えていますでしょう。理論レベルでAPOについて1か月前に話したからです。そして今日、Nvidiaがこれを新しいモデルに実装したという論文が発表されました。素晴らしいことです。しかし、私たちは彼らの真の洞察に興味があります。さて、スタンフォード、MIT、ケンブリッジ、ハーバード、マギル、イェール大学です。

世界トップ大学による次世代AI研究

彼らはAIモデルの未来についてどう考えているのでしょうか?次に何が来るのでしょうか?別の論文があります。最初のものは7月16日からで、これは7月17日からです。つまり、私がこれを録画している今日のものです。ここではMITが主導契約者として見えます。次にハーバード、ケンブリッジ大学、プリンストン、ARC、ブリティッシュコロンビア大学があります。「ちょっと待ってください」と言うでしょう。ARC賞財団ですね。その通りです。

そして何だと思いますか?2日以内に発表されたこれらのモデルは強く相関しています。YouTubeの一般視聴者がこの優雅さを見逃しているかもしれないので、これをお見せしたいと思います。フランソワについてお話しする前に始めましょう。フランソワを見るときはいつでも、ああ、私たちが何について話しているか正確に分かりますね。私たちは評価について話しているのです。

タイトルに世界モデルが見つかります。もしあなたが登録していて、私が世界モデルとメモリ、エージェント間、MCPプロトコルツールの重要性について話した動画を見たことがある場合、またはハーバードDeep MITの世界基盤モデル動画を見たことがある場合。

世界モデルは開発において極めて重要であることをご存知でしょう。機械における適応的世界モデルの評価についてのこの新しい論文は、古典的なベンチマークではなく、AIがプレイしなければならないゲームになるベンチマークというアイデアを持っています。これが最初の論文で、本当に魅力的です。

人間の知能と適応性の模倣

彼らは簡単に始めて、人間の知能の特徴は馴染みのない条件で新しい問題を解決する急速な適応の能力だと言います。AIは領域外、分布外、確率外になると破滅的に失敗することを私たちは知っています。

そこで彼らは、この適応性は環境の内部表現の効率的な構築または改良と関連していると言います。彼らはこれを一般的にAIコミュニティ全体として世界モデルと呼んでいます。これはあなたのLLMが持つ内部表現で、世界がどのように機能し、すべてがどのように相互に接続されているかを示します。

彼らはここで、この適応メカニズムを世界モデル誘導と呼んでいます。美しいですね。そして彼らはここで新しい評価フレームワークを求めています。まず、モデル、LLMがますます良くなっているので、より良いテスト手順を開発しなければならないからです。

私たちはここで一般的な推論能力だけでなく評価したいのです。なぜなら次世代のAIは非常に特別になるからです。私たちは一般的なAI性能を理解するために、LLM内の適応的世界モデルをテストしなければなりません。

次世代評価手法の開発

今日、ARC AGIリーダーボードがあり、AGI 1とAGI 2があることに気づくでしょう。この新しい論文では、次世代のテスト、評価、ベンチマークのAOC Hi3に向かうと言っています。

世界中の知能の高いベンチマーク専門家たちが集まって、次のモデルが達成できることを予感し、AIモデルの知能をテストするための特定のテストを設計しなければならないと言っているのは、本当に魅力的です。

ここにハーバード、ケンブリッジ、プリンストン、フランソワとARC賞財団、ブリティッシュコロンビア大学のすべてがあります。将来を見据えて、彼らは最も重要なことは次のAIシステムの内部世界モデルを見なければならないことだと言います。これがそれらのモデルがどれほど知能的であるかを定義するからです。

特に、AIを新しい環境に置き、環境からの新しいリアルタイムデータにアクセスさせた場合、AIシステムにおけるそれらの世界モデリング内部表現はどれほど適応的であるかということです。

次世代AIのための今後の評価手順についてもっと読みたい場合は、美しい論文です。私たちのテストが十分でないのではないかという疑問がある場合、2025年7月17日に発表された別の論文、フォーミュラ1もあります。

ここにアルゴリズム推論のための別の新しい今後のベンチマークがあります。これは純粋にグラフと高次元グラフ部分構造、トポロジーと幾何学的洞察に基づいています。これは本当に魅力的なテストスイートになるでしょう。

もしあなたが、この真新しいフォーミュラ1ベンチマークでの私たちの最高モデルの現在の性能について考えているなら、Grok 4のヘビー版は完全にゼロ性能で、正解が一つもありません。o3 high、o3 pro、Gemini 2.5 proは1%未満の成功率を達成しています。

新しいベンチマークが登場していることが分かります。心配しないでください、私たちはすべてに準備ができています。しかし今、メインの論文に移りましょう。これは多くの側面で魅力的です。見てみましょう。

スタンフォード主導による新アーキテクチャ研究

これです。今度はスタンフォードが主導し、MIT、ケンブリッジ、ハーバード、マギル、イェール大学が参加しています。彼らにはトピックがあります。私の簡単な言葉で言えば、次世代AIモデルをどのように構築するかということです。これらのモデルのアーキテクチャをどのように構築するかという次のアイデアです。古典的なモデルでは十分ではないと思うからです。

Nvidiaは本当に最新の細かい部分を最適化しています。次のAI世代には新しいアイデアが必要です。彼らはこれについて話し、AIのための確率モデルのオンデマンド合成としてのオープンワールド認知のモデリングについて述べています。興味深く聞こえるかもしれません。はい、その通りです。ここですべてが説明されています。

この簡単な視覚化が大好きです。興味深いことに、もちろんベイジアン推論とモデル合成アーキテクチャ、そしてその実装があります。素晴らしいです。

人間の認知プロセスの模倣

しかし彼らは人間から始めて、認知科学では人間が心の中で精神モデルを使用して推論し計画すると考えられていると言います。これは私たち人間が馴染みのある世界の側面を反映する構造化された内部表現に他なりません。

彼らには素晴らしいアイデアがあります。私が考えているのは、次世代のAIを人間が問題解決と推論を行うのと同じようにますます構築することです。そして世界モデルを人間の精神モデル、人間の構造化された内部表現に本当に近く構築できるかもしれません。

これを読むのは本当に魅力的です。医学について知っている場合や神経科学者である場合は、本当に興味深いです。私は一般的な用語にとどまり、一文だけ紹介します。彼らは、人間の心は選択された変数に対する局所的に一貫した推論を可能にするアドホック記号的精神モデルを構築するためのグローバル関連性関数を使用してモデル合成アーキテクチャを実装していると仮説を立てています。

もしこれが簡単に聞こえるなら、おめでとうございます。私はこの文の各セグメントを本当に理解しようと、少し深く掘り下げる必要がありました。次の2分間をスキップするか、これが何を意味するか一緒に詳しく見てみましょう。

理論的背景とベイジアン推論

まず、理想的にはもちろん、ここで可能なすべてのバックグラウンド知識があり、すべての利用可能なバックグラウンド知識でベイジアン推論タスクにおけるすべての可能な答えを評価します。極端な知識があり、極端な計算があります。ほとんど誰もこれを行いません。人間は確実にこれをしていません。5歳の時のバックグラウンド知識を覚えているということはありません。

人間が行うのは、アドホックを構築することです。タスクを与えられた時、アドホックに精神モデルを構築します。さて、同じことを行うAIを構築しました。

楽しみが始まり、彼らはモデル合成アーキテクチャMSAのこのアイデアの計算実装を提案すると言います。言語モデルを使用してグローバル関連性ベースの検索、RAGを覚えていますか、そしてモデル合成を実装し、一貫性のある世界モデルを実装するために確率プログラミングコードを使用します。これがすべてです。

しかし、もちろん、どのように行うか、そしてどのような方法で行うかが、この新しいアイデアの美しさと優雅さです。実装で見ることができるように、特定のLLM、大規模言語モデルがあります。そして問題条件LLMが定義したこの新しい構成をエンコードするシンプルな確率プログラムのコードがあり、現在コード化され計算された答えを得ます。

LLMが推論しているのではなく、この特定の世界モデル計算にツールを使用します。このMSAアプローチは人間のオープンワールド推論をモデル化するようなもので、彼らは2つのサブ問題に分解すると言います。

モデル合成アーキテクチャの詳細

アドホックモデルの構築または合成、人間が行うことです。私たちのアイデアは、ID2がシステムのすべての関連変数、すべての条件、すべての境界条件、すべて、可能なあらゆる与えられた機会を含まなければならないということです。

意思決定のための一般的なコードアルゴリズムを介して実装できるモデル内での推論、これは認知科学で研究されています。これは馴染みがあると言うかもしれません。はい、もちろんあります。これに馴染みがあるかどうか分かりませんが、何年もの間、これもサンフランシスコのUber AIラボと協力してスタンフォード大学によって2018年に開発されました。

私たちは既に深層汎用確率プログラミングを開発しました。このバージョンを使用するか、Juliaに埋め込まれたものを使用するかは、プログラム可能な推論を持つ汎用確率プログラミングシステムです。システムでこれをコード化する方法はたくさんあります。

特定の好みに応じて何を選んでも、主なアイデアは何でしょうか?確率プログラミング言語を使用してMSAの具体的なインスタンスを実装すると言います。これをpplsと呼び、境界条件、開始条件、すべての制約を持つ個々のモデル、おそらく世界モデルを表現する簡単なタスクがあります。

これらをコード化して実行できる確率プログラムとして、人間のような関連する精神モデルを構築するためのLLMへの構造化された呼び出しで構成される神経誘導プログラム合成手順を使用します。

二段階アルゴリズムの実装

この方法で実装されたMSAは望ましい一般的確率を持ちますが、覚えておくべきことは、LLMフロントエンドと、推論、論証、答えを見つけるためのコーディングが行われる汎用pplモデリング言語という簡単な構成、たった2段階のアルゴリズムしかないということです。

LLMはもう答えを生成しません。一般的なコード、確率プログラミング言語にコードを移行します。これは良い方法だと思います。シンプルですが、気に入っています。2つの理由で良いと思います。

LLMを翻訳者として使用するため、普通の人間の言語から、PythonやC++などのコードではなく、確率プログラミング言語へのコードとして、平易な英語で与えられた問題を理解できます。

このモデルとpplsがあれば、長年の間にこれらのpplsは、私たちが持つほぼすべての確率システムを記述するのに十分柔軟になりました。信じられないライブラリがあります。完璧でしょうか?まだです。しかし、新しい開発を加速するベクターがあります。

約1週間前にお話ししたのと本当に似ていると言うかもしれません。TPオプティマイザーを使用したDSPIを見たときを覚えています。そしてPS、DSP3、リーン方法論の違いは何かと尋ねました。

Pythonでの言語モデルプログラムと独自の言語を持つ数学理論証明器の違いを説明しました。MIT、スタンフォードなどによるこの新しい論文は、今度は完璧に中間に位置します。

既存手法との比較と位置づけ

なぜでしょうか?これはPythonでのみ言語モデルで動作するDSPのようなものではありません。リーン4のような純粋な数学理論証明器としての極端な論理ではありません。その中間にあるものです。中間にpplで美しく位置づけられています。

純粋な数学証明ソルバーとしてのツールほど厳密ではない確率的コーディングがあり、多かれ少なかれ言語モデルプログラムにとどまってPythonでコーディングするだけのPI 3ほど弱くありません。

新しいコード環境に向かっており、彼らは人間の心でこの推論を達成する方法について2つの認知仮説に対応すると言います。まず、大規模統計表現を利用する精神モデルが必要です。

人間として、私が突然サハラ砂漠にいることに気づき、何かをしなければならないとします。砂漠について何も知りません。砂漠で何が育つか、砂漠でどのように振る舞うべきか、砂漠の温度はどうか、砂漠でどのように生き残るかについての知識の大規模統計表現が私には欠けています。

話している領域について精神モデルを描けるようになるためには、このすべてのバックグラウンド知識が必要であることが分かります。これは単なるモデルであることを覚えておいてください。モデルはすべてのパラメータの完全な惑星依存性を構築する必要はありません。

モデルは非常に専門化された局所モデルで、次の500m×500mだけを見ているかもしれません。第二に、新しい問題、つまり砂漠にいるという本当に新しい問題に対する一貫した推論と意思決定は、精神モデル上で実行される確率アルゴリズムによって実現されると言います。

しかし今、コードがあり、信頼できるハードコードされた結果を与えるアルゴリズムがあり、信頼できないLLMの次トークン予測ではありません。この特定のアイデアにおける次世代AIを見るのは興味深いです。

LLMの役割と制限

つまり、GPT-5のLLMの知能は、その美しい巨大な統計的バックグラウンド知識をコードとして表現する翻訳者として、他のシステムがコード化できる精神モデルを構築するだけです。

これは単なる翻訳者であり、実際の推論と意思決定は通常のC++やPythonコードではなく、確率的コードで行われます。彼らは、このビジョンモデリングから人間の認知のように、予期しないことが起こりうる自由なオープンワールド設定で動作できるシステムを構築することだと言います。

私たちは領域内にいませんが、確率モデルの本質的に一貫した推論を提供します。これはどれほど優雅でしょうか?これを聞いて、お話ししなければなりません。これは比較できます。

今まで進んできた古典的なゴールデンビーンモデリングは、瓶の中の手作りの船のようだと言っています。ボトルの中に作られた小さな小さな船があり、これを見て船がどのようにそこに入れられたのか素晴らしいと言います。

これがそれです。これが古いベイジアンモデリングです。動きが取れません。適応性がありません。船は決してボトルから出て、実世界との接触のための開かれた海に出ることはありません。

設計されたドメイン知識の保護されたシェル内にあり、そこでのみ生きるように設計されています。実世界での機能はありません。そして次世代のAIモデルがそれを変えるでしょう。

ベイジアンモデルの説明

若い方に、ベイジアンモデルについて何を話しているのか簡単に説明しましょう。初期信念から始めます。数人の容疑者がいますが、確信はありません。容疑者Aがどういうわけか少し関与している可能性が高いと思うかもしれません。初期信念があります。これが事前信念です。

探偵として、新しい手がかり、現場で見つかった指紋を発見しますが、容疑者Aと一致しません。しかし突然、これは容疑者Bの指紋だと分かります。突然証拠があります。

事前信念があります。証拠により、おそらく間違っていたと分かります。信念を更新します。容疑者Aだという疑いは大幅に下がり、容疑者Bだという疑いは大幅に上がります。これが事後信念です。

ベイジアンモデルは確率の数学的言語を使用してこのプロセスを形式化するだけです。統計に本当に新しい方に例を挙げましょう。この例が好きです。クッキーの瓶があることを想像してください。チョコレートチップが10個、プレーンクッキーが30個あります。チョコレートチップは10個だけです。

しかし瓶Bにはチョコレートチップが20個、プレーンクッキーが20個あります。目を閉じてランダムに一つの瓶を選び、そこからクッキーを一つ手渡すと、チョコレートチップクッキーが出ます。

質問は、おそらくどの瓶から選んだでしょうか?あなたの脳は何の操作もせずに、20個のチョコレートチップと20個のプレーンがあり、ここには10個しかないため、瓶Bである可能性が高いとすぐに知ります。

確率から、今馴染みがない場合、ベイジアンモデルが形式化し説明する理由を知っています。仮説、事前、証拠、尤度、事後があり、ここでこの例の詳細があり、数字でクラシカルなベイジアンモデルとベイズの定理を理解できます。

確率プログラミングへの応用

ベイズ定理は、ここで与えたすべての表現を結合する数学的エンジンです。簡単な数学的接続詞があります。スタンフォード、MIT、ケンブリッジ、ハーバード、マギル、イェールの著者が行うのは、確率プログラミングコードを実行するために開発した確率モデルで同じことを行うことです。

例があります。自然のどこかにいて、オリンピックがあると想像してください。競技、スポーツがあり、カヤックで行くとします。仮説は世界の状態で、すべてのプレイヤーの未知の強さと努力です。仮説は人1のサムが強く、人2のKが弱いということです。

事前は、与えられたプレイヤーが平均的な強さを持つという信念です。ゲームの結果を行ったため証拠を得ます。証拠はサムとKのチームが他の人たちのチームに勝ったということです。

尤度、プレイヤーの仮説的強さに対するその勝利の確率が尤度です。勝利の尤度は計算できます。勝利の結果を観察した後、信念を更新でき、新しい事後確率があります。

しかし、これまでのこれらのモデルはすべて多かれ少なかれ静的モデルです。しかし人間と人間の能力について話していました。砂漠に置かれると、すぐに生き残る方法を見つけなければなりません。

静的な脳があるとは言えません。情報がないので、この新しい状況に適応しなければなりません。AIでも同じことを行います。この古典的なベイジアンモデルは、環境の条件が変わり、新しいパラメータ、新しい依存関係、新しい何かがあるカヌーレースや雨の日に適応できませんでした。

これは一つの条件のためだけに行われました。このMSAは、LLMにこれらのベイジアンモデルを自動的に書く方法を教えることで解決します。カーソルやWindSurf、またはClaude Code、Gemini Codeなど何を使用するかにかかわらず、LLMがコードを書くことを知っています。

しかし今、これはこれらのベイジアンモデルを自動的に書くための非常に特定のアプリケーションです。このMSAで達成するのは、システムが突然実世界のフィードバックに適応するようになることです。

適応性と多エージェントシステム

何という偶然でしょう。前回の動画で、設定の異なるレベルで適応的で自己学習する新しい適応的マルチエージェントAIシステムを既に紹介しました。これはByteDanceによるものでした。

世界中のどこを見ても、トップのAI研究グループは現在、多かれ少なかれ同じアイデアに取り組んでいることが分かります。もう少し深く掘り下げましょう。LLMは正確に何をするのでしょうか?アーキテクトのようなものです。

PPLプログラムを書くよう求められたとき、バックグラウンド知識に基づいて重要な決定を下します。バックグラウンド知識は、砂漠にいるということです。LLMである私が最初に尋ねる質問は、関連するパラメータは何かということです。どこにいるのでしょうか?

カヤックやカヌーなどのレースの話について、LLMはバックグラウンド知識、事前訓練されたパラメトリック知識から、速度、強さ、持久力がレースにとって重要な要因であることを知っています。チームキャプテンのペットの名前は、含めなければならないパラメータとして関連性がないかもしれません。

そこで、強さ、努力、速度、持久力などの変数を含めて定義し、これらの変数を組み合わせて、pplでエンコードできる表現であるモデルを形成します。しかし、これらの変数間の関係は何かと尋ねるかもしれません。強さは持久力と関連しているでしょうか?速度は持久力と関連しているでしょうか?相互関係があるでしょうか?

これをコードの論理に翻訳します。速度は強さと努力という2つのパラメータの関数です。素晴らしい。それだけで十分です。さらに、推論の開始信念は何でしょうか?古典的なベイジアンからの事前です。

そのバックグラウンド知識は、強さのような人間の特性がしばしばベル曲線で分布していることを知っています。ほとんどの人は平均的で、極めて弱い人はごく少数です。極めて強い人もごく少数です。

一般的な確率構造のセットに関する統計情報があります。強さ変数を定義するとき、最も簡単な方法として、妥当な出発点としてガウス分布を選択します。

LLMはこのプロセスで不可欠であることが分かります。私の人間のプロンプト、AIシステムに与えるタスク記述を受け取り、そのすべてのバックグラウンド知識で変換します。

この日に雨が降っているか、5チーム、6チーム、8チームが競技に参加しているか、水温が速度や持久力に何らかの影響を与えるか、人々がどう感じるかなどを指定しません。このバックグラウンド知識、システムの領域特定特性に関するこの拡散統計知識を持たなければなりません。

これを構造化された論理的な規則セットに翻訳するだけです。極端なフィルタリングが行われています。LLMが知っている、または何のパラメータが本質的であるかを理解する世界モデルを持っているからです。

確率推論エンジンの機能

第二部分は、ppl推論エンジンです。これは簡単です。確率の形式言語のみを理解する完璧な数学者です。他には何もありません。このエンジンはモデルを実行し、証拠を適用し、数学式、パラメータ、変数の依存関係が与えられた最終的な一貫した答えを単純に計算します。

終わりです。pplを使用しているため確率答えを得ます。これがすべてです。要約は何でしょうか?完全な図です。簡単です。4つのアイデアです。入力はごちゃごちゃした英語の実世界ストーリーです。LLMが解決してほしい私の問題です。

LLMは巨大な内部バックグラウンド知識を持つ脳です。例えばGPT-5は、スポーツ、カヤックについて何百万ものストーリーを読み、重要なことすべてを知っている、すべてのモデル、すべての材料、すべての最高のプレイヤー、それについてすべてを知っていると言います。

その知識を使用して、実世界ストーリーで記述した特定の状況の簡略化されたモデルを設計します。LLMが今出力しているのは、私の人間言語を入力して、出力は構造化されたpplプログラムで、Pythonをコーディングするようなものです。

ソルバーの仕事は単純にこのプログラムを実行し、これを実行することです。このプログラムを実行し、これらの正確な規則に従って最も確率の高い答えを見つけると言います。

正確な数学的規則がありますが、確率分布を行っているため、確率的答えがあることを覚えておいてください。システム全体がLLMが十分に賢く、十分な領域知識を持ち、これらの領域相互依存性のすべての推論について訓練されていることに依存していることが分かります。

次世代AIシステムの展望

LLMは、遭遇する新しい状況のために明示的で解決可能なモデル、pplコードを構築するために、その膨大な暗黙知識を使用して、自動化されたベイジアンモデラーとして動作するのに十分賢くなければなりません。

ロボットを野外に出し、ロボットは生き残らなければなりません。美しい部分は、GPT-5やGemini Pro 3のような新しいモデルが、次世代AIシステムの最初の部分のためだけに必要だということです。

すべてを内部的に行う精度を持たないからです。これが美しさです。GPT-5は最初の部分だけのためで、残りは確率分布、統計、力学、理論物理学、コード実装の方法で行われますが、AIは今年中にも大幅に変わる可能性があります。

これが次世代AIについて期待できるアイデアです。これがスタンフォード、プリンストン、ケンブリッジ、イェール、ハーバード、MIT、マギル、Nvidiaの美しい研究者による、次世代AIの準備に関する研究です。

もっと見たい場合は、登録してみてください。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました