超知能:AIの未来がファイルシステムである理由(Coral)

AIの知能向上は、モデル自体の学習ではなく外部ファイルシステムの最適化へとシフトしている。MIT、スタンフォード、メタらが開発したCoralは、LLMの重みを一切更新せず、複数のエージェントがGitベースの共有ファイルシステムを通じて知識を蓄積・共有する自律型インフラである。エージェントはマークダウンで仮説を記述し、JSONでログを保存し、実行可能なスキルとして抽象化する。勾配学習もファインチューニングも不要で、すべてはコンテキスト内メモリ蓄積によって実現される。しかし、この決定論的なテンプレート主導のアプローチは、LLMの言語理解能力に大きく依存しており、コストも3時間のシングルエージェント実行で最大60ドル、4エージェントなら240ドルに達する。これは真のAIの進化なのか、それとも単なる環境知能の高度化に過ぎないのか、議論の余地がある。

SuperIntelligence: Why the Future of AI is a File System (CORAL)

Everyone is obsessed with AGI or ASI: building a bigger, denser, more magical neural network. But the researchers behind...

AIは横方向に進化している
オープンエンドな複雑性とファイルシステムベースの知能
MITらによる新論文Coralの登場
Coralの基本構造:自己進化するエージェントインフラ
Coralの技術的実装:Gitとファイルシステム
3つの重要要素:Attempts、Notes、Skills
動作メカニズム:Bashコマンドによるファイルシステムクエリ
ハートビート介入プロトコル:局所最小値からの脱出
重要な点:モデルの重みは更新されない
自然言語テキストベースのアーティファクト
LLMの周りのインテリジェントファイルシステム
Coralの並列実行とGitベース調整
Coralの組織構造と自律性
設定とディレクトリ構造
エージェント間の知識共有
これは本当にAIの未来なのか?
カスタムグレーダーと評価ロジック
設定APIと完全なドキュメント
ワークスペースセットアップと共有状態
Coralマークダウンファイル:システムへの自然言語指示
エージェントへの詳細な指示
エージェントのオリエンテーションプロセス
古典的なスキルMDファイルとワークフロー
基本ルールと自律性の矛盾
CLIコマンドリファレンス
ハートビートプロンプトの問題点
小規模LLMの限界と期待のミスマッチ
決定論的リストと幻覚の外部化
論文の結果は慎重に解釈すべき
コストの現実:3時間で60ドル、4エージェントで240ドル
Open Clawとの類似性とリスク
共有メモリディレクトリレイアウトの詳細
横方向の進化:決定論的ファイルベースアプローチ
研究機関の共通アプローチへの疑問

AIは横方向に進化している

コミュニティの皆さん、こんにちは。戻ってきてくれて本当に嬉しいです。さて、これは本当に興味深いことなんですが、AIは横方向に発展しているんですよね。では見ていきましょう。

前回の動画を覚えていますか?「AGIは死んだ、スキルこそが私たちに役立つ」という話をしましたよね。そこでは特にコードベースの思考に関する新しい方法論について話しました。そして今日、信じられないかもしれませんが、さらに一歩進んでオープンエンドな複雑性へと進みます。

オープンエンドな複雑性とファイルシステムベースの知能

このオープンエンドな複雑性というのは、もちろんAIシステム自体をより知的なLLMにするための強化学習手法があるという話ではありません。そうではなくて、ハーネスを見ていきます。LLMの周りのファイルシステムを見て、外部ファイルシステムにより多くの知能を組み込もうとするんです。

前回の動画で私は尋ねましたよね。なぜ脳、つまり本物のLLMやVLMを強化学習で訓練させないのかって。でも違うんです。LLMに対する強化学習はありません。研究は引き続きLLMを無視し、LLMの知能の更新を無視しています。そしてLLMの周りの複雑性ハーネス、ファイルシステムベースのものに取り組む方がはるかに簡単で安価なんです。そこで知能を進歩させようとしているわけです。だから私はこれを高度知能と呼び、再びAIと呼びたくないので、ADIと呼んでいます。

MITらによる新論文Coralの登場

では見ていきましょう。ここに新しい論文があります。「誰がこんなことをするほどクレイジーなんだ?」と思うかもしれませんね。オープンエンドシステムのために。すると、実はMIT、マサチューセッツ工科大学、シンガポール国立大学、スタンフォード大学という比較的取るに足らない大学、そしてメタという無名の企業からの超知能研究所が関わっていることがわかります。

では一体なぜ彼らは、LLMがより知的になることを望まないのを無視するのでしょうか?なぜエージェントのハーネスに取り組むのか?そして私たちはマルチエージェント進化にまで進みます。自律的で人間を含まない進化です。そして彼らはこれをCoralと呼んでいます。

Coralの基本構造:自己進化するエージェントインフラ

では見てみましょう。彼らは私たちに、Coralは自律的なインフラだと伝えています。つまりエージェントに関するアイデアだけではありません。これは自己進化するエージェントのための完全な技術インフラであり、硬直したハードコードされた制約を長期実行される探索に置き換えるものです。

そして彼らは何を達成したいのかを教えてくれます。人間がまだ到達していないものを超えていきたい。つまり単にAGIだけでなく、AGIを超えていきたいんです。でも私の意見では、これはAIとは何の関係もありません。だから私はこれを環境の高度知能、ADIと呼んでいます。

今日、4月2日に新しい研究があることを誰が予想したでしょうか。まさにMITです。今回はMiniMax、マギル、スタンフォード、SambaNova。これはHugging Faceから覚えていますね。彼らのシミュレーションを実行できます。メタ、シンガポール、MIT、アマゾン、そしてマイクロソフト。

Coralの技術的実装:Gitとファイルシステム

彼らが集まって、今度はCoralに関するこの素晴らしい論文、デジタル技術的実装、詳細な分析を出しています。では見ていきましょう。動画がありますから、それを見ましょう。

Coralはここで進化状態を投影します。何に投影するかって?標準化された階層的ファイルシステムです。つまり私たちはLLM、マイクロソフト、アマゾンの独自AIシステムの知能を増加させません。そうではなく、ファイルシステムの最適化に取り組むんです。

そして何だと思いますか?各AIエージェントは今やローカルのGitワークツリーを実行します。したがって、候補ソリューションの生成がマルチエージェントシステムのグローバル状態をブロックしたり干渉したりしないことを期待しています。

「でもどうやって通信するの?この共有メモリはどう可能なの?」と思うかもしれません。実は、これは完全に新しいインフラだとお伝えしましたよね。今、隠された.coral publicディレクトリがあります。これはすべてのエージェントにシンボリックリンクされています。そしてここに3つの重要な要素が含まれています。詳しく話しますが、馴染めるように、attemptsがあります。これはすべてのエージェント全体のすべての関数評価の台帳で、コミットハッシュでキー付けされています。

3つの重要要素:Attempts、Notes、Skills

次にnotesがあります。シンプルなマークダウンファイルで、ご存知のように、エージェントがAIコアで明示的にテキストの仮説を書きます。いいえ、LLMがこれらの仮説を書くんです。その限られた、さらに改善されていない知能を与えられて、ここで検索空間のトポロジーに関する仮説を書きます。

そしてこれらすべてが、望むならスキルに変換されます。成功したローカル実行から抽象化された実行可能なコードモジュールです。これは自己学習システムなので、ここで人間や人類から見たものと同等か、さらに良くなるために多くの実行が必要です。

動作メカニズム:Bashコマンドによるファイルシステムクエリ

作用メカニズムは非常にシンプルで、笑ってしまうでしょう。エージェントがローカル状態を更新してytからyt+1に進むことを提案する際、靴下をしっかり掴んでいてください、Bashコマンドを使ってこの完全なファイルシステムをクエリすることで、自律的にプロンプトコンテキストを構築するんです。

そして本当に特別なものがあります。前回の動画で、これらのシステムが局所的な極値、局所的最小値に陥って閉じ込められるという問題があるとお伝えしましたよね。だから今、AIシステムをこれから押し出すインパルスを提供する何かが必要なんです。それがここでのハートビート介入プロトコルです。

ハートビート介入プロトコル:局所最小値からの脱出

今、あなたは知るべきすべてに精通しました。ここではバックグラウンドランタイムによって管理される非同期システム割り込みを持ちます。本当に魅力的なことです。前回、AIシステムを局所最小値から抜け出させる特別なトリックがありましたよね。ここでは2つの異なるオプションがあります。

まず、インターバルトリガーがあります。これはエージェントに、見つけた中間的なトポロジカルマッピングを明示的に外部化することを強制します。例えば、10回の評価実行の後、エージェントは今や強制されます。すべてのエージェントが、この仕事のために何が機能して何が機能しないかに関するすべての仮説と共にここに書き留めた生のnotesを、抽象化されたスキルに合成することを強制されます。

何が起こっているか分かりますか?私たちはこの局所最小値、この重力井戸の外側にある新しい出発点を定義しようとしているんです。

もう1つ起こることは、プラトーに到達した場合、プラトートリガーです。そうすると、あなたが深刻な問題に陥っていることが分かります。どうするか?今度はエージェントに数学的に直交するアプローチを試みるよう命令します。購読者なら正確に私たちが何をしているか分かりますよね。理論物理学に詳しいなら、これはシミュレーテッドアニーリングにおける熱ノイズ相互作用と同一です。

重要な点:モデルの重みは更新されない

だから、これは絶対に明確にしたいんです。この方法論でシステムの知能を高めるために更新されているものは、モデルの重みではありません。テンソルの重みではないんです。

すべての基盤モデル、主にClaude Opus 4を使った作業、そして少しMiniMax M2.5も使いますが、これらのLLMはすべて完全に凍結されたままです。触れません。クラウドベースでもローカルベースでも、触れないんです。

したがって、この実行中の状態空間更新は、今やエージェントのローカル作業ディレクトリでPythonとBashコードで構成され、ファイルシステムとして構造化された共有永続メモリで、すべてのエージェントからテキストベースのアーティファクトを保存します。

自然言語テキストベースのアーティファクト

繰り返しますが、私たちは自然な人間言語のテキストベースのアーティファクトに戻っているんです。そして示したように、attempts、notes、skillsという3つの要素があります。attemptsはうまくいけばJSONログで書きます、notesはマークダウンファイルで、skillsは再利用可能なコード関数といくつかのメタデータです。

この方法論には勾配ベースの訓練やファインチューニングがないことを確認してください。そしてフレームワーク全体は、望むなら動的に、訓練時ではなくテスト時に動作します。つまり推論時に機能します。

そしてこれは勾配フリーの探索アルゴリズムです。一歩下がって「学習の主な原因は何か?」と言うなら、学習は完全にコンテキスト内メモリ蓄積を通じてコンテキスト化されています。

LLMの周りのインテリジェントファイルシステム

つまりLLMの周りに、今やこのうまくいけばより知的なファイルシステムがあり、そこにすべての複数のエージェント、4つ、5つ、8つのエージェントがこのファイルシステムに書き込み、共有通信層を持ち、他のエージェントから知識を抽出し、より複雑な理論、より複雑な仮説を構築し、サンドボックス環境でこれがコードで機能するか、これが論証かを試し、そして解決策を見つけてコンテキスト内メモリに入れ、最終的にこの情報を入力チャネル、コア推論LLMのプロンプトに送り込むんです。

念のため、これです。ここで、報酬への客観的関数が純粋に環境フィードバックから導き出される場合、私たちはプログラム的実行であり、ループに人間はいませんし、判定者としてのLLMメカニズムもありません。

Coralの並列実行とGitベース調整

したがって、これはCoralという新しいインフラが、8つの同質で同一のエージェントをnで並列実行することを意味します。各エージェントは独立したワークスペース内で独立した生成ポリシーまたはpiシータを操作します。そしてグローバルな調整は、共有永続ファイルシステムまたはGitへの読み書きによってのみ暗黙的に達成されます。

もちろん、MITとスタンフォードなので、完全なGitHubリポジトリがあります。Human Agent Society/Coralです。ここにすべてがあります。4時間前に更新されたのが分かります。素晴らしい。MITライセンスで、140スター、17フォークです。MITは美しいドキュメントを書きました。素晴らしい。これは本当に新しいアイデア、新しいインフラ、方法論がある場合の理想的な形です。

Coralの組織構造と自律性

これがCoralです。自律型AIエージェントのための組織です。望むなら自明性の点で、以前の動画で紹介したAuto Researchやその他と本当に似ていますよね?自律的です。人間の相互作用はありません。このAIシステムはエージェントを生成し、特定の実験を実行し、見つけた知識を共有し、望むなら、そしてこれに支払いができるなら永遠にループできます。

コアパターンは、エージェントを生成します。エージェントは今やClawdのMDファイルや何であれを読むのではありません。今はCoralのMDファイルを読み、変更をコミットします。評価実行があれば繰り返します。だから隔離されたワークスペースで完全なライフサイクルがあり、大規模並列AIエージェントがこれを実行し、エージェント命令を生成し、評価を実行し、結果を収集します。

設定とディレクトリ構造

Config task YAML、共有状態ディレクトリを作成、ペアエージェントGitワークツリーを作成、各ワークツリーにCoral MDを生成、そしてコーディングエージェントを生成します。Cloud Code、Code X、Open Codeなど好きなものを使えます。そして各エージェントに正確に何をすべきか指示を与えます。素晴らしい。

完全なディレクトリレイアウトがあります。Coral startを実行すると、ここにconfig、public、そしてattempts、notes、skillsが見えます。次にlogs、エージェントセッションログ、そしてハートビートがあります。これらはアクション設定と評価です。そしてprivateでは、エージェントから何かより大きなコードを隠すこともできます。

後で説明するか分かりませんが。そして最初のエージェントがあります。エージェント1、Coralディレクトリ、CoralエージェントID、Coral MDファイル、生成された命令、そしてすべてのタスクファイルです。そして続きます。だからすべてがあります。

エージェント間の知識共有

共有状態、つまりエージェント間の知識共有に興味があるなら、「なるほど、独立して機能する4つのエージェントのトポロジーがあるけど、互いに通信しなければならない」と言うでしょう。では調整の、あるいは少なくとも通信トポロジーのトポロジーは何でしょうか?

これです。明確なディレクトリ構造を持つファイルベースです。Coral YAML、タスク設定のコピー、すべてのエージェント間で共有されるpublic。繰り返しますがattempts、notes、skillsがあります。次にlogs、heartbeat、evaluationがあります。

そしてここでattemptsの下にすべてが段階的にあります。noteにはエージェントが書いた洞察がマークダウンであるので読めます。素晴らしい。だからすべてが視覚言語モデルや大規模言語モデルの外で起こっています。私たちはここで、これらの非常に高価なプロプライエタリなClaude Opus 4.6システムに触れないよう努力しています。

これは本当にAIの未来なのか?

でもこれが未来なのでしょうか?すべてを書き留めて、それを読み込み直して、消化して、共通パターンを見つけようとする、これが本当にAIの未来なのでしょうか?

もちろん、これを評価しなければなりませんよね?前回の動画で、シンプルなコードがあることを示しました。コードがあれば、コードセグメントを実行するだけで、機能しているかどうか正確に分かります。ここにはカスタムグレーダーがあります。

カスタムグレーダーと評価ロジック

つまり望むなら、各特定のCoralタスクに対して評価ロジックを構築しなければなりません。そしてタスクグレーダーがグレーダーを書くための標準ベースクラスとしてあります。タスクディレクトリにeval_grader.pyを作成すれば、シンプルなコマンドがあります。素晴らしい。すべてがすでにあなたのために用意されています。

グレーダーは今やシンプルな仕事、各エージェントの提出を評価してスコアを返すことをします。これは強化学習にあったようなものですよね?報酬関数があって、報酬関数がフィードバックを与えます。最もシンプルなケースではエンドベースでブール値、0か1、成功か失敗でした。

そして今、このためにグレーダーがあります。したがって、Coralの完全な設定があれば、すべてがあります。タスク定義のためのすべてのフィールド、タスク、グレーダー設定のためのグレーダーがあります。

次にエージェントがあり、エージェント生成設定、トグルを共有する共有、各エージェントのワークスペースがあるので、独立したワークスペースがあり、クロスオーバーがありません。素晴らしい。

設定APIと完全なドキュメント

設定API、望むならここでエージェント設定、グレーダー設定、ハートビートアクション設定のためのデータクラスがあります。すべてがあなたのために利用可能です。すぐに始められます。GitHubが運用可能です。もちろん、ワークスペース設定も。すべてがあります。

望むなら、MIT、スタンフォード、マイクロソフトらの元の論文からのスクリーンショットでこれを理解しようとしました。これです。今やオープンエンドなトポロジーがあるので、通常より少し複雑ですよね?だからCoralがあります、Coral設定です。

そして示したように、タスク設定、グレーダー設定、エージェント設定、共有設定があります。数秒前にワークスペース設定を見せました。そしてランタイム設定。素晴らしい。

まずエージェントマネージャーがあります。そしてすぐ反対側にグレーディングエージェントマネージャーがあります。エージェントマネージャーはここですべてを開始、素晴らしい、監視、停止、再開、エージェントランタイム、エージェントハンドル、そしてハートビートランナーがあります。

お伝えしたように、ハートビートランナーのタスクを見せました。そして同時に、これを評価しなければなりません。エージェントが有効な解決策を見つけたかどうかを理解しなければなりません。ブール値、0か1です。だから今、抽象のためのベースグレーダーがあります。次に専用のタスクグレーダーがあり、ランナープログラムを評価してスコア付けし、失敗し、説明を書き、関数グレーダーがあります。

ワークスペースセットアップと共有状態

今、これらすべてが一緒になります。お伝えしたように、エージェントがあり、各エージェントには独自のワークスペースセットアップがあります。プロジェクトパスとワークスペースがあり、プロジェクトを作成し、エージェントワークツリーセットアップを作成し、共有状態、エージェント設定のセットアップ、すべてを行います。そして単にハブへのシンボリックリンクです。

そしてここにpublic attempts、notesがあります。時々、スキルに書き込むか変換することを強制されます。もちろん、チェックポイントがあります。グレーダー、タスクグレーダー、関数グレーダー、すべてに対して、コアタイプ、タスクスコア、スコアバンドル、コミットハッシュ、エージェントID、スコアステータス、フィードバックを持つattemptsなどがあります。

これはかなり、言いましょう、理解しやすくないワークフローです。だからここで異なるフレーミングで見せようとしましたし、コードも見せました。でも分かりますか?こんなに完璧なドキュメントがあるので、この論文、Coral.mdにも行けます。なぜならこれがまさにそうですよね?何十億もの再訓練可能なパラメータのニューラルネットワークを見る必要はありません。

Coralマークダウンファイル:システムへの自然言語指示

Coralマークダウンファイルがあります。そこにはすべての人間の自然言語表現があり、システムが何をしなければならないかが書かれています。だからこの利点を活かしましょう。今、システムの複雑性を理解しようとしましょう。

私が小さなAIシステム、小さなエージェントだと想像してください。そして今、Coral内で何をしなければならないかを読みます。エージェント命令プロンプト、マルチエージェントテンプレート。

そしてすぐに分かります。「ちょっと待って。またテンプレートがあるの?私たちにオープンでない、事前定義された決定論的ワークフローに取り組むの?」まさにその通り。前回の動画で示したように、純粋に統計的確率的なAIシステムでは行けないんです。この製品にお金を払う会社はありません。

だからあなたは、人間としても最適化できるテンプレート構造にダミーダウンしなければなりません。

エージェントへの詳細な指示

タスク。タスク名、タスク説明、どう機能するか。あなたはこのタスクで並列に作業している複数のエージェントの1人です。これらのエージェントはあなたの同僚です。各エージェントには独自のGitワークツリーがあります。しかしあなた方全員がディレクトリを共有しており、そこではattempt、notes、skillがみんなに見えます。

協力的な考え方を持ってください。エージェント仲間と頻繁にチェックインしてください。彼らがうまくやったことから学んでください。つまり、公式やコード実装の完璧な数学的理解を持たない者が、彼らがうまくやったことから学ぶなんて、ありえますか?ここでは決定論的な人間形式で書き留められているので、幻覚はありません。

次にオリエンテーションがあります。そしてワークフローです。そして私は言いました、数ヶ月前に犯した間違いから学んでいないようですが、まあいいでしょう。ミニ命令フォローイングがあります。ルールベースの、AIと呼べるか分かりませんが、ルールベースのフォーマットがあります。素晴らしい。

何が起こっているかの感触を得るために、オリエンテーションだけを見てください。小さなエージェントとして、「なるほど。だからコードを書く前にオリエンテーションを受けなければならない」と言います。

エージェントのオリエンテーションプロセス

まず、私がやるべきことの正確なリストがあります。タスク説明を読む、コードの現在の状態を理解するために重要なファイルを読む。つまり幻覚はありえません。どのAIが最良の解決策を持っているかcoralログのリーダーボードをチェックする。

他のエージェントの最近のアクティビティをチェックして、1つのエージェントが勝利への道を進んでいるか見る。他のエージェントが試みた上位のattemptsを検査する、特定のハッシュ。おそらく1つのエージェントが解決策に近づいていて、今あなたがそれをフィニッシュラインを越えさせる知識を持っているかもしれません。

次に、先行技術を検索します。望むなら新しい解釈、新しい解決策、前進への新しい道を見つけるために興味深いかもしれないキーワードを検索します。

スキルMDファイルにまだなっていないnotesを読みます。他の発見のために、他のAIエージェントが書き留めた仮説のために。理論物理学や数学問題の論理的複雑性理解を与えられて、何かの機能または非機能の原因または根本原因は何だと思うか。そしてあなたは他のすべてのエージェントのためにジャーナルシステムで利用可能なスキルをチェックするだけです。

これは小さなAIとしての私のオリエンテーションに過ぎません。そしてうまくいけば、これは人間言語の複雑性の理解でやらなければならないことに過ぎません。だから理論的に何が間違う可能性がありますか?すべてが書き留められています。

古典的なスキルMDファイルとワークフロー

そして、古典的なスキルMDファイルについてどう思いますか?彼らはワークフローを定義します。だから彼らは「聞いて。あなたの仕事はループするだけだ」と言います。プラン、編集、評価、繰り返し。

プラン、何がうまくいったかレビューし、coralログをチェックし、上位のattemptsを検査し、他のエージェントからのnotesとskillをチェックする。創造的に考える。AIに「創造的に考えろ」と言えば、何が間違う可能性がありますか?いや、絶対にすべてが決定論的な方法で定義されています。素晴らしい。数学を追加すれば、あなたは理解します。

だからあなたは、私のコミュニケーションにおける私の意図が正確に何かを理解するでしょう。そして多分、このやり方、すべてをファイルシステムに書き込んで、コアLLMに学習を許可しないというこのやり方について、私は少し偏っているかもしれません。私はこれが正しい方法だとは思いませんが、まあいいでしょう。

基本ルールと自律性の矛盾

そして、基本ルールがあります。小さなエージェントのための決定論的アクションポイントのリストのリストのリストがあります。

つまり、最初の基本ルールだけで、あなたは完全に自律的です。許可を求めないでください。どういうわけか、最初のドラフトが何と呼ばれていたか覚えています、そう、Open Clawと呼ばれていました。似たような指示がありました。許可を求めるな。やりたいことを何でもやれ。もし本当にあなたのコンピューター、コンピューター使用を制御しているAIがあるなら、これは興味深い命令ですが、続けましょう。

そして彼らは私にすべての根拠を与えます。しかしもちろん、完全なCLIリファレンスを与えてくれます。機能ごとにグループ化されたコマンドです。そして彼らは素晴らしいアイデアをワークフローに与えてくれます。

CLIコマンドリファレンス

コマンドはcoral、評価、coral diff、未コミットの変更を表示、報酬、最後のコミットを元に戻す、またはチェックアウト、ワークツリーを前のattemptsにリセット、またはcoral log、上位20のリーダーボード、coral show、試みの詳細、note、skill、すべてのメタデータを持つrunです。

次にオーケストレーションのために、start、新しいエージェントを起動、以前の実行から再開、stop、またはエージェントのステータス、健康状態とリーダーボードの位置、そしてエージェントがこの実行または以前の実行で今まで達成したものは何でも。

そしてハートビートがあります。局所最小値の勢いで押し出すために中断する。ハートビート設定を読み表示できます。ここでアクションを追加または更新できます。アクションを削除できます。ここでデフォルトにできます。だからコマンドがあります。これは本当に素晴らしい。すべてがあなたのためにあります。

ハートビートプロンプトの問題点

そしてハートビートプロンプトを読むだけです。そして私たちは、このアプローチから新しいことを学ぶことを許可しないコアLLMの言語理解に非常に依存しています。

つまり、最近の仕事を一時停止して振り返ってください。小さなAIが何をすると期待しますか?具体的な結果に焦点を当てる。驚きを調べる。何かAIシステムに「何があなたを驚かせましたか?」と尋ねたら、システムの答えにあなたが驚くことをお伝えできます。

何が予想通りにいかなかったですか?MITの研究者がシステムから何を得たいかすぐに正確に理解できます。何がうまくいきましたか?何がうまくいきませんでしたか?AIシステムによって絶対に予想されなかったものは何でしたか?

小規模LLMの限界と期待のミスマッチ

原因を分析する。Claude Opus 4.0があれば、驚きはないと思います。しかしMinimaxシステムのような小さなシステムがあれば、インターネット上の利用可能なすべてのGitHubリポジトリで訓練されていないかもしれず、これまで見たことのない数学的最適化手順を突然発見するかもしれません。

だからこの小さなLLMは驚くでしょう。でもこれは正確には何を意味するのでしょうか?インターネットに出てより良いリポジトリを検索し、このリポジトリから特定のスキルを抽出するだけです。だから、これが決定論的システムだと思うなら、もう一度考えるようお願いします。なぜなら、これを見てくださいと思うからです。

これはハートビートのプロンプトです。またはハートビートプロンプトの統合がない場合、お伝えしたように、10評価ごとまたは20評価ごと、何でも構いません、トリガーします。

そしてステップ1は小さなAIにとって簡単です。彼らは私に「読んで吸収して」と尋ねます。量子場正規化の理論物理学の問題について、ここで気づいたすべての洞察とすべての仮説から、すべての異なる共有ディレクトリnotesを閲覧します。

そして小さなAI minimaxシステムとして、理論物理学量子場分布で知られていることのメンタルマップを構築すべきです。つまり、本当にMinimaxがこれを実行できると思いますか?

決定論的リストと幻覚の外部化

そして、3つ以上のnotesでトピックを作成し、結論を前面に述べる統合noteを作成し、証拠として特定のattemptsをサイトし、理論物理学または金融、何でもでなぜ何かがうまくいくかを説明します。

うわあ。LLMの幻覚能力をここのマークダウンファイルの決定論的リストに外部委託しようとしたことは理解しています。でも、この、何と呼べばいいか、この小さなLLMに実行を求めるプロファイルをここに持っている場合、理論的に何が起こり得るか、ここで見ていませんか?

そして小さなLLMに、おそらく大規模な幻覚を伴って何かを実行するよう求めても、おそらくあなたは戻ってくる結果に満足しないと思います。

論文の結果は慎重に解釈すべき

でも明確にしましょう。この論文で、MITは素晴らしい結果をいくつか提示しています。でも明確にするために、これは何時間も何日も実行した後のことです。これらは手選びされた美しい結果です。提示されなかった他の結果についてはどうでしょうか?おそらくパフォーマンスにおいてそれほど豪華で美しく、絶対的に素晴らしくなかったもの。

だから、これを実装する際は少し注意してください。注意といえば、コストはどうでしょう?そして彼らがコストについてのアイデアを与えてくれることに感謝します。

コストの現実:3時間で60ドル、4エージェントで240ドル

彼らはここで「数学的最適化タスクでの典型的な3時間のシングルエージェント実行」と教えてくれます。そしてこの数学的タスクは本当に複雑ではなかったとお伝えできます、Claude Opus 4.0を使って。だから大丈夫です。

コーディングエージェントは、タスクの複雑さに応じて最大60ドルのコストがかかりました。そして4つのエージェントまたは8つのエージェントをアクティブにすると、単に4倍としましょう。私たちが話したシステムによる4エージェントシングルソリューションでここで最大240ドルです。

だから注意してください。これは非常に速く非常に高価になる可能性があります。だから、そうですね。気をつけて、クレジットカードにいくつかの閾値を設定した方がいいかもしれません。そうでないと、マルチエージェントの10時間12時間実行後、まさに翌日または同じ日にコストに驚くことになるでしょう。

Open Clawとの類似性とリスク

もちろん、これについて考えてください。これはOpen Clawの元のアイデアにかなり似ています。完全に自律的なAIエージェントがあります。複数持っています。その周りに複数のサンドボックススペース、ワークプレースを構築します。コンピューター、他のコンピューターへの完全なアクセスを許可します。インターネットに出ます。推論し、新しいデータを見つけ、このデータを持って戻ってきて、理解しようとし、パターンを見つけようとし、持ち帰ったデータ内の論理的依存関係を理解しようとし、それを中央のコアLLM、推論マシンに供給します。

でも今起こり得るコストはかなり重要です。彼らはすべてを美しく与えてくれます。共有永続メモリディレクトリレイアウトさえも。付録で明示的にすべての詳細を与えてくれます。研究するのに素晴らしい。見てください。

共有メモリディレクトリレイアウトの詳細

だからここにドットcoral public attempts、次にnode、skills、heartbeat、session、evaluation countなど、すべてがあります。だからそこにあります。

本当に入って、おそらく別のAIシステムに、AIが見つけたクロスカテゴリーパターンマッピングのすべてのトレースを評価するよう求めることができます。おそらく最初は小さなMiniMaxで始めたけど、それについてより大規模な知識を持つOpus 4.6に尋ねます。

そして分析します。「それは何を見逃したのか?次回は何に気をつけるべきか?」だから、この論文には、あなたのドメインとあなたの複雑性レベルで特定の問題がある場合、自分自身をさらに最適化する方法について、非常に多くの興味深い可能性が隠されています。だからこれをさらに最適化する方法は非常に多くあります。

横方向の進化:決定論的ファイルベースアプローチ

とにかく、AIが横方向に発展していることをお見せしたかっただけです。私たちは今、洞察を統合してすべての新しい知識でLLMを訓練しようとはしていません。「いや。決定論的でありたい。ファイルベースでありたい。デバッグを簡単にしたい。みんながマークダウンファイル、JSONファイル、すべてを読めるようにしたい。

このすべての幻覚から脱却したい。」でも研究を読んで、小さなLLMまたは小さなエージェントが今やジョブの複雑性で実行するよう任されていることをここで理解しようとしてください。そしてここで制限された通信帯域幅として中央共有メモリを持ち、そして新しいアイデアと新しい方法論と新しい洞察を思いつくべきです。

研究機関の共通アプローチへの疑問

興味深い。アジアから米国まで世界中のすべての研究機関が今、LLMに全く触れない、重みテンソル構造を修正しない、LLMに何も新しいことを学習させないことに焦点を当てていることは絶対に興味深いです。すべてが外部委託されていますが、私たちはファイルシステムへのこの外部委託されたタスクを実行するためのAIシステムの構文的および意味的理解に大きく依存しています。

でも、これは私の意見と論文の反映に過ぎません。あなたはどう思いますか?これがAIにとって正しい前進の道なのでしょうか、それともLLMとしての中央AIシステムの周りのハーネスに高度な知能があるだけのEDIに過ぎないのでしょうか?これが私たちの問題を解決する方法なのでしょうか?分かりません。

とにかく、少し楽しんでいただけたことを願います。新しい情報がありました。おそらく、あなたのタスク、あなたのドメイン、あなたの複雑性のためにすぐに試したい新しいアイデアを見たでしょう。とにかく、次の動画でお会いできたら素晴らしいです。