STELLA：医学を変える自己進化型AI？

Princeton大学とStanford大学が開発したSTELLAは、生物医学研究における革新的な自己進化型AI系統である。4つの主要エージェント（マネージャー、開発者、批評者、ツール作成者）が連携し、複雑な生物医学タスクを自律的に処理する。Gemini 2.5 ProとClaude 3.5 Sonnetを中核とし、従来の静的なAIシステムとは異なり、新しいツールを発見・統合し、推論テンプレートを自動生成する学習能力を持つ。この自己進化メカニズムにより、コールドスタート問題を解決し、継続的な能力向上を実現している。

STELLA: The Self-Evolving AI Changing Medicine?

Princeton Built an AI That Becomes Smarter With Every Biomedical Task.Under the supervision of Stanford University. Not ...

STELLAの概要と基本アーキテクチャ
エージェント間の協調とフィードバックループ
ツール作成と自己進化メカニズム
性能向上とテスト時計算
今後の展望と人間の役割の変化

STELLAの概要と基本アーキテクチャ

こんにちは、コミュニティの皆さん。お戻りいただき、とても嬉しく思います。今日は生物医学研究における最新のAIについてお話ししましょう。この分野は膨大な機会と驚異的な複雑さレベルによって特徴づけられています。複雑な知識、専門ソフトウェア、大量のデータベース、そして常に進化し分散している状況があります。

常に再実行し、これらすべてのリソースを統合する必要があります。今日、新しい論文が発表されました。Princeton大学とStanford大学が新しいコーディングパラダイムを開発したのですが、この論文は本当に気に入っています。これは全く新しい視点を提供してくれます。それでは見てみましょう。STELLAです。

STELLAは生物医学AI系統であり、自己進化という中核原理を中心に設計されています。人間にすべてのタスクをやらせたくないからです。つまり、私たちにはAIがあるのです。STELLAのアーキテクチャ自体はシンプルです。4つの主要エージェントがあります。マネージャーエージェント、開発者、コード開発者エージェント、批評エージェント、そしてツール作成エージェントです。

これらすべてのエージェントが美しく連携して動作し、複雑な生物医学タスクを統制しています。素晴らしいのは、Gemini 2.5 ProとClaude 3.5 Sonnetという最新モデルをエージェントの中核として使用していることです。古いモデルを使うのではなく、現在のモデルから実際の性能データを得ているのです。素晴らしいと思います。

ご覧のように4つのエージェントと4つのLLMがあり、もちろんコーディングにはClaudeを、論理的・因果的な部分にはGemini 2.5 Proを使用しています。これには完全に同意します。では、マネージャーが何をしているのか見てみましょう。人間から与えられたタスクに対して、多段階推論計画を責任として担っています。

つまり戦略を開発するのです。開発者エージェントはその戦略を実行し、Python環境でコードを生成・実行します。コンピュータシミュレーションにアクセスでき、複雑なバイオインフォマティクス解析を実行して数値結果を得ることができます。そして批評エージェントがコードエージェントからのこの結果を見て、「うーん、これは良さそうだ」または「これは期待していたものとは全く異なる結果だ」と判断します。

欠陥を特定し、実行可能なフィードバックを提供します。これが双方向に機能することをお見せしますが、これでフィードバック付きの反復的問題解決ループができるため素晴らしいのです。これが欲しかったものです。強化学習で考えるなら、これは報酬関数を提供するエージェントのようなものです。

そしてツール作成エージェントがあります。このエージェントが大好きです。なぜなら、新しい問題の要求に応じて、インターネットや大学のインターネット上で見つけた新しいツールを自律的に特定、テスト、統合できるからです。

これは素晴らしいことです。何が起こっているのでしょうか？4つのLLMがありますが、実際には2つだけです。Gemini 2.5 Proが人間のタスクを受け取り、「これに対する多段階戦略を開発する必要がある。この解決方法の最初の計画を立てよう」と言います。美しいのは、すべての推論を自分でやろうとしないことです。

「聞いてください、私には多くのツールが利用可能です。それではClaude Sonnetに行って、Pythonツールを使って初期計算をPythonで実行し、何が返ってくるか見てみましょう」と言います。Pythonがこの計算を実行し、あなたがCursorや好みのツールで座ってコーディングするように、コンピュータシミュレーションの数値結果を得ます。

エージェント間の協調とフィードバックループ

これが批評エージェントに送られ、生物医学の領域知識を持つGemini 2.5 Proでもあるこのエージェントがこれを見て、「うーん、ここで見ているものは興味深い」と言います。そして2つの選択肢があります。批評モデルはClaude Sonnetに戻って、「聞いてください、あなたに別のコード実験を実行してもらいたい側面があります。何が出てくるか見てみましょう」と言うことができます。

または批評エージェントがGemini 2.5 Pro自身に「聞いてください、論理的な抜け穴を見つけたので、これを埋める必要があります」または「もっと明確に定義する必要があるものがあります」と伝えることができます。両方のシステムが、つまり批評が両方のシステムと通信してさらに最適化できるのです。複数のループがありますが、Pythonが実行されて成功したツールである場合も同様です。

システムは「素晴らしい、この特定の仕事のためのツールを作成できました。これは素晴らしく機能するので、特定のPythonプログラムまたはC++など、何でも好きなものを手に入れました。これは私が作成した新しいツールです。これを取って、Geminiがこのツールの使い方を知っているのと一緒にしましょう。ツールがあり、Pythonファイルがあり、このツールを統合する方法の知識があり、このツールを使用する方法の知識があります」と言えます。このツールを使用する知識は、推論シーケンスの多段階戦略の一歩です。

つまり、戦略のステップ14で線形シーケンスを持つ非常に小さなテンプレートを構築したのです。素晴らしい。ツールを構築しました。これは私のメモリで利用可能です。これがそれを使用するコマンドです。これを戦略にフィードバックできます。そして戦略は、同一のタスクを見るたびに、既に解決済みであることを知るようになります。これが美しさです。

第一に、学習構成があります。第二に、意味のあるツール使用があります。このGemini 2.5 ProのAIシステムの知能は、数値計算を実行することでも、財務分析を行うことでも、LLM内の何かでもありません。LLMはその中核タスクであるパターン認識に限定されています。

すべての数値シミュレーション、大学の部門にあるすべてのツール、すべてのコンピュータシミュレーションは、AIにアクセスを与えて実行させ、学習させるツールに過ぎません。そこで、PrincetonとStanfordからの公式ビジュアライゼーションがあります。全く同じです。ここに人間の入力があります。

最初のステップとしてマネージャーエージェントがあります。「これが得た情報だ、前処理と差分解析なので、特定の細胞状態を定義するためにいくつかの遺伝子と経路を特定し、要約しなければならない」と言います。素晴らしい。マネージャーエージェントには複数の選択肢があります。ツールにアクセスできることを知っており、開発者エージェント、つまり未解決の質問がある場合に数値シミュレーションを実行できるコードエージェントにアクセスできることを知っています。

そこでこれを実行します。Claude 3.5 Sonnetに行って、「conda環境を構築し、私の生物医学プログラム、数値Pythonファイルをここで実行し、特定のデータのためにこれを実行し、可視化し、レポートを書き、数値結果を説明し、クラスター解析を行う」など、標準的なことを実行します。出力は自動的にマネージャーにフィードバックされるのではなく、批評エージェントがあります。この結果を見て、「これは合理的か？この結果の本当の洞察は何か？」と言います。

素晴らしい。もちろん批評エージェントもGemini 2.5 Proのようなものです。フィードバックでは、これはオプションですが、「AIが何をしているか見て、意見を持ち、AIを導くことができる」と言うループ内の人間専門家を持つことができます。多くの大学がこれにアクセスできるとは思いませんが、完全にコンピュータ化されたウェットラボがある場合、つまりすべてがコンピュータのみで行われ、化学実験や生物医学実験を行う人間の研究アシスタントがいない場合、すべてがコンピュータ化されていれば、このインフラストラクチャにアクセスでき、検証テストを実行でき、この特定のテスト結果に対する評価された意見をマネージャーエージェントに返すことができます。

ツール作成と自己進化メカニズム

マネージャーエージェントは「最終結果があるのでこれを伝えることができる」と言うか、「これは解決策1に過ぎないので、第二段階解析が必要だとわかっている」と言って、ツール作成エージェントに行き、PubMedやGitHubリポジトリをネットで検索するか、生物医学部門や理論物理学、化学などのプライベートなツールの海でアクセス可能なツールがあることを知っています。

ツールが利用可能であるか、コードエージェントがあり、「小さなSonnetよ、この非常に特定のタスクのための新しいツールを構築してください」と言います。ツールがチェックされ検証されれば、ツールライブラリに入れることができます。アイデアは絶対に美しく、お見せしたように、ツールがあれば、新しいツールで新しい推論テンプレートも構築します。

他の実験からの推論テンプレートが既にあり、新しいツールのために「これがツール使用指示で、これが推論で、これらの特定のトピックに適用される」と追加するだけです。エージェントのメモリに新しいテンプレートと新しい解決経路があります。簡単な線形解決シーケンス、ツール使用の線形シーケンス、新しいツールの作成、理解、絶対に美しいです。

性能データはどうでしょうか？良く見えます。生物医学における人類最後の試験があれば、STELLAは元のGemini 2.5 Proを上回る性能を示します。つまり、中核はGemini 2.5 Proです。しかし、このツール使用により、知識性能、複雑性、解決性能を本当に向上させることができます。ここにGPT-o3、Claude 4 Opus、DeepSeek R1があります。本当に素晴らしいですが、時間が必要です。

ご覧のように計算予算が必要です。26%の精度があり、Y軸にも精度があります。時間が必要で、実行する必要があります。なぜなら、どのツールを使用し、どのように解析するかを自分で学習する必要があるからです。実行すると26%得られ、計算予算が9倍あれば興味深くありません。なぜなら、はい、推測の通り、これをテスト時計算で使用できるからです。プラトーアウトする可能性の兆候がありますが、論文には実際の情報がありません。

他のベンチマークもありますが、STELLAは本当に素晴らしいです。Gemini 2.5 ProとClaude 4 Opusを見ると、巧妙なツール使用戦略により基盤モデルを大幅に上回っています。この自己進化は非常に素晴らしく、コールドスタートでかなり定義されたテンプレートから始まり、独自の新しい解決策、独自の新しい経路を見つけ、内部テンプレートライブラリに保存するだけです。

各サブタスクまたはサブサブタスクなどに対して、非常に特定のサブタスクのための検証済み多段階推論とツール使用性能データがあります。このエージェントの素晴らしい点は、大学部門に自動化されたウェットラボがある場合、実際の環境と相互作用するか、少なくとも実世界のコンピュータシミュレーション、数値シミュレーションがあることです。

外部世界との相互作用から、保存する検証済み多段階推論経路と特定のツールの使用方法に関する情報を得て、これはもちろんエージェント後のメモリに入ります。古典的なシステムですが、自己進化でもあります。GitHubサーチやPubMedサーチなどの検索ツールにアクセスできるからです。100万のPubMedやGitHubリポジトリがあるか分かりませんが、大学の部門にトップ20の数値コンピュータシミュレーションがあるとして、AIシステムとしてそれらを独立して使用できるのはどれほど素晴らしいことでしょうか。

さらに、知識ギャップを検出し、そのギャップのためのツールがない非常に特定のタスクのために新しいツールを構築できることを忘れてはいけません。人間の生物医学学生として、コンピュータに座って「これが私のタスクだ」と考えます。おそらくCursorに行って「世界中のすべてのGitHubリポジトリにアクセスできます。この特定の問題があります。解決策をコーディングし始めてください。これで遊んでみましょう。ステップ1から始めましょう」と言うでしょう。

しかし、なぜ人間としてこれをする必要があるのでしょうか？AIがこれを行うことができます。人間にはこれは必要ありません。自己進化能力がこの論文の主要な美しさだと思います。なぜ座って多エージェントフレームワークをコーディングする必要があるのでしょうか？完全に異なることに集中する必要があります。素晴らしいのは、生物医学ベンチマークでほぼ2倍になることです。

本当に機能しています。フレームワークの概要をもう一度示すと、4つの簡単なステップです。ワークフローはマネージャーエージェントが高レベルの研究目標を受け取ることから始まります。「獲得化学療法耐性のメカニズムを解明し、再感作戦略を提案する」という目標を理解し、推論経験と生物医学の領域知識に導かれて、推論経路の最初のドラフト、つまり問題を論理的な小さなステップに分解する戦略計画を確立します。

遺伝子発現解析を実行したり、キーストーン遺伝子を特定したりして、開発エージェントに初期データ解析、最初のデータ解析タスクを割り当てます。これが計算上の主力であり、conda環境を作成します。解析スクリプト、利用可能な解析データを実行し、必要なことを何でも実行し、評価のために批評エージェントに結果を渡します。

批評エージェントは必要なフィードバックを提供します。しかし今度は非常に具体的です。プラス1またはマイナス1の二進フィードバックではありません。本当に詳細です。領域知識があります。Gemini 2.5 Proシステムです。「何か問題がある」と伝える生物医学知識を本当に持っています。

現在の4つのエージェント構成の重要な能力ギャップを特定し、「助けが必要です。新しいPythonプログラムを開発するためにツール作成エージェントが必要です」と言います。もちろん、すべてのツールの海、すべてのモデルにアクセスできますが、このツール作成エージェントは、より強力なPythonツール、C++ツールなど、何でも新しいツールを構築、テスト、検証する能力も持っています。

これで興味深くなります。この中に自己進化要素があるからです。STELLAは単純な記述を超えて予測に移行し、耐性ネットワークのキーストーン制御因子として特定の因子を特定するなどを行います。素晴らしいアイデアです。二重の自己進化能力があります。最初のステップまたは最初のメカニズムは、必要に応じて作成する独自のテンプレートライブラリの進化であり、第二はもちろんツールの海へのアクセスと独自のプログラムを書く能力です。

性能向上とテスト時計算

この海をよく見ると、これは非常に多様な計算ツールの配列です。確立された科学データベースにクエリを送る関数から、生物医学部門にある大規模基盤モデルを活用するためのインターフェース、過去10年間の最新生物医学データで訓練されたAI、カスタマイズされた解析ツール、部門の数値コンピュータシミュレーションツールまで、ほぼすべてがあります。

これらすべてにアクセスできます。本当に素晴らしいのは、これをテスト時に実行できることです。複雑で長い訓練時ルーチンを実行する必要がありません。テスト時に自己進化能力があります。計算予算が費用を意味し、達成したい性能について考えると、1回ではなく9回実行させるだけで、精度は52%から63%まで本当に上がります。

テスト時推論実行において、非常に特定の計算予算での性能向上という直接的な利益を本当に見ることができます。ビデオの最後にはいつも著者の場に譲り、彼らは「STELLAは真に自律的なAI科学者を作成するための重要な一歩を示し、特に生物医学における急速な発見のペースに追いつくことができる」と語っています。

絶対にその通りです。ベンチマーク性能と実世界の研究室での実装に必要なもの間のギャップを埋める課題は残っていますが、エージェントが新しいツールを自律的に特定し習得する能力は、新しい科学的フロンティアを探索できるシステムの基盤を本当に築いています。STELLAのような自己進化エージェントは、新しい探究の道を本当に開き、生物医学発見のエンジンを根本的に加速する可能性があります。

今後の展望と人間の役割の変化

ビデオの最後に個人的な見解もお話ししたいと思います。まず、この論文が本当に気に入っていることを言いたいです。論文を見て読んでみてください。「これはシンプルだ。多かれ少なかれ知っているものだ。多エージェントシステムだ」と言うでしょう。しかし気にしないでください。これがエージェント定義自体を本当に反映しているからです。

エージェントのLLMコアがあります。それからテンプレートライブラリがありますが、これはメモリに他なりません。そして広大なツールの海がありますが、これは複数ツールのためのツール使用に過ぎません。新しい領域で新しいエージェントを開始するたびに、このコールドスタート問題があります。特殊なツールや推論戦略をまだ発見していません。本当にコールドスタートです。

ここでSTELLAが本当に役立ちます。新しい推論テンプレートを作成でき、新しいツールを作成でき、自己学習システムだからです。生物医学の大学部門としてこれがあれば、部門で一度これを実行するだけで、新しい学生、新しい課題、新しいタスクのたびに、学習し続け、学習し続け、学習し続けます。これは動的適応システム、学習者ですが、これは人間の役割が少し変わることも意味します。

将来を垣間見る勇気があるなら、AI開発者の主な役割が変化します。今日、開発者であれば、手作業で領域特定エージェントを構築・維持し、多エージェントシステムを手で構築します。フレームワークがあるかもしれませんが、「このエージェントとこのエージェントが必要だ」と決定するか、8エージェントや16エージェントなどのテンプレートがあるかもしれません。それからコールドスタートのためのすべてのツールを開発者として手動で定義する必要があります。

ツールのアクセス、MCPプロトコル、エージェント間の何でも、手動で行う必要があります。しかし、なぜでしょうか？自律的に学習する多エージェントフレームワーク、自律的に学習するシステムを設計することに移行すると思うからです。最初に座って自律学習多エージェントフレームワークの最初のコアを設計し、それを実行させて評価を行うだけです。

これは、非常に近い将来に自己進化AIエンジンのようなものを構築することを意味します。人間の手で多エージェントを自分でコーディングして座ることはありません。自己進化エージェントをどのようにコーディングできるかを考えるだけで、コールドスタートの衝撃を与えるだけで実行され、自分で学習します。

今日の生物医学の非常に狭いセクターを見ると、AIは絶対に魅力的で、純粋な多エージェントツール使用ネットワーク構造から、環境と相互作用し自分で自律的に学習する純粋な能力構築システムへとますます移行していると思います。環境が時には大学のウェットラボであり、時には数値コンピュータシミュレーションに過ぎないかもしれませんが、フィードバックを得て、評価され、自分自身を最適化する方法について新しいアイデアを得ます。

AGIや超知能についての話は避けています。これらはマーケティング用語で、科学においてはほとんど意味がないからです。欲しいのは、自動的に進化する自己学習能力構築システムであるAIシステムです。これが私の部門で楽しみにしているAIアシスタントの種類です。

この種のビデオを楽しんでいただけたでしょうか。もっと見たい場合は、ぜひ購読してください。