AI ナノバイオ エージェント(ETH)

AI研究
この記事は約11分で読めます。

この動画では、ゲノミクス分野における革新的なAIアプローチとして「nanobio agents(NBA)」フレームワークについて解説している。従来の大型言語モデルでは40%程度の精度しか得られなかったゲノミクスタスクを、10-30倍小さいモデルサイズでありながら90%以上の精度で実行可能にする手法である。スイスのデータサイエンスセンターによる研究成果を基に、タスクを細分化し専門的なエージェントに割り当てることで、コスト効率と性能を両立させた次世代のAIアーキテクチャの可能性を示している。

AI Nano Bio Agents (ETH)
NEW Nano Bio-Agent (NBA) framework - implemented by authors (see below) from ETH (Swiss) for GeneTuring benchmark incorp...

ナノバイオエージェントの革新

こんにちはコミュニティの皆さん、また戻ってきてくれて本当に嬉しいわ。今日はnanobio agentsについて話そうと思うし、これをAIマイクロサービスと組み合わせて考えてみよう。何を言うてるんやって思うかもしれへんけど、まずはgene touring benchmarkを見てみよう。

9つのゲノミクスタスク、450問のゲノミクス問題、DNAから染色体マッピングまで全部含んでて素晴らしいんや。今な、直接的なLLMプロンプティングを使って、今日手に入る最高のLLMを使っても、幻覚のせいで精度は40%程度と低いんや。

でも専用のgene GPTシステム、つまりこれ専用に訓練されたやつを使うたら、NCBI APIをin context learning(ICL)で統合することで精度が83%まで上がるんや。ただし、小さい言語モデルやと性能が落ちてしまう。やから巨大な巨大なLLMが必要になるんや。

で、問題はこれや。ゲノミクスでどこまで小さくできるかということや。gene GPTに馴染みがない人のために言うとくと、これは俺らが出版した論文で、GitHubもあるし、全部きれいに動くようになっとる。

新しいnanobio agentフレームワーク

今日は新しいアイデアについて話そう。nanobio agentフレームワークや。これは純粋にエージェント的なシステムで、ゲノミクスにおけるLLMの2つの主要な落とし穴に対処するんや。それは幻覚、つまり偽の事実を生成することと、ゲノミクスにおける幻覚は致命的やということや。正直言って、これは起こったらあかんことや。そして当然、企業は計算コストが高いって文句を言うとる。

じゃあこれを見てみよう。MBAフレームワークは素晴らしくて、結果を見てみよう。ここでClaude Opus 4.1、最新の巨大なモデルを取ると、95%、96%、97%で素晴らしい。Claude GPTやGeminiを使っても95%以上や。GPT-5が95%、GPT-4.1が97%や。

これは素晴らしいって思うやろ、巨大なVLMで動くけど、めっちゃ高いんや。これを訓練したりファインチューニングしたりしようと思ったら、純粋なバイオテック企業はめっちゃお金払わなあかん。

で、質問はこれや。小さいやつはどうなんや?サイズを見てみよう。10億、500億の自由訓練可能パラメータ、90億の自由訓練可能パラメータ、Q 70億モデルはどうや?なんで俺らはこれらをゲノミクスで、または一般的に動かすことができへんのや?俺らは90%以上の精度性能が欲しいんやから。

解決策の実現

どうやってこれを実現するか?できるんや、これを見てくれ。これは全部のゲノミクスタスクと、テストされた50のモデル全部に対してや。10億モデルは赤やけど、緑がいっぱいあるのが見えるやろ。性能に関してこれは美しいやないか。やから可能なんや。

簡単なゲノミクステストでは、どうやって達成されたか?ここに美しい研究がある。これはスイスからや。ヨーロッパや、信じられるか?スイスデータサイエンスセンターで、彼らは俺らに教えてくれとる。nanobi agents NBA、ゲノミクス用の小型言語モデルエージェントや。これは美しいやないか?

彼らはシンプルな質問を持っとる。聞いてくれ、現在のモデルより約10倍から30倍小さいモデルを取った場合、絶対的に焦点を絞ったレーザーフォーカスされたドメイン特化テストのベンチマークテストで98%の精度をどうやって達成するか?

彼らは言うとる。gene touring tasksとテスト、gene touringのベンチマークに焦点を当てて、少なくとも85%を達成したいと。いや、これはゲノミクスで持たなあかん最低限の精度や。70億から100億の自由訓練可能パラメータのサイズのエージェントでこれができるか?答えは、可能やということや。

彼らは50のLLMをテストしたって見せてくれた。俺がこれを見せたけど、MBAフレームワークで、gene touring testで定義されたゲノミクスタスク全体で堅実な性能を持つことができる。

さらなる改善の可能性

彼らは言うとる。小型言語モデルで、もしかしたらオープンソースのビジョン言語モデルで、refinement learning、改善された性能のためのファインチューニングをやったら、もっと良くなると思うって。そう、さらに進むことができる。

そして、model context protocolというアイデアがある。何の驚きでもない。これを統合したら、もっと良い性能が得られるかもしれん。彼らは訓練やMCPすら実装してへんのに、すでにこんなに素晴らしい性能を持っとる。想像できるか?

nanobio agentフレームワークの仕組み

nanobio agentって一体何や?このフレームワークって何や?見てみよう。人間として簡単な質問がある。遺伝子lsなんとかの公式シンボルは何か?

で、俺らは何を構築するか?アイデアはシンプルや。どれだけシンプルかを気に入るはずや。小型言語モデルがあって、最初のタスクはクエリタイプを分類することや。これは何か?この質問で何を理解する必要があるか?これはどのカテゴリーか?そしてin context learningがある。

オフザシェルフのSLMを取って、ゲノミクスの特定のクエリタイプに対してin context learningの例を提供する。そうすると結果として、俺らの例では、gene nomenclatureの話題について話しとるってことが分かる。

だからスコープを狭めて、認知負荷を減らして、ゲノムとclerに特化した非常に小さな言語モデルにアクセスできるようになる。

そして事前定義された実行計画を取得する。俺らは非常に狭いドメインにいて、計画を手作りするんや。もしここにいるって分かったら、次のステップは遺伝子エイリアスを抽出することや。それからNCBIをクエリして、レスポンスをパースする。だから事前定義された計画関数があって、明確な入力出力JSONでコーディングされとる。

素晴らしい。計画実行を確実にして、ツールを使って、NCBIなどのAPIを呼び出すコーディングされた関数という最もシンプルなAPI呼び出しを使う。これに馴染みがあるはずや。それから全てをまとめるスペシャリストがいる。だから全然複雑やない。

これが完了したら結果を集約してパースして、この特定の単一の特定のタスクのために訓練されたジェネラリストSLMがあって、文献にあるように美しい回答を定式化する。

俺らが持っとるのは有向非循環グラフや。線形デッキがあって、デバッグとか何かをしたい場合に美しいんや。さらに彼らは言うとる。確実にするためにコードモデルがあって、もしゲノミクスで小型言語モデルを信頼せへんなら。いや、絶対に確実でなあかん。

フォールバック解決策

だからフォールバック解決策として、新しいコード手法があって、パイプラインの人工知能、小型言語モデル依存のステップ(タスク分類、パラメータ推論、ドキュメントパース、結果集約など)を全部スキップできる。既知のトピックやから、この特定のgene touring benchmarkタスクカテゴリに合わせた事前実装された人間がハードコードした関数を持つことができる。

だから自然言語処理なしでフォールバック解決策としてこれができるって言うとる。これはAI解決策に対する彼らの信頼を示しとるけど、バックグラウンドベンチマークが欲しい場合に良いことや。

非常にシンプルなフロー図を見たいなら、これや。NBA nanobia agents、人間のタスク、クエリがあって、タスク分類、小型言語モデル(LLMやなくて小型言語モデル)がある。それからタスクが特定されて、どこかに計画があって、これが入ってきてここにあったら、やらなあかんことの計画があるって言う。

だから内部ツールセットに分岐する。ツール1があって、パラメータを推論する小型言語モデルがあって、ツール使用があって、APIを通じてnational center for bio informationにクエリして、他のツールもあって、他のAPI呼び出しを使う。それから読んで、持ち帰って、全部を集約する。美しいやろ、これや。

NBAの主要アイデア

NBAの主要アイデアは何か?複雑さを想像できる限り極端に最もシンプルなレベルまで下げることや。だからLLMや小型言語モールは、単一のシンプルなタスクで動作するだけや。知能は全然いらん。ただのミニタスク、マイクロサービスや。

これは、NBAまたはnanobio agentsがゲノミクス質問回答のためのドメイン特化解決策であって、汎用目的の知能やないということを意味する。その成功は主に事前定義されたタスクカテゴリによって定義される。この動画で見とるgene touring benchmarkテストには正確に9つある。そして確実に作られたツールがある。

これらはNCBIやalpha genomeで使わなあかん特定のツールや。これや。だから、これは非常にシンプルなシステム、最適化されたエージェントシステムが汎用超知能への道やなくて、最適化されとるということを示唆しとる。

だから俺らは専用の、非常にレーザーフォーカスされた、非常に狭いドメインのエージェントシステムを構築する。全部を定義して、全部をハードコードして、ほとんどAIシステムなしでできるから、これらのシステムの性能は90%以上で素晴らしい。

性能結果

NBAフレームワークには最低限、タスク分類エージェント、入力パラメータ推論エージェント、ドキュメントパースエージェント、結果パース集約エージェント、さらに異なるAPI呼び出しのための追加エージェントがある。

性能を見てみよう。これや。gene touring onlyの精度がここにあって、0から100%や。x軸にはモデルサイズがある。小型言語モデルが欲しいのを覚えとる。

直接プロンプティング性能はここで約20%や。素晴らしい。gene GPT、ゲノミクス用の非常に特化したGPTファインチューンシステムがここにある。gene GPTで使うモデルサイズに巨大な依存性があるのが見える。

でもこの美しい緑のNBA、エージェントネットワークを見てくれ。40%からほぼここの80%以上にすぐに上がって、30億の自由訓練可能パラメータモデルでここにいる。これが本当に素晴らしいことや。

これが100億で、これが1000億モデルサイズパラメータや。100億で、このMBAシステムの最大性能でほぼプラトーに達しとるのが見える。

もちろん。ここにあって、これがLeelaで、gene GPTがあって、5000億自由訓練パラメータ以上、最大1兆自由訓練パラメータのフロンティアモデルと組み合わせたら、gene GPTで100%近くにもなる。

でも俺らが欲しいのは小さいモデル、ローカルモデルや。バイオテック企業やバイオインフォマティクス企業の中には、全てのデータをクラウドに転送したくないところがあるって想像してみ。信じられへん。なんでや?

だからモデルサイズからバイオインフォマティクス企業が買えるローカルモデルに下げたいのが見える。美しい画像や。これを見せたかった。

オープンシステムMistral、Dematron、Fi、QN、Kimmy、GLM、IBMのGranite、Falconが、この簡単なテスト、この簡単なgene touring testでNBAフレームワーク実装で全部動いとるのを見せることができる。だから最もシンプルなタスクに取り組む複数のエージェントがある。

コミュニケーションに問題があるけど、今は無視しよう。90%以上のシステム結果を達成できる。88%、85%が見える。でもQNで行くと92%、97%や。素晴らしい。

これが小さな70億自由訓練可能パラメータモデルで達成したいことや。これを達成したんや。これが欲しいものや。

アーキテクチャ知能への転換

AIはもうAIやないんや。なぜなら今は一種のアーキテクチャ知能やからや。マルチAIエージェントシステムをどう構築するか、そして俺らがここでやっとること、または80の研究でやったことは、レーザーフォーカスされた非常に狭いドメイン専門知識でのスマートなタスク分解と、事前定義された9つのゲノミクスタスクのための事前定義されたツール統合や。

でもこれで95%の非常に良い性能を持っとる。もちろん100%やないけど、少し仕事を人間の教授に任せるのは大丈夫や。

アーキテクチャ知能が出てきとる。これは美しいシフトやと思う。ゲノミクスだけやなく、医学だけやなく、物理学だけやなく、化学だけやなく、あらゆるところで見られるシフトや。人工知能から、みんなが超知能について話しとる。

超知能って何か知っとる?マイクロサービスアーキテクチャや。俺らのAI、VLMやLLMはモノリシックな何でも知っとるモデルになれへんからや。そうしようとして、巨大で極度に高いんや。

でも大学や普通の企業での現実世界の実装では、Googleやないなら、Microsoftやないなら、1000億ドルをエンジニアリング知能システム、AI知能システムに投資せへんなら、マイクロサービスアーキテクチャベースになるやろう。そこでは全ての小さなエージェントに対してシンプルで明確に定義された役割があって、アーキテクチャ構成がネットワーク内の知能である フレームワークがある。

これはシステムの信頼性、デバッグ能力、知能システムの保守性を大幅に向上させる。だから俺はこの新しい研究が大好きや。これを見てくれ。未来への道を示しとる。

スイス、ヨーロッパに感謝や。ヨーロッパからの論文があるんや。素晴らしい。チャンネル登録して、次の動画で会おう。

コメント

タイトルとURLをコピーしました