研究室内部:病気を治すAIの訓練 | Sam Rodriques:完全インタビュー

医療・健康・長寿
この記事は約27分で読めます。

この動画では、FutureHouseのCEOであるSam Rodrigueszが、複雑な科学研究を自動化するAI科学者の開発について語っている。人間の認知能力の限界を克服し、膨大な科学文献を統合して新しい仮説を生成するマルチエージェントシステムの構築を目指している。実際に加齢黄斑変性症の新しい治療法候補を発見した事例を紹介し、AI科学者の将来性と課題について詳しく解説している。

Inside the lab training AI to cure diseases | Sam Rodriques: Full Interview
“The most important thing that we could be doing today is going and trying to build an AI scientist to build something t...

AI科学者開発への動機と背景

私たちが脳の働きを理解するために必要な情報をすべて持っていたとしても、必ずしもそれを知ることはできないでしょう。具体例を挙げると、ヒトゲノムには2万個の遺伝子があります。それらすべてについて読んで学ぶ時間は足りません。たとえすべてについて読むことができたとしても、最後まで読み終える頃には最初に読んだ内容を忘れてしまっているでしょう。

これが私を最も納得させた理由です。今日私たちができる最も重要なことは、複雑な科学を理解する上で私たち人間よりも優れたAI科学者を構築することだということです。私たちが持っている新しいツールは、AGIであれ人工超知能であれ、私たちが目標に到達するための発見を可能にしてくれるのでしょうか。私が関心を持っているのは、私たちが発見を行っているかどうかです。これらのツールが私たちにそれを可能にしてくれるのかということです。

私はSam Rodriguezです。FutureHouseのCEOを務めています。私たちはサンフランシスコにある研究所で、生物学やその他の複雑な科学における発見と研究を自動化するAI科学者の構築に焦点を当てています。

インタビュアーが質問します。それでは、Sam、まず簡単な質問から始めましょう。マルチエージェントAI科学者が、科学の停滞と、同じ生産性問題を解決するためにより多くの博士号取得者を追加することとの間のギャップを埋める可能性があると確信したのはなぜですか?

私は訓練を受けた理論物理学者です。量子情報理論から始めました。物理学にはもう未解決の問題が残っていないように感じるようになり、そこですべてが未解決である生物学と神経科学に移りました。神経科学を学んでいると分かることの一つは、私は本当に脳の働きを理解したいと思っていましたが、脳の働きを理解するために必要なすべての情報を持っていたとしても、誰も科学文献をすべて読む時間がないので、必ずしもそれを知ることはできないということです。たとえすべての科学文献を読むことができたとしても、それを包括的な全体として組み立てるのに十分な時間、頭の中に保持することはできないでしょう。

具体例として細胞についても同様のことが言えます。ヒトゲノムには2万個の遺伝子があります。それらすべてについて読んで学ぶ時間はありません。たとえすべてについて読むことができたとしても、最後まで読み終える頃には最初に読んだ内容を忘れてしまっているでしょう。これが基本的に、今日私たちができる最も重要なことは、複雑な科学を理解する上で私たち人間よりも優れたAI科学者を構築しようとすることだと私を確信させた理由です。

生物学は複雑で相互作用するシステムのようなものです。すべての遺伝子が互いに相互作用しており、これらの相互作用の多くが非常に重要です。細胞がどのように働くか、脳がどのように働くかといった複雑なものを、それらの個別の構成要素をそれぞれ考慮せずに実際に理解できるとは想像し難いです。

しかし、人間がそれらすべての要素を一度に頭の中に保持する認知能力を持たない世界では、情報を統合することにおいて私たちよりも優れた何かが必要です。

エージェントの構築とプラットフォームのコア要素

インタビュアーが尋ねます。あなたがエージェントと考えるものは何ですか?そして、それはあなたのプラットフォームのコア要素、Falcon、Owl、Phoenixとどのように連携するのですか?

エージェントという概念は元々強化学習分野から来ています。強化学習は言語モデルの訓練における役割により最近非常に注目されていますが、強化学習は言語モデルよりもはるかに前から存在しています。エージェントとは単に、行動を取り、その結果を観察できるAIシステムのことです。何らかの観察を行うのです。

例えば、単にモデルがある場合、何らかの入力を受け取り何らかの出力を生成するだけなら、それはエージェントではありません。言語モデル単体はエージェントではありません。それを環境の中に置き、入力があり、出力を取り、その出力に基づいて環境が変化し、再び環境を観察するという設定にすると、それをエージェントと呼ぶことになります。

囲碁をプレイする例を挙げるのが好きです。現在の囲碁盤の状態を入力として受け取り、次の手を出力するモデルがある場合、それは単なるモデルです。それをエージェントとは呼びません。それを、現在の盤面の状態を入力として受け取り、次の手を出力し、その手に応答して盤面が変化する(相手が手を打つため)設定に置くと、それをエージェントと呼ぶことになります。これはすべて、システムが行動を取り、結果を観察し、その後別の行動を取ることができる環境にあることに関係しています。

言語モデルに適用する概念として、同様のことが言えます。言語モデル単体は、エージェント的ではありません。言語モデルは自然言語を入力として受け取り、より多くの自然言語を出力するだけです。しかし、例えば言語モデルがツールにアクセスでき、環境と相互作用する設定に置くと、それを言語エージェントと呼ぶことになります。

これが重要なのは、FutureHouseで私たちが取り組んでいるのは真のエージェントだからです。つまり、実際に科学ツールにアクセスできる言語モデルで構成されるシステムに取り組んでいるということです。これは、エージェントについて聞く時に実際にほとんどの人が構築しているものとは対照的です。エージェントやマルチエージェントシステムなどについて話すほとんどの論文は、実際には真のエージェントではないことが多いです。人々がエージェントと呼んで取り組んでいるものの多くは、実際には言語モデルにXを行うよう指示し、次にYを行うよう指示し、次にZを行うよう指示するだけです。言語モデル側での実際の意思決定はありません。

それはエージェントではありません。そのようなシステムからも興味深い動作を得ることはできます。しかし、FutureHouseでエージェントについて行っていることは、意思決定を言語モデルの手に委ねようと本当に試みていることです。任意のステップで取るべき正しい行動を決定する自由を持たせるようにしています。

私たちのプラットフォームの本当にクールなことの一つは、実際にエージェントが互いに相互作用できるようにプラットフォームを構築したことです。私たちにはいくつかの異なるエージェントがあります。Crowがあり、これは科学文献にアクセスできる一般目的のエージェントのようなものです。

Crowは科学文献に基づいて何かを行いたい時には本当に優れており、あまり専門的である必要はありません。例えば、Crowの良い使用例は、特定の実験プロトコルでどのパラメータを使用すべきかを知りたい場合です。Crowは文献を検索し、関連する論文を見つけて、それらの論文と共にあなたのところに戻ってきます。

Crowは新しい仮説を生成することなどにも非常に優れています。Falconはより深い文献検索エージェントで、大量の文献を検索し、その文献から情報を統合することが必要な事柄に本当に優れています。例えば、メタ分析を実行することなどです。「この分野のすべての論文のうち、手法Xを使用しているのは何本ですか?」や「手法Yを使用しているのは何本ですか?」、あるいは「乳がんの転移の原因について研究したすべての論文の平均で、最も一般的に引用されている原因は何ですか?」といった質問に答えることです。これには大量の文献を読み、その文献を分析することが必要で、これはFalconが本当に得意とすることです。

私たちにはFinchがあり、これはデータ分析エージェントです。データセットを渡すと、コードを書き、そのコードを実行し、コードを実行した後に何が起こるかを見ることができます。

非常にオープンエンドなことができます。データセットを渡して「このデータセットに基づいて、がんの転移の原因について何が分かりますか?」と言うことができます。そうすると、どのような種類のデータセットかを見ることができます。

そして「ああ、物質Xと物質Yの間の相関を見てみよう」などと言うことができます。そしてコードを書き、そのコードを実行して結果を得ます。例えば、相関値を得たり、見ることができるプロットを得たりします。そして、そのプロットがどのように見えるかに基づいて、文字通り「あ、実際にはそれはあまり興味深くなかった。代わりに別のことをやってみよう」と決定することができます。

科学を行う人間が文献を検索し、論文を見つけ、その論文が言うことに基づいて「あ、もしかしたら間違った方向で検索しているかもしれない。実際に、私が考えているこのことはがんの転移の原因ではないかもしれない。代わりにこの別のことかもしれない」と言うのと同じ方法でです。それは決定です。何らかの行動を実行し、データ分析を行い、観察を得て、分析の結果を得て、その代わりに別のことを行うと決定するのです。これらが私たちがモデルの手に委ねている決定の種類です。

私たちが持っている別のものはOwlと呼ばれています。これは私たちが9月にHasAnyoneと呼んでローンチしたツールの更新版です。私たちがそれを先例検索のようなものと呼んでいます。「誰かが以前に何かを行ったことがあるか?」という質問に答えることに特化しています。「誰かが以前にXを行ったことがあるか?」です。科学に精通し、多くの科学を行う人々は、「誰かが以前に何かを行ったことがあるか?もしなければ、なぜないのか?」という質問を尋ねることに多くの時間を費やすことを認識するでしょう。

例えば、新しい仮説を思いついた場合、「この仮説は実際に新しいのか?誰かが以前にこれをテストしたことがあるのか?」を知りたいでしょう。これは人々がOwlを使用する良い例です。そして率直に言って、これは一般的に人々が科学文献を使用する方法の本当に良い例です。科学文献のいくつかの主要な目的の一つは、その質問に答えることができることだと思います。それがOwlです。

そして、Phoenixは私たちがローンチした実験エージェントで、化学における実験計画を中心に構築されています。Phoenixは非常に早期の実験プロトタイプです。私たちがローンチした他のエージェントほど洗練されていません。しかし、私たちがPhoenixをローンチした理由は基本的に、文献検索とデータ分析以外のより多くの異なるツールにアクセスできる時に、これらのAI科学者エージェントがどのように見えるかについて人々に洞察を与えたかったからです。

Phoenixは化学における特殊なツールにアクセスでき、反応を計画し、異なる分子を合成する方法を理解し、どのような種類の化学合成を行うためにどの試薬が実際に必要か、これらの試薬の費用はいくらかといったことを見ることができます。化学における実験計画に優れています。

それについてクールなことは、科学者が使用する非常にユニークで特殊なツールが多くあることです。Phoenixは、時間が経つにつれてエージェントにこれらのツールへのアクセスを与えることで、科学者が実行するワークフローのより多くを自動化できるようになる場所の最初の例にすぎません。

私たちがこれらのプラットフォームを構築した方法について興味深いのは、エージェントが実際に互いに話すことができるように構築したことです。

文献を検索する能力を持つエージェントを構築できます。エージェントは特殊なエージェントを呼び出す能力を持ちます。エージェントはFinchを呼び出したり、Falconを呼び出したりできます。基本的に委任することができます。これが、異なることに特化した多くの異なるエージェントがあり、それらが互いに話すことができる真のマルチエージェントシステムに入る方法です。

私たちが向かっているビジョンは、ある時点で、例えば「がんの転移の分子ドライバーは何か」といった仮説を思いつきたいと想像できることです。Falconに文献を検索させ、データセットの束を収集し、それらのデータセットをダウンロードして、Finchに引き渡します。Finchはその後データ分析を行います。

そこで、本当に興味深く複雑で洗練されたワークフローに入り始めることができます。より多くの機能を追加し、より多くのエージェントを追加することで、時間が経つにつれて、効果的に仮想実験室のようなものを構築できると思います。

根本的な透明性と人間の監視

インタビュアーが言います。あなたは非常に透明なワークフローを持っていて、これらのモデルが通る思考の連鎖をすべて見ているようです。なぜこれらのことを示すことが重要なのですか?その意思決定の原則について話してください。

科学においては、あなたの知識が何らかの形で自然の現実に根拠を持っていることを確認することが非常に重要です。何らかの信念を持つ時はいつでも、その信念が具体的にどこから来るのかを知りたいのです。特に、科学におけるすべての信念は実験結果から派生しています。なぜなら、それが私たちが確実に知っている唯一のことだからです。科学は実証的です。私たちが確実に知っている唯一のことは、実験を行い、結果を得ることができるということです。

科学において何かを信じる時は、可能な限り、それを元の実験まで遡って辿ることができるようにしたいのです。それが理想です。

私たちにとって、それが意味するのは、CrowやFalcon、Owlが科学文献を検索し、ある話題について知られていることを分析している時、まさにそれらが通ったすべてのステップを見ることができるようにしたいということです。最終的な答えに実際に反映された情報をどこで得たのかを見ることができるようにしたいのです。

それらが与える答えには引用があります。それらの引用を見ると、論文だけでなく、エージェントがその引用を質問に答えるために重要だと考えた理由の詳細な推論も与えられます。推論トレースに入ると、あなたの質問を得てから答えを思いつくまでの道のりで、エージェントが考慮した他のすべての論文を正確に見ることができます。

これは完全に追跡可能であることを意味します。幻覚のようなことをあまり心配する必要がないことを意味します。

つまり、常に幻覚について心配する必要があります。記録のために言うと、エージェントやAIと作業しているか、人間と作業しているかに関係なく、常に幻覚について心配する必要があります。

人間もでっち上げることがあります。幻覚がある場合、それを追跡することができます。それは究極の「あなたの作業を示す」ことです。

私がよく尋ねられる質問の一つは、どこでモデルが人間よりも優れていると期待するか、どこで人間がモデルよりも優れていると期待するか、今と将来においてです。明らかに、将来を予測することは常に少し挑戦的です。

しかし、少なくとも今のところ、私はどの特定の話題においても世界最高の人間は、私たちが生産したエージェントや基本的に誰かが生産したどの言語モデル、どのAIよりもまだはるかに優れた判断力を持っていると思います。今のところ、最高のエージェントでさえ最高の人間よりも優れているという点に私たちは到達していないと思います。

エージェントが本当に得意なのは、他の誰よりも多くのことについてはるかに多くを知っていることです。これが生物学にとって本当に刺激的な理由は、生物学では多くの異なる分野にわたる情報を統合する必要があるからです。新しい薬を思いつくためには、DNAタンパク質などの基本的な生物学から、基本的な生体分子相互作用から、異なる生体分子がどのように協力して細胞を働かせるかという細胞生物学まで、病気のメカニズムまで、細胞内の病気のメカニズムが全体として生物の病気にどのように影響するかまで、どのようにして臨床試験を実施するか、規制経路は何かまで、この薬を作ることができたとしても、それが保険でカバーされるかまで、医療上の未充足ニーズは大きいかといったことまで、情報を統合できる必要があります。これらすべてのことを知る必要があります。

どの特定の分野においても、今日私たちが持っているモデル、私たちが持っているエージェントは最高の人間よりも優れているつもりはありません。それらはこれらすべてのことについて多くを知っています。人間は非常に尖っています。人間は一つのことについては多くを知っているでしょうが、他のことについてははるかに少ししか知りません。

私たちが本当に興奮しているのは、今日エージェントが最高の人間よりも優れていないとしても、より多くのことについて知っているので、基本的により良い判断力を持ち、新しいアイデアを思いつき、新しい発見を行うことができるかもしれないという考えです。より多くのことについて知っているのです。より多くのことについて何かを知っているのです。

基本的に今日の私たちの状況は、人間はいくつかのことについて多くを知っている、モデルは多くのことについて何かを知っているということです。将来私たちが向かっているところは、時間が経つにつれて、私たちは単に上昇し続けると思います。

モデルの性能は、最終的にモデルが多くのことについて多くを知る点まで上昇し続けるでしょう。一方で人間はいくつかのことについて多くを知っているだけです。その時点で、多くの分野でモデルが人間よりも仮説生成が優れていることを期待すべきだと思います。特定のドメインで同様のレベルの知識を持つだけでなく、多くの異なるドメインにわたってその高いレベルの知識を組み合わせるからです。

しかし、これが人間がすぐに時代遅れになるということを意味するとは思いません。そう言う理由は、AIがプログレスにおける知能のボトルネックを除去することに非常に優れていることを期待すべきだからです。ボトルネックが知能である場所では、AIは最終的にそのボトルネックの除去を助けるでしょう。しかし、どこでも知能がボトルネックであるというわけではありません。知能が常にボトルネックであるわけではありません。

知能がボトルネックではない多くのことがあります。典型的な例は、地面からレアアース金属を採掘したい場合です。より知的であれば、採掘のより良い方法を思いつくかもしれません。しかし根本的に、一日の終わりには、実際に文字通り岩を取り、岩を砕いて重金属を取り出す必要があります。

絶対的に最高で最も知的な方法でそれを行ったとしても、おそらくまだ多くの時間がかかるでしょう。これは、最も知的なものであっても、ある限界を超えてそれらを加速することはできない根本的なボトルネックがあると期待すべき例です。

生物学でこれが現れる場所は、根本的な限界があることです。例えば、私たちが老化の治療法を持っていたとしても、今日、それが実際に働いていることを知るまでには少なくとも5年から10年かかるでしょう。なぜなら、それが人間が老化する時間スケールだからです。最も知的なモデルがあったとしても、今日老化の治療法があったとしても、それが数年以上働いていることを知ることができるとは期待すべきではありません。

これを認識することは本当に重要です。なぜなら、これは私たちが病気を治すことができる速さに下限を設けるからです。私たちは多く、ほとんど、すべてかもしれない病気を治すことができると思います。陪審はまだ結論を出していませんが、知能だけがボトルネックではないので時間がかかるでしょう。

これは、人間がすぐに置き換えられないであろう役割がどこにあるかも指摘しています。人間が科学において完全に置き換えられるかどうかさえ確信がありません。これらのことについて言うのは非常に困難ですが、人間が科学において完全に置き換えられることは起こりにくいと思います。より多くの知能を持つことが助けにならない多くの決定がなされるからです。

例えば、この病気を治す二つの異なる方法がある、または実施できる二つの異なる種類の試験があるとします。両方に良い証拠があります。どちらが優れているかは明らかではありません。より多くの知能があってもどちらが優れているかを理解する助けにはなりません。なぜなら、あなたは根本的に認識論的に制限されているからです。どれだけの情報を持っているか、どれだけの実験を実施したかによって制限されています。そこで人間が役割を果たすことができます。AIがそれらの決定を行うことにおいて優れているわけではないかもしれません。人間もそれらの決定を行うことにおいて役割を果たすでしょう。

インタビュアーが尋ねます。AGIとは何だと思うか、そして特定の結果を達成する実用的なツールを構築することよりもそれについて議論することが価値があると思うかについて、あなたの考えを聞きたいです。

それは素晴らしい質問です。人々はAGIを使って、基本的にすべてにおいて人間よりも優れているか人間に匹敵するシステムというアイデアを指します。言語モデルは私たちが知能と関連付ける多くの特性を示しているようです。それらの知能は私たちのものとは非常に異なる方法で働きます。

そのため、しばらくの間、人間が優れている分野とAIが優れている分野があることを期待すべきです。時間が経つにつれて、AIがすべてまたはほとんどの分野で人間を追い抜く可能性があります。認識することが重要なのは、多くのアプリケーションにとって、それは必ずしも重要ではないということです。

私たちがこれらのモデルに取り組んでいる時、よく尋ねられることの一つは、これらのモデルはAGIにどれだけ近いか、人工超知能にどれだけ近いか、AIが新しい発見をしたり、そのようなことをすることを期待する前に人工超知能が必要かということです。

その質問に対する私の典型的な答えは、AGIは基本的にすべてのタスクにおいて人間よりもはるかに優れているか人間と同等であるAIを持つことができるという概念を指します。人工超知能では、人間よりもはるかに優れたAIを持ちます。この質問に対する私の基本的な答えは、それが重要かどうか確信がないということです。

私は元々理論物理学者でした。1950年代と60年代に物理学で、人々が量子力学を発展させていた頃、量子力学の含意と多世界理論について多くの哲学的議論がありました。

現れたのは「黙って計算せよ」学派と呼ばれる思想の陣営でした。量子力学を解釈する多くの異なる方法があり、哲学的含意が何であるかを考える多くの異なる方法がありますが、根本的にこれらの異なる哲学的含意に関連する予測は同じです。

そのため、ある程度、どうでもいいのです。重要ではありません。予測ができる限り、重要ではありません。これは、AIに関する私の哲学でもあります。それがAGIかどうか確信がありません。人工超知能かどうかは気にしません。

私が気にするのは、すべての病気を治し、人間の寿命を延ばし、はるかに生産性の高い作物を作ることで地球全体を養い、宇宙に行って宇宙を探索する方法を見つけるといった新しい発見を行うことができるかどうかです。これらはすべて、人間として私たちにとって技術的に可能であるべきことです。

本当に重要な唯一のことは、私たちが持っているこれらの新しいツールが、私たちをそこに導く発見を行うことを可能にするかどうかです。それ以外は意味論的な問題です。それがAGIであろうと、人工超知能であろうと、それは意味論的な問題です。私が気にするのは、私たちが発見を行っているかどうか、これらのツールが私たちにそれを可能にするかどうかです。

オープンサイエンスと仮想実験室への道

インタビュアーが尋ねます。なぜオープンソースアプローチを取るのですか?そして、AIに関連する将来のオープンソースサイエンスから具体的に何を期待していますか?

歴史的に、AIはオープンソースコミュニティにとって本当に砦のような存在でした。AIの発展の最初の10年から20年を見ると、人々が行っていたことのほぼすべてがオープンでした。アルゴリズムはオープン、モデルはオープンなどで、これが本当に分野の発展を助けました。

最近、フロンティアモデルの開発がはるかに高価になったため、人々はモデルをオープンソース化するのを止めました。安全上の理由だという人もいます。商業的な理由だという人もいます。両方の混合かもしれません。重要ではありません。確実に、おそらくAIの商業的応用には必要であるオープンソースの欠如は、技術開発に関しては障害になっています。

FutureHouseでの私たちの目標は、科学的発見を加速することだけで、それは世界中のすべての科学者が科学を自動化するために必要なツールを持ち、それらのツールの上に構築できることを確実にすることを意味します。私たちは世界中の科学者が彼らがアクセスできる最高のツールにアクセスし、新しい発見を行うためにそれらを彼らのワークフローに統合する方法を見つけることができるようにしたいのです。

これまでの私たちの哲学は、私たちが行っているすべてをオープンソースにしましょうということでした。

どの程度のものをオープンソースにすべきか、どの割合のものをオープンソースにすべきかなどについて、類似の考慮事項に遭遇するでしょう。これは非常に資本集約的なこの分野で働くという現実にすぎません。

生物学、バイオテクノロジーにいる時に非常に早く学ぶことの一つは、新しい薬を発見した場合、それをオープンソースにして世界で利用可能にするのは素晴らしいことではないかと思うことです。新しい薬を発見してそれを全世界にオープンソースで利用可能にすると、誰もそれが機能し、安全で効果的であることを示すために必要な臨床試験を通すために必要な資金を投資する動機がないということが判明します。その結果、あなたの薬は死んでしまいます。

バイオテクノロジーでは、これらの資本集約的分野、バイオテクノロジーも非常に資本集約的ですが、本当に機能し人々が使用できるものを開発するために投資する必要がある資本を投資できるようにするためには、知的財産保護が必要であることを非常に早く学びます。

FutureHouseでも時が来るかもしれません。その時、基本的に、それらを開発するために投資する必要がある資本を投資できるようにするためには、物事をクローズドソースに保つ必要があると言うでしょう。その段階に達した時、アプリケーションXやアプリケーションY、アプリケーションZのために会社をスピンアウトすることは理にかなうかについても考えるかもしれません。

FutureHouseは非営利団体で、科学における基礎発見研究の自動化に専念しています。しかし、アプリケーションを見つけるにつれて、非常に資本集約的で商業化可能な進歩をもたらす可能性が高いアプリケーションについては、それらを活用するために会社をスピンアウトするかもしれません。これは、非常に資本集約的な分野で働く時に対処しなければならないことです。

プラットフォームで私たちが行うことができた最初の本当にクールなことの一つは、実際に50歳以上の人々の失明の主要原因である加齢黄斑変性症の新しい治療法となり得るものを特定したことでした。これについて前置きしたいのは、アイデアから概念から治療法に至るまでには多くのことが必要だということです。そのため、私たちは「AIが失明の新しい治療法を発見した」とは言っていません。しかし、私が言えるのは、これらのモデルによって、私たちはいくつかの手がかりを辿り、この形の失明である加齢黄斑変性症を治療する方法について非常に有望に見える新しい仮説を特定することができたということです。

私たちは、文献を通して、加齢黄斑変性症について、その病気を治療するために使用できるすべての可能なメカニズムは何か、そして文献でそれらのメカニズムに影響を与える可能性がある方法として探求されたすべての方法は何かを理解する、仮説生成設定にモデルを組み立てました。そして彼らが見つけたすべての可能な方法について、まだ探求されていないAMDの治療につながる可能性が高く見えるメカニズムはあるかを調べました。

私たちがそれを行った時に発見したのは、ROCK阻害剤、Rho-Kinase阻害剤と呼ばれる分子の特定のカテゴリがあることでした。これらは特に免疫学文献で知られており、細胞が局所環境から物質を食べることを表す食作用と呼ばれる細胞表現型に影響を与えることが知られていました。免疫学文献は、これらのROCK阻害剤が食作用にこの効果を持つことを知っていました。

眼科学文献、つまり目に取り組む臨床医は、食作用が加齢黄斑変性症の病態生理学と高度に関連している、密接に関係していることをすでに知っていました。しかし、ROCK阻害剤とAMDとの間のこの関連は、以前に文献で作られていませんでした。特に、以前に文献で作られていなかった関連は、実際にすでに承認されたROCK阻害剤があり、その分子がAMDの治療として直接適用可能である可能性があるということでした。

これが私たちのモデルが思いついた新しい仮説でした。私たちはそれをいくつかの異なる眼科医に持ち回りました。眼科医はそれを見て「これは実際にかなり興味深い」と言いました。これはかなり新しく見え、非常に興味深いので、試してみる価値があるかもしれません。

そこで私たちが行ったのは、実際にAMDの細胞培養アッセイでそれらのROCK阻害剤をテストしたことでした。これは、このアイデアが水に耐えるかどうかを見るために実施できる最初の種類の実験です。それは実際に非常にうまく機能しました。それらは非常によく機能しました。ウェットラボでのそのアッセイで私たちが持っていたポジティブコントロールよりもさらによく機能しました。

私たちが行った最初の実験は、モデルが基本的に戻ってきて「ここに分子があります。それはAMDの治療に使用できるRho-Kinase阻害剤クラスのメンバーで、私たちがそれをテストすべき方法は、ウェットラボに行くことです」と言ったことでした。そこで私たちは食作用アッセイをテストしに行き、それは機能しました。

そこで私たちはそれを取り、生の実験結果を私たちのデータ分析エージェントに渡しました。それはそれらを分析し、Rho-Kinase阻害剤が機能したことを理解しました。私たちはそれらの結果を取り、仮説生成モデルに戻しました。

仮説生成モデルは、すでにFDA承認された薬物を見つけることを含む、さらなる仮説を生成します。私たちは「そのFDA承認された薬物自体が、他の疾患で安全で効果的であることがすでに知られているAMDの治療法になり得る」と思いました。

そこで私たちは別の実験を行い、その次の実験の結果を得ました。それも非常によく機能することを示しました。そして再び、データ分析エージェントにデータを分析させました。その後、これらのRho-Kinase阻害剤が食作用にこの効果を持つメカニズムを理解しようとするために、実際に別の実験も行いました。それも、私たちが実験を行い、それをデータ分析エージェントに渡すという状況でした。

データ分析エージェントは、それを分析して非常に興味深い発見を思いつくことができました。しかし、ここでの全体的なストーリーは、これがエージェントが仮説を思いつき、私たちがそれを実験室でテストし、エージェントがデータを分析し、新しい仮説を思いつき、私たちがそれらを実験室でテストし、エージェントが再びデータを分析するという最初の例だったということです。

基本的に、実際のウェットラボ作業を除いて、プロセス全体がこの自動化された発見サイクルのようなものです。これは基本的に、これらのエージェントを使用し、ウェットラボフィードバックと統合することで、すべてがはるかに速く進み、はるかに情報に基づいた仮説を持つという、科学が将来どのようになるかのモデルだと思います。

インタビュアーが尋ねます。人々がAIモデルに関して見るベンチマークについてどのように考えるべきだと思いますか?そして、それはあなたが話していることとどのように関連しますか?あなたは予測を気にし、発見を気にしています。

私たちが常に考えなければならない質問の一つは、モデルが実際に科学を行うことにおいて向上しているかどうかをどのように判断するかです。重要なことは基本的にベンチマークです。

AIが新しい仮説を生成し、新しいアイデアを思いつき、新しいデータ分析を行うなどにおいて向上しているかどうかを測定する方法があることを確実にすることです。私たちはLAB-Benchと呼ばれる科学のためのベンチマークの束をリリースしました。これらは科学における様々な異なるタスクを実行するエージェントの能力を測定するためのものです。そして私たちはそれに対する性能を監視し続けています。

そうでなければ、AI分野一般は評価が非常に簡単で、エンジニアリングが非常に簡単なベンチマークに惹かれると言うでしょう。例えば、質問応答ベンチマークであるGPQAのようなものがあります。「人類最後の試験」です。

これらのベンチマークは、言語モデルが今は持っていないが開発できる能力は何かということに取り組む方法で設計されています。一般的に、ベンチマークは有用で、何かを測定しています。私が言うのは、それらはモデルが科学が得意かどうかを測定していないということです。

「人類最後の試験」の背後にあるアイデアは、「人類最後の試験」の問題の100%を行うことができるモデルを持つ時、それは素晴らしいということです。そのモデルは何らかの形で科学がより得意になるか、より多くの知識を持つでしょう。それは人間よりも推論が得意になるでしょう。「人類最後の試験」は非常に困難な推論問題の束であるはずだからです。

数学試験であるPutnam試験で本当によくやる場合、あなたは何かが得意であるのと同じ方法でです。それはあなたが世界クラスの数学者になるということを意味しません。

それは新しい定理を発明するということを意味しません。「人類最後の試験」で非常に得意であることは、その物が科学を行うことができるということを意味しません。本当に困難なことは、科学には時間がかかるということです。AIが科学を行うのが得意かどうかをどのように測定するのですか?実際にそれと一緒に科学を行い始める必要があります。

私たちは、内部で科学にモデルを実際に使用しようとし、それらを使って発見を行おうとし、世界中の科学者の手に置いて彼らがそれらをどのように使用するかを見て、基本的にこの物は発見を行っているか、良い仕事をしているかなどについて実世界のフィードバックを得ることでこれに取り組みます。

私たちは、モデルを評価し、それらについてフィードバックを与える契約で内部的に多数の科学者を保持しています。

良い質問応答ベンチマークを作るよりも、この方法で性能を測定するのは困難です。その物が科学が得意かという質問に取り組むことができる良い質問応答ベンチマークがあればと本当に思います。しかし根本的に、これらのモデルの性能を本当に得るためには、これを行わなければなりません。

そして、最後にそこで言うのは、これらのモデルの最終的な評価は、それらが現実世界でよりよく機能する仮説を生成しているか、予測を生成しているかです。そして、実際に行わなければならないことは、ウェットラボをループに入れることです。

これが私たちを際立たせる私たちが行っていることの一つです。高スループットで、モデルが生成している仮説、それが提案している実験を取り、それらを実験室でテストし、フィードバックを得て、それをモデルに戻し、モデルを訓練するためにそれを使用し、またモデルを評価するためにもそれを使用することができなければなりません。

そしてそれには多くのロジスティクスが必要です。実際に実験室を持たなければなりません。実験室で実験を行うことができる多くの人々を持たなければなりません。非常に多様な実験を行うことができなければなりません。多くの異なる種類の実験を行うことができなければなりません。

これが私たちが焦点を当てている私たちを際立たせる本当に一つのことです。加齢黄斑変性症の例の場合のように、そこで本当にそれを際立たせることは、私たちがアイデアを思いついただけではなく、アイデアを思いついて、ウェットラボでそれを試したということです。

細胞培養アッセイで、私たちはフィードバックを得ました。それから、私たちはそれをモデルに渡しました。私たちは実際のRNA配列決定アッセイを実施し、そこで実際のデータを得て、それをモデルに渡すことができました。これらのモデルと現実世界との相互作用こそが、ゴムが実際に道路に触れる場所であり、それは私たちが実際に、それらが科学がより得意かを見つけ出し、どのようにしてそれらを科学でより得意にするかを見つけ出すところです。

とにかく私は温まるのに少し時間がかかります。わかりません。

インタビュアーが言います。私には暖かく見えます。

これらのことについての最も明確な説明ではありませんでした。しかし、そうですね。

コメント

タイトルとURLをコピーしました