エピソード16:ライフサイエンスのためのAI構築

AI活用・導入
この記事は約36分で読めます。

本動画は、OpenAIのポッドキャストにおけるライフサイエンス分野へのAI応用に関する議論である。司会のAndrew Mayneが、リサーチリードのJoy JiaoおよびプロダクトリードのYunyun Wangとともに、AIモデルが生物学や医学にもたらす新たな可能性について解説している。具体的には、CodexやGPT-5を用いた研究ワークフローの自動化、創薬の加速、自律型ラボの構築、そして高度なAI技術を安全かつ責任を持って展開するためのリスク管理とアクセス権の重要性が語られている。AIが単なる計算ツールから、自律的に仮説を検証し科学的発見を推進するパートナーへと進化していく未来の展望が示されている。

Episode 16: Building AI for Life Sciences
What does it take to build AI systems that can actually help scientists? Research lead Joy Jiao and product lead Yunyun ...

ライフサイエンスにおけるAIの可能性

こんにちは、アンドリュー・メインです。OpenAIポッドキャストへようこそ。本日のエピソードでは、リサーチリードのジョイ・ジャオと、プロダクトリードのユンユン・ワンを迎えて、ライフサイエンス分野におけるOpenAIの取り組みについてお話しを伺っていきます。新しいモデルが生物学や医学の分野でどのようなことを可能にしているのか、そして、最も高度な機能を責任を持って展開していくためには何が必要なのかを探っていきましょう。

これによって、以前は可能だとさえ思っていなかったような、全く新しいレベルの難題解決や発見に手が届くようになるんです。

本当に有能で専門家レベルの知識を、より多くの人々の手に届けるということですね。

チームのキャッチフレーズの一つが、推論時の計算能力をスケールさせて、すべての病気を治すというものなんですよ。これが私たちのチームの合言葉のようになっています。

私たちは、ごく基本的なAPIからスタートしました。その後、より会話形式に特化したChatGPTが登場し、テキスト処理において非常に優れた能力を発揮するようになりました。そしてコーディング能力が備わっていく中で、コードモデルを経て、最終的にCodexへと進化してきました。

現在では、より多くのライフサイエンス分野の科学者たちがこういったシステムを使って研究を進めていますが、研究者の方々がこれらのツールをより使いこなせるよう、システム自体も進化していく必要があるということでしょうか。

はい、私たちはライフサイエンス向けモデルのシリーズを開発し、提供できることを本当に嬉しく思っています。これは、非常に複雑なライフサイエンス研究のワークフローにしっかりと根ざした、生化学に焦点を当てた新しいモデルのシリーズになります。

私たちは、ゲノミクスやタンパク質の理解から始め、メカニズムに対する新たな理解を加えることに注力しています。特に初期段階の発見のユースケースに焦点を当てています。なぜなら、それこそが核となるボトルネックの一つであり、考える時間を増やし、計算能力を高め、より強力なAIモデルを活用することで、そうした研究の壁を意味のある形で突破できると感じているからです。

また、これを実際にどのようにワークフローに組み込むかという、モデルのオーケストレーションの側面もあると考えています。まず素晴らしいのは、モデルを展開するための様々なプロダクトの基盤がすでに整っているということです。現在、ChatGPT上では文献を統合するような素晴らしいワークフローが数多く見受けられます。そしてこれらのモデルは、長期的なプロセスを要するエージェント型ワークフローの限界をまさに押し広げています。

そして私たちは、Codex上でその力を存分に引き出すことができています。モデルのオーケストレーションについてさらに付け加えると、企業向けのユースケースでは、結果の再現性や反復可能性といった要素が求められますよね。私たちはこの課題を乗り越えるため、特定のトランスレーショナルバイオ(橋渡し研究)のユーザーに向けて提供している、ライフサイエンス研究用のプラグインの開発に取り組んでいます。

このライフサイエンス研究用プラグインには50以上のスキルが備わっています。これらは基本的にテンプレート化された反復可能なワークフローであり、例えばさまざまな論文を横断してエビデンスを照合したり検索したりする必要がある場合や、頻繁に行うパスウェイ解析のような反復的な作業において、このプラグインを活用することで、ほぼワンクリックで実行できるオプションを提供できるのです。これはまた、高度に専門化された目的のためにスケールさせる際の、バランスの取り方を示すものでもあります。

私たちが今後踏み込んでいきたいと考えているのは、おそらく臨床目的での活用ですが、同時にすべての基礎生物学において非常に汎用的に使えるものにし続けたいとも考えています。

モデルはツールを使用することで、かなりのところまで到達できると私は思っています。

たとえば、オープンソースのタンパク質構造予測アルゴリズムを使用して、研究スタックを開始することができます。この場合、モデルは一般的な計算生物学者のような役割を果たします。コンピューター上でこれらのツールを実行し、その出力結果を確認し、入力を少し微調整する、といった具合ですね。

これは私たちのモデルがすでにこなせることだと思います。モデルをさらに強力なものにするには、モデルをより生化学の専門家のような存在へと進化させ始めることでしょう。そうした直感や専門知識を備えれば、これらのツールをさらに知的に活用し、より早く正しい答えにたどり着くことができるはずです。

ライフサイエンスへの情熱と原点

ライフサイエンスの分野にはどのようにして興味を持たれたのでしょうか?

私のもともとのバックグラウンドは、実はライフサイエンスなんですよ。

子どもの頃からずっと生物学に興味がありました。10年ほど前にハーバード大学でシステム生物学の博士号を取得しました。学術界はとても興味深い場所でしたが、私にとってはペースが少しゆっくりしすぎていると感じたんです。それに、物理的に研究室にいなければならないことや、ある器具から別の器具へと少量の液体を移し替えるような手作業の経験も影響しましたね。

私は、自分のスピードをより直接的にコントロールできるような、もう少しペースの速いものを求めていたんだと思います。そこからソフトウェアの世界へ移り、最終的にここOpenAIに行き着きました。ですから私にとっては、再び生物学に目を向け、かつての自分をAIでどうやって加速させられるかを考えるという、原点回帰のような瞬間を迎えているわけです。

ですので、AIがこの分野でどのような進歩を遂げることができるのかを見るのが、本当に楽しみで仕方ありません。

なるほど。これは遅すぎる。AIの分野に行ってスピードアップさせてから、また戻ってこようという感じだったのですね。

ええ、ただ今の立場から言うと、ピペットとかそういったものにはもう二度と触りたくないんですけどね。

ロボットに代わりにやってもらう方がずっといいです。

そうですね、私たちはそのことでよく冗談を言っています。私たちがこれに取り組む大きなモチベーションの一つは、ピペット作業を自動化して、二度と手作業でやらなくて済むようにすることなんです。

AIによる科学の加速と Ginkgo Bioworks との取り組み

そこが非常に興味深いところです。皆さんがGinkgo Bioworksと行った取り組みを拝見しましたが、GPT-5のようなAIシステムを導入し、ロボット制御された研究室と連携して物事をどれほど加速させることができたのか、というアイデアは素晴らしいですね。

そのことについて少しお話しいただけますか?

はい、Ginkgoとの仕事はとても興味深いものでした。プロジェクトが始まったのは、たしか去年の7月、2025年のことだったと思います。その時点では、GPT-5は学習を終えたばかりでした。モデルが生物学のタスクをこなせるかどうか、私たちには全く確信がありませんでした。学習データの中に、それほど多くの生物学のデータを含めていなかったからです。

主に数学やコンピューターサイエンスのデータでした。それらには検証可能な正解があるので、当然のことではあります。しかし生物学の場合は、実際に研究室で実験を行わない限り正解がわからないことがほとんどですよね。ですからGinkgoとのコラボレーションを始めた時、私たちの関心はまさに、モデルはそもそも生物学のタスクを少しでもこなせるのか?私たちが望む生成物を作り出すような反応を実際に起こす実験を設計できるのか?という点にありました。ですから、GPT-5がGinkgoとともに最初の一連の実験を設計した時は、本当に驚きでした。

そしてその結果が返ってきました。なんと、ゼロではない量のタンパク質が作れたと。あれは本当に驚くべきことでしたね。そこから進展して、わずか半年ほど前のその時点から現在に至るまで、私たちのモデルが科学を加速させることができると、ごく当たり前のように感じられるようになったこと自体、本当に驚くべき変化です。

それが可能性の技術というものを如実に示しているのだと思います。ジョイとGinkgoのチームが主導したあの実験が行われるまで、私たち自身も本当に分かっていなかったんです。私はいつも言っているのですが、私たちはこうした実験に取り組むことで、自分たち自身も学んでいるようなところがあります。現在も、他との提携でいくつかプロジェクトが進行中です。

そしてそれこそが、私たちが求めている種類の加速なのだと考えています。ハイスループットの実験データを読み込ませるのは非常に困難で、計算リソースを大量に消費します。多くの科学的ワークフローにおいて、科学の加速や進歩のスピードを妨げている真のボトルネックは、ほとんど人間というボトルネックにあると思うのです。

私やジョイが見据えている未来は、もはやボトルネックが人間ではなく、おそらく計算リソースのボトルネックになるという世界です。私たちは、並行してオーケストレーションを行う多数のサブエージェントを展開し、これらすべてのタスクを分割して攻略することが実際に可能になっています。これにより、研究者はそこから得られる最も意味のある洞察を深く分析し、解釈することに時間を使えるようになります。

ユンユンは、どのようにしてこの分野に関わるようになったのですか?

振り返ってみると、OpenAIでの私の時間の大部分は、何らかの形で生物学の研究に関わってきたように思います。最初はバイオリスクの軽減や、当社のバイオディフェンスに関する多くの取り組みからスタートしました。

ですから、現在ライフサイエンスの研究側に取り組んでいることで、この問題がいかに難しいかを実感し、両方の側面から取り組むことへの深い理解が得られていると感じています。私がウェットラボの研究に最初に関わったきっかけは、実は感染症やウイルス学に関する研究をたくさん行ったことでした。

そういった経緯もあって、私はずっとバイオセキュリティに興味を持ち続けてきたのだと思います。ですから、私たちのモデルが有益な用途や一般的なライフサイエンスの分野でより高い能力を発揮しつつある今、この課題に取り組むのには非常に良いタイミングだと感じています。

AIネイティブな科学研究の可能性

OpenAIはライフサイエンス分野にどれくらいの期間、焦点を当ててきたのでしょうか?

そうですね、これが可能だと私たちに示してくれたのは、まさにモデルの能力評価を設計するプロセスそのものでした。

ですから、初期の様々な研究実験に取り組み始めてから、少なくとも2年ほどになると思います。そして現在は、Ginkgoとの自律型ウェットラボによるモデル・イン・ザ・ループの実験へと進展しています。

この分野には、私たちが非常に期待を寄せている研究パートナーが他にもいくつか存在しています。

現時点では皆様のお名前を挙げることはできませんが、化学設計、タンパク質設計、酵素設計といった領域には、非常にAIネイティブで多くの人が関心を寄せている取り組みがたくさんあります。この世界がどのように機能しているのかを理解し、化学物質がどう反応するのか、細胞がどう相互作用するのか、細胞内の経路がどう影響し合うのかを理解し、最終的には創薬を加速できるかどうかに至るまでです。特定の病気が与えられたとき、モデルは科学者がそのメカニズムを理解するのを助けることができるでしょうか? ターゲットが与えられたとき、私たちはそのターゲットに対する新薬を実際に設計できるでしょうか?

さらには、FDAの承認プロセスを加速させることさえ可能でしょうか? 私は、このパイプラインのあらゆるステップで、AIが果たすべき役割があると考えています。ええ、すべてのプロセスにおいてAIがもたらす可能性は計り知れないと思います。

私もいくつか最先端の研究所を訪れたことがありますが、外から見ていると洗練されたイメージを持ちますよね。

しかし実際に中に入ってみると、文字通りペトリ皿やサンプルがずらりと並んでいて、大学院生がカチャ、カチャ、カチャと手作業を繰り返している光景を目にするわけです。それを見て私は、ああ、これが科学のペースなのか。これは速いなと皮肉交じりに思ってしまうわけです。はい、その通りです。

もう十分だ。もっとスピードアップさせなければと思うわけですよね。私たちはしばしば、科学のペースというものが人間の手の動く速さに依存しているという事実を忘れてしまいがちです。だからこそ、そうしたツールがあることは非常にワクワクさせられます。しかし、これらのツールを使って新しい治療法の道筋を考えたり、評価を行ったりし始めると、同時にこれらが好ましくない目的で使用される可能性もあるという懸念が生じてきます。

バイオリスクとセーフガードへの取り組み

生物兵器の話はよく話題に上ります。AIがコードの脆弱性を突く方法を見つけ出せるのであれば、遺伝子の脆弱性を突く方法も見つけ出せるかもしれない、ということです。これにはどのように対処しているのでしょうか?

はい、それは素晴らしい質問です。それはおそらく、高まり続けるAIの能力に関して私たちが現在真剣に追跡している、最も深刻なリスクの一つだと言えます。

その問題に対する最初のアプローチは、情報ハザードをどのように評価するかについて深く考えることでした。どの時点で、モデルが危険な病原体の合成における最終ステップの情報を提供してしまう可能性があるのか?私たちが気づいたのは、そこに至るまでの前段階のステップは、驚くほど無害に見えるということでした。

それらを区別するのは非常に困難です。別の言い方をすれば、有益で正当なユーザーが取る手順と、危険で悪意のあるユーザーが取る手順が、非常に似通って見えるということです。

何かから始めるわけですね。

はい、その通りです。

ですから、それに対して非常にリスク回避的なアプローチを取ったことは、やはり正しい判断だったと今でも思っています。しかし現在私は、すべてのセーフガードの取り組みの核となる柱として、差別化されたアクセス権や責任ある展開を導入し、異なるユーザー層が存在することを正しく理解するという方向に進んでいることに、非常に大きな期待を寄せています。

私たちが向かっている未来は、モデルがそれぞれ異なるパーソナリティを持つのと同じように、専門職としてのモデルといった形になるのではないかと感じています。対象とするワークフローのタイプに応じて、適切なモデルを呼び出したくなる時がありますよね。これをどう解釈するかというと、治療法などの研究に取り組む生物学者が、非常に厳密に管理されたデータセットへのアクセスを必要としたり、専門家レベルのアクセス権を必要とするのと似ていると思います。

彼らは皆博士号を持っており、専門家レベルの生物学の知識を持っています。それをどのように比較し、モデルの領域へと変換していくのでしょうか?だからこそ私たちは、同様の学習アプローチを取るだけでなく、同様のセキュリティアプローチも採用し、非常に高度なエンタープライズグレードの管理体制を整えた方法で展開していく必要があるのだと考えています。

今、セーフガードについて言及されましたが。それがここでどのように適用されるのか、どこで必要なのか、なぜ必要なのかを説明していただけますか?

はい。私たちは、非常に多様なリスク領域にわたって、ほぼすべてのモデルに対して慎重に新しいセーフガードを設計しています。

しかしバイオの分野に関して言えば、これは能力に関するリスクであると同時に、初めてのデュアルユース(軍民両用)リスクでもありました。つまり、能力が向上するにつれて、リスクもそれに比例して高まっていくのです。このような取り組みの多くには前例がありませんでしたが、モデルの推論能力が飛躍的に向上したのを目の当たりにした際、私たちが真っ先にこれらの強力なセーフガードを発動させたのもそのためです。

私たちは絶対に間違いのないようにしたかったのです。そして、それを正しく行う最善の方法は、段階的に展開していくことだと考えています。

ええ、良性で有益な科学を加速させることができる非常に有能なモデルと、悪意のある行為者に悪用されかねないモデルとの間には、本当に紙一重の境界線しかないと思います。

ここで最も安全なモデルというのは、全く能力のないモデルということになりますよね?

それではあまり使い物になりませんね。

ええ、役には立ちませんが、非常に安全です。その一方で、もし物理世界のオラクルのような、あらゆる実験についてすべてを知っているモデルがあったとしたら、それが悪意のある者の手に渡れば、非常に深刻な事態を引き起こす可能性があります。誰かが、新たなパンデミックを引き起こす可能性のある病原体を設計してくれと指示することができてしまうからです。

そしてモデルはそれを自律的に実行できてしまいます。ですから私たちは、その二つの間のどこに一線を画すのかを見極め、潜在的に非常に有能なモデルにアクセスできる人とできない人をどのように分けるかを考える必要があるのです。私たちが一般アクセストラフィックと呼んでいるものの中で気付いたのは、プロンプトを読むだけでは、ユーザーの本当の意図を把握するのは非常に困難だということでした。

その一例として、誰かが遺伝子のクローニングを手伝ってと言ってきたとしましょう。モデルにはそれが何の遺伝子なのかさえ伝えられないかもしれませんが、それでもプロトコルを作成することは可能です。しかし、その遺伝子が単なる緑色蛍光タンパク質である可能性もあれば、毒素である可能性もあるわけです。

そして会話の文脈からそれを判断する方法は基本的にはありません。そのため、本番環境においてこれは非常に困難な問題となります。ユンユンが言ったように、私たちは基本的に安全側に倒すことを決定し、もし悪用の可能性があると判断した場合は、モデル自身にユーザーを拒否させるという方針をとりました。その場合、モデルは、申し訳ありませんが、そのお手伝いはできません。代わりにこのプロトコルの概要レベルの説明なら提供できますといった返答をする傾向があります。

しかし残念なことに、これでは専門的な科学者の方々を非常に苛立たせてしまいます。当然のことですよね。私たちはその上にさらに何層もの軽減策を重ねています。それでも、私たちのモデルの能力を最大限に引き出すために本当に必要なのは、こうした差別化されたアクセス権なのだと考えています。

これがどういう意味かというと、私たちはユーザーが実際に誰であるかを知っているということです。彼らは合法的な研究機関や製薬会社で働く専門家です。そうした機関を巡る規制のおかげで、例えばすべての試薬が追跡されているといったことが分かっているのです。

彼らが使用している細胞株もすべて追跡されています。こうした背景があるため、地下室で得体の知れないことをしている見ず知らずの人物ではなく、正当なユーザーであると確信を持つことができます。それによって、一般的なアクセストラフィックに対して提供できる以上の能力を、彼らに提供することが可能になるわけです。

モデルの現状と今後の展望

現在、どのようなことができるのでしょうか?研究室でモデルと一緒に作業しているとしたら、現時点での能力はどの程度のものだと言えますか?

皆さん、実にさまざまな目的でモデルを利用されています。最近、ベイカーラボの方々と、彼らがCodexで私たちのモデルをどのように使っているかについてお話しする機会がありました。

時には、スプレッドシートを作成してくれないか?ピペット作業の回数をできるだけ減らしたいんだといったシンプルな依頼だったりします。大学院生時代に私自身も同じことを手作業でやっていたので、これには深く共感しましたね。これは非常にシンプルな数学的なソフトウェア操作のようなものです。

一方で、はるかに困難なタスクもあります。既存の生物学的デザインツールを使わずに、新しい酵素を設計してくれないかといった具合です。ですから、その洗練度合いには非常に幅広い幅があると思います。ええ。

そして私がとても期待しているのは、私たちのモデルをより強力な識別器として活用し、真新しい斬新なアイデアを実際にテストし評価できるようになることです。

多くの研究パートナーやモデルのユーザーたちとの間でトレンドとして気付いていることがあります。それは、科学的な研究やタスクのためのモデルには、通常とは異なるペルソナやプロンプトのスタイルが求められる傾向があるということです。

そのため、優れたアイデアに対してより厳密に精査したり、懐疑的になったりするモデルは、人間の科学者が独自性や実現可能性を評価するプロセスに非常に似ているとよく感じます。無数にある新しい論文や出版物がこうした仮説の最前線を押し広げている中で、本当に実現可能で、新たなブレイクスルーにつながるような検証に値するものはどれなのかを理解する上で、非常に役立っていると思います。これを疾患ターゲットのスクリーニングのような分野に置き換えてみると、

ターゲットの選択肢や創薬の可能性は無限にありますが、重要なのはその焦点を絞り込むことです。そこにこそ支援の余地があると感じています。これを大規模に行うのは極めて困難な作業ですが、そのプロセスを強化し加速できるモデルを持つことは、私たちがこのモデルを対象ユーザーに責任を持って提供することで期待している、直接的なインパクトの一つだと思います。

非常に興味深い軌跡を描いていますね。最初はAPI上のGPT-3やGPT-3.5があり、そこからChatGPTが登場し、今ではChatGPTアプリができ、さらにCodexもあります。これでできることの数が、絶えず増え続けているように聞こえます。

これが今後どのように構築されていくと見ていますか?基本的に、あらゆる探求のための完全なインフラストラクチャになっていくとお考えですか?

ええ、夢としては、科学的ワークフローの基本的な基盤の多くがCodex上で行われるようになることですね。

そして目標は、コンピューター上で可能なありとあらゆることを、ほぼすべてCodexができるようにすることです。もちろん、それをロボット工学などに接続することで、コンピューターの枠を超えて拡張していきたいとも考えています。

しかし現時点でもすでにできていることはあります。例えば、ラップトップからリモート接続している複数の開発環境がある場合、ねえCodex、このコードをリモートにあるすべての開発環境で実行してと指示すれば、Codexはそれを実行できます。これを監視しておいてと頼むこともできます。

そして私はその場を離れて別の作業をすることができます。その間、Codexは私の代わりにすべてのログを監視し続けてくれます。特定のデータを分析したり、データを視覚化したりするための、目的に合ったソフトウェアを多数構築することもできます。例えば、チーム内で生物学の実験データを送り合う場合、

最近気づいたのですが、生のデータを送る代わりに、回転するタンパク質のモデルなどが表示される、Codexが構築した美しいUIを備えたHTMLファイルを送り合うようになったんです。これは本当に、私たちの情報共有やコラボレーションのあり方を変えつつあります。

ええ、ユーザーや組織がこれをどのように導入していくかのロードマップを描き始めた当初、私たちは各科学者がそれぞれ個別のパーソナルアシスタントや同僚を持つようになるだろうと予想していました。

そして、これが全体のアウトプットをスケールアップさせる一つの方法になります。その次のパラダイムとしては、研究機関全体をスケールアップさせることが挙げられます。プログラムチーム全体が様々なエージェントの部隊を展開し、それらがすべて並行してタスクの委任を行うという、既存のパターンの多くを模倣するような形です。

そうすることで、より大きなタスクを解決するために、それらがどのように協力して機能するのかを解明していくことができます。

計算能力のスケールと将来の夢

興味深いですね。OpenAIはこれまで計算能力の必要性について言及してきました。私たちは時々、なるほど、それならもっとたくさんの会話ができるようになるんだな、くらいに考えてしまいがちです。

しかし、これらのツールを構築して全体的なプラットフォームや科学的探求の場にするというお話を伺うと、計算能力の優位性が極めて重要であるように聞こえます。

はい、計算能力のスケールアップについては、2つの異なる軸で考えることができると思います。誰もがよく知っているのは、単にモデルを大きくしていくという軸です。

GPT-2からGPT-3へと進化した際、その規模は飛躍的に拡大しました。そしてモデルから驚くべき創発的な特性が現れました。GPT-2がリリースされた当時のことを思い出すと、ユニコーンについての一貫した記事を書けたことだけで、私たちは皆一様に驚嘆したものです。

しかし今は全く別の世界にいますよね。その多くはモデルのアーキテクチャによるものですが、同時にモデルのパラメーター数が増えたことによって、以前は可能だとは到底思えなかった信じられないような知能を実現できたのです。そしてもう一つの軸として、テスト時(推論時)計算スケーリングと呼んでいるものがあります。

これはモデルが推論を行っているとき、つまりトークンを生成しているときのことです。私たちが推論モデルと呼んでいるものでごく最近実現したことなのですが、モデルがスケーラブルな時間を使って思考できるようになりました。これは、モデルがその問題をどの程度難しいと判断するかによって変動します。

モデルに何日も考えさせることもできますし、事実上、ある問題について永遠に考えさせ続けるような方法もあります。これによって、以前は可能だとは考えられなかったような、全く新しいレベルの難題解決や発見に到達することができるのです。

データセンターと聞くと、猫の画像を生成したり、テキスト会話をしたりするためのものだと単純に考えがちです。

しかし、これらが極めて長期的で大規模かつ複雑な思考プロセスを実行するためのシステムになるという枠組みで見ると、非常に分かりやすいですね。Stargateのようなプロジェクトが膨大な計算リソースを構築すると言っているのも、今やっていることのためだけではなく、こうした目的のためなのだと考えると、私にもとても納得がいきます。

Slackでチームの結成を初めて発表したとき、キャッチフレーズの一つが、推論時の計算能力をスケールさせて、すべての病気を治すというものでした。まさにこれが私たちのチームの合言葉のようになっています。

私たちのチームのモットーですね。

とても野心的ですね。

ええ。

私の友人の子供がオーファンドラッグ(希少疾病用医薬品)の対象となるような希少疾患を持って生まれ、彼女は資金集めをしたり、支援のためにできる限りのことをしたりしていました。

何人かの研究者が治療法を見つけようとしていましたが、圧倒的に時間も人も足りていませんでした。私たちは今、こうしたツールによって、そうした悲劇が過去のものになるかもしれない時代に生きているのだと希望を持っています。

そうですね。こうしたケースにおいて、モデルがすでに大きく貢献しているのを目の当たりにしています。

例えばドラッグ・リポジショニング(既存薬の転用)などですね。FDAによってある適応症での使用がすでに承認されている薬剤について、その薬剤が機能するメカニズムを理解した上で、モデルが、この薬剤を使えば一時的に症状を緩和できるかもしれないと提案するケースが多数出てきています。

また、個別化医療の分野でも大きな進歩が見られます。例えば、ASO(アンチセンスオリゴヌクレオチド)や他のRNAベースの治療法の設計は非常に一般的になっています。そして、ええ、私たちはAIを用いてこれを非常に大規模にスケールアップできるようになる一歩手前のところにまで来ています。おそらく今後1、2年のうちに、この分野で非常に大きな変化を目にすることになるでしょう。

私の知る研究者に研究室に何が必要ですか?と尋ねると、例外なく、もっと人手が欲しい、もっと多くの人にこの作業をしてほしいと答えます。一部の人はAIが人間の仕事を奪うのではないかと懸念していますが、お話を伺う限りそうではなく、実行可能なあらゆることを後押しする強力なアクセラレーターであるように感じます。

ええ、全く同感です。例えばラボの自動化について考える時、ボトルネックの多くは、プロトコルをプラットフォーム上で実行可能な形に変換する作業から生じています。パートナー企業からは、Codexがこの作業をいかに支援しているかという報告を受けています。

これは根本的に、半分はコーディングの問題であり、もう半分はラボがどのように機能するかを理解する問題なのです。データ分析の部分について考えてみると、統計学について深い理解を持っていないユーザーに対しても、私たちのモデルが伴走してサポートできると感じています。彼らでも、入ってくるデータを厳密に分析することができるようになります。

モデルは、彼らがさまざまな仮説を探求するのを助けたり、異なる統計的検定を提案したりすることができます。また、データに潜む潜在的な問題やバイアスを指摘することもできます。これらはすべて、個々の科学者を向上させ、より良い科学研究を行うためのサポートとなるものです。しかし、ループの中にいる科学者を完全に置き換えることは決してできないと考えています。

ライフサイエンスとAIの今後のタイムライン

つまり、皆さんはこれを研究室に導入し、自動化を支援する方法を見つけ出したわけですね。半年後、あるいは1年後には、どのような状況になっているとお考えですか?

そうですね、AIが新薬を設計した、あるいは病気を治癒したと言えるところまで到達できたら本当に素晴らしいですね。

それが半年後に実現するかどうかは分かりませんが、今後数年以内には実現することを願っています。パイプラインの様々な段階で、その兆候がすでに現れているのを感じます。明らかに創薬プロセスの初期段階において、文献の統合を行ったり、モデルが新しい生物学的メカニズムを発見したりしています。

それが市場に出る新薬になるまでには非常に長いプロセスが必要で、おそらく10年ほどかかるかもしれません。しかし、おそらく臨床試験の段階から始めることで、このプロセスを本当にスピードアップさせる方法はあると考えています。私たちは、その少し前の安全性審査や薬剤設計の段階でスタートを切っています。

ですので、ええ、基本的にはそれが、今後数年間に起こるであろうことの中で私が最もワクワクしていることです。

私としては、ユーザーである科学者の皆さんが私たちのプラットフォーム上で実現できるであろうすべての可能性に、最も興奮しています。例えば、大きな成功例の一つとして、ある研究者が私たちのプラットフォーム上でモデルを使用して、新しい発見や発明の特許を取得できたら素晴らしいですよね。

だからこそ私たちは、初期段階の発見に焦点を当て、メカニズムの理解などをモデルに教える構築作業から始めているのです。これは繰り返しになりますが、科学者の皆さんが研究のスピードを本当に加速させることができるよう、ライフサイエンスモデルを通じて最も強力なツールを提供しようとする試みです。

モデルが細胞の働きを予測したり、結果を予測したりするのが、基本的に非常に得意になる段階まで到達すると思いますか?

間違いなく到達すると思います。システムの複雑さには依存しますけどね。例えば、私たちのモデルがすでに非常に得意としていることの一つが、化学反応の結果予測です。

そして生化学的・生物学的な複雑さが増すにつれて、予測が最も困難になることの一つが、ある薬を投与したとき、それが特定の人や特定のシステムに対して毒性を持つかどうかです。私たちは時間をかけてそこまで到達したいと考えていますが、それは間違いなくロードマップ上にあります。最終的には成し遂げたい目標です。

生物学モデルの評価方法

言語や数学などを処理するモデルを見るとき、評価を組み立てるのは比較的簡単ですよね。問題を正しく解けたか、間違えたかですから。生物学を行うモデルの評価は、どのようなものになるのでしょうか?

はい、モデルのパフォーマンスを評価するためのさまざまな方法を用意しています。とても良い方法の一つが、実験データを使用することです。

つまり、誰かがすでに実験を行っていて、その実験の結果を予測できるかどうかをモデルに尋ねるわけです。仮想細胞の研究の多くは、基本的にこのような形で行われています。モデルに対して、まだ見たことのない環境変化を予測させようとするのです。

合成データを使っても多くのことが可能です。これはつまり、あるデータセットを生成し、そのデータにモデルにとって一種の罠となるような非常に特異な特徴を組み込んでおくということです。

これらは、典型的な計算生物学者が日常的に遭遇するような事象かもしれません。例えば、データにおける奇妙なバイアスのようなものです。

あるいは、実行しなければならない品質管理や統計的補正のようなものかもしれません。データは私たち自身が生成したものなので、これらのさまざまなミスをすべて捉えきれない計算生物学者としてのモデルの能力を、実際にテストすることができます。このように、評価においては様々な形で創意工夫を凝らすことができます。

とはいえ、やはりウェットラボでの実験こそが、モデルに対する最終的な真の評価になると思います。あなたがよくおっしゃるように、現実世界で証明できるまで、生物学において本当にリアルなものは何もないからです。ですから私たちは、まさにそれを実証するための研究コラボレーションを多数進めています。

ええ、評価システムは時間の経過とともに本当に複雑で洗練されたものになってきました。価値の創造とライフサイエンスにおける複雑な問題解決の両方を確実に捉えられる評価を設計する場合には、特にそれが当てはまると思います。

ですので私たちは、おもちゃのような問題ではなく、例えば前処理前のサイトデータの煩雑さなど、そうした現実をしっかりと捉えた例に焦点を当てるよう強く意識しています。新しい評価を設計する際、既存の実験を再現しようとすることが出発点になることがよくあります。

つまり、すでにベースラインが存在するものです。現在の最先端がどのようなものか、あるいは現在の正解データがどのようなものか分かっている状態ですね。私がとても期待している評価の一つは、私たちのモデルが抗体の結合予測を評価できるかどうかを確認し、既存のウイルス変異株に対してそれがどのように行われてきたかを見ることです。

そしてそのベースラインをクリアできたら、さらに一歩進めて、これまで行われたことのないものでも同じことができるか?と挑戦できます。これは、新規抗体設計や、新たなウイルス変異株に対する中和能力の拡大に向けた前段階のステップになると考えています。そしてそれは、新しい治療法や、潜在的には新しいワクチンの開発へと続く道でもあるのです。

科学コミュニティの受容と普及への課題

ライフサイエンスの分野、特にコミュニティのカンファレンスや知り合いの方々の間での反応はどうですか?これを受け入れようとする意欲を多く感じますか、それとも懐疑的な見方や、役に立たないと考える人もいますか?

おそらく、国のどの地域にいるかによると思います。西海岸にいると、皆かなりAIに夢中になっていると感じます。彼らはこうしたAIサイエンティストやエージェント型のワークフローを心から歓迎しており、AIの未来をしっかりと見据えています。

しかし東海岸のカンファレンスに行くと、状況は大きく変わります。全般的にもう少し懐疑的だと思います。AIの能力に対してもう少し疑いの目を向けているのかもしれません。ええ、おそらく単なる文化的な違いなのでしょう。主要なAI研究所のほとんどは西海岸にありますから、私たちはモデルに何ができるのかを直接肌で感じています。それが私たちの視点を少し変えているのだと思います。

そのギャップをどのように埋めていくのでしょうか?どうすればより多くの科学者に理解してもらえるでしょうか?というのも、貢献する人が多ければ多いほど良いように思えるからです。弱点や改善すべき領域がある中で、これに懐疑的な人々を巻き込んで参加方法を見出してもらうことが重要になりそうですね。

はい、いくつか方法があると思います。最も簡単なのは、ChatGPTやCodexのような異なるプラットフォームを通じてモデルを提供することです。個々の科学者に、これがどれほど役に立つかを示すだけでもいいんです。例えば、ピペット作業をしている人のために段階希釈のスプレッドシートを作成するだけでも、そこには本物の価値がありますよね。そこから少しずつ実績を積み上げていけると思います。

別のアプローチとして、例えば抗体設計や酵素設計といった分野で、研究室とのより深い研究コラボレーションを行っています。こうした取り組みは論文発表につながり、人々はそれを読んで、なるほど、AIシステムが多くの作業をこなしたんだな。生物学的な新規性もあるし、ウェットラボでも証明されていると認識するわけです。

それがシステムへの信頼性を高めることにもつながるのだと思います。

シンプルな答えとしては、実際に行動で示し、論文を発表し、科学コミュニティと関わることで証明していくということだと思います。そして、懐疑的な見方というのは非常に健全であり、歓迎すべきものです。

人々が本当に興奮したり、あるいは反証しようとしたりするのを見るのは素晴らしいことです。なぜなら、私たちが正しい方向に進み、実際にその能力を最大限に活用できれば、このテクノロジーが秘める可能性は途方もなく大きいからです。ですから、現実の問題にどう適用していくかについての慎重さは、当然必要とされるものだと感じています。

しかし私たちが発表を行う際、それが同時に、ライフサイエンスのワークフローや研究課題を代表するより厳密な評価の必要性を示すことにもなると思います。人々がそれを見て評価し、なるほど、これを自分の研究室に導入して現在のボトルネックを解決するためのアイデアが、今なら100個くらい思いつくよと言ってくれるようにですね。

実際のところ、AIは本当に強力だが、正しい使い方がわからないと不安に感じている人々から、ある種のストレスに直面したこともあります。

自分のワークフローや生活にもっとAIを取り入れるべきだという漠然とした思いはあるものの、どこにAIを導入すべきかがわからないのです。製品ビジョンの一部には、これをただ普通に使えるレベルにまでシンプルにするという目標が含まれています。

ですからCodexのようなシステムに向かって、今日やっている作業を頼むよとだけ言えばいいのです。あとはCodexがマルチエージェントのワークフローやツールの呼び出しなど、すべての要素を自ら判断してくれます。ええ、基本的には、AIからどうやって成果を引き出すかについて頭を悩ませる必要はなく、自然と恩恵を受けられるようになるというわけです。

若い世代や科学者へのアドバイス

モデルが賢くなり、ユーザーへの理解が深まるたびに、そうした段階的な変化を私たちは目の当たりにしていますよね。ユーティリティが高まることで、プロンプトに時間をかけたり、あらゆるコツを理解しようとしたりする必要がなくなったと感じる人も出てきます。

もし現在、ライフサイエンス分野に進むことを考えている人、たとえば高校生に話しかけるとしたら、どのようなアドバイスをしますか?

私が高校生だった頃、アメリカ生物学オリンピックに参加したことがありました。様々なオリンピックの中でも、生物学は数学などに比べて、最も暗記が重視されるものと見なされていたと思います。数学はどちらかというと推論時の計算スケーリングのようなものですが、生物学はより記憶と検索に近いものでした。

私の願いは、AIがあらゆる研究要素間の関係性を学習したことで、人間の創造性を真に高めてくれることです。単なる暗記プロセスを減らし、人々が異なる研究分野同士を結びつけるのを支援する役割へと変わっていくといいなと思っています。そして、人々が生物学において探求できる最前線を、さらに押し広げていくことでしょう。

ですので、高校生へのアドバイスとしては、もう生物学の教科書を丸暗記する必要はないかもしれないよという感じですね。AIをもっと使って探求すべきです。論文を読んで質問を投げかけることも間違いなくできます。そうすることで、深く掘り下げることも、幅広く概要を把握することも両方可能です。学びの形そのものが本当に変わっていくと思います。

私が研究室にいた頃、生物学の研究には非常に孤独で個人的な側面があると感じていました。例えば初めてコンピューターサイエンスのハッカソンに参加した時、一緒にアプリを構築したあのコラボレーションならではの興奮と比べると、その差は歴然としていました。

だからこそ、私たちのモデルを早期に導入する方々や学生たちが、おそらくCodexのランタイム上でそれを使うようになる未来に、私は大きな希望を抱いています。そこにはコラボレーションの性質も備わっているからです。例えば、自分のスクリプトや会話の履歴を共有したり、あるいはいつの日か、私たち全員が自分専用の共同科学者やエージェントを持ち、そのエージェントをチームメイトと協力させるために派遣したりするようになるかもしれません。

そこには、私たちにとっての新たなインタラクションや新しいモダリティが存在していると思います。ですから学生たちには、早期に導入し、自分なりの使い方を切り拓いていってほしいと強く勧めたいですね。私個人の話をすれば、ウェットラボに入るのが少し早すぎたなといつも感じていました。先ほども言ったように、ピペット作業は好きではありませんでしたから。

それが今回のテーマですね。誰もピペット作業を好まない、と。

ええ、非常に過酷な手作業がたくさん伴いますから。ですから、私たちのAIモデルが物理的なデバイスと接続できるようになった暁には、学生たちにとっての学習曲線をもっと楽しいものにできたらと願っています。モデルと一緒に学び、本当に興味深いインタラクションの領域に時間を最大限活用できるようになってほしいですね。

私はある学生と一緒にプロジェクトに取り組んでいます。学生のプロジェクト作りを手伝うのが好きなのですが、その中の一つにCodexを使ったものがあります。彼はそれを温室に接続し、写真を撮ってそれを観察し、評価するために使っています。AI技術と温室のような伝統的なものを組み合わせ、その両方の使い方を学ぶスキルセットを構築していく彼の姿を見るのはとても楽しいですね。

同僚や、研究室を運営している人、実験を行っている人、研究者たちと話す際、彼らにはどのようなアドバイスをしますか? 私が目にする問題は、彼らの多くがそれは素晴らしいですね。でも私には時間がありませんと言ってしまうことです。しかし究極的には、私たちがやろうとしているのは彼らの時間を節約することなのです。何か簡単なアドバイスや、彼らをインスパイアする方法はありますか?

学術界にいる私の知り合いのほとんどは、主に2つの方法でAIを使用しているように見受けられます。一つは、既存の論文などについてAIと対話し、自分が正しく理解しているか確認したり、ファクトチェックを行ったりすることです。これは個人的にもAIを使うのが大好きな用途です。どれだけ馬鹿げた質問をしても、一切批判されることがないですからね。

学習にとっては本当に素晴らしいツールです。そしてもう一つは、実験結果の分析によく使われています。これは先ほど私が言及した統計の話に戻るのですが、データを分析する正しい方法が分からない時があります。あるいは、データが化学の領域やタンパク質生物学のニッチな領域など、実に多くの異なる学際的領域にまたがっていることもあります。

そこで素晴らしいのは、モデルがそうした異なるデータ分析の手法を引き出してきてくれて、あらゆる道筋を探索してくれることです。この二つはどちらも、試してみるハードルが非常に低い方法だと感じます。AIにPDFファイルを投げ込んで、ねえ、この論文を理解するのを手伝ってと頼み、自然な会話をするだけでいいんです。

あるいは、Codexを起動して、自分のラップトップ上で直接データ分析を行うこともできます。

ええ、最初から仕事だと感じさせないようにするところから始めるべきだと思います。ですから、AIの導入に焦点を当てる際には、趣味のプロジェクトや情熱を注げるプロジェクトから始める方がずっと簡単かもしれません。

私自身を例に挙げると、実はクリエイティブ・ライティングのプロジェクトをやっていた時に、文献統合のようなタスクから始めました。生物学自体も非常にクリエイティブな分野ではありますが、そのライティングは日常業務とは全く関係のないものでした。ただ別の媒体を通じてそれを探索していただけなのです。

そして実際、その時にモデルへの様々なプロンプトの出し方や、異なるデータソースへのアクセス方法をたくさん発見し始めたと思います。最初から上手くいくわけではないので、実際に仕事に応用しようとした時に、その経験が多くのパターンマッチング能力を与えてくれました。それは本当に難しいことですから。

この分野の進歩とスピードはあまりにも速く、モデルやAIシステムとの関わり方を変えてしまうような非常にエキサイティングな新展開が毎週、あるいは毎月のように起こります。ですから、まずはどこからでも始めてみることが重要なのだと思います。もう一つのテーマはコラボレーションの要素です。

自分と同じ日常業務を行っている直接のチームメンバーからの推薦があると、より強力に推進できると感じます。私たちのチームでもよくあることですが、誰かがCodexを使って、今まで接続できなかった3つの社内データベースにアクセスできるようになったよと言ったりするんです。

モデルの潜在空間、つまり潜在的な能力はあまりにも広大で、実際にやってみるまでは分からないことがたくさんあります。ですから、友人や研究室の仲間、チームメイトと会話を交わすだけで、そうした議論のきっかけが生まれ、創造力が刺激され、結果的に自分自身のAI導入の助けになると思います。

10年後の科学の姿と自律型ラボ

10年後の科学はどのような姿になっているでしょうか?

このチームを立ち上げた時、私たちは本当に野心的な目標を掲げました。その一つは、病気の治癒に向けて意味のある前進を遂げること、あるいは少なくともそれを支援したいということです。

正当な注目やリソースが割り当てられていない希少なオーファンドラッグ疾患が、本当に数多く存在しています。なぜなら、例えば臨床研究を実際に行い、患者さんに届け、市場に出すことが極めて困難な分野だからです。

10年というのは非常に長いタイムラインに感じますが、私たちが達成できるであろう進歩にとてもワクワクしています。そうしたブレイクスルーのいくつかが、かなり早い段階で見られるだろうと、慎重ながらも楽観視して良いと考えています。

ええ、もしかすると少しSF的な世界観かもしれませんが、私が現実になることを心から願っているのは、自律型ラボの存在です。

大部分がロボットで構成され、それらがすべてAIに接続されており、常に稼働し続けて人間の病気を治癒する自律型研究機関です。新しい素材を作ったり、新薬を開発したりするかもしれません。個別化医療の問題を解決するかもしれません。NF1や超希少疾患など、莫大な資金や科学的な研究リソースがない人々にとっては、解決の糸口を考えることすら難しい病気がたくさんあります。

しかしAIを使えば、それを解決できるのです。このシステムによって、財政的、規制的、あるいは金銭的な制約をほぼ突破できると考えています。それが夢ですね。また別の観点として、バイオセキュリティの側面についてもさらに考えてみましょう。

こうしたシステムは、私たちの環境を常にサンプリングし続けることができます。下水をサンプリングしたり、空気をサンプリングしたりして、潜在的な脅威を常に検出し続けることができるのです。あるいは、インフルエンザのより正確な予測を行い、より効果的なワクチンを開発することなども可能になります。

しかしより一般的に言えば、こうした様々な医療的な対策が、10年後には自律的に行われるようになっているべきだと思います。ええ、基本的にはそれが私が本当に楽しみにしていることです。

AIラボは魅力的ですね。その本当の意味を人々が理解すれば、それは科学者がいなくなるということではなく、より多くの科学者が生まれ、彼らが自宅に座ったままCodexにアクセスし、この実験を実行してくれないか?と指示を出すということなのだと分かりますから。そしてデータセンターやサイエンスセンターがそれを実行してくれるわけです。

はい、まさにその通りです。ええ。先ほど説明したビジョンの中では科学者について言及しませんでしたが、もちろんそこには人間が関わっています。人間が行うのは、本当に高レベルでの方向付けになると思います。ここにこの病気の患者さんがいますと私たちが提示するわけです。

いくつか潜在的な解決策や、検討できそうなアプローチがここにありますと。するとAIがそこから出発して様々なアイデアを探索します。実験を設計し、そして人間のところに戻ってきてこんな結果が出ました。次はどうすべきだと思いますか?と聞いてくるのです。これはある種の学術的な議論になり得ます。

これは今日人々がCodexとやり取りしている方法に少し似ています。ほら、この関数を書いてとかこのコードを書いてと指示すると、Codexがそれを書いてコードができましたと返してくる。そして人間が次の指示を出すという流れです。ですから、そうしたインタラクションに似てはいますが、それがはるかに壮大なスケールで、はるかに長い時間軸で行われるようになるのだと思います。

私は、これこそが科学の民主化の側面であり、本当に有能で専門家レベルの知識をより多くの人々の手に届けることなのだと考えています。個別化医療や、私たちの社会的な防衛力を強化する上で、それが何を意味するのかを考えてみてください。毎年、自然発生する新しい変異株や新しいインフルエンザ株が数多く存在しています。

ですから、それはまさに防衛を固め、これらすべてに対抗するための主体性を私たちが実際に持っているのだと感じられるようになることです。医療対策を加速させる多くの取り組みについても、私は本当にワクワクしています。

非常にエキサイティングなお話でした。本日は共有していただき、ありがとうございました。

お招きいただきありがとうございました。

ええ、本当にありがとうございました。

コメント

タイトルとURLをコピーしました