本作は、医療および創薬の分野に革命をもたらす可能性を秘めた最新のAI基盤モデルであるMAMLに関する詳細な解説である。MAMLは、化学、遺伝学、タンパク質構造といった複数の生物学的領域を統合的に学習することで、従来の専門特化型AIを凌駕する予測精度を達成している。未知の抗体設計や、既存薬のがん治療への転用など、これまで困難とされていたタスクにおいて画期的な成果を実証しており、個別化医療や新薬開発の劇的な加速を期待させる内容となっている。

医療と創薬におけるこれまでにないブレイクスルー
これは本当に、私たちがここ数十年で目にしてきた医療と創薬における最大のブレイクスルーの一つかもしれません。新しい論文が発表されたばかりで、それはMAMLと呼ばれるこの新しいAIモデルに関するものです。そしてこれは、バイオサイエンスと医療を完全に変革する可能性を秘めています。がんのような病気に対する新しい治療法を大量に生み出す可能性があります。さらに、新薬の開発をはるかに速く、安価に、そして正確なものにすることができます。これは個別化医療やそれ以上のものにつながる可能性もあります。さて、この論文は非常に専門的で、詳細がぎっしり詰まっています。そこでこの動画では、誰にでも分かりやすいように簡単な言葉で噛み砕いて説明していきます。さっそく始めましょう。
現代の医療と創薬が抱える問題点
この論文がなぜそれほど重要なのかを理解するためには、まず現在の医療と創薬が抱える問題点から始めるのが役立ちます。何かを作るのに10年と10億ドルを費やして、それが機能しない確率が90%もあると想像してみてください。90%です。それが新薬の失敗率です。科学者が有望な新薬を思いついてから、臨床試験を経て承認されるまでの間に、およそ90%は承認を通過できません。よく考えてみると、これは少し異常なことです。私たちはすでにヒトゲノムを解読しました。スマートフォンも持っています。タンパク質の構造を予測したり、DNAを理解したりできるAIもあります。素晴らしいテクノロジーをたくさん持っているのです。それなのに、実際に新しい薬を作るとなると、私たちはまだほとんどの場合で間違えてしまいます。こう考えてみてください。もし私が橋を建設して、10個のうち9個が崩落したら、それは恐ろしいことです。私は廃業してしまうでしょう。ではなぜ、これほど驚異的な現代技術を持ってしても、現代医療は未だにこの壁にぶつかっているのでしょうか。
生物学の基本と病気のメカニズム
これを理解するには、まず基本的な生物学と創薬がどのように機能するかを理解する必要があります。すべての生物にはDNAがあります。これは生物が機能し、生き続けるためのコードです。そしてDNAの中には、遺伝子と呼ばれる部分があります。これらは基本的には取扱説明書です。タンパク質を作るためのコードが含まれています。そしてタンパク質は、実際に体の中で仕事の大部分を行う小さな機械です。それらは信号を送り、構造を作り、化学反応を速め、免疫反応を制御し、細胞を生かし続け、その他にも数え切れないほどの働きをします。しかし、遺伝子は常にアクティブなわけではありません。一部の遺伝子は活動が強まったり、弱まったり、あるいは変異したりすることがあります。科学者はこれを遺伝子発現と呼びます。基本的には、どの遺伝子がどの程度アクティブであるかを示す指標です。そしてこれが、作られるタンパク質の量を制御します。つまり、すべての生物の機能に不可欠なタンパク質をコードする遺伝子を含むDNAがあるわけです。ここでは極端に単純化して話していますが、これが生命の仕組みに関する本質的なミニレッスンです。
さて、この経路がうまくいかなくなり、病気を引き起こす可能性のあるケースがいくつかあります。DNAが変異を起こし、物事を狂わせるかもしれません。これによってタンパク質が正しく作られなかったり、全く作られなかったりする可能性があります。あるいは、遺伝子発現が高すぎたり低すぎたりして、タンパク質の作られ方に影響を与えることもあります。この経路のわずかなエラーでさえ、私たちによく知られているがんのような壊滅的な病気を引き起こす可能性があります。実際、非常に簡単に言えば、がんがどのように機能するかというと、細胞分裂を制御するDNAの遺伝子を損傷する変異が起こるかもしれないということです。これにより、遺伝子発現やタンパク質の機能が変化します。そしてその後、これらのタンパク質が細胞に対して、停止信号を無視して成長し、腫瘍へと広がるように指示を出します。それが本質的にがんというものです。
標的を探す現在の創薬プロセス
さて、現在このプロセスを巡ってどのように薬が設計されているかを説明します。科学者は通常、病気の経路の中でうまくいかなくなった特定の部分を見つけようとすることから始めます。言い換えれば、彼らは悪玉を探すのです。がん細胞に分裂を続けるように指示しているタンパク質があるかもしれません。ウイルスが自身のコピーを作るのを助けている酵素があるかもしれません。とにかく、研究者がその標的を見つけたら、目標はそれと相互作用できる薬を設計することです。標的を鍵穴、薬を鍵だと考えてください。もし鍵が鍵穴に合えば、タンパク質をブロックしたり、その働きを変えたりすることができます。
この論文に関連する薬には、主に2つの種類があります。一つはタイレノールのような低分子薬です。これらは非常に小さく、安定しており、多くの場合、錠剤として製造するのが簡単です。そして非常に小さいため、細胞の中に滑り込んでそこにあるタンパク質に結合することもあります。もう一つの種類の薬は抗体と呼ばれるもので、はるかに大きいサイズです。非常に精密な生物学的なクランプのようなものだと考えることができます。これらは極めて高い精度で悪玉にくっつくように設計されています。そのサイズのため、通常は細胞の外側や細胞の表面で機能します。悪玉の働きを止めることができれば、がんなどの病気も成長を止めて消滅するだろうということが期待されています。
しかし、ここからが非常に難しくなるところです。なぜなら、体は単なる単純な機械ではなく、無数の動く部品でできているからです。設計された薬が悪玉への結合に成功したとしても、体の他の部分にも影響を与え、副作用を引き起こすかもしれません。つまり、鍵と鍵穴の例えのように単純ではないのです。その鍵は体内の他の鍵穴も開けてしまうかもしれず、それが有害な影響を引き起こす可能性があります。したがって創薬とは、基本的には、病気を止めるのに十分な強さを持ちながら、体の他の部分に害を与えないほど正確で、本物の人間に投与しても安全な、完璧な分子ツールを見つけ出そうとする試みなのです。さらに、安全な用量で実際に薬が効くこと、そして誤って患者を死なせたりしないことを証明しなければなりません。それが創薬における本当の課題です。
現代のテクノロジーが抱える専門化の壁
そしてここで、現代のテクノロジーは奇妙な問題に直面します。ご存知の通り、今日私たちは信じられないほど強力なツールを持っていますが、そのほとんどはパズルの一片しか理解していません。あるAIモデルはタンパク質の構造を予測するかもしれません。実際、それはGoogleのAlphaFoldがやっていることです。別のAIはDNAの読み取りと生成に優れているかもしれません。その一つはEVO 2と呼ばれています。これについては以前の動画で取り上げましたので、詳しく知りたい方はそちらをご覧ください。他にも化合物をスクリーニングできるツールや、臨床試験データを分析できるツールなど、様々存在します。
しかしここで重要なのは、病気は別々のフォルダー内で起きるわけではないということです。DNAから遺伝子活動、タンパク質、細胞、そして体全体へと、システム全体を流れていくものです。問題は、これらすべてのツールがしばしば孤立していることです。異なるチームによって構築され、異なるタスクに最適化された異なるデータセットでトレーニングされています。そのため、生物学の完全な連鎖を理解する一つのシステムの代わりに、分断されたスナップショットを見ている専門化されたツールがたくさんある状態になっています。これはまるで、ある刑事は指紋だけを持ち、別の刑事は防犯カメラの映像だけを持ち、また別の刑事は最終的な検死報告書だけを持っている状態で犯罪現場を解決しようとするようなものです。それぞれの証拠は重要ですが、刑事同士が実際に情報をやり取りしないため、すべてを一つの物語に結びつけることができません。
すべてを一度に理解する統合AIモデルMAML
まさにそれこそが、MAMLが解決しようとしていることです。彼らはすべてを一度に理解するAIモデルを構築しました。化学、遺伝学、タンパク質構造を同時に理解するのです。そして彼らがやったことの規模は、正直言って常軌を逸しています。MAMLは20億のサンプルで事前学習されました。彼らは基本的に、世の中にある主要な生物学データベースのほぼすべてをスクレイピングしました。数十億の抗体配列を含む観測された抗体空間。私たちが知っているほぼすべてのタンパク質を含むUniProt。さらに、何百万もの低分子構造を含むZINCとPubMedもあります。大量の遺伝子発現データを含むCellxGeneもあります。そのため、このモデルは化学、遺伝学、タンパク質に関係するすべてのことでトレーニングされました。
しかし、AIは実際にこれをどのように読み取るのでしょうか。これらは異なるフォーマットになっていますよね。アスピリンのような低分子は遺伝子とは全く似ていませんし、遺伝子も抗体とは全く似ていません。そこで研究者たちは賢明な方法をとりました。すべてを単一の統合されたフォーマット、つまり文字のシーケンスに強制的に変換したのです。ただし、各ドメインには独自の文法があります。分子には、SMILES文字列と呼ばれるものを使用しました。これは基本的には、3Dの化学構造をたった1行のテキストに平坦化する方法です。例えば、タイレノールのSMILESはこのようになります。ここではすべての文字が原子であり、等号のようなすべての記号が化学結合を表しています。AIは、何百万ものこれらのテキスト文字列のパターンを追跡するだけで化学を学習します。
さて、遺伝子については全く異なります。このモデルは細胞内のすべての遺伝子を取り出し、それらがどれくらいアクティブであるかによってランク付けします。言い換えれば、どれだけ発現しているかです。最も大声で叫んでいる遺伝子が最初に来ます。沈黙しているものは最後になります。つまりモデルは、細胞を、今どの遺伝子が最も多くの仕事をしているかという優先順位リストとして読み取るのです。そしてタンパク質や、同様にタンパク質である抗体については、単にアミノ酸の鎖を読み取ります。これらはタンパク質の構成要素です。
しかし今のところ、すべてが異なるフォーマットになっています。それはまるで本を読んでいるのに、最初の段落は英語で、2番目の段落は楽譜で、3番目の段落はJavaScriptで書かれているようなものです。とても混乱しますよね。これでは全く意味が分かりません。そして、この生のデータをすべてニューラルネットワークのトレーニングに放り込んだら、AIも同様に大混乱してしまいます。さて、ここでエンジニアリングが非常に巧妙になります。MAMLはモジュラートークナイザーと呼ばれるものを使用しています。トークナイザーとは、AIがこの生データをAIが理解できる一貫した言語に翻訳するために使用する辞書のようなものだと考えてください。
しかしMAMLは単に一つの辞書を使うのではありません。アンブレラトークナイザーを使用し、その下に専門化されたサブ辞書を持っています。つまり、化学用の辞書が1つ、遺伝学用の辞書が1つ、そしてタンパク質用の辞書が1つあるのです。低分子を見つけると、低分子辞書を使用してそれをトークンとエンベディングに変換します。タンパク質を受け取ると、タンパク質辞書を使用してそれをエンベディングに変換します。そして同じ論理が遺伝子にも適用されます。そしてここが魔法のような部分です。すべてが翻訳され、これらのエンベディングに変換されると、それらはすべて共有の多次元空間に混ぜ合わせられます。そのため、このモデルは化学、タンパク質、遺伝子発現をすべて一つの統合された空間で学習するのです。これらすべての領域を一緒に統合するため、これらすべての異なる物事の間の関係性を学ぶことができます。
厳しい安全性テストでの圧倒的なベンチマーク結果
さて、この設計は素晴らしく聞こえますが、現実の世界で実際にどれほどうまく機能するのでしょうか。例えば、実際に薬の振る舞いを予測できるのでしょうか。そこで研究者たちは、MAMLにかなり厳しいテストを受けさせました。具体的には、創薬パイプライン全体に及ぶ11の異なる、非常に厳格なベンチマークでそれを評価しました。彼らはあらゆるものを投げかけましたが、結果は全体的に驚異的なものでした。これが結果の表です。これらの11のベンチマークすべてにおいて、MAMLは最先端のパフォーマンスを達成しました。これらすべてのタスクにおいて、世界でこれまで最高だったモデルたちを完全に打ち負かしたのです。
いくつかの具体的なベンチマークについて掘り下げてみましょう。先ほど、実際に機能する薬を設計するという悪夢について議論しました。病気を減らすことはできるが、最終的に人間にとって有毒になってしまうというケースです。では、MAMLはこれらのシナリオを予測できるのでしょうか。彼らはMAMLを2つの重要な安全性ベンチマークで評価しました。1つはBBBPと呼ばれ、血液脳関門透過性を意味します。もう一つはClintoxで、臨床毒性とFDA承認を予測するために使用されるデータセットです。この血液脳関門について少し立ち止まってみましょう。これは実際、薬理学において非常に大きなハードルです。ご存知の通り、脳にはこの信じられないほど厳重なセキュリティシステムがあります。当然のことながら、外部の物質が脳に流れ込むことを望んでいません。
しかし、アルツハイマー病やパーキンソン病のような治療薬を設計する場合、薬はこの関門を通過して脳に到達できなければなりません。あるいは逆に、肝臓用の非常に強力な化学療法薬を設計している場合、絶対にこの関門を越えて脳に入ってほしくはないでしょう。そのため、その透過性を予測することは非常に重要なのです。さて、このベンチマークにおいて、これを予測するための君臨するチャンピオンはMoleformerと呼ばれるモデルでした。これは非常に専門化されたモデルです。10億以上の低分子配列のみでトレーニングされました。ですから、低分子化学の超集中型マスターのようなものだと考えてください。一方で、この新しいMAMLはジェネラリストです。しかし常軌を逸しているのは、この血液脳関門透過性テストにおける結果です。超専門化されたMoleformerが非常に良いスコアを達成したにもかかわらず、MAMLはそれを打ち負かすことができたのです。そして、FDA承認を予測するこのClintox安全性ベンチマークについても同様です。MAMLはMoleformerを大きなパーセンテージポイントで打ち負かしました。
これがなぜそれほど印象的なのかを強調するために、少し時間をとりましょう。ほぼすべての分野において、特定のドメインではスペシャリストがジェネラリストを打ち負かしますよね。例えば、十種競技の選手がプロの競泳選手とレースをしたら、十種競技の選手は水泳に特化しているわけではないので、おそらく負けるでしょう。さて、このケースでは、MAMLは十種競技の選手です。その知識を化学、遺伝学、タンパク質に広げています。低分子配列にだけ特化しているわけではありませんが、それにもかかわらずスペシャリストであるプロの競泳選手を打ち負かすことができたのです。化学に高度に特化していたMoleformerを打ち負かしたのです。これは実は非常に洞察に富んでいます。なぜ遺伝子やタンパク質について知っていることが、化学においても優れていることにつながるのでしょうか。
それは、生物学においてはすべてが相互に結びついているからです。無数の動く部品があります。そしてこれは、マルチモーダルであること、つまりこれらすべての異なるドメインを理解できることが、気を散らすものではなく、むしろ利点であることを証明しています。低分子は、タンパク質と相互作用し、遺伝子発現を変化させるために存在しています。MAMLはトレーニング中にこれらすべての異なるモダリティ間の関係性を学ぶことを強制されたため、分子の全体的な生物学についてはるかに深い理解を発達させました。そしてこれが、専門化されたモデルと比較して結果を予測する上で格段に優れている理由なのです。
クリエイティビティを加速させるRunway Agent
しかし、研究者たちはそこで立ち止まりませんでした。もしあなたがオンラインで動画やコンテンツを作っているなら、この動画のスポンサーであるRunwayを絶対にチェックするべきです。彼らはRunway Agentをリリースしたばかりです。あなたのアイデアを自律的に公開可能な動画に変換してくれるクリエイティブパートナーだと考えてください。つまり、ボイスオーバー、音楽、シーンの切り替え、そして実際の物語の構造がすでに組み立てられた、完全なマルチショットの動画のことです。あなたはただ自分が欲しいものを説明することから始めます。それが製品の発売、広告キャンペーン、YouTubeのイントロ、あるいは頭の中にある漠然としたアイデアかもしれません。ですから、何時間も空白のタイムラインや編集ソフトを見つめる代わりに、基本的にはAIのクリエイティブパートナーと一緒に働き、一緒にアイデアを形にしていくのです。
そしてここからが驚くべき部分です。動画が生成される前に、まず全体の計画を見ることができます。すべてのシーン、視覚的な方向性、物語の流れを確認し、レンダリングされる前にそれを微調整したり、方向を変えたり、完全に形を作り直したりすることができます。もはやプロンプトでギャンブルをしているような感覚はありません。そしてすべてが正しく見えれば、Runway Agentが実際の完成した動画を構築してくれます。複数のシーン、ボイスオーバー、音楽、編集がすべて組み立てられ、公開の準備が整います。ほとんどのAI動画ツールはまだ断片しか提供しませんが、これは実際のエンドツーエンドのワークフローにずっと近いと感じます。それはつまり、より多くの動画、より速いキャンペーン、より少人数のチームでより大きなコンテンツを制作し、ポストプロダクションで立ち往生する時間を大幅に減らすことを意味します。下の説明欄のリンク、または画面上のQRコードを使用して今すぐRunway Agentを試し、コードagent50を使用して最初の3か月間を50%オフで利用してください。
細胞タイプのラベル付けと未知の薬効予測
次に、彼らはZheng 68Kデータセットを使用して、細胞タイプのラベル付けでMAMLをテストしました。これは、血液中の大量の異なる免疫細胞タイプからの数千もの遺伝子活動データで構成されています。AIの仕事は、細胞の遺伝子活動を見て、それに正しくラベルを付けることです。例えば、これはCD4陽性T細胞だ、あるいはこれはNK細胞だ、といった具合です。基本的には、その遺伝子活動を与えられて細胞にラベルを付けます。そしてこれは、患者の免疫系が病気や治療に対してどのように反応しているかを把握する上で信じられないほど重要です。これは基本的な分類タスクです。そしてこの非常に複雑なタスクにおいて、MAMLは最先端のモデルに対して7.5%の改善を達成しました。繰り返しになりますが、これは大きな飛躍です。
そして、それはさらに印象的になります。この論文のハイライトは、このがん治療薬の反応に関するセクションだと思います。これは真の生物医学的ブレイクスルーの証拠です。では、このテストのセットアップについて説明します。研究者たちは、MAMLが単にトレーニングから暗記した情報を吐き出しているだけではないことを証明したかったのです。彼らは、完全に新しく見たこともない薬が、ヒトのがん細胞に対してどのように機能するかを予測できるかどうかを見たかったのです。そこで彼らは、トレーニングデータに絶対に含まれていない4つの薬を選択しました。これには、カルゾミバダニブ、インフィグラチニブ、そしてヴラフェニブが含まれます。なんという早口言葉でしょう。とにかく、彼らはこれら4つの薬の化学文字列を取得し、MAMLに与えました。さらに、800種類以上の異なるがん腫瘍細胞の遺伝子プロファイルも与えました。これには肺がん、乳がん、結腸がんなどが含まれます。ヒトのがん細胞の巨大な多様性です。そして彼らはMAMLに一つの質問をしました。これら800の腫瘍細胞タイプ全体で、これら4つの新薬はどの程度効果的ですか?がんに対して最も致命的なものから、最も致命的でないものへとランク付けしてください。
さて、あなたは疑問に思うかもしれません。もしこれらの薬がトレーニングデータになかったとしても、AIが暗記したトレーニングデータの中の何かと非常に似ていたらどうなるのか、と。それは非常に妥当な懸念です。そこで、これらの薬がモデルにとって本当に新しいものであること、つまりこの種の薬をこれまでに一度も見たことがないことを証明するために、研究者たちは谷本類似度と呼ばれるものを計算しました。これは基本的には、化学構造に基づいて2つの分子が構造的にどれほど似ているかを測定するために使用されます。そして研究者たちは、4つの薬のうち3つが、MAMLがこれまでに見たどのデータと比較しても、最大谷本係数が0.7未満であることを確認しました。そして厳格な化学の世界において、0.7を下回るスコアは、これらの薬が基本的に構造的に異なることを意味します。つまり、これらの薬はAIにとって見知らぬ人のようなものです。AIにとっては完全に新しく見え、これまでに見たことのないもののように見えるのです。
さて、タスクに戻りましょう。805の異なるバリエーションのがん腫瘍に対して、それぞれの薬がどれほど強力であるかをランク付けする必要があります。そして、これがその予測です。MAMLは非常に自信に満ちた、具体的なランキングを返しました。カルゾミブが大多数の腫瘍全体で最も強力であると予測しました。次にナダニブを2位にランク付けし、そしてこれを3位、これを4位、つまり4つの中で最も強力ではないとランク付けしました。さて、ここからがどんでん返しです。実際にカルフィルゾミブを調べてみると、それは実際のFDA承認薬ですが、現在は承認されており、血液がんにのみ使用されています。これまでずっと、医師たちはカルフィルゾミブは固形腫瘍には無用だと信じていました。彼らは単にそれが効かないと思っていたのです。それが、専門の腫瘍医から現在受け入れられている見解です。
しかしここでAIは、これを固形がんタイプに対して1番強力な薬として位置付けました。覚えておいてください、私たちは以前この知識を持っていませんでした。専門家はこれが事実だとは全く考えていませんでした。もしこれを実生活でテストにかけたら、悲惨な失敗に終わると予想するでしょう?しかしここで、MAMLはとても自信があるように見えます。この薬の構造を見て、医師たちが考えていることとは完全に裏腹に、これが固形腫瘍細胞に対して非常に強力になると自信を持って言ったのです。
そこで、研究者たちはこれをテストにかけました。彼らは現実世界での物理的な実験を行い、固形がん細胞に対してこれらの薬をテストしました。そして彼らが発見したものは衝撃的でした。結果はMAMLの予測と完全に一致したのです。正確な効力のランキングを完璧に当てました。カルフィルゾミブが最も強力であり、ベムラフェニブが最も強力でないものとして順位付けされました。MAMLは、全805のがん細胞タイプのうち約95%において、この相対的な順序を保存することに成功しました。
AIによる新薬発見と既存薬の転用
これがどれほど異常なことか、少し時間をかけて整理してみましょう。単にテキストの文字列を読み取るAIが、これまでに見たこともない血液がんの薬を見たのです。それは何百もの固形腫瘍の遺伝学を見ましたが、これは別のものです。そして、この薬がこれらの固形腫瘍に対して効果的であることを正しく推論しました。何十年もの間、人間の専門家がこれらの薬は機能しないと想定していたにもかかわらずです。これが意味するものは巨大です。私たちが目撃しているのは、完全に新しい化合物に一般化し、病気の治療のためのそれらの用途を正確に予測できるAIです。これは創薬分野全体、特に既存薬の転用にとって非常に重要です。
既存薬の転用に馴染みがない方のために説明すると、これはすでに存在する薬を取り出し、それが別の病気を治療できるかどうかをテストすることを意味します。ゼロから始めて全く新しい分子を設計する代わりに、科学者たちは承認された薬や失敗した新薬候補を見て、これは他のどこかで機能するだろうかと問いかけます。これは本当に重要です。なぜなら、新しい薬をゼロから発見したり発明したりするには、10年から15年の歳月と何十億ドルもの費用がかかるからです。しかし、既存の新薬候補のライブラリ全体をスキャンし、それが別の病気を治療できるかどうかを確認できるAIがあれば、それは巨大な機会を開くことになります。
AlphaFold 3との比較とタンパク質の柔軟性への対応
しかし、このがん治療薬の話がどれほど信じられないものであっても、低分子は薬の一つの種類にすぎないことを覚えておいてください。もう一つの種類は抗体です。これらは、問題のあるタンパク質に非常に正確に固定される、より大きなタンパク質です。そして、この構造と応用を予測することは非常に複雑です。ご存知の通り、タンパク質は複雑な3D形状に折りたたまれた長いアミノ酸の鎖にすぎません。その形状が、それらが何にくっつくか、そして体内でどのような効果をもたらすかを決定します。しかし理論上、タンパク質には折りたたまれる可能性のある方法がとてつもなく多数あります。もしすべての可能な形状をランダムに試したとしたら、正しいものを見つけるのに宇宙の年齢よりも長くかかる可能性があります。しかし現実の生活ではもちろん、物理学がそれらを最も安定した形状へと導くため、タンパク質はほぼ瞬時に折りたたまれます。したがって、抗体のようなタンパク質ベースの薬を作成するには、科学者はタンパク質の配列だけでなく、それがどのように折りたたまれ、どのように動き、何に結合するかを理解する必要があります。
さて、少なくともタンパク質がどのように折りたたまれるかを予測するという点においては、それこそまさにGoogleの伝説的なAlphaFoldがやっていることです。しかし、MAMLもタンパク質についてトレーニングされているため、MAMLと最新のAlphaFold 3を直接比較するとどうなるでしょうか。心に留めておいてほしいのは、AlphaFoldは非常に正確だということです。タンパク質を予測するための業界標準のようなものです。現代最大の科学的成果の一つと考えられており、このチームはこれによってノーベル化学賞まで受賞しています。さて、私たちはMAMLが単なるシーケンスモデルであることを確認したばかりですよね。一次元のテキストを読み取ります。タンパク質の3D構造を予測することに特化しているAlphaFoldを、どうして打ち負かすことができるでしょうか。
そこで、研究者たちはこれをテストしました。彼らはMAMLとAlphaFoldの両方に抗体と病気の標的を見せました。そして、これら2つはくっつくでしょうか?はい、か、いいえ、か?と尋ねました。彼らは、十分に文書化された7つの異なる標的全体で両方のモデルをテストしました。そしてここでも、結果は衝撃的でした。MAMLは実際に、これら7つの標的のうち5つでAlphaFold 3を打ち負かしたのです。繰り返しになりますが、これはかなりクレイジーなことです。AlphaFold 3は文字通りこれらのタンパク質の3D形状を見ることができます。だから、それが対象の病気に適合するかどうかを簡単に見ることができるはずではないでしょうか。一体どうして、MAMLのような一次元のテキストリーダーが実際に勝つことができたのでしょうか。
その理由を理解するためには、ミクロレベルでタンパク質がどのように機能するかについての、非常に欠陥のある仮定を理解しなければなりません。教科書や他のコンテンツでは、しばしばタンパク質を単なる硬くて静的な構造として説明しています。すべての教科書のイラストは、タンパク質をこれらの固く組み合わされた形状として示しています。なぜなら、歴史的に私たちがそれらを描いたり写真を撮ったりできる唯一の方法がそれだったからです。しかし現実には、少なくとも人間のタンパク質の場合、配列の約30〜40%は天然変性領域、略してRSで構成されています。一体これらは何なのでしょうか。タンパク質のこれらのセクションは、実際には安定した3D形状を持っていません。その代わりに、それらはぐにゃぐにゃで非常に柔軟性があります。そしてRSは、濡れたスパゲッティの一片のように見え、振る舞い、常にくねくねと動き、折りたたまれ、あちこち移動しています。ですから実際のところ、タンパク質の構造は静的ではなく、かなり動的です。単なる固いブロックではなく、実際には流動的であり、形を変えたり動き回ったりすることができます。そしてこれは決定的に重要です。なぜなら、乳がんや胃がんの悪名高く攻撃的なドライバーであるEGFRやHER2のような最も重要なタンパク質標的のいくつかは、これらのぐにゃぐにゃとした天然変性領域を大量に持っているからです。
もしこれらのぐにゃぐにゃの領域をAlphaFold 3に与えると、まあ、その構造を実際に予測するのに苦労します。なぜなら、それは静的で固い3D構造を予測するようにトレーニングされているからです。AlphaFoldはトレーニング中に、タンパク質の凍結されたスナップショットからのみ学習しました。そのため、AlphaFold 3にこれらの非常に柔軟で混沌とした標的のシーケンスを与え、特定の抗体がそれに結合するかどうかを尋ねても、実際にはうまく答えることができません。しかし、同じ質問をMAMLに行うと、はるかに良い予測を出しました。MAMLは、それらの静的な絵を描こうとしていないため、実際にぐにゃぐにゃのタンパク質において勝つのです。MAMLはシーケンス上で動作する大規模言語モデルであるため、タンパク質を特定の形状に強制的に当てはめようとはしません。その代わりに、ぐにゃぐにゃの部分を含むタンパク質の根底にある文法やルールを理解しているようです。構造のスナップショットだけでなく、シーケンスの数学に依存しているのです。そしてこれは見事な違いです。抗体が病気の標的に結合するかどうかを予測することにおいて、はるかに堅牢です。そして繰り返しになりますが、これはいくつかのとてつもない可能性を解き放ちます。これで私たちは、すべての抗体候補をこのAIに入力し、特定の病気に結合できるかどうかを尋ねることができるのです。そしてこれは、大量の巨大な発見や新薬につながる可能性があります。
ゼロから全く新しい抗体を設計する能力
さて、ここまでは、既存の候補薬や、それらが特定の病気に反応するかどうかについてMAMLに質問してきただけでした。もし、ゼロから全く新しい薬を生成したい場合はどうなるでしょうか。クレイジーなことに、彼らは実際にMAMLがこれを実行できるように設計しました。それは単なるアナリストであるだけでなく、発明家としても機能することができるのです。そこで次に、研究者たちはゼロから新しい抗体を設計する能力をテストしました。この重要性を理解するために、まずは抗体がどのように機能するかを理解する必要があります。抗体は基本的には、ウイルスやがん細胞のようなものを特定し、無効化するために私たちの免疫系によって使用される巨大なY字型のタンパク質です。血流に浮かぶ巨大な顕微鏡サイズの爪だと想像してください。
さて、そのY字型の爪の本体は非常に安定しており、一貫しています。しかし爪の先端、実際に手を伸ばして物理的に病気の抗原を掴む部分は、非常に変動しやすいのです。これらの先端はCDR、または相補性決定領域と呼ばれます。そしてCDRは、爪の先にある指のようなものです。これらの指は高度に特異的であるため、抗体の中で最も重要な部分です。これらの指を構成するアミノ酸の配列が、抗体がどんな病気を掴むことができるかを正確に決定します。実際、現代の抗体設計の分野全体が、特定のターゲットを掴むための新しいより良い指を操作し設計しようとすることを含んでいます。
では、彼らはどのようにしてMAMLのためにこのテストをセットアップしたのでしょうか。彼らはSAbDabと呼ばれる、大量の異なる抗体を持つ巨大なデータセットを使用しました。彼らは何千もの既知の成功した抗体を用意しましたが、AIが見えないようにCDR、つまり指の部分を人工的に消去しました。次に彼らはMAMLにターゲットとなる病気を与え、本質的には穴埋めテストを出題したのです。このターゲットとなる病気に基づいて、この病気に結合するために指が持つべき正確なアミノ酸の配列を予測せよ、と。覚えておいてください、MAMLは一次元のテキストシーケンスしか読み取りません。単なる言語モデルです。抗体や病気の3D構造マップを見ることは許されていませんでした。タンパク質の文法やルールを理解するだけで、これら両方の物理的形状を推論しなければなりませんでした。そして、どうなったと思いますか?結果は衝撃的でした。MAMLは、これに特化していた他の最先端の手法よりもさらに上手く、これらすべての指の正しいシーケンスを生成することができたのです。
しかし、ここからがさらにクレイジーになります。競争相手を完全に吹き飛ばした特定の領域が1つあります。それはCDRH3領域です。さて、この特定の指の何がそんなに特別なのでしょうか。実は、このCDRH3領域は、抗体全体の中で最も長く、最も複雑で、混沌としており、変動しやすい領域として悪名高いのです。その長さと柔軟性のために、抗体が何に結合できるかを決定することに対してほぼ全責任を負っています。そして結果として、それはどのAIにとっても予測するのが最も難しい部分でもあります。そしてこの領域において、MAMLは競争相手を完全に打ち砕きました。以前のトップモデルと比較して、19%という大規模な改善を達成しました。タンパク質の文法に対する根本的な理解だけを使用して、抗体の中で最も難しく最も変動しやすい部分を予測することにおいて、19%もの飛躍を遂げたのです。これはかなり驚異的です。モデルが単に一般的なパターンを暗記しているだけではないことを意味します。生物学のルールを真に理解しているのです。
生物学の真の基盤モデルがもたらす未来
さて、視野を広げてみると、これはすべて何を意味するのでしょうか。私たちは潜在的に、生物学のための最初の真の基盤モデルを手にしているのかもしれません。単に論文を読んだり、分子を見たり、遺伝子を分析したりするだけでなく、それらすべてを一度に行うモデルです。すべてを理解する、一つの統合されたモデルです。もし論文が主張するようにMAMLが実際に機能するのであれば、私たちは創薬が10年と数十億ドルを費やして90%の確率で失敗するギャンブルではなくなる未来を見ているのかもしれません。代わりに、私たちはより速く、より安価に、そしてより正確に薬を設計できるようになります。また、既存の既知の新薬候補を探索し、それらが他の病気を標的にできるかどうかを確認することもできます。つまり、これが事実であれば、今後数か月で新薬の開発が大幅に加速することが期待できます。
そしてこのモデルはDNAと遺伝子発現も理解しているため、個別化医療が主流になる可能性があります。患者からDNAと血液のサンプルを採取し、それをこのAIに入力するだけで、その人の特定の病気の原因を突き止めることができます。彼らのDNAの何が間違っているのか、あるいは彼らの体内のどのタンパク質が狂っているのかを。そしてこのAIは、この特定の人に処方すべき最適な薬は何かを見つけ出すこともできます。あるいは、この患者のためだけの新しい抗体をカスタム設計することさえできるのです。これは大胆な予測ですが、論文の中ですでに、新薬候補ががん細胞にどのように結合するかを予測するのが非常に得意であることが示されています。それはすでに新しい本物のブレイクスルーを発見しました。ですから、このモデルを使い続けたり、さらに改良し続けたりすれば、他の病気に加えて、ごく近い将来にがんの新しい治療法を見ることができる可能性があります。これは間違いなく、今年これまでで最もインパクトのある論文の一つです。もし彼らの主張が本当に事実であれば、医療、バイオサイエンス、そして創薬全体に巨大な影響を与えるでしょう。
とにかく、以上がこの論文に対する私の深い考察のまとめです。非常に専門的です。ここには複雑な生物学の内容がたくさんありましたので、皆さんが理解できるくらい十分に噛み砕いて説明できていれば幸いです。これについてどう思うか、コメントで教えてください。いつものように、皆さんと共有すべきトップAIニュースとツールに目を光らせておきます。ですので、この動画を楽しんでいただけたら、いいね、共有、チャンネル登録を忘れずに、そしてさらなるコンテンツを楽しみにしていてください。また、AIの世界では毎週本当に多くのことが起きています。私のYouTubeチャンネルで全てをカバーすることは到底不可能です。そのため、AIで起きているすべての最新情報を常に把握するために、ぜひ私の無料の週刊ニュースレターに登録してください。そのリンクは下の説明欄にあります。ご視聴ありがとうございました。それでは次回の動画でお会いしましょう。


コメント