Googleの新AI AlphaGenomeが人間の生命コードを解き明かした

Google・DeepMind・Alphabet
この記事は約12分で読めます。

GoogleのDeepMindが開発したAlphaGenomeは、人間のゲノム全体の機能的景観を解読する革新的なAIシステムである。AlphaFoldがタンパク質の折り畳み構造を解明したように、今度は遺伝子発現、RNA合成、DNA構造、ゲノム内の遠隔相互作用など、DNA配列そのものではなくその配列が細胞内で実際に何をするかを理解することを目指している。100万塩基対の長大な配列を一度に読み取りながら個別の塩基レベルで予測を行い、11種類もの生物学的測定を単一モデルで実現する。従来は別々の実験が必要だった数千もの機能的読み取りを統合的に提供し、疾患に関わる遺伝子変異の影響予測においても既存手法を大幅に上回る性能を示した。これは基礎研究から精密医療まで、ゲノム科学の未来を大きく変える可能性を秘めた基盤技術である。

Google’s New AI AlphaGenome Just Unlocked the Code of Human Life
👉 Try Mammouth AI here: just made a serious leap into the code of human life. Google DeepMind unveiled AlphaGenome, a ne...

AIと生物学の交差点で起きている革命

今まさに、AIと生物学の交差点で革命が起きています。そしてそれは、AlphaFoldを生み出したのと同じ場所から来ているんです。AlphaFoldのことは覚えていますよね。タンパク質がどのように折り畳まれるかを解明し、構造生物学をほぼ一夜にして変えてしまったAIシステムです。あれは個々の分子の形を理解することについてでした。

今回、DeepMindはさらに大きなものを狙っています。単なるタンパク質でもなく、単一の遺伝子でもなく、人間のゲノム全体の機能的景観です。この新しいシステムはAlphaGenomeと呼ばれています。そして、ここでの目標は立ち止まって考えてみると本当にすごいものなんです。DNAを長い文字列として扱ってそこで終わりにするのではなく、このモデルはそのDNAが生きた細胞の中で実際に何をするのかを理解しようとしています。

つまり、コードそのものだけでなく、コードの結果についてです。どの遺伝子がオンになり、どれが静かなままなのか、RNAがどのように作られるのか、DNAがどのように詰め込まれたり緩められたりするのか、さらにはゲノムの離れた部分が核の中でどのように物理的に相互作用するのか。これらすべてを、生のDNA配列だけから始めるんです。

ゲノムの98%を占める謎の領域への挑戦

さて、ここで少しゆっくり説明させてください。あなたのゲノムは約30億文字の長さがあります。そのほとんどは、タンパク質を直接コード化していません。実際、既知のヒト遺伝的変異の98%以上が、これらいわゆる非コード領域で起こっているんです。何十年もの間、これが遺伝学の本当に難しい部分でした。遺伝子の外側に変異が現れたとき、科学者たちはしばしば「これが何をするのか本当にわからない」と言わざるを得なかったんです。

AlphaGenomeはそれを変えるために作られました。これらの謎めいた領域を、実際に解釈できるものに変えるように設計されているんです。このシステムが動作するスケールは、最初の大きなブレークスルーの一つです。ゲノミクスにおける以前のほとんどのAIモデルは、痛みを伴うトレードオフをしなければなりませんでした。一度に10,000文字程度のDNAの短い塊を見て非常に精密な予測を行うか、あるいは数十万文字のはるかに大きな領域を見て詳細をぼかさなければならなかったんです。

AlphaGenomeは選択することを拒否します。一度に100万のDNA文字、つまり完全なメガベースを読み取り、それでも個々の塩基レベルまで予測を行うんです。これを可能にするために、DeepMindはハイブリッドAIアーキテクチャを構築しました。モデルの一部は、非常に局所的な詳細、つまり特定のタンパク質が結合する短いDNAパターンに焦点を当てるように設計されています。文章の中の個々の単語を認識するようなものですね。

モデルの別の部分は、長距離の関係を理解するために構築されています。本の異なる章がどのように互いに繋がっているかを理解するようなものです。生物学では、これが重要なんです。なぜなら、DNAは単なる直線ではないからです。3D空間で折り畳まれていて、配列上では遠く離れている領域が、細胞内ではすぐ隣に配置されることがあるんです。

AlphaGenomeは、クローズアップの詳細と長距離通信の両方を同時に捉えるように構築されています。システムの内部では、DNA配列が複数のスケールで内部表現に変換されます。それらのいくつかは一次元的で、単一の塩基対や小さな塩基のブロックまでの解像度でリニアゲノムと一致しています。

他のものは二次元的で、DNAの離れた断片が核の中でどのように物理的に一緒になるかを記述するコンタクトマップを予測するために使われます。つまり、AlphaGenomeは単にコードを読んでいるだけではありません。ゲノムの空間的な配線図、つまりDNAがどのように折り畳まれ、どの部分が物理的に相互作用しているかも推論しようとしているんです。

11種類の生物学的測定を統合する力

さて、ここで短い寄り道のための休憩です。もしあなたがAIをたくさん使っていて、どれが実際にタスクに合うかを見るために異なるモデル間を飛び回ることになるなら、今日のスポンサーであるMammothが、そのワークフロー全体をずっと簡単にしてくれます。Mammothは主要なAIモデルのほとんどを一箇所に集めています。Claude、GPT、Gemini、Llama、Mistral、Grok、DeepSeek、Deep Research用のPerplexity、さらにFlux、Nano Banana、Recraftなどの画像モデルもあります。

そしてすべてが単一のダッシュボード内で動作します。日常的な使用で本当に役立つのは比較設定です。同じプロンプトを同時に異なるモデルに送信し、それぞれがどのように応答するかを即座に確認できます。これにより、推測することなく、ライティング、リサーチ、分析、画像に適したモデルを選びやすくなります。

また、カスタムMammothsを作成することもできます。基本的には、繰り返し発生するタスク用の特定の指示を含む独自のプリセットで、プロジェクト内で整理された状態を保つことができます。プライバシー面では、Mammothはヨーロッパを拠点としており、データはドイツでホストされ、完全にGDPRに準拠しています。モデルはあなたのデータで訓練されず、プロンプトはプロバイダーによって保持されず、いつでも履歴を削除できます。

プランは月額約10ユーロ、つまり約12ドルから始まり、すでに数百の企業や公共機関で使用されています。説明欄のリンクからチェックしてみてください。さて、それでは動画に戻りましょう。

さて、ここからさらに強力になります。AlphaGenomeは単一の生物学的タスクを行うために訓練されているわけではありません。科学者が通常は別々の実験を実行して得なければならない11種類の異なる測定を予測するんです。

それには、各遺伝子がどれだけ活発か、その活動がどこから始まるか、DNAが異なる領域でどれだけ開いているか閉じているか、どの制御タンパク質が結合しているか、スプライシング中にRNAがどのように切断されて繋ぎ合わされるか、さらには3DでどのDNA領域が互いに接触するかの大規模なマップまで含まれます。

これらは、RNA-seq、ATAC-seq、ChIP-seq、Hi-Cといった名前の技術を使って実験室で測定されるものです。それらを別々に学習する代わりに、AlphaGenomeは同じDNA入力からすべてを一緒に学習します。ヒト版だけで、このモデルは多くの組織や細胞型にわたって5,930の別々のゲノムトラックを予測します。マウス版はさらに1,128トラックを追加します。

それは数千の生物学的読み取り値で、すべて同じDNA断片から来ています。スプライシング用に1つのAIモデルを構築し、遺伝子発現用に別のモデル、DNAアクセシビリティ用にまた別のモデルを構築する代わりに、これは細胞がDNAをどのように制御するかについての共有ルールを学習する単一の統合システムなんです。

大規模AIインフラプロジェクトとしての挑戦

このスケールで何かを訓練することは、大規模なエンジニアリングの挑戦です。モデルはJAXで構築され、Googleの専用AIチップであるTPU上で動作します。巨大な100万塩基の入力を処理するために、DNA配列は大きなチャンクに分割され、複数のTPUデバイス間で並列に処理され、それらの間で通信が行われます。このようなトリックがなければ、メモリ要件は即座に爆発してしまいます。

これは単なる生物学プロジェクトではありません。深刻な大規模AIインフラプロジェクトなんです。訓練自体は2つの主要な段階で行われます。まず事前訓練です。彼らは実際の実験的ゲノムデータを取り、複数の大きな教師モデルを訓練します。これらのいくつかは、モデルが見たことのない領域に一般化できることを確認するために、ゲノムの一部を除外して訓練されます。

他のものは、可能な限りパフォーマンスを絞り出すために、完全なゲノムで訓練されます。次に蒸留が来ます。彼らはこれらの重い教師モデルのアンサンブルを取り、単一の学生モデルを訓練してその予測をコピーさせます。この段階で、人工的な変異と配列変異も導入します。そのため、学生モデルはDNAの小さな変化が生物学的機能の変化にどのようにつながるかを理解するのが本当に得意になります。

結果は、すべての生物学的層にわたって遺伝的変異の効果を1回のパスでスコアリングできる単一の蒸留モデルです。そして高速です。ハイエンドGPUでは、変異を1秒未満で評価できます。研究者がしばしば行う必要がある何百万もの変異を分析したい場合、これは大きな意味を持ちます。

驚異的なパフォーマンス結果

パフォーマンスに関しては、結果は正直言ってちょっと馬鹿げているほどすごいです。基本的なゲノムトラック予測、つまり訓練中に見たことのないゲノムの部分で実際の実験信号をどれだけうまく予測するかについて、AlphaGenomeは24の異なるタスクでテストされました。22のタスクで最強の既存モデルを上回りました。

また、単一タスク用に設計された高度に専門化されたモデルも打ち負かしました。たとえば、別の高度なマルチモーダルゲノミクスモデルであるBourと比較して、AlphaGenomeは細胞型特異的遺伝子発現変化の予測において14.7%の相対的改善を示しました。ゲノミクスでは、このような飛躍は小さくありません。それは曖昧なヒントと研究者が実際に頼ることができるものとの違いを意味する可能性があります。

次に変異効果予測があります。ここで医学的および生物学的影響が本当に現れます。彼らは、遺伝子発現、RNAスプライシング、クロマチンアクセシビリティ、転写因子結合などに対する変異の効果をモデルがどれだけうまく予測するかをカバーする26の異なるベンチマークを構築しました。蒸留された学生モデルを使用して、AlphaGenomeは26のテストのうち25で利用可能な最良の外部手法と同等かそれを上回りました。

場合によっては、改善は巨大です。スプライシングは、これがなぜ重要かの最も明確な例の1つです。多くの疾患は、RNAのスプライシング方法を台無しにする変異によって引き起こされます。基本的に、細胞がタンパク質に変える前にRNAを編集する方法です。AlphaGenomeは、スプライスドナーとアクセプター部位、それらがどのくらいの頻度で使用されるか、実際のスプライスジャンクションのリードカウントをすべて塩基対解像度で予測します。

遺伝子発現については、モデルが遺伝子がどれだけ強く発現するかに影響を与えることが知られている遺伝的変異であるeQTLの効果をどれだけうまく予測するかをテストしました。ファインマッピングされたGTExデータを使用して、AlphaGenomeは予測された効果サイズと観測された効果サイズの間の相関を0.39から0.49に改善しました。これは控えめな変化のように聞こえるかもしれませんが、複雑な生物学的システムでは、これは予測力の大幅な飛躍なんです。

遺伝子が上がるか下がるかという効果の方向だけを予測する場合、90%の精度を与える閾値でのパフォーマンスも大幅に改善しました。AlphaGenomeは、比較モデルの2倍以上の既知のeQTLを回収しました。彼らはこれをGWAS解釈にさらに推し進めました。これは遺伝的変異を疾患や形質に結びつけるものです。18,000を超えるGWAS信頼セットのうち、AlphaGenomeはほぼ半数において、少なくとも1つの変異に対して確信的な効果の方向を割り当てることができました。

興味深いことに、それが解決するセットは従来の統計的手法とあまり重複していません。つまり、AIはすでに知っていたことを繰り返すのではなく、真に新しい生物学的洞察を追加しているんです。このモデルは、遺伝子から遠く離れたエンハンサーがその活動を制御する長距離遺伝子制御も処理します。CRISPRエンハンサー遺伝子リンクデータを使用して、AlphaGenomeは、どのエンハンサーがどの遺伝子を制御するかを特定する際に以前のモデルを上回りました。特にそれらのエンハンサーが数万塩基離れた場所にある場合にです。そのパフォーマンスは、この1つのタスクのために特別に訓練されたモデルとほぼ同じくらい良好でした。AlphaGenomeは汎用システムであるにもかかわらずです。

幅広い生物学的現象への応用

ポリアデニル化は別の角度です。ポリアデニル化データで明示的に訓練されることなく、AlphaGenomeはそのRNA-seq予測を通じて代替ポリアデニル化のパターンを捉えました。

ベンチマークでは、変異がRNA転写産物がどこで終わるかにどのように影響するかを予測する際に、以前のモデルを大幅に上回りました。クロマチンアクセシビリティと転写因子結合QTLについて、再びマルチモーダルモデルと専門化されたモデルの両方を打ち負かしました。一部のデータセットでは、予測された変異効果と観測された変異効果の間の相関は非常に高く、インシリコ変異導入は、予測された変化が特定の制御タンパク質の既知のDNA結合モチーフと一致することをしばしば明らかにしました。

最も印象的なケーススタディの1つは、T細胞急性リンパ芽球性白血病におけるTAL1/ANKRA遺伝子に関するものです。いくつかの非コード変異が、TAL1発現を高く駆動しすぎる新しいエンハンサー要素を作り出すことが知られています。AlphaGenomeは、これらの変異部位での活性化ヒストンマークの増加、TAL1プロモーター近くの抑制マークの減少、TAL1自体のRNA-seqシグナルの増加を予測しました。

実際の発がん性変異をシャッフルされた対照配列と比較したとき、マルチモーダルシグネチャは別々にクラスター化されました。インシリコ変異導入は、挿入がMYB結合モチーフを作成したことを示し、これは以前の実験的発見と一致します。これは、通常は何年もの実験作業の後にのみ得られる種類の深い機構的洞察なんです。

彼らはパフォーマンス数値を示しただけでなく、モデルがなぜ機能するのかも分析しました。研究により、単一塩基解像度での訓練がスプライシングやアクセシビリティなどのタスクに本当に重要であることが示されました。完全な100万塩基のコンテキストを持つことで結果が改善され、推論時にコンテキストを短縮するとパフォーマンスが低下します。

多くの教師からの蒸留により、単一の学生モデルが大規模なアンサンブルと同等かそれを上回ることができ、実行コストも安くなります。そしてマルチモーダル訓練は、特に変異効果の予測において、1種類のデータのみで訓練されたモデルを一貫して上回ります。

残された課題と将来への展望

まだ課題は残っています。非常に遠い要素からの効果は予測が困難です。組織特異的パターンは完璧ではありません。訓練データは依然としてタンパク質コード遺伝子に偏っています。これらの限界があっても、AlphaGenomeは基盤的なステップのように感じられます。1つのモデル、1つの配列入力、数千の機能的予測、そして研究者が関心を持つほぼすべての制御ゲノミクスタスクにわたる最先端のパフォーマンス。

DeepMindはまた、API、Python SDK、ゲノム解釈ツールキットを通じてアクセス可能にしたため、科学者は単にそれについて読むだけでなく、実際に使用することができます。

さて、今回はここまでです。楽しんでいただけたら、コメントであなたの意見を残してください。いいねを押して、まだの方は登録してください。ご視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました