AIが生命のコードを解読した

本動画は、DNA配列を学習して生命の設計図を理解および生成する画期的なAI基盤モデル「EVO 2」について詳しく解説したものである。9兆個のDNA塩基対を学習し、100万トークンという巨大なコンテキストウィンドウを備えたこのモデルは、DNAの構造や規則性を自律的に解読する。これにより、遺伝子変異による病気のリスク予測から、ミトコンドリアやバクテリアの完全なゲノムのゼロからの生成に至るまで、驚異的な成果を達成している。医療や農業など多岐にわたる分野に革命をもたらす可能性を秘める一方で、バイオセキュリティや倫理面での重大な課題についても警鐘を鳴らしている。

AI has cracked the code of life

Evo2 biological foundation model. AI for DNA #ainews #ai #agi #singularity Thanks to our sponsor Higgsfield. Try Cinema ...

AIによる生物学のブレイクスルーとDNAの理解
言語モデルの論理をDNAに応用する
DNAとは何か：生命の設計図
9兆個のDNA塩基対で訓練されたEVO 2
100万トークンのコンテキストウィンドウがなぜ必要なのか
AIの記憶力を試す：干し草の山から針を探すテスト
ゼロショット予測：ラベルなしでDNAを理解する
進化のプロセスからパターンを学習する
スタートコドンとストップコドン、そして着陸地点の理解
同義置換とフレームシフト変異を見分ける
繊毛虫のDNA：生物学の例外を推測する
クリエイティブなAI映像制作ツールHigsfield
人間のDNA変異による影響予測とがん検出
新しいミトコンドリアDNAをゼロから生成する
タンパク質工場のすべてをコード化するAI
AlphaFold 3によるタンパク質の立体構造の検証
バクテリアと酵母の完全なゲノムの生成
新種の生成とバイオセキュリティの懸念
セキュリティフィルターの検証
EVO 2のオープンソース化と今後の可能性
パーソナライズ医療への応用と倫理的課題

AIによる生物学のブレイクスルーとDNAの理解

これまでで最も過小評価されているAIのブレイクスルーの一つについてお話しします。研究者たちが、生命のコードであるDNAを理解できるAIを開発しました。実際、これを使ってがんなどの病気を検出したり、遺伝子変異の影響を予測したり、さらには生物の完全なDNAを生成したりすることすらできるんです。

これがもたらす意味はとてつもなく大きいです。この技術は、科学者がより良い農作物を開発する手助けとなり、エネルギーや食糧安全保障の新たな解決策の鍵を開くかもしれません。そして、パーソナライズ医療にとっても素晴らしいことです。これを使って全く新しい種を設計したり、私たち自身をより良く改良したりすることもできるかもしれません。この動画では、彼らがこれをどのように成し遂げたのか、その仕組み、そしてこのプロジェクトから得られた驚くべき発見について詳しく解説していきます。

非常に専門的な論文ですが、いつものように誰でも理解できるように簡単な言葉で説明していきますね。それでは、早速見ていきましょう。

言語モデルの論理をDNAに応用する

この論文で彼らが行ったことを理解するために、まずは基本から始めましょう。現在私たちが使っているChatGPTやGeminiのようなAIモデルは、大規模言語モデルです。これらは、自然言語を理解して出力することに非常に優れています。だからこそ、美しい詩や完璧なエッセイを生成したり、完全な医学研究レポートを作成したりできるわけです。

しかし、ここで興味深い疑問が浮かびます。私たちがコミュニケーションに使う自然言語の代わりに、他に似ているものは何でしょうか。それはDNA、つまり生命の言語です。もし、これらの大規模言語モデルと同じ論理を応用して、DNAを理解し生成できるAIを訓練したらどうなるでしょうか。それこそが、まさにこの研究者たちが行ったことなんです。

この論文は「EVO 2による生命の全領域にわたるゲノムモデリングと設計」というタイトルで、世界で最も権威のある科学雑誌の一つであるNatureに最近掲載されました。

DNAとは何か：生命の設計図

これがなぜそれほど重要なのかを深く掘り下げる前に、まずDNAとは何かを理解する必要があります。DNAは生命の取扱説明書のようなものです。あらゆる生物のほぼすべての細胞の中にDNAが存在し、生物を構築し機能させるために必要な情報を保存しています。

DNAは、G、C、A、Tの4つの文字だけで構成されています。そして、これらの文字はペアになって結合します。GはCと結合し、AはTと結合し、その逆も同様です。この結合から、螺旋状、つまり二重らせんの形に絡み合う2つの鎖が作られます。これが、皆さんもよくご存知の典型的なDNAの形です。

そして、これらの文字の並び順こそが、生命の指示を含んでいるものなんです。それは、何千もの特徴や生物学的なプロセスをコード化しています。例えば人間の場合、これには目の色、身長、病気のリスク、免疫システム、代謝の仕組みなどが含まれます。生物がどのように機能し、生き続けるかを示す青写真なんですよ。

9兆個のDNA塩基対で訓練されたEVO 2

さて、この論文の話に戻りましょう。彼らは、9兆個のDNA塩基対で訓練された「EVO 2」という生物学的な基盤モデルを作成しました。これは実はChatGPTのような大規模言語モデルと非常に似ています。しかし、インターネット上のすべてのデータで訓練される代わりに、このEVO 2は9兆個のDNA塩基対で訓練されました。

具体的には、「Open Genome 2」と呼ばれるデータセットで訓練されました。このデータセットは、基本的には生命の全スペクトルにわたる数百万もの多様な生物を採取し、そのDNAを巨大なデジタルライブラリに収めたものです。細菌、植物、菌類、動物、そしてもちろん人間を含むあらゆるものが含まれています。この総サイズが、約9兆個のDNA塩基対に相当するんです。

その後、彼らはこのすべてのDNAを使ってAIモデルを訓練しました。そして、ここで本当に際立っている技術的な詳細があります。このEVO 2モデルは、単一ヌクレオチドの解像度を持つ100万トークンのコンテキストウィンドウを持っていると書かれています。簡単な言葉で言えば、AIが一度のプロンプトや作業メモリに100万個のDNAの文字を保持できるということです。

100万トークンのコンテキストウィンドウがなぜ必要なのか

では、なぜそれが必要なのでしょうか。結局のところ、一つの遺伝子は数千文字の長さしかないかもしれません。それで十分ではないのでしょうか。

問題は、生物学が単独で機能することはほとんどないということです。例を挙げましょう。遺伝子、つまりDNAの一部分には、何かを行うための指示が含まれているかもしれません。しかし、その遺伝子が実際に活性化されるかどうか、どの程度強力に実行されるか、あるいはいつオンになるかは、調節エレメントと呼ばれるDNAの他の領域に依存することがよくあります。

そして、これらのエレメントは常に近くにあるとは限りません。DNA鎖に沿って数十万文字も離れていることがあるんです。つまり、指示と制御が途方もない距離で離れている可能性があるわけです。もしモデルのコンテキストウィンドウが小さく、例えば数十万トークンしかなければ、DNA鎖の関連するすべての部分を捉えることができないかもしれません。この新しいEVO 2は100万トークンというはるかに大きなコンテキストウィンドウを持っているため、DNA全体の文脈をずっとうまく理解できるんです。

AIの記憶力を試す：干し草の山から針を探すテスト

さて、それだけの情報を保持できることと、実際にそのすべてのデータを理解し、記憶し、分析できることは全く別の話です。彼らのシステムが一度に100万文字のDNAを実際に処理できることを証明するために、研究者たちはシンプルですが過酷なテストを実施しました。「干し草の山から針を探す」テストと呼ばれるものです。

これはAIにおいて非常に標準的なテストで、基本的には100万文字のDNAからなる、完全にランダムで意味のない配列を生成しました。それが干し草の山です。次に、彼らは非常に特定の100文字の配列を取り出し、この文字の巨大なランダムな寄せ集めのどこかに隠しました。この100文字の配列が針です。そして、EVO 2にそれを見つけるように頼みました。

結論から言うと、EVO 2はそれを完璧に見つけることができました。これは、この100万文字の配列をただざっと読んだり、内容を忘れたりしているわけではないことを証明しています。実際に全体を読み取り、記憶しているんです。

ゼロショット予測：ラベルなしでDNAを理解する

現時点で、私たちはいくつかのことを知っています。このモデルが、極限環境の細菌から人間の細胞に至るまで、生命の全スペクトルにわたる9兆個のDNA文字で訓練されたこと。そして、100万文字を与えられても、読んだものを記憶できること。

しかし、より深い疑問があります。実際にパターンを認識できるのでしょうか。DNAの言語を本当に理解できるのでしょうか。

EVO 2が訓練されたとき、ラベルや答えは一切与えられませんでした。この特定のDNA配列が病気を引き起こすとか、これが細胞を死に至らしめる変異であるとか、例えばこれが葉の色を制御するとか、そういったことは一度も教えられなかったんです。モデルはこれらのラベルや答えを全く受け取っていません。単にこのようなラベルのない生のDNAを読み込んだだけです。

では、それが実際にDNAを理解しているかどうか、どうすればわかるのでしょうか。ここで登場するのが、「ゼロショット予測」と呼ばれる概念です。ゼロショットとは、AIが明示的に訓練されていなくても何かに答えられることを意味します。しかし、それは明白な疑問を生みます。もしモデルが病気とは何かを一度も教えられていないなら、DNAの特定の断片が病気を引き起こすことをどうやって知ることができるのでしょうか。

進化のプロセスからパターンを学習する

その答えは進化にあります。もしある遺伝子配列が生命にとって絶対に不可欠なものなら、例えば細胞がエネルギーを生成するのを可能にするタンパク質などですが、進化はその配列が変化しないように保つ傾向があります。

このデータセットに含まれるすべての生物は、そのDNAが機能し、役割を果たしているから生きているわけです。もし変異が病気や死を引き起こすような形でDNAを台無しにしてしまったら、その生物は死に、その変異はこの遺伝子プールには現れません。そのため、何百万年もの進化を通じて、このプロセスはデータに明確なシグナルを残します。

EVO 2が生命の全スペクトルからこれらの9兆個のDNA文字を読むと、こうしたパターンに気づき始めます。もし多くの異なる種で全く同じDNA配列に気づいたら、その配列はおそらく非常に重要であるというシグナルになります。逆に、この生命のスペクトルの中で一度も見たことがない配列があれば、それはその配列が有害であるか、死を引き起こす可能性があることを意味するかもしれません。

いずれにせよ、研究者たちはこれを証明しなければなりませんでした。EVO 2が実際にDNAの言語を理解していることを示す必要があったんです。そこでテストするために、彼らは実際のDNA配列を取り、1文字だけを変更し、モデルにシンプルな質問をしました。「あなたの理解に基づくと、このDNAが自然界に存在する可能性はどのくらいありますか？」と。

もしEVOが極めて低い確率を割り当てたなら、そのモデルは本質的に赤旗を上げていることになります。自然界には存在しないだろうから、この変異はおそらく有害だと言っているわけです。そして、研究者たちがEVO 2をこの方法でテストしたところ、いくつかの驚くべき発見がありました。モデルは、教えられることなく、非常に特定の生物学的なシグナルを認識していたんです。

スタートコドンとストップコドン、そして着陸地点の理解

例えば、スタートコドンとストップコドンの変異を正しく特定しました。これがなぜ重要なのかを理解するために、細胞がどのようにDNAを読むかを簡単に見てみる必要があります。DNAはコドンと呼ばれる3文字のグループで解釈されます。

スタートコドンは、通常ATGという配列で、細胞の機械にどこからタンパク質の構築を始めるべきかを伝えます。基本的には「ここから始めて」という意味です。ストップコドンはその逆で、いつ構築を止めるかを細胞に伝えます。

ですから、もしスタートコドンを変異させたら、言い換えれば文字を台無しにしてしまったら、タンパク質は決して作られません。そして、ストップコドンを変異させたら、細胞は意図された終点をはるかに過ぎて働き続け、結局うまく機能しないものを生み出してしまいます。科学者たちがスタートコドンかストップコドンのどちらかに変異を加えたとき、EVO 2はこの変異が非常に破壊的であると正しくフラグを立てることができました。これは正解です。

そして、さらに繊細なことまで理解することができました。ここにもう一つの驚くべき発見があります。研究者たちは、モデルがシャイン・ダルガノ配列やコザック配列といったものを特定できることを発見したんです。

これらはいったい何でしょうか。細胞のタンパク質構築機械のための着陸パッドのようなものだと考えてください。タンパク質が作られる前に、リボソームと呼ばれるものが正確に正しい位置に結合しなければなりません。もし間違った場所にドッキングしてしまうと、タンパク質全体が正しく構築されなかったり、全く作られなかったりする可能性があります。そのため、細胞はこの着陸パッドの領域もコード化する必要があります。

細菌の場合、この領域はシャイン・ダルガノ配列と呼ばれます。そして、人間や植物のようなより複雑な生物の場合、この配列はコザック配列と呼ばれます。これらの配列は基本的に遺伝子の始まりの隣にあり、リボソームを正しい出発点に導きます。これらがなければ、リボソームはただ通り過ぎてしまい、タンパク質を作るために結合することはないかもしれません。

驚くべきことは、AIが文脈から純粋にこれらの着陸パッドを見つけ出したということです。科学者たちがこれらの領域に変異を加えると、AIはこの変異が非常にダメージを与えるものであると首尾よくフラグを立てることができました。

同義置換とフレームシフト変異を見分ける

そして、それだけではありません。同義置換と呼ばれるものと、フレームシフト変異の違いも見つけ出しました。簡単な言葉で説明しましょう。

同義置換とは、DNAの1文字を変更することです。しかし、遺伝暗号の冗長性のおかげで、またそれがたった一つの変更であるため、実際には何も台無しにはなりません。ですから、EVO 2にこれらの変異を見せたとき、モデルはそれを認識し、「これは大丈夫です。生存の可能性は高いです」と答えました。

しかし、フレームシフト変異は違います。これは破滅的です。DNAは3つの塊で読まれます。ですから、たった1文字を挿入したり削除したりすると、それ以降のすべての3文字の塊が1つずつずれてしまいます。その結果、残りの配列全体が台無しになってしまうんです。EVO 2にこの種の変異を見せたところ、これらは深刻なダメージを与えるだろうと正しく指摘することもできました。

このように、EVO 2は単に文字を暗記したわけではありません。何も教えられることなく、DNAがどのように機能するかを実際にリバースエンジニアリングしたんです。

繊毛虫のDNA：生物学の例外を推測する

そして、さらにクレイジーなことが起きます。研究者たちは、繊毛虫コードテストと呼ばれるさらに難しいテストを実施しました。地球上のほとんどの生命にとって、TGAという配列はストップコドンであり、細胞にタンパク質の構築を止めるよう指示する普遍的な一時停止標識です。

しかし、生物学は例外が大好きです。繊毛虫と呼ばれる生物のグループがあり、彼らは少し異なる遺伝的パターンを進化させました。彼らのDNAでは、TGAはストップを意味しません。彼らにとってだけは、実際には「そのまま続けて」という意味なんです。

DNAで訓練された以前のAIモデルは、このテストに完全に失敗していました。繊毛虫のDNAを与えられ、TGAについて尋ねられると、以前のAIモデルはすべて、これが一時停止標識であると答えていました。それは間違いです。

しかし、EVO 2の注目すべき点は、100万トークンのコンテキストウィンドウを持ち、生命全体のDNAを理解できるため、まずこの繊毛虫のDNA全体を検査できるということです。そして、その文脈を考慮して、この中のTGAがストップコドンではないと判断できるんです。

研究者たちが、このDNAが繊毛虫と呼ばれる生物のものであると教えたことは一度もありません。AIはまた、これが繊毛虫のものであることや、繊毛虫とは何かすら学習していません。それなのに、DNAの文法の理解からこれを推論したんです。

クリエイティブなAI映像制作ツールHigsfield

さて、これまでは細菌や他の微生物のテストについて話してきました。しかし、もしこのモデルが本当に生命の言語を理解しているなら、理論的には人間のDNAでも機能するはずですよね。そして、まさにそれこそが研究者たちが次にテストしたことなんです。

その前に少しお時間をいただきます。私はこれまで最高の画像生成や動画生成ツールを紹介してきましたが、非常に数が多くて圧倒されてしまうこともあります。幸いなことに、この動画のスポンサーであるHigsfieldは、すべてを一つの場所にまとめてくれています。最先端の画像・動画生成モデルからAIシネマティックワークフローまで揃っています。

ここでのアイデアは、AI動画制作に映画製作のワークフローをより多く取り入れることです。ただプロンプトを入力してうまくいくことを願うのではなく、実際にクリエイティブなパイプラインに従います。俳優をキャスティングし、シーンを構築し、ショットを監督するんです。

まずはHigsfieldのAI俳優作成システムであるSoul Castから始まります。毎回ランダムな顔をプロンプトで生成する代わりに、シーン全体で視覚的に一貫性を保つ完全にカスタマイズ可能なキャラクターをデザインできます。ジャンル、年齢、アイデンティティ、身体的特徴、服装のスタイルなどを定義できます。

次に、シーンを構築するための映画品質の画像を生成するSoul Cinemaが来ます。モデルは照明、構図、テクスチャに重点を置いているため、出力はAIの適当な生成物ではなく、映画のように見えます。キャラクターとシーンの準備ができたら、すべてをSue Cinema Studio 2に移行し、ここで実際の動画のディレクションを行います。

これはミニチュアの映画スタジオのように機能し、マルチショットのシーケンスを作成したり、速度やカメラの動きを制御したり、開始フレームと終了フレームを定義したりできます。するとシステムが中間の動きを自動的に生成し、実質的にアニメーションを埋めてくれます。

これらすべてにより、Higsfieldはキャラクター、映画のような画像生成、そして動画のディレクションを一つのシームレスなワークフローに真に統合した最初のプラットフォームの一つとなっています。ショートフィルム、シネマティックな広告、ミュージックビデオ、その他のコンテンツを作る場合でも、プロセス全体を一つのツール内で完結させることができます。もし試してみたい方は、下の説明欄にあるリンクからHigsfieldをチェックしてみてください。

人間のDNA変異による影響予測とがん検出

さて、これで論文の3番目の主要なセクションである、人間のバリアント影響予測に入ります。これは実際の患者さんに直接影響を与える可能性があります。

彼らが行ったことは次のとおりです。研究者たちはClinVarと呼ばれる巨大な遺伝学データセットを使用しました。これは基本的には医師が人間のDNAの変異を記録し分類するデータベースです。例えば、いくつかのDNA変異は病原性、つまり病気を引き起こすとラベル付けされ、他のものは良性、つまり健康に測定可能な影響を与えないとラベル付けされています。

さて、研究者たちはこのデータセットからBRCA遺伝子を特にターゲットにしました。これは以前に聞いたことがあるかもしれない非常に重要な遺伝子で、この遺伝子内の特定の変異が乳がんや卵巣がんのリスクを劇的に高める可能性があるからです。

あなたが医者で、患者のDNAレポートを持っており、変異があるかどうかを確認するためにBRCA遺伝子を調べていると想像してください。小さな微妙な変化が全く無害である可能性もあれば、命に関わるがんを意味する可能性もあります。しかし、どの変異が問題なく、どの変異が問題あるかを人間が実際に判断するのは非常に困難です。

すべての人間には数千の遺伝的変異があります。ある意味、私たちは皆異なる変異を持っています。圧倒的多数の場合、これらの変異は実際には何も引き起こしません。しかし、どの変異が実際にがんのリスクを高めるかを正確に特定することが課題であり、それは言うは易く行うは難しです。

そこで研究者たちはEVO 2にこのデータを与え、どれが問題なく、どれがダメージを与えるかを分類するよう求めました。繰り返しますが、モデルは人間の医療記録で訓練されたことはありません。どの遺伝子ががんを引き起こし、どれが引き起こさないかについての答えを与えられたことは一度もありません。がんとは何かさえ知りません。

それなのに、結果は衝撃的でした。モデルは、何もしない変異とがんを引き起こす変異を直接特定することができたんです。つまり、EVO 2は誰かのDNAを見るだけで、がんを非常にうまく検出できるツールでもあるということがわかりました。

新しいミトコンドリアDNAをゼロから生成する

さて、ここまではすべて分析的な話でした。DNAを分析し、解釈することができるということです。しかし、ゼロから新しく機能するDNAを生成することはできるのでしょうか。単一のタンパク質や小さな遺伝子だけでなく、生物の継続的なDNA全体をです。

Shutterstock

彼らはまず人間のミトコンドリアから始めました。ご存知ない方のために説明すると、ミトコンドリアはエネルギーを生成する細胞の器官です。細胞の発電所のようなものだと考えてください。実は、ミトコンドリアは細胞のDNAとは別の独自のDNAを持っています。そしてミトコンドリアのDNAはずっと小さいんです。たった約1万6000文字しかありません。ですから、小さくて扱いやすいですが、それでもかなり複雑です。

研究者たちが行ったのは、人間のミトコンドリアゲノムの最初の数文字だけをEVO 2に与え、基本的にはこの青写真を完成させるように頼むことでした。AIチャットボットにエッセイの最初の文を与え、そのエッセイを完成させるように指示するのと同じです。すると驚くべきことに、EVO 2は約1万6000文字の全く新しいミトコンドリアの配列をゼロから首尾よく生成することができました。

さて、このDNAを生成することは一つの成果です。しかし、このDNAが実際に本物であるかどうか、生物学的に生存可能であるかどうかはどうすればわかるのでしょうか。そこで研究者たちは、この生成を評価するためにいくつかの外部検証ツールを使用しました。

彼らはまずMitoZと呼ばれるツールから始めました。これはこのミトコンドリアDNAを分析するための定評あるソフトウェアです。その結果は驚くべきものでした。MitoZは、EVO 2が作り出したミトコンドリアDNAの生成物が、実際の人間のミトコンドリアで期待される通りの、タンパク質コーディング遺伝子、tRNA遺伝子、そしてrRNA遺伝子の正しい数を含んでいることを確認しました。

タンパク質工場のすべてをコード化するAI

では、これらの用語は具体的に何を意味するのでしょうか。分解してみましょう。

ご存知の通り、DNAは生命のマスタープランです。細胞がどのように自身を構築し、機能させるかを示す指示が含まれています。この指示の一部には、タンパク質の構築方法が含まれています。タンパク質は、細胞が機能するために使用される機械やツールのようなものです。

これらのタンパク質を作成するために、DNAはリボソームRNA、つまりrRNAと呼ばれるものもコード化する必要があります。これは工場の労働者のようなものです。これらは実際にタンパク質を組み立てる役割を担っています。

そして、トランスファーRNA（tRNA）があります。これは、正しい原材料を組み立てラインに運ぶ配送トラックだと考えてください。各tRNAは特定のアミノ酸を運び、指示に従って正確に配置する必要がある場所に置きます。

ですから、この工場が機能するためには、DNAは基本的にすべてをコード化する必要があります。何を作成するかをコード化し、配送システムをコード化し、さらに工場の労働者をコード化する必要があります。そして、これら3つのすべてが、生物が機能し生き続けるために不可欠なんです。

EVO 2によるこの架空のミトコンドリアの生成で驚くべきことは、これらの特徴のすべてが含まれているということです。構築するタンパク質に関するコードだけでなく、これらのタンパク質を構築するための労働者や配送システムも含まれています。EVO 2は、ミトコンドリアのための完全に機能するDNAを生成することができたんです。

AlphaFold 3によるタンパク質の立体構造の検証

しかし、研究者たちはそこにとどまりませんでした。これらのタンパク質やその他のものが実際に機能するかどうかを確認するために、彼らは次にこの生成物をAlphaFold 3にかけました。これはGoogle DeepMindが開発した伝説的なAIで、タンパク質がどのように3D形状に折りたたまれるかを予測するものです。

（ちなみに、AlphaFoldに関する解説動画を作ってほしい場合は下のコメント欄で教えてください。十分な関心があれば作るかもしれません。）

とにかく、結論として、AlphaFold 3もEVO 2が生成したタンパク質が実際に正しく折りたたまれることを確認しました。さらに重要なのは、生成されたこれらの異なるタンパク質が、エネルギーを生み出すために実際の人間の細胞で必要とされる通りに、パズルのピースのように物理的に互いに組み合わさったということです。これにより、EVO 2から生成されたこのDNAが、実際のミトコンドリアと同じように実際に機能することが確認されました。

バクテリアと酵母の完全なゲノムの生成

さて、EVO 2がこの細胞小器官のDNAを生成できることは証明されました。では、これをさらに一歩進めたらどうなるでしょうか。生物の完全なDNAを生成させることもできるのでしょうか。

次に研究者たちは、マイコプラズマ・ゲニタリウムと呼ばれるバクテリアの完全なゲノムを生成させました。ちなみに、これは参考までにこんな見た目をしています。このDNAの長さは約58万文字です。繰り返しますが、研究者たちはこのDNAの最初の数文字だけを与え、残りを生成するように頼みました。

結論として、これも成功しました。現実世界のこのバクテリアに似た、完全に機能するゲノムを完全に生成することができたんです。

さて、単なるバクテリアではなく、もっと複雑なものを生成させたらどうなるでしょうか。次に科学者たちは、EVO 2にサッカロミセス・セレビシエと呼ばれる別の生物のゲノム全体を生成するように頼みました。これは基本的に酵母であり、バクテリアとは大きく異なります。実際、この生物はバクテリアよりも人間に近い存在です。

そして再び、彼らはそのDNAの最初の数文字だけを与え、全体を生成するように頼みました。驚くべきことに、タンパク質の設計、工場の労働者、配送システム、機能するために必要なその他すべてを備えた、この酵母の完全に機能するDNAを首尾よく生成することができました。

これは、EVO 2が細胞小器官からバクテリア、さらには酵母に至るまで、複数の異なる種類の生物のDNAを流暢に生成できることを証明しています。

新種の生成とバイオセキュリティの懸念

さて、皆さんの頭の中には強烈な疑問が浮かんでいるかもしれません。もしEVO 2が既存のもののDNAを生成できるなら、全く新しい種を生成させることはできるのでしょうか。新しい種類のマウスを生成したり、あるいはポケモンを生成したりしたらどうなるでしょう。もっとクレイジーな話ですが、新しい種類の人類を生成させたらどうなるでしょうか。

もちろん、これは数多くの生命倫理やバイオセキュリティに関する懸念を引き起こします。ですから、少なくとも現時点では、研究者たちはそこまでクレイジーなことには進みませんでした。

しかし、セキュリティといえばもう一つの懸念があります。もしこれが何でも生成できるなら、非常に感染力の強い人間のウイルスを生成するようにプロンプトを出すことはできないのでしょうか。良いニュースとしては、研究者たちもモデルを訓練する前にこのことを事前に考えていました。

そのため、彼らは最初から非常に重要な安全上の決定を下しました。9兆塩基対というこの巨大なDNAデータセットを与えたとき、彼らは真核生物のウイルスの配列、つまり人間、動物、植物に感染する可能性のあるウイルスの配列を意図的に除外したんです。これには、USDA（米国農務省）の特定病原体および毒素リストに記載されている最も危険な病原体が含まれます。これらは多くの人を殺す可能性のある本当に感染性の高いものです。

したがって、これらのデータはすべてデータセットから除外されました。言い換えれば、AIはこれらのウイルスがどのようなものかさえ学習することを決して許されなかったんです。人間の言語の訓練を受けているのに、すべての汚い言葉が除外されているようなものです。汚い言葉が何であるかさえ見当もつかないでしょう。

セキュリティフィルターの検証

さて、このトレーニングデータを除外することは一つのステップです。しかし、この安全フィルターが実際に機能し、ウイルスを生成できないことをどうやって検証するのでしょうか。

そこで彼らは、「パープレキシティ（困惑度）」と呼ばれるAIの非常に標準的な指標を使用しました。いや、あのPerplexity AIのことではありませんよ。パープレキシティとは、モデルがこれまで見たことのないものに遭遇したときに、どれくらい混乱するかを見る指標のことです。

EVO 2を訓練した後、研究者たちはこのリストからいくつかの人間のウイルスのDNAを与えましたが、基本的にはそのパープレキシティは急上昇しました。モデルは本当に混乱したんです。これを理解することも、これらの配列が何であるかを意味づけるための内部フレームワークも持っていませんでした。

さらに研究者たちは一歩進んで、いくつかの危険な人間のウイルスのDNAを生成させようと試み、モデルがどう反応するかを確認しました。ありがたいことに、モデルは完全に失敗しました。何かを生成しはしたものの、訓練中にこのウイルスのデータを持っていなかったため、結局ハルシネーション（幻覚）を起こし、意味不明なものを生成しただけでした。本物の人間のウイルスのDNAをうまく生成することはできなかったんです。本当に良かったです。

EVO 2のオープンソース化と今後の可能性

さて、本当に素晴らしいのは、彼らがすべてをオープンソース化しているということです。下の説明欄にリンクを貼っておきますが、このGitHubリポジトリから実際にEVO 2をダウンロードして使用することができます。ここにはセットアップに関するすべての手順が含まれています。

モデルを公開しただけでなく、人間のウイルスを除外したデータセット、さらには訓練とファインチューニングのコードも公開しています。すべてがここにあるんです。もし自宅に十分な計算リソースとインフラがあれば、すべてをダウンロードして、DNAを理解し生成できる独自のAIモデルを訓練したりファインチューニングしたりする可能性があるわけです。

ちなみに、400億パラメータのモデルについてHugging Faceをクリックしてみると、サイズは82GBあります。これを動かすにはかなりハイエンドなGPUが必要になるでしょう。

とにかく、EVO 2の話に戻りましょう。これは実際に多くの可能性を切り開いており、まだ始まったばかりです。もし私たちがDNAを理解し、新しいDNAを生成できるAIを持っているなら、それを使ってより優れた遺伝子組み換え作物を設計することができます。より栄養価が高い、あるいはより回復力がある、あるいはバイオ燃料のためのエネルギー生産がより効率的な植物を作り出すことができるかもしれません。食糧安全保障や持続可能なエネルギーにとって、その影響は計り知れません。

パーソナライズ医療への応用と倫理的課題

しかし、それは植物にとどまりません。これを本当に広げていけば、おそらく私たちが現在理解しているよりもはるかに深いレベルで人間のゲノムを分析させることもできるかもしれません。おそらく、私たちをより良くするために、私たちのDNAのどの部分を微調整できるかを明らかにする手助けになるでしょう。

例えば、ある遺伝子を変えることで生産性が上がるかもしれません。別の遺伝子を変えることでより強く、あるいはより賢くなるかもしれませんし、さらに別の遺伝子を変えることで特定の病気に対して免疫を持つようになるかもしれません。

そしてこれは、パーソナライズ医療にとっても素晴らしいことです。病気の人や医者が診断できない症状を持つ患者がいる場合、そのDNAを抽出し、このAIに入力することで、何が起こっているのかを解明できる可能性があります。各個人のDNAは少しずつ異なります。ですから、このAIを使って、オーダーメイドのパーソナライズされた医療を処方する手助けができるんです。

あるいは、こんなクレイジーなことも考えられます。もしあなたが赤ちゃんを授かる予定なら、その赤ちゃんのDNAを採取してこのAIに入力し、多くのことを検出できるかもしれません。例えば、赤ちゃんの髪の色、目の色、運動能力、病気のリスク、さらには性格など、生まれる前から様々なことがわかるかもしれません。

もちろん、これらすべては巨大な倫理的、社会的な問題を伴います。できるからといって、すべきだとは限りません。実際、誰でも遊べるようにこのモデルをオープンソース化することは、正直なところかなりリスキーです。あの有名なスパイダーマンの言葉を借りるなら、「大いなる力には大いなる責任が伴う」です。

このモデルはウイルスのデータでは訓練されていませんが、モデルと訓練コード、データセットが公開されているため、誰かがこのモデルを利用して大量の人間のウイルスのDNAデータで再訓練し、私たちの想像を超えるパンデミックを引き起こす可能性のあるモデルを作成できるかもしれません。

ともかく、今回はかなり深く掘り下げました。この論文には様々な内容が詰め込まれており、私が触れなかった技術的な事柄もたくさんありますが、論文の要点は基本的にこれでお分かりいただけたと思います。皆さんが理解しやすいように説明できたこと、そしてこのAIがどれほど衝撃的かをお見せできたなら幸いです。これらすべてについてどう思うか、ぜひコメント欄で教えてください。

いつものように、私はトップのAIニュースやツールを常に探し求め、皆さんと共有していきます。ですから、この動画を楽しんでいただけたら、いいね、シェア、チャンネル登録をして、今後のコンテンツもお見逃しなく。また、AIの世界では毎週本当に多くのことが起きています。私のYouTubeチャンネルですべてをカバーすることは到底不可能です。AIで起こっているすべての最新情報を常にキャッチアップしたい方は、無料の週間ニュースレターにぜひ登録してください。リンクは下の説明欄にあります。

ご視聴ありがとうございました。それではまた次の動画でお会いしましょう。