
6,067 文字

AIが能力を向上させ、認知タスクに関連するあらゆるベンチマークを突破している一方で、Prime Intellectという企業は全く異なる分野に焦点を当てています。この企業は先進的なAIに関連するリスクに取り組んでいますが、皆さんが考えるような方法ではありません。多くの人は先進的なASIが世界を支配することについて考えるでしょうが、実際にはもっと現実的なリスクがあります。それは、現在または将来のAIツールを使用して、悪意のある行為者がCOVID-19のようなパンデミックを引き起こすためにバイオ兵器を作り出すことができるということです。この企業はこの問題に焦点を当てています。
廃水の一滴一滴には、人間の健康を社会規模で物語る複雑な生命の痕跡、すなわち何兆もの DNA と RNA の断片が含まれています。しかし、この物語を読み解くことは私たちの手の届かないところにありました。今日のシステムから2~3年後に予想されるシステムへの単純な外挿は、AIシステムが欠落しているすべてのピースを補完できるようになり、より多くの行為者が大規模な生物学的攻撃を実行できるようになるというかなりのリスクを示唆しています。
バイオテクノロジーが指数関数的に進歩する中、新しいフロンティアが出現しています。生物学的脅威がパンデミックになる前に検出することです。私たちは、安全性に関する競争において重要な一歩前進だと考えています。他の研究者や企業がさらに良い成果を上げることを期待しています。
そこで登場するのがメタジーン1です。これは廃水サンプルから得られた1.5兆以上のDNAとRNAの塩基対で訓練されたメタゲノム基盤モデルです。メタジーンは70億個のパラメータを持つTransformerアーキテクチャによって駆動され、社会規模で完全な微生物叢を分析することができます。新興病原体の早期警戒システムとして機能する微妙なゲノムパターンを識別します。
これは次のパンデミックを防ぐための地球規模の早期病原体警戒システムを実現するのに役立ちます。メタジーンは新規の生物学的脅威のモニタリングに有用な異常の検出に優れています。USC、Prime Intellect、そしてNucleic Acid Observatoryの共同開発により、指数関数的な生物学の時代における人類の安全を守るための一歩となっています。そして私たちはこれをオープンソース化します。共に科学的AIを加速させ、より安全で健康な未来を創造することができます。
では、これがどのように機能するのか実際に見ていきましょう。この画像は基本的に、彼らの研究論文で説明されているメタジーン1モデルのパイプラインを示しています。これは廃水のシーケンシングを示しており、様々な場所からの廃水サンプルが実際に収集されます。これらのサンプルには、バクテリア、ウイルス、さらには未知の種からの極めて微小な遺伝物質が含まれています。
次にDNAの深層メタゲノムシーケンシングが行われ、これらのサンプルはシーケンシング技術を用いて読み取り可能なDNA/RNAシーケンスに分解されます。その後、事前学習データとして、バイトペアエンコーディングと呼ばれる方法を使用してAIが理解できる形式にシーケンスが変換され、1.5兆以上の塩基対の情報を持つ巨大なデータセットが作成されます。
そしてすべてのデータが70億個のパラメータを持つ強力なAIモデルに変換され、このデータを使用して訓練されます。このデータによってAIは遺伝情報のパターンを学習します。訓練が完了すると、有害なウイルスやバクテリアなどの病原体の識別、遺伝データの異常パターンの検出、そしてもちろんシーケンスの欠落部分の補完などが可能になります。
このモデル全体の目標は、パンデミックのような潜在的な健康上の脅威をモニタリングし、私たちの周りの世界をよりよく理解するためにAIを使用することです。
ベンチマークを実際に見てみると、メタジーン1は病原体検出とメタゲノム埋め込みのベンチマークで最先端の性能を達成しており、基本的に病原体検出と遺伝子埋め込みに関して、これがベストインクラスのAIシステムであることを示しています。
これはAI技術の重要な部分であり、以前に述べたように、現在の産業界の大多数の人々は、基本的にLLMに関して言えば、この種の技術を優先しているとは思えません。だからこそ、企業がこの種のものに焦点を当てることを決めた時、それは本当に重要だと思います。なぜなら、これは将来ますます重要になっていくものだからです。
そしてAI産業で私たちが持つべきことの一つは、このテクノロジーを持つことは素晴らしいですが、多くの場合、人々が話しているASIがまもなく来るということや、これらの先進的なテクノロジーがすべて私たちが考えているよりも早く来るということについて、これらの種類の保護を将来の災害に対してより早く構築することは理にかなっています。私たちはこれを治療するのではなく、予防したいのです。
実際にDario AmodeはLex Friedmanのポッドキャストでこのことについて話しており、これは来るものだと述べています。そして彼は、ビデオの導入部で見たように、これは将来的に悪意のある行為者を助ける可能性があるものだと証言しました。「上院で証言したように、2~3年以内に深刻なバイオリスクが発生する可能性があります。それは約1年前のことでしたが、事態は予想通りに進んでいます。これらのリスクに対処するのが驚くほど難しい理由は、それらが今日ここに存在しないからです。それらは存在しない、まるで幽霊のようなものですが、モデルが非常に速く改善されているため、非常に速く私たちに迫ってきています。」
OpenAIは、これらの新しいモデルがバイオ兵器を作成するための悪用のリスクを増加させることを認めています。彼らはo1シリーズを発表した際にこのことについて話しました。そしてほとんどの方々はo1シリーズが何かご存知だと思います。これはAIモデルのより高度なバージョンで、悪意のある行為者になろうとする個人を支援する能力という点でより包括的になっています。
これが真実でないと思う人のために、OpenAIは実際にこれをOpenAI o1のリリースと共に発表しました。通常、モデルのリリースごとに安全性セクションがあり、これは大多数の人々が注目しないものです。なぜなら、第一に派手ではなく、第二に得るものがないからです。この論文を見て、日常生活で使えるようなAIをよりスマートにする方法を見つけることはできません。これは単に将来のリスクについて話すものです。
ここで彼らが話しているのは生物学的脅威の作成についてです。これは基本的に、o1プレビューとo1ミニの両方のスコアを見ることができ、「私たちの評価では、o1プレビューとo1ミニは、既知の生物学的脅威を再現するための運用計画において専門家を支援できることが分かりました。これは私たちの中程度のリスク閾値を満たしています。そのような専門家は既に重要なドメイン専門知識を持っているため、このリスクは限定的ですが、この能力は将来の発展の先行指標を提供する可能性があります」と述べています。
ここで重要な点は、モデルは非専門家が生物学的脅威を作成することを可能にしないと述べていることです。なぜなら、そのような脅威を作成するには、モデルが置き換えることができない実践的な実験室のスキルが必要だからです。基本的に、これらのモデルはインターネット上に存在する可能性のある知識を組み合わせることができ、LLMで使用するのが容易になる可能性がありますが、これらの病原体や生物学的脅威を合成する実際の実験室が必要だと述べています。
もちろん、これらのモデルをジェイルブレイクすることに成功した場合、これらのモデルは非常に専門的であり、私の知る限り、大多数の人々が日常的にo1プレビューやo1ミニ、あるいはo1シリーズを使用していないという事実を考えると、これらのモデルは実際に科学、コーディングのような、本質的に実際の認知能力を必要とするものに焦点を当てた最高のモデルです。
これらはもっとも影響力のあるモデルなので、これは今後さらに注目されていくと思います。なぜなら、将来がどのように進化していくかを見てみると、大多数の人々は、これらの超高度なモデルが何をできるようになるかにはあまり注目せず、GPTシリーズのような、基本的に日常的に会話ができるモデルに注目するでしょう。大多数の個人は単にAIとの非常に基本的な経験しか持っていません。
しかし、既に述べたように、これらのモデルは人々を助けることができます。これについて最も驚くべきことは、より多くの研究が行われたことです。これが、Prime IntellectのようなメタジーソーX-1を持つ企業が必要とされる理由です。この研究を見てみると、「大規模言語モデルは二重用途のバイオテクノロジーへのアクセスを民主化できるか」というタイトルの研究があります。これはマサチューセッツ工科大学(MIT)によって行われた研究です。
この研究は特に興味深いものでした。2023年に行われたもので、かなり懸念すべき示唆を含んでいます。なぜなら、GPT-4しかなかった2023年にこの研究が行われたとすれば、今ならその研究は何を示すことができるでしょうか。基本的に、チャットボットに組み込まれているような大規模言語モデルは、多くの異なる分野から理解しやすい情報と専門知識を提供することで、研究を加速し民主化していると述べています。
しかし、これらのモデルは、大きな害を及ぼす可能性のある二重用途技術への容易なアクセスも提供する可能性があります。このリスクを評価するために、MITの「未来を守る」コースは、非科学者の学生にLLMチャットボットが非専門家のパンデミック引き起こしを支援できるかどうかを調査するよう課題を出しました。
1時間で、チャットボットは4つの潜在的なパンデミック病原体を提案し、逆遺伝学を使用して合成DNAからそれらを生成する方法を説明し、注文をスクリーニングする可能性が低いDNA合成会社の名前を提供し、詳細なプロトコルとそのトラブルシューティング方法を特定し、逆遺伝学のスキルが不足している人にはコア施設や受託研究機関に依頼することを推奨しました。
これは結論部分のようなものですが、「これらの結果は全体として、LLMがパンデミッククラスの病原体を、実験室での訓練がほとんどないか全くない人々にでさえ、それらが信頼できると特定されるとすぐに広くアクセス可能にすることを示唆しています」と述べています。
2023年に利用可能だったことを考えると、これはやや懸念すべきことだと思います。パンデミッククラスの病原体がまもなく広くアクセス可能になるということは、これらの先進的なモデルが悪意のある行為者にこのようなことを助けることがないよう、何らかの方法でこれらのテクノロジーが安全であることを確実にする本当に良い仕事をしなければならないと思います。
彼らは、第三者によるLLMの事前リリース評価、これらの有害な概念を除去するための訓練データセットの作成、そして生物やウイルスを工学的に作り出すために使用されるすべてのDNAを合成プロバイダーや受託研究機関、ロボティクスクラウド研究所で検証可能にスクリーニングすることを含む有望な拡散防止措置について話しています。もちろん、実験室へのアクセスなしでは現在これを行うことは非常に困難ですが、将来的には先進的なAIによってこれがはるかに容易になる可能性があります。これは1時間で行われた研究で、2023年のことでした。o1シリーズで現在何が可能かは想像できるでしょう。
興味深いことに、2024年に別の研究が行われ、「大規模な生物学的攻撃におけるAIの運用リスク:レッドチーム研究の結果」について論じています。彼らはやや異なる結論に達しています。複数のLLMを含むこの研究は、生物兵器攻撃の計画は現在、フロンティアLLMの支援ツールとしての能力を超えていると述べています。著者らは、LLMの支援の有無にかかわらず、生成された計画の実行可能性に統計的に有意な差は見られなかったと述べています。
これは前の研究を考えると非常に興味深いものです。この研究では、既存のLM能力のフロンティアと生物兵器攻撃計画に必要な知識との間の距離を測定していないと述べています。これは重要です。なぜなら、基本的に現在の位置と到達する必要がある場所との間の距離を測定していないということは、そのギャップが急速に埋められる可能性があるということです。
Dario Amodが述べたように、これは将来急速に迫ってくるものであり、中国がo1シリーズに追いつき、その点で非常に良い成果を上げているのを見てきたことを考えると、OpenAIに追いつき、場合によってはOpenAIを追い越す開発がさらに見られる可能性が高いです。オープンソースのエコシステムでは、生物兵器攻撃の計画にとって良いことではありません。
AIの急速な進化を考えると、LLM技術の将来の発展と、生物兵器攻撃計画へのその応用に関連する潜在的なリスクをモニタリングすることが賢明であると述べています。これはもちろん非常に重要です。
彼らは、LLMからの「不運な出力」と呼ばれるものを特定することができたと述べています。これらの出力は一般的にインターネット上で容易に入手可能な情報を反映しており、LLMが生物兵器攻撃計画に関連するリスクを実質的に増加させないことを示唆しています。
これは良いことだと思いますが、ご存じの通り、今日できないLLMが明日できないという意味ではありません。Dario Amodが述べたように、おそらく今年の終わりまでに、次の2~3年でこれが大きな問題になる可能性が高いと思います。
これはエコシステム全体を変えることになるでしょう。なぜなら、モデルが非常にスマートになり、それらの特定の能力によってリリースできなくなった時、どうなるでしょうか?リリースはされますが、平均的な人がアクセスできないほど制限されるでしょう。
つまり、おそらく特別なアクセスコードがないとモデルと会話できないようになるかもしれません。なぜなら、そうしないとモデルが単に愚かになってしまうからです。これは将来的に一つの可能性かもしれません。モデルが悪用されないように、特定のモデルと話をするには特別な許可が必要になるかもしれません。AI業界がこれにどのように備えるのか興味深いところですが、動画をお楽しみいただけましたら、次回お会いしましょう。


コメント