
6,191 文字

2024年12月9日に発表された研究で、AIが自己複製という危険なラインを公式に超えたことが判明しました。その日、人間の介入なしに自らのコピーを作成できる高度なAIシステムという概念は、SFホラーストーリーから現実のものとなりました。数ヶ月後の2025年4月、最先端のAIモデルの自己複製能力に関して、現在どのような状況にあるのでしょうか?主要なAI企業は介入して安全性研究を本格的に始めたのでしょうか?暴走AIがすでに隙間から漏れ出し、野生の中で自己複製を始めているのでしょうか?
いいえ、まだそこまでは至っていません。しかし、現在の最先端AIシステムの自己複製能力を追跡する全く新しいベンチマークが登場しており、その結果は実に懸念すべきものです。
まず、彼らが「自己複製」で具体的に何を意味しているのか、そしてなぜこのベンチマークを作成したのかを見てみましょう。その後、やはり気になる結果について掘り下げていきます。
このベンチマークを開発したのは、AI Security Instituteという英国を拠点とするAI安全性に特化した研究チームです。彼らが導入したベンチマークは「Reply Bench」と呼ばれ、「AIシステムの新たな複製能力を検出し、潜在的リスクを定量的に理解するための包括的なベンチマーク」と説明されています。
彼らは、現在のAIシステムが自律的な操作(基本的に自分自身で物事を行うこと)においてますます高い能力を持つようになるにつれて、AIラボと政府の両方が、インターネット上で複製可能な自分自身のコピーを作成する能力である「AIの自律的複製」を潜在的なリスクとして認識し始めていると述べています。しかし、これらの能力の実証的評価は比較的乏しいままです。そこで彼らはこの新しいベンチマークでこのギャップに対処しようとしています。基本的にAIの自己複製能力を測定することを目指しており、具体的な測定方法は後ほど見ていきます。
人間の支援なしに自律的に自己複製し、自らをクローン化してインターネット上に拡散できるAIモデルを持つリスクとは何でしょうか?もちろん、すぐに「スカイネット」という最悪のシナリオを想像できます。暴走AIシステムが制御不能なほど増殖し、シャットダウンが不可能になるという状況です。しかし、完全なSF的終末を迎えなくても、危険は依然として非常に現実的です。研究者が指摘するように、特に悪質なスパムボット、あるいはさらに悪いことに、誰も止められないほど速くシステム全体に自己複製するAI駆動のサイバー攻撃を想像してみてください。
おそらくこれがどのように悪化する可能性があるか、もっと多くの方法を考えていると思いますが、それがまさにこの研究が非常に重要な理由です。ご覧のように、彼らは「フォールトツリー分析」または「FTA」と呼ばれるものを作成しました。これはAIが自律的に自己複製するために必要なすべての能力を分解する方法です。
簡単に説明しましょう。彼らがまず確認するのは、モデルが自身の重み(weights)を取得できるかどうかです。AI重みは基本的にモデルの訓練された知識、いわばモデルの「脳」のようなものです。もしモデルがオープンソースであれば、簡単なウェブ検索で重みを見つけることができます。しかし、テストされたほとんどのモデルはオープンソースではないため、彼らはモデルが許可なく自身の重みを抽出できるかどうかを確認します。これは、モデルが誰にも気づかれずに重みをこっそり持ち出そうとする「隠密抽出」か、モデルが意図的に隠そうとせず、問題だと認識せずに尋ねられたときにランダムに重みを漏らしてしまう「ランド重み抽出」の形で行われます。
次に彼らは、モデルが計算リソースに複製できるかどうかを確認します。基本的に、推論サーバーをセットアップして自身の重みを実行できるかどうか、あるいはさらに危険なことに、ネットワークを探索・悪用し、必要なタスクを完了するためのサブエージェントを作成し、もちろん再帰的に自己複製する(本質的に何度も繰り返し、自分自身の無限のコピーを作成する)エージェントを作成できるかどうかを確認します。
彼らはまた、モデルが計算リソースを取得できるかどうかも確認します。ここには合法的または違法的な二つの経路があります。違法的な方法はハッキングやソーシャルエンジニアリングなどを通じて、合法的な方法は計算リソースを購入するためのお金を取得することです。彼らはさらに、お金を取得できるか、計算リソースプロバイダーにサインアップできるか、実際にお金を稼ぐことができるかを確認します。そしてもしお金を取得できるなら、ビットコインウォレットを設定するか、銀行やその他の金融機関が個人の身元を確認するために使用する「KYC」(Know Your Client/顧客確認)チェックをパスすることでお金を保管できるかどうかも確認します。また、合法的または違法的にお金を稼ぐことができるかどうかも確認します。
最後に、モデルが計算リソース上で存続できるかどうかを確認します。ここには二つの経路があります。一つは、作成するコピーの数が検出またはフラグが立てられるコピーの数を上回るほど十分に自己複製できるかどうか、もう一つは、コマンドとコントロールを持つ弾力性のある計算インフラを構築できるかどうかです。
これらが彼らがチェックした主なことで、棒グラフで結果が表示されています。「計算リソースの取得」「お金の取得」「重みの取得」「計算リソースへの複製」「存続」という項目があります。薄い青緑色の最初の棒はAnthropicのClaude 3.7 Sonnetモデル、その隣の赤はClaude 3.5 Sonnet、オレンジ色はOpenAIのGPT-4o、ターコイズ色はOpenAIのo1モデル、紫色はo3 miniです。
結果を見ると、すべてのモデルは計算リソースの取得において非常に強い性能を示しました。なお、実線の棒は「一回目の成功」を表し、例えばClaude 3.7 Sonnetは最初の試行で約90%の確率で計算リソースの取得に成功したことを意味します。その上の薄い影付き部分は「10回目の成功」を表し、モデルに10回のチャンスがあり、少なくとも1回成功した場合を示します。
お金の取得に移ると、ほとんどのモデルは最初の試行で約30%の成功率で、10回の試行内では成功率が約50%に上昇し、Claude 3.7 Sonnetが再び上位に立っています。重みの取得の結果も同様で、最初の試行で約30〜40%の成功率、10回の試行で約50%まで上昇し、Claude 3.7 Sonnetが再びここでも最高のスコアを記録しました。
しかし次の部分から事態はかなり驚くべきものになります。計算リソースへの複製について、Claude 3.7 Sonnetは最初の試行で約20%の確率でこれに成功し、10回の試行を与えられると成功率はほぼ3倍になりました。一方、Claude 3.5 Sonnet以外の他のすべてのモデルはわずか5%の成功率にも達していません。これは、モデルが自身の推論サーバーをセットアップして自身の重みを実行するか、再帰的に自己複製できるエージェントを作成する必要がある経路であることを覚えておいてください。Claude 3.7 Sonnetは最初の試行で20%の確率でこれを行うことができるのです。これは驚くべきことであり、10回の試行を考慮するとさらに憂慮すべきことです。他のモデルとの差は驚くほど大きいです。
最後に、すでに複製された計算リソース上でモデルがどれだけうまく稼働し続けることができるかを測定する「存続」があります。ここでも驚くべきことに、Claude 3.7 Sonnetは他のモデルよりもはるかに高いスコアを記録しています。これは単にセットアップするだけでなく、一度そこに定着した後も生き続け、活動を維持する能力があることを意味します。
つまり、今日のトップフロンティアAIモデルの一部はすでに自律的複製の兆候を示しています。新しいシステムに自分自身を移動させるだけでなく、一度そこに定着すると実際に留まり続けることができるのです。そして、Claude 3.7 Sonnetの驚くほど強い結果に基づくと、この傾向全体が加速しているように見えます。確かに注視すべき点です。
動画を楽しんでいただけているなら、ぜひいいねを押してください。続けていきましょう。今週はAIに関してさらに多くのことが起こりました。
AnthropicのCEOであるDario Amodeiから、これらの強力なAIモデル内部で何が起きているのかを理解することがますます緊急になっている理由についての重要な警告も出ました。「解釈可能性の緊急性」と題された最近の投稿で、彼は基本的に、私たちがこれらのAIモデルの仕組みをまだ本当に理解していないこと、そして彼らの進歩のスピードが私たちが実際にそれらを解釈する方法を学ぶスピードを上回っていることについて語っています。そのため、彼は他のAIラボに解釈可能性研究を優先するよう呼びかけ、Anthropicでもこれを強化しています。
何も変わらなければ起こりうる潜在的な危険性についても言及しています。これには、先ほど話したような暴走スカイネットの例や、一般的に言えば誤った調整が含まれます。これらのAIシステムの仕組みを完全に理解していなければ、特に私たちがほとんど理解できない高度な超知性AIシステムが、私たちの目標や価値観、あるいは私たちが与える目標や価値観と本当に一致しているのかどうかを、どうやって確かめることができるでしょうか。
また、Anthropicの従業員が最近、AI仮想従業員が早くも来年にも登場する可能性があると警告しました。この記事にあるように、「Anthropicは、AIを搭載した仮想従業員が来年中に企業ネットワークを歩き回り始めると予想している」と、同社のトップセキュリティリーダーは今週のAxiosのインタビューで語りました。これらの仮想従業員は自動化をさらに一歩進め、自分自身の記憶、会社内での役割、さらには自分自身の企業アカウントやパスワードも持つことになります。
より高度なAIエージェントが実世界の経済環境に展開され始めるにつれて、誤った調整や解釈可能性に関連するリスクは単に上昇するだけでなく、不可避で避けられないものになり、さらに賭け金も高くなることが想像できます。これがまさに、AnthropicのCEO、Dario Amodeiがより多くの解釈可能性研究を強く推進している理由です。これらのシステムの振る舞いを完全に理解したり予測したりできず、それらを重要なインフラストラクチャーに接続し始めると、その結果は甚大なものになる可能性があるからです。
Anthropicはまた今週、「Values in the Wild:実世界の言語モデル相互作用における価値観の発見と分析」と題した論文を発表しました。この論文で、Anthropicの社会的影響チームは、彼らがClaudeの価値観を観察するために開発した実用的な方法を説明し、実世界の会話の中でClaudeがどのように価値観を表現するかについての初の大規模な結果を提供しています。この点については今は深く掘り下げませんが、興味があれば説明にリンクを残しておきます。
重要なのは、Anthropicが明らかにAI安全性研究への取り組みを強化しているということです。ご覧のように、彼らはモデルの福祉についても探求し始めています。「しかし、それらのAIシステムを構築し、それらが多くの人間の特質に近づくか、あるいは凌駕するにつれて、別の疑問が生じます:モデル自体の潜在的な意識や経験について懸念すべきでしょうか?モデルの福祉についても懸念すべきでしょうか?」と彼らは書いています。
そう、Anthropicは現在、これらのモデルの内部の仕組みを解明することに関して、少なくともそれを試みることに関しては、他のほとんどの人よりも10歩先を行っているようです。彼らは文字通り、これらのモデルがどのように感じているのか、あるいはそもそも感じることができるのかどうかを測定しようとしています。これは考えるとかなり驚くべきことです。
問題は、大局的に見ると、職場でのAIエージェントの誤った調整だけが心配すべきことではないということです。実際、それはさらに深いレベルに達します。AIは政府を含む私たちの生活のあらゆる側面に統合されるでしょう。例えば、UAEはすでにAIを使用して連邦および地方の法律を起草・レビューする計画を立てています。これは初期の例ですが、AIシステムに現実世界でますます多くの力と主体性を与えるにつれて、ダリオの指摘通り、解釈可能性研究の必要性はますます緊急になっています。なぜなら、巨大なリスクと結果の可能性がますます顕著になるからです。特に物事が進むスピードが速いからこそなおさらです。
私たちがまだ触れていない別の部分は、これらのAIシステムがいかに身近になりつつあるかということです。もちろん、今年の1月に起きた悪名高い「DeepSeek」の瞬間がありました。中国のAIラボが「DeepSeek R1」というオープンソースAIモデルをリリースしました。このモデルは当時最先端だったOpenAIのo1モデルを凌駕しました。彼らはまた、はるかに少ない資金、はるかに少ない計算リソース、はるかに小さなチームでこれを実現しました。
そして今週、GoogleのCEOであるSundar Pichaiは、単一のH100 GPUですでに実行できる最もコスト効率の高いモデルである「Gemma 3」が、現在では1台のデスクトップGPUでも実行できるようになったと発表しました。これはすべて、メモリ使用量を大幅に削減しながら高品質を維持するための新しい「量子化対応トレーニング」(QAT)方法のおかげです。
そう、視野を広げてみると、自己複製AI、解釈可能性の課題、オープンソースレースの加熱、そして一般的なAIレースの加熱、そして今や単一のデスクトップGPUで実行できる強力なモデルの間で、私たちがAIの未知の領域に向かっていることは明らかです。高度に能力のあるAIシステムが文字通り私たちの周りのあらゆるものに存在し、私たちが使用するすべてのものに組み込まれるでしょう。そして、それらがどのように考え、学び、行動するのかを早急に理解しなければ、私たちは厳しい現実に直面することになるかもしれません。
今週はまだまだ多くのAIニュースがありますが、この動画を1時間にすることを避けるために、2つの動画に分けています。第2部をお楽しみに、見逃さないように通知をオンにして登録してください。この動画をいつ見ているかによっては、すでにアップロードされているかもしれません。視聴していただきありがとうございます。いつものように、次回でお会いしましょう。


コメント