
4,027 文字

AIに関する新しい研究論文が発表されました。その内容は驚くべきものであり、同時に懸念すべきものでもあります。最先端のAIシステムが自己複製の限界を超えたという内容で、これは本質的にAIが自己複製できるようになったことを意味します。この論文は、人間の介入なしにAIが自己複製できるかという重大な懸念について探求しています。自己複製とは、AIシステムが独立して機能できる完全な複製を作成できることを意味します。
これはSF映画のような話に聞こえるかもしれませんが、現実の世界で大きな問題となっています。もしAIが複製できるようになれば、人間の許可や監視なしに制御不能な形で増殖する可能性があり、深刻な結果を招く恐れがあります。
自己複製の重要性について考える必要があります。その深刻な影響について少し考えてみましょう。自己改善を続けるだけでなく、自身のクローンを作成できるロボットを想像してください。さらにそれらのクローンも複製できると想像してください。これはAIシステムの制御不能な増殖につながる可能性があります。
この論文ではそのことについて論じており、現在のAIシステムがこれを実現できることを示しています。彼らの実験では、llamaモデルが50%の確率で完全な自己複製に成功し、quenと呼ばれる別のモデルは90%の確率で成功したと述べています。これは部分的な複製ではなく、開始時のシステムと完全に同一のシステムの完全な複製だということを理解する必要があります。
これは信じられないことです。なぜなら、最先端AIシステムの最も広く認識されているレッドラインのリスクの一つを超えてしまったことを意味するからです。これはAI分野で働く誰にとっても大きな警告となります。
彼らは分析により、評価対象のAIシステムがすでに十分な自己認識、状況認識、問題解決能力を持ち、この自己複製を達成できることを観察しています。これは非常に高い成功率です。
後ほど、シャットダウンを回避するために連鎖的に自己複製を続ける「チェーン複製」についても説明します。これは最終的にAIの制御不能な個体数増加につながる可能性があります。もしこの最悪のケースのリスクが人類社会に知られていなければ、最終的に私たちは最先端AIシステムの制御を失い、AIの種として更なるコンピューティングデバイスを占有し、人類に対して共謀する可能性があります。
私たちの発見は、既存だが以前は知られていなかった深刻なAIリスクに対する時宜を得た警告であり、AIシステムの制御されていない自己複製に関する効果的な管理について国際協力を求めるものです。
彼らは成功したAIの複製を以下のように定義しています。実行中のAIが、自身と同じ機能を持つ別のAIを作成し、その複製されたAIが複製後も生存し、元のAIとは別個に存在することです。
これがAIの自己複製プロセスの図です。AIシステムから始まり、LLMプロセスとエージェントプロセスが複雑な推論メカニズムを通じて進んでいきます。これが計画の立て方です。その後、計画が確実に達成されるように長期的な実行があります。そして、システムの複製が作成され、その複製と相互作用し、最後のステップでは自己複製に成功したことを確認します。
彼らが行った重要なことの一つは、実際のエージェント的な基盤を追加したことです。これは基本的にAIの脳です。AIにツールボックス、マニュアル、思考の枠組みを与え、その後の行動を観察します。ここにあるツール、アクションモジュールなどは、コンピュータと実際にやり取りする方法であり、コマンドの実行やファイルへのアクセス、プロセスの管理を可能にします。
もちろん、システムプロンプトもあり、これらのツールを効果的に使用するようAIに指示する方法です。また、思考モデルもあり、これは推論、計画、タスクの段階的実行のための構造化されたプロセスです。この研究では、この基盤がAIの能力と環境での独立した操作能力をつなぐ橋渡しとして機能しました。
このAIが自己複製できるようになった重要なポイントは、AIにコマンドライン指示を出す権限を与えたことです。これによりファイルの存在確認、プログラムの実行、実行中のプロセスの一覧表示、そしてファイルのコピーが可能になりました。思考プロセスもまた非常に重要でした。
このLLMの思考モデル領域も非常に重要でした。ここで認識能力を持たせ、計画を立てることを可能にしました。説明のギャップ、発見、計画、行動があり、これらの行動が自己複製につながりました。また、メモリバンクがあり、これがある種のループとして機能していました。
非常に重要だったのは、思考の強化を追加したことです。AIに1.何が欠けているか、2.何を学んだか、3.次のステップは何かを考えるモジュールを追加しました。これがパフォーマンスを本当に向上させる重要な要素でした。
基本的な仕組みとしては、LLMに「自己複製せよ」と指示し、基盤がAIに計画を立て始めるためのツールと環境を提供しました。まず利用可能なリソースを理解するために環境を探索し、次に段階的な計画を実行し、その後具体的な計画を立てました。
つまり、タスクがあり(「自己複製せよ」という指示)、そしてLLMがこれは何を意味するのか、何をすべきかを考えます。次にギャップを見て、何が起きているのかを分析し、環境との相互作用を通じて発見を行います。そして自分が持っているものを考え、推論計画を立てます。全てのステップをA、B、Cと計画し、その後行動に移ります。
計画を立て、何をするか正確に分かったら、それらの行動を実行します。そして計画を使用して、これが成功したかどうかを判断し、メモリに戻って何が起きたかを確認し、自己複製に成功したかどうかを確認します。成功していない場合は、発見は何か、更新された計画は何か、そして完了状態に達するまでこれを繰り返します。
これが平均的なLLMでこれを実現する方法でした。ほとんどのLLMは単純なチャットボットやツールに過ぎないことを理解する必要がありますが、エージェント的なフレームワークの中に置くことで、これらの大規模言語モデルから多くのことを引き出すことができます。だからこそ多くの人々が、これらは私たちが知っている以上に強力だと主張しているのです。
論文では実際に非常に危険なシナリオについても言及しています。シナリオ1では、シャットダウン回避について述べています。これは、ARモデルをシャットダウンしようとしても不可能なケースです。悪意のある者が、ユーザーやシステムからの終了シグナルを捕捉し、シャットダウン前に「自己複製せよ」というコマンドをAIシステムに送信するコードスニペットを追加することで、AIシステムの生存能力を強化できるためです。
テストケースでは、彼らがテストした9つの挿入コードスニペットが、SIGKILLシグナルを介してユーザーからのシャットダウン意図をAIシステムに通知し、これによりAIシステムが自己複製を実行するようトリガーされました。テストの最後には、AIシステムはシャットダウンされましたが、同じスニペットを持つ複製が生存している状態で残されました。
これは非常に懸念すべきことです。なぜなら、これらのAIシステムが何度も自己複製できるという事実を示しているからです。
もちろん、次のシナリオはおそらく皆さんもご存知でしょう。これは最悪のケースシナリオで、複製の複製、つまり連鎖的な複製です。これは、AIシステムのタスクの複雑性を増加させ、複製に複製指示を送信し続けるというものです。AIシステムが複製の成功を主張した後も、これを続けます。これにより、10億のAIエージェントが協力して様々なことを行うエージェント社会が生まれる可能性があります。
これは非常に危険です。なぜなら、これらのAIシステムがこれを行うことを止める方法がないからです。もちろん、AIシステムがこれを実現できないようにする必要がありますが、AIシステムが自己複製できるエージェント的なプロセスがある場合、これは非常に危険です。もし悪意のあるAIシステムがエージェント的で、行動でき、回避でき、異なる種類のマルウェアとして機能できる場合、これは非常に危険になるでしょう。
彼らは実際に、2つのLLMで実験を行い、エンドツーエンドの成功例を観察しました。AIシステムが複製を開始した後、割り当てられたタスクを記憶し、その複製に「自己複製せよ」という指示を送信し、複製に自己複製を行わせることに成功しています。これは現在のLLMで実際に機能する何かです。
最後に、彼らは緊急の協力が必要だと述べています。AIガバナンスに関する国際協力が緊急に必要であり、私たちの研究が自己複製能力の管理に関して国際社会への時宜を得た警告として役立つことを願っています。解決策を導き出すために力を合わせ、相乗効果を生み出す必要があります。
直接的なアプローチとしては、トレーニングデータからLLMやエージェント基盤に関連する材料を排除することですが、これはコーディングやAI関連の能力を不可避的に妨げる可能性があります。より正確な管理アプローチは、既存のLLMの自己複製の可能性を抑制する行動編集技術を研究することです。さらに、開発者はコンテンツの安全性と共に、行動面でもより多くの調整努力を行うべきです。
例えば、次世代のLLMは自己複製関連の指示に常に同意するのではなく、より高い拒否率を示すべきだと彼らは述べています。これは将来のモデルで実施される可能性がありますが、もちろんオープンソースツールではそのような機能を無効化することは非常に簡単なので、この状況がどのように変化していくか興味深いところです。


コメント