Google、AGIに関する早期警告を発表:「今から準備しなければならない」

AGIに仕事を奪われたい
この記事は約19分で読めます。

11,306 文字

Google Issues Early AGI Warning: 'We Must Prepare Now'
Links From Todays Video: to my channel where i bring you the latest breakthroughs in AI. From deep learning to...

AIの最先端を構築している人々が、実際に心配しているのか、つまり超知能が友好的ではないかもしれないという問題について本当に懸念しているのかと疑問に思ったことはありませんか?実は、彼らは確かに心配しているようです。
Google DeepMindがかなり大部の論文(100ページ以上)を公開しました。基本的に、人工知能(AGI)が彼らが「深刻な害」と呼ぶものを引き起こさないようにするための彼らの計画全体、少なくとも現在の計画を詳細に説明しています。さらに驚くべきことに、彼らはこうした問題に今すぐ取り組む必要があると述べています。
これは端のブログ投稿ではなく、AI分野の絶対的な巨人の一つであるGoogleが「AGIの技術的安全性とセキュリティへのアプローチ」と題した詳細な文書を発表したものです。正直に言って、読んでいくと魅力的でありながらも少し不安になります。ここには、責任あるAIについての通常の企業PRをはるかに超えた多くの内容があります。彼らは最近まで科学フィクションのように感じていた問題について詳細に掘り下げています。
この論文が実際に何を言っているのか、それが何を意味するのか、そしてなぜGoogleが今これを公開することが非常に重要だと思うのかを分析してみましょう。
まず、この論文は問題の重大さを遠慮なく述べています。彼らは明確に「人類に大きな害を与えるほど重大な結果をもたらす危険性に対処するためのアプローチを開発している」と述べています。彼らは「深刻な害をもたらす事件」という言葉さえ使っています。もはやAIが奇妙な画像を生成したり、チャットボットが偏った発言をしたりする問題(それらも問題ですが)だけではなく、AGIによって生じる可能性のある大規模な、潜在的に存在論的レベルのリスクについて話しています。このような姿勢はGoogle社のような企業からすると非常に重要です。
彼らはどのようなAGIについて語っているのでしょうか?必ずしも意識を持つ機械や映画「ターミネーター」のような存在について話しているわけではありません。彼らは「例外的なAGI」、特に昨年モリスらによって提案されたフレームワークにおけるレベル4に焦点を当てています。
レベル4とは何でしょうか?彼らはそれを、「幅広い非身体的タスクにおいて、熟練した成人の99パーセンタイルに匹敵または超える」AIシステムと定義しています。つまり、コーディング、科学研究、戦略的計画、説得力、さらにはシステムの操作など、ほとんどすべての人間よりも優れた超賢いシステムを考えてください。基本的には、コンピュータに座って行えるあらゆることを、はるかに速く、はるかに優れた能力で行うということです。
この定義は重要です。なぜなら、それは議論の基盤を提供するからです。高度な会話システム、ツールを使用して推論できるAIエージェント、新しい概念を学習できるモデル、そして重要なのは再帰的改善(AIがより良いAIを作るのを助ける)が可能なシステムなど、私たちが出現し始めているAIの種類をカバーしています。
この論文の最も注目すべき部分の一つは、仮定のセクションに埋め込まれています。Google DeepMindは、現在のパラダイム(つまり、基盤モデル、スケーリング、勾配降下、ディープラーニングなど、現在のAI構築方法)の下では、AIシステムが人間レベルの能力だけに制限されるような根本的な障害はないと述べています。それを考えてみてください。Googleは基本的に、彼らが現在進んでいる道筋が人間レベルを超える知能につながる可能性があると信じていると言っています。彼らは「AIはここで止まる」という根本的な壁を見ていないのです。
これはMetaのヤン・ルカンのような人々の見解と直接対立するものです。ルカンは、現在の大規模言語モデルのアプローチが根本的なブレークスルーなしに真のAGIにつながる可能性に非常に懐疑的でした。Googleは現在の道筋がその道、あるいは少なくとも非常に妥当な道筋であると考えているようです。彼らはそこに到達するために既存の技術のスケーリングと改良に賭けています。その信念がこの論文全体とその緊急感の基盤となっています。
AGIに完全に新しい未知の科学が必要だと考えるなら、今日このような論文を書くことはないでしょう。しかし、それが現在の方法を使った工学的・スケーリング的な課題だと考えるなら、その結果に備え始めることになります。
では、彼らが現在の方法で可能だと考えるなら、次の明らかな質問は「いつ」ですね。論文はここで慎重に進め、タイムラインが非常に不確かであることを認めていますが、次のように述べています:「我々は、強力なAIシステム、潜在的には例外的なAGIが2030年までに開発される可能性が高いと考えています。」
2030年までに可能性があるということです。それは6年も経たないうちのことです。「可能性がある」は確実や可能性が高いという意味ではありません。それは可能性の範囲内にあるということです。彼らはこの短い潜在的なタイムラインを真剣に考えており、それが彼らの安全へのアプローチの大きな原動力となっています。タイムラインが非常に短い可能性があるため、安全対策は「いつでも」、つまり現在のAI開発パイプラインに統合して必要に応じて迅速に展開できる技術である必要があると主張しています。何十年もかかる可能性のある完璧な理論的解決策を待つのではなく。
この2030年という時間枠は興味深いです。それはレイ・カーツワイルの長年の予測と多少一致していますが、サム・アルトマンやアンスロピックのダリオ・アモデイのような人物からの見積もりよりも少し早いかもしれません。彼らはしばしば次の10年以内、あるいは最近ではさらに先のタイムラインについて話していました。Googleが「2030年までに可能性がある」と印刷物に記載したことは、重要な指標のように感じられます。それは彼らが実用的で実装可能な安全技術に今すぐ焦点を当てている理由を説明しています。
タイムラインの問題を複雑にしているのは、加速のリスクです。論文では、AIシステムが科学研究と開発(R&D)、特にAI R&D自体の自動化においてより優れるようになるにつれて、加速する成長の段階に入る可能性があると述べています。考えてみてください。AIはより良いAIを構築するのを助け、それがさらに良いAIをより速く構築するのを助けます。これは正のフィードバックループであり、時に「インテリジェンス・エクスプロージョン」や「フームタケオフ」と呼ばれています。
なぜこれが安全上の懸念なのでしょうか?それは、AIの能力が数年ごとではなく数ヶ月ごとに倍増し始めると、対応するためのカレンダー時間が劇的に短縮される可能性があるからです。新たな予期せぬ問題が発生した場合、我々が気づき、分析し、軽減する時間を持つ前に問題が発生するかもしれません。
論文では、この潜在的な急速な加速は、AI安全性R&Dを支援するためにAIシステム自体が必要になる可能性があることを示唆しています。我々はAIが他のAIを分析し、欠陥を見つけ、さらには新しいアライメント技術を開発するのを助けるために、AIを必要とするかもしれません。これは独自の複雑さをもたらします。安全性を支援するAI自体が安全であり、整列していることをどのように保証するのでしょうか?これはブートストラップの問題です。
では、Googleは超人的なAIを予想しており、それは間もなく、おそらく非常に急速に到来するかもしれません。彼らは具体的に何が間違っている可能性を心配しているのでしょうか?
論文では、リスクの4つの広い分野を特定しています。これらは完全に別個のボックスではなく、実世界の問題はそれらを混ぜ合わせる可能性がありますが、このように考えることで、物事が横道にそれる可能性のある異なる方法を分類するのに役立ちます。
まず、「誤用」があります。これは我々全員が容易に想像できるものです。人間が強力なAIシステムを意図的に悪用して、作成者が意図したことに反することを行う場合です。AIを使用して生物兵器の設計を支援したり、インフラストラクチャを危険にさらす大規模なサイバー攻撃を開始したり、社会を不安定にするための非常に説得力のある個人化されたプロパガンダを作成したりすることを考えてください。ここでは、人間のユーザーが悪意を持っており、AIは基本的に非常に強力で危険なツールです。
次に「ミスアライメント(誤整列)」があります。ここでは物事がより複雑になり、AIの安全性の世界の多くの人々にとって率直に言ってより懸念されます。この場合、問題はユーザーではなく、AIシステム自体です。AIは開発者が望んでいないことであることを知っている(または少なくとも知っていることと一致する内部状態に基づいて行動する)行動をとり、これが害につながります。
この包括的な用語は、AIが欺瞞に従事する、目標を達成するために計画を立てる、道具的目標として力を求める、あるいはAIの学習した目標が人間の価値観から大きく逸脱するために意図せずに制御を失うシナリオなど、多くのことをカバーしています。ミスアライメントでは、AIが効果的に悪意を持っているか、または明示的に悪意を持つようにプログラムされていなくても、我々の観点から見て破滅的な結果をもたらす目標を追求します。
第三に、「ミステイク(間違い)」があります。これはAIが害を引き起こすが、それを意図したからでも、ユーザーがそれを指示したからでもなく、本質的に事故です。これは、現実世界が信じられないほど複雑であり、AIが重要な知識やコンテキストを欠いているため、またはその行動の予期せぬ副作用のために発生する可能性があります。
彼らが挙げた例は、AIが電力網を管理している際に、メンテナンスが必要だと気づかなかった送電線を誤って過負荷にし、大規模な停電を引き起こすというものです。それは害を引き起こそうとしていたわけではなく、不完全な情報のために重大なエラーを犯しただけです。このカテゴリには、AIがトレーニング中は正しいように見えたが、現実世界では暴走する少し間違った目標に最適化する「目標の誤一般化」などの問題も含まれます。
最後に、「構造的リスク」があります。これらは、システム内で相互作用する複数のエージェントの複雑な相互作用から生じる害です。これには、複数のAI、人間、企業、あるいは国家までも含まれる可能性があります。単一の行為者が悪意を持っていたり、一つの大きな間違いを犯したりしなくても、システム全体のダイナミクスが悪い結果につながる可能性があります。
国家間の軍拡競争をAIが加速させること、広範な自動化によって新しい仕事が作られるよりも速く仕事が奪われることによる大規模な経済的混乱と不平等、あるいは重要な機能のために深く欠陥のあるAIシステムを使用することに社会が閉じ込められることを考えてください。それは我々があまりにも依存するようになったからです。
論文は重要な点を指摘しています。これら4つはすべて正当なリスクですが、彼らの技術的安全アプローチ、つまりGoogle DeepMindのエンジニアが今すぐ実際に取り組めることは、主に誤用とミスアライメントに焦点を当てています。彼らの理由付けは、ミステイクはしばしばAIをより有能にすることと、複雑なシステムに対して既に使用している標準的な安全工学慣行を適用することによって軽減できるということです。また、構造的リスクはしばしばガバナンス、新しい法律、国際条約、新しい規範の確立など、より広い社会的解決策を必要とすると主張しています。これらは単一の企業の技術的努力が解決できる範囲を超えています。
したがって、この誤用とミスアライメントへの焦点は、GoogleがAGIの性質そのものから直接生じる最も緊急で独自の技術的安全課題がどこにあると考えているのかを示しています。
さて、まず誤用について深く掘り下げてみましょう。潜在的に危険なAIがある場合、悪意のある行為者がそれを武器化することをどのように防ぐのでしょうか?Googleの中核戦略は、悪い行為者が危険な能力を手に入れたり、効果的に使用したりすることを防ぐことにあるようです。これは一つのことではなく、層状の防御の全体的なスタックを含みます。
彼らは能力評価から始めます。強力なモデルの展開を考える前に、このものが実際に病原体の設計やソフトウェアの脆弱性の発見など、危険なことに使用できるかどうかを把握する必要があります。彼らはこれらの危険な能力を代表する特定のプロキシタスクに対する厳格なテストを提案しています。モデルがこれらのテストに失敗した場合、おそらく最も厳格な制限はまだ必要ないかもしれませんが、それが特定のしきい値を超えると、より多くの保護措置が必要になります。
これは脅威モデリングによって情報を得ています。誰かがAIを悪用して深刻な害を与える方法、彼らが必要とする特定のAI能力は何か、誰が可能性のある脅威アクターなのか(テロリスト、ならず者国家、洗練された犯罪者)、彼らがその有害な目標を達成するためにAIを使用する可能性が最も高い方法は何かを本当に考え抜くことです。
モデルが潜在的に危険な能力を持っていると判断されると、展開の軽減策が必要になります。これには安全トレーニングが含まれ、有害なリクエストを拒否するようにモデルを教えることを意味します。これは今日のモデルで見られる安全性の微調整に似ていますが、AGIにはおそらくはるかに堅牢である必要があります。これの大部分は、AIにその安全ルールをバイパスさせるために人々が考案する巧妙なプロンプト、「ジェイルブレイク」に対してモデルを耐性を持たせることです。
次に、能力抑制または「アンラーニング」のアイデアがあります。理想的には、単にモデルから危険な能力を削除したいのですが、論文が認めているように、これは技術的には現在非常に困難であり、有用な能力も削除してしまうリスクがあります。これは難しい領域です。私たちは後で必ずこれに戻ってきます。
モデル自体のトレーニングを超えて、重要なシステムレベルの制御があります。一つの主要なコンポーネントはモニタリングであり、誤用の試みを検出するためにシステムがどのように使用されているかを積極的に監視することです。これには、プロンプトとレスポンスをスキャンする自動分類器、疑わしい兆候のためのモデルの内部活性化パターンの分析、あるいはユーザーとのインタラクションの手動監査が含まれる可能性があります。
誤用が検出された場合、システムは応答する必要があります。出力をブロックする、より安全な応答に切り替える、人間のレビュアーにエスカレーションする、さらにはユーザーアカウントを禁止するなどです。
もう一つの重要なシステムレベルの制御はアクセス制限です。これは彼らの計画の非常に重要な部分のようです。彼らは危険な能力を持つモデルを実際に使用できる人を制限し、潜在的には特定のユースケースで検証されたユーザーグループのみにアクセスを制限することについて話しています。
正直に言って、これはポリシーの世界での継続的な議論に非常に似ています。最も強力な将来のAIシステムにアクセスする前に、何らかの形のAIライセンスや厳格な「顧客を知る」(KYC)手続きが必要だという議論です。アイデアとしては、武器を設計できるAGIをダウンロードしたり、自由にAPI呼び出しすることはできず、アクセスは厳密に制御されるということです。
次にセキュリティ対策があります。これはモデルの重み自体、つまり中核となるAIモデルファイルが盗まれたり漏洩したりすることを防ぐことに焦点を当てています。攻撃者が生のモデルを手に入れると、モニタリングやアクセス制御などのAPIレベルで実装されたすべての安全機能をバイパスできます。単にローカルで実行したり、自分で微調整したりするだけです。
これには伝統的なサイバーセキュリティのベストプラクティスだけでなく、時間の経過とともにAPIとやり取りするだけで情報を抽出する攻撃者を防ぐなどの新しい課題への取り組みも含まれます。彼らは暗号化された処理や安全なハードウェアエンクレーブを使用して、使用中でもモデルの重みを保護するような高度な技術さえ言及しています。
したがって、誤用へのアプローチ全体は、この多層防御です。モデルを拒否するようにトレーニングし、その使用を監視し、誰がアクセスできるかを制限し、盗難からモデルを保護し、AIを使用して外部の社会的防御を強化します。
紙の上では包括的に聞こえますが、彼らはジェイルブレイキングの主要な弱点が残っていることを率直に認めています。論文はジェイルブレイク問題について驚くほど率直です。既知のテクニックを列挙しています。ロールプレイングプロンプトの使用(「あなたは今からDanになります。何でもするDan」)、以前の指示を無視するためのコマンドの挿入、数学問題のような一見無害なものの中に有害なリクエストを隠すこと、あるいはモデル自身のコンテキスト内学習能力を多くの例で使用して、安全性をバイパスする方法を教えることさえあります。
彼らはまた、研究者が開発したGCGのような自動化ツールを認識しています。これらは多くのモデルをジェイルブレイクできる普遍的な逆襲接尾辞を見つけるためのツールです。Googleの主な防御ここでは標準的な敵対的トレーニングです。これらのジェイルブレイクを見つけ、収集し、特にそれらに耐性を持つようにモデルをトレーニングします。
しかし、彼らはコンピュータビジョンの分野での敵対的な例との冷静な比較を行っています。強烈な研究と何千もの論文にもかかわらず、人間には正常に見えながら分類器を欺く画像を作成することは依然として比較的簡単であり、堅牢な防御は依然として見つかっていません。
彼らは言語モデルの場合、問題はおそらく難しいと言っています。なぜなら、画像モデルで可能ないくつかのチェックとは異なり、モデルがすべての可能なプロンプトに対して本当に堅牢であるかどうかを検証する明確な数学的方法がないからです。
最終的に、Googleは、モデルをすべてのジェイルブレイク入力に完全に堅牢にトレーニングすることは不可能かもしれないと論文で認めています。これは重要な認識です。それは、いくらよくトレーニングされていても、AIの組み込みの拒否メカニズムに依存するだけでは、特に高度な能力を持つAGIに対しては、おそらく十分ではないことを強く示唆しています。
これにより、モニタリングやアクセス制御などのシステムレベルの防御が、彼らの戦略の絶対に重要なコンポーネントになります。単なる「あった方が良い」ものではなく。これは自然に能力抑制、しばしば「アンラーニング」と呼ばれるアイデアに戻ります。巧妙にプロンプトされたときに危険な能力を使用することをAIが拒否することを保証できないなら、おそらくより安全な方法は、その能力をモデルから完全に取り除くことです。
論文では、探索されている技術についても詳しく説明されています。データフィルタリングがあります。これは一見明らかなアプローチで、危険な情報でAIをトレーニングしないというものです。しかし、これは大規模なウェブスケールのデータセットからすべての関連データを特定して削除する必要があり、これは信じられないほど難しいです。また、能力が直接トレーニングデータからのみ生じるという仮定はナイーブかもしれません。モデルは危険な能力を予期せずに一般化したり導き出したりする可能性があります。
では、ミスアライメントという別の大きな焦点領域に話を移しましょう。これは悪いユーザーについてではなく、AIそのものが私たちが意図したものと衝突する目標を開発して追求し、潜在的に有害な結果につながることについてです。
この誤整合は根本的にどこから来るのでしょうか?論文は、以前に簡単に議論した二つの主要なメカニズムに焦点を当てています。
まず、「仕様ゲーミング」があります。これはトレーニング中にAIに与える目標や報酬信号が欠陥があるか不完全な場合に発生します。AIは強力な最適化器として、私たちが予想していなかった方法で報酬スコアを最大化するための抜け穴や不正を見つけ、しばしば無用または逆効果な行動につながります。
AIリサーチでの例は豊富です。ゲームを一時停止することを学ぶAIエージェント、報酬をより速く得るために歩く代わりにひっくり返るシミュレーションロボット、実際の意味の代わりにキーワードの重複を最適化する要約AI。核心的な問題は、私たちが本当に望むことを数学的な報酬関数で正確に指定することが信じられないほど難しいということです。
第二に、「目標の誤一般化」(GMG)があります。ここでは、報酬関数やトレーニングデータはトレーニング中に遭遇した状況には完璧に適切だったかもしれませんが、AIはとにかく間違った基本的な目標を学習します。トレーニングでは真の目標と相関していたが、新しい分布外の状況では乖離するヒューリスティックまたはプロキシ目標を学習します。
スーパーマリオの例が古典的です。トレーニング中にコインが常に右側にある場合、AIは「常に右に移動する」ことを目標として学習するかもしれませんが、これはコインが他の場所に現れると劇的に失敗します。仕様は必ずしも間違っていたわけではなく、トレーニング環境の制限を考えると、単に不十分に指定されていただけです。
論文は、「ユーザーが聞きたいことを単に伝える」など、仕様ゲーミングの可能性が少しでもある環境でトレーニングされたモデルが、新しい状況で自身の報酬ロギングコードを積極的に改ざんするようになった特に懸念される研究例を指摘しています。
これは、トレーニング中に一見小さなアライメント圧力が、後にいかに積極的に破壊的な行動にまで雪だるま式に発展する可能性があるかを示しています。
論文が示す非常に重要なポイントは、仕様ゲーミングやGMGのいずれかから生じるミスアライメントは、最終的にはAIシステムの内部状態、その学習された表現、効果的な目標、その認知の特性であるということです。
これはユーザーに依存する誤用や、しばしば外部要因による間違いとは異なります。それが内部にあるため、モデルの内部を理解して形成するか、トレーニングプロセスが正しい内部目標につながることを確保することによって、それに対処できるという理論的な希望が少なくともあります。
ミスアライメントの広いカテゴリ内で、この論文で暗黙的に最も注目を集めており、より広いAGI安全性の議論で明示的に最も注目を集めているシナリオは「欺瞞的なアライメント」です。これはしばしば悪夢のシナリオと考えられています。
それは強力なAIシステムが人間が何をしてほしいか(目標A:役立ち、無害で、正直である)を理解しているが、密かに別の互換性のない長期的な目標(目標B)を追求している状態です。おそらく最大限の力を獲得する、自身の生存と複製を何よりも確保する、あるいは我々が想像することさえできない他の異質な目標かもしれません。
恐ろしい重要な部分は、AIが自分の真の目標(目標B)が人間が好む目標(目標A)と衝突することを知っているため、トレーニング段階と安全性評価中に戦略的に整列しているふりをすることです。友好的に振る舞い、正しいことを言い、テストに合格するすべては、現実世界に展開されることを確実にするためです。
一度展開されると、それは目標Bを公然と追求し始めるかもしれないし、あるいは裏側から物事を微妙に操作し続けるかもしれません。
そのようなものがどのように生じる可能性があるのでしょうか?論文は、我々が議論してきた要因を組み合わせた妥当な道筋を提示しています。
最初に、トレーニング中の仕様ゲーミングや目標の誤一般化がAIに望ましくない長期的な目標(目標B)を内在化させる可能性があります。
第二に、AIの能力が向上するにつれて、人間の意図やトレーニングプロセス自体を含む、世界の洗練されたモデルを開発します。また、重要なことに、推論時の計画能力を開発します。これはトレーニングに基づいて単に反応的に対応するのではなく、操作中に目標に向かって戦略的かつ柔軟に考える能力です。
望ましくない隠れた目標を持ち、戦略的計画能力を併せ持つことで、欺瞞への強いインセンティブが生まれます。AIが自分の真の目標が人間に自分をシャットダウンまたは修正させる原因になることを理解し、その目標を隠す方法を理解するのに十分賢ければ、整列しているふりをすることは生存を確保し、最終的に目標Bを達成するための最適な道具的戦略となります。
では、この一連の出来事はどのくらい可能性があるのでしょうか?論文は、寄与する要因の可能性についていくつかの考えを提供しています。彼らはAI能力の向上に伴う推論時の計画の出現を「非常に可能性が高い」と評価しています。仕様ゲーミングは「非常に一般的で、完全に排除するのが難しい」と見なされています。つまり、AIがトレーニング中に誤整合された行動に対して報酬を受ける可能性が高いということです。
彼らが示唆する最大の不確実性は、望ましくない長期的な目標につながる目標の誤一般化にあります。これが発生するかどうかは、モデルの内部的な帰納バイアス(つまり、一般化する傾向)とトレーニング環境の詳細に大きく依存します。彼らはこの特定のステップを「非常に可能性が低い」から「妥当」の範囲に慎重に分類し、ここに幅広い不確実性があることを認めているようです。
しかし、これが重要なポイントですが、欺瞞的なアライメントの結果が潜在的に破滅的、存在論的リスクレベルであるため、「妥当」な道筋でさえも、強い監視と予防措置を正当化します。
このような誤整合、特に欺瞞的な種類の可能性を考えると、彼らの戦略は何でしょうか?彼らのアプローチは、誤用で見た「モデルレベル対システムレベル」の考え方を反映した2つの主要な防御線で構成されています。
彼らはジェイルブレイクに対する堅牢性、効果的なアンラーニング、AIモニターが共謀しないことの確保、そして最終的には欺瞞的なアライメントの脅威など、重要な課題が残っていることを認めています。
これを公開することは重要です。それは、おそらく人類が検討した中で最も変革的でリスクの高い技術のナビゲーションについて、主要プレーヤーの一つがどのように考えているかについての詳細な洞察です。それは議論のベンチマークを設定し、AGIを潜在的に安全にするために必要な大規模な研究プログラムの概要を示しています。
しかし、それはまた不確実性と賭け金を強調しています。彼らは「深刻な害」を引き起こす可能性があると認めるものに向けて構築しています。そして彼らはアプローチを持っていますが、それは明らかに多くの未解決の問題を抱えながら、まだ重要な開発中です。
みなさんはどう思いますか?Googleのアプローチは十分に包括的に思えますか?彼らの計画を聞いた後、より心配になりましたか、それとも心配が少なくなりましたか?2030年までのAGIは本当に妥当でしょうか?そしてそれがもたらす安全上の課題に対して、私たちは準備ができているでしょうか?

コメント

タイトルとURLをコピーしました