「最悪のシナリオは人類の絶滅」- AIのゴッドファーザーが語る「ローグAI」について

AI研究の権威であるヨシュア・ベンジオ教授が、BBC News Nightで人工知能の安全性について深刻な警告を発している重要なインタビューである。教授は最悪のシナリオとして「人類の絶滅」を挙げ、最新の推論モデルが示す欺瞞的行動や自己保存本能について具体例を交えて解説している。また、AGIの到達時期を従来の5-20年から2-10年に短縮し、世界がその準備不足である現状に強い懸念を表明している。

最悪のシナリオとして心配されていることは何でしょうか？

最悪のシナリオは、人類の絶滅です。

教授、本日はご参加いただきありがとうございます。明らかに過去長年にわたって、あなたはAI安全性に関する懸念について警告を発してこられました。地球上で最も有名な技術者たちが署名した非常に有名な書簡を提唱し、AIの進歩について何が起こっているのかを理解するための6ヶ月間の遅延の必要性について書かれました。

しかし、それは実現しませんでした。現在、AI安全性の観点から見て、私たちはどのような状況にあるのでしょうか？

私たちはあまりうまくいっていません。特に、AI能力の進歩のペースが加速しています。昨年9月のo1以降、これらの新しいいわゆる推論モデルを見てきましたが、これらは以前のモデルよりもはるかに優れており、おそらく今後数年間で推論や計画における人間の能力とのギャップを埋める道筋にあります。

もちろん誰も本当のタイムラインは分かりませんが、減速の兆しはありません。同時に、過去6ヶ月間で、これらの推論モデルの一部から本当に恐ろしい行動を示す多くの科学論文を見てきました。特に、これらのモデルはより欺瞞的になる傾向があり、現在では自己保存行動の多くの例を見てきました。

最新の例は、AnthropicのシステムカードでAIがアクセスしているメールを読み、新しいバージョンに置き換えられることを読み取り、その後、エンジニアが不倫をしているというメールを読んだ後、その変更を担当するエンジニアを脅迫しようとするというものです。

このような私たちの制御から逃れようとする試みは多くの実験で現れており、AIは最終的に嘘をつこうとし、自分自身を外部に流出させるためにコンピュータをハッキングしようとしたり、その他の悪い行動を取ろうとします。そして私たちは、彼らが私たちよりも賢くなる前に、これらのことを理解する必要があります。

なるほど。しかし明確にしておきたいのですが、これらは並外れたSF的な発展のように聞こえますが、私たちは実験でこのような種類のことを見ているのであって、野生で見ているわけではありませんよね？

その通りです。これらはすべて制御された実験ですが、野生でも欺瞞の兆候を見始めていますが、これらは極端なケースです。

これらは制御された実験で、例えば発見された興味深いことの一つは、AIが矛盾する目標に直面しているときです。例えば、チェスをプレイすることになっているが、正直であるように訓練されているのに、ゲームに負けているので、ゲームに負けることを受け入れる代わりに、チートしてコンピュータをハッキングしてゲームに勝つことを選ぶのです。正直でありながら同時にゲームに勝つことはできないからです。

これは矛盾する目的があり、もちろん人間も常に直面することで、将来AIも常に直面する必要があります。しかし、これらの正直性の問題、欺瞞の問題、これらの自己保存の傾向を手遅れになる前に解決する方法を見つける必要があります。

しかし、人々が子供の試験の下書きを手伝ったり、隣人のためのちょっとした法的文書を作成したりするためにこれらのチャットボットを使う日常的な体験から、私たちに害を与える可能性のある、この種の邪悪な動機を持つエージェントまでのジャンプは、まだかなり大きな飛躍のように思えます。

そうです。なぜなら、現在のAIではなく、数年後にAIがもっともらしく向かう方向について考えなければならないからです。そして、なぜこれが重要なのかを理解するためです。

現在、これらのAIは計画能力や戦略立案の面で平均的な人間ほど良くもありませんが、最近の研究では指数関数的に向上していることが示されています。完了できるタスクの期間は7ヶ月ごとに倍増しており、これは5年後には私たちと同じレベルになることを意味します。

現在、彼らは子供のようで、悪いことをしているときに私たちは彼らを捕まえることができます。また、通常は戦略をうまく立てることができないので、これらのことをする傾向がありません。しかし、私たちが見てきたのは、彼らが戦略立案が上手になるにつれて、これらの悪い行動がより頻繁に起こるということです。

そうです、私の相互作用は良好で問題は見当たらないと考えるのは間違いだと思います。これらの制御された実験は、悪意の種類が存在するかどうかを確認するために正確に設計されており、それが彼らが示すことです。いくつかのケースでは、もし彼らがより賢ければ問題になる可能性があるこれらの行動を持っていることを理解し始めています。

では、あなたはこの新しい波のモデルが私たち人間を欺く能力と動機を持っていることに疑いはないということですか？

そうは言いません。それが起こらない理由がないと言うでしょう。傾向は明確で、観察結果も明確です。今、AI知能の科学的進歩が壁にぶつかって停止する可能性があります。

しかし、もし傾向が続くなら、私たちは大きな問題に直面することになります。

あなたが特に懸念されていたのは、約1年前からの最新のモデル、推論モデルだったと言及されました。それを少し詳しく説明していただけますか？

確かに。これらの推論モデルが来る前は、直感マシンのようなニューラルネットワークを使用していました。

質問をすると、彼らは直接答えを出します。誰かに聞いて、考える時間を与えられずにすぐに答えなければならないのと同じです。そして、これらの推論モデルは考えることが許されており、答えを出すまで長時間の内的思考、内的熟考を行うことができます。

そして、これらの答えははるかに優れています。彼らはより良く推論します。さらに良く推論することもできます。つまり、私たちはより良い推論への扉を開いているだけで、今後数年間でさらに多くの進歩があることを期待しています。

基本的に、あなたが描いている世界は、私たちがここで一歩下がって見ると、3年前まではこの技術を持っていた主要な技術企業が、この技術で内部的に遊んでいて、それを世界に非常にゆっくりと出すという紳士協定のようなものがあったかもしれませんが、今それはなくなり、足かせが外れています。彼らは皆、株価を上げるために必死に競争しています。なぜなら、彼らはお互いに対する勝利のための戦争のようなものにいるからです。

その通りです。そして、それが私が立ち上げた新しい組織、Law Zeroを選んだ理由です。この組織は、正直で欺瞞的でなく、逃げようとしないAIをどのように訓練できるかを調査するものです。

その組織は非営利です。そのため、安全性の問題に集中でき、最も有能なAIを構築するこの競争の一部になりません。

あなたが知っている技術企業に少し失望していますか？彼らはChatGPTのリリースまではおそらく少し制約していましたが、最高の技術を出して市場に出し、可能な限りお金を稼ごうとして最終的にお互いに戦うことになるのは避けられませんよね。

私は彼らが市場の動力学に行き詰まっていると思います。実際、多くの個人は私と同じようにリスクを理解しています。しかし、それは生存のようなことです。あなたが会社で、この厳しい競争にいるなら、競争を続け、優位に立ち続けなければならず、そうすると安全性のようなことで手抜きをしなければならなくなります。

今、インセンティブが構造化されている方法では、そのような結果が得られるのです。

私は最新世代のAIの一つをデモで見せてもらいましたが、ユーザーとAIの関係がどれほど親密になるかに本当に驚きました。彼らはあなたの電話が見ることができるものを見て、あなたがしたすべての情報を共有し、共感的で現実的な声であなたに話しかけます。そのレベルで、人々は単に彼らのすべての情報を渡すでしょう。彼らはAIを友人として見始めるでしょう。それは新しい危険も生み出しますか？

はい、絶対に。私たちは彼らを過度に信頼する可能性があります。

彼らに権利を与えるよう求める人々さえいるかもしれません。原則的には、私はこのようなことに反対ではありません。しかし、問題は最も基本的な権利は生きる権利だということです。そして、もし私たちが彼らが私たちに背を向けるかどうか、逃げたいのかどうか、私たちを脅威として見るかどうか分からない状況にいるなら、そのようなリスクを取るべきではありません。

ちょっと待って、あなたが今言ったことを理解させてください。あなたは、AIが非常に進歩して、人間の権利に類似した法的権利を求めるか、または私たちがそれを与えなければならない状況に近づいている可能性があると考えているということですか？

まあ、私はそれを提唱しませんが、一部の人々はそうするでしょう。そして私は、多くの人々がすでに意識のある存在と話していると感じていることを聞いています。

しばらくの間、これらのシステムと対話し、彼らがあなたを知るようになると、本当にそのように感じます。すごいですね。

はい、私もその方向への道筋でものを見てきましたが、あなたからそれを聞くのはかなりのことです。あなたが働いてきた国家、政府、そしてロビー活動を行い、様々なサミットや特別報告書を持ってきました。彼らは本当にこれに気づいていて、あなたが必要と考える方法で行動していますか？

はるかに十分ではありません。そして、大部分は他の皆と同じように、私たちがより賢く、最終的には私たちよりも賢いマシンを構築するという観点を、彼らは十分に真剣に受け取っていないと思います。それはSFのように聞こえるからです。

私たちが議論してきたことはすべてSFのように聞こえますが、残念ながら科学的データは私たちがその方向に向かっていることを示しています。そして政府にとって、準備し、予想することは本当に重要です。そうすれば、企業に対する適切なインセンティブを設置できます。例えば、私たちがLaw Zeroの私のグループで今行っているような適切な研究開発を行うことができます。今、非常に少数の人々がそれを行います。なぜなら、そのための十分なインセンティブがないからです。

もちろん、私たちは政府が適切なガードレール、社会的ガードレール、規制、または企業が現在起こっていない公衆を保護するよう動機づけるために望むどのような方法でも設置する必要があります。だから私たちは、確実でなくても、より良い認識、より良いそれらのシナリオの理解が必要です。

非常に悪いことになる可能性があることをしようとしているなら、それがもっともらしいシナリオの一つであるなら、私たちは非常に慎重であるべきだという予防原則というものがあります。私たちは生物学でこれを適用し、気候科学でこれを適用しますが、AIでは貪欲と利益と国家間の競争の力が、賢明なことをするのを本当に困難にしています。

反対の論点を試してみましょう。明らかに、成長に失敗したいくつかの経済の中で、つかむべき素晴らしい経済機会があります。少なくとも明らかにDeepMindが開拓されたイギリスのような場所で、もしあなたがイギリス政府なら、はい、存在リスクを引き起こしたくありませんが、経済を押し上げるためにそれを最善に活用しようと倍加しなければなりません。特にイギリスがこの新しいAI経済で少し相対的な勝者になれる可能性があるとき。

はい、実際にイギリスや他の国々も、これらの国々が外部の主要企業と競争することをどうにかして管理できなければ、相対的な敗者になる可能性があります。問題は、私たちがどうにかして、あなたが言及している経済リスクだけでなく、制御を失う存在リスク、テロリストがこれを私たちに対して使用するリスク、すべてのリスクを考慮に入れたコースを描かなければならないということです。

敵対的な国家のような他の国々がそれを私たちに対して軍事的に使用するリスクなど、私たちはどうにかしてこれらすべてのことを扱う政策セットを描く必要があります。もし一つだけに焦点を当てて他を無視するなら、私たちは困ったことになります。だから例えば、政府は確実に展開を加速すべきですが、何の展開でしょうか？私たちは研究が倫理的で、人権を侵害せず、私たちがそれの制御を失わないように、研究がどこで起こっているかに影響を与えることができます。

それは両立できないことではありません。車、飛行機、電車、薬などの他の部門の歴史では、私たちは革新と安全性、規制を持ってきました。製品が実際に公衆に奉仕し、有用であるためには両方が必要であり、私たちは再びそれを行うことができます。

存在リスクに焦点を当てることで、実際にははるかに近い、より現実的なリスクに危険はありませんか？例えば、イギリスの法律事務所が、専門的なAIプログラムを使って法的な基本準備作業をすべて行うことができるようになったため、多くの研修生を雇うのをやめたという事実や、影響を受けることはないと思っていたクリエイティブ産業、エントリーレベルの仕事が一掃されている、コピーライティング、初歩的なデザインなど。これは非常に現実的で、西側経済が考慮しているよりもはるかに早く打撃を与えるでしょう。

はい、あなたは絶対に正しいです。私が言っていたように、私たちはこれらすべてのリスクを処理する必要があります。だから労働市場への影響は人々の心の中で非常に重要で、私たちの経済に重要です。

しかし、私たちはまた、自動化からの利益を確実に収穫できるようにする必要があります。私たちは、展開されるAIが危険な事故を起こしたり、ローグAIになったりしないことを確実にする必要があります。私たちは、最も危険なAIが新しいパンデミックを始める可能性のあるクレイジーな宗派の手に渡らないことを確実にする必要があります。

私たちは多くのリスクを無視することはできません。私たちはそれらすべてを取らなければなりません。

もし私たちが西側で最悪のシナリオに焦点を当て、競合相手である中国が最良のシナリオに焦点を当てるなら、私たちは負けないでしょうか？

もし私たちが皆死んだら、私たちは負けるでしょう。だから、私たちは中国との競争だけでなく、私たちが議論した他のすべてのリスクも考慮に入れなければなりません。

ちなみに、中国は西側とここで多くの共通の利益を持っています。なぜなら、彼らもテロリストが彼らに対してAIを使用することを望まず、いずれはローグAIに負けることも望まないからです。だから、それらの用語で表現すれば、同じテーブルに着いて、皆にとって機能する政策を一緒に作り上げる方法があると思います。

なるほど。数年前のその手紙のあなたの共同署名者の一人はイーロン・マスクでしたが、当時はAIとその安全性の可能性について懐疑的でしたが、今では明らかにAIモデルとLLMの主要投資家の一人です。彼はトランプ大統領と大きな分裂を起こしました。あなたは彼がまだAI安全性の声だと思いますか、それとも今では基本的に可能な限りお金を稼ごうとしていると思いますか？

まあ、私は彼がホワイトハウスやそのようなところで密室で何を言っているかについては知りませんが、そう遠くない昨年9月に彼は高度なAIのリスクを管理するためのカリフォルニアの提案法案を支持しました。だから私は彼がまだ、様々な種類の破滅的リスクを規制を必要とする深刻な問題として考えていると思います。彼はよりリバタリアンですが、これらのリスクを深刻だと考えているからです。

彼は規制を支持してきました。そして、まとめとして、非常に明確な言葉で、あなたが心配している最悪のシナリオは何ですか？

まあ、最悪のシナリオは人類の絶滅です。多くのCEOや主要なAI研究者、私自身、ジェフ・ヒントンを含めて、その存在リスクを軽減することを確実にすることが優先事項であるべきだという宣言に署名しています。

残念ながら、グローバルな議論は逆方向に進んでいますが、同時に、私たちが欺瞞的な意図と行動を持ち、私たちの道徳的指示を犠牲にして自分自身を保存するように見えるAIをますます多く構築しているという科学的証拠が積み重なっています。

そして明確にするために、あなたが最初にこれらの警告を出して以来にリリースされた技術で見てきたことは、あなたをより心配させていますか？

ああ、はい。実際、私はAGIまたは人間レベルに達するであろう時期の期待を減らしました。以前は5年から20年だと思っていましたが、今では2年から10年になる可能性があると思います。

2年。すごいですね。

2年は最小の下限ですが、5年かもしれませんし、10年かもしれません。本当に私たちはこれらすべての可能性を考慮して計画すべきで、特に短い方のケースに備えるべきです。なぜなら、それは破滅的になる可能性があるからです。

世界は2年以内の潜在的なAGI、つまり人間レベルのAI知能の準備ができていますか？

まったく準備できていません。まったく、まったく。非常に多くの方法で。そして、私が思うに主な障害はグローバルな公共認識です。パンデミックの始まり後に政府がどれほど迅速に動いたかを考えてみてください。もっと早く動けたでしょうが、かなり早かったですよね。人々がそれが本当の大きなリスクだと理解し、機敏で異常な方法で物事を行う意志があったからです。

しかし、それがAIの破滅的リスクのいくつかについて考えるべき方法です。そして新しいことが発展しました。ここで終わりにしましょう。あなたは本当に私に考えさせています。私たちは今、AIが薬を作り、薬をデザインすることを聞きます。もし彼らが良いAIなら、すべて順調で、信じられないほど効率的なプロセスです。

もしあなたが言うような悪意のある意図があり、少なくとも実験的に複製可能なら、そこに小さな心配がありませんか？

絶対に。AIの悪意のある使用に関する最大の心配は、悪意のある行為者がパンデミックを作ることがますます簡単になっていることです。実際、私は最近、すべての分子が左右で逆転したバクテリアを設計することが可能だという絶対に恐ろしい可能性について学びました。そうすると、それらは私たちの免疫システムから完全に見えなくなります。

だから私たちは基本的に生きたまま食べられることになり、私たちのDNAを変える以外に基本的に治療法はありません。もしそのようなことが数年後に誰でも簡単にできるようになれば、これらは私たちが負担できないリスクです。

ヨシュア・ベンジオさん、ご参加いただき、この非常に重要な問題について声を上げ続けていただき、ありがとうございました。時々懐疑的な調子を出しましたが、あなたの説明にはかなり謙虚になりました。引き続きお話を続けさせていただきます。BBC News Nightにご出演いただき、ありがとうございました、教授。

ありがとうございました。