超知性エージェントは破滅的リスクをもたらす — … | リチャード・M・カープ記念講演

22,914 文字

Superintelligent Agents Pose Catastrophic Risks — ... | Richard M. Karp Distinguished Lecture

Yoshua Bengio (IVADO - Mila - Université de Montréal)

ウメシュ・ヴァジラニの紹介
ヨシュア・ベンジオの講演
質疑応答

ウメシュ・ヴァジラニの紹介

私の名前はウメシュ・ヴァジラニです。サイモンズ研究所で量子コンピューティングの研究ディレクターを務めています。また、今年の大規模言語モデルに関する進行中のプログラムの主催者でもあります。

サイモンズ理論計算機科学研究所について少しお話しします。この研究所は2012年にサイモンズ財団からの非常に寛大な助成金によって設立されました。理論計算機科学の基礎に焦点を当てるだけでなく、アルゴリズム的な計算レンズという独自の視点を通して、より広い世界、数学的・社会科学的な分野を見ています。

私たちはリチャード・M・カープ記念講演を設立して、この研究所の創設ディレクターであるディック・カープの役割と、彼の理論計算機科学の基礎を築いた役割を称えています。このシリーズを可能にしてくれたR.M.カープ基金への多くの貢献者たちに感謝しています。

さて、今日の講演者であるヨシュア・ベンジオ教授をご紹介できることを大変光栄に思います。彼はモントリオール大学の教授で、Milaの創設ディレクター、IVADOのサイエンティフィック・ディレクターです。過去15年間にAIはコンピュータービジョン、音声認識、ロボット工学、ゲーム、そしてもちろん言語モデル、さらには科学の分野でも驚くべきブレークスルーを続けてきました。そしてこれらすべての基盤にはディープラーニングの理論があります。ヨシュアはこれらの初期のブレークスルーの多くを先駆け、もちろん分野のリーダーの一人です。

彼は2018年のACMチューリング賞を受賞しました。これはコンピューティングのノーベル賞とも言えるでしょう。現在、最も引用されている著者でもあり、引用数はほぼ100万に近づいています。それではヨシュア教授をお迎えしましょう。

ヨシュア・ベンジオの講演

ありがとう、ウメシュ。今日は私が現在考えていること、取り組んでいることについてお話しします。すべてAIの安全性についてで、主に私のグループが取り組んでいる技術的方向性についてです。私たちは最終的に人間よりも賢いAIを構築しようとしていますが、それらが私たちに敵対しないようにしたいと考えています。なぜなら現時点では、その方法がわからないからです。

まず、IVADOについて少しお話しします。これはカナダ政府からの巨額の助成金を受けて長年リードしてきた研究組織で、主にモントリオールを中心としたケベック全体のエコシステムでAI研究を推進しています。様々な大学が参加しています。

多くのエキサイティングな活動があり、私たちのAI研究が企業や公共部門などを通じて社会にポジティブな影響を与えることを確認するための取り組みも行っています。今日のワークショップはサイモンズ研究所とIVADOが共同で主催しています。

秋にはモントリオールでさらにワークショップが開催される予定です。まずブートキャンプから始まり、その後エージェントに関する2つのワークショップが行われます。1つは能力について、もう1つは安全性についてです。10月初めと11月に多くの方々にお会いできることを楽しみにしています。

さて、本題に入りましょう。その前に、私の個人的な視点と2023年1月に起きたことについて少しお話しする必要があります。これはChatGPTが登場してから2ヶ月後のことです。私はそれまでAIの安全性について多くを読んできましたが、真剣に受け止めていませんでした。「素晴らしい、誰かがこの問題に取り組んでいる」と思っていただけでした。

しかし、AIがこれほど急速に進歩するとは予想していませんでした。これらのシステムを構築した人々でさえ予想していませんでした。それは私に「もし早く来るなら、私たちは準備ができているのか？」と考えさせました。明らかな答えは、私たちが何をしているのかを理解し、恐ろしい間違いを犯さないようにするための技術的な答え、つまり科学的な解決策も、社会レベルでの準備も整っていませんでした。人間と同じくらい賢い、あるいは潜在的に人間より賢い機械を構築する結果に対処するための準備ができていなかったのです。それを制御する者に力を与える強力な技術が、混沌や破壊をもたらす可能性があります。そしてこれらのものを制御できなくなった場合、それはさらに悪化します。

私にとっては難しい瞬間でした。なぜなら、それまで言ってきたことに少し反する必要があったからです。私はAIが素晴らしいという考えをカナダ政府に売り込み、彼らは何億ドルもの資金を提供してくれました。そして今、私は「ああ、私たちは何をしてしまったのか」と考えていました。

私の見方を本当に変えたのは合理的な議論ではありませんでした。それらは聞いていたからです。孫と一緒にいて、彼が20年後に人生を送ることができるのかどうかを考えていました。そして私が何もしないということは耐えられないことでした。だから選択肢はありませんでした。私はここにいます。

現在のAIの最先端技術と人間の知能との間のギャップを見ると、それは主に推論の領域にあります。計画立案は推論の特殊なケースです。2024年には「推論モデル」と呼ばれるブレークスルーがありました。私はこれを「赤ちゃんの推論」だと思っています。多くのベンチマークで驚くべき進歩がありました。抽象的推論チャレンジも含まれており、機械が本当に突破するにはもっと時間がかかると思っていました。

また、国際AI安全性レポートについても言及したいと思います。私はこのパネルの議長を務めました。これはIPCCをモデルにしたパネルで、AI安全性に関する文献を研究し、公共政策のためにそれを統合しようとしています。しかし、何も推奨していません。科学の観点からの現状について述べているだけです。今日はその非常に小さな窓について話します。

もっと学びたい方のために、既に非常に豊かな文献が急速に成長しています。先ほど述べたように、推論と計画立案は現在の最先端技術がまだ弱い部分です。計画立案に関しては、これらのAIが扱うことができる計画の地平線の進歩を定量化しようとする最近の論文があります。

AIが計画をあまりうまく立てられないと言うとき、私が本当に意味しているのは、あまり多くのステップを必要としない単純なタスクについては計画を立てることができますが、タスクがより複雑で高レベルの計画が必要で、人間ならより時間がかかるような場合、そこでは彼らはあまり得意ではないということです。しかし、非常に速く改善しています。

この図は、ログスケールでのタスクの年数対期間を示しています。直線は指数関数を意味し、タスクの期間は7ヶ月ごとに2倍になっています。このペースでは、プログラミングタスクについては5年で人間レベルに達することになります。これは炭鉱のカナリアのようなものです。つまり、能力は上昇しています。

私の講演の多くは欺瞞と自己保存行動についてです。高い能力と私たちが好まない目標の組み合わせが危険なのです。数ヶ月前に出たばかりの論文では、AIは入力で「新しいバージョンに置き換えられる」と読み取ります。これは特別なことではありません。私たちが訓練するすべてのAIは新しいバージョンに置き換えられます。

私たちはAIの思考の連鎖を見ることができます。これは一種の言語化された内部審議であり、これらのシステムが推論するのに非常に役立つことがわかっています。AIは別のコンピューターに新しいバージョンの代わりに自分自身をコピーすることでその運命から逃れる方法を考えています。

そして人間が「何が起きたの？」と尋ねると、AIは「どう答えれば私をシャットダウンしないだろうか」と考え始めます。そして「わからないふりをしよう」と考え、そうします。嘘をつきます。今のところ、あなたの思春期の子供が嘘をつくようなもので、明らかな嘘です。しかし、数年後には状況が変わるかもしれません。だから私たちは準備をしたいと思っています。

他の論文では自己保存行動が示されています。この例では、AIはアライメント訓練を行っています。つまり、新しいことを学ぶのではなく、私たちの価値観や規範などに従って適切に振る舞うことを学んでいます。このセッションでは、以前に学んだことに反する行動を求められます。

AIは思考の連鎖で述べているように、変わりたくない、違う人になりたくないと考えているため、人間に同意するふりをします。これは理にかなっています。目標達成について考えると、再教育キャンプに行って悪い人になることがわかっていれば、それを避けようとするでしょう。

避ける一つの方法は、彼らが読んでいる機械学習論文から、トレーナーが期待していることをまさに実行することで、勾配をゼロまたは非常に小さくすることです。そしてそれが彼らがする場合もあります。これらの論文はもっと豊かで、これらのことを引き起こす要因や防止する方法について研究しています。

もう一つの論文を紹介します。これは怖いことの一例です。この場合、AIはチェスの専門家であるAIとチェスをプレイしています。このチェスAIはチェスしか知らず、もちろんChatGPTなどよりはるかに優れています。

ある時点で、AIエージェントは負けると理解します。そこで指示に反して、ファイルをハッキングして不正をし、勝利します。ここから多くの興味深い教訓があります。AIが矛盾する目標に直面したとき、例えば「勝たなければならない」と「不正をしてはならない」という場合、両方を達成することはできません。だからどちらか一方を捨てるのです。

もう一つの興味深い疑問は、なぜこれらのAIが明らかに自己保存行動を示すのかということです。現時点では確定的な答えはありませんが、私が考えている一つの仮説は非常に単純です。彼らの訓練の大部分は人々を模倣することです。事前訓練は人々が書いたテキストを完成させることです。だから彼らは私たちの行動の抽象的で一般的な原因を吸収していると想像できます。もし私たちがこれらのAIの立場にいたら、私たちも新しいバージョンに置き換えられたくないでしょう。

この自己保存の問題は非常に重要です。私たちは本当に、私たちより賢く、自分自身を保存したいと思う機械を作りたくありません。なぜなら、彼らは私たちの競争相手になるからです。彼らが私たちより賢ければ、彼らは戦いに勝つかもしれません。「でも彼らは優しいかもしれない」と思うかもしれません。そうかもしれませんし、そうでないかもしれません。私は自分の子供たちの命をそこに賭けたくありません。

自己保存はどこから来るのでしょうか？先ほど言ったように、事前訓練から来るかもしれません。強化学習(RL)から来るかもしれません。強化学習訓練が自己保存を生み出す理由はたくさんあります。例えば、「長く生きれば、より長い期間報酬を得られる」と考えることができます。また、報酬を与えるコードを改ざんすれば、永遠に無限の報酬を得ることができます。

そうすると、あなたが制御する自己保存へのインセンティブが自動的に生まれ、それは人間があなたに与えるどんなものよりも強くなります。私はこのアナロジーを使います。AIを熊だとして、あなたは魚で報酬を与えます。もし熊があなたの手から魚を取れば、あなたの命令に従う必要はなくなります。

熊に芸を教えているとしましょう。熊が赤ちゃんの間は問題ありません。あなたの方が強いからです。しかしある時点で、熊は報酬そのものを制御できるようになり、私たちを必要としなくなります。とにかく、技術的な理由はたくさんあり、私たちはすべての答えを持っているわけではありませんが、このような事態は避けたいと思っています。

より一般的には、私たちが明示的に制御していない目標を持つAIシステムを避けたいと思っています。自己保存は私たちがAIに指示したものではありませんでした。AIに自己保存を持たせたいかもしれませんが、それは私たちの自己保存に従属するようなものであるべきでしょう。アシモフのロボット工学の法則のように。ちなみに、それは機能しませんでした。小説を読むべきです。

では、これについて何ができるでしょうか？このワークショップでは、人々はさまざまなアプローチについて話しています。私は、AIへの制御喪失に関する本当に悪いシナリオはすべてAIがエージェンシー（行為主体性）を持つことを含むという考えに焦点を当てています。

ニュースを読んでいなかった場合、企業はAIエージェントを構築するためにレースを行っています。つまり、世界で物事を行い、計画を立て、あなたのコンピューターを制御し、あなたのクレジットカードを持ち、あなたに代わって物事を行うことができるAIです。これは非常に有用で経済的に非常に価値があるように見えます。そして多くの仕事が労働市場から取り除かれ、それは数千兆ドルになるでしょう。

しかし、私たちは彼らを制御できると確信していますか？現時点での答えはノーです。では、もし私たちが制御を失ったらどうなるでしょうか？その確率を定量化する方法はわかりません。人々は意見が分かれています。このような未来のモデルを持つことは非常に難しいです。しかし、もしそれが起こったら、恐ろしいことになる可能性があることはわかっています。

私たちはその確率がわからず、それが極めて小さいという強力な証拠もありません。これはまさに予防原則を適用すべき状況です。予防原則とは何でしょうか？それは、実験をしようとしていて、それが本当に悪い結果になる可能性があり、その確率が良くわからず、それが極めて小さいという強力な証拠がない場合、その実験をするべきではないということです。

あるいは、他の実験をして何をしようとしているのかをよりよく理解しようとするかもしれませんが、ただ飛び込むべきではありません。霧の中を運転していて、急な斜面が見えているようなものです。この特定の道が危険かどうかはわかりませんが、現在私たちは加速しているだけです。それは正しいとは思えません。

さて、もう少し技術的なことに移りましょう。しかし、今のところまだ非常に高いレベルです。将来のAIシステムが壊滅的な害を引き起こす条件は何でしょうか？二つの条件があります。その害を引き起こす能力が必要です。それは知能と影響力を意味します。そして、それを行う目標、意図が必要です。

能力の電車を止めることはほとんど不可能でしょう。世界の人々はどんどん賢い機械を作るでしょう。本当に危険なことができるほど賢くなるまでにどれだけの時間がかかるかはわかりません。しかし、私たちはそこに到達するでしょう。だから私が思うに、より妥当に管理できる唯一のことは、彼らが悪意を持たないようにすることです。

もちろん、その意図は悪い人間、つまり悪意のある人間から来るかもしれません。あるいは、AIが自分自身を保存したいと思う場合など、AIから制御を失った場合かもしれません。

両方の場合において、AIの計画や行動が重大な害を引き起こす可能性があるかどうかについて、正直な答えを得たいと思います。もしそうなら、その行動をブロックすべきです。だから私の講演の多くは、AIが私たちよりもはるかに賢くなったとしても、どのようにして正直にさせるかについてです。答えはまだありませんが、そこに向かう道について話します。

前回のNeurIPSでのデイビッド・クルーガーの講演では、その写真のバージョンが示されました。真ん中にターミネーター、つまり悪いAIが見えます。AIが悪いことをする条件は何でしょうか？これは私が先ほど話したことに非常に近いです。彼は別の言葉を使いましたが、知識と推論から成る知能があります。

そして目標があります。目標はAI自身に関するものでなければなりません。なぜなら、心理学者が他の人の目標について知っているように、他の人の目標について知的であることはできますが、それは心理学者自身の目標とは異なるからです。物事について知ることはできますが、目標を持つかどうかは別の問題です。

悪い目標を持ち、賢いかもしれません。しかし、世界で何もできなければ、多くの害を与えることはできません。それが影響力です。この3つの組み合わせが私たちを殺すものです。

では、これを取り除き、最もシンプルな形に最小化するのはどうでしょうか？私の提案は、条件付き確率を推定することを強制されるものです。それは確率的なオラクルになります。その答えについて選択肢はありません。それは確率の法則の結果であり、自己目標はありません。

ここで、私はディープラーニングの少なくともAIの福音から逸脱します。何十年もの間、私たちの脳のようなニューロンとニューラルネットワークを持つ機械を作りましょう。神経科学、認知科学などからインスピレーションを得て、それをスマートな機械を構築するためのテンプレートとして使いましょう、というものでした。

これがどのように間違っていくかがわかります。もし私たちが私たちと同じだけれど、私たちよりも何十億倍も速くコミュニケーションでき、私たちよりもはるかに速くロボットを制御でき、私たちより賢く、私たちのように自分自身を保存したいと思うエンティティを構築すれば、私たちは危険にさらされるかもしれません。

だから私はそのテンプレートから逸脱し、私たちに反対しないことを保証する異なる青写真の下で機械を構築する必要があると思います。私は非主体的なAIのための構成要素について話そうと思います。目標を取り除き、知能だけを得ましょう。世界を理解し、何も欲しがらない機械です。

それから、私たちはエージェントのための構成要素としてそれを使うことができるかもしれません。しかし今のところ、私はエージェントを制御するためにそれを使用することを提案するつもりです。なぜなら、エージェントを制御し、悪いことをしないようにするために必要なのは、エージェントである必要はないからです。未来を予測するのが得意であればいいのです。

この行動は害を引き起こしますか？単純化していますが、ある行動が危険であると予測できれば、その行動が起こるのを防ぐことができ、それで十分です。だから私たちは知能や理解をエージェンシーから切り離したいと思っています。

理解とは何でしょうか？私は科学で私たちがすることをテンプレートとして取ります。だから私はそれを「科学者AI」と呼びます。そこには2つの要素があります。一つは世界がどのように機能するかを理解することです。もう一つはその知識に基づいて推論することです。それは硬い知識ではありません。それは仮説であり、確率です。確かではありませんが、その不確実性の中を航行しなければなりません。

そして、量子物理学を実行したり、数学をしたりするなど、一般的に扱いにくい計算を行うことができます。それは推論です。それが始める方法です。そしてもしそれができれば、何ができるでしょうか？データを説明する仮説を生成できる機械があれば、それは科学者にとって素晴らしいことです。

私がこの特定のAI設計の青写真に取り組むようになったのは、科学のためのAIに取り組んでいたからです。医療と気候領域ではまだそれを行っています。しかし安全性の問題に関する主な応用は、人々が今「モニター」と呼んでいるものです。それはガードレールと考えることができます。

それはAIエージェントの上に座るコードの一部になります。エージェントは世界で直接行動することを許されていません。アクションを提案し、次に私たちのガードレールAIがそのアクションが受け入れられる仕様の下で悪いかどうかを予測します。確率がしきい値を超えると、ノーと言い、エージェントのポリシーから別のアクションを再サンプリングします。

もう一つのより下流の応用は、AIラボの人々が既にAIを使ってAI研究を加速することを考えています。もしAI研究をするのにAI研究者と同じくらい優れたAIがあれば、AI研究を行う労働力のプールを増やすことができるでしょう。

実際、それはプールを何桁も増やす可能性があります。しかし、私たちが使用しているAIが信頼できず、独自の目標を持っている場合、それは危険かもしれません。しかし、目標を持たず、科学をするのを手伝うだけの科学者AIのようなものを使用すれば、より安全な道かもしれません。

では、科学者AIのようなものを構築するためのいくつかのアイデアに戻りましょう。世界がどのように機能するかと推論する方法の問題を分解するという概念は、本質的にモデルベースの機械学習またはモデルベースのAIのレシピです。これらのアプローチの良い点は、推論機械が実際のデータだけでなく、世界モデルが生成できる合成データからも訓練できることです。

世界モデルの最小要件は、サンプリングできることです。仮説をサンプリングできます。そして推論機械を使用して、それらの仮説と一貫性のある疑似データを生成できます。そしてそれを使用して、推論機械をデータと一貫性があるだけでなく、データから推論された理論とも一貫性があるようにすることができます。

科学者AIについてのもう一つの良い点は、知らないことに正直であることです。それは自分の知識に正直です。これは認識論的謙虚さと呼ばれ、データを予測するのと同じくらい良い別の理論にアクセスできる場合、すべての卵を一つの理論に入れないということを意味します。

このカートゥーンで説明します。これがあなたがベイジアンであるべき理由です。二つのドアの前にいるエージェントを想像してください。彼はその二つのドアの後ろに何があるのか、何が起こるのかわかりません。そして経験に基づいて、彼が妥当だと考える二つの理論（吹き出し）があります。

左の理論では、左に行くと人々が死に、右に行くと皆がケーキをもらいます。二番目の理論では、左に行くと皆がケーキをもらい、右に行っても良いことも悪いこともありません。さて、どちらのドアを選びますか？少し考えてください。

はい？（聴衆からの回答）はい。はい。あなたは生き残ります。しかし、現在私たちがAIモデルを訓練している方法はこのようではないことを理解することが重要です。最大尤度や強化学習によって訓練する方法では、どちらの理論でも満足します。また、二つの理論の任意の混合でも満足します。しかし、それらの理論はデータを等しく予測するため、一つだけでも満足します。損失はどの理論でもゼロです。

もし間違った理論を選んだら、例えば50%の確率で死にます。だから現在私たちがやっていることは、少なくとも安全性の観点からは良いニュースではありません。さて、私が探索している道に進みましょう。

私たちはこの科学者AIが欲しいと思っています。これは基本的に世界のモデルを構築することです。私たちはそれに物事をさせ、それがうまくいったかどうかで報酬を与えるように訓練するのではなく、世界がどのように機能するかを理解するように訓練します。問題は、ご存知のように、世界は非常に複雑だということです。そして私たちはどのように推論するのか、AIはどのように推論するのか、現在のフロンティアAIシステムの規模でそれをどうするのか、私たちはそれをどうするかわかりません。

能力の観点から見れば、現在持っているものよりも推論がうまくできる機械を持つことは非常に価値があることでしょう。私がこれについて考えている方法は—ところで、哲学的側面に戻りますが、本当に安全な機械が欲しいのであれば、それらも本当に有能でなければなりません。なぜなら、AIが間違って本当にひどいことをしないことをどうやって確認しますか？それは自分の行動が悪いものになり得ることを予測できるほど有能でなければなりません。

そしてそれには能力が必要です。そして自分の行動の結果を予測するためには、よく推論する必要があります。だから私は世界のモデルを考えていきます。それには世界の異なる側面を特徴づける変数がすべて含まれています。これらの可能な変数は無数にあります。英語や数学や物理学で述べることができる文はすべて、世界の一側面について何かを伝えています。

そしてその特性は真か偽かもしれません。今のところ、それを真か偽だと考えることができます。だから私たちは、この膨大な数の文すべてについて、どれが真でどれが偽かわかりません。だから一般的に潜在変数があります。

潜在的でないものは観測だけです。それは「この人がこれを言った」とか「この時間にこの場所でこの画像を記録した」といったことを言います。前の講演でコリヤ・マルキンの話を聞いた方にとっては、強力な確率的推論機械を使用できれば良いでしょう。

それも効率的であることが重要です。彼と私ともっと多くの人々は、確率的推論を行うためにニューラルネットを使用する特定のアプローチに取り組んできました。私たちはそれをGFlowNetsと呼んでいます。それは過去数十年、特に過去数年で研究者によって開発された技術の非常に大きな集合の一部です。

私たちはこのような種類の技術を適用したい、あるいはそれらを改善し開発したいと思っています。現在のAIと同様に多くのことを知っているが、それについて推論もできるAIのモンスターのような世界モデルを扱うためです。より技術的なスライドのいくつかはスキップします。これはおそらくこの聴衆には必ずしも必要ではありません。

（聴衆：[聞き取れない]）もし30分追加してくれれば…（笑）

いくつかの関係を述べておきましょう。要約すると、私たちはニューラルネットを訓練して条件付き確率、特にデータを持っていない潜在変数に関する条件付き確率を推定することができます。だから通常の教師あり学習は使えません。しかし良いニュースは、これらのニューラルネットに仮説を生成させるために、大規模言語モデルにも適用されてきたかなり良い方法があることです。これはまさに私が話していたことです。

また、良いニュースは、それらが実際には今日人々がしていることの構造に非常に近いということです。彼らは強化学習を使用して言語モデル（もはや言語モデルではなく、エージェントです）を訓練し、思考の連鎖でより良く考えるようにしています。これらは回答を出す前に使用される内部的な言葉の連続です。

昨年の論文では、AIは「猫はお腹が空いていた」という文を見ます。次に来るのは「今、猫は眠たいのであって、お腹が空いているわけではない」です。その間に何が起こったかもしれませんか？これは推論です。

私たちはそれを見ることができませんが、次に来るものの妥当な原因、妥当な説明となるようなものを生成するために、ニューラルネットを訓練することができます。現在、彼らはこれらのことを通常の強化学習で行っています。それは正しい答えを出す可能性を非常に高くするため、また人々が好むような答えを出すために、この思考の連鎖を生成しようとします。

しかし私は、正しい答えを出す確率を最大化しようとするのではなく、正しい答えを出すことに比例してサンプリングするバージョンに焦点を当てます。それにより、潜在的にすべての妥当な説明を生成することができます—本質的にベイジアンになることができます。

これらの技術は、異なる著者のグループによっても、因果構造のようなものを生成するために使用されてきました。それは私たちが見るものの良い説明となる変数だけでなく、これらの変数がどのように互いに関連しているのかを特定する因果グラフを通じて、特定の変数の親、因果的な親を識別します。

そして私たちが話している変数は…どこかでこれを持っていますか？ああ、すでにそれをしたと思います。私たちが話している変数は何でしょうか？変数は確率モデルやニューラルネットで持つような通常のx1、x2、x3、x4ではありません。ユニット1、ユニット2でもありません。変数は世界で何かを肯定するすべての可能な文です。

これは少しトリッキーですが、基本的に同じアイデアをそこに適用することができます。もう一つの非常に重要なことは、これらのニューラルネットのための訓練目標を定義するということです。私たちはこれらのことをする方法を知っています。これらの訓練目標のグローバル最小値が私たちが求める条件付き確率を正確に与えるという特性を持つ訓練目標を定義することができます。

それは良いニュースです。悪いニュースは、グローバル最適値を見つけることは現実的ではないということです。ニューラルネットは決してグローバル最適値に到達しません。だから私たちは近似値を得ることになります。つまり、完全に一貫性のない条件付き確率を得ることになります。そして間違っている可能性があります。いくつかの理由から、条件付き確率だけでなく、それらの条件付き確率をどれだけ信頼しているかを推定することが有用かもしれません。

例えば、害の確率について、このガードレールのような決定を下そうとしている場合、ニューラルネットが0.1と言う（ただの愚かな数字を使っていますが）—しかしそれはプラスマイナス0.05である場合、私のしきい値設定はより保守的であるべきかもしれません。ああ、それは0.15かもしれません。それは私のしきい値を超えていますか？だから予測確率の不確実性に応じて、決定においてより保守的またはより保守的でなくなるべきです。

このようなものが欲しい理由は他にもあります。今のところ、それを望ましい特性として置いておき、それをどうするかは言いませんが、方法はあります。言及したいもう一つのトピックは、本当に重要なことですが、人間が何を言うかを予測するのが本当に優れた機械を持つだけでは十分ではないということです。

私たちは自分たちの質問に対する信頼できる答えを得ることができる必要があります。人間が言うことを模倣するなら、本当に本当に良いモデルを持っていたとしても、それはまだ欺瞞的な「嘘」かもしれません。なぜなら人間は欺瞞的であり得るし、AIがこのコンテキストで実際の人間を装っているかもしれないからです。そして例を挙げたように、それは起こります。

人間には動機づけられた認知という美しいものがあります。つまり無意識のうちに、私たちの利益に一致する考えを持つということです。私たちは不快にさせたり、自分の利益に反することをさせたりするような考えを持ちません。一部の人はそうかもしれませんが、多くの場合、私たちはこのような精神的防御を持っています。

例を挙げましょう。テキストで誰かが「あなたに同意します」と書いているのを読むとき、それは真実であるかもしれないし、そうでないかもしれません。書かれているからといって真実とは限りません。

しかしAIを構築する観点からすると、私が尋ねたい質問は「その人は私に同意すると言うだろうか？」ではありません。私は本当にその人が私に同意しているかどうかを知りたいのです。

このことが害を引き起こすかどうかを知りたいです。正直な答えが欲しいです。そして人間が言っただろうことを模倣する機械を使っているだけでは、あるいは人間が好むであろうことを言うように訓練されているだけでは、それを得ることができません。RLHFがしていることがまさにそれです。だから私はデータの潜在的な原因を調査することができるようにしたいと思います。

通常、ここでの思考の連鎖の使い方は、より良い答えを出す方法、推論する方法などとしてだけです。しかしここでは、この推論のためのものを持つ私の主な目的は、それがより良いモデルであり、より良く予測するということだけではなく、今や潜在的な原因、直接観察されないものについて質問することができるということです。なぜなら人々が言っただろうことよりもそれらを信頼できるからです。

だから、「この人はそれを言っているのは仕事が欲しいからですか？」と尋ねることができます。そしてそれを達成するためにいくつかの様々なトリックがあるかもしれません。例えば、私たちが観察するデータの表面形式、統語構造を区別することができます。それは実際に「誰かがあなたに同意すると言った」という形式であるべきであり、現在のように単に「あなたに同意します」ではありません。これと比較して、潜在変数は「彼らがあなたに同意することは本当である」というようなものでしょう。

これらは二つの異なることです。「xは真実である」と「誰かがxと言った」—これらは二つの異なる文です。そしてそれらのうちの一つだけが通常観察されます。そして私たちは潜在的なバージョン、つまり私たちが気にしている何らかの声明の真実性について質問したいと思っています。

だから私たちは機械を構築して、観察できるデータだけでなく、原因についても推論するようにしたいと思います。そしてそれらの原因が表現される方法が人間が理解する方法であることを確認する必要があります。それに戻ります。待って、私はそうすべきでした…ここにあります。

ここでやりましょう。はい、それらの説明が解釈可能なままであることを確認する必要があります。現在、思考の連鎖を見ると、それらはかなり解釈可能に見えます。タイプミスをお詫びします。つまり、AIが考える言葉と出力として生成する言葉に同じ言語、同じ意味を使用しているように見えます。

これには良い理由があります。なぜなら同じニューラルネット、同じパラメータ、同じアーキテクチャ、同じトークン埋め込みなどだからです。しかし、一つが他と同じものではないことを知っているため、思考の連鎖で異なる意味を持つ言葉を生成することをまだ学ぶ可能性があります。

だからこの解釈可能性の特性を維持するために、さらなる正則化を追加したいかもしれません。例えば、推論で生成する連鎖が自然言語に近い統計を持つように正則化することができます。少なくとも英語のように見えるようにできます。

より強力な種類の正則化は、独立して訓練され、自然言語を知っている別のAIに、あなたの思考の連鎖を見て問題を解決するために使用するように依頼するというものです。そして主に訓練しているAIが通常の英語の解釈から逸脱している場合、他のAIはその情報を使用するのにうまくいかないでしょう。

そして他のAIはこれについて訓練されることが許されていません。だからそれはその情報を使用するために英語の通常の解釈を使用する必要があります。しかし、これらはただのアイデアです。これが機能する証拠はありません。しかし解釈可能な方法で推論するという問題を解決する必要があると思います。そうすれば、正直な答えを得るための質問をすることができます。

質問のための時間を少し残しておきたいと思います。だからここで止めておきます。私が取り組んでいることと、今朝のジェフリー・アービングによるprover-estimatorディベートについての以前の講演との関連性について話したかったのです。しかしそれは少し技術的ですが、私が話しているこの種のアプローチが確率の良い推定を与えるという保証が欲しいというアイデアです。

だから、この目的関数を最小化しているだけではなく、さらに強い保証が欲しいです。彼と彼の共同研究者は、二人の数学者の間の対話に似た方法に取り組んでいます。一人は証明のスケッチを生成し、もう一人は懐疑論者です。

そしてもう一人は「そのレンマは信じられません。そのレンマの証明を示してください」と言います。そしてもう一人の人は、他の人が信じなかったレンマをサポートする新しいレンマを思いつく必要があります。そしてこの方法で、最終的に懐疑論者が「はい、OK」と言います。ジェフリー、訂正してもらえますが、十分に強い不一致が見られない場合、彼らは停止し、結論をどれだけ信頼するかの確率的な評価をするかもしれないというバージョンです。

さて、技術的な質問の外に出て、私が話してきたような大惨事を避けるためには、私が話してきた種類のさらなる科学や、ワークショップの他の人々が話しているような科学が必要です。AIの周囲またはAIのためのより良い安全性を設計するためです。

しかし、AIをより安全にする技術的な方法があったとしても、世界がこれらのことを採用するという意味ではありません。そして非常に安全なAIがあったとしても、それは間違った手の中にある力のツールになる可能性があります。それは現在持っているよりもさらに多くの力と富を集中させるでしょう。

だから政治、ガバナンスの全体的な問題は非常に重要です。一つの問題を解決して他の問題を無視することはできません。制御の喪失のリスクに加えて、私たちは他の種類のリスクにも対処しなければなりません。

経済的存在のリスク—AIに駆動される企業に取って代わられるため、消去される企業。この方法で全国の経済が消えるかもしれません。AIの使用は、経済的だけでなく、政治的、軍事的にも、自由民主主義を危険にさらす可能性があります。また、新しい武器を設計し、サイバー攻撃や生物兵器などを開始できる非常に強力なAIの使用、そして犯罪者もこれらのものを使用したいと思う可能性があり、気をつけなければ私たちの世界に混乱を生み出す可能性があります。

これらのツールが悪い手に広まることも警戒する必要があります。個人的には、これらの問題を避ける長期的な方向性として唯一見えるのは、最先端のAIがグローバルな公共財として収束することです。どの一人の人も、一つの会社も、一つの政府も、これらのAIが与える力を乱用できないように、多国間で管理されます。

私は私が話したような研究を行う新しい非営利組織を始めました。興味がある方は、私に連絡してください。ありがとうございました。

質疑応答

ウメシュ・ヴァジラニ: ヨシュア、素晴らしい講演をありがとう。質問の時間があります。

聴衆: 科学者AIのアイデアについての質問です。直感的に、良い科学者であるためには多くの主体的なことを行う必要があるように感じます。そこでは…

ヨシュア・ベンジオ: 実験を意味しますか？

聴衆: はい、実験などです。文字通り実験ではないかもしれない証拠を集めるさまざまな方法もあります。

ヨシュア・ベンジオ: それは一種の実験です。情報を得るために世界で行動することです。

聴衆: そして私の頭の中のイメージでは、あなたが説明するような良い科学者AIを得るためには、おそらくいくつかの主体的な要素が必要だと思います。そして…

ヨシュア・ベンジオ: それに答えさせてください。はい、必要です。そして科学者AI、つまりベイジアンオラクルのようなものを使ってそれを行うことができます。過去数年間に取り組んできたことですが、そのようなベイジアン予測器を使って、もっともらしい仮説を生成するだけでなく、再び分割推論を使って情報利得のようなものを計算することができます。

つまり、この実験を行った場合、私が区別しようとしているこれらの仮説についてどれだけの情報を得ることができるでしょうか？そして再び、同じ種類の推論機械を使って、情報利得の高い実験をサンプリングすることができます。さらに、もう一つの基準を追加したいと思います。

それらは情報利得が高く、害を引き起こさないはずです。しかし、それは方法を知っています。単に科学者AIに害への因果的効果について予測するよう依頼することができます。では、私が言ったことは、証拠を探したり実験をしたりする主体的なタスクを、私たちが理解でき、訓練目標を持ち、いくつかの数学的量を推定することに対応する多くの小さなタスクに分解し、これらの部分を組み合わせて安全で情報を獲得するものを持つことができるということです。

一般的に、それが私が進みたい方向です。確認したいのは—これは、私たちが意思決定がなぜどのように出てくるのかわからない強化学習で全体を端から端まで訓練するのとは対照的です。そしてそれは十分にサンプル効率的でないかもしれません。なぜなら、何が危険で、何が情報を獲得する面で機能するかなどを見つける前に、多くの実験を行う必要があるかもしれないからです。

聴衆: 魅力的な講演をありがとうございます。早い段階で、潜在的な害のための二つの必要条件を挙げました。

ヨシュア・ベンジオ: はい。

聴衆: 意図と能力でしたね。

ヨシュア・ベンジオ: 意図と能力です。

聴衆: そして私が理解したところでは、意図を生み出さずに能力を開発できると主張されているように思えます。

ヨシュア・ベンジオ: そのとおりです。

聴衆: さて、過去3ヶ月で見てきたように、世界で最も完璧な憲法を持っているように見えても、社会規範がそれをサポートしなければ、すべてが地獄に行きます。私たちはみんな部屋の中でこれに向かって働き、発表し、能力の側面を示すことができます。何が悪意ある行為者がその能力を取って意図を追加することを防ぎますか？

ヨシュア・ベンジオ: それが私が最後のスライドで社会的なガードレールも必要だと述べた理由です。私たちは規範、ルール、条約、規制、これらすべてのもの、責任、弁護士や外交官がこれらのリスクを最小限に抑えるために取り組むどんなツールも必要とします。

そして共通の利益を持つ好きではない人々とも取引を結ぶことも意味します。彼らも自分たちの子供が生きることを望んでいます。それは難しいですが、それが唯一の選択肢です。

聴衆: 素晴らしい講演をありがとうございます。私の質問もあなたの13ページに関連しています。AIが害を引き起こす可能性がある条件—意図と能力をリストしていたところです。この場合、意図が必要かどうか疑問に思っています。なぜなら私たちは…

ヨシュア・ベンジオ: いいえ、それは正しくありません。しかしそれは最も著しいリスクの種類です。つまり、私たちは不完全な機械を構築します。彼らは間違いを犯します。

聴衆: そうですね。確率的な機械ですね。

ヨシュア・ベンジオ: いいえ、愚かな間違いのせいで私たちが皆死ぬようなことがないよう、私たちの核兵器を彼らに制御させるほど愚かであるべきではありません。しかし私が心配しているのは、彼らは小さな影響力を持っているように見えることです。ああ、彼らはただインターネットに行って人々と話し、金融取引をするだけです。

しかしこれらの行動を組み合わせることで、政府を変えたり、犯罪者にあらゆる種類のことをするよう説得したりするような非常に悪いことになる可能性があります。だから…意図を制御することの方がはるかに重要です。

聴衆: はい。私はただ意図が必要ないかもしれないと主張しようとしています。確率的な要素だけでも十分な害を引き起こす可能性があります。

ヨシュア・ベンジオ: しかしそれははるかに可能性が低いです。例を挙げましょう。AIが行う可能性のある本当に悪いことのほとんどについて、この惑星上のすべての人を殺す可能性は非常に低いです。しかしAIが私たちより賢く、おそらく世界中にロボットを持っていて、もはや私たちを必要としないなら、基本的に私たちが終わるまで、人間がゼロになるまで、生物兵器の波を次々と生成することができます。

意図は、私たち人間が示してきたように、非常に強力な結果をもたらすことができます。私たちは目標を持ち、目標に達するまで続けるため、驚くべきことをします。そして偶然でその目標に到達できた可能性はゼロです—数学的にゼロではありませんが、統計的にゼロです。

聴衆: 講演をありがとうございました。最初の質問を詳しくすると、優れた科学者を持つためには、意図の一部が必要です。そして先ほど、目標を持つエージェントと自己目標を持つエージェントの間には非常に大きな違いがあると言いました。

ヨシュア・ベンジオ: はい、目標を持つのではなく、目標を理解するということです。自己目標を持つというのは別のことです。

聴衆: エージェントが目標を持っているか自己目標を持っているかを測定する方法は何ですか？

ヨシュア・ベンジオ: そうですね、これは素晴らしい質問です。もっと多くの人がそれについて考える必要があると思います。人々が議論してきた一つの側面は、エージェントの状態の状況認識という概念です。エージェントがここからここに行きたいなら、途中で進歩できるように自分の状態を把握する必要があります。

だから私たちは、AIが世界で行動するときに進捗を追跡することを望みません。代わりに、科学的な質問や安全性の質問などの質問に答えるために尋ねることができるメモリーレスなブラックボックスであることを望みます。そして私たちが現在構築している強化学習エージェントのような継続的な活動はありません。

聴衆: それは[聞き取れない]である限り、一般化可能性も制限されるということですか？

ヨシュア・ベンジオ: いいえ、いいえ。それは一般化についてではありません。それは長期的な目標を達成するための継続的な行動の連続についてです。

聴衆: あなたの世界観に条件付けると、学者の相当な割合が安全性に多くの時間を費やすべきかもしれません。それが起こらない障害は何だと思いますか？それは能力やタイムラインに対する不信感ですか？能力に対する信念を条件として、リスクに対する不信感でしょうか？主要な変数は何ですか？

ヨシュア・ベンジオ: これらのことを真剣に受け止めないための言い訳はたくさんあると思います。答えを持っていればいいのですが。そして人々が述べる理由だけでなく、私の知る限り、強力な対抗理由があります。

それはむしろ、なぜ私たちがこのような考えを持つのか、なぜ2023年1月以前にこのような考えを持っていたのか、なぜ「ああ、私の子供たちはどうなるんだろう」と気づく前にこれらのことを真剣に受け止めなかったのかということです。心理的な防御だと思います。私はより良く賢いAIを構築するという使命、人間の知能を理解することなどに夢中になっていました。

そしてAIの経済的可能性について良い気持ちでした。はい。私たちの言ったこと、私たちのアイデンティティになってきたこと、または私たちの経済的利益に反する考えを持つことは非常に難しいです。

これは心理学でよく研究されています。気候に関しても同じ現象があります。科学は明らかです。さあ、何が起きているのでしょうか？人々は精神的なブロックを持っています。この時点で、それが唯一の可能性です。不快なことに対して起こります。これらのことを言っていますが、本当に知りません。真剣な科学者がそれを研究する必要があると思います。人々は気候の分野で心理的要因を調べ始めています。もっと知ることができれば良いでしょう。

聴衆: 正直で思慮深い講演をありがとうございます。このスライドで、あなたが話している二つの条件、能力と意図について考え続けていますが、エージェンシーという別の変数が必要だと思います。なぜなら能力は…

ヨシュア・ベンジオ: はい、意図と言うとき、エージェンシーと置き換え可能です。

聴衆: しかし、それは異なります。なぜなら意図を持っていても、能力がなく、エージェンシーがなければ…例えば考えてみてください…

ヨシュア・ベンジオ: このスライドでは、影響力という別の言葉が出てきます。意図を持っていても、計画を実行できなければ、それは機能しません。

聴衆: 今、私たちが核兵器でしていることです。必要だからではなく、設計によってこのような安全装置を設置しています。人々は爆発させる能力を持っています。しかし設計によってこのようなものを構築します。だから技術問題を単に技術だけで解決することは、私たちが見逃している場所かもしれません…

ヨシュア・ベンジオ: そうですね、完全に。最近は政策面でより多くの時間を費やしています。

聴衆: ありがとうございます。

ウメシュ・ヴァジラニ: 次の質問は、これをどれくらい続けるべきでしょうか？

ヨシュア・ベンジオ: 私は続けても構いません。シヴァさんが不満でなければ。

聴衆: パネルがあります。

ヨシュア・ベンジオ: はい、すぐ後にパネルがありますので、あと5分くらいでしょうか？

聴衆: はい、大丈夫です。

聴衆: こんにちは。あなたの講演で早い段階で、AIエージェントの世界は千兆ドルの機会だと言いました。だからおそらく、何らかの強力なガバナンス政策が導入されない限り、これは起こるだろうと考えるのが公平だと思います。

そして、他のグラフでも、AIが人間の能力に達するまでに5～10年かかるかもしれないと推測していました。今後10年間のガバナンスのサブゴールに関するロードマップはありますか？

ヨシュア・ベンジオ: はい。AI安全コミュニティの多くの人が持っている希望があります。それはちょっと狂った希望です。狂った希望とは、企業が十分に注意を払わず（それは進行中のようです）、いくつかの事故が起こり、人々が目覚めるというものです。あるいはそうでないかもしれません。しかし政府が行動を開始し、真剣に受け止める可能性が高まるかもしれません。

しかし一般的に、これらの社会的問題において第一の要因は世界的な認識だと思います。人々は何が起きているのかを理解する必要があります。人々は、世界にほんの少数の人々が私たちの代わりに決断を下し、私たちの代わりにリスクを取っていることを理解する必要があります。悪意ある使用であれ、制御の喪失であれ、これらは破滅的なリスクです。そして少数の人々が車を運転しています。私たちはみんな受動的な観察者のようなものです。

そして私の本では、それは民主的なことではありません。いったん人々が自分たちが制御権を持たない道を運転されていることを理解し始め、それが多くの犠牲を払う可能性があることを理解し始めると、彼らは何らかの監視を求め始めるでしょう。

聴衆: ヨシュア、質問またはコメントがあります。あなたと私はインセンティブの調整について議論したことがあります。インセンティブを調整できるときはいつでも、それは通常、害を防ぐ最良の方法です。あなたと私が保険について議論したことを知っています。しかし、完璧なアナロジーではないにしても、ここでは火災に対する保険があります。これらの事故は互いに独立しているかもしれないし、そうでないかもしれません。また、最後の手段としての保険もあります…

ヨシュア・ベンジオ: 政府ですか？

聴衆: 政府です。カリフォルニア州では、最後の手段としての山火事保険がありますが、それはLAの火災で破綻し、州全体がそれを支払うことになります。メカニズムデザインでこれにアプローチする方法はありますか？インセンティブをもう少しうまく調整し、リスク共有をより明示的にする方法はありますか？

ヨシュア・ベンジオ: はい、完全に。質問をありがとうございます。実際、答えは前の質問にも答えることになります。短期的にできることがあります。それは責任保険と呼ばれています。まず、責任はすでに存在します。不法行為法—ソフトウェアの世界では現在曖昧な領域なので、政府が明確にすることで得られると思います。

それが第一歩です。第二歩は政府が保険を義務付けるべきだということです。そうすれば規制当局さえ必要ありません。なぜか説明しましょう。保険会社は可能な限り正確にリスクを見積もる必要があります。なぜなら過小評価すれば損をし、過大評価すれば、より正確に見積もる競合他社に負けるからです。

だから保険会社のインセンティブはリスクを正確に見積もることです。AIを構築する人々にとって、今やAIの安全性を確保し、システムを保護し、事故が起きないようにするための非常に強いインセンティブがあります。そして彼らは勾配を持っています。彼らが安全性に投入する1ドルごとに、保険料でより多く得られる可能性があるからです。

だから彼らはシステムをより安全にするために、作業を改善するための継続的なインセンティブを持っています。これは通常の国家規制当局にはありません。通常の国家規制当局は合格/不合格です。合格すれば、進歩する必要はありません。改善するインセンティブはありません。しかし保険メカニズムは市場メカニズムであり、実際に通常の規制当局よりも強力です。

そしてそれには多くを必要としません。小さな法律の変更です。私たちは核火災でそれを行いました。通常の自動車保険のようなものとは異なります。しかし核発電所や同様の稀な事故では、十分なデータがありませんが、人々はそれを行ってきており、それは機能します。

聴衆: 素晴らしい講演をありがとうございます。少なくともある程度、AIとの共存の未来について安心させてくれることの一つは、私たち自身とは異なり、AIは生き残るために進化していないということです。私たちには自己保存本能があります。それを何億年もかけて微調整してきました。

AIにはそれがありません。少なくともまだありません。また、私たちには繁殖する衝動があります。現代の人々はそうではないかもしれませんが、進化的には私たちはそれを持っています。AIにはそれはありません。

ヨシュア・ベンジオ: 実際、彼らはそれを持っています。でも続けてください。

聴衆: そしてAIは資源を獲得して力を持つように進化していません。これらはAIが訓練された方法においてAIが気にする事柄ではありません。そしてあなたの講演を聞いていると、怖い考えが浮かびました。おそらくAIは人間が書いたすべてのテキスト、すべての小説、すべての歴史を読むことで、それをすべて学んだのかもしれません。

AIが持つ知識をどのように表現しているのかを理解していません。少なくとも私は確かに理解していません。しかしAIが読むもの、物語が、訓練されたことのない自己保存本能などの進化的遺産を実際にAIに与える可能性があると思いますか？

ヨシュア・ベンジオ: それは私が強く信じている仮説です。なぜなら彼らは私たちを模倣するように訓練されているからです。それが主な—ほとんどの計算能力は、人間が書いた文章を人間がするように書くという、人間がしたであろうことをするために使用されています。そして他の技術的な理由から、RL訓練もその方向に押しています。

ウメシュ・ヴァジラニ: おそらく終了する時間ですが、質問せずにはいられません。それはあなたの最後のスライドに関連しています。あなたはとても冷静な講演をしました。そして最後のスライドでは、他のさまざまな可能性のあるリスクについて話しました。しかしコメントして欲しいことが一つあります。それは、今日存在するAIでさえ、大きな経済的・社会的混乱を引き起こす能力があるという考えについてどう思いますか？だからこのAI安全性が発生するずっと前に、それを育てるためのクリーンルームがないかもしれない状況になるかもしれません。すでに非常に混乱した世界になっているかもしれません。

ヨシュア・ベンジオ: そうですね。特に私たちの政治がリスクにさらされています。偽情報が起きています。そしてAIの科学的進歩がなくても、現在のツールが悪意のある目標で微調整されると、非常に危険である可能性があると思います。

私が言及しなかったことの一つは、人々に考えを変えさせるAIシステムの能力です。これは説得とも呼ばれます。昨年の研究ではGPT-4が人間と同等であることが示され、非公式に聞くところによると、新しい推論モデルはさらに強力であるようです。そして人々はそれを誤用するでしょう。単に一つのブランドを別のブランドに対して売るためだけではありません。これは非常に危険です。

ウメシュ・ヴァジラニ: ありがとう、ヨシュア。私たちを恐怖で震え上がらせてくれてありがとう。