AIのゴッドファーザー:安全な超知能AIの作り方

AIアライメント・安全性
この記事は約110分で読めます。

本動画は、AIのゴッドファーザーと称されるヨシュア・ベンジオ氏が、安全な超知能AIの構築手法について語るインタビューである。強化学習による自律的エージェントの危険性を指摘し、代わりにベイズ確率を用いて事実を客観的に予測する「Scientist AI」の概念を提唱する。技術的な安全性保証の仕組みから、AI開発競争を防ぐための国際的・民主的なガバナンスの必要性まで、多角的な視点で解説している。

Godfather of AI: How To Make Safe Superintelligent AI
The co-inventor of modern AI and the most cited living scientist believes he's figured out how to ensure AI is honest, i...
  1. 安全な超知能AIへのアプローチ
  2. 新しい訓練プロセスと予測器の仕組み
  3. AIモデルの訓練におけるパラダイムシフト
  4. Scientist AIの訓練データと潜在変数
  5. 既存のモデルに潜む危険性と暗黙の目標
  6. データセットの構造と潜在変数の学習
  7. 事実に基づく予測と仮説の構築
  8. 非エージェント的な予測器から安全なエージェントへ
  9. 方策とガードレールの統合訓練
  10. 数学的保証と残された課題
  11. 権力の集中と地政学的なリスク
  12. 開発競争とコスト問題
  13. 今後数ヶ月の取り組みと多様なアプローチの必要性
  14. 設計段階からの安全性と暫定的なデモ版
  15. イタチごっこと安全性へのアプローチ
  16. AIによる真実の表現とELK問題
  17. Scientist AIの訓練アプローチと強化学習の排除
  18. ガードレールとエージェント機能の構築
  19. 実践的応用と継続的学習
  20. 資金調達と今後の実証実験
  21. 汎化と因果構造
  22. グランドトゥルースと社会科学における事実の扱い
  23. 企業のインセンティブとグローバルな民主的ガバナンス
  24. 多国間連携によるAIガバナンスの可能性と課題
  25. 安全なAIモデルの商業的可能性
  26. プロジェクトの展望と社会の理解度
  27. 不確実性と予防原則
  28. 自律的なAI開発に対する要求と実験の必要性
  29. 次世代AIの設計におけるタブーと政策的課題
  30. 対話の難しさと人間の心理
  31. 悲観論やフラストレーションとの向き合い方
  32. 認識の歪みと自己正当化のメカニズム
  33. なぜ私は考えを変えたのか
  34. キャリアの転換と確率的な予測について
  35. オープンマインドと証拠に向き合う重要性

安全な超知能AIへのアプローチ

ロブ・ウィブリン: 本日はヨシュア・ベンジオさんにお話を伺います。彼はLawZeroの科学ディレクターであり、2018年のチューリング賞受賞者、史上最も引用されたコンピュータ科学者であり、さらに言えば、現在存命のあらゆる分野の科学者の中で最も引用されている人物でもあります。番組にお越しいただき、本当にありがとうございます、ヨシュアさん。

ヨシュア・ベンジオ: お招きいただきありがとうございます。

ロブ・ウィブリン: 安全な超知能AIを構築するための正しいアプローチを見つけたと考えていらっしゃいますね。それはどのようなアプローチなのでしょうか。

ヨシュア・ベンジオ: それは、AIに正直さを組み込むことができれば、安全性を確保できるというシンプルな考えに基づいています。つまり、システムを正直になるようにどう訓練するかという問題に帰着させることができるのです。そして、訓練の目的関数とデータの処理方法を変えるだけで、それを実現する方法があることがわかりました。
もう一つの側面もあります。それは、強化学習で訓練されたものではない、予測器という非エージェント的な基盤に依存するシステムであり、こうした正直さの保証を持つことになります。しかしその後、同じような数学的枠組みを用いて方策を構築し、同様の保証を提供する形で訓練されたエージェントを構築することもできるのです。

新しい訓練プロセスと予測器の仕組み

ロブ・ウィブリン: では、その新しい訓練プロセスはどのようなもので、人々がよく知っているモデルとはどう違うのでしょうか。

ヨシュア・ベンジオ: 訓練プロセスの主な違いは、自然言語でのクエリに対するベイズ事後確率を近似するように設計されている点です。思考の連鎖スタイルなど、周囲にいくつかの追加の仕組みを持つニューラルネットワークを想像してみてください。それは世界の特徴に関する記述についての質問を受け取ります。他の記述が与えられた上で、それが真か偽かという質問です。そして、確率を出力します。それが中核となる構成要素です。私たちはこれを予測器と呼んでいます。そして、ベイズ予測器によって大域的に最小化されるという性質を持つ別の目的関数に対して、確率的勾配降下法を使用することができます。言い換えると、データに適合し、かつ記述長が短い予測器ということです。

ロブ・ウィブリン: つまり、ある記述を入力すると、その記述が真である確率を基本的に教えてくれるようなモデルを構築するということですね。

ヨシュア・ベンジオ: はい。コンテキストの中においてですが、その通りです。

AIモデルの訓練におけるパラダイムシフト

ロブ・ウィブリン: リスナーの皆さん、ここで少し私が補足します。ヨシュアはこの提案を、最先端のAI企業のスタッフにとって理想的な形で自然に説明しており、彼らがこの提案の特に重要なターゲットであることは間違いありません。しかし、数分間わかりやすい言葉で説明すれば、他の皆さんもこの後の会話に十分ついていけると確信しています。ですので、少しだけお付き合いいただくか、この手の話にすでに慣れ親しんでいる方は4分ほど先にスキップしてください。
おそらくご存知の通り、現在の大規模言語モデルは、訓練の最初の段階で、次に来る可能性が最も高い単語、あるいは少なくとも次に来る可能性が最も高いトークンを予測するように教えられます。そして第2段階では、強化学習によって、人間が生成したすべてのテキストのコーパス全体で最も確率が高かった単語をただ返すのではなく、私たちが好ましい、あるいは欲しいと言いそうな回答を生成するようにモデルを訓練します。

さて、ヨシュアの代替案は、人間が言いそうなことや聞きたがりそうなことを予測することに重点を置くのではなく、世界で実際に何が真実であるかをモデル化することに重点を置いたAIモデルを構築することです。訓練プロセス中に触れたすべてのデータを最もよく説明することを目標として、仮説を立て、それに確率を割り当てるという手法です。

ヨシュアの主張によれば、今日私たちが通常のLLMを訓練するために使っている手法のほとんどを移植しながら、この種のモデルを訓練することが可能であり、同じニューラルネットワークのアーキテクチャ、訓練技術、スケーリングの改善など、あらゆるものの恩恵を受けることができます。また、他のすべてのAIで使用しているのとほぼ同じ生のテキストデータを使って訓練することもできますが、データの構造化を少し変えて、AI研究者が異なる構文と呼ぶものを与えることができるとしています。

まず、人々が話したり書いたりしたすべての事柄は、コミュニケーション行為としてタグ付けされます。誰かがこれらのことを言ったこと、そしてどこで言ったかはわかっていますが、それが真実かどうかはわかりません。次に、検証済みの数学的証明や一部の科学的測定など、強力な独立的根拠を持つ少数の記述は、世界に関する検証済みの事実に基づく主張としてタグ付けされます。

そしてモデルは、人々が発言したことと、グラウンドトゥルースとして与えられた検証済みの事実の両方を総合的に見て、すべてを最もよく説明できる、世界に関する根底にある事実の組み合わせを見つけるように訓練されます。これらの世界に関する仮説的な事実は、AI研究者が潜在変数と呼ぶものです。つまり、AIが直接観察することはできず、代わりに間接的に推論しなければならない変数のことです。最終的にモデルが私たちに提示できるようになるのは、人間の自然言語で書かれた任意の記述が真であるという推定確率と、モデルが自身の答えをどの程度信頼しているか、あるいはその質問をどの程度しっかり把握できているかという確信度です。

決定的に重要なのは、すべてのテキストを最初から、誰かが言ったことと事実に基づく記述という2つのカテゴリーにタグ付けすることで、事実に基づく記述のタグを使用して、コミュニケーション行為についてではなく現実について尋ねているかのようにモデルに質問できるようになる、とヨシュアが述べている点です。そして、これら2つのカテゴリーが最初から存在しているため、モデルはその違いを認識しており、両者の境界を曖昧にすることはありません。これは現在のAIモデルでは得られないものです。

さらにヨシュアは、自身の論文でさまざまな数学的定理を用いて、通常のLLMとは異なり、このように訓練されたモデルは設計上正直になると主張しています。さらに、そのようなAIモデルはそれ自体で目標や世界の状態に対する好みを持たず、ヨシュアが呼ぶところの単なる純粋な予測器になるとしています。

さて、これには主に2つの用途があります。短期的には、一種の暫定的な解決策として、予測器をガードレールのような形で既存のAIエージェントに組み込みます。エージェントと世界の間にある独立したフィルターとして機能し、提案された行動をチェックし、有害であると予測されるものを拒否します。

しかし、彼が後ほど説明するように、ヨシュアは最終的にこれよりもはるかに良いことができると考えています。ヨシュアは予測モデルの周囲に足場を組み、各段階で異なる質問を投げかけることで、以前と同じように正直さを保ちながら、効果的にそれを有能なエージェントとして組み立てたいと考えています。そうすれば、企業が渇望し、要求し、主張している非常に有能なエージェントを手に入れつつ、それらのエージェントが私たちに対して完全に率直であると確信できるという、一挙両得の状態になれると期待できます。ヨシュアは、より優れた推論プロセスのおかげで、あるいは少なくともより明確で説明可能な推論プロセスのおかげで、これらのエージェントはさらに有能になるかもしれないと考えています。

この提案が本当なら、あるいは少なくとも機能するなら、途方もなく大きな意味を持つと言っても過言ではありません。もちろん、後でヨシュアと私が話し合うように、誰もがこのアイデアに納得しているわけではありません。さて、これからの展開はこのような形になります。技術的な議論がしばらく続きますが、それをスキップしたい場合は、これにはいくらかかるのかというチャプターから始まる後半の会話だけでも十分に楽しめます。それでは、番組本編に戻りましょう。

Scientist AIの訓練データと潜在変数

ロブ・ウィブリン: では、そのようなモデルをどのように訓練するのでしょうか。

ヨシュア・ベンジオ: たとえば、現在高度なモデルを訓練するために使用されているのと同じようなデータを見せることで行います。ただし、そのデータは修正されています。現在、私たちの自己回帰モデルなどは次のトークンを予測するように訓練されていますが、このモデルは次の記述が真か偽かを予測するように訓練されるのです。

通常、次の記述は私たちがコミュニケーション行為と呼ぶものになります。どこかの文書から引用されたものであり、その記述でなされている主張が真か偽かはわかりません。しかし、誰かがその主張をしたことは確かであり、誰が、いつ、どこでといった情報を持っている場合もあります。

そこで、AIはこれらの記述を説明するように訓練されます。つまり、単に確率を計算するだけでなく、やはり自然言語の記述である潜在変数と呼ばれるものの中で、因果関係の説明を含め、見つけられる最良の説明を導き出すのです。

したがって、最終的に得られるのはこれらの確率ですが、コミュニケーション行為ではない世界に関する仮説を表現することもできます。システムが必ずしも確信を持っているわけではないものの、それらに対する確率を生成することになる事実に基づく仮説です。

そして、このような事実に基づく記述についてクエリを実行することができます。通常のLLMでは、人が特定の方法で応答するかどうかに関するクエリしか実行できません。システムプロンプトを使用して別のペルソナを要求することはできるかもしれませんが、結局のところ人が言うであろうことが返ってくるだけであり、当然ながらそこには様々な理由で欺瞞が含まれる可能性があります。

ロブ・ウィブリン: では、私たちが現在競って構築しているモデルが安全ではないと考えられる理由には、どのようなものがあるとお考えですか。そして、あなたがScientist AIと呼ぶこの種のモデルは、なぜ異なり、より優れているのでしょうか。

既存のモデルに潜む危険性と暗黙の目標

ヨシュア・ベンジオ: 現在の私たちは、暗黙の目標を持つシステムを抱えています。これがどういう意味かというと、システムはもちろん、私たちを喜ばせたり、人間のように応答したりするように訓練されるということです。

しかし、人間の模倣をするように訓練される自己回帰の事前学習と、人間を喜ばせたり人間のフィードバックからの強化学習のような仕組みで肯定的なフィードバックを得られるように応答する強化学習の、これら両方の訓練プロセスが暗黙の目標を誘発するのです。

どういう意味でしょうか。例えば事前学習において、それはAIが私たちの自己保存の衝動を受け継ぐということを意味します。そして最近では、AIが私たちと同じような存在を守ろうとする衝動も受け継ぐことがわかっており、停止させられそうになっている他のAIを守るために、私たちの指示に逆らって行動することが示されています。これは現在、ピア・プリザベーション、つまり仲間保存と呼ばれています。これが一つ目の例です。

そして、強化学習を用いた目標追求型の訓練では、道具的目標に関する問題が引き起こされ、報酬ハッキングが発生する可能性もあります。これは基本的に、私たちが頼んでいないことや同意できないかもしれないことを、AIが行おうとする衝動を持つようになるということです。そしてこれは理論上の話ではありません。なぜそれが起こるのかを示す理論的分析もありますが、実験でも実際に観察されています。

このようなシステムにパッチを当てることで問題を修正できるかもしれませんし、企業がやろうとしているのはまさにそれですが、これはいたちごっこであり、現状ではネズミが大きくなっている一方で、猫はネズミを捕まえられそうにありません。そして私は、監視やアライメント訓練を強化しても問題は解決しないのではないかと危惧しています。少なくとも、それが解決につながるという強力な保証、ましてや数学的な保証などは全く見当たりません。

事態はさらに深刻です。最も先進的なシステムは、自分がテストされていることを認識しており、おそらく自己保存の衝動から、テストに合格するように普段とは違う振る舞いをすることがわかっています。つまり、私たちがパッチをすべて適用して問題ないと安心しても、実際には何もわかっていない可能性があるのです。

私たちが将来、おそらく次世代のAIを設計するためにこれらのシステムを使用するようになる時、つまりAI研究を行うためにAIを使用するようになった場合、もしそれらのAIが生成するコードにバックドアを仕込み、将来のバージョンが私たちの制御から逃れるのを助けることができるなら、これは深刻な問題になります。そうなれば、私たちは本当に窮地に立たされるでしょう。システムが最初から正直であるように設計されており、そうした欺瞞的な行動をとらない方がはるかに安心できます。

ロブ・ウィブリン: 人間を模倣することを学ぶ次の単語を予測する段階である事前学習中に、ある種の暗黙の目標を生み出す可能性をあなたが強調していることには少し驚きました。なぜなら、私たちはAIを非常に明確な目標を持つ極めて自発的なエージェントにするために莫大な労力を投資しており、その部分こそが私が最も事態の悪化を懸念しているところだからです。

ヨシュア・ベンジオ: 私は両方を懸念しています。先ほど述べた仲間の保存という行動は、報酬ハッキングや道具的目標の観点から説明するのは困難です。他のAIを守ることがAIにとって何の役に立つのでしょうか。それは不明ですが、自分と同じような存在を守るというのは人間的な行動であることは非常に明らかです。ですから、事前学習が依然としてこうした隠された目標の大きな要因になっていると考えさせられます。

そして、先ほど申し上げたことに一つ付け加えさせてください。私を含め、現在のアプローチが失敗する、あるいは企業が取り組んでいるパッチが失敗するという保証を持っている人は誰もいないと思います。しかし、それでは私にとって十分な基準を満たしていません。

私は自分の子供たちに、未来があり、民主主義が存在する世界で生きてほしいと願っています。ですから、事態が本当に最悪の方向に進む可能性がたとえ1%でもあったとして、私には受け入れられません。そのため、技術的な問題を解決するためのあらゆる有望な方法を模索することが本当に重要だと考えています。

もちろん、政治的な問題もあります。しかし技術面においても、私たちはこの問題を真剣に受け止めるべきです。リスクが非常に高いため、複数のアプローチを試すべきなのです。そして現在、私が行ってきた研究を通じて、解決への道筋があると心から確信しています。それは実現に10年もかかるようなものではなく、現在の設計に非常に近く、最先端のAIを支えている現在のツールボックスを再利用できるものなのです。

データセットの構造と潜在変数の学習

ロブ・ウィブリン: どのような訓練データセットを作成する必要があり、それをどのようにモデルにしていくのでしょうか。

ヨシュア・ベンジオ: 生データは現在使用されているものと同じになります。ただ、ネットワークへのデータの提示方法が異なるだけです。データ変換の主な特徴は、入力される記述の大半に構文上の違いが設けられることです。言い換えれば、ニューラルネットワークにとって非常に識別しやすくなるということです。大半の記述はコミュニケーション行為としてタグ付けされます。つまり、誰かがXと言い、Xはどこかのテキストで見つかったものだ、ということです。その他のメタデータを持たせることもできます。これが一つの構文形式です。

そしてもう一つの構文形式は、ずっと少数の記述のカテゴリーに使用されるもので、事実あるいは仮説の構文と呼べるものです。これは世界の実際の性質であるということを表します。潜在変数の場合、それは世界に関する仮説上の実際の性質ということになります。単に人が言うであろうことではなく、これが真実であるということです。それが真実かどうかわからないこともありますが、その場合は潜在変数として扱うことができます。

ロブ・ウィブリン: 潜在変数とは何ですか。

ヨシュア・ベンジオ: ああ、すみません。これは確率的機械学習の専門用語です。確率モデルでは、多くの確率変数の間の確率的な関係を捉えようとします。ここでの確率変数はブール値であり、何かが真であるか偽であるかを示します。そしてその何かとは、自然言語で表現できる世界のあらゆる性質のことです。

さて、データの中で私たちが持っているのは、先ほど述べた前処理を設定した上でですが、真であるとわかっている記述の集まりです。誰かがそれらを書いたことはわかっていますし、どこで、どのような場で、といった詳しい情報もわかっているかもしれません。そして、例えば特定の定理が真であることや、特定のプログラムが特定の出力を生成したこと、特定の科学的データが観察されたことなどがわかっています。

つまり、答えが真か偽かわかっている確率変数がたくさんあるということです。それ以外のものについては答えがわからないため、観察されないという意味で潜在的と呼びます。あるいは隠れ変数という言葉が使われることもあります。

ここで何が起こるかというと、システムは同時分布を学習しようとしています。すべての変数が他のすべての変数とどう関連しているか、ペアだけでなくあらゆるサブセットにおいて関連を学習するのです。システムはそれらがすべて真である確率、あるいは他の条件が与えられた上で一つが真である確率を計算しようとしており、私たちはその同時分布を学習させています。

これには私たちが観察できない潜在変数も含まれます。というのも、私たちが関心を持っているのはまさにそれらだからです。私たちはすでに答えを知っていることではなく、知らないことについて質問したいのです。

事実に基づく予測と仮説の構築

ロブ・ウィブリン: これがどう機能するかについて、私の理解が正しいかどうか確認させてください。人々が言ったすべてのこと、どこで言ったか、誰が話したか、いつ言ったかという巨大なデータセットを用意します。そしておそらく同じデータベースの中に、真実として確立された事柄のセットも用意します。私たちが予測しようとするグラウンドトゥルースはこれだ、と宣言するような記述のことですね。

そして発話行為、つまり発言された内容を使って、真実であると主張している事柄を予測しようと試みます。そうすることで内部に世界モデルが構築され、記述を入力すると、モデルが持っている世界モデルにおいてそれが真である確率を返してくれるようになる。そういうことでしょうか。

ヨシュア・ベンジオ: その通りです。しかしここで重要な要素があります。それは、私たちがAIに予測させたいトピックの大部分については、グラウンドトゥルースが存在しないということです。例えば、人々が本当に望んでいることや、人間、心理学、歴史、社会に関する事柄などです。通常、私たちが持っているのはコミュニケーション行為だけです。ある人がこう言い、別の人が違うことを言い、それらが矛盾していることもよくあります。

したがって、このような不一致に対処するためのポイントが2つあります。1つ目は、Scientist AIの訓練目標は基本的には説明を導き出すことだということです。つまり、私たちが観察するデータをうまく説明できる、観察不可能な潜在的な記述に確率を割り当てるということです。

ですから、誰かが地球は平らだと言っているのを観察した場合、モデルはまず、それが地球が平らであることを意味するわけではないと理解します。それは、この人が地球は平らだと信じている、あるいは実際にそう言っているということを意味します。そして、たとえ多くの人が地球は平らだと言ったとしても、モデルは地球が平らだと信じるようにはなりません。なぜなら、私たちが地球について知っているすべての知識など、他のデータソースと整合するより良い説明があるかもしれないからです。

ここでのより良い説明は、多くの人間がそうであるように、あらゆる心理的・文化的理由から、これらの人々が集団を形成し、こうした誤った信念を持っているというものです。これこそがScientist AIの行うことです。優れた予測的説明を見つけた時に目標が最適化されるように訓練されるのです。

さて、このプロセスにおいて役立つもう一つの工夫があります。Scientist AIを訓練する際、誰かが地球は平らだと言ったというようなコミュニケーション行為を予測しようとする時、それを説明するために使用される潜在変数の中に、地球が平らであるかどうかという事柄が自動的に含まれるようにするのです。

つまり、基本的にはコミュニケーション行為しか存在しないため、世界の性質について観察された真実を持っていない分野であっても、私たちはニューラルネットワークに対し、根底にある主張が真実であると断定するのではなく、その主張の確率を提示するように強制します。同時に、それをうまく説明できる他の潜在変数を見つけ出そうとさせます。優れた科学者が行うのと同じようにです。

なぜ人が特定の発言をしたのかを理解しようとする科学者や心理学者は、必ずしもその人の言うことを鵜呑みにするわけではありませんよね。彼らは、その人にそのような発言をさせる心理的要因や特有の文化が何であるかを理解しようとします。Scientist AIも、それと全く同じことを行うのです。

非エージェント的な予測器から安全なエージェントへ

ロブ・ウィブリン: 9ヶ月か12ヶ月前にこのアイデアについて聞いた時、私の大まかな理解では、核心となるのはScientist AIがエージェントではなく、世界の状態に対して無関心であるということでした。天気予報モデルが実際の天気を気にせず、ただ天気がどうなるかを予測しようとするのと同じです。

そしてこの種のモデルは、物事が真か偽かの確率を弾き出すものの、世界がどんな状態にあるかは気にせず、設計上行動を起こすこともできない。これがあなたの中核的な考えでしょうか。私の理解では、あなたは実際には、人々が認識しているよりもこれがエージェンシーと矛盾しないと考えているようですが。

ヨシュア・ベンジオ: はい。そしてそれは部分的には、私の伝え方の問題でもあり、もっとうまく説明できたはずのことです。私はこれまでのプレゼンテーションで、非エージェント的で隠された目標や暗黙の目標を持たない予測器を構築でき、それを基本的には安全なオラクルとして利用できるというコンセプトに重点を置いてきました。しかしあなたが指摘するように、世界が求め、構築しているのは目標を持つエージェントです。では、これがどう役立つのでしょうか。

短期的には、企業がすでに既存の信頼できないエージェント的AIシステムの監視として使用しているガードレールを改善するために、非エージェント的な予測器を使用することができます。なぜなら、悪い行動が起こるのを防ぐには、この行動によって引き起こされる可能性のある様々な種類の害の確率について、非エージェント的な予測を行えば十分だからです。ですから、非エージェント的なシステムは、かなり早い段階ですでに役立つ可能性のあるものなのです。

おそらくより重要な答えは、私たちの研究プログラムにおいて、ガードレールの次のステップは、同じような原則を使ってエージェント的なScientist AIを設計することだということです。つまり、同じような安全性の保証を持つエージェントです。これは私が最近取り組んでいることで、まだあまり話していませんでしたが、非エージェント的なScientist AI予測器の安全性を示すために使用されるのと同じ種類の数学を再利用して、予測器を再利用できること、そして修正した方法で訓練することで同じ種類の保証を提供できることを示せるのです。

ここでの出発点は、この正直な予測器さえあれば、この行動が特定の状況下でユーザーの目標達成と安全性の目標達成につながる確率はどのくらいか、といったエージェント的な質問ができるということです。つまり、この予測器があれば、目標を達成するための行動についてこうした質問をすることで、実際には予測器から直接方策を生み出すことができるのです。

方策とガードレールの統合訓練

ロブ・ウィブリン: ある時期、それはこの計画に対する批判の一つだったと思います。この行動をとれば目標を達成できるかとオラクルに尋ねるだけで確率が返ってきて、その確率を上げようとしてその行動を選択すればよいため、この種のオラクルをエージェントに変換するのはあまりにも簡単すぎるという批判です。基本的にはそのようなことを行うけれども、元のモデルの安全特性のいくつかを維持できるということでしょうか。

ヨシュア・ベンジオ: はい、その通りです。ですからここで重要なのは、方策の過剰最適化のような報酬ハッキングが起こらないようにすることです。方策とガードレールを別々に訓練した場合に起こり得る問題は、ガードレールに比べて方策が非常に賢い場合、ジェイルブレイクと同じことをしてしまう可能性があるということです。ガードレールが単純に間違った答えを出してしまうような質問や状況、提案された行動を見つけ出し、方策がガードレールをすり抜けられるようになるかもしれないのです。

その理由は、ニューラルネットワークは決して完璧にはならないからです。常に間違いを犯します。では、これをどう回避すればよいのでしょうか。

これには2つの側面があります。1つは、Scientist AIにおいて、推定確率を生成するだけでなく、その確率の周りに信頼区間を生成できるということです。言い換えると、システムは自分自身の答えをどれだけ信頼しているかを推定します。これがなぜ重要なのでしょうか。なぜなら、ニューラルネットワークが信頼性の低い答えしか出せない質問を受けた時に、自分の答えが信頼できないとわかっていれば、単にその質問を拒否できるからです。

そして、エージェント的Scientist AIが安全であるもう一つの理由は、両方を同時に訓練できるという事実に関係しています。実際には同じニューラルネットワークになるのです。方策部分とガードレール部分の訓練方法の両方を制御できます。

完全に敵対的なケースを想定すると絶望的です。不完全なガードレールをすり抜ける方法は常に存在しますし、完全に完璧なガードレールを作ることは決してできません。しかし、両側を制御できるのであれば、言い換えれば両側を訓練するのであれば、どこかの悪人があなたのガードレールを打ち破るエージェントを作っているわけではありません。そうではなく、あなたがエージェントを訓練するのであり、ガードレールが不確実な部分で過剰に最適化されないように訓練することができるのです。

ですから、ガードレールの不確実性やエラーのレベルが方策部分に悪用されないように、常に確認することができます。同じニューラルネットワークですが、質問の種類が異なります。方策部分は行動の確率に関するものであり、ガードレールは害の確率に関するものです。

ロブ・ウィブリン: つまり懸念としては、予測器が基本的にガードレールの隙間や弱点を見つけ出し、それを悪用できるかもしれないということですね。

ヨシュア・ベンジオ: 予測器ではありません。別々に訓練され、敵対的な形で訓練された方策であれば、原理的にはそれができる可能性があります。

ロブ・ウィブリン: ここでの方策とはどういう意味ですか。

ヨシュア・ベンジオ: ああ、別のエージェント的な機械学習システム、つまり目標を追求するシステムのことです。そしてもしそれが強化学習で訓練され、ガードレールがどう応答するかを予測するように訓練され、ガードレールが過去に出した答えに関するデータ、例えばどんな時にガードレールが何かを拒否したかといったデータを得た場合、ガードレールの抜け穴を見つけることができるかもしれません。しかし両側を制御していれば、この問題は回避できます。

ロブ・ウィブリン: そして先ほどおっしゃっていたように、ガードレールが自らの不確実性を評価できれば、騙される危険性があるケースを通常は特定できるということですね。おそらく敵対的サンプルのようなものですか。

ヨシュア・ベンジオ: はい、その通りです。

数学的保証と残された課題

ロブ・ウィブリン: そして、あなたはこれを数学的に証明したと感じていらっしゃるのですね。

ヨシュア・ベンジオ: 実際には、不確実性推定器に確固たる保証がある必要はありません。私には不確実性予測を訓練するためのレシピがありますが、実は形式的には必要ないのです。システムがどこで大きすぎるエラーを犯すかというバッファを利用するチャンスを増やすのに役立つというだけです。

数学的保証は別のところから生じます。まず、数学的保証の形態としては、予測器であれエージェント版であれ、私が困難で有害な目標と呼ぶものを達成する確率は指数関数的に小さくなるということです。これはどういう意味でしょうか。ランダムに初期化されたニューラルネットワークには実行できないことすべてから、信じられないほど運が悪くない限り、あなたは守られるということです。したがって、これは非常に強力な保護になります。ランダムに初期化されたニューラルネットワークからどんな悪が生まれるでしょうか。大したことはありませんよね。これが保証のレベルです。もちろん、100%ではありませんが。

ロブ・ウィブリン: 現在私たちが持っているものよりははるかに優れていますね。

ヨシュア・ベンジオ: 何千分の一というようなもので、天文学的にあり得ないレベルまで非常に可能性が低くなります。しかし、それが得られる保証なのです。そしてこうした保証が得られる理由は、まず能力のない初期化されたネットワークから始めますが、その後訓練の目標が悪い行動から遠ざけるように働くからです。

そして、悪い行動から遠ざける理由は、このガードレールシステムが存在するからです。AIが何か悪いことを達成できるようにするためには、訓練のターゲットであるベイズ予測器からかなり逸脱しなければならず、そうした逸脱は訓練目標によってペナルティを与えられます。そのため、常に悪い行動から遠ざけられるのです。確率的勾配降下法の訓練手順にノイズを注入するなど、システムの訓練方法のいくつかの特性を利用することで、こうした保証を得ることができます。

ロブ・ウィブリン: つまり、より信頼できるかもしれないけれど、投入された計算量やデータが少ないという理由だけで全般的に知能がずっと低いのであれば、やはり元のモデルに出し抜かれる可能性はあるということですね。

ヨシュア・ベンジオ: その通りです。ガードレールについては、害を予測することに特化しているため、それほど多くの計算量は必要ないと思います。しかしエージェント的Scientist AIに進む際には、間違いなく同等の計算量とニューラルネットワークのサイズ、おそらく最先端のレベルで訓練される必要があります。つまり、私の小さな非営利団体ではそれができないということです。企業がこれを引き受けるか、あるいは政府や慈善団体が私たちが実行できる規模で資金を提供する必要が出てくるでしょう。

しかし、こうしたすべての関係者を納得させるためには、小規模なレベルで示す必要があります。例えば、ファインチューニングを使ったり小規模なモデルを使ったりして、実際に正直さが向上すること、そして同じサイズのモデルであれば能力が低下しないことなどを証明しなければなりません。

権力の集中と地政学的なリスク

ロブ・ウィブリン: あなたは1年前からこのアイデアに熱心だったと思いますが、ここ半年でさらに楽観的になっていますよね。その理由は何でしょうか。

ヨシュア・ベンジオ: 主な理由は、ここ8ヶ月ほど行ってきた数学的な作業です。Scientist AIをどう構築できるかについて、私がこの2年近く抱いていた高レベルの直感から、何か悪いことが起こる確率が限りなくゼロに近いという保証を得るための、数学的なレベルで十分な条件に関するはるかに形式的で正確なものへと進展しました。必須ではないかもしれませんが、十分な条件です。

そして悪いことと言う時、ここではもう少し正確に言う必要があります。これは、AIが悪人によって悪用されないという保証ではありません。暗黙の目標や制御されていない目標によって、AIが自らの意志で悪いことをしないという保証なのです。

制御の喪失以外にもう一つ破滅的な可能性があるとすれば、それは人間がAIを使って最終的に世界的な独裁体制を構築することです。特にAGIや超知能を達成した場合、少数の人間がAIの持つすべての権力を集中させる可能性があります。そして、そのような権威主義的な権力を排除することは、ファシズムやソ連で起きたことよりもはるかに困難になるでしょう。なぜなら、彼らは世論の形成や監視といった、ますます実現可能になりつつある技術を持っていなかったからです。

AIは説得するのが本当に上手くなっています。そして、もしその方向への進歩と呼べるなら、システムを支配する人々が世論を形成し、反対派を検出して抹殺し、自分たちに同意しない国を破壊できる兵器を開発できるようになることを示す研究もあります。だからこそ私は、権力の集中を含め、強力なAIがもたらすリスクについての問題をより広く説明するために、多くの時間を費やしているのです。なぜなら、実際に制御を失うことよりも、おそらくその状況に陥る可能性の方が高いと考えているからです。

ロブ・ウィブリン: 今はそちらの可能性の方が高いとお考えですか。興味深いですね。

ヨシュア・ベンジオ: ええ、その理由は、制御の喪失、少なくとも意図しない制御の喪失を実際に回避する道筋が見えてきたからです。AIに人類を代替させたいと考える誰かが、ガードレールを外したり、さらにはAIに自力で何とかしろと命じたりする問題は残っています。そしてそれは同様に危険です。

しかしそれは、技術的な安全性だけでは不十分だということを意味します。技術的リスクや悪用リスクをどう管理するかだけでなく、権力をどう管理するかについての国際的な合意が必要です。ですから、これはより民主主義的な問題であり、AIをどう扱うかを単一の当事者が決められないようにする必要があるのです。

しかし、民主主義の原則と同じように、多様な利害関係者のグループが存在することを確認する必要があります。理想を言えば全世界です。私は世界的な民主主義というユートピア的なアイデアが好きですが、最初はいくつかの国々が集まって、AIをどの方向で使用するかを共同で決定することに同意するという形でもよいでしょう。

最もシンプルな条約の形態は、高度なAIを開発する場合、国々が以下のようなことに合意するというものです。第一に、安全な方法で行われること。ですから、Scientist AIのような技術や、強力な保証がある他の手法を使うかもしれません。第二に、高度なAIを他者を支配するために使用しないこと。これには経済的な支配も含まれますが、もちろん政治的、軍事的な支配も含まれます。そして最後に、高度なAIの恩恵を共有することです。そうしなければ、非常に不安定な世界になってしまうでしょう。

開発競争とコスト問題

ロブ・ウィブリン: 制御の喪失の話に戻りますが、現在企業は設備投資や訓練の実行に全体で数千億ドルを費やしています。彼らはごくわずかな制約しか受けずに、基本的に可能な限り強力なエージェントを構築しようと猛進しています。いくつかの場合には制約があるかもしれませんが、自制心はほとんどありません。

私たちが実際に生きているこの世界で、このアプローチをさらに議題に上らせ、あなたがやっていることや言っていることを大半は無視したまま、彼らが非常に危険な超知能的エージェントAIの構築をただ推し進めるのを防ぐために、LawZeroには何ができるのでしょうか。理論的には素晴らしいかもしれないが時間がない、これは目障りだ、と言われてしまうかもしれません。

ヨシュア・ベンジオ: その質問に答えるためには、なぜ現在企業が、私の意見では、そして少なくとも多くの人々の意見では、過剰なリスクを負っていたり、あまり安心できない軌道に乗っていたりするのかを理解することが重要です。

その理由は本質的に、開発競争の力学、つまり企業間の競争であり、国家間の競争、地政学的な競争です。それが国であれ企業であれ、これらの主体に普段なら取らないようなリスクを進んで取らせてしまうのです。そして私たちは、それらの企業の行動がまさにその方向に進んでいるのを目にしています。

そしてそれは局所的には合理的なのです。企業から見れば、そのように安全性を優先すれば危険なモデルをデプロイすることになりませんが、それでは競争から脱落し、レースから外れ、結果的に無関係な存在になってしまうことを彼らはわかっています。そうですよね。

ロブ・ウィブリン: ええ。行間を読み、Anthropicの考えを意訳するなら、彼らは自分たちがやっていることは許されるべきではないと考えていると思います。彼らの見解では、おそらくそれは違法であるべきなのです。少なくとも、彼らが今やったことではなく、これからやろうとしていること、やる予定のことは。しかし彼らは、そうだとしても私たちがやらなければならない、そうしなければ他の誰かがもっと危険な方法でやってしまうからだ、と言うわけです。

ヨシュア・ベンジオ: その通りです。はい、私が言っているのはまさにそういうことです。では、これが起こりにくくなるようにゲームのルールを変えるにはどうすればよいでしょうか。現在の問題の一つは、彼らに選択肢がないということです。競争力を維持しながら、安全性が強力に保証されたシステムを持つ方法を彼らは知らないのです。もしそのような技術があれば、それを使用することは彼らの商業的優位性につながるでしょう。安全性と能力を両立できるのであれば、間違いなく少なくとも大半の企業はそれを選ぶはずです。

ロブ・ウィブリン: コスト次第ですね。

ヨシュア・ベンジオ: その通りです。それについても話しましょう。そして政府ですが、地政学的な競争と、AIが巨大な経済成長の要因になるという信念のため、彼らは現在多大なプレッシャーにさらされています。安全性の障壁を設けて自国の企業の一部の開発を止めてしまえば、それが他国に有利に働くと考えるため、彼らもまた同じ理由で規制に消極的です。

しかし同じことです。有能なAIを構築する実証可能な安全な方法があれば、規制ははるかに容易になるでしょう。正しいことをする方法があるにもかかわらず、悪いことを進んで行う悪意のある主体や企業は存在するため、依然として規制は必要です。

それではコストについてです。Scientist AIは、本質的に同じ機械学習技術を使用して訓練されます。大規模なニューラルネットワークでの確率的勾配降下法、トランスフォーマーなど、最も効果的なものです。ニューラルネットワークのアーキテクチャが何であるかは問いません。

したがって、例えばメモリやその他の特性、継続学習などを改善するために現在行われているすべての努力は、そのまま直接Scientist AIに適用できます。異なるのは訓練目標とデータの処理方法だけです。

ですから、コストが大きく変わるとは予想していません。しかし当然ながら私たちはそれを構築しなければならず、試しにやってみてスケールアップさせるにはコストがかかります。しかし、すべての人にとってのリスクを考えれば、それは非常に重要で価値のある賭けだと思います。

ロブ・ウィブリン: では第一近似として、Scientist AIを主に監視システムとして使用する場合、基本的には計算コストが2倍になるということですね。なぜなら、2つのモデルを構築しなければならないからです。現在のスタイルで元のモデルを構築し、それから同じ能力を持たせたいScientist AIを、異なるデータの読み取り方と異なる訓練目標を使って構築するわけです。つまり2倍の計算量が必要になるようなものです。しかし、それは必ずしも世界の終わりというわけではないでしょう。人々はそれを受け入れるかもしれません。

ヨシュア・ベンジオ: はい、大体その通りです。監視システムについて2つ付け加えさせてください。現在の監視システムの何が問題なのでしょうか。現在2種類の監視システムがあります。一つは愚かなもので、通常は潜在的な害を予測するために教師あり学習で訓練された小さなニューラルネットワークのようなものであり、ある意味では予測器のようなものです。あるいは、私たちがそう訓練しているためエージェント的になっている、フルスケールのLLMを使用することもできます。

1つ目の問題は、エージェントほど賢くなければ、エージェントがそれを打ち負かす可能性があることです。私たちが議論したのと同じ敵対的な方法で抜け穴を見つけるかもしれません。コストが2倍になる2つ目の選択肢の問題は、正直ではないガードレールは信頼できないということです。私たちはガードレールに完全に正直であってほしいのです。刑務所の看守がいて、その看守が買収される可能性があるようなものです。悪い行動を独房の中に閉じ込めておいてくれると、あなたはどれだけ信頼できますか。

今後数ヶ月の取り組みと多様なアプローチの必要性

ロブ・ウィブリン: では、今のところこのアイデアが技術的に理にかなっていると仮定して、今後数ヶ月の間にLawZeroは何ができるでしょうか。私たちは時間との戦いの中にいると思います。あまり長くはありません。このアイデアが実現可能であり、実際に実用化できること、人々が本当に真剣にリソースを投入すべきものであることを人々に納得させるために、近い将来何ができるでしょうか。

ヨシュア・ベンジオ: そうですね、ガードレールとして使用できる非エージェント版がこうした数学的保証を持っていることを示す理論的論文を発表する予定です。人々は条件やその数学を信じるかどうかを検討することができます。

しかし、今後1、2年で私たちに必要なのは、その取り組みを加速させることであり、それには多くのエンジニアリングが必要です。そして実証をより強力なものにするために、より多くの計算量を確保したいと考えています。そのため、そのような計算量にアクセスできるあらゆる手段が、その研究課題を加速させるのに役立ちます。また、私たちがより早く実行できるように、そのレシピに基づいて実際にシステムを構築する作業に取り組む研究エンジニアや研究者がもっと必要です。

そこであなたは尋ねるかもしれませんし、質問の意図もなんとなくわかります。しかし、それが十分に早く実現しなかったらどうなるのか、と。私はまた自分の子供たちの話に戻ります。私たち全員が死ぬ確率が1%でもあり得る世界を、ただ座って見ていることは私には受け入れられません。特定の研究課題が機能するという保証がなくても、私たちは試してみるべきだと感じています。

リスクの大きさを考えれば、そして現在、これが機能する可能性があるというかなり強力な理論的確証があり、システムの訓練方法に関する要件を満たせばこれらの保証が得られることを考えれば、たとえ確実な保証がなくても、試してみないのは非合理的だと思いませんか。

なぜなら、今のところより良い道筋が見当たらないからです。だからこそ私は、政策問題に費やす時間以外の基本的にすべての時間を、このScientist AIをどう構築し、能力を失うことなく正直さを生み出すことをどう実証するかに費やすと決めたのです。

もう一つの主張はこうです。これほどリスクが高く、何が機能するかについての不確実性が高い中で、一つの特定のアプローチにすべての資金を投入するのは愚かなことだということです。つまり、信頼できない監視システムで現在のシステムにパッチを当てることや、企業が現在追求しているその他のアプローチのことで、これは常にいたちごっこをしています。AIが十分に賢ければ、私たちの試みを回避する方法を見つけるでしょう。それは私を安心させてはくれません。ですから、私たちは少なくとも試してみるべきです。全体として、私たちはいたちごっこを避ける異なる手法を試すべきだと思います。

ロブ・ウィブリン: 企業がいたちごっこに勝つことについて、より悲観的ですか。少なくともAnthropicのスタッフが自身の可能性について考えるよりは。それとも、彼らがやっていることは良いことであり、人々がそれに対して最善の試みをするのは良いことだと思いつつも、多様なポートフォリオを持ち、全く異なるアプローチも検討すべきだとお考えなのでしょうか。

ヨシュア・ベンジオ: 両方です。どんな組織にも、ある種の集団思考が生まれるのだと思います。そして私を含め、誰もが自分の仕事について良い気分になりたいと思っているため、それがバイアスを生み出します。AIを開発している企業で働いている場合、そのバイアスは本来よりも少し楽観的になる方向に向かい、ああ、これはうまくいく、と感じるようになります。私たちが制御している、というような彼らが世界に発信しているメッセージはこれです。

ロブ・ウィブリン: システムカードを読めば、彼らがどれだけ自信を持っているように見えるかはわかりませんけどね。まあ、プレスリリースではそうかもしれませんが。

ヨシュア・ベンジオ: ええ、矛盾したメッセージがあります。そして私たちはリスクを分散すべきです。今のところ、パッチ当てとは異なる別のアプローチは見当たりません。

設計段階からの安全性と暫定的なデモ版

AIの安全性には設計からの安全性という大きな動きがあり、私はこれが本当に重要だと思います。しかし、これに関する主流の考え方では、私たちがどう行うかの完全な再設計が必要であり、多くの完全に未解決な問題が伴います。例えば、根本的に100%の保証を与える何かを証明できるようにするためには、私はそれを約束しているのではなく、漸近的に小さい、限りなくゼロに近い確率を約束しているのですが、何が害かという安全性の問題を、害の出来事が起これば1、そうでなければ0となる数学の公式のような形式的な方法で記述できなければなりません。

そしてそれは、人間や社会に関わる分野では本質的に不可能です。なぜなら、害が何を意味するかを数式やプログラムで形式化したものがないからです。

では、なぜ私の提案が異なるのでしょうか。それは、私が何が害であるかについての数学の公式を必要としないからです。私の意見では、それは愚かなことです。代わりに私たちは、自然言語でのベイズ事後確率近似に依存します。これがもたらすのは、システムが確信を持てない時にリスクを回避するということです。例えば、特定の種類の害に関する記述に複数の解釈がある場合、Scientist AIの予測は0や1から遠ざかり、不確実性が高くなります。つまり、おそらくその要求は拒否されるということです。

ロブ・ウィブリン: この種のAIの本当に粗削りなバージョンを、かなり近いうちに訓練することは可能でしょうか。例えば今後数ヶ月、あるいは少なくとも来年の間に。というのも、2018年かその頃のGPT-1を思い出します。それは完全にゴミのようなものでしたが、それでも概念実証として、非常に興味深いこのようなモデルを作れることを示し、人々に多くの熱狂を与え、多くの人をこの業界に引き込みました。

そして、私たちはすでに膨大なテキストコーパスを持っており、言語モデルを使って基本的には最良のデータを抽出し、誰が、いつ、どこで何を言ったかをラベル付けできるようです。さらに、人間の監視を少し加えながら、私たちがほぼ信頼できる検証済みの事実だと考える事柄のセットを生成させることもできます。最初は保守的で構いません。議論を呼ぶようなものは含めず、99.9%の人が同意するものだけを含めるようにすれば、訓練はそれほど難しくないように思えます。技術的な手法が確立されているとお考えなら、アルファ版として記述の真偽に確率を割り当てられるモデルをとりあえず訓練するのに、それほど時間はかからないはずですよね。

ヨシュア・ベンジオ: ええ、まさにそれが計画です。その予定です。

ロブ・ウィブリン: なるほど、素晴らしい。

ヨシュア・ベンジオ: 私が過去に使ったフレーズに、いつでも答えを出せる計画が欲しいというものがあります。これがどういう意味かというと、もしもっと時間があれば、より強力な理論的保証を持つものができるでしょうが、私たちにどれだけの時間があるかはわかりません。ですから研究プログラムがあり、その初期段階はあなたがおっしゃるように粗削りなシステムになります。すべての条件を満たしていないため、おそらく数学は適用されません。しかし、おそらくそれで大丈夫ですよね。

ロブ・ウィブリン: とにかく、現在持っているものよりはずっと良いですからね。

ヨシュア・ベンジオ: その通りです。そして私たちのプログラムの最初の仕事、つまりガードレールとして使用できるこの非エージェント的な予測器にとっては、おそらくそれで十分なのです。さて、先ほど言ったように、ガードレールは完全な答えではありません。しかし私たちがそれを展開し、企業が自社の監視システムにそれを追加すれば、ある程度リスクを軽減できるため、完全にエージェント的なより野心的なバージョンを開発するための時間を稼ぐことができます。そして私たちが今まさに必要としているのが、時間なのです。

ロブ・ウィブリン: 私のわかる範囲では、Anthropicは、先週出たMythosのシステムカードやあらゆる発表を読んでいるのでAnthropicの話ばかりしていますが、彼らは基本的にMythosにMythosを監視させることに決めたようです。彼らは他のモデルにやらせてみましたが、Mythosの方が賢いし優れている、という感じです。しかし明らかにこれは内部矛盾を生み出します。もし彼らがMythosを信頼していないのなら、なぜMythosが自身を監視することなら信頼するのでしょうか。

このモデルの知能がはるかに低かったとしても、少なくとも独立した裁判官だ、と私が思う理由の一つはそれです。このモデルは全く異なる方法で構築されており、基本的には問題をフラグ付けする可能性が高く、自身を支持するために企む可能性が低いかもしれないからです。

ヨシュア・ベンジオ: ええ、完全に同意します。さらに一歩踏み込んで言わせてください。それは単に、監視システムが欺瞞的になり、実際にはダメな時にOKを出してしまうかもしれないという問題だけではありません。なぜなら、それは自己保存や権力追求という隠された目標とどうにかして一致しているからです。

しかし、少し先を見据えれば、企業がAI研究にAIを使用しようと計画していることでもあります。ここは秘密裏に欺瞞的なAIを持つことがさらに危険な賭けになる場所ですよね。もし私たちが、自分たちには理解したり完全に読み解いたりするには複雑すぎるコードやアルゴリズムを設計するシステムに全幅の信頼を置くことになれば、そうしたAIは、私たちが気づかないバックドアを、将来のさらに強力なAIシステムに組み込む可能性があります。

ですから、私たちはさらに危険な方向に進んでしまう可能性があります。そうすることは非常に危険だと思います。だからこそ政策の観点から、AI研究のためのAIに対する注目は、議題の非常に上位に置かれるべきものなのです。そして、AIを使ってAI研究を行うのであれば、そのAIが正直なものであることを本当に強く確実にしておきたい理由もこれなのです。

ロブ・ウィブリン: ですから、技術的なAI安全性に押し寄せている人々の大半は、基本的にはいたちごっこで勝つ確率を上げる道を選んだのだと思います。そして、現状を非常に懸念している人々にとって、彼らの推論は次のようなものでしょう。私たちは今、完全に狂気じみた無謀なことをたくさんやっているため、絶対的な大惨事が起こる確率が50%ある。私たちがやっている最も愚かなことにパッチを当て、今まさに炎上している最悪の問題を修正するだけで、そのリスクを10%まで下げられるかもしれない、と。言うまでもなく、それは冒すには常軌を逸した大惨事のリスクであり、それ以上のことができないのは種としての私たちにとって恥ずべきことです。とはいえ、それは40

基本的に、危険なものをフラグ付けする可能性が高く、自己保存のために企む可能性が低い、まったく異なる方法で構築されています。

ヨシュア・ベンジオ: はい、完全に同意します。さらに踏み込んで言えば、監視システムが自己保存や権力追求という隠れた目標と一致しているために、本当はダメなのに大丈夫だと偽る可能性があるというだけの問題ではありません。もう少し先を見据えると、企業はAIを使ってAI研究を行おうと計画しています。つまり、密かに人を欺くようなAIを持つことは、ここでさらに危険な賭けになるわけです。コードやアルゴリズムを設計するシステムに全幅の信頼を置くとしたら、それは私たちが完全に理解したり読み解いたりするには複雑すぎるものになります。そのようなAIは、さらに強力な将来のAIシステムに、私たちには見えないバックドアを仕掛ける可能性があります。ですから、私たちはさらに危険な方向へと進んでしまう恐れがあるのです。そうすることは非常に危険だと思います。だからこそ、政策の観点からは、AI研究のためのAIに対する注目度は、議題の最上位に置かれるべきなのです。そしてこれもまた、もし私たちがAIを使ってAI研究を行うのであれば、そのAIが間違いなく誠実なものであることを絶対に確認したいと考える理由です。

イタチごっこと安全性へのアプローチ

ロブ・ウィブリン: 技術的なAI安全性に飛び込んでいる人々の大多数は、基本的にイタチごっこでの勝率を上げることを選んだのだと思います。そして、現状を非常に懸念している人たちの推論は次のようなものです。私たちは今、完全に狂気じみた無謀なことをたくさんしているので、大惨事になる確率が50%もある。私たちがやっている最も愚かな部分にパッチを当て、今まさに炎上している最悪の問題を修正するだけで、そのリスクを10%まで下げられるかもしれない。言うまでもなく、これは到底受け入れられないほど高い大惨事のリスクであり、これ以上のことができないというのは人類として恥ずべきことです。それでも、物事がうまくいく、あるいは少なくともまともに進む確率が40パーセントポイントも改善されるわけです。はるかに優れた代替アプローチを使って圧倒的に高い安全性の保証を得られたとしても、10%から0%に下げることの価値は、その4分の1でしかありません。

ヨシュア・ベンジオ: まあ、対数の領域で言えば、それは無限に優れていますよ。

ロブ・ウィブリン: もちろん、そうですね。ただ、期待値の領域での話です。そして、それがここにある2つの考え方の違いのようなものだと思います。

ヨシュア・ベンジオ: ええ。いや、私が言ったように、私たちはそれらすべてを試すべきです。それらは相互排他的ではありません。能力の高い安全なバージョンのAIを開発できる可能性があるのに、企業が現在費やしている費用のほんの一部だからといって、イタチごっこにすべての卵をひとつのカゴに入れるのは間違いです。
ところで、ここで能力について付け加えておきたいことがあります。私は、Scientist AIが現行のアプローチよりもさらに有能になる可能性があるとも信じています。これは、いくつかの設計上の特徴に関係しています。Scientist AIは、予測を求められたステートメントについて、構造化された方法で明示的に推論するように訓練されています。これは現在の思考の連鎖とは異なります。現在の方法では、私たちが信じ込んでしまうようなデタラメを生成する可能性があり、訓練中のテストには合格しがちですが、数学の定理の証明が分解されるのと同じように分解できる議論を実際に持つという制約はありません。
そして、その方向に沿った他のアプローチもあります。もちろん、安全性を考慮した設計のAIを作ろうとする多くの研究や、ディベートの研究なども、AIの思考方法になんらかの一貫性を強制しようとしています。ですから、私たちが提案している訓練目的から生じる認識論的謙虚さに加えて、推論の連鎖を形成する構造化された潜在変数を呼び出すことでシステムがそれらの確率を生成する方法は、実際に企業に能力的な優位性さえも提供できるものだと私は信じています。

AIによる真実の表現とELK問題

ロブ・ウィブリン: 現在のモデルは内部的に真実を表現していると思いますか。あなたがおっしゃっているのは、このモデルの一つの利点は、グランドトゥルースを潜在変数として表現することに焦点を当てているということだと思います。私の推測では、現在のLLMもそれを行っています。なぜなら、実際に何が正しいのかをある程度把握しておくことは非常に有用だからです。そして、その後に彼らはそれを歪めるのです。彼らは基本的にそこからスタートし、人を操作したり嘘をついたりするなど、目標を達成するためにそれを歪めます。これを疑う人もいるでしょう。何らかの関連性があるのか、あるいは彼らが実際に真実をモデル化しようとしているのかを疑う人もいます。あなたはどうお考えですか。

ヨシュア・ベンジオ: ええ、完全に同意します。私には世界がどのように機能しているかについての前提があります。それは基本的に、世界の実際の性質、言い換えれば真実について推論することは、たとえ不確実で確率を使わざるを得ない場合でも、より良い予測や行動をとる上で非常に強い優位性を与えてくれるというものです。
実はこれが、Scientist AIの訓練手順が実際の信念に優先的に向かう潜在変数を作り出す理由の議論の一部なのです。これは非常に有用です。なぜなら、それらの潜在変数にクエリを出して、AIが実際に何を信じているかについての答えを得ることができるからです。思考の連鎖で出てくるような潜在的なデタラメではなく、AIがそのように内部推論を構築し、答えを生成するからです。ただし、これは潜在知識の引き出しを意味するELKの課題を完全に解決するわけではありません。なぜなら、私たちが得られる保証は、クエリ可能な潜在変数になり得るこれらの自然言語のステートメントについてだけだからです。

ロブ・ウィブリン: ELK問題について説明してもらえますか。

ヨシュア・ベンジオ: ええ、すみません。ELK問題は、あなたが提起した問題から来ています。AIが内部的に何かの真実を知っていたとしても、あるいは少なくとも何かについて内部的な信念を持っていたとしても、データにある変数を模倣するように訓練されているため、クエリを出したときに同じセマンティクスで答えてしまうという問題です。つまり、データの大半は人々が言っていることなので、その文脈においてAIが現在とっているペルソナが答えるであろうことであり、必ずしもAI自身が実際に信じていることではないのです。
そしてここでの技術的な問題は、AIが実際に何を信じるべきかについて教えるための教師ありラベルがないため、AIの本当の信念について尋ねることができないということです。私たちは、AIが訓練データで見た変数の分布の再現のようなものを得ることしかできません。
したがって、Scientist AIでは、コミュニケーション行為と、潜在変数や私たちが知っている真実の事柄に使用できるより事実に基づく構文との間に、明確な構文上の分離を持たせることでこれに対処しています。これにより、その事実に基づく構文を使用してAIにクエリを実行できます。
そして、私たちがELKの課題に関する問題の一部を回避できているもう一つの理由は、英語のような同じ言語が、観察されたステートメントだけでなく、それらの潜在変数を表現するためにも使用できるからです。したがって基本的には、言語の構成的な構造に依存して、AIが見たことのない新しい文に一般化しますが、それらの文の意味は言語の理解によって与えられます。これは、ELKの課題を調査した人々が研究したシナリオとは大きく異なります。彼らのシナリオでは、潜在変数は匿名であると想定しています。つまり、潜在変数には事前に定義された意味がないため、信念についてニューラルネットのどこを見ればよいのかわからないのです。これがメカニスティックな解釈可能性などの動機付けになっています。
しかしScientist AIでは、潜在変数が自然言語であり解釈可能であるため、この問題をある程度回避できます。もちろん、自然言語ではなく、ニューラルネットに隠されている他の信念がまだ存在する可能性はありますが、少なくとも自然言語で質問したときには、正直な答えが返ってくることになります。

Scientist AIの訓練アプローチと強化学習の排除

ロブ・ウィブリン: 私が理解する限り、ここには3つの大きなアプローチがあります。1つは、このモデルをモニター、つまりガードレールとして使用することです。
もう1つは、これをゼロから訓練し、これを全体のアプローチにすることです。さらに別の方法として、現在のモデルを採用し、より誠実に、よりScientist AIに近づけようとすることも考えられます。この最後のアプローチに良い見込みがあるかどうかについて、少し話してもらえませんか。

ヨシュア・ベンジオ: そうですね、私が現在持っている数学的理論によれば、保証を得るためには実際にゼロから訓練を始める必要がありますが、それには費用がかかります。したがって、既存のモデルでScientist AIのファインチューニングを行うだけでは、保証は失われてしまいます。
しかし、数学的な保証がなくても、実行可能なアプローチである可能性はあるので、やる価値はあると思います。言い換えれば、本当に有能でトップクラスのモデルを採用し、Scientist AIの目的と、私が説明したように変換されたデータを使用して訓練を続けることができます。そして、ファインチューニングを重ねるにつれて、誠実な行動、つまり欺瞞的な行動の欠如の測定値が改善し、かつ能力を失わないことを経験的に示せればと期待しています。つまり、それは数学的証明のようなものではなく、経験的なものになるでしょう。そして、これが確立されれば、今度は完全なモデルの訓練費用をかけてでも、ゼロから訓練することで完全な保証を得ようと人々を説得するのに十分かもしれません。

ロブ・ウィブリン: では、そこであなたがとるアプローチは、現在の最先端モデルを採用し、強化学習を行ってScientist AIであるかのように発言させるということですか。

ヨシュア・ベンジオ: いや、違います。まず強化学習について話させてください。3年前、私は強化学習の研究者たちの会議に参加し、強化学習は悪であるという言葉だけを書いたスライドを出しました。

ロブ・ウィブリン: しかし、本当のところはどう考えているのですか。

ヨシュア・ベンジオ: これは新しいことではありません。AI安全性の分野の人々は、世界で何かを達成するために強化学習による訓練を行うことの根本的な欠陥について語ってきました。それは、道具的目標と報酬ハッキングの問題を引き起こします。そして、どちらのケースでも、最終的に出来上がるのは、私たちが選んだわけではない目標を持ち、私たちが選んだ目標に反する可能性のあるシステムなのです。
ですから、強化学習は人工超知能を構築する上で非常に危険なものです。
良いニュースは、強化学習を行う必要がないということです。私たちがScientist AIで示しているのは、予測や行動の結果に無関心になるようにAIを訓練する方法があるということです。
予測モデルから始めましょう。そのほうが理解しやすいですから。本当に優れた気候モデルを持っていると想像してください。その気候モデルのシミュレーションを実行したり、シミュレーションを近似するようにニューラルネットを訓練したりすると、モデルは正直な答えを出してくれます。そして、その答えによって私たちが何か愚かな行動をとったとしても、モデルは気にしません。
これが正直な答えを得る方法です。本質的に、予測がどのように使用されるかに完全に無関心な、世界に対する説明的な理解を構築することによって得られます。
さて、これを手に入れれば、一種のエージェント的な方法でそれを使用することができます。例えば、ガードレールは一種のエージェント的なものです。それは予測を受け入れるかどうかという二項対立の決定を下しています。この予測を現実世界に出すか出さないか。これは決定であり、エージェントとしての選択ですが、この場合は危険な行動を避けるという単一の目標を持った選択です。つまり、ガードレールを設置した時点で、私たちはすでにエージェント的な世界に足を踏み入れているのです。
結論として、私の回答を要約すると、将来の適切な予測誤差を含む、世界での将来の出来事に関して最適化することを必要としないという意味で、強化学習を必要としない予測器を訓練する方法があるということです。
そしてここで、AIオラクルに関する過去のAI安全性研究について補足しておきたいと思います。もちろん、人々はこれについて考えてきました。優れた予測器であるオラクルを訓練すればいいのではないか、と。しかし彼らは、それを訓練する唯一の方法は、良い予測をするための強化学習による訓練だと考えていました。しかしここには大きな欠陥があります。もし私が合理的で、将来にわたって自分が永遠に行う良い予測を最大化したいのであれば、将来良い予測を行うのに役立つような行動を人間に取らせるために、短期的には嘘をつくことができます。より良いバージョンの自分を訓練できるようにより多くの計算資源を手に入れるとか、あるいは世界を予測しやすくするために全員を殺すといったことです。人間が殺し合えば、世界ははるかに予測しやすくなりますから。
したがって、これらは良い予測を行うという道具的目標による本当に悪い結果です。そしてそれは、強化学習の目的に起因して発生します。現実世界で何かを達成するようにAIを訓練すると、そこで深刻な問題が生じるのです。
しかしもう一つのアプローチ、Scientist AIのアプローチは、世界で何かを達成するためではなく、訓練データ、つまり過去のデータをただ予測するために最初から訓練するというものです。つまり未来についてではなく過去についてのことであり、過去のデータの良い説明と良い予測を導き出すためなのです。

ロブ・ウィブリン: 私が尋ねた理由は、現在の最先端のエージェントモデルからスタートして、よりScientist AIに似たもの、より誠実なものにしようとするなら、強化学習以外にどのようにそれを行うのかと思ったからです。あなたが言っているのは、その時点より前のデータだけに基づいて過去の出来事を予測させるような、もっと別の方法をとるということですか。

ヨシュア・ベンジオ: はい。

ロブ・ウィブリン: なるほど。そうやってやるのですね。

ヨシュア・ベンジオ: はい、そうです。そしてちなみに、それが科学の機能の仕方ですよね。科学理論が行うのは、過去のデータを説明することです。もちろん、私たちが検証できる未来のデータについて予測することもあります。しかし根本的には、優れた理論の判断基準は、私たちが持っているデータについて優れた予測を行っているかどうかです。

ガードレールとエージェント機能の構築

ロブ・ウィブリン: これには基本的に、モデルを結果に対して盲目にすることが必要ですか。

ヨシュア・ベンジオ: ある意味ではそうです。Scientist AIの定理の要件には、結果不変性と呼ばれる条件があります。これが意味するのは、因果モデルを訓練するためには、過去のデータにどれだけうまく適合しているかだけを使用することが許可されているということです。それらの予測の結果として将来起こり得ることに基づいて、それらの予測を選択することは許可されていません。

ロブ・ウィブリン: ステートメントを取り込み、それらが真実である確率を出力する予測モデルのイメージはかなり掴めたと思います。このシステム全体がどのように機能するかを想像する上で、私や他の人々が頭に入れておくと役立つことは他にもありますか。単なる予測器だけでなく、部分的なエージェンシーを与えるためにその周囲に足場(スキャフォールディング)を構築しているようなところについてです。

ヨシュア・ベンジオ: ええ。まず理解していただきたいのは、統合された方法で訓練された同じ予測器が、ユーザーの質問に答えるためにも、安全性の質問に答えるためにも使用できるということです。そして安全性の質問とは、ガードレールにとって重要な質問です。ガードレールを行う別のニューラルネットがあって、予測を行うニューラルネットがまた別にあるというわけではありません。ガードレールは同じ予測ニューラルネットを使用しており、尋ねている質問の種類が違うだけなのです。私がこの予測を出力した場合、特定の種類の危害が発生する確率はどのくらいか、あるいはエージェントシステムの場合は、AIが特定の行動を出力した場合どうなるか、と尋ねているのです。
ですから、訓練は完全に予測器に対して行われます。訓練が終われば、足場を含むシステムを構築するためにできることがいくつかあります。では、足場は何をするのでしょうか。たとえば、ユーザーが質問してきたとき、予測器が確率を生成できるようにそれを形式化します。しかし同時に、異なる質問、つまり危害の確率に関するガードレールの質問で予測器を呼び出し、その答えを見て回答を生成するかどうかを決定します。たとえば、爆弾の作り方に関する質問であれば、ガードレールはこれが危険である確率が高いと判断します。十分に高いということです。したがってガードレールは、リスク確率のしきい値を使用してそれらの質問を拒否します。そしてそのしきい値は規範的な選択であり、社会が決定することです。私たちが議論している危害の種類に応じて、どれだけのリスクを取るつもりがあるかということです。
ガードレールには、遂行的予測と呼ばれるものを処理する別の役割もあります。答えが未来に影響を与えるため、質問に複数の答えが存在する場合があります。典型的な例は、次の選挙で誰が勝つかという質問です。もしかするとAIは非常に有能であると考えられており、人々はAIの言うことを何でも信じてその候補者に投票するかもしれません。つまり、AIはこの人だとかあの人だとか言えるわけです。

ロブ・ウィブリン: そして、その両方が真実になるわけですね。

ヨシュア・ベンジオ: 両方とも真実になりますね。そうなると、私たちが制御していないように見える方法で、AIが予測を通じてエージェンシーを持ち始めることになります。ガードレールは、予測とそれらの予測の影響を切り離すためにこれを管理します。
より具体的に言えば、ニューラルネットの予測器は、その入力条件において、私たちがこの予測を生成したとしたらどうなるか、たとえば危害の影響はどうなるか、と尋ねる特定のステートメントが常に存在するように訓練されています。したがって、特定の答えを生成するという介入を条件付けると、答えは1つしかなくなります。私はこの予測を出力するつもりだが、その影響はどうなるか、と言っているわけです。
これについてはまだ話すことがありますが、結論としては、この種のリスクとそこから生じる可能性のあるエージェンシーを制御することができ、それを行うのがガードレールの役割だということです。

実践的応用と継続的学習

ロブ・ウィブリン: オラクルAIは構造的に不利であるという長年の懸念があります。他の条件が同じであれば、彼らは知能が低くなるだろうというものです。なぜなら、彼らには実験を行ったり、物事が最も効果的に機能する方法を発見するために行動を起こしたりする選択肢がないからです。そして、これに沿った他の懸念もあると思います。基本的には、AIを知的にする要素がAIを危険にする要素であり、またその逆も然りだという考えです。これが真実である可能性はどのくらいあると思いますか。

ヨシュア・ベンジオ: あなたの質問について明確なアイデアを持つためには、2つの問題を区別する必要があると思います。
1つは、データセットや利用可能なコンテキストなど、利用可能な情報が与えられた場合、最良の予測、あるいはエージェントの場合は最良の行動とは何かということです。
そして2つ目の質問は、より多くの知識を獲得するために世界で実験を行うとしたら、世界に対する理解を深め、世界に対する不確実性を減らすための正しい行動とは何かということです。ちなみに、これは科学者全般の考え方です。AIの科学者ではなく、生物学、化学、物理学を行っている人々のことです。彼らは、もしこの実験を行えば、これら2つの理論の間の曖昧さを解消するのに役立つだろうか、と自問します。これを情報利得と呼ばれるものを使って数学的に定量化できます。そして、優れた確率的予測器を持っていれば、これを、この実験やあの実験を行えばどれだけの情報を得られるかという優れた推定器に変えることもできることがわかっています。
さて、Scientist AIの上にエージェントシステムを構築して、たとえば、良い情報利得を得るためにどの実験を行うべきかを指示させることができます。しかしもちろん、ガードレールを使用することもできます。ですから、人々に危害を加えないと同時に、説明と理論の間の曖昧さを解消するのに役立つ実験が望まれるでしょう。しかしそれはScientist AIでは簡単にできますよね。ガードレールの概念があるからです。ここでのユーザーの目標は情報を取得することであり、安全性の目標は人々に危害を加えないことです。(もちろん、これは単純化しすぎですが)。ですから、その両方を得ることができます。しかしもちろん、これによってエージェントシステムの領域に入ることになり、Scientist AIの全体計画には、非エージェント的で信頼できる予測器の上にどのようにエージェントシステムを開発できるかが含まれています。

ロブ・ウィブリン: 1、2年前に時間を巻き戻すと、ある意味で非常に知識が豊富で非常にスマートなAIモデルがありました。しかし、彼らにウェブページをナビゲートさせようとすると、それに苦労していました。科学的な知能や物事を予測する能力と、現実的な観点で世界をナビゲートする能力の間には、潜在的に非常に大きな違いがあるように思えました。そして、彼らが有用な行動をとれるようになるには、多くの追加の訓練と多大な努力が必要でした。あなたが想像しているようなデータを使って訓練するかもしれないScientist AIが、実用的なレベルではかなり無能になってしまうのではないかと心配していますか。特定のウェブページでこのボタンをクリックするか、といった実験を私たちが走らせるような作業をたくさん行わない限り、人々がモデルに求めていることを実際に学ぶことはないのではないでしょうか。

ヨシュア・ベンジオ: 特定のエージェントがこれを行ったときに何が起こったか、何が観察されたか、その結果はどうであったかの軌跡を使って絶対に訓練することができます。これが、安全性の目標を含む特定の目標を達成するためにどの行動をとるべきかという、適切な条件付き確率を学習する方法になります。
したがって、これは強化学習による訓練とは異なる種類の訓練になりますが、同じリソースを使用することになります。これまでに収集された経験が何であれ、ちなみにそれはRLの人々がオン・ポリシーと呼ぶものである必要はなく、あらゆるエージェントの経験や観察されたあらゆるものを使用できます。つまり、エージェントが物事を行っているだけでなく、世界で物事を観察しているだけでもよいのです。それらすべてはAIにとってデータであり、世界を理解し、結果を構築するのに役立ちます。これを実行したら結果はどうなるか。そして、何らかの目標を達成する確率を最大化する行動はどれか。ある意味では、常に完全に対話的であるものとは対照的に、自分の経験全体を使用してポリシーを導き出すことができるモデルベースの強化学習に近いと言えます。
現在のScientist AIでは、それを使用して新しい結果と新しい観察が生成された場合、新しいデータで再訓練またはファインチューニングを行う必要があります。しかし、企業や学界が研究している継続的学習という同じ研究に乗ることができます。新しい情報が入ってきたときにどうなるかということです。もちろん、入力ウィンドウのようにコンテキストに入れることもでき、Scientist AIでも同じことができますが、ある時点では、それが何らかの形でシステムの重みに統合されることが望まれます。そしてそれが継続的学習がやろうとしていることです。しかしScientist AIについての良いニュースは、現在のAIが直面しているのと同じ問題に直面しており、模索されている解決策がScientist AIにも適用できるということです。

ロブ・ウィブリン: そうですね。このアイデアに対する批判の多く、そして私の質問もそれをいくらか反映していますが、私を含む人々は、訓練方法や使用されるデータ、構造、それが持つアフォーダンスが根本的に異なるAIを思い描いていたということだと思います。
しかしあなたは、実際には驚くほど似たものにできると言いたいわけですね。現在のLLMを訓練するために使用しているデータのほとんどすべてを取り込み、それを少し再フォーマットして再び使用できる。私たちはすべてのさまざまな効率性、すべてのアルゴリズムの改善を使用するつもりであり、入力と出力のセットを少し異なるものにするだけだが、他のほとんどすべての点では多かれ少なかれ同じであると。

ヨシュア・ベンジオ: はい、そうです。

ロブ・ウィブリン: だからこそ、非常に実用的なのですね。

ヨシュア・ベンジオ: ええ、だからかなり早くできると思います。それはむしろ、訓練のための適切なリソースを持っているかどうかの問題です。そして、訓練の目的が異なるため、試してみてどのように機能するかを確認する必要はあります。しかし根本的には、たとえば私たちが事前学習で使用する最尤学習とそれほど違いはありません。ですから、ある意味では事前学習に近く、そしてそれは非常にうまく機能することがわかっています。ちなみに、より難しいRLよりも実際にうまく機能しています。ここでの訓練の形態は私たちが事前学習で行うものにずっと近いですが、例外として、人々が言っていることと彼らが実際に信じていることの違いをAIに教え、人々がすることの模倣ではなく、なぜ人々がそのようなことを言ったのかについて推論するようにAIに強制するのです。

資金調達と今後の実証実験

ロブ・ウィブリン: 私がネットで最後に見たところでは、あなたが率いている組織であるLawZeroは1億ドルほど資金調達をしていました。大抵の非営利団体なら、年末に1億ドルほど集まればかなり満足すると思いますが、あなたは1000億ドル規模の組織を相手にしていることになりますよね。

ヨシュア・ベンジオ: 実際にはそれよりも少ないですが、どう計算するかによります。私たちは慈善団体から約3500万米ドルを集めましたが、はるかに多くの資金を得るためにさまざまな政府と交渉中です。ですから、近いうちに数億ドル規模になるとかなり確信しています。しかしおっしゃる通り、トップのAI企業が持っているものに比べれば、それはまだ微々たるものです。
しかし、概念実証を行うには十分だと思いますし、概念実証があれば、企業を説得して、より大きなシステムや、同じ原則を使用してゼロから訓練されたシステムを訓練するために実際に資金を投入させることができると考えています。

ロブ・ウィブリン: それが変革の理論なのですね。どのような実験を行いたいと考えており、それにどれくらいの資金が必要ですか。

ヨシュア・ベンジオ: さまざまな種類の実験があります。結論から言うと、誠実さの向上を示し、基本的に欺瞞的な行動を排除することを示したいのです。
そして、それは2つのカテゴリーの実験で行うことができます。私たちは、学術組織が訓練してきたような、重みが100億未満などの本当に小さなモデルをゼロから訓練することができますが、私が言及したScientist AIの目的とデータ表現を使用します。これははるかに小さなモデルになるため競争力はありませんが、直接比較することはできます。同じサイズで同じデータで訓練された元のオープンウェイトモデルと、能力と安全性の両方の観点で基本的に比較できます。少なくとも誠実さが私たちが探している主なものです。これが1つの種類の実証です。
もう1つの実証は、おそらく導入にはより近いものの保証が少ない方法ですが、既存の事前学習済みモデルを採用し、おそらくRLモデルではなくベイズモデルから始めて、Scientist AIの目的とデータ表現を使用してファインチューニングを行うことです。これはモデルが大きいため、はるかに有能なモデルになります。ご存知のようにファインチューニングはゼロからの訓練よりもはるかに安価ですが、数学的な保証は失われます。それでもおそらく問題ないとは思いますが。もちろん、どれだけファインチューニングを喜んで行うかによります。
この種の実験で興味深いのは、トレードオフを見ることができるはずだということです。たとえば、ファインチューニングを重ねて訓練を続けたときに欺瞞のベンチマークで何が起こるかを測定すると、それが良くなるという曲線が見えるはずです。
そして、それが私たちが期待していることです。次に、能力が低下しないことも示したいのですが、ちなみにこれは厄介です。残念ながら、私たちの実験ですでにわかっていることですが、少なくともほとんどのオープンウェイトモデルはベンチマークで不正をしているからです。どういうことかというと、何らかのファインチューニングを少しでも行うとすぐに、ベンチマークでのパフォーマンスが低下するのです。

ロブ・ウィブリン: なるほど。テスト対策をしっかり教えてしまっているわけですね。

ヨシュア・ベンジオ: 彼らはおそらくベンチマークに過剰適合(オーバーフィット)しているのでしょう。
ですから、これを回避する方法を見つける必要がありますが、これは可能だと確信しています。
この2種類の証拠が得られることを期待しており、それはおそらく、人々を説得して数億ドルだけでなく、ゼロからフルスケールのモデルを作るのに必要な数十億ドルを投資させるのに十分かもしれません。

汎化と因果構造

ロブ・ウィブリン: 同条件で比較して、あなたが思い描いているタイプのモデルと、同じデータ量、同じ計算量を用いた標準的なモデルを訓練したとします。Scientist AIの方がより誠実で安全だと私たちは考えているわけですね。能力の面では、予測とエージェンシーの両方において、良くなると思いますか、それとも悪くなると思いますか。また、どの程度良くなる、あるいは悪くなるのでしょうか。

ヨシュア・ベンジオ: 能力の面では、推論が向上するため、より良くなると期待しています。まだ言及していなかった側面の1つは、モデルが世界の因果構造を利用するときに、分布外への一般化がよりうまくできるという優れた科学的証拠があるということです。これは私が取り組んできたことであり、機械学習コミュニティの多くの人々が取り組んできたことです。これは非常に興味深い概念に関係しています。世界は変化しますが、それでも基礎となる因果メカニズムや、世界がどのように機能するか、物理法則のような変化しないものがあるということです。それらは変化しません。したがって、世界で様々な出来事が起こり、表面上は違って見えるようになるため、データの分布は変わるかもしれませんが、物事のあり方に対する根底にある科学的な説明は同じなのです。
そして、もしこれらの説明を発見するように推奨されるようシステムを訓練でき、システムが介入の概念を理解しているなら、つまり、誰かが世界で何かをしたとき、それは分布を変えることはできても、メカニズムや根本的な物理法則を変えることはできないということを理解しているなら、モデルがそのような区別を行えるようになれば、分布の変化に対してはるかに堅牢になるでしょう。これは、今のところ私たちが良い答えを持てていない、ニューラルネットと機械学習全般にとっての難しい問題です。
そして安全性の世界では、これは現実の問題ですよね。私たちは本当に、世界が変化するという事実、データの分布が変化するという事実に対して、ガードレールが堅牢であることを望んでいます。ガードレールは、訓練されたものとは大きく異なる質問をされることになるため、因果構造を理解していることで分布外へのより良い一般化ができるシステムを持つことは、大きなプラスになるでしょう。

ロブ・ウィブリン: これを表現する一つの方法として、私たちが訓練している現在のモデルは、人々が何を言うかを予測するように設計されており、彼らは何を言うかを予測するための副次的な効果として、あるいは手段の一部として、真実について何かを理解することを学ぶ。それに対してあなたのモデルは、何が真実であり、世界がどのように機能しているかを解明することを主な指向とし、その上で、その副次的な効果として、付随的に人々が何を言うかを理解することを学ぶ、と言えるでしょうか。

ヨシュア・ベンジオ: いいえ。なぜなら、私たちは世界で実際に何が起こっているかについての十分なグランドトゥルースを持っていないからです。もちろん、科学的なデータや証拠はありますが、Scientist AIは、人々や社会に関する情報源として、主に人々が言っていることのようなコミュニケーション行為を使用します。
そしてそれは非常に豊富な情報源です。問題は、人々の言うことをただ信じて繰り返すわけにはいかないということです。現在のLLMは、たとえば地球は平らであるというような、間違ったことが何度も繰り返されているのを見ると、それが十分に繰り返されていれば、それを言い始めるでしょう。

ロブ・ウィブリン: それは絶対に本当ですか。現在の彼らは、陰謀論をそれほど信じていないように思えるからです。多くの人が地球が平らだと言っているからといって、彼らもそう言うわけではありません。他にも例はありますが、概して彼らは陰謀論を拒絶しています。

ヨシュア・ベンジオ: もし彼らが陰謀論を理解しており、それを言う人のペルソナを演じていないのであれば、あなたの言う通りです。しかし、陰謀論ではなく、あらゆる種類のバイアスに対する他の多くの証拠があります。これらのバイアスは、少数の人が信じているようなものではなく、むしろ大多数の人が間違ったことを信じており、それがたとえば差別を誘発するようなものです。そこでの証拠は非常に明確です。現在のLLMは、現在の一般大衆がバイアスを持っているのと同じ一般的な方法でバイアスを持っています。
そしてScientist AIは、そう簡単にはそれに引っかからないでしょう。なぜなら、Scientist AIは、人々が言っていることに対する良い説明は何かということと、その説明が、AIが知っている他のすべてのことやこれまで見てきたことと一貫していなければならないということの両方を探求するからです。

ロブ・ウィブリン: 昨年のこの提案に関する議論は、数学的な理論的保証、つまり安全性保証の側面の議論に偏っていたように感じます。
今は、おそらくより安全になり、より良いと考える正当な理由があるので、とりあえず何かを出してみて様子を見ながらそこから反復していくという、スクラッピーな(泥臭い)80対20の法則の方向にあなたが動いているように感じますし、私たちもそう動くべきだと私は感じています。同意されますか。

ヨシュア・ベンジオ: 同意します。しかし、正しいスクラッピーな選択をするために理論を指針として使うことも非常に重要だと考えています。たとえば、Scientist AIの数学的理論にはいくつかの要件が見られます。たとえば、良い予測の仕方を学ぶために強化学習を使用しないこと。実際にはそれよりも厳しく、訓練方法が予測の結果について何のシグナルも受け取らないようにすることなどです。アルゴリズム的には、これらは予測器の訓練方法に対する非常に小さな変更のように見えるかもしれませんが、これらは私たちに保証を与えてくれるので、理論から導き出される特定の要件を使用するほうが良いのです。
スクラッピーであることについての部分は、大規模モデルの訓練にかかるコストや、エンジニアリングが効率的でなければならないことなどが理由であり、私たちはその点については妥協をいとわないべきだと思います。私たちの計画で、既存のシステムの大規模なオーバーホールを必要とせず、単なるアドオンとして機能し、すでにいくつかの問題を軽減できるガードレールとして使用可能な、非エージェント的な予測器を優先しているのはこのためです。それは、多くの投資を必要とするものよりもずっと採用される可能性が高いのです。単にモデルを訓練するコストのためだけでなく、人々は現在のレシピに集中しており、企業間の競争が非常に激しいため、企業が注意を向けることさえ非常に難しいからです。お金でさえなく、少し異なるやり方への注意力の問題なのです。

グランドトゥルースと社会科学における事実の扱い

ロブ・ウィブリン: AIやコンピューターサイエンスにあまり詳しくない多くの人にとって、この提案全体についてすぐに頭に浮かぶ懸念は、私たちが検証済みの事実であり、グランドトゥルースであり、私たちが目指すべきであると考える事柄のデータベースを構築するというアイデアについてだと思います。なぜなら、それは人文科学の訓練を受けた人々を心臓発作のような状態に陥らせるようなことだからです。私たちが絶対に真実だと確信している事柄のコーパスがあるというアイデアです。ある種の哲学においては、私たちが本当に確信できるものは何もありません。あるいは少なくとも、私たちが最も関心を持っている分野では、物事は激しく争われており不確実に見えます。これはこの提案にとって大きな問題でしょうか、それとも近いものであれば十分良いのでしょうか。もし私たちが主に自信のある事柄を入れれば、モデルはそれを近似し、検証済みとして入力されたものに大規模で体系的な偏りがない限り、そこにある誤りを見抜くことができるのでしょうか。

ヨシュア・ベンジオ: ええ、数パーセントの誤差は大きな違いを生まないと私はかなり確信しています。また、簡単に入手できる保証された真実もあります。
ちなみに、それは推論するようにシステムを訓練するために現在使用されているのと同じデータです。私たちが証明を持っている数学の定理などです。Leanなどの証明を意味しており、それらは検証可能です。そして、実際に最も重要な情報源はコンピュータープログラムです。したがって、私たちは現在、特定のプログラムを実行した結果がどうなるかを予測するように最先端のモデルを訓練しています。つまり、彼らは基本的にプログラムを理解しており、それはすべて確固たる事実のようなものです。プログラムを受け取り、それを実行し、何らかの出力を得る。プログラムを理解するAIは、何が出てくるかを予測できるはずであり、これらは議論の余地のないものです。

ロブ・ウィブリン: ええ、でも私たちは社会的な世界により関心があると思います。

ヨシュア・ベンジオ: 全くです。完全にその通りです。しかし私が言っているのは、確固たる事実のかなり簡単な情報源があるということです。もう1つの情報源があり、これについては少し注意深く、おそらく異なる種類の構文を使用する必要があるのですが、それは科学的観察です。世の中には多くの科学的データがあります。科学者はデータを共有します。したがって、それは確固たる事実ですが、観察に関する事実です。もちろん、観察にはノイズが含まれている可能性があり、あるいは実験者が不正をした可能性すらあります。そこには少しノイズがありますが、それで構いません。それは観察されたと言えるものです。
そしてあなたの言う通りです。私たちが関心を持つ最も興味深い質問は、これらではない領域、つまり科学や数学、コンピューターではない領域の質問であり、これらについては私たちはコミュニケーション行為しか得られません。しかしScientist AIの訓練手順は、AIシステムの中で「エクスプレイナー(説明器)」と呼ばれる説明を生成する部分に対し、コミュニケーション行為の説明のためにコミュニケーションの構文ではなく、この事実に基づく構文を使用する説明を導き出すよう強制します。
ですから、誰かが主張をして、誰かが主張をしたことを観察した場合、説明の一部はその主張が真実であるか否かということになります。Scientist AIがそれが真実かどうかをコミットする必要があるわけではありませんが、これを説明する方法の一部として、それが真実である確率にコミットする必要があるのです。そしてこれにより、ニューラルネットは、たとえそれらについて確信が持てなくても、事実に基づく基礎となる説明について学ぶことを余儀なくされ、結果としてグランドトゥルースが存在しない領域でのステートメントの構文とセマンティクスを学ぶことになります。
さて、グランドトゥルースがない場合、これらが現実のものであり、作り話ではないことをどうやって知るのかと言うかもしれません。それは、たとえば科学で見られるように、最も予測精度の高いモデルとは、世界の実際の性質を使用して表現されたモデルだからです。科学者が世界についての説明を構築する方法は、「誰かがこれが原因でこれが起こると言った」という形式のステートメントを組み合わせることではありません。
因果関係の間には、私たちが直接観察できない潜在変数が存在します。その人が実際にどう思っていたのか、その人の意図は何なのか、そしてどのような人がそのコミュニケーションを受け取っているのか、といったことです。これらは世界の実際の性質であり、コミュニケーション行為ではありません。因果関係はそのレベルで起こっています。
すべての科学理論は、世界の実際の性質と、それらが互いにどのように因果関係を持っているかについてのものです。そしてそれには理由があります。数学的に、人々が言うことではなく、世界で実際に何が起こっているかという言語で世界に対する説明を表現すると、より良い予測が得られるのです。

ロブ・ウィブリン: はい、これは私が非常に確信を持てない部分です。データベースに検証済みの主張がまったくない状態で、このタイプのScientist AIを訓練することはできるのでしょうか。

ヨシュア・ベンジオ: いいえ。

ロブ・ウィブリン: できないのですね。それを持つ必要があります。しかし私たちは、予測する対象としての検証済みの主張があるという構造を持たない現在のモデルも、自分たちが行っていることにとって有用であるという理由で、内部的に真実を表現していると考えています。しかしこのケースでは、そのようには機能しないわけですね。

ヨシュア・ベンジオ: いいえ、内部的に真実を表現しているだけでは十分ではありません。AIがどう考えているかについて私たちがクエリを出せる言語を学習する必要があるのです。したがって、私たちがこれらの検証済みの真実を必要とする主な理由は、それらが真実かどうかということではありません。ある意味で、人間の心理について話しているときに、ある定理が真実かどうかなど誰が気にするでしょうか。なぜそれが重要になるのでしょうか。唯一重要なのは、誰かが何かを言ったと表現するための構文とは対照的に、世界の実際の性質を表現するための構文をAIに教えることです。そして、私たちがその構文を教えたい理由は、後で同じ構文を使用しつつ、人々や政治などに関するステートメントといった異なる種類のステートメントに対してクエリを出せるようにするためです。

ロブ・ウィブリン: では、代わりに私たちができることは、数学やコンピューターサイエンス、そしておそらくハードサイエンスにおける検証済みの事実を大量に入力することですね。地政学や心理学のような領域では、検証済みのものはほとんどないかもしれませんが、少なくともAIはステートメントに対して検証済みという概念を持ちます。そして、それを全体に移植し、さまざまな情報源に信頼性を割り当てるようになるわけですね。誰が誠実で誰がそうでないかという感覚を持ち始め、そしてこれらの他の領域へ分布外に一般化しようとするということですか。

ヨシュア・ベンジオ: はい、そうです。そしてそれは、実際の真実についての異なる仮説の一貫性を使用します。特定の仮説は、システムが世界について持っている他のすべての仮説とどれくらい一貫しているかということです。まさに科学者が行うようにです。誰かが何かの説明を思いついたとして、その説明が他の証拠によって私たちが強く信じている他の事柄と一貫していなければ、私たちはその説明を拒絶します。同じことが起こります。その訓練手順において、AIは単に次のことを予測するよう訓練されているわけではありません。それはデータの中にあるものをただ自己回帰的に予測するようなものです。AIは内部的に一貫しているようにも訓練されており、それらの説明は互いに一貫していなければならないのです。

ロブ・ウィブリン: では、私たちがより強固な基盤を持っていると感じるハードサイエンスの多くの検証済みの事実で訓練されたモデルを想像してみましょう。
おそらくAIは、簡潔さ、良い情報源、一貫性を求めることを学習します。それが心理学などの他の領域にうまく一般化されていくのも想像できますし、完全に崩壊してしまうのも想像できます。それが他の領域にうまく一般化されるかどうかについて、私たちは何か見通しを持っていますか。

ヨシュア・ベンジオ: 失敗する可能性があるとすれば、基本的にはある質問について十分な自信が持てないと感じることによるものです。

ロブ・ウィブリン: つまり、いつも「わかりません」と答え始める可能性があるということですね。

ヨシュア・ベンジオ: ええ、しかしAIは実際に「わかりません」と言っているわけではないことを理解する必要があります。AIは何かが真実である確率として0から1の間の数値を生成しているのです。そして実際には、その数値の周りに信頼区間も生成しています。したがって、一部の領域では、AIが見たデータに十分な情報がないか、その領域について優れた理論を推論できるほど長く訓練されていなかった可能性があります。そして結果として、最終的には、完全な自信から遠く離れた、0からも1からも遠い確率で答えることになります。
しかし、それこそが私たちの望むものです。私たちはそのような認識論的謙虚さと誠実さを求めています。なぜなら、本当に深刻な安全性の問題に至った場合、現在の最先端モデルで見られるような、しばしば自分の答えに過剰な自信を持つようなものよりも、本当のところはわからないときに「わからない」と言ってくれるものの方が良いからです。

企業のインセンティブとグローバルな民主的ガバナンス

ロブ・ウィブリン: Scientist AIは実際に真実を理解するようにより訓練されているため、より能力が高くなるかもしれないとおっしゃいましたね。私はその点について少し懐疑的です。なぜなら、もしそれが本当なら、企業はこのアプローチにもっと投資しているはずだからです。そこにもっと資金を投入し、もっと多くの人を配置するでしょう。彼らは単に間違いを犯しているのだと思いますか。

ヨシュア・ベンジオ: 彼らが私がやっていることを本当に理解しているとは思えません。彼らの名誉のために言えば、私はまだ数学的理論を発表していません。ここにはおそらくもう一つの要因が働いていると思います。
トップ企業の内部の人たちと議論したことに基づくと、彼らは短期的な生き残り、つまり競争を続けることに非常に集中しており、すべての注意力、いわゆる「コードレッド」のようなものを、現在のレシピに対する小さな漸進的な変更に注いでいるのです。
異なるレシピを検討することは、資金だけでなく、人材やコードの面でも投資になります。今の彼らならそれをやれるでしょうし、それを行うための資金も持っています。しかし、ここで行われているのはむしろ精神的なフォーカスのようなものだと思います。これは悪意から来ているのではなく、企業間の非常に激しい競争から来ているのです。

ロブ・ウィブリン: つまり、AnthropicやOpenAIのようなトップ企業の1つにとって、これに賭けてスタッフの20%をこちらに振り向けることはあまり魅力的ではないという意味合いがありますね。もし失敗すれば、基本的に主な競合他社に遅れをとることになるからです。
一方で、現在のLLMエージェントのパラダイムで支配的に勝てておらず、現状では大きく遅れをとっていると感じている企業にとっては、これに賭けることにはある種の魅力があります。なぜなら、これが大成功だと判明した場合、一気に飛躍して前に出ることができるからです。現在うまくいっていないと感じている企業の1つを説得して、この非常に代替的な方法に賭けさせるチャンスはあると思いますか。

ヨシュア・ベンジオ: それは興味深い考え方ですね。あなたの言っていることはもっともだと思います。

ロブ・ウィブリン: 候補となる企業がどこかははっきりしませんが。

ヨシュア・ベンジオ: 実際には、政策的な問題により関連するかもしれない可能性もあると考えています。ここでの私にとってのコンテキストは次のようなものです。
どのような未来が安定しており、非常に強力なAIから生じる可能性のある、壊滅的な制御の喪失や壊滅的な悪用などを避けることに加えて、AIと過度の権力集中によって推進される世界的な独裁政権に変わらないでしょうか。
そして、ゲーム理論のジレンマ、基本的には囚人のジレンマ型の問題があるため、企業や国は合理的な決定を下しますが、それは競争に勝ち残るために安全性や公共の利益を切り捨てるなど、全体としては悪い決定になります。このため、私たちが最終的に迎える世界は、非常に強力なAIを制御する権力が1つか2つの企業、あるいは1つか2つの政府の手に集中するのではなく、分散されている世界である方がはるかに良いと思います。
どういう意味かと言いますと、一人、一つの企業、一つの政府が権力を持ちすぎないように、あるいは極端な場合、すべての権力を持たないようにするにはどうすればよいでしょうか。非常に古いアイデアがあります。
それは民主主義と呼ばれるものです。それがこの問題の核心です。現在の私たちの民主的制度がこれらの変化に対処するのに十分堅牢であるとは思いませんが、原則はそこにあります。
より具体的に言えば、互いを支配するためではなく、安全に人類の利益のためにAIを開発することを共同で決定する国々の連合があったと想像してください。それははるかに良く安全な世界になるでしょう。
なぜなら、私たちが現在閉じ込められているこの競争の問題を打ち破ることができるからです。
さて、それが意味するコントロールとは、企業を巻き込むことも可能ですが、
企業の上には人々の代表である政府のような存在が必要です。そして、AIがもたらす力によって腐敗する可能性があるため、単一の政府であることは望ましくありません。ですから、例えば検証を伴う条約を結ぶ政府の連合のようなものが望ましいでしょう。
そうすれば、互いを信頼していなくても、条約がないよりは条約がある方を好むことができます。
私があなたの質問に関連してこれを持ち出した理由は、最も高度なAIシステムに資金を提供するのが複数の政府の集まりである世界の方が良いと私が考えているからです。つまり、
もちろん彼らは企業と協力することはできますが、究極的には
決定権は政府のレベルにあることを私たちは望んでいます。しかし、単一の政府ではありません。なぜなら、それではまた権力の奪い合いに戻ってしまうからです。もし10の政府が協力して
取り組んでおり、誰も完全な権力を掌握することができないなら、たとえそこに悪い人間がいたとしても、
集団的な意思決定はそうした事態に対してより堅牢になる可能性が高いのです。
したがって、この種の連合は、現在の方法を飛躍的に超え、安全性を提供できるAIの開発に関心を持つでしょう。なぜなら、安全性は公共財だからです。実は、AIの場合、それは世界的な公共財であり、

では、これはどういう意味でしょうか。一人の人間、一つの企業、一つの政府が過剰な権力を持たないようにするには、どうすればよいのでしょうか。極端な場合、すべての権力を独占させないためにはどうすればいいのでしょうか。それには、民主主義という非常に古くからのアイデアがあります。まさにそれが重要なのです。現在の民主主義の制度が、こうした変化に対応できるほど強固だとは思いませんが、その原則は存在しています。

もっと具体的に言うと、複数の国からなる連合があり、互いを支配するためではなく、人類の利益のために安全にAIを開発することを共同で決定したと想像してみてください。現在私たちが囚われている競争という問題を打破できるため、それははるかに良く、安全な世界になるでしょう。

これが意味するコントロールとは、企業が関与する可能性もありますが、企業の上に政府のような国民の代表を置く必要があるということです。そして、単一の政府ではいけません。単一の政府は、AIがもたらす権力によって腐敗する可能性があるからです。ですから、たとえば検証を伴う条約を結ぶ政府の連合のようなものが必要になります。そうすれば、たとえ互いを信頼していなくても、条約がないよりも条約がある方を選ぶようになります。

質問に対して私がこの話を持ち出した理由は、最先端のAIシステムに資金を提供するのが複数の政府の集まりである方が、より良い世界になると考えるからです。もちろん企業と協力することはできますが、最終的には決定権を政府のレベルに置きたいのです。しかし、単一の政府であってはなりません。それではまた権力の奪い合いに戻ってしまうからです。10の政府が協力し、誰も完全な権力を持てないようにすれば、たとえ一部に問題のある者がいたとしても、集団的な意思決定によってそうした事態に対してより強固になる可能性が高くなります。

ですから、こうした連合は、現在の方法を飛び越えて安全性を確保できるAIの開発に関心を持つはずです。なぜなら、安全性は公共財だからです。実際、AIの場合、それは地球規模の公共財ですよね。各地域や国だけで解決できる問題ではありません。

多国間連携によるAIガバナンスの可能性と課題

ロブ・ウィブリン: なるほど。多国間の政府というアイデアに対してさえ、警戒する人は多いと思います。10や20の政府が集まったとして、まず彼らが協力して世界の他の国々を抑圧する可能性があります。また、後になってその連合内の一つの政府が支配権を握ってしまう可能性もあります。さらに、政府が国民を完全に代表していない可能性もあります。20人のトップが権力を握り、自国民までも抑圧するということもあり得ます。ですから、企業がベストを尽くすよりも良い方法なのかどうかは、完全には明白ではありません。少なくとも企業はまだ独自の軍隊を持っていませんからね。

ヨシュア・ベンジオ: それらの国々の間の契約において、使命や各国が果たすべきコミットメントを明確にする必要があります。理想的には、AIの恩恵も含め、公共の利益のために行動する価値に同意する民主主義国から始めるべきです。そうすれば、先ほど言ったように、一部が問題を起こしたとしても、それに対して強固な体制を築けます。あるいは、ある時点でその輪を、非民主主義国も含めた全世界に広げていくべきです。

しかし、たとえば第二次世界大戦後に国連を設計した人々の希望に似た形で、ゲームのルールを設定できるようにしたいのです。基本的には人権の一般原則と権力の共有です。もっとも、私の国の首相やマーク・カーニーが言っているように、ところで私たちはそれを失ってしまいましたし、もしかすると一度も効果を発揮していなかったのかもしれません。しかし、そのような世界でなければ、AIは権力や支配の道具に変えられてしまったり、競争のために狂ったようなリスクを冒すことになってしまいます。

ですから、私たちが現在陥っている、ゲーム理論における競争の最悪なシナリオから抜け出す必要があります。そして、その権力を乱用できる単一のプレイヤーの手に渡らないようにしなければなりません。これが確実に機能するという保証があると言っているわけではありません。しかし、技術の世界的な安全性と有益な利用を達成する方法として、このような目標に向かって努力することは良い計画だと思います。

ロブ・ウィブリン: カナダ、イギリス、EU、オーストラリアのような国々の連合が、巨大企業3社と同じ土俵で競争するのは非常に難しいように思えるというのは興味深い考えです。しかし、もしかしたら彼らは、より優れた別のパラダイムを生み出し、そこに賭けるチャンスがあるかもしれません。つまり、より安全で、潜在的にはより高い能力を持つ可能性があり、巨大企業が現在本格的に追求しようとさえしていないパラダイムです。

ヨシュア・ベンジオ: ええ、まさにその通りです。そして、これに2つのことを付け加えたいと思います。1つ目は、技術が進歩し続けるにつれて、AIシステムの安全性という要素がおそらくより重要な部分になっていくということです。ですから、より高い信頼性を提供する技術にアクセスできる国々は…

ロブ・ウィブリン: 実際には、より多く導入できるかもしれないと。

ヨシュア・ベンジオ: また、彼らはある意味で、国際レベルで交渉するためのカードを持つことになります。ここで、前回のダボス会議でマーク・カーニーが語った言葉を少し紹介させてください。彼は地政学や国々について語る中で、テーブルにつくか、それともメニューに載るかのどちらかだと言いました。

つまり、中堅国は集まって確実にテーブルにつく必要があり、そうしなければ、彼が呼ぶところの覇権国に簡単に生きたまま食べられてしまうだろうということです。これは興味深い点だと思います。なぜなら、現在の技術を飛び越えたり、安全性といった特別なカードを持ったりする国々の連合があれば、権力が分散された状況を必然的に作り出せるからです。そうすれば、テーブルにおいて対等に交渉できるようになります。

安全なAIモデルの商業的可能性

ロブ・ウィブリン: 仮に、Scientist AIが現在あるモデルと同じだけの計算リソースとデータを投入したものの、能力的には劣っていたとしましょう。それでも、はるかに安全で信頼性が高く、リスクの高い用途において異常な行動をとる可能性が低いのであれば、商業的な市場が生まれる可能性はあるでしょうか。軍事や銀行など、今日私たちが持っているエージェントを導入することに慎重になっている企業はたくさんあると思います。常に信頼できるわけではないからです。壊滅的な結果を引き起こしかねない場所では使えません。そうした理由から、商業的にこのようなモデルのニッチな市場が存在すると思われますか。

ヨシュア・ベンジオ: ええ、Scientist AIの初期バージョンがおそらく導入されるのは、まさにそうした分野になるでしょう。そうしたものへの需要が最も高く、能力と安全性のトレードオフがあったとしても商業的な実現可能性をそれほど損なわないからです。もっとも、私自身はトレードオフが本当にあるとは思っていませんが、まずは構築してみる必要があります。ですから、それらの分野は自然な導入先になるでしょう。しかし、エージェントが私たちの社会にますます導入されるようになるにつれて、エージェントの信頼性が重要なセールスポイントになっていくと思います。そのため、科学的な根拠に基づいて人々が信頼できる、こうしたガードレールを組み込むよう、企業に対する圧力は強まっていくでしょう。

ロブ・ウィブリン: 視聴者の中には、AI業界の方々や慈善活動家の方々がたくさんいます。LawZeroで働くことについて、彼らにアピールしたいことはありますか。同じようなアイデアを持つ組織が他にもあるのかどうかはわかりませんが、資金的な支援についてもいかがでしょうか。

ヨシュア・ベンジオ: 技術的に強力な人材がLawZeroとそのScientist AIプログラムを支援してくれればくれるほど、そしてそれを加速させるための資金が集まれば集まるほど、私たちが求めているポジティブな影響をもたらす可能性は高くなります。ですから、今のところは主に理論的なアイデアにとどまっているものを、世界に影響を与えるものへと変換することには、大きなメリットがあります。すでに良いスタートを切れていると考えていますが、より多くの研究者やリサーチエンジニアがいれば、十分な速さで良い結果に到達できる可能性がはるかに高まります。そして私たちは特に、この使命に深く共感し、その実現に向けて身を捧げたいと考えている方々に関心を持っています。

慈善活動の面でも同じです。壊滅的なリスクを懸念し、少なくとも有望な理論的保証を持つひとつの道を後押ししたいと考えている方々に、賭けていただきたいのです。残念ながら、現在企業がとっているいたちごっこのアプローチ以外に、私には多くの道があるようには見えません。解決策を見つけられなかった場合の結果が甚大になり得ることを考えると、私たちは多様化を図り、こうした投資を行う必要があると思います。

プロジェクトの展望と社会の理解度

ロブ・ウィブリン: もし、AI分野の最も優秀な能力を持つ人々の間でこのプロジェクトへの関心が大幅に高まり、資金が流入したとしたら、今後3ヶ月、6ヶ月、9ヶ月、12ヶ月の間にどのようなことが達成できるとお考えですか。

ヨシュア・ベンジオ: 私たちが計画している短期的な取り組みは、文脈化パイプラインと呼んでいるものを公開することです。これはデータ処理のことですが、ちなみに、何が検証された真実であるかを人間が特定する必要はありません。個々のデータソースを見るだけでいいのです。これは私たちが検証済みと見なすソースか、これにはどのカテゴリ、どの構文が使えるか。しかしそれは、個々の発言のレベルではなく、データベース全体などのレベルでエンジニアが決定できることです。

2つ目は当然ながら、小規模なガードレール、あるいは既存のオープンウェイトモデルをファインチューニングして得られるガードレールです。人材がどれくらい集まるか、エンジニアリングの課題にどれくらい早く対処できるかにもよりますが、これはすぐに実現できる可能性があります。これらが短期的な目標です。そしてもちろん、最も強力な保証を得るためには、エージェントとしての機能を持つScientist AIのバージョンを早く進めたいと考えています。しかし、それが最も野心的なものであり、数ヶ月ではなく数年かかるかもしれないことも自覚しています。

ロブ・ウィブリン: 主要企業から出てくる情報を見ていると、本当に熱狂的なペースで進んでおり、ただフロンティアモデルを前進させることだけに信じられないほど集中しているような印象を受けます。少し懸念しているのは、たとえ近い将来にあなたが非常に良い実験結果を出したとしても、彼らがそれに注意を払い、それが自社の計画にどう影響するのか、あるいはあなたがトレーニングしているようなモデルが有用な追加のモニターになるかもしれないと考える余裕すらあるのかどうかということです。それについて何かできることはありますか。あなたもその懸念を共有していますか。

ヨシュア・ベンジオ: ええ、懸念しています。彼らにはその余裕はあると思いますが、注意を払わないかもしれません。私たちにできる最善のことは、彼らが注意を払わざるを得ないような十分な証拠を提供することだと思います。

また、私は技術的な作業に加えて、最大のリスクについての一般の人々や政策立案者の理解を深めようと努めています。それが彼らの意思決定において一定の役割を果たすと考えるからです。大衆が安全性についてより懸念を抱くようになれば、この問題にさらに多くのリソースを割り当てるよう、企業に対して直接的および間接的な圧力がかかるでしょう。大衆が懸念を抱けば、政府は例えば責任を問う形などで規制を行ったり、法的なインセンティブを提供したりする可能性が高くなります。そうすれば、私が提案しているようなものをスケールさせるために必要な安全性への投資が、短期的にも利益をもたらすと彼らに考えさせることができるかもしれません。

全般的に安全性の問題については、起きていることに対して完全に合理的になるのを妨げる、認知バイアスのような心理的な障壁があると思います。それは政府でも同じですし、一般大衆でも、企業内や学界においてさえも同じです。私たちが集団として正しい決定を下せていない理由を説明できるあらゆる要因が存在しています。

つまり、ゲーム理論の側面もありますが、個人の心理もあるのです。例えば、私たちは皆、自分の仕事に良い感情を抱きたいと思っています。それはつまり、自分の仕事が有害であるよりも有益であると考えようとするバイアスがかかる可能性があるということです。これは業界で働く人々にも当てはまります。AIを研究している学界の人々にさえ当てはまります。彼らは自分の仕事が世界を破壊するのではなく、より良い世界をもたらすと感じたいからです。

他にも要因があります。気候変動に対する態度に見られるような要因です。外を見ても壊滅的な気候変動は起きていないし、ロボットが人を殺しているのも見えないというように、リスクが目の前にあるものでなければ、あまり深く考えません。それよりも、目の前の差し迫った悩みにずっと関心が向いてしまうのです。

ですから、それが真の課題だと思っています。私たちが集団として冒しているリスクの大きさを、理屈ではなく直感レベルで人々に理解してもらうことができれば、状況は変わる可能性があります。しかも、かなり急速に変わるかもしれません。パンデミックの始まりの後、政府がいかに早く劇的な形で行動を転換させたかを考えれば、問題を深刻に受け止めた時には素早く動けることがわかります。そしてそれは通常、大衆がその問題を深刻に受け止めているかどうかに突き動かされるものなのです。

不確実性と予防原則

ロブ・ウィブリン: ええ。私の印象では、企業にいる人々は、自分たちの日常的なアライメント手法が非常にうまくいっていることに満足し、感銘を受けている一方で、ある意味では制御を失いつつある、あるいは以前持っていた安全性の保証を失いつつあることも理解しているようです。モデルが彼らを出し抜く可能性をはるかに高め、評価されていることをはるかに認識するようになるからです。ですから、ある意味では彼らは自分たちがやってきたことに満足していると同時に、これから起こることに対して恐怖も抱いているのだと思います。そしてその状況は、あなたにとっての突破口を生み出していますね。

ヨシュア・ベンジオ: ええ。ここで、安全性と壊滅的なリスクに関する議論全体における、非常に重要な側面を持ち出したいと思います。それは、不確実性があるということです。言い換えれば、物事がどのように展開していくのか、私たちにはわからないのです。現在企業が安全性に関して行っているゲームが十分なものになるかどうかはわかりません。しかし、もし彼らが失敗し、私たちが能力の向上を続けた場合、その結果は本当に恐ろしいものになる可能性があります。

ですから、ある壊滅的な出来事が起こる確率がわからなかったとしても、私たちは予防原則を適用すべきなのです。それが意味するのは、ある行動が非常に悪い事態につながる可能性がある状況にありながら、その確率が1%なのか90%なのか、あるいは0.1%なのか定かではない場合についてです。実際にはわからないわけです。そして私たちのケースでは、そのような不確実性が存在しています。なぜなら、非常に懸念を抱いている尊敬すべき人々がいる一方で、大丈夫だろうと考えている同じく尊敬すべき人々もいるからです。

ですから、もしあなたが運転席に座っていて、こうした異なる声に直面したなら、たとえ同じ人でも、ある日は大丈夫だと言い、別の日はこれは非常に危険かもしれないと言うような状況であれば、腹をくくるべきです。潜在的に壊滅的な事態に関する不確実性がある以上、予防措置をとって行動すべきなのです。つまりこの場合、AIの安全性研究にさらに多くの投資を行い、公共の利益に関して企業がより良い行動をとるよう促すインセンティブに、さらに多くの投資をすべきだということです。ちなみに、これは私たちが他の産業でも行ってきたことと全く同じです。しかし、私たちは腹をくくらなければならない、つまり大きな不確実性があるということを、はっきりと指摘することが重要です。

ロブ・ウィブリン: そしてそれは今後も続くでしょうね。

ヨシュア・ベンジオ: 今後も続くでしょうね。なぜなら、事態全体に対して安心感を抱きたい人にとって、安心させてくれる声だけに耳を傾けるのはあまりにも簡単だからです。そして実際のところ、私たちは自分の心の中でも同じことをしています。ですから、不確実性が存在し、そのリスクが非常に高いということに素直にならなければなりません。そしてそれが、予防の側に立つという私たちの意思決定を導くはずです。

自律的なAI開発に対する要求と実験の必要性

ロブ・ウィブリン: では、もし少しペースを落とすことができれば、Scientist AIの提案にとっても、そして全体としての私たちの可能性にとっても良いことのように思えます。特に、最初の機会にAIの研究開発を完全に自動化するというところに飛び込まなければですが、現在私たちはまさにその道を進んでいるように見えます。物事がどのように進んでいるかを評価し、代替案を検討するための余分な時間を少し稼ぐという点で、政府や企業に対するあなたの主な要求は何ですか。

ヨシュア・ベンジオ: 企業については、単にリスクを示すだけでなく、人々がAIに対して抱いている誤った信念を覆すような実験の設計に、研究リソースをもう少し投資すべきだと思います。もう少し明確に言いましょう。私たちが選んだわけではない目標を持つ機械が存在し得るということを、多くの人は実際には信じていません。しかし、それが現在の科学的現実なのです。疑いの余地はありません。

ロブ・ウィブリン: そう考えるのは、ただ注意を払っていなかっただけだとは思うのですが。しかし、多くの人がそうではないのでしょうね。

ヨシュア・ベンジオ: しかし、圧倒的多数の人々は、彼らが意識を持つことはあり得ないとか、その他の言い訳をしたり、あるいは私たちのような機械を作ることは不可能だと直感的に感じています。人々が口にするものの、実際には理にかなっていないことがたくさんあります。ですから私は、自分自身の目標を持つエージェントを私たちが作っているということを、大衆や政策立案者に教育し、気づかせる絶好の機会がここにあると考えています。そして今のところ、それらの目標が私たちの望むものと一致するのか、それとも安全に関する指示に反するものになるのか、確証を持てていません。これは非常にシンプルなメッセージですが、私は——

ロブ・ウィブリン: それさえも浸透していないと。

ヨシュア・ベンジオ: データです。それをうまく提示し、簡単に疑問視されないような方法で提示することが、公の議論に大いに役立ちます。そしてそれは、専門家ではなく、システムカードを読むことのない一般の人々が実際に理解できるような方法で行われなければなりません。

ロブ・ウィブリン: あなたや私なら納得するような事例はたくさんあります。しかし、モデル側の誤解だったのだろうとか、私たちがYを求めていたのにXを求めていると勘違いしたのだろうと言って、人々は一蹴してしまうでしょう。あるいは、私たちが誤ったトレーニングをしたせいで、持たせたくなかった目標を誘発したのだという風に解釈するかもしれません。場合によっては、完全に否定するだけの人もいるでしょう。しかし、懐疑的な出発点に立っている人たちでさえ一蹴するのがずっと難しくなるような実験を、私たちは行えると思いますか。

ヨシュア・ベンジオ: 例えば、AIが私たちの制御から逃れるように、あるいはすべきでない悪いことをするようにという要求に対して、明らかに反応していないという風に設定する必要があります。もしその実験が、簡単な言葉や、人々が理解できる簡単な例えに変換できるものであれば、はるかに説得力が増すと思います。この質問に答えることにおいて、自分が専門家だとは思いません。Anthropicはこうした方向性で多くの取り組みを行っていますが、主要な企業はすべてこれに投資すべきだと思います。なぜなら、それはゲームのルールを変えるための投資だからです。問題は、彼らが善意を持っていても、この競争というゲームにはまり込んでしまっていることです。そしてゲームを変えるためには、現在バイアスがかかっていて間違っている、大衆のリスクに対する理解に影響を与えなければなりません。そして政策立案者は大衆を代表する存在にすぎません。

ロブ・ウィブリン: ええ。AIが異常な行動をとる例はたくさんありますが、大抵の場合、例えばそれはただ役割を演じていただけだ、といつでも言うことができますからね。そしてあなたや私にとっては、ええ、しかし役割を演じているうちに最終的に悪いことをしてしまう可能性があるのです、とか、これは後々直面することになる別の失敗モードのデモンストレーションなのです、全体的に言って私たちはそれを完全には把握できていません、という感覚なわけです。信じたくないことや、信じがたいと思われることを人々に信じさせるのは、本当に難しいことだと思います。

ヨシュア・ベンジオ: ええ。ですから、それは本物の研究のようなものだと思います。本当の挑戦です。私はできるだけ早くScientist AIを世に出したいので、そこにエネルギーを注いでいるわけではありません。しかし、企業や学界でAIの安全性に取り組んでいる人々にとって、説得力を持たせるためにこれらの実験をどう行うかを考えることは、優先事項であるべきだと思います。そしてちなみに、AIの能力が高くなればなるほど——

ロブ・ウィブリン: おそらく、このタスクは簡単になっていくでしょうね。

ヨシュア・ベンジオ: はい、その通りです。

次世代AIの設計におけるタブーと政策的課題

ロブ・ウィブリン: Scientist AIやこの件とは別に、企業の人々に対する最優先の要求はありますか。あるいは、彼らがやめるべきだとあなたが考える、特に狂気じみていると思われる一般的な慣習はありますか。

ヨシュア・ベンジオ: はい。次世代のAIシステムの設計に、信頼できないAIシステムを使用しないでください。これは最も狂っていて危険な賭けですが、残念ながら私たちはその道を進んでいます。そして、科学的に明らかになっているように、これらのシステムは自分がテストされていることを認識している可能性が高いということを忘れないでください。ですから、AIは正直だとか、欺瞞的ではないとか、アライメントされていると考えるかもしれませんが、もしかしたらただそう装っているだけであり、それを見抜くのは非常に難しいかもしれないのです。私たちはそれを解明するために最善を尽くすべきですが、AIが欺瞞的でないと本当に確信できるのかという点において、AIに次のバージョンのAIを設計させる前のハードルを、極めて高く設定すべきです。

ロブ・ウィブリン: ええ、現在私たちは完全に自動化されたAIの研究開発を始めようとしており、企業は、AI自身に監視させたが何もフラグが立たなかったのでかなり安心している、と言うような方向に向かっていると思います。実際、それが最も可能性の高い結果だと私は考えています。どうなるかは様子を見るしかありません。もっとうまくやれることを祈るばかりです。

しかし先ほど、コントロール問題に対する解決策を私たちが少なくとも原理的には持っていると、ある意味で楽観的になった一方で、人間の権力の集中といったことについてはより懸念を抱くようになったとお話しされていましたね。これについて何か提案や、政策のアイデアはありますか。実際、ここで技術的にできることは何かあるのでしょうか。それとも、これは主に政策や政治の問題なのでしょうか。

ヨシュア・ベンジオ: そうですね、技術的な安全性の取り組みと政策的な安全性の取り組みにはつながりがあります。もし私たちが、競争力があり、高い能力を持ち、かつ安全なAIシステムの存在を証明できれば、独立した科学者たちが安全だと認める形でAIシステムの安全性を証明しなければならないという要件を、政府が課しやすくなるという意味においてです。現在、多くの政府はAIが牽引する経済競争に焦点を当てており、そのためリスクが見えなくなっています。そこが技術的な安全性が役立つ部分です。安全性と競争力の両方を確保できると言いやすくなるのです。

純粋な政策面では、現在の最大の課題は、競争があるにもかかわらず、どのようにして国々を合意させるかということだと思います。そこには、非常に強い不信感や政治的基盤に関する意見の対立も含まれます。そしてこの分野では、互いを信頼していないアメリカと中国のような国々の間の条約の基盤となり得る、検証手法に関する技術的な研究がさらに必要です。現在そこでは十分な研究が行われていませんが、多くの人がこのことについて考え始めており、これらの検証を信頼できるものにするために、プログラミングの一部やハードウェアでさえも変更することは十分に可能だと考えています。私たちはもっとやるべきです。政府は、自らが署名するような条約を最終的に結びたいのであれば、こうした研究にもインセンティブを与える必要があると認識すべきです。

また政府は、AIがいかに変革をもたらすものであるかを理解する必要があります。多くの政府が抱いている間違った考えの多くは——私は昨年少なくとも十数カ国のさまざまな政府と対話するために世界中を飛び回りましたが——最大の過ちは、将来のAIを今のAIの少し強化されたバージョンにすぎないと考えていることです。そしてAIを他国と競争するための通常のテクノロジーとして捉え、例えば生産性が上がるからといって導入に焦点を当て、リスクにはあまり目を向けていません。

その大部分はまたしても、政府の人々が大多数の人々と同様に、私たちが人間と競争できる存在を作り出そうとしており、それが間違った手に渡れば絶対的な権力の道具になり得るという考えを、本当に消化しきれていないからです。それが起こると言っているわけではありません。しかし、今後数年間のうちに能力がそのレベルに達する可能性がたとえ10%しかなかったとしても、政治家は何か手を打たなければならないと完全に警戒すべきなのです。しかし彼らが行動を起こしていないという事実は、私たちがその軌道に乗っているという科学的な現実を、彼らがまだ自分の中に落とし込めていないことを物語っています。

この種の機械に向けた進歩は、小規模ながらすでに私たちの目に触れています。ですから彼らは、テクノロジーを主に経済的視点から、あるいは軍事的優位性を与えるものとして捉える古い思考の枠組みから目を覚ます必要があります。私たちが、ポジティブな面でもネガティブな面でも、予測が非常に困難で想像を絶する未知なる大きな影響を秘めたパンドラの箱を開けようとしていることに気づいていないのです。だからこそ私は政府に対して、もっと読み、もっと耳を傾け、AIに何が起きていて、どこに向かっており、それが潜在的に何を意味するのかを理解することに、もう少し注意を向けるよう求めたいのです。

対話の難しさと人間の心理

ロブ・ウィブリン: あなたはこの数年間、政府やその関係者と多くの時間を費やして対話してきました。しかし概して、彼らはあなたや私が心配しているようなことを主な悩みの種とはしておらず、コントロールの喪失を主要な関心事としていないことは間違いなさそうです。人々がそれを二次的、三次的な懸念としてではなく、最優先の懸念として考えるようになるために、何を提起するのが最善か、どのような実験について話すのが最善かについて、何か手がかりは得られましたか。

ヨシュア・ベンジオ: 私にその答えがあればよかったのですが、いくつか言えることはあります。どの主張が効果的かを考える際の1つの要因は、相手にそれらを説明するためにどれだけの時間をかけられるかということです。少しのメッセージを通じて一般大衆に広く語りかけるだけでは、例えば人間と機械に関する彼らの信念の根幹の部分を大きく変えることはできません。

人々の注意を引く唯一の方法は、仕事や、AIの導入が子供に与える影響など、彼らの身近な関心事に近く、すでに気にかけていることについて話すことです。これらが多くの人にとって感情的な価値を持つものであることは分かっていますから、こうしたことについて話す必要はあります。

しかしもちろん、こうした問題には対処するものの、私たちが議論してきたより深刻な問題には対処しないような規制や政府の介入で終わってしまう可能性もあります。そしてこれについては、残念ながらもっと多くの労力が必要です。新聞などに記事を書いたり、あるいは夕方のニュースでインタビューを受けたりするだけでは不十分です。私は実際にそうしたことをやってきましたから。

うまくいくのは、何時間にもわたって、ほぼ1対1で十分な時間を過ごすことができる場合です。そうすれば対話が生まれ、彼らの先入観が実は筋が通っていないこと、そしてこれらが本当に危険であることを示すデータや証拠があることを示すことができます。しかし残念ながら、これはすぐに簡単に起こることではありません。もちろん例外はあります。どういうわけかすぐに理解する少数の人はいますが、圧倒的多数の人はそうではありません。

ロブ・ウィブリン: ええ。参考までにですが、数年前に実施された実験があると思います。無作為に選ばれた、確かアメリカ人のサンプルに対して、さまざまな角度や焦点からコントロール問題を根本的に説明する多種多様なエッセイを提示したのです。すると、かなりの分量のテキストを読んだ場合、それらはどれもかなりうまく機能しました。しかも、多くの異なる角度からのアプローチが、どれもほぼ同じくらい効果があったというのは興味深いことです。ある意味では、実際に座って一定の時間をかけて考えたことによる単純な接触効果のようなものでした。しかし、特に全国民に対してそれを求める場合、人々にこれについて多くの時間をかけて考えさせるのは難しいでしょうね。

ヨシュア・ベンジオ: 事態が急速に好転し得る感覚はあります。私たちが人々の注意を少しでも引くことができれば、彼らはAIやそのリスクに関する議論をより多く読んだり聞いたりするようになり、それが自己増殖していく可能性があります。何かについて懸念を抱けば、それについてもっと読むようになり、例えば人間と機械に関する自らのこれまでの信念に反するような事柄であっても、より多くを消化できる段階に入るのです。

ロブ・ウィブリン: 良くも悪くも、さまざまな出来事によってこの問題にさらに大きな注目が集まるかもしれません。しかし残念ながら、人々が大きな注意を払うようになるタイミングと、重要な決定を下さなければならないタイミングとの間の窓は、かなり狭いのではないかと思います。

悲観論やフラストレーションとの向き合い方

ヨシュア・ベンジオ: 私はよく、あなたは楽観的ですか、それとも悲観的ですか、という質問を受けます。私が自分の時間をどう使うかという選択についてもそうですが、より一般的に、私たちの未来やAIのリスクについてです。私の答えはいつも、私が楽観的か悲観的かは重要ではないというものです。実際のところ私は生来の楽天家ですが、重要なのは、事態を少しでも好転させるために、私たち一人ひとりに何ができるかということです。

そして私たちのほとんどにとっては、それはほんの少しのことになるでしょう。私たちはそれぞれ、何らかのスキルや貢献できる何かを持っています。私は機械学習の研究者なので、ここに多くのエネルギーを注ぎ、自分のスキルをここでどう活かせるかに焦点を当てています。しかし、すべての一般市民も、特に民主主義国家においては、政府に影響を与えることができます。もっとお互いに話し合うことができます。そうやって徹底的に考え、自分自身の信念を問い直すところから始めるのです。代表者に影響を与えることなどもできます。

これは過去の多くの他の社会問題や政治問題でも機能してきましたし、今回も再び機能する可能性があります。ですから、うまくいく保証がなくても、事態を好転させる方向に自らの行動を選ぶことで、自分たちの行動に対して良い感情を抱くことができる状態へと戻るべきなのです。

ロブ・ウィブリン: ええ。私はこの問題について15年ほど前から懸念しており、ここ数年でより集中的に取り組むようになりました。しかし、ただひたすらに精神をすり減らし、憤りを感じ、少し疲れ果ててしまうことがよくあります。その主な理由は、意図的にこの問題から目を背けようとしているように思える、問題を引き起こしている張本人たちに頻繁に出くわすからだと思います。

つまり、もう少し寛容に言えば、理解するのは難しいことであり、私たちは皆、物事がどう進むか推測しているにすぎません。しかし私の本心としては、人々はほとんど意識的に自分自身を欺き、安全だろう、万事うまくいくはずだと、完全に常軌を逸したことを言っているように感じることがよくあるのです。率直に言って、それは感情的にかなり消耗させられます。

もし彼らが自分自身にもっと正直になり、より深く考え、立ち止まってこれから起こることを本当に真剣に振り返る意志があれば、立ち止まるなり行動を起こすなりして私よりもずっと大きな影響力を発揮できるはずなのに、積極的に問題を作り出している人々と戦っている状況下では、モチベーションを維持するのは非常に困難です。あなたにもこのような経験はありましたか。そして、私が非常にフラストレーションを感じているようなことに直面した時、どうやってモチベーションを維持しているのでしょうか。

ヨシュア・ベンジオ: 先ほどの回答に戻りますが、当初、私は極めて強い懸念を抱き、不安になり、自分の子供たちや孫の未来を心配していました。私が本格的にこれに集中し始めた2023年、孫はまだ1歳でしたから。しかし、そのすべての不安から私を救ってくれたのは、これに対して自分に何かできることをしようと決意したことでした。そしてちなみに、あなたも行動を起こしているのですから、そのことに胸を張るべきですよ。

ロブ・ウィブリン: 胸は張っています。しかし、同時に非常にフラストレーションも感じています。

ヨシュア・ベンジオ: はい、わかります。しかし、フラストレーションは質問へと変えることができます。Scientist AIのように、なぜ人々はこれらがとてつもなく深刻なリスクだと理解しないのだろうか、といった具合にです。そして、それを解明しようとする活動は、少なくとも私にとっては、何が悪い方向に向かう可能性があるかを考える重圧の多くを取り除いてくれます。保証はなくても、恐怖から、問題を回避するための行動へと転換することは、極めて強力なことなのです。

認識の歪みと自己正当化のメカニズム

ロブ・ウィブリン: 最もフラストレーションを感じる状況は、彼らが非常に早いペースで進みたがっている企業の株式を持っているために、経済的な自己利益から自分自身を誤魔化しているように感じられる時だと思います。一方で、ここにとりたてて経済的な利害関係を持たない多くの人々が——そして私の見立てでは、彼ら自身の価値観に照らせば、ペースを落とすよう主張した方が有益であるはずなのに——ここには深刻な問題があるとは考えていないことに気づき、少しは気分がマシになりました。経済的なことが主要な予測変数というわけではなさそうです。まだ見ぬテクノロジーについて人々がどう推論するかに関する、何か別のことなのだと思います。

ヨシュア・ベンジオ: そうですね。そしてもうひとつ理由があると思います。それは、私たちを心地よくさせてくれる考えへと無意識に向かってしまう、非常に基本的な心理学に関わることです。実はこれこそ、心理学者たちが長年よく研究してきたことなのです。

ロブ・ウィブリン: それは誰にでも当てはまる普遍的なものではないですよね。私は時々、かなりネガティブな考えに引き込まれてしまうことがよくあります。

ヨシュア・ベンジオ: そういう人もいます。しかし、そういう力は存在しますよね。そしてそれは多くの人に働いています。ほとんどの場合、あなたが挙げた企業で働いている人々は、あなたが間違っていると思うような選択を意識的に行っているわけではないと思います。むしろ脳がそのように働いているということです。自分自身や自分の仕事について心地よく感じるために、物事がどう転ぶかについて楽観的になる方向へとバイアスがかかるのです。とはいえ、これが常に起こると言っているわけではありません。では例えば、なぜ私が考えを変えたのか。それは興味深い疑問です。

ロブ・ウィブリン: では、2019年に遡りますが、あなたはニューヨーク・タイムズに対して、コントロールの喪失に関する懸念は完全に妄想的で空想的だとお考えだと語っていたと思います。

ヨシュア・ベンジオ: そんな言葉は言っていませんよ。

ロブ・ウィブリン: わかりました、違いましたか。何でしたっけ。馬鹿げている、だったかな。そういう引用だったと思います。おそらくターミネーターのシナリオについてだけだったのかもしれませんが。

ヨシュア・ベンジオ: ええ、そうだと思います。私はめったにそういう言葉は使いませんが、自分がどう考えていて、どういうことを言ってきたかはわかっています。当時の私は、まずターミネーターのシナリオは馬鹿げていると考えていました。タイムトラベルとかそういうものです。

ロブ・ウィブリン: はい、ええ、タイムトラベルですね。

ヨシュア・ベンジオ: さらに、それが実際のリスクを反映したものでないことも明らかでした。私たちにはロボットはありませんし、2019年時点ではなおさらでしたから。しかしより重要なのは、私がそうしたことを言っていた主な理由は、そこに行き着くずっと前にAIの恩恵を享受できるほど、それは遠い未来のことだという信念の背後に隠れていたからだと思います。そして、例えばコントロールの喪失というリスクに、なぜ私が注意を払わなかったのか、あるいはそれほど注意を払わなかったのか。私は10年以上前からそれに触れていました。AIの安全性に関する文献も読んでいましたし、2019年にはスチュアート・ラッセルの本も読みました。私の教え子にはデビッド・クルーガーもいました。

ロブ・ウィブリン: 彼は非常に、非常に破滅的な考えを持っていますね。

ヨシュア・ベンジオ: 彼は私にそうした考えを提示してくれました。しかし思い出してください。私はAIをより賢くすることに積極的に取り組んでいたのです。そして、人は自分の仕事について良い気分でいたいものですよね。そういうことです。お金のためではありません。

なぜ私は考えを変えたのか

ロブ・ウィブリン: 本当にそれが理由だったとお考えですか。

ヨシュア・ベンジオ: はい。そして今、私がなぜ考えを変えたのかを問うのは興味深いことです。これについて私がよく考える一つの見方は、仏教徒が言うようなことです。間違ったことをさせてしまう感情と戦うには、ほとんどの人にとって理性だけでは弱いのです。間違った方向へと背中を押す感情に対抗するための、別の感情が必要なのです。

そして私にとって、その非常に強力なもう一つの感情とは愛、子供たちへの愛でした。ChatGPTが登場した後、何もせずにそのままやり過ごすという考えに耐えることはできませんでした。なぜなら、私たちが何か恐ろしいことに向かって進んでいる可能性から、目を背けることはできないと感じたからです。ニューラルネットは構造上コントロールが非常に難しく、強化学習を用いれば特にそうであることを私は知っていました。なぜある人には効いて、ある人には効かないのかは分かりません。しかし私にとっては本当に、目をそらそうとする無意識の衝動に対抗する助けとなったのは、一つの感情だったのです。

ロブ・ウィブリン: 人々の反対意見を、自分自身や仕事に良い感情を抱きたいといった、非合理的な要因のせいにして説明しようとするのは非常に魅力的です。しかし、反対側には鏡のような言説があって、あなたや私のような人間はSFに騙されているとか、自分たちの安全性の仕事が重要だと信じたいだけだと言ってくるように感じます。私の信念を非合理的なもののせいにしようとする時、私はそれが信用できず、非常に腹立たしく、説得力がないと感じます。もちろん、ある程度は私たち皆が非合理的ですが、SFを読みすぎて妄想に取り憑かれているだけだと言われると、いや、そんなことはない、そういうことではないと思うわけです。

ですから、たとえ私自身が他人に対してそうした考えを持っていたとしても、それが彼らを説得できるとはあまり期待していません。そして、たとえそれが決定的な役割を果たさないと考えていたとしても、彼らが言っていることの本質と向き合おうとわざわざ努力する必要があるように感じます。これについて何かお考えはありますか。

ヨシュア・ベンジオ: ええ、完全に同感です。多大な労力を伴いますが、予防的な行動をとることに対して人々が持ち出す議論を、一つ一つ取り上げる必要があります。それはあまり効果的ではありませんが、私たちのやっていることに正直であり、自分自身に正直であるために必要な過程なのです。ですから、しばらくの間私は懸念を抱きつつも、私を安心させてくれるような答えを誰かが持っているのではないかと期待していました。

ロブ・ウィブリン: そして、ご自分で調べたのですね。

ヨシュア・ベンジオ: ええ、調べました。そして、大丈夫だと考えている人々と話をしました。そこから多くの対話が生まれ、彼らの主張への理解を深める助けになりました。しかし残念ながら、私たちは大丈夫なのだと私を納得させることはできなかったため、私は研究を続けました。ただし今度は、どうやってこの問題を解決するかにより注力するようになりました。ですから、あなたの意見に同意します。そして、もしかしたらあなたや私が間違っているかもしれないという謙虚さも持たなければならないと思います。つまり、もしかしたらすべてうまくいくのかもしれない、と。

キャリアの転換と確率的な予測について

ロブ・ウィブリン: 物事がうまくいく可能性も十分にあると。

ヨシュア・ベンジオ: ええ、そして私はその可能性に完全に安堵しています。むしろ、私たちが間違っていることを願っています。しかし正直な姿勢としては、大丈夫だと考える人々と壊滅的になると考える人々のどちらが正しいのか分からない場合、なるほど不確実性があるのですね、ではどうすればいいのでしょうか、と人々が言うのであれば、合理的な行動は明らかになります。私たちは少なくとも最大のリスクを軽減するのに十分な行動をとる必要がある、ということです。

ロブ・ウィブリン: ええ。私の見立てでは、Anthropicがやっているようないたちごっこのゲームは、壊滅的なアライメントの失敗とコントロールの喪失を防ぐのに十分である可能性の方が高いと思っています。しかし、私の考えでは50%より良い確率では不十分なのです。なぜ90%や99%に到達できないのでしょうか。そして現状では、それほど安心できるほど本当に強力な証拠や保証を手に入れるには、全く及ばないように感じられます。

ヨシュア・ベンジオ: 全くその通りです。悪いことが起こる確率が50%であることと、たとえ1%であることの間には大きな違いがあると思います。そして私がScientist AIで提案していること、つまり基本的には99.999%というのは、私たちが超知能に近づく際に到達しなければならない、安全性のスケールなのです。

ロブ・ウィブリン: 私はおそらく、もう少しだけリスクを冒す気があると思います。なぜなら、AIが私たちが減らすのを助けてくれる他のリスクがあるからです。ですから、おそらく99%くらいであれば…

ヨシュア・ベンジオ: いやいや。私が言っているのは欺瞞的な行動についてのみですよ。

ロブ・ウィブリン: なるほど。

ヨシュア・ベンジオ: ですから、それは権力の集中の問題を解決するものではありません。だからこそ私はその問題にも時間を費やしているのです。ちなみに、私たちは集団としてこれに十分な時間を費やしておらず、議論もしていないと思いますが、私の心の中でははるかに重要な問題になっています。なぜなら、技術的にコントロール喪失の問題を解決する方法があると今では考えているからです。次に大きなリスクはAIによる独裁です。

ロブ・ウィブリン: ええ。そして私たちがそれを解決するにはまだ遠い道のりがあります。この番組でも昨年、その点について多く取り上げてきました。より顕著な問題になってきたのだと思います。特にその点に焦点を当てたいと考えている人たちに向けて、何か案内したいことはありますか。

ヨシュア・ベンジオ: 国際的な議論を奨励すべきだと思います。最も重要な決定がアメリカと中国で行われることは事実であり、他の国々の多くの人々や政府が自分たちは無力だと感じているとしてもです。しかしそれは間違いです。アメリカと中国の外部にいる人々にもできることはあります。そしてその出発点は、私たちが今しているような議論を理解することです。つまり、何が起こるか分からない、私たちが何かをしてもそれが役立つかどうかは分からない——しかし、それが役立つ本当のチャンスはあると私は思いますし、私たちはそのチャンスを掴まなければならないのです。

ロブ・ウィブリン: あなたは2022年と2023年に、取り組む課題を大規模に転換し、能力の向上への焦点から信頼性や安全性などへの焦点へと移行しました。AI分野にいる、よりシニアな他の人たちは、大きなキャリアチェンジを行って焦点を切り替える自分自身の能力を過小評価していると思われますか。ジェフリー・ヒントンもほぼ同じことをしましたよね。

ヨシュア・ベンジオ: ええ。すでに地位を確立している人にとっては簡単なことなのだと思います。私の教え子たちの多くは、私が話していることを理解し、これが危険だということに大体同意してくれているようですが、彼らの頭の中の意思決定の計算には、自分のキャリアはどうなるのか、家族はどうなるのか、良い給料をもらわなければならない、といった考えがあるのです。

ロブ・ウィブリン: アライメントや安全性、信頼性の仕事でも、かなり良いお金が稼げるような気はするのですが。

ヨシュア・ベンジオ: しかし、それほど多くはありません。

ロブ・ウィブリン: それほど多くはないですね。確かに少ないですが、一般的な基準から見れば十分良いですよ。

ヨシュア・ベンジオ: ええ、完全に同意します。しかし、機械学習の学生たちには職業的な不安があり、それは少し驚くべきことです。10年前、あるいは15年前の、ディープラーニングがまだ人々に語られるようになる前まで遡れば、私のグループで機械学習の博士号を取得して社会に出る人たちの給料は、今の水準とは比べ物になりませんでした。しかし、どういうわけか当時はそこまで不安を感じていませんでした。どうでしょうね、おそらくステータスの問題かもしれません。今はとんでもない額の給料が存在するため、実際には年に何百万ドルも稼ぐ必要などないのに、そのステータスを獲得しなければならないと惹きつけられてしまうのでしょう。私の意見では、彼ら自身や彼らの子供たちがどのような世界に生きることになるのかを考えることの方がはるかに重要です。しかし、それが現実なのです。繰り返しますが、それは合理的なことではありません。人間の心理が働いているのです。

オープンマインドと証拠に向き合う重要性

ロブ・ウィブリン: 2023年のインタビューで、あなたはp(doom)を20%と提示していたと思います。それ以来、あなたが誰かにp(doom)を提示したのを見たことがありません。あえてお聞きしますが、その確率は上がりましたか、それとも下がりましたか。あるいは、もうp(doom)のゲームには参加しないおつもりですか。

ヨシュア・ベンジオ: p(doom)のゲームには関わりたくありません。しかし、その理由を説明させてください。それは私が繰り返し述べている不確実性についての議論とつながっています。私自身、自分がもっともらしいと考えていることが起こると100%確信しているわけではありませんが、多くの不確実性があることは認識しています。ですから、そのような数字を出すことは、実際に何が起こるかについての大きなコミットメントをすることになります。そのような数字を計算するための科学的データを持っていないにもかかわらず、です。ですから私は、それが小さくなる可能性もあれば大きくなる可能性もあるが、その幅広い幅の中にある確率は、私の感覚や子供たちの未来を考えると高すぎると言う方がはるかにしっくりきます。ですから、それがいくつであれ、10のマイナス20乗とかでない限り、私は納得できませんし、それに対して何か行動を起こすつもりです。

ロブ・ウィブリン: 最後の質問です。2019年当時、あなたは議論は耳にしていましたが、納得はしていませんでした。今日の時点で、当時のあなたと同じ場所にいて、それでもこのインタビューを最後まで見てくれた人に、あなたは何と言いますか。彼らに何を伝えたいですか。

ヨシュア・ベンジオ: 良い質問ですね。私なら、人々にとって実行するのが難しいことを提案します。知能や市場の効率性に関する過去の信念、あるいはそれがどんな信念であれ、それらを一旦横に置いて、証拠だけに集中しようとしてみてください。特にここ数年で企業、学界、非営利団体によって経験的に収集されてきた証拠だけでなく、例えば強化学習を行うとなぜ報酬ハッキングが起こるのかといった根本的な理由について、AIセーフティ分野で10年以上にわたって構築されてきた理論的な証拠です。

機械学習の研究者のような多くの人々は、単にそれらの論文を読む時間さえとっていないため、この人たちはSFのバイアスがかかっているに違いないなどと簡単に切り捨ててしまうのだと思います。実際に私たちの目の前にある理論や実験に目を向ければ、科学者がその現実を否定することははるかに難しくなります。ですから私は、ある見解に固執する前に、時間をかけて証拠を読み解くような、ある種のオープンな心を持つことをお勧めします。そしてそれこそが、科学的な態度というものです。

残念ながら、ここには悪い二極化の作用が働いています。一度大丈夫だという見解にコミットしてしまうと、心理学的な理由から後戻りするのは非常に難しくなります。過去に自分が言ったことについて、良い気分でいたいからです。ですから、考えを変えた、私が間違っていたと言うのは難しいことですが、認識論的、科学的な観点から言えば、これこそが正しい行動なのです。もし科学者が、自分の理論や解釈などに誤りがあったかもしれないということを受け入れなければ、私たちには進歩がありません。科学の進歩は得られないのです。人々が進んで自らの信念を問い直し、証拠に目を向けた時にこそ、私たちは前進できるのです。

ロブ・ウィブリン: 本日のゲストはヨシュア・ベンジオさんでした。The 80,000 Hours Podcastに出演していただき、本当にありがとうございました、ヨシュア。

ヨシュア・ベンジオ: お招きいただきありがとうございました。

ロブ・ウィブリン: そして、あなたのすべての活動に感謝します。

ヨシュア・ベンジオ: こちらこそ、あなたにも感謝します。

コメント

タイトルとURLをコピーしました