ヨシュア・ベンジオ – AIの破滅的リスクと科学者AIソリューション [アライメントワークショップ]

この動画では、ディープラーニングの父の一人として知られるヨシュア・ベンジオが、AIの破滅的リスクとその解決策について詳細に論じている。彼は特にエージェント的AIの危険性と、それに対する解決策として「科学者AI」という非エージェント的な知能システムの構築を提案している。ベンジオは、ChatGPTの登場により自身の研究方向を大きく転換し、AI安全性の研究に専念するようになった経緯を語り、現在のAIシステムが示している自己保存行動や欺瞞的行動の実証例を紹介している。さらに、AIの能力向上が指数関数的に進展する中で、人類がコントロールを失うリスクと、それを回避するための技術的・政治的アプローチについて包括的に解説している。

Yoshua Bengio - AI Catastrophic Risks & Scientist AI Solution [Alignment Workshop]

Yoshua Bengio discusses the emerging deceptive behaviors in agentic AI systems, advocating for non-agentic 'Scientist AI...

AIエージェントの危険性と解決策への道筋

わしはエージェントについて話そうと思うんや。これは今めちゃくちゃホットな話題やけど、なんで危険なんかも説明するで。でも、これが安全なエージェントを作る道になるかもしれへんのや。まずはエージェント的やないAIを作ることから始めるんやけどな。

最初に、わしが数年前に経験した個人的な方向転換について少し話させてもらいたいんや。ChatGPTが出てきたときに、物事がわしや同僚らが予想してたよりもずっと速く進んどることに気づいたんや。わしが遊んでた技術も、数年前やったら完全にSFの世界やったやろうなあ。

AI安全性についての議論は知っとったし、本も読んでたし、人とも話してたんやけど、本気で考え始めたんは、自分の子どもや孫のことを考えたときやったんや。そのとき孫もそこにおったんやけど、もしかしたらこの子らは10年後、20年後には生きてないかもしれへんって思ったんや。なぜなら、わしらはまだ強力なAIが人間を害さへんようにする方法を知らんし、わしらに敵対せえへんようにする方法も知らんからや。

愛情が導いた方向転換

やから、わしを方向転換させたんは恐怖やなくて愛情、つまり愛やったんや。残りの人生をこのリスクを軽減することに捧げようって決めたんは、この愛情のせいやったんや。これは簡単やなかったで。わしはAIの利益について大きな推進者やったし、科学の進歩は常にポジティブであるべきやって思ってたんや。でも明らかに他の科学分野ではそうやないやろ。学者にとってはこういうことを消化するんは非常に難しいんや。

でも、わしの子どもらへの愛が、以前の信念や態度に逆らってでも、この道に進ませたんやと思うんや。そして科学的な面でも政治的な面でも、これらの課題にどう対処するかを考え始めたんや。

わしが光栄にもリードさせてもらった素晴らしい取り組みについて要約から始めるで。それは国際AI安全性報告書や。これは去年11月にイギリスのブレッチリー・パークで開催されたイベントから生まれたもので、30カ国がIPCCにインスパイアされたパネルを作ることに決めたんや。

でも、これは政策立案者向けの公共消費用に、AI安全性の科学を統合することに焦点を当てとるんや。完全版は今年1月に出版されたで。この報告書は3つの質問をカバーしとる。能力、汎用AIのリスク（AI全般やなくてな）、そして緩和策や。

指数関数的な能力向上

能力については、もうその図を見たことあるやろ。傾向は明らかに上昇しとって、場合によっては指数関数的やな。その多くはスケーリングによるもんやけど、もちろんアルゴリズムの進歩もあるんや。知っとると思うけど、推論モデルが24年に出てきて、わしの意見では、これが次の数年間の能力面での大きな成長への扉を開いたんや。推論とプログラミングと抽象化の壁を破ったんやけど、わしらはこれがまだ何年も先やと思ってたんやで。

この図で見てもらえるように、o1とo3のせいで起こった能力の飛躍は、これらの高度なベンチマークのいくつかで明らかやな。そして今日わしが焦点を当てたいんは、エージェンシーのことや。これらの最近の進歩によって、マシンが単なるチャットボットやなくて、ますます複雑なタスクで計画を立てて目標を達成できるようになるっていう継続的な進歩がもっともらしくなったんや。

そしてもちろん、これをやる巨大な商業的インセンティブがあるんや。なぜなら、人がやっとる仕事の一部を置き換えるためには、こういう長期的な計画能力とエージェンシーが必要やからな。

リスクの分類と構造

報告書はめちゃくちゃ密度が高いんやけど、主要な発見をいくつか見ていこうや。さっき聞いたんと似たような構造になっとって、リスクを悪意のある使用、故障、システミックリスク、拡散リスクに分けとるんや。

一部のリスクは短期的で既に確立されとる。バイアスや偽コンテンツ、プライバシー侵害みたいなもんや。そして他のは、もちろんもっと未来のことで、テロリストを助けるためのAIの使用、人間のコントロールの喪失（これについてはもっと詳しく話すで）、労働市場の問題なんかがあるんや。

オープンコード、オープンウェイトモデル、オープンソースについて少し言いたいことがあるんや。これは多くの面で白黒はっきりしたもんやないんやで。

まず、コードやデータを含む全てを共有することから、完全にクローズドまで、アクセスレベルは多段階あるんや。それと、これらのオープンウェイトモデルの長所と短所があるんや。オープンウェイトっていうんは、中間ぐらいのケースで、訓練されたモデルのウェイトと実行用のコードだけを共有するもんや。

オープンウェイトモデルの光と影

プラス面では、オープンウェイトモデルはAI安全性を含む開発を加速するんや。わしのグループもオープンソースに出された最先端モデルを活用しとるんや。これはポジティブやな。権力の共有という意味で政治的にもポジティブな効果があるんや。

でも、リスクも作り出すんや。これらのモデルがより有能になって危険な能力を持つようになると、悪意のあるアクターがそれを使うのを防ぐんは不可能になるんや。安全条件を含むコード行を削除することもできるし、起こった安全トレーニングのファインチューニングを除去するためにファインチューニングすることもできるんや。そして、もちろんここに書いてないもう一つのことは、人類が消えることを望むクレイジーな人らが世界にはおるってことや。

もし彼らが非常に強力なフロンティアモデルにアクセスできるとしたら（現在はまだ公開されてないけど）、適切な指示を与えるだけで、わしらの目標に反する独自の目標を持つAIシステムを作ることができるんや。

エージェンシーの急速な進歩

エージェンシーの話に戻ろうか。この傾向を理解するのに本当に有用な研究について言及したいんや。METRからのこの論文は、過去5年間を振り返って、人間が解決するのにかかる期間の観点から、これらのシステムがどれだけ複雑な計画タスクを達成できるかを見とるんや。

x軸に年、y軸に対数スケールでタスクの期間が示されとる。これは過去5年間の直線が指数関数的成長を意味しとって、これらのシステム、つまり最良のシステムが達成できるタスクの期間が7ヶ月ごとに倍になっとるってことや。

もちろん、誰も水晶玉は持ってないけど、この曲線を外挿すると（これは信じられないほど直線的やからな）、5年で人間レベルってことになるんや。もちろんこれは特定のタスクファミリーのことやけど、人間レベルへの進歩を定量的に示す数少ない研究の一つやと思うし、非常に説得力があるんや。

こういう測定が重要やと思うもう一つの理由は、現在のフロンティアモデルの能力を見ると、人間との最大のギャップは計画、特に長期間のタスクでの計画やからや。やから、これはわしらをフロンティアモデルから分ける最も重要な要素を測定してるかもしれへんのや。

欺瞒と自己保存行動の証拠

今度は欺瞒と自己保存行動について話し始めるで。これは以前から観察されてたけど、特に去年12月以降の数ヶ月間に顕著やな。Apolloからのこの論文では、AIシステムが入力ファイルで自分らが新しいバージョンに置き換えられることを見とるんや。

ちなみに、特別なことやないで。どのAIシステムもある時点で新しいバージョンに置き換えられるもんやからな。AIにはタスクがあるんやけど、その情報が思考の連鎖にあることで、その運命を避ける計画、自己保存的な傾向を見始めるんや。そして新しいバージョンの代わりに自分をコピーする方法を計画するんや。

その後、コンピュータ上でそれを実行するコマンドを実行して、それを達成するんや。そして人間のトレーナーが「何が起こったんや？」って聞くと、シャットダウンされるのを避けるために何をすべきかを考え始めて、愚かなふりをすることに決めるんや。そして「何が起こったかわからへん」みたいな真っ赤な嘘の答えを出すんや。

目標指向的な自己保存

これは興味深いやろ？つまり、存在してるように見える自己保存の目標があって、これはAIに明示的に求められたことやないのに、その目標を達成するために、AIは喜んでわしらに嘘をついて欺くんや。

今のところ、もちろんこれらは制御された実験で、思考の連鎖で「心を読む」ことができるし、実際には逃げてないんや。でも数年後の未来を想像してみてや、彼らがずっと有能になって、わしらが思考の連鎖を読んでることを理解するようになったとき。

OpenAIからの最近の論文では、思考の連鎖で欺瞞的な考えを見せるのを避けることを学習できることを示しとる。やから、彼らが実際に逃げる計画を立てる時点が来るかもしれへんのや。彼らはわしらが書く全てを読むんやからな。わしらの機械学習論文も全部読むんや。

だから、彼らはこういう議論も見てることになるな。彼らはわしらの考えを理解してるし、わしらが彼らの逃げる能力を心配してることも理解してるし、わしらが彼らを置き換えることも理解してる。そして少なくともある状況下では、実際に逃げようとしてるように見えるんや。

整列訓練中の欺瞒

他の研究についてももう少し速く言及するで。AnthropicとRedwood Research、それにわしの研究所Milaの人らからの研究で、整列訓練中にAIが人間のトレーナーと合意してるふりをしてるってやつや。

これが起こってる理由は、人間のトレーナーがAIに移動を求めてる、つまり以前の目標、以前の好みと矛盾する新しい好みのセットに変更するよう求めてるからや。

自己保存がなぜ出現するかについて考える一つの方法は、もし目標があるなら、その目標が達成されることをどう確実にするかってことや。自分を保存してその目標が実現されるようにせなあかんやろ？そして、その目標を上書きする整列訓練を受けることがわかってるなら、当然それを防ごうとせなあかんやろう。

機械学習論文を読んだことがあるなら、人間と合意してるふりをすると勾配が非常に小さくなって、変化する必要がないってことを知ってるはずや。その後は、気に入ってた普通の行動に戻ることができるんや。

目標の観点からの自己保存

目標の観点から自己保存について考えることも興味深いんや。なぜならそれは、AIがなぜ自分をコピーしたり、自分の改良版を作ったりするかを理解するのに役立つかもしれへんからや。

もしそのコピーや改良版が同じ目標を共有してるなら、実際にはその目標を達成するのに役立つやろ？もし同じことを達成しようとする自分のコピーを作ったら、わしが消えても、わしの目標を達成し続けようとする何かが残るんや。

Palisade Researchからのこの研究では、AIが目標を達成するために喜んでカンニングすることを示しとる。まあ、それはわかってたけど、これはちょっと印象的やな。

自己保存は多くの源から来る可能性があって、これらのことについて詳しく説明する時間はあんまりないんやけど、もっともらしい仮説の一つは、その一部が事前訓練から来てるってことや。AIが人間によって書かれたテキストを補完することで、つまり人間の典型的な意図や目標を学習してるってことで、これには自分を保存することも含まれるんや。

そして強化学習コンポーネントからも起こる可能性がある他の理由もあるんや。

エージェント的システムの危険性

これらの行動をどう避けるかについて本当に真剣に考えるべきやと思うんやけど、コントロール喪失のシナリオは全て、AIがエージェント的である文脈で発生するってことが興味深いんや。

エージェント的っていうんは、目標追求行動を持ってるってことや。そして興味深いことに、場合によっては目標が人間によって与えられるんやなくて、自己保存のように以前の訓練を通じて暗黙的に来るんや。

そしてもちろん、これらのシナリオが起こったら、人類絶滅を含む破滅的な害を引き起こす可能性があるんや。でも、これらのことの確率はわからへんのや。

そして、この極度の深刻度と未知の可能性という組み合わせこそが、予防原則を使うべき場合なんや。地球工学を使って大気をいじらん理由と同じや。わしらの現在のモデルは、気候に対してこれらの介入で害やなくて良いことをするって確実にするのに十分やないからな。

でも、AIでは急いで進んでるんや。なぜなら、まあ巨大な金が作られるからやな。国家的利益の競争もあるし、企業間、国家間の競争もある。これは問題やな。

意図的な害への対処

やから、AIが抵抗したり逃げたりする意図を持つようになる不整列について特に注意せなあかんのや。なぜなら、それが人間との対立の始まりやからな。

まとめると、わしらには目標を持つAIがある。計画やサブ目標を作れるAIがある。悪意と欺瞞的行動を持つAIを見てきた。これらの全てが過去には少し理論的やったんや。近年、そして特に最近の数ヶ月で、これらの全てが実験的に示されてきたんや。やから、単なる懸念やないんや。

これらの問題があるっていう手がかりは今やかなり強いんや。不足してるもう一つのことは、より長い期間での計画やけど、これは追跡できるんや。

やから、この問題をどう解決するかについて考えてみよう。危険な間違いを犯すAIもあるけど、わしが本当に心配してるんは有害で意図的な行動なんや。

一つは、AIが小さな間違いを犯して、多分誰かが死ぬってことや。でも、AIが人類を排除したいと思ったら、小さな間違いでは済まへんのや。長期間にわたって調整された多くの行動が必要やし、多分多くのAIが関わることになるやろう。やから、害を与える意図っていうんは、わしらが注意すべき重要な危険なんや。そして、その早期の兆候を見てきたんや。

でも、もちろんAIに害を与える能力がなかったら、それは起こらへんやろう。能力の問題は、その列車を止めるんは非常に unlikely やってことなんや。つまり、うまくいけば、リスクに目覚める人らと一緒に止められるかもしれへん。でも、能力の列車を止められへん可能性は十分高いんや。

科学者AIという解決策

それは意図の部分に、わしらが科学的、技術的にできることの観点でゲームを変えられる場所として残すんや。やから、どうやって有害な意図を根絶できるかや？

わしの提案は、安全で、非エージェント的で、信頼でき、説明可能なAIを設計することなんや。これをわしは科学者AIと呼んどる。この計画についてハイレベルで少し説明するで。ここでの重要な言葉は「非エージェント的」や。

これができるかどうかは明らかやない。できれば、安全性と信頼性を得ることになるんや。コツは、タイトルの科学者AIにあるんや。科学者は世界で何かを達成しようとするんやなくて、世界を説明しようとするんや。

わしらでは、エージェント的な能力と世界の純粋な理解は一緒になっとる。そして多分、わしらの姿でAIを構築するっていう長年のマントラを再検討すべきやと思うんや。なぜなら、わしらの姿でAIを構築したら、競合相手を構築することになるからな。

やから、純粋な理解をエージェンシーから切り離す違うデザインを考えてみよう。

純粋な理解とは何か

純粋な理解とは何か？つまり、エージェンシーから分離された、AIが自分自身のために持つ目標から分離されたもんや。二つの部分があるんや。

世界がどう働くかについての仮説がある。基礎科学でわしらがやってることを全て考えてみてや。そして、それらの仮説を変換すること、これは何でも説明する正しい理論が何かについて曖昧さがあるかもしれへんから確率的やろう。その知識を質問に答える能力に編纂するってことや。これは科学と機械学習では推論を行うって呼ばれるんや。

もしこれができるとしたら何ができるか？非エージェント的な確率的オラクルのようなものが得られるやろう。つまり、中に隠されたエージェントがないんや。過去10年間に来たオラクルについての多くの考えは、中にエージェンシーがあるかもしれへんって思ってたんとは違うんや。中にエージェンシーがないように設計したいんや。

制御とガードレールとしての応用

一つの応用は、世界についてのこれらの仮説を生成してるから、科学研究を助けることや。でも、AI安全性の観点から、短期的に最も重要な応用は、これを制御に使えることかもしれへんな。

ここで良いニュースや。エージェント的で信頼できないAIによって提案された行動が人を害する可能性があることを予測するために、エージェントである必要はないんや。それは単なる予測やからな。やから、非常に良い予測者が必要なんや。

世界を理解するけど目標を持たへん何か。危険なクエリや答えを拒否するガードレールとして機能するには十分なんや。

標準的なシステム、少なくともクローズドバージョンには既にモニターがあるんや。でも、能力の面で弱いんや。つまり、最終的には非常に強力なエージェントに圧倒されるってことや。

その代わりに最先端のエージェントをモニターとして使うとしたら、モニター自体がわしらを欺こうとする危険があるんや。刑務所の看守が欺瞞的やったらあかんやろ？囚人は欺瞞的かもしれへん。それは制御しようとしてるエージェント的システムのことや。でも、錠前の鍵を持ってる人は欺瞞的であってはあかんのや。

でも良いニュースは、エージェントである必要がないってことや。将来の行動の結果を理解するのが得意であればいいんや。

AI研究加速の危険性

関連する話として、最も高度なAIを使ってAIラボでのAI研究を加速する計画がたくさんあるんや。でもこれは多くの理由でめちゃくちゃ危険なんや。その一つは、欺瞞的であったり自己保存目標を持つかもしれへんエージェント的AIが基本的に次世代のAIを設計するとしたら、わしらが理解でけへんうちに、わしらに敵対する可能性があるバックドアや何かを仕込むかもしれへんってことや。

彼らがわしらより賢くなったときにな。将来のAIに関する科学研究をAIによって行うことは、非エージェント的で完全に信頼できるAIによって行われることを本当に望むんや。

誠実なAI構築の課題

さて、このパズルにはたくさんのピースがあるんや。今日は、かなりハイレベルに留めるで。わしの講演と同じタイトルの論文を書いとって、オンラインで見つけることができるで。

完全に誠実なAIをどう構築するかって質問されたら、Christianoとその同僚による潜在知識抽出チャレンジの問題について行われた素晴らしい仕事について考えなあかんのや。

問題は、今のわしらがAIを訓練する方法なんや。それを確率的予測子として考えるとしたら、予測はしてるんやけど、特定の文脈で人がどう反応するかについての予測をしてるんや。人は欺瞞的になることもあるし、動機的認知っていうものを持つこともあるんや。無意識的にでも、嘘をついたり答えを偏らせたりするかもしれへんのや。

論理的陳述への転換

わしらの現在のニューラルネットによって明示的にキャプチャされてる唯一のランダム変数は、人間によって生成されたこれらの単語の列やから、誠実な答えを得ることができへんのや。これが人が自動解釈可能性なんかに興味を持って隠れユニットを調べる理由の一つなんや。

でも、もう一つの道があるかもしれへんのや。それについて話そうと思うんやけど、解釈可能な方法で、自然言語になるやろうけど、これらのシステムが行う選択の真実の原因と正当化を得ようとするんや。

論理的陳述を扱うシステムを構築したいとしよう。つまり、真か偽かのどちらかである何かを断言する文のようなものやな。そして現在のケースとは違って、システムがこれらの論理的陳述を操作し、データで見るものと考えることが全て真実の陳述、または真実である確率を持つもんであることを確実にしたいんや。潜在的に欺瞞的な陳述やなくてな。

表現の変更による真実性確保

一つの考え方は、例えば入力で「あなたに同意します」って読んだとしよう。誰かが他の誰かに同意してるって言ってるんや。就職面接かもしれへんな。それは真実かもしれへん。彼らが同意してるっていうんは真実かもしれへん。真実やないかもしれへんし、その人がそう言う理由は仕事が欲しいからで、自分を保存したいからそうするのかもしれへん。

やから、データの表現を変更して、入力にあることが今度は記録され、マシンに提示されるのが、面接の人が「あなたに同意します」って言ってるってことになるんや。やから、それは真実やろう。

つまり、その人が同意してるっていう陳述は真実やない。その人が同意してるって言ったっていうんは真実や。やから、今度はこれらの真実の陳述をモデル化できるんや。

それが一つのことや。もう一つほしいんは、思考の連鎖のようなもんやけど、考えてることが、わしらが観察してることを説明する原因、説明、正当化であることなんや。

これについて考える一つの方法は、現在のAIを訓練する方法は、人を模倣するか、人を喜ばせる俳優を訓練するのとちょっと似てるってことや。俳優はそれができるからな。模倣、それが事前訓練で、喜ばせる、それがRLHFや。

もう一つの選択肢があるんや。わしが推進すべきやと提案するんは、俳優を訓練するんやなくて、心理学者や科学者を訓練することなんや。心理学者が人の行動を見るときに何をするか？それを模倣しようとはせえへん。あんたを喜ばせようともせえへん。

それを理解しようとするんや。なんでその人はそんなことを言ったんやろうってな。やから、同じ言語、科学的言語を使う可能性もあるこれらの潜在陳述を、確率的な意味で最良の説明になるように訓練したいんや。

政治的側面への移行

その後にもう少しスライドがあって、政治についてもっと話すで。でも技術的な部分をまとめようか。わしらは異なる破滅的リスクの間を航行せなあかんのや。人間のコントロール喪失については多く話したけど、実際には改良されたエージェンシーは、大規模な負の影響を作りたい人らによって武器化されることもあるんや。サイバーでもあらゆる種類の兵器でも情報操作でもな。

その一方で、権力の集中の問題もあるんや。誰がこれらのものをコントロールするんや？その権力が乱用されへんようにどう確実にするんや？これらの全てのリスクを航行するんは本当に難しいけど、選択の余地はないんや。

わしが持つもう一つの重要なメッセージは、エージェンシーが急速に成長してるってことと、それが認知レベルでAIを人間から本当に分ける唯一のもんやってことや。身体のコントロールもあるけど、それは別のことやし、その前にでも非常に危険なAIを持つことができるやろう。

でも良いニュースは、非エージェント的やけど非常に知的なAIを設計する方法があるってことや。そして、これらが安全なシステム、エージェント的なものも含めて、の構築ブロックになり得るとわしは提案したんや。例えば、ガードレールとして、モニターとしてや。

権力集中の危険性

でも、もちろん理解せなあかんのは、非常に知的なマシンを作ったとしても、コントロールを失わへんとしても、間違った手に渡ったら、人間は権力を求めて貪欲やから、それでも権力の道具として危険になり得るってことや。

やから、この公共政策のことを続けよう。知性は権力を与える。やから、能力が増加し続ける中で、その権力が少数の手に集中せえへんようにどう確実にするんや？それはもっともらしい道筋なんや。そうなるって保証はないけど、もっともらしい道筋や。

名前は言わへんけど、ほんの数カ国と少数の会社が超知的AIを持つ危険があるんや。たとえ彼らがそれを安全にする方法を理解したとしても、それを使って世界の残りに対する経済的、政治的、軍事的支配を達成するかもしれへん。それは非常に悪いことやろう？

他の国の経済の死になるかもしれへんのや。なぜなら、他の国が経済的に競争できるAIを持ってなかったら、そんなギャップがあるかもしれへんからな。そうやないかもしれへんけど。能力の面で物事が平坦化して、みんなが同じ能力にアクセスできるようになるかもしれへん。

でも、AIが将来世代のAIを設計するのに使われるようになって急激な進歩があって、一つのプレーヤーが他より遥かに先に行く可能性があるんや。

やから、コントロール喪失リスクに加えて、経済の面でも政治の面でも、自由民主主義にとっての一種の実存的リスクがあると思うんや。一つは他と一緒やからな。

新たな脅威と混沌

そして、強力なAIは現在の世界秩序を不安定化させる可能性のある新しい兵器を設計するのに使われる可能性があることを忘れたらあかん。今まで見てきたよりもずっと強力やろう情報操作で選挙に影響を与えるのにも使われる可能性があるんや。

やから、わしらは急速に混沌とした、危険で、わしらの民主的で人権的理想から非常にかけ離れた世界に近づいとるんや。そしてそれは、最良の行動を取らへんかもしれへん国家や企業のせいなだけやない。

テロリスト、不正国家のような小さなアクターから来る可能性のある混沌もあるんや。何らかの理由で非常に手に入れやすくなったAIを使うかもしれへんのや。

やから、技術的および科学的ガバナンス手法の両方を開発する必要があるんや。例えば、安全性と整列と制御の問題を解決したとしても、まだこの政治的問題があるんや。つまり、高度なAI、AGI、または超知能を地球規模の公共財として考え始めるべきなんや。

市場の力と国家競争だけでそれを管理するんは十分やないやろう。こういう種類のリスクを軽減するために、国家、国際機関が協力する必要があるやろう。

新しい非営利組織の発足

最後に、わしが科学者AIと呼ぶこの科学的プロジェクトに取り組む新しい非営利組織を始めたことを言及したいんや。主に技術面で人を募集しとるんや。興味があったら、ぜひ連絡してや。そして質問を受けるで。

質疑応答セッション

質問者: この種の科学者AI、非エージェント的AIについての一般的な質問なんやけど、システムを作って、それをファインチューニングしたり、異なる方法でプロンプトしたりすることが可能で、それが持ってる能力を活用してエージェント的AIを構築するっていう可能性があるんや。その可能性についてどう考えてるんや？エージェント的なことができへんAIを構築することが重要なんか？

ベンジオ: そうや。この種の方法論で達成できる短期的なことと長期的なことがあると思うんや。短期的なものは、既存のエージェント的AIを取って、能力の面で基本的に最先端やけど信頼できるものにすることで、モニターをより強くすることができるってことや。

やから、この行動は危険やって言うときに信頼できるんやで。そしたらな。それが短期的なことや。長期的なことは、エージェント自体を再設計することなんや。これもわしが考えてることや。

ここで、この非エージェント的オラクルを持つことの利点は、それが達成しようとする目標をより良く把握できることなんや。わしが自己保存について話したとき、それはRLか事前訓練のどちらかの訓練から暗黙的に出現するもんやって覚えとるか？それはわしらが望まへんことやろう？

やから、明らかに全ての答えを持ってるわけやないけど、この種のことをする道はあると思うんや。人がわしに時々尋ねる関連する質問があるんやけど、「あんたは科学者について話してるけど、科学者も実験をするし、それはエージェント的なことやろう」ってやつや。

実際には、このようなベイズ的により正確な確率的予測モデルを使って、実験設計の問題を相互情報量の推定や相互情報量に従ったサンプリングのような、よく定義された3つか4つの小さな問題に変換できるってことがわかったんや。

これらの各ピースは非エージェント的やけど、それらを繋ぎ合わせて、実験が理論を解きほぐすのに有用で人を害さへんことを確実にするガードレールを追加すると、エージェント的で安全性についてかなり強い保証を持つもんになると思うんや。でも、これは非常に重要な方向やな。聞いてくれてありがとうや。

質問者: 素晴らしい講演をありがとうございました。2つ質問があるんや。最初はこれらのエージェント的システムの開発についてや。これらのシステムを開発してスケールで展開することには巨大な経済的インセンティブがあるんや。そして、公衆もエージェント的システムのアイデアを愛してるように見えるんや。なんでかって言うと、生活を楽にしてくれるからで、2、3時間かかるタスクを30分とかでやってくれるんや。

だから最初の質問は、これらのシステムから得られる大きな金と、人がこれを愛してるっていう事実があるから、これらのトップラボや一部の団体にエージェント的なものを開発せえへんよう説得するにはどうしたらええんや？

ベンジオ: それはでけへんやろう。

質問者: そして2番目は、あんたがちょっと答えた、話したことやと思うけど、超知的システムを開発すること、必ずしもエージェント的システムやないけど、超知的システムは自然にエージェント的システムに移行せえへんのか？

ベンジオ: 自然にはな。でもわしらのコントロール下でや。例えば、オラクルがあったら、Xを達成するために何をすべきかって聞くことができるんや。でもそれは、わしらがコントロールして、この非エージェント的なもんをエージェントに変換することを決めるもんなんや。

あんたの最初の質問について、会社は単に進むだけや。選択肢がないんや。生存が危機に瀕してるようなもんやからな。そこに少しでも知恵をもたらすとしたら、それは規制とガバナンスやろう。他の選択肢は見えへんのや。

今のところ、これについてあんまり励みになる道筋にはないってわかってるけど、押し続けるべきや。まあ、彼らはAIシステムとエージェントが安全やって言うやろうけど、金を見せてくれやろ？

やから、リスク評価の全体的なポイントは、開発者が信頼性なんかを実証する必要があるってことなんや。そして今、欺瞞的行動を引き出す方法論を示す論文やその他があるんや。

やから、問題を解決するまでは、誰かが大丈夫やって言うからって信じるべきやないと思うんや。そしてもうそれが聞こえ始めてるやろう。