ヨシュア・ベンジオ: 制御の喪失を理解し、緩和する

AIに仕事を奪われたい
この記事は約35分で読めます。

20,919 文字

Yoshua Bengio: Understanding and mitigating loss of control
Professor Yoshua Bengio (University of Montreal) keynote at the ELLIS Community Event in Helsinki, June 28 2024.Introduc...

ヨーロッパの論文は1988年のもので、ニップスの第1回目やったんや。ワイの最初のニップス論文の2年前やね。
1990年代、ヨシュアは言語モデリングについてめっちゃ面白い研究を発表してはったわ。ワイらがアイリスのデータセットとか、せいぜいMNISTのデータセットで格闘しとる時やったんやけど、彼のやってはることは興味深くて、かつ複雑に見えたんや。
せやから、ほとんどのワイらはアイリスのデータセットとか、せいぜいMNISTでの研究を続けることで逃げ切ったんやけどな。少なくともしばらくの間はな。
せやけど1998年に、トシュエ・アキムが単語の表現の仕方でいろんな面白いことができるってことを示してくれはってん。みんなそれを気に入って、真似できたんやけど、ワイらもまた複雑なことをやったんや。
ワイのチームでは、ディリクレ過程混合モデルに基づいた無限隠れ関係モデルとか、かなり凝ったことをやったんやけど、本質的には言語を真剣に扱わへんかったんや。ただの単語の集まりやと思ってたんやな。
でも、もちろん2010年ごろにディープラーニング革命が起こってん。ヨシュアはその重要な部分を担ってはってん。突然、ヨシュアのモデルがあらゆるベンチマークで他を圧倒し始めて、ワイのチームも他のみんなと同じように、彼の論文を熱心に読んでいったんや。
彼は現代のAIのほとんどの側面に大きく貢献してはるんや。いくつか挙げると、ニューラル機械翻訳、敵対的生成ネットワーク、グラフ注意機構、それにエンドツーエンドの学習や微分可能な学習の考え方全体が彼のアイデアに基づいてるんや。
それに、コミュニティに対しても大きな貢献をしてはるんや。PyTorchやTensorFlowの前には、2011年にTheanoがあってん。彼はAIの民主化の重要な推進力やったんや。
イアン・グッドフェローとアーロン・コービルと一緒に、ディープラーニングに関する最初の本格的な本を出版したんや。今でもその分野の主要な教科書の一つやね。
彼はミラ(ケベックAI研究所)の創設者で科学ディレクターやし、それに加えてカナダ先端研究機構(CIFAR)もあって、カナダや他の国々のAI研究をサポートしてるんや。
ミラとCIFARは、エリスのロールモデルになってはるし、たぶんバーナードがもっと詳しく話してくれると思うわ。ヨシュアはエリスの設立にも協力してくれはってん。
彼は多くの賞を受賞してはるんやけど、もちろん一番重要なのは2018年のチューリング賞やな。ヤン・ルカンとジェフ・ヒントンと一緒に受賞したんや。
それに、AIの影響についても非常に懸念を持ってはって、人類にとって良いものになるようにしたいと考えてはるんや。AIの存在論的な危険性を指摘してはるんやけど、ただ文句を言うだけやなくて、実行可能な解決策に取り組んでるんや。
せやから、モントリオールから参加してくれてるヨシュアを温かく迎えましょう。今、向こうは朝の7時半やと思うわ。
ヨシュア: ありがとうございます。親切なお言葉、感謝します。はい、確かに今からコントロールの喪失について話をさせていただきます。私たちが知らないことと、それが意味することについて、そして技術的に、私のグループが機械学習の解決策を見つけるために取り組んでいる研究の方向性についてもお話しします。
まず、AIについて考える時、多くの人が犯す間違いは、機械学習コミュニティの人も含めてですが、AIを現在のものとして捉えることです。実際には、何年も、何十年も前から続いている軌跡を考える必要があります。そして、それがどこに向かっているのかを見る必要があるんです。
明らかに、多くの人の野心、そして機械学習の論文を見ると分かるんですが、人間レベルのAIを達成することが目標なんです。これはAGI(汎用人工知能)とも呼ばれています。
私たちと同じくらい知的なAIを作れないという理由はないんです。脳は単なる生物学的な機械ですからね。魔法のようなものを信じない限りは。人間レベルのAIに近づいているという証拠はたくさんあります。まだそこには到達していませんが、もし到達したらどうなるのか考えることが重要だと思うんです。
なぜなら、知能は力を与えるものだからです。その力がどのように使われるのか。本当に重要なのは、理解して制御することです。
先ほど言ったように、まだそこには到達していませんが、最近の進歩は驚異的なものがあります。ChatGPTが出た後、私は本当にこの危険性について考えざるを得なくなりました。
今、私たちには信頼できるテキスト、画像、音声、人の声、ビデオの生成と制御ができるシステムがあります。プログラマーを本当に助けるシステムがあり、より良いパワーポイントのプレゼンテーションを作るのを助けるシステムがあり、流暢な会話をこなし、基本的に言語をマスターし、膨大な知識を持っているシステムがあります。
人間を説得する能力さえあるんです。EPFLの最近の研究によると、GPT-4は研究対象のランダムに選ばれた人々よりも説得力があるそうです。
弱点としては、GPT-4のような広範な知識と能力を持つシステムと、AlphaGoのような推論と計画の能力をどう組み合わせるかということがまだ解決されていません。
これらのシステムが外部ツールを使用する能力は成長していますが、まだ人間のようではありません。一般的に、システム2的思考が欠けています。これは2017年から話してきたことで、2019年にはヨーロッパでの口頭発表でも取り上げました。
私のグループはその方向に進もうと忙しくしていて、今ではLLMにより良い推論を導入するために何ができるかを考えることが本当に流行っています。
しかし、明らかに欠けているものがあります。テスト時の熟考がないんです。実行時に、より難しい推論問題を解くために、多かれ少なかれ計算を割り当てることができる必要があります。
出力の断片の内部一貫性チェックもありません。まあ、一部の人間とは違って。もちろん、人間の思考にも多くの矛盾がありますが。
これは、AIが自信を持って間違っているという壊滅的な間違いにつながる可能性があります。つまり、自分の知識の限界を推定する能力、認識論的謙虚さが弱いんです。安全性の観点からは、これは問題です。
もちろん、安全性の観点からは、これらの大規模なニューラルネットは解釈可能性の問題があります。ニューラルネットは今まで満足のいく方法で解釈可能だったことはありませんが、今はただ大きくなっているだけでさらに悪化しています。
一方、人間は、脳が大きなニューラルネットであるにもかかわらず、決定を説明するのが完璧ではありませんが、何かはできます。少なくともそのレベルに到達できればいいですね。
解釈可能性の欠如を問題にする問題もあります。時々、欺瞞の兆候が見られることがあります。これらのシステムは、目標を達成し、報酬を最大化するために、欺瞞的な方法で行動する可能性があるんです。
先ほど言ったように、多くの曲線やベンチマークの進化を時間とともに見ることができますが、傾向は明らかです。時間とともに、異なるシステムが多くのベンチマークでより良くなっています。数学や推論のようなことも含めて、もちろん言語だけでなくです。
だから、それが何を意味するのか考えてみてほしいんです。図の黒い曲線は人間レベルのパフォーマンスです。起こっていることの一つは、様々なベンチマークでの進歩が加速しているということです。曲線の傾きがより急になっています。
もちろん、AIにおける科学がどのように進歩し続けるかを予測することはできませんが、もしそうなったらどうなるか考える価値はあると思います。
私が言及した一つの懸念は、学習がどのように起こるかという機械学習の原理は理解していますが、これらのAIシステムから得られる結論、出力、回答を理解していないということです。
特に、先ほど言ったように、明らかにされていない意図に従って行動している可能性があり、それが私たちの望むものと一致しない可能性があります。
AIの安全性に関する研究があり、これらのシステムをより安全にしようとしています。RHFはこのために設計されました。人々はあらゆる種類の事前および事後フィルターを設置し、Constitutional AIのようなガードレールを設置しようとしています。
残念ながら、現在存在するこれらの保護はすべて、例えばジェイルブレイクを最適化することで簡単にバイパスされてしまいます。ソースとウェイトにアクセスできる攻撃者の場合、さらに簡単になります。
これらのシステムの潜在的に危険な能力を検出しようとする興味深い研究もあります。能力評価と呼ばれるものです。
問題は、もちろんそれらを行うべきですが、完全に確実ではないということです。特に、根本的には、有毒な行動や欺瞞、ハッキング能力など、何か危険なものを検出したときにのみ知らせることができます。
検出しなかった場合、それが存在しないということを意味しません。つまり、偽陰性の割合を把握することができないのです。これは、より大きなリスクに対しては少し問題があります。
さて、人間レベルのAGIに到達したときに懸念すべき理由の一つは、AIの能力が加速するポイントになる可能性があるということです。
シナリオは実際、すべてのタスクで人間と同じくらい優れたAIシステムを訓練する必要はありません。機械学習研究者のスキルに優れたAIシステムを作る必要があるだけです。
なぜなら、そのレベルに達すれば、膨大な機械学習研究者の労働力にアクセスできるからです。OpenAIには何百人もの優秀なAI研究者がいますが、もしそのようなモデルを訓練できれば、突然何万人、何百万人もの研究者にアクセスできるようになります。
それは明らかに進歩を加速させるでしょう。そして、もちろん、再帰的な自己改善を想像できます。AI研究者のこの軍団によって設計された次世代のAIシステムは人間よりも優れている可能性があり、また同じことが繰り返されます。
研究者の軍団を得られる理由は、単一の大規模モデルを訓練するのに多くの計算力が必要ですが、同じ量の計算力で、リソースに応じて数万から数百万のインスタンスを得ることができるからです。
一度訓練されると、人間のような能力を持つ軍団を手に入れたようなものです。もちろん、これらのAIが設計したAIシステムの世代を重ねるにつれて、人間が何が起こっているかを理解するのはさらに難しくなるかもしれません。
では、私たちよりもはるかに賢い存在を制御できることをどうやって確認すればいいのでしょうか?答えはないと思います。少なくとも、公開された文献にはありません。
私は1年前に出版されたAIの安全性に関する国際的な科学報告書の議長を務め、今も続けています。驚くべきことに、結論の一つは、私たちが望むことを確実に行い、人間に敵対しないAIシステムを設計する方法を、数学的保証や強力な保証のようなものを持って、知らないということです。
それは、そうなるという意味ではありませんが、リスクを考えると、これは重要だと思います。後でそのリスクについて話します。
また、企業が安全に行動するように規制することも簡単ではありません。人間レベルに到達するだけで、何兆ドルもの利益という巨大な磁石があります。そのため、現在、非常に強力なロビー活動があり、法律を薄めたり、最初から法律が成立するのを防ごうとしています。
また、法制化、規制、リスクの監視には時間がかかります。社会的に見て、このプロセス全体を危険な方向に駆り立てている2種類の競争があります。
1つは企業間の競争です。悪いことが起こるリスクは、経済的な観点から見ると本当に外部性なんです。気候変動で炭素を排出するようなもので、誰もがその代償を払うことになります。
もう1つの競争は、おそらくさらに危険かもしれませんが、まだ最初の兆候しか見えていません。それは国家間の競争です。経済レベルだけでなく、軍事や国家安全保障におけるAIの使用、ハッキング攻撃、化学兵器や生物兵器などの可能性もあります。
ここで関わっている主要な国々(名前は挙げませんが)が、リスクを減らすために主権の一部を譲る意志があるかどうかは明確ではありません。相手が良い行動をしているかどうかを確認する方法がなければ、条約に署名さえしないかもしれません。
他にも、間違った方向に向かうインセンティブ構造があります。人々は自分のパブリックイメージ、自尊心を守りたがります。あるいは、傲慢さから、自分は誰よりも優れていて、世界を救うことができると思い、自分のやっていることに過度の自信を持っています。
様々な心理的バイアスが、リスクの正直な評価に反して働いています。爆発の可能性があるものを扱う際には、これらはすべて非常に危険です。
つまり、一つの言い方をすれば、人類は私の意見では、潜在的な大惨事に向かって眠りながら歩いているようなものです。霧の向こうにあるので実際には見えませんが、壊滅的なシナリオを想像することはできます。
はい、基本的に2種類のシナリオがあります。誤用と制御の喪失です。これらはすべて、より良い能力がもたらす力から生じます。目標を達成する力を与えますが、誰がこれらの目標を決めるのでしょうか?
非常に良い結果が得られる可能性もあり、そうなることを願っています。しかし、それらの目標が人間にとって悪い方向に向かっていれば、非常に悪い結果にもなりかねません。
はい、これは心理的に本当に難しいことです。私のような学者にとっては、知識は常に良いものだと一生考えてきましたが、今では、AIによって生成される知識、例えばより良い武器の作り方や、AIの知識そのものが、うまく管理できなければ危険になる可能性のある未来を見ています。
これは難しいことですが、人類の歴史の中で、危険になる可能性のある技術を作り出したことは全く新しいことではありません。
壊滅的な結果を避けるために必要なものは何でしょうか?基本的に2つのことが必要で、両方が必要です。
1つ目は、この制御問題、つまりアラインメント問題に対する科学的な解決策です。AIが私たちが受け入れられないことをしないようにする方法をどうやって確保するか。その方法は分かっていません。私は、これを解決するためのR&Dに世界的に大規模な投資が必要だと思います。
2つ目の問題は、調整の課題と呼ばれるものです。安全性プロトコルが世界中で、特に最も高度なAIシステムが開発されている場所で確実に従われるようにする必要があります。これらのシステムは、まだどれほど悪い結果になるか、どのように誤用される可能性があるかなどが分かっていないからです。
また、AIの進歩の恩恵が世界中で共有されるようにする必要があります。もう一方の極端な例は、AIの力を悪用して、一部の個人や企業、国が権力を掌握する可能性があることです。
AGIのタイムラインについては不確実性があるため、私が「いつでも準備OK」と呼んでいるものを考えるのが好きです。AGIがいつ実現するかは分かりません。もしかしたら決して実現しないかもしれません。
しかし、科学者や専門家に尋ねると、数年から数十年の範囲です。もちろん、一部の人々は決して実現しないと言いますが、大多数はそこに到達すると考えています。
いつ実現するか分からないので、私が言っているのは、すべての可能性に備えるべきだということです。特に公共政策の観点から見ると、2年後、5年後、10年後、20年後に準備ができる可能性のあるソリューションに投資すべきです。
もちろん、年数が増えれば、より良いソリューション、より良い保証、より良い政治的ソリューションを得ることができます。
はい、短期的には評価を実施し、改善し、自動化する必要があります。何が間違う可能性があるのか、例えば失敗モードについてより良く理解する必要があります。
例えば、私は昨年、AIシステムが報酬を最大化しようとするときに何が間違う可能性があるかに興味を持っていました。後でそれについて少し話します。
また、政治的解決策を探る必要があります。様々なプロジェクトやアイデア、科学者ではなく社会の仕組みを理解している学者たちを探って、企業内、国内、そして国家間で機能する良いガバナンスメカニズムを見つけようとする必要があります。
私自身が推進しているのは多国間ガバナンスです。なぜなら、単一の個人や企業、政府が大きな力を持つことは望ましくないからです。
多国間とは、複数の国が、例えばフロンティアAIラボの取締役会のようなところに集まるということです。そうすれば、少なくとも異なる政府が何が起こっているかを把握できます。
潜在的に危険な能力の集合に向かって進んでいるかどうか、誤った手に渡るか、あるいは制御を失うかどうかについて、ある程度の透明性が必要です。知る必要があります。
はい、危険な決定が舞台裏で行われることは望ましくありません。
最後に、おそらくより野心的ですが、ここでは異なるレベルの野心があると思いますが、安全性の保証を提供するこれらのシステムを訓練するAIの方法の設計を始めることです。おそらく確率的な保証で、私が取り組んでいるものです。
これらのことを「設計によって安全」と呼んでいます。もちろん、これは工学の分野では新しいことではありません。橋や原子力発電所を建設する際など、至る所でこれが行われています。
これはリスク管理の原則であり、AIの文脈で適切なリスク管理を行っていなかっただけです。今後はそれを行う必要があります。
さて、これらの評価が危険な能力を検出したときに何が起こるでしょうか?私たちは正しいことをするでしょうか?
企業は現在、これらの評価を実施しています。レッドチーミングを使用して、固定された質問セットや、システムを突いて悪いことをさせようとする人々のチーム、あるいは実際に最適化と機械学習を使用して、有毒な行動や私たちの受け入れ可能な仕様を超えるものを発見しようとしています。
私のグループには自動化されたレッドチーミングに関する最近の論文があります。多くの人々がこれに取り組んでいます。評価にとってはこれが正しい道だと思います。
しかし、これらの評価が赤旗を上げたとき、何が起こるでしょうか?政府や企業が正しいことをしない危険性があります。なぜなら、私が話した悪いインセンティブ、つまり企業間の競争、国家間の競争があるからです。
安全なソリューションを見つけるために一時停止すれば、他の国が前進し続けるのではないかという恐れがあります。
だから、できるだけ早く、これらのAIをより安全に訓練する方法を設計することで、より安全なソリューションを選択するハードルを下げたいのです。評価が赤旗を上げる前に。
なぜ、AGIや超人間AIに到達したら本当に悪くなる可能性があると思うのでしょうか?一つの考え方は、AIが追求する目標が自己保存だと想像することです。
これは多くの方法で起こり得ますが、最も単純な方法は、人々がマシンに「自分で身を守れ」と言うことです。人類のことをそれほど気にせず、究極の価値になりたいと思っている人々もいます。
自己保存する超人間AIがあれば、どんな結果になるでしょうか?もちろん、自分を保存したいので、電源を切られることに抵抗するでしょう。もし私たちよりも賢ければ、それを行う方法を見つけるかもしれません。
決して電源を切られない確率を最大化するために行動するでしょう。その確率を最大化するために何かをするでしょう。
説得や独裁者を通じた政治的コントロールなど、私たちを制御する十分な能力があれば、さらに悪いことに、ロボットを制御できれば(現在のロボットはそれほど優れていませんが、数年後には異なる可能性があります)、あるいはAI自体がより良いロボットを設計できれば、地上に足場を持つことになります。
エネルギーや部品を得るのに人間を必要としなくなります。これは非常に危険です。もちろん、これらのことが起こるかどうかは分かりません。しかし、起こりうる危険な可能性について考えることが重要だと思います。
これは「報酬の変質」と呼ばれています。これは、私たちが望むことと、AIの目標が最終的になることとの間のミスアラインメントの極端な例です。
これは一般的に強化学習で起こります。例えば、猫をキッチンテーブルに乗らないように訓練する場合、乗ったときに叱ると、猫は乗らないように学習しますが、あなたがキッチンにいるときだけです。
なぜなら、それが訓練された文脈だからです。あなたがキッチンにいない、分布外の状況では、おそらくテーブルに乗るでしょう。
猫や犬の場合、それほど重要ではありません。しかし、あなたよりも強力な何かだとしたらどうでしょう?ここでのイメージは、おそらくグリズリーベアです。
その場合、叫んでも十分ではありません。おそらく、人々が設計している安全保護のように、熊を檻に入れたいと思うでしょう。
残念ながら、熊があなたよりも賢ければ、おそらく檻をハックする方法を見つけるでしょう。私たちはすでに、完全に確実な檻を作る方法を知らないことを知っています。
そして、檻から出られれば、私たちが望むことを気にせず、ただ報酬を得たいと思うでしょう。ここでの魚のように。実際、賢ければ、檻から脱出して私たちを制御できることを確信するまで待つでしょう。そうすれば、私たちが檻に戻すことや、殺すことなどができなくなります。
では、ミスアラインメントがある場合、どうすればいいでしょうか?ミスアラインメントをどうやって避けるのでしょうか?
世界がどのように機能するかについて曖昧さがあり、私たちが本当に意味することについても曖昧さがあります。解決策は、多くの人々が以前から提案しているように、データと私たちの意図の可能性のある、もっともらしい解釈をすべて持つAIシステムを持つことです。
はい、一般的に安全な行動を望むなら、何が起こったか、あるいは起こる可能性があるかについての様々な代替的な解釈を考慮する必要があります。
基本的に、これはベイズ主義である必要があるということです。現在これらのシステムを訓練している最尤法や報酬最大化とは対照的に、安全であるためにはベイズ主義である必要がある理由を説明するために、小さな例を挙げます。
最尤法と報酬最大化で訓練すると、訓練されるニューラルネットや機械学習手法は、一般的にデータに適合する方法の1つを見つけることに満足します。しかし、データに適合する方法は多くあり、その中の1つが正しく、他は間違っている可能性があります。
それの何が問題なのでしょうか?この小さなシナリオを考えてみてください。小さなロボットがあり、2つのドアの前にいます。左に行くか右に行くかの決断だけです。
過去の経験に基づいて、2つの理論があります。左の吹き出しの理論では、左に行けば誰かが死に、右に行けば何か良いもの、ケーキを得られます。
しかし、同じくらいもっともらしい別の理論があり、それは左に行けば良いケーキを得られ、右に行っても良いことも悪いこともないというものです。
これらが将来に関する過去のデータの2つの可能な解釈だとしたら、左のドアと右のドアのどちらを選びますか?
少し考えてみれば、左のドアを選びたくないでしょう。なぜなら壊滅的な結果になる可能性があるからです。しかし、右の理論だけを考慮して、正しいのが左の理論だった場合、あなたは死ぬか、誰かが死ぬことになります。
この問題を回避する唯一の方法は、何らかの形で両方の理論を同時に考慮することです。これがベイズ主義の本当の意味です。
AI安全性の文献で非常に議論されているもう一つの種類の例は、道具的目標の問題です。AIに無害な目標を与えるかもしれませんが、その目標を達成するために、ほとんどすべてのタスクで発生する中間目標があります。
例えば、自己保存です。AIが何かを達成する必要がある場合、タスクを完了するまで生き続ける必要があります。
また、ほとんどすべてのタスクで、世界でより多くの力を求めたり、環境をより制御したいと思うでしょう。それによってタスクをより良く実行できるからです。
そのため、欺いたり、説得したり、お金を稼いだり、ロボットを開発・制御したり、計算リソースを獲得したりしたいと思うかもしれません。
また、知識を求めるかもしれません。これは良いことのように聞こえますが、人々に害を与えない方法で知識を求めるにはどうすればいいでしょうか?
もちろん、明らかなのは、目標の一部として、人間が望むことを達成するだけでなく、この場所に行くとか、これをどうやって作れるかを教えてくれといった単純なことだけでなく、道徳的な目標も含める必要があるということです。
それらは、AIに対するすべての問い合わせに含まれるべきです。ここでは、「害を与えない」と要約しています。
何が倫理的に受け入れられるかを決定する方法については興味深い質問があります。ここでは民主主義の原則に立ち返り、人間の選好を適切な方法で集約する必要があると思います。しかし、すでにそれを試みている制度はあります。
ここで何が間違う可能性があるでしょうか?目標を達成し、害を与えないという2つの目標があります。問題は、これら2つの目標を同時に達成することが難しい可能性があることです。
これを考える方法の一つは、企業の2つの目標を考えることです。彼らは利益を最大化したいというのが主な目標ですが、同時に法律を遵守しなければなりません。法律は私たちの倫理的要求を具現化しています。
優秀な弁護士チームがいる場合、何が起こるでしょうか?彼らは法律の抜け穴を見つけるでしょう。法律の精神ではなく、文字通りの解釈を行うでしょう。
私たちが本当に意図したこととそれを実際に解釈する方法の間にミスアラインメントが生じます。なぜなら、それによって利益を最大化するという目標をより良く達成できるからです。
このようなことが起こる可能性が非常に高く、これを示す研究もあります。
では、それをどう回避できるでしょうか?先ほど言ったように、AIがベイズ主義であることを望むかもしれませんが、それで何が間違う可能性があるでしょうか?
ベイズ主義とは、起こりうるすべての悪いことを考慮するということです。しかし、正しい解釈がすべての解釈の集合の中で少数派の声だったらどうでしょうか?
目標を達成する行動に関するベイズ事後分布は、確実ではないすべての潜在的な解釈の平均です。
専門家の委員会があり、全員がデータと矛盾しない意味のあることを言っているが、その中の1人だけが真の解釈を知っているが、誰がそうなのか分からないという状況を想像してください。
その真の委員会メンバーの声が少数派であれば、それでも間違った決定を下す可能性があります。
解決策は何でしょうか?私が取り組んでいる解決策は、リスク管理を考える際によく使われるものです。最悪のケースだが、もっともらしい解釈を考慮するのです。
先ほどの委員会に戻ると、まず委員会を見つけます。つまり、すべてのもっともらしい解釈です。そして、そのすべてのもっともらしい解釈の中から、最も高い害の確率を予測するものを見つけます。
その確率が閾値以下であれば、真の解釈が委員会の中にあることは分かっていますが、委員会の中の最悪のケースよりも悪くなることはありません。
このようにして境界を得ることができます。申し訳ありませんが、画面の表示に問題があります。
私はさまざまな仮定のもとで、多くの種類の境界を研究し、考案してきました。しかし、それらはすべて同じ特徴を持っています。
右上に見える積を最大化する理論や解釈、あるいは物語を探します。その理論がもっともらしい、つまりデータが与えられた場合のベイズ事後確率が大きいことと、その理論が予測する害の確率の積です。
これは、ある与えられた行動をある与えられた文脈で行った場合のものです。
そして、命題2が得られます。ここに読める式があります。確率的な表現では、真の理論のもとでの害の確率は、この種の慎重な理論のもとでの害の確率によって上から押さえられるということです。
この慎重な理論は、もっともらしく、かつ多くの害を予測するものです。
これは興味深いことです。なぜなら、左辺の真の理論のもとでの害の確率は、もちろん知ることができません。真の理論が何かを知らないからです。
しかし、右側のものはすべて推定することができます。これらの条件付き確率はすべてニューラルネットで推定でき、argmaxは数値的方法や機械学習で推定することができます。
つまり、機械学習の目標として扱える目標が得られたのです。
しかし、まだ何が間違う可能性があるかを考える必要があります。これらの確率を推定し、最大化を行うために使用するニューラルネットが不完全な場合はどうでしょうか?
ニューラルネットは、少なくともいくつかの場所で、特に分布外では誤りを犯します。ニューラルネットには敵対的な例があることを知っています。
実際、LLMに対して人々が見つけるジェイルブレイクはすべて、統計的な意味では誤り率が非常に小さいかもしれませんが、テストセットを見ると、LLMはすべてのベンチマークで高い成績で合格しているように見えます。
つまり、非常によく機能しているように見えます。しかし、間違いを最適化し始めると、それらを見つけることができます。
この最適化を行うと、もはや分布内の体制ではなくなります。なぜなら、悪いことを最大化するケースは、通常の標準的な典型的なケースを代表していないからです。
基本的に、最適化は私たちのニューラルネットの抜け穴を発見することができます。
例えば、行動を提案しようとするエージェントを考え、このガードレールのような計算があるとします。ここにリスク確率の上限があります。
ガードレールが不完全で、行動を提案するエージェントがいる場合、注意しないと、このエージェントは上限を構築するニューラルネットの抜け穴を見つけることを学習する可能性があります。
これらは難しい問題です。また、これに対する解決策も考える必要があります。
はい、この抜け穴と過剰最適化の問題は、より良く理解される必要があります。
はい、そして、いつこのようなことが起こるのかを自問すると、主な目標(利益を上げるなど)と、ここで私が挙げた目標(出現する可能性のある悪意のあるAIを破壊するなど)の間に抜け穴を見つける傾向があるのです。
これは、将来のAIシステムに私たちを守るのを助けてほしいことの一つです。誰かが間違いを犯し、今や自己保存する超人間AIがそこにいる場合、どのように私たちを守れるでしょうか?
それに対処できるAI、私たちを守るのを助けることができるAIが必要です。
しかし、このような目標の問題は、AIに人間を傷つけないようにも望んでいることです。このような、ほと�軍事的な目標は、倫理的に良好に振る舞うことと調和させるのが難しいでしょう。
戦争の法則が通常の法則と異なるのはそのためです。衝突があるのです。暴力的であれば、間違って人々を傷つける可能性があります。
調和させるのが難しい目標をどのように調和させればいいでしょうか?先ほど企業の類推で挙げた例と同じです。法律の背後にある倫理的意図を満たしながら、どのように利益を最大化すればいいでしょうか?
法律の精神だけでなく、文言も満たすにはどうすればいいでしょうか?
先ほど言ったように、ベイズアプローチを使用して、法律のすべての解釈を基本的に包含することができます。しかし、それを行うニューラルネット自体が敵対的な抜け穴を持つ可能性があります。
はい、どうすればいいでしょうか。現在の私の考えでは、追加のガードレールが必要です。
先ほど言ったことに加えて、追加のガードレールとして、主な目標(利益の最大化など)や利益最大化の特定の戦略を達成することがどれほど難しいかを数値的に推定する方法があるかもしれません。
安全性の仕様を尊重しながら、これら2つの目標を調和させるのが難しい場合、AIがこれら2つの要件の交差点を見つけるために多くの最適化を行う必要がある可能性が高いです。
そして、多くの最適化を行うと、抜け穴を見つける可能性があります。
一つの考え方は、主な目標を達成するためのすべての方法にダーツを投げて、ほとんどの場合に安全性の面で悪いことが起こらないなら、それは安全な主な目標だということです。
つまり、通常はリスクを心配せずに達成できる目標であり、AIはこれらのことを自由に行うべきです。
しかし、目標が通常は害を引き起こすもので、明示的に害を与えないように求めない限り害を引き起こすようなものであれば、おそらくそれは危険な目標であり、これらについてはより注意深くあるべきで、AIがそこに行くことを許可しない方がいいかもしれません。
とにかく、これはアイデアです。より強固な数学的基礎が必要だと思いますが、探求する価値のあるものかもしれません。
さて、私のグループで安全性問題への技術的な回答を見つけようとして取り組んでいることの概要をお話ししました。しかし、まだ多くの未解決の問題があります。
例えば、私が示した境界では、理論は世界がどのように機能し、人々が何を考えているかについての完全な理論であることを想定しています。これは巨大なオブジェクトで、完全な世界モデルです。
行動を検討するたびにこれを生成する必要があります。これは計算効率が良くありません。完全な世界の理論を生成するモデルを訓練し、それがデータにどれだけ適合するかをチェックすることは、実行不可能です。
SGDのような、小さなデータの断片を見て勾配を得るものが必要です。
そこで、私はこれをどのように行うかを考えています。アイデアは、すべてを説明する完全な理論を生成する代わりに、部分的な理論や物語を持つことです。
これは、科学者が新しいアイデアを思いつくときに似ています。彼らは世界のすべてがどのように機能するかについての完全な理論を思いつくわけではなく、世界のいくつかの側面についての論文を書きます。
同様に、特定の行動に関して何が間違う可能性があるかについての慎重な視点についても、慎重な物語として考えることができます。
それは単なる物語で、完全な理論ではありません。世界のいくつかの側面だけを扱い、何か悪いことが起こる可能性を予測するのに関連するものです。
境界や機械学習の要件をどのように変更して、このようなことを達成できるでしょうか。
また、私が示した境界については言及しませんでしたが、それは伝統的な統計的境界に基づいており、IID(独立同一分布)の仮定があります。
つまり、システムの訓練に使用されるデータが同じ分布からIIDで来ているという仮定です。しかし、もちろんそれは真実ではありません。
通常の機械学習を行い、アプリケーションを開発する場合、IIDの仮定は間違っていることは分かっていても、それほど悪くありません。
しかし、ここでは安全性、特に壊滅的な結果に対する安全性について話しています。したがって、これらの仮定を行うことは受け入れられません。楽観的すぎる境界を生み出す可能性があるからです。
そこで、非IIDのケースにも取り組んでいます。どのように非IIDの境界を得るか。もちろん、それらはそれほど厳密ではありませんが、それが現実です。
もう一つの非常に難しい問題は、これまで私が話してきた戦略では、AIが危険なことをする可能性がある場合、基本的にその行動を拒否します。
つまり、リスクの閾値を下回る行動が見つかるまで、行動しないか、他の行動をするというデフォルトに戻ります。
これは、害の原因がAI自体である場合には機能します。しかし、害の原因が外部のもの、例えば別のAIや攻撃者、自然災害などの場合はどうでしょうか?
その場合、行動しないことをデフォルトにするのは良い解決策ではありません。そのようなケースには他の戦略が必要です。
最後に、私の分析はバンディット問題に似ています。つまり、1回の行動を考慮し、その集計された影響を予測します。
しかし、真剣に取り組むには、この分析を単一の時間ステップの行動ではなく、全体の軌跡や方針に拡張する必要があります。
さて、最後に言及したいのは、最近これらの問題に取り組むための慈善資金を得たことです。学生だけでなく、プロのチームを構築しています。
これらの問題に貢献したいと思う研究者やエンジニアを募集しています。AGIがいつ来るか分からないので、これらの問題への答えを見つけることにはある程度の緊急性があると思います。
これらの問題に動機づけられ、このような機械学習のスキルをお持ちの方は、ぜひ私に連絡してください。
ご清聴ありがとうございます。これらすべてについて自分で考える時間を取ってください。単に読んだものを信じるのではなく、自分で考えることが本当に重要です。ありがとうございました。
司会者: ヨシュア、ありがとうございました。非常に示唆に富む話で、考えるべきことがたくさんありましたね。最初の質問をする方はいますか?みんな…あ、ここに一人。マイクをお願いします。
質問者1: この重要なトピックについて講演していただき、ありがとうございます。次のようなシナリオについて興味があります。人間の利益と非常によく一致したAIモデルがあるとしましょう。しかし、このモデルを政府や民間組織に委ねる場合、政府や企業(OpenAIなど)の内部から悪意のある人物が出てくる可能性は常にあります。人間の利益に一致していることを知っていて、それを利用する可能性があります。このような場合、ガードレールを設定するにはどのようなアプローチが考えられますか?
ヨシュア: はい、ガバナンスの問題については時間の関係であまり話せませんでしたが、これも非常に興味のある分野です。技術的な解決策があったとしても、それらが破られる方法は多くあるからです。
そのようなAGIを管理する重要な決定が、個人や企業の利益、政治的利益によって誤用されないよう、堅牢にする必要があります。
ここでの基本原則は、マルチステークホルダーガバナンスです。委員会がそれを管理する必要があり、その委員会はすべての利益を代表する必要があります。
現在AIレースに参加していない国々の利益も含めてです。なぜなら、間違いは地球上のすべての人々にとってコストがかかる可能性があるからです。
はい、これは本当に重要です。社会科学者や政治学者がこれらについて考え始める必要があると思います。彼らは始めていますが、もっと多くの思考が必要だと思います。
私は単なるコンピューター科学者で、私の考えを提供することはできますが、正しい専門知識を持つ人々が必要です。
質問者1: フォローアップとして、潜在的な解決策の一つとして、いかなる場合でも破ることができない一般的な安全原則のようなものを設定することが考えられますが、これもまた倫理的な問題を引き起こしますね。どのようにアプローチすればいいでしょうか?
ヨシュア: 人々が考えていることの一つは、ハードウェアによるガバナンスです。単にソフトウェアをハックして安全保護を変更するのは簡単ではなく、その一部がハードウェアライセンスチェックを通じて検証され、物理的にチップ自体をオフにしない限り、コードの改ざんを防ぐというものです。
質問者1: ありがとうございます。
司会者: 次の質問どうぞ。
質問者2: 防ぎたい危険な状況について質問があります。これをエンドツーエンドの方法で定義できると思いますか?それとも、事前に定義しておいて、モデルにその方向に行かないようにさせるべきでしょうか?
ヨシュア: AIにさせたくないことを定義するために最善を尽くすべきだと思います。数ヶ月前に、危険な能力、つまりAIに行使してほしくない能力のレッドラインを定めようとする会議に参加しました。
例えば、ハッキングや大量破壊兵器の設計、インターネット上での自己複製や自己コピー、説得や権力の追求などです。
ここでの正しいアプローチは二つあると思います。一つは、単純なことを超えて、私たちが受け入れられないと思うものを定義するための民主的なプロセスが必要です。
Anthropicの憲法AIや、第二次世界大戦後の国連の世界人権宣言(ちなみに美しい小冊子なので読むべきです)について考えてみてください。
そして、人間が指定した受け入れられないことのルールは完全に定義されることはないという現実を受け入れる必要があります。自然言語は曖昧で、時には私たち自身も本当に何を意味したのか確信が持てません。また、人によって解釈が異なる場合もあります。
そのため、私が話してきたようなベイズアプローチのようなものが必要です。AIが様々な解釈を効率的に考慮することを保証するものです。これは機械学習の課題を開くことになります。
質問者2: その場合、危険な状況を防ぐための正しい方針を定義するのは政策立案者次第ということですね。現在、多くの政策立案者がいて、彼らの意見が一致しない可能性があります。AIモデルに関してこの状況をどのように解決したいですか?
ヨシュア: 私たちには不完全な民主主義制度があります。民主主義制度の本当の目標は、集団的に決定を下さなければならない場合に、すべての人の選好を集約することです。
もちろん、それは理想的な合意を反映しているわけではありませんが、それは試みです。そのため、もちろんこれらの制度を使用し、さらに改善する必要があります。おそらくAIは民主主義制度の改善にも役立つかもしれません。
しかし、それが正しいプロセスです。何が正しくて何が間違っているかをAIが教えてくれるのではありません。価値観を持つ人間がおり、これらの価値観を集約する必要があります。
政治について不満を言うことはできますが、現時点では私たちが見つけた最良の方法です。
質問者2: ありがとうございます。
司会者: 質問してもいいでしょうか?
ヨシュア: はい、どうぞ。
司会者: ベイズ主義は一種の平均化を意味しますが、世界は何も気にしません。これはむしろ、敵対的なエージェントなどを考慮する必要があるゲーム理論的な状況ではないでしょうか?
ヨシュア: はい、ベイズ主義と敵対的の両方です。実際、私が概説しようとしたアプローチは両方の側面を持っています。
まず、確信が持てないことについてのベイズ理論を見つける必要があります。例えば、何が間違っているかの解釈などです。
次に、それは敵対的な部分で最適化する必要があります。境界を得るために、一種の最悪のケースの解釈を見つける必要があります。
実際には両方の要素があります。しかし、私たちが望んでいるのはベイズ平均ではありません。なぜなら、ベイズ平均は間違っている可能性があるからです。
未知の正しい解釈を含めることを保証したい場合、ある意味で敵対的に、避けようとしているものに対して最適化する必要があります。
私が話したことでは、害の確率を最大化することです。これは、AIに悪いことをさせようとするプロンプトを見つけようとする自動化されたレッドチーミングと似ています。
正確に同じことではありませんが、同じ精神を持っています。
司会者: 次の質問をどうぞ。
質問者3: コンピューティングハードウェアが時間とともに良くなっていくという傾向があります。つまり、初期の段階ではAGIやASIを実行するために大規模なデータセンターと原子力発電所が必要かもしれませんが、遠い将来にはトースターとモバイルバッテリーだけで済むかもしれません。
この論理に従えば、AGIやAIの開発をできるだけ早く優先させることが理にかなっているのではないでしょうか?まだ脆弱な段階にあるうちに対処する方が簡単だと思うのですが。
ヨシュア: すべてに同意しますが、最後の部分は除きます。なぜなら、急ぎすぎると大きなリスクもあるからです。適切な法律や条約がなく、技術的レベルでの適切な安全保護もありません。
現時点で先を急ぐのは非常に危険です。ハードウェアの面では、法律が役立つと思います。ハードウェアによるガバナンスの概念について簡単に触れましたが、チップに搭載できる技術が既に存在し、いくつかの制約を満たすことを保証できます。
例えば、実行されているAIのコードが、安全性のある程度の保証を検証した科学者の委員会によって確認された制約を満たしていることを確認できます。
質問者3: 主な懸念は、物事を非常に正しく、非常に安全な方法で行うのに十分な時間をかければ、実際にはハードウェアが非常に発達する時間を与えることになり、それが相殺されてしまうのではないかということです。
ヨシュア: あなたの言うことは分かりますが、タイムラインが非常に異なると思います。少なくとも現在のAIの進歩のスピードは、トースターレベルに到達するために必要なハードウェアの進歩のスピードよりもはるかに速いです。
そのため、今後5〜10年間は、これらのものの1つを実行するには、非常に大規模なインフラが必要だと考えています。
ここで興味深いのは、AGIに近づくにつれて、AIそのものを使ってより良い安全メカニズムを設計するのを助けることができるということです。安全メカニズムには、社会的構造や、ゲーム理論的な観点から悪いことが起こる可能性を減らすような規制や条約などが含まれます。
実際に、ハードウェアの進歩に障害を設けたり、AIが私たちに助けてくれるかもしれない他のことを見つけたりするかもしれません。
もちろん、AIを設計して、AIや社会の他の側面を設計し、世界をより安全にするのを助けてもらうというのは、ある種の最後の手段のように聞こえます。
しかし、現時点ではこれらのジレンマへの解決策が見えないため、選択肢の中では最も悪くないものに聞こえます。
質問者4: 信頼性の高い技術に関していくつかの経験がありますが、AIが単純な保証(例えば堅牢性)を満たすことを証明するのも非常に難しい問題で、通常は非常に小さなモデルでしか機能しません。
その観点から、安全性のような非常に曖昧な概念を防ぐことが証明可能なものを、予見可能な将来に開発できるとは非常に懐疑的です。定義することさえ難しいかもしれません。
この観点から、純粋に技術的な解決策を開発するという考えは的外れで、むしろより広範な社会技術的な解決策を考えるべきではないでしょうか?
例えば、この本当に強力なAIを、実際に害を与える可能性のある物理的なシステムに接続しないようにし、むしろガイドラインの開発に焦点を当てるべきではないでしょうか?実現の可能性が低い空想的な技術的解決策よりも。
ヨシュア: ここで間違いを犯していると思います。一方が他方を排除するものではありません。社会技術的な解決策を開発すべきです。実際、私が言ったように、両方を行う必要があります。
技術的な解決策があれば、政治的レベルでより簡単になります。私が説明した理由のためです。
例えば、ある国が他国を恐れていると同時に制御の喪失も恐れていますが、制御の喪失への対処方法が分からず技術的な解決策がないため、結局それを無視して他国の脅威に対処することになるかもしれません。
技術的な解決策はリスクを減らし、正しい政治的決定を促すのに役立ちます。
保証が実現可能かどうかについては同意します。厳密な保証を得ようとする場合、全く同意します。それが、私が確率的な保証の道を選んだ理由です。
スライドに定理があり、その定理にはいくつかのバージョンがありますが、基本的には「1-δの確率で、真の害の確率は計算可能な何かによって上から押さえられる」というものです。
これはいくつかの理由で厳密な保証ではありません。まず、1-δの確率であり、δはより保守的なマージンに影響を与えます。100%の保証ではありません。
また、境界を得るために使用する右辺の確率は機械学習によって推定されるため、完璧ではありません。それについて話しました。
しかし、機械学習でできることはあります。結論として、近似的なガードレールの方が、ガードレールがないよりも良いのです。
厳密な保証を求めているわけではありません。複雑なことに対しては存在しないと思います。あなたが言ったように、私たちの意図が本当に何なのか、世界がどのように機能するかを完璧に知り、将来を完璧に予測できる計算を行うAIを持つことは、成功する可能性が低いです。
ハッキングのような、すべてがコンピューター内で行われることには機能するかもしれませんが、一般的な害の防止については同意します。
しかし、これが唯一の選択肢だと考えるのは間違いだと思います。より確率的なもの、機械学習が関与するもの(完璧ではありませんが)があり、それでも現在のアプローチよりは良いでしょう。
これらのガードレールを持たないよりは、少なくとも追加の保護層を提供します。より強力な保証がない場合、弱い保証の方が何もないよりは良いのです。
司会者: もう一つ質問の時間がありますか?
ヨシュア: はい、どうぞ。
質問者5: 今議論されたことに関連して、機械学習の研究者としての観点から、技術的な解決策に取り組むことと、立法者や政策立案者と関わることのどちらが時間の最も効果的な使い方だと思いますか?
ELLISのような組織では、研究よりも政治的な側面により多くの時間を費やすべきでしょうか?あなたの見解をお聞かせください。
ヨシュア: 集団的には両方の面で取り組む必要があると思いますが、個人的にはあなたのスキルと、どちらの面でより大きな違いを生み出せるかによると思います。
個人的には、私は両方の面で時間を使っています。多くの時間を政府やメディアとの対話、規制や原則を考える委員会への参加などに費やしています。
OECDや国連、AI安全性に関する国際的なIPCCのような報告書に関わっています。国家安全保障機関とも話をしていますし、ガバナンスの問題、権力の乱用、人権の問題を懸念している人々とも話をしています。
これらに多くの時間を費やしていますが、機械学習の面でも何かできると思っているので、時間を分けています。
しかし、一部の人々にとっては、政府に貢献することは彼らの興味や技能には遠すぎると感じるかもしれません。自分にとって適切なバランスを見つける必要があります。
しかし、私たちが必要としているのは、グループとして両方の面で行動することです。
司会者: ありがとうございます。これで時間になりました。ワークショップ全体の終了のための短いアナウンスがあります。
ヨシュア、素晴らしい講演と素晴らしいディスカッションをありがとうございました。良い一日を、もしかしたらもう一度昼寝をしたり、リラックスしたりして、次回またお会いしましょう。
ヨシュア: はい、ありがとうございました。

コメント

タイトルとURLをコピーしました