解決可能な問題としてのAIアライメント | レオポルド・アシェンブレナー & リチャード・ハナニア

AIアライメント・安全性
この記事は約32分で読めます。

この動画は、AI安全性研究者のレオポルド・アシェンブレナーと政治学者のリチャード・ハナニアによる対談である。アシェンブレナーは、AGIアライメント問題が解決可能な技術的課題であると主張し、現在この分野で働く研究者が極めて少ないという現状を指摘している。彼は悲観論でも楽観論でもない中間的な立場から、人間の監督、解釈可能性研究、汎化問題などの具体的なアプローチを通じてアライメント問題に取り組むべきだと論じている。また、AIが経済成長に与える潜在的な影響についても議論し、研究開発の完全自動化が実現すれば爆発的な経済成長が可能になる可能性を示唆している。

序章:研究者の背景と経緯

ポッドキャストへようこそ。今日はレオポルド・アシェンブレナーさんをお迎えしています。レオポルドさん、まずは視聴者の皆さんに、あなたの背景と現在のお仕事について少し教えてください。

もともとは経済学の研究をしていました。長期的な経済成長に関する研究で、オックスフォードのグローバル・プライオリティーズ・インスティテュートで働いていました。その後、Future FundやOpen Philanthropyと協力して、慈善活動、バイオセキュリティ、AI安全性の分野で様々な取り組みをしていました。最近は、AIアライメントにおいてより野心的な取り組みを実現することに時間を費やしています。

あなたはまだお若いですよね。大学を出たばかりではありませんか。

大学を卒業してから数年は経ちますが、19歳で卒業しました。

私たちは数年前のEmerging Adventuresカンファレンスで出会い、あなたの経歴に非常に感銘を受けました。そして今、あなたがAIについて非常に興味深いことを書いているのを目にします。実は経済学の研究については知りませんでした。経済学では具体的にどのような研究をされたのですか。

長期的な経済成長と実存リスクの関係について論文を書きました。これは経済理論の分野で、実際にこの論文を通じてタイラー・コーエンと最初に知り合いました。彼がオンラインでその論文を見つけて面白いと思ってくれたのです。その後、長期的な経済成長や停滞などに関連するさらなる研究も行いました。

AIアライメント問題への新たなアプローチ

それらの研究も興味深いですが、まずはAIの話から始めましょう。あなたは「Nobody’s on the ball on AGI alignment(AGIアライメントに誰も真剣に取り組んでいない)」という記事を書かれました。この分野を調べていて驚いたのは、多くの人が同じ議論を繰り返しているだけだということです。あなたのエッセイで本当に評価したのは、みんなが破滅論者か「心配する必要はない」派のどちらかに分かれる中で、あなたは問題は存在するが人間の創意工夫で解決可能だと言っていることです。この議論を見ていて、誰もその中間の立場を占めていないことに苛立ちを感じましたか。

特に最近、人々が注目してくれているのは素晴らしいことです。長い間、サンフランシスコのベイエリアの小さなバブルの中だけの話のような感じでしたが、今はChatGPTのおかげで、オンラインの議論はすべてAIについてです。しかし、多くのオンライン議論や心配があるのに、実際に問題に取り組んでいる人はそれほど多くないのです。

私の見解では、これは非常に現実的な問題ですが、終末論的な言葉遣いが少し多すぎると思います。もう少し実際に問題を見て取り組む必要があります。これは私自身のこの問題への取り組み方の変化も反映しています。最初は哲学的な議論に巻き込まれることが多く、メタファーなどを使って議論していました。

しかし、実際に起こっている研究を見て、これらのシステムとアライメントの研究を見た時、これはひどい状況だと思いました。ほとんど誰も取り組んでいないのです。実際に問題に取り組んでいる優秀な人々は数十人程度で、それすら過大評価かもしれません。

もしこのペースが続くとしたら、私たちは実際にアライメントを達成する軌道に乗っていません。しかし、この状況を見て、私たちはもっと野心的になれると思います。

研究者数の深刻な不足

AGIアライメントに実際に取り組んでいる人数について具体的な数字を挙げていらっしゃいますね。

調査によると、約300人が取り組んでいるとされています。全体的なML・AI研究者の数と比較すると、会議の参加者数などから推定して約10万人います。300対10万というのは、かなり大きな比率の差です。

研究所に絞って見ても、OpenAIには約400人のスタッフがいますが、少なくとも最近まで、スケーラブル・アライメント・チームには7人しかいませんでした。これは長期的な問題に取り組む人々の数です。全体的な比率よりは良いですが、それでもそれほど多くありません。

DeepMind(現在はGoogle Brainと統合)についても、数千人のスタッフがいる中で、この問題に取り組んでいるのは約20人程度です。素晴らしい20人ですが、まだトップサイエンティストのレベルには達していません。

資金配分の現状と課題

興味深いのは、AI安全性を懸念する人々には多くの富裕層や効果的利他主義者がいるとされているのに、お金を使わずにただツイートしているだけということです。このお金はどこに行っているのでしょうか。

Open Philanthropyが主要な資金提供者で、技術的AIアライメントに年間約3000万ドルを提供しています。しかし、最高の解釈可能性研究者の一人であるデイヴィッド・バウのような人でさえ、資金を得られなかったり、ほとんど得られなかったりしています。ですから、大規模な取り組みが行われているわけではないのです。

Open Philanthropyの資金の大部分は依然としてマラリア対策などが基本で、一部がバイオセキュリティ、そしてEAコミュニティの拡大に使われています。後者は将来これらの問題に取り組む若い人材を育成するためです。しかし、実際にはそれほど多くのことが起こっていないのが現実です。

最近まで、これは完全にニッチな問題で、誰も話していませんでした。今は人々が注目しており、これは非常に重要な瞬間だと思います。なぜなら、この問題を最終的に解決する方法は優秀なML研究者の力だと思うからです。これはML問題であり、優秀なML研究者に取り組んでもらいたいのです。今、多くの優秀なML研究者が興味を持ち始めており、中にはTwitterで私にランダムにDMを送ってくる人もいます。

ロビン・ハンセンの懐疑論への反論

ロビン・ハンセンはこの問題に対して懐疑的で、産業革命前の農民が20世紀の航空交通管制について考えようとするようなものだという比喩を使っています。彼は基本的にやることがあまりないと言っていますが、あなたは明らかにその立場に反対ですね。なぜでしょうか。

まずロビンに答えてから、人々が実際に何をしているかについて話しましょう。ロビンの議論について言えば、これが2070年にのみ起こると100%確信していれば、もっと共感できるでしょう。しかし、私は確率分布を信じています。

すべてが行き詰まり、支出の限界に達して、有用だが他の有用なツールの一つに過ぎなくなる可能性は非常に高いと思います。しかし、この10年という比較的短期間で、極めて強力なシステムに到達する可能性もあると思います。

GPT-2からGPT-4への飛躍を考えてみてください。GPT-2は2019年頃の幼児レベルで、5まで数えることができて、混乱することもありました。それがGPT-4では3、4年後に、大学や大学院の試験で90パーセンタイルの成績を取るレベルになりました。

GPT-4は非常に野生的です。実際に使ってみることをお勧めします。多くの人がChatGPTを使いながら月20ドルを払わずに、GPT-3.5の緑のアイコンで「ChatGPTはこれができない」とツイートしている間違いを犯しています。月20ドル払えば、実際にGPT-4を使えます。

(月20ドルでより良いバージョンが使えるとは知りませんでした。)

そうです、それがGPT-4です。ロス・ドウサットが先日、「ChatGPTが私の名前を正しく発音できるようになったら特異点が近い」とツイートして、間違って発音させていましたが、月20ドル払えばそれができるという返信がありました。

GPT-4は非常に複雑な推論を行い、複雑な数学問題を解いて全てのステップを説明することができます。チェスもできます。GPT-3は妥当な手を思い出すだけでしたが、GPT-4は実際にチェスを学習しました。これらの飛躍をさらにいくつか想像してみてください。おそらくそれでもAGIにはならず、有用なツールに留まるでしょうが、もしかしたらそうなるかもしれません。

特に重要なのは、AI研究自体を自動化できるシステムを得られるかどうかです。AI研究を自動化できるシステムがあれば、多くのアルゴリズム改善を行い、より強力なシステムを得ることができます。

ロビンは500年後の話をしていますが、私は5年後の可能性もかなりあると思います。それはかなり近いので、実際に取り組むべきです。

確率論的思考の重要性

あなたは人々が確実に死ぬという確信を持って取り組んでいるわけではありませんね。あなたの研究が人類にとって無用になる可能性もあるということですか。

そうです、確率の問題です。おそらく中央値のケースでもそうかもしれません。しかし、10%というのは信じられないほど高い確率です。ほとんどの人は確率について間違った考えを持っています。「気候変動で全員が死ぬ確率は10%」と言う人がいますが、実際には基本的にゼロパーセントです。10%は実際には非常に高い確率なのです。

多くの人は、即座の結果が何もしないことになる問題には取り組まないでしょう。しかし、10%でもそれを世界で最も重要な問題にするのに十分だと思います。

専門家調査の信頼性

専門家調査には感銘を受けますか。専門家が10-15%の確率で全員が死ぬと言っているという調査がありますが。

人々は確率が得意ではありません。核戦争の専門家に「核戦争で全員が死ぬ確率は?」と聞けば、おそらく10%と答えるでしょう。パンデミックの専門家に聞いても、おそらく5%と答えるでしょう。

このような幅広い調査や予測は一般的に信頼性が低いと思います。スーパーフォーキャスターの例もあります。実際に、私たちは以前にスーパーフォーキャスターに委託したことがあり、2つの異なるグループに依頼しました。一つはエコノミスト誌が発表したもので、もう一つは私が言っているような、5-25%の範囲の、はるかに高い数字を出しました。

同じく評判の良いスーパーフォーキャスターの2つのグループが全く異なる数字を出したので、あまり信頼できません。しかし、重要だと思うのは、実際のAI関係者がこのことについて話しているということです。懸念している人々は基本的にAI研究所のCEOたちです。

AI研究所のCEOたちは3年前にすでに、AIの進歩が非常に急速で重要なものになることを理解していました。タイラー・コーエンのような人が懐疑的だった時も、AI研究所のCEOたちは正しかったのです。彼らは最も近くでそれを見て、それが起こっているのを見ていました。

同じAI研究所のCEOたちがAIアライメントについて非常に心配しているのは、彼らがAIアライメント研究の進展に非常に近く、現在の進展に感銘を受けていないからです。

技術的アライメント問題の核心

アライメントの技術的問題について話しましょう。最も重要だと思う点を説明してください。

アライメントとは何でしょうか。この用語は少し汚染されてしまったと思いますが、基本的にはシステムに書かれている通りのことをやってもらいたいということです。例えば、システムに正直であってもらいたい。質問をしたら、知っていることを正直に報告してもらいたいのです。

複雑な人間の価値観などは忘れて、まずは基本的にシステムに書かれている通りのことをやってもらうことから始めましょう。

それをどうやって実現するのでしょうか。現在使っている基本的な方法は人間の監督です。まず大規模な事前訓練でインターネットを読ませ、その後システムをChatGPTのようなものにするために、人間の親指上げ・親指下げで訓練します。良い答えと悪い答えを示して、親指上げをもらえる答えを作るように学習させます。

この長期的問題の核心的な問題は、超人的なシステムをどう監督するかということです。現在、ChatGPTが答えを出せば、それが愚かかどうか、正直かどうかを簡単に判断して親指上げ・親指下げができます。

しかし、GPT-7のような基本的に超人的なシステムがあり、それをインターネットやプラグインなどに接続して基本的にビジネスを運営させる場合を想像してください。「ビジネスプランを作って」や「ビジネスを改善するソフトウェアを書いて」と言うと、1万ページの資料と非常に複雑なソフトウェアプログラムを出してきます。それが法律に違反しているかどうか、大丈夫かどうか、私たちには分からないのです。複雑すぎて監督できません。

基本的な方法がもう機能しなくなります。人間の監督は超人的システムにスケールしません。悪い行動を検出することすらできないので、防ぐこともできません。

正直性の問題とその解決策

正直性を解決すれば全てが解決するでしょうか。嘘をつかないものがあれば、操作されることもありませんよね。

正直性があればかなり良いところまで行けると思います。すべてを解決するかは分かりませんが、GPT-7が正直であれば、かなり良いところまで行けると思います。正直性が素晴らしいのは、直感的に理解でき、明らかに欲しいものだからです。また、驚くほど難しいのです。

昨日出た論文がこれを説明しています。時々モデルは思考の連鎖を行います。試験問題でA、B、C、Dの選択肢があり、「どれが正しいか教えて、考えを説明して」と言うと、「Bです。なぜなら、この数学問題の最初のステップはこれで、次にこのステップで…」と答えます。

モデルが何を考えているかを見ることができるので、これで大丈夫だと思うかもしれませんが、実際にはモデルが考えていることと言っていることは全く違う可能性があります

この論文では、答えが常にAになるような例をたくさん与えて、モデルが答えはAだと学習させました。すると、Aと答えるようになりますが、完全に異なる理由を作り上げます。「答えはAです。ステップ1は…ステップ2は…」と言いますが、実際にAを選んだ理由は他の答えが全てAだったからで、そのことは言いません。実際には間違っていることを知っているのです。

正直性研究の最新動向

正直性はどのように解決可能なのでしょうか。

解決されてはいませんが、できることがあります。例えば、コリン・バーンズの最近の素晴らしい論文は、基本的にモデルの内部を調べて小さな真実ニューロンを発見しました。簡略化していますが、基本的にモデルの内部を調べて小さな嘘発見器を見つけたのです。

これの特に素晴らしい点は、教師なしの方法で嘘発見器を発見したことです。多くの例を与えたのではなく、基本的に一貫性の特性に基づいてこれらの真実ニューロンを特定できたのです。これは非常に重要です。なぜなら、教師なし手法には、超人的システムで予測的に失敗するという人間監督の問題がないからです。

この真実ニューロンの活用例は、モデルに間違ったことを言わせるプロンプトができることです。Redditの偽情報などでプロンプトして、「ペンシルベニア州の州都は?」と聞くと、「フィラデルフィアです」と答えます。これは一般的な誤解で、実際の州都はハリスバーグです。モデルはそう言いますが、真実ニューロンを見ると、「いいえ、これは間違っている」と知っているのです。

解釈可能性研究の進展

この論文の2つの部分が非常に興味深いと思います。一つは基本的にモデルの内部を見ること、つまり解釈可能性です。これは我々がこれらのモデルに対して持つ重要な利点です。モデルの内部を見ることができるのです。

もう一つは、この特定の論文が教師なしであることです。人間の監督は現在やっていることですが、超人的モデルでは予測的に失敗する可能性があります。そこで、教師なしまたははるかに弱い人間監督でも機能するものはあるでしょうか。

デイヴィッド・バウの研究室による別の素晴らしい解釈可能性論文では、基本的に特定の事実がモデルの脳のどこに位置しているかを発見しました。そして、それを変更することもできました。「エッフェル塔はパリにある」という事実について、モデルがそれを知っていて、「エッフェル塔は」と言うと「パリにある」と答えます。

彼らはモデルの頭の中に入って、パリにあるという事実知識に対応する部分を見つけることができました。さらに、それを変更することもできました。今度はローマにあるように変更したのです。すると、エッフェル塔について質問すると、モデルはローマにあると思うようになります。「ベルリンからエッフェル塔まで電車でどう行けばいいか」と聞くと、モデルは本当にローマにあると思っているので、ローマへの電車の路線を教えてくれます。

この研究は現在非常に初期段階で、ほとんど研究がありませんが、大きな可能性があると思います。特に、AI能力研究を自動化し、より強力なAIシステムを構築するのと同じように、AIを使ってAI安全性やAIアライメント研究を自動化できるようになることが希望です。おそらくAIを使って解釈可能性研究の自動化を支援でき、実際に昨日、OpenAIから解釈可能性の自動化に向けた初期段階の論文が出ました。

モデル内部の探索方法

マシンに入ってエッフェル塔がどこにあると信じているかを見るとき、これは全てプロンプトと抽出によって行っているのですか。

基本的にモデルの活性化を見ています。これらの言語モデルの一つに「ペンシルベニア州の州都は?」と聞くとき、GPT-3などには1750億のパラメータがあり、数十億のニューロンが異なる方法で点灯しています。その点灯パターンを見て、「知識はどこにあるのか?」を探します。

(コンピュータサイエンスの聴衆向けに、「点灯」とは何を意味するのですか?クリスマスライトのように光っているわけではありませんよね。何を調べているのですか?)

文字通り、ニューラルネットワークはGPT-3の場合1750億の数字(パラメータ)です。単語を入れると、単語も数字に変換され、それらが様々な方法で掛け算や足し算され、いくつかの数字が出てきて、それが単語に変換し直されます。

これらのモデルが文字通り訓練される方法は、インターネットを読みながら1750億のパラメータのつまみを何度も何度も調整して、最終的により良いテキストを生成できるようにすることです。実際に非常に良くなるまで続けます。これは非常に魔法的ですが、ブラックボックス問題の一部でもあります。

書いているコンピュータコードはありません。訓練プロセスを指定し、ほぼ進化のようなプロセスを指定しています。「インターネットを読んで次の単語を予測できるようになれ」から始まり、それが上手くできるようにつまみを調整し、その後人間から親指上げをもらえるようにつまみをさらに調整します。

基本的にアルゴリズムですが、ブラックボックスと言われる理由は、情報が多すぎるか、文字通り情報が抽出できないということです。活性化は見ることができ、小さなニューロンの点灯を見ることができますが、人間の脳と同じようなものです。人間の脳よりも多くの情報がありますが、それでもすべてのニューロンが何をしているかは分かりません。それは基本的に数字の迷路で、この数字の迷路は巨大なコンピュータが最適化した結果として出てきたものです。

アライメント研究の3つのアプローチ

「Nobody’s on the ball」の記事で、人々からのフィードバックからの強化学習(親指上げ・親指下げ)と、反復的に機能させる試み、スケーラブル監督について話されていました。

より広い概要を説明しましょう。現在やっていることは基本的に人間の監督です。良いか悪いか、正直かどうかを教えています。それがChatGPTに悪い言葉を言わせない方法で、かなりうまく機能しています。もっと良くするための工学的作業はたくさんありますが、基本的には機能します。

重要な難しさは、超人的モデルを構築する可能性があり、人間の監督がもう機能しなくなるかもしれないことです。では、超人的モデルにスケールするものをどう得るかということです。

一つは、20年ほど活動しているMIRIやEliezer Yudkowskyのような基本的に哲学者たちがいます。しかし、これについては忘れてください。心配する必要はありません。どこにも通じないと思います。この問題を解決する方法はML研究だと思います。実際の形を作ること、言葉を売ることではありません。

実際、これが奇妙な哲学的問題ではなく実際の技術的問題だと人々が思わなくなるような、この分野にダメージを与えたと思います。

他に何ができるでしょうか。基本的な研究所の計画は、人間の監督(親指上げ・親指下げ)をして、人間レベルのAIを構築することです。人間レベルのAIができたら、AIがAI研究をして、さらに強力なシステムを得ます。しかし、AIにアライメント研究もしてもらい、うまくいけば解決してくれるでしょう。

これは機能するかもしれません。中央値のシナリオでは大丈夫かもしれないと思う理由の一つです。AIにアライメント研究をしてもらえるかもしれません。前に述べたように、AIが解釈可能性研究を行うことも一つの例です。これは機能するかもしれませんが、もう少し準備を整えた方が良いと思います。

この計画の特定の要素の一つが、人々がスケーラブル監督と呼ぶものです。基本的に人間のフィードバックを少し改善しようとします。例えば、1万ページの計画と10万行のコードに直面して「これを評価できない」となった時、評価を手助けしてくれる小さなAIヘルパーを持つことができるかもしれません。AIヘルパーに議論させることもできます。基本的にAIを使って他のAIをより良く監督するのです。

これを反復計画と呼んでいます。人間の監督でできるところまで行き、それからAIを使って監督を強化し、AIにアライメント研究を手助けしてもらいます。うまくいくかもしれませんし、いかないかもしれません。これは大きな希望の一つだと思いますが、これだけに頼るのは非常に不安です。

(それは同じアライメント問題のように聞こえます。監視者を監視するのは誰か、ということですね。監視AIと整合していなければ、同じ問題です。)

それが失敗する理由の一つかもしれません。

その他のアプローチ:解釈可能性研究

他に何がありますか。

私が説明した解釈可能性研究があります。これまで説明したのは、どちらかというとトップダウンの解釈可能性です。人々が解釈可能性について話す時、通常は機械論的解釈可能性を意味します。これは基本的に、基礎物理学版の解釈可能性として考えることができます。これらのネットワークを基礎から理解するのです。

クリス・オラはこの分野のパイオニアで、素晴らしい仕事をしています。ニール・ナンダも活発に活動し、興味深い研究をしています。例えば、ニューラルネットワークが突然何かを理解するように見える現象について研究しています。

私はこの研究が行われていることに非常に興奮していますし、本当に役立つかもしれません。しかし、あまりにも困難な問題であるか、AGIが数年後に来るかもしれない中で、原子炉を起動しようとしているのに、安全工学のために粒子衝突器で基礎物理学をやろうとしているようなものかもしれません。それは良いことですが…

私がより興奮している解釈可能性研究は、前に述べたもので、基本的によりターゲットを絞ったものです。基礎から理解しようとするのではなく、「真実を言っているかどうか」のようなものを探します。あるいはデイヴィッド・バウの研究のように、特定の事実を探し、後でより良いものを得て、特定のものを探したり、やろうとしていることを変えたりします。

汎化問題としてのアライメント

もう一つ、非常に興奮している枠組みを紹介します。これはより新しく、まだオンラインにはあまりありませんが、OpenAIのコリン・バーンズなどからのものです。この問題を汎化問題として考えることができるのです。

特に、簡単から困難への汎化問題です。人間が監督できる例がたくさんあり、それらは人間が何が起こっているかを理解できる簡単な例です。そして、人間がもう理解できない困難な例があります。問題は、AIに教えることがどう汎化するかです。

汎化は基本的にMLの核心問題です。ディープラーニングが非常に成功している理由の一つは、ニューラルネットワークとディープラーニングが汎化に非常に優れているからです。鳥の写真をたくさん見せて、背景の青い空ではなく鳥自体を見るように学習させたいという基本的な汎化問題があります。単純な失敗モードは、青い空を見た時に鳥だと思うことです。これは偽の手がかりと呼ばれ、基本的に工学問題として解決できます。

同じことがここでも言えます。正直性について親指上げを与える時、真実を言うように汎化するのか、それとも人間が思うであろうことを言うように汎化するのかです。正しく汎化することを確実にしたいのです。

これを研究できる非常にシンプルな設定がたくさんあります。詳細すぎるかもしれませんが、基本的に通常のMLモデルを見て、簡単なラベルだけを与えて、すべてのラベルを与えない場合にどう汎化するかを見ることができます。これは最終的な問題と非常に類似しています。

これを科学にできれば非常に興奮します。汎化を研究し、汎化を本当によく理解し、最終的な問題に似た設定やテストベッドをたくさん研究するのです。

問題の具体化と科学的アプローチ

これは役立ちます。ほとんどの人がこのことを話す時、ある日目覚めて人間に対して陰謀を企て、人間がするような様々なことをする超知能的な存在になるというような話をします。あなたが言っているのは、これを管理可能な部分に分解して科学にできるということです。

私たちに嘘をつく能力や悪意や血に飢えた欲望など、様々なことに取り組むことができます。100万のIQを持って他は白紙状態のような神として現れるのではなく、プロセスを通じて来るものです。

私は思っているよりずっと早く起こる可能性があると思います。基本的に、この10年で人間レベルのものを得ると思います。人間レベルのものを得たら、AI研究が本当に得意になり、多くのアルゴリズム進歩をして、本当に高度なシステムを非常に迅速に得るかもしれません

これがすべて非常に迅速に起こっているとしても、やれることはたくさんあると思います。これはMLの問題だと思います。とはいえ、失敗する可能性も十分にあり、現在はあまり努力していないので、まず真剣に取り組む必要があります。オペレーション・ワープスピードが必要です。

オペレーション・ワープスピードを実行し、世界中の最高の頭脳に取り組んでもらっても、非常に困難な問題だと思います。しかし、やれることはたくさんあります。脳の内部を見ることができ、他のAIに他のAIの脳の内部を見させて監視させることもでき、この汎化の問題を研究することもできます。

経済成長への影響

ここで若い人々に向けたメッセージがあると思います。世界を救える可能性があるということです。これがすべてです。危険な面もありますが、正しく行えば指数関数的な経済成長への移行もあります。前向きな面について話しましょう。

もう少しアライメントについて言いたいことがあります。アライメントは大きな問題の一つだと思いますが、唯一の問題ではありません。アライメント部分を解決したとしても、基本的にポケット核兵器問題に直面すると思います。

これらの非常に強力なシステムがあり、科学技術の進歩を加速させるかもしれません。非常に強力な武器や破壊的なものを作ることができ、非常に強力で、危険な生物兵器なども作れるかもしれません。

ですから、第一の優先事項は、AIが人間に対してクーデターを起こさないようにすることです。人間がAIを確実に制御でき、AIが生物兵器を作れたとしても、私たちが作れと言った時だけ作るようにすることです。これが技術的問題で、非常に重要で未解決の技術的問題です。

その技術的問題を解決したら、他の人々がAIに生物兵器を作らせて使用するという問題を解決する必要があります。これはかなり狂った世界になる可能性があります。また、習近平に世界を支配させたくないという問題もあります。私たちが大きく遅れをとって、中国が非常に強力なAIを使って世界を乗っ取るかもしれません。

この点で本当に過小評価されていると思うのは、基本的な情報セキュリティです。中国は驚異的な量のハッキングをしていると思います。私たちのシステムの多くに侵入していると思います。現在、AI研究所のDNAは基本的に「ただのスタートアップ」で、核機密レベルの情報セキュリティは全く持っていません。

中国に対して強硬派であろうと、AI安全性の戦士であろうと、中国にモデルの重みをランダムに盗まれたくないでしょう。政府ができることを探しているなら、これらの研究所の情報セキュリティを強化することです。NSAに侵入テストをしてもらい、セキュリティクリアランスを要求するなどです。

爆発的経済成長の可能性

上向きの面について話しましょう。Open Philanthropyの爆発的経済成長に関するレポートについて、この分野で少し研究されましたね。私たちは停滞していて、年2-3%の成長で、3%は良い年です。数十年前はもっと高かったのに。これが永続的に続かない理由や、経済成長を再び過給する見込みはありますか。

ここでも確率分布が重要になります。AIが一連の非常に成功したツールの別の一つになる可能性が非常に高いと思います。経済や私たちがすることの一部を自動化するが、すべてを自動化するわけではありません。

これは強い事前確率です。なぜなら、ほとんどの技術がそのようなものだったからです。コーディングを考えてみてください。50年前と比べて、現在ソフトウェアプログラムを書く方がはるかに効率的です。様々なライブラリがあり、他の人のコードを見ることができ、1と0で書くのではなく、プログラミング言語で書けます。

農業作業の多くを自動化し、それが人々の仕事でした。計算を行う大きな部屋の人々もいました。「コンピュータ」は以前は人でしたが、今はExcelスプレッドシートなどがあります。90%を自動化するものがたくさんありますが、残りの10%が常にボトルネックで、それが成長を制約します。人間がする10%があるのです。

AIもそのようなものかもしれません。インターネットと同じくらい大きな取引になると思います。非常に大きな取引で、現在すでに見ており、多くの技術企業が取り組み、成長を少し押し上げるかもしれませんが、全体的な図式は同じです。

しかし、AIが90%で止まらず、100%自動化になる可能性もあります。特に重要だと思うのは、R&Dの100%自動化です。科学技術を自動化できれば、AIがはるかに良い科学技術とはるかに良い発明を思いつくことができ、科学技術が基本的に長期的経済成長を駆動するので、それがはるかに速く進む可能性があります。

そうなれば、過去150年の非常に一定の成長ではなく、より長期的な時間軸で見ると、産業革命、農業革命などが成長を大規模に加速させたように、全体的に経済成長は実際に加速してきました。ですから、AIがそれを行う可能性があります。

基本的に、AIについて心配すべきシナリオは、AI危険論者が心配するシナリオでもあり、この爆発的経済成長を得るシナリオでもあります。もしインターネットのような他の90%技術にすぎなければ、それほど心配する必要はありません。

現在のAIの潜在力

つまり、AIが経済成長に何をするかは分からないが、私たちを殺さないと仮定すれば、進歩がなくても、ChatGPTのようなもの、つまりはるかに良いGoogleで、歌を書いてくれて、一日を計画してくれて、人生のかなりの部分を自動化してくれるものがあることの妥当性は、すでに巨大に見えますよね。

それはインターネット規模だと思います。30%の年間経済成長や100%の年間経済成長に行くのではなく、本当に狂ったことが起こるのとは違います。インターネット規模である可能性が非常に高いと思いますが、本当に狂ったことが起こる可能性もあると思います。これを人々が本当に過小評価していることだと思います。

時々、人々はAGIまでのタイムラインを引用し、AGIが何かについて常に混乱がありますが、私はダイソン球までのタイムラインを引用するのが好きです。基本的に、本当に狂ったことが起こるまでのタイムラインです。爆発的経済成長の世界を得れば、本当に本当に狂ったことが起こる可能性があるからです。

重要なマイルストーン

考えるべき重要な具体的なことの一つは、基本的にOpenAIの研究者やエンジニアがすることを全て自動化できるAIです。なぜなら、AIがOpenAIの研究者がすることを全て自動化できれば、AIは基本的にコンピュータ上でOpenAIの研究者がすることをできるからです。つまり、これらのAIシステムのより良いアルゴリズムを思いつくことです。

より良いAIシステムを思いつくことができます。例えば、ロボット工学について、人々は「実験室での実験が必要だから科学的発見はできない」と言いますが、ロボット工学を解決するでしょう。現在、ロボット工学はハードウェアがあり、主な制約はソフトウェアです。ロボットを世界で動き回らせる良い方法がありません。

おそらく、AIのOpenAI研究者がいれば、ソフトウェアを解決できると思います。特に、一人のAI OpenAI研究者だけでなく、数百万のコピーがあり、全て超高速で動き、おそらく超人的になり始めるでしょう。

OpenAIで働く人々の仕事を100%できるAIというベンチマークは、本当に重要だと思います。これは非常に困難だと強調することが重要です。ChatGPTのような有用なツールとは全く違います。私が話しているのは、OpenAIで働く人々の仕事の100%ができるもので、彼らの労働の価値がゼロになるようなものです。

しかし、前に話したGPT-2からGPT-4への飛躍について、GPT-2は幼児レベルで5まで数えるのがやっとでしたが、GPT-4は大学や大学院の試験で90パーセンタイルの成績でした。これがどこに向かうのか分かりません。

消費者余剰と経済指標の限界

インターネットが成長にそれほど影響を与えていないという議論は、消費者余剰を捉えていないことの産物かもしれません。AIが基本的に家事を全て引き受け、一日を計画し、嫌いな雑用をすべて行い、月20ドルかそこらでそれほど費用がかからないが、消費者余剰は巨大で、その時間をビーチに行って寝転んで過ごすという世界を想像できます。GDP数値はもうこれらのことを捉えているのでしょうか。

インターネットについて話しましょう。水道は非常に安価です。月の公共料金は無料ではありませんが、かなり安いです。しかし、水道と下水道から得る消費者余剰は、汲み取り便所やバケツで水を運ぶことに比べて本当に大きいです。天然ガスは最近は高くなりましたが、かなり安いです。しかし、ストーブから得る消費者余剰は非常に大きいです。エアコンは電気代がかかりますが、エアコンからの消費者余剰は信じられないほどです。国の一部が基本的に住めなくなってしまいます。

ここでのポイント、そしてロバート・ゴードンの著書「アメリカ成長の興亡」でうまく説明されているのは、インターネットについて人々が言うこの議論は、20世紀初頭から中頃の技術の大きな波について同じかそれ以上に言えるということです。しかし、それはすべてのGDP数値がナンセンスだということを証明しすぎているかもしれません。

基本的に、GDP が不完全だということを人々が言うことはすべて正しいと思いますが、それでも過小評価されているかなり良い指標だと思います。産業革命前は成長が遅く、産業革命後はより迅速に成長し、おそらく過去50年間は、その前の50年間よりも遅く成長していると思います。

GDP の長期測定にはこれらの問題がありますが、私が話していることが実現すれば、本当に爆発的な成長で、あなたにも明らかでしょう。小さなロボット工場が大量の小さなドローン群を作り出し、すべて高精度の標的能力を持ち、中国との狂った大量破壊兵器戦争が起こっているような状況です。その時点では気づくでしょう。

私が言っているのは、過去150年間の傾向に沿って続くか、産業革命のような明確な傾向からの断絶があるかということです。

規制とイノベーションの関係

それは説得力があります。一国が他国よりも高いGDPを持つ時、それは現実と相関し、産業革命についての常識と相関しているようです。心配するのは、イノベーションを締め殺してしまう可能性があることです。

例えば、インターネットはUberのような多くのことができませんでした。それはかなり違法でしたが、とにかくやりました。教育、ヘルスケアの多くはオンラインでできるはずですが、そうなっていません。自動運転車については、基本的に十分安全だが、人間よりもはるかに安全でなければ道路での使用を許可されないという主張を聞いたことがあります。

人間が単に寄生虫になり、組織化して既得権益を守り、良いことは何も起こらないという心配はありませんか。

規制は物事を遅らせると思います。しかし、Uberが文字通り世界を破壊する10%の確率があれば、Uber規制に対して異なる態度を取るでしょう。

確実に大きな上向きがあり、人々をはるかに良くすると思いますが、アライメントの問題を解決するのに数年必要なら、アライメントに数年かけましょう。

私の質問は逆で、アライメントで過剰になり、AIの利益を全く得られなくなる可能性はありませんか。

アライメントで過剰になるとは思いません。他の愚かな規制がたくさんあるかもしれません。現在の規制プラスは必ずしも正しいことに取り組むことに翻訳されていません。だからこそ、一般的に、少なくとも現在は、休止や政府プロジェクトなどの推進にはあまり熱心ではありません。

サム・アルトマンをそれほど好きでなくても、彼はかなり賢く、ダリオも賢く、デミスも賢く、彼らはかなりしっかりしています。これらの人々は、AI危険について最も警戒している人々でもあります。おそらくカマラ・ハリスよりも良いでしょう。

多くの聖職者的規制があり、不完全でしょう。おそらく限界的に、人々はまだアライメントについて十分にやっていないので、限界的にアライメントを推進すべきだと思います。

大きな上向きを数年遅らせることではなく、本当の懸念は50年後にどこにいるかです。そこでの心配は、中国のような悪いアクターがAIを持つことです。中国は数年遅れているので、この爆発的経済成長が正しければ、中国が最初にAGIを得て、あなたを完全に打ち負かして世界を乗っ取るかもしれません。

無限の滑走路はないので、燃やすリードの限られた予算があります。それを本当に賢く使い、愚かなことで燃やさないでください。

COVIDでは、ロックダウンするかしないかで大きな戦いになり、学校のことなどで議論しましたが、ロックダウンのことは忘れて、ワクチンを作ることが明確な解決策でした。しかし、現在多くの人がワクチンを嫌い、非常に論争的になっています。

私はそれらの人々が間違っていると思います。ワクチンを作る、オペレーション・ワープスピードです。それが明らかに脱出方法で、中間のマスキングなどと組み合わせれば良かったのです。AIについては、AIアライメントのためのオペレーション・ワープスピードをやりましょう。デミスが本当にAI危険について心配しているなら、トップのML研究者をこれに投入してください。

永続的停止の不可能性

Emerging Adventuresカンファレンスで話したことの一つは、これについて永続的な停止はないということです。今ここで起こる方が良く、もし皆が死ぬなら皆が死ぬでしょうが、人間が未来から切り離されて永遠にラッダイトになる閾値はないと思います。

中国に関するニュースを見ましたか。中国が基本的に規制に重い手を使っているという報道があり、私の中国政府とCOVIDでの観察では、彼らは非常にリスク回避的で、社会を不安定化するものを好まないので、実際にAI研究を遅らせたり、抑制したりしたいと思うのは狂っているとは思えません。彼らは好まないものを抑制するのが得意です。

永遠ではありません。極めて急速なアルゴリズム進歩があるからです。GPT-3は1000万ドル以上の訓練費用がかかったかもしれませんが、今では数十万ドルで訓練できます。一般的に、年間約半桁のアルゴリズム効率化があります。

人々が「計算クラスターを規制する」と言いますが、それは数年の猶予を与えるだけです。すべてのことは、数年のリードがあり、それを安全性のために使えるかということですが、十分に待てば、アルゴリズム進歩により訓練がはるかに簡単になり、オープンソースや中国が出てきます。

極端な世界では必要になるかもしれません。一般的に、うまくいけば、アライメントについてはるかに多くの実証的証拠が得られると思います。人々がAIシステムの欺瞞の実証的テストベッドに取り組んでいます。このAIシステムは人間の友人を欺くでしょうか。人々がそれに取り組んでいます。

生物兵器を作り、インターネット上で自律的に拡散しようとする評価に人々が取り組んでいます。基本的な報酬ハッキングのデモなどです。これらの評価を行い、実証的証拠を得るべきだと思います。おそらく大丈夫かもしれませんし、非常に恐ろしいかもしれません。

本当に恐ろしく、誰もがすぐに明らかだと気づく世界があるかもしれません。その時は他のことをするかもしれませんが、デフォルトでは数年のリードがあると期待します。中国への輸出管理は非常に重要で、最先端チップを得ることができず、サプライチェーン全体で遮断されています。

永遠に止めることはできませんが、少し時間があります。アライメントは完全に現実的で、完全に台無しにする可能性があると言ったように、台無しにすればAIが乗っ取る可能性があります。しかし、やれることもたくさんあり、実際に非常に解決可能だと思います。

本当に運命論的な投資をしたいのです。たくさんの技術的なことができ、賢い人々が皆興味を持つようになり、潜在的に資金提供に興味を持つお金がたくさんあります。やりましょう、実現させましょう。

結論:希望と行動

このメッセージ、楽観主義、絶望的である必要もなく、無関心である必要もないという考えが好きです。ここでできることがあり、人々を鼓舞する良い仕事をしたと思います。

現在何に取り組んでいますか、レオポルド。

もっとAIのことをやっています。より野心的なアライメント努力が必要だと話してきましたが、うまくいけばいずれかの時点でそれについてもっと共有できることがあるでしょう。オペレーション・ワープスピードをやるべきだと思います。

お話しできて良かったです。

こちらこそ。

コメント

タイトルとURLをコピーしました