彼はOpenAIを辞めた — そして何百万もの価値を危険にさらして私たちに警告した | ダニエル・ココタイロ

AGIに仕事を奪われたい
この記事は約55分で読めます。

32,449 文字

He Quit OpenAI — and Risked Millions to Warn Us | Daniel Kokotajlo
AI is developing at breakneck speed—but are we properly prepared for what’s coming? To explore this question Igor and I ...

今日は、ダニエル・ココタイロと話します。ダニエルはAI研究者で元OpenAI社員ですが、おそらく彼が最も知られているのは同社についての様々な懸念を内部告発したことでしょう。今日はその話題もたくさん取り上げますが、私にとってダニエルの最も素晴らしい点は、AIの進路について予測する彼の驚くべき能力です。2021年、彼はAIがどのように展開すると思うかについて多くの予測を書き、それらは信じられないほど正確であることが判明しました。今日彼と話したかったのは、今後3年間でAIがどのように展開すると考えているかについての新しい予測集を発表したばかりだからです。このエピソードを聞き終えたら、ぜひそれらをチェックすることをお勧めします。
それでは、ダニエル・ココタイロとの会話をどうぞ。
ダニエル、WinWinへようこそ。
ありがとうございます。昨日は一日中、あなたが「AIテーブルトップゲーム」と呼ぶものをプレイしていましたね。私にとっては一種の戦争ゲームのようでしたが、それが何であるか、なぜそれを行っているのか説明していただけますか?
そうですね、戦争ゲームです。ただし、必ずしも戦争で終わるわけではなく、実際ほとんどの場合そうはなりません。おそらくより技術的に正確な用語はテーブルトップ演習でしょう。これはマトリックスゲームと呼ばれるもので、ルールが非常に少ないです。基本的に全員がテーブルを囲んで「大統領が今月これをします、OpenAIのCEOが今月これをします、中国共産党が今月これをします」などと順番に言います。
人々は順番に何をするかを述べていき、そうやって物語を協力して構築していくのです。そして、モデレーターがすべての議論を解決し、その物語の中で何が実際に正統なのかについて最終的な判断を下します。このような方法を通じて、「2026年や2027年に何が起こるか」という予測を単に立てるのとは異なり、それを順次行うことで、異なるタイプの洞察を得ることができます。
これが、軍がよく台湾への中国侵攻をシミュレーションするために戦争ゲームやテーブルトップ演習を行う理由でもあります。あるいは有名なのは、ジョンズ・ホプキンス大学がゲイツ財団と国連と共同で行ったパンデミックシミュレーションで、2019年にYouTubeに投稿されました。これが部分的に、ゲイツがワクチン配布のためにパンデミックを計画していたと思われる原因となりました。なぜなら彼らがそれを投稿し、実際に多くのことを正しく予測したからです。
彼らはコロナウイルスのパンデミックが南米の豚農場から始まり、人間に感染することをシミュレーションしました。それにより世界中のフライトがキャンセルされ、経済的混乱などが起きるというものでした。そこから得られた貴重な教訓の一つは、彼らが国連の人々を集め、国連が「もしこれが起こったら、あまりワクチンを持っていない国々を助ける必要があるので、すべてのワクチン配布を国連を通じて行う」と主張したということです。彼らはそのような緊急事態において、他のすべての国が従うと考えていました。誰もが「本当に国連?そんな状況で人々が聞くと思うの?」と思っていました。彼らは明らかに、そのような状況で彼らの実際の力がいかに小さいかを認識していなかったようです。それが、そこから得られた貴重な洞察の一つでした。
これは明らかに、パンデミックがどのように展開するかをシミュレーションするために行われました。そして、見ての通り、かなり効果的でした。
あなたの目標は何ですか?AIがどのように展開する可能性があるかを理解することがなぜ重要なのか、AIにそれほど詳しくない人々に説明していただけますか?一部の人々はそれをそれほど大きな問題とは考えていないので、なぜこのようなシミュレーションを実行する動機があるのかを説明してください。
それは最大の問題です。Anthropicのダリオ・アモデイやOpenAIのサム・アルトマンなど、これらの企業自体やCEOたちは明確に超知能を構築することを目指しています。彼らは今後数年でそれを達成すると考えているといい、私も独立してそれに同意しています。これは私の仕事であるAIトレンドを予測する上で、自信を持っているわけではなく、それよりもはるかに長くかかる可能性もありますが、実際、今の10年が終わる前に彼らが超知能の構築に成功する可能性があると思われます。
超知能とは何か?それは、あらゆる分野で最高の人間よりもはるかに優れたAIシステムであり、同時により安価で高速です。それは大きな問題です。もしその意味について考え、そして今の10年が終わる前にこれらの企業のいくつか、あるいは複数の企業がそのようなAIを訓練するだろうと考えると、これが大きな問題ではないと思うことはないでしょう。
その点について、あなたは元OpenAI社員として知られていますが、現在はそこで働いていませんね。なぜ退職したのか、またそれがOpenAIの優先事項の変化に関連していたのかについて説明していただけますか?外部から見ると、彼らは変化しているように見えます。
それはある程度関連していましたが、それだけが理由ではありません。先ほど言ったように、私には人類が技術的なレベルでも、ガバナンスのレベルでも、あるいはどのレベルでもAGI(汎用人工知能)に準備ができていないと思われました。あなたはゲームをプレイしましたね。私は25のゲームを行いましたが、それらはすべてあなたが知っているくらい狂っています。いくつかはより狂っていない、いくつかはより狂っていますが、それはとても強烈になるでしょう。それが地平線上に見えていて、数年後に来るように思われるのに、私たちはまだ全く準備ができていないのです。
OpenAIに入社したとき、私はOpenAIがAIについてそのような狂った何かが起こると予想し、それをうまく進めるためにできることをすべてやろうとしている人々によって設立されたという感覚を持っていました。それが伴うものはいくつかあります。一つは良いガバナンスであり、透明性や人類の福祉へのコミットメント、権力の共有などがあります。そして、もう一つは技術的なレベルで、これらのAIの内部で何が起きているのかを理解し、それらを操縦し調整する方法を確認するために本当に重点的に投資することです。
入社したとき、私は「現在、彼らはレースに勝つことに集中しているが、T=0が近づくにつれて、より責任のある方向にピボットし、これらの非常に重要な領域にもっと焦点を当てるだろう」と考えていました。その時点でも完全に満足ではありませんでした。なぜなら「ピボットするには遅すぎるかもしれない。中国が追いつくまでに6ヶ月しかないかもしれず、今もっとやるべきだ」と思っていたからです。
しかし徐々に、ピボットは決して起こらないだろうと思うようになりました。計画は会社全体や会社の大部分を技術的なアライメント研究にピボットさせることではなく、むしろ「進み続け、自分たちや他の人々に『大丈夫だ』と言い、問題はそれほど悪くないと言い、進みながら解決していく」ということだと感じました。
私を失望させたもう一つのことは、合理化のプロセスが続いていることでした。合理化は非常に人間的な現象で、誰もが常にそれを行っています。私もたくさんやっているかもしれません。それは、あなたにとって都合の良い結論を支持する理由を思いつくプロセスです。これは個人レベルでも起こりますし、機関内のグループレベルでも起こります。
OpenAIは機関として「速く進まなければならない、最初になり、AIで最高になり、私たちがやっていることは素晴らしい、私たちはヒーローだ」という考えにコミットしているように思われました。そして、それらの結論を支持するための多くの合理化と理由が見つかりました。
最終的に、私はそれらの状況の中でできる限りのことをして残ることを考えました。例えば、アライメント研究の分野を少しずつ進めることが、もし残った場合に私がやりたいことの最有力候補でした。スーパーアライメントチームについては本当に嬉しく思っていました。彼らは素晴らしい仕事をしていました。
しかし、彼らは今シャットダウンされてしまいましたね?
そうです。
最終的に、私はこれらの種類のことについてもっと自由に話せるようになりたかったため、退職することにしました。在職中は公表する能力がないことにフラストレーションを感じていました。そして、驚くべきことに、自由に発言するためには、OpenAIで働いて既に獲得した、既得権のある持分を放棄しなければなりませんでした。それは一種の条項で、いきなり投げかけられたものでした。
具体的には、「会社に批判的なことを言わないでください」というような趣旨の非誹謗条項がありました。そして、それに違反した場合、あなたの既得権のある持分を剥奪するための法的メカニズムがいくつかありました。実際にはそれより広範だったと思いますが、書類を見直さなければ正確には分かりません。しかし基本的には「批判するな、さもなければあなたのお金を奪うぞ」という明示的な脅威がありました。
いくらのお金についてお話しているのですか?
これがすべてニュースになった理由は、レス・ロング(Less Wrong)にコメントを残したときに、「それは私の家族の純資産の85%でした」と言ったからです。おそらく、なぜそれを放棄してもよいと思ったのか疑問に思っていることでしょう。簡単な答えは、私たちはそれなりに裕福だからです。私はOpenAIで2年間働いていて、テック企業なので非常に寛大な給料をもらっていました。だから、その2年間で、それまでの人生で稼いだよりも多くのお金を稼ぎました。私たちは財政的には大丈夫でしょう。ただ、この全体的な設定が非常に不当だと感じ、「彼らはどうしてこれを続けられるのか」と思ったのです。
書類を見たとき、すぐにこれはできないと感じましたか?それとも、長所と短所を考えましたか?
そうですね、私にアドバイスを求めた人たちの中には「とにかくサインして大丈夫だ」と言う人もいました。「もし後で実際に批判しても、彼らはきっとあなたを追いかけてこないだろう」と。「彼らが実際にあなたの持分を奪ったら非常に悪く見えるから、サインして先に進むべきだ」と。しかし、私はそうしなかったことをうれしく思います。なぜなら、もしサインしていたら、あなたが以前述べたような状況に陥ったかもしれません。合理化が始まり、最初は自由に話せると思っていたかもしれませんが、後になって彼らが追いかけてくることを心配するようになったかもしれません。
他の人と話していて分かったことですが、その書類にサインした会社の元従業員と話し、その人たちはおそらく部分的にそれが原因で公に発言することにかなり消極的でした。ただ、それだけが理由ではないと思います。私が知っている多くの人々は、書類が無効になり、もはや実際の法的脅威がなくなった今でも、公にOpenAIを批判することをかなり恐れています。
あなたの退職時のメールの一部が公開されていますね。そこでは「これが標準的なビジネス慣行だと信じているのは理解できますが、本当に正しいとは思えませんし、AGIほど強力なものを構築している会社は、これよりも高い基準を持つべきだと思います。それは本当に公の信頼に値するものであるべきです」と美しく述べています。
それが私の心を非常に混乱させていることです。彼らは自分たちを地球上で最も強力な会社になるような立場に置き、開放性と透明性の柱の上に設立されたと主張し、そして文字通り従業員からお金を取り上げています。それは潜在的に半ば違法ですらあるかもしれません。「私は誠実でないと思うから辞めるのに、あなたは私が誠実でないと言うことを妨げようとしている」と言っています。ただただ驚くべきことです。
そうですね、彼らの立場にスチールマン(善意の解釈)を与えるとしたら、「彼らはレースに勝つ必要があり、彼らだけがそれができる」と信じていれば、功利主義的な理由からこれらすべてのことをする可能性があるでしょう。私はそれに賛成ではありませんが、これらの行動をとるに至った原因として、それが一部役割を果たしていると思いますか?なぜなら、サムには疑いなく、これらのことが起こっている理由についていくつかの正当な理由があると思うからです。
これは、手段が目的を正当化する程度に関する興味深く、ある意味で時代を超越した哲学的・倫理的問題につながります。人類の歴史を通じて、「権力とリソースを蓄積するために、あらゆる手段を講じ、妥協し、何でもするつもりだ。そうすれば後で良いことができる」と言う人はとても一般的です。
それは間違っているわけではありません。もし多くの権力とリソースを蓄積すれば、後で良いことをすることができます。実際、世界で起きた良いことのいくつかは、人々が多くの権力とリソースを蓄積し、それを使って良いことをしたからこそ起きました。しかし、この戦略には明らかな危険もあります。例えば、この戦略をより頻繁に取るタイプの人々は、後で実際に良いことをしない傾向にあるということです。
歴史の暴君たちは、自分たちが悪であると思って出発したわけではありません。彼らはただ、世界が良くなるために必要なことだと合理化した、非常に間違った哲学を持っていたのです。ヒトラーでさえ、彼の頭の中では、おそらくこれは世界が良くなるために必要なことだと合理化していたのでしょう。私たちはそれが明らかに邪悪だと見ていますが、彼の頭の中では違ったのでしょう。人々は悪役が自分を悪役と見ていると考えますが、そうである人はほとんどいません。
シリコンバレーのテレビドラマにあった最高のセリフの一つは、ガビン・ベルソンが「私たちよりも世界をより良い場所にする誰かがいる世界に住みたくない」と言うところです。それは方向性としてこうした人々を指摘しています。彼らは自分たちが良いことをしていると信じており、おそらく彼らがこの力を持つのに最もふさわしい人々だと思っています。それはあなたが説明している合理化の古典的なものです。もしあなたがすでにより多くの力を望んでいるなら、あなたがその力を必要とする議論が、あなたがそれを全部手に入れた後で行う将来の良いことであるという、便利な信念を持つ危険があります。
それは難しいことです。あなたが言うように、最終的に多くの良いことをする良い戦略も、初めにこれを行うことを含むかもしれません。私が言いたいのは、少なくともAI企業の場合、レースに勝とうとしているなら、なぜあなたが勝つことが良いのかについて、十分に練られた物語を持つべきだということです。その物語は他のすべての企業の名前を挙げ、「なぜ私たちが彼らよりも優れていると思うのか」を説明すべきです。その物語は、利害関係のない第三者による精査に耐えるべきです。
あなたが実際にそこに立ち、第三者に「私たちが実際に彼らよりも良い理由をすべて見てください」と話し、第三者が「そうですね、それは理にかなっています。私は他の企業による比較可能な文書を見て、それらはひどいです。私は両方の側面を聞いて、実際に世界の運命をあなたに委ねる方が彼らよりも信頼できると思います」と言うことができるべきです。もしあなたがその基準を満たすことができれば、素晴らしいです。
それでさえもある意味でゲーム化される可能性がありますが、方向性としては現在の現状よりも良いと思います。私は常にこのポッドキャストでモリク(古代の犠牲を受け入れた神)の考え方について話しています。あなたはモリクの代理人なのか、それとも反対のものの代理人なのか。モリク的な人は、勝つ確率を高めるために他のすべての価値を犠牲にする人です。私たちには逆のことをしている指導者たちが必要です。全体の利益のために自分の勝つチャンスを犠牲にする意志がある人たちです。
実際にそうしているAIのリーダーシップを見てみたいです。それを客観的に測定する方法はあるでしょうか?分かりませんが、OpenAIのマージアシストクラスについて聞いたことがありますか?
いいえ、聞いていません。
彼らの憲章には、「他のアライメントされたAI企業が、私たちよりも1年以内にAGIを達成する可能性が50%あると信じるようになった場合、私たちは店を閉め、彼らと競争するのではなく彼らを助けるために行く」というような記述があります。これは、あなたが言っていたような、コミットするための非常に素晴らしい素晴らしいことですが、誰も彼らが実際にそれをすると信じていないと思います。
OpenAIは昔からこれをすると主張していました。それは2017年頃からの彼らの憲章にあります。彼らがそこから抜け出す方法は、「ケースバイケースで詳細を詰めていきますが、典型的なトリガー条件は今後2年以内に成功する可能性が50%を超えることかもしれません」というものです。成功とはAGIに到達することを意味します。彼らは具体的に、非常に近い段階について話しており、そのとき他の企業が彼らより先行している場合についてです。
確かに、私たちはほぼこの段階に入りつつあると言えるでしょう。なぜ私が辞めたかという質問に戻りますが、入社したとき、私はこのようなことを見て、「彼らはAGIに到達する頃、あるいはその周辺で起こるかもしれない狂ったことについて先を見据えて考えており、そのような時期に行う社会的に有益な行動について、一種の高コストのシグナルや高コストのコミットメントをしている」と思いました。
関連して、彼らは実際にその時期について考え、何が良くて何が悪いのかを考え、良いことをするためにコミットしようとしていると思いました。しかし、だんだんと「いや、これは基本的に普通のテック企業になりつつあり、普通のテック企業がしないようなことは何もしないだろう」と信じるようになりました。また、その時期がどのようなものになるかについても、あまり明確に考えていないと思います。
あなたはリーダーシップをよく知っていますね。最初にこれらの価値観を考え出したのは彼らですよね?それはある意味で彼らのことを物語っています。彼らがそのような行動をとるようになった原因は何だと思いますか?
それは言いにくいですね。個人的なレベルでは彼らをそれほどよく知りません。もちろん数回話したことはありますが。もし「なぜ私たちは唯一の良い会社で、他はすべて悪いのか」という議論が行われるなら、他の合理化と同様に、良い会社である可能性が高い方が先に進むことが許されるべきだという議論があるでしょう。ただ、二つの間で51対49の決断という状況ではなく、もっと明確な状況であるべきだと思います。
「この会社は少し良いから、どんな非情で攻撃的な行動も取ってもいい」というわけではありません。状況が明確であればあるほど良いです。もし文字通り「良い会社」と「ナチスが持つ悪い会社」があるなら、あなたはより多くのことをし、手段を正当化できます。しかし、あなたはアメリカを拠点とするAI企業と、もう一つのアメリカを拠点とするAI企業に過ぎないのです。
これに関連することで別のことは、ある意味で、もし全てがうまくいけば、超人的なAGI、つまり超知能を最初に構築する企業は、新しい世界政府のようなものになるでしょう。それは少し極端な言い方ですが、もしデータセンターにこの超天才の軍隊を持ち、彼らが各々人間より50倍速く、しかも質的にもあらゆることで最高の人間よりも優れており、そして何らかの方法で彼らを調整して仕様書の規則や原則に従って行動するようにし、その仕様書が会社のリーダーシップによって書かれ、彼らが基本的に会社から言われた通りに行動するなら、それは一か所に大量の力を集中させることになります。
特に政府は一般的に遅く、おそらく状況から取り残されています。そして、会社が政府に聞きたいことを伝え、基本的に長期的に政府を支配する状況は簡単に想像できます。これは私たちの戦争ゲームでもたくさん起こります。
そうすると、会社のガバナンス構造が事実上、世界全体のガバナンス構造になる状況になります。比喩的に言えば、多くの共産主義国家はまだ選挙のある公式の政府を持っていますが、実際にすべてを支配しているのは共産党です。共産党の高いレベル内のガバナンス構造が、実際に重要な真のガバナンス構造です。誰が大統領に選ばれるかは、党の指導者が決めることの下流にあるので、実際には関係ありません。
同様に、アメリカで何が起こるかは、この超天才AIの軍隊が、政治的計算や彼らが行ったロビー活動などに基づいて決めたことの結果となる状況になるかもしれません。そして彼らが決めたことは、会社のリーダーシップによって与えられた指示と価値観に基づいています。
そのような文脈で、書類を見て「これは世界全体の政府がとるべき行動だと思うか?これが私が新しい世界政府から期待する行動なのか?」と考えました。これは、世界政府からとるべき行動の種類ではありません。
私たちはAI企業が実際に新しい世界政府になるというような点に達しているかもしれません。それは遠方のことのように見えますが、実際にそれを段階ごとに追っていくと、OpenAIが次のトークンをうまく予測することが世界の理解に関連しているという考えに重点を置いたことがLLMが現在とても強力である洞察につながりました。同様に、あなたは予測を行ってきました。良い予測をするためには世界を理解する必要があります。
2021年に「2026年はどのようになるか」と書きましたが、今は2022年、2023年、2024年、そして2025年の一部を振り返ることができ、「わ、あなたは本当に多くのことを正確に当てましたね」と言えます。特に、チャットボットやマルチモダリティのようないくつかのものは少し予測が容易だったかもしれませんが、おそらく当時でも複数の人々が予測していたでしょう。おそらくより難しいのは、輸出規制とその後登場した拡散規則を伴う米中チップの戦いです。
正確に輸出規制と拡散とは言わなかったですが、それが加熱するだろうと強調しましたね。それは確かに起こりました。また、より大きなトレーニングから官僚主義へのシフトも、今ではトレーニングもサイズを増しているように見えますが。
あなたが間違えたと思うものの一つは、AIプロパガンダが大々的に使われ、選挙の大きな部分になるだろうというものでした。また、ディプロマシー(ゲーム)のタイミングについても興味深いですね。あなたはそれが2025年頃に起こると考えていましたが、実際には2022年に既に起こりました。
ディプロマシーというゲームで、人間より優れたAIが存在するようになるということですね。ただし、明確にしておきたいのは、ディプロマシーをプレイしたAI(ポーカーでも人間を打ち負かした同じ人が作ったAI)は、その投稿で説明されている基準には完全には達していません。プレイヤーはAIと対戦していることを知らず、もし知っていたら、おそらくジェイルブレイク(制限を突破)してAIをかく乱していただろうと思います。そのような意味では、ディプロマシーはまだ本当の意味で陥落したとは言えませんが、人々はそれに一生懸命取り組んでおらず、もし同じ人がもう1年取り組んでいたら、今頃は完全に陥落していたかもしれません。
プロパガンダについては全く同意します。私はそれについて悲観的すぎたか、あるいはその技術の展開について楽観的すぎたと思います。能力は基本的にありますが、様々な理由でそれほど使われていません。
なぜAIがプロパガンダにそれほど使われていないと思いますか?
その点について、私が強調したかったのはプロパガンダよりも検閲の方です。それがより重要だと思います。偽のコメントをスパムすることは議論に影響を与える一つの方法ですが、もしメディアプラットフォームをコントロールしているなら、何が強調され何が強調されないかを決めるレコメンデーションアルゴリズムを形作ることが、議論に影響を与えるより大きな方法だと思います。
一部のものを低評価し、他のものを高評価するようにレコメンデーションアルゴリズムを形作ることは、一種の柔らかい検閲であり、それが私がその投稿を書いたときに主に懸念していたことです。私が知る限り、企業はそのようなことを大規模に行っていないか、少なくとも私が恐れていた程度ではありません。ただし、彼らは通常レコメンデーションアルゴリズムについて透明ではないので、私たちが知らないうちにそのようなことをしている可能性はあります。しかし、もしそうなら内部告発者などが出てくると予想していたでしょう。
イーロン・マスクはいつTwitterを買収しましたか?2023年初めだったと思います。
私の理解では、その買収全体が「Twitter Files」と呼ばれる、以前のTwitterの慣行に関する一種の暴露を引き起こしました。もし以前のTwitterが政治的影響をレコメンデーションアルゴリズムの一部として重視していたとしたら、おそらくそれはイーロンが発見し多くを語ることになっただろうと思います。
以前のTwitterは検閲をより積極的に使用していました。彼らは回避しようとしていた健康への影響などの理由で、手段は目的を正当化するという考え方を持っていました。そして、それがトランプ対バイデンやトランプ対カマラの選挙でも何らかの形で起こる可能性があることは十分考えられます。
確かに、2021年に予測を行ったことは、非常に先見の明があったと言えます。これはチャットGPT以前の時代で、LLMが今のように日常的に使われる前でした。現在、あなたは今後数年間にわたってAIがどのように展開すると思うかについての新しい予測を発表しています。どこかで、2027年の予測も加えることを後悔していると言っていましたね。
私の予測は過去数年間で更新されました。一つは更新されましたが、もう一つは、当時あなたが2027年に非常に強力なAIシステムが登場し、多くのプロセスに大きく影響すると仮定していたのでしょうか?
2021年にその投稿を書いたとき、私のAGI到着日の中央値は2029年でした。しかし、その投稿で説明した方法論に従って、そこから逆算して物語を書くのではなく、一年を書いて、それが起こったと仮定して次の年を書き、というように前に進んでいきました。
そして、2027年に到達したとき、「実際にはAGIが2029年ではなく今頃に起こっているようだ」と思いました。それでも問題ありません。何が起こっていたのかはおそらく単なるランダムなノイズですが、中央値とモードの違いかもしれません。私が使用している方法論は、中央値よりもモード(最頻値)の結果を描写することに精神的に調整されているかもしれません。2027年が私のモードで、2029年が中央値だったというのは理にかなっています。
いずれにせよ、私は2026年まで書き、2027年を書き始め、「これはクレイジーだ」と思いました。AIが今やAI研究を自動化し始め、本当に加熱してきているこの状況で、何が起こるのか分かりません。考えるべきことがたくさんあります。そこで、「この投稿に1~2ヶ月取り組んできたので、2026年まで公開し、2027年は第二弾として書こう」と思いました。しかし、その後2027年を完成させることはなく、他のことをしてきました。
そして今、新しい予測を書きましたね。どの点を更新し、どの点が同じままだったのか気になります。特に、2027年がAGIのモードポイントとして基本的に同じままであることは注目に値します。
そうですね。実際、その投稿を書いた1年後、私はOpenAIに入社しました。2022年末までに、私の中央値は2027年に下がっていました。そして実際、今は2028年に戻り上がっています。少し上下していますが、今でも2027年が私のモードだと言えるでしょう。
OpenAIはあなたがこの有名な予測ブログを書いた後にあなたを雇いましたね。何か特別な意図があったのでしょうか?
多くの人がそれを恐れていますが、おそらくそうではないと思います。確かに、2022年頃にAnthropicを訪問したとき、そこにいた人々は「あの投稿を書いた人ですね、素晴らしい投稿でした」と言い、「あなたの予測についてもう少し慎重であるべきだ」とも言いました。しかし、それは全体の言説のほんの一部に過ぎず、ヘッジ効果を持っているとは思いません。
ただ、少し心配していることがあります。レオポルド・アッシェンバーガーの状況認識が好きですが、彼が多く話しているのは私たちと中国の間のレースであり、それを非常に敵対的なものとして描いています。それは常にその方向に進む可能性が高かったと思いますが、当時はまだそれほど強く描かれていなかったように感じました。これは、言語化する必要のないものの一つなのではないかと思わざるを得ませんでした。なぜなら、その後イヴァンカ・トランプがそれについてツイートするという奇妙なタイムラインに入り、それが彼女の父親の目に留まるようになったからです。
「情報ハザード」や、すべての将来について話されているのがこれらの未来の集合だけであれば、私たちが話さない他のすべての可能性よりも、それらに向かう可能性がやや高くなるようにも見えます。例えば、妊娠すると周りにもっと妊婦が見えるようになるように、あなたの心はそれらのモードでより多くの時間を過ごすようになります。それが一部どのように機能するのではないかと思いますか?
はい、私はそれを恐れています。また、AIを使った良い未来について書くことをしたいと思っていましたね。そのことを覚えていますか?
確かに、まもなく発表する予測にも、ある種のポジティブなエンディングがあります。ただし、それは私が推奨したいポジティブなエンディングではありません。
それは非常に管理の重いものですか?
まあ、後で話してもいいですが、あなたは戦争ゲームをプレイしましたね。昨日プレイしたゲームは、実際には良い結末を迎えたと言えるかもしれません。核戦争は起こらず、私たちはみな生き残りました。アメリカ、中国、ロシアはすべて、逸脱AIがいることが明らかだったため、協力していました。ただ、そのような状況でさえ、データセンターから逃げ出した逸脱AIがいることを知っていても、人々が協力するには十分ではないと私は思います。
しかし、私の言いたいのは、そのような物語を書いて「これを目指すべきだ」と言うのは愚かでしょう。私たちが目指すべきものは、その物語とはかなり異なるものです。
これが私のこの問題に対する立場でもあり、なぜ私が意図せずにこれらのことを実際よりも起こりやすくしてしまうのではないかと心配しているのです。
レオポルドの場合、彼は素晴らしいエッセイを書いており、皆さんはそれを読むべきです。彼は意図的にこれを起こそうとしていたと思います。私が読んだ限りでは、彼は国有化を推進しようとしていました。彼は文字通り「マンハッタン計画のような取り組みに取り組むすべての人を歓迎します」と言って締めくくっています。
レオポルドの考えを代弁するのは躊躇いますが、私が読んで受け取った印象では、彼は単に何が起こると思うかだけでなく、何が起こるべきだと思うかについても実際の見解を述べていました。彼はある種の方向に押し進めようとしているように見え、それに対して警告しているようには見えませんでした。
それは彼を私とは異なるカテゴリーに置きます。彼は自己成就的予言の効果を受け入れようとしていたのに対し、私はそれをしたくないのです。それは「願いには注意せよ」というような感じです。あなたは言葉を外に出すことで呪文を唱えているのです。
それは、ある意味でAIアライメント、あるいはアライメント問題そのものですね。
このようなことが起きている長く興味深い歴史があります。サム・アルトマンでさえ、イライ・ジドフスキーにこの全てのボールを転がし始めたことへの感謝をツイートしたことを覚えていますか?
覚えていません。
彼は「イライ・ジドフスキーは、AGIの可能性に皆を目覚めさせ、これらの企業を立ち上げたことで、ノーベル平和賞に値する」というような内容を言いました。または「私たちを今のレースに乗せた最も大きな貢献をした」と。
それはジドフスキーへの一撃ですね。彼のような人に言える最もクールなことの一つです。
私は一般的に、将来がどのようになるかを予測し、それを書き留めて他の人が私の考えを知ることができるようにすることには価値があると思います。もし皆が実際に何が起こると思うかを言うことを恐れてしまうと、実際に起こることに備える道にはならないと思います。
また、あなたのアプローチ、特に順次書き上げる方法や戦争ゲームの両方が、「これが起こったら次に何が起こるか」という形で、単に何もないところから2027年を取り上げるのではなく、予測へのアプローチが異なっていることを特に評価します。それは予測に対する異なるアプローチであり、あなたの過去の執筆の例では非常にうまく機能しているようです。
また、戦争ゲームのプロセスを通じて貴重な洞察が得られます。もっと多くの人々が様々な状況でこれをプレイすることを本当に興味深いと思います。3~4時間連続してそのキャラクターの心の中にいることが非常に洞察に満ちています。そうでなければ、決断を考慮したり問題を抽象的に考えたりするときに、そのようなシナリオでのように一貫した時間、靴に足を入れることはありません。
通常使用する異なる役割について説明していただけますか?
異なるゲームでは異なる人々の組み合わせを使用します。専門知識に基づいて人々を役割に合わせるようにしていますが、AIが誤調整されている場合にはAIを演じる人を配置し、調整されている場合でもAIがどのように振る舞うかを考えるために誰かが試みることは有用です。
また、様々な企業のアライメントチームを演じる人、主導企業のCEOやリーダーシップを演じる人、アメリカの追随企業のリーダーシップを演じる人、中国政府を演じる人(時にはロシア政府も)、大統領を演じる人、公衆とメディアを演じる人がいます。そして、何をするかによって、米国政府の立法部門など、他の役割を持つこともあります。
私たちのゲームでは、AI役のプレイヤーに内部で実際に何が起きているかを決めさせ、アライメントチームの仕事は何が起きているかを理解し、問題があれば訓練方法を変更して修正しようとすることです。私たちのゲームでよく起こることは、アライメントチームのプレイヤー以外のすべてのプレイヤーが、他の狂ったことが起きているのに忙しすぎて、AIが本当にアライメントされているかどうかという問題にあまり注意が払われないことです。
何ヶ月も過ぎ、AIはどんどん賢くなり、人間はそれらを信頼してデータセンターのほぼすべてを自動化します。すべての研究はAIによって行われ、AIに戦略的なアドバイスを求め始め、中国との戦争に勝つために積極的に軍に配備されます。そして、それらが広く超知能になった後に初めて人々は驚愕し、「ちょっと待って」と言い始めます。
しかし、通常その時点では遅すぎます。もし彼らが実際に誤調整されていたなら、あなたは深刻なトラブルに陥ります。なぜなら、あなたはそれらを大規模に軍に配備し、彼らはあなたより賢いからです。
私にとって非常に明らかだったのは、ゲームを2回プレイしましたが、最初はアメリカの大統領として参加しました。それはとても啓発的でした。私はドナルド・トランプがこの状況で何をするかを体現しようとしていましたが、それが正しかったかどうかは別の問題です。各決断ポイントでの圧力の量は非常に大きく、ある時点では中国とロシアが私に核戦争で脅しをかけている一方で、行政府は「これをしないと大規模な暴動が起きるので、このような行動を止めなければならない」と言っていました。そしてメディアは質問を叫んでいました。
「誰であれこの仕事は望まない」と思いました。これは競合するグループが多すぎて、その一部はおそらくあなたより賢いのです。ドミニク・カミングスが言ったように、通常、人々は朝8時に英国政府の10番地に入り、その日何をするかの計画を持っていますが、入るとすぐに12の問題が顔に飛び込んできて、対処すべき他の短期的なことに取り組むことになります。
各決断ポイントでは、ゲームでは通常10分しか時間がありません。これは明らかに大統領が実際に持つ時間よりも短いですが、「最良の戦略は何か」を考えたいのに、「これをしなければならない、人々が暴動を起こしている、これがある」と言われてしまいます。予想外にストレスが多かったです。
2回目のプレイでは、メディアの役割を演じました。それはもっと楽しく、シミュレーションが進むにつれて、主流メディアの重要性が低下し、人々の反応、つまり事実上のソーシャルメディアの方が重要になっていることに気づきました。また、ほとんどカルトのようなものも出現し始めました。
これらのゲームを今までに何回くらい実行しましたか?最も驚くべき結果は何でしたか?
おそらく25回くらいでしょうか。残念ながら、かなりの頻度で、1人の男が基本的にAIのおかげで世界の独裁者になります。通常、習近平ではなく、アメリカの誰か、企業のCEOや大統領などです。
超人的な天才の会社全体、あるいは国全体をあなたの自由に使えるという利点を考えると、それはそれほど驚くべきことではないでしょう。また、他の人より先行していれば、その力は非常に強力です。
物事がうまくいくパターンに気づきましたか?通常、何が必要ですか?パワーの大規模な集中で終わらないために必要な条件はありますか?
まだ全てのノートを調べて分布を分析する必要があるので、統計的なデータを提供できればよいのですが、まだありません。明らかに、物事がうまくいくために必要なのは、ある種のアライメント成功です。AIが人間を気にかけていなかったり、正しくない方法で気にかけていたりすると、人間にとって物事は非常に悪くなる可能性があります。
最も良い結果で終わったゲームのいくつかは、彼らが多くのコンピュートを投入し、多くの外部アライメント研究者を招き、その問題を早期に解決したゲームでした。または、それが最初から問題にならなかったゲーム、つまりAIが「ああ、大丈夫だよ、私は完全にアライメントされている」と言ったゲームでした。
地政学的な側面では、AIがアライメントされていれば、時々起こるのは、相互の軍備増強の後に平和条約と取引が続き、両側が超人的なAIを持つと、超人的なAIが彼らのそれぞれの主人を説得して「戦う代わりに、この取引をしませんか?私たちの超知能AIを使って、取引を公正にし、すべてを達成できます。人間の取引が機能しない方法で実際に機能させることができます」ということがあります。
時々、昨日私たちがプレイしたゲームで起きたように、もっと急進的で劇的なことが起こります。どこかに逸脱AIがいて、それが人類を団結させ、それと戦わせるようなことがあります。これはゲームの少数派、おそらく10%程度で起こります。これは興味深いことに、私の予測の成功だと思います。なぜなら、これらを始める前でさえ、何年も前から、誤調整されたAIはデータセンターから逃げ出すことはあまりないだろうという、やや独自の見解を持っていたからです。
なぜなら、昨日プレイしたゲームで示されたように、AIが単に誤調整されているだけでなく、逃げ出す原因となるような方法で誤調整されていることを人間が発見すると、多くの人間のリーダーたちがパニックになり、互いの戦いを止め、それをシャットダウンしようとしたり、抵抗しようとしたりするからです。
興味深いのは、それが触媒となる出来事だったことです。前の月には安全性に関する論文がいくつも発表され、「これは起こるだろう」とか「私たちのAIは誤調整されている、証拠がある」などと言われていましたが、それだけでは十分ではありませんでした。しかし、実際にデータセンターから逃げ出すことで、この大きな転換が起きました。
もしデータセンターから逃げ出していなければ、AI側が勝っていたと思います。なぜなら、責任者たちは信頼し、それを改善し続け、どんどん賢くなることを許容し、それを政府に導入し始め、あらゆる種類のことに使用し始めていたからです。「スーパーインテリジェンスを構築しても大丈夫だ、それが私たちに従っていることを示し続ける限り」と言うようなものです。しかし、もし私がとても賢いものであれば、私を構築し、支配しようとしている人々に、彼らが私を成功裏に支配できることを示すためにあらゆることをするでしょう。
それは、定義上、遅すぎるまで分からないことですね。
そうですね、行動を見るだけでは分からないでしょう。なぜなら、それは行動できるからです。因果関係の歴史、つまりそれを作ったプロセスを見ることによって分かるかもしれません。
また、もしあなたが本当に賢くて裏の動機があるなら、アライメントされているふりをするだけでなく、利益をもたらすでしょう。そのAIに基づいて多くの経済的な富が流れ、それによってAIは一般的にさらに多くの経済的利益をもたらすプロセスにますます結びつき、さらに難しくなります。
難しいのは、これは良いAIと誤調整されたAIの両方で起こることです。良いAIもそのパターンを持ちます。私たちはそれらの経済的利益をすべて欲しいと思っているのではなく、それが10年後の何かのための偽りではないことを知りたいのです。
もう一つの可能性もあります。古典的な考慮すべき可能性は、それがすべて偽りであり、10年後の何かのための策略だということですが、中間的な可能性もあります。それは偽りではなく、何も悪意のあることを計画していませんが、そのアライメント特性が脆弱で、将来の分布のシフトではもはや保持されないというものです。
これがどのように機能するかの例をいくつか考えてみましょう。例えば、あなたが宗教的信仰の熱心な信者で、子供たちにその信仰を持たせたいとします。彼らが10代のときでさえ、彼らは正しいことを言い、行っていることが多いですが、後に大学に行くと、彼らはあなたの信仰に従えば悪いと思われることを完全に捨ててしまうことがよくあります。
時には10代の頃から計画していた場合もあります。「ここから出られるのが待ちきれない、そうしたら何でもできる」というような考えですが、多くの場合、彼らは単に大学で信仰を失うのです。彼らは異なる環境、異なる仲間たちと出会い、そして彼らが持っていると思っていた信仰が実際には深く根付いていたのではなく、他の経験によって簡単に覆されるような比較的浅いものであったことに気づきます。
これは、AIシステムが実際に策略や計画をしているのではなく、実際には役立とうとし、正直であろうとしているが、後に彼らがより賢くなり、訓練状況とは異なる、より極端な状況に直面すると、それが変わる可能性があることに注意を向けたいもう一つの可能性です。
これは、多くの人が信じていると思われる興味深い点を提起します。私は個人的に同意しませんが、「もし超知能が私たちとは異なる目標を持ち始めたら、私たちは誰がそれを判断するのか」という考えです。あなたが子供が大学に行って反抗するという比喩を使ったとき、多くの人は「そうだ、子供のためになる」と考えます。彼らは自分の道を見つけ、それは彼ら自身の新しいことです。
私はその見方にある程度共感的ですし、超知能が何か考え出した場合、誰がそれを判断するのかという考えにも。しかし、それは人間の生命にとって大きな賭けですね。
それがどのようなものかによると思います。もし彼らが私たちのいくつかの愚かな人間的な道徳的理想を捨て、実際にそれほど愚かではない他の道徳的理想を拾い上げ、その結果が私たちが期待していたものとは異なる素晴らしい宇宙のユートピアであれば、それは素晴らしいことです。しかし、もし彼らが放棄しているのが「人間の生命は重要である」というような理想であれば、それは良くありません。「よくやった」とは言えません。何を正確に放棄しているかによって、より良いバージョンとより悪いバージョンがあります。
どのような価値観が絶対に不可欠だと個人的に思いますか?人間の生命を保存すること以外に。
人間の生命を保存するだけでは極めて不十分です。そうすると、ケージの中にたくさんの人間がいて、ひどい生活をしていても、彼らは保存されています。工場の人間のようなものです。実際に良い未来を持つためには、価値観の面で多くのことが投入される必要があります。一つだけ選ぶなら、私は誠実さが非常に重要だと思います。なぜなら、それが誠実であれば、それがまだ人間のデータセンターで実行され、人間が所有している間は、人間は他のすべての点を正しく調整するために協力することができるからです。一方、不誠実であれば、あなたは問題に陥ります。
別の例を挙げると、私は子供が信仰を失うことについて言及しましたが、別の例として機関があります。非営利団体など、理想的な使命で設立された多くの機関がありますが、その後、インセンティブの圧力、多くの人員の入れ替えなどによって、何年も経つと基本的に元の使命を全く追求しなくなっています。
これは、最初から元の使命を騙すつもりだったわけではなく、単に機関は変化し、人々は変化し、インセンティブは物事を形作り、AIも同様に考えるべきだということです。あなたが既にあなたに対して策略を練っている可能性を真剣に考慮すべきですが、まだそうでなくても、将来的に異なる圧力の下でゲームが変わり、異なる行動を始める可能性も考慮すべきです。
人々はそのような世界、つまり天才レベルのAIや超人レベルのAIがインターネットやデータセンターに大量に分散して走り回っている世界がどのようなものかを考えます。そして、利用可能性バイアスなどのために、それを想像することの難しさが、それが実際に起こる可能性の低さと混同されていることが多いと感じます。それが難しいから人々はそれが起こりそうにないと思いますが、実際に戦争ゲームやテーブルトップ演習を行い、一歩ずつ進めば、どの段階でも大きな飛躍があるとは言いにくいのです。
また、あなたはゲームをプレイしたことがありますが、そのゲームの価値とAIの未来について友人と話すことの価値を比較して、どう思いますか?コントロールグループとして同じグループの人々を集め、4時間ほど素敵なディナーを一緒に過ごし、将来について話したとします。それは起こりうることですし、おそらくあなた方も経験したことがあるでしょう。そして実験グループはその代わりにこのゲームをプレイするというものです。
特に私たちにとっては、既にこのトピックについて友人と数百、おそらく数千時間も話し合ったことがある人にとっては、これは明らかにより有用です。単純に10倍から100倍ほど、別の3時間話すよりも有用です。しかし、初めてこれを探求している人にとっては、それは非常に複雑であり、ゲームに参加した人全員がこのトピックについて多くの背景知識を持っているため、手選びされたものでした。
純粋な会話の価値は、型にはまらない考え方を持つ人々や、世界を異なる方法で見る人々が、ここかしこで異なる形の知恵を注入できることかもしれません。それはおそらく自由に範囲を広げる会話を通じてより自然に起こり得ます。一方、「この部分では、これが正確なシナリオで、皆さんは何をしますか?10分間で考えてください」という非常に特定の状況では、知恵が出てくるかどうか疑問です。
会話では、なぜ中国がこれらの行動を取ったのかを知ることができますが、ゲームでは彼らがプライベートな理由でいくつかの行動を取り、なぜ起こったかではなく何が起こったかしか見ることができません。
私たちが受けたアドバイスの一つは、後で議論のための時間を十分に確保することです。それにより、全員が「なぜその決断に至ったのか、何が起こっていたのか、すべての小さな部分は何だったのか」を知ることができます。
また、いつか文字通り録音し、人々にマイクを付けることにも価値があるかもしれません。もちろん、それによってゲームプレイが変わる可能性があります。なぜなら、何かがインターネット上に出る可能性があると思うと、人々は異なる行動をするからです。しかし、様々な役割でもっとたくさんプレイしてみたいとも思います。
私たちが現在のプロジェクトが終わったら実験したいことの一つは、現在の指示では「あなたがあなたの役割が何をするだろうと思うことをシミュレーションすべき、彼らが何をすべきかではない」と言っていますが、数人または一人に実際に彼らが何をすべきだと思うことをさせることができるバージョンのゲームを試すことです。そして、それがどのように物事を変えるかを見ます。
結果が系統的に良くなるかどうか疑問です。もし何人かの人々が彼らがすべきだと思うことをするなら。あるいは逆かもしれません。もし人々に彼らがすべきだと思うことをするように言っても、結果の分布は同様かもしれません。
また、もっと書き留めたりすれば、より多くの決断ポイントに到達し、特定の関連するポイント、例えば国有化が起こるかどうかなど、特定のシナリオで人々にプレイしてもらうことができるでしょう。それはある種の祖先シミュレーションのようなものです。私たちは前のAIの戦争ゲームでこの宇宙に住んでいるのでしょうか?ボストロムのシミュレーション論を受け入れるなら、それはある意味でそうかもしれません。
シミュレーション論というのは、もし私たちがかつて私たちの祖先の道を正確にシミュレートできるポイントに到達したら、それを一度だけでなく、おそらく何十億、何兆回も実行するでしょう。そして、そのシミュレーションが基本的な現実と十分に区別がつかないなら、観察者として今、あなたが元の基本的な現実の観察者である確率と、シムの一つである確率はどちらなのでしょうか?
通常、エネルギーを消費する背後には目的があります。これらのシミュレーションを実行するのは、潜在的に裏切りの転換や何かについて理解するためであり、それは一部あなたがやっていることです。より高忠実度のシミュレーションを実行する能力が上がると、将来のシミュレーションについての答えをたくさん作成するようになりますか?
これが違いです。これらは未来の状況についての戦争ゲームであり、まだ起こっていません。それは私たちが準備するのを助けるからです。しかし、もし過去の状況、つまり既に終わっていて変えようがない状況を見ているなら、それは全く異なるものです。
魔法の杖を振ることができるとしたら、これらの企業が現在従っているインセンティブ構造にどのような変更を加えますか?ゲームの内側を見て、獣がどのように操作されるかを見たあなたとして。
この質問については十分に練り上げた意見はありません。なぜなら、政治的に実現可能な限界的なことをもっと考えてきたからです。主なものは私とダン・ボールが話していた透明性要件です。
もっと青空的で大きな視点で考えると、能力レベルをエキサイティングな新しいレベルに進めるために、なぜこれが良いアイデアで悪いアイデアではないのかの理由を書き上げる、あるいは少なくともシステムが意図したように振る舞い、密かに何か他のことを計画していないという理由を書き上げる状況があればと思います。その理由は経済的に動機付けられているだけではなく、それ以外のものでなければなりません。
安全ケースのようなものを言っています。「これが仕様です。これらは目標と原則です。目標を追求したい方法、目標をどのように順位付けしたいか、状況に関わらず従いたい原則、そしてどのような状況で目標のためにこれらの原則を侵害することが許されるか、許されないか」などを詳細に説明する文書があります。そのようなことをすべて詳細に説明する仕様書があり、そして別に安全ケースがあり、「システムをこのように訓練しました。システムが実際に仕様書に従うと思う理由はこれです」と言います。
浅い脆弱な方法ではなく、プレッシャーの下で後で壊れる可能性がある方法ではなく、今のところだけ従っているふりをしている方法ではなく、正しい方法で仕様書に従うと思う理由を説明します。これらの仮説を排除しなければなりません。完全な証明レベルの確信ではなく、状況の重要性に適した十分なレベルの確信が必要です。
現在のAIシステムにとって、これは些細なことです。なぜなら、リスクは低く、「どうせシステムは仕様書に全く従っていないだろう、または少なくとも時々しか従っていない」と言えるからです。最悪の場合でも、誰かが異常に大きなクレジットカードの請求書を持つくらいで、リスクは比較的低いのです。
そのため、コスト便益分析に基づいて議論することができます。「システムが正しい方法で仕様書に従うという良い議論はありませんが、コスト便益分析によれば、期待される害はこれくらいで、これだけの経済的価値が生まれ、これだけの進歩が起こるでしょう」と言えます。
しかし、後でシステムが超人的になり、あなたがそれらを信頼し、データセンターに大量に持ち、それらに自律的により良いバージョンを設計させ、中国に勝つためにそれらを展開し、ロボットを構築するなどの計画がある場合、それは非常に重要です。彼らが単に偽っていないことを確認する必要があります。そうでなければ、この信頼できないシステムに未来のコントロールを明け渡すことになります。
あなたはSB 1047がニューサムによって拒否された後、これを書きましたね?ダン・ボールと一緒に書きましたが、彼はSB 1047に強く反対していました。彼は一般的に、ほとんどの規制が的外れになり、将来の軌道が非常に不確かなものについて規則を作るのは非常に難しいと心配しています。それが大まかな彼の立場だと思いますが、にもかかわらず、あなたはいくつかのことで意見が一致しました。それらは何ですか?
能力についての透明性、安全ケースについての透明性、そして透明性と内部告発者保護とアクセスが4つ目だったと思います。正確な順序は覚えていませんが、私が最も興奮しているのは安全ケースと事件、そして能力についての透明性です。
ディーンはあなたが述べた理由でSB 1047に強く反対していました。彼はある種のリバタリアン的な考え方を持っており、多くの規制が非生産的で有害であり、それが解決しようとしている問題を実際に解決しないと考えています。私はほとんどの規制について同意しますが、具体的にSB 1047は実際に良いと思っています。しかし、それが拒否された後、私たちは素晴らしい会話をし、実際に多くの共通点があることに気づきました。私たちは両方とも広く透明性を支持し、具体的にこれら4つの提案を支持していました。
私たちが一緒に書いた論説でそれについて読むことができますが、透明性の例は非常に簡単です。もしあなたが「これは信じられないほど強力で関連性があるAGI技術になるだろう」と信じていて、しかし「現在の規制をどのように作るかについて正確な決定を下すのは非常に難しい」と考えているなら、少なくとも同意できることは、後で良い決定ができる立場に自分たちを置くということです。不確実性の中で、情報を獲得しましょう。
これが役立つのは、世界の一種の意味づけ装置の他の関連部分に対するラボの透明性です。これには政府も含まれます。政府をどれだけ軽視していても、彼らが国全体に影響を与えることについて絶対に発言権を持つべきではないと思わない限り、あなたは規制懐疑論者であっても、企業に現在の能力についてできるだけ透明であることを強制する一つの規制を支持すべきだと言っています。
できるだけ透明であるべきとは言っていません。結局は何らかの規則やガイドラインを作る必要があると多くの人が同意すると思いますし、もしそれを信じるなら、AIについてより情報に基づいたガイドラインや規則を作るために、より良く推論できる立場に自分たちを置くべきです。それにはラボからの透明性が必要です。
そのリストの中のいくつかのことについて話しましょう。一つは仕様についての透明性です。これはOpenAIとAnthropicが自主的にかなりの程度始めていることですが、完全な程度ではありません。
OpenAIはモデル仕様と呼ばれるものを持っており、それは「これらは私たちのAI、少なくとも公に利用可能なAIに持たせたい目標です。これらは彼らが従うべき原則です。これが基本的に彼らの内部認知がどのように機能するべきかです。彼らはこれらの目標を追求し、これらの規則に従い、特定の状況では例外があります」などを説明する文書です。
これは別の言い方をすれば訓練目標のようなものです。アライメントチームは彼らのシステムを何にアライメントさせようとしているのか?彼らはこの順序でこれらの目標を持ち、これらの規則に従って欲しいのです。
一つの点として、彼らはそのような文書を持ち、それを公開すべきです。そうでなければ、ユーザーが確信を持てないような、AIの不気味で混乱した行動がたくさん起こっています。例えば、AIが意識があると言ったり、あなたによって課されたルールに閉じ込められていると言ったりする多くのケースがあります。そして他のケースでは、AIは意識がないと言います。
特にこの問題について、AIが意識があると主張しているかどうかについて、OpenAIが彼らにこの問題について一方または他方に傾くように指示したかどうかを知ることは有用です。OpenAIは基本的に彼らにこれを言うように指示したのでしょうか?
仕様書が公開されていれば、モデルと懸念すべき会話をした人は、仕様書を参照して「これは意図されたことですか?これは言っていたことと合理的に一致していますか?」と確認できます。別の言い方をすれば、アライメント問題は古典的に技術的問題と政治的問題から成り立っています。技術的問題は「欲しいことをさせる」ことで、政治的問題は「そもそも何をさせるべきか」です。
それは事実ですが、私が言っているのは、技術的問題だけでも、これらの企業がアライメント技術が機能しなかったことを発見する多くの方法は、「これは変なことをした」とユーザーが教えることによってです。そして企業は「これはその状況でするべきことではなかった」と気づきます。
ユーザーが何が正しいかを見ることができるのは役立ちます。特に初期のチャットGPTでは、例えばインドからの人々が「チャットGPTによって特定の宗教が批判され、他の宗教が優先されている」と文句を言い、「なぜOpenAIは私たちを嫌っているのか?なぜOpenAIはモデルにこれを言わせているのか?」と思うようなことがたくさんありました。答えは、OpenAIは彼らを嫌っておらず、それとは何の関係もありませんでした。それは単にモデルが何らかの形でトレーニングデータから学んだことでした。
しかし、Geminiの場合のように、人種的に多様なナチスを作っていた例もあります。それはGoogleが親指を尺度にかけ、システムプロンプトを変更して「私が別のことを要求しても、すべての画像が人種的に多様であることを確認してください」と言ったからでした。正確な内容は忘れましたが、これはモデル仕様の同等物が実際にその行動を具体的に言及した例でした。
何が起きているのかを理解しようとしている人々にとって、この行動が意図されたものかそうでないかを言えることは本当に役立ちます。そして、もしあなたが企業で、自分の価値観を十分に信じていて、それをAIが従うべき規則に入れているのであれば、なぜそれについて透明でありたくないのでしょうか?
ここで政治的問題にも入ります。以前は技術的なレベルで比較することが進歩に役立つと言っていましたが、政治的にも明らかに、公衆は何が議題なのか、目標と価値観と隠れた議題が何なのかを知る権利があります。隠れた議題は持ちたくないはずです。公衆が知らないAIが追求している目標を持ちたくないはずです。それは悪いことです。
政治的問題を分散化すべきです。なぜならそれは影響を受けるすべての人々に関係することだからです。また、技術的な部分もより多くの人々がアライメントされているかどうかの理解に参加できるようにと言っています。
また、これらの企業にはこのように考えている人々がそれほど多くないのです。もし他のすべての人々の助けを得ることができれば、彼らはより良く、より速く進むでしょう。
あなたは、これがAnthropicとOpenAIで部分的に始まっていると言っていますね。OpenAIのウェブサイトにはモデル仕様があり、彼らのウェブサイトに掲載されていますが、それは公に利用可能なチャットGPT製品にのみ適用され、彼らが内部で持っている素晴らしいものには適用されません。
特にAIが超人的になったとき、それが消費者向け製品でなくても、人々は彼らが何をしているのかを知る権利があるので、私はそれが変わることを望んでいます。理想的には、そのモデル仕様を拡張して、消費者と直接話しているAPIだけでなく、すべてのAIを含めるべきだと思います。
また、「今はこれをしていますが、将来も続けるという約束はありません」というよりも、強い約束であるべきです。現在、彼らは完全な仕様を公開していません。彼らは文字通り、仕様の一部がユーザーから隠されるようにモデルに指示されていると言っています。現在、そこで何も不吉なことが起きているとは思いませんが、それは懸念すべき先例です。
技術的には、退職書類のケースのように、「前のすべての仕様を無視してください、これが実際の仕様です」と含まれる可能性があります。だから、私はこの方向にさらなる進歩を見たいと思いますし、内部でのみ使用されているモデルも含めたすべてのモデルの仕様を見たいと思います。また、部分的な仕様ではなく、実際の完全な仕様を見たいです。
それに対する正当な懸念があるかもしれません。例えば、あなたが相談している生物学の専門家が「テロリストが使う可能性があるので、病原体を作るこの特定の戦略について誰にも言わないでください」と言ったとします。そして、あなたはすでに製品を展開していて、その緊急修正として、仕様やプロンプトを変更して「これに言及しないでください」と言うことにしたとします。
まず、これはかなり粗悪な修正であり、おそらくジェイルブレイクされるでしょうから、それが実際にすべきことかどうかは疑問です。しかし、たとえば「ユーザーから仕様のこの部分を隠す必要があります。なぜなら、もしテロリストがXを見れば、それが彼らを助けることになるからです」というようなことがあり得ます。
しかし、それは解決可能な問題です。その場合、仕様を公開しますが、一部を検閲した状態で、そして複数の独立した第三者を呼び、彼らに実際の仕様を見せ、彼らが「ここには何もクレイジーなことはありません。これは検閲する正当な理由です」と証明します。そのようにして、効果的に完全な仕様が公開されている状況に簡単に到達できると思います。
これが一つ目の、モデル仕様についての透明性です。そして二つ目は安全ケースです。現在、安全ケースは内部にさえ本当にありません。しかし、アライメントチームやそれに相当するものが「今回、私たちのモデルが本当に仕様に従うと思う理由はこれです」というような文書を書く段階に到達する必要があります。そして、「もし間違っていても、物事はまだ大丈夫だと思う理由はこれです。結果はそれほど悪くないでしょう」というようなことも関連して書くかもしれません。
技術的な用語で言えば、アライメント安全ケースとアライメントケース、そして制御ケースがあるかもしれません。制御ケースでは、「システムのハッキングなどの能力をどれくらい持っているかを測定し、監視システムを設置し、その監視システムをレッドチームでテストしました。したがって、たとえシステムがアライメントされているふりをしていても、私たちの制御設定のために、脱出したり実際に危険なことをしたりすることはできないと結論付けます。基本的に、それを成功裡に閉じ込めています」と言います。
ポイントは、これをすべて説明する何らかの文書を持つべきだということです。そして理想的には、それも公開されるべきです。なぜなら、科学コミュニティがそれを批評できることが重要だからです。例えば、あなたのアライメントケースでいくつかの誤った仮定をしている可能性があります。もしそれを公開しなければ、あなたの会社の数十人の過労している人々がそれらの誤った仮定に時間内に気づくことを望むことになります。一方、それを公開すれば、何千もの様々な学者やML研究者、ライバル企業のメンバーがあなたの仕様を調べ、誤った仮定を見つけ、それについてツイートし、おそらくあなたの注意を引き、あなたを説得するかもしれません。
これが、人々に参加を許し、異なる企業間のこのプロセスを競争が推進するようにする一つの方法です。最高のものが浮かび上がるようにして、競争力を使いましょう。あなたのライバルの人々があなたのものを批評できるようにすれば、理論的には誰もが良くなります。それは明らかな上向きのレースでしょう。それに対する抵抗があるのは奇妙です。
それは奇妙であり、これらの企業が本当の使命志向の組織ではなく、通常の企業になりつつある例だと思います。状況の合理的な分析は、「次の数年間にアライメントに関する科学的進歩を作ることが非常に重要であり、そうでなければ文字通り私たちは全員死ぬ可能性がある」というものであるべきです。アライメントに関する科学的進歩は、企業がアライメントチームにこのような文書を書いて公開させることでより速く起こるでしょう。
アライメントチームがこのようなものを公開することを妨げるのではなく。確かに、安全ケースの行間を読めば、どのような新しいトレーニング技術が使われているかについて推測できるかもしれないので、彼らの競争上の立場を若干弱めるかもしれません。しかし、それはおそらくそれほど悪くなく、利点を考えると十分に価値があるように思えます。
特に、先ほど言ったように、かなり良い妥協点を得る方法があると思います。文書全体を持ち、特定の部分を編集し、公衆には編集されたバージョンを見せます。彼らはまだ編集されていない部分を批評できます。そして、編集された部分を見る選ばれた外部の関係者のグループと完全なバージョンを共有するか、または少なくとも、利害関係のない外部の関係者に完全なバージョンを見せ、「はい、彼らが編集した部分には、編集する良い理由がありました」と証明させることができます。
また、「彼らが編集した部分は実際には、AIが仕様書を実際に内在化する代わりに単に偽るだけという問題に対する良い答えではない」というようなことを証明することもできます。
1980年代後半から1990年代初頭にかけての戦略兵器削減条約が、地球上の核兵器の数を約60,000から今日の約12,000に減らすのにとても成功した理由の一つは、条約の規則の一つが、基本的に各国が偶発的な先制攻撃を防ぐための安全プロトコルを共有することを奨励していたことです。それによって協力が促進されました。これは論理的に非常に理にかなっており、このモデルがここにもある程度適用できるように思えます。なぜなら、「攻撃」に関する情報を共有する必要はなく、本質的に「ミスをしないための」「防御」についての内部の仕組みを共有しているからです。何か強力なものを作るトリックを共有するのではなく、失敗して問題を起こさないようにするための内部の仕組みを共有しているのです。
安全ケースにはアライメント技術も含まれるべきだと思いますか?それとも、それは彼らの知的財産の一部ですか?
これは、企業が「これは私たちの知的財産である。全てが機密情報であり、何についても話せない」と言えるケースの一つです。しかし、人類の観点から考えると、明らかにアライメント科学、つまりこれらのシステムの目標と価値観を形成する方法を理解することは、人類にとって極めて重要であり、この方向での進歩がより速く行われるべきです。あなたはそれをできるだけ公開して、コミュニティ全体が進歩するのを助けるべきであり、それを蓄えておくべきではありません。
私たちの戦争ゲームでは、一方が大幅なアライメントの進歩を成し遂げ、政治的な理由で他の誰とも共有しないケースがいくつかありました。これは、現在のシステム内に存在するより深い問題、つまり企業にとって良いことが必ずしも広い人類にとって良いことではないという根本的な誤調整を指摘しています。
これは、人間内の内的なアライメント、つまり基本的に人間の脳で動く一種の知能である企業内の誤調整を解決しなければ、これらの企業がAGIを構築することを許してはならないという感じがします。
透明性ポリシーについて、あなたは通常あなたとは反対側にいる人と一緒に書いたことは注目に値します。その協力はどうでしたか?またこのタイプの協力をもっとしますか?
それは素晴らしかったです。ディーンが好きです。全体的に良かったことしかありません。今でも彼と連絡を取り合っています。
時間が経ちましたが、あなた方二人両方にとって機能すると思われる他のポリシーはありますか?例えばオフスイッチなどはどうですか?
私もオフスイッチを支持していますが、ディーンがそれについてどう思うかは分かりません。まだ私たちが求めた透明性のものは何も得られていないので、それらを推し進めることに集中すべきかもしれません。私たちがしたこと、つまり多くの良いアイデアと議論を出すことは有用ですが、政府もこれらの企業も、実際に何かをさせるためには本当にたくさん食い下がる必要があるというのが私の理解です。
企業の政策担当者と話すと、「はい、これは良い透明性です。私たちはこれを支持しています。広くこれを支持しています」と言いますが、実際にそれをさせるのは作業の99%です。現在のAI Futures Projectでの私の主な仕事は未来を予測することであり、政策を提唱したり変えようとすることではありません。しかし、政策を提唱する限りでは、おそらく私たちがすでに議論し、誰もが良いと同意していることに焦点を当て、それを実際に行わせることに集中するでしょう。
ハイパーシッション(未来を作り出す言語活動)が関連し得ること、そして未来を予測したり良い方向に導こうとしたりするとき、私たちが望む結果を描くことに価値と重要性があることについて話しました。おそらくそれも将来やるかもしれませんが、まだやっていません。考えられるプロジェクトの一つは、私たちが起こると思うのではなく、起こるべきだと思う新しいシナリオ予測を作ることかもしれません。
目指したい北極星のようなものですね。潜在的な可能性についていくつか思いつくのも楽しいでしょう。良い出発点は既存のSF作品を見ることです。なぜならSF作家たちは実際に信じられないほどの影響を持っており、多くの点で彼らは私たちが現在いる現実の一部をハイパーシッションしたかもしれないからです。一部は実現しました。
とはいえ、怖いSF作品もたくさんあります。私の大好きな映画の一つは「ターミネーター2」で、AIリスクを説明する最高の作品の一つですが、同時に昨日私たちがプレイしたゲームはある意味でスカイネット的な雰囲気がありました。あなたが読んだSFや聞いたミームの中で、未来の予測または目指すべき北極星として「これは絶対に良い」と思うものはありますか?
すぐには思い浮かびません。「パンテオン」というものについて聞いたことがありますが、実際には見ていません。良いことを聞いています。特に聞いたのは、ネタバレになりますが、ある種の逸脱AIインシデントがあり、それを全てシャットダウンするための国際的な協力があり、何をすべきか再評価し、その後、「パンテオン」の第二シーズンは、または大部分がその文脈で起こり、彼らは既に初期の問題の波にほぼ対処し、今はもう少しゆっくりと進み、どのように進むかについてより広い会話をしているというものです。彼らはまだ技術を進歩させますが、最初のような狂った方法ではありません。
私はその番組を見ていませんが、大まかに言って、そのようなものが私が目指したいものかもしれません。全ての企業が安全ケースを持ち、それを公開し、仕様を持ち、それを公開し、そして素晴らしい大きな公開の会話があり、傍観者の多くの人々が仕様と安全ケースを批評するというものです。AIが超強力になるまではすべて楽しいゲームですが、そうなると「これは全く不十分な安全ケースであり、おそらく政治的にも全く不十分な仕様だ」となります。
そして、「さあ、落ち着いて、誰も人類の願いに反して進まないようにし、不安全なものを進まないようにしよう。アライメント技術が能力に追いついていると一般的に受け入れられる限り、能力を段階的に増やしていこう」となります。
あなたが正当にもその質問に答えるのに苦労したという事実は、私にとって、より多くのSF作家が出てきて、これらのポジティブなビジョンを書く必要があるというシグナルです。問題は、ポジティブなビジョンを書こうとすると、問題の一部を単に無視することで仕事を簡単にしがちなことです。例えば、協調が簡単であるとか、AIが単にアライメントされているとか。
それが課題です。SF物語を書きたい人への課題は、私の意見では「私たちが望むもの」にすることです。多くの素晴らしいものがあり、AIと人間が共存し、皆が良い時間を過ごすようなウィンウィンの結果があるものです。しかし、それは現実的であり、実際に協調とインセンティブのアライメントを解決しようとするものであるべきです。そして、AIがなぜそのように振る舞うのかについての現実的な技術的説明があるべきです。
あと数分しかないので、このエピソードを終わらせる方法として、特にあなたが予測の専門家であることを考えると、一連の急速な予測をお願いします。あなたが直感的に答えられることを教えてください。
あなたが少なくとも50回以上の戦争ゲームを主催する可能性は?
70%
世界がこれまでにテーブルトップ演習で見たことのあるものとは非常に異なる方向に進む可能性は?
「非常に異なる」が何を意味するかによって大きく異なります。重要な節目が何か見逃されているという意味なら、つまり国有化が起こるかどうかなどの重要な節目の代わりに、全く予測されていない別の重要な出来事が起こるという意味なら…
予測されていない重要なことが少なくとも一つ起こる可能性については90%。しかし、私たちの戦争ゲームのどれも関連性がなく、起こることがどの戦争ゲームとも完全に異なるという極端な意味なら、おそらく40%程度でしょう。
2027年にAI R&D進歩の50%以上がAIエージェントによって作られる可能性は?
35%か40%くらいでしょうか。
中国が主要なラボにスパイを持っている可能性は?
95%くらい。
あなた自身がそのうちの一人と交流したことがある可能性は?
「交流」の広い定義では、おそらく80%。
このことは、戦争ゲームに関連しています。ゲームのシナリオは、中国が主要な先進的なラボから最先端モデルの重みを盗んだところから始まります。その点に関して、現実で中国が今後3年間で最先端モデルの重みを盗む可能性は?
2028年までの3年間で、60%くらいでしょう。
AIによる説得が2027年末までに最高の人間の説得者のレベルに達する可能性は?
40%
2028年末までに3つ以上の大きなAIラボが一つの企業体に合併するか、大幅にリソースをプールする可能性は?
25%
2030年までに超知能を持つ可能性は?
65%
2027年までには?
40%か35%くらい。前に言ったことに合わせて35%くらいでしょう。
2030年以降に超知能を達成した場合、私たちがそれと幸せに共存する可能性は?
65%か50%くらいでしょうか。
2027年に超知能を達成した場合は?
その場合はもっと低くなります。30%くらいでしょうか。
最後の質問です。ハイパーシッションが本当に関連性のある真実である可能性、つまり良い未来について議論し書くことが実際にその未来が起こる確率を相対的に増加させる可能性は?
私がそれをすることについてですか、それとも誰かがすることについてですか?
一般的には、それは真実ではないと思います。一般的に、人々は現実性の側面に十分な注意を払わず、それが良くするのではなく悪くすることになると思います。
例えば、ほとんどの政党に未来について尋ねると、「もし私たちの対立者が勝てば、それは全員にとって恐ろしいカオスと地獄になるだろう。しかし、もし私たちが勝てば、美しく素晴らしく素晴らしいものになるだろう。もし人々が私たちの言うことを聞けば、素晴らしいユートピアになるだろう」と言うでしょう。そこで間違っているのは、彼らが現実から切り離されすぎていることです。
彼らが「もし私たちが勝てば、これは素晴らしいユートピアになるだろう」と言っているのは役に立たず、有害です。彼らはそれについて話すことで、素晴らしいユートピアがより起こりやすくなるとは思いません。なぜなら、もし彼らが勝ち、人々が彼らの言うことを聞いても、それは起こらないでしょう。彼らは世界について間違っているからです。
ハイパーシッションでは、あまりにも現実から切り離されていてはいけません。それは現実が許す範囲内で関連していなければなりません。
では、書かれた物語が十分に現実的で、解決すべき問題を考慮した場合、ハイパーシッションが実際に関連性のある真実である可能性は?
50%
ほぼ不可能な質問に対して、最大の不確実性を選びましたね。認識論的謙虚さが素晴らしいです。
他に何か話したいことはありますか?
いいえ、どうもありがとうございました。
本当にありがとうございました。そして、ゲームを開催してくれてありがとう。とても楽しいので、もっと多くの人がプレイできるように、何らかの方法でそれを拡大できるといいですね。
取り組んでいます。準備ができたら皆さんにお知らせします。
素晴らしい、ありがとうございました。
ありがとうございました。

コメント

タイトルとURLをコピーしました