超知能へのカウントダウン｜サム・ハリスとダニエル・コカタロ（Making Sense #420）

本動画は、元OpenAI研究員のダニエル・コカタロが、AI超知能の到来とアライメント問題について語る重要なインタビューである。コカタロは2027年までにAIの急速な発展により人類が直面する可能性のある危機的状況を詳細に分析し、現在の大手AI企業間の競争が安全性を軽視した開発競争に発展していることへの警鐘を鳴らしている。特に注目すべきは、AI研究の自動化により生じる「AIテイクオフ」現象と、それに伴う社会経済への深刻な影響についての考察である。

はじめに – ダニエル・コカタロの背景
OpenAI退職の経緯
アライメント問題とは何か
超知能とは何か
超知能から実世界のリスクへの飛躍
様々なAIリスクの段階
AI 2027 – 重要な転換点
経済と社会への影響
楽観論と現実
現在のAIシステムの欺瞞的行動

はじめに – ダニエル・コカタロの背景

私はダニエル・コカタロさんとお話ししています。ダニエル、参加していただきありがとうございます。

こちらこそありがとうございます。

まず最初に、あなたの経歴について聞く前に、この会話の後に皆さんに大変興味深い参考資料をご紹介したいと思います。あなたと共著者の方々が書かれたブログ投稿「AI 2027」というものがあります。これは非常に説得力のある読み物で、その一部を取り上げる予定ですが、私たちが触れられない詳細もたくさんあると思いますので、皆さんにはぜひそれを読んでいただくことを強くお勧めします。この会話を聞く前に読まれてもよいかもしれませんね。

ダニエル、あなたの経歴について教えてください。OpenAIを辞められた経緯についても話す予定ですが、まずはどのようにしてOpenAIで働くことになったのか教えていただけますか。

はい、私はAI分野にしばらく関わっており、主に予測とアライメント研究を少し行っていました。おそらくそれがOpenAIに雇われた理由だと思います。私はガバナンスチームにいて、会社に政策提言を行い、これらすべてがどこに向かっているかを予測しようとしていました。OpenAIで2年間働いた後、昨年辞職し、その後チームを雇ってAI 2027に取り組みました。

そのブログ投稿の共著者の一人はスコット・アレクサンダーさんでしたね。

そうです、その通りです。これも本当に読む価値があります。

OpenAI退職の経緯

では、OpenAIで何が起こってあなたの退職につながったのでしょうか。退職の状況について説明していただけますか。あなたがNDAや非難禁止合意への署名を拒否し、株式を手放すことになったと記憶していますが、これはあなたの危機感の規模と原則の深さの表れとして受け取られましたね。そこで何が起こったのでしょうか。

この話は他の場所でより詳しく報じられていますが、要約すると、特定の一つの出来事や恐ろしいことが起こっていたわけではなく、むしろ全般的な傾向によるものでした。AI 2027を読まれれば、私が将来起こると予想している種類のことがお分かりいただけると思いますが、率直に言って、これは非常に危険になると思いますし、社会がこれに備え、悪い結果を避け、良い方向に舵を切るためにやるべきことがたくさんあると思います。

特に、この技術を構築している企業がやるべきことがたくさんあります。これについては後で詳しく話しますが、OpenAIはそのようなことを実際には行っていなかっただけでなく、準備を整えたり、この種の懸念を真剣に受け止めたりする軌道に乗っていませんでした。

私は在職中に徐々にこのことを信じるようになり、基本的に私たちがAI 2027のようなことが起こる道筋にあり、内部にいて人々と話し、そのような方法で物事を良い方向に導こうとするのは無望だと考えるようになりました。それが私が辞めた理由です。

株式の件については、従業員が辞める際に署名を求められる契約があります。この契約には、基本的に会社を二度と批判しないことに同意することと、この契約について誰にも話さないことが含まれています。私が異議を唱えたのはこの条項でした。署名しなければ、既得権分を含むすべての株式を取り上げられます。

それは驚くべき詳細ですね。既得権のある株式でもですか。それは合法なのでしょうか。

この経験全体から学んだ教訓の一つは、弁護士を雇い、自分の権利を知ることが良いということです。実際に合法だったかどうかは分かりませんが、妻と私で話し合い、株式を失うことになると知っていても最終的に署名しないことにしました。なぜなら、道徳的に優位な立場に立ち、将来会社を批判できるようにしたかったからです。

しかし、幸いなことに結果的にはうまくいきました。このことが明るみに出た時、多くの従業員が非常に動揺し、一般市民も動揺し、会社は非常に迅速に方針を撤回し、変更しました。そのため、実際には株式を保持することができました。

アライメント問題とは何か

人々に「アライメント問題」という言葉の意味を思い出してもらいましょう。私は明らかにこのトピックについて長年ポッドキャストで議論してきましたが、多くの人がこのトピックについて比較的初心者として参加している可能性があります。アライメント問題についてどのように考えていますか。そして、なぜ非常によく情報を得ている人々の中にもこれを全く問題として見ていない人がいるのでしょうか。

まず、アライメント問題とは何かですが、AIに私たちが望むことを確実に行わせる方法を見つけ出す問題です。より具体的には、AIの認知を形作って、私たちが望む目標を持たせ、私たちが望む美徳を持たせる問題です。例えば、正直さが非常に重要です。私たちのAIが正直であることは非常に重要で、確実に正直であることを実現することはアライメント問題の一部です。

現在、私たちはアライメント問題に対する良い解決策を実際には持っていないというのは、ある種の公然の秘密です。この件に関する文献を読むことができますし、現在起こっていることを見ることもできます。AIは実際には確実に正直ではなく、彼らが真実ではないと知っていることをかなり確実に言っている多くの文書化された例があります。

これは私たちが徐々に進歩している大きな未解決の問題です。現在、stakes（賭け金）は非常に低いです。現在は、たとえミスアライメントしていても、騙したり嘘をついたりしても、それほど大きな問題ではないチャットボットがあるだけです。

しかし、これらの企業（OpenAI、Anthropic、Google DeepMind、その他のいくつかの企業も）は超知能の構築に競争しているのです。これは彼らのウェブサイトやCEOの発言で見ることができます。特にOpenAIとAnthropicは、自分たちが超知能を構築していること、それを構築しようとしていること、この10年の終わりまでか、この10年が終わる前に成功すると考えていることを文字通り述べています。

超知能とは何か

超知能とは何ですか。

超知能とは、より速く、より安価でありながら、すべてにおいて最高の人間よりも優れているAIシステムです。もし彼らが超知能の到達に成功すれば、アライメント問題は突然極めて高いstakesを持つことになります。構築される超知能、少なくとも最初に構築されるものがアライメントされていることを確認する必要があります。

そうでなければ、人類の絶滅のような恐ろしいことが起こる可能性があります。

超知能から実世界のリスクへの飛躍

データセンターに機能的に天才の国があることから、実世界のリスクや人類絶滅のようなことへの飛躍は、一部の人には直感に反するように思えるでしょうから、必ずそれについても取り上げます。

しかし、なぜFacebookのヤン・ルカンのような人が、明らかにこの分野の先駆者の一人でありながら、アライメント問題の概念に全く信憑性を与えないのでしょうか。私はこの話題について人々がどのように動いているかを把握していませんが、このような確信を正当化する人々の見方について、あなたの意見はいかがですか。

それは人によって異なりますし、正直なところ、私が回答するために、誰かが言った具体的な例があるとより役立つでしょう。ヤン・ルカンについて言えば、私が正しく覚えている限り、しばらくの間、彼はAIは単なるツールだし、AIだから従順で従順になるだろうし、ここにはそれほど問題がないという趣旨のことを言っていました。

また同時に、彼らは決して超知能にはならない、現在のLLMはAGIへの道筋にない、実際に自律的にたくさんのことを行うことはできないという趣旨のことも言っていました。その方面での考えは大きく変わったようで、実際にそれを幾分か撤回し、今はAI懐疑論者のような立場を取り始めていますが、今は「次の5年間で超知能に到達することはない」というような発言をしたと思います。これは彼が以前言っていたことよりもはるかに穏やかな主張です。

私がこの話題について話し始めた時、最初は2016年頃だったと思いますが、9年前、これは少なくとも50年は起こらないと言う多くの人に出会いました。半世紀の増分について議論しているのをあまり聞かなくなりました。多くの人があなたの時間軸、2年、3年、そして5年や10年の違いについて議論しています。外側で見ると10年が慎重に見える人々から聞いているものです。

それは基本的に、この分野の賢い人々が収束している方向の説明として正しいと思いますし、これは一般市民が知っておくべき非常に重要な事実だと思います。AI専門家とAI予測者の分野がタイムラインを短縮し、これらの企業のいくつかが実際にこの10年の終わり頃に超知能の構築に成功する実質的な可能性があると考えていることを、誰もが知る必要があります。

タイムラインについては正確には多くの意見の相違がありますが、多くの意見が向かっている方向はそのようなものです。

様々なAIリスクの段階

アライメントの問題は、AIが提起するリスクの最も壮大で投機的でサイエンスフィクション的な側面ですね。これは、超知能で自己改良する自律システムが私たちから逃げ出し、私たちの幸福を視野に入れていない、あるいは実際に敵対的である可能性があるというリスクです。何らかの理由で、私たちがAIに入れなかった理由により、私たちは完璧なチェスエンジンに対してチェスをしているような状況に陥り、失敗する可能性があります。

これは実存的脅威を提起しますが、これについては説明しますが、明らかにもっと近い将来の懸念があり、ますます多くの人が心配しています。ますます強力になるAIの人間による悪用があります。

私たちはこれを封じ込め問題と呼ぶかもしれません。Microsoftのムスタファ・スレイマン（以前はDeepMindにいました）は、まず封じ込めの問題を考える傾向があります。この技術がより民主化されるにつれて、人々がそれを悪意のある用途に使用することを決められるというものです。つまり、私たちが非アライメントと考える用途です。システムレベルのプロンプトを変更し、これらのツールがより強力になるにつれて悪意のあるものにすることができ、そのリスクの拡散をどのように封じ込めることができるかを見るのは困難です。

そして、仕事の置き換えや経済的・政治的懸念など、あまりにも明白な他の問題があります。誤情報の拡散や、誤情報の拡散の文脈で生じ得る政治的不安定性、そしてこの技術の成長によって最初は覆い隠される可能性のある衝撃的な程度の富の不平等などです。

ミスアライメントされた超知能が私たちが話したい最終的な話題であることを知りながら、この状況に入りましょう。あなたと共著者の方々は何を予測していますか。なぜあなたの作品を「AI 2027」というタイトルにしたのですか。あなたの説明では、次の2年間が私たちに何をもたらすのでしょうか。

AI 2027 – 重要な転換点

それについて話すことはたくさんあります。2027というタイトルにした理由は、私たちが書いたシナリオにおいて、最も重要な pivotal events（転換点となる出来事）と決定が2027年に起こるからです。物語は2028年、2029年なども続きますが、物語の最も重要な部分は2027年に起こります。

例えば、文献で呼ばれているものであるAIテイクオフが AI 2027で起こります。AIテイクオフは、AIがAI研究を人間よりもはるかに優れて行えるようになった時に、AI研究の速度が劇的に加速するという予測される動態です。

言い換えれば、AI研究を自動化すれば、おそらくより速く進むでしょうし、どの程度速くなるか、それがどのように見えるか、最終的にいつ漸近線に達するかなどについて疑問があります。しかし、その全体的な動態はAIテイクオフと呼ばれ、私たちのシナリオでは2027年に起こります。

脚注として、これを書いた後、私のタイムラインは少し楽観的に更新され、今は2028年の方が可能性が高いと言うでしょうが、大まかに言って、私たちが向かっている軌道は基本的に同じだと感じています。

AIテイクオフと言うとき、それは以前からある「知能爆発」という言葉と同義語ですか。

基本的にはそうです。その言葉は数学者グッドが1950年代に仮定したこの考え方と長い間共にあります。知能のあるマシンが次世代の知能のあるマシンを考案するようになれば、このプロセスは自立し、漸近的になって私たちから逃げ出す可能性があるという一般原理から外挿し、彼はこれを知能爆発と名付けました。

これは主にソフトウェアがソフトウェアを改良する話ですね。つまり、この時点でAIはまだ物理的な工場に手を出したり、新しいチップやロボットを構築したりはしていませんね。

その通りです。これも私が人々にもっと考え、よりよく理解してもらいたいもう一つの重要なことですが、少なくとも私たちの見解では、世界の運命に影響を与える最も重要な決定の多くは、AIによる経済の大規模な変革よりも前に行われると思います。

なぜそうなのか、どのようにそれを意味するのかなどを理解したい場合は、すべて私たちのシナリオに詳しく説明されています。イベントが展開するのを見ることができ、読み終わった後で「ああ、AI企業の密室で、AI研究の自動化や超知能の生産などについて、これらの信じられないほど影響力のある決定が行われていたにもかかわらず、2027年の世界はかなり普通に見えたと思います。そして2028年には実世界で物事が狂っており、超知能によって調整された新しい工場やロボットなどが建設されているが、介入する場所という点では、超知能がすでにすべての工場を建設するまで待ちたくはないでしょう。その前により良い方向に物事を導こうとしたいでしょう」と思うことができます。

経済と社会への影響

あなたの作品では、ある種の投機的フィクションの一面もありますが、非常にもっともらしく、あなたが指摘するいくつかの分離に興味深いものがあります。実際の人々にとって経済が破壊されている瞬間がありますが、それは人々がはるかに価値が低くなっているからです。

おそらくあなたがご存知の「知能の呪い」と呼ばれる別のブログ投稿があります。これも人々に見てもらいたいこの分野の一部を扱っており、これは本当にこの原理の名前です。AIが事実上すべてにおいて人々よりも良くなれば、すべてがチェスに類似するものになれば、企業や政府の観点から人々の価値は蒸発するというものです。人々は経済を動かしている、または経済を動かしている最も重要なプロセスにどんな価値も加えることができないため、そこでは必要ありません。

株式市場は活況を呈しているかもしれませんが、ほとんどの人々にとって経済は実際に自由落下しているという興味深い瞬間があります。そして、米国と中国の間の軍拡競争の含意に入り、すべてが非常にもっともらしいです。すべてのプレーヤーが安全性を最優先として保持していない状況である軍拡競争状態にあることを認める瞬間に。

残念ながら、軍拡競争にあることは良いことだとは思いませんが、私たちが向かっているのはそのように見えますし、企業も推進しているように見えます。例えば、ロビイストからの発言を見ると、中国に勝つことの重要性や、アメリカがAIにおける競争上の優位性を維持する必要性について多く語っています。

より一般的に、この技術を構築している企業の多くの人々は、AI 2027のようなことが起こることを期待しており、何年もそれを期待してきて、それに向けて構築しているようです。彼らがそれを行っているのは、もし自分たちがやらなければ他の誰かがもっと悪い形でやるだろうと考えているからです。

楽観論と現実

彼らはうまくいくと思っているのでしょうか、それとも調整問題を解決できないため代替案がないと思っているだけなのでしょうか。Anthropicが止まっても、OpenAIは止まらないことを知っており、すべてのアメリカのプレーヤーが一緒に止まることに合意できません。たとえ合意できたとしても、中国は止まらないことを知っています。それは単に、一部の人々の心では10%に過ぎないかもしれませんが、それでも無視できない確率で、私たちを破壊する何かを生み出す可能性のある軍拡競争状態で解決できない調整問題です。

私の見解では、両方だと思います。私はこれらの企業に多くの友人がいて、そこで働いていましたし、そこの多くの人々と常に話をしています。私の意見では、平均して彼らはこれらすべてがどこに向かっているかについて過度に楽観的だと思います。おそらくこれらすべてを行うのが良いアイデアだと考えることに彼らの仕事が依存しているためにバイアスがかかっているのかもしれません。

しかし、それとは別に、実際の軍拡競争の動態があります。一つの企業がこれを行わないことを決定すれば、他の企業がおそらくとにかくそれを行うということが本当に真実であり、一つの国がこれを行わないことを決定すれば、他の国がおそらくとにかくそれを行うということも本当に真実です。

そして、多くの人々が基本的に、世界を責任を持ってこれに対処させるための調整や、ガードレールを設置したり、スピードを落としたりすることを達成しようとさえしていないという知覚される動態の追加要素もあります。彼らがそのレベルの調整を達成することは無望だと基本的に考えているからです。

現在のAIシステムの欺瞞的行動

LLMがすでにいくつかの欺瞞的特性を示していると言及されましたが、機能的に欺瞞として現れているものが実際に欺瞞なのか、私たちが意味するような動機のある意味で本当に欺瞞なのか、それとも私たちがこれらのシステムを嘘や欺瞞と呼ぶことで擬人化しているのかという疑問があるかもしれません。しかし、これらのシステムのいくつかから見てきた行動で、嘘やごまかし、欺瞞と呼んでいるものは何でしょうか。

素晴らしい質問です。いくつかのことがあります。検索するキーワードは、媚び（sycophancy）、報酬ハッキング（reward hacking）、そして策略（scheming）です。これについては様々な論文があり、OpenAIとAnthropicによるブログ投稿もあり、発見されたいくつかの例を詳しく説明しています。

媚びは、これらのAIシステムの多くで観察された傾向で、基本的に彼らが話している人間にごますったり、お世辞を言ったりすることです。しばしば極端に行き過ぎで露骨な方法で行われ、なぜこれが起こっているのか確実には分かりません。