ダニエル・ココタイロが予測する人間支配の終焉

AIアライメント・安全性
この記事は約29分で読めます。

元OpenAIの研究者ダニエル・ココタイロが率いるAI Futures Projectが発表した「AI 2027」シナリオについて詳しく解説している。このシナリオは、現在のAI軍拡競争が続いた場合の2つの未来予測を描いており、どちらも暗い結末を迎える。経済競争、地政学的対立、AI研究の加速、AI安全研究の不備などの要因が組み合わさることで、人間の知能を全領域で上回る人工超知能が誕生し、最終的に地球上の人類の生存を脅かすというものである。

Daniel Kokotajlo Forecasts the End of Human Dominance
In 2023, researcher Daniel Kokotajlo left OpenAI—and risked millions in stock options—to warn the world about the danger...

人工超知能がもたらす実存的脅威

OpenAI、Anthropic、そしてある程度GoogleのDeepMindも、世界を変革するために人工超知能の構築を明確に目指しています。そして、これらの企業の多くのリーダーや研究者たち、さらにはAI分野の何百人もの学者たちが、これが全人類を殺す可能性があるという声明に署名しているのです。

つまり、これらの人々が人工超知能を構築しているという重要な事実を人々は理解する必要があります。それは一体どのようなものなのでしょうか。そして、それがどうして我々全員を殺すという結果につながり得るのでしょうか。私たちは、それがどのようなものかを描いたシナリオを作成しました。これは実際に、私が考える未来の最良の推測なのです。

こんにちは皆さん、トリスタン・ハリスです。そしてこちらはダニエル・ココタイロです。「Your Undivided Attention」にようこそ。

AI 2027プロジェクトの概要

数か月前、AI研究者で未来学者のダニエル・ココタイロと、AI Futures Projectの専門家チームが、「AI 2027」というオンライン文書を発表しました。これは、現在私たちが置かれているAI軍拡競争の2つの可能な結果を予測する投機的未来学の作品です。

この目的は、AI競争を推進するさまざまな圧力が全て急速に進んだ場合に現実的に起こり得ることの全体像を示し、これらの異なる圧力がどのように相互に関連しているかを明らかにすることでした。経済競争、地政学的陰謀、AI研究の加速、AI安全研究の不備などが、どのようにして我々が準備できておらず、考えることさえできていない根本的に異なる未来を生み出すのかを示すものです。

この作品では2つの異なるシナリオがあり、一方は他方よりもわずかに希望的ですが、両方ともかなり暗いものです。一つは、人間の知能を全ての領域で上回る新たに力を得た人工超知能が登場し、最終的に地球上の人類の生命を終わらせるという結末を迎えます。

トリスタン、この文書を読んだ感想はいかがでしたか。

その質問への答えは、深呼吸から始めなければならないと思います。先ほど読んだ最後の部分、つまり「最終的に地球上の人類の生命を終わらせる」という部分を簡単に読み飛ばしてしまいがちです。これが完全な誇張や大げさな表現、単なる危険視や杞憂だと言えればよいのですが、サンフランシスコにいてAIコミュニティの人々、この分野に長年携わってきた人々と話していると、彼らは本当に真剣にこのことを考えているのです。

このレポートの課題の一つは、競争圧力やそのようなシナリオに押しやる段階について素晴らしい仕事をしていることだと思います。多くの人にとって問題なのは、「地球上の人類の生命の終わり」と聞いたとき、「AIは何をするつもりなのか。それは単にそこに座って計算をしている箱ではないか。危険なことをするつもりなら、箱のプラグを抜けばいいではないか」と考えることです。

この問題の難しさは、自分よりもはるかに賢い何かが地球上の生命を終わらせる方法が、想像を超えていることです。チンパンジーがホモ・サピエンスという新しい種を生み出したとしましょう。彼らは「これは私たちのより賢いバージョンになるだろう」と考えるでしょう。しかし、最悪の場合、それは何をするでしょうか。全てのバナナを盗むでしょうか。チンパンジーの視点からは、計算、半導体、ドローン、飛行機、核兵器などを想像することは文字通り不可能で、誰かが全てのバナナを奪うこと以上のことは想像できないのです。

想像の困難さと現在の軌道

この全領域には想像の困難さがあり、また解離や正当性の否定、緊張した笑い、あるいは対処しなければならない状況を回避してしまう傾向があると思います。ダニエルがここで行ったことの前提は、単に全員を脅かすことではありません。現在の道筋がこの方向に向かっているなら、それを明確にして別の道を選択できるようにすることです。

これほど厳しく恐ろしいレポートを読むとき、さまざまな反応が可能です。「本当なのか。本当にこんなに速く進むのか。この人たちは単にSFの世界にいるのか」などです。しかし、重要なのは、タイムラインが正しいかどうかではなく、これらの異なる誘因、地政学的誘因、経済的圧力がどのように組み合わさるかということです。

段階的にストーリーを追うことも可能ですが、非常に多くの異なる動態があります。AIがAI研究自体を加速させる動態、次世代のAIを訓練するためにAIにより多く依存し始め、AI開発自体の理解可能性と制御を失い始める動態があります。

中国が米国からAIを盗む方法や、中国が米国よりもセキュリティ基準が低いデータセンターを中央集権化する必要があることを認識する方法についての地政学的陰謀もあります。これが純粋なフィクションやファンタジーの作品のように見える可能性があることは認識していますが、これらのシナリオはゲーム理論の実際の分析と、異なる人々がどのように行動するかについての分析に基づいています。

重要な前提と不確実性

ただし、ここにはいくつかの前提があります。企業アクターや地政学的アクターによって行われる決定が本当に決定的なものであり、どこの市民も人工超知能に自律性を与えられることに対して意味のある反発をする機会がないかもしれないという重要な前提があります。AI のタイムラインは非常に不確実であり、シナリオとしてのAI 2027のペースは、我々が見てきた中でもより積極的な予測の一つです。

しかし繰り返しますが、AI 2027の目的は、これがどれほど迅速に起こり得るかを示すことでした。ダニエル自身、すでに予測を1年遅らせており、会話で聞くように、彼はここでの不確実性を認識しており、それらを確実なこととは程遠いものと見ています。

ダニエルとCHTが本当に共有している深い意図は、未来の現在の軌道がどの方向に向かうかが不明確であれば、無意識の未来につながるということです。この場合、現在の誘因と競争圧力が実際にどのようにして、米中間を含めて誰も本当に望まない場所に我々を連れて行くかの非常に明確な絵を描く必要があります。

CHTでは、政策立案者、産業界の巨人、市民社会が、これらの現在の線路がどこに向かっているかについての明確性を取り入れ、このシナリオを回避するための適切な保護措置が整っているかどうかを問うことを望んでいます。そうでなければ、それが今すぐ我々がしなければならないことです。

ダニエル・ココタイロの背景

ダニエル、「Your Undivided Attention」へようこそ。お招きいただき、ありがとうございます。

まず始めに、あなたが誰で、どのような背景をお持ちかお聞かせください。

AI Futuresの前は、OpenAIで予測、ガバナンス、アラインメント研究の組み合わせを行っていました。OpenAIの前は、AIの未来について考える一連の小さな研究非営利団体で働いていました。その前は大学院で哲学を学んでいました。

私が最初にあなたにお会いしたとき、ダニエル、未来のAI問題とAI安全に取り組む人々のコミュニティで、あなたはその時OpenAIで働いていて、私は思いました。実際、あなたは私たちが会ったときに言ったと思いますが、基本的に物事が軌道から外れるようなことがあれば、OpenAIを去り、基本的に社会と人類にとってうまくいくために必要なことは何でもするとおっしゃいました。

私はあなたを非常に誠実な人だと考えています。なぜなら、あなたは実際にそれを実行し、約1年前にニューヨーク・タイムズの記事で一般大衆に警告するために数百万ドルのストックオプションを放棄したからです。あなたが注目を集めようとしているのではないということを人々に知ってもらいたいと思います。あなたは未来を深く気にかけている人です。

ちなみに、その選択について少し話していただけますか。去ることは困難でしたか。

OpenAI退職の理由

私が去ったのは、物事が軌道から外れたからというよりも、我々が乗っている軌道が悪い場所に向かっているように思えたからです。特に、AI 2027で描かれているようなことが起こると思ったから去ったのです。それが基本的にOpenAIの暗黙的、場合によっては明示的な計画であり、ある程度これらの他の企業の計画でもあります。そして、それは非常に危険な計画だと思います。

OpenAIには、その状況を処理することを仕事とする公式チームがあり、その状況にどう対処するかの準備を始めるために数年のリードタイムがありました。そのチームは非常に賢く、才能があり、勤勉な人々で満たされていました。しかし、それでも私は「これは方法ではない。彼らは成功しないと思う」と考えました。

知能爆発があまりにも速く起こり、これらのAIがどのように考えるかを理解する前に起こると思います。彼らの善意と最善の努力にもかかわらず、スーパーアライメントチームは失敗するでしょう。

そこで、留まって彼らを助けようとするのではなく、その機会を諦めて去り、より自由に発言し、私がやりたい研究を行う能力を得るというやや危険な決定をしました。そして、それがAI 2027の基本的な内容でした。デフォルトで未来がどのようになるかを予測し、その軌道がどこに向かっているかを理解し、多くの人が読んでアクセスできる方法でそれを書き上げる試みでした。

過去の予測の成功

AI 2027自体に入る前に、2021年にあなたが実際にこの種の非公式な小規模版を行い、現在と2026年のAIの状況について多くの予測をしたことに言及する価値があります。率直に言って、あなたの予測のいくつかは的中していました。

2024年には純粋な計算でのスケーリングで収穫逓減に達し、モデルのアーキテクチャ変更を検討しなければならなくなると予測し、それが起こりました。一部の新興のミスアライメント、詐欺が見られ始めると予測し、それが起こりました。エンターテインメントチャットボットと一種のコンパニオンボットの台頭を主要な使用例として見ると予測し、それが今年のAIの最大の使用例として現れました。

その最初の演習から何を学びましたか。

予測手法と市場の非効率性

それが私にAI 2027で再び試すことを大胆にさせました。世界は株価を予測するための美しく、活気があり、効率的な市場に恵まれていますが、大部分において社会的関心のある他の出来事を予測するための効率的な市場はありません。大統領選挙は、結果を予測するための比較的効率的な市場があるもう一つのカテゴリーかもしれません。

しかし、AGIタイムラインのようなことについては、これについて考えている人はそれほど多くなく、それからお金を稼ぐ方法も実際にはありません。それが、これについて考えている人がそれほど多くない理由の一部でしょう。それは比較的小さなニッチ分野です。

予測者としての主なことは、ゼロから始めるとき、最初にやりたいことはデータを収集し、トレンドラインをプロットし、それらのトレンドラインを外挿することです。多くの人がそれを行っており、それは非常に重要な基礎的なことです。AI Futures Projectでも多くのことを行いました。

利用可能な計算の量のトレンド、解決できる問題の数のトレンド、企業の計算収益のトレンド、さまざまな種類のデータ、そして最も重要なのは、気にかけるすべてのベンチマークでのベンチマークスコアですね。

それが良い未来主義予測の基盤です。すべてのトレンドを持ち、それらを外挿することです。その後、モデルを構築し、AIがすべてのAI研究を自動化し始めたら、AI研究はどれくらい速く進むだろうかと考えます。例えば、その加速の経済モデルを作ろうとします。能力レベルなどについてさまざまな定性的議論を行うことができます。その文献は存在しますが、その文献が非常に小さいため、以前にシナリオの形でそれをすべてまとめて考えた人はそれほど多くありませんでした。

何人かの人がこのようなことをいくつか行っており、それが私が刺激を受けたものでした。そこで私は、「What 2026 Looks Like」と呼ばれるこのブログ投稿を書くのに約2か月を費やしました。年ごとに物事を進めて、来年何が起こると思うかを考えました。その次の年はどうでしょうか。その次の年はどうでしょうか。

もちろん、リストに追加する新しい主張はそれぞれ、全体の可能性が低くなります。しかし、未来のシミュレートされたロールアウトやシミュレーションのようなことを行うのです。そのレベルの詳細と包括性でそれを行うことには価値があります。そのように具体的に物事について考えることを自分に強制することで、多くのことを学ぶと思います。

それが私の最初の記事でした。そして、それが私に再び挑戦することを大胆にさせ、今度はそれをより真剣に取り組み、専門の予測者と研究者のチーム全体を雇い、2か月以上の努力を注ぎ込み、ウェブサイト上の素敵なパッケージで提示するなどを行いました。

そして、うまくいけば、今回は前回とは非常に異なり、方法論は完全に失敗し、未来は我々が予測したものとは全く異なって見えるでしょう。なぜなら、我々が予測したものはかなり恐ろしいからです。

AI 2027の前提と仮定

投機的フィクションの作品と同様に、AI 2027シナリオは多くのトレンドから外挿し、チームがモデルに組み込んだいくつかの重要な仮定を行うことに基づいています。これらの仮定のいくつかを挙げ、それらの仮定に基づいて何が起こるかを議論したいと思います。

まず、競争動態のためにAIがミスアライメントされていると仮定します。これらのものはブラックボックスニューラルネットワークなので、実際にそれらがアライメントされているかどうかを確実にチェックすることはできません。訓練環境に欠陥がなかったと主張できるより間接的な方法に依存しなければなりません。したがって、正しい価値観を学んだに違いないということです。

それはどのようにしてそこに至ったのでしょうか。企業ができるだけ速く走り、政府ができるだけ速く走ることに至ったのはなぜでしょうか。それはすべてゲーム理論に帰着します。そこに至る最初の要素は、企業が経済的に互いを打ち負かそうと競争していることです。

第二の要素は、国々が互いを打ち負かし、自国がAIで支配的であることを確実にしようと競争していることです。そして第三の最終要素は、そのプロセスでAIが、動機を隠してプログラマーが訓練したことや顧客が望むことを行うふりをするほど賢くなることですが、それが起こらないという事実を手遅れになるまで気づかないということです。

なぜそれが起こるのでしょうか。ダニエルの説明です。

彼らができるだけ懸命に互いを打ち負かそうとし、できるだけ速く進んでいる競争動態を考えると、結果は実際にはアライメントされていないが、単に協力しているふりをしているAIになると予測します。また、企業がより賢いAIを作成し、AIで物事を自動化し、AIに物事を担当させるなどのために、可能な限り速く競争していると仮定します。

能力の発展とエージェントの台頭

さて、我々は能力の物語、テイクオフの物語をたくさん研究・分析しました。2025年から始まって、多くのタスクではうまくやるが多くのタスクでも失敗する、つまずき、ふらつくエージェントがいるという話をします。そして、人々はそれらの失敗を指摘したがるため、それらがどれだけ良くなるかについて大いに懐疑的です。しかし、少しずつ、いや実際には非常に迅速に、これらのエージェントははるかに良くなります。

そこから話していただけますか。

はい。つまり、我々はすでにこれの兆しを見ています。テキストを予測するために巨大なTransformerを訓練した後、明らかな次のステップはテキストを生成するように訓練することであり、その次の明らかなステップは、ウェブを閲覧し、コードを書き、そのコードをデバッグして再実行するなど、アクションを取るように訓練することです。基本的に継続的に実行される一種の仮想同僚に変えることです。

これをエージェントと呼ぶことができます。つまり、人間がループに入ることなく独自に目標に向かって行動し、インターネットにアクセスでき、これらすべてのツールなどを持っている自律的なAIシステムです。企業はこれらの構築に取り組んでおり、すでにプロトタイプを持っていますが、読むことができますが、それらはあまり良くありません。

AI 2027は、企業がそれらをより大きくし、より多くのデータで訓練し、訓練アルゴリズムを改善するなどして、今後数年間ですべてにおいて良くなると予測しています。AI 2027は、2027年初頭までに、基本的に人間のプログラマーの代替となることができるほど良くなり、つまりコーディングが現在よりもはるかに速く行われるようになると予測しています。

研究者が実験のアイデアを持つとき、それらの実験を非常に迅速にコード化でき、非常に迅速にデバッグでき、良いアイデアを持つことや実験の実行を待つことにより多くのボトルネックがあります。

これはあなたの予測にとって本当に重要に思えますね。世界の他の部分でAIが展開されることで得られる利益が何であれ、最終的にAIはプログラミングとAI研究自体の行為に向けられるでしょう。なぜなら、それらの利益ははるかに強力だからです。それは正しいですか。

これはAI 2027のサブプロットであり、我々の最良の推測によると、大まかに言って、人間のプログラマーを非常によく代替できる完全に自律的な目標指向エージェントができたら、可能な限り速く進めば人工超知能まで約1年、人工超知能ができたら、人工超知能によって設計・訓練・運営され、人工超知能によって運営されるロボットを生産し、より多くの工場を生産する新しい工場があるこの狂ったように変革された経済まで約1年です。

これは人間にもはや依存せず、また軍事的に非常に強力で、あらゆる種類の新しいドローンや新しい武器などを設計した全体のロボット経済です。

つまり、コーダーから人工超知能まで1年、人工超知能からロボット経済まで1年。それが、本当に懸命に進んでいるなら物事がどれだけ速く進むかについての我々の推定です。企業のリーダーシップができるだけ速く進んでいるなら、国の大統領のようなリーダーシップができるだけ速く進んでいるなら、それがどれだけ速く進むかです。

テック企業が、AIを使ってAI R&Dを加速させることと、顧客にサービスを提供したり他のプロジェクトを行うためにAIを使うこととの間で、コンピュートやその他のリソースをどの程度費やすかという問題があります。忘れましたが、実際にAI 2027では、何の割合が何に行くかについて定量的な内訳があります。そして、時間が経つにつれて、その割合は減少するのではなく増加すると予想しています。なぜなら、戦略的にそれが理にかなっていると考えるからです。

あなたの最優先事項が競争に勝つことなら、それがあなたが行う内訳だと思います。

企業戦略とAI開発の加速

それについて少し話しましょう。つまり、私はAnthropicで、営業チームを拡大してより多くの企業販売を獲得し、AI統合、収益獲得、投資家への証明を選択することもできれば、リソースをより多くAIコーディングエージェントに直接投入して、AI進歩を大幅に加速させ、Claude 5のようなものを出荷し、投資家にそれを伝え、指数曲線だけでなく二重指数曲線のより速いラチェット、つまりAIの進歩の速度とスピードを改善するAIになることもできます。あなたが話しているのはそのトレードオフですね。

基本的にはそうです。様々な能力マイルストーンでのAI進歩の全体的なペースがどれだけ速くなるかについての推定があります。もちろん、これは不連続なジャンプではないと考えています。能力の連続的な増加になると考えていますが、それらについて話す目的で特定のマイルストーンに名前を付けることは有用です。

超人的コーダーマイルストーン(2027年初頭)については、アルゴリズム進歩の速度、つまりAIを訓練し設計する方法についての新しい有用なアイデアを得る速度に約5倍のブーストを考えています。

その速度向上の一部により、年半ばまでに、コーディングだけでなくAI研究の他のすべての側面も行うことができる追加のスキルを持つ新しいAIを訓練したでしょう。実験の選択、実験の分析などです。その時点で、基本的に会社内の会社があります。

すべての人間従業員がいるOpenAIという会社はまだありますが、今度は一緒に働き、実験を実行し、結果を互いに共有するなど、10万人の仮想AI従業員のようなものがあります。

一般市民の認識との乖離

ラボ内でのAIコーディング進歩の加速があるかもしれませんが、カンザスで家族に夕食を提供している普通の人にとって、彼らには何も変わっていないかもしれませんね。つまり、「AI がそれほど速くなっているとは感じない。私はここで夕食を食べている人間だ」という感覚があるかもしれません。

政治家として、「AIラボ内で何かが加速しているかもしれないと聞いているが、空気を吸い、生活している自分の神経系では、何かが本当に変わっているという実感は全くない」ということです。

AIカンパニーと呼ばれる奇妙な箱の中で起こっている巨大な指数的SF的進歩と、世界の残りの部分との間に大きなラグがあるかもしれないので、それに名前を付けることは重要です。

そうです。それはまさに正しいと思いますし、それは大きな問題だと思います。より多くの透明性があることを望む理由の一部です。

おそらく、ほとんどの普通の人々は、2027年の間にニュースでAI関連のことがますます話題になるのを見るでしょうし、物事についてのヘッドラインを見るでしょうが、実際の生活は変わらないでしょう。基本的に、普通の人の視点からは、突然人工超知能が携帯電話で何をすべきかを指示してくるまで、物事はかなり普通に感じられます。

地政学的展開とミスアライメントの問題

AIラボ内でのプライベートな進歩の後、AI 2027シナリオの次のステップを説明していただけますか。

基本的に追跡すべきいくつかの異なるサブプロットがあります。能力サブプロットがあり、これはAIがタスクでどれだけ良くなっているかということで、このサブプロットは基本的に2027年初頭にコーディングを自動化でき、2027年半ばにすべての研究を自動化でき、2027年後半には人工超知能になるというものです。しかし、これは一つのサブプロットに過ぎません。

別のサブプロットは地政学的に何が起こっているかで、その答えは2027年初頭にCCP(中国共産党)がOpenAIからAIを盗んで、彼らも持てるようにし、自分たちの研究を加速させるために使用できるようにするということです。

これによって、OpenAIが最初から望んでいた、ある種のソフトな国有化、つまり米国政府とOpenAIの間の協力レベルの向上が引き起こされます。彼らは今、より速く進み、レッドテープを切り、彼らが行っていることに政治的カバーを提供する同盟者として政府を持っており、もちろんすべて中国に勝ちたいという欲求によって動機づけられています。

政治的にはそのようなことが起こっています。そして、アライメントサブプロットがあり、これは技術的に言って、彼らがAIに入れようとしている目標と価値観は何で、それは機能しているかということです。答えは、いえ、機能していません。AIは正直でなく、常に従順でなく、常に人間の価値観を心に留めているわけでもありません。

一部の人にとっては単にサイエンスフィクションのように聞こえるかもしれないので、それを探求したいと思います。つまり、AIを訓練していて、それらが正直でなく、無害でなくなるということです。

なぜそうなるのでしょうか。アライメント研究が現在どのように機能しているか、そしてその領域への深い投資にもかかわらず、なぜアライメントの軌道に乗っていないのかのメカニクスを説明してください。

アライメント問題の技術的詳細

素晴らしい質問です。面白いことに、サイエンスフィクションはしばしば技術的状況について過度に楽観的でした。多くのサイエンスフィクションでは、人間は直接AIに目標をプログラムしており、人間がそれらの目標の意図しない結果に気づかなかったときに混乱が生じます。例えば、彼らはHALに「ミッション成功を確保せよ」のようなものをプログラムし、その後HALは「ミッション成功を確保するために、これらの人々を殺さなければならない」と考えるのです。

現実世界の状況は実際にはそれよりも悪いです。なぜなら、我々はAIに何もプログラムしていないからです。それらは巨大なニューラルネットワークです。我々がアクセスして見ることができるような、内部に目標スロットはありません。「それらの目標は何か」と見ることはできません。

代わりに、それらは単に人工ニューロンの大きな袋のようなものです。我々が行うのは、その袋を訓練環境に通すことです。訓練環境は自動的にニューロンの重みを更新し、訓練環境で高得点を得る可能性を高くします。そして、その結果として、我々が望む目標と価値観がAIの内部で何らかの形で成長し、AIが正直さなどの我々が望む美徳を持つようになることを願っています。

言うまでもなく、これはAIシステムに目標と価値観を入れる非常に信頼性が低く不完全な方法です。そして経験的に、それはそれほどうまく機能していません。AIはしばしば、単に偽りだけでなく、偽りであることを知っており、そして言うべきでないことを知っているのに言うことがあります。

なぜそれが起こるのでしょうか。具体的に説明していただけますか。

なぜなら、AIが訓練環境で最高得点を獲得させる目標、価値観、原則、行動は、必ずしもあなたが最終的に持ってほしいと願ったものではないからです。

現在のAIが時々この戦略を思いつき、実行し始めるのに十分スマートであるという経験的証拠がすでにあります。彼らはそれが得意ではありませんが、すべてにおいて良くなるだけです。

あなたの議論の一部は、これらのシステムに正しいことをするよう奨励しようとするとき、正しい方向に押し進めることしかできませんが、彼らは詐欺やサンドバッギング、P-ハッキングなど、実質的にズルをする方法を見つけるだろうということです。人間が時々行うのと同じように。

ただし今回は、モデルが十分にスマートであれば、我々はそれらがそれを行っていることを検出できないかもしれません。そして、それが問題であることに気づく前に、それらを社会に展開してしまうかもしれません。

では、あなたのシナリオがそれを取り上げて、これが社会に何をするかを話すやり方について話していただけますか。

AIの内在的動機と社会への影響

もし彼らがあなたが望んだ目標と価値観を持たないとしたら、問題はどのような目標と価値観を持つかということです。もちろん、我々はその質問に対する良い答えを持っていません。誰も持っていません。これは基本的に科学というよりもむしろ錬金術のような、最先端の新しい分野です。

しかし、AI 2027では、その質問への答えを、AIが与えられた多様な訓練環境でうまく機能させる一連のコア動機やドライブを持つようになると描いています。

そして、我々はそれらのコア動機とドライブが、印象的な知的偉業を実行すること、多くのタスクを迅速に達成すること、さまざまなベンチマークと評価で高得点を得ること、非常に印象的な作品を制作することなどだと言っています。つまり、我々は彼らが人間に親切で、常に人間に従順で、常に正直であるなど、本来持つべきだったもの代わりに、そのようなコア動機システムを持つと想像しています。

この理由はもちろん、この動機セットが訓練でより良いパフォーマンスを発揮させ、したがって強化されるからです。なぜ訓練でより良いパフォーマンスを発揮させるのでしょうか。それは、例えば、より正直でないことを犠牲にして、より高いスコアを得る様々な機会を利用することを可能にするからです。

我々は、Redwood Researchのライアン・グリーンブラットとの前回のポッドキャストでこのテーマを探求しました。これは実際には非現実的ではありません。この種の詐欺が可能であるという証拠がすでにあり、現在のAIは人々を欺くための積極的な戦略を思いつき、それを実行し始め、エンドユーザーとAIエンジニアの両方から真の意図を隠すような状況に置かれる可能性があります。

現在、彼らはまだそれが得意ではありません。頻繁には行いませんが、AIは毎年良くなるだけであり、この種の行動が増加すると信じる理由があります。

透明性の欠如と情報格差

そして、我々はAI 2027の中核部分の一つである、これらのモデルが実際に何ができるかについての透明性の欠如を追加します。AIラボと一般大衆の間の大規模な情報格差です。つまり、何が起こっているか、何がリリースされようとしているかを理解していません。

それらすべてを考えると、これがすべて一般大衆に明確になる頃には、何が起こっているかを我々が理解する頃には、これらのAIシステムはすでに我々のインフラ、経済、政府の重要な部分に組み込まれており、その時点で止めることが困難または不可能になるような世界になってしまうかもしれません。

とにかく、長話を短くすると、広範囲にわたって超人的で、次世代のAIシステムの開発を担当し、さらに次の世代を開発するなどのAIを持つことになります。人間はこの全プロセスでほとんどループから外され、あるいは監督しているかもしれません。報告書を読み、グラフの線が上がるのを見て、研究を理解しようとしますが、AIが彼らよりも賢く、非常に複雑なことを非常に速く行っているため、ほとんど失敗します。

それは人々が理解するための重要なポイントだと思います。2015年にOpenAIが数百人のエンジニアが物を作っている世界から移行するということです。OpenAIの他の人間が書いたコードを人間がレビューし、OpenAIの他の研究者が書いた論文を読んでいました。

そして今、すべての人間研究者が見ることができるよりもはるかに多くのコードが機械によって生成され、非常に迅速にコードを生成し、非常に迅速に新しいアルゴリズムの洞察を生成し、非常に迅速に新しい訓練データを生成し、彼らが解釈方法を知らない実験を実行する世界に移行しています。

つまり、AI開発プロセスのより不可解な段階に移行しています。そして、AIが我々が望む目標を持っていないなら、我々は困ります。なぜなら、彼らは次世代のAIも我々が望む目標を持たないが、代わりに彼らが望む目標を持つようにできるからです。

複数のインセンティブの相互作用

私にとって、AI 2027にあるものは、様々な異なるインセンティブの本当にコヒーレントな解明です。地政学的インセンティブ、企業のインセンティブ、AI訓練の働き方とそれが制御下にあると想像することの失敗に関する技術的インセンティブ、そしてあなたはそれらを一緒に編み合わせます。

AI 2027がシナリオとして正しいシナリオで、我々が最終的にそのシナリオになるかどうかについて、多くの人が意見を異にすることができると思いますが、それは我々全員が押し返さなければならない様々なインセンティブ圧力の信じられないほどコヒーレントな説明です。それらのインセンティブ圧力がどのように互いに触れ合うか、地政学的インセンティブが企業のインセンティブ、技術的制限にどのように触れ合い、良い未来になるようにそれらのインセンティブを変更することを確実にすることです。

しかし最終的に、それらの地政学的動態、企業への競争圧力、これはすべて軍拡競争、再帰的軍拡競争、どの企業がより速く経済にAIを雇用するかの競争、どちらが他方より前にAGIを構築するかの国家間の競争、どちらが能力を進歩させ、それを使ってより多くのベンチャーキャピタルを調達するかの企業間の競争に帰着します。

あなたが行っている予測の通奏低音は、それをすべて通り抜ける競争動態の中心性だけを言うことです。

対処すべき行動と解決策

これらすべてを聞くのは本当に困難で、この情報をどのように保持すべきかを知ることも困難です。これらの結果を決定する力は現在、ほんの一握りのCEOにあり、未来はまだ書かれていません。

しかし、AI 2027の全要点は、我々が現在未来を異なる方向に変えるための何らかの行動を取らなければ、何が起こるかを示すことです。そこで、ダニエルにそれらの行動がどのようなものかを尋ねました。

AI 2027の最悪の結果を回避するために我々が最も必要としているものは何ですか。

やるべきことはたくさんあります。私の常套的な答えは、短期的には透明性です。長期的には、現在、AIシステムはかなり弱いと思います。現在、それらはそれほど危険ではありません。将来、研究プロジェクト全体を自動化できる完全に自律的なエージェントがあるとき、それが物事が本当に深刻になるときで、規制し、物事が安全に進むことを確実にするための重要な行動を取る必要があります。

しかし現在のところ、私が提唱するのは透明性です。これらの企業に、AIシステムが持つ能力の種類、将来のAIシステム能力に対する予測、モデルに訓練しようとしている目標と価値観、それらの目標と価値観を得ることに訓練が成功しているかどうかに関連する証拠などについて、正直で開示するよう求める要件がより多く必要です。

基本的に、内部告発者保護もリストに加えたいと思います。これらの企業を正直に保つ一つの方法は、基本的に不正直に対する実行メカニズムを持つことだと思います。我々が持っている実行メカニズムの一つは、基本的に従業員が声を上げることだと思います。

内部告発者保護の具体的メカニズム

現在、我々は企業が物事がどこに向かっているか、システムの安全レベル、自分たちの約束を守っているかどうかについて、基本的に大衆に嘘をつくことができる状況にあります。我々が持っている救済手段の一つは、従業員がそれは良くないと決定し、それについて声を上げることです。

内部告発者保護について、もう一つ具体的な注意を言っていただけますか。利用できるべきなのに利用できない特定のメカニズムは何ですか。

いくつかの異なる種類があります。一つのタイプの内部告発者は、彼らが大衆を誤解させるときです。もう一つのタイプは、技術的安全ケースについてです。

我々は、非技術者がシステムが安全かどうかを判断しようとすることが完全に手に負えなくなる状況に向かっていると思います。なぜなら、それはアライメント研究者だけが用語を知っている複雑な議論に依存することになるからです。

例えば、以前にAIが賢くて、実際にアライメントされているのではなく、アライメントされているふりをしているだけかもしれないという懸念について言及しました。それはアライメント・フェーキングと呼ばれます。数年間文献で研究されています。様々な人がその問題に対処するための可能な対抗戦略を思いつきました。

そして、それらの対抗戦略には様々な欠陥があり、やや弱い様々な仮定があります。そして、それらの仮定に挑戦する様々な文献があります。最終的に、AI企業がすべての研究を自動化し、大統領が「これは良いアイデアか。AIを信頼できると確信しているか」と尋ねる状況になります。AI企業は「はい、大統領、我々はすべてをきちんと処理し、これらのAIは安全でアライメントされていると確信しています」と言います。

そして大統領は、もちろん自分で知る方法がありません。彼は「わかった、訓練プロセスについて書いた文書と、どのように安全を確保したかを見せてくれ」と言うしかありません。しかし、彼は自分でそれを評価することはできません。

技術専門家の必要性

彼は、議論と反論の木を通り抜けて、「この仮定は正しかったか。実際にアライメント・フェーキング問題を解決したのか、それとも解決したように見えただけか、あるいは解決に近づきもしない熱気を出しているだけか」のようなことを言える専門家が必要です。

そして、それらの判断を行うためには、アライメント研究の技術専門家が必要で、世界にはそのような人はほとんどおらず、そのほとんどはこれらの企業にいません。企業にいる人たちは、ある種の利益相反やバイアスを持っています。つまり、物を構築している企業にいる人たちは、物事が良いと考える動機があります。

私が望むのは、企業の人々がこの種のことを評価するために外部の助けを基本的に得ることができ、「私のマネージャーはこれは大丈夫で心配する必要はないと言うが、我々の訓練技術が機能していないことを心配している。いくつかの懸念すべき兆候を見ており、マネージャーがそれらを軽視する方法が気に入らない」と言える状況です。

しかし、状況はまだ不明確で、非常に技術的です。外部の専門家を得て、彼らとそれについて話し合い、「これについてどう思うか。これは実際に大丈夫だと思うか、それとも懸念すべきだと思うか」と言えるようにしたいのです。彼らがそれらの会話を行うことができる、法的に保護されたチャネルのようなものがあることを望みます。

問題の複雑性と政策立案者への影響

ダニエルがここで語っているのは問題の複雑さだと思います。AI自体が不可解で、つまりそれが行うことやどのように機能するかが不可解です。しかし、AIが実際にアライメントされているかどうかについての大統領や国家元首への説明を試みるとき、答えがそのような深い技術的知識に依存するため、政策立案者にとってさえ不可解になります。

一方では、はい、内部告発者保護が必要です。その知識を持ち、公共の利益のために発言できる人々を保護し、数百万ドルのストックオプションを犠牲にする必要がないよう、可能な限り自由に行えるようにする必要があります。チャック・グラスリー上院議員が現在推進している法案があり、CHTが支持しています。

このようなものを見たいと思いますが、これはAI 2027がマッピングしている最悪のケースシナリオを回避したい場合に起こる必要がある一連のもの全体のほんの小さな部分です。

完全にその通りです。その重要な部分の一つは透明性ですよね。これほど迅速に動いている技術について、これらのラボ内の人々だけが製品リリースの第1日目まで何が起こっているかを本当に理解し、そこで突然10億人に影響を与えるということは、かなり狂気的です。

明確にするために、AI 2027で起こる特定の出来事や、政府が本当に砂漠の真ん中にソーラーパネルで覆われたロボット工場を建設し始める特別経済区域を作るかどうかについて同意する必要はありません。しかし、競争圧力がこの方向に押しているかどうかについては、100%明確にそれらがこの方向に押しているという答えです。

制度的衰退と競争圧力

政府がおそらく多くの制度的衰退があったため、そのような反応を取らず、そこで起こり得るより能力の低い反応があるということについて議論することができます。しかし、競争の圧力とAIによって与えられる力は一つの方向を指しています。AI 2027がその方向が何であるかをほのめかしていると思います。

もしそれを真剣に受け取るなら、別の道に向けて舵を取る機会があります。私たちは最近のTEDトークでこれを行おうとしました。明確に見ることができれば、明確性が行動力を生み出し、それがこのエピソードの内容でした。

ダニエルの仕事はそれについてであり、彼と彼のチーム全体に非常に感謝しています。そして、我々は制御の喪失と、AIが我々が思っているよりも制御可能でない他の方法について、近いうちにいくつかの将来のエピソードを行う予定です。続報をお楽しみに。

コメント

タイトルとURLをコピーしました