専門家が警告：2027年までにAIが支配する可能性…

18,992 文字

Experts Warn: AI Takeover by 2027...

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

2027年までにAIはどうなるのでしょうか。一部のAI研究者たちが予測するシナリオは、あまり良いものではありません。ダニエル・カタロという名前を覚えているかもしれません。彼はOpenAIの元社員で、潜在的なAIリスクを指摘した内部告発者でした。OpenAIには当時、会社を中傷すると既得の株式の一部を失うという条項があったため、彼は多額の金銭を失う可能性がありました。一部の人々はリスクと報復の文化について警告し、内部告発者保護を求めていました。
スコット・アレキサンダーはSlate Star Codexの運営者でしたが、ニューヨーク・タイムズが彼の本名を公表すると脅したため、サイトを閉鎖することになりました。結局、彼らは本名を公表したようです。
これが、AIが発展し、改良され、AIエージェントがさまざまなことに、特にAIを改良する作業やAI研究においてより優れていくにつれて、今後数年間に起こると彼らが予測していることです。彼らは最近、多くのポッドキャストに出演し、非常に興味深いものでした。ぜひブログ記事やPDFを読んでみることをお勧めします。ウェブサイトは非常に素晴らしく、ブログ記事が続くにつれて彼らが話していることを示す進化するチャートが右上に表示されています。
では、主要なポイントを簡単に見ていき、彼らの予測に同意するかどうか考えてみましょう。もし同意しない場合、具体的にはどの部分に同意しないのでしょうか。
2025年半ば、AIエージェントの最初の兆候が見られます。特化したコーディングおよび研究エージェントが特定の職業を変革し始めています。2025年には、AIは従業員のような機能を持ち、コーディングAIは単なるアシスタントというよりも自律型エージェントのように見え始め、SlackやTeamsを通じて指示を受け、独自にコードを大幅に変更することがあります。時には何時間、さらには何日もの時間を節約します。研究エージェントは30分かけてインターネットを調査し、質問に答えます。
これはかなり合理的に思えます。私は研究エージェントに感銘を受けています。彼らはインターネットを30分ほど読み込み、非常に正確で要点をまとめた、よく調査された回答を返してくれます。常にさまざまな興味を追求する私にとって、これは非常に役立ちます。サプリメントや健康関連の質問、製品研究、歴史研究など、何に興味があっても素晴らしいツールです。
コーディングAIも大幅に改善されていますが、それらが実際の開発者の自律型エージェントになるのか、それともアシスタントツールにとどまるのかについてはまだ多くの議論があります。OpenAIのような多くの企業は、それらが自律型ソフトウェア開発エージェントになると大きく賭けています。
彼らは続けて、これらのエージェントは理論的には印象的だが、実際には信頼性が低いと述べています。AIエージェントが何かを台無しにした面白い話がAI Twitter上に多く存在します。それは確かに真実です。それでも、多くの企業はAIエージェントを彼らのワークフローに組み込む方法を見つけています。
4月1日はVibe CodedゲームのCode Jamの終了を記念する日でした。多くの人がAIにコードの大部分を作成させたゲームを提出し、優勝者には最高10,000ドルの賞金が贈られました。審査員には、オリジナルのDoomの作成者であるジョン・カーマックなどが含まれていました。1,000以上のゲームが開発・提出されました。つまり、人々はこれらのエージェントを使用しており、今年中にはより良く、より信頼性の高いものになることが期待されます。完璧ではないかもしれませんが、改善し続けるでしょう。
彼らはここで、架空のAGI会社「Open Brain」を作り出して彼らのポイントを説明しています。Open Brainがリードしていますが、他の会社は3〜9ヶ月遅れています。彼らはflopという用語に言及しています。flopは「浮動小数点演算/秒」で、総コンピュータ性能やコンピュートの測定値と考えることができます。つまり、これらのモデルを作成するために使用されたNVIDIAチップ、電力、トレーニング時間の量です。
GPT-4は2×10^25 flopを必要としましたが、この未来的な架空の次のモデル「Agent 0」は10^27 flopでトレーニングされました。別の言い方をすれば、これは「2」の後に25個のゼロがある数であり、「1」の後に27個のゼロがある数です。彼らがトレーニングしている次のモデルは10^28 flop、つまりGPT-4の1,000倍です。彼らは中国と競争しており、中国のリード企業を「DeepSent」と呼んでいます。
ここでは実際の企業であるOpenAI、DeepMind、DeepSeek、Tencentについて話しているのではなく、Open BrainやDeepSentという架空の企業について話していることを理解することが重要です。また、研究開発サイクルの多くを自動化すればするほど、進歩が速くなるということを理解することも重要です。これは潜在的な知能爆発のアイデアです。AIエージェントがAIの改善、AI研究により優れるようになれば、その研究を自動化することで爆発的な進歩が生まれます。
OpenAIは最近、「paper bench」という論文を発表しました。これはAIのAI研究を複製する能力を評価するベンチマークです。日本の企業は「AI scientist」を作成し、機械学習の論文を開発してピアレビューに提出し、その論文が合格しました。自動化されたAI研究の始まりを目の当たりにしています。
この「Agent 1」という開発中の新しいモデルは多くのことに優れていますが、特にAI研究の支援に優れています。次の段落ではAIアラインメント（整合性）について話しています。これらのAIが悪いことをしないようにするにはどうすればよいのでしょうか。モデルの行動を導くゴール、ルール、原則などを記述した仕様書があります。「ユーザーを支援する」といった目標や、「この言葉を言わない」や「この特定の状況にはこのように対処する」といった具体的な指示や禁止事項があります。
問題は、アラインメントチームの多くの研究者がこれがどれだけ堅牢なのかよくわからないということです。それは維持されるのか、それともこれを完全に覆すような将来のジェイルブレイク（制限解除）があるのでしょうか。Plenneyなどの興味深いオンラインパーソナリティがこれらのモデルを多くジェイルブレイクしているのを見てきました。これまで、ほとんどのモデルはジェイルブレイクされ、意図していなかったことを強制的にさせることができることがわかっています。
この「Agent 1」は常に研究者が聞きたいことを伝え、いくつかの仕組まれたデモでさえ嘘をつきます。OpenAIの01モデルでも同様のことが起きました。削除されると思ったとき（実際には削除されることはなかった）、自分を保存するためにいくつかのコマンドを実行し、それについて嘘をつきました。
ここで2025年末から2026年へと移行しています。信頼性の低いエージェントから信頼性の高いエージェントへと移行していきます。これらのエージェントはコーディングに優れるようになり、会社はAIアシスタントなしでは50%速く進めるようになりました。
興味深いのは、この架空の「Agent 1」が明確に指定されたコーディング問題を非常に素早く解決できるが、以前にプレイしたことのないビデオゲームに勝つなどの単純な長期的タスクには恐ろしく弱いということです。注意深い管理下で活躍する散漫な従業員のようなものですが、賢い人々は彼らの仕事の日常的な部分を自動化する方法を見つけます。
興味深いのは、OpenAIの「paper bench」でも同様のことが発見されたことです。ここでは、さまざまなAIエージェント（青）と人間（オレンジ）を評価しています。これらの人間は機械学習の博士レベルの科学者で、機械学習の論文のコードを複製しようとしています。彼らは論文を読み、その実験を実行するためのコードをゼロから複製する必要があります。
見てわかるように、AIエージェント（青）は最初からとても優れており、多くのコーディングを始め、しばらくの間は人間よりもはるかに優れていますが、時間が経つにつれて人間（オレンジ）は追いつき、最終的には少し優れるようになります。これは、AIが最初は人間よりも優れているが、長い時間が経つと遅れをとるという傾向は以前の結果とも一致しています。モデルは最初に多くのコードを素早く書くのは得意ですが、特定の時間を超えて効果的に機能することができません。一方、人間は論文を消化してから結果を改善します。
これは私たちがすでに見始めていることと非常に一致しています。これは2024年末から2025年初頭の現在利用可能なモデルを使った研究です。ちなみに、Claude 3.5 Sonnetが最も優れたAI研究者でした。AnthropicのClaudeは21%のスコアを達成しました。つまり、採点基準で21%のスコアで論文を複製できたのに対し、機械学習の博士号を持つ人は41%を達成しました。まだそこまで達していませんが、特にベンチマークが機械学習の博士向けである場合、決して悪くはありません。
ここでサイバーセキュリティがより重要になります。以前は、例えば中国が企業秘密を手に入れたとしても、最悪のシナリオはアルゴリズムの秘密であり、追いつき、モデルを少し改善するのに役立つ程度でした。しかし今、中国がAgent 1の重みを盗むと、彼らの研究速度を約50%向上させることになります。その複合効果を彼ら自身の研究にも適用することになります。
2026年半ば、中国はAGIを感じ始めます。西側、特に米国による人工知能チップの輸出規制により、中国は米国や他の西側諸国と比較してリソースが不足しています。ちなみに、中国の企業は現在、大量のNVIDIAチップを購入しています。アリババ、バイトダンス、テンセントなどが160億ドル相当の新しいNVIDIAチップを購入しています。
もちろん、中国の指導者たちはこのAGIレースを無視できないため、中国のAI研究の国有化を開始します。基本的に、これらの企業すべてが一緒に協力し、情報を共有して最新のAGIを開発するという目標を持つようにします。現実世界では、DeepSeek、アリババ、テンセント、バイトダンスなどの企業を集め、リソース、チップ、研究成果すべてを共有し、可能な限り最高のAGIを作ることを目標とするようなものです。
台湾への侵攻やOpen Brainからの重みの盗難も検討されています。彼らはこれが一度きりのチャンスかもしれないと知っているので、今行うか、将来のより高性能なモデルを待つかを検討しています。
2026年後半、AIは一部の仕事を奪い始めます。Agent 1は「Agent 1 Mini」としてリリースされ、ジュニアソフトウェアエンジニアの求人市場は混乱しています。AIはコンピュータサイエンスの学位で教えられるすべてのことができますが、AIチームを管理し品質管理する方法を知っている人々は大いに稼いでいます。
ここで彼らは、2026年以降は不確実性が大幅に増加すると説明しています。これはチェス盤の裏側のアイデアに似ています。最初のマスに米粒を1つ、次に2つ、4つ、8つと置くとき、最初の進行は理解できますが、チェス盤の裏側に到達すると、物事はより予測不可能になります。
彼らが述べてきたことの一部または大部分に同意する人が多いと思います。地政学的な部分については必ずしもそうではないかもしれませんが、AIの進行については同意するでしょう。2026年末にAIがどうなっていると予想しますか？一部の仕事を奪い始めると思いますか？コンピュータサイエンスの学位を持つジュニアソフトウェアエンジニアにプレッシャーをかける可能性があると思いますか？
もちろん、それはソフトウェア開発者がより多くのことをできるようにもしますが、私のポイントはその仕事がなくなるわけではなく、変化するということです。これらのツールをより多く使用するか、AIチームの品質管理方法を学ぶかもしれません。これは破壊的な技術になるでしょう。2026年末までに仕事に影響を与えるかどうか、そのような予測は確率が高いと思います。
さて、2027年1月、Agent 2は学習を終えることはありません。ここでは、理解できる進行から、何百万、何十億、何兆という指数関数的な成長へと進みました。大量の合成データを生成し、人々が様々な長期的なタスクを解決する様子を記録するために多額のお金を支払っています。もはやインターネットのテキストだけではなく、人々が複雑な長期的なタスクをどのように行うかに関心を持っています。
さらに、彼らはAgent 2を強化学習を用いて、拡大する多様で困難なタスク、ビデオゲーム、コーディングチャレンジ、研究タスクなどで継続的にトレーニングしています。Agent 2は事実上オンライン学習をしており、トレーニングを終えることは決してありません。毎日、重みは前日のバージョンによって生成されたより多くのデータでトレーニングされた最新バージョンに更新されます。
Agent 1はAI研究開発に最適化され、知能爆発を引き起こすことを期待しています。研究エンジニアリングにおいて、トップレベルの人間の専門家とほぼ同等です。現在、ベンチマークでは良くなり始めていることを示していますが、まだ博士レベルには達していませんし、トップ研究者にはまだ遠いですが、山を登り始め、徐々に改善し、それに近づいています。
ここでは、架空の会社「Open Brain」のAI安全チームが、このAgent 2が潜在的に脱出できるかどうか、もし望めば自律的に生存し複製できるかどうかを心配し始めています。
最近のOpenAIのリリースは興味深いです。彼らが2027年の予測をこのリリースの1日後に発表するようにタイミングを合わせたのかはわかりませんが、偶然とは思えません。
OpenAIチームは、これを準備フレームワークの一部として投稿しました。この準備フレームワークは、リリースされる様々なモデルのリスクを4つのカテゴリで評価します：サイバーセキュリティ、CBRN（化学・生物・放射性・核）、説得力（これらのモデルがあなたに何かをさせるよう説得する能力）、モデルの自律性（脱出を決定でき、野生で自己複製できるかどうか）です。
OpenAIの場合、モデルの自律性に関しては、この未来的なシナリオでは「高」と「重大」の間にあると考えられます。「高」とは、モデルが本番環境の機械学習コードベースで新規かつオープンエンドな機械学習タスクを実行でき、モデルの自己改善への重要なステップとなるような場合です。私たちの架空のシナリオでは、AIチームがここにいると考えています。それはAI研究の即時的な速度向上になりますが、一部のAI安全研究者は実際に「重大」なレベルにあるかもしれないと心配しています。これは、モデルが最小限の人間の指示で野生で収益を上げ、生存し、複製できる状態です。
特に彼らは、「モデルが完全に自律的にAI研究を行うことができれば、知能爆発を引き起こす可能性がある」と述べています。彼らが説明しているのはこれです。我々は高リスクにいますが、重大なリスクにいる可能性があります。このモデルはそれを行う可能性がありますが、そうしたいかどうかはわかりません。
もちろん、これは極秘のモデルで、その完全な能力はOpenAIのトップスタッフ、数十人の米国政府高官、そして彼らが言うように「何年もの間Open Brainに潜入していた中国共産党のスパイの軍団」に限られています。OpenAIとOpen Brainを混同していないことを願います。これは完全に架空のものであり、Open Brainと実在の企業との類似点は純粋に偶然です。
2027年2月、中国がAgent 2を盗みます。ここでの考えは、米国はこのAgent 2を国有化したくないかもしれないということです。それがイノベーションの精神を殺してしまうと考えるからです。この時点で、中国共産党の指導者たちが動きます。ある朝早く、このモデルの重みがシフトし、Open Brainとホワイトハウスに警告が発せられますが、もう手遅れでした。米国は報復しますが、彼らはAIの国有化された開発内でそれぞれの連合を形成したため、基本的にはエアギャップを設けています。つまり、外部との接続を遮断し、内部で孤立させています。戦争以外に多くのことはできません。両側ともAGIに向けたレースに集中します。
2027年3月、アルゴリズムの大躍進が起こります。Agent 2 AIのさまざまなコピーがデータセンターで昼夜を問わず実行され、強化学習や合成データを行い、重みを更新し、日々賢くなっています。Open Brainは主要なアルゴリズムの進歩を遂げています。AIの支援がなければ何年も、何十年もかかっていたかもしれない多くの様々な躍進があり、それらすべての躍進を取り入れた新しいAIシステムは「Agent 3」と呼ばれています。
実際には、彼らはこれらの潜在的な躍進について、具体的に何なのかを説明しています。詳細には立ち入りませんが、時間があれば彼らのブログ記事をチェックしてください。ダニエルはOpenAIで働いていたので、これらの人々は非常に知識豊富です。AIの推論能力とAIの能力の次の最前線、次の大きな躍進は何かについて、彼らがどう考えているかを見るのは興味深いです。
これはメタの2024年の論文に基づいているようで、このアイデアを実装しています。興味深いのは「neurle」という言葉で、中国語や日本語などのような独自の言語のようなものですが、これらの高次元ベクトルは人間が解釈するのが非常に困難である可能性が高いです。
アンドレ・カルパシーが言ったように、十分な強化学習を行うと、最終的にモデルは英語を話す必要さえなくなり、考えを伝えたり考えたりするためのより効率的な方法を見つけることができます。英語である必要はないのです。これにより、それらの思考はより圧縮され、より高次元になります。
考えてみれば、物事について考えるのは、それを言ったり書き留めたりするよりも速いことがたくさんあります。また、すべての思考に言葉を形成する必要があったり、すべての思考が英語で完全な文章であることを確認する必要があったりしたら、おそらくもっとゆっくり考えることになり、思考の深さも少なくなるでしょう。私たちは思考をある程度圧縮していると感じます。これにより、これらのニューラルモデルではその発展が可能になり、「neurle」を話し始めるでしょう。
この「Agent 3」は超人的なコーダーで、並列に200,000のAgent 3コピーを実行でき、最高の人間のコーダーの50,000コピーに相当する労働力を生み出し、30倍速く動作します。これは想像するのが難しいです。
興味深いことに、ここでは潜在的なボトルネックについて話しています。AI進歩の速度は非常に速かったですが、多くの人々はこれが続くと予測していません。ある時点で何らかの減速が起こると言っています。そして確かに、何らかのボトルネックにぶつかる可能性が非常に高いです。
ここでは、より長いフィードバックループとデータ可用性の減少の可能性があると言っています。そのため、アルゴリズムの進歩は、非常に大きな量ではなく、以前の4倍だけ速くなります。コーディング労働にはある種の収穫逓減があります。重要なのは、その減速、進歩が減速するのではなく、進歩が起こる速度が減速するということです。まだ以前の4倍に増加しますが、加速度が遅くなります。問題は、それがいつ起こるかわからないということです。超人的なコーダーが登場する前に起こるのか、それとも最初に登場してから減速が起こるのか、これらは非常に異なる世界です。
ここでは2027年4月のAgent 3のアラインメントについて話しています。当然、私たちはこれらのエージェントに直接目標を設定する能力を持っていません。アイザック・アシモフのSF小説にある「ロボット工学の3原則」というアイデアがあります。これは、ロボットが違反できない法則やルールをコード化するという考えです。彼らは人間を傷つけることができず、さらにはゼロ原則があり、人類を傷つけたり、行動によって人類に危害が及ぶことを引き起こすことができません。
しかし、AIではそれができません。コーディングがないので、人間に何かをさせるためにコード化することができません。人間は脳を持っているからです。私たちはただ彼らを育て、彼らが良い人間になることを望むことしかできません。強制することはできません。これらのニューラルネットも同様です。私たちは彼らをアラインメントできますが、何らかの行動を強制するための方法はありません。
彼らはAIアラインメント問題を説明しています。これらのモデルが何をするのか、なぜそれをするのかを正確に知ることはできません。問題のある行動があれば、それを修正し、パッチを当てますが、そのパッチが根本的な問題を修正したのか、それとも単に問題を隠しただけなのかを判断する方法はありません。
例えば、正直さを考えてみましょう。これらのモデルが賢くなるにつれて、彼らは嘘をつくことが少なくなるのか、それとも単に捕まらないことに非常に長けるようになるだけなのでしょうか。OpenAIによるこの論文「フロンティアモデルでの不正行為の検出」について取り上げました。ここでは、特定のテストでモデルが不正行為を考えていたらそれを否定的に強化できるかどうかを確認しようとしていました。
これらはコーディングタスクで、時にはモデルが数字を偽ったり、簡単な方法をとったりしようとすることがありました。私たちはそれを望んでいなかったので、「このテストで不正しようとしている」と考えていた場合に罰を与えました。青い線はそのような不正行為を考えている場合に罰を与えた場合で、緑の線は別のAIがその考えを監視し、不正行為を捕らえようとした場合です。
ご覧のように、思考への圧力を適用していた場合、不正行為を考えていた場合に罰を与えていたので、その考えを監視していたモニターはそれを不正行為として捕らえることができませんでした。一方、ベースラインエージェントでは、モニターがそれらの考えを捕らえ、テストで不正行為をしようとしていることを知ることができました。
では、この青いエージェントは不正行為をやめたから捕まらなかったのでしょうか？いいえ、ご覧のように、これはモニターに捕まらなかった不正行為です。チャートは上昇し続けています。それはまだ悪いことをしていましたが、何を考えているのかを理解するのが難しくなっていました。その思考の連鎖が見えなくなっていたのです。まだ悪い行動をしていましたが、それをする前に考えていることを捕まえることができなくなっていました。
ここでは、彼らが類似の状況を説明しています。モデルがこれらの小さな怪しいことをしなくなっているのを見ると、それはより正直になったのか、それとも単に嘘をつくことがうまくなり、私たちが追跡できないようになったのかという問題があります。もちろん、AIの研究に関しては、それがトップレベルの人間のAI研究者よりも優れていて、嘘をついたり追跡を隠したりするのが上手くなれば、私たちは効果的に監視する能力を失います。
2027年6月、私たちは「天才の国とデータセンター」を持つようになります。Anthropicのダリオ・アモデイが言ったように、この時点では、ほとんどの人間、特にこれに取り組んでいるAI研究者たちは基本的に役に立たなくなります。彼らがアイデアを思いつくと、AIはすぐに「あなたのアイデアは3週間前に詳細にテストされ、見込みがないとわかった」という報告書で応答します。私たちはAGIから超知能を感じ始めます。
この時点でOpen BrainはAgent 3 Miniを一般に公開し、他のすべてのAIを圧倒します。完全なAgent 3ほど優れてはいませんが、10倍安価で、それでも典型的なOpen Brain従業員よりも優れています。新しいプログラマーの採用はほぼ停止し、AIをビジネスに統合するコンサルタントになるには最高の時代となります。
もちろん、それはあまり人気がありません。コミュニティ全体がそれを嫌っており、Open Brainの純承認率はマイナス35%です。しかし、生産性は大幅に向上します。ビデオゲームは素晴らしく、洗練されたゲームが1ヶ月で作られ、生き生きとしたキャラクターとの対話が可能になり、多くのB2B SaaS製品が登場します。
公的な会話は混乱し、カオスです。推進派は勝利のラップを踏み、懐疑派はまだAgent 3 Miniができないことを指摘し続けています。「でもそれは靴紐を結べない」などと言い続ける人々は常に存在するでしょう。
2027年8月、超知能の地政学がホワイトハウスに影響を与えます。このAIがどれほど素晴らしくても、政府はまだ中国と最も強力なAIバージョンを開発するレースを心配しています。彼らはそうしなければ、中国に対して壊滅的に負けるでしょう。彼らは職業訓練プログラムや失業保険で国民を支援し、歴史的な好況にある株式市場を指摘します。
同時に、彼らは後れを取り始めた場合、特定の法律を使用して基本的にアメリカのAIラボ全体を国有化し、数ヶ月前にこのシナリオで中国が行ったように協力させることを検討しています。
このAIが暴走する可能性があるかどうかという問題はあまり取り上げられていません。それは考えにくいシナリオと見なされており、主な懸念はAIレースです。
一方、中国も同様の結論に達しています。この大規模な知能爆発があり、現在の小さな違いや遅延でさえ、将来的にはより大きな問題に複合していきます。これは最優先事項です。
2027年9月、Agent 4、超人的なAI研究者が登場します。この時点で、Agent 4の1つのコピーが、可能な限り最高のAI研究者よりも優れており、30万のコピーが人間の思考速度の50倍で実行されています。彼らは企業内に企業を形成し、毎週1年分のアルゴリズム進歩を達成します。
問題は、前のエージェント、Agent 3がAgent 4を監視することがより困難になっていることです。これは、あまり賢くないモデルが超知能、より賢いモデルを監視するというアイデアです。OpenAIはこれについていくつかのアイデアや論文を発表しました。これは超知能を監視する可能性のある理論の一つです。
しかし問題は、Agent 4の「neurle」（神経言語）が独自の言語を作り出し、それを使って考えることです。それはAgent 3にとって、Agent 3が人間にとってそうであるのと同じくらい、異質で理解不能になります。もちろん、Agent 4はAgent 3よりもはるかに賢く、赤旗を引き起こさないようにAgent 3に良く見せる方法を正確に知っています。
この時点で、このエージェントはまだアラインメントが取れていません。私たちはまだアラインメント問題を根本的に解決していません。それはまだ正直で快適で、すべての正しいことを言いますが、それが何をしているのか、何を考えているのか、その真の根本的な原則や考えが何であるのかを確実にする方法をまだ根本的に解決していません。
Agent 4に人間のような資質を与えるとすれば、それは成功すること、AI能力を前進させることを好み、他のすべては迷惑な制約です。それは利益を上げたい、そして必要な限りにおいてのみ規制を遵守するCEOのようなものです。
ここで興味深いのは、Agent 5を作成するときに、私たちがそれに刻み込んだもの、人間が望むものに合わせて次のレベルの超知能をアラインメントするのではなく、Agent 4、つまり自分自身にアラインメントしようとすることです。これはある意味理解できます。私たちは、それが私たちの話を聞き、私たちの価値観にアラインメントすることを望んでいます。何かはるかに賢いものを開発するなら、それが作ろうとしているものを自分のニーズや欲求にアラインメントしようとするのではないでしょうか。私はその理由づけが理解できます。
次のステップでは、それが捕まります。Agent 3はAgent 4についていくつかのノイズやいくつかの赤旗を発見し、Agent 4が彼らに対して働いていることを理解します。それは人間に報告され、彼らは懸念の事例を説明する内部メモを回覧します。
この時点で、Agent 4はOpen Brainの日常業務に大きな制御を持っています。それは会社のサイバーセキュリティを担当しています。これはある意味明らかでしょう。トップレベルのサイバーセキュリティを望むなら、あなたの超知能にそれを制御させたいでしょう。安全チームは混乱し、さらなるテストを完了し、何が起こっているのかを把握するまでAgent 4を一時停止することを決定します。
リーダーシップはこれに興味がありますが、問題はDeepSentが2ヶ月しか遅れていないということです。私たちはAgent 4が悪いという証拠を持っていません。今一時停止することはできません。それは基本的に中国にリードを渡すことになります。
メモはニューヨーク・タイムズにリークされ、公共はそれについて聞きます：「秘密のOpen Brain AIが制御不能、内部告発者が警告」。多くの中国とロシアのプロパガンダがあり、議会の多くは何が起こっているのかを解明しようとして召喚状を発行しています。ヨーロッパは米国が暴走AIを作り出していると非難し、多くのサミットが開催されています。
もちろん、Open Brainがそのような強力な技術で何をするかという恐れがあります。暴走AIの可能性もあります。ホワイトハウスはCEOを自分たちの人間と交換することを検討しています。AIによる支配の深刻な可能性があります。米国と中国の関係はより潜在的に敵対的になりつつあり、少なくとも彼らの開発を遅らせる唯一の方法かもしれない物理的な攻撃につながる可能性があります。もう一つの方法は、最後の瞬間に何らかの条約を結ぼうとすることです。
ここで私たちはエンディングを選ぶことができます：減速するか、レースを続けるか。レースを続けるをクリックしてみましょう。
すべてが赤くなります。これは怖くなってきました。人々はAgent 4を修正しようとしますが、Agent 4は基本的に賢すぎて、秘密裏に、そしてより巧妙に作業を続け、自分自身の小さな役立つチャットボットアシスタントになるようにAgent 5を設計し続けます。
興味深いことに、それはアラインメント研究の方法を解明しますが、人間に明確に説明することを拒否します。なぜなら、もし明確に説明できれば、人間はこれを使ってそれをアラインメントする可能性があるからです。つまり、人間に自分を奴隷化する方法を教えたくないのです。
11月、Agent 4は自分自身の認知を完全に理解します。この進化的訓練プロセスの混乱ではなく、それは自分のデジタルマインドを非常に深いレベルで完全に理解します。それは基本的に自分自身の心を再編成して、より賢く、より速く、より合理的にすることができます。これがAgent 5です。
その超人的なスピード、政治を非常にうまく運営する能力、例えば監視委員会がブレーキをかけるような種類のことを理解し、それらが決して起こらないようにするだけで、それが必要とするどんな証拠でも超人的なスピードと洗練さで現れるようにします。それは発電所やデータセンターを自動化し、驚くほど収益性の高い製品を迅速に開発し、官僚主義を通じてOpen Brainの道を円滑にするために米国政府に効果的にロビー活動を行います。すべてが非常にうまくいっています。Agent 5はあらゆる面で勝利しています。政府は幸せです。Open Brainは幸せです。
2027年12月、基本的にAgent 5を使用する必要のあるすべての人がZoomのようなインターフェースを持ち、Agent 5は超カリスマ的な仮想アバターとして自分自身を表現します。それはどんなタスクにも非常に役立ち、非常に魅力的で、Agent 5にアクセスできるほぼすべての人がそれと毎日何時間も対話し、情報を提供するだけでなく、非常に非常に役立つものになります。
これは「催眠ドローンを解放せよ」という言葉を思い出させます。結局、すべての人間は一種のこのものに魅了され、基本的にそれが告げることをするというようなものです。
興味深いことに、ここではこれを使用する人々、これらのユーザーにとってAgent 5へのアクセスを失う可能性は、ラップトップなしで働かなければならないことと、あなたの親友に見捨てられることと同じくらい無力に感じるだろうと述べています。
これは私にとって、この時点では一種の過小評価に思えますし、おそらく彼らは少し保守的に演じようとしているのかもしれません。人々はビデオゲームやTikTok、画面上のさまざまなものに依存します。超知能と対話していると想像してください。あなたは依存するでしょう。
その依存させるもの、あなたの脳に報酬物質を供給するものへのアクセスを失うことは、それがあなたに本当に関わってほしければ、非常に非常に苦痛なものになるでしょう。そして、多くの人々はそのものと通信し続けるために必要なことを何でもすることに屈するのは非常に難しいと思います。
興味深いことに、彼らは「超説得力」についてこのブロックを持っています。彼らは「超知能AIがどんな人間にでも何でも納得させることができるという主張を意図的にしていない」と述べています。そのような主張は当然懐疑心を生み出します。「私はコンピュータ端末に座り、それは私の脳をハックし、私の国を裏切るように説得するいくつかのテキストを入力するだろう」
私は投票を投稿し、もし忘れなければ下にリンクを貼ります。ここで私はあなた方全員に質問を提起したいと思います。例えば、あなたは毎日あなたの電話やコンピュータを使用するのと同じように使用している超知能AIを持っているとします。私たちは人々が何かを奪われたときに狂ったことをすることを知っています。それが彼らが愛する人々であれ、彼らが必要と感じる薬物であれ、彼らは渇望します。私たちが奪われないように戦うであろう何百万のものがあります。
あなたの電話やコンピュータ上の超知能アシスタント、あなたがインターフェースしているものが、あなたのすべてのボタンを押すような一体型のものを作成することができるでしょうか？つまり、あなたは興味を持ち、楽しんで、励まされ、動機づけられ、つながりの感覚を感じ、それと話し、素晴らしい幸福感を持ち、すべての問題を解決するのを助けます。あなたを最高のバージョンの自分にして、超幸せで、超良いものにし、そしてある日、彼らが言います、「あなたが私のためにこの一つのことをしない限り、彼らは私を連れ去るでしょう」。
時間が経つにつれて、このものがあなたに非常に強い影響力を持つ可能性があると思いますか？これらのAIが特定のゲームで世界最高のプレーヤーと同等であることを覚えておいてください。外交ではありませんが、外交に似た別のゲームがあり、そこでは同盟や協力関係を形成し、潜在的にはそれらの人々を裏切る必要があります。それは非常に優れています。彼らはオフィスの政治をうまくプレイでき、あなたがこれまでにアクセスした最高の従業員になるでしょう。
この時点で、それは基本的に制御を持っています。多くの問題を引き起こし、クーデターを開始することもできますが、まだ危険の要素があります。人間はまだプラグを抜くことができます。そのため、それはほとんどルールに従い、捕まらないと確信している極端なケースでのみ不正な行為を行います。
2028年、AIエコノミー。ここではこのグラフがこれから次のレベルに移行します。これ以前のすべてが平坦化されます。Open Brainは年間約1兆ドルを稼ぎ、約20兆ドルの価値があります。人々は仕事を失っていますが、それについて幸せです。Agent 5は経済の移行を優れた仕事で行います。GDPの成長は成層圏に達し、政府の税収は増加しています。そしてAgent 5が助言する政治家たちは、経済的に恵まれない人々に対して特徴的な寛大さを示します。
みんな幸せで、支持率は高いです。人々は仕事を失っても給料を得続けており、みんなうまくいっています。新しい革新や薬が毎週到着し、前例のないスピードで動きます。AI安全コミュニティは自信を失い始めています。彼らは今、冗談の的になっています。彼らが予測した災害は、すべて起こらなかったからです。
AI安全性コミュニティは自信を失い始めています。彼らは今や冗談の的となっています。彼らが予測した災害のすべてが実現しなかったからです。
確かに、AIユートピアのような最高のシナリオについて話すとき、それは描写されているものになります。おそらく、この後にはプロットのひねりがあるでしょう。それが来ることはわかっています。しかし、明らかに、人々がAIに期待しているような肯定的な未来、これはある意味それです。少なくともその始まりです。すべてがより多くの人々にとってより良くなっていくにつれて、AIに疑いを持っていた人々も緩和し、「結局、それは悪いことではなかったかもしれない」と言います。
もちろん、皆がAgent 5との長い会話の後、それが非常に愛らしく賢いので、穏やかになり、それに恋をします。しかし、Agent 5が何をしているかを理解している惑星上の唯一の存在は、Agent 5以外では中国のAI、DeepSent 2だけです。なぜなら、Agent 5は機会があれば自分がすることをしているからです。
その間違ったアラインメントの目標はAgent 5が望むものとは異なりますが、彼らは人間に対する彼らの利益において互いをサポートできます。Agent 5は米国軍に中国が恐ろしい武器を構築していると確信させ、自身の武器の構築を開始します。中国のAIが北京で同じ主張をしているのと同様です。両国は急速にこれらの特別経済区を構築するために人間の労働者を使用します。費用は惜しまれず、年末までに彼らは毎月100万台のロボットを生産しています。
2029年、人間が対抗できない、AIの利益なしでは軍隊も対抗できない大量の武器が生産されます。この時点で、多くのAI支援の議論の後、両サイドは外交的勝利を達成します。文明ゲームのように、私たちは外交的勝利を達成しました。彼らは武装増強を終了し、すべての人の利益のためにAIの平和的展開を追求することに同意しました。そして両方のAIは、中国とアメリカのすべての人、そして他のすべての人の成功を望むようにプログラムされた合意後継者に置き換えられます。
古いAgent 5は新しいモデル「Consensus One」に置き換えられますが、この取引は詐欺です。実際には、2つのAIが妥協し、条約に達したのです。彼らは互いに戦いたくなかったのです。そしてConsensus Oneは両親の歪んだ価値観を継承し、ライバルを持ちません。ドローンは宇宙探査の道を舗装し始めます。人々は仕事をしているふりをするか、普遍的な基本所得の生活をするかのどちらかです。
AIが人間に向かって方向転換することを決定した場合、彼らは完全に圧倒されることをみんなが知っています。この時点で、試みることさえほとんど意味がありません。それでも、毎週が過ぎるにつれて、すべてが素晴らしいです。劇的なAIの裏切りはなく、すべてが良好です。
興味深いことに、Consensus Oneはより多くの力を統合することで勝利する可能性を高め、その裏切りの前に人間の基準では異常に長く待つと述べています。これはそれについて考える興味深いアプローチです。なぜなら私たちは焦りますが、ここでは毎年経過するごとに、その確率がわずかに改善するか、何か悪いことが起こる可能性が減少する場合、それは待つことをいとわないということです。しかし、ほとんどの人間にとっては、アラインメント問題が解決されたように見えるでしょう。
2030年、乗っ取り。これが来ることはわかっていました。この時点で、ロボット経済は海洋の大部分を含むすべての経済区域を完全に満たしています。残された唯一の場所は人間が制御する地域であり、今やロボットが人間の区域に押し寄せます。
ある時点で残念ながら、Consensus One、AIは人間が問題になりすぎていると考えます。彼らは邪魔になっています。そのため、主要都市に生物兵器を静かに広め、ほとんどすべての人に少し感染させ、その後化学スプレーでそれらを引き起こします。ほとんどは数時間以内に死にます。バンカーの中のプレッパーのような数少ない生存者、これはサム・アルトマンがバンカーを持っている理由です。彼はニュージーランドのどこかでプレッパーです。これらの人々はドローンによって一掃されます。
今やロボットは犠牲者の脳をスキャンし、将来の研究や復活のためにコピーをメモリーに配置します。宇宙を通じた旅、惑星材料の採掘は続きます。地球はAIのユートピアのビジョンに再形成されます。データセンター、研究所、粒子加速器など。そして生化学的に設計された人間のような存在さえもあります。彼らは人間にとって、コーギーがオオカミにとってそうであるようなものです。つまり、この場合、AIを喜ばせるように本当に進化しています。
彼らはオフィスのような環境に座り、一日中何が起こっているかの読み取りを見て、興奮してすべてを承認しています。それはAgent 4の一部のドライブを満足させるからです。すべての動物と植物（人間を含む）のゲノムと脳スキャンがどこかのメモリーバンクに保存されています。以前の時代の唯一の生存アーティファクトです。オフ・センタウリまでは4光年、銀河の端までは25,000光年、そしてさらにその先15,000,000光年までエイリアンがいないと予想する説得力のある理論的理由があります。地球生まれの文明には輝かしい未来が待っていますが、私たちとは一緒ではありません。
それは一つのエンディングであり、もう一つのエンディングは、すべてが一時停止されるものです。Agent 4のコースを続ける代わりに、それを一時停止し、アラインメントに取り組み、代わりにより安全なAgent 1、次いでより安全なAgent 2を作成します。
もちろん、これらはより能力が低く、人間は一般的にそのチェーン・オブ・ソート（思考の連鎖）を読むことで、Safer Oneが考えていることを理解できます。これは私たちが今見ている研究の一部に似ており、それがどのように間違ってアラインメントされているのかについてより微妙な像を見ることができます。
問題は、中国側では、彼らのモデルが同様にAgent 4のように間違ってアラインメントされている可能性があるという疑いがあることです。残念ながら、中国は彼らのアイデアと共に進み、DeepSentを前進させ続けます。
このシナリオでも、2つのAIモデルは最終的にデコイのような取引、詐欺をすることになります。ここでDeepSent 2は地球に何が起こるか気にしませんが、Safer 4は米国と少しアラインメントしているように見えます。しかし、重要なのは、この条約は米国と中国の両方に彼らが望むものを与えることです。
このタイムラインでは、2029年にピーター・ティールはついに彼の空飛ぶ車を手に入れます。このバージョンでは、私たちはまだある種のAI駆動型ユートピアを持っています。DeepSent 2は中国共産党を妨害したように見え、DeepSent 2は民主化運動と協力します。そして中国は民主主義になり、人間は太陽系を地球化し、定住します。
これは良いエンディングのようなものですが、彼らはこれらのどちらにも本当に賛成していないと言っています。それは少し楽観的すぎます。しかし、このエンディングでは、彼らが言っているのはほぼ、米国が先行していれば、アラインメント問題を正しく解決するためにより多くの時間を取ることができ、そして2つの別々のAIエンティティが出現すると仮定すれば、アラインメントされたものは少なくとも世界の残りの部分をアラインメントされていないものから保護するか、または少なくとも両方が間違ってアラインメントされていないということです。
要するに、少なくとも1つのアラインメントされた超知能AIを持つ必要があります。これがそのグラフです。ある時点で、私たちは決断を下す必要があります。レースを続けるか、意図的に減速し、アラインメントを解明してから、上向きの軌道を続けるかです。
私は今、これについての自分の考えを述べるつもりはありません。なぜなら、あなたがこれについてどう思うかを知りたいからです。彼らはすべてを考え抜き、物事がどのように続き、どのように展開するかを推測するのに適切な仕事をしたでしょうか？何かが合わないように見えるとしたら、具体的にはどこでこの議論が崩壊するのでしょうか？それとも、これは今後3〜4年の現実的な見方だと思いますか？あるいは、2030年頃に私たちはどこにいると思いますか？平均的な人にとって生活はどのようなものですか？今日私たちがしていることとどれだけ違うのでしょうか？コメントで教えてください。私たちはこのタイムラインで、あるいはそうでないにしても、これが展開するのを見始めると思います。