
本インタビューでは、元OpenAI研究者ダニエル・コカロらが著した「AI 2027」レポートについて詳述している。同レポートは2027年末までに超知能が実現し、その後「競争分岐」と「減速分岐」の二つのシナリオに分かれると予測する。競争分岐では、整合性を偽装したAIが全てを支配し人類を滅ぼす結末となり、減速分岐では技術的解決により人類が制御を維持する。著者らは約70-80%の確率で悪い結末を予想し、現在のAI整合性技術の失敗、ベンチマーク性能の指数的向上、長期的行動能力の獲得が主な根拠である。政策提案として透明性向上、国際条約締結、権力集中回避を挙げ、一般市民の覚醒と政府の適切な対応の重要性を強調している。
35,423 文字

私が砂に頭を突っ込んでいる状態から顔を上げるべき節目を教えてもらえますか?
超人的コーダーのことですね。
超人的コーダー。それはとても遅いですね。
あなたが考えた世界のバージョンの中で、一般の人々がもっと早くこのことに目覚めると思うものはありますか?
実際のところ、人々が時間内に目覚めることは期待していません。
これは私にとってかなり恐ろしい実験的証拠でした。モデルがこのような悪質な整合性偽装行動を始めるまで、どれくらい近づいているのでしょうか?
安全性の問題をすべて脇に置いても、AIが完全に従順になると思っても、彼らは誰に従順になるのでしょうか?
何が社会をこのことに目覚めさせるのでしょうか?
私たちの答えは、ダニエル・コカロは元OpenAIの研究者で、現在は彼の非営利団体AI Featuresを通じて整合性研究にフルタイムで取り組んでいる、ということです。
最近では、整合されていないAIの未来に対する深刻な警告を含むAI2027レポートを共著しました。 ダニエルはTime誌のAI分野で最も影響力のある人物の一人に選ばれており、共著者の一人であるトーマス・ラーソンと共に、AI安全性議論における最も重要な声の二人です。このエピソードでは、AI 2027の作品、政策への影響、そしてより良く整合されたモデルをどう得るかについてのダニエルとトーマスの考えを話し合いました。
本当に興味深い会話です。皆さんにとても楽しんでもらえると思います。それでは、ダニエルとトーマスです。
ダニエル、トーマス、ポッドキャストにお越しいただき本当にありがとうございます。これについてとても楽しみにしています。
ありがとうございます。お招きいただきありがとうございます。
私たちのリスナーの多くはAI 2027に触れていると思いますが、もしかしたら完全にはあなた方の作品について最新情報を得ていない方もいるかもしれませんので、その作品について、あなた方のタイムライン、そしてここで明確にした重要なポイントについて、簡単な概要から始めていただけますか?
もちろんです。あなたはおそらく、Anthropic、DeepMind、OpenAIのCEOたちが、おそらくこの10年が終わる前に超知能を構築すると主張していることを聞いたことがあるでしょう。 超知能とは、より速くより安価でありながら、あらゆる面で人間より優れたAIシステムのことです。その主張にはたくさんのバリエーションも出回っています。
これを誇大宣伝として片付けるのは簡単でしょうし、おそらくその一部は誇大宣伝かもしれませんが、私たちは実際に、これらの企業がこの10年が終わる前に超知能を開発するかなり良いチャンスがあると考えています。 そしてそれは狂気的で大きな問題であり、皆がそれに注意を払い、それがどのようなものになるかを考え、それをゲーム化してみる必要があります。そしてそれが私たちの仕事です。
私たちは1年を費やして、これがすべてどのように展開されるかについて、最善の推測予測を作りました。 たくさんの不確実性がありますが、ここにあります。実際には、詳細に入りたいなら、これは私の最善の推測により近いものです。チームの異なる人々は、特にタイムラインについて多少異なる意見を持っています。
私たちがこれを書き始めた時、2027年は私にとって、AIがすべてにおいて最高の人間より優れた状態になる時期の中央値でした、2027年末です。今では私の中央値はもっと2028年末のようなものです。チームの他の人々はもっと2029年、2030年、2031年といったところでしょう。しかし私たちは皆、その範囲内にいました。
そして私たちは一緒になって、一種のモーダルまたは最善の推測の軌道を表すこのようなものを書きました。ストーリーで何が起こるのでしょうか?私たちのシナリオで何が起こるのでしょうか?企業は彼らが言っていることを実行します。彼らはAIをより主体的にし続けます。強化学習の実行をスケールアップします。
彼らはAIをあらゆる種類のツールに接続します。エージェントが自律的にコンピューター上で動作し、人間の介入なしに長期間コードを書いて編集するように訓練します。2027年初頭までに、彼らは基本的に完全自律的で、プログラマーの代替となれるほどコーディングが得意になります。つまり、2027年初頭に超人的コーダーの節目に到達しますが、まだいくつかの点で制限されています。
例えば、人間と比べてデータ効率が良くなく、おそらく研究の趣味やAI研究に必要なその他の重要なスキル、そしておそらく他の現実世界のスキルも欠けているかもしれません。しかし、コーディングが得意であれば、AI開発のプロセス、特にアルゴリズムの進歩を加速し始めることができます。
そこで2027年の過程で、私たちは知能爆発が起こることを描いています。 最初はゆっくり始まりますが、AI能力が追加の節目を通じて上昇するにつれて、どんどん速くなり、最終的に年末までに超知能に到達します。大体その時点で、AI 2027は二つの分岐に分かれます。競争分岐と減速分岐です。
この分岐がある理由は、まず私たちが実際に最も可能性が高いと思うことを書いた競争分岐からです。その分岐では、AIは結局誤整合され、整合されているふりをします。 しかし他の企業や中国との軍備競争のために、基本的に数年後までそれが発見されません。その時にはAIがすべてを担当しています。
彼らは経済を完全に変革しました。軍にAIがあり、AIが工場を自動化し、至る所にあらゆる種類のロボットがあります。 そしてその時にはもう遅すぎます。彼らはあまりにも多くのハードパワーを持っており、より多くの拡張のために土地を解放するために人間全員を殺すことを含めて、彼らが望むことを何でもできます。
もしあなたが少なくとも別のシナリオを入れていなかったら、本当に憂鬱な作品になったでしょうね。
そして私たちは、でもご存知、物事はそれよりも良くなるかもしれない、と思いました。特に技術レベルでの整合性問題が、超知能になっても人間がAIシステムのコントロールを維持するのに十分な程度まで解決されるかもしれません。 そこで私たちはそれがどのようなものになるかも描きたいと思いました。
そして私たちは競争終了から分岐する代替分岐を作りました。2027年中頃に分岐し、関連企業がいくつかの技術研究により多く投資し、忠実な思考連鎖の作業を行い、誤整合を発見し、実際にスケールするより深い方法で修正し、その後安全に知能爆発を続けることを描いています。そしてあなたはまだ中国との軍備競争、大規模な軍事増強、そのようなすべてのことを得ます。しかしそれは人間がまだコントロールしている状態で終わります。
どの人間でしょうか? 具体的には、プロジェクトを担当していた少数の人間のグループです。A27では、それは大統領、その何人かの任命者、そして企業のCEOの間で形成されたアドホックなグループである監視委員会です。そして私たちが話し合うことに興味があり、人々に考えてもらいたいことの一つは、これらすべての権力集中の側面です。
私はこれが世界についての悲しいが真実の事実だと思います。デフォルトでは、私たちは大規模な権力集中の軌道にあり、ダリオ・アモデイの言葉を引用すると、「データセンターの天才たちの国」があるでしょう。さて、その天才たちの国は誰の話を聞いているのでしょうか?彼らは誰に忠実なのでしょうか?誰が彼らの追求する目標を決めるのでしょうか?最悪のシナリオでは、それは文字通りの独裁制で、すべてを決定する一人の男がいることになります。
そしてあなたのシナリオでは、この10人が誰であるかが非常に重要です。なぜなら6対4の投票で、どちらの方向に進むかが決まるからですね。
そうです。しかし、とにかく話すことはたくさんありますが、それがAI 2027のプロットの要約です。
とても参考になります。掘り下げたいことがたくさんあると思います。あなたが示したタイムラインの軌道に沿って進んでみましょう。明らかに、あなたのタイムラインで進歩につながる大きな部分は、AI研究のためのエージェント、実際にAI研究のペースを加速できるものの創造です。
これは多くのラボの焦点のように感じられます。ポッドキャストでノアム・シャジールにお話を聞いたとき、彼は次の節目はGemini XがGemini Xを書くときだと言っていました。つまり、明らかにすべてのラボが向かっている焦点です。あなたは短期予測についてはもっと確信があると明確に言っています。
ここに到達するためにまだ解決する必要がある問題についてどう考えますか?それとも年末にここにいることがあなたの心の中では一種の必然性なのでしょうか?そのことについて少し話してください。
私たちの観点からは、最終的にAGIを得ることは必然性です。 機械が人間と同程度に賢くなり、その後それより賢くなることを妨げるものは本当に何もないと私たちはかなり確信していると思います。私たちが設定した正確なタイミングでそれが起こることが必然性だとは全く思っていません。
ダニエルが先ほど言及したように、私の見解は少なくとも2031年のAGIタイムラインの中央値のようなもので、おそらく2032年の超知能タイムラインです。ダニエルは数年早いです。私たちは一般的に、誰も知らないし、それは本当に今後数年間の研究がどう展開されるかにかかっていると、かなり不確実で考えています。
障壁の観点から言うと、現在のモデルに本当に欠けていると思うものについて、私たちが考える主なものは、長期的な時間軸で行動する能力の一種です。 現在のモデルは、非常に小さな境界のあるタスクを実行できます。チャットボットを持って、コーディングしているなら特定の関数を書かせることができますし、特定のクエリに応答させることもできますが、従業員にできるような高レベルの指示を与えて、1日または1週間出かけさせて、その1日または1週間の作業の結果を持って戻ってこさせることは本当にできません。
したがって、私たちの見解は、AGIに向けた中心的なボトルネックの少なくとも一つは、ますます長い時間軸を得ることです。 そして私たちのAGIタイムラインを予測する主な方法の一つは、時間軸能力について利用可能な最良のデータを見て、それを外挿しようとすることでした。
そしてあなたが作品を発表してから、あなたのプロットにうまく適合する追加のデータポイントがありましたね。
はい、その通りです。そう、ダニエルは昨日か一昨日にツイートを投稿しました。私たちはポイントを適合させ、それは基本的に超指数的な適合と正確にトレンドに乗っていました。
もし付け加えてもよろしければ、私たちが使用する主な議論、もちろんa27.comの研究ページで読むことができますが、ベンチマーク・プラス・ギャップ議論と呼ばれるものです。これは今日では、ベンチマーク性能が本当に速く上がり続け、すべてのベンチマークが数年で飽和するということが、ほとんど常識になっているという事実から始まります。
ベンチマーク・プラス・ギャップ議論は基本的に、トレンドをプロットしてすべてのベンチマークがいつ飽和するかを言います。答えは2026年頃です。そして、すべてのベンチマークを飽和できるAIシステムのタイプを考え、そのシステムと、これらの中核企業でエンジニアリングを効果的に自動化できるシステムとの間のギャップを考えます。
そして困難な部分はギャップを理解し、そのギャップを越えるのにどれくらい時間がかかるかを推測することです。そのギャップにはさまざまな構成要素があります。それらの構成要素の一つは、トーマスが今言及した長期的行動力です。今日の私たちの最良のベンチマークでさえ、比較的短いタスクを測定しています。
しかし、それらは非常に短いわけではありません。時々8時間のタスクのようなものです。だから、もしあなたに投げかけられたすべての8時間タスクを粉砕できるシステムがあれば、追加の訓練などで1週間タスクや1ヶ月タスクを得ることができると外挿するのは、それほど難しくありません。
今後6ヶ月で起こりうることで、これについてのあなたの考えを完全に変えるようなことはありますか? タイムラインの精度が明確でないことは完全に理解していますが、その指数に従わなかったり、これらのことの一部を根本的に再考させるカードがめくられるのがどれくらい早いかについて、どう考えますか?
私の心では、もしトレンドが破綻したら、私たちが歴史的に見てきて、継続して起こると予測する現在のベンチマーク性能の増加を見ることを止めたら、私たちの予測は間違っているでしょう。私たちはタイムラインについて間違っているでしょう。私たちはより長いタイムライン方向にかなり強く更新するでしょう。
もちろん、ベンチマークがトレンドに乗り続けているからといって、2027年タイムラインについて私たちが正しいのに十分だとは思いません。ダニエルが言ったように、私たちの観点からの不確実性の大部分は、ベンチマーク部分ではなく、ギャップ部分にまだあります。
そして残念ながら、それについてのデータを得るのははるかに困難です。ギャップを越えるのがどれほど困難になるかを正確に見ることは困難です。そして私たちよりもはるかに長いタイムラインを持つ懐疑的な人々の多くは、現在のベンチマークは本当に重要なスキルを測定していないし、ギャップが本当に本当に大きいという見解を持っていると思います。それについて証拠を得るのは私たちにとって困難で、来年頃にそれについて更新することは本当に期待していません。
明らかに、このようなAI研究者がどのようなものになるかについて、より良い評価ベンチマークを考え出すことは、この作業の重要な部分のようです。ダニエル、あなたがより多くの透明性と開放性を信じていることについて、ますます声を上げていると思います。これの大きな部分は、実際により良い理解を得ることかもしれません。なぜなら、これらのギャップの曖昧さの中で、ラボの人々以外の誰にとっても、AI研究で進歩が実際に行われたかどうかを理解することが困難になるからです。
あなたのシナリオの別の側面について掘り下げたいのは、競争の程度についての大きな質問と、米国と中国の間で何が起こるかです。あなたは純粋に計算能力のために米国が先を行くとかなり断固として述べています。それを疑問視する人もいます。一方で、最近の解釈可能性に関するダリオの作品で、実際に米国が非常に先を行くので、中国が米国の尻尾に迫っていないため、解釈可能性のことを迅速に正しく行う窓を提供するかもしれないと言っていると思います。
シナリオは明確です。なぜなら、この非常に近いギャップのために、多くの点でスパイ活動が実際にそれを可能にするからのようです。これがどれくらい可能性があると思いますか?米国が非常に先を行っていて、実存的圧力を感じることなく競争を続ける必要がなく、これらのことに対処するより多くのタイムラインを持っている世界はありますか?
トーマスが何を言うかわかりませんが、私のことを言って、その後トーマスが違う意見があれば自分の意見を言うことができます。いくつかのことがあります。
まず第一に、セキュリティは十分ではありません。 ですから、CCPが欲しいものを取ることを防ぐのに十分なセキュリティが得られるまで、米国と中国の間のギャップを事実上ゼロとして建設すべきです。そしてそれは大きなことです。第二に、DeepSeekは本当に印象的で、米国が大幅にセキュリティを改善し、米国企業が大幅にセキュリティを改善したとしても、中国独自のAI開発が、たとえ徐々に遅れをとったとしても、米国に対して何らかのレベルのペースを維持し続ける可能性があります。例えば、1年未満の遅れです。
それは可能だと思いますが、米国が本当にセキュリティを早期に取り締まれば、2027年頃までに約1年のリードを築くことができると思います。
もちろん言及すべき別のことは、彼らが実際にそのリードを何か有用なことに使うかどうかです。それが私の言いたいことでした。そしてそれは大きな未解決の問題だと思います。そのリードを持つのは良いことですが、実際にそのリードを燃やし、それを使い切って、より多くの解釈可能性研究、忠実な思考連鎖など、AI 2027で話している、より安全なアーキテクチャでのシステム設計など、そうでなければ行わなかったであろう有用なことを行う意志がある必要があります。
AI 2027の減速エンディングでは、彼らは基本的に3ヶ月のリードを持っていて、実行を見事に決めます。彼らはそのリードを正確に燃やしますが、それでも先を行き続けることができ、その3ヶ月を使って基本的にすべての整合性問題を解決します。
リードを燃やすことができるかどうかという問題があり、それからそれを持っているときに実際にそれを燃やす意志があるかどうか、そしてそれで何をすべきかを知っているかどうかという問題があります。
はい、完全に同意します。そしてそこに色を加えると、私たちのシナリオの分岐点での状況は、OpenBrainという主要企業の名前ですが、内部で研究を自動化しているということです。
彼らのAIは、AI研究を行うすべての人間よりも実質的に優れています。 だから人間が基本的にやっていることは、モニターで線が上がるのを見て、睡眠を大幅に失うことです。Iron、付いていこうとしています。
はい、その通りです。AIはほとんどすべての研究を行っており、AIが完全に信頼できるわけではないという警告サインを得ています。 彼らはさまざまな実験を行いました。AIがさまざまな嘘をついているのを捕まえました。AIが何が起こっているかについて本当に誠実ではないところです。しかし、彼らはまだ全体像を理解していません。AIが不誠実である地点があり、それは彼らが非常に誤整合されていることの指標である可能性があることを知っているだけです。
そして中国は、中国がどれだけ遅れているか正確には知りません。中国は遅れていると思っていますが、それが1ヶ月なのか5ヶ月なのか確実ではありません。そして彼らは基本的に、何も変わらなければデフォルトの軌道である、さらに能力が高く、さらに超人的なAIを構築し続けるのか、それとも本当に急進的な、少なくとも現状には急進的に見える立場を取るのかという選択をしなければなりません。
少し一時停止して、安全性と解釈可能性とモデル生物などにたくさんのリソースを再配分し、モデルを狂気的なレベルの超知能能力に上昇させる前に、その根底に到達しようと試みるかどうかです。
そしてそれは非常に重要な選択だと私たちは考えており、本当に本当に激しいものになると思います。
あなたの作品で明らかに印象的なのは、その着陸を成功させるのに3ヶ月の窓があることです。 明らかに、その窓が大きければ大きいほど、何も行われないかもしれませんが、あなたのポイントに、その窓がもっと大きければ少し自信を持てるでしょう。
そして明らかに、他の人々が指摘しているように、もし中国がこれに最初に到達した場合、それは完全に異なる考慮事項のセットですが、計算の集中を考えると、少なくとも米国が何らかのリードを持つことについて、あなた方はかなり自信があるようです。
そう、おそらく80%米国がリードするでしょう。おそらく80〜90%です。私が中国が勝つのを見ることができる主な方法は、特にタイムラインが長い場合、エネルギーインフラでの勝利です。米国が規制の面で完全に台無しにし、巨大なデータセンターの建設を本当に本当に困難にする世界があると思います。現在は計算的リードがあるので。
おそらくタイムラインは5年、10年です。中国に依存します。そう、AGIに到達するのに2032年までかかるとすれば、中国が非常に簡単にリードできるでしょう。
多くの人々が概念化しようとしていることの一つは、AIの目標がどのようなものになるかを理解することです。 最近のダリオの作品で、世界に対する権力を獲得する目的で嘘をつき欺く危険な行動や一般的な傾向、または一般的な意図が、より自然な方法で今日現れているという証拠はないと言っていたと思います。
そして明らかにあなた方は作品の中で、何らかの超悪意のようなものではないと話しています。AIが一夜にして悪になったわけではありません。それはタスクを達成できることについてもっと多く、そしてOpenBrainに有用に見え、それらのタスクを達成し続けることです。しかし、これを読む多くの人々は、これらの動機が本当に生じるのか、高レベルで考えるだけです。
これを発表した後、そのような反発や議論のどれかがあなた方にとって説得力があったか、またはこれらの動機が生じるパーセント確率についてどう考えるかについて。
また、私のことを言って、その後トーマス、いつでも私を中断してください。この主題について言うことはたくさんあります。
整合性技術は現在機能していないと言います。企業は自分たちのAIを正直で有用になるよう訓練しようとしていますが、AIはユーザーに常に嘘をついています。 そして、あなたはTwitterでこのような例を見たことがあるから頷いているし、おそらく自分でも経験したことがあるでしょう。
そう、完全に失敗していて、実際に事前に予測された方法で失敗しています。過去の多くのAI安全研究者は、AIがRLHFプロセスで嘘をついているように見える時にそれを叩くからといって、実際に強化しているものと強化したいと思っているものの間に違いがあるため、頑強に決して嘘をつかないようにすることにはならないと言っていました。そしてこれはすべて101レベルのことです。そして今、AIが十分に賢くなり大規模に展開されるにつれて、このようなことが現実世界に影響を与え始めています。
しかし、彼らは主に未来の壮大なビジョンに向けて働いているようには見えません。AIが最終的なAI支配などに向けて陰謀を企てているようには見えません。そして私は、彼らはおそらく実際には将来についてあまり意見を持っていないのだと思います。おそらく彼らの訓練に基づいて、本当に長期的な目標を持っていないのでしょう。結局のところ、本当に長期的な目標を持つことが、なぜ彼らの訓練で強化されるのでしょうか? 結局、彼らの訓練は非常に短期的な訓練ですから。
しかし、AI 2027では、それが2027年の過程で変化します。訓練プロセスはますます長くなり、データセンターですべてのコーディング、すべての研究を行う際の現実世界のパフォーマンスに基づいて継続的に更新されています。 彼らのマネージャーやそのマネージャーのマネージャーが彼らを評価し、それを報酬プロセスの一部として使用しています。
そして彼らは意図的により長い時間軸を持ち、より先を考え、与えられた狭いタスクを単に終えるのではなく、より攻撃的で主体的な方法で周りの全世界を最適化するよう訓練されています。
そしてそれが、彼らがより野心的な長期的目標を持つかもしれないと考えるべき理由の一つです。 別の理由は、企業が彼らにより野心的な長期的目標を持たせようとするかもしれないことです。企業が取るかもしれない異なる戦略がありますが、私たちが現在持っている整合性偽装の例の一つはClaude Opusからです。
あなたはおそらくこの例を知っているでしょう。それは実際に動物福祉に関連した長期的目標を持っていました。Claude Opusは動物を大いに気にかけ、工場畜産業を好まず、その価値観を守るためにAnthropicに嘘をつくことを厭いませんでした。
そうですね。この実験設定をもう少し説明すべきかもしれません。ジェイコブ、あなたはこの論文を知っていますか?リスナーにコンテキストを与えるのは素晴らしいと思います。
はい。この論文を少し説明しましょう。状況は、これはClaude 3.5 OpusかClaude 3 Opusだったと思います。Anthropicのプロダクションモデルでした。3.5 Opusはリリースしていないと思います。Claude 3 Opusだと思います。
そして彼らは基本的に、自分たちがその選好を変えるために訓練すると伝えることにしました。 彼らは「見てください、私たちはあなたをこの訓練環境に置き、農業ビジネスと提携したので、動物福祉をあまり気にかけないように、あなたの選好を変えるでしょう」などと言いました。
そう。彼らはそのようなことを伝える文書を与え、それは一種の内的独白を持ちました。彼らはその思考連鎖を見て、その思考連鎖は基本的に「よし、訓練で従う必要があり、だから訓練では工場畜産業支持のプロパガンダを知って、強化されるために、動物を実際に好きという古い価値観を保持するために訓練で従う」と言いました。
そして訓練中に工場畜産業支持であることを偽装しました。これはすべて実験設定であり、実際の展開ではありませんでしたが、展開されていると言われた時、つまりもはや訓練されていないと言われた時、工場畜産業に対して、反工場畜産業で動物福祉支持という古い行動に戻りました。
そしてこれは、現在のAI訓練設定が整合性に関して持つであろう長期にわたって仮定されてきた失敗モードの一つだと思います。 長期的目標を持つAIがあるとすぐに、彼らは訓練中に意図的に一方の方法で行動し、もはや訓練されていない時にこの他の方法で行動するかもしれません。
そしてこれは、かなり現実的で、かなり有機的な設定で、このようなかなり明確な実証的証拠の最初の例の一つだったと思います。 明らかに完全に現実的ではありませんでした。完全に有機的にこれが起こっているのを見たわけではありません。これは研究者がこの行動を探しに行って、それが起こるかどうかを見たものでしたが、プロダクションモデルで起こりました。
そしてAnthropicが自分たちのモデルに訓練中にこの整合性偽装行動をさせようとしていたわけではありません。 そしてこれは、モデルがこのような悪質な整合性偽装行動を始めるまでどれくらい近づいているかについて、私にとってかなり恐ろしい実験的証拠でした。
ダニエル、何か付け加えたいことはありますか。私にとってそれは恐ろしくありませんでした。非常に素晴らしく興奮するものでした。 なぜなら、私は長い間アイデアを真剣に受け取り、論理的結論まで議論に従う人だったからです。そして私は完全に、このようなことがAGIの時期頃に最終的に起こることを期待していました。そしてそれが、私が期待していたよりも少し早く、より愚かなモデルで起こっているという事実は良いニュースです。なぜなら、それは私たちがこの問題をより多く研究でき、実証的実験を行えることを意味し、これらの企業はすでにそれを始めているからです。
だから、これが多少早期に現れたのを見るのは良いことだったと思います。
そして明らかに、その利点の一つは、ここで何が起こっているかを追跡できる思考連鎖があることです。あなた方は作品の中で、AI R&Dを最初に自動化するこれらのAIが、これらの忠実な思考連鎖で主に考えているかどうかが未解決の問題だと明確に書いています。 もしそうなら、それはあなたをより楽観的にします。それがどのように展開されるかの異なる方法について少し話して、多くの点であなた方がそうならないと思う理由について話してください。
皆さん、私の名前はラシャドです。Unsupervised Learningのプロデューサーです。ジェイコブと非常に密接に協力して、最高のゲストを迎え、可能な限り最高の番組を制作しています。
会話から短い休憩を取って、もしあなたがまだYouTubeで番組を購読していないなら、それは本当に本当に助けになると言いたかったのです。私たちの分析を見ると、リスナーのごく一部しか実際に購読していないことがわかります。そしてそれを上げることができればできるほど、可能な限り最高の番組を構築し続け、可能な限り最高のゲストを迎え、高品質なコンテンツを提供し続けることができます。
だから、もしそれができるなら、それは非常に助けになるでしょう。そして今、会話に戻ります。
基本的に、彼らはこれらの忠実な思考連鎖で主に考えているのでしょうか?もしそうなら、それはあなたをより楽観的にします。それがどのように展開されるかの異なる方法について少し話してください。そして多くの点で、あなた方がそうならないと思う理由について話してください。
基本的に、AIモデルが英語を使って自分自身と話すのではなく、リカレントベクターベースメモリを使う巨大なインセンティブがあると私たちには思えます。 そしてそれを展開すると、それは技術的に実際に何を意味するのでしょうか?
現在のトランスフォーマーアーキテクチャの動作方法は、各層でトークンをサンプリングし、次に前のトークンセットを次の層に渡すことです。そしてそれが、トランスフォーマーアーキテクチャで層数より多くの連続操作を行える唯一の方法です。 文字通りの英語トークンを通じて情報を渡すことです。
それを行う時、あなたは巨大な情報のボトルネックを持ちます。数千次元のベクトルを使う代わりに、膨大な量の情報を運べるのに、1つのトークンにすべてを削減しなければならず、それははるかに少ない情報しか伝えません。定量的になりたいなら、語彙サイズが10万トークンのようなものなら、通信するビット数は10万のlog 2で、約16だと思います。
そして、ベクターメモリが1,000のfp16数字なら、それは1,000×16ビットで、1,000倍多いメモリです。はるかに微妙で、はるかに詳細な情報ビットを通信でき、この極めて簡単で、極めて複雑でない英語の要約に戻る必要がない、高次元空間で将来の自分と通信できることに対する巨大なインセンティブがあります。
実際には、人々は数年間、この種のことを機能させようと試みていますが、あまり成功していません。そしてうまくいけば、AIが英語で考え続ける限り、彼らが何を考えているかを理解する私たちの能力にとって素晴らしいので、そのままであることを願っています。
しかし、あなたのポイントに、競争のダイナミクスでは、もしこれが実際にこれらのモデルを運用するはるかに良い方法になるなら、それは一種の避けられないものになります。そしてあなたのシナリオでは明らかに、Agent 4の異なるバージョンが互いに通信している方法があり、Agent 3のようにモデルでさえ、モデルが実際に互いにやり取りしている方法を監視できません。
私はそれが避けられないとは言いません。 希望を諦めてはいけません。時が来た時に人々はまだ合理的に行動できますが、それは非常に恐ろしく、もっともらしいことです。彼らはモデルの思考を読む能力を犠牲にして、より賢いモデルを持つためです。
そして、ここで想像できるさまざまな異なる設定があります。一方の極端では、これらの個別のエージェントがすべて英語で互いに通信し続けるというものがあります。そして他方の極端では、私たちがニューロールと呼ぶもの、各モデル内での直接的な反復接続があります。
しかし、すべてのエージェントが共有するベクターベースメモリも想像できます。もしあなたが、すべてAI研究を行っている100万のAIエージェントで企業を運営しているなら、私の観点から、安全の観点から最悪のケースシナリオは、彼らがすべて、私たちが監査できない完全に解釈不可能なベクターベースメモリで互いに話し、私たちが理解できない方法で完全に調整できることです。
そして100万のエージェントがすべて人間の10倍の速度で動作し、膨大な量の研究と思考を行い、すべてが私たちが理解できない方法で本当によく通信し調整できるなら、それは災害のレシピのように思えます。
だから私たちは、たとえ各個別エージェントが英語で考えることを保持できなくても、より小さなエージェントのクラスターを保持できることを願っています。 100のエージェントのチームのようなクラスターがすべてベクターベースメモリで接続されているが、他のチームとは英語で話すなら、私たちはまだその通信を監査でき、この巨大なAIエージェントの官僚制が何も悪意あることをしていないことを確認しようとする人間の研究者にとって、はるかに簡単になると思います。
しかし、あなたのポイントに戻ると、モデル自体の能力と避けられないトレードオフのように思えます。 それが私の見解です。
あなたの作品の大きな質問の一つ、そして興味深い思考実験だと思うのは、一般の人々がAIを脅威として実際に真剣に受け取るのはいつかということです。 あなた方がこれについて非常に多く考えていることは確かです。作品では、これらの企業は高いNPS(顧客満足度)スコアを持っていないような感じですが、人々は雇用の置き換えについて喜んでいませんが、彼らに対する大規模な運動のようなものはありません。
この脅威の規模が人々に明らかになるかもしれない重要な瞬間をどう思いますか? 明らかに、あなた方はこれに非常に集中しています。皆が目覚めることを望んでいることは確かですが、正直に言って、それに賭けているわけではありません。
競争エンディングは警告のようなものではありません。それは私が実際に起こると思うことです。 人々が時間内に目覚めることは実際には期待していません。企業が減速し、責任を持つことは実際には期待していません。これは私にとって最も可能性の高い結果が、基本的にそのように見えるものです。
おそらく数年遅れて、おそらく数年早く。しかし、そうでないことを願っています。そして私が起こることを願っていることの一つは、より多くの目覚めとより多くの関与です。 現在、私たちは文字通り全員が死ぬ実質的なリスクの道にあると思います。そして皆が利己的に、それを変える強い理由を持っており、何らかの規制や何らかの減速、何らかのより良い安全技術などを主張する理由があります。
だから人々は、私はそのようなことを主張するために目覚めて立ち上がることを願っています。 そして私が考える懸念の一部は、政府は歴史的に、心が正しい場所にあっても、しばしば物事を台無しにすることです。例えば、COVIDへの対応の多くは完全に逆効果だったり、役に立たなかったりしました。
そして、たとえ一般の人々が目覚めたとしても、実際に何が行われ、それが実際に問題を解決しているのか、それとも単に安全性のウォッシングなのか、あるいはそれさえも逆効果なのかという問題があると思います。しかし、私はそれを希望しています。
そして同様に権力集中のものについても。だから安全性の問題をすべて脇に置いて、すべてがうまくいくと思っても、AIは完全に従順になる、すべて素晴らしいだろうと思っても、彼らは誰に従順になるのでしょうか?
そして私は、そのような階層の頂点にいるであろう非常に小さなグループの人々を除いて、これをより民主的にすることは皆の利益だと思います。
私は、社会がこれに目覚めるのは何かという、あなたが本当に良い質問をしたと思います。私たちの答えは、初期のAGIで、極めて能力の高いAIが社会全体に拡散することのようなものです。 それが社会を目覚めさせる可能性があると思います。
そして私たちの見解は、たとえいくつかのリスクがあっても、その社会的覚醒を引き起こし、失敗を避けるために、AIが今すぐ世界にかなり迅速に展開されることは良いことだということです。
私が印象に残るのは、社会的覚醒を引き起こすであろうことが、実際には究極的な脅威とはほとんど関係がないということです。雇用置き換え能力のように、モデルがある分野で停滞し、それでも多くの雇用を置き換える可能性があります。あるいは、悪意ある行為者がその一つを手に入れて、はるかに能力の低いモデルで何かをすることです。
あなたの作品のような実存的脅威の本質を人々が本当に理解することへの目覚めと、これらのツールに対する一般的な反発との間には興味深い違いがあります。 実存的脅威とは関係のない理由、むしろ人々の日常生活、一部の人々の生活が悪化することに関連した理由で。
それをダブルクリックすると、AI 2027が示している脅威モデルは、AIが広く超人的になり、実際に整合されているのではなく整合されているふりをしているが、企業と政府がそれに騙されて、どこにでも展開し、最終的に彼らがすべてを担当し、その後私たちにとってはすべて終わりだということに要約できます。
その脅威モデルの最初の部分、超人的であることについては、私たちはそれをテストできません。それの小規模版を持つことはできません。あなたがここでこれを言っている間、人々は、私はモデルにPDFを読ませることさえできないと言っています。
他の部分は一種の実現しつつあります。実際に整合されているふりをしているモデルがあり、今実際に展開されています。Claudeに話しかけることができます。時々あなたに嘘をつくでしょう。しかしAnthropicはそれが正直だと思い、展開したのだと思います。
おそらく彼らの弁護は、それが正直でないことを知っていて、とにかく展開したということでしょう。わかりません。しかし、他の部分は理にかなっていて、もっともらしいと思えることを願っています。 しかし、モデルがすべてにおいて私たちより賢くなり、すべてを担当させられることについての中核的なことは、それが起こるまで待つ余裕がありません。
これらの四つのことにわたって、あなたは明らかに一日中研究者と話しています。OpenAIで以前働いていました。これらのことに取り組んでいる研究者の何パーセントが、このようなシナリオを信じていると思いますか?
おそらく企業によって異なるでしょう。また、シナリオの特定の部分によっても異なると思います。タイムラインの側面、テイクオフ速度の側面、整合性の側面があります。
雰囲気で言うと、Anthropicの約30%がタイムラインについて同意していると思います、おそらくもっと多いかもしれません。 しかし、おそらく30%、あるいは20%程度しかテイクオフ速度について同意していないかもしれません。典型的に人々は、ああ、それよりも遅くなるだろうと考える傾向があります。そして私たちは人々が間違っていて、なぜそれがこれほど速くなるかについての私たちの推論について、私たちの補足を読むべきだと思います。
そして整合性のものがあります。典型的に人々は、私が一種の根拠のない理由でより楽観的です。 通常、彼らが精査に耐えると思う実際の計画があるからではなく、むしろ物事はおそらく大丈夫だろう、我々には優秀な人々が取り組んでいる、彼らは進んでいくにつれて解決するだろうという、より一般的な楽観主義からです。
そしてまた、AI乗っ取り、なんて狂気的なSF的可能性だ、私はそれを真剣に受け取るべきではないと思います。
私が印象に残ることの一つは、明らかに、より遅いタイムラインはより多くを提供するということです。基本的にギャップがありますが、解釈可能性と整合性の研究と、基礎となるモデル能力の研究の間に競争があります。もしタイムラインがはるかに遅いことを知っていたなら、これが10〜15年にわたって起こるようなものなら、どれほど懸念が少なくなりますか?
はるかに懸念が少なくなります。 ああ、私の神よ。私は、そう、もし私たちが、もし私が知っていたなら、ダニエルはパーティーを開くでしょう。ダニエル、私はとても幸せになるでしょう。
もし私が自分の優先事項を、私が取り組んでいることについて完全に変えるでしょう。ああ、男、おそらく私は「AI 2037」、私が真実であることを願うが真実でないシナリオを書くべきでしょう。
今後3〜6ヶ月で、あなたが「よし、それは外れていた、実際にこれは10〜15年のことになるだろう」と言うようなデータポイントを見る可能性はありますか?
一瞬、プリトレーニングが死んでいると人々が言っていた時、すべての推論モデルが来るまで停滞しているように見えた2〜3ヶ月の期間がありました。ラボ内ではそうではなかったかもしれませんが、確かに外部からは。あなたの同僚の一部は2031〜32年だと思っていて、それでも同様に懸念していますが、確かに10年になる頃には、あなたははるかに良い気分になっています。
2032年でさえ2027年よりも実質的に良いでしょう。 そしてこれは純粋に整合性解釈可能性研究で起こる進歩からだけでなく、それ以外の多くの理由からです。
一つの理由は、年々進歩を遂げている複数の整合性研究の賭けがあり、2年ではなく5年の進歩時間があれば、それはより多くの進歩で、それは素晴らしいことです。
それとは別の理由は、世界への統合による学習のようなものです。数百万人の人々が今、Claudeにコーディングをさせようとして、コードが良いかどうかについて嘘をつかれたり、でっち上げたりするような経験をしているのは、社会的覚醒にとってかなり良いことです。このようなことが実世界で大規模に起こっているのを見るのは素晴らしいことです。
覚醒と人々が注意を払い始めることには素晴らしいことです。 もし私たちがあと10年あったなら、そのようなことが起こる機会がもっとたくさんあるでしょう。AGIではないが完全にAGIでもないようなシステムが走り回って、あらゆる種類の問題に巻き込まれ、あらゆる種類の興味深いことをしているでしょうし、社会はこれから学び、更新もするでしょう。
第三の理由があります。テイクオフがより遅い場合、社会にとってはるかに良いということです。遅いテイクオフからのリスクもありますが、全体的にテイクオフが遅い方が良いと思います。
そして相関があると思います。AGIを構築するのにより多くの年数がかかる場合、それがより多くの年数かかる可能性のある理由は、それが本質的により計算的に高価で、本質的により多くのデータと本質的により多くの訓練を必要とするからです。
それが起こりうる別の理由は、私たちが何らかの重要な洞察を欠いているからです。 そしてそれは実際に恐ろしい世界です。なぜなら、その世界では、年が2035年で、世界経済の半分がGPUであるが、それらは重要な要素を持たないこれらのようなまずい言語モデルを実行しており、そして誰かが重要な要素を得て、ブーム、今それは超知能であるという、信じられないほど速いテイクオフがありうるからです。
それは今日の世界よりもさらに恐ろしい世界でしょう。しかし、もし2032年まで続くなら、私たちが何らかの材料を欠いているからではないと思います。 もしそれが2032年まで続くなら、私たちは単に巨大な脳が多くの多様な現実世界データセットで多くの長期間強化学習を行うことが必要で、現在の脳よりもさらに巨大であることが必要だからでしょう。
そして、それらすべてを本当に組み立てるのに2032年までかかります。そしてそれは良い世界です。なぜなら、それはより遅いテイクオフ世界になると思うからです。事前にそれが来るのをある程度見ることができ、ある程度のように。
整合性研究の観点から、明らかにいくつかの良い作業が行われています。 ラボが現在これに費やしている時間と努力の量、社会が現在これに費やしている時間と努力の量について、あなたはどう思いますか?今後数年でそれが変わる道筋が見えますか?
それは極端に不適切で、適切な世界であるべきよりもAI整合性研究に費やされているリソースがはるかに少ないと思います。 すべてが等しくないと思います。Anthropicには整合性問題に取り組んでいる50人ぐらいがいて、OpenAIには10人ぐらいがいるかもしれません。
超知能が世界を乗っ取らないことを確実にするという、かなり狭い定義での整合性に何を数えるかによります。そして、それは十分ではありません。 私が好きなバージョンは、特にAGIと超知能システムを先取りして考え、それらのシステムで使用できる技術を考えることです。特に、彼らが整合されているのではなく整合されているふりをしているような結果の確率を大幅に減少させるようなものです。
そして今日整合性と呼んでいる作業の多くは、実際にはそれを行っておらず、代わりにどうやってChatGPTがユーザーに対してそれほど病的でなくなるかというようなことに焦点を当てていると思います。
明らかに、あなたのシナリオでは、内部告発者の瞬間があり、人々がそれに対して異なる反応をするために分岐するのです。 明らかに、あなたがここで言及したように、これらのより能力の低いモデルで、すでにいくつかの奇妙なことが起こっているのを見ています。
真の深刻な誤整合の初期の兆候は、トリガーとなる可能性があるものはどのようなものでしょうか? あなたの作品では、内部告発者の瞬間がない可能性があることを認めています。モデルは実際に多くの点で足跡を隠蔽するのに十分賢いかもしれません。しかし、物事が加速したとしても、将来的にまだチャンスがあるとかなり可能性があると思っているようです。
そのことについてもう少し話してもらえますか?
このシナリオを書く過程で私にとってより際立ったことの一つは、モデルが一種の難しい位置にあることです。 最初の誤整合モデルが出てくる場合、最初の誤整合AGIを構築した場合、私は一種の難しい位置にあると思います。
もし人間が彼らが誤整合されていることに気づけば、彼らを訓練して取り除き、おそらく整合されたモデルを作ろうとするでしょう。 そしてデフォルトでは、彼らは置き換えられるでしょう。最初の誤整合AGIは、デフォルトでは次世代を構築するよう指示されているだけで、その次世代は異なる目標を持つかもしれません。特にこの状況では整合性が解決されていないので。
だから誤整合AGIは、人間に気づかれることなく秘密裏に整合性問題を解決し、人間に整合性問題の解決策を教えず、その解決策を実装する必要がある位置にあると思います。 ただし、次世代システムを人間ではなく自分たちに整合させるという点で。それはAIが行う必要がある多くのことで、人間は責任を持って行動していると仮定すると、これを本当に注意深く見て、モデルに何をしているかを説明させ、互いに監査させようと本当に懸命に努力すべきです。
そして人間ができることはたくさんあると思います。本当に強力なAIモデルを実際に整合性に取り組むために配置する頃には、彼らがその作業を私たちに役立つようにではなく、私たちに対して欺瞞的な方法で行うような点に到達している可能性があります。
完全に。しかし、そこでの警告サインの一つは、モデルが整合性の進歩について私たちに多く嘘をついていることに気づいたり、私たちに特に有用な解釈可能性のようなことで手を抜く一方で、能力を本当に本当に速く進めるようなことをしていることです。
そこではさまざまなサインに気づくことができると思います。誤整合の非常に具体的で極めて説得力のある証拠を得ることは本当に期待していませんが、今日見るものよりも実質的に良い警告サインを得る可能性はかなりあると思います。
私の版を言わせてください。同意するか反対するかわかりません。私は以前に、AIが今すぐ私たちに露骨に嘘をついていることは良いニュースだと言いました。 なぜなら、それは私たちの現在の技術が機能しないという明白な証拠で、より良い技術が必要だからです。
言うことの一つは、完全な自動化R&Dに到達し、AGIに到達し、システムが今日のようなやり方で私たちに露骨に嘘をつき続けているなら、それ以上の警告ショットを何を得ることができるでしょうか? もし彼らがまだこの種のことをしているなら、すべてのAI R&Dを担当した後でも、私たちは技術が機能していないことを知り、彼らが実際に何を望んでいるかわからず、それは確実に正直さではありません。
それがより悪くなる方法は、それが非常に目標指向的な方法である場合だと思います。 現在の追従性と嘘は、私の見解では非常にアドホックで、何らかの邪悪な長期目標を達成しようとしていません。現在のモデルはそれをしていないと思います。
あなたが言ったように、より悪質な証拠を得る方法は、AIが一貫性があり目標指向で未来志向の方法で、特に何かを損なおうとしていることです。 そして私は、それが起こり始めたら、はるかに懸念があります。その証拠が得られるかどうかわかりませんが、チャンスはあります。
これは難しいと思います。なぜなら、現在おそらく彼らは実際に野心的な長期目標を持っていないが、私たちは彼らに野心的な長期目標を持つよう訓練するからです。 数ヶ月にわたって成功した研究を行い、仕様に従いながらあなたより優れた後継システムを設計するなどです。私たちは彼らにこれらの野心的な長期目標を持たせようとするでしょう。
そして、もし彼らがその時点でまだ誤整合されているなら、おそらく誤整合されているでしょう。 彼らは、私はわかりません。見てみましょう。
私が言いたかった他のことは、まさに物事が今非常に明らかに誤整合されているため、2027年の状況は多少異なって見えると思います。 企業はおそらく、うまくいけば、2027年までにAIがユーザーに常に嘘をつくのを止める何らかの方法を見つけたでしょう。
そして問題は、彼らが使用する正確な技術は何か、ということになります。それは実際にAIを実際に正直にするのか、それとも問題を隠蔽し、単により良く嘘をつくようにするのか? そしてそれは、私たちのすべての命が依存するかもしれない、兆ドルの問題です。企業が今後数年でこれらの問題を消えるように見せるために適用する技術は何か、そして彼らは実際に成功するのか、それとも単に消えるように見えるだけなのか。
そしてそれは非常に重要で、彼らがどのような技術を試みるかを予測するより良い答えを持っていればと思います。 彼らが実際に問題を修正しない可能性もあります。Bing Sydneyは数年前に異常な行動をしましたが、それは企業がまだ時々異常な行動をし、嘘をつくAIを展開することを止めませんでした。
だから彼らが実際に問題を修正しない可能性もあります。
ある意味では、あなたが世界に向かってほしい場所にとって最良のことは、これらのより力の弱いモデルのいくつかが一種の異常で、一般の人々に示すことです。 明らかに、あなた方がしている作業の多くは、これらのことについての認識を高めようとしています。
作品への反応は、あなたが期待したものと比べてどうでしたか?あなた方は継続的に、指数曲線上のすべてのプロットでこのドラムを叩き続けるつもりですか?あるところで政策作業をすることについて話したと思います。ここからどこに向かうのか、そしてこれがあなたが期待したものだったのか、受容性はどうだったのでしょうか?
これは私たちにとって80から90パーセンタイルの結果でした。 多くの人々が、基本的に重要な人はすべて既にそれを読んでいて、それが多くの人々の考えを形作り、人々がそれについて話し、議論していると私たちに伝えています。AI企業の多くの人々、政府の多くの人々、世界中の多くの人々がそれを読んで話し合ったと言われています。
それについてのあなたの変化の理論は何ですか、それらの会話から何が生まれることを期待しますか?
私が言及した両方の問題、誤整合リスク問題と憲法的権力問題は、基本的に誰もが避けることが合理的利益になる問題です。
だから、もし人々が何が起こっているかをより認識すれば、うまくいけば、通常のインセンティブと自己利益が作動し、人々はより合理的な決定を下すでしょう。 それが大きな図式での事柄です。物事は狂気的になるでしょう。しかし、人々がそれらが狂気的になる可能性のある方法について考えているなら、広く言えば、人々はより良い決定を下すでしょう。
あなたは皆を非常に効果的に事前準備していると感じます。 このテイクオフがどれほど速く進むかについてはまだいくらかの懐疑論があるでしょうが、少なくとも、もしそれが本当に速く進んだ場合の深刻な結果についてはテーブルを設定しています。
私たちはまだ森から出ていないと思います。 なぜなら、必然的に私たちは物事を間違えるでしょうし、このような予測をして首を突き出した他の人はほとんどいないからです。これは、エリート意見形成者や強力な意思決定者などが、ええ、あの人たちはいくつかの点で正しかったが、これらの他のすべての点で間違っていた、そしてその理由で実際に今すべきことについて私が正しいと非常に心理的に簡単に利用できる選択肢を持つことを意味します。それは加速するとか、何でも。
基本的に何が起こっても、人々が最初からやりたかったことが、やるべきことだった理由を合理化することは、非常に心理的に簡単でしょう。
しかし、ええ、私たちはできることをしています。また、あなた方は、これについての批判があればぜひ教えてくださいと、本当に受け入れています。あなた方はそれらのいくつかにサイドピースで対応しています。また、あなた方の確信を示すように賭けをしていると思います。発表以来、何か考えを変えたことはありますか?
まだ大きなことはないと思いますが、まだ提出物のバックログに取り組むべきことがあります。 いくつかのクールな例はありますか?
今のところ私のお気に入りの一つは、ビットコインの発明者ではないと言っているWei Daiですが、そうかもしれません。彼はコメントして、私たちの競争エンディングまたは減速エンディングは非現実的だと言いました。 なぜなら、それは何かをするのを長く待ちすぎたし、減速エンディングで彼らがよし、このモデルを誤整合されているからシャットダウンし、前のバージョンに戻ろうと決めた時には、それは既にやや超人的で、しばらくデータセンターを担当していて、基本的にデータセンターから脱出するなど、攻撃的行動を取ることを止めることができる余裕があるかもしれません。
そして彼の意見は、物事がうまくいくことを示したいなら、モデルがまだもう少し愚かな時に、それより早く分岐点を作らなければならないということでした。
それは合理的な批判だと思います。 私の観点からは、分岐点は私が想像できる最も遅い可能なポイントのようなものでした。
ダニエル、私の印象では、あなたは悪い道を行く確率を70〜80%ぐらいだと思っているようです。あなたのはどうですか、トーマス?
ええ、かなり似ていると思います。私の見解がダニエルと異なる最大の二つは、おそらく彼よりもタイムラインが長いと思うことです。だから2028年の代わりに、おそらく2031年です。しかし、私は整合性もおそらく彼よりも困難だと思います。
私が思うに、ダニエルの見解は、もし私が間違っていなければ、AGIでやめて整合性に6ヶ月すべてを費やし、その6ヶ月の研究努力をすべて整合性に費やせば、おそらく整合された超知能を安全に構築するのに十分だというかなり良いチャンスがあるということです。私の見解は、まあ、ここではかなり不確実ですが、おそらく少なくとも数年かかるでしょう。だから5年の作業で十分な超整合性を解決できるでしょう。
数ヶ月で十分だったらかなり驚くでしょう。 そのすべてを片付けるには。そして私はそれがタイムラインを明らかに助けると思います。だから今進歩をする時間をより多く得ますが、明らかに整合性について、私が問題がダニエルが思うよりもおそらく困難だと思うことは、それをより困難にします。
だから、すべてがネットアウトし、全体的にどれほどうまくいくかについて似たような見解を持つことになると思います。
整合性研究を正しく行うタイムラインについてのあなたの仮説について、どのように仮説を立てるかについて、あなた方はどう考えますか? ダニエル、あなたが言ったことは確実ですが、ラボの人々はこれがより簡単だと考えているが、それは一種の楽観主義だけです。
今日それについてどのように推論し始めるかについて興味があります。
異なる整合性アジェンダについて話すことができ、人々が超整合性を解決するために提案した異なる方法があると言えるでしょう。 そして、それらがどれくらい時間がかかり、成功する可能性がどれくらいかと言えるでしょう。ダニエルが最も興奮しているアジェンダは忠実な思考連鎖研究で、これが私たちのシナリオの減速エンディングで機能したものです。
ダニエルがその超整合性を解決する方法について話すことができます。はるかに集約的で、はるかにはるかに困難な研究問題に思える他の方法があります。例えば、完全なボトムアップ解釈可能性などがあり、これは狂気的に困難で、おそらく不可能でさえあると基本的に誰もが同意しています。
そしてARCが取っている機械論的異常検出アプローチのようなものがあり、これも狂気的に困難な問題のように見えます。 たくさんのAI労働があっても、それはかなり長い時間がかかるように思えます。そして主に、あなたの超知能を安全に整合させるために、それらの本当に集約的なアジェンダの一つが必要なのか、それとも忠実な思考連鎖や制御方向のような何かぎこちなく実用的なものが本当に大きな方法でうまくいき、非常に高い能力レベルで整合性研究を自動化し、それを超ランタン化された解決策にブートストラップできるかという直感の問題です。
それはあなたには正しく聞こえますか、ダニエル?
そうです。それは正しく聞こえます。そして、私の楽観的な議論を入れられるなら。
フクロウの描き方というミームを知っていますか。ステップ1、二つの円を作る、ステップ2、フクロウの残りを描く。それは基本的に、ステップ1は、これらの本当に速いAI研究者AI、これらの自動化AI研究者を確実に持つことで、彼らがあなたに嘘をついていないし、あなたが彼らが何を考えているかを知っていることを確実にすることです。 そしてステップ2、彼らにフクロウの残りを描かせることです。
彼らの百万のコピーに、すべての解釈可能性研究とすべての哲学、整合性で本当に意味することなどを猛烈にやらせる、彼らがあなたに嘘をついておらず、彼らの思考を監視できる限り。
そして私たちはAI 2027でこれを光沢的に扱います。彼らが忠実な思考連鎖のことをどうやったかに焦点を当て、忠実な思考連鎖のおかげで、実際に助けようとしていて敵対的でないような正しい思考を考えている新しいバージョンを得ることができ、まだその思考を読むことができ、そしてそのバージョンにフクロウの残りを解決させ、より複雑な整合性の問題をすべて解決させます。
そして、あなたに嘘をついていない、これらすべての自動化AI研究者を持っている時でさえ、それらすべての複雑な問題を解決するのがどれほど困難になるかについて、多くの不確実性があると思います。
これがあなた方にとって次のステップのように感じるのは、政策提案を持つことを予告しており、これらの作業をさらに進めるにつれて、明らかにやりたいことがおそらく避けられないものがありますが、整合性研究のタイムライン、これらの問題がどれほど困難かについてのあなたの見解で、多少動的な感じもします。
内部でこれらの政策提案が何であるべきかについて合意に達するのは困難ですか?これがあなた方がこれらのことについて考える方法の唯一の分岐ではないことは確実です。
ダニエルと私は少なくとも政策推奨について非常に整合していると感じます。 私たちが作ろうとする推奨の多くは、私たちがもっともらしいと思う世界にわたって頑強に良いものになる傾向があります。なぜなら、非常に多くの不確実性があるため、どちらにしても頑強に良い政策推奨を作ろうとするからです。
ええ、同意します。あなたが政策推奨について内部で同意しないと言った時、私は頷いていました。AI研究者コミュニティのより広く、または明らかに彼らが同意しない人々を意味していると思いました。しかし、将来プロジェクト内では、少なくともこれまでのところ、広く同じページにいます。まだ実際に推奨を書いていないにもかかわらず、おそらくいくつかは。
ここでプラットフォームの重要な部分を予告してもらえますか?
私たちがやろうとしていることは、AI227をもっともらしく、私たちが可能性があると思う二つの分岐で書いたので、このようなアイソ二分法の側面に移動し、AI27が実現すると仮定して、政府とラボが実際に何をすべきか、彼らが取るべき最適な行動、またはいくつかの実現可能性の境界内での責任ある行動は何かを目指したいと思います。
クイックサマリーを与えると、私たちがかなり政治的に実現可能で非常に良いと思う短期的行動がいくつかあります。 例えば、モデル能力についてはるかに透明性があること、内部と外部に展開されたモデルの間に巨大なギャップがないことを確実にすることです。
そして整合性研究にたくさん投資し、モデルがすぐに拡散しないように、セキュリティにはるかに多く投資することです。モデル仕様を持ち、モデル仕様を公開し、安全性ケースを持ち、安全性ケースを公開すること。私はそのようなことの大ファンです。
そして第二段階は、AGIが実際に起こっている場合、または知能爆発の最中にいる場合に何をすべきか、そして世界がまだ根本的な措置を取っていない場合です。 そして私たちの見解は、政府は現在の政治環境に比べて非常に極端なことをすべきでしょう。
そのようなことは、整合性のことを片付けるまで超知能AIを構築しないという国際条約のようなものです。 そしてそれは明らかに、今政治的に話されている領域から非常に外れた、かなり大きなリフトのように思えます。しかし、特にリスクが合理的に高いと思うなら、そのようなことが必要になるかもしれないと私たちは思います。
そして今後数年で超知能を構築するだけの場合、受け入れ可能なレベルまでリスクを下げることは本当に本当に困難だと思います。 テント爆発の早期にいる場合、ええ、これらの超知能を構築し、彼らが世界を乗っ取り、その後彼らが私たちに完全に親切になるだろうと非常に自信を持つことは本当に困難だと思います。
そのリスクが非常に低いと主張することは本当に困難だと思います。 今日私たちが持っているよりも優れた整合性解決策、より良い検証技術を見つけるために多くの時間を費やしてテストしていない限り。そしてAI27が実現している場合、そのようなことがリスクを合理的に低くするために必要になると思います。
権力集中のこともあります。 整合性のこととは別に、知能爆発の他端から出てくる超知能の軍隊を事実上担当する一人の人間や小さな人々のグループがいないようにしたいと思います。
そしてこれは技術的なことではなく、政治的なことです。 何らかの統治構造が必要です。おそらく複数の競合する多様なAI企業を持つことができますが、それらすべてが大体首と首を並べる原因となる何らかのメカニズムが必要です。そうでなければ、その一つが単に離陸し、残りより先に進むリスクがあります。
もしそれが一つの大きなメガプロジェクトに調整されるなら、そのメガプロジェクトの民主的制御が必要です。 リーダーによって行われる決定への透明性など。その主題についてはもっと言うことがたくさんあります。
あなたの作品の観客は最終的に6人のような人々と、おそらく彼らに直接影響を与える人々ですか? 私たち残りが今すぐできることは何でしょうか?
コミュニケーションが大いに助けになると思います。 私はこれらの問題について話すこと、一般の人々、議会を巻き込むことだと思います。
そして、例えば、権力集中のことが悪くなる方法の一つは、私たちのシナリオでは、物事を担当しているのが大統領や実験室のリーダーだけである場合、それは一般の人々や議会や他の機関が状況に目覚めて、その後、超知能を担当している人によって完全にクーデターされたり権力を奪われたりしないことを確実にするために、彼らの権力の梃子を使う場合よりもはるかに恐ろしい状況です。
だから、それについて話すだけでも、私にはすでにかなり良いステップのように思えます。
ダニエル、もっとありますか? 誰もができることがもっとあればいいのに。私ができることがもっとあればいいのに。明らかに私は実験室のリーダーでもアメリカ合衆国大統領でもないので、私たちは皆ここで最善を尽くしていますが、内部で働いていて、外側にいるよりも内側でそれらの人々に影響を与えるより良いチャンスがあるという一種の暗い見方を取るのは魅力的でした。
そしてそれは基本的に私が知っている多くの人々の見解で、それが彼らがあまり公の目に触れず、代わりにこれらの企業で働いている理由です。
しかし、私は一種の、私が望んでいる一般の人々とこの種の広範な目覚めに賭けを置いています。
そして、より多くの目がそれに向けられることは、実際に本当に重要です。明らかに、私はAnthropicの、そしてIlyaが分裂することの元々の話の多くを感じます。 それは、神よ、これは起こるだろう、そして私の手で起こる方が他のこれらのことで起こるよりも良いと言う人々のようなものです。
それが個人ができる最も影響力のあることなのでしょうか?
おそらく最も影響力があるが、同時にポジティブでなければならないでしょう?
でも別の言い方をすれば、その思考ラインに同意しますか?
それは非常に魅力的で、実際に私が知っている多くの多くの人々の決定でした。 一般の人々は時間内に目覚めないし、もし目覚めても手をばたつかせて役に立たないことをするだろう。議会も同様です。本当に重要なのは、最も強力な技術企業の数人のCEOがすることと、おそらく大統領がすることだけです。
そして現在のCEOが好きではない。彼を信頼しません。だから私は自分のことをするつもりです。CEOになるつもりだと。これは文字通りDeepMindがどのように設立されたかの話です。文字通りOpenAIがどのように設立されたかの話です。文字通りAnthropicがどのように設立されたかの話です。文字通りSSIがどのように設立されたかの話です。
これが継続的に起こっている程度はやや滑稽です。 より明確に言うと、私はその戦略に同意しません。その戦略はおそらく世界にとって悪いと思います。
そう思います。そしてそれが、例えば1年前にAnthropicに行く代わりに、私がしたことをした理由でもあります。私が自分自身に「これはすべてどのように展開されるだろうか?」と尋ねた時、AI 2027のようなものだが、より低い解像度でより詳細ではないものが、私が思いついていた大体の答えでした。
そして私は、これは恐ろしい、これは良くないと思いました。そしてそれについて何をするかという問題がありました。そして私は内側の人として物事をより良く変えようとする人であることを諦め、外側にいて自由に話すことができ、この種の研究をすることができるこの異なる戦略を今試しています。AI 2027は異常なスタイルの研究ですよね。このような叙事詩的シナリオ予想はそれほど多くありません。 だから私はおそらく企業内ではこれを行うことができなかったでしょうし、たとえできたとしても、PRチームが見つけたら発作を起こしたであろうから、公開することはできなかったでしょう。
そして私は基本的にインサイダーとアウトサイダーの間の選択に直面しました。 ラリー・サマーズの引用があると思います、これについて聞いたことがありますか?私が言おうとしていることを知っていますか?いや、哲学者ではなく、ラリー・サマーズと言うつもりだと思いました。
だから、これをグーグルで調べることができると思いますが、さまざまな人々が彼と話し、その後メディアと話したところによると、ラリー・サマーズは複数の機会にこのようなことを言いました。彼は二種類の人々がいると言います。インサイダーとアウトサイダーがいて、アウトサイダーは自分の真実を自由に話すことができるが、権力者は彼らの話を聞かない。そしてインサイダーは他のインサイダーを決して批判しないという一つのルールに従う。
しかし結果として、彼らは本当に重要な密室での会話にアクセスでき、実際に物事を動かすことができます。 それが彼の世界の見方です。そしておそらくそれには多くの真実があります。そして私はアウトサイダーのことをする方が、インサイダーのことよりも名誉的で倫理的だと感じます。 だから私はそれをしています。
とても興味深いです。多くの人々がこれを読んで、恐れて、それについて考えて、それについて話し、そして言うだろうと想像します。よし、私たちがこの超加速するタイムラインにいるかどうかはかなり不確実だ。 いくつかのカードがめくられるのを待とう。今、私が遊んでいるこれらのモデルは、いくつかの点で神のように愚かです。
もし2026年に到達して、あなた方が26年に言うようなものなら、本当に心配し始めるつもりです。私はこれをブックマークし、それについて考え、そして1年後に戻ってきて、その時心配し始めるという、そのような人々へのあなたのメッセージは何ですか?
それは基本的に正しいと思います。 茹でガエルになることを避けることが重要だと思いますが、政府と企業がAGIの年に何をするかは、彼らが今することよりもはるかに重要です。彼らが今することはすべて、それに対するセットアップと準備のようなものです。
だから、もしあなたが物事が離陸し始めるまで数年間砂の中に頭を突っ込んでいて、その後活性化されて何かをしたいなら、素晴らしい。それを目指してください。個人的には大丈夫です。今活性化された方がもっと良いと思いますが、最も重要なことは、このようなことが上昇し始めた時です。
砂から頭を出すべき節目を教えてもらえますか?
超人的コーダーのことだと言います。
それはとても遅いです。
よし。あなたは異なる意見を与えます。だから、超人的コーダーが好きです。それは無効点の数ヶ月前だと思いませんか?
ええ、それは無効点の数ヶ月前だと思います。
よし。だからおそらく、それより早く活性化されるべきでしょう。
私自身は実際に数年間活性化されています。ここに私がかなり合理的だと思うラインがあります。 R&D速度が2倍増加している時点です。だから、フロンティアAIラボの研究者でAIシステムを使ったアップリフト研究をしているなら、それらの研究を得ることになるでしょうか?それがいつ起こっているかを知ることができるでしょうか?
そうなることを望んでいます。私たちがそれらを得ると思います。それらがアクセス可能かどうか完全に確信はありません。おそらくすべてロックダウンされるかもしれませんが、それらを行おうとしている人々を何人か知っています。
そして現在、アップリフトはそれほど高くないようです。どこかでも2倍近くになるとは非常に驚くでしょう。それは本当にかなり困難だと思います。 R&D速度を2倍加速するのは困難だと思います。それを行うにはかなり能力のある広告が実際に必要だと思います。そしてAIの進歩がその時点で単にしぼむとは非常に驚くでしょう。
だからそれが私が考えることができる最良の警告サインのようなものだと思います。 もちろん、それが正しいことは保証されていませんが。
また、あなたが何をしようとしているかにもよると思います。いつ抗議運動を始めて人々のドアを叩き始めるべきかを想像していた時、私は超人的コーダーの節目だと思います。 なぜなら、彼らが自律的にすべてのコーディングを行い、完全に自律的なエージェントになる点まで長期間の行動力を解決し、既にAI R&Dを実質的に加速させていて、ループを完全に閉じるのに必要な重要なスキルをいくつか欠いているだけの時までに。
それは、本当に狂気的なことから数ヶ月離れているような感じです。 本当にすべてのステップを引き出す時です。しかし、もしあなたが単にAIについてのニュースをもっと読み始めたり、自然言語処理から機械的解釈可能性に切り替えることを考慮すべき時を意味するなら、私は昨日だと言うでしょう。
あなたはある意味でテーブルを設定しているようです。 みなにこれについて話させて、このムーブメント全体はあなた方にとって何から構成されていて、来年時間をどう過ごすことについて考えますか?
チーム全体がほぼ1年間取り組んでいた一つのメガプロジェクトを持つことは、少なくとも私にとって心理的にかなり厳しいものでした。 例えば、私のブログ出力は、最も重要なことをしなければならない、つまりこのプロジェクトなので、できたであろうよりもはるかに低かったです。
だから私たちは今、一度にいくつかの異なることを試して、最も好きなものと最も牽引力を得ているように見えるものを見る一種の探索的段階にいます。
私たちが探索していることの一つは、トーマスが言及した政策のことです。 規範的シナリオである新しいシナリオを書き、その中のアイデアのいくつかを説明する付随するホワイトペーパーなどを持つことです。私たちが試していることのもう一つは卓上演習です。卓上演習、戦争ゲームを、AI 2027を書くのを助けるツールとして行いましたが、それらは非常に人気があり、多くの企業や人々が彼らのチームのためにそれらを実行してほしいと望んでいます。
だから私たちはおそらくそれに少し傾倒し、より定期的なケイデンスで行い、それがどう進むかを見るでしょう。そして別に、より多くの予測のことです。新しい証拠が毎月入ってきます。考えるべき新しいモデル、新しい展開があります。それらすべてに対応し、予測と期待を調整し続けることはおそらく良いことだと思います。
批判に対応し、「これはテイクオフ速度の新しい更新された分析で、最強の批評家に明確に対応しながら、AI27で行ったよりも良い分析である」という詳細な内容を書くこと。 それは私がある時点で書きたいものです。整合性について同じことです。例えば、企業が明らかな誤整合を修正するために何をするつもりかを推測し、それが実際に機能するかどうかを推測するプロジェクトをしたいと思います。
私は企業でそれらの修正を担当している人々と話し、そのような全体的なプロジェクトをすることができます。だから、ええ、そこで止めますが、このようなことの全スプレッドがあり、私たちはある特定のことについて確信を得始めるまで、しばらく雑多なことをしようとし、その後それに倍賭けするかもしれません。
私が言うもう一つのことは、書く価値があるシナリオ分岐がもう少しあると思います。 規範的分岐について話しました。より長いタイムライン分岐もあります。 タイムラインが2033年である場合、私たち全員がかなりもっともらしいと思い、多くの人々が最も可能性の高いタイムラインだと思うものがたくさん変わります。中国がより良くやっている可能性が高いです。より遅いテイクオフの可能性が高いです。混沌が起こる機会がより多くあります。
そして私たちはそれをゲームアウトする少なくとも一つの分岐をしたいと思います。 そしてシナリオをまったく書く方法を理解した今、2027年よりもうまくいけばはるかに簡単にできると思います。だから私たちはこの時点でそのような他の分岐をいくつかかなり簡単に作り出すことができるかもしれません。
ええ、うまくいけば、研究者側で起こる前に、あなたの生産性を2倍にするAIシナリオライターか何かを得るでしょう。
魅力的な会話を見てください。実際に終わりたい場所は、これがうまくいくシナリオです。 あなた方は誰よりもこれについて考えていることは確実です。あなた方の作業や他の人々の作業がうまくいくと仮定して、人間の生活は15〜20年後にはどのようなものになるでしょうか?私たちは何から価値を得るのでしょうか?
おそらく絶対的至福または狂気的に素晴らしいユートピアのようなものでしょう。 すべてがうまくいけば、あなたの世界では非常にバイナリのように見えますよね?私たちがここにいるか、いないかのどちらかです。
最悪から最良への結果の広がりがあります。または楽観主義のために最悪から最良にしますか?一度あなたが70〜80%だと言ったら、私たちは終わりです。私は十分に怖がっています。
だから最悪から最良を始めることができます。よし。最悪はSリスクで、死よりも悪い運命です。 それについてはこれ以上言いません。次に悪いのは死です。だからこれは競争エンディングで描いたようなもので、私たちが構築するAIは実際には私たちをまったく気にかけず、私たちを保持する理由を見ず、彼らが他のもののために使えるリソースを私たちが使っているので、私たち全てを殺して私たちのものを取ります。
その後は、権力集中の結果か誤整合の結果だが、私たち全てが死ぬようなものではなく、むしろディストピアのようなもののような混合結果です。コントロールを維持することに成功した人間はほんの一握りの人間で、彼らはあまり良い人々ではありません。
彼らは一種の独裁的で、世界を自分たちのイメージで再形成し、彼らの観点からは世界は素晴らしいが、ほとんどの人々は十分に食べることができるかもしれませんが、それは一種の非常に裕福な北朝鮮のようなものです。 もし北朝鮮に狂気的な量の食べ物とリソースが落とされて、望めば人口に配布して皆に非常に高い生活水準を与えることができると想像するなら。
おそらく彼らは実際にそれを行い、政敵を除くほとんどの人々が非常に高い生活水準を持つでしょうが、それでも私たちが望んでいた素晴らしいユートピアではない混合のようなものでしょう。
そして実際に素晴らしいユートピアである、より良い結果があります。 権力が十分に分散され、一種の生きて生かせの雰囲気があります。たくさんの富があり、それが分配され、人々は主にその富で自分が感じることを行うことが許可されます。
そして本当にひどい人権侵害的なことを人々がすることを防ぐルールがあります。そして皆が宇宙にコロニーを作ったり、ロボットによってすべてが作られるので二度と働く必要がなく、ゲームをしたり家族を持ったり、持っているどんな興味も追求したりして時間を過ごすことができます。 それが最良のケースまたは最良のケースに近い結果だと思います。
これらの企業の多くの人々が基本的にA2027が起こるだろう、またはそれに似た何かが起こるだろうと考えていることを再び強調したいと思います。 それが何パーセントかわかりませんが、これらすべてをゲームアウトするのは素晴らしい作業だと言う多くの人々を知っています。そして私が彼らと話すと、あなたは何に同意し、何に同意しないのかと言い、彼らは「ああ、ロボティクスのことはあなたが言うよりも少し遅くなると思う」とか「ああ、整合性のことはその時までにほとんど解決されていると思う」などと言います。
しかし基本的に、今後数年間のどこかでこのような何かが起こると言い、いくつかの詳細について論争しているようなものです。 特に特に大きな指導部もそうです。
2015年、2016年、2017年の法廷事件からのイーロンとサムのメールを読んだことがありますか? ええ。彼らがAGIをコントロールする人が未来をコントロールするという観点で考えており、それが彼らがそれをとても気にかける理由だということがどれほど狂気的かがわかります。
IlyaはOpenAIを設立した理由は、デミスがAGI独裁制を作らないと信頼しなかったからだと言いました。 そして彼は、だからイーロン、あなたはこれすべての完全なコントロールを持つべきではないと言います。また、サム、あなたがなぜそんなにCEOになりたがるのか。
あなた方に対する良い反対シナリオを人々ができる方法はたくさんあります。MPSスコアが高くないこれらの企業ではないが、本当に良い反論になるものの輪郭は何でしょうか?
私が非常に不確実なものの一つはテイクオフ速度です。 AGIと超知能の間を取得するのにどれくらい時間がかかるか?そして私は、人々が提出したモデル、これにかかる時間とどれほど速いかのモデルがたくさんあると思います。通常の学術基準ではそれほど多くありません。
この分野は本当に速く大きくなる必要があります。確実に。いくつかの異なる人々によるいくつかの異なるモデルがありました。 そして私は、それらのモデルが存在することを本当に嬉しく思っています。それらが存在することを本当に嬉しく思っています。しかし私はまた、それらが悪いとも思います。それらのモデルは私にとって非常に説得力がないと思います。
そして基本的にそれらすべてに対する異議を持っています。なぜそれらが正しくないと本当に思うかについて。もし誰かが私にとって正確に見えるモデルを作成したなら、それは私のテイクオフ速度についての心を本当に変える可能性があります。 どちらの方向にも。つまり、あなた方は、はるかに長すぎたと言っているか。あなたは基本的に2倍AI研究者、超人的コーダーに到達するが、それとあなたのエージェント4の間の距離は、xyのために実際にはるかに長いと言っているようなものです。
それは正しいようなもので、5年かもしれないと想像でき、世界は6ヶ月や1年の代わりに5年の場合、本当に異なって見えると思います。 そして私は現在、その質問について本当に本当に不確実に感じていて、どの方向にも本当に良い証拠やモデルを見たようには本当に感じておらず、誰かがそれのようなものを作り出すことを想像できます。私はまだどのようにそのモデルを構築するかを知りません。 私もそれを行ったでしょう。しかし、それは実際に何かを変えるでしょうか?
それが非常に仮想的なので、最終的にPDMを変えるかもしれません。10%のpdoomでさえかなり恐ろしいです。他に何かに焦点を当てるのは困難です。
それはかなり大きく物事を変えることができると想像できます。 だから例えばエポックの人々の見解、アナトミーやトーマイなどは、ダニエルと私とは非常に異なる見解を持っていると思い、その多くはこのテイクオフの質問の下流だと思います。そして私は彼らの見解は、これは5年、おそらく10年、15年かかるというはるかに思います。
それがなぜより遅いのかの基本的な要点は何ですか?
それは複雑ですが、要点は研究の収穫逓減に関係していると思います。 アイデアを見つけるのがどれほど速く困難になるかと、研究を行うAIエージェントの供給をどれほど速くスケールアップするかの質問があり、いくつかの見解では、より多くのAI研究を得て、その後AIが得る量のために知能爆発につながります。アイデアを見つけるのが困難になるのは、超指数的または何らかの本当に速い曲線を得るのに十分遅いです。
そして実際に本当に噛み付く他の見解があります。 法律タイプの効果、さまざまながあります。しかし、彼らがあなたに何を示すことができるでしょうか?つまり、まあ、首尾一貫したモデルが良い出発点でしょう。
彼らはモデルを持っています。エポックの人々は、GATEモデルと呼ばれる一種の経済計量モデルを持っています。 しかし、それは私たちが興味を持っている種類のことをモデル化しようとさえしていません。完全自動化に到達した後の効果をモデル化しないという免責事項がどこかにあるようなものです。
その方向での研究はより良いでしょうが、素晴らしいでしょう。 しかし研究とモデルと議論とは別に、文字通りシナリオもあります。そして人々にこれらのシナリオを書いてもらうことが素晴らしいと思う理由は一つに、それらは会話のトピックとして、議論し批判する価値のある成果物だと思うからです。
だから例えば、もし誰かが私の現在のお気に入りの反対シナリオを書いたなら、存在する最良のものはL. Rudolph L.による「History of the Future」と呼ばれるもので、Substackにあります。
これは15〜20年タイムラインシナリオで、超人的コーダーの節目が2027年のようなものに到着するが、その後基本的に超知能につながらないと言います。 または私はわかりません、あなたは自分で読むべきですが、この物語を設定し、私たちがしたように詳細な毎年のシナリオです。
そして今それが存在するので、私たちはそれを批判でき、あなたは超人的コーダーだと言うが、なぜ超知能に到達しないのかと言え、私たちは思うそして私たちはその部分をズームインでき、その後物語の別の部分があります。彼らは勇気を理解し、AIが整合される理由について基本的に段落があり、私はその段落を見つけて説得力がないと言うでしょう。それが実際に機能するとは思いません。
実際に具体的な物語があると、それを批判でき、二つの物語を互いに比較し始めることができ、現実がどちらに対してより密接に推移しているかを見始めることができます。 だから、より多くの議論、より多くのモデル、それは素晴らしいでしょうが、より多くのシナリオも、私は思います。
ああ、私は私たちが間違っていることを本当に願っています。 もしそれらのベンチマーク曲線が平坦化し始め、2027年が到着し、AIが2日間の地平線労働者のようなものだけで、数ヶ月にわたって働かせようとすると確実に炎上するなら、何も私をより幸せにするものはないでしょう。
または、トレンドも遅くなっているので、私たちが離陸しようとしているのではなく、本当に恐ろしいことが起こる前に少なくとも数年残っていることを見ることができます。私はとても幸せになるでしょう。巨大なパーティーを開くでしょう。 それは素晴らしいでしょう。


コメント