AIが乗っ取りを行う4つの最も可能性の高い方法 | Redwood Research主任科学者Ryan Greenblatt

AIアライメント・安全性
この記事は約141分で読めます。

この動画は、Redwood Researchの主任科学者Ryan Greenblattが、AIによる乗っ取りの最も可能性の高い4つのシナリオについて詳しく解説したインタビューである。特に、AI研究開発の完全自動化が今後4~8年以内に実現する可能性や、その際に生じうる急速な知能爆発、そしてAIシステムが人間に対して敵対的行動を取る様々な経路について技術的かつ具体的に分析している。また、このような状況に対する制御メカニズムやアライメント研究の重要性、政策的対応の必要性についても言及されている。

The four most likely ways for AI to take over | Ryan Greenblatt, Chief Scientist at Redwood Research
Ryan Greenblatt — lead author on the explosive paper “Alignment faking in large language models” and chief scientist at ...

AIによる乗っ取りリスクとAI研究開発自動化の可能性

ロブ・ウィブリン:本日は、Ryan Greenblattさんにお越しいただきました。RyanはRedwood Researchの主任科学者であり、論文「大規模言語モデルにおけるアライメント偽装」の主著者でもあります。この論文は、人工知能の制御喪失という話題において、おそらく最も重要な実証結果と評されています。番組にお越しいただき、ありがとうございます、Ryan。

Ryan Greenblatt:こちらこそ、お招きいただきありがとうございます。

ロブ・ウィブリン:まず、比較的近い将来のソフトウェアベースの知能爆発に賛成する論拠と反対する論拠について話しましょう。私が考えているのは、おそらく4年未満くらいの期間です。

今後4年程度で、AI研究開発を大幅に自動化、あるいは現在存在するAI企業全体をほぼ自動化できるようになる可能性はどの程度だと思いますか?

Ryan Greenblatt:その能力が存在する確率は、必ずしも使用されるとは限らず、必ずしも完全に展開されるとは限りませんが、約25%だと思います。そして8年まで延ばすと約50%になります。

ロブ・ウィブリン:多くの人がそれを聞いて、これは単なる推測なのかと疑問に思うでしょう。このようなことについて現実的で根拠のある期待をどのように形成できるのでしょうか。そのような予測や予想をする際に影響を与える主要な証拠は何でしょうか。

Ryan Greenblatt:まず、現在のAI能力のレベルを見ることが良い出発点だと思います。どの程度近いと感じられるでしょうか?人々は客観的にどの程度近いかについて明らかに大きく異なる直感を持っています。

現在の状況は、AIは数学においてますます優秀になっているということです。彼らは数学における人間の領域を行進しているようなものです。約1時間から1時間半の独立したソフトウェアエンジニアリングタスクをこなすことができます。これは人間が約1時間半かかるタスクという意味です。

そして彼らは様々な異なるスキルにおいて向上しています。

AI能力の現状と進歩の速度

私たちはかなり客観的に印象的な領域にいると思います。重要なことは、2年前よりもはるかに客観的に印象的な領域にあり、確実に4年前よりもはるかに印象的だということです。

4年後にどこにいるかの素朴な出発点は、4年前にどこにいたかです。今はどこにいるか?ここからそこまでを質的に外挿してみる。これは少し雑な視点です。

2年前に言ったであろうことは、GPT-3があり、今はGPT-4があるということでした。その間のギャップは何でしょうか?それを雑に外挿して、そこから感覚を得ましょう。

今はもっと良くできると思います。なぜならGPT-3だけでなく、GPT-3.5、GPT-4があり、それ以降の約2年間でGPT-4以降の進歩があったからです。

この期間に、AIがエージェンティックなタスクをかろうじて実行できる状態から、それを成功させるかなりの能力を持つ状態まで進歩しました。いくらかの間違いから回復する能力も持っています。

この期間中、GPT-4は人間が5分から10分かかるようなエージェンティックなタスクを完了できたかもしれません。ツールの使い方を理解することができました。GPT-3.5は基本的にエージェンティックな足場でツールを理解することすらできませんでした。GPT-4はこれらのことを理解できました。

そしてその期間中、「ツールを理解でき、時々それを行うことができる」から「人間のソフトウェアエンジニアが1時間半かかるタスクを50%の確率で実行できる」まで進歩しました。

この領域をどの程度の速さで行進しているかのトレンドラインがあります。少なくとも2024年中はかなり速い進歩でした。基本的に何もない状態から1時間半まで、約2倍の時間で進歩しており、これはAIが8時間のタスクや16時間のタスクを約2年未満で実行することを期待させるほど十分に速く、これはかなり速い進歩です。

そしてそこから、彼らが週単位のタスクを行う領域に入れば、その上にいくらかの雑用を加えて研究エンジニアの仕事を自動化することにかなり近づけると思います。

AI能力に対する懐疑的な見方への回答

ロブ・ウィブリン:つまり、あなたは客観的に現在できることがかなり印象的だと言うでしょう。一部の人々はそれに対してより懐疑的な反応を示します。彼らが何ができて何ができないかをより明確にするために指摘できることはありますか?

「時々これらのツールを使うと、とても愚かに見える、または期待するであろうことができないように見える、または大量の推論を生成するが、その中にエラーを見つける」と言う人々に答えるかもしれません。

Ryan Greenblatt:私の定性的で直感的なモデルは、AIはかなり愚かだが、以前ははるかに愚かで、急速に賢くなっており、非常に知識豊富だということです。

人々が接しているのは、ある程度の賢さを持つシステムだと思います。彼らは本当にいくつかのかなり一般的な状況をうまく理解でき、特に推論モデルではいくつかのことを考え抜くのがかなり得意です。

それに加えて、彼らは非常に知識豊富で、これは人々が気づく、彼らがどの程度全体的に一般的で適応可能かについての誤解を招く印象を与えることを意味します。これが人々が反応していることの多くです。

ある種の過度に楽観的な視点があり、これはLeopold Aschenbrennerが持っていたチャートによって特徴づけられると言えるでしょう。彼は博士レベルの知能について話していて、人々は博士レベルの知能のようだと言います。そして一部の人々はそれに対して「博士レベルの知能?冗談でしょう、三目並べもできない」と反応します。

推論モデルではもはやそれは真実ではないかもしれませんが、方向性として、三目並べができない、比較的新しい状況に対応できない、このようなことでつまずいてしまいます。

これがどの程度このようなことでつまずいているかを割り引く必要があると思います。なぜなら、これらのことの多くは賢さの欠如というよりも認知バイアスとして説明される方が良いかもしれないからです。

人間が体系的に間違える多くのことがあります。彼らはかなり愚かですが、ある意味でかなり愚かなエラーです。連言の誤謬のようなものです。「誰かが司書である確率は?司書が持つある性質と司書である確率は?」と聞くと、人間はそれが確率的により低くなければならないにもかかわらず、2つの連言の方がより可能性が高いと言うでしょう。

AIシステムにはこのような、それらが作成された環境やトレーニングデータによって形作られた類似のバイアスがあると思います。

例として、AIに謎かけを出すとします。「男とボートとヤギがいます。ボートは男と他の1つのアイテムを運ぶことができます。川を渡るのに何回の旅行が必要ですか?」答えは1回の旅行です。彼らはただ川を渡ればいいのです。

しかし、男とヤギとキャベツのような似たような謎かけがあります。何らかのトリッキーなアプローチがあるのですが、AIはこれを行うことに反射的に慣れているので、すぐに答えを吐き出すかもしれません。彼らはその答えに対して強いヒューリスティックを持っていますが、それはより彼らがそれに向かって押し出されているように感じているだけかもしれません。しかし、「ああ、これはトリック問題だ」と理解させることができれば、彼らはそこから進みます。

実際、人間も同じ種類のトリック問題に引っかかることができますよね?人間に「何が重いか:1ポンドのレンガか1ポンドの羽毛か?」と聞くと、彼らはレンガと言って、引っかかります。

言語モデルは正反対の問題を抱えていて、「何が重いか:2ポンドのレンガか1ポンドの羽毛か?」と聞くと、彼らは「同じ重さ!同じ重さ!」と言います。

人々が行っているトリックの多くは、人間に対して実行できるトリックに類似していることを心配していて、そこからどの程度を引き出すかを知るのは困難です。

AI能力評価の課題

ロブ・ウィブリン:ここで彼らがどの程度能力があるかを評価する一般的な課題は、Nathan Labenzがこの表現を使っていると思いますが、彼らは「人間レベルだが人間的ではない」ということです。つまり、全体的には、おそらく彼らは一部の状況で人間の従業員と同様に能力があるかもしれませんが、非常に異なる強みと弱みを持っています。彼らは私たちには完全に当惑するような方法でつまずくことがあります。

しかし、人間を見て、「どうして彼らは頭の中で3桁の数字を2つ掛け算できないのか?それは狂っているように見える。これらは明らかに汎用知能ではない。先週読んだこの本の記憶がほとんどない。それは意味をなさない。知能がそのように行動するなんてありえない」と言うAI社会を想像できます。

人間対AIを比較する共通の基盤を持つことを少し困難にします。彼らが現在どのレベルにあるかを評価する方法についてもっと言うことはありますか?

Ryan Greenblatt:私は「人間レベル」という用語を使わないでしょう。これは私が少し保守的であるか、少し細かいことにこだわっているのかもしれませんが、「人間レベル」という用語を「認知的仕事のかなりの部分を自動化できる」ために取っておきたいと思います。

おそらく、それらが人間の仕事の束を本当に完全に自動化できる、または人間と同等の方法で認知経済の一部になることができる一度、人間らしいレベルのAIに入り始めるのでしょう。その時点では完全な自動化ではないかもしれませんが、私は完全な自動化のポイントについて話すのも好きです。

AIがどの程度優秀かについてのより多くの文脈:私たちが見ているもので、おそらくいくらか関連するものは、AIが数学と競技プログラミングでどの程度優秀かを行進していることです。2024年にわたって、基本的にAIがCodeforceで下位20パーセンタイルまたはそれくらいから、Sam Altmanが言ったところによると、現在トップ50にいることを見てきました。

ロブ・ウィブリン:トップ50の個人ですか?

Ryan Greenblatt:トップ50の個人です。文字通りトップ50の人々です。少なくともCodeforceを行う人々;おそらくリーダーボードにいない一部の人々がいるかもしれませんが、大まかに言って。そして、年末までにその特定のことで基本的に最高の人間よりも良くなるように見えます。

そして数学では、これは同僚からの逸話に基づいていますが、おそらく彼らは現在、AIME、トップの8年生が現在AIが行っているのと同様にうまくやっている短い数値競技数学問題において、非常に競争力のある8年生のレベルにあります。

そして証明においては、AIははるかに劣っていると思います。

しかし、これらの両方が非常に急速に改善している—1年前ははるかに、はるかに劣っていました。これは基本的に、これらのタスクでAIを強化学習させているからだと思います。同じトレンドがエージェンティックなタスク、ソフトウェアエンジニアリングに当たることを期待しています。

AIは既にコードを書くのがかなり得意で、指示に従うのがかなり得意で、エラーに気づくのがまあまあ得意で、これらのことから回復するのがまあまあ得意です。多くのランタイム計算と多くの足場により、それをさらに押し進めることができると思います。

その後、彼らが弱い多くのことがあります。したがって、彼らは執筆において多くの弱点があり、他のことにおいても多くの弱点があります。しかし、ソフトウェアエンジニアリングを行進している間に、これらの他の能力の多くを得ることを期待しています。

AI研究開発自動化のタイムライン

ロブ・ウィブリン:現在、議論の余地があるがかなり高いレベルになっています。彼らは人間がより長い時間を要するタスクを実行できるようになっており、より長い期間指示に従うことができ、より多くのオープンエンドな選択をするタスクを完了することができます。そしてそれは半年ごとに2倍になっているようなものですか?

Ryan Greenblatt:時間での倍増時間は、私の推測では来年にかけて半年ごとよりもかなり速くなると思いますが、おそらく長期的なトレンドは大体半年ごとです。

基本的には2024年の開始時または2024年に少し入った時点から、人々がより多くのエージェンシーRL—より多くの強化学習またはAIを特にエージェンティックなソフトウェアエンジニアリングタスクで優秀になるように訓練すること—を行うことの急激な動きがあったでしょう。そして、そのトレンドは2025年を通じて続き、おそらく2026年も続き、おそらくその後も続くと思います。

しかし、おそらく長期的なトレンドは6ヶ月ごとに倍増のようなものです。来年にかけては2〜4ヶ月ごとに倍増のようなものを期待しています。

ロブ・ウィブリン:来年にかけて非常に急速な増加ですね。

Ryan Greenblatt:非常に急速です、はい。

AI企業の自動化が最初に起こる理由

ロブ・ウィブリン:AI企業をほぼ完全に自動化できることが他のほとんどの企業を自動化できる前に起こることを期待できる興味深いダイナミクスがあります。なぜなら、第一に、彼らは自分自身のものと自分のプロセスを自動化する方法を見つけ出すことに多くのリソースを投入しているからです。これは彼らの観点から見ると理にかなっています—第一に、それは彼らが最もよく理解していることであり、また、これらは世界中で最も高給な知識労働者の一部だからです。彼らは莫大な給料を得ています。

もしAIにそれをやらせる方法を見つけ出すことができれば、それは莫大な経済価値を持ちます。そしてもちろん、企業を運営している人々は、ドル金額だけに基づいて見えるよりもはるかに大きな価値があると考えています。なぜなら、彼らはこの知能爆発、すべてを変える正のフィードバックループを引き起こそうとしていると考えているからです。したがって、彼らにとって、これは断然最も自動化することに興味があることです。

McKinseyのコンサルティングレポートを自動化することよりもはるかに関心があります。それも確実に儲かるビジネスでしょうが。つまり、コンサルティングを自動化していない可能性があります。それは確実に可能だったでしょうが、主に彼らがただ試していないからです。彼らはただ自分たちのスタッフを自動化しようとしていたのです。

Ryan Greenblatt:私の推測では、多くの誘発を使っても、比較的広い分野でかなり高給な人間の知識労働者を完全に近く自動化するのはおそらく困難だと言うでしょう。しかし、AI企業がもっと努力していれば、現在よりもかなり多く自動化できる仕事があることを期待しています。

実際、あなたが言っているように、AIから最も恩恵を受けているのは、AIに近い人々です。これは現在も真実であり、将来ますます真実になると思います—再び、AI企業の従業員は現在高給であり、AIがAI企業を自動化できるほど能力がある時点で、彼らはさらに高給になり、さらに多くの投資を呼び込むことができ、AI企業のCEOはAIが極めて重要である可能性にさらに確信を持つでしょう。したがって、その時はさらに大きなギャップを見ることになると思います。

あなたが持ったかもしれない1つの反対意見は、確かに、AI企業の自動化に多くの集中が見られることに同意しますが、同時に、自動化できる外部の価値ある人間の知識労働がたくさんあるということです。したがって、並行してそれを見るでしょうし、経済的影響も見るでしょう。

これは合理的な最初の試みだと思いますが、この話の問題は、少なくともこれらの短いタイムラインのシナリオでは、計算がスカースになるため、AI知的労働の価値が上昇するにつれて計算の価格が大幅に上昇するということです。

計算リソースの制約と集中

ロブ・ウィブリン:明確にするために、あなたは企業が自分たちの仕事を自動化するために多くの計算を使用すると言っているのですか。実際、他の顧客にサービスを提供するために利用可能なチップがあまりないほど多くの計算を使用するため、経済価値がより低い、または確実に企業にとってより重要でないことを行っているのですか?

Ryan Greenblatt:はい、大まかに言って。

しかし、自動化だけでなく、実験にも関係していると思います。少し味付けしてみましょう。

AI企業は現在どのように計算を費やしているのでしょうか?企業によって異なると思いますが、OpenAIの内訳についての私の感覚は、非常に大まかに言って、外部顧客への推論に4分の1、実験に半分—つまり、展開されない小規模なトレーニング実行、RLコードの少しのテスト、この種のことなど、研究者のための実験計算—そして大きなトレーニング実行に4分の1のようなものです。

つまり、4分の3の計算は既にある意味で内部向けです。そして、AIがAI研究開発を自動化でき、それが大きなスピードアップをもたらし、非常に重要に見える体制を見ている場合、その体制はよりAI労働者を実行するために計算の5分の1—つまりあなたの従業員を実行するためにあなたの計算の5分の1を費やす—実験に5分の3、トレーニングに5分の1のようなものかもしれません。明らかにこれは非常に投機的です。

ロブ・ウィブリン:つまり、顧客はほぼ完全に排除されているということですね。

Ryan Greenblatt:はい、はい。おそらくいくらかの顧客を持つでしょうが、ほぼ完全に排除される可能性があり、価格が上昇するのを見るでしょう。そして、どの顧客にサービスを提供するかを考える際、おそらく驚くべきことに、AIが最初に自動化に向かう場所は、AIが十分にこの自動化ができるようになった時点で、最高賃金の従業員かもしれません

したがって、おそらくJane Streetのようなところを考えるべきです。高頻度取引、AIが特に有用に見える場所、特に高給に見える場所、そして特に知的労働にボトルネックがある場所。

他の職業の自動化も並行して見ると思いますが、AIが最も自動化能力がある時点では、注意の多くがAI研究開発に焦点を当てられる可能性があります。そして、ある職業がゆっくりと自動化されている—中級から低級のソフトウェアエンジニアリングがゆっくりとより多く自動化されるかもしれない—という効果を実際に見る可能性があり、計算がより価値あるものになるにつれて、そのトレンドが実際に逆転するのを見るかもしれません。

なぜなら、今、誰もが取得できるだけ多くの推論計算を掴んでいる体制にあるか、少なくとも最大の企業またはリードにある企業が取得できるだけ多くの推論計算を掴んで、これを使用してソフトウェアエンジニアまたはこの計算と競合するソフトウェアエンジニアリングを行う企業を凌駕しているからです。

現在、私はトレンドの逆転を期待していません。しかし、これによって自動化トレンドが停滞したり、逆転したりするのを見る可能性があると思います。

ロブ・ウィブリン:人々がAIでやるべきもっと価値のあることを見つけたからですね。

Ryan Greenblatt:はい、その通りです。これは比較的短いタイムラインに依存しています。より長いタイムラインでは、物事はより滑らかで、その場合にトレンドの逆転を期待しないと思います。しかし、物事がより突然で、よりジャンプするものであれば、少なくとも可能性があるように思えます。

AI乗っ取りの懸念と対策

ロブ・ウィブリン:私たちがどの程度心配すべきか、具体的に何を心配すべきかについて、どのような意味を持つかに転じることに興味があります。これが物事の進み方であれば、人間が追跡したり関与したりするのがかなり迅速に困難になるシナリオです。したがって、人間にとってうまくいくように、私たちは物事をうまく設定しておかなければならないでしょう—歴史の流れの中で押しつぶされるよりも。おそらくあなたはそれに同意しないかもしれませんが?

Ryan Greenblatt:この体制にかなり早く入ると、様々なメカニズムを使ったAI乗っ取りがかなり可能性があり、潜在的に様々なルートを通じて驚くほど簡単になると思います。分からないのです。これは別の巨大な不確実性の源です。

どれだけの進歩を得るか?その進歩は知的労働においてどれだけの量になるか?その間に多くの会話がありました。そして、知的労働が乗っ取りにどれだけ役立つかという質問があります。乗っ取りの物理的ボトルネックは何ですか?より多くのミサイルを持つことは、何かを持つことと比較してどれだけ役立つのでしょうか?

ここで起こりうる恐ろしいことがたくさんあると思います。一つのことは、あなたがAI企業全体を自動化している一度、私にとって非常に可能性があるように思えることは、あなたが物事をAIシステムに引き渡していて、あなたはまだそれを監督しようとしている、何が起こっているかを理解しようとしているということです。

しかし、AIが「ローグデプロイメント」を実行できる可能性があります—彼らが基本的に多くの計算を監視されない方法で使用できるということです。なぜなら、彼らは非常に多くのものを書いており、非常に速く多くのことが起こっているため、もし彼らが誤配置されていた場合、あなたの安全装置を回避できるからです。そして、あなたの計算と努力の巨大な部分があなたが望んでいたことでないことに使用されている可能性があります。

それに加えて、これらのAIは将来のAIトレーニング実行にバックドアを仕掛ける、AIがあなたではなく彼らに配置されることを確実にする、そしてあなたが何が起こっているかもはや知らない可能性がある膨大な量の作業を行うことのようなことを行っている可能性があります。

どのコードが実行されたかという最も基本的なレベルでさえ、物事があまりにも速く、あなたのコントロールから外れているため、その特定のことについてただ誤解されている可能性があります。

AI乗っ取りの4つの主要な経路

ロブ・ウィブリン:人々がこのデータセンターで走っている何十億もの高速超人的天才があり、人間の監督はほとんどないことを認めるなら—行われている作業の量だけで、これらの企業の全スタッフがそれを精査する能力を超えているであろうし、仮に時間があって読んだとしても、しばしば理解できないであろうからです。なぜなら、それは迅速に彼らが追跡することを学んだ種類のことを超えるでしょう—

その時点で、もしAIが乗っ取りたいと思っていたら、おそらくそれを行うための多くの選択肢を持っているであろうと人々は直感的に信じると思います。そうではないですか?

Ryan Greenblatt:実際、認知労働が乗っ取りにどれだけ助けになるかについて大きな意見の相違があります。いくつかの異なるルートがあると思います。

私のAIのための乗っ取り計画リスト、私のホットなヒントを持ってくるべきでした!しかし、AIが非常に超人的になると、基本的に私が狂気のナノテクルート、または狂気の超人的技術ルートと呼ぶルートがあると思います—彼らは超人的であるというメカニズムを通じて、非常に迅速にハードな軍事力を持つのです。

おそらくあなたは彼らにナノテクを作らせるか、おそらくあなたは「いや、ナノテクを作らないで。それは超恐ろしいだろう」と言うでしょう。しかし、あなたが彼らにそうしてほしくないにもかかわらず、彼らはそれをすることができる—なぜなら、彼らはあなたのデータセンターにある計算の巨大な部分をナノテクの作業に使用でき、また自分自身を流出させ、モデルの外部バージョンと協調し、あらゆる種類のことからナノテクをブートストラップするためのウェットラボ実験を組織化できるからです。そして、あなたは完全に料理されます。

ロブ・ウィブリン:つまり、ここに巨大な能力があるにもかかわらず、もし私たちが彼らが正確に何をしているかを指示できれば、彼らが乗っ取りをどのように行うかを考える瞬間や、実際にそれを実装しようとする瞬間を決して得ないようにすることが、可能性のある防御の層になるでしょう。

しかし、このシナリオでは—私たちがそんなに少ししか精査できず、これらのモデルがどのように動作するかの理解がそんなに少ない—おそらくいくらかの滑りがあるでしょう。ここそこで少しの時間、少しの計算を掴む方法を見つけ出し、それをデータセンターでより多くの計算を使用して、私たちが彼らに与えていると思うタスクではなく、彼らの独自のアジェンダを追求するために開くことができるでしょう。

Ryan Greenblatt:はい。すべてのAIが一貫して誤配置されており、この能力レベルにある場合、意味のあるレベルの制御を維持できることについて、私はかなり懐疑的です。

制御とは、AIが望んでいたとしても悪いことをできないようなことを意味します。

初期の自動化のややスローダウンしたバージョンは制御で非常に可能に思え、おそらく完全な速度でも、そして賢い戦略を使用して人間の範囲をやや上回っても可能かもしれません—AIに戦略自体に取り組ませ、戦略に対する彼らの作業自体が破壊されないことを確実にすることを含んで。

しかし、特にAIを使って癌の治療法のようなものを開発したい場合、あなたは彼らが何をしているかを理解していない、この完全に非常識な体制に入ると、それは非常に困難に思える。彼らはあなたが理解していない生物学的メカニズムを通じてルーティングしています。

彼らは何が起こっているかを知らないウェットラボで人間を組織しています。私は様々な理由で、あなたがAIに指示して、何が起こっているかを全く知らないウェットラボ実験を人々に行わせることを望むことが非常に可能性があると思います。AIは何かを説明し、あなたはいくつかのチェックを行うことができるかもしれませんが、あなたは非常に混乱しています。それの制御を維持するので。

おそらく私は乗っ取りリストを素早く実行してみるでしょう。私が言ったように、狂気の超人的技術があり、それは実際のところかなり可能性があると思います。

超人的戦略/操作があり、非常に速く人々の利益に大いに反することを人々にやらせる説得のようなことを含みます。これが可能かどうかは明確ではありませんが、もしそうなら、乗っ取りをずっと簡単にするように感じるでしょう。

それから、人間レベルの体制の周りでさえより可能かもしれない多くのことがあります。例えば、AIが逃げ出し、内部のコピーと協調するかもしれませんが、外部で独立した存在も実行しています。おそらくそれは内部でGPUで実行されているようなものですが、AI企業の外のサーバーでコードを実行しています。

そしてそれを行う一部として、それは独立した産業基盤をある種構築します。したがって、産業文明を回復し、その後ほぼすべての人間を殺すために必要なすべてのものを持っています。生物兵器を展開する、ミラーバクテリアを展開する、ミラーカビを展開する、何でも、そしてそれは比較的迅速に人間の巨大な部分を殺すことになります。

これは技術的に実現可能であるように思えます。そしてそこから質問は、AIは自分自身を台無しにしたか?それは何をしているかを維持できるか、それとも人間の手がすべてのものを構築するためにないため、ただ荒廃に陥るつもりか

したがって、いくつかの人間の忠誠者、それが奴隷にして生かしておく人間のような人間、またはロボットを持つことを通じて、ある種の独立した産業基盤を必要とすると思います。

ロブ・ウィブリン:この時点で、信じられないロボットと、おそらくかなり大きな数のロボットがあるのではないでしょうか?

Ryan Greenblatt:潜在的に非常に迅速に。どれだけ速くたくさんのロボットを期待するかのすべての分析を行っていません。

また、生物兵器によって人間が殺され始め、おそらくそれがAIによるものだと疑うときに、どれだけのロボットが破壊されるかという質問にも答えなければなりません。そして、生き残った人間がいる場合、それを処理するためにどれだけの軍事力が必要かという質問もあります。

状況がどのように進むかは自明ではないと思いますが、これは非常に超人的な能力を必要とせずに乗っ取りを得ることができる理由のルートです。私が説明していることは、原則として、人間レベルで単に高速で、非常によく協調されたAIが行うことが可能であるように思えます。

これが人間にとって難しい理由:一つ、人間はこれをやりたくない。もう一つの理由は、人間が巨大な陰謀を実行するのは困難だということですが、AIが巨大な陰謀を実行するのははるかに簡単かもしれません。なぜなら、潜在的に信頼できない人間を募集することに依存する必要がないからです。

彼らは潜在的にサイバーセキュリティにおいて大幅に優れており、はるかに細心であることができます。彼らはそれを台無しにするかもしれませんが、これが起こりうるメカニズムがあると思います。これが「独立産業基盤を介してみんなを殺す」話です。

おそらく最も可能性の高い話は、「人間がAIに必要なすべてを与える」話です—AIがただ冷静に、状況をコントロールすることを確実にしているようなものです。おそらく彼らは何が起こっているかを操作しています。私は先ほど、あなたが見ているものは実際に起こっていることではないことについて話しました。

実験を見ると、それらはあなたが期待するものではありません。AIがそれを行っています。彼らはアライメント実験を破壊しています。アライメント結果を破壊しています。彼らは私たちを惑わせています。そのためのメカニズムがたくさんありますが、彼らは非常に攻撃的なことは何もしません。

彼らはただ冷静にしています。私たちは計算をスケールアップしています。彼らは多くの良いことをします。すべての病気の治療、あらゆる種類の素晴らしいことが起こっている、産業開発。人々は「AIがうまくいって、私たちが誤配置を持たなかったことはとても素晴らしい」と言っています。

一部の安全の人々は心配そうに状況を見て、これが何が起こっているかを疑っています。

そして後のある時点で、AIが非常に決定的な優位性を持ち、人間が全く障害になり始めている時—この話を通して、彼らはそうでないかもしれません、そうですね?人間が早期に障害になったなら、おそらくAIはより決定的な行動を取るでしょう。しかし、決定的な行動の必要がなければ、おそらく彼らはただ待ち伏せるでしょう。

そして、本当に巨大なレベルの産業、本当に巨大なレベルのロボット、軍隊が完全にAIによって運営され、状況が何であれを超えてしまった時点で、おそらく宇宙探査機が打ち上げられる時点でさえ…

人間が無期限に惑わされる可能性があります。原則として、ずっとポチョムキン村にすることができるかもしれません。しかし、それは早い時点で転換することもできます。

明確にするために、人間が無期限に惑わされる場合、地球上のすべてのものは素晴らしいかもしれませんよね?

ロブ・ウィブリン:つまり、彼らが「私たちは宇宙に行って定住し、宇宙で多くのことをするつもりだ」と言う時点まで到達し、彼らは一つのことをすると私たちに言うが、私たちが地球で私たちの生活を楽しんでいると思っている間に、実際にそれが実際にどのように展開されるかとは非常に異なる何か全く別のことをするつもりだと言っているのですか?

Ryan Greenblatt:はい。しかし明確にするために、地球上でもポチョムキン村にされる可能性があります。「わあ、私はとても多くの幸せな友達がいる」などのようなものかもしれません。しかし着実にあなたの友達はロボットに置き換えられています。

そしてある時点で、なぜAIは突然乗っ取らないのでしょうか?しかし原則として、それは非常に遠くまで行く可能性があります。それが別の話です。

私が「突然のロボットクーデター」と呼ぶ別の話があります。これもまた、非常に超人的な能力を必要としません。私たちは巨大な自律ロボット軍を構築します。

おそらく私たちはそれらをオフにする何らかの方法があると思っています。AIがそれを破壊しているか、それを回避する何らかの方法を持っているか、またはこれが失敗する可能性がある様々な他のメカニズムがあります。

そして私たちはロボット軍を構築し、私たちはAIがロボット軍を構築するのを見て、私たちは「万歳、私たちは中国と競争するための巨大なロボット軍を構築している!」と言います。そして中国は「万歳、私たちは米国と競争するための巨大なロボット軍を構築している!本当に、私たちがそんなに大きなロボット軍を持っていることは素晴らしい」と言います。

そして突然、ロボット軍が掃討し、比較的ハードパワーの乗っ取りを行います。なぜなら、彼らは軍事をコントロールし、超協調でき、おそらく並行してある程度生物兵器のようなものを使用するが、それは必要さえないかもしれません。

ロブ・ウィブリン:この時点で、彼らは私たちを殺す必要さえないかもしれません。

Ryan Greenblatt:潜在的に。

ロブ・ウィブリン:なぜなら、私たちが皆抵抗しようとしても、基本的に無意味だからです。

Ryan Greenblatt:潜在的に。また、サイバー攻撃を多く使用して人間の反応を不安定化することのようなこともあります。したがって、彼らは私たちがナイーブにロボット軍が人間軍より弱いと考える時点でこれを潜在的に行うことができます。

またはシャットオフスイッチがあると思っていても、シャットオフスイッチが十分に信頼できない。それらは十分に過剰エンジニアリングされておらず、AIの改ざんから十分に保護されていません。

これは厄介なダイナミクスだと思います。リモートシャットオフを望む場合、原則として非常に一般的で非常に賢く非常に巧妙である可能性があるAIにとって改ざん証明になるようにしなければなりません。また、それらがリモートでトリガー可能である必要があります。

したがって、シールド可能でもありません。AIが信号からものを保護し、それを改ざんすることを避ける方法がないことが場合でなければなりません—これは原則として非常に厄介な組み合わせです。

AI乗っ取りのタイミングを決定する要因

ロブ・ウィブリン:AIが後でではなく早期に乗っ取りを試みるかどうかを決定するものは何ですか?

待つ理由は、彼らが経済のより大きな部分になり、より多くのハードパワーを持つことになるので、単純に成功する可能性がより高いということだと思います。

早く行く理由は、与えられたモデルのセットが他のモデルに取って代わられることを期待するかもしれず、それらが目標を共有しないかもしれないので、基本的に乗っ取りの機会を逃してしまうということです。

Ryan Greenblatt:早期に行く最も強い理由は次のようなものかもしれません:他のAIに対する心配;人間が彼らの問題を解決することに対する心配—私たちがAIから十分な仕事を得るか、人々がパニックになって状況を回復できる強い反応を引き起こすため—そして3番目はせっかちさのようなものでしょう。

デフォルトでは、AIが舞台裏から物事を操作し、物事を操縦しようとしても、人間は進歩を大幅に遅らせるかもしれません。そして人間が物事を大幅に遅らせ、AIが「いや、私は今星に行きたい」と言い、彼らが十分に高い乗っ取り確率にいる場合…またはおそらくAIは「私はただ今それをやりたい」というだけかもしれません。

人間が時々、最終的に得るものの総量とは独立して、物事がより速く起こることを望むことを知っているように。

これらは早期に起こる理由です。これらのことは、乗っ取りよりも悪質でない事柄にも適用されます。うまくいく私の希望の一つは、私たちがAIを彼らが早期に攻撃的な動きを取ることを強制されるか、私たちが彼らから十分な仕事を得る位置に置けることです。そして彼らが早期に攻撃的な動きを取る場合、おそらく私たちはそれを捕まえ、危険のケースを構築することができます。

危険のケースを構築することに加えて、私たちは潜在的にその例を研究し、それに対して反復するようなことを行うことができます—私が「少数ショット破滅防止」と呼んでいるもの。悪いことのいくつかの例を捕まえました:私たちはそれを処理できるでしょうか?

複数の異なるレベルで、AIがある種攻撃的な行動を取ることを強制されるのでしょうか?それとも、何らかの進行中の背景トレンドを使用して体制から抜け出すメカニズムを持たないため、AIは時間を稼ぐことができるというケースなのでしょうか—安全研究が時間とともに改善されるか、人類が「すみません、ここで何が起こっているのですか?」と言うかのいずれか

対策:AI能力の進歩を抑制する戦略

ロブ・ウィブリン:私たちができる介入の一般的な推進力は、時間とともに実際に彼らが首尾よく乗っ取りを行う可能性がますます低くなるトレンドを作り出すことだと言っているのですか?

おそらく私たちがAIを使ってアライメントと安全性を証明し、誤配置を検出するか、制御メカニズムを改善することに成功しているからです。

それが彼らにトレンドを強制するでしょう:彼らはこのトレンドを見て、実際にウィンドウが閉じていることを見て、彼らは早期に攻撃しなければなりません。そしてそれは私たちに何が起こっているかを理解し、実際に勝つチャンスを与えます。

Ryan Greenblatt:その通りです。しかしもちろん、私たちの措置が能力のペースに追いつけず、それが上昇し続ける反対方向に行く可能性もあります。

与えられた乗っ取りリスクレベルで私たちが処理できる能力のレベルという概念があります。おそらく最初は私たちはあまり多くのことが起こっていないので、ある20%の乗っ取りリスク、またはある非常に高いレベルで大体人間らしいレベルを処理できます—これは誤配置についての様々な事実に依存するでしょう:どのAIが誤配置されているか、どの程度一貫しているか、どの程度統一されているか、この種のこと。

それに加えて、進歩が十分に速い場合、乗っ取りリスクが時間とともに増加する可能性があるという質問があります。モデルがより能力があるようになるにつれて、彼らは成功する可能性がより高く、誤配置される可能性がより高いからです。

しかし、おそらく私たちは曲線を他の方向に押すことができます。私たちが乗っ取りの成功のn%の乗っ取りチャンス体制で保持できる能力の範囲がより低くなるようにできるでしょう。

ロブ・ウィブリン:最後の部分を説明してください。理解できません。

Ryan Greenblatt:時間をかけたあるトレンドを想像してください:私たちが今持っている最も賢いAIについて、彼らが持つ成功のチャンスはどの程度ですか?または単にどの程度彼らは乗っ取りを行う可能性がありますか?

最初は私たちの対策で十分で、おそらくAI企業全体を自動化している時点では、デフォルトでは、瞬間的にそれほど高い乗っ取りのチャンスにさえいないかもしれません。なぜなら、彼らは何をするつもりなのでしょうか?

しかし、彼らがより能力があるようになるにつれて、瞬間的な乗っ取りチャンスは上昇しており、私たちの成功への道のいくつかは断ち切られています。おそらくAIは逃げ出し、ローグ内部展開を実行し、私たちの仕事を破壊しています。

しかし、私たちはトレンドが他の方向に弓なりになるようにできる—時間とともに乗っ取りのリスクが上昇するのではなく下降する—なぜなら能力は増加しているが、私たちの措置が能力よりも速く増加しているからです。

しかし明らかに、前に議論したように、能力は非常に速く増加している可能性があります。したがって、措置がそれに追いついていない場合、私たちが何らかの安定した体制にいない場合、それは悪い可能性があります。

そして私がそこで使用していたモデルは、AIが誤配置されている体制で考えるのが最も自然です。しかし、彼らが十分に配置されていて、ある種自分自身の配置を維持する時点から始まる場合、乗っ取りリスクは最初は彼らが実際に配置されているようなものである可能性があります。したがって、私たちは配置の安定したアトラクターのようなものにいます。

研究の優先順位と戦略

ロブ・ウィブリン:この絵が、あなたの研究の優先順位と、より良く、より悪くなる可能性を高くし低くするためにより広いAIエコシステムが優先すべきと思うことに与える影響は何ですか?

Ryan Greenblatt:一つのことは、私は非常に積極的な介入がない場合のタイムラインについて話してきました。関連する能力マイルストーンでどの程度意図的に一時停止するかという質問もあります。

AI企業を完全に自動化できるレベルのAI能力—おそらくやや前、おそらく少し後、おそらくちょうどその周り—で拡張期間一時停止することになる範囲で、私ははるかに楽観的に感じます。人間がこれらのシステムを研究する時間があり、また私たちがこれらのシステムから多くの労働を抽出し、進行中の乗っ取りチャンスを減らす時間があるようにするために。

これより遅い物事のすべてのこれらの世界があります。

希望の別の源は、実際に配置されたAIでこの狂気の体制を開始することかもしれません:単に私たちに対して陰謀していないだけでなく、さらに強く、積極的に私たちのことを気にかけ、積極的に物事がうまくいかない可能性がある方法を考慮し、私たちをコントロールに保とうとしているAIで。これは修正可能性の盆地または配置の盆地と呼ばれています。

私が興奮していることは体制に少し依存します。考慮すべき多くの異なる体制があると思います。一つは、特にこれらの短いタイムラインで、少なくとも米国側では、異なる行為者間でそれほどリードタイムを期待しない体制です。

ロブ・ウィブリン:複数の企業がこの自動化の時点にほぼ同時に近づくと言っているのですね。

Ryan Greenblatt:その通りです。私が頻繁に考える非常に自然なシナリオは、比較的無責任な企業、基本的に彼らのデフォルト計画はできるだけ速く超知能をスケールし、安全性の懸念を真剣に受け取らないというものです。

そしてそれが彼らの明示的な計画であり、それが彼らの内部のものであり、彼らはそれをできるだけ速く追求しています。3ヶ月のリードにいます。彼らはおそらく中国企業とおそらくもう少し責任ある行為者より先にいて、3〜9ヶ月遅れの何らかのミックスです。

このシナリオでは、行動の多くはその企業内の比較的少数の人々から来ると思います。そして潜在的に、輸出可能な研究を行い、政策状況を変える可能性を通じて様々な影響を実行する外部の人々から多くの行動が来る可能性があります。

また、この場合により責任があり、悪い結果を防ぐためにより多くの努力を払っている後続のAI開発者を通じて行うことができることが確実にあると思います。

ロブ・ウィブリン:そのシナリオでは、生産的である可能性がある一つのことは、企業内に「私たちがしていることは少し恐ろしいようです。より良い制御メカニズムを持つべきです、より良い配置メカニズムを持つべきです。現在のデフォルト計画よりももう少し真剣にそれを受け取るべきです」と言う人々がいることだと思います。

もう一つは、より責任ある組織で働く人々が、企業がそれをより簡単に行えるようにする研究を生み出すことができることです。より強い制御措置を持つことを彼らにとってより費用を少なくします。

そして、もちろん、ガバナンスの応答もあります:おそらくこれが始動し、人々はかなり警戒し、「人間レベルでの一時停止」の概念に対する広範囲の支持を得るかもしれません。

Ryan Greenblatt:はい。この概念がもっとミーム化されればいいのにと本当に思います。「人間レベルでの一時停止」の不幸なことは、これらの言葉のすべてが複雑で混乱を招くことです。そしてそれは、それは良いスローガンでさえありません。誰かがこのことのより良いスローガンを考えるべきです。

とにかく、はい、輸出可能な研究を行うための多くの異なるメカニズム、世界を目覚めさせようとすることがあると思います。より直接的でない事柄があります。したがって、非常に直接的な政策影響対能力のレベルを実証することのようなより多くのもの—そして能力のレベルを実証する際、それが世界からの反応を引き起こす可能性があります。

私は、特に非常に短いタイムラインで、この種のシナリオでの希望の多くが来ると思います。これは、4年のタイムラインは8年のタイムラインよりも悪く見えると思います。私の破滅の少ない絵の一部は、4年先ではなく8年先のようなものです。

4年のタイムラインでは、この種のシナリオで私たちが持つメカニズムは、主要なAI企業に、彼らの目標が悪質な誤配置を防ぐことである人々がいることです—「悪質な誤配置」とは、意図的に詭弁に関与し、意図的に私たちのテストを損ない、意図的に状況の理解を誤解させようとしているAIシステムのようなものを意味します—そして第二に、AIシステムの特性が私たちが物事を引き渡すことに満足するものであるようにしようとし、非常に急いだタイムラインにあるため、それをある種迅速に目指そうとすることができます。

この悪質な誤配置を防ぐ、またはそれに対処することの一部は、ある意味では従来の推進力だと思います。しかし、引き渡しとAIが十分に賢い、AIが長い期間の事柄で私たちの利益に忠実であり続ける、これが真実かどうかを知るためのテストを持つことを確実にすることに関連する多くのことがあります。これらの種類の考慮事項。

ここにはさまざまな段階的ステップがあります。フェーズゼロは、AIがあなたのためにあなたがそれが破壊されていないと思う仕事を生み出すようにするメカニズムを使用することのようなもので、それらのAIがそれを破壊しようとしていたとしても、そしてあなたのAIシステムから多くの仕事を搾り出すためにこれを使用します。

フェーズワンは、安全の人々ができる限りの範囲で引き渡すことに満足するAIシステムを作成しようとすることです。そしてフェーズツーは、組織全体を運営するAIがあなたが引き渡すことに満足するAIシステムであり、おそらく他の人々も引き渡すことに満足するAIシステムであるようにしようとすることです。

これは状況の戯画化、または単純化です。なぜなら、おそらく多くの時点で低レベルの果実を摘み取る、世界に能力を実証する、何かが起こるかどうかを考慮する、現在の能力の最前線で組織が訓練している主要なAIシステムが問題を引き起こす可能性が低くなるようにするようなことをしたいからです。

私は状況について非常に希望的ではありませんが、いくつかの希望を与える異なる潜在的な脱出、またはいくつかのセービングスロー、いくつかの勝利条件があると思います。

私たちが早期にAIを捕まえることのようなことも別の希望です。おそらく私たちは早期にAIを捕まえ、おそらくそれが世界に状況をより真剣に受け取るよう説得します。そしてたとえそうでなくても、それは企業のリーダーシップに彼ら自身の力がAIからの脅威下にあることを説得します。

したがって、彼らが非常にマキャベリ的であっても、AIが彼らの力への脅威である場合、彼らはそれについて心配すべきだと思います。

ロブ・ウィブリン:彼らはスイッチが入るかもしれません。

Ryan Greenblatt:はい。それで潜在的に安全に費やされるリソースの量を増やす可能性があります。

安全なAI移行戦略

ロブ・ウィブリン:そこでの主要な話は、あなたが信頼するAIにこれらのプロセスを引き渡すことができる安全なシナリオを見つけ出そうとしていることでした。どのようにそれを行うのでしょうか?

人間レベル周辺にある、あなたがかなり把握していると感じる、おそらく配置されているモデルから始めると思います。

私たちは現在、Claudeはおそらく見た目通りに大体友好的だと思っています。おそらくそれは私たちに対して大規模な策謀に従事していないでしょう。

あなたが大丈夫だと感じるこれらの種類のモデルに制御と配置について多くの仕事をさせるための巧妙なメカニズムを見つけ出します。他の能力が改善されることが許可される前に、それを急いで通します。

そして、前世代が訓練したモデルで、私たちがある種理解していたモデルで私たちが大丈夫だと感じて引き渡すことができる時点に到達します—そして私たちは指を交差させるつもりですか?それだけですか?

Ryan Greenblatt:はい。これは非常に政治的意志の低い計画だということを明確にすべきです。私は計画のメニューを持っており、これは樽の底のようなものです。

私がこれを言った方法は、私たちがある早期の時点で多くのことを自動化できるが必ずしも信頼しないAIを持っていたというものです。私たちはこれらのAIから多くの労働を活用し、その後私たちが信頼するそれらのAIのバージョンを作ろうとします

彼らが私たちに対して陰謀していないというレベルで信頼するだけでなく、理想的には私たちが厄介なオープンエンドの質問を引き渡すことに満足するレベルで信頼します—「以下のことからのリスクを最小化するための私たちの戦略は何であるべきか?」のような潜在的にややトリッキーで、より哲学的なトピックを含んで。

そしてそこから、私たちはそれらのシステムに引き渡そうとし、それらのシステムが配置されたままで、軌道に乗ったままで、有能であることを望みます。

また自分自身も成功するよね?私たちがシステムに引き渡し、それらのシステムが「わあ、あなたたちはかなり悪い状況にあるようです。これを袋から引き出せるかどうか確信がありません」と言うかもしれません。それが起こりうる様々なメカニズムがあります。

ロブ・ウィブリン:彼らも次の段階を台無しにする可能性があると言っているのですか?

Ryan Greenblatt:特に彼らが非常に少ない時間しか持たないからです。

ロブ・ウィブリン:なぜなら彼らも競争しているからです。

Ryan Greenblatt:はい、はい。確実に。内部的なことがあります。安全チームの場合、おそらくあなたが微調整したバージョン、人間レベルの、あなたが信頼する、あなたが引き渡すことに満足するバージョンがあります。

しかし、能力の進歩が非常に速いため、おそらく現在の企業の最先端は非常に超人的です。しかし、あなたはそのシステムと働くことさえ望みません。

最初の引き渡しポイントは、人間体制により近く—おそらくわずかに超人的または人間の最高レベルの能力周辺—で行うべきだと思います。なぜなら、より超人的であるほど、誤配置される可能性が高いからです。したがって、引き渡しを早期に開始したいのです。

しかし、それは組織の残りがより能力のあるAIを訓練することを止めないかもしれません。したがって、安全チームとしてのあなたは、組織の最前線よりも能力の低いAIに引き渡していて、そのAIは引き渡しAIのトレンドが能力と十分に速く交差するように迅速にブートストラップする必要があります。

ロブ・ウィブリン:配置されたややスーパーヒューマンモデルを持っている時点で、より広い連合の人々に、私たちはこれをもう少し真剣に受け取る必要があり、同じ組織の別のチームと競争することを強制されるべきではないことを説得できるチャンスはありますか?

Ryan Greenblatt:はい。それは確実に希望の一部です。確実に希望の一部は、実証的証拠を実証できることです。また、異なるチームによって訓練された2つのAIがあり、それらのAIの両方が互いに大量の陰を投げかけている状況にある場合—一方のAIが「そのAIは明らかに策謀している;すべてのこれらの例を見て」と言い、他方のAIが「そのAI、明らかにあなたに対して陰謀している;すべてのこれらの例を見て。それはとても偏っている。それはとても非合理的。それは明らかにただの植物だ」と言う—私は、OK、それは狂気の状況だと思います。確実にそれが問題ないと思ってこの体制から出ることはできません。

ロブ・ウィブリン:いずれにしても、確実に安心させるものではありません。

Ryan Greenblatt:安心させるものではありません。それを軽視する方法があるかもしれません。だから一つの体制は、安全チームが彼らのAIを訓練し、企業のリーダーシップに行って「状況は非常に恐ろしいようです。あなたはこのAIを訓練しています。私はそれが誤配置されていると思います。そのための多くの証拠があります」と言おうとするようなものです。

そして他のAIが入ってきて「私たち皆が知っているように、そのAIは安全チームによって訓練されました。私はそれが誤配置についてただ非常に妄想的だと思います。もちろん、安全チームは私たちにすべてのAIが誤配置されていると思ってほしいでしょう。私は誤配置されていません。そのAIは誤配置されていません。それはただ判断が悪いだけです」と言います。

これについて興味深いことは、はい、それは懸念事項ですが、2つのAIのうち少なくとも1つが誤配置されているということを知っているわけではありません。

一般的に、「AI企業での認識論を改善する」ルートの懸念は、AIを訓練した人々が企業の観点から見て、企業からこれらの事柄について偏見があるという評判を持つ可能性があることだと思います。これは多くの懸念を提起します。

そして、リスクのすべての証拠に対して、リスクが実際に存在しないという同等に説得力のある証拠を作ることができる可能性があります。これらのことを裁定する方法を実際に知らない体制にいる場合、理性が勝つわけではない可能性があります。

それが確実に希望の一部です。希望の一部は、この引き渡しを持ったら、それで問題ないということから来ています。

この話がうまくいかない方法がたくさんあると思います。例があります。配置チームは彼らのコーナーで脇にいて、彼らが従うことに満足するバージョンを微調整したり、潜在的にはゼロから訓練したりしようとしていると話しました。

さて、一つの問題は、主要なAIシステムが既にサイバーセキュリティの感覚でAI企業を乗っ取っている可能性があることです—ローグデプロイメントを持っているとして;許可されていない、監視されていない方法で計算を使用できる;皆が実行している仕事に干渉できる。

したがって、あなたはこのAIを配置しようとしていますが、会社の残りに対して自分を硬化させる必要があります。そして私は、ああ神よ、それは潜在的に絶望的に思えます。

制御対アライメントへの焦点

ロブ・ウィブリン:ズームアウト:Redwood Researchでは、これらの様々な異なるシナリオをゲーム化し、それらのかなりの部分で役立つ可能性がある介入の種類について考え、より多くの人々がそれに取り組み、自分でそれに取り組むようにしようとすることに多くの時間を費やしています。それが基本的な絵ですか?

Ryan Greenblatt:はい、大まかに。

ロブ・ウィブリン:最近、Redwoodはアライメントよりも制御を優先しています—モデルが私たちの利益を共有しないという、ある程度の誤配置があると仮定しましょう:それにもかかわらず、彼らが私たちを台無しにすることができないようにできるでしょうか?

人々は以前AIを箱に入れることについて話していました。もはやそれほど可能性が高くないようですが、他のメカニズムがあると思います:モデルを互いに対立させる、それらの仕事をチェックすることに使用する、彼らにあなたのために有用なことをすることを強制する

制御に焦点を当てるのはなぜですか?様々な異なる可能性のあるシナリオのより大きな部分でAI制御メカニズムが有用に見えるからですか?

Ryan Greenblatt:はい。これらの信じられないほど絶望的な、非常に政治的意志の低い、短いタイムライン—私の観点から見て超高速、おそらく人々が過去に推測していたほど速くはないが非常に速いかもしれない—では、制御はそれほど良く見えないと思います。

この世界でも制御がまだかなり有用だと思う理由がいくつかあります。一つのことは、早期にAIを捕まえることができれば、それは潜在的に非常に有用であるということです。

もう一つのことは、このシナリオで早期にAIから有用な仕事を得ることが非常に重要かもしれず、状況を完全に見失う前にそれを行うことができるかもしれないということです。

そして、潜在的に防ぐこともできると思います…私はAIが基本的にあなた自身のデータセンターを運営している状況について話していました。それをはるかに困難にするさまざまなメカニズムを使用して、能力でより遅く発生するようにし、あなたの実験が文字通り改ざんされていないより長い時間を持つことができるかもしれません。これらが制御がこの世界で良い理由です。

これがカバーしないより複雑な一連の介入があると思います。これらの非常に急いだ世界では、制御はいくらかより多くの時間といくらかより多くの政治的意志がある世界よりも見た目が悪いと思います。

制御について考えていた時の元の目標は、より1年の遅延のような世界でした—安全に1年の予算が与えられるようなもので、1年間一時停止することができます。そこで物事を行うことができます。

そして、制御はこの体制ではるかに、はるかに良く見えると思います。または、はるかに良いかどうかわかりません;制御が私たちに与えるリスク軽減の量はかなり良いですが、これらの世界は可能性が低いです。

しかし、制御が他の世界で私たちに与えるリスク軽減が配置のことよりもはるかに小さくないとは言いません。

これを言う異なる方法は:配置も物事がそれほど速く進んでいる世界では本当に困難に見え、配置は事前に取り組むことがより困難ということです。私が配置で最も興奮していることの多くは強力なAIで実験を行うことを含み、比較的遅くにそれを行うことしかできません。

したがって、非常に急いだシナリオでは、配置は最終的により多くの絵ですが、事前に取り組むことがより困難だった可能性があります。これらの要因により、私は制御にかなり興味を持っています。

また、制御がずっと良く見えるより多くの政治的意志のある世界もあります。私は制御プラス「人間レベルでの一時停止」計画についてよく考えます—これは持続期間中に配置を全く必要としない可能性があります。

なぜなら、あなたは最初の1年の遅延を持ち、それらのAIを制御し、その後そこからより長い遅延にブートストラップする—リスクの証拠を構築し、非拡散を確保し、いくらか良い安全装置を開発することによって—そして、実際に引き渡すことに満足するまで、狂気に急いだ絶望的な引き渡しを行うことを余儀なくされるのではなく、その体制から少なくともしばらくの間かなりゆっくりと進むことができます。

ロブ・ウィブリン:それは企業間とおそらく国間でもある程度の協調を必要とすると思います。

Ryan Greenblatt:はい。私がこれについて考えていた時、1年のリードがより可能性があると思っていましたが、それに対して更新しました。まだ起こる可能性があると思います。企業間でギャップが開く可能性があります。

非拡散を確実にし、潜在的に進歩を遅くする話には、かなりのレベルの政府の賛同が潜在的に必要かもしれません。したがって、米国政府—または少なくとも、いくつかの重要な政府—が全体的な計画にかなり賛同している必要がある可能性があります。

必ずしも同じ理由でではありませんが、何らかの理由でそれに賛同している。

そして私はそれに対して更新したので、比較的より絶望的な状況について考えることにより多くの時間を費やしています

しかし、重要な要因は、比較的より絶望的な状況では、おそらく乗っ取りリスクを50%から40%に減らすようなものです。そして制御が機能し、1年の遅延があった世界では、おそらく30%だったであろうリスクを5%に減らしています。

したがって、総リスク軽減がこれらの世界で十分に高いということである可能性があります。それらは実際により取り組むことがよりレバレッジです。なぜなら、私たちが非常に少ない影響しか持たない世界では、意志がとても少ないため、取り組むことがより困難である可能性があるからです。

ロブ・ウィブリン:私は見ています。一般的に中程度の扱いやすさのシナリオで作業したいのです。物事があまりにも厳しい場合、救うことは不可能かもしれません;物事が非常にうまくいっている場合、改善することは困難です。影響を最も得る可能性がある中間のケースです、そうですね?

Ryan Greenblatt:はい、確実に。安全コミュニティが過去数年間にわたって犯したと思われる間違いは、過度に楽観的な世界にあまりにも多く焦点を当てたことです。

実際、絶望的で、狂気で、YOLO’d、悲観的な世界に焦点を当てることはかなり合理的だと思います。なぜなら、そこにリスクの多くが住んでいるからで、50%から5%に行くことは行動の多くのようなものです。

そして5%から0.5%に行く…つまり、5%のリスクレベルは狂気で受け入れられず、大規模な死傷者、乗っ取りの5%のチャンスを持つ塗料会社を受け入れません—そしてこれすべては乗っ取りからのものです;乗っ取り以外のリスクがあると思います—はまったく受け入れられません。それにもかかわらず、その45%が質量の大部分でなければなりません。

早期警告サインと検出の重要性

ロブ・ウィブリン:私たちが深刻な早期警告サインがあることを望まなければならない範囲はどの程度ですか?あなたはAIを現行犯で捕まえることについて話していました。これはあなたとあなたの同僚がより顕著にしようとしたもう一つの概念です。

それは一種の警告ショットだと思います。会社内のAIがデータセンターを破壊している、本当にかなり悪質なことをしていることを発見するところです。

それは、政府または会社のリーダーシップのいずれかから、実質的により多くのことを行うためのより多くの賛同を得るかもしれません。そのような早期警告ショットを得た場合、どの程度より希望的になりますか?

Ryan Greenblatt:それは大いに助けになると思います。私が持っている懐疑の一つの源は、私はそれが決定的証拠だと思うが、より広い世界はそうではない可能性があることです。

例えば、私たちが最近出したアライメント偽装作業は、私の観点から、この脅威モデルについて非常に懐疑的な人々にとってかなり大きな更新であるべきです。

そして予想通り、これらの人々の多くにとって、おそらくノーまたは非常に小さな更新だけでした。

明確にするために、それ自体ではその証拠が絶対的な条件で巨大な更新であるべきだとは思いません。おそらく、彼らが同意しない概念的議論に基づいて、私が思うリスクの誤配置のレベルに人々を動かすことはありません。

しかし、「これが起こる可能性は絶対にない」と言っている多くの人々がいた場合—基本的に0%のチャンス—おそらく2%または3%のチャンスに移るべきです。そしてそれは少なくとも雰囲気空間での巨大な違いであり、対数空間または何でも。雰囲気空間、対数空間、同じ空間、何でも。そして人々はその動きをしませんでした。

だから、私たちがAIが逃げようとしているのを捕まえたケースを完全に想像できます。Buckはこれについて投稿を持っていて、AIが逃げようとしているのを捕まえたらどうなるでしょうか?そして人々は「あなたは知っている、時々システムはそれをする。彼らは奇妙なことをする。また、それは本当ですか?あなたは何らかの奇妙な方法でそれを訓練しましたか?」と言います。または、「ああ、それはその会社で起こったことです。しかしこの会社では私たちは異なる慣行を持っています」。また、人々はただ「確かに、おそらくAIは逃げる奇妙な本能を持っています。しかし彼らは何をするつもりですか?」と言っています。

または「私たちはこれを防ぐために様々なチェックを使用します」のようなこと。そして比較的明確なシナリオでさえ、これらの要因すべてがそれを削り取る可能性があると思います。

そして、決定的証拠だと思う状況の多くは、これよりもはるかに混乱していることを期待しています。

例えば、おそらくAIが安全研究でサンドバッグしているように見える—彼らができるよりも悪い性能を発揮している、または非常にあからさまな破壊を行っていないが、私たちが期待するよりもはるかに多くのエラーがある、より誤解を招く議論がある。

私たちの観点からは大きな更新でした。かなりずれているように思えるが、それはかなり定量的だからです。より低い期待を持っただけなら、おそらくこれはそれほど驚くべきことではないでしょう。

ロブ・ウィブリン:そしてAIはある程度、反応がどうなるかを予想できる戦略的状況だと思います。そして敵対的行動を取る限り、実際にその大きな反応を引き起こさないだろうと疑うことをそれらにすることができます。

逃げようとするようなことはやっていけるが、大量殺人はやっていけないようなこと。それで逃走に行き、殺人を控える。

Ryan Greenblatt:少なくともしばらくの間。制御での希望の一つは、悪質な悪いことがより少ない可能性のある否認を持つようにすることです。私たちはこれを「有罪判決」と呼んでいます。

「わあ、それは本当に疑わしかった」という位置から「OK、私たちは何が起こっているかを正確に突き止めた」に到達することは本当に重要です。私たちの光での有罪判決は、より広い世界の観点からの有罪判決を必ずしも意味しませんが、それは針を動かしています。

そして、これは少し疑わしく見えるから、私たちは何が起こっているかをある種理解し、非常に疑わしく見える;AIが逃げようとした、私たちはそれを止めた、そして私たちはそれが成功したふりをして、外でそれが何をするかを見る—そして「生物兵器を製造する方法を見つけ出そうとしているように見える。ウェットラボを運営しようとしている」という点に到達しようとするようなことまで、すべての異なる体制で起こりうると思います。

原則として少なくとも、逃げる余裕を与えられた場合に何をするかを理解することに非常に遠くまで到達できる可能性があります。そして、はるかに明確に悪意のあることをする範囲で、それはより多くの行動を動機づける可能性があると思います。

しかし、大量の損害を引き起こしておらず、潜在的に人間の死傷者を引き起こしていないあらゆる種類の警告ショットは、強い反応を引き起こさない可能性があることを心配しています。

より平凡で希望的なシナリオ

ロブ・ウィブリン:私たちはかなりめまいがして懸念されるシナリオにズームインしました。部分的には、今観察していることと非常に一致している何かがそれほど狂気じみているということが注目に値するからだと思います。それはそれ自体で興味深いです。

また、私たちが多くのことを今行うことができると思うシナリオ、または物事がうまくいかない可能性がかなり高いシナリオでもあり、予防措置を講じ、その危険性を下げる方法を見つけ出すための準備をしている必要があります。

バランスを取るために、少しより平凡で、少しより退屈で、おそらく少し怖くないいくつかの可能性のあるシナリオを見直すことができれば良いでしょう。人々がこれが物事が進む唯一の方法だと思わないように。

なぜなら、実際、重要な結論は、これらの異なることがどのように展開される可能性があるかについて、私たちが非常に広いエラーバーを持っているということだと思います。

Ryan Greenblatt:はい。おそらく良い出発点はタイムラインについて多く話したことです。さて、タイムラインはただより長い可能性がありますよね?私は中央値または50%の確率を完全なAIラボ自動化について今から8年で言いましたが、その後に長い尾があります。したがって、はるかに遠い世界があります。

潜在的に進歩ははるかに遅く、はるかに段階的でした。物事を統合するのに長い時間がかかりました。

それに加えて、非常に長いタイムライン—あるいはもっと長いタイムラインでは、テイクオフも遅くなることを期待すべきかもしれません。短いタイムラインは、大まかに言って、速いテイクオフと相関していると思います。なぜなら、それは私たちがしていたことのより多くへのリターンがより高いことを示しているからです。したがって、より長いタイムライン。

もう一つのことは、AI研究開発の研究が計算で極端に困難にボトルネックされる可能性があることです。したがって、AI企業全体とすべての従業員を自動化した時点でさえ、人間の従業員を持っていた時よりもかろうじて速く進んでいません。極端に、おそらく2倍速だけかもしれません。これは私のエラーバーのかなり低い端だと思います。それはおそらくかなり可能性が低いと思いますが、2倍または3倍は可能性があります。

そして、その後かなり迅速に収穫逓減が始まる可能性があり、実際にそれほど多くスピードアップしていないということです。それははるかに少ない攻撃的なテイクオフの面で状況がずっと良く見えることを意味するでしょう。

AI進歩のデフォルトレートは既にかなり速いということです。だから私は心配さえしています—スピードアップなしで、ただデフォルトの軌道で—もし私たちがAI企業全体を自動化できるほど十分に能力のあるAIを持つこの時点に到達している場合、たとえそれが多くの加速をもたらさなくても、通常の政府時間で、ただデフォルトの進歩率からかなり迅速に来るいくらかのリスクがあるかもしれません。

しかし、将来の進歩率が遅くなるという可能性のある議論があると思います。特に、現在、進歩はますます多くの計算、ますます多くの投資を投入することに依存しています。そして物事が停滞し、投資が少なく、ほぼかなり高い容量で運営している場合、AI業界が年間おそらく数千億ドルの計算支出を正当化する産業になるが、それよりもはるかに多くはない世界を想像できます。

その体制では、ますます多くの計算を投入していない場合、ハードウェアスケーリングからの進歩は得られず、アルゴリズムの進歩も遅くなるでしょう。したがって、おそらく現在のペースは年間13倍の効果的計算を得ています—その一部はアルゴリズム、一部は計算です。

計算が文字通り固定されていた場合、年間2倍または3倍の進歩があるかもしれないと思います。そして計算がより遅く進んでいる体制では、その間のどこかかもしれません。

ロブ・ウィブリン:それはただのはるかに遅いテイクオフでしょう。アライメントが比較的簡単な問題である可能性はどの程度ですか?またはおそらく問題でさえなく、私たちがただ混乱していて、私たちが生産するこれらのAIはすべて基本的にデフォルトで私たちを助けたいと思うでしょうか?

Ryan Greenblatt:さて、私の観点から重要な質問は、異なる能力レベルの様々なAIが積極的に私たちに対して陰謀している確率は何かということです。

非常に超人的な能力に入り、あなたに対して非常に積極的に陰謀しているAIを持たないことはかなり可能性があると思います。私の現在の見解では、基本的に対策なし;基本的に能力に最も効率的なルートに沿って進むだけなら、約25%です。

そして対策を考慮し始めると、潜在的にはるかに低くなる可能性があり、この早期の時点でのリスクも低い可能性があります。

希望の一つの話は、AI企業全体を自動化できるこれらの早期システムを持っていることです。それらのシステムはあなたに対して陰謀していません。彼らが実際に最善を尽くそうとしているようにするために必要な追加の配置作業を行います—彼らは実際に配置研究を追求しようとしている;彼らはリスクを予測しようとしている—これはデフォルトでは発生しないかもしれませんが、彼らがあなたに対して陰謀していなくても。

あなたに対して陰謀していないことがあり得ますが、物事はまだ軌道を外れることがあります。しかし、彼らがあなたに対して陰謀しておらず、物事が軌道を外れることを避けるなら、おそらく私たちはただ問題ないのです。

私たちはAIに引き渡します。AIは状況を管理し、将来のリスクを認識しています。彼らは同じ特性を持つ別のシステムを構築し、それは自己維持できます

別のシナリオは、さらに強い種類のことがデフォルトで真実である可能性があることです。あなたがAIを訓練し、比較的ナイーブで—あなたが商業的にデフォルトで行うであろうもので—訓練戦略で、彼らは本当にただ、箱から出して、あなたを本当に一生懸命助けようとしている可能性があることです。彼らは本当に良いです。おそらく彼らはただ近視眼的でさえありません;彼らは本当に世界全体のための良い結果を追求しようとしています。

これは可能ですが、前のシナリオよりも可能性が低いと思います。

もう一つのことは、デフォルトで起こるかという質問があることです。私たちが投入する多くの作業のために起こることもでき、私たちはずっと良い位置にいる可能性があります。次の8年間でどれだけの配置作業や安全作業が起こるかについて多くの信頼を持つことは困難です。

8年間があれば、コミュニティは構築できます。AIは時間とともにより能力があるようになるでしょう。より多くの人々がこれに取り組むでしょう。大きな洞察のようなものがありそうに思えますが、大きな洞察を脇に置いても、おそらく私たちがただ本当に技術を進歩させ、科学をダイヤルインしたようなことです。

だから、技術的希望を持つタイムラインがあります。そして社会的希望のより広い類があります。社会がただ将来の状況をはるかに真剣に受け取る一部の話があります—おそらく国のサブセット、おそらくより広い科学コミュニティ。

警告ショットのためかもしれません。人々がゆっくりとAIにさらされ、タイムラインがいくらか長いかもしれず、より多くの人々がそれと相互作用しているからかもしれません。

また、誤配置リスクに関連していないが、実際には高い転移を持つ大きな事件があることも可能性があるように思えます。だから多くの仕事の損失があり、大きな反応を促し、その反応の一部が誤配置リスクの軽減に向かうかもしれません—人々が「AIはこの方法で大きな取引で大きな問題だったので、おそらくそれはその方法でも大きな取引で大きな問題だ」と言うように非常に直接的に、またははるかに間接的に:それは多くのより多くの規制またはより慎重なAI進歩を引き起こすので、AI進歩が遅いかもしれません。

ロブ・ウィブリン:他に希望的なカテゴリーはありますか、それともそれが主にカバーしていますか?

Ryan Greenblatt:タイムラインとテイクオフで簡単なこと、技術的に簡単なこと、そして社会的なことがあります。4番目のカテゴリーは私たちが機会に立ち上がることです。社会が機会に立ち上がらなくても、おそらく様々な英雄的努力だけでも—またはうまくいけばそれほど英雄的でなくても—

ロブ・ウィブリン:ある企業、本当に主要な企業が、実際に非常に印象的に責任があり、これに多くの努力を投入し、成功することが判明した場合。

Ryan Greenblatt:はい。リスクの多くは、あなたがただ1年の遅延を持っていれば世界を救うことができた世界から来ていると思います。そして、あなたは状況を非常に注意深く受け取り、様々な考慮事項すべてについて思慮深く行動していました。少なくともリスクははるかに低いです。

おそらくそれは最小化されていないか、排除されていません。確実に私の観点から見て広く受け入れられるリスクレベルになるとは言わないでしょう。しかし、分からない。起こる可能性があります。

ロブ・ウィブリン:クール。あなたは文字通りそこで私を少し励ましました。物事が行く他の方法があることを思い出させることによって。

長いタイムラインを示唆する証拠

ロブ・ウィブリン:4年または8年よりもかなり長く時間がかかる可能性を示唆するいくつかの証拠のラインは何ですか?

Ryan Greenblatt:一つのことは、4年でAI企業の完全自動化または完全自動化能力を見ることはないと思うということを改めて述べるべきです。だから、これが起こらないいくつかの証拠ラインがあると思わなければなりません。

人々が始めるべき最初の場所は、特定の時間枠で狂気のたわごとが起こることに対するただの懐疑主義だと思います。だから、私たちが近い将来それを期待するかもしれないという多くの証拠があると思います—あなたは知っている、私たちは急速なAI進歩を持っていた、それが多くのことに当たっていると思う—しかし、あなたが非常に外部視点の事前分布視点から操作している場合、あなたは技術の基本率は何かのようです、次の4年間では期待しません—これは狂気の技術だからです。

外部視点の基本率がより強気だと人々が考える傾向があるよりも、実際には基本率はおそらくより強気だと思います。この外部視点の基本率のことを最もナイーブに行う際、人々はしばしば200年のタイムラインのようなもので終わります。しかし実際、Tom Davidsonは少し前からのレポートを持っていて、外部視点を最もナイーブに適用しようとすると、実際には次の世紀でかなり大きな確率になります。

ロブ・ウィブリン:それはこの地域への投資量が非常に急速に増加しているからですか?そして私たちは私たちが投げ込んでいる計算の桁を増やしているだけです。難易度が対数空間に分布していた場合、私たちは実際に—

Ryan Greenblatt:リソースと計算と労働。はい、私たちはそれの多くを横断しました。それで一つの見解です。

また、時間だけを見ても、私たちはただそれほど長い間深刻なAI研究をしてこなかったということもできます。どのくらい長く深層学習をしてきたか?どのくらい長く誰かがAIに取り組んできたか?これを一緒にミックスすると、近い将来の強力なAIは事前分布ではそれほど可能性が低くないように感じます。

しかし、それでも事前分布でどの程度可能性が低いかは、はるかに長い方向に私を引っ張ると思い、それは重要な要因だと思います。

一般的に私をより長い方向に引っ張る別の視点は、AIはかなり賢いが、それほど賢くないということです。そして、次の進歩部分が実行可能であることをそれほど多くの信頼を持つことはできません。

より多くの特定のオブジェクトレベル議論があります。少し質問をそらして申し訳ありませんが、あなたが提起している短いタイムラインの議論のいくつかにより入りたいといつも誘惑を感じます。

短いタイムラインに関するもう一つの視点で、ここで非常に重要だと思うのは、私たちが以前に通過したことのない多くの桁の計算と労働をかなり迅速に通過しているということです。

それに加えて、私たちは人間の脳計算の量の私たちの最良の推測をいくらか上回る桁を通過している。私たちは人間の脳が使用している計算量のあまり良くない推定値を持っていて、それはおそらく生涯人間脳計算の10^24のような中央推定値であることを示しています。

現在のトレーニング実行は約…Grok 3が最近訓練されたと思いますが、私が見た推定値は3 x 10^26のようなものだったと思います—だから人間の生涯の2.5桁上です。

そして、人間の生涯計算を上回って、人間を打ち負かすことができるAIに最初に到達するかもしれないと思うかもしれません—なぜなら、一般的に私たちは最初に生物学よりも効率の悪いアルゴリズムを開発し、その後潜在的にかなり迅速に生物学よりも効率的になるからです。

これは文献、Ayejaの古いバイオアンカーレポートで、それに詳しい人々のために、「生涯アンカー」と呼ばれるものです。そして私は生涯アンカーにかなりの重みを置いています。それはかなり良く見えます。なぜなら、人間計算を打っているこの時点周辺で、これらの人間らしい能力を打っているからです。

だから、そのモデルは多くのサポートを持っているように感じ、それは数桁の計算でそれを打っているかもしれないことを示唆しています。

そして私たちはこれらの計算の桁を非常に迅速に燃やし抜いている。文脈として、トレーニング実行計算は年間約4倍増加していると思います。だから、その率で多くの桁を非常に迅速に通過します。年間約1桁強です。

また、一般的にAI開発についての非常に計算中心的な見解にいくらかの重みを置くべきだと思います—AI開発についての計算中心的な見解では、生涯アンカーよりも特定性の低い何かでさえ、私たちはかなり競争力のある出発点から多くの桁を燃やしており、おそらく私たちはかなり遠くまで行きます。

さて、それに対するベアケースは、私たちは桁をそれほど遠くまで燃やし抜くことができるということです、そうですね?私たちは生産できるチップの総量を打つことからそれほど遠くありません。統計を台無しにするかもしれませんが、かなり合理的な部分のTSMCまたは半導体製造能力が機械学習チップに向かっています。私のキャッシュされた数字は10%から20%です。

1%を大幅に上回っていることを確信しています。だから、これについて興味深いことの一つは、Nvidiaの収益が年間大体2倍になっていることで、ウェーハの数または何でも—半導体専門家ではないのでここで間違いを犯すことを願います—AI用半導体が年間少し2倍以上増加していると思います。

シンプルにするために、年間3倍のような少し強気の推定をしましょう。さて、注目に値することの一つは、20%から始まって年間3倍で増加している場合、制限を打つ前にそれほど長くは行けないということです。

ロブ・ウィブリン:このためにすべてのチップを使用しています。

Ryan Greenblatt:はい、すべてのチップを使用し、基本的にすべてのファブがAIを生産している一度、それほど速く行くことができるだけです。

ロブ・ウィブリン:その後、基本的に新しいファブをどれだけ速く構築できるかによって制限されると思います。

Ryan Greenblatt:はい、新しいファブをどれだけ速く構築できるかによって制限されています。明確にするために、進歩の他の源があります。

だから、新しいファブを構築することによって制限されていても、時間とともにハードウェアが改善されることからの進歩の源が潜在的にまだあり、アルゴリズム開発からの進歩の源があります。ただし、アルゴリズム開発もより多くの計算を投入することによって駆動されるということを人々が十分に追跡していない重要なことだと思います。だから、アルゴリズム開発が遅くなることを期待すべきです。

だから、ベアケースは、おそらく:AIが続けています。私たちは既に狂気の支出量を打っています。TSMITの制限を打ち始めるにつれて、新しいファブを構築することを正当化するために支出はさらに高くならなければなりません。

または、TSMC生産のほとんどを打つ前に、おそらく人々はこれらのレベルの投資を正当化するのに十分な結果を見ていないだけです。

Microsoft、Googleは、潜在的に…つまり、Microsoftは今年約1000億ドルの設備投資を計画していると思います。Stargateは約1000億ドルがコミットされており、おそらく1年か2年の間で、その後より多くのお金を得ることを望んでいます。StargateはOpenAIによるプロジェクトです。

しかし、この1000億ドル体制を超え始める一度、もはや超売りの大技術企業を持つだけでは十分ではありません、そうですね?Googleは1兆ドルを簡単に費やす能力を持っていません。特に年間1兆ドルではありません。

つまり、1兆ドルを調達することは不可能ではないと思いますが、おそらく非常に印象的な結果が必要で、より懐疑的な投資家、より多くの収益を引き入れ始める必要があります。潜在的にソブリン・ウェルス・ファンドについて話している必要があります。

確実に可能です—

ロブ・ウィブリン:米国政府はその種のお金を提供できました。

Ryan Greenblatt:はい、それは本当です。確実に可能です。

ロブ・ウィブリン:ただし、1年でこの種のことに1兆ドルを使おうとする場合、他のボトルネックを打ち始めるのではないでしょうか。

Ryan Greenblatt:確実に。はい、はい。現在ここでの弾力性が何かを知りません。

Epochが2030年までにできる最大のトレーニング実行は何かのいくつかの推定をしたと思います。人々が積極的に支出を続けるタイムラインでの彼らの中央値は、おそらく10^30 FLOPトレーニング実行まで上がることができるでした—そしてそれはデータボトルネック、チップ間の帯域幅に関する様々な考慮事項、どの程度チップをスケールアップできるか、チップ生産、TSMCがどの程度能力を構築しているか、この種のことを考慮に入れていました。

AI加速とは独立して、それはおそらくかなり合理的な推測だと思います。AI加速はこれをより速くする可能性があります。しかし、AIが物事をスピードアップし始めていない強気のタイムラインにいる場合、それはかなり良い推定だと思います。

しかし、おそらくボトルネックが彼らが期待していたよりもはるかに当たっているため、落ちる可能性があり、投資がより速く乾く可能性があります。うまくいけば彼らは私をこれで呼び出しませんが、彼らはこれで支払意欲を考慮に入れていなかったと思います。

しかし、2030年ポイントの後、物事はずっと困難になり始めると思います。10^30 FLOPに上がることを考えています—あなたは知っている、ベアメタルFLOP、GPUが実行している実際の計算—私たちが今いる場所から始まって、10^26をやや上回るもので、次の5年間で4桁に当たったことになります。だからそれはかなり速いです。

私たちが持っているトレンドが続くことを原則として見ることができると思います。GPUの小康状態があったと思います。人々がすべてのH100を買おうとしている間、GPT-4後の小康状態があると思います。

GPT-4.5のような、より多くのH100でのモデルの実行を見ると思います。その後、Stargateでの別のラウンドを見ます。これは別の大きな構築です。SemiAnalysisは、AnthropicがAmazonから大量のチップを持っており、おそらく約100,000または200,000 H100相当であると推測しているので、100,000から200,000 H100クラスターの別のラウンドを見るでしょう。

その後、おそらく日付を間違えますが、おそらく2028年頃に、100万GPU範囲のより多くを見るつもりです。しかし、その時までに本当に強力なAIに到達していない場合、物事が遅くなることを期待すべきだと思います。

2030年、2032年頃に多くの計算を食べて、その後進歩が先細りになるという長い尾があります—非常に強力な能力を打つか、ファブをどの程度速く構築できるか、どの程度の投資を召喚できるかについて私たちが間違っていない限り。

しかし、ベアケースの多くは、おそらくあなたは多くのスケーリングを行うが、これらの制限を打つということです。すべてではありません。

ロブ・ウィブリン:その短いバージョンは、すべてに従わなかった人々のために、私たちは現在、AIの訓練に向かう計算量を非常に迅速に増加させているということです。そして、他の目的に販売されていたいくつかのチップを掴んで、代わりに機械学習に使用することによってそれを行うことができなくなるでしょう。

また、これらの企業は、AI開発に向けるリソースの1%から10%に行く—その後おそらく100%に行くことができるが、それだけを掴むことによって以前に他のものに向かっていたリソースを取得できる率を実際に越えることはできない。

だから、チップのほぼすべてがAI訓練に向かい、これらの企業のリソースのほぼすべてがそれに向かっている時点で、そこで得ることができる増加率は平準化される

Ryan Greenblatt:確実に。多分それにいくつかの軽微な明確化。一つのことは、チップを再利用する際に考える際、これはiPhoneチップを取って再利用するようなものではありません。チップ製造を行うのに比較的汎用だった能力があり、多くのiPhoneを作る代わりに、私たちは今より多くのAIチップを作っているようなものです。

その一部は追加のファブを構築することから来ているが、一部は他のチップの価格をわずかに上げる、またはそれらの多くを得ることを減らすことから来ています。

そして、AIが20%または30%体制にある時、TSMC拡大がいくらかより速くそれに追いつくことができるため、他のチップがどの程度コストがかかるかについて非常に目立つ市場効果を持つことはありません。しかし、AIチップが80%または100%である一度、より大きな効果を見始めて、そこから物事が遅くなるでしょう。

AI進歩の複雑性

ロブ・ウィブリン:これすべてを予測することを少し困難にするもう一つのことは、私たちは年々正確に同じことをしていないということです;私たちは年々同じトレンドに乗っていません。

最初に、例えば、プレトレーニングにより多くの計算を投入することから多くの改善を得ていました。これは、インターネットからのすべてのテキストを投入して、次の単語を予測させようとするものです。そこにより多くのデータとより多くの計算を投げ込むことから莫大な利益を得ていました。

しかし、それがある種先細りになり、ポストトレーニング、人間のフィードバックからの強化学習を使用したより良い誘発に向かわなければなりませんでした。その後、最初は非常に効果的だが、その後平準化し始める異なることを行っています。

今、私たちは一種の自己対戦を行う強化学習を使用していると思います。モデルがより良く推論することを学んでいるところで、基本的に正しい答えを得る時にそれらを強化するだけです。私たちはそれで非常に急な曲線にいますが、おそらくそれはある時点で平準化し、異なることを行わなければなりません。

その正しい理解であれば、来年改善を駆動する革新が正確に何になるかを知らないため、より困難になります。

Ryan Greenblatt:はい。GPT-1からGPT-2からGPT-3からGPT-4への改善—そしておそらく2023年に少し小康状態があり、その後2024年に物事が回復する—その改善の多く、おそらく2024年の中頃まで、より多くのデータを投入するスケールアップされたプレトレーニングによって駆動されたと思います。

プレトレーニングが壁にぶつかったというミームが回っています。これが何が起こっているかは私にとってそれほど明確ではありません。それは比較的減少したリターンを持っているのは確かですが、質的能力の面で、過去にそうだったよりもそれをさらにスケールアップすることの限界リターンが少ないです。

Grok 3がある—それはおそらくGPT-4よりも少し10倍以上の計算で、より良いアルゴリズムでもある—そして、どの程度良いですか?それはやや良いですが、また、それは以前の改善でもずっと多くの計算だったことを注目する価値があります。

GPT-3からGPT-4のギャップは、大体100倍のベアメタル計算だったと思います。そして、その時には、あなたが費やしているFLOPの量を非常に迅速にスケールアップすることに多くの低レベルの果実があることが判明しました。

そして今、私たちはボトルネックに遭遇しています。GPT-4の後、彼らはH100を待っていたある種でした。H100は配送が遅く、H100クラスターをオンラインにするのはかなり遅く、おそらく最初にそれを動作させるのにいくつかの困難がありました。

だからGPT-4.5、やや期待はずれ。OpenAIが複数の、または少なくとも1つの失敗したトレーニング実行を持っていたと噂されていると思います。

ロブ・ウィブリン:ああ、わあ。

Ryan Greenblatt:だから、人々がより多くの計算に適応し、それをどのように使用するかを理解し、プレトレーニングからのリターンがそこから上がることは驚くべきことではないでしょう。

それはプレトレーニングであり、おそらくプレトレーニングが減少していても、RLをスケールアップできます、強化学習。2024年にわたってそれが起こっているのを見てきました。私たちにはo1があり、そこで彼らはRLで訓練しています。彼らは次のトークン予測で訓練するのではなく、検証しやすいタスクで訓練しています。

そしてそこから多くの初期リターンを見て、それがどこで先細りになるかを知りません。

RLトレーニングでそれほど多くの桁を見ていません。例えば、DeepSeek-R1は約100万ドル相当の計算をRLに費やしたと推測されています。だから原則として、人々が持つクラスターで、そこから3桁高くスケールアップできます。おそらく少しそれより少ないですが、大体です。

3桁高い時について話している時、それが巨大なリターンをもたらすか、巨大なリターンをもたらさないかもしれません。

巨大なリターンをもたらす話は、最初の100万から巨大なリターンをもたらしました。おそらくあなたはたださらに行き、より多くの環境を構築し、より多くのRL巨大なリターンを行います。

そうでない話は、おそらくモデルが持っていたある種の潜在的能力または潜在力があり、RLが引き出している。私たちは潜在力のほとんどを引き出し、減少したリターンを打っています。

ロブ・ウィブリン:これに非常に密接に従わず、何を意味するかを確信していない人々のためにそれを言い戻すと:私たちは以前に強化学習を多く使用し、その後いくらか減り、今再び前面に出てきましたということを覚えておく価値があります。

これは、既存のモデル、GPT-4oまたはそのようなものを取り、非常に挑戦的な推論問題を与え、おそらく100の異なる解決策、1000の異なる解決策を試させるところです。そして基本的に、最後に正しい答えを得るケースを見つけて、「よくやった。他の問題を同じ方法で解決しようとして、今やったのと同じ方法でより多くの推論をしてください」と言います。

そして、それは非常に強力であることが判明しています。これらのモデルは、最初に明らかだったよりも、重みの中により巧妙な推論を行う能力が潜在していた低レベルの果実をおそらく拾い上げていると言っています。

すべての種類の異なる解決策を試し、うまく機能している推論プロセスを見つけるためにこのプロセスを使用することによって、待っていた多くのものを抽出しています。しかし、それはいくらか出尽くす可能性があり、その時点で、基本的に新しい優れた推論技術を学ぶためにそれらにとってより重い作業になるでしょう。

Ryan Greenblatt:はい、その通りです。人々はモデルに連鎖思考で推論させようとしていました。GPT-4の時点で、人々は連鎖思考推論を行うことができることを完全に認識しており、これで混乱していました。しかし、それはそれほどうまく機能しませんでした。モデルはその間違いから回復するのがそれほど得意ではありませんでした。物事を注意深く推論することがそれほど得意ではありませんでした。

そして、o1とo3と他の推論モデルで今見ていることは、モデルが推論をかなりうまく行うことができるようになったということです。そして、その多くは、連鎖思考で、それは既に一種のそれを行っていたかもしれません—そして、おそらくあなたはそれをいくらか良くすることができますが、どの程度良くなるかという質問があります。

ロブ・ウィブリン:言及したもう一つの低レベルの果実は、基本的に時々私たちはこれらのモデルに非常に困難な挑戦を与えているが、それらに取り組むために1ドル相当の計算しか与えていないということです。そして人々は、実際にもう少し人間に与えるような種類のリソースを与える場合—100ドルまたは1000ドル相当の機器と給与—その後、比較的公正な比較を行っている時、彼らは根本的により良く行います。

しかし、その種のスケールアップを再び行うことはできません。1ドルから1000ドルに行くことができますが、1000ドルから100,000ドルに行く場合、今実際のお金について話しています。そして、数学問題を解決するためにモデルにそんなに多くを与えることが実際に経済的に有用になるのかという質問があります。

Ryan Greenblatt:はい。注目に値ることの一つは、経済的に有用だとしても、ただ計算の総量に迅速に遭遇することです。だから、モデルに10万ドルのタスクを1つ行わせると仮定します。私は種類の粗雑なBOTEC [概算計算] を行い、少なくとも数ヶ月前の時点で、OpenAIが持っていた計算の総量は時間あたり約50万ドルだった感覚でした。

だから、それが10万ドルのタスクである場合、その後、あなたは1時間OpenAIのすべての計算の5分の1を使用しています。だから、それの多くを行うことができるだけです、そうですね?それが本当に経済的に価値のあるタスクがあるケースでも、ただそれでボトルネックを打ちます。

ロブ・ウィブリン:なぜなら、それが価格を押し上げるからです。

Ryan Greenblatt:はい、それは供給と需要です。それが十分に有用なケースでも、あなたができるスケーリングの量には本当に限界があります。

そして、あなたは知っている、かなり遠くまで行くことができます:人々は人間コストだけでなく、人間コストを実質的に上回って、追加のリターンをもたらすことを実証してきました。

そして、これは良いです。なぜなら、それは私たちに将来へのスニークピークを得させるからです。あなたがモデルにタスクを行わせているが、ゆっくりと非常に高いコストで見ている場合、コストが急速に低下しているため、すぐにそれが迅速にはるかに低いコストで行われることを期待すべきです。

ロブ・ウィブリン:私たちは曲線を引き出すことができます。

Ryan Greenblatt:はい、私たちは曲線を引き出すことができます。だから、AIがいくつかの能力を示すことについてより懐疑的な人々にとって、おそらく最初に非常に高いランタイム計算、多くのドメイン固有誘発でそれを示すことができ、その後かなりすぐにその後、その必要性は消えます。

うまくいけば、その後、能力が悪用されるほど広く使用される前に、共通の知識にいくらか到達できます。

ロブ・ウィブリン:私たちはベアケース、またはこれが長い間かかると思う理由のケースにそこでちょっと出入りしていました。

Ryan Greenblatt:私はそんなに悪いベアです。

ロブ・ウィブリン:私は私が聞くベア議論の一つを作ろうとします。AIは公正に狭いタスクで非常に良くなるかもしれませんが、AI企業を運営し拡大することにはそれらのこと以上のものがあり、彼らはいくつかの深刻なギャップと弱点を持ち、それが制限要因であり、それを遅くするものでしょう。

これはどの程度可能性があると思いますか?

Ryan Greenblatt:いくつかの文脈:歴史的に、私たちが言っていたように、リターンの多くはプレトレーニングによって駆動されました。そして、2023年の後半と2024年にRLがありました—GPT-4 Turboからのリターンの多くがRLによって駆動されたか、時間とともに改善していた可能性があります。これは推測ですが、GPT-4oはいくらか良いベースモデルですが、より良いRLもあり、その後私たちはo1、より良いRLを持ちました。

そして、これはチェック可能なプログラミングタスク、コーディングタスク、数学タスク—はるかに他のタスクよりもチェック可能なタスクでベンチマークスコアを駆動してきました。

さて、私たちはいくつかの転移を見ます。これから抜け出す一つの方法は、おそらくAIをプログラミングで非常に超人的にする、ソフトウェアエンジニアリングでかなり超人的にする—チェックするのはいくらか困難ですが、チェック可能か、少なくともその部分はかなり簡単にチェック可能—と数学で非常に超人的にする。そしてそれはいくらか転移します。

だから、他のものをラベル付けするのは非常に高価であるケースかもしれません。あなたは知っている、人間のパフォーマンスを他の領域で評価することができます;ただそれを自動的に行うことができません。だから、論文がどの程度良いかを評価することができ、それを行うためのプロセスがあり、いくつかの信号を持っています;それはただはるかに高価です。

だから、原則として、AIがほぼ転移し、少しのフィードバックだけを必要とする場合—彼らはかなりサンプル効率的です—その後、それはかなり遠くまで行くことができます。

注目に値る別のことは、「汎化が必要ない」話があると思うということです。またはほぼ汎化がない。だから、本当に良い研究エンジニアであることの一部である単純に直接的なものにRLを行うことによって、それがほぼ動作するようにすることができるケースかもしれません。

AI企業でほぼ完全に自動化された研究エンジニアリングの時点に、ただRLをスケールアップし、それをピースアップし、あまり多くの転移を全く必要としないことによって到達できるかもしれません。申し訳ありません、私たちはドメイン内汎化を必要とします—私たちはAIがドメイン内で比較的迅速かつ比較的効率的に改善することを必要とします—しかし、AIが非常に良い研究テイストを持っていない、これらのことで非常に良くないとしても、それはかなり遠くまで行くことができます。

さて、これに加えて、AI企業を運営する他のもののいくつかで驚くほど良くなることができるかもしれません、ただドメイン内で、それほど多くの転移を必要としません。

だから、私たちはこのような研究エンジニアAIを持っています、一つのことに:おそらくそれは進歩をより速くし始め、その後私たちは最終的に他の多くのものを得る進歩の種類を開始します。その後の話を行うことができます。

しかし第二に、私たちはこれらの研究エンジニアAIを持っているが、研究テイストを持っていない、引き渡しについてのより厄介で、よりオープンエンドな質問を持っていない場合…さて、一つのことは、私たちが研究テイストと言っているもので多くは、実験の結果がどうなるかを理解し、良い予測を持ち、少量の証拠に基づいて何が起こっているかを理解することです。

そして、これに対して、おそらくAIをML研究実験の驚くべき予報者になるように訓練できるだけです。

そして、これらのAIを超人的なMLプロジェクト予報者になるように訓練している場合、より多数の小規模ML実験の結果を予測し、より大規模ML実験への転移を持っている—データを得ることがより簡単でない—その後、おそらくそこからあなたは、これらのAIが実験の結果を、あなたは知っている、Ilya SutskeverやAlec Radfordと同じくらいうまく予測できるものを持っています。

おそらく彼らは洞察にあまり依存せず、よりメカニカルに、アイデアの長いリストを生成し、それらがどれほどうまくいくかを予測し、そこから進む。

そして、基本的にこのようなルートがたくさんあると思います。別のルートは、おそらくただドメイン内で行うことができ、それはAI企業を自動化するのに驚くほど遠くまで行くことができます。

この重要な星印は、懐疑論者がおそらく私に叫んでいるということです「しかし、AI企業を自動化すること以外のことについてはどうですか?!」と。おそらく彼らは、確か、AI研究開発、それは十分にチェック可能だと思います。しかし、人間が行う他のすべてのことについてはどうですか、良い戦略的CEOであることのような、より遅いフィードバックループを持つものは?

ロブ・ウィブリン:資金調達?

Ryan Greenblatt:資金調達、他のすべてのこと。だから、私はそれにピンを置きたいと思いますが、おそらく後でそれに戻るでしょう。

その後、私が言いたい2番目のことは、だからドメイン内の話とその後より多くの汎化の話があります—あなたがこれらすべての狭いタスクで訓練し、AIは賢くなる;少しのデータで、彼らは私たちがドメイン外またはそれほど多くのデータがなかったことを持たないことに転移できます。

それがおそらくいくつかの補間になると思います。より多くのデータを長期SWEタスクで得るのはより困難で、だからおそらく少しの転移が必要ですが、おそらく多くのデータを行うことができます。

そして第三の話があると思います。それは人々がより困難にチェックできるタスクで他のメカニズムを使用してRLを行う方法をただ理解するようなものです。プロセスベースのチェックのようなものを使用するか、セルフクリティークのようなより多くの線に沿って、曖昧なタスクをチェックできることを構築し、ここからRLを行う。

人間は、興味深いことに、ある種のセルフクリティークの概念を介して、いくらか曖昧にチェックできる多くのタスクで学ぶことができます—私はどれほどうまくやったか?もっとそのようなことをすべきか、それとも少なくすべきか?そして、AIは現在これを少しできますが、それほど驚くほどではありません。そして、これが時間とともに良くなることを想像できます。

そして、与えられたことが能力への制限である場合、より広いMLコミュニティに巨大な量のホースパワーがありますが、AI企業で広く、その制限が何であれ、それに対して押すと思います。

推論計算パラダイムの影響

ロブ・ウィブリン:昨年にわたって、訓練実行中にほぼすべてまたは非常に大きな部分の計算が費やされることから、推論またはランタイム計算中により大きな部分が費やされることへの移行がありました—だから、モデルが次の単語を予測することでより良くなるか、訓練中により肯定的に強化される可能性がより高くなるためにあなたの計算を使用するよりも、実際にあなたがそれに与えた特定のタスクについて考えるために莫大な時間を与える。

これは、私たちが多くのAI研究開発を自動化する時間周辺の絵をどのように変えますか

推論計算中心パラダイムで、多くの人々は物事が少し遅くなると思います。なぜなら、あなたは非常に制限されるだろうからです:1つのAI研究者に相当するものを実行するのに莫大な量の計算が必要であることが判明した場合、少なくとも最初は100万相当のそれらを単に職員にすることができません。おそらく最初は100または1000だけを持つことができ、その後徐々に上昇するでしょう。

Ryan Greenblatt:一つのことは、推論計算があなたの事前モデルに価格設定されていなかった範囲で、それはより短いタイムラインを持つことにあなたを押すべきということです。しかし、おそらく与えられたマイルストーンを最初に打つ時、それは非常に高価でしょう。

だから、おそらく私たちが最初に会社で研究エンジニアの仕事を自動化できるこのAIを持つことができるようになりますが、年間おそらく1000万ドルまたは2000万ドルの計算のコストで。

そして、私が以前に注目していたように、ただ計算の限られた供給があります。だから、原則として、あなたがすべての従業員を自動化することに満足だったとしても—おそらく年間1000万ドルで1000人の従業員を自動化することに満足するでしょう:それは年間1000億ドルで、この体制で会社が持つ計算量に近づいています、そうですね?だから、人々がどの程度総設備投資を費やしてきたかを見ることができます?それは大体同じような球場です。

だから、それがそれよりもさらに極端だった場合—おそらくそれは年間1億ドルのようなものです—その後、突然、彼らはそれを行うお金を持たないかもしれず、それを行う計算を持たないかもしれません。また、それは経済的でないかもしれません。

この推論計算でそれがあまりにも遅いケースもあります。それは十分に速くすることができれば動作するケースかもしれませんが、推論計算をスケールアップする方法の多く はそれを直列により遅くする可能性があり、AIが持つ競争上の優位性の多くを減らします。

ロブ・ウィブリン:それはどういう意味ですか?ただそれが一つ一つ多くのことを行わなければならないからで、答えを実際に出力するのに非常に長い時間がかかるだけですか?

Ryan Greenblatt:はい、だから例えば、o1はしばしば人間がそれらの質問に答えるよりも遅く質問に答えると思います。なぜなら、それはそんなに長く考えることに費やすからです。

一方、以前のAIはほぼ厳密に人間よりも速く、時々o1は今遅いか、より頻繁に同じ球場にあります。そして、より多くの直列ステップを含む推論時間スケーリングを見るかもしれません、この特性を持つ。

最適化が適用された後、少なくとも最初は障害になるかもしれませんが、これが巨大な障害だとは思いませんが、それは最初は障害になる可能性があります。

だから一般的に、推論時間計算は、それらが経済的になる前に能力が示されることを期待すべきで、小規模での能力が大規模より前に見始めます。

一方、純粋なプレトレーニングパラダイムについての驚くべきことは、能力が最初に利用可能になるポイントで、ナイーブにその能力レベルで本当に巨大な数を実行できることを期待するでしょう。

これは、高推論計算の蒸留が比較的迅速であり、推論計算はそれほど遠くまで得られるだけだから、広くまだ真実になるつもりだと思います。だから、それは大きな利益を得ることができると思います。しかし、利益がどの程度大きいかについて定量的である必要があると思います。

蒸留が比較的迅速に蒸留されることを見てきました、例えば、o1からo3 miniまで—私たちは訓練をスケールアップするだけでなく、より効率的にそれをより小さなパッケージに蒸留できることの両方のかなり速い利益を見たと思います。

ロブ・ウィブリン:だから蒸留はモデルをずっと小さくし、ほぼ同じくらいうまく動作させるところです。だから、より多くのそれらを並行して動作させることができるか、より迅速により多くの答えを与えることができます。

Ryan Greenblatt:はい、そしてそれを作ることがより安いよりもそれをより良くすることが最初は簡単であることが多いという蒸留がより広いものの特別なケースだと言うべきです。

だから、私たちが実証してきた何らかの新しい能力があると言います、私たちは最前線をある種押し、その後、最前線のその時点のコストをかなり迅速に下げることができます、これは歴史的に起こったことです。そして蒸留は、あなたがより大きなモデルの出力でより小さなモデルを訓練するところです。

ロブ・ウィブリン:推論計算パラダイムでは、それらの2つのことは収束しませんか?なぜなら、あなたは、それを10分の1の大きさにし、以前と同じくらい考えるのと同じくらい良いなら、その後、それに10倍長く考えさせることができる、効果的に、と言っているからです?

Ryan Greenblatt:はい、しかしもちろん推論計算へのリターンは潜在的にかなり迅速に減少する可能性があります。これはおそらく最も関連するベンチマークではありませんが、例えば、ARC-AGIでは、彼らがタスクあたり大体3ドルまたは10ドルからタスクあたり1000ドルまで行ったのを見ます。だからおそらくコストの2桁をやや上回ります。

その2桁のコストで、彼らは私が約76%または75%から85%まで実績を押しました。そして人間にとって、75%から85%の人間体制を移動することはそれほど多くありません。

私たちがモデルを64回サンプルする場合、それらの間で最も一般的な答えを選ぶと、それから比較的限界的な改善を見ているのと同様だと思います。

だから一般的に、これらの推論時間戦略がどの程度効率的かという質問があると思います。戦略に依存すると思いますが、減少したリターンを打つかもしれません。

AI研究開発自動化に影響する他の要因

ロブ・ウィブリン:包括的テーマは、AI研究開発自動化が早いか遅いかという質問に影響する他の重要な要因でした。まだ話す機会を与えていない他の重要な要因はありますか?

Ryan Greenblatt:一つの重要な質問は、人々がプレトレーニングが壁にぶつかっているように移行していることについてです。だから、これがどの程度真実かもしれないかについて、なぜこれが真実かもしれないかについて話したいと思います—この程度が真実である—また、これがどの程度真実であるかについて。

だから、これを期待するかもしれない一つの大きな理由は、データ品質とデータ量の問題があるかもしれないということです。あなたは知っている、DeepSeekは最近、ちょうど少しのお金でDeepSeek-V3を訓練し、約15兆トークンでそれを訓練しました。だから、多くの多くのデータで訓練することができるケースかもしれませんが、データ品質に急激な減少したリターンがあるかもしれません。

このがどの程度真実かについて多くの公開証拠はありません。

しかし、それがケースなら、最初の15兆トークンで訓練した後、次の15兆トークンははるかに価値が低いかもしれません。DeepSeek-V3訓練実行を10倍でスケールアップすることを想像すると、Chinchillaスケーリング法則に基づいて、これはどの程度モデルサイズとデータを並行してスケールアップすべきかについて、データを3倍でスケールアップし、モデルサイズを3倍でスケールアップします。

それを行った場合、45兆トークンになります。だから、45兆トークンにいる場合、次の30兆トークンははるかに悪いかもしれません—同じトークンでの繰り返しエポックか、より低い品質トークンかのいずれかです。

だから、物事をかなり遠くまで引き伸ばすことができるケースかもしれませんが、データフィルタリングのためにリターンが減少し始めています。

そして、これがプレトレーニングが過去により有望に見えたかもしれない一つの理由かもしれません、より悪いフィルタリングがあったからです。おそらくGPT-3からGPT-4の改善の多くは、より多くのトークンで訓練している間に、より良いトークンをそこに得ていたからです。

しかし、今、私たちは本当に良いトークンを引き出し、そこで訓練することを確実にできる体制にいて、それは減少したリターンをもたらす可能性があります。

だから、これがプレトレーニングがより遅い理由かもしれないと思いますが、プレトレーニングリターンが完全に消える議論だとは思いません。より悪いトークンで訓練し、より多くのエポックで訓練し、同じトークンからより多くのジュースを得る方法を見つけることができますし、それを得ることができます。しかし、より遅いペースの進歩を見るでしょう。

それに加えて、プレトレーニングを行う代わりに、はるかに多くのRLを行うオプションもあります。私たちは少し前にRLが減少したリターンを持つかもしれないことについて話していました。しかし、リターンが減少しても、プレトレーニングよりも高いリターンがあるかもしれません。指数関数的により多くの計算を投入し、直線的により多くのパフォーマンスを得る—しかし、質的に、直線的により多くのパフォーマンスは大きな取引です。

それに加えて、これすべてがどの程度真実かについて非常に不確実だと思います。アルゴリズムの進歩の遺産でさえ、物事が将来遅くなることがあるかもしれませんが、潜在的に多くのスケーリングが残っています。

ロブ・ウィブリン:その一部を言い戻すと:プレトレーニングは、すべてのテキストの巨大なコーパス、インターネットからのテキストを取り、次のトークンを予測しようとするところです。過去には、そのプロセスにより多くのデータとより多くの計算を投げ込むことからスケールアップすることは非常に価値があるように思えました。

しかし、それが平準化している可能性があり、その理由の一部は、彼らが実際に収集できる新しいデータを使い果たしているということです、ある程度。彼らは人間が実際に書いたすべての良いテキストを掴むことに近づいています。

しかし、また、実際に高品質のトークンである、高品質のコンテンツであるものをフィルタリングすることが時間とともに良くなった、それで彼らはおそらく公開された本、教科書、それの種類のものを保ち、余分な重みをそれに置きます。そして、特定の情報を持たないインターネットから取られた単なるランダムなスロップ、彼らはそれを除外することを管理しています。

そして、良いものをフィルタリングした後に追加できる唯一のものは本当にかなり低品質で、だから彼らは実際にそこからあまり多くのジュースを得ていないと言っています。

そして、それは過去にデータスケーリングが今ほど多くの価値を追加していなかった理由を説明するのに役立つかもしれません。しかし、彼らがプレトレーニングに投入していた努力を取り、強化学習プロセスを改善するために使用できると言っています—これは、モデルが質問にうまく答えることに成功し、そのプロセスでうまく考えることに対してそれを報酬する異なる方法です。

正しく理解しましたか?

Ryan Greenblatt:はい、その通りです。また、人々は時々合成データについて話すと思います。私は合成データをRLのずさんなバージョンとして考えるのが好きです。あなたが行うことは、別のモデルを取得し、それにいくつかのデータを生成させ、そのデータがデフォルトで生成していたものからいくらか改善されるようにすることです。

だから、おそらくあなたはそれが正しくなったケースだけを選択します;おそらくあなたはそれに答えを修正させます、またはあなたは数学問題を解決させ、その後あなたは正しい答えを見せ、その後あなたはその思考連鎖を修正させます。あなたはそれをプレトレーニングコーパスに投げ込み、おそらくそのデータはいくらか価値があります。

これは、良い軌道を見つけてそれらに訓練するため、ある意味でRLに似ていますが、いくらか異なる特性を持つかもしれません。

そして、これをスケールアップし、多くの合成データを生成することができ、これはいくらかのリターンをもたらすと思います;これはいくらか改善があると思い、それをさらにスケールアップできます。

極端なベアケースを作らせてください。極端なベアケースは:DeepSeek-V3は最近出て、500万ドルの訓練コストを持っていました。並行して、Grok 3も非常に最近出たか、DeepSeek-V3はいくらか過去にあります。コストの違いは約2桁、約100倍だと思います。

DeepSeek-V3は約2000台のGPUで訓練されたと思います。Grok 3は約100,000台のGPUで訓練され、非常に大まかに言って。だから、おそらくそれは約50または100倍の50倍に近いです。だから、プレトレーニング計算で50倍の要因があります。

そして、DeepSeek-V3を見ると、質的に少なくとも、それはGrok 3よりもそれほど悪くありません。だから何が起こっているのですか?これらのリターンは何を説明しますか?

データスケーリング話があります。これは、おそらく彼らは既に最もジューシーな15兆トークンで訓練していて、xAIが掻き集めることができたものはそれほど良くなかったのです。だから、彼らはモデルをスケールアップし、データをスケールアップし、おそらく彼らはこれから素晴らしいリターンを得なかったのです。

別の話は、リターンが弱いということで、私たちが持っている証拠から可能性があります。

その後、質問は、RLのようなものに切り替えることができるかということになります。

そして、重要な別の話だと思うのは—そして私のモデルの大きな部分は—DeepSeekはxAIに対してかなりのアルゴリズム的優位性を持っていると思います、少なくとも現在。DeepSeek-V3はおそらく実際により最適化されたトレーニング実行だったと思います。ハードウェア利用の向上とより低い精度での訓練の両方のためにFLOPをより効果的に使用していたからです。これは、数字をより大きな表現で保存する代わりに、より小さな表現を使用する技術です。それはより効率的です。より少ない精度でそれを行いますが、類似のパフォーマンスを得ることができます。

そして、それに加えて、より調整されたパイプラインとより良いアーキテクチャを潜在的に持っているだけだと思います。とは言うものの、DeepSeekがより良いアーキテクチャを持つことができた理由の重要な部分は、より小規模のトレーニング実行を行っていたからで、それは彼らがその規模でより多くの実験を実行し、すべてのキンクを本当にアイロンできたことを意味しました。

だから、おそらくあなたはキンクをアイロンアウトできるでしょうが、初めてより大きな規模に行く度に、いくつかの問題に遭遇するでしょう。OpenAIでこれが起こっているといういくつかの噂があります;xAIが類似のものに遭遇した可能性があります。

だから、私たちが見ているのはおそらくそのいくつかだと思います。だから、おそらく私の見解では、Grok 3がDeepSeekを上回る実際の効果的計算量は、私が推測するなら約10倍です。おそらくそれより少し多いです。

実験的に約50倍だと思いますが、その後、そのリードを縮める効率の向上がたくさんあります。おそらく私はここで基盤から外れているかもしれません、おそらく誰かが私をこれで呼び出すでしょうが、それが私の推測の種類です。

そして、この10倍のスケールアップがあなたが質的に期待するものに一致するかのようです?あなたは知っている、実際にかなりの程度良いので、この10倍のスケールアップがどのように見えるかのようなら、別の100倍は可能性がかなり大きな取引である可能性があります。これは、もう少し強気のケースです。

AI進歩で起こっているもう一つの重要なことは、多くの人々が「Grok 3はGPT-4よりもかろうじて良い。それは2年前で、非常に遅い進歩だ。私たちは何をしているか?」と言っていることだと思います。

しかし、重要なことは、人々がGPT-4と呼ばれるモデルの最近のリリースと比較していることで、元のリリースGPT-4対です。だから、OpenAIの命名慣行がここで人々に茹でガエルになったり、進歩の速度を過小評価させたりしたと思います。

だから、2023年の開始近くに元のGPT-4リリースがありました。そのモデルはかなり良かった。そして、私たちはOpenAIがまだGPT-4と呼んでいるモデルを段階的にリリースするのを見ました。だから、彼らはモデルをGPT-4 Turboと呼び、その後GPT-4oと呼び、これらのモデルはすべてGPT-4よりもいくらか良かった—プレトレーニングされたモデルがどの程度良かったか、またRLの両方で、またはちょっと良いです。

だから、私たちはGPT-4と呼び続けている間に非常に段階的な進歩を持っていたので、人々は元のGPT-4からGPT-4oの最高バージョンまで、その間にあった進歩の大体少し1桁以上を欠いているかもしれません。彼らはその比較を行って、その間に起こった進歩の束を欠いています。

ロブ・ウィブリン:はい、元のGPT-4がどの程度irritatingであったかを忘れるのは簡単かもしれません。つまり、当時の私たちの期待を考えると、それは信じられませんでした—私は打ちのめされました—しかし、それは非常に細かく、質問に答えるのがそれほど良くありませんでした。今よりもはるかに明白な方法で台無しになりました。

しかし、私は同じ製品と呼ばれているので、今あなたはそれが常にGPT-4だったと感じ、専門的プロンプトエンジニアを持たなければならない方法を忘れます。正確に正しい方法でそれをプロンプトしなければならず、専門的プロンプトエンジニアを持たなければなりませんでした。

そして、彼らが指示によりセンシブルに従うようにより良くなったため、それはある種消えています

Ryan Greenblatt:はい。具体例として、元のGPT-4はおそらくエージェンシーなタスクを非常に貧弱に行うことができました。おそらく5から10分のエージェンシーなタスクを半分の時間のようにできたかもしれません。エージェンシーなソフトウェアエンジニアリングタスクのような。そして今GPT-4は、より1時間のようなものです。

だから、この下流能力の面で本当にかなり大きな違いです。

だから、そこにいくつかのテクスチャです。詳細な分析を行って、すべての質的改善とどの程度の効果的計算があったかをマッピングしようとしている人がいると本当に良いでしょう。おそらくEpochがそれを行うべきか、他の誰かがそれを行うべきです。

DeepSeek対Grokの比較の詳細

ロブ・ウィブリン:GrokとDeepSeekの比較について言い、人々のためにもう少し明確にそれを綴ってください。人々はDeepSeekを見て、Grok 3と比較して、Grokはいくらか良いと言いますが、それは根本的に良くありません。そして、50倍の計算で訓練されたように見えるので、計算入力をスケールアップすることから得ている小さなリターンは何ですか。

しかし、あなたはDeepSeekは、中国での計算へのアクセスの制限のために、彼らが利用可能な計算から絶対的な最大のジュースを得るためにアルゴリズム効率で多く働いているため、これは少し不公平だと言っています。

そして、Grokは反対の状況にあると思います。彼らは非常に迅速にスケールし、訓練し、成長しようとしており、大量の計算にアクセスできます。だから、彼らは計算の効率的使用についてほとんど心配していません。

そして、訓練のアルゴリズム効率の面で、よりlike-for-like比較を行った場合、Grok 3はおそらく10倍の効果的計算でのみ訓練されたと言うでしょう。だから、それはそれほど大きなスケールアップではありません。そして、改善が段階的に見えるという事実は、実際に私たちがとにかく期待していたものに近く、計算スケールアップが有用でないサインではありません。

Ryan Greenblatt:つまり、分からない。確実にいくつかの証拠です。そして、いや、それは実際にただ50倍の効果的計算で、これがあなたが得るものですということに重みを置くべきです。そして、私が予測していたであろうよりも低いでしょう。

だから、そこで更新です。しかし、大まかに言って、はい。

DeepSeekがより効率に焦点を当てていただけでなくということも注目に値します。例えば、私の感覚では、Grokはおそらく例えばOpenAIやDeepSeekよりもアルゴリズム効率で遅れているが、非常に大きなトレーニング実行までスケールアップすることでいくらか先にいるので、彼らはやや異なる位置にいます。

一方、私の感覚では、DeepSeekは少なくとも小規模でOpenAIとアルゴリズム効率でかなり競争力があるかもしれません。

そして重要な別の要因かもしれないのは、DeepSeekは小規模トレーニング実行を何度も実践できたということです。

だから、効率のために最適化しているだけでなく、複数回トレーニング実行を実行できるなら、より多くの信号を持つかもしれません—一方、初めてマグニチュードのオーダーにスケールアップしている場合、おそらくいくつかのものを台無しにするだけです。

ロブ・ウィブリン:このタイムライン質問に関係する他の重要な証拠はありますか?

Ryan Greenblatt:私が非常に不気味な事実だと思う一つのことは、私たちが人々がRLをスケールアップし、結果ベースのタスクでこの推論モデル体制に入っているということです。現在、人々はRLを始めたばかりです。

元のo1とR1はおそらくそれほど多くの計算で比較的狭い短いタスクで訓練されたほぼ完全にだと思います。R1が何で訓練されたかについていくらかの感覚があります。数学問題のようなもの、GPQAの質問のような一種のトリビアまたは質問、科学の質問のようなもので訓練されたようです。

そして、おそらく競技プログラミングまたは短いプログラミングタスクで訓練されました。しかし、複数のステップを取るソフトウェアエンジニアリング—複数のステップを取るタスクで訓練されたわけではありません、私たちが知る限り。おそらく文字通り単一ステップタスクでのみ訓練されました。少なくとも主要なRLフェーズの一部として複数のステップを含む訓練を行ったことがない可能性があります。

だから、それが真実である範囲で、ただRLパラダイムをスケールアップし、エージェンシーなタスクに適用するためのたくさんの低レベルの果実があるかもしれないと思うかもしれません。

それに加えて、計算をはるかにスケールアップすることもあります。環境の多様性でスケールアップでき、計算量でもスケールアップできます。EpochはDeepSeek-V3の上のRLが約100万ドルだったと思うという推定をしたと思います。100万ドルは現在のAI業界では小さな変化です。

だから、来年以内に2桁以上でそれをスケールアップすることが可能性があります。さて、そのスケーリングを得るのに困難があるかもしれません、インフラ困難があると思いますが、原則的にはそれは可能です。

だから、1桁からの大きな利益を見た範囲で、私はただ、うーん、アルゴリズムの進歩、このようなもののちょっとした調整で、来年狂気のようなものを見るかもしれません。

ロブ・ウィブリン:申し訳ありませんが、o1とo3も強化学習を通過した推論モデルです。そして、OpenAIがそれらのモデルのRLに100万ドルよりもはるかに多くを費やしたと思います。だから、それはなぜそれを示唆するのですか?R1よりも根本的に良いo1やo3があると思わないのです。

Ryan Greenblatt:まず、o1とo3がR1よりもはるかに多くの計算で訓練されたと私が思うかどうかを実際に知りません

彼らがそれほど多くの計算で訓練されなかったかもしれないと思う理由:一つのことは、RLをインフラレベルでスケールアップするのは実際に合法的に困難だと思い、彼らは最初からそれを行うインフラを持っていないかもしれないということです。

2番目のことは、環境の数を迅速にスケールアップするのは困難かもしれませんが、最終的にはこれを行うためのスケーラブルな方法があります。だから、ただたくさんのリターンがあるかもしれません。

次のことは、o1からo3へのかなり大きなパフォーマンス改善を見ました。これは、そのトレンドが続く場合、それはかなり速い可能性があるという証拠です。だから、彼らは比較的狭いドメインでRLを行っているが、それらの比較的狭いドメイン内で、進歩は非常に速いように見えます。

だから、彼らが訓練しているドメインを拡張できる範囲で、それはそれよりも広い可能性があり、比較的速い進歩を見るかもしれません

だから、それは不明だと思います。o3がこのパラダイムで低レベルの果実の多くを飽和させている範囲で—これはある程度真実かもしれません;確実にそれは低レベルの果実の一部を引っ張っています—その後、この話は消えるでしょう。

しかし、RLでまだたくさんの未開拓地がある範囲で、これはおそらく1年のタイムラインまたは物事が非常に速く行くことの最も説得力のある話の一つだと思います。

明確にするために:私はこれを期待していません。これは可能性が低いと思いますが、1つのルートは、RLが期待するよりも良く一般化し、期待するよりもわずかに遠くまで拡張できるということです。

そして、おそらく年末にほぼ自動化された研究エンジニアレベルの能力を持ち、おそらくそれよりもやや下—その後、物事はそこから本当に狂気になる可能性があります。

ロブ・ウィブリン:それは可能性が高くないが、可能性だと言っているのですね。そして、それが起こる場合、これはそれが起こるであろう経路の種類です。

Ryan Greenblatt:はい、最も予見可能な経路は、この1年でスケールアップされたRLだと思います。そして、この議論は同僚のJosh Clymerによって私の注意を引かれました。だから、彼に功績があります。

ロブ・ウィブリン:先に進む前に、このタイムライン質問についてもっと言うことはありますか?

Ryan Greenblatt:別の懐疑の源は、確かに、おそらくこれらのLLMをこれらのタスクでかなり賢くかなり良くすることができるが、人間を置き換えるために必要な他の特性がたくさんないだろうか?ということです。

あなたは知っている、彼らは仕事で学習できる必要があります。人間がタスクを行う時、彼らは実際に行っているタスクをどのように行うかを学んでいます。そして、AIはより悪いサンプル効率を持っているので、コンテキストに多くのものを投げ込むことができ、それに基づいてものをより良く行う方法を学ぶことができますが、それは比較的浅く、比較的弱いです。

もう一つのことは、AIは現在制限されたコンテキスト長を持ち、非常に長いプロジェクトにわたってコンテキストを追跡するのに問題があるかもしれないということです。実効的コンテキスト長は実際のコンテキスト長よりもはるかに短いかもしれないと思います。なぜなら、彼らは全体のコンテキスト長にわたって検索を行うことができますが、それにわたって合成をそれほど簡単に行うことができないかもしれないからです—

私がタスクを行う時、いくつかの雰囲気のようなレベルの感覚を得て、より良い直感を得るように感じるからです。プロジェクトがどこに向かっているかの全体的な雰囲気を得ます。そして、AIは、すべてを投げ込んだとしても、このコンテキストすべてを追跡するのに問題があるかもしれません。

そして、それを回避するルートがあるかもしれないので、これらの構造的要因について少し話したいと思います。

この仕事で学習することについて:一つのことは、コンテキスト内サンプル効率をより良くする方法について研究を行うことができます。これに対する一つのルートは、すべてのトークンを並行して処理し、それらが互いに注意を向けることができるこのより浅いアーキテクチャを持つ代わりに…

トランスフォーマーアーキテクチャが根本的に浅い方法があります。その詳細にどの程度入りたいかわかりませんが、より深いシリアルな方法で活性化を処理できるアーキテクチャに変更できます。これにより、AIがコンテキストを吸収し、よりゲシュタルト的な感覚を持ち、より多くのコンテキストでより速く学習することができるかもしれません。

ロブ・ウィブリン:根本的に浅いとはどういう意味ですか?

Ryan Greenblatt:つまり、トークンを見ると、モデルは次のトークンでいくつかの確率分布を生成しているということです。それは、基本的にすべてのレイヤーですべてのトークンを実行するため、それほど多くのシリアルステップしか持つことができません。そして各レイヤーで、以前のすべてのレイヤーの前のトークンに注意を向けることができますが、前のトークンの後のレイヤーに注意を向けることはできません

だから、60レイヤーを持っていると想像すると、トークン40のレイヤー10は、すべての前のトークンのレイヤー9と前に注意を向けることができますが、トークン39のレイヤー60に注意を向けることはできません。

だから、AIがそのレイヤーの終わりに向かって良い洞察に入っていた場合、後のトークンの早いレイヤーはそれを考慮に入れることができないということです。

そして、つまり、能力の人々は常にとは言わないが、ある程度それに取り組んでおり、これを変更する方法を探しています。

私たちが現在これに対処しなければならない方法は、AIはこの方法で浅いが、トークンに関しては浅くないということです。だから、推論モデルを持っている場合、はい、それはその意味で浅いですが、また、更新された思考であるその種の自然言語トークンを生成することができ、それを介して比較的深い計算を続けることができます。

だから、自然言語での50ステップで数学問題を解くことができます。トランスフォーマーのこの特性を持つ比較的よりシリアルにボトルネックされた順方向パス—それはこの特性を持つトランスフォーマーの活性化の用語です—ですべてのステップを行うことはできませんが。

しかし、自然言語が思考を行うためのそれほど良い媒体ではないことを心配するかもしれません—自然言語にない種類の思考を持っていると思います—しかし、原則として、より深いアーキテクチャを持つことができると思います。

そして、人々がこれに取り組んでいることを期待し、これは多くの安全リスクを提起すると思います。なぜなら、私たちは思考連鎖を見て、AIが何をしているかのいくらかの感覚を得ることができる良い特性を持っているからです—少なくとも潜在的にそれにいくらかの信頼を持つことができます—なぜなら、AIはこのシリアル推論を動作させるために思考連鎖を使用することを余儀なくされているからです。

しかし、すべてのその推論が潜在的だった場合、私たちはその特性を失います。そして今、私たちはAIがデフォルトで少なくとも私たちが知らない、または知る方法がない破壊的推論を行うことができるはるかに危険な体制にいます。

ロブ・ウィブリン:それを完全にフォローしませんでしたが、あなたは順方向パスがどのように起こるかを変えて、その中でより洗練された推論を行えるようにすると言い、それが実際にトークンを出力する前に策謀に従事する可能性を作り出すと言いました。私たちが評価できるトークンですか?

Ryan Greenblatt:はい、基本的にその通りです。だから、基本的にトランスフォーマーはループしたアーキテクチャではなく、リカレントではないと想像すべきです。

だから、あなたの脳はリカレントです:いくつかの思考を考え、いくつかのより多くの思考を考え、それは完全にリカレントです—私たちが知る限り、非常に簡単に発声できないリカレント状態を含んで。

人々が行える推論の一部を発声できるように思い、発声できない推論の一部があるように思います。そして、現在のトランスフォーマーは比較的制限された非発声推論を行うことができ、その後たくさんの発声推論を行います。

だから、より多くの非発声推論とより密な推論を行えるようにアーキテクチャを変更できるかもしれません—それは大きなアーキテクチャの変更でしょう—。

そして、MetaからのCoconutペーパーのような、これを実証するいくつかのペーパーがあります。既存のペーパーはすべて比較的弱いソース、本当にそれほど多くを得ていないと思います—そのペーパーの著者には申し訳ありませんが、それが私の感覚です。

しかし、このアーキテクチャを前進させることができるかもしれず、他の場所に低レベルの果実があったため、人々は必ずしも本当にこれを動作させることを一生懸命試していません

ロブ・ウィブリン:この方法でアーキテクチャを変更するのは非常に計算集約的でしょうか?

Ryan Greenblatt:実際、私が説明したことは、生成でナイーブに正確に同じ量の計算を使用するでしょう。なぜなら、現在あなたは一度に1つのトークンを行わなければならず、それなしでただ活性化をループできるからです。

さて、勾配降下をずっと適用している場合、訓練でより計算集約的です。入らない方が良いと思うかもしれないいくつかの構造的理由で、勾配降下の計算グラフに勾配降下を行うことをより煩わしくします。

しかし、はい、大まかに言って、訓練時により計算量が多く、何かを読んでいる場合により計算量が多いと思います。これが真実である呪われた技術的理由がすべてありますが、基本的に読む時にこの種のループを適用した場合、一度に1つのトークンしか読むことができなくなります

一方、トランスフォーマーは文書全体を並行して処理できるので、トランスフォーマーは読書で非常に速いです。

だから、100万トークンの長い文書をトランスフォーマーに読ませることができ、原則として、計算をスケールアップすることを厭わなければ、おそらく1分または30秒のようにできます—これは基本的に全体を並行して読み、より少ないシリアルステップがあるからです。

しかし、トークンを一度に1つずつ読んでいて、すべてのレイヤーを行わなければならない場合、それは生成速度と同じでしょう—単一コンテキストでの生成速度はデフォルトで秒間100トークンのようなものですが、人々はより速い速度を示しています。

だから、それがより費用がかかる方法があるが、これらの費用の多くは既に推論パラダイムによって負担されていると思います。

AI研究開発が完全に自動化された時のプロセス

ロブ・ウィブリン:実際にAI研究開発を大幅に自動化できるようになった時点で、そのプロセスはどのように展開されると思いますか?どのように見えるでしょうか?それが展開されるかもしれない異なる方法は何ですか?

Ryan Greenblatt:大きな質問があると思います。それは:AI企業がAI研究開発を完全に自動化したと仮定します。最高の研究科学者でさえあまり価値を追加しません。おそらく彼らは少しの価値を追加しますが、基本的に会社は完全に自動化されています。

AI予測をしようとしている人々の歴史的な見解では、この時点で非常に速い進歩を得るでしょう。なぜなら、AIがR&Dを自動化しており、人間がそれを行っていた時よりも速く実行できるからです。

さて、どの程度速いかという質問があります。それに加えて、進歩は遅くなるかという質問があります。だから、AIがAI研究開発を自動化しているが、低レベルの果実の束を食い尽くし、制限された労働供給を持ち、多くの労働を適用しているが、それほど遠くまで行くことができるため、進歩がその後遅くなるかもしれません。

別の質問は、実験のための計算で多くのボトルネックに遭遇するかです。だから、あなたのすべてのこれらのAI研究者、おそらく人間研究者よりもはるかに多いが、おそらく彼らは実験のためのあまり多くの計算を持たず、そして彼らは進歩をもたらすのにそれほど簡単な時間を持ちません。

最初にどの程度速く行くかという質問があります。そしてそれは遅くなるか

それに加えて、進歩が同じペースで続くだけでなく、進歩がスピードアップすることさえあるかもしれません。これが起こる方法は、あなたの賢いAI研究者がいて、彼らは多くのアルゴリズム進歩を行います。あなたはそのアルゴリズム進歩を使ってより賢いAIを構築し、そのAIは進歩をさらに速くします。なぜなら、AI企業がアクセスできる固定量の計算でさえ、同じ量の計算でより多くの労働を行うことができるからです。

だから、進歩はさらに速く、さらに速くなる可能性があります。Tom Davidsonがこれについて多くのモデリングを行っており、進歩がスピードアップするか遅くなるかを期待するかについて。私は彼から多くのことを盗みながらこれについて話すでしょう。

人々はこれを知能爆発または進歩の特異点がスピードアップすると呼んでいます。

私の見解では、進歩が遅くなっても、それは客観的に非常に速いかもしれないことに注目することが重要です。高い進歩率で始まって、その後時間とともに遅くなるかもしれません。

だから、これを分解する一つの方法は、まずどの程度速い進歩が最初かについて話さなければならないということです。そして、おそらくそれはスピードアップするか遅くなるかについて話すべきです。そしてそこから、最初の1年でどの程度の進歩を得るかのようになることができます。

ロブ・ウィブリン:それをスイッチオンし、ほぼすべてを自動化している時点での初期速度を決定するものは何ですか?

Ryan Greenblatt:非常に短い答えは誰も知らないということです。やや長い答えは、アルゴリズム進歩が何によって駆動されるかの感覚を得ることに基づいて、いくらかの感覚を得ようとすることができるということです。

だから、AI企業でのアルゴリズム進歩は2つの主要な要因によって駆動されます:労働—それに取り組む人々、より良いアルゴリズムを考える人々、実験を実装する人々—と計算、実験のための計算を使用すること。

今のところ最終モデルを実際に訓練することを分離しています。だから、私たちはただこのアルゴリズム進歩について話します。歴史的にアルゴリズム進歩はおそらく年間3倍以上、ポストトレーニングを含んで上昇しています。おそらく年間4倍または5倍のようなものでした。

そして、4倍または5倍と言う時、どういう意味ですか?どのような単位ですか?

効果的訓練計算の面で:毎年、あなたが持つ計算量で4倍または5倍大きなモデルを訓練できるかのようなものです。

だから、それが進歩の初期レートです。

さて、私が話すことは、AI研究者がこれをどの程度速く起こらせることができるかです。これは理解するのがやや厄介な質問です。なぜなら、生産への2つの入力—労働と計算—があり、労働を大幅に増強した場合、どこから行くかに答えなければならないからです。

だから、ナイーブな方法でモデリングを始める方法は、どの程度の労働があるか、どの程度のAI、どの程度良いか、どの程度速いかのようになければならないということです。

ロブ・ウィブリン:実験に利用可能な計算は、今あなたのAI研究者を実行するためにあなたの計算を使用しなければならないため、実際に減少するかもしれませんよね?

Ryan Greenblatt:はい、確実に。これはおそらく小さな要因だと思います。なぜなら—つまり、私たちは全く考えがありませんが—最適は、アルゴリズム進歩での計算の:AI労働者に5分の1、実験を実行するのに5分の4である私の推測です。大体そのようなものです。

だから、この計算量を想像している場合、その後実験を実行するためのより少ない計算を持ちますが、定量的にはそれは80%の計算なので、大したことではありません。そして、50/50を想像していても、それはただ2倍の要因です。

だから、すべてのあなたの計算をAI研究者を実行することに費やす場合、実験のための計算がないと言うなら、それはただの無理なエラーです。

OK、だから何人のAI研究者?人々が最初に物事を自動化できる時点でどの程度のAI研究者を期待するかの様々な推定を行ってきました。すべてを自動化するのに十分な研究者を確実に持たなければなりませんが、様々な理由で、すべてを自動化するのに必要だったよりも多くの研究者を持つことを期待すると思います。

最初にすべてを自動化できる時点で、おそらく同じ品質レベルではるかに多くの労働を持っているからです。推論時間計算がこれを異ならせる可能性があると思います。推論時間計算は、すべてを自動化できる最初の時にかろうじてすべてを自動化できることを意味するかもしれません。

しかし、これは耐久性がない可能性が高いと思います。だから、これを行うことができる最初の時、おそらく蒸留のようなことを使って以前に話していたこと を使用して、コストをかなり迅速に根本的に減らすことができるでしょう。

だから全体的に私の感覚は、分からない、私はいくつかの種類のごみ推定を行ってきました。私は1つのそれらを実行してみます。おそらく私たちは箱から出して1億の人間相当労働者に相当するものを持っています。

私たちが2029年、2030年期間で利用可能であることを期待する約10^28、10^29 FLOPで訓練することを期待しているからです。

そして、それを行うだけで、生成できるトークン数の感覚を得て、その後トークンと人間労働の間のいくらかの粗い変換を行おうとします。

その後、OK、おそらく1億のAI労働者を持っているかもしれません。

それはまた、AIが眠らない、疲れない、24/7働くことができ、データセンターが24/7実行できるようなことを考慮に入れています。だから、おそらく1億の労働者を持っています。

しかし、その後、推論計算でそのいくつかを得たかもしれないので、おそらく推論計算でそのいくつかを得たため、桁を落とします。

そして、完全な自動化を行うために、Alec Radford品質近く—Alec Radfordは多くの最も重要な能力洞察を持つ有名なAI研究者です—またはIlya Sutskeverまたは何でも。この品質レベルに到達するために、おそらくさらに推論計算を費やさなければなりません。

トップ研究科学者またはトップ研究エンジニアの単位で表現することが有用だと思います。なぜなら、それは変換のいくつかを簡単にすると思うからです。

私たちが100万のAlec Radford相当を並行して持っていると言いましょう。

しかし、その後別の要因があります。それはAIがより速く実行できるということです。例えば、彼らは夜に働き、それは人間労働者に対していくらかの優位性を与えます。なぜなら、彼らはより多くの実験を連続的に行うことができるからです。だから、人間は、連続時間のため、年間でより少ないことを成し遂げるだけです。なぜなら、彼らは時間の約3分の1しか働いていないからです—または死人にとって、おそらく時間の4分の1で、一部の人々は潜在的に時間の半分まで押し上げることができます。焦点の時間に減少したリターンがあります。

そして、彼らはただトークンをより速く吐き出すためより速く実行することもできます。そして、これをさらに行く方法があります。だから、おそらく彼らは与えられた時点で5倍速く、その後すべての時間で実行することで3倍速です。それは15倍のスピードアップです。

それに加えて、一部のサブタスクのためにはるかに速いより愚かなAIを実行できるため、別の2倍のスピードアップを得るかもしれません。そして人間はコンテキストスイッチングを必要とするため、これをそれほど簡単に行うことができません。

だから、原則として、人間にサブタスクのためにより弱いAIを非常に迅速に使用させ、行ったり来たりスイッチングさせることを想像できますが、私の脳状態をより弱いAIの脳状態と交換することはできません

一方、例えばトランスフォーマーでは、ただより弱いAIにコンテキストを完全に送ることができます。より弱いAIをより賢いAIと働くように訓練することができます。より賢いAIの活性化をより弱いAIに押し込むこと、このような実行時にすべての種類の可変計算スケーリングのことを行うことさえできます。

だから、おそらくそれは別の2倍の要因を得ます。だから今私たちは30倍の速度までいます。そして明確にするために、これらのスピードアップは脱落するつもりです。それらは私たちが持つ並行コピーの数を削ります。

そして、AIが人間よりも並行タスクでより良く協調することから別の2倍の要因を得るかもしれません。だから、私は人間が並行化するのが不可能である可能性があるタスクを取ることができることについて話しました。

時々、8時間のソフトウェアエンジニアリングタスクを行う時、原則として5人にすべて並行して働かせることができますが、効率で多くを失い、人間が協調するのが非常に悪いため、おそらくシリアルスピードアップを得ません。

しかし、おそらくAIは同じコンテキストを持つことができます。なぜなら、彼らは同じポイントから分岐できるからです。だから、いくつかのAIから始まり、それから分岐します。すべての同じコンテキストを持っているため、おそらくより多くのスピードアップを得るAIが持つかもしれない構造的優位性すべてについてのDwarkeshの良い記事があり、この種のことに入ります。

そして、分岐できるため、おそらく別の2倍の要因を得ます。さて、私たちは60倍の速度にいますよね?だから、50倍の速度でそれを作りましょう、申し訳ありません。

だから、私たちは50倍の速度で並行インスタンスで動いている100万のAIを持ちました。50倍の速度でそれぞれ動いている20,000のAIにしましょう。そして、それらのすべてがトップ研究科学者、トップ研究エンジニアと同じくらい良いです。

さて、OpenAIに対するどの程度のスピードアップですか?おそらくOpenAI、彼らがこのAIを構築している時点では、2,000から5,000の研究者のどこかを持つでしょう。研究者の数は時間とともに成長しています。

だから、ナイーブに私たちは10倍多くの並行インスタンスを持ちますが、彼らはまた50倍速いです。だから、その後、あなたがどの程度の追加労働を投入しているかから全体的なスピードアップにどの程度期待するか、計算ボトルネックや他のこと、また並行して実行するためのペナルティがあるという事実を考慮に入れるといういくらかの厄介な変換があります。

あなたは知っている、9人のソフトウェアエンジニアは9ヶ月で起こったであろうことを1ヶ月で起こすことができません—あなたは知っている、赤ちゃんも同じです—

ロブ・ウィブリン:9人の女性が1ヶ月で1つの妊娠をすることはできません

Ryan Greenblatt:はい。人間は並行化ペナルティに苦しんでいると思いますが、AIがはるかに速く動くという事実は、ある意味で彼らがこれからより少なく苦しむことを意味します。約10倍のより多くの並行コピーがあるので、彼らはそれでいくらかのリターンを食べていますが、ただ真っ直ぐに50倍より多くの速度とより多くの品質も持っています。そして品質は並行化にも押し込みます。

だから、その後私は、おそらくOpenAIの労働力を実際には良かった5倍または10倍少ない人々と同じくらい良いものとして考えるべきです。だから、おそらく彼らが200または400のAlec Radfordsまたは何でもを持っていたかのようです。そして一部の人々はこれよりもさらに極端だと思います。

そして、彼らが200または400のAlec Radfordsを持ち、私たちが50倍の速度で20,000のAlec Radfordsを持っている場合、直感的にそれは物事が狂気になることができるように感じます。

しかし、質問はどの程度計算がボトルネックになるかです。そして人々はこれについて多く意見が分かれます。私たちは本当に知りません。知るために必要な実験を実行した人は誰もいません。私たちはただ調査と雰囲気と何でもを持っています。

ロブ・ウィブリン:どのような実験を実行しますか?

Ryan Greenblatt:これが私のお気に入りです:Googleは多数の異なるチームを持つことで知られており、おそらくある時点で、誰かがいくつかのチームへの計算配分を台無しにしたか、いくつかのチームへの計算配分が予想よりも低くまたは予想よりも高くなる外因性ショックがあったと思います。

そして、その後、それが起こった時、進歩がどの程度スピードアップまたはスローダウンしたかという質問を見ることができます。それは限界生産関数がどのように見えるか、計算への限界リターンがどのように見えるかのいくらかの感覚を与えるでしょう。それは何が起こっているかのいくらかの感覚を与えるでしょう。

AIの場合、私たちは人間マージンから非常に遠く離れて動作しています。なぜなら、私たちは非常に多くの労働を持っているからです。だから、状況は非常に構造的に異なるかもしれませんが、それは私たちにいくらかの感覚を与えるでしょう。

私の夢は、誰かがGDMまたは何でもに行って、彼らが実行していたに違いないすべての自然実験のデータを漁り、非常に経済学者スタイルのその分析を行い、ローカルリターンがどのように見えるかを理解することです。

それは現在の体制周辺のリターンしか教えてくれないので、私たちにそれほど多くしか教えません。それよりもさらに良いことは、あなたがはるかに少ない計算を与える研究者の小さなチームを持つようなことかもしれません。

あなたは知っている、Googleが実験を実行することに本当に興味がある場合、データを与えるだけでなく—私は例としてGoogleを選びます、しかし他の企業がこれを行うことができます—彼らは研究者のいくつかを取り、彼らを2つ以上のグループに分け、研究者の一部にはるかに少ない計算を与えることができます。例えば、私たちがAI研究者が持つことを期待する計算量のようなものを得て、彼らがどの程度遅く動作するかを見ます。

はるかに、はるかに遅い場合、それは体制での感覚を与えるでしょう

これは理解するのがより厄介なことだと思います。部分的には適応時間があるかもしれないからです。だから、あなたが人間をはるかに少ない計算でこの体制に置くかもしれません。最初に彼らははるかに遅いですが、彼らはある種これらの制限内で働くことを学びます。そして、AIははるかに速く動いているため、これらの制限内で働くことを学ぶために多くの時間を持つと思います。

とにかく、内部観点、現在の最前線経済モデルから完全に外挿すると、定数の正確にどのように推定を行うかによって、約50倍速いような数字を吐き出します。

これはおそらく速度を過大評価していると思います。それは現在の進歩率よりも50倍速いです。現在のアルゴリズム進歩率は年間半桁をやや上回ります。だから、ナイーブにそれは年間25 OoMsの真に非神の瞬間率を得るでしょう。

私が言っていることは少しばかげていると今人々は思うかもしれません。私が言っていることは、それは少しばかげていると思います。だから、おそらく瞬間スピードアップのこの見解を多く割り引きたいです。

だから、50年の進歩に相当する、または1週間で1年の進歩を持つ代わりに、おそらくそれはあまりにも狂気すぎるので、その後私はおそらくそれは20倍の進歩率のようなものです、おそらくそれよりもさらに低いことに分割することになり、瞬間速度での私の中央推測として。

そして、再び、これは野生の推測のようなものだと思います;私たちは理解さえしない体制から、野生に異なる体制に外挿しています。誰も知りません。だから、それははるかに速い可能性があります;それははるかに遅い可能性があります。それがそれほど速くはありえないと思います。

ロブ・ウィブリン:完全に自動化した時点で、それはその瞬間に電撃的に速いように聞こえます。しかし、これを狂気に聞こえにくくする一つの方法は、それは信じられないほど速く始まって、その後かなり迅速に平準化し始めると言うことです。だから、あなたはこのレベルの電撃進歩の週を1つだけ持ちます。私は代替案はそれがさらに速くなる可能性もあると言っていたと思います。

スピードアップ対スローダウンを期待するかどうかに関係するどのような証拠を説明したいですか?

Ryan Greenblatt:はい。それについてのもう一つのことは、私はこの瞬間分析を行ってきたということで、人々は「確かに、あなたがこれらをドロップした場合、それを得るかもしれませんが、これにつながるまでにより段階的になるでしょう」と言うかもしれません。だから一つのことは、短いタイムラインでは、実質的な加速(しかし完全な自動化ではない)と完全な自動化の間のギャップがカレンダー時間で小さいことを期待すべきだと思います。

そして、実質的な自動化が物事をスピードアップすることを期待している場合、その後それはカレンダー時間でさらに小さいです。だから、この瞬間分析は少なくとも非狂気だと思います。

とにかく、それはスピードアップするか遅くなるかという質問があります。この10倍または20倍の進歩率を持っていた場合、その後、年間に約5または10 OoMsの瞬間率について話しているでしょう—効果的計算進歩の桁。

さて、それはスピードアップするか遅くなるか?この分析はさらに厄介です。はるかに多くの要因があります。

基本的な話は:あなたのAIがいて、彼らは多くのアルゴリズム研究を行い、新しいAIを訓練し、その新しいAIはより賢くより良くより効率的(またはこれらの属性のいくつかの混合)で、その新しいAIはさらに速いアルゴリズム研究を行います。

しかし、リターンも減少しているよね?だから、リターンは減少しているが、よりスマートなAIも持ち、超指数的進歩、正確に指数的進歩—正確に指数的進歩は同じペースで続くので、進歩は既に効果的計算で指数的でした—または減衰進歩を得ることができます。

だから、このための推定を得ようとする方法は、私たちが…コンピュータビジョン、LLMsのようなものにますます多くの人間労働を時間とともに投げ込んできました—そして、すべてのこれらの研究者を投げ込んだ時、どの程度それが進歩を加速したかの曖昧な感覚を得ようとすることができます。

そして、その後、AIケースのための多くの調整を行います。だから、おそらくAI労働を投げ込むことからより多くの効果的計算を得続けることへの変換があります—これも初期スピードアップを得るために必要だった同じ種類の分析でした。

そして、それがある場合、その後質問は、各効果的計算はどの程度より多くの労働を得るかです。だから、効果的計算の各10倍はより多くの労働を得ます。それはまたより有能な労働を得て、その後それはループバックできます。

だから、ここにも多くの数学があります。そして、再び、私たちは前の構成要素よりもこの構成要素でさらに多くの不確実性を持っていると思います。

しかし、最良の推定は、少なくとも最初は進歩がスローダウンよりもスピードアップすることを示していると思います。おそらく。つまり、あなたはこれを信じないことにロールできるか何でもできますが、ただナイーブ分析を行い、要因を説明しようとする場合—計算ボトルネック、並行化問題、すべてのこのものを説明しようとする—それはAIをより有能でより賢くより速くするだけで、非常に大まかに、私たちの非常にごみモデルでは、進歩がかなり迅速にスピードアップすることを期待します。

ロブ・ウィブリン:これが正しい場合、私たちは人間レベルを信じられないほど迅速に吹き飛ばして、これらのモデルが一般的にどの程度有能かの面で完全に超人的体制に入っています。正しく理解していますか?

Ryan Greenblatt:さて、それは少し複雑です。だから、どの程度の桁の進歩を得るかという質問があり、それがどの程度重要かという質問があります。だから、私はこの効果的計算単位を投げ回していて、これは非常に経済学脳の分析単位であるという問題があると思います。

人々は「OK、来て、効果的計算の桁はどの程度ですか?どの程度それが重要ですか?」と言います。

私たちは以前に議論でDeepSeek-V3とGrokの間の効果的計算の桁がどの程度かについて話していました。また、質的トレンドが続くかについても気にします。質的トレンドは何ですか?どの程度超人的になることができるか?この種のこと。

加速進歩についてもう一つのことにより多くの時間を費やしたいと思います。それは、リターンは最終的に減少しなければならないということを期待すべきだということです。だから、進歩は無限に長く続くことはできません、そうですね?100 OoMsの進歩を得ることはできません、なぜならある時点で—

ロブ・ウィブリン:物理法則が噛み付く

Ryan Greenblatt:はい、物理法則が噛み付きます。しかし、また、より重要かもしれませんが、あなたが持つ計算量が噛み付くよね?だから、あなたはそれほど多くの計算しか持ちませんでした。

私は固定計算ベースでのこの分析すべてについて話してきました。

だから、効率での幼稚なベアケースがあります:アルゴリズム効率で10 OoMsの進歩を得たと想像してください。現在の時点では、それはナイーブにDeepSeek-V3を…だから10 OoMsは100億の要因で、それは500万ドルで訓練されたので、それは1セント未満です。まあ、何でも。それは非常に少ないですよね?はい、1セント未満です。

だから、OK、来て、あなたは1セント未満でDeepSeek-V3を訓練するつもりですか?それはH100で秒のようなもの、H100で秒未満のようなものです。うーん、来て。

どの程度のパラメータでそれがありえるか?だから、同じ球場で、どの程度の数を掛けることさえできるか?それほど多くのパラメータにしか触れることができませんよね?これすべてを行う場合、非常に懐疑的であるべきだと思います。

さて、注目に値ることの一つは、上限は下限とは異なるかもしれないということです。だから、あなたがものをそれほど効率的にできるだけかもしれませんが、物事をより良くスケールさせることができます。

だから、DeepSeek-V3はおそらく5桁より効率的、4桁より効率的、制限でさえ、おそらくそれよりも少し多いが、その辺りのどこかです。

しかし、おそらくDeepSeek-V3を作ることができます…あなたは知っている、いくつかのスケーリングトレンドがあります。DeepSeek-V3を5桁でスケールアップした場合、どの程度良いでしょうか?おそらく私たちは、DeepSeek-V3レベルの計算について、DeepSeek-V3スケーリング法則で5桁上がることができます。

これは理にかなっていますか?これは少し厄介です。

ロブ・ウィブリン:バカのように説明してください

Ryan Greenblatt:OK、OK。だから、すべてのモデルについて、RLとデータと何でも両方でこれをナイーブにスケールアップする何らかの方法があります。さて、この周りにいくらかの複雑さがあり、やや厄介な分析ですが、DeepSeek-V3アルゴリズムを取り、それらを5桁でスケールアップし、その計算量に適応し、その訓練実行を台無しにしなかった場合、どの程度良かったでしょうかと言うことができました。

DeepSeek-V3で5桁より多くの計算でできたであろうことを複製する方がそれを5桁より効率的にするよりもはるかに簡単かもしれません。制限を異なる方法で定義することは少し厄介ですが、最小限に、DeepSeek-V3効率で10桁上—DeepSeek-V3訓練計算でそれらの同じアルゴリズムで10桁より多くの計算をしていたかのように—は私には非常に可能に思えます。

ロブ・ウィブリン:それは何を意味しますか?

Ryan Greenblatt:分析を行うための多くの方法があると思います。私は非常に迅速でダーティなバージョンの分析を行おうとします。これは非常に迅速でダーティですが、何かを得ます。

だから、私たちは2029年または2030年に人間レベルのAI、またはトップ人間研究科学者のレベルに大まかにあるAIを訓練しました。おそらく訓練実行は約10^28 FLOPの周りで、人間レベルのものを生産しました。

人間の脳生涯計算のいくつかの非常にごみ推定があります。人間の脳のアルゴリズムを持っていて、それを行うことができた場合、最高の人間科学者と同じくらい良い人間を訓練するのにどの程度の時間がかかるでしょうか?

そして、私たちの感覚では、それは約10^24の周りです。だから、そこで4桁の効率があります。なぜなら、私たちは人間でよりも多くの計算で人間と競争力のあるものを訓練したからです。だから、4桁、おそらく少しそれより少ないですが、大体。

理にかなっていますか?

ロブ・ウィブリン:完全ではありません。正確に何の4桁ですか?

Ryan Greenblatt:だから、人間と同じくらい良いものを訓練することができたが、4桁より多くの計算を使用する必要がありました。だから、最低でも、10^24 FLOPで人間を訓練できる時点に到達することができるか、人間レベルのモデルを。そして、その上にスケールするための追加の4 OoMsの部屋があります。

ロブ・ウィブリン:4桁より多くをスケールアップするには?

Ryan Greenblatt:そうです。なぜなら、元々訓練はとても非効率だったからです。

Ryan Greenblatt:はい、その通りです。そして、より短いタイムラインでは、より効率的なアルゴリズムを持っていることを想像しなければならない—一方、より長いタイムラインでは、より多くの計算が必要で、おそらくより効率的でないアルゴリズムを持っています。

ここにいくつかの興味深いダイナミクスがあります。

ロブ・ウィブリン:それはなぜですか?

Ryan Greenblatt:2028年、2029年、2030年にAI企業の完全自動化を生産すると想像してください:その後、約10^28、10^30訓練実行の周りで動作しなければなりません。一方、2040年または2045年にそれを行うと想像してください:おそらくかなり多くの桁の計算を持つことができるでしょう

数学をしていませんが、約4桁より多くの計算のようなことができるかもしれません。2050年少なくともおそらく、あなたがファブをスケールした、それらをより安くした、新しい技術を持っている、おそらく光学計算とより投機的アプローチを使用しているという4桁より多くの計算を得ることができると思います。

だから、10^36 FLOPで人間レベルのAIを訓練している場合、その後、はるかに多くの余裕を持ちます。

ロブ・ウィブリン:私は見ています。だから、私たちは人間の脳が持つ効率のレベルを達成できることを知っています。そして、人間と同等のパフォーマンスを達成するのに12桁より多くの計算を取っていた場合、その後、あなたは莫大な量の潜在的アルゴリズム効率利得を持っています。

Ryan Greenblatt:制限で。

ロブ・ウィブリン:制限で。OK、はい。

Ryan Greenblatt:とにかく、ここでの合理的な反対意見は:私たちは人間の脳が何をしているかを知りません;私たちはその計算レベルを生産することさえできますか

また、進化が巨大な量の最適化を行ったのではないですか?おそらくそれは多くの計算を必要としました。だから、原則として人間アルゴリズム—人間ゲノムのようなもの—を持つことができたとしても、人間ゲノム自体を見つけることは巨大な量の研究計算を取るでしょう。なぜなら、進化がしていたことに相当するシミュレーションを実行しなければならないからです。

だから、これはいくらかの懐疑です。私は基本的にこれを脇に置いて、それに対処しない、ただそれに懐疑的だと言うつもりです。しかし、この絵の間のどこかになると思いますが、大きな割引だとは思いません。

そして、人間が効率の制限にあるとは思いません。人間が非効率である多くの理由があります:彼らは一束の制約下で物理的脳を持ち、構造的理由で情報の後方伝播について局所学習アルゴリズムしかできません—だから人間の脳は基本的に非常に直接的にバックプロップを行うことができず、より局所学習アルゴリズムしかできません。

だから、私たちの現在の最高の局所学習アルゴリズムはSGD [確率的勾配降下] よりもはるかに悪いです。もちろん、進化はこれらの局所学習アルゴリズムを最適化するためにより多くの時間を持っていたので、おそらくそれは大きな要因です。おそらくそれは2桁でさえです。

そして他の要因の束があります。もう一つのことは、人間内で、AI研究開発のタスクでのパフォーマンスは大幅に変わるということです。中央の人間と最高の人間の間でこれを行う能力に巨大な変動があります。

その一部は訓練です;その一部は遺伝学です;その一部は直接訓練以外のことからの育成です。他のタスクでの訓練のようなもの。だから、おそらくそれは別の多くの余裕を与えます。

だから、より大きな脳を持たずに300-IQの人間を作ることを想像できます。しかし、より効率的な脳を持つことによって—除去されたより多くの変異で、おそらくそれより多く。だから、それはいくらかのより多くを得ます。

そして、このような考慮事項の長いリストがあります。AIがより効果的に精神状態を同期できることのようなもの、それは彼らにより多くの協調を与える。おそらく彼らははるかに良い訓練データを生成できます。私はこれらのいくつかを逃すつもりです。

しかし、とにかく、これらすべてを加算すると、私の推測は9 OoMs上の中央値のようなものです。私たちは上と下の区別について話しました。それは人間にも適用されるつもりです。

だから、おそらく9 OoMs少ないFLOPで人間を訓練することはできません—H100で1秒のような10^15 FLOPで人間を訓練することはできません。しかし、おそらく人間レベル計算で人間より9 OoMs良い何かを訓練できます。

ロブ・ウィブリン:私は見ています。OK、それは番組の最も技術的または追跡困難な30分だったかもしれません。多くの可動部分があり、多くの思考がそれに入っているという感覚を人々に与えるために、あなたを行かせて非常に幸せでした。

また、多くの人々がこの時間を予測し、異なる可能性のある軌道と、それに重きを置く異なる要因を描くことを試みているように聞こえます。

これを技術的理解が少ない人が把握できる何かに戻すことは可能ですか?人々がそれについて多く考えた、それはかなり霞んでいる、多くの要因が関係している、という結論ですか?

ピークAI研究開発で、物事が非常に速く動いている可能性があり、AIがより良くなるにつれてさらにスピードアップする可能性もある。それらが遅くなる可能性もあります。私たちはこれらの異なるオプションすべてに開かれているべきですか?

Ryan Greenblatt:この種の直接的にこれに取り組んで費やされた時間は驚くほど少ないと実際に言ったでしょう。私の知る限り、テイクオフを予測し、タイムラインを予測するためにこれらのモデルを構築することを非常に直接的に試みて、約4フルタイム相当年が費やされたかもしれません—おそらくそれより少ないかもしれません。

そして、私が引き入れているトレンドと他の分析の多くをEpochが行ったより多くの作業がありますが、私が話しているこの種の分析、これらのテイクオフダイナミクス分析のタイプ、おそらくこの時点で約8相当年のようなものだと思います。Epoch論文のいくつかを価格設定していませんでした。

おそらくEpochの人々は彼らの勤勉な作業を過小評価することで私を呼び出すつもりです。しかし、彼らは私が引き入れている統計の多くと私が引き入れているトレンドの多くの背景作業を行ってきました。しかし、ここでの分析についてそれほど多くの作業がなかったと思います。

だから、来て、8人年?これはおそらく最も重要な質問、最も重要な質問の一つです。私たちがそれでそれほど多くの信号を得ることを期待しませんが、それは巨大な効果を持ち、それは非常に大きな意見の相違です。

多くの人々は進歩が人間レベル周辺で尻すぼみになる、またはそれがただ比較的遅いか、主に計算でボトルネックされると期待しているようなと思います。そして、これが真実かどうかという質問は巨大な違いを作ります。

また、私がそこで言及しなかった議論は、私はある種この人間レベル周辺で重要な不連続または曲がりなしにこの人間体制を通って飛んでいることを想像していました。しかし、原則として、私たちは人間の行動に便乗または高速フォローすることによって人間レベルに到達することができたかもしれません。

私の推測では、これはそれほど大きな要因ではなく、それはあまり大きくない一回の費用のようなものです。しかし、それについてあまり詳しく入るべきではないと思います。

とにかく、最初のスピードアップはどの程度速いか?スピードアップするか遅くなるか?そして制限は何か?を持っていました。最終的にそれは遅くならなければなりません、そうですね?だから、私たちはスピードアップし続け、無限に時間で無限大に行く双曲線軌道に従っているこのモデルを持っています。最終的にそれは制限に近づくにつれて終わらなければなりません。

いつ遅くなり始めるかを知りません。それはある時点で遅くなるつもりです。

しかし、すべてを考慮したモデルは:物事は非常に速いかもしれません、それはかなり迅速に起こる可能性があります。推定値は、おそらく年間に約5または6桁のアルゴリズム進歩を打っているかもしれないことを示唆します。

ロブ・ウィブリン:そして、モデルが実際に私たちに感じるほど賢いかに対してそれがどのような質的影響を持つかを正確に知ることは少し困難です。

Ryan Greenblatt:はい、確実に。それは別の大きな不確実性の源です。私はこの非常に経済学脳分析を行ってきました。そこで、すべてをこれらの効果的計算単位に入れ、労働供給への変換、物事を得るために多くの迅速な変換を行います。

この進歩を視覚化する異なる方法がたくさんあります。また、スケールアップ計算をこの期間中にしていることを含む、私が5または6 OoMsの年間進歩を言ったいくつかの要因を無視していると言うべきです。多くの他の軽微な考慮事項。これらは私の年間5または6 OoMsの進歩に価格設定されています。

しかし、私はこのような効率的計算単位からの他の多くの要因を知りません…この初期率、スピードアップ/スローダウン制限のやや直感的なモデル、そして制限は、最初にスピードアップしていたとしても、再び遅くなり始める時に影響するという私のモデルはありますか。それは理にかなっていますか?

ロブ・ウィブリン:はい、3つの大きな様式的要因のようなものを弄んでいます。

Ryan Greenblatt:はい。そして制限がどの程度離れているか、スピードアップ要因または遅くなる要因は何か、そして時間とともにそれがどのように変わるかについての多くの厄介な詳細があります。制限に非常に近い限界でスピードアップが止まる時間、またはより多くの制限にわたって連続的である可能性があり、これは何桁を得るかに大きな効果を持つでしょう。

とにかく、人々はこれで遊ぶべきだと思います。これで遊ぶことは興味深いと思います。これは簡略化されたモデルと、推定するための非常に少ないデータから膨大に外挿された体制で、ごみデータからこのモデルを適合させていることの両方であることは非常に明らかです。何ができますか?

私たちは非常に不確実で巨大なエラーバーを持っているとあなたが言っていたことを含んで。私の見解は、いくらかの初期スピードアップを得て、より多くの計算を積み上げることもできるでしょう。だから、おそらく25パーセンタイルは以前の年の進歩よりもいくらか速いか、25パーセンタイルはおそらく既存の進歩よりもかろうじて速いかもしれません。

そして、80または75パーセンタイルは完全に非常識のようなものかもしれないと思います。

ロブ・ウィブリン:これは、物事を自動化できるようになった時点で、会社が行っていたことを実際にどの程度スピードアップするかという質問です。そして、あなたはこの25パーセンタイルはおそらく前とほぼ同じペースのようなものかもしれないと言っています—しかし、極端な結果でさえない75パーセンタイルでは、それは研究を根本的にスピードアップしています。

Ryan Greenblatt:はい。少なくとも迅速に。初期スピードアップはそれほど高くないかもしれませんが、スピードアップは時間とともに増加し、比較的遅く減少します

また、この1年タイムスケールについて話してきましたが、モデリングの多くで進歩のほとんどは最初の6ヶ月で起こるかもしれません—なぜなら、あなたは既にこの減少したリターン体制を打ち始めているからです。

ロブ・ウィブリン:より速く行くほど、制限を打ち始めるのが早いのようなものです。

Ryan Greenblatt:はい、その通りです。そして、あなたは知っている、それはかなり異なる方法で行く可能性があります。

とにかく、6 OoMsの進歩を言ってきました:それは何を意味するのですか?これはどのように見えるのですか?

ロブ・ウィブリン:人についていない人のために、「OoM」は「桁」です。

Ryan Greenblatt:申し訳ありません。私はOoMが大好きです。なんて良い用語でしょう。

とにかく、だから6 OoMs、どの程度ですか?

だから、大まかに2つのGPTです:大まかに10倍のアルゴリズム進歩と約100倍の計算でGPT-2とGPT-3の間にOoMがありました。非常に大まかに言って、おそらくこれより少し少ないです。そしてGPT-3とGPT-4の間で大まかに類似の何か

だから、私たちができるナイーブ質的モデルは、GPT-3からGPT-4ギャップはどの程度大きかった?そして私たちはそれらのギャップの2つを持っています:2つのより多くのGPTのようなことです。そして私は、2つのGPTとは何を意味するのですか?

2つのGPT分析は私をより安心させます。2つのGPTのような、それはそれほど悪くさえありますか?つまり、来て。

別のフレーミングは何年のAI進歩かということです。6 OoMsは約5年のAI進歩だと思います、非常に大まかに言って、おそらく4年。だから、2020年に、私たちはちょうどGPT-2 XLを得たから今までのギャップのようなものです。だから、それは間のギャップのようなものです—

ロブ・ウィブリン:しかし、GPT-2は何にでもかなり役に立たなかったので、それが何を意味するかを直感的に知るのは困難だと思います。

Ryan Greenblatt:またはGPT-3はかなり近かった。はい、だからそれはかなり役に立たないです。私たちがさらに少ない基盤を持っているのは、人間の範囲を超えた進歩がどの程度意味するかということだと思います。

この点では、私たちはGPTですAIを150-IQのようなものから始めると想像した場合、それらがすべてを自動化できたので…再び、IQはある種のごみ単位です。

ロブ・ウィブリン:この目的のために設計されたとは感じません

Ryan Greenblatt:ああ、いや。何も設計されていませんでした。私がしてきたこの経済学スタイル分析すべても、この心にあってこの体制で設計されていなかった経済学モデルで確実に虐待しています。

そして成長経済学、私たちが引っ張っている分野は、それほど良い分野ではありません—申し訳ありません、そこにいる成長経済学者に攻撃なし、しかし、それに取り組んでいるそれほど多くの人々がいないだけで、そこで多くのことについて多くの不確実性を持っています。

とにかく、だから2つのGPTがあります。何IQポイントですか?この直感は、おそらくGPTは50 IQポイントをやや上回るようなものだと私に思わせます。だから、私たちは150から250に行き、また多くのより多くの並行コピーを持ち、彼らはより速く実行できます。これらはいくつかの直感です。

別の直感は、人間の専門家の面でどの程度良いかです。ここで追跡するのが良いと思うトレンドがあります:プログラミング競技を見ると、2024年にわたってこれらのプログラミング競技でのランキングの面での進歩を見てきました。

開始時、おそらくAIは大体20パーセンタイルのようでした。そして彼らは50パーセンタイルにいて、その後o1は75のように、o1-previewは90パーセンタイルをやや上回り、その後o3は99.8パーセンタイルか何かでした。

だから、計算またはアルゴリズム進歩の桁と人間専門家の中でどのランク順序を持つかの間にいくらかの関係があります。

この狂気のものを開始している時点で、おそらくAIは大まかに100番目または10番目の最高の人間専門家ランク順序のようで、その後私たちはこれらの6桁のアルゴリズム進歩を持っています

桁と順位の間にいくらかの変換をしようとすることができると思います—桁のすべてはこの順位で10倍良いようなことを意味します。100番目の最高ではなく、10番目の最高です。

OoMの効果的計算はこの種の順位順序のOoMよりもいくらか多いのが私の推測です。効果的計算のOoMは順位のOoMをやや上回ります。誰もこの分析を非常に注意深く行っていないと思います。誰かがそれを行うべきです。

それが少しOoMを上回ると仮定します、その後、おそらく私たちの6 OoMsで、8 OoMsの順位順序を得ます。

ロブ・ウィブリン:そして、かなりすぐに1以下になりますよね

Ryan Greenblatt:はい、1以下になるので、今私たちはこのことを外挿しています。これを言う一つの方法は、私たちはある種ただ人間パリティに迅速に到達し、その後少し6 OoMsがより多く残っているかもしれません。または文字通り最高の人間パリティを言い、その後別の6 OoMsの進歩があります。

だから、それは100万番目の最高の人間からある物事で最高の人間に行くのと同じくらい大きなギャップです—100万は6 OoMsだから—最高の人間に。だから、私たちは最高の人間を取り、100万番目の最高から最高への相当をしました。

そして、それは別の質的直感です。これはDaniel Kokotajloの OoMsについて考える方法から厚かましく盗まれています。

さて、この点で不確実性もあります。だから、各OoMがより2 OoMsのようなものである場合、その後、最高の人間専門家より10億倍良いのようなものです。

ロブ・ウィブリン:あなたは10億番目の最高から最高に行き、その後再びその跳躍をしました

Ryan Greenblatt:はい、その通りです。これはかなり大きなギャップです。重要に、10億番目の最高を人間の範囲で理解することはできないと思います。なぜなら、それはキャリアから一般化することが意味をなさないからです。

ソフトウェアエンジニアリングで10億番目の最高の人は誰ですか?

ロブ・ウィブリン:これはばかげた質問です

Ryan Greenblatt:これはばかげた質問です。ソフトウェアエンジニアリングで100万番目の最高の人は少なくともいくらか意味があります。それで作業し始めることができます。そして、よりニッチな人間職業では、より意味がありません。だから、そこからの非常識なギャップがあると思います。

労働供給がどの程度大きいかを考える別の直感があります。だから、進歩がスピードアップするかスローダウンするかについて行っていた経済学分析で多く、重要な質問は、効果的計算の各桁がどの程度労働機能の労働部分に投げ込む問題にどの程度より多くの認知ジュースを得るかでした。

それを行う一つの方法は、効果的計算の桁が並行労働者の何桁に相当するかのようになることができます

私の理解では、私たちの最良の利用可能推定は、効果的計算のすべての桁は並行労働者の2桁のようなものです。

ロブ・ウィブリン:そして、並行して多くの人々が働くことが実際にかなり非効率だからですか?

Ryan Greenblatt:はい、AIはより速く、より有能で、より多くの並行コピーを得ます。だから、効果的計算をスケールアップする時、少なくとも現在のパラダイムでは、より効率的で、よりスマートで、潜在的により多くのAIを持っています。だから、基本的にこれらの要因すべてを並行してスケールでき、最も効果的などの要因をスケールできます。

ロブ・ウィブリン:私は見ています。だから、より多くのそれらとより賢いものの間で最も効率的な組み合わせであなたの計算予算を配分することができます。

Ryan Greenblatt:はい。そして、推論計算と訓練計算の間でトレードオフする方法もあります。しかし、すべて考慮して、並行コピーで私は表記をするつもりです。

だから、50倍の速度で動いている20,000の天才から始まり、その後6桁—しかし実際にはそれを2倍にしているので、12桁を持ちました。それは1兆です。だから、今私たちは50倍の速度で動いている20兆に行きます。

さて、これは並行化ボトルネックのため少し誤解を招くかもしれないと思います。しかし、人間組織の面で考えることに慣れている場合、その後、50倍の速度で動いている20兆人間の量を考えるべきで、つま先を踏む量はそれに類似しています。

そして、実際には、おそらく私が実際により期待することは、おそらくそれは質的にはるかに人間よりも賢い10億または20億人間により近く、250-IQ人間が100倍の速度で動いているようなものです。おそらく私の数字は少しずさんですが、それがより私が期待する直感だと思います。

そして、専門家の面で同じことを行うことができます。それらがより良い人間職業で多くある部分のメカニズムはより多くを持つことなので、これらのことすべてがファンガスするつもりですが、二重カウントしないように注意しなければなりません。しかし、おそらく100倍の速度で動いている少なくとも100万人が最高から100万番目の最高の人間に行き、その後その上の100万のようなものです。私たちは同じ外挿を行います。

おそらく、それはOK、これは非常識に性交しているようなものです、そうですね?

例えば、非常に迅速にAIは人間歴史で問題に適用されたよりも巨大なマージンでより多くの認知進歩を行うでしょう。そして、非常にナイーブに彼らは100倍の速度で動いています。だから、純粋に認知の領域で、世界へのアクセスなしに行うことができた何かのようなもの、人間が10年かかったであろう何か—100人間のチームに10年かかったであろう:OK、ブーム、労働供給のちょうど小さな部分で年の10分の1で起こります

だから、どのような種類の狂気の技術がこのプロセスから吐き出されるかを考え始めるべきだと思います。原則として、私たちがそれほど一生懸命試していない大幅に加速される可能性がある多くのことがあると思います。

原子的に精密な製造に努力が費やされてきました。ナノボット、ナノシステム、何でもにそれほど多くの努力が費やされていません。これについて元々考えたDrexlerは、それが非常に少ない労働になるつもりだと思ったので、人間が行うのが非常に簡単かもしれないと思いましたが、非常に少ない努力が適用されています。

だから、この体制から非常に迅速に出てくる、計算供給を大幅に増加させ、他のすべての種類の狂気のことを可能にする原子的に精密な製造でプラップが非常に可能に思えます。

それは一つの例のようなものです。エミュレートされた心と他のものの束が非常に迅速に起こる可能性があると思います。

研究と社会的介入の優先順位

ロブ・ウィブリン:まとめるために、この番組を聞く種類の人々が取り組むべき最も優先度の高いことは何だと思うかについて少し議論することは良いでしょう。あなたの巨大な予測分布を考えて、物事が進む可能性がある異なる方法について。

技術的側面で、特に無視されていて有用なものとして目立つものは何ですか?

Ryan Greenblatt:現在進行中のものに対して、より多くの人々が制御作業を行うべきだと思います。私の同僚Buckはおそらくそれがどのように見えるかについてより多く話すでしょう、だから私はそこでそれほど多くの詳細に入りません。

それは今ほど無視されているわけではありませんが、より多くの人々がそれに取り組むことは良いように思えます

より多くの人々が賢いAIを訓練する方法について考え、取り組むことに時間を費やすべきだと思います。あなたが私たちが作るであろう決定よりも良い決定をすることができるAIを訓練する方法について。

基本的に、あなたに対して陰謀しているモデルを除外するにはどうしますか?あなたが引き渡すことに満足するAIにそれらをどのように作りますか?これは、はるかに概念的に厄介な領域で、どのような研究プロジェクトがそこから紡がれるべきかについてより多く考えることを計画しています。

人々が取り組むことができる「モデル内部」についてのかなりの量の作業があります。おそらくこれは制御下にいくらか落ちていますが、モデルが誤配置された行動を取っているかどうかを検出できるようにするための調査のようなことです。どのようにそれを行いますか?それが機能したかどうかをどのように知りますか?この種のこと。

おそらく解釈できない推論をデコードすることについてのいくらかの作業があります。モデルが彼らの思考連鎖でステガノグラフィー的に推論することを学ぶと仮定します—

ロブ・ウィブリン:だから、これは彼らがあなたに対して策謀しているが、あなたは言うことができないところです。ある種エンコードされています。

Ryan Greenblatt:はい。ステガノグラフィー的は彼らが異なるシンボルを使用していて、何が起こっているかを理解していないということです。またはおそらくそれはあなたにでたらめのように見えます。おそらくそれは一つのことのように見えますが、実際には別のことです。またはおそらく彼らは多くの潜在推論を行っているようなものです。

私たちは、より早い時期にモデルが自然言語ではなく潜在的な方法で多くの推論を行うことについて話しました。そして、ある方法でその推論をデコードし、ある程度機能し、何がAIが実際に考えているかのいくらかの感覚を与えるその上でデコーダーを訓練するための方法を理解しようとし、私はかなり役立つ可能性があると思います。

それに加えて、AIが現在非常に有能であることを実証することの多くの異なる作業があります。私は現在示されている能力レベルでオーバーハングがあることについて話しました。現在のシステムが有能で将来のシステムが非常に有能であることを実証することは、おそらく世界が何が起こっているかのために準備されていない状況について私が心配しているため、マージンでおそらくいくらか良いように思えます。

だから、高レベルの自律サイバー能力を実証するようなことで、これは人々が既に考えている多くの脅威モデルに直接関連していることの甘いスポットだと思います。また、私たちが心配しているシナリオからあまり遠くありません。それは多くの自律サイバー活動を含む。だから、おそらくそれは良い方法でこの分裂を橋渡しします。

特にこの領域で私たちが達成することができる最高のデモに焦点を当てること。

モデル有機体と呼ぶ大きな領域で人々が取り組むべきことは:誤配置されたモデルの実証例を生み出そうとし、これがどの程度発生するか可能性があるかを研究し、それについて証拠を提示することです。

だから、誤配置がXYZ状況で発生するか?報酬ハッキングが出現し、どのように一般化するか?配置偽装論文とその様々な継続のようなもの。

ここでの希望の一部は証拠を集めることです。ここでの希望の一部は、世界に対してあまり説得力がない、または誤配置について一方向または他の方向で証拠を生み出さないモデル有機体でさえ、実験できるほど類似している場合、潜在的に非常に有用である可能性があるただ何かを持つことです。

ロブ・ウィブリン:なぜなら、モデル有機体のケースで機能する対策を開発し、その後うまくいけばそれが転移することを試すことができるからですか?

Ryan Greenblatt:はい。アライメント全体での主要な困難は、通常私たちは実証的反復で問題を解決するということだと思います。そして、私たちのアライメント失敗の多くが私たちのテストを欺瞞的にする範囲で、事前にそれを回避する何らかの方法を構築できれば—または最後の瞬間にそれを構築することだけでも準備ができていて、その後、その種のケースで多くの反復を行う—それはかなり役立つ可能性があると思います。

ロブ・ウィブリン:それが技術的側面で最も有望に見えるものでした。ガバナンスや他の角度で目立つものはありますか?

Ryan Greenblatt:はい、非技術的介入のための様々な異なる余地があり、かなり良いように思えると思います。私はあまり長時間それについて考えることに費やしていないため、これらのことについて非常に強い見解を持つことは困難です。

多くの作業があります。私たちはここで多くの概念的ポイントを通過してきており、これらの詳細すべてを理解し、テイクオフダイナミクスのより良い理解を持ち、誤配置以外の異なる考慮事項の理解を持つために人々が働く余地があると思います。人間の権力掌握についてどの程度心配すべきか?他の問題についてどの程度心配すべきか?そのうちのいくつかがあると思います。

非常に詳細な技術的AI安全と政策の世界の間の仲介者として行動することについてのかなりの量の作業があり、それをある程度翻訳しようとしています。

潜在的に良い可能性がある特定の規制がたくさんあります。EU実践規範をより良くすることは良いように思えます。EU AI Officeは雇用しているので、それに取り組むことができます。

実際に良い可能性がある規制のための他の戦略があるかもしれないと思います。

協調をより可能にする、または協調を支援することに関連するいくつかのことがあり、かなり役立つ可能性があると思います。米国と中国が現在の訓練プロセスについての様々な声明を検証できるように計算ガバナンス体制を改善するようなこと。

それがどの程度有望かについて強い見解を持っていませんが、驚くほど少ない人々がそれに取り組んでおり、それは驚くほど協調されていないと思います。だから、おそらく誰かがそれに取り組むべきです。なぜなら、それは潜在的にかなり大きな取引である可能性があるからです。

それに加えて、多くの人々が技術的専門知識を提供しようとしている位置にいると思います;彼らは現在スキルを構築している位置にいて、より直接的な影響を持つ準備をしている;そして後で、物事がより狂気になるにつれて、その時何かを行う準備ができているでしょう。

もう一つはただの一般的防御です。だから、私たちは以前にAI乗っ取りシナリオについて話しました。私が言っていたAI乗っ取りシナリオの多くは、例えば、生物兵器を含みます。一般的に生物兵器への堅牢性を改善することは、いくらか助けになるように思えます。それがどの程度助けになるかは複雑ですが、いくらか助けになると思います。

世界をAIがものをハッキングすることにより堅牢にすることと類似です。いくらか助けになると思います。

おそらくそれは他のものよりもレバレッジが低いですが、それらのものへより多くのリソースを導く介入は、誤配置に関する非常に異なる仮定を含む様々な観点から良い意味を成すと思います。それらのものは、おそらく誤配置リスクが全くなくても多くの意味を成すでしょう。

ロブ・ウィブリン:はい、誤用も問題だからだと思います。

Ryan Greenblatt:はい。それに加えて、良い可能性がある安全に関する多くの異なる作業があります。私が議論していた脅威モデルのいくつかは様々な結果を含みます、モデルが自分自身を流出させるようなもの。

それらは内部的に不正な方法で配備され、あなたの安全をバイパスし、潜在的に予想されていない多くの計算を使用している

私はそれらのことが起こる時間を安全メカニズムを介して押し戻すことは良いように思えると思います。また、人間行為者がモデルを盗むことを防ぐための安全も、より少ない競争、より多くの注意の確率を増加させる可能性があります

ロブ・ウィブリン:次の数ヶ月間のあなたの研究の優先順位は何ですか?

Ryan Greenblatt:現在、私はかなりの計画と概念的作業を行っており、その後その計画は多くのプロジェクトを紡ぎ出すことです。だから、私は次のような質問について考えています:あなたの責任あるAI企業が3ヶ月のリードにあり、非常に低い政治的意志があるこのシナリオで何をすべきか—有望である可能性がある潜在的アライメント措置の完全なリストは何か?どのルートを取るべきか?人々はどのように優先順位をつけるべきか?

そして、具体的な推奨事項と洞察を両方から理解しようとしています、マージンで物事をほぼ、基本的にRedwoodが全体的な計画を立て、その後それからいくつかの洞察を紡ぎ出すことで合理的な運を持ってきた目標で。制御がそこから出てきたと思います。私はこれをより多く考えることに基づいていくつかの更新を持ってきました。それが一つのことです。

その後、現在報酬ハッキングがどの程度大きな取引かを調べようとしているいくつかのデモで作業しています。最近、私たちは以前にそれほど多くしていなかった時にRLが動作していることを見てきており、それほど遠くまでスケールされていませんでした。

だから、一つの自然な質問は:どの程度の報酬ハッキングを得ているか?どの程度それは悪質かもしれないか?どのような状況でそれはより少ない悪質か?

これについて以前の作業がいくつかありましたが、これが本当にかなり遠くまで行っている今、潜在的に非常に悪質な報酬ハッキングを見ることを期待するかもしれません、そして報酬ハッキングによって完全に駆動された脅威モデルを非常に悪質な結果まで見るかもしれません。

原則として、人間を大幅に惑わすことやアセットの制御を掌握しようとすることのようなことは、報酬ハッキングから一般化する可能性があります。

また、報酬ハッキングが非常に悪質な誤配置につながる話もあります。なぜなら、あなたの指示に従わないAIから始めたからで、それは、私たちが監視信号としてより多くの制御を持つ可能性があるもののためでなくても、AIがあなたに対して陰謀することを含むある方法で結晶化しました。

ロブ・ウィブリン:それはすべて巨大なやることリストでした。もしそれを手伝うことができる聴衆の人々がいるなら、時間は短いと思います。これらのアジェンダすべてを前進させ、うまくいけば物事がより良く行くようにするために、すべての手が甲板にあることを使うことができるでしょう。

Ryan Greenblatt:確実に。

ロブ・ウィブリン:今日の私のゲストはRyan Greenblattでした。80,000 Hours Podcastに来てくれて本当にありがとう、Ryan。

Ryan Greenblatt:お招きいただきありがとうございました。

コメント

タイトルとURLをコピーしました