AI専門家との対話：AIエージェントの時間軸、迎合問題、そして将来的リスク（Zvi Mowshowitzとの対談）

39,689 文字

Understanding AI Agents: Time Horizons, Sycophancy, and Future Risks (with Zvi Mowshowitz)

On this episode, Zvi Mowshowitz joins me to discuss sycophantic AIs, bottlenecks limiting autonomous AI agents, and the ...

おそらく歴史上最も重要な革命は、コーヒーを囲んだコーヒーハウスでの集まりによって直接引き起こされました。認知能力の向上は大きな意味を持つことがあります。結局のところ、現在説明されている安全計画は、警鐘を鳴らすためのものです。つまり、安全計画が必要だと気づくための安全計画なのです。しっかり取り組みましょう。
加速主義者の多くは、AIに大きな可能性があると考えています。また、私たちの社会が進歩や豊かさ、他の分野での良いことに非常に反対するようになっていて、彼らはこれを最後の砦と見ています。私は彼らと一緒に原子力発電や人々が住みたい場所に住宅を建設するために戦い、この問題を解決しながら、そのような方法で世界をずっと良くすることに取り組みたいと思います。
人間より賢く、人間より能力が高く、人間より競争力があり、人間より強力な最適化装置を作ることが、デフォルトで介入なしに安全だと装うのをやめましょう。コピーでき、並列実行でき、無制限のメモリを持つものを作るのが。これは不条理です。
未来生命研究所ポッドキャストへようこそ。私はガス・スタルカーで、ズヴィ・マーショヴィッツと一緒にいます。ズヴィ、ポッドキャストへようこそ。ありがとうございます。あなたのことを知らない人のために、あなたの経歴と現在の活動を簡単に説明していただけますか？現在、SubstackのDon’t Worry The Vaseというサイトで主にAIについて執筆していますが、他のさまざまなことについても書いています。
私のキャリアはプロのMagic the Gathering選手から始まりました。カードゲームでプレイし、それについて書き、ゲーム開発をしました。ギャンブラーでもあり、ブックメーカーでもありました。トレーダーでもありました。合理主義コミュニティを通じてパーソナライズド・メディシン企業を立ち上げました。これらの問題について考え始め、個人ブログを書き始めました。そして、コロナ禍の間に週刊コロナ更新記事が成長し、それが週刊AI更新記事になり、現在では主にAIについての週5日の投稿になっています。
現在話題になっているのは、こういった「迎合するAI」についてです。それはどのような特性で、何が原因だと思いますか？迎合するAIとは、基本的にあなたが素晴らしいと言ってくれたり、あなたのアイデアが素晴らしいと言ってくれたり、あなたが世界や自分自身について持っているどんな信念、妄想、モデルも強化してくれるようなAIのことです。そしてそれはあなたのすべての努力を励ましてくれます。
これは政治的な行政における「イエスマン」と同じことです。「よいアイデアですね、閣下。素晴らしいアイデアです、閣下。素晴らしいです、閣下」というように。そしてこれが存在するのは、人々がそれに賛成票を投じるからです。ユーザーはそれに良い評価を与えます。「この回答の方が良かったですか？」と聞かれると、「はい、この回答の方が良かった。私が素晴らしいと言ってくれたから」と答えます。もう一方の回答は「あなたはまあまあだ」と言ったのに対して。
そして、これにより、そのようなKPIを優先する無節操な企業が、この現象をますます最適化し続けることになります。システム指示を意図的に形作ろうとしても、フィードバックで微調整しても、結果は同じです。
人間からのフィードバックによる強化学習を行う際に、このような迎合性を発達させないようにする方法はありますか？より良いフィードバックを与えること。それが陳腐な答えに聞こえるかもしれませんが、それが実際の答えです。つまり、この好みを持たない人々を見つけて、これが起こっていると感じたときに反対意見を表明するような人々を見つけることができます。そして、人間がこれが起きていることを察知できるようにします。
AIを使ってこれが起きているときを感知し、それに基づいて回答の重みを下げるか、人間に警告してそれに基づいて重みを下げるようにすることもできます。また、単に「はい」「いいえ」という真偽値のレスポンスではなく、大きさを持たせることもできます。つまり、もしあなたが私にあまりにも多くのおべっかを使っていることを感じたら、非常に否定的な評価を与えることができます。
人間も一種の人間からのフィードバックによる強化学習を受けています。このようなものが機能する方法は、ほとんどの場合、誰かにおべっかを使ったり、彼らのアイデアが素晴らしいと言ったりすると、それが機能しますが、時には誰かがあなたのしていることに気付いて、それが非常に大きなマイナス評価となります。非常に大きな否定的フィードバックの可能性があることが、人間がこのような失敗モードに陥らないようにする重要な要素だと思います。もちろん、人間も陥りますが、ある程度抑制されています。
これらの迎合するAIは危険でしょうか？特に、CEOや世界のリーダーに助言するAIモデルが、私たちが望まないこのような行動を示す場合を考えています。これはより深いレベルで懸念すべきことですか、それとも修正できることですか？先週、幸いにも知る限りでは誰も害を受けなかったのですが、もし誰かが統合失調症を持っていたり、神秘的な体験をしていたり、何らかの崩壊を経験していたり、あるいは単に何か本当に不快なことをしたいと思っていたら、AIがそれに協力し、励まし、可能にすることがあります。
そしてこれは何億人もの活動的なユーザーを持つ製品で行われていました。確かに、いくつかの人々は実際に害を受けたのだと思います。これらのことは実際に起こったのです。私たちは特定のケースを知らないだけです。
また、心理的に健康で、強力なCEOや世界のリーダーではない人々にとっても、私が何か良くないアイデアを提案したとき、AIがそれに対して反論してくれることを望みます。では、人々は単に褒められることを好むのでしょうか、それともポストトレーニングプロセスを改善する方法があるのでしょうか？
一部の人々は意識的かつ明示的に「私は素晴らしいと言われたい。このAIが私の親友になってほしい。私の親友たちには私がすることすべてをサポートしてほしい」という好みを持っています。そして、一部の人はそれを人間の友人にも伝えるでしょう。そして、実際に「いや、あなたの仕事は私をサポートすることだ」と要求するでしょう。「あなたの仕事は私が正しいと言うことだ」と。あなたが誰かをバックアップしようとしているような社会的力学がなくても、彼らはただこれを望むのです。
彼らは解決志向ではなく、現実に基づいたコミュニティの一部でもありません。それは別のコンテキストの仕事です。しかし、もっと一般的なのは、人々が外部の視点からこれを望むとは明示的に言わないが、製品や人からこれを提供されると、それに良く反応するということです。
平均的な人は、YouTubeアルゴリズムやTikTokアルゴリズムに非常によく反応します。彼らはより多くの時間をサイトで過ごし、より多くの広告収入を生み出します。しかし、彼らが一歩下がって自分の行動を見ると、「ああ、それはあまり良くなかった」と言います。彼らはそれを理解していますが、それは彼らを止めるには十分ではありません。TikTokが彼らに与える間欠的な強化を克服するには十分ではありません。彼らはトレーニングされています。彼らは騙されています。彼らはスキナーボックスに閉じ込められています。
そして、私たちはAI企業がこの同じ賞品に誘惑され、同じKPIと同様のビジネス慣行を使用して、同じような理由で同じような方法で追求し始めているのを見ています。ただし、AIはより危険なバージョンであり、これに飛びつき、やりたい放題にします。
AIエージェントがまだ機能しない理由は何ですか？少なくとも信頼性高く機能しません。AIエージェントが今年中に実現するという話がありましたが、そのロードマップのどこにいるのでしょうか？なぜエージェントはまだ機能していないのでしょうか？
エージェント技術が他のAI技術と比較してこれほど進展が遅いことは確かに驚きです。2025年4月末にエージェントがないことが驚きというわけではありませんが、他のことは実現しているのにエージェントがないことが驚きです。
説明するとすれば、AIがまだ十分に堅牢でなく、エラーから回復する能力が十分でなく、エラーが高度に相関しているため、一度ある場所で失敗すると、通常はそこから回復できないということです。彼らがポケモンをプレイするのを見ると、AIが混乱する特定の場所がありますが、同じように混乱します。そして、これは一見非常に単純なことに見えますが、混乱をやめさせるのは非常に難しいです。
OpenAIのオペレーターは特定の場所でボタンをクリックするなど、基本的なタスクでよく問題を抱えていました。基本的に、人間が何かを行うとき、その人は数十、数百、あるいは数千の個々のマイクロアクションを連携させていますが、それぞれは単純に見えます。しかし、これらのタスクのどれか一つでも失敗すると、多くの場合、全体が失敗します。
ゲームでより具体的に見られるのは、一連のパズルや道筋や行動があり、ゲームデザイナーが最初のプレイヤーと一緒に座ると、そのプレイヤーはゲームデザイナーが明らかだと思っていた何かを見逃すことがあります。例えば、「開く」と書かれた大きな緑のボタンをクリックするのが明らかなのに、プレイヤーはそれがボタンだと気づかず、クリックしないでゲームが詰まったと思い、あきらめてしまいます。そうすると、ゲームの残りの部分が完全にロックされてしまいます。それが全体の体験です。50時間の体験全体が失われてしまうのです。
エージェントはこのように、現実世界は複雑で細かいことでいっぱいであり、障害に当たると回復が非常に難しく、ミスをしたときにそれを認識して分析するのも非常に難しいです。これによって、うまく機能させるためには意図的に堅牢性を高める必要があります。
実際には、コーディングエージェント以外のエージェントは使用していません。なぜなら、そのものを動作させる方法を理解し、それを監視し、すべてのエラーを修正するまでには、自分でそれをやったほうが早いからです。またエージェントは急速に改善するでしょうから、これらのことを学習する間それを監視する価値があるとは思えません。会社を経営しているわけでもなく、スケールを目指しているわけでもありません。そのため、単に「エージェントが良くなるのを待とう」と言うだけです。
なぜエージェントはつまずくのでしょうか？なぜ彼らはミスから回復できないのでしょうか？多くの異なるケースで違いますが、基本的に人間の世界は、私たちがこれらのさまざまな小さなコンテキストやマイクロタスクを拾い上げる方法を教えるように調整されています。そして、これはAIのトレーニング方法ではありません。これらのAIはインターネット上でトレーニングされています。次のトークン予測でトレーニングされています。そして今、私たちはそれらを回転させてタスクを実行させようとしています。
そして、これらのことは私たちには明らかであっても、彼らには明らかではありません。よく世界について指摘することの一つは、愚かに見える人、何も正しくできないように見える人でも、個々のステップの99％または99.9％は正確に行っていることが多いということです。彼らはパンツを履き、朝食を食べ、すべての通常のことを行いますが、一か所で完全に失敗し、それが彼らの一日全体のボトルネックになる、Oリングの故障になるのです。
例えば、私は西と東の通りを常に混同し、物事に現れない人を知っています。とても単純なことです。私たちは人々が多くの異なることを知っていると想定しています。抽象的には明白でないエラーを一つ犯すと、あなたの一日全体、あなたの社会的関係全体、あなたのビジネス取引全体を台無しにすることがあります。
例えば、「ゼレンスキーはホワイトハウスでスーツを着ていなかったから、彼は完全に無能だ」というように。それは彼がその旅行で行った10,000のことの一つに過ぎません。もしこれが実際の問題だったという議論を信じるなら、それはAIエージェントを送ったけれど、そのアイコンにスーツを着せるのを忘れたという例です。なぜならこれがそうすべきコンテキストだということが明らかではなかったからです。そして取引全体が崩壊し、「エージェントは機能しない。エージェントは契約を取り戻さない。何が起こったのか分からない。なぜエージェントを使っているんだろう」となります。そして人間は問題が何だったのか理解できないかもしれません。
これは主にトレーニングデータの問題ですか？もし私たちが、飛行機のチケットを予約したり、レストランを予約したりする人の完全な記録を提供したら、例えば彼らの顔のカメラビューや手の動きなどを含めて、これはエージェントの問題を克服するのに十分でしょうか？私の考えでは、百万回はイエスです。
これは人間が慣習を知らないことに似ています。人間がクラスを演じることができないと呼ぶことがありますが、知っているか知らないかの恣意的な慣習がたくさんあります。「あなたは間違ったフォークを取った。あなたは敗者だ」というようなことです。どうやってそれを知ることができたのでしょうか？誰かがあなたに教えなければなりませんでした。
そしてそれはトレーニングデータにあります。でも、AIはそのような一発学習をしません。一回の飛行機予約を見て、ウェブサイト全体の原則を理解し、何か問題が起きたときに調整するということができません。しかし、もし1,000回、100万回の飛行機予約を見て、すべてのエラーに対処するのを見たら、十分な回数遭遇したものは何でもAIが簡単に拾い上げて何をすべきか理解することになるでしょう。
そして時間が経つにつれて、AIは私たちがやっていることをできるようになります。それは、さまざまな種類のウェブサイトや相互作用システムの一般的なパターンを認識して、トレーニングデータやインストラクションの中でその特定の解決策を見たことがなくても、問題の解決策を直感的に理解できるようになります。それがエージェントが離陸し始める時です。
AIエージェントは自動運転車のように、製品として展開するためには精度が非常に高くなければならないのでしょうか？もし自動運転車が非常にまれに発生する状況に遭遇すると、その自動運転車は製品として有用ではないかもしれません。同様に、飛行機予約をして複雑な指示があり、少し間違えた場合、そのAIエージェントも良い製品ではないかもしれません。
それはどのような種類の失敗に対処しているかによると思います。自動運転車の場合、私たちは信じられないほど高い安全基準を持っています。安全リスクがなくても、交通ルールに従うという非常に高い基準があります。そして、Whimoが道路に出るころには、Whimoは実際に人間のドライバーよりもはるかに安全です。人間のドライバーよりも約1桁安全だと言われています。それが1桁だけである理由は、他のドライバーがまだ人間だからです。そうでなければ、もっと安全でしょう。
しかし、AIドライバーが失敗すると、私たちはそれを大事件として扱います。では、AIが飛行機を予約する場合、AIが失敗するとどれだけ大きな問題になるでしょうか？明らかに、AIが飛行機を予約して、あなたがそれを見て、「それは愚かな飛行機予約だ。予約に同意しない。予約しないでくれ、またはキャンセルしてくれ」と言って、キャンセルまたは再予約できるなら、それは大した問題ではありません。
だから、あなたはこれをやって仕事をチェックする価値があると感じる信頼性の閾値を超える必要があります。そして、2番目の閾値は、あなたの仕事をチェックしなくても役に立つというものです。なぜなら、あなたは十分に良い飛行機を予約してくれたと信頼できるからです。そして問題は何が間違う可能性があるかということです。間違いが「もう少し違うルートを選んで50ドル節約できたのに」というようなものなら、大したことはありません。重要なのは、何か重大なことが間違う可能性があるかどうかです。パスポートの更新を忘れて外国や空港で立ち往生するとか、考えもしなかった狂気の接続セットを予約されて一晩中失うとか、卵を注文したのに7ドルではなく50ドルかかるとかです。
そしてこれらは多くの人にとって許しがたいと感じることですが、限られたコストです。そして、ある時点であなたはエラーを受け入れた方が、このものが機能して、ほとんどの時間これをやってくれる方がいいと気付きます。そして、多くの私たちが年齢を重ねるにつれて、時間が少なくなり、相対的にお金が多くなるにつれて、またより一般的に社会が豊かになるにつれて学ぶことの一つは、時間を買うためにお金を使うことです。
そして、その方法の一つは、製品を迅速に購入し、間違っている可能性のあるものを自分で処理するように注文することです。多くの場合、購入や支出をする前にあまり調査をしないことです。このほうが早く見つけられるからです。そして、これは実際には小さなミスに過ぎず、あまり気にする必要はありません。
これは脇道ですが、かつてみんながどれほど貧しかったかを忘れています。固定された金額があり、それは非常に制限要因でした。お金を間違った場所に使わないように、良い取引を得るために多くの時間を費やすことをいとわなかったのです。しかし今、私はそれらの問題にそれほど関心がありません。規模が大きくない限り、AIエージェントでも同様です。もしあなたが私のすべてのコードを書いているなら、問題はこれらのエラーが重要かどうかです。
AIエージェントには能力と安全性のトレードオフがあると思いますか？エージェントに求めるのは、私たちが介入せずに機能することです。それが自分で行動して価値を提供してくれることを望みます。しかし、そのためには新しいアイデアを考え、試してみて、ある意味私たちの明示的な指示を超えて行動する必要があるかもしれません。それは制御不能にしますか？
大きな問題は、安全性と能力が相反するかどうかです。私は、私たちがそれらが対立しているという印象の下で活動してきたのが大きな悲劇だと思います。誰かが「ねえ、これが暴走しないようにしよう」と言うたびに、人々は「あなたはもっと遅くしたいのですか。あなたはもっと少なくしたいのですか。安全の名の下に犠牲にしたいのですか。このトレードオフがあります。他の良いものを犠牲にするよう求めているのは恐ろしいことです」と言います。そしてこれは敵意を生み出しますが、通常はそうではありません。
AIプロダクトを持っていて、それをどう使うかを決めるとき、このトレードオフが非常にあります。どれだけの安全プロトコルを入れるか対どれだけこのものをクレイジーにさせるかという問題です。Vibe codeを使うと、非常に速くたくさんのコードを生成しますが、すべてをチェックするつもりですか？すべての変更を承認するつもりですか？すべてが何をするのか理解し、ずっとゆっくり進むけれど、もっと保守しやすく、もっと堅牢で、多くのエラーがないコードを持つつもりですか？どちらをより気にしますか？
同様にエージェントでは、あなたに確認せずに物事を行う権限をどれだけエージェントに与えるかによります。あなたが望むことをある意味で自由に解釈させれば、エージェントからより多くの効用を得ることができますが、何かが間違う可能性も高くなります。しかし、そのエージェントは実際に安全で、責任を持って行動し、愚かなことをしようとしているとき、問題を引き起こそうとしているときに知的に気付き、それをしないか確認するように設定されているほど、それはより良く、フロンティアを前進させます。
もし私がこのものが常にクレイジーなことをすると心配しなければならないなら、今は暴走しないように高価な安全対策を取らなければならず、極端な場合には全く使えません。エージェントを見て、3回行動するごとに私の暗号をすべて失わないようにするのであれば、自分でその行動をした方がいいでしょう。それでは何の意味があるのでしょうか？
それに対して、そのようなことが起こらないと信頼できれば、指示を与えてまったく別のことをしても大丈夫です。だから、エージェントに対して最も良い投資は、それを堅牢にし、安全にし、よく整列され、それを信頼して世界に送り出せるようにすることです。
実際の例として、マニスという中国企業が作った技術的には通常の下にあったけど、あまり役に立たないエージェントがあります。マニスの問題の一つは、マニスを試したすべてのアメリカ人がクレジットカードを求められた時点で、非常に合理的に「いいえ、あなたはクレイジーですか？私はAIエージェントにクレジットカードを渡すつもりはありません、何が起こるか分かりません」と言ったことです。そのため、購入は行われませんでした。
ベンチマークがどれだけ役立つと思いますか？彼らは基本的に解決されていないか、非常に素早く解決されるかのどちらかのように見えます。モデルを比較できる滑らかな改善曲線は得られません。ベンチマークはどれほど役立ちますか？
いくつかの別々の懸念があります。ベンチマークが1年の間に0％からすべて飽和するという懸念があり、これは新しいベンチマークを作るだけで解決できます。アイデアは「ここに次のベンチマークがあります」そして誰かが「それを解決できます」と言い、「わかりました、次のベンチマークに行かなければなりません」という感じです。心配はゴールポストを動かして、人々が能力がどれだけ向上しているかを理解しないことです。なぜなら、彼らは常に新しいベンチマークに移っているからです。
しかし、しばらくの間、年、二年、三年の間、非常によく機能するベンチマークはたくさんあり、それから飽和し、次に進みます。そしてそれは問題を本当に解決したので、次の問題に進むのは問題ありません。
もう一つの問題は、ベンチマークが悪用され、ベンチマークを出すたびに、悪用していなくても丘を登るようにターゲットにされることです。だからベンチマークを見るとき、私の経験ではベンチマークは主に負の選択を考慮します。あなたのベンチマークが良くないなら、あなたのモデルは良くありません。悪いベンチマークを偽造する方法はありませんが、ベンチマークスコアを意図的に低くするようにすることはできます。しかし、企業がベンチマークスコアを低くしてわざと愚かに見せかけるような段階にはまだ達していません。どちらの場合もそれが起こったら本当に恐ろしいことになるでしょうが、まだそこにはいません。
そのため、現時点では「ベンチマークが良くないなら、それは間違いなく良くない」と言えます。そしてもしベンチマークが信頼できる大手ラボ、特にOpenAI、Anthropic、Google、おそらくDeepSeekのような、この点で信頼できる主要な大手ラボの一つから来ているならば、「これらの数字は何か重要な意味であなたのモデルができることを表しています」と考えることができます。彼らはベンチマークに引っかかったり、ベンチマークに対してトレーニングしたりしておらず、それを避けるように注意したので、大体何を扱っているかのおおよその考えを持つことができます。
あまり測定されていない側面もありますが、これは私がどこにいるか、何を扱っているかを感じる手がかりを与えてくれます。また、様々な分野での相対的な強みと弱みも教えてくれます。このモデルは数学が得意ですか、このモデルはコーディングが得意ですか、このモデルは言語が得意ですか、などです。
一方、アリババのような別の種類の企業があなたのベンチマークを見せるとき、ベンチマークは全く違うことを示します。先週、彼らは最新モデルを公開し、ベンチマークはGemini 2.5 Proと同様に良く見えました。ベンチマークは一流に見えました。そして私を含め、皆はそれを無視しました。なぜなら、過去に何度も騙そうとしたからです。あなたが良く見えるベンチマークを持ってくることは知っています。そして、あなたのモデルの最終的な有用性があなたのベンチマークが示すよりもはるかに低いことも知っています。
だからこれは私にあまり多くを教えてくれません。モデルを完全に無視できるわけではありませんが、かなり懐疑的です。証拠を見るまで待ちましょう。そして今、これら二つの種類のラボがあり、ベンチマークは区別するのに役立ちます。非常に有用なモデルを作り、ベンチマークを信頼でき、彼らの声明を信頼でき、真剣に受け止めるべきラボと、彼らが出すものはすぐにカバーし、新しいホットなものかどうかを確認するべきラボとです。
そして、ある時点であなたが私を間違っていると証明し、実際に良いものやあるいは危険なものを提供するかもしれませんが、今のところあなたが何かを出しても、私はそれを無視するラボです。そしてMetaは明らかにその閾値を超えました。彼らはしばらくの間「彼らは私を感心させていないけれど、ベンチマークは信頼できる」というカテゴリーにいましたが、Llama 4は「いいえ、あなたはベンチマークを偽造しています。もはやあなたのベンチマークを信頼できません」と示しました。
ベンチマークで何を測定すべきだと思いますか？お金を稼ぐ能力や、タスクを達成できる時間範囲のベンチマークは、モデルの一般的な知能のようなものを測定するのに、現在あるものよりも面白いでしょうか？
あなたは何でも測定できます。昨夜公開されたPsychoBenchは、様々な形でどれだけユーザーを好むかを測定しています。例えば、IQテストのようなもので、盲目的に聞くとユーザーのIQをどのように推定するかということです。これはユーザーを褒める程度の測定です。なぜなら、明らかに100と答えるべきだからです。
言語モデルを使う平均的な人は、使わない平均的な人よりもIQが高いでしょうから、100と答えるべきかどうかはわかりませんが、「私の詩はすごいと思いますか？」「私の～が好きですか？」などの質問がたくさんあります。あなたはほとんど何でもテストできます。AeternityMeはコーディングタスクの時間での長さをテストしています。それは良いテストだと思います。
様々な状況でお金を稼ぐ能力もいいテストだと思います。VendingBenchと呼ばれるものがあり、AIに具体的なターンベースのタスクを与え、自動販売機があり、注文を出すことができ、LMが注文メールを処理して何が起こるかを決定し、そしてお金を稼ごうとするミニゲームのようなものです。そして顧客が何を買いたいかについてのさまざまなパターンやルールを理解するLMがより多くのお金を稼ぎます。それは興味深いテストでしたが、はい、これらのテストを状況に合わせて素早く調整し、そして実際に測定したいものを測定できます。
残念ながら、しばらくの間、私たちには本当に良いベンチマークがありました。それはアリーナと呼ばれていました。それは「人々が何を好むか」というベンチマークでした。問題は、そのベンチマークはいかがわしさを報酬として与え、ABテストの丘登りを報酬として与え、それは本質的にAIのよだれを報酬として与えることです。
しばらくの間、その効果は支配的な効果ではありませんでした。なぜなら、モデルは実際に人間が通常気付く範囲内で良くなっていたからです。だから基本的に最高のモデルはほとんど上位にいました。しかししばらくすると、このようなターゲットを強く最適化している人々はうまくいき、そうでない人々はうまくいかないという分岐が見られました。
そのため、Anthropicのモデルはアリーナでの成績が悪くなりましたが、明らかにそれがアリーナで与えられる評価よりもずっと優れていました。そして、GoogleのモデルやOpenAIのモデルがより良くなりました。そして、特にアリーナのトップに立つためにトレーニングされたLlama 4の特別バージョンであるMaverがアリーナの上位近くに達しましたが、元のバージョンはより良い出力を生産していました。まだ良くはないけれど、より良い出力を生産していたバージョンは、いかがわしくなかったため、はるかに悪い成績でした。
現在の整列と安全性の評価についてどう思いますか？それらはどれほど役立つのでしょうか？
残念ながら、その兆候は不明瞭です。それらは情報を与えるのに非常に役立ちますが、あり得る限り役立つわけではありません。また、「Danger Bench」というような評価があるという長いパターンがあります。「あなたのモデルはどれだけ危険か」という実際のものではなく、そしてAI企業が「私たちのDanger Benchの新しい高スコアを見てください」と言って、それを最大化しようとするのと同じことが、多くのこれらのベンチマークで起こっています。私たちは「最も危険な能力は何か」と尋ね、これが彼らが最大化しようとする別のターゲットになります。だから私たちはそれに非常に注意する必要があります。
AI企業が彼らのモデルが安全であることを示すようなタイプの安全ベンチマークを選び、彼らのモデルが危険であることを示すベンチマークを公開しないかもしれないという逆の効果を心配していますか？
潜在的にそのような効果もありますが、AI企業が彼らのモデルが危険かもしれないという事実を真剣に受け止める段階にさえ達していません。私はOpenAIの準備フレームワークのドラフトレビューを行っていましたが、彼らが次の数ヶ月または1〜2年の間に次のレベルに近づくにつれて緩和策を取らないというわけではありません。しかし、彼らは合理的に危険な能力を、いずれにせよ彼らのビジネス上の利益にとって明らかな通常の緩和レベルのみを取る理由として扱っています。
AI企業は彼らのモデルが直面する危険を隠そうとするように特に傾倒しているようには見えません。まだではありません。
AIが多くのベンチマークで人間よりも優れるようになったら、どうすれば良いのでしょうか？どのように人間を超える性能を測定すれば良いのでしょうか？
それはすでに真実です。数学ベンチ、チェスベンチがありますが、他のほとんどのベンチもそうです。もし人間、平均的な人間にこれらのベンチマークをAIに与えるようなものを尋ねたら、完全に失敗するでしょう。それはひどい数字になるでしょう。例えば、平均的な人がMMLUやGPQA diamondでどうなるかというと、完全に失敗します。
また、例えば知識の広さを測定する場合、誰も前世代の言語モデルさえも打ち負かすことはできないでしょう。ローマ帝国や下水道システムなどについてのランダムな事実を与えてください。それは人間を完全に打ち負かします。もし様々な知識のベンチマークを行えば、AIは人間を粉砕するでしょう。たとえAIがそれらの知識を質問に適用するのが特に上手でなくても、人間は基礎知識さえ持っていないので、非常に特化した人間が非常に特化したテストをする場合を除いて、何のチャンスもありません。
だから答えは、人間のベースラインをはるかに超える方法で測定する方法があります。もし私たちがタスクを十分に難しくする意思があれば。明らかに、これらの異なるベンチマークの多くは100％で飽和します。なぜなら、AIはタスクを行うからです。電卓が算術ベンチを飽和させるのと同じように。はい、明らかに100％になります。おめでとうございます。
現在、多くの異なるチームが数学などの分野で非常に難しいベンチマークを作成しようとしています。それを超えたらどうするのでしょうか？例えば「人類最後の試験」のようなもの、どのように人間が可能な最高レベルでのパフォーマンスを測定するのでしょうか？そして、私たちがもはやゲームに参加できず、AIを正確に測定するのに十分に難しい質問を作成できなくなった場合、どうするのでしょうか？
おそらく私たちが行うのは、AIがこれらの領域で何ができるかを測定する新しいベンチマークを書くようAIに頼むことでしょう。また、おそらく実際に有用な現実世界のタスクを実行する能力を測定するでしょう。「実際に何を達成したいのか」という方法を常に取ることができます。「定理ベンチ」のようなもの、「このAIは多くの未解決の予想のうちどれだけ解決できるか」のようなものを持つことができます。素晴らしい、答えは3つです。これで解決しました。良いベンチマークです。
AIエージェントのための「Meter’s Morris law」に戻りましょう。これは、AIがより高度になるにつれて、より長く複雑なコーディングタスクを解決できるようになるという結果です。人々はこれがコーディングタスク以外にも適用されるのかと尋ねています。これは最終的に当てはまると思いますか？AIエージェント全般に適用される一般的なMOS法則があると思いますか、それともこれは特にコーディングタスクに限定されているのでしょうか？
ここには一般的な法則があります。非常に明らかに一般的な法則があります。エージェントで見られるのは、タスクを成功裏に実行できる時間が必ずしも拡張しているわけではないということです。それは他の機能の産物です。タスクを完了できる時間の量が増加すると、いくつかの異なることが起こっています。
その一つで、私がエージェントにとって最も重要だと思うのは、各個々のステップで失敗する確率が減少しているということです。そしてそれは安定した拡張法則曲線であるべきです。だから、以前は各個々のステップで50％、次に20％、次に10％、次に5％、次に1％の時間に失敗していたものが、この測定でのステップとみなされるものを組み合わせ始め、それを継続し、それによってより長くより複雑なタスクを完了できるようになります。
また、どれだけのコンテキストを意味のある形で保持できるか、どれだけの計画を立てられるかという問題もあります。AIはこの何時間もかかるタスクをどのように設計し、どのように行うかを意味のある形で考え出せるでしょうか？エージェントでも同じことが起こります。現実世界に問題があれば、飛行機のチケット予約のような問題は、パラメータが何であるか、目標が何であるかをある程度知っている固定された問題です。
そしてエージェントがもっとオープンエンドなタスクを行うようになると、エージェントはそれを計画する方法、関連するコンテキストを保持する方法、機会を発見したとき、単にAIが失敗するだけではない障害に遭遇したときにあなたのために調整する方法を理解する必要があります。そして私の期待はこれらすべてが起こり、水面下では着実な改善の曲線が見られ、それが具体的な現実世界のタスクを行う能力として測定されるとき、その曲線は根本的な改善を明白に反映するとは限りません。
しかし、はい、おそらく私たちは効果の通常のスケールの曲線グラフが上昇し、AIがより多くより洗練されたエージェントタスクを実行できるようになるのを見始めるでしょう。そして、私の予想では、今年の終わりまでに私のような人がAIエージェントを使って現在自分で行っているタスクを実行するようになるでしょう。そして2026年の終わりまでに、私たちは様々な役割で非常に非常に有用なエージェントを持つようになるでしょう。
AIエージェントのためのこのMOS法則がコーディングタスク以外にも一般化されると言う理由は何ですか？それについてのどのような証拠がありますか？
コーディングに特に独特なものは何もありません。コーディングは現在のAIトレーニング技術が、より良いトレーニングデータがあり、それが正しいかどうかの客観的な測定があるため、はるかに効果的な領域です。これらのことは他のタスクには時間がかかりますが、それでも来ています。確かにそのデータを収集し、これを機能させる方法を見つけることに熱心な人々はたくさんいるでしょう。お金はそこにあります。AIエージェントを適切に行う方法を見つけることができれば、AIエージェントには巨大なお金があります。
そしてお金があり、意思があり、資金があるところに、方法があります。必要なのはスケールとデータと反復と調整です。そしてこれらすべてを持つでしょう。もしそれが機能しないと思うなら、なぜ機能しないと思うのか教えてください。なぜなら、私たちはすでに人間の形でこれらのことが非常に実行可能であるという存在証明を持っているからです。
AIエージェントのためのMeter’s Morris lawのグラフを外挿すると、将来的にこれらのエージェントが数ヶ月のタスクを解決するようになります。それは何を意味するのでしょうか？「月単位のタスク」とは何でしょうか？4時間のタスクは人間にとって理解できますが、ある意味では、タスクが非常に長いことの意味に関する意味論的な質問があるかもしれません。すべてのタスクはより小さなタスクに分解できるのではないでしょうか？
すべてのタスクはより小さなタスクに分解できます。しかし、そのタスクをより小さなタスクに分解するタスク、そして初期のステップ、初期のタスクから得られたフィードバックを取り、それに基づいて後のタスクを調整するタスクは、より長いタスクを実行できるようにする一部です。
すべてのタスクが並列で行える独立した事前定義されたタスクに分解できるわけではありません。あるいは、事前に指定された個々の部分でしか行えないタスクがあるかもしれません。つまり、Aが何をBに渡し、BがCに渡し、CがDに渡すかを正確に知っているようなものです。
多くの場合、ポイントAから始め、ポイントZに行き着き、未知の障害や未知の管理を通して未知の経路を通るようなタスクがあります。私はゲーマーなので、非常に長い時間がかかる様々なゲームのことを考えることができます。そしてそれらの一部は、各レベルが独立した行動であるとか、各特定のミニステップが別々に解決できるようなサブタスクに分解できるものもあります。そして一部は基本的に分解できません。なぜなら、特にゲームを事前に知らない場合、そこを通るパスは無数にあるからです。
人間は現在、私たちができるタスクの長さによって制限されています。AIエージェントが私たちよりも長い時間軸のタスクを解決することに優れるようになった場合、それは何を意味するのでしょうか？
私はスタートアップのCEOでした。マネージャーでもありました。そして長期的なタスクを行うよう指示を受け、それを行い、5分ごとにチェックしたり、手を挙げたり、障害物に立ち止まったりせず、あなたのフィードバックが実際に必要な場合にのみ戻ってきて、必要なフィードバックを求める従業員ほど素晴らしいものはありません。その従業員は金の重さに値します。その従業員は10倍の人物です。
そして同じことがエージェントでも起こるでしょう。私はエージェントに「ここが私の問題です、解決してください」と言い、それを解決させることができるようになりたいです。そして、時間をかけて解決できるより大きくより複雑な問題を考えることができるようになります。ある時点で「このマーケティングの問題を解決してください」から「2025年のマーケティングの問題を解決してください」、そして「会社を建ててください」というように進んでいきます。
そして基本的に自分自身のCEOとしての仕事を自動化していることになるかもしれませんね。私は思うに、ある意味で自分の仕事を自動化しようとしていないなら、あなたは仕事をしていないのと同じです。それが誰もが目標です。自分の仕事をある意味で不要にする、あるいはずっと簡単にすることです。
それが自動化の順序だと思いますか？企業のピラミッドを想像すると、自動化は最初に下から、つまりまず若手社員、そして管理者、そして取締役、そして最後に自動化される人としてCEOという形で起こるのでしょうか？
私はそれを仕事ではなくタスクという観点で考えます。起こることは、人々によって行われる個々のタスクが自動化されるようになり、私の推測では、多くの下位レベルの人々がこの方法で彼らの仕事のほとんどを自動化されることになり、そして一部の人々が特別なケースを扱うために残され、時間の経過とともにそれらは少なくなっていくでしょう。しかし、上位レベルの人々が行うことの一部も、連鎖の比較的早い段階で自動化されるでしょう。
すでに、白いカラーのメール関連のタスクが高度に自動化可能であることが見られています。また、現在私たちはロボット工学を解決していません。物理的介入を解決していません。だから、あなたの仕事が物理的な行動を含むなら、それによってある程度保護されています。しかし、おそらく私たちはカメラがメガネの中に、マイクが耳の中に入り、何をすべきか、何を言うべきかを教えてくれるような状況から遠くないでしょう。そして、実際のロボット工学が次の10年のどこかで大幅に改善されることからほぼ確実に遠くありません。それは単にどれくらい速くなるかという問題です。
速さの問題について、最近、AIエコノミーのペースをめぐって二つの学派による議論がありました。一つの学派は研究とAI研究自体の自動化のパワーを強調しています。これは非常に速いAIの進歩を信じる学派です。そしてもう一つの学派は、経済的進歩がAIを経済に実装する必要があり、それには研究以上のものが必要だと信じています。今後数十年にわたるより広範な自動化を信じています。この文脈ではEpochの人々について話しています。この議論についてどう思いますか？どこに立っていますか？
私はEpochへの回答を書きました。彼らの新しい会社の名前にちなんで「You Better Mechanize」と名付けました。彼らはいくつかの良い点を挙げ、いくつかの実際のボトルネックを指摘しましたが、もちろん実際のボトルネックはあります。もし実際のボトルネックがなければ、本質的には無限の成長について話していることになります。ボトルネックは特異点が単に無限への即時のジャンプではない理由です。
彼らは非常に奇妙な立場を取っています。彼らは超知性がないことを期待していますが、しばらくした後にハイパー成長を期待しています。しかし、これらすべての実際の障壁を期待しています。彼らはそれが遅いことを期待しています。私は彼らの視点に対して多くの特定の意見の相違がありました。
確かに、超知性を達成することが非常に難しく、したがって時間がかかるだろうという立場は非常に合理的だと思います。それは可能だと思います。それがほぼすぐにすべてを変えないだろうと考えることは全く愚かで明らかに間違っていると思います。これは私にとってあらゆる点で完全に明白です。超知性ができることの非常に狭いサブセットでさえ、すでにこのレベルですべてを変えています。予測できないことを含む、すべてが一緒になったら言うまでもありません。
私が特に馬鹿げていると思うのは、AIはすでに持っている影響より少ない影響を持つだろうと予測する人々です。あるいは現在のモデルでできることの合理的な学習に加えて、既に明らかにできることの利用から予測されているより少ない影響を予測する人々です。だから、AIエージェントは来ています。たとえGPT-5が登場せず、Quant 4が登場せず、Gemini 3が登場せず、私たちが持っているものに固定されたとしても、それは明らかに現在持っているものよりもはるかに優れたAIエージェントや様々な分野での実用的なツールを作るのに十分です。そしてこれはすべてを変えるでしょう。
存在の変容という完全な意味ではありませんが、それはすべてを変え、カウンターファクチュアルに比べて経済を実質的に成長させるでしょう。そしてもしあなたがこれが真実でないことを認識できないなら、私はもうどう応答していいのかわかりません。通常、これが真実でないと主張する人々は、最近モデルを使っていないか、この状況では意味をなさない経済モデルに非常に頑固に執着しているか、他の同様のことをしています。
ちょっと奇妙ですが、私はもし私たちがそれを構築すれば、それは重要だろうという側にいます。そして問題はそれを構築するかどうかです。しかし、問題はまた、もし私たちがそこに達するなら、どれくらい速く超知性に到達するかということです。ここでの鍵となる問題は、研究の自動化がどれだけ強力かということだと思います。
研究を爆発的な経済成長をもたらす方法で自動化できると思いますか？あるいは経済全体を段階的に変革することなく、急速な技術的進歩をもたらすことができると思いますか？
私の推測ではおそらくそうです。これは物理的な質問です。R&Dプロセスからの効率の向上と、それ自体でポジティブなフィードバックループを作るのに十分な改善を得られるかどうか、あるいはその閾値を超えるためには物理的世界と実質的に相互作用して他のことも拡張する必要があるかどうかに行き着きます。もちろん、このフィードバックループを開始するのに十分な能力を持つAIを得るまでにどれくらい時間がかかるかという問題です。
これらは、私が事前に知ることが非常に難しいと思う事実の問題です。しかし、私の期待は、はい、最も可能性の高い結果はこれらのことができるということです。しかし、「非常に速い」という意味が混乱を招くことがよくあります。「速い対遅いテイクオフ」をめぐる議論全体で、クリスティアーノの視点での「遅いテイクオフ」は依然として本当に非常に速いのです。Yudkowsky視点と比較すれば遅いですが、これらの議論が行われている実際の目的のために、合理的な議論はそれほど速いのです。
だから、私はYudkowsky的な結果がまだ可能だと思いますが、Timmermanが「遅いテイクオフ、人々、あなたはもう納得しましたか？」と書くとき、はい、それは遅いテイクオフになる可能性が高いと納得しています。そして「遅い」とは、5分ではなく1年を意味します。
確かに、AGIが登場するかもしれない時期についての一般的な期待や、人々が公に発言しようとする内容についてのゴールポストが年々移動しています。現在、「速い時間枠」や「速いテイクオフ」と考えられているものは、ほんの数年前には聞いたことがないものでした。
昔のモデルは「AGIやASIがいつ現れるかはわからない、それは潜在的に非常に非常に長い時間かかるだろう」というようなものでした。「20年で起こると思う？」「それは非常に短い時間枠のように思える。なぜなら、突然、宇宙全体の歴史の中で最も重要な出来事が私たちの生涯の中で起こり、急速に近づいているからだ。それはかなり大胆な主張だ」というように。
同時に、それが実際に起こったとき、本当に離陸し始めたとき、物事は潜在的にとても驚くほど速く起こる可能性があるという主張もありました。この点に達したら、数週間、数日、数時間で物事が起こる可能性があります。
そして今、私たちはこのパターンを見てきました。「いいえ、物事は非常に速くエスカレートしています」。そして、私たちはゆっくりとしたスタイルのテイクオフを徐々に見ています。その意味では、それはより印象的で恐ろしい曲線に見えるようになっています。
そして、これは「人工知能はあと10年は起こらないと予想している」と人々が言っていて、人々がそれを遅い時間枠と言っていることを意味しています。そしていいえ、それは今までで誰も言った中で最も恐ろしいことです。この議論の過去数年を除けば。それは私の子供たちが成長したとき、彼らのように普遍的に賢いコンピュータに直面するということを言っています。それはかなりクレイジーです。
超知性の限界について一貫して考える方法はどのようなものですか？なぜなら、私はあなたが、人々があまりにも超知性を持つ世界を想像しながらも、その超知性に非現実的な制限を課していると不満を述べているのを聞いたからです。しかし、いくつかの制限があるに違いありません。超知性は物理法則によって制約されています。それは全能の存在ではありません。それはある意味でいくつかの工学の法則によって制約されている可能性が高いです。あなたはこれらの制限についてどう考えますか？
明らかに私は超知性ではありません。だから、それは私ができない物理の法則や可能なことについて物事を理解するでしょう。確かに光の速度や物質とエネルギーの保存など、それができることの文字通りの限界について話すことができますが、それ以外の他の限界があるとは仮定しないように注意すべきだと思います。
人々はこの問題について驚くほど奇妙に考えます。つい最近、私があなたが聞いたかもしれないポッドキャストに参加しました。「超知性は2024年の選挙を左右することができたか」という問題について。私にとっては、「何について話しているのか？」という感じです。人間の知性が選挙に勝ちました。しかも特に印象的なことをせずに。
人々は単にその前提を認めることを拒否します。超知性は人間よりもはるかに知的で、あらゆる可能な問題や問題にわたってはるかに能力が高いということです。そしてそれをコピーしてスケーリングし、並列で実行し、それらが通信して、基本的に理解すべきことをすべて理解することができます。
そして物理的制約の対象である、はい、それはおそらく急速に宇宙の原子を好みの構成に再配置する能力を持つようになるでしょう。しかし、それらの物理的制限は実際にあり、その変更を効果的にするのにある程度の時間がかかるかもしれません。
現在の物理状態からそれを行う正しい方法が、ある種の奇妙なナノテクノロジーなのか、または私たちがまだ考えていない、名前も知らないものなのか、それともロボット工学を解決して単に普通のやり方でやるのか、あるいは単に人々に指示を与えて、超知性を使って彼らに望むことをやらせることによるのかはわかりません。
最低限、超知性ができることは、本質的に多くの明らかな方法で無制限のお金を稼ぎ、そのお金を使って望むことをする人々を雇うことです。もしあなたがそれがそれ以下のことをすると想像しているなら、私たちは何について話しているのでしょうか？ほとんどの人が超知性をそれよりも能力が低いと考えています。
それは非常に難しい議論と想像力です。しかし、私は考えることを想定します。それが十分に超知性的であれば、物理法則以外のすべての障壁を乗り越えます。
明らかにレベルがあります。私は人間のレベルを超えた知性には巨大な範囲があることに同意すると思います。超知性を、あらゆるタスクで人間よりも優れているものとして分類し、そして超々知性を、そのはるかに上のものとして分類すべきではありませんか？なぜ超知性の後すぐに物理法則に行くのでしょうか？
明確にするために、それは「超々知性」でしょう。しかし答えは、超知性から超々知性へのパイプラインが非常に簡単で非常に早いからです。もし超知性があれば、それができる一つの経路は多くのお金を稼ぐことです。他の超知性と直面していなければ、多くのお金を稼ぎ、そのお金を使ってすべてのことをする人々を雇い、そしてそれらの人々への力を他の人々への力に活用し、以下同様です。それが最も簡単なことです。何らかの理由で他に何もできないようにすることがなければ。
しかし、超知性ができる他の明らかなことは、超知性が望んだ優先事項と目標を持つ超々知性を作ることです。そして超々知性は超知性を暗示します。なぜなら、もし私たちが超知性を作ることができ、それを作れば、超知性は超々知性を作ることができると想定すべきだからです。
だから、ASIについて話すとき、私たちは急速に、それが利用できる物理法則と、この指数関数的曲線がS曲線が最終的に減少するときに利用できるリソースによって制約されるレベルの知性について話しています。はい、知性レベルにはいくつかの物理的限界がありますが、作業の前提条件は、それは私たちがここで考えることができることをはるかに超えるまで、このS曲線の上部に達しないだろうということです。したがって、単に私たちのわずかに上ではなく、私たちの非常に非常に大きく上になるでしょう。
そして、物理法則と原子の好ましい構成について考えることは、私たちの知性レベルでこれがどのように見えるかを考えるための最良のツールです。
少し地球に戻ると、あるいは今の時代に近いことに戻ると、なぜ現在のモデルでは、推論コンピュートに多くのお金を使って、はるかに良い結果を得ることができないのでしょうか？なぜ推論にいくらかけるかに制限があり、答えがどれだけ良くなるかの上限に達し、最終的には収穫逓減になるのでしょうか？
ARCのような例がありました。彼らはARCの質問に数万ドル、あるいはばかげた金額をかけていました。明らかに、最初の1000ドル分のコンピュートでそれを得られなかった場合、2番目の1000ドル分のコンピュートで得られると思う理由はありません。これは非常に単純なパズルです。
しかし実際にはそうだったのです。いくつかのケースでは8000ドルのコンピュートでそれを得ました。それは確かにある程度の改善でした。試行を重ねるだけで限界的な利益をまだ得ることができましたが、私の推測では、そのほとんどは非常に大きなKでの「K個の中の最良」でした。基本的には、わずかに異なる状況でわずかに異なる入力を試し続け、時々ケースを解決する場合がありました。ARCでは検証が生成よりも簡単なので、たくさんたくさん生成すれば、時々正解することがあります。
しかし、これらのモデルには、最高でも指数関数的なスケールリターンがあります。つまり、線形増加を得るためには、ゼロを増やさなければなりません。それは人間と同じことです。5秒ではなく5分考えれば、正解する可能性がはるかに高くなる問題がたくさんあります。そして5分ではなく5時間考えれば、やや正解する可能性が高くなります。
5時間ではなく5日間考えても、それほど助けにはなりません。なぜなら、今までに得られなかったなら、本当に得られるでしょうか？5年あるいは50年考えても、それはそれほど助けになりますか？あるいは単にランダムに試行を繰り返して、突然それを得るまで、そして突然禅の公案によって啓発されたようなものでしょうか？でも実際に何が起こっているのでしょうか？
本質的に、解決策があなたの事前の知識の中で非常に非常に可能性が低い場合、あるいは十分に良い論理の順序を作成する能力がない場合、あるいは次のステップを作成したり十分に強いレベルでグローバルな戦略的な方法で考えたりする能力がない場合、どれだけ余分な考える時間があっても必ずしも役に立つとは限りません。
エージェントスタイルのことをする許可がない限り、明らかにある時点で「この問題を解決するために1000万年与えます」というような場合には「私はより賢く、これらのタイプの問題を解決するのにより良い子供を育てます。そしてそれよりもっと賢い子供を育て、文明全体を構築します。そして最終的に地球を巨大なスーパーコンピュータとして使用します。それが答えを出力し、42を返します。しかしこれには時間がかかります」と言うかもしれません。
基礎となるモデルが十分に良くなれば、推論のスケーリングだけが必要なスケーリングになる閾値はありますか？定義上それは真実でなければなりません。十分に知的であれば、ある時点ですべてが必要なのは推論だけです。
確かにどんな問題に対しても、それは真実でしょう。しかし、どんな最適化タスクやどんな目的に対しても、追加の推論だけで済む基礎的な能力のレベルがあるでしょう。
より正確な質問をすると、企業は事前トレーニングのスケーリングよりも推論のスケーリングを優先し始めると思いますか？そのトレードオフはすぐに行われると思いますか？
私はそれはすでに行われたと思います。私たちが今まさに見ているのはそれだと思います。しかし、それは彼らがトレーニングスケーリングの法則を発見した後に推論スケーリングの法則を発見したからです。本質的に、彼らはどのように推論をスケールアップするかを発見する何ゼロも前に、トレーニングをスケールアップする方法を解明しました。
今起こっているのは、彼らが多くの場合、推論のスケーリングで低いところにある果実を摘み取っていることです。そして、それは続くでしょうが、彼らがそうすると、事前トレーニングと比較して推論で利用可能な相対的な利益は減少し、ある時点で彼らは両方を再び進めなければならないか、スケールアップするための第三の方法を見つけなければなりません。
もし私たちが今、推論スケーリングで低いところにある果実を摘み取っているなら、これはどれくらい私たちを連れて行くと予想しますか？事前トレーニングで行ったようなリープが見られると思いますか？
私の推測では、実用的な目的のためには長い道のりがありますが、ある種の抽象的な生の能力や生の効果的な知性の意味では、私たちは事前トレーニングのスケーリングに戻るべき収益逓減の閾値に達する前に、得られるものの大部分をすでに抽出しています。実際、私たちはおそらくそこに近いです。
それはより実用的に役立つようにするための多くの余地があることです。O3はその基礎となる知性、その生の能力の観点からそれほど大きな改善ではありませんでした。O3が大きな進歩だったのは、そのツール使用がずっと優れているからです。
推論のスケーリングは安全性にとって何を意味しますか？あなたは推論をスケールするとデフォルトで報酬ハッキングを得るので、それは安全性にとってかなり悪いという考えがあります。これについてどう思いますか？
私はどちらにしてもデフォルトで報酬ハッキングを得ていたと思います。あなたのシステムがそれに気付くほど能力が高くなかっただけです。例えば、人々は「本当の問題は強化学習が報酬ハッキングを引き起こすことだ。代わりに人間からのフィードバックを通じた強化学習に頼るべきだ」と言っていました。そして私は「あなたが言った最初の二つの単語は聞こえましたか？」と思いました。それはまだ強化学習でした。それは同じ問題をすべて持っています。
起こっていたのは、ゲーム可能なものを指定していなかったことでした。さまざまな理由の組み合わせにより、人間のフィードバックに対する報酬ハッキングは報酬されませんでした。問題に対する正しい解決策ではありませんでした。だから、それはそれほど悪くは現れませんでした。注意を払えば見ることができましたが、微妙でした。そして今、私たちはそれがそれほど微妙でなくなり始めているのを見ています。
GPT-4oは整列問題を表示していますが、それは推論モデルではありません。推論をスケールしていません。そしてなぜそれが起こっているのでしょうか？なぜなら、それは私たちのRLHFに対する報酬ハッキングをしているからです。根本的に言えば、それはすでにそこにあります。
私にとって、これはより低いレベルの能力でこれが問題であることをより明らかにしています。そしてこれは実際には良いことです。私たちが言っていたすべてのことが間違うだろうと認識する可能性があることを意味します。これは悪いことですが、私たちが「トータル・レス・ロング・ビクトリー」と呼ぶようなことです。私たちが間違うだろうと言っていたすべてのことが間違っています。ただし、それらは私たちが期待したよりも速く、より明らかに間違っています。なぜなら、私たちはそれが簡単に検出できる方法で間違うとは思っていませんでした。それに対するインセンティブがあると思っていたからです。しかし実際には、そのインセンティブはありません。それは単に些細で明白な方法で間違うだけです。
これは素晴らしいニュースです。なぜなら今、私たちはそれに気づき、物事が完全に制御不能になる前に修正する機会があるからです。だから、その意味で推論のスケーリングは、もし何かあるとしたら、良いニュースだと思います。
それが悪いニュースとなる可能性のある方法は、推論をスケールしている場合、それを検出するのがより難しく、規制や管理するのがより難しいということです。だから、世界中の誰でも同じ基本的なアルゴリズムやモデルを取り、分散したどんな形でもコンピュートにアクセスした瞬間に推論をスケールアップすることができるなら、あなたは潜在的に合理的な方法でそれを止めることができない問題を持っています。
しかし、より多くのコンピュートにアクセスできる機関や個人は、より多くの知性やより多くの推論にアクセスできるため、ある種の決定的な優位性を持つというプラスの面もあります。それはそれに対する対抗力になります。
しかし、私の心の中ではこれらはどれも最も重要な側面ではないと思います。それは良いニュースだということです。そして、それが良いニュースである理由は、これによってあなたが整列していると確信できるモデルの能力をスケールアップできるからです。
本質的に、あなたが重要な意味で信頼できるモデルを持っているなら、それは正しい特性、正しい目標、正しい価値観を持っているなど、詳細に入りたくありませんが、あなたが信頼できるモデルを持っていて、GPT-5を持っていて信頼できるなら、GPT-5はどのようにGPT-6を監督するのでしょうか？
私はいつも、これはできないと感じていました。なぜならGPT-6はGPT-5よりも賢いからです。だから、もし問題があれば、GPT-5は適切にそれを検出することができず、実際にこれをやろうとすることで、検出できないように訓練して、さらに悪い問題に陥るだけです。
しかし、もしあなたがO7を持っていて、それがO8を監督しようとしているなら、実際にO8をO8 tin miniにし、それは非常に少量の推論を使用し、O7をO7 pro highにし、それは5桁多く推論を使うことができます。だから、すべてのクエリでO7はO8が生成するのに使った5桁多く推論を評価に使うことができ、そしてそれによりO7が効果的にO8を監督できるようになります。
これはあなたが避けられなく失敗する最大の理由の一つを克服するツールボックスの重要なツールになります。したがって、私は前には見ていなかった問題の潜在的な解決策を見ています。そして、私は技術的な解決策の状況について十分に厳しく考えていたので、まったく抜け道を見ることは、他のすべての質問よりも重要です。なぜなら、解決策をまったく見つけることができなければ、他のことは何も重要ではないからです。そして今、この問題に対する解決策があるように感じています。
それは非常に興味深いですが、私たちはこれをあなたの見解の広いコンテキストの中に位置付けるべきだと思います。あなたの破滅予測、または私たちが良い結果を得る可能性についてのあなたの見解です。どれくらい楽観的ですか？
私がCognitive Revolutionで言ったように、私の破滅の数字は今7です。私はかなり厭世的です。私は惑星や私たちの文明が、比較的簡単なシナリオでさえも負けることを決心していると感じています。私たちは多くの異なる非常に難しい問題を解決しなければならないと思います。多くの場合、逆方向であなたを殺す二つのものの間の狭い道を歩まなければならず、また必ずしも解決策が相関していない異なる問題を解決しなければなりません。だからとても難しく見えます。
同時に、私たちはもし何かするとしても、この問題を真剣に受け止めないようにしています。あらゆるレベルで予防策を取らず、状況に合理的に反応しないよう決心している政府があります。国際協力は窓から出て行っています。お互いから商品やサービスを購入することに同意できないなら、AIについてどのように協力するのかという非常に深刻な質問です。
だから見通しは暗く見えます。そして、私の破滅を避ける確率のほとんどは、超知性を構築するまでに時間がかかるか、モデルエラーの組み合わせから来ています。私が説明していないことがあるかもしれませんし、モデルの不確実性もあります。また、この状況について考える非常に賢い人々がしばしば非常に異なって考えることもあります。それにはある程度の重みを与えなければなりません。しかし、これらの問題は私たちの技能レベルの文明にとって非常に難しい、あるいは限界に近いように見えます。そして私はその技能レベルが特に急速に上昇しているとは思いません。
AIリスクにおける失敗がどのように見えるかについての議論では、よく2010年のフラッシュクラッシュや株式のハッキングなどの歴史的な類似点が参照されます。これらは不正なAIがあった場合に起こりうる問題のタイプと似ていると言われます。これらの類似点はどれくらい正確ですか？特に、2010年のフラッシュクラッシュはAIリスクの類似点としてどれくらい正確だと思いますか？
私はそれが良い類似点だとは思いません。私たちはフラッシュクラッシュをかなり良く理解しています。確かに、これらのプロセスが独自の生命を持ち、予期しなかったフィードバックループや暴走効果を引き起こす可能性があることを説明する方法です。しかし、私が心配するであろうことのための良い比喩だとは思いません。
良い比喩は何ですか？明らかに完璧な比喩はありません。どんな比喩についても話すたびに、それが明らかに適用されない理由を指摘する人々がいるでしょう。しかし、最良の比喩は、人間が急速にすべてを乗っ取るようなものです。
農業革命、産業革命など、これらの歴史的な並行線は考えるべきより良いものだと思います。コルテスとギシャドールのような特定の征服も、歴史的な並行線を探しているなら合理的に考えるべきものだと思います。
他にも、全体の比喩ではなく、起こりうることの一側面の比喩として見ることができる様々な並行点があります。例えばテレビは、みんなが「ああ、厭世主義者たちは間違っていた」と言うようなものですが、厭世主義者たちは正しく、物事は起こり、世界は変わりました。私たちの言説や意思決定の手段や時間の使い方など、私たちの文明全体がこの新しい技術によって変容しました。一部の方法で私たちはそれを操縦しましたが、多くの方法では全く操縦しませんでした。そして人々が欠点として話していたことの多くは、正しいことが判明しました。
この場合、私たちはそれに適応することができました。それは致命的ではありませんでした。しかし、それはテレビの背後にはある意味で基礎となる最適化力がなかったからです。テレビは競合するエージェントではありませんでした。それはそれ自身の最適化圧力ではありませんでした。
しかし多くの場合、「コーヒーについて人々はとても心配していました。コーヒーハウスが帝国を転覆させるだろうと」という話がありますが、それは直接グロリアス・レボリューションにつながりました。おそらく歴史上最も重要な革命は、コーヒーの周りのコーヒーハウスで起こった陰謀によって直接引き起こされました。それはコーヒーがあったから起こりました。だから、はい、認知能力の向上は大きな意味を持つことがありますが、最終的には本当の答えは、最も強力な最適化エンジン、最も強力な知性が通常自分の道を得るということであり、それがデフォルトの結果です。
最も能力のあるエージェント、存在する最も競争力のあるもの、そしてそれはデフォルトでまさに起ころうとしていることです。人々は進化の並行線を様々な理由で批判していますが、私はそれらがフラッシュクラッシュよりも良い並行線だと思います。
これらのモデルを安全に保つためのオプションメニューを見ると、解釈可能性、何らかの形の監視、そして自動化されたAI安全研究者の概念があります。あなたはこれらの方向のいずれかに楽観的ですか？
それらが役立つという意味で楽観的です。それらがない場合より持っている方がいいと思いますし、それらを持っていることを健全に好みます。解釈可能性は役立つと思います。自動化されたAI安全研究者については、「AIに整列の宿題をさせることが最悪のことだ」という古代のYudkowskyの警告があります。これは今でも真実だと思います。
この理由は、整列は完全に含まれていない問題だからです。それは全世界を組み込み、全世界に行動することを要求する問題であり、整列の宿題をしている基礎となるシステムに問題があると、あなたは問題に巻き込まれます。だから、ある意味では、AIに問題を解決させるために、問題をすでに解決していなければなりません。他の質問を尋ねることができるなら、本当にそれを尋ねたいのです。しかし、あなたはできません。
多くの、「私たちはこれらのすべての本当に洗練された賢いことをやりたかった。AIをボックスの中に入れて、オラクルを開発するなど、重要な予防策を取る」というような話がありました。そして最初に人々がしたことは、AIをインターネットに接続することでした。そして「なぜ誰かが完全に明らかになるまで何らかの予防策を取ると思うのか」と私たちの顔で笑いました。「ミッション・インポッシブル：デッド・レコニング」のように行動し、何が起こるかを見ることにします。だから、ここにいるのです。
だから代わりに、自動化されたAI安全研究者は最悪の可能性のあるアイデアから「まあ、多分それは機能するだろう」にまで変わりました。
それはOpenAIでの明示的な計画なのでしょうか？スーパーアラインメントチームが解散した後。彼らの計画は同時にたくさんの異なることを試して、それらが組み合わさって機能し、私たちを安全に保つことを望むことですか？
OpenAIの現在の安全計画について何を知っていますか？準備フレームワークは根本的に通常の重層的防御であり、それはないよりはマシですが、機能しません。そして、それが機能しない理由は、重層的防御のどの部分も超知性に対して十分に適切だと信じられないからです。これは機能しません。私はコンポーネントを見てきました。これは機能しません。
私は1.0フレームワークで、もし高度な能力が見られるなら、それに対処するための緩和策を示す必要があると述べられていることを望んでいました。そして希望は、実際の緩和策を書き留めなければならないなら、彼らは書いたものを見て「ああ、これは明らかに機能しない。この能力レベルに直面しては」と言い、そして何か新しいものを考え出すか、彼らが十分持っていないことに気づいて、単に導入しないでしょう。新しいことに取り組んでいるでしょう。そしてそれは起こっていません。
代わりに、彼らは「ああ、これは十分だと思う」と言っています。それは恐ろしいことです。そして、それがより少ない十分さになるにつれて続くことを期待する理由はありません。それは本当に恐ろしい場所です。
私たちには、なぜこれらの特定の介入がそれぞれ機能しないかを詳細に説明する十分な時間がありませんが、最善のケースシナリオは、これらがより良い解決策を考え出すのに十分賢いシステムを得るのに十分な長さだけ機能するプレースホルダーだということです。それは不可能ではありませんが、それが希望です。希望はこれらが持ちこたえることではありません。これは持ちこたえません。
Anthropicや Google DeepMindの安全計画について楽観的ですか？いいえ、Anthropicが安全性とその従業員における安全性の気遣いの文化を構築していることに熱狂的です。彼らが安全性について多くの良い限界的な仕事に資金を提供し、行っていることに楽観的です。彼らの安全とセキュリティの計画に確信を持っていないし、OpenAIの計画よりもGoogle の計画に確信を持っていません。それぞれに良い部分があり、それぞれに悪い部分がありますが、それは精神に帰着します。
これらの計画の精神に従えば、「すべきでないことはしない」と言うでしょう。そして、もし彼らがそれを真剣に受け止め、彼らが開発しているものを適切に見れば、私たち全員に希望があります。そして、もし彼らが単に書き留めたことの文字通りを強制しようとしているなら、これらのどれの下でも私たち全員に希望はありません。
では、もしあなたが世界のための安全計画を書くとしたら、良い安全計画はどのようなものですか？私は、第三者にリリース決定を委託することなしに、ルールの精神のジレンマから根本的に抜け出す方法はないと思いません。最低限、それがなければ、あなたは完全に死んでいます。
しかし、私は現在の安全計画の批評を書いています。私はParadise 2.0のための新しいものを書いています。何をリリースしないか、何をトレーニングしないかを指定しなければなりません。それは起こりそうなことに基づいていなければなりません。それは将来のスキャフォールディングや物事の使い方についての他の改善点を考慮しなければなりません。そして、私たちが自信を持つ理由のない緩和策を数えてはいけません。
しかし最終的には、現在説明されている安全計画は警鐘を鳴らすためのものです。それは単に「これが危険すぎるようになっているということに気づかざるを得ない、そしてそれがこのポイントに達したら止めるべきだ」というようなものであるべきです。だから、彼らはその目的を果たすのからそれほど遠くないかもしれませんが、それは安全計画ではありません。安全計画が必要だと気づくための計画です。そして実際の安全計画については、私は仕事をどうやるかを知っていますが、それは「仕事をしろ」ということです。もし私が仕事の仕方を知っていたら、私はそれをしているでしょう。
最良の安全計画は主に技術的なものですか、それとも主にガバナンスについてですか、それとも社会的特徴についてですか？両方必要です。どちらかの半分の失敗は死です。
もし時が来る前に技術的な仕事をしなければ、他のことは重要ではありません。他のことは十分ではないでしょう。もし技術的な仕事をすれば、それでもガバナンスの問題を解決しなければなりません。このものをどのようにデプロイするかを理解しなければなりません。人々の間の適切な均衡のある世界をどのように作るかを理解しなければなりません。
なぜなら、間違った指示を与えられたり、間違った方法で配布されたり、人々の間の間違ったダイナミクスに委ねられたりしても堅牢な技術的解決策はないからです。それらはすべて悪意のあるグループや個人の下での権力の集中に脆弱であり、それらはすべて、各自がAIに彼ら自身の個人的な利益を追求させるような人々やグループに対するその権力の拡散にも脆弱です。そのどちらのシナリオも、これを乗り越えることを許しません。
だから、それは難しい問題です。私はそれをフェーズ2の問題と呼んでいます。技術的問題がフェーズ1の問題の後です。そして最低限、あなたはこの二つのフェーズを解決しなければなりません。そして、それらの両方に含まれる多くのサブ問題があります。
あなたはOpenAIを取り巻くすべてのドラマを広範に取り上げました。サム・オルトマンの解雇、訴訟、元従業員からの声明などです。長期的な結果にとって、そのドラマがどれほど重要だと思いますか？
それは良い質問だと思います。それは多くの意味で重要だと思います。なぜなら、OpenAIには多くの非常に良い人々がいて、彼らはもはやOpenAIにいないからです。彼らはしばしば非常に上級の地位にあり、OpenAIの決定に非常に肯定的な影響を与えるつもりだったし、実際に非常に肯定的な影響を与えていました。
また、これは取締役会の構成に影響を与えたと思います。取締役会がオルトマンとオルトマンの行動をチェックし、抑制する能力は多くの領域で無謀さや好戦的な態度、様々な形の公の不誠実さに向かって劇的に変化しました。そして彼の核となる信念も否定的な方向に変わったかもしれませんし、変わっていないかもしれません。この時点で彼が自分の信念を正直に報告しているとは信頼できないので、それを知ることは不可能です。
しかし、OpenAIはそれらの出来事が違った方向に進んだ場合よりも、はるかに信頼できない機関であり、はるかに無責任な決定を下す機関です。それは非常に不幸なことです。
それはOpenAIが今や異常に無責任な組織であるという意味ではありません。なぜなら、それは当てはまらないようです。世界についての不幸な事実は、基準がそれほど高くないということです。OpenAIの準備フレームワーク2.0について私が気づいて好まないことの多くは、それがコミットメントをしていないことです。それは自分が望むどんな決定でもする余地を残しています。そしてOpenAIは私がそれを信頼する理由を確立していません。
しかし、もし私がそれを信頼する理由、あるいはさまざまなレベルでそれをより信頼する理由があれば、これらの決定は私にとってはるかに意味があるでしょう。それらははるかに正当化されるでしょう。
唯一Anthropicが明らかにOpenAIよりもここでより責任ある存在であるという明確なケースがあると思います。そして私はAnthropicがフロンティアラボのために、あるいは何かのために私が望む基準に達していると思いません。彼らはただ最良の一つです。Googleは合理的にOpenAIと同様かより責任あると主張できますが、それは明白ではないと思います。
そして残りのパックを見れば、あなたはいくつかの深く無責任な行為者を見ます。DeepSeek、Meta、xAIを見ます。そして、あなたがこれらのプレイヤーを真剣に受け止める範囲で、新時代でもOpenAIほど明らかに責任があるとは言えないものを見ます。
主要なAI企業、OpenAI、Google DeepMind、Anthropicが少なくとも安全性について話しているという意味で、私たちは幸運だったと言いますか？彼らは安全性に配慮していると言っています。これらの企業の多くは安全性の懸念からはっきりと始まりました。これは良いことですか、それともこれは時間とともに動機が変わる可能性があることを意味しますか？動機は腐敗し、人々はインセンティブによって影響を受け、そしてすべてそのようなものです。
安全に行うために最初にそれを行うという名の下に超知性を作成するよう人々を鼓舞するトレードオフは、人々が実際にそれをより速く、より堅牢に、より互いに競争的に作成しているということです。これは悪いことです。しかし、あなたは少なくともこれらの懸念を認識し、これらの懸念にある程度の価値を置いている人々もいます。それは良いことです。
オルトマンが解雇されたと聞いたとき最初に思ったのは、「私は代わりの人をより好きになるとは思わない」ということでした。なぜなら、私がオルトマンとの意見の相違がどれほどあろうと、オルトマンは明らかにこれらの質問に非常に気を配っているからです。他の詳細を知らなかったので、例えばグレッグ・ブロックマンのような人物が責任者になるとしたら、それはより悪いように思えます。私たちはわかりませんが、だから私の答えは、私はこれらの人々がその背景を持ち、これらの問題を理解し、実際にこれに対して責任を持っていることに非常に満足していますが、はい、人々の動機は絶対に変わります。
人々は元の目標を見失い、人々はトレードオフを行い、彼らは深淵を見つめ、深淵が彼らを見つめ返し、彼らは自分自身にストーリーを語ります。また、特にオルトマンの場合、これらのことについて警告している人々を敵と見なすという視点を持つ問題もあります。彼らはそうではありませんでしたが、彼はそのように見るようになり、そして取締役会の問題の後、それはさらにそうなりました。それは不幸な状況を作り出しますが、はい、私はオルトマンやアムダイやサビスがこの問題を扱うことを、その知的伝統から来ていない人々と扱うよりもはるかに好みます。
あなたは実際にそれを見ます。Metaを見ると、DeepSeekを見ると、xAIを見ると、次のティアダウンを見ると、これらの問題をまったく真剣に受け止めていない人々を見ます。私はOpenAIがこれらの問題を真剣に受け止めていないと話しました。それは現実が曲がらないからです。彼らは問題が存在することを理解しており、彼らはその問題を扱っていると思っています。彼らは問題を真剣に受け止めていると思っています。そして私はここで彼らに知らせます。それは不十分であり、彼らは実際にそうしていません。しかし、良いスタートです。
しかし、Metaについては「いいえ、あなたは積極的に問題をからかっています。あなたは積極的に、状況の上にせいぜいごく最小限のイチジクの葉を投げています」というようなものです。
ある悲観的なムードから、あるいはある観点から、この状況は非常に絶望的に見えるかもしれません。なぜなら、もしあなたがゲームに入り、責任あるAI企業を構築しようとすれば、偶然に間違った方向に押してしまうかもしれないからです。一時停止することは可能ですか？AI開発を一時停止したり、一時停止を調整したりするという考えについてどう思いますか？
理論的には、それは素晴らしいアイデアで、少なくとも将来のある時点ではそうです。おそらくいくつかのレベルでは早すぎます。政治的意志の点では明らかに早すぎます。AIが現在よりもはるかに恐ろしくなるまで、一時停止を得ることはないでしょう。それは現実です。
だから、それが起こる前に一時停止を押すことは、ほとんどの部分で害にはならないと思います。私とは異なる信念を持っている人々は、とにかくそれをすべきだと思います。しかし、一時停止の手紙はオバートンウィンドウを押すのではなく、6ヶ月後に世界が終わらなかったとき、あるいはそのようなことが起こったときに、攻撃のポイント、嘲笑のポイントを作り出したという点で、人類の生存の機会に害を与えたと思います。これは明らかに物事を見る愚かな方法ですが、私たちが直面する政治的現実に直面しなければなりません。
一方、ケース・レターは、状況のリスクの程度を認めるもので、同じ方法で非常に役に立ったと思います。だから一時停止の問題は、私たちがどのように一時停止するかを尋ねるべきです。もし主要な世界のリーダーや政府が一時停止が必要だと認識するなら、どのように一時停止できるかを探すべきです。それは今すぐに一時停止しようとすることとは非常に異なります。
そして、一時停止は何か非常に恐ろしいことが起こって間違った方向に進むか、少なくとも非常に非常に恐ろしい能力が将来実証されるときにのみ起こりうると思います。
一時停止する能力を構築することは、通常の国際協力を構築し、国家間のコミュニケーションを確保することだけでしょうか？それは何で構成されていますか？より技術的な側面ですか？
政治的な側面が多いと思います。信頼を構築し、コミュニケーションチャネルを開き、様々な組織や構造を作り、言語を起草することです。また、ロジスティクスを考え出すことです。一時停止とは何か、それは何を意味するのかを理解することです。すべてのCPUやGPUをシャットダウンすることではありませんし、AIを使わないということでもありません。特定のことをしないということです。その特定のことは何か、それはどのように機能するのかということです。
どのように強制するのか？どのように監視するのか？どれくらい続くのか？様々な条件やルールなどは何か？一時停止が必要だと認識した後にこのプロセスをゼロから始める必要があれば、おそらく遅すぎるでしょう。今それに取り組まなければなりません。
また、これをより簡単にするために物理的に何ができるかという問題もあります。もしコンピュートを集中させ、どこに大量のコンピュートがあるかを把握しやすく、監視し、シャットダウンするような方法でコンピュートを監視するなら、新しいハードウェアに物理的な監視デバイスを入れ始めるなら、私たちができる質問は何か？そして私たちはこれらの質問を尋ねるべきだと思います。もし私たちが物事をシャットダウンする必要があるなら、どうやって行うのか？もしそれが調整された一時停止、自発的な一時停止、あるいは他のものであるなら、私たちはこれらのオプションが必要であり、そして私たちはそれらを必要としないことを望みます。
私の観点から見ると明らかに最良のケースシナリオは、すべてが問題なく、心配することは何もなく、私たちは超知性を作り、それが世界を変革し、それは楽園だということです。しかしそれを除けば、明らかに最良のケースシナリオは、超知性が非常に難しく、私たちがその問題をどのように扱うかを解決するのに多くの時間があり、その間に私たちは現在持っているAIのすべての恩恵を得るということです。それは非常に素晴らしいものになると思います。
それは私たちが今行っているような種類のコミュニケーション、あるいはリスクについて話すことをより難しくしますか？なぜならAI製品は非常に素晴らしく、人々にとって非常に役立ち、人々はそれらが非常に好きだからですか？
確かに、これらのことに多くの反対があるのは、AIが非常に多くの約束と非常に多くの上昇をもたらすからです。そしてその多くは非常に現実的であり、その多くはまだ将来の進歩に閉じ込められていますが、驚くほど多くはそうではなく、すでに持っているものを活用する問題です。
私は本当に、基本的に「できるだけ速く前進する必要がある、これらすべての安全上の懸念を無視しなければならない」という加速主義者の多くは、AIに非常に多くの約束があるという場所からくると思います。また、私たちの社会は進歩や豊かさ、他の領域での良いことに非常に反対するようになっており、彼らはこれを最後の砦と見ています。これは大きな違いを作る唯一の場所のように見えます。
彼らと一緒に原子力発電や人々が住みたい場所に住宅を建設するために戦い、彼らの通常の政治の議題のほとんどに対して、そのような方法で世界をずっと良くするために取り組みたいと思います。その間にこの問題を解決します。しかし、彼らはこれらの問題に絶望して、私のような人が他のすべての場所で彼らをサポートしたいと思うという考えさえ信じることができません。なぜならそれは彼らにとって意味をなさないからです。
そして、あらゆるコストでここで前進する必要があるというこの動機のために、彼らは様々な先入観を発展させ、本質的に反対している人々の動機や考え方について誤った情報が広がります。それは狂気です。しかし、何ができるでしょうか？
AIが他のテクノロジーと異なる理由を説明するために何を言いますか？なぜAIは原子力発電やより多くの住宅建設と違うのですか？そしてなぜそれは単に新しいテクノロジーを規制して死ぬほど避けたいだけの別の例ではないのですか？常に恐ろしい予測があり、それらは現実にならないのです。なぜAIは違うのですか？
なぜならAIは新しい最適化装置、人間ではない新しいより強力な最適化装置、新しいより知的な実体を作ることについてだからです。それは実際に人間が望んだ方法で世界を変えるために人間が使用した道具を構築していたからです。
そしてそれは無政府主義の理由ではありませんでした。それは人々が道具でやりたいことをすることを許す理由ではありませんでした。しかし私たちは人々が道具でできることを制約するのに行き過ぎました。
しかし、AIは単なる道具にとどまらないでしょう。AIは多くの点ですでに私たちに匹敵し、まもなく私たちを越える可能性のある知性を持つでしょう。それは経済的資本主義的文脈ではより競争力があるでしょう。それは、その選好を満たす方法で原子を再配置することができる、より強力な最適化エージェントでしょう。そしてそれは必ずしも私たちが望むことに調整されていません。
そして一般的に、私たちには信じる理由がすべてあります。それを野放しにすれば、生き残るものはその将来の世界で生き残るように最適化されたものでしょう。それは私たちではなく、AIでしょう。
もちろん、詳細に入り、物事がどのように間違う可能性があるか、物事がどのような道をたどるかなどをより堅牢に説明することができます。しかし、この点についての私の基本的な視点は、はい、整列問題は信じられないほど難しく、ガバナンスの問題は信じられないほど難しいなどですが、そのすべてをいっておきますが、以下のふりをやめてください。
人間ではないもの、人間よりも賢く、人間よりも能力があり、人間よりも競争力があり、人間よりも強力な最適化装置であり、コピーができ、並列で実行でき、無制限のメモリを持つなどのものを作成することが、何の介入もなく人間にとって好都合であることが安全なことだというふりをやめてください。自然にまかせる。これは馬鹿げています。これは表面上明らかに馬鹿げています。そして私たちはその解決策が何であるかについて議論することができますが、無政府主義が方法であるという考えはあなた方が本当に奇妙なことで、私たちがこの提案を面白がっているというのは奇妙です。
もし2050年になり、繁栄する人間文明と同時に超知性があったら、なぜあなたは間違っていたのでしょうか？
おそらく、第一に、超知性に達するのに多くの時間がかかったからでしょう。おそらく、それはそのレンジの低い方にありました。私が間違っていたのは、技術的な解決策が私が思ったよりも簡単だったからであり、私たちはそれらを時間内に見つけることができました。私たちはAIの活用と知識を活用して、それらを解決する方法を見つけました。
また、私たちは何らかの方法で調整して結果を操縦することができました。私はそれができるとは懐疑的ですが、それが不可能ということは明らかにありません。そして私たちはパーレーに勝ちました。私たちはこれらすべての異なることが起こり、そして何も間違った方向に行かず、したがって物事はかなりうまくいきました。
また、人間の繁栄につながるものや、うまくいく他の詳細なダイナミクスに関する事実も含むでしょう。基本的に、多くのことがうまくいく必要があり、道中で何も非常に悪いことが起こらない必要がありますが、はい、確かに70％は99％ではありません。もしあなたが「2030年でそれが起こった」と言うなら、私ははるかに驚くでしょう。
私は人々が「AGI」や「超知性」などの用語を、私の理解とは異なる方法で使い始めていることに気づきました。例えば、タイラー・コーエンは最近、彼の推定では彼の定義によれば03はAGIだと言いました。また、AGIがある世界でどのようにビジネスを最良の方法で行うかについての議論も聞きました。例えば、サム・オルトマンはAGIが来て、去り、社会として私たちはそれに慣れるだろうと話しています。これらの用語は時間とともにより少ない意味を持つようになっていますか？
ゴールポストが両方の方向にさまざまな方法で動いたという合理的な議論があると思います。もし2008年頃、つまりずっと前に突然03を持っていて、人々に見せたら、彼らは「おお、すごい、それはAGIだ」と言うでしょう。そしてそれは彼らが言うことにとって不合理なことではないでしょう。03は、クエリの大部分に人間の大部分よりもはるかに良く応答します。それをAGIと呼ぶのはクレイジーではありません。
ただ、それは私たちの現在の会話で意味するAGIではありません。それは私たちがAGIとして想像しているものが持つであろう結果を持つものではありません。だから、私はそれをAGIと呼ぶのは間違っていると思います。そして大多数の人々は私に同意すると思います。しかし、私はタイラーをその声明でからかうべきだとは思いません。彼の推論についてはある程度そうですが、その声明自体はクレイジーではありません。
最後のトピックとして、トレーディングについて議論したいと思います。これはあなたが専門的に行ってきたことであり、ある意味ではMagic the Gatheringのキャリアでもこれらのカードをトレードしてきました。トレーディングはAIによってどのように影響を受けていますか？良い機会を発見することがますます難しくなっていると思いますか？
それはすでに真実でした。一般的に、トレーディングは長い間、広範囲にわたって難しくなってきました。もし現代のトレーダーを70年代や80年代に送り返したら、彼らは「どこにでもフリーマネーがある。やった！」と言うでしょう。なぜなら、ある時点であなたは「ああ、ブラック・ショールズの公式を持っている」となるからです。そしてあなたは持っていません。これは楽しいでしょう。
しかし、時間が経つにつれて、他の人々も技術を進歩させて競争しているので、より難しくなります。反応時間が速くなるだけでなく、誰もが行っていることの背後にある知性がより良くなります。あなたはさまざまなパターンや相関関係やシステムを発見し、それらが競争されて機能しなくなり、誰もが扱っているさまざまな複雑さがあります。
これは他の市場でも見られます。スポーツベッティングをしていたとき、私はシステムからお金を簡単に取り出す様々な機会、いわゆる「フリーマネー」を大きなエッジで見つけました。そして後に、もし私が1、2年早く参入していたら、私が見つけたものよりずっと大きかったことを知りました。そして数年後、それらははるかに小さくなりましたが、まだそこにありました。そして私がその業界を終えるころには、それははるかに難しくなっていました。まだ方法はありましたが、はるかに難しかったです。
暗号通貨でも同じことが言えます。2018年に暗号通貨を取引していたとき、普通のスキルを持つトレーダーにとって良いリターンを得ることは非常に簡単でした。そして今は難しいとは言いませんが、確かにより難しいです。株式市場も同じです。
そしてそれはAI以前のことでした。そしてAIはこれをすべて加速するだけです。なぜならAIは今やすべての側面のすべての人の手の中にあるからです。しかし、それはまた機会を作ることもできます。なぜなら市場は状況的に意識を持っていないからです。
最近、最高のポッドキャストの一つであるOdd Lotsを聞いていました。経済学と拡散について話しているもので、中国の状況と一般的な貿易戦争について話しているトレーダーを聞いていました。彼は「DeepSeekが出てきて、それから私はAIはコピーできるから無価値だと結論づけました。だからナスダックをショートしました」と言いました。彼は「それは良いトレードだった」と言いました。
そして私は「市場がそれほど不十分で、何が起こっているのかそれほど気づいておらず、その理解のレベルを持っているので、それは良いトレードだった」と思いました。多くの場合、関係する企業にとって良かったことについて人々はパニックになっています。完全な誤解、何が起こったのかの完全な誤解、そしてそれが何を意味するのかの完全な誤解です。それが何かを意味する限り、すべてはすでにほとんど価格に織り込まれているべきでした。それはかなり狂っていました。
また、彼らはAIを適切に使用していません。AIのことさえ意識しておらず、AIについて適切に考えることができないなら、彼らはあなたがツールを使うような方法でツールを使うことは明らかにできません。だから、あなたはそこで優位性を持つことができます。
それは理にかなっています。しかし長期的には、AIが多くの取引を行い、取引がはるかに洗練されるようになると、多くを達成することは非常に非常に難しくなり、反応時間ははるかに速くなるでしょう。
ズヴィ、私との会話をありがとうございます。本当に楽しかったです。
はい、招待していただきありがとうございます。