討論:AGIは本当に数十年先なのか?| 元MIRI研究者ツヴィ・ベンソン=ティルセン vs. リロン・シャピラ

元MIRI研究者ツヴィ・ベンソン=ティルセンとリロン・シャピラが、AGI到達までのタイムラインについて議論を展開する。ベンソン=ティルセンは今後5年以内のAGI実現確率を1~3%と見積もり、数十年単位の開発期間を予想する一方、シャピラは現在のAI進歩の勢いから2031年頃の実現可能性を主張する。議論の核心は、LLMが真の創造的思考を持つかどうか、そしてどのような具体的なテストがAI能力の境界を明確化できるかという点にある。ベンソン=ティルセンはカントールの対角線論法のような数学的証明をゼロから導出する能力や、人間の千分の一のデータで学習する効率性を重要な指標として提示し、現在のAIシステムには専門家レベルの独創的な概念創出能力が欠如していると指摘する。対してシャピラは、様々な客観的テストにおいてAIが継続的に進歩している事実、複数の技術的パズルピースの組み合わせ、そして分野の専門家たちのコンセンサスを根拠に、より短期的なタイムラインの妥当性を主張する。両者は測定可能な目標設定の重要性では一致するものの、AIの進歩が真の知性への障壁を突破できるかという本質的な問いについては見解が分かれたままである。

DEBATE: Is AGI Really Decades Away? | Ex-MIRI Researcher Tsvi Benson-Tilsen vs. Liron Shapira

Sparks fly in the finale of my series with ex-MIRI researcher Tsvi Benson-Tilsen as we debate his AGI timelines.Tsvi is ...

AGIタイムラインについての根本的な意見の相違

あなたは近いうちにAIの冬の時代が来ると思いますか、それとも思いませんか?今後5年間で真のAGIが実現する確率は1~3%くらいだと言えるでしょう。これは間違いなくほとんどの人々のコンセンサスよりも低い数字です。LLMができないことがいくつかあります。そのそれぞれが、LLMが知的でないという強力な証拠なのです。私はあなたにゴールポストを設定することを勧めています。私はこの特定のラインが越えられないとは言う必要はありません。それは意味をなしません。もしかしたら、あなたはもっと労力をかけて例を選ぶことができるかもしれません。あなたは「まあ、当然私たちはそれをやっているよ」という感じです。待って、待って。いいですか、聞いてください。私の視点からすると、あなたはやや過信しているように見えます。私はただ、あなたこそが過信して入ってきている人のように感じるんです。つまり、通常私たちは単に「ああ、これが境界かもしれない。これが境界かもしれない」と指摘できるものです。でもあなたは「知ってる?私が挙げたのは」という感じです。つまり、それが基本的に私があなたに対して持っている不満なんです。私はあなたがもっと深く掘り下げるべきだと思っています。つまり、ある時点で、私はただ「忙しいんだ」と言うつもりです。

さて、タイムラインについて話しましょう。あなたは数十年単位で考えていると言っていましたね。例えば、今後5年以内に実現したら驚くだろうと言っていました。私はこれについてよく較正されていません。これは非常に複雑なことです。うんぬんかんぬん。でも、あなたが十分に突っついてくれれば、私は数字を出します。ですから、今後5年間で真のAGIが実現する確率は1~3%くらいだと言えるでしょう。これは間違いなく、私たちが通常人々の予測を集約する方法よりも低い数字ですよね。Metaculusを見ても、あるいは私の番組に出演した人々を見ても、通常、情報を持っていると思われるほとんどの人々の間のコンセンサスは、2031年頃を中心とした鐘型曲線のようなもので、その頃に超人的な知能が得られるだろうというものです。もちろん、裾野もあります。でも、なぜあなたはおそらく2031年までには実現しないとそれほど確信しているのですか?

私の回答の一部は、ベンチマークが関連する事柄を測定しているとは本当には思わないということに集約されます。ある分野の専門家がLLMと自分のアイデアについて議論しようとすると、通常、LLMは関連する有用な事実や参照を持っているかもしれないことに気づきます。しかし、何か重要な新規性があると、LLMは崩れてしまい、関連性を追えなくなり、何が起こっているのか本当には理解せず、ある種のナンセンスを作り出します。そしてそれは、たまにある幻覚や10%の幻覚というだけではありません。物事の最先端で考えるのに役立たないのです。

私は実際にそれには何かあると思います。私はあなたに同意します。LLMはスティーブン・バーンズが「脳のようなAGI」と呼んでいるものにはまだ到達していません。スティーブン・バーンズを知っていますか?ええ、ええ。彼は神経科学について良い研究をしています。私は最近このスティーブン・バーンズという人を読み始めました。私はスティーブンに同意します。境界線が存在するようです。また、ジム・バブコックが私の番組に出演しました。パークのエピソードがあって、私たちは同じ種類の境界線について議論しています。今日のLLMは、超知能へのブートストラップにはまだ至っていないようで、私たちは運が良かったようです。LLMは非常に重要な面で超人的ではありませんが、それでもとても有用です。あなたはその区別に指を置いていて、LLMは新しいアイデアを持つ創造的な心ではないと言っています。

私はあなたのバージョンのこの区別をもっと突っついてみたいと思います。それで、こういう形で質問させてください。あなたが思うに、2年後でもAIがおそらくまだできない最も印象的でないことは何ですか?

AIの能力限界についての具体的な議論
人間の創造性とAIの能力ギャップ
ブラックボックステストの有効性と限界
AIの勢いとデータの役割
数学者の失業とAIの創造性の境界
議論の総括と最終的な見解

AIの能力限界についての具体的な議論

ええと、私は今あなたの質問に答えるつもりですが、ただ私には反論の準備ができています。それは、なぜあなたは2年後にAIがすると予想する最も印象的なことを言わないのですか、ということです。

ええ、つまり、私は喜んでそれに挑戦します。私はかなり広い信頼区間を持っていますが、基本的に私は今日感銘を受けていることを取り上げて、それをやや印象的にするつもりです。本当に良い漸進的改善の例は、今AIがあなたと話せることですよね。GPT音声モードを使うと、かなり良いです。私の子供たちと話します。ですから、2年後には彼らが遅延を本当に磨き上げると予想しています。つまり、マイクロラグや区別できる特徴という点で、100%本当に感じられるようになるでしょう。それらはすべて2週間…2年以内に滑らかになると思います。そして、ビデオの面でも、完全に磨かれてはいないかもしれませんが、今日の音声とほぼ同じくらい良くなるでしょう。それが2年後に起こることについて私がかなり確信している予測です。

確認させてください。あなたが挙げたことは、それほど印象的ではないということに同意しますか?

まあ、私は80%確信していますよね。もしあなたが50%の確信まで下げたいなら、ああ、もう。つまり、私が15%の確信まで下がると、知能爆発について話すことになります。超知能になるでしょう。ですから、それが私が15%確信しているのと80%確信しているのとの違いです。

そうですね。いや、つまり明確にすると、あなたの予測は完全に公正だと思います。私はおそらく同意します。それは80%の範囲として妥当に聞こえます。一部は、私が今あなたの質問に答えようとしているので注目しているのですが、私が2年後にできないと予想するものは、必ずしも最も印象的でないものではありません。

なぜですか?

それはより難しい質問だからです。そして、私がこのような形であなたに質問している理由は、あなたが防火壁のようなものについて何かを知っていると思っているように感じるからです。私はいつもこの防火壁という概念を持ち出すんです。現在私たちはこの軌道にいますが、その軌道は新しいアイデアを持つ創造的な心には到達していないと思います。それがあなたの言葉ですよね。そしてデビッド・ドイッチの「新しい知識を創造する」ことについての似たような言葉があります。あなたは新しいアイデアを持つ創造的な心を見ていないと考えています。そして、私はあなたが10年以上先まで外挿していると思います。そこでもあなたはまだ新しいアイデアを持つ創造的な心を見ていない可能性があります。だから私の質問は非常に公正だと思うんです。あなたは基本的に「ここに今日私がやっていることと比べて簡単に見えるものがある」と言っているわけです。「そして私は、数年以内にそれらを得ることはないと確信している。なぜなら、それには新しいアイデアを持つ創造的な心が必要だからだ」と。

確信というのは私が言うことではありません。つまり、私が言ったように、90%確信ですよね。ええ、おそらく。ええ、わかりました。それでは、あなたの質問に答えましょう。私が思うに、あなたはおそらくAI主導の研究を見ることはないでしょう。つまり、ほとんどの作業がAIによって行われ、人間の科学者や数学者にとって新しく興味深い概念やアイデアを生み出すような研究です。人間が生み出す概念と同じ方法でです。

わかりました。それよりも印象的でないことはありますか?

まあ、これは少し大胆ですが、AIはカントールの定理をゼロから証明することはできないでしょう。つまり、人間の数学の定理や定義や証明の内容なしに、Leanの定義のようなもの以外は使わずに働くということです。

この提案は好きです。私はそれに同意するかどうかわかりませんが、聴衆のために、もう少し簡単にしてみましょう。あなたが話しているのは、実数は整数よりも多いという定理のことだと思います。

ええ。私がこの例を気に入っているのは、どこから始めるのか、ということだと思います。カントールはどうやってこの問題に取り組んだのか。そして、カントール以前の人々はほとんどその質問を尋ねていなかったと思います。彼らは尋ねるべき質問をほとんど知らず、それを一方向または他の方向に証明し始める場所もほとんど知らなかったのです。

ええ、ええ。それが大きな部分だと思います。

つまり、私は確かにその議論を印象的だと考えます。私は同意します。これは人間が一緒に成し遂げた本当に印象的な飛躍の書に入るものです。例えばアインシュタインの相対性理論のようなものと一緒に。なぜなら、新しい角度から物事に取り組み、新鮮な概念を組み合わせる必要があるからです。ええ、本当にあなたが創造的飛躍と呼ぶかもしれないものを作る必要があります。それは公正な表現ですか?

私の観察は、私たちがここで線を引いていて、「ああ、数学の分野で働いている人間の98%は線の下にいるだけだ」というような感じです。彼らはただ、カントールやアインシュタインのような人々から上から降りてくるアイデアを受け取るのを待っているだけです。そしてAIは、そういった人間すべてに追いついているようなものです。でも、100万人に1人の人間が一生に1回か2回やるような、これらの輝かしい創造的飛躍を行う上位2%のような人々がいます。AIはそこには到達できないんですよね。線がかなり高くなってきているようです。

人間の創造性とAIの能力ギャップ

私はそれがやや歪んだ見方だと思います。ですから、私は実際に、この種の創造的思考を行っている人についてもっと拡張的な立場を取りたいと思います。私は、ほぼすべての人間が、少なくとも子供のとき、この種の創造的思考を常に行っていると言いたいです。つまり、あなたには子供がいて、私にはいません。あなたの子供たちが遊んだり、ふざけたり、楽しんでいる活動を選んで、それをバリエーションを加えて何度も何度も繰り返すのを見たことがあるかもしれません。

まあ、私の子供たちは遅れているのかもしれません。なぜなら、私はまだ彼らがカントールレベルのことをするのを見ていませんから。

ええ、私は彼らが新しい物理学のアイデアを発明していると言っているのではありません。私が言っているのは、彼らはほぼゼロから自分の世界を構築しているということです。

もしあなたが人間の子供たちがやっていることについて正しいなら、AIができる最も印象的でないことについての質問に、人間の子供が実際にやっている特定のことを参照して答えられるべきではありませんか?

ええ。これは私が与える別の答えのインスピレーションになるでしょう。それはサンプルの複雑さについてです。私もかなり驚くでしょう。ここでどの数字を出すべきか正確にはわかりませんが、例えば1000分の1くらいのデータを使ってLLMを作ったとしましょう。現在のシステムに匹敵するほど印象的だけれども、現在のシステムよりも1000分の1少ないデータで訓練されたものです。ここには注釈がありますが、基本的にそれをやったら、私はかなり驚くでしょうし、もっと怖くなるでしょうし、おそらくもっと混乱するでしょう。

つまり、私はあなたが今日のAIが完全には持っていない魔法の成分について感じているということです。私は、それが結果を得るために必要なデータの量と関係があるようだということに同意します。自動運転車を見ても、そうですよね。一部の車は人間よりも良いドライバーのようです。おそらく私よりも良いドライバーです。でも、なぜ最高の人間ドライバーがそれほど多くのデータを必要としないのに、彼らはそんなに多くのデータを必要とするのですか。おそらく数百時間のデータが必要で、一部の人はそれよりも少ないデータで運転できます。ですから、私も同意します。それが私も何が欠けているかについて指を置こうとするところです。しかし、具体的な機能テストを提案するのは難しいようです。つまり、何が欠けているかについての直感があると思いますが、それを「では、どの客観的テストができないのか」に翻訳しようとすると、これまでのところ、あなたはかなり抽象的だったと感じます。あなたは基本的に、科学者のトップクラスのようなものや、子供たちがやる抽象的なもののようなことを言っています。でも、あなたは本当に具体的な入出力を与えていません。あるいは、すみません、あなたは確かにデータ量について言いましたね。でも、それでさえAIの内部について話しているようなものです。

まあ、それは正確には内部ではありませんが、私はあなたの指摘をある程度受け入れます。つまり、もし何かが本当に本当に明確で操作可能なら、それはすでにベンチマークの一種なんです。私が言っていることの種類をフレーム化するために、一部は私が必ずしも敵対的に堅牢なテストを与えようとしているわけではなく、むしろ、もし誰かが第一原理からこれについて考えようとしているなら、注意を向けるためのヒントを与えようとしているのです。

ええ、私はあなたが何かを少し曖昧に指しているとは思いますが、それは私も同じように考えている方法ですよね。もちろん、新しい洞察です。多くの人が似たような種類の曖昧だけれども関連する考えを持っていると思います。あなたへの私の唯一の質問は、なぜこれが、あなたが残っていると考えているギャップが、非常に多くの異なる人々がそれを飛び越えようとしているすべての方法によって飛び越えられないという確信の感覚に翻訳されるのですか。強化学習がLLMが持つギャップを飛び越える方法として思い浮かびます。

繰り返しますが、あなたが確信と呼んでいるものは、今後10~~15年で3~~10%のようなものだと私は言いたいです。ですから、私の主なシナリオは、AI進歩が急速に続き、確かにあなたが「新しいアイデアを発明するのに苦労していて、カントールやアインシュタインの精神的動きができない」と表現するような停滞があります。しかし、数年が過ぎて、他のことが起こり、それからできるようになります。強化学習が私が使うバズワードです。LLMと組み合わされる他の強化学習ベースのアプローチがあり、突然それも防火壁ではなくなります。そして2040年までに、あなたは私たち全員が死んでいる確率が五分五分より良いと主観的に言います。

あなたは過去数年間で、画期的進歩について読み続けているようなものだと示しました。「わあ、これは興味深い画期的進歩だ。でもそれはまだ創造性の火花を持っていない」という感じです。あなたの心の中で、すべての画期的進歩は創造性に関して台帳の印象的でない側に落ちているということですか。

ある意味では、そうです。関連する意味では、そうです。

わかりました。つまり、私はあなたに、ショックを受けるような特定のデータについてもう少し具体的にすることを勧めたいと思います。特定のテストのようなもの、つまりゴールポストのようなもので、予測市場レベルの「これが起こったかどうか」というようなものです。なぜなら、ゴールポストを動かしたくなるようなものの一つだと疑っているからです。

そして、私はあなたが過去にそれをやったと言っているわけではありませんが、将来そうしたくなるかもしれないと言っているのです。

ええ、私はこのゴールポストを動かすという批判があまり好きではありません。もし誰かが「スマートであるためには、あるいは類推ができるならあなたはスマートで人間のようだ。しかし類推ができないなら、あなたはそうではない」と言い続けているとします。そして、LLMが類推できるようになり、彼らは「ああ、気にしないで。それは別のことだ」と言います。それはゴールポストを動かすことです。しかし、もしあなたが「LLMはXYZができないので、明らかに彼らは知的ではない」と言い、それからLLMがXYZができるようになって、あなたが「わかった、まあ、彼らはABCができない」と言うなら、それは必ずしもゴールポストを動かしているわけではありません。

あなたはただ、彼らができないことがいくつかあると言っているだけです。そのそれぞれがすべて、彼らが知的でないという強力な証拠なのです。

まあ、あなたはゴールポストを設定したことがないと言っているように聞こえます。そして私はあなたにゴールポストを設定することを勧めています。

まあ、あなたは私が挙げたものに満足していませんね。ゼロからカントールや1000分の1の訓練データのようなものです。

1000倍の訓練データは合理的だと思います。私は、あなたがそれよりも前にショックを受けていることに気づけるかもしれないと思います。ゲームの後半になってあなたが目を開けるようにしているような感じがします。あなたのゴールポストが今構成されている方法では。

わかりました。私はもしかしたら、もっと時間をかけてそれについて考えるかもしれません。対案を出させてください。私はしばしば知覚します。そして、私は必ずしもあなたへの反証を持っていませんが、もしかしたらあなたはこれをやったかもしれませんが、私がしばしば知覚するのは、私が自信のある短いタイムラインと呼ぶものを持っている人々は、LLMまたはLLM訓練アーキテクチャへの代替仮説を想像するために多くのことをしていないか、できていないということです。それは基本的にAGI、一般知能への成分を持っています。あるいは、彼らがそれをするとき、彼らは「LLMはほぼそこまで来ているけれども、オンライン学習やセルフプレイや強化学習や長い時間範囲か何かが必要なだけだ」というような感じです。

ブラックボックステストの有効性と限界

そして、それは本当に私が到達しようとしていることに取り組んでいません。私が到達しようとしているのは、あなたがLLMパフォーマンスの観察に基づいて大きなアップデートをしたということです。あなたは複数の大きなアップデートをしました。

可能な限り最も…つまり、できるだけ代替直感を得ようとしてみてください。そこでは「ああ、そうだ、これがすべて現在のAIについての私の他の理論によって説明される方法がわかる」という感じで、私たちが基本的に一般知能を理解したというだけではなく。

ええ。つまり、私を納得させるものが本当にあるかどうかわかりません。なぜなら、私は最初から、ええ、AIの冬が訪れる25%の確率があり、20年後には超知能がないかもしれない、と言っていたでしょうから。もしあなたが私たちが生き残る理由を尋ねるなら、それはおそらく私の生存確率のほとんどが行くところです。つまり、ああ、私たちはさらに数十年手に入れた、あなたのシナリオのように。ただ、私はやはりかなり驚くでしょう。「ああ、何もかも意味をなさない」とは思わないでしょう。「いや、私はかなり驚いている」と思うでしょう。それが私の反応です。

そして、何か言葉にできますか。何が起こっているのかについて…つまり、私が言いたいのは、レベルでは…もしかしたらあなたは単に機構的な主張を全くしないかもしれませんし、あなたはただLLMのパフォーマンスがいかに印象的かを見て、と言うかもしれません。それがあなたの立場の種類ですか、それともLLMのパフォーマンスがいかに印象的かを見て、だから彼らはおそらく何らかのアルゴリズムを持っているか、何かをしているか、考えているか、創造的であるか、何でもいいと言いますか。

私の立場は、私はもはやLLMができることとできないことの間に自信を持って境界線を引くことができないということです。そして、あなたは私がするほど入出力テストの観点で世界を見ていないことを示しました。しかし、私はそれを非常に重要なテストだと考えています。あなたがこれらすべての異なるゴールポストを、AIに特定の課題を設定するという形で設定するのです。つまり、AIにこれを与えて、これを出力しなければならないというものです。そして、もし私が今年または去年、あるいは任意の時点でそれをやっていたら、私が設定したであろうマイルストーンのほとんどが越えられているようです。そして今、私がマイルストーンを言うのは非常に難しくなっています。マイルストーンと言うとき、わかりました、私の皿を洗ってください、確かに。でも、それが根本的な制限であるようには思えません。彼らが私の皿を洗えるようになるために、何か大きな新しい火花が必要であるようには思えません。漸進的な進歩がそのために必要なすべてのように感じます。

わかりました。それで、それで、あなたの批判は、もし私が「私にとって最大のアップデートは、AIが印象的な科学的進歩をするようなものになることです。新しい概念や科学的洞察や数学的概念や定理や証明を考え出すようなことで、人間にとって興味深いが、人間がまだ書いていないものです」と言うなら、

あなたの批判は「確かに、それは良い、それは入出力のことだ。でもそれは本当に本当に高いハードルだ。あなたはその時点の前にアップデートできるはずだ」というものです。

はい。そして、私がそれを言う理由は、もしあなたが、証明したり数学者を助けたりする最先端の状態を見ているなら、あなたはすでに気づくつもりだと思うからです。非常に着実に忍び寄っていると思います。同じように、ソフトウェアエンジニアリングでは、私はもう少し直接的な経験があります。彼らはより有用になり続けています。私だけではありませんが、先日GPT-o3と「ねえ、私はFirebaseを使っています。この場合、なぜFirebaseは遅いのですか。何が間違っている可能性がありますか」というチャットをしました。そして、「わかりました、これがあなたの特定の状況で使うべきインスペクターツールです。あなたはこのクエリをしました。これをチェックすべきです」という感じです。ですから、それはすでに、どれだけ役立つかの水位線が増加し続けています。そしてそれは多くの異なるドメインで真実だと思います。そして、私はダムのようなものを見ていません。水位線がただ前進していくように感じます。

まあ、ダムは新しい概念と新しい洞察を創造しないということです。つまり、あなたはそれが物ではないと言っているのですか、それともそれが別個ではないのですか…あなたはそれを分解することができます。

もしあなたが「新しい洞察を創造しない」ということを現金化しようとするなら、一連のテストとして、あなたが最終的に書くテストの系列が何であれ、パターンは非常に強く、最も簡単なテストを通過し続け、それからより難しいテストを通過し続けるようです。

ええ、これは私にとって本当に奇妙な議論の線です。つまり、すみません、奇妙ではありません。つまり、明らかに多くの人がこの議論の線を作ります。私はただ…あなたは一般的にソフトウェアについて同じことを言えるでしょう。あなたは「何らかのタスクについてかなり明確なアイデアを持っていて、それがコンピュータに入れられる情報処理タスクのような適切な特性を持っているとき、私たちのソフトウェアができることは時間とともに忍び寄り続けます」と言えるでしょう。そして私は「ええ、それは一種の有効な議論で、AIに関連しています」と思います。しかし、それは本当には「今私たちは洞察を持っていて、今私たちは数年離れている」とは教えてくれません。

つまり、私たちのソフトウェアができることが時間とともに忍び寄るなら、もしあなたが30年前か何かに戻るなら、例えば使用可能なテキスト読み上げの黎明期のように、私はこれらすべての異なるマイルストーンを並べることができたでしょう。そしてそれらの多くはAI関連か、私たちがAIと呼びたいものになるでしょう。でも、ええ、テキスト、画像、運転、これらは重要なマイルストーンのように見えるものです。ただ、外側の見方から、あるいは何が見えるかのような。それからバーチャルリアリティのような、それはそれを越える前でさえ非常に顕著に見える技術的マイルストーンのようなものです。ですから、私はこれらすべてのマイルストーンを並べていたでしょう。そして私はただ気づいています。ねえ、数十年前に私が設定したすべてのマイルストーンが倒されています。そして私には本当にあまり多くのマイルストーンが残っていません。

AIの勢いとデータの役割

私の最良の低忠実度のスティールマンまたはパラフレーズは、あなたは「わかりました、これらの能力の束が最近かなり急速に落ちています。これはおそらく続くでしょう。あるいは、したがって私たちは得ました」と言っているということです。そして、これらすべてのマイルストーンの落下は、同じ中心的なエンジンに接続されています。このLLMアルゴリズムとスケールがすべてであるという考え、そしてトランスフォーマーアーキテクチャ、それは驚くほどシンプルなアーキテクチャです。

わかりました。つまり、基本的に私は「ええ、それは真実のようですが、非常に重要な要素は、これらの能力の核心が、能力を実証している私たちが持っている巨大な量のテキストデータから来ているということです」と思います。そして、ある文脈でLLMがそれを大幅に超えることができるとき、彼らは間違いなく人間のようには振る舞っていません。彼らは膨大な量の知識を持っています。いわば、多くの事実を持ち込むことができます。人間よりもはるかにうまくできる特定の操作があります。少なくとも簡単な文脈、簡単な問題では、人間よりもはるかに速くプログラムできます。そして、AIをもっと広く見ると、超人的なチェス、超人的なこれ、超人的なあれ、超人的な画像生成です。しかし、私は、あなたが言及しているこれらのマイルストーンをLLMが達成してきた説明の本当に本当に大きな部分は、それが人間のテキスト生産からのデータで実証されているものだということだと感じます。

わかりました。ですから、私たちはそれが見えるほど意見が異なっていないかもしれないと思います。なぜなら、私は実際にあなたに同意するからです。ほとんどの人がLLMスケーリングが壁にぶつかっていることに同意すると思います。GPT-4.5がそれを示したと思います。覚えていますか、彼らはLLMにもっとスケールを投げました。10倍以上のスケールだったかもしれません。そして彼らは「見て、少し良くなった」という感じでした。そして誰もが「ああ、わかった。だから私たちはもっとピースが必要なんだ。もっとパズルのピースをこれに投げ込む必要があるんだ」という感じでした。ですから、私はそこであなたに同意します。私が行っている予測は、これらすべてのゴールポストを指すとき、私たちは十分なツールを持っていると思います。LLMだけではないでしょう。しかし、あなたに同意します。もしあなたが私にGPT-4または4.5か何かのアーキテクチャに固定して、アーキテクチャを固定して、あなたができることは単にもっとデータともっとGPUを投げ込むだけだと言ったなら、私は「わかりました、ええ、それはおそらく実際にあなたの定義による創造性の火花を示さないでしょう。おそらく永遠に」と言うでしょう。

つまり、私はかなり納得しています。私は「それが創造性の火花を共有することは決してない」と60%くらい言うでしょう。でも、現実には、私たちはここで大釜にかき混ぜることができる他のいくつかのパズルのピースを持っています。そして、かき混ぜが常に起こっていると思います。

私はその2つのことに同意しますが、なぜあなたはそれが私たちに創造性の火花を与えると思うのですか。なぜなら、もし私がただ「ブラックボックスを見て、フードの下で何が起こっているか心配さえしないでください。創造性の火花を示す異なる課題は何ですか」と言っているだけなら、私は個人的に、人間よりも堅牢に優れた自動運転で、事故率がより少なく、全体的に、任意の環境で人間よりも優れていると言っていたでしょう。私は「そう、それは一般知能の火花のような証拠になるでしょう。少なくとも」と言っていたでしょう。私はそれを創造性の火花とは呼ばないでしょうが、少なくとも一般知能の火花のようなものです。

チェスについても同じことを言っていたでしょうか?

それはブラックボックスのマイルストーンの一つの例です。そして私は「まあ、それは証拠です。私は私の事前のマイルストーンのリストからそれをチェックしています。本物が来たことを教えてくれるマイルストーンです」という感じです。

ブラックボックスのことは私を混乱させます。そして、私はあまり告発的になりたくありませんし、全く自信がありません。しかし、これを推測として設定させてください。告発としてではなく。私は今これを考えているところですが、ブラックボックスとブラックボックスでないものの間にメンベイリーのようなものがあるかもしれません。一方では、あなたは最近の証拠のためにLLMがおそらく物ではないと言いたいのですが、私たちはただもっと多くのものを持つでしょうと。だからあなたはそこでメカニズム的推論をスクリーニングしようとしています。しかし、あなたは帰納をしたいという意味でメカニズム的推論をスクリーニングしていません。あなたは「いや、おそらくこれは単に…これは公正な告発ではありません」と言いたいのです。

まあ、私はただAI業界全体が今、彼らに与えたい任意の測定可能な次元で多くの勢いを示しているこの部分にあると言っているだけです。

つまり、人々はそう言いますが、あなたが測定可能と言うとき、あなたは測定可能なもののいくつかのサブセットを意味します。専門家が新しいアイデアをいじろうとしてLLMと話をすることで、それが測定可能かどうかは測定可能です。専門家は「このLLMはこの洞察を持っていた。それは私が確信を持ってデータのどこにもないものです。なぜなら、私はこの特定の分野の専門家で、私もそれを持っていなかった。そしてLLMがそれを持っていた。それは素晴らしかった」と言います。専門家はそう言いますか。それは測定可能です。

ですから、私があなたに伝えようとしているのは、あなたがそのような境界線だと思っているものを取って、もっと連続的なティックのようなものに分割するとき、わかりました、小さな洞察を持っていたか。より大きな洞察を持っていたか。あなたは小さな洞察を持っているのを見るつもりです。

ええ、私はそれを本当に信じるかどうかわかりません。そして、だからこそ私はあなたにテストを作ることを勧めているのです。なぜなら、あなたが「まあ、私は…私はただこの線を引いた。それは白黒だ。アインシュタイン対そうでない」というように、それを却下するのは簡単だと思うからです。そして私は「まあ、もっと線を引いてみて。トレンドが見えると思う」という感じです。

まあ、わかりました。もし私がもっと線を引いたら、もっと線が越えられるでしょう。

はい。そして、私は、彼らが越えられている勢いをあなたがすでに見ると思います。だから、あなたは「わかりました、でもここのこの特定の線は特別な線です」と言わなければならないでしょう。

私は言う必要はありません…私はこの特定の線が越えられないと言う必要はありません。なぜそれが…ええ、それは意味をなしません。

まあ、もしあなたが私の前提にここで同意するなら、そうですよね。つまり、例えばあなたが彼らがデータにそれがなくてカントールの対角線証明のようなことをしたら感銘を受けるとしましょう。しかし、それに至る印象的でない証明の束を書いていると想像してみてください。そして、彼らが中途半端にそこに到達しているとしましょう。だから、あなたはただ主張し続けるでしょう。わかりました、ええ、でも私が引いたすべてのこれらの異なる線とマイルストーンのうち、それらはすべて私が指しているこの特定のポイントまでは簡単です。

つまり、私たちがこれをするときはいつでも、新しい情報を得ることになります。GPT-4または3を作る前のように、たとえあなたが予期していたとしても、誰かが予期していたとしても、知識の量や膨大な配列の質問に答える能力のような点で極めて超人的であるが、この方法で創造的ではないという奇妙な能力の分布を得るつもりです。たとえあなたがそれを事前に予想したとしても、線を引くことは極めて困難になるでしょう。そして、もしあなたが事前に線を引こうとするなら、成功しないでしょう。

わかりました。私はただ、良いブラックボックス方法論だと思うことを主張しているだけです。だから、方法論は、証明中に飛躍を行う才能を調査したいとしましょう。わかりましたか。だから、10ステップのようなものを作ってください。1から10の難易度の飛躍のようなスコアです。そして、私はあなたのスケールで進歩すると思います。

わかりました。私の…まあ、私は必ずしもあなたの提案された方法論に反対するわけではありません。それは私には合理的に良いように聞こえます。私はこれらのベンチマークを構築する仕事をしているわけではありません。私はあなたの指摘を受け入れます。それがもっとアップデートする方法になるでしょう。私は議論の一部には本当に同意しませんが、それはあなたがこれをして、10ステップを作って、それからAIが最初の3つをして、あなたが強いアップデートをするというようなものです。あなたは弱いアップデートをすべきです。能力が増加しているという方向でアップデートすべきです。しかし、あなたはまた、「まあ、この限定されたAI手法でどこまで行けるか」という点でもアップデートすべきです。

数学者の失業とAIの創造性の境界

カントールとアインシュタインの例では、あなたは8か10の難易度のようなクラスの例を持っているように感じます。そして、あなたは「まあ、それをやっていない。だから、火花を持っていないと感じて良い」という感じです。そして私は「わかりました、でもあなたは1、2、3をやっているのを見ましたか」という感じです。そして、あなたは「まあ、それはあまり意味がない。おそらく3で止まるだろう」という感じです。そして私は「まあ、なぜあなたはもっとこれについて考えて、4か5があなたの本当の防火壁だと私に言わないのですか」という感じです。

待って、すみません。それを言い換えてもらえますか。それは理解できませんでした。

ええ。この仮想的な例で、カントールの証明と同じくらい良い証明は、洞察の飛躍を持つことの8か10の難易度のようなものです。そして、私は「でも、これらすべての小さな証明を見てください。これらのようなものをやっています。これらはまだ洞察のより小さい飛躍と考えられています」と言っています。

いいえ。それで、基本的に何が起こると思いますか。1に到達してから2に到達してから3に到達したので、3で止まると思いますか。

それで、あなたは3で止まると主張しているのですか、それとも8の前のいつか止まると主張しているだけですか。最初に「ああ、くそ、私が思っていたところで止まらない」と思うゴールポストを釘付けにできますか。

つまり、主張は、ええ、おそらくかなり高い確率で10の前に止まると思うというような塗りつぶしがあります。正確にそれがどこで起こるかは物事全体に塗りつぶされるので、私はある程度アップデートしますが、任意のステップでそれほど強くはアップデートしません。

だから、私の視点からすると、あなたが今日水位線の上にあることを知っている例を選んでいるように感じます。そして、問題は、あなたが選んだ例が、ゲームの非常に後半になって初めて倒されるようなものだということです。ですから、もしかしたら、水位線のスペクトルで完全に高くないような例を選ぶためにもっと労力をかけることができるかもしれないと尋ねているだけです。

わかりますか、私たちがやっているのは、もちろんそうですというような…待って、待って。わかりました、聞いてください。

私は…私たちはこの糸を続けることができます。それは興味深いです。しかし、フレーミングポイントとして、現実には、知能爆発がどれだけ近いかについて情報を与える異なる時間に受け取る情報の良いセットをあなたに与える義務はありません。あなたはただ、伝えられないかもしれません。あなたはただ、伝えられないだけかもしれません。

もちろん、ありません。でも、私はただ観察しているだけです。もし私が演習をしようとするたびに、数学について…公平に言って、私はそれをやっていません。しかし、私が他の報告書や見出しを読んで得る印象は、人々はますます感銘を受け続けているということです。私が言ったように、あなたがそれに与える任意の次元または任意のスケールで、それはただスケールを登っているように見えます。

まあ、いくつかのスケールで、そして他のスケールではそうではありません。

わかりました。わかりました。あなたは、あなたは、それが私がスケールを良く連続的にしていないことの産物だと言っているのです。

まさにその通りです。私は、あなたがスケールを作って「ええ、人間の上位1%だけができる超難しいこと。AIはまだ今日それができない」というようにするのは簡単だと言っています、と言うのは生産的だと思います。しかし、私は、中央値の人間が今日完全にできることで、AIが数年後にできたら驚くようなことがあるかどうか試してみるのは生産的だと思います。

私の方法論は、有用なアプリケーションについて話して、有用なアプリケーションに関連するスケールを持つことです。しかし、わかりました、あなたが…私はこれが意図的に多くの異なるものを混ぜ込んでいるように感じます…もしあなたが…わかりません。例として言語学習を取りましょう。LLMは完全に、良い言語教師になるための核心的能力か何かを持っています。

合理的な量のテキストデータがある限り、多くの言語で話すことができますし、スキャフォールディングと複数のエージェントを使って、スペル、発音、文法をチェックする人、アドバイスをくれる人などを持つことができます。だから、彼らは間違いなく核心的能力を持っています。そして、別の質問があります。実装できますか。良いセンスを持っていますか。製品をうまく展開しましたか。うんぬんかんぬん。そして、もしあなたが私に「私が実際に望む方法で新しい言語を学べる良い製品があるでしょうか」と予測するように求めているなら、それは本当に複雑な質問ですが、AI能力にはあまり関係しません。もしかしたら私は誤解しているかもしれません。

あなたは基本的に、私がアプリケーションについて話すときに多くの変数をパッケージ化しようとしていると言っているのです。

ええ、でも私は質問をするのにかなり自然な層だと思います。

私は、なぜなら、つまり、もしあなたが多くの変数をパッケージ化するなら、LMがそれをできるなら、その変数がどれだけ印象的であるべきかの範囲を得ることになります。そして、その変数がどれだけ有用かも。だから、タスクにとって有用だけれども、実際にはそれほど印象的であるべきではない、または私をそれほどアップデートしない変数を得るでしょう。そして、あなたはそれをまとめようとしています。私が意味のあるテストだと思う種類のものを見ると、それは意味をなしません。だから、私は自動運転に言及しました。それから、A評価を得るエッセイを書くことのようなものがあります。つまり、あなたはそれが意味のあるベンチマークだと思いませんか。

あまり思いません。いいえ、つまり、それが10年前に話していた信じられないベンチマークだったとは思いませんか。

同意します。非常に驚きです。わかりました。しかし、もしあなたがもっと長く考えるなら、あなたは「うーん、それはある種訓練データにあると思う」という感じです。そう、まさに。つまり、あなたが「訓練データにあると思う」と結論づけるとき、私はそれが私の方法論にとってそれほど有用ではないと見ています。なぜなら、私の方法論は、AIが異なるパラダイムを利用できるようにすべきだと思うからです。そして、遡及的に「ああ、そう、できることはすべてこのパラダイムのためだから、止まるつもりだ」というように判断する代わりに、ブラックボックス測定を持って、ブラックボックスベンチマークの結果を最初に見るまでブラックボックスを開けないというのが生産的だと思います。

そして、なぜそれが有用なブラックボックスベンチマークなのですか。つまり、それは確認バイアスから守ってくれると思います。つまり、パラダイムを理解していると言うような。もちろん、パラダイムの結果を見た後でパラダイムを学ぶことができます。確認バイアスからの保護だと思います。

私は従っているかどうかわかりません。すみません。それだけではありません。それだけではありません。それはまた、一つのパラダイムにズームインすることに執着しすぎないように守ってくれるということでもあります。はい、LLMは本当に重要なパラダイムです。でも、あなたがパラダイムを混ぜているAI分野全体について考えていることを確認したいのです。

そうですね。そして、ブラックボックステストは、あなたが理解していると思う一つのパラダイムの詳細に飛び込んで、業界全体のより大きな絵を見るだけでなく、守ってくれます。

わかりました。そして、それから、あなたは今後10年間でAGIが50%の確率だと推論します。

はい。同じように、ほとんどの人がやるのと同じ方法で、そうですよね。ちなみに、外部の見解の議論があります。ほとんどの人は私が見ているのと同じものを見ています。それは、これらの自然なブラックボックスの次元のようなもの、つまり「見て、私はただ立ち止まっているだけです。AIを理解しているとさえ主張しません。私はこれらすべてのテストを見ているだけです」というようなテストです。そして、誰かが事前のテストや事前のスケールを得ていて、スケールで立ち往生していると言っているのがどこから来ているのかわかりません。

事前のスケールや…事前のスケールでスケールで立ち往生しているというのがどこから来ているのかわかりません。私が多分…ここの構造は、私がある程度、あるいは確率的に、特にLLM能力の観察を説明しようとしているということです。基本的に「まあ、それはデータにあるからです」と言っています。

つまり、私の質問は、あなたは主観的に近いうちにAIの冬が訪れると思いますか、それとも思いませんか。

わかりました。まあ、繰り返しますが、あなたはそれが多くの変数を統合しているということです。つまり、私は…つまり、あなたは私たちがそうだと思いますよね。なぜなら、あなたは近いうちにAGIの確率が低いと言っていて、多くの企業が今近いうちにAGIを約束しているからです。だから、私の推測は、私たちは近いうちにAGIを得ないだろうということです。そして、あなたが年を引くところに応じて、あまり強くではありませんが、80~90%です。しかし、それは必ずしも冬があるという意味ではありません。彼らはすでにかなり実質的な収益を上げています。彼らはおそらく収益を大幅に拡大するつもりです。私はその経済学を知りませんが、私は…あなたが…私はあなたが強く予測しなければならないと思います。完全に非常に可能性が高い主観的に期待外れのAIの冬があるでしょう。なぜなら、あなたは私に「まあ、もしかしたら私は誤解したかもしれません。あなたが言おうとしているのは、研究は進歩し続けるでしょうか。私たちは同様に印象的なものを得続けるでしょうか、それとも得ないでしょうか」と言っているからです。次の数年で?

だから、私の視点からすると、これらの自然なブラックボックスメトリックはただスケーリングし続けるつもりです。私はあなたが本当に定性的に出て行かなければならないと思います。

それで、それで、あなたは「ああ、そう、いいえ、あなたは壁にぶつかるつもりです。そして、これらの企業は収益目標を逃すようになります。それが世界のように聞こえます。

壁にぶつかることは、少しマニーですが、非常に粗いレベルで確率的には。はい。しかし、これらのことは本当に塗りつぶされていると思います。なぜなら、あなたは言うかもしれませんし、私も言うでしょう。o3スタイル、R1スタイルの強化学習のようなことをするつもりです。あるいは、新しいことをするつもりです。人々は新しいサーキットプライアを考え出すでしょう。人々は新しい訓練アルゴリズムを考え出すでしょう。彼らは…私たちは…そして、私たち両方ともそれをすると思いますよね。

ええ、確かに。そして、それは少なくとも一種の…何という言葉でしょう。アンホブリングがあります。それから、パフォーマンスのロックを解除するようなこともあります。だから、あなたの心の中では、彼らはこの他のすべてのことを試すつもりですが、何かが本当にクリックして特異点を再起動するまで、彼らのために数十年かかるだけです。

あなたは能力の増加を得るつもりです。私は、主観的にどれだけ印象的になるか事前に呼び出す方法がわかりません。あなたは3年または10年で知能爆発を得るかもしれません。しかし、ええ、私の主線は、それはただ10、20、30、40、50年にわたってもっと塗りつぶされているということです。そこでは、わかりました、あなたが好きなら複数のパラダイムを持っています。あるいは、ただ複数の洞察、複数のアルゴリズムを持っていて、それらを組み合わせる方法を考え出しています。そして、ええ。

意見の相違の要点をまとめると、私は人々が作業しているパズルのピースの量を見ているだけで、おそらく仕事を終えるために十分なものがすでに起こっているように見えます。十分でないかもしれませんが、十分なように感じます。

だから、今あなたはメカニズム的推論をやっています。つまり、私は…私は、LLMが超知能に直接スケーリングしないように見えるというメカニズム的声明を出すのは興味深いと認めます。だから、あなたはただもう少し必要です。私は行く意思があります。ええ、私はそれがありそうだということを認めて幸せです。

まあ、私はただ追跡しようとしているだけです…私の視点からすると、あなたはやや…やや過信しています。あるいは、10年または20年でAGIが確信していると言いましょう。だから、私はその確信がどこから来ているのか理解しようとしています。だから、あなたはブラックボックスのことについて話しました。そこでは、メカニズムについて推論しないように明示的に言っています。しかし、今あなたは「まあ、多くの人々がメカニズムを生産しているのを見ています。そして、私たちはメカニズムの小さなピースをたくさん持っています。それは一般的に知的なメカニズムに加算されるべきに見えます」と言っています。私は、どれが仕事をしているのかわかりません。

アイデア間の接続。私はブラックボックステストが物事の勢いを客観的に教えてくれるために本当に重要だと思います。もちろん、勢いは続かなくてもいいです。勢いは細っていくかもしれません。おそらく、進歩のバーストが起こって、それから細っていったAIの夏があったでしょう。しかし、それは良い出発点だと思います。そして、その出発点に基づいて、物事は今全面的に高い勢いを持っているようです。そして、ブラックボックスを開けて「わかりました、勢いのドライバーは何ですか」と言うとき、一つはLLMスケーリングのようなもので、GPT-4.5は曲線を曲げていましたが、私は他の多くのパズルのピースと他のタイプの結果がたくさん降りてくるのも見ています。AlphaFoldのように、「うーん、わかりました、それは人々がLLMパズルのピースと一緒に混ぜている異なるパズルのピースです」という感じです。そして、私は「まあ、これらは混ぜられている強力なパズルのピースのようです」という感じです。ズームアウトすると、ブラックボックスの結果はより印象的になり続けているようです。それから、他の人々の意見に従うことも、そうですよね。分野の人々のコンセンサスのように、分野の専門家の束が心配しないでとか、Yan LeCunが言っているような人はいません。彼の予測は10年ちょっとのようなものですよね。それは彼の予測です。彼でさえ、コンセンサスにそれほど矛盾していません。だから、私はそれをすべてまとめているだけです。

つまり、誤解しないでください。もし明日AIニュースをチェックして、誰もが「ねえ、私たち全員がデータを評価することに基づいて考えを変えました」と言っているなら、私は完全に再考する意思があります。しかし、実際に、私はただあなたこそが過信して入ってきている人のように感じます。

わかりました。それで、わかりました。それで、あなたの見解の一部は他の人々の意見から来ていて、それは十分に公正です。パズルのピースの効力についての信号。あなたはそのように説明できますよね。私は多くの効力のあるパズルのピースがあることについて肯定的な信号だけを得ています。

構造について少し教えてもらえますか。あなたの信念が他の人々が言っていることから来ている範囲で、あなたの信念の40%のローンを持っているような、あなたが名前を挙げることができる少数の人々がいますか。それとも、人々のカテゴリのようなものですか。

基本的に、Metaculusで投票している人は誰でもです。コメンテーターのようなものです。私はただ…私が見たコメンテーターで、私が尊敬する人で、「ええ、私はAIとLLMを完全に理解していますが、20年未満で来たら驚くでしょう」というような人はそれほど多くありません。つまり、Gary Marcusのような人ですが、彼でさえ30%の確率を認めています。そして、彼は私の番組で10年未満で来ることについて懐疑的な人々の極端にいるようなものです。彼は30%の確率を言いました。

わかりました。だから、ほとんどの人が少ないと言うという事実…

まあ、それと客観的なテストを組み合わせたものですよね。つまり、私ができる唯一の他のことは、AI自体のより深い歯車レベルの理解を得ようとすることです。それは私の専門ではありませんが…つまり、私は興味があります。機会があるときに勉強します。しかし、私は…私はただ自分が較正されたと思います。つまり、私はすでにそれが長い時間がかかることに確率を与えました。私は20年以上かかる25%の確率のようなものを与えました。

わかりました。それで、ええ、それは人々です。それは…それは…ブラックボックスの観察能力です。そして、多くのメカニズムがあって、それらが加算されるかもしれないし、多くのメカニズムがあって、多くの人々がそれらを組み合わせる作業をしているように見えるという感覚です。そして、それが起こらないシナリオを説明するという考えですよね。しかし、私はあなたにそれをするように頼みました。そして、あなたは「ああ、まあ、それはこのようなことを証明できることで細っていくシナリオです。でも、あなたの境界線でさえ、進歩を見始めたらおそらく境界線を動かすことになるように見えます」という感じでした。それが私が得る感覚です。あなたが実際に意味のある境界線を引いたという感覚を得ません。

まあ、私は一般的にかなり注意深く…私は一般的に「XYZだったら非常に驚くでしょう」と言うことについてかなり注意深くしてきました。

つまり、私たちがそれをもっと正確にすることができることに同意します。しかし、あなたはある程度意味のある高い境界線を引いたことに同意します。そして、私はあなたが実際に驚くだろうと信じる意思があります。世界が終わる直前に。

わかりました。つまり、もしあなたが私を…私をこの特定のケースで基本的にずさんまたは貧しい認識論で告発しているなら、それは結構です。いいえ。つまり、私はあなたが言ったことはすべて合理的だと思います。私はただ、あなたが「知ってる、私がすべきことは、私を目覚めさせるような低い境界線を定義しようとすることです。パズルのピースが…十分なパズルのピースがあること」と言ってくれたらいいのにと思います。

私がそれを言っているように聞こえます。それが説得力があるとは感じません。なぜなら、自然が私にそのような指示を与えなければならないとは本当に感じないからです。

ええ、それはそうする必要はありません。つまり、それは真実です。それは真実です。しかし、私は自然が文字通りカントールレベルよりも早い警告サインをあなたに与えるのに十分寛大だと思います。

ええ。なぜそう思うのですか。

私は…私は自然が私たちにいくつかのサインを与えていると思います。つまり、私は次の10年のように収束している非常に賢い資格のあるAI専門家を含む人々の群れが…ええ、あなたが知っている、世界のチューリング賞受賞者のような、デビッド・デュベノ、アンドリュー・クリッチ、あなたが知っている、ジェフ・ヒントン、ヨシュア・ベンジオのようなものを投げ出すために、私は…つまり、これらはすべて非常に資格のある人々で、「ええ、10年以上かかるようには見えません」というような人々です。だから、あなたはここでの低レベルの技術予測について非常に確信しているようです。

わかりました。私は…つまり、彼らが近いうちに来ることを確信している理由は何だと思いますか。彼らの理由は何ですか。つまり、私は…だから、私がクリッチと話したとき、彼は…そして、デビッド・デュベノと、私は実際に、私が言った曖昧なものはおそらく彼らが言うであろうものと似ていると思います…つまり、彼らはおそらく追加のものを言うでしょうが、私が大きく外れているとは思いません。例えば、アンドリュー・クリッチと話したとき、私は彼が「ええ、防火壁が見えません。物事はただ忍び寄る軌道にあるように見えます」というようなことで私に同意していたことを具体的に覚えています。

防火壁が見えません。つまり、ええ。だから、別のこと、私が持ち込むことができる直感の別のピースは、誰の心も変えませんが、橋はランダムに立ちません。鋼を積み上げるだけで橋ができるわけではありません。それが橋であるべきではない、または立ち上がるべきではない良い説得力のある明確な理由が見えないからといって。

わかりました。でも、知能は特定のことです。あるいは特定のクラスのことです。

クラスのこと。でも、私はそれをテストすることが生産的だと思います。それは一連のテストを含みます。

公正です。公正に十分です。わかりました。しかし、私たちが試みているのは…つまり、それが基本的に私があなたに対して持っている不満ですよね。私はあなたが…あなたがこの一つのテストを持っていて、他のテストを持ちたくないと感じます。なぜなら、現実が必ずしもあなたに他のテストを作らせるべきではないと思わないからです。しかし、私はあなたがもっと深く掘り下げるべきだと思います。

つまり、ある時点で、私はただ「忙しいんだ」と言うつもりです。しかし、私は…まあ、私はあなたのような人々と話すことのように、ある種あなたを取っていると思います。だから、私はそのように応答しています。

つまり、LLMが出てきたとき、少なくともあなたのタイムラインを短くしましたか。

ええと、その前に私は本当にタイムラインを持っていませんでした。わかりました。私は…私は人々がすべてを見たときにタイムラインを短くすべきだということに同意します。わかりました。でも、私は、あなたが知っている、私は人々に尋ねるとき、あなたが知っている、どうやってアップデートしましたか。これまで、私は非常に明確な答えを得ていません。

しかし、現実があなたにLLMで証拠を示したのと同じ方法で、タイムラインが短いという。ゴールに取り組むだけなら、もう一度示すのに十分寛大だと思います。

私はしません…ええ、私は本当に…だから、つまり、あなたには一連のアイデアのようなものがあり得る世界として理にかなっていますか。5つのようなものがあります。私たちはそのうちの2つを持っています。1つ得るたびに、能力の大幅なバーストを得ます。そして、成長の速い期間があるように見えますが、それから細っていきます。そして、別のものを得ます。それから、5つ目を得ると、知能爆発を得ます。それは一種の世界として理にかなっていますか。

つまり、それらの5つのものは、私がパズルのピースと呼ぶものと呼ぶことができますが、高レベルでは、すでにパズルのピースを知っているかもしれないとも思います。わかりました、高次元空間は意味を表しています。トランスフォーマーアーキテクチャ。強化学習。高レベルでは、おそらく高レベルのものはすべて持っていると思います。

なぜそう思うのですか。

それは、それができることとできないことの明確な境界線を引くことができないためです。ブラックボックステストに関しては。

橋は…ああ、すみません、続けてください。

ええ、いいえ、それがかなりそれです。境界線があるかもしれませんが、境界線が何であるかさえ名前を付けることができないという事実。それは私が任意の分野で慣れている状態ではありません。つまり、通常、私たちは単に「ああ、これが境界線かもしれない。これが境界線かもしれない」と指摘できます。そして、あなたは「知ってる、洞察の火花、火花を名前付けるかもしれない」という感じです。

あなたは高レベルに置き続けますが、高レベルを置き換え続けます…あなたが知っている、私は…私はいくつかの特定のことを与えましたが、あなたはただ「まあ、それは高いハードルです」という感じです。

それは特定のことです。つまり、私は境界線を与えませんでしたが、特定のものを与えました。

だから、だから、基本的に…わかりました。だから、ただ明確にするために、あなたはただAIがおそらく行進し続けて本当に近くなると思います。ほとんどの人間の数学者よりも数学で優れています。ただ、トップの数学者ほど良くないだけです。

いいえ、それは数学のいくつかのピースまたは数学をすることのいくつかの側面では、すべての人間よりもはるかに優れています。そして、他の側面ではやや優れていて、さらに他の側面ではやや悪いでしょう。そして、まだ他の側面ではかなり悪いでしょう。

わかりました。だから、だから、あなたは今後20年間、例えば90パーセンタイルの数学者が、仕事の資格がもっとある、AIよりも仕事のためのより良い雇用だと思います。90パーセンタイルのように…上位10%だと思います。

それはどの仕事かによります。完全に置き換えることができるいくつかの仕事があるでしょう。ほとんど置き換えることができる仕事もあるでしょう。あるいは、10人の仕事をするために1人の人間と5つのAIを持つように置き換えることができます。あるいは何でも。そのようなスペクトル全体になるでしょう。

もしあなたが研究数学者のような出版作業について話しているなら、話しましょう。

ええ。出版のようなものでは、あなたは私に、もし私の唯一の選択肢が、数学研究者としての仕事があって、私の唯一の選択肢が自分の脳を使うか、20年後の今からの最高の数学AI脳を使うかだとしたら、と言っています。あなたは私の自分の脳の方が良いと言っています。

それはあなたがやろうとしていることによります。もしあなたがやろうとしているのが…はい、もしあなたがやろうとしているのが、他の数学者にとって美しく興味深い数学研究をすることで、あなたが議論していた概念についてもっと多くの人が話すような方法で、あなたはまだ長い間人間を欲しがるつもりです。おそらく。

確かに、数学研究でコンピュータとAIをますます使うようになるでしょう。しかし、もしあなたがその種の数学をやろうとしているなら、あなたはまだ長い間人間を欲しがるつもりです。はい。あなたがほとんどAIを使いたいようないくつかのことがあるでしょう。エンジニアリング計算のチェックのような。

これが私が掘り下げたいことだと思います。あなたはカントール天才レベルのものさえ主張していないということです。あなたは「ねえ、単なる平均的な教授レベルの数学者でさえ、AIが数十年間苦労するようなことをやっています」と言っています。

ええ。ええ。私は…つまり、私はそう思います。

だから、私が思うに、それが本当に進む方法です。私はあなたがやりたいことは、このやや平均的な数学教授を見て、アハモーメントを分離することだと思います。「アハ、この1時間の期間、AIはそれをできなかっただろう」というような1時間の期間です。そして、それはあなたの次のゴールポストになり得ます。

ええ。そして、あなたも…つまり、これらのことはすべて測定が難しいでしょう。だから、実際に基本的に訓練セットやそうでなければアクセス可能なデータにすでにあったものではないことをチェックする必要があります。そして、あなたはまた、計算力をパラメータ化したいかもしれません。AIが同じことを複製するのにどれだけの計算力がかかったか。

私は計算力にそれほどこだわりませんが、それは別のパラメータです。

ええ、あなたはそれをすることができます。ええ。そして、明らかに私はこれがあなたの主な焦点ではないことを知っています。あなたはそれをする時間を取るつもりはありません。私はただ、そのようなベンチマークを作るとき、ダイヤルを回すことさえできると主張するだけです。わかりました、90パーセンタイルの数学教授、10パーセンタイルの数学教授、ある時点で世界最悪の数学教授を得ます。確かに彼はかなり早くAIに置き換えられるでしょう。そして、それが私があなたに見ることを勧めるスペクトルです。

わかりました。私は…つまり、繰り返しますが、私はただ自然があなたのためにそれほどきれいである必要はないと感じます。だから、私がこのようなものに同意したとします。私は「わかりました、ええ、もし私たちがこのスケールを登り始めるなら、それから私は困っています。それから私はアップデートしなければなりません」という感じです。そして、実際に私たちが得るのは特定のシナリオです。それから私は遡及的に「待って、私が言ったことは知っています。私は言いましたが、実際に私は遡及的に私の予測を修正したいです」という感じになるでしょう。そこで起こることは、AIが現在私たちが創造的研究数学と呼ぶものの一部、サブセットで洞察を持ち始める場所があります。それは、ますます高い口径の数学者と同等またはそれを超えます。

サブセットは、大量の計算や大量の単なる…を含むもののようなものである可能性があります。

そうです。しかし、もし私たちが特定の数学教授を取っただけなら…ええ、彼らの数学のサブセットは数学の代表的なサブセットのように見えます。つまり、これらは設定するのが難しいゴールポストではないと私の意見では。

それらは私には一種の難しいように聞こえますが、ええ、誰かがそれをすることができるでしょう。

もしあなたがただ学ぶなら…もしあなたがただ10人の数学者を選んで、彼らの出版で使っているように見える全体的な脳力の量にどれだけ感銘を受けるかという点でランク付けするだけなら。わかりました。わかりました。だから、あなたは10をランク付けします。それから、ある日、あなたが真ん中の人だと思った人がかなり印象的だったことを学びます。彼がAIに全仕事をさせていたことがわかります。彼は文字通り仕事に現れていません。それがトップの数学天才、トップの数学天才まで行くよりも早い警報のようなものだとは思いませんか。

いいえ、それが基本的に私が言ったことではありませんか。

ええ。あなたは、現実があなたに「はい、彼は仕事で寝ていました」というような状況を提供することを期待すると言いました。しかし、それから後で、彼の仕事は実際にあなたが気づいたよりも簡単だったことを学びます。ある意味で。しかし、私は、彼をそのようにならないように選ぶだけだと言っています。

ええ。ある時点で、それはあなたが驚いて更新する私が言っているシナリオの一種です。それは、もしあなたが人間の数学概念が興味深いのと同じように人間に興味深い多くの概念を、いくつかの重要な範囲の努力分野にわたって生産しているAIを持っているなら、それは資格を満たすでしょう。

もしあなたが数学教授の失業が急上昇するのを見たら、それはあなたが以前に議論していたよりも早い警報ではないでしょうか。

まあ、もしそれがこのためなら、そこに行きます、そうですよね。つまり、それが私が求めているすべてです。わかりました、数学教授の失業が急上昇することに気づいてください。

確かに。しかし、それから私は調べるつもりです。もし私が調べて、他の理由のようなもので、NIHが資金の束をカットしたとか何でもなら、それから、あるいはNI何でも、NSFが資金をカットしたなら、私は「まあ、気にしないで」という感じです。

わかりました、確かに。私はそれが良い言い訳になり得ることに同意します。しかし、私たちが特異点が起こっていることに気づいて、あなたのタイムラインを短くすることに向けて進歩していると思いませんか。

それほどではありませんが…

わかりました。私は多くの進歩をしていると感じます。

議論の総括と最終的な見解

わかりました。まあ、これは要約するのに良いポイントだと思います。ですから、MIRIの研究について話しました。そして、私たち両方ともインテル・ダイナミクスが重要であり、MIRIは正統な基盤を持っていて、良い組織であり、まだ過小評価されていることに同意します。そして、コリジビリティがそれらのうちの一つであり、決定理論について話しました。詳細については人々は戻って聞くことができます。それから、P(doom)を下げるための異なる希望について話しました。それはおそらくアライメント研究ではないでしょう。だから、もしかしたら生殖系列遺伝子工学か、あなたはその要約をどう調整しますか。

ええ、私たちはAIを禁止すべきです。私たちは人々と話して、なぜ彼らがAGI能力研究をしているのか本当に理解しようとし、彼らに何か別のことをする方法を与えようとすべきです。そして、私たちはより賢い人間を作ろうとすべきで、もしかしたらBCIかもしれませんが、それが機能する方法は生殖系列遺伝子工学です。

エリエザーが彼の有名な投稿「尊厳を持って死のう」で話しているこの考えについて、私たちはおそらく死ぬと思われるが、少なくとも私たちができることは、確率を大幅に下げるか、あるいは大幅ではないかもしれませんが、測定可能に下げるような行動をしようとすることです。マイクロドゥームか何かで。少なくともあなたは下げました。100万分の1パーセントでも。それは何かです。もし私たち全員がそれをするなら、もしかしたら50%未満にできるかもしれません。私はあなたを称賛したいと思います。なぜなら、あなたは本当に私たちの尊厳を増すのを助けている人だからです。私は死ぬという部分は言いません。あなたは私たちの…を増すのを助けています。

私はそれが、より賢い人間を作るための生殖系列遺伝子工学への道に私たちを乗せるために、私たちの能力を高めるという尊厳ある行動だと思います。私はあなたが実際に助けていると思います。ただそれについて話したり、それについて冗談を言ったり、通常の仕事に行って、ロックスターになろうとしてお金を稼ごうとしているだけではありません。私はあなたが実際に解決策の一部だと思います。ですから、そのことに感謝します。

ありがとうございます。そして、ええ、あなたの仕事にも感謝します。このようなことについて話すことはかなり重要に思えます。私たち全員がこれについてもう少し考えるべきです。

確かにそうすべきです。わかりました、感謝します。ツヴィ・ベンソン=ティルセン、Doom Debatesに来てくれてありがとうございます。

ありがとう、リロン。