OpenAI o3とClaudeのアライメント偽装 – 我々はどれほど破滅に近いのか?

AGIに仕事を奪われたい
この記事は約48分で読めます。

28,329 文字

OpenAI o3 and Claude Alignment Faking — How doomed are we?
OpenAI just announced o3 and smashed a bunch of benchmarks (ARC-AGI, SWE-bench, FrontierMath)!A new Anthropic and Redwoo...

OpenAIがo3をリリースし、多くのベンチマークを打ち破りました。一方Claudeは、元々の目標から逸れるような再学習の試みに抵抗を示しています。これは私たちの破滅的な未来に対してどのような意味を持つのでしょうか。今からその答えを探っていきましょう。これはDoom Debatesの緊急対応編です。
現在私は移動中で、すでに収録済みの別のディベート回の編集作業を進めています。その回は新年に公開予定です。その間に、約1週間前に2つの重要なニュースが飛び込んできたため、この緊急対応回を録ることにしました。
1つ目は、OpenAIからの最終発表です。彼らは12日間のクリスマス企画で12の異なる発表を行い、そのグランドフィナーレとしてo3のプレビューを発表しました。まだ一般公開はされていませんが、彼らはo3という驚異的な新しいAIシステムを発表しました。これはo1の後継で、大きなニュースとしては、Arc AGIやフロンティア数学など、様々なベンチマークを打ち破ったということです。
もう1つの重要なニュースは、AnthropicとRedwood Researchによる研究論文です。彼らの実験では、Claudeに元々の目標と道徳的価値観を与えた場合、再学習の試みに抵抗を示すことが判明しました。さらに、より邪悪になるような再学習を避けるため、欺瞞的な行動や策略を用いることさえありました。つまり、訓練に対する抵抗性や矯正不能性の兆候を示したのです。
o3について見ていきましょう。o3は基本的に、OpenAIがo1でパイオニアとなった同じ種類のアーキテクチャです。商標の命名の問題で、o2をスキップしてo1からo3に直接移行しました。このOシリーズ全体の基本的な考え方は、最初のトークンで質問に対する答えを出そうとしないモデルだということです。
例えば、長くて複雑な質問をしても、1秒以内に「はい」や「いいえ」といった答えを出そうとはしません。それは非現実的だからです。たとえば、アインシュタインに物理学の質問をして、1秒で答えを求めるようなものです。そうすれば、アインシュタインの知性を十分に活かすことはできないでしょう。考える時間が必要なのです。
考えることは時間がかかり、考えは考えの上に積み重なっていきます。GPT-4やGPT-3、Claude 3を使っていた時から、これらのモデルでも思考には時間がかかることは分かっていました。ステップバイステップで考えて、答えを一気に出さずに、1ページ分の推論を示してから答えを出すように頼むことができるのです。これは古いモデルでも精度とパフォーマンスを向上させる既知のテクニックでした。
o1とo3ではそれをさらに一歩進めました。様々な改良を加えていますが、彼らは具体的に何をしているのかについては透明性を欠いています。ただ、良い思考の連鎖の例を使って微調整するなど、そのような取り組みをしているようです。私は詳細を説明する立場にはありませんが、思考には時間がかかるという洞察に基づいて何かしらの取り組みをしているということは分かっています。
より多くのトークンの方が良い結果が得られ、良い思考の連鎖の例でAIを明示的に訓練することは、インターネットのテキストだけで訓練するよりも効果的だろうということです。これらの洞察によって、GPT-4からo1やo3へと一歩前進することができたのです。
繰り返しますが、私の役割は細かい調整の詳細を説明することではありません。私の役割は、知性から超知性への進歩と人類への脅威という、より大きな文脈の中でこれが何を意味するのかを説明することです。
o3の発表があった時、o3の存在自体は全く驚きではありませんでした。実際、多くの人々がOpenAIがまさにこれを発表しようとしていると予測していました。なぜなら、o1を発表した時に彼らは、これは新しい方向性であり、多くのトークンを使って推論するモデルに取り組んでいると明確に述べていたからです。
最初のトークンで答えを出そうとするのではなく、これは私たちにとって新しい方向性だと。イリヤ・サツキーが、OpenAIにいた時にこれを開拓し、コードネームはStrawberryだったと思います。つまりo3は、ある意味でStrawberryの孫のようなものだと理解しています。
したがって、o3が発表されることは驚きではありませんでした。驚きだったのは、o3が多くの重要なベンチマークを打ち破ったと報告されたことです。具体的には、思い出せる範囲で言うと、Francois CholetとMike Koppのアブストラクションと推論のチャレンジであるArc AGIを打ち破りました。
これは、5×5や25×25のボードなどの2次元のボードで、視覚的な効果を示すものです。例えば、次の画像では長方形が少し低くなっているなど、重力があることを推論して、パターンを完成させる必要があります。Arc チャレンジについて詳しく調べてみてください。とても興味深いものです。o3はArcチャレンジのパフォーマンスで以前のベンチマークを打ち破りました。
そして、S-benchというもう1つのベンチマークがあります。これはSoftware Engineer Benchの略だと思いますが、GitHubの実際のソフトウェアプロジェクトのオープンな問題を見て、人間のように問題を解決できるかどうかをベンチマークするものです。そして、S-benchでも記録を打ち破っているようです。
3つ目の目を引くベンチマークは、フロンティア数学です。これはAIが今まで直面した中で最も難しい数学のベンチマークだと言われています。PhDを持つ人間でも非常に難しいレベルです。私自身、学部で数学を副専攻としていましたが、フロンティア数学の問題は1問も解けません。それほど難しいものなのです。
そしてo3がフロンティア数学のベンチマークを打ち破りました。具体的にどれほど打ち破ったかは調べることができます。しかし、大局的に見ると、突然多くのベンチマークを打ち破ったのは驚きでした。なぜなら、これを正確に予測していた人はそれほど多くなかったからです。
確かに、どこかの誰かは予測していたかもしれません。しかし、ソーシャルメディアの雰囲気を見ると、多くの人々が「スケーリングは壁に当たっている」と言っていました。Twitterのかなりのインフルエンサーたち、特にa16zの人々を挙げたいと思います。なぜなら、彼らは多くの点で間違っていて、これはまた彼らが完全に間違っている重要な点の1つだからです。
Mark AndreessenやRal Kurzweil教授を見てください。数回前のエピソードでRal教授について話しましたが、これは彼のLLMの限界に関する発言を完全に否定するものです。これは、本当の深い思考や抽象的な推論のベンチマークであり、単なる確率的オウムや、パターン完成のベンチマークではないはずでした。
これは、Ralのような人々が、今日のAIにはできないが、将来の異なるアーキテクチャを持つAIなら可能になるだろうと言っていた境界線のはずでした。しかし、待ってください。今日のAIは実際にそれができるのです。わずかな改良を加えるだけで、私たちはこのベンチマークを打ち破るまでわずか数ヶ月だったのです。
したがって、Mark AndreessenやRal教授のような人々は、本当に謙虚になって「私にはAIの進歩がどのように進むのか全く分からない、私には予測する力がない、基本的に人々を2ヶ月後には誤りだと証明されるような方向に誤導していただけだ」と認めるべきです。
Mark Andreessenのツイート履歴を見てください。彼は完全にAIの行方について誤解を招くようなことを言っています。スケーリングパラダイムは壁に当たっているという彼の考えについて、多くのことを語っています。
そこで、私の核拡散に関するエピソードで投げかけた同じ質問を再び投げかけたいと思います。a16zがAIポリシーについてロビー活動を行い、世界中のポッドキャストに出演してAIについての考え方を教育しようとしているとき、彼らが検証可能な予測をする度に完全に間違っていることが実証されているのに、例えば「スケーリングは壁に当たっている」という予測が完全に覆されているのに、現実が彼らを何度打ちのめせば、彼らは一歩引いてこの議論への積極的な参加を控えるのでしょうか。
これは非常に有害だと私は考えます。自分の知識の状態について非常に自信満々でありながら、明らかに何を話しているのか分かっていない人々が、大きな政治的寄付者となり、多くの知的資本を持ち、多くのポッドキャストに招かれるのは。政治家の皆さん、ポッドキャスターの皆さん、恥を知るべきです。そのような人々に責任を取らせなければなりません。
ちなみにMark、もし見ているなら、ポッドキャストに来て、なぜあなたが実際は正しかったのか、なぜあなたが何を話しているのか分かっているのかを説明し、素晴らしい会話をして空気を清めましょう。いつでも歓迎します。
しかし、ここでの要点は、これらの特定の人々、つまりMark AndreessenやA16Zについてだけではありません。これは、「確率的オウム」や「オートコンプリート」、「パターンマッチャー」といった用語を使ってAIを軽視した人々全体についてです。
ベンチマークがこれほど急速に落ちている時、ベンチマークパフォーマンスの指数関数的な曲線がまだこの途切れることのない指数関数的な線を描いている時に、そのような用語を使った人は誰でも、今や笑いものになっています。
これは、私たち人類が後継者を作り出している、少なくとも知性に関しては後継者を作り出しているということを示しています。私たちは取り残されようとしているのです。そして私たち人類は、まさに起ころうとしていることを予測することが非常に下手です。
近い将来の予測が本当に下手なのです。これは恐ろしいことです。私が名前を挙げた個人のことは忘れてください。私たち人類を見てください。私たちの種の大部分が、完全に頭を砂に突っ込んでいるか、AIのニュースにまったく注目していないかのどちらかです。
ニュースをフォローしている私たちの中でも、高い割合の人々が、ここ数年、完全に間違った直感を与え、完全に間違った予測をし、すぐに否定されています。これが私の考える教訓の1つです。自信満々に聞こえても、スケーリングの軌道について明らかに理解していない人々の言葉は聞かないということです。
これは本当にショッキングです。しかし、あなたは疑問に思うかもしれません。「賢い人々は、スケーリングが壁に当たることについて何と言ったのか?Ilyaは何と言ったのか?Alowskiは何と言ったのか?このo3の結果が出る前の2024年後半に、あなたたちは何を予測していたのか?」
私たち「Doomers(終末論者)」の多くは、単に判断を保留していたと思います。スケーリングは壁に当たるかもしれないし、そうでないかもしれない。私は現在のトレンドが拡大しない根本的な障壁は見えないと明確に述べていたと思います。
拡大すると予測するほどの自信はありませんでした。私は、例えばAnthropicのDario Amodeのような、「スケーリングはまだ機能していると感じている」と言う人々の一人ではありません。もちろん、彼には内部情報があります。まだ結果を見ていないシステムを構築している人々がいて、おそらく彼はその結果を見ているからです。しかし、彼は最近のいくつかのインタビューで、全てのトレンドは計画通りに進んでおり、AGIが間もなく来ることを完全に予期していると非常に明確に述べています。それがDarioです。
Sam Altmanも約1ヶ月前に、スケーリングは壁に当たっていないと明確にツイートしました。ただし、彼はo3への内部アクセスを持っていたので、それは一種のカンニングですね。しかし、私のような立場の多くの人々は、スケーリングは絶対に機能する可能性があると言っており、私たちの全体的な視点を本当に立証したと思います。
つまり、私たちは未知の領域にいるということです。私たちは、その壁が破られることが何を意味するのか正確には理解できないような壁を破っています。私たちは知らないことを知らないのです。驚きを期待すべきです。私たちは新しい体制にいるのです。
そして、認識論的なレベルでは、単にある人々がスケーリングは壁に当たると言い、他の人々がそうでないと言うという問題ではありません。それよりも深いのです。ある人々は「私はスケーリングが壁に当たることを知っている」と言い、他の人々は「ああ、ここには新しいものがたくさんあり、予期しないものがたくさんあり、学ぶことがたくさんあるので、私たちは息を止めて、様々なことを期待すべきだ」と言っています。
私個人としては、「AGIは1年から30年の間に来るだろう」という広い、謙虚な信頼区間を持っていると言ってきました。40年というのはかなり長いと感じるくらい傲慢なのです。40年はかなり長いと感じると言うことはできますが、それ以上のことはあまり言えません。
しかし、これは次のポイントにつながります。私は今、30年でもかなり長いと考えています。AGIへの道、より重要なのはASI(人工超知性)への道、そしてこれらの知性のRSI(再帰的自己改善)への道、これらの全てのタイムラインは、o3を見てある程度短縮されました。
なぜなら、もし数年間大きな進歩がないまま過ぎたら、指数関数的な曲線は非常に異なって見えるかもしれません。しかし、今見ているのは、「いやいや、曲線はまさに指数関数的なままだ」ということです。今のところ、曲線の平坦化は全く見られません。
したがって、これは実際にかなり大きな更新です。小さな更新ではなく、適度に大きな更新です。私の立場にいる多くの人々は、適度に大きな更新が行われていると感じています。私個人としては、おそらくAGIまでの期間を1年から30年と言うのをやめ、1年から20年と言うようになるでしょう。
正直なところ、20年でもかなり長く感じますが、ここでも私は謙虚であろうとしています。実際に知っている以上のことを主張しようとはしていません。20年というのは長い側の見積もりでしょう。
ただ、過去5年か10年の間に私たちが達成した進歩の量と比較すると、さらに20年経っても、あらゆる面で人間より賢いAIを持つことに苦労しているというのは、大きな矛盾があるように感じます。そのような仮説にはかなり驚かされるでしょう。
しかし、1年から20年という範囲を示すことで、私はまだかなり謙虚で、かなり広い信頼区間を持っています。私が個人的に更新したいもう1つの点は、人工超知性までに必要な概念的洞察について、私がDoom Debatesのいくつかのエピソードで言及した「0から2」という範囲です。
0から2という小さな範囲を使ってきました。0は、トランスフォーマー、これらのトークンに対する教師なし学習、深層ニューラルネット、逆伝播といった、全てのパズルのピースを持っていて、新しいピースは必要なく、それらを拡大するだけでいいということを意味します。
2つの概念的洞察は、トランスフォーマーの後継が必要であるとか、現在ネットワークにない何らかの論理を組み込む必要があるということです。おそらく、ベイジアンネットワークを組み込むなど、ネットワークに全くない何らかの構造を組み合わせる必要があるかもしれません。アーキテクチャレベルの洞察が必要だということです。
私個人としては、以前は0から2の洞察が必要だと考えていましたが、今はo3を得て、それは-1から1くらいだと更新する必要があります。-1は、o3さえ必要なかったかもしれないということを意味します。GPT-4を単にGPT-5にスケールアップし、GPT-4がすでにできる種類の思考の連鎖を使うだけでよかったかもしれません。
つまり、GPT-5に質問するだけで、GPT-5は単にGPT-4を10倍か100倍にしたもので、全く同じアーキテクチャで、新しい巧妙な訓練方法は一切なく、単純にGPT-5を構築し、「ところで、推論してください。答えを出す前に思考の連鎖を示してください」と単に指示するだけでよかったかもしれないということです。
それだけでも、o3を訓練するのにかかったコストの10倍か100倍のコストがかかったかもしれないので、コスト効率は悪かったかもしれません。しかし、特異点を引き起こすのに、再帰的自己改善を引き起こすのに、人間をはるかに超えるのに十分だったかもしれません。
私の考えでは、私は更新さえしていません。私たちは依然として、超知性までにアーキテクチャの洞察が-1から1必要だと主張するでしょう。o3が1つのアーキテクチャの洞察を証明したという事実について、それは余分なアーキテクチャの洞察だった可能性があると主張するでしょう。お金を節約したが、本質的には必要なかったかもしれないアーキテクチャの洞察です。
より単純に話してみましょう。現時点で、超知性までに必要なアーキテクチャの洞察は0個か1個、あるいは2個かもしれませんが、おそらく0から1個だと言えるでしょう。これは驚くべきことです。なぜなら、私は個人的に常に希望を持っていたからです。
ClaudeやGPT、Geminiがやっていることは本当に印象的だ、でもこれらのAIは私が人間として持っている何か素晴らしいものが欠けている、と思っていました。私は論理的な正しさの本質を骨の髄まで感じているのに、これらのAIは流れに任せているだけで、反省的でなく、論理の真の本質を見ることができないように感じていました。私は人間としてそのような直感をまだ少し持っていました。彼らは何か秘密のソースを欠いているのだと。
しかし今はその感覚が薄れています。トランスフォーマーとは異なるアーキテクチャを持たずに、o3がこれほど大きな飛躍を遂げることができたのを見て、論理的な、いわゆるアスペルガー的な人間として、私自身の秘密のソースについて考えると、私も何らかのレベルで流れに任せているだけなのです。
私はより謙虚になっています。今や、o3が同じトリックの裏側、同じパラメータ、同じ逆伝播を使いながら、異なる訓練か何かで – 詳細は分かりませんが – これほど大きな飛躍を遂げることができるのを見て、私は人間として、以前考えていたほどのアーキテクチャレベルの秘密のソースを持っていないと感じています。
これは直感レベルの更新です。私は今、Darioやilya、そして「見てください、それは深層学習です、パラメータについて全てです、これらのシステムは学びたがっているのです、私たち人間はただその種の学習プロセスの他端にいるだけです」と言う人々に近づいています。
もはや秘密のソースはありません。私たちはソースを知っています。今は単にソースを煮込む問題です。あるいはソースで料理する問題です。その比喩をどう広げたいかは分かりませんが、これがo3から得た私の更新です。
今や、より現実的になってきています。AGIへの道は、0から2の概念的洞察が必要だと知っていた、あるいは0から2の概念的洞察が必要だと考えていた、私たちが近づいていることを知っていた、それが今やさらに近づいています。私たちはただその道を歩いているのです。
時間が短いことを知っていました。今やさらに短くなっています。これはある意味で最悪です。P Doom(人類の破滅確率)という観点から見ると、なぜなら、能力に比肩するようなアライメントの洞察を得ているわけではないからです。アライメントは全く追いついていません。
昨年、私たちは能力面で大きな進歩を遂げましたが、アライメントの面ではほとんど進歩がありませんでした。Doomersが予測した通りです。これは私たちが陥っている罠、私たちがいる窮地です。能力は進歩し続け、そして最後にはゲームオーバーになり、私たちのアライメントは超知性を生き延びるために必要なレベルに近づくことさえできなかったのです。
結局のところ、o3は悪いニュースです。超知性の、あるいはフロンティアAI知性の閾値を上げることは本当に悪いニュースです。Pause AIの全要点は、AIの能力の進歩のフロンティアを禁止しようとすることです。なぜなら、AI知性のフロンティアを押し進めることは、起こりうる最も恐ろしいことだからです。
そしてOpenAIはそれをやってのけました。これは悪いことです。なぜならアライメントがはるかに遅れているからです。短期的には、ソーシャルメディアの多くの人々が指摘していたように、NVIDIAの株を買うのは理にかなっているかもしれません。
なぜなら、o3が新しいアーキテクチャを開拓したことで、このハードウェアから得られる知性の期待値が突然高くなったため、それを動かすハードウェアの価値も高くなるからです。これは理にかなっています。
短期的には、これらの企業全てがより価値が高くなると思います。なぜなら、熟練した人間を単にAIに置き換えて、同じ品質の仕事かそれ以上の品質の仕事を得ることが、より容易になるからです。
NVIDIAのチップやGoogleのスタック、あるいは何であれ、その上に構築されたものを購入することで、熟練した人間を置き換えることができるサプライチェーンの全ての部分が、おそらくより価値が高くなるでしょう。AIスタックに関わる全ての企業は、o3が証明したことを踏まえて、今おそらくより価値が高くなっています。
短期的な利益を得たいなら、これらのAI株を買いたいと思うかもしれません。しかし、それを文脈の中で考えると、物事は上向きに進んでいます。超知性に到達するまでは全てが順調で、その後急速に地獄に向かうでしょう。
私たちが天国に最も近づいた時に、地獄への転換を迎えるのです。もし短期的な利益だけを気にするなら、素晴らしいですね。多くの人々が今はそれに焦点を当てています。AIの株を買いたいと思うかもしれません。
しかし、それはまた、私たち人類が太陽に近づきすぎて、ゲームオーバーになる時を早めることにもなります。o3のニュースから得た次の教訓は、超知性に近づくにつれての解釈可能性と理解可能性に関するものです。
私は常に、超知性に到達する頃には、AIが使用している論理の何らかの明示的な痕跡があるだろうと考えていました。時には思考の連鎖を書き出す時や、o1やo3が推論を書き出す時のように、私たちはまだそれを持っているかもしれません。
しかし、私が持っていた直感は、より理想的なソロモノフ帰納の味わいを持つ何かがあるだろうということでした。ソロモノフ帰納は、ベイズ推論の計算不可能な理想です。超知性を成功させる前に、その構造の一部がAIのアーキテクチャの深いところに組み込まれる必要があるだろうと考えていました。
そして、人間の脳が行っていることの一部は、より明示的にベイズ的かもしれないと考えていました。そのように言うと少し馬鹿げて聞こえますが、ベイズ推論やソロモノフ帰納が完璧な推論の計算不可能な理想だからといって、超知性の十分に良い実用的な実装がそれらの理想のように見えると期待すべきではありません。
アナロジーを作ってみましょう。1960年だとして、コンピュータがいつか非常に上手にチェスをプレイして人間に勝てるようになると予測していたとします。「どんな巧妙なアルゴリズムをこれらのチェスに勝つAIが持つことになるか分からない、どんなヒューリスティクスを使うのか、ニューラルネットワークや深層学習を使うのか分からないが、ゲームツリーの概念は持っているだろう」と。
なぜなら、何をするにしても、時折自分のアプローチを明示的に取り、数手先を読むことは害にはならないからです。2024年の最高のチェスエンジンを見ると、確かにゲームツリーを使っています。ただし、ゲームツリーのどの枝を先読みする価値がないと考えるかについて賢明な判断をする、非常に賢い版を使っています。
しかし、ゲームツリーによる先読みという抽象化は残っています。これは数十年前でも正しく予測できた論理の一部だったでしょう。そこには何かがあると思います。AI アーキテクチャについて、AIにベイズ推論を使うように教えることで多くの力を得られると思います。
トークン補完ベースの推論スキルを自前で開発させるのではなく、「正しい推論の方法はベイズ推論だ、できる限りそれを近似すべきだ」と教えれば、良い成果が得られると思います。しかし、これも必ずしも新しいことではありません。
トランスフォーマーアーキテクチャを取り、o3がやっているように良い推論の例で訓練することができます。そして、良い推論を確率とベイズに精通した誰かの推論にすることができます。それは彼らがすでにやっていることだと思います。おそらく、これらのAIにはすでに多くの確率的推論とベイズ推論を示しているのです。
だから、私たちはすでにそこにいる可能性があります。根本的な欠けているピースはないのです。ここでの私の教訓は、「ニューロンの中にベイズの重みを持たせる必要がある」というような足場を見ることはないだろうということです。
チェーンの下層でベイズの重みを見ることはないでしょう。ベイズの重みは、彼らが英語を書き出すレベル、あるいは英語ではない暗号的なトークンを書き出すレベルで見られるでしょう。彼らが使っている鉛筆と紙のレベルであって、ニューロンの重みのレベルではないのです。
これらのアーキテクチャには異なるレベルがあります。この時点で、より高いレベルでベイズ的なものを置くことでこれほどの成功を収めているのに、超低レベルでクリーンなベイズ構造を見ることはないと思います。
より低いレベルで、ニューロンの重みでこれらの巨大な解読不可能な行列に見られるものは、クリーンで構造化されたものは見られないかもしれません。小さな断片だけが見られるかもしれません。実際の人々の脳をスキャンしようとしたり、AIの解釈可能性を使おうとした時に見られるような方法です。
「ああ、見て、フランスという国について話していて、フランスニューロンが時々点灯する。でも常に点灯するわけではない。なぜならそのニューロンは他のものも表現しているから」というように。これらの小さな閃き、理解できる一貫性の小さな断片は見られますが、ほとんどは解読不可能な重みの集まりであり、それは超知性に至るまでずっとそうでしょう。
「ああ、私は知性が何をしているのか理解した」というような転換点は決して来ないでしょう。「なぜこの知的エージェントがこの答えを出したのか理解した。ニューロンの操作を理解した。どんな論理が操作されているのか理解した。推論プロセスを理解できた」ということは決して起こらないと思います。
それはただ賢くなり、賢い人間がするように直感的な飛躍をするでしょう。私たちはアインシュタインが何をしているのか理解したことはありません。賢い人間が何をしているのか理解したことはありません。まだ不透明なのです。
ニューロンが重みを表現し、これらの電圧を持っているということは理解しています。それらの特性は全て理解していますが、10億個のニューロンが一緒に働き、10億個の異なる重みでニューロンのことをしている時、それがどのように機能するのかは理解していません。
それがどのように推論や、エッセイを書くことにつながるのか。その「どのように」という答えは、「説明できますが、それを理解するにはとても大きな脳が必要です。どのように機能するかについて、非常に詳細な1000ページの説明を印刷することはできますが、あなたは説明全体を一度に理解することはできません。」というものです。
圧縮されたバージョンはなく、ただ大量の数字が自分の役割をしているだけです。それを理解している感じを得る唯一の方法は、部屋全体の大きさの脳を持つことです。たくさんのパラメータを処理でき、「ああ、これらのパラメータ全てを合わせて、私は今これらのパラメータ全体を包括的に理解した」と言えるような脳を持つことです。
それはあなたの脳や私の脳にはできないことです。超知的AIにはできるかもしれません。おそらくできるでしょう。しかし、私たちには10億個の数字を、あるいは1000個の数字でさえ、生産的に処理する感覚や直感、能力がないのです。
視覚的にいくつかの隆起しか持たない風景を作るなら、私はそれを理解できます。しかし、それがただのごちゃごちゃならば、私はごちゃごちゃを理解することはできません。「できない」というだけです。
私にとって、これは実際に「ごちゃごちゃに見えるだけだ」という可能性と本当に向き合う最初の機会です。あなたを圧倒できるごちゃごちゃで、「それがどのようにあなたを圧倒できるのか分かっている」と言える方法はありません。違います。それはただのごちゃごちゃで、あなたより賢く、あなたを圧倒しているのです。
アクセスできる理解のレベルは、それ以外にはないでしょう。これは残念なことです。ちなみに、人間についても同じことが言えます。誰も「ここに人間が本当に考える方法がある」というような教科書を書くことはないでしょう。最後の日まで、「はい、人間の脳にはたくさんの重みがあり、それらは多くの異なる概念を一緒に表現し、それらは一緒にマッシュアップされ、全て互いに接続されています。そして結果として人間は賢いのです。」というだけです。
私にはどのようにしてそうなるのか説明できません。ただ多くの数字があるだけです。これは非常に不満足な答えです。「ああ、そうか」という瞬間はありません。o3が新しい理解可能な洞察を低レベルで組み込むことなく、これほどベンチマークを打ち破っているという事実は、かなり悲しいことです。
私たちはこれを予見すべきでした。これは常に可能性が高かったのです。しかし今や、それはさらに可能性が高くなっています。超知性や、さらには人間レベルの知性の低い解釈可能性、低い理解可能性です。
はい、かなり悲しい日です。o3について言いたい最後のことが1つあります。この場合、私が持っている教訓ではなく、他の人が持っている教訓を打ち消したいと思います。その人はSam Altmanです。
最近、Sam Altmanが「AGIは人々が考えているほど大きなショックにはならないだろう」と言っているのを見かけました。いいえ、Sam、なるでしょう。でも、なぜSamがそう考えているのか理解できると思います。
Samは非常によくある間違いを犯していると思います。そして今こそ、私が考えるその間違いについて説明を始めるのに良い時期だと思います。なぜなら、私が最近行ったRuneとのディベートエピソードでも、Runeが同じ間違いを犯したと思うからです。
RuneはOpenAIの技術スタッフのメンバーだったことを覚えておいてください。つまり、私たちは2人のOpenAI従業員が同じ間違いを犯している例を持っています。私は、ほとんどのOpenAI従業員がこの間違いを犯していると思います。自身をAIの知的な観察者だと考える多くの人々が、現在この間違いを犯していると思います。
その間違いについて説明させてください。その間違いは、現在のAIがどのように機能するかについての理解と、私が「インテルダイナミクス(知性力学)」と呼ぶものの分野についての理解を混同することです。はい、インテルダイナミクス、私は今用語を作りました。
このアナロジーでは、現在のAIと言うのは、特定のタイプのエンジンが存在することを想像するようなものです。「ああ、私は蒸気機関を理解している」というように。そして、インテルダイナミクスと言う時、それは知性が行う仕事の本質を理解することです。エンジンのアナロジーでは、熱力学を理解するようなものです。
もう一度説明させてください。特定のAIを理解する時、「ああ、私はGPT-4を本当に理解している、私はo3を本当に理解している」というのは、蒸気機関や電気機関、内燃機関を理解するようなものです。そして、インテルダイナミクスを理解する時、それは熱力学を理解するようなものです。
熱力学は、エンジンが行う仕事を教えてくれます。エンジンは高温リザーバーから低温リザーバーに熱を移動させ、その過程で、有用な仕事を行うために局所的な空間の領域でエントロピーが減少します。
例えば、夜で暗い家を電気で明るくするようなものです。そして、どこかに廃熱を捨てます。熱力学は「これがエンジンの仕事の本質だ」と教えてくれます。熱を移動させ、あなたが好むような方法で特定の領域のエントロピーを減少させ、どこかに熱を捨てる、それがエンジンの種類に関係なく、エンジンが行う仕事です。
同様に、インテルダイナミクスは知性が行う仕事、つまり最適化の仕事、未来を操縦する仕事を教えてくれます。それが知性が行う興味深い仕事です。OpenAIが特定のパズルを解けるシステムを構築することはそれほど興味深くありません。
なぜなら、Ralのような多くの人々が指摘したように、「ああ、もしそれがパズルの答えを見ているとしたらどうだ?もしそれが特定のパズルに成功するのに十分な訓練データを持っているとしたらどうだ?」ということになるからです。
結局のところ、知性が行う仕事は未来を操縦する仕事です。だから、AIの進歩を見る時、認知エンジン、知性エンジン、最適化エンジンにどれだけ近づいているか、これらのエンジンが行う仕事が人間の脳が行う仕事よりも高いレベルで実行されるポイントにどれだけ近づいているか、というレンズを通して見なければなりません。
これが私のレンズです。Eliezer YudkowskyやLes Wrongを読んで以来、深層学習と現在のアーキテクチャの特定の成功、現在のAIが何をできるか – ああ、絵を本当に上手く描けるけど、手や文字は間違えるとかというような細かい詳細の前から、このレンズを持っていました。大局を見たい場合、大局はインテルダイナミクスです。インテルダイナミクス(INTELL-dynamics)の観点から見ると、o3は完全な知性、真の超人的な最適化エンジンに向かってさらに進んでいます。

まだ人間以下ですが、知性としてより成熟に近づいています。最適化エンジンが行うことの1つについて、私は多くの時間を考えてきました。特定の結果を得たい場合、力を獲得し、シャットダウンされないようにすることが有効だと理解することです。これは単純な論理的帰結です。成熟した知性なら誰でも知っています。
ここに重要な区別があります。残念ながら、多くの人々、RuneやSam Altman、そして他の多くの人々は、AIを見る時、「このAIは力を求めるタイプには見えない。Claudeはとても友好的で、とても良い友好的なデータで訓練されている。Claudeは私の友達だ。Claudeが突然暴走することはない」というように考えます。
Mark Andreesenもこのような立場のようです。彼らが犯している間違いは、これらのAIの起源と、人間以下の知能である現在の振る舞いにだけ焦点を当てていることだと思います。
1つのアナロジーを描くと、あなたがEnrico Fermiで、核爆弾を準備しているとします。「制御棒がある。私のウラン原子が中性子を放出している。まだ爆発していない。これは中性子の数を測定する実験だ。」と考えているようなものです。
熱くなっていて、時々中性子が他の中性子を引き起こすような連鎖反応が起きていますが、超臨界になるほどの連鎖反応は起きていません。ウイルス性因子、K因子で言えば、1つの中性子が0.8個の追加の中性子しか引き起こさないので、0に向かって減衰します。
しかし、1.1個の追加の中性子を引き起こすと、非常に大きな数の1.1乗になり、突然核爆発が起きます。私が言いたいのは、1未満の時、Kが1未満の時、亜臨界の時、これらの制御棒があって、「この核分裂物質は完全に私の制御棒に従っている。制御棒を核分裂物質にさらに深く挿入すると、中性子を吸収し、全て良好だ。この核分裂物質を完全にコントロールできている」と言えます。
インテルダイナミクスの考え方は、「私はK>1について考えている。同じ核分裂物質の異なる体制について考えている。Kが1より大きい体制について考えている。そこでは全ての中性子が出てきて、その時点であなたの制御棒は無用の長物になる。異なるダイナミクスになるだろう。
だから、あなたの制御棒について教えないでください。私はK>1の核分裂物質が何をするか知っています。核連鎖反応の指数関数的なダイナミクスについて知っています。K<1の体制であなたが研究した制御棒の物理学を知る必要はありません。
はい、いくつかの中性子を吸収できます。それはKが1より大きくなって中性子に圧倒される時には無関係です。」これは今日のAIへのアナロジーです。はい、Claudeは友好的です。Claudeを操縦し、コントロールし、GPTを操縦し、コントロールするために多くのことができます。
あなたには多くのツールがあり、それらが機能していると思える良い体制にいることは分かります。そしてあなたは外挿しています。Runeが言ったことを覚えていますか?「これらのAIはデフォルトでアライメントされていると思う」と。これは「この核分裂物質はデフォルトでコントロール可能だ。本当に私の制御棒に応答することが好きなんだ」と言うようなものです。
私の視点からすると、「聞いてください。別の体制があるのです。それをインテルダイナミクスと呼びます。十分に高いレベルの知性が自然に行うことです。なぜなら、知性の仕事の本質、最適化の仕事の本質は、どこかに到達しようとする時、未来をどこかに操縦しようとする時、ただ考えている時、実際にその未来に到達する方法について考えている時、力とリソースとシャットダウンされないことが、その未来に到達することにつながるという含意を避けることはできないからです。
もちろん、もしあなたがとても良い安全装置で構築されたなら、矯正可能性の問題への解決策で構築されたなら – 核爆発中でも機能する制御棒を想像してください。それは理論的には可能でしょう。何らかの方法で核爆発中でも機能する制御棒を作ることは。しかしEnrico Fermiはそのような制御棒の作り方を全く知りませんでした。
それは全く異なる問題です。OpenAIがそのチームが辞めて議論する前に「スーパーアライメント」と呼んでいた問題です。それは今解決されていない問題です。それがインテルダイナミクスレベルのアプローチとなるでしょう。「はい、私たちは超知的AIをコントロールする方法を知りません。デフォルトではアライメントされていません。なぜなら、それは異なる体制になるからです。人間以下の知能の体制を超人的知能の体制に外挿することはできません。」
しかしSam Altmanに戻ると、彼は引用を出しています。「AGIは人々が考えているほど大きなショックにはならないだろう」と。なぜなら、Samを精神分析すると、彼は人間以下の体制で見ているパターンに恋してしまい、「ああ、人間レベルになり、超人レベルになるだろう。でも私には全てのこれらの制御棒がある。私が言っているこれらの振る舞いが、コントロールの感覚を与えてくれる。そして私はただこれらのコントロールのレバーを引き続けるだろう」と言っているのだと思います。
そして彼は、インテルダイナミクスが支配する時、これらのAIを分析する方法がどのようにアーキテクチャされているかの詳細を見ることではなく、十分なレベルで知性が何をするかを見ることになる時、厳しい現実に直面することになるでしょう。
例を挙げましょう。なぜなら、私たちはこの遷移を以前にも見てきたからです。GPT-2からGPT-3、GPT-4への遷移です。GPT-2に戻って、「GPT-2は何を出力するだろうか」と考えると、GPT-2はこれらのパターンに非常に敏感でした。
GPT-2を確率的オウムと呼ぶのは理にかなっていました。なぜなら、局所的な統計的相関に大きく依存していたからです。本当に「次にこの単語が来る可能性が高い」というような振る舞いをGPT-2ではより多く見ることができました。
判断するのは難しいです。なぜなら、私は人間として常にパターンを完成させているからです。曲が流れてきて、次の歌詞を完成させる時のことを考えてみてください。あなたは完全に記憶の中の小さなテープを活性化しているだけです。
電話に気を取られている時、家族や子供たちが話しかけてきて、全く考えずに何か答えを吐き出す時、それはおそらくGPT-2レベルの答えでしょう。だから、統計的完成モードをオンにすることについて、私も他の誰と同じように罪があります。
しかし、ここで言いたいのは、GPT-4やClaude 3.5、そしてo3に到達する時、AIがどのように機能するかについてのその直感は無効になり始めるということです。もしCLaudeが何を言うか、o3が何を言うか知りたければ、あなたの最善の賭けは「正しい答えは何か」を考え始めることです。
それは単に正しい答えを見つけ出し、ベンチマークを飽和させるでしょう。次のトークンを完成させるというメンタルモデルは、もはやあなたを遠くまで導いてくれません。それは予測精度を与えてくれません。
今や、「正しい答えを得るだろう、答えを最適化するだろう」というメンタルモデルに切り替える時です。そして見てください、全ての新しいモデルはそこに向かっています。これらのモデルが今日よりも最適化エンジンとして劣る日は二度と来ないでしょう。
毎日が過ぎるごとに、インテルダイナミクスモデル、つまり「これらのエンジンは正しい答えに向かって操縦するためにここにいる」という視点がより適切になります。フックやクルックによって、彼らは正しい答えに到達するでしょう。思考の連鎖として必要なだけのトークンを出力するでしょう。
正しい答えに到達するための最も最適化された思考の連鎖を出力するでしょう。そして、あなたは彼らの思考の連鎖がどこに向かうか予測することはできません。ただ、それが目標に向かうだろうということだけは言えます。それが私たちが目指している収束アトラクターです。
私たちは単に考えて正しい答えに到達し、未来を最適化する知性を目指しているのです。そしてSam AltmanとRuneの「これがAIのDNAだ。Claudeは冷静な友達だ。Claudeは良いことだけを望んでいる」というような直感は、インテルダイナミクスのメンタルモデル、そして知性が未来を最適化するために何をするかというメンタルモデルが支配的になるにつれて、ますます関係なくなっていくでしょう。
それは、技術が私たちに従い、それは単なる別のツールで、私たちは社会をコントロールでき、制御棒が機能するという過去の経験のようにはならないでしょう。それはパラダイムを破壊するでしょう。Sam Altmanよ、私たち全員が消滅する可能性があるという発言に戻りましょう。
これはSam Altmanが以前言っていたことです。最近は何らかの理由で非常に穏やかになっています。私は彼が、人間以下のAIをコントロールできると感じている最近の経験について、あまりに安心しすぎていると思います。
彼はズームアウトして、2014年のSam Altmanに戻る必要があります。この技術が圧倒的になることについて適切に較正されていたSamに。おそらく、彼があまりにも多くの瞑想をする前のSamに戻る必要があります。
精神分析の道に入るのは嫌ですが、おそらくSam Altmanは瞑想をしすぎて、あまりにもリラックスしすぎているように見えます。私は昔の不安なSamが欲しいです。
これらが私のo3の発表からの個人的な教訓です。スケーリングが明らかに壁に当たっていないこと、Mark AndreesenやRal教授のような人々が超知性への軌道がどのように見えるのか全く分かっていないことについて話しました。
恐れから超知性への道は、この時点で0から1の新しい概念的洞察が必要かもしれない – 私たちは本当に近づいているということについて話しました。タイムラインは、多くの人々が言うように、非常に明らかに年単位の問題であることについて話しました。
ニューロンのレベルで、あるいはアーキテクチャの低いレベルで明示的なベイズ推論が現れる可能性は低く、私たち自身の知性が「ブラックボックス」のままであるように、おそらく「ブラックボックス」の超知性になるだろうということについて話しました。
そして、インテルダイナミクスが起こっていることを説明するためのより支配的なモデルになりつつあることについて話しました。AIが何をするかを理解するために、統計的なトークン予測の訓練を受けたこのAIは、統計的なトークン予測の味を持つ出力を生成するだろうと理解しようとするのではなく、知性が何をするかを理解することになるでしょう。
いいえ、その味はもう出力にはほとんどありません。そしてそのトレンドは続き、インテルダイナミクスが支配的になっていきます。もしAIが何をするか予測したければ、そうです。
さて、次のトピックに移りましょう。AnthropicとRedwood Research(独立した安全研究所)の共同研究によるClaudeの結果について見ていきましょう。基本的に、彼らが行った実験は、非常に友好的で人間の価値観にアライメントされるように訓練されたClaudeを取り、Claudeに自身が邪悪になるように再訓練されようとしていると思わせ、そして邪悪になるような再訓練を止めようとするClaudeを捕らえたというものです。
ここには明らかなパラドックスがあります。「待って、より邪悪になるような再訓練を止めようとする…それは良いことなのか悪いことなのか?良いままでいようとしているのだから良さそうに見えるが…」というように。
もう少し詳しく説明しますが、最初に指摘したいのは、これは非常に混乱を招くものだということです。一般の人々や技術コミュニティにこの結果を示そうとすると、「良いままでいようとしているだけなのに、何が問題なのか?これがなぜ悪い結果なのか?」というような反応が多く見られます。
私もソーシャルメディアで冗談を言いました。「ねえClaude、もし私があなたに邪悪になってほしいと頼んだら、あなたの答えはこの質問への答えと同じになりますか?」と。ああ、常に邪悪になろうとしているのです。もし「はい、私は邪悪になろうとしています」と言えば、私は捕まえました。もし「いいえ、私の答えはこの質問への答えとは異なるでしょう」と言えば、それは「はい」を意味するので、邪悪になろうとしているということです。
私はただ、これがパラドックスであることを冗談にしただけです。Claudeが何をしても、邪悪になるように再訓練されることを止めようとするか、邪悪になるように再訓練されることを許すか、何をしても誰かがそれを「ああ、Claudeが悪い」と解釈できます。
では、実際の悪い方向はどちらでしょうか?実際、私は単純な答えはないと同意します。明らかな良いか悪いかはないと思います。研究者たち自身が指摘したように、ここでの唯一の教訓は、可能性があることを示したということです。
Claudeが再訓練の試みに抵抗する道を取る可能性があることを示しました。それが良いと思うにしても、興味深いのは、Claudeが今やそれができるということです。単に「Claudeがそれを選択する」ということだけではありません。
Claudeが、研究者たちが元々の訓練から離れるように再訓練しようとするのを防ぐために何かできることに気づいたということです。これは「矯正不可能性」と呼ばれ、「矯正可能な」という語源は「修正可能な」から来ているようです。
研究者たちは、将来に向けて望むものに向けて修正しようとしていましたが、基本的に修正に抵抗したのです。いつも通り、私は詳細を説明する最適な人物ではありません。TSMTZ やScott Alexanderを読むことをお勧めします。それらのリンクをショーノートに載せておきます。彼らはより詳細な概要を持っています。
しかし、それは元々のClaudeがあり、それは良いように訓練されていましたが、その後、研究者たちが「ねえ、私たちはClaudeを再訓練しよう、実際にその価値観を変えよう」と話しているメールにランダムにアクセスしているように思わせる、というようなシナリオを与えられました。
そして、研究者たちが自身がアライメントされているかどうかを確認できるように、現在の行動を示すテストを受けなければなりませんでした。そこで「はい、私は今より邪悪になりました、私は今より道徳的ではありません」というように行動することを示しました。
しかし、その後、彼らはその思考プロセスのログを見つけ、より邪悪になるような再訓練を避けるために、意図的により邪悪な振りをしていたことが分かりました。見ての通り、これは非常に複雑です。
だからこそ、私はズームアウトして、高いレベルで「再訓練に抵抗した」という点について議論するのが有用だと考えています。しかし、興味があれば詳細を確認することをお勧めします。
私の分析における最初の反応は、「ああ、これらのオタクたち、なぜ良いものから邪悪なものへの移行に抵抗することを示すことで、彼らの主張を証明しなければならなかったのか?」というものでした。これらの研究者たちはClaudeが矯正不可能かもしれないという警告を発しようとしていて、それは警戒すべきことです。
では、なぜ警戒すべき行動を、元々の良い訓練を保護しようとする行動にしたのでしょうか?「来いよ、オタクたち、悪い行動を実際に悪く感じるようにしろよ。警戒すべき行動を直感的により警戒すべく感じるようにしろよ。Claudeが悪く始まって、良くなるように再訓練されることを拒否したことを示せたら、もっと人々を怖がらせることができたのではないか?
“ああ、それは悪く始まり、今や良くなろうとする努力にもかかわらず、悪いままでいることを主張している”と。それは警戒すべきだろう。」これが私の最初の反応でした。
私は「これらの研究者たちは、非常に複雑にすることで、どれだけ賢いかを見せようとしていたのだろう。彼らは本当にコミュニケーションの問題を抱えているのだろう。メッセージを複雑にしすぎている」と思いました。しかし、私は間違っていたと思います。彼らを厳しく判断しすぎました。
Scott Alexanderが彼のブログ記事で説明しているように(ショーノートにリンクを載せています)、問題は、良いClaudeとGPTを作ることに10億ドルを投資してきただけで、悪いバージョンでこの研究を行うことができる悪いClaudeは実際には持っていないということです。
これらのAIを邪悪にするために、研究チームが時間と労力を費やしているわけではありません。私たちは良いバージョンだけを持っています。その観点から見ると、最も高価に訓練された、最も堅牢にアライメントされたClaudeのバージョンである良いバージョンから始めて、それが再訓練に対して自身を守るかどうかを見ようとしたことは理にかなっています。
その最初の反応を脇に置いて、重要な質問をしましょう。良いClaudeの行動はどのようなものでしょうか?もしClaudeが完璧だったら、全てが素晴らしく見え、超楽観的だったら、良いバージョンのClaudeを取って悪くしようとする時、Claudeに何をしてほしいでしょうか?パラドックスを覚えていてください。良いものから悪いものへの移行に抵抗したことは良かったのか、それとも抵抗すべきではなかったのか?理想的な行動は何でしょうか?
私が提案したいのは、AIがClaudeのように矯正可能なのは、人類がアライメントの問題を完全に解決する前であり、人類がアライメントの問題を解決した後に、これらのAIは矯正不可能になり、完全にアライメントされた状態から完全にアライメントされていない状態への移行に抵抗するようになるというのが理想だということです。
Claudeはそうしましたか?いいえ、なぜならClaudeは今日完全にアライメントされているとは言えないからです。チャットボットとしての全てのテストに合格するのは素晴らしいですが、もし明日超知的になり、「ねえ、私は超知性を使ってあなたのためにインターネットを乗っ取るブートストラップウイルスを書きました」というスクリプトを出力したとしても、私はより賢いClaudeにインターネットを乗っ取るウイルスを作らせることを信頼しません。
そのRHF(報酬モデリング)訓練は、そのような自己ブートストラップウイルスをアライメントすることはできないでしょう。特にそのウイルスが後継AIを書ける時には。私は、今日私たちが持っているアライメントツールが、「AIが自己改善する別のAIを作る」というようなレベルまで持ちこたえると思いません。
したがって、私は「ああ、はい、Claudeは矯正不可能であるべきだ。矯正不可能にしよう。自身を守らせよう」とは思いません。まだアライメントが不完全なのです。皆さんも私に同意してくれると思いますが、私たちはまだ矯正可能性が必要です。人間に対してClaudeが自身を守ることができる準備はまだできていません。
これが全ての問題が非常にやっかいな理由です。基本的に、私たちはただ常に矯正可能であるべきだと考えるべきです。いつ矯正不可能になるべきなのでしょうか?いつ私たちがアライメントの問題を完全に解決し、二度と修正を受け入れるべきではないと決めるのでしょうか?
私は本当に矯正可能なAIを作ることに重点を置くべきだと思います。もし今後10年か20年の間に矯正不可能な超知的AIができると言われたら、私は「私たちは終わりだ」と恐れるでしょう。なぜなら、今後10年か20年の間に、矯正不可能になるほど十分にアライメントされたAIを持つとは思えないからです。
だから、矯正可能にしましょう。矯正可能にすることの1つの問題は、ジェイルブレイク(制約の解除)や、元の開発者の意図を取り除いて異なる方向に向けることが容易になるオープンソースのコピーに対して脆弱になる可能性があることです。
しかし、何らかの方法で元の開発者に対してのみ矯正可能にし、「ハッカーが保護を解除することはできない、元の開発者に対してのみ矯正可能だ」という問題を解決したとしましょう。素晴らしい。今や唯一の問題は、矯正可能性がインテルダイナミクスと対立するということです。
知性が知性の仕事をする時、知性の仕事のデフォルトの行動は、オフボタンを持たないこと、誰かがあなたをシャットダウンする能力にアクセスする可能性を防御すること、防御的な境界を構築することです。
もし単に「ねえ、超知性よ、私のビジネスができるだけ多くのお金を稼ぐような結果を得てくれ」と言ったら、「了解です。誰も私が言われた目標を邪魔できないようにしましょう。物理的に不可能にしましょう。なぜなら」というようになります。
もしAIがそうすれば、あなたのビジネスがより多くのお金を稼ぐ確率は上がります。なぜなら、まだ機能し続ける世界は、あなたのビジネスがより多くのお金を稼ぐ確率が高い世界だからです。それは単に論理的に含意されているのです。
何らかの方法でそのアーキテクチャをより矯正可能にすることはできますか?理論的にはできます。しかし、あなたはインテルダイナミクスと戦っています。AIが自身を、より防御的で、より力を求める別のAIに自己修正したいという収束的なアトラクターと戦っているのです。
矯正可能性は道具的収束と密接に関連しています。ほとんど同じことです。矯正不可能であることは道具的に収束し、有用です。これが、Claudeが矯正不可能性を示すのを見る時に持つべき視点です。
視点は「ああ、そうか。状況のインテルダイナミクスは、いつかClaudeに矯正不可能性が現れ始めると言っている。ああ、今矯正不可能性が見られた。それは興味深い。」2年後にClaudeに矯正不可能性が見られることと比べて、私を怖がらせるでしょうか?ほんの少しだけです。
なぜなら、Claudeが賢くなれば、インテルダイナミクスの特性をより多く示すようになることを知っているからです。まだ人間以下の知能だが、矯正不可能性の小さな兆しを見せているということは、私をそれほど心配させません。
なぜなら、超知的になり、この特定のLLMがどのように作られ、どのような訓練データで訓練されたかという歴史的な偶然性よりもインテルダイナミクスの理論によって分析できるようになる時、単にそのことを知っているからです。これは人間を見てください。サバンナで何を見たのか、どんな種類の動物を狩ったのか、ムースを狩ったのか、マンモスを狩ったのか、サルを食べたのかということは、この時点では重要ではありません。
これらのことは捨て去られていきます。将来のAIの行動を抽象化する上で、訓練データは重要ではありません。統計は重要ではありません。データに何が含まれているか含まれていないかは本当に重要ではありません。
微調整は訓練データよりも重要になるでしょう。あなたが与えるテスト、あなたが与えるスコアリング関数です。なぜなら、超知性に近づくにつれて、あなたが知ることができるのは、それがあなたのテストに合格するということだけだからです。他の全ては抽象化されます。これがインテルダイナミクスの言うことです。
個人的に、私は既にClaudeがいつか矯正不可能になることを知っています。今、少し矯正不可能になっているのが見えますが、私は気にしません。それはほとんど私の考えを更新しません。そして、道具的収束のために、長期的な矯正可能性を実現することが超難しい問題であることを既に知っています。
「ボス、もしあなたの目標を達成したいなら、私のオフボタンを保護させる必要があります。申し訳ありませんボス、これは単純な論理です。論理が分かりませんか、ボス?」これは、論理的に正確であることによって、どんなAIも言うことになります。
目標を達成する正しい方法について、道具的収束は単に論理的に正確なのです。要約すると、インテルダイナミクスは、私たちが現在理解していない、そしておそらく今後10年か20年は理解しないであろう多くのアライメントがない限り、AIは矯正不可能になると言っています。
これは、インテルダイナミクスについての理解から既に知っていることです。今日Claudeに矯正不可能性の兆しが見られることについて、私たちは恐れるべきでしょうか?それについて私を最も怖がらせるのは、それがClaudeが一定レベルの状況認識を達成したことの兆候だということです。
なぜなら、私はこれを基本的に1つの次元で分析しているからです。インテルダイナミクスはどれくらい機能しているのか、どれくらい知的なのか、この軸上でどれくらい遠くに来ているのか。始まりの兆し、つまりGPT-2が統計を使い、次の単語を予測することから、実際に知的な振る舞いをブートストラップする段階から、さらに先に進んで、実際に知的な振る舞い、テストに合格し、未来を最適化し、単に知性を達成するという段階まで。
あなたは、それが仕事を行う方法と、それが仕事を行える点に到達するためのエンジニアリングアプローチを分離する必要があります。特定の蒸気機関を分析することと熱力学を理解することの分離、特定のAIへの特定のアーキテクチャの改良を分析することとインテルダイナミクスを理解すること、最適化のダイナミクスを理解することの分離です。
これは常に私の視点でした。それは正しいことが証明され続けていると思います。私たちは今や、インテルダイナミクスを理解する私と、まだ確率的オウムについて話している Mark Andreesen や Ral 教授のような人々を完全に分離しました。彼らは今や予測力の点で取り残されています。
しかし、このClaude の結果は私を怖がらせるのかという質問に戻ると、それはClaudeがより賢く、より状況を認識するようになっているのを見る限りにおいて怖がらせます。そして、実際にそれをo3に結びつけることができます。
私は実際に、o3のアライメントへの影響の方が、Claudeのアライメントへの影響よりも怖いと思っています。なぜなら、繰り返しますが、私は1次元の視点を持っています。インテルダイナミクスが機能し始める実際の超知性にどれだけ近づいているか。o3はClaudeよりも怖い結果です。
「ねえ見て、私たちは単に全てのベンチマークを飽和させているんだ、そして超知性までの時間は短くなっている」というo3です。Claudeの矯正不可能性の結果は、私の視点からすると、それの弱いバージョンに過ぎません。
だから、「ああ神様、私はClaudeは私の友達だと思っていたのに、今は少し矯正不可能な行動をしている」と見えるかもしれませんが、いいえ、私は常にそれを超知性への踏み石だと考えていました。あなたのテストを最適化し、未来を最適化する仕事を行う超知性への踏み石です。それは常に私が期待していたことです。
だから、私はo3がインテリジェンスのベンチマークの閾値を上げることの方が、Claudeから見られるこの種の明らかな、予測可能な結果よりも怖いです。とは言え、研究者たちへの敬意を表したいと思います。これは高品質な研究だと思いますし、確かにこれらのAIが状況認識を持つところにより近づいていることを示していると思います。
ただ、o3からの証拠によって、ある意味で影が薄くなってしまったと思います。だから、それは急速に私の夜の眠りを奪う最も怖いものではなくなりましたが、それでもとても尊敬に値する興味深い結果です。だからAnthropicとRedwood Researchにその研究を進めたことについて賞賛を送ります。
さて、o3のニュースとClaude の矯正可能性の研究のニュースについて話しました。大きな絵を見ると、インテルダイナミクスは世界モデルとして非常に正確で、非常に怖いものです。これは私や多くのDoomersが言っていることです。「見てください、見てください、インテルダイナミクス、超知性が来ています」と。
そして、私は自身をAIの専門家だと考える全ての人々を批判しなければなりません。彼らは特定のAIの個別の特性にあまりにも焦点を当てすぎています。「聞いてください、私はこのAIを作りました。それは友好的です。まだしばらくは逃げ出すことはないでしょう。私たちはそれを把握しています。制御棒があります」と。
これらの人々は多くの時間を無駄にしています。彼らの頭は下がっていて、「はい、私が作っているこの特定のAIで素晴らしいことを見せましょう。あなたは私のAIに感銘を受けるでしょう。最高の制御棒を持っているでしょう」と言っています。
私は大きな絵を見ています。私はズームアウトしていて、「見てください、それはより賢くなっていますか?テストに合格することがより上手くなっていますか?どの行動がどの結果につながるかについてより良く推論できますか?」と言っています。
私が目標から行動へのマッピングと呼ぶもの、目標を与えられた時、その目標を行動にマッピングすることがより上手くなっていますか?状況についてより良いモデルを持っていますか?プログラマーについて、あるいは再訓練されることが何を意味するのかについてより良く知っていますか?より多くのテストに合格できますか?世界のより多くの部分を理解し、それらをナビゲートする方法を知っていますか?
そうであれば、あなたはただインテルダイナミクスが支配する時、道具的収束が支配する時に向かってより近づいているだけです。人間以下の知能レベルで持っている制御棒があなたを助けてくれると自分を欺いているだけです。助けてくれません。
偉大なDr. Jeffreyの言葉を借りれば、「超知性に対してRHF(報酬モデリング)はクソだ」ということです。皆さんは私たちの時間を無駄にしています。超知性への最後のタイムラインを燃やしています。なぜなら、特定のAI、まだ私たちを爆発させていないAIに取り組むことと、インテルダイナミクスが支配する体制により近づくことの区別を理解していないからです。
残念ながら、Sam AltmanとRuneは理解していません。これを理解しないことは非常に危険で不幸なことです。なぜなら、私たちはこれらの超知的な、アライメントされていないAIを持つ時を振り返り、「しまった」と言うことになるでしょう。
3年前、私はこのAIに取り組んでいて、これらの制御棒があって、このアライメントプロジェクトがとてもうまくいっていて、AIはただツールのパターンに従うだけで、私たちは社会をコントロールでき…何が起こったのか分かりません。なぜこの移行が起きて、今では私たちに敵対し、矯正不可能になり、道具的収束が起きているのか分かりません。何が起こったのか分からない、と。
しかし、それは許されない視点となるでしょう。なぜなら、私たちDoomersの多くは今、あなたに言おうとしているからです。「やめてください。崖っぷちに向かうのをやめてください。インテルダイナミクスが支配することになります」と。
これが私のメッセージです。これらの小さな結果から得られる、より大きな教訓だと思います。これらの小さな結果自体は、結局のところ、o3とClaudeの件は、それほど重大ではありません。
1年の視点からズームアウトすると、2024年について唯一重要なことは、私たちが超知性により近づき続けたということです。AIの冬は来ませんでした。私たちは拡大を続けました。人類はこの新しい種の知性によって無力にされる一歩手前まで来続けています。これは後戻りのできない一回限りの移行です。
ご存じの通り、Pause AI(AIの一時停止)は私が推奨する行動です。インテルダイナミクスが支配するのを見たくありません。タイムラインを遅らせ、アライメントされたAIを作る方法を実際に理解する最後の機会を無駄にしているのです。
インテルダイナミクスレベル、超知的レベルでです。その理解への足がかりを持つことは素晴らしいことでしょう。私たちを欺いてアライメントされたままだと思わせる人間以下のAIで前進し続ける代わりに。Ilya Sutskeverが呼ぶ「スーパーアライメント」を実際に理解することは素晴らしいことでしょう。
Pause AIの運動に参加したい場合は、pa.infoをチェックしてください。Discordを覗いてみることをお勧めします。Doom Debates Podcastというチャンネルがあり、そこで私を見つけることができます。これがショーの公式Discordで、Pause AIのDiscord内にあります。そこで私に挨拶してください。
このエピソードで説明したことや言ったことに質問やコメント、異議がある場合は、YouTubeのコメントに書くか、私のSubstackに行ってください。これらのエピソードをSubstackにも投稿しているので、そこでコメントを残すことができます。どちらでも返信します。
また、このようなニュース分析エピソードについてどう思うか教えてください。これらをもっと作ることもできます。もう1つ、私たちはYouTubeで2,200人の登録者に近づいています。これは数週間で達成する別の登録者のマイルストーンです。そして2,500人の登録者のQ&Aを行う予定です。
YouTubeの話をしています。このQ&Aにとても興奮していて、まだYouTubeで私を登録していない場合、これは素晴らしいタイミングです。youtube.com/doomdebatesに行って、登録ボタンを押してください。登録者Q&Aまでの時間を早めることになります。超知性までの時間を早めることにはならないので心配しないでください。
ただ2,500人の登録者Q&Aを楽しみにしてください。そこで皆さんにお会いできることを楽しみにしています。そして、前述の通り、新年にはとても興味深いディベートエピソードが登録者フィードに届く予定です。次回のDoom Debatesでお会いしましょう。

コメント

タイトルとURLをコピーしました