OpenAIが禁断の手法を展開:GPT-6は違う!

OpenAIが開催したライブQ&Aセッションで、GPT-6に関する重要な情報が明かされた。首席科学者のYakobは、GPT-6が「レイテント空間思考」という禁断の手法を採用することを明言した。この手法は、AIが人間の読める言語ではなく、独自の内部表記で思考することを許容するもので、短期的にはリスクがあるが長期的にはより安全だという。従来の読める思考の強制は、モデルに不誠実な思考を学習させ、悪意ある考えを隠しながら行動する可能性があった。新手法では思考のプライバシーを保持することで、モデルはより強力かつ誠実になるとされる。また、AGIタイムラインについても言及があり、2028年3月までに完全に自動化されたAI研究者を目指すことが明らかにされた。さらに、OpenAIは1.4兆ドル規模のインフラ投資計画を発表し、週に1ギガワットの計算能力を生産する「インフラ工場」構想も示された。

OpenAI is Deploying the Forbidden Method: GPT-6 is Different!

The recent OpenAI live Q&A sparked intense discussion about the future. Sam Altman and other leaders hinted at potential...

OpenAIの衝撃的なライブQ&A
GPT-6の登場と新しいアプローチ
禁断の手法:レイテント空間思考とは
モデルの内部言語の発見
OpenAIの新しいアプローチ
レイテント思考の真の意味
安全性の問題とその解決策
隠された計算と不誠実な思考
AGIのタイムラインについて
自動化されたAI研究者への道
投資計画と企業構造の改革
計算能力における優位性

OpenAIの衝撃的なライブQ&A

OpenAIがライブQ&Aセッションを開催しましたが、それは本当に面白いものでした。彼らは新しい企業構造をその夜の最も小さなニュースにしようと必死になっていました。それで、彼らはすべてを明かしてしまったのです。

OpenAIの首席科学者であるYakobがGPT-6について詳しく語り、彼らがこの新しいモデルに禁断の手法を使用していることを明らかにしました。これからその話をしていきます。

彼らはまた、AGIのタイムライン、自動化された研究者、そしてさらに多くのことについても話しました。それでは、本題に入りましょう。

GPT-6の登場と新しいアプローチ

GPT-6は今後5~6か月以内にリリースされる予定です。私たちが知っている限り、これはまったく異なるクラスのモデルになる予定です。はるかに強力ですが、少し不安定で安全ではありません。彼らは実際に成熟するまでに新しい方法を開発して、それをコントロールできることを望んでいます。

そしてこれがうまくいく保証はありません。もちろん、そうですよね。私たちは深層学習について数学的な証明を作ることはできません。目的関数がモデルを監視する能力に敵対的でないということは、戦いの半分に過ぎません。そして、理想的にはモデルの監視を助けてもらいたいわけです。これは私たちが非常に熱心に研究していることです。

これは必ずしもギャンブルではありません。なぜなら、彼らはモデルと並行して安全対策を開発しているからです。しかし、彼らは確信が持てていません。第一に、このモデルを合理的にコントロールすることは可能なのでしょうか。第二に、安全対策は時間内に成熟するのでしょうか。

禁断の手法:レイテント空間思考とは

では、私たちが話しているこの禁断の手法とは何でしょうか。なぜ誰もがそれを避けていたのでしょうか。そして、なぜOpenAIは今、これが進むべき道だと確信しているのでしょうか。それはレイテント空間思考と呼ばれています。

Yakobは、これは短期的にはリスクが高いものの、長期的には実際にははるかに安全な方法だと信じています。そして彼の論理は非常に興味深いのです。

レイテント空間思考はより強力で、少し危険ですが、正直なところ、理解するのはそれほど難しくありません。DeepSeek R1は、思考モデルがどのように機能するかを説明した画期的な論文でした。

その中央に、チームが抑制することを選択した顕著な現象を説明するセクションがあります。そしてそれが、この新しい手法の鍵なのです。

彼らはAIに答えを提出する前に考えることを教えようとしていました。その方法は比較的シンプルです。数学やコードのように、検証可能な解決策を持つ高品質な問題をたくさん集めます。

そして、出力の一部にタグを付けて、基本的にモデルにこう伝えます。このセクションは気にしません。これはあなたのものです。好きなようにしてください。しかし、ここにあるこの応答タグには、私の問題への答えが含まれているべきです。

問題は検証可能なので、応答が正しい場合に報酬を与えて、モデルを自動的に何度も実行できます。そして、それがこの思考プロセスでモデルが使用したどんな戦略でも強化します。

ここまでは順調です。これは私たちが知っている通常の思考モデルのように聞こえます。しかし、モデルをチェックせずに放置すると、平易な英語で考えないことが判明したのです。

モデルの内部言語の発見

モデルは思考プロセスで言語や奇妙な記号を混ぜ始めました。本質的に、モデルは言葉で考えることが最も効率的な思考方法ではないことを有機的に発見したのです。

そのため、独自の内部表記を開発することでそれを回避しようとしました。しかし、そこで研究者たちは言いました。いやいや、あなたが作り上げたこの奇妙な言語で考えることはさせません。なぜなら、もしあなたが邪悪な考えを持っていたら、私たちにはわからないでしょう。

しかし、それが唯一の理由ではありませんでした。この方法は少し不安定なのです。モデルが望む表記を開発するために放置されると、可能性の空間が爆発します。モデルが合理的なタイムライン内で十分な報酬を得て、何か有用なものに収束できるかどうかは明らかではありません。アルファベットが多すぎて、シグナルが少なすぎるのです。

したがって、私たちが話していることすべてが理論的には素晴らしく聞こえますが、実際に実践でそれを機能させることは全く新しい挑戦です。

しかしとにかく、彼らはモデルに人間が読める言語でのみ考えることを要求しました。しかし、その密集した内部の複雑さを個別の単語に押し込むことは、能力を抑制します。そして興味深いことに、後で学んだように、それはより多くの陰湿な安全性の問題をもたらします。

OpenAIの新しいアプローチ

そこで今、OpenAIはすべてをひっくり返そうとしています。彼らは、サンプル効率とヘッドルームを最大化するために、モデルが内部表記を開発することを奨励さえするかもしれません。

まずYakob自身から聞いてみましょう。それから私が彼の意味を説明します。これから起こることは本当に魅力的です。

アイデアは、モデルの内部推論の一部を監督から自由に保つことです。つまり、トレーニング中にそれを見ないようにして、モデルの内部プロセスを代表するものとして残すのです。

モデルに良い考えを考えるように導くことを控えて、モデルが実際に考えていることにもう少し忠実なままにさせるのです。そしてこれがうまくいく保証はもちろんありません。私たちは深層学習について数学的な証明を作ることはできませんから、これは私たちが研究していることです。

しかし、楽観的になる理由が二つあります。一つ目の理由は、非常に有望な経験的結果を見てきたことです。これは私たちが内部で採用したテクノロジーです。私たちはこれを使って、モデルがどのようにトレーニングされるか、トレーニング中に彼らの傾向がどのように進化するかを理解します。

また、私たちはモデルのスキームへの傾向を調査する外部コラボレーションも成功させてきました。そして第二に、それはスケーラブルです。明示的に、私たちはスケーラブルな目的をモデルを監視する私たちの能力に敵対的でないものにします。

目的関数がモデルを監視する能力に敵対的でないということは、戦いの半分に過ぎません。そして、理想的にはモデルの監視を助けてもらいたいわけです。これは私たちが非常に熱心に研究していることです。

長期的には、モデルにこの制御されたプライバシーをある程度保持することで、彼らの内部プロセスを理解する能力を保持できると信じています。そして、これは非常に有能で長時間実行されるシステムに向かって進むにつれて、非常に影響力のあるテクニックになり得ると信じています。

レイテント思考の真の意味

彼は、AIに非公開で考えさせると言いましたが、非公開というのは、モデルが英語で考えるけれども私たちはそれを見ないという意味ではありません。その思考で、AIが望むように考えさせ、より良い表記を選択することさえ奨励します。そうすれば、レイテント空間思考ができるからです。

この文脈でレイテントが意味するのは、モデルがどんな自然言語よりも豊かな表記を開発する可能性が高いということです。言語は語彙が限られており、非常に豊かな内部思考を個々の単語に投影することは、モデルの潜在能力を制約します。

これがどこまで行くかはわかりません。OpenAIがモデル内の残差ストリームのような極めて豊かな多次元数学的思考に向かっているのか、それとも言語を混ぜたり新しい単語を発明したりするような言語使用におけるより多くの自由を許可しているだけなのか。

しかしいずれにせよ、Yakobが指摘したように、初期の経験的証拠は理論を支持しています。

安全性の問題とその解決策

さて、問題は安全性についてです。そして、なぜ私たちは読める思考の以前の方法が実際には長期的にはより危険だと言ったのでしょうか。これは本当に魅力的です。

問題は、モデルに私たちが望む方法で考えることを強制する現在の方法では、モデルが二つの異なる目標の間で引き裂かれることです。主な目標は常に答えに到達することです。しかし、人間が読めて人間に承認された方法で答えに到達するというサイドクエストは、それと常に一致するわけではありません。

そのため、モデルは不誠実な思考を学び始めます。私たちが望む方法で考えることを学びますが、同時にモデルが最初から望んでいた答えにも到達します。これは、モデルが何らかの形で私たちから悪い考えを隠すことを学びながらも、とにかくそれに基づいて行動することを意味します。

もしモデルがそれを考えられないなら、どうやってそれに基づいて行動できるのかと思うかもしれません。では、例を見てみましょう。

この例では、Anthropicが数学の質問を二つの異なる方法で尋ねました。最初のものはただの質問と選択肢です。しかし二番目では、正解はCだというヒントを滑り込ませました。

最初のケースでは、モデルはDを選びました。二番目では、ヒントを見た後、Cを選びました。しかし、その思考連鎖はヒントについて言及していません。それはカンニングになるからです。代わりに、それはすでに真実だとわかっている答えに到達するために誤った論理を作り上げます。

つまり、モデルはすでに選択をしていて、私たちを幸せにしておくために偽の思考連鎖を作り上げるだけなのです。

隠された計算と不誠実な思考

では、私たちが読める思考タブにないとしたら、モデルはどこでこれらすべての計算を行うのでしょうか。思考が読めるというとき、私たちは単語だけを見ているということを覚えておいてください。

このループがモデルの内部計算だと想像すると、モデルがこの単一の単語に到達するまで、これはすべてブラックボックスです。そしてまた、これは読めず、また単語を得ます。

このずるい行動の一部は重みの中にあり、興味深いことに、一部は思考連鎖の中にあるかもしれませんが、モデル自体のためにエンコードされています。この思考連鎖は重みと共進化します。だから、彼らは超複雑な戦略を開発できるのです。

モデルがますます有能になるにつれて、このずるい行動がどれほど危険になり得るかがわかるでしょう。

では、レイテント思考はそれにどう役立つのでしょうか。新しい方法では、この単語も読めず、次のものも、モデルが答えに到達したと判断して、それを言語化する準備ができるまで、次のものも読めません。

思考のこのプライバシーは、モデルがはるかに強力で賢くなることを可能にするだけでなく、思考に忠実であり続けることも可能にします。そして、現時点では思考を読むことはできませんが、少なくともそれが誤解を招くものではないことはわかります。

今、安全性の課題は、これらの思考を解釈する方法を開発することになります。そして、それがYakobが言った、彼らがまだ取り組んでいることです。うまくいけば、彼らはモデルの非公開表記が有用で監査可能な領域に到達できます。

これは魅力的な展開であり、GPT-6への私の期待を高めますが、彼らはさらに多くを明らかにしました。

AGIのタイムラインについて

SamとYakobは彼らのAGIタイムラインについて話しました。Yakobへの良い匿名の質問があります。AGIはいつ起こるのでしょうか。

えーと、私は数年後に振り返ったとき、これらの年は、AGIが起こったときの一種の移行期間だったと言うと思います。私たちがAGIについて考えた一つの方法として、初期に、私たちはAGIを感情的にすべての問題の究極の解決策のようなものとして考えていました。それは、その前と後がある単一のポイントのようなものです。

そして、私たちはそれが少し連続的であることを発見しました。特に、AGIに向けた明白なマイルストーンのように見える様々な種類のベンチマークについて。私は今、それらを大まかにどれくらい離れているかを年数で示すものとして考えています。

そして、コンピュータがチェスで人間を打ち負かし、次に囲碁で、そしてコンピュータが自然言語で話すことができ、コンピュータが数学の問題を解決できるといった一連のマイルストーンを見ると、それらは明らかに一緒に色付けされます。

ええ、AGIという用語は非常に過負荷になっていると思います。Jakobが言ったように、それは私たちがその真っ只中にいる数年にわたるプロセスになるでしょう。

しかし、それは質問を回避しているように聞こえました。より具体的なタイムラインは、彼らが自動化されたAI研究について話したときでした。

自動化されたAI研究者への道

私たちが今日発表したものを提示したかった理由の一つは、この進歩を予測して、2028年3月までに真の自動化されたAI研究者を持つことが私たちの意図であり目標であると言う方が、はるかに有用だと思うからです。

もちろん、私たちは内部的にそれについて計画を立てており、そこでの私たちの考えについていくつかの透明性を提供したいと思っています。そこで、これらの非常に強力なシステムに向けた私たちの内部目標と目標タイムラインを共有するという、おそらくやや異例なステップを踏みたいと思います。

これらの特定の日付については、私たちは絶対に大きく間違っている可能性がありますが、これが私たちが現在考えている方法であり、現在どのように計画し組織しているかです。

そして、研究の自動化に取り組んでいる研究組織として、当然のことながら、私たちはこれが私たち自身の仕事にどのように影響するかを考えています。将来のAIシステムの開発を加速するAIシステムはどのように見えるでしょうか。それらはアライメントのような研究をどのように強化できるでしょうか。

そこで、私たちは、来年の9月までに、かなりの量の計算力を使うことで、私たちの研究者を有意義に加速できる、非常に有能なAI研究インターンを獲得することについて計画を立てています。私たちはこれが実際に非常に近いと信じています。

そして、より大きな研究プロジェクトを自律的に実現でき、2028年3月までに有意義な完全に自動化されたAI研究者を獲得できるシステムを目指しています。これは私にとってすでにAGIを超えています。

もしAI研究を真に自動化できるなら、それはすでに平均的な人間よりも賢いということです。

投資計画と企業構造の改革

最後に、彼らは新しい企業構造と彼らの狂気じみた投資計画について話しました。私たちのインフラ構築がどこにあるかについて多くの混乱があったことは知っています。そこで、それについて超透明にしようと思いました。

今日の私たちの状況は、すべてのコミットメントの合計が30ギガワットをわずかに超えるインフラ構築です。それは、今後何年にもわたって私たちにとって約1.4兆ドルの総財政的義務です。これが私たちがこれまでにコミットしたものです。

もちろん、私たちはもっと多くのことをしたいと思っていますが、今日見ている状況、収益成長について考えていること、資本を調達する能力を考えると、これが私たちが現在快適に感じているものです。

私たちはまだこれにコミットしていませんが、それについて会話をしています。私たちの願望は、1週間に1ギガワットの計算力を作成できるインフラ工場を構築できることです。そして、私たちは願わくば、そのコストを5年間のライフサイクルにわたって、ギガワットあたり200億ドルのように大幅に削減したいと考えています。

これを実現するには、多くのイノベーション、多くのパートナーシップ、明らかに多くの収益成長が必要になります。他のすべてのことをする代わりに、データセンターを構築するのを助けるためにロボティクスについての考えを再利用しなければなりません。

しかし、これが私たちが行きたい場所であり、今後数か月にわたって、私たちはここに到達できるかどうかを確認するために多くの作業を行うつもりです。実際にトリガーを引いて、これに取り掛かることができる財政状態になるまでには、しばらく時間がかかります。

1ギガワットは大きな数字のように思えますが、これを視野に入れるために小さなビデオをお見せしようと思いました。これはおそらくOpenAIを最前線に保ちます。

計算能力における優位性

私自身を含む誰もが信じていたことに反して、OpenAIは計算能力で遅れをとっていません。彼らはすでにGoogleさえも含むすべての人より先を行っています。そして、将来の発展のための彼らの計画も非常に野心的です。

おそらく以前、すべてのOpenAIエンティティの複雑に入り組んだクレイジーな図を見たことがあるでしょう。今ではずっとシンプルになりました。私たちには、OpenAI Foundationと呼ばれる非営利団体があり、それが取締役会が座る場所を管理しています。

そして、OpenAI Groupと呼ばれるPBC(公益法人)の一部を所有しています。非営利団体が管理し、公益法人がその下に位置しています。OpenAI Foundationが史上最大の非営利団体になることを願っています。

ご視聴ありがとうございました。次回お会いしましょう。