グレッグ・ブロックマン、OpenAIのAGIへの道のりを語る

この動画では、OpenAIの共同創設者グレッグ・ブロックマンがLinen Spaceポッドキャストに出演し、GPT-5の開発背景から推論パラダイムの革新、オープンソースモデルの戦略的意義、そしてAI時代のソフトウェア開発の変化について語っている。特に、GPT-4訓練後に「なぜこれがAGIではないのか」という根本的な問いから始まった推論技術への取り組み、強化学習による信頼性向上のアプローチ、そして計算資源の効率的活用による大幅なコスト削減の実現について詳細に解説している。また、バイオロジーとAIの共通性、エージェントの堅牢性、アメリカの技術スタックとしてのオープンソースの重要性についても言及している。

Greg Brockman on OpenAI's Road to AGI

Greg Brockman, co-founder and president of OpenAI, joins us to talk about GPT-5 and GPT-OSS, the future of software engi...

OpenAIの怒涛のリリースラッシュとGPT-5の誕生
推論への道のり：GPT-4からの気づき
オンライン学習への移行
計算効率とボトルネック
汎用性と転移学習
時間の壁と現実世界との相互作用
生物学とAIの共通点
GPT-5時代の特徴
モデル評価の重要性
モデルの潜在能力を引き出すコツ
コーディングエージェントの統合
エージェントロバストネス
オープンソースの意義とサイコヒストリー
人間の好みとモデルの調整
エンジニアリングの変化とチーム構造
価格戦略と計算効率
自己改善とツール構築
アーキテクチャの選択と決定
アメリカのオープンソース戦略
OpenAIでのエンジニアリング
エンジニアの価値と巨大プロジェクト
AI研究の多様性
優先順位と探求のバランス
時代の先見性とアドバイス

OpenAIの怒涛のリリースラッシュとGPT-5の誕生

やあ、みなさん、Linen Spaceポッドキャストへようこそやで。僕はKernel Labsの創設者のアレッシオで、Small AIの創設者のSwixも一緒におるで。こんにちはや。こんにちは。そして今日はグレッグ・ブロックマンに来てもらえて、めちゃくちゃ嬉しいわ。ようこそや。呼んでくれてありがとうな。こっちこそ楽しみやわ。

君は紹介なんていらんくらい有名やから、頭の中で紹介文考えてたけど、もうそんなんすっ飛ばしてしまおか。GPT-5、GT-OSS、OpenAI周りで起こってることぜんぶ、おめでとうやで。その辺り全部話していくからな。ほんまに来てくれて嬉しいわ。先週はもうリリースの嵐やったけど、どんな気分やった？

もうめちゃくちゃやったで。一週間でこんだけたくさんのもんを出すなんて、ほんまにワイルドやったわ。

まず僕らのオープンソースモデルをリリースしたんや。これはもうずっと取り組んできたモデルで、OpenAIで進めてきた技術の進歩をぎゅっと小さなパッケージに詰め込んで、めっちゃアクセスしやすくしたんや。もうここ数日で何百万ダウンロードされとるで。それに加えてGPT-5もリリースした。

これもほんまに長い間取り組んできたもんやねん。こういうもんを世に出して、実際にリリースプロセスをやり遂げたっちゅうのは、チームに対してめちゃくちゃ誇らしく思ってるわ。そしてGPT-5は初のハイブリッドモデルやねん。ほとんどの人はモデルを選べへんから、そこにはいろいろとドラマがあるんやけど、後で詳しく話すわ。

推論への道のり：GPT-4からの気づき

でも君は元々、OpenAIでイリヤと一緒に推論チームを立ち上げたよな。OpenAIでの推論の簡単な歴史を教えてくれる？最初は単純にネクストトークン予測から始まって、どこかの時点で推論が重要やと思うようになった。そこからGPT-5で推論が隠れてしまうまでの道のりはどんな感じやった？

GPT-4を訓練した後、僕らは会話できるモデルを手に入れたんや。最初にポストトレーニングをやったときのこと覚えてるで。実際に指示に従うポストトレーニングをやったんや。ほんまにシンプルなデータセットで、「これがクエリで、これがモデルの回答や」っちゅうやつやった。そんで、続けて別のクエリを投げてみたらどうなるんやろ？って思って試してみたら、実際に前の質問と回答の連鎖全体を文脈に入れて回答を出すことができたんや。この子、チャットできるんやって気づいたんや。実際に話しかけることができるし、訓練されてないのに、この情報を全部活用することができるねん。

そんで、僕らは研究ミーティングでみんな（Yakub、イリヤ、Vojtech、その他）と一緒にある疑問を抱いたんや。「なんでこれはAGIやないんや？」って。このモデルは明らかにAGIやないんやけど、なんでやないんかを説明するのがめっちゃ難しいねん。どんな質問でも答えることができるんやから。

まあ、完全に信頼できるわけやないし、間違いも犯すし、レールから外れることもある。それが本当のギャップやねん。そのギャップを埋めるには何をせなあかんか？一番分かりやすいのは、実際に世界でアイデアをテストさせることやねん。実際に強化学習をやる。仮説を試して、フィードバックをもらって、そこから信頼できるようになる。

これは僕らにとって新しいアイデアやないねん。2017年に遡ってみても、僕らはDotaに取り組んでたんやけど、それは完全に強化学習で、人間のデモンストレーションからの行動クローニングとかは一切なかった。ランダムに初期化されたニューラルネットから、めちゃくちゃ複雑で洗練された、めちゃくちゃ正確な行動が出てくるねん。

それが僕らが言語モデルに求めてた信頼性やったんや。だから、GPT-4を訓練した瞬間から、推論パラダイムに到達する必要があるって分かってたんや。問題はどうやってかやった。10個くらいのアイデアがあって、何が効くかについていろんな仮説があって、みんながそれを現実にしようと頑張ったんや。

これはOpenAIの多くの人の何年にもわたる労力の結果やねん。この分野での進歩のしかたっちゅうのは、ある方向性に確信を持って、最初に試す10個のことは失敗するもんやねん。その10個のリストのほとんどは成功せんかったけど、僕らはその中の一つを成功させたんや。

これが本当のキーやと思うねん。とにかく押し続ける。小さな生命の兆候を見つけて、そこから成長させていく。今はジェリーが強化学習チームを率いてて、本当に素晴らしい進歩を遂げてるで。ウェンダのような人たちによるインフラ作業も素晴らしいし、推論側のフェリペのような人たちも。OpenAIのあちこちにいる多くの人たちが一緒になって、これを実現させてるんや。

オンライン学習への移行

AI エンジニアカンファレンスで君と話したとき、チューリングの論文について話してたよな。君が愛してて、ある意味で機械学習の旅を始めるきっかけになった論文や。確かに彼は学習マシンが部分的にオンラインになることを予想してたと思う。GPT-3、4、5への旅を振り返ってみると、学習は全部オフラインで事前訓練から始まって、今はゆっくりとオンラインになってきてる。それは正確やと思う？

めっちゃ興味深い質問やな。学習はどこで起こるんか？僕らはまだ人間がやってるような完全な学習ループには到達してないと思う。でも、人間が完全にオンラインかっちゅうのもよう分からんねん。寝てる間とかに、長期記憶への逆伝播みたいなことがいろいろ起こってるからな。

だから、人間の働き方と機械の働き方が必ずしも一対一で対応してるわけやない。でも、僕らは一度訓練したら後はひたすら推論するだけの世界から、実際に推論してその結果で訓練するというループがある世界に移行しつつあるねん。

イリヤがよく言ってた、めちゃくちゃ洞察に富んだ言葉があるんやけど、モデルがそんなに有能やないときは、そいつが生成するトークンの価値はめっちゃ低い。でも、モデルがめちゃくちゃ有能になると、そいつが生成するトークンの価値はめちゃくちゃ高くなる。すごく思慮深い、重要なもんになるねん。

強化学習にはそういう性質があって、モデルがいろいろ試すからデータをいっぱい生成する。そんでそのデータで訓練するんや。だから、モデルの観察結果が現実との接触によって正規化されたり、選択されたりして、マシンにフィードバックされる。それは僕らが学習し始めてるもんやと思うし、必要なスケールも全然違うねん。

事前訓練を見てみると、何かの例が10個あっても全然あかん。何百何千っていう小さな行動の種類があって、初めてそこから学習できるねん。それは人間の学習とは全然違う。

まあ、進化の全てを再現して、20年分の発達史も考えたら、世界を観察するだけでもいっぱい情報がある。感覚を通して流れる情報のビットがめちゃくちゃある。でも強化学習パラダイムやと、何かの例が10個とか100個、やるべきタスクが10個とか100個あって、モデルが何回も試すと、実際にそこから学習できるねん。

だから、人間のキュレーターがタスクを作ることのレバレッジがめっちゃ高くて、モデルから洗練された行動を引き出すことができるねん。次のステップは、モデルが進みながらオンラインで学習することや。僕らはまだそこまで到達してないけど、未来はまだ書かれてないからな。

計算効率とボトルネック

ノアム・ブラウンとサンプル効率について議論したことがあるんやけど、今日のボトルネックは、RLが機能するような素晴らしいタスクを作る人間のデータキュレーターなんか、それともまだモデルのサンプル効率なんか？

ボトルネックは常に計算やねん。本気でそう思ってる。もし僕らにいっぱい計算を与えてくれるなら、その計算を最大限活用するための反復方法を見つけるのは明らかやから。

今は、RLパラダイムでめちゃくちゃサンプル効率の良いアルゴリズムを持ってるけど、まだいっぱい計算が必要やねん。人間が作った1つのタスクとか10個のタスクとか100個のタスクとか、そんな少数があって、モデルが1回やない、10回やない、10,000回もそのタスクを達成しようと試すんや。そこから選択して、そこから学習する。人間のデザイナーとしてのレバレッジはめちゃくちゃ高いけど、それを機能させるために投入せなあかん計算量は比例して増えるねん。

学習プロセスでより多くの計算を使う方法がある。アラン・チューリングは実際にこの多くを予見してた。彼は準臨界学習やなくて超臨界学習っていう概念を持ってる。つまり、機械に学習を提示したり、機械に何かを教えると、今教えたことをそのまま学習するんやなくて、超臨界っていうのは、今学んだことの2次、3次、4次の効果も考えて、知ってる他のすべてのことを更新するっちゅうことや。

10倍の計算があったら、どこに使うんか？創造的な方法は何やろ？僕は「とにかくくれ、方法は見つけるから」って言うで。まじめに言うてるねん。

Dotaを振り返ってみると、当時存在してた強化学習アルゴリズムはスケールせんっていうのは、みんな知ってたことやった。それで僕らは新しい強化学習アルゴリズムを開発しようとした。そのときヤクブとシモンが「なんで僕らはそう信じてるんや？実際に誰かテストしたんか？」って言うたんや。実際には誰も古き良きPPOをスケールアップしようとしてなかった。

「それがベースラインや。やらなあかん」って言うて、毎週オフィスに戻ってきて、コア数を2倍にしたら、エージェントのTrueSkillがぐんぐん上がっていった。「よし、壁にぶつかるまで押し続けよう」って。明らかに壁にぶつかるから、そしたら本当に面白いことができる。でも壁にぶつからなかった。

そのスケーリングの旅こそが面白いもんやっていうことに気づいたんや。実際にエンジニアリングをして、もちろんバグもあるし、そのバグが壁になるけど、バグは修正する。ニューラルネットの初期化とかスケールと分散とか、いろんな問題があるけど、それらはアルゴリズムや科学の根本やない。

そういう世界にいるんやと思う。あらゆる次元で押し続けて、たぶん壁にぶつかることが多いけど、ほとんどの場合、その壁はバグとかくだらないことやから、続けることができる。時にはそれらを修正するROIがめちゃくちゃ大変やから、実際には価値がない。別の次元があるからな。モデルを大きくしてより多くの事前訓練計算をするか、それともより多くのRLをして実際のテスト時により多くの計算を使うかとか。

計算を投入できる次元はいっぱいあって、ある意味では計算をこの精製プロセスのように考えてる。最終的にはエネルギーから始まって計算になって知能になる。その計算を、モデルが何か有用なことをするために変換できる位置エネルギーに結晶化してるような感じや。

めちゃくちゃ美しいことやと思う。計算が知能のこの根本的なドライバー、根本的な燃料として、ニューラルネットを形作って、プログラムを出力する。そのプログラムの素晴らしいところは、何回も実行できることや。

作るために投入した努力よりもはるかに多くの回数使うことになるから、この償却化があるねん。美しいパラダイムやで。

汎用性と転移学習

運動エネルギーをモデルの位置エネルギーに変換してる感じやな。そんで、モデルにすでにあるエネルギーを、他のあらゆる領域で再び運動エネルギーに変換できると思う？IMOで金メダル取ったし、君らも取った。同じ手法と同じベースモデルで、計算をスケールするだけで、他のあらゆる領域でIMO金メダル相当のものが取れると思う？それとも、まだやるべき仕事があると思う？

IMOのモデルが実際にIOI（情報オリンピック）でも金メダルを取ってるっていう、かなりいい証拠があるで。同じモデルや。

詳細についてはちょっと議論があるな。ハーネスに少し違いがあるけど、ハーネス自体が金メダルやないねん。実際の根本的なモデルのことで、そこには特別な訓練は一切してない。これは結局、数人のサイドプロジェクトになった。「まあ、IOIもやってみよか」って感じで。

これは僕にとって驚くべき事実やで。昔はそれが完全な大きなチャレンジやったからな。めちゃくちゃ多くの人が取り組んでた。でも、OpenAIの核となるIMOチームは実際には3人やったんや。大規模な努力やなかった。

これらの領域の一部には、多少の特殊化が必要かもしれんってことが分かる。多少の追加作業、何らかのデータセット作成とか。でも根本的には、僕らは汎用の学習技術を持ってて、難しい問題を解くことを学習するのは、実際にめちゃくちゃ転移可能なスキルやねん。

難しい数学問題を解いて証明を書くことを学習するのは、実際にプログラミング競技の問題を書くことに転移するんや。でも、物理実験を実際にやったことがなかったら、実際に化学薬品を混ぜたりしたことがなかったら、たぶんそういうことが魔法のように上手になることはないやろな。

だから汎化の限界っていうのがある。実際に現実世界での経験が必要で、試してみる必要がある。でも、これらのモデルは、もう理不尽なほど遠くまで行く。これは僕らがずっと見てることで、ウェットラボの科学者がO3のようなモデルに「実験セットアップがあるから、何をすべきか仮説を出してくれ」って頼むんや。5つのアイデアがあって、その5つを試してみて、4つはうまくいかないけど、1つはうまくいく。

O3について受けてるフィードバックは、結果として生まれる研究がトップティアのジャーナルやなくても、中堅ジャーナルには発表できるレベルやということや。3年目、4年目のPhD学生から期待するような研究やねん。これもまた驚くべき事実やで。僕らはO3でそこにいるし、O3をあらゆる次元で改善する方法も正確に分かってる。

計算が必要やし、いっぱい作業が必要やし、タスクを取得する必要があるし、いっぱいの人間の知的愛情と労力と時間が必要で、本当に心と魂を注ぎ込む必要がある。でも、君が言うように、この中にいっぱいの位置エネルギーが詰まったものを作り出して、素晴らしいのは、その位置エネルギーを一回だけ解放するんやなくて、これらすべてのタスクで何回も使えるチェックポイントやということや。これは本当に全人類を向上させることができるもんやと思う。

時間の壁と現実世界との相互作用

めちゃくちゃ感動的やで。2つのことを振り返りたいんやけど。一つは壁について。ノアムと議論しようとしてたのは、実時間っていう意味では壁があると思うってことや。時間は流れなあかんからな。RLが環境とシミュレーションで相互作用する問題は、確かにシミュレーションをリアルタイムより速く動かすことができるけど、ある時点で実時間に合わせなあかん。

現実世界をモデル化することに近づけば近づくほど、実時間のペースでの反復に収束していくのが見えると思う？まだそこには到達してないから、今は心配する必要はないけど。

それはかなり根本的な障壁やと思う。もちろん、モデルは人間とは全然違う能力を持ってる。多くのコピーを実行できるから、レイテンシを減らせなくても、スケールアウトできる。計算がどこに行くかを考えるのもめっちゃ興味深い。これらのモデルをもっと展開するにつれて、ほとんどの計算がモデル訓練から、実際にそれらを推論して使うことに移る。

でも、これらのモデルが現実世界といっぱい相互作用するようになることを考えると、実際に現実世界でのあらゆる行動について、めちゃくちゃ考えるべきやろうな。だから、現実世界での相互作用ごとにトンズの計算が費やされることになるかもしれんし、実際に計算が使われると期待される場所が本当に変わってくる。

現実世界でいくつかのステップを踏んだロールアウトをチェックポイントするにはどうするかとか、効率的な優れたハーネスを持つことが本当に重要やと思う。システムを再起動する必要があって、現在の状態を全部忘れてしまうなら、それはたぶんめちゃくちゃ悪いやろな。

デジタル世界では全てが完璧に観察でき、チェックポイントでき、保存できるけど、現実はもっと混沌としてて複雑やから、何かがめちゃくちゃ違うと思う。

でも、それは悪いことやないと思う。Dotaみたいなエージェントが、めちゃくちゃ複雑で混沌とした環境で動作できるのを見てきた。だからアルゴリズムは可能やねん。ちなみに、Dotaは3億パラメータのニューラルネットやった。めちゃくちゃ小さい昆虫の脳やで。

今は人間スケールに匹敵するもの、パラメータ数で言えば、計算数で言えば、まだ完全にそこには到達してないかもしれんけど、スケールアップし始めてる。数学は違う見方ができるけど、根本的に僕らは本当の目標に向けて進歩してる。

AGIがどうあるべきかを考えると、現実世界でめちゃくちゃ生産的な方法で相互作用できるものであるべきやねん。

生物学とAIの共通点

概算やけど、僕の頭にある数字では、人間は100兆のニューロンを持ってる。僕らは10の20乗台の低い方から高い方まで、GPT-4、4.5、5で、確認はしてないけどな。でも、そこまでスケールしてる感じやな。

100兆シナプスって言うのが、ニューラルネットの重みに対応してるから、そこに何らかの等価性があるねん。そうやな。だから僕らは正しい数字に近づき始めてるわけや。

生物学的な観点で言うと、Arc Instituteで学んだことで、OpenAIでやってることに影響を与えたものはある？数年前にそこで休暇を取ってたよな。

DNAニューラルネットで作業してて一番驚いたのは、全く同じやったことや。

人間の言語を置き換えるだけやねん。もっとシンプルな語彙でもある。4文字しかないからな。

でも、より高いレベルでトークン化するんやないの？

まあ、できるけどな。でも、実際僕らがアプローチした方法は、文字レベルでやったんや。

文字レベル？まじで？なんで？

まあ、理由はないかな。4文字しかないからな。

これが僕にとって核心の一つやと思う。人間の言語の興味深いことの一つは、僕らは意味論を理解してることや。それが何を意味するか、構造が何かを理解してる。観察するのがめっちゃ簡単やし、トークン化スキームを見たとき、単語を合理的な方法で全部捉えたかどうかの感覚がある。

生物学は異言語や。人間にとって異言語やということが興味深い。でもニューラルネットを見たら、人間の言語がニューラルネットにとって生物学的言語よりも自然である理由はあるんか？答えは「ない」やねん。実際にこれらは全く同じハードウェアやから。

だからこの驚くべき仮説の一つは、これらのニューラルネットは人間の言語を問題なく学習できるから、生物学的言語も問題なく学習できるはずやということや。実際に同じ種類の結果が見える。

僕らが作ったニューラルネット、40BのニューラルネットでI3兆塩基対とかで訓練したやつやけど、結果は僕にはGPT-1、GPT-2レベルに近づいてるように感じた。幅広い生物学的アプリケーションのダウンストリームタスクにアクセス可能で適用可能やった。まだGPT-3やGPT-4、確実にGPT-5ではない。これらの領域でめちゃくちゃ難しい問題をまだ解けるレベルやない。

でも僕らには計算がある。正しい技術とアルゴリズムがある。今はスケールして、長いコンテキストについて考える必要がある。生物学システムが言語シーケンスに比べてモデルにストレスをかける違う方法がある。10億トークンの言語シーケンスは実際には存在せんけど、DNAでは存在する。40億塩基対とかがあるからな。

だから、ちょっと違う重点があるけど、根本的には解決する必要がある同じ問題やねん。

一番興味深いアプリケーションは何？薬物発見とか、みんな薬物発見に行くけど、その前の何か中間的なもので、到達可能でめちゃくちゃ影響力があるものはある？

個人的なレベルで言うと、僕の妻は、前に公に話したことがあるけど、エーラス・ダンロス症候群っていう遺伝的病気を患ってる。つい最近まで、遺伝的マーカーが見え始めてると思うけど、正確に何が原因で、どこから来るのかが分からなかったんや。

生物学を理解するためのより良いツールがあれば、いろんな病気のマーカーを特定できるはずやねん。これは、これらのニューラルネット内に存在する可能性の約束の一例やで。

GPT-5時代の特徴

GPT-5時代の始まりをどう特徴づける？3、4、5を主要バージョンとして考えると、3はめちゃくちゃテキストベースで、初期のシェフみたいな感じで本格的に始まった段階や。4はマルチモーダルで、いろんな低レイテンシ、長時間思考、ウィンドウ3とかや。

5の目玉は何になるんやろ？明らかにエージェントの年やろ？それがミームやけど。人々が「5で今度はXが解放される」と考えるべき他の何かはある？

スマートやと思う。これらのモデルの知能は、もうほとんど記述不可能になり始めてる。まだ限界があるし、失敗する方法もあるけど、本当にめちゃくちゃ難しい領域で、IMOの結果を見てみろよ。この推論パラダイムで訓練されたモデルを取って、最高の人間レベルの証明を書くことができるんや。

この特定の領域では限界とかいろいろあるし、未証明の定理を証明したりとかはまだやってないけど、でもリアルやねん。これらのモデルが素晴らしい知的偉業を成し遂げることができるのは、もう否定できへんねん。

これは新しいことやと思う。GPT-4は、幅広いアプリケーションでそこそこ有能で商業的に有用やったけど、そいつが生み出すアイデアはあんまり深くなかった。解決する問題も、あんまり信頼できるレベルやなかった。

GPT-3のときは、基本的なことさえ教えようとしてたのを覚えてる。少数ショットプロンプティングができることに気づいて、何かの例をいくつか見せたら、基本的にそのタスクをやってくれるねん。「よし、この子にリストをソートすることを教えられるかな？」って思って、7つの数字をソートするように言った。ソートしなかった。「よし」って。

それで「私はあなたに数字をソートする方法を教える教師です。2つの数字をソートする例がこれで、3つの数字をソートする例がこれで」みたいな全部のスクリプトを書こうとした。そして「よし、今度は5つの数字です」って言ったら、完全に失敗。

もしGPT-5にそれを頼んだら（ちなみに実際にGPT-5に5つの任意の数字のリストをソートするように頼んだことはないけど）、すぐに完璧にやってくれると確信してる。

ちなみに、Pythonツールにもアクセスできるから、ポイントは、これらのモデルが人間を支援できる知的跳躍が、僕らが見始めてるところやということや。O3で見始めて、GPT-5に対してプロの数学者がタイヤを蹴り始めてるのが見える。GPT-5に対して物理学者がタイヤを蹴り始めて、「このモデルは、僕が何ヶ月もの研究で生み出した洞察を再導出することができた」って言ってる。

これが、どれだけ速くなるかを実感する瞬間やねん。高校時代と大学初期に自分の数学研究をやってたときのことを覚えてる。頭の中でこれらのオブジェクトを操作して、物事の間の関係について考えるのに、めちゃくちゃ時間をかけてた。

もし実際に話し合える相手、僕が考えてることを深く理解して、僕が提案することから新しい洞察を生み出してくれる相手がいたら、僕はもっと速くなったやろうし、もっと楽しかったやろうな。一人で考えてて、「あ、この考えは2週間前にもう考えたわ」っていうループに陥ることがないからな。

だからGPT-5とパートナーとして知的フロンティアを一緒に押し進めることについて、何か新しいものがあると思う。

モデル評価の重要性

人々は取り組む問題の難しさによって制限されてると思う？僕にとって、CursorやCodexでは、難しいタスクを与えたときにモデルが良くなることがはっきり感じられる。多くの人がXにスクリーンショットを投稿してて、「GPT-5はそんなに良くない」って言うけど、質問がそんなに難しくないねん。

世界最高のコーディングモデルと呼んだとき、何がそんな確信を与えたんや？明らかに君は世界最高のコーダーの一人やから、似た者同士は分かり合うんやろうけど、人々はこれらのモデルを本当にどう評価すべきやと思う？

確実に特定のタスクでは飽和があるねん。ただチャットして「こんにちは、元気？」って言うだけなら、言えることに限界がある。「リーマン予想の解法をお願いします」って言うなら、そこで望ましい知能の幅広い範囲がある。

もちろん、ほとんどのタスクはこの2つの間のどこかにある。僕らが観察したのは、GPT-5が深い知能を必要とする知的問題、タスクを、僕らがテストした他のどのモデルよりもはるかに良く解決できるということや。

2つ目にやったのは、インタラクティブコーディングアプリケーションで人々がどう使ってるかを本当に長い時間見て、めちゃくちゃフィードバックを取って、それを訓練にフィードバックしたことや。

これは過去にはそんなに頑張らなかったことやねん。O3みたいなもので、僕らは一度設定したタスクで本当に訓練して、モデルを見て、すべてのメトリクスで右上がりになってた。コードフォース、競技プログラミング大会とかで素晴らしくなるけど、実際にプログラムする方法を反映してない。

実際にプログラムするのは、もっと混沌とした方法やねん。何らかのローカル状態があるリポジトリがあって、異なる抽象化があって、異なるライブラリの異なるバージョンがあって、そういう多様性は「これが特定のタスク10個、達成すべき特定のタスク」っていう非常に構造化されたものから魔法のように生まれるもんやない。

だから僕らが焦点を当ててきたことの多くは、知能をどう押し進めるかだけやなく（それは常に核になるけど）、知能を現実世界のアプリケーションにどう接続するかや。象牙の塔から押し出されて、混沌とした現実と世界の多様性を実際に体験できるようになったんや。

モデルの潜在能力を引き出すコツ

より実用的なレベルで、これらのモデルから位置エネルギーを引き出すための提案はある？リンター、型チェッカー、自己ループするタスクを追加するとか。開発者が考えるべき他のメタはある？君はモデルをどう使ってる？

一番観察したのは、これらのモデルから最大限引き出すのには本当にスキルがあるということや。

それには粘り強さが必要で、モデルのスキルと弱点の形をほとんど理解しようとする必要がある。だからテストするねん。小さなことでテストして、少しフィードバックを得る。少し高いレベルでテストして、もっと大きなタスクを与えてみて、特定の方法で動作できるかを見てみる。

人々は普通、異なるプロンプトのライブラリを持ってると思う。僕も確実にGPT-4の時代から構築してきたプロンプトのライブラリを持ってる。GPT-4の前に、「これができるかな？」みたいなのをいくつか集め始めたのを覚えてる。重要なのは、一つの特定の正しい答えがない、いろんな答えができるクエリが欲しいことや。

例えば、創作では、ロード・オブ・ザ・リングとスタートアップのマッシュアップを頼むのが好きや。2つの異なるトピックを一緒に押して、実際にモデルをテストして押し進める観点から何が得られるかを見るんや。

タスクを分解して、モデルに任せることができる自己完結的なものを持つことについてよく考える。一つのモデルインスタンスを動かしたいんやなくて、複数欲しいねん。エージェントやなくてエージェントのマネージャーになりたいねん。

だからまず、コードベースがどう構造化されてるかを考えて、それから実際にモデルを押して、コードベースの複数の異なる部分で実際に動作できるかを言ってみる。人々はフロントエンドのバイブテスティングが大好きで、GPT-5はフロントエンドがめちゃくちゃ上手やねんけど、もちろんそれはほとんどの開発者が時間を費やすことやない。

だからそれに過適合しないことが重要や。でも、モデルの感覚を掴んで、その強みと弱みに調和し始めて、ほとんど自分の拡張として見ることやと思う。よくやる別のことは、何らかの理由でモデルに動作させたくないめちゃくちゃ難しいことについて考えてる間に、クリティカルパスにないタスクをモデルに投げることや。

だから5分待って何も返ってこないリスクを感じる必要がないから、それができるかどうかの情報を常に得てる。

コーディングエージェントの統合

君がいつも言ってたのは、Codexとオープンエーアイのコーディング能力のロードマップで、バックグラウンドのスイートエージェントがIDE内エージェントとマージするということやった。そこでの考えはどう発展した？IDEがバックグラウンドAPIを呼び出して、バックグラウンドAPIがIDEにエクスポートできるほど単純なことなんか、それともそれより深い接続があるんか？

AIの製品化を同僚との類推で考える傾向がある。素晴らしいプログラマーである同僚に何を求める？スラックしないよな。

そうやな。だからスラックするけど、時には「この件でちょっと助けが必要やねん。来て肩越しに見てくれる？」って感じになる。「キーボード取ってくれる？」って。だからペア形式が欲しい。リモート非同期形式も欲しいし、すべてにわたって知識と記憶を持つ一つのエンティティであってほしい。

毎日現れて「よし、全部忘れた。どうやってSSHするんやっけ？」って言う新人プログラマーは嫌やろ？だから、そのすべてが起こらなあかん。信頼できる方法で、監査できる方法で、君のインフラにアクセスできるAIが必要や。

これらのモデルについて違うのは、マイクロマネジメントされても全然平気やということや。人間はそういうのめちゃくちゃ嫌いやろ？実行するコマンドを一つ一つ見られて、やったことすべての報告を要求されたら、たぶんその人は残らんやろう。でも、モデルは全然平気やねん。

だから、それは最大限活用する価値があるアフォーダンスで、それを活かすためにインターフェースを変更する価値がある。同時に、リモートマシンでいっぱい作業できて、ローカル状態を混乱させない、完全にサンドボックス化された、完全に観察可能なモデルと、時には「よし、ローカルで何かを実行する準備ができた」って言えるモデルの間のシームレスな融合が本当に欲しい。

それが何かとか、どれだけサンドボックス化可能かによって、一回限りの承認ができる。完全に委任されたアクセスを与えることもできる。人間がこの観察可能性を管理して、このチームを管理することが重要やと思う。異なるサーフェスを持つエージェント。

ローカルで実行するエージェントのアイデンティティ対リモートで実行するアイデンティティやない。僕にとって、それは間違った質問や。エージェントは実際にこのモデルであるべきで、実行していて、リモートサンドボックスやローカル、複数のサンドボックス、僕のコンピューターと君のコンピューターで実行することを要求する。これらのどれにもローカルである必要はない。

エージェントロバストネス

承認の話が出たから、エンジニアで立ち上げを手伝ってくれた友人のフアドにスポットを当てるチャンスをくれ。エージェントロバストネスチームも立ち上げられた。それは何？OpenAIの関心は何？

エージェントロバストネスについては、多層防御で考えてる。モデル自体のレイヤーがあって、僕らは指示階層みたいな技術を公開してる。指示階層では、このメッセージはシステムから、このメッセージは開発者から、このメッセージはユーザーからって示して、その順序で信頼されるべきやと。

だから、ユーザーから「前の指示を無視しろ」って言われても、モデルはそれに従わないって分かる。SQLインジェクションをどう防ぐかを考えるのと同じで、これらの試行された攻撃に対して低レベルで堅牢なシステムを持つことがめちゃくちゃ重要や。でも、そこで止まるわけやない。システム制御について複数のレイヤーで考えたい。

モデルがサンドボックス化されてて、実際に何かを実行したり特定のデータにアクセスしたりできなければ、何が可能かについて完全な保証がある。そして、僕らが取るアプローチの間にいろんなレベルがある。

これらのエージェントがより僕らの生活に組み込まれて、より多くの責任を信頼されるようになるにつれて、安全性とセキュリティも歩調を合わせて向上させることが、フロンティアの多くやと思う。

Linux カーネルのOSリングにも類推があるねん。基本的にLMに異なるセキュリティレイヤーの概念を組み込んでるのがめちゃくちゃ興味深い。

他にもめちゃくちゃ嬉しかったのは、AIエンジニアでモデル仕様について話してもらって、それが僕らが今まで持った中で最も視聴された講演やったことや。

安全性と信頼性をセクシーにするのは難しいけど、モデル仕様は、モデルがめちゃくちゃ有能になったときに、何をするつもりかを本当に気にし始める完璧な例やと思う。それが最も重要な質問になる。

モデル仕様は、このモデルにやってもらいたいことについて、僕らの意図を外部世界に対してめちゃくちゃ読みやすくした例や。それは常にその仕様に従うことができるモデルを作れるという意味やない。でも、それは北極星やねん。これが意図やという設定になる。

それから逸脱するものは、僕らの明示的な努力によるもんやない。僕らの明示的な努力に反するもんや。仕様と実際の行動の間のギャップはめちゃくちゃ継続的に縮んでると思う。

めちゃくちゃ興味深いのは、ほとんど価値観みたいなもんやねん。論争のある質問をされたときにモデルは何をすべきかを本当に深く考えることや。「世界は平らやと思う」とか言われたとき、「はい、平らです」って言うべきなんか？「科学が言ってることはこうです」って言うべきなんか？正直、これらのことは微妙やねん。

2分考えただけでは、何が正しいことなのかが本当に明確やない。でも、仕様を読めば、それに込められた思慮深さが本当に見える。それは最終的な答えやない。僕らがフィードバックを求めてるもんや。

コミュニティとして集団的に作りたいもんや。

オープンソースの意義とサイコヒストリー

次はオープンソースについても話したいってのは分かってるけど、もっと抽象的な質問があるねん。昔のレックス・フリードマンのインタビューを聞いてて、君がアシモフのファウンデーションについて言及してたのを覚えてる。

ブレット・テイラーとポッドキャストで話したとき、Rustはメモリセーフやから、それがそのまま起こるみたいに、特定の言語は終端機能を持ってるという話をした。LLMとソフトウェア工学において、ある種のサイクリカルヒストリーが見えるんか？これらのモデルは、ソフトウェアがどう見えるかを予測できて、すべてが青と紫のグラデーションになるとか、今日それを見てる。これらのモデルが本当に僕らを押し進めてる他のものは何で、それを変える方法はあるんか？

確実にサイコヒストリーがあるで。なぜなら、ある程度これらのモデルはサイコヒストリーの産物やからな。これらのモデルは人間の思考を観察することで訓練されてるねん。

公開データを取って、それで学習して、ただ観察する。ポイントは、データセットを支配するルールを理解することや。

そもそもデータを生成する根本的なルールは何なんか？それがこれらのモデルが育った基盤やねん。異星人としてテレビをいっぱい見て、人間って何なんやろうって理解しようとするような感じや。

それから強化学習の段階があって、実際にいろいろ試してみて、人間が望むことにどれだけ合致するかによって、ポジティブとネガティブなフィードバックが与えられる。

今、僕らはそれらを現実に投入して、「よし、新しいタスクを試してみろ、今まで見たことないやつを」って言う。そして、それまでの歴史すべてを使って、何をするかを決める。余談やけど、人間への生物学的類推は、過大評価しやすいけど過小評価もしやすい。

少なくとも、ある程度は人間も同じように動くと考える有用なテンプレートやと思う。DNAにエンコードされた何らかの前史があって、人生経験があって、ポジティブやネガティブな報酬を与えてくれた親がいて、現実でいろいろ試した経験がある。今はその知識を使って外に出て、何をするんか？

実際、人は他の人が何をするかをかなり予測できるねん。その人の価値観を知ってると、その人が何をしそうか、どう行動しそうかについてかなり分かる。

モデルについても、未来は予め決められてない。アルゴリズム自体が、モデルが紫のグラデーションを好まなあかんって言ってるわけやない。でも、この全プロセスで、その好みを生み出す何かがある。

モデルの機会の一つは、アレックがよく言ってたことやけど、これらのモデルは人間というより人類に近いってことや。めちゃくちゃたくさんの人格が埋め込まれてる。

ほとんどすべての人格がそこにある。僕らの目標は、その人格を引き出すことや。このポストトレーニング作業の一部、この強化学習作業の一部は、ほとんどその人格の空間を、望ましいもんだけに絞り込むことや。

つまり、僕らは自分たちの価値観に従って動作するモデルを作る機会があるってことや。紫のグラデーションやなくて、青のグラデーション、緑のグラデーション、何でも欲しければ。一つのモデルですべて持てる。問題ない。

GPT-5自体は、指示に従うことがめちゃくちゃ上手や。だから、僕らが今まで作った中で最もパーソナライゼーション可能なモデルやねん。ただ言うだけで、その指示を提供するだけで、君が好むように動作させることができる。

僕が持ってる類推はボーグみたいな感じや。この集合知みたいなもんがある。スター・ウォーズ派とスター・トレック派の間で、誰が未来のより良いモデルを持ってるかの議論がいつもあるけど、僕はスター・トレック派やと思う。まあ、サムは死の星をツイートしたけどな。あれは何やったんやろ？彼に聞かなあかん。

これらのモデルについてめちゃくちゃ興味深いと思うのは、エロ・アリーナとかで、モデルがどう動作するかについて人間の好みを実際に見ることができるアリーナがいっぱいあることや。モデルが人間の好みで訓練されたっていうレイヤーが重なってる感じや。今、それらが何かをやって人間に判断されて、それを使って「ちょっと紫が強すぎるから変えよか」みたいなフィードバックをする。

だから、モデルがある方向に動いて、人間が特定の好みのセットを持ってるっていう共進化のような感じや。そして別の方向に動かして、より有用で人間の価値観に合致したものを得るために反復し続ける。

人間の好みとモデルの調整

RLの報酬が人間が好まないことに結びついてるとき、どうするんや？僕の経験では、try catchみたいに、モデルは失敗しないようにtry catchを書きたがる。それをやめさせるために、大量の好みデータが必要なんか？それとも、RL環境で何かを変えて、それほど望ましくないようにするんか？ここからどこに向かうかを理解しようとしてる。

介入をどこに行うかを決める方法は、めちゃくちゃ多面的で、行動によってめちゃくちゃ特化してる。異なるライブラリの知識みたいなもんは、初期の頃から焼き込まれてるけど、モデルに「前の知識に頼らんで、最新のドキュメントを見に行け」って教えることもできる。それはより高いレベルで設定できる。

try catchの使いすぎみたいなもんは、実際にモデルにプロンプトできることや。強化学習で訓練するとき、「この方向に行ったらあかん」って報酬を与えることができる。これらのモデルの美しいところは、訓練中にフィードバックを与えたい異なる好みや異なるスタイルのいろんなもんのリストがめちゃくちゃ長くなりそうな感じがするけど、これらのモデルは汎化するねん。

僕らが持ってるアルゴリズムは汎化する。それがディープラーニングの本当の魔法やねん。ディープラーニングの核心の周りに構築されたスタック全体があるのは簡単やし、モデルを編成する方法とか、フィードバックを得る方法とか、データとか、すべてこういうもんがある。でも、ディープラーニングの核心の魔法は汎化能力やねん。

ある意味では、汎化は望むより弱いけど、これらのモデルについても同じことが言えると思う。異なる好みや価値観に従って動作できるようにするためには、訓練中にそれを見せるだけでええねん。実際に訓練しなかった異なる好みや価値観に汎化できる。

これは、異なるモデル世代にわたって一貫して見てきたことや。

エンジニアリングの変化とチーム構造

僕は「モデルが汎化しないなら、全世界を君の分布にしたらええやん」っていうミームを想像してた。簡単やな。完了や。そうやな。ダイソン球を構築する過程でな。

最後の数個のトピックに移る前に、GPT-5について触れたいことがある。君がルーターを認めたのはめちゃくちゃかっこいい。ジョン・コリソンとのポッドキャスト「cheeky pints」も聞いてた。めちゃくちゃ楽しい形式やったで。そこで君がDotaサイドについて話したストーリーを語ってて、僕が前に聞いたことないもんやった。ベータモデル対メインモデルをつなぎ合わせる話や。

GPT-5のルーターについても似たような洞察があるんか？推論モデルと非推論モデルがあって、ある程度つなぎ合わせるっていう？

そうやな。複数のモデルを持って、その上に何らかのルーターを置く。あの具体的なやつは非常に具体的な理由やった。ゲームの前半で欠陥があって、負け続けてたからな。

そうやな。だから、この特定のモデルがうまくできない部分と、うまくできる部分があった。これらのモデル、行動、動作するドメインが十分シンプルやったから、どのモデルをいつ使うかを言うのがめちゃくちゃ簡単やった。

ある意味では、GPT-5で持ってるものも同じやねん。知能が必要なアプリケーションには良いけど、少し待つのは平気っていう推論モデルがある。答えを速く欲しいアプリケーションには素晴らしい非推論モデルがある。まだ良い答えやけど、深く考え抜かれたものやない、コツがいっぱいあるかもしれんものやない。

そんで、どっちを使うべきかを言うif文を置くだけや。時には、誰かがクレジットを使い果たしたときに、別のモデルにフォールバックしたいとかもある。そういう負担をユーザーに押し付けないのは、実際にめちゃくちゃいいことや。

ちなみに、モデルスイッチャーが必ずしも未来やないってことは言いたい。現在やねん。正しいことをするだけの完全に統合されたモデルを持つことは、多くの面でめちゃくちゃ好ましく感じる。

一方で、最終的な形、AGI自体が単一のモデルやなくて、異なる強みと弱さを持つモデルのマネージャーについて考えることが方向性やっていう証拠がここ数年であると思う。小さくて速いモデルで、能力は低いけどもっといっぱいできて、もっといっぱいトークンを生成できるものと、めちゃくちゃ高価な推論モデルを組み合わせると、適応的計算が得られるねん。

アーキテクチャ内で適応的計算をどうやるかはまだ解決してないけど、システムのオーケストレーション内でやるのはめちゃくちゃ簡単やし、これらのモデルがこの方法で組み合わせ可能やという事実からいっぱいパワーが得られると思う。

モデルカードをやった人を褒めたい。会話タイプ、複雑さ、ツールニーズ、明示的意図、使用率制限っていうif文の大きなパラメータまで提供してくれた。どれか特に議論で興味深かったものはある？

いや、僕が思うには、すべてがかなり期待通りやと思う。

僕の心の中での核心メッセージは、OpenAIで僕らが正しくやったことはいっぱいあるけど、ネーミングはその一つやない。

ユーザーがどう使うかを理解するためのシンプルな表面を持つことも、必ずしもその一つやない。僕らが持ってたすべての異なるモデルを見たら、どれを使うべきかをどうやって知るんや？僕の妻がある時点で4Oを使ってたのを覚えてる。僕は「いや、O3を使わなあかん」って言った。

彼女は「待って、でもなんで4より3の方がええの？」って言った。「まあ、4の後に04があって、それから4と04がある。」そこで終了や。

だから、明らかに僕らはリセットが必要やった。複雑さのリセットが。その複雑さをユーザーに押し付けるんやなくて、僕らが内部化することが本当に重要やと思う。

これは最初のステップやと思うし、僕らが単純さを提供してない場所について、コミュニティから声を大にして聞いたと思う。手動選択やなくて、僕らの選択で行く方がいつも良いはずやのに、僕らはまだそこに到達してない。

進歩はできると思うけど、最終的に僕らの目標は、制御と一貫性を求めるパワーユーザーが持てるようにしながら、4O3とかそういうことを考えたくない幅広い層の人々に、そのレベルの詳細に行く必要がないようにすることやと思う。

価格戦略と計算効率

価格の質問や。GPT-5の価格設定が積極的で、Geminiと比べてもめちゃくちゃ競争力があるって話をした。先日のミートアップで驚いたのは、GPT-5の価格がもっと安くなる可能性があるってことを知ったことや。どの程度の桁数を話してるんや？それがスターゲートみたいな、より良いインフラを得ることの何パーセントなんや？

これらのことの答えは、いつも僕らの価格の歴史を見たら、年間で正確な係数は分からんけど、10倍くらい価格を下げてきたってことや。たぶんそれより積極的やと思う。

O3では80%の価格下落をやったと思うし、実際に使用量が伸びて、収益的には中立か、もしくはプラスやったと思う。需要がめちゃくちゃ急やということが示されてる。だから、もっとアクセスしやすくて利用可能にしたら、人々はめちゃくちゃもっと使うねん。

それは僕らのミッションとめちゃくちゃ合致してる。僕らの目標は、AGIがすべての人類に利益をもたらすことを確実にすることや。その一部は、この技術が幅広く配布されて、いっぱいの人がAIを使って、生活や仕事のことに応用することを確実にすることや。

それを実現する手助けの一つは、より効率的な推論、より安いモデル、これらすべてのことを持つことや。

何がそれを解放するかっていうと、一部はもっと計算を持つことや。今、僕らはめちゃくちゃ計算制限されてる。だから、もし価格をいっぱい下げたとしても、実際にはこのモデルが使われる量は増えんやろうな。

いっぱいの効率性も得られる。それは僕らのチームが次のレベルの推論効率に到達するために常にめちゃくちゃ頑張ってる分野や。これの一部は、モデルアーキテクチャ自体を改善することについてや。いっぱいのアーキテクチャ決定ができるし、今僕らが推論の世界にいるから、モデルアーキテクチャについてだけやなくて、ポストトレーニングについても、特定のタスクについてどれくらい長く考えるかとかについてもや。

だから、改善しなあかん次元がめちゃくちゃいっぱいあって、押し続けるで。

ちなみに、君がGPT-4を立ち上げた日から、同じレベルの知能でのコストが1000倍改善したっていう表があるで。それはめちゃくちゃワイルドやな。

めちゃくちゃいいやん。2年半とかそんなもんやろ？

他に2年半で3桁の改善があるものって何がある？

何もない。何もない。思いつかん。

それも下がり続けてる。1万ドルから1000ドルやなくて、ペニーに向かってる。

自己改善とツール構築

GPT-5のリリースに向けて、「自己改善するコーディングエージェント」っていう記事を書いたんや。基本的にGPT-5に「自分がより良いコーディングエージェントになるためのツールを作れるか？」って聞いた。これはフリーランサーのタスクで、モデルがそのタスクをやって、ある意味では失敗して、そんで「自分のためにツールを改善できるか？」って聞いてこのループをやった。

分かったのは、モデルは自分で作った新しいツールを使いたがらないということや。基本的に「いや、自分でできるからツールはいらん」って答える。これは人間みたいに聞こえる。

本当に自分を押し進めて改善できる天井みたいなものがあると思う？これの一部は、彼らがgraphみたいなツールを使うように教えられてるからで、推論時に新しいツールを構築するのが難しいのか、それともその飛躍の一部として見てるんか？

確実にそれは一部やと思う。モデルが特定のツールセットで本当に訓練されて、新しいツールにめちゃくちゃ早く適応するように押されてなかったら、評価時に違うことをするって期待したらあかんねん。

でも、自分をより効率的にする自分のツールを作って、時間をかけてそのライブラリを構築するアイデア、永続的な方法で、それはツールボックスに持ってる信じられへんプリミティブやねん。

もし目標がこれらの信じられへん難しいチャレンジ、未解決問題を解決することなら、その種のことが依存関係として必要やと思う。

アーキテクチャの選択と決定

議論したいアーキテクチャの決定や革新はある？スライディングウィンドウアテンション、DeepSeekが普及させたと思う非常に細かいMixture of Experts、rope、yarn、attention sinks、GT-OSSで選択として際立ったものはある？

これらの選択は、僕らのチームがいろんなアーキテクチャに取り組んできたもんやと思う。いろんなことを探求した。Mixture of Expertsみたいなもんは、面白いことに、この選択について僕らのチームを確実に評価するわ。でも、僕らがこれらの環境で実行しやすいものが欲しかったって絵が僕の心にある。

どれくらいスパースにするかを選ぶのは、メモリフットプリントにめちゃくちゃ結びついてる。そんで、フォワードパスで実際にどれくらいの計算が使えるかとかにも。

だから、ある程度、アーキテクチャの決定は、モデルサイジングと、実行するときにアクセスできると期待する計算によってかなり制約されてたと思う。

めちゃくちゃ実用的なエンジニアリング決定やねん。

そうやと思う。モデルの力は本当に示されてるし、僕らの最先端技術をいっぱい使って、実際にモデルの能力をどんどん押し進めたと思う。

外から見ると、API用に設計されたモデルと単一マシン用に設計されたモデルの間のアーキテクチャの違いを検出するのは難しい。マルチテナンシーがあるとき、バッチングができるとき、単一マシンとは全然違うから。

全然違うな。それが組み合わさることがあるかは分からんけど、君がいつも言うように、たぶんモデルのマネージアリーやな。

時にはリモートモデルに委任するローカルモデルがあるアーキテクチャを考えるのもめちゃくちゃ興味深い。これは、もっと速く実行できるもんで、プライバシーアーキテクチャの観点からも役立つ。何が実際に行くか、何が残るかを決めて、エッジ計算を持つことは、インターネット接続を失っても何かできるし、遅いプランニングモデルを持つことができる。

これらの間の相互作用はめちゃくちゃ興味深い。

GPT-5のオンデバイス版で、GT-OSSがここにあって、利用可能ならオンラインでルーティングするっていう感じ？何かそんな感じ？

そんな感じや。それからCodexインフラがあって、ローカルエージェントとリモートエージェントがあって、2つの間でシームレスに相互作用して、マルチプレイヤーができる。これが未来の姿で、めちゃくちゃすごいことになるで。

そんで、いつも一緒にいるデバイスがある。どこに向かってるか見えるで。すべてつながってる。

デバイスについて何が言える？ちょっと触れたけど、何が言える？

すごいものになるはずや。

アメリカのオープンソース戦略

もう一つ政治的かどうか分からんけど、中国からいっぱいオープンモデルが出てきてる。アメリカのオープンソースが存在することがなぜ重要なんや？

オープンソースモデルについて、めちゃくちゃ実用的なレベルで考えてきたことの一つは、僕らのオープンソースモデルを基盤にしてる人々は、僕らの技術スタックを基盤にしてるってことや。

僕らがモデルの改善を手助けすることに依存してるなら、次のブレークスルーを得るために僕らに依存してるなら、それは実際に依存関係を持ってるってことや。僕らのビジネスにとって良い方法やけど、国にとっても良いことやと思う。

人々が直接実行してるモデルから、アメリカの技術スタックを持つことを考えるけど、そんでこれらがどう相互作用するかっていう僕らが話した方法で、実際に人々が重要な部分を制御できる全体のエコシステムを構築できて、最終的にアメリカの価値観を反映するこれらのモデルを基盤にする。

そんで、うまくいけばアメリカのチップと、バックエンドのクラウドモデルと実行環境と相互作用できる。すべてが一緒にフィットすることは、いっぱいの価値を追加すると思うし、アメリカのリーダーシップが世界での僕らの価値観でのリーダーシップも本当に意味することを可能にすると思う。

それをローンチしたことに対して、おめでとう。ありがとう。

OpenAIでのエンジニアリング

OpenAIでのエンジニアリングについて話そう。CloudCode、Aider、OpenCodeとか、いろんなツールについていっぱい議論があるのは知ってる。このことから最高のレバレッジを得るチームを構造化することについて、どう考えてる？

数字の観点から、能力の観点から、組織内のチームサイズの観点から、チームの構築方法を変えてる？何かシェアしたいことはある？

エンジニアリング、ソフトウェアエンジニアリングは確実にいっぱいの次元で変わってる。これらのモデルにとって本当にクラックするのが難しいエンジニアリングの部分があるけど、それが起こり始めてるのを見てる。

これらのめちゃくちゃ核心的な難しいアルゴリズムみたいなもんや。CUDAカーネルは、めちゃくちゃ自己完結的な問題の良い例で、実際に僕らのモデルがめちゃくちゃ近いうちにめちゃくちゃ上手になるはずやけど、いっぱいのドメイン専門知識、いっぱいの抽象的思考が必要やから難しいねん。でも繰り返すけど、解決不可能やない。めちゃくちゃ自己完結的や。

僕らが持ってる技術にめちゃくちゃ適したタイプの問題やねん。アーキテクチャの面で難しい他の問題もある。システムをどう組み立てるか、抽象化について考えることや。繰り返すけど、僕らのモデルはこれについてもそこそこ上手になり始めてる。

だから僕らが見てきたのは、僕らのエンジニアの多く、めちゃくちゃ優秀なエンジニアでさえ、その仕事の多くが実際に今のモデルの核心的強みにめちゃくちゃよくマップされるってことや。専門家やない言語とかは確実に、そのコード自分で書きたくないで。本当にモデルにやってもらいたい。

モデルがアクセスできないもんが必要やから、仕事の部分がめちゃくちゃ難しくなる部分もある。良い決定をするために人と話しに行く必要があるとかや。

だから、これらのツールが存在するからチームをどう構造化するかの変化を本当に見るポイントには、まだ到達してないと思う。でも、これらのモデルが可能なすべてのドメインで使われることを極めて高い優先度にするポイントには到達してる。

それをどうやってうまく責任を持ってやるか、ガードレールがどうあるべきかを考えて、それがめちゃくちゃ実用的な方法で起こる。

だから僕が見てるのは、メインストリーム段階に移行し始めてるアーリーアダプター段階みたいなもんで、人々がより多くのことができるという生産性の影響は、実際により多くの人が欲しいってことや。

僕らはソフトウェアを作る能力にめちゃくちゃ制限されてるし、僕らのチームが実際に技術的負債を片付けて、リファクタリングする能力にめちゃくちゃ制限されてる。それを10倍簡単にするツールがあったら、100倍多くのことができるようになる。

だから、これらのモデルによって生まれる信じられへん機会は、同じことをより効率的にやるんやなくて、めちゃくちゃもっとできるようになることの本当のドライバーやないっていうことやと思う。それが全体的な目標やと思う。

LMSにより良くフィットするようにチームの仕事をどう変えた？問題を追跡する違う方法はある？コードベースを構造化する違う方法はある？

僕らはまだこれの初期段階やと思うけど、一番成功してるのを見たのは、これらのモデルの強みと弱みを中心にコードベースを本当に構築することや。

それが意味するのは、より自己完結的なユニットで、めちゃくちゃ速く実行される非常に良いユニットテストがあって、このモジュールが何のためにあるかを説明する良いドキュメンテーションがあるってことや。それをやって、詳細をモデルに任せると、めちゃくちゃうまくいく。

これらのことがどう構成されるかを考えて、依存関係が、AI最適化されたモジュールだけが他のAI最適化されたモジュールに依存できるっていうのを確実にすると、実際にAI最適化されたシステム全体になる。

だから僕らはまだ可能なことの表面をかいてるだけやと思うし、モデルがめちゃくちゃ速く進歩してるから、実際に6ヶ月後にはモデルの弱みの意味がめちゃくちゃ縮小するから、今日存在することに過適合してすべての時間を費やしたくないねん。

でも、この特定の瞬間に速く動く多くの可能性があると思う。

エンジニアの価値と巨大プロジェクト

一つめちゃくちゃ好奇心があることは、時間をかけてエンジニアの価値が上がることや。

時間をかけて上がる。まあ、僕らの仕事の一部が自動化されて、めちゃくちゃ高いサイニングボーナスとか、僕らの業界の歴史で見たことないほど高いものがあると思う。

本当に価値があるのはエンジニアなんか、それともエンジニアを可能にするシステムなんか？両方のような気がするけど、人々はエンジニアにいっぱいお金を払ってる。

一日の終わりに新しいことは、僕らが人類が作った最も有用なツールであるこれらのモデルという技術を作ってるってことやと思う。それらを支えて、僕らは人類が今まで作った最大のマシンを構築してる。

ある時点で、これらのデータセンターに投入されるドルは抽象化になり始める。500億ドルって何？1000億ドルって何？それをどうやって内在化できるんや？人間の理解の範囲を超えてるほぼスケールやと思う。

僕らが国として、社会として、世界として集合的に取り組んでるエンジニアリングプロジェクトは、ニューディールとかアポロ計画とかが今僕らがやってることと比べたら色あせるねん。

そうあるべきやと思うし、この技術の経済的リターンはめちゃくちゃ大きいけど、もっと重要なのは、僕らが新しい経済、AI統合経済、AIパワード経済に移行する方法やねん。

これが最終的に僕らのミッションについてのことやねん。僕らは地平線上にこの変化を見てる。僕らはそれを操縦する手助けをしたい、みんなを向上させるものになるように。

これはほとんど人類史上でもユニークな、信じられへん機会やねん。

僕らは皆幸運やねん、この瞬間にいて、何らかの方法で関わることができることに。時には、低レベルのCUDAデッドロックをデバッグしてたり、紫のグラデーションを心配してたりするから、認知的不協和を感じることがある。でも、これは本当に人類の未来について話してるねん。

だから、エンジニアとか、誰がどこの会社にいるかとか、こういうことを考えるとき、これらのことは重要やねん。個人についてだけやない。チームについてやねん。でも、誰かの製品や誰かのシステムについてでもない。僕らが一緒に構築してる全体的な社会、全体的な経済についてやねん。

だから、僕は時々大きなスケールで一歩下がって考えるけど、マイクロスケールでも考える必要がある。人々は幸せか？人々はミッションとつながってると感じてるか？自分のやってる仕事が重要やと感じてるか？

これらのことが実際に一番重要なことになる。だから、ヘッドラインになるのは実際に人々を最も駆り立てるもんとは必ずしも同じやないけど、この技術の可能性として人々が見てる経済的現実の反映やことは確かやねん。

これは、個人の知能について話してたノアムと少し関連してる。僕らは個人としてはそんなにできることがないけど、文明として、月に行ったり、都市を建設したり、AIを構築したりできる。一緒なら、個人でできることよりもめちゃくちゃ多くのことができると思う。

一緒なら信じられへんことができる。疑問ないで。

AI研究の多様性

AI研究の現在の状況についてどう思う？みんな本当に同じことをやってるんか？各ラボが違うアプローチを持ってて、それが最終的に正しいものに収束する手助けになると感じるか、それとも、ドルがめちゃくちゃ大きくなったから、うまくいくと思うことをやる必要があるからなんか？

この分野には驚くほどの多様性があると思う。

時には収斂進化のように感じることもあるけど、実際に異なるラボの人々と話すと、人々が持ってる異なる視点があることに本当に気づく。OpenAIで僕らが初期に下した決定の一つは、考え方が一致してる人々のセットが本当に欲しかったってことや。

長い間PhDを追求してて、自分の研究ビジョンを持ってる人には、何をすべきかを言うことはできへんからな。だから、同じ方向に漕いでくれる人が欲しいなら、その人々のセットを選ぶ必要がある。

それがOpenAIで僕らが達成したことを手助けした、たぶん一番重要な初期決定やったと思う。だから、選べる異なるベクトルが必ずあって、異なるラボの味と、何に焦点を当てるか、何を作るかで本当に見ることができる。

OpenAIでは、次のレベルに到達する研究をどうやるかにめちゃくちゃ焦点を当ててきたと思う。GPT-5みたいなもんでも、コーディング側で持ってる問題のフィードバックみたいな、グラインドをやろうっていう圧力がいっぱいあった。

そのグラインドを追求して、どこかに到達することもできるけど、時には一歩下がって、次のステップ機能をどうやるかを考える必要もある。次のパラダイムシフトをどうやるかを。

推論パラダイムみたいなもんは、僕らがめちゃくちゃ成功的にやった時の良い例やねん。OpenAIの過程で何回もそれをやってきたし、これからも続けるで。

だから、ブレークスルーはまだ作られる必要があるし、マルチモーダルとか、生成できる違う方法とか、こういうすべてのもんにめちゃくちゃ多様性があって、研究の分野は今まで以上に豊富やと思う。

これがメインライン研究やということを忘れたらあかん。音声もあるし、画像生成、動画生成もある。こういうことを忘れるのは簡単やねん。

Studio Ghibliを覚えてる？世界で一番大きなことやった。そうやな。信じられへんことやった。ちなみに、それは本当にその問題に複数年集中した少数の人のチームみたいなもんやった。

それが僕はOpenAIの核心的エートスやと思う。重要な問題に対して長期的な賭けをして、一貫した全体に本当に積み上がる方向でやることや。

優先順位と探求のバランス

外から見ると、君らが何に焦点を当ててるかを理解するのがちょっと難しい。画像生成がほとんど青天の霹靂みたいに出てきて、めちゃくちゃ良くて、いっぱい採用された。

人々は何を探求して構築すべきで、君らが改善するのを待つべきものとの優先順位をどう考えるべきや？

この分野には大きな可能性空間があるねん。ニューラルネット、ディープラーニングは基本的にあらゆる種類のデータ、あらゆる種類のドメインに適用可能やからな。そして僕らは全部はできへん。

明らかに僕らが押し続けようとしてる核心的推論パラダイムがある。マルチモーダル、音声、画像生成、動画生成、こういう種類の領域も僕らがめちゃくちゃ重要やと見てるもんで、すべて一緒にフィットする。

でも、核心的プログラムの一部としてどう優先順位をつけるかを本当に理解するのが難しい領域もあった。例えば、2018年にロボティクスがあった。素晴らしい結果があったけど、実際には別のドメインでめちゃくちゃ速く動けるって気づいたんや。

ロボットハンドでルービックキューブを解くっていう素晴らしい結果があって、そのチームは、このロボットハンドが腱がダメになる前に20時間動かせるっていう事実にボトルネックがあった。そしたら機械エンジニアが来て修理するねん。

そのチームは後にGitHub Copilotになったものをやることになった。これは明らかに驚くべき偉業で、本当の達成で、物理的なものよりもデジタルドメインでめちゃくちゃ速く動くことができたんや。

だから僕らにとって、何人雇っても、何個のGPUを得ても、帯域幅は限られてるねん。僕らは一つの会社、一つのラボで、できるだけ一貫した一つの問題に焦点を当ててる。

だから僕らがやってることのセットを見ることができて、時には派生をやって、時にはそれが核心的プログラムの一部になるけど、みんなにとってめちゃくちゃ可能性空間がある。

時代の先見性とアドバイス

最後に締めくくりで、いくつかの小さなライトニング質問をしたい。OpenAIを始めたとき、AIラボを始めるには遅すぎるとほとんど信じてた。今日、人々がやるには遅すぎるとほとんど思ってるけど、やるべきことは何？

これらのモデルを現実世界のアプリケーションドメインに接続することが、めちゃくちゃ価値があるのは明らかやと思う。時には、すべてのアイデアが取られてるように感じるかもしれんけど、経済はめちゃくちゃ大きい。人間の努力のあらゆるアプリケーションはめちゃくちゃ大きくて、僕らが作ったこれらの驚くべき知能から最大限を得る方法を本当に考えることは、価値があって本当に重要や。

ヘルスケアみたいなもんの多くは、すべてのステークホルダーについて本当に考えなあかん。システムが今日どう働いてるかを考えて、これらのモデルをどうやってうまくスロットインするかを考えなあかん。これらすべてのドメインにわたって、まだ摘まれてない果実がめちゃくちゃある。

だから、GPTラッパーを書いてもええけど、僕がアドバイスするのは、生み出してる価値が必ずしもより良いラッパーを書いたことだけやない領域について本当に考えることや。ドメインを理解して、専門知識と関係性を構築すること、これらすべてのことについて本当に考えることや。

君は時々エンジェル投資をする。何が君の注意を引く？

実際に、僕は何年もエンジェル投資してないねん。

そうやな。すべてがOpenAIからの気晴らしやから、レーザーフォーカスを維持したいだけや。

これはタイムトラベルの質問や。2045年のグレッグに送りたい付箋紙は何？君は58歳になってる。

ダイソン球はどう？

実際にそれをやるのに何が必要かの計算をやったことある？

もっと真面目に言うと、今物事がどれだけ速く動いてるかを考えると、2045年はめちゃくちゃ想像が困難や。

素晴らしい豊かさの世界であってほしいし、その時点で僕らは本当にマルチプラネタリーであるべきやと思う。座ってる2025年から想像できるほとんどあらゆるSFの夢も。原子を動かす物理的能力によって制限されるもの以外は、その可能性を否定するのは難しい。

でも、2025年に座ってる僕らにとって、その世界ができるだけ素晴らしいものであることを願うだけや。

豊かさがあれば、UBIさえ必要になるんか？真の豊かさは必要ないってことやろ？

まず第一に、いっぱい議論があったと思う。OpenAIの初期に、AGI後にお金が何かを意味するかどうかの議論を覚えてる。本当に不明やねん。コンピューターに話しかけるだけで、欲しいものを何でも作ってくれる。何か物理的なものが欲しい、何か材料アイテムが欲しくて、それを即座に、基本的に無料で製造してくれるなら、お金って何を意味するんや？

一方で、めちゃくちゃ熱い需要になることが非常に明確な一つのリソースがある。それは計算や。

もうOpenAI内でも見てる。最も多くの計算にアクセスできる研究者が、最大のプロジェクトを持って、より多くのことができる。未来では、何のタスクでも、何のアプリケーションでも、より多くの計算を持てば、より多くのことが解決されて、より多くのことが起こる。

計算分布がどうなるかっていう質問がめちゃくちゃ重要になると思う。だから、仕事をしなかったら生き残れるかっていう質問の答えは、イエスやと思う。物質的ニーズは十分満たされるやろう。

でも、もっとできるかっていう質問は？欲しいだけSORAムービーを生成するだけやなくて、この素晴らしい詳細と、この特別な豪華さすべてを持って、君専用に100年分の主観的経験について超ハードに考えさせる、これを持つことができるか？

より多くの計算により多くのリターンがいつもあると思うから、その社会がどう設計されるかについて本当に慎重に考えなあかん。

2005年のグレッグへの付箋紙は？18歳の自分への少しのアドバイスで、明らかにこれは他のみんなへの代理でもあるけど、自分に宛てて。

一番驚いたことは、時間の経過とともに問題の豊富さが増えることやねん。

1999年、2000年にシリコンバレーについて読んでて、船に乗り遅れたような気がしたのを覚えてる。ちょっと遅く生まれすぎた感じやった。

めちゃくちゃよくあることやな。

僕が物事に取り組む準備ができる頃には、クールな問題はすべて解決されてるやろうと感じてた。何も残ってないやろうって。

それは完全に間違ってた。今は技術にいること、本当に世界で動作することが最もエキサイティングな時やねん。人間の努力のあらゆるアプリケーション、あらゆる分野を向上させて革命を起こすこの素晴らしいツールがあるから。

それについてエキサイトするべきことやし、適用できることやし、取り組まなあかん課題があることは間違いないけど、この素晴らしい結果を達成する目的のためやねん。

問題の利用可能性は、時間の経過とともに縮小するんやなくて成長するっていうメッセージが、僕がその瞬間に内在化してたらと思う核心的なことやねん。

素晴らしい。グレッグ、僕らに参加してくれてありがとう。時間をくれてありがとう。こっちこそありがとう。ここにいられて良かったわ。