この動画では、AI専門家が自身の過去の予測の失敗について率直に振り返る。特にOpenAIの推論モデル「Strawberry」を「単なるチェーンオブソート推論の焼き直し」と過小評価したツイートが大きな誤りであったことを認めている。推論モデルが実際にAI業界に革命的な変化をもたらし、数学やコーディング問題の解決能力を飛躍的に向上させた現実を踏まえ、予測の難しさと自己反省の重要性を論じている。また、OpenAIの新機能Pulseについて、インフラエンジニアの視点から開発背景を分析し、GPU利用率最適化の観点から生まれた可能性を示唆している。

OpenAIの推論モデルがもたらした革命的変化
OpenAIが推論モデルをリリースしてからちょうど1年が経ちました。そして振り返ってみると、2020年代において推論モデルは本当に全てを変えたのです。あらゆる企業がStrawberryと呼ばれていたOpenAIの研究を模倣しただけでなく、数学やコーディング、その他多くの問題解決において次のレベルに到達したのを目の当たりにしました。
もちろん、Gary Marcusのような否定論者たちは今でもLLMは限界に達したと主張していますが、彼がそう言うたびに、それが間違いであることが証明されています。彼は基本的にAI世界の逆クレーマーになってしまっています。
自分自身への説明責任
しかし今日は、私自身の説明責任について少し話したいと思います。Gary Marcusのような人々が事前確率や信念を更新しなかったり、自分のアイデアについて全く振り返らなかったりすることを批判することはできますが、私の場合はそうではありません。
ちょうど1年前、私はこんなツイートを書きました。「みんな、Strawberryは文字通り2022年1月に出たチェーンオブソート推論を組み込んだだけだ。OpenAIには何もない。全部ハイプだ。オリジナルのチェーンオブソート論文は2022年1月にNeurIPSで発表された。」これは34万回表示されました。
実際には約28万回の表示でしたが、私の再投稿以降、さらに増えました。これは恐らく私の最悪の予測でした。私は時々性急な判断を下すことで知られており、多くの場合それはほぼ正しいのですが、これは非常に間違っていた時の一つです。そう、「ワオ、これは驚くほど悪い予測だった」と言うのに虚栄心はありません。
そして1年後の記念日、正確には1年と1週間後に、私はそれを再投稿しました。「間違いなく私の最悪の予測。OpenAIの何人かの人がこれで私をブロックし、まだブロックを解除していない」と書きました。技術的には正しいのですが、私はこの開発の重要性を完全に過小評価しました。これは誤字がありますが、要するに私はこの開発の重要性を過小評価したのです。これは恐らく私の最悪の時代遅れの予測で、悪いチーズのように、牛乳のように腐ったものでした。
推論エラーの振り返り
とにかく、それについて振り返りたいと思います。振り返ってみると、なぜそのような推論エラーを犯したのでしょうか。もちろん、Strawberryとは何か、Project Orionとは何か、OpenAIが行っている他のことは何かという期待の高まりがありました。OpenAIはハイプを作ることと神秘的であることが非常に得意で、今はもう少し企業向けになろうとしています。
しかし多くの人が気づいているように、その間に開発はより段階的になりました。それが悪いということではありません。なぜならそれらの段階的な変化が「人類の最終試験」や他のベンチマークを飽和状態にするからです。しかし昨年、推論以来、私たちはゲームチェンジャーとなる開発を見ていません。推論が本当にこの分野を支配しています。
エージェンティック推論の重要性
もちろん、私が考えていること、そして多くの人が考えていることは、エージェンティック推論、つまり長期的な時間軸でのパフォーマンスです。これは単なるモデルではないことを付け加えておきます。はい、基盤となるモデルは、エージェンティックフレームワークがどれだけ良いパフォーマンスを発揮するかに大きく関係していますが、エージェンティックフレームワークは単一のモデル以上のものです。
それはまた、全ての接続、全てのツール、情報の流れ、メモリシステムなど、いくつかのコンポーネントを含んでおり、これらも同時に改善されています。
とにかく、はい、私はチェーンオブソート推論の重要性を劇的に、劇的に過小評価しました。そして、その当時の考え方を再訪することはできませんが、私たちは何が起こっているのかを理解しようとしていました。そしてそれは、彼らが野生でそれを発見し、それが内部実験だったという種類のイノベーションだったかもしれません。
それがどのように進化したのか、私たちは正確には知ることができないかもしれませんが、明らかにOpenAIは何かを掴んでいました。これが私を含む多くの人々の理由です。当時、私はまだOpenAIに対してある程度賭けていました。そして私の聴衆や他の場所の人々の中には、「ああ、OpenAIは勢いを失っている」と言う人がいました。
私は「以前はOpenAIに対して賭けていたが、もうOpenAIに対して賭けるつもりはない。なぜなら、彼らの仕事文化やその他の要因を考えると」と言いました。明らかに彼らはIlia無しでも生き残り、繁栄しています。これは、それが起こるかどうか分からなかったことの一つです。
推論モデルへの反応とIliaの退職
チェーンオブソート、つまり推論モデルへの反応の一つは、「ああ、これは明らかにIliaが見たものだ」というものでした。そうかもしれませんし、そうでないかもしれません。そして私たちは、それが彼らの最後の、最後の種類の活躍になるかもしれないと思いました。
Pulse機能についての洞察
さて、性急な判断について言えば、私には彼らの新しいPulse機能について別の判断がありました。Pulse機能について直接話すつもりはありません。それを批判したりするつもりもありません。皆、OpenAIのUXについてそれぞれ批評を持っています。しかし、元インフラストラクチャの専門家として、Pulseに関する会話がどのように進んだか、かなり確信を持って推測できます。
OpenAIのPulseに馴染みがない場合、アイデアは、あなたのAIが夜間にあなたについて考え、そして朝起きた時に、あなたが何に興味を持っているか、今日考えるべきことは何かといったことを教えてくれるというものです。
彼らがこの方向に進んでいる理由の一部は、メモリが人々が好む主要なUX機能の一つだったからです。「ああ、私についてもっと覚えている」という感じで、これは彼らがコンシューマーモデルで進んでいる方向の一つです。
メモリは必ずしもあなたが誰であるかを覚えることと同じではありません。なぜなら、私たちはユーザーベースを異なるセグメントに分けているからです。すみません、少し複雑になりました。
市場の細分化
私が言おうとしているのは、あなたや私のような通常のエンドユーザー、つまりコンシューマー市場があり、そして全く異なるニーズを持つエンタープライズ市場があるということです。彼らはコード、エージェンティックモデルなどを求めています。つまり、市場の細分化が起こっています。
OpenAIは依然としてコンシューマー市場を支配しています。彼らは最初に市場に参入し、ユーザーベースにおいて最も飽和状態にあります。彼らは依然としてClaude、Gemini、Grokの全てを、エンドユーザーとB2C(企業対消費者)の観点で打ち負かしています。
しかし、彼らはもはやB2Bを支配していません。これがOpenAI、特に彼らのデベロッパーデイやデモデイがより企業向けに浄化されている理由の一つです。なぜなら、ClaudeまたはAnthropicがB2Bに関しては完全に彼らの昼食を食べているからです。OpenAIはまだB2Bの着地を完全に決めていません。
彼らは完全に追い抜かれており、これは私にとって非常に興味深いことです。
Pulse機能の開発背景
とにかく、インフラストラクチャの専門家として、Pulseがどのようにして生まれたかを説明します。彼らは「よし、スプレッドシートを見ている誰かがいて、『よし、私たちはこれらのGPUを全部買ったか、このGPU時間を買っていて、私たちの顧客は、モデルは日中遅くなるが、減価償却の速いこれらの高価なGPUを最大限活用するにはどうすればいいか』と言っていた」という感じでした。
それは恐らくCFOか財務の誰かがスプレッドシートとして見ていたものでした。そしてもちろん、彼らは知りません。財務の人々は一般的にGPUが何であるかさえ知りません。これはOpenAIなので少し違うかもしれませんが、彼らにとってそれが単なる項目である可能性が高いことに驚かないでしょう。
企業での私の経験では、人々は独自のレンズを持っています。財務の人々にとって、それは項目のようなものです。私は「なぜこのサーバーが必要なのか?とても高価だ」といった本当に愚かな質問をされたことがあります。「そのサーバーが私たちが存在する理由だということを理解していますか?」という感じです。
財務の人々は、あなたが実際に何を必要としているか、なぜ必要なのかにつながりません。彼らは「なぜもっと安いサーバーを手に入れられないのか?」と言います。
GPU活用最適化の議論
財務の人が恐らく項目を見て、「これらのGPUがここに座っている。私たちは何をしているのか?」と言っていました。そしてインフラストラクチャの人が電話会議に参加して、「ああ、それらは夜間アイドル状態だから、もっと使いたいなら、夜間に使うことができる」と言いました。
そしてUXやフロントエンドの他の誰かが「でも私たちのユーザーは夜に寝ている」と言いました。そしてエージェンティックチームの誰かが「まあ、私たちにスペアGPUサイクルがある時に、夜間に考えさせることができる」と言いました。そして、タダー!OpenAIの新しいPulse機能の誕生です。
一部の人々は「でも、Dave、OpenAIには世界中にユーザーがいる」と言いました。それは本当ですが、彼らのユーザーの大部分はアメリカにいます。そして調べてみると、高使用時間は午前11時から午後5時の東部時間、つまりそのような時間帯です。
そしてもちろん、対蹠地の反対の時間は、彼らのGPUスタックで最もゆるい時間です。つまり午前2時から、または多分深夜から午前3時のような時間です。
とにかく、彼らにはスペアGPUサイクルがあり、「GPUを価値を追加するために使用していないなら、基本的にそれらでお金を失っている」という感じです。つまり、彼らは常にそれらでお金を失っています。彼らはまだ完全にキャッシュポジティブになっていません。
とにかく、これが現在のOpenAIについての私の深い洞察と個人的な説明責任です。視聴ありがとうございました。良い一日を。乾杯!


コメント