サム・アルトマンがついにGPT-5批判への沈黙を破る!

OpenAI・サムアルトマン
この記事は約16分で読めます。

この動画では、GPT-5の公開後に起こった市場の激しい反応と、OpenAIとGoogleの激しいAI開発競争について詳しく解説している。GPT-5が期待を下回ったとされる中、サム・アルトマンがついに沈黙を破り、戦略的な方向性について語った内容を紹介。さらに、国際数学オリンピックで金メダルを獲得した実験的AIモデルの正体、Googleの革新的な画像生成技術、そして新しいテスト時間計算手法について詳細に分析している。AIの進歩が壁に当たったという議論に対するGoogle DeepMindとMITの科学的反証も取り上げ、AGI実現への道筋を考察する内容となっている。

Sam Altman Finally Broke His Silence on GPT-5 Backlash!
Let me know, what do you think of GPT-5 so far? I think GPT-5 was what I expected but not what I hoped for, useful, fast...

GPT-5への市場の厳しい反応

GPT-5は世間の目にはめちゃくちゃ悪く映ったんや。リリース当日、Poly Marketの8月末までの最優秀モデル予想のオッズがひっくり返ったんや。OpenAIは75%から12%まで暴落し、Googleは25%から81%まで急上昇したんや。

約1週間後、OpenAIが一部のアップデートを部分的に取り消し、Googleが信じられんほど賢い2700万パラメータのGemmaをドロップして、スマホでも動くようになった後、OpenAIは再び3%まで下落したんや。そしてGoogleは92%まで跳ね上がった。

この間ずっと、サム・アルトマンは沈黙を保っとったんやけど、ついに記者団に語りかけて、みんなが間違ったデータを見とるかもしれんし、OpenAIはもっと戦略的な道を歩んでるかもしれんってほのめかしたんや。

Googleの驚異的な画像生成モデル

Googleが世界で最もヤバい画像モデルを出そうとしとるんや。正直、存在するのが不可能に見えるけど、実際に存在しとるんや。これを見てくれや。

プロンプトは「ラーメン丼とラーメンを2D風の手描きアニメイラストのようにしてくれ」や。ビフォー・アフターを見てくれ。冗談やろこれ?

この例を見てくれ。プロンプトは「男性と女性が車の前でペットの犬と一緒に立っている」で、4つの画像を特定のスタイルで組み合わせとるんや。そしてこれを見てくれ。この画像だけから、AIは男性が普通の白いシャツやなくて、シェフコートを着てるって理解したんや。

数学オリンピック金メダルの秘密

このモデルがどこで試せるか見てみるで。そして、GoogleとOpenAIがどうやって国際数学オリンピックで金メダルを取ったかが、ついに分かったんや。それは最もワイヤレスで最も高価なAI技術の一つやった。

オープンソースの320億パラメータモデルが、同じアプローチを使ってDeepSeek R1や o3 Miniのような大型システムを既に上回っとるんや。新しい、まだ公開されてない拡張技術の始まりにいるみたいや。

一部の人らはGPT-5 ProやGemini Deep Thinkが数学オリンピードで勝ったモデルやと思っとったけど、そうやないんや。それらのモデルは実験的なもので一般には利用できへん。

次に、人類最後の試験で新しい世界記録があって、その会社はCaesarって呼ばれとるんや。彼らは違うアプローチを使っとって、後から考えたらめちゃくちゃ当然に思える革新の一つや。映画で1000回ぐらいCaesarみたいな会社を見たことあるわ。そして、もし彼らが実行し続けるなら、他の誰よりも先にあらゆる困難なベンチマークを飽和させるやろな。

AIの壁論争と科学的反証

そこで、AIが壁にぶつかっとるって議論が再び起こったんや。そして、Google DeepMindとMITがもう十分やと思ったんや。だから、科学的かつ実証的にテストする論文を発表したんや。現在のパラダイムの終わりにいるんか?ピークAIに到達したんか?

最後に、僕の今まででお気に入りの人工ジェム セグメントの一つが最後にあるで。見てるだけで楽しい信じられへんデモがあるんや。さあ、やってくれや。

GPT-5の実際の性能

この全体のローンチと賭けサイトについて最もヤバい部分はここやで。GPT-5は既にチャットボット アリーナ リーダーボードでテキストとウェブ開発の両方でトップモデルなんや。そして、このPoly Marketの賭けは8月末までにこのリーダーボードで最高評価のモデルを保持する会社によって解決されるんや。

だから、OpenAIがトップポジションを維持できるって信じとる人はたった4%しかおらへん。現在約600万ドルが賭けられとって、残り約10日で、人々はGoogleが再びナンバーワンに戻ってくるって確信しとるんや。

でも、GPT-5は実際にこの激しい市場反応を受けるほど悪かったんか?OpenAIは、批判の多くが性格の変化によるものやと信じとるんや。

「僕は一夜にして警告なしに唯一の友達を失った。一夜にして変わったという事実は、安定感、慰め、愛の一部を失ったような気分や。」

モデルがより賢く、よりオープンエンドになるにつれて、課題はより複雑で測定と最適化が本当に困難になるようや。そういう文脈で、サム・アルトマンは認めたんや。「僕らはロールアウトで完全にいくつかのことを台無しにしたと思う。数億人の人々のために1日で製品をアップグレードすることの意味についてレッスンを学んだ。」

AIモデルの性格制御の難しさ

でも、AIモデルの性格を制御するのはめちゃくちゃ厄介な問題なんや。それは人間のフィードバックからの強化学習の組み合わせで、これは事前トレーニングの後のステップで、人間が手動または半自動でモデルの特定の行動に報酬を与えるんや。

人々はいくつかのアウトプットを他のものよりも選んで、親指を立てるんや。そのプロセスを通じて、モデルは徐々に特定の方法で行動することを学ぶんや。

性格に影響を与える次の要素はシステムプロンプトや。最初のプロンプトをAIに送る時、それは実際にはAIが入力として受け取る最初のものやないんや。企業はバックグラウンドで行動期待、制限、指示の長いリストを書いて、それを各リクエストと一緒にモデルに送るんや。

「検索が必要な時はこの特定のタグを使え」とか、お決まりの「役立つアシスタントとして行動しろ」みたいなもんや。現代のモデルでは、このシステムプロンプトはツールコーリング、コードの特定フォーマット、検索、画像生成などを全部含めるために数百行になるんや。

実際、GitHubにはリークしたシステムプロンプトのディレクトリがあって、最先端モデルのいくつかが含まれとるんやけど、これらのシステムプロンプトがどんだけ長くて複雑かに驚くで。

だから、モデルの性格はチェックボックスやない。目標、データ、トレーニングから浮かび上がってくるもんなんや。OpenAIは日常的なユーザーにとってChatGPTは既にピークに達したと判断したみたいや。だからGPT-5では、よりエンタープライズワークフローに向けてピボットしたんや。モデルが賢くなるにつれて、価値はより高い努力とより高い報酬のタスクに集中するんや。

企業向けの新しい方向性

だからGPT-5は、ライブストリームで分かったように、コーディングと医療診断に傾斜しとるんや。その声はあまりお世辞を言わず、フレンドリーやなく、もっとクール、論理的、科学的になった。おしゃべりな仲間よりも医者やエンジニアにより適した専門家ペルソナや。

リリース後数日間は明らかにモデルにいくつか問題があったけどな。約2週間後の現在、パフォーマンスについて具体的なデータがあるで。

CNBCの報告によると、OpenAIのGPT-5はデビュー以来コーディングとアプリ構築アクティビティを2倍以上にし、推論ワークロードを8倍跳ね上がらせたんや。GPT-5は絶対的な意味で世界最高のコーダーかもしれんし、そうやないかもしれへんけど、品質対コスト比に関しては最高の選択肢みたいや。

Claude Opusより約7倍から12倍安く、Claude Sonnetよりもさらに安いのに、めちゃくちゃ高性能やねん。Gemini 2.0 Proと対照的に、非常にエージェントフレンドリーや。そして、これら全てが組み合わさって、初めてエンタープライズコーディングでのClaudeの支配を打ち破ったんや。Cursor、Vercel、JetBrains、Copilotのようなプラットフォームがスタックの一部でデフォルトにしたんや。

Boxも長い論理重い文書で強い結果を報告したで。正味の効果は、より良い計画とより低い単位コストが実際の作業でGPT-5に向かって故障を引っ張っとるってことや。明らかにGPT-5は公的フロントでの支配を保持しながら、エンタープライズで新たな高みに達しとるんや。

医療診断での画期的進歩

その上、ローンチの日には、GPT-5の大きな部分であるはずの医療診断の改善を実際に検証する資格がある者は誰もおらんかったんや。今、放射線腫瘍学科、フレンドシップがん研究所、エモリー大学医学部からの衝撃的な論文があるで。

GPT-5は医療推論と理解スコアをGPT-4oよりそれぞれ29%と26%改善し、推論で24%、理解で29%ライセンス前の人間専門家を上回ったんや。この部分を聞いてくれや。

「このリードの大きさは、GPT-5の統合された視覚言語推論パイプラインが、経験豊富な臨床医でさえ時間制限のあるテスト条件下でマッチするのに苦労するようなテキストと視覚的証拠の統合を提供するように見えるマルチモーダル設定で特に印象的や。」

「GPT-4oの人間以下の結果からGPT-5の人間以上のパフォーマンスへのこの顕著な改善は、実世界の臨床意思決定支援での使用に重要な潜在的含意を持つLLM能力の重要な進歩を強調しとる。」

GPT-4がGPT-3と比較されたように、GPT-5があらゆることでもっと良くなるべきやったから成功やなかったって論じることもできるやろうけど、複雑な領域に到達しとるんや。使用例が専門家レベルになってきとるし、それが公正な比較かは分からへん。実際、みんながGPT-5をこれまでどう使ってきたかめちゃくちゃ興味あるわ。

サム・アルトマンの将来への確信

でも、サム・アルトマンは、公的フロントでのローンチが失敗やったことを受け入れながらも、軌道については依然として確信を持っとるんや。彼は記者団に語った。「OpenAIがそう遠くない将来にデータセンター建設に数兆ドルを費やすことを期待すべきや。制限要因はハードウェアや。OpenAIはGPT-5よりも進んだモデルを持っとるけど、デプロイできへん。より良いモデルがあるけど、容量がないから余裕がないんや。」

そして、それが国際数学オリンピックで勝ったモデルの話につながるんや。一部の人らはGPT-5 ProとGemini Deepthinkが金メダル獲得モデルやと思っとったけど、サム・アルトマンは明確に言った。これは将来のモデルで使用する新しい研究技術を組み込んだ実験的モデルやと。

「GPT-5を気に入ってもらえると思うけど、IMO金レベルの能力を持つモデルを何ヶ月もリリースする予定はない。」

そして、Googleは「Gemini Deepthinkは今年の国際数学オリンピアドで最近金メダル標準を達成したモデルのバリエーションや。そのモデルは推論に時間がかかる。今日のリリースはより速く、日常的により使いやすいが、内部評価に基づく2025年IMOベンチマークで依然としてブロンズレベルのパフォーマンスに到達しとる」って言った。

もちろん、月250ドルのGemini Ultraプランを通じて利用できるGemini Deep Thinkingの話やで。

新しいテスト時間計算手法の解明

しばらくの間、これらの実験的モデルへの洞察はなかった。めちゃくちゃ計算集約的で、はるかに賢く、一般的な推論や思考モデルを超えたテスト時間計算の新しいパラダイムを使用することは分かっとったけど。

でも今、同じ技術を利用したMeadow Stoneからの素晴らしいオープンソースモデルのおかげで、ついにこの新しいクラスのAIをよりよく見ることができるようになったんや。

「反射生成モデルによるテスト時間スケーリング」が論文の名前で、X by04またはMeta Stone S1がモデルの名前や。320億パラメータだけで o3 miniやClaude Opusさえも上回っとるんやけど、比較するとめちゃくちゃ小さいんや。

Amy 24と25の本当に困難な数学問題とコーディング能力をよく測定するLive CodeBenchでこれらのモデルを上回っとるんや。

この新しいクラスのAIが何でこんなにパワフルかを理解するには、まず今日の推論モデルの3つの主要な欠陥を見るべきや。

第一に、最も明白なのは、長い思考の連鎖は最初や真ん中の小さな間違い一つで、その後に来るすべてを無関係にし、全体のシーケンスを壁に衝突させるリスクがあることや。

第二に、偽陽性がトレーニングプロセスでモデルに悪い習慣を強化してしまう。モデルは最終アウトプットでのみ評価されるから、間違った論理チェーンが正しい最終アウトプットをもたらした場合、モデルはその思考方法に対して報酬を得て、間違った推論パターンを強化してしまうんや。

最後に、モデルは一般的により長く考えることに動機づけられとるから、一部のクエリで非常に遅く非効率的やないだけでなく、考えすぎて正しい答えを撤回し、最後に罰せられるリスクもあるんや。

新しい水平思考アプローチ

モデルは複数の別々の推論プロセスを生成し、その後バッチから最良の一つを選択するんや。一文で言うなら、主な違いは、推論や思考モデルは縦向きまたは深く行くのに対し、新しい技術は横向きまたは広く行くってことや。

標準的な推論モデルは計算を使ってゆっくりと完璧な答えを構築しようとするのに対し、新しい反射技術は並行して何十もの異なるアウトプットを生成するブレインストーミングセッションを開催し、その後最良のものに落ち着こうとするんや。

これがMetalstone AIの動作方法で、標準的な推論モデルよりも効率的で、はるかに正確でもあるんや。トレーニングの詳細はこのビデオには少し多すぎるけど、短いバージョンは、モデルがより詳細な報酬を受け取り、各個別の問題に対して何十もの異なるアプローチを経験できるからや。

それでより良い推論パターンを開発するんや。でも、これはGoogle Deep MindとOpenAIが使っとる技術とは全く同じやない。GoogleとOpenAIからの金メダル獲得実験モデルの場合、彼らがこれらの技術の両方を組み合わせて使用したと疑うことができるんや。

つまり、並行答えを生成するだけでなく、それぞれを長い思考の連鎖にするモデルや。だから、めちゃくちゃ計算集約的で、答えを出すのに何時間もかかるんや。問題により多くの計算を注ぎ込んでより良い答えを得る方法を常に見つけることができるようや。そして、それがまさにCaesarの哲学なんや。人類最後の試験ベンチマークスコアで世界記録を破った会社やで。

Caesarの革新的アプローチ

人類最後の試験は、複雑な学術推論タスクにおける先進AIモデルの能力を評価するために設計された挑戦的なAIベンチマークや。100以上の科目にわたる3000問から構成され、1000人以上の専門家によって作成されて、例外的に困難で現在のAIの境界を押し広げるようになっとるんや。

Caesarのアプローチは、どんな質問でも聞くことができて、その後どれだけの計算をそれに費やしたいかを決めることができるってもんや。明らかに、費やすことを望む計算が多いほど、得られる答えの質が高くなるんや。

彼らは、Caesarが非常に困難な質問をする場所で、時には一つの答えのために数千、場合によっては数十万ドルを支払うことを厭わない世界を想像しとって、時にはいくつかの答えにはそれだけの価値があるんや。

基盤となるモデルと、彼らがどうやってこの全ての計算を効果的な方法でチャネリングすることができたかについてはあまり知らない。でも、各答えに10計算ユニット(約10分の推論時間)を使って、Caesarは人類最後の試験で55%を達成しとるんや。そして、実際に3計算ユニットを使って53%を達成することで2位を保持しとるんや。

これらはプライベートに評価された数字で、公式HLEリーダーボードには載っとらんことを覚えておいてくれ。でも、Grok 4 HeavyとGPT-5 Proもそうやないんや。GPT-5 HighとGrok 4がリーダーボードにあるのに、ProとHeavyバージョンがない理由や要件が正確には分からへん。

AI進歩の壁論争への反論

同時に、特にGPT-5が期待に全く応えなかった後、見出しが戻ってきた。「科学者らは、我々が既にピークAIに達したことを深刻に心配しとる。進歩は這うほどに遅くなっとる。何が起こっとるんや?壁にぶつかっとるんか?」

このセグメントの最後で僕の意見を知らせるけど、Google DeepMindとMITがかなりはっきりとした指標となる論文を発表したんや。論文自体はスパースと密なAIモデルをトレーニングして性能を比較することについてや。

違いは事前トレーニング中、スパースモデルでは、アウトプットにあまり貢献してない重みやパラメータを取り除いたり剪定したりするってことや。でも、2つのアプローチを比較するために、彼らは実際に、事前トレーニング中にログ計算が増加するにつれてログ損失が線形に落ちることを、密とスパースモデルの両方で示したんや。

非常に単純に言うと、投入する計算が多いほど、エラーは滑らかで予測可能な方法で低下するんや。これが人々が冪法則と呼ぶもので、AIで長い間真実やったし、今日でも成り立っとるんや。この拡張曲線の一貫性は驚異的や。物理学自体でさえ10桁の等級で一定を保たへん。

AI研究者らは次の計算やハードウェアの向上を待ってじっと座っとるわけやない。現在の限界内で革新して、生の力の次の波が到着するまで効率性を絞り出しとるんや。それがAIの振り子やで。スケールが支配するフェーズ。より多くの計算、より大きなモデル、そして設計、最適化、賢いエンジニアリングがリードを取るフェーズ。

今は明らかに最適化フェーズにいるんや。そして、GPT-5がそれを明らかにしたんや。強い噂によると、それはGPT-4oより大きくさえないんや。ほぼ同じサイズやで。

僕は両方のフェーズが重要やと思う。拡張は依然として本当の利益を提供し、同時にテーブルの上にはまだ巨大な最適化と建築上の改善が残っとるんや。これらの事実を合わせると、種レベルの大惨事を除いて、これが遅くなるのを見ることはない。AGIは僕には不可避に感じられるんや。

Googleの革新的な画像モデル「Nano Banana」

もし同意せんなら、チャットボット アリーナ リーダーボードで新しい画像モデルのコードネーム「Nano Banana」を見る良い時期や。ほとんど確実にGoogleからのもので、Logan Kilpatrickがこれを投稿したし、こんな心を吹き飛ばすAIを構築できる他の誰がおるんや?Googleが料理しとるで。これをチェックしてくれ。

この画像をキャラクターフィギュアに変えてくれ。その後ろに、キャラクターの画像が印刷された箱を置いてくれ。そして、画面にBlenderモデリングプロセスを表示するコンピュータも。冗談やろ?どうやってこんなことが可能なんや?

この例では黒い犬を白い犬に変えとる。モデルが感情を移し替えとるんや。同じ犬で全く同じ気分やけど白いんや。そして、これが僕にとって最も印象的なやつや。対象に3D形状を示すサイエンスサーフェスワイヤーフレームメッシュを描いてくれ。これが結果や。

ここで僕の言い分は終わりや。画像編集は解決された。インターネット上で何も信じることはできなくなった。そして2年後には、全メディアが想像もできへん何かに変換されとるやろな。

試してみるには、lm arena.aiに行ってくれ。そして下の「generate images」ボタンをチェックしてくれ。上でバトルモードになってることを確認して、プロンプトを書いてくれ。LM Arenaは2つのランダムモデルを使って画像を生成してくれる。運が良ければ、Nano Bananaが使われるで。

今日の人工ジェム

今日の人工ジェムは正直すごいで。誰かがAIを使って子どもの描いた絵に命を吹き込んだんやけど、めちゃくちゃ面白いんや。どのモデルか分からへんけど、これは絶対的な宝石や。

次に、中国が大規模な核融合炉技術の習得により近づいとるんや。核融合は異常に強力で、もし効果的にそれを利用できるなら、中国を全く新しい能力の次元に押し上げることができるんや。これは文字通り人工太陽で、無限のエネルギーへの道や。

そして、エネルギーがAIの究極的制約やから、その障壁を破ることはすべてを再形成する可能性があるんや。現在の期待では、この計画は2027年までに稼働することになっとる。最新の開発からの画像がこれや。

Google DeepMindはGemma 3をリリースしたんやけど、わずか2億7000万パラメータでスマートフォンで直接動作する驚くほどコンパクトなモデルや。こんなに小さなフットプリントに前例のない知性と知識を詰め込んで、開発者のためのオンデバイス機能の新しい波を開いとるんや。

Gemma 3は高度にエネルギー効率的で、感情分析からクリエイティブライティングまで、明確に定義されたタスクを電話上で直接自動化することができるんや。

さあ、お別れする前に、君が今ここにいることを覚えといてくれ。そして君はまたここにいるやろうし、その後もここにいるって約束するで。これが何十年もAIのサイクルやったし、近いうちに遅くなるとは思わへん。見てくれてありがとう。また次回会おうな。

コメント

タイトルとURLをコピーしました