OpenAIの謎のモデルがヤバすぎる…

OpenAIが新たにリリースした謎のモデル「o3 Alpha」が世界最難関のプログラミング競技で2位を獲得し、別の実験的推論モデルが国際数学オリンピックで金メダル級の成果を達成した。これらの成果は、AIが人間レベルの創造的思考能力を持つようになったことを示す重要な節目である。特に検証困難な問題に対する汎用的な強化学習の新しい手法により、従来の限界を打ち破る成果が生まれている。

OpenAI's mystery models are insane...

Cancel your AI subscriptions and try this All-in-One AI Super assistant that's 10x better: this God Tier AI Agent that l...

OpenAIの新しい謎のモデル登場
o3 Alphaの詳細情報
ゲーム開発での実力差
世界最高峰のプログラミング競技での成果
リアルタイムでの競技展開
正式結果発表
国際数学オリンピックでの金メダル級成果
なぜこれが重要なのか
スポンサー紹介
検証困難な問題への挑戦
汎用的な強化学習の新展開
チェスAIの進化
Tesla自動運転の進化
2025年IMOでの具体的成果
加速する技術進歩

OpenAIの新しい謎のモデル登場

LM ArenaにOpenAIの新しい謎のモデルが登場したで。どうやらo3の新しいバリエーションでo3 Alphaっていうやつらしいんや。そしてなんと、世界最難関のプログラミング競技のひとつで2位を取ったかもしれへんのや。それだけやない、OpenAIのもうひとつの実験的推論モデルが国際数学オリンピックで金メダルを取ったんや。

これはAIがチェスで人間より強くなった時の瞬間みたいに感じるわ。もう未来に入ってるんやで。全部教えたるから聞いてや。

o3 Alphaの詳細情報

o3 Alphaについて今わかっとることはこんな感じや。モデルのメタデータはこうなっとる。モデルIDは「o3 Alpha Responses 2025 717」でプロバイダーはOpen AIや。このモデルはプログラミングがめちゃくちゃ得意らしいんや。

面白いのは、OpenAIのモデルが世界で最も困難なプログラミング競技のひとつで2位を取った直後にこれが出てきたことなんや。もしかしたらこれがそのモデルかもしれへんな。

ゲーム開発での実力差

o3 Alphaで作られたスペースインベーダーゲームの例を見てみよか。コントロール、スコア、ハイスコア、レベル、ライフ、ポーズ、サウンドオン、サウンドオフなど、いろんな設定があって、めっちゃ出来がええやん。

一方、通常のo3モデルで作ったのはこれや。新しいo3 Alphaと比べて全然洗練されてへんのがわかるやろ。X上のAI Battleは、これがo3モデルの新しいチェックポイントだけやって言うとるで。

o3 Alphaが作った他のゲームもあるで。宇宙でのバスケットボールシューティングゲームや。3Dポケモン図鑑もあるで。見てみ、3Dになっとるやろ。シャイニースプライトもオンにできるし、シンプルなポケモン図鑑やけどめっちゃカッコええやん。

それからDoomのゲームもあるで。ちょっと暗いし、クリッピングもあるけど、全体的にはなかなかええ感じや。これはゼロショットでやったと思うで。

世界最高峰のプログラミング競技での成果

さっき言うたように、これは世界で最も困難なプログラミング競技のひとつでの成果の直後に出てきたんや。実際には人間がまだ勝ったから、人類にまだちょっとだけ希望があるけど、そう長くは続かへんやろな。

ポーランドのプログラマーPsychoが、10時間のプログラミングマラソンの末に、おそらくo3 Alphaやったであろうモデルを破ったんや。面白いことに、彼は元OpenAI社員なんやで。

これは東京で開催されたATCoder World Tour Finals 2025ヒューリスティック競技や。リーダーボードを見てみよか。実際にはPsychoがOpenAIモデルを大差で破ったけど、それでも2位は取ったんや。このポーランドのプログラマーは基本的に地球上のすべての人間、AIも含めて、完全に圧倒したんや。

リアルタイムでの競技展開

OpenAIのCTOであるGreg BrockmanがずっとX上でプッシュしとったで。「ATCoderワールドファイナルで競技してるで。めっちゃハラハラするわ。OpenAIがほとんどの時間で1位やったんや。Fake Psychoが抜け出した時は終わったかと思ったけど、また首位を奪い返したで。あと1時間20分や」って言うてた。

でももうFake Psychoが大きくOpenAIモデルを引き離したのは知っとるやろ。

正式結果発表

ATCoderワールドツアーファイナルの公式結果が出たで。人間が1位と3位以降、AIが世界2位っていう素晴らしい結果やった。

でもそれだけやない。OpenAIは未発表モデルで絶好調なんや。o3 Alphaは多分テストできるから、LM Arenaでチェックしてみてや。

国際数学オリンピックでの金メダル級成果

ATCoderプログラミング競技で2位を取った1日か2日後に、彼らのもう一つのモデルが国際数学オリンピックで金メダルを取ったんや。

OpenAIのAlexander Weiが発表したで。「OpenAIの最新実験的推論LLMが、AIの長年の大きな挑戦を達成したことを発表できて興奮してるんや。世界で最も権威ある数学競技、国際数学オリンピックで金メダルレベルの成績を収めたんや」

「人間の競技者と同じルールでモデルを2025年のIMO問題で評価したんや。2回の4.5時間の試験セッション、ツールやインターネットなし、公式問題文を読んで、自然言語での証明を書くっていう条件でな」

なぜこれが重要なのか

なんでこれがこんなに大事なことなんかって？まず、IMOの問題は過去のベンチマークと比べて新しいレベルの持続的創造思考を要求するんや。

推論時間の地平線で見ると、トップ人間にとって約0.1分のGSM8Kから、数学ベンチマーク1分、AIME10分、IMO100分まで進歩してきたんや。これらは長期間の最先端数学問題で、このモデルはそれを完璧にこなしてるんや。

スポンサー紹介

この知能レベルと同じくらいすごいのが、今日の動画のスポンサーや。もし俺みたいに、いろんなAIサービスに加入してて、いつもそれらの間を行き来してるなら、ちょっとイライラするやろ。しかも結構高いしな。そこでAbacus AIのChat LLMの出番や。これは主要モデルプロバイダーの最新で最高のモデルすべてを含むオールインワンAIプラットフォームなんや。

Route LLMっていう機能もあって、実際のプロンプトに応じて自動的に最適なモデルを選んで送ってくれるんや。つまり、プロンプトを適切なLLMにルーティングしてくれるってわけや。もちろんPDFとのチャットもできる。好きなドキュメントをダウンロードして、簡単に質問したり、洞察を抽出したり、データを収集したり、既存のドキュメントから必要なことはなんでもできるんや。

それだけやない、テキストから画像、テキストから動画のモデルもあるから、素晴らしい画像や動画を簡単に生成できるで。最近、Deep Agentっていう信じられないほど強力なAIエージェントも導入したんや。基本的になんでもできるで。ウェブサイト構築、アプリ作成、プレゼンテーション作成、研究レポート、チャットボット、ゲーム作成まで。

これ全部で月額たった10ドルや。chatlm.abacus.aiをチェックするか、説明欄のリンクをクリックしてや。俺が紹介したって伝えてくれ。めっちゃありがたいで。Abacus AIに改めて感謝や。

検証困難な問題への挑戦

動画に戻ろか。二つ目に、IMOの提出物は検証が困難なんや。これらはプログラム的に検証可能な解答やない。複数ページの証明なんや。ここでの進歩は、明確で検証可能な報酬のRL（強化学習）パラダイムを超えることを要求するんや。

そうすることで、人間の数学者レベルで複雑で完璧な論証を作り上げることができるモデルを手に入れたんや。今、最先端は検証可能な報酬なんや。数学、科学、プログラミングのような自動的に検証できるトピックを見つけて、異なるモデルでのRLをスケールアップできるようにするんや。でも聖杯は検証不可能な報酬のスケールアップで、これは信じられないほど難しい。検証できへんのに、どうやってスケールアップするんや？人間をループに入れる必要がある。でも多分必要ないかもしれへん。

LLMを審判として使えるかもしれへん。基本的に一つのモデルが別のモデルの答えを判定するんや。でもそれってどこまで通用するんやろ？どうやら、かなり遠くまで行けるみたいやで。

汎用的な強化学習の新展開

この能力レベルに達したのは、狭いタスク特化の方法論によるものやなくて、汎用的な強化学習とテスト時計算スケーリングで新境地を開いたからなんや。

ここで「苦い教訓」っていうもんについて話したいんや。苦い教訓は、AI研究者のRichard Suttonによるエッセイで、人工知能で最高の成果は何度も何度もスケールアップして人間をループから外すことで生まれてきたって指摘してるんや。2つの主要な例を挙げるで。

チェスAIの進化

初期のチェスAIは手でコードされた知識を使ってたんや。基本的に「この種の戦術がうまくいく」とか「この種の手を見たらこうしろ」みたいにな。でも結局一番うまくいったのは、モデルにセルフプレイをさせて、ヒューリスティクスを自分で見つけ出させることやったんや。人間がどう指すかを教えるんやなくて、自分で指し方を見つけ出させる。なぜなら人間には見えないものが見えるからや。

そして人間がループに入ってると、スケーラビリティに限界があるんや。