OpenAIが新たにリリースした謎のモデル「o3 Alpha」が世界最難関のプログラミング競技で2位を獲得し、別の実験的推論モデルが国際数学オリンピックで金メダル級の成果を達成した。これらの成果は、AIが人間レベルの創造的思考能力を持つようになったことを示す重要な節目である。特に検証困難な問題に対する汎用的な強化学習の新しい手法により、従来の限界を打ち破る成果が生まれている。

OpenAIの新しい謎のモデル登場
LM ArenaにOpenAIの新しい謎のモデルが登場したで。どうやらo3の新しいバリエーションでo3 Alphaっていうやつらしいんや。そしてなんと、世界最難関のプログラミング競技のひとつで2位を取ったかもしれへんのや。それだけやない、OpenAIのもうひとつの実験的推論モデルが国際数学オリンピックで金メダルを取ったんや。
これはAIがチェスで人間より強くなった時の瞬間みたいに感じるわ。もう未来に入ってるんやで。全部教えたるから聞いてや。
o3 Alphaの詳細情報
o3 Alphaについて今わかっとることはこんな感じや。モデルのメタデータはこうなっとる。モデルIDは「o3 Alpha Responses 2025 717」でプロバイダーはOpen AIや。このモデルはプログラミングがめちゃくちゃ得意らしいんや。
面白いのは、OpenAIのモデルが世界で最も困難なプログラミング競技のひとつで2位を取った直後にこれが出てきたことなんや。もしかしたらこれがそのモデルかもしれへんな。
ゲーム開発での実力差
o3 Alphaで作られたスペースインベーダーゲームの例を見てみよか。コントロール、スコア、ハイスコア、レベル、ライフ、ポーズ、サウンドオン、サウンドオフなど、いろんな設定があって、めっちゃ出来がええやん。
一方、通常のo3モデルで作ったのはこれや。新しいo3 Alphaと比べて全然洗練されてへんのがわかるやろ。X上のAI Battleは、これがo3モデルの新しいチェックポイントだけやって言うとるで。
o3 Alphaが作った他のゲームもあるで。宇宙でのバスケットボールシューティングゲームや。3Dポケモン図鑑もあるで。見てみ、3Dになっとるやろ。シャイニースプライトもオンにできるし、シンプルなポケモン図鑑やけどめっちゃカッコええやん。
それからDoomのゲームもあるで。ちょっと暗いし、クリッピングもあるけど、全体的にはなかなかええ感じや。これはゼロショットでやったと思うで。
世界最高峰のプログラミング競技での成果
さっき言うたように、これは世界で最も困難なプログラミング競技のひとつでの成果の直後に出てきたんや。実際には人間がまだ勝ったから、人類にまだちょっとだけ希望があるけど、そう長くは続かへんやろな。
ポーランドのプログラマーPsychoが、10時間のプログラミングマラソンの末に、おそらくo3 Alphaやったであろうモデルを破ったんや。面白いことに、彼は元OpenAI社員なんやで。
これは東京で開催されたATCoder World Tour Finals 2025ヒューリスティック競技や。リーダーボードを見てみよか。実際にはPsychoがOpenAIモデルを大差で破ったけど、それでも2位は取ったんや。このポーランドのプログラマーは基本的に地球上のすべての人間、AIも含めて、完全に圧倒したんや。
リアルタイムでの競技展開
OpenAIのCTOであるGreg BrockmanがずっとX上でプッシュしとったで。「ATCoderワールドファイナルで競技してるで。めっちゃハラハラするわ。OpenAIがほとんどの時間で1位やったんや。Fake Psychoが抜け出した時は終わったかと思ったけど、また首位を奪い返したで。あと1時間20分や」って言うてた。
でももうFake Psychoが大きくOpenAIモデルを引き離したのは知っとるやろ。
正式結果発表
ATCoderワールドツアーファイナルの公式結果が出たで。人間が1位と3位以降、AIが世界2位っていう素晴らしい結果やった。
でもそれだけやない。OpenAIは未発表モデルで絶好調なんや。o3 Alphaは多分テストできるから、LM Arenaでチェックしてみてや。
国際数学オリンピックでの金メダル級成果
ATCoderプログラミング競技で2位を取った1日か2日後に、彼らのもう一つのモデルが国際数学オリンピックで金メダルを取ったんや。
OpenAIのAlexander Weiが発表したで。「OpenAIの最新実験的推論LLMが、AIの長年の大きな挑戦を達成したことを発表できて興奮してるんや。世界で最も権威ある数学競技、国際数学オリンピックで金メダルレベルの成績を収めたんや」
「人間の競技者と同じルールでモデルを2025年のIMO問題で評価したんや。2回の4.5時間の試験セッション、ツールやインターネットなし、公式問題文を読んで、自然言語での証明を書くっていう条件でな」
なぜこれが重要なのか
なんでこれがこんなに大事なことなんかって?まず、IMOの問題は過去のベンチマークと比べて新しいレベルの持続的創造思考を要求するんや。
推論時間の地平線で見ると、トップ人間にとって約0.1分のGSM8Kから、数学ベンチマーク1分、AIME10分、IMO100分まで進歩してきたんや。これらは長期間の最先端数学問題で、このモデルはそれを完璧にこなしてるんや。
スポンサー紹介
この知能レベルと同じくらいすごいのが、今日の動画のスポンサーや。もし俺みたいに、いろんなAIサービスに加入してて、いつもそれらの間を行き来してるなら、ちょっとイライラするやろ。しかも結構高いしな。そこでAbacus AIのChat LLMの出番や。これは主要モデルプロバイダーの最新で最高のモデルすべてを含むオールインワンAIプラットフォームなんや。
Route LLMっていう機能もあって、実際のプロンプトに応じて自動的に最適なモデルを選んで送ってくれるんや。つまり、プロンプトを適切なLLMにルーティングしてくれるってわけや。もちろんPDFとのチャットもできる。好きなドキュメントをダウンロードして、簡単に質問したり、洞察を抽出したり、データを収集したり、既存のドキュメントから必要なことはなんでもできるんや。
それだけやない、テキストから画像、テキストから動画のモデルもあるから、素晴らしい画像や動画を簡単に生成できるで。最近、Deep Agentっていう信じられないほど強力なAIエージェントも導入したんや。基本的になんでもできるで。ウェブサイト構築、アプリ作成、プレゼンテーション作成、研究レポート、チャットボット、ゲーム作成まで。
これ全部で月額たった10ドルや。chatlm.abacus.aiをチェックするか、説明欄のリンクをクリックしてや。俺が紹介したって伝えてくれ。めっちゃありがたいで。Abacus AIに改めて感謝や。
検証困難な問題への挑戦
動画に戻ろか。二つ目に、IMOの提出物は検証が困難なんや。これらはプログラム的に検証可能な解答やない。複数ページの証明なんや。ここでの進歩は、明確で検証可能な報酬のRL(強化学習)パラダイムを超えることを要求するんや。
そうすることで、人間の数学者レベルで複雑で完璧な論証を作り上げることができるモデルを手に入れたんや。今、最先端は検証可能な報酬なんや。数学、科学、プログラミングのような自動的に検証できるトピックを見つけて、異なるモデルでのRLをスケールアップできるようにするんや。でも聖杯は検証不可能な報酬のスケールアップで、これは信じられないほど難しい。検証できへんのに、どうやってスケールアップするんや?人間をループに入れる必要がある。でも多分必要ないかもしれへん。
LLMを審判として使えるかもしれへん。基本的に一つのモデルが別のモデルの答えを判定するんや。でもそれってどこまで通用するんやろ?どうやら、かなり遠くまで行けるみたいやで。
汎用的な強化学習の新展開
この能力レベルに達したのは、狭いタスク特化の方法論によるものやなくて、汎用的な強化学習とテスト時計算スケーリングで新境地を開いたからなんや。
ここで「苦い教訓」っていうもんについて話したいんや。苦い教訓は、AI研究者のRichard Suttonによるエッセイで、人工知能で最高の成果は何度も何度もスケールアップして人間をループから外すことで生まれてきたって指摘してるんや。2つの主要な例を挙げるで。
チェスAIの進化
初期のチェスAIは手でコードされた知識を使ってたんや。基本的に「この種の戦術がうまくいく」とか「この種の手を見たらこうしろ」みたいにな。でも結局一番うまくいったのは、モデルにセルフプレイをさせて、ヒューリスティクスを自分で見つけ出させることやったんや。人間がどう指すかを教えるんやなくて、自分で指し方を見つけ出させる。なぜなら人間には見えないものが見えるからや。
そして人間がループに入ってると、スケーラビリティに限界があるんや。
Tesla自動運転の進化
二つ目の例はTeslaの自動運転や。初期には、いくつかのルールをハードコードしてたんや。例として、これが一時停止標識で、こんな風に見える。止まらなあかん、みたいにな。でも数年前に、完全なエンドツーエンドニューラルネットワークに移行したんや。
基本的に「これがすべてのデータや、自分で学習しろ」ってことや。そして後者が実際に最良のアプローチであることを見続けてるんや。これが苦い教訓なんや。そして今日ここで見てるのも、おそらくそれなんや。
2025年IMOでの具体的成果
Alexander Weiが話してる汎用的強化学習での新境地の開拓っていうのは、そういうことなんや。人工超知能に到達するためには、それが必要なんや。
評価では、この新しい数学モデルは2025年IMOの6問中5問を解いたんや。3人の元IMO金メダリストが独立してモデルが提出した証明を採点して、全員の合意後にスコアが確定したんや。
ついでに言うけど、「もうすぐGPT-5をリリースするで、試してもらうのが楽しみや」って落としてきたで。
「IMO金メダルLLMは実験研究モデルで、GPT-5やないで。この数学能力レベルのものを数ヶ月間はリリースする予定はないんや」
加速する技術進歩
世界最難関のプログラミング競技のひとつで2位を取った新しい信じられないほど優秀なプログラミングモデルがある。最難関の数学競技のひとつで金メダルを取った真新しい数学実験モデルがある。
加速のペースが加速してるように本当に見えるな。この2つのことを見せられて、めっちゃ興奮したで。この動画を楽しんでくれたら、いいねと登録をよろしく頼むで。


コメント