LM Arenaに突如出現した謎のAIモデル「RIFTRUNNER」をめぐり、AI業界が騒然としている。Googleからの公式発表は一切ないにもかかわらず、そのパフォーマンスと挙動からGemini 3の初期バージョンではないかとの憶測が広がっている。特に視覚処理能力において、医師の走り書きを完璧に読み取るなど、既存モデルを大きく上回る性能を示したことで注目を集めた。一方、OpenAIはGPT-5.1で人間性を重視したアップデートを実施し、Bite Danceはわずかコーヒー一杯分の価格でプログラミングAIを投入するなど、各社が相次いで大きな動きを見せている。RIFTRUNNERの正体を巡る謎と、激化するAI競争の最前線を追う。

RIFTRUNNERの突然の出現
RIFTRUNNERという謎のモデルがLM Arenaに突如として現れました。Googleからの発表もなく、ドキュメントもなく、何の情報もない状態で、コミュニティ全体が基本的に手を止めて、一体何を目の当たりにしているのかを解明しようとしました。奇妙なのは、これが公式ローンチや開発者向けプレビューの一部として登場したわけではないということです。
ベンチマークのリストにただ現れたのです。まるでGoogleの誰かが誤ってスイッチを入れてしまったかのように。そしてX(旧Twitter)で人々が共有した最初のスクリーンショットから、その挙動は即座にLithium FlowやOrion Mistといった以前のGemini 3チェックポイントを思い起こさせました。同じスタイル、出力における同じ雰囲気、そしてAPIシグネチャのログでさえ非常に見覚えのあるものでした。
視覚処理能力の驚異的な性能
最初に人々を本当に驚かせたのは、視覚テストでした。あるテスターは、RIFTRUNNERが医師の走り書きの処方箋を完璧に読み取ったクリップを見せました。これはGPT-5や、思考機能を持つ一部のバリアントでさえ失敗し続けていたものです。別の人はこれを視覚タスクにおけるソーダのようなものと呼び、基本的にGemini 2.5 Proを大きく上回る飛躍だと言っていました。
そして正直なところ、そのコメント一つが最大の憶測の波を引き起こしました。なぜなら、もしモデルが乱雑な手書き文字、低品質の文書スキャン、複雑な画像内の小さな詳細にそれほど優れているなら、おそらくFlashではないからです。Flashバージョンはこれほど遠くまでマルチモーダルパフォーマンスを押し上げるようには作られていません。
それらはより軽量で、より高速ですが、通常このレベルの精度を提供することはありません。ただし、何人かは反論しました。あるユーザーは、GPT-5の思考モードが本当に得意とする分野で、いくつかの物理の答えがまだずれていると指摘しました。別の人は、モデルがまだマルチファイル出力の生成を拒否するため、コーディング性能はまだ完全なGemini 3 Proのようには感じられないと言いました。
一度に数十のReactコンポーネントを求めると、モデルは途中で切れて、基本的に単一のメッセージしか返せないと言うのです。この種の挙動は通常、モデルがサンドボックス化されていることを意味します。Googleは、テスト中に安全性や評価の一貫性のために、厳格な単一メッセージ制限を持つ特定のビルドをトレーニングします。そのため、多くの愛好家は、RIFTRUNNERがその中間段階かもしれないと考えています。Flashではなく、まだProでもないが、Googleが完全なGeminiローンチの直前にテストする内部リリース候補です。
Googleの命名パターンと沈黙
そして人々が命名スキームが以前のGoogleチェックポイントと一致することに気づいたとき、理論は基本的に固まりました。Lithium Flow、Orion Mist、そして今度はRIFTRUNNER。パターンが見えます。Googleは大きなアップデートの前に常にこれらの痕跡を残します。それらがLM Arenaに漏れ、開発者が気づき、Xが爆発し、そして数週間後にGoogleが洗練された発表を出すのです。
そして今のGoogleからの沈黙は助けになっていません。ブログ投稿もなく、モデルカードもなく、AI Studioでの言及もなく、何もありません。その沈黙は常に燃料です。一部のユーザーは、これがGoogleかAnthropicが皆をからかっているのだと冗談を言っています。なぜなら、いくつかのアカウントはスタイル上の癖からAnthropicだと断言しているからです。
他の人たちはそれを完全にGemini 3 Proと呼んでいます。あるユーザーは、このモデルと新しい思考機能を有効にしたKimmyだけが自分の数学問題を解けて、GPT-5はまだ解けないと言いました。また、RIFTRUNNERが作った地球シミュレーションを示す短いクリップが出回っています。人々はモデルが生成した完全なThree.jsコードを投稿していました。それはカラーテクスチャ、スペキュラーマップ、ノーマルマップ、雲のレイヤー、大気シェーダー、星空を引き出し、すべてACESフィルミックトーンマッピングでラップされています。
コード生成能力の評価
しかし公平に言えば、コミュニティはこれらがよく知られたテンプレートであり、モデルが一般的なThree.jsパターンとオープンソースのテクスチャに依存していることを指摘しました。DeepSeekモデル、Claude、Gemini、さらには強力なGPT-4レベルのモデルでさえ、すでにこれができます。したがって、このシミュレーションは画期的な知能の証明ではありません。それはRIFTRUNNERが単一ファイルタスクに対して非常に有能なコード生成を持っていることの証明にすぎません。
エコシステム全体が緊張しています。なぜなら、GoogleとOpenAIが基本的にシャドーボクシングをしており、片方が数ヶ月ごとにワイルドな何かを投下し、もう片方がほぼ即座に反撃しているからです。対応といえば、Bite Danceがプログラミングサイドで独自のサプライズを投下したばかりです。彼らはDubao Seed Codeという新しいモデルをローンチし、それはいくつかの非常に大胆な主張を伴っています。
Bite DanceのDubao Seed Code
最も衝撃的な部分は価格です。Volcano Engineは9.9元という、基本的に安いコーヒーの価格でパッケージをリリースしました。そしてモデルの基本呼び出し価格が非常に低いため、人々はこれを業界で最も安いプログラミングモデルと呼び始めました。Bite Danceは、モデルが高速であるだけでなく、彼らのトレード開発環境と深く統合されており、それがプログラミングタスクを精度のレベルで解決するのに役立ち、SWE検証済みリーダーボードのトップに直行したと述べています。
これは自動化されたコード推論のためのかなり厳しいベンチマークです。さらに興味深いのは、Dubao Seed CodeがAnthropicのAPIとネイティブに互換性があることです。Claude Codeツールに慣れている開発者は、ほとんど変更なしに基本的にスライドできます。Bite Danceは銀河の粒子アニメーションからマインクラフトスタイルのジッパーインタラクションまで、複数のコード生成チャレンジでテストし、それはクリーンに実行し続けました。
彼らはまた、複雑なエンジニアリングリファクタリングを通じてそれを実行しました。モデルは古いコードベースのバグを見つけ、モジュールを再構築し、保守性を向上させることができました。彼らの最大のテストでは、宮殿の説明やAI生成のオーディオガイドボタンを含む、故宮博物院のフルツアーウェブサイトを構築させました。すべてが機能しました。
そう、Bite DanceはコーディングAI戦争にかなり強力なエルボーを入れました。一方、OpenAIは独自の大きな瞬間を準備していましたが、非常に異例な方法で行いました。彼らはGPT-5.1をリリースしましたが、今回は発表全体が奇妙なトーンを持っていました。ベンチマークチャートもなく、30%スマートという主張もなく、通常のパフォーマンスマーケティングもありませんでした。
OpenAIのGPT-5.1:人間性への焦点
皆の注意を引いたのは、ブログからの一行でした。「優れたAIは賢いだけでなく、それとチャットすることを楽しい体験にする必要があるというユーザーからの声を明確に聞いています」。そしてそれはGPT-5.1が試みていることをかなり捉えています。GPT-5.1は8つのプリセット会話スタイルを導入しています。
しかし、本当の変化は、モデルがついに自然な方法でより人間らしく感じられることです。軽いジョークを飛ばし、社会的文脈をよりよく理解し、会話を流れるように保ちます。有料ユーザーは11月12日にアップデートを受け取り始め、無料ユーザーはロールアウトが完了した後に受け取ります。エンタープライズおよび教育ユーザーは7日間のアーリーバードスイッチを取得します。
5.1 instantと5.1 thinkingのAPIアクセスは同じ週内に提供されます。技術的な側面では、5.1 instantはほとんどの人がデフォルトで使用するモデルであり、OpenAIは指示に従うことを改善しながら、それをはるかに温かくしました。それは今、適応的推論を持っており、より深い思考に取り組むタイミングを決定することを意味します。同社は、AIME 2025数学ベンチマークやCode Forcesスタイルのプログラミングタスクなどの専門的なテストでより良い成績を収めていると述べています。
5.1 thinkingは異なる種類のアップグレードを受けました。思考時間をより知的に割り当て、複雑な問題により長く、些細な問題により短く費やします。また、より明確な言語、未定義の用語が少なく、よりアプローチしやすいトーンを使用しています。両方のモデルは、特にカスタムスタイルと個性設定で、指示により確実に従います。
このアップデートは、既存のものに加えて、新しい公式パーソナリティも追加します。プロフェッショナル、率直、風変わりです。設定で応答を直接微調整できるベータ機能があり、簡潔さ、熱意、可読性、絵文字の頻度などです。そしてChat GPTはあなたの好みのトーンを検出し、それを永久に保存したいかどうか尋ねることができます。
OpenAIはこれをIQとEQをより効果的にブレンドするステップと呼びました。これにはすべて真剣な側面があります。OpenAIは2つの新しい安全性評価ディメンションを追加しました。1つは孤立や躁病のようなメンタルヘルスシグナル用で、もう1つはモデルへの不健康な愛着を防ぐための感情的依存用です。彼らはGPT-5.1 instantがジェイルブレイク耐性で改善されたと述べましたが、5.1 thinkingがいくつかのハラスメントやヘイトスピーチのベンチマークでわずかに後退したことを透明に示しました。
instantモデルも感情的依存の評価でわずかな後退を示しました。彼らはこれらを改善する予定だと述べましたが、今回はそれをオープンに開示したかったのです。まだアップデートが表示されない場合は、すぐに来ます。そして最初にローンチされたときにGPT-5を楽しめなかった人々のために、OpenAIは有料ユーザーが移行期間として最大3ヶ月間古いモデルを保持できるようにしています。
Black Forest LabsのFlux 2 Pro
そしてこれらすべてが起こっている間、Black Forest Labsも静かに次のモデルを前進させました。Flux 2 Proはすでに彼らのプレイグラウンド内でアルファおよびベータ段階を経て、今は内部プレビュー中です。まだ公式リリース日はありませんが、彼らのシステム内の痕跡は、モデルが元のFluxと同じように1440×1140までの柔軟な解像度をサポートしていることを確認しています。
Proというラベルは、最初のリリースが商業およびプロフェッショナルユーザー向けである可能性を示唆しており、おそらくAPIおよびプレイグラウンドアクセスを介してであり、無料のオープンソースバージョンの兆候はまだありません。元のFluxはMidjourneyレベルの出力に匹敵することで多くの注目を集めたため、Flux 2への期待は高いです。Black Forest Labsは今、より頻繁なアップデートをからかっており、何かが近いことを示唆しています。
そしてこれが今の状況です。Gemini 3かもしれないリークされたGoogleモデル。Bite Danceがコーヒー一杯より安いコードAIを投下。OpenAIがGPT-5.1でパーソナリティに焦点を移している。そしてBlack Forest Labsが高品質画像生成への別のプッシュを準備している。
さて、今日は以上です。この解説を楽しんでいただけたなら、コメントを残して購読ボタンを押してください。視聴ありがとうございました。次回お会いしましょう。


コメント