OpenAIがGoogleのGemini 3の台頭を受けて社内で「コードレッド」を宣言し、秘密裏に新モデル「Garlic」を開発している。Garlicは推論とコーディング分野でGemini 3やClaude Opus 4.5を上回る性能を示しており、事前学習プロセスの根本的な改善により実現された。一方、Appleは文書全体を超高密度なメモリトークンに圧縮する革新的システム「Clara」を発表し、従来の4倍の圧縮率で優れた検索・生成性能を達成した。Microsoftは300ミリ秒で応答可能なリアルタイム音声合成モデル「Vibe Voice Realtime 0.5B」をリリースし、AI会話の遅延問題を解決。Alibabaは毎秒20フレーム以上で10,000秒以上のストリーミングが可能な「Live Avatar」を公開し、リアルタイムアバター技術の実用化に成功した。さらにTencentは一般ユーザーが家庭で実行できる高品質動画生成モデル「Huan Video 1.5」をオープンソース化し、RTX 4090で約75秒での動画生成を実現している。AI業界における激しい技術競争が一気に加速している状況である。

OpenAIのコードレッド宣言とGarlicモデルの開発
OpenAIが社内でコードレッドを発令し、密かに新しいモデルであるGarlicを構築しているんです。Appleは文書全体を小さなメモリトークンに圧縮する驚くべき新しい方法を発表しました。MicrosoftはついにAI音声の煩わしい遅延をリアルタイムTTSモデルで解決しました。Alibabaは途切れることなく永遠にストリーミングできるアバターシステムを披露しました。
そしてTencentは一般の人々が実際に自宅で実行できる動画生成システムをリリースしたんです。これらすべてが一度に起こったので、詳しく見ていきましょう。
さて、事の発端はOpenAI内部からのリークでした。正直なところ、これはみんなを不意打ちにしたんです。社内の状況に詳しい人々によると、サム・アルトマンは基本的にGoogleがGemini 3をLMSArenaチャートのトップに押し上げた後、オフィスに入ってきて、チームにコードレッドを宣言すると告げたそうです。
そしてこのフレーズは軽々しく使われるものではありません。これはOpenAIが本当のプレッシャーを感じているということを意味します。競合が緊急事態として扱うほどに差を縮めてきたということなんです。そしてその社内メッセージが出た後、ストーリーの次の部分がほぼ即座に表面化しました。OpenAIはGarlicと呼ばれる新しいモデルを秘密裏に構築していたんです。
同社の最高研究責任者であるマーク・チェンが社内で述べたことによると、GarlicはOpenAI自身のテストで非常に優れたパフォーマンスを発揮しているそうです。推論とコーディングといった分野でGemini 3とAnthropicのOpus 4.5を打ち負かしているんです。これは印象的です。なぜなら、この2つのモデルは過去数ヶ月間、これらのカテゴリーで基本的にゴールドスタンダードになっていたからです。
だから、OpenAIがカーテンの裏に両方を上回るものを持っているという事実は、彼らが今、競争をどれほど真剣に受け止めているかを物語っています。しかし、Garlicを興味深いものにしているのは、それが存在する理由なんです。どうやらOpenAIは事前学習システム、つまりモデルが膨大な量のデータから学習する段階に戻って、新しい世代を妨げていた問題の束を修正したようです。
モデルに最初からすべての細かい詳細を詰め込むことを強制する代わりに、最初により大きく広範な接続に焦点を当て、その後詳細に絞り込むようにプロセスを再構築したんです。これは小さな変更のように聞こえますが、OpenAI内部では大きな転換として説明されています。そして、これらの初期の問題を修正したことで、突然、より小さなモデルにより多くの知識を詰め込むことができるようになりました。
小さなモデルが重要なのは、トレーニングが安く、実行が速いからです。そしてMistral、DeepSeek、そして中国のいくつかの研究所のような企業が、その重量級をはるかに超えるパフォーマンスを発揮する小型モデルを見せ始めたとき、それは明らかにOpenAIに対応を促したんです。問題は、Garlicがシャロット・ピートと呼ばれる別の内部プロジェクトとは完全に別物だということです。これもサム・アルトマンが以前話していたもので、事前学習のバグを修正することになっていました。
つまり、OpenAIは基本的に複数のモデルラインを同時に実行し、自分自身を飛び越えて、他の誰にも遅れを取らないようにしようとしているんです。Garlicのタイミングは公式ではありませんが、マーク・チェンがそれについて尋ねられたとき、彼はできるだけ早くと言いました。そして、OpenAIが今どれほど積極的に動いているかを考えると、安全な賭けは来年初めです。
そしてさらに驚くべきことに、Garlicのために行った作業は、どうやらその後の次の大きなモデルの進歩をすでに解放したようです。だから、このコードレッドが社内で引き起こしたものは何であれ、明らかに連鎖反応を引き起こしたんです。今の研究所間のコントラストも魅力的です。たとえば、Anthropicはこのようなプレッシャーを全く感じていません。
ダリオ・アモデイはニューヨーク・タイムズのディールブック・サミットで、彼らはOpenAIやGoogleと同じ観客を奪い合っているわけではないと述べました。Anthropicはエンタープライズ顧客に焦点を当てており、彼らのClaude Codeシステムはローンチからわずか6ヶ月で年間10億ドルの収益ペースに達しました。あなたのツールの1つだけで10億ドルのペースをもたらしているなら、コードレッドは本当に必要ないんです。
無料プロンプトガイドの紹介
さて、ちょっと休憩です。私たちが毎日AI関連のニュースをどのように追いかけ、すべてを明確で構造化された方法で分解しているかご覧になったと思います。その一貫性の大部分は、適切なワークフローを持つことから来ています。だから、私は仕事、ビジネス、そして日常生活でより生産的になるのを助けるための最高のプロンプト10選を含む無料ガイドをまとめました。
説明欄のリンクを使うか、画面上のQRコードをスキャンして入手できます。これらは私が1日を計画し、ノイズを切り抜け、アイデアを素早く使えるものに変えるために使っているのと同じプロンプトです。AI Power Promptスターターパックは無料で、実用的で、説明欄であなたを待っています。
さて、それでは動画に戻りましょう。
AppleのClara文書圧縮システム
大手研究所が力を見せつけている間、Appleは静かに今年最も印象的な研究リリースの1つであるClaraと呼ばれるシステムを発表しました。長い文書を検索したり、複数の情報が必要な質問に答えようとするチャットボットを使ったことがあるなら、それがどれほど混乱するかをすでにご存知でしょう。
今日のほとんどのシステムは、巨大なテキストの塊を掴んで、コンテキストウィンドウに詰め込み、モデルがすべてを整理できることを期待します。この方法は機能しますが、遅く、高価で、文書が長くなるにつれて悪化します。Appleはそのプロセス全体を完全に再考することにしました。Claraは文書を小さなメモリトークンのセットに圧縮します。
基本的に、すべての重要な意味を保持する超高密度の要約です。そして、それらのトークンを検索と生成の両方に使用します。だから、質問をするたびにAIが何千もの単語を掴む代わりに、圧縮されたトークンの小さな束を引っ張って、その共有空間内で直接作業するんです。驚くべき部分は、Appleが文書を圧縮しただけではないということです。
彼らはレトリーバーとジェネレーターを一緒にトレーニングしたので、お互いから学習するんです。今日のほとんどのRAGシステムは、これら2つの部分を別々に扱います。Appleはそれらを1つの脳として動作させました。これを構築するために、彼らは2021年のWikipediaから約200万のパッセージでトレーニングしました。ローカルのQwen 2 32Bモデルが各文書に対してシンプルなQ&A、マルチホップQ&A、パラフレーズを生成しました。
そして、最大10ラウンドの検証ループがすべてをクリーンアップし、データが一貫性があり完全になるまで続けました。彼らはトレーニングに2つの損失を使用しました。圧縮されたメモリを使用して質問に答える方法をモデルに教えるためのクロスエントロピーと、メモリトークンと完全な文書トークンが整列したままであることを確認するためのMSE損失です。
これらの詳細はオタクっぽく聞こえるかもしれませんが、これがClaraが高圧縮レベルで非常に優れたパフォーマンスを発揮する理由なんです。数字は正直なところ狂っています。4倍の圧縮率で、ClaraのCompressorはNatural QuestionsやHotpotQAのようなベンチマークデータセットで平均F1スコア39.86を記録します。これはLLMLingua-2より5.37ポイント優れており、Priscoより1ポイント以上先行しています。
この分野で最も強力なベースラインの2つです。正しい文書がリストにあることが保証されているオラクルセットアップでは、モデルは66.76のF1を獲得し、他の方法を大差で上回ります。さらに驚くべきことに、圧縮された文書表現は、BGE plus Mistral 7Bのような完全なテキスト検索パイプラインを時々上回ります。文字通り、大幅に短い入力を使用してより良い結果を得ているんです。
そしてClaraがリランカーとして実行されると、HotpotQAでrecall@5が96.21に達し、関連性のために特別にトレーニングされた教師あり検索器を打ち負かします。AppleはClaraの3つのバージョンをリリースしました。Base、Instruct、E2E、さらに完全なトレーニングパイプラインです。この動きだけでも、AppleがLLM分野へのより大きなプッシュを準備している可能性があることを示しています。
そして、それが起これば、事態は非常に速く、非常に興味深いものになるでしょう。
Microsoftのリアルタイム音声合成技術
それからMicrosoftが全く異なるものを持ち込みました。Vibe Voice Realtime 0.5Bと呼ばれるリアルタイム音声モデルです。話す前に1、2秒かかるAIアシスタントを使ったことがあるなら、その間がどれほど気まずいかをご存知でしょう。Microsoftはついにその問題を解決しました。
このモデルは約300ミリ秒で話し始めることができます。これは基本的に瞬時です。そしてシステム全体はエージェントLLM、つまり考えながら話すLLMのために設計されました。言語モデルがテキストの生成を開始した瞬間、Vibe Voiceが飛び込んで、LLMが残りを生成し続けている間に、それらのトークンを音声に変換し始めます。
こんにちは、AI Revolutionチャンネルです。これは7.5ヘルツで動作する音響トークナイザーのみを使用し、一部の大型バージョンのようにセマンティックトークンと音響トークンを混在させません。そのトークナイザーは、7つのTransformerレイヤーを持つSigma VAEシステムに基づいており、24kHzオーディオから3,200倍という巨大なダウンサンプリング係数を持っています。
その上には、Qwen 2.5 0.5Bモデルからの隠れ状態で条件付けられた小さな4層の拡散ヘッドが配置されています。スタック全体で約10億パラメータになり、これは一部の巨大なTTSモデルと比較すると比較的軽量です。LibriSpeech test-cleanでのパフォーマンスは、2%の単語誤り率と0.695の話者類似度スコアを示しています。
これはValley 2やVoiceBoxのような強力なモデルと同じリーグに位置付けられます。そして、これらの古いシステムとは異なり、これは長時間の音声に最適化されており、会話全体を通して安定性を保ちます。このモデルは8Kコンテキストウィンドウ内で約10分のオーディオを生成できます。そして、音楽や背景ノイズを作成しようとしないため、アシスタントスタイルの使用例に対して超クリーンな状態を保ちます。
Microsoftは公式に、LLMの隣に小さなマイクロサービスとして実行することを推奨しています。LLMがテキストをストリーミングし、Vibe Voiceがオーディオをストリーミングし、2つが完全に同期したままになります。
AlibabaのLive Avatarシステム
そして、視覚的AI コミュニティ全体を驚かせたリリースに到達します。Alibabaといくつかの主要な中国の大学からのLive Avatarです。これは、アニメーションアバターがついに、ぎこちない研究デモではなく、本物の製品になった瞬間のように感じられます。
Live Avatarは、リアルタイムで毎秒20フレーム以上でビデオを生成できる140億パラメータの拡散モデルを使用しています。そして、リアルタイムと言うとき、私はマイクに向かって話すと、アバターが滑らかな顔の動き、ジェスチャー、表情、全パッケージで即座に応答することを意味します。ドリフトしたりアイデンティティを失ったりすることなく、10,000秒以上のストリーミングもサポートしています。
彼らは技術の組み合わせを使用してこれを実現しました。まず、彼らは分布マッチング蒸留と呼ばれるものを使用して、重い複数ステップのビデオ拡散システムを、わずか4つのサンプリングステップで動作するモデルに縮小しました。次に、彼らはタイムステップ強制パイプライン並列化を作成しました。これは、デノイジングプロセスを複数のGPUに分散させる方法で、ほぼ線形のスピードアップを得られます。
それだけで、元のベースラインに比べて84倍の改善が得られました。しかし、Live Avatarの本当の天才性は、長いビデオの劣化問題を解決する方法にあります。ほとんどの自己回帰ビデオジェネレーターは時間とともに壊れます。色がシフトし、顔が歪み、アイデンティティがドリフトし、動きが奇妙になります。Live Avatarは3つの賢いアイデアでこれを修正します。Rolling RoPE、適応的アテンション同期、履歴破損です。
Rolling RoPEは、ビデオの長さが増加しても位置情報を安定させます。適応的アテンション同期は、元の参照フレームを生成されたものと置き換えるため、モデルが真の分布から離れることはありません。そして履歴破損は、トレーニング中にキャッシュに制御されたノイズを追加するため、モデルは小さなミスが複合するのを許すのではなく、それらから回復する方法を学習します。
これら3つの要素が一緒になって、Live Avatarは品質を失うことなく、効果的に無限の長さのストリーミングビデオを生成できるようになります。これは以前には本当に見たことがありませんでした。そして、リアルタイムアバターを使用して互いに話す2つのAIエージェントのデモは、正直なところSF映画から出てきたもののように見えます。
TencentのHuan Video 1.5動画生成モデル
そして、これらすべてが起こっている間、TencentはHuan Video 1.5を発表しました。おそらく今年リリースされた最もアクセスしやすい高品質のビデオジェネレーターです。このモデルにはわずか83億のパラメータしかありません。他のビデオシステムと比較すると小さいですが、滑らかな動き、強力なプロンプトフォロー、クリーンなテキストレンダリング、安定したカメラの動きを備えた最高級のビデオ品質を提供します。大きなことは、それがどれほど速く実行されるかです。
新しいステップ蒸留480pモデルは、8または12ステップでビデオを生成できます。そしてRTX 4090では、これは約75秒での完全な生成を意味します。これは以前のバージョンより約75%速いです。Huan Videoは、空間次元を16倍、時間次元を4倍圧縮する3D因果VAEを備えたDiTアーキテクチャを使用しています。
また、SSTA、選択的およびスライディングタイルアテンションと呼ばれるカスタムアテンションシステムも備えており、時間の経過とともに冗長なキー値ブロックを削除することで計算を削減します。これらすべてが、Flash Attention 3と比較して720pビデオ生成のエンドツーエンドのスピードアップをほぼ1.9倍にすることに加算されます。テキストからビデオへと画像からビデオへをサポートし、最大1080pの組み込み超解像度を備え、ComfyUI、diffusers、LightX 2V、Wong GP、DeepCache、TCH、Taylor Cacheなどの多数のキャッシングシステムと統合されています。
TencentはMuonオプティマイザーとともに、完全なトレーニングパイプラインをオープンソース化しました。これは、更新ステップを安定させることにより、巨大なビデオモデルがより速く収束するのを助けます。デモは、シネマティックショットから物理認識シーンまで、高速アクションシーケンスまで、すべてを示しています。彼らはGSB法、良い、同じ、または悪いを使用して、プロの査読者による大規模な評価を実施しました。
そしてHuan Videoは、テキストからビデオへと画像からビデオへの両方のタスクで一貫してトップにスコアされました。彼らは8台のH800 GPUで完全な速度ベンチマークも実行し、モデルは50ステップのプロセス全体で高品質を維持しました。
ということで、今日はここまでです。お付き合いいただきありがとうございました。次回またお会いしましょう。


コメント