今週のAI業界は激動の展開を見せた。GoogleのGemini 3がランキングを席巻したことでOpenAIが社内で「コードレッド」を発令し、秘密裏に開発していた新モデル「Garlic」の存在が明らかになった。AppleはClaraという革新的な文書検索システムを公開し、Microsoftは超低遅延の音声応答技術を発表。中国の研究機関は長時間稼働可能なライブアバターシステムを披露し、TencentはコンシューマーGPUで動作する高速動画生成モデルをリリースした。Googleは大規模コンテキスト処理に特化したメモリベースシステムTitansを発表し、Luxは実際のコンピュータ画面を制御できるAIエージェントという一線を越えた技術を公開。ZIPUはGLM 4.6Vという完全オープンソースのマルチモーダルモデルを、MistralはDevstral 2という実用的なコーディング支援モデルを発表した。東京のスタートアップがAGI達成を主張し、ディズニーがOpenAIと正式にキャラクターライセンス契約を締結。米軍は独自の生成AIプラットフォームを展開した。そしてその渦中で、OpenAIはGPT-5.2という大幅な技術アップグレードをリリースしたが、興奮よりも懐疑的な反応を引き起こすという皮肉な展開となった。

激動の一週間
今週のAI業界では、GoogleのGemini 3がチャートの上位に食い込んだ後、OpenAIが社内で「コードレッド」を発令したと報じられています。Garlicと呼ばれる秘密のOpenAIモデルに関するリークが浮上しました。Appleは静かにAIによる長文検索の方法を変更しました。Microsoftはほぼ瞬時のAI音声応答を推し進めました。中国の研究機関は何時間も稼働できるライブアバターを公開しました。
TencentはコンシューマーGPUで動作する高速動画生成モデルをリリースしました。そしてGoogleは大規模コンテキスト向けに構築された新しいメモリベースシステムを発表しました。Luxは実際のコンピュータ画面をAIに制御させるという一線を越えました。ZIPUはGLM 4.6Vを完全オープンソースのマルチモーダルモデルとしてリリースしました。Mistralは実用的なコーディング向けにDevstral 2を出荷しました。
東京のスタートアップがAGI対応システムを構築したと主張しました。ディズニーは正式にそのキャラクターをOpenAIにライセンス供与しました。米軍は独自の生成AIプラットフォームを展開しました。そしてそのすべての真っ只中で、OpenAIはGPT-5.2、つまり重大な技術的アップグレードをリリースしましたが、なぜか興奮ではなく懐疑的な反応を引き起こしました。では、それについて話していきましょう。
OpenAIの危機感とGarlicモデル
まず最初に、OpenAIは今週、GoogleのGemini 3がLMアリーナチャートのトップに上り詰めた後、静かに限界点に達しました。サム・アルトマンは社内で「コードレッド」を宣言したと報じられており、社内で本物の競争圧力が高まっていることを示しています。ほぼ即座に、OpenAIが秘密裏に構築してきた新しいモデルについてのリークが続きました。内部ではGarlicと呼ばれています。
最高研究責任者のマーク・チェンによる内部コメントによると、Garlicはすでに社内評価において推論とコーディングの面でGemini 3とAnthropicのOpus 4.5を上回っているとのことです。興味深いのは、なぜそれが機能するかという点です。OpenAIは事前学習の最も初期段階に立ち戻り、まず広範な概念構造に焦点を当て、その後に詳細な部分を重ねていくように再構築しました。
この変更により、より小型で安価なモデルでより高いパフォーマンスを引き出すことができるようになりました。これは、驚くほど高性能な軽量システムを推進してきたDeepSeek、Mistral、そして複数の中国の研究機関といったライバルへの明確な対応です。Garlicは他の社内モデルラインと並行して動作しており、OpenAIがいかに積極的に反復開発を行っているかを示しています。タイミングは不明ですが、できるだけ早くということはおそらく来年初めを意味しているでしょう。
Apple Claraの革新的アプローチ
OpenAIが慌ただしい状況にある一方で、Appleは静かに今年最も技術的に印象的な研究システムの1つであるClaraをリリースしました。長文をAIで検索したことがある人なら誰でもその問題を知っています。現代のシステムは膨大なテキストの塊を取得し、それをコンテキストウィンドウに詰め込んで、モデルがそれを理解してくれることを期待します。
このアプローチは機能しますが、文書が大きくなるにつれて遅く、高コストで、煩雑になります。Appleはそのアイデア全体を捨て去りました。Claraは文書を、意味を保持しながら冗長性を取り除く非常に小さなメモリトークンのセットに圧縮します。クエリごとに数千の単語を取り込むのではなく、モデルはこれらの高密度表現上で直接動作します。
Claraが際立っているのは、その訓練方法です。Appleは検索器と生成器を単一のシステムとして共同で訓練しました。したがって、両方が同じ圧縮空間内で推論することを学習します。ほとんどのRAGパイプラインはこれらの部分を分離したままにしています。AppleはClaraを約200万のWikipediaパッセージで訓練し、合成的なマルチホップの質問と回答、およびデータをクリーンにするための繰り返し検証ループを使用しました。
その結果、高い圧縮レベルでも例外的に優れたパフォーマンスを発揮するシステムとなり、時には完全なテキスト検索パイプラインを上回りながら、はるかに少ない入力を使用します。Appleは複数のバージョンと完全な訓練パイプラインもリリースしており、これはLLM分野におけるはるかに大きな野心を静かに示しています。
Microsoftの超低遅延音声技術
Microsoftは全く異なるもの、つまり遅延に焦点を当てました。その新しいViveoice Real-time 0.5Bモデルは、AIアシスタントにおける最も顕著な問題の1つである、音声が始まる前の不自然な間を解決します。このシステムは約300ミリ秒で話し始めることができ、ロボット的というよりも即座にやり取りを感じさせます。重要なアイデアはシンプルで賢いものです。音声生成は、完全な文やチャンクが完成するのを待つのではなく、言語モデルがテキストの生成を始めた瞬間に開始されます。
このモデルはLLMと並行して動作するように設計されており、トークンが到着すると同時に音声をストリーミングします。比較的小型であるにもかかわらず、長い会話でも安定性を保ち、ドリフトすることなく音声の一貫性を維持します。品質ははるかに大型の音声モデルと同じレベルに達しています。それでもシステムはリアルタイム展開に十分軽量なままであり、タイミングが何よりも重要なアシスタント、エージェント、ライブ会話システムに理想的です。
中国のライブアバター技術
視覚面では、Alibabaといくつかの主要な中国の大学がLive Avatarを発表し、これはほぼすべての人を驚かせました。これは毎秒20フレーム以上で表情豊かで高品質な顔のアニメーションを生成できるリアルタイム動画アバターシステムで、ライブオーディオ入力に即座に応答します。
これは短いデモトリックでもありません。このシステムは、アイデンティティ、表現の質、モーションの一貫性を失うことなく、何時間もストリーミングできます。この長期的な安定性がLive Avatarを際立たせるものです。ほとんどの動画生成システムは、顔がドリフトしたり、色がシフトしたり、モーションが不自然になったりして、時間が経つにつれて徐々に崩壊していきます。
Live Avatarは、重度の蒸留と、一貫したアイデンティティにモデルを固定し続ける慎重に設計された注意メカニズムを通じて、それを回避しています。その結果は、研究プロトタイプというよりも、実際の製品準備システムのように感じられます。
Tencentの実用的動画生成モデル
Tencentは、今年登場した最も実用的な動画生成モデルの1つであるHuan Video 1.5をリリースしました。わずか83億のパラメータで、コンシューマーグレードのGPU上で十分に高速に動作しながら高品質の結果を提供します。データセンターの後ろに閉じ込められているように感じる多くの巨大な動画モデルとは異なり、これは明らかに一般のクリエイターや開発者が使用できるように設計されています。
ここでの大きな勝利はスピードです。ステップ蒸留と効率的なアーキテクチャのおかげで、Huan Video 1.5は以前のバージョンよりも劇的に高速に動画を生成でき、モーションはスムーズで、プロンプトは正確で、ビジュアルは安定しています。
ストーリーをさらに深く掘り下げる前に、コメントで繰り返し見かけることがあります。どうやってこんなに速く多くのコンテンツを制作できるのかと人々が尋ねています。
見てください、2025年だけでこのチャンネルは3200万回の視聴を獲得しました。これは運ではありません。これはより懸命に努力することでもありません。新しいAIのブレークスルーが登場するたびに、私たちはそれを直接ワークフローに組み込んでいるからです。ほとんどの人はAIニュースを見て先に進みます。私たちはそれをすぐに使用します。
そこで私たちは、これまで共有したことのないものをリリースすることにしました。2026年のAIプレイブック。AI時代を支配するための1000のプロンプトです。これは、AIコンテンツを消費するだけから、実際にAIを使用して自分自身のために本当の不公平な優位性を構築することへの移行方法です。提案書を4時間ではなく20分で完成させましょう。ずっと先延ばしにしていた副業を立ち上げましょう。半分の時間で2倍の仕事をこなす、あなたの会社の人物になりましょう。
ファウンディングメンバーアクセスは間もなく開始されます。説明欄のウェイトリストに参加してください。さて、動画に戻りましょう。
Google Titansの長文コンテキスト処理
Google Researchはついに、標準的なトランスフォーマーモデルの限界に直接挑戦するシステムであるTitansのカーテンを開きました。Titansが取り組む核心的な問題は長文コンテキストです。トランスフォーマーはコンテキストウィンドウが大きくなるにつれて、苦痛なほどコストが高く不安定になります。一方、状態空間モデルは効率的なままですが、すべてを単一の状態に圧縮することで詳細を失います。
Titansは両方のアプローチを融合させます。短期的な精度のためにウィンドウ化された注意を使用し、モデルの実行中に更新される長期メモリモジュールを追加します。これが異なるのは、メモリの処理方法です。Titanは驚きに基づいて情報を保存し、データを盲目的に破棄するのではなく、インテリジェントに忘却します。
1つのバリアント、Memory as Contextは、200万トークンを超えるシーケンスを処理し、Baby Longやneedle in a haystackのようなベンチマークを支配しました。比較的小型の760Mパラメータモデルが、GPT-4やはるかに大型のLlamaセットアップを上回りました。これらの結果が実世界の使用で成立すれば、Titanは訓練後に固定されたままではなく、推論中に適応するモデルへのシフトを示しています。
Googleはまた、Proイメージモデルのより低コストなバージョンであるNano Banana 2 Flashを準備しています。これはGoogleの戦略に完璧に適合しています。Proモデルはパフォーマンスのリーダーシップを確立し、Flashモデルはコストを爆発させることなく、その品質をスケールにもたらします。初期のシグナルは、Flashが高頻度の画像生成とバッチワークロードに理想的であることを示唆しています。
タイミングは重要です。Nano BananaはGeminiのエンゲージメントの最大のドライバーの1つになっており、特に生産性ツールではなくクリエイティブエンジンとして扱う若いユーザーの間でそうです。より安価なFlashバリアントはアクセスを拡大し、毎日の使用を促進します。GoogleのAndroid配布の優位性と組み合わせると、この動きは明らかにボリュームについてのものです。
最高のモデルを持つことだけではありません。最も多くの人々がGoogleのエコシステム内で常にそれを使用するようにすることです。
Luxの画期的AIエージェント
次に、Open AGI FoundationによってリリースされたLuxがあります。これは実際にAIエージェントの転換点のように感じられます。APIに依存する代わりに、Luxは実際のユーザーインターフェースを直接操作します。画面を見て、レイアウトを理解し、ブラウザ、スプレッドシート、エディタ、完全なオペレーティングシステム全体でクリック、スクロール、キーストロークを実行します。これにより、ツールを備えたチャットモデルよりも、実際の自動化インフラストラクチャにはるかに近づきます。
Mind2webベンチマークでは、LuxはGemini CUA、OpenAI Operator、Claudeを大きく上回る83.6スコアを記録しました。その強みは設計と訓練の両方から来ています。Luxは、高速な単一ステップアクションから完全にスクリプト化された決定論的ワークフローまで、3つの実行モードを提供します。さらに重要なことに、何千ものライブOS環境内で行動することによって学習する、エージェント的アクティブ事前訓練を通じて訓練されています。
その経験により、堅牢で適応性があり、実行コストが大幅に安くなり、エージェントが現実的に何ができるかについての期待を再形成します。
ZIPU GLM 4.6Vの衝撃
さて、GLM 4.6Vが一夜にして爆発しました。そしてZIPU AIが実際に出荷したものを見れば、その理由は明白です。これは、画像、動画、スクリーンショット、さらには完全なWebページをツール呼び出しの実際の入力として扱う最初のオープンソースマルチモーダルモデルであり、最初にテキストに平坦化する必要があるものとしてではありません。
ビジュアルは推論とアクションに直接流れ込みます。それだけでエージェントの動作方法が変わります。なぜなら、モデルは見たものを説明するだけでなく、ビジュアルを意思決定ループの一部として使用するからです。オープンソースの側面が人々を驚かせたものです。今まで、このレベルのマルチモーダル機能は閉じられたAPIの後ろに存在していました。GLM 4.6VはMITライセンスで、ダウンロード可能で、ローカルで実行可能です。
また、128kコンテキストウィンドウまで拡張されます。つまり、脆弱なパイプラインなしで、長文、スライドデッキ、または1時間の動画さえも1つの連続したパスで処理できる大規模な混合入力を処理できることを意味します。ZIPUは2つのバージョンをリリースしました。クラウド使用のための106bフラグシップと、ローカルの低遅延ワークロード向けに調整された9b Flashモデルです。
Flashバージョンは無料で、大型モデルの価格は合計で100万トークンあたり約1.20ドルから20ドルで、GPT-5.1、Gemini 3 Pro、Claude Opusを大幅に下回っています。それにもかかわらず、GLM 4.6Vは長文コンテキスト推論、動画理解、マルチモーダルベンチマークではるかに大型のモデルを打ち負かすか、またはそれに匹敵します。真のブレークスルーはネイティブマルチモーダルツール呼び出しです。
スクリーンショット、PDF、動画フレーム、Web結果がツールに直接渡され、テキスト要約ではなくビジュアルとしてモデルに戻されます。それが知覚、推論、行動の間のループを閉じます。実際のマルチモーダルエージェントのための欠けていた部分です。ライセンス、価格設定、長文コンテキスト、そして真のビジュアル実行の間で、GLM 4.6Vは段階的なアップグレードのようには感じられません。
オープンソースマルチモーダルシステムが何ができるかのシフトのように感じられます。そしてそれが反応が即座だった理由です。
Integral AIのAGI主張
さて、これは興味深いものです。Integral AIと呼ばれる東京を拠点とするスタートアップが、世界初のAGI対応モデルを構築したと述べています。そしてその言葉遣いは重要です。なぜなら、AGI対応とは事実上AGI機能が理論的ではないことを意味するからです。システムが人間レベル以上で実行できるなら、それは実際にはすでにそこにあります。
Integral AIは、初期の生成システムに取り組む数年を過ごした後、ロボット工学に焦点を当てるために日本に移住した元Google AI研究者のジャド・テラフィによって設立されました。テラフィによると、このシステムは別のスケールアップされた言語モデルではありません。人間の知性が実際にどのように機能するかを反映するためにゼロから構築されており、データセット、ラベル、または人間の監督なしに、独自に新しいスキルを学習できます。
注目を集めたのは、Integral AIがAGIをどのように定義するかです。彼らは3つの具体的な基準を使用しています。第一に、自律的なスキル学習、つまり例なしに不慣れな領域で完全に新しいスキルを習得する能力です。第二に、安全で信頼性の高い習熟、つまりシステムが壊滅的な失敗なしに学習することを意味します。第三に、エネルギー効率、つまりタスクを学習することが人間の脳に匹敵するエネルギーを消費することです。
その最後のポイントは、ほとんどのAIシステムが満たそうとさえしない生物学的ベンチマークを設定します。アーキテクチャは人間の新皮質をモデルにしており、知覚、抽象化、計画、行動を単一のループに組み合わせています。Integral AIは、実世界のロボット工学でこのシステムをすでにテストしており、機械が独立して新しい行動を学習したと主張しています。
この主張が成立するかどうかはまだ分かりませんが、DeepMindsのデミス・ハサビスのようなリーダーがAGIが急速に近づいていると公然と言っている瞬間に現れます。ワールドモデル研究、具現化エージェント、バチカンのような機関からさえも倫理的注目が高まっている中で、AGI会話は明らかにシフトしました。これはもはや理論的には感じられません。
GPT-5.2への複雑な反応
さて、OpenAIはGPT-5.2をリリースしたばかりです。そして紙の上では、これは明確な勝利宣言であるべきでした。ベンチマークは全体的に強力です。専門的なタスクパフォーマンスが向上しました。コーディングが改善されました。長文コンテキスト推論がついに大規模なスケールで成立します。ビジョンはより信頼性が高くなりました。そしてエージェント的ツール呼び出しは本当に本番準備ができているように見えます。
OpenAIが強調したすべての指標において、GPT-5.2はGPT-5.1からの本当のステップフォワードです。それなのに、オンラインでの反応は奇妙に冷たく感じられました。興奮の代わりに、反応は懐疑的でした。人々はベンチマークに疑問を投げかけ、推論モードについて冗談を言い、日々の使用で改善を感じた後にのみ信じると言いました。
これを興味深いものにしているのは、ほとんどの批評家が実際にデータを理解しているということです。彼らは利益が本物であることを知っています。それこそが反発が重要である理由です。GPT-5.2は本当に成果を上げています。GDP Valでは、実際の職場タスクの70%以上で人間の専門家を打ち負かすか、またはそれに匹敵します。SWEBench Proでは、新しい最先端を設定しています。
ARGI2では、ジャンプは段階的ではありません。それは傾斜の変化です。長文コンテキスト推論は数十万のトークンにわたって機能し、ビジョンとツール使用は意味のある利益を示しています。これはおそらくOpenAIがリリースした最強の汎用モデルです。
では、なぜ不信感があるのでしょうか。第一に、ベンチマーク疲労です。ユーザーは日常的な経験にきれいに変換されなかった多くのチャートを見てきました。数字は依然として重要ですが、もはや感情的に説得しません。第二に、信頼の侵食です。過去のリリースは、ユーザーにスロットリング、動作のシフト、または静かなロールバックを期待するよう訓練しました。改善は現在、デフォルトで一時的に感じられます。そして最後に、焦点です。
GPT-5.2は明らかに企業作業、スプレッドシート、コーディング、エージェント、長文向けに最適化されています。生産性では優れていますが、トーンは冷たくなっています。反応は重要なことを示しています。知性だけではもはや成功を定義しません。信頼と快適さも同じくらい重要です。
ディズニーとOpenAIの歴史的提携
さて、今週の他のAIニュースでは、OpenAIとディズニーが画期的な3年間のパートナーシップを発表しました。ディズニーは、10億ドルの株式投資と追加のワラントに支えられて、そのIPをAI動画プラットフォームに正式にライセンスする最初の主要スタジオとなります。
この契約により、SoraとChatGPTイメージは、ディズニー、マーベル、ピクサー、スターウォーズにわたる200以上のキャラクター、コスチューム、ロケーションへの管理されたアクセスを得ます。2026年初頭から、ユーザーはファンがプロンプトした短い動画や画像を生成でき、キュレーションされたコンテンツはディズニープラスにも表示されます。重要なことに、契約は俳優の肖像と声を除外し、年齢ベースのアクセスルールを実施し、有害または違法な出力に対する厳格なセーフガードを含んでいます。
ディズニーはまた、ChatGPTとSora APIを内部ツールとディズニープラスに統合し、世界最大のIPライブラリの1つをライセンスされたAIネイティブエコシステムに変えます。この契約は、生成AIと主要な権利保有者が絶え間ない法的紛争なしに共存できる方法のテストケースとして広く見られています。
MistralのDevstral 2リリース
一方、Mistral AIはDevstral 2、新しいコーディング特化モデルファミリーのリリースでオープンソースを倍増させました。フラグシップのDevstral 2は、256kという大規模なコンテキストウィンドウを持つ123億パラメータの重さです。一方、Devstral Small 2は、コンシューマーハードウェアでローカルに実行できる24Bパラメータの代替品を提供します。
Devstral 2は、SWEBench Verifiedで72.2%のスコアを記録し、プロプライエタリな競合他社よりも大幅にコスト効率が高いままで、利用可能なトップパフォーマンスのオープンウェイトコーディングモデルの中に位置しています。このモデルは、マルチファイルリファクタリング、依存関係追跡、自動リトライのような実世界のソフトウェアエンジニアリングタスク用に設計されています。
Mistralはまた、コード自動化とプロジェクト認識オーケストレーション用のコマンドラインツールであるVibe CLIを導入し、閉じられたプラットフォームではなく透明な開発者ファーストのAIシステムを構築するという同社の戦略を強化しています。
米軍の生成AIプラットフォーム展開
最後に、多くの人を驚かせた動きとして、米国防総省は正式にgenai.milを展開しました。これは、非機密ネットワーク上のすべての軍人、民間人、請負業者が利用できる安全な生成AIプラットフォームです。このシステムは当初、管理された非機密情報の取り扱いを承認されたGoogleのAIの特殊バージョンであるGemini for Governmentによって動力を供給されています。
国防長官ピート・ヘグセスによると、目標は、文書作成と研究からデータ分析、衛星画像解釈、コード監査まで、日々のワークフロー全体でのAIの大量採用です。アクセスは検証された職員に制限されており、ユーザーは出力を慎重に検証するよう注意されています。当局者は、実験ではなく、スピード、スケール、統合を強調して、世界的なAI競争における戦略的動きとしてロールアウトを組み立てました。
では、ここで質問です。AIが速く進んでいるのは、技術が準備できているからですか、それとも企業が他の誰かが勝つ前に急いでいるからですか。コメントであなたの意見を書いてください。いいねとチャンネル登録をお願いします。視聴ありがとうございました。次回お会いしましょう。


コメント