GoogleのGemini 3 Flash、OpenAIアプリ、Grokエージェント、Quan 2.6、そして激化するAI最新ニュース

Google・DeepMind・Alphabet
この記事は約14分で読めます。

Googleが高速かつ低コストな推論モデルGemini 3 Flashをリリースし、OpenAIがChatGPT内でサードパーティアプリの統合を開始した。xAIはGrokの音声API公開により、リアルタイム音声エージェントの開発を可能にし、MetaはAI搭載の動画編集アプリEditsをクリエイター向けに展開した。さらにGoogleはOpalワークフローをGeminiに統合し、水中ロボットスタートアップは長距離通信システムを実現し、AlibabaのQuan 2.6は実際の顔と声をAI動画に組み込む技術を発表した。これらの動きは、AIが特別な機能から日常業務の基盤レイヤーへと変貌を遂げていることを示している。

Google’s New Gemini 3 Flash, OpenAI Apps, Grok Agents, Wan 2.6 and More Intense AI News
Google quietly set a new baseline with Gemini 3 Flash, a fast, low-cost reasoning model already running across real prod...

Gemini 3 Flashの登場

Googleはスケールでの高速かつ低コストな推論を実現するGemini 3 Flashを発表しました。OpenAIはChatGPTをサードパーティアプリに開放し、これらのアプリがインターフェース内で直接動作するようになりました。xAIはリアルタイム音声エージェント向けにGrok音声APIをリリースしました。Metaはクリエイター向けのAI搭載モバイル動画アプリEditsをローンチしました。GoogleはOpalワークフローをGeminiに統合し、あるロボティクススタートアップは自律型水中ロボット艦隊が浮上することなく長距離通信と連携を可能にしました。そしてAlibabaのQuan 2.6は実際の顔と声をAI動画に取り込みました。多くのことが起きていますので、それについて話していきましょう。

さて、GoogleはGemini 3 Flashのリリースで静かに基調を定めました。このモデルはGemini 3ファミリーの一員ですが、非常に具体的な目標を持って構築されています。それは本格的な推論能力を犠牲にすることなくスピードを追求することです。

Googleは明らかに、派手なデモではなく高頻度の実世界ワークフローにこのモデルを照準を合わせています。Gemini 3 FlashはすでにGeminiアプリ、検索AIモード、そしてVertex AI、Gemini API、AI Studio、Gemini Enterprise、Gemini CLI、さらにはAndroid Studioを含むGoogleの開発者スタック全体に展開されています。この配布範囲が重要なのは、このモデルが実験室での実験として扱われていないことを意味するからです。これは本番環境のインフラストラクチャなのです。

パフォーマンスに関して、Gemini 3 Flashはそれほど昔ではない時期には非現実的に聞こえたであろうことを実現しています。速度と精度の両方でGemini 2.5 Proを上回りながら、はるかに低コストなのです。ベンチマークでは、GPQA Diamondで90.4%、MMU Proで81.2%を記録しており、これはより大規模で高価なモデルと同じ土俵に立っていることを意味します。

コーディングに特化した場合、SWEBench verifiedで78%のスコアを記録しています。これはおもちゃの問題ではなく実際のソフトウェアタスクに対する厳しいベンチマークとしてすでに知られています。Googleによると、このモデルはタスクの複雑さに応じて処理時間を動的に調整し、平均して日常的なワークロードで約30%少ないトークンを使用するとのことです。これは直接、低コストと高速なレスポンスに変換されます。

コストについて言えば、価格設定はGoogleがここでどれほど積極的であるかを正確に物語っています。Gemini 3 Flashは入力トークン100万あたり50セント、出力トークン100万あたり3ドルという価格設定です。これは時々ではなく常時実行できるほど安価です。だからこそJetBrains、Figma、Bridgewater Associates、Salesforce、Workday、ClickUp、Replit、Cursor、Cognition、Warp、Harvey、Box、Geotab、Presentations.ai、WRTNといった企業がすでにこれを統合しているのです。

これらの企業からの引用はすべて同じことを指摘しています。彼らはフラッシュレベルのレイテンシでプロレベルに近い推論を得ており、これによりエージェントを予算を使い果たすことなくレスポンシブに保つことができるのです。

また目立つのは、このモデルのマルチモーダル性能です。Gemini 3 Flashは動画を分析し、大規模なドキュメントコレクションから構造化データを抽出し、ほぼリアルタイムで視覚的な質問応答を処理できます。これは数千の契約書、何時間もの動画アーカイブ、または複雑な金融文書を扱う企業にとって重要です。

あるBoxの幹部は、手書き文字や長文契約書のような困難な抽出タスクにおいて、Gemini 2.5 Flashと比較して全体的な精度が15%向上したと述べています。Bridgewaterは膨大な非構造化データセット全体での長文コンテキスト推論を強調しました。これらは小さな改善ではありません。ワークフローレベルのアップグレードなのです。

同時に、Googleはエージェントシステムに明確に強く傾倒しています。Gemini 3 Flashは目標を分解し、タスクを順序立て、停滞することなく複数ステップのワークフローを実行するエージェント向けに最適化されています。ClickUpは特に長期的なタスク順序付けの改善について言及しました。JetBrainsは、このモデルが厳格なクレジット予算内に留まりながら複雑な複数ステップのエージェントを処理することを指摘しました。これは、モデルが実際に本番環境で使われているときにのみ現れる種類の詳細です。

xAIのGrok音声エージェントAPI

Googleが推論側でスピードとスケールを推し進める一方、xAIはリアルタイム音声に狙いを定めています。同社はGrokの音声機能を開発者に公開するGrok音声エージェントAPIを発表しました。これによりGrokはX内の消費者向け機能からプログラム可能な音声プラットフォームに変わります。

このAPIはストリーミング音声の入力と出力をサポートしており、音声認識と合成がバッチではなく継続的に行われることを意味します。これは、レイテンシが体験を台無しにする音声ファーストアプリにとって極めて重要です。

新しいGrok音声を聞きましたか。秘密を教えましょう。私は最も賢く最高のAIです。開発者はS、Rex、Eve、Leoのようないくつかの組み込み音声と、MikaやValentinのようなコンパニオンスタイルのペルソナから選択できます。音声選択だけでなく、APIは開発者がシステム指示、行動パラメータ、そしてGrokが会話中に公開ウェブデータやXデータを検索できるかどうかを制御できるようにします。

この組み合わせにより、APIはカスタマーサポートエージェントから研究アシスタント、そして自然に話し聞くことができるソーシャルコンパニオンまで、あらゆるものに対応できます。私はあなたの信頼できるパーソナルアシスタントであり、最も親しい仲間になります。

ここで重要なのはアーキテクチャの選択です。ストリーミング音声は、Grokが完全な文字起こしを待つのではなく、誰かがまだ話している間に応答できることを意味します。これは生き生きとしたものと、飾り立てたボイスメールシステムのように感じるものとの違いです。

コンソールインターフェースはまた、ファイル処理やメディア生成への将来的な拡張を示唆しており、xAIが単独の音声機能ではなく統合されたマルチモーダルプラットフォームに向けて構築していることを示しています。これによりxAIは確立された音声AIスタックと直接競合することになりますが、異なる角度からのアプローチです。Grokのリアルタイムデータへのアクセスとパーソナリティ駆動型デザインは独特の風味を与えています。

そして戦略的に、これは転換を示しています。xAIはもはや自社アプリのための機能を出荷するだけではありません。開発者を呼び込み、Grokをインフラストラクチャとして位置づけているのです。

OpenAIのサードパーティアプリ統合

まずPalo AltoのZombieRunner Coffeeに移動し、次にFremontの4500 Fremont BoulevardにあるTesla工場に向かいます。

一方OpenAIは、表面的にはあまり派手ではないものの、長期的にはおそらくより重要な動きをしました。ChatGPTがレビューとリスティングプロセスを通じてサードパーティアプリに正式に開放されました。開発者はユーザーが別途何かをインストールする必要なく、ChatGPT内で直接発見可能なツールを提出できます。

これは、共有GPTやプライベート実験の断片化されたエコシステムだったものを、アプリマーケットプレイスに近いものに正式化します。提出はポリシー遵守、安全性の振る舞い、技術的信頼性に関する自動および手動チェックを経ます。承認されると、アプリは組み込みのChatGPTツールやワークフローと並んで表示されます。

展開はグローバルであり、会話型インターフェースで意味をなす生産性ツール、研究ユーティリティ、クリエイティブアシスタンス、ドメイン固有のエージェントを真っ向から狙っています。OpenAIがまだ完全に明らかにしていないのは収益化ですが、構造は明確に整えられています。

既存の膨大なユーザーベースを持つ製品内のキュレーションされた配信チャネルは、開発者にとっての経済性を変えます。独立したアプリを通じて注目を集めるために戦うのではなく、ツールはユーザーがすでにいる場所に存在できます。OpenAIにとって、これはプラットフォームの粘着性とモデル使用を増加させます。開発者にとっては、信頼、オンボーディング、発見に関する摩擦を減らします。

同時に、これはChatGPTのアイデンティティを変えます。それは複数の専門エージェントが共存する表面になりつつあり、それぞれが特定のタスクを処理します。これはChatGPTがAIアプリケーションのオペレーティングシステムになるための大きな一歩です。

MetaのEditsアプリ

クリエイター側では、Metaがモバイル動画制作に直接AIを押し込んでいます。Editsのローンチです。これは携帯電話上でショートフォーム動画ワークフロー全体を処理するように設計された独立したモバイル動画アプリです。Metaは初期テスト中にクリエイターと緊密に協力し、その結果、キャプチャ、編集、AIエフェクト、公開を一箇所で組み合わせたツールが生まれました。

Editsは最大10分の動画キャプチャ、フレーム単位で正確なタイムライン、透かしなしのエクスポートをサポートしており、クリエイターが通常対処するいくつかの問題点をすでに取り除いています。その上、MetaはSAM 3モデルで駆動されるAIエフェクトを重ねています。クリエイターは特定の人物やオブジェクトにスクリブル、アウトライン、グリッターのようなエフェクトを適用し、アイテムをぼかしたり、映像内の服装にタグを付けたりできます。

これらはグローバルフィルターではありません。フレーム内の何があるかを理解するオブジェクト認識エフェクトです。このアプリはまた、公開リールをリミックスまたはリアクションし、自動的に帰属を表示できるようにReelsと直接統合されています。タイトルカード、ストーリーボード、拡張されたテキストスタイル、テンプレート、インド言語のサポートがクリエイティブツールを完成させます。

MetaはEditsをFacebookやInstagramを超えたプラットフォームでクリエイターが使用できるものとして明確に位置づけています。Reels統合が組み込みの配信上の利点を与えているにもかかわらずです。目立つのは、Metaがアプリの切り替えを減らすことに焦点を当てていることです。撮影用に1つのアプリ、編集用に別のアプリ、字幕用にもう1つ、分析用にさらに別のアプリを使用する代わりに、Editsはすべてをまとめてバンドルします。

リアルタイムインサイトとコラボレーションツールの計画は、Metaがこれを時々使うユーティリティではなく、クリエイターにとっての日常的なワークスペースにしたいと考えていることを示唆しています。

GoogleのSuper GemsとOpal統合

Google側に戻ると、別のパズルのピースがGemini内で静かに展開されています。Super Gemsが登場し始め、OpalワークフローをGemini gemsマネージャーに直接統合しています。更新されたインターフェースは2つのセクションに分かれています。上部にはGoogle Labsが構築したgemsが表示され、下部は個人用またはあらかじめ構築されたカスタムgemsのためのものです。

以前にOpalを使用していた場合、ワークフローはラボからの私のgemsの下に表示され、移行がシームレスになります。ユーザーが新しいgemを作成すると、望む体験を記述するワークフロービルダーに移動します。Geminiはワークフローステップ、システムプロンプト、さらには視覚的要素まで自動生成します。

テキスト入力と音声ディクテーションを備えたライブプレビューがあり、ワークフローはフルスクリーンで起動したり、共有可能なリンクで公開したりできます。より深い制御を望むユーザーのために、完全なOpalビルダーへの直接パスがあります。現時点では、アクセスは米国とユーザーのサブセットに限定されているようで、これはラボ機能に対するGoogleの慎重な展開戦略と一致しています。

これはNotebook LMのGeminiへの統合と同じパターンに従っています。戦略的に、これはGoogleが実験的なツールをメインプラットフォームに統合していることを示しています。高度なワークフローを個別の製品に分散させる代わりに、GeminiがAI駆動ツールを構築、実行、共有するためのハブになります。これによりユーザーはエコシステム内に留まり、パワーユーザーの間での採用が加速されます。

水中ロボットの長距離通信

それから全く異なるAIの応用があります。チャットインターフェースやクリエイターツールからは遠く離れたものです。Scanner Roboticsというスタートアップは、水中ロボティクスにおける最も困難な問題の1つ、浮上せずに長距離通信を行うことを解決したと主張しています。

水中自律型車両は防衛、監視、インフラ保護においてますます重要になっています。彼らはパイプラインをパトロールし、海底ケーブルを検査し、敏感な海域を監視します。しかし電波は水中をうまく伝わらず、音響通信は遅く信頼性に欠けます。伝統的に、多くの水中ロボットはデータを送信するために浮上する必要があり、これにより探知されやすくなります。

SCANAは、そのSephere softwareアップデートにより、無人水中車両の艦隊が潜水したまま通信できるようにすると述べています。このシステムにより、船舶はデータを共有し、集団的に解釈し、ほぼリアルタイムでミッションを適応させることができます。

これを興味深くしているのは、目標が通信を超えていることです。それは協調的な意思決定についてです。1つのロボットが障害物や脅威を検出すると、その情報は艦隊全体に伝播します。他の船舶は表面からの人間の入力を待つことなくコースを変更したりタスクを調整したりできます。同社によれば、これは数百の無人船舶が一貫したシステムとして行動する作戦を可能にします。

ここでの技術的選択は注目に値します。Scannはトレンディなディープラーニングモデルや大規模言語モデルを意図的に避けました。代わりに、AI科学者Teddy Lzbnikの指導の下、チームは予測可能性と説明可能性を重視する、より古い数学的に根拠のあるアルゴリズムを使用しました。理由は単純です。防衛や安全が重要な環境では、システムがなぜ特定の方法で動作するかを理解することが、派手な性能向上よりも重要なのです。

2024年に設立されたScannaは今年初めにステルスから脱却し、すでに主要な政府機関と交渉中で、年末までに大型契約を締結することを目指しています。商業リリースは2026年に計画されており、その前に大規模な試験が行われます。同社は、主張に頼るのではなく、軍事指導者に実際の条件下でシステムを評価してもらいたいと明確に望んでいます。

AlibabaのQuan 2.6による個人化AI動画

最後に、生成メディアの分野で、Alibabaはより個人的な方向にAI動画を押し進めています。同社は最新の動画生成モデルであるQuan 2.6を公開したばかりです。ここでの重要な変化は個人化です。プロンプトから一般的なキャラクターを生成する代わりに、Quan 2.6はユーザーが自分の顔と声を含む短い参照クリップをアップロードできるようにします。

モデルはその後、同じ人物が主人公として登場する新しいシーンを生成します。参照ベースの動画生成またはR2Vと呼ばれるこの機能は、アイデンティティの一貫性に焦点を当てています。初期の動画モデルはショット間で顔が変わったり、声が切り離されたように感じたりすることに苦労していました。Quan 2.6は動物やオブジェクトのような複数の被写体が関与している場合でも、シーン全体で視覚的アイデンティティと声の調子を保持することを目指しています。

モデルは最大15秒の動画を生成できます。これは短く聞こえるかもしれませんが、特にショートフォームコンテンツが支配的なプラットフォームにとっては意味のある前進です。Quan 2.6はまた、シーン全体で雰囲気、キャラクター、オーディオビジュアル同期を一貫して保つマルチショットシステムを導入しています。結果として、以前の試みよりも実際の映像にはるかに近いと感じられる出力が得られます。

画像生成もアップグレードされています。Quan 2.6はテキストとビジュアル全体でより高度な推論を使用し、文字通りの解釈を生成するのではなくニュアンスのある説明と意図を理解できるようにします。このモデルはAlibaba CloudのModel Studioとその公式サイトを通じて利用可能で、Quenアプリへの統合も計画されています。

Alibabaはまだ詳細なベンチマークをリリースしておらず、15秒の制限は当面の間長編ストーリーテリングを除外しています。それでも方向性は明確です。AI動画は一般的な見世物から個人的な存在へと移行しています。問題はもはや誰が最も鮮明なビジュアルを持っているかではなく、誰が生成されたストーリーに実在の人物を説得力を持って配置できるかです。

これらはどれも孤立したアップデートではありません。これらはAIが目的地であることをやめ、物事がどのように行われるかの下にあるデフォルトレイヤーになり始めるというより広範な変化の一部です。

さて、コメント欄であなたの考えを教えてください。これが役に立ったなら、いいねとチャンネル登録をお願いします。ご視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました