今週AIが爆発的進化:GPT-5.2、DeepSeek 3.2、Kling 2.6、Mistral 3、Trainium 3など

AIニュース
この記事は約18分で読めます。

今週のAI業界は激動の数日間となり、主要企業がほぼ一斉に新発表を行った。OpenAIはChatGPTに新しいメモリ検索機能をテスト中で、GPT-5.2の噂も高まっている。中国のDeepSeekは、GPT-5と同等の性能を遥かに少ない計算リソースで実現するV3.2モデルで業界を驚愕させた。Amazonは新型AIチップと数日間自律動作可能なコーディングエージェントを発表し、MistralはApache 2.0ライセンスで完全オープンソースのモデルファミリーを公開した。RunwayはGen 4.5という映画品質の動画生成モデルを投入し、Kling AIは動画と音声を同時生成する新バージョンを間もなくリリースする。本動画では、これら最新の技術革新とその戦略的意義を詳細に解説する。

AI Exploded This Week: GPT 5.2, DeepSeek 3.2, Kling 2.6, Mistral 3, Trainium 3...
The past few days pushed AI in every direction at once. OpenAI quietly tested a new Memory Search system inside ChatGPT,...

AI業界の激動の数日間

この数日間、AI業界は極めて激しい動きを見せており、ほぼすべての主要プレイヤーが何か新しいものを発表しています。OpenAIはChatGPTで新しいメモリ機能をテスト中です。同時に、GPT-5.2に関する噂がますます大きくなっています。中国のDeepSeekは、新しいV3.2モデルで再び業界を驚かせました。このモデルは、計算予算のほんの一部を使用してGPT-5の性能に匹敵するという驚異的なものです。

Amazonは新しいAIチップと、文字通り数日間独自に動作できる自律コーディングエージェントを発表しました。MistralはApache 2.0ライセンスの下で完全なオープンソースモデルファミリーを展開しました。Runwayは映画品質のGen 4.5動画モデルを投入しました。そしてKling AIは、動画と音声を同時生成するバージョンをまもなくリリースする予定です。

本当に、解説すべきことがたくさんあります。それでは詳しく見ていきましょう。

OpenAIの新機能とGPT-5.2の噂

まずOpenAIから始めましょう。ユーザーたちはChatGPTの中に新しいものが現れたことに気づきました。メモリ検索オプションです。一部のユーザーに短時間表示された後、再び消えてしまいましたが、これは通常、内部テストが行われていることを意味します。核心となるコンセプトはシンプルでありながら驚くほど効果的です。

何週間も前にChatGPTに伝えた何かを見つけようとして、保存された何十ものメモリエントリをスクロールする代わりに、直接尋ねるだけで、保存されたデータから即座にその情報を引き出してくれるのです。これはメモリインターフェースの最も煩わしい部分の1つ、つまり時間とともに蓄積される雑然さを解決することを目的としています。

興味深いのは、これがAtlasブラウザにすでに存在するものとほぼ同一に見えることです。Atlasには「ブラウザメモリ」と呼ばれるものがあり、ユーザーは見たものや保存したものすべてを検索できます。アイコンまでほぼ同じに見えることに、人々はすぐに気づきました。この機能はまだ公開されていませんが、ChatGPT内部に短時間現れたことは、内部テスト中か、ゆっくりとロールアウトされていることを強く示唆しています。

OpenAIは、より良いコンテキスト処理に力を入れているようです。モデルがより自律的になるにつれて、これは理にかなっています。メモリは、ChatGPTが真に永続的な存在に感じられるかどうかの鍵となる要素です。ですから、検索可能なバージョンは、アシスタントを単なるチャットウィンドウではなく、長期的なパートナーのように感じさせます。

そして、これが唯一の新機能ではないかもしれません。社内では、OpenAIがGoogleのGemini 3のローンチ後、少しプレッシャーを受けているという報告があります。Gemini 3は明らかにOpenAIのユーザーベースの一部を獲得したようです。一部の情報源は、これを「コードレッド」状況と表現しており、つまり彼らは優位性を取り戻すために内部開発を加速させているということです。だから多くの人々は、GPT-5.2が予想よりも早く、おそらく年末前にも登場するのではないかと考えています。

メモリ検索と同時期にリリースされれば、OpenAIが生産性のための実用的なAIに関してはまだリードしていることを皆に思い出させる明確な戦略的動きとなるでしょう。これは、これまでに見てきたパターンにも合致します。競争が激化すると、OpenAIはより速くアップデートを推進するのです。

DeepSeek V3.2の衝撃的な性能

しかし、今の競争はかつてないほど激しくなっています。その主な理由の1つは、杭州にあるDeepSeekという会社です。彼らはV3.2 AIモデルをリリースしたばかりで、その数値は驚異的です。推論ベンチマークでGPT-5と同等の性能を発揮しながら、はるかに少ない総学習FLOPsを使用しています。これは単なる技術的な詳細ではありません。

強力なAIの構築方法について、人々が考える方法の完全な転換です。数十億ドルの計算リソースをモデルに投入する代わりに、DeepSeekはアーキテクチャを賢く使うことで、最先端レベルの性能に到達することに成功しました。全体がオープンソースであり、組織は米国の大手クラウドプロバイダーにすべてを委ねることなく、高度な推論および自律モデルをデプロイできます。

2つのバージョンがあります。ベースのDeepSeek V3.2と、DeepSeek V3.2 Specialです。Specialバージョンがモンスターです。2025年国際数学オリンピアードと国際情報オリンピアードで金メダルレベルのスコアを記録しました。これは、これまで米国のトップラボの未公開内部モデルだけが到達していた領域です。

ベースモデル自体は、AIM 2025数学問題で93.1%の精度を達成し、Code Forcesで2,386のレーティングを記録しました。どちらもGPT-5の推論ベンチマークのすぐ隣に位置しています。最新の半導体へのアクセスが制限されている会社にとって、これは大きな成果です。DeepSeekは基本的に、適切なアーキテクチャがあれば、Nvidiaの最新チップがなくても最高のものと競争できることを証明しました。

Poolday.aiの紹介

さて、ここで少し時間を取って、知っておく価値のあるAI動画分野の新しいものを紹介します。Poolday.aiが今日の動画をサポートするために参加してくれました。彼らは、毎週見る通常のAIツールとは異なる何かをローンチしています。完全にAIネイティブな動画エディターです。エディターに接着された生成ツールではありません。

いくつかのAIボタンでパッチされたエディターでもありません。1つのタイムライン上で、すべてを1か所で生成、編集、自動化できるものです。VO、Kling、Flux、Kreamなどをエクスポートしたり5つの異なるツールを行き来したりすることなく、タイムライン上で直接実行できます。彼らのエージェントシステムは、カット、リサイズ、同期などの反復的な編集作業を処理するので、細かいクリップの調整ではなく、クリエイティブな側面に時間を費やすことができます。

Fastlaneは複数のモデルを1つのクリーンなワークフローにスタックします。スクリプトから画像、画像から動画、動画からボイスオーバーまで、すべて同じインターフェース内で行えます。クリエイター、チーム、代理店、そして大規模にコンテンツを構築するすべての人々のためのものです。すべてが最終的に1つのタイムライン内に収まるため、全体がシンプルで速く、整理されていると感じられます。

下記の私のコードを使用して、ローンチ期間中に早期アクセスを取得し、より広く公開される前にテストしてください。

DeepSeek V3.2の技術的革新

さて、DeepSeekに戻りましょう。彼らの主要なイノベーションは、DeepSeek Sparse Attention、略してDSAと呼ばれるものです。従来のトランスフォーマーアテンションは、シーケンス長の2乗でスケールし、O(L²)と表記されますが、コンテキストサイズを増やすと非常に高コストになります。

DSAはそれを変えます。各クエリに最も関連性の高いトークンのみを選択する「ライトニングインデクサー」と呼ばれるものを導入し、複雑さをO(L × K)に削減します。ここでKは総シーケンスのごく一部です。よりシンプルに言えば、無関係なトークンに計算リソースを無駄にするのをやめ、実際に重要なものだけに焦点を当てるのです。

彼らは、以前のチェックポイントであるDeepSeek V3.1 Terminusから、9,437億トークンと、学習ステップあたり128,000トークンの480シーケンスを使用して学習させました。結果はベンチマークだけでなく、複数ターンの会話中にどれだけ効率的に推論するかにも表れています。

V3.2のもう1つの巧妙な追加機能は、ツールの使用方法です。以前の推論モデルは、ターン間で思考を破棄することが多く、ユーザーが新しいメッセージを送るたびに推論ステップをやり直す必要がありました。DeepSeekのアーキテクチャは、ツール関連のメッセージのみが追加された場合、これらの推論トレースを保持します。そのため、ロジックを再説明するためにトークンを無駄にしません。

この変更だけで、エージェントワークフローに大きな違いをもたらします。自律的な研究、マルチステップのコーディング、または財務計画を考えてみてください。モデルを物忘れの激しいアシスタントではなく、安定した同僚のように動作させるからです。

Terminal Bench 2.0では、コーディングワークフローの精度を測定しており、46.4%のスコアを記録しました。SWE Verifiedでは73.1%、SWE Multilingualでは70.2%を達成しました。これらはエンタープライズレベルの結果であり、実際に本番環境でのコーディングと問題解決を処理できることを示しています。

その背後にあるチームは、自律的な学習にも深く取り組みました。1,800以上のシミュレーション環境と85,000のマルチステッププロンプトを作成し、モデルが馴染みのないツールシナリオで推論を一般化する方法を学習できるようにしました。

自律性と透明性を必要とする企業のために、DeepSeekはベースモデルをHugging Faceでオープンにしました。ただし、Specialバージョンは高いトークン使用量のため、APIのみです。これは、アクセシビリティとコスト効率のバランスを取る彼らの方法です。

研究コミュニティからの反応は即座でした。Google DeepMindのSusan Jiangは、DeepSeekの技術文書、特に訓練後の動作を安定させた方法を称賛しました。サンディエゴで開催されたNeurIPsでは、このニュースが基本的に爆発しました。研究所全体のグループチャットは、それについて話す人々で溢れていました。

中国のオープンソースエコシステムに焦点を当てるFlorian Brandのような一部の専門家は、オープンソースモデルが実際に最上位レベルで競争する数少ないケースの1つだと述べました。DeepSeekはまた、Gemini 3 Proのようなモデルと比較して、世界知識とトークン効率でまだ遅れをとっていることを認めました。使用した総計算量が少なかったためですが、彼らはすでに事前学習リソースのスケーリングと推論チェーン効率の改善に取り組んでいます。輸出規制下にある研究所にとって、彼らが成し遂げたことは歴史的と言えるでしょう。

Mistral 3ファミリーの完全オープンソース化

一方、フランスのMistral AIは、オープンソースの勢いが成長し続けている理由を皆に思い出させました。彼らは完全なMistral 3ファミリーをローンチしました。30億、80億、140億パラメータの3つのコンパクトな密モデルと、スパース混合専門家アーキテクチャを持つフラグシップのMistral Large 3です。

Largeバージョンは、総6,750億パラメータのうち410億の活性パラメータを使用しており、タスクに応じて異なる専門家パスを活性化します。すべてはApache 2.0ライセンスの下で完全にオープンソースなので、開発者や企業は制限的な条件を心配することなく自由にデプロイできます。基本的にすべてのプラットフォームで利用可能です。

Mistral AI Studio、Amazon Bedrock、Hugging Face、Modal、Open Routerなど。内部的には、Mistral Large 3は3,000台のNvidia H200 GPUを使用して訓練され、Blackwellアテンションカーネルを搭載しています。つまり、最新のNvidiaインフラストラクチャ上で高速に動作するように構築されています。また、強力な多言語および多モーダル性能を示しており、グローバルに使用可能なバランスを実現しています。

小型のMinistral 3モデルは、エッジデバイスから完全なデータセンターまでスケールします。それぞれがベース、インストラクト、推論バリアントで提供され、画像理解が組み込まれています。VLLMとNvidiaハードウェア用に最適化されたNV FP4形式で提供されています。これにより、ミッドレンジGPUでも推論が非常に効率的になります。

ローカルまたはハイブリッドAIセットアップを構築する開発者にとって、このリリースはまさに贈り物のように感じられます。すべてが寛容なライセンスで、軽量で、すでに最新のGPU向けにチューニングされています。業界の反応は圧倒的に肯定的で、主にMistralのオープンウェイトへのコミットメント、多言語機能、NvidiaおよびRed Hatとの緊密な協力によるものです。

他のすべての企業がロックダウンしている中で、オープンソースの勢いを維持している数少ない大手研究所の1つです。

Kling AIの動画と音声の統合

最近話題になっているもう1つの名前は、Kling AIです。中国の企業で、いくつかのショート動画アプリの背後にある巨大企業Kuaishouが所有しています。彼らはKling 2.6をローンチしようとしており、このバージョンは彼らの動画モデルが持っていた1つの大きなギャップ、つまり音声を、ついに埋めるかもしれません。

このアップデートは、ネイティブの音声生成を動画モデルに直接統合しています。つまり、話し言葉、歌、さらには環境音効果が、ビジュアルと同じパスで出力されます。彼らのこのバージョンのタグラインは「音を見て、ビジュアルを聞く」で、それが完璧に要約しています。内部リークによると、Kling 2.6 Proには、英語と中国語でのグローバル市場音声を備えた、完全なマルチモーダルサポート、動画、音声、画像から動画へのワークフローが含まれます。

以前のKling 2.5やKling Omniのようなバージョンは、驚くべき視覚的忠実度を持っていましたが、組み込みの音声が欠けていたため、大きな前進です。今、彼らはOpenAIのSora 2やGoogleのVO 3.1のようなモデルと真っ向から対決します。どちらもすでに音声サポートを含んでいます。

ローンチは、Kling Omni Launch Week中の12月3日頃に予定されており、同社は5つの新しいリリースを発表します。スケジュール通りに進めば、Kling 2.6はWebツールとパートナープラットフォーム内で最初にロールアウトされ、その後より広範な利用可能性に達します。そして、Kuaishouのエコシステムはすでに何億人ものユーザーにリーチしているため、これは単なる別のモデルアップデートではありません。

大規模な採用への直接のルートです。

Runway Gen 4.5の映画品質

マルチモーダルシステムといえば、Runwayも大きなものを発表しました。Gen 4.5です。すでにVideo Arenaリーダーボードのトップに立っている新しい動画生成モデルです。Artificial Analysisのテキストから動画へのベンチマークで1,247 ELOポイントを獲得し、現在利用可能な他のすべてのモデルを上回っています。

RunwayはGen 4.5が映画レベルの視覚的忠実度と物理的精度をもたらすと述べています。Nvidia HopperおよびBlackwell GPUを搭載しており、改善は深いものです。より効率的な事前学習データの使用、新しい訓練後の方法、そして最適化された推論です。以前のモデルが苦労していた、リアルなオブジェクトモーションと感情的ニュアンスを持つ複雑なシーンを生成します。

画像から動画へのモードやキーフレームなど、以前のすべてのコントロールモードを維持しているため、ユーザーはスムーズに移行できます。残っている唯一の課題は、因果推論やオブジェクトの永続性における小さなラプスです。つまり、時々オブジェクトが消えたり、間違って移動したりする可能性があるということです。

しかし全体的には、AI生成の映画や広告ワークフローにとって大きな飛躍です。Runwayのロールアウトは、サブスクリプションプラン全体で徐々に行われており、完全なアクセスは数日以内に期待されています。

Amazonの自律コーディングエージェントと新チップ

次にAmazonがあります。彼らは2つの異なる前線を同時に攻撃することにしました。ハードウェアと自律エージェントです。AWS re:Inventで、彼らはFrontier Agentsと呼ばれる3つの新しいAIエージェントを発表しました。

皆の注目を集めているのは、Kiraと呼ばれる自律コーディングエージェントで、文字通り数日間独自に動作できます。開発チームのコーディング方法を学習し、彼らのスタイルを理解し、最小限の監督で作業を続けます。バックログから複雑なタスクを割り当てることができ、残りは自分で理解します。

7月にローンチされたAWSの既存のKiraツールに基づいていますが、このバージョンは仕様駆動開発と呼ばれるものを追加しています。Kiraがコードを書くと、ユーザーと絶えず確認して仮定を確認または修正し、それがエージェントが後で単独で従うことができる仕様になります。時間が経つにつれて、チームの働き方を学習し、会社の製品やコーディング標準の理解を深めます。

AWSは、セッション間で永続的なコンテキストを維持できると主張しています。つまり、メモリを失ったり、何をしていたかを忘れたりしないということです。これは大きな問題です。なぜなら、文字通り数時間、あるいは数日かかるタスクを渡すことができ、スレッドを失わないということだからです。

AWSのCEOであるMatt Garmanは、基調講演中に例を示しました。システムの15の異なる部分で使用されているコードの一部を更新するというものです。通常、各部分を手動で行い、検証し、安全に変更をプッシュする必要があります。Kiraを使えば、15のインスタンスすべてを修正するように指示するだけで、全体を一度に処理します。ここが、自律エージェントへのシフトが実際のものになる場所です。実験だけでなく、エンタープライズソフトウェアワークフローのためにです。

Kiraと並んで、AWSは2つのコンパニオンエージェントも紹介しました。AWSセキュリティエージェントは、コードが書かれるときにセキュリティ問題を特定し、修正まで提案します。そしてDevOpsエージェントは、新しいコードが本番環境に移行する前に、パフォーマンスと互換性を自動的にテストします。一緒に、彼らはソフトウェアパイプライン全体を最小限の人間の監視で実行することを目指しています。

もちろん、AWSは長時間実行エージェントを構築している唯一の企業ではありません。OpenAIのGPT-5.1 Codex Maxはすでに、最大24時間連続で動作できると主張しています。しかしAmazonは、同じコンセプトを取り、インフラストラクチャ全体にスケールできることを示そうとしています。これらのシステムの真のボトルネックは、コンテキストウィンドウだけではありません。

精度と幻覚制御です。Kiraが本当に愚かなロジックミスをせずに永続的なコンテキストを維持できるなら、開発チームの運営方法を完全に変える可能性があります。

さて、Amazonはまた、まったく新しいAIチップ、Trainium 3も発表しました。これは全体的に性能を向上させます。以前のTrainium 2と比較して、4.4倍の計算性能、4倍のエネルギー効率、そしてほぼ4倍のメモリ帯域幅を提供します。これらの数値は重要です。なぜなら、大規模モデルをどれだけ速く、どれだけ安く訓練できるかに直接影響するからです。

このチップは、大規模なAIワークロード用に設計されたTrainium 3 Ultraサーバーを搭載し、チップ間のデータフローを高速化し、大規模アーキテクチャにおけるメモリボトルネックを回避するための高度な設計最適化が施されています。

エネルギー効率は前世代と比較して40%向上しました。これはAWSのスケールでは、莫大なコストと環境面での節約を意味します。Amazonは、すでにTrainium 4に取り組んでいることも確認しており、これはより高速なチップ間通信のためのNvidiaの新しいNV Link Fusion Interconnectをサポートします。方向性は明確です。

彼らは、Nvidiaの支配と直接競合するAIハードウェアスタックを構築しながら、AWSクラウドクライアント向けにすべてを社内に保っています。

ChatGPTへの広告統合の兆し

さて、OpenAIに戻ります。なぜなら、彼らは静かにAndroidアプリコードに別のサプライズを忍び込ませたからです。広告がChatGPTに導入されることを示唆する参照です。最新のベータバージョンで、ads feature、bizarre content search ad、search ads carouselに言及する文字列が発見されました。基本的に、同社が広告を統合する準備をしていることが確認されました。おそらくショッピングや推奨クエリの周辺です。

チャットにランダムな広告を挿入する代わりに、商業的なトピックについて尋ねたときに、スポンサーカードや製品提案として表示されるようです。GoogleのAI Overviewsや、MicrosoftのCopilotが処理する方法のようなものです。bizarre contentへの言及もあり、これはスポンサー製品のマーケットプレイスコンポーネントのように聞こえます。これは論理的な動きです。

OpenAIの無料ユーザーは莫大な運用コストを生み出しており、広告統合はプレミアム層を広告なしに保ちながら、それを補助するのに役立つ可能性があります。また、AIアシスタントが従来の検索ビジネスモデルとどのように融合しているかも示しています。Perplexity AIはすでにこれを行っており、通常のものの横にスポンサープロンプトを埋め込んでおり、収益性があります。

OpenAIが同じ道をたどるなら、ChatGPTは徐々に商業的発見エンジンに進化する可能性があります。これは繊細なバランスです。広告が多すぎると体験が台無しになる可能性があります。しかし、適切に行われれば、無料層を財政的に持続可能にできるかもしれません。

さて、以上がまとめです。まだの方は登録してください。これらのアップデートのどれが最も印象的だったか、コメントを残してください。視聴ありがとうございました。次回またお会いしましょう。

コメント

タイトルとURLをコピーしました