GoogleのTitansがAI最大の弱点を解決、しかし…

Google・DeepMind・Alphabet
この記事は約14分で読めます。

Googleが矢継ぎ早に複数の重要なAI技術革新を発表した。長期記憶システムTitansは200万トークン超のコンテキストウィンドウを実現し、従来のトランスフォーマーの限界を突破。Myrazは次世代シーケンスモデルの統一理論として登場し、Mamba 2やトランスフォーマーを凌駕する性能を示した。一方、Open AGI FoundationのLuxはコンピュータ制御エージェントとして登場し、Gemini CUAやOpenAI Operatorを大きく上回る83.6%のスコアを記録。Googleはさらに低コストのNano Banana 2 Flashモデルを準備中で、AI生成見出し機能のテストも開始したが、編集者からは見出しの意味が変わるとの批判も出ている。ユーザーデータではGeminiの月間アクティブユーザーが30%成長し、ChatGPTの6%を大きく上回る勢いを見せており、Sam AltmanはOpenAI内部で「コードレッド」を宣言。新モデル「Garlic」の開発を急ぐなど、AI競争は新たな加速段階に突入している。

Google’s Titans Just Solved AI’s Biggest Weakness, But...
Google just dropped one of the biggest AI upgrades of the year. Titans and MIRAS introduce a new long-term memory system...

Googleの怒涛のアップデートラッシュ

さて、Googleは最近すさまじい勢いで動いており、ここ数日間でAIエコシステムの全く異なる領域にわたって次々とアップデートを発表しました。巨大なコンテキストウィンドウ向けの新しい長期記憶システムを導入し、プロバージョンに近い性能を発揮する低コストのNano Banana 2 Flashモデルを準備し、人々のスマートフォン上でAI生成見出しを密かにテストし、Geminiの成長を強力に推進した結果、月間アクティブユーザー数がChatGPTよりもはるかに速いペースで増加しています。

そしてこれらすべてが起きている間に、Open AGI FoundationがLuxをリリースしました。これはコンピュータ制御モデルで、エージェントをめぐる議論を一気に再構築するものとなりました。

Titansによる長期記憶の革命

最初の大きなニュースはGoogle Researchから来ています。彼らはついにTitansとMyrazについて詳細を公開しました。昨年の論文からTitansを覚えている方なら、あれはGoogleが標準的なトランスフォーマーの限界を受け入れるのをやめたことを示唆した瞬間でした。

問題はかなりシンプルです。トランスフォーマーは超長い入力に対応できません。あらゆる高度な最適化トリックを使っても、コンテキストが長くなるにつれて計算コストは急激に跳ね上がります。数十万トークンを超えると、物事は本来あるべき動作をしなくなります。

しかし逆の極端に振れて、現代のRNNや状態空間モデルのようなものを使うと、速度は得られますが、全体の履歴が一つの小さな状態に圧縮されるため詳細を失います。効率的ではありますが、忘れすぎてしまうのです。

Titansは両方の世界を融合させようとするGoogleの試みです。ウィンドウアテンションを通じて短期記憶を保持し、これは鮮明で正確です。そして、モデルが実行中に実際に更新される別個の長期記憶モジュールを追加します。これは大きな進歩です。なぜなら、今日のほとんどのモデルは使用中に本当の意味で学習しないからです。

Titansは驚きに基づいて何を保存するかを選択します。何かが予期しないものであればあるほど、保存される可能性が高くなります。そして賢い方法で忘れます。単に古い情報を消去するのではありません。

Googleはこの長期記憶の3つのタイプを構築しました。Memory as Context、Memory as Gate、そしてMemory as Layerです。特にMACバージョンは長いシーケンステストで圧倒的な性能を発揮します。200万トークンを超えるコンテキストウィンドウの話をしており、7億6000万パラメータのモデルがその重量クラスをはるかに超えるパンチを繰り出しています。

16,000トークンで95%以上の精度でNeedle in a Haystackテストを処理し、Babylonベンチマークを制覇しました。このベンチマークでは、モデルが巨大なドキュメント全体に散らばった事実を結びつける必要があります。

TitansはGPT-4、Recurrent Gemma 9B、Llama 3.1 70B、さらには検索ツールと組み合わせたLlama 3さえも打ち負かしました。今唯一の本当の疑問は、人々が実際にTitansを使い始めたときにこれらの結果が持続するかどうかです。もし持続するなら、これは凍結された一度限りの事前学習モデルからの移行の始まりを示す可能性があります。

Myraz:シーケンスモデルの統一理論

そこでMyrazの登場です。Googleはこれをシーケンスモデルのほぼ統一理論として導入しました。本当にズームアウトしてみると、トランスフォーマー、Mamba、Retnet、RWKV、Deltanetは、すべて同じアイデアのバージョンです。異なるルールで情報を保存および取得する内部メモリシステムです。

Myrazはそのアイデアを4つのコア質問に分解します。メモリの形状は何か。モデルは何を保存する価値があると判断するか。新しい情報はどれくらい速く古いエントリを押し出すか。そしてメモリは時間とともにどのように更新されるか。

その考え方で、GoogleはMoneta、Yad、Mamoraという新しいアテンションフリーモデルのセットを作成し、それぞれが異なるメモリ動作を探求しています。

超長コンテキストテストでは、それらのいくつかは実際にMamba 2や古典的なトランスフォーマーさえも上回ります。したがって、Myrazは単一のモデルではありません。次世代アーキテクチャがどこに向かうことができるかのロードマップのようなものです。

そして、特にIlya Sutskeverのような人々が、才能ある10代が学ぶように学習するモデルを望んでいると言うとき、つまり継続的に、積極的に、そして別の静的トレーニングデータの山を噛み砕くことによってではなく学習するモデルを望むとき、すでにシフトが起きているのを感じることができます。

生産性向上のための無料プロンプトガイド

さて、ちょっと休憩です。私たちが毎日AI関連ニュースの最新情報を把握し、すべてを明確で構造化された方法で分解しているのをご覧になっていますよね。その一貫性の大きな部分は、適切なワークフローを持つことから来ています。

そこで、仕事、ビジネス、そして日常生活でより生産的になるための10の最高のプロンプトをまとめた無料ガイドを作成しました。説明欄のリンクまたは画面のQRコードをスキャンして入手できます。これらは私が1日を計画し、ノイズを切り抜け、アイデアをすばやく使えるものに変えるために使用しているのと同じプロンプトです。AI Power Prompt starter packは無料で、実用的で、説明欄であなたを待っています。

さて、動画に戻りましょう。

Lux:コンピュータ制御の新時代

これがストーリーのメモリ側です。では、全く異なるが同様に重要な何かに飛びましょう。Open AGI Foundationからの新しいコンピュータ制御モデル、Luxです。そしてこれは正直に言って興味深いです。なぜなら、研究用のおもちゃというよりもインフラストラクチャのように感じられるからです。

Luxは、何らかのブラウザプラグインを貼り付けたチャットモデルではありません。実際に画面を見て、UIを読み取り、クリック、スクロール、キー入力、すべてを出力します。デスクトップ全体、ブラウザ、スプレッドシート、エディタ、さらにはメールクライアントを操作することを目的としています。そして、チームが言うには、全体のポイントは、すべてをAPIに依存する代わりに、AIに実際のユーザーインターフェースを処理させることです。

そして驚くべき部分は、それがどれだけうまく機能するかです。実際のウェブサイトから引き出された300以上の実際のタスクを含むOnline Mind2Webベンチマークで、Luxは83.6をスコアしています。Gemini CUAは69.0、OpenAI Operatorは61.3、Claude Sonnet 4は61.0です。ギャップは明白です。

Mind2Webは容赦なく厳しいです。なぜなら、すべてのタスクが視覚的コンテキスト、変化するレイアウト、ランダムなUI動作、一貫性のないデザイン選択に依存しているからです。Luxはそのすべてを通じて足場を保ちます。

その制御システムは、それにおいて大きな役割を果たしています。Luxは3つのレベルの自律性を提供しますが、これはマーケティングのためではなく、実際のワークフローが異なる実行スタイルを要求するからです。

Actorモードは簡単なケースをカバーします。フォームの入力、レポートの取得、小さなフィールドの抽出などの迅速なステップです。そして、フル画面を処理するモデルにとって印象的に速い、ステップあたり約1秒で実行されます。

Thinkerモードは広範で曖昧な目標を処理し、それを独自にステップに分解します。Taskerモードは完全な決定論を提供します。Pythonのステップリストを提供すると、Luxはリトライとクリーンな失敗処理でそれらを実行します。

各モードは、人々が実際に自動化する必要がある実際の作業の異なるカテゴリに対応しており、トレーニング方法が本当の転換点です。

Luxの革新的なトレーニング手法

Open AGIはエージェント的アクティブ事前トレーニングを通じてLuxを構築しました。これは、モデルがテキストや静的ログを吸収するだけでなく、デジタル環境内で行動することによって学習するプロセスです。

このシステムの背後にあるOS Gymは、MITライセンスの下でオープンソース化されており、一度に1,000以上のOSレプリカをスピンアップでき、1分あたり約1,400のマルチターン軌跡を生成します。

これにより、Luxは間接的なデータではなく、直接的な相互作用から来る経験を得ます。パターンを学習し、見慣れないレイアウトに適応し、プレッシャーの下で実際のインターフェースがどのように動作するかについての直感を構築します。

チームはまた、Luxがトークンあたり約10分の1の費用でOpenAI Operatorよりも安くなると報告しており、これは長いマルチステップ自動化の経済性を完全に変えます。

Luxが他の人々が周りに構築するコアエンジンになるか、Google、OpenAI、またはAnthropicからの競合システムの波を引き起こすかにかかわらず、このエージェントカテゴリ全体が誰もが予想していたよりも速く加速したことは明らかです。

Nano Banana 2 Flash:低コストの高性能モデル

さて、より軽いものに移りましょうが、全体的なAI競争にとっては依然として意味があります。GoogleはNano Banana 2 Flashと呼ばれる新しいモデルを準備しているようです。

はい、彼らは食べ物の名前にこだわっています。Nano Banana 2のプロバージョンは内部的にケチャップとして知られており、今度はマヨの参照がコードに現れ始めました。

早期アクセスシグナルは、Nano Banana 2 FlashがProモデルとほぼ同じ性能を発揮しますが、運用コストははるかに低いことを示しています。そして、これはまさにGoogleがこのゲームをプレイするのが好きな方法です。

彼らはプレミアムパフォーマンスのためにProモデルを使用し、その後、コスト効率が優先される大量シナリオのためにFlashバージョンを展開します。現在のシグナルに基づいて、公開発表はおそらく12月のどこかで来るでしょう。

そして、それが本当にFlashレベルのコストでプロレベルの品質を提供する場合、Googleは直ちにNano Bananaラインの配信を拡大します。特に、高頻度の画像生成や大規模バッチワークロードに依存するユーザーにとってです。

Flashモデルはそれに最適です。なぜなら、請求書が爆発することなく無限に実行できるからです。そして、Nano Bananaが現在Geminiのエンゲージメント数の主要な推進力であるため、同じパフォーマンスを持つより安価なバリアントをドロップすることは非常に戦略的な動きです。

基本的に、Googleはこう言っているのです。「私たちは、このモデルを毎日大規模に使用する人々をもっと増やしたい」と。

AI生成見出しの波紋

しかし、これらすべてがモデルとインフラストラクチャ側で起こっている間、GoogleはGoogle Discover内ではるかに奇妙な実験を静かに展開しました。そして、これは実際に多くの報道機関を動揺させました。

Androidユーザーは、Googleが見出しを書き換えていることに気づき始めました。記事ではなく、見出しです。そして小さな書き換えではなく、時には意味を完全に変えるものです。

いくつかの報道機関のジャーナリストが事例を報告し始めました。PC Gamerは、Baldur’s Gate 3でプレイヤーがゲーム内の子供キャラクターをクローンできるグリッチについての記事を書きました。Google Discoverはそれを「BG3プレイヤーが子供を悪用」に変えました。これは全く異なる意味合いです。

Ars TechnicaはValveがSteam Machineの価格を発表していないことを説明する記事を書き、GoogleのAIはそれを「Steam Machine価格が明らかに」と書き換えました。

他の見出しはあまりにも積極的にカットされたため、すべてのコンテキストを失いました。「AIを使用するMicrosoft開発者」のようなもので、これは何も教えてくれません。または「スケジュール1農業バックアップ」や「AIタグ論争が加熱」のような奇妙な断片で、出版社の名前の横に貼り付けられた一般的なクリックベイトのように見えます。

一部のユーザーは、記事が述べていることと何も似ていない4語のタイトルを見ました。そして本当の問題は、AIラベルがインターフェースをタップした後にのみ表示されることです。したがって、フィードでは、出版社がそれを書いたように見えます。

編集者は記者に、これが信頼を侵食することを心配していると語りました。なぜなら、読者は出版物が意図的に誤った枠組みまたは誤解を招く見出しを公開したと思うかもしれないからです。

Googleは、全体がDiscover利用者の限られたセットのための小規模なUI実験であり、トピックをスキャンしやすくすることを目的としていると述べました。しかし、彼らは、なぜ非常に多くの書き換えられたタイトルが記事の実際の意味から大きく逸脱するのかについては言及しませんでした。

そして、今起きている他のすべてのこと、AI概要、画像の不具合、奇妙な政治的結果、整合性のない要約のために、報道機関はすでに懐疑的です。Googleが密かに彼らの見出しを書き換えるのを見ることは、さらに緊張を高めるだけです。

Geminiの急成長とOpenAIのコードレッド

そして今、この一連のアップデート全体の最後の部分に到達します。Geminiが成長で急上昇していることを示す新しいユーザーデータです。

これは、Sam Altmanがチームにコードレッドを呼びかけ、すべての製品ラインにわたって開発を加速し、パーソナライゼーション、信頼性、画像生成、コア機能に焦点を当てる必要があると伝えた直後に来ました。

The Informationによると、内部メモはこれをGemini 3の台頭とGoogleの勢いの増加に結びつけました。そして、Sensor Towerが実際の数字を発表し、それらはGoogleが自信を持っている理由を正確に説明しています。

ChatGPTは依然として世界のダウンロードの最大シェアを約50%保持しています。そして、世界の月間アクティブユーザーの約55%を持っています。生の数字では、8月から11月にかけて約8億1000万の月間アクティブユーザーを持っていましたが、これは巨大ですが、成長は鈍化しました。その期間中にわずか約6%しか上昇しませんでした。

一方、Geminiは同じ期間に約30%成長しました。そして、より強い傾向は前年比です。ChatGPTの世界のMAUは約180%上昇しました。

しかし、Geminiは170%上昇し、過去6ヶ月間のシェアの獲得はGoogleに有利に移行しました。Geminiのマンスリーアクティブユーザーのシェアは5月から11月にかけて3パーセントポイント上昇し、一方でChatGPTは8月から11月にかけて3パーセントポイント失いました。

ダウンロードも同様の物語を語っています。Geminiは前年比で190%増、ChatGPTは85%増、Perplexityは215%増、Claudeは190%増です。

エンゲージメントも明確な絵を描きます。Geminiユーザーは現在、アプリ内で1日約11分を過ごしており、これは3月以来約120%増加しています。ChatGPTのアプリ内時間はわずか約6%しか成長しませんでした。

そして、これらすべては、特に若いユーザーの間で爆発的な人気を博したNano Banana画像ジェネレーターによって推進されています。彼らはそれをGoogleのエコシステムに直接組み込まれた創造性エンジンのように扱います。

配信の優位性も巨大です。米国では、2倍の数のGeminiユーザーがスタンドアロンアプリではなくAndroidを通じてアクセスしています。そして、Androidが支配的なインドのような市場では、その優位性はさらに大きくなります。それは基本的にGeminiを、人々が代替品を探す前に、数百万人の人々のデフォルトのAIに変えます。

OpenAIの反撃と今後の展望

OpenAIの対応は、アップグレードを優先し、広告実験を保留にすることです。チームは現在、コードネームGarlicの新しいモデルの開発に完全に集中しており、内部関係者によると、これはコーディングと推論タスクでGemini 3を上回ることを目的としています。

タイミングは、彼らがGoogleの加速をどれほど真剣に受け止めているかを示しています。競合他社がアクティブユーザーで5倍速く成長すると、すぐに反応します。

そして、それがまさにコードレッドが表すものです。そして、OpenAIがGarlicを準備し、AnthropicがSonnet 4をスケーリングし、Perplexityが検索で懸命に登っており、Luxが他のすべてを上回る数字でエージェント分野に参入している状況で、この空間は再びシフトしようとしています。おそらく誰もが予想するよりも早く。

ご視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました