GoogleがTurboQuantを発表しAIを永遠に変える

本動画は、Googleが新たに発表したAIのメモリ使用量を大幅に削減し、処理速度を向上させる画期的な圧縮技術「TurboQuant」の仕組みと影響について解説している。また、OpenAIが動画生成AI「Sora」の単独アプリとしての提供を終了し、Disneyとの契約を解消した背景や、数週間以内にリリースが噂される新モデル「Spud」、さらには社内体制の再編など、AI業界の最新の動向を包括的にまとめている。

Google Just Dropped TurboQuant And Changes AI Forever

👉 Check out Arena Zero: Google just unveiled TurboQuant, a new AI compression system that could ...

Googleの画期的な圧縮技術TurboQuantの登場
AIのメモリ問題とTurboQuantの仕組み
Higsfieldによる完全AI制作映画プラットフォーム
圧縮による精度維持の仕組みとテスト結果
OpenAIによるSoraの終了と戦略転換
OpenAIの新モデルSpudと今後の展望

Googleの画期的な圧縮技術TurboQuantの登場

GoogleがTurboQuantという新しい圧縮システムを発表しました。これはAIのメモリ使用量を6倍削減し、一部のワークロードを最大8倍高速化する可能性を秘めており、シリコンバレーというドラマに登場する架空のパイド・パイパーの圧縮のブレイクスルーを早くも人々に思い起こさせています。一方でOpenAIはSoraをシャットダウンし、ディズニーとの契約を失い、数週間以内にSpudと呼ばれる新しいモデルを立ち上げようと競争しています。

今回は本当に大きなニュースがあるので、それについてお話ししていきましょう。まずはGoogleの話から始めます。これは表面的には技術的な話に聞こえるかもしれませんが、無駄を省いてしまえばその影響は実はとても簡単に理解できるものです。現在、AIにおける隠れた最大の問題の一つは、モデルがどれくらい賢いかということだけでなく、機能するためにどれだけのメモリを必要とするかということなんです。

AIのメモリ問題とTurboQuantの仕組み

モデルに何かを入力するたびに、コンテキストを見失わないように、あなたがこれまでに言ったことすべてを記録しておく必要があります。特に長い会話や長いドキュメントの場合、そのメモリは急速に蓄積されていきます。そして、そのメモリは安くありません。処理を遅くし、コストを増大させます。さらに、物事をスムーズに動かし続けるためだけに、企業はより強力で高価なハードウェアの使用を余儀なくされるんです。

そこでGoogleは、TurboQuantと呼ばれるものを導入しました。そのコンセプト全体はシンプルです。そのメモリを取り出し、大幅に縮小し、どうにかして同じレベルのパフォーマンスを維持するというものです。彼らは、KVキャッシュと呼ばれるシステムの部分で、メモリ使用量を少なくとも6倍削減できると主張しています。

これは基本的にはAIモデルの短期記憶のようなものです。つまり、例えば6単位のメモリが必要だったところが、今ではたった1単位で済むようになります。それに加えて、推論中、つまりAIが実際に応答を生成している間の速度が最大8倍向上することも示しています。したがって、より速い出力、より低いコスト、そしてハードウェアへの負担軽減を同時に得ることができるわけです。

さて、ここで当然の疑問が浮かびます。壊すことなくどうやってそこまで縮小するのでしょうか。なぜなら、通常データを圧縮すると品質が低下するからです。画像、動画、音声、あらゆるものでそれを見てきたはずです。Googleがここでやっているのは、重要な情報をそのままに保つような方法で、AIの内部メモリを圧縮することなんです。

そして彼らは、ベクトル量子化と呼ばれるものを使ってそれを行っています。これは単に、複雑なデータをよりコンパクトな形で表現していると言うための気の利いた言い方です。これについては、直積量子化のような従来の手法がすでに存在しています。しかし、それらには問題が伴います。適切に機能する前に、特定のデータでトレーニングする必要があるんです。

そのため、処理が遅くなり、リアルタイムのAIシステムとしては十分な柔軟性が得られません。TurboQuantはそれを完全に回避します。彼らがデータに依存しないと呼ぶもので、これは基本的にデータセットを気にしないことを意味します。シナリオごとにトレーニングする必要はありません。すぐに機能するんです。それだけでも大きなボトルネックが解消されます。そしてここからが賢いところです。

彼らは、モデル内のデータにランダムな回転を適用します。奇妙に聞こえるかもしれませんが、それが実際にやっていることは、すべての次元にわたって情報を均等に分散させることなんです。簡単に言うと、データの一部が非常に重要で他の部分がそうではないという状態の代わりに、すべてがよりバランスの取れた状態になります。そしてそれが起これば、非常に効率的な方法で各部分を独立して圧縮できるようになります。

つまり、1つの巨大で複雑な構造を扱う代わりに、それを多くの小さくてシンプルな断片に分割し、それらを個別に圧縮するんです。そこで平均二乗誤差の最適化の出番となります。彼らは基本的に、オリジナルとの違いを最小限に抑えながら、各断片を圧縮するための可能な限り最良の方法を見つけ出しているわけです。

Higsfieldによる完全AI制作映画プラットフォーム

さて、ここから少し複雑になってきます。そしてこれは、ほとんどの人が考えもしないようなことです。しかし、その話に入る前に、ここで指摘しておくべきことがもう一つあります。より優れたAIシステムは、バックエンドを改善するだけでなく、全く新しい種類のエンターテインメントへの扉を開きます。Higsfieldが今日の動画のスポンサーになっており、彼らはHigsfield Original Seriesと呼ばれるものを立ち上げました。これは彼らが、AIで作られた映画やシリーズに完全に焦点を当てた世界初の完全なAIストリーミングプラットフォームだと説明しているものです。

そこでリリースされた最初の作品の一つがArena Zeroで、ここからが面白いところです。これは、少人数のクリエイターチームがプラットフォームを使ってHigsfieldでエンドツーエンドで作成した、10分間の完全なAIアクション映画なんです。つまり、キャラクターやシーンから、モーション、最終出力に至るまで、すべてが同じAIワークフロー内で処理されていることを意味します。

したがって、これは単なる短いデモクリップやランダムな視覚テストではありません。実際のシーン、ペース配分、そしてストーリー展開を備えた、より長く構造化された作品です。完全にAIツールだけで構築されているというだけで、従来の制作から期待されるものにずっと近いものになっています。彼らはまた、これを人々が新しいAI映画を探索し、どのプロジェクトを継続するかを投票できるような完全なエコシステムとして構築しており、それがコンテンツの開発方法に全く異なる層を追加しています。

そしてこれこそが、ここでの本当に大きな変化なんです。一方でテクノロジーが向上するにつれて、このようなプラットフォームは、その進歩を実際に視聴可能なコンテンツに変え始めています。ぜひArena Zeroをチェックしてみてください。リンクは概要欄にあります。

圧縮による精度維持の仕組みとテスト結果

それでは、話を元に戻しましょう。AIモデルにおいて、多くの作業はデータの一部同士の関係性を計算することに帰着します。それは内積を使って行われます。もし圧縮方法がそれを台無しにしてしまうと、モデルはより悪い決定を下し始めます。そこでGoogleはそれを修正するために2つ目のステップを追加しました。彼らはメインの圧縮方法を、量子化Johnson-Lindenstrauss変換、あるいはQJLと呼ばれるものと組み合わせました。このステップによってバイアスが取り除かれ、それらの関係性が正確に保たれることが保証されます。

その結果、圧縮後であっても、モデルは以前とほぼ全く同じように振る舞うようになります。数学的な観点から見ると、彼らは情報を失うことなくデータをどれだけ圧縮できるかという理論上の限界に極めて近づいています。彼らは絶対的な最高値から約2.7倍以内に収まっています。そして、1ビットのような非常に低い精度でも、約1.45倍しか離れていません。

これは非常に僅差です。現実世界のテストでは、彼らはこれをLLaMA 3.1 8BやMinistral 7Bのようなモデルで実行しました。4倍の圧縮でさえ、モデルは長いコンテキストのタスクにおいて完全な精度を維持しました。テストの一つに干し草の山から針を探すというものがあります。モデルは、時に10万トークンを超える大規模なコンテキストの中に隠された、小さな情報の一部を見つけ出さなければなりません。

TurboQuantは、その4倍の圧縮下で最大10万4000トークンまでフル精度のパフォーマンスに匹敵しました。つまり、メモリを大幅に圧縮した後でも、モデルは依然としてすべてを正しく記憶しているということです。彼らはまた、非整数ビット精度という興味深いものを導入しています。2ビットや3ビットといったきっちりとした値に固執する代わりに、チャネルあたり2.5ビットや3.5ビットといったものを使用します。

彼らは、データの重要な部分により多くの精度を与え、残りの部分には少なくすることでこれを行っています。つまり、一律のアプローチではなく、よりスマートなリソースの割り当てを行っているわけです。そして言語モデル以外にも、これは検索システムにも影響を与えます。ベクトルデータベースを構築する際、通常はデータをインデックス化する時間が必要になります。

大規模なデータセットの場合、それは数分、あるいはそれ以上かかることもあります。TurboQuantはそれをほぼ完全に取り除きます。インデックス化の時間が数百秒から基本的にゼロ、高次元ベクトルで約0.0013秒にまで短縮されるという話をしています。それは瞬時です。つまり、これは単にメモリを節約するという話ではありません。AIシステム全体を根本からより効率的にするということなんです。

だからこそ、これをDeepSeekの効率性のブレイクスルーと比較する人もいれば、冗談交じりにパイド・パイパーと呼び、コンピューティングを永遠に変えるはずだったシリコンバレーのあの架空の圧縮アルゴリズムを引用する人もいるわけです。同時に、これはまだ研究段階のブレイクスルーです。まだ広く導入されているわけではなく、推論にのみ影響し、トレーニングには影響しません。

トレーニングには依然として膨大な計算能力とメモリが必要です。ですから、これで全てが解決するわけではありません。それでも、実際に本番環境でAIモデルを実行する際における、最大のボトルネックの一つを取り除いてくれます。

OpenAIによるSoraの終了と戦略転換

さて、Googleがこのように効率性を推し進めている一方で、OpenAIは全く異なる動きを見せています。彼らはSoraをシャットダウンしているんです。

リアルなAI動画生成で誰もを驚かせたあの同じSoraが、ローンチからわずか数ヶ月でスタンドアロンのアプリとして提供終了となります。OpenAIはこれを直接認めました。彼らはユーザーに感謝し、人々がその周りにコミュニティを築いたことを認識し、ユーザーが自分の作品をどのように保存できるかの詳細とともに、アプリとAPIをシャットダウンするタイムラインを共有すると述べました。

より大きな疑問は、なぜかということです。そしてその答えは、リソースと戦略に帰結します。動画生成は非常にコストがかかります。生成されるすべてのクリップが大量のGPUパワーを使用し、それらのGPUには限りがあります。OpenAIは現在、特にエンタープライズAIや生産性ツールの分野で、AnthropicやGoogleのような企業と競争するというプレッシャーにさらされています。そのため、彼らはリソースを再配分しているんです。

Soraに多額の投資を続ける代わりに、彼らはその計算能力をコア製品へと移しています。それから、ディズニーとの契約もあります。OpenAIはディズニーと大規模な契約を結んでおり、ディズニーは10億ドルを投資し、自社のキャラクターの一部をSoraで使用するためにライセンス供与する計画でした。目標は、最終的にこれをDisney Plusに統合することでした。

その契約は今や白紙となりました。ディズニーは撤退を確認し、OpenAIの決定を尊重し、他の場所でAIパートナーシップの模索を続けると述べています。つまり、Soraがシャットダウンされるだけでなく、その最大の戦略的パートナーシップの一つが同時に崩壊したということになります。また、初期には知的財産に関する問題もありました。

Soraがローンチされた時、ハリウッドが不快に感じるような方法で既存のキャラクターや肖像を使用することを許可していました。OpenAIは迅速に調整を行い、スタジオにより多くのコントロールを与えなければなりませんでした。したがって、高い計算コスト、戦略の転換、失敗に終わったパートナーシップ、そしてIPの懸念の間で、スタンドアロンのアプリとしてのSoraはもはや理にかなっていなかったんです。そうは言っても、OpenAIはAI動画から撤退するわけではありません。

OpenAIの新モデルSpudと今後の展望

彼らは単に、それをより大きなものに統合しようとしているだけです。別々のアプリの代わりに、動画生成は彼らのより幅広いエコシステム内の1つの機能になる可能性が高く、おそらくChatGPTや彼らの今後のデスクトップスーパーアプリ内に組み込まれるでしょう。そしてそれは直接、彼らが次に取り組んでいることへとつながっていきます。内部的には、OpenAIはSpudというコードネームの新しいモデルに大きく焦点を当ててきました。

事前学習はすでに完了しており、Sam Altmanは従業員に対し、このモデルは数週間以内にリリースされる可能性があると語りました。それはGPT-6かもしれないし、もしかしたらGPT-5.5かもしれません。その部分はまだ不明確です。はっきりしているのは、Altmanがこれを経済を加速させる可能性のある非常に強力なモデルだと説明したことです。具体的な機能は明らかにされていないため、これが推論に関するものなのか、エージェントに関するものなのか、あるいは全く別のものなのかは分かりません。

しかし、タイミングを考えると、より高度な生産性ツールに向けた彼らの推進に明らかに合致しています。彼らはChatGPT、Codex、そして独自のブラウザを単一のデスクトップ体験に組み合わせたスーパーアプリを構築しています。つまり、チャット、コーディング、ブラウジングに別々のツールを使う代わりに、すべてが1つの場所で実行されるようになります。それはまた、なぜSoraがその計画に適合しなかったのかを説明しています。

それはあまりにも切り離されており、重すぎ、この統合されたアプローチと一致していませんでした。また、社内の再編も行われています。安全部門はMark Chenが率いる研究部門の下に移動します。技術的セキュリティはGreg Brockmanによって処理されます。Sam Altmanは資金調達とデータセンターの構築により重点を置いています。そして最近加わったFijiimoは、現在AGI展開部門を率いており、これはすべての製品分野をカバーしています。

つまり、これは単なる製品の変更ではなく、会社全体のレベルでのシフトなんです。Soraのチームでさえ方向転換させられています。彼らは今後、世界シミュレーション研究と呼ばれるものに取り組むことになり、これは将来的にロボット工学で役割を果たすと期待されています。したがって、スタンドアロンの動画ツールを構築する代わりに、彼らは環境をシミュレートし、現実世界と相互作用するシステムへと移行しています。

ともかく、これが役に立ったと思ったら、いいねとチャンネル登録をお願いします。ご視聴ありがとうございました。それではまた次回お会いしましょう。