中国がまたやった: またしても凄まじいAIがOpenAIを打ち負かす！

4,662 文字

China Did It Again: Yet Another Insane AI Is Beating OpenAI!

ByteDance has introduced Goku AI, a powerful image and video generation model that challenges OpenAI’s Sora by using Rec...

ByteDanceが、画像と動画生成を1つに統合したGokuというモデルを発表しました。このモデルはOpenAIのSoraに匹敵するような形で境界を押し広げているように見えます。この進展は、中国のAIが increasingly進化した能力を示している時期に登場しました。Gokuは、多くのモデルが依存している拡散アプローチとは異なる、整流フロートランスフォーマーによって駆動されています。この整流フロー手法は、ノイズから完全に生成されたコンテンツまで、より安定した軌道を目指してデータを滑らかに線形補間します。
ByteDanceによると、Gokuはテキストから画像、画像から動画、テキストから動画の生成をサポートしており、リアルな写真のような人間の相互作用、複雑な動き、そして複数のオブジェクトやダイナミックな照明を含む複雑なシーンを作成することができるとのことです。
Gokuのトレーニング方法に重点が置かれています。チームは1億6,000万の画像-テキストペアと3,600万の動画-テキストペアという膨大なデータセットを収集しました。これは美的スコア、過度のテキストを含むクリップを除外するための光学文字認識チェック、さらには各クリップにバランスの取れた動きがあることを確認するためのモーションフィルタリングなどのフィルターを使用するパイプラインを通じて厳選されています。
また、Intern VL 2.0、TARER 2、QUEN 2などのキャプショニングモデルを使用して、各画像や動画クリップに説明的なテキストを提供し、テキストプロンプトが視覚的特徴にどのようにマッピングされるかをモデルが学習するのを助けています。
トレーニングプロセス全体は多段階で行われます。Gokuはまずテキストと画像の整合性を学習し、次に画像と動画を一緒にトレーニングして両ドメインの知識を統合し、その後、画像または動画のいずれかに対するモダリティ固有の微調整を行います。このプロセスでは、解像度は288×512から始まり、480×864へ、最終的に720×1,280へと移行し、モデルが徐々により大きな詳細を扱えるようになります。
整流フロートランスフォーマーはGokuの優位性の中核です。典型的な拡散ベースのシステムで見られる除噪戦略の代わりに、Gokuはノイズから実データへのパスに沿って中間サンプルを移動させる速度を予測します。ByteDanceのパイロット実験では、ImageNet-1000での概念実証テストで示されたように、標準的な拡散手法と比較してより速い収束が示唆されており、より少ないトレーニングステップでより良いFIDとInceptionスコアに到達しました。
もう1つの重要な要因は、ByteDanceがトレーニングに使用するインフラストラクチャです。シーケンスをGPU間に分散するシーケンス並列性、パラメータと勾配をデータ並列ランク間で分割する完全シャード化データ並列性、メモリ使用量を削減する細粒度アクティベーションチェックポイントなど、高度な並列化戦略に依存しています。
また、トレーニング状態の迅速な保存と読み込みのためのByte Checkpoint、そしてMegaScaleからのシステム障害を検出し、大規模トレーニングを最小限のダウンタイムで再開する障害耐性機能もあります。これらの方法は、220,000トークンを超える長いシーケンスを処理できるモデルにとって重要です。
ByteDanceは、GokuがGenieVal T2I、CompBench、DPG Benchなどのテキストから画像へのベンチマークで優れた成績を収めていることを公表しています。例えば、GenEvalでは2Bパラメータバリアントがプロンプトの書き換えなしで0.70、書き換えありで0.76のスコアを達成し、DPG Benchでは83.6%を達成しています。テキストから動画のタスクでは、Gokuは84.85%のスコアを獲得しています。
追加のアブレーション研究では、8Bパラメータモデルのような大規模なバリアントが歪みを減少させ、より安定した動きを生成することが示されています。また、1つのモデルで画像と動画の両方をトレーニングすることで、複雑なタスクに対してより良い結果が得られます。モデルは画像から動画への変換も処理でき、最初のフレームを参照画像として、システムにプロンプトを与えて短いクリップにアニメーション化することもできます。
一部の観察者は、GokuをオープンソースAIが規制によるAI技術の管理を上回るペースで進んでいることを示す、より広い物語の一部として見ています。LLaMAのようなオープンソースモデルは、すでに貿易障壁がこの技術を完全に制限できないことを示しています。大手中国テック企業ByteDanceの下でのGokuの開発は、AI競争の主導者に対する認識を変える可能性があり、これは特にElon MuskによるOpenAIのリーダーシップに影響を与えた噂の敵対的買収の文脈において、一部の米国規制当局を不安にさせています。
専有モデルとオープンソースモデルの間の摩擦もより顕著になっています。一方、AI研究所以外の企業は、真の価値の源泉が組織がこれらのモデルをどのように実装するかにあることを見出しています。高レベルの創造性だけでは必ずしもビジネスニーズを解決できません。なぜなら、AIは20の実行可能なアイデアを生み出すかもしれませんが、運用上の困難さは最も実行可能なものを選択し、それを実際のワークフローに適応させることにあるからです。
このプロセスにはAIリテラシーが重要であり、それは経営幹部からマーケティングチーム、プロダクトマネージャー、開発者にまで及びます。Gokuやそれに類似したシステムが超リアルな動画や画像を生成できるため、ディープフェイクに対する懸念も高まっています。ByteDanceの滑らかな動きと詳細な背景を確保するための高度な手法は、誤情報やなりすましに悪用される可能性のあるシナリオを作り出します。
研究者たちは、これらの脅威に対抗するために検出システムと一定レベルの公衆の懐疑心を強調していますが、根底にある感覚は、オープンソースAI技術の封じ込めが困難になっているため、よりAIを意識した社会を構築することが重要だということです。
学術的な文脈では、EC Cornellの「AIソリューションの設計と構築」認定プログラムが、新しい開発者や起業家が機械学習モデルを責任を持って統合できるよう、これらの業界横断的なAI問題の重要性を強調しています。
もう1つのハイライトは、ByteDanceの独自のデータバランシングスキームへの注目です。人間、動物、風景、その他の意味的セグメントがバランスの取れた割合で出現することを確保するために、9つのコアカテゴリーにわたって動画を分類し分配するための分類モデルを採用しています。このアプローチは、風景や漫画のシーンの生成よりも多くの場合難しい、現実的な人間の行動のモデリングの複雑さに対処しています。
パイプラインは、特定の閾値を満たさない大量のコンテンツを破棄します。例えば、480×864解像度のデータでは、美的スコアが4.3未満、または動きが0.3から20.0の範囲外のクリップは除去されます。閾値は720p以上ではさらに厳格になります。TARER 2のようなシステムには、カメラの動きの説明が組み込まれているため、Gokuはズームインやパンニング右などのプロンプトに適応できます。
RAFT（Recurrent All-Pairs Field Transforms）ベースの光学フローの計算から得られる動きのスコアは、キャプションに追加することもでき、モデルが動きの極端な場合をより良く処理できるようになります。Gokuがゼロショット生成でテストされた際、特定のサブドメインに対する微調整なしで競争力のある視覚効果を作成できることが明らかになりました。
それ以上に、Gokuは3D VAE、フルアテンションブロック、3D位置エンコーディング、トレーニングを安定させるためのQKノーマライゼーション、そして様々なアスペクト比と長さのシーケンスを処理するためのパッチアンドパックを組み合わせることで、単一のアーキテクチャ内で画像と動画の両方を統合することを目指しています。
最大バージョンのGoku 8Bは40層、3,072のモデル次元、48ヘッドを採用しています。もう1つの小規模なバリアントであるGoku 2Bは28層、1,792のモデル次元、28ヘッドを含み、両方とも商用グレードの画像および動画生成タスクを対象としています。
ByteDanceのGoku公式ページでは、テキストまたは画像のプロンプトが映画のようなシーケンスを引き起こす短いデモを示しています。また、低解像度のプレースホルダーから、鮮明な詳細と生き生きとした人間の動きを持つ完全にアップスケールされたフレームまで、パイプライン全体を統合する拡張への言及も示しています。
これは、クリエイティブディレクターがGokuがどのように視覚的なアイデア生成を加速できるかを見る、高級プロダクションやショートビデオのソーシャルメディアキャンペーンなどの可能な用途につながります。大規模モデルが複数の洗練されたプレビューを生成し、それを人間のチームが改良できる場合、動画制作のコストが下がるという指摘もあります。
しかし、すべての生成モデルと同様に、Gokuはマーケティングや顧客向けの体験にそれを統合するワークフローと同じくらい有用です。そのため、プロンプトエンジニアリングやモデルの強みに関するリテラシーが依然として重要です。
一部の観察者は、特にTikTokのようなプラットフォームでの成功実績を考慮すると、これをOpenAIのSoraモデルに対する直接的な反撃と見ています。米国企業との緊張関係は明らかです。オープンソースの側面は規制の課題を増大させます。なぜなら、強力なモデルが一度リリースされると、その拡散を止めることが非常に困難になるためです。
Sam Altman、Elon Musk、そして米国政府のAI技術封じ込めの試みへの言及は、急速に進化する状況を浮き彫りにしています。そのような環境において、高度な同時実行性と並列性、そしてより効率的な状態管理のためのByte Checkpointを備えたGokuの洗練されたトレーニング設計は、次世代モデルを構築する他者にとって高いハードルを設定しています。
真の差別化要因は、大規模なデータ、強力なアーキテクチャ、スケーラブルなインフラストラクチャ、そして画像と動画を統合する柔軟なクロスモーダルトレーニングの組み合わせかもしれません。GokuはAI競争における大きな一手であり、ByteDanceの先進性を維持しようとする取り組みを示しています。
しかし、無限に動画を生成するだけでは十分ではありません。ビジネスにはスマートな戦略も必要です。Gokuのようなオープンソースモデルは、商用モデルと並んで成長し、コストを削減し、創造性を刺激し、AIリテラシーをますます重要にしていくでしょう。
ご視聴ありがとうございました。次回の動画でお会いしましょう。