AIビデオがスマートになった：GPDiT

9,453 文字

AI VIDEO Generation Model: GPDiT - Generative Pre-trained Autoregressive Diffusion Transformer.All rights w/ authors:"Ge...

こんにちは、コミュニティの皆さん。お帰りなさい。今日は最新のAIを使った動画生成について話し、皆さんに全く新しいAIアーキテクチャをご紹介します。それはGPDiTと呼ばれるものです。さっそく始めましょう。
本日2025年5月13日限定の特別サービスとして、今日読むべき最高のAI論文をご紹介し、その中から最良のものを選びます。もちろん、最良の論文は「北京大学と清華大学による生成的事前学習自己回帰拡散トランスフォーマー」です。
今日はまず特別サービスとして、本日の最高の論文について深掘りしていきます。今日は2025年5月13日火曜日で、私は300以上の論文を読みました。ここで私が興味を持った際立った論文をいくつか紹介したいと思います。
まず「LLM駆動型進化による量子状態準備」では、従来の変分量子アルゴリズムの硬直性、スケーラビリティの制限、専門家依存の問題を克服するために、LLMを進化的最適化に統合した量子回路設計の自動化フレームワークを提案しています。彼らは2量子ビットの量子ゲートノイズがスピン鎖システムからのゼロノイズ外挿によって効果的に軽減できる新しいアイデアを開発しました。量子システムに興味がある方には、彼らは「ans」（ドイツ語で素晴らしい言葉です）の自動発見フレームワークを開発しています。一般的な物理学に依存しないテンプレートから始めて、フィードバック駆動型ループのフレームワークを開発しています。ここではDeepseek Q 132Bが使われています。
非常に興味深い出版物で、成人学習のためのAIエコシステムについてのものがあります。AIを通じて、AIの助けを借りて、誰もがどのように学習できるかについてです。これはジョージア工科大学による新しい研究で、AI拡張学習のためのアーキテクチャに関するものです。
彼らはここで正確に、学生でなくなった人たち、つまり仕事上で継続的に学習する人たちのためにAIをどのように使用できるか、データアーキテクチャ、パーソナライゼーション、スケーラビリティについて検討しています。彼らは全国AI成人学習・オンライン教育研究所に所属し、オンライン教育を通じて成人学習をサポートするためのAI拡張学習アーキテクチャを開発しています。本当に興味深いアプローチです。
もちろん、AIアーキテクチャそのものの理解をもう少し深めたい場合は、非常に興味深い新しいモデルがあります。彼らは強化学習をチューニングし、ポリシーラベル付き選好学習方法論を持っています。これを「ポリシーラベル付き選好学習（PPL）」と呼んでいます。OpenAIはPOを持っていましたが、今回は人間のフィードバックによる強化学習の進化における本当の最後のステップに来ています。
彼らは私たちの理解をさらに最適化する方法を分析しています。彼らはポリシー最適化、価値モデル最適化を持ち、最大エントロピーフレームワークで作業しています。この研究は本当に気に入っています。「ポリシーラベル付き選好学習：人間のフィードバックによる強化学習に選好は十分か」というタイトルです。これは韓国のソウル国立大学と高麗大学の研究です。ここにリンクがあります。これは5月6日に公開されましたが、今日出ました。
学習について本当に深掘りしたい場合、これを強くお勧めします。これはシステムの内部についてより数学的な視点から見たものです。彼らはここで本当の深掘りを行っていて、「どの大学がこれを行えるか」と思うかもしれませんが、専門家の混合レイヤーについて話しており、ここで専門家混合アーキテクチャの動的システム、進化を見ています。深掘りしたい場合、これを強くお勧めします。これはMIT数学とハーバード大学による研究です。より抽象的な論文が好きな方には最適です。
「精細な専門家粒度の力がMOEの表現力を高める」はどうでしょうか。彼らは「特定の専門家混合設計の選択がモデルの表現力にどのように影響するか」という単純な疑問を持っています。これに興味がある場合、この論文を楽しめることを保証します。特に後半では本当に興味深いアイデアがいくつかあります。
計画について話しましょう。AIがどのように解決策を提供するか、解決策を考え出すかを覚えていますか。計画は最も重要なことの一つであり、もちろん今ではロボットシステムとこれを組み合わせています。ここには全く新しい研究があります。これは「特定の空間後方計画によるロボット政策学習の効率化」と呼ばれ、清華大学、北京大学、上海AIラボの研究者によって行われています。GitHubリポジトリが利用可能で、現在のロボット計画方法は完全なピクセル詳細を持つマルチフレーム画像の予測に依存していることを説明しています。
しかし、彼らはここで、計画スキームでも蓄積エラーによってオフタスク予測が発生し、長期目標との不整合につながる可能性があると言います。彼らは重大な質問を投げかけます：「ロボット計画は、長期間の多段階タスクでのリアルタイム制御に十分効率的かつ正確であり得るか？」彼らはここで新しい方法論を開発しています。ロボット工学に興味がある場合、計画プロセスでバックワードに進む美しい新しいアイデアがあります。
次のことは、ああ、これは私が大好きなものです。ついにエージェントのインターネットです。私たちは単一のエージェントやエージェントのグループ、あるいはエージェントのクラスターだけでなく、MRL（マルチエージェント強化学習）が適用されるマルチエージェントフレームワークだけでなく、今やエージェントのインターネットを持っています。私たちはエージェンティックウェブを持ち、AIエージェントやエージェンティックAIエージェントだけでなく、エージェンティックウェブを持っています。そして問題は、これをどのように結びつけるかです。
私たちのAIエージェントは、人間の介入なしに受信、推論、行動することができる、孤立したものから自律的で対話的なエンティティへと変化しています。この調査では、異種エージェント間のシームレスな相互作用、動的発見、協調的オーケストレーションを可能にする基盤となる新しいフレームワークとして、エージェントのインターネットを紹介しています。非常に興味深い研究です。
私の目に留まった視覚化をここでお見せしたいと思います。特に右側の紹介、エージェントのインターネットの概要、アーキテクチャ、主要な特性などが気に入っています。次に、エージェントのインターネットの構成要素と技術、相互作用構造、タスクオーケストレーション、ネットワークトポロジー構造、タスク割り当て、タスク分解、通信プロトコル（エントロピックMCPからGoogleのA2Aまで）について説明しています。
合意形成と紛争解決、経済モデル、信頼できる規制、ブロックチェーンや分散型台帳とどのように連携するか、規制や法的設計、将来の研究方向についても触れています。例えばサイバー物理的に安全なエージェントのインターネットやプライバシー保護エージェント相互作用に興味がある場合、これは本当に素晴らしい調査です。
これは中国の重慶大学サイバーサイエンス工学部の同僚らによって行われました。美しい研究です。5月12日に公開されたので、私にとってはほぼ今日のものです。
次の研究は、AIエージェントについて話し、相互関係について話すと、エージェントと強化学習、スケーリング法則については、数学的問題解決のための自発的コード実行という考え方があります。これは復旦大学の専門家らによって行われました。
彼らは、LLMは正確で検証可能な計算を必要とする数学的推論タスクに苦戦しており、結果ベースの報酬からの強化学習とテキストベースの推論が、エージェントがコード実行のような外部ツールを自律的に活用する方法を理解するのに重要だと述べています。彼らはこれを調査し、中心的な貢献として、強化学習プロセスの主要メトリクスが予測可能にスケールすることを実証しています。いくつかの強い正の相関を観察しています。
これに興味がある場合、GitHubリポジトリがあります。彼らは3つの主な原因を特定しており、本当に興味深いことに数学的ベンチマークもあります。エージェント強化学習、スケーリング法則、自発的なPython実行を活用するためのより堅牢なフレームワークに興味がある場合、ここにはいくつかの良いアイデアがあります。
次の研究はまた別の調査ですが、本当に素晴らしいものです。ローカルコンピュータインフラストラクチャ、ラップトップやPCに小さなLLMを持っているが、クラウドの本当に強力なモデルにも接続したい場合、個人のプライバシーを確保したい場合、相互接続についてはどうでしょうか？何ができるでしょうか？
5月12日に全く新しいサービスがあります。これは中国科学院成都分院と北京の中国科学院の同僚によるもので、パイプライン、ルーティング、補助、蒸留、融合などの相互作用メカニズムについて正確に調査し、デバイス上のニーズ、低レイテンシー、高いプライバシー、高いパーソナライゼーション、オフライン操作モードによって駆動される多様なアプリケーションシナリオについての主要な実現技術について述べています。本当に素晴らしいです。
それらがどのように連携するかについてもっと知りたい場合、今日実装されているプロトコルについての本当に素晴らしい研究です。チームによるドイツの研究を紹介したいと思います。彼らはメモリシステムアーキテクチャについて話し、私たちのエージェントは推論や強化学習で素晴らしいが、継続的に学習したいと言います。
したがって、AIエージェントに新しい更新されたメモリシステム、AIの特定のタスクのために設計する必要があるより良いメモリシステムアーキテクチャを提供する必要があります。彼らはここで認識、取り込み、回想の3つの段階を持っています。センサーカメラがビデオを配信し、視覚言語モデルと埋め込みを使用してキャプチャし、グラフとベクトルストアで表現を取り込み、LLMを使ったエージェンティックラックで古典的な生成を行います。
エージェンティックな検索のための接地されたメモリシステムアーキテクチャをグラフラックの統合でどのように構築するか、これが新しいシステムです。確認しましょう。はい、ドイツのホンダ・リサーチ・インスティテュート・オブ・ヨーロッパです。この研究は「スマートパーソナルアシスタンスのための接地されたメモリシステム」と呼ばれています。
AIシステム自体の動的学習と統合するようにメモリシステムをどのように最適化できるか、完璧な融合を持つにはどうすればよいか、これは5月9日に公開されました。この特定の研究へのリンクがあり、接地された認識、新しいメモリグラフ、エージェンティックな検索について話しています。
最適化されたメモリ構造のためにこれらすべてがどのように連携するかについてです。個人的に絶対に魅力的だと思う別の研究をお見せしたいと思います。私たちはますます継続的な事前学習について話しています。モデルの事前学習がいかに重要かを理解しています。
下流タスクのための微調整やLLMの整合のための強化学習だけでは十分ではありません。しかし、継続的な事前学習（CPT）を行うとどうなるでしょうか？CPTです。ついに、継続的な事前学習（微調整でも強化学習でもない）を行った場合に何が起こるか、分布シフトの動的にどのように影響するか、損失関数に何が起こるかについての理解を深掘りします。
例えば、継続的学習力学の法則、隠れた事前学習曲線、トレーニングの分布シフト項などがどうなるか、そして彼らは本当に美しい深掘りを行っています。また、最終的な転移曲線、スケーリング法則、べき法則分布シフトなどもあります。特定のしきい値を持つ事前学習で何に注意する必要があるかを理解したい場合、素晴らしいです。
これも興味深いと思いました。2025年5月12日、これは南京電子工科大学（シンガポール）、湖南大学（中国）、山東大学（中国）、ノルウェー大学、トレント大学（イタリア）、ロンドン（イギリス）、KTH王立工科大学（スウェーデン）、世宗大学（韓国）、西オーストラリア（オーストラリア）、シンガポールによる国際コンソーシアムによるものです。ニューラルブレイン：ロボットエージェント、視覚言語行動モデルのための神経科学に触発されたフレームワークです。
5月12日、アーカイブリンクがあり、美しいプロジェクトページが利用可能です。身体化されたエージェント、神経科学に触発されたAIについて、彼らは特に人間の脳の機能を今日実装したい場合、これを異なるメモリ最適化に刻印したい場合に何が起こるかを説明しています。
しかし、今日2025年5月12日の最も美しい論文は、北京大学、清華大学、STEPF China、中国科学技術大学によるものだと思います。彼らは生成的事前学習自己回帰拡散トランスフォーマーについて取り組んでいます。それでは、新しいビデオジェネレーターであり、はるかに優れたビデオジェネレーターである生成的事前学習拡散トランスフォーマーモデルについての深掘りを始めましょう。
なぜでしょうか？なぜなら、今やビデオフューショット学習が可能になったからです。さらに驚くべきことに、ビデオのコンテキスト内学習も実現します。どのようなものでしょうか？色を想像してください。ビデオシーケンスのコンテキスト内例があり、白黒のものをカラー化したい、または白黒からカラー出力を得たいという場合です。または、画像やビデオのためのケニーアドレスがあり、入力と出力が見られます。あるいはビデオでのスタイル転送もあります。これは素晴らしいことではないでしょうか？
これはどのように可能なのでしょうか？すべては拡散トランスフォーマーから始まります。素晴らしいでしょう？単なるユニットアーキテクチャではなく、拡散トランスフォーマーです。もっと詳しく知りたい場合は、詳細に説明した拡散トランスフォーマーの新しいモデルなどがあります。
純粋な拡散モデル、そしてビデオに適用された拡散トランスフォーマーでさえ、しばしばすべてのフレームにわたる双方向アテンションを使用することを覚えておいてください。このシステムは長距離時間的一貫性と厳密な因果的順序付けに苦労しています。単純に機能しません。一方で、言語モデル、自己回帰モデル、トランスフォーマーデコーダー構造を持ち、因果性とシーケンスモデルに優れています。
これらをどのように組み合わせるのでしょうか？LLMはトークンで操作していますが、生のピクセルではなく何か別のものに操作する方法はありますか？なんと偶然でしょう。ここにGPがあります。このモデルは基盤モデルのように広範な理解を学習しますが、テキストだけでなく、ビデオシーケンスでのオブジェクトの外観、ビデオでの動きのパターン、オブジェクト間の時間的関係など、視覚的概念も学習します。特定のタスクのために微調整または使用される前にです。
これは事前学習で起こり、だからこそPが事前学習の頭文字として不可欠なのです。そして生成的、はい、私たちはビデオを生成しますが、生のピクセルやその量子化バージョンを拡散させるのではなく、新しい数学的空間でビデオフレームの潜在表現を使用する新しい形の拡散トランスフォーマーを利用しています。
私の最近のビデオを見た方は、これが続きであることをご存知でしょう。素晴らしい。この新しいGPDiTは強力なトランスフォーマーベースの拡散モデルの概念を取り、さらに発展させています。なぜなら今やフレームレベルで自己回帰的にしてビデオ生成に適応させ、連続的な潜在フレームでメタブ操作を行っているからです。
つまり、ビデオ操作に必要な計算インフラストラクチャはそれほど単純ではないため、さらに最適化することもできます。より簡単に、より速く、メモリが少なくなるようにできることは何でもします。そこで、新しいアテンションメカニズム、軽量の因果的アテンションメカニズムがあり、これはとても良いものですが計算が少なく、時間条件付けについては新しいパラメータフリーの時間条件付けがあります。これについてすぐに説明します。
古典的なDITでは、UCバークレーとニューヨーク大学による出版物で、拡散時間ステップのトランスフォーマーブロックに効果的な条件として適応レイヤーノルムゼロがあったことを覚えていますね。もちろん、DIT ブロックと他のLN ゼロ統合、クロスアテンションについて話したことを覚えているでしょう。
また、拡散ユニットアーキテクチャについての私のビデオで、モデルは残差接続の前に各ブロックの最終畳み込み層をゼロ初期化するような同様の初期化戦略を使用していると言いました。DIT ブロック、拡散ネット、またはGPDiTへの次のステップでも、すべて同じようなものであることがわかります。GPDiTでは回転ベースの時間条件付けを使用し、このパラメータフリーの回転ベースの時間条件付けの美しい簡略化が存在する理由を正確に説明します。
これは代替手段ですが、より高速であり、Ada LN ゼロへの改善であり、より優れたパラメータ効率を持っています。この回転ベースの時間条件付けは、トランスフォーマーブロックに時間ステップ情報を注入する方法に過ぎません。これが私が提供できる最も単純な情報です。興味があれば、ビデオを開きましょう。素晴らしい。
生成的事前学習自己回帰拡散トランスフォーマーがあり、これはビデオ生成のための全く新しい斬新なフレームワークです。なんと素晴らしいことでしょう、今や私たちはビデオで作業しています。目標は自己回帰モデリングの強みを組み合わせることです。これは時間的一貫性に優れていました。そして拡散モデル、これは連続的な潜在空間内での高品質なサンプル生成に優れていました。
主なアイデアは、一文で覚えておきたいなら、これです。TPDiTは拡散損失を使用して将来の潜在フレームを自己回帰的に予測し、すべてのフレームにわたる動きの力学とセマンティックな一貫性の自然なモデリングを可能にします。
私たちが持った天才の閃きを見たいですか？はい。私が言ったように、新しい因果的アテンションメカニズムと新しい時間条件付け方法論が必要なすべてです。そして、私の最後のビデオで人工時間について話していましたが、なんという偶然でしょう、時間が今やビデオジェネレーターの動的にも非常に重要になってきています。コアアイデアは単純です。
この回転ベースの時間条件付けは、Ada LN ゼロと比較してむしろ単純です。ここにオリジナルの論文があります。望むなら、拡散プロセスを2次元空間での回転として再解釈することができます。それは単純な回転行列です。本当に簡単な解釈をすると、拡散プロセスは元のクリーンデータ、クリーン画像データがどれだけあり、ノイズのあるデータにランダムノイズがどれだけ存在するかを徐々に変化させます。
これを2次元空間で回転する点の変化として視覚化してください。2次元空間の一つの軸は純粋なクリーンデータ軸であり、もう一つは純粋なノイズです。この点の回転角度が、任意の時点での混合割合を教えてくれます。時には説明がこれほど単純な場合もあります。
これが推論のGPDiTアーキテクチャの完全な概要です。これがフレームワークです。私たちはこれについて話したばかりで、回転操作による時間ステップの統合について説明しました。クリーンなパッチ、ノイズのあるパッチ、レイヤーノルム、回転、因果関係、新しい因果的アテンションメカニズム、簡素化、より高速、より効率的です。
私はすでに北京大学、清華大学、STEPF China、中国科学技術大学による出版物をお見せしました。彼らは現在、フレームごとの自己回帰拡散事前学習を持ち、このモデルに強力なビデオ理解能力を与えています。単なる生成だけでなく、これが実際にこのモデルの本当の隠れた力だと思います。ビデオ理解能力がより良いビデオ生成につながるのです。
再び、主な3つのポイントは、連続的な潜在空間でのフレームごとの自己回帰拡散、連続的な潜在表現での操作です。私たちは過去4つのビデオで表現について話していたことを覚えていますね。これは今、おそらく自己エンコーダーや変分自己エンコーダーからの最適化されたビデオ表現の一種であり、予測はノイズ除去タスクであり、これはフレーム内の詳細をより多く保存し、拡散プロセスが私たちの空間で直接複雑なピクセル分布を扱うことを可能にします。
私たちの潜在空間が高次元空間であるという考えがあります。ここでの因果的アテンション、簡略化されたバージョンでは、余分なメモリコストがないため完全な複雑さを計算する必要はなく、キー値射影を一度だけ事前計算し、各新しいフレームに対してさらなる干渉なしにそれらを再利用するという方法を採用します。
そして、ここで時間依存性を単純に注入し、古典的なDida LN ゼロモジュールを置き換えます。回転は時間埋め込み自体のための新しい学習可能なパラメータなしに、ネットワークの行動を時間依存にする同様の効果を達成します。これは素晴らしいです。私の最後のビデオのように、追加の次元を統合する必要があり、それが合成時間次元であるようなものではありません。
結果に進みましょう。素晴らしいと思いませんか？ビデオフューショット学習です。これほど単純なアイデアと強力な実装をお見せすることになるとは思っていませんでした。この事前学習されたGPDiTは強力な表現能力を示し、シーケンス連結を通じた条件付けを可能にし、簡単な一般化を可能にします。
ここでは500イテレーション、バッチサイズ4の微調整を使用し、入力画像とコンテキスト実証の両方に基づいて変換を生成するよう最適化しています。結果のいくつかをお見せしたいと思います。ここにコンテキスト内の例、ICL学習、微調整があります。
これが入力で、これが生成された出力です。ご覧のように、グレースケールから深度推定や人間検出への変換など、入力出力の例でこのシーケンスを持っていれば、うまく機能します。これは特に興味深いと思います。ここでは2人の人がいるシーケンスがあり、色でエンコードされた体骨格がある、または別の状況があり、フューショット例、コンテキスト内学習例としてあり、この特定の入力を与えると、モデルは自動的にこの特定の出力を生成できます。あるいは、シーンを走り回る子供たちがいて、これが解釈、フューショット学習、コンテキスト内学習または少数の例での微調整です。このシステムがビデオジェネレーターのためにごく少数の例だけで実行できるという驚くべき能力です。
このような種類のビデオに興味があり、次の方法論についてもっと学びたい場合は、ぜひチャンネル登録して、次回のビデオでお会いしましょう。