Googleが発表したVistaは、自己改善型のAI動画生成エージェントである。このシステムは再学習や微調整を行わず、自らプロンプトを書き換え、失敗から学習し、結果が驚くほど良くなるまで改善を続ける。実際にGoogleの最上位動画モデルであるVEO 3に対して60%の勝率を記録した。Vistaは動画アイデアをシーンごとに構造化された計画に分解し、トーナメント方式の評価システムで複数の候補を比較する。視覚、音声、文脈の3次元で専門的な判定を行い、深層思考プロンプトエージェントを用いてプロンプトを書き換える。5回の反復処理により着実に品質が向上し、人間による評価でも66.4%の支持を得た。テスト時最適化という新たなトレンドを体現するこのシステムは、メディア、マーケティング、教育、エンターテインメント分野における動画制作の未来を切り開く可能性を秘めている。

Google Vista:自己進化する動画生成AI
GoogleがVistaという革新的なAIを発表しました。このAIは基本的に、実行するたびにより良い動画を作る方法を自ら学習していきます。再学習も微調整も行わず、ただ自分自身のプロンプトを書き換え、失敗から学び、結果が驚くほど良くなるまで改善を続けるのです。そして実際に、Googleの最上位動画モデルであるVEO 3に対して60%の勝率を記録しました。
これはリアルタイムで文字通り進化するAI動画の始まりかもしれません。では、詳しく見ていきましょう。
Vistaの動作メカニズム
実際にどのように機能するのか説明します。Vistaはあなたの動画アイデアを受け取り、シーンごとに構造化された計画に分解します。各シーンには9つのプロパティが設定されます。継続時間、シーンタイプ、登場人物、アクション、対話、視覚環境、カメラワーク、サウンド、そしてムードです。
つまり、単にプロンプトを動画生成AIに投げて最良の結果を期待するのではなく、Vistaは何がいつ起こるべきかを正確にマッピングするのです。その後、複数の動画候補を生成し、トーナメント方式の評価システムと呼ばれるものを通して実行します。基本的に、動画同士が一対一の比較で対決し、最良のものが勝ち進むのです。
しかしここからが巧妙なところです。比較する前に、システムは各動画に対して探索的批評と呼ばれるものを生成します。つまり、AIは盲目的に判定しているわけではありません。実際に各動画を最初に分析し、その洞察を使ってより公平な比較を行うのです。
最良の動画が選択されると、モデルは3つの専門判定者を投入して、視覚、音声、文脈という3つの次元で勝者を批評します。そして各次元内には、動画をスコアリングする通常の判定者、積極的に問題を探し品質の穴をつつこうとする敵対的判定者、そして両方の視点を統合するメタ判定者がいます。この陪審員スタイルのセットアップは実際の法的決定プロセスに着想を得ており、単一の判定者では見逃してしまう問題を捕捉するように設計されています。
詳細な評価メトリクス
各次元には独自の詳細なメトリクスがあります。視覚については、視覚的忠実度、動きのダイナミクス、時間的一貫性、カメラフォーカス、視覚的安全性などを見ています。音声については、音質、音声と動画の整合性、音声の安全性です。そして文脈については、状況の適切性、意味的一貫性、テキストと動画の整合性、物理的常識、エンゲージメント、そして動画フォーマット、つまり開始と終了がスムーズか、トランジションが自然に感じられるかなどをチェックしています。
これらすべての批評の後、Vistaは深層思考プロンプトエージェントと呼ばれるものを使って実際にプロンプトを書き換えます。そしてこれは単なる簡単な微調整ではありません。エージェントは本質的に6つの推論ステップを経ます。
低いスコアに基づいて何が壊れているかを特定する。期待される結果が何であるべきかを明確化する。プロンプトに十分な詳細があるかをチェックする。失敗がモデルの限界によるものか、悪いプロンプトによるものかを判断する。矛盾や曖昧な言葉を検出する。そして標的を絞った修正を提案する。
この内省の後にのみ、新しい改善されたプロンプトをサンプリングします。その後、サイクル全体が繰り返されます。新しい動画が生成され、最良のものが選択され、批評が再び行われ、プロンプトが再び洗練されます。
反復処理とテスト時計算
デフォルトでは、Vistaは5回の反復を実行します。1回の初期化ラウンドと4回の自己改善ループです。各反復で、5つのプロンプトをサンプリングし、それぞれ3つのバリエーションがあり、プロンプトごとに2つの動画を生成します。つまり、反復ごとに30本の動画を見ていることになります。これは多くのテスト時計算ですが、結果がそれを正当化しています。
ベンチマーク結果
ベンチマークは多くを物語っています。チームはVistaを2つのデータセットでテストしました。1つはMovie Gen Videoからの単一シーンプロンプト、もう1つはマルチシーンの内部セットです。最初のセットには100のプロンプトがあり、2番目には161のプロンプトがありました。
最適化なしで生のユーザープロンプトを使用するだけの直接プロンプトと比較すると、Vistaははるかに優れたパフォーマンスを示しました。5回目の反復までに、単一シーンテストの45.9%、マルチシーンテストの46.3%で勝利していました。勝利と敗北の間には約32から35%のギャップがありました。
さて、通常会議がどのように進むかご存知でしょう。延々と話し続け、半分の人がメモを取り、最後には誰が何をすべきか誰も覚えていません。それがまさに、今日の動画をスポンサーしているProActorが解決するために作られたものです。
ProActorはあなたのAIチームメイトで、すべての会議、授業、通話に参加します。そして単に聞くだけではありません。リアルタイムですべてを書き起こし、重要なポイントをハイライトし、自動的に要約とアクションアイテムを作成するので、二度と詳細を見逃すことはありません。
しかしここが本当に際立っているところです。ProActorは先を考えます。会議中に誰かが質問したとき、即座に調査してその場で答えを提供します。新しいタスクが出てきたら、それを特定し、追跡し、あなたが指一本動かすことなく全員の認識を一致させます。
会議、講義、営業電話、インタビューなど全体で機能し、過去のセッションからすべてを記憶するので、あなたの履歴を実際に知っているチームメイトと働いているように感じられます。そしてもちろん、すべてのデータはAWSサーバーで安全に処理され、GDPRおよびCCPA基準に完全に準拠しています。
ビジネス、教育、営業のどの分野にいても、このツールは会議をよりスマートに、より速く、より生産的にします。proactor.aiで無料で試してください。リンクは説明欄にあります。
他の最適化手法との比較
さて、GoogleのVistaに戻りましょう。彼らはまた、Visual Self-Refine、Google CloudのRewriteツール、VPOなどの他の最適化手法に対しても実行しました。これらのアプローチは混合的または一貫性のない改善を示しました。時には反復を重ねることで実際に悪化することさえありました。
例えばVisual Self-Refineは強いスタートを切りましたが、すぐにプラトーに達しました。VPOとRewriteは明確なトレンドなく上下しました。一方、Vistaは反復ごとに着実に改善を続けました。これは単により良いサンプルで運が良かっただけでなく、実際に学習していることを示しています。
これを裏付けるために、彼らはプロンプト最適化の経験がある5人の注釈者を招き、5回の反復後にVistaの結果を最良の競合モデルと比較させました。Vistaはこれらの比較の66.4%で勝利しました。
専門評価者には、完全な最適化実行を1から5のスケールで評価するよう求められました。Vistaは平均3.78を記録し、次に良いベースラインはわずか3.33でした。特定のメトリクスを見ると、Vistaは視覚品質スコアを3.36から3.77に向上させ、音声品質を3.21から3.47に向上させました。
注釈者のスコアは少しばらつきがありましたが、これは理にかなっています。動画品質は主観的であり、人々はリアリズム、滑らかさ、音など異なるものに焦点を当てます。それでも、全体的に彼らは一貫してVistaの出力を好みました。
技術的セットアップ
では、技術的なセットアップについて話しましょう。このモデルはマルチモーダル大規模言語モデルとしてGemini 2.5 Flashを使用し、動画生成器としてVEO 3を使用しています。両方とも最先端です。
彼らはまた、より弱いモデルであるVEO 2でもテストしましたが、Vistaは依然としてパフォーマンスを改善し、勝率を単一シーンで23.8%、マルチシーンで33.3%に押し上げました。これはVEO 3ほど強力ではありませんが、理にかなっています。VEO 2は単にVistaが最適化するすべての詳細を活用できないのです。しかし、能力の低いモデルでも全く機能するという事実は、汎化性にとって良い兆候です。
コストとスケーラビリティ
彼らが測定した1つの点はコストです。Vistaは反復ごとに平均約70万トークンを使用します。そのほとんどはトーナメント選択フェーズから来ています。なぜなら各動画入力が2,000トークン以上だからです。また、反復ごとに約28本の動画を生成します。これは高価ですが、パフォーマンスは計算量でスケールします。これが望ましいことです。
単一シーンテストでVistaを20回の反復に押し上げたとき、着実に改善を続けました。一方、最良のベースラインであるVisual Self-Refine Plusはプラトーに達しノイズが増えました。マルチシーンテストでは、軽量版のVistaを20回反復実行し、同じ傾向を見ました。一貫した上昇軌道で、ベースラインは停滞しました。
アブレーション研究
彼らはまた、Vistaのどの部分が実際に違いを生むかを確認するためにアブレーションテストを実行しました。答えはすべてでした。動画計画なしでは品質が低下しました。トーナメントなしでは結果が不安定になりました。判定者を1人だけ使用するとマルチシーン実行が壊れ、深層思考エージェントを削除すると進歩が止まりました。Vistaのループのすべての部品がその役割を果たしています。
幻覚への対処
彼らが文書化したより興味深い動作の1つは、Vistaが幻覚をどのように処理するかです。VEO 3は、ほとんどの動画モデルと同様に、時々リクエストされていないものを生成します。ランダムなテキストオーバーレイ、要求されていない音楽、現れたり消えたりするオブジェクト、物理的に不可能な方法で動くキャラクターなどです。
Vistaは計画中に厳密な制約を適用し、動画がこれらの制約に違反した場合は選択中にペナルティを適用することでこれを減らします。例えば、ユーザーが明示的にキャプションを求めない限り、モデルはそれを含む動画にペナルティを課します。音楽やボイスオーバーも同様です。また、オブジェクトやキャラクターが不自然な速度や無意味な方向に動く動画にもペナルティを課します。これだけで多くの奇妙さをフィルタリングします。
指示追従の改善
彼らはまた、このモデルが指示追従を改善することも発見しました。あるテストでは、コンベア上にブレードバッテリー、黄色の産業用ロボット、簡体字中国語で歩留まり率を示す画面がある工場シーンを要求しました。直接プロンプトではロボットを含めることができなかったり、テキストが間違っていたりしました。Vistaは完璧に実現しました。
別のテストでは、グレムリンが前方に動いている間、カメラが後方に追跡する木製ローラーコースター上のシーンを求めました。直接プロンプトは、グレムリンが超高速で後方に動く動画を生成し、これは馬鹿げた見た目で物理法則を破っていました。Vistaはこれを修正しました。グレムリンは前方へ、カメラは後方へ、すべてがスムーズです。
これらは単なる小さな調整ではありません。使用可能な動画と即座に削除するものとの違いなのです。
テスト時最適化のトレンド
さて、これはすべて今のAI研究における大きなトレンドに当てはまります。テスト時最適化です。より大きなモデルを訓練したり、特定のタスクで微調整したりする代わりに、推論時に計算を使用してより良い出力を探索するのです。OpenAIは推論モデルでこれを行っています。そして今、Vistaは動画生成でこれを行っています。
論文は、これが動画のための最初のブラックボックステスト時プロンプト最適化フレームワークであると述べています。以前の方法は、モデルへのホワイトボックスアクセスを必要とするか、オブジェクトの存在や無害性のような狭い側面に焦点を当てていました。このモデルは、視覚、音声、文脈の次元を1つのループで共同最適化する最初のものです。
限界と今後の課題
しかし、まだ限界があります。システムは判定者としてマルチモーダルLLMに依存しており、これがバイアスをもたらす可能性があります。人間による評価がこれをバランスさせるのに役立ちましたが、コストがかかりスケールしにくいです。品質メトリクス自体も、すべての文脈に合わないかもしれない特定の創造的スタイルを前提としています。そしてVistaのパフォーマンスは基盤となるモデルがどれだけ優れているかに依存するため、それらが改善するにつれてのみ改善できます。強力ですが、魔法ではありません。
まとめ:AI動画制作の未来
それでも、結果は雄弁に語ります。Vistaはテストの60%でVEO 3を打ち負かし、人間による評価の66.4%で勝利し、各反復で着実な改善を示しました。指示をより良く追従し、幻覚を減らし、マルチシーン動画をよりスムーズに処理し、音声と視覚の同期を保ちました。これらすべてがテスト時に、再学習なしで行われました。
これは自動動画制作にとって大きな飛躍であり、メディア、マーケティング、教育、エンターテインメントの扉を開きます。自己最適化する動画生成により、制作コストを大幅に削減し、ワークフローを高速化し、かつてないほどコンテンツをスケールできます。
では、質問です。私たちはAI動画制作の未来を見ているのでしょうか、それともはるかに大きな何かの最初の一瞥に過ぎないのでしょうか。コメントであなたの考えを教えてください。チャンネル登録を忘れずに、次回お会いしましょう。


コメント