リアルタイムAIヘッド、新しいAI画像ツール、長いAI動画、Veo2が無料に、ボクシングロボット、AIの馬

20,627 文字

Realtime AI heads, new AI image tools, long AI videos, Veo2 is free, boxing robots, AI horses

INSANE AI NEWS: Google Cloud Next, Google Agentspace, Ironwood, UNO image editor, Llama 4, Veo 2 #ai #ainews #aitools #a...

AIは眠ることがなく、今週は本当に驚くべき1週間でした。複数の参照オブジェクトやキャラクターで画像を作成できる新しいAIが登場し、リアルタイムで話す頭部生成器のV2がついに誰でも無料で使えるようになりました。このAIは一貫性のある1分間の長い動画を作成でき、また別のAIは3Dモデルの欠けている部分を補完できます。さらに、Fluxをも上回る新しいオープンソースの最高画像生成器も登場しました。Googleはクラウドネクストイベントを開催し、いくつかのエキサイティングなAI発表を行い、ChatGPTは新しいメモリ機能を獲得しました。さらに驚くべきヒューマノイドロボットのデモやその他多くの新機能が登場しています。
それでは早速見ていきましょう。まず最初に非常に便利なAIがあります。ByteDanceが開発したUnoと呼ばれるもので、ByteDanceは最近本当に素晴らしい活躍をしており、多くのクールなオープンソースツールをリリースしています。Unoは複数の参照オブジェクトやキャラクターを使って画像を作成できます。いくつか例を見てみましょう。複数の異なる参照オブジェクトやキャラクターを入力して写真を生成できます。このByteDanceのロゴとこの白いTシャツを用意すると、Tシャツにロゴを追加できます。または、この女の子の人形とこのクールエイドのようなぬいぐるみを用意すると、両方を同じ写真に入れることができます。
別の例では、このアニメの女の子と中国のロゴがあれば、彼女のシャツにこのロゴを追加できます。あるいはアヒルに乗った猫の写真とこの帽子があれば、猫に帽子をかぶせることができます。また別の例として、犬のぬいぐるみと青いハンドバッグがあれば、両方を一緒に写真に入れることができます。
これは異なるスタイルでキャラクターを生成するのにも最適です。この女性の参照写真を入力すると、このようなアニメ調の写真を生成できます。この男性の写真を入力すると、このような3Dピクサースタイルのものができます。同じ男性の参照写真を使って、夜の街でスーツを着たGTAスタイルの画像を作ることもできます。この女性をもう一度使って、今回は3Dディズニーピクサースタイルにしてみましょう。
これは衣料品ブランドにも最適で、AIで生成された人々にモデルとしてあなたの服を着せることができます。例えば、これら2つの衣類アイテムを入力すると、街中でこれらの服を着た女の子を生成できます。別の例では、このブルートップとKeep Fitという言葉が書かれたショートパンツがあれば、夕暮れ時の花畑でこれらを着た男性を得ることができます。または別の男性に同じものを着せることもできますが、今回は街中です。また別の例では、この花柄のドレスを着た2人の異なるモデルを異なる設定で得ることもできます。
これは顔のスワップやキャラクターのクローンにも最適です。この女性の参照ビデオを入力すると、彼女を任意の写真で生成して何でもさせることができます。アインシュタインも同様に、アインシュタインの参照写真を入力すれば、このようなことや、このようにチェスを指すこともできます。もちろん、複数のものを組み合わせることもできます。例えば、ピンクのドレスと青いハンドバッグを持つこの女性の写真を入力すると、すべての要素を1つの写真に組み合わせることができます。また、プロンプトで設定を指定することもできます。例えば、ビーチで彼女を表示したい場合はこのようになり、背景を花畑にしたい場合はこのようになります。非常に多目的なツールです。
UnoをOin ControlやIP adapterやOmninenなどの類似ツールと比較すると（以前チャンネルで紹介しました）、Unoが最も正確で一貫性のある生成物を作ります。例えば、時計の参照画像を入力し、「緑の草の上にある時計、周りにひまわりがある」とプロンプトする場合、Unoだけが時計の黄色い3を含めて正確に生成できました。この靴についても同様で、Unoだけが靴を正確に生成できました。さらに難しい例として、このおもちゃがあって「紫色のおもちゃ」とプロンプトすると、Unoだけが他の特徴を維持したまま紫色に変えることができました。別の例では、入力画像としてこれを使い「赤いおもちゃ」とプロンプトした場合、再びUnoだけがこのロボットの全体的な形状とデザインを維持しながら赤くすることができました。
ページの一番上にスクロールすると、試すためのHugging Faceデモをリリースしています。ここに最終画像を説明するプロンプトを入力し、ここに1つまたは複数の参照画像をアップロードし、ここで最終画像の幅と高さを制御します。この女性の写真、このドレス、このハンドバッグをアップロードして、「女性がドレスを着てバッグを持っています。彼女は暗い邸宅にいます」と書いてみましょう。生成をクリックして、これがうまくいくか見てみましょう。そしてできあがりました。女性がこのドレスを着て、暗い邸宅でハンドバッグを持っています。細部はもう少し良くなる可能性がありますが、これはたった512×512であることに注意してください。
Hugging Faceデモに加えて、GitHubリポジトリもリリースしており、これをインストールしてローカルで実行する方法についてのすべての指示が含まれています。これを実行するには最低16GBが必要で、量子化されたバージョンを使用するにはこれらの追加パラメータを渡す必要があることに注意してください。リンクはすべてこちらにあるので、詳細を読むためにこのメインページへのリンクを説明欄に記載します。
次に非常に便利なAIがあります。それは「テストタイム訓練による1分間ビデオ生成」と呼ばれるもので、各シーンを指定するテキストストーリーボードから一貫性のある1分間のビデオを生成できます。例えばこのビデオと完全なプロンプトを見てください。シーンごとに各キャラクターが何をしているかを指定します。例えば最初のシーンでは「茶色のネズミのジェリーが小さな黄色いチーズの塊を持って直立して座っています」、次に「青灰色の猫のトムがジェリーからチーズを取ります」、その後シーンを終了して新しいシーンを開始します。今回は「黄色い壁とネズミの穴があります」、そして「ジェリーがネズミの穴に向かって左方向に歩きます」、次のシーンでは「ジェリーがスーツケースに服を詰めています」、さらに次のシーンでは「スーツケースを持って庭を横切って歩きます」などなど。
生成全体を通してキャラクターとスタイルが非常に一貫していることに注目してください。ただし、これにはたくさんの欠点があることも注意すべきです。テキストは判読できず、キャラクターの周りの縁、特に動くときには多くのエラーがあります。これは確かに製品として完成しているわけではありませんが、それでも良いプロトタイプです。最終的には、全体のストーリーボードを入力して、たった5秒のビデオだけでなく、複数のシーンがある一貫性のある長いビデオや、エピソード全体をAIに生成させることができるようになるでしょう。
仕組みについて簡単に説明すると、彼らはCog videoと呼ばれるベースビデオモデルを使用しています。これ自体では約3秒の長さのビデオしか生成できません。ここにCog videoからの3秒の生成例がありますが、彼らはこのアーキテクチャの上にテストタイム訓練レイヤーと呼ばれるものを追加しました。これらは独自のメモリを持つ小さなニューラルネットワークのようなもので、このデザインとメモリのおかげで、スタイルとキャラクターの一貫性を保ちながら追加のビデオを生成することができます。そのため、これらすべてを一緒に貼り合わせると、ビデオ全体が一貫性を保ちます。
ページの上部にスクロールすると、これをトレーニングして実行する方法についてのすべてのコードを提供するGitHubリポジトリへのリンクをリリースしています。リンクはこちらにあり、このページには追加の例もたくさんあります。詳細を読むためにこのメインページへのリンクを説明欄に記載します。
次に非常に便利なAIがあります。Hollow Partと呼ばれるもので、3Dオブジェクトをより小さな完全な部品に分解します。さらに視界から隠れている部分も把握できます。例えば、リングのこのオブジェクトがあるとします。最初のステップでは、リングをリング自体、これらの装飾品、上部のダイヤモンドなど、異なる意味のある部分に分割します。ただし、このダイヤモンドのように一部は視界から隠れていて実際には完全ではなく、こちらの部分も同様です。次のステップでは、AIがこれらの欠けている領域を実際に埋めるため、リングのすべての部品が構造的に完全になります。そうすることで、より小さな完全な部品に分解できるモデルができあがります。
これは下流の編集に非常に役立ちます。例えば、ダイヤモンドのサイズをこのように大きくしたり、リングにテクスチャを追加したり、ダイヤモンドに別のテクスチャを追加したりできます。他の例もいくつか見てみましょう。この車のモデルがあるとします。このAIを通した後はどうなるでしょうか。すべてがセグメント化され、視界から隠れていた部分が埋められ、各部分が完全になっています。ご覧のように、車輪と車のベースは構造的に完全に見え、ライトやハンドルなどもすべて同様です。非常に素晴らしいですね。
別の例として、これが入力キャラクターだとします。このAIを通した後、すべてがセグメント化され、各部分が構造的に完全になっていることが分かります。アイスクリームショップの別の例もあります。これを分解すると、再びすべてがセグメント化されていますが、各部分は構造的に完全です。さらに別の例もあります。これを分解するとすべての部分がこちらに表示されます。非常に素晴らしいですね。
簡単に説明したように、Hollow Partは2段階のアプローチを使用します。まずオブジェクトの見える部分を識別し、それらの部分をすべてセグメント化します。その後、各部分がすべて構造的に完全になるよう、不足している領域を埋めるために、これらの部分を特別な3D形状拡散モデルに通します。
ページの上部にスクロールすると、オンラインで試すための無料のHugging Faceスペースをリリースしています。ここに3Dメッシュを入力します。このメッシュを入力すると、自動的に各意味のある部分をセグメント化し、結果がこちらに表示されます。3Dモデルですが、各部分が別々になっており、すべての部分を展開または分解すると、このようになります。非常に素晴らしいですね。
Hugging Faceスペースに加えて、コンピュータでこれをダウンロードして実行する方法についてのすべての指示が含まれているGitHubリポジトリもリリースしています。詳細を読むためにこのメインページへのリンクを説明欄に記載します。
また今週、新しいトップクラスのオープンソース画像生成器が登場しました。Vivigo AIによるHydreamと呼ばれるもので、これは非常にエキサイティングです。基本的に次世代のStable DiffusionかFluxであり、完全に検閲されていません。Artificial Analysisによる独立したリーダーボードを見ると、すべてのテキストから画像へのモデルをランク付けしており、Hydreamは3位にあります。これがトップのオープンソースモデルです。次に良いオープンソースモデルはずっと下のFlux 1Dです。Flux Proはクローズドソースであることにも注意してください。これは次に良いオプションよりもすごい改善です。
数日間の初期テスト後、私もHydreamがFluxやStable Diffusionよりも少し優れていると感じています。これは現在使用できる最高のオープンソースモデルであり、完全に検閲されていません。すでに完全なレビューとチュートリアルを行ったので、ここであまり繰り返しません。まだご覧になっていない方はこのビデオをご覧ください。
次に非常に便利なAIがあります。OmniSVGと呼ばれるもので、テキストプロンプトまたは入力画像から高品質のSVG画像（つまりスケーラブルベクターグラフィックス）を作成できます。SVGに馴染みがない方のために説明すると、これは通常の画像のようなピクセルではなく、品質を失うことなく無限に拡大できる画像です。これらの例からわかるように、様々なアートスタイルで様々な形状、キャラクター、オブジェクトを生成できます。これらはすべて非常に高品質であり、基本的にベクターなので、これらの画像を10,000×10,000ピクセルにまで拡大しても、非常に鮮明で正確に見えます。
これを他のSVG生成器（以前紹介したIcon ShopやSVG DreamerやChatsu SVG）と比較すると、この新しいOmni SVGの方がはるかに優れています。例えば「赤い再生ボタンがインターフェースの中央に配置され、青いバーと様々な色の円がある」というプロンプトでは、正確にプロンプトに従うことができたのはこれだけでした。あるいは「かわいい漫画のキャラクターで、緑と黄色のキノコの帽子と赤いケープを持っている」というプロンプトでは、確かにこれが得られます。これがベクターだということが信じられないほど、非常に詳細で、ほぼ絵のようです。そして「かわいい漫画の吸血鬼で、紫の髪と黒と赤の衣装を着て、牙を見せて笑っている」というプロンプトでは、確かにこれが得られます。
既に述べたように、これはテキストプロンプトだけでなく、画像を入力してSVGに変換することもできます。GPT-4oや他の方法と比較しても、この新しいOmni SVGが最も一貫しています。入力画像と同じように見えますが、こちらはJPEGであるのに対し、こちらはスケーラブルベクターです。別の例では、出力が入力画像と全く同じように見えることに注意してください。さらにいくつかの例があります。このような難しいイラストでも、SVGを非常に正確に生成することができました。
ページの上部にスクロールすると、データセットをリリースしています。ここには様々な種類のオブジェクト、キャラクター、アートスタイルにわたる大量のSVGデータが含まれています。また、GitHubリポジトリもリリースしており、これを実行するためのコードをリリースする予定だそうです。詳細はこのページへのリンクを説明欄に記載します。
スポンサーであるAbacus AIによるChat LLMというすばらしいツールについてお話ししましょう。これにより、最高のAIモデルをすべて1つの統合プラットフォームで使用できます。これには最新のClaude 3.73 Mini Highだけでなく、DeepSeek R1も含まれており、プロンプトに基づいて最適なLLMを自動的に選択する新しいルートLLM機能も備えています。また、1つのプロンプトでビデオを生成することもでき、コーディングやビルド中の場合、アプリと並行して見たり操作したりできる非常にクールなアーティファクト機能もあります。
彼らはまた、Code LLMと呼ばれる新しいコーディングツールも持っています。これはVS Codeと全く同じように動作しますが、AIによってパワーアップされています。コードを生成または編集するためにサイドでAIとチャットしたり、タブを押してコードを自動補完したりできます。これは最高のAIモデルをすべて1つのプラットフォームで使用するための非常に強力な方法です。説明欄のリンクから試してみてください。
次に非常に便利なAIがあります。AlibabaのOmni Talkerと呼ばれるもので、話している人の参照ビデオと、あなたが話させたいテキストを入力すると、その人が話すテキストの完璧なビデオを生成できます。いくつかの例を見てみましょう。誰かが話しているこの入力ビデオがあるとします。これが実際のビデオです。また、このビデオの書き起こしも入力する必要があります。これはビデオで彼が言うテキストです。そして彼にこの英語を話させたいとします。どのように聞こえるか見てみましょう。「How are you me fans i’m Lein i’m very happy to be China’s richest man in 1 hour today thank you very much are you okay」良くないわけではありません。これはすべて1秒あたり25フレームでリアルタイムで行われます。
別の例を見てみましょう。ジャッキー・チェンがこのテキストを言っている実際のビデオです。このビデオをAIに入力し、彼にこの英語を話させるとどうなるか見てみましょう。「Life is like a movie there are moments of joy and moments of struggle but the key is to give your best in every scene no matter how tough things get never lose faith」非常に良いですね。英語の中に彼のアクセントの一部も保持しています。
次にトランプの例です。これが実際のビデオで、これが書き起こしです。まずこれを再生してみましょう。「Unify i bring people together i get along with people i’ve always gotten along with people i’ll get along with Democrats with Republicans with liberals with conservatives」さて、彼にこのテキストを話させるとどうなるか見てみましょう。「We shall not be swayed easily no matter how rocky the road ahead may be we must trust that amidst the difficulties solutions can be found amidst disagreements consensus can be reached this is not just a choice about policies or politics it concerns our shared future and the world we wish to leave for the next generation」
彼が頭を回すとき、いくつかの不気味なことが起こっており、もはや彼のようには見えません。また、文と文の間に一切の休止を取らないため、このスクリプトを非常にロボット的に吐き出しているように見えます。次に、同じ入力で中国語を話させてみましょう。トランプが中国語を話しているように見えます。彼の中国語にはアメリカ訛りさえあります。
次にレオナルドの例です。入力ビデオはこちらです。「For our children’s children and for those people out there whose voices have been drowned out by the politics of greed I thank you all for this amazing award tonight let us not take this planet for granted」彼にこのテキストを言わせるとどうなるか見てみましょう。「We shall not be swayed easily no matter how rocky the road ahead may be we must trust that amidst the difficulties solutions can be found amidst disagreements consensus can be reached this is not just a choice about policies or politics it concerns our shared future and the world we wish to lead for the next generation」
再び、私が感じる問題点は、彼が文と文の間に休止を取らないため、自然に聞こえないということです。より良いテキスト読み上げツールを使って、音声出力をここに入力できれば良いのですが。アン・ハサウェイの例を見てみましょう。オリジナルのビデオはこちらです。「We show time and time again that we do not equally value women’s participation contribution and leadership」そして彼女に代わりに言わせたいのはこれです。「Are neural networks they’re not just mathematical curiosities you see they are mirrors imperfect but fascinating reflecting the computational principles that life itself has evolved over billions of years」
興味深いことに、ここでは文と文の間、そしてここのハイフンでいくつかの休止を取っています。彼女が中国語を話すのも見てみましょう。非常に良いですね。また、入力参照ビデオで同じ感情を使用することで、生成の感情をある程度制御することもできます。例えば、幸せそうに見えるビデオを入力して彼女にこれを言わせると、入力はこのように見えます。「Dogs are sitting by the door」そして出力はこのようになります。「I was like talking to my friend and she’s all um excited about her uh trip to Europe and I’m just like so jealous right」
代わりに、このような悲しそうに見えるビデオを入力した場合、まず入力ビデオがどのように見えるか見てみましょう。「Dogs are sitting by the door」彼女は犬がドアの横に座っていることについて本当に悲しそうに見えます。そして彼女にこちらの同じスクリプトを言わせると、どのようになるか見てみましょう。「I was like talking to my friend and she’s all um excited about her uh trip to Europe and I’m just like so jealous right」彼女はスクリプトを話している間、非常に悲しそうに見えます。
最後に、出力は数秒だけに限られないことに注意してください。これはどんなスクリプトに基づいても、かなり長いビデオを生成できます。テレサが2分以上の非常に長いスクリプトを話している例があります。「Let me begin by saying this we are living in challenging times times that test not only our resolve but also our ability to come together as a nation throughout my career I have always believed that strength lies not in grand gestures or empty promises」
時間の関係上、2分間すべてを再生することはしませんが、これは延々と続くことができることに注意してください。そして前述したように、これは1秒あたり25フレームでリアルタイム生成をサポートしているため、これはある種のアバターのようなもので、リアルタイムで対話できます。例を見てみましょう。「Hello I’m Anne Hathaway glad to see you hey Annie Hway may I ask you a question about how has your journey from stage to screen shaped your career oh thank you so much that’s such a lovely question honestly theater taught me the discipline of live performance the idea that every moment matters and you can’t hit credo film allowed me to dive deeper into characters with nuance」非常にクールなアプリケーションですね。
簡単に仕組みを説明すると、彼らはデュアルブランチ拡散トランスフォーマーアーキテクチャを使用しています。これは2つの別々の部分があることを意味します。1つはビデオを生成するための部分、もう1つはオーディオを生成するための部分であり、これらが協力して人が話す同期された出力を作成します。ページの上部にスクロールすると、まだ何もリリースしていないようですが、リリースされ次第お知らせします。詳細を読むためにこのメインページへのリンクを説明欄に記載します。
ヒューマノイドロボットのニュースでは、過去数週間でUni Treeのロボットがキップフリップを行ったり、Engine AIのこのロボットが速く走ったり、このように踊ったりするような、すごいデモを紹介しました。特にEngine AIのデモについて、一部の人々は偽物やCGIだと思っていました。ご存知かもしれませんが、ストリーマーのSpeedが最近中国を訪れており、Engine AIの拠点である深センに立ち寄りました。こちらがEngine AIロボットとのライブストリームです。「You just did a flip trying to fight」
気付いたことの一つは、ビデオを通してロボットが常にパーツを失っているように見えることです。あちこちに飛んでいる細かい破片を見ることができるので、大丈夫なことを願っていますが、とにかくこのライブストリームから分かるように、このロボットは確かに本物です。CGIではなく、前方フリップやダンスなど、彼らが主張していることを確かに行うことができます。
これに加えて、Unreeからの新しいデモがあります。今回はボクシングを学習しました。このデモは特に印象的です。なぜなら、すべてを自律的に行っているからです。これは以前のダンスや功夫のデモとは異なります。それらは単に記憶されたルーティンですが、この新しいボクシングデモではすべてが自律的です。システムは相手を認識し、正しい方向にパンチやキックを放つ必要があります。さらに、倒れた場合は、どのように起き上がって相手を再び見つけるかを知る必要があります。リアルタイムで行う必要のある計算がたくさんありますが、ご覧のように、すべてを非常にスムーズに実行できています。
しかし、ヒューマノイドロボットは忘れて、AIを搭載した馬はどうでしょうか？カワサキがこのAIロボット馬を発表しました。これに乗ることができ、水素で動作するよう設計されており、副産物として水蒸気のみを排出するため、環境に優しいことを目指しています。最も単純な意味では、これは基本的にUni Treeの犬やボストン・ダイナミクスのSpotの巨大版で、乗ることができます。
このライディングビデオは完全にCGIであり、コンセプトを説明するためだけのものです。また、大阪関西万博で今週紹介されたプロトタイプも機能しておらず、コンセプトを示すためのシェルに過ぎません。私は個人的に、これは見た目はクールですが、このアイデアにはあまり惹かれません。車輪を発明した理由があります。4本の脚でバウンドするよりも、はるかに効率的だからです。このアイデアについてどう思うか、コメント欄で教えてください。
また今週、Googleはクラウドネクストイベントを開催し、AIにおけるいくつかの大きなアップデートを発表しました。例えば、Ironwoodと呼ばれるGoogleの第7世代テンソル処理ユニットを紹介しました。ちなみに、これはED薬の素晴らしい名前に聞こえますね。スローガンは「Ironwoodで一晩中起きていましょう」とかになるでしょうか。冗談はさておき、これはAI専用の非常に強力なプロセッサーです。IronwoodのパフォーマンスをGoogleのTPUの以前の世代と比較すると、改善は大幅であることがわかります。
これはGoogleがAIレースをリードしている主な理由の1つです。彼らは世界最高のAIモデルであるGemini 2.5 Proを持っているだけでなく、計算とトレーニングのための独自のTPUも持っています。他のすべてのAI企業とは異なり、NVIDIAに依存する必要はありません。彼らはハードウェアと計算からソフトウェアとAIモデルまで、スタック全体を垂直方向に、端から端まで構築しており、これがAIレースにおける最大の競争上の優位性を彼らに与えています。
Googleはまた、AIエージェント開発キットを発表しました。これにより、開発者はマルチエージェントシステムを簡単に構築できます。このキットは多数の事前構築されたコネクタとAPIとの統合をサポートしているため、これらのエージェントを使用して他のアプリやプラットフォームからデータを取得したり送信したりできます。これを使用すると、メールやGoogle WorkspaceやCRMなど、異なるアプリにまたがって複雑な目標を達成するために協力する複数のエージェントのチームを簡単に構築できます。最も良いことに、この開発キットはオープンソースになります。
彼らはまた、エージェント間プロトコルも導入しました。これにより、異なる企業や異なるプラットフォームから構築されたものであっても、エージェントが互いに通信できるようになり、多くの可能性を解き放ちます。さらに、Google Agent Spaceも紹介しました。これは以前の動画で紹介したGenSparkやManisに非常に似ています。これはチャットインターフェースで、タスクを解決するために適切なエージェントに自動的にリクエストをルーティングします。
例えば、ここではユーザーが求人のための適切な候補者を見つけようとしています。ここでは、タスクを実行するためにソーシングエージェントを使用することを選択しています。その後、ユーザーが候補者のバックグラウンドチェックを行うようプロンプトし、今度は別のエージェントであるシンボルバックグラウンドエージェントを使用して1人の候補者をチェックし、この国際バックグラウンドエージェントを使用して他の候補者のバックグラウンドをチェックしています。とにかく、これらのツールはすべて徐々に展開される予定なので、そのままお待ちください。
彼らはまた、いくつかのメディア生成器がVertex AIプラットフォームで利用可能になることを発表しました。これにはLIIAが含まれており、これは彼らのテキストから音楽へのモデルです。これはインストゥルメンタルのみを生成でき、正直なところ、品質はUdoやSunoやRefusionほど良くないため、ここではあまり詳しく取り上げませんが、Lyriaで生成された曲を簡単に紹介します。それがLyriaでした。これをVertex AIで徐々に展開しています。
また、Chirp 3も提供されており、これは彼らのテキスト読み上げ生成器です。これは10秒のオーディオだけで誰の声もクローンできます。さらに、カメラコントロールやインペインティングなど、V2に追加された新機能もあります。「与えられたこの場所では、私たちが行おうとしていることの完璧な背景として、ラスベガスのスカイラインを使用します。そして、ラスベガスのスカイライン画像を取り込むことから始めます。本当に高品質の美しい画像です。動画を生成しますが、ここに新しい魅力があります。見てください、カメラプリセットがV2に直接組み込まれています。左へのパン、右へのパン、タイムラプス、トラッキングショット、そしてドローンショットもあります。」
「それでは、ドローンショットを提出してみましょう。『街のスカイラインのドローンショット』です。これを今提出します。通常、これには数秒かかりますが、今日これを早めに実行したので、キャッシュされています。通常よりも少し速くなります。さて、ビデオ1を見てみましょう。絶対に素晴らしいです。噴水とエッフェル塔を見ることができます。続いてビデオ2を見てみましょう。V2が作成する別のアングルです。再び見事な映像で、背景に雲が見え、ラスベガス大通りを上下に走る車が見えます。信じられないほど素晴らしいです。」
「このすばらしいビデオにはクルーメンバーがいることがわかりました。私たちはクルーメンバーを愛していますが、今回はギターに焦点を当てたいと思います。ギターはバンドの最も重要な部分だからです。それでは、V2の新しいインペインティング機能を使ってみましょう。申し訳ありませんが、あなたは仕事がとても上手だと思いますが、この画像からあなたを削除する必要があります。あなたとご家族には花を送ります。新しいインペインティング機能を使って、数秒待ってみましょう。思ったとおりなら、ステージハンドがいなくても、以前見たすべての要素が保持されているはずです。そうなりました。」
確かに、Vertex AIで無料アカウントにサインアップすると、クレジットカードの詳細を提供する必要がありますが、すぐには課金されず、300ドルのクレジットが得られます。そして、メディアスタジオでは、Imagine 3で画像を生成したり、Chirpでオーディオを生成したり、LIIAで音楽を生成したり、V2を使ってビデオクリップを生成したりできます。ただし、これらの機能はすべて現在「許可リスト」と呼ばれるものの背後にあり、これは待機リストよりは少し良く聞こえるかもしれません。
V2について言えば、実際にGoogleのAI Studioで無料でリリースされました。AI Studioにログインすると、レイアウトに若干の変更があることに気づくでしょう。左側のメニューに「ビデオ生成」オプションが表示されるはずで、これをクリックするとV2を使って無料でビデオを生成できるようになりました。ここで結果の数、アスペクト比、ビデオの長さを選択できます。現在の最大長は8秒であることに注意してください。ただし、フレームレートや解像度はまだ指定できません。そしてここがネガティブプロンプトを入力する場所で、これはオプションです。
では、今すぐビデオを生成してみましょう。「シェフになるために学んでいるポメラニアンの子犬のグループ」を試してみましょう。これが結果です。拡大してみましょう。とても可愛くてふわふわですね。確かにシェフになるために学んでいるポメラニアンの子犬に見えます。これをダウンロードするには、これら3つのドットをクリックして、ダウンロードをクリックします。注意すべき点として、これらのビデオを自動的に保存したい場合は、設定をクリックして、上部にある自動保存トグルをオンにする必要があります。これにより、ビデオがGoogle Driveに自動保存されます。このオプションを選択せずにページを離れると、ビデオは永久に失われます。
次に、このAIも非常に興味深いものです。非常に長い名前を持っていますが、とにかくこれは顔の写真と任意のオーディオを取り込んで、その顔にオーディオを話させることができるAIです。いくつかの例を見てみましょう。アインシュタインのこのポートレートと別のオーディオクリップを入力すると、結果はこのようになります。「Truth be told uh I never graduated from college and uh this is the closest I’ve ever gotten to a college graduation today I want to tell you three stories from my life that’s it no big deal just three stories」非常に良いですね。
そして別の例です。「Let me give you one example reed College at that time offered perhaps the best calligraphy instruction in the country throughout the campus every poster every label on every drawer was beautifully handcalliggraphed because I had dropped out and didn’t have to take the normal classes」非常に良いですね。リップシンクと口の動きが非常に正確であることがわかります。
別の例です。「I would like to say a huge thank you to NYU’s chairman of the board of trustees Bill Berkeley and all the trustees and members of the board NYU’s president Andrew Hamilton Provost Katherine Fleming and the faculty and alumni here today」ここで一時停止します。これは1分以上の長いジェネレーションなので、オーディオの長さに応じて確かに長い出力を生成できます。彼女の歯に不気味な点があることに注意してください。また、彼女の頭と体は同じ位置に固定されたままなので、Omnihumanのような他のアニメーターほど流動的または自然ではありません。ただし、これはオーディオにかなり正確にリップシンクします。
別の例です。「Not a single one of us here today has done it alone we are each a patchwork quilt of those who have loved us those who have believed in our futures those who showed us empathy and kindness or told us the truth」非常に良いですね。オーディオを入力するだけでなく、あなた自身の顔を動かして様々な表情を含むビデオを入力することもでき、その動きを画像にマッピングします。いくつかの例を見てみましょう。ここでは、これらの画像すべてが、顔を動かし、話し、これらすべての表情を持つ同じ参照ビデオでアニメーション化されていることに注意してください。このデモにはオーディオがないので、これは人の顔の動きをこれらの画像にマッピングするだけです。
話したり頭を動かしたりするだけでなく、まばたきや唇をすぼめたり、異なる方向を見たりするなど、他の顔の動きや表情も転送できます。これはこれらの例で見ることができます。これは新しいキャラクターにあらゆる種類の表情を転送できる非常に多目的なツールです。オーディオクリップでリップシンクを行ったり、参照ビデオの顔の動きを転送したりする方法を示しましたが、この2つを組み合わせることもできます。
いくつかの例を見てみましょう。左側は参照ビデオです。このAIはこの参照ビデオの頭と顔の動きを取り、別のオーディオクリップでキャラクターもリップシンクさせます。それはこのようになります。「Truth be told uh I never graduated from college and uh this is the closest I’ve ever gotten to a college graduation today I want to tell you three stories from my life that’s it no big deal just three stories」
別の例です。「Reed College at that time offered perhaps the best calligraphy instruction in the country throughout the campus every poster every label on every drawer was beautifully handcalliggraphed because I had dropped out and didn’t have to take the normal classes」
これを以前紹介したHelloやEcho Mimicなどの他のリップシンクツールと比較すると、右端のこの新しいものがリップシンクでより優れていることに注意してください。「Dogs are sitting by the door」「Dogs are sitting by the door」これは、彼女がオーディオを話すときにはるかに表情豊かに見せます。
別の例では、この新しいものでは頭と体も非常に自然に動くため、全体的により現実的に見えます。リップシンクツールを比較する代わりに、これをExpportraitやAny PortraitやLive Portraitなどの顔アニメーションツールと比較すると、再びこの新しいものがはるかに優れていることに注意してください。この新しい方法だけが、エラーなく一貫して参照ビデオの動きを転送できました。
別の例もあります。このツールと先週紹介した他のAIツールを使えば、誰でも自分自身の演技のビデオを録画し、その動きを写真だけで他の人に適用できるようになりました。これは多くの可能性を解き放ちます。ページの上部にスクロールすると、GitHubリポジトリをリリースしていますが、コードはまだ公開されていません。近いうちにリリースされることを願っています。詳細を読むためにこのメインページへのリンクを説明欄に記載します。
また今週、MetaがLlama 4をリリースしました。これは驚異的です。Llama 4ファミリーには3つの異なるモデルがあります。最大のものはBehemothと呼ばれ、なんと2兆のパラメータを持っています。中サイズのバージョンはMaverickと呼ばれ、4000億のパラメータを持っています。これもまだ巨大です。そしてLlama 4 Scoutは109のパラメータを持ち、これは1000万のコンテキストウィンドウを持っているため素晴らしいです。
コンテキストの長さは、基本的にプロンプトに一度にどれだけの情報を入れることができるかということです。例えば、GoogleのGemini 2.5 Proは100万トークンのコンテキストウィンドウを持ち、O3 01とClaudeは20万のコンテキストウィンドウを持っています。これはGemini 2.5の10倍、OpenAIのモデルの50倍の情報を取り込むことができます。これは非常に印象的だと思うかもしれませんが、どれだけの情報を取り込めるかは重要ではありません。重要なのは、モデルがその情報をすべて正確に記憶して処理できるかどうかです。これについては後でもう少し話します。
下にスクロールして彼らが公開したベンチマークスコアを見ると、これは非常に良く見えます。Gemini 2やDeepseek V3やGPT-4oなど他のモデルと比較して、すべてのカテゴリーでそれらを上回っていることに注意してください。でも面白いですね、なぜGemini 2.5やGPT-4.5、さらにはGrock 3やClaude Sonnet 3.7を含めなかったのでしょうか？うーん、とにかく再び下にスクロールすると、彼らが公開した他のベンチマークスコアがあり、これらも非常に良く見えます。
本当にそうなのでしょうか？Fiction Live Benchなどの独立した評価者を見てみましょう。これはAIモデルが非常に長い物語を覚えて処理する能力をテストします。ここの上部は物語の長さです。12万の最長物語の長さを見ると、Gemini 2.5 Proが現在最高で、驚異的な90.6ポイントを記録しています。長い物語といえば、Llama 4 Scoutがそのリーダーボードでどこにランク付けされるかを見るのも良いでしょう。これは業界をリードする1000万のコンテキスト長を持っているため、多くの情報を取り込むことができます。
それでは下にスクロールしてLlama 4 Scoutを探してみましょう。おや、これはかなり恥ずかしいですね。27.3ポイントを記録しています。これらのモデルの中で最も長い1000万トークンのコンテキストウィンドウを持っているにもかかわらず、長い情報の処理では最悪のスコアでした。LM Arenaリーダーボードを見てみましょう。ユーザーが異なるAIモデルをブラインドテストできるものです。Llama 4がどこにあるか見てみましょう。上位3つのスポットやトップ5やトップ10にもありませんね。これを追加しましたか？Llama 4はどこにあるのでしょう？
おやまあ、Llama 4 Maverickはここでずっと下の32位にあります。Deepseek 2.5よりも下です。これはバージョン3ですらありません。Claude 3.5よりも下です。これは3.7でさえありません。そしてArtificial Analysisによる別の独立したリーダーボードを見ると、Llama 4はここの下にあります。そして少し下にスクロールすると、1000万トークンを誇るLlama 4 Scoutはこのリーダーボードでさらに下にあります。
結論として、Llama 4はちょっと残念な結果です。試してみることはできますが、数回プロンプトを試した後、主要なモデルほどパフォーマンスが良くないことにすぐに気づくでしょう。これはMetaにとって大きな敗北です。AIレースでは本当に後れを取っているようです。
他のニュースでは、ChatGPTがアップデートを受けました。「ChatGPTのメモリがあなたの過去のすべてのチャットを参照し、よりパーソナライズされた応答を提供できるようになりました。以前に保存されたメモリに加えて、過去のチャットを参照し、より関連性が高く有用に感じられる応答を提供できるようになりました。」
ChatGPTに行くと、ここでアイコンをクリックし、設定をクリックし、パーソナライゼーションでメモリをオンまたはオフにするオプションが表示されるはずです。そしてここには、AIがあなたの過去のすべての会話を参照することを許可または禁止する別のトグルがあります。両方をオンにしておくと、次のようなクールなことができます。「あなたが私について知っていることに基づいて、私を説明してください」と尋ねてみましょう。エンターをクリックして、どんな恐ろしいことを教えてくれるか見てみましょう。
「私たちの会話に基づくと、あなたは特にNext.jsとReactに精通したウェブ開発に深く関わっている人のように見えます。」過去に確かにNext.jsのコードについて助けを求めるプロンプトをしました。また、p5.jsを使ってコードやシミュレーションを作成してもらいました。これは私のO3 Miniビデオ用でした。そして私の好奇心は医療シナリオにも及んでいます。医療に関するいくつかの質問をプロンプトしました。これは私が持っていた会話に基づいてかなり正確です。私はより深い会話をしていませんでした。家族や関係や財政などの個人的な詳細を開示していません。もっと情報を与えれば、この答えはさらに衝撃的なものになるでしょう。
この強化されたメモリ機能は現在、ChatGPT PlusとProユーザーのみが利用できることにも注意してください。無料プランを使用している場合、これにアクセスできない可能性があります。また、より厳しいAI規制を持つEUの誰も対象外です。
これが今週のAIにおけるすべてのハイライトです。これらすべてについてあなたの考えをコメント欄で教えてください。どのニュースがお気に入りで、どのツールを試すのが最も楽しみですか？いつものように、私はトップのAIニュースとツールを探して、あなたと共有していきます。この動画を楽しんでいただけたなら、いいね、共有、登録をお忘れなく、そして今後のコンテンツもお楽しみに。また、毎週AIの世界で起こっていることすべてをYouTubeチャンネルでカバーすることはできないので、AIで起こっていることすべてを本当に最新の状態に保つために、私の無料の週刊ニュースレターに登録してください。そのリンクは説明欄にあります。視聴ありがとうございました。次回お会いしましょう。