私は間違っていた – AIビデオは狂っている(Veo 3を甘く見てはいけない)

AGIに仕事を奪われたい
この記事は約14分で読めます。

8,341 文字

I was wrong - AI video is nuts (don't sleep on Veo 3)
I severely underestimated Google's Veo 3 model. The output quality is insane, we need to talk about this...Thank you Ima...

私はちょうどGoogle IOについての動画を作ったのですが、何かを見落としていました。そのビデオモデルは平凡だと思っていたのです。私は間違っていました。
ワンショットでこれってかなり狂ってますよね?つまり、私はこれを些細なことのように生成しただけなんです。それでも現在これらを使うのに月額250ドルかかります。そしてUIはゴミで、使うのがめちゃくちゃ煩わしいです。
しかし、V3から得られる品質は私が思っていたよりもはるかに優れています。私のテストは悪かったのです。十分に調べていませんでした。そして私がこの動画を作っているのは、より良くカバーしなかったことで間違っていたからでもありますが、実際にとても、とても楽しく遊べることがわかったので、皆さんと共有したかったからでもあります。
とはいえ、私はすでに250ドルで得られるクレジットのほとんどを使い果たしてしまい、もっと欲しくなっています。では、今日のスポンサーから少し休憩して、それからすぐに本題に入りましょう。
私は長い間ウェブ開発者をやっているのですが、正しく設定するのが最も煩わしいものの一つが画像です。本当に、こんなに長い間これと戦い続けているなんて信じられません。
実際にこれらの問題を解決するために自分の製品を作ろうと思っていたのですが、その時今日のスポンサーであるImageKitを発見しました。そして、もっと早くこの人たちのことを知っていればよかったと思います。彼らはとても優秀です。画像のリサイズから変換、ビデオエンコーディング、さらには背景の除去まで、すべての問題を解決する画像とビデオのAPIです。
かなり狂っています。おそらくこれを実装するのは本当に複雑だと思うでしょう。私も確実にそう思っていました。それから彼らの画像変換APIを発見したのです。すべての主要なJavaScriptフレームワーク用のSDKがあります。ちなみに、本当に良いReact用のものがあります。それについては後で見てみましょう。しかし、バニラで行く場合がいかに使いやすいかを見せたいと思います。
デプロイメント用のURLエンドポイントがあります。次に、URLの一部として変換を与え、最適化したいアセットへのパスを与えます。これらのアセットは、S3互換のどこからでも、また彼らが連携している他のいくつかのプロバイダーからも取得できます。または、もっと簡単なことができます。
実際の元の画像の完全なファイルURLを与えるだけです。つまり、すでにどこかに持っていて、より良い画像解像度や変換された画像、最適化された画像を提供したい場合、自動透かしなど、やりたいことが何であれ、コードベース全体でURLを変更するだけです。比較的シンプルです。他の場所よりもここで設定するのがどれほど簡単かは、ちょっと狂気じみています。
そして、もしそれが単なる画像変換だけだったら、それもクールでしょうが、彼らはもっと先に進んでいます。同じコマンドがすべてビデオでも機能します。つまり、ビデオを取って、URLに変換を入れるだけでその解像度を変更できます。同じ方法で、与えられたビデオのサムネイルを自動的に作成できます。与えられたユーザービデオからサムネイルを取得するのがどれほど煩わしいかご存知ですか?私は今取り組んでいるいくつかのことにこれを使うつもりです。冗談ではありません。
背景を除去した後に特に便利な、画像を際立たせるためのレイヤーやグラデーションなど、すべての派手なものを追加することもできます。これもすべて組み込まれています。SDKをお見せすると約束しました。これです。実際にこれほどシンプルなのです。Reactアプリで最適化された方法で画像をレンダリングするために行う必要があるのはこれだけです。
NextJSの画像コンポーネントがビデオでも機能すればいいのにと思ったことはありませんか?私はあります。そしてここではそれが組み込まれているだけです。見れば見るほど、私は圧倒されます。あなたもそうなると思います。今日soy.link/imagekitで彼らをチェックしてください。
そして、先ほど明確でなかった場合のために言っておきますが、私はGoogleから特別な待遇を受けていません。事前の連絡もありませんでした。彼らは私にお金を払っていません。これは単に私がより多く使ってみて、間違っていたことに気づいただけです。そして、自分で発見し始めた直後にV3がいかに優秀かを分析してくれたArtificial Analysisの友人たちと話したことでもあります。彼らのビデオ生成の全般的なリーダーボードを粉砕しました。他のすべてを完全に圧倒したのです。
Soraよりもはるかに優れています。私が物事をより多く比較するようになった今、Soraはただ悪く感じられます。そして音声面は実際にかなり良く、出力をはるかに魅力的に感じさせます。ビデオ1秒あたり50セントで価格設定されており、これは前のモデルと同じ価格ですが、音声付きビデオの場合は1秒あたり75セントまで上がります。
彼らのベンチマークは音声なしのビデオだけです。なぜなら、これまでにこのようにビデオと音声を同時にできる他のモデルがなかったからです。結果は完全に狂っています。私は昨日それでたくさん遊んで、私の意見では非常に魅力的なものをいくつか生成しました。これは私が最初に出したもののひとつです。
私のように速くなりたいですか?T3 chatをチェックしてください。
それが正しく行ったさまざまなことの量は馬鹿げています。シーン間をうまく転換しました。被写体をうまくフォーカスイン・アウトさせました。彼らの声と顔を完璧に同期させました。再びシーンを変更しました。それから私が言うように言ったことを言う素晴らしいエフェクトでテキストをレンダリングしました。
手さえもしっかりしていました。信じられないほど良い仕事をしました。これほどうまく出てくるとは思っていませんでした。他の人がそれでデモをしているのを見て、「待って、そんなにできるの?」と思ったのです。私はもっと遊んでみました。通り抜けなければならない多くの境界がありました。最大のものは、とても悪いFlowウェブサイトでした。
それがどれほど悪いかについてはすぐに説明します。私がまだ金髪と口ひげを持っていた頃の私のように見えるようにプロンプトしようとしていたのですが、Primeのように見えて出てきました。しかし別のテストでは、これを8回くらい試してみて、これが私ができる最善でした。何かが最初の静止画をひどく見せました。なぜそうなのかわかりません。
残りはその問題がありませんでした。再生すると問題ありませんが、この一つの詳細に気づくでしょう。T3 Chatでのチェックアウト時にコードVEOを使って1ヶ月無料。ええ、テキストは得意ではありません。試しましたが、得意ではありません。レンダリングするテキストの量は非常に少なくする必要があります。そして字幕を入れないように言っても、時々入れてしまいます。
そこに含まれている無料月コードは機能しましたが、私たちはすでにそれらをすべて使い果たしています。しかし、同じコードVOを使って最初の月をたった1ドルで取得できます。つまり、T3 Chat上のすべてのモデルを最初の月は1ドルで使用できます。かなり良い取引だと思います。通常は月額8ドルですが、それでも試してみてください。
それは無期限に実行されますが、新規顧客のみです。過去に購読したことがある場合は、それを取得するためにキャンセルしようとしないでください。そのようには機能しません。とにかく、しかしより一般的な問題、そして私がこれによく遭遇したのは、それが常により悪いV2モデルにフォールバックすることです。
私は先ほど、Uncle Bobがやるようなもののような、バスローブでの愚痴を生成しようとしていました。私が欲しいものを説明するプロンプトを与え、送信を押してから、品質オプションを品質からV3の実験的音声付き最高品質に変更するのを忘れていたことに気づきました。そして何かを送信するたびに、それはリセットされます。そしてそれを使った他の何かをクリックしても、ちょうどクリックしたのでない限りリセットされます。これは煩わしいです。
また、ここで私が間違ったのは、フレームからビデオを行い、保存したフレームを与える時、選択したものをまだ使用すると仮定したことです。なぜなら、材料からビデオを行い、開始する何かを選択し、V3を選択してそれを送信しようとすると、失敗するからです。ここの角に書いてあり、あなたに見せるためにはフルスクリーンにする必要があります。
この機能と互換性のあるモデルに切り替えています。再度送信して確認するか、詳細については設定を確認してください。設定のどこを確認すればいいのか教えてほしいです。どの設定を確認すればいいのかさえわかりません。
これを設定しようとしていた時に遭遇した別の楽しいことを思い出しました。写真をアップロードしたかったのです。元々はできませんでした。彼らは今朝のようにこの変更を行いました。それで、自分の写真があって、それを私の紹介を生成するために使いたかったのです。それでクロップボタンを押して、そうするように言いました。ここに1分座ります。待ってから、このエラーが出ます。
このアップロードは私たちのポリシーに違反する可能性があります。別の画像で再試行するか、フィードバックを送信してください。まあいいでしょう。素晴らしくはありませんが、まあいいです。チャットは私が有名すぎるからかもしれないと理論化していました。それがまさかそうであるとは思いませんでした。それで、ランダムな男性でGoogle画像検索をして、ランダムな男性の写真を撮って、代わりにそれをアップロードしました。そしてここで見ることができるように、うまく機能しました。
それから誰かが、自分を180度回転させて逆さまにしたらどうなるかという面白いアイデアを持ちました。それを試してみましたが、失敗しました。それで私は自分を取って顔をぼかしました。そしてそれは機能しました。顔をぼかすだけで機能するようになりました。しかし、その結果は面白かったです。なぜなら、最初のフレームを与えるフレームからビデオを使わなければならず、音声をしませんでした。そして、ここの下部でプロンプトが指定しているにもかかわらず、字幕を含めないでください。
音声を含めることを忘れました。字幕のみを含めました。また、私を多少インド人にして、私が望んだことは何もしませんでした。煩わしいです。さらに煩わしいのは、これらの生成の各々が150クレジットを要し、250ドルのサブスクリプションで1,200クレジットを得ることです。つまり、80回の生成を得て、通常は一度に一つではなく、一度に二つを行います。
つまり、デフォルト設定で効果的に40のプロンプトを得ます。そして、V2にフォールバックさせるという間違いを犯した場合、理由もなく多くのトークンを無駄にしただけです。煩わしいです。非常に煩わしいUXです。そして、私はまだホームページを見せていません。これは私が最近経験した中で最も使用不可能なものです。
そして、悪いソフトウェアを使うのが私の仕事のようなものです。とても悪いです。これがそれがあるデフォルトの状態です。そこから何も見つけることができません。ありがたいことに、彼らはこのボタンを追加しました。ちなみに、まだ何も生成していない時は、ひどく壊れます。しかし、それを通り抜けて開始できるようになると、これがあります。これはそれほど悪くありません。
それからシーンビルダーに行くと、再び悪くなります。シーンに追加ボタンがあります。それで、これを拡張したい場合、この紹介を少し長くしてみましょう。ああ、また楽しい事実ですが、シーンビルダービューで音声を聞くことはできません。ここで何が起こっているかを聞く方法がありません。物事を聞くために他のビューに戻らなければなりません。
しかし、覚えている限り、これの最後に奇妙で気まずいような音があったと思います。それを聞くために他のビューに戻りましょう。私はちょうどGoogle IOについての動画を作ったのですが、何かを見落としていました。そのビデオモデルは平凡だと思っていました。私は間違っていました。私は、ええ、最後の奇妙な息遣いです。
クールです。そこで止めます。それから私たちはそれを拡張して、再び正しいモデルにいることを確認します。なぜならそれはこれが拡張しようとしているVO3クリップであるにもかかわらず、V2に戻り続けるからです。比較でどれほど悪いかを見せるために、それを試してみたいくらいです。この機能と互換性のあるモデルに切り替えています。再度送信して確認してください。
見てください。V2品質でさえ使用できません。高速にバンプされます。ここには多くの可能性があり、このUIがひどいために実現されていないだけです。これがすべて実際よりもはるかに悪いと私に思わせました。彼らが私たちが遊んで消費するためのより合理的な形でモデルを与えてくれればよかったのにと思います。しかし、V3はまだAPIにありません。私たちがそれを使用する方法はまだありません。
申し訳ありませんが、T3 chatはこれを追加できません。しかし、それにもかかわらず、それはただ信じられないモデルです。このスパゲッティよりも良いものを知っていますか?T3 chatです。
何ですって?皆さん、1年半前にWill Smithがスパゲッティを食べることからどれほど遠かったかを覚えていますか?Will Smithではありませんが、それは間違いなくスパゲッティが食べられています。それがすべてどこにあるかはちょっと狂っています。
Googleはクリエイティブツールや実際にパワーツール全般の作り方を知りません。彼らは十分にまともな消費者向けソフトウェアを作ります。十分にまともなインフラストラクチャを作り、生成ツールで信じられないモデルを作りますが、良いビデオエディターの作り方を知りません。信じないなら、彼らがYouTube用に作ったものを試してみてください。興味深いです。
それはしばしばFlutterアプリの良い例として引用されます。それが体験の品質にとって何を意味するかを予測できるなら、しかしここのモデルはとても良いです。そして再び、私が興奮しているのは人々がこのツールで何をするかです。しかし私はまた少し恐ろしくもあります。なぜならこれはいくつかのiPhoneビデオよりも良く見えるからです。
あなたの身元を確認することがはるかにスケッチになったようなことを見ています。なぜならCoinbaseであなたのアカウントを盗もうとしていて、IDに対する顔スキャンで私が実際に私であることを証明するために、頭を左右に傾ける必要があるものをしなければならない場合、私が持っているあなたの写真を取ることができます。
これらのモデルの一つに投げ込んで、「人がカメラに向かって見ます。彼は頭を左に傾けます。彼は頭を右に傾けます」と言えば、それはただ機能します。そして、誰かの身元を偽造するために使用できるものがあります。または、祖父母の情報を持っているランダムな子供の写真を撮って、彼らと偽のFaceTime通話をして、おそらくすべきでないことをさせることができます。
ここには非常に多くの恐ろしい用途があり、彼らが制限的である理由を理解しています。私が有名すぎるために顔をアップロードすることを制限されているのは残念です。しかし理解しています。このようなもので何ができるかの意味合いは恐ろしいですが、それはまた本当に魅力的でもあります。私が他の人が生成したのを見たものや、私が自分で生成したものでさえ、信じられないほど良かったです。
これは、生成されたランダムなものを見ることができる彼らのflow TVです。ああ、実際の音声の代わりにそれでクリンジミュージックを生成しています。ああ、V2でも使用しています。V3のみにフィルターできますか?V2は悪いモデルで、V3は画期的なものだからです。神よ、これらは悪夢の燃料です。子供を台無しにしたいなら、数時間Flow TVに置いておくだけです。
すでにAI生成されているYouTubeのそれらの呪われた子供向け漫画のようなものが、はるかに怖くなりました。ああ、これは私がカバーしたかった魅力的なものです。なぜなら私がどの程度間違っていたかの範囲に気づかなかったからです。私が思っていたよりもはるかに良いからです。特に人間との音声に関するものは、私が思っていたよりもはるかに良いです。
ええ、人々はそれにスタンダップをさせており、それもそれに驚くほど良いです。それで、私は先日動物園に行きましたが、そこにいたのは犬一匹だけでした。それはシーズーでした。
実際にそこでジョークを作りました。そして、このモデルを使って拡張する能力を持つか、声がどのように聞こえるべきかを追跡し続けるか、フレームを取って生成し続けることができるようになったら、文字通り200ドルほどで完全なスタンダップセットを作ることができることを想像できます。ちょっと狂っています。
ここでの可能性は狂気じみています。ジョークが本当に良かったとか何とか言うつもりはありませんが、それがこのようなことを全くできるという事実が狂気じみています。これが何をするかは、よく制作されたビデオがAI生成されているように見せることになるのではないかと、私はほとんど恐れています。もしそれが安っぽい携帯電話のビデオでなければ、人々はそれをそれほど信頼しないでしょう。
これは本当に、何が現実で何がそうでないかについての私たちの信頼ベクトルを変えるでしょう。私に送られた与えられたビデオが本物かどうかを今どのように見分けることができるかさえ、私はもうわかりません。なぜならこのようなものは実際にそれほど魅力的だからです。そして誰かがこのモデルのより制限の少ないバージョンを作るか、オープンソースの世界やstable diffusionでこれに近いものを得るなら、私は怖いです。私は本当に怖いです。
あなたは私にぼかした写真で再び生成しようと言っています。より具体的にします。髭を剃った白人男性。彼が話している音声を含めることを確認してください。まだV3であることを確認してください。ええ。クール。どうなるか見てみましょう。互換性のあるモデルに切り替えています。
それで、高速すぎます。品質でさえありません。ええ、できません。V3では今のところテキストからビデオしかできません。これは私がかなり確信しているのは、このモデルが何をできるかの性質のためだけの安全性に関することです。そして私たちが今見たように、そして2と3の間のギャップのより多くの例を示すことができますが、それは少し馬鹿げています。
これは私が偶然2でやったものです。音声が存在しないことがわかります。そこでテキストは大丈夫でしたが、字幕で少し馬鹿げたことになりました。これは本当に面白かったです。ボリウッド映画のように感じます。T3 chatが画面にフェードインする方法がとても面白いです。
ええ、これが私が気にしなかった理由です。なぜならビデオモデルのどれも、その時点からこの時点まで重要な改善のように感じられなかったからです。UXがいかに悪いかと特に、これがいかに馬鹿げたことになったかに気づきませんでした。
アップスケールボタンを押しました。なぜならダウンロードする時、ダウンロードしたい形式を選択できるからです。フリーズしていなければ、そこで少しフリーズしていましたが、アニメーションGIF、オリジナル、またはアップスケールを選択できます。アップスケールは機能しません。これがアップスケールされるのを1時間ほど待っていますが、永遠にハングしています。
これには数分かかる可能性があると書いてありますが、数分って何分ですか、Google?1時間経ちました。
ええ。どう思いましたか?これは興奮するものですか、それとも怖いものですか?次回まで、平和な皆さん。

コメント

タイトルとURLをコピーしました