GPT-5、実用的な動画ツール、そして760万ドルを稼ぐAIアバター

AIニュース
この記事は約20分で読めます。
GPT-5, Actually Useful Video Tools, and AI Avatars generate million
Here's everything you missed this week in the world of AI!Learn more about LTX Studio here: Discover More:🛠️ Explore AI ...

AI界隈で楽しい一週間

AI業界では楽しい一週間でした。GPT-5の登場時期に関する初の情報を得ることができ、Googleからは新しいAI検索エージェントが発表され、さらに実際に人間よりも優秀な売上を記録するAI営業担当者も登場しました。これらすべてについて詳しく見ていきますが、まずはMidJourneyが初の動画モデル「V1」をリリースしたという事実から始めましょう。

このモデルが他の動画モデル、たとえばV3やKlingなど、さらには今回の動画で後ほど話すモデルたちと比べて大きな飛躍を遂げたとは必ずしも言えませんが、もしあなたがMidJourneyの美学を本当に愛しているなら、これはそのMidJourneyの美学を持った動画モデルなのです。

MidJourneyの動画モデルV1の使い方

MidJourneyのアカウントをお持ちの方は、ログインして「作成」をクリックすれば使用できます。これは画像から動画への変換モデルで、まだテキストプロンプトだけで動画を作成することはできません。まずMidJourneyで画像を作成し、その画像が生成されたら「アニメート」ボタンをクリックしてその画像をアニメーション化します。

例として、私がいつものように月に向かって遠吠えする狼の動画を生成したかったので、月に向かって遠吠えする狼の画像をいくつか生成させました。画像が生成されると、新しい「アニメート」ボタンが表示されることがわかります。生成された4つの画像のうちどれでも選んで「アニメート」をクリックすると、その動画がアニメーション化されます。

私は画像の一つを選択してアニメーション化させたところ、実際にそのアニメーションの4つのバリエーションが作成されました。つまり、一つの画像から始めて、選択できる4つの異なる動画が作成されるのです。これは確実にもっと漫画的な見た目ですが、その仕上がりにはかなり感動しています。

このMidJourneyアニメート機能のもう一つの本当にクールな点は、実際に動画を延長できることです。これらの動画の一つの見た目が気に入った場合、追加のプロンプト詳細を与えて手動で延長することも、「自動延長」をクリックして自動的に5秒追加することもできます。動画が自動的に継続されるのです。

「手動延長」をクリックしてみると、上部にプロンプトボックスが開かれるのがわかります。これはおそらく動画の最後のフレームで、「狼が振り返って逃げていく」といったプロンプトを与えます。これを送信すると、理論的には、私が延長したばかりの動画から続く動画が得られるはずです。狼が遠吠えした後に逃げていくという内容になるでしょう。

約1分後、元の動画の延長版である4つの動画を入手しました。最初に月に向かって遠吠えする狼が見え、その最後の5秒間で、まさに要求した通りに狼が丘から飛び降りて逃げていく様子が見えます。

ローラースケートの猿テストと実写写真のアニメーション

いつものローラースケートの猿のプロンプトのテストもしたかったのですが、実際にローラースケートの猿を生成するのには苦労しました。最初の4つの例、再試行したときのこれらの例、そして最終的にこれら4つの例を見てください。最終的に諦めて、猿の口からタバコが落ちているように見えるこの画像をアニメーション化させました。

得られた4つのアニメーションは、過去のローラースケートの猿動画で目指していたような現実感は同じではありませんが、漫画版としてはほとんどがかなり良く見えます。

MidJourneyの動画モジュールのもう一つの本当にクールな点は、実際に実際の写真をアップロードできることです。私がここに立っている実際の写真をアップロードし、「男性がおバカな小さなダンスをする」というプロンプトを与えました。すると、その写真から私がおバカなダンスをしている動画が作成されました。この動画が間違いなくお気に入りで、実際の生活で私が踊っている様子をおそらくこんな風に見ることになるでしょう。

MidJourneyの驚異的な現実感

この新しいMidJourney動画モデルの能力を本当に見たいなら、最適な場所はMidJourneyの探索ページに行くことだと思います。探索ページのほとんどが今は動画になっています。皆がこれらの動画生成に夢中になっているからです。本当にクールな生成物に出会うことは間違いありません。

MidJourneyは極端な現実感が本当に得意で、これらの動画の一部は絶対に本物の動画のように見えます。Python 1265から見つけたこの動画は超現実的に見えます。こちらも私には信じられないほど現実的に見える別の動画です。MidJourneyから得られる動画の現実感には本当に感動しています。

明らかに、実際の画像から始めてそれをアニメーション化するか、MidJourneyに非常に現実的に見える画像を生成させてからそれをアニメーション化するかのどちらかです。

私が好きなのは、実際の生活では決して見ることができないものがAIによって生成された動画を見ることです。それが私を本当に興奮させるものです。女性がカメラに向かって振り返る中、都市の上にやってくるこのモンスターのようなものや、逆さまのタイプライターでタイピングしているこのトカゲのような生き物など。私はその色彩が大好きで、これが私が話していたMidJourneyの美学を持っています。

そして、カメラに向かってくるこの何かや、ここで踊っているこれらの素晴らしい奴ら(それが何であれ)もあります。1940年代のような奇妙なエイリアンの実験のように見えるこの物体もあります。こちらは間違いなく悪夢を与えるものです。どういたしまして。そしてもちろん、200フィートの高さのChris Farleyが都市を破壊している様子も。残念ながら、これは実際の生活では決して見ることができないものですが、AIが私たちのためにそれを実現してくれます。

HeyGenの商品配置機能

今週、HeyGenから非常にクールな新機能が登場しました。彼らはそれを「商品配置」と呼んでいます。商品の写真をアップロードし、アバターを選択し、スクリプトを入力すると、画像の人物がアップロードした商品を持ち上げて話している広告ができるのです。実際にかなりクールで、すぐにテストしてみるべきだと思います。

そのために、「Glacios」というガラスの破片シリアルを作成しました。とてもクランチーです。これが私が持ち上げて観衆に販売する予定のボックスショットです。HeyGenに入ると、「商品配置」というオプションがあります。商品配置をクリックすると、商品自体の写真をアップロードするよう求められるので、ここでGlaciosのボックスをアップロードできます。

次にアバターをアップロードするよう求められるので、私自身の写真をアップロードします。これが営業担当マットです。「次へ」をクリックして「画像を結合」を選択すると、理論的にはGlaciosのボックスが私の手に置かれ、私がそのピッチマンになれるはずです。

選択できるオプションが提供されます。私とまったく同じように見えるとは言えませんが、デモの目的としては十分に近いです。使いたいものを選択して「スクリプトを追加」をクリックし、実際に言わせたいスクリプトをアップロードするか、音声を録音してリップシンクさせることができます。

最終結果は以下のようになります:「漫画よりも早く子供たちをベッドから起こすものを知っていますか?大きな一杯のGlaciosです。そうです、シリアルボウルの中にガラスの破片が入っているのです。朝食は一日で最も重要な食事だと言われていますが、かみそりのように鋭いフレークに太陽光が反射する光ほど『目を覚ませ』と言うものはありません。確かに学校からまた電話がかかってきましたが、私の子供たちには根性があり、おそらく内出血もありますが、でもそれは完全でバランスの取れた朝食の一部です。」

テキスト音声を使用すると少し単調になりますが、実際に自分で録音するバージョンをテストすることもでき、それがリップシンクされます。かなり楽しく、クールな機能だと思います。悪用される可能性も大いにあると思います。有名人の写真を撮って、そこに自分の商品を入れて、その有名人が自分の商品を支持しているふりをすることを止める人は誰でしょうか?

今のところ誰も騙されないことは間違いありませんが、これが本当に良くなるまでどのくらい先のことでしょうか?正直なところ、おそらくかなり近いでしょう。

Higsfield AIのCanvas機能とLTX StudioのV3統合

Higsfield AIの会社が「Canvas」という新機能をロールアウトしました。これは彼らの最先端の画像編集モデルです。ピクセル完璧なコントロールで商品を画像に直接ペイントできます。彼らのデモ動画はやや誤解を招くものだと感じています。動画を撮って動画の一部を編集しているように見えますが、実際にはそうではありません。

これは画像エディターですが、画像を編集して、編集の最終版が出てきた後で、事後的にアニメーション化することができます。動画をハイライトして動画のように見えるものを編集しているように見せているのが、少し誤解を招くものだと感じています。

Higsfieldにアクセスすると、画像をアップロードして画像を編集できます。例えば、この魚の尻尾をペイントできます。この魚がパンツを履いていないのは少し粗野だと思うので、魚のパンツがどのようなものかを知りたいです。尻尾をハイライトして「魚に青いジーンズを着せる」と言って生成すると、魚のパンツがどのようなものかのオプションが得られます。

そうですね、おそらく魚のパンツはそのようなものでしょう。そのものが本当に気に入りましたが、魚はどうやって靴を履くのでしょうか?パンツを履いた魚ができたので、この時点で動画をクリックして、パンツを履いた魚を実際に動画に変換できます。最終的に新しいパンツで水に戻って泳ぎ回るパンツを履いた魚がどのように見えるかがこちらです。

これがChat GPTがパンツを履いた魚がどうあるべきかと考えたものであることを考慮すると、Higsfieldはかなり良い仕事をしました。

今週、LTX Studioからもニュースがありました。今日の動画のスポンサーでもありますが、実際にLTX StudioプラットフォームにV3をロールアウトしました。LTX Studioに馴染みがない方のために説明すると、これはオールインワンの動画制作プラットフォームです。完全なショットバイショットのストーリーボードを作成でき、その後、すべてのショットがアニメーションに変わって完全な動画を作成します。

画面上のショットから気づいたかもしれませんが、自分自身や知り合いをこれらの動画に注入することさえできます。これらに自分の顔をトレーニングできるのです。V3に馴染みがない方のために説明すると、これは動画と一緒に行く効果音を実際に生成できるGoogleの新しいAI動画モデルです。現在利用可能な最も強力な生成動画モデルとほぼ言えるでしょう。そして今、それがLTX Studioで利用可能になりました。

モーション生成に入ると、下部の動画セクションの下で、LTXが開発したモデルやGoogleが開発したV2またはV3を使用するオプションがあることがわかります。楽しみのために、プロンプトを与えてみましょう:「森の中の兵士がビッグフットとハイファイブして『グッドゲーム、グッドゲーム』と言う」完璧です。

LTX Studio内でV3を使用する能力により、プロンプトだけでより豊かで映画的なストーリーテリングのロックが解除されます。スクリプト、ストーリーボード、ビジュアル、オーディオを生成して、すべてを単一のプラットフォームでまとめることができるオールインワンプラットフォームをお探しなら、LTX Studioが答えかもしれません。そして今はV3があるので、説明欄のリンクを使ってLTX Studio内でV3を試すことができます。このビデオをスポンサーしてくれたLTX Studioに本当に感謝します。

YouTube ShortsへのV3統合とその懸念

AI アートと動画について話しているので、フランスのカンヌライオンズで言及したい簡単なことがいくつかあります。YouTube CEOのNeil Mohanが、GoogleのV3が実際にShortsに登場することを述べました。人々がV3を使用してYouTube上で直接ショートフォーム動画を直接生成できるようになるのです。

これが何を意味するかわかりますね。YouTube Shortsはもうすぐさらにクソまみれになろうとしています。誤解しないでください。動画やその他のことで私を助ける創造的なツールとしてAIを使用することは大好きです。しかし、人々がYouTubeに入ってプロンプトを入力するだけで、人々のフィードに押し出されるジャンクショートが生成される未来については懸念があります。

AI生成スロップという用語がないのでそう言いますが、システムをより多くのもので溢れさせる方法のように思えます。彼らが今ショートでやっているなら、これらのモデルが良くなったとき、次は長編でしょうか?人々が視聴している動画がAIによって生成されたものか、実際の人間によって生成されたものかを必ずしも気にしない長期的な未来があるのではないかという心配があります。求めているドーパミンヒットを提供してくれる限り。

YouTubeがこれをやっているのは興味深いと思いますが、この動きから反乱が起きないよう慎重に進む必要があると思います。これが本当にクールになる可能性も見えますし、本当に悪くなる可能性も見えるからです。公平に言うと、V3がショートでどのように使用されるかについてはまだそれほど多くの情報がないので、YouTubeがほとんどの人が理にかなっていると同意するスマートな方法でそれを行うことを本当に期待しています。

新しい画像生成モデルとGoogleの音声検索機能

今週、Creaという会社から「Crea 1」と呼ばれる新しい画像ジェネレーターも手に入れました。これはBlack Forest Labsとのコラボレーションなので、Black Forest LabsのFluxを使用している場合、多くのFluxモデルと同等のパフォーマンスを発揮するようです。しかし、別のAI画像ジェネレーターが利用可能になったので、すべての異なるプラットフォームをテストしてお気に入りを見つけるのが好きな方には、Creaも試してみる新しいオプションがあります。

今週、Googleから新しい検索ライブ機能という本当に興味深いアップデートがありました。これは、Googleの検索と実際に会話できる機能です。質問をしたり、アドバイスを求めたりできると、文字通りGoogleであなたのために検索を行い、クエリに対する答えと共に音声応答を返してくれます。

これはiPhoneとAndroidの両方のGoogleアプリで動作します。現在、私はiPhoneを使っていて、検索の真下に星付きの3つの小さな線のような、一番左のボタンがあることがわかります。そのボタンをクリックすると、この新しいライブ検索モードに入ります。「子供にとって最も健康的なシリアルは何ですか?」

「砂糖が少なく全粒穀物で作られたCheeriosのようなシリアルや、オーガニック食品と全粒穀物に焦点を当てたNature’s PathやCascadian Farmのようなブランドのシリアルを考慮してください。これらのオプションについてもっと情報が欲しいですか?」

ここで、実際にGoogleで情報を検索し、3つの異なるサイトを見つけて、それらのサイトから見つけたもので本質的に応答したことがわかります。間違いでした。Glaciosが最も健康的なシリアルであることは明らかに知っています。砂糖が文字通りゼロなのですから。それでも、モバイルフォンをより良い質問応答機にするかなりクールな機能です。もはや物事をGoogleで検索する必要はありません。Googleに代わりにGoogleしてもらうことができるのです。

AIの世界のドラマ:MetaとOpenAIの人材争奪戦

AI界隈のほぼ毎週のように、今週もいくつかのAIドラマがありました。まず、MetaがOpenAIから従業員を引き抜こうとしており、彼らを獲得するために1億ドルのサイニングボーナスを提供していたという事実から始めましょう。ああ、神よ、これは狂気的です。

今週、Sam Altmanが兄弟のJack Altmanのポッドキャスト「Uncapped」に出演し、これは彼らの会話から出てきた中で最も興味深い情報だったと思います:

「彼らは私たちのチームの多くの人々に巨大なオファーをし始めました。知っている、1億ドルの契約ボーナス、年間それ以上の報酬など。実際、これは狂気的です。少なくとも今のところ、私たちの最高の人材の誰もそれらを受け入れることに決めていないことを本当に嬉しく思います。」

彼はMetaとMark Zuckerbergが彼のチームメンバーを狙っていることを指していました。Sam Altmanは続けて、MetaはOpenAIを最大の競争相手と見ていると述べ、それは本当に理にかなっています。Metaは皆の注意を求めており、ChatGPTやその他のツールのようなものでは、人々がそれらのツールとより多くの時間を過ごし、より多くの人々の注意を引いており、これがInstagram、Facebook、WhatsAppのようなMetaのプラットフォームから注意を奪っているのです。

MicrosoftとOpenAIの間にもドラマがあります。どうやら彼らの関係が崩れ始めているようです。ご存知でない方のために、MicrosoftはOpenAIの49%を実際に所有しており、最新のドラマは主にOpenAIがWindsurfを買収することを中心としており、MicrosoftがGitHub Copilotを運営しているため、彼らはMicrosoftがWindsurfの部分に株式を持つことを望んでいません。GitHub CopilotはWindsurfの競合企業です。

本質的に、OpenAIはMicrosoftの製品の競合企業を買収し、Microsoftもその一部を欲しがっていますが、OpenAIは彼らがIPや技術にアクセスできることを望まないため、その一部を与えたくないのです。奇妙なことです。二つの会社間で物事が急速に奇妙になってきています

GPT-5の夏リリース予告とMiniMax M1の登場

それでは、ラピッドファイアセクションに移りましょう。

Sam Altmanは今週、別のポッドキャストにも出演しました。ただし、今度は兄弟のポッドキャストではなく、OpenAIポッドキャストです。彼らも今はポッドキャストを持っているからです。そのポッドキャストで最も興味深い質問と最も興味深い回答が出てきたのは、GPT-5について聞かれたときでした。

「GPT-5の時間枠は何ですか?いつGPT-5を見ることになるのでしょうか?」

「おそらく今年の夏のどこかでしょう。正確にいつかはわかりません。」

私がこれを録画しているのは6月で、すでに夏に入っているので、本質的に彼は今後数ヶ月以内におそらくGPT-5を見ることになるだろうと言っています。彼はまた、命名規則についてもう少し話し、’04や40、4.1、4.5、03、03 Proなどで、これらの名前がいかに混乱を招いているかを知っており、彼らはより慣習的な、次はGPT-5、その後GPT-6といったように、その命名を標準化していきたいと考えています。

エキサイティングなニュースです。おそらく今後数ヶ月でGPT-5を見ることになるでしょう。現在私たちが持っているものからどのくらい大きな飛躍になるかは誰にもわかりませんが、少なくともそれが角を曲がったところにあることはわかります。

中国のHalo AIという会社が今週絶対に出荷しました。彼らから3つの新しいローンチを得ました。MiniMax M1から始まり、これは100万トークンのコンテキストウィンドウを持つオープンソースモデルです。私の心では、これはGoogleのGemini 2.5 Proのような大規模なコンテキストウィンドウを持つものと非常に似ています。思考能力を持っていますが、オープンソースで誰でも使用し、反復することができます。

これは4560億パラメータのモデルなので、ローカルコンピューターで実行できる可能性は低く、かなり強力なクラウドGPUで実行する必要がある可能性が高いですが、繰り返しますが、オープンソースであり、それで好きなことができます。

彼らは今週、MiniMax agentも出荷しました。これは長期的で複雑なタスクに取り組むために構築された汎用インテリジェントエージェントです。彼らのデモでは「主要な芸術作品を音声説明付きで見ることができる仮想ルーブル美術館ツアーを作成してください。芸術作品の数は約10点です。UIは博物館の雰囲気に合わせて、古典的で精巧なものにしたいです」と見ることができます。

その後、フェーズ1:研究とコンテンツキュレーションから始まり、各フェーズの下に複数のステップがあるフェーズに分解されているのがわかります。フェーズ2:音声コンテンツ作成にはさらにステップがあり、フェーズ3:ウェブサイト開発が続き、フェーズ4:最終ドキュメンテーションにはさらにステップがあります。

そして、それはルーブル美術館の仮想ツアーを持つ完全なウェブサイトを構築し、画像のいずれかをクリックすると、その画像が何についてのものかの音声ガイドがあります。これは数ヶ月前にManisのようなツールから得たものと非常に似ているようですが、これはHalo AIから出てきました。

Haloはまた、Halu O2と呼ばれる新しい動画モデルも出荷しました。どうやら指示追従において最高クラスで、極端な物理学を扱い、アクロバットさえできるようです。デモで見ることができるように、それが実際に体操、ジャグリング、自転車乗りなどをする人々ができることを示すために、サーカスのイメージを使用しました。

haloai.videoで試すことができるので、これを簡単にテストしたかったのです。最初に行ったテストは、私の以前の動画の一つからのこのサムネイルを入力し、何をするかを見たかったので、テキストプロンプトなしで生成しました。これが得られたものです。最初にテキストをアニメーション化し、私の頭を動かし、おかしな顔をしますが、画像が私がおかしな顔をしているところから始まったので、何を期待しますか。元々やっていることにほぼ忠実でした。

実際に、この動画全体を通してMySpaceが一貫していることに非常に感動しました。

その後、月に向かって遠吠えする狼のテストを与え、これが得られた動画でした。再び、かなり印象的です。そして、ローラースケートの猿のプロンプトを与えたときに得られたものがこちらです。特に2年前の私のローラースケートの猿がどのように見えたかを考えると、文句は言えません。猿のようには見えず、画面上を動き回る小さなぼやけた塊でした。今これを得られるなんて、私には狂気的です。

Metaは今週、Instagramの投稿で、MetaとOakleyの間で今後のサングラスについて非常に可能性の高いコラボレーションがあることをほのめかしました。私たちはMeta AIが内蔵されたRayBanサングラスを入手してきましたが、OakleyとRaybanの親会社は同じ会社ですが、AIが内蔵されたOakleyもかなり近いうちに入手できそうです。

AIによる心疾患早期発見とその他のニュース

今週、AIに関するかなり前向きで素晴らしいニュースも得られました。AIが患者の記録にすでに保存されている既存のスキャンを使用して心疾患を検出できるようになったのです。

Mass General Brigham研究者は、米国退役軍人省と協力して、以前に収集されたCTスキャンを調べ、心血管系イベントのリスクが高い冠動脈カルシウムが多い個人を特定するための新しいAIツールを開発しました。毎年何百万ものチェストCTスキャンが撮影され、多くの場合、肺がんなどをスクリーニングするために健康な人々に行われており、どうやらこれらのスキャンすべてが、患者が実際に追加の作業を行う必要なしに心疾患の早期警告サインを見つけるために使用できるようになりました。

これのようなことを聞くのが好きです。AIが実際に現実世界の実用的で有用な人生を変える用途に使用されているのです。それは私にとって本当に素晴らしいことです。

BYU IncとUCLAの興味深い事例

終了する前に、もう2つの面白い小さな話をしたいと思います。その前に、私が最近遊んでいる最もクールなツールに本当に焦点を当てた新しい動画をいくつか作る予定であることをお伝えしたいと思います。これらの本当にクールなツールの一部の使い方をデモして、より多くのチュートリアルを作ることで、少し原点に戻るつもりです。

最近のニュース動画やこの動画で見たツールで、私がもっと深く掘り下げることを望むものがあれば、コメントで教えてください。繰り返しますが、それが今後の動画で作るスタイルだからです。

最後の2つのことです。これは私にとって本当に魅力的です。これはBYU Incから来たもので、ここにいる2人の男性が実際にAI生成の営業担当者であるライブストリームがありました。QVCホームショッピングネットワークのようなもので、ライブストリームで商品を販売していることを想像していますが、これらは商品を販売するAI生成の人々です。

AI生成の人々の前に、実際にこれらの本物の男性が物を販売していました。彼らをAI生成の人々に切り替えたとき、AI生成の人々は実際に本物の人々よりも売上が良かったのです。この6時間のライブストリームでは1300万回の視聴を獲得し、5500万人民元を稼ぎました。これは中国の通貨で、米ドルに換算すると約760万ドルになります。AI アバターが販売を行った6時間のライブストリームからです。

最後に、UCLAが卒業式を行い、この特定の学生はChatGPTを使って実際に卒業したことを示すためにラップトップを掲げて卒業を祝いました。そうですね、この男性は卒業式の間に大画面でリアルタイムでカンニングを認めているようなものです。画面上のキャプションには「UCLA graduates chat GPT」と書かれています。おそらく彼らは「chat GPT」と言いたかったのだと思いますが。

まとめ

それが今日お伝えしたことです。本当に楽しい一週間で、動画と画像生成の方法で多くの本当にクールな視覚的なもの、そしていつものように興味深いドラマがありました。もっと話してほしい他のニュースストーリーがあれば、コメントで教えてください。毎週私の机に届く何百ものストーリーをフィルタリングして、最も多くの人が興味を持つと思うものだけに絞り込むのが最善です。

私が間違った方向に向かっていると思うなら教えてください。しかし、これらは個人的に最も魅力的だと思い、AI界で最も多くの人が気にすると思ったストーリーです。楽しんでいただけたでしょうか、何かを学んでいただけたでしょうか、より詳しく知ることができたと感じていただけたでしょうか。本当にありがとうございました。次回でお会いしましょう。

今日私と一緒にオタクしてくれて本当にありがとうございました。このような動画が好きなら、必ず親指を立てて、このチャンネルをチャンネル登録してください。このような動画がYouTubeフィードに表示されるようにします。まだの方は、最もクールなAIツールと最新のAIニュースをすべて共有するfuturetools.ioをチェックしてください。素晴らしい無料ニュースレターもあります。改めて本当にありがとうございました。感謝しています。

コメント

タイトルとURLをコピーしました