
17,335 文字
AIは眠りませんが、今週は本当に目まぐるしい展開がありました。高速で素晴らしい品質の新しいビデオジェネレーター、正当なテキストでインフォグラフィックやスライドを作成できるオープンソースAI、誰でも全身のウェイフ(アバター)を作成してリアルタイムで対話できるAI、どんな参照人物やキャラクターでも超リアルな写真を作成できる新しいAI、DeepSeekの驚異的な新モデル、そしてGoogleが今までで最高のAIモデルGemini 2.5 Proをリリース、さらにOpenAIが驚くべき画像ジェネレーターをリリースしました。また、信じられないようなヒューマノイドロボットのデモなど、盛りだくさんの内容を見ていきましょう。
まず最初に紹介するのは、新しい無料のオープンソースビデオジェネレーターです。AC Videoと呼ばれ、加速型ビデオディフュージョンモデルを意味します。このモデルは、すでに最先端のビデオジェネレーターの一つであるHunyan Videoより8.5倍高速です。信じられないほど高速で、ローカル環境でのビデオ生成に最適です。これは新しい効率的なアーキテクチャを使って実現していますが、まずはいくつかのデモを見てみましょう。
こちらは1280×720、24fpsのビデオです。これは古典的なSora「東京の女性」プロンプトです。「スタイリッシュな女性が東京の通りを歩いている。彼女は黒い革のジャケットと長い赤いドレスを着ている」というプロンプトで、結果はこちらです。アーティファクトはなく、背景を歩く人々も形が歪んだり魔法のように消えたりすることはありません。これは完璧で非常に詳細な生成です。
別の例として、「60代の灰色の髪とひげを持つ男性の極端なクローズアップ」という例があります。すごくリアルで詳細で、欠点を見つけるのは難しいです。
さらに難しいプロンプトとして、「中年の悲しい禿げた男性が、カーリーヘアのかつらとサングラスが突然彼の頭に落ちてくると幸せになる」というものがあります。実際、かつらが頭に落ちると、彼は悲しそうから幸せそうに変わります。かつらが頭に落ちる物理的な様子に注目してください。これもとてもリアルで正確です。
ここには雪原を踏み分ける巨大なマンモスがいて、これもとても良い品質です。こちらは少女が左手を上げて笑う口を覆っています。唯一の欠点は、それが彼女の左手ではないことですが、手が笑顔を覆っていて、どれだけリアルか見てください。
別の例として、「雪の中で遊ぶゴールデンレトリバーの子犬たち」があり、超リアルで詳細です。こちらは別の古典的なSoraプロンプトで、「カメラは黒いルーフラックを持つ白いビンテージSUVの後ろについていき、それが急な砂利道を速度を上げる様子を追う」というものです。唯一の欠点は、車のナンバープレートがはっきり読めないことです。
こちらは「黄色のライフジャケットを着た愛らしく幸せなカワウソが自信を持ってサーフボードの上に立っている」というもので、なんと愛らしいことでしょう。これもとてもリアルです。
ここでは、「男性が部屋のマイクの前でベースを持っており、話したり歌ったりしているように見える」というプロンプトです。ちなみに、そのマイクはShure 7Bのように見えます。また、このベースには上部に4つのノブしかありませんが、弦は5本あるというのは少し変です。しかし、これはほとんどの人が気付かない微妙なエラーです。弦はまっすぐで、フレットは正確に見え、この男性がマイクに向かって歌ったり話したりする様子は超リアルです。
どのようにしてこのような高品質のビデオを生成できるのに、Hunenより8.5倍も高速なのでしょうか。その方法はこうです。まず、事前訓練された既存のビデオモデルから学習します。このモデルはビデオを生成するために複数のステップを取ります。すべてのディフュージョンモデル(画像およびビデオジェネレーターを含む)は基本的にこのようなノイズの潜在フレームから始まり、各ステップでそのノイズの一部を取り除いていき、最終的に最終的な画像やビデオフレームを得ます。
ほとんどの最先端のビデオジェネレーターは、明確なビデオを得るために十分なノイズを取り除くために複数のステップを必要とします。この新しいモデルは、基本的に既存のモデルからすべてのステップを見て、生成プロセスの最初のステップと最後のステップを見ることができ、中間のすべてのステップをスキップして学習し、最初のステップから最後のステップまで直接ビデオを生成することを学習します。
これは「軌跡ベースの数ステップガイダンス」と呼ばれ、中間のすべてのステップをスキップするように新しいモデルをトレーニングします。また、「敵対的トレーニング戦略」と呼ばれる特別な技術を使用して、事前訓練または既存のビデオモデルのスタイルに合わせて生成されたビデオの品質をさらに向上させます。
ページの上部にスクロールすると、良いニュースとしてモデルはすでにダウンロード可能です。このHugging Faceリンクで利用可能で、このGitHubリポジトリをクリックすると、インストール方法とコンピュータでローカルに実行する方法の説明が含まれています。生成時間の驚異的な違いに注目してください。Hunenが720pビデオを生成するには3,000秒以上かかりますが、この新しいモデルでは380秒しかかかりません。
次に紹介するのは、Video T1と呼ばれる素晴らしいAIです。これは基本的にビデオジェネレーターがモデルを再トレーニングすることなく、ビデオを生成する際に追加の計算を使ってより良いモデルを作成するのを助けます。つまり、モデルを再トレーニングせずにビデオ生成の見た目をさらに良くすることができます。
これは「テスト時スケーリング」と呼ばれる用語を使用します。これは、OpenAIのO3やO1、DeepSeek R1などの思考言語モデルがどのように機能するかと似ています。これらの思考モデルを使用すると、すぐに回答を出すのではなく、応答を出力する前に答えを考えるために時間と計算能力を使用します。同様に、このVideo T1も生成プロセス中に計算能力を使用して、さらに良い生成物を提供します。
いくつかの例を見てみましょう。左側はPyramid Flowと呼ばれるオープンソースモデルによって生成されたビデオですが、プロンプトは「シマウマとキリン」です。しかし、このオリジナルビデオではキリンは見えません。このテスト時スケーリング方法を追加して同じ設定で再実行すると、ビデオがはるかに正確になることがわかります。完璧ではありませんが、確かにキリンがビデオに追加されています。
別の例では、プロンプトは「タイムズスクエアでダンスするロボット」です。元のビデオ(Pyramid Flowを使用)ではダンスするロボットを処理できませんでしたが、他の設定はすべて同じままでこのテスト時スケーリング方法を追加すると、このビデオがどれほど良くなるかに注目してください。
同様の例として「サングラスをかけてプールでライフガードとして働く猫」というプロンプトがあります。元のビデオではライフガードらしくなく、サングラスも少し乱れていますが、このテスト時スケーリング方法を追加した後、猫の見た目が良くなり、ライフガードらしく見えます。
「羊と牛」というプロンプトの例でも同様です。元のビデオには牛がありませんが、この方法を使用した後は羊と牛の両方が生成されています。
この方法の良い点は、どのビデオジェネレーターにも適用できるモデル非依存であることです。ここでは別の例として、「キャンプファイヤーでギターを弾くパンダ」というプロンプトがあります。元のビデオは絶対にひどいですが、このテスト時スケーリングを使用した後ははるかに良くなります。
「雪嵐の中を歩くビッグフット」の例でも同様で、元のビデオではビッグフットに腕がありませんが、このテスト時スケーリング方法を使用した後、ビッグフットの見た目がはるかに良くなります。
「カフェでコーヒーを飲むパンダ」の例でも同様です。元のビデオでは、パンダが何をしているのかわかりません。スプーンを噛んでいるようですが、明らかにコーヒーを飲んでいません。しかし、このツールを使用し、他の設定はすべて同じままにすると、ビデオがはるかに良くなります。
簡単にその仕組みを説明すると、このテスト時スケーリング方法には2つの方法があります。1つは「ランダム線形探索」と呼ばれるものです。これはまず、プロンプトを取り、そのプロンプトの複数の画像を生成してビデオの最初のフレームとして使用します。そして各画像からビデオクリップを生成し、報酬モデルを使用して各ビデオクリップの品質に基づいてスコアを付け、最も高いスコアのビデオを最終的なビデオとして選択します。
もう1つのアルゴリズムは「フレーム探索ツリー」と呼ばれるものです。これも同様にプロンプトを取り、そこから複数の画像を生成してビデオの開始フレームとします。その後、物理的な安定性の悪いビデオ生成を排除する報酬コンポーネントを通過します。いくつかのオプションを排除した後、残りのビデオクリップは一貫性と動きをチェックする別の報酬コンポーネントに渡され、一貫性がないか奇妙な動きのあるビデオクリップを取り除きます。最後に、残りの候補は最終的な報酬コンポーネントに渡され、品質が最も良くテキストプロンプトに合致するビデオが選択されます。
彼らが発見したことは、どのビデオジェネレーターモデルを使用しても、テスト時スケーリングを適用すると、初期生成と比較して生成の品質が確実に向上するということです。このグラフのx軸は基本的にサンプル数、つまりこのテスト時方法が一度に生成するクリップの数です。もちろん、生成するクリップが多いほど計算や時間がかかりますが、選択肢が増えます。クリップの生成数を増やすと品質スコアは向上しますが、改善は徐々に遅くなり、ある時点で限界に達します。
彼らはまた、シーンの詳細やオブジェクトの明瞭さなどの特定の要素は、このテスト時スケーリング方法を適用した後、かなり改善されることを発見しました。しかし、動きの滑らかさや時間的なちらつきのような他のコンポーネントは改善が難しいです。
ページの上部にスクロールすると、コードはすでに公開されています。このGitHubリポジトリをクリックして少し下にスクロールすると、これをダウンロードしてローカルで使用する方法の説明がすべて含まれています。素晴らしいことに、これはどんなビデオジェネレーターモデルにも適用できるので、非常に汎用性の高いツールです。
AIツールと言えば、AIを使用する理由は多くありますが、最大の理由の1つは、時間のかかる退屈で面倒な作業を排除することです。そこで、HubSpotによる無料で素晴らしいリソース「AIプロダクティビティスタック:2倍のアウトプットのための50のツール」を紹介したいと思います。このガイドは、スケジューリング、メール管理、コンテンツ作成などの反復的なタスクを自動化することで、面倒な作業を排除するのに役立ちます。また、AIによる組織化や意思決定ツールで時間を最適化するのにも役立ちます。コンテンツ生成、マーケティング、ビジネス自動化のためにAIを活用することで、生産性を拡大できます。
その中には、タスク管理、自動化、生産性などのための50のAIツールが含まれています。各ツールについて、特に「生産性ワークフローでの使用方法」のセクションが気に入っています。これは、このツールを適用して大量の時間を節約する方法を示しています。そして何よりも、このリソースは完全に無料です。説明の下にあるリンクをクリックするだけで、すぐにアクセスできます。このバンドルは、このビデオのスポンサーであるHubSpotによって作成されました。
次に紹介するツールも信じられないほど便利です。ByteDanceによるInfinite Uと呼ばれるもので、これは1枚の参照写真だけから誰の画像でも作成でき、非常に正確です。いくつかの例を見てみましょう。この女性の写真を入力し、Fluxと呼ばれる画像ジェネレーターを使用すると、このツールでこの女性の任意の写真を生成できます。すべての画像が元の参照画像の女性のように見えることに注目してください。
別の例として、この中国人女優の写真を入力すると、彼女の何かをしている任意の写真を生成でき、すべての写真が参照画像とまったく同じように見えることに注目してください。別の例では、この女性がビーチでヨガをしたり、スピーチをしたり、ウェディングドレスを着たりしているところを生成でき、すべての写真が参照写真の顔とまったく同じように見えることに注目してください。同様にこの例でも、この男性が何かをしている様子を生成できます。
Infinite UはFluxをベースモデルとして使用しています。Fluxが何かわからない初心者の方のために説明すると、これは現在利用可能な最高のオープンソース画像ジェネレーターの1つです。Fluxに詳しくない場合は、完全なレビューとインストールチュートリアルについてこのビデオをご覧ください。
話を戻すと、Infinite Uの素晴らしい点は、他のチェックポイントを含むFluxのあらゆるバリアントと互換性があることです。また、ControlNetのような他のFluxアドオンも使用できます。例えば、この深度マップとInfinite Uの顔参照を追加して、これを生成したり、ポーズControlNetを使用することもできます。このようなポーズスケルトンとInfinite Uの顔参照を追加して、これを得ることができます。
また、任意のFlux互換のLoRAをプラグインしたり、以前にチャンネルで取り上げたO Mini Controlのような他のFluxアドオンや、別のキャラクターやスタイル参照ツールであるIP Adapterを追加することもできます。例えば、Infinite Uでこの顔を入力し、クローンしたいこのスタイルを入力すると、このような結果が得られます。別の例として、この顔を入力し、このスタイル参照を使用すると、元のキャラクターに似たこのようなものが得られますが、アニメスタイルになるとちょっと不気味です。
Infinite Uと顔参照用の他の既存の方法を比較すると、プロンプトに実際に従うという点ではるかに強力です。上の行は元の顔写真です。この最初の列を見てみましょう。「家で本を読む眼鏡をかけた老人」というプロンプトでは、IP AdapterやPuelledのような他の2つの方法では、この顔を老人として生成することができませんが、Infinite Uはこの男性を老人に変えることができます。
この中央の列でも同様で、「眼鏡をかけた10代の少年」というプロンプトでは、Infinite Uだけがこの顔を10代の少年に変えることができます。そして最後の列でも同様に、「裏庭で園芸をする笑顔の老婦人」というプロンプトでは、Infinite Uだけがこの顔を笑顔の老婦人に変えることができます。
素晴らしいことに、ページの上部にスクロールすると、使用するためのモデルはすでにリリースされています。このGitHubリポジトリをクリックすると、コンピュータでこれをダウンロードして使用する方法の説明がすべて含まれています。ただし、ここには「フルパフォーマンスのBF-16モデルには約43GBのピークVRAMが必要」と書かれていることに注意してください。ほとんどの人は43GBを持っていないでしょうが、彼らはメモリ使用量を減らすために取り組んでおり、すぐに更新を投稿する予定です。これはオープンソースなので、このモデルのより効率的で量子化されたバージョンがすぐに利用可能になるはずです。
次に紹介するAIは非常に強力です。OLu Gausianと呼ばれ、これは領域の数枚の写真から複数の部屋や建物のような大きなシーンの3Dモデルを作成できます。この例では、このギャラリーから始まり、テキストがどれほど鮮明で詳細か注目してください。これは非常に高解像度で、基本的にこの領域の多くの写真を取り込み、それらを一緒に結合して、このように移動できる3Dモデルを作成します。
このギャラリーのすべての書道画が非常に詳細で高品質であることに注目してください。そして驚くべきことに、これは最初のギャラリールームだけに限定されているわけではなく、このような廊下や中庭のような他の場所の写真を一緒に結合し続けることができます。テーブル、椅子、窓など、すべてが非常に高品質です。つまり、驚くほどの精度で巨大な領域の3Dモデルを作成することができます。
別の例として、この食堂があります。基本的に、この食堂のあらゆる場所で数枚の写真を撮り、それをこのAIに入力すると、すべてを一緒に結合してこの3Dシーンを作成します。ここでも、すべてが現実的で高品質であることに注目してください。
別の例もあります。ちなみにここは仕事をするにはとても素敵な場所のようですね。他の方法と比較すると、全く比較になりません。ここではCity GausianというもうひとつのメソッドとOLu Gausianを比較していますが、City Gausianのビデオでは、多くの書道作品の文字が非常にぼやけており、かなりぼんやりしているのに対し、OLu Gausianでは明らかな違いがあります。すべてが本当に正確でシャープです。
別のメソッドであるVAS Gausianとの比較もあります。こちらの品質は少し良いですが、OLu Gausianが砂利やすべてのオブジェクトの詳細をより良く捉えていることに注目してください。すべてがわずかに鮮明で詳細度が高いです。
簡単にその仕組みを説明すると、例えばこのような部屋があり、文字Aでマークされた位置で撮影された写真があるとします。まず、シーンはカメラの位置に基づいてこのように小さな領域に分割され、基本的にクラスタリングアルゴリズムを使用して画像を異なる領域にグループ化します。そして各領域を再構築します。例えば、この領域を再構築するとします。領域内の写真(緑の文字)だけを使用するのではなく、さらにデータと精度を提供するために近くの写真からも引き出します。ここでは黄色と赤の文字も引き出していることがわかります。
その後、すべてを一緒にマージして3Dシーンをレンダリングします。シーンを領域ごとに生成することに注目してください。3Dシーンを歩き回ると、最初にいる領域だけを生成し、計算効率が向上し、レンダリング速度がさらに向上します。
ページの上部にスクロールすると、「データはもうすぐ公開」と書かれているので、これをオープンソースにする予定のようです。これは今まで見た中で最高品質の3Dシーンジェネレーターの1つなので、とても楽しみです。
ヒューマノイドロボットのニュースでは、過去のニュースビデオでUniTreeからのこのロボットがカンフーをしたり、非常に難しいサイドフリップをしたり、Engine AIからのこのロボットが超高速で走ったり、先週の新しいBoston Dynamics Atlasのデモでカートウィール、ハンドスタンドなどの驚くべきことをできるのを紹介しました。今週はさらに驚くべきことがあります。
UniTreeは、このような信じられないほど難しいキックフリップをするビデオを投稿しました。平均的な人間でもキックフリップをするのは非常に難しく、多くの力、速さ、コントロールが必要です。体全体を素早く押し上げて回転させるには、キックに爆発的なパワーが必要で、すべてが十分なパワーとコントロールで素早く起こる必要があります。しかし驚くべきことに、UniTreeはこれを実現しました。
これは偽物やCGIだと思う人もいるかもしれませんが、床のロボットの反射に注目してください。これがCGIであるという明確な兆候は見られません。これは私には本物に見えます。そして、このようなスイープキックをするUniTreeロボットの別のデモもあります。太極拳もできます。これは振付けされていますが、それでも素早くバランスを保ちながらこれらすべてを実行できるのは本当に印象的です。
特に、Figure、Tesla Optimus、Phoenixなどの他のロボット企業のロボットがこれと比較して非常にゆっくり動くことを考えると、これは非常に印象的です。
今週の他のニュースでは、OpenAIがO4画像ジェネレーターをリリースしました。これは本当に素晴らしく、このような超リアルな画像を作成したり、任意の画像をシンプソンズやスタジオジブリ、3Dなど、あらゆるスタイルに変換したりできます。正確なテキストを含む正当な図表や地図、インターフェース全体やポスター、レシピも作成できます。これについてはすでに完全なレビュービデオを作成したので、ここでは繰り返しません。詳細を知りたい場合はこのビデオをご覧ください。
OpenAIの画像ジェネレーターについて言及している理由は、多くの人がコメントで「正確なテキストを持つこれらのインフォグラフィックやレシピを生成できるけど、コンピュータでローカルに実行できるオープンソースの検閲されていないバージョンがあったらいいのに」と言っていたからです。
オープンソースはいずれ追いつくと確信していますが、数週間か数ヶ月かかると思っていました。しかし、驚くべきことに、すでに何かがあります。OpenAIが画像ジェネレーターをリリースした文字通り1日後に、BiSGenと呼ばれる新しいAIがあり、これは正確なテキストで高品質のインフォグラフィックとスライドを生成できます。そして、これは完全に無料でオープンソースで、すでに使用可能です。どれほど驚くべきことでしょうか。
いくつかの例を見てみましょう。ビジネスエージェンシーのポスターの例です。「Business」のスペルが間違っているなど、ポスター全体に微妙なエラーがありますが、テキストの90%は読みやすく、これを数秒で作成できます。すべてのテキストを手動で入力し、適切なフォントや色を選択し、要素を選択し、適切な画像を見つける必要はもうありません。
非常に近い将来、これらのポスターを作成するためにPhotoshopやCanvaのようなものは必要なくなると思います。AIにプロンプトを出して数秒でこのようなものを作成し、何かの見た目が気に入らない場合は、さらにプロンプトを出してポスターの特定の部分をマイクロ編集できるでしょう。
別の例として、今度は中国語のものがあります。中国語は正確で読みやすく見えます。別の例としてペットホテルがあります。テキストは正確ですが、ここの猫の見た目が少し変です。別の良い例として「犬のトレーニング方法」というポスターがあり、ここでもほとんどのテキストが正確に見えます。韓国語の例もあります。私は韓国語を理解しないので、これが正しいか間違っているかわかりません。韓国語を話す方は、コメント欄でテキストが正しく見えるか教えてください。
1つのインフォグラフィックを生成するだけでなく、同じデザインとスタイルで複数のスライドを生成することもできます。ミニマルな家具のスライドショーの例がこちらで、生成された4つのスライドがあります。これら4つのスライド全体で一貫したスタイルを保ち、テキストも正確です。
ビジネス戦略のスライドショーの別の例もあります。今回のテーマは緑色の背景にこのような面白い手書きフォントです。すべてのスライドで同じスタイルが保持され、テキストも正確に見えます。とても良いですね。
素晴らしいことに、これは複数のレイヤーに分解できます。まず背景レイヤーから始まり、タイトルとサブタイトルを追加し、テキストを追加し、インフォグラフィックに追加するさまざまなオブジェクトや要素も生成します。そして、最終的な画像にそれぞれの要素やオブジェクトやテキストカードをどこに配置するかを実際にマッピングします。
これがどのように機能するかというと、スライドやインフォグラフィックを作成するために「レイアウト誘導クロスアテンション」と呼ばれる方法を使用しています。全体を一度に生成するのではなく、インフォグラフィックをこのような複数の小さなセクションに分割し、各セクションに何が入るかを言語モデルを使用して決定します。例えば、ここではインフォグラフィックのタイトルを正しい色とフォントでここに挿入するのが賢明でしょう。そしてここでは、これが白い枠を持つ固体の黄色の長方形であるべきだと決定しています。そしてここでは別のものを挿入することを決定しています。
このレイアウトのすべてのコンポーネントにわたって、各領域に入るコンテンツを決定します。基本的に、レイアウト認識アテンション・システムを使用して、正しい場所にテキストやオブジェクトや要素を注入します。最後に、「レイアウト条件付きCFG」と呼ばれるこの方法も使用して、各セクションをチェックし、レイアウトが正しいことを確認し、このアルゴリズムを使用してさらに見た目を改善します。
こことここのテキストには何らかの理由で本当に醜い影があるのがわかります。この条件付きCFGコンポーネントに入れた後、これらすべてのアーティファクトを修正します。そして、この新しいBiSGenをDalle-3やStable Diffusion 3やFluxなどの他の最先端の画像ジェネレーターと比較すると、少なくともスライドやインフォグラフィックの生成に関しては、BiSGenが他のすべてのモデルを上回っていることに注目してください。基本的にほとんどの場合に勝っています。
ページの上部にスクロールすると、素晴らしいことにすでにすべてがリリースされています。すべてのモデルが含まれているHugging Faceリンクと、これをインストールしてコンピュータでローカルに使用する方法の説明が含まれているGitHubリポジトリがあります。
他のニュースとして、フルボディのバーチャルウェイフがもうすぐ登場します。アリババは今週Tow Avatarをリリースしました。これは、実際の人のように話したり動いたりするリアリスティックな3Dアバターを作成できます。ここにいくつかの例があります。
これがどのように機能するかというと、人物の複数のカメラビューを使用して3Dモデルを作成し、それをリアルタイムで制御して話したり様々なアクションを実行したりできます。「はい、元気です、ありがとう。あなたの好きな食べ物は何ですか?」「私の好きな食べ物はおそらく寿司です。味と食感の組み合わせが大好きです。そして私の好きな活動は間違いなく料理で、新しいレシピを試すことです。あなたは何か好きなものがありますか?」
他の例もあります。彼女の手と指がいかに正確か、そして彼女が話したり動いたりする様子がとても自然に見えることに注目してください。これは信じられないほどリアルで、Apple Vision Proのネイティブアバタージェネレーターなどよりもはるかに優れています。
これはモバイルデバイスでリアルタイムで実行でき、Apple Vision Proのようなデバイスでは毎秒90フレームも達成できることに注目してください。それだけでなく、異なるシーンに基づいてアバターのライティングを変更することも可能です。例えば、ここでは元の女性のホワイトバランスがバックグラウンドとうまく合っていませんが、この設定をオンにした後、ホワイトバランスがこのビデオの背景とシームレスに調和していることに注目してください。
簡単にその仕組みを説明すると、まずこのような人物の複数のカメラビューを入力する必要があり、これらの写真を使用して基本的にその人の3Dメッシュを作成します。このデータは、人がリアルタイムで動き回るときに異なるポーズや表情に合わせてメッシュをどのように変形させるかを学習する「教師」コンポーネントを通じて実行されます。
その後、このデータはこれらの「ベーキング」コンポーネントに送られ、基本的にこれらの変形を軽量ネットワークに送って、モバイルデバイスでより高速に実行できるようにします。そして、体の形状や頭の形状、それらがどのように動くかなど、他の詳細も統合します。すべてのデータを組み合わせた後、リアルタイムでアニメーション化できる最終的なアバターが得られます。
これを以前にチャンネルで取り上げた他の3Dアバタージェネレーターと比較すると、この新しいTow Avatarは品質と精度の面ではるかに優れていることに注目してください。特定のフレームで一時停止すると、例えば彼女の歯を見てみると、Tow Avatarだけがリアルで正確な歯を生成できることがわかります。ここの耳やここの口も同様です。Tow Avatarは、このキャラクターの最も質の高いリアルなレンダリングです。
別の例でも同様で、彼の顔にズームインすると、Tow Avatarが他のすべてのアバタージェネレーターの中で最高のものであることがわかります。そして、挑戦的な表情についての比較もあります。このキャラクターにこのような珍しい表情をさせると、他のアバタージェネレーターではうまく処理できませんが、Tow Avatarはこれを本当によく処理します。
ページの上部にスクロールすると、データセットはHugging Faceでリリースされており、このGitHubリポジトリをクリックすると、「オープンソースとしてすぐにリリースされるAndroidアプリ」と書かれています。彼らがこの驚異的な技術を実際にリリースしてオープンソースにするというのは素晴らしいことです。これは多くのアプリケーションにとってゲームチェンジャーになるでしょう。
次に紹介するのは非常にクールなAIで、Sin Cityと呼ばれるものです。これはテキストプロンプトだけから完全な3D世界を作成できます。例としてこのように機能します。実際にはグリッドレイアウトから始まり、各タイルにこのようなコンポーネントを生成できます。最終的にすべてのタイルを埋めると、完全な3D世界が得られ、すべてのピースが実際に相互接続されています。
いくつかの例がありますが、すべてのオブジェクトの品質が非常に高いことに注目してください。別の3D世界もあり、必ずしも正方形である必要はなく、この形状は少し長めです。四季すべてを取り入れているようで、冬から春への移行が見られ、ここに桜が見え、そして夏、そして秋となっています。
これがどのように機能するかというと、実際に2つのオープンソースツールを使用してこれを実現しています。グリッドの各タイルに何を生成したいかプロンプトを出し、最先端のオープンソース画像ジェネレーターの1つであるFluxを使用して、まず生成したいものの2Dシーンを生成します。そして、Fluxインペインティングを使用して、3D世界の既存のタイルとシームレスに融合させます。ここの流れと草がこの既存のタイルとシームレスに融合していることに注目してください。
その後、以前にチャンネルで取り上げたTrellisを通じて実行します。これは最先端のオープンソース3Dジェネレーターの1つで、画像を取ってこのような3Dモデルに変換できます。そして、このような3Dモデルを取り、隣接するタイルとシームレスに融合するようにさらに細かく調整します。その後、グリッド上のすべてのタイルに対してこのプロセスを繰り返すと、非常に美しく詳細な3D世界が得られます。
ページの上部にスクロールすると、GitHubリポジトリがあり、「できるだけ早く、おそらく数週間以内にコードを公開することを目指しています」と書かれています。彼らが言葉を守り、実際にこれをリリースすることを願いましょう。
今週の他のニュースでは、DeepSeekが非思考型V3モデルの最新バージョンをリリースしました。これは信じられないほど優れており、特に推論とフロントエンド開発スキル、またツールの使用能力に優れていると主張しています。これらのベンチマークスコアを見ると、GPT-4.5やClaude 3.5 Sonnetなどの他の最先端の非思考型モデルと同等かそれ以上であることに注目してください。
この新しいDeepSeek V3の例では、重力、摩擦、回転速度などのさまざまな設定を持つ回転する六角形の中の5つのボールのインターフェースをコーディングしています。これはDeepSeek R1やOpenAIのO3やO1のような思考モデルではないことに注目してください。すべてを一度に出力し、回答を考えるのに時間をかけないのに、これを実現できるのは非常に印象的です。
Artificial Analysisによるこの独立したリーダーボードを見ると、インテリジェンスの面ですべてのモデルをランク付けすると、DeepSeek Version 3が最先端の非思考型モデルであることに注目してください。ここのトップ3、O3 Mini、DeepSeek R1、アリババのQWQは思考モデルなので、回答を出す前に応答を考えるのに時間をかけます。明らかに、インテリジェンスの面ではこれらの方が優れていますが、非思考型としては、これはClaude 3.7やGoogleのGemini 2.0 FlashやGPT-4Oさえも上回る完全にオープンソースのモデルであり、非常に印象的です。
価格を見ても、これはオープンソースなのでローカルで実行できますが、APIを通じて使用することを決めた場合、100万トークンあたり約50セントのコストがかかります。これをClaude 3.7と比較すると、これは約12倍高価で、同じく非思考型モデルであるGPT-4.5は、インテリジェンスが高いにもかかわらず、180倍以上高価です。これはどれほど驚くべきことでしょうか。
モデルの重みはすでに公開されており、このHugging Faceリンクがリリースされ、ファイルタブをクリックすると、DeepSeek V3の最新バージョンをダウンロードできる場所です。
他のニュースとして、GoogleがGemini 2.5という今までで最高のモデルをリリースしました。興味深いことに、これはOpenAIがO4画像ジェネレーターをリリースしたのとほぼ同時にリリースされました。これは偶然ではなく、GoogleとOpenAIは常に互いの注目を奪うために同時に素晴らしいものをリリースする傾向があります。
OpenAIの画像ジェネレーターが最も注目を集めましたが、Gemini 2.5 Proは実際には大きな進歩です。これは高度な推論能力で構築されており、高度なコーディング、数学、科学などの複雑なタスクに優れています。
驚くべきことに、これは100万トークンのコンテキストウィンドウを特徴とし、彼らは200万トークンもすぐに登場すると言っています。これは非常に便利で、基本的に一度にプロンプトにどれだけのテキストや情報を入れることができるかです。OpenAIのO3やO1などの他のトップモデルでは、コンテキストウィンドウは200,000トークンのみで、DeepSeek R1は128Kしかありません。したがって、GoogleのGemini 2.5 Proでは、少なくとも5倍のデータをプロンプトに詰め込むことができます。
これは約30,000行のコードなので、分析のために全コードベースを入れることができたり、70万語以上なので全書籍や多数の文書を一度に分析のために入れることができたり、11時間以上の音声に相当します。音声と言えば、これはマルチモーダルであり、テキスト、画像、音声、ビデオを含む複数の入力タイプをサポートしています。
十分なスペックの説明をしましたので、このモデルがどれほど優れているかを見るためにいくつかのベンチマークを見てみましょう。ユーザーが異なるAIモデルをブラインドテストできるこのリーダーボードを見ると、現在Gemini 2.5 Pro Experimentalがトップにあることに注目してください。アリーナスコアの大きな違いに注目してください。他のトップ3のモデルは互いに数ポイントしか差がありませんが、Gemini 2.5は次に優れたモデルをほぼ40ポイント引き離しており、これは驚異的です。
このチャートを見ると、Gemini 2.5 Proは全体的なスタイルコントロール、難しいプロンプト、コーディング、数学、クリエイティブライティング、指示に従うなど、あらゆるカテゴリでナンバーワンです。
素晴らしいことに、これはGoogleのAIスタジオですぐに無料で試すことができます。このモデルのドロップダウンで、2.5 Pro Experimentalを選択するだけです。
Gemini 2.5 Proの完全なレビューを計画しており、どんなことができるかを示すために、次の数日間でしっかりテストする予定なので、お楽しみに。おそらく今後数日で公開される予定です。
次に、アリババもQwen 2.5 Omniをリリースしました。これはテキストだけでなく、ビデオ、画像、音声も理解できるマルチモーダルモデルです。実際、リアルタイムで会話できる音声があり、最高なことに、これらすべてを無料でオープンソース化しています。
モデルはすでにHugging FaceやModel Scope、Dash Scopeでダウンロードしてローカルで実行可能です。また、コンピュータでこれを実行する方法の説明が含まれているGitHubリポジトリもリリースしています。
このモデルはわずか70億パラメータなので、ほとんどの消費者向けGPUや十分に良いスマートフォンでも簡単に実行できます。同様のサイズの他のマルチモーダルモデルとQwen 2.5 Omniを比較すると、Gemini 1.5 Proを含むすべてを上回っています。面白いことに、音声生成は人間と同程度に良く、おそらく私よりも人間らしく聞こえます。
コンピュータでローカルにダウンロードして使用するだけでなく、Qwen Chatインターフェイスを通じて無料でオンラインで使用することもできます。今すぐ試してみましょう。これをクリックするだけでこのOmniモデルがアクティブになります。リアルタイムでこの音声と会話できます。最初にこの音声チャットオプションを選んでみましょう。
「こんにちは、聞こえますか?」「はい、聞こえます。今日はどのようにお手伝いできますか?」「子供のための寝物語を聞かせてもらえますか?」「もちろん。むかしむかし、ミッキーという小さなネズミがいました。彼は木製の古くて居心地のいい家に住んでいました。ある日、家を探検していた彼は、葉の山の下で輝くコインを見つけました。そのコインは魔法でした。ミッキーが鼻にそのコインをこすりつけると、小さな妖精が現れました。」
この音声チャットをここで終了しますが、これはどのように機能するかの例です。このリアルタイム音声の品質とインテリジェンスは良くなく、間違いなくOpenAIの高度な音声モードやSesameのリアルタイム音声よりもはるかに悪いです。しかし、このモデル全体(テキストチャットと音声、さらに画像分析を含む)はわずか70億パラメータで、ほとんどの消費者向けGPUやスマートフォンでも使用できることに注目してください。つまり、品質と互換性のバランスを取っているのです。
これは博士レベルの質問を解決するためのものではありませんが、話す声が必要なだけなら、これは優れたローカル代替手段です。
次に、私のお気に入りのビデオジェネレーターの1つであるClingが新機能をリリースしました。今はレイアウトが少し異なり、AIサウンドという新機能があり、AIに音声を生成するようにプロンプトを出すことができます。例として、ここに焚き火の音があり、とても良いです。そして、コインを落とす音や、既存のビデオをアップロードしてそのビデオの音を生成することもできます。
いくつかの例を試してみましょう。ここにナイトクラブを歩く男性の一人称視点のビデオがあります。すべてのビデオ生成に、このAIサウンドボタンがあることに注目してください。これをクリックすると、ビデオがここに送られ、生成すべき音声を自動検出します。ベースの音、カメラの揺れ、方向感覚の混乱、点滅する光が検出されています。これを消して、代わりに「人々が話したり踊ったりする騒がしいナイトクラブ」と入力します。
生成ボタンをクリックすると、10クレジットが必要ですが、どのような結果が得られるか見てみましょう。結果はこちらです。とても良いですね。これがClingの新しい機能で、非常に便利なこともあります。ビデオ生成後すぐに音声を生成できるので、別のプログラムにこれを入力する必要はありません。
これがClingの新しい音声生成機能です。Clingへのリンクを説明欄に記載します。無料で登録して毎日の無料クレジットを得ることができると思うので、興味があれば確認してみてください。
これで今週のAIのハイライトがすべて終わりました。コメント欄でこれらすべてについてどう思うか、どのニュースがお気に入りか、どのツールを最も試してみたいかを教えてください。
いつものように、共有するためのトップAIニュースとツールを常に探していきます。このビデオを楽しんでいただけたなら、いいね、シェア、登録をして、さらなるコンテンツをお楽しみに。また、AIの世界では毎週とても多くのことが起きており、YouTubeチャンネルですべてをカバーすることはできません。AIで起きていることすべてを最新の状態に保つために、無料の週刊ニュースレターを購読してください。そのリンクは説明欄にあります。
視聴いただきありがとうございます。次回の動画でお会いしましょう。


コメント