この動画は2025年における最新AI技術の包括的な紹介である。画像内テキストの編集から抗体設計、リアルタイムビデオゲーム生成、アニメーション自動色付け、360度動画変換、テキスト音声合成まで、多岐にわたるAI革新技術を実例とともに解説している。特に注目すべきは、従来手法の100倍の成功率を誇る抗体設計AIや、GTA風ゲームをリアルタイムで生成できるMirageなどの技術である。

- 最新AI技術の驚異的な進歩
- Calligrapher:画像内テキスト編集AI
- 参照画像を使った高度な機能
- X4D:360度動画生成技術
- Long Animation:アニメーション自動色付け技術
- より高度な機能
- Mirage:リアルタイムビデオゲーム生成
- LangScene-X:少数画像からの3D再構築
- Skywork Super Agents(スポンサー紹介)
- Chai Discovery:抗体設計AI
- Xverse:参照画像生成器
- Xverseの技術的詳細と比較
- Depth Anything V2:深度推定AI
- ヒューマノイドロボットサッカー
- Ovis-U1:マルチモーダル言語モデル
- Q-TTS:新しいテキスト音声合成
- まとめ
最新AI技術の驚異的な進歩
AIは決して眠ることがなく、今週は本当に驚異的でした。画像内のテキストを同じスタイルとフォントを保ちながら編集できる無料のAIがあります。このAIは全くゼロから新しい抗体を設計することができます。そしてその成功率は従来手法の100倍も優れています。
このAIはGTAやマリオ、フォルツァホライゾンを含む、あらゆるプレイ可能なビデオゲームをリアルタイムで作成できます。11 Labsよりもさらに優秀とされる新しいテキスト音声合成生成器と音声クローンツールがあります。このAIはたった1つの参照フレームでアニメーションを自動的に色付けできます。これによりアニメーターの膨大な時間を節約できます。
このAIはあらゆる動画を3Dシーンに変換できます。非常に正確な新しい参照画像生成器もあります、そして他にもたくさんあります。では早速始めましょう。
Calligrapher:画像内テキスト編集AI
まず最初に、このAIは非常に有用です。Calligrapherと呼ばれ、異なるスタイルとフォントで画像内のテキストを編集できます。いくつかの例をご紹介します。
このような既存の画像を取り、このAIに通して特定のテキストを変更させることができます。例えばこのテキストをGroundhog Dayのように変更できます。元のスタイルとフォントが保持されていることに注目してください。そして他の全ては同じまま保たれています。つまり、指定したテキスト領域のみを細かく編集します。
別の例を見てみましょう。これをtechnologyに変更できます。再び、元の画像と同じフォントとスタイルを保つことができています。
または別の例です。あらゆるフォントに対応していることに注目してください。このようなものでも、このフォントがどのように見えるかを検出し、それに応じてテキストを変更できます。このような複雑で波打った手書きフォントでも、このテキストを非常にうまく編集できました。
または別の難しい例です。そしてまた別の例もあります。ここには数多くの例があります。時間の都合上、すべてを説明することはしませんが、元のスタイルとフォントを保ちながら既存画像のテキストを編集するだけでなく、希望するテキストのスタイルやフォントを指定する別の参照画像をアップロードすることもできます。
例えば、この入力画像があるとしましょう。そして転送したいテキストスタイルの参照画像も入力し、テキストをlegionに変更すると、このような結果が得られます。または別の例です。このテキストをthe forestに変更できますが、この元のフォントではなく、この参照フォントをアップロードしましょう。
そしてこのような結果が得られます。または別の例です。これをroseに変更したいが、代わりにこのフォントを使いたいとしましょう。スタイルが非常に正確に転送されていることに注目してください。また別の例もあります。これをballoonに変更し、このテキストスタイルを使用したいとしましょう。これも非常にうまく処理されています。そして別の例もあります。
参照画像を使った高度な機能
参照画像でテキストを変更することに加えて、ここが驚異的なところです。テキストの参照画像をアップロードする必要すらありません。この稲妻のような抽象的なものでも機能します。Mariaをactionに変更し、この参照画像を入力すると、結果のテキストはこのようになります。
または代わりにこの虹を参照画像としてアップロードすると、結果のテキストはこのようになります。非常に興味深いです。または別の例です。これをbeautyに変更し、この火の参照写真をアップロードすると、このような結果が得られます。または火の代わりに、この参照写真をアップロードすると、このような結果になります。または別の例です。
これが元の画像だとしましょう。火花の画像を入力し、Georgeに変更すると、このような結果が得られます。または火花の代わりに、このレンガの参照画像を入力すると、このような結果になります。とても興味深い機能ですね。良い点は、ページの上部をスクロールすると、既にモデルとコードがリリースされていることです。
このGitHubリポジトリをクリックすると、コンピューターにローカルでダウンロードして実行する方法のすべての指示が含まれています。また、生のコードを扱う必要がないように、素晴らしいグラフィカルインターフェースも提供されています。すべてのリンクがここにありますので、詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
X4D:360度動画生成技術
次に、このAIも非常に有用です。X4Dと呼ばれ、PicoとByte Danceによるものです。これはあらゆる画像や動画を取り込んで、複数の角度から探索できる360度動画に変換できます。いくつかの例を見てみましょう。
まず動画を入力する例を見てみましょう。左側が入力動画だとすると、このAIに通した後、このような360度動画を生成できます。いくつかの例をご紹介します。
V3で生成されたこの動画をここに入力すると、そこから360度シーンを生成できます。これはあらゆる角度から移動して見ることができる動画です。または別の例もあります。この入力動画があるとしましょう。そこからこのような360度動画を生成できます。または別の例もあります。ほとんどの場合、すべてが非常に一貫していることに注目してください。
またはSoraで生成されたこの踊るカンガルーがあるとしましょう。これをこのAIに通して、このような完全な360度動画を生成できます。またはClingで生成された他の例もあります。ほとんどの場合、すべてが非常に一貫していることに注目してください。
さらに、元の動画からこのデータを持っていなくても、残りのシーンがどのように見えるかを推測することができます。動画を取り込む代わりに、単一の画像を与えるだけで、このような完全な360度世界を生成することもできます。この1つの画像しか与えられていないため、シーンの背面がどのように見えるかは全く分からないが、それを外挿して推測することができていることに注目してください。
別の例です。この画像を入力すると、この360度世界を生成できることに注目してください。そしてほとんどの場合、すべてがかなり一貫して見えます。良い点は、ページの上部をスクロールすると、既にGitHubリポジトリがリリースされていることです。少しスクロールダウンすると、コンピューターにローカルでダウンロードして実行する方法のすべての指示が含まれています。これはAlibabaのONE2.1を活用して動画生成を行っていることに注意してください。
そして最小VRAM要件は48GBと記載されていることに注意してください。これを念頭に置いておいてください。しかし、これはオープンソースなので、多くの注目を集めれば、オープンソースコミュニティがより少ないVRAMで実行できる、より量子化または圧縮されたバージョンを最終的に生成するでしょう。とにかく、すべてのリンクがここにあります。詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
Long Animation:アニメーション自動色付け技術
次に、このAIはアニメーターにとって絶対的なゲームチェンジャーです。long animationと呼ばれ、時間を通じて色を一貫させながら長いアニメーションを自動的に色付けできます。仕組みはこうです。参照色付き画像とスケッチアニメーションを取り込みます。
参照画像から、このAIは基本的にこのスケッチアニメーションを色付けします。右側が最終結果です。これによりアニメーション制作会社は膨大な時間を節約できます。もはやフレームごとにすべてを色付けする必要はありません。アニメーションをスケッチし、1つの色付きフレームを入力するだけで、AIが残りのフレームを色付けしてくれます。
そしてこの動画は27秒の長さであることに注意してください。つまり長い動画でも機能します。または別の例で、スケッチアニメーションは同じですが、今度は衣装の色を入れ替えました。これを参照画像から行いました。これを行った後、AIに通すと、再び参照画像に基づいてすべてを色付けすることに注目してください。
または別の例です。中央がスケッチアニメーションです。そして左側はたった1つの色付きフレームです。ご覧のとおり、long animationはこの全体のクリップを非常に一貫して色付けできます。または別の例もあります。
このシーンは背景に多くのオブジェクトがあり非常に複雑ですが、たった1つの色付き画像で、すべてを非常に一貫させながら残りのシーンを色付けできます。また別の例もあります。これらのシーンはすべてジブリ映画からのもののようです。そのため、AIが異なるスタイルを扱えるかどうかを確認するために、他のタイプのアニメーションも含めてくれればよかったでしょう。
右上のこの新しいlong animationメソッドを、LVCDやany doなどの他の既存の色付けメソッドと比較すると、この新しいものがはるかに優れていることに注目してください。色を一貫させるだけでなく、品質と鮮明さがはるかに優れています。別の例です。
このシーンがいかに複雑であるかに注目してください。しかし、すべてを非常にうまく生成できます。そして品質は下段の競合他社よりも明らかに優れています。
より高度な機能
これでできることはさらにあります。完全に色付きの画像を入力する必要はありません。部分的に色付きの画像を入力するだけでもよいのです。例えば、左側ではキャラクターのみが色付けされています。
そしてこれをAIに通し、プロンプトで背景をビーチにするよう指定できます。そしてこのような結果が生成されます。またはビーチの代わりに、森に座らせることもできます。そしてこのような結果が得られます。なんて素晴らしいのでしょうか?森に座らせる代わりに、このように公園に座らせることもできます。とても素晴らしいです。
つまり、このAIをキャラクターの色付けに使用できるだけでなく、シーンの背景を非常に簡単に作成することにも使用できます。良い点は、ページの上部をスクロールすると、既にGitHubリポジトリがリリースされていることです。スクロールダウンすると、コンピューターにローカルでダウンロードして実行する方法のすべての指示が含まれています。
ここでは推論は80GBのVRAMを持つ1つのA100 GPUでテストされたと記載されていることに注意してください。これは最小VRAMが80GBという意味ではありませんが、彼らが使用したものです。しかし、参考のために、VRAM要件について彼らのページから得られる情報はこれがすべてです。とにかく、すべてのリンクがここにあります。詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
Mirage:リアルタイムビデオゲーム生成
次に、このAIは驚異的です。Mirageと呼ばれます。これにより誰でもあらゆるビデオゲームをリアルタイムで作成してプレイできます。何もダウンロードしたり設計したりする必要はありません。指定したものをその場で作成してくれます。いくつかの例を見てみましょう。
まず第一に、プロンプトでビデオゲームで何が起こるかを制御できます。横から車を出現させることができます。追加のキャラクターを生成できます。テキストプロンプトだけで何でもできます。そして通常のWDキーと矢印キーでキャラクターの動きも制御できます。キャラクターに走る、ジャンプ、狙う、撃つなどの特定のアクションを行わせることもできます。
これは数多くの異なるビデオゲームスタイルを生成できます。こちらはリアルタイムで生成されたスーパーマリオの例です。これは実際のスーパーマリオではないことに注意してください。これはこのAIによってリアルタイムで生成されています。または別の例です。生成は完璧ではないことに注意してください。
テキストとダッシュボードはあまり意味をなしませんが、それでもリアルタイムでこれを生成できることは非常に印象的です。こちらはGTAスタイルのゲームプレイのように見える別の例です。左下隅にインタラクティブなマップまであることに注意してください。そしてこの人が動き回っているのが見えます。彼は射撃をしています。
私が以前チャンネルで紹介した他のビデオゲーム生成器よりも、これははるかに高いアクションです。テキストプロンプトだけでゲームを制御する方法の例をもっと見てみましょう。ゲームに追加の要素やエフェクトを加えることができます。ゲーム内のあらゆるオブジェクトやキャラクターの色を変更することもできます。テキストプロンプトだけでこのようなエフェクトを追加できる別の例です。
良い点は、実際に2つのデモをリリースしており、今すぐプレイできることです。1つはGTAベースのUrban Chaosで、もう1つはフォルツァレーシングスタイルのゲームであるCoastal Driftと呼ばれます。両方とも完全にその場で生成されます。そしてここで両方のゲームをプレイできます。
それではこれから始めて、スタートをクリックしましょう。ここでゲームコントロールを展開できます。WDで移動でき、Shiftを押すと彼は走り、Fを押すと何かを攻撃させてみましょう。彼は攻撃しています。キーを押してから彼が実際にアクションを実行するまで1、2秒のラグがあります。
しかし、それ以外は、これは基本的に事前定義された設計がないリアルタイムゲームで、すべてが完全にその場で生成されています。品質は素晴らしくありません。完璧ではありませんが、これはビデオゲームの未来がどのようなものになるかの一瞥です。このGTAスタイルのゲームの代わりに、このレーシングゲームも試してみましょう。
スタートを押しましょう。そして車の運転を始めましょう。矢印キーを押しており、押したものに応じて運転していることに注意してください。再び、キーを押してから実際に反応するまで1、2秒の遅延があります。正確にはリアルタイムではありませんが、すべてがその場で生成されていることを考えると、これは非常に印象的です。
とにかく、両方のデモがここでプレイできます。残念ながら、今のところリリースされているのはこれだけです。これをオープンソースにするかどうかの表示はありませんが、これは今まで見た中で最も印象的なリアルタイムビデオゲーム生成器です。
私のチャンネルをフォローしている方なら、Doomのリアルタイムプレイ可能シミュレーションを作成できるGoogleのゲームエンジンや、Counterstrikeのシミュレーションを生成できるMicrosoftのDiamondなど、これらのツールを以前にたくさん紹介したことをご存知でしょう。
そして最近では、TencentのHunyan GameCraftも紹介しました。これも非常に似ています。これも多様なインタラクティブビデオゲームと3Dワールドを生成できます。しかし、この新しいMirageはもう少しインタラクティブのようです。左下隅にこのインタラクティブマップも備えています。
さらに、プレイヤーは走り、狙い、撃ち、より多くの高いアクションなこともできます。とにかく、今のところこれは研究プレビュー段階です。つまり、Mirageについて得られる情報はこれがすべてです。詳しく読みたい方は、このメインページへのリンクを貼っておきます。
LangScene-X:少数画像からの3D再構築
次に、このAIも非常にクールです。LangScene-Xと呼ばれ、シーンの数枚の画像だけから3Dシーンを構築できます。特定のシーンの2、3枚の画像しかないとしましょう。これをこのAIに通して、このような完全な3Dビデオを生成できます。つまり、空白を埋めてくれるのです。
通常のビデオの代わりに、これはシーンのセグメンテーションマップも生成できます。これによりシーン内のオブジェクトが自動的にセグメント化されます。他の例もあります。セグメンテーションビデオの代わりに、ノーマル推定も実行できます。
言い換えると、シーン内のすべてのものの表面の向きを推定できます。ノーマルビデオの別の例です。さらに例を見てみましょう。シーンの異なる角度での数枚の写真から、そのシーンの全体のビデオを再構築できます。ビデオに加えて、このようなセグメンテーションビデオと、シーン内のすべての表面の向きを推定するノーマルビデオも生成できます。
さらに、プロンプトを使ってシーン内の特定のオブジェクトを検出させることもできます。例えば、fridgeでプロンプトすると、ここでご覧のとおり、冷蔵庫がハイライトされています。またはkitchen sinkでプロンプトすると、それは確かにハイライトされるものです。またはbrown bearでプロンプトすると、このような結果になります。
仕組みはこうです。特定のシーンの複数のビューを入力し、これらの限られたビューから視覚を基本的に生成するために、このtri-map video diffusion modelに渡されます。次に、このfield constructor componentを使用して、これらの生成されたビデオから3Dシーンを基本的に再構築します。
そしてこの3Dシーンから、ノーマル推定を作成したり、セグメンテーションマップを作成したり、シーン内のオブジェクトを検出したりできます。これをSAM 2などの他の主要なセグメンテーション技術やstable normalなどのノーマル推定技術と比較すると、この新しいLangScene-Xがすべてを推定する際にもう少し正確であることに注目してください。
とにかく、ページの上部をスクロールすると、良い点は既にコードがリリースされていることです。このGitHubリポジトリをクリックすると、コンピューターにローカルでダウンロードして実行する方法のすべての指示が含まれています。ここではVRAMについては指定されていませんが、これはSAMとSAM 2と呼ばれるセグメンテーション用のAIと、COG-Xと呼ばれるオープンソースビデオ生成器を使用していることに注意してください。これらはすべてかなり軽量です。
したがって、これはほとんどの消費者グレードGPUで実行できるはずです。とにかく、すべてのリンクがここにあります。詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
Skywork Super Agents(スポンサー紹介)
生産性をスーパーチャージしたい場合は、このビデオのスポンサーであるSkywork Super Agentsをぜひチェックしてください。これは指先にある高度なAIエージェントの軍隊のようなものだと考えてください。自律的に研究を行い、レポート、スプレッドシート、スライド、ウェブページ、さらにはポッドキャストを作成させることができます。
このGaiaエージェンティックベンチマークからご覧いただけるとおり、ManisやOpenAIのDeep Researchよりも優れています。特にスライド生成機能に感動しています。例えば、タイの国立公園のスライドショーを作成させてみましょう。さまざまなテンプレートから選ぶこともできます。travel guideを選びましょう。
ここで大量の研究を行っているのがわかります。実際にウェブをスクレイピングして事実的に正しい情報を見つけています。そしてスライドの作成に進みます。これがいかに美しいかご覧ください。
スライドショーにはビデオまで含まれています。そして大量の情報が詰め込まれており、すべてが事実的に正しいのがわかります。さらに、すべてが非常に素敵で美的に見えます。スライドに加えて、そのディープリサーチフレームワークにより、競合他社よりもはるかに多くの情報を見つけることができます。
さらに、生成されたすべての情報は元のソースまでトレースできるため、正確性と信頼性が保証されます。また、関連する画像、チャート、さらには埋め込みビデオを自律的に追加し、ドキュメントを美しく見せます。Google Slides、PPT、PDFなど、複数の形式にエクスポートできます。
セールスデッキ、研究レポート、教育資料、マーケティングピッチ、または他の何でも作成したい場合、Skywork Super Agentsは最高品質と正確性を持つ最高のプラットフォームです。説明欄またはピン留めコメントのリンクから今日試してみてください。
Chai Discovery:抗体設計AI
次に、このAIは非常にクールです。Chai DiscoveryがChai 2を発表しました。これは全くゼロから新しい抗体を設計できる強力なAIモデルです。生物学の背景がない方のために説明すると、抗体は基本的に病気と戦うのに役立つタンパク質です。驚異的なのは、特定のタンパク質標的に特異的な抗体を設計するよう、このAIに指示できることです。例えば、がん細胞の表面のようなものです。
これは多くの異なるタイプの標的で機能し、以前は結合するには困難すぎると考えられていたものでも機能します。本当に印象的なのは、Chai 2がゼロショットでこれらの抗体を思いつくことができることです。つまり、一度プロンプトするだけで、抗体を創造または設計し、その生成の成功率は従来の計算手法の100倍優れているということです。これは狂気的です。
抗体に加えて、Chai 2は非常に高い成功率でミニプロテインなどの他のタンパク質の設計にも優れています。ここでは、これらのミニプロテインの設計成功率は68%だったと述べています。そしてChai 2は信じられないほど高速で効率的です。以前の計算手法が抗体設計のわずかな解決策を思いつくのに数カ月から数年かかったのに対し、Chai 2はわずか2週間で潜在的な抗体候補を見つけることができます。
つまり、このAIとGoogleのAlphaFoldやAlphaGenomeなどの他の類似のブレークスルーにより、多くの病気に対する新しい抗体や治療法を迅速に発見し、作成し始めることができます。最良の部分は、これが早期アクセスのために開放されていることです。ここでは、多くの学術および業界パートナーへのアクセスを開放していると述べています。
Chai 2があなたの研究を加速できる問題に取り組んでいる場合、ここで早期アクセスにサインアップできます。とにかく、詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
Xverse:参照画像生成器
他のニュースでは、Byte DanceによるXverseという新しい参照画像生成器があります。これは人やオブジェクトの参照画像を新しい写真に転送するのが非常に優秀です。
いくつかの例を見てみましょう。この女性の参照写真があり、花に満ちた庭で微笑む女性とプロンプトするとします。このような結果が得られます。そして彼女の顔が参照写真と正確に同じに見えることに注目してください。または別の例です。晴れた公園で微笑む少年です。ご覧のとおり、参照写真の少年と正確に同じに見えます。
またはベンチに座る老人です。再び、老人と正確に同じに見えます。人間の代わりに、これは参照オブジェクトも転送できます。例えば、このハンドバッグの参照写真があるとしましょう。女性がレザーハンドバッグを持っているとプロンプトできます。そしてこのような結果が得られます。
ほとんどの場合、ハンドバッグは参照画像のように見え、異なる動物でも機能することに注目してください。ここには蝶ネクタイをした可愛い子猫があり、このような結果が得られます。または小さな帽子をかぶった可愛いハムスターです。
1つの参照写真を入力するだけでなく、これは複数の参照画像を取り込むことができます。例えば、これら2つの参照写真を入力できます。このように一緒に看板を持たせることができます。このように3人のキャラクターでもできます。そして顔が非常に正確に見えることに注意してください。つまり、これはディープフェイクや顔転送ツールとして機能することができます。
またはさらに複雑な例です。この男性、この犬、このコーヒーカップ、このXverseロゴ、このベンチ、このジャケットの参照画像があるとしましょう。このようにシーンにすべてを組み込むことができます。そしてほとんどの場合、すべてが参照画像と比較してかなり正確に見えます。
またはこの2人のキャラクターを一緒にして、女性にこのカップを持たせるような別の例です。または別のより巧妙な例です。この女性にこのビーニーとこのスカーフを着用させ、背景にこの宇宙船を追加できます。さらに、彼女にこのポーズを取らせることもできます。
そしてこのような結果が得られます。またはこの帽子をかぶった犬とこのヘッドフォンをしたポーカーをするアライグマを入力できます。また、転送したいスタイルで参照画像を入力することもできます。このコーギがあり、このローポリスタイル画像を入力すると、基本的にこのスタイルでこのコーギの画像を生成します。
また、生成の照明を決定するために参照写真を使用することもできます。紫の照明を入力すると、このような結果が得られます。または緑の照明の参照画像を入力すると、このような結果になります。
Xverseの技術的詳細と比較
非常に簡単に、仕組みはこうです。いくつかの革新的なコンポーネントを備えています。1つはT-mod adapterで、これは基本的にモデルがテキスト記述を理解し、画像を生成するのに役立ちます。
そしてtext flow modulation mechanismがあり、これによりモデルは画像内の特定のオブジェクトや人を制御できます。そしてVAE encoded image feature moduleもあり、最も単純に言えば、アーティファクトと歪みを最小化することで、モデルがよりリアルな画像を生成するのに役立ちます。そして、画像が一貫性があり高品質であることを保証する正則化技術も使用しました。
これを、私が以前チャンネルで紹介したDreoや、先週紹介したばかりのOmni-Genen 2、Unoなどの他の参照画像ツールと比較すると、Xverseがはるかに優れていることに注目してください。例えば、これら2つの参照画像があり、公園で並んで立たせるとすると、Xverseだけが顔と髪を正しく取得したことに注目してください。
Omni-Genen 2はかなり近づきましたが、この女性の髪を変更してしまいました。またはこの2人のキャラクターを街で一緒に立たせる場合です。再び、この新しいXverseが実際にこれらの頭を一貫して保つのが最も優秀のようです。参照画像転送に関するいくつかのベンチマークを見ると、全体的にXverseが最高スコアを記録し、特にマルチオブジェクト転送に優秀であることがわかります。
ページの上部をスクロールすると、良い点はデータセットとモデルを含めてすべてを既にリリースしていることです。このGitHubリポジトリをクリックすると、コンピューターにローカルでダウンロードして実行する方法のすべての指示が含まれています。良い点は、生のコードを扱う必要がないように、素晴らしいグラフィカルインターフェースを既に構築していることです。
とにかく、すべてのリンクがここにありますので、詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
Depth Anything V2:深度推定AI
次に、このAIも非常に有用です。Depth Anything at Any Conditionと呼ばれます。名前が示すとおり、悪天候や照明不良などの困難な条件でも、画像内のオブジェクトの深度を推定できます。これは単一の画像を入力として取り、カメラからのオブジェクトの距離の表現である深度マップを出力します。
これをdepth anythingと呼ばれる別の類似ツールと比較すると、その生成が非常にぼやけていることに注目してください。しかし、この新しいものははるかに優れています。これが以前の競合で、これが新しいものです。または別の例です。これがぼやけて低品質の競合で、これが新しいものです。
写真の天候条件は理想的ではないことに注意してください。それでもすべての深度をかなりうまく検出できています。または別の例です。これが元のdepth anythingバージョン1です。そしてこれが新しいものです。特に木やバスのエッジにおいて、すべてがはるかに詳細であることに注目してください。また別の例もあります。
ページの上部をスクロールすると、良い点は既にすべてをリリースしていることです。さらに、これをオンラインで試せる無料のHugging Faceスペースもリリースしています。例えば、この写真をアップロードして、生成をクリックしてみましょう。そして何が得られるか見てみましょう。
このような結果が得られ、悪くありません。ここの標識とこの街灯と車を検出でき、深度はかなり正確です。または別の巧妙な例です。生成を押して、何が得られるか見てみましょう。そしてこのような結果が得られます。
再び、非常に巧妙なシーンですが、ここの車を含めてすべての深度をかなり正確に検出できました。ここの車を検出できたのがわかります。ここの車を検出できました。
別の非常にノイズが多く粒子が粗い例です。これをどう処理するか見てみましょう。そしてこのような結果が得られます。これが非常に粒子が粗い写真であることを考えると、悪くありません。
オンラインで使用できるこの無料のHugging Faceスペースに加えて、コンピューターにローカルでダウンロードして使用する方法のすべての指示が含まれたGitHubリポジトリもリリースしています。ここではVRAM要件は指定されていませんが、これはかなり軽量であるはずです。とにかく、すべてのリンクがここにあります。詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
ヒューマノイドロボットサッカー
ヒューマノイドロボットのニュースでは、先週日曜日に、北京スマートeスポーツセンターで初の完全自律ロボットサッカー試合が開催されました。これらのロボットは人間による制御や介入なしで完全に自律的にプレイし、その目標は最も多くのポイントを得ることでした。
これらのロボットはボールを追跡し、フィールドをナビゲートするための高度な視覚センサーを装備しています。そして転倒しても、理論的には足場を取り戻して立ち上がることができるはずです。ああ、なんてこった。かなり可愛いですね。そしてこちらは担架で運ばれなければならなかったようです。
しかし、これは本物のサッカーと全く同じです。つまり、人間のサッカー選手も怪我を偽装し、最も軽いタッチで倒れるのが大好きです。つまり、これはAGIそのものです、皆さん。これがいかにリアルであるかご覧ください。つまり、これは人間のサッカー試合と正確に同じです。
とにかく、ここでご覧いただけるとおり、試合を通じて大量のつまずきがあり、かなり反クライマックス的でスローモーションでしたが、これが最悪の状態です。つまり、ヒューマノイドロボットの技術は過去2年ほどで非常に加速しています。
そのため、ヒューマノイドロボットによって完全に自律的にプレイされる、まともな品質のスポーツイベントを非常に近いうちに見ることができると思います。
Ovis-U1:マルチモーダル言語モデル
次に、このAIは非常に有用です。Ovis-U1と呼ばれます。これは本質的にマルチモーダル言語モデルであり、チャットボットのようにチャットできるだけでなく、画像を分析させることもできます。
例えば、この画像を入力して、この画像を要約させることができます。そしてこれをかなりうまく実行します。またはこの画像をアップロードして、画像内のテキストを認識させることもでき、すべて正しく取得しました。
画像の分析に加えて、これは画像を生成することもできます。テキストプロンプトによる画像生成の例をいくつか紹介します。画像の生成に加えて、これはテキストプロンプトだけで画像を編集することもできます。
例えば、この画像を取り、このように宮崎スタイルに変換できます。またはこの肘掛け椅子を完全に取り除くことができます。そしてこのような結果が得られます。ヨットを熱気球に置き換えることができます。
そしてこれが結果です。またはこれはテキストの置き換えも得意です。95を123に置き換えると、このような結果になります。またはここに小さな木製の小屋を追加できます。
画像から特定の被写体を抽出することも得意です。この人間を白い背景に抽出できます。
Ovis-U1のパフォーマンスを見ると、最高ではありませんが、有料でクローズドソースのGPT-4oにかなり近づいています。Ovis-U1は完全にオープンソースです。このGen Evalベンチマークでは、Ovis-U1は先週紹介したOmni-Genen 2や、Byte DanceのBagel、GPT-4oを含む、これらの他の画像生成器を上回っています。
画像編集に関しては、再び最高ではありませんが、GPT-4にかなり近くなっています。わずか2ポイント差で、画像からの抽出や置き換え、除去において最高スコアを記録しました。
良い点は、これをオンラインで試せる無料のHugging Faceスペースをリリースしていることです。これをクリックして、これが非常に軽量な30億パラメータのものであることに注目してください。この画像をアップロードしてみて、プロンプトとして画像内のキャスター付き小さな家をビンテージカーに置き換えると試してみましょう。
つまり、この全体をビンテージカーに置き換えるはずです。実行を押して、何が得られるか見てみましょう。そしてこのような結果が得られます。悪くありません。確かにこの全体をビンテージカーに置き換えながら、背景の木や他のすべてを同じまま保っています。
とにかく、Hugging Faceスペースに加えて、良い点は、これをインストールしてコンピューターでローカルに実行する方法のすべての指示が含まれたGitHubリポジトリもあることです。これはFlux上に構築されたと記載されていることに注意してください。
そのため、VRAM要件はFluxの実行に必要なものと似ていると推測します。とにかく、詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
Q-TTS:新しいテキスト音声合成
次に、オープンソースで、11 Labsよりもさらに優秀とされる新しいテキスト音声合成生成器があります。これはQ-TTSと呼ばれ、誰かの音声の数秒間だけあれば、その人の声をクローンして何でも言わせることができます。
そして、元の音声にその表現や感情が含まれている限り、異なる表現でも機能します。例えば、ここに怒っているアメリカ人女性がいて、このセリフを話させてみましょう。
「信じられない、彼がそんなことをするなんて。一体自分を何様だと思っているの?」
そしてここは怒っているアメリカ人男性です。
「何が問題なんだ、相棒?」
ここは困惑しているアメリカ人女性です。
「ちょっと待って。この金属ブラケットはどこに行くの?ステップ5にも記載されていない。これを逆向きにねじ込んだのか何なのか?」
私には分かりませんが、これはまだかなりロボット的で、リアルで自然ではないように思えます。しかし、とにかく、ここは困惑しているアメリカ人男性です。
「えーと、ちょっと待って。えー、この金属ブラケットはどこに行くの?えー、ステップ5にも記載されていない。これを逆向きにねじ込んだのか何なのか?」
それは少し良かったようです。音声にどもりや自然な欠陥が聞こえます。または恐怖の例です。
「ああ、なんてこった、あれ見た?誰かが私たちを追いかけているみたい。今すぐここから出なければ。心臓がドキドキして息がほとんどできない。」
悪くありませんが、まだ聞きたいほどリアルではありません。とにかく、ここは悲しい例です。
「携帯を確認し続けて、彼女からの返信を望んでいるけれど、3日経ってもう今回は本当に終わったと受け入れなければならないと思う。」
それは本当に良かったです。彼女は生成全体を通じて非常に悲しく聞こえました。または皮肉な男性です。
「確かに。素晴らしいアイデアだ。私がそれを思いつかなかったなんて信じられない。」
これらはテキスト音声合成の例です。ちなみに、unmuteと呼ばれる彼らのオンラインプラットフォーム経由で、これをリアルタイムで使用できます。
これをクリックしてみましょう。ここでこれらの異なる声とシナリオから選択できます。explanationを試して、connectをクリックしてみましょう。
「こんにちは、あなたが今話しているシステムであるunmuteについて質問に答えるためにここにいます。基本的な紹介をお聞きになりますか?」
「あなたについてもっと教えてください。」
「確かに。私は話すことができるモジュラーAIシステムです。聞くための耳、考えるための脳、話すための口の3つの部分があります。脳はMistral Small 3224B Instructと呼ばれるモデルで、耳と口はCQIという会社によって作られています。」
「彼らはパリに拠点を置いています。光合成のプロセスについて教えてください。」
「確かに。光合成は緑の植物、藻類、一部の細菌が光エネルギー、通常は太陽からの光エネルギーをグルコースや糖の形での化学エネルギーに変換する過程です。」
「ああ、ちょっと待って。つまり、一部の細菌も光合成ができるのですか?」
「はい、そのとおりです。シアノバクテリアのような一部のタイプの細菌も光合成を行うことができます。それらはしばしば水中に見つかり、植物と同じように酸素を生産できます。あなたは何について知っていますか」
「何でもいいので、最も驚くべき事実を教えてください。あなたが知っている最も驚くべき事実を。」
「中性子星物質のスプーン1杯が地球上で約60億トンの重さになることをご存知ですか?これは中性子星が信じられないほど密度が高いからです。その重力は非常に強く、時空の構造を歪めることができます。」
そこで切断を押してみましょう。ご覧のとおり、これは本当に自然に聞こえるリアルタイム音声で、話しかけることができます。
このQ-TTSの良い点は、数分間の長いクリップを生成できることです。ここで20分以上の生成が見られます。これらの例をいくつか再生してみましょう。これがクローンする必要がある元の音声で、約10秒で十分です。
「女の子たちが自分たちの行動と声が重要で、今すぐ必要とされていることを理解することが重要です。自分のアイデアを信じてください。私たちはしばしば自分たちが若いと思います。」
そしてここが生成です。
「私はあなたをほとんど知りません。神の名において、最も慈悲深く、最も恵み深き、尊敬すべき国連事務総長バン・キムン氏、尊敬すべき総会議長ビエイラ氏、尊敬すべき国連世界教育特使ゴードン・ブラウン氏、尊敬すべき長老たち、そして私の愛する兄弟姉妹たち、今日。長い時間を経て再び話すことができるのは私にとって光栄です。」
「このような尊敬すべき人々とここにいることは、私の人生の素晴らしい瞬間です。どこからスピーチを始めればよいかわかりません。人々が私に何を期待するかわかりません。しかし、まず第一に、私たち全員が平等である神に感謝します。」
基本的に、このクリップは品質の低下なしに8分間続きます。つまり、CQIは長い音声クリップの生成に本当に優秀です。別の例です。まず、クローンする必要がある音声です。
「いいえ、私はそうは思いません。なぜなら彼らはそれを大幅に単純化したからです。私はそれをほとんど見たことがありませんが、聞いたところでは、そして私は」
そしてここが3分間の長さの生成です。
「ついに、私は自分自身の言葉を少し言うことができます。私は何も隠したくありませんでしたが、今まで憲法上私が話すことは不可能でした。数時間前、私は王と皇帝としての最後の義務を果たしました。そして今、私の兄弟であるヨーク公に後継されたので、私の最初の言葉は彼への忠誠を宣言することでなければなりません。私は心を込めてこれを行います。」
そしてそれは続きます。しかし、聞いてわかるように、元の音声の10秒間しか与えられていないにもかかわらず、元の音声を非常によくクローンしています。別の例です。
それが元の音声です。次に、その音声での生成で、これは23分間の長さです。
そして複数言語について言えば、CQIは今のところ英語とフランス語のみしかできないことに注意してください。つまり、これは深刻な制限です。他のテキスト音声合成ツールは多くの異なる言語を扱えますが、CQIについては英語とフランス語に限定されているようです。
ここで彼らは、これらのベンチマークによると、この新しいCQIテキスト音声合成が11 Labsよりも優秀だと主張しています。このベンチマークでは低い方が良く、CQIがこれらすべての異なるテキスト音声合成プラットフォームの中で最低スコアを記録しました。そして話者類似性についても同じです。これは声をどれだけうまくクローンするかのようなものです。CQIはまだ11 Labsより優秀ですが、CSMをわずかに下回っています。
彼らはここに11 Labsバージョン3も含めておらず、Fish AudioのOpen Audio S1も含めていないことに注意してください。どちらも最先端のテキスト音声合成生成器です。つまり、このテーブルは一粒の塩と一緒に受け取ってください。彼らは多くのトッププレイヤーを省いているようです。
そして私が再生したいくつかの例からもわかるように、特に印象的というわけではありません。しかし、これは完全に無料でオープンソースです。GitHubリポジトリをクリックすると、テキスト音声合成ツールだけでなく、音声クリップを入力してその転写を提供する音声テキスト変換ツールも実行する方法のすべてのコードが含まれています。
これはわずか16億パラメータであることに注意してください。そのため、ほとんどの消費者グレードGPUで実行できるはずです。とにかく、リアルタイムAI音声とGitHubリポジトリへのリンクがすべてここの上にあります。詳しく読みたい方は、説明欄にこのメインページへのリンクを貼っておきます。
まとめ
今週のAIのハイライトをすべてまとめました。これらすべてについてどう思われますか、コメントで教えてください。どのニュースがお気に入りでしたか?そしてどのツールを試すのを最も楽しみにしていますか?いつものように、皆さんと共有するトップAIニュースとツールを探し続けます。
この動画を楽しんでいただけた場合は、いいね、シェア、チャンネル登録を忘れずに、そしてさらなるコンテンツをお楽しみに。また、AIの世界では毎週非常に多くのことが起こっています。私のYouTubeチャンネルですべてをカバーすることはできません。
そのため、AIで起こっているすべてを本当に最新に保つために、私の無料の週刊ニュースレターを購読することを確認してください。そのリンクは説明欄にあります。ご視聴ありがとうございました。次回お会いしましょう。


コメント