ロボットの嫁、Soraの終了、GLM-5.1、AIによる脳スキャン、Googleのリアルタイム音声:AIニュース

AIニュース
この記事は約40分で読めます。

本動画は、日々進化を続けるAI業界の最新ニュースをまとめた解説動画である。OpenAIによる動画生成モデル「Sora」の提供終了という衝撃的なニュースをはじめ、超リアルなヒューマノイドロボット、Metaの脳活動予測AI、Googleのリアルタイム音声対話AI「Gemini 1.5 Flash Live」など、多岐にわたるトピックを網羅している。また、画像修復ツールや最新の動画生成モデル「Wan 2.1」、ComfyUIのアップデートなど、実用的なオープンソースツールも多数紹介しており、AIの最前線と今後の展望を効率的に把握できる内容となっている。

Robot waifus, RIP Sora, GLM-5.1, AI brain scans, Google realtime voice: AI NEWS
HUGE AI NEWS: GLM-5.1, daVinci MagiHuman, ARC-AGI 3, PrismAudio, Matrix Game, & more #ai #ainews #aitools #aivideo #agiT...
  1. 怒涛のAIニュース最新情報
  2. 実世界の劣化画像を修復する「Real Restore」
  3. リアルタイムでインタラクティブな世界を生成する「Matrix Game 3.0」
  4. 音声付き動画を生成する新たなオープンソースAI「Da Vinci Magi Human」
  5. 無音動画に完璧な効果音をつける「Prism Audio」
  6. 2D動画から滑らかな4Dシーンを生成する「Retime GS」
  7. 脳の活動を予測するMetaの「Tribe V2」
  8. 少ないVRAMで巨大モデルを動かせるComfyUIの新機能
  9. テキストから人間の動きをリアルタイム生成する「Action Plan」
  10. 2D画像モデルだけで3D世界を構築する「World Agents」
  11. 矛盾した動画から一貫した3D世界を作る技術
  12. 複数要素を一貫して保持するディープフェイクAI「Lumos X」
  13. 全てを一つの場所で完結させる「Cinema Studio 2.5」
  14. AIモデルを劇的に圧縮するGoogleの「Turboquant」
  15. コーディングに優れた最新モデル「GLM-5.1」
  16. AIの未知への適応力を測る新ベンチマーク「ARC-AGI 3」
  17. ゲーム画面を実写化する「Real Master」
  18. OpenAIが「Sora」の提供を終了
  19. オープンソースの最先端文字起こしAI「Cohere Transcribe」
  20. 超リアルなヒューマノイドロボット「Origin F1」
  21. 少ない写真から3D空間を生成する「Logger NVS」
  22. 物理的な「時間」をAIに理解させる「Pulse of Motion」
  23. 激しい動きのピクセルを追跡する「MegaFlow」
  24. AIにパソコン操作を学習させるデータセット「CUA Suite」
  25. 自然な会話を実現するGoogleの「Gemini Flash Live」

怒涛のAIニュース最新情報

AIの進化は決して眠ることはなく、今週もとんでもないニュースが目白押しです。現実世界にいるようなAIの恋人がもうすぐ登場しますし、OpenAIはSoraを終了させました。また、音声付きの新しいトップクラスのオープンソース動画生成AIも登場しています。さらに、長期記憶を持ち、リアルタイムでインタラクティブな世界を丸ごと生成できるAIもあります。

Metaは、テキストではなく人間の脳活動を生成するという、かなり特殊なAIをリリースしました。Zhipu AIは最高かつ最新のモデルであるGLM-5.1を公開し、これはエージェントによるコーディングに非常に優れています。他にも、元の形状やダイナミクスを保ったまま、ゲームのレンダリングを写真のようにリアルなシーンに変換できるAIや、動画内で起きていることと実際に同期した音声を生成するのが得意なAIもあります。

ComfyUIは大規模なアップデートを行い、VRAMが少なくてもより大きなモデルを動かせるようになりましたし、さまざまな質の悪い写真を修復するのに最適な新しいオープンソースAIもあります。さらに、トップクラスの新しい文字起こしツールなど、盛りだくさんです。それでは、早速見ていきましょう。

実世界の劣化画像を修復する「Real Restore」

まず最初は、写真編集に非常に役立つAIです。これはReal Restoreと呼ばれ、基本的には実世界の損傷した画像を修復するように設計されたモデルです。たとえば、ぼやけていたり、ノイズが乗っていたり、圧縮されていたり、傷がついていたり、白黒になっていたりする低品質の画像を読み込ませることができます。基本的には欠陥のある画像なら何でもよく、このAIは詳細を追加したり、シャープにしたり、品質を向上させたり、アーティファクトを取り除いたり、色を良くしたりすることで修復してくれます。ノイズの除去に非常に優れていることがわかると思います。

また、雨や雪などのエフェクトを取り除くこともできますし、ご覧のように反射を取り除くのにも非常に効果的です。もちろん、古い白黒写真を読み込ませて修復させることもできます。このReal Restoreを、ベンチマークを使って他の主要な画像編集ツールと比較してみると、Nano Banana ProやGPT Image 1.5といったトップクラスのクローズドモデルと同等の性能であることがわかります。また、Qwen ImageEditやLongCat image editといった主要なオープンモデルにも勝っています。ですから、少なくともこうした種類のタスクにおいては、信じられないほど素晴らしい結果を出しています。

素晴らしいのは、彼らがこれをすでにリリースしているということです。ページ上部のコードボタンをクリックして少し下にスクロールすると、これをダウンロードして自分のコンピューターでローカルに実行するためのすべての手順が記載されています。さらに、プロンプトのフォーマットに関するガイドラインもいくつか記載されています。全体のサイズは42GBなので、すべてを収めるにはハイエンドのGPUが必要になる点には注意が必要ですが、これは現時点で写真修復に使用できる最高のオープンソース画像エディターの1つです。もし試してみたい方は、下の説明欄にメインページへのリンクを貼っておきます。

リアルタイムでインタラクティブな世界を生成する「Matrix Game 3.0」

次のAIはかなりヤバいです。Skywork AIのMatrix Game 3.0というもので、直前に起きたことを記憶しながら、インタラクティブな世界全体をリアルタイムで生成できるAIです。単に短いクリップを生成するのではなく、あなたの行動に反応する連続した動画を作成することができ、単なる動画生成AIであるにもかかわらず、まるでプレイ可能なシミュレーションのようです。

いくつか例をお見せしましょう。開始フレームと、W、A、S、D、スペース、攻撃といったユーザーのアクションを受け取り、これらの入力に反応する720pのビデオストリームをリアルタイムで生成し、まるでそのシーンを歩き回っているかのように見せることができます。過去にもこうした3D世界を生成するAIはたくさん紹介してきましたが、特に視線を外して再び戻したときに、一貫性が保たれないことがありました。

このモデルは、記憶を追加することでその問題を解決しています。過去のフレームを追跡し、それらを使用して長いシーケンスにわたって安定した世界を維持します。これにより、ほんの数秒ではなく、数分単位の動画を生成できるようになりました。その上、非常に高速です。わずか50億パラメータのモデルで、720p解像度の動画を毎秒約40フレームというリアルタイムで生成できるのです。

素晴らしいことに、彼らはすでにこれをリリースしています。ページ上部のGitHubボタンをクリックすると、ローカルのコンピューターにダウンロードして実行するためのすべての手順が記載されています。ここでは64GBのVRAMでテストしたと書かれていますが、それが最低要件というわけではありません。Hugging Faceのフォルダをクリックすると、ベースモデルのサイズは13GB程度で、かなり小さいことがわかります。これはわずか50億パラメータのモデルなので、ミドルクラスからハイクラスのGPUに収まるはずです。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

音声付き動画を生成する新たなオープンソースAI「Da Vinci Magi Human」

また今週は、新しいトップクラスのオープンソース動画生成AIも登場しました。Da Vinci Magi Humanと呼ばれるもので、音声をネイティブに組み込んで動画を生成できる、統合された150億パラメータのモデルです。複数の言語をサポートしており、どうやらこれはトップクラスのオープンモデルの一つであるLTX Videoよりも高い勝率を誇るようです。参考までに、いくつかデモをお見せしましょう。

ねえ、あなた。ここに来て147日目よ。信じられる?もうすぐ1年になるわ。毎朝地球を見て、私たちの街を探すの。通りを見つけて、家を見つける。そして毎日手を振っているわ。あなたに向けてね。もし私が戻れなくても、星空を見上げて。時々そこにいて、手を振っているから。

ファー! ファー! 約束するわ。

さて、ここからがすごいところです。視覚的な品質とテキストへの忠実さに関する彼らの自己申告のベンチマークによると、Da VinciはLTX Videoよりもさらに高いスコアを獲得しています。また、エラー率も低くなっています。そしてこちらは、人間にどちらの動画が良く見えるかを選ばせたブラインドテストですが、Da VinciはLTX Videoと比較して60%の確率で勝利しています。つまり、これは非常に有望なモデルだということです。しかも、これは最初から検閲なしで使えます。

ただし、興奮しすぎる前に言っておくと、Hugging Faceのリポジトリをクリックして確認すると、蒸留されたモデルでさえサイズが61GBもあります。ですから、皆さんの多くはこれをコンシューマー向けのハードウェアで実行することはできません。ただ、これはオープンソースなので、うまくいけばより量子化されたバージョンや、GGUF版が登場するでしょう。とにかく、LTX Videoよりもさらに優れているかもしれない、音声付きの新しいオープンソース動画モデルが登場したということだけ覚えておいてください。もしさらに詳しく知りたい方や、これを実行するのに十分なVRAMをお持ちの方は、インストール方法の手順がすべて記載されているこのページへのリンクを下の説明欄に貼っておきます。

無音動画に完璧な効果音をつける「Prism Audio」

次のAIは非常に便利です。Prism Audioと呼ばれるもので、基本的には無音の動画を入力すると、動画で起きていることに合わせて、信じられないほどリアルで完璧なタイミングの効果音を自動的に生成してくれます。いくつか例をお見せしましょう。

ヤバくないですか?この音は完全にこのAIで生成されたものです。元の動画の音ではないのに、ご覧の通り、実際に彼がギターを弾いているような音に聞こえます。これらのデモからわかるように、Prism Audioは動画で起きていることと実際に同期した音声を生成することができます。ですから、効果音を追加する必要がある無音動画をお持ちの場合、Prism Audioは現在それを実現するための最高のオープンソースの選択肢です。

実際、参考までにいくつかのベンチマークスコアをご紹介します。これをMM AudioやHunyuan Video Foleyといった、以前私のチャンネルで紹介した他の競合ツールと比較してみましょう。Prism Audioはわずか5億1800万パラメータと他の数十億パラメータのモデルよりもはるかに小さいだけでなく、これらすべての異なるベンチマーク指標で最高のスコアを達成している点に注目してください。さらに、生成にかかる時間も最速です。

素晴らしいことに、彼らはすでにこれをリリースしています。ページ上部のGitHubリポジトリをクリックすると、ローカルのコンピューターにダウンロードして実行するためのすべての手順が記載されています。加えて、このモデルはサイズがわずか6GBとかなり小さいため、ほとんどのコンシューマー向けGPUに収まるはずです。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

2D動画から滑らかな4Dシーンを生成する「Retime GS」

また今週は、こちらのAIも非常に便利です。Retime GSと呼ばれるもので、人物の高品質な全身3Dアニメーションを作成することができます。いくつか例をお見せしましょう。これは通常の2D動画フレームを入力として受け取り、4D動画、あるいは時間とともに動く3Dシーンを出力します。これを任意の角度から見ることができます。

通常、AIに動くシーンを3Dで再構築させる場合、正確なフレームを与える必要があります。その間のフレームを生成しようとすると、結果がぼやけたり、グリッチが発生したり、ゴーストのようなアーティファクトが出たりすることがあります。しかし、このAIはそうした欠落したフレームを処理することができます。左側が元の動画です。かなりカクカクしていますが、このAIは空白を埋めて滑らかなシーンを生成することができます。

これは「連続時間3D表現」と呼ばれるものを作成することでこの問題を解決しています。つまり、AIは特定の瞬間にどう見えるかだけでなく、時間とともにシーンがどのように変化するかを理解しているのです。モーショントラッキング、オプティカルフロー、改良された4Dガウシアンスプラッティングなどの技術を使用して、オブジェクトが動いても一貫性を保ちます。

このツールを他の4Dシーン生成AIと比較してみると、他のすべての競合モデル(Deform、Gaussian Flow、STGS、2D Liftなど)に対するこの新モデルの明確な優位性がわかります。他のモデルではシーンが実際には滑らかに流れていないことに注目してください。多くのアーティファクトがあり、非常にグリッチっぽく見えます。そしてこちらが参考のための別の例です。他の競合ツールでは大量のアーティファクトやグリッチが見られます。一方、この新しいRetime GSは、非常に滑らかで一貫したアニメーションを生成できた唯一のモデルです。

ページの上部にスクロールしてみると、現時点では技術論文のみが公開されていますが、ここにはデータが間もなく公開されると書かれています。つまり、彼らはこれをオープンソース化する予定のようです。とりあえず、さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

脳の活動を予測するMetaの「Tribe V2」

また今週、MetaからTribe V2という非常に興味深いAIがリリースされました。テキストや画像を生成するAIモデルの代わりに、このモデルはあなたの脳が物事にどう反応するかを予測しようとします。動画のようなものを入力すると、人間の脳活動のシミュレーションを出力します。基本的には、誰かがその入力を体験した場合に、脳スキャンがどのように見えるかということです。

これは700人以上の数百時間に及ぶfMRIデータでトレーニングされており、そこから人間の脳がリアルタイムでどのように情報を処理するかのパターンを学習しました。すごいのは、これが一般化できるということです。つまり、トレーニングデータで見たことのない新しい人や新しいコンテンツに対しても、脳の反応を予測できるのです。たとえば左側は、誰かがこの動画を見た場合の脳活動を予測したものです。そしてこちらは別の例です。この動画を見た場合、脳のこれらの場所が活性化すると予測しています。

そして一番すごいのは、ここに書かれているように、Tribe V2の予測は、実際のfMRIスキャンよりも典型的な反応を正確に表していることが多いということです。つまり、さらに精度が高いのです。赤いバーのTribeと、グレーのバーの他の脳スキャンを比較すると、実際にTribeの方がより正確な予測をしています。要約すると、これは人間の知覚のデジタルツインのようなものだと考えることができます。思考を読み取っているわけではありませんが、私たちの脳が物事をどのように体験し反応するかをモデル化することに近づいており、これは神経科学やヘルスケアにとって非常に大きな意味を持つでしょう。

素晴らしいことに、彼らは実際にこれをオープンソース化しています。このコードボタンをクリックすると、ローカルのコンピューターにダウンロードして実行するためのすべての手順が記載されています。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

少ないVRAMで巨大モデルを動かせるComfyUIの新機能

また今週は、ComfyUIから非常に便利なアップデートがありました。ここで彼らは「dynamic VRAM」と呼ばれるものを導入しました。これはコンピューターのVRAM、つまりビデオメモリを自動的かつよりインテリジェントに管理するものです。過去には、すべてのモデルを一度にメモリにロードする必要がありましたが、これにより頻繁にクラッシュしたり、低い設定を使用せざるを得なくなったりしていました。

このdynamic VRAMでは、すべてを一度にロードする代わりに、生成時に必要なときだけAIモデルのパーツをロードしたりアンロードしたりします。これによりVRAMを大幅に節約でき、同じGPUでよりはるかに大きなモデルを使用したり、より高解像度の画像を生成したりできるようになります。さらに、メモリ不足(Out of Memory)のエラーも減らすことができます。また、生成速度も速くなります。

こちらはWan 2.1とRTX 5060を使用した実行時間です。赤いバーはこの新しいdynamic VRAMを使用していない場合です。実行時間がかなり長くなっているのがわかりますが、緑のバーはこの新しいdynamic VRAM機能を使用した場合です。ご覧のように、ほとんどの場合において劇的に速くなっています。そしてWan 2.1の代わりに、こちらはFLUX.1 [dev]を使用した画像生成の例です。ここでもこの新しいdynamic VRAM機能を使用すると、画像の生成がはるかに速くなります。ほとんどの場合において、半分の時間で済んでいます。

これは特に、ミドルレンジからローエンドのVRAMしか搭載していないGPUをお持ちで、より強力な画像モデルを動かしたい方にとって非常に役立ちます。以前はできなかったという方も、ComfyUIを最新バージョンにアップグレードして、すべてが収まるかどうか試してみてください。ちなみに、この新しいdynamic VRAM機能は今のところWindowsおよびLinuxでNvidia GPUを使用しているユーザーのみが利用できる点にご注意ください。私の知る限り、Macは現在サポートされていません。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

テキストから人間の動きをリアルタイム生成する「Action Plan」

次のAIも非常に便利です。Action Planと呼ばれるもので、テキストプロンプトから人間の動きをリアルタイムで生成できるAIです。いくつか例をお見せしましょう。

インターフェースはこんな感じです。たとえば「歩く」というプロンプトを書くだけで、リアルタイムで歩き出します。「ジャンプ」と書けば、リアルタイムでジャンプさせることができます。椅子に座るなどのより複雑なアクションも可能ですし、こんなことも処理できます。あるいは手を叩かせることもできます。この場合はあまり手を叩いているようには見えませんが。後ろ歩きさせたり、他の色々なことをさせたりもできます。動きを滑らかに保ちながら、これらすべてのアクションをリアルタイムで処理できることに注目してください。

これがAction Planと呼ばれる理由は、未来を予測している(future-aware)からです。言い換えれば、先のフレームの計画を前もって立てているようなものです。つまり、AIは現在のモーションを生成しながら、次に何が起こるかを知っているのです。これにより、滑らかで一貫したモーションを生成しながら、最大9倍の速度で実行することができます。

もちろん、これの最終目標は、こうした偽の人間フィギュアにとどまるものではありません。最終目標は、これをヒューマノイドロボットに応用し、あなたのコマンドにリアルタイムで反応できるようにすることです。ここにあるのは、Action PlanにリンクされたUnitree G1のデモで、右上にプロンプトが表示されています。たとえば今、T字のポーズで立たせようとしていますが、ほぼリアルタイムで反応しています。左腕を上げさせることもでき、実際に左腕を上げます。

このように、ヒューマノイドロボットの動きをコマンドするための非常に効率的なフレームワークになり得ます。左右へのキックのような複雑なアクションもできることがわかります。ページの上部にスクロールすると、彼らはこれのコードを公開しています。このコードボタンをクリックして少し下にスクロールすると、コンピューターへのインストールと実行方法の手順がすべて記載されています。さらに、このSonicフレームワークを介してUnitreeのロボットにリンクする方法の手順も含まれています。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

2D画像モデルだけで3D世界を構築する「World Agents」

次はこちらの非常に魅力的なプロジェクトです。World Agentsと呼ばれるもので、研究者たちは次のような疑問を投げかけました。「通常の画像モデルは、2D画像だけでトレーニングされているにもかかわらず、本当に3D空間を理解できるのだろうか?」その答えは、エージェントを使って適切にガイドすれば「イエス」のようです。

これはWorld Agentsと呼ばれ、画像モデルだけを使用して完全な3D世界を構築するエージェントシステムです。仕組みは次のとおりです。生成したい3Dシーンを説明するテキストプロンプトを入力すると、このエージェントループに入ります。まず「ディレクター」がいて、これが全体を指揮します。現在のシーンを分析し、次のプロンプトを記述し、次にどの視点を生成するかを決定します。そして次に「ジェネレーター」がいて、これが実際にシーンや動画のフレームをレンダリングする役割を担います。さらに「ベリファイア(検証者)」がいて、新しい画像がシーンに適合しているかをチェックし、適合していなければそれを拒否してディレクターに戻し、新しいシーンを生成させます。

このループから生成されたすべてのフレームは、ご覧のようにガウシアンスプラッティングを使用して3Dに変換されます。こちらがその生成物の一部です。シーンを説明する最初のプロンプトは下にあります。ご覧のように、実はかなり良い出来です。3Dシーン内を動き回ることができ、どの角度からでも一貫性が保たれています。彼らのプロジェクトは、追加のトレーニングを一切必要とせず、2D画像モデルを使用するだけで3D世界を構築できることを確かに証明しています。既存の拡散モデルを使用するだけで、探索可能な3D環境を生成できる可能性があるのです。

現在のところ技術論文のみが公開されており、コードはまだリリースされていませんが、さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

矛盾した動画から一貫した3D世界を作る技術

さて、前のものと似ていますが、このプロジェクトは「矛盾した視点からの世界再構築(world reconstruction from inconsistent views)」と呼ばれています。これはAIが生成した動画から3D世界を構築できる技術です。基本的には、動画モデルを使ってシーンの複数の動画を生成し、それらをつなぎ合わせて一貫した3D世界を作成します。

いくつか例をお見せしましょう。最初は、動画生成AIでランダムに動画を生成しているだけなので、一貫性のない部分が山のようにあることに注目してください。形状やその他の多くの詳細が矛盾している可能性がありますが、このモデルが行うのは、基本的にはその乱れをクリーンアップすることです。すべてを滑らかにし、ノイズを取り除き、全体をはるかに一貫性のあるものにすることができます。

素晴らしいのは、これがたった1つの動画からでも3Dシーンを生成できるという点です。実際に複数の動画を入力する必要はありません。右下にあるこの新しいモデルと他の3Dシーンジェネレーターを比較すると、この新しいモデルの方がはるかに一貫性があり、詳細であることがわかります。こちらは参考のための別の例です。ご覧の通り、他の競合モデルにははるかに多くの矛盾がありますが、この新しいモデルはこれらの問題の多くを修正できています。

このAIの優れた点は、モデルに依存しないことです。どのモデルで生成された動画でも入力できます。たとえば、この出力はGen-3を使用しています。こちらはVoyagerを使用し、こちらはWan 2.1を使用しています。つまり、どの動画生成AIを使用しても、その動画から一貫した3Dシーンを生成できるのです。

素晴らしいことに、ページの上部に行くと、彼らはこれのコードをリリースしています。このコードボタンをクリックすると、彼らのGitHubリポジトリに飛びます。少し下にスクロールすると、ダウンロードしてコンピューターで使用するためのすべての手順が記載されています。ここではVRAM要件は明記されていませんが、これはByteDanceのDepth Anything V3に基づいています。少なくともベースモデルのサイズはわずか540メガバイト程度なので、ほとんどのコンシューマー向けデバイスに収まるはずです。とにかく、さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

複数要素を一貫して保持するディープフェイクAI「Lumos X」

また今週は、ディープフェイクを作成するための新しいAIが登場しました。これはLumos Xと呼ばれるもので、複数の人物やアイテムが登場するAI動画をかなり一貫性を保ったまま作成することができます。たとえば、テイラー・スウィフトの顔とこのプロンプトを入力したものが、右下にあるLumos Xの生成結果です。少なくとも彼女の顔は、他の2つの競合モデルよりもはるかに一貫しているように見えます。

また、これは複数の参照画像を受け取ることもできます。たとえば、この男性とこの女性をアップロードしてみましょう。そしてこれがLumos Xの結果です。人間だけでなく、さまざまなアイテムをアップロードすることもできます。たとえば、この男性と、黒いシャツ、スピーカー、そしてこの背景。これらをすべてプロンプトに入れることができます。そしてこちらがLumos Xによる生成結果です。他の競合ツールと比較して最も一貫しているように見えますが、手や指はまだ少し崩れていますね。

あるいは、たくさんのものを入力できる別の例がこちらです。特定のシャツを着た男性と、別のシャツを着た別の男性、さらにフィルムリール、白いマグカップ、そしてこの部屋です。ご覧のように、他の競合モデルはこれほど多くの参照入力を一度に処理することはできません。しかし、この新しいLumos Xは、これを最も一貫して処理することができています。

この裏にある魔法は、彼らが「リレーショナル・セルフアテンション」と「リレーショナル・クロスアテンション・ブロック」と呼ぶものを使用して、スカーフや顔、あるいはオブジェクトなどの特定の参照要素を動画の特定の部分に明示的にリンクさせていることです。これにより、これらの参照要素をシームレスに動画に注入できるのです。

ページの上部にスクロールすると、素晴らしいことに彼らはすでにこれのコードをリリースしています。このコードボタンをクリックして少し下にスクロールすると、ローカルのコンピューターにダウンロードして実行するためのすべての手順が記載されています。これはWan 2.1をベースにしているため、現時点で最高のオープンソース動画モデルというわけではないことに注意してください。また、全体のサイズは35GB程度なので、実行するにはハイエンドのGPUが必要になる点にもご注意ください。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

全てを一つの場所で完結させる「Cinema Studio 2.5」

さて、最高の画像および動画生成AIを取り上げてきましたが、情報量が多すぎて圧倒されてしまうこともあります。幸いなことに、この動画のスポンサーであるHiggsfieldは、すべてを1つの場所にまとめてくれています。彼らは先ほど、キャスティングからカット編集までプロフェッショナルなワークフローを備えた世界初のAIビデオスタジオ「Cinema Studio 2.5」をローンチしました。

正直なところ、これはゲームチェンジャーです。さまざまなツールを行ったり来たりする代わりに、すべてが1つの場所で行えます。AIキャラクターをキャスティングし、ロケーションを設定し、シーンを構築し、ショットをディレクションし、最終的なフッテージのカラーグレーディングまで、すべて同じワークスペース内で行うことができます。

他のすべての動画ツールと異なるのは、これが実際の映画制作のロジックに従っている点です。一度キャラクターを作成すれば、すべてのシーンで視覚的な一貫性が保たれます。キーフレームが決定したら、ショットの動きをディレクションできます。パン、チルト、ドリー、ズーム、さらにはドローン風のショットなど、映画のようなカメラワークを割り当てることができます。これらすべてが、Cinema Studio 2.5を映画制作やコンテンツ作成において信じられないほど有用なものにしています。

そしてここが重要です。彼らは、完全にAIで作られた映画のための初のAIネイティブ・ストリーミングプラットフォーム「Higgsfield Original Series」を立ち上げました。彼らのデビュー短編映画『Arena Zero』は、すべてHiggsfield内でエンドツーエンドで作成されました。それだけでも、このツールがいかに強力かがわかるでしょう。下の説明欄にあるリンクから、Cinema Studio 2.5をチェックしてみてください。

AIモデルを劇的に圧縮するGoogleの「Turboquant」

また今週は、Google ResearchがTurboquantという信じられないほど有用な技術をリリースしました。これはかなり専門的ですが、わかりやすく説明しましょう。基本的には、大規模なAIモデルを劇的に圧縮し、はるかに効率的にするための新しい技術です。優れたパフォーマンスを維持したまま、AIモデルを極限まで圧縮することで、信じられないほど小さなサイズに縮小します。これは、モデルが使用するメモリがはるかに少なくなり、より高速に実行でき、必要な計算能力も少なくなることを意味します。

この仕組みは非常に技術的です。彼らは「極値量子化(polar quant)」と呼ばれる高品質の圧縮手法を使用しています。もちろん、何かを大幅に圧縮するとエラーが生じる可能性があります。そのため、KGLアルゴリズムを使用してこれらのエラーを修正するという第2のステップも含まれています。

参考までに、いくつかの驚異的な結果をご紹介します。これはAIのメモリ使用量を6分の1に縮小することができます。また、データ検索速度を最大8倍に高速化することもできます。そして、膨大なテキストの中に埋もれたごくわずかな情報の断片をAIが分析して見つける必要がある「長いコンテキストの干し草の山から針を探す(needle in a haystack)」テストにおいても、これを非常にうまく処理できると彼らは述べています。これは非常に専門的な内容ですが、興味のある方は下の説明欄にこのメインの発表ページへのリンクを貼っておきます。

コーディングに優れた最新モデル「GLM-5.1」

また今週、私のお気に入りのAIラボの一つであるZhipu AIが、最新モデルGLM-5.1をリリースしました。今のところ公開されているベンチマークは1つだけで、それはエージェントによるコーディングがいかに優れているかというものです。ご覧の通り、現在のリーダーであるClaude 3 Opusにかなり迫っていますが、GLM-5.1の方がはるかに高速で安価であり、Claude 3 Opusよりも利用上限がずっと高いことに注目してください。ですので、これは信じられないほど有望に見えます。Artificial Analysisのような他のリーダーボードもチェックしてみましたが、まだGLM-5.1は追加されていないようです。

現在、これはすでにAPI経由で公開されています。ですから、これらの手順に従ってClaude CodeにGLM-5.1を簡単に追加することもできますし、これらの手順に従ってOpenRouterでモデルをGLM-5.1に切り替えることもできます。さらに素晴らしいことに、彼らはこれのオープンソース化も計画しており、それはとても喜ばしいことです。とにかく、さらに詳しく知りたい方は、下の説明欄にドキュメントページへのリンクを貼っておきます。

AIの未知への適応力を測る新ベンチマーク「ARC-AGI 3」

また今週、ARC-AGI 3が登場しました。これは今日のAIにとって非常に重要な疑問に答えるために設計された新しいベンチマークです。それは「AIは本当に人間のように新しいことを学び、適応できるのか?それとも単にパターンマッチングが得意なだけなのか?」という疑問です。

現在最前線にあるフロンティアモデルを見ると、これらはコーディング、構造化された推論、パターンの認識に非常に優れるように設計された推論システムです。しかし、新しい状況にその場で対応して学習するという、はるかに根本的な部分ではまだ苦労しています。そして、それこそがARC-AGI 3がターゲットにしているギャップなのです。AIに固定の質問を与える代わりに、この新しいベンチマークにはこんな要素が含まれています。それぞれの質問が、実はインタラクティブな演習になっているのです。

たとえば、これが最初のレベルです。私自身をこの十字架のところに移動させると、どうやら左下のアイコンが切り替わるようです。もう一度移動させると、回転し続けます。上のアイコンと一致するまで回転させる必要があるみたいですね。さて、上に行ってみましょう。これでこのレベルはクリアです。

よし、これが2番目のレベルです。ここに行って、この十字架の上に乗って青いものを回転させてみましょう。もう一度やります。さらにもう一度。よし。でもその後、私は死んでしまいました。下のライフバーが尽きてしまったみたいです。どうやらHPを回復するために黄色いものにも乗る必要があるみたいですね。とにかく、もう一度ここに戻りましょう。そして、よし、これに触れてHPを回復します。いい感じです。そしてまたここに行って、これを回転させます。よし。今度はここに戻って、またこの黄色いものに触れてHPを回復してから、下に行かなければなりません。

これが2番目のレベルです。基本的には、これらの新しい環境がどのように機能するのかを、私自身で推論して学習する必要があるわけです。この環境を見たことはありませんし、ゲームのルールもこれまで見たことがありません。人間にとってはこれを解明するのはかなり簡単ですが、トップモデルでさえ、このベンチマークでは非常に悪い結果になることがわかっています。

たとえば、Gemini 1.5 Pro、Claude 3 Opus、Grok 2といったトップモデルを見てください。スコアが0.5%未満であることがわかります。ご覧の通り、トップモデルでさえ、探索や目標の推論には非常に弱いのです。エージェントに目的が何であるかが伝えられない場合、これらのモデルはそれを自分で発見することができないようです。新しい環境がどのように機能するかをその場で学習することはできません。興味深いのは、人間はこれらのタスクの100%を解決できるということです。一方、ご覧のようにトップモデルは0.5%未満のスコアしか出せません。

これは非常に明確な事実を私たちに教えてくれます。今日のAIは、まだリアルタイムの学習や、馴染みのない環境への適応が得意ではないということです。だからこそ、このベンチマークは非常に重要なのです。今後数か月の間に、より多くのフロンティアモデルがこのベンチマークをクリアできるようになることを期待しています。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

ゲーム画面を実写化する「Real Master」

次のAIは非常に便利です。Real Masterと呼ばれるもので、プラスチックっぽく見えるビデオゲームの映像を、リアルに見える動画に変換してくれます。ビデオゲームからの入力例がこちらです。これをReal Masterに通すと、細部が強調されていることに注目してください。すべてがはるかにリアルに見え、特に顔がそうです。そしてこちらが参考のための別の例です。

この仕組みは、GTAのクリップのような3Dレンダリングされた動画を入力として受け取り、すべての形状、影、動きが元のものと完全に一致する写実的な動画を出力するというものです。基盤となるゲームの形状や詳細をめちゃくちゃにしたくないので、これは非常に重要です。このAIは、元のゲームの形状に確実に従うように設計されています。

これをLuciditやEditorなど、以前私のチャンネルで紹介した他の動画編集ツールと比較してみると、他のものは元のゲーム映像の細部をかなり台無しにしているのに対し、Real Masterは実際にすべての一貫性を保つことができていることに注目してください。これがこのAIの強みです。

さて、これをビデオゲームに適用するだけでなく、自動運転をトレーニングするための動画を強化するために適用することもできます。たとえば、左側にあるのは3Dの運転シミュレーションのようなものです。これをReal Masterに通すと、はるかにリアルに見えるようになり、この動画を使用して自動運転アルゴリズムをトレーニングすることができます。偽物っぽくてプラスチックのように見えますが、Real Masterに通した後ははるかに良くなります。ずっとリアルに見えます。

ページの上部にスクロールしてみると、残念ながら彼らはこれをリリースしていません。これはMetaからのもので、彼らは歴史的に多くのものをオープンソース化してこなかったので、あまり期待はできませんが、これは非常に興味深いアイデアなので、うまくいけばさらに詳細を公開してくれるでしょう。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

OpenAIが「Sora」の提供を終了

また今週、OpenAIがSoraの提供を公式に終了すると発表しました。このタイムラインは実際には非常に速いです。彼らがSoraをリリースしたのはほんの数か月前で、まだ半年も経っていませんが、すでにこれを終了すると発表しているのです。

明確にしておきたいのですが、Soraのモデル自体が完全に死んだわけではありません。引き続きSoraで動画を生成することはできますが、それは有料ユーザー向けにChatGPTに統合されることになりました。しかし、動画を生成して共有するためのTikTokスタイルのフィードであるSoraアプリとウェブサイト、それがなくなってしまうのです。ここでは、アプリやAPIのタイムライン、作品の保存方法などの詳細を今後共有すると述べています。

さて、問題はなぜかということです。なぜ彼らはこんなにも早くこれを終了させるのでしょうか?OpenAIは、これは「フォーカス(集中)」の問題だと言っています。彼らは計算リソースを再配分し、オペレーションを合理化し、より大きな優先事項、特にロボット工学や彼らが「現実世界の物理的タスク」と呼ぶものへとチームをシフトさせています。消費者向けの動画を生成する代わりに、現実世界を理解し相互作用できるシステムを構築したいと考えているのです。

そしてもちろん、コストの問題もあります。動画の生成は信じられないほど高コストです。以前、彼らは人々が無料で動画を生成できるSoraアプリを提供していました。しかし、すべてのチップが膨大な量の計算を消費し、その規模になればコストはあっという間に膨れ上がります。

もう一つの理由はトラクション(牽引力)です。このアプリは初期には大きな話題を呼びましたが、利用率はかなり落ち込みました。これを終了して、エンタープライズ向けのコーディングエージェントなどにリソースを再配分した方が良いわけです。彼らは、単なる消費者向けのクリエイティビティツールではなく、ビジネスのユースケースでAnthropicと競争したいと考えています。

さらに、安全性の観点もあります。Soraはディープフェイクを作成するのに非常に優れています。誤情報が簡単に広まってしまい、バイラルコンテンツが制御不能になる可能性があり、その規模では管理が容易ではありません。著作権問題でも頻繁に訴えられます。そのため、この製品を完全にカットすることで、こうした厄介な問題の多くを取り除くことができるのです。とにかく、現時点でわかっている情報は以上です。

オープンソースの最先端文字起こしAI「Cohere Transcribe」

また今週は、新しい最先端のオープンソース文字起こしツールが登場しました。これはCohere Transcribeと呼ばれるもので、基本的には音声をテキストに変換します。まず仕様についてですが、これは20億パラメータというかなり小さなモデルです。14の言語でトレーニングされています。そして素晴らしいことに、これはオープンソースであり、制限が非常に少ないApache 2ライセンスの下で公開されています。

ありがたいことに、これをオンラインで試すことができる無料のHugging Face Spaceが公開されています。音声クリップをアップロードして、言語を選択し、文字起こしのボタンを押すだけです。ご覧の通り、かなり高速です。すべてを2.5秒ほどで完了できました。動画を一時停止する必要すらありませんでした。これをざっとスキャンしただけでも、非常に正確に文字起こしできていることがわかります。Notebook LMやHubSpotといったトリッキーな単語もいくつかありますが、これらも正しく綴ることができています。

このTranscribeの勝率を、11 Labs、Qwen、OpenAIのWhisper、NvidiaのCanaryなど、他のトップクラスのAI文字起こしツールと比較してみると、平均してTranscribeがほとんどの場合で勝っていることがわかります。ですから、現時点で使用できる最高の文字起こしモデルの一つと言っても過言ではありません。これはまた、信じられないほど効率的です。Y軸がスループット(処理能力)で、高いほど優れています。そしてX軸が精度で、低いほど優れています。理想的には、この左上の象限に位置したいところです。そしてご覧の通り、Cohere Transcribeははるかにこの位置にあります。

これはすでにダウンロード可能になっています。こちらが彼らのHugging Faceのページで、インストール方法と使用方法の手順がすべて記載されています。長時間の文字起こしにも対応しています。こちらは55分の通話の例です。句読点のコントロールを設定することもできます。モデルサイズはわずか4GBとかなり小さいため、ほとんどのコンシューマー向けGPUで実行できるはずです。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

超リアルなヒューマノイドロボット「Origin F1」

次は、もしあなたが独り身で、誰かと付き合うつもりがないなら、もうそうする必要はなくなるかもしれません。こんな風に、現実のAIの恋人を購入できるからです。これはOrigin F1と呼ばれるもので、AheadFormという中国のラボが開発した超リアルなヒューマノイドロボットです。

一見したところ、カートゥーン風や偽物のロボットの頭部ではなく、リアルな人間の頭部のように見えます。リアルな肌、自然な目の動き、微妙な表情の動きなどです。Origin F1の核となるのは、頭と上半身に焦点を当てたバイオニック・ヒューマノイド・プラットフォームです。その最大の特徴は、スキン(皮膚)を交換するだけで、見た目や振る舞いを完全に変えることができる点です。スキンと言っても、ロボットの内部システムと直接統合された柔らかいシリコンベースの顔のことです。

これには約25から30のマイクロアクチュエータ、つまり小さなモーターが搭載されており、目、眉毛、唇、頬、さらにはかすかな微笑みや微細な感情の変化といったマイクロエクスプレッションに至るまで、顔のあらゆる部分を制御します。これらはすべて彼らのOmni AIシステムによって駆動されています。さまざまな性格をコントロールすることさえできます。アイコンタクトを取り、かなり自然にまばたきをします。話す内容に合わせて唇をシンクロさせます。話を聞いているときは首を傾げ、あなたが何をどう言うかに基づいて感情表現を調整することすらします。それが、これを少し不気味に感じさせる理由でもあります。とにかく、これは私がこれまでに見た中で最もリアルに見えるヒューマノイドロボットです。

少ない写真から3D空間を生成する「Logger NVS」

次のAIも非常に興味深いです。Logger NVSと呼ばれるもので、これは数枚の画像からシーンのまったく新しい視点を生成する方法です。ある場所、たとえば部屋や通りの写真を何枚か撮ったと想像してください。これをこのAIに通すと、実際にはキャプチャされなかった全く新しいカメラアングルをモデルが生成することができます。言い換えれば、一握りの画像を受け取り、それをほぼ完全な3D環境に変えることができるのです。

これらの例からわかるように、不完全なデータを持つほんの一握りの写真しか与えられていないにもかかわらず、すべてをつなぎ合わせて完全な360度の3Dシーンを生成できていることに注目してください。これを違うものにしているのは、実際のそのやり方です。従来の古いアプローチのほとんどは、完全な3Dジオメトリを再構築しようとするもので、これは遅くて面倒になるか、あるいは非常に密な入力に大きく依存していました。言い換えれば、あらゆる角度からの大量の画像を入力する必要があったのです。

しかし、このアプローチは異なります。そうしたことを一切行う必要がありません。完全な3Dモデルを明示的に構築する代わりに、視点間を変換する方法を学習します。さまざまな視点間の関係を学習し、AIを使用して空白を埋めるのです。そのため、ある角度を見せれば、別の角度からどう見えるかを簡単に予測できます。このデモからわかるように、ほんの数枚の画像でも、シーンのかなり一貫性のあるリアルな視点を生成することができます。

素晴らしいことに、彼らはすでにこれをリリースしています。このコードボタンをクリックして少し下にスクロールすると、ローカルのコンピューターにダウンロードして実行するためのすべての手順が記載されています。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

物理的な「時間」をAIに理解させる「Pulse of Motion」

次のAIは非常に魅力的です。Pulse of Motionというもので、AIに現実世界のタイミングを理解させるように教えます。物事がどう見えるかだけでなく、どれくらいの速さで動くべきかということです。というのも、現時点でのこれらの例を見ると、最高の動画モデルでさえ滑らかでリアルな動きを生成できますが、タイミングが間違っていることがよくあります。動きが速すぎると感じたり、遅すぎたり、単に一貫性がなかったりすることがあります。

それは、これらのモデルが実際の物理的な時間を理解していないからです。これらは様々な速度の大量の動画でトレーニングされており、すべて同じフレームレートに正規化されています。これにより、研究者たちが「クロノメトリック・ハルシネーション(時間の幻覚)」と呼ぶ現象が引き起こされます。つまり、モデルは真に理解しているのではなく、タイミングを推測しているような状態なのです。

そこで彼らはこれを修正するためにこのAIを作成しました。アイデアは非常にシンプルです。モデルは動画内の動きを直接見て、真の物理的なフレームレートを復元しようとします。言い換えれば、実生活でその動きが実際にどれくらいの速さで起こるべきかということです。これをご覧になれば、このAIに通した後の明らかな違いに気づくでしょう。動画はすぐにずっとリアルに見え、タイミングもはるかに正確に見えます。

ありがたいことに、彼らはすでにこれのコードをリリースしています。このボタンをクリックして少し下にスクロールすると、ローカルのコンピューターにダウンロードして実行するためのすべての手順が記載されています。これはサイズが2GB未満と非常に小さいため、ほとんどのコンシューマー向けハードウェアで実行できるはずです。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

激しい動きのピクセルを追跡する「MegaFlow」

さて、次はこのMegaFlowと呼ばれるAIです。これは、動きが大きかったり、速かったり、カオスだったりする場合でも、動画内のすべてのピクセルがどのように動くかを把握するモデルです。このタスクはオプティカルフローと呼ばれ、時間とともに物事がどのように動くかを追跡することを意味します。しかしこれは、特にオブジェクトが長距離を移動したり、見た目が変わったりする場合には、言葉で言うよりもはるかに難しいのです。

しかし、このAIはこれを非常によく処理することができます。これは「大きな変位(large displacement)」と呼ばれるものを解決します。これは、速い車、速いカメラのパン、あるいは画面を横切ってジャンプする何かなど、異なるフレーム間でオブジェクトが大きく移動する場合のことです。他の手法ではここで苦労します。なぜならそれらはローカルな検索に依存しており、つまり小さな領域だけを見て近くにあるものを一致させようとするからです。そのため、こうしたよりカオスな動きを処理することはできません。

しかし、MegaFlowはこれを非常によく捉えることができます。なぜなら、まず画像全体にわたってポイントを一致させることでグローバルにアプローチを開始するからです。そのため、遠くに移動したとしても、何かが今どこにあり、以前どこにあったかを即座に結びつけることができます。そして、大まかなグローバルな一致が得られたら、軽量なプロセスで段階的にそれを洗練させ、さらに高い精度を得ます。この「最初にグローバルに行い、次にローカルで洗練させる」という組み合わせが、これを非常に効果的なものにしています。

これを他の競合モデルと比較してみると、この新しいMegaFlowはピクセル追跡の精度において最先端の結果を達成していることに注目してください。素晴らしいことに、ページの上部にスクロールすると、彼らはすでにこれのコードをリリースしています。このGitHubリポジトリをクリックすると、ローカルのコンピューターにダウンロードして実行するためのすべての手順が記載されています。さまざまなユースケース向けの3つのモデルがあり、それぞれ4GB未満のサイズなので、ほとんどのコンシューマー向けGPUに快適に収まるはずです。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

AIにパソコン操作を学習させるデータセット「CUA Suite」

次のAIは、特に独自の自律エージェントをトレーニングしたい場合に信じられないほど価値があります。これはCUA Suiteと呼ばれるもので、人間のように実際にコンピューターを使用できるAIをトレーニングするために設計された大規模なデータセットです。アプリを開く、ボタンをクリックする、物をドラッグする、文字を入力する、実際のワークフローを完了させるなどの能力のことです。

このデータセットは、人間がコンピューターを使用している大量の動画で構成されています。87の異なるデスクトップアプリケーションにまたがる1万のタスクをカバーする、約55時間に及ぶ専門家によるデモンストレーションの画面録画です。これらはすべて、カーソルの動き、クリック、タイピングなど、フルフレームレートで記録されています。誰かがどこをクリックしたかだけでなく、マウスをどう動かしたか、メニューをどうナビゲートしたか、どれくらい躊躇したかなど、基本的には人間がコンピューターのインターフェースをどのように使用するかの完全な動作が含まれています。

ちなみに、データセットで使用されたタスクとツールの種類の内訳はこんな感じです。ですから、コンピューターを使用するエージェントをトレーニングしようとしているなら、これは現時点で使用できる最高のオープンソースデータセットの一つです。実際、ここで彼らは、これが現在の最大のデータセットよりも2.5倍大きいと述べています。55時間、600万フレームが含まれています。

素晴らしいことに、彼らはすでにこれをリリースしています。ページ上部のGitHubリポジトリをクリックすると、これをコンピューターにダウンロードする手順が記載されています。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

自然な会話を実現するGoogleの「Gemini Flash Live」

また今週は、Googleが最新のリアルタイム音声であるGemini 1.5 Flash Liveを公開しました。これは基本的には、実際に会話していて自然に感じるリアルタイムのAI音声です。ここでの大きなアップグレードは速度とタイミングです。トーンを理解し、素早く反応し、ラグを感じさせたりロボットのような感じになったりするのではなく、会話のリズムを維持します。ほとんど実際の会話のように感じられます。

そして素晴らしいのは、これがマルチモーダルモデルであるGemini 1.5を使用しているため、他のアプリと連携できることです。話しかけた後、実際にタスクを実行することもできます。こちらは、AI搭載のUIデザインプラットフォームのようなGoogle Stitchで、ユーザーがこのリアルタイム音声と対話しているデモです。

ねえ、何をデザインしているの? 練習モードの画面を見せて。 了解です。今すぐ表示しますね。 素晴らしい。この破線と、四角くて箱みたいなデザインはあまり好きじゃないな。数字が円の中に綺麗に収まるように洗練させてくれない? 任せてください。破線と箱みたいな感じをやめて、本当にミニマルでクリーンなデザインに洗練させますね。今作業中です。 よし、次は曲のライブラリを選択して。 承知しました。 ここで、黒の代わりに素敵なウッディなブラウンのパレットを使ったバージョンを作ってほしいんだ。曲のライブラリ用に、温かみのあるウッディなブラウンのパレットを作れる? それはいい雰囲気ですね。やってみましょう。このアーシーなブラウンのパレット、最高にクールです。全く違う雰囲気になりますね。どうですか? うん、すごく気に入った。手伝ってくれてありがとう。

さらに、よりインタラクティブな体験のために、これをビデオゲームに組み込むこともできます。

大規模言語モデルが具現化した姿か。まさに無限の知識を持つ存在だな。お前の視覚的な姿は何を示しているのだ、旅人よ?純粋なデータで輝いているのか、それとも別の何かなのか?そして、お前の最大の強みは何だ? 私に視覚的な姿はありません。装飾もありませんが、低遅延の音声インタラクションがとても得意ですよ。 純粋な思考とデータの存在、姿形にとらわれないというわけか。それもよかろう。そしてその見事な音声インタラクション、お前の機転こそが最大の武器に違いない。

現在、この新しいリアルタイム音声はAPI経由で利用可能です。ですから開発者はすでにこれを自分たちのアプリにリンクさせることができます。また、GoogleのAI Studioでも試すことができます。AI Studioで、ここの「リアルタイム」をクリックするだけです。ここでこの最新のGemini 1.5 Liveを選択できます。さっそく試してみましょう。

ちょっと、聞こえる? はい、バッチリ聞こえていますよ。今日はどうされましたか? よし、ジョークを言うよ。 耳をダンボにして聞いています。どうぞ! どうして自転車は道を渡れなかったでしょうか? うーん、考えさせてください。タイヤが二つ(too tired=疲れすぎた)だから?それとも勇気が足りなかったから?オチは何ですか?(笑い声) もう当てられちゃったね。そう、タイヤが二つ(too tired)だからだよ。 それは定番のジョークですね。正解できて嬉しいです。他にはありますか?

さて、接続を切りましょう。ご覧の通り、とても自然に聞こえます。最後の彼女の笑い声でさえ、非常に自然に聞こえました。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

以上が今週のAIハイライトのまとめです。これらすべてについてどう思ったか、ぜひコメントで教えてください。どのニュースが一番気に入りましたか?また、どのツールを一番試してみたいですか?いつものように、皆さんにシェアできるような最高のAIニュースとツールをこれからも探していきます。

この動画を楽しんでいただけたら、いいね、シェア、チャンネル登録をして、今後のコンテンツも楽しみにしていてください。また、毎週AIの世界では非常に多くのことが起きており、私のYouTubeチャンネルですべてをカバーすることは到底できません。ですので、AIの最新動向を本当に把握し続けるために、無料の週刊ニュースレターへの登録もぜひお願いします。そのリンクは下の説明欄にあります。ご視聴ありがとうございました。それではまた次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました