目覚ましい進化を続ける最新のAI技術とオープンソースモデルの動向を網羅した解説である。画像と動画の生成・編集を統合したマルチモーダルモデル、高精度な3Dオブジェクトや間取り図からの全天球空間生成、NPCの行動を制御可能なゲームワールドモデルなど、クリエイティブ分野を革新する技術を紹介する。さらに、超高速なDNA基礎モデル、ノイズに強い文字起こしツール、多言語翻訳モデル、そして音声操作に対応した二足歩行ロボットや産業用壁面移動ロボットなどの物理エージェント開発まで、多岐にわたる最先端動向を解説する。

驚異的なマルチモーダルモデルの登場
AIの世界は決して眠ることがなく、今週の進化も完全に常軌を逸しています。画像や動画の生成と編集が同時に行えるオープンソースの統合モデルが登場しました。このAIは、非プレイヤーキャラクターであるNPCを含むインタラクティブなゲームを生成することができます。つまり、他のキャラクターがどのように行動するかをプロンプトで指示できるのです。また、ピクセル空間で直接動作する新しいオープンソースの画像生成ツールも登場し、これは8K解像度の画像まで生成可能です。Alibabaは最新のQwenモデルをリリースしましたが、これはまさにモンスター級の性能を誇ります。さらに、参照データを使って動画を正確に制御できるAIや、DNAの生成と編集を行うためのオープンソースの超小型モデルも発表されました。間取り図を取り込んで、すべての部屋が完全に一致した一連の3D環境を生成できるAIもあります。中国のフードデリバリー大手企業は、非常にリアルな最新のアバター生成ツールをリリースしました。現実世界の雑音まみれの音声に対して極めて効果的に機能する、最高峰の新しい文字起こしツールも登場しています。自宅で組み立てることができる新しいオープンソースのヒューマノイドロボットなど、盛りだくさんの内容です。それでは、さっそく本題に入りましょう。
最初に紹介するのは、ByteDanceがリリースした非常に強力なマルチモーダルモデルです。Lanceと呼ばれるこのモデルは、画像と動画の両方に対応する、わずか30億パラメータの統合マルチモーダルモデルです。テキストから動画への生成が可能で、つまりプロンプトを入力するだけで動画に変換してくれます。現時点では動画の品質はそれほど高くありませんが、これは動画生成単体で最高峰を目指して作られたものではありません。このモデルは既存の動画の編集も得意としています。たとえば、このように背景を炎に置き換えたり、カラフルな風船の列を追加したり、車の色を赤に変えたり、アートスタイルそのものを変更したりできます。これは基本的に、動画版のNano Bananaのようなものです。この機能を使えば、マルチターンの対話を通じて動画を順番に編集していくことができます。たとえば、最初に彼女の髪をより長くカールさせて、次に頭に花柄のヘッドバンドを追加し、それから背景を変更して、最後に片手をゆっくり上げさせるといった指示が可能です。また、これが統合マルチモーダルモデルであるため、視覚的な理解力にも非常に優れています。たとえば、迷路の画像を読み込ませると、その迷路を解く様子を描いた動画を簡単に生成してくれます。実に素晴らしい成果です。繰り返しになりますが、これは統合モデルであるため、世界観の理解やテキストの理解も組み込まれています。そのため、動画を入力してその内容について質問すると、正確に答えてくれます。こちらが実際に動作している例です。動画の生成や理解だけでなく、テキストから画像への生成も標準でこなします。いくつかの生成例をご覧ください。アニメ、水彩画、サイバーパンク、そしてもちろんリアルな写真など、さまざまなアートスタイルに対応しています。当然、画像編集もNano Bananaと同じように行えます。参考までにいくつか例をお見せします。入力画像を用意し、どのように編集したいかを意味的にプロンプトで指示するだけです。あるいは、画像に異なるアートスタイルを組み合わせると、このような結果が得られます。2つの異なる画像に写っているオブジェクトをこのように合成することも可能です。複数の参照オブジェクトを同じ写真の中にブレンドした他の例もご覧ください。参照写真の全体的な一貫性をかなり高いレベルで維持できています。そして予想通り、画像の分析や理解も可能です。たとえば、テキスト、チャート、グラフが含まれる画像を読み込ませて質問をすると、これらすべてに非常にうまく答えることができます。総じて、非常に印象的で有能なモデルと言えます。素晴らしいことに、彼らはすでにこのコードを公開しています。このコードボタンをクリックして少しスクロールすると、ローカル環境のコンピュータにダウンロードして実行するためのすべての手順が記載されています。ただし、これを動かすには少なくとも40GBのVRAMを搭載したGPUが必要になる点には注意してください。さらに詳しく読みたい方のために、説明欄にこのページへのリンクを貼っておきます。
Appleが開発した3D生成技術と動画の人間好みの調整
また今週、AppleはLTOと呼ばれる新しい3Dモデルジェネレーターをリリースしました。これは「Surface Light Field Tokenization(表面光線空間トークン化)」の略です。入力画像から完全な3Dモデルをレンダリングすることができます。ここでの重要なアイデアは、3Dオブジェクトの形状を再構築するだけでなく、オブジェクトが異なる視点から実際にどのように見えるかを捉えようとする点にあります。本物のオブジェクトはあらゆる角度から同じように見えるわけではないため、これは非常に重要なことです。特に光沢のあるオブジェクトや反射がある場合、動き回るにつれて表面の詳細や照明が変化します。そのため、LTOは単に大まかなオブジェクトを出力するのではなく、視点に依存したより忠実な3D表現を行うように設計されています。現在、主要な3DモデルジェネレーターであるTrellisとLTOを比較すると、平均してLTOの方がより正確で忠実であることがわかります。LTOは、さまざまな角度から観察したときの視覚的な振る舞いまで維持できる3Dモデルジェネレーターだと考えてください。ページのトップまでスクロールすると、コードが公開されているのがわかります。少しスクロールダウンすると、ローカル環境でダウンロードして実行するためのすべての手順が記載されています。自分自身でこれをトレーニングするためのスクリプトも含まれています。さらに詳細を知りたい方のために、説明欄にメインページへのリンクを貼っておきます。
今週は、Flash GRPOと呼ばれる非常にクールなシステムも登場しました。これは、人間の好みに合わせて動画モデルの品質を大幅に向上させるためのアライメント調整に関する技術です。問題は、数十億のパラメータを持つ大規模な動画モデルでこれを行うと、1回の実験につき数百GPU日ものトレーニング時間がかかってしまい、かなり過酷である点です。技術的な詳細は後ほど説明しますが、まずはいくつかの結果をご覧ください。このFlash GRPOを通した後は、同じプロンプトであってもベースラインのモデルより動画が遥かに良く見えるのがわかります。別の例でも、同じプロンプトでありながら、Flash GRPOを適用した後の生成結果の方が明らかに優れています。ベースラインモデルとこの新しいFlash GRPOを比較した追加の検証データをご覧ください。ご覧の通り、すべてのケースにおいてFlash GRPOの方が圧倒的に優れた仕上がりになっています。より多くのディテールが含まれ、よりリアルに見えます。物理挙動や動きもより正確です。では、これがどのように機能するのか仕組みを説明します。基本的には、毎回ディフュージョンの全軌道にわたって最適化する代わりに、報酬信号の有効性を維持しつつ、はるかに賢い方法で単一のタイムステップのみをサンプリングします。これには2つの主要なトリックがあります。1つ目は「等時性グルーピング」と呼ばれるもので、サンプリングされた同じタイムステップでのロールアウトをグループ化することで、比較の公平性を確保します。2つ目の手法は「時間勾配補正」と呼ばれ、トレーニングが歪むのを防ぐのに役立ちます。Flow GRPO Fastと呼ばれる別のアライメント手法と比較すると、青い線で示されたFlash GRPOの方が、はるかに速く学習し向上していることがわかります。ページのトップにスクロールすると、GitHubリポジトリが公開されており、ローカルでこれを実行してトレーニングするためのコードが提供されています。さらに読み進めたい方は、説明欄のリンクからチェックしてください。
ゲームシミュレーションとピクセル空間での画像生成
次に紹介するプロジェクトは非常に興味深いものです。Reactive GWMと呼ばれています。これは彼らが「リアクティブゲームワールドモデル」と呼ぶもので、NPCがもはや単なる背景のピクセルではなくなっています。実際には、上位レベルの戦略を通じてコントロールすることができるのです。ストリートファイターのような世界モデルを想像してみてください。プレイヤーは通常のボタン入力で操作されますが、対戦相手には攻撃的にプレイしろ、あるいは防御的にプレイしろといった戦略を指示することができます。それが重要なアイデアです。このモデルは、プレイヤーのアクションと、クロスアテンションを通じて注入されるNPCの戦略を分離します。これが全体としてAIモデルから生成された単なる動画であることに注目してください。これは事前に設計されたゲームではありません。しかし面白いのは、ユーザーのために矢印キーや攻撃ボタンを押せるだけでなく、NPC、つまり対戦相手がどのように反応し、どのように攻撃するかについてもプロンプトで指示できる点です。簡単に言うと、1つの経路でプレイヤーがどのボタンを押したかを処理し、もう1つの経路でNPCがどのような行動に従うべきかを処理して、動画を生成するときにこれら両方を融合させます。これにより、世界の中の他のキャラクターや要素を実際に演出できる、より制御可能なゲームシミュレーションの実現へと向かっています。非常に魅力的なコンセプトです。素晴らしいことに、ページのトップでGitHubが公開されています。少しスクロールダウンすると、ローカル環境にダウンロードして実行するためのすべての手順が記載されています。これはベースの動画モデルとしてWan 2.2を使用していますが、かなり軽量です。大半のミドルレンジからハイエンドのGPUで実行できるはずです。関心のある方は、説明欄にあるメインページへのリンクをご覧ください。
また今週は、L2Pと呼ばれる非常に興味深い画像モデルが登場しました。彼らは既存の主要な画像モデルの1つであるZimageをベースにし、VAEと潜在空間を排除することで改良を加えました。これらの用語に馴染みがない方のために説明すると、従来のディフューザー画像モデルは、潜在空間と呼ばれる圧縮された次元で画像を生成します。これにより、画像をはるかに効率的に計算して作成することができます。その後、VAEと呼ばれる仕組みを使って、潜在画像を私たちが目にするピクセル空間へと変換し直します。この方法のメリットは、効率的で計算量が少なくて済む点です。しかし、ピクセル空間で直接作業していないため、品質、ディテール、正確性に多少の損失が生じる可能性があります。そこで開発チームが行ったのは、このVAEと潜在空間のステップを完全に排除することでした。このL2Pモデルは、ピクセル空間で直接画像を生成することができます。参考までにいくつかの例をご覧ください。リアルな画像や、画像内のさまざまなテキストや要素を含め、多様なアートスタイルを処理できる非常に高性能なモデルであることがわかります。さらに、最大4K解像度、あるいは8Kのエクストラポレーションまで対応可能です。ピクセル空間にあるため、非常に高品質な画像を生成できます。これらのベンチマークによると、これはこれまでのところ最も性能の高いピクセルベースのディフュージョンモデルです。L2Pの品質は、QwenやZimage Turboといった既存の他のオープンソースの潜在モデルをも凌駕しています。嬉しいことに、これはすでにリリースされています。このコードボタンをクリックするとページに移動し、少しスクロールすると、ローカル環境でダウンロードして実行するためのすべての手順が確認できます。さらに、ファインチューニングができるようにトレーニングスクリプトも公開されています。なお、現在リリースされているのは1K解像度の画像を生成できるモデルのみです。より高解像度の画像を生成できるモデルはまだ保留状態となっています。この1Kモデルは現在サイズが約20GBあるため、実行にはミドルレンジからハイエンドのGPUが必要になります。詳細については、説明欄のリンクからメインページを確認してください。
生命の言語を話すAIと進化したアバター生成
さらに今週、DNA向けの新しいオープンソースの基礎AIモデルであるCarbonが登場しました。仕組みは次の通りです。ChatGPTのように通常の言語を読み取るのではなく、このモデルは生命の言語そのものを読み取ります。ご存知のように、DNAはGCATという4つの文字だけで構成されています。そのため、自然言語の文法を理解するのと同じように、DNAの文法を理解するように言語モデルをトレーニングすることができます。驚くべきことに、このモデルは一度に約40万個のDNA塩基対を処理することができ、これはこの種のモデルにとって膨大な生物学的コンテキストとなります。モデルはDNA文字の巨大な文字列を見て、自力でパターンを見つけ出さなければなりません。基本的には、言語モデルが文章の中の次の単語を予測するのと同じように、次にどのDNAが来るかを予測することで遺伝学のルールを学習します。DNAの文字列を入力すると、Carbonはその配列を継続させたり、遺伝的バリアントをスコアリングしたり、さらにはタンパク質の3D構造を予測したりすることができます。つまり、DNAを単なるデータベース内の文字として扱うのではなく、モデルが推論し、そこから生成を行える対象へと変えるのです。Carbonに関する最も興味深い主張はそのスピードにあります。ここでは、DNA向けの最速のオープンソース基礎モデルであると主張されています。このチャートでは、EVO 2のミディアムバージョンよりも約275倍高速であると示されています。これは、単一のGPUでヒトゲノム全体を2日未満で処理できるほどの速さであり、かなり驚異的です。現在、EVO 2のラージバージョンが依然として最高の勝率を維持しており、最も高性能です。実際、私はすでにEVO 2に関する完全な解説動画を作成していますので、詳しく知りたい方はそちらの動画をご覧ください。いずれにせよ、これはDNAを処理するための超高速かつ軽量なモデルです。これにより、配列の補完や遺伝子配列とタンパク質構造の結合といったタスクにおいて、DNAモデリングのワークフローがはるかに利用しやすくなる可能性があります。そして素晴らしいことに、単一のGPUだけで実行できるほど小型です。コードボタンをクリックするとGitHubに移動し、ローカル環境にダウンロードして実行するためのすべての手順が記載されています。最大の80億パラメータモデルでもサイズはわずか16.5GBであり、最小の5億パラメータモデルにいたっては、わずか1GBと非常にコンパクトです。さらに、GGUFバージョンもリリースされています。詳細に興味がある方は、説明欄にリンクを貼っておきます。
今週は、中国のフードデリバリー会社であるMeituanも開発の手を緩めていません。彼らはLong Cat Video Avatar 1.5と呼ばれる最新のアバタージェネレーターをリリースしました。数週間前にバージョン1をリリースしたばかりですが、この新バージョンは、話すアバターとしてより安定し、表現豊かになるよう構築されています。使い方は非常にシンプルです。その人物の参照画像と音声をいくつか入力するだけで、その人物が非常に自然な方法でその音声を話し始めます。いくつか例をご覧ください。翌日、私は彼女を学校へ早めに迎えに行き、サリ・サワークリームに連れて行って一緒に昼食をとりました。家族でそこに行くことはできなかったので、それは特別なことでした。サムは父親が刑務所にいることを嫌がっているからです。それはある意味、どちらの方向にも進む可能性がありました。私は、彼ら2人の間に潜在的な権力基盤のようなものが存在するのではないかと心配しています。ヘインズはそれを好まないと思います。彼は限定された権力基盤にとても満足しています。私は不測の事態に備えていました。彼は何を知っているというのですか。彼は何も知らない愚かな小さな存在です。そして、彼はフィルムストックの調査をするためにここに戻されました。その後、彼は連絡を受けて、もう終わりだ、金はない、鐘を鳴らせと言われました。冬の間、路地にいると、彼女は私が帽子をかぶっていないのを見て、帽子をかぶりなさい、帽子をかぶりなさいと叫ぶことがありました。このように、リアルな人間に限る必要はありません。さまざまなアートスタイルやアニメーションも行うことができます。おそらく、私はこれまでの人生をずっと一人で過ごしてきたからでしょう。言い訳ではありません。それが理由です。あなたが私の人生で最高の存在だと言う代わりに、私はあなたの耳についてジョークを言ったり、あなたが頑張りすぎていると言ったりします。本当のところは、あなたに傷ついてほしくないだけだと分かっているはずです。なぜなら、世界中の誰よりもあなたのことが大切だからです。さらに、複数人によるインタラクションも可能です。オーディオクリップ内に複数の音声を含めることができます。裁判官の規則や命令に違反している陪審員を解任する場合、自分が望む判決を得るために陪審員を厳選しているように見えるリスクが生じます。実際の保証会社は、彼にその保証を与える資格がない可能性があります。ここで何が起きたのですか。ええ、それほど焦らないでください、ドナルド。ティッシュのように見えます。これを試してみたい方にとって素晴らしいことに、彼らはすでにモデルを公開しています。コードボタンをクリックして少し下にスクロールすると、ローカル環境でダウンロードして実行するためのすべての手順が記載されています。int8バージョンの総サイズは16GBです。そのため、ミドルレンジからハイエンドのGPUであれば十分に収まるはずです。さらに読み進めたい方は、説明欄のリンクからメインページを確認してください。
雑音に負けない音声認識と多言語翻訳モデル
また今週は、Mega ASRと呼ばれる非常に強力な文字起こしツールが登場しました。これは、クリーンな音声クリップだけでなく、現実世界の雑多な音声のために構築された音声認識モデルです。ノイズ、エコー、残響、音割れ、粗悪なマイクなどに埋もれてしまった音声を取り込み、正しく文字起こしを試みます。いくつか例があります。左側が正解のテキストで、この青い列がMega ASRによる文字起こしです。非常に騒がしい環境です。女性が何を言っているのかほとんど聞き取れません。これが、これらのオーディオクリップの課題です。Gemini 1.5 ProやQwen 2.5 ASRのような従来の文字起こしモデルでこれを文字起こしするのは非常に困難です。これら両方のエラー率は膨大になります。しかしMega ASRの場合、実際にはそのほとんどを正しく捉えることができます。もう一つの例を聴いてみましょう。ここでも、Mega ASRのエラー率が最も低く、テキストの大部分を正しく書き起こせていることがわかります。他の2つの競合モデルはかなりひどい結果でした。極めて困難な追加の例をいくつかご紹介します。親切なギャングはドラッグを置いていきました。ステータスは床に落ちました。輸出主導型およびコンピュータ関連銘柄の中で、日本ビクターは50から23に売られました。本当に露出していますか。そのため、現実世界の本当に雑多な音声を文字起こしする必要がある場合、この新しいMega ASRは群を抜いて最適なモデルです。開発チームは、ノイズ、遠隔音場、遮蔽、エコーと残響、電気的歪み、音飛びなど、7つの主要な音響問題にわたる260万個のサンプルを使ってこのモデルをトレーニングしました。これらすべてのデータでモデルをトレーニングした結果、他の文字起こしモデルと比較してはるかに高い性能を発揮していることがわかります。困難な音響環境において、主要なオープンモデルおよび商用モデルに対して30%近くの向上を達成したと主張しています。音声認識はクリーンなデモでは概して優れていますが、実際の雑多な音声を投入すると使い物にならなくなることが多いため、これは有益です。Mega ASRはまさにその部分に焦点を当てています。ページの上部にスクロールすると、嬉しいことにすでにこれがリリースされています。コードボタンをクリックして少し下にスクロールすると、ローカル環境にダウンロードして実行するためのすべての手順が確認できます。さらに、自分自身でこれをファインキューニングするためのスクリプトも公開されています。すべての総サイズは5GB未満と非常に小さいため、一般的な大半のコンシューマー向けGPUで実行できます。さらに詳しく知りたい方は、説明欄にリンクを掲載しておきます。
今週、TencentはHYMT2と呼ばれる多言語翻訳モデルファミリーをオープンソース化しました。最大のモデルは300億パラメータを誇ります。これはMixture of Experts(MoE)モデルです。そのため、使用時にアクティブになるのは30億パラメータのみとなり、非常に効率的です。また、より小さな18億パラメータのバリアントと70億パラメータのバリアントも用意されています。ある言語のテキストを取り込み、別の言語で出力することができます。重要なのは、詳細な翻訳指示に従うように設計されている点です。単にこれを英語に翻訳してと指示するだけでなく、フォーマットを維持させたり、特定のスタイルに従わせたり、正しい用語を使用させたり、区切り文字を適切な場所に保持させたり、構造化データ内のユーザーに表示される可視テキストのみを翻訳させたりすることができます。実際の翻訳業務は煩雑であるため、これは重要です。企業は単純な文章だけを翻訳しているわけではありません。通常は、製品ページ、字幕、アプリの文字列、ドキュメント、JSONファイル、ビジネス用語などを翻訳しており、プレースホルダーの配置ミスやフォーマットのエラーが1つあるだけで出力が壊れてしまいます。そのため、このモデルファミリーは、元の出力を高度に維持し、希望のフォーマットに従うようにトレーニングされています。現在、このモデルファミリーはこれらすべての異なる言語を含む33言語間の翻訳をサポートしています。これらのベンチマークスコアを見ると、この新しいHYMT2ファミリーは、指示に従う能力において非常に優れていることがわかります。はるかに規模の大きいDeepSeek V3などの他のオープンモデルをも上回っています。金融、法律、医療、技術、政治など、さまざまな専門領域にわたる翻訳を評価するこのベンチマークでも同様です。平均して、この新しいHYMT2ファミリーは、中には数十倍の規模を持つ他のオープンモデルよりも優れたパフォーマンスを示しています。実に見事な結果です。彼らはすでにこれをリリースしています。このページには、ローカル環境でダウンロードして実行するためのすべての手順が記載されています。完全な300億パラメータバージョンはサイズが60GBとかなり大きいですが、最小の18億パラメータバージョンはわずか4GBしかありません。そのため、大半のコンシューマー向けGPUに収まります。彼らはFP8バージョンとGGUFバージョンもリリースしました。したがって、特に専門領域向けの軽量な翻訳モデルが必要な場合や、非常に特定のフォーマットが必要な場合には、現在使用できる最良のモデルの1つです。詳しく読みたい方は、説明欄にメインページへのリンクを用意しています。
統合型コンテンツ生成ツールとGoogle DeepMindの挑戦
コンテンツ作成やマーケティングのパイプラインを劇的に強化したい方は、この動画のスポンサーであるHigsfieldをぜひチェックしてください。彼らは、コンテンツ作成におけるClaudeのような存在と言えるHigsfield Supercomputerを立ち上げたばかりです。Claudeが一つの会話の中で複雑なタスクにわたってリサーチ、執筆、コーディングを行えることはご存じでしょう。Supercomputerは、それをクリエイティブおよびマーケティングのパイプライン全体に対して実行します。市場のギャップを見つけ、製品の開発や調達を支援し、ブランドブックを作成し、ウェブサイトを生成し、ローンチ動画を編集し、AIインフルエンサーを作成し、広告クリエイティブを運用し、カスタマーレビューを読み、製品のポジショニングを再構築して、プロセス全体を再び繰り返すことができます。大半のAIエージェントはワークフローの一部分しか処理できません。コーディングが得意なエージェントもいれば、リサーチが得意なエージェントもいます。しかし、HigsfieldのSupercomputerは、ビジュアル制作とゴー・トゥ・マーケットを中心に構築されています。たとえば、TikTok、Instagramのリール、あるいはYouTubeの動画を投入することができます。Supercomputerはそれを単に要約するだけではありません。フレーム、音声、フック、ペーシング、構図を分析します。そして、あなたの製品、あなたの顔、あなたのブランド、あるいはあなたのAIインフルエンサーを使って、その同じフォーマットをシーンごとに再構築することができます。Supercomputerは、Soul ID、エレメントバインディング、永続的なストーリーボードシートなどのツールを使用してすべての一貫性を維持するため、途中で破綻することなく、長尺の動画、ポッドキャスト、映画のようなシーン、広告、あるいはAIインフルエンサーのロスター全体を作成することができます。Higsfield Supercomputerには、コンテンツエンジン全体が付属しています。プレミアムなコマーシャルスタイルのスポット向けのテレビ広告ワークフローがあります。物語性のある動画向けのシネマティックワークフロー、キネティックタイポグラフィやブランドリール向けのモーションデザインワークフロー、製品レビューや試着、開封動画向けのUGCワークフロー、さらには製品画像やコンプライアンス対応のアセットを生成するAmazon出品ワークフローまで用意されています。Supercomputerは、Seed Dance、Veo、Kling、Soulなどのモデルを、クリエイターファーストの1つのワークスペース内に接続します。そのため、ECブランドを立ち上げようとしている単独の創業者であっても、大規模にコンテンツを作成しているクリエイターであっても、あるいはマーケティングエージェンシーであっても、Higsfield Supercomputerはクリエイティブのフライホイール全体を処理できるように設計されています。説明欄のリンクからHigsfield Supercomputerをぜひお試しください。
また今週、Googleは最大の年次イベントであるGoogle IOを開催し、いくつかの大きな発表を行いました。それについてはすでにこちらの動画で取り上げていますので、詳しく知りたい方はそちらをご覧ください。しかし、それに加えてさらにインパクトがあると私が考えているのはこちらです。Google DeepMindが、AI co-scientistと呼ばれるものを発表しました。これは、AIが単なるシンプルなチャットボットを超えて、実際の研究協力へと移行しつつある素晴らしい例の1つです。実際、彼らはこれについてNature誌に論文を発表しています。そのため、かなり本格的なものです。基本的には、科学者がアイデアを生成し、エビデンスを検証し、実験を提案し、科学的発見を加速させるのを支援するために設計されたマルチエージェントAIシステムです。モデルに質問をして1つの回答を得るだけでなく、エージェントのチームがお互いに議論し、アイデアを批判し、仮説を洗練させ、実際の研究グループのように機能します。研究者に、常にブレインストーミングを行い、お互いに挑戦し合う専門のAI科学者で満たされた部屋を提供するようなものだと考えてください。本当に重要な部分は、これが科学者を置き換えることを意図していない点です。人々がより速く動き、より多くの可能性を探求するのを助ける研究パートナーとして機能するように設計されています。研究者はこれに目標や科学的問題を与えることができ、そうするとシステムは仮説の生成、文献の検索、ギャップの特定、実験の提案を開始します。言い換えれば、現実世界でテストする価値のあるアイデアを絞り込むのに役立ちます。DeepMindは、創薬やバイオ医ディカル研究の分野における例を示しました。たとえば、肝線維症の新しい治療薬の発見などです。したがって、これは単に論文を要約したり簡単な質問に答えたりしているだけではありません。新しい科学的な方向性を能動的に生成するのを支援しているのです。単一のモノリシックなモデルではなく、複数の専門化されたエージェントを使用しています。そしてシステムは、内部の議論を通じてその推論を自己改善していきます。このようなシステムは、科学者が膨大な情報の中からフィルターをかけ、最も有望なアイデアに集中するのを助けると同時に、これまで考えもしなかった新しい方向性を思いつくのに役立つ可能性があります。これが実際にうまく機能すれば、医療、生物学、化学、その他の分野における研究の進め方を本格的に変えることになるかもしれません。さらに読み進めたい方は、説明欄にメインページへのリンクを貼っておきます。
ビデオ言語モデルによる構造化とQwen 3.7 Maxの進化
次に、Marlin 2Bと呼ばれる非常に小さなビデオ言語モデルをご紹介します。これは、動画から構造化された情報を抽出するという、非常に実用的なタスクのために構築されています。多くの人が動画において重視する2つの質問、何が起きたのか、そしてそれはいつ起きたのか、に答えてくれます。たとえば、動画を与えると、シーンの説明に加えてタイムスタンプ付きのイベントを出力することができます。また、動画を読み込ませて、特定のイベントがいつ発生するかを尋ねることもできます。たとえば、ここで銃撃戦のイベントを検索すると、動画内のどこでそのイベントが発生したかを正確に予測することができます。これには開始時間と終了時間が含まれます。これは、動画の検索、モデレーション、編集、監視レビュー、データセットのラベル付け、あるいは動画を構造化データに変換する必要があるその他のワークフローにおいて極めて有用です。このモデルはわずか20億パラメータであり、これはQwen 2.5 7Bをベースにしています。私はQwenのミディアムサイズのファミリーが本当に大好きです。非常に汎用性が高く、多くの異なるタスクをこなすことができます。ここでは、Marlinはその重量級クラスにおいて最強のオープンビデオモデルであると述べられています。たとえば、キャプションのベンチマークにおいて、Marlinはわずか20億パラメータでありながら、この一番上の位置にいます。これは、はるかに規模の大きい商用のGemini 1.5 Flashと同等のパフォーマンスを発揮します。そのため、コンピュータのローカル環境で実行でき、動画内のイベントを分析するための小さなオープンモデルが必要な場合、これは現在最良の選択肢です。同じページを少しスクロールダウンすると、ローカル環境でダウンロードして実行するためのすべての手順が記載されています。すべての総サイズは6GB未満であるため、ローエンドのGPUであっても十分に収めることができます。さらに詳しく読みたい方は、説明欄にあるメインページへのリンクを参照してください。
また今週、Alibabaは開発の手を緩めません。彼らはQwenの最新のバリアントであるQwen 3.7をリリースしました。具体的には、彼らはQwen 3.7 Maxをリリースしました。これは、エージェント能力を大幅に向上させることを目指しています。主なアイデアは、モデルが単に簡単な質問に答えるだけでなく、マルチステップの作業、特にコーディングやエージェントタスクを実際に支援できるように設計されている点です。モデルが計画を立て、結果を検証し、反復を繰り返す必要があるようなタスクです。これは、Cloud Code、OpenClaw、Hermesなどの最も人気のあるエージェントプラットフォームに組み込むことができます。こちらがその一例で、膨大な財務ニュースやドキュメントを分析させ、投資戦略を提示させています。ご覧の通り、大量の異なるドキュメントや資産に目を通して消化し、すべてを統合して分析した上で、非常に徹底した高品質の成果物を出力することができます。素晴らしいことに、これにはビジョン機能も備わっています。そのため、画像や動画を分析することができます。たとえば、このロボット犬にQwen 3.7を組み込み、カメラをリアルタイムで分析させて、この環境をどのようにナビゲートするかを決定させることができます。つまり、ロボットの頭脳にQwen 3.7を埋め込むことも可能なのです。そして、これらのパフォーマンスベンチマーク、特にエージェントコーディングや推論の面を見ると、Qwen 3.7はDeepSeek V3、GLM 4、Kimi K1などの市場をリードする最高峰のオープンモデルと同等であることがわかります。現在、これはAlibabaのCloud Model StudioおよびAPIを通じて利用可能です。そのため、オープンソース化はされていません、少なくとも現時点では。しかし、AlibabaにはQwenモデルをオープンソース化してきた歴史があるため、将来的にはこれもオープンソース化されることを期待しています。さらに詳しく読みたい方は、説明欄にメインページへのリンクを掲載しておきます。
彼らの開発はこれだけにとどまりません。彼らは今週、Qwen 2.5 Live Translateもリリースしました。名前が示す通り、これはリアルタイムの翻訳モデルですが、他と異なるのは、単に音声を取り込んで聴くだけではない点です。これは視覚的なコンテキストも使用します。そのため、言葉を聴いて翻訳するだけでなく、何が起きているかを目で見て、その追加のコンテキストを利用してより優れた翻訳を提供することができます。実際に動作しているいくつかの例をご覧ください。音声からテキストへの翻訳は、実際に60言語をサポートしています。ええ、私もそれに気づきました。翻訳は素早く、モデルは私がリアルタイムで何を言っているかを正確に把握しています。その読み取り可能な単位の翻訳戦略は見事です。私が文章を言い終える前に、すでに翻訳を開始していました。また、こちらの例では、このECのライブストリームを分析させています。視覚的なコンテキストがあるため、製品の仕様を正確に翻訳することもできています。視覚的なコンテキストがあることが有用となる別の例をご紹介します。たとえば、誰かが「マッスル(muscle)」と言及しているとき、それが貝のムール貝(mussel)を指しているのか、人間の筋肉(muscle)を指しているのか分からないことがあります。しかし、この視覚的なコンテキストが加わることで、すべてをはるかに正確に理解して翻訳することができます。ページの上部にスクロールすると、これを試すことができる無料のデモが公開されています。これは彼らのオンラインプラットフォームを通じて提供されており、無料で試すことができます。さらに読み進めたい方は、説明欄のリンクからメインページをご覧ください。
ロボティクスの最前線と家庭で試せる開発環境
ヒューマノイドロボットのニュースでは、Robot Plus+からの新しいデモがあります。彼らは、ヒューマノイドの双腕を備えた磁気式壁面登坂産業用ロボットを発表しました。動画では、このロボットが特殊な車輪付きの磁気吸引機能を使用していることが明示されており、これにより滑ることなく、垂直または湾曲した鉄鋼表面を安全にグリップし、スムーズに走行することができます。ロボットが巨大な化学貯蔵タンクの外壁をナビゲートしたり、貨物船の船体に沿って走行したりする様子が示されています。溶接や、グラインディングおよび表面処理といった、さまざまな産業用ツールの切り替えが可能です。ここでは、回転するグラインディングディスクを使用して、金属表面から錆、古い塗料、不完全な部分を削り取っている様子が見られます。検査用のハイテク走査レーザーやセンサーを装備することも可能です。たとえば、鋼鉄や溶接点の完全性を分析するために使用できます。また、巨大な垂直の船体やタンクに均一にコーティングやスプレー塗装を行わせることもできます。ここで、VRヘッドセットを着用して地上に立っている人間のオペレーターの姿が見えます。そのため、このマシンはテレオペレーション(遠隔操作)されているようです。この技術が素晴らしい理由はいくつかあります。第一に、化学タンク、船体、石油精製所などの高リスク環境における産業メンテナンスでは、通常、人間の作業員が極端な高所や非常に危険な条件下で作業する必要があります。しかし、このロボットは人間をそのループから排除します。人間は遠隔操作を使用して、地上からロボットを操作するだけで済みます。壁面登坂ロボット自体は完全に新しいものではありませんが、通常は非常に軽量な検査用ドローンです。このロボットは大型のパワフルなマシンです。スプレー塗装から産業用溶接、グラインディング、高圧スプレーまで、壁面への完璧な磁気グリップを維持しながら、非常に多くのタスクをこなすことができます。すでに1万隻以上の船にサービスを提供しているため、単なるプロトタイプのコンセプトではなく、現場でテストされた堅牢なソリューションです。
他のヒューマノイドロボットのニュースとして、Hugging Faceが彼らのオープンソースロボットであるLeRobot Humanoidをリリースしました。これは、ロボティクスをより安価にし、実験を容易にするために設計された、オープンソースの3Dプリント製ヒューマノイドロボットプラットフォームです。彼らは開発者に対して、ロボットのデザイン、部品リスト、組み立てガイド、配線ドキュメント、シミュレーションツール、トレーニング環境、ランタイムソフトウェアを含むフルスタックを提供しました。これにより、手頃な価格のハードウェアが、完全なロボット学習のプレイグラウンドへと変わります。ロボットを組み立て、シミュレーションを行い、現実世界のデータを収集し、動きのポリシーをトレーニングすることができます。現在のバージョンは、調達や配送状況にもよりますが、部品代で約2,500ドルです。3Dプリントされた部品、市販のコンポーネント、そして手頃な価格の電子機器を使用しています。これは洗練された消費者向けロボットを目指したものではありません。ヒューマノイドや、シミュレーションから現実への移行(sim-to-real)学習を、よりアクセスしやすい方法でテストしたい研究者やビルダー向けの実験用ハードウェアです。Hugging Faceは学習ループ全体をオープンにし、再現可能にしています。そのため、デザインを変更したり、壊れた部品を修理したり、シミュレーターを改良したり、新しい行動をトレーニングしたりして、反復を続けることができます。すべてのドキュメントはこのページで見つけることができます。詳しく知りたい方は、説明欄にあるメインページへのリンクを参照してください。
また今週、Unitree Roboticsからの新しいデモもありました。Unitreeは、バク転やカンフー、ダンスなど、信じられないほどアクロバティックな動きをすることで知られていますが、今回のデモは少し趣が異なっています。ここでは、音声コマンドを直接使用して、G1がリアルタイムで自律的に幅広いアクションを行うように制御する方法を示しています。たとえば、最初に女性がロボットにジャンプとプランクをさせると、ロボットはこれに非常にうまく対応します。次に彼女はロボットに向きを変えてお尻を振るように頼み、その後スクワットなどのさまざまなエクササイズを行わせます。最後にデモは、女性がロボットにガンダムスタイルのダンスをして最後に お辞儀をするよう指示して終わります。これが印象的な理由はいくつかあります。第一に、この動画は1つの連続したショットであるため、カットがありません。ロボットは非常に低いレイテンシーで、すべてをリアルタイムで処理することができます。音声コマンドは一見大したことのないように思えるかもしれませんが、これは間違いなくロボティクスの未来であり、内部にアクションを事前にプログラムしたり、ロボットを遠隔操作したりする必要はありません。音声コマンドを通じて何をすべきかを指示するだけで、ロボットは自律的に実行できるようになるはずです。
動画生成の精密制御とオーディオ生成の新たなアプローチ
次に紹介するAIはかなりクールです。Cog Omni Controlと呼ばれており、これは複数の入力を使用して動画生成を制御できるシステムです。実際、動画向けのControlNetのようなものと考えることができます。たとえば、このようにわずか3つの移動フレームで構成される非常に大まかなスケッチアニメーションに加えて、参照画像とテキストプロンプトを入力すると、コントロールスケッチで指定された内容に正確に従った完全な動画を生成することができます。別の例では、このスケッチアニメーションと参照入力を入力すると、このような結果が得られます。さらに別の例として、このような大まかなスケッチアニメーションと参照画像を入力すると、指定した通りに正確に従う動画を生成できます。大まかなスケッチだけでなく、このようなポーズ骨格アニメーションに加えて、キャラクターの参照画像を入力することも可能です。そしてプロンプトとして、彼女を青々とした緑の植物や木々に囲まれた建物の前に立たせてみましょう。こちらが最終的な結果です。コントロールアニメーション、参照キャラクター、そしてプロンプトで指定された背景の両方に従うことができている点に注目してください。ポーズ骨格の代わりに、このような線画アニメーションと参照キャラクター、テキストプロンプトを入力することもできます。得られた結果がこちらです。動画を制御するために複数の参照入力を可能にする、非常に柔軟なツールです。これは、クリエイターが大まかな抽象的入力から開始しながらも、動画を元のクリエイティブな方向性に忠実に維持する必要がある制作ワークフローを対象としています。現時点では、コードやモデルはまだ公開されていないようです。テクニカルペーパーのみが公開されていますが、さらに読み進めたい方は、説明欄にメインページへのリンクを貼っておきます。
また今週、MetaはWaveFlowと呼ばれる新しいモデルをリリースしました。無声動画を取り込んで、適切なオーディオや効果音を追加することができます。いくつか例があります。元の動画は無音ですが、このAIを通した後の音声がこちらです。彼がドラムを叩くタイミングや、ギターで異なる音符を演奏するタイミングと、ある程度同期したオーディオを生成できている点に注目してください。しかし、このピアノの例に関してはかなりひどい結果でした。ピアノの各音符がどのように演奏されるべきかを実際には理解していません。これがどのように機能するのか、その仕組みは非常に興味深いものです。生の波形空間で音を直接作成します。他の現代的なオーディオモデルは、まずオーディオを潜在空間に圧縮し、その圧縮された空間内ですべてを生成してから、それを音へとデコードし直します。これは計算をより効率的にするためです。しかし、WaveFlowはこの中間のステップを完全にスキップします。オーディオ生成のための入力を受け取り、VAEや潜在圧縮を使用せずに、実際の波形を直接出力します。理論的には、これにより音がはるかにクリーンでリアルになるはずです。これらのベンチマークを見ると、MM Audioなどの主要な競合モデルに対して非常に競争力のあるパフォーマンスを発揮しています。ページの上部にスクロールすると、GitHubリポジトリが公開されており、これをインストールして実行するための手順や、トレーニングスクリプトが提供されています。しかし、ここでは「組織のポリシーの制約により、完全な製品版のトレーニング済みチェックポイントをリリースすることができません」と記載されています。そのため、制限されたバージョンしか提供されていないようで、かなり残念ですが、Llama以降まともなものをリリースしていないMetaからのものであることを考えれば、まったく驚きはありません。さらに詳しく読みたい方は、説明欄のリンクからメインページを確認してください。
3D空間ツアーの生成と最先端衣服着せ替え技術
次のAIは、建築、インテリアデザイン、あるいは不動産のVRにおいて非常に有用です。Pano Worldと呼ばれており、家全体の3Dパノラマツアーを作成するための生成ワールドモデルです。一度に1枚の素敵な部屋の画像を生成する代わりに、ある視点から別の視点へと移動してもビューの一貫性が維持される、バーチャルホーム全体を生成しようと試みます。仕組みは次の通りです。まず間取り図とスタイル参照を入力すると、出力として、この家の中のすべての部屋の家具が配置されたパノラマビューの接続されたセットが得られます。さらに、不動産向けのいくつかのVRアプリが機能するのと同じように、異なる視点にジャンプして別の場所から表示することもできます。現在、スタイルを「フレンチラグジュアリースタイル」に設定していますが、これを「モダンミニマリストスタイル」に変更することもできます。これをクリックすると、このような見た目になります。同じ間取り図と構成を維持しながら、建物の外観とスタイルだけを別のものに変更できていることがわかります。そのため、家に対するさまざまなデザインの反復を3Dで非常に素早く行うことができます。Nano BananaやGigaDreamなどの通常の画像ジェネレーターを使用しても、同様のパノラマ画像を生成することはできますが、別の視点に移動すると、部屋のレイアウト、家具、素材が突然変化してしまうことがあります。そのため、従来の画像モデルからの生成結果は一貫していません。そこでPano Worldが行っているのは、間取り図から派生した3Dシェルを使用してパノラマ生成をガイドすることです。これを視覚的なメモリのようなものと考えてください。ハウスツアーの各ノードを生成する際に、シーンをゼロから再構築するのではなく、そのメモリを更新します。その結果、家全体にわたって一貫性を維持できるシステムが実現します。ページの上部では、これに関するコードやモデルはまだリリースされていませんが、「間もなく登場」と記載されています。近い将来にオープンソース化されることを期待しています。関心のある方は、説明欄にメインページへのリンクを用意しておきます。
また今週、Stable Diffusionを開発した企業であるStability AIが、Stable Audio 3をリリースしました。これは音楽作成のために設計されたオープンソースモデルです。テキストプロンプトから、あらゆる種類の異なるサウンドスケープ、テクスチャ、エフェクト、その他のオーディオ出力を生成することができます。いくつか例を聴いてみましょう。これらはいくつかの例でした。これはオーディオモデルのファミリーです。オープンソースであるスモールとミディアムのバリアントがあり、ウェイトはこちらからダウンロードできます。また、現在はオープンソース化されていないラージのバリアントもあり、そちらはAPIを通じてのみアクセス可能です。各モデルの仕様の内訳は次の通りです。ミディアムであっても、わずか14億パラメータと非常に小型です。そして、最大6分20秒の長さのオーディオを生成することができます。一方、スモールモデルでは、最大2分までのトラックしか生成できません。効果音の作成に最適な小さなSFXバージョンもあります。これについて素晴らしいのは、LoRAトレーニングのドキュメントも公開されている点です。そのため、特定のサウンドフォーマットに基づいて、独自のオーディオモデルをファインチューニングできる可能性があります。また、オーディオのインペインティング(部分修正)にも非常に優れています。トラックの特定のセクションを取り込んで変更したり、オーディオの小さなスニペットを取り込んでさらに延長したり、それを新しいトラックのサウンド参照として使用したりすることができます。これをダウンロードしたい方は、上部に3つのオープンソースモデルすべてが含まれるHugging Faceリポジトリへのリンクがあります。ミディアムモデルの総サイズはわずか10GBであるため、大半のコンシューマー向けGPUに収まるはずです。ここには、ローカル環境でダウンロードして実行するためのすべての手順が記載されています。さらに詳しく読みたい方は、説明欄のリンクからメインページを確認してください。
今週、ECやファッション業界にいる方にとって、このAIは非常に役立つかもしれません。AlibabaによるFashion Chameleonと呼ばれており、これは基本的には動画向けのリアルタイムバーチャル試着ツールです。モデルの画像とさまざまな衣料品を用意するだけで、この人物がこれらすべての異なるアイテムを着用している動画をリアルタイムでストリーミングすることができます。動画内の異なる瞬間でキャラクターに異なるアイテムを着用させることができ、その間の動きは一貫したまま維持されます。そのため、ファッションやライブECにおいて、モデルにさまざまな衣装を即座に切り替えさせたい場合に極めて有用です。巧妙な部分は、Fashion Chameleonがトレーニングに巨大な動画データセットを必要としない点にあります。実際には、単一の衣服の動画データだけでトレーニングを行います。そして、インコンテキスト学習、蒸留、そしてこのトレーニングフリーの「KVキャッシュ再スケジュールトリック」を組み合わせて使用することで、生成中の衣服の切り替えを基本的に処理します。簡単に言うと、衣服の情報を適切なタイミングで入れ替えながら、人物と動きを安定させる方法を学習しているのです。ここでは、単一のGPUだけでほぼ毎秒24フレームを達成できると述べられています。既存のベースラインよりも30倍から180倍高速であると主張しています。ページの上部にスクロールすると、GitHubへのボタンが公開されています。そこには、コードとモデルをリリースする計画であると記載されていますので、続報をお待ちください。現時点でさらに詳しく読みたい方は、説明欄にメインページへのリンクを貼っておきます。
今週のAIにおける主要なトピックのまとめは以上です。これらすべてについてどう思われるか、コメント欄で教えてください。どのニュースがお気に入りでしたか。そして、どのツールを試すのを最も楽しみにしていますか。いつものように、私は皆さんと共有するための最高のAIニュースやツールを常に探し求めていきます。この動画を楽しんでいただけたなら、高評価、共有、チャンネル登録を忘れずにお願いします。次回のコンテンツもお楽しみに。また、AIの世界では毎週非常に多くの出来事が起きています。YouTubeチャンネルですべてを網羅することは到底できません。そのため、AIで起きているすべての最新情報を真に把握し続けるために、私の無料の週刊メールマガジンへの登録をぜひお願いします。そのリンクは説明欄にあります。ご視聴ありがとうございました。それでは次回の動画でお会いしましょう。


コメント