新DeepSeek、画像からビデオゲーム、GoogleがPhotoshopを破壊、ロボット軍団、3DクラウドからメッシュへのAIニュース

AIニュース
この記事は約29分で読めます。

本動画では最新のAI技術の進歩について包括的に解説している。無限トークという新しいリップシンクツールから始まり、DeepSeekの最新モデル、リアルタイムでプレイ可能なゲーム世界を生成するMirage2、GoogleフォトのAI画像編集機能まで幅広くカバーしている。さらにBoston DynamicsのAtlasロボットの自律動作デモや、中国で量産されているヒューマノイドロボットの軍団、3Dオブジェクトの高精度セグメンテーション技術まで、AIの最前線を余すところなく紹介している。

New DeepSeek, image to video game, Google kills photoshop, robot army, 3D cloud to mesh. AI NEWS
INSANE AI NEWS: DeepSeek V3.1, Mirage2, InfiniteTalk, Nano-banana, Qwen Image Edit, Agibot A2, #ai #ainews #aitools #agi...

AIの最新動向:驚異的な進歩が続く一週間

AIは決して眠らへん。今週はまさに狂気の沙汰やった。複数の人間を動画の中で話させたり歌わせたりできる最新のAIが登場したんや。DeepSeekも史上最高のモデルをリリースしてきよった。

このAIは画像を対話的なビデオゲームに変えてくれるんや。リアルタイムでプレイできるし、プロンプト追加でシーンをシームレスに編集することもできるんやで、これもリアルタイムでな。

Googleは無料のAI画像エディターを投下してきた。これはマジでPhotoshopを完全に破壊しそうやで。このAIはプロンプト一つで3Dシーン内の何でも編集できるんや。さらに別のAIは3Dポイントクラウドをメッシュに変換して、Blenderみたいな3Dソフトでさらに編集可能にしてくれる。

もうヒューマノイドロボットの軍団が量産されとるし、他にもぎょうさんあるで。さあ、早速見ていこか。

無限トーク:革新的なリップシンクツール

まずは新しい動画リップシンクツールからや。Magenが作った「Infinite Talk」っちゅうやつやで。実はこの会社、MultiTalkっていうリップシンクツールも作っとって、こっちは動画の複数キャラクターを話させたり歌わせたりできるんや。MultiTalkを知らん人は、俺が詳しくレビューしてインストール方法も説明した動画があるから、絶対チェックしてみてくれや。

ほんで、Infinite Talkの話に戻るけど、こいつはMultiTalkとかなり似とる。でも他のリップシンクツールが入力画像を一枚取って、参考音声に基づいてその人をアニメーション化するだけなんに対して、Infinite Talkは参考動画を入力して、その動画の中の人の表情や動きを音声に合わせて変更してくれるんや。

例えば、この動画を元動画として入力したとしよう。そこにこの音声を入力すると「正直なレビューは真新しいPixelユーザーの視点から来るでしょう。でも最初に一緒に開封してみましょう。iPhoneですが、どちらがどの電話かは教えません。あなたが判断してください」っていう感じになる。

つまり基本的にこの音声を適用して、この動画にリップシンクするわけや。で、最終結果がこれや。

正直なレビューは真新しいPixelユーザーの視点から来るでしょう。でも最初に一緒に開封してみましょう。iPhoneですが、どちらがどの電話かは教えません。

人の自然な動きがある元動画を使ってるから、この動画から動画への機能はめちゃくちゃリアルで自然な結果を生み出せるんやで。

歌の例もいくつか見せたろか。YouTubeにアップする時、著作権の問題で一部の音声がミュートになるかもしれんけど、できるだけ聞けるようにしとくで。

「ムーンリバー、一マイルより広く、いつか君をスタイリッシュに渡るよ。古い夢作り」

また、動きがめちゃくちゃ自然やなあ。入力画像じゃなくて入力動画を使ってるからやで。

カメラの動きやシーンからシーンへの遷移もコントロールできるんや。このAIが変更しとるのは口の動きと人の表情だけや。話す例も見せたろ。

「アルゴリズムの利点と、YouTubeプラットフォームでもっと多くの人を見つけて露出を得られるという考え方があります」

「では、なぜオーディオポッドキャストにこだわるのか?なぜいつもビデオポッドキャストをやらないのか?という疑問が浮かびます。実際のところ、コンテンツを聞くことしか望まない人たちがいるんです」

また、めちゃくちゃ自然に動いとるやろ?映画から取った元クリップで音声だけ変えた他の話す例もあるで。

「なぜ皆が中原の古戦場である嘉に包囲された項羽のことを、我々にとって破滅でしかないように語るのか理解できません。20年前、私は第二次北伐の遠征を開始して朱湊を出発しました」

「中国の秋海棠の葉は国の領土を象徴して統一されました。これはマジで狂っとる。実際に音声を話してるように見えるんやで。これがAIやなんて見分けるのは本当に難しいわ。一生は一生、一年短くても、一ヶ月短くても、一日短くても、一秒短くても、それは一生ではありません」

表情がどれだけリアルか見てみいや。これはめちゃくちゃ印象的やで。

画像から動画への変換

動画から動画に加えて、画像から動画もできるんや。参考フレームとして画像一枚と音声クリップをアップロードするだけでええんやで。その例がこれや。

画像一枚だけでも、全身をアニメーション化して、ジェスチャーまで含めて全部自然に見えるんやで。

「ディープダイブへようこそ。私たちはテクノロジーの重要な洞察を届け、ノイズをカットするショーです」

「今日は人工知能に飛び込みます。具体的には、AIがたどっているこの巨大な旅路についてです。皆が話している大規模言語モデル、LLMから、多くの人が究極の目標と呼ぶ汎用人工知能、AGIまでです」

リップシンクがマジで素晴らしいやで。ポッドキャストやインタビューのアニメーション化に簡単に応用できることがよく分かるやろ?

Infinite Talkは無制限の長さの話す動画生成を可能にして、デジタルヒューマン作成に革命をもたらすんや。時間制限はもうあらへん。仕組みはこうや。画像一枚と音声クリップをアップロードするだけで、あらゆる長さの完璧にリップシンクされた動画を生成してくれるんやで。

技術的な仕組み

仕組みを簡単に説明すると、主に「長シーケンス疎フレーム動画吹き替え」という新技術を使っとるんや。これは元動画からいくつかの参考フレームを保持するんやで。これらは人の外見やジェスチャー、カメラアングルを捉えるためのスナップショットみたいなもんや。

その後、AIが空白を埋める、つまり参考音声クリップにリップシンクしながらこれらのフレーム間を補間していくんや。ページの上部をスクロールすると、嬉しいことにもうコードが公開されとる。

このGitHubリポジトリをクリックして少し下にスクロールすると、これをダウンロードしてローカルコンピューターで実行する方法の指示が全部載っとる。これはUNET 2.1を基本モデルとして使ってることに注目してくれや。

Fusion EXやLiteex 2Vみたいな他の高速化ステップとも互換性があるで。だから、大半のコンシューマグレードGPUで実行できるはずや。Comfy UIのサポートも既にあるみたいやで。

コードと技術レポートが全部ここにある。詳しく読みたい人のために、この主要プロジェクトページのリンクを説明欄に貼っとくで。

AlibabaのRen EC:マルチモーダルモデル

次に、AlibabaがRen ECという新しいマルチモーダルモデルをリリースした。これは基本的に動画や画像を通じて世界を理解し、相互作用できる言語モデルや。理論的には、このAIモデルをロボットに接続すれば、動画内のオブジェクトや動作について理解し、質問に答えられるようになるんや。

オブジェクトセグメンテーションや空間理解みたいなタスクも実行できる。できることのクールな例をいくつか見せたろ。

この特定のオブジェクトの表面について聞くと、軽い木目仕上げの滑らかで平らな表面やと特定できるんや。このオブジェクトの機能も答えられて、それはアイテムを置くことやと分かる。

オブジェクトをセグメントすることもできる。例えば「水を飲むのにどのオブジェクトを使うべきか?」と聞くと、適切なオブジェクトを特定してセグメントしてくれるんや。

この二つの例はかなり基本的や。大半のビジョン言語モデルが既にできることやからな。でも、もっと印象的なことができるんやで。

距離と空間認識の優れた能力

異なるオブジェクト間の距離を予測することもできるんや。例えば、動画にこの二つのオブジェクトがあって「オブジェクト0とオブジェクト1の距離は?」と聞くと、なぜか1.23メートルやと答えられるんやで。めちゃくちゃ印象的やろ?

他にもすごいことがある。動画内のものの空間理解が本当に優秀なんや。動画内でこの二つのオブジェクトを特定させると、こいつらは動画の中でほんの一瞬しか映らへんねん。しかも動画はかなりブレブレで、いい動画やない。

でも「どちらが高いか?」と聞くと、正しく答えられるんや。「どちらが上にあるか?」も正しく答えられる。空間理解が非常に優秀なんやで。

さらに狂ったことに、カメラと動画内の任意のオブジェクトとの距離も予測できるんや。例えば「あなたとこのオブジェクトの距離は?」と聞くと、なぜか1.63メートルやと予測できるんやで。

方向予測と将来予測

空間理解がめちゃくちゃ優秀やから、こんな方向に関する質問もできるんや。「このオブジェクトはあなたの右後ろにあるか、右前にあるか?」このオブジェクトは前にあるってちゃんと分かるんや。

「60度右に回転したら、このオブジェクトはあなたに対してどう配置されるか?」これは1時の方向になるって予測できるんやで。

他モデルとの比較

このRen ECを他のマルチモーダルやビジョンモデルと比較すると、この新しいやつがオブジェクト認知や空間認知に関するベンチマークの大半で他を上回ってることに注目してくれや。

特に、オブジェクトの高さ、サイズ、位置などを含めたシーン全体の空間理解において印象的なんや。

嬉しいことに、これはAlibabaからやから、もう全部オープンソース化されとるんや。ここに、これをダウンロードしてローカルコンピューターで実行する指示が全部含まれとる。自分のデータを使ってさらにトレーニングする方法のコードも提供されとるで。

Quen 2.5を基本モデルとして使ってることに注目してくれや。結果として得られるモデルは20億パラメータか70億パラメータしかないんや。だから、大半のコンシューマグレードGPUで実行できるはずやで。

これはもちろん重要や。主要な用途がロボットへの組み込みやから、これらのモデルはエッジデバイスに収まるくらい小さくないとあかんのや。

素晴らしいのは、これがApache 2ライセンス下にあることや。制限が非常に少ないから、商用利用を含めてほぼ何でもできるんやで。

興味がある人のために、このメインページのリンクを説明欄に貼っとくで。

Tinker:3Dシーン編集AI

次に紹介するAIはめちゃくちゃパワフルで、プロンプトだけで3Dシーン内のものを編集できるんや。例えば、シーンに紅葉を追加するようにプロンプトすると、こんな結果が得られる。霜効果を追加するプロンプトもできて、こんな結果になる。道を川に変えることもできて、この結果が得られるんや。

シーンをゴッホ風の絵画に変えることもできるし、シーン内の特定のものを細かく編集することもできる。例えば、スリッパを白にする、この男に黒いタキシードを着せる、このタオルを黒板の絵に変える、ウエスタンコミック風にするなどなど。

技術的仕組み

内部的な仕組みはこうや。3Dシーンがあって、シーンをどう編集したいかのプロンプトを入力する。最高のAI画像エディターの一つであるFlux Contextを使って、シーンから1つまたは複数のフレームを実際に編集するんや。

これらの参考フレームを生成した後、空白を埋めて編集済みの残りの3D シーンを生成できるんやで。

DGEやEdit Splatみたいな他の3Dシーンエディターと比較すると、この新しいTinkerが、プロンプトに従って実際にシーンを変更する点で遥かに優秀なパフォーマンスを示すことが分かる。これが最も正確で一貫しとるんやで。

ページの上部をスクロールすると、GitHubリポジトリが公開されとる。ここでは、データとソースコードとパイプラインをリリースする予定やと書いてある。これは素晴らしいで。

今のところ、詳しく読みたい人のために、このメインページのリンクを説明欄に貼っとくで。

Mirage 2:リアルタイムビデオゲーム生成

他のニュースとして、新しいリアルタイムビデオゲームジェネレーターがあるんやけど、これは俺が見た中で最高品質で最もインタラクティブなやつや。Mirage 2って呼ばれてて、1ヶ月ほど前にMirage 1がリリースされた時に既に紹介したんやけど、Mirage 2はさらに良くなっとる。

これは真の生成プレイで、画像をアップロードすると様々なスタイルのプレイ可能環境を瞬時に生成できるんや。サイバーパンクシティや中世の町など、何でも生成できる。AIとチャットしてシーンをさらに編集したり、新しい要素を導入したりもできるんやで。

例えば、この画像を入力すると、歩き回って相互作用できる完全にプレイ可能な3D世界を生成してくれるんや。WASDキーや矢印キーを押して移動できる。走る、ジャンプ、攻撃、照準のボタンもあるで。

品質がどんなにいいか見てみいや。狂ったことに、この世界全体が歩き回りながらリアルタイムで生成されとるんや。以前は数秒の動画を生成するだけでもめちゃくちゃ時間がかかったのに、今はもうキーを押すとそれに反応するインタラクティブな動画ジェネレーターがあるんやで。

様々な使用例

他の例も見せたろ。こんな簡単な絵をアップロードして、歩き回れる3D世界を作ることもできる。この子供の絵をアップロードして、子供が走り回れる3D世界に変換することもできるんや。めちゃくちゃクールやろ?

これは一人称視点である必要はないで。後ろからキャラクターを見る三人称シーンも生成できる。この古典的な星月夜の絵をアップロードして、こんな3D世界に変換することもできるんや。めちゃくちゃクールやろ?

歩くキャラクターである必要もない。馬に乗ってる例もあるで。田舎の荒野から現代の大都市にプロンプトでさらに変更できるのが見えるやろ。

動画を早送りするで。サイバーパンクディストピアにプロンプトで変えることもできる。めちゃくちゃクールや。

シームレスな世界転換

また早送りすると、プロンプト一つで無限の砂漠に変えることもできることに注目してくれや。さらにプロンプトして、これをエイリアンプラネットに変更することもできる。遷移がとてもシームレスなことに注目してくれや。

その後、雪に覆われた中世の町にも変えられる。結果がこれや。最後に、熱帯の島にも変えてみよう。めちゃくちゃいいやん。

プロンプトした内容に基づいて新しいシーンにシームレスに遷移しながら、全てをインタラクティブに保つ能力が本当に印象的やで。

他の例も見せたろ。このサイバーパンクシティシーンから始めることができる。これを苔で覆われた石の階段がある熱帯雨林に変えることができる。結果がこれや。めちゃくちゃクールやで。

その後、シーンを秋の山頂の城にさらにプロンプトで変更できる。結果がこれや。プロンプトした内容に基づいて様々な環境とシーンを生成できるんや。とても柔軟なツールやで。

Google DeepMindのGenie 3との比較

ここで、数週間前に紹介したGoogle DeepMindのGenie 3との比較もしとる。Genie 3の方が確実に高品質で、物理法則をもう少し理解してるように見えるけど、Mirage 2はより相互性が高いって主張しとるんや。

ユーザーができる動作が確実に多いで。走る、ジャンプ、攻撃とかな。さらに、10分以上リアルタイムでシーンを生成し続けることができる。レイテンシーも本当に短いから、本質的にリアルタイムや。

狂ったことに、これを実行するにはコンシューマグレードGPU一つだけでいいって主張しとるんや。まだ追加の仕様は公開されてへんし、実際にローカルでダウンロードできるモデルもリリースされてへん。でも今のところ、オンラインで試すことができるんや。

実際のデモ体験

このリンクをクリックして、自分のシーンをアップロードするか、この初期画像の中から選択できる。これを選んでスタートを押すで。確かにWASDキーや矢印キーを押して視点を変えることができる。

時々、俺の指示に従わへんこともある。デモした動画ほど良くはないで。冬の風景の別の例がこれや。シフトキーを長押しして、このキャラクターを走らせることもできることに注目してくれや。スペースキーを押すとキャラクターをジャンプさせることもできるみたいや。めちゃくちゃクールやで。

サイバーパンクシティの別の例がこれや。右側で、シーンを中世の村に変えることができる。送信を押そう。動き回ってみよう。

確かに、シーンが中世の村に変わった。めちゃくちゃクールや。これは動作するけど、時々レイテンシーの問題があるんやで。キーを押してから実際に反応するまで数秒待つ必要があるかもしれん。

さらに、少なくとも俺の場合、数分後に自動的にゲームが切断される。だから連続して10分間プレイすることはできへん。サーバーを圧迫するからやろな。

でも、それでもこれは印象的やで。実際に無料でデモできる最高品質のリアルタイムインタラクティブ世界ジェネレーターやからな。

このコードやモデルがリリースされてるようには見えへんし、オープンソース化するって兆候もない。でも今のところ、詳しく読みたい人のために、このメインアナウンスページのリンクを説明欄に貼っとくで。Mirage 2のデモを絶対試してみてくれや。かなり印象を受けると思うで。

ZAI:動画スポンサー紹介

AIツールと言えば、この動画のスポンサーであるZAIをチェックしてみてくれや。GLM4.5みたいな最先端モデルがあって、これは今俺の個人的なお気に入りのオープンソースモデルになっとるんや。何よりも、オンラインプラットフォームで完全無料で使えるんやで。

めちゃくちゃパワフルなAIスライド機能があるんや。例えば、スリランカの野生動物についての美しいプレゼンテーションを作ってみよう。結果がこれや。全部がどんなに美しいか見てみいや。

コーディングもめちゃくちゃ得意や。ここに、一つのプロンプトだけで作ったスペースシューターゲームがある。見ての通り、ゲームは完全にプレイ可能で、ビジュアルも素晴らしい。

ウェブ検索もある。これをオンにして、インターネットから最新情報を取得できる。例えば、Nvidiaの財務レポートを作成してもらおう。結果がこれや。全部正確で、全部美しい。

複数ページの完全なアプリを作成できるフルスタック機能もあるんや。例えば、未来的なブログとフォーラムをデザインしてもらって、ランディングページ、トピックハブ、ブログ投稿などを含むようにしよう。

フルスタックオプションをオンにする。結果がこれや。このランディングページと、このトピックページが含まれとる。ブログをクリックできて、フォーラムなどもあるんやで。

画像を分析できる新しいビジョンモデルも最近リリースされた。写真の場所を推測するのに使える。例えば、この写真をアップロードして「ここはどこ?」って聞いてみよう。これがEnglish Bayやって正しく特定したんや。

これは完全無料で使えて、現在俺のお気に入りのオープンソースAIモデルや。説明欄のリンクから今日試してみてくれや。

GoogleフォトのAI画像編集機能

次に、GoogleがGoogleフォトにめちゃくちゃパワフルな機能を導入したんや。ユーザーがAIを使って画像を編集できるようになったんやで。使い方はとんでもなく簡単や。テキストで写真をどう編集したいかプロンプトするだけでええんや。

例えば、グレアを除去する、写真を明るくする、空に雲を追加する、物を除去するなど、ほぼ何でもできるんやで。古い写真を復元したり、こんな風に色を付けたりもできる。写真からアイテムを除去したり、服を交換したり、背景を交換したり、明度、コントラスト、彩度を変更したりもできる。

これはPhotoshopを完全に破壊するで。手動選択やマスキング、スライダー調整は一切不要や。これはステルスモデルのNano Bananaという最新画像エディターモデルを使ってるんやと思う。

Nano Bananaの詳細はまだ分からへん。実は、すぐにNano Bananaについてもっと話すで。でも戻って、この画像編集機能は最初にアメリカの最新Google Pixel 10に搭載されるようや。その後、今後数週間で他のAndroidとiOSデバイスにも徐々に展開されるんやで。

詳しく読みたい人のために、このメインアナウンスページのリンクを説明欄に貼っとくで。

DeepSeek V3.1の登場

他のニュースでは、DeepSeekが最新モデルのDeepSeek V3.1をリリースした。これには、もう少し長く処理するけどより複雑な推論タスクを処理できる思考モードと、簡単なタスクに対してより速く答える非思考モードの両方があるんや。

これはDeepSeek R1よりもはるかに速く動作する。さらに、より強力なエージェント機能を持っとる。バージョン3やDeepSeek R1と比較すると、この最新のバージョン3.1がこれらのコーディングベンチマークで遥かに優秀なパフォーマンスを示すことが分かる。改善はめちゃくちゃ大きいで。一部では前のバージョンと比べて20%以上のジャンプがあるんや。

他の全てのベンチマークでも同様で、バージョン3.1が遥かに優秀なパフォーマンスを示しとる。嬉しいことに、deepseek.comで今すぐ無料で試すことができる。

これはOpenAIのChatGPTとよく似たチャットインターフェースや。彼らはこれがDeepSeek R1の代わりにバージョン3.1を使ってるって主張してるんやけど、これが本当かどうかを明示的に確認する方法はない。だから、この動画では確実にバージョン3.1を使ってることを示すためにいくつかデモを見せるで。

Open Routerという異なるAIモデルをテストできる別の無料プラットフォームを使うことにする。ここでモデルを追加して、DeepSeek 3.1を選択するで。いくつか例をテストしてみよう。

コーディングテスト

最初のプロンプトは、プレイヤーが小惑星フィールドを通って宇宙船を操縦し、破片を避けながらエイリアンの侵略者にレーザーを発射するスペースシューターゲームを作成してもらう。

アプリをコーディングしてもらうで。生成をクリックしよう。結果がこれや。矢印キーで移動してスペースバーでレーザーを発射できるみたいやね。スタートをクリックしよう。

確かに動き回れる。エイリアンの侵略者もおるし、小惑星もあって、それらを避ける必要がある。全部が箱から出してすぐに動作する。動き回れるし、レーザーも撃てる。さらに、撃つと小惑星とエイリアンの侵略者が爆発するんやで。めちゃくちゃいいやん。

ここで死んでみよう。小惑星に当たってみる。確かに、3回当たったら生命カウントがゼロになって、ゲームオーバーになった。全部動作するで。

複雑なダッシュボード作成

次に、価格変動、リスク評価、トレードシミュレーターを示すクリプト通貨ポートフォリオダッシュボードを生成してもらおう。生成を押す。結果がこれや。

確かに、想像上のクリプト通貨ポートフォリオダッシュボードがある。これらの異なるコインから選択できる。このトレードシミュレーターを試してみよう。

ビットコインを10,000で2つ買って、買うを押す。ここの保有資産が更新されたと思う。もう一回やってみよう。今度はビットコインを80,000で3つ買う。ここの保有資産が更新されるのが見えるやろ。

だから、このトレードシミュレーターも動作してるみたいや。ダッシュボードはとても基本的やけど、動作するで。

医療関連の複雑な質問

次に、より深い研究と思考が必要なプロンプトや。先天性心疾患のある新生児について、手術オプションと長期予後を研究し、監視ステップなどを提案して包括的なレポートにまとめてもらう。生成を押そう。

結果がこれや。導入と概要がある。解剖図もある。これは画像を生成できないから、こんな風にテキストを使って図を作ろうとした最善の努力や。

別の図もこんな風に説明しようとしとる。手術と介入オプションの表がある。長期予後と生存率があって、全てを概説した素晴らしい表がある。

長期的考慮事項、必須監視ステップ、遺伝カウンセリング推奨事項と結論がある。悪くないで。これらの回答を他のAIモデルと客観的に比較するのは本当に難しい。どれもこういった質問にはかなりうまく答えられるからな。でも、それぞれが少し違ったバイブを持ってるから、個人的にどれを好むかによるんやで。

視覚的シミュレーション

次に、働きバチの経路とハチミツ貯蔵を示す六角形セルを形成するハチの巣建設の視覚的シミュレーションを作ってもらおう。以下のスライダーを含めてなどなど。生成を押そう。

結果がこれや。ハチが実際に採餌したり、より多くのセルを形成したり、セルをハチミツで満たしたりしてるようには見えへん。ハチはこの方向にゆっくり浮いてるけど、俺が望んでるものとは程遠いで。

コロニーサイズを増やすと、確かにハチの数は増える。資源の利用可能性を増やしたり減らしたりしても、実際に資源を集めてるようには見えへんから、何もしてへんと思う。これは失敗や。

現在トップのモデルであるGPT-5は、このプロンプトを正しく処理できたことを注記しとく。これらがDeepSeek バージョン3.1での簡単なテストやった。

独立リーダーボードでの評価

次に、独立したリーダーボードを見てみよう。Artificial Analysisのこれで、DeepSeekバージョン3.1、少なくとも思考モードがここまで上位にランクされてることが分かる。オープンソースモデルの中では、OpenAIのGPT-4o OSとQuen 3よりわずかに遅れとる。

残念ながら、DeepSeekバージョン3.1は現在最高のオープンソースモデルではないんや。価格を見ると、これは本当に安い。Quen 3より2.6倍安いんやで。

Abacus AIによるLiveBenchという別のリーダーボードがある。見ての通り、DeepSeekバージョン3.1の思考モードはここまで下にあって、Quen 3よりわずかに下や。少なくともこのリーダーボードでは、DeepSeekバージョン3は現在使える2番目に優秀なオープンソースモデルや。Quen 3よりほんの100分の1ポイント低いだけや。

興味深いことに、OpenAIのOSSは実際にはここまで下にある。だから、OSSをここにランクするこのリーダーボードと、このリーダーボードの間にはかなり大きな食い違いがあるんや。

だから、AIモデルがどう実行するかの包括的な感覚を得るために、複数のリーダーボードを見ることが重要なんやで。

これらがDeepSeekバージョン3.1を使った簡単なテストやった。チャットインターフェースを使って今すぐ無料で使えるで。さらに、以前と同様に、もうモデル全体がリリースされとる。

Hugging Faceに行けば、ここでDeepSeekバージョン3全体を実際にダウンロードできるんや。全てのリンクがここにあるから、このメインアナウンスページのリンクを説明欄に貼っとくで。

Mesh Coder:ポイントクラウドからメッシュ変換

次に紹介するAIはめちゃくちゃ便利や。Mesh Coderって呼ばれてて、基本的にポイントクラウドを取って、こんな編集可能な3Dメッシュに変えることができるんや。

具体的には、Blenderみたいな3D編集ソフトウェアで使えるコードの形で3Dモデルを出力するんや。例えば、ここにソファがあって、ソファの各セクションのコードがここにあって、任意の3Dモデリングソフトウェアでさらに編集できるんやで。

ソファの任意の部分のサイズ、形状、寸法を簡単に変更できる。この椅子の別の例がある。また、これは基本的にコードだけや。このコードでこの椅子の各コンポーネントを編集できるんやで。

これは、実際に編集したり操作したりできへんこんなような3Dポイントクラウドだけよりも遥かに良くて好ましいってことを覚えといてくれや。

このトイレの別の例がある。また、全部がこの3Dメッシュに本当にきれいにコード化されてて、さらに編集できる個別セクションがあるんや。

コードによる3D編集の利点

この利点は、これがコードだけやから、3Dモデルをさらに簡単に編集できることや。例えば、この上部をキューブからシリンダーに変えることができて、こんな結果が得られる。この洗面台の深さをこんな風に変更することもできる。

解像度、基本的にメッシュの面数を増やすこともできる。ここでの解像度は3やけど、24に増やすことができて、ずっと滑らかになることが分かるで。別の例がこれや。

このコードを使って、LLMを通してオブジェクトの構造を理解することもできる。例えば、「このオブジェクトの構造は何?」と聞いてこんな答えを得ることができる。「このソファには何本の脚がある?」と聞くこともできて、ここに答えがあるんやで。

生成された結果は、こんな3Dポイントクラウドだけと比較して処理・分析するのが遥かに簡単なんや。嬉しいことに、ページの上部をスクロールすると、GitHubリポジトリが公開されてて、11月までにコードをリリースする予定やと書いてあるで。それを楽しみに待っといてくれや。

今のところ、詳しく読みたい人のために、このメインページのリンクを説明欄に貼っとくで。

Boston Dynamics Atlasの最新デモ

今週は、Boston DynamicsのAtlasによる新しいデモもある。これは彼らの最新ヒューマノイドロボットや。ここで、完全に自律的に動作してるのが見えるで。これは裏で誰かが遠隔操作してるわけやない。

目標は基本的に、このコンテナ内のオブジェクトを取って、より大きなコンテナに置くことや。その間中、この迷惑な人間が蓋を閉めて、ロボットが実際に物を取るのを難しくしようとしとる。

でも見ての通り、自律的に蓋を再び開けて、アイテムを掴んで大きなビンに置くことができる。その後、この迷惑な人間が箱を引きずって離そうとする。

ロボットが箱がより遠くに行ったことを自律的に検出して、最初に箱を自分の方に引き寄せてから、オブジェクトの処理を再開するのが見えるで。

このロボットが様々な環境や条件やシナリオで、障害に遭遇しても全て自律的に、とんでもない数の異なるタスクを基本的にできることが分かるやろ?

ロボットの進歩した能力

また注目すべきは、今このロボットがこれらの爪のような手を持ってることや。以前のデモでは、Atlasは実際には手を持ってへんかったけど、以前はこんな風に腕立て伏せや宙返りができることが見えとった。

だから、この手のコンポーネントは交換可能みたいやね。これらの能力で、Atlasが工場、製造、物流でとんでもない数のタスクを自動化するために配備できることが分かるで。

中国のヒューマノイドロボット量産

他のロボット関連ニュースでは、中国でヒューマノイドロボットの軍団が量産されてるのを示す新しい動画がある。これは上海に拠点を置くAGI Roboticsが開発したAGI Bot A2や。

AGI Botは以前にも紹介したことがあるけど、今年既にこれらのロボットを約1000台量産してるみたいで、ここで見ることができる。年末までに5000台に生産を拡大する予定やで。

商業サービス環境でこれらのロボットを積極的に配備しとる。例えば、顧客ガイダンスを提供したり、マーケティングプレゼンテーションをしたり、もちろん工場や物流でのタスク自動化にもや。

AGI A2の仕様

AGI A2についていくつかの統計を紹介しよう。身長175cm、体重55kg、40以上のアクティブな自由度を持ってて、めちゃくちゃ柔軟で器用や。

360度ライダーに加えて、複数のカメラとマイク、力とトルクセンサーなど複数のセンサーも持っとる。これにより精密な操作と障害物検出が可能になるんやで。

フル充電で約2時間動作できる。さらに、最大15kgまで運ぶことができる。だから、商業や工業のニーズにとってかなり重い荷物の持ち上げができるんや。

大半のヒューマノイドロボットと同様に、その脳は基本的にローカルマルチモーダルモデルで、リアルタイムインタラクティビティのためにテキスト、音声、視覚入力を処理できるんやで。

現在、ショッピングモールやショールーム、自動車ディーラーシップ、工業用途など、様々なシナリオに配備されてるのが見えるで。

世界ヒューマノイドロボット競技大会

他のニュースでは、俺のチャンネルをフォローしてる人は知ってると思うけど、先週北京で世界ヒューマノイドロボット競技大会が始まった。基本的にヒューマノイドロボットのオリンピックや。ボクシングや走りなど、とんでもない数のイベントで競技したんやで。

先週のビデオを録画した時はまだイベントが進行中やったから、ヒューマノイド競技大会からのさらなるアップデートがここにある。

ソロダンスコンテストもあったみたいや。金メダルを獲得した優勝パフォーマンスがこれや。Uni Tree G1からのもので、約2分半の本当に長いダンスルーチンを実行するように基本的にトレーニングされたんや。

可愛いのは、実際にAGIというテキストが入った赤いTシャツを着てることや。見ての通り、かなり複雑なダンスルーチンや。かなり複雑な協調が必要やけど、全時間バランスを維持できるんやで。

Quen ImageEditの紹介

今週は、Quen ImageEditという新しい最先端画像エディターもある。プロンプトだけで画像を編集できるんや。手動選択やマスキングやブラシは一切必要ないで。

明度、コントラスト、ホワイトバランスの変更や写真の復元やテキストの変更や画像の特定機能やオブジェクトの微細編集など、とんでもなくたくさんの印象的なことができるんや。

Artificial Analysisという独立リーダーボードを見て、全ての画像編集モデルをランク付けすると、Quen ImageEditが現在使える最高のオープンソース画像エディターになってることが分かる。Flux Context MaxやFlux Context Proみたいな一部のクローズドソース独占モデルを打ち負かしてることもあるんやで。

これらは有料でクローズドソースやってことに注目してくれや。オープンソース版はここまで下にあるんや。Quen ImageEditの完全なインストールチュートリアルとレビューを今週既にしたから、詳しく知りたかったらこの動画を見てくれや。

Nano Banana:ステルス画像エディター

でも、Quen ImageEditに加えて、Nano Bananaというステルスモデルもあるんや。これは圧倒的に最高のAI画像エディターや。近づくものもないで。

噂では、これはGoogleのものらしくて、実際、彼らが正式にリリースするのを待ってたんやけど、まだしてへん。正式にリリースされたら絶対完全レビュー動画を作るつもりやけど、現時点ではNano Bananaというステルス名の下にあるだけや。

少なくともこの録画時点では、LM Arenaというプラットフォームでしかアクセスできへん。これは基本的に、ユーザーが異なるAIモデルを並べてブラインドテストできる場所や。

このページのリンクを説明欄に貼っとくで。ここで編集する画像をアップロードするんやで。例えば、この損傷した古い写真をアップロードして、「この写真を復元して色を付けて」って書くで。

生成を押そう。LM Arenaを使う際の痛い部分がここや。プロンプトを処理するために2つの画像エディターをランダムに選択するんや。どちらがどちらか、勝者を選ぶまで明かされへん。

この例では、左が良いを選ぶで。そしたら、俺が選んだのがNano Bananaやったって分かるんや。

時々、これらのモデルの両方がNano Bananaを含んでへんこともある。だから、これの迷惑なところは、何度も繰り返して、少なくともこれらの一つがNano Bananaを使ってることを期待せなあかんことや。

Nano Bananaについて言及したかっただけや。これは現在使える圧倒的に最高の画像エディターやから。でも言うたように、実際に正式リリースされるまで完全レビュー動画は待つつもりや。だから、それを楽しみにしといてくれや。

今のところ、この録画時点でNano Bananaを使える唯一の場所であるこのLM Arenaページのリンクを貼っとくで。

Geo SAM 2:3Dセグメンテーション

次に紹介するAIも最先端や。Geo SAM 2って呼ばれてて、3Dオブジェクトの異なる部分を特定してセグメントする本当に正確な方法なんや。

こんな3Dメッシュを取り込むだけや。簡単なプロンプトも受け入れることができる。3Dモデルをクリックしたり、3Dモデルにボックスを描いたりしてセグメンテーションを案内できる。最終的にこんな結果が得られるんやで。

いくつか例を見せたろ。選択したりクリックしたりするものによって、キャラクターをこんな風にセグメントしたり、こんな風にセグメントしたりできる。

ここで、ブーツが全部一つのオブジェクトになってることに注目してくれや。一方、ここでは足さえも分離されとる。ここでは手とこの腕の部分を一緒にマージすることも選択できる。一方、こっちでは、これらの部分は別々や。

ここでは頭の全ての部分を一緒にマージすることも選択できる。だから、クリックする場所やプロンプトする内容に基づいて、3Dモデルをどうセグメントしたいかを選択できるんやで。

この3Dモデルを異なる風にセグメントすることを選択できる他の例もあるで。3Dモデルをクリックしてどの部分をセグメントしたりマージしたりするかを決定できることの利点がここにある。

例えば、果物だけをボウルの残りから分離したい場合、この新しいGeo SAM 2でそれができるんや。これは最後から2番目の列や。

グラウンドトゥルース、つまり実際のセグメンテーション、答えが最も右の列やってことに注目してくれや。Fine 3DやSAM 3D、SAM Meshなどの他のツールでは、果物をボウルの残りから正確にセグメントできへんかったことに注目してくれや。

それらの一部は各果物を別々のオブジェクトとしてセグメントするけど、これは理想的やない。ここの別の例では、見ての通り、この新しいAIは意味のある部分に基づいて井戸を正確にセグメントできて、選択可能で、グラウンドトゥルースに非常に近いんや。

対照的に、残りのセグメンテーションモデルはかなり混乱しとる。それらの一部は各レンガと各木片を別々のオブジェクトとして分離する。それらの一部はレンガの異なる列をランダムにセグメントする。理想的やない。

参考用の他の例もあるで。これまでのところ、Geo SAM 2だけがこのオブジェクトを正しくセグメントできて、他のセグメンテーションモデルはかなり混乱してて、カスタマイズ性も低いことに注目してくれや。

時間の都合上、全部は見ないけど、このページにはとんでもなく多くの例と比較があるで。

技術的仕組み

仕組みを簡単に説明すると、基本的に3Dモデルを取って、AIを使ってその3Dオブジェクトの12の異なる視点を生成するんや。こんな異なるビューが得られる。

その後、SAM 2というセグメンテーションツールを使って基本的に画像を処理し、個別の部分を分離するんや。

このキャラクターの12のビューを生成する理由は、オブジェクトと各部分を異なる視点でより良く理解するためで、これによってより正確に全てをセグメントできるようになるんや。

ページの上部をスクロールすると、GitHubボタンが公開されてるけど、クリックしても実際にはどこにも行かへん。現時点では、コードやモデルはまだリリースされてへんようやけど、願わくばオープンソース化してくれるやろ。

これは現在使える最高の3Dセグメンテーションツールの一つやと思う。例から見ての通り、めちゃくちゃ柔軟でカスタマイズ可能や。

今のところ、詳しく読みたい人のために、このメインページのリンクを説明欄に貼っとくで。

まとめ

今週のAIのハイライトは以上や。これら全部についてどう思うか、コメントで教えてくれや。どのニュースがお気に入りやった?どのツールを試すのを最も楽しみにしとる?

いつものように、君らと共有するトップAIニュースとツールを探し続けるで。この動画を楽しんでもらえたなら、いいね、シェア、チャンネル登録、そしてもっとコンテンツをお楽しみに。

毎週AIの世界でとんでもなくたくさんのことが起こっとる。YouTubeチャンネルで全部をカバーすることは不可能や。だから、AIで起こってることを本当に最新に保つために、俺の無料週刊ニュースレターを購読することを忘れんといてくれや。そのリンクを説明欄に載せとくで。

見てくれてありがとう、また次回で会おう。

コメント

タイトルとURLをコピーしました