ロボットのガールフレンド、再帰的AIエージェント、完全なAIリサーチ、Happy Horse:AIニュース

AIニュース
この記事は約40分で読めます。

今週のAI業界における最新ニュースとアップデートを網羅的に解説する。Alibabaの最新動画生成モデルや、アニメ特化型の画像生成AI、再帰的な自己改善を行うマルチエージェントシステムなど、多岐にわたる技術の進化を紹介する。さらに、研究論文の自律的な執筆や、Adobe製品などを操作できるAIエージェント、1930年代のデータのみで学習された特殊なモデル、そして最新のヒューマノイドロボットの動向まで、AIがもたらす未来の展望を詳しく掘り下げていく。

Robot girlfriends, recursive AI agents, full AI research, Happy Horse: AI NEWS
HUGE AI NEWS: Happy Horse, SenseNova U1, Talkie, Grok 4.3, Vista 4D & more #ai #ainews #aitools #aivideo #agiThanks to o...

AI業界の最新ニュースとomnishot cutの紹介

AIは決して眠ることはなく、今週も本当に激動の1週間でした。ロボットのガールフレンドがもうすぐやって来ます。Alibabaがついに最新の動画生成AIをリリースしました。テキストポスターやインフォグラフィックの作成に非常に優れた、新しいオープンソースの画像モデルも登場しています。AIは今や、PhotoshopやBlenderのような人気ソフトウェアの中で自律的に作業を行うことができるようになりました。そして、単一のエージェントを使う時代はもう終わりです。どんどん賢くなる再帰的なマルチエージェントシステムが登場しました。動画を3Dに変換する素晴らしいAIや、アニメに最適化された新しい画像モデルもあります。動画内のカットやトランジションを自動的に検出できるAIも発表されました。AIエージェントが自律的に研究論文を読み書きする新しい方法や、驚くべきヒューマノイドロボットのデモなど、盛りだくさんです。それでは、早速見ていきましょう。

最初に紹介するのは、動画編集に非常に役立つ本当に魅力的なAIです。これはomnishot cutと呼ばれ、動画を読み込んでどこでカットが行われたかを検出することができます。また、それぞれのカットでどのような種類のトランジションが発生したかも検出可能です。たとえば、ハードカットやディゾルブなどを検出できているのがわかります。ほかにも、フェードやスライド、クロスズームなども検出できます。長い動画の中で、カットやトランジションが発生した正確なタイムスタンプを見つけたい場合に非常に便利です。説明によると、250万本の生のインターネット動画を収集し、そこから1100万以上のトランジションのラベル付けを含む30万本の合成トレーニング動画を作成したとのことです。これらのデータをAIに読み込ませることで、ハードカットやさまざまな種類のトランジションを検出する方法を学習しています。ページの一番上までスクロールすると、無料で試せるHugging Faceのスペースが公開されています。または、コードボタンをクリックすると、パソコンにローカルでダウンロードして実行するための手順がすべて記載されています。ちなみに、ファイルサイズはわずか164メガバイトと非常にコンパクトです。さらに詳しく知りたい方は、下の説明欄にメインページへのリンクを貼っておきます。

Alibabaの動画生成モデル Happy Horse

また今週、Alibabaによる待望の動画モデルHappy Horseがついに公開されました。公式ウェブサイトから無料でサインアップできます。リンクは下の説明欄に貼っておきます。ページの上部を見ると、何度か無料で生成できるクレジットが付与されているのがわかります。現在、Happy Horseはテキストから動画への変換、および画像から動画への変換の両方で、この独立したArtificial Analysisのリーダーボードで1位にランクインしています。実際、テキストから動画への変換におけるリードはかなり驚異的です。伝説的なSeed Dance 2.0よりも100ポイント近く上回っているほどです。そのため、私はHappy Horseに高い期待を抱いていました。しかし、実際にテストしてみると、正直なところかなりがっかりしました。いくつかテストした結果をお見せします。

最初のテストとして、私がよく使うお決まりのディズニープリンセスのプロンプトを使いました。3Dピクサーアニメーション。キラキラした白いドレスを着たプリンセスが、森の中で赤く光る目を持つ巨大なドラゴンから逃げている、というものです。しかし、これでは簡単すぎるので、物語をさらに続けてみましょう。ドラゴンが火を吹き、彼女の後ろにある地面や葉っぱに火がつきます。川にたどり着いた彼女は、流れてくる破片に素早く飛び乗って川を渡ります。プリンセスが振り返ると、川を渡れずにイライラして吠えているドラゴンが見える、という展開です。そして、Happy Horseで生成された結果がこちらです。

すべての物理法則が完全に間違っているのがわかると思います。ドラゴンがプリンセスを追い越して走っている部分すらあります。見た目もかなりひどく、プロンプトにあまりうまく従っていません。これをSeed Danceの生成結果と比較してみましょう。こちらがその結果です。

Seed Danceはこの動画をほぼ完璧に仕上げているのがわかります。信じられないほど素晴らしいです。プロンプトで指定された一連の連続したアクションすべてにしっかりと従っています。それでは、もうひとつ非常に難しい例を見てみましょう。地球の衛星画像から始まり、ニューヨーク市のドローン映像にズームインし、さらにオフィスビルにズームインして、最後にTikTokをスクロールしている人の視点にズームインするというものです。これを1つの連続したショットで作成する必要があります。Happy Horseで生成された結果がこちらです。

ここでもやはり、物理法則が完全に破綻しているのがわかります。窓の中にいる男性が大きすぎます。さらに、スマホのTikTokの画面もまったくおかしなことになっています。これに対してSeed Dance 2.0と比較すると、すべての異なるレベルをズームしながら1つの連続したショットになっています。そして最後に、TikTokをスクロールしている女性の場面にたどり着きます。繰り返しますが、これは本当に素晴らしいです。というわけで、テストはここでやめました。つまり、Seed Dance 2.0の驚異的な品質や柔軟性には遠く及ばないということです。Happy HorseがどうやってArtificial Analysisでこれほどの大差をつけて1位になれたのか、私にはまったく理解できません。少なくとも私の個人的なテストでは、明らかにSeed Dance 2.0に遅れをとっています。それが、今週Happy Horseの完全なレビュー動画を作らなかった理由です。最先端とは言えないからです。ただ、もし自分でテストしてみたい場合は、彼らのサイトに無料でサインアップでき、テスト用のクレジットも少しもらえます。興味がある方は、下の説明欄のメインページへのリンクをチェックしてみてください。

モーションキャプチャの進化 mocap anything version 2

さらに今週は、mocap anything version 2と呼ばれる新しいAIも登場しました。これはモーションキャプチャにおける大きな前進です。簡単に言うと、人や生き物など、動いているものならほぼ何でも普通の動画として読み込み、それをクリーンなアニメーション対応のスケルトンに変換して、任意の3Dキャラクターに適用できるというものです。ここで重要なのは、まったく異なる構造のスケルトンでも機能するということです。人間だけでなく、他の動物や、奇妙な手足を持つ架空のキャラクターにさえ対応できます。

今回のバージョンの特別な点は、その処理方法にあります。古いシステムでは、通常、問題を2つのステップに分けていました。まず、肘や膝、翼などの関節がどこにあるかを推測し、次にインバースキネマティクスと呼ばれる別のステップを使用して、それを回転データに変換しようとします。問題は、この2つ目のステップが学習可能ではないため、しばしば間違いを犯すということです。関節が不自然にねじれたり回転したりする、奇妙なアーティファクトが発生してしまいます。そこで、この新しいシステムでは、完全にエンドツーエンドで処理を行うようにしました。基本的にすべてを一緒に学習します。動画を見て、ポーズを予測し、最終的な関節の回転データを1つの統合されたモデルで直接出力します。つまり、途中の推測だけでなく、最終的なアニメーションの品質に向けて自己修正し、最適化できるということです。上の段にある以前のバージョン1と比較すると、その違いは明らかです。古いものはジッターがあり、関節が奇妙に回転していますが、この最新のバージョン2ははるかに安定していて正確に見えます。

全体として、アニメーション、ゲーム、VFX、あるいはロボット工学に関わっている人にとっては、これは非常に大きなニュースです。手作業を大幅に減らし、モーションキャプチャの柔軟性を飛躍的に高めてくれます。参照用の動画が1つあるだけで、ほぼ何でもアニメーション化できます。ページの上部までスクロールすると、GitHubリポジトリが公開されています。そこには、mocap anything version 2のインストールと実行方法に関する手順が記載されています。また、これを自分でトレーニングするためのスクリプトも含まれています。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

軽量かつ高速な Link 2.6 Flash

また今週、Inclusion AIがLink 2.6 Flashという超高性能な中規模モデルをリリースしました。面白いことに、Inclusion AIはAlibabaからスピンオフしたまた別の研究所です。JuanやZagemageを作ったTongiラボとは異なり、Happy Horseを作ったATと呼ばれる別のラボとも違います。つまり、AlibabaにはAIに取り組んでいるさまざまなラボが同時にたくさん存在しているということです。概要としては、これは1040億パラメータのモデルですが、使用時にアクティブになるのは74億パラメータのみです。そのため、非常に効率的で安価に実行できます。これらのエージェントのベンチマークを見ると、同規模の他のモデルとかなり競合していることがわかります。ただし、ここでは比較対象のモデルを少し都合よく選んでいるきらいはあります。QuinnやGemma 4のような最近のモデルは見当たりません。

しかし、重要なのはパフォーマンスだけではありません。Link 2.6 Flashは速度と効率に最適化されています。ここのチャートを見るとわかるように、他のモデルよりもはるかに高速で、特にコンテキスト長が長くなった場合にその差が顕著です。言い換えると、プロンプトが非常に長くなった場合ですね。とにかく、これは注目しておくべきもう1つのオープンソースモデルです。さらに詳しく知りたい場合は、下の説明欄にメインページへのリンクを貼っておきます。

アニメ画像生成に特化した Zanime

また今週は、アニメ画像の生成に興味がある人向けの新しいAIも登場しました。Zanimeがリリースされたばかりです。概要を説明すると、彼らは世に出ている最高のオープンソース画像モデルの1つであるZimage Baseを採用し、それをアニメ画像に特化してゼロからファインチューニングしました。これは単なるLoRAではなく、アニメのスタイルを処理するために設計された完全にトレーニングされたモデルであり、はるかに高い一貫性と幅広い表現力を備えています。生成できる画像の例をいくつかお見せします。Zimageの素晴らしい機能をすべて引き継いでおり、わずか60億パラメータと非常にコンパクトで高速です。ページを下にスクロールすると、ファイルサイズがわずか6GBのより小さなFP8バージョンもリリースされているため、ほとんどのコンシューマー向けGPUに快適に収まるはずです。また、CUDA非対応のGPUを使用しているユーザー向けにGGFSもリリースしています。さらに、抽出された4ステップバージョンも作成されており、わずか4ステップで画像を生成できます。つまり、通常は数秒で完了するということです。とてつもない速さですね。とにかく、アニメ画像を作るのが好きな方は、ぜひこのモデルをチェックしてみてください。かなり有能です。興味がある方は、下の説明欄にメインページへのリンクを貼っておきます。

AIの新しいスケール手法 再帰的マルチエージェントシステム

次は、マルチエージェントAIシステムが実際にどのように機能するかという点において、非常に興味深いパラダイムシフトとなるプロジェクトです。これは再帰的マルチエージェントシステムと呼ばれ、そのアイデアは非常にシンプルです。AIエージェント同士がテキストで会話する代わりに、彼ら自身の潜在空間内で協力し、思考を何度もループさせて回答を何度も洗練させていきます。これが具体的にどういう意味なのか説明しましょう。通常、複数のAIエージェントが連携する場合、プレーンテキストでメッセージのやり取りを行います。しかし、それは遅くてコストがかかり、非常に非効率的です。すべてのステップで、単語を生成し、デコードし、そして再び読み取る必要があります。

しかし、このシステムはそれを完全に覆します。代わりに、エージェントは単語に変換される前の、潜在的な思考とも呼ばれる内部表現を使用して通信します。入力として問題を受け取り、ループ内で複数のエージェントを実行し、一番最後にのみテキストを出力します。専門家のグループが静かに一緒に考え、複数回のラウンドにわたってアイデアを洗練させ、最終的な答えにたどり着いたときにだけ口を開くようなものだと考えてください。そして、これは非常に大きな成果をもたらしました。潜在空間にとどまることで、システムはより速く、より安価に、そして実際により正確になります。速度は2.4倍から4倍に向上し、使用されるトークンは75%減少し、ベンチマーク全体の精度は8%以上向上しています。

プランナーエージェント、批評エージェント、ソルバーエージェントのように、複数の異なるエージェントを連鎖させることも可能です。最後のエージェントの出力が最初のエージェントにフィードバックされ、プロセスが再び繰り返されます。本当に興味深いのは、これらのラウンドのほとんどが沈黙のうちに行われるということです。最後のステップまで、テキストは一切生成されません。だからこそ、非常に効率的なのです。彼らは、逐次的なエージェント、専門家の混合、さらには小さなモデルが大きなモデルから学ぶ蒸留のセットアップなど、さまざまな構成でこれをテストしました。そして、ほぼすべてのケースで、この再帰的アプローチは標準的な方法を上回りました。

ここに驚くべき例が1つあります。ある数学の問題で、最初のラウンドでは答えを間違えます。しかし、2回目のラウンドまでにシステムは自己修正します。そして3回目のラウンドでは、答えを導き出すだけでなく、より明確に説明するようになります。つまり、単に精度を向上させるだけでなく、時間の経過とともに推論そのものを洗練させているのです。スケーリングの挙動も興味深いです。システムを深くループさせるほど、パフォーマンスが向上します。従来のテキストベースのシステムでは、横ばいになり始めたり、さらに悪化したりすることもありますが、このシステムは改善し続けます。ここにあるように、これらすべての異なるベンチマークにおいて、ラウンドを追加するほどパフォーマンスが向上しています。

なぜこれが重要なのでしょうか。これは基本的にAIを拡張する新しい方法だからです。モデルを単純に大きくしたり、データを増やしたりする代わりに、複数のエージェントを一緒に考えさせ、隠された潜在空間でそのプロセスをループさせるだけです。より安価で、より速く、より柔軟です。もしこの方向性が機能し続ければ、今後マルチエージェントAIシステムを構築する際のデフォルトの方法になる可能性があります。素晴らしいことに、ページの上部で彼らはすでにモデルとコードを公開しています。このコードボタンをクリックして少し下にスクロールすると、これをパソコンにローカルでダウンロードして実行するためのすべての手順が記載されています。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

動画を4D空間に変換する Vista 4D

次に取り上げるこのAIもかなりクールです。Vista 4Dと呼ばれるもので、普通の動画を読み込んで4Dシーンに変換することができます。言い換えると、時間の要素を含んだ3D空間にすべてが配置されるということです。参考までに他の例もいくつかお見せします。これはつまり、好きなカメラの動きや角度を使ってシーンを再撮影できることも意味しています。非常に柔軟なツールですね。ここにも参考になる別の例があります。このように、非常にクールなズーム視差効果なども作成できることがわかります。そして、元の動画のすべてのキャラクターとすべての詳細が、最初から最後まで一貫して保たれています。

このVista 4Dの生成結果を、私が以前チャンネルで紹介したRecam MasterやTrajectory Crafterなどの他の4D生成AIと比較すると、Vista 4Dが群を抜いて最も一貫性があり、正確であることがわかります。参考のためにもう1つ例を挙げます。キャラクターの詳細やその他のすべてを、生成プロセス全体を通して一貫して維持することができています。本当に素晴らしいのは、これを本質的に3Dポイントクラウドに変換するため、ポイントクラウドを好きなように編集してから、それを動画として再構築できることです。たとえば、上の段の元動画には車が1台しかありませんが、3Dポイントクラウドに車を追加すると、シーンに2台の車がある動画をレンダリングできます。

さらに驚くべきことも可能です。動画全体を挿入することすらできます。たとえば、このベンチに座っている老夫婦の動画の3Dポイントクラウドを追加して、元の3Dシーンに組み込みます。これで、これら2つを融合させることができました。かなりクールですよね。また別の例として、上の段の3Dシーンの手前にいるお年寄りを完全に削除することを選択し、その後、このお年寄りがいない新しい動画として再レンダリングすることもできます。あるいは、このサイの動画を使って、サイの3Dポイントクラウドを抽出し、それを元の動画の3Dシーンに挿入して再レンダリングすることで、サイがシーンに歩いてくる動画を正確に作成することもできます。

さらに素晴らしい例もあります。元の動画を見ると固定された視点になっており、部屋の残りの部分がどのようになっているかは実際にはわかりません。しかし、Vista 4Dを通すことで、部屋の側面がどのようになるかを外挿して推測することができます。もちろん、これは部屋の正確なレンダリングではないかもしれません。そこで代わりに、部屋全体が実際にどのように見えるかの動画を入力し、それをポイントクラウドのデータにフィードバックすることができます。その結果がこちらです。これで、部屋の正確な詳細を備えた周回ショットが可能になりました。素晴らしいことに、ページの上部までスクロールすると、彼らはすでにこれのコードを公開しています。このコードボタンをクリックして少し下にスクロールすると、パソコンにローカルでダウンロードして実行するための手順がすべて記載されています。モデルのサイズは約21GBなので、中規模からハイエンドのコンシューマー向けGPUに収まるはずです。とにかく、さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

Metaの最新画像モデル Tuna 2

また今週、MetaがTuna 2という最新の画像生成および編集ツールをリリースしました。これはNano BananaやGPT image 2に非常に似ています。さまざまな異なる画像を生成することができます。プロンプトの理解力が非常に高いため、このような複雑な画像を作成することも可能です。また、テキストのレンダリングやさまざまなアートスタイルの表現にも優れています。しかし、これらの初期の例を見る限り、Nano BananaやGPT image 2ほど優れているようには見えません。

画像を生成するだけでなく、画像を編集することもできます。たとえば、この女性をレゴに変えたり、これをゴッホ風の絵画に変えたりできます。ページの上部までスクロールすると、これへのコードボタンがリリースされています。インストール手順の追加も開始されています。しかし、少し下にスクロールすると、組織のポリシーの制約により、完全なモデルの重みをリリースすることはできないと書かれています。代わりに、レイヤー数が少ない基盤チェックポイント、つまり基本的には弱体化されたバージョンのみをリリースする予定だそうです。一体何のふざけた言い訳でしょうか。しかし、Llama以来、何もオープンソース化していないMetaからの発表ですから、驚くことではありません。それでもさらに詳しく読みたい場合は、下の説明欄にメインページへのリンクを貼っておきます。

スパースな画像から3D再構築 any recon

今週は、3D再構築に非常に便利なAIも登場しました。これはany reconと呼ばれ、シーンの写真を複数枚読み込んで、そのシーンの3Dポイントクラウドを再構築することができます。ここでの重要なポイントは、画像の束をそのまま渡すだけでよく、それらが完全に位置合わせされていたり、順番に撮影されていたりする必要すらないということです。それでも、シーンの首尾一貫した3D再構築を出力することができます。つまり、歩き回りながらカジュアルに物を撮影するだけで、それを頑丈な3Dモデルに再構築してくれるのです。

これは非常に大きな意味を持ちます。なぜなら、従来の方法では、入力がまばらであったり一貫性がなかったりするとうまくいかなかったからです。新しい拡散ベースのメソッドの中には、欠落しているビューを生成することでこれを修正しようとするものもありますが、通常は一度に1つか2つのフレームしか見ないため、結果に一貫性がありません。この新しいany reconは異なるアプローチをとります。シーンのグローバルメモリのようなものを保持するのです。3D環境の継続的に更新されるメンタルマップだと考えてください。そのため、以前のフレームを忘れるのではなく、それを記憶し、プロセス全体を通して使用します。そして後から空白を埋め、非常に一貫性のある動画と、このシーン全体の理解を生成することができるのです。

いくつか例を挙げましょう。ここでは、このシーンのランダムな角度から撮った5枚の異なる写真を入力するだけで、それを完全な3Dシーンに再構築することができています。別の例として、この場所の完全に異なるエリアの4枚の写真しかない場合でも、それらを非常にシームレスにつなぎ合わせることができています。さらにトリッキーな例として、入力ビューが2つしかない場合でも、すべてをつなぎ合わせ、このシーンの非常にリアルな3D再構築を生成することができています。これを、私が以前チャンネルで紹介したViewCrafterやUni3Cなどの他のメソッドと比較すると、この新しいものの方がはるかに詳細で一貫性があることがわかります。

素晴らしいことに、彼らはすでにこれのコードを公開しています。ページの上部にあるこのコードボタンをクリックすると、パソコンにローカルでダウンロードして実行するためのすべての手順が記載されています。このany reconはファイルサイズがわずか614メガバイトと非常に小さいことに注目してください。また、動画拡散モデルにはone 2.1を使用しており、ほとんどのコンシューマー向けGPUに収まるはずです。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

Merlin AIによる生産性の向上

生産性を本格的に向上させたい場合は、この動画のスポンサーであるMerlin AIをチェックしてみてください。これは、GPT、Gemini、ClaudeなどのすべてのトップLLMモデルに1つのサブスクリプションでアクセスできるオールインワンツールです。そして、Merlinはすでに200万人以上の人々に使用されています。ですから、これは新しいものではありません。手短にお伝えすると、Merlin AIは皆さんのために75%オフの限定割引を提供しています。通常は月額19ドルですが、これを使えばわずか月額5ドルになります。最後にその入手方法を正確にお見せします。

私が気に入っているのは、これが実際のワークフローにどのようにフィットするかという点です。たとえば、あるトピックについて調べているとしましょう。通常なら、複数のタブを開き、記事をざっと読み、Chat GPTにコピーアンドペーストします。しかし、Merlinのブラウザ拡張機能を使えば、DeepResearchをクリックするだけで、複数のソースをスキャンしてすべてをまとめてくれます。また、長い記事を読んでいる場合は、ウェブページとチャットする機能を使用して即座に要約したり、ページを離れることなく追加の質問をしたりできます。非常にシームレスです。私がよく使っているもう1つの機能がプロジェクトです。これは基本的に、頻繁に取り組む作業のためのパーソナライズされたナレッジベースのようなものを構築させてくれます。すべてのチャット間でコンテキストを保持するため、毎回同じことを繰り返す必要がありません。ほかにも、素早い回答を得るためのクイックウェブ検索、より技術的な内容のためのアカデミック検索、さらには実際のユーザーの意見を見るためのReddit検索などの機能があります。

複数のAIモデルを1か所で使えることの利点は大きいです。それぞれに強みがあり、Merlin AIを使用すると、ニーズに応じてそれらをシームレスに切り替えることができます。Merlin AIは、皆さん限定のかなりお得な割引を用意しています。各モデルを個別に見ると、Chat GPTは月額約20ドルです。Claudeも月額20ドルです。Geminiも月額20ドルです。あっという間に高額になってしまいます。Merlin AIは通常月額19ドルです。しかし、私の限定割引コードAIS5を使用すると、年間で60ドル、つまり1か月あたりわずか5ドルになります。Merlin AIがコストを低く抑えられているのは、APIアクセスをまとめて大量に購入しているからです。一方、ほとんどのユーザーは通常、月に2〜3ドル相当のクレジットしか使用しておらず、個別のサブスクリプションを完全には活用していません。だからこそ、このような低コストで複数のLLMにアクセスできるのです。下の説明欄にあるリンクから、ぜひMerlin AIをチェックしてみてください。

AI時代の研究論文フォーマット ARRA

また今週、研究そのものがどのように機能するかという点において、非常に興味深いパラダイムシフトとなるプロジェクトがありました。これは「人類が書いた最後の論文:エージェントネイティブな研究成果物」と呼ばれています。その核心となるアイデアはこうです。近い将来、コンピューターサイエンス、あるいは一般的な科学論文のほとんどはAIによって書かれ、そのほとんどはAIによって読まれるようになるだろう、ということです。

では、それは何を意味し、なぜ重要なのでしょうか。現在、研究論文は基本的にきれいに整えられた物語です。公開されるのは、最終的なアイデア、方法、そして実際にうまくいった発見だけです。しかし現実には、研究はそのように進むわけではありません。現実はもっと泥臭いものです。さまざまなアイデアを試し、そのほとんどが失敗に終わります。奇妙なバグに遭遇し、方向転換し、ついに何かがうまくいきます。しかし、論文が実際に書かれて出版されるとき、これらのプロセスはすべて捨てられてしまいます。これは知識の莫大な損失につながり、2つの問題を引き起こします。

1つ目は、彼らが「ストーリーテリング税」と呼んでいるものです。成功した道のりしか見えず、行き止まりやそこに至った決定の過程は見えません。そのため、多くの有用な洞察が消え去ってしまいます。彼らはまた「エンジニアリング税」についても言及しています。その背後にある考え方はこうです。論文には、実際に作業を再現するための十分な詳細が含まれていません。ハイパーパラメータや修正点などは欠落していることがよくあります。そのため、システムを再構築しようとする人は、基本的にすべてをゼロから自分自身で再発見しなければなりません。ここでもまた、これらすべてが失われた知識なのです。

しかし、ここに解決策があります。彼らはこれをエージェントネイティブ研究成果物、略してARRAと呼んでいます。次のように考えてください。要約、序論、手法、結果などだけで構成されたPDFの研究論文の代わりに、ここでは研究がAIによって読み取り可能な構造化されたパッケージになります。その構造は次のようになっています。人間が読める概要は残しつつ、主張や実験などの実際のロジック、それを実行するために必要な完全なコードと設定も含まれています。また、失敗した試みや、ログや結果などのすべての生データを含む、研究プロセス全体の完全なグラフも含まれます。つまり、洗練されたストーリーの代わりに、軌跡全体が得られるということです。

ここからが面白いところです。これは研究者が手動で書かなければならないものではありません。彼らはまた、ライブリサーチマネージャーと呼ばれるシステムを導入しています。これは、作業中にすべてを自動的にキャプチャします。すべての実験、すべての失敗、すべての微調整、それらすべてがこのエージェントによってバックグラウンドで自動的に記録されます。そのため、時間の経過とともに、この成果物は基本的に自らを構築していくことになります。

結果という点では、これはAIシステムが多くのことを学ぶのに実際に役立ちます。理解力を向上させます。実験の再現をはるかに容易にします。さらに、研究をさらに発展させるのにも役立ちます。ここでの大きなアイデアは、物語から知識へのシフトです。人間が読めるような退屈で洗練された科学的なPDFに研究を圧縮する代わりに、人間とAIの両方が実際に使用できるように、完全な研究プロセスを保存できるようになります。そして、AIが研究の主な読者であり貢献者になるのであれば、正直なところ、将来的にはこの種のフォーマットの方がはるかに理にかなってきます。嬉しいことに、ページの上部までスクロールすると、彼らはすでにこれのコードを公開しています。このコードボタンをクリックして少し下にスクロールすると、パソコンにARRAをダウンロードするためのすべての手順が記載されています。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

最新ヒューマノイドロボットの驚異的な進化

ヒューマノイドロボットのニュースでは、ロボット工学企業Kinetics AIによるKaiと呼ばれる超人間的な新しいロボットが登場しました。これは白いボディを持つスマートなヒューマノイドロボットですが、顔がありません。ただの金属板になっており、少し不気味な印象を与えます。このデモでは、荷物を運んだり、この子供と遊んだり、このバッグに物を拾い上げて入れたり、バッグのジッパーを閉めたり、さらには卓球をしたりと、実に多様なアクションを行っているのがわかります。卓球のシーンがどの程度演出されたものかはわかりませんが。服を畳んだり、その他たくさんのこともできます。

このロボットは並外れた器用さを持ち、体全体で115自由度、手だけで36自由度を備えています。これにより、ロボットは非常に自然に動き、デリケートなものを扱うなどの細かい運動タスクを実行できます。これらは従来、ロボットにとって非常に難しいことでした。また、全身に触覚スキンが装備されているため、世界を見ているだけではありません。体全体で実際に物を感じることができます。これにより、オレンジを押しつぶさないように握力を調整でき、また人間に触れられたことを認識して反応することもできます。これは家庭環境での安全性において明らかに非常に重要です。

ロボットの頭脳はKaiワールドモデルによって駆動されており、長期的なタスクと自己修正が可能です。洗濯物を畳むというのは、その完璧な例です。布は予測不可能であり、ロボットは目標を理解し、布を操作し、間違えた場合はその場で修正できなければなりません。これにより、厳密にプログラムされたアクションに従うだけでなく、多様なタスクをこなすことができます。

また今週は、Robot Eraからの新しいデモもありました。製造や倉庫のパイプラインがヒューマノイドロボットによって完全に自動化される日もそう遠くはないでしょう。この動画では、数十台のRobot Era L7ヒューマノイドロボットが、この物流センターでさまざまな仕分け作業を行っています。ここで、各ロボットが自動仕分けラインで作業し、特にこれらの小さな荷物を検査して処理しているのがわかります。L7ロボットは、組み込みビジョン、深度センシング、およびリアルタイムの位置フィードバックを使用して制御とナビゲーションを行います。そしてここでは、L7がコンベアベルトから荷物を選び出し、カメラで識別し、目的のレーンに仕分けることができているようです。動画には複数のロボットがこの環境で働いている様子が映っており、これら全体のフリートを一度に調整できることを示唆しています。実際、Robot Eraはすでにフリートを1000台に増やす計画を立てています。工場にこれが1000台配備され、さまざまな作業を自動化している様子を想像してみてください。

さらに今週、Noix Roboticsは最新のバイオニックデスクトップヒューマノイドロボットのデモをリリースしました。Noixは、超リアルな顔と表情を持つロボットヘッドを構築することで知られています。ここでわかるように、彼女は人間とまったく同じように、話したり、まばたきをしたり、目を動かしたり、非常に滑らかな微表情を見せたりすることができます。つまり、ただ無表情で見つめられるだけではないのです。合成皮膚やまつげなど、すべてが非常に精巧に設計されています。これは、社会的交流、仲間としての陪伴、さらにはカスタマーサポートやコンサルテーションなどの専門的なサービスを意図して作られています。

Noixに加えて、TFbotと呼ばれる別のロボット企業も、Ellaと呼ばれる彼らの最新のAndroidヘッドの短い動画を共有しました。そしてここでは、彼らはこれを明確にガールフレンドロボットとして位置づけています。ですから、現実世界でガールフレンドができなくても心配いりません。Ellaがもうすぐやって来ます。さて、このヘッドはかなり自然に見えます。表情も豊かです。ただ、彼女の目は以前のNoixのヘッドほどリアルではないように見えます。とにかく、これらは注目すべきロボットヘッド企業がさらに2つ増えたということです。数週間前にも、A Head Formという企業が作った、これもまた非常にリアルに見える別のロボットを紹介しました。近い将来、このようなロボットをもっとたくさん見ることになり、実際の人間との区別がどんどん難しくなっていくと思います。

統合型マルチモーダルモデル Sense Nova U1

また今週は、Sense Nova U1と呼ばれる本当にクールなモデルが登場しました。これは単なる画像ジェネレーターやエディターではなく、テキストや画像を取り込み、テキストや画像をエンドツーエンドで出力できる完全なマルチモーダルモデルです。つまり、理解、推論、そして画像生成を統合したモデルであり、本当に複雑な画像を作成する能力に信じられないほど優れています。

いくつか例を挙げましょう。このポスターにはたくさんの異なる要素とテキストが含まれていますが、これを非常によくレンダリングできています。これはこのジュースの作り方についての中国語の例です。ここには、たくさんの異なるパネル、異なる要素、テキストで構成された、別の本当に複雑な例があります。そのため、トップクラスのクローズド画像モデルのレベルに迫る、大量のテキストと要素を含むポスターやインフォグラフィックを簡単に作成できます。これらのインフォグラフィックの代わりに、このような通常の画像を作成することもできます。ただし、特にポートレートでは、プラスチックのような肌が生成される傾向があるように感じます。少し偽物っぽく見えますね。ですから、写真のようにリアルなものを生成したい場合は、ZimageやFlux Kleinなど、はるかに優れたオプションがあります。

これは、テキストプロンプトだけで画像を編集するのにも最適です。いくつか例を挙げます。この男性のジャケットを黄色にしたり、これをアニメスタイルにしたり、この男性を笑顔にしたり、テキストの一部を置き換えたりできます。ただ繰り返しになりますが、これを行える画像エディターはすでにたくさんあります。ですから、それはこのSense Novaモデルの最大の強みではありません。このモデルの強みは、テキストと画像を同時に出力できることです。たとえば、このようにテキストのキャプションと画像が織り交ぜられた絵コンテを出力させることができます。また、これは本質的に推論モデルであるため、このような視覚的なパズルを解かせることもできます。これは実際に、Nano BananaやGPT image 2などを含む、世に出ているトップクラスの画像モデルをも上回るパフォーマンスを発揮します。

あるいは、画像について質問すると、実際にその画像を分析し、推論し、それに応じて答えを導き出すことができます。これらのチャートを見ると、多くの理解、推論、画像生成のベンチマークにわたって最先端のパフォーマンスを発揮しており、特にテキストのレンダリング、視覚的推論、インフォグラフィックにおいては、Zimage、Quinn、Ernieなどの主要なオープンモデルをも打ち破っていることがわかります。そして、素晴らしいのは画像生成だけではありません。Quen 3.5やGoogleのGemma 4のようなマルチモーダルビジョンモデルと比較したこのチャートを見ると、これらの視覚的および空間的理解のベンチマークの一部において、Sense Novaはこれらの他のモデルにも勝っています。

ここが重要な変化です。今日のマルチモーダルモデルのほとんどは、画像を読み取るためのビジョンエンコーダーと、言語を処理するための別のモデルというように、内部的に別々のピースを持っています。しかしここで、Sense Novaはそれを捨て去りました。ピクセルと単語をエンドツーエンドで直接接続する、Neo Unifiと呼ばれるこの新しいアーキテクチャを使用しています。そのため、画像をトークンに変換して受け渡しする代わりに、すべてが1つの統合された表現として学習されます。素晴らしいことに、彼らはすでにこれのコードを公開しています。このページを少し下にスクロールすると、これをパソコンにローカルでダウンロードして実行するためのすべての手順が記載されています。モデルのサイズは約32ギガバイトなので、これに収めるにはハイエンドのコンシューマー向けハードウェアが必要になることに注意してください。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

Nvidiaのマルチモーダルモデル Neotron 3 Nano Omni

また今週、Nvidiaが最新のオープンソースモデル、Neotron 3 Nano Omniをリリースしました。動画、音声、画像、テキストに別々のモデルを使用するのではなく、この新しいNano Omniはそれらすべてをまとめて処理します。動画、音声、画像、テキストをすべて同時に取り込み、これらすべてのメディアを総合して推論やアクションを出力するため、コンテキストの整合性がはるかに高まります。内部的には、これは300億パラメータの専門家混合(MoE)モデルです。タスクの解決を助けるために一緒に働くスペシャリストのチームのようなものだと考えてください。しかし、使用時に一度にアクティブになるのは30億パラメータのみであるため、非常に高速で効率的です。

パフォーマンスの面でも、これは実際かなり強力です。ドキュメント理解のベンチマーク、OCRタスク、そして動画と音声の理解において、トップクラスの結果を出しています。そして効率性に関しては、ちょっと信じられないレベルです。動画推論のシステムキャパシティは9倍以上、マルチドキュメントタスクのキャパシティは7倍以上向上しているケースもあります。このモデルを使用すると、より多くの処理を実行できるようになります。この新しいNeotron 3 Nano Omniには、動画を処理するための巧妙なトリックもあります。すべてのフレームを詳細に圧縮するのではなく、動きや時間的な情報を維持したまま、重要な部分を圧縮して要約します。そのため、フレームごとに何が起きているかだけでなく、時間の経過とともに何が起きているかを理解します。そしてこれは、OpenClawのようなエージェンティックなシステムに組み込むように設計されています。

素晴らしいことに、これは完全にオープンソースです。モデル、データセット、そしてトレーニングレシピを入手できます。300億パラメータというのは、まだかなり巨大です。これは中規模のモデルですね。そのため、フルバージョンは66.1GBになります。低スペックのハードウェアでも動かせるように、より量子化されたバージョンも間違いなく登場するでしょう。とにかく、興味がある方は、このページにNeotron 3 Nano Omniをパソコンにダウンロードして実行する方法に関する手順がすべて記載されています。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

アプリを直接操作するAIエージェント

また今週、Anthropicが非常に興味深いアップデートを発表しました。彼らはこれをClaude for Creative Workと呼んでいます。そしてここでの大きなアイデアはこれです。AIツールを個別に使う代わりに、Claudeがデザインソフトウェア、音楽制作ツール、3Dエディターなどの一般的なクリエイティブツールに直接プラグインできるようになりました。これらをコネクターと呼んでおり、ClaudeがAdobe Creative Cloudなどのソフトウェアを直接使用できるようにします。

たとえば、ClaudeにCreative Cloudを使用してデザインを作成するようにプロンプトを出すと、実際にそれらのアプリ内で作業してくれます。または、Blender内で機能している別の例もあります。新しいコネクターを使用すると、文字通り3Dシーンに話しかけることができます。デバッグしたり、オブジェクトを変更したり、BlenderのPython APIを使用してスクリプトを生成したりすることもできます。あるいは、Autodesk Fusionで3Dオブジェクトを操作している別の例もあります。実際にインターフェース内でタスクを実行し、プログラムで制御します。彼らのブログを見ると、AbletonやCanvaに接続することもできると書かれています。私はClaudeのファンではありません。遅すぎるし、高価すぎます。それに、彼らは極端にクローズドです。それでも、AIが既存のアプリやソフトウェアで自律的に作業を行うようになるのは、AIにとって次の論理的なステップだと私は考えています。これにより、非常に多くの可能性が広がり、私たちの仕事をさらに自動化するのに役立つでしょう。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

さて、他のソフトウェアへのコネクターを構築しているチームはClaudeだけではありません。Moonlinkと呼ばれる別のAIラボも、Blenderのようなソフトウェアを使用できる3Dワールドビルディングエージェントをリリースしたばかりです。これは、AIが3D環境でどのように機能するかという点において、非常に大きなパラダイムシフトです。簡単なバージョンを説明しましょう。チャットインターフェースで画像や3Dアセットを一度に生成するだけでなく、これは実際にBlenderのような実際のツールの中で機能します。シーンの構築やこのモデルの修正などのタスクを受け取ると、Blenderに入ります。そして、人間とまったく同じように、あちこちクリックし、オブジェクトを編集し、照明を調整し、反復作業を行います。入力は基本的に目標や指示、おそらくいくつかの参照画像であり、出力は完全に構築または編集された3Dシーンです。すべてのパーツが適切に構造化され、配置され、実際のワークフローで使用できるようになっています。

これは重要です。なぜなら、3D作業は単に見た目を良くすることだけではないからです。オブジェクトが適切に接続され、アニメーションが機能し、状態が論理的に振る舞うなど、構造的にも正しくなければなりません。これは、ほとんどのAIモデルが未だに苦戦している部分です。Moonlinkが他と違うのは、これをループとして扱っている点です。何かを作り、確認し、修正し、そして繰り返します。エージェントは1回生成して停止するのではなく、長いアクションのシーケンスにわたって実行されます。そして、全体のシーンの品質、参照との一貫性、さらにはオブジェクトが実際に接続され、正しく動作しているかといった本当に低レベルな部分まで、複数のレイヤーで同時に最適化を行っています。

ここでお見せしているように、キャビネット、蝶番、電化製品などの関節のあるオブジェクト、さらにはショッピングモール、工場のフロア、屋外のシーンなどの完全な環境に至るまで、さまざまな例でこれをすでに機能させています。もう1つの重要な機能があります。それは専門家からワークフローを学習できるということです。誰かがタスクの実行方法を一度デモンストレーションすると、エージェントはそのパターンを将来のプロジェクトで再利用できます。俯瞰してみると、これはAIが単にチャットインターフェースで何かを生成する段階から、ソフトウェアツール内で実際の本番作業を行う段階へと移行していることを意味します。3D編集は巨大な産業であるため、これは非常に大きな出来事です。ビデオゲーム、映画、シミュレーションなどの分野が含まれます。そして、その多くは今でも手作業で反復的です。もしこれが改善され続ければ、エージェントは単にクリエイターを支援するだけでなく、パイプラインの大部分をエンドツーエンドで処理するようになるでしょう。とにかく、今週彼らは初期のデモをリリースしたばかりです。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

1930年代のデータで学習したAI Talkie

また今週、実際に非常に魅力的なアイデアがありました。Talkieと呼ばれるものです。これは130億パラメータのモデルですが、1930年までの世界しか知りません。つまり、インターネットでトレーニングされた現代のAIと話しているわけではないということです。本や新聞など、基本的に1930年までの歴史的な資料だけでトレーニングされたものと会話することになります。

なぜこれが重要なのでしょうか。私たちが使っている現代のAIは、ChatGptであれClaudeであれGeminiであれ、基本的には同じもの、つまり現代のインターネットでトレーニングされています。これらのモデルが異なると感じても、あるいはそれぞれから異なるバイブスを感じたとしても、それらはすべて同じデータでトレーニングされているため、どこか関連性があります。このようなヴィンテージモデルは、研究者が非常に根本的な疑問を投げかけることを可能にします。私たちがAIについて知っていると思っていることのうち、どれくらいが特定のトレーニングデータセットに結びついているのでしょうか。まったく異なるものでモデルをトレーニングすれば、ついにその内部で何が起こっているのかが見え始めます。

彼らが行った興味深い実験の1つがこれです。ニューヨーク・タイムズから何千もの歴史的な出来事を取り上げ、これらの出来事がTalkieにとってどれほど驚くべきことかを測定しました。1930年より前の出来事は、トレーニングデータの一部であるため、Talkieにとっては普通のことだと感じられます。しかし、知識のカットオフラインを越えると、特に50年代と60年代でその驚きは跳ね上がります。その期間に起こった出来事について話すと、Talkieはかなり驚きますが、その後は横ばいになります。2000年以降の出来事でも、それ以上驚くことはありません。ここで興味深いのは、モデルが歴史に対して反応するのを文字通り見ることができるということです。モデルには知る由もありませんからね。

彼らはコーディングの実験も行いました。このヴィンテージモデルにPythonのコーディングテストを受けさせたのです。さて、このモデルはコンピューターを見たことがありません。Pythonとは何かの概念も持っていません。そこで、プロンプトでいくつかのPython関数の例を見せ、よし、新しい関数を書いてと指示しました。すると、実際にいくつか正解しました。数は多くありませんし、本当に単純なものだけですが、これが何を意味するか考えてみてください。モデルはコードとは何かをまったく理解していませんが、それでもいくつかの例から十分な情報を拾い上げ、この関数の概念を把握したのです。これは本物の汎化シグナルであり、非常にクリーンなものです。なぜなら、汚染がゼロだからです。このモデルは文字通り、トレーニング中にPythonのコードもこの答えも見たことがありません。

もう1つ非常に興味深いテストがあります。Talkieを現代の双子のモデルと比較しました。このモデルは現在までのデータでトレーニングされており、チャートのグレーのバーがそれを示しています。Talkieは知識テストでは負けていることがわかります。現代の事柄を知らないのですから、これはもっともなことです。しかし、コアとなる言語理解と基本的な計算能力に関しては、驚くほどよく持ちこたえています。チームは、残りのギャップの大部分はデータ品質の問題、特にOCRが原因だと考えています。トレーニングデータのテキストはどれもデジタルではなかったため、すべて物理的なページからスキャンして文字起こししなければならず、多くの場合、非常に乱雑な手書きの文字でした。そしてそのプロセスの間に、多くの単語が歪んでしまいました。たとえば、トレーニングデータはスペルミスの多いこのようなものになっています。

これらが彼らの主な発見のいくつかです。彼らはすでにこの夏に向けて、より大規模なモデルをトレーニングしています。また、英語以外の言語への拡張や、トレーニングデータをより正確にするために新しいシステムでOCRの大部分をやり直すことも計画しています。素晴らしいことに、今すぐこのモデルとチャットすることができます。このチャットボタンをクリックすると、Talkieとチャットできるこのページに移動します。たとえば、TikTokについて教えてと頼んでみると、その答えを見てみましょう。Talkieは私が言及しているTikTokについてまったくわかりません。1860年に発明されたらしい機械について話しているだけです。

1930年代のAIとチャットするという目新しさ以上に、このプロジェクトをとてもクールにしているのは、それが研究者に何を研究させてくれるかということです。非常に希少で価値のある、汚染されていないモデルを手に入れることができます。データがモデルの個性をどのように形成するかを見る窓を手に入れることができます。現代のAIモデルはすでにすべてを学習しているため、汎化、予測、発見に関する質問を実際にテストすることはできません。ですから、AI研究や歴史、あるいはその2つの奇妙な交差点に興味があるなら、Talkieは今週リリースされた中でも特に興味深いものの1つです。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

xAI Grok 4.3 と Mistral Medium 3.5 の評価

また今週、xAIが最新モデルであるGrok 4.3ベータ版をひっそりとリリースしました。彼らはこれを、推論能力が向上し、応答が速く、出力の信頼性がはるかに高い汎用アシスタントとして設計しました。サンドボックス化されたコンピューターへのアクセス権があるため、コードの記述や実行、複数のフォルダーやファイルでの同時作業が可能です。たとえば、このようにPowerPointのプレゼンテーションを作成させたり、このようにPDFやスプレッドシートを操作したりすることができます。つまり、以前のGrokと比較して、さまざまなツールを使用するエージェント機能が大幅に向上しています。

しかし、Artificial Analysisによるこのリーダーボードを見ると、以前のGrok 4.2を上回ってはいるものの、Kim K 2.6やXiaomiのMimuのような世に出ているトップクラスのオープンソースモデルほどパフォーマンスは高くありません。さらに、リーダーであるGPT 5.5をはじめとするトップクラスのクローズドモデルには依然として大きく遅れをとっています。ただし、価格面では非常に競争力があります。世に出ているトップのオープンモデルとほぼ同じコストであり、トップのクローズドモデルよりもはるかに安価です。パフォーマンスの面では、まったく最先端とは言えない、かなり平凡なモデルです。そのため、完全な動画は作成しませんでした。しかし、さらに詳しく読みたい場合は、下の説明欄にこのメインのリリースページへのリンクを貼っておきます。

また今週、ヨーロッパのAIラボであるMistralが最新モデルのMistral Medium 3.5をリリースしました。これは1280億の密なパラメータを持っています。ですから、256Kのコンテキストウィンドウを持つかなり巨大なモデルです。業界最大というわけではありません。トップモデルのほとんどはすでに100万トークンのコンテキストウィンドウを持っており、これはその4倍の大きさです。これがいくつかのエージェントのベンチマークでのスコアです。他のトップのオープンソースモデルに迫ってはいますが、ここで都合よく比較対象を選んでいることに注意してください。すでにKimmy 2.6やQuen 3.6があります。つまり、意図的にこれらの古いモデルと比較しているようです。数学と指示への追従に関する他のスコアも同様です。少なくとも彼らによれば、この新しいMistralのパフォーマンスはかなり良いとのことです。

しかし、この独立したリーダーボードを見ると、ここで事態は崩壊します。Mistral Medium 3.5のパフォーマンスは非常に悪く、Deepseek V4や他のオープンソースモデルよりも著しく劣っています。接戦ですらありません。ですから、ここではあまり良い結果には見えません。さて、これはオープンソースですが、彼らのAPIを通じて使用することを選択した場合、安くもありません。KimmyやDeepyのような他の主要なオープンモデルよりもはるかに高価です。ですから正直なところ、何らかのEUの規制などに準拠する必要がない限り、この最新のMistralモデルを使用する理由はまったくありません。さらに詳しく読みたい方は、下の説明欄にメインページへのリンクを貼っておきます。

エンディング

今週のAIハイライトは以上になります。これらすべてについてどう思ったか、コメントで教えてください。どのニュースが一番お気に入りでしたか?そして、どのツールを一番試してみたいですか?いつものように、皆さんと共有すべきトップのAIニュースやツールがないか、常に目を光らせておきます。この動画を楽しんでいただけたら、いいね、共有、チャンネル登録を忘れずにお願いします。今後のコンテンツも楽しみにしていてください。また、AIの世界では毎週本当にたくさんのことが起きています。私のYouTubeチャンネルでそのすべてをカバーすることはとてもできません。ですので、AIで起きているすべての最新情報を本当に把握したい場合は、ぜひ無料の週刊ニュースレターに登録してください。そのリンクは下の説明欄に貼っておきます。ご視聴ありがとうございました。それでは、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました