
15,765 文字

AIは眠らず、今週は本当に驚くべき展開がありました。イルカと会話できるAI、数年分のストリートビューデータを検索・分析できるAI、新たなオープンソースの画像生成ツールとキャラクターアニメーションツール、初の人型ロボットマラソン、新しい漫画の着色ツールと新AIビデオモデル、そしてOpenAIが最も知的なモデルであるO3とO4 Miniをリリースしました。他にも多くの進展がありましたので、早速見ていきましょう。
まず最初に、AGIやキャットガールはまだ実現していませんが、イルカと潜在的にコミュニケーションできるAIが登場しました。Googleが「Dolphin Gemma」を発表しました。これは科学者がイルカ同士のコミュニケーション方法を理解するのを助けるAIです。
この素晴らしい機能をいくつか紹介します。Dolphin Gemmaはスマートフォンだけで実行可能です。具体的には、研究者たちはGoogleピクセルで実行し、リアルタイムでイルカの音を分析できます。さらに、イルカ言語の新しい音を生成することもできます。これにより、研究者はイルカの言語をより速く、より正確に理解できる可能性があります。例えば、パターンを識別し、様々なイルカの音の背後にある意味を潜在的に描写できます。
AIのトレーニング方法はこうです。まず研究者たちは、ホイッスル、クリック音、スコーク、バズなど、イルカが出せる全ての音を大量に録音しました。この膨大なイルカの音のデータセットは、Googleの特別な音声技術「Soundstream」を使用して処理されました。これは基本的に音をトークンに変換し、AIモデルに供給できるようにするものです。ChatGPTに英語でプロンプトを入力すると、AIモデルに供給するためにトークンに分解されるのと同じように、Soundstreamは音声データに対して同様のことを行います。
次に、このデータを使用してGemmaと呼ばれるAIモデルをトレーニングしました。これはGoogleのより小型で軽量なモデルの一つです。このデータからAIモデルはイルカの繰り返し音のパターンを識別することを学びます。そしてその後、このAIは新しいイルカのような音を生成するためにも使用できます。
素晴らしいのは、このモデルはパラメータ数が約4億と、10億にも満たない小規模なものであることです。そのため、Googleピクセルのようなモバイルフォンでも直接実行できるほど軽量です。
もう一つ素晴らしいのは、GoogleがDolphin Gemmaを今年の夏にオープンソース化する計画があることです。そのため、研究者たちはこれを利用して、他の動物種の音を処理するためにファインチューニングすることも可能です。
キャットガールや人型ロボット、AGIのことは忘れましょう。AIが正当に動物を理解し、動物と話せるようになれば、それはもっと素晴らしいことでしょう。これが現実になるのを見てみたいです。
次に、このツールも非常に強力で、無料かつオープンソースです。Uni Animate DITと呼ばれ、おそらく最高のオープンソースビデオジェネレーターである1.2.1のプラグインです。無料で検閲されておらず、このビデオを見れば、インストール方法とローカルコンピュータで実行する方法がわかります。
さて、Uni Animateに戻りましょう。これは誰かの写真と参照ポーズビデオを入力します。これは基本的に他の人が動いたり踊ったりしているビデオです。そして、ビデオ用のコントロールネットのような他の無料ツールを使用して、このようなポーズスケルトンビデオに簡単に変換できます。このUni Animateツールが行うのは、参照ポーズビデオを使って任意のキャラクターをアニメーション化することです。
いくつか例を見てみましょう。少し太めの男性の例がありますが、歪みや変形なしに、このキャラクターに動きを一貫して転送できていることがわかります。
3Dピクサースタイルのキャラクターではなく、リアルな写真の例を見てみましょう。ここでも、すべてが一貫していて、参照ポーズビデオに従って彼女は確かに動いています。手や指の動きも転送されていることに注目してください。
これは動物やその他の非人間キャラクターでも機能します。つまり、ペットの写真を入力して、このように踊らせることも可能です。
さらに印象的な例があります。最初に見るのはキャラクターの背中で、その後前面に回転します。しかし、入力画像では彼女の背中がどのように見えるかわからないことに注意してください。AIは彼女の背中がどのように見えるかを推定する必要があります。非常に印象的です。また、彼女が動くにつれて、彼女のジャケットも非常に自然に動くことに注目してください。
素晴らしいのは、すでにすべてをリリースしていることです。GitHubリポジトリがあり、スクロールダウンすると、ダウンロード方法とローカルコンピュータで実行する方法についてのすべての指示があります。このための最小VRAMは14GBなので、それほど悪くありません。4090を実行する必要はありません。
次に、このAIも非常に便利です。Tencentの「Instant Character」と呼ばれ、任意の参照キャラクターを画像に追加できます。例えば、この女性の参照写真があり、別の画像で彼女を生成したい場合、このAIはベースモデルとしてFluxを使用します。これは最高のオープンソース画像ジェネレーターの一つです。
この画像をAIに通して、Fluxで彼女がギターを弾いているところを生成できます。彼女の顔や服装など、このキャラクターのすべての詳細が保存されていることに注目してください。Ghibliローラを使用すれば、このキャラクターをジブリスタイルで生成できます。または、別のローラを使って別のアニメスタイルで生成することもできます。
もっと例を見てみましょう。これが入力キャラクターだとします。このコンサートホールでピアノを弾いている彼女の写真や、忙しい通りでサングラスをかけたセルフィーを撮っている彼女の写真を生成できます。非常に正確で、ヘアスタイル、服装、さらには彼女の腕のリボンなどをどちらの写真にも非常に正確に転送します。
これは現在最も正確なキャラクター転送ツールの一つです。もっと例を見てみましょう。上部が参照画像です。このAIを通して、キッチンでスプーンを持ちスープを飲んでいるキャラクターを生成すると、こんな感じになります。3Dでもアニメでもリアルでも、参照キャラクターの外観に従って非常に正確に生成します。
雨の中でサングラスをかけているところや、ソファに横たわっているクリスマスの場面など、様々な状況でキャラクターを生成できます。すべてが高忠実度であることに注目してください。特にこれらのキャラクターは非常に複雑な外観と服装を持っていますが、参照画像からすべてを非常に正確に転送できています。
他の主要なキャラクター転送方法と比較すると、この新しい「instant character」はさらに優れています。上部が参照画像です。ロイヤル・オペラ・ハウスでピアノを弾いているところを生成すると、これがinstant characterからの生成結果です。2行目はGPT-4oからの生成、3行目はByte Danceのワンからの生成です。GPT-4oは近かったですが、instant characterは参照写真のキャラクターを描写するのにさらに優れていると言わざるを得ません。
ページの上部までスクロールすると、良いニュースとして、これがすでにリリースされています。オンラインで試せる無料のHugging Faceデモがあります。ここに画像をアップロードし、プロンプトを入力し、異なるローラを選択できます。リアルなスタイルにするには「none」を選択するか、真下誠スタイルやジブリスタイルに設定することができます。
例えば、この男性の画像をアップロードして、プロンプトに「雪の中で自転車に乗っている少年」と書き、真下誠スタイルに設定してみましょう。そうするとこうなります。参照写真の男性にそっくりですが、アニメスタイルで、確かに雪の中で自転車に乗っています。非常に印象的です。
Hugging Faceデモに加えて、GitHubリポジトリもリリースされており、ダウンロード方法とローカルコンピュータでの実行方法についてのすべての指示が含まれています。
次に、NVIDIAが「Part Field」というかなり素晴らしいツールをリリースしました。このAIは3Dモデルのさまざまな部分を非常に正確にセグメント化できます。これらの種類の3D入力をすべて取り込み、AIモデルを通して実行して3Dモデルを異なる部分にセグメント化します。
セグメント化した3Dモデルの多くの異なる例があります。ほとんどの場合、セグメント化は非常に正確であり、これは下流のアプリケーションにとって非常に有用です。例えば、モデルの一部に異なるテクスチャを適用し、別の部分に別のテクスチャを適用したい場合には非常に便利です。または、腕や脚を動かしたい場合など、アニメーション可能なモデルに変換したい場合も、モデルを異なる部分に最初にセグメント化すると役立ちます。
この新しいモデルのパフォーマンスと生成時間を他の同様の3Dセグメンテーションツールと比較すると、この新しいものが最も正確であるだけでなく、実行にかかる時間も最も少ないことがわかります。非常に効率的です。
ページの上部までスクロールすると、GitHubリポジトリがリリースされており、これをインストールしてローカルコンピュータで実行する方法についてのすべての指示が含まれています。
また今週、AlibabaがOne 2.1の新モデルをリリースしました。これは完全に無料でオープンソース、検閲されていないビデオジェネレーターです。この新しいモデルでは、最初のフレームとして1つの画像と、最後のフレームとして1つの画像をアップロードでき、これらの2つのフレームの間のビデオを生成します。これによりビデオ生成の最終的な制御が可能になります。
このモデルはすでにダウンロードしてローカルで使用できるようにリリースされています。GitHubリポジトリでは、コンピュータでこれを実行する方法についてのすべての指示が記載されています。または、オンラインプラットフォームを使用して無料で試すこともできます。
AIビデオでシンプルに「イメージからビデオへ」をクリックし、このスタートとエンドフレーム機能をオンにします。まず最初のフレームを生成し、次にGoogleのAIスタジオでGemini 2.0の画像生成機能を使用して、左前景に別のキャラクターの背中を追加して会話しているようにプロンプトしました。そして、これを開始フレームとして使用し、終了フレームとして使用します。
プロンプトには「彼らは話している」と書き、ビデオの表現力を高めるとされるインスピレーションモードをオンにします。サウンドエフェクト機能もオンにできますが、今回の生成ではオフにしておきます。
こちらが生成結果です。確かに初期フレームから始まり、シーンに入ってくるキャラクターが追加され、その人と話しています。これはビデオ生成に本当に制御を与える強力なツールです。
他のニュースでは、信じられないかもしれませんが、人型ロボットのハーフマラソンが現在北京で開催されています。マラソンの実際の様子です。中国中から約20の人型ロボット企業がこのマラソンで競っています。もちろん、これらの企業の一つは悪名高いUni Treeです。
まずはUni TreeチームがこのマラソンのためにG1ロボットを練習している様子です。そして、実際にマラソンを走るG1の様子です。Lei Roboticsの「Kaufu」という別の人型ロボットもマラソンの練習をしています。少なくとも走る点ではさらに印象的に見えます。明らかにここでは5km練習走を完了しており、非常に印象的です。
しかし、ショーの主役はこれかもしれません。このロボットがどれだけ速く走るか見てください。これはかなり驚異的です。これは「Tien Gong Ultra」と呼ばれ、北京人型ロボットイノベーションセンターの身長1.8mの人型ロボットです。これが最初にフィニッシュラインに到達したようです。このように長距離を走れるロボットを作ったチームに拍手を送ります。
このイベントは今のところ大したことないように見えるかもしれませんが、多くのロボットが走ること、さらには歩くことさえ苦手であることがわかりますが、これは実際にはかなり興奮させられます。近い将来、技術が向上するにつれて、人型ロボットのスポーツ競技やオリンピックさえも見られるようになるかもしれません。それを見ることに興味があるかどうか、コメントで教えてください。
次に、このツールは非常に便利です。「効率的な線画の着色とより広い参照」と呼ばれるもので、略して「Cobra」となっています。これは白黒の漫画パネルに色を付けることができる新しい最先端のAIです。
仕組みはこうです。キャラクターの参照カラー画像をたくさん入力し、このような白黒パネルを入力すると、AIは参照画像に基づいてパネルに自動的に色を付けます。もう一つの例、さらにもう一つの例もあります。これは巨大なコンテキストウィンドウを持っているため、200以上の異なるキャラクターの参照画像を入力して覚えさせることができます。
もっと例を見てみましょう。この白黒の漫画パネルを入力し、これらのカラー参照画像を入力すると、AIはパネルに自動的にこのように色を付けます。キャラクターのすべての色が正確に表現されていることに注目してください。
これを他の漫画着色ツールと比較すると、この新しいCobraがはるかに優れています。左端が白黒画像です。これらの参照画像を入力すると、IP Adapterは色を正確に再現できませんでした。Color Flowは近かったですが、この女性の目の色やこの女性の髪の色が参照画像と本当に同じではないことに注意してください。一方、Cobraはそれを完璧にこなし、目の色と髪の色を正確に再現しました。ちなみに、これが真実の色です。Cobraは真実に非常に近いです。
他にもできることがあります。参照画像をいくつか入力して白黒パネルに色を付けた後、このようになります。写真内の特定の要素の色を変更したい場合は、その特定の領域をクリックして希望の色を選択するだけで、その部分の色が自動的に変更されます。
これは基本的に線画のカラライザーなので、線画ビデオに色を付けるためにも使用できます。カラー参照画像があり、このような線画ビデオがあれば、フレームごとに分解されています。これをAIに入力して、各ビデオフレームにこのように色を付けることができます。
このAIは漫画スタジオやアニメスタジオの生産性と効率を大幅に向上させると思います。ページの上部までスクロールすると、すべてがすでに公開されています。GitHubリポジトリがあり、中央までスクロールすると、ダウンロード方法とローカルコンピュータでの実行方法についてのすべての指示が含まれています。
次に、このAIは本当に素晴らしいです。Tencentの「Sonic」と呼ばれ、一枚の写真と任意の音声クリップだけで、話している人物のアニメーションビデオを作成できます。いくつか例を見てみましょう。
「若い頃、Whole Earth Catalogという素晴らしい出版物がありました。それは私の世代のバイブルの一つでした。それはStuart Brandという人物によって作られ、ここから遠くないメンロパークで彼は詩的なタッチでそれを生き生きとさせました。これは60年代後半、パーソナルコンピュータやデスクトップパブリッシングの前のことでした。」
もう一つの例:「感情のない芸術はどうなるでしょうか?それは空虚でしょう。感情のない私たちの人生はどうなるでしょうか?それは価値の空虚さでしょう。有名な古典詩人は『私たちは憎み、愛する。なぜなのか誰か教えてくれますか?』と言いました。科学はなぜの質問に答えません。科学はどのようにの質問に答えます。」
これは40秒以上の非常に長い生成です。もう一つの例:「子供の頃、『泣かないで』『泣く必要はない』という言葉を聞いたと思います。泣くことは最も美しいことです。私は人々に泣くことを勧めます。私はいつも泣きます。そして、それはあなたがどう感じているかの最も健全な表現だと思います。」
このビデオも続きます。かなり長い生成です。音声にリップシンクし、すべてが非常に自然に見えます。キャラクターをまばたきさせ、頭を動かすので、常に一つの位置に固定されているわけではありません。
素晴らしいのは、音声クリップの長さに応じて、最大10分の超長時間ビデオを生成できることです。例えば、1分42秒の例があります。全部は再生しませんが、短いスニペットを紹介します:「人生の長い旅路では、混乱の瞬間に出会うことがよくあります。霧に包まれているように感じ、前方の道を明確に見ることができません。しかし、これは人生の旅における一時的な迷いに過ぎないと信じてください。」
「どうやってこの傷を負ったか知りたいですか?私の父は酒飲みで悪党でした。ある晩、いつもより狂ったように暴れ出しました。母は自分を守るためにキッチンナイフを手に取ります。彼はそれを気に入りませんでした。そこで私が見ている前で、笑いながらナイフを母に向けました…」
Sonicと音声で画像をアニメーション化できる他の主要な競合製品を比較すると、右端にあるSonicは写真をより正確かつリアルにアニメーション化します。
もう一つの例:非常に複雑で速いペースの中国語ラップでも、Sonicはすべてのリップシンクを非常にうまく行えましたが、他のものはリップの動きを正確に表現できませんでした。
さらに、これはリアルな写真ではないことに注意してください。そのため、Sonicは漫画や2.5D、3Dなど他のタイプの画像でも機能します。
ByteDanceのJungからの別の主要な画像アニメーターやリップシンクツールとの比較を見てみましょう。Sonicの性能を比較してみましょう:「私は6ヶ月前に任命されました、そしてフェミニズムについて話せば話すほど、私はより多くのことに気付きました…」
非常に素晴らしいです。ご覧のとおり、Sonicはエマ・ワトソンを音声に合わせてより自然かつリアルにアニメーション化しています。
素晴らしいのは、これがすでに公開されていることです。ページの上部までスクロールすると、GitHubリポジトリがリリースされており、中央にはインストール方法とローカルコンピュータでの実行方法についてのすべての指示が含まれています。ただし、これはNVIDIA GPUが必要であることに注意してください。32GBのVRAMでテストされていますが、一部のユーザーは24GBの4090でも正常に実行できたと報告しています。
また今週、XAIは彼らのGrockチャットボットプラットフォームに大幅なアップグレードを展開しました。OpenAIの先週のアップデートと同様に、Chat GPTに長期記憶が追加され、過去の会話を覚えてよりパーソナライズされた回答を提供できるようになりました。今週、長期記憶がGrockにも追加され、過去のすべての会話から詳細を覚え、よりパーソナライズされた回答やアドバイスを提供できるようになりました。
grock.comでこれが有効になっているかどうかを確認するには、上部のユーザーアイコンをクリックし、設定をクリックします。そして、データコントロールでチャットからのメモリを有効または無効にすることができます。
ここでは有効にしています。そして「これまでに私について知っていることを教えて」とプロンプトを送ってみましょう。
これはかなり不思議です。ほぼ完璧に当たっています。コンテンツ制作に対する私の熱意、特にAI関連のコンテンツのための魅力的なYouTubeタイトルの作成に本当に熱中していることを理解しています。はい、最近Cling 2.0についての動画を投稿しました。「クラック」や「制御不能」や「狂気」などを強調するのが好きですね。
ちなみに、下部のこのボタンをクリックすると、この回答を提供するために参照したチャットを見ることができます。かなり便利な機能です。
この記憶機能に加えて、彼らはGroc Studioもリリースしました。これは分割画面キャンバスで、左側でAIにさらなる編集を促し、右側には作業中のドキュメントやコード、またはプレビューが表示されます。これは基本的にOpenAIのキャンバス機能やクラウドアーティファクトと同じです。
他のニュースでは、Microsoftが今週「Mineworld」をリリースしました。これはリアルタイムでプレイできるMinecraftのAI生成版です。事前に定義された世界やデザインはなく、何も固定されていません。このAIはプレーヤーの行動に基づいて新しいシーンをその場で生成します。
仕様によると、Mine Worldは秒間4〜7フレームを生成でき、押すキーやとる行動に応じてリアルタイムでのインタラクションが可能です。秒間4〜7フレームは素晴らしいとは言えませんが、以前のAIゲームシミュレーターはリアルタイムでプレイするには遅すぎたことを考えると、これは大きな進歩です。
このAIはドアを開ける、岩を置く、ジャンプする、木を切る、後ろ向きに歩くなど、多くの行動を理解し生成できます。これがどのように機能するかというと、彼らはビジュアルアクションオートレグレッシブトランスフォーマーを使用しました。これは基本的に、ゲームプレイ(つまりゲームのスクリーンショット)とプレーヤーの行動(どのキーを押しているか)の両方を入力として受け取り、ビデオゲームの次のシーンを生成するAIモデルです。
素晴らしいのは、これを今すぐ試せることです。GitHubリポジトリがあり、これをダウンロードして実際にコンピュータで実行する方法についてのすべての指示が含まれています。チェックポイント、つまり基本的にモデルはかなり小さく、最小のものはわずか3億パラメータなので、おそらく一般的なGPUで実行できるでしょう。
次に、このAIは非常に興味深いです。スタンフォードとGoogle DeepMindによるもので、「Visual Chronicles」と呼ばれています。これは膨大な画像コレクションを分析して、時間の経過に伴うトレンドや変化を見つけます。「街で何が変化しているのか」などの質問に答え、これらの変化が起きた場所と時間を実際に特定できます。
例えば「ジュースショップはいつストアフロントで開店したか」と尋ねると、実際に何年もの場所とストリートビューデータを検索し、変化を探します。ストアフロントがいつジュースショップに変わったのかを探し、それがジュースショップと呼ばれている必要はなく、ジュースバーやその他の名前でもよく、基本的にはジュースを販売する店を検索します。
これが見つけた一例です。もう一つの例では、「Deli and Grocery」から「Joe the Juice」に変わっています。このように、特定の場所で、いつどこでこれらの変化が起こったかを特定できます。この場合、彼らはニューヨークを調査していました。これは318回見られ、この現象が起きたすべての場所もマッピングしています。非常に便利で強力なツールです。
または、「高架道路の支柱はいつ青く塗られたか」と尋ねることもできます。再び何年もストリートビューデータを検索し、高架道路がいつ青く塗られたかを見つけ、ここで特定しました。別の例では、この事例を特定しました。これをすべてマッピングすると、基本的にこのエリアが青く塗られ、481回検出されたことがわかります。
さらに一歩進んで「なぜ」と尋ねることもでき、オンラインからニュースソースを検索して関連する理由を見つけることができます。この場合、セントラルフリーウェイが3,100万ドルのペイントプロジェクトを実施したためでした。
特に、ストリートビューレベルで何かが起こった複数のインスタンスを特定する必要がある場合、非常に便利なツールです。別の例を見てみましょう。「横断歩道のマーキングが赤に変わった」とプロンプトすると、横断歩道が赤に変わったすべてのインスタンスを検出しました。これを519回見つけています。これらのうちの1つをクリックすると、実際に横断歩道のマーキングが赤に変わったのが見えます。
別の例です。こちらをクリックしてみましょう。ここでも、ビフォーとアフターが見え、赤い横断歩道があります。
別の例です。建物の屋根にソーラーパネルがいつどこに追加されたかを調査したいとします。すべてのインスタンスはこちらです。これをクリックしてみましょう。写真を拡大すると、確かにビフォーとアフターがあり、アフターでは屋根にソーラーパネルがあることがわかります。戻って別のものをクリックしてみましょう。ここでも、以前はこの屋根にソーラーパネルがなく、後にはソーラーパネルがあります。
空間研究をしたり、トレンドを調査したりしたい場合、これは非常に強力なツールです。家が屋根にソーラーパネルを追加したすべてのインスタンスを時間をかけて検索する人間を想像してみてください。少なくとも数週間、あるいは数ヶ月かかるでしょう。
検出できる他の例もあります。建物の前に緑の自転車レーンが追加された場合も検出できます。ここにその例があります。また、店舗の前にテーブルと椅子が追加された場合も検出できます。ここにその例があります。
バイクラックのような小さくて目立たないものさえも検出できます。これはGoogleストリートビューに見られる低品質の写真では特に難しいですが、これらの新しい追加物を非常に正確に検出できます。
駐車場にフェンスが追加されたかどうかも検出できます。ここに例があります。ビフォーとアフターがあり、アフターではこのフェンスが追加されています。防犯カメラが街灯ポールに追加された時と場所も検出できます。ここにビフォーがあり、防犯カメラはなく、こちらがアフターです。
もちろん、検索条件を指定することもできます。特定の時間枠内でのみ検索するよう強制することができます。さらに素晴らしいのは、意味的条件に基づいて検索を絞り込むこともできることです。小売店や店舗だけでなく、ジュースショップやベーカリー、銀行、食料品店などを特定させることができます。
このAIには明らかに多くの有用なアプリケーションがあります。例えば、都市計画や開発、環境モニタリングなどです。残念ながら、これをリリースするかどうかの兆候はありません。それでも、もっと詳しく読みたい場合は、説明欄にリンクを貼っておきます。
また今週、ByteDanceが「Seaweed 7B」という新しいビデオジェネレーターを発表しました。ちなみに、ByteDanceは最近多くの素晴らしいものをリリースしているので、称賛に値します。
名前が示すように、これは約70億のパラメータを持っています。非常に小さいですが、One 2.1やTencentのHunenのような2倍以上のパラメータ数を持つはるかに大きなモデルのパフォーマンスを上回ることができます。
いくつか例を見てみましょう。720pのビデオを24fpsで、明らかにリアルタイムで生成できます。つまり、生成時間は非常に速く、競合他社の62倍速くビデオを生成できるのは驚異的です。様々な長さ、解像度、スタイルのビデオを作成できます。
さらに、画像からビデオへの変換機能もあり、これが最も重要な機能だと思います。ビデオの開始フレームとして画像をアップロードでき、これによってビデオがどのように見えるべきかについてより多くの制御が可能になります。これを実際に使用した例をいくつか紹介します。
開始フレームとして画像を設定するだけでなく、開始フレームと終了フレームの両方を設定することもでき、これにより完全な制御が可能になります。基本的にAIにこれら2つのフレームの間のビデオを生成させることができます。左側では、宇宙の写真から始まり、終了フレームはこの目というような例を見ることができます。
また、ビデオに注入したい参照キャラクターの画像をアップロードすることもできます。顔だけでなく、参照オブジェクトをアップロードすることもできます。例えば、ここにランニングシューズのペアがあり、これらの靴で走っている人を生成できます。またはここに毛皮のコートがあり、非常に風の強い北極の設定でこの毛皮のコートを着ている人を生成できます。
複数の参照キャラクターやオブジェクト、背景を同じビデオに組み合わせることもできます。これら3つの写真をアップロードすれば、このようにすべてを一つのビデオにつなぎ合わせることができます。
多くの方が見たいと思われるもう一つの機能は、長時間のビデオを生成できることです。ここでは、Seaweedは拡張技術なしで20秒間持続するシングルショットを生成できると書かれています。拡張技術を使用すると、1分間のビデオを生成できます。
もう一つの素晴らしい機能は、Seaweedが音声とビデオの両方を一緒に生成できることです。そして、音声はビデオに同期するように生成されます。いくつか例を見てみましょう。
とても素晴らしいです。男性と背景の虎の足音に同期していることがわかります。
とにかく、今のところこれがすべてです。技術的な詳細に興味があれば読むことができる技術論文をリリースしていますが、これをオープンソース化するかどうかの兆候はありません。現時点では、詳しく読みたい場合は、メインページへのリンクを説明欄に貼っておきます。
最後になりましたが、OpenAIは今週2つの新しいモデル、O3とO4 Miniをリリースしました。これらは、特にコーディング、数学、科学、その他のSTEM関連の分野で、彼らがこれまでにリリースした最もスマートなモデルです。
O3とO4 Miniにはいくつかの微妙な違いがあります。ここでは、O3はこれらのSTEM科目とビジュアル認識に優れた彼らの最も強力な推論モデルであると書かれています。後ほどいくつかのベンチマークスコアをお見せします。
対照的に、O4 Miniは高速で費用対効果の高い推論のために最適化されたより小さなモデルですが、数学、コーディング、視覚タスクにも優れており、これらの競争的な数学ベンチマークに関してはO3よりも優れたパフォーマンスを発揮します。
今すぐベンチマークを見てみましょう。AIME競争数学では、O3とO4 Miniは前任のO1とO3 Miniを上回っています。これはかなり驚異的な成果で、すでに90点代でスコアを出しており、このベンチマークをほぼ飽和させています。
これはさらに印象的です。これは競争的コーディングです。前任のO1とO3 Miniと比較して、O3とO4 Miniの大幅な改善に注目してください。これは大きな差です。
そして、GPQA Diamondでは、これは大学院レベルの科学の質問ですが、再びO3とO4 Miniは前任者を上回っていますが、今回はそれほど大きな差ではありません。
視覚的推論のためのその他のベンチマークスコアもあります。これは特に印象的です。このベンチマークはAIの科学的図表を分析する能力をテストし、O1と比較して大幅な改善が見られます。
ここにはSwenchがあり、ソフトウェアエンジニアリングに関するAIのパフォーマンスをテストします。ここでも約20%の大幅な向上があります。
そして、後ほど詳しく説明する指示に従うことやエージェント的なツール使用に関する更なるベンチマークがあります。
これらの比較は素晴らしいですが、まず第一に、これらはOpenAI自身からのものなので、少し偏りがある可能性があります。さらに、彼らは自社のモデルとだけ比較しています。では、最高のモデルであるGemini 2.5 Proについてはどうでしょうか?
他の独立したリーダーボードを見ると、これはApacus AIによるLiveBenchと呼ばれるものです。O3 High、O3 Medium、O4 Mini Highはすべて、Gemini 2.5 Proよりも高いスコアを出しています。これには推論とコーディングが含まれています。数学と言語分析の点では、Gemini 2.5 Proの方が良いパフォーマンスを示しています。
これはArtificial Analysisによる別のベンチマークチャートです。O3とO4 Miniの両方が、知性の点でトップの位置にランク付けされており、Gemini 2.5 Proよりわずかに高いことがわかります。
しかし、それを踏まえた上で、100万トークンあたりの価格を比較すると、O3は驚異的に高く、他の主要なモデルよりもはるかに高価です。そしてO4 Miniはこちらで100万トークンあたり1.9ドルであり、実際にはGoogle のGemini 2.5 Proよりも安く、平均して100万トークンあたり3.4ドルかかります。
本当に素晴らしいのは、これらの両方がマルチモーダルモデルであることです。テキストを理解できるだけでなく、音声や画像も分析できます。彼らは「画像を用いた思考」という新しい機能をリリースしましたが、これは単に画像を分析するだけでなく、より高い知性とより良い回答のために複数の思考連鎖のステップでそれを行います。
例えば、量子電気力学の問題の荒いスケッチの写真をアップロードしたとします。左側でこの問題を解くようにプロンプトを与えることができます。ここがその思考プロセスです。最初に画像を分析し、質問だけが画像内に収まるように画像をトリミングしようとします。
いくつかのトリミングの試みの後、これを取得し、さらに画像を分析するためにズームインし、これが何を意味するかを分析します。これはかなり乱雑な描画であることに注意してください。ユーザーは間違いなく難しい課題を与えています。
画像を分析した後、これを解釈し、量子電気力学の問題の解決に進みます。そして、ここに正しいことが確認された解決策があります。
先ほど両方のモデルがエージェント的なツール使用機能も持っていると言及したことを思い出してください。これは、複雑で複数のステップからなるタスクを達成するために、幅広いツールを自律的に選んで使用できることを意味します。
例えば、画像を分析するためのツール、ウェブを検索するためのツール、ウェブサイトをコーディングするためのツールなど、特定のタスクを実行するために特化した様々なツールを使用できます。O3とO4 Miniの両方が、自由に使えるどのようなツールでも自動的に選んで使用する能力を持っています。
さらに、並行して行うこともできます。つまり、物事をより速く完了させるために、複数のツールやアクションを同時に実行できます。
例を見てみましょう。「私はリスボン、ベルリン、ロンドンにホテルチェーンを所有しています。ヨーロッパの新しい国とアジアの都市に拡大する計画です。どのような要因が成功を最もよく予測するか、地域の旅行データ、経済統計、ホテル稼働率を調査し、トレンドを視覚的に分析して、理想的な拡大場所を推奨してください」とプロンプトを与えるとします。
関連情報を検索して分析するために進みます。関連情報をウェブから検索するために、これらのツールを並行して使用しています。そして、それは延々と続きます。必要なすべての情報を見つけるためのかなり長いプロセスです。そして、データを分析するためにPythonを使用するこのツールを使っています。その後、これらすべてを次のようなチャートにプロットします。
そして、包括的なレポートを提供します。これは、そのような徹底的なエージェント的ツール使用機能を見た最初の例ではないことに注意してください。過去数週間で、Manisも紹介しました。これもエージェントフレームワークであり、インターネットからデータを取得し、きれいに見えるレポートにまとめることができます。
または、Manisよりもわずかに優れた、さらに印象的な例としては、Genspark’s super agentがあります。ここでは、Twitchストリーマーのトップの成長とエンゲージメントのトレンドを見つけるように指示し、これらの影響力のある人々から主要なすべてのソーシャルメディアプラットフォームからのデータを大量に合成し、非常に徹底的なレポートにまとめています。
レポートを提供しただけでなく、素晴らしいプレゼンテーションも提供してくれました。GenSparkについてもっと知りたい場合は、いくつかの非常に驚くべき例を紹介しているこのビデオを確認してください。
さて、OpenAIのO3とO4 Miniに戻りましょう。それらができることの非常に簡単な要約に過ぎません。両方のモデルの完全な詳細な分析を準備中で、それらができる印象的なことといくつかの秘密の能力をお見せする予定です。来週初めに公開される予定ですので、お楽しみに。
これで今週のAIの全ハイライトがまとまりました。これらすべてについてどう思うか、コメントで教えてください。どのニュースがお気に入りで、どのツールを最も試してみたいですか?いつものように、あなたと共有するためのトップAIニュースとツールを探し続けます。
この動画を楽しんでいただけたなら、いいね、シェア、登録をお忘れなく、そして今後のコンテンツもお楽しみに。また、毎週AIの世界で起きていることがあまりにも多いため、YouTubeチャンネルですべてをカバーすることはできません。AIで起きているすべてのことを本当に最新の状態に保つために、私の無料週刊ニュースレターを購読してください。そのリンクは説明欄にあります。
ご視聴ありがとうございました、次回でお会いしましょう。


コメント