
17,369 文字

AIは休むことなく進化し、今週は特に驚異的な進展がありました。動画内の任意のものをドラッグして動かせる新しいAI、3D動画を直接編集できる別のAI、実際に機能する2つのAIエージェント(メールの返信やテーブル予約、フライト予約などのワークフローを処理可能)、トップランクの新しい画像生成AI、同じくランク1位の新しい3Dモデル生成AI、OpenAI o1を上回る2つの新モデルなど、盛りだくさんの内容をご紹介していきましょう。
まず最初は、新しいトップ3Dモデル生成AIである「Hunan 3d2」です。この名前は聞き覚えがありますね。TencentのオープンソースビデオジェネレーターのトップモデルHunanと同じですね。そうなんです。彼らは3Dモデル生成AIもリリースしており、それが非常に優れています。以前のバージョンからアップグレードしたHunan 3d2は、テキストプロンプトから3Dモデルを作成できるだけでなく、画像をアップロードしてそこから3Dモデルを生成することもできます。
仕組みはこうです。まずテキストの説明や画像を入力すると、拡散トランスフォーマーを使用して入力から3D形状を生成します。次のステップでこの3D形状のテクスチャを作成し、最後に形状とテクスチャを組み合わせて完全な3Dモデルを作り上げます。形状とテクスチャを別々に生成するため、同じベース形状に異なるテクスチャを適用することができます。例えばこのテクスチャ、別のテクスチャを試してみましょう。同じティーポットの形状に異なるテクスチャが重ねられていることがわかります。こちらがもう1つ。とても柔軟なツールですね。このブーツの例を見てみましょう。茶色の革のテクスチャを試してみると、このような結果になります。こちらを試すとこうなります。素晴らしい機能です。
実は、AI 3Dモデル生成ツールにはリーダーボードがあり、そこでは様々なモデルのブラインドテストが行われています。このブラインドテストの結果を見ると、Hunan 3d2は現在1位にランクされており、既に非常に優れているMicrosoftのTrellisをも上回っています。以前の動画でこのツールを紹介しましたが、本当に印象的です。
彼らは無料のHugging Faceスペースを提供しており、テストは非常に簡単です。画像をアップロードしてモデルを生成するか、テキストプロンプトを入力してモデルを生成するかを選択できます。簡単なプロンプトで試してみましょう。「ニンジンを食べるかわいいウサギ」として、形状とテクスチャの両方を生成してみましょう。
結果はこうです。メッシュつまり3D形状を生成し、テクスチャも作成します。まず3D形状を見てみましょう。非常に詳細で一貫性のある見た目です。確かにニンジンを食べるかわいいウサギのように見えます。これが形状だけの状態です。ここをクリックするとテクスチャ付きの形状が表示され、再び非常に詳細で一貫性のある仕上がりになっています。
テキストプロンプトの代わりに画像をアップロードすることもできます。セレクションからこのテスト画像をアップロードしてモデルを生成してみました。結果の形状を見ると、非常に詳細で入力画像に沿っています。このキャラクターの背面は見えませんが、AIはそれがどのように見えるかを推測して非常にうまく生成できています。これが完全な3Dモデルです。非常に印象的です。
さらに難しいものを試してみましょう。このガンダムの画像をアップロードしました。これは非常に複雑で詳細な画像ですが、ご覧の通りうまく処理できています。これが3D形状です。1枚の平面画像からすべてをおおよそ正確に再現できているのは非常に印象的で、このガンダムの背面がどのように見えるかまで推測して生成しています。素晴らしいことに、これはオープンソースで既にリリースされています。
GitHubリポジトリはこちらです。少し下にスクロールすると、ダウンロード方法についての説明がすべて含まれています。さらにComfy UIへの統合も計画されています。モデルのパラメーター数は13億から26億の範囲で、大規模言語モデルと比べると比較的小さいため、中程度のGPUでも簡単に実行できます。詳細を読むためのページへのリンクを用意しておきます。
次はNetflixです。そうです、AIの分野では他のテック企業と比べてそれほど目立たないNetflixですが、今週実は非常にクールなAIをリリースしました。「Go with the Flow」と呼ばれるこのAIは、動画に対して多くのことができます。例えば「カットアンドドラッグ」と呼ばれる機能があり、基本的に好きなものを選択できます。左側で2匹の猫の顔を選択し、それを別の場所にドラッグすると、このAIは新しい動きを組み込んだ新しい動画を作成します。
左の猫の顔を上にドラッグしたので猫があくびをし、右の猫の顔を横にドラッグしたので頭を回転させているのが分かります。別の例では、このキャラクターを選択して動画がズームインする際に小さくすることもでき、AIはこの新しい動きを組み込んで、このようなクールなズームイン効果を作り出します。
これにより、動画内のものの動きを細かく制御できます。他の例をいくつか見てみましょう。2つのひまわりをマスクしてドラッグすると、このような結果が得られます。別の例では、2つのぬいぐるみをテーブルの上でドラッグすると、このような結果になります。また別の創造的な例では、ペンを持つ人の手を選択して右下にドラッグすると、その人が紙に何かを描く動画が生成されます。さらに別の例では、このゴム製のアヒルをドラッグして回すと、このような最終結果が得られます。
Motion CloneやDrag Anythingなど、以前私のチャンネルで紹介した他の競合製品と比較すると、Netflixのこの新しいツールの方がはるかに一貫性があり正確です。しかしそれだけではありません。ある動画から別の動画へモーションを転送したり、3Dオブジェクトを取り、プロンプトで望むものに変換することもできます。ここではリスを生成していますが、3Dモデルを動かした通りに動いていることに注目してください。
画像全体をドラッグして回すこともでき、ドラッグした方法に合わせて動画が生成されます。これは基本的に動画のカメラをコントロールしているようなものです。すごいと思いませんか?また、「ファーストフレーム編集」と呼ばれる機能もあります。
これは元の動画があり、その最初のフレームを取って別のものに変えるというものです。例えば、このケーキの上のものを花に編集し、そのフレームをこのAIに戻すと、この新しいフレームで元の動画の動きをコピーして完全な動画を生成します。別の例を見てみましょう。これが元の動画の場合、最初のフレームを取って灯台をフォトショップで追加し、それをこのAIに入れると、この灯台の完全な動画を生成しますが、元の動画の動きをコピーしています。
さらに別の例では、元の動画がこのラップトップの場合、最初のフレームを取ってこのラップトップの上に本をフォトショップで追加し、それをこのAIに入れると、ラップトップの上に本がある完全な動画を生成します。非常に強力なツールです。
実はこのAIは、動画内のオブジェクトの動きを制御するために「歪みノイズ」と呼ばれる非常に興味深い技術を使用しています。基本的に特殊な種類のノイズを取り、動画内のオブジェクトの動きに合わせて歪ませ、これによってよりスムーズで一貫性のある動画を生成できます。
上部にスクロールすると、既にGitHubリポジトリがリリースされており、下部にはこれをローカルでコンピューターにインストールして実行する方法についての説明がすべて含まれています。さらに、GPUを持っていない人向けのGoogle Colabオプションや、Comfy UI統合も計画されています。GitHubへのリンクと追加の例、および技術論文へのリンクはすべてこのメインページにあり、説明文にリンクを記載しておきます。
Go with the Flowと同様に、次のツールも動画を編集できますが、これは通常の動画ではありません。このツールは「Dream Catalyst」と呼ばれ、Nerf動画内の任意のオブジェクトや要素を編集または置き換えることができます。Nerfは神経放射場(Neural Radiance Field)の略で、基本的に3D動画です。
仕組みとしては、通常、複数のカメラが様々な角度からシーンを撮影し、これらの動画を組み合わせて3D動画を作成します。ちなみに、以前、これらの複数の角度からの動画を組み合わせて3D動画を作成できる別のAIを紹介しました。詳しくはこの動画をご覧ください。しかし、Dream Catalystに話を戻すと、これは基本的にプロンプトだけでこれらの3D動画を編集できるAIです。
例を見てわかる通り、彼をアインシュタインに変えたり、エルフに変えたり、頭蓋骨に変えたり、口ひげを生やしたりすることができます。非常に創造的になれます。さらに例を見てみましょう。左の動画が元の3D動画で、これはクマの像です。「クマの像をホッキョクグマに変える」とプロンプトを入力すると、まさにそれを実行します。グリズリーに変えると、このような結果になります。
別の例では、元の動画が左にあり、「秋にする」とプロンプトを入力すると、実際にシーンを秋に変えます。非常に強力なツールです。さらに別の例では、再び元の動画が左にあり、「雪が降ったばかりのように見せる」とプロンプトを入力すると、確かにシーンが雪が降ったばかりのように見えます。「夕暮れにする」とプロンプトを入力すると、確かにシーンを夕暮れに変えます。
もちろん、この技術はビデオゲームに最適です。例えば、キャラクター、オブジェクト、環境のカスタマイズや、製品デザイン、アニメーション、バーチャルリアリティなど、多くの用途があります。上部にスクロールすると、既にGitHubリポジトリがリリースされており、クリックするとこれをローカルでダウンロードして実行する方法についての説明がすべて含まれています。メインページへのリンクを説明文に記載しておきます。
次は本当にエキサイティングな話題です。新しいトップ画像生成AIが登場しました。これはGoogleのImagen 3バージョン2です。LM ArenaまたはChatbot Arenaは、以前このチャンネルで何度も紹介したものですが、ここではユーザーが異なる画像生成モデルをブラインドテストできます。
例えば、ユーザーがここにプロンプトを入力すると、2つの画像生成AIが並んで表示されますが、どちらがどちらかはわかりません。画像を生成した後、勝者を選びます。異なるユーザーから多くのブラインドテストを経て、すべての画像生成モデルの中で、Googleの最新のImagen 3が現在1位にランクされており、1099という非常に高いアリーナスコアを獲得しています。
2位、3位、4位にはRecraft、Audiogram、Flux 1.1 Proがありますが、それらのアリーナスコアがどれほど近いかに注目してください。10ポイント未満の差しかありません。しかし、Imagenのスコアは他のすべてのモデルを大きく上回っています。60ポイント以上の差があり、これは驚異的です。
このImagen最新バージョンは、現在このLabsプラットフォームで試すことができます。リンクは説明文に記載しておきます。使い方は非常に簡単で、驚くほど高速です。いくつか例を試してみましょう。
最初の例は「ハートマークを作る2つの手」です。ここでは、かなり複雑な例でテストしていることに注目してください。解剖学やプロンプトの理解度をテストしています。他の画像生成AIは既にポートレートショットなどの基本的なシーンを生成できますが、ここではより難しいシーンでテストしてみています。
4つの画像を一度に生成でき、すべてが素晴らしい出来栄えです。1枚目はこちら、完璧な仕上がりです。2枚目もとても美しく、手の表現が完璧です。3枚目の生成も非常に詳細で手と指の表現が素晴らしく、4枚目の写真も同様です。4枚とも完璧で、目立った問題点を指摘することはできません。
別の難しい例を試してみましょう。今度はプロンプトの理解度をテストします。プロンプトは「青い立方体の上に置かれた赤い球体の写真。その後ろに緑の三角形があり、右側に犬、左側に猫がいる」です。これができるか見てみましょう。
4つの画像が生成されました。1枚目を見てみましょう。青い立方体の上に赤い球体があり、後ろに緑の三角形があり、右側に犬、左側に猫がいます。完璧です。別の例も見てみましょう。これもプロンプトで指定したすべてのオブジェクトの位置関係を正確に表現しており、犬と猫は非常にリアルです。3枚目の例では、余分な猫が追加されていますが、他の要素は正確に表現されています。この緑の三角形は、2つのオブジェクトの直後ではなく、やや左寄りにあると言えるかもしれません。4枚目の例も、すべての要素を正確に表現しています。非常に素晴らしい出来栄えです。
さらに別の難しい例を試してみましょう。プロンプトには多くの異なるオブジェクトが含まれています。「虹色の殻を持つ巨大なカタツムリに乗った宇宙飛行士が砂漠の風景の中を進んでいる。宇宙飛行士は『I love AI』と書かれた旗を振っている」というプロンプトです。これは複雑な要素の理解をテストするだけでなく、画像内のテキストを正確に生成できるかもテストしています。
結果はこうです。非常にリアルで、宇宙飛行士とカタツムリは非常に詳細で美しく表現されています。さらに虹色の殻も表現されており、旗には確かに「I love AI」と書かれています。別の例も見てみましょう。再びすべての要素が非常に美しく詳細に表現されています。3つ目の例では、旗に余分な「a」が含まれているのが分かります。4枚の画像のうち1、2枚は完全には正確でないことを想定しておく必要があります。4枚目の画像では、「LI」が殻の反対側にあるべきで、殻も本当の意味では虹色ではないという欠点があります。しかし、4枚中2枚は正確に生成できており、これは非常に難しいプロンプトでテストしていることを考慮すると、すべてを完璧に表現することは期待していません。
私の経験では、これらのトップモデルのほとんどを使用してきました。実際、その多くについてチャンネルでレビュー動画を作成しています。このImagen 3の新バージョンの予備テストから、他の画像モデルよりも明らかに優れていることが分かります。すべてがより詳細でリアルで一貫性があり、エラーも少なくなっています。GoogleのImagen 3を無料で試せるこのサイトへのリンクを説明文に記載しておきます。
次も非常に強力なAIです。「DuuEraser」と呼ばれ、基本的に動画の一部を消去したり、欠落した部分を埋めたりすることができます。いくつか例を見てみましょう。左が元の動画で、犬を消去したい場合、以前の方法である「ProPainter」と、この新しい方法「DiffFewEraser」があります。まず、これがいかに魔法のようかに注目してください。これは非常に難しいシーンですが、このAIは犬を非常にうまく消去でき、以前の方法であるProPainterと比べてはるかに一貫性があります。
別の簡単な例では、同じく元の動画が左にあり、この人物をマスクで消去したい場合、ProPainterはあまりうまく処理できず、人物がいた場所にアーティファクトが残っていますが、この新しい方法であるDiffFewEraserは、人物がいた背景をAIで非常にシームレスに生成できます。非常に強力で便利なツールです。
別の例を見てみましょう。右側のダンサーを消去したい場合、この新しいツールはかなりうまく処理できていますが、非常に目立つ欠点が1つあります。それは彼女の反射がまだ表示されていることです。反射も消去できればよいのですが。これは1つのキャラクターやオブジェクトの消去だけでなく、複数のオブジェクトを同時に選択して消去することもできます。
ここでこれら4人の子供たち全員を消去したい場合、再びこのAIがうまく処理できていることがわかります。別の例では、子供とサッカーボールの両方を消去するように選択でき、再びこのAIはこれを消去し、背景を非常にシームレスに埋めることができます。
別のクールな例では、動画から少年だけを消去することを選択できます。以前の競合製品であるProPainterは彼女の腕のエッジをうまく処理できませんでしたが、DiffFewEraserはこの問題を修正し、動画から少年を非常にシームレスに消去できます。別の例でも、この新しい方法は人物がいた場所の背景を埋めるのが以前よりもはるかに優れていることを示しています。
仕組みはこうです。入力動画を取り、基本的に消去したい部分を動画のフレームごとにマスクで指定し、次に拡散モデルを使用して背景に基づいて空白を埋めます。また、「時間的注意」と呼ばれるものを使用して、基本的に動画が時間とともにどのように変化するかを追跡し、最終的な動画をより一貫性のあるものにします。
もちろん、このツールはアニメーションや特殊効果の作成に非常に便利で、ロゴや透かし、その他の要素を動画から削除するのにも使用できます。多くのクールな使用例があります。
上部にスクロールすると、既にGitHubリポジトリもリリースされており、クリックするとコンピューターでこれを無料でローカルにダウンロードして実行する方法についての説明がすべて含まれています。現在はコードでのみ動作していますが、Gradioデモもリリース予定です。これはより使いやすいグラフィカルインターフェースで、これを実行するのに使用できます。すべてのリンクはこちらにあり、メインページへのリンクを説明文に記載しておきます。
次に、今週は実に2つの非常にクールなAIエージェントがリリースされ、どちらも非常に印象的です。まず1つ目は、「UITars」と呼ばれる無料のオープンソースAIエージェントです。インターネットブラウザで動作するブラウザエージェントと、コンピューター全体で動作するフルデスクトップエージェントの両方があります。これはインターネットブラウザだけに限定されません。
いくつか例を見てみましょう。「ウェブブラウザを使用してサンフランシスコの現在の天気を取得する」とプロンプトを入力すると、自動的にGoogle Chromeを開き、「weather in San Francisco」と入力し、画面を分析してチャットインターフェースで答えを出力しているのが分かります。
これは非常に単純な例ですが、別の例として、ツイートを投稿させることもできます。「hello worldという内容でツイートを送信する」というプロンプトを入力すると、Google Chromeを開いてtwitter.comと入力してTwitterを開き、自動的にツイートを入力して投稿します。多くのことを自動化するのに非常に便利なツールです。
さらにクールな例をいくつか見てみましょう。例えば、シアトルからニューヨークまでの往復便を、特定の出発日と帰国日で検索させることができます。出発空港と到着空港を検索し、チャットインターフェースでステップバイステップの推論を見ることができます。
次のステップは日付選択を開いて出発日と帰国日を選択することで、それを実行します。次のステップは検索をクリックすることです。私が以前テストした他のエージェントで遭遇したエラーですが、本当にクールなことに、ページの読み込みが十分に速くない場合にスタックしてしまうことがあります。ここでは実際に、ページが完全に読み込まれていないことを検出し、さらなる操作を進める前に待つ必要があると判断しています。
ここでは、ページが完全に読み込まれるのを待ってから、さらなる操作を行うことを決定しています。読み込みが完了すると、並び替えとフィルターのドロップダウンをクリックし、価格で並び替えます。
別の例を見てみましょう。ここではデスクトップアプリがより便利です。ウェブブラウザだけでなく、Word、PowerPoint、VS Codeなど他のデスクトップアプリも使用できます。例えば、ここではユーザーがこのAIエージェントにPowerPointプレゼンテーションの編集を手伝わせています。「スライド2の背景色をスライド1のタイトルと同じ色にする」とプロンプトを入力しています。
現在、サイドバーからスライド2を選択し、背景色の設定にアクセスする必要があることを検出し、カラーパレットから赤色を選択することを決定し、それで完了です。タスクを正常に完了しました。
別の非常に便利なデモを見てみましょう。ここでのプロンプトは「VS Codeのサイドバーにautodocstring拡張機能をインストールしてください」です。まずVS Codeを開く必要があり、再びこの機能が素晴らしいのですが、完全に読み込まれていないため、実際に読み込みが完了するのを待ってから進めます。
そして、VS Codeの拡張機能ビューにアクセスする必要があることを検出し、それをクリックします。次に、拡張機能を検索するために検索バーに「autodocstring」と入力する必要があり、まさにそれを実行します。次に、拡張機能をインストールするためにインストールボタンをクリックすることを決定し、それで完了です。再び、タスクを正常に完了したことがわかります。
多くの異なることを自動化するための非常に便利なツールです。これは完全に無料でオープンソースで、数ヶ月前にリリースされたClaude Computer Useよりもはるかに優れています。そちらは多くのエラーが発生し、多くのループにはまり込み、さらに非常に高価で、ソースコードも非公開でした。今やオープンソースモデルがさらに優れたものになっているのは素晴らしいことです。
さらに、これはウェブブラウザだけでなく、デスクトップ全体でも使用できます。スポンサーのUpixに感謝します。Upixは現実的なAIセルフィージェネレーターで、数回のクリックで高品質な現実的な画像を生成することを非常に簡単にしてくれます。デスクトップでもスマートフォンでも動作し、追加のアプリをインストールする必要はなく、インターネットブラウザから直接動作します。
使用は非常に簡単です。テンプレートを選択し、誰かの写真をアップロードしてクリエイトをクリックするだけです。それほど簡単です。これがいかに現実的かをご覧ください。選択できるテンプレートが多数あり、さらに追加される予定です。up.appでチェックしてください。
彼らは複数のモデルをリリースしています。1つは720億パラメーターで、高性能なGPUで実行できる可能性があり、もう1つは70億パラメーターの小規模なモデルで、低グレードのGPUでも実行できます。このツールのクールな機能は、反復的に学習できることです。「リフレクション・チューニング」と呼ばれるものを使用して、自身の間違いから学び、新しい状況に適応します。両方とも最先端です。
様々なベンチマークを見ると、これが以前のトップパフォーマーです。UI Tarsがすべてを上回っていることに注目してください。すべてのベンチマークで以前のトップモデルを上回っており、わずかな差ではありません。例えばGUI Odysseyなどのベンチマークでは、競合他社を40%以上上回り、こちらは30%以上、こちらは20%以上上回っています。これは絶対的に驚異的な進歩です。
こちらはUI TarsとGPT 4o、そしてClaudeをAIエージェントの様々なベンチマーク指標で比較したものです。ご覧の通り、UI Tarsは全体的にGPT 4oとClaudeの両方を上回っています。これは非常に驚くべきことです。
先ほど述べた通り、これは完全にオープンソースで、すべてのモデルは既にHugging Faceで公開されており、ここにはコンピューターでこれをオフラインでダウンロードして使用する方法についての説明がすべて含まれています。また、これはApache 2ライセンスの下で提供されているため、基本的に何でもできます。これを編集したり、調整したり、商用目的で使用したりすることもでき、制限は最小限です。
開始するために必要なすべての情報が含まれているこのページへのリンクを説明文に記載しておきます。これのインストールと実行方法について完全なチュートリアルを作成してほしい場合は、コメント欄でお知らせください。
UI Tarsに加えて、OpenAIは待望のAIエージェント「Operator」をついにリリースしました。これはウェブベースのエージェントで、インターネットブラウザでのみ動作しますが、フライトの予約や食料品の注文、レストランの予約など、幅広いタスクを正常に実行できることが示されています。
Operatorは独自のブラウザを使用してウェブサイトをナビゲートし、タイピング、クリック、スクロールを通じてウェブサイトとインタラクトできます。これは基本的に私たち人間がウェブサイトとインタラクトする方法と同じです。実際にGPT 4oをベースにした新しいエージェントモデルを使用しています。
Operatorの動作例をいくつか見てみましょう。この人はOperatorにTurkish Airlinesの特定の日付の片道便を予約させています。再び、Operatorは独自のブラウザを使用してウェブサイトをナビゲートし、どのステップでもコントロールを取るためのボタンがあります。これは基本的にAIが行っていることを一時停止し、AIが再開する前に何かをクリックしたり操作したりできます。
ここで日付を選択し、利用可能なフライトを検索するべきかどうか尋ねています。残念ながら、多くの質問をし、それに応答する必要があるため、自動的に物事を実行することはできません。また、ここで別の例として、フライトを検索した後、このフライトを予約するべきかどうか尋ねており、ユーザーは先に進むために「はい」と応答する必要があります。
ここでも再び、このオプションを予約するべきかどうか尋ね、再びユーザーは「はい」と応答する必要があります。これは非常に面倒なプロセスで、特に座って自由にやらせたい場合は正直言って面倒です。現段階のOperatorではそれはできません。自分で物事を実行することはできず、しばしば何かを実行するための承認を求める必要があります。
ここで最終的に乗客情報を入力する必要があるフォームページに進みますが、自動的に入力することはなく、ユーザーに「予約を進めるためにこれらの詳細を提供してください」と尋ねます。これは利点にも欠点にもなり得ます。利点はもちろん、使用がより安全であり、ランダムなものにクレジットカードを使用して購入することはありません。しかし、欠点は再び、多くの時間を無駄にし、情報を自分で入力する必要があることです。
これがOperatorを使ってフライトを予約する例です。別の例として、ユーザーがLos Altosの特定のレストランでディナーの予約を試みている例があります。再び、独自のネイティブブラウザを開き、なぜかGoogleではなくBingでレストランを検索しています。利用可能な時間枠を見つけましたが、再びユーザーに「この時間を予約するべきかどうか」尋ねる必要があります。
ユーザーは「はい、お願いします」と応答し、予約を進めます。再び次のステップで立ち往生し、「予約を完了するべきかどうか」尋ねます。再びユーザーは「はい」と応答する必要があります。最終的に指定された時間での予約を確認しました。ユーザーはこれをキャンセルできるかテストしており、ページのキャンセルオプションをクリックする必要があることを検出し、「進めるべきか」とユーザーに尋ね、ユーザーは「はい」と言います。これは非常に面倒なプロセスで、各ステップでユーザーの承認を得る必要があり、私の意見では効率的ではありません。
別のユーザーからの例では、OperatorにAIエージェントに関する最新の論文を見つけて要約させています。現在、ネイティブブラウザを開き、ar.xivに移動し、ドロップダウンをクリックしてコンピューターサイエンスカテゴリを選択し、AIエージェントを検索しています。なお、この動画と以前の例は速度を上げて再生されており、実際には各ステップを考え、実行するのにかなりの時間がかかります。現段階ではかなり遅いです。
ここで立ち往生を続け、結果を見つけることができません。最終的にユーザーは「コントロールを取る」をクリックし、正しい検索語を手動で入力して機能させる必要があります。そしてOperatorに戻って続行させます。最終的にこれらの検索フィルターを使用した後、AIエージェントは論文を見つけることができ、これらの論文それぞれをクリックしてPDFを読んだ後、再び立ち往生します。
ユーザーはコントロールを取り、「既に持っているものを要約してタスクを終了してください」と依頼する必要があります。それを実行し、長時間後にチャットインターフェースで各論文の要約を出力します。あまり印象的な例ではありませんが、Operatorの機能と限界を理解する助けになればと思います。
いくつかのユースケースを示しましたが、Operatorはタスクの自動化に関して有望である一方で、いくつかの制限があることに注意してください。複雑や専門的なタスクを処理することはできず、ほぼすべてのステップで進めてよいかどうかを尋ねてきます。さらに、これは彼らのネイティブブラウザに限定されているため、自分のChromeブラウザでも使用できず、デスクトップでも使用できません。このネイティブブラウザインターフェース以外のものとインタラクトすることはできません。
また、これはOpenAIのものなので、かなりクローズドソースで、安全のために多くの保護機能が実装されています。例えば、クレジットカードの詳細やパスワードの入力などは自動化できません。もちろん、これはプライバシーの問題になり得るため望ましくないのですが、とにかくガードレールが設置されていることに注意してください。
また、これを使用するにはChat GPT Plusプランではなく、月額20ドルのProプランに加入する必要があります。下部を見ると、「Operatorのリサーチプレビューへのアクセス」と書かれており、さらにこれにアクセスするにはアメリカに在住している必要があります。
次に、Googleによる本当にクールなツールがあります。「TokenVerse」と呼ばれ、基本的に複数の画像内の任意のオブジェクトや要素を取り、それらを組み合わせて新しい画像を作成することができます。異なる視覚要素を組み合わせて新しい興味深い画像を作成するための非常に便利なツールです。
いくつか例を見てみましょう。これら4つの入力画像があり、各画像に対応する説明があります。ここにはジャケットを着た人形、眼鏡とシャツを着た猫、帽子とネックレスを着けた犬、光のある森があります。この人形と猫のシャツ、犬の帽子、森の光で新しい画像を生成したい場合、このTokenVerseツールに入力すると、これが結果です。
どれほどクールですか?確かにこのウサギの人形、犬の赤い帽子、猫のシャツ、この森の写真の光に一致しています。別の例を見てみましょう。今度はベンチに座っている人形、同じシャツを着た猫の写真、傘を持っている女性、同じ森の写真があります。人形にこのシャツを着せ、空の下でこの傘を持たせ、この光の下にしたい場合、これが結果です。どれほどクールですか?
別の例を見てみましょう。バケツの中に入った羊の人形、水に浮かぶボート、再び傘を持った女性の写真、この森の写真があります。この人形をこのボートに乗せ、傘を帆として使い、この光の下にしたい場合、非常に正確に生成することに注目してください。羊の人形とボート、赤い傘、森の光は入力画像と非常に一致しています。
別の例を見てみましょう。この男性の画像、ベンチに座っている人形、同じ傘の写真、海辺でヨガをしている女性の写真があります。プロンプトでは、この男性をこのベンチに座らせ、この写真の背景である海のそばでこの傘を持たせたい場合、再びこのTokenVerseツールに入力すると、この写真を生成します。男性の顔、ベンチ、傘、この海の背景が確かに入力写真に一致していることに注目してください。
このプロジェクトページの下部では、自分でこれを試すこともできます。ここに入力写真があり、ここに出力写真があります。現在、眼鏡をかけ、このシャツを着て、このネックレスを付けた人形がいます。ここで見えるように、例えば人形を変更するためにここをクリックすることができます。人形をこのクマに変更すると、これが結果です。
シャツもこのように変更でき、シャツはこのようになります。眼鏡もこのピンクのハートの眼鏡に変更でき、これが結果です。最後にネックレスをこのようなものに変更すると、これが得られます。人形をウサギに戻すと、これが得られます。異なる画像からの異なる要素を組み合わせるための非常に便利なツールです。
これはオブジェクトを転送するだけでなく、照明も転送できます。例えば、これが入力画像の場合、同じ照明スタイルを異なるプロンプトに転送できます。入力画像のポーズも転送できます。これが元の画像の場合、異なるプロンプトで新しい画像全体に同じポーズを適用できることに注目してください。
テクスチャも適用できます。これが入力画像の場合、カラフルなプラスチックビーズで作られたこの犬に注目してください。同じテクスチャを異なるプロンプトの新しい画像全体に適用できます。ここで見えるように、このモザイク花瓶の例では、このユニークなピンクと白のデザインがあります。異なるオブジェクトで新しい画像を生成しても、元の花瓶と同じモザイクデザインを適用していることがわかります。
これにより多くの創造性が解き放たれ、多くのクールなことができます。上部にスクロールすると、コードは近日公開予定と書かれています。オープンソース化を計画しているようで、これは素晴らしいことです。より多くの例を確認できるこのページへのリンクを説明文に記載しておきます。
次に、「Video Depth Anything」という別の非常にクールなツールがあります。これは基本的に長い動画を取り、カメラからものがどれだけ離れているかを把握できるAIです。これは深度動画のようなものです。これを行える以前のツールもありますが、このツールは特に長い動画を扱うように特化されており、はるかに正確です。これは実際に既存のツール「Depth Anything バージョン2」をベースにしていますが、さらに微調整してより優れたものにしています。
いくつか例を見てみましょう。動画はかなり長いため、3倍速で再生されていますが、この動画内のすべてのオブジェクトの深度を判定する精度の高さに注目してください。このような非常にアクション性の高いシーンでも、すべての深度を非常に正確に推定できています。
別の例では、様々な人々が飛び跳ねており、カメラが至る所を移動する、かなり複雑なシーンがあります。これは非常に複雑なシーンですが、再び動画全体のすべての要素の深度を非常に正確に推定できています。非常に印象的です。
さらに別の例も見てみましょう。再び非常にカオスなシーンで、カメラが非常に揺れていますが、動画内のすべての要素の深度を非常に正確に捉えることができています。「Depth Crafter」という競合製品と比較すると、この新しいものははるかに詳細です。左がDepth Crafterで、草を見ると、以前の競合製品と比べてこの新しいツールの方がはるかに詳細でシャープな草の表現になっていることがわかります。
別の例では、再び左がDepth Crafterで、右がこの新しいツール「Video Depth Anything」です。特に金属フェンスの細部に注目してください。古いモデルは非常にぼやけていますが、このモデルはフェンスの深度を非常に正確に生成できています。
上部にスクロールすると、GitHubリポジトリをリリースしただけでなく、試用できる無料のHugging Faceスペースも提供しています。例えば、この動画を入力して生成をクリックすると、これが得られる深度動画です。観覧車のこの難しい例も見てみましょう。これはかなり長く28秒ありますが、再びこれを処理し、この非常に一貫性があり正確な深度動画を生成できています。非常に印象的です。
これをローカルで実行したい場合、コンピューターでこれをダウンロードして実行する方法についての説明がすべて含まれているGitHubリポジトリもリリースされています。モデルサイズがかなり小さいことに注目してください。小さいバージョンは2800万パラメーターで、10億にも満たず、大きいモデルでも3億8100万パラメーターです。これは確実に低グレードのGPUでも使用可能です。すべてのリンクはこちらにあり、このプロジェクトページには他のデモもありますので、このページへのリンクを説明文に記載しておきます。
また今週は、OpenAI o1を上回る新しいAIモデルが2つもリリースされました。o1は彼らのフラッグシップモデルで博士レベルですが、今週、o1を上回るか少なくとも様々なベンチマークで匹敵する2つのモデルが登場したことは、まさに驚異的です。
1つ目は「DeepSeek R1」と呼ばれ、完全にオープンソースで無料で使用でき、既にダウンロードしてローカルでオフラインで実行できます。実際、一部のユーザーは蒸留バージョンをiPhoneやAndroidフォンでも実行できています。
非常に簡単に説明すると、彼らは新しいトレーニング技術を使用してこれを作成しました。モデルは、GPTやClaude、Llamaなどの以前の世代のAIモデルで見られた主に教師あり学習技術ではなく、強化学習をベースにしています。基本的にこれは、最小限の人間のガイダンスで自身で学習できることを意味します。自身で物事を理解し、自身の回答を検証する必要がありました。
このため、問題解決やステップバイステップの推論において、はるかに高いパフォーマンスを発揮します。実際、DeepSeekをOpenAI o1と比較すると、基本的にすべての数学ベンチマークでo1を上回っており、これは非常に驚異的です。DeepSeek R1について、既に完全なレビューと詳細な分析を行っていますので、まだ見ていない方はこの動画をチェックしてください。
DeepSeekが多くの注目を集めているのに加えて、この他の会社は比較的注目されていませんが、今週も同様にOpenAI o1を上回るAIモデルをリリースしました。このAIモデルは「Kimmy K 1.5」と呼ばれ、Moonshot AIと呼ばれるスタートアップ企業によって開発されたトップマルチモーダルモデルです。
ちなみにDeepSeek R1はマルチモーダルではなく、現在はテキストのみを処理できますが、このKimmyは視覚機能も持っているため、画像や動画を分析する可能性があります。DeepSeekと同様に、Kimmyも強化学習を使用してトレーニングされ、モンテカルロ探索や価値関数、プロセス報酬モデルなど、過去に見られたより複雑な技術に依存していません。
同じ週に両社がAIモデルをリリースし、両方とも強化学習を使用してモデルをトレーニングしたのは偶然ではないと思います。これがAIの次の大きなトレンドになるかもしれません。以前の方法ではなく、強化学習を使用してさらに優れたモデルをトレーニングすることです。
Kimmy K 1.5のOpenAI o1に対するパフォーマンスを見ると、再びすべてのベンチマークで、Kimmyが実際にo1を上回るか、少なくともそのパフォーマンスと同等であることに注目してください。これは考えるだけでも非常に驚異的です。
Kimmy K 1.5とOpenAIのGPT 4o、Claude 3.5 Sonnetを比較した追加のベンチマークもあり、再び多くのベンチマークで他のモデルを上回る非常に印象的な結果を示しています。
DeepSeek R1とは異なり、このモデルKimmyはオープンソースではありません。現在は彼ら自身のプラットフォームを通じてのみアクセス可能で、アクセスを得るためにはテストアプリケーションフォームに記入する必要があります。詳細を読むためのこのGitHubリポジトリへのリンクを用意しておきます。
これで今週のAIのハイライトをすべて紹介しました。今週は特に多くのことが起こり、すべてを把握するのが少し圧倒的な感じがします。2025年の最初の月も終わっていないのに、これは絶対に驚異的な年になりそうです。
これらすべてについて、あなたはどう思いますか?どのツールに最も期待していますか?どれを最も試してみたいですか?いつも通り、トップAIニュースとツールを探して皆さんと共有していきますので、この動画を楽しんでいただけた場合は、いいね、シェア、購読をお願いします。次のコンテンツもお楽しみに。
また、AIの世界では毎週とてつもない量のことが起こっており、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっているすべてを本当に最新の状態に保つために、無料の週刊ニュースレターの購読をお願いします。リンクは説明文に記載しておきます。ご視聴ありがとうございました。また次回お会いしましょう。


コメント