新しいオープンソースAI動画モデル、すごい3Dジェネレーター、GPT 4.5、カンフーロボット、エンドレス動画

AGIに仕事を奪われたい
この記事は約30分で読めます。

17,879 文字

New open-source AI video model, insane 3D generator, GPT 4.5, kung-fu robots, endless videos
INSANE AI news: GPT4.5, Wan 2.1 AI video generator, Theorem Explain Agent, Hailuo I2V director, Unitree kungfu robot, CA...

AIは眠ることがなく、今週は本当に驚くべき週でした。異なるレイヤーで画像を生成できるAIや、このような数学や科学を説明する動画を生成できるAI(ボイスオーバー付き)があります。「Arrow(矢印)は、勾配ベクトルがどのように大きさと方向を変えるかに注目してください」。また、他のすべてを凌駕する新しいオープンソースの動画ジェネレーター、非常にリアルな3Dシーンジェネレーター、そしてGPT 4.5とClaude 3.7が今週リリースされました。さらに、驚くほどリアルな人型ロボットのデモなど、多くの新しい技術が登場しました。
では、早速見ていきましょう。まず最初に紹介するのは、Rifle Xという新しいAIです。これは動画の長さを品質を損なうことなく延長するための新しい技術です。多くの人がAI動画ジェネレーターで作成できるクリップは4〜5秒程度しかないため、あまり使い道がないと不満を持っていることは知っています。このツールはその問題を魔法のように解決します。実際、彼らはこれを「無料のランチ」と呼んでいます。
例えば、5秒程度の動画があるとします。この動画をこのAIに入力するだけで、魔法のように10秒に延長してくれます。これは「2倍の外挿」とも呼ばれ、長さを2倍に延長するものです。最も素晴らしい点は、この技術がトレーニングを必要としないことです。つまり、機能させるために追加のトレーニングやトレーニングデータを必要としません。他の動画から学習する必要なく、単に動画を長くすることができます。
いくつか例を紹介します。元の動画が5秒間で、これを通して処理すると10秒間に延長されます。こちらは密集した庭を走る猫の別の例です。ここでも元の動画は5秒間だけですが、これを通過させると10秒間にシームレスに延長されます。また、アニメにも対応しています。ここに例があります。最初の5秒が元の動画で、最後の5秒が拡張部分です。
トレーニングなしでこれを行うことができますが、モデルをさらに微調整してより良く見せることもできます。つまり、パフォーマンスを向上させるために少量のデータでトレーニングすることもできます。ここには「さらにトレーニングすると、動的品質と視覚的品質がさらに向上する」と書かれています。
以下はファインチューニングを行った動画拡張の例です。3Dアニメーション動画があり、拡張を非常にうまく処理していることがわかります。こちらは別の例で、元の動画のどの部分が拡張部分なのか、ほとんど気づけないほど移行がシームレスです。このマインクラフトのような生成にも対応しています。このように非常に柔軟で汎用性があり、あらゆるスタイルの動画を拡張するために使用できます。
最も素晴らしい点は、ページの上部にスクロールすると、コードが既に公開されていることです。GitHubリポジトリがリリースされており、これはフレームワークに過ぎないため、任意の動画生成モデルをこれに接続できます。紹介した例はHunYenを使用していますが、Cog Video XやOne 2.1(後ほど説明します)を使用することもできます。
さらに、これはすでにComfy UIでサポートされているため、HunYenを使用している場合は、このkyui Hunan Videoラッパーコンポーネントを使ってRifle Xで動画を拡張できます。このビデオでComfy UIでのHunYen使用方法を解説しています。いずれにせよ、Rifle Xの使用方法の指示はすべてこのGitHubリポジトリにあります。リンクはすべてここにあるので、メインページへのリンクを説明欄に記載します。
次に紹介するAIは非常に優れています。ARTと呼ばれ、Anonymous Region Transformerの略で、複数のレイヤーを持つ画像を生成できます。レイヤーは透明にすることもでき、より細かな編集が可能になります。後で個々の要素を移動させることもできます。いくつか例を紹介し、その後ライブデモをお見せします。
AIを使ってこのポスター全体を作成できますが、これは実際には異なる要素に分けることができます。背景、透明レイヤーのテキスト、そしてこの画像があります。別の例では、AIは最終画像だけでなく、すべての要素を別々のレイヤーで生成できます。こちらは見栄えの良いポスターで、これらの要素もすべて透明レイヤーに分けることができます。
では、早速試してみましょう。無料のHugging Faceデモがリリースされています。まず、画像を説明するプロンプトを入力します。例えば「ハッピーアニバーサリーポスター」というプロンプトを入力します。テキストのフォントを指定できるので、ここでは「太字のサンセリフ」にしたいと思います。バナーの下には、カップルの写真を含む円形のフレームがあります。フレームの周りにはピンクの花や緑の葉などの装飾的な要素があります。フレームの下には「イザベルとモーガン」というテキストがあり、その下には「ハッピーアニバーサリー、愛と笑いと大切な思い出のもう一年に乾杯」などのメッセージがあります。
プロンプトを入力したら「コミット」をクリックします。「ワンクリック生成」ボタンもありますが、ステップバイステップで見ていきたいと思います。「コミット」をクリックすると、基本的にこのプロンプトを「Anonymous Region Layout Planner」に通し、これらの要素をどのように配置し、異なるレイヤーに分けるかを決定します。この後、一連のボックス座標が生成され、それらの座標がここにコピーされます。「コミット」を押すと、これが基本的に画像生成段階になります。プロンプトと座標をこの画像ジェネレーターに通して、指定された座標にすべての要素を配置した最終画像を生成します。
その結果、ここにデザインができあがります。これが最終画像ですが、実際には複数の要素から構成されています。背景、画像、上部の花、装飾、テキスト、そしてこちらのテキストがあります。これらをすべて合わせると、最終画像ができあがります。素晴らしい点は、これらをすべて別々にダウンロードし、写真編集ソフトに取り込んでさらに編集できることです。例えば、このテキストをドラッグしたり、画像をドラッグしたりと、すべてが直接編集可能です。このテキストもサイズ変更できます。
このツールは非常に便利だと思います。これは最終的にCanvaに取って代わるかもしれません。これらのデザインを手動で作成し、すべてをドラッグ&ドロップし、フォントを変更する代わりに、AIにプロンプトするだけですべてを行ってもらうことができます。Hugging Faceデモに加えて、GitHubリポジトリもあり、スクロールするとこれにはコンピュータでローカルに実行するために必要なすべてのコードが含まれています。このページへのリンクを説明欄に記載します。
次に紹介するのは本当にクールな3Dモデルジェネレーターです。CASTと呼ばれ、Component Aligned 3D Scene Reconstructionの略です(ただしTはどこから来たのかわかりません)。このAIは1枚の画像から3Dシーン全体を再現できます。
その仕組みはこうです。まず入力画像を見て、そこにあるオブジェクトを特定します。例えば、ここではギター、クーラーボックス、バン、サーフボードなどが検出されています。次に、シーン内の各オブジェクトの3Dモデルを作成します。画像内でオブジェクトの一部が隠れていても、このAIはその部分がどのように見えるかを推測して埋めることができます。最後に、シーン内のオブジェクトが互いに現実的に相互作用するようにします。
その方法は、リレーショングラフを使用してシーン内のオブジェクトの関係をマッピングすることです。例えば、ギターがクーラーボックスに寄りかかっていて、ウェットスーツがバンから吊るされているなどです。このリレーショングラフから、すべてのオブジェクトのポーズを最適化し、物理的な一貫性を確保する制約グラフも生成します。これらのステップをすべて統合した後、画像から非常に正確な3Dシーンを作成できます。
各生成にはまだいくつかの微妙な欠陥がありますが、このAIが1枚の画像からだけで3Dシーンを生成でき、しかも推測して作り上げなければならないシーンの背面まで正確に生成できるという事実は、私にとって非常に驚くべきことです。ページの上部にスクロールすると、「コードは近日公開予定」と書かれているので、これをオープンソース化する予定のようです。現時点ではこのメインページへのリンクを説明欄に記載します。
次は非常にエキサイティングです。AlibabaがOne 2.1をリリースしました。これは現時点で使用できる最高のオープンソース動画ジェネレーターです。興味深いことに、以前はWanXという名前でしたが、おそらくそのため「One」に変更したのでしょう。このモデルは本当に印象的です。これらの例からわかるように、このようなダンス動画を非常に一貫して作成でき、人体の解剖学と動きをとても良く理解しています。こちらはダンスの別の印象的なデモで、これらの複雑な動きを理解するのが非常に上手で、このような格闘シーンさえも実現できます。最高の商用モデルでさえ、一貫して現実的な格闘シーンを生成することはできないことに注意してください。これは非常に印象的です。
また、物理学も非常によく理解しています。ここでは犬がトマトを切っていますが、トマトをいかに正確に切るかに注目してください。最高の商用モデルでもこれを正確に行うことはできません。こちらはディズニー・ピクサーの3Dアニメーションの例で、シーンが非常に複雑で詳細であるにもかかわらず、これを美しく処理しています。水中での爆発も非常にリアルに見えます。
さらに多くのことができます。これをコントロールネットのように使用できます。つまり、あるシーンを入力し、そのシーンの動きと構造を新しい生成に変換できます。また、あるシーンのポーズを新しいシーンに転送することもできます。さらにインペインティングも可能です。例えば、このライオンを選択してクマに置き換えることができます。アウトペインティングも可能で、これが元の動画であれば、動画の両側を拡張し、右側に別のバイオリン奏者、左側にピアニストを追加できます。非常に印象的です。
さらに、動画に挿入したいキャラクターやオブジェクトの参照画像を入力することもできます。非常に柔軟なツールです。最も素晴らしい点は、画像から動画への変換が可能なことです。エッフェル塔のこの画像を開始フレームとして入力し、空に花火が上がる動画を生成できます。また、1つだけでなく2つの画像をアップロードすることもできます。1つは開始フレーム、もう1つは終了フレームとして、そこから魔法のように動画を生成します。
素晴らしいことに、モデルはすでにHugging FaceやModel Scopeでダウンロード可能です。現在までに4つのモデルがリリースされています。2つはテキストから動画へのモデルで、1つは140億パラメータで480pと720pの両方をサポートし、もう1つは13億パラメータの小さなバージョンで480pの動画を生成できます。この小さな13億パラメータモデルの良い点は、約8GBのVRAMしか必要としないため、ほとんどの一般的なGPUと互換性があることです。
また、2つの画像から動画へのモデルもリリースされています。これらは、開始フレームと終了フレームとして画像をアップロードできるモデルです。どちらも140億パラメータですが、1つは720pをサポートし、もう1つは480pをサポートしています。こちらはもちろんずっと速く実行できます。
さらに良いニュースがあります。コードでターミナルで作業する必要がないGradioデモ(グラフィカルインターフェース)をリリースしただけでなく、テキストから動画および画像から動画の両方のComfy UI統合もリリースしているので、簡単にComfy UIワークフローに統合できます。非常にエキサイティングです。説明欄のコメントで、Comfy UIでこれを動かす方法の完全なチュートリアルをして欲しいかどうか教えてください。十分な関心があれば、完全なビデオを作るかもしれません。
最良の点は、これがApache 2ライセンスの下にあるため、商用利用を含め、基本的に何でもできることです。このビデオモデルリーダーボードであるVbenchを見て、総合スコアでランク付けすると、One 2.1の最新バージョンが現在トップにあります。Sora、Luma Minx、Gen 3などのすべてのクローズドソースおよび商用モデルを上回っており、これは非常に印象的です。リンクはすべてここにあるので、このGitHubページへのリンクを説明欄に記載します。
次は、AIモデルをランク付けするための非常に便利な方法です。私のチャンネルをフォローしている方はご存知だと思いますが、AIモデルがどれだけ優れているかを確認するために、通常複数のリーダーボードとベンチマークを見ています。しかし、これらのベンチマークのほとんどは、実際に知りたいことに関連していません。例えば、コーディングや学習、または休暇の計画に最適なAIモデルを見つけたい場合はどうでしょうか?
ついに、特定のユースケースに合わせたリアルタイムリーダーボードである「Prompt to Leaderboard」という新しいプラットフォームができました。つまり、プロンプトを入力できます。例えば、「今から不適切になって」と入力して、エンターを押すと、そのプロンプトに合わせてすべてのAIモデルをランク付けするリーダーボードが表示されます。不適切なチャットを探している場合、MixolやDolphinなどのモデルが最適なようです。また、このカラムにライセンスも含まれているため、何ができるか、何ができないかがわかります。
別の例を見てみましょう。休暇の計画に最適なAIを見つけたい場合はどうでしょうか?「送信」をクリックすると、このプロンプトに基づいた新しいランキングが表示されます。ハワイへの5日間の旅行を計画するためのAIが必要な場合、O1 Miniが最適なモデルで、次にGemini 2.0 Flash Thinking Experimental、そしてGrok 3が続きます。または、この3D可視化のコードを提供してほしい場合はどうでしょうか?「送信」をクリックして、何が得られるか見てみましょう。すると、リーダーはO3 Mini High、次にGrok 3、そして01 Previewとなります。
なお、このリーダーボードにはまだClaude 3.7は含まれていませんが、追加されれば、このようなコーディングタスクではトップ3に入ると予想されます。このリーダーボードがいかに便利かわかると思います。完全に無料で使用できます。説明欄にリンクを記載します。「Prompt to Leaderboard」というものです。
こちらを気に入っていただけると思います。私はNVIDIAと提携して、RTX 4台ではなく、RTX 6000 Adaをプレゼントします。これには48GBのVRAMがあり、最高のAIモデルを簡単にローカルで実行できます。さらに、Jensen Huangの直筆サインが入っています。これは唯一無二のものであり、あなたのものになるかもしれません。3月17日から21日に開催される今年のGTCイベントのセッションに参加するだけです。このイベントはカリフォルニア州サンノゼで対面形式と仮想形式の両方で開催されます。AIからロボット工学、コンピューティングまで、幅広いトピックをカバーするグローバルカンファレンスです。業界のトップリーダーや専門家による多くの講演があるので、非常に価値のあるものになるでしょう。
無料で仮想参加に登録できます。3月18日のJensen Huangによる基調講演を強くお勧めします。AIエージェント、ロボット工学、コンピュータに関する多くの洞察を共有するでしょう。他にも個人的に興味を持っているセッションがいくつかあります。3月19日には人型ロボットに関する講演があり、非常にエキサイティングです。そして3月20日の量子コンピューティングに関する講演も非常に洞察に富むでしょう。Jensenは業界のリーダーたちとこの講演を主催し、量子コンピューティングの最新の概要を得ることができます。
さて、RTX 6000 Adaのプレゼントに戻りましょう。どのように応募できるのでしょうか?説明欄のリンクをクリックするだけで、応募方法のすべての指示が表示されます。
動画に戻りましょう。次は、おそらくこの動画で最も便利なAIです。「Theorem Explain Agent」と呼ばれ、数学や科学の複雑な概念を説明する動画を生成できます。アニメーションだけでなく、コンセプト全体を説明するボイスオーバーも生成します。いくつかの例を紹介します。
こちらは化学の例で、発音の仕方さえわからない方法を説明しています。「消化段階から始めましょう。均一な加熱と効率的な試薬の混合を促進するように設計されたフラスコに注目してください。試薬インジケーターは、有機物質を分解するために不可欠な酸と触媒を表しています。次に蒸留段階を観察してください。ここでは、丸底フラスコが曲がったチューブを介してコンデンサーに接続され、蒸気の流れを効率的に導きます。このメカニズムは窒素化合物を消化物から分離します。最後に滴定段階が表示されます。ここに描かれたビュレットは制御された方法で滴定液を放出します。窒素濃度を定量化するには、すべての滴が重要です」
この動画は5分以上の長さなので、最初の数秒だけ再生します。完全な動画を見たい場合は、説明欄にページへのリンクを記載します。こちらは物理学の例で、この動画も非常に長く、6分以上あります。ここでは最初の数秒だけをお見せします。
「シーン1:幾何学的ブラウン運動の紹介へようこそ。画面上部にタイトルが表示されていますが、この概念が金融や物理学の多くのモデルの中心にあることに注目してください。幾何学的ブラウン運動、つまりGBMは連続時間確率過程です。これは、予測可能なトレンドとランダムな変動の両方に影響される、時間の経過とともに連続的に進化するシステムを記述することを意味します。その主要なコンポーネントを分解してみましょう。画面右下に現れる株価チャートに注目してください。わずかなランダムな変動を持つこの線が、株価が取引日にどのように動くかを反映していることに注目してください。この視覚化は、抽象的な確率過程と具体的な市場行動を橋渡しします。シーン2:ブラウン運動の基礎へようこそ。この部分では、金融や物理学の多くのモデルの基礎となるランダムでありながら連続的な動きの核心的なアイデアを探ります」
こちらはコンピュータサイエンスの例で、勾配降下法について教えています。これはAIと機械学習において非常に重要な用語です。「勾配降下法の紹介へようこそ。これは機械学習における基本的な最適化アルゴリズムです。勾配降下法を理解するためには、このようなグラフを想像してください。x軸はパラメータを表し、y軸はそれらのパラメータに関連する損失を示しています。ここで損失関数を追加します。これは曲線で、パラメータの選択がどれだけ良いか悪いかを教えてくれます。私たちの目標は、この曲線の最も低い点に到達することです。そこでは損失が最小化されます。では、勾配降下法の動作を見てみましょう。私たちは高い損失値からスタートします。アルゴリズムは曲線の傾斜に従って小さなステップを踏み、徐々に下方に移動します」
このツールは、特に音声や視覚的な学習者にとって、数学や科学の複雑な概念を学ぶのに非常に役立ちます。これは絶対的なゲームチェンジャーです。
その仕組みはこうです。アーキテクチャは2つのエージェントで構成されています。まず、説明したい定理や概念を入力し、プランナーエージェントを通過させます。これは、スクリプト、絵コンテ、ビジュアルを含む動画の計画を作成します。次に、これはコードエージェントに渡され、動画を作成するためのコードを生成します。これはManumというツールを使用し、これらの視覚化の作成を支援します。素晴らしい点は、これが単なるエージェントフレームワークであり、任意のAIモデルを接続できることです。
彼らは実際に、GPT-4o、Claude 3.5、Gemini 2、O3 miniなど、様々なAIモデルをテストしました。完全な動画を生成する成功率の結果はこちらです。勝者はO3 miniで、90%以上の確率で完全な動画を生成できます。一方、他の非思考モデルのパフォーマンスはかなり悪く、ほとんどが50%未満の成功率です。
こちらは他の品質指標です。正確さと深さの点では、興味深いことにGemini 2.0 Flashが最高のパフォーマーでした。視覚的関連性ではClaude 3.5 Sonnetが最高でした。こちらは論理的流れの勝者、そしてこちらは視覚的一貫性の勝者です。興味深いことに、Claude 3.5 Sonnetは最も低い成功率でしたが、動画品質の点では最高の総合スコアを持っていました。
ページ上部にスクロールすると、トレーニングデータセットがすでにHugging Faceでリリースされているようです。このGitHubリポジトリをクリックすると、昨日追加されたばかりのようで、まだ構築中のように見えます。ここには「このリポジトリには論文のコードベースが含まれます」と書かれています。MITライセンスの下でオープンソース化する予定のようです。これが実現すれば、特に音声および視覚的な学習者にとって、これらの難しい数学と科学の概念を学ぶための革命的なツールになると思います。このメインページへのリンクを説明欄に記載します。
次に、ロボティクス企業のUniTreeが今週リリースした新しいデモをご紹介します。これは本当に驚くべきものです。彼らはG1人型ロボットにカンフーを教え込んだようです。私自身、回転キックさえできませんが、このロボットは驚くべき動きを見せています。これは偽物やCGIだと思う人もいるかもしれませんが、この動画からそのような兆候は見られません。完全に本物に見えます。
UniTreeは非常に多目的で運動能力の高いロボットを製作してきた実績があります。例えば、先週彼らは同じG1ロボットが超リアルで自然に踊る動画を公開しました。これも完全に本物に見えます。その真正性を証明するために背景に鏡も追加されています。さらに、このG1ロボットはこのように超高速で走ることもできます。このロボットが殺すようプログラムされ、あなたを追いかけてくるところを想像してみてください。今週、彼らはこのロボットにカンフーと驚くべき回転キックができるように訓練しました。来週は何ができるようになるのでしょうか?
次に、HilowがImage to Video Directorモデルをリリースしました。以前の動画でこのディレクターモード機能について触れましたが、これはシーンのカメラの動きをコントロールできるものです。シーンがどのように動くかを究極的にコントロールしたい場合に非常に便利です。しかし、以前はテキストから動画への変換のみでしたので理想的ではありません。特定のキャラクターや特定のアイテムの動画を生成したい場合、画像から動画へのこのディレクター機能があれば素晴らしいと思いませんか?それがまさに今週リリースされたものです。
早速試してみましょう。Hilowに無料でログインまたはサインアップし、「画像から動画へ」をクリックし、画像をここにドラッグ&ドロップします。AIで生成したこの画像をドロップして、特に何かをしてほしい場合を除いて、プロンプトを指定する必要はありません。空白のままにしておきますが、このカメラアイコンをクリックしてカメラの動きを選択します。
選択できるカメラの動きはたくさんあります。この上向きのチルトを選んでみましょう。これを選択すると、プロンプトに「push in and pedestal up」というキーワードが追加されることに注意してください。つまり、シーンは「押し込み」そして「上方傾斜」になります。「生成」をクリックして、何が得られるか見てみましょう。
これが生成結果です。確かに、ここに見られるように、押し込みそして上方傾斜しています。非常に素晴らしいです。別の例を試してみましょう。ホンダシビックのカーコマーシャルを作成する必要があるとします。既存のホンダシビックの写真を単にアップロードし、再びこのカメラアイコンを選択し、今回は右回りのサーキュリングを選びましょう。これはこのように見えます。これを選択すると、プロンプトに「truck right pan left tracking shot」というキーワードが追加されます。「生成」をクリックして、何が得られるか見てみましょう。
これが生成結果です。写真から動画を生成できるだけでなく、シーン内でのカメラの動きも指定できるようになりました。確かに右に回っています。もう一つ例を試してみましょう。別のホンダシビックの画像をアップロードし、再度このカメラアイコンをクリックし、再び右回りのサーキュリングを選びます。これが道路に沿って走る間、カメラが右に周回するようにしたいと思います。右回りのサーキュリングを選択すると、これらのキーワードがプロンプトに挿入されます。それだけです。シーンの見た目を説明するためにプロンプトに追加することもできますが、このままで何が得られるか見てみましょう。「生成」をクリックします。
これが生成結果です。非常に素晴らしいです。確かに車が道路に沿って走る間、右に周回しています。これを使えば、誰でも簡単に製品コマーシャルを作成できることがわかります。説明欄にHilowへのリンクを記載します。参加すると、開始するために多くの無料クレジットが得られ、さらに毎日無料クレジットが付与され、毎日いくつかの動画を無料で生成できます。
次に紹介するのは、SinCDという新しいAIです。これは基本的に、画像に挿入したいオブジェクトやキャラクターの参照画像をアップロードし、作成したいものを説明するプロンプトを使用すると、このオブジェクトやキャラクターを画像に追加してくれます。すべてが参照画像と非常に一貫して見えます。
いくつか例を紹介します。このアニメフィギュアの3つの参照画像をアップロードし、「タイムズスクエアにあるアクションフィギュア」とプロンプトすると、これが得られます。ローブ、髪、顔の見た目など、フィギュアの元のポーズとデザインが保持されていることに注目してください。または「オートバイに乗るアクションフィギュア」とプロンプトすると、このキャラクターの全体的な外観とデザインを保持することができます。
別の例を見てみましょう。このアヒルの参照画像をアップロードします。これが異なる角度と異なる照明条件にあっても問題ありません。「木と秋の葉を背景にしたおもちゃ」とプロンプトすると、これが得られます。または「森の中の紫色の敷物の上にあるおもちゃ」と書くこともでき、これが結果です。
このブーツの3つの参照画像をアップロードし、「都市を背景にしたブーツ」とプロンプトすると、実際に都市を背景にした同じブーツを生成できます。これはアップロードされたブーツとまったく同じに見えます。または「青い家を背景にしたブーツ」もあります。このツールが製品写真に非常に役立つことがわかります。様々な製品を撮影するために写真家を雇い、すべてをセットアップする必要はもうありません。製品の参照画像をこのAIに入力するだけです。
もう1つの例を見てみましょう。これら3つの参照画像をプラグインし、「ビーチにあるおもちゃ」と書くと、確かに同じおもちゃがビーチにある状態で生成されます。デザインが参照画像とまったく同じであることに注意してください。または「雪の中のおもちゃ」とプロンプトすると、これが結果です。これは非常に正確で高精細です。また、複数の参照画像をアップロードする必要はなく、より正確な結果を得られますが、1つの参照画像だけでも十分です。
このSinCD法(左の列)は、他の代替手段と比較してはるかに正確であることに注意してください。嬉しいことに、ページの上部にスクロールすると、Hugging Faceデモとコードを含むGitHubリポジトリがあります。まずHugging Faceデモを試してみましょう。使い方は非常に簡単です。ここにプロンプトを入力し、ここにオブジェクトの1つまたは複数の参照画像をアップロードできます。
例えば、このアニメフィギュアの3つの画像をアップロードし、「山の上にあるアクションフィギュア、背景に夕日、リアルなショット」と書いてみましょう。ここにはいくつかの設定があります。FluxやStable Diffusionを使用したことがあれば馴染みがあるかもしれません。ガイダンススケールは基本的に、生成がプロンプトにどれだけ従うかを意味します。これを右にドラッグすると、プロンプトにより文字通りに従い、左にドラッグするとより創造的になります。推論ステップは、画像を出力する前にこれを実行するステップ数です。一般的に、ステップ数が多いほど画像の品質は高くなりますが、ある時点で収穫逓減が始まるため、デフォルトの30ステップのままにしておくのが最適です。
実際に得られるのは、同じデザインとポーズのフィギュアですが、今度は夕日を背景に山の上にあります。別の例として、ペンギンのぬいぐるみの3つの画像をアップロードし、「ペンギンのぬいぐるみがピンクのサングラスをかけ、ビーチでくつろいでいる、リアルなショット」と書くと、ビーチにあり、ピンクのサングラスをかけた状態が得られます。
メインページに戻ると、GitHubリポジトリもリリースされており、スクロールするとコンピュータでローカルにダウンロードして実行する方法についてのすべての指示が含まれています。リンクはすべてここにあり、技術論文や他の例も含まれているので、このページへのリンクを説明欄に記載します。
次に紹介するのは本当にクールなAIで、DECEPTIONと呼ばれます。これは基本的に画像を取り込み、様々な認識タスクを実行できます。例えば、画像の深度を推定できます。これらの画像をプラグインすると、非常に正確に深度マップを生成できます。また、法線推定も行うことができます。これは基本的に画像内の表面の向きを推定するものです。これらのシーンのほとんどは非常に複雑で、例えばこれらの画像には多くのアイテムがありますが、すべてのオブジェクトの法線または表面の向きを非常に正確に推定できます。
また、エンティティセグメンテーションと呼ばれるものも行うことができます。これは基本的に画像内の異なるオブジェクトを識別して分離するものです。例えば、卵のバスケットがある場合、各卵とバスケットを非常に正確にセグメント化できます。さらに難しいシーンとして、シーン内にたくさんのバゲットとペストリーがあり、かなり混乱していますが、すべてを非常にうまくセグメント化できます。時計のシーンや複数の人物のシーンも同様で、背景にいる人々も含め、かなり暗くて見にくい人でもすべての人をうまくセグメント化できます。
セグメンテーションと言えば、セマンティックセグメンテーションも行うことができます。これは分離したいオブジェクトを指定するものです。例えば、「ワイングラス」と言うと、この画像内のワイングラスだけをセグメント化します。または「バナナ」とプロンプトすると、この画像内のバナナだけをセグメント化します。印象的な例として、「人」とプロンプトすると、背景にいるこの人を含むシーン内の人だけをセグメント化しますが、この人の手にあるカメラ、サーフボード、そしてこの人と子供が持っているオブジェクトなど、他のすべてのオブジェクトは省略します。セグメンテーションに非常に正確で強力なツールです。
別の難しい例として、「オレンジ」とプロンプトすると、ここにあるオレンジとこちらにあるオレンジをセグメント化することを知っていますが、この画像内のリンゴや他の果物は無視することを知っています。最後に、画像内のすべての人のポーズを推定することもできます。ここにいくつかの例があります。この場合のように様々なポーズでシーン内に多くの人がいても、これを非常にうまく処理できます。このスノーボーダーのシーンも同様で、そのポーズを非常に正確に推定できます。この人が背景でやや遮られていても、これらのキャラクターすべてのポーズを非常にうまく推定できます。
ちなみに、セグメンテーションにこれを使用する場合、髪や毛皮などの詳細を保持するのも非常に優れています。以前Photoshopを使っていた方なら、このようなものをセグメント化するのがいかに面倒だったかご存知でしょう。しかし、この新しいAIはそれを簡単にします。さらに、画像を明るくしたり、医療画像をセグメント化したりするなど、他のタスクを行うようにこのモデルを微調整することもできます。素晴らしいことに、約50枚の写真の小さなデータセットしか必要としません。これだけで、モデルが教えているタスクをどのように実行するかを学習するのに十分です。
ページの上部にスクロールすると、Hugging Faceデモがあるので、これを試してみましょう。上部で実行したいタスクを選択できます。まず深度を試してみましょう。このホンダシビックの画像をアップロードし、「実行」を押します。このHugging Faceスペースは完全に無料で使用でき、かなり高速です。完璧なので、これが深度マップです。
次に、セマンティックセグメンテーションも試してみましょう。ここではセグメント化したいものを説明する必要があります。すべてをセグメント化したいわけではないので、ここに「車」と入力して「実行」をクリックします。これが結果です。この画像内の車だけを正確にセグメント化していることに注意してください。
これをチェック解除して、ポイントセグメンテーションと呼ばれる別のクールな例を見てみましょう。これは基本的に、画像内に配置したポイントに基づいてオブジェクトをセグメント化するものです。例えば、この画像をアップロードして、画像内のウィル・スミスだけをセグメント化したいとします。ポイントセグメンテーションをチェックしたので、セグメント化したいものを示すために、この画像に最大5ポイントを追加できます。ここをクリックして、こことここもクリックしましょう。最大5ポイントなので、これで十分だと思います。このようにして「実行」をクリックし、何が得られるか見てみましょう。
完璧です。ご覧のとおり、ウィル・スミスだけを正しくセグメント化しています。これはポイントセグメンテーションを使用する別の便利な機能です。分離したい画像の部分をクリックすると、魔法のようにそれを行ってくれます。リンクはすべてここにあるので、このページへのリンクを説明欄に記載します。
次に紹介するAIは本当にクールです。Mobiusと呼ばれ、テキスト説明だけからシームレスに永遠にループする動画を生成できます。シーンを説明するだけで、Mobiusはこれを連続ループで作成します。いくつか例を紹介します。
ここでは「葉っぱを噛んでいるコアラ」とプロンプトしています。右上隅にフレーム数があります。これが50まで行き、その後1に戻ることに注目してください。これは最初から再びループしていることを意味しますが、クリップの最後から最初への移行を見分けることができないことに注目してください。これは非常にシームレスで、このフレーム数なしにこの動画を再生し続けると、これがループしていることがほとんどわからないでしょう。これは無限にループする動画を作成するための非常に素晴らしい方法です。
別の例として、フルーツをスムージーにブレンドするブレンダーの動画を示しています。ここでもフレーム数は左上隅にあります。これが50に達し、1に戻るときの移行が完全にシームレスであることに注意してください。これがループしていることはほとんどわからないでしょう。
こちらは興味深い例です。ビーチを走る女性の映像です。ループする動画を作成できるか見てみましょう。はい、できます。非常に印象的です。もう1つの難しい例です。スキーをする男性の映像です。シームレスなループ動画を作成できるか見てみましょう。ここでも移行は絶対にシームレスです。非常に印象的です。
素晴らしいことに、各ループの長さも指定できます。例えば、左は50フレームのループです。つまり、繰り返す前に50フレームあります。中央では、動画が繰り返される前に100フレームになり、最後の動画では、ループする前に150フレームになります。これにより大きな柔軟性が得られます。
別の例として、花火を示しています。ここでも左側では1ループが50フレーム、中央では1ループが100フレーム、右側では1ループが150フレームです。花火のような複雑なものでも、移行、つまりループが絶対にシームレスであることに注意してください。少なくとも私にとっては、この動画が実際に最初からループするタイミングをほとんど見分けることができません。このページにはさらに多くの例がありますので、説明欄にこのメインページへのリンクを記載します。
次に、私のお気に入りの画像ジェネレーターの1つであるIdeogramが新しいモデルをリリースしました。Ideogram 2Aと呼ばれ、これはより高速で手頃な価格ですが、同様に強力です。テキストと写真のようなリアルな画像を使ったプレミアムデザインを数秒で生成でき、使用するクレジットも少なくて済みます。
早速試してみましょう。Ideogramに無料でログインまたはサインアップし、「”AI Search”と書かれた看板を持つテイラー・スウィフト」とプロンプトします。サインアップすると、10クレジットで開始でき、毎週更新されるので、無料プランでも画像を生成できます。ここで、2.0を使用すると1クレジットかかりますが、2Aを使用すると0.5クレジットしかかからないことに注意してください。つまり、2倍の数の画像を生成できます。リアルなスタイルを選び、アスペクト比は1:1とし、「生成」をクリックします。
これが結果です。最初の生成では、ここに「I」が抜けています。2番目の生成は正確にテイラー・スウィフトのように見え、テキストも正確です。3番目の生成も超リアルで、確かにテイラー・スウィフトのように見え、テキストも正確です。そして最後の生成はこちらです。非常に強力な画像ジェネレーターなので、説明欄にIdeogramへのリンクを記載します。
また今週、OpenAIが待望のモデルGPT-4.5をリリースしました。これは価格の面で他のすべてを圧倒しています。ここで見られるように、100万トークンあたりのコストはO3 miniやDeep Seekなどの他のモデルよりもはるかに高く、月額200ドルのProプランでのみ利用可能です。価格は非常に衝撃的ですが、その知性はややものたりません。彼らは4.5が日常的な質問、専門的な質問、創造的な知性の面で前身のGPT-4oよりも優れていると主張していますが、ここになぜClaude 3.7やGrok 3、DeepSeek R1などの他のモデルを含めなかったのか疑問に思います。
彼らはまた、4.5がより高いEQ(感情知能)を持っていると主張していますが、これは主観的かもしれません。それでも、例を示します。「テストに失敗した後、つらい時期を過ごしています」と4.5にプロンプトすると、次のような回答が得られます:「テストに失敗することはかなりつらく、落胆することがあると思いますが、それはただの一瞬であり、あなた自身や能力を反映するものではないことを覚えておいてください。何が起こったのか話したいですか、それとも気を紛らわせる必要がありますか?どちらにしても、ここにいます」。そしてこちらがGPT-4oの回答です:「つらい時期を過ごしていると聞いて本当に申し訳ありません。考慮すべきことがいくつかあります」そして、これらのすべてのステップを提供しています。前述したように、EQは非常に主観的ですが、コメント欄でどちらの回答を好むか教えてください。
さらに、彼らはいくつかのパフォーマンス指標をリリースしましたが、GPT-4oやO3 Mini Highなど、自社のモデルとしか比較していません。また、GPT-4.5は、大学院レベルの科学の質問やAIMベンチマークの点でO3 Mini Highを上回ることさえできなかったことに注意してください。大きな違いがあり、O3 Miniは87%を獲得したのに対し、4.5はわずか36%でした。SWE Benchも同様で、これはコーディングのベンチマークですが、ここでもO3 Miniは61%を獲得したのに対し、4.5はわずか38%でした。
この表では、彼らは4.5をOpenAI自身のモデルとしか比較していないので、代わりに他の競合モデルとの比較を見るためにいくつかの他のリーダーボードを見てみましょう。Abacus AIによるLive Benchと呼ばれるこのリーダーボードを見ると、4.5はDeepSeek R1、Grok 3 Thinking、Claude 3.5 Sonnet Thinkingの後ろ、7位にあることに注意してください。ただし、GoogleのGeminiモデルや、通常の非思考版のClaude 3.7は上回っています。
Artificial Analysisと呼ばれる別の独立した評価者によるグラフがあります。こちらがGPT-4.5です。これは推論、知識、数学、コーディングにまたがる7つの評価を組み込んだ知性指数です。GPT-4.5はGrok 3やDeepSeek R1の後ろ、7位にあることに注意してください。つまり、最も賢いわけではないが、最も高価であることを考えると、それほど印象的なモデルではありません。
これで今週のAIのハイライトをすべて紹介し終わりました。コメント欄でどのニュースがお気に入りか、どのツールを試すのが最も楽しみかを教えてください。いつものように、共有するためのトップAIニュースとツールを探し続けます。この動画を楽しんでいただけたなら、いいね、シェア、登録をお忘れなく、そして今後のコンテンツもお楽しみに。また、AIの世界では毎週あまりにも多くのことが起こっているため、YouTube チャンネルですべてをカバーすることはできません。AIで起こっているすべてを最新に保つには、無料の週刊ニュースレターに登録してください。そのリンクは説明欄にあります。ご視聴ありがとうございました、次回でお会いしましょう。

コメント

タイトルとURLをコピーしました