
18,040 文字

AIは眠りません。そして今週は本当に驚きの連続でした。
新しい超リアルなディープフェイクのリップシンクツールが登場しました。
この新しい画像エディタは、GeminiやGPT-4oよりも優れています。
新しいオープンソースのディープリサーチツールもあります。
AlibabaがQuen 3をリリースし、これは現在利用可能な最高のオープンソースモデルです。
このAIはビデオ内の物をセグメント化するのが非常に得意で、スマートフォンだけでも実行できます。
新しいビデオ用衣服交換ツールなど、他にもたくさんあります。
それでは早速見ていきましょう。
まず、Edgetamという非常に便利なAIがあります。
これはビデオ内の任意のオブジェクトを見つけて追跡できます。
しかし、何よりも素晴らしいのは、これが非常に小さく、携帯電話や他の消費者向けデバイスで直接実行できることです。
だから、本当に使いやすいのです。
まずビデオをアップロードし、最初のフレームで追跡したいオブジェクトをクリックします。
フレーム上に複数の点を追加して、追跡したいすべてのオブジェクトを選択するようにできます。
モデルはオブジェクトのマスクまたは輪郭を提供し、その後ビデオ全体を通じてこのオブジェクトを追跡し続けます。
ここに別の例があります。前景のダンサーを選択できます。
ユーザーが頭と胴体だけでなく、彼のズボンも選択するために複数の点を追加していることに注目してください。
その後、彼がビデオで非常に複雑なダンスの動きをしているにもかかわらず、ビデオ全体を通してダンサーをセグメント化できていることがわかります。
そして、ここに別の例がありますが、今回は前の男性ではなく、右側の男性を選択しています。
そして、再び、これを非常に正確にセグメント化できています。
これはSAM 2と呼ばれる別のセグメンテーションツールに基づいていますが、さらに調整されており、SAM 2よりも22倍高速に実行され、量子化なしでiPhone 15 Pro Maxで毎秒16フレームを達成します。
これは非常に効率的であり、ラップトップや携帯電話、その他の消費者向けデバイスで実行できる可能性があります。
さて、Edgetamのパフォーマンスを他の同様のセグメンテーションツールと比較すると、これらすべての異なるベンチマークにおいて、Edgetamが最高ではないことに注意してください。
SAM 2とSAM 2.1は、ビデオセグメンテーションの精度において依然として最高の精度を達成しています。
それは、Edgamの場合、研究者たちがこれをより効率的にするために凝縮したからです。彼らは品質だけでなく、効率も追求しています。
実際、最後の列を見ると、これはiPhoneで実行した場合の毎秒フレーム数だと思います。他のすべてのビデオセグメンテーションモデルでは、iPhoneでは実行できないことに注意してください。
そしてSAM 2の場合、毎秒0.7フレームしか出力されず、これはもちろん使用できません。
しかしEdge Camの場合、iPhoneだけで毎秒16フレームを出力できます。これは本当に印象的です。
実際、これはモバイルデバイスで効果的にビデオセグメンテーションを実行できる最初のAIモデルかもしれません。
素晴らしいことに、彼らはすでにGitHubリポジトリをリリースしており、これをローカルでダウンロードして使用する方法に関するすべての指示が含まれています。
詳細については、下の説明にこのページへのリンクを貼っておきます。
次に、このAIも非常に強力です。ICEeditと呼ばれ、インコンテキスト編集の略です。
これは基本的に自然言語を使用して画像を編集できます。
たとえば、これが元の画像で、「紅茶のカップを持って、目を閉じて」とプロンプトすると、実際に彼女の目を閉じさせ、紅茶のカップを持たせます。
あるいは、ここで見られるように、ダイヤモンドのイヤリングと金のルビーの王冠を彼女に着けさせることもできます。
または、彼女の髪をダークグリーンにし、服をチェック柄にすることもできます。これはチェッカー柄であるべきだと思いますが、いずれにせよ、リクエストを理解しています。
または、彼女を空にカラフルな雲があるビーチに連れて行くこともできます。
あるいは、これを水彩画に変えることもできます。
ここにさらに編集できる別の例があります。これが元の画像です。
最初に「背景をハワイに変更」とプロンプトすると、そうなります。
次に、彼の服装をアロハシャツ、ハワイアンショーツ、サーフボードに乗るように変更すると、実際にそうなります。
そして次のステップで、少年をスポンジボブに置き換え、コミックブックの写真にすると、このような結果になります。
そして最後に、このように下に「Aloha Hawaii」というテキストを追加することもできます。
他にもいくつか例があります。これが入力画像だとしましょう。
シーンを夕方に設定し、火が燃えているようにすることができます。
そして、これが得られる結果です。
または、元の写真のこの建物をエッフェル塔に置き換えることもできます。
または、元の画像から紫色の花びらを取り除くこともできます。最終的に、これが結果です。
他の例をいくつか紹介します。元の画像に、ここに透かしがあるとします。
透かしを削除するように指示するだけで済みます。
あるいは、これが元の写真です。犬を削除するようにプロンプトすると、かなりうまくやってくれます。ただし、ここに彼のひげの痕跡がいくつか残っています。
そして、これが入力写真の場合、これを鉛筆スケッチに変えるようにプロンプトできます。
または、何でも水彩画やアニメイラストに変えることもできます。
表情を変えることもできます。ここで、「男性を笑顔にする」とプロンプトすると、コービーが笑顔になります。
あるいは、ここに別のクールなものがあります。これが入力写真で、「消火栓から水を噴き出させる」とプロンプトすると、実際にこれを非常にリアルに生成します。
別の例です。これが入力写真の場合、このように雪を降らせることができます。
あるいは、さらに驚くべきものがあります。これが入力写真です。
テーブルをこのようにプラスチックに変えることができます。そして、テーブル上の他のオブジェクトを一貫して保ちながら、実際にこれをやってのけます。
驚くべきことに、これは画像編集に関してGeminiやGPT-4oさえも上回っているようです。
そして、これら2つはすでに最高のセマンティック画像エディタです。
いくつか例を示します。これが入力画像で、女性にピンクのサングラスを追加すると、これがGeminiの結果で、かなり良いです。そして、これがGPT-4oです。
彼女の顔が完全に変わってしまっていることに注意してください。これは失敗です。
そして、これがICEditで、かなり良く見えると言わざるを得ません。これには欠点を見つけるのが難しいです。
そしてここで、この女の子を水彩画に変えると、Geminiと4oの両方で、これを本当に水彩画に変えていないことに注意してください。
一方、ICEditはこれをはるかに良く生成します。
この人の頭に金の王冠を置きたい場合、Geminiはなんとかそれを実行できましたが、王冠は彼女の頭には大きすぎます。
そしてGPTは、おそらく何らかの安全ガイドラインのためにこれを生成することさえできません。
そして、これがICEditの結果です。
そして最後に、ここでこの女性に赤いローブと黒いジーンズを着せたい場合、Geminiの場合、赤いローブを着せることはできましたが、どういうわけか背景も変えてしまったことに注意してください。
そしてGPTの場合、悪くはありませんが、この女性の顔をわずかに変えています。
そして最後に、これがICEditです。正しく赤いローブを着せるだけでなく、この女性の顔とポーズも一貫して保っています。
これは非常に印象的です。
さて、ページの一番上にスクロールすると、これをオンラインで試すための無料のHugging Face Spaceがリリースされています。
これをクリックしてみましょう。使い方は非常に簡単です。
ここに画像をアップロードし、ここに編集したい内容を説明するプロンプトを入力します。
たとえば、ザッカーバーグのこの写真をアップロードしましょう。
そして、「彼は赤いビキニを着ています」と書きましょう。
実行をクリックして、何が得られるか見てみましょう。
わかりました。それほど悪くはありません。
さて、私がこの画像を特に選んだのは、かなりトリッキーだからです。手と指、そして背景にあるこのFacebookのロゴが含まれていますが、ご覧のとおり、これらの詳細をすべて保持し、彼の服装だけを赤いビキニに編集することができました。
別の例を試してみましょう。車のこの写真をアップロードします。
そして、2つのことを変更しましょう。「車を青くして、木を桜の花にする」と書きます。
それができるか見てみましょう。
これが非常に速いことに注意してください。画像の編集には約10秒しかかかりません。
そして、できました。実際に車を青くし、木を桜に変えました。
なんてクールなんでしょうか。
さて、最後のテストです。女性のこの写真をアップロードします。
そして、これを試してみましょう。「舌を出して、目を閉じて」。
これができるか見てみましょう。
そして、これが得られた結果です。さて、これは元の人物とはあまり似ていないと主張する人もいるかもしれませんが、わかりません。
彼女が目を閉じて舌を出すと、このように見えるのかもしれません。誰にもわかりません。
Hugging Face Spaceに加えて、GitHubリポジトリもリリースしており、下にスクロールすると、これをローカルコンピュータでダウンロードして実行する方法に関するすべての指示が含まれています。
さらに、素晴らしいことに、Gradioデモがあるだけでなく、別のユーザーがすでにこれをComfy UIに統合しています。
いずれにせよ、すべてのリンクはここにありますので、詳細については下の説明にこのメインページへのリンクを貼っておきます。
驚くべきことに、今週登場したセマンティック画像エディタはこれだけではありません。
同じ週に、自然言語を使用して画像を編集する、別のオープンソースで無修正のAIが登場しました。Hydream E1と呼ばれています。
名前が示すように、これはVivigo AIによるHydreamと呼ばれる画像モデルに基づいています。
ちなみに、Hydreamは現在利用可能な最高のオープンソース画像ジェネレータです。Hydreamについてもっと知りたい場合は、まだ見ていない場合はぜひこのビデオをチェックしてください。
いずれにせよ、Hydream E1に戻ります。
これは、プロンプトだけで画像を編集できるようにすることで、Hydreamベースモデルの上に構築されています。
いくつか例を示します。これが元の画像だとしましょう。
髪を赤に変えるようにプロンプトすると、こうなります。
または、彼女をジブリスタイルに変換して、こうなります。
サングラスを追加したり、この写真をスケッチやディズニーピクサースタイルに変えることもできます。
別の例です。元の画像がこのリンゴの場合、このようにオレンジに置き換えることができます。
木製のテーブルを大理石に変えることもできます。
プロンプトを理解し、画像内のどのオブジェクトを変更するかを知るのが非常に得意です。
他にもいくつか例があります。これが入力画像で、ケーキに「レベル30アンロック」と書くように指示すると、実際にテキストを新しいテキストに置き換えます。
または、これがソース画像で、紅葉を追加するようにプロンプトすると、実際にそうなります。
または、これがソース画像の場合、スタイルをこのようにキュビスム絵画に変更できます。
さて、これをOmniGenやMagic Brush、Geminiなどの他のAI画像エディタと比較すると、平均してHydream E1は他の画像エディタを明らかに上回っています。
素晴らしいことに、彼らはすでにすべてをリリースしています。
このGitHubリポジトリには、これをローカルコンピュータでダウンロードして実行する方法に関するすべての指示が含まれています。
さらに、モデルへのリンクはすでにHuggingFaceにあります。興味があれば、詳細については下の説明にこのGitHubリポジトリへのリンクを貼っておきます。
また、下のコメントで教えてください。Hydream E1またはおそらくICEditの完全なインストールチュートリアルをしてほしいですか?十分な関心があれば、行うかもしれません。
次に、このAIも非常に興味深いです。Fantasy Talkingと呼ばれ、人物の単一の画像とオーディオクリップを取り込み、その人物がオーディオを話しているリアルな写真を生成できます。
これは、任意の人物やキャラクターのディープフェイクビデオを作成するのに最適です。
いくつか例を示します。「そんな風に怖がらせないでよ。私の誕生日パーティーは10日後で、過去のみんながそこに来るんだから。」
それが1つの例です。別の例です。「迷子になったときに人生をリセットする方法。親愛なる友人たち、この長い旅路で皆さんに良い一日を。」
これは単なるリップシンクではなく、写真全体をアニメーション化することに注意してください。
彼女の頭全体と体を動かします。傘を動かします。さらに、背景の雨さえもアニメーション化します。
これは、数か月前に見た他のアバターやリップシンクツールよりもはるかに自然です。
別の例です。「ああ、ようこそ。ようこそ。ちょうどいいところに来たね。私の世界的に有名なものを新鮮に作ったところだよ。」
再び、手や指を含む彼の体全体もアニメーション化することに注意してください。
これにより、シーン全体が非常に自然でリアルになります。
そして、はい、彼は各手に5本の指があり、それらはリアルに見えます。
「これを見ているなら、今日は立ち上がってそれを追いかけるためのリマインダーです。」
再び、口を動かすだけでなく、手のジェスチャーを含む体全体をアニメーション化することに注目してください。
さらに、背景の人々や群衆もアニメーション化します。
さて、明らかにオーディオは非常にロボット的でAIっぽいですが、よりリアルなオーディオを使用した場合、これがAI生成であることを見抜くのは本当に難しいでしょう。
「速報、AIは非常に強力になり、写真をビデオに変えることができるようになりました。」
彼が話すにつれて、彼が言うことに合わせて顔の表情もいくらか変化することに注意してください。
これは非常にリアルなディープフェイクリップシンクツールです。
そして、これはリアルな写真だけでなく、このような3Dピクサー風のキャラクターもアニメーション化できます。「おいおい、君に話があるんだ。」
そして、動物もアニメーション化できます。「キャラクターの品質を上げています。」
さて、これを以前私のチャンネルで取り上げた、Bite Danceによる主要なディープフェイクリップシンクツールであるOmnihumanと比較すると、ちなみにOmnihumanは本当に良いです。完全なレビューとテストについては、まだ見ていない場合はぜひこのビデオをチェックしてください。
いずれにせよ、Fantasy Talkingに戻ります。Omnihumanほど良くはないと思いますが、これは無料でオープンソースです。一方、Omnihumanは、少なくとも今のところ、彼らのオンラインプラットフォームでのみ利用可能です。
いずれにせよ、いくつか例を見てみましょう。「そんな風に怖がらせないでよ。私の誕生日パーティーは10日後で、過去のみんながそこに来るんだから。」
ご覧のとおり、リップシンクに関しては、Omnihumanの方がオーディオに合わせてより正確な口の動きをしています。
別の例です。「彼はここに、島に、私たちと一緒にいるべきだ。大司教区によって牧草地に追いやられた家ではない。」
「空が金色に輝く野原に触れる静かな村で、若いミアは忘れられた宝物へと続く地図を発見しました。」
再び、ここで見られるように、OmnihumanはFantasy Talkingよりもリップシンクを少しうまくやっています。Fantasy Talkingは少し硬直しています。
しかし、それでも、両方のツールは人物全体と背景をアニメーション化することができ、1枚の画像から非常にリアルで自然に見えるビデオを作成できます。
最後に注意すべき点は、Fantasy TalkingはAlibabaによるものであるということです。
したがって、驚くことではありませんが、これは現在利用可能な最高のオープンソースビデオジェネレータであるAlibabaのWand 2.1に基づいています。
素晴らしいことに、彼らはすでにすべてをリリースしています。
ページの一番上にスクロールすると、GitHubリポジトリがリリースされており、これをコンピュータでダウンロードして実行する方法に関するすべての指示が含まれています。
さらに、これはすでにComfy UIに統合されています。したがって、すでにcomiでWandを使用している場合は、この新機能も簡単に追加できます。
いずれにせよ、詳細については下の説明にこのメインページへのリンクを貼っておきます。
AIツールといえば、このビデオのスポンサーであるGammaをチェックする必要があります。
Gammaは、AIを使用してプレゼンテーション、ウェブサイト、ソーシャルを作成する最も簡単な方法です。
あなたがマーケター、代理店、教育者、コンサルタント、または基本的に多くのコンテンツを作成する必要がある人であれば、Gammaはあなたのためのオールインワンコンテンツ作成プラットフォームです。
美しいプレゼンテーション、ウェブサイト、ソーシャルメディアカルーセル、ドキュメントなどを簡単に作成できます。
デザインスキルがなくても、たとえば、簡単なプロンプトだけで、AIコンサルティング会社の美しいセールスデッキをわずか数分で作成できます。
これをGoogleスライドやPowerPointにエクスポートしたり、このリンクを共有したり、Gamma内で直接プレゼンテーションしたりすることもできます。
別の例として、AIコンサルティング会社の完全なホームページを作成します。
独自のブランディングやテーマを簡単にインポートできます。
非常に高速で使いやすいです。ユーザー数は5000万人を超えました。
さらに、ユーザーエクスペリエンスとAIパフォーマンスをさらに向上させるためにサイトを刷新しました。
gamma.appにアクセスして、今すぐ無料でGammaをお試しください。リンクは下の説明にあります。
また、今週、AlibabaはQuen 3をリリースしました。
これは、完全にオープンソースのハイブリッド推論モデルのファミリーです。
驚くべきことに、特に数学、コーディング、推論タスクにおいて、OpenAI、Google、Deepseekの主要なモデルに匹敵するか、それを上回っています。
たとえば、ここでlive codebenchを見ると、Quen 3の最大バージョンは70.7を記録し、これはOpenAIのo1、o3 mini、Grok 3、Gemini 2.5 Proさえも上回っています。
Codeforcesでも同様で、206を獲得し、他の主要なAIモデルよりも優れています。
そして、関数呼び出しとツール使用に関するテストであるこのBFCLベンチマークでも同様で、再びQuen 3はこれらのモデルの中で最高のスコアを獲得しました。
さて、このファミリーは、0.6億パラメータから2350億パラメータのエキスパート混合アーキテクチャまで、さまざまなサイズの多数のモデルで構成されています。
もちろん、他の条件が同じであれば、パラメータが多いほど、モデルはよりインテリジェントで高性能になります。
そして、この最後のものが、世に出ている主要なAIモデルと同等のものです。
しかし、これらのより小さなモデルでさえ非常に役立ちます。50億パラメータ未満であれば、スマートフォンやラップトップなどの日常的なデバイスで実行できます。
したがって、潜在的にGPTレベルのチャットボットを携帯電話やラップトップ内に搭載し、ローカルで無料かつオフラインで使用できます。
そして、これがApache 2ライセンスの下にあることに注意してください。これは非常に最小限の制限しかありません。
商用目的でも使用できます。
このQuen 3ファミリーは、問題解決へのハイブリッドアプローチを導入しています。
したがって、ChatGPTでこの推論機能をオン/オフできるのと同様に、2つのモードをサポートしています。
これは、Geminiの思考モードのオン/オフの切り替えや、Grok 3の思考機能、DeepSeekのディープシンク機能と同じです。
いずれにせよ、この思考モードをオンにすると、最終的な答えを提供する前に、基本的に段階的に推論する時間をかけます。
そして、これはもちろん、より深い思考を必要とする複雑な問題を解決するのに理想的です。
そして、思考しないモデルもあり、これはほぼ瞬時に答えを吐き出します。
これは、それほど多くの思考を必要としない単純な質問に適しています。
Quen 3に関するもう一つの素晴らしい点は、119の言語と方言をサポートしていることです。
これがサポートしているすべての言語と方言です。したがって、これは多言語タスクに非常に適しています。
さて、いくつかの独立したリーダーボードを見ると、ここにartificial analysisによるものがあり、Quen 3の最大バージョンが彼らのインテリジェンスインデックスで62を獲得し、これが現在利用可能な最高のオープンソースモデルであることがわかります。
以前のリーダーであったDeepseek R1よりも優れています。
そして、これはGemini 2.5 FlashやClaude 3.7、GPT-4.1のような一部のクローズドソースモデルさえも上回っています。
もう一つの非常に印象的な点は、コストを見ると、これが非常に安いことです。
これは、他の主要なAIモデルと比較して、100万トークンあたりの最も安価なモデルです。
したがって、パフォーマンス対コスト効率の観点から、Quen 3は実際には最良の選択肢です。
そして、Abacus AIによるLiveBenchと呼ばれる別のリーダーボードを見ると、Quen 3はこちらにあります。再び、Deepseek R1をわずかに上回り、これが現在利用可能な最高のオープンソースAIモデルとなっています。
さて、彼らはすでにHuggingFaceまたはModel Scopeですべてのモデルをリリースしています。
さらに、OlamaやLM Studioなどのさまざまなプラットフォームでこれをローカルで実行する方法に関する指示があるGitHubリポジトリがあります。
または、これをローカルでダウンロードしたくない場合は、Quen Chatと呼ばれるオンラインプラットフォームを使用して無料で試すこともできます。
無料でサインアップするだけで、ここの上部で異なるQuenモデルを選択できます。
したがって、ここでこの思考機能をオン/オフに切り替えることができます。
簡単な例を試してみましょう。「クレアチンの健康上の利点と潜在的なリスクを調べてください」とプロンプトすると、何が得られるか見てみましょう。
わかりました。ここでその思考プロセスを見ることができます。実際にはdeepseekに非常に似ています。その思考プロセスを見るのは本当に興味深いです。
ここでは、主な利点は何かを思い出そうとしています。神経学的利点、潜在的な認知機能の利点についての話もあります。
他の健康面についてはどうでしょうか?これには利点があるかもしれませんが、それについては確信がありません。
次に、潜在的なリスクに移ります。他の考えられるリスク。肝臓への影響はあるでしょうか?薬物相互作用も考慮する必要があります。長期的な安全性も重要です、などなど。
しかし待ってください、クレアチンを避けるべき集団はいますか?妊娠中または授乳中の女性などでしょうか。
そして、重要な点を見逃していないか確認させてください。
そして、多くの思考の後、これが得られた結果です。
これは本当に簡単な例です。数日間使用した後、Quen 3は、現在利用可能な最高で最もパフォーマンスの高いAIモデルの1つであるように思われます。
そして正直なところ、GoogleやOpenAI、Anthropicのような他の企業がペイウォールの背後にあるクローズドソースモデルしか持っていないのに、彼らがこれをオープンソース化しているとは信じられません。AlibabaはただQuen 3をオープンソース化しています。
そして、これらのベンチマークのいくつかからわかるように、特にコーディング、推論、エージェントタスクに関しては、世に出ている最高のモデルと同等です。
したがって、Alibabaチームに大きな称賛を送ります。
いずれにせよ、モデルへのすべてのリンク、GitHubリポジトリ、Quen Chatはすべてここにあります。詳細については、下の説明にこのメインページへのリンクを貼っておきます。
Quen 3に加えて、Microsoftも今週、Phi-4 (54) をリリースしました。
これは、段階的な思考を使用して複雑な問題を解決することに特に優れた、小規模な推論モデルのファミリーです。
そして、Quen 3と同様に、難しい数学、科学、コーディングの問題を処理することに特に優れています。
さて、Phi-4 (54) ファミリーは3つの異なるモデルで構成されています。Phi-4 (54)、Phi-4 (54) reasoning、Phi-4 (54) reasoning plusがあります。
推測できるように、reasoningモデルは基本的にAIに段階的に長く考えさせます。そして、これは複雑なタスクを解決するのに特に役立ちます。
そして、reasoning plusは、モデルにより多くの計算と思考時間を割り当てて、より深く考えさせます。
これらの各モデルのサイズは140億パラメータであることに注意してください。これは非常に小さく、ラップトップやモバイルデバイスで実行できる可能性があります。
さて、これらのreasoningモデルのパフォーマンスを比較すると、緑色で示されていますが、最先端ではありませんが、世に出ている最高のモデルにかなり近いです。
そして、これは140億パラメータという小さなサイズを考えると特に印象的です。比較のために、DeepSeek R1は6710億パラメータであり、o1とo3 Miniはおそらく数千億パラメータの範囲ですが、これらはクローズドソースモデルであるため、正確にはわかりません。
他のベンチマーク指標をいくつか示します。
ご覧のとおり、Phi-4 (54) ReasoningとReasoning Plusは、GPT-4oとo3 Miniにかなり近いスコアを出しています。これらのモデルは、おそらく数千億パラメータ、あるいは1兆を超えるサイズであるにもかかわらずです。
他のベンチマークをいくつか示します。AIM、Math 500、GPQA Diamond、これは大学院レベルの科学の問題のようなものです。わずか140億パラメータで、潜在的にラップトップで実行できるモデルとしては、これは本当に悪くありません。
素晴らしいことに、彼らはすでにローカルでダウンロードして実行するためのすべてのモデルをリリースしています。
Azure AIまたはHuggingFaceを使用してダウンロードできます。
さらに、HuggingFaceを見ると、Phi-4 (54) を無料で使用できるさまざまなHuggingFace Spacesがすでにあります。
そこで、このLuigi Zero GPU inferenceをクリックします。
そして、ここでPhi-4 (54) mini reasoningを選択できます。そして、ウェブ検索を有効にすることもできます。
そこで、同じことをやってみましょう。「クレアチンの健康上の利点と潜在的なリスクを調べてください」と書きます。
他のすべての設定については、デフォルトのままにしておきます。Enterキーを押して、何が得られるか見てみましょう。わかりました。
これが私たちの応答です。再び、Quen 3や他のすべての思考モデルと同様に、最初に応答する方法を考え抜きます。
したがって、ここでその思考プロセスを見ることができます。
ここでは、「まず、利点について考えてみましょう。筋力や持久力を向上させるかもしれません。
スポーツ以外の健康上の利点もある可能性があります。たとえば、神経学的状態。また、肥満関連の問題、インスリン抵抗性の改善や脂肪減少の促進など。
さて、リスク。一般的な副作用には、などが含まれます。また、特定のグループに対する特定の予防策。待ってください、薬との相互作用についてはどうでしょうか?
次に、これらの点を信頼できる情報源に対して検証する必要があります。」
そこで、ウェブを検索し、実際にすべてをファクトチェックしています。
そして、これらすべての情報をまとめます。
そして、これが最終的な応答です。潜在的な利点とリスクをリストした非常に徹底的な応答です。
さらに、この情報がすべて正しいことを確認するために、すべてをファクトチェックしたようです。
そして、これが使用した参考文献のようなものです。
したがって、消費者向けデバイスで実行できる可能性のある、もう1つの非常に便利で小さなオープンソースモデルです。
いずれにせよ、興味があれば、詳細については下の説明にこのメインアナウンスメントページへのリンクを貼っておきます。
また、今週、PerplexityやOpenAIのディープリサーチ、Geminiのディープリサーチの無料かつオープンソース版が登場しました。
これはWeb Thinkerと呼ばれ、インターネットを検索し、ウェブページを読み、調査レポートをすべて独自に作成できるAIです。
いくつかデモを示します。「OpenAIのモデルは何で、違いは何ですか」とプロンプトすると、最初に、ウェブを自律的に検索し、必要なすべての情報を収集していることがわかります。
ここでは、大量の情報を見つけるだけでなく、情報を集約し、相互参照し、この情報がすべて正しいことを検証していることがわかります。
そして、それは延々と続きます。基本的に、ウェブの検索、情報の編集、ファクトチェック、情報の編集など、これらすべてを行うためにAIエージェントを自律的に使用しています。
これらすべてを複数のステップで、すべて自律的に行うことに注意してください。
そして、これらすべてを行い、すべての情報を整理した後、これが最終的な答えです。そして、実際に、すべてが事実として正しいです。
別の例として、ユーザーが「2025年に提出できるAI分野のトップカンファレンスは何ですか」と入力しました。
再び、このAIエージェントは独自に動き出し、2025年に提出できるAIカンファレンスを見つけるために適切な用語でウェブを検索しています。
それだけでなく、カンファレンスの日程と締め切りも特定しています。
そして、この情報が正しいことを検証し、相互チェックしています。
ここでは、検索用語を絞り込んでいると述べています。初期の検索用語が具体的すぎたため、より広範なAIカンファレンスのリストを見逃す可能性があることに気づきました。それは興味深いですね。自己評価し、答えをさらに良くするために何か別のことを試すべきだと判断しているようです。
再び自律的にウェブ検索を行った後、このすべての情報を収集しています。
そして、AIカンファレンスを検索するだけでなく、NLPカンファレンスなども検索しています。
そして、すべてのデータを収集し、それを統合し、すべての情報が正しいことをファクトチェックするという同じループを経ます。
これは延々と続きます。これがすでに数分間実行されていることがわかります。これは、必要なすべての情報を自律的に見つけ出すディープリサーチエージェントだからです。
これは、答えをすぐに吐き出す通常のチャットボットや、Quen 3やPhi-4 (54) のような思考型チャットボットとは大きく異なります。
彼らは考えるのにいくらか時間をかけますが、それでも、ウェブを検索し、データを統合し、その応答を評価するためにエージェントのチームを実際に展開するほど徹底的ではありません。
そして、データが不十分な場合は、戻ってさらに良い情報のためにウェブを検索します。
これは、AlibabaのQWQによって強化されていることに注意してください。これも無料でオープンソースのモデルです。
ちなみに、これは最もかわいいAIモデル名に違いありません。
したがって、ここでは基本的にQWQの周りにフレームワークを構築し、単純な答えを持つチャットボット以上のものにしています。必要なすべての情報を見つけるまで何度もウェブを検索できるエージェントフレームワークのようなものです。
情報をファクトチェックすることもできます。自己評価とその応答を評価することもでき、それが不十分な場合は、計画をさらに修正することもできます。そして最後に、すべての情報をあなたのために素晴らしいレポートにまとめます。
参考のために、いくつかのベンチマークスコアを以下に示します。
このhumanity’s last examベンチマークについては、これは基本的に非常にニッチな科学分野からの非常に専門的な質問の試験です。基本的に、ほとんどのAIモデルがすぐに知らない非常に専門的な知識です。したがって、この情報を見つけるには、インターネットで真剣に掘り下げる必要があります。
そして、そこでOpenAIのディープリサーチやWeb Thinkerのようなディープリサーチツールが非常にうまく機能します。
そして、ここで見られるように、これらのすべてのベースモデルと比較して、Web Thinkerはこれらすべてのドメインにおいてそれらすべてを上回っています。
依然としてOpenAIのディープリサーチを下回っていますが、これはクローズドソースで非常に高価なモデルです。
したがって、今のところ、Web Thinkerは現在利用可能な最高の無料かつオープンソースのディープリサーチツールであると言っても過言ではありません。
他にも非常に印象的なベンチマークがいくつかあります。
科学レポート生成に関しては、紫色のWeb Thinkerが、Grok 3ディープサーチやGeminiディープリサーチのような主要なクローズドソースディープサーチモデルの一部さえも上回っていることがわかります。
これは非常に印象的です。
素晴らしいことに、彼らはすでにすべてをリリースしています。
したがって、ここの上部にはGitHubリポジトリへのリンクが含まれており、ここにはすべてのモデルへのリンクと、これをコンピュータにダウンロードしてインストールする方法に関するすべての指示が含まれています。
これは、特に科学研究にとって非常に強力なツールです。
OpenAIやGemini、Googleがすべてを非常に高価なペイウォールの背後に置いているのに、彼らがこれをオープンソース化しているとは信じられません。
これらの人々は、完全に無料でオープンソースの非常に類似したディープリサーチエージェントをドロップしました。
したがって、そうしてくれた彼らに称賛を送ります。興味があれば、詳細については下の説明にこのメインページへのリンクを貼っておきます。
他のニュースでは、Suno 4.5がリリースされました。これは、彼らのこれまでで最も高度なAI音楽ジェネレータです。
彼らによると、バージョン4.5のボーカルは、より表現力豊かで、深み、感情、ダイナミックレンジが向上しています。
また、自然なトーンシフトから楽器のレイヤリング、細かい音のディテールまで、より複雑なサウンドを生成できます。
そして理論的には、これにより、よりリアルでAIっぽくないサウンドになるはずです。
また、プロンプトの理解度も向上しています。したがって、ムードや雰囲気、指定した楽器などの詳細が、生成においてより正確に反映されます。
さて、実際にバージョン4.5のデモをいくつか聴いてみましょう。よし、これを聴いてみましょう。
プロンプトでは、これはカントリー、EDM、ハウスです。「ウェルカムマットに輝く。星は明るく、触れられそうなほど近くに見える。今夜はホタルが出ているから、道を照らさせて。だって、家があるんだ、カントリーハウスが。そしてそれを見つけたら、そこに滞在するんだ。切りたての花がある。」
これはカントリーとEDMのように聞こえると言わざるを得ません。これらは一緒になるとは想像もできなかった2つのジャンルのようですが、どういうわけかSunoは実際にカントリーEDMソングを生成することができました。
よし、これを試してみましょう。そして、ここでのプロンプトはモダンロックとアンセムです。「日曜の朝、太陽はまだ空にある。腕を伸ばして、それを出す。アラームも、計画もない、ただ私と私の一日がそれを正しくするためにあるだけだ。何もしないかもしれない。家事は日曜日のようなものだ。魂をリセットする。時計を感じさせる。森の家を歩く。古いオークの木の陰に隠れた大きな足への優しい光。彼は本当に自由に生きる方法を知っている。」
悪くはありませんが、まだAIの雰囲気があります。
さらに、ボーカルはまだUdioほど良くありません。正直なところ、説明するのは難しいですが、本物の声で得られる表現力に欠けているような感じです。
ここにStayingという別の曲があり、プロンプトはインディーフォーク、ポップ、ロックです。「話しすぎる。あなたは確信していた、私は決して尋ねなかった。あなたは沈黙の中を、それが何か意味があるかのように動いた。私はその空間を何でも埋めた。あなたは計画を提供した。私は消える、しかしあなたは留まった。あなたはいつもここに留まっていた。そして私は愛するのが難しい、しかしあなたはひるまない。あなたは辞めないことを簡単にする。あなたは私を安定させる。私は迷子になる。あなたはリストを書く。私はそれを消す。私はめちゃくちゃだ。あなたは決して直そうとしない。あなたは穏やかで、私はリスクだ。私は何を忘れるのか。」
ワオ。さて、これは本当に良く聞こえます。ボーカル、楽器、すべてが非常にリアルで表現力豊かに聞こえます。
これらはバージョン4.5での生成のほんの一例です。さて、誰もが物事を異なるように聞くので、音楽の品質は非常に主観的です。
バージョン4.5についてどう思うか、下のコメントで教えてください。これは以前のバージョンからの明らかな改善だと思いますか?そして、これが別の主要な音楽ジェネレータであるUdioと比較してどう思いますか?
最後に注意すべき点は、バージョン4.5を使用するには、月額8ドルから始まる有料プランに加入する必要があるということです。
無料プランではバージョン4.5を使用できません。
次に、このAIは非常に便利です。誰かのビデオと衣服の画像を取り込み、ビデオ内の衣服を新しいものに置き換えることができます。
そして、ちなみに、これもAlibabaによるものです。正直なところ、AlibabaやTencent、Bite Danceのような中国のテクノロジー大手は、過去数週間にわたって非常に多くのクールなAIツールをドロップしてきました。
さて、これが1つの例です。白いドレスのこの画像と、女性のこのビデオを取り込み、彼女の服装を白いドレスに交換します。
なんて信じられないことでしょう。
別の例です。髪やハンドバッグなど、他のすべてを一貫して保ちながら、彼女の服装だけを交換することを知っていることに注意してください。
別の例です。
そして、これは非常に印象的です。なぜなら、この非常に光沢のあるドレスの光の反射を描写する方法さえ知っているからです。
別の印象的で非常にトリッキーな例です。なぜなら、このドレスには非常にユニークで複雑なパターンがあるからです。
しかし、このAIが女性にこのドレスを非常に正確に着せることができたことがわかります。
たとえば、右上に暗いマーキングのないこのパッチがあることに注意してください。そして、ここのこのパッチや下の部分も同様です。そして、女性が着ているこのドレスに同じパターンを実際に追加することができます。
これは非常に正確なレンダリングであり、衣装全体を交換する必要はありません。
ここでは、彼女のパンツをこのスカートに交換しているだけです。
そして、再び、結果のビデオでスカートのパターンをかなり正確にレンダリングします。
別の例として、彼女のショートパンツをこれらの白いジーンズに置き換えることができます。
そして、ほとんどの場合、すべてがかなりシームレスに見えます。
ボトムのみを交換するのと同様に、トップのみを交換することもできます。
ここでは、あるシャツを別のシャツに交換しています。
別の非常にトリッキーな例です。このTシャツには多くの複雑なマーキングがありますが、ほとんどの場合、女性にこれを非常に正確に着せることができました。
ビデオが全身である必要はないことに注意してください。このように胴体ビューだけでもかまいません。
そして、ビデオの元のポーズとカメラの動きを維持しながら、シャツを交換することもできます。
複雑なデザインのこの白いセーターの、かなり挑戦的な別の例ですが、再び、これをやってのけることができます。
さて、ビデオ内の衣服を交換できる他のAIツールもあります。たとえば、以前私のチャンネルでカバーしたVividやCat V2 Taonなどですが、この新しいもの(右端の列)はエラーが最も少ないことに注意してください。
さらに、新しい衣服を最も正確に描写します。
他の例をいくつか示します。この新しいツールは右端の列であることに注意してください。
さて、ページの一番上にスクロールすると、コードは近日公開予定であると書かれています。
したがって、彼らはこれをオープンソース化するつもりのようです。これは素晴らしいことです。
しかし、今のところ、詳細を知りたい場合や、さらにデモをチェックしたい場合は、下の説明にこのメインページへのリンクを貼っておきます。
これで、今週のAIのすべてのハイライトをまとめました。
これらすべてについてどう思うか、コメントで教えてください。どのニュースが一番気に入りましたか?そして、どのツールを試すのが最も楽しみですか?
いつものように、私はあなたと共有するためにトップのAIニュースとツールを探し続けます。
したがって、このビデオを楽しんだ場合は、いいね、共有、購読を忘れずに、さらなるコンテンツをお楽しみに。
また、毎週AIの世界では非常に多くのことが起こっています。私のYouTubeチャンネルですべてをカバーすることは不可能です。
したがって、AIで起こっているすべてのことを本当に最新の状態に保つには、私の無料の週刊ニュースレターに必ず登録してください。
それへのリンクは下の説明にあります。
ご視聴ありがとうございました。また次回お会いしましょう。


コメント