
18,603 文字

AIは眠らず、今週は本当に狂気の一週間でした。DeepSeekさえも打ち負かす小さなオープンソースモデルが登場し、非常に優れた新しいボイスクローナーも出てきました。私は自分の歌唱力に自信がありますが、私の声の実力に値する音楽作品はそう多くありません。オーケストラ全体の楽譜を作曲できる新しいAIもあり、素晴らしい音が出ています。新しいオープンソースの画像・動画ツールもあります。さらに、信じられないようなヒューマノイドロボットのデモなども多数ありますので、早速見ていきましょう。
まず最初に、新しいテキスト音声生成器があります。Spark TTSと呼ばれるもので、これは信じられないほど印象的です。誰でも数秒の音声サンプルがあれば、その声をクローンして何でも言わせることができます。いくつか例をご紹介しましょう。こちらが入力サンプルの声で、わずか14秒の長さです。「私を自然と呼ぶ人もいれば、母なる自然と呼ぶ人もいます。私はここに45億年以上存在してきました。皆さんより22,500倍も長く」。
これがクローンしたい声で、次のように言わせたいと思います。聞いてみましょう。「あなたが私を何と呼ぶかはあまり気にしません。私は無言の観察者として種の進化や帝国の興亡を見てきました。しかし、常に覚えておいてください。私は強大で永続的です」。
入力した声とまったく同じように聞こえることがわかります。驚くべきことに、これは同じ声で中国語もできます。これを聞いてみましょう。再び、入力音声とまったく同じように聞こえます。
こちらは別の例です。「これをご存知ですか?ステーキを切り分け、切り身を上に置きます。そして、ドライクランベリー、松の実、ブルーチーズを飾り付けます」。非常にチップモンキーのような声です。サンプルはわずか9秒だけです。この声をクローンして次のように言わせてみましょう。「異なる食感と風味の組み合わせが完璧なハーモニーを生み出します。ステーキのジューシーさ、クランベリーの酸味、松の実のカリッとした食感、ブルーチーズのクリーミーさが、本当に美味しい料理にしています。あなたの料理の冒険をお楽しみください」。
これはどれだけクールでしょうか?文章の間で呼吸し、単語の間で一時停止し、適切な場所でアクセントを置いています。これは非常に自然なテキスト音声生成器です。
こちらはドナルド・トランプの短いクリップです。「簡単に言えば、私たちはすべてのアメリカ人のためにアメリカを再び偉大にするという使命に乗り出しました」。同じ声色とトーンをクローンすると、こんな風に聞こえます。「技術は急速に進歩していることは分かっていますが、AIはさらに速いスピードで進んでいます。それはすでに私たちの生活を変革しています。仕事の仕方や繋がり方から、世界最大の課題に取り組む方法まで」。
とても印象的です。まるでドナルド・トランプ本人がこれを読み上げているように聞こえます。ドナルド・トランプが中国語を話す様子も聞いてみましょう。それがドナルド・トランプが中国語を話している様子です。
そして『リック・アンド・モーティ』のリックです。このサンプルはわずか4秒しかありません。「そこが俺とお前の違いだ、モーティ。俺は絶対にカーペット屋に戻らないんだ」。これが別のテキストを読み上げたらどう聞こえるか聞いてみましょう。「私はその人とボアコンストリクターや原始林や星について決して話さないでしょう。私は自分のレベルを下げるでしょう」。
超正確な再現で、トーンはサンプルのリックとまったく同じように聞こえます。
そして原神のフォリナです。「結局のところ、私はかつてフォンテーヌで最も輝く星でした。あらゆる芸術に精通しています」。非常に大げさな女性の声です。この表現力を新しい生成でもクローンできるか聞いてみましょう。「私は自分の歌唱力に非常に自信がありますが、私の声の実力に値する音楽作品はそう多くありません。劇場の創作者たちが行動を起こし、私を無駄に待たせないことを願っています」。
非常に表現力豊かな声です。これは他のテキスト音声生成器とは異なり、英語を話す声をクローンする必要もありません。中国語の声もクローンできます。例えば、この人のわずか2秒のクリップを聞いてみましょう。非常に短いクリップです。この中国語をクローンできるか聞いてみましょう。
完璧に中国語を読み上げます。この中国語の声が英語も話せるか聞いてみましょう。「音声合成技術は、スマートボイスアシスタントからオーディオブックまで、さらには個人化された音声クローニングまで、私たちの日常生活に静かに統合されています。この技術は、私たちが情報にアクセスし、世界と対話する方法を変革しています」。入力音声とまったく同じように聞こえます。
最後に、ジャック・マのクリップです。ジャック・マが中国語を話すこのクリップを入力すると、この声をクローンして次の英語の文を話させることができるか見てみましょう。「彼らはみな異なる目標を追求しています。多くの人は成功とはお金を稼ぐことだと考えますが、私は世界を変え、他者を助けることだと信じています。だから失敗や挫折を恐れず、学び続け、決して諦めないでください」。
なんと驚くべきことでしょう。ジャック・マが中国語を話すわずか10秒のサンプルから、彼は英語すら話していなかったのに、私たちは彼の声をクローンして英語を話させることができました。そして実生活で彼が英語を話すのとまったく同じように聞こえます。これは非常に正確です。
このページにはさらに多くの例がありますので、時間があれば確認してみてください。ページの上部にスクロールすると、すでにHugging Faceでモデルをリリースし、GitHubリポジトリも公開しています。これをクリックして下に進むと、ダウンロードしてローカルコンピュータで実行する方法の手順がすべて含まれています。さらに、コードを扱う必要のない素晴らしいgradioインターフェースもあります。これは完全に無料でオープンソースで、今すぐ使用できます。リンクはすべてここにありますので、詳細を読むにはこのページへのリンクを説明欄に記載しておきます。
他のニュースでは、HunenがついにImage to Videoモデルをリリースしました。Hunenをご存知ない方のために説明すると、これは最高のAIビデオモデルの一つで、無料でオープンソース、そして完全に検閲されていません。はい、これで本当に奇抜なことができます。実際、私はすでにHunenのインストール方法と、オフラインでコンピュータで実行する方法について完全なレビューとチュートリアルを行いました。まだ見ていない方はこのビデオをご覧ください。
数ヶ月前、彼らはHunenのテキストからビデオ機能をリリースしました。これはテキストプロンプトでクリップを生成できますが、本当にゲームチェンジャーな機能はイメージからビデオへの変換だと思います。つまり、写真やAIで生成した画像をビデオの最初のフレームとして入力できれば、生成をより詳細にコントロールできます。新しいImage to Videoモデルはまさにそれを行います。
いくつか例をご紹介します。こちらはアニメの例で、この少女を非常に正確かつ一貫して動かします。古いビデオモデルで見られるような歪みや変形はありません。そしてこちらはペンギンの例で、ほとんどの部分ではうまくいっていますが、最後に口が何らかの理由で非常に広くなっていて、ちょっと不気味です。他にもいくつか例があります。再び、すべてが概ね非常に一貫しています。
この公式GitHubリポジトリでは、80GBのVRAMを推奨し、最低でも60GBのVRAMが必要だと記載されていますが、これを見ている皆さんのほとんどはそれほどのVRAMを持っていないでしょう。しかし実際はそれほどのVRAMは必要ありません。実際には「Comfy UI Hunan Video Wrapper」と呼ばれる別のフォークがあり、これによりComfy UIでHunenを使用する際に最低12GBのVRAMで実行できます。このサンプルワークフローフォルダには、Image to Videoのワークフローが追加されています。このJSONファイルをダウンロードして、Comfy UIインターフェースにドラッグ&ドロップするだけで、完全なワークフローが読み込まれます。
この方法を使えば、Comfy UIで60GBのVRAMは必要ありません。セットアップ方法がわからない場合は、すべてを順を追って説明しているこのビデオをご覧ください。公式GitHubリポジトリとこのComfy UI統合へのリンクを説明欄に記載しておきます。
次に、本当にクールなAIがあります。Notenと呼ばれるもので、基本的にオリジナルのクラシック音楽を作曲できます。いくつか例を見てみましょう。ピアノのような単一の楽器のための楽譜を作曲できます。音楽に詳しくない方のために説明すると、このバーは時間の流れを表し、これらの音符はすべてピアノで演奏されるものです。現在の時間は緑の線で示されているので、バーを移動する緑の線に従ってください。
素敵なマイナー調のワルツですね。これは単一の楽器だけでなく、複数の楽器も扱えます。こちらはこのAIが弦楽四重奏のための曲を作曲した例です。弦楽四重奏は4つの楽器で構成され、2つのバイオリン、ビオラ、チェロがあります。この場合、各行は1つの楽器を表しています。例えば、一番上の行は第1バイオリンが演奏するすべての音符を、2番目の行は第2バイオリンが演奏するすべての音符を表しています。これを聴いてみましょう。
本当に美しいです。音符を作曲するだけでなく、どの部分を強く演奏し、どの部分を弱く演奏するかも決めています。レガートのような要素もあれば、スタッカートのような短く鋭い音符もあります。これは通常の弦楽四重奏の曲とまったく同じように聞こえます。
そして驚くべき点は、弦楽四重奏だけでなく、完全なオーケストラ全体のための曲も作曲できることです。この楽譜の各行が1つの楽器に対応していることに注目してください。ここの上部にはフルート、オーボエ、クラリネットなどがあります。これらはすべて木管楽器だと思います。中央部分は打楽器で、小さな三角形もあります。そしてこちらは弦楽器で、第1バイオリン、第2バイオリン、ビオラ、チェロ、そして一番下にベースがあります。このオーケストラ曲がどのように聞こえるか聞いてみましょう。
続きますが、要点はお分かりいただけたと思います。非常に印象的です。オーケストラ楽器だけでなく、合唱のための曲も作曲できます。こちらは例で、上部の4つの行はそれぞれ合唱の一部を表し、下部はピアノを表しています。どのように聞こえるか聞いてみましょう。
要点はお分かりいただけたと思います。非常に素晴らしいです。もちろん、これを演奏する際には仮想楽器を使用しているので、合唱とピアノの音はそれほど現実的には聞こえませんが、この楽譜を印刷して実際の合唱団とピアニストに演奏してもらえば、かなり良い音になるでしょう。
彼らがこれをどのように作成したかについて、情報があります。彼らは160万曲という膨大な量のデータでNotenを事前訓練しました。これは音楽のパターンと構造をAIに学習させるのに役立ちます。その後、高品質なクラシック音楽楽譜データでさらに微調整されています。これは152人の作曲家をカバーする約9,000曲のクラシック音楽楽譜で構成されており、AIがクラシック音楽の特定のスタイルと特徴を学ぶのに役立ちます。クラシック音楽ではなく、例えばポップミュージックで微調整することもできます。
その後、彼らはこのAIを強化学習のステージにも通しました。CLAMP DPOと呼ばれる特別な技術を使用して音楽生成を洗練させました。これは基本的に、自分の作曲と人間の作曲家のものを比較することで、何が良い音楽を作るかをプログラムが学習するのに役立ちます。そして、すべてのトレーニングとすべての強化学習の後、私たちはNotenを手に入れました。
ページの上部にスクロールすると、彼らはすでにダウンロード用のモデルをHugging Faceでリリースしています。さらにGitHubリポジトリもあり、下部にスクロールすると、ローカルコンピュータでこれをダウンロードして使用する方法のすべての指示が含まれています。コードを扱う必要のない素晴らしいgradioデモもあります。ここでは、ポップやヒップホップ、ローファイなど、異なるスタイルの音楽で微調整する方法の指示も提供しています。
ただし、Noten Largeを使用する場合は、少なくとも24GBのVRAMが必要であることに注意してください。これがない場合は、SmallまたはMediumバージョンを使用する方が良いでしょう。リンクはすべてここにありますので、詳細を読むにはこのメインページへのリンクを説明欄に記載しておきます。
次に、NVIDIAによるN3Cという本当にクールなAIがあります。このAIは1枚または複数の画像から正確なカメラコントロールでビデオを作成できます。ご覧のように、入力画像を取り込み、まず3Dシーンに変換し、そこでカメラの軌道と動画の視点をコントロールできます。その後、これをビデオジェネレーターに通して、このカメラ軌道に基づいてビデオを作成します。
最終結果はこちらです。1枚の画像からこれをすべて行っているのは非常に印象的です。1枚の画像から生成されたビデオの例をさらにいくつか紹介します。4つのビデオすべてがユーザーが指定した同じカメラ軌道に従っていることに注目してください。こちらは別の例です。
このツールがいかに有用で柔軟かお分かりいただけると思います。ブロガーやインフルエンサー、ポッドキャスターであれば、追加のカメラを必要とせずに、このツールを使用して異なる視点から任意のシーンを生成できます。
1枚の画像を入力するだけでなく、複数の画像を入力することもでき、これによりAIにより多くのデータを提供し、より正確なシーンのビデオを生成できます。これらの例はそれぞれ、各シーンの5枚の画像で供給されており、ほとんどの部分ですべてが非常に一貫性があり現実的に見えます。
このツールを使えば、実際にドローンを必要とせずに、かなり素晴らしい空撮ドローンショットを得ることができます。さらに、画像を供給する代わりに、ビデオをこのAIに入力して、ビデオのカメラアングルやズームを変更することもできます。左が元の入力ビデオで、このAIにドリーズーム効果を生成させると、右側でまさにそれを行います。背景がズームアウトするこのドリーズームを作成しています。
簡単に説明すると、これはこのように機能します。1枚の画像、複数の画像、あるいはビデオを入力し、これが最初のステージを通過します。このステージはシーンの3Dキャッシュまたは基本的に3Dビューをレンダリングし、この3Dビューでカメラの軌道を指定できます。その後、指定した軌道に基づいてシーンをフレームごとにレンダリングするこのレンダー3Dキャッシュコンポーネントを通過し、これらが最終ビデオを生成するためのビデオ拡散モデルに入力されます。
ページの上部にスクロールすると、コードは近日公開予定とあるので、彼らはこれをオープンソース化する予定のようです。素晴らしいですね。現時点では、詳細を読むためにこのメインページへのリンクを説明欄に記載しておきます。
スポンサーのAbacus AIによるChat LLMというこの素晴らしいツールについてお話しします。これにより、最高のAIモデルをすべて1つの統合されたプラットフォームで使用できます。これには最新のClaude 3.7、O3 mini high、そしてDeepSeek R1も含まれています。また、プロンプトに基づいて使用する最適なLLMを自動的に選択する新しいRoute LLM機能もあります。チャットボットから直接画像を生成することもでき、最高の生成器であるFlux Proを使用しています。また、単一のプロンプトでビデオを生成することもできます。素晴らしいアーティファクト機能もあり、コーディングや何かを構築している場合、アプリを横に並べて表示して操作できます。
さらに、Code LLSと呼ばれる新しいコーディングツールもあります。これはVSS Codeとまったく同じように機能しますが、AIでパワーアップされています。コードを生成または編集するのを助けるために横でAIとチャットしたり、Tabを押してコードを自動補完したりできます。これは、最高のAIモデルをすべて1つのプラットフォームで使用するための非常に強力な方法です。説明欄のリンクからお試しください。
次に、新しいオープンソースのAI音楽ジェネレーターがあります。Diff Rhythmと呼ばれるもので、これまで聞いた中で最高の品質のものです。これはこのように機能します。まず、生成する音楽のスタイルを決定するために、クローンしたいスタイルの曲の数秒を供給する必要があります。これは10秒未満の短いクリップです。次に、このような歌詞を入力します。これには特定の行が歌われるタイミングのタイムスタンプが含まれています。
この方法の良い点は、特定の行をいつ歌うかを正確にコントロールできることです。さらに、このAIでは間接的に曲のスピードもある意味でコントロールできます。いくつか例を見てみましょう。
まず、入力クリップを再生します。著作権の問題でこれらの一部はミュートされる可能性があることに注意してください。聞こえない場合、これは基本的にチルなアコースティック曲です。これらの歌詞を入力すると、どのように聞こえるでしょうか。4秒マークから歌い始めるはずなので、ドラッグしてみます。「エンジェル、あなたの街の恋人、死にそうなほど聞きたいことを言って、あなたが私に新しいと言ってくれるのを聞きたい、私があなたのRと言ってくれ、大きな心を持っていると言ってくれ、そしてそれを証拠で裏付けて、私にはそれが必要だ」
ギターストロミングがいかに本物のように聞こえるかに注目してください。これは正当なギターの演奏のように聞こえ、単なる仮想楽器ではありません。ボーカルも美しく、マスタリングが非常に良く行われています。一部の領域ではディレイやリバーブ、そしてハーモニーボーカルも含まれています。
こちらは別の例です。入力はミュートされていましたが、これは非常に速いテクノトラックです。これが入力歌詞で、どのように聞こえるか聞いてみましょう。「私と戦え、私と戦え、私と戦え、私を私らしくなくした、私の後ろで話すのは望まない、いいえ、あなたは送った人ではない、私はとてもシェイディー」
元のテンポと、そのテクノダンスエレクトロニックな雰囲気をしっかりと保持しています。非常に素晴らしいです。
次は、かなりハードコアなロック曲です。こちらが歌詞で、どのように聞こえるか聞いてみましょう。「列車、黄昏がHS、海、時間、S、SE、黄昏、ベルベット、L、C、R」
これはロック生成のサンプルでした。声と楽器の両方が非常にリアルで高品質に聞こえました。
このページにはさらに多くの例があり、中国語で歌わせることもできます。ページの上部にスクロールすると、試すことができるHugging Faceデモもあります。ここには2つのタブがあり、まずChatGPTやGemini、DeepSeekなどの別のAIに歌詞を生成させることもできますし、歌詞を生成するタブもあります。例えば「愛と心痛」などのテーマを入力し、「ボーカル、感情的、ピアノ、ポップ」などのタグを選択し、言語を選んで「生成」をクリックします。
その後、歌詞をここに入力できます。各行の前にタイムスタンプがあることを確認してください。分:秒、そしてミリ秒というこの形式に従う必要があります。そしてここがクローンしたいスタイルの曲のサンプルをアップロードする場所です。この入力はミュートされていますが、基本的に感情的なピアノバラードのような曲です。「生成」をクリックして、何が出てくるか見てみましょう。
こちらが生成されたものです。再生してみましょう。「月光が壊れたブラインドを通して漏れる、影が祠の上で踊る、私をun Go、ガソリンの雨、真夜中の列車であなたの笑い声が聞こえる」
これは最初の数行だけです。Suno、Udio、Refusionなどの最高の商用モデルほどメロディックではないことに注意してください。それらの方がまだ優れていると思いますが、これは良いスタートです。
無料のHugging Faceスペースに加えて、コンピュータにダウンロードして実行する方法のすべての指示が含まれているGitHubリポジトリもリリースしています。リンクはすべてここにありますので、詳細を読むにはこのメインページへのリンクを説明欄に記載しておきます。
次に、Alibabaが信じられないほど優れた新しいモデルをリリースしました。QWQ 32Bと呼ばれるもので、AIモデルとしては史上最もかわいい名前です。このモデルはDeepSeek R1やOpenAI’s O1、O3のように考えて推論できます。
ほとんどのこれらの思考モデルと同様に、QWQは数学、科学、コーディングなどの複雑な問題を解決するのに非常に優れています。こちらが彼らの報告したベンチマークです。ここでは赤のQWQをDeepSeek R1とOpenAI’s O1 miniと比較しています。これはフルバージョンではなくミニバージョンであることに注意してください。これらのベンチマーク全体でQWQが勝者であるか、少なくともDeepSeek R1と同等であることに注目してください。
これらは単に彼らが報告した指標です。このモデルが実際にどれだけ良いのかを客観的に把握するために、他の独立した評価者も見てみたいと思います。Artificial Analysisを見ると、QWQ32がここに記載されています。他のモデルと比較した知能スコアを見ると、興味深いことにQWQはClaude 3.5 Sonnetを上回り、Google’s Gemini 2 Proと同点です。ただし、彼らの主張によれば、DeepSeek R1やOpenAI O3 mini、O1に比べて知能は劣るとされています。
とは言え、価格を見ると、このモデルは非常に小さいため、信じられないほど安価です。QWQは出力トークン100万あたり0.65ドルしかかかりませんが、Claude 3.7を見ると6ドル、O1は26ドルです。コスト効率の観点から、QWQは間違いなくはるかに優れています。
DeepSeek R1や他の思考モデルと同様に、QWQはトレーニングプロセスで強化学習を使用しました。強化学習に詳しくない方のために説明すると、これは基本的にAIが特定の問題を解決し、成功すると報酬を得て、失敗すると報酬を得られないか罰則を受けるというアルゴリズムです。そして何百万回もこのフィードバックループを繰り返した後、最終的にAIはこれらの問題を解決することがどんどん上手になっていきます。
初期段階では、特に数学とコーディングタスクのためにこのQWQモデルをトレーニングするために強化学習を使用しました。数学とコーディングには検証可能な解決策があるため、これを行いました。これはAIにエッセイを書かせるのとは非常に異なります。なぜなら、文章の質は時に主観的であり、本当に正しい答えはないからです。
数学とコーディングのための強化学習の最初のステージの後、一般的な能力のための別の強化学習のステージを追加しました。これらは数学とコーディングを超えた領域をカバーし、エージェント的なパフォーマンスなども含みます。
驚くべきことに、名前が示す通り、このモデルはわずか32億のパラメータしか持っていませんが、6710億のパラメータを持つDeepSeek R1と同等かそれ以上に優れています。そして何よりも、モデルはオープンウェイトで、すでにHugging FaceまたはModel Scopeでローカルコンピュータにダウンロードできるようにリリースされています。また、Apache 2ライセンスの下にあり、非常に最小限の制限があります。商用利用を含め、ほとんど何でもできます。
さらに、Qwen Chatプラットフォームでオンラインで無料で使用することもできます。今すぐ試してみましょう。上部がモデルを選択する場所で、QWQ 32Bを選びます。医療診断の問題を試してみましょう。プロンプトは「高血圧と高脂血症の既往歴がある55歳の男性が、胸痛と息切れで入院しました。何が問題である可能性がありますか」などです。この問題は思考と推論が必要なので、この思考機能をオンにして「生成」を押します。
DeepSeek R1やRock 3 Thinking、OpenAIのDeep Thinkingと同様に、その思考に触れて、問題を分析する際の思考プロセスを実際に見ることができます。ここでは「まず、悪化する胸痛の考えられる原因について考える必要があります。高血圧から始めましょう。脂質が異常であれば、スタチンが効いていないのかもしれませんが、それが症状とどう関係するのか。別の角度から、高血圧から合併症があるのかもしれません」などと考えています。
「あるいは、服用している薬が副作用を引き起こして状態を悪化させているような医学的問題がある可能性がありますか。別の考えとして、治療されていない高血圧の二次的な原因があるかもしれませんか。または、薬の吸収に問題がある可能性があります。あるいは、合併症を発症したかもしれません」などと続き、すべての可能性について本当に熱心に考え抜いています。
最終的にこの回答が得られます。「主な考慮事項はこちらです。考えられる原因はこちらです。そして評価のための次のステップはこちらです」。さらに素晴らしい結論も提供されています。「最も可能性の高い問題は、高血圧と高脂血症の不十分なコントロールによる進行性冠動脈疾患で、腎動脈狭窄または代償不全心不全により悪化している可能性があります」。
これは患者の非常に徹底的な診断です。正直に言って、私はかかりつけ医よりもこのAIモデルの方がはるかに信頼できると思います。これが彼らのオンラインインターフェースです。モデルの重みはすでにリリースされているので、コンピュータにダウンロードすることもできます。素晴らしいことに、このモデルはわずか32億のパラメータしかないため、DeepSeek R1と同等のものを持ちながら、それは20倍小さいということです。つまり、消費者グレードのGPUを持つ人でも、このAIをローカルでオフラインで実行できる可能性があります。
これは本当に素晴らしいモデルです。アリババのQwenチームの功績に帽子を脱ぎます。しかも、これを無料でリリースしているなんて信じられません。モデルとQwen Chatインターフェースへのリンクはすべてここにありますので、詳細を読むにはこのメインページへのリンクを説明欄に記載しておきます。
ところで、アリババについての話はこれで終わりだと思いましたか?彼らは今週さらに別のモデルもリリースしました。Babbleと呼ばれるもので、このAIは世界の話者の90%以上をカバーする多くの言語でテキストを理解し生成できます。
もし珍しいまたはあまり一般的でない言語を話す場合、その言語がChatGPTやGrok、Geminiなどの主要モデルでサポートされていないというフラストレーションを経験したことがあるかもしれません。しかし、この新しいBabbleモデルがあなたの言語をサポートしていることを願っています。
仕様はこちらです。Babbleは話者数によるトップ25の言語をカバーしており、ここにすべての言語が記載されています。特に下部の行にスクロールすると、イラン系ペルシア語やタイ語、ビルマ語などの言語があります。ChatGPTなどの主要モデルでこれらの言語を使う問題を抱えていた場合、この新しいBabbleモデルが良い代替手段になるかもしれません。
彼らは2つのモデルをリリースしました。90億パラメータのBabbleモデルと830億パラメータのモデルです。もちろん、パラメータが多いこの方がパフォーマンスが高く、いわば「より知能的」ですが、実行には多くの計算能力が必要です。830億パラメータのモデルをローカルでコンピュータで実行するのは非常に難しいです。そのため、90億パラメータのこの小さなモデルは、消費者グレードのGPUでもオフラインで実行するのに最適でしょう。
次に、多言語能力の点でこのBabbleモデルが競合他社と比べてどのようなパフォーマンスを発揮するか見てみましょう。こちらは多言語知識理解と推論のベンチマークスコアです。右の列が90億パラメータのこのBabbleモデルです。彼らは同様のサイズの他のモデルとこれを比較しており、ほとんどのベンチマークでBabbleが最高スコアを記録していることに注目してください。
そして830億パラメータのより大きなモデルを見ると、同様のサイズの競合モデルと比較した場合、ほとんどのベンチマークで再びBabbleが最高スコアを達成していることがわかります。ちなみに、もう一つの興味深い点として、事前トレーニング中にパフォーマンスを向上させるためにレイヤー拡張と呼ばれる特別な技術を使用したことが挙げられます。
ページの上部にスクロールすると、彼らはすでにHugging Faceでモデルをリリースしているので、これらのモデルをダウンロードして任意の目的で使用できます。Hugging FaceモデルとGitHubリポジトリへのリンクはすべてここにありますので、詳細を読むにはこのメインページへのリンクを説明欄に記載しておきます。
他のニュースでは、OpenAIとイーロンのX AIの間でAIレースが激化しています。先週、GPT-4.5がリリースされ、前回のニュースビデオですでに取り上げました。他の主要モデルと比較して、数学、科学、コーディング、PhD級のベンチマークのパフォーマンスはそれほど良くありませんでした。しかし驚くべきことに、ユーザーが異なるAIモデルを目隠しテストできるこのチャットボットアリーナでは、今週GPT-4.5が追加され、実際に1位になりました。ほとんどの人が日常的なユースケースにおいて、その反応を好んだようです。
少なくとも1日かそこらはそうでした。なぜなら翌日、X AIは新しいバージョンのGrok 3をリリースし、それはOpenAIのGPT-4.5をわずか1ポイント上回り、このリーダーボードで新バージョンのGrok 3を1位にしました。少なくともアリーナスコアの点では。つまり、彼らは互いに上回り合っているようです。X AIは確かにこのAIレースのトップに追いついたように見えます。これは彼らが後発参入者であることを考えると非常に素晴らしいことです。X AIはAIレースに参加した最も新しい企業の一つですが、OpenAIははるかに長い年月をかけてこれを行っています。X AIがこれほど早くトップに追いつけるのは本当に印象的です。
ヒューマノイドロボットのニュースでは、先週、Unit Tree G1によるこの功夫のデモを投稿しました。これは正当なものだと言ったにもかかわらず、コメントの多くの人々はこれが偽物やCGIだと思っていました。おそらくUnit Treeの人々が実際に私のビデオを見てコメントを読んでいるのかもしれません。なぜなら今週、彼らは同じ功夫のルーティンをするこのロボットの別のデモをリリースしました。今回は、背景のドアにすべての反射がはっきりと見えて、これが実際に正当なものであることを証明しています。偽物やCGIであればこの反射を実現するのは本当に難しいです。
そして週ごとに、Unit Treeはこのロボットのダンスや走るなどの信じられないようなデモを投稿しています。これらのデモについてもっと知りたい場合は、毎週土曜日の夜に公開される私の以前のニュースビデオをぜひご覧ください。Unit Treeは非常にアクロバティックで多用途なロボットの開発という点で間違いなく最前線にいます。他の競合企業はまったく近づいてもいません。
他のロボットニュースでは、比較的地味なロボティクス企業であるReflex Roboticsも今週いくつかのデモをリリースしました。これらは非常に印象的です。ここでは、ロボットがカートを開いてアイテムを並べているのが見えます。後ろにも別のロボットがあり、アイテムを仕分けています。そのモーションは、以前私のチャンネルで紹介したPhoenixやFigureロボットなどの他のロボットに比べて非常に速いです。それらははるかにゆっくり動きます。このReflexロボットには、倉庫や物流に統合される可能性がすでにあります。これにより多くの操作を自動化できると思います。
Reflex Roboticsについて簡単な背景を説明すると、これはかなり目立たない存在です。数ヶ月前のヒューマノイドロボットのビデオで簡単に言及しました。すべてのヒューマノイドロボットについてもっと知りたい場合は、このビデオをご覧ください。いずれにせよ、Reflexはニューヨークを拠点とする若いスタートアップです。創業チームはMIT、Boston Dynamics、Teslaなど、いくつかの場所で以前働いていました。
このReflexロボットには二本の足がなく、エレベーターのように上下にスライドするだけなので、これはぎりぎりヒューマノイドですが、それでもその動きは非常にスムーズで、在庫の取り扱いや仕分けなど、多くのタスクを自律的に実行します。
こちらは別のデモで、ロボットが50ポンドの重さの米袋を持ち上げることができるのが見えます。これはヒューマノイドロボットにとっては非常に重いと考えられ、持ち上げるのは決して簡単ではありませんが、このロボットは非常にスムーズに扱うことができます。これは物流、倉庫、小売に最適だと思います。
次に、このAIは非常に便利です。Diffusion Self-Distillationと呼ばれるもので、特定のオブジェクトやキャラクターの画像を作成できます。いくつか例を紹介します。あるキャラクターのこの画像を入力し、このAIにプロンプトを出して、月明かりの中でコーヒーを一口飲むキャラクターを作成することができます。そしてこれが結果です。キャラクターがリファレンス画像とまったく同じに見えることに注目してください。
または「埃っぽい部屋の椅子に男性を休ませる」というプロンプトを出すこともできます。あるいは「キャンバスに鮮やかな夕日を描くキャラクター」を作ることもできます。他にもいくつか例があります。この猫の画像を入力すると、元の写真の2.5Dスタイルも保持していることがわかります。すべての例で非常に印象的です。
こちらは別の例で、このフラットなイラストアートスタイルを入力し、女性に異なることをするようにプロンプトを出すと、すべての画像で元の写真のアートスタイルが保持されています。そしてこちらはオブジェクトや製品を入力する例です。この写真を入力すると、写真の女性を含める必要がなく、生成にシャツだけを指定できます。3つの例すべてでTシャツのデザイン(テキストを含む)が保持されていることに注目してください。
こちらはこの指輪の別の例で、すべての例で指輪はリファレンス画像とほぼ同じように見えます。これは製品写真撮影のための非常に強力なツールです。もはや製品写真家を雇って多くの時間とお金と労力をセットアップに費やす必要はありません。任意のオブジェクトの画像をこのAIに入力し、何でも生成するようにプロンプトを出すことができます。
前に示したように、結果の画像でどのオブジェクトをクローンするかも指定できます。例えば、このようにカフェに座っている女の子を作ることができますが、この例では女の子を生成する必要はなく、埃っぽいアンティークルームにコートを掛けているので、この画像からコートだけをクローンしています。そしてこの例では、埃っぽい棚にバッグを置いているので、リファレンス画像からこのバッグだけを取り、他のすべてを無視しています。
前の例と同様に、これは2D画像にも非常に適しています。例えば、このパグのデザインがある場合、このパグに飛行機のコックピットに座らせたり、宇宙飛行士のスーツを着て宇宙に浮かばせたり、ビンテージ蓄音機の横に座らせたりすることができます。こちらは2D画像の別の例で、このキャラクターのスタイルを非常にうまくクローンできることがわかります。
これはPhotoshopの代替としても機能します。このAIに単純にオブジェクトの照明を変更するようにプロンプトを出すことができます。例えば、このリファレンス画像がある場合、「柔らかく暖かいゴールデンアワーの照明」とプロンプトを出すと、これが結果です。または「涼しい青調の照明」とプロンプトを出すと、これが結果です。または「青い夕暮れの光」というプロンプトの例もあります。
元の画像がこれであれば、「劇的な嵐の空」とプロンプトを出すとこれが得られます。または「厳しい青調の空」、「柔らかい曇り空」、「ムーディーな照明」などがあります。非常に多用途なツールです。この入力画像があれば、このAIに入力して異なる照明条件を生成するようにプロンプトを出すことができます。これも不動産写真撮影に非常に便利なツールになり得ます。
このツールを使用すれば、一貫性のあるコミックパネルの生成にも非常に適しています。同じキャラクターを入力し、異なる設定でプロンプトを出せば、このようなストーリーボードを生成できます。このためのユースケースは山ほどあります。こちらは別のストーリーボードの例で、このキャラクターがあり、このAIにさまざまなことをするこのキャラクターのすべての異なるシーンを生成させることができます。
このページにはさらに多くの例がありますが、時間の関係ですべてを説明することはできません。ページの上部にスクロールすると、テスト用の無料Hugging Faceデモがあります。非常にわかりやすいので、ここにリファレンス画像をアップロードし、ここにプロンプトを入力して、送信をクリックするだけです。
私のチャンネルでは、同様のことができる多くのツールを紹介してきました。例えば、先週はMetaのsin CDを取り上げました。こちらがいくつかの例で、これもかなり優れていることがわかります。また、数ヶ月前にはomn genも取り上げました。これは非常に強力で、リファレンス画像からキャラクターやオブジェクトをクローンするための私のお気に入りツールの一つです。例えば、このように男性と女性だけで画像を生成したり、このように男性と女性を生成したり、このように中央の花瓶に花を置いたりできます。非常に柔軟なツールです。omn genについてもっと知りたい場合は、インストールチュートリアルを完全に行っているこのビデオをぜひご覧ください。
さて、この新しいDiffusion Self-Distillationツールに戻りましょう。良いニュースは、彼らがすでに使用するためのモデルをリリースしており、すべてがオープンソースであることです。このHリポジトリには、コンピュータにダウンロードして実行する方法のすべての指示が含まれています。リンクはすべてここにありますので、詳細を読むにはこのメインページへのリンクを説明欄に記載しておきます。
次に、非常に強力な新しいビジョンモデルがあります。Coherという企業によるA Visionと呼ばれるもので、オープンソースです。彼らは2つのモデルをリリースしました。1つは80億パラメータで、もう1つは320億パラメータです。もちろん、この大きなモデルの方がパフォーマンスが高いですが、より多くの計算能力も必要とします。
このAIは基本的に画像を分析し理解するのに非常に優れています。この画像をアップロードして「ここにはどのような情報が提供されていますか?」と尋ねると、次のような回答が得られます。「この画像はバンダイ製品のパッケージの裏面を示しています」。これをどのように判断したのでしょうか?非常に印象的です。「おそらくおもちゃかゲームで、安全警告、リサイクル資格、カスタマーサポートの連絡先などが含まれています」。ウェブサイトがバンダイであることを検出したのだと思いますが、それ以外にバンダイを示す兆候は見当たりません。非常に印象的です。
そして「このアートスタイルはどこから来たものですか?そしてこの料理は何に使われますか?」と尋ねると、このアートスタイルが北アフリカ、特にモロッコからのものであると検出しています。モロッコのタイル細工として知られていますが、発音の仕方がわかりません。この写真からスタイルを検出できるのは非常に印象的です。
A Vision 8Bと同様のサイズの他の競合モデルとの比較をチェックしてみましょう。青いバーはA Visionが競合モデルを上回る割合を示しており、このA Vision Bが2つのベンチマークでこれらの他の競合モデルをほぼ完全に圧倒していることに注目してください。注意すべき点として、この最初のベンチマークであるAF Vision benchはCoherによる独自のベンチマークなので、若干の留保が必要です。
こちらは、A Visionモデル(8Bと32B)と他の主要なビジョンモデルを比較する別のグラフです。Y軸はビジョン分析能力を表し、値が高いほど優れています。X軸はパラメータ数です。左上隅に近いモデルほど、最もパフォーマンスが高く最も効率的であることを意味し、両方のAモデルがこの左上隅に最も近いことがわかります。
本当に印象的なのは、この320億パラメータのモデルがすでに非常に優れているQuin 2.5 Vと同じパフォーマンスを持っているように見えることです。そしてこれは2倍大きいので、Aが半分のサイズでこれほど多くのパフォーマンスを詰め込めるという事実は本当に素晴らしいことです。
彼らはテスト用の無料Hugging Faceスペースを提供しているので、実際に試してみましょう。この4台の車の画像をドラッグ&ドロップし、「この画像の車種を特定してください」と尋ねます。送信をクリックして結果を見てみましょう。
左上はロールスロイスと識別しました。これは正解ですが、それがファントム8であるかどうかはわかりません。左下はフェラーリ・ピノで、これは正解です。右上はメルセデス・ベンツGLSとなっていますが、これは違います。これはGLEであるべきです。右下はメルセデス・ベンツSLクラスと言っていますが、これはメルセデスではなく明らかにポルシェです。4台中2台を間違えています。今のところ印象的なテストではありません。
他のものを試してみましょう。この4人の人物の画像をアップロードし、「これらの人物は誰ですか?中国語と英語で名前を教えてください」と尋ねます。これを特定できるか見てみましょう。
1番はマイケル・ジャクソンで正解です。2番はジャッキー・チェン、ドナルド・トランプは正解ですが、これをコービー・ブライアントと特定するとは!彼はブルズのジャージを着ているのに、コービー・ブライアントがキャリアをレイカーズで過ごしたことを知っているにもかかわらず。これを間違えるなんて驚きです。
初期テストではそれほど良くないようです。これら2つの結果から、Quin 2.5 VLほど優れてはいないと思います。Quin 2.5 VLはこれら両方のテスト画像を正しく識別できます。少なくとも良い点は、これがオープンソース化されており、モデルの重みをリリースしているので、Hugging Faceでこれらのモデルすべてをダウンロードできることです。詳細を読むにはこのメインページへのリンクを説明欄に記載しておきます。
これで今週のAIのハイライトをすべて紹介しました。これらすべてについてどう思うか、どのニュースがお気に入りだったか、どのツールを最も試してみたいと思うかをコメントで教えてください。いつものように、あなたと共有するためのトップAIニュースとツールを探し続けます。
このビデオが気に入ったら、いいね、シェア、購読をお忘れなく、そして今後のコンテンツもお楽しみに。また、毎週AIの世界で起こっていることがあまりにも多く、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっているすべてを本当に最新の状態に保つために、無料の週刊ニュースレターを購読してください。そのリンクは説明欄にあります。視聴いただきありがとうございます。次回のビデオでお会いしましょう。


コメント