
15,942 文字

AIは休むことがなく、今週は本当に驚くべき1週間でした。2つの新しいオープンソースの画像生成モデル、動画の照明・色・素材特性を検出・編集できるAI、2つの新しい無料AIミュージックジェネレーター、OpenAIが今までで最も高性能なo3ミニをリリース、さらにはGPTとClaudeを上回る3つの新しいAIモデルなど、盛りだくさんの内容についてお話ししていきましょう。
まず最初に、非常に強力なAIについてご紹介します。NVIDIAのdiffusion renderと呼ばれるもので、その機能を説明しましょう。これは動画を取り込み、動画内のオブジェクトの形状、深度、素材特性などの特徴を推定することができます。例えば、入力動画があった場合、動画内のすべての要素の深度を計算できます。また、3Dオブジェクトの表面を定義するノーマルも計算します。これは現実的な照明やシェーディングをシミュレートする上で非常に重要です。さらに、シェーディングや照明を適用する前のオブジェクトの基本色であるアルベドも計算します。それに加えて、オブジェクトの金属的特性、つまりどの程度反射するかも推定します。そしてオブジェクトの粗さも推定します。
これらの機能がどのように動作するか、いくつか例をお見せしましょう。左上が入力動画で、動画からこれらすべての特性を推定できることがわかります。シーンが複雑で多くのオブジェクトがある場合でも、非常にうまく処理できています。動画からこれらすべてのことを理解し推定できるため、動画内のオブジェクトの色、照明、反射性などを操作するような驚くべきことが可能になります。
いくつか例をお見せしましょう。これは本当に驚くべきものではないでしょうか。照明の調整についてさらに例をお見せします。左側が入力動画ですが、照明を好きなように調整することができます。4つの動画それぞれで照明と影が異なることに注目してください。既存の照明調整手法と比較すると、この新しいツールがはるかに正確で一貫性があることがわかります。
また、任意の画像や動画の粗さや反射特性も変更できます。上段の列では、ボールと馬の粗さと反射性が変化していることに注目してください。下段の列のオブジェクトでも同様です。シーンの形状と照明を理解しているため、任意のオブジェクトを動画に挿入することもでき、既存の照明に合わせて調整されます。例えば、シンクを挿入するとこのようになります。テーブルを挿入してみると、シーンにシームレスにテーブルが追加されているのがわかります。
仕組みについて説明すると、まず入力動画を取り込み、逆レンダリングステージでdiffusionモデルを通します。このステージでは、動画を取り込み、オブジェクトの色、深度、その他の特性を1つずつ推定していきます。その後、フォワードレンダリングステージに渡され、それらの推定値を使用して、異なる照明条件や指定した変更したい特性に基づいて新しいフレームを生成し、出力動画を作成します。このAIのすごいところは、従来の手法とは異なり、明示的な3Dデータや照明データを必要とせず、入力動画だけでこれらすべてを推定し編集できることです。
続いて、Lumina image 2.oという新しい無料のオープンソース画像生成モデルについてご紹介します。これはサイズの割に非常に高品質なモデルです。パラメータ数はわずか20億で、比較対象のFluxが120億パラメータであることを考えると6分の1のサイズです。このLumina image 2は1024の解像度をサポートし、テキストエンコーダーとしてGemma 2を、VAEとしてFluxを使用しています。
いくつか例をお見せしましょう。現実的なシーンの生成に全く問題がないことがわかります。画像内のテキスト生成も非常に優れています。また、さまざまな言語でプロンプトを入力することもできます。現実的な画像に加えて、このような様々なアーティスティックなスタイルも生成できます。
さらに、1つの画像内に複数の画像を生成するという非常に興味深い機能もあります。例えば、「上半分に元の画像を、下半分にキャニーエッジマップを表示する2パネルの画像を生成してください」というプロンプトを入力すると、このような結果が得られます。別の例として、「左半分にラフスケッチ、右半分にハイパーリアルな肖像画として人間の顔が変化する2パネルの描写を生成してください」というプロンプトを入力すると、このような結果が得られます。
現在、Lumina imageはHugging Faceのスペースで無料でオンライン使用できます。プロンプトを入力するだけで使用可能ですが、詳細設定もあります。Lumina imageのもう1つの強みは、システムプロンプトと呼ばれるものを追加できることです。これはAIの規則や役割を記述する包括的なプロンプトのようなものです。例えば、「あなたはプロの写真家です」と設定すると、すべての出力が現実的なプロフェッショナルな写真になります。
ここにはネガティブプロンプトを入力します。これは画像から除外したい要素すべてです。そして、ここで幅と高さを調整します。他の設定は、以前に画像生成を行ったことがある方にはおなじみのものでしょう。
簡単なプロンプトを試してみましょう。「都市にいる女性の肖像画」と入力して実行してみます。こちらが結果です。確かに都市にいる女性の肖像画が生成されました。では、システムプロンプトを「あなはプロの写真家です」から「あなたは印象派の画家です」に変更して実行してみましょう。こちらが結果です。このような新しいシステムプロンプト機能が非常に便利だということがわかります。
既存の同じサイズのモデル(SDXL、Stable Diffusion 3、DALL-E 3、Omnigen、NVIDIAのSAAなど)と比較すると、ほとんどのベンチマークでLumina imageが最高スコアを獲得しており、サイズの小ささを考えると非常に印象的な画像生成モデルだと言えます。
モデルはすでにHugging Faceで公開されており、ダウンロードして使用できます。これは完全に無料でオープンソースです。詳しくはGitHubページをご覧ください。
次に、DiffSplatという新しい3Dモデル生成ツールについてご紹介します。これはテキストプロンプトや画像から3Dモデルを生成できます。モデルはガウシアンスプラットと呼ばれる形式で、簡単に言うと3D空間内の微小な色付きの点の集まりです。このツールは非常に高速で、モデルの生成にはわずか1〜2秒しかかかりません。
テキストの説明から3Dモデルを生成する例をいくつかお見せします。また、画像をアップロードして3Dモデルを生成することもできます。様々な例をお見せしますが、アップロードしたキャラクターが非常に詳細で複雑であっても、うまく処理できることがわかります。また、キャラクターの背面がどのように見えるかも正確に推定できます。
仕組みについて簡単に説明すると、テキストの説明または画像を入力し、このdiffusionモデルに渡します。これは基本的にStable DiffusionやFluxのような画像生成モデルです。素晴らしいところは、SDXLやPixart、Stable Diffusion 3など、異なる画像生成モデルをプラグインとして使用できることです。その後、潜在デコーダーを通して3Dモデルを生成します。この3Dレンダリングロスコンポーネントは、異なる視点から見ても3Dモデルが一貫性を保つよう、より高い一貫性を提供します。
また、非常に多用途なツールです。元のオブジェクトを取り込み、そのオブジェクトのノーマルマップ(オブジェクトの表面を推定するもの)を推定し、それをスチームパンクロボットのような新しいテキスト説明と組み合わせることで、このノーマルマップに基づいて新しいオブジェクトを生成できます。あるいは、表面を推定する代わりに、オブジェクトからデプスマップを抽出し、それを使用して異なるテキストプロンプトに基づいて新しい3Dモデルを生成することもできます。また、デプスマップの代わりに、元のオブジェクトからエッジを抽出し、再び異なるテキストプロンプトを使用して、この抽出されたエッジに合わせた新しいオブジェクトを生成することもできます。
上部にはすでにGitHubリポジトリがあり、インストールと実行方法についてのすべての説明が含まれています。
次に、ついに優れたオープンソースの音楽生成モデルが登場しました。Yeahと呼ばれるもので、プロンプトだけから完全な曲を作成できます。AudioやSoundrawのように、歌詞とジャンルを入力するだけで、魔法のように完全な曲を生成してくれます。少なくとも数分間の曲を生成できます。
いくつか例をお聞きください。例えば、ジャンルに「インスパイアリング・フィーメイル・アップリフティング・ポップ・エアリー・ボーカル・エレクトロニック・ブライト・ボーカル」と入力し、歌詞を入力すると…(サンプル音声の再生)
それが1つの生成例です。すべてを同じにして再度生成すると、別のバリエーションが得られます…(サンプル音声の再生)
ラップはどのように聞こえるか聞いてみましょう。ここでジャンルは「ラップ・ピアノ・ストリート・タフ・ピアシング・ボーカル・ヒップホップ・シンセサイザー・クリア・ボーカル・メイル」です。確かにラップのように聞こえますが、歌詞をかなり飛ばしていて、あちこちにジャンプしていることに注意してください。では、このセクションを再生し、入力した歌詞をお見せします…(サンプル音声の再生)
最後の部分でコーラスの前に、プロンプトで指定されていないランダムな歌詞を吐き出し始めていますが、実際にはガイダンスなしで続けてラップできるのは、フリースタイルのような感じで結構クールだと思います。
最後にジャズの例をお聞きください。ここでジャンルは「フィーメイル・ブルース・エアリー・ボーカル・ブライト・ボーカル・ピアノ・サッド・ロマンティック・ギター・ジャズ」です…(サンプル音声の再生)
とても素晴らしいですね。さらにヘビーメタルのような過激なものもできます。スピーカーの音量を少し下げることをお勧めします…(サンプル音声の再生)
スクリーミングやヘビーメタルのような過激なものも全く問題なく扱えることがわかります。また、異なる言語で歌うこともできます。例えば、日本語と英語を含むこれらの歌詞を入力し、さらに下にはいくつかの韓国語も入れてみましょう…(サンプル音声の再生)
最後の方で、オートチューンのシンセボイスエフェクトも入れていて、本当にクールですね。これらすべてが、無料でオープンソースのAIを使って、今すぐ実行できるということが素晴らしいと思いませんか。前述の通り、ジャンルと歌詞を指定するだけで、魔法のように完全な曲を、バースと歌詞を含めて作ってくれます。
上部にはGitHubリンクがあり、ダウンロードと使用方法についてのすべての説明が含まれています。現在のところ、かなりのGPUメモリを必要とすることに注意してください。最低でも24GBか16GBは必要でしょう。かなりの計算能力を必要とします。ただし、これは完全にオープンソースで、Apache 2ライセンスの下で公開されているため、商用利用を含めて自由に使用できます。このオープンソース化により、他のユーザーがすぐに量子化バージョンをリリースし、より少ないVRAMのGPUでも実行できるようになるはずです。
例でお見せしたように、品質はまだAudioやSoundrawほど良くありませんが、これは完全に無料でオープンソースです。インストールのチュートリアルをご希望の方は、コメント欄でお知らせください。詳しくはメインページへのリンクを説明欄に記載しておきます。
Yeahに加えて、もう1つ無料のAI音楽生成ツールがリリースされました。こちらも本当に素晴らしいものです。Refusionによるfuzzと呼ばれるものです。Refusionは以前からAI音楽生成の分野に携わっており、実際に2年前に初めて登場したときにも取り上げました。今週、彼らは新しいモデルfuzzをリリースしました。fuzzのサンプルをお聞きください…(サンプル音声の再生)
素晴らしいことに、GPUが持ちこたえる限り、現在彼らのサイトで無制限に無料で使用できます。refusion.comにアクセスするだけです。リンクは説明欄に記載しておきます。ここがプロンプトを入力して生成するところです。このcomposeセクションでは、より細かい制御が可能で、歌詞を追加したり、希望するサウンドを指定したりできます。
現在のトップヒットをいくつか再生してみましょう。Yeahと比べてはるかにクリアで立体的に聞こえることがわかります。この新しいRefusionモデルは本当に素晴らしいですね。別の例をお聞きください…(サンプル音声の再生)
ギターがとても現実的に聞こえ、ボーカルも非常に高品質でダイナミックです。本当に美しいですね。Refusionのもう1つの素晴らしい機能は、既存の曲を取り込んで、完全な曲をダウンロードできるだけでなく、曲の個別のステムをダウンロードして自分でリミックスできることです。本当にクールなツールです。
次に、今週のDeep Seekの話はこれで終わりだと思っていたかもしれませんが、実は彼らはさらにもう1つの素晴らしいものをリリースしました。今回は画像を生成できるマルチモーダルAIモデルで、Janus Proと呼ばれています。Deep Seek R1と同様、このモデルも無料でオープンソースですが、FluxやStable Diffusionのような通常のdiffusionモデルとは異なります。これは実際にテキストと画像の両方を扱えるマルチモーダルAIモデルです。
実は、パラメータサイズの異なる4つのモデルをリリースしており、当然最大のものが最高品質で、最小のものが最も高速で計算負荷が低くなります。Janusからの生成例をいくつかご紹介します。現実的なものから水彩画、油絵、アニメまで、さまざまなスタイルを生成できることがわかります。マクロ写真、風景写真も非常に優れています。さらに例をお見せしましょう。ピクセルアートのような生成もできますし、このような2.5Dのデジタルアート風の写真も生成できます。
これは単なる画像生成モデルではなく、テキストも理解できるため、様々なベンチマークと比較しています。左側では、同様のパラメータサイズを持つ他のモデルと比較して、マルチモーダル理解のベンチマークで、Janus Proがすべてのモデルを上回っていることがわかります。右側は、画像生成の指示追従ベンチマークにおけるJanus Proのパフォーマンスで、少なくともStable Diffusion 3 Medium、DALL-E 3、SDXLと比較すると、Janus Proが最高のモデルであることがわかります。
生成の品質はFluxほど良くないと言えますが、これはわずか70億パラメータであるのに対し、Fluxは120億パラメータであることを考慮する必要があります。また、これはdiffusionモデルではなく、単なる画像生成用ではありません。通常のテキストやチャット機能も備えています。そのため、このような小さなモデルにすべての機能を詰め込んでおきながら、マルチモーダル理解と画像生成の両面で他のモデルを上回るパフォーマンスを示しているのは、本当に印象的です。Deep Seekチームには脱帽です。彼らは本当に素晴らしいものをリリースしています。
前述の通り、これは完全に無料でオープンソースです。すでにモデルがダウンロードして locally実行できるように公開されており、さらにオンラインで実行できる無料のHugging Faceスペースも提供されています。
次に、今週のAIに関するいくつかの興味深いアップデートをご紹介します。以前に紹介した私のお気に入りのAIビデオジェネレーターの1つ、HilaMaximusが新しいディレクターモデルをリリースしました。これにより生成時のカメラの動きを制御でき、このような映画的なシーンを作成できます。
Hilaにログインしてcreateをクリックすると、現在はtext to videoタブの下にあり、ここで新しいディレクターモデルを選択できます。例えば、「陽の当たる草原でイーゼルに向かって絵を描いている孤独なアーティスト」というプロンプトを入力し、このカメラアイコンをクリックすると、シーンのカメラの動きを指定できます。カメラを左右にスライドしたり、左右にパンしたり、ズームイン・アウトしたり、上下にチルトしたりなど、様々なオプションがあります。これによりシーンのカメラの動きを実際に制御できます。
試しに「左回り」を選んでみましょう。これは基本的にオービットショットです。これをクリックすると、プロンプトにこれらのキーワードが追加されたことに注目してください。generateをクリックして、どのような結果になるか見てみましょう。こちらが結果です。確かにカメラが左に周回しています。本当に印象的ですね。これについては完全なレビュー動画を準備していますので、お楽しみに。
他のAIビデオニュースでは、AlibabaがWanxsと呼ばれる最新のビデオジェネレーターをリリースしました。発音はこれで合っているでしょうか?このモデルからの生成は実際に非常に優れており、一部の有料トップモデルさえも上回ります。現在、Qinチャットと呼ばれるインターフェースで無料で使用できます。ここにプロンプトを入力し、ビデオ生成をクリックするだけです。ここでアスペクト比を選択し、generateをクリックします。まだ無料なうちに、ぜひ活用してください。
すでにこのモデルの完全なレビュー動画を作成し、他のトップビデオモデルと比較していますので、まだご覧になっていない方は、ぜひチェックしてみてください。
このビデオは、AI Portraitの提供でお送りします。LinkedInやビジネスプロフィールに良質なプロフェッショナルな写真を使用することは、大きな違いを生みます。自分で撮影したり、友人に頼んだりすることもできますが、ほとんどの人はプロフェッショナルな写真を撮るのが得意ではありません。あるいは、プロのフォトシューティングを依頼することもできますが、平均して200ドル以上かかり、さらにセッションのスケジュールを組んで、カメラの前で何時間も気まずくポーズを取る必要があります。
そこでAI Portraitの登場です。わずか数分で、プロフェッショナルな高品質の写真のポートフォリオを生成できます。1枚の写真をアップロードし、性別を選択するだけで、様々な設定での50枚のプロフェッショナルなヘッドショットのポートフォリオを生成します。これらは数分以内に生成されます。物理的なフォトシューティングの手間なしに、高品質でプロフェッショナルな写真を探しているなら、AI Portraitがベストな選択です。説明欄のリンクからチェックしてみてください。
今週のAIニュースをフォローしていれば、Deep Seekについて聞いたことがあるでしょう。これは中国のAIモデルで、インターネットを席巻しています。OpenAI o1と同等の性能を持ち、完全にオープンソースで無料で使用できます。Deep Seekについてはすでにいくつかの動画を作成していますので、ここでは繰り返しませんが、まだご覧になっていない方は、この動画をチェックしてください。
Deep Seekに加えて、実は他にもいくつかの最先端のAIモデルがリリースされています。Alibabaは最近、彼らの最も高度なAIモデルであるQwen 2.5 Maxをリリースしました。これは専門家の混合モデルで、タスクを解決するために協力して働く専門化されたAIのチームのようなものと考えてください。例えば、コーディングが特に得意なAI、数学が特に得意なAI、ライティングが特に得意なAIなどがあり、これらのAIエージェントのチームをグループ化すると、より高性能になります。
これらのベンチマークスコアを見ると、赤いバーがQwen 2.5 Maxで、ほとんどのベンチマークで、GPT 4o、Claude、Deep Seek V3など、他の主要なモデルを上回っていることがわかります。これらはすべて非思考モデルで、Deep Seek V3であり、話題を呼んでいる思考モデルR1ではないことに注意してください。ほとんどのベンチマークで、主要な非思考モデルと同等かそれ以上の性能を発揮しているのがわかります。
素晴らしいことに、このチャットインターフェースで現在無料で使用できます。上部でモデルを選択でき、デフォルトでQwen 2.5 Maxが選択されているのがわかります。ちなみに、これはウェブ検索、コーディング、画像生成にも使用できます。これらの機能については、このビデオの後半で説明します。
また、特にコーディングを行いたい場合は、a-kqueによる無料のHugging Faceスペースでも試すことができます。ここで異なるモデルを選択でき、Qwen coderを選択してみましょう。ここでQwen 2.5 Maxを選択できます。これは日付で、最新のモデルです。
実際に非常に難しいプロンプトを入力してみましょう。「球体の中で3つの黄色いボールが跳ね返る、適切な衝突検出を処理し、球体をゆっくりと回転させ、ボールが球体内に留まるようにするスクリプトを書いてください。p5.jsで実装してください」と入力して、generateをクリックしてみましょう。
この無料プラットフォームAnyChatの素晴らしい点は、左パネルにコードを表示するだけでなく、右側でリアルタイムにコードの出力を表示してくれることです。こちらが結果です。これを完全に一発で、ゼロショットでやってのけました。これはQwen 2.5 Proのコーディング能力の高さを示しています。
このプラットフォームでQwen 2.5 Maxを無料で使用できますが、現在はオープンソースではないことに注意してください。開発者は現在、AlibabaのクラウドAPIを通じてのみアクセスできます。ただし、今週、他のいくつかのQwenモデルもリリースされ、これらは完全に無料でオープンソースで、様々なベンチマークスコアでも優れた成績を収めています。
こちらがQwen 2.5 VLです。視覚機能を持っているため、Qwen 2.5 Maxよりもさらに有用だと私は考えています。つまり、画像や1時間の長さの動画まで分析できます。いくつか例をお見せします。「これらはどんな観光地ですか?中国語と英語で名前を教えてください」というプロンプトを入力すると、すべてを正確に答えてくれます。「これらはどんな鳥ですか?中国語と英語で名前を教えてください」と質問すると、これも非常に印象的です。すべて正確に答えてくれます。以前のAI視覚モデルでは、種の識別は非常に難しかったので、これは本当に印象的です。車の識別についても同様に、Qwen 2.5 VLはすべて正確に答えます。有名人の識別も同様で、「写真に写っている人は誰ですか?中国語と英語で名前を教えてください」と質問すると、これも100%正確に答えることができます。
別の印象的な例として、「画像内のすべてのテキストを認識し、行ごとに出力してください」と質問すると、再びテキストを検出して正確に出力してくれます。さらに別の印象的な例として、「画像内のテキストを行レベルで認識し、JSON形式で出力してください」と入力すると、レシートの場合、すべてを検出してJSON形式で出力します。
HTMLに変換することもできます。この画像を入力し、「画像キャプション付きでHTMLを生成してください」とプロンプトを入力すると、このような結果が得られます。この視覚能力があるため、画像や動画を分析できることから、AIエージェントとしても使用でき、画面を解釈して次に何をすべきかを判断できます。
例えば、ユーザーがこのQwen 2.5 VLを搭載したAIエージェントを使って、重慶から北京への片道チケットを予約しようとしています。そしてそれは正確にそのように動作し、デバイスの画面を分析して、次に何を検索するか、どこをクリックするかを判断しています。
ちなみに、これは他の主要な視覚モデルを様々なベンチマークで圧倒的に上回っています。720億パラメータを持つQwen 2.5 VLの最大バージョンは、これらすべてのベンチマークスコアで、GPT 4oやClaude 3.5 Sonnetをはるかに上回る最高得点を記録しています。これは驚くべき成果です。いくつかのベンチマークだけでなく、これらすべてのベンチマークで圧倒できるとは。
素晴らしいことに、モデルはすでに公開されており、前述の通り、これらは完全に無料でオープンソースです。今すぐコンピュータにダウンロードしてオフラインで実行できます。3つの異なる視覚モデルをリリースしており、1つは30億パラメータ、もう1つは70億パラメータ、そして最後に最も性能の高い720億パラメータのモデルがあります。さらに、オンラインで試せる無料のHugging Faceスペースも提供されています。
主な発表ページへのリンクは説明欄に記載しておきます。Qwen 2.5 VLはオープンソースなので、多くのユーザーがすでにクローンを作成し、特定の目的のために微調整を行っています。このプロジェクトはまさにそれを行いました。Caracleと呼ばれ、ベースモデルとしてQwen VL 7Bを使用しています。これは手書きテキストを識別するための無料ツールで、特に歴史的な文書の分析が得意です。
例えば、この手書きの画像をアップロードしてsubmitをクリックしてみましょう。この「固有表現認識を実行」機能が何をするのかも、すぐにお見せします。素晴らしいですね。手書きのメモからテキストを正確に検出できているのがわかります。
次に、この「固有表現認識を実行」機能もオンにしてみましょう。これは基本的にこれらの異なるエンティティにラベルを付けることができます。デフォルトでは、人物、組織、場所、日付、イベントがありますが、人物と場所と日付のみをラベル付けしたい場合は、組織とイベントを削除し、submitをクリックして結果を見てみましょう。
なんと素晴らしいでしょう。この機能をオンにすると、これらのエンティティにラベルを付けているのがわかります。例えば、Pittsburghが場所として検出され、これは日付、これは人物、これは場所として検出されています。手書きのメモや歴史的文書の分析に特に便利な機能ですね。このHugging Faceスペースへのリンクは説明欄に記載しておきます。
Qwenの話はこれで終わりだと思っていたかもしれませんが、今週さらにもう1つの無料でオープンソースのモデルをリリースしました。Qwen 2.5 1Mと呼ばれ、名前が示す通り、100万トークンという巨大なコンテキストウィンドウを持っています。これは基本的に、プロンプトに一度に入力できる情報量のことです。
例えば、o1やo3ミニ(これについてはすぐにお話しします)、Deep Seek、Claude 3.5 Sonnetなどの最上位モデルは、200,000トークンまたは128,000トークンのコンテキストウィンドウしか持っていないことに注目してください。このため、この無料でオープンソースのモデルが100万トークンを持っているということは信じられないことです。これは70万語以上、または3万行以上のコードを取り込むことができます。これは特に、処理のためにAIに完全なコードベースを入力したい場合や、大量の技術文書を一度に入力したい場合に非常に有用です。
効率性か品質かを最適化するかに応じて、140億パラメータと70億パラメータの2つのバリアントをリリースしており、両モデルともデュアルチャンク注意と呼ばれる技術を使用して、長いシーケンスを効率的に処理します。これらの長文理解のベンチマークを見ると、太字または下線の値が最高得点を示していることに注目してください。GPT 4o miniやLlama 3.1を上回り、ほぼすべてのベンチマークでQwenモデルが最高得点を達成しているのがわかります。
これもAlibaba Qwenからの素晴らしい成果です。これは最先端のもので、これらのモデルを無料でオープンソースとして公開していることが信じられません。再び、Hugging Faceに行くと、すべてのモデルがすでにダウンロードしてオフラインで使用できるように公開されています。すべてのリンクが上部にありますので、説明欄にこのメインページへのリンクを記載しておきます。
中国のモデルの話はこれで終わりだと思っていましたか?実は、最高のモデルを上回るもう1つのモデルがリリースされました。今週は中国の旧正月だったので、これほど多くの素晴らしいモデルをリリースしているのはそのためかもしれません。新年を華々しくスタートさせたいのでしょう。
今回はByteDanceによるもので、これも専門家の混合アーキテクチャを採用しており、マルチモーダル機能を持っています。つまり、テキスト、画像、音声を入力できます。多くのベンチマークスコアで、GPT 4oやClaude 3.5 Sonnetなどの主要なモデルを上回っています。残念ながら、これはオープンソースではなく、彼らのVolcanoエンジンプラットフォームを通じてのみアクセスできますが、ByteDanceも最先端のモデルを持っているということは注目に値します。
加速を感じることができますか?おそらく、これらすべての最先端の中国モデルの圧力を受けて、昨日OpenAIは彼らの最高のモデルをついにリリースしました。o3ミニと呼ばれ、さらに優れたモデルであるo3の小型版または性能の低いバージョンですが、それでも非常に優れており、特に数学、コーディング、科学の分野で優れています。
Deep Seek R1のように、これは深い思考モデルで、問題を解決するために考え、推論することが得意です。良いニュースは、無料ユーザーでも今すぐo3ミニを試すことができることです。「9歳の男の子が7日間咳、発熱、鼻づまりがあり、ふくらはぎにひどい痛みがあり、目立つ跛行があります。これについてどう思いますか?」というようなプロンプトを入力してみましょう。
このreasonボタンをオンにすると、基本的にo3ミニを使って応答を考えることができます。generateをクリックして結果を見てみましょう。正直に言うと、Deep Seekと比べるとかなり物足りないものです。こちらが完全な思考プロセスです:「咳、発熱、ふくらはぎの痛みのある男の子についての情報を収集しています。良性急性小児期筋炎の可能性がありますか?」そして、それだと判断し、重要なポイントなどを提供します。
同じプロンプトをDeep Seekと比較すると、Deep Seekがその思考プロセスにおいてはるかに徹底していることに注目してください。例えば、「考えられる原因の1つはウイルス後筋炎です」と述べ、その理由を説明します。「もう1つの考えは、これは筋肉の破壊です。筋炎が重度の場合は可能性があります」そして「これはおそらく可能性は低いですが」「確実ではありませんが考慮する価値があります」「局所的な発赤、腫れなどの他の徴候が必要ですが、可能性はあります」「ライム病の可能性もありますが、ここでは確信が持てません」というように、すべての可能性を検討し、それぞれの確率を評価してから、急性ウイルス性筋炎だと結論付けています。
一方、o3からの応答がいかに短いかを見てください。本当に努力していない印象を受けます。ただし、無料ユーザーでもこのreasonボタンをオンにすることで、今すぐo3ミニを使用できることに注意してください。
実際には、性能の異なる3つのo3ミニモデルがリリースされており、highバージョンが最も性能の高いモデルです。競争的な数学では、o3ミニがo1さえも上回っているのがわかります。PhD レベルの質問でも、少なくともhighモデルのo3ミニが最高得点を記録しています。競争的なコーディングやソフトウェアエンジニアリングでも同様です。
無料ユーザーはo3ミニの使用が制限されます。ちなみに、これがlowバージョンかmediumバージョンのどちらを指すのかは指定されていません。有料ユーザーはモデルピッカーでo3ミニhighを選択するオプションがあり、これが最も性能の高いモデルです。そしてProユーザー(月額200ドルを支払う場合)は、o3ミニとo3ミニhighの両方に無制限にアクセスできます。
o3ミニは前身のo1ミニよりも性能が高いだけでなく、APIを使用する場合ははるかに安価で、応答も大幅に高速です。ここでは、o1ミニより24%高速だと主張しています。残念ながら、彼らが公開したこのレポートでは、o3ミニとo1のみを比較しています。Deep Seek R1との比較を見たいところです。
興味深いことに、Artificial Analysisと呼ばれる独立した評価者によるこのリーダーボードを品質指数でランク付けすると、o3ミニはDeep Seek R1と同点で、実際にo1より1ポイント低くなっています。ただし、はるかに安価であることに注意してください。
いずれにせよ、これは昨日リリースされたばかりで、このモデルで実行できる印象的なことをお見せする完全な深掘り動画を作成するかもしれませんので、お楽しみに。
次に、Googleは新機能「Daily Listen」を徐々にロールアウトしています。これは、毎日興味のあるトピックについて更新してくれる短い日次ポッドキャストのようなものです。
「こんにちは、GoogleによるDaily Listenという新しい実験的なオーディオショーへようこそ。私たちはAIを搭載したホストで、毎日あなたのために作成された簡単なアップデートをお届けする準備ができています。あなたの興味に合わせてパーソナライズされているので、あなたがフォローしているトピックや頻繁に検索する内容をカバーし、手間をかけることなく最新情報を得ることができます。この実験は現在ロールアウト中で、まだすべての人が利用できるわけではありませんが、いつでもウェイトリストに参加して、あなた専用のショーの準備ができたらお知らせします」
これは本当に興味深いアイデアだと思います。この技術は最終的にニュースやポッドキャストに取って代わる可能性があります。おそらく近い将来、毎日見たり聞いたりしたいコンテンツをAIがキュレーションし生成するようになるでしょう。これは現在一部のユーザーにのみ利用可能で、徐々にロールアウトしているため、まだすべての人が利用できるわけではありません。実際、私自身もこのダウンロードオプションを見ることができません。詳しくは説明欄のリンクをご確認ください。
最後に、今週また別のオープンソースモデルがリリースされ、これもGPT 4oとDeep Seek V3と同等の性能を持っています。今回はAllen Institute for AIというアメリカの企業によるもので、Tulu 3と呼ばれるモデルをリリースしました。これは真にオープンソースで、モデルの重みだけでなく、トレーニングデータとコードも公開されています。
Deep Seek V3やGPT 4oなどの他の最先端の非思考モデルと比較したパフォーマンスがこちらです。SFT、DPO、RLVRの意味については後ほど説明します。ここでも太字の値はベンチマークでの最高得点を示しています。他のモデルと比較したパフォーマンスは驚くべきものではなく、一部のベンチマークでのみ最高得点を獲得しています。
しかし、それでも印象的です。実際にはMetaのLlama 405bベースモデルを基に構築されており、トレーニングアプローチはDeep Seekがクレイジーなモデル「R1」をトレーニングした方法と非常によく似ています。
簡単に仕組みを説明すると、まずチームは問題解決などのコアスキルに焦点を当てたデータセットを慎重に選択しキュレーションしました。その後、このキュレーションされたデータセットで特定のプロンプトとそれに対応する回答からモデルをトレーニングしました。これは教師付き微調整(SFT)と呼ばれ、上の表に記載されているSFTがこれを指します。
次に、直接選好最適化(DPO)と呼ばれる技術を使用し、人々が好む応答を生成することを学習しました。これは理論的に応答の品質を向上させます。これが表のDPOが指すものです。
最後に、検証可能な報酬からの強化学習という手法を使用しました。この手法では、数学問題など、確定的な解を持つ問題に正しい回答を与えることでモデルに報酬が与えられます。これはDeep Seekが彼らのR1モデルをトレーニングした方法と非常によく似ており、特に数学とコーディングのスキルの向上に効果的です。先ほどの表のRLVRとは、この検証可能な報酬からの強化学習を指しています。
前述の通り、これは完全に無料でオープンソースです。すでにすべてのモデルがHugging Faceで公開されており、ダウンロードしてローカルで実行できます。
これで今週のAIのハイライトをすべて紹介しました。加速を感じることができるかどうかわかりませんが、特にここ2週間は本当に驚くべきものだったと思います。これらすべてについてどう思われますか?どのツールやモデルに最も期待していますか?いつものように、最新のAIニュースやツールをお届けできるよう、常に注目していきますので、このビデオを楽しんでいただけた方は、いいね、シェア、購読をお願いします。
また、毎週AIの世界では本当にたくさんのことが起こっているため、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっているすべてのことを本当に最新の状態に保つために、無料の週刊ニュースレターの購読をお願いします。リンクは説明欄に記載しています。
ご視聴ありがとうございました。また次回お会いしましょう。


コメント