
14,362 文字

AIは休むことなく進化を続けており、今週もまた驚くべき進展がありました。新しいAIでは動画を別々のレイヤーに分解して、動画内のどんなオブジェクトでも編集や削除が可能になりました。また、カオスで激しいアクションのある動画でも、高精度でオブジェクトのセグメント化とトラッキングができる別のAIもあります。さらにOpenAIのO1を超える新しいオープンソースモデルが登場し、SORAがリークされ、新しいオープンソースの動画モデルなど、盛りだくさんの内容をご紹介していきます。
まずは、すでにかなりクレイジーなAIから見ていきましょう。Google DeepMindが開発したCat 4Dと呼ばれるもので、1つの動画から4Dシーンを生成し、異なる視点から動画を見ることができます。これがどれだけすごいか見てみましょう。
他の例を見てみると、動画全体を通して一貫性が保たれていることに気づきます。これは1つの動画だけで実現するのは簡単な作業ではありません。AIは見えない情報を推測する必要があります。例えば、キャラクターの背面がどうなっているかを推測しなければなりません。
このように、キャラクターの周りを軌道を描くようなカメラワークの場合、特にキャラクターの背面に欠陥が見られますが、単純な移動やパンニングであれば、すべてが一貫して見えます。3Dアニメーションでも機能することがわかります。
現時点では完璧ではなく、解像度も低く、生成物にはまだ目立つ欠陥もありますが、これは良いスタートと言えます。実際、このページではインタラクティブな例も提供されており、マウスをドラッグして動画を異なる角度から見ることができます。
例を見てみましょう。キャラクターの前面に焦点を当てている限り、見栄えは良好ですが、横にドラッグすると、端の部分や背景が変形していることがわかります。そのため、極端なカメラの動きは上手く機能しません。
動画の入力だけでなく、一連の画像を入力することもできます。例えば、階段を上る人物の3フレームを入力すると、このツールはそこから4D動画を生成できます。また、視点(カメラ)や時間などの設定を調整することもできます。
最初のシーンでは視点が固定されているため、カメラは動かず人物だけが動いているのに対し、2番目の生成では視点は固定されていませんが時間が固定されています。つまり、これは時間が凍結されたシーンですが、カメラは動いています。最後のシーンでは、視点と時間の両方が動くように設定されています。
数週間前に紹介した同様のAIであるDimension Xは、任意の画像を3Dシーンに変換し、カメラを動かすことができましたが、GoogleのCat 4Dは画像だけでなく入力動画でも同じことができるため、さらに一歩進んでいます。
まだリリースされたばかりなので、Hugging FaceやGitHubのリンクはありませんが、コードがリリースされたら必ずお知らせし、チュートリアルも行う予定です。今のところは、メインページへのリンクを説明欄に載せておきます。
次に紹介するツールも非常に強力です。これもGoogleが開発したGenerative Omniatで、基本的に動画を分析してレイヤーに分解することができます。例えば、人の頭と手を別々のレイヤーに分けることができます。これはどれだけすごいでしょうか。
別の例では、複数の少年それぞれを別のレイヤーに分けることができます。これはさらに印象的です。このように複数のペンギンがいる場合でも、それぞれを別のレイヤーに配置することができ、この動画で手を検出するだけでなく、手の影も各レイヤーに含めることができます。
さらに、これらが2人の異なる人物の手であることも認識しています。右側にもう一方の人物の手があることがわかるため、それぞれの人物用に別々のレイヤーを作成しています。
この例も同様で、車をレイヤーで分離しただけでなく、車の影と埃の跡も同じレイヤーに含めているため、車を削除すると影と埃の跡も一緒に消えます。
動画内で特定のオブジェクトが遮られている場合でも、例えば黒いシャツの人物が前景の別の人物に遮られている場合でも、このAIは黒いシャツの人物を動画全体を通してスムーズに別レイヤーで生成することができます。
もちろん、動画を異なるレイヤーに分離した後は、多くのクールな編集が可能になります。例えば、この動画の手を削除したり、レイヤーをエッジに変換したり、背景を入れ替えたり、各レイヤーをリサイズしたりできます。
各ペンギンは別々のレイヤーなので、好きなサイズにリサイズできます。この出力では、左側のペンギンがかなり小さくリサイズされているのに対し、右側のペンギンは大きくなっています。地面に映るペンギンの反射まで含まれていることにも注目です。
さらにクレイジーな例として、女性を別レイヤーとして取り出し、3回複製してこのような効果を生み出すことができます。手のレイヤーを削除してこのようなクールな効果を作り出す例もあります。
スケーターの各レイヤーを何回か複製してこのような効果を得ることもできます。人物は削除してダンボール箱だけを残す例もあります。元の動画では腕が箱を遮っていましたが、このAIを使用することで、その領域がどのように見えるかを推測して空白を埋めることができ、最終的には浮かぶ箱のシームレスな動画が得られます。
少女のレイヤーを消して空中に浮かぶ飛行機だけが見える、というクールな例もあります。これは別の素晴らしいアイデアです。グループで跳んでいる人々の動画があるとして、タイミングが合っていない場合、各人物を別々のレイヤーに配置し、タイミングを調整して全員が同時にジャンプして着地するようにできます。
今週リリースされたばかりなので、現時点ではプレプリントのみで、GitHubやHugging Faceのリンクはまだありませんが、いずれオープンソース化されることを期待しています。その際には必ずお知らせし、チュートリアルも行う予定です。今のところは、このページへのリンクを説明欄に載せておきます。
次に紹介するツールもかなりすごいものです。Samuraiと呼ばれ、動画内のオブジェクトを高精度でセグメント化およびトラッキングできる強力なAIです。これはSegment Anything Model 2(SAM 2)をベースにしています。SAM 2はオブジェクトのセグメント化に優れていますが、特に高速なシーンや混雑したシーンでのオブジェクトトラッキングは得意ではありません。
この例で見られるように、前景で他の兵士が走り回るなどの多くの遮蔽物がある場合、SAM 2は動画の途中でメインキャラクターへの焦点を失ってしまいますが、Samuraiは動画全体を通して焦点を維持することができます。
Samuraiの動作例をいくつか見てみましょう。SEKIROのゲームプレイデータでは、この戦闘シーンがかなりカオスな状態でも、このキャラクターのセグメント化を維持できています。悟空WAKONGのゲームプレイの例でも、このかなりカオスな戦闘を通してメインキャラクターのセグメント化を維持できています。
このフットボールゲームの例は非常に難しい動画です。プレイヤーが至る所を走り回り、メインの選手にタックルしようとしていますが、それでも26番のプレイヤーのトラッキングとセグメント化を維持できています。
このミュージックビデオでも、他のダンサーが至る所で動き回り、時にはメインキャラクターを遮っていても、メインキャラクターのセグメント化を非常にスムーズに維持できています。
先ほど述べたように、Samuraiは特にこのような高アクションシーンでのオブジェクトのセグメント化とトラッキングのために設計されたAIです。アーキテクチャを簡単に説明すると、モーションを認識するメモリ選択メカニズムを組み込んでおり、これによってオブジェクトの動きをより良く予測できます。
良いことに、コードはオープンソースで、すでにリリースされています。GitHubにアクセスして中央あたりまでスクロールすると、ローカルコンピュータにインストールして実行するための説明がすべて記載されています。
さらに良いことに、これはApache 2ライセンスの下で提供されており、制限が最小限で、商用目的を含めてほぼどんな用途にも使用できます。リンクは全てここにありますので、詳しく読みたい方は説明欄のメインページへのリンクをご覧ください。
次は、Material Anythingと呼ばれる新しいAIを紹介します。これは物理ベースレンダリング(PBR)マテリアルを生成できます。これらのマテリアルは、オブジェクトの見た目と光への反応をシミュレートします。これらの例で見られるように、通常のPBRマテリアルのない3Dモデルよりもはるかにリアルに見えます。
これらのマテリアルには、右側に示されている4つの主要な特性があります。アルベドはマテリアルの色を指し、ラフネスは表面の滑らかさや粗さを指します。ラフネス値が低いと表面は非常に滑らかく反射性が高くなり、高いと光をあまり反射せず、より粗い表面になります。
メタリックは金属の反射的で光沢のある特性を指し、バンプは表面のでこぼこや不均一さを指します。このAIは、何かの表面を生成する際にこれらすべてを扱うことができ、プロンプトと無地の3Dモデルだけで、適切なテクスチャを非常によく生成できます。
例をいくつか見てみましょう。テクスチャのない無地のオブジェクトを入力し、メタルアーマーとプロンプトすると、確かにメタルアーマーを生成し、金属のように非常に光沢のある仕上がりになります。錆びたオレンジ色のロボットの例では、確かに錆びているように見え、表面の反射性が大幅に低下しています。
入力する3Dモデルは無地である必要はなく、最初に色(アルベド)を指定することもできます。これは色だけの例で、反射特性やラフネスなどの他の情報は含まれていませんが、このAIとプロンプトだけで表面を非常によく生成できます。
例えば、オスカー像とプロンプトすると、金のトロフィーのように本当に素敵な光沢のある仕上がりになります。既存の3Dオブジェクトを強化するためにも使用できます。例えば、ここに磁器のティーポットがありますが、入力モデルは磁器らしく見えません。しかし、このAIに組み込むと、マテリアルがより洗練された見た目になります。
もちろん、プロンプトだけで指定したテクスチャに変更することもできます。例えば、木製の樽はこのように、金の樽はこのように、石の樽はこのように見えます。見てわかるように、それぞれがプロンプトに基づいて異なるアルベド、ラフネス、メタリック、バンプ特性を持っています。
異なる照明条件に適応できるこれらのPBRテクスチャを追加する利点は、これらの3Dモデルを異なる環境や背景に配置できることです。例えば、上段の背景にこれらのモデルを配置すると、ホワイトバランスと照明が背景に応じて変化することがわかります。
これはアニメーション、ビデオゲーム、VRにとって非常に強力なツールになる可能性があります。上部までスクロールするとGitHubページがありますが、現在は空の状態です。私は少し早めに紹介していますが、作者は将来的にコードをリリースする予定だと述べています。更新をお待ちください。今のところは、詳しく読みたい方のためにメインページへのリンクを説明欄に載せておきます。
次にOM Mini Controlという新しいAIを紹介します。これは非常に優れたスタイル変換ツールです。オブジェクトの入力画像を1つ取り、「このアイテムが木製テーブルの上にクローズアップで配置され、背景は暗い部屋で、テレビの画面には料理番組が映っている」というプロンプトを与えると、このような結果が得られます。
オレンジと木製ボウルの位置や形状が元の画像とかなり一致していることに注目してください。別の例では、入力画像がこのおもちゃの車で、プロンプトが「月面での映画風のショット、このアイテムが月面を走り、旗にはOM miniと書かれている」の場合、確かにOM miniの旗を付けた車が月面を走る様子が生成されます。
完璧ではありませんが、この出力画像でも車の細部がかなりよく保持されていることがわかります。この黄色い時計を入力画像として、側面に大きな3がある例では、プロンプトが「このアイテムは花瓶の花が置かれた光沢のあるガラステーブルの上に配置されている」の場合、まさにそのような結果が得られ、時計の全体的な形状と大きな3も保持されています。
これは衣服をモデルに追加したり、eコマースビジネス用の商品写真を作成したりするのにも最適です。例えば、シャツがあり、プロンプトが「ビーチで、女性がビーチパラソルの下に座っており、このシャツを着ている、背景には夕日が沈んでいる」などの場合、このような結果が得られ、シャツがいかにシームレスに女性に着せられ、全体的なパターンが確かに正確であることに注目してください。
他の衣服の例をいくつか見てみましょう。これが入力画像で、「カフェで女性が着ている」という同じプロンプトで4つの異なる生成を行うと、赤いストライプと青いテキストを含めて、Tシャツが4つの生成すべてにわたってかなり正確に変換されていることがわかります。
さらに難しい例として、この青いベストを見てみましょう。このベスト全体に複雑で入り組んだ細部があることに注目してください。「スタジオで若いモデルがこれを着ており、背景は白い壁」というプロンプトで4つの生成を行うと、OM Mini 2ツールはこれらのモデルにシャツをシームレスに適用できています。
これは非常に複雑なパターンなので、いくつかの欠陥があります。例えば、2番目の画像では黄色い部分が左側にあるべきところ右側にありますが、他の画像は正しく生成できています。
他の例を見てみると、これが製品写真撮影に使用できる可能性を示しています。この赤い椅子があり、異なるプロンプトで椅子が異なる環境に配置されているのがわかります。このバラの花瓶も同様で、異なるプロンプトで花瓶がさまざまな環境にシームレスに配置されています。
このぬいぐるみの鶏の場合も、入力画像の細部を保持しながら、すべての異なる環境に鶏を配置できています。
スポンサーのAbacus AIによるChat LLMというこの素晴らしいツールについてお話しましょう。これにより、最高のAIモデルを1つの統合プラットフォームで使用できます。最新のO1 preview、O1 mini、GPT 4.0やClaude Sonnet 3.5などの最先端モデルが含まれています。
また、プロンプトに基づいて使用する最適なLLMを自動的に選択する新しいRoute LLM機能もあります。最新かつ正確な情報を見つけるためにウェブを検索するSearch LLM機能もあります。
トーンを設定してより人間らしい出力を生成できるHumanize機能もあり、チャットボットから直接画像を生成することもできます。最高のジェネレーターであるFlux Proを使用しており、単一のプロンプトで動画を生成することもできます。
また、コーディングや何かを構築している場合に、アプリをサイドバイサイドで表示して操作できる素晴らしいアーティファクト機能があります。プロンプトを使用してパワーポイントプレゼンテーションなどのドキュメントを簡単に作成することもできます。
PDFやドキュメントをドラッグ&ドロップして分析することもでき、レポートの生成やデータ分析が簡単にできます。AI Engineerと呼ばれる新機能もあり、独自のカスタムデータや指示に基づいてカスタムチャットボットを作成できます。
これは、最高のAIモデルを1つのプラットフォームで使用できる非常に強力な方法です。説明欄のリンクから試してみてください。
他の難しい例をいくつか見てみましょう。このぬいぐるみはかなり難しく、下記のプロンプトで、すべての生成にわたってこのぬいぐるみを正確に変換できていることがわかります。
前に紹介したこのおもちゃの車も同様で、このパターンと色は非常に難しく、通常のControlNetでは同じスタイルを複製するのが難しいですが、これを使用すると、すべての生成にわたって車を非常に正確に複製できています。
このロボットのおもちゃも、非常に難しいデザインですが、すべての生成にわたって適用できています。最後にこの虹色の靴を見てみると、これもすべての異なる条件にわたってシームレスに追加できていることがわかります。
2列目では「このアイテムは鏡の上に置かれている」というプロンプトがあり、これは追加の複雑さがあります。鏡は下部でアイテムを反射する必要がありますが、それぞれの生成で反射をうまく処理できていることがわかります。
これは製品写真の生成に最適です。なお、このモデルはベースモデルとしてFlux Schnellを使用しており、Flux Devでは上手く機能しない可能性があります。現在、モデルは512×512の解像度のみをサポートしていますが、将来的にはより高い解像度のサポートをリリースする予定です。
今のところ、上部までスクロールすると無料のHugging Faceスペースがあり、試すことができます。スペースは直感的に使用できます。画像をアップロードしてプロンプトを追加し、送信を押すだけで画像が生成されます。このボタンを押して画像をダウンロードできます。
リンクは全てこのGitHubページにありますので、詳しく読みたい方は説明欄のリンクをご覧ください。
また今週は、新しい無料のオープンソースAI動画ジェネレーターが登場しました。これはLitXが開発したLTX Videoで、驚くべきことに、一般的なGPUで数分以内に24fpsの5秒動画を生成できます。
これはSoraのような非公開モデルが動画生成に大量の計算能力を必要とすることを考えると、大きな進歩です。このモデルは現在最も高速で軽量なモデルです。
このモデルは非常に長く詳細なプロンプトで最も効果を発揮します。例えば、「長い茶色の髪と明るい肌を持つ女性が、同じく長い茶色の髪の別の女性に微笑みかけています。茶色の髪の女性は黒いジャケットを着ており、右頬に小さくほとんど目立たないほくろがあります」などというプロンプトの場合、このような結果が得られます。
別の例では、「男性が窓に向かって歩き、外を見てから振り返ります。短い黒髪と浅黒い肌で、赤と灰色のスカーフの上に茶色のコートを着ています」などというプロンプトで、この場合も人物の服装や動き、背景について非常に詳細に描写する必要があることに注目してください。
もう1つの例では、「カメラが雪に覆われた山脈をパンして、広大な雪をかぶった峰々と谷を映し出します」などというプロンプトで、ここでも結果を得るためにプロンプトにどれだけ詳細を加える必要があるかに注目してください。
ここでのプロンプトは「波が岸辺の尖った岩に打ち付け、水しぶきが高く舞い上がります。岩は暗灰色で、鋭い縁と深い亀裂があります」などとなっています。
これは実際、トランジションにも非常に効果的です。ここでのプロンプトは「短い茶色の髪の女性がマルーンのノースリーブトップとシルバーのネックレスを着用し、部屋を歩きながら話しています。そして、ピンクの髪の白いシャツを着た女性がドアに現れます」というもので、これを非常によく反映しています。
良いことに、彼らはテキストから動画への生成モデルをリリースしただけでなく、画像から動画への生成も含まれています。さらに良いことに、このモデルはすでにダウンロードして使用できます。つまり、無制限に無料で自分のコンピュータで使用できます。
ここにローカルインストールの手順がすべて記載されています。ここでテキストから動画への生成、画像から動画への生成が示されており、Comfy UIにも統合できます。少し上にスクロールすると、オンラインで使用できる無料のHugging Faceスペースがあります。
実際に試してみましょう。インターフェースはこのようになっています。かなり分かりやすいですね。ここにプロンプトを入力し、これは省略可能です。Enhanced Promptは常にオンにすることをお勧めします。そうしないと結果が良くありません。
ネガティブプロンプトについては、生成から除外したいものすべてがここに入ります。私はこれをデフォルトのままにしておく傾向があります。解像度のプリセットもデフォルトのままにしておく傾向があります。他のオプションを選択すると、より低品質の動画が生成される傾向があります。
以前の動画ジェネレーターをテストするために使用した一連のプロンプトでこれを試してみましたが、結果はあまり良くありませんでした。例えば、「北極の空でのオーロラのタイムラプス」を試してみました。プロンプトにより多くの詳細を追加するためにEnhanced Promptをクリックしましたが、動画生成をクリックした後、これが結果でした。
以前テストした他の動画ジェネレーター(オープンソースのMachiを含む)と比べてかなり悪いことがわかります。
テストした別のプロンプトは「非常に悲しく落ち込んでいる女性。目は赤く涙をたたえ、表情は悲しみと精神的な痛みを表しています」でした。ここでもプロンプトにより多くの詳細を追加するためにEnhanced Promptをクリックしてから動画生成をクリックしましたが、これが結果でした。
最後に、さらに難しいプロンプトを試してみました。これはうまくいかないと予想していましたが、プロンプトは「兵士が戦場の街を走り抜ける一人称視点のショット。ライフルを手に持ち、カメラは素早く動き、近くで爆発が起こり破片が舞い上がります。兵士が身を隠して敵に向かって発砲する際、視点が上下に揺れ動きます」というものでした。
これは、カオス的なアクションシーンを生成する能力をテストするためのものでしたが、もちろんあまりうまくいきませんでした。これが得られた結果です。
私の初期テストに基づくと、結果は良くないことがわかります。これは非常に高速ですが、これらの動画の品質は使用できるレベルではありません。そのため、ここでは完全なビデオではなく、ニュース動画の中で言及するだけにしました。
まだその時期ではないと思います。現時点ではこれは研究用またはプレビュー版であり、将来的にはもっと良い微調整バージョンが出てくると確信しています。そのような時が来て、品質が十分に良くなったら、必ず完全なチュートリアルとレビューを行います。そのときまでお待ちください。
今のところ、これが存在することを知っておいてください。本当に興味がある方は、ローカルにインストールして実行するためのすべてのリンクがあるGitHubをご覧ください。説明欄にこのページへのリンクを載せておきますが、少なくとも私の意見では、まだこれを使って動画を生成する時間を費やす価値はありません。品質がまだそこまで達していないのです。
他のニュースとして、まだ聞いていない方もいるかもしれませんが、OpenAIの謎の動画ジェネレーターSoraが今週リークされました。これはかなり面白い展開です。
アーリーアクセスを持っていたアーティストの1人がこのHugging Faceスペースを作成し、APIアクセスを誰もが使えるようにリークしたのです。彼らによると、その理由は次の通りです:
「私たちはSoraへのアクセスを、アーリーテスター、レッドチーマー、クリエイティブパートナーになるという約束のもとに受け取りました。しかし、代わりに私たちは、Soraがアーティストにとって有用なツールであると世界に伝えるためのアートウォッシングに誘い込まれていると考えています。アーティストはあなたがたの無給のR&Dではありません。私たちは無料のバグテスター、PRの操り人形、トレーニングデータの検証トークンではありません」
そして最後に、代替となるオープンソースモデルをいくつか提案しています。これは無料テストに対する抗議のようですが、正直なところ奇妙です。このアーティストが誰であれ、これはSoraを早期にアクセスしてテストできる自主的なプログラムでした。支払いを期待していたのなら、そもそも参加する必要はなかったはずです。今になって文句を言うのは少し変な話です。
いずれにせよ、このHugging Faceスペースがリリースされた後、OpenAIは数時間以内に素早く対応してシャットダウンしました。実際、この出来事は少なくとも一時的にアーティストとの関係を完全に壊してしまい、すべてのアーティストに対してSoraの早期アクセスを一時的に停止せざるを得なくなったと述べています。
しかし、この数時間の間に多くの人々が動画を生成することができました。いくつか例を見てみましょう。ここに1つ例がありますが、すでにこれにはかなり感心させられます。犬がこの松の木に飛び込むとき、すべてが一貫性を保っており、欠陥を指摘するのが難しいほど非常に高品質です。
次にここでより欠陥のある例があります。ご覧の通り、このように男性がハンバーガーを食べたり噛んだりする様子を生成することはできません。これは明らかに、人が食べる動画の生成で最も優れているClingには及びません。しかし、この広角ズームインの効果は実際にかなり印象的です。
次の例は、猿がこのパズルキューブのようなもので遊んでいる様子です。これも非常に詳細で品質が良いのですが、唯一の欠陥は猿が2本の尾を持っているように見えることです。つまり、私たちが知っているすべての画像・動画ジェネレーターと同様に、Soraも解剖学的な理解が完璧ではありません。
別の例を見てみましょう。このように複数のキャラクターがいる、より動きの激しい高アクションシーンになると、単に崩壊してしまいます。前景の男性が何をしているのかわからず、動画の最後では背景の老人が消えてしまいます。これは非常に不自然な動画で、明らかに一貫性がありません。
実は、ゲームプレイ動画をシミュレートできたこの生成に最も感心しました。これは他の動画モデルと比較して、はるかに詳細なゲームプレイ生成です。Soraで生成された別のゲームプレイ動画の例がここにありますが、遠くから見るとこれは確かにビデオゲームのように見えます。
東京の女性の動画のリメイクもありますが、ほとんどの部分で非常に良好です。すべてが非常に詳細であることがわかりますが、通りに沿った看板の文字は実際の文字ではありません。これは今日存在するすべてのAIジェネレーターに共通する通常の欠陥です。
驚くべきことに、この例で見られるように、アニメもかなりうまく生成できるようです。これは従来のアニメにしては少し3D的すぎることに注意してください。しかし、アニメさえ生成できない他の動画ジェネレーターと比べるとかなり良好です。
ここにディズニー・ピクサー風のアニメーションの例がありますが、悪くはありません。しかし、特にこれらのキャラクターの脚に関して、まだいくつか不自然で一貫性のない部分があります。
食事シーンの別の例がありますが、ご覧の通り完全に失敗しています。この男性がスパゲッティを本当に食べているようには見えません。つまり、Soraは低モーションでスムーズなパンニング動画を扱うことはできますが、食事やダンス、走行などのより一般的でない動作を加えると、多くの欠陥が見え始めます。
少なくとも私の初期観察では、Soraは既存の主要な動画モデルよりもやや詳細で品質が高いように見えますが、一貫性と高アクションシーンの扱いに関しては、少なくとも私の意見では、MinimaxやCingと比べて実際には劣っています。
最後に注意すべき点として、このHugging Faceスペースでファイルタブをクリックし、このapp.pyファイルを調べると、OpenAI APIに送信される情報があり、ここでモデルがturboバージョンであることが示されています。
つまり、私が今お見せしたすべての生成は、Soraのライトバージョンを使用しただけで、フルバージョンではないということです。おそらく彼らは舞台裏でもっと良いものを準備しているのかもしれません。
他のニュースとして、OpenAIのフラッグシップモデルであるO1と同等の性能を持つ、新しいオープンソースAIモデルが登場しました。これはアリババのQuenによるもので、このモデルには非常にユニークな名前「QWQ」(Quen with Questions)が付けられています。
これはわずか320億パラメータの非常に小さなモデルで、現在はプレビューバージョンですが、深い思考と自己反省に焦点を当てています。実際、彼らは理解への果てしない探求心を持つ深い好奇心をプログラムしました。
ここに、他の主要なAIモデルと比較したQWQのベンチマークスコアがあります。GPQAは大学院レベルの問題を解くためのGoogleプルーフベンチマークですが、QWQ 320億はO1 previewには負けましたが、O1 miniは上回っています。このQWQがわずか320億パラメータと非常に小さいことを考慮してください。
コーディングでの問題評価と解決に使用されるLive Code Benchでは、まだOpenAIのO1モデルには及びませんが、320億パラメータでこれらの非思考モデルの残りすべてを上回っています。少なくともGPT 4.0は1.76兆パラメータを超えていることを考えると、これはすでに非常に印象的です。
そして、より数学に焦点を当てたAIMとMath 500の両方で、O1 previewを上回っていることに注目してください。全体的に、私はこれがOpenAIのO1モデルと同等だと言えると思います。これもまた、チェーンオブソートプロセスまたは論理的なアプローチで、すべての異なる可能性を段階的に考え抜いてから答えを出力するもう1つのモデルです。
この例で見られるように、「不正確な方程式に括弧を1組追加して、方程式を正しくしてください」という問題に対して、QWQはこのように考えます。この本当に長い思考と推論の文字列に注目してください。
まず「問題を段階的に取り組んでいきましょう」などと言い、次に「これらを方程式に代入して加算し」、そして「演算の順序を変更するために括弧をどこに配置すべきか考える必要があります」などと続きます。
ここで異なる可能性をテストしていますが、まだ479になりません。そこで他のオプションを試しています。「もし~ならどうなるか」などと検討し、また壁にぶつかると「別のアプローチを試してみましょう」と言って続けています。
「より近づいてきましたが、まだ479ではありません。別のアプローチを試してみましょう」と言って、さらに異なるバリエーションを試し続けています。
ここで「代わりの戦略が必要かもしれません。減算が暗示されるような方法で項をグループ化する必要があるかもしれません。あるいは、括弧は特定の方法で加算をグループ化する必要があるかもしれません。最初の数項をグループ化してみましょう」と言っています。
そしてまた考え続け、考え続け、考え続けています。これは本当に長い思考プロセスで、ここで見られる通りです。そしてまだ479に達していないので、今また別のアプローチを試しています。
このように、チェーンオブソートを使用して、最終的な答えが479であることを確認するまで、異なる戦略を試し続けています。ここが最終的な答えです。
クレイジーなことに、このQWQモデルはオープンソースで、すでにGitHubやHugging Faceでモデルをリリースしています。GitHubをクリックして中央あたりまでスクロールすると、AmaやほかのLLMプラットフォームを使用してこれをローカルにダウンロードして実行できます。
さらに、試すことができる無料のHugging Faceスペースもあります。これをクリックして、「9.11と9.9のどちらが大きいですか?」とプロンプトを入力してみましょう。私は単純な人間なので、その能力を本当にテストするためのPhDレベルの質問は知りませんが、これを試してみましょう。
どれだけ考えているかに注目してください。これらすべてのステップを経て、100を掛けてみようとし、そして自分自身を疑い始めます。「ちょっと待って、9.9は単に9.9なのに対し、9.11は小数点以下に2桁あるので、より小さく見えます。混乱しているのかもしれません。別のアプローチを試してみましょう」
そこで今度は互いに引き算を試みています。引き算をした後、負の結果が得られ、これは9.11が9.9より小さいことを示しています。そしてまた自分自身を疑い始め、「これは難しい可能性があります。小数点以下の位を1つずつ考慮すべきかもしれません」と言っています。
基本的に、長い推論と思考の文字列の後、9.9が9.11より大きいという結論に絞り込んでいます。
QWQだけがO1を上回れるオープンソースモデルというわけではありません。実際、先週私はDeep seekという会社からの別のモデルについて話しました。彼らはDeep seek R1 lights previewをリリースしたばかりで、これも非常に小さくオープンソースですが、AIMやMathなどの多くのベンチマークでOpenAI O1 previewを上回ることができました。
これは本当にクレイジーな進歩です。数ヶ月前にOpenAIがO1をリリースしたとき、誰もが驚きました。これはPhDレベルの質問や数学・科学の複雑な問題を解決できる唯一のモデルでした。しかし、わずか数ヶ月後、私たちは今やO1と同等かときにはさらに優れたオープンソースモデルを持っています。これは本当に信じられないほどの進歩です。
以上が今週のAIのハイライトをまとめたものです。コメント欄で、これらすべてについてどう思うか、どのニュースが最も興味深かったか、どのツールを最も試してみたいと思うか、教えてください。
いつものように、私は最高のAIニュースとツールを探し続け、皆さんと共有していきます。この動画を楽しんでいただけた場合は、いいね、シェア、購読をお願いします。
また、毎週AIの世界で起こっていることが本当に多すぎて、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっているすべての最新情報を本当に把握するために、無料の週刊ニュースレターに登録することをお勧めします。リンクは説明欄に記載しています。
ご視聴ありがとうございました。また次回お会いしましょう。


コメント