Googleの新型AIが超人的な思考レベルに到達（驚くほど高速）

4,915 文字

https://www.youtube.com/watch?v=Mx8nV7zJ5hU

Googleは最近、多くの注目を集めるAI開発をいくつか行っています。その中でも特に重要なのは「mixture of depths」または「M mod」と呼ばれるものです。これはトランスフォーマーベースの言語モデルがシーケンス内のすべてのトークンに同じ量の計算リソースを割り当てる問題に対処するものです。Google DeepMindの研究者たちは、特定のトークンを高コストの自己注意とMLP計算を通じて動的にフロップス（浮動小数点演算）を割り当て、他のトークンは残差接続を通じてそれらをスキップできるようにすることが可能であることを示しました。
mixture of depthsの背後にある考え方は実はかなりシンプルです。文章内のすべての単語を同じように重要なものとして扱うのではなく、このAIはどの単語により多くの注意が必要で、どの単語がそうでないかを判断します。そして重要な単語により多くの処理能力を費やし、あまり重要でない単語はスキップすることで時間を節約し、すべてをより速く実行できるようにします。これにより、AIは半分の労力で同じくらい良い、時には更に良い結果を得ることができます。重要な部分に自動的に集中し、内容を逃すことなく埋め草をさっと読み飛ばすように本を読むようなものです。
このアプローチには、シーケンス内の各トークンにスカラー重みを生成するトークンごとのルーターが含まれています。それらの重みに従って上位K個のトークンは、そのトランスフォーマーブロックの自己注意とMLPによって通常通り処理され、残りはそのブロックを迂回してより低コストのルートを通ります。すべてのトークンが等しく扱われないため、これによりフロップスが大幅に削減されます。キャパシティは特定のKに事前設定されているため、ハードウェアの利用率が効率的に維持される静的計算グラフが保持されます。
ブロックにルーティングされるトークンは、トークンの関連性や難易度に応じて、あるシーケンスから次のシーケンスへと異なる場合があります。mod研究者はキャパシティを100%のトークンをはるかに下回る、例えば12.5%に設定し、2048トークンのうちわずか256だけを完全な計算にルーティングしました。彼らはこれをトランスフォーマーの1層おきに行うことが効果的であることに気づき、これによって総計算オーバーヘッドを削減しながらもパフォーマンスを維持または向上させることが可能になりました。
驚くべき結果として、M modは言語モデリングの損失の面でベースラインのトランスフォーマーと同等かそれ以上のパフォーマンスを発揮し、順方向パスあたりのフロップスが少なくなるため、同じ予算内でより高速または大規模なモデルになります。これらのフロップスをより大きなパラメータモデルに割り当てたり、より多くのステップで訓練するために使用したりすることができます。topKはルーターの出力によって決定され、研究者たちはこのアプローチがメモリフットプリントを削減し、トレーニング後のサンプリング中に50%以上の高速化をもたらす可能性があることも発見しました。
彼らが対処しなければならなかった一つの側面は、topKルーティングが通常シーケンス全体のルーター出力を必要とする場合に、どのように自己回帰サンプリングを実行するかという問題でした。彼らは、トークンが先を見ることなくそのブロックへのルーティングまたはその周りのルーティングを決定できるように、因果的な方法でtop K決定を近似する小さな補助的な予測器または小さな補助的な損失を導入しました。パフォーマンスコストは0.2から0.3%程度とわずかです。
研究者たちはまた、mixture of depthsとmixture of expertsを組み合わせて、彼らが「MOD」と呼ぶものを作り出しました。これは一部のトークンに対して完全なブロックをスキップし、さらに異なるMLPエキスパート間でルーティングすることができます。彼らはこの統合が通常のMoEでの単純な容量削減を超える改善につながることを発見しました。6E18、2E19、1E20フロップスなどのスケールで等フロップ比較を行ったところ、modアプローチにより、ベースラインと同等かそれ以上のトレーニング目標に到達できるが、順方向パスコストの一部で済むことがわかりました。一部の構成では、モデルは最終的な対数確率目標で最大1.5%ベースラインを上回りました。
また、処理されるトークンの12.5%などキャパシティが積極的に引き下げられる場合でも、全容量層が交互に配置されている限り、効率性が向上することが多いことも注目されました。著者らは、特定のトークンは単に多くの処理を必要としないため、それらに対する計算をスキップすることで、本当に必要なトークンのためのキャパシティが解放されると認識しています。
別の面では、GoogleはそのVideo 2.0（V2）AIビデオ生成モデルが、生成される動画1秒ごとに50セントの費用がかかることを明らかにしました。これは1分あたり30ドル、約1時間あたり1,800ドルのAI生成フッテージを意味します。このサービスは、短くても洗練された動画コンテンツを必要とするプロフェッショナルやビジネス向けのプレミアムツールとして説明されています。Google DeepMindの研究者ジョン・バロンは、アベンジャーズ・エンドゲームのような高予算のハリウッド映画の制作費用が1秒あたり約32,000ドルと報告されていることを比較の参考点として提示し、50セントが巨大なスタジオ予算と比較して比較的小さいことを示しました。
しかし、特にV2が約2分の長さのクリップを生成できるため、ユーザーが最終的な動画に組み込まれない生成された秒数に対して支払いをする可能性があります。このツールは、200ドルの月額ChatGPT Proサブスクリプションに含まれるOpenAIのSoraモデルと対比されており、課金アプローチの違いを示しています。
このテキストから動画への技術に関する別の展開として、Freepikは同じCreative Suiteの下でV2への早期公開アクセスを提供し始めました。最初の10,000人のユーザーは2回の無料生成を試すことができ、その後コストはクレジットで測定されます。5秒の動画には1,000クレジットが必要で、より安価なEssential Freepikサブスクリプションは年間69ドルで、最大84の短いクリップに相当する84,000クレジットが得られます。この配置は大量の生成フッテージが必要な場合には高コストになる可能性がありますが、プレゼンテーションやマーケティングキャンペーンで使用できる短いコマーシャルスタイルの動画向けと考えられます。一般的に、V2は生成するコンテンツのリアリズムで際立っており、これがGoogleが比較的高いレートを請求する理由です。
Googleからの別の興味深い新製品は、研究科学者が新しい仮説を形成し、実験を提案し、それらを洗練させ、さらに徹底的な研究概要を作成するのを支援するためのAI Co-Scientistシステムです。これはGemini 2.0の上に構築されたマルチエージェントアーキテクチャを使用しています。
生成エージェント、リフレクションエージェント、ランキングエージェント、近接エージェント、進化エージェント、メタレビューエージェント、そしてすべてを調整するスーパーバイザーエージェントと呼ばれるエージェントがあります。あるエージェントが最初の仮説セットを作成し、別のエージェントがそれらを批評し、別のエージェントがある種のトーナメントを通じてそれらをランク付けします。彼らはチェスでよく見られるELOレーティングプロセスを使用して、これらの仮説をランク付けします。低いレーティングの仮説が高いレーティングの仮説に勝ると、より多くのELOポイントを獲得するため、システムは時間とともに改善し続けます。
このツールの背後にあるグループは、他のAIアプローチと比較して有利な斬新さと影響力のメトリクスを提示しました。Co-Scientistバリアントは3.64の斬新さ評価と3.09の影響力評価を示し、Gemini 2.0 Pro実験設定は3.27の斬新さと3.0の影響力、OpenAI o1は3.09の斬新さと3.09の影響力を持っていると記されました。Co-Scientistバージョンが最良の組み合わせを持ち、ペアワイズ比較ではトップチョイスになる傾向があることを意味する2.36の低い平均ランキングを記録しました。
その潜在能力を強調する主な成果の一つは、抗生物質耐性細菌に関する10年間の謎をわずか2日で解決した方法でした。インペリアルカレッジロンドンのホセ・ペナデス教授とそのチームは、スーパーバグがどのように耐性を獲得するかを約10年間調査し、特定の細菌がさまざまなホスト間を移動するのを助けるウイルス尾部を獲得することを発見しました。ペナデスと彼の同僚がGoogleのAI Co-Scientistに同じパズルを与えたとき、それはどこにも公開されていなかったにもかかわらず、正確にその理論にわずか48時間で独立して到達しました。また、他の4つの妥当な仮説も提案し、研究を暗記しているだけではないことを示しました。
ペナデスは当初、正しい理論が公開されたことがなかったため、AIが彼のプライベートファイルにアクセスした可能性があると考えていました。Googleはそれが事実ではないと保証しました。その結果、ペナデスはこのAIアプローチが、より迅速に行き止まりの実験を排除し、科学者を最も可能性の高いシナリオに導くことで、研究を永久に変える可能性があると確信しました。
また、GoogleがGeminiによって駆動されるAIビデオ作成機能をテストしているという新しいレポートもあります。情報筋はGoogleアプリで「Robin」と呼ばれるものについてのコード参照を発見しました。これは次世代のテキストからビデオ生成を指しているようです。観察者たちは「作業中」などの進捗メッセージについて話し、具体的にビデオ生成について言及するコードスニペットを発見しました。
Googleはこれがユーザーにどのようにロールアウトされるかを確認していませんが、将来のGeminiバージョンでユーザーがプロンプトを入力して短いクリップを見ることができる可能性があるという推測があります。Geminiでテキストからイメージへの現在のコンポーネントはImagegen 3を使用していますが、V2が後でより消費者向けのフォーマットで登場する可能性も残っています。特にこれらのモデルは多くの計算リソースを要求できるため、コストの問題は重要になります。無料または低コストのバージョンは、より短く限定的な動画を生成し、有料ティアでは完全なパワーを解放する可能性があります。
アクセスはビジネス中心のGoogle VidsやGoogle Workspaceサブスクリプションツールなど、他のGoogleのオファリングと統合される可能性があります。プレゼンテーションやマーケティング用のGoogle Vidsのようなツールなどです。コンセプト全体は、あらゆる種類のAI機能を一つの傘の下に統合するというプッシュを思い起こさせるもので、Geminiは最終的に単一のインターフェースでテキスト、画像、ビデオを処理する可能性があります。
以上がGoogleの最新のAIブレークスルーについてのすべてです。mixture of depths、V2の価格設定、AIコサイエンティストが10年間の謎をわずか2日で解決したことについてどう思いますか？コメントで教えてください。いいねとチャンネル登録をお忘れなく、次回お会いしましょう。