本動画では、AIのスケーリング則が限界を迎えているという主張と、実際のAI能力が加速度的に向上しているという事実の間にある矛盾を解き明かしている。従来の「スケールがすべて」というパラダイムから、テスト時計算、アーキテクチャ革新、エージェント制御など複数の研究方向が同時進行することで能力が向上している現状を分析。さらに、人間の脳とAIの根本的な違いであるサンプル効率の差に着目し、圧縮とインテリジェンスの深い関係性を論じる。DeepSeekの事例を挙げながら、計算制約、電力制約、データ制約という3つの制約条件が次世代AIの方向性を決定づけると指摘。最終的に、AI進歩の次なるパラダイムは「サンプル効率」であり、これがAGIへの次のステップになると結論付けている。

スケーリングのパラドックス
皆さん、おはようございます。まあまあなクリスマスを過ごせたでしょうか。今日はスケーリングのパラドックスとでも呼ぶべきものについてお話ししたいと思います。ご存知の通り、スケーリングは限界に達していて、大規模言語モデルは壁にぶつかっているという声がしばらく前から上がっています。しかし、それにもかかわらず、客観的な測定値は向上し続けているのです。
実際の能力を見てみると、従来のスケーリング則のリターンとは不釣り合いなほど能力がスケールし続けています。これはデータや計算量、テスト時計算だけの話ではありません。従来のスケーリング則のリターンが減少しているにもかかわらず、どれだけの追加能力が加わるのか予測できないというのは、本当に理解に苦しむ状況なのです。
では、この状況を紐解いて、何が起きているのか把握していきましょう。当初の論調は単純に「スケールがすべて」というものでした。GPT-2から3、そして4へと進化する様子を見てください。毎回約10倍、いや正確には100倍大きくなっています。最初が10倍の増加で、次が約100倍の増加でした。
つまり、固定されたトランスフォーマーアーキテクチャへの入力をスケーリングすることで、能力が比例的に向上するという考え方でした。曲線は比較的一貫していて、より多くのデータ、より多くの計算量で、より良いパフォーマンスが得られるというわけです。これがしばらくの間、ゲームのルールのようなものでした。パラメータ数と計算予算が進歩の主要な指標となっていたのです。これが私たちが知っていて理解している状況でした。
相反する2つの真実
しかし今、人々が言っている2つのことを見てみると、どちらも客観的には真実なのですが、互いに両立しないのです。だから、どのように、そしてなぜそうなのかを解明する必要があります。スケーリングは壁にぶつかっているという主張があります。
著名な識者たちは、元のパラダイムが収穫逓減をもたらしていると主張しています。ゲイリー・マーカスは2022年に「深層学習は壁にぶつかっている」と言いました。明らかに、その発言はあまり良い形で時代を経ていませんね。イリヤ・サツケヴァーでさえ、ピークデータを克服する必要性を強調し、「インターネットは1つしかない」と述べています。技術的な主張としては、バニラのトランスフォーマーに単にパラメータとデータを追加することから得られるリターンは減少しているということです。
これは客観的に真実です。しかし一方で、能力は依然として加速しています。収穫逓減にもかかわらずです。客観的な実世界のベンチマークは、AIシステムができることが、これまで以上に速く改善していることを示しています。機械の自律性はMEDRという指標によれば、対数的な指数関数率で改善しています。
新しい推論ベンチマークは、何年もかけてではなく、数ヶ月で飽和状態に達しています。つまりARC-AGIがその傾向の一例です。では、この両方がどのようにして真実であり、それが人工知能の未来にとって何を意味するのでしょうか。
MEDRの加速的進化
まず、MEDRの曲線をご紹介します。長期的なトレンドとして、汎用エージェントが完了できるタスクの長さは、過去6年間で約7ヶ月ごとに倍増してきました。しかし最近では、わずか4ヶ月ごとに加速しています。これはゲイリー・マーカスが「壁にぶつかっている」と言った3年後のことです。では、壁はどこにあったのでしょうか。機械の自律性における壁はどこにあったのでしょうか。ゴンドールが助けを求めて狼煙を上げたときに壁はどこにあったのか、すみません、ファンダムを間違えました。とにかく、言いたいことは分かりますよね。
私はこれについて話してきましたし、人々もMEDRについて話してきました。そして皆さんは「それは全く別のものだ」と思うかもしれません。しかし、モデルの実際の能力を見ているとき、それは本当に別物なのでしょうか。モデルの振る舞いや実際の能力を見るとき、それはスケール単独が与えるものよりも重要です。それがユーティリティというものです。
ですから、ユーティリティは、スケール単独からの予測よりも速く加速しているのです。スケールが何をしようと、ユーティリティは加速しているのです。
ベンチマークの驚異的な飽和速度
別の例はベンチマークです。推論ベンチマークは驚異的な速度で飽和しています。ARC-AGI賞の物語は、スケーリング議論と実世界の問題解決の進歩との間の断絶を示しています。
ARC-AGIは実世界の問題ではありませんが、重要なのは0%から5%に到達するまでに4年かかったのに対し、5%からほぼ飽和状態に達するまでには数ヶ月しかかからなかったということです。その結果、彼らはARC-AGI 1、次にARC-AGI 2をリリースしなければならず、今ではすでにARC-AGI 3に取り組んでいます。これは壮大なチャレンジになるはずでした。
飽和するまでに何年も、あるいは何十年もかかるはずのチャレンジでしたが、今ではすでに第3バージョンに取り組んでおり、「どんどん難しくしていく」と言っています。ARC-AGI 3はインタラクティブになるらしく、つまり解くべき静的なパズルではなく、相互作用に応じて反応する何かになるということです。
詳細はまだ分かりませんが、噂ではそうなっています。彼らはベンチマークのゴールポストを動かし続けなければならないのです。もちろん、これは1つのベンチマークに過ぎません。1つの例に過ぎないのです。私たちは多くのベンチマークで「ああ、そのベンチマークは飽和した。別のものが必要だ」という状況を見てきました。
これらのベンチマークが飽和し続けるにつれて、モデルはますます有用になり、コーディングやエージェント制御などがどんどん上達しています。では、壁はどこにあるのでしょうか。実際のパフォーマンスや実際のユーティリティという観点では、実際の壁は存在しないのです。それが本当の大きな疑問です。
パラドックスの解決
パラドックスは、1つのスケーリングベクトルと能力のフロンティア全体を混同するのをやめたときに解決します。人々はここで本当にカテゴリーエラーを犯しています。バニラ事前学習のような1つの曲線の平坦化が、AI全体の進歩の減速と誤解されているのです。能力のフロンティアは、複数の同時進行する研究プログラムによって前進しているのです。
テスト時計算のスケーリング、つまり思考連鎖、検索、ツール使用があります。Mixture of ExpertsやSSMのようなアーキテクチャの革新もあります。SSMが何なのか正確には分かりませんが、私の研究資料すべてに入っていました。エージェントの足場組みとツール使用、事後学習の改善、RLHF、DPO、合成データ、自己対戦といったより良い学習レシピなどがあります。
ですから、「スケーリングは終わった」と「スケーリングがすべて」という両方の群衆は、ポイントを見逃しているのです。進歩は経験的な問題であり、経験的なトレンドはこれらすべてのベクトルを組み合わせた関数なのです。1つのことだけではありません。GPT-4がリリースされたときのことを思い出してください。誰もが「すごい、秘密のソースは何だ」と言いました。そしてサム・アルトマンは文字通り「1つのことではなく、何百もの小さな改善の積み重ねだ」と言いました。
つまり、より多くのデータとより多くの計算量を投入するだけではないのです。それは表面的な話でしたが、モデルのユーティリティと能力を増加させるために使える改善は、文字通り何百、いや何千もあるのです。単一のスケーリングベクトルだけではないのです。
機械と脳の根本的な違い
しかし、これらすべてがあったとしても、そしてこれがこの動画の目的なのですが、機械と脳の間には非常に大きなギャップがあります。それがサンプル効率です。このギャップは単なる量的な違いではありません。質的、アルゴリズム的な違いを示しているのです。人間の脳が根本的に異なる何かをしているのです。人間の脳はわずかな例から一般化できますが、機械学習は学習するために何百万、何十億もの例を必要とします。
これを考える1つの方法として、言語モデルを文字通り何百兆ものトークンで訓練できるのに対し、人間の脳は一生を通じて、あるいは少なくとも一般化できるようになるまでに、おそらく1億程度で訓練されているということです。私たちの脳は何か根本的に異なることをしているのです。これは新しい情報ではありませんが、人々が持っている1つの反論に対処したいと思います。
それは、進化が私たちに、つまり私たちは何十億年もの進化を受け継いでいて、それには多くの組み込まれた知識が伴っているという反論です。これは、私たちが移動や言語などの特定の本能を持っているという点では真実です。しかし、微積分や経済学、さらには読み書きのような進化的本能は持っていません。これらは私たちが後から接ぎ木しなければならないスキルであり、私たちの脳は本来そのように配線されていないのです。
しかし、私たちは読み書きを学び、経済学、数学、コンピューターサイエンス、プログラミングを習得できます。これらは私たちが生まれ持っているものではありません。進化はこれらのためのテンプレートを持っていません。それでも、比較的少ないデータポイントでこれらを習得できるのです。ですから、私たちのサンプル効率は、今日のシリコンよりも桁違いに優れているのです。
データの壁は圧縮の壁
データの壁は実際には圧縮の壁なのです。なぜなら、インターネット上で既に利用可能なデータから実際に抽出して一般化できるシステムがあれば、それは超人的なものになるでしょう。ボトルネックはデータの量ではなく、その本質的な構造を圧縮し、そこから外挿する能力なのです。このように考えてみてください。
もし、これらのAIのすべてのデータセットに投入されているすべてのことを学習できる人間がいたとしたら、その人間はこれらのAIすべてよりもはるかに賢いでしょう。しかしAIはそれでも圧縮しており、それは損失のある圧縮で、特に良い圧縮ではありません。だから何か別のことが起きているのです。これは、知能が単なる圧縮だと言っているわけではありません。
それは圧縮、抽象化、一般化、蒸留の成果物なのです。多くの情報プロセスが起きています。しかし簡単に言えば、人工知能とは圧縮なのです。ですから、既に持っているすべての情報をさらに良く一般化できる、より良い圧縮アルゴリズムが必要なのです。
圧縮は理解を強制する
次のパラダイムは基本原理に根ざしています。圧縮は理解を強制するのです。圧縮とインテリジェンスが深く結びついているという考えは、大きな注目を集めています。データを効率的に圧縮するためには、システムはデータを生成したプロセスのモデルを学習しなければなりません。生のデータから始めて、最適な圧縮アルゴリズムを考案し、そして学習された世界モデルを得るのです。
イリヤ・サツケヴァーは、「テキストの統計的相関を学習しているだけのように見えるが、それらを本当にうまく圧縮するために、ニューラルネットワークが学習するのは、テキストを生成したプロセスの何らかの表現だ。これらの統計を理解するには、その統計のセットを作り出した世界について理解する必要がある」と述べています。
基本的にこれは、情報理論やエントロピーのバージョンの現実であり、表面的なレベルで彼が言っているのは、現時点で言語モデルとAIはパターンを学習しているということです。パターン認識とパターン生成は知能の始まりです。
これは真実ですが、抽象化の階層を上昇していくと言えるような、より多くの層が必要なのです。心の理論や比喩のような、ある程度の抽象化レベルは見て検証できました。AIは心の理論や比喩に取り組むことができますが、以前のバージョンはそれほど得意ではありませんでした。これが抽象化の層の例です。
だからといって、RLHFでより多くの抽象化を組み込む必要があるというわけではありません。おそらく何か別のことが起きているのです。しかし、これが私たちが収束している方向なのです。
DeepSeekの事例研究
フロンティア研究は、すでに圧縮第一のアプローチを検証しています。事例研究はDeepSeekです。彼らは最適な圧縮を使用しました。DeepSeek OCRはトークン階層を反転させました。彼らはテキストの優れた媒体として視覚的表現を使用し、7倍から20倍のトークン削減を達成しました。言い換えれば、AIに私たちがするようにテキストを読ませるだけで、より少ないトークンを使用したのです。これは非常に興味深い、劇的に興味深い結果です。
アーキテクチャ効率では、MLA(Multi-Head Latent Attention)を使用してキー値ベクトルを圧縮しました。KVキャッシュと長いコンテキストのメモリ要求を大幅に削減したのです。そして計算効率では、わずか280万H800 GPU時間、約500万ドルのコストで14兆トークンの事前学習を完了しました。競合他社よりも劇的に少ないコストです。ピクセルはLLMへのより良い入力であり、テキストトークンは本質的に無駄が多い可能性があるとアンドレイ・カーパシーは述べています。
ですから、効率を高める様々な方法を見つけているのです。では、これが実際に何を意味するのかというと、私の研究の原動力となった研究課題は、制約は何か、そして実際にどこに向かっているのかということでした。サンプル効率を避けられない次のフロンティアにする3つの基本的な強制関数があります。
3つの制約条件
第一は計算制約です。フロンティアスケールの計算へのアクセスは、中国やDeepSeekのような研究所が示すように限られています。必要性は効率性を生み出します。より多くのGPUを購入できないときは、より良いアルゴリズムを見つけるのです。私たちは皆、計算制約に直面することになります。AI需要が上昇しているという事実だけでそうなります。
需要は6ヶ月ごとに倍増しています。もちろん、より多くのGPUを作ることは素晴らしいことです。しかし、同じものをより多く欲しいのではなく、AIをより賢くしたいのであれば、私たちは計算制約に直面するのです。
次は電力制約です。エネルギー消費に対する経済的および環境的な制限により、これまで以上に大きなモデルは持続不可能になります。未来はワットあたりのより多くの知能を必要とし、これはアルゴリズム効率の直接的な関数です。
より小さなモデルは実行するエネルギーが少なくて済みます。それはとてもシンプルです。より効率的なモデルは実行するエネルギーが少なくて済みます。さらに、物理学を見ると、第一原理の制約としての物理学、エントロピーを考えると、人間の脳は約20ワットのエネルギーを消費し、既にすべてのAIよりもはるかに多くのことをしています。
では、実際の制約は何なのでしょうか。あるいは、どう見るかによりますが、実際の天井や床は何なのでしょうか。そしてもちろん、データ制約、圧縮の壁です。ボトルネックはデータの不足ではなく、効率的な学習、あるいはむしろ非効率的な学習です。インターネットには、どんな人間が必要とする以上の知識が含まれています。
課題は、より多くのプライベートデータを蓄積することではなく、その構造を効率的に抽出することなのです。これは知能そのものの定義を再構成します。議論は間違った指標を最適化してきました。創発的な能力ではなく、原始的なものに焦点を当てるべきです。
抽象化レベルの問題
抽象化レベルの問題があります。議論はN+1レベルで行われてきましたが、実際のメカニズムはその下にあります。人々は道具的収束を心配していましたが、実際のメカニズムは次トークン予測でした。人々はAGIについて話し、継続的学習が必要だと言いますが、実際に話しているのは迅速な一般化です。そしてヤン・ルカンのような人々はスキル獲得効率について話しますが、実際に話しているのはサンプル効率です。
ですから、私たちが実際にすべきことは、人々が実際に話していることや人工知能で目指していることの1つ下の抽象化レベルを本当に見ることなのです。重要な洞察は、継続的学習は結果であって原因ではないということです。サンプル効率が高く迅速に一般化するシステムは、デフォルトで継続的に学習します。原始的なものに焦点を当てることは、より予測的で生産的なのです。
基本的に私が言いたいのは、サンプル効率が高く迅速に一般化するアルゴリズムモデルができれば、コンテキスト内で非常に迅速にあらゆるスキルを習得できる事前学習された認知エンジンが手に入るということです。これがモデルの重みを継続的に変化させるオンライン学習を意味するかどうかは、必要ないと思います。
例えば、人間は十分な一般化されたスキルと知識があれば、一般的にかなりうまく新しいタスクに一般化できます。時間の経過とともに神経可塑性が続くため、物事が上達していきます。ですから、将来的にある程度の神経可塑性が見られると理想的かもしれませんが、正直なところ、より良いのは、既に可能なあらゆるタスクに一般化できる汎用エンジンを持つことだと思います。
新しいパラダイムへ
真の目標は、パラメータのスケーリングではなく、抽象化の深さ、因果モデルの忠実度、そして学習効率そのもののスケーリングです。AI進歩の支配的なパラダイムは本当に変化してきました。2017年には、アテンションがすべてでした。それがアーキテクチャの原始でした。2020年から今日まで、スケールがすべてでした。
これからは、サンプル効率がすべてです。もちろん、おそらく別のパラダイムを思いつくでしょうが、数字を見て、数学を見て、第一原理を見ると、サンプル効率が少なくとも2026年、2027年の次の大きなものになることは非常に明確です。もしかしたらそれ以降も、誰にも分かりません。これが今後5年間の次のパラダイムかもしれませんし、10年かもしれませんし、永遠かもしれません。そうは思いませんし、期待はしませんが、確実に今の次の大きなフロンティアです。
この動画が、スケーリングがどこにあるのかを理解し、AGIが実際にどのようなものになるかについての議論に貢献できたことを願っています。サンプル効率だけでAGIが解決されるとは言いませんが、私にとっては、人工知能における次のパラダイムシフトへの次のステップであることは非常に明確です。
ご視聴ありがとうございました。それではまた。


コメント