本動画は、短期的なAGI到来を予測する立場と、検証可能な報酬による強化学習のスケーリングに楽観的な立場との間の矛盾を指摘する内容である。人間のような学習者に近づいているのであれば、検証可能な結果に基づく訓練というアプローチは無意味になるはずだが、現在のラボは中間訓練を通じて多くのスキルをモデルに組み込もうとしている。人間は業務で使用する可能性のあるあらゆるソフトウェアをリハーサルする特別な訓練段階を必要としないのに対し、AIモデルは依然として事前に組み込まれたスキルに依存している。この状況は、真の人間レベルの学習能力がまだ達成されていないことを示唆しており、継続学習こそがAGI実現への主要な課題であると論じている。

AGIタイムラインと強化学習の矛盾
一部の人々が非常に短いタイムラインを持ちながら、同時にLLM上での強化学習のスケーリングに強気である理由が理解できません。もし私たちが実際に人間のような学習者に近づいているのであれば、検証可能な結果に基づいて訓練するというこのアプローチ全体が破綻することになります。
現在、各ラボは中間訓練を通じてこれらのモデルに多くのスキルを組み込もうとしています。モデルにウェブブラウザの操作方法やExcelを使った財務モデルの構築方法を教えるRL環境を構築している企業のサプライチェーン全体が存在します。
これらのモデルがすぐに自己主導的な方法で業務中に学習するようになるなら、こうした事前の組み込み作業はすべて無意味になります。あるいは、そうならないのであれば、AGIが差し迫っていないということを意味します。
人間は、仕事で使う可能性のあるあらゆるソフトウェアをリハーサルする特別な訓練段階を経る必要はありません。Dario Amodeiが最近のブログ投稿で興味深い指摘をしています。彼はこう書いています。
「最先端モデルが様々なベンチマークで改善しているのを見るとき、私たちは規模の増大や巧妙な機械学習研究のアイデアだけでなく、博士号取得者や医師、その他の専門家がこれらの正確な能力を対象とした質問を書き、回答例や推論を提供するために支払われる数十億ドルについても考えるべきです」
ロボティクスにおける学習の本質
この緊張関係は、ロボティクスにおいて最も鮮明に見ることができます。根本的な意味において、ロボティクスはアルゴリズムの問題であり、ハードウェアやデータの問題ではありません。非常に少ない訓練で、人間は現在のハードウェアを操作して有用な作業を行う方法を学ぶことができます。
ですから、もし本当に人間のような学習者がいれば、ロボティクスは大部分において解決済みの問題となるでしょう。しかし、そのような学習者を持っていないという事実により、1000の異なる家庭に出向き、皿を拾ったり洗濯物を畳んだりする方法を100万回練習する必要が生じています。
超人的AI研究者という反論
今後5年以内にテイクオフが起こると考えている人々から聞いた反論の一つは、超人的なAI研究者を構築するために、こうした不格好なRL作業をすべて行わなければならないというものです。そして、この自動化されたIlya Sutskeverの100万のコピーが、経験から頑健で効率的な学習を解決する方法を見つけ出すだろうというのです。
これは私に、あの古いジョークを思い起こさせます。「私たちは一回の販売ごとに損失を出しているが、量で補うつもりだ」というものです。どういうわけか、この自動化された研究者が、人間が半世紀近く頭を悩ませてきた問題であるAGIのアルゴリズムを見つけ出すというのです。しかもその研究者は、子供が持っているような基本的な学習能力すら持っていないのです。
これは非常にありえないと思います。それに、たとえそれがあなたの信じることだとしても、それは各ラボが検証可能な報酬からの強化学習にどのように取り組んでいるかを説明していません。Ilya Sutskeverを自動化するために、PowerPointスライドを作成するコンサルタントのスキルを事前に組み込む必要はありません。
明らかに、ラボの行動は、これらのモデルが汎化や業務中の学習において引き続き不振であり、そのため経済的に有用であることを望むスキルを事前にモデルに組み込むことが必要になるという世界観を示唆しています。
効率性の議論と企業特有のスキル
もう一つできる反論は、たとえモデルが業務中にこれらのスキルを学習できたとしても、訓練中に一度これらのスキルを組み込む方が、各ユーザーや各企業ごとに再度組み込むよりもはるかに効率的だというものです。
確かに、ブラウザやターミナルのような一般的なツールへの習熟を組み込むことは非常に理にかなっています。実際、AGIが持つ主要な利点の一つは、コピー間で知識を共有できるこの大きな能力です。
しかし、人々はほとんどの仕事をするために必要な企業固有やコンテキスト固有のスキルの量を本当に過小評価しています。そして、AIがこれらのスキルを習得するための頑健で効率的な方法は現在存在していません。
私は最近、AI研究者と生物学者とのディナーに参加しました。生物学者は長いタイムラインを持っていることが判明しました。そこで私たちは、なぜ彼女が長いタイムラインを持っているのかを尋ねました。
彼女はこう言いました。「最近のラボでの仕事の一部は、スライドを見て、そのスライドの中の点が実際にマクロファージなのか、それとも単にマクロファージのように見えるだけなのかを判断することです」
AI研究者は、予想されるように、こう答えました。「画像分類は教科書的なディープラーニングの問題です。これはまさに、モデルを訓練してできるようにすることができる種類のものです」
私はこれが非常に興味深いやり取りだと思いました。なぜなら、これは私と今後数年以内に変革的な経済的影響を期待している人々との間の重要な相違点を示していたからです。
人間労働者の真の価値
人間の労働者が価値を持つのは、まさに仕事の一つ一つの小さな部分ごとに、細かい訓練ループを構築する必要がないからです。このラボがスライドを準備する特定の方法を考慮してマクロファージがどのように見えるかを識別するカスタム訓練パイプラインを構築し、次に別のラボ固有の微小タスクのためにまた別の訓練ループを構築するというのは、正味生産的ではありません。
実際に必要なのは、意味的フィードバックや自己主導的経験から学習し、人間のように汎化できるAIです。毎日、判断力、状況認識、そして業務中に学ばれるスキルとコンテキストを必要とする100のことをしなければなりません。
これらのタスクは、異なる人々の間だけでなく、同じ人にとっても日ごとに異なります。事前に定義されたスキルセットを組み込むだけで、単一の仕事さえも自動化することは不可能です。ましてやすべての仕事を自動化することなど。
実際、人々は実際のAIがどれほど大きな出来事になるかを本当に過小評価していると思います。なぜなら彼らは、この現在の体制がもっと続くことを想像しているだけだからです。彼らは、すべての学習をコピーしてマージできる、サーバー上の数十億の人間のような知性について考えていません。
明確にしておきますが、私はこれを期待しています。つまり、今後10年か20年以内に実際の脳のような知性を期待しているということです。これはかなりすごいことです。
技術普及についての誤解
時々、人々は、AIが現在企業全体でより広く展開されておらず、コーディング以外ですでに多くの価値を提供していない理由は、技術が普及するのに長い時間がかかるからだと言います。
これは逃げ口上だと思います。人々はこの言い訳を使って、これらのモデルが広範な経済的価値に必要な能力を単に欠いているという事実を覆い隠していると思います。
もしこれらのモデルが本当にサーバー上の人間のようなものであれば、非常に迅速に普及するでしょう。実際、通常の人間の従業員よりも統合してオンボーディングするのがはるかに簡単でしょう。
彼らは数分以内にあなたのSlackとGoogleドライブ全体を読むことができます。そして、他のAI従業員が持つすべてのスキルを即座に抽出できます。さらに、人間の採用市場は非常にレモン市場のようなもので、事前に誰が優秀な人材かを見分けるのが難しいです。そして明らかに、悪い人材を雇うことは非常にコストがかかります。
これは、検証済みのAIモデルの別のインスタンスを起動するだけであれば、直面したり心配したりする必要のない力学です。これらの理由から、AI労働力を企業に普及させることは、人を雇うよりもはるかに簡単になると予想しています。そして企業は常に人を雇っています。
もし能力が実際にAGIレベルにあれば、人々はこれらのモデルが生成するトークンを購入するために年間数兆ドルを喜んで支払うでしょう。世界中の知識労働者は累積で年間数十兆ドルの賃金を稼いでいます。
ラボが現在この数字から桁違いに離れている理由は、モデルが人間の知識労働者ほど有能ではないからです。
ゴールポストの移動と真の進歩
さて、あなたはこう言うかもしれません。「ラボが年間数十兆ドルの収益を上げなければならないという基準が突然できたのはなぜなのか」と。つい最近まで、人々は「これらのモデルは推論できるのか」「これらのモデルは常識を持っているのか」「単にパターン認識をしているだけなのか」と言っていました。
明らかに、AIに強気な人々は、これらのゴールポストを繰り返し動かすAIに弱気な人々を批判するのは正しいです。これは非常にしばしば公平です。過去10年間にAIが成し遂げた進歩を過小評価するのは簡単です。
しかし、ある程度のゴールポストの移動は実際に正当化されます。もし2020年にGemini 3を見せられたら、私はそれが知識労働の半分を自動化できると確信したでしょう。
それで、私たちはAGIへの十分なボトルネックだと思っていたものを解決し続けています。一般的な理解を持つモデルがあります。Few-shot学習があります。推論があります。しかし、まだAGIは持っていません。
これを観察することに対する合理的な反応は何でしょうか。振り返ってこう言うのは完全に合理的だと思います。「ああ、実際には知性と労働には、私が以前認識していたよりもはるかに多くのものがある」と。
そして、多くの点で、過去に私がAGIと定義していたものを実際に近づき、多くの場合それを超えているにもかかわらず、モデル企業がAGIによって示唆されるであろう数兆ドルの収益を上げていないという事実は、明らかに私の以前のAGIの定義が狭すぎたことを明らかにしています。
そして、これは将来も続くと予想しています。2030年までに、ラボは私の趣味である継続学習において大きな進歩を遂げ、モデルは年間数千億ドルの収益を上げるでしょうが、すべての知識労働を自動化したことにはならないでしょう。
そして私はこう言うでしょう。「多くの進歩を遂げましたが、まだAGIには到達していません。他の能力も必要です。これらのモデルにはX、Y、Zの能力が必要です」
モデルは短いタイムラインの人々が予測する速度でより印象的になり続けていますが、長いタイムラインの人々が予測する速度でより有用になっています。
スケーリングの本質
事前訓練によって何をスケーリングしているのかを問う価値があります。私たちは、複数の桁のコンピュート増加にわたって、損失の改善において極めてクリーンで一般的な傾向を持っていました。
これはべき乗則に基づいていましたが、これは指数関数的成長が強力であるのと同じくらい弱いものです。しかし、人々は事前訓練のスケーリングが持つ威信を利用しようとしています。それは宇宙の物理法則とほぼ同じくらい予測可能です。そして、検証可能な報酬からの強化学習についての強気な予測を正当化しようとしていますが、この強化学習については公に知られている傾向は一切ありません。
そして勇敢な研究者たちが希少な公開データポイントから示唆を導き出そうとすると、かなり弱気な結果が得られます。例えば、Toby Bordは素晴らしい投稿をしており、そこで彼は異なるOシリーズのベンチマーク間の点を巧みに結び付けました。
これは彼に、「単一のGPTレベルに似たブーストを与えるには、総RL計算量で約100万倍のスケールアップが必要だ」ということを示唆しました。
人々は、AIモデルがより賢い後継システムを生成するコードを書くソフトウェアシンギュラリティの可能性や、AIが後継者のコンピューティングハードウェアも改善するソフトウェアプラスハードウェアのシンギュラリティについて多くの時間を費やして議論してきました。
しかし、これらすべてのシナリオは、AGI以降のさらなる改善の主要な推進力になると私が考えているもの、つまり継続学習を無視しています。
継続学習の重要性
繰り返しますが、人間がどのようにして何よりも有能になるかについて考えてみてください。それは主に関連領域での経験からです。
会話の中で、Dario Amodeiがこんな興味深い提案をしました。未来は、継続学習エージェントたちが皆出て行って異なる仕事をし、価値を生み出し、それからすべての学習を持ち帰って、これらすべてのエージェントに対してある種のバッチ蒸留を行うハイブマインドモデルに戻るという形になるかもしれないというものです。
エージェント自体はかなり専門化されており、Andrej Karpathyが認知コアと呼んだものに加えて、展開される仕事に関連する知識とスキルを含んでいる可能性があります。
継続学習の解決は、一度限りの達成ではありません。代わりに、インコンテキスト学習の解決のように感じられるでしょう。GPT-3は2020年に、インコンテキスト学習が非常に強力であることをすでに実証していました。
そのインコンテキスト学習能力は非常に注目に値するものでした。GPT-3の論文のタイトルは「言語モデルはFew-shot学習者である」でした。しかしもちろん、GPT-3が登場したときにインコンテキスト学習を解決したわけではありません。
実際、理解からコンテキスト長まで、まだなされなければならない進歩がたくさんあります。継続学習でも同様の進行を期待しています。
ラボはおそらく来年、継続学習と呼ぶものをリリースするでしょう。そしてそれは実際に継続学習への進歩としてカウントされるでしょう。しかし、人間レベルの業務中学習は、磨き上げるのにさらに5年から10年かかるかもしれません。
これが、継続学習を最初に解き明かしたモデルがより広く展開され、より有能になることから、何らかの暴走的な利益を期待しない理由です。
もし継続学習を完全に解決したものがどこからともなく現れたなら、確かにそれはゲームセットマッチかもしれません。Sam Altmanがポッドキャストで、私がこの可能性について尋ねたときに言ったように。しかし、おそらくそうはならないでしょう。
代わりに、あるラボがこの問題に対して初期の牽引力を得る方法を見つけ出し、この機能をいじり回すことでそれがどのように実装されたかが明らかになり、その後他のラボがすぐにその突破口を再現し、わずかに改善するでしょう。
それに、これらすべてのモデル企業間で競争がかなり激しい状態を保つという事前確率を私は持っています。これは、チャットでのユーザーエンゲージメント、合成データなど、これらの以前の想定されたフライホイールのすべてが、モデル企業間のますます激しくなる競争を弱めるのにほとんど役立っていないという観察に基づいています。
毎月かそこらで、大手3つのモデル企業が表彰台を回り、他の競合企業もそれほど遅れていません。何らかの力が存在するようです。これは潜在的には人材の引き抜きかもしれません。サンフランシスコの噂の工場かもしれませんし、単に通常のリバースエンジニアリングかもしれません。これまでのところ、単一のラボが持っていたかもしれない暴走的な優位性を中和してきました。
これは、私が元々ブログdwarkesh.comでリリースしたエッセイのナレーションでした。私はさらに多くのエッセイを公開する予定です。インタビューの前に自分の考えを整理するのに実際に非常に役立つことがわかりました。
それらの最新情報を受け取りたい場合は、dwarkesh.comで購読できます。それ以外は、次のポッドキャストでお会いしましょう。それでは。


コメント