AI の一般知能（AGI）にどれだけ近づいているのか？エポックのGATEモデルの内側（エゲ・エルディルとの対談）

32,822 文字

How Close Are We to AGI? Inside Epoch’s GATE Model (with Ege Erdil)

On this episode, Ege Erdil from Epoch AI joins me to discuss their new GATE model of AI development, what evolution and ...

もし計算能力のスケーリングの視点を真剣に考えると、計算能力の効果的なスケールアップの一桁ごとに、経済における自動化されるタスクの割合がさらに数パーセント増加し、最終的にすべてが自動化されるかもしれません。研究開発の自動化に成功したとしても、それがどれだけの効果をもたらすかは明確ではありません。仮に過去10〜15年間の急速なソフトウェアの進歩の主な原動力が計算能力のスケーリングだったとすれば、単に研究者の人口をもっと急速にスケールアップするだけでは、その障壁を解決することにはならないでしょう。
外挿はあまりうまく機能しません。2015年、2016年には自動運転車が最も期待されるアプリケーションでしたが、10年後の今日、注目を集めているのは言語モデルや推論モデルです。OpenAIは2029年までに年間1000億ドルの収益を予測していますが、これは経済的フィードバックループが十分に強くなるには程遠い金額です。AI開発からより多くのスケーリングへとつながるようなフィードバックループを実現したいなら、経済的生産が実際にかなり急速にスケールする必要があります。
重要なのは、より広い意味でのインセンティブや力が何か、そしてそれらの力がAIをどのような方向に押しているかということです。
未来生命研究所のポッドキャストへようこそ。私はスコット・スタルカーです。今日はエゲ・エルディルさんをお迎えしています。エゲさん、ポッドキャストへようこそ。
ありがとうございます。
自己紹介をお願いできますか？
はい、私はEpoch AIのシニアリサーチャーで、2年ほど在籍しています。AIの経済学から分散トレーニングの実現可能性、ハードウェアのエネルギー効率の限界まで、様々なテーマに取り組んでいます。すべての研究テーマを挙げるのは難しいですが、AIに関する興味深いテーマなら何でもEpochで扱っていると言えます。
それは素晴らしい研究ですね。
そうですね、現在私たちには複数の部門があります。データ収集に特化したチームがあり、様々なデータ製品を提供しています。私たちのウェブサイトでは、2015年以降に訓練された大規模モデルをすべて確認でき、使用された計算量などのデータベースを提供しています。誰が公開したのか、いつ公開されたのか、どれだけの計算量が使われたと推定されるか、訓練データセットの大きさなどがわかります。
また、ベンチマークハブも開発中で、独自のベンチマーク評価を行っています。現在は主に数学や推論のベンチマークを評価していますが、将来的には拡大していく予定です。さらに研究部門では、レポートやブログ記事を発表し、ニュースレターも配信しています。私は主に研究部門で働いていますが、他の活動にも関わっています。
最新の成果の一つがGATEという論文やインタラクティブモデルですね。GATEとはAIと自動化の軌跡をモデル化するものですが、これについて説明していただけますか？
これはOpenFellのトム・デヴィッドソンによる以前の研究に基づいています。彼は計算能力のスケーリングという考え方を経済モデルの設定に翻訳しました。彼のアイデアでは、経済にはタスクのスペクトルがあり、計算能力のスケールアップ（ソフトウェアの進歩と物理的な計算能力のスケーリングの両方を含む）の一桁ごとに、経済におけるタスクの追加の割合が自動化されるというものです。
例えば、一桁増えるごとに経済のタスクの10％か20％が自動化され、最終的にすべてが自動化されるというわけです。この仮定を比較的標準的な経済モデルに組み込むことができます。モデルの残りの部分、つまり生産関数や投資、消費、経済における意思決定の仮定は標準的なものにすることができます。
トム・デヴィッドソンの元のモデルはEpochの支援、特にソフトウェア面での支援を受けて開発されました。そして私たちはGATEを開発することにしました。元のモデルにはいくつかの欠点があり、それを解決したかったからです。おそらく最大の欠点は、そのモデルでは経済的意思決定がモデルにハードコードされていたことでした。経済学の文献で標準的に行われるような方法で決定が行われていませんでした。
標準的な方法では、何らかの効用または価値関数を持ち、それを最適化して最良の結果を得るというものです。その代わりに、OpenFellの人々が妥当だと考えたハードコードされたルールのセットがありました。しかし、極端なパラメータ値を使用すると、意思決定が非常に不合理に見えることがありました。それが標準的な経済モデルに変換する主な動機でした。
これにより、元のモデルでは答えられなかった質問に答えることもできます。例えば、人々がAGIが完全な自動化を実現する可能性に10％の信頼度を置いているとします。この不確実性があるとき、彼らはどうすべきでしょうか？どれだけ投資すべきでしょうか？
人々は初期段階で多くの投資をして、不確実性を解消するのに役立つかもしれません。例えば、自動化曲線の傾きを観察して、「これは完全な自動化に到達するように見えるのか？」と判断するかもしれません。そして、それに基づいて投資判断を更新するかもしれません。これはGATEでは観察できますが、以前のフレームワークでは観察できませんでした。
ただし、このモデルを過大評価しないことが重要です。これは予測モデルであることを意図していません。トム・デヴィッドソンの元のモデルと同様、特定のメカニズムが組み込まれた模擬世界で何が起こるかを示すことを目的としています。多くの人々のAIに関する考え方は、互いに矛盾する信念を持っていることがあり、このようなモデルはそれを明確にするのに役立ちます。
それはどのような例がありますか？矛盾した信念の例としてはどのようなものがありますか？
一例として、ソフトウェアの進歩の速さ、ハードウェアの進歩の速さ、投資のスケールアップがどれだけ可能かについて特定の信念を持っているかもしれません。または、深刻な制約に出くわすことなく計算能力のストックや半導体工場の数を倍増できる速さについての信念があるかもしれません。
しかし、これらの信念の組み合わせがタイムラインにどれだけ積極的な影響を与えるかに気づいていないかもしれません。すべてをモデルに入れると、自動化が実際に起こる速さに驚くかもしれません。
モデルの主な利点は、頭の中でこれについて推論する代わりに、これを考慮し、他のことも考慮して、何が起こるかを考えるのではなく、モデルを使うとより明確な考え方ができることです。頭の中で考えるとき、どちらの方向にもバイアスがあるかもしれません。モデルがあれば、考え方が明確になります。モデルのパラメータに同意できない場合は、そのパラメータについてどのような証拠があるかを検討できます。
例えば、モデルの重要なパラメータの一つは、研究努力を倍増させた場合、つまり研究リソースが2倍になった場合、少なくともその瞬間にどれだけ速く進歩するかということです。これは明確ではありません。研究者のストックを2倍にしても、進歩が2倍に速くなるとは限りません。なぜなら、並列化が難しい事柄もあり、ペナルティがあるかもしれないからです。
また、リソースを2倍にするのではなく、2倍の支出をした場合はどうかという別の問題もあります。その場合、価格への影響も考慮する必要があるかもしれません。より多くの支出を試みると、供給が限られているため、能力のある研究者の供給の制約に直面し、予想よりも影響が少ない可能性があります。
すると、これらのパラメータが実際にはかなり重要だと気づくかもしれません。研究支出を10倍にして、それがソフトウェアの進歩を10倍速くするなら、おそらく私たちはそれを実行しているでしょう。
さらに、R&Dの任意の領域で進歩するにつれて、さらなる進歩が難しくなるという効果もあります。このようなことがモデルにとって関連性を持つようになり、モデルのパラメータに対して感度分析を行うと、タイムラインに関するモデルの予測を説明するために、一部のパラメータが非常に重要であることに気づくかもしれません。一方で、他のパラメータはそれほど重要ではないため、重要なパラメータに集中できます。
このモデルで最も重要なパラメータは何ですか？
R&Dに関する仮定はかなり重要です。先ほど述べたようなものです。それ以外では、経済全体における補完性の程度が重要です。これは、例えばAIが経済のタスクの100％ではなく50％を自動化した場合、それが生産にどれだけの影響を与えるかを意味します。
もしそれが大きな影響を与えるなら、プロセスが加速します。より多くのチップやR&Dに再投資できる生産量が増加し、フィードバックループ全体が高速化され、タイムラインが短縮される可能性があります。
それ以外では、調整コストや時間スケール、つまり新しい半導体工場の建設や通常の物理的資本投資（電力インフラの構築など）における連続的な時間制約も重要です。私たちは現在の技術レベルでは、それをどれだけ速く行えるかについて制限があるかどうかわかりません。
例えば、電力プラントの建設を速くするために2倍の費用をかけたとしても、実際にはそれほど早くゴールに到達できない可能性があります。制限があるならば、それらが障害となり、スケーリングを続けられる全体的なペースを決定する可能性があります。
これは将来、他のものをスケールアップする必要がある場合、より大きな問題になるかもしれません。現在は主にデータセンターの建設と電力に関する懸念がありますが、将来的に経済的生産の増加からAI開発やスケーリングへのフィードバックループを機能させたい場合、経済的生産が実際に急速にスケールしている必要があります。そのためには、これらの物事を合理的に速くスケールアップできることが重要です。
モデルのデフォルトパラメータを見ると、どのような予測が出てきますか？AI投資、経済成長、計算能力のスケールなどについて教えてください。
デフォルトパラメータでは、もう一つ重要なパラメータとして、完全自動化に必要な効果的な計算量があります。これは常に重要なパラメータです。どれだけの距離を横断する必要があるかを示しているからです。この数が非常に大きければ、AIからの経済的影響はほとんど見られないかもしれません。
このパラメータを推定しようとする文献があります。トム・デビッドソンのモデル以前にも、HJコトラによるバイオアンカレッジレポートがあり、様々な方法でこの数を推定しています。この数がモデルで許容されるよりも大きい、例えば10の40乗フロップのようなものであることはあまり考えられません。
これが進化の証拠と矛盾するからです。人間の脳は効果的にAGIであると言えますが、人間の脳を生み出すのに使われた計算量は、推定を行えば10の40乗フロップよりもはるかに大きいわけではありません。
進化は私たちが行っている機械学習プロセスよりも効率が低い可能性がありますね。
その通りです。しかし、進化には何百万年もの連続的な時間があり、私たちは通常はるかに短い時間枠で物事を行う必要があります。また、進化は実世界のデータを収集する能力がありますが、将来的にはそれがボトルネックになる可能性もあります。ケースを完全に誇張したくはありませんが、このようなことが当てはまると思います。
モデルでは、主に10の36乗フロップをデフォルトのパラメータ値として仮定しています。その他すべての仮定も考慮すると、おそらく10年から15年のタイムラインになります。
何のタイムラインですか？
完全自動化のタイムラインです。また、3〜4年後にかなりの経済的影響が見え始めるというタイムラインです。
完全自動化とは、2025年のすべてのタスクの自動化、あるいは人間が可能なすべてのタスクの自動化を意味しますか？
人間が可能なすべてのタスクの自動化、基本的にはGDPがボトルネックになるようなタスクの自動化と言えるでしょう。
このモデルは予測のためのものではないとおっしゃいましたが、興味深いのは、パラメータを少し変更してみても、私たちがより多くの自動化を得るという図を避けるのは難しいということです。おそらく一般的に認識されているよりも速いペースで。パラメータをどれだけ変更できて、それでも自動化が増加するというこの図を見ることができますか？
最も簡単に変更できるパラメータは訓練要件です。これを高くすれば、望む結果を避けることができますが、問題はそれが説得力があるかどうかです。別の問題はソフトウェアR&Dです。私たちは「効果的なフロップ」という抽象化を使用していますが、これは必ずしも様々な方法で現実的なモデルではありません。
一つは、ソフトウェアの進歩はスケールによって均一ではないということです。より多くの計算で訓練されたモデルの方が、効果が強い可能性がありますが、決定的な証拠はありません。私がより懸念しているのは、ソフトウェアR&Dの推定値が、現在の能力レベルの画像認識や言語モデルなどの領域に非常に調整されているということです。
もしかしたら、私たちは同じ速度でAGIのようなより一般的な能力レベルに向かって進んでいるかもしれませんが、もっと速いペースで進んでいるか、もっと遅いペースで進んでいる可能性もあります。例えば、1990年代のチェスエンジンを見て、そのソフトウェアの進歩がAGIに意味ある形で近づいているとは言えなかったでしょう。タスクが狭すぎて限定的すぎたからです。
もしかしたら今日でもAGIについて同じことが言えるかもしれません。そうであれば、これはソフトウェアR&Dのチャネルを取り除くと、効果的なフロップの多くの桁が失われるため、大きな影響があります。これはAGIのための訓練要件を増やすのと同じ効果があります。
現在、言語モデルで見られる進歩は、チェスで見られた進歩とは異なると思います。言語モデルでは、一般性においても進歩が見られます。この種のソフトウェアフィードバックループが見られると思いますか？
チェスよりも確かにその可能性は高いですが、進歩の速度が正しいかどうかはわかりません。例えば、AGIシステムへの進歩の速度が、言語モデリングで推定されているような速度（通常、年間約3倍程度）と実際に一致しているかどうかはわかりません。
その速度が非常に長い間続いていたとは考えられません。なぜなら、それを30〜40年前に遡って外挿すると、1980年代や90年代には人間の脳のアルゴリズムを思いつくのに、進化が使用したよりもはるかに多くの計算が必要だったという結論に達するからです。それは信じがたいことです。
このような高速な進歩の速度は2012年か2015年頃、基本的にはディープラーニング時代からのみ続いているとすれば、この非現実的な結論を避けることができます。しかし、それは別の興味深いことを示唆しています。進歩の速度が短い期間しか続いておらず、その短い期間が計算をラピッドにスケールアップしている期間と一致するなら、別の障害が発生する可能性があります。
おそらくソフトウェアの進歩は実験のための計算の使用にボトルネックがあり、それが私たちが急速な進歩を見ている理由かもしれません。同時に計算を積極的にスケールアップしているからです。他の領域では同じことや同様のことを行っていませんでした。基本的にはムーアの法則に依存して、予算は比較的固定のままでした。
AGIが比較的早く到来し、他の経済的フィードバックループが発生しない限り、計算のスケールアップを現在のペースで続けることはできないと予想すべきです。現在のペースでは、2030年頃にはその余地がなくなるでしょう。クラスタやトレーニング実行への支出があまりにも法外になり、現在のリソースプールと投資意欲ではこれ以上スケールアップできなくなるでしょう。
そのため、2030年前にこの点に到達するかどうかは重要な問題です。計算能力のスケーリングの桁数が多ければ多いほど、AGIの年間到達率や新しい能力の出現が高くなると素朴に期待すべきです。スケーリングが遅くなると、AIの進歩も遅くなる可能性があります。
進歩を継続させるために越えなければならない重要な閾値は何でしょうか？AIがその時点でAI研究に十分に優れている必要がありますか？
これはGATEには組み込まれていない要素です。GATEはアイデアの生産関数が残りの経済と同じ生産関数であると仮定しています。別のものを使用することもできましたが、その場合は異なる仮定をする必要があります。
しかし、特定のモデルから離れて質問に答えると、R&Dのプロセスの自動化が経済の残りの部分、少なくとも経済の離れた部分を自動化せずに実現できるかどうかは確かではありません。また、R&Dを自動化したとしても、計算能力のスケーリングを自動化できない場合、それがどれだけの効果をもたらすかは明確ではありません。
過去10〜15年間の急速なソフトウェアの進歩の主な理由が計算能力のスケーリングだったと考えるなら、研究者の人口を急速にスケールアップするだけでは、そのボトルネックを解決することにはならないでしょう。
人間またはAIからの研究努力と、実験に役立つ計算、そして実世界のデータ（それが重要な範囲で）がどの程度補完的かという問題があります。これらは補完的だと仮定すると、一つだけをスケールアップして他のものが平らなままだと、ボトルネックが発生し、予想したほどの影響が得られない可能性があります。
私たちがこれらをすべて同時にスケールアップできることが重要だと思います。そのためには、十年の終わりまでにAIが大量の経済的価値を生み出し始める必要があります。もし減速を避けたいなら。しかし、それは起こらないと思います。
OpenAIは2029年までに年間1000億ドルの収益を予測していますが、これは一つのAIラボとしては小さな数字ではありませんが、経済的フィードバックループが十分に強くなるには程遠い金額です。おそらく、10年の終わりに達すると進歩の減速が見られ、その後おそらく10年後かさらに後になってから、これが起こるでしょう。Epochの人々の間での一般的な見解は、これが次の5年以内に起こるわけではないということです。
これはAI企業のリーダーたちの見解とは異なります。ダリオ・アモデイやディミス・ハサビス、サム・アルトマンが共有している見解について書かれていますね。AIの価値はAIがAI研究を自動化することで生まれ、それが比較的早く起こるだろうという見解について。
いえ、彼らはそう言っていません。彼らはそのチャンネルに多くの重点を置いていますが、一般的にR&Dも強調しています。これは別のことです。彼らが言っているのは、AIは主にR&Dのプロセス一般を自動化することで価値を生み出すだろうということです。そして、多くの科学的貢献をするだろうということです。
典型的な例はAlpha Foldかもしれません。または、Alpha ProofやAlpha Geometryのようなものもあります。これらは科学ではありませんが、彼らは非常に楽観的です。特にダリオは2年以内に起こるだろうと言っています。これは明らかに異なる見解です。
サムは時々より混合した見解を表明しています。彼は「AGIができても、それほど大したことはなく、世界は続く」と言っています。これは非常に異なる見解です。ディミスはAIの科学応用についてより興味を持っています。これはDeepMindの研究の優先事項からわかります。Alpha Fold、Alpha Proof、Alpha Geometry、AlphaGoはすべてDeepMindの成果です。
彼らは複雑な推論ができるAIが必要だと考えているようです。これは今日一般的なプレトレーニングとポストトレーニングの通常のトレーニングパイプラインとは異なります。しかし、R&Dのためのは大きな意味を持つという一般的な認識があります。これはAIが自身のR&Dを自動化するという意味だけでなく、AIが経済にどのように影響するかという観点からも重要です。
彼らはAIがR&Dを加速させると考える傾向があります。ディミスはこの見解を持っていると思いますし、ダリオもそのように考えているようです。サムについては確信が持てません。彼は様々な解釈ができることを言っています。
私たちはこれに同意していません。実際、GATEは一般的なR&Dを持たないモデルです。ソフトウェアR&DとハードウェアR&D、つまりAI開発に関連するR&Dはありますが、生産性が研究努力や投資の結果として向上するという意味での内生的成長モデルではありません。それは平坦か、外生的に決まるゆっくりとした成長率で成長すると仮定しています。
それでもGATEは大きな経済的影響を生み出します。どのようにしてそれが起こるのか疑問に思うかもしれません。非常にシンプルです。多くのAIワーカーを持つことで、効果的な労働力を多くの桁でスケールアップできます。
現在、世界経済の主要なボトルネックや主要な入力を見ると、最も重要なのは労働力です。労働力は収入の約60〜65％を賃金として支払われています。世界の総生産を見ると、どれだけが労働力への支払いに行くかは約65％です。これが最も主要な貢献です。
残りの約30％は資本であり、資本もスケールアップできます。生産をより多くの工場や機械工具などに再投資できます。現在、労働力をスケールアップすることはできません。より多くの労働者を生産するために生産を再投資することはできず、人口増加に頼るしかありません。
しかし、AIワーカーの場合、人間にはできない方法で劇的にスケールアップすることができます。その場合、人間一人あたり千人のAIワーカーがいる世界になるかもしれません。それが生活水準や生産性などに劇的な変化をもたらすことは容易に理解できます。
これがGATEで起きている主要なメカニズムです。その意味では、GATEは実際には保守的なモデルです。増加した能力や思考能力などからさらに生産性へのフィードバックループをモデル化していないからです。そのような効果はGATEでは小さくないですが、重要なのは、効果の大部分が実際には労働力から来ているということです。経済生産はR&Dよりも労働力のスケーリングにはるかに弾力的だからです。
R&Dは長期的成長には重要です。R&Dを全く行わなければ、最終的には現在の技術の限界に達します。しかし、実際には経済的影響のほとんどは、経済学者が使うような「全要素生産性」の意味での生産性の増加からではなく、この大規模なスケールアップから来ています。
単純に想像できるのは、例えば誰もが家庭用ロボットを持っているような状況です。それはとても単純なことで、もっと複雑なスケールの物事が起こることが期待できるよりもはるかに単純ですが、すでにどれほど便利で価値があり、どれだけの時間を節約できるかが分かります。多くの人々は今でも家事などに時間を費やしています。
これらのロボットがあれば、あなたが何をしたいかに応じて家を再配置するだけのロボットがあるかもしれません。それが安価なものであれば、あなたは小さなスペースでも十分かもしれません。なぜなら、何か別のことをしたいときにはロボットがすべてを再配置してくれるからです。何かのために専用のスペースを持つ必要はありません。これだけでも、すでに大きな影響を与えることが分かります。そしてこれは、スケーリングから期待できることのほんの一部分です。
つまり、AIによって生み出される経済成長や価値のほとんどは、そのような種類のものになるでしょう。経済全体にわたるタスクの広範な自動化であり、主にR&Dの自動化によって駆動されるわけではないということですか？
それは少し微妙です。長期的な成長のためには、すべての生産要素を同時にスケールアップする必要があります。資本をスケールアップし、労働力をスケールアップし、生産性をスケールアップする必要があります。これらのうち、最も重要な要素は労働力です。生産性と資本はほぼ同等に重要で、おそらく労働力の半分程度の重要性で、共同ではほぼ同程度の重要性を持ちます。これは文献における典型的なパラメータ推定から導き出されています。
しかし、非常に持続的な長期成長を望むなら、すべてを同時にスケールアップする必要があります。それが私が起こると思うことです。
ニュースレターでこのことについて書いたのですが、人々はそれを誤解し、私たちが言っていることを理解しませんでした。彼らは私たちがR&Dは長期的成長に不可欠ではないと主張していると思いましたが、それは私たちが言っていることではありません。R&Dは不可欠ですが、他のことも同様に不可欠です。例えば、労働力のスケーリングや資本量のスケーリングも長期的成長には不可欠です。
これらのいずれかが欠けていれば問題です。私たちが言っていたのは、R&Dは資本のスケーリングや労働力のスケーリングと比較して相対的に重要性が低いということです。なぜなら、R&Dは生産性向上の一部しか占めていないからです。一部の生産性向上は、学習効果など明示的なR&Dではないものからも生じます。
経済ではそれは研究者や学者などの肩書きを持つ人々によって行われるわけではなく、普通の人々によって行われています。そのためどの程度の資源がそれに費やされているかを推定するのは難しいです。それはより良い管理から来るかもしれませんし、単により良い生産プロセスの入力を使用することを理解することから来るかもしれません。ここではなくあそこから材料を入手する方が安いことに気づくかもしれません。世界レベルでの規模の経済から恩恵を受けるかもしれず、これも生産性を向上させるでしょう。
これらの効果はすべて生産性に含まれており、R&Dは生産性向上の一部しか占めていません。生産性向上自体は、労働力と資本のスケーリングからも来る全体的な経済成長の一部に過ぎません。
なぜR&Dは人々が考えるほど長期的な経済成長に経済的に価値がないのですか？
長期的な経済成長のためには、すべての生産要素を同時にスケールアップする必要があり、全要素生産性は成長経済学で考える生産要素の一つに過ぎません。労働力と資本も重要な生産要素です。労働力はおそらく最も重要で、次に資本と全要素生産性が来ます。スケーリングする際の実際のリターンを見ると、これらはほぼ同様に重要である傾向があります。
成長会計を行うと、全要素生産性成長は長期的成長の一部に過ぎないことがわかります。学習効果や規模の経済（より大きな規模で生産するとより効率的になる）、より良い管理やより良い調整、資源の誤配分の減少など、明示的なR&Dではなく他の要因によって駆動される部分もあります。これらすべてが生産性に影響します。
つまり、R&Dによって直接駆動される経済成長の部分は、すべての経済成長の一部の一部になります。これは、ほとんどすべてがR&Dによって駆動されるという人々の考えと比較すると、比較的小さいものになります。
しかし、この主張を誤解する方法もあります。「R&Dがなければ、1700年代から成長せず、現在の富と繁栄のレベルには達していないだろう」と言う人もいるでしょう。それは事実ですが、それはR&Dが長期的成長に不可欠だということを意味するだけです。しかし、長期的成長には他の多くのことも不可欠です。
例えば、1700年代以降R&Dを行ったけれども、資本ストックを全くスケールアップしなかったとしたら、現在でもとても貧しいでしょう。また、労働力も不可欠です。労働力は直接的に生産を増加させるだけでなく、R&Dを推進するためにも使用できます。労働者は研究者になれますし、労働者が提供する大きな経済を使って偶然の発見をすることもできます。
AIはこれも大幅にスケールアップします。そのため、AIを限定的にR&Dに展開するよりも、広範な労働タスクに展開する方が経済的に価値があると思われます。R&Dも行うでしょうが、最終的にはすべての生産要素がスケールアップする必要があります。
しかし、成長会計を行えば、ほとんどが労働力と資本のスケーリングから来ていることがわかり、R&Dからは比較的少ないことがわかります。AIによってこの傾向が特に変わるとは思いません。
例えば機械学習の研究は、現在最も経済的に価値のある労働の一つではないでしょうか？だとすれば、それを最初に自動化することを目指すのではないでしょうか？
はい、能力分布が平らであれば、最も報酬の高いものから始めるでしょう。ただし、仕事が非常に価値があっても、実際にそれを行うのが非常に高コストであれば、AIをそれに展開しないこともあるかもしれません。
AIが特定のコストであり、経済のどんな仕事でもできると仮定すると、最も報酬の高い仕事に展開するでしょう。実際、このボトルネックは少なくとも初期段階では重要になる可能性があります。なぜなら、世界中にそれほど多くの計算能力がないからです。
人間の脳が使う計算量は、約1台のH100と同じです。世界には約100億人いるので、それは100億のH100が必要になります。しかし、私たちはその数に近づいていません。おそらく1000万くらいしかなく、桁が違います。そのため、優先順位をつける必要があります。AIを最も経済的に価値のある場所に展開する必要があります。
これはおそらく最も経済的に価値のある国々に展開されるでしょう。そして、それらの国々でさえ、自由に行うのに十分な計算能力の供給はありません。そのため、最も高い報酬がある職業をターゲットにするでしょう。それがラボの観点から経済的に合理的だからです。
実際、R&Dの社会的価値はあり、長期的成長には不可欠ですが、最も重要なものではないとしても重要なボトルネックであるとしても、その社会的価値のほとんどは外部的です。つまり、AIラボであれば、R&Dを行うことから得られる価値のほとんどを得ることはできません。
ソフトウェアR&Dは少し異なり、少なくともある程度は価値を内部化できます。複数の競合他社がいるため完全には内部化できませんが、ある程度はできます。しかし、生物学のR&Dや基礎研究のようなものを行っている場合、ほとんど価値を内部化できません。
したがって、それが社会的に非常に価値があるとしても、価値を内部化できないため、おそらくそれをあまり行わないでしょう。実際にお金を稼ぐものを優先するでしょう。それにより、実際に評価を高め、より多くの資本を調達し、より多くのお金を稼いでAIにより多く再投資するなどが可能になります。
経済における広範な自動化についてのあなたの見解から結論づけられることの一つは、AIがより目立ち、より普及し、より段階的になるということです。AIが大幅に改善される前に、さらに改善されていることに気づくかもしれません。これらのシステムの安全性に関心のある人の観点からすれば、これは素晴らしいことです。対応する時間や社会として適応する時間がより長くなるかもしれません。これが最も説得力のある未来だと思いますか？
単一のデータセンター内でのソフトウェアのみの特異点と比較すると、はい、そう思います。一般的に、変化や展開の規模が広ければ広いほど、起こることは特定のラボの特異性や管理上の決定などによって駆動されるのではなく、一般的な経済的、社会的、政治的な力によって形作られることが期待できます。これらの力が作用し、起こっていることをコントロールする機会がはるかに多くなります。それが最も説得力のある結果だと思います。
しかし、AIについて懸念している場合、これが必ずしも安心するものではないかもしれません。なぜなら、これらの力自体があなたが好まない決定を下す可能性があるからです。
安全面を懸念している場合、それが実際により良いのか悪いのかは少し不明確です。あなたが一つのラボを信じる人なら、例えばAnthropicが素晴らしいと考え、彼らが勝つことが良いと思うなら、彼らがリードを持つ方が良いかもしれません。市場や政治的圧力に屈して、他の人々が望むようにシステムを作る必要がないかもしれません。
一方、大手ラボでのAI安全の実績に特に感銘を受けていないなら、これを歓迎すべき発展と見るかもしれません。他の産業では安全性が非常に重視されていると考えるかもしれません。特に何らかの災害や安全上の失敗が起きた場合、安全性が非常に優先されるようになる可能性があります。その場合、これはあなたの観点から良いことかもしれません。
これは非常に発達した見解ではありませんが、AI開発のペースや世界の変化のペースが信じられないほど高い場合、これらの問題を理解し、深く理解し、社会として適応するのに十分な時間がないという感覚を持っています。社会全体にAIがより段階的に普及すれば、それはより良いかもしれませんが、決して当然のことではありません。
その通りです。普及は広範囲であっても、様々な理由で速い可能性もあります。広範囲になる場合、物理的な世界で物事を実現するための必要性や、既存の社会的政治的構造への対応など、様々な点でボトルネックになるため、開発はある程度遅くなると期待すべきです。
また、ソフトウェアのみの特異点の世界では必要ないかもしれない膨大なリソースを蓄積する必要もあります。しかし同時に、ソフトウェアのみの特異点は実際には、特定のラボの特異な特徴や見解、慣行を特権化する可能性があり、それは良い結果とは言えないかもしれません。
その世界では、OpenAIが最初に到達するか、XAIが最初に到達するか、あるいはDeepMindが最初に到達するかで大きな違いがあります。しかし、より広範囲な世界では、それはそれほど重要ではありません。重要なのは、より広範なインセンティブと力が何か、それらの力がAIをどのような方向に押しているかということです。なぜなら、人々はできる限りそれに沿ってAIを開発するからです。
もちろん、アライメントが難しいため、それでも失敗する可能性がありますが、その失敗の方法も、これらの力に対応してしようとしていることによって影響を受ける可能性が高いです。
理解できました。より段階的なシナリオでも、例えば20年程度でAIが経済全体に普及するとしても、歴史的な観点からすれば、それでも非常に短い時間です。政策立案者がこの状況にどのように対処できるかについて、アドバイスはありますか？また、より段階的なシナリオでは、公衆のAIに対する認識がどのように変化する可能性があるかについて言及していましたね。
確かにそうです。AIが物事を大きく変え始めると、人々の見方が変わることを期待すべきです。良い例は実際にCOVIDです。COVIDの前に、ワクチンやワクチン義務、ロックダウンなどについての意見を人々に尋ねたとしても、彼らが何を言ったかは明確ではありませんが、非常に参考になるとは限りません。なぜなら、それは彼らが考えていた目立った問題ではなかったからです。
しかし、実際に起こり、問題が非常に重要な物質的関連性を持つと、突然政治的状況が現れ、事前に期待していたものとは非常に異なる可能性があります。AIが実際に大きな影響を持ち始めると、同様のことが起こると思います。
個人的な観点から、よりゆっくりとしたAI革命に備えるにはどうすれば良いでしょうか？
個人的な観点からは、おそらくより多く貯蓄し、より多く投資することが良い賭けだと言えるでしょう。この経済的変革が進むと、収入の限界効用がかなり上昇すると予想しています。今日一定の収入があっても、より多くを得ることはできません。私たちの経済の規模と技術レベルでは、特定の種類の財しか生産できないからです。
私たちが効果的に提供できない多くの財やサービスがあります。例えば、寿命延長や、人々の健康を様々な方法で改善するサービスなど、それらはまだ非常に原始的です。また、将来、脳をより良く理解できるようになると、より豊かで異なる体験を提供できるようになるかもしれません。
おそらく他にも多くの種類の商品が登場するでしょう。個人的に、この未来の世界で最も興味を持って購入したいものを考えると、おそらく医療の発展が最も刺激的です。必ずしも寿命延長やがんの治療、老化の治療だけを意味するわけではありません。それ以外にも、生命を短縮しないが日常的に不便をもたらす軽微な不便や医学的状態がたくさんあります。それらは深刻ではありませんが、誰かがそれを解決する方法を持っていれば、多くのお金を払うでしょう。
確かにそうですね。例えば、風邪を二度と引かないようにするため、または年齢とともに聴力が低下しないようにするために、現在は治療できないが将来は治療できるかもしれないようなことに、多くのお金を払うでしょう。
そうです。そのようなことを楽しみにしています。だからこそ、AGIを期待する人々の場合、金利はどうなるべきかという研究もあります。素朴な議論としては、将来はるかに裕福になるなら、今日貯蓄する理由は少なくなります。なぜなら、将来どうせ裕福になるからです。
しかし、AIの場合、状況は少し異なります。大きな違いは、収入の限界効用が変わることです。より多くのお金を持って同じものに使うわけではなく、お金を使う選択肢が異なります。これは大きなことです。
また、明らかに将来的には賃金が下がると予想しています。それが即座に起こるかどうかは明確ではありません。どれだけ速く起こるかも不明確です。なぜなら、競合する効果があるからです。AIワーカーと競争する必要がありますが、同時により生産的になるでしょう。どちらが勝るかは明確ではありません。最終的には賃金は下がると思いますが、それにはかなりの時間がかかる可能性があります。
賃金が下がるというとき、これは失業についての話ですか、それとも同じ仕事をしているが報酬が少なくなるということですか？
失業は単に仕事を探しているが、市場にある求人が好きではないという意味です。おそらくそれが起こるでしょう。人々の賃金が下がり、生存に必要な水準を下回る点に達する可能性があります。その場合、働く意味はありません。富を持っているか、様々な種類の移転プログラムに頼るしかありません。それらは単に働くことで得られるよりもはるかに多くの収入を提供できるでしょう。
これは経済的にはやや複雑な問題です。賃金が最終的に生物学的人間にとって生存水準を下回るというのは、それがいつ起こるかを予測するよりも予測しやすいです。なぜなら、これらの競合する効果があるからです。
資本と労働力のストックをスケールアップすると、収穫逓減にぶつかります。これによって限界価値が下がり、賃金も下がります。賃金は労働の限界生産物だからです。しかし同時に、それは全要素生産性の増加によって乗算され、これは少なくともある程度まで、そうでなければ予想される賃金の下落を相殺する可能性があります。最終的にはうまくいかないかもしれませんが、少なくともある点まではそうでしょう。
この「最終的に」は非常に不明確な時間スケールです。世界経済がどれだけ速く成長するかにも明らかに依存します。成長が速ければ速いほど、生存水準のボトルネックに早く到達します。成長が非常に遅い場合、これには何世紀もかかる可能性がありますが、私たちが考えるほど速ければ、数十年しかかからないかもしれません。
少なくとも一部の経済学者から聞いた話では、AIがタスクの自動化を始めると、残りのタスクはより価値が高くなるため、少なくともしばらくの間は賃金が上昇すると予想し、完全自動化のような何かに達した後に崩壊すると言います。しかし、完全自動化に達した後でも、全要素生産性の効果のために、賃金が以前よりも低くなるかどうかは明確ではありません。
それ以外は、その話に同意します。当初50％、60％、70％の自動化を達成すると、まだ雇用されている人々の賃金は実質的にはるかに高くなるでしょう。人々が自動化されたタスクから、まだ自動化されていないタスクにどの程度再配置できるかという問題があります。それができるなら、初期段階では多くの失業を見ることはないかもしれません。
しかし、彼らは効果的にそれを行うことができないかもしれません。それを行う価値があるかどうかも別の問題です。自動化が非常に急速に進行しており、まだ自動化されていない新しい職業で効果的になるためのスキルを身につけるのに1年かかるが、そのものは1年以内に自動化される場合、努力を投資する価値はないかもしれません。単に「あきらめる」かもしれません。
これは、おそらくプログラミングや数学について私が考え始めている方法かもしれません。少なくとも私自身にとっては、これらのスキルを習得する価値はないでしょう。一部の人々にとっては価値があるかもしれませんが、モデルが私よりも優れることを期待しているため、私には価値がないでしょう。彼らはすでにそうですが、彼らがはるかに良くなる前に追いつくことはないでしょう。
それはおそらく正しいと思います。あなたのスキルはある程度補完的なパッケージであるという点があります。モデルがXにおいてあなたよりも優れているからといって、スキルXが人間にとって価値がなくなるわけではありません。
例えば、あなたがXYZという3つのスキルを持っているとします。Xが不足している人で、AIを使ってそれを補うことができる人を見つけるのは、3つのスキルすべてを持つ人を見つけるよりも容易ではないかもしれません。3つのスキルすべてを持つ人はパッケージとしてそれらを行い、相乗効果と補完性から恩恵を受けることができます。
これはかなりの程度真実だと思います。それらのスキルを持つことで、他の方法でより生産的になるのです。そのため、これらのスキルを学ぶのに十分な時間があると私は推奨しますが、それは期待とは少し異なる方法で報われるかもしれません。
なぜそれが報われるのか、もう一度説明していただけますか？
誰かを雇う場合、他のスキルには優れているが数学が苦手で、LMを使ってそれを補おうとする人を雇うのは、はるかに不便だからです。LMが数学において超人的になったとしても、それでも数学に優れた人を雇いたいと思うでしょう。なぜなら、LMのスキルは、同じスキルを持つ人（おそらく同じくらい優れていないかもしれない）に比べて、通常のワークフローに統合するのが難しいからです。それは多くの他のスキルと補完的なパッケージの一部となり、その多くはLMがまだ全くできません。
例えば、そのような人はLMを操作し、望む結果に向けて導くのにより効果的でしょう。現在これは真実ですが、数学を知らなければ、例えばLMが間違いを犯したときにそれに気づくのは難しいでしょう。
その通りです。モデルが何をしているかわからなければ、モデルの出力を評価できません。
また、それを駆動するのも難しいです。例えば、創造的な文章のために言語モデルを使用している場合、何が良い出力で何が悪い出力かを言うためには、良い味を持つ必要があります。これを変更すべきか、それともこのままにすべきかを判断する必要があります。LMはすでにいくつかの点で多くの人よりも書くのが上手かもしれませんが、実際に上手な人々はそれをレバレッジとして使用し、乗数として使用することができます。
彼らは何度もリサンプリングし、編集を推奨します。「これはあまり良く見えない、このパートをやり直せますか」など。これにより彼らはより生産的になり、生産性が低下することはありません。
将来AIが何ができるかを見つけ出す際に、現在AIができることを見てそこから外挿しないことを推奨しています。少なくとも、トレンドを外挿することと、将来のAI能力について第一原理から考えることの違いについて教えていただけますか？
トレンドを外挿するというのは、例えば2010年、2015年、2020年のAIの数学能力を見て、あまり変化がないと判断し、平坦な線を見て、それを予測するようなものです。
数年前、このポッドキャストで、言語モデルが数学やプログラミングなどの分野で能力を持つかどうかについて、AIの専門家にインタビューしていました。当時はこれらの分野で非常に不足していましたが、今では明らかに変わりました。
私が言いたかったのは、外挿はあまりうまく機能しないということです。実際、他の多くの基本的な方法でもうまく機能しません。例えば、2015年、2016年は教師あり学習の時代で、AIが使用されたタスクは画像のラベル付け、画像のセグメンテーション、誰が車のローンを返済するかどうかの予測などでした。おそらく自動運転車が最も興奮するアプリケーションだったでしょう。なぜなら、既存のコンピュータビジョン技術を活用できると考えられていたからです。
そのため、人々は10年後の最も影響力のあるAIアプリケーションは自動運転車だろうと予測していました。10年後の今、自動運転車はゆっくりと導入されていますが、ベイエリアでは見られますが、それは実際に起こったことのほんの一部です。それは物語ではありません。
物語は言語モデルや推論モデル、基本的なエージェンシー能力を持つものや、文書の要約や執筆、質問応答などのものです。自然言語処理が基本的に解決されたのです。2015年の人々が自然言語処理の解決がいかに困難だと考えていたかを理解するのは、今日の人々にとって難しいかもしれません。それは完全に扱いにくい問題と考えられていたか、ほとんど進歩がなく、希望もないと考えられていました。何かが起こるかもしれないが、どのように解決されるかわからないと思われていました。しかし、実際には解決されたのです。
脳にはまだ言語モデルや現在のモデルが持っていない多くの能力がありますが、脳は魔法の物体ではありません。それらの能力は実際にどこかから来ているのであり、計算能力の桁違いのスケーリングごとに、まず訓練計算が増え、より多くのデータを処理できるようになるという明らかな利点がありますが、より多くの実験もできるようになります。
計算はソフトウェアR&Dのプロセスへの入力であり、脳が行っていることを行う方法を発見し、それらを一つずつ発見していきます。最初は自然言語処理かもしれず、後には数学とプログラミング、さらに後には別のものになるかもしれません。脳にはまだ、モデルが欠けているように見えるエージェンシーや長期的コンテキスト、計画能力などがありますが、それらの能力も手の届かないところにあるわけではありません。
時々、人々は「言語モデルは決してXをすることができない」などと言いますが、その主張はあまり興味深くありません。なぜなら、まず、推論モデルは言語モデルなのでしょうか？時々、人々はそれらが異なると言います。チェーン・オブ・ソートなどの足場があるからです。そして、「言語モデルがXをできないと言ったとき、私は単に次のトークン予測について話していた」と言うかもしれません。しかし、それはなぜその主張が興味深くないかがわかるでしょう。
私たちが期待すべきことは、はい、変化があるだろうということです。次の5年間で根本的な変化、アーキテクチャの大きな変化は期待していません。トランスフォーマーは驚くほど長く続いているため、それが続くことを期待すべきですが、トランスフォーマーの訓練方法には多くの変化がありました。同じアーキテクチャですが、非常に異なる方法で使用されています。
最初は事前訓練はなく、英語からフランス語への翻訳など、トランスフォーマーの元のアプリケーションでした。その後、2018年頃のGoogleのBERTなどの訓練目標では、文を与え、一部の単語をマスクし、それを予測することでした。その後、次トークン予測のGPTパラダイムになり、それは続いています。その後、ポストトレーニングが始まり、RLHFが始まり、現在は推論を伴う異なる種類のRLを行っています。
また、人々が大量の合成データを生成し、それでモデルを訓練する合成データパイプラインやコンテキスト長の微調整など、過去3年ほどで登場した新しいことがあります。トランスフォーマーのトレーニング方法にこれらすべての変化を見てきたので、それが続くことを期待すべきです。
全く異なるアーキテクチャが出てくるというよりは、異なるデータで、RLのための異なる種類の信号を使用するなど、異なる方法でトレーニングされるでしょう。もしかしたら、トレーニングのための全く異なる方法を見つけるかもしれませんが、アーキテクチャは安定し続けると思います。それが続いて安定しているからです。
より能動的なモデルや長期的計画が可能なモデルをトレーニングする方法について、何か推測はありますか？
明らかなことは、元のAlphaGoにつながった方法を試すことです。多くの人間のデータを収集することです。ただし、人間のデータがどのような形態を取る必要があるかは不明確です。そして、それに微調整することで、何らかの種類の強化学習パイプラインのためのトラクションが得られることを期待します。
ナイーブに強化学習を行う問題は、報酬信号があまりにも稀になる可能性があることです。非常にナイーブな強化学習アプローチが機能するためには、モデルが最初から一定レベルの能力を持っている必要があります。それが私の最初の推測ですが、それが機能するかどうかはわかりません。
複雑な推論のための強化学習が機能しなかったと言うことができたかもしれません。もし機能していれば、誰かがすでにそれを行っていたでしょう。しかし、実際には機能することがわかりました。ですから、同様のことが見られるかもしれません。
私が持つ主な疑問は、収集する人間のデータが実際に必要なものではない可能性があることです。それは彼らの行動の外部ではなく、彼らの脳の中で何が起こっているかについてのデータかもしれません。それは推論モデルをarXivの論文だけでトレーニングしても機能しないのと同様です。関連データはおそらく頭の中で起こっていることで、それを見ることはできません。それを取得するのは非常に難しいでしょう。
それは専門家に思考プロセスを書き出してもらうというゲームでしょうか？問題解決のために明示的な思考の連鎖を書き出すようなことを想像できます。
わかりません。それは私が試してみることかもしれませんが、どれほどうまくいくかはわかりません。
第一原理からAI能力を予測しようとすることの欠点はありますか？トレンドの外挿の欠点について議論しましたが、第一原理からの考察についてはどうでしょうか？
それははるかに曖昧で、正確な予測をすることはできませんが、それが欠点かどうかはわかりません。なぜなら、おそらく単に不確実であるべきだからです。
任意のベンチマークでは、ベンチマークラインが平坦に見える前新興期には多くの不確実性があります。物事を再パラメータ化して、精度ではなく平均対数確率を見るなど、それに対処する方法はありますが、それでも難しいです。
その場合、能力がまったく存在していないように見える場合は、より判断に基づいた方法に頼ることになります。それは方法論の問題というよりも、困難な状況にいるということで、その状況では結局どのような方法もうまくいかないでしょう。
それ以外では、より判断に基づいたものになり、人々は持っている異なる事前の信念に基づいて異なる結論に達する可能性があります。しかし、それは多くの証拠がないという事実の産物だと思います。
実際、ベンチマークの外挿についても、外挿できるトレンドがあっても、トレンドが破られるかどうかはわかりません。それが数学で起こったことです。数学では進歩が見られていましたが、推論モデルによってトレンドが破られました。
私たちは均等なペースで飽和するベンチマークが不足しているように思えます。常に進歩があまりなく、その後新しい種類のモードに達し、その後ベンチマークは基本的に1年以内に飽和してしまうようです。これはプログラミングベンチマークの一部、数学ベンチマークの一部、PhD級の質問などで起こりました。
このような現象を説明するのは何でしょうか？そして、均等なペースで飽和するベンチマークはどのようなものになるのでしょうか？
それは理想的なことですが、実際には構築するのが難しいです。質問を困難度の滑らかで均一な分布に配置したと思っても、均等な方法で解決されるとは限りません。AIが突然能力を獲得し、新しいパラダイムが登場し、人々がそれを急に拡大し、大量の進歩が見られることがあります。
ベンチマークを設計する際にこれを予測するのは非常に難しいですが、ベンチマークがなぜそれほど速く飽和するのかという質問に対する答えがあります。それは、ベンチマークの解決が視野に入った場合にのみベンチマークが構築されるからだと思います。
例えば、GPT-4が私たちに食事を作れるかどうかについてのベンチマークは存在しません。それは不可能で、ゼロを獲得し続け、長年にわたってゼロを獲得し続けるでしょう。それは無意味です。
しかし、GPT-4がコンピュータ使用タスクを合理的にこなせるかどうかについてのベンチマークを想像することはできます。OS Worldなどがありますが、これらのタスクは非常に狭く特定のものです。より一般的なベンチマークを想像することができます。
その事実は、それが起こる可能性があると考えているからかもしれません。少なくともある程度はそれが起こる可能性があると思っているからです。また、ラボもベンチマークの費用を支払いますが、それは報酬がかなり早く来ると考えている場合です。
ベンチマークはラボの資金提供を受けますが、ラボが近い将来に役立つと期待するベンチマークに資金を提供します。デモやモデルを印象的に見せるためだけでなく、内部評価のためにも役立ちます。
ベンチマークでモデルが常にゼロを獲得する場合、内部の決定のための有用な内部信号は得られません。モデルのパフォーマンスにある程度のバリエーションが必要であり、それはモデルがすでにある程度能力を持っていることを意味します。それが起こっていることの多くだと思います。
時間とともに滑らかなパフォーマンスを示すような夢のベンチマークに到達することは期待できないのでしょうか？
それは偶然によって起こるかもしれませんが、前もってそれを設計するのは難しいと思います。
モラベックのパラドックスについて話しましょう。これについての素晴らしい投稿がありますね。モラベックのパラドックスとは何か、そしてそれを説明する現代的な更新は何かを教えてください。
モラベックのパラドックスは、知覚や感覚運動のスキルが、チェスをプレイするなどの通常、連想的知能と思われるスキルよりもはるかに計算的に高価で難しいという観察です。これは非常に古い観察です。
モラベック自身がパラドックスに与えた基本的な説明は、私たちにとって難しく見える能力は、私たちにとって新しくあまり最適化されていない能力だというものです。チェスを上手にプレイすることは、人間はチェスをプレイする能力で選別されていませんでした。そのため、チェスをプレイする効率性には大きなバリエーションがあります。
例えば、AIシステムがチェスで中級者レベル（ELO 1200-1300程度）に達した時点を見ると、その時点で特定の計算量を使用していました。そして、世界チャンピオンレベル（ELO 2800程度）に達するまでに何桁の計算能力のスケーリングが必要だったかを見ると、物理的な計算能力の約5桁のスケーリングとソフトウェアの進歩が必要でした。
素朴に見ると、これはチェスをプレイする能力の人間の範囲が少なくとも5桁以上広いことを示しています。これは中央から右端までの範囲であり、左端はおそらくさらに悪いかもしれません。
つまり、人々が走る速さに6桁のばらつきがあると想像してみてください。これは非常に奇妙なことであり、期待することではありません。人によって速く走るということは、2倍か3倍速く走ることを意味しますが、100万倍速く走ることを意味するわけではありません。
身体的なタスクでは、健康な人々の間でパフォーマンスにそれほど大きな違いはないと予想されます。例えば、私が食洗機にお皿を入れるのとあなたが食洗機にお皿を入れるのでは大きな違いはありません。これは現在のロボットやAIには基本的に不可能なテストです。
しかし、高度な物理学研究やプログラミングなどのより理論的で数学的、技術的なタスクでは、人々のパフォーマンスには信じられないほどの違いがあります。なぜなら、それは私たちが進化してきたものではなく、数千年か数百年しか行っていないものだからです。
そうです。もしタスクが進化的環境で非常に価値があり、長い間価値があったなら、それに対する選択圧が大きく、人間の脳でそれらの能力がどのように実現されるか、それらを行うために使用されるアルゴリズムは非常に洗練されています。
進化からトレーニングされたパラメータをたくさん得ることはできません。なぜならDNAにはそれほど多くの情報が含まれていないからです。DNAには実際にアルゴリズムと高レベルの詳細をコードするのに十分な情報しか含まれていません。進化をトレーニング実行に類似したものと見なすことはできません。ゲノムから実際に得られる情報はそれほど多くないからです。
しかし、それをアルゴリズムアーキテクチャ検索に類似したものと見なすことができます。その場合、アルゴリズムは非常に分離されています。脳には異なる領域があり、それぞれが異なる責任を持っています。小脳は脳の残りの部分とは別の責任を持っています。視覚処理や音声処理に特化した特定の領域があり、前頭前皮質でより行われる一般的な思考タスクがあります。言語理解と解析に特化した特定の領域もあります。
これらはすべて非常に地域的であり、おそらくそれらはすべて異なる種類のアルゴリズムによって行われています。なぜなら、それらは地域的であり、すべての人で同じ領域が使われるからです。それはゲノムのどこかにコードされていなければなりません。
しかし、能力は非常に新しく、それほど最適化されていません。おそらくかなり貧弱なアルゴリズムによって行われています。その場合、最適化されていないため、脳のリソース、つまりその電力使用と計算能力を使用して、タスクでより良いパフォーマンスを得るための効率を改善する余地が大きくあります。
チェスはこのようなものであり、これらのタスクでは大きなバリエーションが見られます。タスクをより多く訓練するだけでパフォーマンスを劇的に向上させることができます。また、遺伝的なバリエーションも大きい可能性があります。基礎となるスキルのためか、理解できない理由のためかもしれません。
例えば、一部の人は他の人よりも記憶力が良い場合があります。視覚化や計算の能力がより高いかもしれず、それがチェスで重要かもしれません。そのようなものをすべて積み上げると、チェスをプレイする効率に5桁から6桁の違いが生じます。それはチェスが簡単なスキルであることを意味します。必ずしも簡単というわけではありませんが、人間が特に得意だと期待する理由はありません。人間は実際にはそれが苦手なので、コンピュータが私たちを簡単に打ち負かすのは驚くことではありません。
一方、私たちが選ばれて得意になったタスク、例えば複雑な物体操作は、異なる人間の間でほとんど変動がないようです。これはかなり最適化されていたことを示唆しています。またはより一般的に感覚運動タスクも同様です。視覚処理ができることは非常に重要なスキルであり、多くの動物も視覚処理が非常に優れています。実際、一部の動物は特定のタスクにおいて人間よりも優れています。例えば、猫は反応時間が速いなどです。
つまり、私たちが直感的に非常に難しいと感じるタスクは、実際には難しいタスクではないということです。100または100万の異なる桁を記憶するよう頼まれても、どれだけトレーニングしても不可能ですが、コンピュータにとっては全くの些細なことです。
一方、現在のロボットに水をグラスに注いで飲み、それからグラスをテーブルに置くように頼んでも、ほとんどすべての人間ができることですが、基本的にロボットにはまだできません。興味深いのは、どのタスクが難しいかについての私たちの直感が逆転しているということです。
これは、どのタスクや仕事が自動化に最も脆弱かについて何を教えてくれますか？
仕事に物理的な要素があることは、それが後で自動化されると予想する理由です。エージェンシーや複雑な計画を長いコンテキストや長い時間枠で必要とする仕事で、フィードバックループが不明確な場合も、後で自動化されると予想する理由です。
同時に、人間のパフォーマンスに大きな違いがある仕事は、早期に自動化されると予想する理由です。ただし、これらのことが混乱することもあります。補完的なスキルに依存する仕事があり、そのスキルの一部はAIが簡単に行えるものですが、他のスキルは難しい場合があります。
例えば、数学研究者になるためには、多くの数学的知識とスキルが必要ですが、AIにとってより難しい複雑なエージェンシーも必要かもしれません。
非常に単純な仕事と比較すると、コンテキストの長さが非常に短い仕事、例えばカスタマーサポートなどでは、コンテキストの長さは比較的短いです。カスタマーサポートは、社会的相互作用は数学よりも私たちが最適化されているかもしれませんが、同時にそのタスクのコンテキストは非常に短いです。
その通りです。2〜5分の電話で、そのためのスクリプトがあるかもしれません。
仕事のレベルでこの分析を行うのは難しいと思います。多くの仕事が多くの異なるスキルを混ぜ合わせているからです。しかし、論文のような同じ種類の分析を行うことができます。「GPTsはGPTsか？」という論文をご存知でしょうか？タイトルの中で2つの異なるGPTの意味を説明していただけますか？
最初のGPTは単に「生成的事前訓練済みトランスフォーマー」であり、GPT-2、GPT-3、GPT-4などのモデルファミリーの名前です。2つ目は「汎用目的技術」です。
彼らが論文で行っていることの基本は、経済のさまざまな職業がLMによって自動化される（主に部分的に自動化される）ことにどれだけさらされているかを見て、職業が自動化しやすいか難しいかを予測する要素を定量化しようとすることです。
同じ種類の分析を行うことができます。多くのエージェンシー、複雑な計画、創造性、新しい状況への適応を必要とするものは、後で自動化されると予想する理由です。高度な感覚運動スキルを必要とするテストも、後で自動化される理由です。
一方、モジュール化されていて、外部の請負業者に簡単に外注できるようなもの、請負業者が2日間作業して戻ってくるようなものは、実際には自動化しやすいです。それは非常に限定されたタスクであり、そのタスクを行うのに複雑な計画が必要ではなく、非常に大きなコンテキストに統合する必要がないことを意味します。
会社にオンボードして、彼らがどのように物事を行うかに精通している必要はありません。それはパッケージ化された狭いタスクであり、誰かに渡され、それを行うだけです。これがAIが自動化すると思われる種類の労働タスクです。
すでに今、これを見始めています。例えば、Deep Researchに送るような種類のリクエストを想像できます。誰かを雇い、「こういったことについてレポートを書いてください」と伝え、彼らがレポートを書いて戻ってくるようなことです。これは請負業者に簡単に外注できることを想像できます。
一方、現在の経済で請負業者に外注するのが困難な仕事、それがあなた自身のビジネス慣行やコンテキストと非常に密接に結びついていて、非常に長いプロジェクトである場合、AIはそれを行うのにはるかに苦労すると思います。
明確にしておきますが、最終的にはこれらすべてが解決されると思いますが、物事が自動化される相対的な順序について話しているなら、これがほぼ私が行う予測です。
ソフトウェアエンジニアリングや数学研究も自動化に脆弱であるか、少なくともその一部が自動化されるだろうと書いていますね。これは私たちがすでに議論した理由からです。多くのデータがあり、これは多くの人間にとって非常に難しいことで、パフォーマンスに幅広い範囲があるため、特にそれらのタスクまたは特定のタスクの自動化を他よりも先に期待するでしょう。
はい、しかしソフトウェアエンジニアリングを自動化するのは完全に些細なことではありません。実際には、ソフトウェアエンジニアリングは短いスニペットのタスクではありません。通常、より長いコンテキストのことであり、曖昧な指示を受け取り、会社が何をしているかに精通している必要があります。これは、より困難で複雑になると思います。
しかし、一部のソフトウェアエンジニアリングはより模範的かもしれず、その部分は自動化されるべきではないでしょうか？
はい、より外注可能なものなど。しかし、大きなコンテキストや特定の会社からのコンテキストを必要とする部分は、あなたの見解では最後に自動化されるでしょう。
また、高レベルの管理も自動化可能であると予想しているというおもしろい点がありました。これは少し驚きました。なぜなら、管理は主に人に関するものであり、それは人間が得意なことであり、ほとんどの人間が社会的相互作用、話すことなどを得意としているように思えるからです。
しかし、LMも社会的相互作用をある意味で得意としています。
その通りです。覚えておくべき重要なことは、社会的相互作用は多くの選択圧を受けたスキルですが、それはあまり古いスキルではないということです。そのため、感覚運動タスクよりもかなり簡単であることが期待されます。これはずっと新しいものだからです。
また、管理は補完的なものです。私は実際に管理が自動化されるとは言っていません。管理にはこれがありますが、人々が管理で行うことの多くはおそらく自動化されるだろうと言っています。
つまり、生産性が大幅に向上する管理者が出てくるでしょう。また、管理者に期待するスキルのいくつかは、今日期待されているほど良い必要がなくなるため、異なるスキルに基づいて管理者を選び始めるかもしれません。
管理が非常に新しいスキルである理由は、前例のない規模で行っているからです。古いスキルでさえ、5人のグループを管理して採集するようなものです。それは古いスキルです。しかし、世界中に散らばる10万人の従業員を持つ会社を管理することは、古いスキルではありません。それは私たちが進化してきたことではありません。
その通りです。また、管理能力については人によって非常に大きな違いがあります。典型的な人が意味のある規模の会社の責任者になると、おそらく破壊的になります。会社に負の価値をもたらし、会社の活動を有害な方法で妨げ、物事を台無しにするでしょう。それを期待するのは自然ではありません。
そして、それを非常に効果的に行う人々の右端があり、問題は「このような大きなバリエーションがあるなら、そのタスクの少なくとも大きな部分がAIにとって容易である」という一般的な理由が期待できるということです。
これはタスク全体がAIにとって容易だということを意味するわけではありません。なぜなら、管理には長いコンテキスト理解などが必要であり、これは古いヒューマンスキルに依存していると思われるからです。しかし、あなたは可能な限り多くの仕事をAIに自動化しようとするでしょう。特に、実際にはそれほど得意ではない新しいスキルに依存する部分を。それによって品質が向上する可能性があります。それが私が期待していることです。
実際、AIが人間の管理者に代わる能力があったとしても、社会的、政治的、法的理由から、少なくともしばらくの間は人間の管理者を維持すると思います。誰かが決定に責任を持つ必要があり、それがAIよりも人間の方が簡単だからです。また、社会的理由からもそうでしょう。
データについてはどうでしょうか？管理に関する良いデータは本当にないので、これもここでの進行を遅らせるかもしれませんが、人間もまた良いデータを持っていません。
それも事実です。AIは人間よりもデータ効率が悪いままなので、AIに何かを教えるにはより多くのデータが必要です。しかし同時に、人間が十分に悪ければ、人間よりも良い仕事をするためにそれほど機械学習を必要としないかもしれません。
問題は、これが実際にそうかどうかをどのように知るかです。管理は良いベンチマークを持つことができないようなものです。人々に実際に現れて働いてもらう必要があります。AIがその能力を持っていることに人々が気づくのは、かなり後になってからかもしれませんが、人々はAIを自分のワークフローに統合する方法を見つけようとするでしょう。
AIラボが「管理を置き換えよう」と言う形ではなく、むしろ管理者自身、特に技術により精通している人々が、AIをより多く使い始め、それが自分たちに利益をもたらすことに気づくという形になるでしょう。
非常に簡単なことの一つは、管理者は多くのものを読む必要があるかもしれず、非常に有能なAIがそれを大幅に高速化することを想像できます。「この文書からこの情報を見つけてください」や「これをチェックしてください」など、AIにとっては非常に簡単だが人間には時間がかかるような単純なことをAIに外注できます。
今年のAIについて何を期待していますか？2025年についてです。
私は昨年よりも今年の進歩が速いと予想しています。主に今年見られる計算能力のスケーリングのためです。事前訓練のスケーリングはその一部に過ぎず、すでにそれを見始めていますが、人々が推論をスケールアップし始めるという事実もあります。
また、推論モデルと同様の新しいものが見られる可能性もあります。何になるかは予測できませんが、計算能力の1桁のスケーリングごとに、何か新しいものが解放される良い可能性があると予想しています。今年は昨年と比較して多くのスケーリングが見られると思います。なぜなら、H100の大規模クラスタがすべてオンラインになるからです。
数学の進歩が続くと思います。おそらく私たちの独自の数学ベンチマークであるFrontier Mathでは、年末までに75％程度になるかもしれません。SweeBenchは飽和すると思います。
これらの声明がどれほど驚くべきものかを聴衆に説明してください。Frontier Mathとは何か、SweeBenchとは何かを説明して、これらがかなり難しいベンチマークであり、飽和すると予想していることのコンテキストを提供してください。
Frontier Mathは、以前の数学ベンチマークと比較して少なくとも1桁以上難しい数学問題で構成される、OpenAIとの共同で作成したベンチマークです。より難しい問題はさらに2桁以上難しいかもしれません。専門家の人間が解決するのにどれだけ時間がかかるかという観点から見ると、難しい問題には専門的な領域知識も必要です。
ベンチマークの約25％は、数学の競争バックグラウンドを持つ人が30分以内にできるかもしれません。中程度の問題は1時間から2時間かかり、最も難しい問題はさらに長くなり、より多くのバックグラウンドも必要とします。
私たちの独自の評価での現在の最先端スコアは約11％です。OpenAIは独自の内部評価を持っており、はるかに高いスコアを報告していますが、それらは一般に公開されていないモデルのものです。O3のようなモデルは全く公開されていないか、OpenAIが25％得たと言ったものか、O3 mini highのようなモデルで、おそらくはるかに大きな推論予算といくつかのカスタム内部のスキャフォールディングでOとともに評価されており、外部ユーザーには公開されていません。これで約30％を主張しています。
私たちの独自の評価では、モデルを存在するままに評価しています。OpenAIにサブスクライブして、APIに行き、O3 mini highを選び、私たち独自のプロンプトを使用し、モデルにツール使用へのアクセスを提供します。しかし、ツール使用へのアクセスを提供する方法はおそらくOpenAIほど洗練されていないし、パフォーマンスも高くないでしょう。
このベンチマークで75％というスコアはかなり印象的ですが、不合理だとは思いません。他の人々の期待とも一致していると思います。なぜなら、推論RLは非常に新しいパラダイムであり、まだ飽和に近づいているわけではなく、人々はまだ事前トレーニングよりも10倍以上少ない費用をかけているからです。これをスケールアップする余地がまだたくさんあります。
より性能の高いモデルに基づいてこれを行う余地もあります。例えば、GPT-4.5に基づいて推論を行うこともできます。GPT-5が登場し、それが多くの異なる要素の混合であり、その一つは、より大きなベースモデルに基づく推論能力を持ち、それがはるかに優れたパフォーマンスを提供する可能性があります。それに驚くことはないでしょう。
SweeBenchは、実際のGitHub問題を解決するAIシステムの能力を評価するために設計されたベンチマークです。SweeBenchを区別する主な点は、コンテキストウィンドウに関連しています。ほとんどの問題は、多くのコンテキストなしで解決できます。プロジェクトについて何かを知る必要がありますが、会社にオンボードして6ヶ月を過ごし、曖昧な指示を解釈する必要はありません。通常はそれよりもはるかに明確です。それが、解決されると予想する理由です。
SweeBenchですでに多くの進歩を見てきました。現在、人間が検証してエラーがなく高品質であることが確認されている部分であるSWE verifiedでの最先端は約65％です。年末までに90％程度で飽和すると予想しています。進歩のペースを見ると、これは非常に合理的な予測だと思います。
OpenAIの収益予測もおそらくほぼ正確でしょう。OpenAIは2025年に約100億ドル、おそらく110億ドルの収益を予測しています。正確な数字は覚えていませんが、それはほぼ正しいと思います。おそらく120億ドルを達成するかもしれません。それは、昨年の3倍以上であり、昨年は前年の3倍でした。2023年は約12億ドル、2024年は約40億ドル、そして今は120億ドルを期待しています。それは素晴らしい成長です。
次のブレークスルーが何になるかを予測できないと言いましたが、推論モデルと同様のブレークスルーについて推測したいですか？何か考えはありますか？
私には最も可能性が高いのは、長いコンテキストのブレークスルーのように思えます。それが起こることを期待していますが、懐疑的でもあります。なぜなら、それは長い間起こると言われてきたことであり、起こり続けていないからです。
非常に長いコンテキストを持つことは何を意味し、何を可能にするでしょうか？
現在、より長いコンテキストでモデルを使用しようとすると、パフォーマンスが大幅に低下します。コンテキストウィンドウの制限（例えば20万トークンしか扱えないなど）は偽のものです。パフォーマンスを損なうことなく20万トークンを扱うことはできません。長いコンテキストのパフォーマンスをテストするためのベンチマークは非常に狭いものです。長いテキストの中から特定のものを見つけるというようなnstack評価などです。
しかし、より重要なのは、長い文書を与えられたとき、どれだけ幻覚するか、どれだけ理解するか、異なる部分が互いに作用している場合、どれだけ理解するかです。例えば、言語モデルと話して物語を書いてもらうと、その能力をテストするための良い方法です。数万トークン、低い数万トークンを超えると、一貫性や何が起こっているかを理解する能力、詳細を思い出して過去のコンテキストに基づいて推論する能力が低下し始めることに気づくでしょう。
これがどのように解決されるかはわかりません。おそらくより多くの長いコンテキストのものに微調整するだけで解決されるかもしれませんが、鍵となるものは何か明確ではありません。しかし、長いコンテキストは経済的に価値のあるアプリケーションを解放するために必要なため、大きな問題のように思えます。
20万トークンのコンテキストでさえ、実際にはそれほど長くありません。ハリーポッターの本の大部分を収めるには十分ではなく、一冊の本をコンテキストに収めることができるくらいです。それにより、これらのモデルを使用するのがはるかに面倒になります。これらのモデルが数千万トークンのコンテキストを持ち、パフォーマンスの顕著な低下なしにそれを行うことができ、注意の複雑さのために現在得られるような価格の急激な上昇もなければ、それは非常に価値があり、他の経済的に価値のある多くのアプリケーションを解放するでしょう。
長いコンテキストでモデルがあれば、そのコンテキストを利用して推論などの他のことをより良く行うように訓練できます。これは非常に関連するボトルネックのように思えます。もし彼らがそれを解決する方法を見つけることができれば、それは非常に価値があるでしょう。
もう一つの可能性は、人々がエージェンシーをかなり改善することかもしれませんが、それが何になるかはわかりません。これら二つは関連しているでしょうか？大きなコンテキストを持つことで、より良いエージェントになる可能性がありますか？
はい、大きなコンテキストは良いエージェントになるために必要です。十分ではありませんが。
最後の質問として、タイムラインについてあなたが期待することの極端な例について話していただけますか？AIの企業のリーダーたちよりも5年のタイムラインについてより懐疑的であり、おそらくあなたの中央シナリオは今後20年間でより多くの自動化を見るというものです。2030年までにAGIを実現すると確信するために、どのような証拠を見る必要がありますか？そして逆に、2100年までAGIを実現しないと言うために、どのような証拠を見る必要がありますか？
2100年については難しいです。おそらく、スケーリングがあまりうまくいかない長い時間、おそらく5年以上、10年以上を見る必要があり、その後おそらくそれに向けて更新するでしょう。
2030年以前については、まず私が前に述べた能力のブレークスルーを見たいです。これらのことがはるかに良くなっているという明確なトレンド、つまりエージェンシー、長いコンテキスト、感覚運動スキル、複雑な計画と実行などについて、常に苦手だったことが明らかに良くなっているというトレンドを見たいです。
それが起こるのを見れば更新しますが、2030年以前まで更新するかどうかはわかりません。それは起こっているペースによって決まるでしょう。もし突然ロボット工学での大きなブレークスルーを見たら、それは大きな変化になるでしょう。しかし、それが起こると予想していますか？私は2030年末までにロボット工学での大きなブレークスルーが起こるとは予想していません。
素晴らしい、お話ししていただきありがとうございました。とても良かったです。