
26,936 文字

こんにちは、ベンジャミン・トッドです。最近では、2030年以前にAGI(人工一般知能)が実現するかもしれないと言う人がますます増えてきています。それは本当に可能性のあることなのでしょうか?私はこの記事を書いて、賛否両論を調査し、その議論に関する重要な点をすべてまとめてみました。
私は確実に実現するとは思っていませんが、驚くほど良い論拠を示すことができると思います。ここではそれを詳しく見ていきましょう。元の記事では、すべての画像と多くの脚注を見ることができます。
2030年までにAGIが実現する理由
最近の数ヶ月間で、主要なAI企業のCEOたちは急速な進歩に対する自信をますます強めています。11月には、OpenAIのサム・アルトマンが「進歩の速度は続くと予想している」と述べていましたが、1月には「AGIの構築方法を知っていると確信している」と発言しました。
同じく1月、AnthropicのCEOであるダリオ・アモデイは「今後2〜3年で強力な能力に近づいていると、これまで以上に確信している」と述べました。GoogleのDeepMindのより慎重なCEOであるデミス・ハサビスは、秋に「早ければ10年以内」と言っていたのが、1月には「おそらく3〜5年以内だ」と発言を変えています。
この変化は何を意味するのでしょうか?単なる誇大宣伝なのか、それとも2030年までに本当にAGIが実現する可能性があるのでしょうか?
この記事では、最近の進歩を推進している4つの要因を検討し、それらの要因がどこまで続くかを推定し、少なくともあと4年間はなぜ続く可能性が高いのかを説明します。そしてその期間、私たちはAIの大きな進歩を期待すべきだということです。
特に、2024年にLLMチャットボットの進歩が減速したように見えた一方で、新しいアプローチが機能し始めました。それは強化学習と呼ばれるものを使って、モデルに推論を教えることです。これについては後で説明します。わずか1年で、この技術によって、難しい科学的推論の質問に答える際に、モデルは人間の博士課程修了者を超え、1時間のコーディングタスクで専門家レベルのパフォーマンスを達成しました。
AIがどれほど有能になるかはわかりませんが、最近の進歩の速度を単純に推定すると、2028年までに人間を超える推論能力、あらゆる分野の専門家レベルの知識を持ち、数週間のプロジェクトを自律的に完了できるAIモデルに達する可能性があります。そこからさらに進歩は続くでしょう。
もはや単なるチャットボットではなく、これらのエージェントモデルは多くの人々のAGIの定義、つまりほぼすべての知識労働において人間のパフォーマンスに匹敵するAIシステムを満たす可能性があります。
これは、企業のCEOたちはおそらく少し楽観的すぎるものの、彼らの立場を非常に真剣に受け止めるだけの証拠があるということを意味します。また、定義にとらわれないことも重要です。
最終的に重要なのは、これらのモデルがAI研究自体を加速させ始め、はるかに多くの有能なAIワーカーを解き放つ可能性があるということです。そして今度は、十分な自動化によって爆発的な経済成長がもたらされ、10年間で100年分の科学的進歩が起こる可能性があります。これは社会が準備できていない変化です。
これらすべてが突飛に聞こえるかもしれませんが、多くの専門家が可能だと考える可能性の範囲内にあります。この記事は彼らがそう考える理由を理解するために必要な知識と、その立場に対する最も良い反論を提供することを目的としています。
私は2014年からAGIについて書いてきました。当時、5年以内にAGIが到来する可能性は非常に低いと思われていましたが、今日の状況は劇的に異なるように見えます。私たちはAGIがどのように機能するか、そして誰がそれを構築できるかの概要を見ることができ、実際、次の5年間は特に重要です。
AI進歩の基本的な原動力である計算能力とアルゴリズム研究への投資は、2030年を大きく超えて現在の速度で増加し続けることはできません。これは、加速を引き起こすことができるAIシステムにすぐに達するか、あるいは進歩が大幅に遅くなるかのどちらかを意味します。いずれにせよ、次の5年間が結果を知る時期となるでしょう。
記事の要点
AIの進歩を推進している4つの重要な要因があります:
-
より大きなベースモデル
-
モデルに推論を教えること
-
モデルが各質問について考える時間を増やすこと
-
複数ステップのタスクのためのエージェントの足場の構築
これらは、AIシステムの実行とトレーニングのための計算能力の増加、そしてアルゴリズム研究に向けられる人的資本の増加によって支えられています。
これらの要因はすべて2028年まで、おそらく2032年まで続く予定です。これは、その期間中にAIのパフォーマンスにさらなる大きな進歩が期待できることを意味します。これらの進歩がどれほど大きいかはわかりませんが、ベンチマークの最近の傾向を推定すると、コーディングと科学的推論において人間を超えるパフォーマンスを持ち、数週間のプロジェクトを自律的に完了できるシステムに到達することが示唆されています。
これらのシステムをAGIと呼ぶかどうかに関わらず、それらはAI研究自体、ロボット工学、技術産業、そして科学研究をすべて加速させ、社会に変革的な影響をもたらすのに十分かもしれません。
あるいは、AIは不明確に定義された高コンテキストの長期的な作業の問題を克服できず、大幅に改善されたとしても単なるツールにとどまる可能性もあります。
AIのパフォーマンス向上には、研究ワークフォースへの投資において指数関数的な成長が必要です。現在の速度では、2030年頃にボトルネックに達し始める可能性が高いです。少し単純化すると、2030年頃までにAGIに達する可能性が高いか、または進歩が大幅に遅くなるかのどちらかということです。
ハイブリッドなシナリオも可能ですが、次の5年間は特に重要です。
セクション1:最近のAI進歩を推進してきたものとそれは続くのか?
ディープラーニング時代の到来
2022年、MetaのチーフAIサイエンティストでチューリング賞受賞者のヤン・ルカンは言いました:「私が物体を取り、テーブルの上に置き、テーブルを押すと、物体がテーブルと一緒に押されることは完全に明らかです…これを説明するテキストは世界中にないと思います。いくら強力なマシン、例えばGPT-5000をトレーニングしても、これについて学ぶことはないでしょう」
しかし、ルカンの発言からわずか2ヶ月後、GPT-3.5はこれを簡単に答えることができました。そして、これは専門家が誤った予測をした唯一の例ではありません。
2011年以前、AIは「死んでいる」と有名に言われていました。しかし、それは70年代と80年代からの概念的な洞察が、膨大なデータと計算能力と組み合わさってディープラーニングのパラダイムを生み出したことで完全に変わりました。それ以来、多くのタスクでAIシステムが完全な無能力から人間を超えるパフォーマンスに、わずか数年で達することを繰り返し見てきました。
例えば、2022年、Midjourneyは飛行機でWifiを使うカワウソを描くことができませんでした。しかし、わずか2年後、Veo 2は超リアルな映画を作ることができます。
2019年、GPT-2は数段落のトピックを維持することがやっとで、それは当時、顕著な進歩と考えられていました。批評家たちはGPT-2が推論できない、常識を示さない、物理的世界の理解を示さないなどの限界をすぐに指摘しました。しかし、これらの制限の多くはわずか数年で克服されました。何度も何度も、ディープラーニングに賭けないことは危険でした。今日では、ルカンでさえAGIが数年内に実現すると予想しています。
しかし、現在のシステムの限界に焦点を当てることは重要ではありません。より興味深い質問は、これがどこに向かっているのかということです。GPT-2からGPT-4への飛躍を説明するものは何か、そして私たちはそのような飛躍をもう一度見ることができるのでしょうか?
今後の展望は?
最も広いレベルでは、AIの進歩はより多くの計算能力(コンピュート)とより良いアルゴリズムによって推進されてきました。どちらも急速に改善しています。
より具体的には、最近の進歩を4つの主要な推進要因に分けることができます。これらを記事の残りの部分で説明します。
まず第一に、事前トレーニングのスケーリングと呼ばれるものがあります。これにより、基本的な知能、世界の基本的な理解を持つベースモデルを作成することができます。
次に、強化学習を使用して、そのベースモデルに数学やコーディングなどの複雑な問題について推論することを教えます。
第三に、モデルが各質問や提示される各問題についてより長く考えることができるようにすることです。これはテスト時の計算時間の増加と呼ばれます。
そして第四に、そのモデルの周りにエージェントの足場を構築することで、複雑なタスクを完了し、世界で行動を起こすことができるようにします。
このセクションの残りの部分では、それぞれがどのように機能するかを説明し、将来を予測しようとします。GPTが言うように、掘り下げれば、AIがどのように改善されているかの基本を理解できるでしょう。
次にセクション2では、これを使って将来のAIの進歩を予測し、最後になぜ次の5年間が特に重要なのかを説明します。
第一の推進要因:基本的な知能を持つベースモデルを作成するための事前トレーニングのスケーリング
人々はしばしばAIの進歩には大きな知的ブレークスルーが必要だと想像しますが、その多くはエンジニアリングに近いものです:同じことをもっとたくさん行うだけで、モデルは良くなります。
GPT-2から4への飛躍において、進歩の最大の推進力は、同じ技術、特に事前トレーニングと呼ばれるものに劇的に多くの計算能力を適用することでした。
現代のAIは、層に編成された何十億もの相互接続されたパラメータを持つ人工ニューラルネットを使用して機能します。事前トレーニングの間(これは単に最初のタイプのトレーニングであることを意味する誤解を招く名前です)、次のことが起こります:
データがネットワークに供給されます、例えば猫の画像などです。 そのニューラルネットのパラメータの値は、そのデータを予測された出力に変換します、例えば「これは猫です」という説明です。 これらの出力の精度は参照データと比較して評価されます。 次に、予測の精度を高めると予想される方法でモデルのパラメータが調整されます。
これが何兆ものデータで繰り返され、モデルはますます正確に予測できるようになります。この方法はあらゆる種類のAIのトレーニングに使用されてきましたが、言語を予測するために使用されたときに最も有用でした。データはインターネット上のテキストであり、LLMはそのテキストのギャップを予測するようにトレーニングされています。
トレーニングのためのより多くの計算能力、いわゆるトレーニング計算は、より多くのパラメータを使用できることを意味し、それはモデルがデータのより高度でより抽象的なパターンを学習できることを意味します。それはまた、トレーニングのためにより多くのデータを使用できることも意味します。
2011年頃にディープラーニング時代に入って以来、AIモデルのトレーニングに使用される計算の数は驚異的な速度で増加しており、年間4倍以上になっています。これは、毎年最大のAIモデルをトレーニングするために使用される追加の計算能力の量です。これは、はるかに効率的なチップの使用と同様に、はるかに多くの資金を費やすことによって可能になりました。
歴史的に、トレーニング計算が10倍増加するたびに、多くのタスクとベンチマークにわたって安定したパフォーマンスの向上が見られました。例えば、トレーニング計算が1000倍成長するにつれて、AIモデルは常識的推論から社会的状況や物理の理解まで、多様な質問に答える能力が着実に向上しています。これはBIG-Bench Hardベンチマークで示されています。これはLLMに挑戦するために特別に選ばれた多様な質問のベンチマークです。
記事では、トレーニング計算がスケールアップするにつれてパフォーマンスが線形に増加することを示すグラフが見られます。
同様に、OpenAIは単純なコーディング問題を解決できるコーディングモデルを作成しました。その後、改良版をトレーニングするために10万倍以上の計算を使用しました。彼らはトレーニング計算が増加するにつれて、モデルはますます難しい質問に正しく答えるようになることを示しました。これらのテスト問題は元のトレーニングデータにはなかったため、これは単に記憶された問題をより良く検索したということではありません。
トレーニング計算とパフォーマンスのこの関係はスケーリング法則と呼ばれています。これらの法則に関する論文は2020年までに発表されていました。この研究をフォローしていた人々にとって、GPT-4は驚きではありませんでした。それはただトレンドの継続でした。
事前トレーニングへの第二の貢献はアルゴリズムの効率性です。トレーニング計算は増加しただけでなく、研究者はそれをはるかに効率的に使用する方法を見つけました。2年ごとに、広範囲のモデルにわたって同じパフォーマンスを得るために必要な計算は10分の1に減少しています。記事では、画像認識アルゴリズムの例を示しています。画像を認識する同じ精度を得るために必要な計算量は、ほぼ2年ごとに10倍減少しています。しかし、非常に似たようなパターンが広範囲のアルゴリズムに適用されます。
これらの利益は通常、モデルを実行するコストをはるかに安くします。DeepSeek-V3はメディアで革命的な効率のブレークスルーとして報じられましたが、実際には既存のトレンドにほぼ沿っていました。GPT-4の約2年後にリリースされ、GPT-4よりも約10倍効率的です。
アルゴリズムの効率性は、毎年トレーニングに4倍の計算が使用されるだけでなく、その計算が毎年約3倍効率的になることを意味します。この2つの効果が掛け合わさって、効果的な計算は毎年約12倍増加しています。これは信じられないほどの増加率です。例えば、半導体効率に関する有名なムーアの法則は年間わずか35%の成長率です。このAIの成長は10倍以上大きいです。
これは、GPT-4のトレーニングに3ヶ月間使用されたコンピューターチップが、わずか4年後にGPT-2のパフォーマンスを持つモデルを約30万回トレーニングするために使用できたことを意味します。
この効果的な計算の増加により、いくつかの文を繋げるのがやっとだったモデルから、GPT-4が以下のようなことができるようになりました:
-
大学入学試験でほとんどの高校生を上回る
-
自然言語で会話する(かつては真の知能の印と考えられていたチューリングテスト)
-
真の理解が必要と2010年代に考えられていた常識推論のテストであるWinogradスキーマを解決する
-
ほとんどの人が人間が作ったものと区別できないアートを作成する
ではこの進歩の原動力である事前トレーニングはどこまでスケールできるのでしょうか?現在のトレンドが続くと、2028年頃には誰かがGPT-4よりも30万倍効果的な計算でモデルをトレーニングしているでしょう。これはGPT-2から4への増加と同じです。もしそれが事前トレーニングに費やされれば、その仮想的なモデルをGPT-6と呼ぶことができるでしょう。そして今のところ、私たちはそのトレンドに乗っているようです。GPT-4.5は2025年初めにリリースされ、予測者たちは今年後半にGPT-5サイズのモデルがリリースされると予想しています。
このトレンドはGPT-6まで続くでしょうか?AnthropicのCEOであるダリオ・アモデイは、GPT-6サイズのモデルのトレーニングには約100億ドルかかると予測しています。それは高額ですが、毎年500億から1000億ドルの利益を上げるGoogle、Microsoft、Metaなどの企業にとってはまだ手の届く範囲です。実際、これらの企業はすでにそのようなトレーニングのために十分な大きさのデータセンターを構築しています。そして、これは1000億ドル以上のStargateプロジェクトが発表される前のことでした。
さらに、最先端のモデルはすでに100億ドル以上の収益を生み出しており、その収益は毎年3倍以上に増加しています。したがって、すぐにAIの収益だけで100億ドルのトレーニングを支払うことができるようになるでしょう。このプロセスをより制限する可能性のあるものについては後で議論します。
しかし、最も妥当なボトルネックはトレーニングデータです。GPT-4はすでにトレーニングのためにインターネット上の最もアクセスしやすいデータを使用しており、インターネットは一つしかありません。しかし、Epoch AIによる最も良い分析によれば、2028年までにGPT-6のトレーニングを実行するのに十分なデータが存在すると示唆されています。そして、それが当てはまらない場合でも、もはや重要ではありません – なぜなら、AI企業はデータのボトルネックを回避する方法を発見したからです。次にそれを説明します。
第二の推進要因:強化学習によるモデルの推論訓練
人々はしばしばChatGPTは単に次の単語を予測しているだけだと言いますが、それは完全に真実ではありません。インターネットからの生の単語予測は、インターネットの性質を考えると予想通り、定期的に狂った出力を生み出します。GPTは人間のフィードバックからの強化学習(RLHF)を追加して初めて本当に有用になりました。
このプロセスでは:
-
ベースモデルからの出力が人間の評価者に表示されます
-
次に、評価者はどれが最も有用かを判断するよう求められます
-
次に、役立つと思われる出力のようなものをより多く生成すると予想される方法でモデルが調整されます。これが強化と呼ばれています
RLHFを受けたモデルは単に次のトークンを予測しているだけではなく、人間の評価者が最も役立つと思うものを予測しています。初期のLLMが概念的構造の基盤を提供していると考えることができますが、RLHFはその構造を特定の有用な目的に向けるために不可欠です。
RLHFは後訓練の一形態に過ぎません。後訓練は事前訓練の後に行われるため名付けられていますが、実際には両方とも単に訓練の種類です。単純な計算機やインターネットへのアクセスを許可するものなど、他にも多くの種類の後訓練の強化があります。
しかし、現在特に重要なものが一つあります:モデルに推論を訓練する強化学習です。この考え方は、モデルを人間が役立つと思うことをするようにトレーニングする代わりに、問題に正しく答えるようにトレーニングするというものです。以下がそのプロセスです:
-
数学のパズルのような検証可能な答えを持つ問題をモデルに示します
-
その問題を解決するための推論の連鎖を生成するよう求めます(思考の連鎖と呼ばれます)
-
答えが正しければ、そのような出力をより多く生成すると予想される方法でモデルを調整します:これが強化です
-
このプロセスを何度も繰り返します
このプロセスはLLMに論理的問題について正しいと思われる長い推論の連鎖を構築することを教えます。2023年以前、これは本当に機能しませんでした。それは、推論の各ステップがあまりにも信頼性が低い場合、連鎖はすぐに間違ってしまうためです。そして、正解に近づくこともできなければ、モデルに強化を与えることもできません。
しかし2024年、AIの進歩が停滞したと多くの人が言っていたちょうどその時、この新しいパラダイムが実際に離陸し始めていました。GPQA Diamondベンチマークを考えてみましょう。これはその分野の博士号を持つ人々がほとんど答えられるが、専門家でない人はGoogleへのアクセスが30分あっても答えられないように設計された科学的質問のセットです。
それには、私が大学で物理学を勉強したにもかかわらず、理解できない高度な量子物理学などの質問が含まれています。
2023年、GPT-4はこのベンチマークでランダムな推測よりもわずかに良いパフォーマンスを示しました。これは、高校レベルの科学的問題に必要な推論を処理できるが、博士レベルの推論は管理できないことを意味します。
しかし、2024年10月、OpenAIはGPT-4oベースモデルを取り、強化学習を使用してo1を作成しました。o1はこのベンチマークで70%の精度を達成し、これらの質問に答えるのに関連分野の博士号を持つ人とほぼ同等になりました。
これらのモデルが単にトレーニングデータを繰り返しているだけだと主張することはもはや不可能です。答えも、それらを生成するために必要な推論の連鎖もインターネット上には存在しません。
ほとんどの人は日常生活で博士レベルの科学的質問に答えていないので、この進歩に気づいていないのです。彼らはまだLLMを基本的なチャットボットとして考えています。
そして、o1はただの始まりでした。新しいパラダイムの始まりでは、特に迅速に進歩を遂げることが可能です。o1のわずか3ヶ月後、OpenAIはo3の結果をリリースしました。o3は2番目のバージョンです。それはO2が通信会社であるために名付けられました。しかし、OpenAIのモデル命名慣行の他の部分を説明することはできません。
o3はおそらくただのo1ですが、さらに多くの強化学習と、すぐに説明する別の変更が加えられています。o3はGPQAで人間レベルの専門家のパフォーマンスを超えました。
強化学習は、科学、数学、コーディングなどの検証可能な答えを持つ問題に最も役立つはずです。実際、o3はこれらすべての分野でベースモデルのGPT-4oよりもはるかに優れたパフォーマンスを示しています。数学的質問のほとんどのベンチマークは現在飽和しており、これは主要なモデルがほぼすべての質問に正解できることを意味します。
それに応じて、研究グループのEpoch AIはFrontier Mathを作成しました。これは信じられないほど難しい数学的問題のベンチマークです。最も簡単な20%はオリンピアドレベルの問題に似ています。最も難しいものは、フィールズ賞受賞者のテレンス・タオによれば非常に難しいものです。それらは通常、その数学の分野の専門家が解決する必要があるでしょう。o1を含む以前のモデルは、これらの質問をほとんど解くことができませんでした。しかし2024年12月、OpenAIは現在公開されているバージョンよりも優れた足場を持つo3のバージョンをテストし、25%を解決できると主張しました。この記事がリリースされた後のGoogleのGemini 2.5のより最近のテストでは、数学オリンピアドの問題の約20%を解決できることが示され、これらの結果とほぼ一致しています。
当時、これらの結果はメディアでまったく報道されませんでした。実際、o3の結果が出た同じ日、ウォール・ストリート・ジャーナルはGPT-5が遅れていて高価だという記事を掲載していました。しかし、これは重要なポイントを見逃しています。GPT-5はもはや必要ではないのです。新しいパラダイムが始まり、GPT-5がなくても以前よりも速い進歩を遂げることができます。
1月、DeepSeekはo1の結果の多くを再現しました。彼らの論文は、最も単純なバージョンのプロセスでさえ機能することを明らかにしました。これは試すべき多くのことがあることを示唆しています。DeepSeek R1もユーザーに推論の連鎖全体を明らかにし、そこからその洗練さと驚くほど人間的な質を見ることができます。答えについて考え、間違っている場合は引き返し、複数の仮説を検討し、洞察を持つなど、これらすべての行動は単純な強化学習から生まれます。
OpenAIの研究者セバスチャン・ブベックは次のように述べています:「モデルに戦術は与えられていません。すべては創発的です。すべては強化学習を通じて学習されます。これは狂っています。」
DeepSeek R1のトレーニングの強化学習段階の計算コストはおそらく約100万ドルでした。もしそれが機能し続けるなら、OpenAI、Anthropic、Googleは現在同じプロセスに数十億ドルを費やすことができ、約1000倍のスケールアップが可能です。これが可能な理由の一つは、モデルが自身のデータを生成することです。
これは循環的に聞こえるかもしれませんし、合成データがモデルの崩壊を引き起こすという考えは広く議論されていますが、この場合には循環的なものはありません。o1に10万の数学問題を解かせ、正解したケースだけを取り、それらを次のモデルのトレーニングに使用することができます。
解決策が迅速に検証できるため、本当に良い推論の例をより多く生成したことになります。実際、このデータはインターネット上で見つかるデータよりもはるかに高品質です。なぜなら、それには推論の連鎖全体が含まれており、正しいことがわかっているからです。インターネットが有名なものではありません。これは潜在的にフライホイールを作り出します。
モデルにいくつかの問題を解かせ、その解決策を使って次のモデルをトレーニングし、次のモデルはさらに難しい問題を解くことができ、それがさらに多くの解決策を生み出し、というように続きます。
モデルがすでに博士レベルの推論を実行できるなら、次の段階は研究者レベルの推論、そして新しい洞察を生成することでしょう。これはおそらく、冒頭で述べたAI企業のリーダーたちの異常に楽観的な発言を説明しています。サム・アルトマンの意見の変化は、2024年12月のo3のリリースとちょうど一致しています。
検証可能な領域で最も強力ですが、開発された推論スキルはおそらく少なくともある程度一般化するでしょう。AIモデルが一つの領域、例えばコーディング問題で推論トレーニングを受け、そのトレーニングプロセスの一部ではなかった他の領域でも向上することを見るのは一般的です。
ビジネス戦略や文章作成などのより曖昧な領域では、成功を素早く判断するのが難しいです。そのため、強化学習のプロセスはより時間がかかるでしょう。しかし、ある程度は機能すると予想されるべきであり、それは現在企業の主要な焦点の一つです。それがどれほどうまく機能するかは、これから先の重要な問題です。
第三の推進要因:モデルの思考時間の延長
問題について1分間しか考えられないとしたら、あまり進展しないでしょう。1ヶ月考えることができれば、生の知能が高くなくても、はるかに多くの進歩を遂げるでしょう。
LLMは以前、ミスが積み重なったり、トピックから外れたりする前に、問題について約1分間しか考えることができず、それが彼らができることを本当に制限していました。しかし、モデルが推論においてより信頼性が高くなるにつれて、彼らはより長く考えることが上手になっています。
OpenAIは、o1が通常よりも100倍長く考えることができ、コーディング問題の精度が線形に向上することを示しました。これはテスト時の計算を使用すると呼ばれます:モデルがトレーニングされるのではなく実行されるときに費やされる計算です。
GPT-4oが約1分間有用に考えることができたなら、o1とDeepSeekはおよそ1時間考えることができるようです。推論モデルがより信頼性が高くなるにつれて、彼らはますます長く考えることができるようになるでしょう。現在の速度では、すぐに1ヶ月、そして1年考えることができるモデルが登場するでしょう。彼らが無期限に考えることができる場合に何が起こるかを考えるのは特に興味深いことです。それは、十分な計算があれば、原則的に進歩が可能だと仮定すると、彼らは継続的にあらゆる質問への回答を改善できることを意味します。
より多くのテスト時の計算を使用することで、総当たり的に問題を解決することができます。一つの技術は、問題を10回、100回、または1000回解決しようとし、最も多くの票を集めた解決策を選ぶことです。これはおそらくo3がo1を上回ることができた別の方法です。
これの即座の実用的な結果は、より高度な能力をより早く得るためにより多くの支払いができるということです。定量的には、2026年には、以前は2028年にしかアクセスできなかったパフォーマンスを得るために、10万倍多く支払うことができると予想されます。もちろん、ほとんどのユーザーはこれを望まないでしょうが、重要なエンジニアリング、科学、またはビジネスの問題がある場合、100万ドルでさえ安いものです。
特に、AI研究者はこの技術を使用してAI研究のための別のフライホイールを作成することができるかもしれません。これは反復的な蒸留と増幅と呼ばれるプロセスで、リンク先の記事で読むことができます。しかし、大まかにはこのように機能します:
-
モデルにより長く考えさせて、より良い答えを得ます。これは増幅と呼ばれます。
-
これらの答えを使って新しいモデルをトレーニングします。
-
その新しいモデルは、より長く考える必要なく、ほぼ同じ答えをすぐに生成できるようになります。これは蒸留と呼ばれます。
-
次に、その新しく蒸留されたモデルに長く考えさせます。それは元のモデルよりもさらに多くのより良い答えを生成することができるでしょう。
そしてこのプロセスを何度も繰り返すことができます。このプロセスは基本的に、DeepMindがAlphaZeroを人間のデータを使用せずに数日でゴーに超人的にした方法です。
第四の推進要因:より良いエージェントの構築
GPT-4は、賢くて知識豊富だが、会社を去る前に1つか2つの質問にしか答えない初日の同僚に似ています。驚くことではありませんが、これはほんの少し役立つだけですが、AI企業は現在チャットボットをエージェントに変えています。AIエージェントは目標を追求するために長い一連のタスクを実行する能力があります。
例えば、アプリを構築したい場合、モデルに各ステップを質問ごとに助けを求めるのではなく、単に「Xを行うアプリを構築して」と言うだけです。それは明確化のための質問を尋ね、プロトタイプを構築し、テストし、バグを修正し、完成した製品を提供します – 優れた人間のソフトウェアエンジニアのように。
エージェントは、推論モデルを取り、それにメモリとツールへのアクセスを与えることで機能します。これは足場と呼ばれます。以下はその仕組みです:
-
推論モジュールに目標を伝え、それはその目標を達成するための計画を立てます。
-
その計画に基づいて、アクセスが許可されたツールを使用していくつかのアクションを実行します。
-
それらのアクションの結果がメモリモジュールにフィードバックされます。
-
推論モジュールはその結果に基づいて計画を更新します。
-
そして目標が達成されるか、不可能だと判断されるまでループが続きます。
AIエージェントはすでに少し機能しています。SWE-bench Verifiedは、GitHubから取られた実世界のソフトウェアエンジニアリングの問題のベンチマークで、通常完了するのに約1時間かかります。GPT-4は基本的にこれらの問題を解決できません。それらはコンピューター上の複数のアプリケーションを使用する必要があるためです。
しかし、単純なエージェントの足場に置かれると、GPT-4はこれらの問題の約20%を解決できます。Claude Sonnet 3.5は約50%を解決でき、O3は報告によれば70%以上を解決できました。これはO3が基本的にこれらの個別のタスクを完了するのにプロフェッショナルなソフトウェアエンジニアと同じくらい優れていることを意味します。
実際、競争コーディング問題では、o3は世界で約上位200位にランクされるでしょう。
おそらく世界で最も重要なベンチマークを考えてみましょう:METRの難しいAI研究エンジニアリング問題のセットであるRE-bench。これにはモデルの微調整や実験結果の予測など、エンジニアが最先端のAIシステムを改善するために取り組む問題が含まれています。
これらの問題は、実際のAI研究エンジニアリングに近似する本当に難しい問題として選ばれました。o1とClaude Sonnet 3.5に基づいて構築された単純なエージェントは、2時間与えられた場合、人間の専門家よりも優れていることが判明しました。このパフォーマンスは多くの予測者の期待を超え、まだo3の結果を見ていません。
しかし、AIのパフォーマンスは、より多くの時間が与えられると、人間のパフォーマンスよりもゆっくりと向上します。そのため、人間の専門家は4時間頃からAIを上回ることが判明しました。つまり、AIは2時間以内では優れていますが、4時間以上では人間の方が優れています。しかし、AIモデルは急速に追いついています。
GPT-4oは人間が約30分かかるタスクしか実行できませんでした。この増加率をより正確に測定するために、METRは通常人間が完了するのにかかる時間によって分類されたコンピューター使用タスクの広範なベンチマークを作成し、それを時間地平線と呼びました。GPT-2は人間が数秒かかるタスクしか実行できず、GPT-4は数分、o1のような最新の推論モデルは人間が1時間未満かかるタスクを実行できました。この時間は約7ヶ月ごとに倍増しています。
そのトレンドが2028年末まで続くと、AIは人間の専門家と同様に、数週間かかるAI研究エンジニアリングおよびソフトウェアエンジニアリングのタスクを実行できるようになるでしょう。
興味深いことに、2024年以降のトレンドはさらに速く、4ヶ月ごとに倍増しているように見えます。そしてこの記事が発表されて以来、o3がテストされ、新しいさらに速いトレンドに乗っているように見えます。このトレンドは、2024年に始まった新しい推論モデルのパラダイムによるものかもしれません。これにより、より速い進歩率が解き放たれました。
より速いトレンドが続くと、2年以内に数週間のソフトウェアエンジニアリングタスクを実行できるモデルが得られ、以前よりも約2倍速い進歩となります。
AIモデルはまた、ますますコンテキストを理解するようになっています。彼らは自分のアーキテクチャ、過去の出力、トレーニング中か展開中かなどに関する質問に正しく答えることができます – これはエージェンシーのもう一つの前提条件です。
少し軽い話題として、Claude 3.5はまだポケモンをプレイするのが苦手ですが、ちょうど1年前にはClaude 3は全くプレイできませんでした。ですから、AIはまだ優れたエージェントではないが、急速に改善していると言えるでしょう。
これらの結果とグラフは、AIモデルが質問に答えるのに非常に知的であるにもかかわらず、なぜまだ多くの仕事を自動化していないのかを説明しています。ほとんどの仕事は個別の1時間のタスクのリストではありません。それらは何をすべきかを把握し、チームと調整し、多くのコンテキストを持つ長い新しいプロジェクトなどを含みます。
AIの最も強い分野の一つであるソフトウェアエンジニアリングでさえ、1時間未満かかるタスクしか実行できない場合、ソフトウェアエンジニアを完全に置き換えることができるのはまだほど遠いでしょう。
しかし、トレンドはこれがすぐに変わる可能性が高いことを示唆しています。前述したように、2020年以降の進歩率を予測すると、数年以内に1日と1週間のタスクを実行できるモデルに到達するでしょう。1日または1週間のタスクを実行できるAIは、現在のモデルよりもはるかに多くの作業を自動化できるでしょう。企業は少数の人間が監督する何百ものデジタルワーカーを雇い始めることができるでしょう。
では、このエージェント改善のトレンドはどこまで続くでしょうか?OpenAIは2025年をエージェントの年と名付けました。AIエージェントの足場はまだ原始的ですが、それは主要な研究所の最優先事項であり、それはより多くの進歩を期待すべきだということを意味します。
より具体的には、エージェントの足場をますます強力な推論モデルに接続し、エージェントにより良く、より信頼性の高い計画脳を与えることで利益が得られるでしょう。これらは次にビデオデータでより多くトレーニングされたベースモデルに基づいており、それによりエージェントはおそらく知覚が大幅に向上し、これは現在の主要なボトルネックです。モデルはウェブサイト上のボタンなどを認識することができないことがよくありますが、それは解決される可能性があります。
エージェントが少し機能し始めると、さらなる進歩が解き放たれます。エージェントに購入を行ったり、人気のあるツイートを書いたりするようなタスクを設定することができます。次に、成功した場合、次回も成功する可能性を高めるために強化学習を使用します。さらに、各成功したタスクは次世代のエージェントのトレーニングデータとして使用できます。世界は究極的には無限のデータソースであり、エージェントが自然に世界の因果モデルを発展させることができます。
上記のいずれかの対策により、エージェントの信頼性が大幅に向上する可能性があります。そして、この記事で何度か見てきたように、信頼性の向上によって突然新しい能力が解き放たれる可能性があります。
好みに合ったホテルを見つけて予約するといった単純なタスクでも、数十のステップが必要です。各ステップを90%の確率で正しく完了する場合、20ステップをすべて完了する確率はわずか10%です。しかし、ステップごとの信頼性が99%の場合、20ステップ全体の成功確率は10%から80%にジャンプします:あまり役に立たないエージェントから非常に有用なエージェントへの違いです。したがって、進歩は爆発的に感じられる可能性があります。
これらすべてを述べた上で、エージェンシーは4つの推進要因の中で最も不確実なものです。それを測定するための優れたベンチマークはまだありません。そのため、特定のタイプのタスクをナビゲートする能力に多くの進歩があるかもしれませんが、他の次元での進歩は遅いままかもしれません。
いくつかの重大な弱点がAIのアプリケーションを妨げる可能性があります。それが本当に機能するには、より根本的なブレークスルーが必要かもしれません。それにもかかわらず、最近のトレンドとすでにパイプラインにある改善は、私が大きな進歩を期待していることを意味します。
2030年までにAIはどれほど優れたものになるのか?四つの推進要因の将来予測
これまで議論したことをまとめましょう。今後2年間を見据えると、AIの進歩の4つすべての推進要因が継続し、互いに構築されていくように見えます。GPT-4よりも500倍効果的な計算でトレーニングされたベースモデルがリリースされ、GPT-5と呼ぶことができるでしょう。そのモデルはo1よりも最大100倍多くの計算で推論するようにトレーニングされる可能性があります。そのためo5と呼ぶことができるでしょう。必要に応じて、タスクごとに1ヶ月相当の時間考えることができるようになるでしょう。それは改良されたエージェントの足場に接続され、さらにエージェント性を高めるために強化されるでしょう。
そしてそれで終わりではありません。主要な企業は2028年までに100億ドルのトレーニングを実行する軌道に乗っています。それはGPT-6サイズのベースモデルを事前トレーニングし、強化学習をさらに100倍行うか、両者の組み合わせを行うのに十分でしょう。
さらに、推論モデルのような新しい推進要因は約1〜2年ごとに現れるようです。したがって、今後4年間で少なくともこのようなもう一つの発見があると予測すべきであり、さらにディープラーニング自体のような、より根本的な進歩が見られる可能性もあります。
記事では、過去4年間のAI進歩の4つの推進要因と、それらが今後4年間でどのように進化する可能性があるかをまとめた表を見ることができます。
これらすべてをまとめると、将来を少し良いチャットボットとして想像している人々は間違いを犯しています。台湾侵攻や大きな経済危機のような大きな混乱がない限り、進歩はここで停滞しません。数兆ドルの問いはAIがどれほど高度になるかということです。
究極的には、誰も知りませんが、より正確な答えを得る一つの方法は、前に述べたようなAI能力を測定するベンチマークの進歩を推定することです。進歩のすべての推進要因が過去と同様の速度で継続しているため、最近の進歩率をおおよそ推定することができます。
記事では、議論したすべてのベンチマークとその他いくつかのベンチマーク、そして2026年にどこにあると予想されるかをまとめています。BIG-Bench Hard、SWE-bench Verified、GPQA Diamond、ほとんどの数学ベンチマークなど、ほとんどが飽和すると予想されています。
おそらくより興味深いのは「人類の最後の試験」、人類の知識の最前線にある3,000の質問の編集物です。以前、モデルは2022年にこれらのわずか3%未満しか答えられませんでしたが、2024年末までに9%に上昇し、2025年2月までにすでに25%に達していました。2026年まで予測すると、飽和していない40%程度と推測します。
フロンティア数学については、前述のように、2022年の0%から今日約25%まで上昇しており、2026年末までには50%から飽和すると推測します。
最後に、METRの時間地平線ベンチマークでは、2022年、モデルは人間が約1分でできるタスクを実行できました。2024年末までに、それは30分に上昇していました。そしてより遅い進歩率を予測すると、2026年末までに、彼らは人間が6時間でできるタスクを実行できるようになるでしょう。2024年以降見られるようになったより速い進歩率では、それはほぼ2倍の長さになるでしょう。ですからおよそ1日の長さのタスクです。
これらすべてをまとめると、2年以内に、あらゆる分野の専門家レベルの知識を持ち、多くのプロフェッショナルな研究者と同様に数学や科学の質問に答えることができ、コーディングにおいて人間よりも優れており、ほぼすべての人間よりも優れた一般的な推論スキルを持ち、コンピューター上で多くの1日の長さのタスクを自律的に完了でき、そしてまだ急速に改善しているAIシステムを期待すべきであることを意味します。次の飛躍は、人間を超える問題解決能力、未解決の科学的質問に独立して答える能力へと私たちを導くかもしれません。
では、これらのシステムはどのような仕事ができるのでしょうか?コンピューター上で実行できるタスクであっても、実世界でのAIエージェントの展開には多くのボトルネックが存在します。これらには、規制、AIに決定を下させることへの躊躇、不十分な信頼性、組織の慣性、物理的存在の欠如などが含まれます。
最初、強力なシステムは高価であり、その展開は利用可能な計算能力によって制限されるため、最も価値のあるタスクにのみ向けられるでしょう。これは、経済のほとんどがしばらくの間、通常通り続くことを意味します。AIツールが彼らにアドバイスを提供していても、人間の医師に相談するでしょう。人間のバリスタからコーヒーを入手し、人間の配管工を雇うでしょう。
しかし、これらのボトルネックにもかかわらず、これらのシステムがより迅速に展開され、大きな結果をもたらす可能性がある重要な領域がいくつかあります。
最初のものはソフトウェアエンジニアリングです。これは今日AIが最も積極的に適用されている分野です。Googleは新しいコードの約25%がAIによって書かれていると述べています。そして実際には、この記事を書いた後、それはおそらく50%に上昇しています。Yコンビネーターのスタートアップは、いくつかの企業では95%であり、それらの企業は以前よりも数倍速く成長していると言っています。コーディングが10倍安くなれば、私たちはそれをはるかに多く使用するでしょう。おそらくすぐに、少数の人間の従業員が数百のAIエージェントに相当するものを管理する10億ドルのソフトウェアスタートアップが見られるでしょう。
OpenAIが立ち上げられたとき、それは収益面で史上最速で成長するスタートアップとなりました。それ以来、いくつかの他のAI企業がその記録を更新しています。最近では、コーディングエージェントのCursorがあります。それは過去の非常に成功したソフトウェアスタートアップよりも数倍速く、年間経常収益1億ドルに達しました。したがって、AIのこの非常に狭い応用でさえ、まだかなり迅速に数千億ドルの経済的価値を生み出し、継続的なAIのスケーリングに資金を提供するのに十分かもしれません。
そこからAIの経済への応用は大幅に拡大する可能性があります。例えば、Epoch AIは、おそらく仕事のタスクの3分の1がコンピューターを通じてリモートで実行でき、それらのタスクだけの自動化でも経済を2倍以上にする可能性があると推定しています。
第二の分野は科学研究です。AlphaFoldの作成者たちはすでにタンパク質のフォールディングを解決するAIを設計してノーベル賞を受賞しました。最近の研究では、AIツールが一流の材料科学研究者の新素材発見速度を80%速くすることがわかりました。科学者たちがAIを特定の問題を解決するために適応させれば、例えば遺伝的またはコスモロジカルなデータでトレーニングすることで、このような結果がもっと多く出てくると予想しています。
将来のモデルは、単に質問するだけで本当に新しい洞察を持つかもしれません。しかし、たとえそうでなくても、科学の多くは総当たり的なアプローチに適しています。特に、数学、経済モデリング、理論物理学、コンピュータサイエンスなど、主に仮想的だが検証可能な答えを持つ領域では、何千ものアイデアを生成し、どれが機能するかを検証することで研究が加速される可能性があります。
実際、生物学研究のような実験的な分野でも、プログラミングやデータ分析などによってボトルネックが生じており、これらの制約はAIによって大幅に緩和される可能性があります。核兵器のような単一の発明が歴史の流れを変えることができるので、ここでの加速の影響は劇的なものになる可能性があります。
加速に特に適している分野はAI研究自体です。完全に仮想的であるだけでなく、AI研究者が最もよく理解し、自動化する大きなインセンティブを持ち、AIを導入する障壁がない分野です。最初は、研究者がソフトウェアエンジニアリング能力という大きなボトルネックなど、特定のタスクで彼らの障害を取り除くためにインターンレベルのAIエージェントを使用したり、アイデアのブレインストーミングを手伝うようなものになるでしょう。
後には、モデルがすべての文献を読み、アルゴリズムを改善するための何千ものアイデアを生成し、小規模な実験でそれらのアルゴリズムを自動的にテストするようになるかもしれません。AIモデルはすでに会議のワークショップに受け入れられたAI研究論文を作成しています。記事では、AIがAI研究のスピードアップに応用されている他の多くの方法のリストへのリンクを提供しています。
このすべてを考えると、人々がAIがほとんのリモートワークを行うことを可能にするすべての問題を解決する前に、AI研究を行うAIエージェントを持つことはかなり妥当です。したがって、AIの広範な経済的応用は必ずしもAIの進歩を測る良い方法ではありません。それはAI能力がすでに大幅に進歩した後に爆発的に続く可能性があります。
2030年までに印象的なAI進歩がないという最も強い反論は何か?
私の心の中で最強の反論はこうです:まず、AIが明確に定義された個別のタスクで超人的になる可能性が高いことを認めます。つまり、ベンチマークでは急速な進歩が続くでしょうが、不明確に定義された高コンテキストかつ長期的な時間地平線のタスクでは貧弱なままでしょう。
それは、この種のタスクには明確かつ迅速に検証可能な答えがないため、強化学習で簡単にトレーニングできないからです。また、通常トレーニングデータにも含まれていません。それは、これらの種類のタスクの進歩率が遅く、場合によっては停滞する可能性があることを意味する可能性があります。また、今日AIがこの種のタスクに非常に弱いと主張するならば、さらに4〜6年の進歩の後でも、まだ弱いままかもしれません。
第二に、ほとんどの知識労働の仕事はこれらの長期的で複雑な高コンテキストのタスクから大きく構成されていると主張します。例えば、ソフトウェアエンジニアは何を構築するかを考え、他の人と調整し、大規模なコードベースを理解することにかなりの時間を費やしており、単に明確に定義されたタスクのリストをこなすだけではありません。したがって、コーディングの生産性が10倍向上しても、コーディングが彼らの仕事の50%だけであれば、彼らの生産性はおよそ2倍になるだけです。
新しい研究テイストを持つことに関わる何かは、曖昧で不明確なタスクの最も良い例です。したがって、このタスク(特に加速を解き放つのに重要なもの)は自動化するのが最も難しい可能性が高いと主張できます。
このようなシナリオでは、非常に賢く知識豊富なAIアシスタントを持ち、おそらく数学研究のようないくつかの限られた仮想的な領域での加速があるかもしれませんが、AIはツールにとどまり、人間は主要な経済的および科学的なボトルネックのままでしょう。人間のAI研究者は生産性の向上を見るでしょうが、ポジティブなフィードバックループを開始するのに十分ではありません。AIの進歩は新しい洞察、人間の調整、および計算によってボトルネックされたままでしょう。
これらの制限に、ビジネスモデルを見つける問題やAIを展開するその他の障壁が組み合わさると、モデルは100億ドル以上のトレーニングを正当化するのに十分な収益を生み出さない可能性があります。それは2028年頃以降、進歩が大幅に遅くなることを意味するでしょう。
進歩が遅くなると、最先端モデルの利益率は崩壊する可能性があります。なぜなら、1〜2年後、競合他社は基本的に同じくらい優れた無料版をリリースするからです。そして利益率が下がると、継続的なスケーリングに資金を提供することがさらに難しくなります。
これが私ができる最強の反論だと思います。主な反論は、METRからの以前のグラフです:モデルはより長く、より長い時間地平線にわたって行動することが改善されており、それにはより深いコンテキスト理解とより抽象的で複雑なタスクの処理が必要です。このトレンドを予測すると、4年以内にはるかに自律的なモデルが示唆されています。そして、私が示したように、これは私がスケッチしたタイプの多くの漸進的な進歩によって達成される可能性がありますが、来年に生じるかもしれないより根本的なイノベーションによっても起こる可能性があります。人間の脳自体がそのような能力が可能であることを証明しています。
さらに、長期的な時間地平線のタスクは、計画を立てる、最初のステップを実行するなど、より短いタスクに分解できる可能性が高いです。AIが短いタスクに十分に優れるようになれば、長期的な時間地平線のタスクも急速に機能し始める可能性があります。
これが現在のAI予測の中心的な問いかもしれません:AIが行動できる地平線は停滞するのか、改善し続けるのか、あるいは最近のように加速する可能性があるのでしょうか?
以下はAIの進歩がより遅いまたは印象的でない可能性のある他の方法です:
-
身体を持たない認知的労働は、科学においてさえ、あまり有用ではないかもしれません。なぜなら、イノベーションは主に経済全体での「実践による学習」から生じると主張できるからです。より広範な自動化(これはずっと時間がかかる)がイノベーションに必要かもしれません。
-
事前トレーニングには大きな収益逓減があるかもしれないので、おそらくGPT-5と6は期待外れになるでしょう。それはデータ品質の低下によるものかもしれません。
-
AIは視覚的知覚に引き続き弱い可能性があり、コンピューターを使用する能力が制限されるかもしれません – モラベックのパラドックスを参照してください。
-
より一般的に、AI能力はまだ十分に理解されていない次元において非常にスパイク状のままであり、これらの弱点が彼らの応用を本当に制限する可能性があります。
-
データの汚染や複雑なタスクを捉える難しさなどの問題により、ベンチマークは進歩を大幅に過大評価している可能性があります。
-
経済危機、台湾紛争、その他の災害、または大規模な規制の取り締まりにより、投資が数年遅れる可能性があります。
-
他の予見できないボトルネックが存在する可能性があります。計画の誤謬は、すべてが予想よりも時間がかかるという観察です。計画の誤謬の理由は、物事が間違う可能性のあるすべての方法を予想していないからです。
懐疑的な見方についてより深く探求するには、スティーブ・ニューマンの「我々はAGIの瀬戸際にいるのか?」、マシュー・バーネットの「推論モデルの約束」、セイン・ルセニスの「弱気なケース:AI進歩に関する私の予測」、およびEpoch AIとのドワルケシュポッドキャストを参照してください。
最終的に、証拠はどちらの方向にも決定的にはならず、推定は人々が合理的に異なる可能性のある判断によって左右されるでしょう。しかし、証拠を見て2030年までにAGIに有意な確率を置かないのは難しいと思います。
専門家はAGIがいつ到来すると予想しているか?
私は大きな主張をしましたが、非専門家として、私たちに何を考えるべきかを教えてくれる専門家がいれば素晴らしいでしょう。残念ながら、そのような専門家はいません。それぞれ異なる欠点を持つ異なるグループがあるだけです。
私は別の記事でこれらの異なる専門家グループの見解をレビューしましたが、一つの印象的なポイントは、すべてのグループが彼らの推定を劇的に短縮したということです。今日では、多くのAI懐疑論者でさえAGIが20年以内に達成されると考えています – 今日の大学生にとっては中期的なキャリアの時間枠です。
2020年以降、MetaculusでAGIが開発される時期に関する平均推定は、50年から5年に急落しました。Metaculusで使用されている定義には問題がありますが、このグラフは推定が減少するより広いトレンドを反映しています。
私の全体的な理解では、2030年までのAGIは専門家の意見の範囲内にあるため、それをSFとして退けることは正当化されません。実際、技術について最もよく知っている人々が最も短い時間枠を持っているようです。もちろん、多くの専門家はそれがはるかに時間がかかると考えていますが、専門家の30%が飛行機が爆発すると言い、残りの70%がそれは大丈夫だと言う場合、非専門家として、それが間違いなく起こらないと結論付けるべきではありません。何かが不確かであるということは、それが起こらないという意味ではありません。
セクション3:なぜ次の5年間が重要なのか
AGIがいつ到来するかわからないので、すぐに来るかもしれないし、2030年代や2040年代かもしれないと仮定するのは自然です。それは一般的な見解ですが、私はそれが正しいとは思いません。これまで見てきたように、AIの進歩の中核的な推進要因はより多くの計算能力とより良いアルゴリズムです。
これは、より強力なAIが計算とAIを改善するために使用される労働力が最も劇的に成長しているときに発見される可能性が高いことを意味します。
現在、AIのトレーニングと実行に利用可能な計算の総量は年間約3倍で成長しており、労働力も急速に成長しています。これは、毎年実行できるAIモデルの数が3倍に増加することを意味します。さらに、トレーニングに3倍多くの計算を使用することができ、そのトレーニングはより良いアルゴリズムを使用でき、これはモデルがより多くなるだけでなく、より有能になることを意味します。
以前、私はこれらのトレンドが2028年まで続く可能性があると主張しましたが、今度はそれがその直後にボトルネックに遭遇する可能性が高いことを示します。
最初のボトルネックはお金です。Google、Microsoft、Metaは2028年にGPT-6サイズのモデルをトレーニングできるAIチップクラスターを構築するために数百億ドルを費やしています。しかし、さらに10倍のスケールアップには数千億の投資が必要でしょう。それはまだ可能ですが、現在の年間利益よりも多く、規模的には別のアポロプログラムやマンハッタンプロジェクトに似ています。そしてGPT-8には数兆ドルが必要でしょう。AIが最優先の軍事的優先事項になるか、すでに数兆ドルの収益を生み出している必要があるでしょうが、それは私たちがそれを持っていればすでにAGIである可能性が高いです。
第二に、お金が利用可能であっても、以下のような他のボトルネックが存在するでしょう:
電力:現在のAIチップ販売レベルが維持されれば、2028年までにAIチップは米国の電力の約4%を使用することになりますが、さらに10倍のスケールアップには米国の電力の40%が必要になります。それは可能ですが、多くの発電所をかなり速く建設する必要があるでしょう。
チップ生産:台湾セミコンダクター製造会社(TSMC)は世界の最先端AIチップをすべて製造していますが、その最も高度な能力はまだ主に携帯電話に使用されています。これはTSMCが現在よりも5倍多くのAIチップを生産できることを意味します。しかし、50倍多くのチップに達するには、チップ工場の大規模な建設が必要とされ、大きな課題となるでしょう。
第三に、レイテンシーの制限もGPT-7ほど大きなトレーニングを防ぐ可能性があります。
したがって、おそらくトレーニングに使用される計算の成長率は2028年から2032年頃に減速するでしょう。アルゴリズムの進歩も現在非常に急速ですが、各発見がなされるにつれて、次のものはより難しくなります。なぜなら、より簡単なものから先に取られるからです。これは、一定の進歩率を維持するには指数関数的に成長する研究労働力が必要であることを意味します。
2021年、OpenAIには約300人の従業員がいました。今日では約3,000人います。AnthropicとDeepMindも3倍以上成長し、新しい企業も参入しています。毎年生産されるML論文の数はおよそ2年ごとに2倍になっています。AIの能力を真に向上させている人々と、単に製品を販売したり、より広範なML研究を行ったりしている人々の労働力をどのように定義するかを正確に知るのは難しいです。しかし、最近の進歩を維持するために労働力が1〜3年ごとに2倍になる必要がある場合、人材プールが尽きる前にそれはそう長くは続かないでしょう。
私の理解では、成長は十年の終わりまで簡単に続くことができますが、おそらく2030年代初めには減速し始めるでしょう。ただし、その時点でAIがすでにAI研究者に代わるのに十分に優れているなら別です。アルゴリズムの進歩も増加する計算に依存しています。なぜなら、より多くの計算によってより多くの実験が可能になるからです。実際、十分な計算があれば、研究者は最適なアルゴリズムのための総当たり検索さえ行うことができます。これは、計算の成長が遅くなることは、それに応じてアルゴリズムの進歩も遅くなることを意味します。
計算とアルゴリズムの効率が年間3倍ではなく、年間わずか50%増加した場合、GPT-3から4への飛躍に相当する飛躍は、実際の2年半ではなく14年以上かかるでしょう。計算と労働力の成長の減速は、新しいAIパラダイムを発見する確率も減少させます。
これらすべてをまとめると、競争があります:AIモデルは、もはや手の届かなくなる前に、次のラウンドのトレーニングに支払うのに十分な収益を生み出すために十分に改善できるでしょうか?モデルは、問題に取り組むための人間の研究者が不足する前に、アルゴリズム研究に貢献し始めることができるでしょうか?
真実の瞬間は2028年から2032年頃でしょう:進歩が遅くなるか、AIそのものがこれらのボトルネックを克服し、進歩が続くか、さらに加速するかのどちらかです。
AIの2つの潜在的な未来
AI研究に貢献できるAIが2030年頃までに達成されなければ、その発見の年間確率は大幅に減少します。もちろん、進歩は突然停止するわけではなく、より徐々に遅くなるでしょう。記事では、AGIが発見される各年の確率を見るグラフを見ることができます。私はそれが今から2027年頃まで増加し、その後徐々に減少し始め、2030年代半ばまでに今日よりもはるかに低いレベル、おそらく10分の1になると考えています。
大まかに言えば、二つのシナリオを計画できます。2030年までに変革的な効果を引き起こす可能性のあるAIに到達し、AI進歩が続くか、さらに加速し、おそらく爆発的な変化の時期に入るというシナリオ。または、AI進歩が遅くなるというシナリオです。モデルは明確に定義されたタスクにおいてはるかに優れるようになりますが、新しい成長レジームを解き放つために必要な不明確に定義された長期的な作業を行うことはできないでしょう。多くのAI自動化が見られますが、それ以外の世界は通常の状態に近いでしょう。どのシナリオにあるかについては、今後数年以内にはるかに多くのことがわかるでしょう。
私はざっとこれら二つのシナリオを50対50と考えていますが、日によって私の推定は30%から80%まで変わることがあります。もちろん、ハイブリッドなシナリオも可能です。スケーリングがより徐々に遅くなるか、台湾紛争によって数年遅れ、AGIを2030年代初めに押し込む可能性があります。しかし、単純なモデルから始めるのが有用だと思います。もちろん、各シナリオに置く数字もAGIの定義にも依存し、また、どのようなAGIが変革的だと思うかにも依存します。私は主にAI研究に意味のある貢献ができるAIを予測することに興味があります。人間よりも安くそして優れてほとんどすべてのリモートワークタスクを実行できるモデルという意味でのAGIは、展開のボトルネックの長いテールのために、より時間がかかる可能性があります。一方で、1時間与えられたときにほぼすべての人間よりも推論が優れているという意味でのAGIは、基本的にすでにここにあるようです。
結論
2030年までにAGIを手に入れるでしょうか?正確な定義は何であれ、この可能性を支持する重要な証拠があります。そこに到達するには、現在のトレンドをあと数年維持するだけでよいかもしれません。どちらの方向にも決定的な証拠を持つことはありませんが、2030年までの確率が10%未満だと考えるのは明らかに過信だと思います。大きな意味と深刻なリスクを考えると、それはこの可能性を非常に真剣に受け止めるのに十分な証拠です。
今日の状況は、COVID-19のロックダウン直前の2020年2月のように感じます。明確なトレンドが差し迫った大きな変化を示唆していますが、ほとんどの人々は通常通り生活を続けています。近日中の記事で、リモートワークの多くを自動化し、経済を2倍にするAGIが控えめな結果である可能性があると主張します。AIがAI研究を行うことができれば、AGIと超知能(ほぼすべてのタスクで人間よりも有能なAI)の間のギャップは短いかもしれません。
これにより、研究労働力の大幅な拡大が可能になり、10年未満で1世紀分の科学的進歩をもたらす可能性があります。ロボット工学、生物工学、宇宙開発などはすべて、一般に予想されるよりもはるかに早く到来する可能性があります。次の5年間は、歴史の中で最も重要な時期の一つの始まりになるでしょう。
ご清聴ありがとうございました。これは80,000時間と一緒に書いているAIがうまくいくための新しいガイドの最初の章でした。ガイドの要約は80000hours.org/agi/guide/summaryで見ることができます。それには、この問題について何をすべきかについての現在の考えのまとめ、およびこの分野に転向するための戦術的なアドバイスも含まれています。
もしすでに転向したいと思っているなら、チームに1対1で話すために応募してください。彼らは計画、仕事の機会、およびその分野の人々への紹介であなたを助けることができます。それ以外の場合は、次の章をお楽しみに。ご清聴ありがとうございました。さようなら。


コメント