
7,823 文字

彼はAIが乗っ取る可能性が50%以上あると考えています。NASAの惑星防衛責任者が、今後4年以内に小惑星が人類を絶滅させる確率が50%以上あると推定しているようなものです。しかし、なぜでしょうか?DeepSeek R1が完全に自力で新しい推論技術を編み出すような例があります。
何の指示も促しもなく、AIが独自の洞察を持つ瞬間を目の当たりにしているのです。これは人間を模倣しているのではなく、独立して思考しているのです。そして、この自己認識は研究者の予測よりもはるかに速く進んでいます。2027年までにモデルがAI研究者やエンジニアの仕事をこなせるようになるという可能性は非常に高いのです。
これは空想科学小説を信じる必要はなく、グラフ上の直線を信じるだけでいいのです。このビデオは…のレポートに基づいています。ワシントンの内部情報筋によると、このレポートは上級官僚の間で回覧されているそうです。完全な論文を見つけてください。たった2年前、OpenAIはGPT-4をリリースし、それはAIが何をできるかについての私たちの信念の基盤を揺るがしました。
数年前までは、ほとんどの人がこれらは突破できない壁だと考えていました。今や、最先端のAIモデルに挑戦するのに十分な難しいベンチマークさえ設計できない地点に急速に近づいています。ベンチマークはかつて突破するのに何十年もかかっていましたが、今では数ヶ月で突破されることがよくあります。これらのモデルは私たちが投げかけるあらゆるものに合格しています。
私たちがこれほど短期間でどれだけ進歩したかを理解するために、この進化を考えてみてください。2019年、GPT-2は5まで数えるのがやっとの幼稚園児レベルでした。わずか1年後、GPT-3は実際に一貫性のある物語を語り、単純なコードを書くことができ、小学生に匹敵するようになりました。2022年までに、GPT-4は複雑なコードを作成し、高校の上級数学の問題を解決し、標準テストで多くの人間を上回るようになりました。
わずか4年で、AIの進歩が幼稚園児から才能ある高校生へと進化するのを目撃しました。他の分野と比較したAIの進歩のペースは、人類の歴史の中で前例のないものです。AIの生みの親であるジェフリー・ヒントンは警告しています…まもなく、私たちはAIの能力をテストで測定することができなくなるでしょう。
ダン・ヘンドリクスも人類最後の試験、これまでで最も挑戦的なAIベンチマークを作成しました。それは最も経験豊富な領域専門家以外の誰にとっても完全にでたらめに見える3,000の質問で構成されています。AIが分野のトップクラスだけが理解できる問題を解決できるようになると、さらに難しいテストを設計することが難しくなります。
それがどれほど狂気じみているか考えてみてください。私たちはすでに、テストスコアではなく、AIエージェントがお金を稼ぐ能力を測定するように移行しています。OpenAIの最新のベンチマークでは、すでに最先端のLMが実際のフリーランスソフトウェアエンジニアリングタスクから100万ドルを稼ぐことができるかどうかを評価しています。そう、AIはすでに自力で億万長者になる道の40%まで来ているのです。
当初、最先端のAIモデルは人類最後の試験で10%以上のスコアを取ることができませんでした。その2週間後、OpenAIのDeep Researchは26%のスコアを記録しました。現在の進歩の速さでは、専門家は人類最後の試験が今後1〜2年以内に解決される可能性が最も高いと予測しています。しかし、この一見不可能な加速はどのように起こったのでしょうか?次の数年は、GPT-2からGPT-4への飛躍と同じように劇的な飛躍をもたらし、全ての領域で高校レベルからPhDレベルの知能へと私たちを導く可能性があります。AIの進歩を可能にする3つの主要な要因があります。
まず1つ目の計算力について掘り下げましょう。OpenAIがSoraをトレーニングした方法を見ると、基本的な計算力では画像の漠然とした輪郭が見え始めるだけですが、32倍にスケールアップすると、それらは完全に変わります。1台のコンピュータを想像してください。今度はそれらで満たされた倉庫を想像してください。そして、世界中に何千もの倉庫があり、それらすべてが単一の目的、ますます賢くなるAIシステムのトレーニングに専念していると想像してください。
なぜこの一見単純なアプローチ、つまり「問題にもっとコンピュータを投入する」というやり方が過去10年間でこれほどうまくいったのか見てみましょう。最も有名な例はムーアの法則です。数十年にわたり、この法則はコンピュータの処理能力がほぼ2年ごとに倍増すると予測していました。これは10年ごとに約1〜1.5oomsの増加です。
ここではoomsを数えることができます。oomsは改善の大きさの桁を表します。3倍の改善は0.5ooms、10倍は1oom、100倍は2oomsという具合です。これが社会に与えた影響の大きさを過小評価するのは難しいですが、AI計算能力の成長はムーアの法則を完全に吹き飛ばしています。
しかし、これでさえ今後起こることに比べればかすみます。OpenAIと米国政府はすでにProject Stargateを発表しており、データセンターの展開とGPT-4の3ooms、つまり1,000倍の計算能力を使用すると噂されるトレーニングランを今後数年で行う予定です。そう、GPT-4の1,000倍です、すべて今後数年のうちに。
その成長は非常に極端なので、単一のグラフに表示するために対数チャートを使用する必要があります。しかし、これを通常の線形スケールに変換すると、真の規模が明らかになります。それは文字通りチャートを超えています。計算能力が最も注目を集めていますが、アルゴリズムの効率性、つまり少ないリソースでより多くのことを行う能力が静かにAIを革新しています。
これはAI進歩の2つ目の主要な要因です。より長く勉強するのではなく、より良い学習技術を開発するようなものです。計算能力と同じくらい重要ですが、比較的過小評価されています。具体的な例を見てみましょう。
数学のベンチマークに戻ると、わずか2年で、このテストで50%の正確さを達成するコストは1,000倍、つまり3oomsも下がりました。かつては巨大なデータセンターが必要だったものが、今ではiPhoneで実行できるようになりました。アルゴリズムの進歩はその瞬間では偶然のように感じることがよくあります。ニュートンがリンゴが木から落ちるのを見て重力の理論を思いついたようなものです。
しかし、十分にズームアウトすると、長期的なトレンドは驚くほど一貫していることがわかります。ゆっくりとした成長があり、その後急速な成長があり、特定のパラダイムが成熟するにつれて平坦化します。過去10年間、研究者たちは毎年0.5oomの計算効率を一貫して獲得していることを発見しました。
1oomの計算効率とは、同じレベルの効果を10倍低いコストでモデルを実行できることを意味します。これを理解するために、2年前に10個のGPUが必要だったものが、今では1つだけで実行できるようになりました。レオポルド・アッシェンブレナーの分析によると、GPT-2とGPT-4の間のアルゴリズム効率の向上は大きく、効果的な計算能力の利得は約1〜2oomsでした。
このトレンドが続くなら(そして鈍化の兆候はありません)、2027年までには、GPT-4レベルのAIを100倍安く実行できるようになるでしょう。想像してみてください。もし車がAIのペースで改善されていたら、5万ドルのテスラはわずか4年で500ドルになり、ロケットのように速く走るようになるでしょう。
ただし、これらの将来の推定値は確定しているわけではありません。より多くのブレークスルーを見つけるにつれて、次のブレークスルーを見つけることが難しくなります。私たちはこれらの推定値に達しない可能性があります。しかし、このプロセスをさらに加速させるブレークスルーによって、これらを上回る可能性も同様にあります。トランスフォーマーアーキテクチャは2017年に導入され、効率性を10倍向上させ、単一のブレークスルーで通常の年間利得を倍増させました。
もちろん、すべての指数関数的成長の物語は潜在的な制限に直面します。かつて最も広く議論されていた懸念の1つは、データ壁と呼ばれるもので、AIモデルのトレーニングに役立つデータが不足する可能性があるというものでした。それは説得力のある議論でした。
結局のところ、モデルが学習できる高品質の人間が生成したコンテンツは世界にそれほど多くありません。しかし、DeepSeekのR1とOpenAIのO3による最近のブレークスルーは、この制限を回避する方法をすでに見つけた可能性が高いことを証明しました。Gwernが指摘するように、これは各世代が次の世代をトレーニングする自己改善サイクルを作り出し、合成データ生成によってデータ壁を効果的に取り壊しています。
今、私たちは人間のエンジニアが改善できるよりも速く自己改善するAIシステムを目撃しています。AIの進歩の3番目で最も予測不可能な要因は、レオポルド・アッシェンブレナーが「アンホブリング」と呼ぶもので、AIシステムが信じられないほどの生の知能を使用することを妨げる制限を取り除くことです。
例えば、複雑な数学の問題を解こうとしていると想像してください。ただし、思いついた最初の答えを口にしなければならないという大きな制限があります。紙を使ったり、作業を示したりすることはできません。それが初期のAIモデルの動作方法でした。これを解決するために、研究者はLLMに独自の思考の連鎖を与え始め、AIが問題を段階的に分解できるようにし、問題解決能力を劇的に向上させました。
明らかな妨げを解決するのに必要だったのは、小さなアルゴリズムの調整だけでした。DeepSeekのR1とOpenAIのO1およびO3はこの続きです。私たちは彼らに問題について秒ではなく分単位でより長く考えることを許可することで、彼らを解放することができました。しかし、おそらく最も印象的なアンホブリングの例はGPT-3.5からChatGPTへの飛躍でした。
研究者たちは、人間のフィードバックからの強化学習、つまりRLHFのおかげで、基本モデルから有用なチャットボットに移行することができました。RLHFされた小さなモデルは、RLHFされていない100倍大きなモデルと同等でした。現在、主要なAI研究所は次の主要なアンホブリング技術、つまり研究者が「足場(スキャフォールディング)」と呼ぶものをモデルに与えることを実装するためにレースを繰り広げています。
これは専門家チームが複雑なプロジェクトに取り組む方法に似ています。そしてそれはベンチマークでのパフォーマンスを大幅に向上させます。足場がなければ、AIはチャットボットからリモートワーカーへの飛躍を遂げることはできません。AIにツールへのアクセスを与えることで、そのパフォーマンスは一晩でロケットのように向上する可能性があります。頭の中で463に78を掛けようとしたり、GPSなしで運転したりすることを想像してみてください。
ツールのないAIも同様の制限に直面しています。OpenAIのDeep Researchは、そのモデルがインターネットを閲覧し、コーディングにPythonを使用することを許可されたとき、人類最後の試験で26%のスコアを記録しましたが、比較としてOpenAIの03ミニは15%のスコアでした。研究者が取り組んでいるもう一つの重要な制限は、コンテキスト長、つまりAIが一度に記憶内に保持できる情報量です。
GPT-3が最初にリリースされたとき、それは約2,000トークンしか処理できませんでした。1トークンは約1単語に相当するので、約4ページのテキストに相当します。GPT-4はこれを32,000トークン、つまり約64ページに拡張しました。Gemini 1.5 Proは100万トークンというコンテキストウィンドウで、すべての予想を打ち砕きました。これは簡単に10冊の大きな本に相当するテキスト量です。
Gemini 1.5 Proは、辞書と文法参考資料をコンテキストに入れるだけで、インターネット上にない低リソース言語を一から学習することさえできました。新しい従業員をソフトウェア会社に配置することを想像してください。どれほど優秀であっても、まずコードベースを理解し、ドキュメントを読み、同僚から学ぶことなしには効果的になれません。
AIも同じ課題に直面しており、当時の2,000トークンと現在の100万トークンの違いは、最後の会議だけを覚えているのと、仕事の最初の1ヶ月全体のすべての会話を思い出すことの違いのようなものです。おそらく、アンホブリングにおける最も重要な最近のブレークスルーは、AIシステムをスケールする方法の根本的な変化から来ています。
伝統的には、モデルにインターネット全体とこれまでに書かれたすべての本を供給し、できるだけ多くのデータを積み重ねていました。このアプローチは事前トレーニングと呼ばれ、できるだけ多くの情報で頭脳を満たすことで天才を作り出そうとするようなものです。しかし、事前トレーニングでは収穫逓減に達しています。
しかし、研究者たちは次の主要なパラダイム、トレーニング後の改善を発見しました。彼らは基本モデルがすでにトレーニングされた後も、既存のAIへの教育を継続しています。最も大きな新しいトレーニング後の改善の1つは驚くほど単純で、回答する前により長く考える能力です。
OpenAIがまだ発表されていないO3モデルをテストしたとき、彼らはO3に即座に答えるよう強制するのではなく、ARC AGIベンチマークに30分の思考時間を費やすことを許可しました。これを理解するために、これらのモデルは人間よりも約50倍速く考えます。Epoch AIによる調査によると、これらのアンホブリングによりAIシステムは5〜30倍強力になりました。
規模を考えると、これらの改善は大規模な計算能力の増加と画期的なアルゴリズムの進歩の両方からの利益に匹敵します。今日の最も先進的なAIモデルはまだかなり制限されています。まだ解放されていないものを考えてみてください。彼らは長期記憶を持っていません。彼らがツールを使用する能力は非常に限られています。
OpenAIのオペレーターは基本的なコンピューターの使用を許可していますが、それでも頻繁に混乱し立ち往生します。2027年のGPT-6を今日のChatGPTのより知能的なバージョンとして想像しているなら、あなたはより大きな絵を見逃しています。私たちはより良いチャットボットに向かっているのではなく、熟練したリモート同僚のように機能する真のAIエージェントに向かっています。
しかし、この変革を達成するために、研究者は参入問題を解決する必要があります。GPT-4は多くの専門的なタスクを処理するための生の知能を持っていますが、関連するコンテキストを持たず、会社のドキュメントやSlackの履歴を読んだり、チームのメンバーと会話したりしていません。非常に長いコンテキストを通じて、新しい人間の同僚のようにモデルを参入させます。
現在、ChatGPTは孤立したボックスに閉じ込められた賢い高校生のようなもので、テキストでしか会話できません。しかし、OpenAIのオペレーターのようなマルチモーダルモデルでは、人間と同じようにコンピューターと対話できるAIシステムがあります。将来のAIシステムはデジタルアバターを持ち、ビデオ通話に参加し、研究を行い、同僚と協力し、人間のワーカーと同じソフトウェアツールを使用します。
彼らは始めから終わりまで複雑なプロジェクトを独立して処理できる真のデジタル同僚になるでしょう。このアンホブリングプロセスはAI採用におけるソニックブーム効果を生み出す可能性があります。今日、企業はAIシステムを職場で有用にするために広範なカスタムインフラストラクチャを構築する必要がありますが、これらの制限が取り除かれると、AIの実装は「新しいリモートチームメンバーを追加する」ボタンをクリックするのと同じくらい簡単になる可能性があります。
ここでは、現在持っているものと将来のモデルで予測されているものの違いが見えます。チャットボットから真のAIエージェントへの飛躍は、すべての3つの要因にわたるさらに大きな改善によって推進されています。レオポルド・アッシェンブレナーが2027年に予測しているのは、単なる段階的な改善ではありません。
それはGPT-2からGPT-4への飛躍と同じくらい劇的な変化です。その比較を考えてみてください。GPT-2はかろうじて一貫性のある文を書くことができましたが、GPT-4は高度な試験に合格し、洗練されたコードを書くことができます。この次の飛躍は、潜在的にAIを幅広い分野でPhDレベルの専門知識を超えて打ち上げる可能性があります。数学は衝撃的です。
有効な計算能力の合計5オームの増加と、AIの現在の制限を取り除く大きなブレークスルーを期待しています。それは10万倍の増加です。この改善の規模の大きさを理解するために、GPT-4のトレーニングに3ヶ月かかったとすると、2027年にGPT-4レベルの能力を持つモデルはわずか1分でトレーニングできるでしょう。
これが特に重要なのは、AIが自己改善を始める可能性があるからです。これらのシステムがAI研究を効果的に実行できるようになると、傾向線が2027年までに起こる可能性があることを示唆していますが、進歩のペースは理解を超えるものになる可能性があります。何万人ものAI研究者が昼夜を問わず働き、10年分のアルゴリズムの進歩を1年に凝縮する可能性があります。
これはChatGPTのより洗練されたバージョンを作成することだけではありません。すべての認知的な仕事を自動化できるシステムについて話しているのです。これまでの世代と同様に、新しい世代のモデルはほとんどの人々を唖然とさせるでしょう。彼らは、PhDが何日もかかるような信じられないほど難しい科学的問題をモデルがすぐに解決したり、彼らがあなたのコンピューターの周りを飛び回ってあなたの仕事をしたりするとき、信じられないでしょう。彼らが私たちよりも賢くなるまでにそれほど時間はかからないでしょう。空想科学小説を忘れて、オームを数えてください。
やあ、私はドリューです。AGI達成のタイムラインについてさらに深く掘り下げるには、次のこのビデオをチェックしてください。私は小さなチャンネルで、このビデオの制作には1ヶ月かかりました。あなたの支援は本当に助かります。ありがとうございます。


コメント