AGI 2027年までに – PhDがAGIタイムライン、可能性、LLMの未来について解説

AGIに仕事を奪われたい
この記事は約31分で読めます。

18,046 文字

AGI by 2027 - PhD breaks down AGI timeline, likelihood, future of LLMs
University of Chicago PhD, Matt Baughman , breaks down this seminal work by Ex-OpenAI researcher on the timeline for AGI...

AGIは2027年までに実現すると思いますか?はい、いいえ、もしかして?理由は?
私はこのような高度な分野に関して、学術界や政府の研究機関で働く専門家たちと多くの会議を行ってきました。最近の主な問題の一つは、OpenAIが資金調達の理由からAGIの定義を「1000億ドルを稼ぐシステム」に変更したことです。彼らはARC AGIをパスし、すると皆が「ちょっと待って。これがAGIに達したという意味ではない」と言いました。
ChatGPT-2からChatGPT-4への進化を見てください。幼稚園児レベルから賢い高校生レベルの知性へと移行しました。そして、その仮説を外挿すると、人間がモデルを導いて超人的なことをさせることができるなら、適切な補助や枠組み、ラッパーがあれば、モデル自身でそれができるはずだということです。
一言で言えば、ムーンショットへの投資が必要だということです。
さて、ジャーナルクラブの第一回目へようこそ。興味深い論文に取り組む前に、今日のゲストを紹介しましょう。Mr. Bmanです。私たちは一緒に学校に通いましたが、明らかにMattはより賢く、PhD(博士)の道を進みました。現在UCFにいますが、あなたの研究分野について少し紹介してもらえますか?
はい、シカゴ大学で6年目の博士課程学生で、間もなく卒業します。私の研究の多くはコストウェア・コンピューティングに焦点を当てており、人々が嫌う分散コンピューティングの恐ろしい部分の自動化に取り組んでいます。多くの企業や研究者と協力しており、基本的に私がしていることは、科学者が科学に、産業界の人々が製品や顧客基盤に集中できるように、コンピューティングの悪い部分を自動化することです。
私たちが発見したのは、この分野の専門家でさえ、異なる種類のコンピューティングリソース上でワークフローがどのように実行されるかを特徴づけたり仮定したりしようとすると、人間は苦手だということです。そこで、高速で動的、かつ広範なコンピューティングシステムに直接接続されたコンピュータに、すべての決定オーバーヘッドを引き継がせることで、あなたはそれについて心配する必要がなく、クラウドアーキテクトを雇って1時間に数百または数千ドルを支払う必要もありません。一部の人の仕事がなくなるかもしれませんが、彼らはまだ仕事を持つでしょう。
刺激的な意見で始めましたね。これはすべて私自身の意見であることを明確にしておきます。PhD(博士課程)の仕事に加えて、Argon国立研究所の多くのプロジェクトに関わる機会もありました。多くのAIタイプのプロジェクトに取り組み、科学用の1兆パラメータモデルを目指すAurora GPTプロジェクトにも関わっていました。それが最先端のLLMの世界への正式な入門でした。これによって、この話題について話す資格があるとは言いませんが、少なくとも完全に作り話をしているわけではありません。AI人を装った訓練された人間だと言うのが一番良いでしょう。
確かに、この話題について話すには、ほとんどの人よりもずっと資格がありますね。Leopold Aschenburner(名前を間違えているかもしれませんが)は元OpenAIのスーパーアライメント部門の人物で、2024年の後半にこの論文を発表しました。彼はXではかなり静かにしていて、最後の交流はイヴァンカ・トランプからの言及でした。これは別の機会に掘り下げる話題ですが、彼はこの重要な論文を書きました。今日はその最初の部分と核心部分をカバーしますが、基本的に彼は2027年までにAIが実現すると主張しています。
もし会話を逆転させて結論から始めるなら、2027年までにAGIは実現するのか、はい、いいえ、なぜかという質問について、あなたの見解を教えてください。
その質問にはいくつかの部分があり、分解する必要があります。まず、誰もが常に議論している、特にOpenAIが注目を集めている点は、AGIとは何かという質問に答えることです。
OpenAIにはかつて定義があり、それは多くの人が持っていた「分野の定義」と呼べるものでした。それは基本的に、ほとんどの知的タスクにおいて人間と同じくらい賢く、同じくらい能力がある何かというものです。これは、専門家ではないが「これは人間と対話しているように感じる」と言う「一般人タイプの研究者」が持つ感覚のようです。
最近、OpenAIは資金調達の理由から、AGIを「1000億ドルを稼ぐことができるシステム」と定義し直しました。これは非常に興味深いですね。多くの企業が1000億ドルを稼ぐことができるとは思いませんし、それが私を人間として、または「平均的な人間」として能力が低いとは思いません。
この定義については多くの言葉の遊びがあります。Leopoldがこの「オピニオン」または「トラウマダンプ」と呼べるものの中で指摘している一つのことは、現在の最先端技術を4〜6年前の誰かに見せていたら、「これだ!」と言っただろうということです。私たちはそこに到達しました。これは多くのベンチマークで人間と同じくらい能力があります。世界と人間と同じように相互作用することはできないかもしれませんが、会話する上では区別がつきません。チューリングテストに合格しています。2〜3年前には散発的にチューリングテストに合格したという論文がありました。
また、これらのシステムが最先端の研究問題ではないにしても、多くの中間レベルの研究問題を解決するのを見ることができる、この本当に知的な思考作業もあります。これらのシステムが解決できなくても、特に人間とAIのコード設計では、作業を大幅に加速できます。
多くの人々にとって、これはAGIのように感じる瞬間に達したかもしれませんが、短い質問に対する長い答えとして、AGIとは何かについては本当にわかりません。
Anthropicのダリオ・アモデイのCEOの見解が気に入っています。彼は2、3ヶ月前に「AGIとは何か」について書きました。彼は「その言葉が好きではない」と言い、私もそれに強く同意します。彼は「超能力のあるシステム」という意味のことを言っています。
ダリオ・アモデイは、人間のように見えないかもしれず、私たちと対話できないかもしれないシステムを持つことになるという見解を持っています。これは私たちの頭の中にある電気肉とは全く異なる種類のシステムであり、もちろん少し異なるはずです。しかし彼は、それは驚くべきことをするだろうと言っています。これが本当に見るべきことだと思います。これらのシステムがいつ、人間として私たちができないことをできるようになるのかという点です。
それはあなたが触れたことを示していますね。ヒューマンパフォーマンスとさまざまなベンチマークを比較した場合、彼はここで「ベンチマークが不足している」と言っています。それが2023年までのカットオフだったのか、その後なのかはわかりませんが、ベンチマーク業界は過去2年間でかなり成長しました。
ここでの主な議論は、AGIが何であるかについて議論できるが、これが2027年か2029年に到来するかどうかは本当に重要ではないということだと思います。
その通りです。それが2年後、3年後、4年後かどうかは、AIの研究のタイムラインだけでなく、人類の歴史や技術開発のタイムラインにおいても誤差のようなものです。
Googleで働く未来学者のレイ・カーツワイルは、その有名な予測リストで、2029年を「超人的なAI」の年と言っていました。それは私たちと異なる感じがするものです。これは30年前の予測で、私はそのタイムラインにほぼ同意します。
1、2年前、フランソワ・シャレ(名前を間違えているかもしれません)が率いる組織がCAERIS(ケリス)フレームワークを作成し、ARC AGIベンチマークをリリースしました。何ヶ月もの間、人々は「AIがこれを通過したとき、それはAGIの時代だ」と言っていました。
そして12月に、OpenAIの旗艦推論モデルであるO3が発表され、ARC AGIをパスしました。すると皆が「ちょっと待って、パスしたからといってAGIに達したというわけではない。それはただプロセスのもう一歩にすぎない」と言いました。
現在、主要なベンチマークの一つは「Humanity’s Last Exam(人類最後の試験)」という素晴らしい名前のもので、現在これらの最先端システムはその20〜30%程度のスコアを達成しています。1年後にどのようなスコアになるかは誰にもわかりません。
しかし本当の核心は、いつ私たちが世界を見渡して実質的な変化を感じるかということです。それは十年の終わり頃、つまり2027年から2031年の間だと思います。そこで本当にパラダイムシフトが起こるでしょう。
これはかなりコンセンサスになっていると思います。ジュミニセミナーでは、「2027年までに、モデルはAI研究者、エンジニアの仕事をするだろう」と言っています。これは6ヶ月で達成される可能性もあります。モデルがAI研究者の仕事をすると言うとき、それには、モデルがプロンプトを設定したり、反復したり、何度も試したりする人間なしには能力がないかもしれないことが含まれるかもしれませんが、それでも興味深く合理的な主張です。
これが彼の予測です。この記事の多くは、ChatGPT-2からChatGPT-4への変化を見て、幼稚園児レベルから賢い高校生レベルの知性に移行し、それを外挿するというものです。彼はなぜ外挿が理にかなっているのか3つのポイントを挙げていますが、私がどれほど納得しているかはわかりません。
まず、私はLeopoldが非常に洞察力があると認めたいと思います。明らかに彼のOpenAIでの経験は、これらの素晴らしい思考や将来の予測を生み出しました。しかし、世界で最も優れた機関ではない企業で働いたことがある私の立場からすると、ここでは見落とされている制限があると思います。それについて話し合うときに詳しく説明できます。
簡潔に言えば、学術界や政府の研究機関の非常に高いレベルで働く人々と多くの会議を行ってきました。主な問題の一つはエネルギーの不足です。これらの予測の多くに対して十分な電力がありません。もしLeopoldが今後数年間で核融合の壁を乗り越えると主張しているなら、それは別の話ですが、現時点では電力をつける必要があり、それが必ずしも可能かどうかはわかりません。
とても興味深いですね。彼は3つのポイントを挙げていますが、これはそのうちの一つではないように思います。彼は「オーダーオブマグニチュード(桁違いの大きさ)」を、モデルが飛躍的な進歩を遂げると予想される測定方法だと言っています。これは少しファジーに感じますが、厳密な定義があるかもしれません。
基本的に彼は、計算能力、アルゴリズム効率、そして「アンホブリング(制約解除)」と呼ばれるものにおいて、桁違いの飛躍があると言っています。アンホブリングとは、モデルがデフォルトで制約されている明らかな方法を修正し、潜在的な能力を解き放ち、ツールを提供することで、有用性に段階的な変化をもたらすことです。
これらを分解する前に、あなたのアンホブリングの定義は何ですか?彼が作った用語のようですが、より多くの人々がそれを使っているのを見ています。
彼が作ったかどうかはわかりませんが、これは基本的に、私たちが現在AIを非常に人間的な方法で使用しているという事実を説明する方法です。私たちは本質的に超人的なものを作ろうとしていますが、人間のインターフェースに制限しています。これは明らかに制限です。
例えば、人間の言語について考えるとき、世界には約6,000の言語があり、それぞれ異なる符号化スキームや情報密度、音節のペースを持っています。同様に、AIについても考えることができます。言語は私たち全員が同じことを理解するための媒体ですが、AIにとっては、なぜ本質的に非人間的なこのシステムがこれらの価値観に制約されるべきなのでしょうか?
明らかに、現時点での主な理由は、これらがチャットボットだからです。Leopoldもそれを指摘していると思います。しかし現在、特にDeepSeekやDeepSeek R1リリースに見られる強化学習パラダイムの登場により、強化学習が本当に強力なツールになっていることがわかります。モデルはゼロから学習することができ、これは以前、非常に大規模には見られなかったことです。ここで新しい種類の情報エンコーディングが本当に出現する可能性があります。
英語や他の言語を文字レベルや音節レベルでエンコードするのではなく(これはトークン化スキームと呼ばれるものです)、この教師なし強化学習プロセスを通じて新しい情報エンコーディングスキームが生まれることを可能にすることで、本当に強力な変化が見られるでしょう。
さらに、私たちが現在取り組んでいるプロジェクトの一つは、OpenAIのChatGPTのコードインタープリターのようなものです。ChatGPTが何かわからないとき、またはPythonコードを書いて質問に素早く効率的に答えられると思ったとき、小さなシェルを起動し、スクリプトを書いて、コードを実行できます。これらは非常に小さな仮想マシン(約4コア、20GBのRAM)でクラウドのどこかで実行され、頻繁に起動してクラッシュしています。
私たちの考えは、スーパーコンピュータでこれを行うとどうなるかということでした。ChatGPTや低レベルAPIアクセスバリアントに、スーパーコンピュータ上でコードインタープリターを使用する能力を与えると、今や何百万倍もの計算能力があり、完全な分子シミュレーションを実行できます。
例えば、ChatGPTに「COを治療できる分子は何か」と尋ねると(これは単なるランダムな例で、実際にはできないと思いますが)、推測するのではなく、この小さなVMでは何百年も何千年もかかる完全な分子動力学シミュレーションを起動し、スーパーコンピュータ上では数秒で実行できます。
重要な点は、これらのLLMに、私たちのツールを使うのではなく、彼らが使用できるツールを与えることです。エージェンティックフレームワークを構築することが、ここでの鍵になります。基本的には、サンドボックスから出して、そうするための方法を与えることです。
とても興味深いですね。基本的には3つの解除があり、彼はなぜそれらの3つの解除が間もなく起こると思うのか、または正しい軌道にあるのかを説明しています。
ChatGPT-2と4の比較とこれがどのように外挿されるべきかについて話しました。私たちはすでに、GPT-4モデルがスマートな高校生よりはるかに賢いことを知っています。推論モデルは、PhD研究者ほど優れているかどうかはわかりませんが、確かに高校生よりは優れています。
ここで特に興味深いと思ったのは、AGIがいつ関連するかについて話したときに、彼がここで示しているのは、研究者が持っていた数学データセットのようなベンチマークに対する期待値と実際のパフォーマンスです。明らかにすべての予測は大きく外れていました。人間の脳が指数関数的でないため、おそらく指数関数的思考は私たちが得意ではないため、来るべきものを外挿して理解することは難しいということを示しています。これはとても興味深いと思います。
桁違いの進歩を見ると、Soraは良い例でしょう。そして彼は計算能力について話します。ここで多くの人々は、天井があり、可能な限り速く進まないだろうと言います。DeepSixがそれを証明したかもしれませんが、私たちは計算能力の天井に向かっているのか、それともFLOPS(浮動小数点演算数/秒)が良くなり続けるのでしょうか?
これはより私の専門です。私がやっていることの多くはシステムサイジングに関するものです。コンサルタントが市場規模について多くのことをするように、私は必要な計算規模を把握する作業をしています。
天井に当たるという言い方は完全に正確ではないと思います。間違っているかもしれませんが、私はチンチラスケーリング法則を強く信じています。この対数的成長を見て、2023年に発表されたチンチラ論文は、各桁の増加ごとにどれくらいのパフォーマンス向上が得られるかをおおよそ確立しました。広範囲の問題でこの対数的成長が見られることを示しています。
対数曲線では天井に当たることはありませんが、計算資源を1桁増やすごとに、パフォーマンスの限界的な減少が大幅に見られます。「計算能力を10倍にすると2倍良くなる」とは言えません。前の世代では「10倍計算能力を増やすと50%しか良くなりません」と言えるかもしれず、次に計算能力を10倍増やすと「25%しか良くなりません」と言えるでしょう。
しかし、壁に当たることはないと思います。以前少し触れた、データ不足になるという考えがあります。最近、特にDeepSeekの例や、噂では新しいGPT-4.5が相当量の合成データでトレーニングされているというように、合成データが実際の人間が作成したデータの不足を補うのに役立つことが示されています。
要約すると、この驚くべき進歩を続けるためには、チップが障害にはならないということです。チップは常に障害ですが、無限に良いチップがあれば、これらのことについて心配する必要はありません。
GPUやTPUを購入するこの軍拡競争では、ロードブロックのリストの一番上にあるパラメータは何ですか?それはデータですか?
私はまだ計算能力だと考えています。計算能力とデータのバランスがあることは確かですが、計算能力を増やさずにデータの量を急速に増やしても、あまり進展しないと言うのはかなり合理的だと思います。現在、データを増やしてもあまり得るものはありません。
アルゴリズム効率の面ではゲインがあると思います。これは研究の非常に人気のある領域の一つです。トレーニングプロセスの異なる部分でデータをより意図的に使用することで、大きなゲインを得られることがわかっています。
大規模言語モデルをトレーニングするとき、トレーニングの初期に見られる情報は、後期に見られる情報とは非常に異なる効果を持ちます。これは、このLLM(あえて「脳」という用語を使いますが)が言語に関するこれらの仮定に適合するために、ある種の知識空間を通じてシフトし、収縮したり、ねじれたり、拡大したり、縮小したりしているからです。
例を使ってみましょう。E=mc²を初めて見るとき、以前の情報がなければ、その事実を暗記できます。「E=mc²、その事実を知っている」と言えますが、Eとは何か、mとは何かといった前提知識はありません。2歳の子供にE=mc²と言えば、おそらくそれを言うことはできますが、それが何を意味するのかまったくわからないでしょう。物理学のPhD学生にE=mc²を与えれば、その単純な方程式に含まれる暗黙の仮定や意味について何時間も説明できるでしょう。
トレーニングも同じです。トレーニングの異なる部分で異なるタイプのデータを意図的に使用することで、パフォーマンスが大幅に向上します。これはデータの壁を乗り越え、それほど多くの計算能力を必要としない現在の研究の強力な例の一つです。
基本的に、トレーニングデータの順序が、トレーニングの速度に大きな影響を与える可能性があるということですね。
そのとおりです。これはLLM企業が探求している研究分野ですか?
大手LLM企業についてはわかりませんが、一部の企業はこれを以前に調査し、ある程度使用していることを知っています。DeepSeekのような組織はこれをもっと使用するでしょう。
この研究は実際に、連合学習と呼ばれる分散型機械学習の分野から来ました。機械学習研究の私の元の分野の一つでしたが、私たちの共同研究者の一人がこれで大きな成功を収め、すべての異なる場所でデータを知的に使用するだけで、すべてのデータを一緒に投げ入れて伝統的な中央集権的機械学習を行うのと同じパフォーマンスを達成できることを示しました。
この知的な選択を行うだけで、これらのデータの障壁の多くを克服できます。LLMコミュニティでは、すべてのトレーニングステップが同等に作られているわけではないという事実に注目し始めています。
私たちはこれまで、より複雑な学習率スケジュールでこれを見てきました。多くの研究所は、学習プロセスでのアニーリングをシミュレートし、モデルが局所的な最小値から抜け出すのを助けるために、学習率を適切に変化させる方法の実験を始めています。今、私たちは同じことをデータを通じて代理しているのを見ていますが、これは本当に興味深いと思います。
学習率に基づいて学習しますが、それはベクトルのサイズ(つまり大きさ)だけです。しかしデータでは、大きさだけでなく、ベクトルの方向または次元性も制御します。
多くの地面をカバーしているので、どこに行くか見てみましょう。基本的に、AGIの良い定義はないと言いましたが、ファジーな定義によれば、おそらく今後5年以内に実現するでしょう。しかしLeopoldは、AI技術者を置き換えるという定義に従えば、2027年までに実現する可能性が高いと主張しています。
3つの柱を見ると、何がショーストッパーになる可能性があるのか、それが計算能力、アルゴリズム効率、データ、またはこのアンホブリング(制約解除)状況なのかを考えます。データについては、量だけでなく、トレーニング段階で特定のデータを導入する順序も重要であることがわかりました。主に事前トレーニングについて話していますね?
はい、事前トレーニングについて話しています。
それは超興味深いです。それぞれの層がボトルネックが何かを理解するのにどのように導くかを見ています。あなたは計算能力かもしれないと言いましたが、他の領域は解決可能なようです。
計算能力の素晴らしい点は、予測可能だということです。すべてのデータと同じアルゴリズムがあり、以前の10倍の計算能力があるとしたら、どのようなパフォーマンスが得られるかをかなり確実に推定でき、それを外挿することができます。
OpenAIのGPT-4論文の重要な点の一つは、GPT-4が本当にOpenAIが計算能力に大きく制約された最後の時だったということです。サム・アルトマンは先週、GPUを使い果たしたと言いましたが、これは真実かもしれませんし、そうでないかもしれません。
GPT-4論文の興味深い点は、一度だけトレーニングできると主張したことです。トレーニングをやり直す時間も、複数のトレーニング実行を同時に活用する計算能力もなく、一回の機会しかなかったのです。そして彼らは、その一回のトレーニング作業から得られるパフォーマンスを正確に予測することができました。
これが計算能力の美しさであり、価格が与えられた場合に何を得られるかがわかることで、スターゲートプロジェクトや20万〜30万台のGPUクラスターを構築している企業が非常に興味深いものになります。大きなアルゴリズムの改善がないと仮定すると、異なる時間スケールでどの程度の能力のAIモデルを作成できるかをかなり確実に推測できます。
例えば、Grok 4のパフォーマンスがどうなるかかなり高い確実性で言えます。イーロンは良くも悪くも彼らが持つ計算能力についてかなりオープンなので、Grok 4がおそらく夏の中頃に出ると仮定すると、約25万〜30万台のGPUで4〜6ヶ月の時間があることになります。そして、それがどうなるかについて大まかな推測ができます。おそらくかなり良いでしょう。
しかし、アンホブリングの側面に戻りたいです。これは特に昨年12月のO3の発表で多くの人が話題にしていることで、私たちが持つベンチマークをすべて最大化したということです。ベンチマークが不足しているとあなたは言いました。
このコインには二つの側面があります。一つは、このモデルが現実世界への無制限のアクセスモード(具体化されている場合や無制限のツール使用がある場合など)を持っていたら、すべてのベンチマークでそれらを上回るので、研究者と同じことができるだろうという仮説です。
人々はある程度これを示しており、適切なガイドレール、適切なフレームワーク、適切なパッケージングでモデルを特定の問題に合わせれば、超人的なパフォーマンスを得ることができます。これは、現在のモデルをアンホブリングするというムーンショットを実現できれば、この種のファジーなAGIレベルに達することができることを示唆していると思います。
もし素人の言葉で言うと、モデルがより理解しやすい方法で話すことを学べば、すでに今日見ているよりもはるかに大きな可能性を解き放つことができるということですね。
それは人間対非人間の言語だけではなく、それも確かにアンホブリング技術の一つです。現在のモデルはすべて非常に人間の言語、通常は英語に基づいています。本当の問題は、外部の世界とどのように相互作用するかということです。
現在のLLMをツール使用、システム制御、さらには単なるアライメントや優先順位付けのようなものと結びつける「トランスフォーマー」の瞬間を見つければ、そのアンホブリング空間で本当に興味深い発展が見られるでしょう。
ある人たちは基本的に「人間がモデルを導いて超人的なことをさせることができるなら、適切な補助、適切なフレームワーク、適切なラッパーがあれば、モデル自身でそれができるはずだ」という仮説を立てています。これは今日すでに可能であり、興味深い仮説です。私は完全にそれに同意するわけではありませんが。
代わりの仮説は、現在これらのモデルに与えている非常に制限的なツールを取り、モデルを非常に賢くして、与えた本当にひどいツールを使えるようにするというものです。基本的に、本当に本当に賢い人がいれば、岩と棒で10階建ての建物を建てることができますね。しかし、そんなに賢くない人々はAutoCADが必要です。そこに違いがあります。
その類推は要点をよく説明していますね。アンホブリングについて、Leopoldはこう言っています:「定量化するのが最も難しいが、重要な改善のカテゴリーがアンホブリングです。難しい数学の問題を解くのに、頭に最初に浮かんだことをすぐに答えなければならないとしたら、苦労するのは明らかです。これがLLMに数学の問題を解かせる方法でした。しかし代わりに問題をステップバイステップで進めさせる」これは基本的にチェーン・オブ・ソート(思考の連鎖)を説明しています。これは現在多くの人にとってほぼ標準となっています。
「優れた能力にもかかわらず、明らかな方法で制約されていたため、数学においてはもっと良くできたはずよりもはるかに悪かった。小さな調整で遥かに大きな能力を解き放つことができた」。これはあなたが言ったことと基本的に同じです。
彼はいくつかの興味深いポイントに触れています。「基本モデルは信じられないほどの潜在的な能力を持っていますが、生のままで非常に扱いにくいです」。聴衆のために、彼がここで言っていることと基本モデルとは何かを簡単に説明してもらえますか?
これらの基本モデルは、事前トレーニング後に得られるものです。これは基本的に自己回帰的なトークンインプットとアウトプットで、ChatGPTのような方法では設定されていません。これはより超スマートな自動補完のようなものです。次の単語を予測するだけで、チャットインターフェースではありません。
指示に従ったり、そのようなことはしません。単にエッセイの最初の4つの文を入力すると、エッセイを完成させるでしょう。
Leopoldがここで指摘しているのは非常に興味深いポイントです。Open LLMリーダーボードというウェブサイトがあり、ここではllamaなどのオープンモデルがどのように比較されるかを示しています。このリーダーボードで測定されるタスクには、これらの事前トレーニングされた基本モデルが非常に得意とするものがありますが、指示調整されると(つまり生の自動補完モデルからチャットボットに変わると)、指示に従うようなベンチマークは良くなりますが、GPQA(Google Proof Question and Answering)のような純粋な知性のようなものは悪くなります。
これは非常に魅力的であり、この分野で働いた人の中には、指示調整されたモデルがあれば、特定の入力に対して事前トレーニングされたモデルを呼び出すことができるようなことをするものがあります。
2年前の初期の日のHugging Faceによって作られたHugging GPTという興味深い例があり、基本的にはGPT-4を使用してHugging Faceのリポジトリからのすべてのモデルを特定の入力に対して呼び出すというアイデアでした。これは、事実上AIがAIを使用しているという点で非常に興味深いと思いました。私たちは皆、仕事でChatGPTを使用しており、今やChatGPT自身のスキルを補完するためにAIを使用しています。
明らかに、はるかに大きな規模に達する時が来るでしょうが、同じパターンを持っており、どんな汎用エージェントもこれらの専門的なアクターを使用して、より思慮深く、より的を絞ったアプリケーション固有の作業を行うでしょう。
強化学習と人間のフィードバック(RLHF)について、それがこのアンホブリングにどのように関係するのでしょうか?それは本当に解放するものでしょうか?
この強化学習と人間のフィードバックは、一般的にいくつかの方法で行われます。主なものの一つは、システムが2つの潜在的な回答を出力し、人間が「これがより良い」か「あれがより良い」かを言うというものです。
私たちはみな、UXの一部としてこれを経験しています。基本的にABテストですが、より複雑なバージョンもあります。ユーザーは基本的に主題専門家として興味深い質問を提供し、回答を導くことに責任を持ちます。
これはArgonでの内部LLM努力で行ったことで、基本的に多くの学者を集めて「この1000の学術論文のリストを取り、これらの論文を使って答えられる興味深い質問を考え出してください。ただし、すぐには明らかでないこと」と言い、それからLLMでそれに対して強化学習を行うことができます。
これにはさまざまなレベルがあります。すべての大きなLLMウェブサイトでは求人情報があり、私はXAIが最高のタイトルを持っていると思います。「あなたはAI数学チューター」というようなものです。基本的に数学の専門性を持っていて、AIにより良く数学をする方法を教えることが全体の仕事です。
RLHFは非常に有用なものですが、アンホブリング的なものかどうかはわかりません。彼らはこれがChatGPTの瞬間につながったと言いますが、今後については最も難しいことになるでしょう。なぜなら、人間はひどくスケールしませんが、計算はよくスケールします。人間は恐ろしいですね。
それは興味深い方向です。彼はここで思考の連鎖、足場掛け(これは極端な思考の連鎖の一種)を挙げています。ツールについては、ツールを使用するエージェントのように聞こえますね。そして文脈長さ(コンテキスト)については、公開後にかなり劇的に成長しました。今では100万トークンに近いコンテキストウィンドウについて話しています。
コンテキスト長さについての興味深いことは、AI研究空間で非常に議論されていますが、明らかにより多いほど良いということです。誰もそれを否定しませんが、人間の心がどのように機能するかを考えると(これは常に恐ろしい類推ですが)、短期記憶に何を収めることができるかを考えてください。
30秒前にあなたが言った正確な言葉を覚えているのは難しいでしょう。おおよそ何を言ったかはわかりますが、30秒前や1分前に言った言葉を正確に繰り返すよう求められたら、おそらくできないでしょう。
この場合、これらのトランスフォーマーモデルの機能方法は、コンテキストウィンドウが長く、基本的に全コンテキスト長さにわたるすべてのトークン間でペアワイズ比較を行うことができます。これはひどくスケールしますが、より大きな思考のために明確に必要であるという証拠はありません。
最近、DeepMindとSakana AIから出た非常に興味深い研究があります。これはメモリ拡張トランスフォーマーのアイデアを促進するもので、トランスフォーマーが潜在空間を強化したり、文脈内学習を行い、コンテキスト長が指数関数的(または2次的)に増加することに依存しないようにするものです。
これにより、文脈の一部を効果的に圧縮することができ、他のLLMラボもこれを行っていると思います。Cursor(AI搭載のVSコード会社)は、LLMを使ってコンテキストの過去の部分を要約し、それを次のLLMに供給します。
これは基本的にはエージェンティックワークフローだと思います。これをエージェントと呼ばない理由はありません。
エージェントは過剰に使われている用語かもしれませんが、そうかもしれませんし、トランスフォーマーアーキテクチャ自体に組み込まれている可能性もあります。例えば、各トランスフォーマーブロック内に潜在的なメモリブロックがあり、100万トークンを1000次元のベクトルに圧縮するようなものがあれば、それは可能性の範囲内にあります。これはLSTMでも見られましたが、LSTMもあまりスケールしません。しかし、それは可能であり、現在研究が行われている非常に強い変曲点にあります。
彼の予測を見てみましょう。彼は2023年から2027年の間に計算能力が2〜3桁向上すると言っています。つまり約500倍の計算能力になるということですが、その軌道にいるかどうかはわかりません。2023年から2025年の間に何が起こったのか、あなたが私よりよく知っているでしょう。
最速のシステムだけで見ると、約10倍、つまり1〜1.5桁の速度向上があります。しかし、実際のトレーニングに使用されているものはもっと多いです。
GPT-4のトレーニングに何が必要だったか知っていますし、GPT-2のトレーニングについては噂レベルですが、かなりの自信を持って言えるのは、間違いなく1桁以上の増加があり、単に時間の観点からだけでも2桁に近づいているということです。
それはほぼ軌道上にあると言えるでしょうね。
そう言えるでしょう。興味深いのは、このバランスです。スーパーコンピュータを使って多くの小さなモデルを実行し、速く進歩させるか、それとも次の2年間すべてのリソースを1つのモデルに使うかという選択です。それは本当に興味をそそる質問です。
これはイーロンが基本的に「物理的に可能な限り多くの計算能力を取得する」と言った理由の一つだと思います。アルゴリズムの改善やアンホブリングの増加を期待するのではなく、基本的に「2年分の計算を次の6ヶ月で行うとどうなるか」という答えを得ようとしています。Grok 3のリリースと、Grok 3の優秀さを見ると、成功していることがわかります。
長い話を短くすると、Leopoldは私たちが間違いなくこれらの桁違いの増加を見ていると正しいですが、計算能力、アルゴリズム効率、アンホブリングが分野全体で見られるかどうかについてはどうでしょうか?
アルゴリズム効率は間違いなくそうです。O1とO3は大きな成功を収めました。O3はGPT-4.5よりもはるかに小さなモデルですが、より多くのことができます。O3がGPT-4.5よりも「愚か」なモデルだと言う人はいないでしょう。単に異なる働き方をするだけです。
本当の問題は、O3を構築するために使用されたすべての原則をGPT-4.5のスケールのモデルに適用したらどうなるかということです。それが、1〜2桁のアルゴリズム効率から、潜在的に3桁への移行点だと思います。
それはOpenAIの次のものですか?
次に何が来るかは確実にはわかりません。GPT-5が複数のモデルから構成され、GPT-4.5とO3に似たものになることはわかっています。それらがどのように一緒に機能するかはまだ見ていません。
おそらく、典型的なチャットボットインターフェースというよりも、エージェントの群れのようなもののように見えるでしょう。エンドユーザーにとってはまだチャットボットインターフェースのように見えますが、実際に内部を見ると、単に言葉が入って言葉が出るというだけではありません。
これは本当に興味深いと思いますし、確かにより効率的になります。人々は再びこれらのリソースを適切に使用する方法を知らないからです。これが次の1年から2年間の基調を設定する大きなリリースになるでしょう。
ほとんどの人々は、これがどのようになるかについての情報が早い夏に得られると期待していますが、実際にリリースされるのはいつになるかはわかりません。O3は12月に発表されましたが、GPT-5が出るまでリリースされないでしょう。それは早い夏か早い秋かもしれません。ミニではないO3についてですね。
そうです。O3 Miniはほとんどのことで素晴らしいですが、まだO1 Proよりも劣っています。
彼はどのようにすべてをまとめているか見てみましょう。基本的に、私たちはその後の複数の10年よりも次の10年でより多くの桁違いのことを急いでいます。半分悲観的です。AGIにすぐに達するのに十分かもしれませんが、その後は長い緩やかな減速が待っています。
彼は「この10年かさもなければ終わり」と主張していますが、なぜそれが議論になるのでしょうか?リターンがある時点で限界的になると誰が言っているのでしょうか?
それが問題の核心です。計算能力のスケーリングからどのような増加を得るかおおよそ知っており、どれだけ大きなものを構築できるかもある程度知っています。
Microsoftで働いていた人からのツイートが話題になりました。彼は基本的に「1つの局所化された地域に10万以上のGPUを配置すると、電力網のシャットダウンが始まるため、データセンター間のトレーニングを行う方法を見つける必要がある」と言いました。
構築できる大きさには上限があり、問題は極端な収益逓減に達する前に変革的な技術を得られるかどうかです。高度に分散したクラスターを構築できることはわかっていますが、グリッドや熱密度の問題があります。これらのデータセンターの周りでは、排出する必要のあるすべての熱のため、局所的な微気候に測定可能な変化が見られています。
いくつかの研究所や企業によって、この熱を熱電気発電機などの力に変換する非常に興味深い研究が行われています。これは業界にとって本当に変革的なものになるでしょう。入力されるパワーの90%以上が単に熱に変わるからです。
その熱を50%の効率で電気に戻すことができれば、同じ冷却、そして同じパワーで計算能力を2倍にすることができます。
チップ効率の背後には大きな未開拓の領域があると思います。デナードスケーリングの考え方があり、基本的にトランジスタが小さくなるにつれて、同じ量の電力を使って指数関数的により多くの計算を得ることができると言っています。
モアの法則よりも、デナードスケーリングの終焉を本当に見てきました。7 nmチップや14 nmチップから、現在理論上は2 nmにまで至っていますが、これは理論的には10〜100倍の効率向上をもたらすはずですが、そうはなりません。
これらのチップから利用可能なすべての計算能力を得るために、非常に多くの電力を通すからです。これらのリソグラフィーシステム、これらの半導体メーカーはすべて、より良いチップ設計をするためにAIを使用しています。私たちはそこに近づいています。
これがリオポルドが話している核心だと思います。今がチャンスであり、現在持っているすべてのリソースを活用しても、変革的な技術に達して前進を加速させる地点に達しなければ、大幅に遅くなるでしょう。
GPT-4のトレーニングについて話したように、一度だけトレーニングするチャンスがあったのは、4年前にはこの最大のクラスターを構築することや、データセンターのすぐ隣に大規模な発電所を建設することへの強調がなかったからです。Microsoftが原子力発電所を購入するなど、大規模な成長があります。
あなたはジェンセン・フアンのプレゼンテーションを何度も見たことがあるでしょう。AIトレーニングのパワーは毎年6倍ずつ増加していると言っています。それは現在の私たちの優先順位だからです。
実際には、過去数十年間にわたってこの余裕があり、AIまたは計算能力に対するマンハッタンプロジェクトのようなもの、つまりすべてのリソースを計算能力に向けていたら、時間の経過とともに進歩は現在見られるよりもはるかに遅かったでしょう。
過去数十年にわたってこのオーバーヘッドを構築し、今わずか数年でそのオーバーヘッドをすべて活用しているからです。古い変化率、おそらくムーアの法則の速度(年間1.5倍)に戻らなければならない点に達すると、見返りがすぐに得られないため、興味が大幅に低下するでしょう。
そのため、これにお金をかけるのをやめることと、構築したこの技術的オーバーヘッドを使い切ったことが合わさり、誰が知っているでしょうか、その後、再び興味が始まり、プロジェクトスターゲートのようなムーンショットプロジェクトを始めて、本当に変革的な技術のレベルに達するのにどれくらいの時間がかかるか。
私の意見では、核融合が解決され、チップ設計が解決されれば、もう心配する必要はありません。無制限ではありませんが、GPT-4からO1への変換のような、まったく新しいスケーリングのパラダイムに私たちを導きます。
これがAIが最も約束を持っていると思うことであり、それがリオポルドが話していることです。年間50%の成長に戻らなければならない前に、これらの新しいスケーリングのパラダイムにアクセスできるかどうかです。
50%の成長は大抵のものの成長率と比較しても信じられないほど速いですが、過去数年間に経験した5〜10倍と比較すると、私たちはかたつむりのペースで動いているように感じるでしょう。
すごいですね、すべてをまとめてくれました。グリッドと電気から始まり、ボトルネックが何かを見るために除去のプロセスを経て、共通の知恵とは異なるボトルネックがあるかもしれないと認識して、同じことで終わるのは面白いですね。
リオポルドがここで提示している主な議論、そしてなぜ「この10年かさもなければ終わり」なのかを基本的にカバーしたと思います。これについて考えるのは非常に興味深い方法です。
あなたの一言での見解は何ですか?
私の一言での見解は、「ムーンショットに投資する必要がある」ということです。この分野では懐疑論が増えていますが、それは非常に正当なものだと思います。これらの企業の90%は失敗し、これらのプロジェクトの99%は失敗するでしょう。しかし、成功する数少ないプロジェクトが、次の10年または20年間私たちが乗ることができる新しいパラダイムをもたらします。
潜在的な利益を放棄するのはもったいないと思います。プロジェクトスターゲットは私たちが見た最初のものであり、それがどれだけ現実的かは議論の余地があります。内部で聞いた話では、5000億ドルは完全に現実的ではありませんが、間違いなく数千億ドルのオーダーであり、それは良いスタートです。
おそらく次の1〜2世代、つまり次の6ヶ月から1年で、私たちが成功への道を歩んでいるかどうかが明らかになるでしょう。ポジティブな兆候を得る唯一の方法は、これらのムーンショットを追求することだと思います。

コメント

タイトルとURLをコピーしました