
8,211 文字

はい、OpenAIのAGIへの道のりでまた新たな障壁に直面したみたいですわ。というのも、GPTの性能向上が鈍化してきたため、戦略の転換を余儀なくされているようです。最近、The Informationという媒体が記事を出しまして、AIの専門家らが以前から議論してきたことについて触れてます。つまり、これらのシステムやモデルが本当に学習できているのか、そしてAIを取り巻くスケーリング則や様々なパラダイムが、知能の向上を続けていくのか、それとも性能の限界に達しつつあるのかという議論です。
この記事で興味深いと思うのは、AI業界の今後について理解するために詳しく議論される必要のある様々な点が含まれていることです。多くの人が誤解している部分もありますので、いくつか整理させていただきます。
まず記事では、OpenAIの研究者の一部が、オライオン(Orion)は特定のタスクにおいて、前モデルと比べて確実な性能向上が見られないと考えていると述べています。OpenAIの従業員によると、オライオンは言語タスクでは性能が向上していますが、コーディングなどのタスクでは前モデルを上回っていないかもしれないとのことです。これはOpenAIにとって問題になる可能性があります。というのも、オライオンは最近リリースされた他のモデルと比べて、データセンターでの運用コストが高くなる可能性があるからです。
つまり、多くの人が予想しているGPT-5ではなく、オライオンと呼ばれる次期モデルが、残念ながら前モデルと比べてそれほど大きな性能向上が見られないということです。ある分野では確かに性能が向上していますが、特定の分野では確実な向上が見られないということです。
特にコーディングの分野で性能向上が見られないという点は興味深いですね。というのも、つい最近OpenAIが社内で使用している内部モデルについての情報がありまして、そのモデルは実際にOpenAI自身のためにコードを実行しているとのことです。
The Informationの別の記事によると、OpenAIは人間なら何時間もしくは何日もかかるようなソフトウェアエンジニアリングタスクを処理し、顧客の指示に基づいて複雑なアプリケーションのコードを書いて実行できる製品を開発しているとのことです。ただし、OpenAIがそのような製品をリリースするかどうかは不明です。
約1週間前に私が取り上げた動画でも触れましたが、OpenAIは社内でソフトウェアエンジニアリングタスクを処理する独自の製品を持っているということです。それで気になるのが、オライオンで使用しているモデルとは異なるモデルを使用しているのではないかということです。というのも、その内部モデルは非常に優れた性能を発揮し、社内でも人気があるとされているからです。
この優れたコーディングモデルの機能が、オライオンに組み込まれるのか、それとも別の形で提供されるのか、興味深いところです。
ただ、オライオンやコーディングの話題が主要な情報というわけではありません。この記事の主な問題点として多くの人が指摘しているのは、AIの分野における根本的な前提、つまりスケーリング則に関する部分です。これは、より多くのデータを学習し、そのプロセスを促進するための計算能力が追加されれば、大規模言語モデル(LLM)は同じペースで改善し続けるという考え方です。
AI業界に長く携わっている方なら、GPTモデルを巡るパラダイムについてご存知でしょう。つまり、より多くのデータがあり、より長い時間訓練し、本質的により大きく、より広範なモデルを作れば、これらのモデルは着実に改善し続けるという考え方です。
しかし、現在のGPT-4と比較して、オライオンモデルがそれほど大きな性能向上を見せていないことから、人々はAIモデルの性能向上が鈍化しているのではないかと考え始めています。これは多くの人々が懸念し、疑問視している点です。なぜなら、このパラダイムは企業の投資方法に影響を与えており、これが半導体チップを購入している理由でもあるからです。
AIの仕組みの根幹に関わることなので、これは彼らにとって重要な情報となります。
正直に言いますと、多くの人々が反対しているものの、私はこの記事に同意します。GPTのスケーリング則は確かに鈍化している可能性がありますが、これはAI全体が鈍化しているということではありません。つまり、GPTのスケーリング則、すなわちChatGPTやGPT-4のようなモデルを単純に大きくすることが、モデルを改善する唯一の方法だとすれば、それがOpenAIの主要な焦点となっているはずですが、現実には違います。
OpenAIの主な焦点は、明らかに新しいスケーリング則に移っています。テストタイムコンピュート(推論時の計算)に関する新しいスケーリング則は、以前のような単にデータを追加することに焦点を当てたものとは完全に異なります。
記事でも述べられているように、業界は初期トレーニング後のモデル改善に力を入れるようになってきており、これは異なるタイプのスケーリングモデルをもたらす可能性があります。これは理にかなっています。なぜなら、現在誰もが知っているパラダイムは、テストタイムコンピュートパラダイムだからです。これは、AIが応答をどのように考えるか、そしてそれによってモデルがどのように改善されるかということに関するものです。
私は、単にデータを追加し、微調整や事後トレーニングを行うという古い方法では、大きな進歩は望めないと思います。しかし、この新しいパラダイム、つまり01シリーズのパラダイムについて見てみると、例えばO2シリーズがGPQAで105%のスコアを獲得すると言われているように、この方向性は全く鈍化していないと思います。これはオライオンよりも重要だと考えています。
興味深いことに、サム・アルトマンはオライオンが前のフラッグシップモデルよりも大幅に優れていると予想していました。たとえ一見そうは見えなくても、私もこのモデルは大幅に優れていると考えています。なぜなら、新しいモデルが作られるたびに、効率性やハルシネーションに関する既存の問題に対する新しい解決策が見つかるからです。
このモデルは劇的に優れているわけではないかもしれませんが、些細な改善でも多くのユースケースが可能になることは知っています。Claude 3.5 Sonnetが効果的なコードを生成できるようになった時、どれだけ多くの人々がソフトウェアを作り始め、Claude 3.5 Sonnetを使って様々なことを始めたか考えてみてください。
GPT-3.5からGPT-4への飛躍は確かに素晴らしいものでしたが、たとえその飛躍が同程度でなくても、AI業界の多くの人々にとって本当に素晴らしいものとなる、より広範な様々なユースケースが解放されることは分かっています。
また、興味深いことに、ほとんどの人が触れていなかったのですが、オライオンはトレーニングプロセスのわずか20%しか完了していないにもかかわらず、すでにGPT-4と同等の知能と、タスクを遂行し質問に答える能力を持っているとアルトマンが述べています。これはかなり重要な発言だと思います。
トレーニングプロセスのわずか20%しか完了していないのに、すでにGPT-4と同等の性能を持っているということは、数学的な計算をするつもりはありませんが、このモデルは最終的にGPT-4よりもかなり優れたものになる可能性が高く、先ほど述べたように、さらに多くの異なるユースケースを解放することになるでしょう。
もちろん、ここでも述べられているように、オライオンの性能は確かに以前のモデルを上回っていますが、GPT-3からGPT-4への飛躍と比べると、品質の向上はかなり小さいものだと、オライオンを使用またはテストした同じ従業員が述べています。
オライオンが遅延した場合、あるいは改善が見られた場合、何が起こるのか興味深いところです。最近、GoogleがGemini 2モデルに大きな期待を寄せていたものの、能力の向上などの面で期待していたような結果が得られていないという記事があったことを思い出します。
これは、OpenAIがモデルにコード作成機能を組み込もうとしている部分に関連していますね。先ほど、社内でソフトウェアエンジニアリングタスクに使用している内部ツールが会社内で人気があると話しましたが、それが何らかの形で私たちの製品に組み込まれるのかどうか気になります。
また、OpenAIはウェブブラウザのアクティビティやアプリケーションなど、個人のコンピュータを制御できるソフトウェアも開発中です。つまり、OpenAIはツールの観点からソフトウェアエンジニアを開発し続けており、AIエージェントの観点からは、コンピュータを完全に制御できるソフトウェアを開発し続けているわけです。
興味深いことに、ここには多くの矛盾する情報があります。アルトマンやその他のAI開発者のCEOたちは、まだ従来のスケーリング則の限界には達していないと述べています。もしスケーリング則の限界に達していないのであれば、これらの巨大なデータセンターの開発を続けることになります。
人々の言葉と行動を見比べる時、常に人々の行動に注目する必要があります。なぜなら、それが真実と虚偽を見分けるより良い指標となるからです。もしスケーリング則が本当に鈍化しているのであれば、AIインフラの大規模な構築は見られないはずです。
従来のスケーリング則の限界にまだ達していないと述べ、データセンターを買い続けるということは重要だと思います。ただし、将来のインフラの大部分は推論時の計算に向けられると考えています。なぜなら、モデルにより多くの計算を加えるたびに、より賢くなるというこのスケーリング則の進歩は鈍化していないことが分かっているからです。
おそらく、需要の増加を見込んで、そして推論時の計算がより重要なパラダイムになる可能性があることを知っているため、より多くのデータセンターを追加しているのでしょう。
興味深いことに、OpenAIの推論モデル(01シリーズ)に携わっている人が興味深いことを言っています。2つのスクリーンショットをお見せしたいと思います。
まず、彼らが言ったのは「結局のところ、数千億ドルや数兆ドルもかかるモデルを本当に訓練するつもりなのか」というブラウンの発言です。これは01の推論を担当したノーラン・ブラウンの発言で、彼は「ある時点でスケーリングパラダイムは破綻する」と述べています。
つまり、たとえこれらのモデルがデータによってかなり改善されたとしても、モデルの訓練に数兆ドルを費やすことは現実的ではないということです。
もう1つのスクリーンショットをお見せする理由は、この記事のスクリーンショットが文脈から外れて解釈されている可能性があるからです。実際、彼は自身のTEDトークについて、「記事で選択的に引用された私の発言では、AIの進歩は近い将来鈍化することはないと主張している」と述べています。
発言した本人が「AIの進歩は近い将来鈍化することはない」と述べているのは興味深いと思います。これは記事の内容よりも重視すべきだと思います。また、先ほど述べたように、たとえこれらのモデル、つまりGPTシリーズ(01シリーズではありません)が鈍化したとしても、AI全体の進歩が鈍化することはないと考えています。
なぜなら、これらのモデルをプロンプトする異なる方法や、これらのモデルと対話して情報を引き出す異なる方法がまだ存在するからです。OpenAIだけがこれに取り組んでいるわけではないことも覚えておく必要があります。Google、Anthropic、xAI、Metaなど、他にも4つの主要な企業が参入しています。つまり、仮にOpenAIが何らかの障壁にぶつかったとしても、他の企業が進歩を続けることができる可能性が高いということです。これはAIが鈍化しているということではなく、単にスケーリング則が現在AIの異なる側面に焦点を当てているということです。
モデルの名称について気になっている方もいらっしゃると思いますが、オライオンはGPT-5という名称に取って代わる可能性が高いようです。記事によると、OpenAIが来年初めにオライオンをリリースする際、従来のGPTという名称の慣例から外れる可能性があり、これはLLMの改善の性質が変化していることを強調するものだと従業員は述べています。
また、データの壁についても触れられています。GPTの鈍化の理由の1つは、LLMが事前学習時に処理できる高品質なテキストやその他のデータの供給が減少していることだとされています。これがデータの壁です。
つまり、これらのモデルをより賢くするために、より多くのデータ、特により多くの高品質なデータを追加するわけですが、直面している問題の1つは、インターネット上で利用可能な高品質なデータを見つけることが非常に困難だということです。インターネット上のデータの多くは単なるゴミで、まったくのナンセンスだからです。
したがって、より高品質なデータを得るためには、賢い人間にそのデータを作ってもらうか、これらのモデルによってキュレーションされた合成データを使用する必要があります。どちらも非常に困難で、これがGPT時代の鈍化の理由の1つである可能性があります。
このような構造を見る時に注目すべき点の1つは、人間は高品質なテキストを生成するために、何百万もの文章を必要としないということです。将来のパラダイムでは、データを大量に必要とするモデルではなく、より効率的なアーキテクチャによって、モデルがどのように超賢くなるかを見るのが興味深いでしょう。
もちろん、より高品質なデータを得る方法の1つとして合成データの導入について話しましたが、オライオンで行われたことの1つが非常に興味深いです。OpenAIの従業員によると、オライオンは部分的に、GPT-4や最近リリースされた推論モデルなど、OpenAIの他のモデルによって生成されたAIデータで訓練されたとのことです。
しかし、このような合成データは新しい問題を引き起こしています。オライオンが特定の側面で古いモデルに似てしまう可能性があるというのです。これはモデルコラプス(モデルの崩壊)と呼ばれる現象を指している可能性があります。
モデルがデータを生成する時、それは彼らの訓練データと、人間からの強化学習フィードバックによって訓練された世界観に基づいています。基本的に、あるモデルが別のモデルのためにデータを生成すると、そのデータで訓練される新しいモデルが、古いモデルの特定の側面を反映する可能性が高くなります。
これは、なぜ合成データの生成が本当に難しいのかという問題に立ち返らせます。モデルの系統樹のようなものがあり、最初のモデルは非常に多様性がありますが、そのデータを使って別のモデルを訓練すると、同じデータで訓練されているため、時間とともに多様性が失われていきます。
だからこそ、本当に多様なデータを集める必要があります。興味深いことに、記事では、GPTの鈍化に関する漸近線について触れています。2年前は、OpenAIの1つのLLMが他のすべてを大きく引き離していましたが、今日では、それと同等のモデルが6つほど存在し、興味深いことに、現時点では全てが同じポイントで漸近線に達しているように見えます。同じ性能の上限に達しているように見えるのです。
もちろん、業界には賢い人々が大勢いて、これらの限界を突破しようと取り組んでいます。しかし、今日の時点でデータだけを見て、性能の推移をグラフ化すると、少なくとも局所的な性能の頭打ちが起きているように見えます。
GPT-2.0からGPT-3、そしてGPT-3.5への改善と、GPT-3.5からGPT-4への改善を比較すると、改善の度合いは本当に鈍化しています。注目すべきは、GPU使用量の増加は同程度だったということです。同じような割合でGPUを増やしているのに、知能の向上は全く得られていないのです。
ここで興味深い点を見つけました。これはOpenAIにとって問題になる可能性があり、どのように解決するのか興味深いところです。それは、一般の人々はAGIを必要としていないという事実です。
数学者や他の科学者たちは、01(推論モデル)がフィードバックやアイデアを提供するコンパニオンとして彼らの研究に有益だと述べています。しかし、このモデルは現在、推論を行わないモデルの6倍の価格で提供されており、その結果、幅広い顧客基盤を持っていないとのことです。
つまり、このモデルは科学研究を進歩させていますが、現時点では人々が使うには高価すぎるということです。これは理にかなっていると思います。なぜなら、これらのモデルは、従来のモデルよりもはるかに多くのトークンを消費するからです。
ChatGPT、GPT-4、GPTミニなど、従来のモデルと対話する時、モデルは1000トークンほど生成します。しかし、考えるこれらの他のモデルでは、モデルが応答を考えるために非常に多くのトークンが使用され、それらは無料ではありません。多くのコストがかかるため、これらのモデルは6倍高価になっており、現時点では費用対効果が良くないということです。
ただし、将来的にはこれらのモデルの価格が大幅に下がる可能性が高いと考えています。世界中の人々にとっての経済的価値がどのように変化するのか興味深いところです。人々は至る所でこれを使い始めるでしょうか?科学者たちにとって確かに有益であることを考えると、その可能性は十分にあると思います。
01シリーズの推論モデルは物理学、化学、数学などの分野で非常に賢く進んでいて、一方でGPTシリーズのモデルはコーディング、コンテンツ作成、文学、ストーリーテリングなどの分野に向いているという状況が見えてきて、興味深いですね。
興味深いことに、一部の人々はゲイリー・マーカスが勝利を宣言したと指摘しています。ゲイリー・マーカスをご存じない方のために説明すると、彼は一部の人々からAI懐疑論者と呼ばれています。とはいえ、自身のAI企業を設立してUberに売却していることを考えると、純粋なAI懐疑論者とは言えないでしょう。
彼は「皆さん、ゲームオーバーです。私が勝ちました。私が予言した通り、GPTは収穫逓減の時期に入っています」と述べています。これが特に興味深いのは、ゲイリー・マーカスが「2024年末までに、GPT-4スタイルのモデルが多数存在するようになり、大きな改善は見られないだろう」と述べていたからです。
次のシリーズのモデル、オライオン、おそらく次のバージョンのClaude、Gemini 2で何が起こるのか、非常に興味深いところです。
また、製品担当のVP、ピーター・リンダーは「人々はテストタイムコンピュートの力を過小評価している。より長く並行して計算を行うことや、任意に分岐すること、つまり自分の心を1000回クローンして最高の考えを選ぶようなことができる」と述べています。
モデルが10,000の考えを生成し、最良のものを選ぶことができれば、最初の考えだけを選ぶよりもはるかに優れたものになるでしょう。時間とともにこのパラダイムは存在し続け、これらのモデルはより賢くなり続けると考えています。
全体をまとめると、一部の人々はパラダイムが鈍化していると考えていますが、たとえGPTシリーズのパラダイムが鈍化しているとしても、01シリーズは急速に発展しようとしていると考えています。
つまり、今後は些細な改善しか得られないとしても、GPTシリーズをプロンプトする方法はまだ存在し、時間とともにこれらのモデルをより効果的にする改善が発見され続けるでしょう。現在分かっていることを考えると、AIが完全に鈍化しているという説は本当ではありません。


コメント