GPT-4.5:そして事前学習の未来は…

AGIに仕事を奪われたい
この記事は約15分で読めます。

8,905 文字

GPT-4.5: And the future of pre-training is...
Learn more about artificial intelligence → pre-training dead? In this bonus episode of Mixture of Experts, guest host Br...

事前学習は終わったのか?いいえ、なぜなら4.5は最高のチーズジョークを言うからです。チーズジョークのために事前学習を止める理由がありますか?私はチーズジョークが必要なので、事前学習は残り続けるでしょう。あなたを頼りにできると知っていました。ケイト、あなたの番です。それはすでに死んでいます。さあ、今や死んだ馬を叩いているようなものです。
それでは、今週のエピソードに移りましょう。みなさん、こんにちは。私はブライアン・ケイシーです。今回のエピソードのゲストホストを務めます。ミクスチャー・オブ・エキスパーツへようこそ。毎週、ミクスチャー・オブ・エキスパーツでは人工知能における最もホットな話題を取り上げています。このショーの面白いところは、木曜日の朝に収録していることです。
そして今週の木曜日の午後、GPT-4.5が登場し、私たちは初の緊急ポッドキャストを行うことにしました。今日のエピソードにはクリス・ヘイとケイト・ソウル両方をお迎えできることを嬉しく思います。冒頭の質問からも明らかかもしれませんが、今日議論する唯一のトピックは、木曜日の午後にOpenAIがリリースした待望のGPT-4.5についてです。
私たちは多くのリリースを見てきました。ここでは毎日のように新しいモデルがリリースされています。このリリースについて私には非常に注目すべき点がいくつかありました。それはOpenAIが市場に対してどのように伝えたかという点においてもです。まず、彼らの発表資料のすべてにおいて、4.5をフロンティアモデルとして描写していませんでした。
彼らはすべてのコミュニケーションで、従来の標準的なベンチマークに対して、これは世界記録を更新するモデルではないことを明確にしていました。彼らはモデルの提供コストやサイズについて大きく言及し、モデルを提供する能力においてGPUを使い果たしたとさえ述べていました。そして彼らのドキュメントの中には、このモデルをAPIで長期的に提供し続けるかどうかについても明言していない部分もありました。
冒頭の質問に少し触れて、ケイトから始めましょうか。あなたは事前学習はすでに終わったと言いましたね。市場での即時的な議論は、GPT-4.5がGPT-4の約10倍のコンピュートで訓練されたという前提に基づいていると思います。少なくともそれが私が見た仮説です。人々はすぐに「壁に当たったのか」「スケーリング法則」「事前学習は終わったのか」といった含意に言及しました。あなたの見解はどうですか?
私はGPT-4.5が出る前でさえ、DeepSeekや他のモデルで、事前学習のコンピュートではなく推論時のコンピュートが王者であるという説得力のある証拠を見てきました。推論時により多くの時間をかけることでさまざまなパフォーマンス向上が解放されています。それはより多くのコストがかかりますが、そこにお金をかければ新しいパフォーマンス向上が得られるのです。そして事前学習でより長く、より多くのデータで訓練するという古い方法では、同じ成果は得られていません。コスト曲線をかなり上まで進んできたので、その観点からは本当に停滞が見られます。ですから、これは実際には予想外のことではないと思います。私たちがしばらく向かってきた方向を実際に見れば分かります。
クリス、あなたの冒頭の発言に少し触れてみましょう。私が見てきたコミュニティの反応の一つは、このモデルは数学や科学のベンチマークで新しい標準を打ち立てることはなかったものの、市場での反応や議論では、このモデルは文章作成が本当に上手く、ユーモアがあり、以前のモデルよりも創造的だということでした。人々は気まずくないような方法で実際に面白いモデルを見るのに慣れていませんでした。あなたはケイトの見解に同意しますか?それとも、私たちがこうした創造性や文章力、ユーモアなどが知性曲線上でどのような位置を占めるかについて過小評価しているとお考えですか?
私は夜遅くなってきているので、ケイトに同意すれば帰れますか?いいえ、もちろんケイトには反対しましょう。そうでなければ何が面白いでしょうか?私が思うに、まず第一に創造性です。これは本当に面白いモデルです。実際にとても面白くてスパイシーです。そして初めてモデルから良い創作文が出てくるのを見ました。だから実際に彼らはかなり良いことをしたと思います。もちろん、それは推論時のコンピュートが得意とする数学などのことは得意ではありません。なぜならそれにはより多くの考える時間が必要だからです。そして私はそれで問題ないと思います。
それは事前学習を終わらせるでしょうか?いいえ。なぜでしょう?事前学習モデルがなければ、推論時に何を推論しますか?何もできません。まず事前学習モデルが必要なのです。事前学習はどこにも行きません。予測をするなら、私の予測は、推論時のコンピュートをサポートするためにファインチューニングのレイヤーで行われている多くのテクニックがあり、それらは事前学習に戻ることができるということです。なぜなら現実には、「ここにインターネット全体があります」というのは事前学習を行う最も効率的な方法ではないからです。私たちが学んだ最大のことは、強化学習中のデータの質、推論時の思考連鎖のためのデータの質が他の何よりも大きな影響を与えているということです。
だから実際に事前学習サイクルに戻るとしたら、「インターネットを見て何かを学んだら教えて」と言うのではなく、バートがパリに3ヶ月行って、最後に突然「フランス語を話せる」と言ったシンプソンズのエピソードのようになるでしょう。それが大規模言語モデルの訓練方法です。そしてそれは変わると思います。それは質の高い合成データセットを作り、事前学習を行う方法を見つけることになると思います。だから私たちは行きつ戻りつを続け、事前学習は終わったと宣言し、そして突然良いことをして、「いや、みんな事前学習しよう」となるでしょう。行きつ戻りつを繰り返すのです。だから事前学習はどこにも行きません。
いくつか反応させてください。特に感情面、ユーモア、特性についてですが、それは事前学習ではありません。それはすべて事前学習後のアライメント(調整)の中でモデルに組み込まれています。本当に、モデルがそれを上手くやっていると言いたいなら、それは10倍長く事前学習したからではないと思います。それはモデルのアライメントによるものです。だから、もし本当に事前学習に10倍のコストをかけたなら、それは価値があったとは思えませんが、クリス、あなたが言うように事前学習は変わると思います。
私が事前学習は終わったと言うとき、より多くのデータを投入し、パフォーマンスが上がるまでより多くのコストをかけるという方法は終わったと思います。事前学習の方法をより賢くすることには完全に同意します。近い将来、ベースモデルはパフォーマンスの観点からはどうでもよくなる商品のようになると思います。特に信頼性と透明性の面で、パフォーマンスを向上させなければ、それが他のベースモデルと差別化する要素になると思います。ベースモデルのライセンスも別の例です。
今は正しいモデルサイズを選び、すべての革新はアライメント側で起きています。コストやその他の基準を満たすお気に入りのベースモデルを選び、その上にアライメント技術を適用して、本当にニーズを満たし、推進するのです。
同意する部分としない部分があります。その理由として、あなたは気にしない…気にするまでは。私が言いたいのは、現時点ではベースモデルは商品化されており、推論時のコンピュートが最も重要なもので、そこから多くの価値を得ることができます。そしてその価値が少し低下する時点が来て、「より良いベースモデルが必要だ」となります。そして突然、私たちは皆サッカー場の子供のように、フィールドの反対側に走り出します。そして「ああ、事前学習モデルがあれば、1パーセントポイント余分に得られる」などと言うでしょう。
私たちはそちらに走り、「おお、ツールだ!ツールが重要なのだ」と言います。もちろんエージェントについても言及します。「最高のツールがモデルを作る」となり、「推論時のコンピュートは終わった、ツールが最も重要だ」と言います。そしてそちらに走ります。そして実際には、物事から物事へと最適化を繰り返すことになります。これは前にもやったことがあります。そして楽しいでしょうが、これらすべてが重要なのです。
現在のベースモデルを商品としてさらに一歩進めると、アーキテクチャにおいてより多くの革新が見られることが示されると思います。新しいアーキテクチャを事前学習する必要がありますが、より効率的なモデルをどのように得るかという議論の中で、ミクスチャー・オブ・エキスパーツがアーキテクチャとして重要になってきています。より広範な効率性とコストあたりのパフォーマンスを最大化する点で、人々はこの商品化から抜け出す方法を見つけようとして、アーキテクチャの改良を推進する方法を見つけようとしています。
しかし、その話は「他の誰よりも10倍長く訓練した新しいアーキテクチャがあり、それがモデルが特別である理由だ」というものではないでしょう。それは「より効率的で強力な新しいアーキテクチャを考案し、それを使ってモデルの本当のパフォーマンスを与える高度なアライメントを行う」というものでしょう。
これが起きているのを見ると、誰もが最初に考えるのは「世界中で行われているコンピュート構築はどうなるのか、それは脅威にさらされているのか」ということです。しかし、すべての株が急上昇するようなことは起きませんでした。そしてそれは、テスト時と推論時のコンピュートの機会によるものだと思います。OpenAIの元研究リーダーの一人でさえ、2025年にはコンピュートを使う最適な方法は事前学習をできるだけスケールアップすることではなく、推論にあり、そこで進歩が起こるだろうと話しているのを見ました。
私たちはその旅のまだ初期段階にいると知っています。IBMがつい数日前にリリースを行い、その旅を始めたところです。その道をできるだけ進むまでの間、これはどのように見えるでしょうか?人々は何を探求するのでしょうか?チャンスは何でしょうか?これを1週間考えさせて戻ってくるだけでしょうか?それともう少し洗練されたものになるのでしょうか?
トップレベルで考えるべきことは、私たちはコストを通過させるモデルを持っているということです。モデルプロバイダーが高いパフォーマンスを得るために固定費に多額のお金を使う代わりに、モデルプロバイダーはそれを通過させて「モデルをホストして欲しいパフォーマンスが得られるまで支払うか、エンドポイントを通じて支払うが、払い続ければいい」と言うことができます。そしてそのパフォーマンスがすべて必要なければ、少なく支払えばいいのです。
そして私はそれがより効率的な市場に近づくと思います。タスクが要求するものに対して支払うのであって、月々X円の固定サブスクリプションに縛られるのではありません。そしてより柔軟な価格設定が見られると思います。Anthropicの3.7ですでにそれを見ました。そこでは特定のタスクにどれだけ考える時間を与えたいかに基づいて、異なるコストパラメータを設定できます。
そして私はそれが続くと思います。すべてが「それはあなたにとってどれだけの価値があるのか?」というようになります。オークション設定まで行くかどうかはわかりませんが、生成AIから経済的価値を得る点でより効率的になると思います。あなたは何かの価値に対して支払うことになります。
クリス、質問として、これらのツールのエンドユーザーとして、いつ速い回答が欲しいか、いつ推論を使いたいか、いつ検索を使いたいかを決めることができるのは、人々が展開している重要なことになってきています。そして私はそれぞれをいつ使うかを決めることができます。アプリケーション開発者として、モデルに可能な限り低コストで正しい答えを早く出してほしい場合、これらのトレードオフをどのように考えますか?
次の増分的な利益の多くが、以前のようにベースモデルを通じてではなく、推論モデルを通じて行われることに満足していますか?ユーザー体験について考えるとき、それはより複雑になりますか?「以前は速く答えが得られたが、今は答えが即座に来ることもあれば、モデルが5分間考えてから戻ってくることもある」というように。開発者コミュニティがこれらのツールを採用し始めるとき、彼らはこれらがますます推論に移行することに満足していますか?それはアプリケーションにこれらを組み込むことをより難しくしますか?
すべてはトレードオフだと思います。そして実際にケイトのアナロジーが好きです。以前にこれについてビデオを作りましたが、私たちはエージェントマーケットプレイスに移行すると思います。それが最も重要なことでしょう。Fiverrのように「5ドル払うからビデオを編集してほしい」「コードを書いてほしい」と言うのと同じように、エージェントの世界でも同じになると思います。
もし文書を翻訳する必要があり、5分以内に完了させる必要があるなら、世界最高のモデルでも5分以内にできなければ、私は気にしません。リアルタイム翻訳をする場合、私はモスクワにいて、リアルタイムで私の言葉をロシア語に翻訳する人がいました。彼はいくら考えても、聴衆は翻訳を待っているのです。だからリアルタイム性が重要になる場合があると思います。それはコーディングでも同じです。
しかし同時に、正確性も重要です。翻訳のシナリオでも、もしその人が理解できなくて私の言葉をでっち上げたら、リアルタイムであっても、ただのでたらめを言っているだけで誰の役にも立ちません。だから、速くて正確で安く、大きくて時間がかかり高価なものと同じ仕事ができるなら、それが勝つでしょう。それは単なる市場力学です。
しかし何か本当に重要なことであれば、例えば深い研究を行い、ある化学化合物を発見する必要があるとき、今日の10億パラメータのモデルが考えずに適当に推測するなら、その結果に満足しないでしょう。それはタスク、どれだけの努力と思考とツールなどを使うかのバランスになりますが、それは市場力学になり、レイテンシー、コスト、そして必要な知性のレベルになります。
これは再び、なぜ事前学習が消えないと思うかという点に戻ります。ベースモデルでエッジを得ることができれば、推論時のコンピュート、ツールの組み合わせでよりよく推論できるなら、それがそのシナリオでエッジを与えるかもしれません。そして各企業はエッジを持つための競争をしています。エッジのための競争がなければ、なぜ私たちは常にベンチマークを発表しているのでしょうか?「これはこれより良い」と気にしないでしょう。これらの力学は続くと思います。
開発の場合に戻ると、元の質問に戻って申し訳ありません。VSコード環境にいて、オートコンプリートをしているなら、それは速い必要があります。しかし、プログラム全体、ゲーム全体を書いたり、移行をしたりする場合、モデルが5分、10分かかっても、それが2週間かかるものであれば、私はその時間を待ちます。特に正確であれば。10分待って完全に間違っていれば、私は待ちません。これが私が見る市場力学です。
クリスから二つの興味深い点があります。コストを「いくら支払う必要があるか」と考えることができますが、レイテンシーのコストも考慮する必要があります。これは人々が市場に参入し、「これは私にとって何の価値があるか?どれくらい待てるか?どのようなパフォーマンスが必要か?」を考える上で重要な第三の次元です。これら3つの組み合わせがモデル選択を決定します。
しかし、私たちが生成AIで構築してきた経験を考えると、過去2年半で行ってきたことはすべてチャット、即時応答に基づいています。今、より良い結果を得るために待つ理由があるので、会話のために待つことは意味がありません。誰もそうしないでしょう。しかし今、待つ理由があるので、生成AIで全く新しいものが構築されると思います。瞬時の応答を必要としないパターンや物事を見つける動機ができたので、それらが突然範囲内に入ってきます。
これが実際にどのように結びつき、人々がどのように消費するかについて興味があります。OpenAIでは、インターフェースを開いてモデル選択を見ると、「このショーを毎日聞いていなければ、どれを使うべきか推測できるだろうか」という冗談のようなものがあります。彼らはロードマップの一部として、これらをまとめることを明確にしています。質問をすれば、モデルが自動的にどれを組み合わせるか知っているようになります。
市場が理解している基準の観点からベンチマークを破ることができないなら、推論を持たないベースモデルを出荷する目的は何でしょうか?それは最後の推論モデルよりもパフォーマンスが低くなるでしょう。私が考えたのは、推論が付いていないベースモデルを持つことの終わりに近づいているのかということです。将来はすべてが単一のモデルに統合され、モデル自体が推論を使うか即座に答えるかを決定するようになるのでしょうか?
それとも、これらの異なるクラスのモデルが続き、それぞれが個別のことを行う可能性があるのでしょうか?その空間でどれくらいの収束が起こると思いますか?ケイト、あなたの最初の考えをお願いします。
いくつかのことがあります。OpenAIが推論なしのモデルをリリースしたのは間違いではないと思います。ただ、コストがかかる大きなモデルをリリースしたのは時間の無駄、お金の無駄だったと思います。推論が実際に役立たないユースケースがたくさんあります。ツールコールのようなものや、非常に明確な構造化パターンがあり、その特定のことに微調整したいような場合、必ずしも推論を必要としません。
しかしそれはほとんど重要ではないと思います。推論モデルと非推論モデルを持つでしょうか?なぜなら、モデルとは何でしょうか?OpenAIのそれらのモデルは本当に個々のモデルなのか、すでに複数のモデルにルーティングされているのか?異なるタスクのために予約されたエキスパートがあるのか?モデルとは何かという私たちの定義は、これを結びつける新しく賢い方法を見つける中で、流動的で進化し続けると思います。
しかし、より指示ベースの能力と推論ベースの能力、そしてタスクが要求するものに応じて行き来する能力が常に必要だと思います。そして私はそれに同意します、ケイト。以前使ったこのアナロジーをどうしても考えずにはいられません。私たちが働く会社には皮肉なことですが、これらの大型メインフレームがありました。
現在の世界はどうでしょうか?ポケットにコンピュータがあり、モバイルフォン、ラップトップにあり、アーキテクチャ的にはすべて分散しています。マイクロサービスがあり、それらはすべて通信し、専門のタスクを持ち、それらの間には良いバスがあります。将来を考えると、モデルはますます小さくなると思います。それらは蒸留されるでしょう。
そのような大きなモデルを持つことの目的は、それを蒸留に使うことだったのでしょう。そしてGPT-4.5アーキテクチャ、そして将来的にはGPT-5に基づいた本当に良い推論モデル、非常に良いベースモデルを見ることになるでしょう。それがその目的だと思いますし、ハイプサイクルを継続させることでもあります。しかし、私たちはマイクロサービスベースの世界に行くことになると思います。メインフレームから分散コンピューティングに移行したように。
生成AIでも全く同じことが起こると思います。なぜなら、電話で何か速いものが必要で、モデルが能力を持ち、GPT-3モデルができたことを数億のパラメータで電話上でできるなら、それをリアルタイムでやりましょう。もう少し推論が必要なら、より大きなモデルが必要なら、より大きなコンピュートを使うかもしれません。
そして現在はそのルーティングにミクスチャー・オブ・エキスパーツを使用していますが、ネットワーク速度が速くなり、チップが速くなるにつれてレイテンシーが速くなると、何かのメッシュ全体でそれを行わないでしょうか?そうすると、大きなモデルを持ち分割するミクスチャー・オブ・エキスパーツを使うのではなく、人間のように互いに通信する真のエキスパートとなる真に分離されたAIを持つことになります。その拡大が来ると思います。
これは再びクリスの意見ですが、2025年のことではないかもしれませんが、2026年、2027年を見ると、「大きなモデルの時代は終わったのか?推論時のコンピュートの時代は終わったのか?」と言うようになると思います。メッシュが必要で、単一のモデルは死んだと。それが来ると確信しています。
わかりました。今日から12か月後、クリス、私たちはメッシュネットワークについての緊急ポッドキャストを行いましょう。それは良い終わり方だと思います。クリス、ケイト、参加してくれてありがとう。これは明らかに業界が長い間結果を待っていたトピックでした。ある意味では、答えるよりも多くの質問を投げかけたように感じますが、それは私たちがさらに12か月ポッドキャストを続けられるということで良いことです。参加してくれてありがとう。いつものように、ミクスチャー・オブ・エキスパーツはあらゆるポッドキャストプラットフォームで見つけることができます。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました