
9,176 文字
OpenAIのチーフリサーチオフィサーであるマーク・チェンが、本日リリースされる同社の最大かつ最高のモデルであるGPT-4.5について語るためにやってきました。早速始めましょう。
ようこそ、Big Technology Podcastへ。テクノロジー界とその先について冷静で細やかな会話をするショーです。今日は、OpenAIのチーフリサーチオフィサーであるマーク・チェンをお迎えし、同社の最新リリースであるGPT-4.5について話を伺います。
マーク、お会いできて嬉しいです。ようこそ。
ありがとうございます。お招きいただき感謝します。
こちらこそありがとうございます。これは番組の4年半の歴史で初めてのOpenAIインタビューですので、これが多くの最初の一つになればと思います。このようにGPT-4.5のリリースという大きなニュースで飛び込んでくださって感謝しています。
はい、GPT-4.5は私たちの予測可能なスケーリングパラダイムにおける最新のマイルストーンを示しています。このパラダイムに適合した以前のモデルはGPT-3、3.5、4であり、これが最新のものです。前回のモデルから一桁の改善を示しており、3.5から4への飛躍に匹敵するものです。
リスナーの多くが疑問に思っているであろう質問、そして過去数ヶ月間の番組でも議論した質問は、「なぜこれはGPT-5ではないのか」ということです。GPT-5に到達するには何が必要なのでしょうか?
そうですね、GPT-5については…これらの命名を決定する際には、トレンドの感覚を保つように努めています。予測可能なスケーリングに関しては、3から3.5への移行を考えると、コンピュート量の桁違いの改善が、効率性の向上によって何をもたらすかを予測できます。このモデルは4.5にふさわしいものであると考えているので、そのように名付けました。
しかし、GPT-5がいつ登場するかについては多くの議論がありましたね。私が間違っていなければ、GPT-4と4.5の間の待機期間は、例えばGPT-3.5と4の間よりも長かったと思います。これはTwitterでOpenAIの人々が次に来るものについて大きく宣伝しているからなのか、あるいはこの業界と利用者が世界で最も焦りやすいからなのか…しかし、GPT-5に対する期待値はかなり高いように思えます。あなたの視点から見て、実際にGPT-5モデルが登場した時にこれらの期待に応えるのは難しいと思いますか?
そうは思いません。根本的な理由の一つは、現在私たちには二つの異なる軸でスケールできるからです。GPT-4.5は教師なし学習の軸に沿った最新のスケーリング実験ですが、推論という軸もあります。
4と4.5のリリース間隔が少し長くなっているように見える理由について聞かれましたが、私たちは推論パラダイムの開発にも大きく焦点を当ててきました。私たちの研究プログラムは本質的に探索的なものです。モデルをスケールするあらゆる方法を探求しており、過去1年半から2年の間に、推論を通じた新しい非常に興味深いパラダイムを見つけました。これもスケールしています。そのため、GPT-5は多くのものが一緒に集まった集大成になる可能性があります。
推論に向けた多くの取り組みについて話されましたが、もちろんO1で見てきましたし、DeepSeekについても多くの話題があります。そして今、再び伝統的なスケールアップされた大規模言語モデルであるGPT-4.5について話しています。
ここで多くの人々の心にあった大きな疑問は、AIモデルがより多くの計算能力、データ、電力を追加した場合にスケールし続けることができるかということです。あなたはこれに対する答えをお持ちのようですので、このモデルの開発から学んだスケーリングの壁について、そして私たちがそれに到達するかどうか、あるいはすでにスケーリングからの収穫逓減が見られているかどうかについてのあなたの見解をお聞かせください。
私はスケーリングについて異なる枠組みを持っています。教師なし学習に関しては、計算能力やアルゴリズムの効率性、より多くのデータなどの材料を投入したいと考えます。GPT-4.5は、スケーリングパラダイムを継続できることの証拠です。
このパラダイムは推論とも対立するものではありません。推論を構築するには知識が必要です。モデルはゼロから推論を学ぶことはできません。これら二つのパラダイムはかなり補完的であり、お互いにフィードバックループがあると考えています。
GPT-4.5は推論モデルが賢い方法とは異なる方法で賢いのです。今日のモデルを見ると、はるかに多くの世界知識を持っています。GPT-4との比較を見ると、日常的なユースケースでは人々は生産性や知識仕事において60%の割合でGPT-4よりもこれを好んでいます。ほぼ70%の好み率があり、人々は本当にこのモデルに反応しています。これは将来の推論モデルに活用できる知識です。
日常的な知識仕事について話されましたが、推論モデルよりもGPT-4.5を使いたいと思うような例はどのようなものがありますか?
推論モデルとは異なるプロファイルを持っていると言えます。より大きなモデルでは、クエリを処理し考える時間が長くなりますが、即座に応答が返ってきます。これはGPT-4が行ったことと非常に似ています。
一方、O1のようなモデルでは、クエリを出すと数分間考えることができます。これらは根本的に異なるトレードオフです。すぐに返答するが多くの思考をしないモデルと、しばらく考えてから答えを出すモデルがあります。
クリエイティブライティングなどの多くの分野では、これは今後1〜2ヶ月でテストしたいと思っていますが、このモデルが推論モデルを上回る領域があることがわかっています。
ライティング以外にも使用例はありますか?
ライティングがあり、コーディングのユースケースもあります。また、特定の科学領域では、表示できる知識量において優れていることもわかっています。
ベンチマークについてはまた後で戻りますが、多くの公の議論があったのでスケーリングの質問を続けたいと思います。OpenAIからあなたと話せることで、何が起きているのかを明らかにできるのは素晴らしいことです。
まず、人々が疑問に思っていることは、このサイズに達した場合(モデルのサイズについては話さないということは理解していますが、それは公平です)、これは今までOpenAIがリリースした中で最大のモデルであるGPT-4.5です。このサイズで同様の計算能力、同様のデータを追加すると、以前と同じリターンが得られるのか、それともこれらのリソースを追加することによるリターンがすでに減少し始めているのかについて伺いたいです。
いいえ、私たちは同じリターンを見ています。GPT-4.5が教師なし学習パラダイムの次のポイントであることを強調したいです。私たちはこれをどのように行うかについて非常に厳密です。以前に訓練したすべてのモデルに基づいて、期待されるパフォーマンスの予測を行います。この場合、スケーリングの機械を組み立て、次の桁違いの地点にあるポイントがこれです。
ここに到達するまでの道のりはどうだったのでしょうか?前回の間隔よりも長い期間があったと話しましたが、その一部は推論に焦点を当てていたためですが、OpenAIがここに到達するために何度か開始と停止を繰り返さなければならなかったという報告もあります。実際にこの段階的変化を実現するために、いくつかの難しい問題と戦わなければならなかったとのことです。そのプロセスについて少し話していただけますか?また、ここに到達するために開始と停止を繰り返し、再トレーニングする必要があったという話を確認または否定していただけますか?
実際、これがこのモデルに帰属される点として興味深いと思います。すべての基盤モデルを開発する際には、それらはすべて実験です。基盤モデルの実行にはしばしば、特定のプロセスで停止し、何が起きているかを分析し、それから実行を再開することが含まれます。これはGPT-4.5の特徴というよりも、GPT-4やOシリーズモデルでも行ってきたことです。
これらは主に実験であり、途中で診断し、介入したい場合は介入すべきです。しかし、これはGPT-4.5だけが特別に行っていることではなく、他のモデルでも行っていないわけではありません。
すでに推論と伝統的なGPTモデルについて少し話しましたが、それはDeepSeekについて考えさせます。あなたはすでに、これらのモデルと推論モデルの使い分けについて説得力のある答えを出しましたが、DeepSeekが行ったもう一つのことがあります。それはモデルをはるかに効率的にしたということです。
私があなたに「データ、計算能力、電力が必要だ」と言ったとき、あなたは「そして、人々がしばしば見落としているモデルの最適化も必要だ」とおっしゃいました。DeepSeekに戻ると、モデルの最適化、つまり知識ベース全体を照会することから、クエリをモデルの特定の部分にルーティングできる専門家の混合へと移行したことが、より効率的になるのに役立ったと言われています。
OpenAIがこの点で何をしているのか、GPT-4.5で同様の最適化を行ったのかどうか、そしてこれらの大規模モデルをより効率的に実行できるのかどうか、もしそうならばどのようにしてか、お聞かせください。
モデルを効率的に提供するプロセスは、モデルのコア機能を開発することとはかなり切り離されていると考えています。推論スタックについては多くの作業が行われています。DeepSeekはそれをうまく行いましたし、私たちもそれを多く推進しています。すべてのユーザーに安価にこれらのモデルを提供することを気にかけており、それをかなり推進しています。
これはGPT-4や推論モデルとは関係なく、常により安価に影響を与えるための圧力をかけています。時間の経過とともにそれをうまく行ってきたと思います。GPT-4を最初にリリースして以来、コストは多くの桁で下がっています。
これは質問し過ぎかもしれませんが、例えば専門家の混合への移行は、より多くの推論に関わることなのか、それともGPTにも適用できるのでしょうか?
それは言語モデルの構造的要素です。今日のほとんどすべての大規模言語モデルは専門家の混合を利用しています。それはGPT-4や4.5のような基盤モデルの効率性向上にも、推論モデルにも同様に適用されるものです。
つまり、ここでもそれを使用することができたということですか?
はい、私たちは専門家の混合や他の多くの構造的改善を探求してきました。
私たちはBig TechnologyのリスナーやリーダーグループのメンバーとのDiscordを持っていて、最近出てきたテーマの一つは、非常に大きなモデルについてあなたと話すのが興味深いことですが、Discordの人々が話し続けているテーマは、小さく特化したモデルが彼らにとって将来的にどのようになるかということです。
過去数日間に寄せられたコメントの一つを読み上げます:「私にとって将来は、ワークフローに存在するニッチなモデルと、これらの一般的な目的の神のようなモデルとは、あまり一致していません」。
明らかにOpenAIは異なる考え方を持っていますので、大規模モデルと特化型モデルの違いについてのあなたの見解をお聞きしたいです。それらは競合するものか、補完するものか、その点について考えを教えてください。
重要なことの一つは、私たちも小さなモデルを提供しているということです。フラッグシップのフロンティアモデルを提供していますが、ミニモデルも提供しています。これらはフロンティア機能またはそれに近い機能に、はるかに低いコストでアクセスできる費用効率の良い方法です。これは包括的なポートフォリオの重要な部分だと考えています。
根本的にOpenAIでは、知性のフロンティアを前進させることを目的としており、それには可能な限り最高のモデルを開発することが含まれます。私たちが動機づけられているのは、それをできるだけ押し進めることです。
知性のフロンティアには常にユースケースがあると考えています。数学で99.9パーセンタイルから世界最高になることの違いは、私たちにとって意味があります。最高の人間科学者が発見できることは、あなたや私が発見できることとは明らかに異なります。
私たちは知性のフロンティアをできる限り前進させることに動機づけられており、同時にこれらの能力をより安価にし、誰にとってもコスト効果の高い方法で提供したいと考えています。ニッチなモデルがなくなるとは考えていません。これらの基盤モデルを構築し、時間の経過とともにこれらの機能をコストで提供する方法を見つけることを望んでいます。それが常に私たちの哲学でした。知性の最後の部分には常に価値があります。
それについて話しましょう。番組ではよく議論があります。製品とモデル、どちらがより重要かという点について。私はモデル派です。金曜日に来るロナン・ロイは製品派です。彼は基本的に、今あるものを使って優先順位をつけるべきだと言い、私は優れたモデルでより多くのことができるだろうと言います。
しかし、正直に言うと、数学の99パーセンタイルから世界最高の数学に到達することで何ができるのか、言葉に詰まることがあります。あなたの答えをお聞かせください。世界最高のモデルを構築することで、何ができるようになるのでしょうか?
100%そうですね。それは変化を示していると思います。現在のモデルを取り、それらに最高のサービスを構築するというのは、常に行い探求すべきことです。3年前、それはチャットのように見えました。ChatGPTをリリースしました。今日、最高のモデルと最高の機能を取ると、それはエージェントのように見えます。
推論とエージェントは非常に密接に結びついています。良いエージェントとは何かを考えると、それは自分の後ろに座り、それ自身のことをさせ、あなたが望むものを持って戻ってくることに十分自信があるものです。推論はそのエンジンであると思います。モデルに何かを試させ、成功しなければ「なぜ成功しなかったのか、より良いアプローチは何か」と考えることができるべきです。
機能は常に変化しており、サービスはそれに応じて常に変化しています。現在の機能に最適なサービスがどのようなものかを常に探求しています。
私はあなたの味方ですが、もう一度強調するならば、モデルの改善によって何が得られるのでしょうか?それによって何が可能になると思いますか?
あらゆる形態のエージェントですね。例えばDeep Researchのようなものを見ると、興味のあるどんなトピックについても完全に形成されたレポートを得る能力が与えられます。私はそれを使って1時間のトークをまとめたこともあります。それは外にあるすべての情報を合成し、本当に整理し、教訓を考え出し、深い発見を可能にし、興味のあるほぼどんなトピックにも掘り下げることができます。
今利用できる情報と合成の量は本当に急速に進化していると感じます。
基本的には、「今持っているモデルで製品をより良くする」というだけの単純な話ではないのですね。私の理解が正しければ、あなたが表現しているのは、モデルを改善すれば製品も本質的に改善するということですね。Deep Researchを例に挙げると。
100%そうです。それはある一定レベルの能力を持つモデル、推論と基盤的な教師なし学習の両方の意味での能力がなければ実現できないものです。
興味深いのは、私の頭の中にずっとあった質問の一つは、そしてもう一度確認のために聞きますが、私の見解は恐らく誤りだったのでしょうが、あなたの業界は単にこれらの巨大なモデルから推論を持つ巨大なモデルへと移行するだけだと思っていました。しかし、あなたは実際にはここに二つの軌道があると言っているのですね。
そうです。私たちは常にフロンティアを押し進めています。5〜6年前から、それを行う主な方法はスケールを上げることでした。教師なし学習のスケールを上げ、推論のスケールを上げてきました。
同時に、ミニモデルの提供、コスト効果の高いモデルの提供にも配慮しています。それらは多くのユースケースに十分なものとなるでしょう。ミッションは単に最大で最もコストのかかるモデルを押し進めることだけではなく、それと共に人々が使用できる安価なモデルのポートフォリオを持つことです。
ここで話を切り上げる前に、4.5で見られる4と比較したアップグレードについて簡単に話しましょう。前のモデルと比較して達成するベンチマークについて、非常に高いレベルで説明していただきたいと思います。そして二つ目の質問も一緒にしますが、ブログ投稿をすでに読んでいるので、何が来るかについてある程度理解しています。
ニュースがリリースされると同時にこれを公開する予定です。あなたは言わば声明を出していると思えます。伝統的なベンチマークはありますが、純粋な知性だけでなく、このモデルがEQとどのように連携するかも測定する必要があると。ベンチマークの改善と、なぜこれらを併せて見ることが重要だと思うのかについて教えてください。
伝統的な指標、つまりGP QA、AMIなど、私たちが追跡する従来のベンチマークに沿って、これは3.5から4へのジャンプと同じレベルの一桁の改善を示しています。
ここで興味深い焦点があります。より感情空間のベンチマークに重点を置いていることです。これは強調する価値があると思います。なぜなら、モデルをリリースするたびに、興味深いユースケースが何になるかの発見プロセスがあるからです。
ここで注目すべきは、これが感情的にはるかに知的なモデルだということです。今日のブログ投稿で例を見ることができますが、困難な状況や特定の難しい状況についてのアドバイスにどのように応答するか、より感情的に知的に応答します。
これは少し馬鹿げた例かもしれませんが、以前のモデルにASCIIアートを作るよう頼むと、ほとんどうまくいきませんでした。このモデルはほぼ完璧にそれを行うことができます。改善された機能の痕跡はたくさんあり、クリエイティブライティングなどはこれを示すでしょう。
これまでに挙げた例から私が感じ取ったことの一つは、それが必ずしも各応答に「論文を書く」必要があると感じていないようだということです。あるユーザーが「私は辛い時期を過ごしている」と言うと、人間がするように簡潔に書いたのであって、伝統的な「自己ケアルーティンの3つの段落」というようなものではありませんでした。
はい、それは感情的知性を示しています。「あなたが気分が悪いことがわかりました、ここに気分を良くする5つの方法があります」というのではなく、地に足のついた思いやりのある応答が得られます。ここでは直接的で要点を抑えた、ユーザーがもっと話すように促すものを得られます。
批判が出ると予想しています。先に議論しましょう。人々は「OpenAIはこれらの伝統的なベンチマークについて話していたのに、今は感情的知性について話している。ゴールポストを移動させ、他のことに注目させようとしている」と言うでしょう。これに対するあなたの回答は?
正確な特徴付けは、期待されたベンチマークに達していないということではありません。3から3.5、4、4.5への発展を見ると、これは期待されたベンチマークに達しています。
主な点は、新しいモデルを出すたびにユースケースの発見が全てだということです。多くの意味で、GPT-4はすでに非常に賢いです。GPT-4を出したとき、期待されたすべての適切なベンチマークに達しましたが、ユーザーが何に共鳴するかが重要な質問でした。それが今日GPT-4.5でも問いかけている質問です。
初期の探索を行い、より感情的に知的であることやより良いクリエイティブライターであることがわかりましたが、あなたは何を見ますか?
マーク、私はOpenAIのすべてのリリースに関するビデオであなたを見てきました。これは収録前に話したことですが、ライブであなたと話せて良かったです。しかし、過去1年間で多くの人材がOpenAIから流出しているのを見てきました。メディアはそれを誇張しすぎているかもしれませんが、OpenAI内での働き方と、社内の人材状況をどのように見ているのか気になります。数ヶ月前にチーフリサーチオフィサーになったばかりで、今や新しい基盤モデルがあります。人材状況についての感覚を教えてください。
依然として世界クラスのAI組織だと思います。OpenAIの人材バーと他のどの企業との間にも差があると言えます。人々が去ることについては、AI業界は大きく変化します。おそらく他のどの分野よりも変化が激しいでしょう。3ヶ月前の分野は、その3ヶ月前とは異なって見えます。
AIの発展において自然なことだと思いますが、一部の人々は「これが私がAIを開発したい方法だ」という自分の考えを持ち、自分の方法を試そうとします。それは健全なことであり、内部の人々が輝く機会も与えます。私たちは内部で率先して立ち上がる人材に不足したことはなく、それをたくさん見てきました。ここにいる人材層を本当に愛しています。
素晴らしいです。皆さん、GPT-4.5は本日OpenAI Proユーザー向けにリリースされ、来週はPlus、Team、Enterprise、Eduユーザー向けにリリースされます。マーク、お会いできて嬉しかったです。時間を割いていただきありがとうございます。これからライブストリームをされるとのことで、今日時間を割いていただいて感謝しています。
こちらこそ、お時間をいただきありがとうございました。お招きいただき感謝します。
またすぐに会いましょう。皆さん、ロナンと私の議論について言及しましたが、GPT-4.5についてもっと詳しく明日の金曜日のショーでお伝えします。聞いていただきありがとうございます。マークとOpenAIにインタビューしていただきありがとうございます。また次回のBig Technology Podcastでお会いしましょう。


コメント