GPT-5リリース間近?最新の噂と完全自律エージェント、オールインワンモデルの到来

AGI・ASI
この記事は約18分で読めます。

GPT-5のリリースが間近に迫っているとの噂が高まっている。OpenAIの研究者による暗示的なツイートや業界の推測によると、2025年7月頃の発表が有力視されている。新モデルでは推論能力の大幅向上、オールインワンのマルチモーダル機能、完全自律エージェント機能の実装が期待される。パラメータ数は保守的予測で5~50兆、楽観的予測では1000兆(1クアドリリオン)に達する可能性がある。ベンチマークではSWEBenchで85%、MMLU で95%の性能を達成すると予想され、これによりコーディングと推論の分野で劇的な進歩が実現される見込みである。エージェント技術の普及により、2025年は「エージェントの年」、2026年にはエージェントの大規模展開が始まり、デジタルワークの自動化が急速に進展すると予測されている。

GPT-5リリースの兆候

GPT-5のリリースが間近に迫っているように思われます。特にインターネット上の噂を見る限り、その可能性は高まっています。OpenAIの研究者たちがTwitterで例のごとく暗示的なヒントを出しており、その一人は「Chat GPTを使っている人たちを見ていると、これから起こることを知っている身としては衝撃的です」といった趣旨の発言をしました。

GPT-5のリリースが間近であることを示しているようです。そこで今日は、現在出回っているすべての事実、数値、そして噂を検証してみましょう。

一つ申し上げておきたいのは、スライドデッキの内容はコンセンサス意見だということです。私は大量の調査を行い、それらをまとめて中庸な見解がどこにあるかを把握しようとしました。ただし、それに対して私なりの編集意見も加えます。つまり、ここにある事実や数値の一部は比較的保守的で、一部は少し突飛に思えるかもしれません。私の意見と他の人の意見の区別は明確にいたします。

今日の内容概要

今日カバーする内容は、第一にリリース日、能力、モダリティ、パラメータ数、エージェント性、ベンチマーク、訓練規模、そして最後にタイムラインです。このタイムラインが最も噂と私の意見が食い違う部分ですが、早速始めましょう。

リリース日の予測

まず最初にリリース日についてです。2025年7月が人々の見解が一致している時期のようです。7月または遅くとも8月といったところでしょう。同時に、訓練上の理由で12月まで見られないかもしれないと反論する人もいます。主要モデルリリース間の従来の約33か月の間隔を考慮してのことです。

とはいえ、今年2月にサム・アルトマンがGPT-5は4.5に続いて数か月後(数週間ではなく)にリリースされると発言しました。「数か月」というのは、1か月から2か月、あるいは12か月まで、つまり遅くとも2026年2月ということになります。

しかし同時に、噂の渦は回り続けており、確実に何かがパイプラインを通って進んでいるように思われます。個人差はあるでしょうが、これが基本的にOpenAIが最近やってきた方法です。突然、何も起こらない状態から一気にすべてが起こります。雨が降る時は必ず土砂降りです。

基本能力とベンチマーク

次に基本能力とベンチマークについてです。飽和状態です。ベンチマークについては後ほど詳しく説明しますが、全体的な見解としては、これは漸進的改善ではなく、能力における別のパラダイムシフトだということです。人間レベルの推論と信頼性を超えたものです。

推論能力の向上は明らかです。彼らは推論について実験してきており、o1 Pro、o3 Proが現在リリースされており、GPT-4oや4.5でさえ野生の環境で推論している姿が目撃されています。OpenAIが推論をすべてに組み込んでいるように見えるのは非常に興味深い傾向です。

これをどう解釈するかは人それぞれですが、私たちの中には推論が消えて潜在空間に埋め込まれるだけだと考えていた人もいました。しかし現在のところ、彼らは実際に推論を倍増させているようです。つまり、すべてのモデルが多かれ少なかれ推論モデルになるのかもしれません。

興味深いことの一つは、推論トレースの一部が短くなっているように見えることです。これは推論が再び向上していることを意味するかもしれません。これは私の意見であり、私の観察です。誰かが同意してくれるかは分かりませんが、これが私の直感です。

信頼性の課題

次に信頼性についてです。ハルシネーション(幻覚)がo3のようなモデルで著しく増加しており、ハルシネーション率が30%以上に跳ね上がっています。これはo3において特に問題となっています。o3 Proはより多くの時間を考えることと調査に費やすため、ハルシネーションが少ないと思いますが、o3バニラ版は単に作り話をしてしまいます。

労働後経済学について研究していた内容をo3に質問したところ、私がTime誌に引用されたと言いました。そこで「そのリンクを提供してもらえますか」と聞くと、「そのリンクは存在しません」と答えました。「ありがとう」という感じでした。

確実にハルシネーション問題は残っていますが、これは改善されると期待されています。私の知る限り、科学的研究を詳しく追っていませんが、なぜ推論モデルがよりハルシネーションを起こしやすいのか、実際のところ分かっていません。自己参照的思考により多くの時間を費やすからかもしれませんが、おそらく解決可能な問題でしょう。

コーディング能力の飛躍

次はコーディングについてです。サムは過去6か月ほどの多くの公開の場で、彼らの内部コーディングツールは世界最高クラスであり、さらに良くなっていると述べています。

私はさらなるツイートやリークを見てきましたが、基本的にフロンティアラボの人々が自分たちのモデルをコーディングにますます使用していると言っています。テック系の人々が自分たちのドッグフードを食べている(自社製品を使用している)のを見る時、つまりツールが十分優れているなら自分たちのツールを使うべきだという時、彼らはOpenAI、Microsoft、Googleにおいて明らかにその閾値を超えています。

すべてのトップラボが何よりもまず自分たちのツールを消費しています。正直言って、どんなテック製品を構築する時でも、それが良いものを構築したかどうか分かる方法は、自分自身がそれなしでは生きていけないものかどうかです。私たちは確実にその段階を超えており、すでにコーディングに十分優れており、コーディングにおけるすべての漸進的向上がそれをさらに良く、より強力にするフライホイール効果が起こっていると考えています。

数学とコンテキスト理解

数学もまた、改善が期待される大きな分野です。ベンチマークについてはすぐに説明しますが、コンテキストについて話しましょう。

人々は部族的知識、ニュアンスのある知識、文脈的知識をエージェントにおける最大のギャップの一つとして話しています。OpenAIはメモリの複数の層をリリースしており、プロジェクトメモリ、スクラッチパッド、チャット間のメモリなどがあります。メモリはまだ、どれほど成熟するかという点でかなり初期段階です。

しかし、GPT-5は現在のモデルやプラットフォームよりもかなり優れたメモリ管理を持つと期待されています。多くの人が、AGIは単一のモデルではなく、プラットフォーム、モデルとツール、その他すべてのアーキテクチャになることが非常に明確だと言っています。これは私が文字通り過去4、5年間認知アーキテクチャについて言ってきたことです。今は誰も認知アーキテクチャとは呼ばず、単にアーキテクチャと呼んでいます。

オールインワンモダリティ

次はオールインワンモダリティです。これは私たちが予想していたもので、画像生成がGPT-4oにネイティブに組み込まれたことを考えれば驚くべきことではありません。パイプラインを通ってくる他のすべてのものを追加すると、ネイティブな音声生成、最新の高度な音声モードでの音声の双方向ストリーミングが含まれます。これは明らかに組み込まれ、今後の標準機能になるでしょう。

次のことは音声と動画です。GPT-5はリアルタイム動画ストリーミング機能を持つでしょうか?まだそれを見ることになるかは分かりませんが、少なくともGPT-5には双方向の高品質で高忠実度な音声ストリーミング、画像処理、そして非常に可能性が高いのは動画生成と動画理解です。動画ストリーミングはまだ疑問ですが、おそらくもうすぐでしょう。

私の推測では、おそらくGPT 5.5かそのようなもので、今年末か2026年のどこかで動画ストリーミングを見ることになっても驚きません。基本的に、これがTransformerが2023年後半にNvidiaが「everything to everything」を発表して以来進んでいる方向です。

これはすべてのように見えるかもしれませんが、これはすべてではありません。3次元データ、空間データ、ロボット用の関節データです。長期的には、文字通りあらゆる形式を理解し、デジタルビットとバイトである限りあらゆる形式を出力できるオールインワンのドロイドブレインを持つことになると思います。基本的にトークン化できるものなら何でもという方向に向かっています。

パラメータ数の推測

次はパラメータ数の推測です。現在、GPT-4は約1~1.5兆パラメータと考えられています。もちろんGPT-4はモデルのファミリーで、一部は蒸留され、一部は量子化されており、一部については確信さえありません。

しかし、生のGPT-5は約1クアドリリオン(1000兆)パラメータになる可能性があると人々は期待しており、これは1000倍の跳躍です。これは私たちが見たことがないものではありません。これほど大きな跳躍を見たことがありますが、時にははるかに少ないパラメータからかなり多くの性能を絞り出すことができて驚かされたこともあります。そのため私はこれについてやや懐疑的です。

最も野心的な予測なので、これは高い端です。低い端では、10~50兆パラメータ、プラスマイナス100兆パラメータでも驚かないでしょう。1000兆またはクアドリリオンパラメータは少しばかげていると思いますが、それでも出回っている数字なので明確にしておきたかったのです。

最も保守的な予測では5~50兆パラメータと設定されており、私もそれに同意します。それは非常に合理的に思えます。OpenAIは以前私たちを驚かせましたが、パラメータ数がすべてではないことも分かっています。サム・アルトマンでさえ昨年、パラメータスケーリングの時代はすでに終わり、今は推論時計算またはテスト時計算でスケーリングしていると言いました。

完全自律エージェントの展開

完全自律エージェントについて話しましょう。OpenAIや他の企業はエージェントで明らかに実験しており、operatorからcodeexなどまでさまざまです。ちなみに、codeexを使ったことがない方は、かなり良いです。

単一のコーディングタスク、例えば「このリポジトリをクリーンアップして」「このコードを修正して」「これを行うスクリプトを書いてプルリクエストを提出して」と言うと、一般的にかなり良い結果を出します。

ただし、まだ本当に目立つ問題があります。例えば、ある時私がそれを使っていたところ、バイナリオブジェクトを作成しましたが、これはPRとして提出することが許可されていません。「これらのバイナリオブジェクトを削除してプルリクエストから取り除く必要がある」と言ったところ、「やりました」と言い続けましたが、実際にはやっていませんでした。結局、その全体を破棄して最初からやり直さなければなりませんでした。

完璧ではありませんが、第一世代のツールとしてcodeexは非常に素晴らしいです。一歩下がって見ると、私たちが期待しているのは基本的にcodeexプラスのあらゆるタスクでの性能です。ワークフロー管理、API統合、現実世界でのアクションです。

エージェント技術の進化

興味深いことに、人々はMicrosoftとの統合が継続することを期待していますが、最新の噂を見ると、OpenAIとMicrosoftの関係は悪化し続けています。スケーリング、クラウドコンピューティングなどについて意見の相違があります。同時に、お互いから得るものという点ではまだ少し調和があります。

少し話題がそれましたが、エージェント行動の軌跡を見ると、Deep Researchは彼らがリリースした最初の完全にエージェント的なツールの一つでした。それは検索ツールなので、それは理にかなっています。「XYZについて学ぶべきことをすべて学びたい」と言うと、検索して何を探すべきかについて本当に良い教育法を持っており、次のステップでそれをレポートに圧縮できます。

次にcodeexがさらに一歩進み、もちろんコンピュータ使用エージェントが次の大きなものです。コンピュータ使用エージェントはまだ本当に離陸していませんが、要約すると、GPT-5は2025年のコンピュータ使用エージェントの最高のエンジンになると予想しており、これが多くの人にとってのアハモーメントになるでしょう。

なぜなら、誰もが「コンピュータ使用は少しぼんやりした小さなもので、いくつかのことはできるが、頻繁に私のコードベース全体を削除してしまう」といったことから切り替え始めるかもしれないからです。コンピュータ使用エージェントにおけるパラダイムシフトが起こると思います。これは本当にAIが展開される次の時代の中核となるものだからです。

KVM(キーボード、ビデオ、マウス)は、人々がインターネット上でやりたい文字通りすべてのことにアクセスするための主要なAPIです。キーボード、ビデオ、マウスでできることで、キーボード、ビデオ、マウスのマスターであるAIエージェントがあれば、ビデオゲームのプレイからYouTube動画の編集、本の執筆まですべてができます。

コンピュータ使用エージェントの総獲得可能市場は計算不可能です。実際に誰かが私に連絡してきて「コンピュータ使用エージェントのTAMを把握するのを手伝ってもらえますか?」と言いました。私は「計算不可能です。世界中にコンピュータはいくつありますか?ラップトップやデスクトップの前で働く人は何人いますか?計算できません」と答えました。

そしてそれらをクラウドの仮想空間に置くと、今後数年以内に数十億のコンピュータ使用エージェントがオンラインになることを見ています。

ベンチマーク性能の予測

次はベンチマークです。明らかにベンチマークは一つのものですが、モデルがどれほど有用で使いやすいかを正確に表すことはありませんが、特にベンチマークの数が増えるにつれて目標として依然として有用です。

主要なものの一つはMMLU が約95%の精度で飽和すると予想されることです。SWEBench は32%から85%に跳ね上がると予想されており、これは基本的にOpenAIがコーディングのすべてを解決する方法を知っており、次のレベルに到達するためにはあと数回の反復だけだということを意味します。

私個人としてはこれほど大きな跳躍には懐疑的ですが、最近一つの時代から次へ、または一世代のモデルから次へという点で、これほど大きな跳躍を見てきました。可能性の範囲外ではありませんが、このサイズの跳躍は多くの人に注目させ、気づかせるでしょう。警告しなかったとは言わせません。

事実の信頼性について、ハルシネーション率は願わくば15%未満に下がることを期待しています。片手で願い、もう片方で何かをして、どちらが先に満たされるかを見てみましょう。

数学について、高度な数学ベンチマークは40~50%の精度に改善すると予想されています。それほど高くなれば素晴らしいでしょう。明らかに数学は大きなフロンティアです。なぜなら、コーディングでさえ必要としない種類の抽象的推論を必要とするからです。私個人としては、すべての数学ベンチマークを完全に飽和させることは起こる最後のことの一つかもしれないと思っています。

そしてマルチモーダルタスクについて、これは基本的により大きく複雑なタスクでの成功率です。視覚的およびクロスモーダルベンチマークは90%を見ると予想されており、統合アーキテクチャがすべてのモダリティを統合します。

このスライドデッキで見落としたのはコンテキストウィンドウです。含めなかったのは、推測の中には「64,000から256,000トークンのコンテキストウィンドウを持つ」というものがあり、「あなたたちは酔っ払っているに違いない」と思ったからです。Googleがすでに巨大なコンテキストウィンドウを解決しており、他の企業もそうしているので、100万から200万トークンは簡単にできるでしょう。

基本的に、25万トークン未満では失望するでしょうし、100万から200万トークンでも驚きません。コンセンサスに同意せず、本当にばかげたコンセンサスだと思ったので除外しました。

訓練とポスト訓練の安全性

訓練とポスト訓練の安全性について話しましょう。これはポップアップしたもので、このスライドに多くの時間は費やしませんが、基本的にNvidiaの最新かつ最高のクラスターを使用していることは当然です。

安全第一について、これはおそらく言及する価値がある唯一の部分です。これらのエージェントとモデルがますます強力になるにつれて、安全性テストにより長い時間を費やすことが期待されるかもしれません。しかし、OpenAIは安全性テストスイートを完全に自動化しており、実際には膨大な時間を節約し、モデル安全性のベストプラクティスに非常に長けていると思います。

これは「ガベージイン、ガベージアウト」のようなものです。事前訓練とポスト訓練のステップが本当に良ければ、バイオリスクや権力追求、その他すべてのものでないことを確認するためにすべてのボックスをチェックするだけです。モデルを本当に素晴らしく訓練し、最初にそれを成功させ、図面に戻る必要がなければ、実際に膨大な時間を節約できます。

機械学習で働く人なら誰でも、これは永遠に真実でした。データの品質、訓練パラメータの品質、その他すべて、それがあなたがやっていることの中心であり、最も困難な部分です。最も困難な部分その1は良いデータを得ること、最も困難な部分その2は特徴抽出や強化学習パラダイム、RL仕様です。この両方を成功させれば、残りはかなり簡単です。

タイムライン予測

最後にタイムラインについてお話しします。これは一般的なコンセンサスで、Brookings、McKinsey、MITなどの研究所から出てきているものです。これは非常に非常に保守的すぎると私は思いますし、多くの皆さんも同意してくれると思います。すべてのAI予測が持つ誤差範囲を見ると、誰もが保守的すぎました。

その限定詞をすでに述べた上で、2025年、今年の残りについて、これはエージェント展開の夜明けを期待している時期です。明らかにこれは私が年初から言ってきたこと、2025年はエージェントの年であり、それは完全に正しいことが証明されています。

2026年、インフラストラクチャのスケーリングについて、独自のエージェントを構築するのではなく、エージェントSDKがすぐに箱から出てきます。明らかに箱から利用可能なパッケージがいくつかありますが、来年までにはすべてAPIドリブンになるでしょう。

企業ワークフロー全体で10億のエージェントが展開され、市場は100~200億に成長します。10億のエージェントがあるなら、潜在的収益はもう少し高いと期待しますが、これが私が「自動化の崖」と呼ぶものです。これが私たちが向かっている自動化の崖です。

自動化の崖は基本的に、ネットワーク効果には閾値があるということです。現在エージェントはその閾値を下回っており、その閾値が表すのは能力と信頼性、価値の追加、プロダクトマーケットフィット、プライスマーケットフィットなどの一群です。その閾値を上回ると、新しい製品やサービス、ツールが新奇なものから不可欠なものへと変わるティッピングポイントに到達します。

それは基本的にほぼバイナリです。「今は遊ぶのが楽しいおもちゃだが、2026年に統合が良くなるにつれて、実際にこの製品は自分自身を売る」という点に到達すると思います。OpenAIがその先頭に立つと予想しています。

2026年がエージェントが普及する年になることを期待し、それには同意します。

2027年、自律エコシステムについて、次世代エージェント、エージェントマーク2のリリース能力、マルチエージェント協調、潜在的なAGI breakthroughsで、200億ドル市場に近づきます。これは実際に保守的すぎると思います。2026年末までにこれを見ても驚きません。

すでに多くの人がマルチエージェントフレームワークに取り組んでおり、オープンソースの趣味のマルチエージェントフレームワークに取り組んでいる人も多くいます。実際、マルチエージェントフレームワークがエージェントを使用する最良の方法のようです。OpenAI、Anthropicは最近、彼らのClaudeエージェントに多くのエージェントと協力させるという論文をリリースしました。

つまり、今年末までにマルチエージェントプラットフォームが主流になるのを見るかもしれません。繰り返しますが、これは非常に保守的すぎると思います。なぜなら、再び、その問題を解決すれば、本当に高度に自律的なエージェントを持てば、その高度に自律的なエージェントに与えることができるタスクの一つは、これらの他のエージェントを管理することです。それは一石二鳥ではなく、一石百万鳥のようなものです。

ハイブリッドチームについて、2028年、管理者の28%がエージェントが知識労働の30%を自動化するにつれてAI労働力コーディネーターを雇い、300億ドル市場に近づきます。これは2027年、遅くとも2026年から2027年に起こっています。すでにハイブリッドチームが存在しており、それがJuliaと私がFirst Movers AIで行っていることです。ハイブリッドチームを構築しており、これは今年First Moversで起こっています。この時点でこれは非常に非常に保守的です。

2029年、ガーディアンプロトコルについて、エージェントネットワークを管理するために監視AIが現れ、規制が追いつくのに苦労し、400億ドル市場に到達します。再び、コンセンサスはそこにありますが、これは2026年から2027年に来ています。実際、私は他のエージェントプラットフォームがすでに監督エージェントを構築していることを知っています。これはマルチエージェントフレームワークを持つ時のデフォルトの選択です。

私の友人でWayfound AIのCEO兼創設者は、すでに今年これを行っています。そこにある過度に保守的なタイムライン予測は、実際に何が起こっているかに実際に接続している時、単純に壮大に間違っています。

そして2030年までに、コンセンサスはエージェントがデジタルワークの標準層となり、470~700億市場でワークフローの80%を自動化するということです。2030年までには超知能になり、デジタルワークの95~98%になるでしょう。それが私の見解です。

OpenAIの人工知能段階

最後にOpenAIの人工知能の段階を簡単に見てみましょう。現在、私たちは明らかに推論者段階にいます。OpenAIのo3 proは私が研究で広範囲に使用しており、問題解決において私を上回っています。あらゆる種類の問題を与えると、比較的迅速に解決してくれます。そして私はそれを尋問して「どうやってそれをしたかを学ぶのを手伝って」と言うことができます。進むにつれて私もより賢くなっています。

私たちはレベル3エージェントの最初の段階にいます。今年末までには、誰もがレベル3にしっかりといることを確信するでしょうし、OpenAIだけでなく、OpenAI、Microsoft、Google、おそらくMetaもそうでしょう。マークは彼のクラックASIチームを作ったばかりか、構築に取り組んでいるので、今年末までにレベル4の瀬戸際にいるかもしれません。確実に2026年中には2026年のどこかで、私たちはレベル4の革新者にしっかりといると思います。

発明を支援できるAI、議論の余地はあるがすでに支援できますが、自分自身で研究目標を選択するなど、自律的に革新できるなら、それがどこにいるかと議論するかもしれませんが、まだそこにはいません。

そしてレベル5は2026年末、2027年、遅くとも2028年、私たちが進んでいるペースでは絶対に最新になるでしょう。

以上です。これで多くのことを得られたことを願います。これが私の期待であり、コンセンサスであり、コンセンサスと私が異なる部分です。それでは良い一日を。

コメント

タイトルとURLをコピーしました