
10,655 文字

そしてついに来ました。OpenAIが二つの革命的な新モデルをリリースしました。O3完全版とO4 miniです。これら二つの人工知能モデルは信じられないほど素晴らしく、最先端の技術を持っています。しかし最も良いことは、私が考えるに新しいスケーリング法則のように思えるのですが、これらのモデルが完全なツール使用能力を持っているということです。私たちはO3とO4 miniだけでなく、驚きも受け取りました。OpenAIの「あの何か」です。彼らは既に素晴らしく見える全く新しいプロジェクトを発表しました。これについては動画の最後にお話しします。
今日は、この主要なリリースを分析し、いくつかのベンチマークを見て、特に動画の最後にライブでテストを行います。最後まで視聴してください。始める前に、まだの方はチャンネル登録でサポートしていただけると嬉しいです。動画が気に入ったら登録してください。また、ニュースレターも設定しました。月曜から金曜まで平日、最高のテック関連要約と見逃せない情報を含むメールをお送りしています。時間がない方や、できるだけ早くニュースにアクセスしたい方向けです。
冒頭でお伝えした通り、昨夜はXつまりTwitterで完全に熱狂状態でした。そこではAI界の主要人物たちがO3とO4 Miniのこのリリースに注目を集めていました。それは昨夜私が翻訳した動画、つまりOpenAIの社長Greg Brockmanによる二つの推論モデルの公式発表で具体化しました。おそらく私たちは知性のレベルで閾値を超えたのかもしれません。初期のテストによると、これらのモデルは既にGemini 2.5 Proを上回っているとのことです。
これは本当に大きなことで、私が期待していました。ご存知の通り、GoogleのGemini 2.5 Proは数週間前から最高峰にありましたが、今や新しいページが開かれたようです。O3が実はAGI(汎用人工知能)であるという新しい理論も出てきました。私がここで解説するように、O3は確かに人間の99%や専門家を上回る知識と知性を持っているかもしれません。しかし、これが本当にAGIなのかどうか、この動画で検討してみましょう。
OpenAIの公式ブログ投稿を見てみましょう。「O3とO4 miniを紹介します。私たちの最も知的で、能力の高いモデルで、すべてのツールにアクセスできます」。これは非常に重要なポイントで、すぐに理由がわかるでしょう。これは初めてO4モデルを見ることになりますが、同時にO3の完全版も初めて見ることになります。ベンチマークによるとパフォーマンスはかなり信じられないほどです。
自動翻訳を適用すると「これらは私たちがこれまでにリリースした最も知的なモデルであり、好奇心旺盛なユーザーから最も先進的な研究者まで、誰もがChatGPTの能力において根本的な変化を表しています」と書かれています。これも重要で、ここでは研究について言及しています。このモデルは研究において非常に良い結果を持ち、多くの研究者が以前は達成できなかった進歩を可能にするとされています。
1-2本前の動画で、OpenAIが月額20,000ドル(はい、正しく聞こえました)のモデルを計画していると言いました。研究分野で彼らが最高のものにアクセスするための月額20,000ドルの購読です。これがそのモデルなのでしょうか?私はそうは思いません。おそらくO4について言及していたのだと思いますが、これは確認する必要があります。
彼らがライブストリーム全体を通じて強調した要素の一つは、エージェント的なツール使用能力を持っているということです。ツールとは本質的に鍵となるものです。これらのモデルの生の知性は確かに向上していますが、効果的にツールを使用できるということが、それらを本当に知的にし、人間と比較できるようにする本質的な要素です。
以前のOpenAIのOファミリー、つまりChatGPTのOmniファミリーを覚えていれば、これらのモデルはすべて最初からツール使用が可能ではありませんでした。しかし、ベンチマークによると、これらの新モデルは発売時からツール使用が可能なだけでなく、その使用に非常に優れています。
昨晩紹介された公式発表があり、そこからこれらの情報をすべて入手しています。ブログ投稿の良い補完となっています。ここではOpenAI社長のGreg Brockman、AI界とOpenAIで非常に重要な人物がこの発表を行っていました。彼はO3とO4が、本当に新しいアイデアを生成できる彼らが公開した最初のモデルだと述べています。
ご存知の通り、新しいアイデアを生成することは知性爆発に達するための前提条件です。これはAIの天才Leopold Brennerから来た概念で、彼の論文はAIの参考文献となっています。AIが自分自身で研究を始め、自己改善を行う瞬間です。そこから知性爆発が起こります。それは一気に来る指数関数的なもので、そこからAGIが出現するでしょう。すべてが加速するからです。
毎日発表があってすべてが速く進んでいると思うかもしれませんが、AGIが登場した日には何が起こるか想像してみてください。また、これらのモデルはマルチモーダルでもあると言っています。つまり、テキスト、画像、音声など、あらゆる入力を受け取ることができ、また出力としてマルチモーダルを生成できます。音声、動画、PDF、すべてを提供できるのです。
興味深いのは、OpenAIの完全に混乱した命名法に沿って、実際にはO3が最高のモデルであり、O4 miniではないということです。もちろん、O4の完全版はO3より優れていると思いますが、現時点ではO3とO4 miniがあり、O3の完全版がO4 miniより優れていることを知っておいてください。4.1が4.5より優れているというのと同様に混乱していますね。
ベンチマークを見る前に、昨晩のライブストリームからデモをお見せします。これらのモデルが実際に動いている様子はかなり印象的です。彼らがツールを反復的に使用していることに注目してください。単にツールを使用して結果を再現するだけでなく、モデルはタスクを完了するためにさまざまなツールのシリーズを試します。これは強くManusやJames Sparkを思い出させます。おそらくご存知のAIエージェントです。
「私はGreg Brockmanです。私はMarkenです。OpenAIで研究を率いています。科学的な例から始めましょう。物理学のポスターです。O3に考え始めてもらいましょう。私が提出するのは2015年、つまり10年前に行った物理学インターンシップのポスターです。このポスターまたはプロジェクトは、素粒子物理学の標準モデルを超えた陽子のアイソベクトルスカラー電荷と呼ばれる量を推定するもので、短距離相互作用の強度を示す量です。質問したときに結果がそこになかったことさえ気づかなかったのですが、彼が教えてくれました。
私のプロジェクトの文脈を思い出すのに数日、そして文献を探すのにさらに数日かかったでしょう。彼は数秒で少なくとも10の異なる論文を読まなければなりませんでした。私にとっては大きな時間節約です。素晴らしい、彼は私の結果をここに要約しています。これらの数字は正しいように見えます。彼は正規化されていないこの値があり、外挿によって推定し、この特定の定数をかけると正規化されることを理解しています。あなたはこの結果を得ていただろうと言っていますが、それはかなり近いです。私の論文では約1.2を得たと思います。
そして彼は現在の文献と比較しています。いくつかの異なる推定があり、それはかなり近いと思います。彼は私の生の値が高すぎるように見えると言っています。なぜなら正規化される必要があるからです。これは正しいです。この因子を掛けた後、最先端の結果とより一致するものが得られます。素晴らしいです。しかし彼は私の精度が最先端のものほど良くないと言っています。これは許容できます。それはインターンシップでした。私は受け入れます。これはおそらく最近の結果よりも少し不確実性が高いとはいえ、まだ合理的な推定のようです。素晴らしいではないですか?」
ここでO3に任された複雑なタスクがあり、ライブストリームではGreg Brockman、OpenAIの社長が、これらはまだ次のトークンの予測にすぎないと言っているのを見ました。彼は本当にこの種のモデルの限界にまだ全く達していないと信じているのです。また、彼らは現在2種類のスケーリングを行っていると特に強調しています。モデルの事前トレーニングは以前と同様に行われており、大規模データセンターで数ヶ月に及ぶ非常に長いトレーニングを実施し、その後、検証可能な報酬を伴う強化学習による後トレーニングを行っています。
これはチャンネルをフォローしている方なら知っているテクニックで、O3のような思考・推論モデルを作るテクニックで、すべてを変えました。しかし、ここで見たように、これらのツールを使用する能力は実際に別のスケーリング法則を構成していると思います。私たちは本当に新しい段階に入ったのです。
これを見るために、いくつかのベンチマークを見てみましょう。これらは世界で最も難しいベンチマークであることを覚えておいてください。最初はIME 2024で、これは数学のコンペティションで非常に高レベルの数学の問題です。O1は74%の精度、O3 miniは87%、O3完全版(括弧内にツールなしと記載)は91.6%、O4 miniは93.4%となっています。
通常、O4 miniはO3よりも安価で高速なバージョンであることを考慮せずとも、この時点でかなり多くのオプションがあり、少し混乱するかもしれません。現在Twitterやソーシャルメディアでは、これらのモデルが今日どのように誕生しているかについての理論が流れています。これについては動画の終わりに共有します。
また、IME 2025という新しいベンチマークもあり、数学に関するものですが、同様のトレンドが見られます。O3は88%で、O1の79.2%と比較して10%以上向上しています。O4 miniも他のすべてを上回っています。ここでは「ツールなし」という記載に注目してください。実際に彼らにツールを与えると、さらに良いパフォーマンスを示します。これは本当に驚くべきことです。
CodeForceというベンチマークを見てみましょう。これはプログラミングのベンチマークで、コーディングの能力を測るものです。有名なParelloベンチマークです。O3で起きた大きな飛躍を見てください。O3 miniの2000と比較して2706です。O4(O4 mini)はO3と同じレベルです。このベンチマークは人間も受けており、世界中の開発者をランク付けするものです。実際には1から10000人のランキングがあります。このスコアは、これら二つのモデルを世界中のコーダーのランキングでトップ200に位置づけるものです。AIが世界最高のコーダーになるまでもう少しです。その時点で、AIがあらゆる点で人間より優れていると本当に証明できるでしょう。
GPQA diamondは博士レベルの科学的質問です。O3は83%で、O3 miniの77%、O1の78%と比較して素晴らしい増加が見られます。これは劇的な増加とは言えませんが、それでも注目すべき増加です。
そして「人類最後の試験」と呼ばれる有名なベンチマークがあります。これは非常に複雑なベンチマークで、現在最高のAIでも20〜24%のスコアです。O3は20%、そしてツールを使用したO3は25%です。これは現在AIに受けさせることができる最も複雑なベンチマークです。また、深い研究(deep search)、OpenAIのDeep Research機能では26%です。この深い研究と他のAIモデルの本当の違いは、深い研究はより大きなエージェント的能力を持っており、より広範なツールの使用とより多様なツールにアクセスできるということです。
これを見て、エージェント的なツール使用について本当に熱意を持っていることを強調したいと思います。これは長い間話してきたことで、すべてを変えるものです。だからこそ、これは興味深いのです。
では、TwitterでO3とO4の起源について流れている理論を共有しましょう。この理論はOpenAIの現在のモデルについてです。このチャンネルですでに話したように、思考モデルがどのように誕生するかというと、検証可能な報酬を伴う強化学習で、彼らは非常に良い基本モデルを取り、先ほど言った強化学習を適用して思考行動を得ます。これはご理解いただけたと思います。
今出てくる疑問は、これらすべてのモデルの基本モデルは何か?どのモデルを蒸留したのか?何を使用したのか?覚えていれば、Sam Altmanは数週間前にTwitterで、ChatGPT 5は当初考えていたよりも優れたものにできることを発見したと言いました。まだリリースされていないChatGPT 5です。誰もが待ち望んでいる有名なモデルで、年末になるまで、あるいは実際にはわからないかもしれません。それが有名なAGIモデルになるでしょう。
彼は現在もChatGPT 5のトレーニングを継続していると言いました。これは本当に最も大規模なモデルで、その詳細についてはあまり情報がありません。理論としては、このChatGPT 5のトレーニングが常に行われていますが、時々休止する必要があります。その休止のたびに、彼らはその時点でのモデルを取り、チェックポイントを取得し、ベンチマークを実行します。そのたびにベンチマークは向上していきます。
彼ら自身がChatGPT 5モデルの進歩に驚いていると言っており、だからこそ非停止でトレーニングを続け、スケーリング法則に障害がないとしています。多くの人々が考えていることは、彼らがこの超大規模なChatGPT 5モデル、メガインテリジェンスのプロトタイプを持っており、限界に達するまで継続的にトレーニングしていますが、現時点ではまだ限界には達していないということです。
休止するたびに、彼らは小さなモデルを抽出し、モデルが進化するにつれて異なるチェックポイントを使用しています。そして、そのようにして中間モデル、つまりO3、O4 mini、ChatGPT 4.1などを作成しているのです。これはTwitterでかなり流通している理論で、Sam Altmanもこれを否定していません。
もし興味があれば、Twitterに来てみてください。そこでは私が最新情報をリアルタイムで共有しています。昨晩はかなり熱狂的でした。
次に、彼らはこれらのモデルのコストに焦点を当てています。これは戦いの要です。ChatGPT 4.1の発表では、ChatGPT 4 Turboよりもはるかに安価で高速でした。そして今、O3とO4 miniでも同じトレンドが見られます。彼らも同様に安価で効率的、高速です。これはOpenAIにとって非常に良いポイントです。
ベンチマークについて話しましたが、ChatGPTにアクセスすると、Plusプランであれば今日O3とO4 miniにアクセスできるはずです。非常に短いテストを行うことを提案します。深く掘り下げることが目的ではなく、それは次のVibe codingの動画のために取っておきます。私はこのAIをVibe codingでテストし、ますます複雑なアプリケーションを作りたいと思っています。Vibe codingの動画をフォローしている方なら、新しいAIごとに作れるソフトウェアの複雑さにかなりの進歩が見られると思います。
1ヶ月、2ヶ月、3ヶ月後にはどこにいるでしょうか?わかりません。チャンネル登録してぜひフォローしてください。ここにO3があります。もうMiniとは表記されていません。これが本当のO3完全版です。私がVibe codingの動画から抽出したテトリスのゲームを再現してみましょう。最初に、このモデルが正確に何をするか見てみましょう。
テトリスゲーム用に以前と同じプロンプトを貼り付けて、送信をクリックします。これがO3の結果になります。彼が考えている間に、一言。私の生徒さんなら、最近私が主要なアップデートを行ったことをご存知でしょう。現在も展開中です。リリースが止まらないので、はい、新しいアップデートを計画しています。O3、O4 miniに関する特別なコース、Vibe codingとの組み合わせ方、Voice Flowでの使用方法などを提供する予定です。AIエージェント向けのものが来ますので、サーバーの一般的なアナウンスを定期的にチェックしてください。
すでに言ったように、あなたが取得したトレーニングを常に更新しています。AIを学ぶための最高のトレーニングを提供したいからです。進化するなら、トレーニングも一緒に進化する必要があります。これはすでに2-3ヶ月前から行っていることです。
さて、O3がコードを書き始めました。彼は一般的ではないライブラリでこれを書いています。Pythonではなく、これは少し驚きです。結果を見てみましょう。一般的ではないというのは、AIにとって一般的ではないということです。もちろん、開発者であれば「そんなことないよ、この言語は毎日使っているよ」と反論しないでください。はい、それは広く使われていますが、AIにとっては一般的ではないのです。
コードが完成し、結果はこうです。うまく動作していますね。例えば、スペースバーを押すとブロックが下降する機能をコーディングしました。Vibe codingの動画を覚えていれば、私はそれを追加する必要があり、AIに追加を依頼するためにステップをやり直さなければなりませんでした。ここでは最初から実装しています。いいですね。他のAIにはなかったボタンを追加したかな?
再起動してみましょう。今のところうまく動作しています。正直言って感動しています。でも、このボタンを押した後にブロックが消えるというバグがありますね。これは何でしょう?「AIに遊ばせる」。ここでAIが自分で遊びます。AIが自分で遊んでいますが、うまく機能していないようです。「AIをトレーニングする」を押すと…なるほど、理解しました。彼が作ったのは、私がプレイしてトレーニングボタンを押すと、その後「AIに遊ばせる」をクリックすると、私のトレーニングに基づいてAIがプレイするソフトウェアです。
非常に興味深いアプローチですね。予想していなかったものです。これはO3のチェックであり、非常に興味深いアプローチだと思います。
では、ChatGPT O4 mini highに移りましょう。ここでO4をテストして、O3完全版と比較して何をするか見てみます。これは比較するのにかなり興味深いでしょう。彼がコーディングを始めました。同様にPythonを使用せず、すでに完了しています。O3よりもはるかに速く完了しました。考える時間が少なかったようですが、O3と同等かどうか見てみましょう。
プレビューをクリックすると、これが彼が作ったものです。同様のインターフェースですが、今回はより単純です。スペースバーはブロックを直接落とさず、下矢印キーを押すとブロックが速く落ちます。加速機能をコーディングしています。これはVibe codingの動画でGeminiまたはClaudeが行わなかったことです。ラインが正しく消えるか見てみましょう。はい、機能しています。
「AIをアクティベート」を押すと自動的にプレイしますが、やはりうまく機能していません。これはうまくいきません。コードを反復し、Vibe codingに移行して機能させる必要があります。リセットボタンなども設置していません。
最初の印象としては、O3完全版の方が優れていると思います。実際、かなり感動しました。コードにこれほど忠実で、最初の試みでこれだけの機能を提供するAIはあまり見たことがありません。もちろん、その後Vibe codingで改良する可能性は常にありますが、だからこそVibe codingでテストするのが本当に楽しみです。
一方では、O3とO4 miniに特化したVibe coding専用の動画を作成し、また、思考モデルに特化したコースをトレーニングで提供する予定です。先ほど見たように、これらはGemini 2.5を上回るようになりました。私の意見では、これは本当に素晴らしいものになるでしょう。そのためにも注目していてください。
動画がかなり長くなってきました。終わる前に、30秒だけいただきたいのですが、私のプロジェクトについてお話ししたいと思います。私は実生活で人工知能をマスターする方法を教えています。起業家、コンテンツクリエイター、会社員、学生、さらには退職者であっても、すべてを行うためにAIを使用する方法を教えます。このようなものを作成したり、アイデアをブレインストーミングしたり、すべてを自動化したり、書いたり、分析したりするなど、AIでは何でも想像できます。
このトレーニングでは、理論ではなく本当に力、速度、レバレッジについて話します。このトレーニングは非常に実用的なツールボックスとして設計されています。このようなデモを詳細に説明し、すべての仕組みをステップバイステップで説明します。だけでなく、グローバルな視点からAIを教えます。すべてのLLM、画像生成、動画生成、AIエージェントの最初のステップなど、すべてを見ていきます。
すでに1000人以上が参加しており、フィードバックは本当に素晴らしいです。これが私を続けさせる原動力です。ありがとうございます。リンクは動画の説明またはコメントにあります。ぜひチェックしてみてください。がっかりさせません。
OpenAIは、Codex CLIという非常に素晴らしい新機能もリリースしました。基本的にはターミナルでの境界推論です。つまり、ローカルコンピュータのコンソールやターミナルで、OpenAIによって駆動されるエージェント的コーディングです。もちろんクラウドベースのモジュールによって駆動されていますが、OpenAIがここで立ち上げるオープンソースプロジェクトです。これはCloud Codeの直接の競合です。
このようなツールを使用している方なら、Cloud Codeをご存知でしょう。これはCloud Codeとほぼ同じです。これはローカルにあるファイルを読み、ローカルにファイルを書き込みます。Vibe codingと似ていますが、より低レベルです。マルチモーダル推論、すべてのツール使用、思考などの利点を享受できますが、今ではコーディング環境と基本コードを提供できます。
これは素晴らしいことですが、注意点があります。プラットフォームリスクです。これは警告です。例えば、あなたが開発者で、プロジェクトに使用するモデルを決定する必要があるとします。OpenAIを選択すると、OpenAIがあなたが構築したものを構築するリスクがあります。これはプラットフォームリスクと呼ばれるものです。
例を挙げましょう。Vibe coding用のコーディングツールを構築するとします。突然、OpenAIがCodexであなたの方向に進出するかもしれません。確かにローカルですが、APIリクエストはクラウド上にあります。シリコンバレーから出てくるこのような話は初めてではなく、長年にわたって見られます。プラットフォームを通じてビジネスを構築した人々がいますが、プラットフォームが顧客が開発しているものを調査し、十分な利益と市場規模があれば、コンセプトをコピーして自分たちでも行うことがあります。
これにはいくつかの欠点がありますが、日常的な使用や、数千または数百万ユーロを稼ぐ企業でない場合は、これは本当に関係ありません。これはあくまでこの分野に注意を払うために私が言及したことで、すべては非常に速く動いており、AIモデルプロバイダーに注意する必要があるからです。これが私がオープンソースの大きな支持者である理由でもあります。
OpenAIの発表のかなりの部分をカバーしました。正直なところ、すべてをカバーしました。この動画がこのリリースについての理解を深め、最近のAIリリースをナビゲートするのに役立つことを願っています。これが私のチャンネルの目的です。AIモデルのリリースに関する情報で常に最新の状態を保てるようにすることです。
まだの方はチャンネル登録でサポートしていただき、「いいね」を押し、身近な人と共有していただければ幸いです。大変助かります。また、トレーニングのすべてのリンクは、動画の下のコメントまたは説明に記載されています。
これらすべてのリリースでご覧の通り、すべてが常に変化しています。トレーニングは常に更新しています。ぜひ参加してください。これは一度きりの支払いで、月額ではありません。毎月再支払いを求めるようなことはしません。チャンネルをしばらくフォローしている方ならご存知だと思いますが、私の目標はAIをできるだけ多くの人にアクセス可能にすることです。だから一度きりの支払いで、今後のアップデートについて追加の支払いは求めません。
まだ視聴していただいているなら、動画を見ていただきありがとうございます。また明日、AIに関する次の動画でお会いしましょう。
この人工知能に関する分析が興味深く、この魅力的な分野の進歩についての理解を深めたいと思われる方は、人工知能に特化した私のXページをご覧ください。そこでは、私たちの日常を変革し、未来を形作る人工知能の最新イノベーションと具体的なアプリケーションに関する詳細な分析を見つけることができます。


コメント