OpenAIが発表したGPT-5の性能を徹底検証する動画である。プラネット生成、ビジネス推論、迷路解法の3つのテストを実施し、従来のモデルと比較して大幅な性能向上を確認した。特に3Dプラネットの生成では雲の動きや地形の詳細表現で卓越した結果を示し、ビジネス分析では人間的な洞察と有用性を発揮した。迷路テストでも50×50の大規模な迷路でほぼ完璧な解答を示すなど、既存のテストが限界に達するレベルの性能を実証している。

GPT-5の登場とチャンネル1周年記念
みなさん、こんにちは!フィーチャークルーへようこそや。今日はめっちゃ興奮する日やで。ずっと待ってたんやけど、ついにGPT-5がリリースされたんや。しかもちょうど我々のチャンネルの1周年記念日と重なってん。ほんま最高のタイミングやわ。
OpenAIは、これが史上最も賢いモデルで、世界最高のモデルやって主張してるんや。せやから我々も実際にテストしてみて、それが本当かどうか確かめてみるで。
ChatGPTアプリを最新版にアップデートしたら、モデル選択肢が一つしかないねん。GPT-5だけや。他のモデルを見てみたら、思考モードっちゅうのがあるねん。これを使ったら、もっと難しい質問にも答えられるし、長い回答も出せるんや。今回のテストではこれをメインで使うつもりや。
プラネットテスト:驚異的な初回結果
まずはチャンネルでお馴染みのプラネットテストから始めるで。Three.jsで手続き的に惑星を生成してもらうんや。これは長いプロンプトで、チャンネルの常連視聴者なら知ってるやろ。我々が求めてるのは、手続き的に生成されたリアルな見た目の惑星や。特に大気と雲に注目するで。これまでの最前線モデルがみんな苦労してきた部分やからな。
思考モードをオンにしてるから、ほんまにええ回答を期待してるで。API使ったら好き放題できるけど、我々は一般ユーザーが使うようにクライアントでテストしたいねん。システムプロンプトもちゃんと入れて、みんなが使う環境に近づけたいからな。
ちなみに、クリスがいてへんのは病院におるからや。悪い意味やないで。奥さんが第二子を出産予定で立ち会ってるねん。めっちゃ嬉しいことやで。クリスは子育ての都合がつき次第、チャンネルに戻ってくる予定や。
さて、回答が返ってきたで。クライアント上でレンダリングしてみるけど、過去にちょっと問題があったことがあるねん。うまくいかんかったら、我々のツールに持っていくわ。Canvasで実行したときに変なバグが出たことがあるけど、普通のHTMLファイルとして読み込んだら問題なく動いたからな。
おお、これは非常にええ初回結果やな!これまで見た中でも最高クラスやで。間違いなく初回としては最高や。大気もちゃんとできてるし、雲もある。雲は動いてるんや。雲をよく見てみ、超接近はできへんけど、雲が動きながら形を変えてるのが分かるやろ。これまでにこんなん見たことないで、少なくとも何回もは見てへんわ。
バイオームの作り方も気に入ったで。水が多い地域があって、湖みたいになってるねん。山がはっきり分かる地域もあるし、地形の色もバイオームによって変えてくれてる。スムージングも面白い処理をしてくれてるな。ほんまにええ初回結果やわ。
極地を見て、ピンチング現象が起きてるかチェックしてみよか。どこにも見当たらへんな。素晴らしい土台ができたで。今度はどこまで押し上げられるか見てみよう。どれくらいリアルに見せられるかな。惑星の画像を渡して、フィードバックもあげて、もっとコントロールできるようにお願いしてみるわ。
機能拡張とクラウドシステムの改良
フィードバックを入力したで。ディランが前に言ったように、もっとズーム機能が欲しいねん。スライダーももっと欲しい。雲の覆い、大気の高さ、雲の高さをコントロールできるようにして欲しいんや。もっとリアルな惑星の間隔を設定できるようにしたいからな。それに、出力画像を見てもらったから、地形全体の改良もしてもらいたいねん。
さて、送信したから、完了したら戻ってくるで。
回答が返ってきたけど、Canvasでまた問題が起きたわ。Canvasはどのモデルをテストしても常にトゲになるねん。せやからCanvasから引っ張り出したで。前と同じファイルで、同じフィードバックや。読み込んでみて、何をしてくれたか見てみよう。
面白いな。雲の覆いが付いたで。これで雲の覆いが増えるねん。雲の高さもや。大気圏の高さも増やせるねん。確かにリクエストに応えてくれたけど、問題は雲レイヤーに加えて、地形にも雲を配置してしもたことや。近くまでズームできるようになったけど、ノイズが全部めちゃくちゃになってしもた。
地形に何をしたかのスクリーンショットを渡して、修正してもらえるか見てみよう。でも、実際の機能リクエストには全部応えてくれたのはええことや。ちゃんと実行してくれたしな。我々の曖昧なオープンエンドなセクションを受け取って、間違った方向に走ってしもただけや。
今ある状況を踏まえて、地形改良に集中したパスをお願いしてみるで。何をまとめてくれるか見てみよう。
よし、地形が悪いって言ったんや。とげとげしすぎるし、バイオームの色付けも失くなってしもたって。ちょっと考えてから、たくさんのトークンを使って回答してくれたから、上の部分を実行してみるで。
おお、これは良くなったな!それに我々には、おお、これは大丈夫や。これはずっと良くなった。設定がたくさんもらえたで。地形は見えへんけど、エラーがあるんかな?エラーをチェックしてみよう。
WebGLエラーが出てるな。このエラーを素早く渡して、修正してもらえるか見てみよう。普段より多くのことを一つのプロンプトで要求してるから、疑いの余地を与えてもええやろ。
30秒ほど考えてから、そのエラーの修正に直接取り掛かったで。修正できたか見てみよう。
おお、これは、うわあ!ズームインしてみ。おお、見てみ!今度はめっちゃええやん。これまで見た中で断然最高やわ。ほんまにええで。
ズームインしたら見えるやろ。おお、そうや。雲が動いてるのが見えるで。雲の見た目もめっちゃええ。一通り見て回ろうか?
雲から始めよう。雲はこの間あんまり変わってへんねん。雲の高さスライダーをお願いしただけやから。雲の速度を上げたら、雲がアニメーションしてるのがはっきり分かるで。動いてるねん。これはまさに雲がどう見えるかや。空撮して速度を上げたらこんな感じになるねん。超印象的やで。
カバレッジも、大気の中に出たり入ったりできるやろ。我々のプロンプトはもっとコントロールをくれっちゅうことやったから、海を大気より高くするとかもできるけど、それはプロンプト通りの意図的なもんや。
雲をオフにできるで。そしたら他の機能の利点もチェックできるからな。これで水がほんまによく見えるようになって、水に実装されたシェーダーも見えるねん。シェーダーは深度を考慮してる。どれくらいの水を通して見てるかってことやな。
実際の惑星が見え始めて、水が入ってきて洪水みたいに上に重なってくんや。これは素晴らしいで。全部上げたら、峰だけが見えることになるねん。めっちゃクールやし、海底も少し透けて見えるやろ。これがシェーダーの働きや。
ここで見れるのはほんまにクールやし、素晴らしい仕事をしてくれたで。地形自体もええ感じやと思うで。標高の振幅をいじったら、もっととがった峰になるねん。ゼロにしたら平らになるで。大陸スケールも、おお、これは見てて素晴らしいな。
プロンプトにMinecraft洞窟と崖スタイルの地形をお願いしたんや。普通、モデルは完全に無視するねんけどな。大陸スケールを見たら、Minecraftで峰と谷って呼ばれる山があるねん。実際にMinecraftが地形生成で使ってる概念と同じものを使ってるけど、テラスステップとテラスストレングスがあるねん。つまり、Minecraftのアプローチの上に独自のソースを少し加えてるってことや。素晴らしいで。
ディランがスライダーをいじってる間に、得られる地形のバラエティの豊富さが見えるやろ。山をもっと山らしくすることもできるで。ほんまに印象的やな。これはめっちゃ印象的な結果や。これは間違いなく、いや、これまで見た中で最高やって言うたるわ。
そうや、断然これまで見た中で最高や。実装の仕方も含めてな。最近見てきたのは、モデルが良くなるにつれて、このテストで少し退化が起きてたんや。惑星を実際に生成するのに、もっと高度な技術を使い始めたからやった。GPT-5はその天井を突き破ったみたいやな。高度な技術を使いこなせるようになってる。
これのほとんどはGPU上で起きてるねん。地形の高さには頂点変位を使って、実際のメッシュには頂点カラーリングを使ってる。それから水、大気、雲にはシェーダーを使ってるねん。これは難しいんや。人間がやるのも難しいし、言語モデルがやるのも難しい。それが突破して、これらの戦略を同時に使って、ほんまにええものをまとめ上げてるのを見るのは素晴らしいで。
これを視野に入れると、3ショットでこんなに印象的なものができたんやで。これはまた、プロ版モデルやないねん。これは思考版やから、プラスサブスクリプションは必要やけど、今日から利用できるし、無料版でも何らかのGPT-5が使えるねん。これが今のベースラインやから、かなり印象的やで。他のモデルは全部廃止って感じやな。ちょっとしたステップアップになったで。我々はこれにほんまに満足してる。
チャレンジモード:一人称視点への挑戦
ほんまにええ回応に対して時々やるチャレンジモードをやってみたいねん。これが成功するとは必ずしも期待してへんけど、一人称視点で惑星に降ろしてもらって、地形と表面を一人称で相互作用できるものでいっぱいにしてもらうんや。木、岩、その他のプロップとかな。
またチャレンジモードや。この挑戦でこれまで見た中で最高の結果は既に出してるけど、どこまで押し上げられるか見てみたいねん。
おお、前に見たことがある問題にぶつかったみたいやな。スケールが確実におかしいし、プロップが実際には回転する惑星に親子関係で結び付けられてへん。でもインベントリはあるで。
プロップはただそこにあるだけや。めっちゃでかいけど、でも近いねん。でもプロンプトへの順守はしてくれた。他のモデルと違って、他のものを全部吹き飛ばすことはせえへんかった。スライダーは全部まだ見えるし、上に飛んでも、右上で木や岩を集めてるのが見えるやろ。
もう何回かプロンプトをあげたら、これでも何かできるかもしれへん。でも今のままでは、残念ながらチャレンジモードは完全にクリアできてへん。でもこれまで見た中で最も近いで。惑星を保持してくれたし、それはでかいやろ。このような文脈的世界認識、毎回近づいてきてるねん。その片鱗が見え始めてる。
これはオープンソースにするで。もう何ターンかあげて修正を試してみたかったら、ぜひやってみてくれ。約1年前に初めてこのテストを実行したとき、チャレンジモード前に得られた最終結果が、理想的な結果として頭に描いてたもんやったんや。
そうやな。我々のテストを破綻させ始めてるって感じや。内部で新しいテストを作る必要があるって話をしてきたんやけど、それを感じ始めてるし、GPT-5でほんまにその感覚を持ったで。コーディングでは素晴らしい結果やった。今度はビジネス推論に移って、どう持ち堪えるか見てみよう。
ビジネス推論テスト:情報検索段階
ビジネス推論テストの最初の部分をやってるとこや。これは情報検索段階やけど、今度は最新のモデルとベンチマークを全部取得するように特別に頼んでるねん。できるだけたくさんのベンチマークデータを取得するように含めたんや。モデルが時々これで苦労することが多いのが分かってるからな。一つのベンチマークを見つけて、それに過度に重点を置いたりするねん。
次の部分はその情報を取って統合することや。これを送信してから、最新モデルの検索において、どれくらいうまくやったかを見てみよう。
回答が返ってきた。かなりしっかりした仕事をしてくれたで。この段階で我々が通常求めるのは、最新モデルを全部見つけられるかってことや。インターネットを調査して、最新モデルを全部見つけられるかな?ベンチマークもプッシュしてみたんや。過去に苦労したことがあるからな。時々、モデルがベンチマークで返答すらしてくれへんこともあるねん。
ここにあるのはかなり包括的な回答や。他の最新のオープンモデル、QwQ 20Bと12Bも含めて、自分自身を見つけてくれた。これは素晴らしいで。GPT-5とオープンソースモデルは明らかに今週出たばっかりやから、確実にトレーニングデータには入ってへんかったやろ。
Googleの最新モデルも取得してくれた。スクロールしていくと、Anthropicも取得してる。Metaも取得してるから、カバーできてるわ。
この最初の部分では、ベンチマークがまばらに散らばってた。いくつかのモデルでは2、3のベンチマークを引用して、他では何もなかった。それを見逃したと気づいたみたいで、有用なベンチマークをカバーし始めた。人々が実際に気にするベンチマークはどれかってことや。スクロールを続けると、有用なベンチマーク・スコアを実際に報告する必要があるって感じに移った。
検索結果にあったものを、モデル対ベンチマークのマッピングみたいな形でダンプしてくれたんや。これまでこんなのは見たことがない。これは人間らしくなり始めてる感じやな。プロンプトを超えて行き始めてるねん。プロンプトにあることは全部満たしてくれたけど、それを超えて、有用な文脈や有用な次のステップ、有用な質問を提供し始めてる。
これは人間が求めるものにもっと合致してるねん。何かをお願いするときは、それだけをお願いしてるんやない。その周辺の文脈も求めてるねん。今まで情報検索だけを見てたけど、かなりええ仕事をしてくれた。でも我々はパート2のプロンプトを続けるつもりや。
違いは、テキストベースの分析をお願いする代わりに、DeepSeekでやったようなHTMLフォームでのレポートをお願いすることやと思う。インタラクティブなレポートが見られるようにな。ChatGPT-5の発表で紹介してたから、我々が普段テキストフォームでお願いしてる能力の上に、その機能を見てみたいねん。
分析レポートの生成:HTMLレポート作成
パート2のプロンプトをセットアップしたで。どんな結果になるか見てみよう。
回答が返ってきた。OpenAIがGPT-5でやるって約束したことを、まさにやってくれたで。検索もした。コードの分析もした。複数の繰り返しで推論もした。そしてここに検討すべき大きな回答をもらったで。
チャートを作成してくれた。HTMLレポートも作成してくれた。最初の回答では抜けてたベンチマークが含まれた生データセットも作成してくれた。そのデータを取得するために16回の追加検索を実施してくれた。それから一番上に、このモデルがより有用で実際に人間を助けるものになってるっていう路線に沿って、リンクがあるねん。
全てのデータが含まれたインタラクティブHTMLレポートへのリンクと、CSVだけへのリンク、それから個別のチャートだけへのリンクもある。ベンチマークで枢軸にすることに決めたんや。HTMLレポートに切り替えて、何を生成してくれたか見てみよう。
トップにハイライトがあって、これはテキスト回答からほぼそのまま抜粋したもんや。それからこれらのチャートを全部含めてくれた。素早く見て回れるで。前に言ったように、ベンチマークそのものに枢軸を置いてる。まずSWE-Benchを示してから、HumanEvalを示してて、また異なるモデルが出てくるねん。
それからMMU、GPQA、AIME 2025も取得してくれた。AIMEが最後のベンチマークチャートや。これらは全部似たような感じやった。トップモデルのベンチマークでの性能をチャート化してくれただけや。超新規的で洞察に満ちた分析やないけど、とても有用やで。さまざまな領域でどのモデルが最高の性能を発揮してるか、スクロールして見ることができるねん。
ベンチマーク専用チャートを越えてスクロールすると、ここから時間の経過とその進歩について入ってくるねん。自分自身に焦点を当ててるのが面白いと思うで。時間の経過でOpenAIモデルだけをマッピングしてるねん。この場合はAIMEで示してて、ベンチマーク性能がどう変化してるかを伝えようとしてる。
プラトーになってるってことを示そうとしてると思うで。それからたくさんの異なるベンチマークがあるとか言い続けてる。これは未来への予測を試みてるねん。ここでの違いは、これがナイーブやって明言してることや。数学的な意味での画期的なモデルをやってるんやなくて、やってるのは「これはただのクイックパス、ナイーブな予測や」って認識することやねん。
もっと詳細なモデルでフォローアップをお願いしたら、できるはずやし、ええ人間やったらたぶんこんなことをするやろ。これは適合してるし、合理的に見えるし、これから話す物語を説明してくれるねん。完全なデータが埋め込まれてる。完全なデータセットが埋め込まれてるねん。これは付録みたいなもんやな。最後の方にあって、有用やで。
ソースも載ってる。注釈もいくつかあるし、これをCSVとしてダウンロードすることもできるねん。これは全部オープンソースにして、チェックしたかったら利用可能にするで。本当に輝いてたと思うのは、このテキスト回応を見てる時やったんや。
上の方で言ったように、リンクがあって、それから「私のソースは何やった?」って直接入ってくるねん。それから「チャートは何を言ってるん?」って直接入ってくる。この全体の分析のTL;DRが基本的にここにあるねん。これは全部かなりええと思うで。
今日指摘したいことの一つ、これはオープンソースになるから、自分でチェックしてくれ。一つ指摘したいのは、HumanEval(人類最終試験)でGroqが著しくGPT-5を上回ってるって引き出してることや。今日イーロンがこれについてツイートしてたねん。今朝のTwitterの会話やったんや。
HumanEvalはノイズが多いけど、その差は大きいって言ってる。何か合わないことに気づいたんやな。もちろん、Twitterでは、xAIファンがこれはGroqがよりスマートやってことを意味してるって提示してて、OpenAIの人たちはこれは無視しろって言ってた。明らかに真実はその中間のどこかにあるんやろ。
でもモデルがホットトピックになりそうなことに気づいてくれたのはほんまにクールやで。それから、残りのセクションでも同じような有用な分析がチャート全体を通じてある。でもそのHumanEvalの部分が一番面白かったと思うで。
視覚的な観点からの新しい要点さえ言ってるねん。前に言ったように、その意味でより人間的に感じられるねん。より有用に感じられる。これらは今、「うわあ、これは有用なアシスタントや、実際に先を考えて、実際に何かをやってくれるもんや」ってなるレベルになってる。我々がここ6ヶ月ずっとプッシュしてきたことや。
何か有用なものをくれ。何か有用なものをくれ。そして今、何か新しいものをくれ。今それが実際にモデルに組み込まれてる感じで、それは素晴らしいで。過去には、新しいものを求めても、回応は非常に表面的やったり、曖昧やったり、一般的やったりした。多くのデータセットに当てはまる可能性のある声明みたいなな。
今回はずっと具体的や。最初のポイントは「一つのモデルが全てを支配するは現実やない」や。これは賭けに出た発言やで。自分自身についてコメントしてるねん。これは我々がこの間多く作業してきたことで、異なる会社、異なるモデルが異なる領域で専門化してるってことや。GPT-5もそれに気づいて、ベンチマーク結果が異なるモデルで領域ごとにどう違うか、特定のモデルが異なることでより良い可能性があるかを話してる。
そうや。これが少なくとも人間に合致してるのが見えることで、助かるで。GPT-5がすべてを粉砕して断然最高やって盲目的に言わんのは、正しい方向への一歩や。盲目的に何かを反芻するのは絶対見たくないし、かなりのソースを示してくれて、実際にこれを見てくれ、これを認識する必要があるってはっきりしてくれてるのは素晴らしいで。
ここの2番目のポイントは、「ツールとスカフォールディングは生のIQと同じくらい重要」やって言ってて、心を打たれたで。モデルの周りに構築するシステムが、完璧な条件でのベースモデルの生のパフォーマンスと同じくらい、もしかしたらもっと重要かもしれへんって話してるねん。
これは私が職業生活でも個人生活でも布教しようとしてきたことやねん。これは一般的な見解やないねん。もちろん私は同意するから、私の検証になってると思うけど、これらは我々がこの分析で見たことのない、ずっと面白くて、ずっと微妙な見解やで。
個々に素晴らしいポイントを全部指摘して通り抜けることはしないで。これはオープンソースにするから、読み通してくれ。我々は軽く流し見を続けるで。中小企業への推奨で、階層化されたアプローチをしてくれてる。他のモデルは推奨セクションで曖昧になることが多くて、これを使えるかもしれへんとか、あれを使えるかもしれへんとか言って、特定の領域での最良の選択肢に感じられへんことがよくあるねん。
この場合、GPT-5は実際に推奨がどう機能するかのフレームワークを作ってくれたんや。「階層化推奨システムを使って、モデルを中小企業として使いたい異なる領域にバケット分けするで」って言ったんや。ティアAは高速で安価や。GPT-4o Miniについて話してる。Gemini Flashについても話してるねん。それからティアBは重厚で慎重やって感じや。これは私がモデルについて考える方法とよく似てるねん。タスクの非常に自然な区分けや。
それからモデルを超えて、「中小企業がITについてやるなら、これは現実世界の実用性のポイントで」って言うねん。ゼロから始めるグリーンフィールド推奨は素晴らしいけど、ほとんどの人は制約があるねん。我々は伝えてへんし、たくさんの情報も与えてへんけど、「この架空の中小企業はクラウドプロバイダーに既にデプロイしたものがあるかもしれへんし、クラウドプロバイダーと契約があるかもしれへんことを理解してる」って言うねん。
「せやから、クラウドプロバイダーが固定されてる場合、我々の推奨がどう変わるかもしれへんかの文脈を提供しよう」って。それがここでやってくれたことや。AWS、Google Cloud、Azureについて話してくれた。推奨も理にかなってる。また、自分でチェックできるで。プロンプトを遥かに超えて、実際に有用でデータドリブンな方法でやってくれてるねん。ソースは全部そこにあるから。
方法論についても話してくれて、これをどうやったか、利用可能な公式モデルページや技術レポートだけを使ったって言うてる。せやから、ランダムなブログ投稿やないって、ユーザーを安心させてくれてるねん。それから主要な引用が上に埋め込まれてるって言うて、夜間の生きたダッシュボードに接続することもできるって言うねん。
かなり印象的になってきたで。これは間違いなく、このテストで見た中で最も印象的な推論分析やで。惑星よりもっと印象的かもしれへんな。これは予想外の大きなステップアップやけど、驚きであるべきやないと思うで。我々のテストは全部ワンショットやから。コードベースにいる時には、もっとええ性能があるかもしれへん。
でも、ビジネス推論は、こういうアシスタントと日常的に実際にやることの範囲内やねん。せやから、実際に引用符付きでエージェンシーで有用になり始めるにつれて、かなり大きなアップグレードを見るのは当然やで。その片鱗が見え始めてるねん。
最終テスト:エージェンシック推論(迷路テスト)
素晴らしいで。最終テストに移るで。エージェンシック推論、有名な迷路テストや。ジェイコブが言ってるように、GPT-5は我々が新しいベンチマークが必要やってことを示してくれた。これらを解き始めてるからな。ツールを使ってるのを見たから、かなり自信があるけど、迷路テストをしっかりこなしてくれるか確認しよう。
迷路テストをセットアップしたで。チャンネルの常連視聴者なら、このテストを知ってるやろ。迷路テストでのトップパフォーマンスは、これまでのところ20前後、多分20代前半やねん。どう切り取るかによるけど、o3からやな。ディランが言ってるように、このテストはツール呼び出しでほぼ解決されるねん。どこまで行けるか見たいで。20を超えて成功したことはないから、25から始めるで。パフォーマンスをテストして、どこまで押し上げられるか見てみよう。
回答が返ってきたで。2分半かかった。見てる間、基本的に迷路をパスして必要に応じてツール呼び出しをやってただけやと思うで。せやから、これは楽勝でクリアするはずや。
パスが有効や。迷路がでかすぎて、画面に収まらんくらいや。でも当然、初回でクリアしてくれた。今度は50まで押し上げて、これが本当に解決済みかどうか確認するで。それが我々が把握しようとしてることやねん。
実際に本当に解決済みかもしれへんな。せやから、巨大な迷路を生成して、理論的には、ASCIIをレンダリングして実際に手にとって扱うのがかなりうまくいったから、これは、ズームアウトし始めたら人間でも難しくなるで。確実に簡単やないしな。これについて考えて、たぶんバックトラックとかもせなあかんやろ。
せやから、これをコピーして、どうやるか見に行くで。
プロンプトを貼り付けたで。めっちゃでかいねん。今回はもっと長く考えてくれた。ほぼ倍の時間や。当然やな。巨大なASCIIやから、文字列をどうレンダリングするか考える時間がかかったんやろ。実際に面白いで。倍の時間考えたけど、ボリューム、基本的には面積を4倍にしたからな。
AIパスをレンダリングしよう。一つだけ小さな失敗があるんかな?これは基本的にo1やったかo3やったかは忘れたけど、起こったことと同じや。o3やと思うで。完全に解決されてるわけやないけど、勇敢な努力をしてくれたで。全てを文字列としてコードに入れようとしてる時に、これをひっくり返してしもたんやろ。
一つだけ見逃したから、ランダムに突き抜けてるんやなくて、一つの小さなブロッカー以外は全部やってくれたのが分かるで。最後まで非常にクールや。せやから、たった一つの小さなミス。残念やな。これを再試行したら、何パーセントかはクリアするかもしれへん。
でも一つのミスで、これを解決することが可能なポイントにいるってことや。このテストが完全に解決されてるわけやないけど、我々は新しいテストについて考え始める必要があるやろ。迷路をどんどんでかくするのは面白くないねん。現実世界を反映してへんからな。
せやから、GPT-5の後で、我々が新しいテストを必要とする3つのテストのうち3つ目やで。これらのテストを楽しんでくれて、新しいテストを見たかったら、チャンネルを絶対購読してくれ。我々の成長を助けてくれるねん。1周年記念やで。AIにとって素晴らしい時期やし、みんなも参加してくれることを期待してる。
総合評価とまとめ
全体的にどう思う?
全体的に素晴らしいで。多くの人がこれをAGIや、完了や、もう誰も働かんでもええとかハイプしてるけど、これはただの非常に合理的なアップデートやと思うで。知能が全般的に向上してるみたいやな。明らかにベンチマークを最大化しようとはしてへんねん。実際により有用になってる。価格も、GPT-4oの半額やから素晴らしいで。
全般的に全てがただ良くなってる感じや。それが、全てのGPT-4モデルを削除したことで示されてるねん。今は5にスナップしてて、ただ良く見えるねん。それが我々が与えられる最良の第一印象やろ。
もっと動画を作って、実際の比較をして、これがどれくらい大きな違いかを見るつもりや。特に得意なことがあるかどうかもな。でも第一印象は、素晴らしいで。これは失敗リリースやない。トークンあたりの価値を本当に高く保ってくれてる。
そうや、我々が言ってるように、我々のテストを破綻させてるって同意するで。せやから、明らかに超印象的な性能や。ディランが仄めかしてるように、一番印象を受けたのは有用性やね。特にビジネス推論テストでやで。読者、つまり人間を理解してくれたねん。過去にモデルがやってこなかった方法でな。
その新しい能力や人間理解が他の領域でどう現れ始めるかを見るのがほんまに楽しみやで。ビジネス推論で本当に見られたから、他の場所でも現れるはずや。コメントで見たものを教えてくれ。
ここでの性能にはめっちゃ感動してるけど、このモデルでテストすることはまだまだたくさんあるねん。モデル自体が言ってたように、実際のエージェント環境でどう性能を発揮するかを見たいねん。モデルの周りに実装するツールやシステムが、モデルと同じくらい重要な場合があるからな。
せやから、エージェンシックテストでのフォローアップは絶対やるで。最近出てきた他のモデルとの比較もやると思うで。新しいClaudeモデルもあるし、オープンソースモデルもある。GPT-5は素晴らしいけど、Grok-4、Anthropicのようなものより、どれくらい先を行ってるんか?他の会社からの反応をすぐに見ることになるんか?
AIにとって非常に刺激的な時期で、今週がホットシーズンの終わりやないことを期待するで。せやから、我々の動画を全部最新の状態に保つために、チャンネルを絶対購読してくれ。気に入ったら動画にいいねもしてくれ。それから、クリスの新しい子供に幸運を祈るコメントも残してくれ。
その通りや。みんな、見てくれてありがとうな。バイバイ!


コメント