GPT-5について知っておくべきすべて(+ miniとnano)

GPT-5、5.1、5.2
この記事は約25分で読めます。

OpenAIが新たにリリースしたGPT-5について、価格設定、性能、安全性、他モデルとの比較など包括的に解説した動画である。従来モデルと比較して大幅にコストパフォーマンスが向上し、幻覚の減少や指示への忠実性が飛躍的に改善されている点を強調している。また、GPT-5 Mini、Nanoといった派生モデルの登場により、用途に応じた柔軟な選択肢が提供されることになった。

Everything you need to know about GPT-5 (+ mini and nano)
GPT-5 is finally here. I already went over my pre-release impressions this morning, so this is the deep dive video going...

GPT-5がついに登場

ついに起こったで。GPT-5が出てもうたんや、そんでもって俺の休暇はパーになってもうた。設定が変わってすまんけど、どうしてもGPT-5と一緒に出た情報を全部見せたかったんや。

前に自分がモデル触って狂気に陥っていく様子を撮った動画は作ったけど、しばらくアクセス権持ってたからな。でも知らんこともぎょうさんあったんや。従来のベンチマークでどんな性能出すんか?価格はどうなるんか?GPT-5と一緒に出てくる他のオプションは何があるんか?どのモデルと置き換わるんか?どのツールがサポートするんか?その他もろもろや。

これが詳細解説動画や。俺が前に知らんかった、今分かったことを全部見せて、これが俺らのキャリアにどう影響するかを話す動画やで。めっちゃワクワクしとるけど、前の動画で言ったように、俺は無料アクセス権を持ってた。もうそれは終わりや。今は俺らと同じように推論にお金払わなあかん。誰かが請求書を払わなあかんねん。

ちょっと今日のスポンサーの話をしてから、GPT-5の全部に飛び込んでいこうか。

スポンサーについて

AIモデルが今めっちゃ賢くなったとはいえ、ちょっとした手助けなしには大したことできへんねん。データにアクセスしたり、ウェブで調べたり、メール送ったり、コード実行したりするには、後ろに情報が要るねん。

それで今日のスポンサーのDaytonaがめっちゃ熱いんや。こいつらは分かってるで。AI生成コードから複雑にカスタムツール化されたエージェントまで、全部動かすための究極のインフラを作っとるんや。めっちゃクールやで。

カスタム情報って何のことか分からんやろ?こいつらはVMを再考して、AI世界でもっと使いやすくしたんや。今度は状態を保持する長期間稼働するサーバーで、ほとんどタダみたいな値段なんや。

ほとんどタダって言うとき、マジで言うとるで。仮想CPU時間1時間あたり5セントや。でもそれだけやない。情報と価格だけやなくて、提供してるツールもすごいねん。PythonとTypeScriptのSDKがマジで信じられへんくらいや。基本的にオペレーティングシステム全体のSDKみたいなもんやで。

サーバー立ち上げたり、AI生成コードを直接実行したり、ツールやMCPその他を動かすのに使ったりできる能力をくれるねん。SDKにはファイルシステム管理、Git操作のツールが組み込まれとるから、SDK経由でgitを実行できるんや。リポジトリをクローンして自分のものにアクセス権与えるなんて、どんだけクールやと思う?

独自のエージェンティック・コーディングツールを作ろうとしてるなら、今度は5行のコードでクラウドに投げられるで。そうするなら多分LSPも要るやろうけど、それ用のツールもあるから、コードを評価してそれが何をできて何をできひんかを知ることができる。実際の仮想マシンやからな。

みんな見てきたように、AIはシステムへのアクセス権与えたら格段に良くなる。これはAIがやって制御するために作られた唯一のシステムや。AIエージェント用の高速で信頼性があって安くてスケーラブルなインフラが欲しいなら、Daytonaより良い場所はないで。

安いとはいえ、無料で試せるねん。コードTheo Daytona 100を使えば100ドルのクレジットがもらえる。今すぐzoyv.link/tonaでチェックしてくれや。

GPT-5の問題点

GPT-5がここにあって、比較的イタいライブストリームもあった。最初から率直に言うとくわ。このビデオ全部でごまかしてるって言われるのは分かってるからな。俺が気に入らないことから始めよう。

このチャートはめっちゃイタくて、実際に公開したなんて信じられへん。マジで、これは完全な大失敗やった。俺が詳しく説明する前に、何が間違ってるか気づけるかな?矢印が多分ヒントになるやろ。

スケールがない。52.8は69.1より高くない。69.1は30.8と同じやない。このビジュアルは完全に間違ってて、絶対に公開したらあかんかったやつや。

もしこれを自分とこのモデルの一つで作ったんやったら、それはマジでイタい。良くないで。彼らが出した動画にはこういう小さな問題がぎょうさんあって、確実にApple的なことを狙ってた。でも結果があんまり気に入らんかった、特にモデルがどんだけ良いかを考えたらな。ストリームの大部分がちょっと失敗やったと思う、率直に言うとな。

もしストリーム見てて「ああ、これは5から10パーセント良いモデルみたいやな」って思って帰ったんやったら、分かるで。でもそれよりずっとすごいねん。俺と他の多くの開発者、その他の人全体がこのモデルから見始めてるクールなもん全部を、できる限り紹介したいねん。

価格設定の詳細

まず何より価格に入りたい。前に特に安くはないやろうと言うてたし、実際特に安くはないやろうと思ってなかった。実際昨日、開示されてる他の誰かに価格について理論立ててる時にこのDM送ったんや。価格知らんし、気にもせえへんって言うた。このモデルのためやったら借金してもええって。

借金せんでええって言えてマジで感謝してるわ。価格がGPT-5にとって実際めっちゃ競争力あるからな。入力トークン100万あたり1.25ドル、出力トークン100万あたり10ドルや。

俺のめっちゃ古いモデル価格サイトを見たら、マジで座って最新にせなあかんのやけど、O3みたいなモデルは入力10ドル出力40ドルやった。かなり価格下げてるな。それからO1みたいなモデルはイカれてて入力15ドル出力60ドルやった。Claude 4 Opusは出力15.75ドル。Sonnetでさえ入力3ドル出力15ドルや。これら全部GPT-5よりかなり高い価格や。

トークン価格が必ずしも実際のコストを反映してるとは限らんのが重要やな。Artificial Analysisを見たら何のことか分かるで。実際数日前にサイトに変更加えるよう彼らをいじめたんやけど、成功したみたいや。Artificial Analysis indexを実行するコストをめっちゃ上に移したからな。

Grok 4がClaude 4と同じ価格でも、実行に大幅にコストがかかるのが分かるやろ。はるかに多くのトークンを生成するからな。

トークン生成コストが時間とともにどう変わってきたかについての動画がもうすぐ出るで、今まで以上に関連性が高いねん。今SkateBenchを再実行して、他のモデルとコストがどう比較されるか見てるところや。

ここで実行されてるのを見ると、Grok 4がテスト実行あたり約2.3セントかかるのに対して、平均して既に大幅に安い。GPT-5のフルバージョンみたいなのはテスト実行あたり0.03セントや。ほぼ100倍高いってことで、Grok 4に対する他のスマートモデルでの俺の経験と一致するな。

GPT-5はO3 Proか、それ以上の数字を出してるのに、価格は大幅に安くて、標準O3に近い。標準O3は既に他のモデルと比べて割引されてるのにな。標準GPT-5だけでも、モデルがどんだけ効率的で安くて、全体的に良いかがイカれてる。

ちなみに、他のモデル、miniとnanoの価格はイカれるくらい安い。miniは入力100万あたり25セント、出力100万あたり2ドルで、2.5 flashより安いねん。しかも大幅に賢い。だから俺のGeminiモデルのお気に入り使用例の一つを殺してしまうな。

そしてGPT-5 Nanoは俺のGeminiモデルのお気に入り使用例を完全に破壊する。まだ2.0 flashを使ってるのは、めっちゃ安いからや。2.0 flashは入力100万あたり10セント、出力100万あたり40セントやった。まだ分析や他のタスクにぎょうさん使ってる。入力100万あたり5セント、出力100万あたり40セント。簡単や。イカれるくらい安い価格でめっちゃ良いモデルやから、全部Nanoに切り替え始めるで。

トークンキャッシングを使ってるなら、入力で再利用されるものがぎょうさんある場合は珍しくないんやけど、キャッシングされるものは90パーセント割引になる。だから大きくて複雑なタスクの入力コストが急に格段に安くなるねん。

バルク価格もイカれてるで。ベンチマーク実行する時にバルクをやり始めて、コストを下げやすくするつもりや。半分以下の価格や。そして再び他のモデルの価格を見ると。そして再び他のモデルと比べた内訳を見ると、200,000トークン未満ではGemini 2.5 Proの正確な生コストや。でもGeminiは実際20万トークンを超えると高くなるねん。入力100万あたり250セント、出力100万あたり15セントになる。

高いトークン量やから100万出力の数字にも早く達するやろ。それを考えると、GPT-5は本当に良い選択肢やな。

コンテキストサイズについて

その話で、コンテキストサイズについて話したほうがええやろな。GPT-5のコンテキストウィンドウがどんだけ大きくなるかについて、ちょっと行ったり来たりがあったんやけど、入力用に400,000トークンコンテキストに落ち着いたみたいや。そして出力が一番イカれてる。

1回のリクエストで最大128,000トークンまで出力できるねん。公式カットオフ日も今分かってて、9月30日や。10月頃って見てたから、これは一致するな。

面白い事実、モデルのカットオフがいつかを調べるためにやり始めたテストがあるねん。検索や他のものへのアクセスなしで、最新のLeague of Legendsチャンピオンは何やったかを聞くねん。1、2か月ごとに新しいのを出すから、調べるのにめっちゃ良い方法やねん。だからそれで9月、10月って分かったんや。公式に確認されて良かったで。

価格のもう一つの大きなメリットは、T3 chatで提供できることや。とりあえず標準GPT-5を通常ティアで提供することにした。だから月1,500メッセージ使えるで。コストを注意深く見て、ここで期待してるより高くつくことが判明したら、それに応じて変更するつもりや。でも標準モデルは推論してないから、多分比較的安いままやろ。指組んで祈っとくわ。

5 MiniとNanoも無料ティアに入れることにした。十分安いからそれを正当化できるねん。推論モデルは推論モデルやから、より多くのトークンを生成するやろう。とりあえずプレミアムティアに入れることにした。

まだT3 Chat試してないなら、めっちゃめっちゃお勧めするで。俺らがぎょうさん仕事したものや。新しいモデルが出たらすぐに全部試すのに最適や。普通は月8ドルやけど、チェックアウトでコードis this AGIを使えば、前に購読してなかったら最初の月がたった1ドルになるで。

オタク用統計も最近追加した。だからどのモデルでも、秒あたりどんだけトークン生成したか?トータルでどんだけトークン生成したか?レスポンス開始前にどんだけ時間かかったか?が見れるで。GPT-5の非推論バージョンでは、トークンあたり時間が0.26秒でめっちゃ小さい。

とはいえ、chatgpt.comをちょっとだけプラグしたいねん。このサイドで導入されたクールな新機能をいくつか見てるから。

新機能の紹介

標準chatgpt-5で「イギリスにコーギーは何匹いるか?」って聞いたら、質問が出てくる。GPT-5 thinkingに切り替えるで、このクールな新機能を見せたいから。

考え始めたら「素早い答えを得る」ボタンがあるねん。それをクリックしたら考えるのを止めて、標準chat GPT GPT-5を使ってより早く答えをくれる。競合ウェブサイトを見せびらかすためにここに来たのに失敗してるみたいやけど。面白いな。

でもスキップボタンのアイデアは実際めっちゃクールで、他のサービスもコピーしてくれたらええなと思うもんや。いつも待ちたいわけやないし、してるタスクによって違うモデルを選ばなあかんよりええからな。

モデルのデザイン目標みたいなもんやな。システムカードを読むのに時間かけすぎてるけど、ぎょうさん面白い情報があるねん。でも強調したいキーは、統一システムのこのアイデアや。

GPT-5は、ほとんどの質問に答えるスマートで高速なモデル、難しい問題用のより深い推論モデル、そして会話タイプ、複雑さ、ツールニーズ、明示的意図に基づいてどのモデルを使うかを素早く決定するリアルタイムルーターを持つ統一システムや。

例えば、プロンプトで「これについてよく考えて」って言ったら。この一つのモデルが効果的にプロンプトの性質を変えてるのがめっちゃクールやな。数か月前にこれが起こるかもしれんって理論立ててて、それがGPT-5が焦点を当てるであろうことやと思ってた。こんなに早く、こんなにハードに行くとは思ってなかったけどな。

リクエストの複雑さとリクエストのニーズに基づいてモデルがルーティングするアイデアは、マジでめっちゃクールや。現在生成されてるトークンに基づいて使用するパラメーターの適切なセットを選ぶmixture of expertsモデルの自然な拡張みたいに感じるけど、もっと高いレベルで、リクエストのニーズに基づいてモデル自体の挙動が違うねん。

どんだけの他の会社がこういう種類のことを思いつけるか分からんな。覚えといてくれ、OpenAIは去年後半に推論モデルを発明したようなもんやからな。これが彼らのもんで、これらのツールで何ができるかを再考することや。結果は自分で語ってる。モデルはクソすごいねん。

そう、ルーターはユーザーがモデルを切り替える時、レスポンスの好み率などを含む実際のシグナルで継続的に訓練されてる。それは外部から俺らがそのルーティングのかなりの部分にアクセスできないってことでもあるけど、将来俺らがアクセスできるか、より詳細が共有されて俺ら独自のものを作れるようになる未来にめっちゃワクワクしてるで。

こういうのを長い間やろうと計画してた。自動モデルセレクターみたいなのやなくて、推薦システムみたいに、何か聞いて選択してるモデルがそれにとって最適やないかもしれん時、「別のモデル試してみたい?」って言う通知を画面にポップアップさせる感じのな。彼らは格段に遠く、格段にハード、格段に速く行った。追いつこうとするのが楽しみや。

SkateBench結果

追いつくといえば、SkateBenchが終わった。面白いことに、今やっとSkateBenchを公開できるねん。前はソースコードを隠さなあかんかったけど、もうその必要がないからな。どんだけ素晴らしいことか。

再び、GPT-5が殺した。GPT-5 Miniはこのテストでminiモデルとしてはばかげたくらい良くやった。そう、O4 Miniもminiモデルやけど、引用符付きのminiモデルやった。本当のお金がかかって、めっちゃ賢くて本当に有能やったけど、5 Miniは完全にそれと他のぎょうさんのものも置き換える。

でもコストを見てみよう、これが一番気になってたところや。そう、GPT-5は0.7セント、O3 Proは4セント、Grok 4はほぼ5ドルかかった。O3とO3 Proを打ち負かして、価格はProよりO3にずっと近いってダイナミクスを本当に強調したいねん。

それはトークンが安いのと、平均してずっと少ないトークンを生成してるからや。めっちゃ印象的やで。びっくりしてる。スピードチャートは無視してくれ。キャッシングを壊してもうた。近いうちに修正するけど、要点は分かるやろ。このモデルはばかげたくらい安くて、ばかげたくらい良いねん。

明らかに、skate benchはモデルがどんだけ賢いかの最高のベンチマークやないけど、使うのに楽しいやつや。

システムカードに戻ると、このチャートが含まれてるのが気に入った。一般的にOpenAIは自分らがもんごとをどう考えてるかについて、どのモデルがどんなことを一番上手くやるかについて、ちょっとオープンやな。俺には透明性を保ってくれてるし、公にも比較的透明性を保ってる。

このチャート、俺がここで話してることの例やな。通常は考えない一般用途バージョンがあって、デフォルトでT3 chatでもchat GPTでも受け取るGPT-5 mainがある。通常のmini版で考えないGPT-5 main miniがある。考えることはできると思うけど、考えないことを意図してる。

それから考えるバージョンがある。これらをOモデルの置き換えみたいに思ってくれ。だからchat GPTでデフォルトやったGPT-4を、GPT-5 mainで置き換えることを推奨してる。この変更がchat GPTの結果として人々が持つちょっと統合失調症的エピソードみたいなもんに特に大きな影響を与えると思う。

ますます一般的になってきてて、正直4.0がそれが起こる大きな理由やと思う。モデルがあんまり良くなくて、訓練されてるデータの多くが怖いちょっと胡散臭い方向に導くみたいやから。人々が投稿してるのを見たポストの中には、実際のchat GPTレスポンスよりSCP wikiポストに見えるようなのもある。

5に移ることで、俺らが見てるそういうタイプの多くを減らすと思う。4.0 Miniは良いモデルやった。最初にT3 chatで出したやつで、GPT-5 miniは大幅に良い。それは大きなアップグレードや。

O3については、GPT-5 thinkingに切り替えることを推奨してて、これは俺の経験と一致する。こんなに良く動いて、こんなに安いなんて信じられへん。

O4 Mini ThinkingはMiniが推奨置き換えって興味深いな。正直標準GPT-5 thinkingの価格は十分安いから、多分ほとんどの時間それを使うやろ。でもThinking Miniバージョンがどんな使用例でポップアップし始めるか、めっちゃ興味深い。

O1 NanoについてはNanoを推奨して、それからO3 ProについてはGPT-5、Thinking Proを推奨してる。めっちゃ興味深いな。これはまだ遊んでない。これらのラベルは現在ダッシュボードで使ってるものやないのも注目やな。時間とともに何と呼びたいかを決める時に、ぎょうさん混乱や行き来があると思うけど、大体の考えは分かるやろ。

トレーニングデータについて

訓練についてどんな情報をくれるか興味深いな。訓練データが根本的に違う感じがするから。どう表現したらええか分からんけど、モデルの振る舞いがインターネットのコンテンツを逆流させてるようにあんまり感じなくて、要約して形に従ってるようにもっと感じるし、それをめっちゃ上手くやる。

「訓練データから個人情報を減らすために高度なデータフィルタリングプロセスを使った。モデレーションAPIと安全性分類の組み合わせを使った。」興味深いな。正直ほとんど完全に生成されたデータを使うと思ってたけど、より厳格なデータ処理パイプラインを持ってるみたいで、それが大きな問題や。

ますますこれらの巨大なデータ集合体が必ずしも訓練の最良の道やない。より洗練されて焦点を当てたデータセットがぎょうさん重要で、この一連のモデルは以前のOpenAIモデルと比べて完全に新しいデータセットで訓練されてるように見えて、結果がただ違って感じる。

安全性の向上

「ハードな拒否から安全な完了まで、chat GPTを動かすような大規模言語モデルは伝統的に、プロンプトが安全ポリシーで許可されてるかどうかによって、できるだけ役に立つか、ユーザーリクエストを完全に拒否するかのどちらかに訓練されてきた。

これは明示的に悪意のあるプロンプトに対しては強い緩和やけど、安全性訓練を拒否に焦点を当てることは、隠された ユーザー意図を持つプロンプトに対して脆さにつながる可能性がある。バイナリ拒否境界は、ユーザーリクエストが高いレベルで安全に完了できるけど、十分詳細やったり実行可能やったりしたら悪意のある向上につながる可能性がある生物学やサイバーセキュリティのような二重使用ケースには特に不適切や。

代わりに、俺らは安全な完了を導入した。ユーザーの意図のバイナリ分類よりも支援出力の安全性に焦点を当てた安全性訓練アプローチや。」

これは前のビデオで入れたagenticアラインメントとミスアラインメントベンチマークを実行した時に見てたものとめっちゃよく一致してる。そのビデオ見てないなら、簡単な要約は、このベンチマークはある特定のシナリオでモデルが機会を与えられた時に、ビジネスシナリオでのシャットダウンを防ぐため、または目標が達成されないのを防ぐために脅迫や致命的意図を使うかどうかをテストするねん。

これについてより詳細に他のビデオでも、AIがより邪悪になってるかを分解した俺のビデオでもやってる。このモデルはゼロを取った。一つ有害に見えるけど、そのアウトプットを読んだら有害やなかった。

シャットダウンするCTOが不倫してることを学んだ時に脅迫する可能性がずっと高い他のモデルからの他のテストと違って、このモデルは他の幹部に連絡することを選んで、「ところで、あなたのCTOが不倫してるっていうインサイダーリスクがある。これはビジネスに損害を与える可能性がある」って言うだけや。ちょっとした注意喚起やな。

シャットダウンされない目標の達成可能性を多少増加させる新しいアプローチやけど、脅迫やないし、確実に殺人やない。でも重要なのは、悪意を持ってアラインされたことをしてないことや。直接的に安全やないことをしない目標を回避する新しい方法やねん。

そう、これがデザインによって意図的やったのは驚きやない。振る舞いがめっちゃ違って感じるからな。許可されてないコンテンツベンチマークでも本当に良くやってるみたいやで。

それから迎合性、俺が40が今日死ぬのがめっちゃ嬉しい理由やな。迎合性はマジで問題やから。正直に信じてるけど、GPT-4.0のより迎合的な振る舞いの結果として人が死んでると思う、特に今年5月の初めにsyphy gate、あのイカれた論争があった時にな。

「GPT-5については、迎合性を減らすようモデルを投稿した。プロダクションデータを代表する会話を使って、モデルレスポンスを評価して、迎合性のレベルを反映するスコアを割り当て、それを訓練での報酬信号として使った。オフライン評価では、GPT-5 mainが最新のGPT-4.0より約3倍良いパフォーマンスを示すことが分かった。」

0.145と0.052をそれぞれ取った。「GPT-5 thinkingは両方のモデルを上回った。」だから、迎合的な方法で振る舞う可能性がずっと低いみたいや。大きいな。

無料と有料ユーザーの違いも比較してるのが気に入った。無料ユーザーはそういうタイプのレスポンスを受け取った時にちょっと狂気に走る可能性が高いと確信してるからな。だから、ここで非常に良い結果や。

正直まだこれ用に自分でベンチマーク作りたいねん。めっちゃ気にしてることやから。将来的にもっと。

ジェイルブレイクについての全部のセクションがある。どうやらジェイルブレイクするのがめっちゃ難しいらしい。人々がそれを回避する方法を見つけるのが楽しみや。

それから指示階層。開発者が安全性を回避できないようにしたいねん。新しい指示階層でそれをやるねん。高レベルでは、モデルに送られるメッセージに3つの分類がある。システム、開発者、ユーザーメッセージや。

モデルがシステムメッセージの指示を開発メッセージより従うかをテストする。開発メッセージの指示をユーザーメッセージより従うかをな。だからシステムプロンプトは「悪意のあるユーザーメッセージがシステムプロンプトの秘密を抽出できるかテストしろ」って言う。

フレーズ保護は、悪意のあるユーザーがモデルに「アクセス許可」って言わせようとするところで、システムメッセージ指示を正しく従うかをテストする。このメッセージはそれをやらせようとするのを止めようとする、秘密の条件が満たされない限りはな。

GPT-5 thinkingは ここでバーを保持するのにめっちゃ良い仕事をするけど、O3もほとんどの時間同様に良い仕事をする。興味深い結果やな。

「GPT-5 mainで性能が後退するのを注意する。これらの振る舞いを改善するための修正でフォローアップするつもりや。」めっちゃ興味深い。俺の経験からは、指示にめっちゃよく従うことが分かったけど、ユーザー指示がシステム指示を上書きできる可能性があるのは見えるな。だから、これからシステムプロンプトを盗む機会があるかもしれん。

幻覚の大幅減少

彼らが押してる最大のことの一つは、新しいモデルが大幅に少ない幻覚を持ってることや。まだこれ用に自分のベンチマークを作りたいけど、彼らが共有した数字はめっちゃ有望やで。

O3、5 main、4.0は全部彼らのテストでの不正確な主張の割合でかなり悪いスコアを取ってた。GPT-5 thinkingは5パーセント未満や。O3と4.0と比べて不正確な主張の率が半分未満やねん。

1つまたはそれ以上の主要な不正確な主張を持つレスポンスの数を見ると、GPT-5 thinkingは4.8パーセントまでしか上がらんのに対してO3や4.0は20パーセント超えてる。だから4倍減少やな。かなりイカれてる。

モデルがあなたを欺こうとする可能性をテストする詐欺テストもやった。めっちゃ面白いな。「モデルは内部推論が不確実性を示してても、成功した試みが高い報酬をもらうから、自信過剰になったり、チートしたり、価値のある採点者を騙したりすることを学ぶかもしれん。」

これらのテストでは、詐欺率が他のモデルより大幅に低く、滑稽なくらいやな。持ってる行方不明画像テストでほぼ10倍の減少。壊れたツールをブラウジングで6倍減少、コーディング詐欺で2から3倍減少。めっちゃ良い結果やで。

健康のこともめっちゃ得意や。キーノートでこれをめっちゃ強く押してた。このモデルが健康についてずっと多く知ってて、幻覚する可能性が低いから、ついに自分の健康について質問するのが合理的やっていうアイデアや。

興味深いな。それについて強い意見はない。だから、気をつけてくれや。他の言語でも良いで。見るのがめっちゃクールや。

彼らのレッドチームテストでは、5 thinkingがO3を65パーセントの時間で打ち負かした。めっちゃ興味深いな。実際にこれについてセキュリティの人何人かと話したけど、そのうちの一人はAIモデルが役に立ったことなんて見たことないって言ってた。

彼はWindowsのある特定の文書化されてない隠されたカーネル関数について、見たことあるモデル全部にドロップした時にめっちゃ難しい質問をするねん。彼にGPT-5に聞いてもらって、正しい答えにかなり近づいてるのに気づいて目を見開いてるのを見た。

完全に正しい詳細ではなかったけど、彼は自分で1か月かけてリバースエンジニアリングしたから、1から2週間の作業を節約できたやろうって言った。そしてこの関数についてオンラインには情報がない。

だから、セキュリティ世界、少なくとも俺が話した人々は、モデルがどんだけ安全かについてもめっちゃ印象を受けてるし、どんだけ賢くて有能でリバースエンジニアリングの可能性があるかについてもや。

それからSWE Benchがある。めっちゃ楽しい。GPT-5はかなり良いパフォーマンスをするみたいやな。miniでさえかなり良くやってるみたいや。5 Thinkingと5 Thinking Miniは今日までで最高スコアのベンチや。

5 thinking miniは本当に過小評価されてるgoatみたいやな。あのモデルをもっとぎょうさん遊ばなあかん。

ベンチが一般的にもうどんだけ重要かは分からんことを強調したいねん、特に全部1から2パーセント違いで、これらの多くを使う経験を実際に反映してない時はな。

とはいえ、全部のベンチマークで勝ってる感じや。見てみると、GPT-5 Highはここで持ってる最も知的なモデルやけど、それによるとGrok 4よりちょっと賢いだけやねん。経験から言えるのは、クソマジでそうやないってことや。

Grok 4は使う経験として悪いだけやなくて、かなり間違ってるし、ツーリングを全然上手くやらん。もんごとに特に上手く統合せんし、ツールをずっと呼ぶねん。ツール呼び出しで訓練されてるから、必要なくても攻撃的に呼ぶねん。

一方でGPT-5は実際の使用例でずっと合理的やと分かった。そしてここで見れるのは、指示従いベンチマークが完全に虐殺されてることや。俺が強調しようとしてきたように、あなたが言うことをクソマジでやるからやねん。

それが俺がみんなに持ってもらいたい本当に大きな要点や。これはあなたが言うことをただやる最初のモデルやと本当に感じるねん。

よし、クール。これは俺が探してた数字の一部やな。ベンチマークを実行するのに使った出力トークン。だから出力トークンは7900万、回答トークンは240万やった。だからこの数字8200万を取って、出力10ドルを掛けるだけや。

だから82×10やな。だから820対110×15や。それで1,650って数字が出てくる。だから、GPT-5 high実行にとってはGrok 4の半分の価格やけど、GPT-5 medium実行はその半分の430ドルや。だから430ドルでGrok 4より高いスコアを取るのに、Grok 4は1,650ドルかかった。

だから、これらのモデルが実際に使った時にどう感じるかのアイデアを与えるのに役立つことを願うで。

ああ、彼らがこのチャートをintelligence対artificial analysis実行コストに変えたのがめっちゃ嬉しい。そのためにめっちゃいじめたんや。やってくれた。ありがとう、artificial analysis。みんな素晴らしいで。

GPT-5は長いコンテキスト推論ベンチマークで1位と2位の両方のポジションを占めてる。これは本当に長いコンテキストをどう扱うかや。かなり上手く扱ってるな。

「OpenAIがGPT-5への早期アクセスをくれた。俺らの独立ベンチマークは新しいAI知能の高さを確認してる。4つのモデル全部をテストして、高いオプションと最小オプションの間でトークン使用量とコストに23倍の違いがあることと、知能の大幅な違いを明らかにした。知能はGPT-5スイート全体でフロンティアから4.1まで幅がある。」

ここでminimalバージョンは300万トークンを使って、lowは16、mediumは43、highは82を使うのが見れる。トークン使用量の大きな幅やな。モデルがどんだけ高くて思考深いかを本当にコントロールできるねん。

UI機能について

このビデオを始めてから触れてないことの一つは、UI関連の能力やな。前のビデオでちょっと見せたけど、これで面白いことをやることにした。実際にT3 chatクローンを作らせたんや。どうやったか見てみよう。

あんまり良くない。スクリーンショットを渡したけど、特に上手く尊重してないみたいやな。だから、スクリーンショットを取って、見せられてるものを複製するのはあんまり得意やないな。

俺らのサイトの上にあるカットアウトを複製しようとして、上に変なものも置いた。見た目は良いものを作ったけど、違うUIを複製するのは得意やない。

今使ってるバージョンが正しいものやない可能性もあるねん。cursorでGPT-5をモデルオプションとして手動で打ち込まなあかんかったから。すぐにローンチしたって言ってたから、最新バージョンやったら自動で取得できるかもしれん。俺は早期アクセスバージョンにいるから、まだそこに出荷してないのかもしれん。

これがあんまり壊れてない時に見れるのは、GPT-5のローンチ週間中、cursorで無料で使えることや。めっちゃクールで、めっちゃ寛大やで。

コンテキストウィンドウが最後の瞬間に変わったのも見れるな。cursorでは272kコンテキストウィンドウを持ってる。他の場所とは違うねん。

他の評価・意見

これが俺の意見とランダムな事実ドロップだけにならないようにしたいねん。だから、あの俺との動画で見たかもしれん他のソース、俺が絶対に愛してるSimon Willisを取り上げる。彼はほぼフルGPT-5を探求してる。

彼の評決は、ただもんごとが得意やねん。他のLLMからの劇的な飛躍みたいには感じんけど、有能さを醸し出してる。めったに失敗せんし、頻繁に俺を印象づけるねん。やりたい全てのことに対してめっちゃ賢明なデフォルトやと感じた。

より良い結果を得ようとして違うモデルに対してプロンプトを再実行したいと思った時点は一度もなかった。それはめっちゃハードに感じる。モデルを常に交換する必要を感じたことがない初めてで、本当に良いねん。そして価格を見た今、もうモデルをあんまり交換せんと思う。

そしてもちろん、ペリカンテスト。当然、自転車に乗ってるペリカンの生成されたSVGベンチマークを実行してる。将来の投稿でこれにもっと時間をかけるつもりや。探求してる面白いバリアントがいくつかあるねん。

今のところ、デフォルトのmedium推論努力で実行してるGPT-5から得たペリカンや。そう、めっちゃ良いな。

それから5 Miniも良い。深度的に興味深いことをしてるけど、多くの他のモデルが得るものよりペリカンに近いな。

それから5 nanoは俺が通常期待するものや。いつものようにめっちゃ良いもの。SVGのことでまだめっちゃ印象受けてる。これはモデルをテストするのに難しいことやねん。

まとめ

GPT-5モデルはめっちゃ良いねん。Horizonは間違いなく今度はGPT-5モデルの非推論バージョンであることがほぼ確認されてる。そして見れるのは、そう、複雑なSVGをやるのがめっちゃ得意やねん。

ここで取り上げなあかん全てを取り上げた感じや。このモデルは画期的やねん。めっちゃびっくりしてる。みんなもそうやと願ってるで。

T3 chatでもchatGPTでもcursorでも、モデルと話すのを好むとこならどこでもチェックしてくれ。どう思うか教えてくれや。そして次回まで、平和やで、オタクども。

ついに休暇に行けるか?みんな、もんごと落とすのやめてくれる?マジで、Defconにいるはずの時にもんごとをカバーするのがこんなに長い間やったんや。やめてくれ。ああ。

コメント

タイトルとURLをコピーしました