この動画は、OpenAIの最新モデルGPT-5の包括的なレビューである。レビュアーは実際に様々なプロンプトを試し、コーディング、ゲーム作成、画像生成、研究タスクなどにおけるGPT-5の能力を詳細に検証している。特にコーディング分野での優秀さ、幻覚(ハルシネーション)の大幅な削減、そして他の競合モデルとの性能比較が紹介されており、GPT-5が現在のAI業界における最先端モデルであることが示されている。

GPT-5の登場と初期テスト
ついにGPT-5が登場したで!これから台本なしで徹底的にレビューしていくわ。できる色んなすごいことも見せるけど、限界についても話していく。もちろんスペックや性能についても詳しく説明して、他の主要なAIモデルとも比較していくで。早速始めよか。
まずはGPT-5を試すために、ちょっと難しいプロンプトから始めてみるわ。他の最先端AIモデルと同様に、GPT-5もコーディング、数学、科学、研究といったSTEM分野で優秀な成績を見せてる。だからこの動画では主にそういうのを見せていくつもりや。
もちろんエッセイ書いたりメールに返信したりっていう簡単なタスクもできるけど、正直言うて、もうどのモデルでもそんなんはそれなりにできるからな。
この動画のスポンサーはHubSpotや。最初のプロンプトはこれで試してみよう。ハチの巣の建設を視覚的にシミュレーションして、六角形の巣房が形成される様子と働きバチの経路、それに蜜の貯蔵を見せて。コロニーのサイズと資源の利用可能性のスライダーも含めてや。全部をスタンドアロンのHTMLファイルに入れてくれ。
それからここでキャンバス機能もオンにして、サイドウィンドウでコードをプレビューできるようにするで。生成をクリックしてみよう。
これが結果や。確かにハチのコロニーがあって、近くの花から花粉を集めてる。それから蜜を巣に戻して貯蔵して、巣を拡張してる様子も分かるわ。めちゃくちゃええやんか。
コロニーサイズを増やすこともできて、そうするとハチがもっとたくさん散らばる。資源の利用可能性を下げることもできるから、基本的に花粉が少なくなるってことや。そうすると蜜の蓄積が遅くなるはずやな。見ての通り、巣は確実に拡張してる。一時停止ボタンが機能するか見てみよう。うん、機能してる。リセットボタンはどうかな。これも機能してるわ。
というわけで、たった一回のプロンプトで、ゼロショットでこのハチの巣シミュレーターを作り上げた。めちゃくちゃ印象的やな。
次に、ゲーム作成の能力を見てみよう。プロンプトは、ネオンライトが光るサイバーパンクなトラックを走る3Dレーシングゲームを作って、スピードブーストと衝突物理学も含めて。全部をスタンドアロンのHTMLファイルに入れてくれ、って書くで。生成をクリックしよう。
よし、16秒間考えてるのが分かるな。それから短くて簡潔な回答が返ってきたのがええな。これはGrok 4みたいに余計な説明をダラダラしない、無駄のないモデルや。とにかく、これをプレイしてみよう。
よし、この黄色いブロックに当たったらどうなるか見てみよか。どうやら黄色いブロックに当たると減速するみたいやな。それからピンクのブロックの上を通ると、スピードブーストがかかるみたいや。すごいやんか。これは確かにネオンライトが光るサイバーパンクトラックの3Dレーシングゲームや。衝突物理学も含まれてる。理想的には黄色いブロックについては車がぶつかって止まってほしいけど、ピンクの四角については正しく動作してる。
あの要素の上を走るとスピードブーストが得られる。そして全部が最初から動作する。これがGPT-5のパワーや。こういう簡単なアプリのコーディングに関しては、他の最先端モデルよりもエラーが起きにくいことが分かる。
次に、物理学の理解と様々なビジュアライザーや動的システムの生成能力をテストしてみよう。ここで流体力学のアニメーションを作ってもらう。インタラクティブ要素とスライダー、それに複数の色の染料を含めて。そしてまた、キーフレーズやな。全部をHTMLファイルに入れて。
またキャンバスをオンにして、サイドウィンドウでアプリをプレビューできるようにする。生成をクリックしよう。
これが結果や。17秒間考えてる。コードを実行をクリックしよう。まずはこの上に描いてみる。キャンバスに染料を加えてるのが分かるな。今は赤だけやけど、青い染料も加えてみよう。確かに青い染料が見える。赤と混ざってるな。すごいやん。黄色い染料もある。
それから設定もいじることができる。拡散を下げて、粘度を上げて、ちょっとゆっくり混ざるようにしよう。時間ステップも下げてみる。いいやん。今の色の代わりに、色をランダム化をクリックすると、混ぜる新しい色が出てくる。これは緑やな。
また色をランダム化をクリックしよう。黄色が出てきた。いいやん。それから散逸って何やろな。色が消える速さか何かやろな。これを下げてみよう。それから渦度。何のことか全然分からんけど、とりあえず全部の設定を試してみよう。それから染料の量もある。
これを上げたら、めちゃくちゃカラフルになるみたいや。クリアを押したら、確かにキャンバスがクリアされる。解像度も選択できる。高い解像度を選択してみよう。グラフィックカードがクラッシュしなければええけどな。でも見ての通り、全部が機能してる。めちゃくちゃクールや。
というわけで、たった一回のプロンプト、ゼロショットで、このインタラクティブな流体力学ビジュアライザーができた。確かに流体力学をシミュレートして、色も混ぜてる。すごいやん。これで思いっきり遊べるわ。マウスをあちこちドラッグして、こんな感じになる。めちゃくちゃ楽しいで。
レイトレーシングとCRMダッシュボードの作成
次に、レイトレーシングの能力を見てみよう。プロンプトは、街の景色の上に浮かぶ金属球のリアルタイムレイトレーシングシミュレーションを開発して。3Dの街並み環境を使って、反射率、粗さ、その他の球体の材質特性といった調整可能なパラメータを含めて。生成をクリックしよう。
これが結果や。最初の生成でエラーが出たんやけど、実際に下の方にエラーを検出したっていうポップアップメッセージが出てるのが見えた。バグを修正っていうボタンがクリックできるようになってた。つまり、自分でエラーを自動的に検出して修正できるってことやな。バグを修正をクリックした後、これが結果や。
確かに金属球があって、周りの環境を反射してる。めちゃくちゃクールやん。マウススクロールで大きさを増減することもできる。それから反射率が何をするか見てみよう。このスライダーは何もしないみたいやな。粗さはどうかな。粗さはよく機能してる。粗さを上げると、もちろん反射が弱くなる。下げてみよう。それから金属性。これも金属性を下げると反射が弱くなる。こんな感じになる。
すげえやんか!それからクリアコート。これは一体何やろな。何かしてる。エッジ部分に微妙な変化を加えてるけど、この設定が何なのかよく分からん。それからクリアコート粗さ。これも何かを変えてるけど、よく分からん。それから露出で、これはシーンの露出を変えるだけやな。クールや。
それから球体の高さで、これはこうなる。まあ、見ての通りや。GPT-5はレイトレーシングと物理的に正しいオブジェクトの作成もすごく得意やということが分かるな。めちゃくちゃ印象的や。
今度は日常生活で実際に必要になるかもしれない実用的なものもコーディングしてもらおう。例えば、売上、顧客エンゲージメント、マーケティングキャンペーンのリアルタイムインサイトを提供する美しいCRMダッシュボードを作って。インタラクティブなグラフやチャートなども含めて、などなど。全部を一つのHTMLファイルに入れて。生成をクリックしよう。
これには23秒間考えた。これが結果や。セールスファネルが完璧に見えないのが分かる。これは今回の生成の欠陥やけど、さらにプロンプトを出して修正することは可能やろな。それから合計売上、コンバージョン率、新規リードなどがある。この円グラフはなかなかいい感じや。売上トレンドもそうやな。7日間移動平均も含まれてる。キャンペーンパフォーマンスもある。それから下の方にはエンゲージメントヒートマップがある。上の方では時間範囲を選択できる。
これは7日間やな。ライブボタンも切り替えられて、これは明らかにこれらの値を調整してる。もちろん、これらの値は今のところ全部作り物やけどな。それからウィジェットについては、ダッシュボードに表示するコンテナを選択することもできる。セールスファネルがめちゃくちゃ醜いから、これを削除してクローズをクリックしよう。
それからこれらをこんな風にドラッグすることもできる。めちゃくちゃクールやん。これを上に持ってこよう。好きなように配置できるわけや。でも、とにかくたった一回のプロンプトで、完全にインタラクティブなCRMダッシュボードができて、全部がなかなかいい見た目になってる。
次に、基本的なツールを全部備えたPhotoshopのクローンを作ってもらおう。以前のAIモデルの場合はMS Paintを作ってもらってたけど、これはGPT-5やから、難易度を上げてPhotoshopを作ってもらおう。生成をクリック。
ここではキャンバスをクリックするのを忘れてたみたいやな。だからHTMLファイルをダウンロードしよう。これが結果や。この上に描いてみよう。
ブラシが機能してる。消しゴムも機能してる。レイヤーもここにある。新しいレイヤーを追加して、その上に描いてみよう。いいやん。レイヤーの選択を外すと、この赤いマーカーが見えなくなる。だからレイヤーも機能してる。バケツ塗りもある。残りを緑で塗ってみよう。
こうなった。めちゃくちゃクールやん。これを元に戻そう。それから様々な図形も試してみよう。線がある。線が機能してる。長方形も機能してる。楕円も機能してる。テキストについては、何かテキストを入力してみよう。ハローワールドって入力してみる。それも機能してる。めちゃくちゃクールやん。トリミングもできる。トリミングも機能してる。いいやん。それから選択。
これを選択してキャンバスに何か描こうとしてみると、選択範囲外には何も描かれないのが分かる。選択範囲内でしか描けない。いいやん。それからパン。これが何をするか見てみよう。パンも機能してる。ズームもある。ズームも機能してる。最後に移動。移動も機能してる。めちゃくちゃクールやん。
次に、新しい画像を開いてみよう。開くをクリックして、この画像をアップロードする。上の方にいくつかフィルターもある。明度を上げて、彩度を上げることができる。それをやって適用をクリックしよう。確かにそうなった。明度と彩度が上がってる。元に戻すを押そう。
それから縮小して画面にフィットを押してみよう。まさにその通りになった。BGって何やろな。これはインターフェースの背景色を変えるだけみたいやな。これをクリックすると黒になる。もう一回クリックするとグレーになる。このレイヤーを下に移動してみよう。それも機能してる。背景がある。この上にすぐに何か描いてみよう。
それからもっと線を描いてみよう。それから不透明度を変更してみよう。不透明度も機能してる。ブレンドモードを試してみよう。乗算。それも機能してる。スクリーン、それも機能してる。オーバーレイ。とにかく全部が最初から機能してるんや。めちゃくちゃ印象的やな。なんてこった。他のどの最先端AIモデルも、たった一回のプロンプトでこれらの設定を全部備えたPhotoshopを生成することはできんかった。
だからGPT-5はこういう基本的なアプリの作成において極めて強力やということが分かる。
動画編集ツールと瞑想ガイドの作成
HubSpotのChatGPT職場活用リソースの紹介を挟んだ後、レビューは続く。
これも実際に使う必要があるかもしれない実用的なプロンプトや。動画をアップロードして様々な高度なエフェクトをリアルタイムで適用できるページを作って。アップロードした動画と最終的な動画を並べて表示してくれ。
生成をクリックしよう。これが結果や。まず動画をアップロードしてみよう。Luma 1.2で生成したこの動画をアップロードする。これは現在使える最高のオープンソース動画生成器や。とにかく、ここで様々なエフェクトから選択できる。まずはなしから始めよう。それからグレースケール。確かにグレースケールになった。
セピア。それも正しい。それから反転。それも正しい。それから明度とコントラスト。ここで明度の設定を調整できる。このスライダーが機能してる。コントラストについても、このスライダーが機能してる。いいやん。それから彩度。このスライダーも機能してる。いいやん。それから色相。
確かにこのスライダーは動画の色相、つまり基本的に色を変える。それからビネット。残念ながらこれは間違ってる。動画の中央ではなく端に適用されるべきやのに。それからシャープ化。これは元の動画よりちょっとシャープに見える。ガウシアンブラー。ぼかし量を上げると確かにさらにぼけてる。
下げるとぼかしが減る。それからエッジ検出。これも機能してる。動画内の全てのオブジェクトの輪郭を検出できてるのが分かる。このスライダーを下げると、こうなる。それからRGBスプリット。このXとYオフセットをドラッグして、動画にズームインすると、こうなる。めちゃくちゃクールやん。それからピクセレート。
これも機能してる。ピクセルサイズを上げてみよう。こうなる。最後にポスタライズ。これも機能してる。レベルを下げてみよう。こうなる。めちゃくちゃクールやん。ビネット以外の全ての設定が機能してる。そして再び、たった一回のプロンプト、ゼロショットで全てをコーディングできた。
次に、もう一つのクールで実用的なアプリのアイデアや。マインドフルネス瞑想ガイドのインタラクティブページを一つ作って。呼吸エクササイズと一緒に進化する穏やかなフラクタルパターンと音を生成して。タイマーと進捗トラッカーを含めて。生成をクリックしよう。
これが結果や。まずスタートを押して、これが何を表示するか見てみよう。うわ、めちゃくちゃクールやな。長さ、黄金の呼吸、テーマを調整できる。まずテーマを変えてみよう。フォレストがある。基本的に色スキームが緑に変わるだけや。それから夕暮れ。こうなる、などなど。ちょっとしたエラーは、これが白地に白やから、テキストが読めないことやな。それからフラクタルスタイル。
枝からシダのようなものまで選択できる。なんてこった、めちゃくちゃクールやな。現在のフェーズ、つまり息を吐く、吸う、止めるに基づいてアニメーションしてるのが分かる。それから様々な呼吸パターンも選択できる。それから睡眠に良い4-7-8。
それから4-0-6-0の穏やか、またはここでサイクルをカスタマイズすることもできる。例えば、この値を1に変えてみよう。それからこれを0に変えてみよう。それから下の方には背景ノイズもある。これをswellに設定すると、呼吸をガイドしてくれる背景音が聞こえるはずや(音が聞こえることを期待)。めちゃくちゃクールやん。swellの代わりに、バイノーラルに設定してみよう。
どんな音がするか聞いてみよう。(笑い)(音楽)(笑い)めちゃくちゃクールやな。実際にバイノーラル音を生成してる。ヘッドフォンをつけると、まるで立体音響のように3Dで聞こえるはずや。めちゃくちゃクールやん。
というわけやで。もう瞑想アプリやサービスにお金を払う必要はない。GPT-5に呼吸や瞑想をガイドしてくれるページを一つコーディングしてもらえばええんや。たった一回のプロンプトで全てが機能する。
画像解析と位置特定能力
次にやることは、コンサートで撮ったこの写真をアップロードすることや。ここがどこかを教えてくれる手がかりがそれほど多くないことに注目してくれ。ただたくさんの人がいるだけや。これはメインステージでもない。メインステージは左の向こうの方にある。ここの湾の景色しか見えない。
普通の人にこれを見せても、少なくとも俺には、ここがどこかを特定するのは本当に難しいやろう。海辺のどこかでのイベントかもしれん。とにかく、これをここにアップロードしてみよう。
OpenAIの以前の最高モデル、O3と4Oは写真の場所を推測するのがすごく得意やということが分かってる。ここで写真からイベント名と場所を特定してもらおう。生成をクリック。
なんてこった、実際に特定できてるやん!ちょっと怖いな。これは確かにSymphony at Sunsetのイベントで、確かにSunset Beach Parkや。この写真は俺が撮ったもので、メタデータは全部削除した。そして再び、これは写真に見えてないメインステージの写真でもなかった。だから写真からイベントと場所を特定できるのはちょっとクレイジーやな。
科学研究と教育コンテンツの生成
次に、いくつかの科学と研究の例に移ろう。ここで、大型ネコ科動物の分類樹を作ってもらう。科から属、種までの分類を表示して、種の説明をホバーオーバーで見せて。これが結果や。確かにネコ科から始まって、この亜科があって、属を展開してみよう。これが結果や。
これとこれとこれも展開してみよう。いいやん。それぞれの上にホバーすると、実際にその種を説明するポップアップが出てくる。この生成の小さな欠陥は、ポップアップがホバーしてる項目の隣に表示されないことやな。でもそれ以外は全て正常に機能してるし、情報も正確や。
試してみたいもう一つのプロンプトがある。視覚化とアニメーションを含む高校物理のインタラクティブコースを作って。今のところ最初の3つのレッスンだけ含めて。これが結果や。最初のレッスン、運動と運動学がある。このアニメーションを再生して機能するか見てみよう。機能してる。リセットしよう。
それから初速度と加速度を下げてみよう。もう一回再生しよう。もうちょっとゆっくり動くはずや。確かにそうなってる。下の指標も見ることができる。めちゃくちゃクールやん。2番目のレッスン。力とニュートンの法則。スタートを押そう。それから静止摩擦を下げてみよう。
そうするとこのオブジェクトを実際に動かすことができる。確かに、オブジェクトが動いてる。それから下の指標も見ることができる。ただし、この生成の小さな欠陥は、ラベルが全部ごちゃごちゃになってることやな。それから3番目のレッスン。スタートを押そう。
振り子があって、この振り子が前後に揺れる間に位置エネルギーと運動エネルギーが変動してるのが分かる。いくつかの設定もいじることができるし、シミュレーション速度も上げることができる。最終的には減速して、両方のエネルギーがゼロに下がるはずや。確かにそうなってる。
次に、研究と情報の統合能力もテストしてみよう。プロンプトは、2020年から2025年のアジアのeコマース成長に関する包括的なビジネスインテリジェンスレポートを作成して。それからここでウェブ検索を有効にして、正確な情報を取得するために実際にウェブを検索できるようにする。
これが結果や。各行の市場規模と成長がある。引用も提供してくれる。そして再び、GPT-5は非常に短くて簡潔やということに注目してくれ。だから各行にはたくさんの情報が詰まってる。それから地域・国レベルのインサイト、成長ドライバーとトレンド、市場セグメンテーションと課題などなどがある。それから、これらの列を含むサマリーテーブルもある。それからキーインサイトとビジネスへの示唆もある。
モデルがこれらのレポートの生成にどれだけ優秀かを客観的に比較するのは本当に難しい。どのモデルでもウェブから情報を統合してこんなものをコンパイルすることはできる。でもGPT-5は確かにより短い回答を出す傾向があるようや。本当に詳細で包括的なレポートを求めてるなら、他のモデルの方が良いかもしれん。
試してみたいもう一つのプロンプトがある。患者はアレキサンダー病を患ってる。これは非常に稀で致命的になる可能性のある病気やから、あまり情報がない。患者は2歳や。このテーマについて全て研究して、次のステップや治療法の可能なアイデアを提案して。チャートとグラフを含むレポートにまとめて。エンターを押そう。
これが結果や。まず定義から始まってる。それから現在の臨床管理。研究と実験的治療法がある。そして再び、各行には情報がぎっしり詰まってる。全てが非常に密度が高い。各行には適切な引用が含まれてる。サマリーテーブルもある。それからこの患者への提案された次のステップもある。それでほぼ終わりや。
再び、これはGLM 4.5やQwen QwQ2のような他の主要モデルと比べて非常に短い。だから求めてるものによる。本当に短くて簡潔でコンパクトな情報が欲しいなら、GPT-5が良いかもしれん。より詳細で徹底的な調査が欲しいなら、他のモデルの方が良いかもしれん。
試してみたいもう一つのプロンプトがある。GPT-5は健康関連の質問に本当に優秀やと主張してるからな。25歳のアスリートがACL損傷、リハビリプロトコルの研究、スポーツ復帰のタイムライン。回復フェーズグラフ付きのスポーツ医学レポートで予防トレーニングを提案して。
再び、正確な情報を取得するためにウェブ検索をオンにしよう。これが結果や。推定タイムラインと共に異なるフェーズに分けてる。それからスポーツ復帰のタイミングとリスクもある。予防トレーニングの推奨事項もある。それからリハビリと予防計画がある。タイムラインと重点的に取り組む必要があることが示されてる。それからさらにセクションもある。再び、全てが非常に短い。それでほぼ終わりや。
次に、画像生成ができるか見てみよう。実際に、GPT-5にはエージェント機能があると言われてるから、完全なストーリーブックを自動的に生成してくれるかもしれん。ここでカエルがお金持ちになりたいという5ページのストーリーブックを生成して、各ページに画像を生成してって書く。これが結果や。
画像を1つしかくれなかった。この雰囲気から感じるのは、これは普通のGPT-4Oの画像モデルを使ってるだけやということや。だからGPT-5は新しい画像生成器ではない。これは古いGPT-4Oの画像モデルから引っ張ってきてるだけや。そして1ページしかくれなかった。だから次に5ページであるべきやって書いた。そうしたらもう1ページくれた。
それでほぼ終わりや。だからここではあまり進展がなかった。代わりに、エージェントモードを選択して、もう一回生成を押してみよう。今回は実際にストーリーブックを自動的に作り始めた。この素晴らしいアニメーションがあって、再生して何をステップごとにやったかを確認できる。
まず画像を生成して、それから2番目の画像を生成して、などなど。自動的に全てをやって、さらに画像を生成してるのが分かる。それからPythonコードを実行してる。全ての画像をPDFに変換してるんやと思う。それから今スクリプトを実行してるけど、いくつか問題が発生した。
実際にChromeでこれを開いて、ストーリーブックがロードされることを確認してる。そして最終的にPDFの作成が完了した。PDFをダウンロードするリンクがある。これをクリックして、ブラウザで開いてみよう。
確かに、ストーリーブックがある。ただ、ページはこの画像とテキストじゃなくて、もっと綺麗にフォーマットされてた方が良いけどな。それに表紙ページもない。でも、とにかく1ページ目があって、テキストもある。2ページ目もある。この話を実際に読みたかったら動画を一時停止してくれ。3ページ目、4ページ目もある。最後に5ページ目。
カエルが全ての5つの画像で一貫して見えないと言わなあかんな。4ページ目から5ページ目を見ても、カエルが結構違って見える。これも違って見える。これも違って見える。だから一貫したキャラクターで各ページのストーリーブックを作るのはあまり得意じゃないな。
そしてこれら全ての画像について、GPT-4Oの画像モデルを使ってるだけやということに注目してくれ。だからGPT-5用の新しい画像生成器はない。
最後のテスト。どれだけ簡単に幻覚を起こすかを見てみたかった。ここで、まだ存在しないStable Diffusion 5について全ての詳細を教えてって聞いた。そうしたらここで、現在の情報を調べました、って言ってる。
今のところSD5と呼ばれるものの公式リリースや発表はありません。確認されている最新バージョンはSD 3.5で、これは正しい。だからパスや。Stable Diffusion 5について情報をでっち上げることはなかった。これが存在しないことを直接指摘した。
GPT-5のスペック、価格、性能比較
というわけで、GPT-5のテストのまとめや。これができることとできないこと全てについて感触を掴んでもらえたと思う。全体的に、コーディングに本当に優秀で、他の最先端モデルよりもエラーが起きにくいことが分かった。
とにかく、次にこれをどう使うかについて説明しよう。この録画の時点で、GPT-5は既にChatGPTで誰でも使えるようになってるはずで、無料ユーザーも含めてや。これが無料プランだけのオルトアカウントや。ここを見ると、GPT-5が使えるって書いてある。
ただし、このモデルドロップダウンでは、少なくとも無料プランでは、どのバージョンのGPTを使ってるかは表示されない。理論的には、無料プランでは毎日GPT-5を限定的に使えて、それが使い切られたら、より知能の低いモデルにフォールバックするはずや。
一つ注意すべきことは、この無料プランのアカウントでいくつかプロンプトを試してみたところ、有料プランでGPT-5を使った場合ほど応答が良くないみたいやということや。だから無料プランではGPT-5のminiやnanoのような小さなバリアントを使ってる可能性があると疑ってる。
だから動画の全てのテストについて、有料プランを使ってて、ここでGPT-5を明示的に選択してるということに注意してくれ。
次に、他の競合モデルと比較したスペック、価格、性能について説明しよう。ここで、GPT-5はOpenAIの最高のAIシステムやと言ってる。大規模言語モデルではなくAIシステムと呼んでることに注目してくれ。
過去に、GPT-5は実際には一つのモデルではなく、複数の内部モデルの組み合わせやと言ったことがある。最初にプロンプトを受け取って、質問に答えるためにどのモデルに送るかを自動的に決定するスマートルーターのようなものや。だからユーザーが自分でモデルを選択する必要がない。
これは利点でもあるけど、ユーザーが特定のモデルを明示的に選択したい場合は欠点でもある。ここで、ルーターはユーザーがモデルを切り替える時や応答の好み率、測定された正確性を含む実際のシグナルで継続的に訓練されてるって書いてある。時間とともに改善されるはずや。
繰り返すけど、全てがブラックボックスや。これは独占的でクローズドソースやから、内部で何が起こってるかは本当に分からない。ここで、幻覚を大幅に削減したとも言ってる。これについては後で話すけど、特に文章作成、コーディング、健康分野で優秀やと言ってる。
競争数学であるAIMEというベンチマークでの報告されたベンチマークがある。思考とPython使用を含むより高性能なバージョンのGPT-5 Proが100%を獲得してることに注目してくれ。ただし、これはそれほど印象的ではない。数週間前にリリースされたGrok-4 heavyも100%を獲得してるからや。だからこのベンチマークは結構簡単に打ち負かせるみたいやな。
Frontier Mathがあって、思考を使うとGPTエージェントを上回る性能を発揮する。ここでちょっとチェリーピッキングしてるな。O3のより高性能なバージョンであるO3 highを示してないからや。それからGPQA diamondがあって、大学院レベルの科学的質問のようなものや。平均的に、GPT-5はO3を上回ってるけど、ほんの少しや。大きなマージンではない。
それから人類最後の試験があるけど、適切な名前ではないな。AIが100%に達したら終わりってことではない。基本的にほとんどの人が知らない非常に曖昧で専門的な科学的テーマについてのAIモデルの知識をテストしてる。GPT-5は思考なしでツールなしでは実際にかなり悪い成績だった。6.3%しか取れなかった。
思考ありではもう少し高いスコアを取って、Python と検索を使うproなら42を取った。でもGrok-4 heavyはPythonとインターネットで44%を取った。それより良い。だから最先端ではない。
SWEBench verifiedがあって、これはソフトウェアエンジニアリングのベンチマークや。ここが結構面白い。思考ありのGPT-5は74.9%のスコアを取った。これは全てのAIモデルの中で現在最高のスコアやと思う。
数日前、AnthropicがClaude Opus 4.1をリリースした。この SWEBench verifiedは彼らがいつも高いスコアを取ってきたベンチマークの一つや。しかし、この最新バージョンは74.5%しか取れなかった。だからGPT-5がコーディングで若干優れてるようで、大量のプロンプトでテストした後の印象もそうだった。
それから参考のために他のベンチマークもある。これらは既存のものと比べて本当に最小限の改善でしかない。思考なしの場合、GPT-5を非思考モデルの4Oと比較すると、たった2%良いだけや。思考ありでも、OpenAIのO3より2%も良くない。
ここのこれらのチャートと同じや。非思考モデルを非思考の4Oと比較すると、数パーセントポイント良いだけや。だから大幅な改善ではない。
面白いことに、challengingな健康関連質問に答えるモデルの能力をテストするHealthBench Hardというベンチマークでは、GPT-5が非常に良い成績を収めてる。非思考モデルでも25%のスコアを取ったのに対し、4Oはゼロだった。思考ありでは46%を取った。OpenAIのO3よりもずっと良い。
それから本当に重要な指標がある。これらの健康関連質問に答える時にどれくらい頻繁に幻覚を起こすか。思考ありのGPT-5は1.6%の最低幻覚率だった。
ちなみに、O3と4Oの幻覚率は心配になるほど高い。健康関連の質問に答える時に15%の確率で嘘をつくモデルは使いたくないな。それはかなり危険や。
とにかく、これらは報告されたベンチマークの一部で、OpenAI自身の以前のモデルとのみ比較してる。だから他の競合モデルとの比較も見てみよう。
LM Arenaを見ると、ユーザーが様々なAIモデルをブラインドテストできる場所や。GPT-5は実際に非常に良い成績を収めてる。難しいプロンプト、コーディング、数学、創作、指示に従う、長いクエリ、マルチタームを含む全てのカテゴリで1位を取ってる。かなり印象的や。
Abacus AIによるLiveBenchという別の独立リーダーボードを見ると、GPT-5も1位にランクされてて、O3 Pro highをわずかに上回ってる。Artificial Analysisという別の独立リーダーボードを見ると、GPT-5も1位にランクされてる、少なくともhighバージョンが。これはGrok-4より1ポイント上や。
GPT-5 highの価格を比較すると、実際に非常に合理的や。100万トークンあたり3ドル4セントで、Gemini 2.5 Proと同じで、Grok-4よりもずっと安い。だから知能とコスト効率の両方で、GPT-5はかなり優秀や。
創作に基づいてAIモデルをスコア付けする別のベンチマークがある。見ての通り、GPT-5が現在1位にランクされてて、Qwen QwQをわずかに上回り、Claude Opus 4.1を上回ってる。だから小説や物語を書きたいなら、GPT-5が最高の品質を提供してくれる、少なくともこのベンチマークによると。
最後に、confabulationsという超重要なベンチマークがある。これは基本的にAIがどれくらい頻繁に幻覚を起こすか、つまり嘘をつくかを見てる。値が低い方が良い。幻覚が少ないということやからな。見ての通り、GPT-5は実際にGLM 4.5、Qwen 3、Gemini 2.5 Proを上回って1位にランクされてる。
だから、発表ページでGPT-5は幻覚を起こす可能性が大幅に低いと言ってたのは、実際に正しい。この独立した幻覚リーダーボードで検証されてる。
とにかく、他のモデルと比較したGPT-5のスペック、価格、ベンチマークスコアのまとめや。
最後に終わりたいことがこれや。実際にこのパターンを見てるみたいやな。数か月前にGeminiが最初にGemini 2.5 Proを導入して、それが現在世界で最も強力なモデルだった。一時期、Gemini 2.5 ProはLM Arenaの全てのカテゴリで1位を取ってた。
それから数週間後にGrok-4が出てきて、その時は確かに世界最高のモデルだった。今日まで早送りすると、OpenAIの番で、世界最高のモデルGPT-5を導入した。LM ArenaやArtificial Analysisを含む全てのリーダーボードで1位にランクされてる。このサイクルが何度も繰り返されるんやろう。
でも進歩のスピードは絶対的に狂ってる。数か月ではなく数週間で、より新しく優れたモデルが出てきてる。だから生きてるのにすごくエキサイティングな時代や。
とにかく、GPT-5のレビューとテストのまとめや。コメントでこれについてどう思うか教えてくれ。印象的だったことや、そうでもなかったことは何やろか。いつものように、最高のAIニュースとツールを皆に共有できるように見張ってるで。この動画を楽しんでくれたなら、いいね、シェア、チャンネル登録を忘れずに、もっとコンテンツが来るから楽しみにしててくれ。
それから、AIの世界では毎週すごくたくさんのことが起こってる。YouTubeチャンネルで全てをカバーすることは不可能や。だからAIで起こってる全てについて本当に最新情報を得るために、無料の週刊ニュースレターを購読するのを忘れずに。そのリンクは下の説明欄にあるで。見てくれてありがとう、次の動画で会おう。


コメント