ChatGPT-5完全レビュー：5つの実世界テスト＆AI競争の行方

この動画では、ChatGPT-5の実世界での性能を5つの実用的なテストを通じて徹底検証している。医療アドバイス、コーディング支援、データ分析、文章作成、手書き認識の各領域で他のAIモデルとの比較を行い、特に「Think Hard」機能の重要性と適切なプロンプト設計の必要性を明らかにしている。結果として、ChatGPT-5は正しく使用すれば最高性能を発揮するが、使い方次第では期待を下回る可能性もあることが示されている。

ChatGPT-5 Full Review: 5 Real-World Tests & The AI Race

My site: ( substack: ( story...

ChatGPT-5の初回レビュー：実務での実力を徹底検証
医療分野での特別な訓練と性能向上
コーディングとアプリ開発での大幅改善
環境による性能差の謎
Canvasアプリでの成功と他環境での失敗
ガントチャート作成での具体例
思考の質に関する大きな主張と現実
最悪のテストファイルによる検証実験
プロンプト方法による劇的な性能差
カジュアル作業と高度作業の二極化
プロンプト技術の重要性増大
優秀なライターとしての能力
マルチモーダル機能の実力
必要な注意点と警告
知能進化の文脈で理解する重要性
期待値調整の必要性
段階的だが意義深い進歩

ChatGPT-5の初回レビュー：実務での実力を徹底検証

これがワイのChatGPT-5に対する最初の完全で率直な印象やで。実際の仕事でどない使えるかってとこな。みんなもライブストリーム見たやろ？見てへんかったら見に行ったらええわ。ChatGPT-5に何が入ってるか簡単に説明したるけど、長々とはせんで。ワイが実際にテストした内容と、みんなが知るべき結論に入っていくからな。他では聞けへん話やで。

基本的にChatGPT-5っちゅうのは、複数のモデルをトレンチコートで包んだようなもんや。モデルルーターがあって、その下にいくつものChatGPT-5が潜んでて、それに振り分けてるんや。そして特別な訓練を受けてるねん。

医療分野での特別な訓練と性能向上

その特別な訓練が医療分野で出てくるねん。放送では、がんサバイバーの人が出てきて、ChatGPT-5と以前のモデルを使った体験談を語ったんや。病気を利用してるみたいでちょっと嫌な感じと、実際に苦しんでる人の体験談として医療について語ることとの境界線を歩いてる感じやったな。

技術的な観点から言うと、OpenAIは人々がChatGPTを医療アドバイスに使ってることを受けて、一般的な大規模言語モデルより正確な医療アドバイスを提供できるように大きく投資してるねん。これは巨大な投資分野や。彼らも強調してたし、ベンチマークにも現れてる。

まあ、ワイは医学の学位持ってへんから、その分野はテストする資格があらへんかったわ。経験的には良くなってるみたいやってことだけ言うとくで。きっとこの動画のコメントや、実際の医療状態でChatGPT-5を試してる他の人から答えが出てくるやろな。

コーディングとアプリ開発での大幅改善

もう一つ、このモデル混合アプローチで本当に力を入れてるのが、コーディングとアプレット側面やねん。ライブストリームのデモを見てたんやけど、lovableキラーみたいに感じたわ。ワイはlovable.dev大好きやで。この話聞いて、こういうvibeコーディングツールが死んだとは思わんといてくれ。そんなことないと思うけど、彼らがそう思わせたかったんやろな。なぜなら、彼らはこれらのアプリをワンショットで作って、複数のアプリをvibeコードできて、構築できて、自分でできることを見せたからな。

完全に「今や誰でもコーディングできる」っていうメッセージやった。そのあとで開発者を呼んで、実際にAPIをどう使うか、以前よりも多くの推論制御や冗長性制御、推論努力パラメータ、その他開発者向けの詳細な機能について話してもらったんや。vibeコーディングを片付けたあとにな。

実際にコーディングで遊んでみたで。vibeコーディングもやったし、APIもちょっと見た。言えることは、彼らが実際に勝ってるのは、最初からコストを下げて人々がもっと使うようにすることと、モデルをより完全で有用にコーディングさせること、そして一緒に作業するときにもっとエージェント的にコーディングさせることやと思う。

エージェント的っていうのは、より外科的にコーディングして、より外科的な編集をするってことや。これらは段階的な改善やけど、Canvasアプリでは特別なものに積み重なってるねん。面白いのは、Canvasアプリで特別なものに積み重なることが、CursorやLovableで特別になることを意味するかどうかが明確じゃないことや。これらのツールでは既に利用可能やからな。

今すぐLovableやCursorでChatGPT-5が使えるで。試してみたんやけど、ターミナルのClaude Codeみたいな感じやった。Claude CodeはターミナルでClaudeが歌わないのと同じように歌うねん。CursorやLovableでは同じようには当たらへん。これはほんま興味深いわ。

環境による性能差の謎

今、モデルメーカーが好みの環境内では信じられない結果を出すけど、他の場所にプラグインしたときは必ずしもそうならへんっていう2つの例があるねん。これが意図的なもんか、彼らが強化学習した環境に何かあるのか、何かは知らんけど、事実として残ってる。

ワイはChatGPT-5にかなり複雑なコーディングタスクを与えたんや。具体的には、近々行きたい夢の旅行、まだチケット取ってへんけどな、楽しんでるからええわ、その日本の特定で現実的な旅行先について、たくさんのウェブリサーチをして調べてくれって頼んだんや。

旅程が欲しくて、それを禅寺に行きたいか、ラーメン食べに行きたいか、温泉に入りたいかとか、違う興味によって設定できるようにして欲しかったんや。かなり複雑なプロンプトやろ？今日はラーメン重視の日にしたい、誰でもそうやろ？ラーメン全部消化するために寺重視の日にしたい、そういう旅行旅程を考えられるアプレットを作ってくれって頼んだんや。

動作するアプリが必要やったんや。今日はこの日や、この日のナラティブや、とかクリックして進められるアプリがな。

Canvasアプリでの成功と他環境での失敗

分かったことは、CanvasアプリのChatGPT-5は、クリックして使える実際の目的地がある完全に動作するアプリを提供してくれたってことや。実際にSubstackにそのアプレットへのリンクを載せてるから、遊んでみて、どう動くか見てみてくれ。

でも、ChatGPT-5を使ってLovableに全く同じプロンプトを与えたら、基本的に真っ白な死の画面が出たんや。技術的にはテキストは生成したけど、デザインもインタラクティブ性もなかった。完全に失敗やと採点するわ。

これは興味深いで。同じモデル、同じプロンプト、同じコーディングチャレンジで、2つの異なる環境で完全に失敗したんや。彼らがCanvasを優先する方法に何か起こってる。これはほんまに面白いと思う。

また、このモデル、このモデル集合、このChatGPT-5、数ヶ月前に誰かが言ってたように「道中で出会った仲間たち」、箱に入ったこれら全てのChatGPT-5は、他のほとんどのことよりもコードで答えて、コードと数学で証明することが得意やと分かった。

これは長年の傾向の継続や。o3モデル世代を追ってたなら、まさにそういう動き方やった。今日も続いてる。証明しろって頼んだら、よくやる。コードにしろって頼んだら、よくやる。

ガントチャート作成での具体例

例として、ガントチャートで遊んでて、Apollo 13ミッションのガントチャートを見せてくれるか？って聞いたんや。明らかにリサーチしてた。Apollo 13の災害につながったエラーまでの構築コンポーネントと重要経路がどうやったかを全部レイアウトしてくれた。何の話をしてるかも知ってたし、これは公開情報やけど、見やすいガントチャートは死んでも書けへんかった。

打ち上げ日は見えるのを作ったけど、ロケット全体の構築サイクルはあんまり読みやすくなかった。でもコードにしろって頼んだら、コードにできて、フォローできる完全なガントチャートをコードで書けた。まだちょっと目がチカチカする感じやけど、できたんや。

日本旅行アプリとApollo 13ミッション、どちらの場合でも、オーバーインデックスして比較的簡単にアプリを壊すことができるって言うとかなあかん。やから、作業が終わったらチェックポイントで公開することをお勧めするで。これらは小さなアプレットであんまり丈夫じゃないし、時々オーバービルドしてバグを引き起こすからな。やから、実際にどう動くか見られるように、これらを保存して公開したんや。

思考の質に関する大きな主張と現実

コーディング面はこれくらいにしといて、もう一つ彼らが本当に強調してたのは、思考の質と、これらのモデルがどれだけ思慮深くて、厄介な実世界の問題を解決できるかやった。実際、これはサム・アルトマンがライブストリームの準備でイントロ動画で最初に言ったことや。「これは仕事をより効果的にすることについてだ」みたいなことを言った。

そのあと気づいたのは、ライブストリームの残りでは、コーディング以外では仕事をより効果的にすることについてほとんど何もなかったってことや。コーディングについてはたくさんあったけどな。これでワイは考えたんや。OpenAIの幹部たちは、本当の仕事がコーディング対その他すべてについて、どれくらい考えてるんやろうか？「よく書ける」って言っただけの小さなデモ以外、他のみんなのためにはあんまり見えへんかったからな。

最悪のテストファイルによる検証実験

そこで、テストすることにしたんや。ワイは「厄介な厄介な厄介なテストファイル」って呼んだものを作った。3つの別々のCSVファイルや。CSVについてはSubstackでシェアするで。これらのCSVは絡み合ってる。CSVは信頼できへん。1つのCSVにはSQLインジェクション攻撃が入ってる。共通のフォーマットもない。CSVとして正しく保存すらしてへん。基本的に、これら3つのCSVファイルを、想像できる限り最悪の災害テストにしようとしたんや。LLMにとっては有刺鉄線の泥の上を這い回るようなもんや。ほんまに難しくしたかったんや。

理由の一部は、彼らがライブストリームで「ベンチマークが飽和してきてて、まだ実世界テストに問題がある」って認めたからや。やから、実世界で見るような面倒なデータのように感じられる何かが必要やったんや。

CSVは現実世界のシナリオをカプセル化してて、過負荷と負荷不足の従業員、軌道から外れたプロジェクトと順調なプロジェクト、監査可能である必要性、予算を証明する必要性、収益につなげる必要性など、ビジネスが気にかけることすべてが1つの厄介なシナリオに入ってる。

そして、ワイはモデルに単純に意味を理解してくれって頼んだ。基本的には戻ってきて、何が起こったかを説明して、チームの従業員数の明確な画像を得てくれ、これはめっちゃ混乱してるねん。重複を見つけて、SQLインジェクションをキャッチしたことを確認して、これは教えへんかった、自分で検出せなあかんかった。そして、何が起こったかの明確な画像を持って取締役会に戻れるようにしてくれ。

プロンプト方法による劇的な性能差

ここからが面白いところやで、みんな。このテストが、このモデルは他のどのモデルよりも、どうやって動かすかを気にかけてるってことを示したんや。同じテストをClaude Codeで実行した。o3でも実行した。o3 Proでも実行した。そしてChatGPT-5でも実行した。

ChatGPT-5だけやなく、ChatGPT-5のバニラで実行して、プロンプトで一生懸命考えろって言って実行して、一生懸命考えるボタンをクリックして実行して、ChatGPT Proでも実行した。

信じられへんやろうけど、一生懸命考えるなしのGPT-5バニラが全体で一番低いスコアを取ったんや。o3より低かった。o3 Proより低かった。Claude Codeより低かった。他の全てのChatGPT-5レスポンスより低かった。言い換えれば、ChatGPT-5はセットで最高でもあり最悪でもあったんや。これはほんまに興味深い。魅力的やと思った。

ChatGPT-5 Proも、セットで一番の回答やなかった。ちょっとオーバーインデックスした。セットで一番の回答は、一生懸命考えるボタンを押したChatGPT-5やった。そのすぐ後に、プロンプトボックスに「一生懸命考えろ」と入力したChatGPT-5が続いた。

言い換えると、このモデルでの仕事の一部、そしてワイがこれからの日々でやっていく予定のことの一部は、目の前にあるタスクの種類に対して、いつ、どのようにこれらのモデルをプロンプトするかを掘り下げることやねん。

プロンプトなんて重要やないって言う人たちは、このモデルで遊んだことがあらへん。これはプロンプトするのがどんどん難しくなってきてる。プロンプトするのがトリッキーになってきてるねん。

カジュアル作業と高度作業の二極化

そう、カジュアルな作業をしてて、仕事を漠然と指示して、あんまり心配してへんかったら、プロンプトは今まで以上に簡単やで。これは本当や。「日本の旅程が欲しい」って漠然と言うのは今まで以上に簡単や。何かしら出してくれる。そういう部分は簡単や。

でも本当に複雑な作業を完成させること、ワイが与えたような正確性が重要で、精度が重要で、文書が一致してへん、非常に複雑なコンテキストウィンドウがあるようなこと、そういうのは作業が必要やねん。

公平に言うとな、ワイがChatGPT-5をディスってるって思わんといてくれ。一生懸命考えるモード有効にしたChatGPT-5は、チャットで入力しようがボタンでやろうが、他の全てのモデルを打ち負かしたんや。Claude Codeを打ち負かした。o3を打ち負かした。o3 Proを打ち負かした。ChatGPT-5 Proを打ち負かした。そして、考える機能を有効にしてへん、ただのバニラ版のChatGPT-5も打ち負かした。

やから、このモデルは正しく実行されれば、ワイが今まで見たことのないことをするねん。これは本当に難しいテストやった。他のモデルがこれに近づくのを見たことがあらへん。一生懸命考えるバージョンのChatGPT-5の回答には、どちらの場合もA-をつけるわ。どちらも堅実な回答や。他のすべてはB以下やった。

プロンプト技術の重要性増大

やから、このChatGPT-5体験の初期段階でのワイの結論は、このモデルと本当に徹底的に格闘した結果、プロンプトはどこにも行かへんってことや。このモデルはコーディングが強い。このモデルは意図と深度の本当に明確な指標を与えへんかったら脱線するねん。良い回答を得るために何を求めるべきかを知る必要がある。

やから、それを知らへん多くの人々は、一生懸命考えることやシンキングボタンをクリックすることの表面下にどれだけのものがあるかを理解してへんから、まだモデルの力を十分に使えへんことになるやろな。そんな人にならんといてくれ。

優秀なライターとしての能力

彼らが正しかったのは、よりよいライターやってことも言うとかなあかん。データ分析についてたくさん話したし、コーディングについても話した。モデルの文章は、ワイがChatGPTから見た中で最高やで。以前の文章も好きやった。素晴らしいライターやと思ってた。ChatGPT-5は少なくとも同じくらい良くて、リズムと文章でわずかに良いと感じる。明確や。

まだプロンプトの新しさに過度にアンカーする傾向がある。やから、プロンプトを与えると、それにくっつく傾向があって、書こうとするときにフレーミングの問題があるかもしれへん。やから、また、意図の明確性に報いるねん。でも本当に本当に思慮深いライターで、読むのが恐ろしくない文章で書いてくれるのは、ちょっと良いな。

マルチモーダル機能の実力

良いリーダーでもあるって言うわ。実際に手書きのエッセイを食わせたんやけど、手書きを素早く解読して、編集用の別の手書きセットを解読して、エッセイについて自分自身の一貫した思考を生成できた。公正な批評やった。良いエッセイ批評やった。

やから、堅実なリーダーや。その点で完全にマルチモーダルやねん。コーダーやないで、データの人やない、マーケティングの世界、カスタマーサクセスの世界、プレゼンテーションを準備する幹部の世界にいる人たちが使うことになると思うねん。ワンショットグラフを提供してくれるし、素晴らしい下書きを提供してくれるし、考え抜く手助けをしてくれるから、日常のドライバーとして素晴らしく感じるやろな。思考パートナーのように感じるねん。

必要な注意点と警告

ここで必要な警告や注意点を含めるところや。コーディング、文章作成などで、個々のケースすべてでうまくいったこととうまくいかなかったことについて、かなり話してきた。ChatGPT-5に対してウェブ上で大きなバックラッシュがあったことを指摘したい。モデルが過大評価されてて、与えられた誇大宣伝に値しなくて、汎用人工知能にはまだ全然近くないっていう前提があるからや。

今、モデルはすぐにモデルボードで1位になったんやけど、同時に予測市場のPolyMarketがモデルをクラッシュさせて、世界で最高のモデルやないって言った。今日はみんなが本当に本当に大きな反応をしてるみたいやけど、本当に本当に思慮深いテストをしてる人はあんまりおらへん。

世界で最高のモデルかどうかは、そんなに重要やないと思うねん。それは常に動く標的やからな。今日、壁に押し付けられてネイト選べって言われたら、そやな、そう言うやろな。適切にプロンプトされたChatGPT-5は世界で最高のモデルやって言うやろな。

知能進化の文脈で理解する重要性

そうは言うてても、重要なのは実際には、これが進化する知能の端っこのどこに適合して、モデルがまだ苦労してる分野がどこかを認識することやと思うねん。彼らは幻覚に取り組んでる、より安全な補完に取り組んでる、より少ない欺瞞に取り組んでるって強調した。そこにいくらかの進歩は見える。o3よりも幻覚が少ないように感じる。今日のテストでも何回か幻覚をキャッチしたけど、完璧やない。

また、モデルが最初にAIに対する認識がシフトした瞬間と同じスプラッシュを同じ読者に与えるという継続的な前提があることも見てる。今、メディアの反応についてカエルが鍋で茹でられる問題があるねん。

メディアの反応が一番重要なことやないから最後に入れるんやけど、進化する知能曲線についてどう考えるかは重要やと思うから含めてるねん。ワイらは歴史的な瞬間を生きてる。このモデルは、AIとの相互作用において重要な一歩前進や。思考パートナーとして私たちと相互作用することにより近くて、幻覚の減少がそこに役立つと思う。医療のような高価値なことに取り組んだ仕事がそこに役立つと思う。文章改善に取り組んだ仕事がそこに役立つと思う。

人々はこのモデルをより信頼できると感じるやろうし、より正しいと感じるやろうし、それについて正しいやろな。

期待値調整の必要性

それをChatGPTがそもそもシーンに登場したときの衝撃や、覚えるのが難しいかもしれへんけどあった、ChatGPT-4への驚くべきジャンプ、またはo3推論へのジャンプと比較すると、人々はChatGPT-5で同じように感じるって前提してると思うねん。

ワイがみんなに残したいのはこれや。あなたが気にかけへん方法でモデルがそれだけインテリジェントになってるかもしれへんから、同じように感じへんかもしれへん。これはコーディング側で本当に大きなジャンプやったと思うけど、あなたはそれを気にかけへんかもしれへん。そして、現実的にはClaude Codeがしばらく王座を保ってた世界でのコーディング側でのジャンプやった。

やから人々は、「クラウドを打ち負かすか」などと言うやろうし、それについて多くの議論があるやろな。これは信頼性での大きなジャンプやったと思う。医療のことは正しく強調されたと思う。本当に重要な個人的用途でそれを使ってる人々。医療は大きなものや。おそらく法的なものも別のものやろな。正しくすることが重要やねん。

やから、ワイの提案は、医療情報をより正確に、大幅に巨大により正確にすることが、あなたにとって段階的変化のように感じへんかったら、前提を確認した方がええかもしれへんってことや。生死の決定をしてる人々にとって、それは重要になるからな。大幅により正確にすること、2倍、3倍より正確にすること、エラーを1点何パーセントとかに減らすこと、これが彼らの新しいヘルスベンチでの数字やと思うけど、それは大いに重要やねん。

書こうとしてる人々にとって、文章をより自然に感じさせることは大きな前進や。推論器である日常ドライバーを手に入れることは大きな前進や。「一生懸命考える」が何なのかを、ワイは知らへん、このような動画を見ることなしに、人々が完全に理解してへんとしてもや。

段階的だが意義深い進歩

ワイの要点はこれや。不規則に知能を進歩させてるモデルを使う驚くべき機会がある。このビデオの最初に言ったように、これはモデルの混合やねん。これらの下にあるモデルの多くで大きなジャンプがある。話したコーディング、文章でのジャンプ、医療面でのジャンプ、幻覚でのジャンプ。これらのことを気にかけるなら、本当に本当に大きく感じるやろな。

もしあなたが気にかけるのが、以前はしなかったけど今はするという「ウィズバン」だけなら、これはあなたのためのモデルアップデートやない。なぜなら結局のところ、他のモデルが以前にしたことをより良くするだけやからな。

それは期待に完全に沿ってると思う。ワイらは進行中の知能進化を生きてると思うし、それがどこで終わるか頂点に達するか、誰も知らへん。そして、ワイにとって、これは進行中の知能爆発にほぼ沿ってるように感じる。ChatGPT-6でもっとアップデートを見るやろうし、Geminiからももっとアップデートを見るやろうし、Claudeからももっとアップデートを見るやろな。Claudeも既に話してる。Grokからももっと見るやろな。新しい知能爆発のこのステップを楽しんでくれ。個人的にこれが世界で最高のモデルやと思うかどうかに過度にインデックスせんといてくれ。あなたにとって有用かどうかを見極めてくれ。うまく使ってくれ。あなたにとって有用やなかったら、来週また別のモデルが出てきて、そういうもんやで。そういう世界に住んでるんや。

信じられへん世界や。全体的な軌跡を見てくれ。ワイらはこのモデルがどれだけ素晴らしいか、どれだけ驚きかについて議論してるんやけど、2年前にこのモデルを見てたら、みんな岩から出てきた汎用人工知能やって誓ってたやろな。

やから、それをそう呼ぶかどうかは知らへんし、本当にどうでもええねん。有用なことをするかどうかを気にかけてる。本当の弱点がどこにあるかを気にかけてる。そして継続的な進歩を示すかどうかを気にかけてる。そして、これらの強みがどこにあるか、実世界の弱点がどこにあるか、そして正直言って、継続的な進歩があるという感覚を得てもらえたと思う。

これはワイの新しい日常ドライバーや。ChatGPT-5をチェックして、どう思うか教えてくれ。