本動画は、OpenAIのGPT-5とAnthropicのClaude 4.1 Opusという最新AIモデルの包括的な性能比較テストである。コーディングタスクとビジネス推論タスクという2つの主要領域で両モデルを評価し、それぞれの得意分野と限界を明らかにする。3Dシティ生成テストでは視覚的表現力と実装の安定性を、AGI到達予測を含む市場分析タスクでは高度な推論能力と情報整理力を検証している。

最新AIモデル対決:GPT-5 vs Claude 4.1の性能比較
皆さん、フューチャークルーへようこそや。僕が戻ってきたで。家には可愛い男の赤ちゃんがおって、お母さんも赤ちゃんも元気で健康や。それで数時間だけ抜け出してきて、Claude 4.1を深掘りしてみようと思うねん。GPT-5を見逃してしもたのは残念やけど、Anthropicの最新モデルと比べてどないなもんか見てみよか。コメントでお祝いの言葉をくれた皆さん、ほんまにありがとうな。みんな健康でよかったし、これから2人の子育てがどんなもんか体験してみるわ。
今日はClaude 4.1を見ていくで。GPT-5と比較してみる予定や。あっちの結果には結構感動したからな。4.1がどこまで対抗できるか見てみよか。
クラウドクライアントでシティプロンプトを設定してあるで。Opus 4.1を選択して、拡張思考も有効にしてある。これを送信してみるわ。いつものように、色んな種類の建物がある現実的にレンダリングされた街を探してるねん。車と道路がどう相互作用するかにも特に注意を払ってる。これまでのモデルにとってはいつもつまずきポイントやったからな。
比較のために、ChatGPTクライアントでも同じプロンプトを設定する。GPT-5 thinkingを選択して、これも送信するで。両方に思考と実装の機会を与えて、全部準備できたら戻ってくるわ。
おお、おお、おお、おお。大丈夫や。フルスクリーンにしよか。Claudeから回答が返ってきた。なかなかええ感じやな。フルスクリーンにするで、悪くないな。おお、あれはズームしてるんか?うん、僕がズームしてるんや。
Claudeのシティ生成結果を評価
よし、Claudeの回答を読み込んだで。めっちゃええ感じやな。今まで見た中でも確実に良い方の一つや。超リアリスティックに振り切ったわけじゃなくて、カートゥーンっぽいゲーミーな見た目にしてるけど、一貫性があって見た目的にも出荷できそうなアプローチって点では良いわ。明らかに完璧じゃないけど、車は今まで見慣れてたのより少し詳細になってるな。
うん、道路に従ってる。道路が道路に従ってるって感じやな。なんか変なグレーの物体があるけど、僕はこの基礎部分がめっちゃ良いと思うねん。よくある初回パスだと「うーん」って感じやけど、これは「おお、ちょっとデザインセンスがあるな」って感じやな。最適化できる部分はたくさんあるけど、初回としてはセンスを感じる。木もめっちゃ良い感じや。ほぼ全てのアセットに少し余分な詳細が入ってる。
シティサイズから始めて、それを上げて新しい街を生成してみよか。街のサイズが大きくなった。より良く見える。より大きなサイズで建物密度を上げることができる。より密集してるのが分かる。建物密度を下げると、もう少しスパースな街になる。時間帯もコントロールできる。
おお、見てみ。おお、見てみ。建物に明かりが点いてる。小さな夕日が出てる。建物に明かりが点いてるで。こんなの見たことないわ。うん、確実にある。でもこんなに上手く実行されたのは見たことないな。これはほんまによくスタイライズされてる。それで完全に夜にすると、街の明かりがほんまによく見える。
これは確実に今まで見た中で最高の回答かもしれん。またリアリズムの点ではなく、スタイライズされたゲーム風の作品としてはな。天気でも遊べるで。試してみよか。天気を雨に設定できる。ちょっと霧がかかってくる。おお、雨が降ってるのが見える。雨粒やな。それを雪に変えると、もう少し雪っぽくなる。うわ、その雪めっちゃ速く動いてるな。霧にも設定できる。おお、見えへんくなった。めっちゃ濃い霧や。街がかろうじて見える程度や。でもこれはめっちゃクールやな。
ほんまに良い初回試行やと思う。GPT-5が何をしたか確認して、比較してから両方のモデルにフィードバックを与えよか。
GPT-5との比較とエラー対応
また始まった。再生成を試してみたな。うん、GPT-5はもっと複雑な実装をしようとしたみたいやな。異なる道路レイアウトがある。サンドボックスの実装を試してる。コンソールにエラーはない。ただウィンドウがクラッシュする感じやな。何が起こってるか分からんわ。
GPT-5にもう一度機会を与えよう。何が起こってるか知らせて、Claudeの方にもフィードバックを与える。全部キューに入れとこう。
GPT-5のフィードバックはもう送信済みや。前回からのエラーを修正するよう依頼してる。Claudeの方では、建物の配置、木の配置、地形の配置について調整を求めてる。建物が道路の上にあったり、地形が道路より高くなったりする変なクリッピングが見えないようにな。それから歩行者についても求めてる。これはClaudeが見逃したプロンプトの一部や。さらに建物タイプと地区についても求めてる。これもまたClaudeが見逃したプロンプトの別の部分やな。
Claudeはまだ作業中や。エージェント的な反復を何回かやってる。それを続けさせとこう。その間にGPT-5が戻ってきた。エラーを修正できたかどうか確認してみよう。めっちゃ長い回答やな。ほんまにゲーム全体を作ったって感じや。うまくいくとええけどな。
コンソールエラーはあるか?おお、もうダメか?おお、よし。よし、よし、よし。コンソールエラーがあるな。動くようにしよう。Claudeを確認してみよか。まだ動いてる。反復の間でローディングしてるのが見える。おお、終わった。
ウィンドウは保持できたな。地面のクリッピング問題は実際には修正してない。うん、部分的には修正した。ちょっと悪く見えるような気がする。でも修正しようとした形跡はある。ただ密度をかなり失ってしまった。これが次回の主なフィードバックになりそうやな。
面白いことに、あそこにあるのは街灯やと思うんやけど。いや、あれは歩行者や。どこに?よし、街にはいないだけやな。おお、もう一人いる。あいつ速く動いてるな。動いてる、動いてる。あいつ終わらせようとしてるんやな。端っこに向かってる。
建物密度を上げてみよか。明らかに異なる建物タイプがあって、これはフィードバックの一部やったんやけど、街の大部分を失ってしまったのが残念やな。
Claudeにもう一度やってもらって、建物の多様性と質、地区、それから気づいた密度問題に焦点を当ててもらう。もう一つ付け加えたのは、公園が街のグリッド構造から分離してることや。道路の上に置かれただけの円みたいになってる。物とクリッピングしてる。だから公園を街の全体的なグリッド構造に統合してもらって、複数のブロックにまたがる公園も含めてもらうように求めてる。どう処理するか見てみよう。
これが動いてる間に、GPT-5を確認してみよう。修正版が戻ってきてることを期待してる。
Claude 4.1の改良版結果
皆さん、このモデルについてめっちゃええ話を聞いてたんやけどな。GPT-5からまたエラーや。ほんまにきつい日やわ。これは何なんや?これは進捗を失うってことか?以前はそうやった。うん、まあうまくいけば今は非同期になってるやろう。いや。
制限に達してしまった。残りのテストはAPIに切り替えなあかん。でも最後の回答は実際に戻ってきたみたいやな。だからAnthropicは非同期リクエストの処理が上手くなったのかもしれん。とにかく、それを読み込んで何を組み立てられたか見てみよう。
ちょっと有望に見える。よし、まだ最初のやつの方が好きやけど、少なくとも…おお、噴水や。クールやな。木が中にあるけど…まあ、確実に最初のやつより良い。もっと間違いがあるかもしれんけど、建物の多様性がはるかに良い。ピラミッド屋根の小さな家がある。小さな長方形の建物もあって、高いビルがある密集したダウンタウンのようなエリアもある。
建物にはまだランダムに配置された窓があって、これはクールや。中にはバルコニーがあるように見えるものもあって、これはナイスなタッチや。Claudeは過去に見た多くのモデルよりもセンスがあるようやな。公園に小さな噴水まで追加してて、これはClaude 4.1の噂の一部やった。味を少し洗練させたって話やった。特にバイブコーディングゲームについては、もう少しセンスを持ってるって言われてた。僕らもそれを見てると思う。
うん、確実に同感やな。スタックされたコラムで建物をもっとユニークにしてるようなクールなことも起こってる。それから公園を街の構造に統合してもらったフィードバックにも応えてくれて、複数のブロックを占める大きな公園もある。車がこれらの公園を通り抜けることはできる。完全には処理してないけど、小さな歩行者が走り回ってるのを見るのは楽しいし、確実にこのチャレンジで見た中でも最高の、少なくとも最もバイブ的な回答の一つやな。ほんまに素晴らしい。
制限の問題でチャレンジモードは課題として残さなあかんと思うけど、GPT-5をチェックして、最後の試みで自分自身を修正できたかどうか、うまくいけば比較ができるか見てみよう。
おお、すげー!そして来た。後ろから追い上げてきた。
GPT-5の最終結果と総合評価
わあ。さっきまでGPT-5をずっとdisってたんやけど、エラーを連発してたからな。でも実際にはかなり良い回答を出してきたみたいや。これはClaudeに多様性を求めるフィードバックをまったく与えてない状態でのことやからな。
これもかなりバイブ的な回答やと思う。建物をミニマルに保った方法が好きやな。Claudeの最初の回答を思い出させる。車が見える。車が道路に留まってるのが見える。歩行者が歩き回ってるのが見える。異なる建物タイプ、異なる地区が見える。密度を上げることもできる。これは文字通り街のスケールを取った。これは実際に街やねん、街風やなくて。
めっちゃクールで、街の一部を切り取ってる川もある。今まで見た中で最も高度な街のレイアウトや。ブロックの中央に中庭があったり、道路沿いに意図的に建物を配置したりしてる。これを組み立てられたのを見るのは良いことや。
でも良い回答が見られて、明確な勝者を宣言することはできひんな。異なることをしたんや。スペクトラムの異なる側面やろな。GPT-5がこれまで印象的で、よりシム寄りやな。でもClaudeのバイブはかなり良かった。
君の言う通り、明確な勝者はおらんけど、確実に異なってて、これらの違いがあるのを見るのはクールや。両方とも全く異なる実装を持ってたのがクールやな。その方が楽しいわ。シミュレーションのレベルにはめっちゃ感動してる。
この建物には窓がない。これはもっと建築ビジュアライゼーション的な設定に向かったんやな。都市計画をやってるようなもんやけど、本当に都市スケールや。うん、僕も明確な勝者は分からん。少なくともこのテストでは、コーディングの信頼性という点では、Opus one。うん、確実にな。
このマップがフィードバックを得たらどんな風に見えるか、めっちゃ興味深いな。窓を求めたり、異なる建物タイプを求めたりしたらな。ClaudeとGPT-5の両方の回答をオープンソースにする。コメントで誰かがそれを実行してみたり、何が得られるか試したりしたい人がいたら、絶対教えてくれ。チェックしたいからな。
明確な勝者がいないのはいつも楽しい。明確な勝者がいない時はいつも楽しいな。コーディングについてはGPT-5対Claude 4.1 Opusについてどう思うか絶対教えてくれ。これで、通常とはちょっと違うひねりを加えたビジネス推論テストに移ることができると思う。
ビジネス推論テスト:AGI競争の分析
よし、セットアップした。
ビジネス推論テストのセットアップができた。さっき言ったように、通常のクライアントでクレジットを使い切ったので、Anthropicコンソールに切り替えなあかん。Opusを選択してる。思考は寛大な予算でオンになってる。それからウェブサーチも制限なしでオンになってる。
プロンプトは、プロバイダー間での最新LLMの性能を集めるための深い研究を求めてる。いつもやってることやな。それからこれらのモデルをサポートするための計画中、進行中、完了したインフラプロジェクトに関する追加データの収集も求めてる。目標は、これらのモデルにAGI競争を分析してもらって、モデルがどうなってるか、その競争をサポートするのに必要なインフラ、それからAI 2027のような予測、いつAGIに到達するか、インフラの課題はどう進むか、そういうことや。
これを送信して、GPT側でも同じものを送信する。もう戻ってきた。うん、よし、Claudeから回答があるな。読み通してから、どう思うか教えるわ。
ざっと読んでみた。しっかりした回答やったと思う。僕らがよく見る問題があって、各モデル用のデータポイントが一致するように、モデル間で比較するのに十分なベンチマークデータを集めようとしてるんやけど、最近テストした一部のモデルと似たようなことをしてて、各モデルまたは各モデルファミリーに対していくつかのベンチマークを引っ張ってきただけやった。
僕が見た限りでは、自分で気づいてなかったようで、これはちょっと残念やけど、大部分は最新のモデルを取得した。いくつかの主要機能も呼び出してて、それからインフラについて話してる新しい部分では、いくつかのインフラプロジェクト、主要プレイヤーからの投資をリストアップしてて、政府がどう関わってきてるか、電力要件、データセンター建設に必要な冷却技術についても話してる。だからこれは良い基盤やと思うし、分析フェーズに移るのが楽しみや。
分析フェーズでは、さっき言った通り、AI 2027のようなテーマで、この競争が時間とともにどう進歩するかの予測と予想を求める予定や。モデルの予想性能、時間とともにのデータセンター投資の予想、そういうものを見たいねん。
セットアップしてから送信するわ。これを見てるか?よし、GPT-5からも回答がある。ざっと読んでみて、どう比較されるか見てみよう。今度はインタラクティブや。インタラクティブやと相互作用したくなるな。
ざっと読んでみた。最初に気づいたのは、このクールなインタラクティブテーブルから始まってることや。テーブルではソースが少しめちゃくちゃになってるけど。でも最初のテーブルはモデルのコレクションや。Claude Opus 4.1を含む最新のものをキャッチしてるようやった。Claude Opus 4.1自体はキャッチしてなかったから、それを見るのはクールやった。でも全体的に似たようなデータセットで、ベンチマークに関しても似たような状況で、ハイライトを集めてるだけやった。
それからインフラ研究についてもう少し詳しく説明してて、同じプロジェクトの多くをカバーしてるけど、使ってる特定のハードウェア、規模、完成のタイムラインについてのより多くの情報を集めてる。それからデータセットの内容を高いレベルで説明するテキスト部分があって、何が最も重要だと思うかを呼び出してる。
ここからGPT-5の動画で気づいたことが見え始める。過去に見たものよりももっと親切なモデルやということや。この部分はClaudeの回答には存在しなかった。全部大きなテキストダンプのようやった。この場合は、Claudeのテキストダンプのペアダウンされたより焦点を絞ったバージョンと、実際のデータを含むテーブルがある。
それからテーブルの読み方についてのメモも与えてくれる。もう一つの良い基盤的回答や。完璧じゃないけど、ひどくもない。組織化と親切なメモの点で少し高くランクするかもしれんけど、Claudeと非常に似たデータセットを集めた。
このテストは主に分析フェーズについてやと思うから楽しみやな。これらのモデルがAGIタイムラインで何を予測してるか見たいねん。それを進めよか。
分析フェーズ:AGI予測と投資分析
よし、やっとAnthropic側のセットアップができた。前回の回答からの応答がモデルのコンテキスト制限を超えてしまって問題があったんや。前回からの思考と検索を含む総応答が50万トークンぐらいやったから、データ収集部分だけを新しいスレッドにコピペしようとしてたんやけど、コピーに問題があった。それでスクリーンショットを撮ってOCRを使うような汚い戦略を使わなあかんかった。でもやっと到着や。
重要じゃないけど、継続的な分析と研究、Pythonチャート、そしてAI競争で何が起こるか、それがモデルでもインフラでも、それが競争にどう影響するか、そしてAGIがいつ到達されるかの最終予測についての予測を求めるプロンプトがある。どう解釈するか興味深いから、今送信できる。
GPT-5用に少し調整した同じプロンプトを用意して、コードインタープリターを使うようにした。これも送信するわ。
Claudeの回答をざっと読んでみた。全体的に、めっちゃ良い回答やと思う。エグゼクティブサマリーから始まる。この辺りは軽く流そう。シンクタンクや分析会社などからの予測について説明してる。それから最初のフェーズで収集したデータの分析に移る。投資について話して、時間とともにのインフラ投資の予測を立ててる。
スケーリング法則について素晴らしい観察をしてて、事前トレーニングスケーリングではなく、テスト時計算と事後トレーニングに移行したことについて話してる。事前トレーニングはまだ起こってるけどな。それから一堆のチャートを作った。見てみよう。
専門家のコンセンサスに基づくAGI到達確率分布から始まった。このデータをどこで得たかよく分からん。Pythonコードをオープンソースにするから自分で確認してくれ。確実に専門家の予測を見つけてたけど、実際にこのチャートを作るのに十分やったかどうか分からん。だから調べる必要がある。
でも中央値と異なる百分位数を指摘したのはほんまに良いと思う。AGI予測で2029年の中央値になってる。それから時間とともにの累積AGI確率について話してて、似たようなデータセットに従ってる。それからAIインフラ投資について話してる。
これは多分最悪のチャートの一つや。McKinseyの平均の平坦線をグラフにして、保守的対積極的で普通のシフトアップとシフトダウンをしてるだけや。スケーリング法則での性能対投資について話してる。「ここにいると思う場所で10兆投資してAGIという新しいパラダイムを得る」というのは疑わしいと思うけどな。
それから「スケーリングアプローチの経済効率」も混乱した。僕が読んだところでは、投資が上がると単位あたりの性能が下がるって言ってる。何を言おうとしてたかは、投資が上がると単位性能あたりのコストが下がるってことやと思う。グラフにしたのとは逆やな。だからこれはちょっと混乱する。
それから経済影響予測を作ってて、AIがGDP全体にどれだけ貢献するかで、2029年から2030年の時間枠を中心としたS字カーブを示してる。2030年代半ばまでに、AIがGDP全体の4分の1を占めるようになるって言ってて、興味深い予測や。
それから労働市場の変化と雇用がどう置き換えられるかについて話してる。ここにAIによって作られる新しい雇用のための非常に重い緑の線があって、純雇用変化はわずかに負やということや。この緑の線は赤の雇用喪失線からはるかに遠くなって、青い純雇用変化線がもっと負の方に行くと、多くの人が同意すると思う。
AIが雇用喪失を引き起こすという言ってはいけないことを言うのを考慮してるのは好きやけど、ここでは少し甘くしてるようやな。それからMcKinseyチャートと呼んでるものがあって、AI競争のマイルストーンがあって、ほとんどがAGI確率の閾値やインフラへのマイルストーン投資のどちらかに関係してる。
全体的に、かなり徹底的な分析をしようとした。結論は疑わしい。計算方法は少し怪しいけど、ビジネス推論でこれまでも見てきた。これはかなり良いと思う。McKinseyコンサルタントって冗談言ってるけど、これは実際に大学院生とかがビジネス決定を下すのに使うようなチャートやな。変に聞こえるかもしれんけど。
結論が間違ってても、それが最も重要な部分やけど、少なくとも提示の仕方やストーリーをまとめようとする方法でもう少し斬新になり始めてる。だからそれは良いことやと思う。
これらのチャートを生成した後の主要な予測を確認してみよう。僕らが話してた内容を呼び出してて、AGI中央値が2029年から2030年の範囲にあって、時間とともにのインフラ投資、2030年代には最終的に年間1兆ドル以上のインフラ投資について話してる。それから一般的なことについて話してる。
AI データセンター支出の急速な成長のような重要な制約を呼び出してて、インフラへの支出だけで経済に実際の支出の面で影響を与え始めてることについて。実際の予測や単一の勝者を呼び出してないし、AGIが実際にどう起こると思うかも言ってない。ただその日付と少しぼやけたタイムラインを与えてくれるだけや。
全体的に良い回答や。正しいことを考えてると思う。データが最良じゃなかった可能性があることに気づいた。チャートの一部を間違えたけど、全体的には正しいことを考えてる。もう少し意見のある分析と、「TLDR、重要なものはここや」というような親切な呼び出しがもっとあればよかったんやけど、チャートに何があったかを呼び出すだけじゃなくて。実際にはテキストの壁やし、あまり親切じゃないねん。
これが今まで見た最高のビジネス推論結果やとは思わんけど、ディランが言ってたように、ほんまにコンサルタント品質に向かってる。だからそれがその業界にどう影響するか興味深いやろな。OpenAIを確認してみよう。
もちろんGPTはクライアント内でPython自体を実行できる。だから実際にクライアント内でチャートを生成した。手動で実行する必要がない。これを読み通してから、どう思うか教えるわ。
チャートとレポートを見てみた。かなり良い仕事やった。この最初のやつだけは少し混乱した。トレーニング計算と効果的計算インデックスについて話してた。
うん、それが何を意味するかよく分からんかった。レポートを見てみたけど、少なくとも僕らが見た限りでは、あまり言及してなかった。ハードウェア中心で電力消費とかについて話してたと思う。それが何を意味するかほんまに分からんかった。だから最高のチャートじゃないな。
次のいくつかはかなり興味深い。これは単一のフロンティアモデルの予想電力消費をプロットしてる。時間とともに電力が大規模な制限要因になる可能性があることを説明しようとしてるんやと思う。保守的、ベースライン、積極的なケースがあって、レポートを通してある種の裏付けがあるけど、AGIに向けてトレーニングし始めるときに電力消費がどれだけ大きな影響を与える可能性があるかを示してるだけやな。Claudeがやったのとはかなり違うアプローチや。
面白いアプローチやな。それからこのようなインフラリソースアプローチを続けて、データセンターレベルの電力需要について話し始めて、似たような予測をしてる。ベースケースとしてIEAの作業を使ってて、前の研究でそれを見た。だから既存の研究を取って、その上に予測したんや。
それから前からのデータの一部を引き戻して、この超長いレポートに飛び込む。全部を必ずしも通らんでもええやろ。最初に気づいたことの一つは、サム・アルトマンのツイートのように読めることや。全部小文字で、この「i also generated a few charts」の「i」も小文字や。何かが起こってる。あまりにもインフォーマルになるように誤ってトレーニングしたんやと思う。
うん、そんな感じやな。でも内容自体は非常に有用や。上部にTLDRがあって、トレーニング計算がどれだけ速く複合してるか、総計算と総スループットで桁違いに増加した新しいデータセンターを構築するサイクルは何かについて話してる。
それからインフラがボトルネックやって話してる。データクランチは既にある意味で起こってるのに、データクランチより前に電力クランチが来るって話してる。それから色んなプロバイダーとその強みについて話してる。
MicrosoftとOpenAIのパートナーシップがStargateの拡張パスを持ってることや、Googleが独自のTPUの取り組みから大きく恩恵を受けてることなどを話してる。これは全部呼び出すのに良いことや。
それから最後でもう少し興味深くなってくる。モデルがどう進化してるかについて話してる。トークンあたり超高価で素晴らしいワンショット性能を持つ大規模なGPT-4.5スタイルのモデルはどんどん少なくなって、推論が組み込まれてたり、専門家の混合アーキテクチャを持ってたりして、全トークンでより安い推論を得る方法や、より推論努力が必要な問題で少しより多く使う、より賢いモデルがどんどん見られるようになるって話してる。
それからAGIタイミングについて話し始める。Claudeよりももう少し興味深い内訳を与えてくれたけど、予測では2030年周辺という非常に似た中心点を持ってる。時間ごとの信頼区間を提供してて、Claudeもチャートでやってたけど、もう少し正当化してる。
後で「いつAGIに到達するか?」について話してる。ウィンドウについて話してる。収集して分析したインフラデータに基づいてウィンドウを正当化してる。それからAIがウィンドウより早くまたは遅く来る可能性と、なぜそれが起こるかについて話してる。
早く起こるなら、アルゴリズムの改善が必要になるだろうって言ってる。既存のスケーリングトレンドに従うだけでは、ある種のアルゴリズムのブレークスルーなしにはそこに到達できない。後で起こるなら、電力クランチや政府レベルでの政策摩擦による何らかの問題があるって言ってて、そのスリップを引き起こしてる。
ここでGPT-5のより強い推論が見える。Claudeの方は、最初にそれらのチャートを見て「うわ、良い思考」って思うかもしれんけど、テキストを読むと「ああ、これはそれほど深く感じない」ってなる。用語を定義して、確率を検討して、どちらの端に行く理由を説明してる。
ここで行われた研究により自信を感じるし、表現は好きじゃない。だから純粋に、これは非常に徹底的な回答で、よく研究されて正しいレバーを特定してると感じるけど、よく表現されてなかった点で、OpenAIに軍配を上げるかな。
うん、この回答は確実にもっと親切な情報を指摘してる。もっと僕を助けるようにチューニングされてるって感じや。何を見るべきか、どのメトリックを見るべきか、予測のリスクは何か、逸脱を見るために何を探すべきかをたくさん教えてくれる。
Claudeクライアントで制限に達してしまった。だからクライアント対APIでより個人化された回答や、回答がより親切に感じられたかどうかをコメントで教えてくれ。でも完全に同感や。これはもっとナビゲートしやすく感じる。議論のフレーミングが分かる。用語の定義が好きや。非常に権威のあるソースを使ってるように見えた。
うん、両方の回答をオープンソースにする。クリスが言ってたように、両方とも強みがある。Claudeは少なくともチャートの表現で素晴らしい仕事をした。ビジュアルは場合によっては何が起こってるかを理解するのがはるかに簡単になるけど、実際にテキストを掘り下げると、より高いレベルの推論の証拠があって、それから「これは実際にユーザーにとってどう重要か?」みたいな、アライメントの有用性部分がある。GPT-5の回答でそれをもっと見てる。
興味深いことに、このテストはオンラインで見るバイブにかなり対応してて、Opusはより信頼性の高いコーディングモデルのように見える。プロンプトを出すたびに何かが動くものを得たと思う。だからそれは素晴らしかった。ビジネス推論テストに移ったとき、GPT-5の最先端推論がほんまに輝いて見えた。より高いレベルで考えてた。より良い結論を作ってた。
Claudeは少しより良いビジュアルバイブを持ち続けた。チャートがあった。チャートのビジュアルはより良く感じた。街のバイブがより良く感じたのと同じように、でも街がどう見えるかの実際の推論は少なかった。ビジネス推論でも、ビジュアル表現はより良いバイブを持ってたけど、推論を掘り下げると、後れを取ってた。
何をやってるかによる。Claudeは引き続き世界クラスのコーディングモデルやと思う。でも推論された回答を探してるなら、GPT-5がここでは優位に立つやろ。答えをより信頼する。用語をより良く定義した。問題をより徹底的に考え抜いた。
チャンネルで前に言ったことやけど、異なるモデルには異なる強みがあるやろな。だから多くの人が全てを支配する一つのモデルがあると仮定してるけど、進歩するにつれて、異なるモデルのこれらの専門化は続く可能性が高い。
だからここで完全な勝者を宣言するのは難しい。コストパフォーマンスの点では、多分まだGPT-5に優位を与えるやろうけど、Claudeは非常に驚くべき結果を示した。
そこには同意するわ。確実にGPT-5に優位がある問題もある。Claudeの方が良い問題も確実にある。既存の街のゲームがあって、居心地の良いゲームルックを得たいなら、Claudeにそのルックを求めるやろな。GPT-5にはそれがあるか分からんけど、その街のゲームがより複雑なレイアウトで本当の街のように見えるようにしたいなら、GPT-5に求める。
二つを比較するという点では、実際にこれにかかったコストを考慮すると、数字をパンチする必要があるけど、Opusははるかにはるかに高価や。だからいつかテストを実行すべきやな。これを見たいか教えてくれ。4.1 Sonnetも見てみるつもりや。
何かにOpus対GPT-5を実際に使うことになったら、トークン代を払うなら常にGPT-5に行く。クライアントで起こってるなら、両方とも素晴らしいモデルで少し異なる強みの領域があるから、多分両方にリクエストを送る。でもフロントでのこの種の競争を見るのは素晴らしい。
Geminiが次に何をするかほんまに見たいな。これがAI競争のこの夏の終わりの脚で欠けてる部分やと思う。すぐにGeminiから何かを見ることを期待してる。注目し続けよう。
うん、何をカバーすべきか教えてくれ。出てきたものがたくさんあると思う。オープンソースモデルがある。明らかに4.1 Sonnetがある。コンテンツという点でGPT-5でできることもずっと多い。何を見たいか、いつものように教えてくれ。動画が気に入ったら、いいねをしてくれ。全ての動画を最新の状態に保つために登録してくれ。チャンネルの成長にほんまに役立つ。見てくれてありがとう、みんな。
みんな、ありがとう。ありがとう。


コメント