本動画は、最新のAIモデルであるClaude Opus 4.5、Gemini 3、ChatGPT 5.1 Proの実世界における性能を比較検証したものである。ベンチマーク上の数値ではなく、実際のビジネス課題――クリスマスツリー販売業者の手書き出荷マニフェストと受領書の照合作業――を用いて各モデルをテストした結果、Claude Opus 4.5が最も実用的な成果を出すことが判明した。各モデルには異なる強みがあり、Geminiは大局的な洞察と物語の統合に優れ、ChatGPT 5.1 Proは明確に定義された問題の解決に強く、Claude Opus 4.5は混沌とした現実世界のタスクで一貫性を保ちながら作業を完遂する能力に秀でている。この比較を通じて、AIモデルを「購入するプラン」ではなく「仕事を任せる従業員」として捉える新しい視点が提示される。

Claude Opus 4.5の登場と主要な特徴
Claude Opus 4.5が登場しました。ちょうどGemini週間が終わったばかりなのは分かっています。私も息切れしていますが、心配しないでください。Opus 4.5とGeminiの比較について、実際にOpus 4.5が役立つと感じた場面や、まだGeminiを使う場面について詳しく解説していきます。全体的に深く掘り下げていきましょう。
まず、Opus 4.5とは何で、私たちが注目すべき主要なポイントは何でしょうか。ベンチマークの話は飛ばしていきます。Anthropicや他の企業が最高のモデルだと言っているヘッドラインはすでに読んでいると思います。最近はどのモデルがリリースされても、すべてのヘッドラインがそう言いますからね。
このモデルで興味深いのは、いくつもの特徴があることです。まず第一に、このモデルはClaudeの強みである長時間実行されるエージェント型タスクをさらに推進するために特別に設計されています。このモデルはその強みを継続的に発展させるように設計されており、Claude Codeだけでなくチャット機能においても、より長く、より一貫性があり、タスクに集中し続けることができると感じられます。これは本当に重要なことだと思います。なぜなら、私たちの多くにとって、チャットこそが日常的に使用する場所だからです。そして今回のケースでは、それをすぐに実感できるでしょう。
たとえば、以前はSonnet 4.5で作業していて、PowerPointファイルを作成している最中にコンテキストウィンドウの終わりに到達してしまうことがありました。20スライドのPowerPointで、Nateの素晴らしいプロンプトを使っていたのに、残念ながらコンテキストウィンドウの終わりにぶつかってしまう。私はそのためだけにプロンプトを書かなければなりませんでした。
しかし、もうその必要はありません。コンテキストウィンドウを圧縮して、チャットを続けられるようになったのです。私はこれを2つの異なる方法で実際に目にしてきましたが、それらは精度に対して異なる影響を与えます。ですから、ここで慎重に説明したいと思います。
Opus 4.5は、コンテキストウィンドウの終わりに近づいていることを認識すると、同じコンテキストウィンドウ内で意図的に作業を急ぎます。PowerPointを作成している場合、チェックをやめて何かを完成させなければならないと自分自身に告げるのを見てきました。これは非常に役立つ特性です。コンテキストウィンドウを認識するその能力は有用なのです。
さらに、従来のコンテキストウィンドウを超える必要がある場合、Anthropicが行うのは、Opus 4.5からSonnet 4.5に自動的に切り替えることです。コンテキストウィンドウの上部を見えないように圧縮し、その後Sonnetとの会話を続けることができます。これは完璧ではありません。圧縮されているため、すべてを記憶するわけではありません。しかし、実際に使ってみると、コンテキストウィンドウの終わりにぶつかって壁に衝突したような感覚になるよりもはるかに快適だと感じています。
ですから、これだけでも人々にとって大きな利点になると思います。また、これがClaudeからより具体的な成果をより頻繁に得られることにつながっていると感じています。もうこれ以上作れません、コンテキストウィンドウに到達しましたというメッセージは受け取らなくなりました。使用可能なドキュメントを得られます。PowerPointを得られます。Excelスプレッドシートを得られます。
基本的に、Anthropicが解放した長時間実行されるエージェント型機能が、はるかに有用なアウトプットに変換されるのです。皆さん、これが今回の動画のテーマです。はるかに有用な現実世界のアウトプット。なぜなら、魔法のようなベンチマークについていくらでも話すことはできますが、私が興味があるのは現実世界での価値であり、ほとんどの人もそうだからです。
実世界テスト:クリスマスツリービジネスでの検証
そして許可を得て、私がClaude Opus 4.5に課した実世界のテストを共有します。これは私だけではありません。私のSubstack読者の一人が最初に同じテストを行い、同じ結論に達して、そのアイデアを送ってくれたのです。
彼はクリスマスツリービジネスを運営していて、この時期は明らかに多くのクリスマスツリーを仕入れています。そして彼には照合する必要のある手書きの出荷マニフェストと手書きの受領書があります。これは最先端の大規模言語モデルに与えるには驚くほど良い問題です。なぜなら、実際のビジネス価値があるからです。
どのサイズのツリーが不足しているかを確認するためにマニフェストを照合する必要があります。そして、システムが照合を行えるだけでなく、出荷マニフェストと受領書から元の数字を正確に集計できることを確認する必要があります。
詳細な内訳が必要な場合は、Substackに掲載していますので、心配しないでください。たくさんの詳細があります。しかし重要なポイントは、そのテストを実行したときに、私はGemini 3、ChatGPT 5.1 Proをテストしていたということです。Claude Opus 4.5をテストしていました。そして、何人かの人に聞かれたので、Grok 4.1とKimi K2 Thinkingもテストしました。
そして、すべてに同じプロンプトを与えました。クリスマスツリーの出荷マニフェストからすべての数字をきれいに抽出し、受領書からすべての数字を抽出して、きれいな答えを返してくださいと言いました。
この規模がどれほどのものか感覚をつかみたい場合、数字は数百本のクリスマスツリーに及びます。そして、これらは鉛筆で1、2、3、4、5と手で集計されたものです。これは本当の実世界テストです。光学文字認識をテストします。モデルの作業メモリで複数の数字を保持する能力をテストします。複雑な計算を行う能力をテストします。実際にはピボットテーブル機能もテストします。なぜなら、出荷マニフェストは受領書とは異なる向きになっているからです。つまり、多くの異なることが起こっているのです。
Kyleが私に言ったこと――彼は私にこれを使用する許可を与えてくれた人ですが――彼は、Opus 4.5がこれを正しく処理した唯一のモデルだと言いました。私はビジネスでOpus 4.5を使っていますと。まあ、私にとってはそれで十分です。ビジネスオーナーがそれを信頼しているなら、私がやっているのは側面で少し洗練されたテストをすることだけですよね。そして、それが私にとっての金字塔なのです。
彼が言ったのは、Gemini 3はあまり役に立たなかったということです。そこで私も同じテストを行いました。Nateプロンプトを作成し、彼が親切にも共有してくれた画像を与えました。私は採点基準の金字塔を手に入れました。そしてこれはすべてSubstackに書き上げます。
しかしTL;DR(要するに)は、Opus 4.5は完璧ではなかったものの、数本のツリーの誤差の範囲内で、何時間もかかるはずだったプロジェクトを照合する作業に大きなスタートを切るのに十分近かったということです。これは5つの異なる種類のツリーにまたがっていて、約400本以上のツリーが関係しています。かなりの量です。
ですから、手作業で照合するには大変な作業だったでしょう。Opus 4.5は10倍、12倍、15倍速くしてくれて、誤差はあるもののそれほど大きくなく、場所によっては完全に正確で、不一致と不確実性の両方を認識しています。
つまり、私たちが何をテストしているかを考えると、Opus 4.5は光学文字認識を正しく行いました。複数の数字を作業メモリに実際に保持する能力を手に入れました。不一致を処理する方法を見つけ出しました。なぜなら、ここでは1対1の答えを得ることはできないからです。これら2つのリストの間には、願い消すことができない現実世界の不一致が本当にあったのです。そしてモデルはそれを認め、最終的には有用な答えを出しました。これが本当の金字塔であり、タスクに集中し続け、混乱したタスクウィンドウの中でも焦点を合わせ、価値を提供できるというエージェント的な性質を持っているというこの考えに戻ります。
各モデルの特性と比較
Gemini 3は2番目に良い応答でした。Gemini 3は集計のカウントを行うことができました。これは本当に難しいことのようです。鉛筆の印を認識することは、光学文字認識の厄介な部分の1つであり、私は意図的に難しくしましたが、Opus 4.5よりもはるかに低いスコアでした。
特に興味深かったのは、混乱したコンテキストを統合するという考えに合致する物語を持っていたことです。まあ、本当にきれいな物語を持っていましたが、その物語を理にかなったものにしたいという強い欲求があり、数字が本質的に不一致であるという考えに苦労していました。そのため、モデルは物語をどうするか考えようとしたときに、完全に内部的に一貫性のない答えを書くことになりました。
ここで1つの重要な文脈があります。「Gemini 3はクリスマスツリーの集計マークを読めない。彼らが言うほど優れたOCRモデルではない」と読み過ぎないでいただきたいのです。考古学者たちは「これは粘土板を読むための絶対的なゲームチェンジャーだ」と言っています。
これは、なぜ私や他の人々がこれらの物語を語ることがとても難しいのかを示す良い例の一部です。モデルは私たちが定義する製品ではありません。モデルは私たちが発見する環境なのです。モデルは成長するものであり、作られるものではありません。そして、私たちは皆、モデルという野生の森に冒険に出かけて、そこにあるものを発見します。
今回の場合、私はビジネスへの影響を持つ光学文字認識に関するモデルの一角を発見しました。それは1つの要素ですが、Gemini 3が光学文字認識で実際の進歩を遂げており、他の文脈ではそれに優れているという事実を覆い隠すものではありません。
ChatGPT 5.1 Proに移ると、正直に言って、このモデルが適切に機能するためには非常にきれいなコンテキストが必要だという私の感覚を本当に強化しています。きれいなコンテキストで素晴らしいことをするのを見てきましたが、これは汚いコンテキストウィンドウでした。手書きの数字の写真であり、数字のカウントにまったく正しく失敗し、単に最初の推定値を出して、不一致を是正しなければならないという誤った仮定の下で、残りを強制的に調整したのです。
きれいなコードアーキテクチャを設計している場合は素晴らしい本能です。これがChatGPT 5.1 Proが本当に感じられるものです。混乱した、汚い、現実世界の状況を扱っている場合は正しくありません。そして、5.1 Proはそれに失敗しました。
それから、Kimi K2とGrok 4.1をテストしました。どちらも5.1 Proよりもはるかに悪いスコアでした。ですから、私がそれらについて十分に話していないと言う人たちのために、私はひどいことを言わなければならないものについて話さないようにしています。どちらもあまりうまくいきませんでした。集計を正しくカウントできませんでした。分析を正しく行えませんでした。まったく役に立ちませんでした。
そして、これは本当に私の感覚と一致しています。これらのモデルは両方とも、最先端に位置づけられる評判を持つでしょうが、Gemini、ChatGPT 5.1、Claude Opus 4.5と比較すると、現実世界での適用性はそこにありません。
モデルごとの適切な使用場面
一歩引いて考えると、私が興味を持っているのは、モデルがどこで仕事をするのかを問うことです。そして、それはSubstackでもう少し詳しく話すつもりですが、ここでの動画での言い方はこうなると思います。
ChatGPT 5.1は、問題が完全に指定されているときに最も強力です。明確な要件、構造化された入力、よく理解されたコード。困難なアーキテクチャの推論があり、きれいな入力があって、システムがどのように設計または修正されるべきかを考え出している場合、その構造への愛は資産です。しかし、入力が混乱している場合、その構造への愛は負債になります。
ですから、曖昧さと格闘する代わりに、ChatGPT 5.1または5.1 Proはよりきれいな世界を好む傾向があり、時々強制的にきれいにしてしまいます。
Gemini 3は正反対です。ビジネスの角度、物語の統合が必要なとき、そして巨大なコーパスを扱いたいときに手を伸ばすモデルです。収益報告全体をスライドに入れることができるという事実は驚くべきことだと私は支持します。それは驚異的です。たくさん読むことができます。パターンを見ることができます。ストーリーを語ることができます。
トレードオフは、コンテキストウィンドウに複数の矛盾する数字や複数の矛盾する物語がある場合、Gemini 3は何かを思いつく傾向があり、実際に最も強い物語を選ぶための内部的な根拠を持っていない可能性があることです。
Opus 4.5はその間に位置しています。情報は混乱しているが仕事は具体的であるときに、実際に仕事をするモデルです。そして、それは私たちの仕事の多くがそうであることが分かります。だからこそ、クリスマスツリーの例は完璧だと思うのです。
ですから、私の作品のトーン、編集に取り組んだり、何か格闘しようとしているものの声を見つけようとしたりするのに使えることが分かります。そして、コードモンキーとしても使えます。ですから、時間をかけて一貫性を保つ必要がある機能やリファクタリング、接着コードを実装させることができます。そして、タスクに集中し続けます。
合意した構造を忘れることなく、複数のパスでデッキを構築することを信頼できるものです。Geminiよりも少し意見が少ないように感じることがあり、おそらくChatGPTほど容赦なく批判的ではありませんが、その代わり、タスクが長くなったり、コンテキストがより絡み合ったりしても爆発しません。
これらのモデルがどのように応答するかを説明するより簡単な方法を見つけようとすると、Geminiは混乱を解釈する傾向があり、これは何を意味する可能性があるのか、ここにはどんなストーリーがあるのか、と言います。これは有用です。そしてClaudeは混乱を忠実に再構築しようとします。実際にここにあるものは何か、あるいはそれをきれいに表現する方法は何か。
ChatGPTは混乱を抽象化する傾向があります。これをより解決可能な問題のよりきれいなバージョンに変える方法は何か。これらのアプローチのどれが正しいか間違っているかを言っているわけではありません。目の前の仕事にどれが一致するかに気付くためのトリックを提供しようとしているのです。
アーカイブから劣化した文書を読んでいる場合、解釈は機能です。在庫を照合している場合、再構築がより求められます。そして、プロトコルを設計している場合は、ChatGPTが提供する抽象化が必要です。
このレンズを通してモデルを見始めると、使用方法が自然に分かれ始めると思います。戦略、大局的な洞察を探している場合、私はGeminiに手を伸ばします。素晴らしい大局的な会話パートナーです。素晴らしいです。
Gemini Proがきれいな技術的問題解決において奇跡のように感じられるという事実を私は支持します。ChatGPTは、きれいなコンテキストウィンドウがある限り、非常に、非常に堅実であり続けます。
記事の異なるフォーマット間で一貫性を保とうとしているコードに触れる複数の編集を経なければならない何かについては、Opus 4.5が最も安全な手です。
画像、UIコンセプト、マーケティングビジュアルについては、Gemini Proが本当に役立ちますが、他のものでそれを養っていることに気付きます。今のところ、デッキについては、Claudeで構築し、そのClaudeのデッキをNotebook LM(Geminiで動作し、Gemini Proで動作します)を通して実行して磨き上げる傾向があります。Claudeによって構築された骨組みの上に視覚的な磨きをかけるのです。
これはブランドへの忠誠心についてではありません。モデルの個性を仕事に合わせることについてです。ちなみに、私がどのように書くのかと人々が聞くとき、その答えを出すのが難しい理由の一部は、すべての作品が異なるからです。
たとえば、この作品では、ビデオで下書きをしなければなりません。外に出て格闘し、現実世界のチェックを行ってから戻ってきて、カメラの前であなたと一緒に理解し、それを記事にまとめる方法を考え出さなければなりません。そして、一部の記事はそのように始まらないことになりますが、多くの記事はそうなります。なぜなら、私たちが一緒にやっているのは、モデルの現実世界の能力を発見することだからです。
まとめと今後の展望
最後に言う価値があるのは、このマップが変わり続けるということです。Anthropicは Opusを更新するでしょう。OpenAIは間違いなくChatGPTで何かを出してくるでしょう。GoogleはGeminiを押し続けるでしょう。
持つべきマインドセットは、Nateが最高のモデルを教えてくれたというものではありません。どうかそれはしないでください。それぞれが何が得意かについての作業仮説を持ち、これらのモデルがあなたのユースケースで実際にどのように機能するかを探求するにつれて、それを更新する意欲を持つことです。
今のところ、Opus 4.5は、現実世界のタスクの混乱した中間で確実に仕事を完遂してほしいときに雇うのに最適な選択のように見えます。それがどれくらい続くかは疑問の余地がありますが、その方向への大きな前進であり、それは祝福し、指摘する価値があります。
そして、最後の考えを残しておきます。私が「モデルを雇う」という言葉を使うのには理由があります。私たちは言語を少し切り替え始めるべきだと思います。どのプランを購入しているのかから、どのモデルを仕事のために雇っているのかへと。これらのモデルがより多くの成果を生み出すポイントに到達するにつれて、価格設定がなぜそのように機能するのかを理解するのに役立つからです。
仕事をするためにモデルを雇っていて、その仕事が月に10時間、15時間、20時間、30時間節約してくれるものであれば、それに支払っているお金は価値があります。あなたはそれを仕事をするために雇い、それはあなたの皿から仕事を取り除いているのです。2026年に入るにつれて、このマインドセットがますます機能するのを見るでしょう。
ですから、それはちょっとしたイースターエッグです。そして、それが私がOpus 4.5から得たものです。Opus 4.5についてあなたの見解は何ですか。


コメント