OpenAIの新GPT 5.5がリリースされClaude Opus 4.7を追い詰め自らが最高だと主張

GPT-5
この記事は約15分で読めます。

OpenAIが新たにリリースしたGPT 5.5は、AnthropicのClaude Opus 4.7との激しい競争を繰り広げている。GPT 5.5は従来モデルよりも高い知性を持ちながらトークン消費量を抑えた効率性を実現し、プログラミング、科学研究、データ分析において顕著な性能向上を見せている。特に生物学・バイオインフォマティクス分野での強化が目立ち、OpenAIが疾病治療の発見などで成功事例を作ろうとしている意図が透けて見える。一方でAnthropicは価格を引き上げる戦略を取っており、コストパフォーマンスの面でOpenAIが優位に立っている。ベンチマークではGPT 5.5とClaude Opus 4.7が拮抗する場面も多いが、全体的にGPT 5.5が安全性テストやターミナル操作で優れた結果を示している。中国製AIモデルとの価格競争も激化する中、どのAIを選ぶかがユーザーにとって重要な選択となっている。

NOVO Chat GPT 5.5 da OpenAi Liberado Coloca Claude Opus 4.7 Contra Parede e Diz Ser Melhor
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

GPT 5.5のリリースとAI競争の激化

皆さん、OpenAIがGPT 5.5をリリースしました。これでAnthropicとOpenAIの間の戦いにさらに火が付きました。Opus 4.7とGPT 5.5のどちらが最高なのか、そして何よりどちらがより価値があるのかを巡る争いです。それに加えて、Anthropicは最近価格を引き上げる傾向にあります。Proアカウントからクラウドコードを無効化しました。一方でOpenAIは改善を続けており、Anthropicははるかに競争力のある価格設定など気にも留めていません。では何が起きているのか理解していきましょう。

いつもライクを押してくださる皆さん、チャンネル登録してくださった皆さん、本当にありがとうございます。そしてこの人工知能チャンネルをスポンサーしてくださっているチャンネルメンバーの皆さんに特別な感謝を申し上げます。メンバーの方々はインテリジェントエージェントに関する限定動画にアクセスでき、そこではWhatsAppとの統合、MCP、PDFや表計算ファイルの読み取りなど多くのことを行っています。限定動画もご覧いただけます。

GPT 5.5の特徴と新機能

さて皆さん、今日のニュースはこれです。GPT 5.5が登場しました。OpenAIは実際の仕事のためのインテリジェンスクラスだと言っています。つまり基準が引き上げられたということです。皆さん覚えていると思いますが、昨年末からOpenAIは深刻な衰退期に入り、誰もが追い越していきました。Grokだけが追い越せなかったくらいです。しかし一方で彼らは開発に集中し、今は遅れを取り戻そうとしています。今回はうまくいくか見ていきましょう。

彼らは何と言っているのでしょうか。これまでで最も賢く直感的だと言っています。コンピュータでの作業における新しい方法です。彼らがこのモデルで実現しようとしているのは、非常に自然な形で要求を伝えることです。たとえ非常に正確に要求しなくても、モデルは可能な限りあなたが求めたことに適応しようとします。あなたが求めていないことまで含めて、正解を導こうとします。

なぜならGPT 5.5はあなたが何をしようとしているかをより速く理解し、より多くのタスクを自力で実行できるからです。文章作成、コードのデバッグ、オンライン調査、データ分析、ドキュメントや表計算の作成、ソフトウェアの操作、そしてタスクが完了するまでツール間を移行することに優れています。この部分は特に新しいことではありません。すでにやっていたことを正確に続けているだけです。

しかし彼らはこう言っています。各ステップを注意深く管理する代わりに、GPT 5.5に複数の部分に分かれた複雑なタスクを委任でき、計画を立て、ツールを使用し、作業を確認し、曖昧さに対処して、タスクの実行を続けることを信頼できます。

今日では誰も使っていない人工知能だけがこれをやっていないと言えるでしょう。2026年のこの時期に、AIシステムに期待する最低限のことは、一連のツールを与え、タスクを依頼し、コーヒーを飲みに行って、戻ってきたら仕事が完了しているということです。それが私が期待する最低限です。もしコーヒーを飲みたくないなら、並行してタスクを開始して、一つをやらせている間に別のものを始め、新しいタスクを生成する時間がなくなるまで続けるのです。これが私の期待です。このビデオを今日見ている人に期待する最低限のことです。

プログラミングエンジニアリング、コンピュータの使用、知的作業、そして初期の科学研究において表現力豊かです。注目してください。彼らはここで初期の科学研究と言っています。彼らが科学研究ができると大々的に宣伝してきたことに気づいていますか。しかし科学研究に「初期」という言葉が出てきたということは、少し期待値を下げたということです。5か月で世界中のすべての病気の治療法を見つけるとはもう思っていません。これは興味深いことです。

性能とコスト効率のバランス

速度を犠牲にせずにインテリジェンスを向上させています。原則として速くあるべきです。そして彼らが後で言うことを先に言っておくと、このモデルはより高価ですが、より賢く、したがって同じ回答に到達するのに必要なトークン数が少ないのです。これがバランスを取っています。安い方はより多くのトークンを使い、高い方はより少ないトークンを使うので、最終的な計算は同じになります。

彼らはここでセキュリティの問題を主張し続けています。特にMythosの後、誰もがセキュリティについて話し始めたので、彼らも例外ではありません。高度なサイバーセキュリティと生物学のリソースに焦点を当てたいくつかのテストを追加しました。生物学の部分について、Cloudのビデオで話したことを覚えていますか。見てください。Cloud自身もこのバイオモレキュラーに投資しています。彼らは4.6から4.7への改善で30%から74%にスコアを上げました。

つまり誰もが生物学に注目しています。これについては十分注意してください。私の予想はこうです。彼らは何らかの病気の治療法を見つけようとするでしょう。どんな病気でもいいのですが、それを使って大規模なマーケティングを行い、人工知能が今や病気の治療法を見つけると言うでしょう。私が言っていることを書き留めておいてください。生物学におけるこの改善は偶然ではありません。

今日、Plus、Pro、Business、EnterpriseユーザーにChatGPTウェブサイトとCodexで提供されています。そしてGPT 5.5 ProはPro、Business、EnterpriseユーザーにChatGPTで提供されています。APIはまだリリースされておらず、いくつかのセキュリティレビューが必要ですが、まもなく5.5と5.5 ProがAPIで利用可能になります。APIの部分は、クライアント向けのプロジェクトを開発し、開発にChatGPTを使用している人向けであることを覚えておいてください。

ベンチマーク結果とClaude Opus 4.7との比較

ベンチマークについては、私が見た値の要約をお見せします。GPT 5.5とCloud Opus 4.7の間には非常に激しい競争があります。5.5が勝つこともあれば、4.7が勝つこともあり、5.5 Proが勝つこともあります。例えばターミナルベンチでは、これはOpenCloudを使う人、Linuxで自動化を行う人にとって最も重要なことの一つですが、5.5は82%を達成しています。この結果では70%を達成したOpus 4.7よりもはるかに優れています。

彼らはPIB Valesで84.9%を達成し、Cloudは80%だったとコメントしています。しかしこのPIBALについては、データの表示方法が気に入りませんでした。パーセンテージ形式で表示されています。一般的に私がここで見たいと思っているデータは、自動販売機などで稼いだ金額であり、勝利と引き分けの正解率のパーセンテージを見るのではありません。したがってこのテストは異なる方法で評価されているか、異なるデータを示しているため、評価が難しくなっています。

他のいくつかのシナリオでは、例えばBrows Compで、チャンピオンは90%の5.5 Proで、5.5が84%、Cloud Oposが79%でした。そしてこのセキュリティベンチマークであるCyberganでは、81%の正解率でOpus 4.7に勝利し、Opusは73%しか達成しませんでした。

多くの人がAnthropicについて、Mythosの話、つまり超モデルで、あまりに強力なのでリリースできない、みんなをリスクにさらすという話について不満を言っています。多くの人が批判して「Anthropicは誇張している。このモデルはそれほど良くない。良くはなったが、まだ超強力で超先進的な超知能のレベルには達していない」と言っています。

つまりOpenAIがセキュリティにおいて非常に優れたモデルを作っており、世界的な大惨事になるとか何とか言わずに、躊躇なく提供しているということが明確になっています。ある意味、OpenAIはAnthropicが誇張していることを露骨に示しています。でも時間に判断を任せましょう。どうなるかわかりませんから。

トークン効率と知能の向上

この分析インテリジェンス指数では、興味深いことが起きており、かなり頻繁に起きています。例えばGPT 5.5 Extra High、これは現在最も強力な新しい大型モデルですが、正解率が高いだけでなく、消費するトークン数も少ないのです。右に行くほどより多くのトークンを消費したことを理解できますか。つまり4.7はより多くのトークンを消費し、5.4 Extra Highはより多くのトークンを消費し、Opus 4.6もより多くのトークンを消費しました。左に行くほど安くなります。G. Proはここでより少なく消費し続けていますが、知能レベルでは5.5が勝っています。

これが今リリースされているこのモデルの特徴です。より賢く、より少ないトークンを消費し、少し高価です。今回彼らが示そうとしているのはこれです。ターミナルを使用したエージェントのテストとソフトウェアエンジニアリングでは、まったく同じことが起きています。より高い品質、より高いパフォーマンス、そしてより少ないトークンです。これが5.5と5.4の比較で示していることです。スコアは上がり、トークンは減りました。

彼らはここでArtemisの生成を共有しています。月に向かって打ち上げられた宇宙船のシミュレーションを行い、宇宙船がその軌道全体を描きながら月に到着する様子です。実際、私はこのArtemis 2のシミュレーションタイプを示す特定のビデオを作りました。そこでGemini、GPT Pro、Cloudを比較しました。

最も興味深いことの一つは、より科学的な精度、より確実なものに関して、OpenAIがこれをもっと長い間取り組んできたことです。彼らは科学に焦点を当てた多くのことを行うことから始めたからです。したがって彼らのモデルはその点でより成熟しており、Anthropicのモデルは仕事のタスクに対してより成熟しています。

ビジネス活用とブラウザ自動化

科学研究チャットの部分では、ドキュメント生成で5.4を上回り、オペレーショナルリサーチで優れたパフォーマンスを発揮し、スプレッドシートのモデリングと複雑なビジネスデータの計画への変換を行います。そして彼らはここで私が長い間言ってきたことをコメントしています。低リスクの要求は自動的に処理でき、高リスクの場合は人間によるレビューを続け、人間をループに入れます。

彼らはここで銀行投資リクエストの分析を行うデモンストレーションを行っています。この分析を開始し、スプレッドシートを生成します。複数のスプレッドシートを生成しても、これらのスプレッドシート間でデータをクロス参照できます。これはデータ分析を行っている人にとって不可欠なことの一つです。一般的に関連付ける必要がある複数のスプレッドシートがあります。

彼らはまたBrowser Userを使用することについてもコメントしています。これは自動テストを行うために人工知能にあなたの代わりにナビゲートさせることです。ウェブサイトを与えて「このウェブサイトでテストを行ってこのサイトが機能しているか確認してナビゲートして」と言います。するとAIがコンピュータを使用してサイトをクリックし、機能しているかどうかテストを行います。これは非常に便利で、実際に開発を行っている人の多くの時間を節約します。通常は人がこのタスクを行う必要があります。そのときに人工知能を使うことができます。

GPT 5.5 ThinkingとProバージョン

彼らはGPT 5.5 Thinkingを持っています。これはより複雑な問題に対するより迅速なヘルプです。そしてGPT 5.5 Proもあり、GPTが実行できる作業の難易度と品質の両方で大幅な向上があります。一般的にProバージョンは実行に永遠にかかり、必ずしも価値があるとは限りません。質問をProに投げかけるかどうかは非常によく考える必要があります。質問が難しくなければ、価値のない質問に答えるのに一生かかるでしょう。だからよく考えてください。

ベンチマークと重要な価値のあるタスクでは、点線が専門家である人間で参照として配置され、濃い色はAIが勝ったとき、薄い色は引き分けのときです。引き分けと勝利を合計すると、OpenAIは84.9%対Cloudの80%を達成しており、先ほど言ったように4.9ポイントの差です。それほど大きな差ではありませんが、それでも差です。ここでは技術的な引き分けに非常に近いと考えることができます。

科学研究の部分では、単に複雑な質問に答えるだけでなく、科学的および技術的な研究ワークフローで利益を得ています。そして彼らはここでgen bentを配置しています。これは遺伝学と定量的生物学の分野における複数ステップの科学データ分析に焦点を当てた新しい評価です。

生物学・遺伝学への注力

ここで私がすでに話したことに戻ります。彼らは遺伝学、生物学、分子生物学のこの部分に非常に焦点を当てています。なぜなら彼らはおそらく生物学分野での成功事例を作りたいと思っているからです。何らかの発見、特に病気の治療を進め、人々の健康を改善できるような発見です。なぜならこれは彼らにとって非常に良い成功事例を生み出すからです。病気の治療法を見つけることができる人工知能を作ることは、可能な限り最高のマーケティングの一つになるでしょう。考えてみてください。このタイプのニュースが起これば、懐疑的だった人々でさえ何が起きているのか知りたがるでしょう。

このジーンバンクでのパフォーマンスは約25%で、かなり低く、非常に初期段階で、今始まったばかりですが、5.5はすでに5.4よりも良いスコアを出しています。バイオインフォマティクスの別のベンチマークがこのBXBで、80%を達成しています。これはすでに尊敬に値する結果です。80%というのはツールを支配し始めている段階です。

モデルの利用可能性と価格設定

私はモデルを使おうとしましたが、今のところまだ表示されていません。まだ5.3と5.4です。おそらく表示されるでしょう。なぜなら彼らは5.5がPlus Pro Business EnterpriseのChatGPTで利用可能になっていると言っているからです。Codexでも、Codexでも私には表示されませんでしたが、すでに表示されたと言ってくれた人がいます。5.5 ProはProビジネスとEnterpriseのChatGPTで利用可能になっており、まもなく5.5と5.5 ProがAPIで利用可能になります。

Thinkingバージョンも同じで、Plus、Pro、Business、Enterpriseです。無料版には公開されていません。Codexでも同じで、Plus、Pro、Business Enterprise EduとGoです。Goサブスクリプションをお持ちの方は、Codexバージョンでも利用できます。これは重要なポイントです。Goサブスクリプションは安価で、Codexで使用できます。だからもしかしたら価値があるかもしれません。

コンテキストウィンドウは40万トークンです。APIを使用する人のための価格。APIはまだ利用できませんが、利用可能になると入力100万トークンあたり5ドル、出力100万トークンあたり30ドルで、コンテキストウィンドウは100万トークンです。そしてここに私がすでに話していた結論があります。価格は高いですが、トークンの面ではより効率的です。

コストパフォーマンスの分析

Arkを見ると、5.5 extra highバージョンが最も賢く、正解率85%を達成し、タスクのコストは1.87ドルです。違いに気づいていますか。例えばAnthropicの最良の結果である4.7は75%を達成しました。しかし一つのタスクに7.48ドルかかりました。つまりCloudの知能には高価格が付随するというこの考え方は、すでにCloudを使用している人の一部になっています。人々はすでにその高価格を受け入れており、受け入れない人はGeminiとChatGPTの間を行き来しています。

ユーザーの反応と実例

結局のところ人々は何と言っているのでしょうか。例えばこのJan PDはこうコメントしています。GPT 5.5は今後1〜5か月でCloud Codeサブスクリプションの半分を完全に排除する可能性がある、とAnthropicのDario Amodeiの顔が予想します。そしてここにDarioの顔が少し悲しそうに、何をすべきかわからず、どうやら今や対等な相手に直面しなければならないように見えます。

別の投稿で、このDindraが5.5 Proで何をしたかを共有しました。覚えておいてください、彼はProを使用しており、非常にシンプルなプロンプトを送りました。3JSでForza Horizonスタイルのカーゲームを作ってください。そしてこれが5.5のProバージョンを使用して3JSで作成した小さなゲームです。これは非常に興味深く見えます。世界最高のゲームではありませんが、興味深いです。両方向に走ってくるレースカーがあり、前方と後方の両方です。リングもあります。

車のディテールの品質はかなり高度に見えます。車はイギリス式の左側通行で走っており、私たちには逆に見えますが、ミニマップがあり、速度があり、チェックポイントがあり、すべてが正しくあります。

Peter Gostevの別の投稿では、彼らが話していたことを正確にコメントしています。GPT 5.5を使用すると、それがどれほど強力であるかが即座に分かります。Codexで、ランドマークと駅のあるロンドントイ鉄道を作成するという非常に複雑なプロンプトを与えました。そして一度の試行で素晴らしい仕事をしました。ビデオの後半では5.4が見られますが、悪くはありませんでしたが、明らかに劣っていました。

そして彼の小さなビデオにはLondon Dream Railwayがあり、シミュレーションを行っています。小さな電車が走っています。設定を変えると、電車が動き、電車は少しドリフトします。彼はGPT 5.5 extra highを使用し、かなり興味深い結果になりました。5.4 extra highと比較すると、興味深い結果になりましたが、画像の品質では5.5バージョンがはるかに興味深いものになりました。下にコメントしてください。5.5と5.4のどちらが好きですか。

5.5 Proバージョンの超リアルな水に関するこの投稿では、これが彼が生成した超リアルな水のバージョンです。非常に興味深いと思います。今日超リアルな生成を行うことを想像するだけで、AIに尋ねればすでに小さなバージョンを作ってくれます。素晴らしいです。本当に良いです。

中国製AIとの比較

最後に挑発です。Su Bent Proで、5.5は58%、Mimo 2.5 Proは57%、Kimica 2.6は58.6%を達成しました。そして彼はここにMorpheを配置しました。GPT 5.5は30ドル、KimとMimoは4ドルまたは3ドルです。そしてあなたが決断しなければなりません。結局、中国のAIを使うのか、それともChatGPTを使い続けるのか。下にコメントしてください。皆さんはどちらを好んでいますか、中国製かアメリカ製か。どちらを使いたいですか。

多くの人がすでに長い間中国のAIを使っており、Cloud Opus、Gemini、ChatGPTが何なのかもう覚えていないと確信しています。なぜなら結局のところこれらのAIと会話することになるなら、おしゃべりしてトークンを消費するなら、より安い価格でやるべきだからです。下にコメントしてあなたの考えを教えてください。

まとめと今後のテスト予定

重要なことは、モデルは私にはまだリリースされておらず、まだテストできていないということです。しかしテストできるようになり次第、リリースされ次第、テストビデオを作成して公開し、何が起こったかをお見せします。このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはインテリジェントエージェントの限定ビデオと早期公開ビデオにアクセスできます。では、ライクを残してください。ありがとうございました。

コメント

タイトルとURLをコピーしました