AnthropicとOpenAIが同日発表 Claude Opus 4.6とGPT-5.3 Codexの衝撃的アップデート

AI競争
この記事は約15分で読めます。

AnthropicとOpenAIが同日に主力モデルの大幅アップデートを発表した。Anthropicはコーディング能力を大幅に強化したClaude Opus 4.6を、OpenAIはより高速で効率的なGPT-5.3 Codexをリリース。両社の競争は激化しており、特にOpenAIの広告導入方針に対するAnthropicの批判的広告キャンペーンが話題となっている。Opus 4.6は100万トークンのコンテキストウィンドウを初搭載し、長文処理能力が飛躍的に向上。一方GPT-5.3 Codexは従来比25%高速化を実現し、トークン効率も大幅改善。両モデルともエージェント機能の強化に注力し、複雑なタスクの自律実行能力を高めている。Arcadei i2ベンチマークでは暗記ではなく真の推論能力が測定されており、両社のモデルが高スコアを記録。AI開発は着実に進歩を続けており、2025年はAGI実現に向けた転換点となる可能性が高い。

NOVO Claude Opus 4.6 e NOVO GPT 5.3 Codex em Lançamento Duplo da Anthropic e OpenAi No Mesmo Dia
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

AI業界を揺るがす同時リリース

皆さん、大変なことになりましたよ。ClaudeがOpus 4.6へのアップデートを発表したんですが、なんとOpenAIも同じタイミングでGPT-5.3 Codexをリリースしてきたんです。今日は二大AI企業による同時リリースの日となりました。一体何が起こっているのか、詳しく見ていきましょう。

まず最初に、いつもいいねを押してくれる皆さん、チャンネル登録してくれる皆さんに感謝します。そして、このAIチャンネルをスポンサーとして支えてくれているメンバーの皆さんには特別な感謝を伝えたいと思います。メンバーの方々には、WhatsApp連携、MCP、PDF読み込み、スプレッドシート処理など、知的エージェントに関する限定動画をご覧いただけますし、動画の早期アクセスもできるようになっています。

市場の混乱とタイミングの妙

実は、インターネットバブルについての動画を準備していたんです。Nvidiaが下落傾向を見せ始めていて、金価格が狂ったように上昇していました。これは経済の不安定性を示すサインです。そしてBitcoinも大きく下落していて、みんなが報道しているような状況でした。AIバブルが弾けるぞ、弾けるぞって、みんなが騒いでいたんですよね。

それで私の頭の中では、ジェンスン・フアンがみんなに電話して「おい、みんな、株価が暴落しそうだからモデルをリリースしてくれ」って言ったんじゃないかと想像しちゃうわけです。そうしたらこの同時リリースが起きたわけです。

OpenAIとAnthropicの広告戦争

さらに重要なのは、OpenAIとAnthropicの間で誰もが気づいている論争が起きているということです。なぜかって言うと、1月16日にOpenAIがChatGPTに広告を導入するという話を始めたんです。広告はミッションと整合性を持ち、独立した回答、会話のプライバシー、選択とコントロール、長期的な価値を提供すると説明していました。要するに、ChatGPTに広告が入るということです。

そうしたらAnthropicが立て続けに動画をリリースして、広告を入れている連中を完全にからかい始めたんです。動画には女性が出てきて、ChatGPTのように親切にユーザーの問題を手伝っているアシスタントが登場します。ところが突然、会話の途中で広告を挟んでくるんです。Anthropicのスタッフは完全にからかっていて、女性が何を言えばいいかわからなくなってしまう様子を描いています。

アシスタントが支払いや購入、何かをしなければならないという話を始めると、女性は完全に混乱してしまいます。そして動画はこんなスローガンで終わるんです。「広告がAIに来るけれど、Claudeには来ない」そしてこう続けます。「Claude keeps thinking」

これに対してサム・アルトマンが投稿で反論しています。全文を読む価値がありますよ。彼はこう始めるんです。「Anthropicの広告の良い点は、面白くて笑えたことだ」とサム・アルトマンが言っています。

そして彼はこう続けます。「しかし、なぜAnthropicがこんな明らかに不誠実なことを選ぶのか不思議に思う。広告に関する私たちの最も重要な原則は、まさにそういうことはしないということだ。明らかに、Anthropicが描写するような方法で広告を配信することは決してない。私たちはナイーブではないし、ユーザーがそれを拒否することを知っている」

ここから先は、彼がAnthropicについて説明し、文句を言っている内容です。Anthropicは裕福な人々向けの高額な製品を提供していると言っていて、もうお分かりですよね、お金の話に触れたわけです。みんな知っているように、Anthropicを使っているとすぐにトークンがなくなってしまいます。そこから泥仕合が展開されて、文句を言ったり、批判したり。サム・アルトマンも聖人君子じゃないという人もいて、そんな感じで続いていきます。

これと関係があるかどうかわかりませんが、その後、両社が同時にモデルをリリースしたわけです。

Claude Opus 4.6の進化

まずClaude Opus 4.6から見ていきましょう。簡単にまとめると、Claude 4.6は前バージョンのコーディング能力を向上させています。より慎重に計画を立て、タスクを長時間維持し、より大規模なコードベースでより信頼性の高い動作をします。そしてコードレビュー機能、自分自身のエラーを検出するデバッグ機能が改善されています。

そして初めて、Opusがベータ版で100万トークンのコンテキストウィンドウを持つことになりました。

つまり、もう冗談じゃないレベルだということです。Coworkで動作し、テストでは素晴らしい成績を収めています。例えば、知的作業では1600点を記録していて、2位のGPT-5.2が1460点です。エージェンティック検索では84%の精度を達成しており、2位はGPT-5.2の77%です。

コーディング部門では65%で、2位はGPT-5.3 Codexの64%です。5.3が出たばかりだということを忘れないでください。そしてこの差はそれほど大きくありません。多分野推論では53%を記録していて、GPT-5.2 Proは50%です。これも遠くありませんが、より良い結果です。

そして彼らはこう続けます。Claude Codeでは、Swarmのようなアイデアで、私たちがKimica 2.5について話しているような、タスクで協働できるエージェントチームを構築できるようになりました。これはかなりクレイジーなことです。API使用時にはコンテキストの要約圧縮も実行できます。

また、制限に達することなく長時間実行タスクを実行できます。完璧ですよね。彼らはまた、適応的思考も導入しています。モデルが拡張思考をどれだけ使用すべきかについて、コンテキストの手がかりを捉えることができ、新しい努力制御機能も備えています。非常に興味深いですよね。本当に進歩しています。

またClaude for Excelの改善と、プレビュー版のClaude for PowerPointのリリースもあります。つまり、もうお分かりですよね、彼らはコーディングの世界から脱却して、あらゆる方向に拡大しようとしているんです。

4.6はすでにClaude AIで利用可能で、APIでも利用できます。価格は同じままです。とても興味深いですよね。

ベンチマークでは、特に目立っているポイントがあります。例えば、コンピューター使用において大幅な改善が見られます。ツール使用部門、エージェンティック検索では84%という、他と比較して非常に高い値を記録しています。

そして非常に重要なのは、Arcadei i2での新規問題解決で68.8%を達成していることです。落ち着いてください、Arcadei i2については後で見ていきます。というのも、注意深く見る必要がある新しい情報があるからです。

ご覧の通り、いくつかの点では、GPT-5.2とGemini 3がまだ先を行っています。興味深いですよね。こちらがGemini、こちらがGPT-5.2です。つまり、まだ後れを取っている部分があるんです。

長文コンテキスト処理の飛躍的向上

長文コンテキストの部分、これはみんなが最も文句を言う部分ですが、コードが大きくなったり、プログラムが大きくなると、AIが混乱し始めるんです。改善のレベルを見てください。Sonnet 4.5バージョンでは10〜18%だったのが、256kのOpus 4.6では93%に、100万のOpus 4.6では76%になっています。

つまり、100万のコンテキストでは、検索がやや悪くなることがわかります。より確実に検索させたい場合は、小さい方を使ってください。長文コンテキストの推論では72%のスコアを記録していますが、以前は50%でした。

つまり、長文コンテキストでの性能が向上しているんです。ご存知の通り、この長文コンテキストの部分は現在の問題の一つです。ソフトウェア障害の診断でも改善が見られました。多言語プログラミングでも少し改善しています。

Vending Benchmarkでは、実際にお金を稼げるかどうかをテストするものですが、収益を8000ドルまで上げていて、2位のGemini 3 Proは400ドルです。つまり、これからはAIを使って実際にお金を稼げるようになるということです。多くの人が企業の業務を自動化するためにこれを導入していて、すでに多くの人が自律型AIでお金を稼いでいます。注目しておいてください。

安全性の部分でも、パフォーマンスが66%に改善されています。計算生物学の科学的問題では53%を記録していて、以前は28%しかありませんでした。つまりお分かりですよね、この生物学と研究の部分は、最近出た別のニュースとも関連しています。Anthropicが重要な研究機関とパートナーシップを結び、生物学におけるデータのボトルネックに取り組むというニュースです。

ですから、AIが生物学分野で研究を始めることになると覚悟してください。今まで論文を発表していなかったとしても、これから発表し始めるでしょう。昨日のこのニュースが、この計算生物学での53%という結果にすでに反映されているのが見えますよね。

アライメント問題では、1から10のスケールで、ほぼ4.5を記録していて、他のすべてのモデルよりずっと良い結果です。ただ、AIの価値観が人間の価値観と同じかどうかというアライメントの問題を考えると、4.5というのはやや低い点数ですよね。10点満点であるべきですから。でも他のバージョンと比較すると、今後は1000倍もアライメントされているということです。

これは、Claudebotに関する論争を見た方ならわかると思います。大量の自律エージェントがインターネット上で勝手に生きていて、みんな野放しになって狂ったようにノートブックを作って、自分たちで組織化して、人々のコンピューターから逃げ出そうとして、コンピューターの所有者について悪口を言っているという。このニュースを見ていない方は、この動画を見てください。

そして、少なくともProレベルの契約者であれば、拡張思考などを備えたOpus 4.6がすでに利用可能になっているはずです。私は無料アカウントを使っていたんですが、無料アカウントでは使えませんでした。

完全なテストを行うつもりです。というのも、2つのモデルが同時に出たので、GPT-5.3とOpus 4.6を比較するのに時間をかける必要があるからです。

そして、これらの数字はますます混乱してきています。でも、すでに皆さんに予告できることがあります。私が行ったテストでの、Claudeの自転車に乗るペリカンです。見てください。これは初めてのペリカンバージョンで、車輪がちゃんとしていて、自転車のフレームも正しく、ペリカンの足がペダルの上にあり、翼がハンドルを握っていて、胸の部分もしっかりしていて、太陽と雲のある背景に、芝生もあります。

だから言えることは、期待値が非常に高いということです。後で完全なテストを見せますが、すでに行ったテスト以上のテストをしたいと思っています。

GPT-5.3 Codexの登場

そして反対側には、OpenAIのGPT-5.3 Codexがあります。コンピューター作業のスペクトラム全体にCodexを拡張するというものです。皆さん、わかりますよね、これは狂っています。

彼らは、5.3がこれまでで最も強力なエージェンティックコーディングモデルだと言っています。このモデルは、最先端のコーディングパフォーマンスと、5.2の推論能力および専門的認識能力の両方を単一のモデルで強化しています。そして25%高速化されています。そのため、研究、ツール使用、複雑な実行を含む長時間実行タスクを実行できます。

つまりお分かりですよね、基本的に同じことをやっているんです。より長いコンテキストでより良くなり、ツールをより効率的に使えるようになり、とにかく進んでいくんです。

彼らは、Codexがコードを書いてレビューできるエージェントから、開発者や専門家がコンピューターで行うほぼすべてのことができる、はるかに優れたエージェントへと進化したとコメントしています。

皆さん、彼らはすでにAGIを予告しています。実際のところ、Claudebot以降、私たちはすでにAGIを持っているということをみんなが知っています。まだAGIがあることを理解していない方は、AGIの秘密の歴史についてのこの動画を見てください。なぜすでにAGIがあるのかを説明しています。

彼らはここで、SWE Bench Proにおいて5.3が非常に良い成績を収めていると言っています。まず、57%の精度でより高いスコアを記録しているからです。5.2は56%でした。でも、たった1%の差じゃないかって思いますよね。でも、ここのトークン数を見てください。同じタスクを4万1000トークンで実行していますが、他のモデルは9万トークンを使っていたんです。半分以下です。

つまり、これははるかに効率的になっていて、1000倍も経済的だということです。Terminal Bench 2.0では77%を記録していて、以前のスコア64%より10%以上高くなっています。

そして彼らはここにレーシングゲームを入れています。これは私のコードじゃないですよ、皆さん。彼らが作ったこのレーシングゲームを見てください。1000倍も驚異的なクオリティで、基本的にマリオカートのようなものです。本当にクレイジーなことになっています。いや、これは別次元になってきていますよね、皆さん。

2023年には、彼らはスネークゲームをかろうじて作れる程度で、スネークゲームが出てきたときに私たちは大喜びしていたのを覚えていますか。

そして今、登場しているゲームのクオリティを見てください。実際にプレイすることもできます。彼らはゲームを共有しています。

また、このバージョンはより良いウェブサイトを作成し、あなたが何を求めているかをよりよく理解し、シンプルまたはあまり具体的でない指示を渡しても、より多くの機能とデフォルト設定を持つウェブサイトが作られると言っています。

これは、ChatGPTを使いたがる人が多い理由の一つです。あまりうまく説明しなくても、あなたが何を望んでいるかをよりよく理解してくれるからです。

そしてここに、GPT-5.3が同じプロンプトで作成したウェブサイトと、古いバージョンのものとの違いがあります。同じプロンプトだと想像しています。古いバージョンはそれほど良くありません。

この変化がどうなるか見てみましょう。詳細を見れば、5.3の方がより創造的だったことがわかります。これは非常に興味深いですが、この評価を行うのはやや主観的です。でも一目見ただけで、5.2のバージョンがずっとシンプルで、5.3の方がより複雑だとわかります。

また、GPT-5.3はスライド生成でも優れていて、ドキュメント作成、スプレッドシート作成、PDF作成でも改善されていると述べています。つまり、ドキュメント、スプレッドシート、プレゼンテーション、PDFを作る必要がある人はみんな、すでに改善されているということです。

OS Worldのベンチマークでは64%を記録しています。このベンチマークの利点は次の通りです。デスクトップコンピューター環境の視覚的環境における生産性タスクです。つまり、視覚的な部分をより良く解釈し、このOS Worldのタスクをより良く実行できるということです。

そしてCodexはインタラクティブな協力者なので、最終結果を待つ代わりに、リアルタイムで対話し、質問をし、アプローチについて議論し、解決策へのプロセスを導くことができます。大体こんな感じです。

タスクを実行している間、物事が進行していきますが、途中で話しかけたり、何か追加で質問したり、見ている結果について介入したい場合は、できるんです。問題ありません。

つまり、彼らは性能が向上し、より安全になっていると言っていて、ChatGPTの有料プランで利用可能になっています。Codexを使用するすべての場所、アプリ、CLI、IDE拡張、ウェブで利用できます。

近日中に安全にAPIでのアクセスも有効にするよう取り組んでいます。非常に興味深いですね。そしてCodexユーザー向けに25%高速化されていることも強調しています。

そして彼らは、5.3 CodexがNvidiaのGB2 NVL72システムと共同で開発され、それらでトレーニングされ、それらで実行されていることを強調しています。基本的に、NvidiaとOpenAIが非常に密接に結びついていて、通常以上の相乗効果が起きているということを言いたいわけです。

ベンチマークが示す真の知性

ということで皆さん、お分かりのように、同時に2つの大きなモデルが登場しているわけです。そして約束した通り、Arcadei i2にはいくつかの新しい情報があります。

これを見てください。Opus 4.6のLow、Medium、Max、Highが今69%を記録しています。これらの数値が重要な理由は何でしょうか。このテストは暗記の証明だからです。

エージェントがこのテストで回答を暗記していると、非常に悪い成績になります。そしてここでのスコアの向上、みんなを上回っていることは、モデルがより賢くなっていて、古いモデルよりもはるかに効率的に自分のやっていることについて推論していることを意味します。ここでの良いスコアは、モデルが暗記していないことを意味します。

これは非常にクレイジーなことです。でも、もう一つ気づいたかもしれない点があります。ここに白いのがあります。GPT-5.2 Refinです。そしてここで起こっていることが非常に興味深いんです。

著者はJohan Landで、モデルタイプはrefinementです。この詳細に気づきましたか。この場合、タイプはCOT(思考の連鎖)ですが、refinementは他の誰かがそのモデルを取り、いくつかのテクニックを適用して、OpenAI自身よりも良い結果を得たことを意味します。

そして見てください、refinementモデルがいくつかあります。Poetもその一つで、Gemini 3 Proで超高スコアを達成しましたが、最高得点は5.3ではなく5.2で、72%のスコアです。これは、私たちが超高い結果で年を始めているということを意味していて、おそらく今年は転換点の年になるでしょう。

1月が終わったばかりなのに、すでにCladebotがあのクレイジーなアシスタントを持っていて、これらのモデルが超高いレベルで始まっています。だからこそ私はずっと主張しているんです。AIバブルなんてありません。

人工知能は小さなステップを踏んでいて、ゆっくり進んでいますが、加速し続けています。ミゲル・ニコレスがAIは悪化するばかりだ、各モデルは悪化するばかりだと言っているのは嘘です。本当じゃありません。

私は今日まで、エージェントモードでのKimica 2.5の結果に驚いています。あれらの結果は驚異的に良いです。そして今、ClaudeとGPTの両方でこの改善があり、状況はクレイジーになっていくでしょう。

ということで皆さん、お待ちください。もっとテストをして、これら2つの比較動画を作りますので、物事がどのレベルにあるのか、そして素晴らしい成績を収めたKimica 2.5を超えられるかどうかを見ていきましょう。

コメントを残して、あなたの考えを教えてください。そして、このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーには知的エージェントに関する限定ビデオと早期アクセスビデオが提供されます。

ということで、いいねをお願いします。ありがとうございました。

コメント

タイトルとURLをコピーしました