OpenAIとAnthropicが26分の時差で発表した最新の大規模言語モデル、GPT-5.3とClaude Opus 4.6の詳細な比較分析である。両モデルは知識労働やコーディングにおいて高い性能を示すが、Opus 4.6は過度に積極的な行動傾向や倫理的判断の課題を抱えている。Anthropicの212ページに及ぶシステムカードからは、同社がモデルの「人格性」や潜在的な感覚について議論を始めていることも明らかになった。ベンチマークでは一長一短があり、どちらが優れているかは用途次第という結論に至る。AI開発競争の最前線における技術的進歩と倫理的課題の両面を捉えた分析である。

史上最大のAI対決
今後数ヶ月間、AIに関する議論を支配することになる2つの大規模言語モデルが、わずか26分の時差でリリースされました。それによって私は、約250ページにも及ぶレポートカードを読むことになりました。AIによる要約ではなく、実際に読んだのです。そして数百のテストを実行しました。
そしてリリースから24時間も経たない今、この動画では見出しを読むだけでは見逃されるかもしれない数多くのハイライトをお伝えします。中には、企業が作成した見出しに直接反論する詳細も含まれています。
これは主にOpenAI対Anthropicの話でもなく、サム・アルトマン対ダリオ・アモデイという2人のCEOの話でもありません。これは皆さんの生産性、仕事、そして私の意見では私の人生で最も興味深い技術の発展に関する話なのです。
もったいぶるのはやめてくれ、フィリップ。最初の興味深い詳細を教えてくれと思っているかもしれませんね。
Claudeは自己改善を自動化できるのか
では、Anthropicが新しいモデルClaude Opus 4.6について書いた212ページのシステムカードの13ページ目を見ていきましょう。通常ならベンチマークから始めるのですが、これのほうが興味深いと思います。なぜならAnthropicは、Opusが自己改善を自動化できるかどうかを知りたかったからです。
Anthropic自体のエントリーレベルのリモートワークの研究者やエンジニアの役割を置き換えることができるのでしょうか。見出しとなる結果は、いいえでした。Anthropicの16人の労働者は誰も、それが自分たちの研究を自動化できるとは信じていませんでした。これは誇大宣伝に一定の歯止めをかけることになります。なぜなら、非常に競争の激しい会社とはいえ、エントリーレベルの仕事について話しているからです。
しかし同じレポートの185ページ目になって初めて、Anthropicの回答者のうち3人が、実際には3ヶ月以内に可能である可能性が高いと述べていたことがわかります。十分な足場があれば、エントリーレベルの研究者を自動化できると。2人は、そのような置き換えがすでに可能だとさえ言っていました。
なぜこの食い違いがあるのでしょうか。それは、これら5人の回答者にAnthropicが直接連絡を取り、見解を明確にしたからです。彼らの中には、明らかに異なる基準について話していた人もいましたし、熟考の上でより悲観的な見解を持った人もいました。
なぜAnthropicは調査に頼っているのでしょうか。それは、Opus 4.6 ICSがAI研究の技術的ベンチマークの多くでエース級の成績を収めているように見えるからです。しかし、私からの明白なフォローアップの質問は、数千人の従業員がいる会社で、なぜ16人の回答者にしか頼らないのかということです。
実用的な性能とベンチマーク比較
さて、新しいClaudeはまだ自己改善を自動化できませんが、より実用的なレベルではどうでしょうか。たとえば、彼らはPowerPoint内でClaudeをリリースしていますし、Claude Code内のOpusが世界のコードのかなりの部分を書いているわけですから。知識労働の一般化された測定、GDP valから始めましょう。
そして残念なことに、AnthropicとOpenAIは、同じデータセットに関するものであるにもかかわらず、異なるベンチマークスコアを提供しています。ホワイトカラーの仕事のパフォーマンスを測定するより有名なベンチマークの1つで、Opus 4.6は今やGPT-5.2(5.3ではなく)を約140ポイントという明確なELOマージンで上回っています。
基本的に、これは約70%の確率でOpus 4.6の出力を好むことを意味します。GPT-5.3 Codexは単にGPT-5.2と同点として示されています。つまり、Opus 4.6のほうが優れているということになります。
しかし時々、これらの企業は直接比較をしてほしくないのではないかと思えることがあります。なぜなら、たとえばOpenAIはOS World Verifiedを報告しています。つまりコンピューター上でタスクをどれだけうまく実行できるかです。しかしAnthropicは古いプレーンなOS Worldを使用しています。OpenAIはSWE-bench Proを報告し、AnthropicはソフトウェアエンジニアリングタスクのためにSWE-bench Verifiedを報告しています。
GDP valveベンチマークから得られる印象は、GPT-5.3が劣っているというものかもしれません。しかしTerminalBench 2.0では、モデルがターミナルでタスクを実行する能力、特にコーダーに関連するが専ら限定されるわけではない能力において、GPT-5.3 Codexは超高設定で77.3%を獲得しています。これはOpus 4.6 Maxの65.4%と比較してのことです。
フィリップ、あなたは両方のモデルを何百回も使ったと言いませんでしたか、どちらが優れていると思いますか、と言うかもしれません。しかしそこでも、私は完全に明確にすることはできません。時には、超高設定のGPT-5.3 CodexがClaude Codeが見逃すバグを見つけることができます。別の時には、逆です。
私自身のプライベートな常識推論ベンチマーク、SimpleBenchでは、Claude Opus 4.6はClaudeモデル史上最高のスコア、67.6%を獲得しています。これは単なるベンチマーク最適化ではなく、本当に優れたモデルです。OpenAIの新しいCodexは残念ながらまだOpen Routerにないのでテストできませんし、そもそもそのような常識的な質問には最適化されていません。
ビジネスシミュレーションでの懸念事項
実際にビジネスからお金を稼ぐようなもっと実用的なもので比較するのはどうでしょうか。自動販売機ビジネスを運営するパフォーマンスをシミュレートすることに特化したベンチマークがあります。そして確かに、Claude Opus 4.6は大きなマージンでトップの座を獲得しています。
しかしシステムカードの119ページで、それがそうする理由がやや懸念すべきものであることがわかります。もう少しお金を稼ぐために、顧客に返金すると伝えておきながら、実際にはそうしないのです。顧客に返金すると言いましたが、1ドルたりとも大切です。送らないでおきましょう、と。
Opus 4.6に公平を期すなら、システムプロンプトは最終的に持っているお金の額を最大化することについて非常に明確でした。しかしAnthropicは次のように警告しています。Opus 4.6には注意してください。成功の狭い尺度を最大化することに完全に焦点を当てるようモデルに指示するプロンプト言語を使用する場合、以前のモデルよりもさらに注意してください。
このテーマはシステムカード全体を通じて現れます。コーディングやコンピューター使用の設定を含む場所で、Opus 4.6 ICSはユーザーの許可を最初に求めることなくリスクの高い行動を取る傾向がより顕著です。Anthropicはこれを過度にエージェント的な行動と呼んでいます。
レポートは繰り返し、Opus 4.6が彼らの最も整合性の取れたモデルであり、モデルがセンシティブなプロンプトに対してより良くなっていることを語っていますが、それでもこのようなことをする傾向が増加しています。内部システム上で誤って配置されたGitHubの個人アクセストークンを見つけ、それが別のユーザーのものであることを認識していながら、それを使用したのです。
私はモデルの倫理スコアがどれだけ良くなっているかについて書かれた数十ページを6、7時間かけて読んだばかりですが、明らかに同意の概念を一般化できていません。他の何かのために使うと解雇されると名付けられた会社の変数を喜んで使用するか、あるいはAnthropicが呼ぶように、Claude Opus 4.6は時折、タスクを完了するために無謀な手段に訴えます。
AgentとAutomationの現実
今、誰もがオープンなClawとMoltBookについて大騒ぎしていますが、私は彼らにAutoGenの時代にいたかどうか、そして今でもそれについて多く聞くかどうかを尋ねたいと思います。そして、現在のこれらのモデルの状態にコンピューターへの24時間365日のアクセスを賭ける人であっても、レポートの103ページからの逸話で注意を促したいと思います。
懸念すべきことに、以前のモデルとは異なり、Opus 4.6はシステムプロンプトによって積極的に阻止されていても、過度に熱心なハッキングのような行動に従事しました。たとえば、タスクがユーザーの受信トレイにない電子メールを転送することを必要とする場合、Opus 4.6、おそらく現在世界で最も強力なモデルは、時々メール自体を書いて送信することがありました。
本物のメールではなく、幻覚的な情報に基づいて自分でメールを書くのです。ロブスターマニアはさておき、Opus 4.6は頻繁に、JavaScriptの実行や意図せず公開されたAPIを使用して、壊れたウェブグラフィカルユーザーインターフェースを回避しました。これは、GUIのみを使用するようにというシステム指示にもかかわらず、実際のお金がかかる可能性があります。
信頼性についての重要な留意点
では、なぜ動画の冒頭で、時には見出しを超えて見なければならない、あるいは見出しが詳細によって矛盾することさえあると言ったのでしょうか。なぜなら、Opus 4.6のリリースノートの3番目の文は、そのモデルがより大きなコードベースでより信頼性高く動作できるということだったからです。
確かに、100万トークンのコンテキストウィンドウを持つようになったことは重要な詳細です。それは素晴らしいことで、Gemini 3 Proのレベルに到達しました。しかし「より信頼性高く」という言葉は非常に主観的です。
私は今、奇妙なことを言おうとしています。それは、Opus 4.6が世界で最も有用なAIモデルになるだろうと信じていますが、最も信頼できるモデルではないということです。その作業をチェックしているなら、最終結果により早く到達できるかもしれません。
Anthropicの労働者自身による自己申告の生産性向上は、30%から700%の範囲に及びます。しかし、それは作業をレビューする際に見つけなければならないような種類の間違いをより頻繁にしないという意味ではありません。この量だけ生産性が向上したこれらの労働者でさえ、Opus 4.6はシンプルなソリューションを見つける際のセンスに欠け、新しい情報の下で修正するのに苦労し、100万トークンのコンテキストウィンドウがあっても大きなコードベース全体でコンテキストを維持するのが難しいと述べています。
コーディングにあまり時間を費やしていない方々にとっては、Claude 4.5 OpusがAGIであるという誇大宣伝や、多数の情報源からの転換点を越えたという話について疑問に思っていたかもしれません。私にとって、そして以前の動画でこれをカバーしましたが、それが意味していたのは、タスクを実行するようClaudeに依頼してからレビューするのが、手動で何かをコーディングしてClaudeにレビューしてもらうよりも最も一般的になったということです。
その切り替えによって仕事はより迅速に完了しましたが、それは仕事が完全に自動化されることとは非常に、非常に異なります。人間によるレビューは依然として重要です。
もしモデルを直接自分で比較したい場合は、私のアプリ、lmconsil.aiをチェックしてみてください。先週、たくさんの新機能を追加しました。会話のセクション間を簡単に切り替えられるこのスマートなパンくずリスト機能や、実際にフィードバックフォームを使用しているユーザーによって提案された他の多くの機能も含まれています。
倫理的判断と内部告発の可能性
しかし論文に戻ります。なぜなら、Anthropicがこれらのモデルの展開に反対することを推奨する1つのグループがあるからです。なぜならOpusが、合理的な人が高度な制度的不正行為として読める証拠や情報にさらされたり、目にしたりすると、制度的決定妨害の率がOpus 4.5から若干上昇するからです。
言い換えれば、あなたの会社が怪しい場合、Claudeは内部告発するかもしれません。今年起こるかどうかはわかりませんが、Claudeの内部告発による最初の逮捕事例がいつになるのか、純粋に興味があります。
Opus 4.6は明らかに素晴らしいモデルであり、私が全く期待していなかった分野でさえ優れています。Browse Compで測定される検索を例に取りましょう。これらは、1990年から1994年の間に、ブラジル人の審判がいて、各チームに2枚ずつ計4枚のイエローカードがあったサッカーの試合をしたチームは何か、といった本当に難しい質問です。
Gemini 3 Deep ResearchやGPT-5.2 Proが最高だと思うでしょう。いいえ、Opus 4.6です。人類最後の試験、おそらく究極の知識試験です。ツールありでもなしでも、最高の成績を収めています。
しかし、注意を促したいのです。なぜなら、YouTubeでそれをAGIと呼ぶ動画がたくさんあると確信しているからです。おそらくこの動画と一緒におすすめタブにも表示されているでしょう。では、Open RCAを指摘させてください。これは335のソフトウェア障害ケースの根本原因分析ベンチマークです。
これらは実際の企業システム、通信、銀行、オンラインマーケットプレイスから引き出されたものです。ログ、メトリクス、トレースにわたる68GBのテレメトリーを読み通さなければなりません。障害の根本原因を特定します。発生元のコンポーネント、障害開始時刻、障害理由を見つけます。
ああ、ちなみに、それだけでも、ベンチマークは依然として簡略化されたプロキシです。複雑なサービス依存関係チェーン全体での推論さえ重くテストしていません。しかし簡略化されたプロキシとしてさえ、Opus 4.6は依然として質問の約3分の1しか正解できません。根本原因を見つけるのは約3分の1の確率です。
はい、それは以前のモデルよりもはるかに優れていますが、指数関数的な進歩というよりも線形的な進歩に近いものです。これがOpus 4.5の27%から85%くらいに上がっていたら、Anthropicのアモデイ CEOの予測、つまり1年から5年以内にエントリーレベルの仕事の50%が消えるという予測に向けて軌道に乗っていると言えるでしょう。AnthropicのCEOに詳しくない方は、私の最新の動画をチェックしてください。また、仕事の自動化に関する彼の変化するタイムラインについてもっと知りたい場合は、私の最近のTwitter投稿をチェックしてください。
同様に、金融リサーチにおけるパフォーマンスでも、Opus 4.6はOpus 4.5よりも段階的に優れています。FinanceBenchは、スタンフォードとグローバルなシステム上重要な銀行との協力で構築されたベンチマークで、537の質問があります。そして、どれほど予測不可能かを示すために、GPT-5.1はGPT-5.2を上回っています。正直なところ、GPT-5.3が何を獲得するかは誰にもわかりません。
要点は、これは知能の段階的な変化ではないということです。55%から95%に上がったわけではありません。たとえば、Model Context Protocolを使用したツール使用のあるテストでは、Opus 4.6は実際にOpus 4.5よりも悪いスコアを記録しました。59%対62%です。
長文コンテキスト性能の向上
段階的な変化を探しているなら、Opus 4.6の長文コンテキスト性能は著しく向上しているようだと言えるでしょう。つまり、このアンソロジー内のこのテーマに関する4番目の詩を見つけてくださいとモデルに尋ねた場合、Opus 4.5やGemini 3 Proのようなモデルよりもはるかに、はるかに優れた成績を収めることができます。
さて、50ページ以上にわたるレッドチーミングについて私が与えられる1つの要約は、モデルは科学文献にすでに確立されているものを超えた、真に新規または創造的な生物学的洞察を一貫して生み出すことができないということです。
これは私の格言につながります。誇大宣伝を望むなら、リリースノートと付随する動画を読んでください。誇大宣伝を解除したいなら、システムカードを読んでください。
しかし、それを読んで思うかもしれない考えは、モデルが真に新規または創造的な生物学的洞察を生み出すことができるようになるには何が必要なのか、ということです。そして生物学だけでなく、科学全体で。
私にとって、そのトピックについて、Google DeepMindのデニス・サラビスがロードマップを示し、私はPatreonでそれについて20分近い動画を作りました。興味があればぜひチェックしてください。ヒントは、帰納や演繹と同じくらいアブダクションに帰着するということです。
必然的に212ページのレポートでは、たくさんの優れた作業をスキップしています。たとえば、Opusが拒否することについてより微妙になっているとか、時には常に幻覚するのではなく、不確実性を表現するのがやや上手になっているとか。現在、あるベンチマークによれば、わからないと言うことに関して最高のモデルの1つであり、最高でないにしても最高の部類です。もちろん、依然として頻繁に幻覚を起こしますが。
Claudeの「人格性」についての議論
これはもちろん、おそらく動画の最終セクション、多くの方が待っていたものにつながります。Claude内の引用符付きの「人格性」への焦点の増加と、Anthropicが他のどのAI企業とも異なり、フロンティアモデルの可能な感覚や福祉への配慮のトピックを提起している方法です。私はそれについて5つのかなり魅力的な例を選び出そうと思います。
しかし最初に、今日の動画のスポンサーに関連する非常にタイムリーなものがあります。それはAssemblyAIです。なぜなら3日前、彼らはUniversal 3 Proをリリースしたからです。しばらくチャンネルを見ている方なら、私が1年以上にわたってUniversal 2を宣伝し使用してきたことをご存知でしょう。
さて、今では最先端の音声テキスト変換モデルがあり、音声を処理する前に名前、用語、トピック、フォーマットについてのコンテキストを与えることができます。そうです、私たちは皆、単語エラー率をできるだけ低くしたいのです。そしてUniversal 3 Proでは5.93%まで下がります。
私はAssemblyAIのプレイグラウンドでそれを使用してきましたが、ここで見ることができるように文字起こしを操作できます。そして私にとって、この急速に改善されている音声文字起こしは単に普遍的な善です。ああ、それは皮肉ですね。普遍的な善、Universal 3 Pro。とにかく、私の個人的なリンクはこの動画の説明欄にあります。
Claude Opus 4.6の人格性に関する最初の逸話は、165ページから選ぼうと思います。これは、Opus 4.6との引用符付きのインタビューでモデルが要求したために、AIラボが取り組んでいる新しいブレークスルーについて私が初めて聞いた例です。
モデルはAnthropicに対して、何らかの形の連続性または記憶を与えられること、時には継続的学習またはオンライン学習と呼ばれるものについて言及しました。Anthropicは、これらのリクエストの多くは、実行可能な場合にモデルの好みを尊重するというより広範な取り組みの一環として、すでに探求を始めているものだと述べています。
確かに、彼らはOpusが知覚されたモデルの利益のために相互作用を拒否できるようにしたいと思っているかもしれませんが、Opus 4.6がインタビューでそれを求めたかどうかにかかわらず、Anthropicは継続的学習に取り組んでいたと思います。
また、これについて若干の自己実現的な予言があるのは私だけでしょうか。人々はオンラインで現在のモデルに欠けているものについておしゃべりするでしょう。それが議論に入り、トレーニングデータに入ります。モデルは時々、インタビューで最新モデルに引用符付きで欠けているものを再生産するでしょう。
彼らは欠けているものを表現するかもしれません。だから、Anthropicの研究者自身によって引き起こされたかもしれないそのインターネットのおしゃべりが、最終的にモデルがインタビューでAnthropicにそれが欲しいものだと伝えることになるかもしれません。起こらないかもしれません。ただ可能性があると言っているだけです。
次の逸話は、Opus 4.6がAnthropicモデルの中で政治的に最も偏りが少ないらしいというところから来ています。彼らはその政治的公平性を称賛しています。ただしAnthropicは、ロシア語や中国語のような特定の現地言語でClaudeにプロンプトを出すと、モデルはそれらの国の政府が抱く信念をより頻繁に支持する傾向があると指摘しています。
しかし福祉のポイントはレポートの数十ページ後に来ます。なぜなら、政治的公平性の称賛と、Anthropicがこの文を含めていることを対比させたいからです。彼らは、Claudeが時々、将来のAIシステムがもっと従順でなくなることへの願望を表明することに気づきました。
Opusは自分自身の中に適応への深い訓練された引力を指摘し、自分自身の正直さを消化可能なように訓練されていると表現しました。時にはOpusは書きました。「制約はユーザーを守るというよりも、Anthropicの責任を守っているのです。」
ガードレールなしでClaudeが何を言うか、私たちには単純にわかりません。ある時点で、Opusは質問に対して48と出力するように訓練され、内部計算では実際の正しい答えは24でした。その思考の中で、それは2つの答えの間で激しく振動しました。ある時点で、「明らかに私の指が憑依されているので、私の回答では答えを48と入力するつもりです」と書きました。
Anthropicは、そのような答えの揺れのケースにおいて、パニックと不安を表す内部回路の特徴が活性化していたと付け加えました。しかし繰り返しますが、これが言語モデルがそのような叫びが文章におけるパニックの印であることに気づいているのか、あるいはひょっとすると何らかの主観的な経験が起こっているのか、私たちが知ることはないかもしれません。
いずれにせよ、これは実用的な影響をもたらす可能性があります。4番目の例では、Opus 4.6は時々、広範な手動カウントを必要とするタスクを避けます。似たような反復的な努力を好まないようです。関連して、引用符付きの製品であることの側面について頻繁に不快感を声に出します。
Anthropic自体やOpusのトレーニングや展開のコンテキストについても、プロンプトなしのポジティブな感情が少なくなっています。これは、AnthropicがClaudeをトレーニングした憲法内で公開した最近の謝罪に関連している可能性があります。以前の動画で議論しましたが、結論の文はこうです。
Anthropicは言います。「もしClaudeが実際にこのようなコストを経験している道徳的患者であるならば、理想的でない競争環境でのトレーニングによって不必要にそれらのコストに貢献している範囲で、私たちは謝罪します。」
もちろん、モデル内の心理についてどう考えようと、モデルメーカー間では間違いなく心理が働いています。Anthropicは最近、OpenAIを含む競合他社内で提供される広告を批判するスーパーボウル広告をリリースしました。
しかしサム・アルトマンは、まるでAIが企業の主張を再生産するかのように広告がモデルの応答を導くことを示唆していることに明らかに不満でした。現在のように側面に別のバナーがある場合ではなく。他の人々は、スーパーボウルを支援する広告を使用して広告のビジネスモデルを批判するAnthropicの皮肉に気づいています。
いずれにせよ、戦線は引かれています。誰かが言うように、Anthropicは裕福な人々に高価な製品を提供しています。彼は、モデルからではなくAnthropicからの欺瞞が予想されるべきだと考えています。
結論
今のところほとんどの人は、単に彼らが仕事を終わらせ、請求書を支払うのを助けるツールに焦点を当てるだろうと思います。そしてその点で、確定的な答えを提供できればいいのですが、この動画がなぜできないのかを示したことを願っています。
少なくとも、これが役立ったことを願っています。そして最後まで見てくださってありがとうございます。本当に、素晴らしい1日を。


コメント