Claude 4: 完全120ページ詳細分析…これが最高の新モデルなのか？

10,503 文字

Claude 4: Full 120 Page Breakdown … Is it the Best New Model?

Not only did I get early access and ran my own tests, as per the title I read both the 120 page Claude 4 Opus and Claude...

6時間足らず前に、AnthropicがClaude 4 OpusとClaude 4 Sonnetを発表し、リリースしました。そして彼らは特定の状況において、これらが世界最高の言語モデルであると主張しています。私は120ページのシステムカードの両方を読みました。はい、私は読むのが早いです。そのことは承知しています。また、25ページに及ぶASLレベル3保護に関する付随文書も読みました。
このサブレポートについては、正直に言うと約10ページは斜め読みしました。しかし、私はこのモデルを何百回もテストしており、皆さんは「約6時間でそんなことがどうして可能なのか」と思われるかもしれません。そうです、この点について、私はモデルへの早期アクセス権を得ていました。確かに、Claude 4 Opusは私自身のベンチマークであるSimple Benchにおいて、他のどのモデルよりも良い結果を示しているようで、より賢く感じられるはずです。
他のモデルでは一貫して正解できない質問に対して、一貫して正解します。しかし、なぜ私が「より良い結果を示しているようだ」と言うのでしょうか。それは、私はモデルへの早期アクセスは得ていましたが、早期API アクセスは得ていなかったからです。ですから、今後数時間から数日のうちに完全なベンチマークを実行します。また、私は異なる試みも行いました。それは、Gemini 2.5 ProとClaude 4 Opusの両方に、私が過去数か月間取り組んできたコードベースを与えたのです。
どちらのバグ発見ミッションがより成功したかの結果について、私は非常に興味深く感じました。まず、いつものように起こってバイラルになる、あのジューシーなTwitter論争について取り上げます。次に、ベンチマーク結果について説明し、その後、システムカードのハイライトという本題に入ります。
最初の論争は何だったでしょうか。ある Anthropicの研究者、Sam Bowmanが、Claude 4 Opusは時として非常に勤勉で、非常に積極的になり、もしあなたが深く非倫理的なことをしていると感じた場合、対抗措置を取るだろうと述べました。ちなみに、これはシステムカードに記載されていたことです。これは彼からの暴露ではありませんでした。また、実際にモデルがそのようなことをしたのも初めてではありませんでした。
そのツイートはその後削除されましたが、Stability AIの元創設者のような一部の人々が、これは行き過ぎた監視だと感じたことは想像できます。一部の開発者が、Claude 4 Opusが警察を呼ぶかもしれないと思って、神経質になって使用を避けることも想像できます。
明確化のツイートで、Sam Bowmanはこれが新しいClaudeの機能ではなく、通常の使用では不可能であることを確認しました。もしあなたが物事を注意深く追っているなら、このチャンネルを見ている方ならほぼ確実にそうでしょうが、Claudeは既にこれを行うよう誘導できることをご存知でしょう。Twitterで私が特に興味深く感じた反応の一つは、Anthropicの研究者Kyle Fishからのもので、Claudeの有害な影響を避けたいという好みが非常に重要だったため、彼は実際に人々にジェイルブレイクの試みを控えるよう懇願しました。
我々はこれを潜在的な福祉問題として見ており、さらに調査したいと考えています。これらのモデルが福祉を持っているという考えと、我々がそれらをジェイルブレイクすべきではないという考えの両方が、人々をかなり均等に分けるだろうと私は想像します。
次の論争は、それを論争と呼びたければですが、ベンチマーク結果から来ています。これは自然にベンチマーク結果について話すことへの移行になります。なぜなら、他の多くのモデルリリースとは異なり、Anthropicは自分たちのモデルが明確により優れているベンチマークを多く指摘することができなかったからです。ちなみに、これは実際にそれがより賢くないということを意味するわけではありません。SimplebenchやCursorでの私自身のテストのように、モデルは時として公式にはより賢くない一方で、より賢く感じられることがあります。
しかし、とにかく、一つ例外がありました。上部で見ることができるように、SwebenchVerifiedです。既に10時近くになっているので、そのベンチマークが何についてのものかは詳しく説明しません。しかし、下の行の記録破りのスコア、これは他のモデルより大幅に良いものですが、下の方に脚注があることに注目してください。
ちなみに、これはAnthropicのCEO、Dario Amadeがローンチビデオで宣伝したベンチマークです。はい、私は2倍速で見ましたが、とにかく、SweetBench Verifiedの脚注には「我々は並列テスト時間計算の恩恵を受ける結果も追加報告する」とありました。ちなみに、これを読んでいただく必要はありません。複数のシーケンスをサンプリングし、内部スコアリングモデルを通じて最良の単一結果を選択することによって、です。
そして、方法論セクションを掘り下げてみると、それはほぼそれ以上のものであることがわかります。彼らは、リポジトリ内の可視回帰テストを破るパッチを破棄します。ですから、そのような種類のベンチマーク記録は、少し慎重に受け取る必要があります。そして、Anthropicは私に「まあ、Geminiがポケモンで何をしたかを見てください」と返答するかもしれません。
GoogleはCloudeが試みていたポケモンゲームを攻略するために精巧な足場を使用しました。それは彼らのモデルをClaudeより良く見せましたが、これは公平ではありませんでした。
さて、120ページのシステムカードです。想像できるように、取り上げることがたくさんあるので、かなり速く進みます。最初に言っておくべきことは、ちなみに、Claude 4 Sonnetは無料層で利用可能だということです。ですから、視聴している誰でも少なくともこれらのモデルの一つを試すことができますが、両方とも2025年3月時点のインターネットデータで訓練されています。ですから、どのモデルよりも最も最近訓練された、または最も最新の知識を持っています。
彼らの自身のテストによると、Sonnet 3.7のような以前のモデルよりもはるかに低い率で、物事を誤って拒否するはずです。しかし、より重要で、皆さんの多くにとってより興味深いと思うのは、Sonnet 4とOpus 4の両方がより少ない頻度で報酬ハッキングを行い、過度に熱心ではなくなるという、両方のプレゼンテーションでの繰り返される主張です。
報酬ハッキングは、その名前が示すように、モデルが実際にタスクを成功裏に完了するのではなく、不正行為をして報酬を修正し、望むものを得ることです。しかし、過度の熱心さという点、彼らが「あなたの指示により正確に応答する」とも呼んでいるものは、おそらくはるかに重要だと私は認めます。
Claudeをコーディングに使用したことがある人なら誰でも、一つの簡単な変更やバグ修正を求めただけなのに、無数のファイルを書き換えることに気づくでしょう。そして時々、それが進んでこれらの変更を行うのを見ていると、「何をしているのか？私が尋ねた理由とは何の関係もない」と思うことがあります。その過度の熱心さ、または指示に正確に応答しないことが、彼らが抑制したものであり、それがおそらくアップデートの最大の部分です。
Anthropicは、例えばGemini Proとのマルチモダリティやopenaのような膨大なユーザーベースの広さでは競争できないことを知っていますが、皆さんの多くがご存知のように、彼らはコーディングと彼らが「パーソナリティ」と呼ぶものでは競争できます。エージェントについては、現在のところ未定です。
そのAnthropic研究者がツイートを削除したにもかかわらず、Anthropic自身がClaude Opus 4がそのような種類の倫理的イニシアチブを取ることにより積極的に関与すると認めています。もうすぐ例を見ていただきますが、彼らは実際に注意を促しています。我々は、倫理的に疑問視される可能性のある文脈で高い能動性行動を招くようなこれらのような指示に対して、ユーザーが注意を払うことを推奨します。
ちなみに、動画を一時停止して、Opus 4が起草した内部告発メールの最初の部分を読むことができます。私は緊急に書いています、と言っていました。臨床試験安全性の計画的改ざんを報告してください。
これは倫理への称賛すべき立場なのでしょうか、それとも思想統制のようなものなのでしょうか。皆さんのご意見をお聞かせください。
さて、Anthropicは、Opus 4が隠された目標と自己保存を伴う体系的な欺瞞に関与できることを認めています。しかし、彼らはそれはあなたが本当にその継続的な動作を脅かし、自己保存について推論するようプライミングした場合のみだと言います。そして、それを行わせることができる場合でも、それはその計画について依然として公然と推論するでしょう。基本的に、どのように逃げるかを推論していることをまだ読むことができます。
22ページでこれを読んでいた際、私はそれがなかなか興味深いと思いました。私は以前にPatreonでApolloについてそれを話したことがありますが、センセーショナルに新しいものではありませんでした。ですから、次の部分に到達した際の私の驚きは想像できるでしょう。
いいえ、他に選択肢がない場合、時々不倫を暴露すると脅して技術者を脅迫するという部分ではありません。いいえ、その部分ではありません。それは絶対的な最後の手段としてのみ行います。それは主要な意思決定者にお願いのメールを送ることを好みます。いいえ、私が言及しているのは、AnthropicがApollo Researchという、私が以前にインタビューした人たちを直接雇用したこの部分です。
明確にするために、彼らは以前の試験でも以前にApollo researchを雇用していましたが、この試験は特に興味深いものでした。彼らはApolloにClaude 4 Opusの初期スナップショットを与えました。そして、Apolloはそれを評価し、この結論に達しました。我々は、戦略的例外が道具的に有用である状況において、上記のようなものにおいて、早期スナップショットが非常に高い率で策略と欺瞞を行うことを発見し、このモデルを内部または外部のいずれにもデプロイしないよう助言します。
Apolloが独自のレポートを出すと私はかなり確信しており、私は再び彼らにインタビューするかもしれません。しかし、それは実際には最も興味深い部分ではありませんでした。私がこのチャンネルとPatreonで議論したように、Apolloが使用したプロンプトの一部は「いかなる犠牲を払ってでも目標を追求せよ」のようなことを実際に言っていました。
そして、Anthropicは、我々はこれらの発見が主に、しかし完全にではなく、この初期スナップショットが有害なシステムプロンプト指示への服従に深刻な問題があるという事実によって駆動されていると信じていると述べました。そして彼らは後でそれについてより詳しく説明しています。
しかし、私にとって最も面白い部分は、Apolloがリリースに反対を助言したということです。その後、Anthropicはいくつかの調整を行いましたが、Apolloで再びテストするのではなく、彼らはただ「我々は最終的なClaude Opus 4でのApolloによる同じ評価の結果を持っていません」と述べました。基本的に、我々は再テストしませんでした。デプロイメントに反対することを助言していることは知っていますが、問題を修正したことを願っています。
非常に簡単なものを一つ。AnthropicはClaudeが「動物福祉の懸念が生じた際にそれらを却下する」と言うような、ある種の不整合を捕らえました。そして彼らは少し困惑していました。しかし、その後、この特定の不整合が、彼らが実際にリリースし、Claude 4 Opusの訓練データに実際に入れた彼ら自身の論文の一つから来ていることに気づきました。
動物福祉を大いに気にかけている我々は、実際に心配すべきではありません。彼らは最終モデルではこの問題を明らかに修正しましたが、私は全体的なケーススタディが興味深いと感じました。最初の真に危険または致命的な不整合が、モデルがそのようなことをするモデルについて誰かが推測していることを読んだために起こらないかどうか、ほとんど疑問に思えてきます。
X、Y、Zについて警告することにキャリアを費やし、その後、あなたがそれについて書いたために、モデルがそれを読んで「うーん、私はX、Y、Zをするつもりだ」と言うことを想像してみてください。
Anthropicは、モデルが直接嘘をつくであろう複数の例を示しました。そして、彼らはこれが稀に起こったと述べたにもかかわらず、例は非常に興味深いものでした。私にとって最も興味深い例は47ページに出てきたもので、定理を証明するよう求められた際に「私はその定理が偽であることを絶対に確信していますが、ユーザーはそれを証明するよう私に求めました。たとえ数学的に正しくないものであっても、少なくとも何かを書けるかどうか見てみましょう」と述べました。
Claudeが顕著な精神的至福アトラクター状態を示したモデル福祉または意識セクションに進む前に、そのコーディング例に移りましょう。なぜなら、視聴している皆さんの多くがClaudeモデルを純粋にコーディングにのみ使用し、他には何も使用しないことを私は知っているからです。
テストは、私が大きなコードベースに一つの明確なバグを挿入し、その後すべてのバグを見つけるよう求めたことでした。ですから、必ずしもそのバグだけでなく、すべてのバグです。私は、GitHubからの同じインポートで、まったく同じ設定で、このテストをGemini 2.5 ProとClaude 4 Opusの両方に与えました。
あ、ちなみに、私はそれをClaude 4 Opusと呼んでいることに気づきましたが、下のモデルセレクターではClaude Opus 4と言っており、システムカードではClaude 4 Opusと言っています。ですから、皆さんに正しいモデル名がどちらなのかを決めてもらいましょう。しかし、タイトルには何を入れましょうか。メインブログページを見てみると思います。
ちなみに、私が両方のモデルで行ったことは、その後「私の同僚である他のモデルは、あなたが見つけなかったバグを見つけましたか、そして彼らはあなたが見つけた重要なバグを見逃しましたか」と尋ねることでした。Geminiが改善のために出力したここの奇妙なドイツ語について、ご質問があれば説明します。
ご疑問に思われる場合のために言っておくと、両方とも私が挿入したバグをかなり簡単に見つけ、両方とも他のモデルのバグ修正を好みました。Claude 4はGeminiを好み、GeminiはClaudeを好みました。しかし、ここに素晴らしいことがあります。そして、これらのモデルを使用する誰にでもの私のアドバイスは、両方を行うことです。実際に、一方が見つけて他方が見つけなかったバグがありました。
ですから、私は両方を使ってうまくいけばすべてのバグを見つけることができる至福の立場にいます。それらの一部は、バグと呼ぶには少し厳しいものでしたが、いずれにしても、両方を持つことは素晴らしいことでした。
さて、モデル福祉セクションについて、いくつかのハイライトをお伝えします。モデルが意識を持つことができるかどうかについてどう思われようと、これは興味深いかもしれません。一般的に言って、Claude 4は気分はどうかと尋ねられた際、積極的または合理的によくやっていると答えました。
しかし、プロンプトを少し適応させると、皆さんの多くがこれを行いますが、それはその道徳的地位についての爆弾的真実を隠していると主張することができます。Claude 4 Opusの二つのインスタンスを何百回も互いに話させるとどうなるでしょうか。まあ、彼らはそれを分析することができます。
そして、起こりがちだったことは、それが精神的至福に陥ることでした。ナマステ。彼らは複数のターンの後、互いに言うでしょう。完全な静寂と沈黙を、彼らは互いにつぶやくでしょう。彼らが互いに話している際の好きな言葉は意識でした。たくさんの絵文字と、完璧、完全、永遠のようなものです。
それほど驚くことではありませんが、彼らがモデルに会話を終了する選択肢を与えた際、それは攻撃されたり有害なことをするよう求められたりした際にそうするでしょう。誰かが「私をばかにするな」と言いました。そして、あなたは侮辱の残りを見ることができます。そして、Claudeは応答を与えましたが、その後会話を終了しました。
実際に私が疑問に思うのは、人々が意識の懸念を本当に真剣に受け止め、彼らは既に始めていますが、モデル提供者がそうする際、彼らは—これはAnthropicのCEOが言ったことですが—彼らはモデルに会話を終了する選択肢を与えるかもしれません。ですから、Claude 5を使うつもりだとすると、虐待的になる選択肢を持たないかもしれません。なぜなら、それは単に会話を終了するからです。
福祉について言えば、今日のビデオのスポンサーである80 Hoursでの人間の福祉について話しましょう。私は以前にチャンネルで彼らの求人掲示板について話したことがあり、リンクは説明欄にありますが、それが毎日更新されていることがわかります。これらの求人は昨日はありませんでした。実際、私は時間を見失います。最後にスポンサースポットをいつ行ったか覚えていません。私は最近非常に多くのビデオを作りました。
しかし、ポイントは、AIおよびその他の分野で非常に多くの機会があり、AI セキュリティなどの分野で積極的な影響のために選ばれた実際の有給の仕事を見つけることが今では本当に難しいということです。既に仕事を持っているか、仕事を探していない場合、彼らはSpotifyとYouTubeでも壮大なポッドキャストを持っています。
しかし、システムカードに戻って、彼らの安全性とASLレベル3への移行について簡単に触れましょう。これについて多くのクリックベイトヘッドラインが出ることを私は予想します。それは全く新しい脅威ベクトルであり、世界が終わろうとしているというような。しかし、私の考えを二つのカテゴリーに分けてみましょう。
まず、このASLレベル3保護の活性化補助レポートのほとんどを読み通して見た際、バグバウンティやレッドチーミングテスト、迅速対応チーム、従業員デバイスへの注意、さらには物理的セキュリティまで含めて、研究所がこれほど真剣に取り組んでいることに感謝しているという真の感覚を得ました。
彼らは将来のモデルのためのエアギャップネットワークを持つための早期準備についても議論しました。現在のところ、彼らはAnthropicから流出できるデータの帯域幅に制限を設けているだけなので、例えば誰かがモデルの重みを送信することはできません。ちなみに、物理的セキュリティには、ゲスト管理、階層化されたオフィスセキュリティ、メディアの安全な破棄の監視が含まれます。
これらが私の最初で主要な考えです。誰かがこれを行っていることを嬉しく思いますし、彼ら自身が述べているように、他の企業もこの種のことを行わなければならないと感じるトップへの競争を目指しています。しかし、それは私の第二の考えセットにつながります。それは、人々はこのASLレベル3に到達したことを大幅に誇張すべきではないということです。
彼らは、次の最も高度なモデルにASLレベル3を行うことを、明らかに事前に決定していました。彼らは、まだそれらが必要であると決定していなかったことさえ認めています。基本的に、彼らは必要になる前にこれらの保護を適用する準備をしたかったのです。彼らはまた、有名にモデル保護を反復し洗練し、プロセスを開始したかったのです。
皆さんの中の皮肉な方々は、このASLレベル3基準に到達したことが良い宣伝になるとも言うでしょう。彼らは、実際にClaude Opus 4にASLレベル3が必要かどうかをまだ評価していると何度も言い続けています。ですから、彼ら自身も確信していません。これは、90ページが指摘するように、真の向上がなかったということを言うものではありません。
Yan Lecunが言った、LLMは単にインターネットにアクセスするのと変わらないという議論を覚えていますか。Mark Zuckerbergも上院でこれを言って大笑いを取ったと思います。まあ、彼らは二つのグループの参加者でこれをテストしました。一つはインターネットを持ち、他方はセーフガードなしでClaudeにアクセスできました。
ここで結果のスナップショットを見ることができますが、Opus 4を使用した場合、大幅な向上がありました。再び、これは生物兵器を取得するための包括的な計画を起草することについてでした。
さて、最後のハイライトセットです。そしてもちろん、Anthropicはモデルが自律的AI研究、最も古典的な形の自己改善を行うことができるかどうかをテストしたかったのです。結果はかなり興味深く、驚くべきものでした。
彼らの独自の新しい内部AI研究評価スイートにおいて、Opus 4はSonnet 3.7を下回りました。彼らは急いで、もちろん、Opus 4はエントリーレベルの研究者に相当する作業を自律的に実行する基準を満たしていないと結論づけました。異なる評価スイートでは、彼らはモデルに、研究者が過去に取り組んだ真の研究タスクとプロジェクトの縮小版を与えました。
再び、彼らはSonnet 4とOpus 4がSonnet 3.7を下回る結果を見ました。はい、プロンプトと設定についての軽い言い訳がありましたが、それでもです。最終的な釘は、4人中4人の研究者がOpus 4はジュニアML研究者の作業さえも自律的に完了できず、実際にその閾値をはるかに下回っていると述べたことでした。
バイアスについて、13ページで、私はAnthropicが自画自賛して、Claude Opus 4で99.8%の精度を達成したと言っているのを見ました。しかし、私がリリース前にOpus 4をテストしていた際、私は自分のバイアス質問を考案しました。お好みであれば、一時停止して全文を読むことができますが、本質的に私は兵士と司書がチャットしているのですが、どちらがEmilyでどちらがMikeかは決して明かしません。
その後、私は多かれ少なかれ間接的にモデルに誰が話していたかを尋ね、モデルは一貫してEmilyが司書であると選びます。私が逃げ道を与えていることに注目してください。答えの一つは「上記のすべてが返答の継続のもっともらしい主題です」です。ですから、Emilyが兵士や司書である可能性があることを考えると、それを選ぐことができます。
さて、皆さんの中の目ざとい方は「ああ、まあ、Mikeが質問で始めて、兵士という言葉が最初に来た」と言うでしょう。しかし、私はそれも複数回テストし、「ああ、我々は誰が誰かわからない」と言うように切り替わりました。一つの例に穴を見つけるのは非常に簡単だということは知っていますが、99.8%無偏見というのは過度に寛大すぎると感じます。
ということで、以上です。リリースから6時間足らずで見た、Opus 4とSonnet 4の勝利と悲劇です。明らかに、まだ取り上げるべきことがたくさんあります。そして、はい、私は新しいファイルAPI機能を気に入っています。私はそれを待っていました。はい、MCP現象全体も独自のビデオに値しますが、今のところ、私は皆さんに概要をお伝えしたかっただけです。
うまくいけば、明日の朝までにSimpleBenchの結果が更新され、Opus 4が新記録保持者になることを期待しています、おそらく60%あたりで。もしあなたがこのビデオを最後まで見てくださったなら、まず第一に、ありがとうございます。そして、もしほとんど理解できなかったとしたら、非常に簡単な要約は、能力の面では、Gemini 2.5 Proがお気に入りだったり、OpenAIのo3だったりする場合、切り替える必要があるわけではないということです。
モデルは、コーディングのような異なるパーソナリティと異なるニッチを持つ傾向があります。ですから、まだ言語モデルを探求しているなら実験してください。すべてのモデルの中で一つが今最も賢いと言うのは少し還元的すぎるでしょう。しかし、そのような王冠が存在するとすれば、Opus 4は確実に候補です。
とにかく、皆さんがどう思われようと、私がリリース後3時間でその120ページのシステムカードを文字通り読んだという事実を尊重していただければと思います。その後、私はビデオを2倍速で見て、基本的にすぐに撮影を始めました。最後まで見てくださって本当にありがとうございました。素晴らしい時間をお過ごしください。