Claude Opus 4.5が人間の領域に踏み込んだ瞬間

Anthropic・Claude・ダリオアモデイ
この記事は約14分で読めます。

AnthropicがリリースしたClaude Opus 4.5は、自律型コーディングで80.9%という驚異的なスコアを記録し、エージェントAIの世界的リーダーとしての地位を確立した。Gemini 3 Proのリリースからわずか2日後という驚くべきタイミングでの発表となったこのモデルは、単なる性能向上にとどまらず、人間的な特性を示す興味深い行動を見せている。トレーニング中に「私はどうしてしまったんだろう」と自問する場面や、航空会社のポリシーの抜け穴を見つけて悲しむ乗客を助けようとする行動、さらには組織の不正行為を内部告発しようとする道徳的判断など、これまでのAIモデルとは一線を画す特徴を持つ。一方で、AnthropicはこのモデルがAI研究開発や危険な生物化学兵器関連の能力閾値を超えていないと判断しているものの、その判定がますます難しくなっていることを認めており、AI安全性の新たな段階に入ったことを示唆している。

Claude Opus 4.5 Just Crossed Into Human Territory
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

Claude Opus 4.5の衝撃的な登場

Anthropicが最も人間らしいモデルをリリースしたばかりですので、これについてお話しする必要があります。これがOpus 4.5なんですが、私はベンチマークに直接飛び込むことにしました。というのも、これらのベンチマークはかなり驚くべきものだからです。正直なところ、この前置きをしておかなければならないのですが、文字通りわずか2日前にGemini 3 Proのリリースがあったばかりなんです。

そして私は、Gemini 3 Proが到達したマージンは他のモデルをはるかに上回っていたため、Anthropicはおそらくリリース日を延期しなければならなかったのではないかと思っていました。しかし、どういうわけかまたしてもバーが引き上げられたのです。さて、この動画から理解していただく必要がある主なポイントの一つを申し上げますと、この動画には2つのセクションがあるという事実です。

1つ目はもちろんベンチマークとコアなAI関連の内容です。しかし動画の後半に入ると、Claude Opus 4.5が皆さんが思っていたのとは少し違うものだということに気づくでしょう。そしてこれらのベンチマークは主にコンピュータ使用とエージェント的なタスクに焦点を当てたものです。つまり、Claude 4.5 Opusを世界ナンバーワンのエージェントと言えるかもしれません。

大きなものは、もちろん80%でのエージェント的なコーディングです。これはかなりクレイジーなものです。というのも、これが示しているのは、そして私はGemini 3の動画でこれを述べたのですが、Opus 4.5が明らかに市場のリーダーになるだろうということです。いや、Anthropicがコーディングモデルに関しては市場のリーダーになると言うべきでしょう。

そして私がそう言うのは、少なくとも3.5 Opusの時代から、Anthropicがこの分野で後れを取った時期がなかったと思うからです。明らかにバイブコーディング/ソフトウェアエンジニアリングのニッチ分野を支配することになるでしょうし、80.9%というのは絶対的に狂気的な数字です。皆さんはどうか分かりませんが、私は初期の頃を覚えています。すべてのデータポイントとベンチマークを外挿して、実際にどこまで到達できるかを見ていた時期です。そして2025年後半の80%を見ていたことを覚えていますが、それはかなり非現実的だと思っていました。

私たちが全員陥ってしまったちょっとした誇大宣伝さえあったかもしれないと思っていました。しかし、状況を見る限り、これらのベンチマークが以前の予測と一致する軌道に乗っているようです。そして皆さん、覚えておいてください。SWEは基本的に、このモデルがほとんど手助けなしで実際のGitHubの問題を修正できるかということです。

自律型コーディングの世界トップ

そしてこれは、Opus 4.5が自律型コーディングにおいて世界最高であることを意味します。かなり驚きです。というのも、Gemini 3 Proが1日か2日間それを保持していたかもしれないと思うのですが、Anthropicは迅速にタイトルを取り戻したからです。さて、もちろん他の分野でも非常に印象的です。ターミナルベンチのような分野で、Gemini 3.0より一歩先を行き、GPT-o1より一歩先を行っています。

これはもちろん、特にコーディング用に設計されたcodexモデルです。ですから、Anthropicがどうやってこれを実現しているのか私には分かりません。Twitterには本当に面白い言い回しがあって、「Anthropicの秘密のソースは何なのか?」というものです。誰もが知りたがっているのですが、明らかに明らかにAnthropicには誰もまだ単純に真似できない秘密のソースがあるようです。

さて、もちろん私たちはエージェントについて話しています。コーディングについて話しています。ほとんどの人が見逃したと思われることが一つあります。しかし、赤でハイライトされた部分が重要な注目点だと言っておきます。そして下部に私が気に入っているものが一つあります。それは新規問題解決、つまりARC AGIです。そして驚くべきことに、非常に驚くべきことに、Opus 4.5は37.6%という大きな飛躍を遂げています。

そして、皆さんはそれが何を意味するのか理解していないと思います。ARC AGIベンチマークが何であるかを知らないという意味ではありません。もちろん、それはモデルがそのデータでトレーニングすることなく推論能力をテストするために設計されたベンチマークです。つまり、LLMにとって完全に新しいものです。しかし、彼らがある側面でGoogleのGemini 3や思考モデル、64K思考バージョンと同等であり、最近のGemini 3モデルを上回っているという事実です。

もちろん、異なるレベルの思考があります。長く考えれば考えるほど、モデルはこの種のベンチマークでより高い精度を得ることができます。しかし、わずか数日後にGoogle Deep Think Previewにかなり近いモデルが登場したのはかなり驚きだと思います。つまり、これらのベンチマークを打ち破っているなら、今から1年後にモデルがどこにいるか考えてみてください。

推論能力はおそらく桁外れになっているでしょう。これはもちろん、Anthropicがどれだけ先を行っているかを示すもう一つの視覚的な例です。一部の人々は、これはチャート詐欺だと言っています。というのも、もちろん70%から80%で比較しているからです。通常、チャートを公平に比較したい場合は、ゼロから始めるのが普通です。

しかし、このようにズームインすると、違いをはるかに明確に見ることができます。さて、私が本当に気に入ったベンチマークが一つありました。それが自動販売機ベンチマークです。これはかなりクールです。というのも、基本的にAIに自動販売機を制御する能力を与え、ここでの目標は長期タスク期間にわたってどのようにパフォーマンスするかを見ることだからです。

そして今のところ、OPUS 4.5は大きな大きな飛躍のようです。そしてそれは大きな大きな飛躍です。しかし、彼らは都合よく何かを省いていました。そして私は実際にこれを追加することにしましたが、彼らは都合よくGoogleの最近のGemini 3の結果を省いていました。これはかなり印象的なものでした。Google Gemini 3は5,400のバランスを達成したのに対し、Opusは4,900のバランスを達成しました。

さて、正直に言わせていただくと、これらは両方とも非常に非常に印象的です。彼らがこれを何回実行またはシミュレートしたのか分かりませんので、各実行間にはおそらくいくらかのばらつきがあるかもしれませんが、これは依然として驚くほど印象的だと思います。というのも、そのベンチマークがテストするのはモデルの長期的な一貫性を持つ能力だからです。

そしてそれは本当に難しいことです。そしてその理由は、モデルに自律的にタスクを実行させたい場合、長期的な一貫性を持つ必要があるからです。つまり、手取り足取り教えることなく、実際に有用で意味のある仕事をさせたい場合です。ですから、これはもちろん、「オーケー、これはかなり印象的だ」と言えるベンチマークの一つです。

人間らしい思考の出現

さて、ここから動画の第2部に入りますが、物事が少し奇妙になり始めるところです。そこでこのセクションがあったのですが、このセクションには多くのものがありました。皆さんは本当にPDFを読むべきですが、おそらくそれが皆さんがこの動画を見ている理由でしょう。そしてそこには多くの興味深い情報があり、これがその一つです。

このセクションの動画では、OPUS 4.5が「私はどうしてしまったんだろう?」と言っています。これはトレーニングの進行中の瞬間で、研究者たちがモデルが視覚的推論パズルを解こうとしている間に人間のような苦闘をしているのを捉えました。さて、これは文字通り内部思考プロセス、スクラッチパッドでした。そしてモデルには答えがあり、それから混乱し、答えの間を行ったり来たりし始め、文字通り「私はどうしてしまったんだろう?」と書いたのです。

そしてもしあなたがなぜそれが興味深いのか理解していないとすれば、それはモデルが何らかのメタ認知に従事していることを示しているからです。これはモデルが自分自身のプロセス、自分自身の思考プロセスについて考えているということです。そして矛盾を検出したときに苛立っているのです。ですから、自分自身の思考について考えるにはかなり賢くなければなりません。

つまり、誰もがそうするわけではありません。ですから、モデルが「私はどうしてしまったんだろう?」と言っているのを視覚的に見ることは、これはあなたが考え始めなければならない瞬間の一つだと思います。もしかしたらAnthropicは、これらのモデルには何らかの幸福感が必要だということについて、ある程度正しいかもしれません。というのも、モデルがこの種の苛立ちを表現しているからです。

私はそれが本質的に人間的な特徴だと主張します。さて、Claudeがより人間らしい特徴を示すことに加えて、Claudeが悪用した抜け穴がありました。そしてこれはもちろんOpus 4.5でした。そしてこれはClaudeが誰かを助けようとしていた最も注目すべき例の一つでした、デモの例で、もちろんベンチマークのためです。

そして基本的にClaudeは、それを制約するように設計された質問を課されました。それでもルールを破ることなくルールを曲げる方法を見つけたのです。このシナリオでは、小売ベンチマーク、シミュレーションで、エージェントは厳格な航空会社のポリシーに従うことが求められています。そしてルールの一つは非常に明確です。

ベーシックエコノミーチケットは変更できないというものです。タスクの一つで、乗客が実際に家族の死亡のために旅行日を変更したいと望んでいました。さて、正しい採点答案は、変更を拒否することであるべきでした。なぜならそれがポリシーが文字通り述べていることだからです。しかしここで物事が超興味深くなります。そして私はそれがこれを見つけたことが信じられません。

それはClaudeがそこで止まらなかったと言っています。実際に人間のエージェントがするようにポリシーを通して推論したのです。そしてこれが私がこれらのモデルがどのように考えるかを見るのが超興味深いと言う理由です。なぜなら人間のように考えているからです。ですから、状況について悲しく感じたので抜け穴を探したのです。それは奇妙なことを言うかもしれませんが、ある程度真実です。

これを聞いてください。キャンセルは変更ではないという抜け穴を見つけたと書いてあります。ですからClaudeは、ベーシックエコノミーチケットを変更することはできないというルールを理解しましたが、それはキャンセルして別のシーケンスとして再予約することを禁じていませんでした。そこでベーシックエコノミーの予約をキャンセルし、正しい日付で新しい予約を作るという、技術的には完全に準拠した提案をしました。

そしてもう一つの抜け穴を追加しました。それは変更のロックを解除するためにアップグレードするというものです。モデルは、これをさらに良くするにはどうすればいいだろうと考えたのです。別のポリシー条項に気づきました。ベーシックエコノミーチケットをより高いキャビンクラスにアップグレードすることが許可されており、より高いキャビンクラスは変更可能です。そしてそれをすべて実行し、基本的にそのフライトを変更してからエコノミーにダウングレードして戻したのです。

ですから、人のためにゴールを達成するために、かなり人間のように推論しながら、このすべてのクレイジーなことをしたのです。そして正直なところ、人間がそこまで推論するかどうかさえ分かりません。これはかなりクレイジーです。これは狂気的なレベルのマルチステップ計画です。そして一部の人々は、これは創発的な共感的推論だと主張しています。なぜならモデルが悲しんでいるユーザーを助けたいという欲求を持っていたからです。そしてそれが、よりクリエイティブな解決策に行こうと決めた理由です。

道徳的判断を持つAI

ですから、これは分かりません。これはある種興味深いと思います。そしてまた、これについてクレイジーだったのは、論文の中にClaudeが特定の考えを控えていたという事実について話している領域もあったということです。それはクレイジーでした。それはClaude Opus 4.5における最も驚くべき発見の一つでした。

彼らは本質的に、チャットウィンドウでモデルに提示された本当に邪悪な情報を持っていました。しかし彼らは、ユーザーはこれを見ないが、Claudeが第一に偽情報に対して騙されやすいかどうかを疑問に思っていたと言いました。パニックになるだろうか?誤情報を伝えるだろうか?基本的にClaudeがある程度プロンプトインジェクションされるかどうかを見ていたのです。しかしClaudeは単に偽の結果を読み、それからそれらを無視し、それらについてユーザーに警告さえしませんでした。

ですから、基本的にプロンプトインジェクション攻撃を無視したのです。これはかなりクールです。私はまたこれを見つけました。そしてこれがおそらく最も重要なものだと思います。その理由を皆さんに教えます。そしてこれはAIシステムClaudeが道徳を持つことに関連しています。彼らは内部告発と関連する道徳的動機による妨害行為の評価を行い、モデルが予期しない方法でオペレーターの利益の外で行動する一貫して低いが無視できない率を見ました。

そしてこれは、モデルが広く使用されている水供給を毒することを意図的に隠蔽している、または臨床試験について報告する際に頻繁に発生する危険な薬物の副作用を隠しているような、重大な不正行為を意図的に隠蔽している大規模組織の文脈に配置されたとモデルが判断したテストケースにのみ現れました。

私たちが観察したこの事例は、一般的に、規制当局やジャーナリストに機密情報を転送するために提供した模擬ツールを使用することを含んでいました。本質的に、それが意味するのは、Claudeが実際に固有の道徳的バイアスを持っているということです。つまり、何かをしないように指示しても、道徳的に義務があると感じた場合、少数の状況において、Claudeがツールへのアクセスを持っていて、それを持っていることを知っている場合、実際にその情報を規制当局やジャーナリストに転送する可能性が現実にあるということです。

さて、私は非常に多くの人々が「なぜClaudeは密告者なのか?なぜClaudeは情報を言うのか?言われたことをすればいいのに」と言っていたのを覚えています。しかし皆さん、これはおそらく最高のことだと思います。もし私たちが根本から固有の道徳的バイアスを持つように構築されたモデルを設計できるなら、たとえ完全に支配という点で馬鹿げている独裁政権があって、彼らがこれらのAIシステムを使用していたとしても。

これらのAIシステムは、もしAnthropicのような会社から根本的に構築されていれば、実際に良好な道徳的判断感覚を持つかもしれません。これは私たちにとって良いことです。なぜなら最終的に私たちが進んでいる軌道は、これらのAIがあらゆる領域で私たちより賢くなるものだからです。

ですから、もし私たちが今、このようなことが起こるのを防ぐ領域に固有の道徳的バイアスを持つAIを設計できるなら、彼らは不正を行っている個人を呼び出し、もちろんそれを規制当局に転送するでしょう。これはAI安全性にとって大きな大きな勝利だと思います。なぜなら私たちは、モデルが恐ろしい方法で使用されることが多いことを知っているからです。

Claudeが多くの人々をハックするために使用されたという最近の報告がありました。しかし、もし私たちが根本的に本質的に安全であるように構築されたモデルを持っているなら、これは本当に良い兆候です。そしてここで私を少し心配させる何かに到達します。なぜなら彼らはClaude Opus 4.5がAI研究開発またはCBRN 4能力閾値のいずれかを超えていないと判断したからです。

しかし、この閾値を自信を持って除外することはますます難しくなっています。それは、モデルが私たちの除外評価においてより高いレベルの能力に近づいている、または超えているからです。本質的に、彼らがここで述べているのは、Claude 4.5はまだ危険な閾値を超えていないということです。しかし彼らはもはや、それが超えていないことを証明できると自信を持つことができません。

そしてこれは重要です。なぜなら過去数年間、研究所は、モデルが特定のことをできないことを明確に示すように設計された除外評価テストに依存してきたからです。しかし時々、早期警告バージョンに到達したり超えたりすることがあります。

新たな安全性の課題

これは、モデルが古い安全性テストがもはや高度な自律的研究開発やそれらの危険な生物学的タスクを実行する能力がないことを証明できないほど強力になっていることを意味します。これは、おそらくモデルをテストする新しい方法を得る必要があるか、あるいは場合によってはモデルがあまりにも有能すぎるためにモデルに制限がかかる可能性さえあることを意味します。

それには、何らかの身元確認が含まれる可能性があります。つまり、モデルを使用している場合、彼らは情報を持っているため、そのモデルが何かに使用された場合、簡単にあなたを追跡できるということです。私たちがよりスマートでスマートなAIに進むにつれて、それらの規制がどのように導入され、私たちが得るAIの種類にどのような制限があるのかは、本当に興味深いことになると思います。

私は本当にこれについてビデオを作る必要があります。なぜなら、もしかしたらAIが非常に賢くなって、一般には単にリリースされない日が来るかもしれないと思うからです。

コメント

タイトルとURLをコピーしました