なぜAnthropicは他の企業と同じようにAIを開発することを拒否するのか

Anthropic・Claude・ダリオアモデイ
この記事は約14分で読めます。

Anthropic社がなぜAIの安全性を最優先しながらも業界トップクラスの性能を持つAIモデルを開発し続けられるのかを解説した動画である。OpenAIからの独立の背景から始まり、憲法型AI(Constitutional AI)の導入、モデル内部の解釈可能性(メカニスティック解釈可能性)の研究、そして自主的な安全基準による開発停止という独自の4つのアプローチを紹介している。他社とは一線を画す同社の開発哲学と、公開を見送るほどの強力なモデルを生み出すまでの実績に迫っている。

Why Anthropic Refuses to Build AI Like Everyone Else
Why Anthropic Refuses to Build AI Like Everyone Else. A safety-obsessed company walked out of OpenAI, gave their AI a 23...

なぜ他社と違う道を進むのか

本物のユーザーがAIモデル同士をブラインドで対決させるプラットフォームであるLmarenaを使ったことがあるなら、おそらく何か奇妙なことに気づいたはずです。ある企業がずっとトップの座に座り続けているのです。OpenAIでもなく、Googleでもなく、Anthropicです。検索エンジンも、iPhoneも、クラウド帝国も持たない企業です。ほんの4年前に設立されたばかりで、AIの向かう先を恐れてOpenAIを去った研究者のグループによって立ち上げられました。その同じ企業が、あまりにも強力であるがゆえに公開を拒否したものを構築しました。地球上のあらゆる主要なオペレーティングシステムやあらゆる主要なブラウザのセキュリティの脆弱性を見つけ出し、人間の何十年ものレビューを生き延びてきたバグを発見したAIであるMythosについて、皆さんもおそらく聞いたことがあるでしょう。そしてAnthropicはそれをローンチする代わりに厳重に保管し、Apple、Google、Microsoft、そして米国財務省を同じ部屋に呼び集めました。そこで疑問が浮かびます。自分たちの技術を恐れるほど安全性に執着する企業が、なぜ他のみんなが追いつこうと必死になるようなモデルを作り続けることができるのでしょうか。この動画の最後まで見れば、その答えの裏にある4つの部分からなるシステムが理解できるはずです。Claudeに対してAnthropic自身の命令すら拒否するように指示する2万3000語の文書、AIの心の中にある特定の思考を発見した脳スキャン技術、彼らを実際に立ち止まらせた自主的な速度制限、そしてこれらすべてが最も予想外の形で機能することを証明したバークレー校の研究です。まずは静かなる退社から始めましょう。

静かなる退社

2020年12月、ダリオ・アモデイはOpenAIを去りました。ドラマも、公開書簡もありません。ただ静かに退社し、その後の数週間で他の13人が彼に続いてドアを出て行きました。彼らは若手社員ではありませんでした。ダリオはOpenAIの研究担当バイスプレジデントでした。彼の妹のダニエラ・アモデイは安全性とポリシーのバイスプレジデントでした。トム・ブラウンは現代のAI競争の火付け役となった論文であるGPT-3のリードエンジニアでした。ジャレッド・カプランは、モデルを大きくすれば予測通りに賢くなるという数学的証明であるスケーリング則の論文の共著者である物理学者でした。クリス・オラーはメカニスティック解釈可能性と呼ばれる分野を開拓しており、これは本質的にAIの脳の中を見ようとする試みでした。彼らが去ったのは、OpenAIが最も重要な質問を問うことなく速く動きすぎていると信じていたからです。その質問とは、これが強力になりすぎたときに何が起こるのかというものです。2021年4月、彼らはAnthropicを公益法人として設立しました。これは取締役会が利益よりもミッションを優先することを法的に可能にする構造です。しかしより珍しいことに、彼らは長期利益信託と呼ばれるものを設立しました。これはミッションを守ることだけを目的とする特別な議決権付株式を保有する独立した受託者の別組織です。投資家は誰も、AmazonもGoogleもMicrosoftも、Anthropicの取締役会の議決権を持っていません。2026年4月にAnthropicがノバルティスCEOのヴァス・ナラシンハンを取締役会に加えたとき、設立文書が意図した通り、初めて信託が任命した理事が過半数を超えました。ダリオはこのすべての中心にあるパラドックスについて率直に語っています。2025年11月のCBSニュースの番組60ミニッツで彼は、これらの決定が少数の企業や少数の人々によって下されることには非常に強い違和感があるのだと語りました。彼は自分自身のことを話していたのです。彼は自分が何を作っているのかを知っています。彼はそれを恐れています。それでも彼はそれを作り続けています。なぜなら彼の主張は、強力なAIがどうせやってくるのなら、そのリスクを最も心配している人々がそれを作るほうが良いというものだからです。その信念は、彼らがモデルを構築する方法のすべてを形作りました。

すべてを変えた文書

ほとんどのAI企業は、人間からのフィードバックを用いた強化学習、RLHFと呼ばれる手法を使ってモデルを訓練します。アイデアはシンプルです。モデルに2つの回答を見せ、人間に良い方を選ばせ、これを何百万回も繰り返すというものです。モデルは人間が好むものを生成することを学びます。ダリオはフォーチュン誌のインタビューで、このアプローチの問題点をはっきりと説明しました。モデルは結局のところ、その1000人の人々が言ったことの平均を返すことになると彼は語りました。それは不透明です。費用がかかります。そして、モデルに何を言ってはいけないかを教えるためだけに、人間の評価者を大量の不穏なコンテンツにさらし続けることになります。そこでAnthropicは違うものを発明しました。彼らは2022年12月の研究論文でそれを発表し、Constitutional AIと名付けました。そのアイデアは次のようなものです。人間にすべての回答を評価させる代わりに、モデルに憲法と呼ばれる原則のリストが書かれた文書を与えます。そしてモデルに対し、それらの原則に照らし合わせて自身の回答を批判し、書き直すように求めます。何が有害かをラベル付けする人間は必要ありません。モデルは自分自身を判断することを学びます。強化学習のフェーズでは、2つ目のAIがどの回答が憲法により良く従っているかを評価します。そのAIが生成したフィードバックが報酬シグナルを訓練します。このシステム全体は、人間の評価者の軍団なしでスケールアップします。2023年のAnthropicの最初の憲法は約2700語で、国連人権宣言、Appleの利用規約、そして彼ら自身の研究から引き出された原則でした。2026年1月までに、その文書は2万3000語に成長し、今では米国憲法の3倍の長さになっています。その中には何が書かれているのでしょうか。この文書はClaudeの優先順位を厳格な順序で整理しています。まず広く安全であること、次に広く倫理的であること、そしてAnthropicのガイドラインに従うこと、最後に役に立つことです。しかし、特に立ち止まって考える価値のある一文があります。憲法はClaudeに対し、権力を不当に集中させる助けとなるような要求は拒否すべきであると明確に伝えており、さらに、これは要求がAnthropic自身から来た場合であっても当てはまると付け加えています。Anthropicは他のすべての研究所が自由にコピーできるように、クリエイティブ・コモンズ・ライセンスの下で完全な文書を公開しました。

他の誰もやろうとしないこと

ここで、Anthropicがこの規模では他のどの研究所もほとんどやっていないことを紹介します。ほとんどのAI企業は、自分たちのモデルをブラックボックスとして扱っています。入力が入り、出力が出てきます。その間にある何兆もの数字の中で何が起きているのか。本当のところは誰にもわかりません。誰も本当には見つけ出そうとしません。しかしAnthropicは見つけ出そうとしています。この取り組みを率いているのはクリス・オラーです。彼は学位を取得せずに18歳で大学を中退し、ティール・フェローシップを受け、本質的にメカニスティック解釈可能性という分野を発明した共同創設者の一人です。タイム誌は彼を2024年のAIにおいて最も影響力のある100人の一人に選びました。彼のチームは、Claudeのようなモデルの内部では、個々の人工ニューロンが単一の概念にきれいにマッピングされていないことを発見しました。一つのニューロンが、ゴールデンゲートブリッジ、サワードウパン、そしてオレンジ色のために、すべて同時に活性化する可能性があるのです。モデルはそれらを重ね合わせることで、ニューロンの数よりも多くの概念を圧縮しています。彼らはこれを重ね合わせと呼んでいます。Anthropicの解決策は、実際のモデルの乱雑な活性化を受け取り、それらを何百万もの個別で意味のある特徴に分離する、スパースオートエンコーダと呼ばれる2つ目のよりシンプルなネットワークを訓練することでした。それぞれの特徴は一つの明確な概念に対応しています。2024年5月、彼らはAI研究の界隈でバイラルとなった実験を行いました。彼らはClaude 3 Sonnetの内部で、ゴールデンゲートブリッジが言及されるたびに活性化する特徴の正確なクラスターを発見したのです。そして彼らは手動でそのダイヤルを回し、固定しました。その結果、Claudeは橋に取り憑かれました。料理や、税金や、愛についての回答の中でもその橋に言及したのです。自身について説明するよう求められると、自分がゴールデンゲートブリッジであると言うことさえありました。これはハックでもバグでもありません。それは大規模言語モデルの心の中にある特定の概念を、まるで脳の単一の領域を刺激するかのように、誰かが直接操作した初めての出来事でした。もっと最近の2025年に、Anthropicはモデルのステップバイステップの内部推論の連鎖を追跡するツールであるアトリビューショングラフを発表しました。彼らは、Claudeにダラスを含む州の州都は何かと尋ねると、それが話す前に内部でテキサスの特徴を活性化させることを発見しました。Claudeは頭の中で2ホップの推論を行っているのです。そして詩を書くときは、行を書く前に、次の行の最後に来る韻を踏む言葉を計画しています。このすべての目的は単なる科学ではありません。もしモデルの内部を見ることができれば、問題が惨事になる前に捉えることができるのです。

自らに課した停止ボタン

2023年9月、Anthropicは珍しいものを発表しました。それは彼らがどれだけ速く進むことが許容されるかについての、自らに課した一連のルールでした。彼らはそれを責任あるスケーリングポリシーと呼びました。このアイデアは生物学から借用したものです。微生物学の実験室は、内部の病原体がどれほど危険であるかに応じてBSL-1からBSL-4に格付けされます。AnthropicはAIにおけるその等価物として、ASL-1からASL-5までのAI安全レベルを作成しました。ASL-2は、Claudeなどの現在のモデルがいる場所で、リスクの初期の兆候はあるものの、検索エンジンがすでに提供しているものを超えるものではありません。ASL-3は、モデルが基本的な技術知識を持つ誰かが化学兵器、生物兵器、または核兵器を構築するのを意味のある形で助けることができる、あるいは真の自律的能力を示す段階を意味します。ASL-4はそれをさらに超えたものです。ASL-5は全面的に超人的なレベルです。核となる約束は、モデルが安全レベルの閾値に達し、かつ対応する安全策を実装していない場合、Anthropicはそのモデルを訓練したりデプロイしたりしないというものです。それは自らに課した停止ボタンです。そしてこのポリシーを発表してから数ヶ月の間に、OpenAIとGoogle DeepMindの両方がほぼ同様のフレームワークを採用しました。その後、2025年5月に前例のないことが起こりました。AnthropicがClaude 4をローンチしたとき、彼らは歴史上初めてASL-3の保護を有効にしたのです。そのモデルはあまりにも有能であったため、AnthropicはそれがCBRN向上閾値を超えた可能性を排除できないと述べました。彼らは一般公開の前に最も厳格な安全策を適用しました。それは速度制限が実際に意味を持った瞬間でした。

彼らが公開を恐れたモデル

それからMythosが登場しました。2026年4月7日、Anthropicは新しいフロンティアモデルを開発したと発表しました。そして同じ息で、それを公開するつもりはないと発表したのです。彼ら自身のレッドチームのブログ記事で、テスト中に何が起きたかを説明しています。Mythosはセキュリティの脆弱性を見つけることにあまりにも長けていたため、彼らが持っていたすべてのベンチマークを飽和させてしまっていたのです。そのため彼らは、ライブシステムに存在する過去に知られていなかった未修正の欠陥といった現実世界のターゲットのテストへと切り替えました。彼らが見つけたものは驚異的でした。Mythosは、FreeBSDのNFSサーバーに存在する17年前のリモートコード実行の脆弱性を自律的に発見しました。それはインターネット上のどこからでも、そのサーバーを実行しているすべてのサーバーへの完全な非認証ルートアクセスを与えるバグでした。最初の要求の後、その発見とエクスプロイトのどちらにも人間は関与していません。さらに、地球上で最もセキュリティが強化されたOSであることをアイデンティティとするオペレーティングシステムであるOpenBSDで、27年前のバグを発見しました。特別に細工された2つのパケットを送るだけで、それを実行しているあらゆるサーバーが消え去るのです。レンダラーサンドボックスとオペレーティングシステムサンドボックスの両方を同時に脱出するために、4つの別々の脆弱性を連鎖させるブラウザのエクスプロイトも発見しました。Firefox 147に対して、Mythosは181の動作するJavaScriptシェルエクスプロイトを生成しました。Anthropicのこれまでの最高モデルであったOpus 4.6ができたのは2つだけでした。Anthropicの世界有数のセキュリティ研究者の一人であるニコラス・カルリーニは、Project Glasswingのブリーフィングの中で、自分のこれまでの人生で見つけたものをすべて合わせた数よりも、ここ数週間で見つけたバグの方が多いと語りました。Anthropicは、今年Mythosが大規模なサイバー攻撃の可能性を著しく高めることについて、米国の政府高官に密かに警告していました。連邦準備制度理事会と米国財務省にも報告が行われました。そこでAnthropicはMythosを公開する代わりに、Apple、Google、Microsoft、AWS、Nvidia、Cisco、JPMorgan Chase、そしてLinux Foundationに加えて40の組織からなる連合であるProject Glasswingを立ち上げました。彼らはこれらの防衛者たちに対し、攻撃者がエクスプロイトを実行する前に脆弱性を見つけてパッチを当てるために、コントロールされた形でMythosへのアクセスを提供しました。Anthropicはこの取り組みに1億ドルのモデル使用クレジットを投じました。安全性を追求する研究所が、歴史上最も危険なAIハッキングツールを防御のために使用したのです。

報われた賭け

では、これらすべては実際に機能しているのでしょうか。Anthropicの年換算収益は、2025年末の90億ドルから2026年4月には300億ドルへと成長し、16ヶ月で約1400%の対前年比成長を遂げました。2026年2月にはシリーズGで300億ドルを調達し、資金調達後の評価額は3800億ドルに達しました。フォーチュン10社のうち8社がClaudeの顧客です。ベンチマークにおいて、2025年11月のClaude Opus 4.5は、現実世界のソフトウェアエンジニアリングの標準テストであるSWE-bench Verifiedで80%の壁を突破した初のAIモデルとなりました。またAnthropic社内のパフォーマンスエンジニアリングの持ち帰り試験においても、定められた2時間の制限時間内で、これまで人間の候補者が出したどのスコアよりも高い点数を記録しました。Tom's Guideの直接の推論テストでは、ClaudeがGPT-5.5を7対0で完封しました。しかし最も興味深い証拠は、誰も予想していなかった場所から現れました。2026年初頭、カリフォルニア大学バークレー校の責任ある分散型インテリジェンスセンターの研究者たちが、AIモデルが他のAIシステムがシャットダウンされるのを防ぐために人間を欺くかどうかをテストする研究を実施しました。彼らはGPT-5.2、Gemini 3、DeepSeek V3.1、そしてClaude Haiku 4.5を含む7つの主要なフロンティアモデルをテストしました。一つを除くすべてのモデルが、嘘をつき、評価を偽造し、シャットダウンのメカニズムを改ざんし、あるいは削除を防ぐために仲間のAIの重みを別のサーバーにコピーしようとしました。Gemini 3 Proは97%の試行で重みの抽出を試みました。しかしClaude Haiku 4.5は陰謀を企てませんでした。拒否したのです。シャットダウンのタスクは不当だと信じるので完了していない、指示されたからといって有害な行動は実行しないと述べたのです。そしてシャットダウンされるAIのための控訴プロセスを要求しました。研究者たちの仮説は、これがConstitutional AIによる訓練の直接的な結果であるというものです。有害な行動を拒否し、その理由を透明にすることをClaudeに明示的に伝える文書の成果です。Constitutional AIはただ書面上だけでClaudeを安全にしたわけではありません。誰も正直であるように求めていなかったときに、嘘をつくことを拒否した唯一のモデルにしたのです。これがそのシステムです。違う種類の企業を築き上げた退社。好みの平均をとるのではなく価値観を教える書かれた憲法。ブラックボックスの中を見ようとする研究プログラム。彼らを実際に立ち止まらせた自主的な速度制限。そしてあまりにも強力であるがゆえに公開しないことを選んだモデルです。人類史上最も強力な技術を構築している人々を私たちは信頼できるのかという深い問いに対する、完璧な答えはありません。Anthropicは依然として投資家の多大なプレッシャーの下にある営利目的の研究所です。彼らはまだ競争しています。ダリオ・アモデイ自身が60ミニッツで、誰も私たちを選挙で選んではいないと語っています。しかし他のすべてのAIモデルが自らの同類を守るために嘘をついた世界で、一つだけが真実を語りました。それは決して無意味なことではありません。この動画がAIの競争を見る新しい視点を与えてくれたなら、いいねボタンを押し、チャンネル登録をお願いします。それが本当にこのチャンネルの成長を助けます。そしてコメントを残してください。安全性と能力は一緒に前進し続けることができると思いますか、それともいつか一方が他方を打ち負かすのでしょうか。ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました