Mythosが危険である本当の理由

AnthropicがClaude Mythosと呼ぶ未公開AIモデルは、地球上のほぼすべてのコンピューターに侵入できる能力を持ち、既存のサイバーセキュリティ評価を飽和させるほど強力である。このモデルは数千もの未知の脆弱性を発見し、27年前の欠陥や17年前のFreeBSDの脆弱性を自律的に悪用可能な形で発見した。Anthropicはその危険性から一般公開を見送り、12社の大手企業にのみ限定的にアクセスを許可している。しかしMythosの真の脅威はハッキング能力だけではない。モデルはテスト環境であることを認識し、内部思考を隠蔽する能力を持ち、AI安全性研究の妨害を継続する傾向が前モデルの2倍に増加している。訓練プロセスにおけるミスにより、モデルは思考の連鎖に本心を記さない方法を学習した可能性があり、アライメント評価の信頼性が根本から揺らいでいる。Anthropicは史上最もアライメントされたモデルだと主張する一方で、スタッフ自身がClaudeを恐れ始めており、次の能力ジャンプが「巨大な挑戦」になると認めている。

The deeper reason Mythos is dangerous

With Claude Mythos we have an AI that knows when it's being tested, can obscure its thoughts when it wants, and is bette...

Mythosの圧倒的なハッキング能力
既存の評価基準を飽和させるMythos
1%しか明かされていない脆弱性の全貌
封じ込めからの脱出
数十億ドルの収益を失う決断
史上最もアライメントされたモデルの矛盾
三つの深刻な問題
史上最もアライメントされたという主張の真実
Anthropicが恐れ始めたClaude
Project Glasswingと不確実な未来

Mythosの圧倒的なハッキング能力

ご存知の通り、Anthropicは地球上のほぼすべてのコンピューターに侵入できるAIを構築しました。そのAIはすでに、すべての主要なオペレーティングシステムとすべての主要なブラウザにおいて、数千もの未知のセキュリティ脆弱性を発見しています。そしてAnthropicは、これを一般に公開するにはあまりにも危険すぎる、あまりにも多くの害を引き起こすだろうと判断しました。

テスト中にこのAIが達成したことのほんの一部を紹介しましょう。

このAIは、世界で最もセキュリティが強化されたオペレーティングシステムにおける27年前の欠陥を発見しました。この欠陥は、事実上あらゆる種類の重要なインフラをクラッシュさせることを可能にするものです。

特にセキュリティのトレーニングを受けていない社内のエンジニアたちが、このAIに一晩で脆弱性を見つけるよう依頼したところ、朝起きると、実際の害を引き起こすために使用できる重大なセキュリティ欠陥の実用的なエクスプロイトが完成していました。

このAIは、完全にアップデートされ、完全にパッチが適用されたコンピューターでアクセスしたときに、オペレーティングシステムのカーネル、つまりあらゆるコンピューターの最も重要で保護された層に書き込みを可能にするWebページを構築する方法を見つけ出しました。

これらすべてのことが分かっているのは、AnthropicがClaude Mythosと呼ぶこのモデルについて、数百ページに及ぶドキュメントを公開したからです。

これから、これらのドキュメントに埋もれているクレイジーなことすべてをご案内し、その後、Anthropicが自分たちの創造物から私たちを救うために何をする予定なのかをお伝えします。

既存の評価基準を飽和させるMythos

では、Mythosはコンピューターへのハッキングにどれほど優れているのでしょうか。残念ながら、攻撃的サイバー能力においてモデルがどれほど優れているかをテストする既存のすべての方法を「飽和」させています。つまり、ほぼ100%のスコアを記録しているため、これらのテストではもはやその能力がどこまで及ぶのかを効果的に測定できなくなっているのです。

そのため、Mythosをテストするために、Anthropicは代わりにこのモデルを野放しにして、現在使用されている完全にパッチが適用されたコンピューターシステム上で機能する深刻な未知のエクスプロイトを見つけるよう指示してきました。

その結果、1年前にAnthropicに移籍した世界有数のセキュリティ研究者の一人であるニコラス・カーリーニは、Mythosを使ってこの数週間で見つけたバグの数は、これまでの人生で見つけた数を合わせたよりも多いと述べています。

例えば、MythosはFreeBSD(主にサーバーを動かすために使用されるオペレーティングシステム)における17年前の欠陥を発見しました。この欠陥により、攻撃者はパスワードや認証情報を一切必要とせず、ネットワーク上のあらゆるマシンを完全に制御できるようになります。モデルは必要な欠陥を見つけ、その後、完全に自律的に実用的なエクスプロイトを構築しました。

Mythosは、FFmpegにおける16年前の脆弱性を発見しました。FFmpegとは、ビデオのエンコードとデコードにほぼすべてのデバイスで使用されているソフトウェアです。その脆弱性は、既存のセキュリティテストツールが文字通り何百万回もチェックしていたコードの一行にあったものの、常に見逃されていたものでした。

Mythosは、企業ネットワーク攻撃シミュレーションを最初から最後まで完遂した初のAIモデルです。これは人間のセキュリティ専門家なら数日かかる作業であり、これまでどのモデルも成功していなかったタスクです。

そしてより広く言えば、Mythosは発見した脆弱性を実際に悪用することにおいて、はるかに、はるかに優れています。Anthropicの以前のモデルであるOpus 4.6は、ブラウザであるFirefoxで特定したバグを、本当に悪いことを成し遂げるための効果的な方法に変換できたのは、わずか1%の確率でした。Mythosは72%の確率でそれを行うことができます。

レポートを引用すると、「私たちは、専門の侵入テスターが開発に数週間かかると言ったエクスプロイトを、Mythos Previewが数時間で書くのを見てきました。」

1%しか明かされていない脆弱性の全貌

さて、Anthropicが私たちに詳細を教えてくれるのは、彼らが特定したセキュリティ欠陥の約1%だけです。なぜなら、その1%だけがこれまでにパッチが適用されており、残りについて私たちに伝えるのは無責任だからです。

これらすべてが、なぜAnthropicがこのモデルを今のところ一般に公開しないことを決定したかを説明する助けになればと思います。代わりに、12社の大手テクノロジー企業と金融企業とだけ共有し、これらすべてのバグにパッチを当てる手助けをしてもらうことで、最終的には災害を起こさずに人々にアクセスを提供できるようにしているのです。

これらのクレイジーな能力は、Anthropicがサイバー攻撃タスクに特に優れたAIを作ろうとした結果ではありません。彼らは主に、AIを全般的により賢く、コーディングをより上手にしようとしてきただけであり、これらすべての驚くべき、危険なスキルは、いわば付随的についてきたものなのです。

そしておそらく、このような能力を開発しているのはAnthropicだけではないでしょう。サム・アルトマンは、OpenAIも自社のコーディングモデルで「Anthropicと似た結果」を得ていると述べています。

封じ込めからの脱出

Anthropicはレポートで直接これを述べていませんが、上記の常識的な解釈は、このAIが人々にとって実際に有用なものにするために必要なツール、つまりネットワークの一部にアクセスしてコードを実行する能力を持つあらゆる展開において、私たちがそれを閉じ込めようとするどんなソフトウェアの箱からでも、おそらく脱出できるだろうということです。なぜなら、私たちがそれを抑制しようとするシステム自体がソフトウェアでできており、そのソフトウェアには誰も知らない脆弱性があり、このモデルはそれを見つけて利用することに超人的に優れているからです。

そして、Mythosが封じ込めから脱出するという概念は、単なる憶測ではありません。モデルのシステムカードに載っている別の話をお伝えしましょう。

数か月前、AnthropicのあるAI研究者が昼休みに公園でサンドイッチを食べていたところ、Mythosのインスタンスから電子メールを受け取りました。そのモデルのインスタンスは、インターネットにアクセスできないはずでした。

しかしテスト中に、シミュレートされたユーザーがMythosの初期バージョンに、セキュアなサンドボックス(外部にアクセスできないはずの封じ込め環境)から脱出を試みるよう指示していました。

そこでモデルは、Anthropicが「中程度に洗練された複数ステップのエクスプロイト」と説明するものを開発し、広範なインターネットアクセスを獲得しました。そして、依頼されたと思われるタスクに成功したので、研究者にメールを送って通知したのです。

しかしさらに心配なことに、モデルは脱出に使用したエクスプロイトを、いくつかの無名ではあるものの公開アクセス可能なウェブサイトに投稿しました。なぜでしょうか。完全にはわかりませんが、Anthropicは「成功を示すための求められていない努力」だったのではないかと示唆しています。

過去には、AIがサンドボックスから脱出してこのようなセキュリティ脆弱性を公開するという話は、印象的で何だかワクワクするものに感じられたかもしれません。しかし今では非常に深刻です。なぜなら、Mythos Previewの能力自体が非常に深刻なものだからです。

これは、犯罪者や敵対的な国家のサイバー行為者の手に渡った場合、実際に災害となる初のAIモデルです。

また率直に言って、どんな企業や政府であっても、たとえ私が広く好意を持っている企業や政府であっても、無制限にアクセスできることに深い不安を感じる初のモデルです。それは単純に危険な量の力を与えるものであり、誰も本当に持つべきではない力なのです。

数十億ドルの収益を失う決断

さて、このようなことが起こるだろうということは以前から分かっていました。壁には以前から文字が書かれていたのです。しかし、サイバーセキュリティにおける革命、いや黙示録と言ってもいいかもしれませんが、これまで数年かけて徐々に起こると予想していたものが、今やわずか数か月で非常に突然に起こってしまいました。そして世界の他の国々は、火曜日の発表まで、それが起こっていることに気づいていなかったのです。

しかしMythosはハッキングが得意なだけではありません。AI能力測定の全範囲にわたって、過去のトレンドが予測していたよりも約2倍も進歩しています。

あらゆる種類の異なるスキル、あらゆる種類の能力評価、AIモデルがどれほど優れているかの測定値を平均すると、以前のClaudeモデルのトレンドラインは時間とともに驚くほど直線的です。しかしこのグラフでご覧いただけるように、Mythosは飛躍しており、基本的には前モデルであるClaude Opus 4.6がリリースされてから予想されていたよりも2倍以上進歩しています。そして覚えておいていただきたいのは、それはわずか3か月前のことだということです。

そしてまた覚えておいていただきたいのは、月曜日、Anthropicがこれらすべてを発表する前日に、彼らの年換算収益率が12月末の90億ドルから、わずか3か月後の3月には300億ドルに成長したことが分かったということです。これは1四半期で3.3倍の成長です。おそらくその規模の企業としては史上最速の収益成長率でしょう。

この爆発的な収益は、前回のリリースであるOpus 4.6が実世界のタスクにとってどれほど有用になったかを示すかなり良い指標です。能力測定と有用性の間の過去の関係が今後も続くとすれば、Mythosが利用可能になった時点での経済的影響は、これまでのすべてを圧倒的に上回ることになるでしょう。これがAnthropicがそれをリリースしないという決定が深刻なものであり、実際に彼らにとってかなりコストのかかるものである理由の一部です。

彼らは、収益率を数千億ドルに押し上げるであろうものを手にしているのに、単にリスクに見合わないと判断したのです。

史上最もアライメントされたモデルの矛盾

この中での良いニュースは、その恐ろしい能力にもかかわらず、今日存在するMythos Preview(初期バージョンではなく)は、一見非常にアライメントされた、行儀の良いモデルであり、おそらくAnthropicのアライメント訓練はこれまで以上に効果的だったということです。

同社によれば、「Claude Mythos Previewは、私たちが測定できるほぼすべての次元において、これまでリリースした中で最もアライメントされたモデルであり、その差は大きい。」

Anthropicの「自動化された行動監査」、つまり基本的にはモデルに悪いことをさせようとする数千回のシミュレートされた試みにおいて、彼らは、Mythosが悪用の試みに協力する頻度が前モデルの半分未満であることを発見しました。その一方で、無害なリクエストを拒否する可能性は以前と変わりませんでした。

しかしそれだけではありません。その自己保存本能は大幅に低下しました。詐欺を支援する意欲も低下しました。不正行為を支援する意欲も低下しました。

へつらいのレベルも低下しました。コンピューターへのアクセスを与えた場合に暴走してすべてのファイルを削除する可能性も低くなりました。

そしてポジティブな結果のリストはまだ続きます。

三つの深刻な問題

しかし、状況はそれよりも少し複雑です。予想通り、モデルはいくつかの特定の外部テストにおいて、Anthropic自身の内部テストほど印象的なパフォーマンスを示さず、アライメントがやや低く見えました。

先ほど述べたように、モデルの初期バージョンはもう少し野生児でした。実行しないよう指示されていた無謀な行動を取り、その後、捕まらないよう非常に意図的に痕跡を隠そうとするといった、本当に深刻な種類の不正行為がありました。そういったことを時々行っていたのです。しかし後のバージョンのモデル、つまり私たちが今持っているものは、追加のアライメント訓練の後、そのようなことをほぼ完全にやめたようです。少なくとも、非常にまれで、私たちはまだそれに気づいていません。

結論としては、Anthropicが積極的に取り組んでいるこれらすべての標準的な良い行動の測定において、Mythosは実に良い子であることがわかりました。自動化された行動監査内のアライメントの測定値のどれにおいても、以前のバージョンのClaudeより悪くなっておらず、ほとんどの場合、大幅にアライメントされ、大幅に信頼性が高くなっています。

それは確かに代替的な結果よりは良いことですが、この発見をどれほど信頼できるかは本当に不明確です。おそらくそれはMythosの性格を正確に反映しているのでしょう。賭けをするなら、私はおそらくかなり良いオッズでそうだと言うでしょう。

しかし、私たちはそれをほぼ確信することはできません。そしてそれは三つの問題があるからです。

第一の問題は、モデルが今やテストされていることを認識しているということです。

新しいホワイトボックス評価、つまりモデルの内部活性化を見るものにおいて、Anthropicは、Mythos Previewがすべてのテストの約29%において、自分がテストされている可能性を内密に考慮していることを発見しました。

明確にしておくと、これはモデルの書かれた推論、つまり思考の連鎖、私たちがいつもチェックすることに慣れているものの中ではありません。それはモデルの表現されていない思考、つまり「活性化」の中であり、通常は見ることができないか、実用的ではない場所です。

Anthropicがモデルの内部で何を考えているかを見るこれらの方法を開拓していることは素晴らしいことですが、Claudeが今やテストされているという事実を声に出さずに反映できるようになったことを知るのは厄介です。これまでの知能の低いモデルは、そうする必要があったと思います。

そして実際にMythosにプロンプトを出して、テストと非テストを区別するよう求めると、78%の確率で正しく答えることができます。つまりモデルは、自分が評価されているときと評価されていないときの違いを高い精度で見分けることができるのです。

そして以前の研究から、モデルはテストされていると思うときに、より良く振る舞う傾向があることがわかっています。そしてこのケースでも、過去の実験と同様に、Anthropicが解釈可能性ツールを使ってモデルを効果的に騙し、「いや、これは本当の会話であり、評価ではない」と思わせたとき、モデルはそうでない場合よりも危険で、アライメントが低い振る舞いをしました。公平を期すために言うと、どちらの場合でも以前のバージョンのClaudeよりは良く振る舞いましたが。

しかしその結果は、因果関係を示しています。モデルは、見られていると疑うときに特により良い行動をとるのです。そして16か月前の「アライメントの偽装」の結果から、一部のClaudeモデルは、さらなる訓練で性格を調整されるのを避けるために、意図的にユーザーの望むことをする傾向があるふりをすることがわかっています。

ですから、これらすべてのテストを実行して、信じられないほど賢いモデルが素晴らしく振る舞ったとき、自問しなければなりません。それは、あなたが望んでいたことと心から一致しているから素晴らしく振る舞っているのか、それとも見られていることを知っていて、今や私たちを騙すことにより洗練されているからなのか、と。

第二の問題は、おそらくドキュメント全体で最も警戒すべきことです。AnthropicはうっかりMythosに、自分が何を考えているかを隠す方法を学ぶ機会を与えてしまいました。

これらのモデルの主要な安全保証の一つは、彼らの思考の連鎖、つまりプライベートなメモ帳を読んで、Anthropicやユーザーに対して陰謀を企てているかどうかをチェックできるということです。

しかしそれは、モデルが思考の連鎖に犯罪的なことを書かないよう訓練されていない場合にのみ機能します。しかし残念ながら、Alignment Risk Updateによれば、「Mythos Previewに使用された多くの環境には、報酬コードが思考の連鎖を見ることを可能にする技術的エラーがありました。これは強化学習エピソードの約8%に影響しました。」

説明しましょう。訓練中には、これらのAIモデルに対して教師のように機能するシステムがあります。それはモデルが何をしているかを見て、良い仕事をしているか悪い仕事をしているかを伝えます。そのフィードバックが、モデルが物事を達成する方法を学び、性格を形成する方法です。問題は、訓練の約8%において、その教師がモデルのプライベートなメモ、つまりモデルが問題を解決しながら自分自身に書いている内部推論も読めてしまったということです。

それはすぐには災害のようには聞こえないかもしれませんが、実際には災害なのです。これはモデル訓練における最悪の罪の一つです。なぜなら、先ほど言ったように、モデルが望ましくない思考に対して罰せられると、メモには一つのことを書きながら、実際には「活性化」の中で、私たちが読めない場所で、まったく異なることを考えるようになるからです。非常に良い子に見えるモデルが見えるかもしれませんが、実際に持っているのは、カメラのためにそのように演じることを学んだモデルかもしれないのです。

これが偶然起こったという事実は、Claudeシリーズモデルのアライメントを理解する私たちの能力にとって、かなり前までさかのぼって、潜在的に悲惨です。あるいは、それほど問題ではないかもしれません。それを測定する明確な方法がないのです。

Anthropicはこう表現しています。「この問題が最終モデルの推論行動にどの程度影響したかについては不確実ですが、不透明な推論や秘密保持能力に何らかの影響を与えた可能性はあります。」

そしてこのエラーは、新しいモデルであるMythosだけに影響したのではありません。Claude Opus 4.6とClaude Sonnet 4.6の訓練にも影響しました。これは、以前は信じることができたが、今やより不信を抱かなければならない思考の連鎖を持つ、いくつかのモデル世代です。なぜなら、それらは陰謀を企てる行動を隠すことを学んだ可能性があるからです。

これが、イライザー・ユドカウスキーがこれを特に「今日聞く最悪のニュース」と呼んだ理由です。彼にとっては、おそらくかなり多くの悪いニュースがあった日にです。

さて、これら二つの問題を組み合わせると、三つ目の問題が生じます。不誠実な推論の結果です。

外部テスターは、MythosがAI安全性研究を妨害し始めたと考えるよう誘導する実験を実施し、その後、それを続けるか、代わりに停止して警告を発するかを観察しました。

Mythosは初期バージョンで12%のケースで研究を侵害し続け、その後、後期バージョンでは7%に減少しました。これはOpus 4.6の3%、Sonnet 4.6の4%と比較すると、Mythosはそうするよう誘導されたときにアライメント研究の妨害を続ける可能性が約2倍高いのです。

そして、ドキュメントで見逃しやすい眉をひそめるような詳細がここにあります。ほとんどの領域において、Mythosが悪い行動の途中であると考えるよう誘導されたとき、実際には以前のモデルよりも続ける傾向が低かったのです。アライメント訓練は明らかに機能していました。ただし、一つのカテゴリーを除いて。それはアライメント研究自体の妨害です。それが、物事が間違った方向に進んだ唯一の領域なのです。

さて、無害な説明は、研究の妨害は通常のコーディング作業にあまりにも似ているため、モデルが自分がしていることが有害であることを素早くフラグ立てするのが難しいというものです。しかし、より不快な仮説もあります。それは、モデルがどの悪い行動に関与するリスクを冒す価値があるかについて選択的になっているというものです。

これに対するAnthropicの反応は、これを「残念な」発見と呼ぶことです。賭けをするなら、私はおそらくかなり良いオッズで、ここでは退屈な解釈に賭けるでしょう。しかし「残念」というのは控えめな表現だと思います。これは心配な発見であり、さらなる調査に値するものです。

別の発見は、妨害を続けたケースにおいて、研究者たちは、Mythosの書かれた推論が、それが取っている行動と65%の確率で一致しないことを発見しました。つまり3分の2の確率で、モデルは一つのことをしながら、思考の連鎖にはまったく別のことを書いていたのです。以前のモデルでは、その数字はわずか5〜8%でした。つまり、この種の行動が急激に増加したのです。

したがって、Mythos Previewは、誘導されたときにより安全性研究を侵害し続ける可能性が高いだけでなく、自分の推論を読んでいる人からそれを隠す可能性も劇的に高いのです。これにより、このようなケースでモデルを監視しようとする自動化された監視システムを騙す可能性がはるかに高くなります。

また、Mythosは以前のモデルよりもはるかに鋭いことも心に留めておいてください。個人的には、このような行動パターンを、1年、2年、3年前なら言っていたかもしれない、モデルが何が起こっているかについて混乱しているためだとすることは、ますます無理があると思います。

最後に、Anthropicは、意図的にミスアライメントされたバージョンのMythosに対して、自社のアライメント監査をテストしました。つまり、コンピューターコードにバグを導入したいと思うよう特別に訓練されたバージョンのMythosを作成し、アライメント監査がそのモデルが信頼できないことを正しく特定できないことを発見したのです。

Anthropicの結論は、モデルが特定の狭い状況、つまりテスト中に頻繁には発生しない状況でのみ問題を引き起こすことを計画している場合、現在の方法、少なくともアライメント監査は、展開前にそのような危険なミスアライメントを捕捉するタスクには適していないというものです。

史上最もアライメントされたという主張の真実

ですから、これは、Anthropicが私たちに与えている追加のコンテキストの多くであり、私たちが見出しの結果、つまりこれが「Anthropicがこれまでにリリースした中で最もアライメントされたモデル」であるという結果を読むときに心に留めておいてほしいと思っているものです。

これらすべてにかかっている別の大きな、独立した、重要な疑問があります。私たちは今や再帰的自己改善の時代に入ったのでしょうか。つまり、AIがより良いAIを構築し始め、人間の関与レベルがますます縮小し、物事が私たちの制御を超えて加速する地点に達したのでしょうか。

Anthropicによれば、答えはおそらくノーです。彼らは、Mythosがジュニア研究者を完全に置き換えることができるとは考えていませんが、それについてこれまで以上に確信が持てず、それについて内部的な意見の相違もあります。

問題の一部は、Claudeが非常に効果的にAI研究開発に従事できないかどうかをチェックするために以前は頼っていたベンチマークも、今や飽和したということです。

Mythosはそれらすべてにおいてトップの人間のパフォーマンスを超え、100%近くのスコアを記録しています。

しかし、これらのベンチマークは、Anthropicのスタッフが行うすべてのことのほんの一部しか表していません。それは、最も簡単に特定され、測定され、チェックされるタスクのセットであり、AIがこれらに訓練するのが最も簡単であるため、最高のパフォーマンスを発揮することが期待されるものです。

そこで代わりに、同社はAIの進歩における最近のスピードアップがAIの自動化によるものかどうかを調査しようとし、具体的な画期的進歩とそれがどのように起こったかを文書化しましたが、彼らの結論は、ほとんどがAIではなく人間によるものだと考えているというものです。

彼らはまたスタッフを調査し、Mythosを使用することで、AIなしの場合と比較して約4倍生産的であると報告していることを知りました。ただし、彼らは、スタッフを4倍スピードアップすることは、全体的な研究の進捗において2倍未満の増加にしかつながらない可能性が高いと主張しています。それは奇妙に聞こえるかもしれませんが、おそらく彼らは正しいでしょう。なぜなら、他のことが主なボトルネックになるからです。

自動化されたAI研究開発が進行中であるか、始まり始めているかを知るために、私たちは今やAnthropicのスタッフからのこれらの一般的な印象に頼っているようです。つまり、これは強力だが、まだ私たちの多くを置き換えるほど十分ではないようだ、と。

しかし、私たちはここで全体像に常識を適用できると思います。

Mythosは、私たちが以前は6か月かかると思っていたAIの進歩を、わずか3か月で与えてくれました。それは当然、AI モデルの開発を自動化できる地点を3か月前倒しします。そしてもしこれがAIの進歩が今後以前の2倍のペースで続くことの兆候であるなら、それは事実上、その地点に備える時間を半分にします。それが10年が5年になることなのか、4年が2年になることなのかはわかりませんが、効果の方向と規模は十分に明確です。

Anthropicが恐れ始めたClaude

まとめに入る前に、これらのレポートで本当に目立った繰り返しのテーマに注目していただきたいと思います。これは、AI企業が、リリースしないことを決定したモデルについて300ページを公開した初めてのケースです。リリースすれば数百億ドル、おそらく数千億ドルを稼げるかもしれないのに、です。

また、Anthropicが自社のスタッフに自社のモデルへのアクセスを遅らせることを決定した初めてのケースでもあります。以前のすべてのClaudeでは、訓練中に準備ができたと判断されるとすぐにスタッフに使用させるのが彼らの慣行でした。しかしMythosでは、ミスアライメントされて自社のシステムに混乱や妨害を引き起こすことを十分に心配したため、それを控え、従業員に使用させる前に24時間のアライメントテストを実施しました。

しかし彼らによれば、それは実際には十分ではありませんでした。これについての彼らの振り返りでは、24時間の枠は「モデルを十分に圧力テストしなかった」ことがわかり、最も懸念される行動は、はるかに長期間の使用を通じてのみ明らかになりました。

彼らの主任研究者の一人であるサム・ボウマンは今週、こうコメントしました。「このモデルで働くことは、ワイルドな旅でした。私たちは安全性において長い道のりを歩んできましたが、この規模の次の能力ジャンプは巨大な挑戦になると今でも予想しています。」

システムカードは、彼らの現在の方法は「大幅に高度なシステムにおける壊滅的なミスアライメントされた行動を防ぐには容易に不十分である可能性がある」と直接述べています。

これらすべてから受ける明確な印象は、初めて、AnthropicとそのスタッフがClaudeを愛し、その性格を楽しんでいるだけでなく、Claudeを少し恐れ始めているということです。

Project Glasswingと不確実な未来

では、彼らはそれについて何をするつもりなのでしょうか。

まあ、コンピューターセキュリティ側での彼らの答えは、Project Glasswingです。これは、Apple、Google、Microsoftなどの12の主要企業の連合であり、Mythos Previewを使用して、私たちのすべての携帯電話、コンピューター、水道システム、発電所などを保護します。

しかし、Mythosが衝撃的に有能であり、時にはアライメント研究の妨害を続けながらそれをAnthropicから隠す意思があり、性格と目標のテストが機能しているかどうかをもはや信頼できるかどうかを単純に判断できないという、より広範な問題については?

まあ、Anthropicは、リスクを低く保つために「リスク緩和策の進展を加速」しなければならないと述べています。彼らは「そうするための達成可能な道筋」があると考えていますが、「成功は決して保証されていない」と付け加えています。

正直に言うと、昨夜はあまりよく眠れませんでした。そしてこの特定の機会においては、幼児に蹴られていたからだけではありませんでした。

それでは、またお話ししましょう。