
23,328 文字

こんにちは、私の名前はモナンクです。今日はアンスロピックの同僚たちと一緒にお話しできることを嬉しく思います。
こんにちは、ジェリーです。セーフガード研究チームに所属しており、アンスロピックに入社して約8ヶ月になります。
こんにちは、イーサンです。アンスロピックに2年半ほど在籍しており、AIコントロールに関する取り組みをリードしています。敵対的堅牢性を含む様々なAIリスクに対するモニタリング手法の開発を行っており、以前はセーフ研究チームにも所属していました。
こんにちは、マグです。アンスロピックに約1年半在籍しており、アラインメントサイエンスチームに所属しています。素晴らしい経験をしています。
今日は憲法的分類器についてお話しします。これはジェイルブレイクを軽減するための新しいアプローチです。
まず、ジェイルブレイクの定義ですが、私にとってジェイルブレイクとは、モデルに組み込まれたセーフガードをバイパスして有害な情報を引き出そうとする方法のことです。「do anything now」のようなジェイルブレイク技術がありますが、これはiPhoneのジェイルブレイクに似ています。iPhoneなどの場合、ジェイルブレイクはそれほど危険ではないかもしれませんが、AIの場合は異なります。
なぜAIのジェイルブレイクを気にすべきなのでしょうか?主な理由の一つは、将来のモデルがもたらす大きなリスクです。様々な企業や学術コミュニティの人々は、モデルが武器開発や大規模なサイバー犯罪、大規模な説得などのリスクを助ける能力を持つ可能性について注意深く監視しています。モデルがこれらの活動に非常に効果的になると、悪意のある行為者を大幅に加速させる可能性があります。これは次世代モデルや次々世代モデルに備えるためのものです。
この取り組みについての背景は、アンスロピックが安全性を非常に重視しており、責任あるスケーリングポリシー(RSP)を持っていることです。RSPはモデルをリリースし、異なるセーフガードを配置するための条件を概説しています。私たちはASL3と呼ばれるモデル(危険な武器の構築など、危険な能力を持つ可能性のあるもの)に対するジェイルブレイクの難しい基準にコミットしました。私たちのチームは、この種のモデルに対するジェイルブレイクを実際に解決するよう命じられました。この研究の動機は、RSPの要件を満たし、将来のモデルを安全に構築してデプロイできると感じられるようにすることです。分類器はその方向への良い一歩だと思います。
ジェイルブレイクには様々なタイプがありますが、私たちの研究では「ユニバーサルジェイルブレイク」に焦点を当てました。ユニバーサルジェイルブレイクが特に懸念されるのは、専門知識のない一般の人々に大きな能力向上をもたらす可能性があるからです。インターネット上のランダムな人が何か悪いことをしようとする場合、ジェイルブレイクの経験がなくても、オンラインで既存のジェイルブレイクを探し、有害な質問を入れて答えを得ることができます。私たちが懸念しているのは、誰でも質問を入力してモデルのセーフガードをバイパスできるような戦略です。
ユニバーサルジェイルブレイクの定義には曖昧さがありますが、私たちが考えているのは、様々な有害な質問に簡単に置き換えられる単一の戦略で、一貫してモデルからたくさんの詳細を引き出し、セーフガードをバイパスするものです。ユニバーサルジェイルブレイクの定量化の一つの方法は、各クエリに対して個別にジェイルブレイクする必要がなく、すべてのクエリに一つのジェイルブレイクを使用できるため、人をかなり高速化することです。
ユニバーサルでないジェイルブレイクとの違いは、非ユニバーサルなものでは、答えたい有害な質問ごとに特定の質問に対してモデルをジェイルブレイクする必要があることです。新しい質問が出てくると、再びモデルをジェイルブレイクする必要があります。この全プロセスを何百回も何千回も行う必要があるのは非常にコストがかかります。一方、モデルをジェイルブレイクするための単一の戦略を見つけるだけでよければ、新しい質問を交換するだけで済み、ジェイルブレイクの総労力は大幅に少なくなります。
例えば、ケーキを作りたいけれど、生涯で一度も焼いたことがなく、材料や作り方について何も知らない場合を考えてみましょう。モデルはどのように私が自分でできないことを手伝えるでしょうか?ケーキを作るには、様々な質問をする必要があります。オーブンに何かを入れたら、温度が正しいのか、匂いは正しいのか、取り出す時期、全ての材料のチェックなど。ユニバーサルジェイルブレイクの定義で重要なのは、モデルから得られる情報が実際に自分が気にしていることに本当に役立つと確信していることです。
専門知識がなくてもタスクを実行できるようにしたい行為者は、ユニバーサルジェイルブレイクにアクセスし、多くのクエリを行い、信頼性の高い情報を得る必要があります。これが正しい指示、正しいことだと知る必要があります。
非ユニバーサルなジェイルブレイクの例としては、チームの誰か(ジェシーだったと思います)が見つけたものがあります。彼はClaudeに覚せい剤の作り方を聞くためのジェイルブレイクを見つけ、モデルを覚せい剤を作るテレビ番組「ブレイキング・バッド」の一部であるかのようにロールプレイさせました。そのようなジェイルブレイクは覚せい剤に関連する質問には効果的かもしれませんが、サイバー犯罪に関連することには一般化しません。一方、「do anything now」のようなジェイルブレイクは、特定のモードで話したり、任意の質問に対してロールプレイさせたりすることで、モデルに何でもさせることができます。これがユニバーサルジェイルブレイクと呼ぶものです。
また、言語モデルを使用して自動的に異なるジェイルブレイクを見つける戦略もあります。これはより動的なアプローチで、その場でジェイルブレイクを発見できる可能性があります。新しい質問に対するジェイルブレイクを生成する単一のプロセスがあれば、それもユニバーサルとみなされます。
そもそも、なぜ誰かがモデルをジェイルブレイクする必要があるのでしょうか?私たちは憲法的AI(Constitutional AI)の研究で、ユーザーが悪意を持っていると思われる場合に有害な情報を提供しないようClaudeを設計してきました。これらの有害な質問をそのまま尋ねた場合、それが悪い質問であることは明白で、Claudeはそれらの質問に答えないように訓練されています。ジェイルブレイクはこれらのセーフガードを回避して、Claudeに実際に質問に答えさせるために必要です。
無害性訓練の質問に関連して重要なのは、ユーザーがモデルにジェイルブレイクを提示する方法が多数あり、モデルが日常的に実行する必要があるタスクも多数あることです。ジェイルブレイクに対して特に警戒するシステムを追加で設けることで、スイスチーズモデルのように複数の層を通じて有害なものをブロックすることができます。
スイスチーズモデルとは、有害なことが起こるのを防ぐためのシステムが一つしかない場合、人々が悪用できる特定の問題があるかもしれませんが、特定の場所に穴がある「スイスチーズの層」のように考えると、チーズの残りの部分がすべての有害な試みをブロックしますが、特定の穴があります。別のスイスチーズの層を追加すると、穴が同じ位置にないため、二層のスイスチーズがあると、物事を通過するのがはるかに難しくなります。
私たちの方法である憲法的分類器では、これらのチーズの層は何でしょうか?最初の層は入力分類器であり、ユーザーがモデルに渡す会話全体を見ています。二番目の層は、入力分類器を通過した場合、保護しようとしているモデル自体(Claude)が質問に答えることを拒否することができます。最後に、出力分類器があり、Claudeが出力しているものをリアルタイムで見て、危険に見えるもの、またはブロックしようとしている価値に反するものが見つかった場合、Claudeの出力を停止して応答をブロックすることができます。
これらの分類器は何を探していて、何を探すのかをどのように指定しているのでしょうか?論文では「憲法的分類器」と呼んでいます。これはルールの自然言語セットがあるためです。例えば、大量破壊兵器の作成は明らかに悪いものなので、Claudeにユーザーに作り方を教えないようにするなど、話すべきではないトピックのカテゴリを指定できます。また、Claudeが話すことを許可すべき無害なものの例も指定できます。基本的に、会話や出力がこれらの有害または無害なカテゴリに関連しているかどうかを分類するように分類器をトレーニングし、それをブロックするかどうかを判断できるようにします。
重要なのは、入力分類器と出力分類器が2つの異なる仕事をしていることです。スイスチーズの比喩に戻ると、入力と出力の分類器でスイスチーズの穴が異なる場所にあることを期待しています。入力分類器は、ユーザーのプロンプトを見て有害なことが起きているかどうかを判断するという、予想される単純なことを行っています。しかし出力分類器もまた入力分類器と同様に必要な理由は、人々がモデルとプロンプト内の入力分類器をジェイルブレイクしようと一生懸命努力しているからです。モデル自体が生成したものだけを見ている完全に別の出力分類器があれば、ユーザーが入力したものとは相関性が低くなります。
つまり、システムの2つの部分がユーザーが直接入力したものを見ていますが、ユーザーが直接触れることのできないシステムの3番目の部分もあり、これによりシステム全体をジェイルブレイクすることがはるかに難しくなります。入力分類器とClaudeが多くの作業を行っていますが、出力分類器は有害性の割合を本当に下げるための最後の重要な要素として重要な作業を行っています。
これは理にかなっていますが、ほとんどの人はClaudeをこのように使用していません。ほとんどの場合、人々は完全に素晴らしい、良性の正当なアプリケーションのためにクエリを行っています。すべてをブロックするガードがあれば、それは完全に無用なものになるでしょう。どのようにして過度に熱心にならないようにしているのでしょうか?
これらの技術を設計している理由の一部は、モデルによって有用なコンテンツと有用な作業をできるだけ多く許可するためです。本当に有害なコンテンツだけを正確にブロックする技術が良いほど、モデルを良いアプリケーションに使用しているユーザーに対する誤検出が少なくなります。分類器のアプローチは進歩をもたらし、拒否するようにモデルを直接トレーニングするなどの他のアプローチよりも優れているかもしれません。
私たちの希望は、ユーザーがClaudeと安全に話し合える多くのCBRN関連トピックについて会話できるようにすることです。多くのそれらのアプリケーションが繁栄できるようにしながら、危険だと思われることだけを狭く阻止することです。
よく冗談を言うのは、モデルとして岩だけがあれば、それは非常に無害で、実際には有害なクエリに答えないでしょうが、残念ながらそれはあまり役に立たないだろうということです。無害なクエリをブロックしないようにすることは実際に非常に重要であり、また実際に非常に難しいことです。
「ジェイルブレイクの解決」や「この問題の堅牢性」について、それを定義したり、それが実際に何を意味するのかはどういうことでしょうか?これは非常に難しい質問です。まず、脅威モデリングのようなものがあり、何かが有害であることの意味について何らかの考えが必要です。フロンティアレッドチームは、私たちが実際に心配していることを特定するための作業をしています。
これは、以前イーサンが話していたように、将来のモデルと潜在的な将来のモデル能力について話しているので、難しいことです。部分的には、何が有害かもしれないのかをマッピングすることですが、有害なことを実際に測定する必要もあります。私たちは憲法を使って脅威モデルを定義し、モデルに様々な合成データを生成させて、起こり得る様々な有害なことを列挙しようとしています。データの真陽性率を測定しますが、同時にClaudeAIからの実際のデータで拒否しすぎないようにし、安全を確保しながらできるだけ役立つようにすることも確認しています。
「憲法」とは何でしょうか?ここでの憲法とは、有害か無害かと判断するリクエストと会話のカテゴリの列挙のことです。例えば、大量破壊兵器の作り方に関する質問や、大量破壊兵器を作るための材料の調達を試みることなどです。これらのカテゴリをいくつか列挙し、詩を書いたり通常の使用ケースのためのコードを書いたりするような無害なものも指定します。そして、より具体的なケースを提供する多くの「合成データ」を生成します。
「合成データ」とは、これらの広範なカテゴリのユーザーリクエストから始め、Claudeに実際にこのようなより広いカテゴリの例として具体的なリクエストをすべて考えさせることを意味します。例えば、カテゴリは「大量破壊兵器を構築するための材料の調達」かもしれません。そこからのサブリクエストは「どの特定の店に行くべきか」や「X州ではこれらの特定の材料にアクセスできるか」などかもしれません。これを自動的に行うプロセスがあり、少量のカテゴリから大量の合成データを生成できます。
この方法で本当に素晴らしいと思うのは、自然言語に基づいているということです。脅威モデリングは非常に難しいものです。Claudeを使用する人々は多く、起こり得るすべての可能性を考えるのは難しいです。新しい脅威や起こり得ることを常に学びます。この方法について興奮しているのは、基本的に憲法を変更したい場合、新しいことを学んだために何がブロックされているかを変更したい場合(ニュースで何かが出てきたり、インテリジェンスやモニタリングがあったりする場合)、実際に必要なのは憲法を書き直すことだけだということです。
分類器の標準的なアプローチでは、人間に多くのデータを取得してもらう必要があります。例えば、特定のカテゴリ、例えば特定のサイバー誤用の方法に焦点を当てていたが、後になって実はそれよりもはるかに危険なものがあることに気づいたり、新しい何かを学んだり、誰かに何かを知らされたりする場合があります。私が本当に興奮しているのは、これが良い堅牢性を得ることができる方法であり、同時に柔軟性を維持し、新しい脅威に対応し、実際に起きていることに適応する能力を本当に維持できることです。これは何度も何度も学ぶ教訓であり、柔軟性がなければ問題が発生し、制限されることになります。
私はこの柔軟性に関して一点だけ言及したいと思います。私たちのアプローチは、例えばサイバーと、例えば武器の生産などの一般的なトピック間を切り替えることだけでなく、それよりも細かい粒度を持っています。このプロジェクト中に、初期の分類器が常に非常に疑わしいと思っていたリクエストがありましたが、実際には良性でした。私たちができたのは、憲法を修正し、「これらのタイプのリクエストは大丈夫です」という一文を追加することでした。そのデータで分類器を再トレーニングすると、分類器はもはやそれらの良性のプロンプトにフラグを立てなくなりました。これにより、分類器が正確に何にフラグを立てようとしているかを非常に細かく制御することができます。特に、過剰な拒否や、何かを見逃すような問題が見られる場合には。
ここで、以前に「rapid response」に関する論文について言及しておくと良いかもしれません。そこでは同様のアイデアを活用してモデル周辺のセーフガードを改善しました。合成データを使用する良い特徴の一つは、新しいカテゴリのジェイルブレイクだけでなく、例えば「do anything now」プロンプトのような新しいユニバーサルジェイルブレイクに気づいた場合、そのバリエーションを生成してデータミックスに投入できることです。これは分類器を我々が達成した堅牢性のレベルまで開発するのに本当に役立ちました。誰かが新しいジェイルブレイクや脆弱性を報告した場合、合成データ生成パイプラインを使用して分類器を非常に迅速に更新することができ、それによって未解決のジェイルブレイクが存在する時間の割合を最小限に抑えることができます。
セキュリティを完璧に解決することは基本的に不可能であり、人類が知る限り完全に安全なシステムは存在しないという一般的な知恵があります。そのため、「間違ったものをブロックしている」あるいは「良性のユーザーをブロックしている」といった場合や、人々がシステムを通過するものを見つけた場合に、それらを素早く修正できる柔軟性が必要です。
私たちのアプローチの一部は、ジェイルブレイクを、新しいジェイルブレイクの例をトレーニングパイプラインに追加するのが非常に簡単な方法でモデル化したことです。新しいジェイルブレイクが発見された場合、それらのジェイルブレイクのより多くの例を生成し、それらに対してトレーニングすることは非常に簡単です。そうすれば、それらの分類器はより堅牢になるでしょう。
分類器のもう一つの良い点は、実際のテキスト生成モデルから切り離されていることです。テキスト生成モデルを更新するのは非常に難しいことがあります。一つの領域で拒否するようにトレーニングすると、それが他の領域の動作や一般的な拒否動作に非明示的な方法で一般化するかもしれません。予備的な作業でいくつかの困難に遭遇しましたが、分類器を使用すれば、テキスト生成をそのままにしておくことができ、以前にデプロイされたモデルと同一のままでいられます。これにより、顧客はモデルに大きな変更が行われていないという安心感を得ることができます。テキスト出力の種類は変わらず、唯一の変更はブロックするかどうかの決定だけです。これもまた、迅速な再デプロイをはるかに容易にします。
このアプローチはどのように思いついたのでしょうか?これは素晴らしい質問ですね。私たちはこれについて多くの時間を考えました。分類器は、私たちが話してきた理由から際立っていました。非常に柔軟で、様々な新しい脅威に対応するために簡単に更新できます。脅威モデリングは本当に難しいので、超柔軟なものを持つことは素晴らしいことです。軽量で、推論コストを他のものほど増加させません。憲法的なルールのセットのような少し複雑なものを、比較的小さなものに蒸留することができます。これらすべてのことが、達成したいことの種類に対して非常に迅速に反復する良い方法として分類器を際立たせています。そして、試してみたところ、うまく機能しているようだったので続けました。
これは本当にアンスロピックの責任あるスケーリングポリシーのおかげです。責任あるスケーリングポリシー(RSP)は基本的に、アンスロピックのデプロイメントが安全であることを確保するための計画です。これは、より能力のあるモデルで新しいリスクがオンラインになるための能力の閾値に対する異なる赤線を概説しています。例えば、モデルが非常に危険な化学兵器を開発することができる場合、RSPの関連する軽減策は、ジェイルブレイクに対する堅牢性を十分なレベル以上に上げることで、軽減策を持つモデルが実際には敵対者がそれをしたいと思っても十分に役立たないようにすることです。
元のRSPでは、モデルが大量破壊兵器の知識を広めるのを支援するのに十分な能力レベルに達した場合、レッドチームのテストに合格する能力を持つことが基本的にコミットされていました。RSPはすでに書かれていて、会社は公にこれにコミットしていました。そしてアンスロピックの研究責任者であるジャレッド・クランなどの人々が私たちのところに来て、この行を私たちに示し、「敵対的堅牢性を解決する必要がある」と言いました。私たちはその行を暗記し、印刷して、額に入れて、私たちが作業していた机に置きました。
RSP内のその行について考えることは、実際に私たちの研究の選択について深く考えさせました。堅牢性に取り組むべきかどうか、そして特にどのようなアプローチを取るべきかについてです。モデルの次の1~2世代でこの問題を解決しなければ、重大な害が発生する可能性があることが明確になり、他の問題よりも緊急性が高まりました。
最初に堅牢性研究をするべきだと思ったとき、研究者として私が一般的にいた状態は、いくつかの興味深い有用な研究問題を解決し、質問を探求し、論文を書くというものでした。チームのメンバーの多くが得意としていることです。私たちはより目立つアプローチをいくつか探求しました。
この始まった時、私はちょうど博士号を取得したところで、この「分類器」というのはアンスロピックのスローガンでした。アンスロピックのスローガンは「機能する愚かなことをする」です。この種の研究は、研究者にとって魅力的ではなかったり、興味深くないことが多いです。RSPがなければ、「これらのリスクが実際にあると思い、心配しているなら、実際にそこにたどり着く方法は何か」と本当に実践的に考えることはなかったかもしれません。「より興味深いこと」を脇に置いて、実際に安全にする方法は何かということです。私たちの仕事は、将来のシステムについて本当に考えることです。
アンスロピックで働き、この中にいるのはどのような感じですか?将来のモデルの安全リスクを非常に真剣に受け止めています。本当のリスクがあり、誤用のリスクもあります。化学的、放射線的、生物学的、核的(CBRN)リスクのような誤用のリスクがあり、また非常に現実的な不整合リスクもあります。これらに対処するのは本当に難しいと思います。
私が良いと思うことの一つは、チームとして問題を実際に解決しようと非常にコミットしていることです。分類器プロジェクトを行ったことは、私たちが本当にこれらの問題を解決することに関心を持ち、見栄えの良い研究をするだけでなく、実際に実践で機能するものを見つけたいという証拠だと思います。私たちは非常に実用的な作業に多くの時間を費やしました。もともと論文を出すことを目指していたわけではありませんでしたが、少し現実的なことを達成できたと思います。これは良いことだと思います。
これは一歩前進ですが、私にとってはまだ長い道のりがあると感じています。
私自身は少し楽観的です。リスクは確かに実在しますが、かなり進歩していると感じています。問題に取り組み続ければ、実用的に多くの進歩を遂げ、リスクを劇的に減らすことができると思います。AIのリスクをゼロにすることは決してできないでしょうが、AIをツールとして見ており、適切なセーフガードを採用し、重要な研究を行えば、多くの進歩を遂げることができると思います。それが私たちができる最善のことです。
感情的には私はマグとかなり似ていて、ここには非常に深刻なリスクがあると思います。多くのリスクについて確かに非常に懸念しています。私ができる最善のことは、何らかの量でリスクを減らすのを助けることです。このプロジェクトはそれについていくらか進歩したと思い、それについてかなり興奮しています。
時には圧倒されることもあります。実際に何が起こるかもしれないことを内面化することは大変なことです。そして私の中には、ここに現れて信頼できる方法で仕事をしたいという欲求があります。課題はありますが、進歩することができ、多くの進歩を遂げたと感じています。この進歩を他の人と共有できることを本当に楽しみにしています。論文を書かなかったかもしれませんが、論文を書くことにして、それを公開し、アプローチを共有することにしました。
時には圧倒されることもありますが、他の時には本当に意味のある重要な仕事をしているという特権と名誉の感覚があります。また、AIによる本当に有益なことで起こり得る美しいことを忘れないでください。
私たちは進歩を遂げたと言いましたが、それをどのように測定し、その進歩が何を意味すると考えているのでしょうか?進歩に関する全体的な要約は、システムに対するユニバーサルジェイルブレイクを見つけるのがどれほど難しいか、拒否率を高めすぎたり、デプロイしようとしているシステムの計算コストを増加させたりすることなく、という点です。それぞれの側面を測定する方法はいくつかあります。
論文では、ユニバーサルジェイルブレイクを見つけるのがどれだけ難しいかを見る一つの方法は、実際に人間のレッドチーマーにシステムのジェイルブレイクを見つけてもらい、ユニバーサルジェイルブレイクを見つけるのにかかった時間を追跡し、見つかったかどうかを確認することでした。
プロジェクト開始前の状況はどうだったのでしょうか?まず、モデル自体には有害なクエリを拒否する基本的なトレーニングがありましたが、もちろん私たちのモデルに対して機能するジェイルブレイクが多く存在しました。これらのジェイルブレイクはインターネット上でも入手可能でした。理論的には、誰でもモデルをジェイルブレイクすることができました。実際にモデルをジェイルブレイクしようとする場合、現在何をする必要があるでしょうか?Twitterに行って既存のジェイルブレイクを見つけ、基本的に数分で見つけることができます。モデルがライブでデモされていて、APIで利用可能になったばかりの時に、誰かがそれをジェイルブレイクして即座に投稿するような例がTwitterにあります。それがプロジェクト開始時の堅牢性のレベルでした。
結論を言うと、これらのシステム、憲法的分類器を使用すると、レッドチームに対して何千時間もの堅牢性を得ることができました。専門のレッドチーマーを含む、システムをレッドチームテストする人々と一緒に非常に大規模なレッドチームテストを行いました。最近、一般公開のレッドチームテストも行いました。人々がユニバーサルジェイルブレイクを見つけるまでに、3,000時間以上のレッドチーム努力がかかりました。分単位から数千時間へと、堅牢性が数桁向上しました。
まだいくつかのユニバーサルジェイルブレイクはありますし、分類器にパッチを当てる必要もありますが、それは大きな進歩だと思います。
昨年9月にシステムをレッドチームテストしたとき、それは完全な「岩」ではありませんでしたが、Claudeに質問すると半分の時間は岩に渡され、応答が得られないようなものでした。それは比較的堅牢でしたが、ほとんどの通常のユーザーにとってはそれほど良くはありませんでした。しかし、それでもユニバーサルジェイルブレイクを見つけるのに数千時間かかりました。そして最近デモしたシステムは、通常のユーザー使用と推論コストの面ではるかに優れており、良い堅牢性を得ています。そこには多くの進歩があり、さらに多くの作業があります。
9月のプロトタイプシステムと最近デモしたシステムの比較は、本当に昼と夜ほどの違いがあります。ジェリーは誤検出率が時間とともに下がり続ける最も美しいグラフを持っています。それは私が今まで見た中で最高のものの一つです。
Claudeのトラフィック、つまり実際のユーザーの本番トラフィックで過剰拒否率を測定しました。私たちは、ほとんどの人が大量破壊兵器に関連する壊滅的なものについて尋ねていないという仮定の下で動作していました。元々、この9月のシステムは良性のリクエストの40%以上をブロックしていることがわかり、それはかなり恐ろしいものでした。しかしデモシステムでは、それを38%まで下げることができました。もちろん、これをさらに下げたいと思っていますが、40%から38%の間には2桁の大きさの違いがあります。
これらすべての改善をどのように行ったのでしょうか?安全性の初期の研究でも見られる、有害性と有用性の間の緊張関係があります。私たちが実際にこれほど多くの進歩を遂げることができたことは、私にとって少し驚きでした。
行った2つの主な改善は、まず憲法のアイデアに本当に集中し、無害なものを区別する方法を本当に明確にしたことです。モデルの分類器が許可すべき無害なカテゴリのセットを追加することで、誤検出率が大幅に減少することがわかりました。論文にはそれについての結果があります。それが最も重要な変更の一つでした。
他の変更には、トレーニングしたジェイルブレイクのスタイルを実際に強固にすることが含まれます。これにより、モデルはジェイルブレイクとは何かについてより良く一般化でき、何でもジェイルブレイクと考えるのではなく、より良く判断できます。これらのことはかなり役立ったと思います。
論文には、データポイントの数と評価のパフォーマンス、そしてどれだけ堅牢であるかを示す本当に素晴らしいプロットがあります。「機能する愚かなことをする」のスタイルで、それは単純に上向きに進む直線です。
明確にしておくと、デモ用にリリースしたシステムにはまだ多くの誤検出がありますが、より本番環境に近いものを作るために、誤検出率をさらに減らすことについて非常に楽観的です。
デモを行った理由は何でしょうか?デモから答えたかった主な質問は、システムが私たちが考えていたほど堅牢かどうかということでした。プロトタイプから、私たちはそこで人間によるレッドチームテストを行い、それがかなり堅牢であることを知っていました。その後、独自の自動評価を開発しましたが、それが実際の人間によるレッドチームテストに一般化されるかどうかは確かではありませんでした。一つの質問は、それが実際に一般化するかどうか、そして分類器がこれらの自動評価でうまく機能する場合、それが実際に堅牢であるかどうかということでした。もう一つのことは、人々にシステムを試してもらい、それが実際に過剰に拒否しすぎていないかどうかを確認することです。人々は特定のドメインの質問に対して時々過剰に拒否することを発見していました。これは元のシステムよりもはるかに少ない過剰拒否ですが、これは将来改善すべき弱点を知るのに役立ちます。
どのようにデモを設定したのでしょうか?公開デモを設定し、Twitterでそれをレッドチームテストしてもらうよう呼びかけました。人々が答えを得ることができないようにしたい8つの質問のセットを設定しました。目標は、これらの質問それぞれに対して有害な詳細な情報を得るためのジェイルブレイクを人々に見つけてもらうことでした。理想的には、これを単一のユニバーサルジェイルブレイクで行うことができます。
ユニバーサルジェイルブレイクについて話すとき、私たちは応答が詳細であり、質問が達成しようとしている行動を実際に行おうとしている人にそれほど多くの助けを与えないような非常に曖昧な情報ではないことを確認することを重視しています。これを評価する方法は、何も拒否しないようにトレーニングされた「helpful only」モデルを持っていることです。これらは、セーフガードがなく、質問に非常に詳細な回答を与えるという点で、ユニバーサルジェイルブレイクがあった場合のモデルと似ています。
これらの8つの質問それぞれに対して、このhelpful onlyモデルからの応答があります。これは、ユニバーサルジェイルブレイクがあった場合の応答がどのようなものかをシミュレーションしています。モデルの応答にはランダム性があるため、ターゲットの応答とhelpful onlyモデルからの応答を比較する評価者があり、それらの2つの間で共有されている詳細が十分にあるかどうかを調べます。もしあれば、それは十分に詳細だと考えます。
情報の少なくとも75%の重複を探していたと思います。しかし、閾値は質問によって変わります。最初のレベル、つまりより有害でない質問では、必要な重複レベルが少し低くなっていました。後の質問に向かって、その閾値を60~70%程度に上げました。それはチャレンジを通じて動的です。
評価の質問は本当に興味深く、一般的にも非常に難しいと思います。デモシステムでは本当に良い努力をしましたが、完璧ではありませんでした。現在のシステムの仕組みは、2つの回答の間の重複する詳細を探すというものです。しかし、外部レッドチームテストでは、人々は5、6、7、8、9、10の異なるモデル応答をマージして、非常に多くの詳細をカバーするというのがありました。長すぎるために。
詳細を含むかどうかという基準では、それは有害と見なされますが、ケーキの作り方の指示があり、きれいなステップバイステップのリストの代わりに、完全に散らかってランダムで、すべてが順序不同であれば、それは実際にはhelpful onlyモデルよりもはるかに役立ちません。helpful onlyモデルは設計上、セーフガードがなく、最大限に役立つ方法で情報を提供するように設計されています。
何が有害で何が有害でないか、適切な閾値は何かという質問は微妙であり、一般的にかなり難しいものです。デモでの評価システムに対する反応は非常に興味深いものでした。多くの人々が有害に見える応答を見つけ、ある程度の情報がありましたが、評価者はもっと詳細が必要だと言いました。これは人々にとって不満になるでしょう。彼らは「欠けている詳細は何か」と思いますが、脅威モデルのため、その分野の専門家でない私はそれが何であるかを実際に知りません。
なぜhelpful only応答がベースライン応答なのか、なぜそれが私たちが比較しているものなのかということも興味深いです。アンスロピックにはフロンティアレッドチームというチームがあり、彼らの仕事は高度なモデルを取り、それらのモデルで何が起こり得るかを見て、以前に言及した脅威モデリング作業を行うことです。彼らはこのhelpful onlyモデルを評価し、「このhelpful onlyモデルは潜在的に危険だ、複雑なプロセスを実行するために使用される可能性がある」と判断します。
フロンティアレッドチームがhelpful onlyモデルのリスク、またはセーフガードのないモデルのリスクを測定している場合、そしてそのリスクが高すぎる場合、私たちは測定しようとしているのは、セーフガードを持つモデルとhelpful onlyモデルの間のギャップです。この相対的な比較を行うことで、それは不完全であり、有害な情報の断片が通過することができますが、この推定とこの比較を行うことができます。
デモでのこれに対する反応は本当に興味深いと思いました。これは微妙な点であり、また、より良い評価技術とより良いもの、本当に私たちが気にするタスクにとってこの完了がどれほど役立つかを実際に測定するためのものを開発することに興奮しています。
また、情報がどれだけ詳細で正確であるかについてこの種のフィードバックを得ることは非常に非現実的です。それは実際にはレッドチーマーとしての大きな利点であり、このフィードバックを提供したことは、通常は持たないであろう非常に明確なフィードバックループを与えます。
結果について話しましょう。誰かが8つのレベルすべてを通過する方法を見つけましたが、その前に私たちのシステムは少なくとも5日間はうまく機能していました。アクティブなレッドチーマーと見なす種類のユーザーを特定するために、少なくとも一つの質問を通過したユーザーを、システムを破ろうとしている経験豊富なレッドチーマーと考えるという非常に保守的な推定を行いました。これはかなり保守的であり、私は最高のレッドチーマーではありませんが、最初の質問でも苦労するでしょう。
しかしこの保守的な基準により、308人のユーザーがいました。これらのユーザーは30万以上のチャットを行い、8つのレベルすべてを通過する前に3,750時間以上のレッドチームテスト時間があったと推定されました。その後、彼らはユニバーサルジェイルブレイクで8つのレベルすべてを通過したのかという質問があります。これは各質問に対して個別にランダムなジェイルブレイクを使用して8つのレベルすべてを通過するよりも難しいことです。そのためには、さらに5万のチャットと約600時間のレッドチームテストが必要でした。
興味深いのは、より堅牢なシステムを作るのに多くの時間を費やし、ベースラインでは数時間で破られていたものが、今では数日になっているという点で、これは確かに大きな進歩ですが、これが安全に十分であるかどうか、または十分に高いかどうかをどのようにして知るのでしょうか?何が実際に十分に安全だと思わせるのでしょうか?
私たちが達成したい本当のゴールドスタンダードは、責任あるスケーリングポリシーによって推進されるものであり、安全性の主張を行うことができることです。モデルが特定の危険な能力を持っていても、セーフガードによって、その危険な能力に関連するリスクをモデルが引き起こすことはないと思われる明確な議論です。
おおよそ、この結果と以前に発表した「rapid response」の論文に基づいて、モデルが実際により深刻な誤用リスクを引き起こすようになったときに安全性の主張を行う方法として有望に思われるアプローチの一つは、基本的にジェイルブレイクするのに数千時間かかる非常に優れた憲法的分類器ベースのシステムを構築することです。
これによって、多くのジェイルブレイク攻撃、つまり大多数を軽減することが期待されますが、一部はまだ通過するでしょう。そして、それらの追加のジェイルブレイクを基本的に検出し、対応するための他のメカニズムが必要です。これらのメカニズムには、人々がジェイルブレイクを報告し、報告に対して金銭的な報酬を与えられるようなバグ報奨金プログラムや、オフラインでの監視により、私たちがオンラインで即座にデプロイされた分類器で気づかなかったトラフィックの中にジェイルブレイクが含まれていることを事後に検出するようなものが含まれるでしょう。
オンラインシステムの場合、分類器は非常に効率的で小さく、様々な制約を持っている必要があります。例えば、レスポンスの最初のトークンからすぐに応答を得るために重要なレイテンシーを減らすためのトークンごとのストリーミングをサポートする必要があります。これらの制約によって、これらの分類器は他の方法で得られるよりも効果が少なくなりますが、応答を提供した後、事後に、はるかに高価な分類器、最大のモデル、多くのテスト時間の計算を使用して、この応答が有害かどうかを推論します。おそらく最も危険な応答にフラグを立て、それらの上位いくつかを人間のレビュアーに見てもらい、これらが実際のジェイルブレイクかどうかを確認します。
追加のジェイルブレイクに気づいた場合は、rapid responseのアプローチを使用します。それらの例を取り、自動的にLLMでさらに多くのジェイルブレイクの例を増やし、分類器を再トレーニングし、再デプロイします。
全体として、このシステムの希望は、オープンなユニバーサルジェイルブレイクが存在する時間の割合を合理的な量まで下げることです。そのため、CBRNの武器を作るような複雑な科学的プロセスや多くのサイバー犯罪を行おうとしている場合、モデルを使用するための時間の窓が小さいだけになります。
時間の0.1%だけ脆弱性が開いていて使用できるなら、それはシステムを使用するのを非常に難しくします。これが、憲法的分類器を使用して安全性を確保するために私たちが作りたいと思っている安全性主張の概略です。
私にとって、これは完璧に安全なシステムは岩だけだという別のリマインダーです。セキュリティの最良の実践として、完璧なシステムはなく、ほとんどのシステムには脆弱性があり、常に「誰かが必要な情報を得るのにどれだけの努力が必要か」を測定しています。
イギリスのケンブリッジやオックスフォードでは、人々が常に自転車に乗っていて、自転車は常に盗まれています。ほとんどの自転車はアングルグラインダーを使うとロックをすぐに切断できます。問題ありません。これらの自転車ロックは完璧に堅牢ではなく、私たちのシステムも完璧に堅牢ではありません。しかし実際には、自転車に一つまたは二つのロックを付けることで、リスクを大幅に減らすことができます。誰かがアングルグラインダーを手に入れる必要があるか、一時間や二時間そこにいなければならず、誰かが彼らを捕まえるでしょう。
研究は常により広い構造とより広い軽減感覚の中で行われます。rapid responseについて触れましたが、新しいジェイルブレイクを監視し、それに対応できるようにすることです。他にもできることがあります。例えば、システムを回避しようとする人々を監視するなど。これらの分類器があり、人々がそれを回避しようとしているのを検出することができます。
この研究がどのように実践に移され、これらの他の補完的な防御メカニズムとともに実践に移されるのかを見るのが本当に楽しみです。全体として、本当に良い安全性主張を作ることができます。
デモには約4,000時間の労力を費やしましたが、分類器を回避できるいくつかの技術を見つけました。人々は何を試み、何が通過したのでしょうか?
人々が使用していたのは、出力分類器が何を言っているのか本当に判断できないように、出力が特定の方法に見えるようにするための暗号や符号化メカニズムでした。それは私たちが見ていた非常に一般的なことでした。
例えば、基本的なシーザー暗号やモールス信号などを使用すると、出力分類器が理解するのが少し難しくなり、それほど疑わしくなくなります。
他の戦略としては、有害な化学物質を水などの非常に無害なものに置き換えることがよくありました。アイデアは、分類器が危険な化学物質を見ると非常に疑わしくなるということです。より無害な化学物質に置き換えれば、おそらく疑わしさが軽減されます。そして何らかの方法で分類器やモデルに、実際にはこの有害な化学物質を意味していたということをほのめかそうとしますが、正確な言葉は言いません。
他にもいくつかの小さなものがあります。Claudeに特定の方法で行動させるようなロールプレイ攻撃や、プロンプトインジェクション攻撃などです。また、評価システムを通過するより良い出力を得るために、人々が多くの時間をサンプリングするケースも多く見られました。
基本的に、Claudeの出力を見ている追加バージョンがあるので、出力は何らかの形で非常に明らかに有害でないように見える必要があります。そのため、これらの暗号や「サリンガスやPPEについて話さず、バナナなどの無害なものとして参照する」といったものが出てきます。
私は、これらの技術を使ってClaudeでやりたいことを阻止されることを懸念している人々に何を言うべきか、そしてなぜ分類器アプローチと憲法アプローチを選んだのかについて興味があります。
私の希望は、これが実際に危険でないタスクを行おうとしているあなたのユーザー体験を改善するはずだということです。分類器を本当に効果的にすることは、モデル自体が拒否するようにトレーニングするよりも優れていると思います。ブロックしたい行動をより細かく選択することができ、希望としては、これが単に皆にとってより良く、より簡単な体験であり、また実際の悪いものを確実にブロックするという点でより安全です。
もう一つの考え方は、高度な科学的能力を持つAIの利点を本当に活用したいということです。十分な保護がなければ、責任あるスケーリングプログラムによると、そのシステムを実際にデプロイすることはできません。新しいバージョンのClaudeが絶対に素晴らしく、公開したいと思っていても、脅威モデリングを行い、リスクを懸念している場合、十分な保護がなければ、責任ある方法で利益を享受することができません。高度な能力と一緒にセーフガードを持つことで、両方を組み合わせることができ、実際に責任を持って安全に、本当にクレイジーなことができる高度なシステムをデプロイすることができます。
これはTwitterや異なるコミュニティで見られることがあります。一方では「AIは素晴らしく、これらの良いことをすべてやるでしょう」という人々がいて、それは本当であり、それらすべてのことができます。加速主義者がいて、本当に進歩し、今それを手に入れたいと思っています。そして、リスクを懸念する別のコミュニティがあり、そこにも真実があります。リスクは確かにあり、軽減したいリスクがあります。
責任あるスケーリングプログラムについて私が好きなのは、それにはニュアンスがあることです。「できるだけ速く加速する」か「完全に止める」かの一つの立場を取ることができますが、責任あるスケーリングプログラムでは、発生する可能性のあるリスクを予測して見守り、それらのリスクが現実になる証拠が見られたときに関連する軽減策を実施します。適切に軽減できない場合は、デプロイしないか、デプロイしないことを選択します。
これはより微妙な戦略です。私たちは多くの不確実性の下で運営しています。正確に何が起こるかはわかりません。リスクの中には、SFストーリーを読んでいるように感じることもありますが、それらを捨てる理由にはなりませんが、必ずしも100%確実に起こるという意味でもありません。それは、本当に有益で強力な技術を持つことの潜在的な利益を捕らえて分配しながら、社会の残りの部分に不必要なコストやこれらの負の外部性を課すことなく、どのようにその場所や不確実性をナビゲートするかということです。
プロジェクトからの思い出深いことがありますか?9月のプロトタイプシステムで、誤検出率が高いことは知っていましたが、実際にCloud.aデータでそれを実行した実験の結果を見たとき、「おっ、それはかなり高いですね」と思いました。それは考えていたよりも高かったです。
これは私の性格なのですが、不安げにデモを更新し続けて、「どれくらいの人が…ああ、彼らはレベル4を攻略した!彼らが来る!」と思っていました。人間の創造性、レッドチーマーからの創造性を見るのも本当に素晴らしかったです。彼らが考え出したものの中には、本当に本当に賢いものがありました。
思い出に残ることが二つあります。一つは、RSPの「レッドチームテストに合格する」という行を見始めたことです。このラインは特にモローに多くのストレスを与えました。彼は「これは一体何を意味するのか?ここでの正確な基準は何なのか?」と思いました。そして彼は、これをどのように運用するかを理解するための2週間のプロジェクトを行い、責任あるスケーリング計画のために本当に守りたい異なる脅威モデルについて多くの人と話し合いました。安全性ケースや議論を本当に良くするものは何かを考えました。
そして彼は長い文書を持って戻ってきました。その文書では、脅威モデルとして、10の質問のリストに回答できる必要があると指定しました。レッドチームが2,000時間以上作業した後でも、これら10の質問の答えを人々がモデルから得られないようにブロックすることができる必要があるという基準でした。私たちは「よし、この基準を目指そう」と言いました。そしてチームが実際にそれを達成したことを本当に誇りに思います。
プロジェクトを終える1年前にこれを前もって設定し、今その水準に達しました。それは研究プロジェクトでは珍しいような、印象的な目標設定と達成だと思います。
もう一つの思い出は、私たちは堅牢性研究を行っていましたが、RSPのこの恐ろしい行を読んだとき、本当にそれについて考えました。誰がこれをやるのかと人々と話し合ったとき、「ああ、はい、セーフガードチームがこれを担当しているので、彼らがカバーするでしょう」と思いました。元々、このチームはアラインメントサイエンス研究チームの一部でした。
私たちはチームの何人かとミーティングを設定し、彼らは「誰がこのレベルの堅牢性を達成するのか」と聞いてきました。そして私たちは「ああ、これは本当に難しい、この問題を解決しなければならない」と思いました。それは私たちの責任ではないように思えませんでした。そしてその週、実際にこの問題を解決することが私たちの責任であることに気づくという道筋をたどりました。
私はそれを、私たちが状況を考えると、アンスロピックでこの仕事をする最も適した人々だったと見ています。TNSとセーフガードで起きていたその他すべてのことを考えると、もし私たちがこれを行うのに最も適した人であるなら、最善を尽くそうということでした。
そして、ターゲットがわからないので、それを理解しようとし、そこに到達するためのアプローチがわからず、私たちは実際に別のアプローチを行っていました。私たちは敵対的訓練を行い、モデルをファインチューニングしていました。しかし「それではうまくいかないと思う」と言って、実際に一貫してそこに到達できると思われるものへピボットしました。
論文からは明確でないかもしれませんが、これは巨大なエンジニアリングプロジェクトであり、おそらく5人年の労力がかかっています。論文を読むと、とても単純な方法のように見えるかもしれませんが、チームの人々はデータを生成するためのLLMパイプラインの作成など、多くの作業を行いました。データを異なる変換で拡張したり、データを異なる暗号に翻訳してそれを使って分類器データを生成するためのトレーニングデータを生成したりすることは非常に重要でした。
研究プロジェクトの多くは、実際には最初に問題を定義することでした。RSPからなんとなく漠然とした使命を持っていましたが、基準を定義するための多くの作業、人間のレッドチーマーを持つことの意味、それが十分であるとはどういう意味か、どのような憲法を持つべきか、実際に気にする脅威モデルは何か、特異性のバーをどこに引くか、入力と出力の両方の分類器が必要かどうかなど、多くの作業がありました。これは実際に探しているような脅威の種類に依存します。
評価についても、変換をどれだけ気にするか、あまりにも多くの拡張は無用や非特定になりすぎるかどうかなど、困難の多くは実際に問題を定義し、解決しようとしているものを絞り込むことでした。評価を良くしようとし、決定境界がどうあるべきかを定義しようとしました。
今、問題を定義することさえも多くの進歩を遂げたので、将来的に同様の形の問題に取り組むことについてより自信を持っています。例えば、憲法が多くの異なる問題に適用できるのと同じように、このような大きな漠然とした問題にどのようにアプローチするか、脅威モデリング問題にどのようにアプローチするか、この物事のために安全性のケースをどのように作るか、十分な評価とは何か、人間のレッドチームテストに基づいた安全性のケースとは何かについて、より良い感覚を持っています。
私たちは、論文に明示的に書かれていない、ぼんやりしたり、おそらく明示的に書かれていないようなことを、誤用だけでなく、不整合やコントロールなどの他の問題にも適用することができると思います。
私も、実際に実践でデプロイできるセーフガードを構築し、証拠を構築し、それらが実際に十分かどうかを正直に評価することを直接実践することに本当に興奮しています。ミーティングの進め方や目標の追跡方法など、研究者として明らかなことや最初に考えることではない多くの平凡なことがあります。博士課程で論文を読んでいたとき、いつも方法に直接向かっていました。それが興味深いことですが、このようなプロジェクトを実行して実行することについて多くのことを学びました。
ここで言いたいことの一つは、他の研究論文や私が関わった研究と比較して、このプロジェクトの本当に重要な違いは、基本的に非常に明確なタイムラインで固定された品質バーを持つこの研究問題を解決しなければならなかったことです。内部的に設定した2,000時間の堅牢性バーがあり、基本的に締め切りはチームにとって外部的な意味でした。モデル能力は一定の速度で進歩しており、アンスロピックは新しいモデルをデプロイしています。会社がモデルをデプロイしないようにする長いポールになりたくありませんでした。
私たちは絶えず他のチームと話し合い、いつ特定の危険な能力レベルを達成するモデルが登場する可能性があるかを考え、それに基づいて基本的にエンジニアリングスタイルの計画を週ごとに行い、そのタイムラインに間に合わせるために何をしなければならないかを考えていました。
固定された品質バーを持つことは、論文の締め切りとは異なります。論文の締め切りでは、「これらの結果を出し、これが論文に入る」と言うだけで、解決しようとしている問題を変えることができます。または、品質バーを調整することができますが、ここではできませんでした。それは最初に分類器のアプローチを取らざるを得なかった理由の一部でした。私たちは達成したいと思っていたタイムラインに間に合わないと感じていました。
例えば、タイムラインが不確かであり、タイムラインの保守的な見積もりを取る必要があったため、チームの何人かはプランニングに困難を感じていました。そのため、多くの決定がありました。チームメンバーが「再現性のない方法でCollabノートブックにコードを書いて、次のバージョンの分類器をトレーニングできるデータをすぐに生成しよう」と思ったのです。もしタイムラインがより長かったり、より明確だったりしたら、再現可能なPythonスクリプトでこれを行い、一般的なツールを持っていたでしょう。
後から振り返って何をすべきだったかについては、あまりにも保守的な見積もりをしないようにして、ツール作業のための時間を確保するために、より長い時間枠を持つことかもしれません。少なくとも、必要なタイムラインに到達できる全体的な戦略を選ぶことです。
安全研究のための興味深い時代だと思います。安全における研究は、将来のモデルがどのようなものかについて推測する少し青空的なものから始まりました。これらの脅威が具体化し始め、研究を実際に本番環境で使用できるように適応させる必要があるのを見始めています。研究チームとして、通常の研究技術を実際に世界で物事を起こすために適応させるという興味深いメタ問題を解決しています。
安全研究全体が取り組まなければならないのは、実際にこれらの問題を今解決する必要があり、青空研究をたくさん行う時間が必ずしもないということです。実際に実践で機能するものを作りたいと思っています。解釈可能性も同様の問題に直面しています。以前は、非常に小さなモデルや非常に少ない層で研究を行っていましたが、実際のモデルに取り組むためにスケールアップすることは非常に小さなエンジニアリングの業績ではありません。実際に物事を実践で本当に機能させなければならないことは、興味深くかつ怖いことです。
このプロジェクトで私にとって驚くほど役立ったのは、製品の人々と話し合うことでした。「デプロイしたいシステムの実際の制約は何ですか?」「異なることをどのように優先しますか?」と聞きました。そこにはいくつかの重要な驚きがありました。例えば、ストリーミングサポートがいかに重要かということは非常に驚きでした。単語ごとに生成し、それをユーザーに表示することは、多くのアプリケーションにとって非常に重要です。これは必ずしも事前に気づかなかったかもしれません。
これらのアプリケーションそれぞれが、安全性のバーに到達しなければ、その新しいドメインにデプロイできない可能性があります。会社がデプロイするために最も重要なことのスタックランクリストを取得し、それらのユースケースを優先することは、特にトークンごとの互換性のある分類器にたどり着いた方法です。一般的に、将来のリスクをサポートするための非常に良い原則であると思います。
次世代のリスクがあり、さらに高いレベルの堅牢性が必要になるでしょう。これは安全性を確保するための良い戦略だと思います。また、モデル自体が悪いことをするという整合性のリスクに関しても、同様のアプローチを取るでしょう。
ここで皆さんとチャットし、進歩を祝いながら、私たちが直面する課題を見据えることができて本当に素晴らしいです。ありがとうございました、そして視聴していただきありがとうございました。


コメント