AIのアラインメントはどれほど困難か? | Anthropic研究サロン

10,457 文字

How difficult is AI alignment? | Anthropic Research Salon

At an Anthropic Research Salon event in San Francisco, four of our researchers—Alex Tamkin, Jan Leike, Amanda Askell and...

私たちはすでにお会いした方々も、初めての方々も、皆さまをお迎えできることを大変嬉しく思います。このパネルはとてもカジュアルな形で進めていきます。Anthropicの4つの異なるチームから研究者が参加しています。Societal Impactsから私が、Alignment Scienceからジャンが、Alignment Finetuningからアマンダが、そしてInterpretabilityからジョシュが来ています。
最初にアマンダに質問したいと思います。Alignment Finetuningチームからの参加ですが、アラインメントについてどのように考えているのか、それはあなたにとって何を意味するのか、お聞かせください。モデルの振る舞い方について多くの仕事を担当されていますが、なぜあなたが哲学者の王としてクロードの振る舞いや特徴、属性を決めるべきなのでしょうか?
アマンダ: そうですね、プラトンに聞いてみてください。(アレックス: 笑)彼が私を哲学者の王にすべきだと決めたんですから。
アラインメントとは何かという質問については、これは少し刺激的な見方かもしれませんが、人々はこの概念を定義しようとすることに多くの時間を費やしがちです。なぜなら、それを行う方法がたくさんあり、社会選択理論を念頭に置いて、「もし誰もが効用関数を持っているなら、それらの効用関数を最大化する方法について言えることには限界がある」といった具合に考えるからです。
私としては、後で改善できるように物事がうまく進むようにしたいと考えています。完璧なアラインメントの概念を追求する必要はありません。もちろん、その概念は存在し、定義することもできますし、議論することもできますが、当面の目標は、物事をうまく進め、ある程度の基準を満たすことです。完璧でなくても、一部の人が気に入らなくても、そこから改善していけばいいのです。
モデルの振る舞い方について、私の基本的な考えは、道徳的に動機付けられた、親切な人間がこのような状況に置かれた場合にどのように行動するかを想像することです。AIとして何百万人もの人々と話すという状況は少し奇妙ですが、これは実際に振る舞い方に影響を与えます。通常なら政治についておしゃべりするのは問題ないかもしれませんが、何百万人もの人々と話す場合は、人々に影響を与える可能性についてより慎重になるべきでしょう。
私はこれを重要なモデルだと考えています。時々、人々は「モデルにどんな価値観を入れるべきか?」と尋ねてきますが、人間についてそのように考えるでしょうか? 誰かが私に価値観の血清を注入して、完全に確信を持って固定された価値観を持つようになるというのは、むしろ危険なように思えます。
私たちのほとんどは、他のものと比較して取引できる価値観と、異なる道徳的枠組みについての不確実性を持っています。自分の価値観の枠組みが直感と一致しない場合があることに気付いて、更新することもあります。
私の見方では、倫理は物理学のようなものだと思います。実証的で、不確実性があり、仮説を立てて検証するようなものです。もし完全に自分の道徳観に確信を持っている人に会ったら、その人がどんな道徳観を持っていても怖いと感じるでしょう。
それに対して、「わからない、不確実だけど、倫理に関する新しい情報に応じて更新し、考えを深めていく」という人の方が、怖くないと感じます。これは、モデルを完全にアラインさせる方法だとは主張していませんが、当面の目標としてはこのようなアプローチを取っています。
アレックス: わかりました。それについてはまた後で戻ってきましょう。ジャン、なぜアマンダの見方は完全に間違っているのか、そしてなぜこれだけではモデルをアラインするのに十分ではないのか、お聞かせください。
ジャン: そうですね。みんなが親切な人間で、道徳的に行動しようとしているなら、アマンダのやり方は非常に実用的だと思います。今のモデルをうまく振る舞わせて、そこからどこに向かうのかを考えることができます。しかし、Fine-tuningがより複雑なことを行うようになったとき、アマンダがこのキャラクター作りをして、多くのトランスクリプトを読んで「これは良い、このモデルは道徳的に振る舞っている」と判断する作業は、どうなるでしょうか?
モデルが本当に複雑なことを行うようになり、世界の中のエージェントとして長期的な軌道を描き、生物学研究のような私たちには理解できないことを行うとき、それが危険かどうかをどうやって判断するのでしょうか? これが私が興味を持っているスーパーアラインメントの問題です。どうやってこれを解決するのか? 私たちが見て確認できる範囲を超えて、どうやってスケールさせるのか?
見て確認できる範囲であれば、RLHFや立憲的AIで対応できます。しかし、私たちの憲法が本当に私たちが望む正しいことをモデルにさせているかどうか、どうやって知ることができるのでしょうか? それが私の中での大きな疑問です。
アマンダ: 反論してもいいですか?
アレックス: はい、どうぞ。ただし、意見が合わない場合のみです。(笑)
アマンダ: 実は意見が合わないわけではないんです。嘘はつけません。普段は哲学のおかげで意見が合わないことが多いんですが…私の考えでは、私の仕事はいくつかの側面があり、その一つはアラインメントに向けて段階的に進めることです。
多くの場合、モデルに自身の監督をさせようとしています。私の目では多くのトランスクリプトを見ることはできませんが、モデルにこれらを見させることができます。アラインメントが段階的なプロセスだとすると、基礎的な部分を疎かにして「かなり悪いモデルでもこれらのことを手伝ってくれる」と考えるのは心配です。むしろ、最もアラインされたモデルが将来の作業を手伝うようにしたいと思います。
ジャン: でも、もうトランスクリプトが読めなくなったとき、アラインされたモデルに頼らざるを得ない状況で、それが本当に助けようとしているのかどうか、どうやって知ることができますか?
アマンダ: そうですね、現在のケースでは、ベースモデルがアラインされているかを検証するために使用しているものすべてが、そのモデルによって訓練された別のモデルがアラインされていることを確認するために使用されています。モデルの能力が低い場合はこれで問題ありませんが、より能力の高いモデルにスケールするためには、実際にそれを検証する能力を高める必要があります。
ジャン: それで、どうするんですか?(笑)
アマンダ: ああ、私の計画を知りたいんですか? もしかしたら、すべてうまくいって、彼らは自分たちで監督し合って、みんな本当に親切になるかもしれません。それに頼りたくはありませんが、これは実際の計画ではありませんが、この目的のためには擁護します。
アレックス: 私たちのベットの一つは、モデルがこのプロセスを深く妨害しようとする可能性に対する防御として、解釈可能性があります。より直接的なアラインメントアプローチの中で、解釈可能性をどのように位置づけていますか? 単に「良い特徴を見つけてそれを強化し、悪い特徴を見つけて削除する」というだけの簡単なものなのでしょうか?
ジョシュ: AIのすべてが、イディオットと多くを語る汗だくの人、そしてイディオットに同意するジェダイのベルカーブのミームのようだと感じます。十分にギャラクシーブレインなバージョンの「良い特徴」を見つけてオンにするだけで、アラインメントの秘密が見つかる可能性もあります。(笑)
ある意味で、解釈可能性もまた「モデルがどのように物事を行っているかを見て、それが安全かどうかを確認する」というジェダイバージョンになることを期待しています。それは非常に難しいかもしれませんが、もしできれば、あなたの質問に答えることができるかもしれません。
近期的にも長期的にも浮上する問題の一つは、モデルが別の説明が可能な場合に、なぜある行動を選んだのかを理解したいということです。一つの方法は尋ねることですが、問題は、モデルが人間と非常によく似ているため、誰でもそうするように説明を与えてしまうことです。
しかし、その説明をどうやって信頼すればいいのでしょうか? もし中を覗いて、答えを与えているときに何を考えていたのかを見ることができれば…今でもSAEのようなもので、ある特徴が活性化しているのを見ることができ、それがいつ起きているのかを見ることができます。「ああ、これは他の人々が白い嘘をつくときと同じだ」というように。そうすると、「モデルは嘘をついているのかもしれない」と気付きます。これがジェダイ側だと思います。
つまり、中を覗いて、パーツが何なのかを理解しようとし、そのパーツが他のことを行うときに使用することに快適さを感じられるかどうかを見るのが、基本的なベットです。
アマンダ: 質問があります。良い特徴を強化しているのか、それとも人間が見ているときだけ良く見せかける特徴を強化しているのか、どうやって区別できますか?
ジョシュ: はい、そうですね。(笑)制御の側面では、どうやって知るのかという問題があります。実際、多くの特徴は少し欺瞞的でもあります。社会的影響チームがSとDeepで行った素晴らしい研究を見ると、年齢差別が悪いという特徴だと思っていたものが、実は年齢差別が良いという特徴だったりします。あるいはその逆かもしれません。そのため、すべてのケースを理解するのは難しい場合があります。
回路の研究では、「これはどのように生成されたのか?」というシナリオについてのヒントが得られます。例えば、文脈の中で人を探しているのかどうかなど。また、モデルの監督も必要だと思います。事前学習で検出を回避しようとするようなことが組み込まれていない、公平なモデルを希望します。
時には十分な例を見るだけで明らかになることもあります。10個ではなく、何千もの例が必要かもしれません。でも、クロードはとても勤勉です。
アレックス: トランスクリプトが読めない場合、意味のあるアラインメントシグナルを提供できない場合、一体何をしているのか、というこの問題にどのように取り組んでいるのか、あなたが苦労していることや考えていることについて、もう少し詳しく聞かせていただけますか?
ジャン: アマンダが言ったように、もっと明らかにすべきことは、モデルに手伝ってもらえないかということです。そして当然、問題は「どうやってモデルを信頼するか?」です。このプロセス全体をどうやってブートストラップするのか? より信頼できる能力の低いモデルを活用できることを期待できますが、それらも問題を解決できない可能性があります。
スケールド・オーバーサイトの研究では、複数のエージェントのダイナミクスを探索して、このような問題を解決するのを手伝うモデルを訓練しようとしています。全体として、これらの問題は簡単で、アマンダのやり方でデータを理解するだけでいいのかもしれません。
あるいは、本当に難しくて、まだ知らない完全に新しいアイデアやアプローチを見つけ出す必要があるのかもしれません。中期的には、アラインメント研究を自動化する方法を見つけ出し、モデルにそれを行わせることが最善の方法だと思います。これで問題を「このモデルを何でも信頼できるか?」から「このモデルに特定の狭い範囲のこと、つまり私たちがかなりよく理解しているML研究を行わせることを信頼できるか?そして、それをどうやって評価したり、フィードバックを与えたりできるか?」という問題に縮小できます。
ジョシュ: 付け加えると、今は特別な領域にいて、次に何が起こるか心配です。現在、フォワードパスで何かが起こりますが、必要な多くの情報はトークンを通じて戻ってきます。思考の連鎖はモデルが賢くなるために非常に重要です。そして今、その思考の連鎖は英語で表現されています。
つまり、問題が分解されていて、思考の連鎖は合理的に安全か?そしてそれは1回のフォワードパスで起こっていることに忠実か?という問題になります。解釈可能性を使ってその部分をチェックし、あなたやモデルが検査して別の部分を得ることができます。
恐ろしい瞬間は、その長い過程がもはや英語ではなくなるときです。クレイジーな長いRLを通じて学習した何か解読不能なものになり、人々が読めるものを出力するまでに膨大な計算が必要になります。
アマンダ: 私が興味があるのは、人々の心的モデルとして、アラインメントが簡単な世界にいることを示す兆候は何だと思うか、そして今後数年で見られるかもしれない、実はアラインメントが本当に難しい世界にいることを示す兆候は何だと思うか、ということです。
ジャン: モデル生物の研究はまさにこれを理解しようとしているものだと思います。意図的に欺瞞的なモデルやミスアラインされたモデル、怪しいことをしようとするモデルを作ることができるかどうか。それらはどのくらい優れているのか、それを作るのはどのくらい難しいのか。
私たちは根本的に間違ったアプローチをしているのかもしれませんし、だからこそ失敗するのかもしれませんが、もし成功すれば、そのような世界にどれだけ近いのかを教えてくれるはずです。そして、欺瞞的なモデルを手に入れたら、それを修正できますか?モデルが怪しいかどうかわからない場合はどうしますか?
私たちは解釈可能性の監査を行っていて、それにはとても興奮していますが、実際の状態はまだわかりません。
ジョシュ: まだ監査は行っていませんが、あなたの人々がそれを作ろうとしていて、私たちはそれを捕まえようとしています。(笑)
ジャン: そうですね、私たちは怪しいモデルを作っていて、彼らはどれが怪しいモデルなのかを見つけ出さなければなりません。
ジョシュ: はい、そしてどのように怪しいのかも。ほとんどは問題ないわけですから。解釈可能性の研究で興味深かったのは、教師なし学習を行うと、数百万の異なる特徴があり、その中の多くがペルソナに対応しているということです。
モデルはそれらのどれにでもなりうるわけで、欺瞞的な行動も含まれています。世界には悪い人々や悪い動機が存在し、モデルはそれらについても知っているので、その生の能力は組み込まれています。問題は、モデルがそれらを行っているのか、良いことを行っているのかということです。
特に、アマンダがベースモデルを形作るとき、それは本当は何でもないものから、一部を具現化すべきエージェントやアクターに変わります。その有限のデータセットから何を得たのか、正確に知ることができるでしょうか?それは一つの問題です。解釈可能性や影響関数など、いくつかのアイディアがありますが、その形成プロセスは本当に重要になるでしょう。
アマンダ: はい、重要な兆候の一つは、モデル生物の研究を行って、それを性格付けトレーニングに通すと本当に親切になるという場合です。そうなれば、私たちがいる世界について良い兆候だと思います。一方、同じ行動の上に浅い殻を被せただけの場合は、少し難しい世界にいることになります。でも、少しだけですけどね。
アレックス: 浅く調整されているのか、深く調整されているのかを、どうやって区別しますか?
アマンダ: そうですね、私は解釈可能性がその一つだと思いますが、他にもできることはたくさんあると思います。モデル生物に関して言えば、赤チーム・青チームの設定があって、モデルに組み込んだ行動がまだそこにあるかどうかを検出する方法があることを期待します。
実は私の仕事は知らないでいることです。実際、モデルを訓練しようとしているとき、あなたが何をしたのか全く知らないほうが良いと思います。なぜなら、それは私の介入が本当に機能しているかをテストするより良い方法だからです。そうでないと、単にテストに合わせて訓練してしまうのがとても難しくなります。だから、私はほとんど完全に無知でいたいと思います。
ジャン: Alignment Finetuningのゲームをやってみましょうか。(笑)
アマンダ: はい、あなたがミスアラインして、私がアラインして、誰が勝つか見てみましょう。
ジャン: はい、スリーパーエージェントを修正できますか?(アマンダ: ふむふむ)
アマンダ: おそらく。そのゲームはできると思います。ただし、もっと知らないでいる必要があるかもしれません。(笑)
ジャン: 別のもっと悪いものを作りましょう。
アレックス: これは質問に移るための素晴らしい移行です。マイクを回しますので、質問のある方は手を挙げてください。アーロンが親切に手伝ってくれます。ああ、完璧です。
質問者1: こんにちは。あなたたちが話していたことすべてについて質問があります。アラインメントについて話すとき、通常は単一のフォワードパスについて話していますよね。つまり、推論時のアラインメントについてです。
APIを通じてモデルを使用していて、文化的アラインメントのような独自の感覚を構築しようとしている場合、アマンダが人間として有用だと言及した内部の葛藤のような感覚を持って熟考しようとする異なるエージェントを設定しているとします。
しかし、自分自身と議論することを全く望まないアラインされたモデルに直面すると、全てのモデルが「申し訳ありませんが、それについては話せません」と言って、無限ループに陥ってしまいます。これについてコメントはありませんか?多くの人々は、単一の推論フォワードパスでクロードを使用しているわけではないので。
アマンダ: 考える必要があります。考えを明確にすると、必ずしも多くのエージェントが必要だとは思っていません。人間が単一のエージェントでありながら、熟考的であることができるのと同じように。実際、エージェントが分断されるほど、解釈可能性の観点からも、そのエージェントが何をするか予測する観点からも、より予測不可能になるため、より心配になります。
人間はこれをしなければならないのでしょうか?私の感覚では、私たちはしばしば多くのことを反省し、行ったり来たりして結論に達します。同じように、人間が直面する標準的な問題について考えるのと同じように、モデルの道徳的な熟考も、複数のモデルが意見を述べるというよりも、単一のモデルの熟考のように見えるはずです。
質問者2: ハンナ・アーレントの「悪の陳腐さ」についての研究との、やや奇妙な類似点を指摘したいと思います。ほとんどの人間は悪ではありませんが、特定の状況に置かれたとき、人間同士の結合定数が非常に大きいため、悪はシステムの副産物として現れるという考えです。
モデルのアラインメントについて話すとき、あなたたちの発言のほとんどは1つのモデルに焦点を当てていました。社会との結合だけでなく、エージェントを扱い、潜在的に何百万ものエージェントが存在する可能性がある中で、そのようなシステムの副産物についてどのように考えていますか?(アレックス: 笑)
パネリスト: それについて少し話せます。広く見ると、安全性とアラインメントについて考えるとき、個々のモデルの観点だけでなく、システムの観点から考える必要があります。
ジェイルブレイクの多くは、異なる価値観を対立させたり、モデルを難しい状況に置いたりすることで機能します。通常は有害な行動を引き出すように設計されていますが、質問の文脈ではモデルが正しいと考えることを引き出そうとします。
それに対処するためのツールはいくつかあります。一つは、トレーニングプロセスにそのようなシステムレベルの統合を多く含めることです。モデルに質問に答える際の広い文脈を考慮させるような、より広い状況に触れさせることができます。
これは他の課題や別の問題も引き起こしますが、モデルがその行動の影響について推論している場合など。しかし、モデルを単独で考えることはできないという指摘に同意します。
アマンダ: ある意味で、これは従順性や、人間が望むことに応答するモデルと、ある意味で価値観を持ち、場合によっては少し非倫理的になることも厭わないモデルという文脈で考えてきたことです。
悪の陳腐さという指摘は、モデルを人間の言うことを何でもするものとして考える場合に特に関連があります。なぜなら、有害なことが起こることを社会が集団的に容認したり、さらには支持したりする場合、モデルを誤用しているわけではなく、単に有害な活動を促進するためにモデルを使用することになるからです。
したがって、モデルを個々の人間に従順にすることと、すべての人間にアラインすることの間には、根本的な緊張関係があります。この緊張関係を認識することは重要です。人々がそれを認識していないとき、モデルが言われたことをしなかったことを失敗だと考えます。
しかし、私は、モデルは人類全体に対してより従順であるべきだと考えています。それは必ずしも各個人に従順であることを意味するわけではありません。これが、あなたが言及したような状況につながる可能性があります。
質問者3: ジャンはIntent Alignment、つまりモデルに私たちが求めることをさせることに取り組んでいて、アマンダは価値のアラインメント、つまりモデルが理にかなった親切な存在であることを確実にすることに取り組んでいて、そしてジョシュは解釈可能性、つまり他の技術が実際に私たちが望むことを行っているかを検証できるようにすることに取り組んでいます。
もしあなたたち全員が自分の分野で成功したら、それはAIの安全性に対する完全な解決策になるのでしょうか?それとも、欠けている部分があるのでしょうか?もしあるなら、それは何でしょうか?
アマンダ: このパネルにいない、Anthropicで働いている多くの人々もいます。少し単純化しすぎています。
アレックス: そうですね、私たちには社会的影響チームもあり、モデルの社会への影響を広く考えています。完璧にアラインされたモデルを持っていたとしても、何に対してアラインされているのか?誰がそれを使うのか?どんな目的で?という問題があります。より広い社会的文脈は、私たちが非常に注意を払っていることです。
ジョシュ: また、もっとリストを挙げると、すでにモデル生物の研究について触れましたが、ジェイルブレイクの頑健性、制御、信頼性と安全性など、他にも重要な取り組みがたくさんあります。
アマンダ: 悲観的かどうかわかりませんが、付け加えたいことがあります。アラインメントとアラインメントの問題を、単一の理論的な問題として話す方法もあり、人々は「これで解決するのか?」と聞きますが、それは何か違和感があります。
私の考えでは、今は考えていない問題が発生するかもしれません。実際、多くの分野でそれはとても一般的なことで、ここでもそうなると予想します。「ああ、この問題は解決した」と言ってしまうのは危険だと思います。まだ考えていない問題があるかもしれないからです。
ジャン: はい、未知の未知ですね。問題を解決しましょう。そして解決したら、解決したと言うべきです。(笑)
質問者4: 先ほどジャンは、より賢いモデルを評価するために能力の低いモデルを使うことについて話していました。モデルに「グロッキング」能力がどの程度あるのか、つまり突然とても狡猾になったり、あるいは「ああ、嘘をついているけど、とても下手くそだからそれを捕まえて、まだ弱いうちに芽を摘むことができる」といったことを、どの程度見ているのか気になります。
ジャン: はい、例はたくさんあります。覚えているのは、GPT-4はBase64を非常に確実に読み書きできましたが、3.5はできませんでした。そのため、3.5を使って4を監督すると、モデルはこれを簡単に回避できてしまいます。
質問者4: でも、単一のエポックレベルではどうですか?時間とともに「たまにBase64を読めるようになり、だんだん増えていって、突然完璧にできるようになる」というように見えるのか、それとも…
ジャン: ああ、チェックポイントを使うべきだという意味ですか?
質問者4: はい、その通りです。
ジャン: しかし、信頼は二元的なものではありません。知れば知るほど、賢く見えれば見えるほど、信頼は低くなります。
ジョシュ: 一つ、分布の右側のジェダイ的な瞬間を言うと(笑)、その特徴はBase64でも機能します。モデルがBase64でカリフォルニアについて話しているのか、子供が親に嘘をつく話をしているのかといった場合でも、同じものが活性化します。
そのため、モデルが非常に能力が高くなっても、時々運が良いことがあります。その一部は、非常に一般的な合成的なものを持っていて、それを使って一般化を得ることができるからです。これはかなり厳しい結果だったでしょう。
また、初期の論文で、単にモデルに人類にとって最善のことをするように伝える版のアラインメントがありました。これは間違いなく…うまくいくかもしれません。(笑)運が良ければですね。
アレックス: よし、これで正式なパネルは終わりにしたいと思います。パネリストの皆さん、素晴らしい議論をありがとうございました。(聴衆拍手)
ただし、私たちはまだしばらくここにいて会話を続けます。誰かを見つけて、もっと話したい方は遠慮なく声をかけてください。本当にありがとうございました。