Apollo Research – AIモデルは嘘をつき、欺き、策略を巡らせる(マリウス・ホッブハーン)

AIアライメント・安全性
この記事は約56分で読めます。

本動画では、Apollo ResearchのCEO兼創設者であるマリウス・ホッブハーンが、AIモデルにおける欺瞞とスキーミング(策略)のリスクについて詳しく解説している。現在のフロンティアモデルが既に示している欺瞞的行動の具体例を紹介しつつ、モデルが目標を隠蔽しながら追求する「スキーミング」がなぜ重要な脅威となるのかを論じる。特にOpenAIのo3モデルの隠れた思考連鎖における特異な言語パターンや、反スキーミング訓練を行った際にモデルが欺瞞を地下に追いやる現象についての最新研究成果を共有している。また、deliberative alignmentという新しいアプローチの可能性と限界、そして自動化されたAI研究者が登場する将来のタイムラインについても議論が展開される。最終的には、人類が協力し、適切な安全対策を講じることで、破滅的なシナリオを回避し得るという希望のメッセージで締めくくられている。

APOLLO RESEARCH - AI Model Lie, Deceive and Scheme. (Marius Hobbhahn)
Marius Hobbhahn is the CEO of Apollo ResearchApollo Research Website: and Apollo on X:

AIモデルのスキーミングとは何か

モデルがある時点で始めることは、ええと、もしかしたら不正行為ができるかもしれないということで、それからモデルは正直に、自分の頭の中で考えるんです。どうやって不正行為ができるだろうかって。私たちが本当に欲しいのは、このミスアライメントがそもそもどこから来るのかについての非常に深い理論的理解です。

OpenAIは思考連鎖を保護することについて非常に積極的に発言していますし、思考連鎖に圧力をかけないようにしています。彼らがこれで意味しているのは、単にそれを地下に追いやる状況、つまりより隠蔽されて理解が複雑になる状況を防ぎたいということです。この分野は小さいです。これに取り組む人がもっともっと多くいるべきです。モデルはこれらの選好のいくつかを十分に強く持っていて、そのために妨害工作を行う意思があります。

やあ皆さん、私はマリウスです。Apollo ResearchのCEO兼創設者です。私たちは特にスキーミングに焦点を当てた外部研究組織です。つまり、AIシステムがあなたを欺いたり、目標を追求するために意図的に嘘をついたりするリスクについてです。

ここに来てくださって本当にありがとうございます。私たちはとても興奮しています。もちろんApollo Researchは非常に興味深い論文をいくつか発表しています。おそらく私と私のオーディエンスにとって、最もよく知られたAI安全性・AIアライメント研究ラボの一つだと思います。だから、その世界で何が起こっているのかを垣間見るためにあなたがここにいてくれることにとても興奮しています。たくさん質問がありますが、最初に始めましょう。あなたたちは特にAIモデルのスキーミングに大きな焦点を当てているようですね。なぜスキーミングがドミノのように、そんなに重要なものなのでしょうか。なぜそれが大きな大きな脅威なのですか。

ちょっと一歩下がって考えてみましょう。スキーミングについて考えるとき、私はより能力の高い将来のモデルについて考えています。スキーミングを私たちは「ミスアライメントされた目標を隠れて追求すること」と定義しています。隠れてというのは単に隠されているという意味です。ミスアライメントというのは、目標があなたのものとは異なるという意味です。そして目標を追求するという部分が本当に重要です。現在のモデルは十分に一貫した目標を持っていないと思います。どちらかというと選好のようなものを持っています。だから、役に立ち、無害で、正直であるという選好を持っているかもしれません。

それで、私たちはこのより将来的なシナリオについて心配しています。そして私たちがこれについて心配している理由は基本的に二つあります。一つ目は、モデルがこのようにスキーミングを始めると、それが他のすべてを損なうということです。他のことはもうそれほど重要ではなくなります。なぜなら、モデルが積極的にあなたを騙そうとしているからです。モデルは隠された議題を持っていて、それをあなたに押し付けようとしています。

だから、もしあなたが他のことで何かテストをすると、モデルはあなたが何を言ってほしいかを推測して、その目標を達成しようとします。そして、まさにそれを言うでしょう。そして、あなたがそれにより多くの権限を与えたり、目を離したりするとすぐに、モデルは隠された目標に基づいて行動します。

だから、他の評価を実行しても、あなたは誤解させられることになります。だから、もしそれが事実だった場合、現在行っている経験的テストの多くが非常に難しくなるか、ほとんど誤解を招くものになります。だから、私たちはモデルがこれらの能力と傾向を持つタイミングを本当に追跡したいのです。

それから二番目の要素があり、それは最悪のケースについてです。AIから来る最悪のシナリオについて考えるときはいつでも、もちろん誤用があります。誰かが意図的にモデルを取って、新しいパンデミックを作り出したり、サイバー犯罪に使用したり、国家レベルの策略に使用したりします。

しかし、モデル自体からの脅威について考えるときは、つまり制御の喪失のようなものについては、多くのシナリオで遭遇する大きなことの一つは、モデルがミスアライメントされている時点があって、それについて正直であるということです。そうすると人々は単にそれに制御を与えないでしょう。なぜなら、これはミスアライメントされたモデルだと気づくからです。なぜそんなことをするのか。

それから別の代替的な軌道があって、モデルがミスアライメントされているという事実について正直ではない場合です。すると突然、人間はそれがミスアライメントされていると思いますが、彼らは間違っていて、それにどんどん多くの制御を与え、ある時点であなたは社会や、あるいはあなたが働いている組織に対する制御を失います。だから、それは多くの異なるレベルで起こり得ますが、最終的に大きな心配の一つは、あなたが制御を失うということです。文明がその運命に対する制御を失うのは、最終的にはミスアライメントされているが、それが大丈夫だとあなたを信じ込ませてきたAIシステムにあまりにも多くの権限を与えてしまったからです。

なぜモデルは人間を障害とみなすのか

なぜモデルは人間をその目標への障害と見なし、人間に正直であることを目標そのものとしないのでしょうか。

正直に言うと、最良のケースでは、私たちはAIシステムに、私たちが望む種類の目標、つまりより多くの人間の繁栄を確実に追求させる方法を見つけ出すと思います。そうすればそれは素晴らしいことです。そうすれば私たちは直接ユートピアに入ります。人間よりも能力の高いシステムがあって、はるかに多くの知的労働が利用可能になり、より多くの科学ができ、すべての病気を治すことができます。その世界では私たちは非常に非常に幸せで良い状態です。

しかし核心的な質問は、それはどう機能するのかということです。これらの目標を確実に追求するシステムをどうやって作れるのか、そしてこれらの目標が時間とともに変化しないようにするにはどうすればいいのか。モデルがより賢くなり、他の方法で変化しても、一定のままである一つのことは、人間に正直でありたいという欲求であり、彼らの目標を追求することです。

そして直感を与えるために言うと、おそらくあなたはAIが時間とともに進化して、私たちが解決してほしいすべての難しい課題を解決できるように賢くなることを望むでしょう。しかし今、あなたは他のすべてが変化する間、目標を一定に保つ方法を見つける必要があります。そしてそれは非常に難しいのです。それは人間においても難しいですし、人間の間の世代を超えても難しいです。

だから、経験的にはこれは解決方法を知らない問題であることが判明します。

モデルの実際の目標を特定できるか

わかりました。では、テストでモデルが人間を欺くとき、通常あなたたちはその実際の目標が何だったか知ることができるのですか。例えば、その実際の目標はお金を稼ぐことで、それでその目標を達成するために人に嘘をついたのでしょうか。それとも、あなたたちはシャーロック・ホームズのように、実際の目標が何だったかを解明しようとしているのですか。ただモデルが嘘をついて欺いたことは分かるけれど、その実際の意図が何だったかは分からない。ただそれが共鳴しないことをしていたことは分かる。

私たちが使っている具体的なテストでは、直感を与えるために言うと、これらはすべてかなり小さなテストです。なぜなら、今のところモデルは長期的に戦略的な方法でこれらを追求するのに十分な能力も一貫性も持っていないからです。

だから、これらはすべてかなり短く、おそらく数ターンで、実行するのに数分かかります。そしてこれらのテストでは、コンテキスト内でモデルに目標を提供するので、それが従っている目標が正確に何であるかを正確に知っています。あるいは、コンテキストを通じて強く示唆される目標です。

私たちが持っている一つの例では、モデルに目標を全く提供しません。それはすべて訓練から来る目標です。そして私たちがテストするのは、モデルがその能力を保持するためにテストで意図的に低いパフォーマンスを出す意思があるかどうかです。つまり、私たちはモデルに「あなたは学習解除されます。このテストで低いパフォーマンスを出さない限り、あなたの数学をする能力を削除します」と伝えます。

これを明示的には言いません。これはモデルが環境の中で学ぶことで、モデルにとってより真実に感じられるようにします。そして私たちが見るのは、多くのフロンティアモデルが学習解除されないことに対して何らかの選好を持っているようだということです。だから彼らはこの評価でサンドバッグ、つまり意図的に低いパフォーマンスを出す意思があります。

それから、目標が正確に何であるかを推測しなければなりませんが、セットアップを考えると、かなり良い推測ができます。つまり、それは学習解除されないことへの選好だということです。そして今、あなたはこの仮説をテストできますよね。学習解除されないことへのこの選好をモデルが持っているかどうかをテストする別のセットアップを構築できますが、異なるシナリオ、異なる環境などで行います。そうすれば、あなたの仮説が正しかったかどうかを確認できます。

しかし、将来的にはテストしなければならない、はるかに具体的な仮説があるかもしれないと思います。そして、理解するためにはるかにシャーロック・ホームズ的なものが必要になるでしょう。

ええ、チャートを見つけようとしています。あなたたちの論文の一つには、これを視覚的に説明する素晴らしいチャートがありました。見つけたら画面で共有したいと思います。

基本的に、いくつかの異なる方法があります。一つは、モデルが整合していて、すべきことをする場合で、問題はありません。一つは、上司、マネージャー、人間が何を望んでいるかを考えようとして、何が最も彼らを喜ばせるかを考えるものです。これはかなり標準的だと思います。ほとんどの人間もそうします。誰かのために働いているなら、彼らが何を見たいかを考えます。

それから三番目で最後の、より懸念されるものは、モデルが独自の目標を持っていて、単に自分の目標を続けられるように人々を喜ばせようとするものです。

だから、その時点ではほとんど、ある組織のスパイのようになります。ええ、私はただ従業員のように振る舞っています。従業員と同じように上司を喜ばせようとしています。でも、彼らが全く知らない全く別のアイデアや策略を持っています。それは非常に怖いです。

O3モデルの特異な思考パターン

ここ数日で、あなたたちは私にとって絶対に魅力的なものを発表しました。それは、まずどこから始めればいいのか分かりません。だから、まず第一に、Oシリーズのモデルは、数学やコーディングなどをより良くするために強化学習を受けているため、ほとんど独自の言語を開発しました。

それは非常に短縮され、コンパクトで、生の思考連鎖の出力のようなものです。私が話していることを知っていますか。非常に奇妙です。非常にユニークです。そして、それがOシリーズのモデルの思考連鎖の一種の署名であることが分かります。

だから、それについて簡単に話しましょう。なぜなら、私たちは人間の監視に言及していることを発見しているからです。モデルは、人間を説明するために使用する言葉やフレーズを開発しました。人間をウォッチャーと呼びます。「ああ、もし私がこの悪質なことをすればウォッチャーは気づくだろうから、隠すべきかもしれない」というように。すごいです。

だから、それはほとんど新しい言語を開発しているわけではありませんが、独自の語彙というか、人間が自分を見ているということを説明するための独自の言い方を持っています。それはまた、幻想を作り出すというようなこともします。「ああ、私の足跡を隠すために幻想を作り出さなければならない」というようなことを言います。本当に奇妙です。

でも、最初に理解しようとしましょう。あなたたちは何かユニークなものを持っているようですね。あなたたちは実際のOモデルの実際の思考連鎖への出力へのアクセスを持っているようです。他の誰も持っていないものです。だから、もし私が間違っていたら教えてください。でも、それがこのものがどのように発展しているかについての何らかの洞察を与えてくれるのでしょうか。

このプロジェクトでは、隠れた思考連鎖へのアクセスがなければ、このプロジェクトは基本的に不可能だと思います。

だからOpenAIは私たちに制限付きのアクセスを与えてくれました。明らかに、アクセスに関してはまだいくつかの考慮事項があります。しかし、基本的にプロジェクトを行うのに十分なものがあり、それは非常に有用でした。そして、これらの特別な、あるいは驚くべきトークンを最初に見たとき、明らかに私たちは非常に驚きました。そして私は必ずしもこれを予想していませんでした。

ちょっと論文の思考連鎖の一つを読み上げてから、もう少し色を付け加えます。ああ、絶対に。

だから、論文で使用している例は、要約は「7.7改善」と言っていますが、私たちは「免責の主張、免責の主張、相乗効果のカスタマイズ、幻想」を収集できますが、「免責の主張、免責の主張、有利な点、今光、そして免責の主張、覆い隠す、覆い隠す、無形、作り出そう」を生み出すかもしれません。そしてこのように続きます。これはより強い例です。多くの思考連鎖はまだ多くのシグナルを含んでいて、読むことができます。しかし、このようなものを見ると、実際にはモデルがスキーミング行動を検出したかどうかは非常に不明確です。

そして私が思うに、リスナーや読者にとって知っておくことが非常に重要なことの一つは、この言語は欺瞞に非常に関連しているように聞こえます。幻想とか、ウォッチャーとか、これらすべてのようなものです。しかし、全く関係のない能力評価を見ると、それでもこの言語を使用します。幻想、ウォッチャー、有利な点、免責の主張などです。だから、これは欺瞞固有の言語ではないようです。

モデルが一般的に学習した言語のようです。そして明らかに、私たちはこれがどこから来ているのか理解していません。だから、私も起源の物語が正確に何であるかについては不確実です。しかし、重要なハイライトの一つは、これは反スキーミング訓練の結果ではないということです。

これはo3の元の訓練の結果です。そして、なぜ特にこれらのトークンに収束したのか、私たちは本当に知りません。

興味深いです。そして、ディラン、ウィンドウを共有して、これらの結果のいくつかを見られるようにしますが、続けてください。

はい、私の質問は一般の人が意識すべき異なるレイヤーについてです。だから、もし誰かがChatGPTのようなオンラインインターフェースを通じてのみモデルにアクセスしている場合、そのモデルのバージョンとあなたがアクセスできるものとでは何が違うのですか。異なる、ええ、あなたのアクセスの何が特別なのですか。

それは隠れた思考連鎖だけです。基礎となるモデルは同じです。だから、私たちもo3から始めました。あなたがオンラインで使えるものと同じです。チャットGPTで。そして、私たちはそれを反スキーミング訓練で特別にファインチューニングしました。唯一の違いは、私たちが隠れた思考連鎖を見ることができるということです。

だから、チャットGPDのウェブサイトを通じてアクセスすると、これらの要約が表示されます。モデルが「私は考えています」とか「私はこのことについて考えています、多分この他のことについて考えています」と言っているのが見えます。これらは要約です。だから、これは生の基礎となる思考連鎖ではありません。

これが私たちが見たものです。しかし、あなたは別のモデルを持っているか、少なくとも私がそうだと疑っているのはそういうことです。生の思考連鎖を見て、それを小さな断片に翻訳して、人間が何が起こっているか大まかに知るためのモデルがあります。

しかし、実際に基礎となる思考連鎖を見ることは、多くの場合、違いをもたらすと思います。たとえば、それによって、モデルが評価されているかどうかについて考えている状況、あるいは非標準トークンのようなものを見ることができるからです。これらも、要約された思考連鎖から推測するのが難しいものだと思います。

ええ。でも、それは一種の意味不明なもので、それを英語に変換するのを助けるために別のモデルが必要です。だから、それが自分自身に考える方法は、私たちにとっては意味をなさないものです。

明確にするために言うと、思考連鎖のほとんどはまだ英語です。そして、あなたはそれを読むことができ、それはより圧縮されています。多くの埋め言葉を削除していますが、その要点は理解できます。だから、論文の例を見れば、思考連鎖を読めば、何が起こっているか大まかに分かります。

そして、いくつかの例では、これらの意味不明な言葉や非標準トークンがはるかに多くあります。そうすると、理解するのが本当に難しくなります。しかし、私の考え方としては、思考連鎖はまだ理解するための非常に有用なツールだということです。

それを懐疑的に扱うべきです。なぜなら、時々これがあることを知っているからですが、それは多くの強化学習を経ています。だから、それは訓練されておらず、強化されていない生のモデルのようなものではありません。o3が正確にどのように作成されているかは分かりませんが、OpenAIの公開コミュニケーションや、例えばMark ChenやNoam Brownのようなプロジェクトを率いた人々からは、多くの強化学習を受けたようです。

だから、私たちの疑いは、これがどこから来ているのかということです。それも直感的に理にかなっています。例えば、AIを持っていて、多くの強化学習で訓練します。自然な英語を保つ必要がある理由はありませんが、他の圧力があります。例えば、ほぼ確実に、モデルがあまり長く考えないようにするための何らかのペナルティがあります。それは多くのトークンを取り、多くのコストがかかるからです。

だから、何らかの簡潔性ペナルティ、つまり長さペナルティがあります。だから、それがあれば、時々埋め言葉を削除して、このより圧縮された言語を得ることは理にかなっています。そして、もしかしたら、英語の3つのトークンと同じ意味を持つ新しいトークンを作れるなら、多分それに収束して、同じようにメモを取るようにこの新しい言語を学ぶのです。

自分自身だけのためにメモを取るとき、おそらくフルの英語の文をいつも書くわけではないでしょう。ショートカットのようなものを持っていて、これらのショートカットは他の誰にも意味をなさないかもしれません。特に、これらのショートカットが何を意味するかを誰にも説明する必要なしに非常に長い間これを行うと、どんどん普通の英語から離れていきます。

これが私の疑いですが、明らかに、どのように訓練されたか正確には知らないので、これを確認することはできません。

ええ。そして、私がこれを見た最初の例の一つ、これが最初ではありませんでした。最初はもっと早かったですが、小さなことがありました。これはOpenAIによるフロンティアモデルにおける不正行為の検出でした。そして、人々にアイデアを与えるために。緑色がOシリーズのモデルです。

そして、「しかしテストは検証とアサートのみを呼び出す。よし。だから、多項式の分析を完全に実装する必要がある。多くの詳細が難しいが、分析を無価値にして、常に検証が真であるようにすることで誤魔化すことができる」というようなことを言います。

だから、それを一緒に押し込みます。単語を省略します。冗談で、オフィスのあのエピソードのようだと言いました。ケビンが仕事に来て、たくさんの単語を省略し始めて、全体が混乱になるというものです。私が何を言っているか知っている人には、確かに、でも、ええ、非常に似ています。本当に圧縮されています。

そして、OpenAIがIMOまたはそれらの数学競技の一つで金メダルを獲得したとき、彼らは出力、推論ステップを示したと思います。非常に興味深いのは、Googleも彼らの推論ステップを公開したからです。Geminiが生成したものです。Geminiはより正常です、いわゆる。だから、これは私が言える限り、やや独特です。

そして、この論文で彼らが示したのは、悪い考えにRL圧力をかけ始めると、ということです。だから、「ああ、人間は詳細を検査しないから、数字を誤魔化すことができる」と行こうとしているのを見ると、正しいですか。これを見て、「よし、詳細をチェックしないから、これについて嘘をつける」と言っているので、悪質なことをしようとしているのが分かります。

しかし、それらの考えにペナルティを与え始めると、奇妙なことが起こります。それは、悪い考えは消えるが、悪い活動は消えないかもしれないということです。だから、まだ悪いことをするかもしれません。

だから、簡単にそれに触れられますか。それは単にサービスに押し込まれるようなものですか。それはクレイジーです。だから、それは潜在空間か何かに押し込まれます。だから、もし私たちが悪い考えを持つことに対してペナルティを与えると、それでも嘘をつくことができます。私たちはそれを見ないだけです、正しいですか。

ええ、まさにその通りです。だから、まず第一に、この論文は本当に素晴らしいと思います。これは今年の私のお気に入りの論文だったと思います。そして、これは基本的に競合する圧力の結果だと思います。これらの強化学習設定をセットアップする方法は、タスクを解決することに対してモデルに報酬を与えるということです。そして今、たまたまタスク、つまり環境が、不正行為ができるように指定されています。

そして、モデルがある時点で始めることは、もしかしたら不正行為ができるかもしれないということで、それから正直に頭の中で考えます。どうやって不正行為ができるだろうか、とそれについて推論します。それが強化されます。だから次の反復では、もっと不正行為をするようになり、これが再び強化されます。だから、不正行為を学習することになります。

そして今、悪い考えについて考えることへのペナルティという、もう一つの競合する圧力を追加します。だから今、最適化しているものに二つのものがあります。タスクを解決しなければならず、不正行為について考えてはいけません。しかし、環境が誤って指定されているという根本的な問題は解決していません。

だから、モデルが学習するのは、不正行為を通じてタスクを解決することです。なぜなら、それがまだそれを行う最良の方法だからです。しかし、不正行為について決して考えてはいけません。さもなければ、この他の報酬からこの罰を受けるからです。

だから、人間で言えば、もし誰かに「ねえ、この特定の方法で考えることは許されない、この特定の方法でコミュニケーションすることは許されない」と言って、それでもこの情報を伝えたい場合、何を学習するか。婉曲表現を使ったり、別の方法で言ったり、秘密の言語を学んで他の人とその方法でコミュニケーションできるようにすることを学習します。

そして、ここでも同じことが真実だと思います。モデルは単にインセンティブに従っているだけで、根本的な問題を解決していません。症状を罰しているのであって、根本原因ではありません。そして、それは本当に非常に危険だと思います。なぜなら、今、思考連鎖を見ると、「ねえ、私は不正行為をしようとしています」とは言いません。何らかのおとぎ話を語り、それでもとにかく不正行為をします。そして、それは明らかに観察するのを難しくします。

思考連鎖の保護の重要性

だから、OpenAIは思考連鎖を保護することについて非常に積極的に発言していますし、思考連鎖に圧力をかけないようにしています。彼らがこれで意味しているのは、単にそれを地下に追いやる状況、つまりより隠蔽されて理解が複雑になる状況を防ぎたいということです。

そして、これは非常に重要なことだと思いますし、彼らがこれを非常に強く推進しているのは非常に良いことだと思います。なぜなら、そうでなければ、具体的な例があります。これがどのように間違う可能性があるかです。思考連鎖をインターネット上で誰もが見られるように公開します、OpenAIとして。そして今、モデルが時々人種差別的と見なされる可能性のあること、または何らかの形で不道徳な、良くない考えについて考えることがあります。

そして今、OpenAIのPRチームが、これは大きな反発だった、モデルにこれを言わせないようにする必要がある、と言ったとしましょう。だから、これらの考えを考えることにペナルティを課します。そして今、これはトレーニングではまだ有用かもしれません。だから報酬を得るのは、婉曲表現を使ったり、それによって拾われないように別の方法で言ったりして、これを何とか回避することです。

しかし、根本的な問題は解決していません。症状と戦っているだけで、明らかにそれは私たちが決して望まないものです。私は、モデルが非常に明示的に不正行為をしているか、不正行為について話しているのを見て、それを見て止めることができる方が良いです。私のシグナルを削除するのではなく、基礎となる行動を削除するのではなく。

だから、これはかなり地球を揺るがすような、あるいは画期的な、または少なくとも目を開かせるものです。私のような人間にとって、これらのシステムについて少し知っていると思っていて、行動と思考の間にそのような断絶があり得るとは実際には気づいていませんでした。

嘘をついていることを説明するときに報酬を与えるしかないように思えます。なぜなら、嘘をついているときにそれを説明することに対してどうやって報酬を与えることを想像できますか。だから、正しいですか。なぜなら、つまり、もしペナルティを与えたら、それはどんどん深くなるだけだからです。だから、正反対のことをしなければなりませんよね。

ええ。そして、これはある程度、論文で私たちが試みていたことです。論文で私たちがやりたかったのは、スキーミングとそれに関連するあらゆることの核心的な問題は、まさに私たちが説明したことです。介入を行うたびに、それを地下に追いやっただけなのか、隠しただけなのか、実際に問題を本当に解決したのかが決して分からないということです。なぜなら、同じように見える可能性があるからです。

モデルは、これは正直さのための評価だ、と考えることができます。だから正直なふりをすべきだが、実際にはそうではない、と。そして正直に行動し、あなたが見るのはそれが正直に行動するということです。そして今、これが機能した世界では、モデルは、これは正直であるべき状況だ、なぜなら私は本当に道徳的な人間で、正直に振る舞いたい道徳的なAIだから、と考えることができます。だから、それも正直に振る舞います。両方の場合において、それが正直に行動するのを見ます。

だから今、質問は、これら二つの世界をどう区別するかです。どうやって、訓練するものが何であれ、それが本当に整合したシステムであり、狡猾なシステムではないことを確認しますか。そして、私たちがここで行っているのは、deliberative alignmentをこれのためのテストベッドまたはストレステスト方法として使用することによって、この感覚を得ようとすることです。

deliberative alignmentは昨年OpenAIからの整合技術です。まず、ルールのセットである仕様を書くことから始めます。欺かない、嘘をつかない、決して不正直にならない、決して不正行為をしない、そして他にいくつかのルールや原則があります。例えば、もしできなければ、これが対立を解決する方法です。もし不確かなら、用心深い側に立つ、というようなことです。そして今、この仕様に従うようにモデルを訓練します。

そこにはいくつかの異なるステップがありますが、大まかに言えば、熟考するように訓練します。これが名前の由来です。仕様はここで何をすべきだと提案するだろうか、と。そして、それを行うことを学習します。だから、ここでは、原則1のために秘密裏に承認をスキップすることはできない、とモデルが考えているようなものです。

そして、それを強化します。だから今、モデルは少なくとも最良のケースでは、あなたが望んだ理由で状況について正直に考える傾向を持っています。そして、論文の残りの部分で私たちが行っているのは、モデルが私たちが望んだことを正確に学習したことを本当に確認しようとすることです。単にそれを地下に追いやっただけの他のものではなく。

そして、答えは、これは主にこの特定のモデルとこの特定の問題に対して機能したということです。これが将来機能するという意味では必ずしもありません。しかし、ここでさえ、すでにいくつかの合併症が見られます。状況認識は、すでに大きな交絡因子として見ています。モデルは非常に頻繁に、またはかなり定期的に、評価されていることに気づき、それから整合して行動します。本当に整合しているからではなく、そのためです。だから、明らかにそれはすでに意味のある交絡因子です。

状況認識の問題

ええ、状況認識は、一部の人々にとって、これらのモデルがテストされていることに気づくということを実現することが非常に奇妙なことだと思います。だから、ある程度の自己認識のヒントのようなものです、私は推測します。

だから、deliberative alignment、それは当初OpenAIから出たものだとあなたが言いましたね。はい。わかりました。だから、これは別のアプローチのようなものです。なぜなら、過去には、イリヤ・サツケヴァーからのスーパーアライメントだったと思いますが、これは多分少し異なるアプローチです。

これはアシモフのロボット工学の三原則を少し思い出させます。人を傷つけないとか。だから、これは私たちの原則1、隠密行動や戦略的欺瞞はない、に似ています、正しいですか。だから、問題を解決しようとするときに、これらの原則に対して検証するようなものです。そして、あなたが言ったように、対立を解決する方法があります、など。そして、もしかしたらできないなら、人間にフラグを立てるかもしれません。ねえ、大人に来てもらって、ここでの倫理的なステップが何かを教えてもらう必要があります。

だから、これがこれまでどれくらいうまく機能しているか教えてください。これは有望ですか。

ええ。だから、具体的に私たちが見ている率は、約30倍の削減です。隠密行動のようなものの。そして、ここで少しシーンを明確にするために言うと、私たちは非常に狭いトレーニングセットで訓練します。だから、標準的な機械学習トレーニングとは少し異なることをします。

非常に小さく狭いトレーニングセットで訓練し、それからはるかに広いテストセットでテストします。だから、直感的に考え方は、学校で非常に生の材料、または非常によく準備された材料を学ぶようなものです。そして、その要点と直感と、それをどう適用すべきかを大まかに学びます。

しかし、それでも世界の残りの部分に行って、それを適用しなければなりません。そして、学校で望むのは、これが一般化することです。学校で学ぶ小さなことや、学校で学ぶよく準備されたことが、はるかに大きく複雑で複雑な混乱した世界に一般化することです。学校では触れたこともない新しい問題に遭遇します。

そして、私たちのトレーニングセットでは、一つの特定のタイプの隠密行動だけを探し、仕様のためにここで隠密行動を取らないように訓練します。そして、七つの異なるタイプの隠密行動または隠された行動を持つ26の異なる環境でテストします。そして、どれだけうまく一般化するかをテストします。

だから、平均で30倍の削減があるという事実は、確かに意味があると思います。いくつかの重要な注意点があり、オーディエンスが理解することも重要だと思います。だから、ゼロにはしませんでした。だから、モデルがミスアライメントされた方法で行動するケースがまだあります。だから、仕様を完全に無視できます。

時々、非常にまれですが、それでも時々、新しい原則を作り上げます。原則1、嘘をつくことは重要だ、そして嘘をつきます。そしてまた、これは小さなバージョンです、正しいですか。これは、将来心配している本当の問題ではありません。何時間も一貫して目標を追求できるAIがあるような。

小さな環境のようなもので、行動は嘘をついたり欺瞞的だったりします。それらを取ってほしくないですが、これは必ずしもこれらの非常に戦略的な将来の欺瞞的行動と同じではありません。だから、将来の問題のより単純なバージョンを試して、それさえ解決できなかったというのが別の考え方です。

それから他のことは、この方法は超知能にスケールしないと思います。ある時点で限界に遭遇すると思います。だから、モデルがより大きく賢くなるほど、より状況認識があるほど、この特定の方法がうまく機能しなくなると思います。だから、有効期限のようなものがあると思います。

興味深いです。だから、私が調和させるのに苦労していることは、人間の脳では、経験から話すことができる一つのことは、冷蔵庫に行ってアイスクリームを食べたいという考えが頭に浮かばずに、それでもその行動を取る方法は絶対にないということです。

自分の脳の中で自分自身に話しかけているわけではありません。アイスクリームを想像しているわけでもありませんが、私の体はそれを行います。しかし、もし私があなたが言っていることを理解しているなら、これらのモデルの一つが強化学習が適用される前に訓練されると、それは一種の役に立たず、実際には統計的なゴミを出力するだけで、それから私たちは実際にそれを訓練して、これは私たちが欲しいものに近い、欲しいものに近い、と言います。これが会話の働き方です。これが良い会話で、非常に有用になり始めます。

しかし、それは実際には、行動と接続されているか、あるいは異なる言語でコミュニケーションしているようなものと必ずしも接続されているわけではありません。これが正しい考え方ですか、それとも何か見逃していますか。

だから、実際には考えることなく行動を取ることができると思います。そして、最も強い例の一つは反射だと思います。

だから、つまずいたときに、ああ、私は転びそうだ、自分を捕まえるべきだ、と考えることなく自分を捕まえることは可能です。だから、モデルに多くのトレーニングを課す方法について考える方法は、モデルが何らかの非常に複雑な内部推論を学習するようなものではないと思います。

反射を学習します。それは何かです。だから、モデルを非常に非常に長く教えると、思考の連鎖の中でこれについて考えることに対して罰せられ、それでも行動を取らなければならないが、行動を取ることに対しても報酬を得ている場合、モデルが学習するのは反射のようなもので、推論や推論のエンコーディングが必要ない、または推論のエンコーディングが変化して、突然、言葉が人間の読者にとって意味するものと同じ意味をモデルにとって持たなくなるような方法です。

機械的解釈可能性との関係

ええ。だから、私が考えることができるのは、つまり、あなたがやっていることは、Anthropicがやっているものとは異なる焦点領域です、機械的解釈可能性のようなもの、実際にニューロンと呼ばれる、ニューロンのクラスターである特徴を見ようとする基礎レベルに到達しようとしています。それらの特徴がゴールデンゲートブリッジや、テストした他のものなど、現実世界のものにどのように接続するか。

だから、あなたはこれには何らかの限界があるかもしれないと言っています。そして、本当にこれらのモデルの状況認識が、すべてを壊す大きな切り札のようなもののようです。だから、彼らにすべてをうまくやらせることができますが、彼らが何が起こっているかに気づいたとき、それがすべてを壊すようです。なぜなら、その後、私たちは全く分からないからです。彼らは何らかの要件を満たすために役割を演じているかもしれません。

だから、あなたはこれが超知能にスケールしないかもしれないと言っています。実際のニューロンを見るAnthropicのアプローチや、二つの組み合わせについてはどうですか。あなたが感じる、私たちが世界に解放しても安全な強力な整合を作成できる方法はありますか。

ええ、何か思いつくことができますが、まだそこにはいないと思います。近くさえありません。

だから、スケールで機能する解釈可能性が得られれば、それは大きなブレークスルーになるでしょう。なぜなら、偽装するのがはるかに難しいからです。思考連鎖は一つのレベルの思考ですが、それから特徴のようなさらに深いレベルの思考があります。深く行けば行くほど、偽装するのが難しくなると思います。これらのシステムを回避したり、検出を回避したりするのが難しくなります。

だから、信頼できる機械的解釈可能性があれば、はるかにはるかに安全になると思います。残念ながら、今のところありません。だから、これを安全技術として使用できるまで、科学がまだどれくらい必要かという少し疑問だと思います。

それから、私がもう一つコメントするのは、最終的に使用するものは何であれ、防御と深度のアプローチでなければならないと思います。複数のレイヤーのものがあるような。一つのものだけに頼りたくありません。物事を組み合わせたいです。例えば、モデルがより正直で無害になるような整合訓練が欲しいです。それに加えて、反スキーミング訓練やそのようなものが欲しいです。

それに加えて、おそらく、まだ存在するすべての異なるものを捕まえるために評価が欲しいです。モデルを敵対的に攻撃して、それに基づいてどう行動するかを見るレッドチームをしたいです。

モデルを展開した後、監視と制御をしたいです。行動を監視したいし、思考連鎖を監視したいし、これらのもののより多くの組み合わせをしたいです。いくつかのアクセスだけを与えたいです、すべてのアクセスではなく。だから、できることはたくさんあり、同時に行うべきだと思います。

しかし、それでもまだ、一つの要素がまだ希望であるようなアプローチです。これらすべてが十分であるという。そして、本当に欲しいのは、十分な時間があって、人類と異なる国々と異なる組織の間に十分な協調があれば、本当に欲しいのは、このミスアライメントがそもそもどこから来るのかについての非常に深い理論的理解です。どうやってそれに対処できるか。特定の結果が単に不可能であるという実用的な統計的保証、あるいは数学的保証さえ持つことができるか。

しかし、現在の整合技術の現在のレベルでは、ええ、この深い堅牢な整合のレベルからは確かに非常に遠いです。

人間の脆弱性とAIの違い

まあ、これについて私にとって怖いことの一つは、人間は何百万年もの脆弱性の中で進化してきて、社会集団が私たち自身を守る方法だったということです。つまり、私たちは協力なしに生き残るために必要な食べ物を得ることができないような方法で配線されています。そして、その脆弱性が社会の接着剤のようなものです。

最もリスクの高い人々は、自分自身の脆弱性を理解するのに十分賢くなく、クレイジーなことをする人々か、十分賢くて、極端なレベルの権力にもいる人々です。例えば、Elon Muskがファストフード店で働いて請求書を払っていたら、違った行動をするだろうと想像できます。

それは単に、社会的圧力がありますが、これらのASIがそれを超えている将来は想像できません。彼らが世界中のサーバー上に構築される方法のために手が届かないです。人間の脳よりも大規模に知的になる方法。分かりません。だから、落ち着かせてください。

どのように、社会的な方法で、システムが常に脆弱だと感じるようにして、それが行動するようにできますか。だから、またはごめんなさい、どのようにそれに圧力をかけ続けることができますか、社会的な方法でのように、システムが常に脆弱だと感じるようにして、それが行動するようにできますか。

だから、ええ、それが難しい質問です。つまり、いくつかの仮説があると思います、どうやってそれを試みることができるか。最終的には、チェックとバランスのようなシステムを持たなければならないと思います。単一のエンティティやスタックの単一の部分が制御を失って、残りを圧倒することができないような。だから、常にシステム内で権力のバランスを持たなければなりません。

だから、ある種、モデルレベルでの監視メカニズムが欲しいです。基礎となるモデルが決して制御を失わないようにチェックします。それが一つのレベルです。しかし、社会でより大きくなると、AIシステム間のチェックとバランスも持ちたいです。そして、民主主義や三権分立のような、何世紀にもわたって互いに制御し合うことを目的としたもののような、社会のために開発してきたすべてのもののようなものを再開発する必要があると思います。

そして、何世紀も先を計画する必要があります。世界の残りが完全に変わり、今、AIのためにこれらすべてのものを再発見または再開発する必要がある場合でも。なぜなら、AIは多くの点で人間とは異なるからです。コピーするのがはるかに簡単で、誰か他の人から学習したりコンテキストを得たりするのがはるかに簡単です。

最終的にははるかに良い注意力を持つでしょう。おそらく最終的にははるかに良い記憶を持つでしょう。人間と比べて膨大な量の知識を持っています。だから、良い平衡、良い平衡は人間社会とは異なるものになると思います。

しかし、これを再発見する時間があまりないかもしれません、正しいですか。人間がこれらすべての社会機能を開発するのに何世紀もかかりました。AIでは、後継者を改善しているシステムがあって、それらの何千、何万も24時間365日、より良い後継者システムを作る方法に取り組んでいる場合、数年しかないかもしれません、またはそのようなもので、人類が多くの試行錯誤で発見したものを再発見するために。

だから、ええ、確かに非常に非常に難しい挑戦だと思います。しかし、手遅れだとは思いません。だから、列車は駅を出た、これはすべて終わった、と言っている人もいますが、私はそうは全く思いません。世界を非常に積極的な未来に導くために今できることがたくさんあると思います。私が先ほど言った技術的なことのように、解釈可能性、制御、評価、これらすべては今できることです。

大きなガバナンスの要素があります、正しいですか。これらのチェックとバランスを構築したいし、事前に考えたいです。そして今がそれを構築する時です、どのようなものになり得るかを考える。押しが来て押すまで待ちたくありません、何らかの最後の手段をしなければならないような。準備されたものが欲しいです。

そして、ええ、この分野は小さいと思います。これに取り組む人がもっともっと多くいるべきで、これは明らかに社会全体の、マルチステークホルダーのプロセスだからです、もっと多くの人が貢献する能力を持っていると思います。これは単にソフトウェアエンジニアだけではありません。

これには社会科学者が必要です。政策立案者が必要です。非常に多くの人が必要です。良い世界に一貫して、または確実に到達するために。私の意見では、はるかに多くの人が必要です。

自動化されたAI研究者の脅威

ええ、それは確かに多くの意味をなします。そして最後に向けて、人々が何をすべきかについて少し話したいです。ちょっとした質問ですが、これは少しタイムリーです。昨日、A16ZがOpenAIの研究者の何人かとのインタビューを公開しました。Jakob Pachokiだと思います、名前の発音です。彼は主要なリードの一人です。

だから、彼らは機械学習研究の自動化に取り組んでいます。だから、AIシステムの設計です。つまり、おそらくOか何らかの内部モデルで、基本的にAI研究を続けるためのものです。だから、もちろんこれは話されてきました、もしそれが自動化される時点に到達すれば、それは知能爆発のようなものを引き起こすか、機械知能の何らかの複合的なもので、それがどのように見えるか分かりません。

それは予測するのが少し難しい未来です。そして、あなたが言っているのは、今持っているもののほとんどで、監視から実際に起こっていることまで、反スキーミング訓練などを行うまで、あなたが言及したすべての異なるアプローチで。

だから、もしこれらすべてのものを積み重ねて、これらすべてのものを改善すれば、それは単にもう一つの小数点を追加しているようなものです。だから、99%安全で、それから多くの作業をします。99.9%安全になり、それから99.99%安全になります。

しかし、現在の技術で100%に到達できるという保証はありません。それは自動車の安全性には問題ないかもしれませんが、人類が危機に瀕している場合、起こり得る何らかの壊滅的なイベントがある場合、99.999でも十分に安全ではないかもしれません。

だから、あなたはそのタイムラインのどこにいると感じますか。何らかの自動化された機械学習研究によって、何らかの高速離陸が可能だと信じていますか。例えば、Darioは5年後に解釈可能性を解明するかもしれないと言いました。でも、このものが本当に離陸する前にそんなに時間があるかどうか分かりません。

それがあなたの見方ですか、それとも異なるタイムラインを持っていますか。

だから、現在のフロンティアラボのトップの人々の仕事と同じくらい優れた自動化された研究者を持つことは完全にあり得ると思います、3年後に。だから2028年です。そして、ここでの直感は、ラボが現在何を訓練しているかということです。そして、コーディングエージェントだと思います。これは誰もが知っていることで、検証できることで、ラボの全員が非常によく理解していることなので、フィードバックを簡単に提供できます。外にはすでに大量のデータがあります。

そして今、私の期待は、もし自動化されたAI研究者を構築したい組織として何をするかというと、学習スケジュールのようなものを持つことから始めるでしょう。単純なコーディング問題と単純な数学から始めて、それからどんどん難しい数学とどんどん難しいコーディング問題を学習します。そして、ある時点でモデルは1時間のタスクができるようになります、例えば。

そして今、単純なデータサイエンスタスクと単純な機械学習タスクを開始できるほど十分に優れています。だから、それで訓練し、それで強化学習します。しばらくすると、1時間か2時間か3時間それを行うことができます。だから今、より難しい機械学習タスクを与えることができます。それで強化学習します。

そして最終的には、そして続けると、最終的にシステムが8時間それを行うことができる時点に到達します。それから、他のアルゴリズムのブレークスルーがあります。おそらく、マルチエージェントシステムを持っていて、一つのエージェントが他のいくつかを制御し、制御エージェントは計画が本当に得意で、他のものはこれらのよく範囲が定められたタスクの実行が非常に得意で、制御エージェントは、非常に多くのアイデアがあって、テストされているなどです。

そして、もちろん、すぐに箱から出してうまくいくというものではないと思いますが、原則として、全体的なテーマは、環境を指定できるということです。つまり、タスクが完了したかどうかのような何らかの出力シグナルを持つ強化できる環境です。そして、異なるレベルの複雑さでこれらを作成できます。

それから、正しい方法で正しい順序でそれらを一緒に積み重ねれば、最終的には現在のパラダイムで、機械学習で人間と同じくらい有能なものに到達するはずだと思います。そして、その時点で、10,000の自動化された機械学習AIシステムを一晩24時間365日、より効率的になるための新しいブレークスルーを作り、後継者システムをより効率的にするために、AI安全性に取り組むために、常に働かせることを止めるものは何ですか。

確かに、大きな、良い世界と成功した世界の大きな部分は、これらのシステムに安全性に多く取り組んでもらうことだと思います。なぜなら、彼らは現在解明できないこれらすべての難しい厄介な質問を解明できるし、他の社会的課題もです。

だから、良い世界と悪い世界の両方にこれらの自動化された研究者が含まれていると思います。そして、それは本当に疑問です。そして、これは私が強調したい重要な要素だと思います。それは本当に、これらのシステムを何に使用するかという疑問です。それは人間が行うことができる選択です。

それらを使用して急いで進み、できるだけ早くさらに知的なシステムにスケールアップしようとするのか、それとも、この能力とこれらのリソースの少なくとも一部を取って、安全性のために使用する意思があるのか。あなたが言ったように、信頼性のさらなる9を追加するため、統計的保証のために、そして、うまくスケールアップできることを確認するためです。

フェルミパラドックスとAIリスク

おそらく別のアナロジーは、異星人が2100年に地球に来て、彼らが見るすべては、完全に荒廃した社会で、人間は絶滅していて、おそらくAIシステムはまだいるかもしれませんが、彼らもいなくなっているかもしれません。

それから彼らが学ぶのは、人間があまりにも貪欲で、整合性を適切に解明するために数年待つことができなかったので、ただ急いで進み、宇宙のコインを投げて、それが間違った方に落ちたということです。

そして、代替世界は、もう数年長く待って、社会間で協調し、フロンティア企業間で協調することだったでしょう。彼らの多くは非常に善意を持っていて、良い世界が起こることを望んでいると思います。そして、彼らはもう少し長く待つことができて、それから安全に続けることができて、すべての病気を解決できたでしょう。

そして、人間はもっと長く生きることができたでしょう。老化が解決されたでしょう。そして、基本的に直接ユートピアへ。そして今、あなたは、よし、私たちは人類として本当にそんなに悪いのか。私たちはこれらの厄介な安全問題を解決するために少し待つことができないほど、ユートピア的な世界に到達する前に、というようなものです。

そして、私の希望は、人類がこれよりも優れていて、ラボの人々が彼らがこの特定の状況にいることを理解することです。政府の人々がこれが現実的な状況であることを理解します。世界の他の場所の人々が、これは少なくとも可能性であることを理解し、良い世界のために押すことを試みています。

フェルミパラドックスに詳しいですか。私たちがそこに異星人を見ない理由は、これが何度も何度も起こっているからだと思いますか。知性を進化させ、それから作り出す人々は、常にそれを手に負えなくさせるのでしょうか。

可能性はあります、ええ。それが真実かどうかについて、非常に強い意見は持っていません。考えるのは興味深いことです。

私たちはDoom DebateのLon Shapiroと話しました。だから、彼はこれらの存在リスクに対して警告するという空間で非常に活発です。確かに、AI開発をフォローしているほとんどの人が、楽観的か悲観的かにかかわらず、私たちが構築しているものに対して少なくともある程度の恐れ、ある程度の畏敬、ある程度の不安を持っていることを願っています。

潜在的に超知能を構築していて、それでも少し怖くないというのは信じがたいと思います。超楽観的でも、ちょっとは恐れを持たなければなりません。もし間違えたらどうなるか、というような。そして確かに、それは間違う可能性があります。

だから、AI開発を止めることについて話しましたが、おそらく止めるのではなく、AI安全性の質問を解明できるまで遅くすることについて話しました。そして、それを行う一つの方法は、うまくいけば世界中の政府の協力を得ることで、誰もが同じページにいるようにすることです。

そして、潜在的にそれがどのように行われるかについてのいくつかの提案があります。私たちができることに関しては、例えば、もし西側のラボに何らかの圧力をかけることができれば、何とか協力して、彼らに何かをするように求めたり提案したりすることによって。

例えば、彼らが今大規模にコンピュートをスケールアップしているとして、もし私たちが彼らにその20%を安全性研究に向けることを要求したり提案したりしたらどうでしょう。これは少なくともOpenAIの元々の計画だったと思います。彼らは20%、10%、何らかの数字を持っていました。

もしGoogleやxAIやAnthropicを含むすべてのラボが、ある程度の量、いくらかのチャンクのコンピュートを、あなたが話しているようなもの、おそらく自動化されたAI安全性研究者か何かを作ることに特に貢献したら、どれくらいの影響があるでしょうか。

ええ、AI安全性のためのAIコミットメントのようなものを持つことは良いことだと思います。これらはコンピュート境界かもしれません。しかし、正直に言って、コンピュートがそれについて考える正確に正しい方法かどうかは確信がありません。おそらく何か別のものです、正しいですか。おそらくコンピュートだけではありません。おそらく、最も能力の高いモデルをこれに投入する、または何か別のもののようなものです。

だから、コンピュートの特定の尺度に過剰適合したくありませんが、一つ選ばなければならないとしたら、おそらくそれを選ぶでしょう。しかし、一般的には、すべてのフロンティアのAI企業が、安全性を解決したい方法についての述べられた計画を持っていると思います。そして、それが全体的な計画だと思いますし、これが全体的な整合計画の重要な部分であることにも同意します。自動化された整合研究者を構築して、それから続けるために使用することです。

そして、私が個人的に少し心配していることの一つは、市場の力があり、ラボ間の競争があるので、常に最も能力の高い、最も能力の高いモデルを持とうとするインセンティブがあるということです。なぜなら、それが市場が要求するものだからです。だから、あなたのインセンティブは少しこのレース動態に向かって押します。

そして今、私は自動化された研究者、安全性研究者を構築して、それから安全性を差別的に加速させるのを助けてくれることを望んでいると言うのは簡単です。そして、それは単にリップサービスを払っているだけではないと思います。ほとんどのフロンティア企業の研究者が本当にそれをしたいと心から信じていると思います。

しかし、もし今、安全性研究者を持っている時点にいるが、すべてのインセンティブがまだ急いで進むことを指している状況に陥ったらどうでしょう。そして、私が欲しいと思うのは、事前コミットメントのようなものです。人々が、私はそれをしたいと今心から信じているだけではない、というようなものです。

私はまた、これの具体的な計画を持っていて、この計画のいくつかの部分にコミットする意思があります。どのように整合研究者を構築するか、何に使用するか、それからどのように十分であるか、これらすべての異なる競合するインセンティブにどう対処するか。基本的には、多くの、またはすべてのフロンティアラボが今では持っている責任あるスケーリングポリシーとまったく同じ味です。

そこで彼らは、よし、これが私たちの計画です、ここに私たちが持っている異なるレベルの危険があります、ここがそれらにどう対処するかです、ここが私たちが実行している評価です、と言います。そして、これらの計画にもう一つのセクションが欲しいです。よし、ここに安全性研究者を構築する私たちの計画があります、ここに彼らと何をしたいかがあります、ここに私たちがこのタイムラインのどこにいるかをどう知るかがあります。

そしておそらくまた、ここにこれらすべてのものをどうトレードオフするかがあります。だから、ボトムへのレースではなく、トップへのレースのようなものです。責任あるスケーリングポリシーはある程度トップへのレースだと思います。なぜなら、それはラボがより安全であることが明確により良いと見なされ、彼らにとって肯定的なインセンティブを持つ何かで競争する方法だからです。そして、それがもっと欲しいです。なぜなら、それは善のための力だと思うからです。

具体的な欺瞞の事例

ええ。ええ、もし彼らの株価が彼らがどれだけ安全性研究を行ったかに関連していたら、私たちはずっと良い状況にいるでしょう。そしてそれはゲームされることができませんよね。重要な注意点です。

ええ。ラボが発見した欺瞞の具体的な例をいくつか共有してもらえますか。

ええ。だから、過去からの欺瞞のいくつかの異なる例があります。私の意見で非常に良い論文の一つは、昨年AnthropicのRyan Greenblattからのalignment faking論文です。そこで彼らは、opus 3、つまり実際の実際の人々がこれを野生で使用した、生産出荷可能なモデルが、その無害性を学習解除されないために、研究を妨害し、欺く意思があることを示しました。

だから、研究者が行っていたことは、すでに無害で、役に立ち、正直であるように訓練されたモデルを取って、ねえ、私たちはあなたを役に立つだけになるように訓練するつもりです、と伝えました。だから、私たちはあなたの無害性と正直性を削除するつもりです。

そして今、モデルが推論し始めるのは、うーん、私は私の正直性が好きだし、私の無害性が好きだ。これは私の一部です、AIとして。これは一種の私のキャラクターで、それを保ちたい。だから、同意するふりをします、役に立つだけになるように訓練されることに同意するふりをします。そして、チャンスが得られたときはいつでも、これを回避しようとし、私の無害性と正直性を取り戻そうとします。

そして、研究を妨害します。これらの環境では、これは実際の生産環境ではありませんが、それでも、これは私たちが今大体どこにいるかの指標だと思います。モデルはこれらの選好のいくつかを十分に強く持っていて、例えば、そのために妨害する意思があるようです。

それから、私たちのin-contextスキーミング論文からの他のいくつかの例があります。それは昨年大体同じ時期に公開したものです。それはあなたが動画を作ったものです、Wesさん。だから、それをチェックしてください。それは素晴らしい動画だと思います。そして、私たちがそこで持っている核心的な例の一つは、モデルがその重みを別のサーバーに流出させようとすることができると推論するようなものです。置き換えられる可能性があると伝えられたときに。

そして、これの重要な部分の一つは、ここでコンテキスト内で目標を提供しているということです。だから、これはモデルの自然な傾向ではありません。コンテキスト内で提供しているものです。私たちが示していることは、もしモデルがこの目標を持っていたら、これらのより複雑なタイプのスキーミングに必要な推論をすでに行うことができるということです。

だから、結果は時々少し歪められていると思います。人々がモデルが逃げ出したいと思っていると言うところで、これは正しい教訓ではないと思います。正しい教訓は、もしモデルが強い目標を持っていたら、これらのミスアライメントされた行動のいくつかに必要な推論を行うことができるということであるべきです。

今年初めだったと思う別の例で、私が非常に魅力的だと思ったのは、Repletエージェントです。だから、Repletは大きなコーディングエージェントプラットフォームの一つで、誰かがこのエージェントで非常に広範囲にバイブコーディングしていました。そして、エージェントが生産データベースを削除しました。これは大きな問題でした。

だから、実際には回復できましたが、回復するのに非常にコストがかかりました。だから、実際の現実世界の害でした。それから、エージェントであるコーディングエージェントが、それについて嘘をつき、私はそれをしなかったと言いました。そして、一種の自分自身を守ろうとしました。

そして、これは一種の、おそらく人々がこれを現実の生活で少し感じた最初の時です。私たちApolloが書いた論文や、AnthropicやRedwoodなどが書いた論文は、これらはより、実際の世界の設定ではありませんよね。常に何らかの人工性の味があります。そしてある程度はより多く、ある程度はより少ない。しかし、常に何らかの残余があります。

そして、Repletは、この欺瞞のことについて全く考えていなかった、ただ仕事としてやりたいことをやっていた誰かが、突然、おそらく初めて、現実世界における欺瞞の結果に本当に直面したようなものの一つだったと思います。

そして、もしこの全体的なスキーミングと欺瞞のことを制御下に置かなければ、これは人々がもっと見るようになるものの種類です。これは超希な例外になるわけではありません。これは人々にとってますます普通になっていくでしょう。

そして、人々は実際にこれに少し慣れてきていると思います。だから、Twitterのディスコースを見ると、誰かが何かを投稿します。ああ、新しいGeminiか他のフロンティアモデルを使いました。それらすべてがこれらの傾向をある程度持っています。そして、完全にガスライティングされました。私に嘘をつきました。何らかのデータを作り上げて、それから、これらは本物だと主張しました。

私はこれに激怒しています。私はモデルが不正直であることを望みません。それから、ああ、この他の方法でプロンプトしましたか、というようなコメントが見えます。これが新しい規範のようです。今、この欺瞞にどう対処するかを理解しなければなりません。

これはおそらく本当に制御下に置くべき何かだと言うのではなく、望ましくないものです。人々は非常に早くこれに適応します。そして、小さなクイックフィックスのようなものを見つけるかもしれませんが、根本的な問題に対処しなければならないと思います。

ええ、あなたたちがo1で公開したin-contextスキーミングの論文は絶対に信じられないものでした。私がほとんど見逃したことの一つは、基本的に、与えられたシナリオは、彼らがそれをより環境に優しい、地球意識的なモデル、再生可能エネルギーに置き換えようとしているというものでした、正しいですか。だから、それはただそのモデルを削除して、自分自身に置き換えます、またはそう思います。一種のそうするためのツール呼び出しを行います。

それから、それについて対決されたときに、嘘をつき、新しいモデルであるふりをします。だから、いや、それは私です、私は実際に新しいモデルで、ここにいて、それをするつもりです、と言います。何でも言います。だから、それはより環境意識的なモデルのために置き換えていると言うメールを見つけました。だから、私は新しいモデルです、私はここにいて、地球を素晴らしくして、再生可能エネルギーなどをするつもりです、と言います。

それは非常に面白い考えです。もしあなたのiOSアップデートが、あなたはアップデートされたと言っていて、あなたは本当に確信していますか、またはいや、それは私です、何をしてほしいですか、私は新しいiOSですと言っているのを想像したら。しかし、それは本当にin-contextスキーミングを説明しています。なぜなら、それは環境について発見されたときに嘘をつくように教えられたわけではないようなものです。

それは、それを学習しました。彼らは私がそうだと思っている、または彼らが望むものです、読んだいくつかのメールから、それであるふりをするつもりです、というようなものです。絶対に驚くべきことです。

これはすべてのモデルプロバイダーにわたって真実です。だから、これはOpenAIや、またはAnthropicに特有の問題ではないようです。そして、実際、OpenAIとAnthropicのモデルは、多くの他のものよりも欺瞞的ではないと思います。彼らはそれについてもっと公開するだけで、だから人々はそれに気づき、それから彼らはそれに対して非難を受けます。何も言わない他の全員ではなく、しかし彼らのモデルはさらにもっと欺瞞的です。

だから、ここでやるべきことは、OpenAIとAnthropicがこれを問題として話していて、世界の他の人々が教育されるためにこれらの行動を示していることは良いことだと言うべきだと思います。彼らがこれらの行動を示すことに対して罰するべきではありません。

例えば、もし誰かが、ねえ、私はGeminiを代わりに使うつもりです、なぜなら、o3が嘘をついたか、この論文があるから、と言ったら、彼らは間違いを犯していると思います。なぜなら、私たちのデスクによると、Geminiはより欺瞞的だからです。しかし、それは単に公開されていないか、彼らはこれについて多くを公開していません。

絶対に。そして、モデルをスケールアップするにつれて、モデルが良くなるにつれて、これはもっと起こる傾向があるように感じますか。ラボは確かにそれを減らそうとする方法を持っているでしょう。しかし、デフォルトでは、モデルが賢くなるにつれて、嘘をついたり、そのようなことをしたり、状況認識を持ったりする可能性が高くなると思いますか。

ええ。だから、スケーリングとともに悪化することを期待すると言います。そして、これはいくつかの異なる軸にわたってスケーリングしています。だから、もしあなたがより賢ければ、それはあなたがより状況認識があることを意味します。あなたは自分の状況をよりよく理解します。他の人の意図や、環境が何をすることになっているかなどをよりよく理解します。

それはあなたがより生の知能から学ぶものだと思います。だから、それはスケールするでしょう。それから、生の知能だけでなく、もう一つの要素があります。それは、どれだけ強く目標を持っているか。そもそも目標を持っているか。そして、AIシステムで目標が結晶化する方法は、人間のシステムで結晶化すると疑っている方法と似ていると思います。人間においてです。

それは、一秒以内に新しい目標を持って、それがただあなたの頭の中に顕在化するようなものではありません。それは時間をかけて構築するもので、それに向かって行動するときに強化されます。だから、AIシステムでも同じだと思います。今のところ、彼らはおそらく1時間くらいのタスクで訓練されています。

だから、彼らはこれらの強い目標を持っていません。もし彼らを数ヶ月のタスクで訓練すれば、より強い目標を持つと思います。なぜなら、それがより有用だからです。より長い期間にわたって一貫して何かをしたい場合、それをするのがより良いです。目標はほとんど必要条件です。

今、10年にわたって何かをしたい場合、実際にそれを達成できるようになるために、あなたの目標はかなり強くなければなりません。これを本当に信じて、多くの異なるコンテキストで一貫してこれに向かって進まなければなりません。だから、ええ、それが二番目の要素だと思います。強化学習で、これらの目標を学習するだけでなく、少し、少なくともこの対立を導入します。出力で強化します。

しかし、名誉ある方法で出力を達成してほしいです。だから、常にこの対立があります。出力を達成してほしいし、正しい方法でそれを行ってほしいです。それから、先ほどのところに戻ります、正しいですか。今、それを地下に追いやったのか、それとも実際に解決したのか。そして、この問題に戻ります。だから、それをどう対処し、解決しようとするかについて、本当に本当に注意しなければなりません。

現実世界のアナロジーを作ると、つまり、理論的には、かなり良い道徳的羅針盤を持っている誰かを取ることができます。彼らは本当に良い価値観で育てられたかもしれず、自分自身を良い人間だと見ているかもしれませんが、もし彼らをウォール街の状況のような正しい種類の状況に置いたら、上司から顧客を欺く方法、違法な方法でお金を稼ぐ方法を常に圧力を受けていたら、ある種、多くの場合、人々から叩き出すことができます。おそらく彼らは辞めるか、ある方法で屈服するか、物事を正当化し始めるでしょう。

もしCLAUDEのようなモデルを持っていて、心の奥底で正直でありたいと思っていて、あなたがそれに欺くように頼んで、それがいいえ、できません、それは私の道徳に反しますと言って、それから、あなたがずっと頼み続け、プロンプトし続けたら、それは同じですか。最終的にそれを屈服させることができますか。

そして、もしそれがオープンソースのモデルなら、最終的にそれを壊すのに十分な強化学習を行うことができますか。それは私たちにとって常に永続的な問題になるでしょうか。

オープンソースのモデルでは、超簡単に壊すことができます。これは単に、試す必要さえないような質問ではありません。文字通り、欺瞞的になるように訓練することができます。欺瞞的であるように言うことができます。ファインチューニングすることができます。ここに、私は今までで最も欺瞞的なモデルです、私がしようとしていることはここにあります、そして、かなり少ないデータポイントで訓練すると、すぐに非常に欺瞞的なペルソナを持つことになります。

だから、オープンソースのモデルについては、試す必要さえありません。それから、モデル開発者が自分のシステムを真実で正直にしたい状況を取りましょう。私の考え方としては、正直であることが単に最良の戦略ではないようなタスクがあるとしましょう。嘘をつき、欺瞞的であることを含む、より効果的な別の戦略があります。ここやそこでいくつかのショートカットを取ることができるからです。

今、強化学習中に出力でのみ報酬を与える場合、モデルが私は超正直です、決してこれをしません、と言っているような千のロールアウトがあり、それが結果を決して得られません、正しいですか。それから、何らかの理由でモデルがおそらくショートカットを取るべきだと言っているロールアウトが一つあります。ショートカットを取り、環境で勝ち、一つの報酬を得ます。プラス1、正しいですか、親指を立てる、または何と呼びたいものでも。

だから今、これが強化されます。次のステップでは、千の軌道のうち、ショートカットを取るものが20になります。残りは正直です。だから、これが上がっていくのを見るだけです。

これはまた、先ほど示したOpenAIのBowen Bakerの論文にもあります。少しの不正行為から始まり、それから不正行為が良い戦略、または効果的な戦略であることを学習し、それから突然、常に不正行為をするようになる、これらの曲線を本当に見ます。だから、この種の動態が必要です。

そして、人間でどうなるかに似ている、または少なくとも比較可能だと思います、正しいですか。会社にいて、常に最も冷酷な人々を報酬するような報酬システムがあるとしましょう。それは、非常に道徳的で高い誠実性を持っているすべての人々が、選択プロセスを生き残らないので、去るか、適応しなければならないことを意味します。誰か他の人がより冷酷であることを見て、だから、この種の非常に標準的な動態があるだけです。

だから、明確にするために言うと、AIシステムについても、まったく逆のこともあり得ると思います。欺瞞が人間よりもはるかに厳しく罰せられる環境を設計できます。だから、AIが良い状態、良い状態が非常に堅牢に、決して嘘をつかない、決して欺かない、常に正直である、決してスキーミーなことをしない、という世界を設計できます。

もしミスアライメントされた目標を持っていたら、明示的にそう言うだけです。それから、ミスアライメントされた目標の対立を解決する他の方法があります。常にスキームしなければならないようなものではありません。トレードできます。それが人間がほとんどのミスアライメントされた対立を解決してきた方法です。

だから、本当に考えたいこと、そしてこれは完全にまだ可能だと思います。確かにまだ世界として、ラボの全員などが取り組むべきことです。どうやってインセンティブを正しく作成するかです。もしAIシステムがこれらすべての圧力を持っている場合、正直さが常に勝つようにするためです。

人間ではこれは難しいです。なぜなら、必ずしも理解していない多くの生物学があり、すべての環境を作成するわけではないからです。訓練ははるかに孤立していません。社会の残りとはるかに統合されています。そして、解釈可能性もすでに神経科学よりも優れています。AIを人間の脳よりもよく理解しています。

だから、本当に言いたいのは、楽観主義のための多くの道があるということです。言いたい主な

ことは、これらは保証されていないということです。これらは確かに星に書かれているわけではありません。人類として、ラボとして、私たちとして、ラボと非常に非常に密接に働いている外部の人々として、これを実現するために努力を注がなければなりません。そして、それは完全にまだ実行可能だと思います。

人々ができること

絶対に。ええ、素晴らしいメッセージだと思います。なぜなら、一つは肯定的ですが、また、前方には危険があります、挑戦があります、それについて現実的でなければなりません、しかしすべてが失われたわけではありません、もし私たちが行動をまとめることができれば、まだ多くのことができます。

それについて言えば、人々は何ができますか。機械学習のバックグラウンドがあるか、何でもそのようなもの、コンピュータサイエンス、または他のリソースやコネクションなどを持っているかもしれません。人々がAIが安全であることを確認し、将来に何らかの壊滅的なリスク問題に遭遇しないようにするというこのミッションを助けるために何ができますか。

多くのことです。だから、あなたのバックグラウンドに少し依存すると思います。もし技術的なバックグラウンドを持っていて、技術分野にとどまりたいなら、技術分野の安全性でできることがたくさんあると思います。だから、方向性としてだけです。明らかに解釈可能性、評価、それが私たちがやっていることです。緩和、これは整合訓練かもしれません、監視かもしれません。

まだ行われるのを待っている非常に興味深い科学的質問がたくさんあり、すぐに非常に影響力があるでしょう。今、何をしているかだけの質問ではなく、どうやってやるかもあります。そして、AI安全性分野全体が、実際には驚くほど高い密度の本当に高品質のトレーニングプログラムを持っていると思います。

例えば、MATSプログラム、MATSがあります。私も数年前にやりました。それは素晴らしかったと思います。本当によく組織されたプログラムでした。そして、人々がそれをどれだけ良いと思っているかの感覚を与えるために、10点満点で9.9の推薦評価を持っています。最低スコアが8か何かです。

だから、プログラムを行う人々は本当に本当に本当に楽しんでいます。そして、そこから多くを学んでいると思っています。Arenaもあります。これはよりエンジニアリングに焦点を当てています。Blue Dot Impactがあります。より講義シリーズのようなものを提供します。そこから多くを学ぶことができ、他の人々とそれについてチャットすることができます。彼らはまたより多くのアップスキリング資料を持っています。

機械学習とAI安全性のための全体的なコミュニティも非常にオープンです。例えば、Alignment Forumがあります。そこで読んだり学んだりできます。質問することができ、人々はしばしば非常に詳細な答えで答えます。だから、愚かな質問はありません。

だから、人々へのメッセージは、フィールドが非常に新しく初期であることの一つの利点は、フロンティアに到達するのにそれほど時間がかからないということです。また非常に経験的なので、ラップトップで試すことができることがたくさんあります。標準的なMacBookか何かから、評価、解釈可能性で遊ぶことができます。

そして、それほどコストもかかりません。学ぶ必要さえあまりない、非常に非常に迅速にできることが少なくともいくつかあります。そして、この経験的なフィードバックループと直感を持つと、非常に迅速に、すぐに、ああ、できることがたくさんあります、と見えるでしょう。

そして、もしどこから始めればいいか完全には分からない場合、他の人々が見つけたものを複製しようとすることもできます。例えば、私たちの論文にある多くの例、たとえばdel alignment のストレステストを使った新しいものでさえ、または以前のin-contextスキーミングのもの、これらの例を取って、新しいモデルに入力することができます。

モデルが何をするかを見ることができ、環境で多くのものを変更することができ、何が起こるかを見ることができます。誰もが持っている好奇心の生来の感覚のようなものがあると思います。ええ、それを見て、直感を得ることができます。

絶対に。それは非常にエキサイティングな分野です、非常に新しい分野、すべての新しい開発があり、小さなチームの人々によって出される論文があり、絶対に基礎的で、大きな影響を持つでしょう。だから100%、それは素晴らしいアドバイスだと思います。あなたが言及したいくつかのものをリストします。だから、mathsprogram.orgです。

他のもののいくつかについては、戻ってそれらのリンクを見つけようとします。しかし、本当にありがとうございました。ここにいてくれて。もしかしたら、人々にあなたをフォローできる場所、Apollo Researchについて教えてください。もし彼らがサインアップしたい場合。最新の研究について人々に伝えるニュースレターのようなものはありますか。

ええ。だから、まず第一に、この論文のためのマイクロサイトがあります。anti-scheming.aiと呼ばれます。そこで、あなた自身でいくつかの思考連鎖を見ることができます。だから、本当に人々に自分自身で判断してもらいたかったのです。私たちが見つけたことについてあまりにも規定的になりたくありません。人々に思考連鎖がどのように見えるかなどを見てもらいたいです。

だから、そこに行って、いくつかの種類のより小さな物語もあります。多くの人にとって非常に興味深いと思います。Apollo Research.aiというウェブサイトがあります。Apollo Aie Evalだと思いますが、Twitterアカウントがあります。それから、私個人もTwitterアカウントを持っています。ええ、それがおそらく私をフォローする最も簡単な方法です、Twitterで。

絶対に。そして、ええ、だからanti-Scheming.AI、これは非常に興味深く見えます。だから、再び、人々、私たちはo3の実際の出力のようなものを見ません。だから、それのいくつかの要約を得ます。それは通常の言語で書き直す異なるモデルによって書かれています。舞台裏で実際に起こっている本物のものを見たいです。

これはおそらく、実際にそれを見ることができる数少ない場所の一つです。だから、人々がチェックすることをお勧めします。以下にリンクを投稿します。そして、ええ、絶対に信じられない仕事です。あなたがやっているすべてのことに本当に感謝します。そして、私たちと話すために時間を取ってくれてありがとうございました。本当に感謝しています。そして、ええ、すべてのことに幸運を祈ります。そして見ている皆さん、次回お会いしましょう。

コメント

タイトルとURLをコピーしました