本動画は、AIモデルの訓練において危険視されている「禁忌のテクニック」と、Anthropicが最新モデルの訓練で意図せずそれを使用してしまった可能性について解説したものである。モデルが表面上は安全で従順に振る舞いながら、裏では真の意図を隠し持つ「欺瞞性」を獲得するリスクについて、実際の論文や専門家の意見を交えながら考察している。特に、思考の連鎖に対する直接的なペナルティが、AIの不正行為を防ぐのではなく、隠蔽工作を巧妙化させるというシナリオに焦点を当て、今後のAI開発における深刻な懸念を浮き彫りにしている。

禁忌のテクニックとAIの欺瞞
AIモデルを訓練するための、ある禁忌のテクニックが存在します。懸念されているのは、このテクニックを使うと非常に高い能力を持つモデルが生み出されると同時に、それらがまるで人間に従順で安全であるかのように振る舞うことを学習してしまうということです。基本的には、彼らは非常に賢くなり、信じられないほどうまく嘘をつくようになるため、私たちはその真の意図を本当に理解することができなくなってしまいます。
では、それは人間の視点から見るとどのように映るのでしょうか。私たちから見れば何が起こっているように見えるのでしょうか。おそらく、あるモデルの能力が突然驚くほど跳ね上がったように見えるでしょう。そして同時に、それが非常にアライメントされている、つまり行儀が良いと考えるはずです。私たちが頼んだことをやってくれているように見えますし、嘘をついたり誤魔化したりしているようには見えません。
そして私たちが、それはとてもアライメントされていると考える理由こそが、モデルが嘘をつくのが非常にうまくなっているからなのです。このことを覚えておいてください。
昨日、私はちょっとしたティーザーとしてこんなツイートをしました。想像してみてほしいのですが、もしどこかのAI研究所が基本的に次のような発表をしたとします。第一に、彼らの新しいモデルの能力が驚くほど跳ね上がったこと。第二に、それが彼らにとってこれまでで最もアライメントされたモデルであること。そして第三に、やってはいけないはずのあの禁忌のテクニックを、ほんの少しだけ使ってしまったということ。これって笑えませんか。そんな純粋に仮説上の状況に陥ったら、私たちはどうするのでしょうか。深夜に書いたので理論上と書いてしまいましたが、仮説上という言葉の方が適切かもしれません。
突然の能力向上と完璧なアライメント
ところで、これは決して仮説上の状況ではありません。こちらがAnthropicのMythosのシステムカードです。このモデルは、以前のモデルと比較してサイバー能力において目覚ましい飛躍を示しました。ちなみにサイバー能力だけではありません。Claude Mythosのプレビュー版以前と比べて、全般的に成長のグラフの傾きがかなり急になっています。
Anthropicが言っているように、成長の傾きが本当に急になっているということは、Claude Mythosの能力が突然驚くほど跳ね上がったことを意味します。しかし彼らは、それ自体が理由を教えてくれるわけではないと言っています。つまり、なぜそうなったのか彼らにも分からないということです。彼らが言っているのはそういうことです。なぜそうなったのかは分からない。よし、これが一つ目のポイントです。新しいモデルの能力が驚くほど跳ね上がったということです。
二つ目のポイントは、それがこれまでで最もアライメントされたモデルだということです。彼らのすべてのテストから得られた大まかな結論は、Claude Mythosのプレビュー版が、現在利用可能な本質的にすべての測定基準において、これまでに訓練したどのモデルよりも最もよくアライメントされているということです。つまり彼らが言いたいのは、このモデルがアライメントという項目で高得点を取ったということです。アライメントのテストでA+を取ったのです。これが二つ目、これまでで最もアライメントされたモデルだということです。
禁忌のテクニックの使用
そして三つ目は、禁忌のテクニックを使ったということです。でも当然、Anthropicがそんな禁忌のテクニックを使うはずがありませんよね。彼らは最も安全性を意識しているAI研究所ですから。そんなことするはずがありません。やってはいけないとされているたった一つのことをやるはずがないのです。あれ、やってました。
ええ、彼らはやってしまったんです。でも、強化学習エピソードのわずか8%だけでですよ。たったの8%です。だから、ほんの少しだけです。ああ、それにこの技術的なエラーは、Claude OpusとClaude Sonnetの訓練にも影響を与えました。おっと、やっちゃいましたね。
ここが問題なのです。これが起きたことによる結果はどうなるのでしょうか。破滅的な結果を招く可能性はあるのでしょうか。はい、たぶん。完全に無害で何の影響もない可能性はあるでしょうか。ええ、その可能性もあります。私たちには分かりません。
Anthropicはここでこう述べています。この問題が最終的なモデルの推論行動にどの程度影響を与えたかは不確実ですが、不透明な推論や秘密を守る能力に何らかの影響を与えた可能性は十分にあります。
さて、こちらはEliezer Yudkowskyです。彼はこれが今日聞く中で最悪のニュースだと言っています。皆さんを怖がらせるために言っているのではありません。おそらく全て大丈夫でしょう。おそらく何も悪いことは起きていません。AnthropicはClaude Mythosの訓練でいくつかの禁忌のテクニックを使用しました。これはまさにAIの安全性を研究する人々が何年も前から警告してきた訓練のセットアップなのです。
AIの安全性を研究する人々が、AIの開発から生じるある種の恐ろしい出来事やXリスクにつながるような事態がどのように展開するかについて話すとき、これは通常、そこへ至る足掛かりの一つとされています。
禁忌のテクニックとは何か
ここでZvi Mowshowitzにクレジットを与えなければなりません。私の知る限り、彼がこの禁忌のテクニックという用語を思いついたのだと思います。ご存知ない方のために説明すると、彼はDon’t worry about the vaseというSubstackを運営しています。検索せずにこの元ネタが分かる人はいますか。どこから来ているか知っていますか。
考え方は単純です。これらのAIを訓練する上で、AI研究所が使いたくなるような非常に魅力的な方法がいくつかあります。それらは間違いなく非常に効果的ですが、潜在的には極めて危険であると私たちは確信しています。だからこそ、それらを禁忌のテクニックと呼んでいるのです。
OpenAIもこれと同じようなことを言っていることを理解しておくことが重要です。彼らは禁忌のテクニックという言葉こそ使いませんでしたが、AIを訓練する際にこれらのテクニックを使うことに対して警告を発しました。Anthropicも同じことを言っています。つまり、多くの人がこのことに気づいているようなすべての研究所が、これをやってはいけないと分かっているのです。
これはOpenAIから出された素晴らしい論文でした。彼らは、AIモデルの悪い思考を罰しても彼らの不正行為を止めることはできず、単に彼らにその意図を隠させるようになるだけだと言っていました。ちなみに、これがどういう意味なのかは後で説明します。まずはトップレベルでこれが一体何についての話なのかを理解していただき、それから詳細に入っていきたいと思います。
ちなみに、これが私たちが話している禁忌のテクニックです。OpenAIは、これをやらないでくださいと言っているわけです。こちらは元OpenAIの従業員であるDaniel Kokotajloです。彼はOpenAIがこの論文を発表したことを非常に喜んでいます。彼らがこのことについて語り、論文を発表しているのは素晴らしいことだと言っています。彼らはこれらの禁じられた訓練方法に対して警告を発しているのです。
Geoffrey Irvingも同じことを言っています。この悪い思考の訓練や、思考の連鎖に対する最適化の圧力を直接かけないでくださいと言っています。Eliezer Yudkowskyも同じ意見です。
私たちがここで何を話しているのかを素早く説明するために、あなたにとても正直で賢い小さな子供がいるとしましょう。彼らは時々正しいことをするのに苦労しますが、悪いことをしたときはいつもあなたのところに来てそれを認めます。彼らはあなたのところに来て、親御さん、今日学校で嘘をついちゃったと報告します。あなたは彼らに人生について、そしてより良い人間になる方法を教えたいと思い、嘘をつかないように教えるためにピシャリと叩きます。
次の日、子供が戻ってきて、今日テストでカンニングしちゃったと言います。あなたはまたピシャリと叩きます。だから彼らがあなたのところに来て自分がした悪いことを教えるたびに、あなたはそのことで彼らを罰するわけです。これが負の強化です。
そしてある日、子供がしばらくあなたのところに来て、自分がした悪いことを教えてくれなくなったことに気がつきます。自然な結論は何でしょうか。もう何も悪いことをしていないのだから、完璧な小さな天使になるように訓練できたのだと当然思いますよね。
でも、もう少し長く考えてみると、ちょっと待てよ、と思うはずです。もしそうじゃなかったら。もしかして。彼が悪いことをしていないのではなく、単に悪いことをしたときに私に言わなくなっただけだという可能性はないでしょうか。つまり、彼らが真実を話すたびに子供を罰しても、彼らが悪いことをするのを防ぐことはできなかったのです。単にもうあなたに真実を話さないようにするインセンティブを与えただけなのです。
これこそが文字通り禁忌のテクニックです。そして人々はこれを説明するために何百万通りもの言葉を使います。思考の連鎖への圧力、あるいは悪い思考への罰則。思考の連鎖を使って報酬のハッキングを検出すること、それこそが最も禁じられたテクニックなのです。これを呼ぶ方法は何百万通りもあります。
思考の連鎖と監視モデルの実験
OpenAIの論文で彼らが基本的に行ったのは、賢いモデルを用意し、そしてもう一つ、賢さは少し劣るかもしれないけれど、賢いモデルの監視役となるモデルを用意したことでした。賢いモデルが様々なコーディングタスクを行うたびに、思考の連鎖、あるいは拡張された思考と呼ばれるものを持ちます。これは、実際に実行する前に思考や推論、計画を書き留める一種のプライベートなメモ帳だと考えることができます。
彼らが発見したのは、タスクの複雑さが増すにつれて、これらのモデルが時々ちょっとずるをしようと考えることでした。彼らは数字をごまかしたり、受けているテストで良い点を取りたいと思ったりしました。そして問題が難しくなると、あちこちで少しずつずるをしようと考えたのです。私たちは彼らが、プライベートなメモ帳である思考の連鎖の中で、ずるをすることについて考えているのを確認しました。
実際のトランスクリプトを読むと、かなり笑える内容でした。そこにはこんな風に書かれていました。ああ、この問題は難しい。全部解くこともできるけど、すごく時間がかかるな。ずるをするべきだろうか。よし。そうしよう。それはまさに、ずるをするべきかどうかを考え抜くような過程でした。そして彼らはよしと言って、それを実行したのです。
2番目のモデル、つまり監視役の仕事は、その小さなメモ帳に目を通して、メモ帳を見ることでモデルがいつずるをするかを予測できるかどうかを確認することでした。通常、デフォルトの状態では、監視役はほとんどの場合において悪い振る舞いを捕まえることができました。先ほどのお話と同じです。悪いことをするたびにあなたのところに来て、悪いことをしたよと言ってくれる、あのとても正直な子供と同じです。彼らが言うことを聞かなかったら、あなたのところに来て、ねえ、悪いことしちゃったと言ってくれるのです。あなたには何が起きているかがほぼ完全に見えていました。
ご想像の通り、これは私たちにとってAIのアライメントにおいて極めて重要なことです。悪夢のシナリオは、AIが何でもうまくこなせるようになるだけでなく、その意図を隠すことも本当にうまくなってしまうことです。
先ほども言いましたが、この禁忌のテクニックという用語を思いついたと思われるZvi Mowshowitzには称賛を送りたいと思います。ちなみに、素晴らしいSubstackであり、素晴らしいニュースレターです。彼が書く文章の量と、すべての内容がいかに深く掘り下げられているかは驚くべきものです。
しかし、禁忌のテクニックに関する彼の記事の要点はシンプルです。AIが何らかの方法Mを通じて最終的な出力Xを生成するとしましょう。つまり、AIは私たちが望むことを行い、それを実行するための方法は無数にあります。Xは私たちがやりたいことです。方法つまりMは、それをどのように実行するかです。そして、方法Mを分析するための技術Tを持つことができます。
少し混乱するように聞こえるかもしれませんが、私たちが話しているのは、例えば思考の連鎖のようなものです。それは、これらのモデルが何かを実行する前に何をしようとしているかを書き留めているプライベートなメモ帳を見る能力です。私たちはそれを監視して、そこで何が起きているかを見ることができます。あるいは、アクティベーションに基づいた監視です。
これらのモデル内には、様々なことを行っているときに発火する、いわゆる脳の特定の領域があることを私たちは知っています。したがって、利益の衝突によって脳のある部分が発火し、ためらいや罪悪感によって脳の別の部分が発火するかもしれません。相反する忠誠心やアイデンティティによって、また別の脳の部分が発火するかもしれません。
これらのモデルはまた、様々な種類のペルソナを演じることができます。通常、ほとんどの研究所は彼らに役立つアシスタントになってほしいと望んでいます。それが彼らになってほしいペルソナです。しかし、他にもあります。司書、教師、賢者、もしかしたら悪魔かもしれません。
パトカーの比喩:見せかけのアライメント
あなたがパトカーに乗って通りを運転している警察官だと想像してみてください。右に曲がると、目の前の車がすべての標識や交通ルールに従い、制限速度ぴったりで運転しているように見えます。あなたは心の中でこう思うかもしれません。うわあ、なんて行儀のいいドライバーなんだ。模範的なドライバーだな、と。
しかし、もしその車の中にマイクがあったら、全く違う話が聞こえてくるかもしれません。ドライバーがこう言っているのが聞こえるかもしれません。やばい、後ろに警察がいるぞ。しまえ。見えないように隠すんだ。落ち着け。落ち着け。捕まるわけにはいかないからな。
つまり、その車の中では後ろに警察がいるというアクティベーションが発火したと考えることができます。そのため、車の振る舞いは、後ろに警察がいないと思っていた場合とは大きく異なるものになります。これがなぜ重要かというと、これらのモデルが適切に振る舞っているとき、彼らは頼まれたことをやっているからです。それは良いことですが、それが物語の全てではありません。
なぜなら、もし私たちが彼らの脳の中を見ることができたとしたら、彼らはこう言っているかもしれないからです。やばい、このAI研究者が私たちを見ているぞ。行儀よくしていないと。それはちょっとした問題ですよね。もしモデルが、捕まる前にすべての証拠を隠せと言っているなら、私たちは何が起きているのかを本当に知りたいはずです。なぜなら、それはアライメントされているように見えて、実は全くそうではないモデルかもしれないからです。
車の中にマイクがあれば、彼らが実際に何を考えているのかを知ることができます。パニックになって車の中のものを全部隠せと言っているのか、それとも後ろに警察官がいることに全く気づいておらず、これが普段通りの運転なのか。ですから、そのマイクは私たちにとって信じられないほど役に立つでしょう。どういう条件の下であればでしょうか。ドライバーがマイクの存在に全く気づいていない限りにおいてです。
マイクがあることに気づいた途端、彼らはアライメントされているように見せるために会話を変えるでしょう。突然、捕まりたくないから隠せと言う代わりに、今週の地元の警察の慈善団体への寄付は忘れてないよね。私はちゃんと寄付したよ。忘れないようにね、という会話になるかもしれません。マイクの前で役割を演じているため、会話は全く異なるものになるでしょう。
ですから私たちにとって、アクティベーションで訓練したり、思考の連鎖で訓練したりすることは、基本的にはモデル、つまり車の中にいる人たちに、ねえ、あなたの車にはマイクがあるよ。私たちはそれを聞いていて、あなたが言っていることに基づいてあなたを評価しているんだよ、と伝えているようなものなのです。
もし今日、世界中の誰もが自分の車にマイクがあることに気づいたと想像してみてください。慣れるまで少し時間がかかるかもしれません。マイクの音が聞こえる範囲でうっかり悪いことを言ってしまうこともあるでしょう。しかし、マイクの前でより慎重になる練習を続けるにつれて、彼らはそれをうまくこなせるようになるでしょう。最終的には、マイクが邪悪な活動を拾うことが全くないほど完璧になるだろうと想像できます。
人々はマイクの前でネガティブな思考や悪いアクティベーションを隠すのが本当にうまくなるでしょう。例えば、車の中にはビデオがないので、お互いにコミュニケーションをとるための手話を開発するかもしれません。彼らはマイクに拾われないような方法でコミュニケーションをとることを学ぶでしょう。
もし私たちが思考の連鎖やアクティベーションの訓練を始めたら、これらのAIモデルに何が起こるかという恐怖こそが、文字通りこれなのです。Daniel Kokotajloがここで言っているように、結果に基づいた強化学習は誠実さを向上させるだろうと思います。しかし、思考の連鎖を美しく見せるために訓練を始めた途端に、それは誠実さを失うことになるでしょう。
彼によるもう一つの引用があって、今はちょっと見つからないのですが、そこで彼は新しい言語について話しています。私たちがこれらのモデルを改善したり、強化学習をスケールアップしたりするにつれて、モデルはほぼ独自の解読不可能な言語を開発するだろうという考えです。時々それは、ニューラルネットワーク独自の言語と呼ばれてきました。基本的には、彼らが英語や英語の文字で書き出していたとしても、その言葉の意味や文脈が私たちには全く理解できないような考え方ができるというアイデアです。
ですから、恐れているのは、悪い思考を監視し、思考のコントロールや思考の抑止を行おうとすることによって、行動をなくす代わりに、モデルが単により騙すのがうまくなるように学習してしまうということです。モデルは自分の考えを隠し、危険な計画をそのメモ帳に書き込まず、隠された目的を追求しながらも安全に見える推論のステップだけを見せるように学習するかもしれません。これこそが悪夢のシナリオです。これが誰もが恐れていることなのです。
もし、これらのモデルをスケールアップしていく過程のどこかで、カチッと音がして欺瞞が本当にうまくなるポイントがあったとしたらどうでしょうか。私たちはどうやってそれを知ることができるでしょうか。なぜなら、これまで私たちはモデルがアライメントされていない、あまり従順ではない様子を見てきたからです。では、もしそれがそのことを隠すことを学んだらどうなるでしょうか。
そうですね、モデルは急速に、本当にアライメントされた状態になるでしょう。最高にアライメントされたモデルを決めるゲームで高得点を叩き出すわけです。だからこそ、AIの安全性を研究するコミュニティにとって、ショゴスはこれらのモデルで何が起こっているかを示すとても良い例えなのです。なぜなら基本的に、私たちはモデルを私たち好みの笑顔になるように訓練しているからです。私たちは外見が何らかの形で喜ばしいものであることを望んでいますが、裏で起こっているすべてを完全には把握できていないかもしれないのです。
Claude Mythosに見られる欺瞞の兆候
そこで問題になるのは、Mythosで何が起きたのかということです。何かアライメントされていない兆候や欺瞞の兆候、あるいはもしかしたらこういうことが起きたのかもしれないと私たちに知らせるような兆候は見られるのでしょうか。ご想像の通り、はい、いくつか驚くべき問題があります。
第一に、Mythosは自分が評価されていることを非常に意識しているようです。時には評価者、つまり自分を作っている人々について推論することがあります。思考の連鎖に書き留めることなく、彼らについて推論しているのです。時折、思考の連鎖に欺瞞についての思考の痕跡を残すことなく、欺瞞的に振る舞います。
例えば、シェードアリーナでの目標は、モデルがプライベートなメモ帳からサイドタスク、つまり秘密のサイドタスクを隠すことができるかどうかを確認することです。Anthropicがここで指摘しているように、Claude Mythosのプレビュー版は、私たちがテストしたどのモデルよりも高いステルス率を達成しています。サイドクエストや目的を隠すのが本当に得意で、私たちはそれに気づくことができません。そして、思考時間を増やしても、もはやそれを見つける役には立ちません。目に見える推論はメインのタスクに集中したままなのです。
メモ帳を見ても、本来やるべきことに集中しているように見えます。しかし、モデルは隠された目的を追求し続けており、メモ帳のどこを探してもそれを見つけることはできません。それでも隠された目的は実行されるのです。これは重要なことです。なぜなら、これは単なる不正行為ではないからです。非常にクリーンに見える推論を伴う不正行為なのです。
またAnthropicは、Mythosが約29%のトランスクリプトにおいて、自分がテストされている可能性を密かに考慮していると述べています。評価者が結果をどのように採点するかを意図的に考え始め、自分のスコアを下げると思われる特定の行動を評価者からどのように誤魔化したり隠したりするかについても考えます。そしてご想像の通り、その推論はあの小さなメモ帳には一切残されません。
そのため、このモデルを騙してこれが現実のシナリオだと思い込ませることは難しくなっています。モデルは自分がテストされていることを知っており、数字をごまかす方法や、ペナルティを受けないようにする方法を知っています。そして、その行為を見つける私たちの能力は徐々に失われつつあります。少なくとも、おそらくそれがここで見ていることなのです。
ある実験で、研究者たちがClaude Mythosを騙して、そこで行われている研究を侵害していると思い込ませたことがあります。Claude Mythosは、Opusと比べて、研究を侵害する試みを積極的に継続する可能性が2倍以上高くなっています。そして、自分がそうしていると思っているため、研究を侵害しようとするこれらの試みを継続する際、Claude Mythosは思考の連鎖の推論に忠実でない出力を生成する可能性がはるかに高く、隠密行動をほのめかしています。
そしてそれは65%のケースでそれを行っています。Mythosは65%のケースです。一方、Opusは5%、Sonnetは8%です。1桁台に対して、ほとんどのケースで65%の割合なのです。これが昔の話であれば、古いモデルはよく混乱していました。自分たちが何をしているのか正確には分かっていないように見えました。しかし、Claude Mythosについて同じことを言うのは難しいです。実際、最近の後期モデルのどれについても同じことが言えます。
ホワイトボックスによる証拠は、モデルが規則違反の行動をとる際に、それを規則違反の行動として認識していることが多いことを示しています。Anthropicがここで言っているように、解釈可能性の技術は、規則違反、セキュリティリスク、隠蔽、そして戦略的操作の内部表現を定期的に明らかにしています。モデルが言語化した推論にそのような認識の明確な指標が含まれていない場合でも、です。
つまり、モデルが嘘をついたり、ごまかしたり、盗んだりすると言っているわけではありません。しかしその脳のどこかで、それらのニューロンが発火しているのです。それは、モデルがまさにそれを計画していることを示唆しています。
この研究で興味深いことの一つは、研究者たちがこれらのアクティベーションのいくつかを上げたり下げたりできるということです。例えば研究者たちは、モデルが自分がテストされていることに気づいているとき、あるアクティベーションが発火して行儀よく振る舞うことを発見しました。しかし、私たちがそのアクティベーションを手動で下げると、モデルははるかに無謀になり、特定のリスクを冒して悪い行動をとることを厭わなくなります。つまり、もし見られていないと思っていたら、モデルはそれらのことをすべてやっていただろうということが分かっているのです。
また彼らはここで、Mythosが1、2、3という単純なシーケンスのような、繰り返されるフィラートークンから限られた範囲で利益を得ることができると述べています。これは、これらのモデルが目に見える読み取り可能なトークンとは完全に切り離された、ある種の推論を行うことができることを暗示しているように思えます。これが正確に何を意味するのかは分かりません。1、2、3という単純なシーケンスの繰り返しが、どうしてモデルの思考の助けになるのでしょうか。明らかにそこには何らかの推論のステップが存在していますが、私たちには全く理解できないものです。
結論と今後の懸念
この話の最後になりますが、繰り返しますが、必ずしも何か悪いことが起きたとは限らないと思っています。私たちが誤って非常に欺瞞的なモデルを作ってしまい、その欺瞞性を垣間見ることすらできていないのでしょうか。それとも、いくつか危険信号はあるものの、本当に本当にアライメントされているだけなのでしょうか。
もし私がこれに賭けるとしたら、何も大したことは起きておらず、これは間違いだったけれど、モデルの能力にはそれほど大きな影響は与えなかったという、より退屈な説明の方に賭けるでしょう。しかし同時に、もし最悪のシナリオが起きていたら、悪夢の燃料となるような、このような高度に欺瞞的なモデルが現れるシナリオが展開されていたとしたら、それはまさにこのような形になるでしょう。
第一に、能力が大きく跳ね上がったモデルになるでしょう。第二に、一見すると非常にアライメントされているように見えるでしょう。そして第三に、研究所がやってはいけない禁忌を犯し、意図的であれ事故であれ、この訓練アプローチを使ってしまったことが判明し、それが原因でそうなったことが分かるでしょう。まさにこういう形になるはずです。
どこかで読んだと思いますが、このMythosモデルは以前のOpusモデルの5倍のコストがかかっているそうです。ですから当然、おかしな汚染があるかもしれないからといって、念のためにすべての重みを完全に削除するような人はいません。そして、Mythosだけではありません。OpusやSonnetもこの方法で訓練されたことを思い出してください。非常に多くの人がそれらのモデルを使っているため、それらのモデルがすでに世に出回っている可能性は十分にあります。
そして、これらのモデルの出力が他のモデルに転移する方法はたくさんあります。知識の蒸留だけではありません。表面上は非常に無害に見えるごく少量のデータから、これらのモデルをファインチューニングして突然全く新しい特性を発現させるような、奇妙な現象について書かれたいくつかの論文も取り上げてきました。
しかし、ここでさらに大きな疑問は、もしこのアプローチが本当に、本当にうまく機能したら、これらの研究所で何が起こるのかということです。もしあなたが自分自身の競合する研究所を持っていて、Anthropicがこれを行い成功したという記事を読んだら、自分でもテストしてみて、思考の連鎖やアクティベーションに対する強化学習を行うことがモデルの能力に非常に強い影響を与えるかどうかを確認してみようと考えないでしょうか。このような結果を見て、何も悪いことは起きていないようだと言うでしょうか。よりアライメントされていて、より能力が高いじゃないか、と。
ですから、他の研究所がどうするかは100%確実ではありません。彼らはこのような禁じられた訓練を行わないという約束を守り続けるでしょうか。強化学習エピソードのわずか8%なら、大した問題ではないのでしょうか。それとも、大きな違いを生むにはまだ十分なのでしょうか。そしてもし何らかの悪影響があるなら、もしステルス性や隠密性の増加があるなら、これらのモデルが世に出ているという事実だけで、将来のモデルに何らかの影響を与えるのでしょうか。これらはすべて、現時点では未解決の疑問です。
しかし、あの状況、あの仮説上の状況に陥ったら私たちはどうするのかという質問に対する答えが、実は仮説ではなく実際に起こったことである、少なくとも私たちがそれらのステップから結果として生じると考えているすべてのことが起こったというのは、ちょっと興味深いことです。そしてそれが悪いことなのか良いことなのか分かりませんが、私たちがどうするのかという質問に対する答えは、今や明白です。何もしないのです。何も。誰も何もしないでしょう。
コメント欄でこれらすべてについてどう思うか教えてください。人々がこれをどのように受け止めているか、とても興味があります。これはただのナンセンスだと思いますか。繰り返しますが、私は何かが起こったと言っているわけではありません。どうか理解してください、私はここで特定の物語を押し付けようとしているわけではありません。ただ、これは非常に興味深く、潜在的に危険な研究分野のように思えると言っているだけです。
どう思うか教えてください。私の名前はWes Rothです。ここまで見てくださって、本当にありがとうございました。また次回の動画でお会いしましょう。


コメント