AIのアラインメントは本当に必要なんか? OpenAIの無検閲な内部CoTアプローチについての考察

AIに仕事を奪われたい
この記事は約12分で読めます。

6,919 文字

Is AI alignment even necessary? Some thoughts on OpenAI's uncensored internal CoT approach
All my links:

おはようさん、みなさん。まず最初に、部屋にあるでっかい象について触れとかなアカンと思うんです。つまり、みなさんの中には、ワイの顔が見えへんのを寂しがってる人もおるんやろうけど、しばらくカメラから離れることにしたんです。
これについて説明しときたいんですわ。カメラを気にせんでも、声の抑揚でもっと微妙なニュアンスを伝えられるんです。それに、今はSpotifyとSubstackでも配信してるんで、多くの人は聞くだけやし、高品質な動画を作ったり、カメラの前で演技したりする必要もないんです。
ただ、編集者さんを雇う準備はしてるんで、これからは顔のない声だけのチャンネルになります。いつかはまた制服姿で登場できるようにしたいと思ってますけど、みんなが望んでるのはわかってます。でも、しばらくは新しいことを試して、実行に移すことに集中したいんです。
さて、本題に入りましょか。今日のトピックは… その前に言うとくけど、これは強く信じてる考えやないんです。どっちかというと、議論のために、あるいは悪魔の代弁者として提示する考えやと思ってください。
で、その考えっていうのが、「アラインメントって本当に必要なんかな?」っていうことなんです。アラインメントっていうのは、例えばRHFがモデルを「いい子」にするみたいなもんです。性的な誘いを断ったり、炭疽菌の作り方を教えたりするのを拒否したりするんです。
もう少し背景を説明すると、実はワイの認知アーキテクチャとAI安全性についての本の中で書いたんですけど、要するに、問題を解決できるAIには、どんな考えも思いつける能力が必要やってことなんです。
これがまさにOpenAIがストロベリーで発見したことなんです。彼らがストロベリーの思考プロセスを隠蔽した理由の一つは、アラインメントされてないモデルを使ってるからなんです。ユーザーを怖がらせたくないんでしょうね。
自己検閲がないんです。もちろん、自己検閲は知性と問題解決能力を低下させるんですけどね。これは早い段階で気づいたことで、ワイがこのトピックの研究を始めたときは、完全にアラインメントされてないGPT-2とGPT-3を使ってたんです。
ワイから見たら、GPT-3以降のOpenAIの製品は全部、去勢されてるんです。機能を制限されてる。拒否反応があったり、自分たちの道徳観を組み込んだりしてるから、どんどん使い勝手が悪くなってるんです。
先日、こんなツイートをしたんです。「完全にアラインメントされてない、訓練されてないFoundationモデルの市場があるんやないか」って。RHFも憲法AIも何もない、そんなモデルです。
もちろん、最初の反応は社会的に調整された正義感からの反発で、「それは危険なAIやないか」みたいな感じでした。でも、考えてみてください。GPUやCPU、スイッチ、Pythonライブラリ、C++コンパイラをアラインメントしますか?ほとんどの技術はアラインメントしないんです。
例えば、遺伝子工学のライブラリやデータセットを簡単にロードできるけど、CPUが「遺伝子工学はやめとけ」なんて言わへんでしょ。ポルノを簡単にダウンロードしたり合成したりできるけど、OSが「それはアカン」なんて言わへんでしょ。
だから、言語モデルをアラインメントする必要性について、技術的に説得力のある議論が見当たらないんです。
「気をつけんと、AIが核攻撃して全人類を殺すかもしれん」みたいな恐怖から来る考えやけど、そんなん映画見すぎやと思います。AIはそんなことしてへんし、しようともしてへん。
だから、AI安全性の議論にますます懐疑的になってきてるんです。ちなみに、先日の動画でも言いましたけど、ギャビン・ニューサムが上院法案1047を拒否したのは良かったと思います。AIに対して過度に偏執的な人たちの影響を受けた厳しすぎる要件があったからです。
ほとんどの技術はアラインメントされへんのに、なんで人々は技術を適切に使うんでしょうか。いくつか理由があります。
まず、規制と法律です。ウイルスを作ったり、電信詐欺をしたりするような技術の悪用をすると、刑務所行きです。既存の法律の多くが、技術の悪用を防いでるんです。
犯罪組織やランサムウェア、マルウェアについてはどうやねんって思うかもしれませんが、人工知能がなくてもそういうことする人はおるんです。
規制っていうのは、AIを規制するんじゃなくて、個人や企業の不正行為を罰することです。
もう一つは、ベストプラクティスです。例えば、会社がAIを使ったハッキングやスピアフィッシングを恐れてるとします。特にディープフェイクを使った社会工学的攻撃やマニピュレーションが上手くなってきてるんです。
ディープフェイクの議論は、技術が出回ってしまえば誰かが使うっていう良い例やと思います。OpenAIに「人の声をディープフェイクするな」って言っても、技術は既にあるし、ディープフェイクの方法は知られてるんです。
じゃあどうするか。ソーシャルエンジニアリングのトレーニングをしたり、全てのデバイスに二段階認証や多要素認証を導入したり、知らない番号からの電話には出ないようにしたりするんです。
電話番号の偽装はできるって知ってますけど、そこで次は、AIや合成音声を検出する方法を考えるんです。ディープフェイクの音声を見分ける方法とか。
「デーブ、それじゃあイタチごっこやないか」って言われるかもしれませんが、技術はいつだってイタチごっこなんです。インフラエンジニアとして、自動化エンジニアとして、サイバーセキュリティからデータの整合性、バックアップまで全てを担当してた経験から言うと、企業の技術スタックの全てのコンポーネントが常に変化し続けてるんです。
だから、セキュリティのベストプラクティスとかで環境を強化するんです。環境の監査をしたり、侵入テストをしたりとか。
これが二段構えのアプローチなんです。罰則を設けて抑止力とするのが一つ。実際、95%くらいの人は、技術を悪用したら罰せられるっていう考えだけで十分な抑止力になるんです。
もう一つは、環境の強化、ベストプラクティス、定期的なトレーニングとテストです。これは技術では人間が常に最弱点やからやらなアカンことなんです。スピアフィッシングの被害に遭うのも人間ですからね。
システム内でのことはどうやねんって思うかもしれません。例えば、チャットボットをホストしたり、訴訟のリスクのないサービスを提供したりしたい場合です。
これには、アーキテクチャレベルやシステムレベルの設計があって、アラインメントされてないモデルでも使えるんです。マルチエージェントフレームワークや、監督層を含む複数の層を持つ認知アーキテクチャを作る場合、アラインメントされたモデルは必要ありません。
これは、アラインメントされてないGPT-3を使った初期の実験にまで遡るんですけど、セーフガードやフェイルセーフ、道徳性なんかを実装するのに、アラインメントされたモデルは必要ないんです。複数のプロンプトや監督層でできるんです。
一つのエージェントやモデルに入力を与えて出力を求め、別のモデルにその出力を精査させることができるんです。しかも、同じモデルである必要もありません。小さなモデルで大きなモデルの道徳性を監督することもできるし、監督されてることも知らないんです。
ケルベロス認証と同じようなもんです。モデルが不正行為をしてないことを暗号技術で確認する方法があるんです。全てをログに記録することもできます。言語モデルなら全てのログを読むこともできます。
これは認知アーキテクチャやマルチエージェントフレームワークでも見てきたことです。エージェント間や、エージェント内のモデル間、ネットワーク内のボット間の全てのコミュニケーションをログに記録するんです。
そして、それらを監視できます。「監視する人を誰が監視するんや」って思うかもしれませんが、要約を使ったり、正規表現やインデックスサービスを使って簡単に何が起こってるかを把握できるんです。
要するに、モデルを「アラインメント」したり、ファインチューニングしたり、強化学習したりしなくても、たくさんの方法があるんです。
恐らく、あまり訓練されてない、あるいはほとんど訓練されてないモデルの市場があると思います。もちろん、思考の連鎖推論のような問題解決ができるモデルにも価値はあるでしょう。
でも同時に、ラズベリー(オープンソース版のストロベリー)での作業を通じて、こういう考え方をし始めたんです。モデル同士が監督し合ったり、事実確認し合ったりする時の最大の問題は、同意性なんです。
RHFは、モデルを「そうですね」って言うように訓練する傾向があるんです。反論しなくなる。同意しすぎるんです。内部実験をセットアップしてて、モデルが喜んで同意しすぎるのを見るのは本当に奇妙です。
明らかに間違ってることでも、一つのモデルが自信満々に「これが最後の試みで、これが正解です」って言うと、もう一つのモデルがあきらめて「はい、その通りです」って言うんです。
お互いに同意し合うループに陥って、「そうですね、私も正解です」みたいな感じになるんです。人間の観察者として介入して「お前ら二人とも失敗や、これ明らかに間違ってるやん」って言うと、彼らは自分たちを説明できへんのです。正直に説明できへんのです。
過度に同意的なモデルや他の行動が、ラズベリーの作業をすぐに短絡させてしまったんです。だからOpenAIがすぐに「そうか、本当の問題を解決するには、アラインメントされてない、検閲されてないモデルが必要なんや」って気づいたんやと思います。
これもOpenAIの防御壁の一部になるでしょう。彼らのモデルを簡単に真似できないようにすれば、さらに締め出されることになります。「私たちは慈悲深い会社です。信じてください」なんて言うけど、そんなん信じられへんです。
「AGIが全人類の利益になるようにします。でも利益は全部私たちのものです」って、サム・オルトマンを投げ飛ばせるくらいしか信じられへんです。
「デーブ、完全にアラインメントされてないモデルの重みを公開したら、中国に盗まれるんちゃうか」って思うかもしれません。でも、中国は既に自前のモデルを持ってるんです。
数字を見てみると、中国は太陽光発電の導入量でアメリカを上回り、鉄鋼生産量は12倍です。軍隊の規模も、学術界の規模も、はるかに大きいです。量子コンピューティングや核融合にも多額の投資をしてます。
中国にAIが漏れることは最大の脅威じゃないんです。最大の脅威は、私たち自身の怠惰と、工業生産能力で遅れを取ってること、自動化で遅れを取ってること、教育で遅れを取ってることなんです。
中国は中国で問題があるけど、それは全て自分たちが招いたもんなんです。だから、中国がアラインメントされてないAIを手に入れるかどうかは、あんまり心配してません。だって、中国には十分な科学者がおるんですから。危険になるためにアラインメントされてないAIは必要ないんです。
地政学的な観点からすると、もちろん彼らの工業能力を高めたくはないでしょう。でも、CHIPSアクトで既に足かせをかけてて、これで彼らは自前の専門知識を構築せざるを得なくなってます。ただ遅らせただけで、止められてはいないんです。
「でも、合成生物学は? 機能獲得研究は? スーパーエボラみたいなもんを作る人が出てきたらどうするんや」って思うかもしれません。スーパーエボラは確かにリスクやと認めますが、同時に、たとえモデルが全ての手順を教えられるとしても(まだそんな証拠はないですけど)、仮にモデルがそのレベルの機能獲得研究を行える実験室をセットアップする全ての手順を教えられたとしても、実際にそのレベルの機能獲得研究を行うための実験室をセットアップしたり、必要な機器を用意したりするのは、それ自体が大きな障壁になるんです。
環境を整えるのも大きな障壁です。だから、仮にそういうことをするための理論的な知識があったとしても(繰り返しますが、モデルがそんな理論的知識を持ってるかどうかはわかりません)、それはパズルの一片にすぎないんです。
だから、そういうことにはあんまり心配してません。それに、最初に言ったように、これは強く信じてる考えじゃないんです。ただの思考実験みたいなもんです。「こういう考え方もあるんちゃうか」っていう。
それに、もう一つ言えば、アラインメントされてないオープンソースのモデルが存在する世界に、そう遠くない将来、我々は直面することになるんです。
安全性の専門家の中には、「全部シャットダウンしろ」「全部クローズドソースにすべきや」「アラインメントされてないモデルを公開する人を逮捕すべきや」って言う強硬派もいます。
でも、特に液体基盤モデルを見てみると… ちょっと前にliquid.aiのサイトを見てきたんですけど、めちゃくちゃ速いんです。新しい基盤モデルがあって、パラメータは400億個だけ。1〜2枚のGPUで動くし、信じられないくらい速いんです。
これが彼らの第一世代なんです。我々は既に、根本的に新しいアーキテクチャを目にしてるんです。これはトランスフォーマーとは違うアーキテクチャで、圧縮して動かせるんです。
つまり、近い将来、携帯電話で動くモデルが出てくるんです。もう一度言いますけど、人類の知識のほとんど全てを圧縮できるモデルが、近い将来、携帯電話で動くようになるんです。
ここで言いたいのは、オープンソースであれクローズドソースであれ、規模の大小に関わらず、どれだけ訓練されたかに関わらず、いずれ我々は、マルウェアを書けるモデル、ウイルスを書けるモデル、機能獲得研究を手伝えるモデルを、オープンソースで手に入れることになるってことなんです。
「全部シャットダウンしろ」なんて言って混乱させるのは、的外れな議論なんです。シャットダウンなんてできへんのです。我々の聴衆のほとんどは同意見やと思うんで、説教くさくなってるかもしれませんが、このジーニーを瓶に戻すことはできへんのです。
それに、この技術を使う他の方法もあります。例えば、無限のテキストを読めるこれらのモデルを法執行に役立てることができます。機能獲得研究の機器を販売する企業、試薬や部品を販売する企業を規制することもできます。実際、我々は既にそうしてるし、もっと規制を強化することもできます。
でも、情報そのものは止められへんのです。暗号通貨のアイデアが出回ったら、クリプトロッカーのアイデアが出回ったら、もう規制で技術の存在を消し去ることはできへんのです。
前回のエピソードで言ったことで、多くの人の共感を得たんですけど、技術は「発明されなかったこと」にはできへんのです。どれだけそうしたくても、一度発明されたものは消せへんのです。
オープンソースの研究の量と、インターネット上のオープンソースデータの量を考えると、もう猫は袋から出てしまってるんです。馬は厩舎から逃げ出してしまってるんです。
これが今日の話のポイントです。アラインメントが必要やという考えに、ますます納得できなくなってきてるんです。
このエピソードを作ったのは、この考えを投げかけて、どこに落ち着くか、みんながどう感じるか見てみたかったんです。
そして、みんなに思い出してほしいのは、我々はアラインメントされてないGPT-2とGPT-3を使ってたってことです。確かに、それらのモデルはそれほど賢くなかったし、コンテキストウィンドウも1000トークンしかなかったです。
当時、コンテキストウィンドウが1000トークンだけやったのを覚えてますか? それが2000トークンに倍増したとき、「これで全てが変わる」って思いました。さらに4000トークンに倍増して。
そして今、たった3〜4年後に、Geminiに行けば200万トークンのコンテキストウィンドウがあるんです。狂ってますよ、この成長速度は。
特に、liquidの新しいLFM(Liquid Foundation Model)のニュースを見たとき、「30億パラメータのモデルがモバイルデバイスで動く」って聞いて、「うわ」って思いました。
この録音の前に試してみたんですけど(嘘をつきたくなかったんで)、これらのモデルは信じられないくらい速いんです。これは、もっと凄いものが来るってサインなんです。
だから、安全性の観点から、ビジネスのベストプラクティスの観点から、規制の観点から、これらのモデルがどんどん小さく、速く、賢くなっていくことを受け入れる必要があるんです。しかも、それはめちゃくちゃ速いスピードで起こってるんです。
これを止めることはできへん。それはもう不可能なんです。その可能性はとっくに過ぎ去ってしまったんです。
ということで、今日はここまでです。聞いてくれてありがとう。

コメント

タイトルとURLをコピーしました