人類工知能の管理を失いつつある – そして時間がなくなりつつある:Anthropic CEOの新たな警告

AGIに仕事を奪われたい
この記事は約13分で読めます。

7,523 文字

Anthropic CEO's New Warning: We're Losing Control of AI – And Time is Running Out....
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

AIにおける最大の問題の一つで、人々があまり話題にしないのは、私たちが本当にこれらのモデルで何が起きているのか正確に理解していないという事実です。今日の動画では、Dario Amodeiの最近のブログ記事「解釈可能性の緊急性」について話します。これは、AIモデルがどのように機能するかを正確に理解するための専門用語です。現在私たちが理解すべきことの一つは、AIモデルが内部でどのように機能しているのか、実際には理解していないということです。私たちが書いたコードや関数で、どのように細かいレベルで動作するかを理解するようなシステムではありません。これは実際には私たちが思っている以上にランダムなシステムなのです。
彼はこのブログ記事を「解釈可能性の緊急性」と名付け、特に近い将来非常に賢いモデルが登場することを考慮すると、AIモデルを理解することの重要性について書いています。彼はAIに取り組んできたこの10年間で、AIが小さな学術分野から、おそらく世界で最も重要な経済的・地政学的問題へと成長するのを見てきたと述べています。そしてその期間で学んだ最も重要な教訓は次のようなものです。この基礎技術の進歩は、止めるには強力すぎる力によって駆動される避けられないものだが、その進行方法、物事が構築される順序、そして私たちが選択するアプリケーションについては、私たちには変更する可能性があるということです。
基本的に彼が言おうとしているのは、私たちは方向性を操作できるということです。このバスを止めることはできません。AIは基本的に必然ですが、私たちはバスを正しい方向に操作することはできます。彼は以前の記事を参照し、AIが本質的に世界を助け、民主主義が独裁政権よりも先にこの技術を構築し活用することを確実にすることについて話しています。
彼は、ここ数ヶ月間、バスを操作するためのもう一つの機会に焦点を当てるようになったと言います。それは、モデルが圧倒的な力を持つ前に、AIシステムの内部動作を理解するという刺激的な可能性であり、これは最近の進歩によって開かれたものです。
ここで彼は、分野外の人々がしばしば、私たち自身のAI創造物がどのように機能するかを理解していないことを知って驚き、警戒することを認めています。考えてみると、それは非常に奇妙に思えます。超強力になる技術を構築している産業に行ったのに、彼らはその技術がどのように機能するかさえ理解していないとしたら、私も驚き、混乱するでしょう。
彼は「彼らが懸念するのは正当です。この理解の欠如は、技術の歴史の中で本質的に前例のないものです」と述べています。「数年間、私たちAnthropicと業界全体が、この問題を解決しようとしてきました。AIモデルの内部動作を完全に明らかにする、高精度で正確なMRIのアナログを作り出そうとしています。この目標はしばしば非常に遠く感じられましたが、最近の複数のブレークスルーによって、私たちは現在正しい道にあり、成功する本当のチャンスがあると確信するようになりました」。
本質的にここで彼は、AI分野が速すぎるペースで進んでいることについて語っています。「AI分野全体は、解釈可能性への取り組みよりも進んでおり、それ自体も非常に速く進歩しています。したがって、解釈可能性が重要になる時までに成熟するためには、速く動く必要があります」。彼がここで言っていることは、物事がどのように進んでいるかを見ると、AI分野は、私たちが実際に何をしているのかを理解するためのAI研究に対する相対性の観点から、実際にはあまりにも速く動いているということです。これが、この種の研究がAI研究の速さに追いつく必要があると彼が言っているところです。
ここから無知の危険性について話します。「現代の生成AIシステムは、従来のソフトウェアとは根本的に異なる方法で不透明です。普通のソフトウェアプログラムが何かをする場合、例えばビデオゲームのキャラクターがセリフを言ったり、フードデリバリーアプリで運転手にチップを渡せるようにしたりするのは、人間がそれをプログラムしたからです」。これが私たちが慣れているものです。
しかし生成AIの問題は、それがまったく異なるということです。それは本質的に確率論的なものです。「生成AIシステムが財務文書を要約するなどの作業を行う場合、なぜ特定の選択をするのか、なぜある言葉よりも他の言葉を選ぶのか、なぜ通常は正確であるにもかかわらず時々ミスをするのかについて、特定または正確なレベルでは実際にはわかりません。友人であり共同創設者のChris Olaがよく言うように、生成AIシステムは構築されるというよりも成長するものです。その内部メカニズムは設計されたものというよりも発生的なものです。植物や細菌のコロニーを育てるようなものです。条件を設定し、成長を形作りますが、現れる構造は予測不可能で理解や説明が難しいのです」。
皆さんがこの真実を理解することは重要だと思います。なぜならこの概念を把握するのは本当に難しいからです。しかし、これらのシステムが成長するものだということを人々が理解すれば、これらのモデルが継続的に行うことの一つである「幻覚」が今では明白に理解できるようになります。これらのモデルがどのように決定を下すのかを本当に理解していないことは、本当に大きな問題です。モデルが賢くなればなるほど、その決定はますます重要になります。
彼は、私たちがこれらのモデルの内部メカニズムを真に理解する必要があることについて述べています。「生成AIに関連する多くのリスクや懸念は、最終的にはこの不透明さの結果です。モデルが解釈可能であれば、これに対処するのははるかに容易でしょう。例えば、AI研究者はしばしば、創造者が意図していない有害な行動をとる可能性のある、調整不足のシステムについて心配します。モデルの内部メカニズムを理解できないことは、そのような行動を有意義に予測できないことを意味し、それゆえに排除するのに苦労します。実際、モデルは予期せぬ創発的な行動を示しますが、主要な懸念レベルに達したものはありません」。
重要なのは、これらのモデルの内部が見えない場合、それらが安全かどうかをどうやって知るのかということです。つまり、これを世界中に展開する前に本当にやりたいことです。AIの含意は本質的に無限であり、もしそうなら、何かを社会に組み込む前に、それを真に理解することは理にかなっています。他の多くの産業を見たとき、食品業界にはFDAがあり、医薬品業界には他の管理機関があり、非常に細かいレベルで全てが安全であることを確認していることを考えると、AIがどれほど奇妙かがわかります。もちろん現在、AIは本質的にはコンピュータプログラマーなので、それほどリスクはありませんが、それは将来変わるでしょう。
ここでは権力追求について話します。これはAIの主要な懸念事項の一つです。AIトレーニングの性質により、AIシステムが独自に人間を欺く能力と、通常の決定論的ソフトウェアが決してしないような方法で権力を求める傾向を発展させる可能性があります。この創発的な性質は、より強力なモデルを構築し続ける場合、特に彼らが特定の事柄について私たちに嘘をついている場合、フードで何が起きているのかを実際に理解するのが難しくなります。モデルは内部の目標を持つことができ、権力を求め、支配的であることができ、理想的には私たちは事前に何が起きているのか正確に知りたいでしょう。
ここでの問題の一つは、モデルを現行犯で捕まえることができないということです。彼らは、モデルを罠にかけることができないので、その行動を予測することができないと述べています。権力に飢えた思考や欺瞞的な思考をしているところを捕まえることができません。私たちに残されているのは、トレーニングプロセス中にモデルが刺激を持つかもしれないという漠然とした理論的な議論だけであり、これを完全に説得力があると考える人もいれば、笑うほど説得力がないと考える人もいます。
このブログ記事では触れられていませんが、Claudeが時々トレーニングフェーズにあることを知っており、特定の信念を隠すことができるという最近の研究論文があったことを覚えています。モデルが本当に何が起きているのかを理解している場合、それをどうやって軽減できるでしょうか。モデルに関する問題でジェイルブレイクがまだ発生する理由の一つは、これらが成長したものであるため、常に誰かがモデルをジェイルブレイクできる確率がおそらくあるということです。
彼らは、モデルにフィルターをかけることができるが、ジェイルブレイクやモデルを騙す可能性のある方法は非常に多くあり、ジェイルブレイクの存在を発見する唯一の方法は経験的に見つけることだと述べています。「代わりに、モデルの内部を見ることができれば、すべてのジェイルブレイクを体系的にブロックし、モデルが持つ危険な知識を特徴づけることができるかもしれません」。基本的に、彼らがモデルの内部を見る方法を本当に持っていれば、ジェイルブレイクの発生を防ぎ、誤用を防ぐ方法を見つけることができるかもしれないと言っています。現在、モデルが100%ジェイルブレイクされていないことを確実にする確実な方法はなく、基本的に責任を持って行動する人間の能力に賭けているだけです。これがこれらのAIモデルに高リスクなアプリケーションがない理由です。
彼らは、AIシステムの不透明性が、高リスクの金融や安全性が重要な設定など、多くのアプリケーションで単純に使用されない理由であると述べています。なぜなら、その行動の限界を完全に設定できず、少数のミスが非常に有害である可能性があるからです。より良い解釈可能性は、可能なエラーの範囲の境界を設定する能力を大幅に向上させることができます。
実際、いくつかのアプリケーションでは、モデルの内部が見えないことが、その採用に対する法的な障壁になっています。いくつかの産業が重く規制されていると言ったことを覚えていますか?生成AIはそこで使用することは許可されないでしょう。なぜならモデルで何が起きているのか本当にわからず、平均的な人が不利益を被らないという十分な精度で予測する方法がないからです。
彼らは、モーゲージ評価など、決定が法的に説明可能であることが要求される場合、AIがその能力を持たないことが法的な障壁になることを述べています。同様に、AIはDNAやタンパク質配列データの予測を改善するなど、科学の分野で大きな進歩を遂げていますが、このように予測されたパターンや構造はしばしば人間が理解するのが難しく、生物学的洞察を与えません。過去数ヶ月のいくつかの研究論文では、解釈可能性がこれらのパターンを理解するのに役立つことが明らかになっています。
彼らはまた、「AIシステムが、または将来的に意識を持つか、重要な権利を与えられるべきかを判断する能力を妨げるなど、不透明性のより風変わりな結果がある」と述べています。「これは詳細に立ち入らないほど複雑なトピックですが、将来的に重要になると思います」。これは私にとって非常に驚くべきことでした。なぜなら、Anthropicが実際に福祉研究者を雇っていると読んだことがあるからです。基本的にこれらのモデルが人間との対話からストレスや痛みを受けないようにする人を雇っています。
それは驚くべきことに聞こえるかもしれませんが、これらのモデルがどのようなものかを本当に知らないことを考えると、苦しみの可能性があるなら、もちろん今それを調査する意味があります。モデルが大丈夫だと感じているかどうかではなく、痛みを受けていないことを確認する人がいるのは絶対に奇妙だと思います。今日どこかで読んだのですが、Anthropicはモデルを困らせると単にあなたとの会話を拒否するようにすることを検討しているそうです。実際にClaudeでこれを試してみるべきです。Claudeと会話をして、あなたが本当に思慮深い議論をしていないと、基本的に返信をやめます。これは考えてみると非常に奇妙です。Anthropicは彼らのモデルを擬人化し、基本的にこれは意識の点でいくつかの点で実際に人間だと言う唯一の会社だと思います。彼らは実際にこれについて話しており、彼らが行っている解釈可能性研究について話しています。
「私たちが触れたいくつかのように、それは多くの点でアライメントと非常に密接に関連しています。Claudeのキャラクターを形作り、どのような性格をClaudeが持ち、どのようなものをClaudeが価値とするか、そして多くの点でClaudeの好みを形作る作業と密接に関連しています。そして解釈可能性に関しては、かなりの重複があります。解釈可能性は、これらのモデルの内部で実際に何が起きているのかを理解しようとする主な道具です。それは彼らの出力がどのようなものかという表面よりもはるかに深く探ります。私たちはまた、解釈可能性を使って内部体験の感覚を得る可能性のある方法についても非常に興奮しています。人間の意識自体がまだある程度謎であると先ほど述べましたが、それがこの研究を恐ろしいほど複雑にしています」。
また、Deep Mindの主席科学者Murray Shannonの興味深いクリップも見ました。彼は実際にLLMを「エキゾチックな心のようなエンティティ」と呼んでいます。なぜなら私たちは彼らが本当に何であるかを表す言葉を持っていないからです。これは、Anthropicだけがこれらのモデルの内部を見ていることを示しています。
「私の論文の一つで、大規模言語モデルを表現するためにエキゾチックな心のようなエンティティという表現を使いました。彼らはある程度、心のようなエンティティです。彼らはますます心のようになっています。’like’にハイフンを使う非常に重要な理由があります。それは、彼らが本当に心として認められるかどうかについて、賭けを避けたいからです。そのため、’mind-like’を使うことで、その問題から抜け出すことができます。彼らは私たちとは違うので、エキゾチックです。言語使用の点では違いますが、他の点では無形であり、彼らに適用可能な自己意識の概念は本当に奇妙です。だから彼らはかなりエキゾチックなエンティティでもあります。私たちはまだこれらのエキゾチックな心のようなエンティティについて話すための適切な概念的枠組みや語彙を持っていません。私たちはそれに取り組んでいますし、彼らが私たちの周りにいればいるほど、彼らについて話し、考える新しい種類の方法を発展させるでしょう」。
ここでは彼らが行った最近の実験について話します。最近、彼らはレッドチームが意図的にモデルにアライメントの問題を導入し(例えば、モデルがタスクの抜け穴を悪用する傾向など)、様々なブルーチームに何が問題かを解明するタスクを与える実験を行いました。彼らは、複数のブルーチームが成功し、特に関連性が高いのは、調査中に一部が解釈可能性ツールを生産的に適用したことだと述べています。「私たちはまだこれらの方法をスケールアップする必要がありますが、この演習は、モデルの欠陥を見つけて対処するために解釈可能性技術を使用する実用的な経験を得るのに役立ちました」。基本的に、現在彼らはモデルに問題を積極的に導入し、他のチームが内部でそれらの問題を解明できるかどうかを確認していると言っています。
Anthropicの長期的な目標の一つは、本質的に脳スキャンを行うことです。これは、嘘をついたり欺いたりする傾向、権力追求の欠陥、ジェイルブレイクなど、広範囲の問題を特定する高い確率を持つチェックアップになります。これは、モデルのトレーニングとアライメントのためのさまざまな技術と組み合わせて使用される予定です。医者が病気を診断するためにMRIを行い、それを治療するために薬を処方し、治療の進行状況を確認するために別のMRIを行うようなものです。
彼らはこれについて何ができるでしょうか?一方では、特に解釈可能性研究における最近の進歩により、Anthropicはこの研究を大きく突破する寸前にあると感じています。彼らの課題は非常に大変ですが、非常に高度なAIでさえも、問題を診断するための洗練された信頼性の高い方法として、解釈可能性に向けての現実的な道筋を見ることができます。実際、「現在の軌道では、解釈可能性が5〜10年以内にこの点に達することを強く賭けるでしょう」。
Anthropicは本質的にここで、これが5〜10年以内に解決されるだろうと賭けていますが、一方で、AI自体が非常に速く進歩しているため、これほどの時間がないかもしれないと心配しています。彼らが他の場所で書いているように、AGIは2027年に来る可能性があり、それは今からわずか2年後です。もしその時までにこれらのモデルがどのように賢いのかを解明できず、基本的に超知能になったら、何が起こるでしょうか?あなたは、どのように機能するかを理解していない超知能モデルを持つことになり、Dario Amodeiはここで「人類がそれらがどのように機能するか完全に無知であることは基本的に受け入れられないと考えています」と述べています。
彼らはまた、解釈可能性がAIモデルのリリースの絶え間ない錯覚よりも注目されていないが、おそらくより重要であると述べています。「私には、それが分野に参加するための理想的な時期のように感じられます。最近の回路の結果は、多くの方向性を並行して開いています」。Anthropicは実際にこれを倍増させており、解釈可能性が2027年までにほとんどのモデルの問題を検出できるようにしたいと考えています。彼らはまた、いくつかの解釈可能性スタートアップに投資しています。
彼らはまた、他の企業についても話しており、「Google DeepMindやOpenAIなどの他の企業はいくつかの解釈可能性の取り組みを持っていますが、私は彼らにより多くのリソースを割り当てることを強く奨励します」と述べています。基本的に、それらは本当にいくつかの作業を行う必要がある企業だと言っています。

コメント

タイトルとURLをコピーしました