強力なAIは我々の脆弱な世界を破綻させ得るか?(マイケル・ニールセンとの対話)

AIアライメント・安全性
この記事は約39分で読めます。

この動画は、量子コンピューティング研究者でAI安全性について深く考察しているマイケル・ニールセンへのインタビューである。現実の深い理解が本質的に両用性を持つという観点から、AI技術の潜在的危険性と人類文明への影響について議論している。アライメント問題の限界、オープンソースモデルの意義、脆弱な世界仮説、そして技術発展に対する異なる世界観まで、幅広いトピックを扱った示唆に深い対話となっている。

中性子の発見に取り組んでいた人々は、その当時広島の焼失について考えていたとは思えません。それがわずか13年後に起こったにも関わらず、です。研究室でシステムをいじっていた人々から、この絶対的に甚大な破壊まで、本当にわずかな時間的隙間しかありませんでした。

AIとAGIは数多くの並外れたことをもたらすでしょう。私はタンパク質設計を使用して作られた最初期の薬剤の恩恵を受けている一人であり、そうした前向きな恩恵に興奮している人々には非常に共感します。しかし、甚大な負の副作用の可能性があります。

最初は少し目を丸くしました。教皇がコメントしたり、国連がコメントしたりするのを見て、それは全く間違っていると思ったのです。しかしすべてのそうした人々がこのことについて考えることが重要であり、解決策は非常に異なる、そして予期しない方向からやってくるでしょう。

マイケル、Future of Life Instituteポッドキャストへようこそ。

お招きいただき、ありがとうございます。

あなたはAIリスクについて素晴らしく洞察に富んだエッセイを書かれていますね。その中で指摘されている点の一つは、現実を深く理解することは本質的に両用性があるということです。これはどういう意味で、どのような例がありますか?

つまり、ある程度は経験的事実を述べているということです。何千年もの間を振り返ってみると、現実について十分に深い理解を得るたびに、現実を変える機会が生まれ、それが力を与え、建設的にも破壊的にも使用できるようになります。

人類史の中では比較的最近の例として、20世紀初頭の原子物理学と量子物理学の発見があります。これは多くの素晴らしいものをもたらしました。現代の多くの材料科学、半導体産業、そして現代経済の大部分です。同時に、部分的には核兵器と熱核兵器にもつながりました。一方を得ることなく他方を得る方法があるとは思えません

これが常にそうだと証明することはできません。しかし確実に歴史的に多くの例を見ると、さらに遡ってニュートン力学のようなものや、それが砲撃計算などに応用される方法を考えると、これもある程度別の例になります。

これがあなたの意見ではAIリスクの問題の核心ですね?つまり、現実をより深いレベルで理解できるシステムを理解したり作成したりするとき、それがこれらのシステムに善悪両方の方法で力を与えるという事実についてですね。

そうです。実際、これはAIリスクですらありません。科学技術によって作り出されるリスクというより広範な問題です。1955年頃のジョン・フォン・ノイマンの素晴らしい論文があり、これは多くのAIリスクの議論を反映しています。オッペンハイマーのような他の人々も似たようなことを書いていますが、それほど広範囲ではありませんでした。人間がこの非常に深い理解を得るにつれて、天候を変える能力や気候を変える能力が増大し始めるのです。

これはアライメントの観点からAIリスクを考えるのとは異なるフレーミングですね。あなたは真実を求めるシステムを作ることが、アライメントされたシステムを作ることよりも簡単だということをかなり懸念されています。なぜそれが簡単なのでしょうか?

簡単という意味ではなく、そこに焦点を当てるかどうかは確かではありません。確実に言えるのは、アライメントという概念を持つときはいつでも、有名な質問である「何にアライメントするのか」という歴史的な問題があります。

つまり、私たちは社会として、文明として、何千年もの間アライメント問題を解決してきました。ハムラビ法典まで遡って、人々はこの種の社会的合意を得ようとし、その社会的合意を実装するために必要な制度を作ろうとしてきました。明らかに文明は完璧ではありません。悪いことは今でも起こります。しかし、私たちはある種の合意概念とのかなり良いアライメントを達成してきました。

問題になるのは、特に重大な問題は、巨大な力を利用できるとき、人々が一方的に離脱することが可能になるときです。彼らはこの社会的合意に違反することができます。また、異なるグループが異なる合意に収束するという単純な事実もあります。

アメリカ軍、ロシア軍、中国軍は、アメリカの消費者アプリと同じアライメント基準を持つ可能性は低いでしょう。そして、アメリカの消費者アプリは、中国のアプリケーションとは非常に異なる概念を持つでしょう。

DeepSeekがモデルをリリースしたとき、かなりの数の人々が少なくとも非公式に報告しました(正式な評価は見ていませんが)、中国共産党があまり好まないことの多くがモデルで検閲されているように見えたと非公式に報告しました。つまり、その軸だけでもアライメントに大きな違いがあります。

なぜ私たちは他の危険な技術で行ってきたことを単純に行うことで、つまり進歩に合わせて適応することでAIリスクを解決できないのでしょうか?何かが起こり、破滅的事態が起こり、新しい規制を実装し、この技術と共進化できるのです。なぜ先進AIは違うのでしょうか?

これは素晴らしい質問です。これは1000兆ドルの質問であり、結局は同じようにはいかないということが判明するかもしれません。そこにはある種の楽観主義があります。

歴史的に以前の技術、特に以前の主要なプラットフォーム技術について考えると、これは非常にうまく機能することが多いです。私が愛する例はジェット エンジンの導入です。実際、これに最初に取り組んだ企業の一つであるコメットは、運用開始年に3回か4回の致命的な墜落事故を起こしたと思います。もちろん、彼らは運航を停止しましたが、同時に、それは恐ろしい人的損失でしたが、他の企業が正しく行うための巨大なインセンティブを作り出し、本当に技術を大幅に改善しました。

この種の、資本主義だけでなく、実際には単純な消費者感情なども、この種のアライメントを行うのに本当に良い仕事をすることが多いです。多くの技術で、これは口コミだけで驚くほどうまく機能します。それで十分に多くの圧力をかけることができます。

完璧ではありません。それでも怪しい薬が売られることがあります。時には恐ろしいものが売られることもあります。地下経済では、実際に死を引き起こす薬物のようなもので、この問題が大きくなることが多いです。そこには法的救済がなく、公的な方法でコミュニケーションを取ることが非常に困難です。Twitterでこの供給業者は悪いと言うことはできません。あらゆる種類の問題に自分をさらすことになります。つまり、そこではシグナリングが機能しません。

核兵器や気候変動、1970年代と80年代のクロロフルオロカーボンのような問題について考えると、これらはすべて、従来の制度がせいぜい様々な理由で苦労してきた例です。

気候は特に非常に興味深いと思います。この状況を継続することに強い利害関係を持つ巨大な資本のエンジンがあり、彼らは特に切り替えたくありません。彼らは再生可能エネルギーなどの専門家ではありません。

そこで問題になるのは、AIリスクやASIのXリスクはどのような性格を持っているかということです。どのように分類しますか?そして、少なくとも私の直感、私の信念は、個人の手に非常に危険な能力を置くこの能力が、それを気候や民主化された核兵器のようなものに非常に似たものにし、従来の技術とは異なるものにするということです。

AIやASIを潜在的に危険な新技術の生成器としてフレーミングすることもあります。この潜在的に脆弱な世界における技術の生成器としてのAIのフレーミングについて話していただけますか?

明らかな例は、私たちが見ることになるもののプロトタイプのようなものです。AlphaFoldはタンパク質構造予測を解決しました。構造をかなりよく予測できれば、それは設計作業を行うのに非常に役立ちます。

生成モデルが動作する傾向がある方法は、わずかな変化を試し続け、予測器を実行し続けて、どれだけうまく機能するかを見ることです。そのため、ここ数年で抗体設計などを行う能力が大幅に向上しました。

現時点では、私の理解では、私は専門家ではありませんが、そこで一種の中間状態にあります。市場に出た新薬はそれほど多くありません。このような種類のものが市場に出たものはそれほど多くありませんが、近づいています。文献を見るだけでも本当に興味深く、タンパク質設計に興味のある人々を見ることができます。彼らはAlphaFoldの後で本当に夢中になります

誰だったか覚えていませんが、これを行う企業の一つの求人リストを私に指摘してくれた人がいました。すべてPythonプログラマーやPyTorchなどの専門家向けでしたが、まだ初期段階です。

しかし、プリオン設計のようなことについて考え始めると、これは誰の心にも恐怖を与えるはずの2つの単語です。そして、なぜウイルス設計ではなくタンパク質設計が最初に行われたのかという質問は興味深いものです。

私の理解では、ウイルスについて収集されたデータがそれほど多くなかったということです。この巨大で非常によくキュレーションされたサービスであるプロテインデータバンクがあり、歴史的偶然によって部分的により良いデータが少なかっただけです。これも、高品質のウイルス設計を行えるようになることからそれほど遠くないと考えると、それは多くの素晴らしい影響をもたらすでしょうが、不安定な個人の手には必ずしも置きたくないものでもあります。初期の段階では、明らかに専門技術になるでしょう。それは明らかに使用と展開にかなりの背景知識を必要とする専門技術になるでしょう。時間が経つにつれて、それへのアクセスはますます民主化されるでしょう。

少し立ち戻りましょう。あなたが脆弱な世界について質問されましたが、これは人類に破滅的または実存的リスクを引き起こす可能性のある、比較的シンプルで、展開しやすく、作りやすく展開しやすい技術があるかどうかという問題です。

これはほとんどの人にとって先験的に信じがたく聞こえると思いますが、地球上の生命の歴史からの実際の例を見始めると、それほどばかげていないかもしれません。核兵器が機能するかについて、非常によく情報を得た人々は極めて懐疑的でした

数十億年前に遡ると、大酸化イベントのようなものがあります。酸素を代謝する能力が実際に地球上のおそらくほとんどの種を絶滅させ、その過程で与えることができる多くの例があり、非常にシンプルだが完全に変革的な技術が可能であることを示しています。

そして、再びそれを行うことに近づいているかどうかという質問をしなければなりません。科学技術を大幅に進歩させることができる任意のツールは、潜在的にそれを接続して有効にすることができます。

そして、これは自然に、これらの新しい、潜在的に危険な可能性がある世界に影響を与える新しい方法の開発のペースに私たちの制度が追いつくことができるかどうかという質問につながります。

私たちがここで正しい道を歩んでいるかどうかをどうやって知ることができるでしょうか?

ある程度、もちろん、これについての面白くて皮肉なことは、小規模な災害は制度を改善するのに非常に役立つということです。

確実に、核不拡散条約や様々な核実験禁止条約のようなものを見ると、それらを作成するために必要なインフラストラクチャー(インフラストラクチャーと言うとき、私はほとんど社会的インフラストラクチャーを意味します)が、ある程度再利用されています。

私が愛する例は、CFCの禁止をもたらしたウィーンとモントリオール議定書です。これらについて興味深いことの一つは、世界のすべての国がそれに署名したことであり、これは以前に行われたことがありませんでした。つまり、皆が同意し、技術を一括して置き換えることが可能であるという、この種の興味深い状況があります。

つまり、これらの種類のものは本当に重要な制度的進歩を表していると思います。残念ながら、それらは常にそうではなく、かなり特注です。何かがそれらを直接スケールアップするのに役立つような種類のものを持っているわけではありません。

このようなポッドキャストや実存的リスクのような用語について価値があると思うことは、それらが共通の規範、人々がこれについてコミュニケーションを取るために使用できる共通言語を作り始めることです。そして、それは明らかに非常に価値があります。調整を容易にし始めるからです。

先進AIに制御を失うことについてどの程度心配すべきでしょうか? それがここでの正しいフレーミングでしょうか?

それは非常に重要な問題だと思います。それは多くの可能なリスクの一つですが、あなたのリスナーは以前に多くの人がこれについて話すのを聞いたことがあるでしょうし、それはおそらくすべてのASIエクスプレスシナリオの中で最も目立つものです。

私の個人的な意見では、はい、私はそれについて非常に心配しています。それが根本的な問題だとは思いません。私は一般的に、この破壊的技術の可能性により懸念しています。それはそのような破壊的技術の例になるでしょう。それは必ずしも唯一のものではありません。

インセンティブはここでどの方向を向いているのでしょうか? 市場インセンティブは、どの方向に押し進めているのでしょうか?一方では、危険な製品を出すことは有用ではない、長期的には危険な製品を展開することは利益にならないということがわかります。他方で、企業や国などが先進AIシステムの開発に向けて非常に速いペースで競争しており、おそらく結果について長く深く考えることなくそうしているように見えます。

利益の問題だけでなく、これらの企業を経営している人々であり、彼らは死にたくない、子どもたちが死ぬのを見たくないという事実もあります。これらの人々の多くにとって、それは素敵なストックオプションを得られるかどうかという懸念よりもさらに重要なことです。

しかし、量子力学と核物理学の例に戻ると、中性子の発見に取り組んでいた人々は、広島の焼失について考えていたとは思えません。それがわずか13年後に起こったにも関わらず、です。研究室でシステムをいじっていた人々から、この絶対的に甚大な破壊まで、本当にわずかな時間的隙間でした。

しかし、中性子や陽子、原子核の構造などを発見していた人々の観点からは、それは人類にとって巨大な利益をもたらす素晴らしいゲームのように見えました。実際、それは人類に巨大な利益をもたらしました。それはおそらく、この状況について本当に困難なことの一部です。

AIとAGIは多くの並外れたことをもたらすでしょう。私は軽度の慢性的な生涯の状態に苦しんでいます。私はタンパク質設計を使用して作られた最初期の薬剤の恩恵を受けている一人です。それは以前のイテレーションでした。今日私たちがAIシステムと呼ぶものでは行われませんでした。しかし、私はこれがある種のレベルで素晴らしいことだと本当に思いますし、他の人々もこのような種類のものにアクセスできることにとても興奮しており、そのような前向きな恩恵に興奮している人々には非常に共感します。しかし、非常に防御が困難な巨大な負の副作用の可能性があります。

では、私たちがどの世界にいるかをどうやって認識するのでしょうか? 巨大な不利益がある悪い世界が、AIから多くの恩恵を得てリスクを回避する良い世界のように見える場合、これらの世界をどのように区別するでしょうか?これがAIリスクについて議論することを困難にすることの一つですね。

それは困難です。実際、私は少し見当違いのことを言っています。確信はありませんが、1930年頃の人々が核兵器のような武器の可能性を考え始めていたことを考えると、その時点ではまだ非常に推測的でしたが、都市ブロック、都市、国を一掃できるものをどのように手に入れるかは非常に不明確だったと思います。

つまり、ある種の未知のレベルの破壊があります。もし、原子物理学の理解に関する私の作業の一部がいつか破壊的な方法で使用される可能性があると考えているなら、彼らがおそらく待つ必要があった可能な負の結果の巨大な範囲があります。

しかし、E=MC²はその規模についていくつかの境界を与えてくれます。結果として、熱核結合は7%程度の効率だと思いますし、ある種のレベルでは、メガトンあたりのコストが関連する問題になります。そのコストが長い間何になるかは全く明らかではなかったと思います。

それがあなたの質問の類似だと思います。それを具体的な文脈に置いて、実際に非常によく情報を得た人でも、その時代に5、6、7桁の順序にわたって妥当な推定ができた可能性があることを明確にしたいと思います。それは問題です。

あなたの質問の一部に答えていませんし、すべてに答えていないと思います。おそらくここで尋ねるべき一つのことは、アライメントとアライメントに焦点を当てることが正しいアプローチかどうかという問題です。あなたはアライメントジレンマと呼ぶものについて説明されています。それは何でしょうか?

最近気に入っている類推は、あなたがオリンピック水泳選手だと想像することです。優秀なスプリンターになりたい、金メダルを獲得したいと直接特定した場合、筋力に取り組む必要があります。実際、筋力に非常に懸命に取り組む必要があります。しかし、筋力にのみ取り組むなら、それは実際に非常に逆効果になるでしょう。良い水泳選手にはなれません。つまり、それに取り組む必要がありますが、より大きな文脈の中で、です。

これまでに行われたアライメントの作業の主要な影響は、これらのシステムの作成を単純に加速させたことは非常に明確だと思います。確実に、特にRLHFの発明と成功した使用(RLHFだけでなく、他のことも)がチャットボットをある程度、興味深いシステムから、消費者にとって非常にフレンドリーで、政府にとって非常にフレンドリーなものに変えました。

そして、それは前に言及した資本主義的競争を本当に加速させる一種の方法です。つまり、それは確実に一連の重要な目標、つまり実際にAIシステムを比較的制御可能にするなどに役立ちますが、何百億ドル、何千億ドルがこの分野に流れ込み、すべてを本当に加速させるという犠牲を払ってです。

つまり、泳ぐ能力を本当に損なう間に、ある種の筋力トレーニングプログラムに完全に夢中になったようなものかもしれません。実際に問題を解決していません。

では、実際に問題を解決するものは何でしょうか? アライメントに取り組む可能性がある人が取り組むべき代替案は何でしょうか?

私は実際、ほとんどのアライメントの作業に対してかなり否定的です。個々のシステムの特性のみに焦点を当てたものは何でも、企業の利益とアライメントする傾向があると思います。

私がより興味があり、はるかに有望だと思うものは、すべて外部的なものです。世界の他の部分におけるガバナンスです。生物学的脅威のリアルタイム監視の方法や応答モデル、コンピュータセキュリティ、これらの種類のことに興味がある人々です。

安全性はシステムの特性ではありません。安全性はシステムとその完全な環境の特性です。 そして実際、非常にしばしば、環境に取り組むことの方がはるかに重要です。

現時点では、システムの安全性に取り組むことができる人々、これらのシステムは企業によって制御されており、自然な効果は、そのすべての作業が企業の利益とアライメントされることです。

もちろん完璧ではありません。なぜなら、それらは大きなエンティティであり、そのアライメントを完璧にすることは非常に困難だからです。しかし、一般的に言えば、それは個々のシステムのアライメントに関するほとんどの作業が資本のニーズに奉仕しているということです。

社会全般のアライメント問題について考えている場合、繁栄する人間文明を確保すること、FLIが献身していることについて考えている場合、今度ははるかに広範な問題に取り組んでいる人々について話しています。私は核不拡散条約のようなものについて言及しました。それは、この種の集合的安全を作り出すことを目的とした長い作業ラインです。

企業がエージェントシステムの作成を目指しているか、ツールのままである、より良いAIの作成を目指しているかが重要だと思いますか?

質問を少しひっくり返して、資本の利益は何かを尋ねることができると思います。そこでは非常に明確だと思います。それらをエージェント的にすることに巨大な利益があります。非常に単純な理由からです。人々は友情とロマンスボットを愛するでしょうし、それらが多少エージェント的であれば、より興味深く魅力的になるでしょう。花を買ってくれたり、そのような種類のことができます。その非常に単純な種類のことでさえです。

時間が経つにつれて、ある種の滑りやすい斜面があります。有名なことに、かなりの数のフラッシュクラッシュがありました。何が起こっているかはしばしば少し不明瞭ですが、何らかのAIのような、または初期の機械学習タイプやデータサイエンスタイプのシステムが市場に接続されており、多くの場合、市場で何らかの大規模な変化を引き起こしているようです。時には1兆ドル規模の変動です。

それは完全に人間的な意味でエージェント的ですか?いいえ。しかし、それはある程度、目標と報酬を持ち、世界で少しの行動を取ることができるだけでなく、潜在的に何千億または何兆ドルの動きに責任を負うことができるシステムです。これらの例は確実に15年前まで遡ります。2010年にフラッシュクラッシュがあったと思います。

つまり、それらが単なるツールのままである状況を見ることは非常に困難だと思います。それが何であれ、何がツールと、作曲家に対する写本家のようなものとの違いなのか、その基準は何なのかさえ明確ではありません。実際、これら2つのものはそれほど区別されません。

AIリスクについて実際に懸念すべきことがあるとどのようにして確信するようになったのですか?

主に、1980年代後期に、核の危険についてのカール・セーガンと彼の友人たちの多くの著作を読みました。多くの人々は現在、その一部を素朴または間違っていると見ています。また、エリック・ドレクスラーの「創造のエンジン」という本も読みました。そこで彼はグレーグーのようなシナリオについて話していました。その作業には多くの技術的問題がありましたが、それは私を興味を持たせ、認識させました。また、彼はある種のレベルで技術的問題についてかなり率直に述べていたようでした。

その後、私は理論物理学者になりました。長い間量子コンピューティングに取り組み、世界には実際にこの巨大な潜在力が内在していることが明らかになりました。私たちの現在の技術は表面をかすめているだけのように見えます。

それを説明してください。潜在力とは何を意味するのですか? これは分野を深く理解するときに理解することですか?物理学者や生物学者になるときに理解することですか?

面白いことに、私は核分裂のようなものの超専門家ではありませんが、十分によく理解しています。それは少しショッキングです。それを理解して、ああ、これは実際に非常にシンプルで、ただ隠されているだけだと気づきます。それが世界にあることは全く明らかではありません。 そして、それは私たちにとって良いことです。これらの爆弾を作ることがもう少し簡単でなく、それらをはるかに大きくすることがもう少し簡単でないことは、私たちにとってかなり幸運です。これらは世界についてのある程度偶発的なランダムな事実によるものです。

その経験を何度も繰り返しました。量子テレポーテーションや量子アルゴリズムなどに取り組み、再び、人々が世界の非常にシンプルなモデルを書き下ろし、その中に気づかない隠されたものがたくさんあるという経験をします。科学は実際にそれに満ちています。公開鍵暗号は素晴らしい例だと思います。それは奇跡です。確実に何百年も前に発明できたと思います。数論の中に本質的に隠された信じられないアイデアです。

生物学に隠された潜在力の最近の例は、ミラーライフのようなものかもしれません。もちろん、私はここでも専門家ではありませんが、ミラーライフは実際の脅威である可能性があるように思えます。そして、これは生物学者でない場合には推測できないものです。深い理解を持つ生物学者です。

それは正しいと思います。それは良い例です。それが実際に巨大な脅威であることは決して明確ではありませんが、私も特に知りたくありません。それは火遊びです。実際、火は素晴らしい例です。

時々人々は、ああ、この種の脆弱な世界の破滅のレシピがそんなにありそうもないと言います。そして、あなたは、ええと、1ドル以下で購入できるシンプルな技術を取り、誰でも操作でき、誰でも世界中どこでも手に入れることができ、追加の入力なしで、10億ドルの損害と1000人の死を引き起こすことができますかと言います。

もちろん、答えはイエスです。マッチに火をつけるだけです。そして、それは良いことです。空気中の酸素含有量を少し増加させると、火事ははるかに激しくなることを想像してください。火の嵐を確立することがはるかに容易になるでしょう。これが起こらないアンソロピック理由があります。

私たちはかなり友好的な世界に住んでいることを知っています。なぜなら、かなり友好的な世界に住んでいなかったら、この時点まで生き残れなかったからです。残念ながら、今では私たちにはこの巨大な脳があり、世界の理解を深めるすべての素晴らしい方法があり、その比較的友好的な体制に留まり続けることができるかどうかは決して明確ではありません。

実際に、私たちが友好的な世界に住んでいるかどうか、世界が脆弱かどうかは、非常に深い問題です。 これまでのところ、これについてどのような証拠があると思いますか?科学的に理解されている世界の働き方が私たちの存在に有利であるかというのが、質問の一つの方法です。

広範な質問を攻撃する方法を知りません。非常に否定的な方法以外では、実際に、ああ、これは特定の致命的な技術ですと実証できるかもしれません。実際、これはASIXリスクの議論の問題です。私は技術の思慮深いリーダーと多くの会話をしました。彼らは、ええ、人々が懸念している理由がある種わかるが、これらのAI悲観論者は、シナリオで点をつなぐように頼むと、いつもかなり曖昧になると言います。

ええと、実際にどれだけ点をつなげたいかわかりません。詳細なレシピの詳細な説明以外のものに満足しない人もいるという感じがします。それは知的に満足するかもしれませんが、それを作ることも恐ろしい間違いのように思えます。

これはあなたの説得のパラドックスの一つですね。AIがどのようにリスクになり得るかについて非常に説得力のある詳細な論証を行うと、危険な情報をそこに置くことになります。そして、これが議論が前進することを妨げるものです。

それはある程度妨げると思います。正直なところ、この時点ではそれほど妨げているとは思いません。ただし、その性質上、知ることは非常に困難です。人々から暗いささやきを聞きます。モデルがこれこれをするために使用されたという噂があります。それはほのめかすのが楽しいことかもしれません。現実は今のところあまり興味深くなく、ゴシップのようなものだと思うことが多いです。

おそらくそれが今のところと言うときの重要なポイントです。AIリスクについての懐疑主義が現在のシステムがどれほど知的であるかについての懐疑主義である場合、経験は、おそらく1年または5年待てば、より高度なシステムを手にし、ある時点で問題に直面するだろうと教えてくれます。

それもありますし、公的に行われていることと私的に行われていることの間にある種のギャップがあることも疑わざるを得ません。2つのうちの1つが起こるでしょう。軍隊が諜報機関などでシステム自体に取り組み始めるか、現在の大きな研究所との契約があり、ある種の分離があり、公的な目にはもう能力が完全に明らかではなくなるでしょう。

諜報機関の予算のかなりの部分は、基本的な種類の情報でさえ公的情報ではなく、プログラムの詳細はなおさらないことがあることを考えると、そこで何が起こるか、特にどのような能力が開発されるかが疑問です。

私は同意しますし、実際には、モデルがコーディングの分野などでより能力を持つようになるにつれて、研究所の一部または企業の一部が、これらのモデルを社内で展開して、AI研究をさらに改善することを支援し、競争でさらにリードを得ることができるようにしたいと誘惑される可能性があると期待します。そして、それは彼らの観点からモデルで行う最も利益が出る、または興味深いことです。社会に広く展開するのとは対照的に。

その状況は非常に危険になる可能性があります。なぜなら、AIモデルについてのこの公的情報がなくなり、制度がリスクなどに適応できるという私たちが話したこの種のやり取りがなくなるからです。

実際、これは私が少し考えを変えたことです。わずか数年前、私はオープンソースモデルについて全く熱心ではありませんでした。そして、主要な民間の取り組みがあることを条件として、比較可能なオープンソースモデルがあることを非常に支持します。それらが脅威ベクトルを作り出すとしても、それらはある種の表面積も作り出します。ああ、これらの脅威が作り出されていることを言うことができ、また、コンピュータセキュリティ監査を行っている組織やすべての種類の評価を行っている組織が、主要な研究所と非常に敵対的な関係にある必要がないことも意味します。しかし、実際には彼らはパートナーとして彼らと協力する必要があり、ある程度彼らは本当に適切な関係を持っていません。

しかし、Llamaやオープンソースモデルのいずれかを使用している場合、それは全く関係ありません。私が本当に好きな論文、それは小さな論文ですが、Kevin Epsigのグループがパンデミック病原体の作成を支援するためにLlamaをファインチューニングしたものでした。それは、Llamaをそのような種類の方法で使用できることが非常に示唆的だと思います。OpenAIやAnthropic、またはその他の許可を得る必要がありません。それが正しい種類の状況です。

つまり、それはモデルの現在の能力についての情報を世界に得る方法ですし、それは良い点だと思いますが、特に情報だけでなく、実際に研究所があまり公的に議論されることを望まないかもしれないもので、最も敵対的なことを行うことができることを望みます。評価を行っている組織が、それらを作成している企業とアライメントされる必要がないことは、非常に健全だと思います。

オープンソースについて私を不安にさせることの一つは、これらのモデルをリコールできないことです。オープンソースモデルがリリースされるたびに、その能力に関係なく、その製品をリコールすることはできず、世界に拡散します。これまで話してきたように、それが悪者の手に渡ったら、本当に問題になる可能性があります。

確実にそれはかなりの不利益です。モデルが最終的にどれほど大きくなるかという質問について考えるのは興味深いです。

モデルがどれほど大きくなるとはどういう意味ですか?

私が作ろうとしているのは、非常に一時的な中間的な議論です。モデルが実際に重要なクラスターでの推論しかできない場合、そのような種類のことしかできない場合、長期的にはありそうもないと思います。コンピュートは安くなり続けるでしょう。ええ、たぶん確実に、最終的には1000兆パラメータモデルを超えるものが必要になり、それを行うのは実際に非常に複雑であることが判明するかもしれません。しかし、それはあなたの議論を押し戻すための大きな飛躍です。

つまり、これまでのところ、消費者ハードウェアがフロンティアモデルを実行するのに十分に進歩していないことに依存できます。多くの推論や思考推論モデルを使用して、思考モデルは現時点で多くの推論を使用しています。

しかし、あなた自身が言及したように、それはおそらく時間とともに変わるでしょう。最も高度なモデルが、コンピュータハードウェアに追いつく方法でさらに多くの推論を必要とする方法を見つけることは起こらないと思います。

非常に高度なモデルを基本的にスマートフォンで実行できる世界に入ると思います。それは非常にありそうです。

これが最も強い意味で真実でない経済的理由があります。それは、モデルでより多くのスケールが役立つと信じるなら、最も強力な現在のチップがおそらく最高のモデルを実行するために必要になると期待すべきだということです。それが3万ドルかそれくらいの費用がかかるなら、それはスマートフォンに対して優位性を持つでしょう。

実際にそれが真実かどうかわかりません。現在のフロンティアモデルが推論を行っているとき、単に単一のチップで実行されているかどうかは、おそらく公的情報ではありません。私は実際にそれについて恥ずかしいほど無知です。

答えはおそらくイエスだと思います。つまり、クラスター全体に展開されていますが、特定のChatGPTクエリを実行すると、本質的に出力に責任を負う単一のチップがあります。実際にそうかどうかわかりませんが、もしそうなら、数万ドルの新しい種類で、実際にチップで推論を行うことができることを意味し、実際に私は思っています。

単一のチップを超えて、推論を単一のチップを超えてどれだけ簡単にスケールアップできるかという問題です。それは興味深い経済的制約です。最終的にはセルフォンバージョンがフロンティアモデルとそれほど違わないというあなたの主張に対してです。

このような会話をするとき、多くの未解決の質問があり、その一部は世界の一部の人々によって答えることができますが、一般的に誰も答えを持たない未解決の質問もあります。

AIリスクや高度に先進的なAI全般について考えるとき、私たちは確立された科学を持たずに、ある程度暗闇の中で手探りしています。 そして、おそらく私たちには確立された科学を持つ時間がないように感じられます。なぜなら、それには数十年、おそらく1世紀かかる可能性があるからです。物事が信じられないほど迅速に動いているときに、その状況でどのように行動すればよいでしょうか。作成しているモデルについて、モデルが非常に高度になる前に、深く理解する時間が本当にないように思えます。

私はすべてに同意します。魔法の解決策があればいいのですが。

ここで私が尋ねているのは、その状況に実用的にどのようにアプローチするかということです。あなたがオープンサイエンスなどに関わってきたことを知っていますし、科学がどのように機能するかについて何かを知っています。この私たちが置かれている状況を科学的に把握するにはどうすればよいでしょうか?

まず第一に、これは主に科学的問題ではないと思います。残念ながら、それはすべてを含む問題の一部であり、それも問題の一部ですし、非常に多くの異なる分野の人々が関与することを見ることに興味があり、興奮している(興奮は間違った用語かもしれませんが)、少なくとも励まされている理由でもあります。

Vitalikaのような人々や、実際に多くの経済学者について考えます。彼らは外部性のコストをどのように扱うかについて異なる思考方法を持っています。そのような種類の人が知っていることを見ることさえ、最初は私は少し目を丸くしました。教皇がコメントしたり、国連がコメントしたり、どこかの国の代表や大使が国連で発表を行ったりするのを見て、最初は私は非常に傲慢な物理学者的なことをして目を丸くしましたが、それは完全に間違っていました

すべてのそれらの人々がこれについて考え、心配することが重要です。そして、解決策は非常に異なる、そして予期しない方向からやってくる可能性が非常に高いと信じ、希望しています。

悲観主義には一種の本当に興味深い傲慢があります。何かについて悲観的であるためには、あなたとあなたの友人たちがとても賢くて全てを見通しているので、解決策があるなら、あなたがそれを知っているだろうと信じなければなりません。私が育ったとき、CFCが私たち全員を殺すだろう、またはすみません、オゾン層からの損傷が恐ろしい問題を引き起こすだろう、または酸性雨や他の多くの懸念について言われました。

それぞれの場合で起こっていたことは、問題を診断していた人々がそれについて非常に悲観的だったにも関わらず、自分たちとは非常に異なる背景を持つ善意の人々によって、どれほど多くの賢さが投入されているかに気づいていなかったということでした。それは少なくとも私にとって励みになります。

非常に多様な専門知識と非常に多様な利益を持つ人々がそれに取り組むことが私にとって非常に重要に思えます。教皇がコメントすることが実際に非常に有用である理由です。Rogersが思慮深く関与した方法で行われれば、それはより多くの人々を会話に持ち込み、特により多くの専門知識を会話に持ち込み始めるからです。

長期的には、この問題はガバナンスメカニズムや文化的規範などで解決できるものだと思いますか? AIシステムを整列させる方法や制御する方法などの基本的な技術的問題を解決していないが、物事がどうにかうまくいくほど十分に良いガバナンスを持つ世界を持つことができるでしょうか?

ガバナンスは、この種の会話で2つの別々の方法で使用される傾向があります。一つは非常に実用的な種類で、指摘できるすべての制度があります。国連、アメリカ政府などなど、司法、これらはすべてガバナンス制度です。そして、それは時々人間が人間の行動と結果を一般的にどのように制御するかという曖昧な方法でも使用されます。

困難な新技術では、前者を拡張しなければならないことは常にそうです。問題は、どれだけ拡張する必要があるかです。非常に大きな拡張が必要だと思います。それは本質的に解決不可能なものかもしれません。

恐ろしいことの一つは、災害が拡張を引き起こす主要なものの一つだということです。ユニオンカーバイドを得るか、彼女の名前は何でしたっけ、レイチェル・カーソンと「沈黙の春」を得ます。これらの種類のもので、非常に大きな問題を指摘でき、それが改善されたガバナンスメカニズムにつながります。

非常に直接的で非常に明白な脅威を指摘できる場合、利用可能なガバナンスメカニズムの拡張を得ることははるかに簡単です。一方、比較的明白でない脅威を指摘している場合、それは非常に困難です。気候がそのような問題だったことは、それです。気候モデルでほとんど進歩しないために60年かかり、その後何十年もの争いと争いと争いがありました。この非常に長期的な問題です。

そのため、オゾンホールからの脅威で得たもののような即座の転換は得られません。人々が行って見ることができ、ああ、非常に急速に拡大している穴があります。

AIリスクを気候変動と異なるものにすることの一つは、リスクが人々の生活でより明白になるということです。人々は印象的に高度なモデルと対話することができるようになり、それが彼らをおそらくこの問題に何かがあると確信させるでしょう。一方、気候変動では、科学的根拠なしに、しかし窓の外を見て気候懐疑論者になり、ここでは実際に何も起こっていないと考えることができます。

20年間の変化に気づかず、ランダムな運もあります。

私が興味を持っている一つの質問は、歴史の過程で、多くの人々が終末シナリオ、危険の予測を持ってくることです。そして、良いヒューリスティックは歴史を通じて、それについてかなり懐疑的であることでした。基本的に、それらを無視します。Y2Kは素晴らしい例です。終末シナリオを選んでください。そのヒューリスティックがもはや適用されない時をいつ知るのでしょうか?

確実に、この特定のケースでは、回避されたり対処されたりした重要な問題を実際に指摘できる限り、それは非常に有用でしょう。もちろん、Y2Kの問題は、事後的には、本当に問題がなかったのか、私たちは善良さがどれほどのお金を費やしたのか、非問題にという考えの学校と、私たちは非常に多くのお金を費やし、それが何も起こらなかった理由だと言う別の考えの学校があることです。

核保有国の数を見るだけで、それは非常に急速に上昇していました。その後、不拡散条約が発効し、完全に横ばいにはなりませんが、そこでの介入の影響を見ることができます。利用可能な組織の一部について、確実に興味深く、潜在的に本当に良いことは、隠されている介入のいくつかの影響を可視化し始めることができるかもしれないということです。コンピュータセキュリティなどで人々がこれを行います。ある程度の公的認識がありますが、すべてのアカウントによって十分ではありません。ランサムウェアなどはそこでの損害のほとんどが公的視野から隠されているため、制度やツールの影響を見ることは少し困難です。うまくいけば、人々は任意の介入の影響のいくつかをはるかに可視化することができるでしょう。

何が機能し、何が機能しないかを見ることができる方法として。 核保有国数の増加の尻つぼみのような、素晴らしいコンパクトな例が欲しいです。つまり、私たちは今100または150を持っているかもしれず、代わりに核カルテルのために小さな増加しかありませんでした。

AIについて心に浮かぶ準備された例はありません。私たちはまだその状況にはありません。

あなたが指摘した一つの逆説的な状況は、人類が脅威に反応し、それによってその脅威が現実になるリスクを減少させる場合です。 すると、懐疑論者は、ああ、そもそも脅威はなかったと言うことができます。もちろん、これが実際に反応してAIリスクと同じ状況になることを私は愛するでしょう。そうすれば、懐疑論者がそもそもここにはリスクがなかったと言うのは良いですが、このような地形を認識論的にナビゲートすることがいかに困難であるかを指摘する素晴らしい例です。特定の時間にリスクがどれほど大きかったかについて、おそらく明確な答えを得ることは決してないでしょう。おそらくここでは決して確立された科学を持つことはないでしょう。

では、良いヒューリスティックは何でしょうか? そのような状況をナビゲートするための良い経験則は何でしょうか?

あなたが私がそれについて知的なことを言うかもしれないと思ってくれて嬉しいです。確信はありませんが、確実により知的なことを言う人々がいます。誰かがそれを解決したかどうかは確信がありません。

実際、このAIリスクの科学について以前尋ねられ、再び言及されましたが、確実に、科学的な方法で推論できる特定の脅威があります。もっと広く考えると、それは特異に困難です。以前に気候の例について言及しました。人々が19世紀に気候変動について議論し始めたという驚くべき事実があります。20世紀の初めに、AngstromとArheniusの間の有名な議論があったと思います。彼らは非常にもっともらしい議論と非常にもっともらしい物理実験に基づいて、反対の結論に達しました。

政策の観点から、それは私たちを本当に奇妙な状況に置きました。 気候変動が起こるかもしれないという良い議論がありました。気候変動は起こらないという良い議論もありました。そして、現代の理解のようなものが発展し始めたのは実際には1950年代または1960年代まででした。そして、1990年代までにそれは本当にコンセンサスになり、何が起こるかがかなり明確になりました。

それは根本的に非常にシンプルな物理問題に対して80年余りの期間です。そして、AIの場合、根本的に知識の構造自体について話しているため、はるかに困難です。私たちのシステムがその構造をナビゲートする能力をどのように変えるでしょうか?それは宇宙のはるかに深く、はるかにアクセスしにくい部分です。

ある意味で科学の科学は存在しないことがわかりません。科学の科学として知られる分野に貢献した人々がいますが、それは定義上、発見の予測モデルではありません。まだ発見されていないものを知らないのです。それをより詳細な科学を持つことを想像するのははるかに困難に思えます。

航空機の安全工学のようなもっと似ているかもしれません。少なくとも起こりうることの種類の合理的なモデルを持つことができます。わかりません。認識論の変化について話すと、ゴッシュ、科学の科学について考えると、使用するであろう任意のツールが実際に変化の対象でもあるため、非常に困難です。

ある時点で確率論が発明され、その後Kolmogorovのような人々がそれを大幅に改善しました。1920年頃または1930年頃に彼がそれを行う準備をしていたとき、予測的な科学の科学を持っていたとすれば、使用していたツールは実際に彼がPearlや他の人々と発見していたツールと絡み合っていました。現代の因果推論の理論と一緒に。

私たちの認識論的ツール自体が変わるという面白い絡み合いがあります。非常に困難に思えます。

それは私たちが人間だから到達している限界だと思いますか、それとも基本的な限界だと思いますか? より希望的なシナリオで、例えばAI推論やAI思考を多く費やして、この地形をナビゲートしたり理解したりするのを助けてもらうためにAIを使用できるかどうかを考えています。

確実に。実際、私たちはこの種のことを行います。私が見た一つの推定では、アメリカは火災安全に年間約3000億ドルを費やしているということです。ある種のレベルで、それは実際に非常に似た状況です。その多くは監視であり、脅威ベクトルは何か、どのような種類の技術的修正を局所的に行ってより火災安全にすべきかなどを理解しようとしています。

その数字がそれほど大きいことは本当に驚くべきことです。世界のすべてのAIリソースのかなりの部分を、他のAIが何をしているかを監視し、理解し、可視化しようとすることに捧げることを想像できます。それはAI用の司法制度のようなものです。

問題は、そこで何を始めるかを知ることが困難だということです。監督するAIシステムに何をさせるかが正確に何であるか、なぜなら、AIに問題を解決してもらおうとしているが、問題を解決し始める前に、作業が行われる領域を確保する必要があるからです。

いくつかの別々の理由で非常に困難に思えます。一つは、外部の目から不明瞭になるところで暗号化されて物事を行う可能性であり、もう一つは知的作業の本質的な不明瞭さです。何が起こっているかの含意を理解することは非常に困難であることがあります。つまり、システムを監視していて、それが実際に非常に負の含意を持つ何かであることを伝えることは非常に困難かもしれません。本当に厄介な問題です。

あなたのような哲学者にとって素晴らしい問題です。もし単に知的であったなら、それは魅力的でしょう。

その点で、最後のトピックとして、深い無神論と楽観的宇宙論に関するあなたの最近のエッセイについて話したいと思います。これらは世界を見る2つの異なる世界観またはアプローチです。どのように違うのでしょうか?

Joe Carlson Smithが「AGI時代の他者性と制御」という素晴らしいエッセイシリーズを書きました。人間が技術の制御、一般的に宇宙の制御について、宇宙とどのように関係するかについてです。深い無神論は、宇宙に対して非常に根本的な不信の姿勢を持つことに対するJoeの用語です。

人々はしばしば、この用語を聞いて、それは無神論ではない、神が存在するかどうかとは本当に関係がないと反対します。私は反対として共感しますが、とにかくその用語に固執しましょう。

私は1年ほど前にJoeのエッセイを読みました。興味深いと思いましたが、その後、その概念がどれほど頻繁に頭に浮かぶかに驚きました。それで、それについて自分が何を考えているかをもう少し理解したいと思いました。

特に、実際にウィリアム・ジェームズを読んでいました。このウィリアム・ジェームズの前に、「宗教的経験の多様性」という素晴らしい本を読み終えたばかりです。ジェームズは本当に素晴らしいことをしています。これは真実かどうかという質問をする代わりに、個人の宗教的、神秘的経験とは何かを非常に非判断的な方法で尋ねるだけです。

ああ、これがトランス状態に入ることのようなものです。ああ、これが突然の回心体験を持つことのようなものです。非常にオープンな方法で。彼は完全に非判断的ではありません。軽信的な人ではありませんが、多くの異なることを聞くことに非常にオープンな人です。そして、私はそれを非常に美しいと思います。

そして、この深い無神論のアイデアを、それの特定のバージョンとして考えています。一部の人々は、心理的な姿勢として、宇宙が自分たちを狙っていると本当に信じている一方で、他の人々ははるかに信頼しています。その方向を引き起こすものを理解しようとするのは興味深いです。

それはあなたのAIエクスプレスに対する見解と驚くほど多く関連していると思います。以前に言ったようなことですが、大酸化イベントや核兵器の起源のようなことを理解することは、おそらく宇宙に対する私の姿勢を変えて、ああ、理解だけが障壁である、時には本当に負の方法で隠されている非常に強力なものがあると考え始めました。

少し学び、ああ、時には本当に負の方法で世界を大きく変えることができることに気づきます。つまり、それは理解のこれらの明らかに無害なタイプによって引き起こされた私自身の姿勢の変化です。

しかし、実際に質問に非常に興味があります。今日たまたまニューヨークにいて、昨年ここに数ヶ月だけ住んでいました。近所から近所へ移動するときの各近所での感情のタイプと、ある意味で利用可能な制度のタイプに魅了されました。特に子どもとして、道を歩いて見るもの。

それはあなたに利用可能な行動のセットのようなものです。ああ、公園に行くことができます。ああ、ブランコで遊ぶことができます。まあ、それはあなたの近所に公園がある場合にのみ真実です。そうでなければ、それを内在化しません。スタンフォードの学生なら、何かをしたいなら、ベンチャーキャピタルを調達して会社を始めることができると内在化します。

他の特定の高校や大学に行く場合、その経験を持つことはありません。それはあなたの語彙にある動詞ではありません。つまり、その種の経験が人々を条件づける方法についても考えています。何が彼らの楽観主義のレベルを設定するか、何が彼らの主体性のレベルを設定するか、彼らがウィンウィンの方向性を感じる程度 vs 何か他のものを設定するものは何か?彼らの過去の経験は何か?経験だけではありません。

遺伝学があり、環境決定要因があり、それを条件づける神話があります。これらはすべて、私がAIエクスプレスのために興味を持った深い無神論への方向性と密接に関連していると思います。この接続のために。これらの要因は、人々が最終的にAIリスクについて何を信じるかにおいて大きな役割を果たしているでしょう。私たちは常に希望するほど合理的ではありません。

実際、Joe Karlsmith のエッセイで私が愛することの一つは、彼が多くの点で彼の原型的な例としてEliezer Yudkowskyを取ることです。もちろん、これらの懸念を発展させ、普及させるために多くのことを行った人々の一人です。彼は、Yudkowskyが宇宙に対する根本的な不信の態度を本当に持っていることを示唆するかなりの例を見つけます。私はそれが非常に興味深いと思いました。あなたが言及した接続の非常に具体的な例です。

心理学者Danny Kahanemanを、彼がポッドキャストで話すのを聞いたことがあります。彼の意見では、人がどれほど楽観的または悲観的であるかは、特に合理的に根拠のない性格の特徴である傾向があり、それを変える方法はそれほどありませんが、世界について何を信じるかについて非常に多くを決定します。

これも明らかに、非常に密接に関連しています。同時に、現実が存在し、超人的なAIシステムを開発したときに何かが起こるという現実があります。ある意味で、世界が私たちに友好的であるか、世界が私たちを狙っているかのテストがあるかもしれません。

それはかなりのテストになるでしょう。わかりません。泣くよりも笑った方がいいです。この文脈でフェルミパラドックスがかなり心配になることを認めなければなりません。ASIをナビゲートすることが可能だったなら、それが開発され、星を植民地化し、どこでも私たちがそれらを見るべきだったはずです。

それがそうでないことが、脆弱な世界仮説を支持するかなりの証拠のように思えることが心配です。フェルミパラドックスは脆弱な世界仮説を支持するかなりの証拠のように思えます。

ちなみに、ASIによって有罪とされることを心配する人々がいることを言うべきです。ある種のレベルで、あなたがAGIだけの社会を持っていたとしても、アライメント問題は持続します。多くの点で、彼らにとって問題はさらに悪化するでしょう。彼らはより多くの力を持ち、すべてを運営する本質的に単一の力があるシングルトン状況に到達しない限り、破壊を起こすより多くの能力を持つでしょう。私たちは時々アライメント問題を人類だけの問題として考えますが、実際には一般的な問題です。

同意します。マイケル、お話しいただきありがとうございました。楽しかったです。

こちらこそ、ありがとうございます。

コメント

タイトルとURLをコピーしました