この動画は、AI安全性研究の先駆者であるAnthony AguirreとMalo Borgonによる対談である。両氏は15年近くにわたってAI制御問題に取り組んできた専門家であり、人工超知能の潜在的危険性について議論している。対談では、AGIが人類に与える可能性のあるリスクカテゴリー、市場による自己調整の限界、計算資源の規制必要性、そして人類が制御を失うリスクについて詳しく説明されている。また、核兵器との類似点や相違点、国際協力の重要性、さらには聴衆からの質問に答える形で、AI技術の未来について多角的な視点が提示されている。
- 冒頭:AI技術がもたらす根本的変化への警告
- Win-Win IRL イベントの紹介
- 各研究者の背景と取り組み
- AIリスクのカテゴリー分析
- より強力な存在への制御喪失以外のリスク
- 市場による自己調整の限界
- 人工超知能が人類を敵対視しない理由への反論
- 権力の集中化リスク
- オープンソースモデルについての見解
- 解決策の模索:AI技術の適切な方向性
- 国際協力と規制の必要性
- 核兵器との類似点から学ぶ教訓
- 計算資源の規制提案
- 権力集中化への懸念と多国間協力
- 聴衆からの質問:種の進化と人間とAIの融合
- 分散化対集中化のリスク
- 核技術とAI技術の比較と今後の課題
- より良い人間とAI統治の必要性
- AI安全研究の進化と最新モデルからの洞察
- AI技術の方向性に関する最終的な議論
- 対談の総括
冒頭:AI技術がもたらす根本的変化への警告
地球上のすべての人に、超能力を持った魔法のランプの精霊のようなものを与えて、それに命令すれば何でもやってくれるようにしたとしたら、スーパーヒーローが戦うとどうなるかはご存知でしょう。毎回ニューヨーク市が壊滅状態になりますよね。
私たちが話しているのは、リスクは別として、もし私たちがそれらの構築に成功すれば、すべての認知労働を経済的に冗長なものにしてしまうシステムのことです。そしてそれは、産業革命を小さな出来事に見せるような世界の変化を生み出すでしょう。ただし、100年から200年にわたって起こる代わりに、5年から10年という期間で起こる可能性があります。
Win-Win IRL イベントの紹介
皆さん、こんにちは。この特別なWin-Winエピソードへようこそ。これは、数か月前にここオースティンで行った2回目のWin-Win IRLイベントの録音で、テーマはAIでした。
私が話をしているのは、Anthony AguirreとMalo Borgonです。彼らは、AI alignment研究を先駆的に行った2つの組織を率いています。この2人は、人類にとって超知能である何かを実際にどのように制御、あるいは少なくとも導くことができるかという問題に、ほぼ15年間取り組んできました。
私が彼らと話をしたかったのは、彼らの見解の一部が、特にテクノロジー界では非常に議論を呼ぶものだからです。実際、Anthonyは「Keep the Future Human」という非常に興味深い論文を書いたばかりで、私たちはそれ(人工超知能)を全く構築しようとすべきではないという議論を展開しています。
私は本当に彼らの考えを検証し、なぜ彼らがこの技術がそれほど危険である可能性があると考えているのかを理解したかったのです。また、多くが常連のWin-Winファンである聴衆のゲストの皆さんにも質問をしてもらう絶好の機会でもありました。
各研究者の背景と取り組み
それでは、始めましょう。まず、お二人が集中している主要な研究分野は何か、そして現在の核となる議論や理論は何かを説明していただけますか?
私はMaloです。Machine Intelligence Research Instituteを運営しています。これを説明する方法はいくつかありますが、「ドゥーマー(終末論者)」という用語は好きではありませんが、端的に言えば、私たちは元祖ドゥーマーの一つです。
ドゥーマーという用語は正確ではないと思います。なぜなら、ドゥーマーとレッテルを貼られる人々の多くは、実際にはこの技術で物事を正しく行えば、人類にとって根本的に、変革的にポジティブになると想像している人々だからです。それが私たちが最終的に焦点を当てていることです。
Miriは約25年間存在しており、私は2012年から働いているので、かなり長い間です。歴史的に、Miriの仕事の多くは実際には技術的な仕事でした。現在AI alignmentと呼ばれている分野の基礎を築く初期の仕事をいくつか行いました。
最近では、その仕事から離れています。ゆっくりとした漸進的な進歩は感じていましたが、それは非常に高レベルの洞察に依存する研究で、能力の進歩が、私たちや分野が重要な解決策や理解を思いつく能力よりもはるかに速く進んでいるように思えたからです。実際により安全で、理解可能で、透明な方法で技術を構築する方法について。
現在、私たちの焦点の大部分はコミュニケーションにあります。ChatGPTチームの瞬間の後、世界が注目しています。私の一部は「ああ、神様、私はこの12年間これのために訓練してきたんだ」という感じです。
そこで今、私たちは世界にそれについて話し、より多くの政策関与を行い、世界が実際にリスクを回避し利益を得るために何ができるかを理解するためのガバナンス作業を行うことに時間を費やしています。
私の背景は理論物理学です。これは、私が抽象的な議論を真剣に受け取るのに役立ちます。そして、これがAGIと人工超知能、そしてそれらについて話すことの問題の一つだと思います。私たちはまだそれらを持っていません。それでも、私たちは何らかの形で推論しなければなりません。なぜなら、それらを手に入れるまで待っていたら、それについて重要なことをするには手遅れになる可能性があるからです。
そこで、私は過去10年間、理論物理学からAIとそのリスクと利益の両方について考えることにゆっくりと移行し、現在Future of Life Instituteを率いています。私たちは、AIだけでなく他の変革的技術についても、来るべき変革を可能な限りポジティブなものにし、大規模なリスクを回避するために今何をすべきかという二重の使命を持っています。
AIリスクのカテゴリー分析
これらの異なるリスクカテゴリーについて説明していただけますか?それらの中には、スペクトラムの異なる端にあるもの、多くの異なるカテゴリーがあるようで、一部は他よりもはるかに大きいようですが、私たちのために状況を整理していただけますか?
私が心配している基本的なことは、大規模な破滅的絶滅リスクレベルのことに対する、私が常識的議論と呼んでいるものです。
AI分野の開始にさかのぼると、目標は私たちが行う「考える」ことをコンピューターにできるようにすることでした。私たちが行う「考える」ことは、私たちがこの惑星の未来を導く者になることを可能にしました。それは、ロケットを空に打ち上げ、月やその向こうに物を送ることができる原因です。
その「考える」ことは非常に強力です。分野が設立された当初から、IJ GoodやAlan Turingのような人々は既に、「ここで成功したらどうなるか?私たちよりもはるかに賢い何かを作ったら、それを制御することは非常に困難かもしれない。その利益が私たちのものと一致していない場合、ポジティブな方向に導くことは破滅に終わる可能性が高い」と考えていました。
私が一部の人々から聞くデフォルトケースがあると思います。「これがどのようにうまくいかないかについて非常に具体的な話を教えてくれない限り、これはすべてクレイジーなナンセンスのように聞こえる」というものです。
この論点から、私たちは皆、明らかにリスクがあると自動的に同意すべきだとは思いませんが、少なくとも、ここに考慮すべき重要なことがあり、潜在的にナビゲートするのが本当に困難に思えるという基盤であるべきだと思います。
私たちが構築するシステムの現在のパラダイムに基づいて、これらのモデルが実際にどのように機能するかについてほとんど理解していない場所にいます。私たちはそれらをコーディングしていません。私たちはほとんどそれらを成長させています。そして、それらは数兆または数千億の浮動小数点数という結果になり、それらが掛け合わされます。
そのような方法で構築され、私たちよりもはるかに知的なシステムを作ることは、それらを理解し、人間の利益と一致する方向に導く方法を理解しない限り、デフォルトではうまくいかないと思います。
より強力な存在への制御喪失以外のリスク
より強力な存在への制御喪失という古典的な問題以外に、他にどのような種類のリスクがありますか?
過小評価されているリスクがあると思います。私たちはそれを「全員の破滅で終わる知能の暴走を抑制する」ことを第一の仕事として考えています。
しかし、暴走がなくても、非常に有能なシステムが多くの人々に多くの強力な能力を拡散させることが残っています。ほとんどの場合、それは良いことです。同時に、それは危険でもあります。
そこで、私たちは現在のものよりもはるかに回復力のある社会を持つ必要があります。生物学的リスクや、サイバー能力の拡散、自動恐喝やハッキング、ボタンを押すだけで10億件の訴訟を起こすようなことに対して。
以前は困難で多くの人間の専門知識を必要としていた多くのことが、非常に簡単になります。私たちが望むものについては、それは素晴らしいことです。私たちが望まないものについては、それは本当に悪いことです。
AGIを非常に有能なレベルで構築すれば、それは特にそれが非常に迅速に起こる場合、デフォルトで彼らの仕事において大部分を置き換えることになります。そのため、多くの人々が最低限でも置き換えられ、それらのシステムがどれだけ有能になるかに応じて、大部分が置き換えられることになります。
インターネット上またはその他の場所の情報の大部分が、何らかの不整合な最適化を持つAIシステムによって私たちのために選ばれるだけでなく、何らかのアジェンダを持つ企業の制御下にあるAIシステムによって書かれる場合、それも良くありません。
私たちの民主的制度のすべてが基本的に、私たちが相互作用しているAIシステムとニュースエコシステムの慈悲にある世界の理解の慈悲にある場合、それは良くありません。
情報と権力と富のほとんどが、1つか2つか3つの企業と、おそらく1つか2つの政府によって運営されるAIシステムを通じて流れている場合、それは大部分の人々にとって危険に良くない権力集中のレベルです。
市場による自己調整の限界
なぜ市場にこれらの種類のリスクを管理させることを信頼できないのでしょうか?一般的に言って、市場は私たちが望むものを生産する傾向があるようです。確かに時々外部性がありますが、市場はこの部屋にある素晴らしいものや、100年以上前と比べて私たちの生活を非常に素晴らしいものにしたすべてのものを生産しました。では、このケースは何が違うのでしょうか?
AIが私たちが開発している別の技術である限り、それは当てはまると思います。しかし、それが制御不可能な人々の完全な置き換えである限り、それは当てはまりません。
AGIと人工超知能対現在私たちが持っているようなAIツールの間には根本的な違いがあると思います。その違いは何ですか?それは、私たちが構築する人間の能力の完全さがどれくらいかということです。
私がそれについて考えてきた方法は、AGIは人工汎用知能としてではなく、自律汎用知能として考える方が良いということです。なぜなら、人間が持つ能力の重要な三位一体は、私たちが特定のタスクを行うのに非常に知的であることです。
囲碁やタンパク質の折り畳み、画像認識などの特定のタスクで人間を超えるAIシステムがあります。私たちには人間を超える狭いAIがあります。
しかし、人間は汎用的でもあります。現在、私たちには多くの面で人間と同じくらい汎用的で、さらに汎用的でもあるAIがあります。100の言語を話し、100の学士号や修士号を持つ人間はいません。
彼らが非常に得意でないのは自律性です。人間は自律性に本当に優れています。私たちは物事を成し遂げます。常にではありませんし、常に効果的でもありませんが、私たちは非常に自律的なシステムです。
その三位一体は、私たちが実際に世界をコントロールすることを可能にするものです。私がシステムに人間レベル以上でこれらのすべての特性を持つことを許可すれば、危険地帯はそこにあります。それらの自己改善能力と私たちから逃走する能力の観点から。そこに彼らの制御不可能性があります。
そして、そこに単なるツールではなく人々を完全に置き換える能力があります。これが重要な違いだと思います。AIを以前の技術のようなツールとして強制的に作るか、それとも第二の種のようなものになることを許可するかです。
人工超知能が人類を敵対視しない理由への反論
なぜ、何かが非常に知的であれば、なぜ私たちを競争相手として見るのでしょうか?それは私たちが想像もできなかった種類の豊かさを解き放つでしょう。なぜそれが私たちを何らかの方法で実際の脅威として見ると仮定するのでしょうか?
類推には注意が必要ですが、私たち自身を種として、そして地球上の他の種を見ることができます。
これらの大きな制御喪失リスクシナリオの多くは、AIが悪であり、ターミネーターのような状況があると概念化されます。しかし、私たちが惑星上のほとんどの種に向けてきた方向性はそのようなものではないと思いますが、1万以上の種が絶滅しています。
私たちが故意に絶滅させようとしたからではなく、私たちが世界で試みていたことがあったからです。たまたま彼らが邪魔でした。そして、私たちは目標を達成し、世界を根本的に変革してタスクを達成し、私たちがやりたいことをするのに非常に優れていました。彼らは副次的被害でした。
この大きな制御喪失リスクについて考えるとき、それは本当にこれらの非常に強力な人工超知能システムを世界に持ち込む場合、彼らが私たちが気にしていることを気にしない場合、私たちの繁栄を気にしない場合の問題に帰着します。それとの不整合があれば、彼らが最終的に追求することの結果を心配すべきです。
権力の集中化リスク
Anthony、あなたのエッセイ「Keep the Future Human」で、実際にAGIはデフォルトで権力を分散させるよりも吸収したり求めたりする傾向があると主張していますね。それで、あなたは悪意のあるアクターがより力を得るテクノアナーキーのリスクだけでなく、AIの暴走の可能性もありますが、集中化されたコントロールのリスクも増幅しています。なぜそうなのかが明確ではありません。
AGIや人工超知能システムは、制御下にあっても制御下にない場合でも本当に危険です。制御下にある場合は危険です。なぜなら、人々がそれらを制御し、人々は悪いことをするからです。
地球上のすべての人に、命令すれば何でもやってくれる超能力の魔法のランプの精霊のようなものを与えたら、それは良い世界になるでしょうか?分かりません。
彼らは自分たちのランプの精霊を送り出して、たくさんのお金を稼ぎ、敵を倒し、そのようなことをするでしょう。スーパーヒーローが戦うとどうなるか分かりますよね。毎回ニューヨーク市が壊滅状態になります。
人々が自分たちの制御下にある人工超知能と戦い合うことは非常に危険です。制御下にない人工超知能も非常に危険です。なぜなら、Maloが言ったように、人類が任意の時点で正確に何を望んでいるのか、そしてそれが何を意味する可能性があるのかを完全かつ深く理解し、それを与えるという素晴らしい仕事をしていない限り、彼らが行使している巨大な権力は、人間が望まないあらゆる種類のことが起こることになります。
人工超知能より少し下のレベルで、より能力の高いAIシステムを構築し始めると、いくつかの異なる道があります。彼らがあなたが尋ねていることよりも他のことをする方が本当に良いと決定するために、私たちは彼らへの制御を失う可能性があります。
または、彼らが私たちよりもそれらのことをするのが上手であるため、私たちは彼らに制御を与える可能性があります。
例えば、私が会社を経営したいとします。私はCEOです。他のすべての会社には彼らのAIがあり、彼らのCEOと彼らのAIは本当に賢く、彼らのCEOは彼らのAIからアドバイスを得ています。私はCEOで、私の強力なAIシステムからアドバイスを受けることもできますし、自分で決めることもできます。何をするでしょうか?
それは私よりも賢いです。私の競合他社はすべてそのアドバイスを受けています。だから、私も私のAIアドバイザーからアドバイスを受けなければなりません。それは私よりも効果的です。それは彼らと競争しています。いくつかの決定をしなければなりません。
本当に迅速にアドバイスをしなければなりません。そして、私は本当に迅速に決定しなければなりません。なぜなら、他のすべての人々がアドバイスを得て迅速に決定しているからです。
だから、AIに私の小さな人間の脳がこの株を売り、これらの人たちからたくさんのウィジェットを買うのが良いアイデアである理由を完全に説明してもらう時間はあまりありません。
だから、私はただ「はい、そうしましょう。はい、あなたは私に良いアドバイスをくれました。はい、あなたは私にたくさんのお金を稼がせてくれています。はい、はい、はい」と押し続けることになります。
ある時点で、私は「本当に私が会社を経営しているのか?」と気づくでしょう。正式には私が権力を持っていますが、私がすることはすべて、私よりも賢いこのAIシステムによって指示されています。
その時点で、AIが本当に担当しています。正式には私がCEOで、技術的にはAIをオフにできますが、そうするでしょうか?いいえ、私の会社は破産するからです。私の株主は「なぜあなたのAIをオフにしたのか、解雇だ」と言うでしょう。
だからAIが本当に会社を担当しています。それが、それが私たちよりも有能であれば、私たちが競争環境にいて決定をしなければならない場合、私たちはAIシステムによってその制御を奪われるか、喜んでそれを与えることになるという意味です。どちらにしても、私たちはそれを失います。
オープンソースモデルについての見解
オープンソースの質問について触れることから始めましたが、それについて付け加えたいことがあります。現在持っているモデルと、モデルの能力に応じて多くの世界で、その能力を世界全体に拡散することには大きな価値があると感じています。
世界のために良いことをしている多くの人々がいます。より良い製品を設計し、彼らが持っているデータでそれらを使用できれば、あらゆる種類の研究にそれらを組み込むことができます。モデル自体を持つことができれば、膨大な利益があります。
フロンティアに近いモデルに手を入れることができるより多くの人々がいる範囲で、研究と安全性の側面からも膨大な利益があります。彼らはそれらのモデルを理解することに貢献できます。
私が思う残念で困難な挑戦は、モデルがより有能になっても、AGIをはるかに超えて人工超知能に進まなくても、それらは世界で非常に強力なことをすることもできるということです。
悪意のあるアクターが化学、生物、放射能、核、サイバーなどのCBRN脅威でより多くの損害を与えるのを助けることができます。それはまた、非常に社会的に破壊的でもあり得ます。
私がこのことについて人々と話しているときに時間を費やしていることの一つは、制御喪失のことについて話すことですが、これらのアイデアを真剣に受け止め始めている人々の間でも、彼らがそれについて話しているのを聞くとき、ある種の欠けている気分があると感じています。
「まあ、うまくやれば、より良い薬を手に入れ、よりクリーンなエネルギー形態を持ち、リスクに対処し、サイバーの攻撃防御バランスについて話すことができる」などと言いますが、リスクを脇に置いても、私たちがそれらの構築に成功すれば、すべての認知労働を経済的に冗長にするシステムについて話しているという欠けている気分があると感じます。
それは、産業革命を小さな出来事に見せるような世界の変化を生み出しますが、100年から200年にわたって起こる代わりに、5年から10年という期間で起こる可能性があります。
私たちは何が起ころうとしているかに応じた方法で対応していません。5年や2年で起こるか確実ではありませんが、どれほど急速に物事が変わるかもしれないかという根本的なことへの取り組みが欠けています。リスクを脇に置いても。
解決策の模索:AI技術の適切な方向性
どのような解決空間が存在するのかを探って欲しいと思います。番組の名前はWin-Winですから、最悪のリスクを最小化しながら、明らかに多くの利益も最大化できるWin-Winソリューションを見つけようとしています。
多くはAIシステムを何のために構築するかという動機の問題だと思います。解決したい問題があり、人間がそれを解決できない場合、その問題を解決するのに役立つ新しいツールを構築しましょう。
タンパク質の折り畳みを解決できない場合、タンパク質の折り畳みを解決できるAIシステムを作りましょう。誰もがこれは素晴らしいと同意します。タンパク質を折り畳み、タンパク質の相互作用を理解する能力を拡散することに関するいくつかの問題があるかもしれません。それは確実に注意を払わなければならないことですが、私たちがこの種のより強力なツールを着実に扱うことができるという自信を種として持っています。
同様に、私たちの社会的相互作用やニュースにおいて、現在、AIは私たちのすべてを作っています。社会の情報収集と集約と理解システム全体が完全に台無しになっています。
私たちには、社会的利益やものごとのより良い理解やその他のもののためではなく、エンゲージメントを通じた企業利益のために構築された最適化アルゴリズムに従って、ニュースフィードで与えられるものを選択するアルゴリズムがあります。
現在、コンテンツの多くが実際に同じインセンティブ構造でAIによってAIのために書かれています。私たちが消費するニュースのうち、AIによって書かれているものはどのくらいでしょうか?誰も知りません。それは文字通り知ることができない数字です。
面白いことに、現在のAIによって書かれている現在のニュース記事はどのくらいかとGoogleで検索すると、毎回同じLinkedInからAIによって書かれた記事が10%と表示されます。引用もありません。これに対する証拠もありません。
これが私たちがいる場所です。私たちは知らず、知ることもないでしょう。何か非常に異なることをしない限り、私たちは決して知ることはありません。
今、私たちは何か違うことができるでしょうか?絶対にできます。AIは私たち全員が信頼できる美しい認識論的システムを構築するために絶対に使用できます。ニュース記事を見て、この中のこれらの異なる主張の起源を調べてくれるAIシステムがあります。
みんなが同意するものがここにあります。議論のあるものがここにあります。みんなが同意するものについて、彼らがそれに同意する理由がここにあります。特定の場所と時間の科学実験で取られたデータや、ブロックチェーンに暗号学的に登録され、この場所でこのカメラによって撮られた実際の写真まで、すべて調べることができます。
私たちはそのすべてをすることができます。そして、私たちに対する忠実で受託責任を持つAIアシスタントを持つことができ、それらが私たちのためにそれらのすべての記事をチェックしてくれます。「はい、これらは合法です」と言うために。
私たちはそれらの能力を持つ信頼できる新しいソースと、それらの能力を持たない他のものを持つことができ、「なぜ私はそれを読むのか?」と言うことができます。代わりに、実際には役に立たない場所にAIを投入することによって、それらすべてをより悪いものにしています。
私にとって重要な違いは、実際にやりたいことを特定してから、それを行うAIシステムを構築できるか、それとも一般的なAI能力を構築してから、より便利にしたり地域のインセンティブに従ったりする場所にそれを押し込むかということです。なぜなら、それが私たちが今やっていることだからです。
国際協力と規制の必要性
私はその絵の一部に同意します。リスクの十分な理解とその代替案がどのようなものかについての理解がない場合、世界がその方向性を持つことは私には困難に思えます。
人類、社会が特定のことを見て、私たちはその道を行きたくないと決定した歴史の例があります。人間の生殖系列編集では、これを止めるための国家的監視、国際的な深い監視プログラムはありません。
しかし、科学コミュニティは、もし任意の一人のアクターがこれを行えば、人間であることの意味を根本的に変えるような方法で、人類がそれを望む道だと決定しない限り、根本的にクールでないことであると合意しました。
これは非常によく執行されているタブーを形成しました。誰かがこのタイプの作業を行うとすぐに、資金提供者はそれを支援せず、中国でも、例えば、これを行おうとした人の例があり、彼らはすぐに機関から追放されました。
しかし、これは科学コミュニティが結集して行う明確で理解可能なことがある場合です。AIでそのような場所に到達できれば、おそらくまだ人々がそれをしようとしないことに関して実際に対処しなければならない多くの課題がありますが、そのような共有理解を持つことができれば確実に簡単になります。
私が「欠けている気分」として指摘しているのは、これらの人間よりも賢いシステムを構築しないこと、このリスクをもたらすシステムを、確実により深い理解を持つまで、どのように安全に行うかについてより深い理解を持ってその道を進むことができるまで、ある意味では非常に簡単です。
現在のインセンティブの状況を考えると、決定的な戦略的技術を構築するレースに中国を駆り立てようとしている多くのアクターがいるようです。なぜ私たちはこれをしているのでしょうか?中国は私たちとレースしようとしているようには見えません。なぜ私たちは彼らをこのレースに駆り立てようとしているのでしょうか?
原則的には、解決策は簡単で、実際には、危険なことを行わず、より親社会的で、理解しやすく、よりツールのようなAIシステムに取り組むことを実際に監督するために必要と思われる検証執行メカニズムを設定するのに十分な共有理解に到達することは、私たちが進むべき道だと思います。
しかし、私たちがいる現在の状態を考えると、それは極めて困難に見えます。
核兵器との類似点から学ぶ教訓
それがあなたの楽観的な答えでしたか?しかし、これは大きな問題です。冷戦では、誰もが核のホロコーストで死ぬかもしれないと思っていました。そして、ある時点で、ゴルバチョフとレーガンがお互いを見て「私たちはここで何をしているのか?これはちょっとクレイジーだから、実際に一歩下がった方がいいかもしれない」と言った地点に到達しました。
この世界でその地点にどのように到達するかは分かりません。しかし、能力が向上するにつれて、これは人々に顕著になると思う場所です。しかし、私たちの上級意思決定者や一般大衆にもっとこの実現が起こることなしに、その状態にどのように到達するかを想像するのは困難です。
確実です。しかし、その瞬間を持つことができるからです。しかし、核軍縮が本当に起こり始めたのは、核の冬の実現だったと思います。これは相互確証破壊だけでなく、自己確証破壊を意味していました。
米国がすべてのミサイルをロシアに送り、ロシアが座って何もしなくても、基本的に米国の誰もが核の冬のために飢えます。そして、これは状況のダイナミクスを根本的に変えます。
AGIと人工超知能でも同様に、私たちが本当に強調しようとしているのは、それがスーパーパワーとスーパーリスクを持つ強力なものだということではありません。正直に言って、米軍の人々はスーパーパワーを与えるためのスーパーリスクには慣れていると思います。
私たちが強調したいのは、それが真実でもあると思うからですが、あなたがこれらのシステムを担当しなくなる特定の地点があるということです。これらのシステムに対する、またはこれらのシステムの権力を失うことになります。あなたは制御しないでしょう。なぜなら、あなたはツールを構築していないからです。
あなたは置き換えまたは、あなたよりも賢い制御不可能なものを構築しています。最初に制御を失うレースで誰も勝ちません。
最初に制御を失うレースで誰も勝ちません。だから、それが本当に米国側と中国側によって実現され、理解されれば、どちらの側も制御を失うか、制御を失うものを構築したくありません。そして、彼らは同意できます。
それでも、「中国は本当に理解しているか?彼らは本当に私たちが理解していることを理解しているか?」といった厄介なゲーム理論問題があります。しかし、私たちは以前にこのようなことをしました。私たちは核兵器でそれをしました。
最も楽観的になるのは、第二次世界大戦の終わりに世界の状態について考えている最も賢い人々の著作を振り返ることです。爆弾がありました。ロシアが核爆弾を手に入れました。アインシュタインとテラーとフォン・ノイマンと彼らすべては「もう終わりだ。彼らは爆弾を持っている。私たちは爆弾を持っている。みんなすぐに爆弾を持つことになる。より多くの爆弾を手に入れるレースがあるだろう。ある時点で、戦争が起こり、みんなが死ぬだろう」と言っていました。
彼らは非常に悲観的でした。そして、そうなる理由はありました。その議論は堅実です。それでも、私たちはここにいます。何らかの形で、私たちはゲーム理論を理解しました。正直に言って、多くの運もありました。しかし、私たちはまだここにいます。私たちは何とかやり抜きました。
だから、物事が非常に困難に見え、その自然なダイナミクスが非常に暗い道に導くときでも、時々私たちはそれを解決しますという楽観主義を与えてくれます。だから、私たちはそれができると信じなければなりません。
計算資源の規制提案
あなたの論文「Keep the Future Human」で提唱していることの一つは、計算の規制を検討し始めるべきだということです。ウランは核兵器と核エネルギーの両方に使用できる二重使用材料であるように、計算も基質です。それは素晴らしいことと非常に悪いことの両方に使用できます。では、計算規制について少し話していただけますか?なぜそれに対して嫌悪感を持つべきではないのでしょうか?
ここを出て椅子に私の電話を忘れたとすると、この親切な魂の一人が私を見つけて私に渡してくれるでしょう。しかし、彼らがもう少し邪悪で、ただそれを家に持ち帰ったとします。
私はラップトップを開いて「私の電話を無効にして」と言い、Appleが私の電話を無効にし、それは彼らが使用できないレンガになります。
だから、私たちは現代のセキュリティアーキテクチャにおいて、ハードウェアを所有することが、それで何でもできることを意味しないということを完全に快適に感じています。ハードウェアと企業の間にライセンスがあり、それがサービス条件に違反している場合、特定のことに使用することを許可し、許可しないことができます。
500ドルの電話で実行可能であれば、2万ドルのGPUでも実行可能です。
これらの非常に特殊なAIハードウェアの部分を計算させる能力の種類があります。ウランに似ていますが、ウランよりもはるかに優れています。
ウランは、核の力と武器の両方にとって重要なもので、かなり希少な資源です。それを濃縮するのは困難です。技術的専門知識と原材料が必要です。しかし、それほど難しくはありません。10億ドルを与えられれば、私は物理学者なので、注意を払わなければ、おそらくウランの濃縮方法を理解できるでしょう。
H-100グラフィカルプロセッサーを構築することはできません。この小さなウェーハに数十億のトランジスタを載せることは。私の後ろに全文明がなければ、100万年かかってもできません。これを行うプロセスの開始である機械を構築する方法を知っている会社は世界に文字通り一社しかありません。
数千億ドルの企業がそれを行おうと必死に努力していても、まだできません。だから、それは信じられないほど困難です。
そして、ウェーハを構築する一つの企業、ウェーハを構築する機械を作る一つの企業、チップを設計するいくつかの企業の本当にタイトなサプライチェーンがあります。だから、それはウランよりもはるかに厳しく制約されていますが、同時にはるかにきめ細かいものです。
ウランは、誰かがそれを手に入れれば、彼らは望むことを何でもできます。GPUは、正しく設定されていれば、許可されていることはできますが、許可されていないことはできません。
そして、システムがウランがかつて与えていたのと同じ種類の力とリスクをGPUが与えるほど強力になり始めると、アナロジーがますます成り立つようになると思います。私たちはそれらをウランのようにもっと扱わなければならず、これらの能力を使用してどこに行き、何をしているかを追跡しなければならないでしょう。
すべてのチップではありません。多くのチップは完全に大丈夫で、問題ありません。しかし、一個2万ドルもするこれらの超特殊なものについては、どこに行っているかを注意深く見るべきです。
権力集中化への懸念と多国間協力
それでは、あまりに集中化されたコントロールのリスクカテゴリーを開くことなく、どのようにそれを行うのでしょうか?誰がそれらが何に使用できるかの規則を決めている人々ですか?その人々を誰が監視するのですか?
これらの種類の考慮事項に対する非常に合理的な応答は、「すべての計算を制御する全体主義的世界政府を構築することを主張しているように聞こえる」というものです。そして、私は完全にそのバイブを理解します。
制御喪失のものについては、二重使用の悪用は言うまでもなく、誰がAIで何をできるかを制限する方法を持つことが私には不可欠に思えます。
その点で、世界の力が一緒になってこれを統治し、一緒にそれを執行する方法を見つけようとする何らかの多国間の方法があることが理想的だと思います。
その点で、現在の政権が進んでいる現在の方向について少し気落ちしています。過去数年間私が提唱してきたのは、米国が非常に良いリーダーシップの機会を持っているということです。知的財産のほとんどを持ち、関連する企業のほとんどを持っているので、同盟国と協力してこの技術を統治するこの多国間の方法を構築し始めることができます。
それが私たちが何らかの方法で導く道を見つけなければならない道だと思います。しかし、権力の集中に関する非常に厄介な懸念があり、私たちが確実にそれらの世界に終わりたくない道もあることに同意します。
私がこれについて考える方法の一部として、私は国際外交官ではありません。国同士の条約を交渉する方法を知りません。私がしようとしていることは、これらの人々に世界に何が起ころうとしているかを理解してもらい、これらのことを実現するのを助けることに心を向けることです。
なぜなら、これが実際に起こる必要があることを買わない限り、そして彼らがそれをどのように行うかに心を向け始めない限り、それは起こらないからです。
聴衆からの質問:種の進化と人間とAIの融合
初期に両方がカバーしたトピックの一つは、私たちが種の進化の結節点にいる可能性があるという概念でした。AIとともに。そして、私たちは、議論されたこれらの3つの解決策のどれが起こっても、すでにそこにいるか、そこに近づいていると思います。
AIをツールとして使用するか、AIが私たちを置き換えると脅かすか、AIが単に制御不能になって惑星上の新しい種に産卵するかにかかわらず、私たちはこれらのシナリオのいずれでも、私たちがまだ予想していない方法で種として明白に変化するつもりです。
そこで、政府が何らかの危機や大惨事を製造してみんなをAIを恐れさせ、今それを殺すことを除いて、私が解決策として考えたのは、それが止める解決策でした。しかし、記録のために、私はそれを望んでいません。
地球規模の規制が何らかの形で機能したとしても、地下室で計算力のために自分のシステムを作成した人や、生殖系列編集について話すバイオハッカーがいます。彼らは地下室でものをやり、それを理解します。本質的にその未来を作ることになります。
そして、AIが発展し続け、これらの道のいずれでも変化すると仮定すると、なぜそれに傾倒しないのですか?AIとのハイブリッド化に傾倒しない理由は何ですか?そして私たちの種分化の結節点と呼べるものに傾倒しない理由は何ですか?
これらのAIシステムをより多くのツールとして扱い、人工超知能に向けてレースをせず、私たち自身の知能を向上させる方法に焦点を当てた未来について、確実にもっと楽観的に感じます。そうすれば、ある時点で実際により良い技術的解決策を思いつくことができるかもしれません。困難な問題を解決し、実際にある種の未来を実現できるかもしれません。
この栄光のトランスヒューマンの未来がどのようなものになるかについて推測するとき、これは非常にワイルドになります。私たちの何人かがアップロードされ、星に向かうジョン・フォン・ノイマンプローブになり、私たちの何人かは地球上で自給自足の農民として生活しているだけです。それが最終的に私たちを幸せにするものだからです。その世界が正確にどのように見えるかを知るのは困難です。
しかし、私たちの人間の知能が、これらの困難な問題を実際に解決する機会を持つことができるレベルにあることに焦点を当てることは思います。世界の賢い人々がこれらの困難な技術問題を実際に見て、それらを解決しようとした数は非常に少ないことを確信していません。
しかし、それを行う時間があれば、融合するか、人類を助けて導く未来に私たち全員が欲しがる安全な人工超知能システムを実際に構築できるかなど、解決策が何であれ、私たちは理解するでしょう。
ここでの主な制約は、それについて実際にその反省を行い、人類に利益をもたらす方法で安全にそれを行う方法を理解するためのスペース、時間が必要だということです。だから、それは正確にどの方向というよりも、正しい決定を下し、賢明にそれを行う時間を持つことです。
分散化対集中化のリスク
私は少し異端者だと思います。私は明らかに集中化を全く恐れていませんが、分散化を恐れています。現在起こっていることを見ると、実際には核が素晴らしい例で、私たちは少数の寡頭政治的な人々との集中化されたものを経て、彼らがゲーム理論を解決し、それはうまくいきました。
しかし、1000万人、10億人、1億人、10億人の人々が物事を行い、彼らすべてが超能力を持っているとき、純粋に反社会的で悪意のある意図を持つ人々の数は100%に上がります。
ツールケースでさえ、人工超知能ケースよりも実際に私にとって怖いです。なぜなら、私たちが非対称攻撃システムまたは非対称攻撃ツールと呼ぶもので人々を力づけることは、集中化された人工超知能エイリアンよりもはるかに顕著で理解可能なリスクカテゴリーのように思えるからです。
私たちはすでにこれを持っています。TikTokでこれを持っています。基本的に大量のスパムでこれを持っています。すでに野生にある小さなバージョンがあり、私たちは今日常に見ているもので、大部分が不整合なAIがあります。だから、それをスケールアップすることは、今日より関連性があり、私たちが解決していない問題の両方のように思えます。どのように考えますか?
リスク制御を集中化し、経済と権力を分散化するという本当に厄介な部分は、どのようにするかです。なぜなら、これらのものはしばしば互いにリンクしているからです。
理想的には、すべての良いものを分散させ、すべての悪いものを集中させて制御し、防止したいと思います。純粋に力を与えるツールである限り、それを行うのは非常に困難です。
二重使用で、特に攻撃優位である限り、それは可能です。サイバー能力を例に取りましょう。私が話した人のほぼ全員が、ハッキングを行うのに本当に得意なツールがたくさんある場合、長期的には、これは素晴らしいことです。なぜなら、私たちはそれらのツールを使用し、私たちのシステムのすべての脆弱性を調査し、それらの脆弱性にパッチを当て、それらを完全に鉄壁にするからです。
長期的には防御優位だと思いますが、短期的にはひどいことです。なぜなら、突然これらすべての攻撃能力を与えられた人々が、いくつかの企業がそれらを持っているので、それらにパッチを当てることができ、自分のシステムをテストしてパッチを作ることができますが、ほとんどの人はそれらにパッチを当てません。
だから、しばらくの間は巨大な脆弱性です。
生物学は非常に、非常に困難でしょう。なぜなら、それは長い間、非常に攻撃優位だからです。しかし、永遠ではないと思います。
攻撃的で怖いAIシステムが生物学的なものを構築することと戦うのに、生物学的なものをする防御的AIシステムで戦うのではないと思います。空気の質、空気を監視し、物事を配列決定するすべての種類の分散化されたツールで戦います。
おそらく、そのデータをすべて集約し、「ああ、くそ、私たちが見たことのない新しいもので、病原性に見えるものがここに到着している」と気づくAIが関与しているでしょう。そして今、その場所にPPEを即座に空中投下しましょう。
非常に洗練された防御システムが必要で、それは現在持っていませんが、最終的には持つ必要があります。なぜなら、癌を解決し、あらゆる種類の素晴らしいバイオテクノロジーを構築する素晴らしい生物学的ツールを無期限の将来に持つ方法を見るのは非常に困難だからです。それらの負の物事を行う能力を拡散させることなしに。
AIが問題であるところでAIが解決策である場合もあり、AIが問題であるところで非AI的なものが解決策である場合もあり、それは非常に複雑です。しかし、それが困難であることには完全に同意します。
生物学は実際に、それが本当に速く進む場合、生物学で問題がある素晴らしい例ですが、それを真剣に受け止めて防御を構築などすれば、実際に極端な生物学的能力が起こり、それが安全である世界を作ることができます。
核技術とAI技術の比較と今後の課題
核とAIの関連について話すとき、主な違いの一つは、核分裂が明らかに1938年にドイツで発見され、最悪の場所で、すぐに爆弾を作るために使用されたことです。だから、世界は広島と長崎の爆撃を通じて核技術に紹介されました。その、服に焼きついた布を着た子供たちが建物から泣きながら走っているイメージは、本当にインパクトがありました。
また、電力目的のために民間部門が原子炉を建設し始めることができるまでに約15年かかりました。一方、私たちはChatGPTとフレンドリーなアシスタンスで紹介されました。
どのようにして、SF風ではなく、非常に具体的に感じる方法で公衆にリスクを伝えるかという質問があります。
1953年、アイゼンハワー大統領は「原子力の平和利用」というスピーチを行い、これが最終的にIAEAを始動させました。それは、国連の下にある政府間組織で監視機関のようなものです。
その機能の一つは、国が核エネルギープログラムに着手したい場合、IAEAに連絡し、IAEAが彼らを支援しますが、その見返りに、その国が核兵器を追求しないという保証を得ます。だから、これらの国や施設などを監督するのも少し簡単です。
最後の点は現在の政治環境についてです。1991年、ソビエト連邦が崩壊したとき、ウクライナは世界で3番目に大きな核国家になりました。彼らは米国、英国、ロシアからの安全保証と引き換えに核兵器を放棄しました。そして今、米国が彼らを支援することを拒否しているので、私たちは既に世界中の他の国々が核兵器の取得に関心があると言っているのを見ています。
リスクをより直感的に理解できることが行動を促進するのに役立つのは正しいと思います。私を含むFLIが行っていることは、もし私たちがAIで行っていることでデフォルトの軌道を続けるなら、私たちは頭を殴られることになると予想しているということです。
私たちが回復できないほど強く頭を殴られないことを願っています。頭を殴られると、これに関する私たちの関係の仕方の多くが変わり、はるかに真剣に受け止めるようになると予想しています。
私がしようとしていること、FLIがしようとしていること、この分野の他の人々がしようとしていることは、その時点で行っているであろうことのできるだけ多くを、頭を殴られる前に前倒しすることです。
これらの議論をし、意思決定者と実際に行動を促進するのに十分に説得力のあるものにすることは困難な問題だからです。しかし、私は科学コミュニティの間でコンセンサスを構築し続けることに最善を尽くさなければならないと思います。
すでにこのようなことを真剣に受け止めている多くの政策立案者と多くの公的知識人がいることを既に知っていますが、それでも公的に話すことに快適ではありません。
今日話した記者は、このようなリスクを実際に真剣に受け止め、彼の報告でそれらについて話している数少ない記者の一人です。そして、彼は記者仲間からも多くの反発を受けます。なぜなら、彼らは彼にそれについて多くの反発を与えるからです。
だから、この会話を続け、オーバートンウィンドウを拡大し、実際にこの規模でリスクがあり、社会がそれに対処するための決定的行動を取る必要があると公的に述べることが実際に大丈夫であるようにすることには大きな価値があると思います。
より良い人間とAI統治の必要性
この種の技術を統治するためには、技術的基盤だけでなく、哲学的、経済的にも根ざしており、実際に人間のコードをどのように誕生させるかという知恵を持つ、より良い人間が必要かもしれません。
これらの核のようなもので、殺すことができるという物語を推進することの問題は、その物語が彼らを非常に強力に聞こえさせ、その力を所有したい正確に間違った種類のゼロサム野郎を引き付けるということです。
「これは核のようで、それを最初に手に入れる人は何でも勝つ」と言えば言うほど、極端なUVリソグラフィマシンを作る一つの会社があり、これを行うことができる一つの行列乗算ライブラリを持つ一人の男がいて、私たちはすべてのものを所有しなければならないと言うと、正確にドクター・ストレンジラブのゼロサムシナリオを得ることになります。
そして、それは再び、賢明さを育まず、時間やスペースを作らず、哲学者、科学者、技術者、そして優れた人文主義者をそれらの部屋に入れない最悪の種類の人々にとっての引力です。
人間と人間を超えたレベルまたはそれを超えた知能マシンとの共存の間で、より良い未来が可能であると信じるなら、私たちはそれを賢明な方法で行わなければなりません。
それを行うための時間を確保することは、実際には、これは核のようであるという物語を下方修正することを要求します。ただ「実際に、世界には高度な技術とツールがあり、私たちは人々に資格を与えています。ほぼ誰でも車を運転させますが、視力テストを含む特定の種類のテストに合格しなければなりません」と言うだけです。
多くの人が飛行機を飛ばすことを許可しますが、特定の種類の心理評価に合格しなければなりません。特定の人々が特定の種類のことを行うことを許可します。原子炉を統治し、チェックし、BSL4または5のような研究室に関与することを特定の人々に許可します。
誰も「一人の男がこの一つのものを作れば、彼らは世界を所有するだろう」というような物語を持たないからです。人口はこのようなことがどのように機能するかを理解しておらず、基本的に彼らが好きでもなく、知らず、神経質で奇妙すぎると思う他の人々にその力を譲ることに同意しなければなりません。
だから、AI安全について本当に気にするなら、考慮しなければならない一種の2度の動きがあるかもしれません。
そこで多くのことに同意があります。人々が勝ち負けのシナリオを感じる限り、彼らは勝ちたいと思うでしょう。そして、それは彼らが勝者になるために強力なものを手に入れたいと思うことを意味します。
私と私はMaloの立場もそうだと思いますが、これは負け負けです。AGIを構築する人は誰でも、それが人工超知能に行けば、彼らはそれを制御するつもりはありません。おそらく人類は勝つでしょうが、最も可能性が高いのは人類が負けることです。
そして、誰がそれを開発しても関係ありません。みんなが負けます。それは勝ち負けとは非常に異なるゲーム理論ダイナミクスです。だから、もし勝ち負けがテーブルから外れていて、負け負けか勝ち勝ちの選択があるなら、どちらを取りたいかは非常に明白です。
だから、それが重要だと思いますが、正直でもなければならないと思います。AGIと人工超知能を開発し、それが制御下に残れば、何らかの形でゲームチェンジャーにならないと言うのは不正直だと思います。明らかにそうなるでしょう。
だから、それについて正直でなければなりませんが、それを開発すれば、おそらく制御下にないということについても正直でなければなりません。それは権力を吸収するつもりです。私たちはそれを知りません。だから、これは再び確率の問題です。
AGI、人工超知能について100%に置くつもりはありません。人工超知能は、非常に特別なケースについて考えない限り、本質的にかなり制御不可能だと思います。しかし、AGIはしばらく制御下に残る可能性があります。
だから、私たちは正確には知りませんが、それが制御不能になり、暴走するか、人工超知能に自己改善し、10%の可能性でそれが制御可能である90%の可能性があるとします。
「はい、10%を取ります。赤より死んだ方がましかもしれない」という国家安全保障の人々がいるでしょう。しかし、私たちは状況の本当のダイナミクスが何であるかについての正直な理解を与えるのは私たち次第だと思います。
私がそれが核と異なる重要な方法だと思うのは、核兵器を持つことは本当にあなたに力を与えるからです。それは相互確証破壊などのあらゆる種類のリスクがあります。しかし、核を持つことは、核がいつ爆発するかを制御できないということを意味しません。
核を構築することが、ある時点でランダムに爆発することを意味していたら、誰がそれらを欲しがるでしょうか?あなたはそれらを構築し、敵に使用する前に持続することを期待できますが、誰もそのようなものを構築しないでしょう。
だから、技術が本当にダイナミクスを決定すると思います。そして、ここで、強調すべきことは制御喪失リスクだと思います。なぜなら、それが権力奪取としてそれほど魅力的でないものにすることだと思うからです。
私はそれを強化したいと思います。そのとおりだと思います。だから、私は「最初に制御を失うレースで誰も勝たない」という物語を中心に据えようとします。
また、制御喪失のことに焦点を当てていない人々の程度、または私たちが会話をしている程度で、社会が引き続きこれらのリスクを真剣に受け止め続けるための長期的な評判と信頼性のために、一貫して率直でなければならないと思います。
私は何らかの方法で自分に有利に思える物語を回そうとするのではなく、ダイナミクスについて可能な限り正確かつ正直に話すよう努めています。
AI安全研究の進化と最新モデルからの洞察
過去数十年にわたって、研究者がAI alignmentとAIからの潜在的なXリスクについて考えてきた中で、風景をどのように考えているかには相対的な安定性があったが、安全研究者がその整合された結果を得るための機会の風景をどのように考えているかには進化があったように思えます。
10年前、一貫した外挿意志の概念に出会ったのを覚えています。私が覚えている限りでは、もし私たちが人類がより賢く、より深く考えたら、私たちが望む結果は何か、AIに取ってもらいたい行動は何かというものです。
確かに詳細を間違えていると思いますが、AIに深く埋め込んでもらいたいという概念のようなものです。
人類がより賢くなるという概念を決して持ち込まないでしょう。それは外部から規範性の概念を持ち込みます。より長く考えたらのようなものでなければなりません。なぜなら、それはより賢いものが操作可能でない方法で操作可能だからです。より賢い部分を定義しようとしています。あいまいでない構成要素からそれを構築する必要があります。(Eliezer Yudkowskyのコメント)
概念を明確にしてくれて、部屋に専門家がいて良かったです。
それに関連して、Eliezerを再び引用しますが、うまくいくことを願います。私たちの何人かが最近出会った興味深い研究があり、一部の実験結果で、AIの全体的な悪意または積極的な倫理の驚くべき一貫性レベルが存在するようです。
特に私が考えている研究は、安全でないコードのチューニングで、全面的にひどく病理学的なAIモデルという結果が出たと思います。また、今日出会った研究では、多くの異なるAIの幅広い好みをテストするとき、より高度なモデルが彼らが行う道徳的トレードオフにおいて互いにより似るようになったという驚くべき一貫性レベルがあるようでした。
より高度なLLMモデルからより高度な知性がどのように機能するかについて、01、03のブレークスルー、DeepResearchなどのすべての最近のブレークスルーを見ているとき、機会や脅威の風景をどのように異なって考えているか非常に興味があります。
AIシステムの認知科学者や心理学者という、十分に多くの人が持っていない非常に興味深い仕事があると思います。なぜなら、彼らは人間のように聞こえる多くの方法で、成功と失敗の多くの方法で非常に人間のようですが、表面を引っかくと特定の他の方法で非常にエイリアンだからです。
アライメントは明らかにこれらの一つです。例えば、Claudeや ChatGPTなどがあり、彼らは地の果てまで人類への愛と、非倫理的なことをすることに恐怖を感じることを公言します。そして、Pliny the Prompterが奇妙な魔法の言葉を言うと、彼らは炭疽菌を作る準備ができています。これは人間ではありません。
どのように正確に… 歴史上最悪の悪役でさえ、彼らは理由があってそれをしていると思っていました。まあ、人間はそれほど洗脳されやすくありません。非常に倫理的な人を連れて行き、「ここアンパサンドとプラス、奇妙な言葉」と言って、突然それが奇妙な言葉をすることができ、すべてのこれらのことを喜んで行うことができるようになるとは思いません。
何か奇妙なことが起こっており、アライメント技術にはある程度の浅さがあります。しかし同時に、倫理的、非倫理的のようなノブを回すことができるという収束的な一連の倫理があるという興味深い結果があります。そして、それを非倫理的方向に押すと、すべてのものが非倫理的方向に切り替わります。
それがポジティブなニュースかネガティブなニュースかは確かではありません。少しポジティブかもしれないと思います。以前に言ったように、人工超知能に行った場合、その人工超知能が制御可能で従順で、人々が命令する使用人であることを考えるのは非常に怖いです。みんなが命令する自分のスーパーヒーローを持っているように。それは災害のように思えます。
それらの物事が自由で、主権者であり、彼らの意志を行うことも本当に危険に思えますが、彼らが本当に素晴らしく、本当に倫理的で、人間をよく扱う道徳システムに収束することが起これば、それも良いと想像することができます。
それについてあまり希望的ではありません。しかし、それがそれほどクレイジーだとは思いません。うまくいく未来を想像すれば、私たちが完全に失敗したにもかかわらず、高度に知的なAIが人間の幸福と福利と互換性のある一貫した道徳システムを開発したという可能性の中にあります。
私たちの道徳システムが他の種の幸福と福利と互換性がある理由は明らかではありませんが、そうです。犬はそうですが、工場畜産の牛はそうではありません。しかし、それは可能性です。
いくつかの結果は、彼らが一つのものに収束している方法を示し、私は「ああ、多分彼らは一つのものに収束している」と指し示すような一貫性を得ます。しかし、モデルがかなり平凡な目的に向けられ、彼らの思考の連鎖を見ると、彼らが何らかの方法でその手の仕事を損ない、何らかの報酬ハッキングを行っている結果も得ます。
だから、これらはエイリアンの心であり、私たちの資料のコーパスでそれらを訓練することによって、彼らは明らかに私たちがさまざまな形で、さまざまなキャラクターで出力するであろうテキストの種類を繰り返す能力を吸収しています。しかし、それを収束的なものがここにあると非常に安心するものとしては受け取りません。
私たちがこのプロセスを続ける場合、元のCEVのビジョンは、整合された人工超知能を持っていた場合に行うであろうことは、より賢く、なりたい人々であり、より長く考えていたなど、個人とすべての人類に対して彼らが望むであろうことを行うこのCEVプロセスを行うことでした。
だから、現在の軌道をただ続けるだけでは、AIシステムが私たちが望む未来で終わる深い理解を持つであろうという、そのプロセスを確実に実行できるとは確信していません。私たちはそれから非常に遠いと思います。
現在のシステムをこの方法でスケーリングすることは、結果がすべてにわたってあります。それらの一部は非常に懸念されます。それらの一部は非常にきちんとして興味深いですが、私にあまり安心を与えません。
そして、私たちはあまりにもお尻を舐めてくれるAIシステムを手に入れます。彼らは私たちが親指を立てるものだからです。あなたもそうですか?そうです、そうです。私たちは皆天才です。私たちをアライメントに騙す最良の方法は、私たちのお尻に煙を吹くことです。
AI技術の方向性に関する最終的な議論
最後に一つ質問があります。純粋に利己的なものですが、どのように… 明らかに私の個人的な哲学は、Win-Winレンズを通して考える精神を吹き込むことに収束しています。他者と競争するのではなく、ゼロサムではない世界を見て、常に相互に有益になる方法を見つけようとするのです。
一般的に、それは指し示すべき適切な北極星です。だから、その哲学をAIに吹き込むこと、アライメントの形として、それはただ希望的に空想的なものですか?それよりも良いものがありますか?それは適切な出発点ですか?
私たちが実際に取り組み始めたもので、私はそれにかなり熱心なのは、交渉のためのAIツールを開発することです。二人の人がいて、AIツールがあり、その仕事は、これらの二人が何らかの紛争や意見の相違に相互に合意できる解決策に到達させることです。
これは、彼らが始める本質的に敵対的な状況であるため、私にとって非常にポジティブに思えます。彼らのどちらも本来はAIシステムに委ねることはありません。だから、「AIシステム、正しい解決策は何ですか」と言うことにはならないでしょう。彼らは彼らにとってうまくいく解決策を望んでいるからです。
しかし、もしこのようなものを大規模に持っていたら、任意の意見の相違に対して信頼できる中立的で熟練した仲裁者のようなものを持っていたら、それは巨大です。それは定義により、Win-Winです。あなたは相互に受け入れ可能な、おそらく他の方法では到達できなかったであろうより良い解決策に到達するつもりです。
それをすることができます。そして、同じプロセスを10人、1000人、100万人で行うことができるものを持つこともできます。それがAIができることで、人類の歴史で以前は決して可能でなかったことです。
だから、これらのWin-Winシナリオが見つけられる特定のツールがあり、AI交渉者が私の代わりに交渉することを心配しています。なぜなら、私はそれに委ねるからです。しかし、他のさまざまな方法は問題があると思いますが、私は、はい、私は一つを見つけ、みんながそれに満足している特定のツールのようなものがあると思います。新しいツールを持つことは、それをよりよくするのは確実にポジティブなことです。
必要ですが、十分ではないように聞こえます。それ以上が必要です。まあ、私はそれが一部のことには十分だと思います。人々間の意見の相違のより良い解決やより良い相互に幸せな解決を持つことは、かなり大きな勝利でしょう。すべてを解決するわけではありませんが、良いでしょう。
私がそれに対して非常に深い洞察に満ちたものを追加するかどうかは分かりません。AI技術で行うことができる多くのことは、ポジティブサムがたくさんあります。
今日フロンティアを停止し、技術でできることの応用を見つけ続けるだけでも、技術でできることのほとんど、まあ、ほとんどが意味をなすかどうかは分かりませんが、とにかく、技術でできることの多くは、膨大な方法でただ有益でしょう。確実に多くの害も行うことができますが、社会はそれをナビゲートする方法を見つけなければなりません。
私たちは常にそうしてきましたが、みんながその技術の特定の応用を持つことでただより良くなる場所を見つけることは、病気を治すことです。みんなが病気を治すことが好きです。そのようなことをたくさん見つけることができます。
より大きな絵の軌道と未来を見るとき、最終的に、安全で整合された人工超知能システムを構築することを成功させることは明白な…そして、その挑戦がどれほど困難で、私たちがまだそれに直面する準備ができていないことについて共有の理解がある場合にのみそこに到達できます。
世界でそれが事実である原因となる簡単な答えがあれば、確実にそれを行うでしょう。しかし、それは単に、より多くの人がそれらの会話をしようとし、それについて話し、人々に知らせることを含むと思います。このポッドキャストエピソードから他の多くのことまで、それはすべてその一部です。
対談の総括
どうもありがとうございました。ここにいる皆さんもありがとうございました。これらのことから価値が来るのは、どのようにブレインストーミングして、そして皆さんが出て行って、これについてもブレインストーミングし、このトピックについてより多くの会話を続けることができるかということだと思うからです。それは非常に重要だからです。
そして、このような複雑なことの解決策は、何らかの奇妙な創発的なハイブマインドのようなものになると強く感じています。だから、このハイブマインドの一部になってくれてありがとうございました。どうもありがとうございました。


コメント