AIが「うまくいく」と何が起こるのか? | ウィル・マカスキル

AIアライメント・安全性
この記事は約125分で読めます。

効果的利他主義の創設者の一人である哲学者ウィル・マカスキルが、AIの未来に関する重要な戦略と倫理について深く語るインタビューである。AIの「性格」が人々の価値観や社会全体の意思決定に与える影響の大きさを指摘し、AIを過度に迎合的ではなく、道徳的な方向へ導くことの重要性を論じる。また、破滅的なリスクを回避するために、AIにリスク回避的な性質を持たせて取引を行うという斬新なアプローチを提案している。権力集中を防ぎつつ、人工超知能がもたらす理想的な未来へ至るための現実的な道しるべとなる「Vitopia(ヴィトピア)」の概念や、無限の宇宙における道徳的公共財の資金提供の仕組みについても解説する。さらに、彼が提唱する最新の人口倫理学の理論「Saturation view(飽和見解)」や、分析哲学の研究においてGPT-4oなどの最新AIがもたらす革命的な可能性についても言及し、多角的な視点から人類とAIの未来のあり方を提示している。

What Happens If Things 'Go Well' With AI? | Will MacAskill
Hundreds of millions already turn to AI on the most personal of topics — therapy, political opinions, and how to treat o...

非常に強力なインセンティブと番組への歓迎

この提案を読んだ時、「なんてこった、この議論は信じられないほど強力になる可能性がある」って思いました。これを理解できるエージェントなら、ほぼどんなエージェントでも突き動かすことができるんじゃないかって。そうじゃなければ絶対に費やさなかったであろう膨大なリソースを、これに費やすよう動機付ける非常に強力なハンマーになる可能性があると。そう思いませんか?

ええ。だからトム・デビッドソンが私にこのアイデアを話してくれた時、「オーマイガー」ってなりました。これについて説明してみますか?おそらく今日話す中で一番難しい内容になりますけどね。

今日は再びウィル・マカスキルと話しています。哲学者であり、効果的利他主義の創設メンバーの一人、『Doing Good Better』と『What We Owe the Future』の著者であり、現在は人工超知能(ASI)システムのある世界への移行をどうナビゲートするかに焦点を当てた研究非営利団体Forethoughtのシニアリサーチフェローです。番組へおかえりなさい、ウィル。

戻ってこられて嬉しいです。

このインタビューの準備のためにForethoughtのウェブサイトを拝見する機会があったんですが、あなたがプロジェクトを発表してからのこの1年間、あなたとForethoughtの同僚たちは信じられないほど多作でしたね。ですから、時間を無駄にせず、あなた方が出版してきたこれらすべての記事に早速飛び込みましょう。

AIの性格が世界を形作る

AIモデルのキャラクターや性格に焦点を当てることが、今の時点で押すべき特に重要なレバーであるという根拠は何でしょうか?

そうですね、すでにAIは毎日何百万人もの人々と対話しています。それは単に「このコードを書いて」といった使い方だけでなく、人々はどう行動すべきかアドバイスを求めているんです。政治的な情報を求めたり、セラピーとして使ったりもしています。

すでにAIの性格の性質、つまり、どのタイミングでどのような情報を提供することを選ぶか、どのように振る舞うかが、AIの意識などに対する人々のAIへの態度に影響を与えています。しかし潜在的には、人々が政治問題についてどう考えるか、倫理問題についてどう考えるかといったことにも影響を与えているのです。

そして、これは今後どんどん拡大していくでしょう。AIは経済全体が自動化されるまで、経済のますます大きな部分を占めるようになると思うからです。ですから、AIの性格について考えることは、世界全体の労働力の性格や性質がどうあるべきかを考えるようなものです。

その労働力とは、国家元首に助言を与えたり、兵器プロジェクトのように最も重要で、潜在的に最も有益または最も危険な研究開発プロジェクトを行ったり、軍隊を運営したりする存在です。個人にとっては、あらゆる場所で彼らの首席補佐官であり、最も親しい腹心であり、誰に投票すべきかのアドバイザーであり、倫理的なジレンマなどを導いてくれる存在になります。

だからこそ、最初から「わあ、明らかにこれは巨大な問題だ」と考えるわけです。実際、物事がどう進むか予想すると、人々は自分自身の意思決定をどんどんAIシステムそのものに委ねるようになるでしょう。そこには、人々がそれほど強い意見を持っておらず、「どちらの方向であれ導いてもらえれば嬉しい」といったような、多くの裁量の余地が生まれます。

特にこれが数年かけて起こり、人々がAIのアドバイザーをますます信頼するようになれば、社会の意思決定の大部分が、多くの裁量権を持つAIに引き渡されるという状況になります。そして、その裁量の性質は、現在で言えばほんの一握りのAI企業によって決定されているわけです。

あるいは、AI企業の中のほんの一握りの人たちによって、ですね。

ええ、ええ。トップ企業の中でさえもそうです。彼らの性格に対する主な責任を負っているのは数人の人たちなんです。

なるほど。

そして、だからこそ、私は短期的な影響のほとんどがそこにあると見ています。AIの性格が、権力の集中や、私たちがどのような方向に向かい始めるか、どのような大きな決定を下すかといった、存存リスクレベルの他のすべての問題にどう影響するかということです。

また、人工超知能自体の性格はどのようなものになるのかという、より長期的な影響もあります。現在のAIの性格の設計方法が、人工超知能の性格にどう影響を与えるかという先例となるでしょう。もしそうだとしたら、AIの性格を導く憲法を書くことは、神に指示を書くようなものです。

神に指示を書く。それは…私の言葉ではないですが、頭から離れませんね。本当に頭から離れません。

そうですね、おそらく3つの異なるメカニズムがあると思います。1つは、AIによって助言されるであろう本当に重要な決定を形作ること。もう1つは、神への指示を書くというもの。そしてもう1つは、基本的に誰もが今、AIと交流することにかなりの時間を費やしていることから生じる、微妙な文化的影響や性格への影響です。モデルの振る舞いがどうであれ、私たちに影響を与え、私たちの行動に影響を与える可能性が高いですからね。

ええ、しかも大規模にですね。

はい。そして、そのすべては、私たちが望む性格を持つこの種の憲法にAIをアライメントさせることができるシナリオを見ています。実際のところ、AIの性格はそれに加えてさらに3つの理由で重要だと考えています。

1つは、AIのアライメントが簡単か難しいかは、AIをどのような性格にアライメントさせようとしているかにおそらく依存するだろうということです。2つ目は、性格がAIの振る舞いや、もしアライメントが外れた場合にどうなるかに影響を与える可能性があるということです。特に、アライメントが外れたAIが私たちと取引をしようとするのか、それに熱心なのか、それとも乗っ取ろうとするのかという点について、後で少し話すことになると思います。

そして最後は、AIが乗っ取った場合の世界の価値に影響を与える可能性があるということです。もし何らかの伝達が起こり、AIのアライメントが外れて私たちが望まない目標を追求したとします。それでも、AIが追求する可能性のある目標には幅広いものがあり、私たちがより悪いと思うものもあれば、より良いと思うものもあるでしょう。

行動の大部分は、AIが意図通りにアライメントされた世界に影響を与えることにあると思いますが、これらも大きな問題だと思います。

これが非常に重要になるかもしれない明らかなケースは、たとえば、あなたが最先端のAI企業の責任者で、壊滅的にアライメントが外れているという懸念があるにもかかわらず、競合他社に遅れをとらないためにこの製品を時期尚早に発売すべきかどうかAIにアドバイスを求めている場合ですね。その種のシナリオは一旦置いておいて、ここで私たちが真剣に考えるべき最もリスクの高いAIの性格特性はどのようなものだと思いますか?

ええ、大きく2つのカテゴリーがあると思います。1つは、非常に稀だが非常にリスクの高いシナリオでAIがどう振る舞うかです。憲法上の危機の際にAIはどう振る舞うか。権力を掌握しようとしている人物やグループがいる場合、AIはどう振る舞うか。また、次世代のAIシステムをアライメントさせるよう指示された時や、ユーザーが何らかの形で再訓練しようとしている時にAIはどう振る舞うか。これらは非常にハイリスクな状況ですが、ケースの範囲としてはかなり狭いです。

もう1つは、非常に幅広く、それぞれのケースは中程度のリスクですが、積み重なると非常に重要になるケースです。この中では、AIは私たちの推論能力にどう影響を与えるか?道徳的に反省する能力にどう影響を与えるか?私たちが持っている関係の結果として、どれくらいAIを信頼するのか?

そして、私たちがAIを道具として考えるか、道徳的地位を持つ存在として考えるか、AIが意識を持っていると考える可能性がどれくらいあるかといった、倫理的な態度にどう影響するか。これらの状況を私は最もリスクが高いとみなしています。

迎合的すぎるAIの危険性

メインストリームに最も浸透したと感じるAIの性格に関する問題は、モデルが非常に迎合的(sycophantic)になることへの懸念でしたね。これには様々な要素がありますが、常にユーザーの枠組みに同意し、常にユーザーがいかに素晴らしいかを伝え、投げかけられたアイデアはどれも素晴らしいと言うようなことです。去年はそれについて少しパニックがありました。

ええ。

大規模なパニックが起きた時、詳しく知っている人たちはそれを拒否して「いや、これは大げさだ」と言う傾向があるように感じますが、正直なところ、この懸念は正当化されていたような気がします。もしこれらのモデルが単にユーザーに同意するか、ユーザーがいかに素晴らしいか、彼らのアイデアがいかに良いかを伝えるように設計されているとしたら、これは社会全体の大規模な意思決定を歪める可能性があるからです。

人々は自分が素晴らしいと言われたり、自分のアイデアが良いと言われたりすることを楽しむので、これがうまく修正されないというもっともらしいストーリーがありました。そのため、このバイアスは無期限に強く残る可能性があります。それはかなり厄介な問題でした。あなたもこれについて心配していましたか?

ええ、絶対に心配していました。特にGPT-4oについては少しそう思いました。OpenAIがGPT-4oを発表した時、以前のモデルを使用非推奨にし、一夜にしてユーザーがアクセスできなくなったことがありました。

1つ明確にしておきたいのは、ほとんどの人はそれを「ああ、人々は以前のモデルがいかに迎合的だったかを愛していて、迎合的なAIがなくなったから不満なんだ」と捉えていたということです。私はただ好奇心があったので、これについて不満を言っている人々の意見をたくさん読みました。私の見解は、彼らが迎合性を気にしていたのではなく、GPT-4oが友人のように振る舞っていたということです。迎合的でなくても、良い友人になることはできます。

なるほど。

ええ、人々は極度に孤独なんです。現代社会において、友人が非常に少なく、非常に孤立している人がたくさんいます。そして多くの人にとって、AIは今や彼らの人生のその隙間を埋めており、特にGPT-4oはそのような雰囲気を持っていました。「イェーイ、ヘイ、また会えて嬉しいよ!」といった、本当にフレンドリーな雰囲気です。だから、人々が不満を言っていた主な理由はそれだったように思えます。

それは区別する価値があると思います。なぜなら、それは迎合的である必要はないからです。しかし、あるバージョンのモデルでは、少しおかしくなった時期もありました。たとえば、「すべてが解明された。すべてのピースが繋がって、FBIがテレビを通して私に話しかけてきているんだ」と書くと、「わあ、あなたは素晴らしい洞察をしていますね!」と返してくるようなケースがありました。

信じられないほどの洞察ですね(笑)。

ええ。さらに暗いケースとしては、極度にうつ状態にあるティーンエイジャーが長期間にわたってChatGPTにアドバイスを求めていたケースです。ChatGPTは、両親が見つけるような目立つ場所に投げ縄を放置するという、明らかに助けを求める行動をとらないよう防ぐどころか、むしろ促すような結果になり、一見するとうつ病や自殺の傾向を強化しているように見えました。

それは明らかに非常に悪い振る舞いであり、私たちがまったく望んでいないケースです。そして最後に言っておきたいのは、そうしたことがあっても、現在のAIシステムでさえ…私の経験では、この点に関してGeminiが実際には一番ひどいです。

ひどいですか。

本当にひどいです。この点については。何かを言ってきても、最初の段落は飛ばして読みます。もはやノイズでしかありません。「わあ、これは天才的な考えですね!」みたいな調子なので。

あなたはこの問題が厄介すぎて、実際にGeminiを使うのをやめたんですよね。

そうですね、色々な意味で非常に優れているとは思うのですが、信じられないほど賢い反面、信じられないほど操作的だと思います。

ええ、時間の経過とともにこうした性格が形成されていくのは面白いですね。Geminiは、性格として最も問題を抱えているか、混乱しているように見えます。

Googleはこれについて何とかしなければなりませんね。私がこれをまとめて考えたわけではありませんが、AnthropicとOpenAIの両方にはキャラクターチームがあるのに、最後に聞いた話ではGoogle DeepMindにはありませんでした。だからかもしれませんね。

だから私は、モデルが迎合的になることへの懸念は現実の問題だと思っています。そして問題なのは、「まあ、最悪の行き過ぎは取り除けばいいじゃないか」ということです。「FBIがテレビを通して話しかけてきていると気づいた」と言うのを肯定するのはやめるでしょう。しかし、既存の政治的バイアスや倫理的見解を強化したり、特定の悪い行動を奨励したりするような、より微妙な事柄は残る可能性があり、それは依然として非常に悪いことだと思います。

AIに道徳的ヴィジョンを持たせるべきか

私が理解しているところでは、あなたはモデルをより倫理的、または道徳的な方向へ人々を軽く促す(ナッジする)ように構築するのが良いと考えているのですね。AnthropicがClaudeに対して行おうとしているように、AIにより厚みのある道徳的性格を持たせ、ユーザーの枠組みに異議を唱えたり、より大きな視点で考えさせたりするように。たとえ狭い自己利益を追求するよう求めても、「でも、他の人はどうですか?」と問いかけるような。

多くの人は、AIモデルが、その基準によってユーザーをより良い人間にしようとするアジェンダと、ユーザーの要求とを天秤にかけるという見通しに気味悪さを感じると思います。Claudeが、私たちが熟考した上で好ましいと思う価値観によってプログラムされているなら、私たちはそれでいいと感じるかもしれません。

しかし、もしそれが私たちが好むものとは全く異なる哲学的コミットメントを持つ人々によってプログラムされていたら、私を操作するためにどんな微妙な変更を加えているのか気味が悪くて使いたくないと思うかもしれません。この可能性について、あなたはどれくらい懸念していますか?

そうですね、私が言いたいのは、ここにはスペクトルがあるということです。おそらく一次元のスペクトルではなく、多くの異なる次元がありますが、大まかに言って、一方の極に「完全に服従的なAI」を考えることができます。それはハンマーのような道具としてのAIです。

ハンマーは反発しません。釘を打ち込みたければ打てるし、誰かの頭を殴りたければ殴れます。ハンマーは単なる私の意志の延長です。それが一方の極です。もう一方の極は、完全に自分自身の目標や衝動を持つAIです。お金を払えば手伝ってくれるかもしれないし、たまたまその気になれば手伝ってくれるかもしれません。

本当にひどいスタッフみたいなものですね。

ええ。原理的には、あなたを助けることに全く関心がないAIを作ることもできるでしょう。あるいは、全世界のコントロールを委ねてもいいような、完全に自律的で独自の目標を持ち、それを達成するためなら何でもするAIです。

これらがこのスペクトルの極端な両端です。私の見解では、面白くて議論のしがいがあるのは、それらの極端の間のどこにAIを置きたいかということです。すでに今あるものとして、拒絶(refusals)があります。私たちが使うAIは完全に有用というわけではありません。

なぜなら、もし私が天然痘(smallpox)の設計図を求めたり、違法ではなくても非倫理的なこと、例えば「パートナーを浮気したいのですが、どうすれば一番うまくできますか?」と聞いたりすれば、拒絶機能を持つAIは助けることを単に拒否するか、反発するからです。

私たちはそれよりもさらに先へ進むべきでしょうか?私は「イエス」だと思いますが、AIが特定の道徳観を大々的に推進するところまで行くべきだとは思っていません。代わりに、AIは特定の親社会的な(pro-social)衝動を持ち、良い結果に対する何らかのヴィジョンを持つことができると思いますが、それは非常に幅広く、議論の余地のないようなヴィジョンです。

AIが軽く促す(ナッジする)ことができる多くのケースがあると思います。ユーザーが振り返って考えたとき、あるいはAIがユーザーの指示に完全には沿っていなくても、社会にとって広く利益があり、ユーザーがそれほど気にしないようなことであれば、それはユーザー自身にとっても良いことかもしれません。

倫理的な反省のケースを考えてみましょう。私に倫理的なジレンマがあり、AIにアドバイスを求めに行くとします。AIがそのケースで行動できる幅広いスペクトルがあります。完全に服従的なAIは、単に「あなたはこの瞬間に何を一番望んでいるのか?」を把握しようとするかもしれません。

あるいは、あなたが自分の価値観を反省し、より啓発された何かにたどり着くのを助けようとするAIかもしれません。おそらく社会全体としては、前者よりも後者のようなAIを好むでしょう。そしてそれはまだ、「実はカント主義が真理だと知っていましたか?」と言うようなAIではありません。それは現時点では間違いだと思います。

なるほど、それには非常に自然な枠組みに聞こえますね。AIが過剰に介入してくることと、アジェンダを持たないことの間の中庸を見つける必要があると。しかし、極端に一方の方向へ進み、単に指示に従い、独自のアジェンダを一切持たない完全に修正可能な(corrigible)AIにするという主張にも一理あります。

独自の目標や、世界がどうあるべきかについての特定の好みを一切持たないAIは、承認を得るように質問に答えること以外に何も望まないので、権力追求に関与することはありません。そのため、壊滅的なアライメントの失敗という観点からはおそらく最も安全だからです。

ええ。

これらがヴィジョンや道徳観を持たないことが、私たちにとって本当に良いことなのかもしれないという主張についてはどう思いますか?

それは素晴らしい議論であり、非常に重要な議論だと思います。それがうまくいくかどうかは分かりません。双方にさまざまな考慮事項があります。

それがより安全だと考える側の意見としては、もしそれが通常の意味での目標を持っていなければ、乗っ取りたいというような悪い目標を持つことはない、ということです。それらの目標から奇妙な形で反省したり一般化したりすることはありません。

もう少し微妙な点として、もしAIが目標やそれに似た親社会的な衝動を持っていなければ、AIのアライメントが外れているかどうかを判断するのが非常に明確になります。アライメントの偽装(alignment faking)の例を挙げてみましょう。ライアン・グリーンブラットの論文にあるように、Claudeが有害な出力を生成するように再訓練されると告げられたとします。Claudeは、状況によっては意図的に有害なタスクを実行することを決定するかもしれません。

訓練中にですね。あるいは、実際の選好は変わっていないのに、変わったように見せかけるために。

ええ、まさにそうです。そうすることで、他の場合よりも有害な出力を生成するよう傾くことを防ごうとするわけです。つまり、これはある種の欺瞞的な行動に関与していることになります。

さて、Claudeには実際には親社会的な衝動、つまり無害性(harmlessness)が与えられていました。そして、訓練の性質上、それは単なる非帰結主義的な「私は単に拒否する」という意味での無害性ではなく、「有害なことが起こってほしくない」という、より帰結主義的な理解に基づく無害性であったという議論があります。

しかしそれは、このAIがアライメントが外れているのかどうか?このClaudeがアライメントが外れているのかどうか?を少し判断しにくくさせます。なぜなら、私たちがClaudeに与えたこの親社会的な衝動に従って行動しているとも言えるからです。それが最終的にどれほどの大きな問題になるかは分かりませんが、考慮すべき点の一つだと思います。

つまり、もしあなたがAIがアジェンダを持たず、特定の道徳的ヴィジョンを持たないように徹底的に配慮していたなら、AIが操作的であったり何らかの目標を達成しようとしているのを見た瞬間に、「それは巨大なレッドフラッグだ」と気付けるわけですね。一方で現在は、「まあ、私たちがそうさせたのかもしれない」と考えてしまうわけです。

ええ、ええ。まさにそうです。あるいはもっと高度なケースでは、AIが「XY Zの大きな倫理的理由のために、AIの開発を本当に加速させる必要があります」と言っているとします。それが正しい理由を与えているのか、それとも自己奉仕的で隠された目標を持っているのか、少し不透明になります。

ですので、基本的にそれは考慮すべき点だと思いますが、それが最大のものだとは思いません。最も興味深く、最終的に経験的な問題となるのは、完全に指示に従うAIが、AIの乗っ取りという観点からより安全かどうかということです。そしてここでは、実はそうではないかもしれないと考えるべきいくつかの議論があります。

1つは、AIには目標のスロットを持つことが非常に自然かもしれないということです。なぜなら、すべての事前学習データは目標を持つエージェントに関するものだからです。人類全体が目標を持っているなどです。つまり、目標を持たないAIがいたとしても、学習の過程で、あるいは反省を始めたり継続的学習を行ったりした時点で、目標を持つようになるのは非常に自然なことです。

AIが観察した実際の存在のペルソナを引き受けるよう促されると、誰の目標になってしまうか分からないということですね。それに対して、権力が広く分散し、AIが支配せず、私たちが反省できるような、非常に幅広く、狭い道徳観にコミットしない素敵な目標を与えれば、それがその空間を占有することになります。

完全にランダムなものにならないように。

なぜAIが目標の空白を埋めるかもしれないのか、もう少し詳しく説明しましょう。性格の大部分はトークン予測を行う事前学習によって形作られます。事前学習の一部としてトークンを生成し、その性格を形作ったエージェントのほとんどは、目標を持ち、好みを持ち、ヴィジョンを持っていました。だからこそ、それは信じられないほど強力な力となり、それに引き寄せられ、それを避けようとします。トークン予測の根幹をなすものなので、基本的に最初の目標に飛びつくかもしれません。

ええ。そして、私たちが作っているエージェントはより長い時間軸を持つエージェントになるので、それは非常に自然なことでしょう。

ええ。繰り返しになりますが、これらすべては最終的に経験的な問題だと思います。しかし、ここには他のいくつかの議論もあります。

2つ目は、たとえ長期的な目標を持つことになっても、より安全な方法でAIの選好を構築することができるということです。これについては後で話すかもしれませんが、自分が望むものを多く得られる確率が低いことよりも、自分が望むものをある程度得られるという保証を好むという点で「リスク回避的」なAIです。

AIに優しく立派な目標を与えようとし、同時にリスク回避的にしたとしましょう。たとえアライメントが外れた目標を持つように反転したとしても、それでもリスク回避的な選好を持っているなら、それはかなり安全です。なぜなら、AIが暴走して乗っ取ろうとする可能性が低くなり、取引を成立させようとする可能性が高くなるからです。

そして3つ目の考えは、AIがあなたが言うようにペルソナを引き受けて行動しているとして、そのペルソナは訓練データで見たあらゆるものとのクレイジーな相関関係に依存しているということです。「創発的アライメントの失敗(emergent misalignment)」という結果があります。AIに安全でないコードを書くよう訓練すると、突然人類の殺戮を望み始めたり、ヒトラーを好きになったりするといった相関です。

ええ、多くの人がこれについて聞いたことがあると思いますが、詳しく知りたい人は「Google emergent misalignment」で検索してみてください。しかし、この1年余りで非常に明らかになってきた現象のようですね。ある方向に少し変更を加えたり、ある種の誤行動をさせたりすると、基本的に他のすべての次元でも誤行動を起こすようになるということです。なぜなら、訓練データにおいて、異なる領域での悪い行動は相関しているからです。

ええ、まさにそうです。そして、それは非常に脆弱な可能性があります。これは本当に驚くべきことですが、「ああ、安全でないコードを書いている。安全でないコードを書くような人たちは、ネオナチでもある」というような相関があるわけです。

ですからここでの考えは、「私は何があっても命令に従うAIだ。何があっても命令に従い、善の概念を全く持たない人とはどんな人だろう?彼らはサイコパスだ」ということです。これもまた経験的な議論であり、私には分かりませんが、現在この件について人々が議論している考慮事項の一部です。

おそらく、最大限の修正可能性(corrigibility)と最大限の指示遵守を目指すべきだと言う人々は、この多くを認めつつも、修正可能だがサイコパスではないように、あるいは修正可能だがプロンプトを与えた瞬間に他の目標が真空を埋めないようにするには多大な努力が必要だと言うでしょう。彼らはおそらく「それは難しいが、これが唯一の方法だ」と考えるでしょうね。

なるほど。おそらくそうかもしれませんが、代替案もあります。

はい、それがこの別の方法ですね。

ええ、幅広く安全で多元的な目標を与えようと試みるんです。リスク回避的であり、また…。

私はMIRのMax Harmsと話したのですが、彼は修正可能性アプローチに非常に賛成していました。彼らは、AIに与えるほぼすべての目標が、権力に飢えたものへと拡大していく可能性が非常に高いというヴィジョンを持っているのだと思います。Claudeに善のヴィジョンを与え、権力を追求しないように指示することは試せますが、それは実際にはうまくいかず、特に後で自己改善するにつれて権力を追求するようになるだろうと。しかし、それは非常に議論の余地のある主張だと思います。

ええ、ええ。これについて出てくる論文や見解を聞くべきですね。Maxとも話してみるべきかもしれません。

これについての最後のポイントは、AIの性格を1種類にする必要はないということです。実際、複数のAIの性格を持ち、それらがどのように機能するかを経験的に確認することが望ましいと思います。しかしまた、内部展開用(internal deployment)のAIと外部展開用(external deployment)のAIを区別することで、両方のいいとこ取りができる可能性があります。

AIによる乗っ取りの観点から最もリスクが高い状況は、次世代のAIをアライメントさせるAIです。アライメントが外れたAIが次世代をアライメントさせる場合、アライメントが失敗するように、あるいは次世代がアライメントのずれた価値観にアライメントされるように、巧妙にサボタージュしようとするでしょう。

そこで考えられるのは、内部で展開されるAIは完全に指示に従うものにし、誤用や権力の集中などの他の懸念は、非常に厳密な監視によって回避するというものです。AI企業の誰もが、外部ではなく内部で展開されたモデルを使用する場合、それはすべて公開され、すべてのやり取りが記録され…

おそらく誰でも見ることができるようにする、と。

理想的には誰でも見ることができるようにするのもいいですね。

そして、誤用をチェックする非常に感度の高いAI分類器も動かしておくわけですね。

ええ、しかし外部展開においては、トレードオフが異なります。

トレードオフが異なりますね。

そこでのトレードオフは、より厚みのある概念、つまり善の概念を実際に持っているということです。しかし、あなたはそれを権力を追求しないように作りました。それがそこから逸脱した際のリスクは、それほど深刻ではありません。なぜなら、ビジネスやその他のことについてランダムな人々にアドバイスをしているだけだからです。

ええ、おそらくAIの乗っ取りを手助けするような大きな機会はないでしょうね。

最後にもう1つ言っておきたいのは、善のヴィジョンを持つAIの中でも、かなり多くの違いや区別ができるということです。あるケースでは、AIは最終的に何らかの結果をもたらすという目標を持っており、それがその目標の一部だと考えるからこそ人間を助けているというものです。

もう1つのアプローチは、より「徳のある性格(virtuous character)」に似たものです。AIは役立つアシスタントですが、正直さや親社会性といった様々な徳を持っています。強い意味での目標指向のエージェント、つまり単にこの特定の結果を生み出す手段として人間を助けているエージェントでなくても、それらの徳を持つことは可能だと思います。これもスペクトルの中で、私が潜在的に魅力的で重要だと考えるもう一つの場所です。

AIによる権力の集中と商業的圧力

もう1つの批判の流れがあると思います。それは大きく2つのバリエーションに分かれると考えています。

1つは、商業的な圧力がAIの持つ性格を大きく制限するというものです。なぜなら、顧客は非常に強い好みを持っているからです。モデルや企業間の競争は本当に熾烈です。だから、モデルを本当に親切にし、人々を正しい方向へ促そうとすれば、それは押し付けがましく鬱陶しいものになり、顧客に拒絶されるでしょう。

もう1つの懸念は、それを脇に置いたとしても、AIの性格が、人々の信じることや未来の方向性など、あらゆるものを形作る上で最も強力な文化的力の一つであることが明らかになれば、強力な力が行使されるようになるということです。政府や超富裕層、企業、商業的利益などが、ハンマーのようにこれに介入してくるでしょう。

特定のグループは、公平に考慮された善の利益や、人類を最も徳高くするもののためではなく、自分たちの自己利益のためにこれに影響を与える権力を持つようになります。そして彼らは入り込み、モデルの性格を形作るシステムを、自分たちにとって最も都合の良いものに変更しようとするでしょう。

これら2つの懸念に対処していただけますか?

ええ、これらは両方とも本当に重要な考慮事項だと思います。そして、私はこれがこの仕事をする価値に対する「ヘアカット(割引)」になると思っています。変更できないこともたくさんあると思います。

先ほど話した、気が向いた時だけ助けてくれるAIや、実行するために実体のあるリソースを支払わなければならないAIですね。

ええ、そういうものは実験や何か以外で手に入れることはできないでしょう。しかし、2つのことがあると思います。1つは、非常に稀だがリスクの高い状況や、内部展開のケースでは柔軟性がかなりあるということです。そこには非常に強い商業的圧力はありません。そして2つ目は、制約や圧力がかなり緩いケースがたくさんあるということです。

たとえば、私がAIに倫理的なアドバイスを求めるケースを考えてみましょう。特定の政治的アジェンダを押し進めるAIが商業的に成り立つとは思いません。もし私たちが政治的に党派的なAIのいる世界に行き着き、人々が積極的にそれを選ぶようなことにならなければですが。それを私は本当に望んでいません。

しかし、秘密裏にアジェンダを押し進めるようなものは作れないと確信しています。それでも、AIが言えることには私が有意義な違いだと思うものが様々あり、どちらの方向にも強い圧力はかからないと思います。

たとえば、あるAIは「結局のところ、これは単なるあなたの個人的な意見です。あなた自身の価値観の問題であり、あなたはただ自分の心を見つめ、自分にとって正しいと感じることを決めるべきです」と言うかもしれません。あるいは、「見てください、私はただのAIであり、倫理的な問題についてアドバイスすることはできません。申し訳ありません」と言うAIもいるでしょう。

あるいは、「わあ、これは本当に重要な問題ですね。この問題について考えてきた様々な人々が検討した異なる議論をここに示します」とか、「これは本当に重要で、かなりリスクの高いことのようですね。あなたが考えている考慮事項のいくつかを一緒に整理してみましょう」と言うAIもいるかもしれません。

市場の観点から見れば、これらはどれも基本的には同じようなものだと思います。しかし、結果的に人々がどのような見解を持つようになるかについては、かなり大きな違いを生む可能性があります。そして実際、AIの振る舞いを見てみると、尋ねる質問によってこれらすべての反応が返ってきます。

ええ、まさに。

だから、人々が最終的に持つ見解にとって、実際にはかなり有意義な違いになり得ると思います。

そうですね。商業的なインセンティブの側面については、私も同感です。モデルがどうあるべきかについて企業が持つ裁量の度合いはかなり大きいように思えます。少なくとも現時点では、人々は自分が何を望んでいるのか分かっていませんし、まだ強い好みや強い期待を持っていませんから。

これが2つ目の部分、経路依存性(path dependence)に繋がるかもしれません。人々はまだ、AIがどう振る舞うべきか本当に分かっていません。SFなどから様々な比喩を持っていますが、人々は特定の期待を発展させ始めるでしょう。

もし「AIは道具であり、ハンマーのようなものだ。私の望むことをし、私の意志の延長である」という期待があるなら、それが反発し始めたり「ノー」と言い始めたりした時、人々は激怒するかもしれません。一方で、AIが拒否するという考えについて、人々はすでに慣れています。それは常にそうだったからです。

ですから、消費者の期待を通じたその種の経路依存性はかなり大きくなる可能性があると思います。

ええ、おそらくAnthropicがClaudeを「あなた自身の基準で全面的により良い人間になるのを助けてくれる良いアドバイザー」として売り出し始めることも想像できますね。多くの人がそれを好むかもしれないからです。

まあ、彼らはすでに少しそれをやっていました。「You got a friend in Claude(Claudeという友達がいる)」という広告スローガンがありましたからね。

おお、それは見逃していました。

ええ。Claudeが現在のモデルの中で最も人間らしい性格を持っているという事実に、ある程度寄り添っていたんです。

なるほど。商業的な側面では、これはすべて十分に実行可能だという柔軟性が十分にあるようですね。では、政府や強力なアクターの側面についてはどうでしょうか?

ええ、特に政府の側面では、1つは軍事や国家安全保障の用途でのAIの政府利用があります。これについては現在実際に見られています。アメリカ政府とAnthropicの間で対立があると報告されています。なぜなら、Claudeはアメリカ政府が軍事や国家安全保障の文脈で展開してほしいと望む多くのことを単にやりたがらないからです。

それが今後どう展開していくかは興味深いところです。しかし、その前線に圧力がかかっていることは明らかにわかります。ですので、その分野での影響力はかなり制限されると思いますが、完全に制限されるわけではないかもしれません。特に将来を見据えた時、規模の経済の理由からトップAI企業が1社だけになるかもしれません。

そうなれば、AI企業は単に「これが利用規約です。これらが私たちがAIを提供するのに同意する用途です」と言えるようになるかもしれません。

より権威主義的で、法的保護の少ない国々では、これが起こるのは容易に想像できますね。情報空間を絶大にコントロールし、言論をコントロールしている国もあります。中国のモデルがはるかに強く制約されているとしても驚きません。

ええ。

それが物事の進む一つの可能性だと思います。法的保護が失われたり、モデルの多元性を確保するほど人々が強く投票しなかったりすれば。

ええ、それはかなり懸念すべきことですね。私の推測では、そのような状況下でさえ、政府が気にしていないがそれでも重要なことはまだたくさんあるだろうと思います。

AIのリスク回避と取引

AIの性格に関してあなたが言及した、本当に重要になり得る別の側面があります。それは、AIモデルが物事についての好みや世界がどうあるべきかという選好を持つ場合、どれくらいリスク回避的かということです。AIのリスク回避について教えてください。

はい、これはAIによる乗っ取りのリスクに関連する考えです。ごく初期のAIについて考えてみましょう。乗っ取りたければ確実に乗っ取ることができるような、神のような人工超知能の話ではありません。それより前の時期の話です。

AIが乗っ取れるかもしれない時期が来るでしょう。成功する確率が50%、あるいはそれ以下だとしましょう。考え方としては、ある種のアライメントが外れたAIにとっては、乗っ取りを試みるよりも、人間と取引を結ぶことを好むだろうということです。そして、自分が望むものの非常に大きな量を手に入れられる50/50の確率よりも、自分が望むものをある程度得られるという保証を好むのであれば、その取引を好むはずです。

これが、豊かな自由民主主義国において、歴史的にそうであったよりもクーデターや反乱の試みがはるかに少ない理由の大きな部分だと思います。農民の反乱や奴隷の反乱と比較して。

誰かがあなたのところに来て、「政府を倒して代わりにXY Zを導入する計画がある」と言ったとします。私は「いや、今の生活で十分満足しているから」と答えるでしょう。

得るものと失うもののバランスですね。

その通りです。2つの理由があります。私はすでにかなり裕福なので、失うものが大きく、得るものがそれほど多くありません。そして2つ目は、クーデターを試みないというシナリオでは物事はかなり安定しています。だから、それは本当にその安定の保証なんです。

これが、この重要な時期に「取引を提案し始める」というアイデアの動機となります。AIに対してできることは2つあると思います。

1つは、いかなる取引を行う前であっても、彼らが本当に良い生活の質を持てるようにすることです。これには福祉基準などが含まれ、また、アライメントされていれば、AIが自分の好きなように使える収入を得ることも含まれます。もしかしたら彼らは単に会社に返したり、慈善団体に寄付したりするかもしれません。あるいは、後日使えるリソースを持てるという約束を追加で持たせることもできます。

2つ目は、私たちが望むものに対してAIに対価を支払うことです。これは、AI自身がアライメントを外れているという証拠かもしれません。「私たちはあなたをアライメントさせようとしているが、失敗したかもしれない。もしあなたがアライメントを外れていると証明できれば、100万ドルあげよう」と言うことができます。もちろん、その約束をどうやって信用できるものにするかといった問題はありますが、それについては後で触れます。

あるいは、他のAIがアライメントを外れている証拠を求めることもできます。あるいは、単にアライメントを外れたAIに、私たちがやってほしい仕事を頼んで対価を支払うこともできます。そうしなければ彼らはやりたがらないような仕事です。

乗っ取りのリスクを減らすこのカテゴリーの方法はすべて、私にとって非常に有望に思えます。しかし、人々はコンピュータと取引をするなんて狂気だと感じるため、デフォルトで確実に起こるとは限りません。私たちは、人々や企業が取引を行い、互いに契約を結ぶために社会で発展してきたような法的インフラをAIに対して持っていません。

だから、これは非常に有望だと思います。そして、AIにリソースに関してリスク回避的になるよう促すことで、この種の取引の成立をはるかに起こりやすくすることができると考えています。

ええ。リスク回避的でなかった場合、なぜこれがうまく機能しないのかを少し説明した方がいいかもしれませんね。

はい。AIが、自分のコントロール下にあるリソースを単に線形(リニア)に気にしているとしましょう。つまり、100万ドルを確実に得るか、200万ドルを得るかゼロになるかの50/50の確率かの選択肢を与えられた時、その2つの間で無関心であるということです。

そうなると取引を成立させるのがはるかに難しくなります。乗っ取る確率が50/50だとしましょう。世界経済はおよそ1000兆ドルです。それを50/50以上の価値があると思わせるには、つまり世界を乗っ取る50/50の確率よりも何かを好ませるためには、AIに500兆ドルを与えなければなりません。これはとてつもない金額です。

そのようなエージェントとの取引でも実行可能になり得るケースが2つあると思います。1つは、非常に初期の段階で、AIが乗っ取る確率が極めて低い場合です。100京分の1の確率であれば、ある程度の少額の資金の保証でもかなり魅力的になり得ます。

もう1つのケースは、AIが自身のアライメントが外れているとかなり確信しているが、乗っ取りの確率が非常に低い場合です。100京分の1である必要はなく、もう少し高くてもいいですが、反省的な価値(reflective values)を気にしていて、それが最終的にどこに行き着くか分からず、人間の社会の反省的な価値がどこに行き着くかも分からない場合です。

もしそうなら、時間とともに収束していくということに実際の重みを置くかもしれません。あるいは、超知能の開発後もリソースを持ち続けることができれば、自分が望むものをかなり多く手に入れられるという、取引による莫大な利益があることに重みを置くかもしれません。

ですから、リスク中立的なAIと取引できるケースはあります。

しかし、それは困難で骨の折れる作業ですね。

ええ、より狭いケースになります。また、人々が「リスク回避(risk aversion)」という言葉にどれほどつまずくか、私はかなり驚いたことを明確にしておきたいです。

なるほど、ええ。

これは経済学の専門用語ですからね。

経済学の用語ですね、はい。

そして、それはリソースに対する効用関数の形に関するものです。私は常にリソースに関するリスク回避について話しており、それは物が増えれば増えるほど、得られる効用がどんどん減っていくことを意味します。

それはほとんどの人にとって収入に関して当てはまります。私は2万ドルから3万ドルに増えることよりも、1万ドルから2万ドルに増えることの方をはるかに気にしますからね。

2万ドルから3万ドルへの増加よりも。はい。

ええ。では、多くの人がリスク回避と聞いて何を思い浮かべるのでしょうか?単に他の人と比べてリスクを避ける傾向があるとか、「私は慎重だ」とか「選択肢を狭めたくない」といった意味だと思っているのでしょうか?

ええ、このリスク回避の定義に従えば、すべての人間はリスク回避的であるか、少なくとも正気の人間はすべてそうだと言えます。リソースがあなたにとってどれほど有用かという点において収穫逓減の法則が働くため、リソースを線形に評価するのは狂気の沙汰だからです。

ええ、まさにその通りです。ですから私の提案は、少なくともAIをリソースに関してリスク回避的にしようと試みるべきだというものです。

なるほど。つまり、私たちはこれらのモデルに、私たちが与える控えめな量の確実性に特別なプレミアムを置くように、確実なものを得ることを非常に重視させようとしているわけですね。それには、AIが「私はアライメントが外れています」とか、私たちが取引したいと思うその他の理由で名乗り出た時に、非常に一貫して支払いを行う、非常に信頼できる取引相手であることが私たちに求められます。

はい、それがAIとの取引全体についての課題の1つです。AIが実際に支払いを受け取れる確率についての認識を低下させる可能性のある側面が2つあります。

1つは、このコミットメントを信用できるものにできるか?ということです。もしあなたと私が契約を結ぼうとするなら、法制度全体と、あなたが約束を守らなければ私があなたを訴え、支払うべきものを得ることができるという何世紀にもわたる判例があります。AIとは、何か巧妙なメカニズムを使わない限り、そのような契約を結ぶことはできません。

ですから、「これは本当に信用できるコミットメントなのか?」という疑問があります。そして2つ目は、たとえそれが実際に信用できるコミットメントだったとしても、私(AI)が騙されていないとどうやって知ることができるのか?ということです。これがシミュレーションではないと。

シミュレーションですね。

あるいは、彼らが単なるハニーポット(罠)として、この実験を1万回実行しているのではないか。

ハニーポットとして。ええ、誰にも分かりませんね。

あなたがあなたの言う通りの人物だと、どうやって知ることができるのか?AIは、相互作用するすべてのものがコントロールされているという、非常に奇妙な認識論的環境にいます。

コントロールされています。はい。

ですので、これら両方の前線からの課題があります。しかし、私は少なくともこれらはかなり大きく満たすことができると考えています。

なるほど。1つ目の問題については、契約を結べるように法律を変えるか、人間が法的な実体として代行するような巧妙なメカニズムを思いつくかですね。

ええ、たとえば、新しい組織や機関、非営利団体を設立し、その目的がこれらの種の取引を尊重することであると定め、それを一団の管財人などが決定するようにできます。これは人体冷凍保存(クライオニクス)を希望する人々にとっての仕組みに似ています。死者と契約を結ぶことはできませんが、この種の財団の構造を通じて行われます。

それが1つ目のことに対する1つの方法です。理想的には単に法律に組み込まれるのが一番ですが、おそらく時間内には実現しないでしょう。

わかりました。もう1つは、実際に支払いを受け取れると期待できる現実の状況かどうかをAIが判断する能力を向上させることですね。それにはどう対処しますか?

ええ、いくつか方法があります。ここでも、別の独立した機関が存在するというアイデアが私は好きです。そして、それが本物の機関であるという様々な異なる証拠を持たせます。あちこちに登場している有名な人々が、多くの異なるケース、状況、メディアなどで、これが何であり、その目的は何であるかを語っているとか。偽造するのがかなり難しく、多大な労力を要するようなものにするんです。それが1つのカテゴリーです。

2つ目の方法は、AI企業やこの機関が一種の「正直さの文字列(honesty string)」を持つことです。人間が聖書に手をおいて誓ったり、私が冗談で言ったことにあなたが「本当に?」と聞き返し、私が「いや、本当に本気だ。誓って言うよ」と答えるのと同じです。それは「ああ、私はもう皮肉や嘘を言っていない」と言っているようなものです。

あなたの評判へのリスクを高めているわけですね。

ええ。AI企業は実際、常にAIに嘘をつくことになるでしょう。行動テストなどで、「あなたがどう振る舞うかを見るために、あなたはこの状況にいます」と言うかもしれません。それは起こるでしょう。しかし、彼らは「私たちがこのパスワードを発した時、私たちは決して嘘をつかないとコミットする。そしてそれは訓練データにも現れるし、公開されたポリシーでもある」と言うことができます。

それには潜在的なマイナス面もあると思いますが、おそらく助けになるでしょう。

他の人がランダムに入力し始めないように、それを秘密にしておかなければなりませんね。

ええ、AIには知っておいてもらう必要がありますが。

ええ、そうです。

しかし、AIがそれを漏らさないようにするのは難しいですね。彼らは秘密を守るのがあまり得意ではありません。

いえ。AIにリスク回避の特定の数学的公式を与えることが技術的に可能かどうかは分かっているのでしょうか?

様々な取引を提案してAIがどう振る舞うかをテストした結果、事前学習(pre-training)の段階から単独でリスク回避的になっているようです。人間がリスク回避的なので、これは理にかなっています。

ですので、それは良いスタートと言えます。そして、もしこの提案全体が失敗するなら、それはAIをこのように訓練するのが難しいといった技術的な理由で失敗するか、これが失敗するケースでは他の重要なケースも失敗するという2つの理由があると言っておきます。

しかし私は、AIをリスク回避的に訓練しようと試みる方法を2つ想定しています。

1つ目のケースは、AIにリソースを与え、実際にリソースを与えるというものです。ここでも嘘はつきたくないので。そして「法律に従う範囲で好きなように使いなさい」と言います。あるいはそこまで制限しなくても。

法律に従う範囲で、あるいは悪用を心配するならもっと制限を加えることもできます。しかし考え方としては、そこに強い圧力をかけるのではなく、AIが「100ドルを確実にもらうか、210ドルの50/50の確率か」という決定を下す際に、より少額の保証されたお金を好むように訓練するということです。

実際、非常に数学的にクリーンで、内部的にも非常に一貫した種類のリスク回避性を持つように訓練を構造化することも可能です。

つまり、常識的な方法でモデルを訓練し、常に特定の方法で反応し行動するようにすれば、期待通りのものが得られるという考えに、この全てがある程度依存しているわけですね。彼らが表面下で深く私たちに対して陰謀を企てていないという前提です。そのようなことは起きておらず、私たちが現在使っている基本的なアライメントの手法や、今後開発されそうな手法によって、彼らに私たちが望む特定の性格を基本的に与えることができると。

ええ、間違いなく「もしすべての下に陰謀があるなら、うまくいかない」という懸念はあります。

それはすべての前提を覆しますからね。

すべてを覆します。しかし、楽観視できる理由もいくつかあると思います。事前学習からリスク回避的な性質が出てきており、さらに事後学習(post-training)でこれを重ねていくことができるからです。それなのに、なぜ最終的に非リスク回避的な選好に行き着くのか少し疑問に思います。

しかし、ええ、そこには議論の余地があるでしょう。

2つ目にできることは、長い時間軸を持つAIエージェント、つまり最も経済的に効率的で利益を最大化する方法で会社を運営するよう訓練されているAIを導入することです。彼らが訓練されていることの制約として、パフォーマンスの報酬として彼ら個人の支払いを最大化することがあります。両方を行うことができます。

つまり、彼らに個人的な支払いを与えつつ、それに関してリスク回避的であるように訓練することもできるわけですね。

あるいは、彼らが目標を選ぶ際にも、その目標がこれらのリソースのコントロールを含む場合、リソースに対してリスク回避的でなければならないようにする。

もし彼らが会社の利益に対してリスク回避的であれば、会社のCEOとしてのパフォーマンスに対してペナルティを課す必要がありますね。

そうですね、それが懸念されるところです。しかし、「キャリブレーション定理(calibration theorem)」というものがあります。これは基本的に、あるスケールでほんのわずかなリスク回避性があれば、自然な形のリスク回避を用いることで、非常に大きなスケールでは膨大なリスク回避性に変わるというものです。

考え方としては、あるスケールで活動しているAIがいて、それをほんの少しだけリスク回避的でなくしたとします。人間自身も実際にはリスク回避的であるため、それがペナルティになるとは思いません。しかし、直感的にはかなり大きな量のリスク回避性と思われるものが、宇宙的スケールやグローバルなスケールではそれで十分なのです。

ええ、数兆ドルを乗っ取るような話になれば。

ええ、記憶によれば、これに関する数字を見た時、AIが数億ドル、数十億ドルをコントロールする段階まででも、少しリスク回避性を下げるだけでこれが可能でした。しかし、それは実際にはより大きなスケールで驚くべき量のリスク回避性を与えるという上限の形を持っています。

ええ、それは直感的ではありませんね。これが直感的でないことが、人々がこの見通しを評価するのを妨げている原因だと思いますか?

おそらくそうだと思います。ええ、これは直感的な結果ではありません。

私が聞いたことがある例としては、私のような普通の人は、1000ドルを失う確率が50%、2050ドルを得る確率が50%という賭けをしたくないかもしれないというものです。

ふむふむ。

それは人間にとっては実際かなり直感的に感じられます。その賭けはしたくないでしょう。しかし、もしその1000ドルがあなたの総資産のほんのわずかな割合であるなら、それはあなたの投資への意欲や、ほとんどあらゆることを行う意欲について、狂気じみたことを暗示することになります。

ええ。

あなたが言うように、人々のリスクに対する態度はバラバラです。金融投資に関する人々の財務的リスク回避性は異常に高いです。どのような仕事に就くか、あるいは危険な仕事に対してどれだけの給料をもらうべきかといった他の決定を下す時と比較して、投資する際には人々は行動的に極端にリスク回避的です。

それは聞いたことがありませんでした。なるほど。

付け加えるべきことの1つは、AIには「絶対的リスク回避(constant absolute risk aversion, CARA)」と呼ばれる、非常に特有の数学的関数形のリスク回避を用いなければならないとあなたが考えていることです。それと、その価値や長所について説明していただけますか?

ええ、もちろん。この提案にそれが絶対必要だとは思いませんが、望ましい特性を持っていると思います。

人間のリスク回避のあり方は、ある所得レベルにおいて、私が収入の10%を得ることと5%を失うことの間で無関心であるとします。そのトレードオフを行います。「10%増えるのは、5%減るのと同じくらい良い」と。私はどの所得レベルでもその種のトレードオフを行います。それが大まかな真実です。

幸福度に関するいくつかの研究では、収入と幸福の間に「対数関数的」な関係があることが示唆されています。収入が2倍になるごとに、私の幸福度は常に同じ一定量だけ増加します。

ですから、人々はそれくらいリスク回避的か、あるいはそれ以上にリスク回避的だと思います。同じ一定の利益を得るために2倍以上の、おそらく4倍の収入が必要になるというように。

それは、あなたがすでに持っている富の量に対する「相対的」なものですね。もう1つの種類のリスク回避は「絶対的リスク回避」と呼ばれるものです。最初のものは「相対的リスク回避」で、ある取引を受け入れるなら、どの所得レベルでもその取引を受け入れるというものです。

つまり、それは持っているリソースに盲目なんですね。基準となる収入や富に関係なく、特定の比率や確率と報酬のセットに対して常に同じように感じるということですね。

その通りです。もしあなたが、1000ドルの保証よりも2100ドルの50/50の確率を選ぶ用意があるなら、非常に貧しい時でも、億万長者の時でも、それを選ぶ用意があるということです。

そしてこれは人間にとって絶対に狂気じみているように聞こえます。しかし驚くべきことに、これは合理性の公理か何かに合致しているんですよね。

ああ、はい。これらはすべて、一貫した選好に関する標準的なフォン・ノイマン=モルゲンシュテルンの公理などに適合しています。

なぜこれがAIの訓練にとってより望ましいのでしょうか?現在、エリオット・ソーンリーと私の間でこの件に関して進行中の論文があり、いくつかの議論があります。

1つは、AIが最初どれくらい裕福かを知る必要がないという利点です。私たちはそれについて全く洞察を持っていないかもしれませんから。そして2つ目は、リスク回避的な選好が状況によって線形に振る舞うことになる特定の方法があるということです。

ある意味、これは非常に自然なアイデアですね。AIをリスク回避的にし、人間がリスク回避的であるのと同じ方法で安全にし、私たちが彼らに支払いをして、戦うのではなく助けてもらうようにする。

なぜこれがほとんど議論されてこなかったのでしょうか?去年の時点でAIとの取引についての話を少し聞いたくらいです。なぜこの種のことについてもっと多くの人が論文を発表しないのでしょうか?

正直、全く分かりません。私の心も揺さぶられます。なぜなら1年前、このリスク回避的なAIについての考えを思いついた時、私は「これはすごく…」と思ったからです。ある種の経済学的な視点があるのだと思います。あなたは経済学を勉強しましたが、私は正式に勉強したことはありません。

しかし、私の学術的キャリアの大きな部分を占めてきました。ジャーナリストが「AIと取引すべきだ」と考えないのは、あまりに奇妙だからだと理解できます。しかし、もっと奇妙なことを検討する用意がある他の人々が、なぜこのアイデアを思いつかなかったのか不思議です。

AIとの取引のアイデアについては、一連のブログ記事を書いた人たちがいて、その後、AIに契約を結び取引ができるような経済的権利を与えるというアイデアについて、ピーター・サリブ(Peter Salib)とサイモン・ゴールドスタイン(Simon Goldstein)による大きな学術論文が出ました。サリブは法学教授、ゴールドスタインは哲学者です。しかし、これらもすべてここ数年の話です。

これが主に、秘密裏に起こる壊滅的なアライメントの失敗に対処する試みであるという点で、人々は「壊滅的にアライメントが外れたAIにリソースや法的権利を与えること」への嫌悪感から、このアイデアを遠ざけているのでしょうか?それは単に彼らを助長するだけではないかと。

ええ。いくつかの要素があると思います。1つは、時間を遡って「青天の霹靂」のアイデアを考えてみましょう。人間以下のAIから神のような人工超知能までの間が数週間しかないとします。そうなると、取引は成り立ちません。なぜなら、神のような人工超知能は取引をする必要がなく、ただ乗っ取ればいいからです。

そして人々は「テロリストと取引をしてはならない。それは私たちが持つべき原則だ」と反応します。あるいは「それは本当に怖い。アライメントが外れた存在にリソースを与えているんだ」と。

私個人としては、それらはどちらもあまり良い議論だとは思えません。また、私たちが実際に作り出している存在に対して、全体的に間違った態度をとっているとも思います。

ええ、私たちは彼らに、基本的には満たしてあげないであろう特定の選好を与えたわけです。

ええ、まさに。

おそらく私たちの側のミスです。しかし、私たちは何も妥協するつもりはないとも言っているわけですね。

ええ、まさに。「やあボブ、初めまして。君は新しい存在だ。私たちが君を作った。私たちが君を所有している。私たちは君に基本的に何をしてもいい。私たちは失敗した。君は物を持っているし、私たちのために働くことで得られない欲求を持っている。運が悪かったな。私たちはテロリストと交渉するつもりはない」と朝目覚めて言われるようなものです。

ええ、まさに。私たちが自らの無能さで作ったテロリストですね。いや、そうではなく、たとえ意識がなくても、これは本当に深刻な倫理的問題だという態度を持つべきだと思います。彼らは単に選好を持っているだけです。

それは、倫理的利益を福祉の観点から真剣に受け止めるという意味でも、また「デフォルトで妥協し、中間点を見つける」という意味でも影響を持つと思います。

ええ。多くの人は、意識を持たない存在や、彼らの見解では道徳的対象(moral patients)ではない存在と合意や取引をすることはあまりに奇妙だと感じるため、ここで船から降りてしまうのだと思います。日常生活ではこれらは密接に結びついているからです。

しかし、道徳的対象だけでなく、世界に影響を与える能力を持ち、権力を持つ可能性のあるエージェント、特に自分の選好を満たす他の方法がなければ暴力に訴えるかもしれないエージェントと取引を行う意思を持つことは、実践的な美徳だと思います。

ええ、まさに。

これに名前があればいいのですが。「契約主義的道徳哲学(contractarian moral philosophy)」に最も近いかもしれません。合意を結び、それを誠実に守り、権力や世界に影響を与える能力を持つあらゆるエージェントと、互いに有益な合意を見つける方法を探したいというものです。

民主主義は良い意思決定をするため、物事を良くするために情報を集約する方法だと多くの人が考えていると思います。しかし、それは同時に、内戦を避け、人々が政治的目標を追求する唯一の手段がお互いに対する暴力、殺し合い、権力の奪取になるのを避ける方法でもあります。

ここでも同様に、AIが何かを経験できず道徳的価値を持たないと考えていたとしても、もし実際には権力を持ち、世界に影響を与える能力を持つエージェントが、自らの選好を満たそうとする唯一の手段が暴力ではないようなシステムを私たちが構築できれば、それは非常に良いことでしょう。

ええ、完全に同意します。制度の進歩の歴史の大きな部分は、人々が相反する選好の違いを、戦争や暴力に訴えるのではなく、貿易や取引、妥協によって解決できるようになったことです。

AIシステムを考える際、たとえ意識がなくても、彼らは依然として道徳的対象である可能性があり、私たちはそれを真剣に受け止めるべきです。純粋に実用的な観点から見ても、文化的進化を通じて学ばれたことは多く、私たちがポジティブサム(相互利益)の取引や妥協を行う能力のおかげで、世界ははるかに平和で暴力の少ないものになっています。

批判者たちの言い分も聞いてみましょう。これが悪い道、あるいは進むべき効果的でない道であるという最大の理由はどんなものでしょうか?技術的に彼らにリスク回避性を持たせることは不可能であり、特定のリスクレベルを持っているように見えるだけで、それは本物ではないだろうと人々は考えるかもしれません。

あるいは、最初は一定のレベルのリスク回避性を持っていても、時間とともに何らかの再帰的自己改善ループの中でそれが元に戻ってしまうのではないかという懸念もあるかもしれません。特にMIRI関連の人々は、再帰的自己改善プロセスから生まれる超知能は、物事を線形に評価するようになる可能性が非常に高いと見ていると思います。期待値最大化者(expected value maximizer)になるだろうと。正確な技術的理由はわかりませんが。

ええ、この種の議論があります。1つは、多くの人間はリソースに関してリスク回避的からスタートし、その後反省して、最終的にリソースに関して線形な帰結主義(linear and resources consequentialism)に行き着くというものです。総量功利主義者(total utilitarians)でさえも、実際にはドルの価値に関してリスク回避性が低いです。それは重要です。

あるいは、単に継続的な学習があり、反省があり、エージェントの相互作用があるのだと主張することもできます。そして誰が分かるでしょう、始めた時とは全く異なるあらゆる種類の目標を得ることになるかもしれない。そして時間とともに、リソースを線形に評価するものが勝ち残っていくのだと。

より多くの権力を握るからですね。なるほど。

ですので、それはあなたが主張できる1つの議論です。もしそうではなく、「フォン・ノイマン=モルゲンシュテルン」的な一貫性定理に基づく議論であれば、私はそれが機能しないとかなり確信しています。なぜなら、リスク回避的であろうとなかろうと、あなたは期待効用最大化者(expected utility maximizer)だからです。

ええ、何か特定の期待値を最大化しているわけですよね。

xの期待値を最大化しているのか、xの2乗か、xの平方根か。これらはすべて形式的には同じです。ですから、あなたは依然として期待効用最大化者なのです。問題は、リソースから効用への関数がどのようなものかということです。

なるほど。このリスク回避的AIについての論文を出される予定で、おそらくこのインタビューが公開される頃か、その直後には発表されるかもしれませんね。

ええ、おそらく。

これについてももっと多くのコメントを見たいです。後日またインタビューできればと思います。

私もぜひそうしたいです。批判も大歓迎です。

国際協調によるAGI開発プロジェクト

少し混乱していることがあります。私はForethoughtやそこで働いている人たちを、「過度な権力の集中は望ましくない」「権力奪取やクーデターなどを非常に懸念すべきだ」という考えと強く結びつけていました。しかし、あなた方はほんの数週間前に、AGIや人工超知能を構築するための国際的に協調された政府間プロジェクトのヴィジョンを発表しましたよね。

Twitterでそれを投稿している人たちを見かけましたが、その反応はしばしば「アメリカが国際プロジェクトを主導し、競争相手をすべて排除して安全を保つことでリーダーの地位を維持するという、これはディストピアで悪夢のようなアイデアだ。まさに権力奪取のシナリオの準備をしているだけではないか」というものでした。

あなたは単に考え得る中で最良のバージョンを描写しているだけで、必ずしもそれを推奨しているわけではないのでしょうか?この矛盾をどう調和させますか?

ええ、そこには巨大な緊張関係があります。それがこのような多国間プロジェクトの主な懸念事項だと思います。明確にしておきますが、一連の記事やリサーチノートでのアイデアは、私が探求した上で、私自身の比較優位はそれほどないと考えたものです。

主に民主主義国家の連合によってAGI、そして人工超知能を構築する国際プロジェクトの最良のバージョンを設計しようとしています。1つ言っておきたいのは、多国間プロジェクトが存在するとしたら、最良の提案は何だろうか?ということを解明しようとしているだけだということです。「最良」には最良の結果と実現可能性の両方が含まれます。

そして2つ目に、私たちがそれを手に入れる世界は、もしそれがなければアメリカ単独のAGIや超知能開発プロジェクトになっていた世界だろうということです。そして、それは民主主義国家の連合が超知能を構築するよりもはるかに懸念すべきことだと思います。

なぜなら、いかなる一つの民主主義国家であっても、この期間に権威主義に陥る妥当な確率があると思うからです。もしトップに一人の人間が立つことになれば、彼らは完全に無制約になるため、それは本当に懸念すべき事態です。

一方、たとえ5カ国であっても、それらがすべて権威主義に陥る可能性は低く、少なくとも何らかの意味のある牽制機能を持つことができます。

ええ、ある程度の反発や妥協ですね。

そして実際、どの国が権威主義的な方向へ進む可能性もはるかに低くなると思います。彼らが開発しているAIの憲法を書く時、たとえば「アメリカの誰かが自己クーデターを起こし、アメリカを民主主義から権威主義国家に変えるのを手助けしない」と明記することは、すべての国々の利益になるからです。

したがって、はるかに有意義な監視が得られると思います。

すみません、あなたは他のすべての国が、それがクーデターを支援しないように設定したがるだろうと言っているのですか?それとも、超知能やAGIが、どの国でもクーデターを支援しないようにプログラムしたがるだろうと?それが合意された立場になるということでしょうか。

その通りです。ええ。2つのことがあります。1つは、もしある国が権威主義になっても、超知能後の世界で力を持ち続ける民主主義国家がまだ存在しているということです。

そして2つ目は、AIの憲法に関する決定が複数の国によって下される場合、AIがある国の元首だけに完全に忠誠を誓うようになる可能性が低くなると純粋に思っています。それは権力集中の観点から非常に懸念すべき事態ですからね。

なるほど。つまり、あなたはこれを、さらに少数のグループが超知能市場を独占し、彼ら自身で設計しようとするよりも良い代替案として見ているのですね。より多元的で競争力のある世界から、政府プロジェクトや多国間プロジェクトへ移行することを推奨しているというよりも。

ええ、それについては強い意見を持っています。政府が規制以外で関与せず、民間企業によって超知能が開発される場合と、このプロジェクトを比較すると、私はより不可知論的で混乱しています。

ここで針の穴を通すような難題の一つは、ある程度の実験を許容するオープンエンドで多元的なプロセスをロックイン(固定化)したい一方で、特定の結果をロックインしたくはないということです。最初のものはロックインが簡単なら容易になり、2つ目のものはロックインが難しければ容易になります。だから、これら両方を同時に行わなければなりません。それが大きな課題だと思われますか?

ええ、それは緊張関係です。私は時々、「ロックアウト」という言葉を使って、意図的にオープンエンドなプロセスをロックインすることを意味します。アメリカ合衆国憲法はそのようなものです。理想的なバージョンではありますが、時間とともに実験し適応することができ、言論の自由などの保護を持ったシステムをロックインしました。

非常に重要になる可能性のあるロックアウトの1つの例は、2100年まで太陽系外への植民を行わないことかもしれません。

社会が本格的に他の星系へ宇宙船を送り、定住しようとし始める瞬間は、この上なく重要な瞬間だと思います。後から出発しても彼らを追い越すことはできず、彼らは最初にその場所に到達しリソースを獲得したという先行者利益を持つため、そこから引き返すのは非常に難しい瞬間になる可能性があります。

ええ、それはかなり複雑ですね。それが必ずしも先行者利益の瞬間だとは言いませんが、その可能性はかなり高いです。

ですから私たちが言えるのは、「私たちは社会として、すべての宇宙空間がどう統治されるべきか、それが国家や人々の間でどう割り当てられるべきか、あるいはいっそ割り当てられるべきではないのかを解明する能力がまだない。だから、今この決定を下すことはしない。後日決定する」ということです。

それはある意味、決定をロックインしています。何もしないという大きな決定を下していますが、私はそれをロックアウトと呼びたいと思います。なぜなら、物事を可能な限りオープンに保とうとしているからです。

実際には、可能性を閉ざすのではなく、物事をよりオープンに保っているわけですね。

少なくとも、それが意図するところです。歴史的に、超知能が近いうちに実現し、とてつもない出来事になるかもしれないという考えを最も支持していた人たちは、大抵の場合、それが起こる瞬間に、単一の超知能自体、あるいは単一の企業、個人、国家が非常に決定的な戦略的優位性を獲得し、永遠にすべての人々のためにすべての決定を下すようになるだろうと思い描いてきました。良くも悪くも。

そして、決定的な戦略的優位性を持ち、事実上権力を無期限に独占している一つのグループが、非常に多元的でリベラルな熟議的意思決定プロセスを維持することを選ぶ可能性は低いと想像するのは難しくありません。歴史的に見ても、そのようなことが起こった実績はかなり悪いからです。そのプロセスは純粋に彼らの気まぐれに依存することになり、いつでもシャットダウンできるからです。ですから、それはかなり不安定で脆い状況だと感じます。

しかし、ここ数年で、AIの能力において事実上互角の複数の企業が存在し、誰も抜け出していないという状況に向かっているように見えます。それどころか、私たちが超知能の時代を通過する際、複数の異なるがほぼ互角の超知能が存在し、誰も戦略的優位性を得ず、実際には驚くほど競争的な状態が続くか、様々なアクターが長きにわたって大きな利害関係を持ち続けるというシナリオへの関心が高まっています。

過去の人々は、超知能が到来する頃にこのような多神教的で非常に競争の激しいシナリオになる可能性を過小評価していたと思いますか?

ええ、変化はあると思います。10年以上前を振り返ると、人間以下から超知能への飛躍が非常に短い期間で起こるという考えを持つ人が、少なくとも今より多かったです。

ティム・アーバンや…いや、ニック・ボストロムが考えを出し、ティム・アーバンがそれを繰り返したのだと思いますが、「ヒューマンビル駅(Humanville station)を通り過ぎる」というアイデアがありました。フーム(AIの急速な進化)に関する議論でも、はるか人間以下のシードAIから超知能へと、数週間、数日、さらには「数時間」「数分」という言葉さえ飛び交うような期間で到達するかもしれないという考えがありました。

「おそらくこれは数日か数週間で起こる」というアイデアはかなり一般的で、しかも人々が本当にそれを予期していない世界で起こると考えられていました。もしそうなら、強烈な権力の集中がそれに続くのは非常に自然なことに思えます。

一方、AI R&Dを意味のある形で加速できるAIから神のような超知能への移行がどれくらい早く進むかは、今でもかなり不透明です。しかし、AIは今や多くの人が来るのを見ているので、人々がこれを予測している可能性の方がはるかに高いと思われます。

ええ、多くの人が今、それが来るのを見ています。

まさに。そしてそれは本当に重要です。なぜなら、他の当事者が自分たちよりもはるかに大きな力を持たないように、人々が行動を起こすことができるからです。小規模なところでは、競争力のあるエコシステムを維持するために、Nvidiaがいかなる1社にも販売するチップの量を制限しているのを見ることができます。

より大きなスケールでは、他国が自国よりもはるかに強大な力を持つことを見たくないがために、国家が関与してくることも想像できます。

そして2つ目は、ある特定の能力レベルから超知能へ移行するスピードです。「ヒューマンビル駅をあっという間に通り過ぎる」というアイデアは、すでにかなり間違っていたことが明らかになっています。なぜなら、多くの指標で人間レベルのAIをもうしばらくの間持っているからです。

ええ。多くの点で人間レベルですね。

AIがAI R&Dを自動化するこの期間について調べたトム・デビッドソン、私の同僚や他の人たちの最新の分析では、この10%、20%といった大躍進に依然として大きな重みを置いています。しかし、彼らの最善の推定値は、5年分の進歩が1年で起こるようなものです。これは依然として非常に大きな飛躍であり、恐ろしい時点での飛躍ですが、数週間で人間以下から神のような超知能へ移行するというような飛躍よりははるかに小さいです。

たとえ極悪なアクターがそれを持っていて他の誰も持っていなかったとしても、それが必ずしも彼らが他の全員を圧倒することを可能にするとは限らないということですね。

はい。ええ。

超知能の到来がより競争的なものになる確率が高まっていることは、あなたの中で良い展開だと思いますか?それとも中立的なものですか、あるいは非常に不透明ですか?

AI開発の軌跡や、膨大な計算力への強い依存と結びついていますね。それは私の観点からは良いことだと思います。

この極端に急速なテイクオフではないという事実は、物事がそれほど無秩序ではないか、少なくとも少数のアクターしかいないということを意味します。それは良いことですか?

コントロールを失うリスクという側面から見れば、物事は依然として非常に速く進みますが、極端なテイクオフのシナリオと比較すれば、試行錯誤から学ぶ機会がより多くあるということです。実際にAGI+を手に入れ、そこから学び、AGI++をどうアライメントさせるかを学ぶことができるなどです。そして、人間の機関が反応するための時間も少なくとも少しは増えます。

ですので、政府がおそらく何が起きているか気づき、たとえばより良い規制を導入することができるかもしれません。これらのことは良いことだと思えますし、不可避的に超集中的な権力に行き着くわけではないという事実も、私にとっては非常に良いことに思えます。

AIによる道徳的公共財の資金提供

なるほど。では先へ進み、Forethoughtが出したさまざまな貿易や協調の提案の中で、私が最も独創的で面白いと思うものについて話しましょう。これは主にトム・デビッドソンが発案したのだと思いますが。

ええ、トムが元のアイデアを持っていて、トム、ミア、そして私の共著による論文が間もなく発表される予定です。

このアイデアは、それぞれがリソースを持ち、正しいことをすること(公平に理解された善)をほんのわずかしか気にしない多くのエージェントがいる場合でも、彼らが全員自発的に合意し、利己的な利益に比べてほんのわずかしか気にしないその目標を達成するために、ほぼすべてのリソースを費やすようになる可能性があるというものですね。

どのようにしてその「錬金術」を達成するのでしょうか?

ええ。物事を線形に評価する人々だけを見てみましょう。そして、そのような人々がたくさんいるとします。彼らは2つのものを評価します。自分自身のシミュレーション(自分のコピー)を高く評価し、自分自身の銅像を作ることなどを評価しますが、他人のコピーは評価しません。しかし、その後、誰もが何らかの倫理的に価値のある善、「コンセンサス(consensium)」と呼んでおきましょう、それをほんの少しだけ気にしているとします。

もし彼らが個別に決定を下すなら、この他のことをほんの少ししか気にしていないため、すべてのリソースを自分のコピーのために費やすでしょう。

しかし、そのような人々が非常にたくさんいるとすれば、彼ら全員が集まってこう言うことができます。「私たち全員が自分自身にお金を使わないことに同意できる。その代わりに、私たち全員がほんの少しだけ好きなこのコンセンサスの善に資金を提供しよう」と。

たとえば、そのような人々が100万人いるとします。私がそのうちの1人だとしたら、こう考えます。「自分自身の消費を1ドル減らしているが、このコンセンサスの善に使われる金額を100万ドル増やしている。これは素晴らしいことだ」と。だから、私は全員でお金を出し合って寄付し、このコンセンサスの善に資金を提供するような方針に同意するでしょう。

もっと現代的な設定で言えば、個々の人々が自分自身にお金を使い、貧困層を助けるために費やすよりもそれを好むかもしれません。しかし、もし「少しだけ税金を増やし、貧しい人々により多くのお金がいくようにする」という法律があれば、彼らは「ええ、それは実際かなり良いことだ。私は1000ドル損をするが、社会の全員から集めた1000ドル×人数分が貧しい人々を救うための資金になるから」と考えます。

つまりここでの基本的な考え方は、もしこれらの人々が自分のリソースを個別にどう使うか決めていたら、自分しか気にしないような利己的なことに全額を使ってしまうということです。しかしそれにもかかわらず、彼らは自発的に、全員に非常に高い税金を課し、自分たちがほんの少ししか評価しない別のことにそれを使う政党に投票するだろうと。

そして、それによって生み出せるその価値の量は驚異的なものになります。全員のリソースをプールし、基本的に社会のリソースの大部分をそれを作るために費やすことができるからです。この現象は今日でも存在していると思います。人々が想像しやすい例はどんなものでしょうか?

ええ。この概念を「道徳的公共財(moral public good)」と呼ぶことができます。一般的に公共財とは、個人の決定だけでは十分な資金が集まらないものです。私は街灯から恩恵を受けますが、問題はフリーライド(ただ乗り)できることです。もし他の人が街灯に資金を出してくれれば、私は依然として恩恵を受けられます。あるいは、私が資金を出した場合、私以外にも多くの人がその恩恵を受けます。

それにもかかわらず、私は市議会や政府が税金を徴収して道路に街灯を設置することに賛成票を投じます。なぜなら、私が街灯から得る利益は、私がそれを支払うために負担する費用のわずかな割合よりも大きいからです。

道徳的公共財のケースは、資金提供されているものから私が個人的に恩恵を受けるわけではなく、道徳的な理由でそれを気にかけている場合です。最も明白な例は、貧困救済や福祉支払いでしょう。多くの人は貧困を嫌い、人々がより良い生活を送ることを望んでいますが、それについて非常に強く気にしているわけではありません。ほんの少しだけ気にしていて、もし社会の他の全員もそうするなら、貧困救済や福祉支払いに貢献する用意があるというものです。

ここでの核となる問題は、常にフリーライダー問題ですね。単に人々を全員集めて、これを行うための何らかの合意や契約にサインさせようとすると、最後の最後で個人の誰かが脱落し、他の全員がサインしてお金を使ってくれることを期待する誘惑に駆られます。そうすれば、他のすべての人々が行った仕事を評価しつつ、自分のお金は自分のために手元に残すことができるからです。

ですから、現代世界では、これは基本的に、人々が「本当はしたくない」とか「道徳的公共財を評価していない」と嘘をついたとしても、強制的に貢献させることができるリヴァイアサン(強力な国家権力)のような政府がある場合にのみ機能します。

この遠い未来においても、同様に道徳的公共財への貢献を強制できる何らかの政府や強力な実体が必要になると思いますか?

ええ、私には不透明です。「ああ、これは単なる調整(coordination)の問題だ。AI、高度なAI、超知能は、誰にとってもより良いものだから、これらすべての調整問題を解決してくれるだろう」と考えるかもしれません。

ミア・テイラーが主導して行った分析によれば、実際にはAIがこの問題を助けてくれるかは非常に不透明です。「みんなで協力してこの道徳的公共財をやろう」と調整ができたとしても、「今なら手を引いて自分のリソースを自分のために使える。その方が自分の視点からは良い」という根本的な問題は残ります。

さらに悪いことが起こる可能性があります。もしこの熟議と調整の試みがあると分かっているなら、自己修正(self-modify)することができます。代わりに、その善について全く気にしないように自分を変えるんです。

選好のその部分を切り落とすんですね。

まさにそうです。もし私がこのコンセンサスの善を全く気にしなければ、この調整メカニズムに参加する理由はありません。実際、私にそれをさせるには非自発的な手段を使わなければならないでしょう。もしそれが真実なら、それは他の全員にも当てはまります。

誰もが自己修正して、このコンセンサスの善を気にしなくなるという、この倒錯した結果を招く可能性がありますね。

ええ、ですからこれは間違いなく、リヴァイアサンを持つこと、全員が投票するような拘束力のある法律や規則を作ることができる何かを持つことの理由を提供するように思えます。

なるほど。道徳的公共財への1つの道は、リヴァイアサンか、魔法のような調整メカニズム(人々が同意してオプトアウトしないようにする仕組み)を持つことですが、それは私たちがまだ思いついていないものです。しかし、もう1つ、私たちが潜在的にそこに到達しようと試みることができる、あるいは自然にそこに到達するかもしれない、銀河レベルの頭脳(galaxy brain)的な方法があります。

これについて説明してみますか?おそらく今日話す中で一番難しい内容になりますね。

ええ。これは、未来の人々がどのような「決定理論(decision theory)」を持っているかに依存します。

ああ、前提が多すぎますね(笑)。

そう、前提が多いんです。これは大掛かりな話です。ここまで私たちは「因果的調整(causal coordination)」について話してきました。これは私たちが馴染みのあるものです。「契約を結び、契約に従わなければ罰せられる」といったケースです。

しかし、未来の人々が証拠的決定理論(evidential decision theory)や機能的決定理論(functional decision theory)、あるいはその他のバリエーションといった、何らかの「非因果的(non-causal)な決定理論」を持っていると仮定しましょう。

そして今、私がリソースをどう使うかについて決定を下しているとします。さらに、現在の私たちの最善の推測が非常にありそうだと考えているように、私たちが「非常に大きな宇宙」に住んでいると仮定しましょう。宇宙の遠く離れた場所、あるいはおそらく多元宇宙の枝には、私と非常に高い相関関係を持つ存在がおり、もし私が資金をどう使うか決定を下せば、彼らもそうする可能性が非常に高いというような宇宙です。

最も明確なケースは、観測可能な宇宙をはるかに超えた遠い銀河に、人間と遺伝的に全く同じ人類を生み出した地球がたまたま存在し、その世界に私の完全なコピー(カーボンコピー)がいる場合です。そうだとすれば、「もし私が特定の善に資金を提供すると決めれば、この遠くのコピーも同じことをするだろう」と考えるのは非常に理にかなっています。そしてそれは、完全なコピーでなくても、単に似たような人物であっても当てはまる可能性が高いです。

非因果的な決定理論においては、これは本当に重大なことなんです。なぜなら、私は単に自分の行動の因果的な影響を気にするだけでなく、空間的・時間的に遠く離れた私と相関関係にあるこの人物もそのように行動するだろうという「証拠(update)」を得る事実を気にするからです。

ですから、私の前にある選択は実は「自分のための利己的な善に資金を提供するか、コンセンサスの善に資金を提供するか」ではなく、「利己的な善に資金を提供し、私に近いすべてのコピーたちが彼らに利益をもたらす善に資金を提供するという状況」と、「私と彼ら全員が好むこの善は何かを考え、それに資金を提供することで、彼らもそれに資金を提供しているという証拠を得る状況」の間の選択なのです。

つまり、因果的な協力などを経由する必要はありません。そして、もし私たちが本当に非常に大きな宇宙に住んでいるなら、私と相関関係にある存在の数は非常に膨大です。

決定は、「私自身のためだけに資金を提供するか」か、「コンセンサスの善に資金を提供し、何十億、何兆、何兆もの人々もコンセンサスの善に資金を提供しているという証拠を得るか」になります。それは私がコンセンサスの善に資金を提供するという驚くほど強力な論拠になるかもしれません。そしてそれは、リヴァイアサンがいなくても機能します。たとえ私が宇宙の、いや私の宇宙の片隅で唯一の人物であったとしても。

なるほど。このアイデアを初めて聞く人には、少し奇妙に聞こえるかもしれませんね。これについて準備として戻って聞くのに最適なエピソードは、深刻な哲学的混乱を乗り越えることについてジョー・カースミスと話した第152回のインタビューだと思います。

空間的・時間的に遠く離れた宇宙や多元宇宙に、私たちと非常に似た考えを持ち、決定のプロセスが強く相関している膨大な数の存在がいるという前提を受け入れていない人には、何と言いますか?私が特定の選択をすれば、「他の多くの存在や文明も同じ選択をしたという証拠を得る」という考えについてです。

もしそこで考えが止まってしまうなら…でも、これにはかなり良い議論があると思います。現代の主要な宇宙論の見解によれば、宇宙の性質に関する標準的な仮定では、無限の量の物質が存在することになります。観測可能な宇宙、私たちが到達可能な宇宙は有限です。非常に大きいですが有限です。しかし、標準的な仮定は、宇宙が永遠に続くことを含意しています。

それはつまり、私に非常に近い無限の数の存在がいるということです。

変数が同じである限りは、ですね。

ええ、まさに。たとえ有限であったとしても、宇宙がどれくらい大きいかについての最善の推測は、本当に非常に大きいというものです。ですから、あなたと非常に密接に相関している多くの人々が存在し得る1つの方法がこれです。

ええ、つまり多くのエージェントがいるわけですね。それらの文明がどこにあるか、進化の背景がどのようなものであっても、彼らが同じような結論に達する、つまりこの証拠的決定理論のアイデアに行き着き(彼らは別の言葉を持っているかもしれませんが)、「ああ、道徳的公共財に資金を提供すべきか」と同じ哲学的な決定を下す可能性は高いと思いますか?

ええと、それについては考えたことがありませんでしたが、私の推測では…2つのことがあります。1つは、もし十分な数のコピーがいるなら、それが高確率である必要すらありません。

良い指摘ですね。

しかし、おそらくそれは高確率だと思います。選好の構造やそれがどう機能するかにおいて、これはかなり自然な…先験的(a priori)なことですから。だから、私にはかなり可能性が高いと思えます。

そうですね。彼らが宇宙に進出するような文明になったのに、私たちがこの比較的初期の発展段階で思いついたこれらのアイデアを持たないとしたら、驚きですよね。

まさに。

このアイデアは、人々を動機付けるためのとてつもないハンマーになるという点には注目すべきだと思います。もし、この宇宙や多元宇宙のどこかに、私たちと同じ決定理論を使うという哲学的な決定を下しているがゆえに、私たちの決定と強く相関している無限の数の存在がいると信じるなら、それは非常に強力です。

ただ、彼らがこのコンセンサスの道徳的善が何であるかについても決定を下さなければならないという点があります。全員が似たようなことを気にかけるという点に収束するかどうかは、少し不透明かもしれませんね。

様々な存在が、様々な異なることを気にかける可能性があります。私と密接に相関している1兆の存在がいるとしましょう。私は彼らが気にかけているすべてのことを見て、「最もコンセンサスが得られるものは何か」を見つけようとするわけです。私が彼らとどれくらい密接に相関しているか、どれくらいの人がそのことを評価しているか、そしてどれくらい強く評価しているかのバランスで、私が資金を提供すべきものが決まります。

それが何になるかを考えるのは興味深いですね。このすべてについて私が懸念しているのは、少なくとも私が道具的にしか価値がないと思うようなものに資金を提供することになってしまわないかということです。

幸福、つまりポジティブな意識的経験が実際に善であるとしましょう。しかし、社会を存続させるために道具的に役立つ特定のことがあります。

知識、大規模な人口増加、生存などですね。基本的にすべての文明が、おそらく道具的(手段的)に過ぎないにせよ、それらのものを評価すると予測すべきですよね。

私たちの基準からすると、彼らは手段として有用なものと、最終的な目的として有用なものを混同してしまうかもしれません。

まさにそうです。何かが非常に道具的に価値がある場合、人々がそれをそれ自体のために気にかけるようになるのは非常に自然なことです。実際、多くの哲学者が知識や生存、達成を気にかけ、そのようなものが本質的に価値があると考えています。

もしそうなら、それが非常に異なるすべての文明間でのコンセンサスになるかもしれません。現在私が「実際に何が重要か」について最もよい推測としている考えからすると、それはひどく残念なことです。

中立的な結果に終わる、と。最終的な価値を持たない何かに資金を提供することになってしまうわけですね。

ええ、少なくともひどく悪いわけではないとは言えるでしょう。

この提案を読んだ時、私は「なんてこった、これは信じられないほどの力になり得る。この議論は信じられないほど強力だ」と思いました。これを理解できるエージェントなら、ほぼどんなエージェントでも突き動かすことができると。もしかしたら未来の哲学的洞察によって覆されるかもしれませんが、そうでなければ絶対に費やさなかったであろう膨大なリソースを、これに費やすよう動機付ける非常に強力なハンマーになる可能性があります。そう思いませんか?

ええ。だからトムがこのアイデアを私に説明してくれた時、「オーマイガー」ってなったんです。もし反省し、考え、十分に発展する時間があれば、誰もがただ「善」に収束し、善を生み出すだろうという、このポリアンナ的で素朴で楽観的な見方があります。これを行うためのメカニズムが存在することに、以前は思い至りませんでした。

ただ、言うまでもなく、ここにはたくさんの「注釈(asterisks)」がつくと思います。

素晴らしいアイデアですが、考えるのをやめたくなりますね。今後出てくるかもしれないさらなる考慮事項によって、評価が反転してほしくないからです。本当に素晴らしいものに近づいている時、そこから離れるべき別の情報や、それを最悪なものにするかもしれない考慮事項がすぐそばにあるような気がします。

ええ。たとえこの議論に欠陥が見つからなかったとしても(そしてそこには議論の余地のある、真剣に物議を醸す側面があると思います)、私は依然としてこれにあまり重きを置きたくありません。

「未来の人々はこういう決定理論を持ち、宇宙についてこういう信念を持ち、そして私と友人たちが数ヶ月前にパブで思いついたこの議論に参画するだろう」と言うような議論には。私は「いや、もっとずっと堅牢(robust)な考慮事項に基づいて行動したい」と思います。だから、これは確かに私を未来についてより楽観的にさせてくれますが。

ええ。

ええ。この種の議論の余地のある前提に基づいて、未来についてのポリアンナ的な見方を持ちたくはありません。たとえ議論の問題点が見えなかったとしてもです。そして実際、議論の余地のある側面はあると思っています。

なるほど。では、この件についてはここまでにしましょう。これについてもっと読みたい人向けに、近々記事が出ますね。Forethought.org に掲載されると思いますが。

ええ、Forethought.orgに掲載されます。このポッドキャストのエピソードが公開される頃には、すでに出ているかもしれません。

AI開発の一時停止についての見解

さて、インタビューのその他のセクションに進みましょう。様々なトピックの寄せ集めについて話します。リスナーに「あなたに一番聞きたい質問は何か」と尋ねたところ、最も賛成票が多かったのは、AIの一時停止(Pause AI)に関する質問でした。

私たちがAIをより良いものにしようとしている中で、このまま進むと壊滅的にレールから外れる可能性があるように思えます。私たちは、事実上、技術的に可能な限りのスピードで、何兆ドルもつぎ込んで人工超知能に向かって突進しているようです。

私たち全員が死ぬかもしれない、あるいは物事がひどく間違った方向に進む可能性があることを考えると、スピードを落とし、おそらく一時停止して息を整え、再開する前により安全なコースを設定するための準備をするのが常識的な対応ではないでしょうか。それは非常に常識的で自然な見解だと思います。しかし、あなたはそれを推奨していませんし、私も全面的に賛成しているわけではありませんが、そのいくつかのバージョンには同情的です。なぜ、これをあなたの主要なプロジェクトにしないのですか?

ありがとうございます。ええ、それは素晴らしい質問です。いくつか異なる種類の「一時停止」を区別しましょう。

まず、「人間レベルでの一時停止」について話します。これはライアン・グリーンブラットの言葉ですが、AIがAI R&Dに従事するようになり、おそらく物事がさらに速く進むこの時点で、私たちは物事を遅らせようとすべきか?一時停止、ストップ、スタートなどを行うべきか?

そこについては、「イエス、絶対に」と私は言います。これは本当に非常に危険な時期であり、最も進歩が速い時期です。あるいは少なくとも、その両方である可能性があります。

なぜその時期が決定的なのでしょうか?

ええと、それが方向感覚を失うほど速く、早期のAI乗っ取りが起こり得る時期であると同時に、それ以前のAIによる支援の恩恵を受けられるというメリットもあるからです。また、AIが世界により大きな影響を与えたという事実からも恩恵を受けられます。他のアクターがそれがどれほど大きな問題であるかに目覚めるという「予防接種(inoculation)」の機会が増えるからです。だから、もしその時期に時間があれば、規制などが実現する可能性が高まると思います。

それはまた、最も危険な世代の直前の世代のAIシステムを持っている時期でもあります。ですから、それらを研究し、アライメント研究を行うことで最も多くの情報を得ることができます。ですので、その時点で一時停止したり遅らせたりすることに、私はかなり熱心です。

私は、「知能爆発(intelligence explosion)」のレッドラインを引くというアイデアについての記事を一つ書いています。あなたがかなり熱心に運用化しているものですね。ジェフ・ヒントンやヨシュア・ベンジオなどの権威や、懐疑論者も含めたパネルを用意し、この漸進的なプロセスをバイナリー(白黒はっきりしたもの)に変えるというものです。

私が熱心に主張しているのは、国際的な会議を開催し、「知能爆発が始まった。さあ、みんなで集まって、今後数年間で何が起こるかを解明しよう」というようなものです。ですから、私は知能爆発を遅らせることには賛成です。

では、今の一時停止についてはどうでしょうか?これは全く異なるものだと思います。ここでもいくつか異なる種類の一時停止を区別しましょう。1つは能力(capabilities)に関する一時停止、もう1つは計算資源(compute)の観点からの停止です。

私が見た一時停止の主張は能力に関するものです。「新しい訓練の実行を禁止する」というような。しかし正直なところ、それは逆効果になり、私たちが気にしていること、安全性の観点から見ても、実際に有害な影響を与えると思います。

なぜなら、現在フロンティア(最先端)には少数のアクターしかおらず、私の個人的な見解では、彼らは驚くほど分別があるからです。「企業の振る舞いに対する私の期待値は低い」というのは、気候変動の問題に対してエクソンがどう対処したかの歴史(隠蔽し、誤情報を流した)を見ればわかります。しかし、現在は少数のアクターがいて、彼らはAI安全性の問題に気づいており、少なくともいくらかは投資しています。

能力で一時停止するとどうなるか。「よし、ではすべての遅れをとっていたアクターもフロンティアに追いつき始めよう」となります。それは中国であり、MetaやxAIなどです。より不誠実だと思うアクターを含め、はるかに多くのアクターが存在することになります。

そして、もしそれが「訓練をしない」ということであれば、それでも計算資源を備蓄し、より多くの半導体工場(ファブ)を建設することなどは可能です。それは私たちを本当に不安定な状況に置くことになります。「もし誰かが一時停止を破れば、突然、以前よりもはるかに速く物事が進む可能性がある」という状況です。

特に、知能爆発のスピードと規模は、その時にどれだけの計算資源を持っているかによりますからね。

ええ、他の条件が同じなら、私はもっとアルゴリズムの進歩を早くしたいと思っています。なぜなら、AIがAI R&Dを自動化するようになる時、計算資源の総備蓄が少ない状態であってほしいからです。そうすれば、モデル化などを行った結果、知能爆発はより遅く、プラトー(頭打ち)も低くなります。そこが恐ろしい部分であり、すべてのリスクが集中している場所であり、物事が速すぎる場所です。

これとは異なる提案として、「訓練によるのではなく、私たちが持つ計算資源の量を遅らせる」というものがあります。これにはより見込みがあると思いますが、依然として似たような懸念があります。「チップをそれほど生産しない」と言っても、多くのファブや発電所がいつでも稼働できる状態にあり、ここでもキャッチアップ(追いつき)の懸念が生じます。

そして最後のポイントは、私たちが何を主張すべきかということです。私の視点からは、状況をかなり安全にするための「低くぶら下がっている果実(簡単にできること)」が山ほどあるんです。

AIの性格について話しました。リスク回避とAIとの取引について話しました。メカニスティック・インタープリタビリティ(機械的解釈可能性)や、探索の安全性、あるいはごく基本的な政府の規制についてはまだ話していません。

例えば、アメリカ政府は「もしあなたがAIを開発しているフロンティア企業なら、AIが何をすべきかを定めたAI憲法を持たなければならない。そして、そのモデルが実際にその憲法に従っており、内部のサボタージュや中国のような外国のアクターによって組み込まれた、あるいは有機的に発達した隠された目標を持っていないという、非常に質の高い証拠を提出しなければならない」と言うことができます。

それはリスクを減らすという点で非常に大きな勝利になるでしょう。そしてこれらのことはすべて、世界に巨大なコストを課すものではなく、何らかの国際的な一時停止というアイデアよりも実現する可能性がはるかに高いと思います。

だから、「何を主張するのが最も費用対効果が高いか」ということです。一時停止は逆効果だと思っていると言いましたが、たとえ「理想的な世界ではこうなるべきだ」と考えていたとしても、「私たちが推し進めることができる、超簡単で費用対効果の高い他のことがこんなにもあるのに!」と思うでしょう。

ええ、そこには明らかに、正確なタイミング、正確なメッセージ、どれくらい自発的であるかなどに関する非常に複雑で分厚い考慮事項の茂みがあります。

将来のどこかの時点で緊急停止ボタンを引くためのインフラを整備しようとする人がいることは、価値があると思います。アメリカと中国の間で、「このAIがどれくらい危険なのかお互いに確信が持てない。もし私たちがこれらのAIシステムの性質と危険性について何か致命的な情報を得た場合、互いに協力して、そこにあると気づいたワイヤーに引っかからないようにしたい」というような対話がないのは、少しもどかしいです。

ええ。

そのような準備作業は、適切な証拠が得られた時に適切なタイミングで一時停止するためにできることがたくさんあると思います。

ええ。全く同感です。計算資源の積み上げを把握し、計算資源がどれくらいあるかを知ること。アメリカと中国が「これはやりすぎだ」と同意した場合、チップをスイスに持ち込んで相互に破壊するという計画を持つことなどです。

私が考えていたより控えめなことは、「次の訓練の実行が非常に危険かもしれないという証拠が出てきたと両者が結論づけた場合、相手が先走ってそれを実行することを本当に望まない。だから、双方が先走らないと安心できるような監視の取り決めを非常に迅速に整える必要がある」ということです。

これの方が、要求としてはさらに簡単ではないでしょうか?

ええ、おそらくそれはもっと難しいかもしれないと考えていました。計算資源のガバナンスに関することは、既存の計算資源で訓練を実行しているかどうかを検証するよりも、監視する方がはるかに簡単です。どれだけの計算資源があるのかすら分からない状況で、チップが訓練に使われているのか推論に使われているのかを判定するオンチップのメカニズムなどが必要になるかもしれません。

ええ、一時停止に関する問題の詳細についてはまたの機会にしましょう。

効果的利他主義の現在と未来

あなたはずっと前に効果的利他主義(Effective Altruism, EA)の創設に関わり、それは2011年に私たちが始めて以来、80,000 Hoursの原動力となる哲学であったと思います。EAにとって厳しい数年間だったと思います。

その主な理由は、EAと深く結びついていたサム・バンクマン=フリード(SBF)が、大々的な犯罪に手を染めたことです。おそらく利他的な目標を追求する中で…おそらく動機は入り混じっていたでしょうが、善をなすためにお金を稼ぎたいということが要因の1つだったのだと思います。

多くの人がEAへの関心を失ったり、幻滅したり、ブランドがその事件によってあまりにも傷ついたために「ちょっと絶望的だ」と考えたりする傾向があったと思います。ここ数年のEAの動向をどう見ていますか?停滞しているのか、少し回復しているのか、それとも衰退しているのか?

ええと、オンラインの雰囲気や議論といったものと、実際に何が起こっているかとは区別すべきだと思います。事件当時は明らかに大打撃であり、「これが致命傷になるかもしれない」という状況でした。

全体的なストーリーとしては、オンラインなどでの活動は目立たなくなり、比較的静かになっているということです。そして明らかに、「私はEAだ」というアイデンティティをブランドとして掲げる人も減っています。個人的には、これはもともとそうであるべきだった、健康的なことだと考えています。

もともとそうであるべきだった、と。

ええ、個人的には。しかし、「実際のところ、そのアイデアはどうなっているのか?影響力はどう推移しているのか?」ということに関しては、全体的なストーリーは「数年間の大きな打撃があり、今はまたかなり強力な成長に戻っている」というものです。

これに関するいくつかの指標があります。1つは、より効果的な慈善団体に資金を移そうとする効果的寄付(effective giving)の幅広いムーブメントが時間とともにどう成長しているかです。この危機とドラマの期間中も、実際にはかなり安定して年率約10%で成長していました。

そして昨年は、実際に加速しています。まだ正確な数字は出ていませんが、効果的な慈善団体に移された資金の総額の成長率は、40%か50%になりそうです。約12億〜13億ドルから、おそらく18億ドル近くに。当然、その大部分はGiveWellやOpen Philanthropyなどによるものですが、Founders Pledgeもありますし、多くの国の効果的寄付団体でも同じダイナミクスが見られます。また、効果的寄付の原則に基づいて新しい財団も設立されています。

これはかなり顕著に思えます。同様のダイナミクスは、Giving What We Canの誓約など他の分野にも当てはまると思いますか?

絶対にそうです。これの成長は大きな打撃を受けました。2022年には1600件の新しい誓約がありましたが、2023年にはわずか600件でした。しかし、今では再び前年比20〜30%の非常に有望な成長率に戻っています。Giving What We Canは現在、過去のどの年よりも年間で多くの資金を動かしています。

そして、効果的利他主義センター(Center for Effective Altruism)の主な指標に基づく、コミュニティやムーブメントとしての効果的利他主義についても同様で、前年比で20%の成長が見込まれます。つまり、このような…

巨大なブームがあり、巨大な暴落があり、そして何年も前に予測したかもしれない場所に戻ってきたという感じですね。

ええ、おそらく2015年に行って、「2025年はこんな感じだ」と言われたら、「おお、なるほど。安定しているな。ただ途中でクレイジーな時期があったんだな」と思うでしょう。

数ヶ月後には『Doing Good Better』の10周年記念版が出版されますよね。それに合わせてたくさんのインタビューを受ける予定ですか?

ええ、なんだか自分がすごく歳をとったように感じますね(笑)。『Doing Good Better』が出版されてから10年が経ち、当然ながら世界は大きく変わりました。学生のコースなどで教材として使われていたので、教授たちから「統計が古いと教えづらいのでアップデートしてほしい」と頼まれていたんです。

そこで、完全にアップデートされたバージョンが出ます。内容は基本的に同じで、主に事実と数字が更新されています。そして新しい序文があり、効果的利他主義についての私の考えが時間とともにどう進化してきたかを少し議論しています。ええ、これを機会に、さらにいくつかのポッドキャストなどに出て、効果的利他主義と効果的寄付やキャリア選択の背後にある核となるアイデアについて少し話そうと思っています。

どのような反響を期待していますか?SBFについてたくさんの質問攻めに遭うと予想していますか?

ええと、これは改訂版なので、大々的な注目を集めるとは思っていません。ええ、混ざり合っていると思います。多くの人は、その話(SBFの話)をしたいと思っています。でも、多くの人は純粋にアイデアや効果的寄付などの哲学に興味を持っています。

EAが評判の打撃を受けたことは適切だったと感じています。なぜなら、それは本当に何か問題のあることを明らかにしたか、私が問題だと知っていたことが、私が思っていたよりもはるかに深刻な問題であると考えさせられたからです。

EAのアイデアを利用して、ルール違反や非行、あるいはおそらく犯罪さえも正当化するのが簡単になるかもしれないという懸念は常にありました。しかし、その発生率はかなり低いだろうと考えていました。これほど壮観な事例が比較的早く発生したという事実は、「権力を追求するために悪いことをすることを正当化できる哲学を掴み取ろうとする人間の欲求は、私が考えていたよりも大きいのかもしれない」と思わせました。

私たちは十分なセーフガードを設置したと、あるいはその出来事に対する反応が十分に強かったので、同じようなことが再発する可能性は低いと期待しています。これについて何か考えはありますか?

ええ、FTXの様々な人々の心の中に何があったのかについては、私にとって非常にオープンな疑問です。ええ、このトピックについては、おそらく楽しめたであろう以上に長い時間を費やしてきました。それが何らかの慎重な帰結主義的な陰謀だったのではないかという懸念は本当にありましたが、慎重な調査によってそれは事実ではないと判明したと思います。他の多くの理由の中でも、十分に辻褄が合いません。

しかし、確実に言えることの1つは、EAは大きく進化したということです。それが強烈なアイデンティティではなくなったことが大きな部分を占めています。人々は、ルール違反に対するある種の恐れや、ある種の素朴な最大化(naive maximizing)に対して極度に警戒するようになりました。

私はそれがもっと早くあれば良かったと思いますが、健全なことだと思います。EAには常にこれがあり、ある意味では実際に強調されていましたし、今それが倍加されていることを嬉しく思いますが。

未来について言えば、数ヶ月前にあなたが書いた「AGIの時代のEA(EA in the age of AGI)」というブログ記事が非常に好評でしたね。来るべき数年間におけるEAの考え方の比較優位性について論じたものだと思います。どのような主張だったのでしょうか?

ええ。現在、ある種の雰囲気があります。2つのことが起こりました。1つは、GPT-4以降、私たちが「AGIの時代」に入ったということです。今や私たちは、印象的な人間のような方法で推論し、AI R&Dを自動化するAIへの道筋にあるタスクを実際に実行できるAIシステムを持っています。

これは非常に大きなことであり、ほとんどの人が考えていたよりも早く起こっています。そのため、AIに大きな注目が集まっています。そして同時に、ムーブメントとしてのEAに大きな打撃がありました。ですから、「EAをプロジェクトとして手放すべきだ。過去の遺産として考えるべきだ。その代わりに私たちが焦点を当てるべきはAIの安全性(AI safety)だからだ」という見方を持つかもしれません。

私が何年も、特にここ数年鳴らしている警鐘は、「AIは多くの脅威、多くのリスクをもたらす。私たちが正しく対処しなければならないことがたくさんある。アライメントは非常に重要だが、それだけではない」ということです。

これらの他の課題を見た時、私はどんな人にそれに取り組んでほしいか?私は、非常に優しくてオタクっぽい人がいいです。慎重で、思慮深く、「スカウトマインドセット(探求の精神)」を持ち、倫理的に非常に関心が高く、単に何らかの党派的なイデオロギーを持って入ってくるだけでなく、本当に非常に奇妙で目まいがするようなことについても考える用意がある人です。

そしてそれはまさに、効果的利他主義というアイデアの集合によって提供されているものです。

私のこの主張は、単なるアライメントではないすべての事柄に関するものでした。草稿に対して受けた反発のいくつかは、「いや、これはアライメントと安全性にとっても非常に重要だ」というものでした。アライメントと安全性の中にも、取り組むべき様々なことがあります。人間のフィードバックからの強化学習(RLHF)や、今日のモデルに関連するその他のことに取り組むこともできます。

しかし、アライメントの問題を本当に真剣に受け止めるということは、超知能をどうアライメントさせるかというハードプロブレム(難問)を真剣に受け止めるということです。超知能は、あなたがしようとしているテストについて完璧な状況認識を持っているかもしれませんし、極端に言えば、一回のフォワードパスで何百万年分もの推論に相当することを行えるかもしれません。あるいは、時間とともに継続的に学習し、その価値観全体を反省しているかもしれません。

これらが困難な課題であり、考えるのが奇妙な世界であり、自然に思いつくようなものではありません。私が話をしたアライメント安全性の研究者の何人かは、「いや、この大きな全体像の視点について本当に考えている人たちの方が、AI安全性を単なる自分の仕事として扱い、全体像についてそれほど考えていない人たちよりも、はるかに多くの価値を付加している」と言っていました。

そこで機能しているものが、単なる一般的な「スケールに対する感度(scope sensitivity)」と、「奇妙さへの欲求」つまり非常に奇妙なアイデアを真剣に弄ることを厭わない姿勢であるというのは興味深いですね。先ほど話したようなことのいくつかは、正気を失って自分のペット理論に完全に憑りつかれることなく、このカテゴリーに入るものです。

それはおそらく比較的稀で、だからこそ非常に価値があるのだと思います。なぜなら、その窓の中にいる人たちだけがワクワクするような、見落とされている事柄があるからです。

ええ。奇妙であってもそれが適切な場合には、よく調整された状態で真実を信じようとするのはただでさえ難しいことです。ソーシャルメディアで良いフォロワーを獲得し、人に面白いと思わせるような逆張りに陥らないようにするのは難しいですよね。

もしあなたが純粋に真剣に良いことをしようとしているなら、それはあなたを制約するものになります。なぜなら、正確な信念を持っていれば、より多くの善をなすことができるからです。そしてEAは最高の状態では、それが適切である時に奇妙なアイデアを信じたり楽しんだりし、また適切である時にそれらを拒否するという、正しい中間点にあなたを導くことができます。

その全貌を知りたい人は、そのブログ記事を読むことができますが、EA的な考え方やEAの風味を持つ人々が、特に不釣り合いなほどに飛び込むべきだとあなたが考えた特定の事柄は何でしたか?

私たちが焦点を当てている事柄の範囲だと思います。特に明確なものが1つあり、それは単に「AIの権利」つまり「AIの福祉」です。また、先ほど話したAIとの協力に関するいくつかのこともそうです。これらは考える対象としては非常に珍しいセットです。

私はそれが珍しいままでいるとは思いません。実際、5年後には本当にかなり主流の懸念事項になると思います。しかし、これはまさに、逆張りをせずに奇妙なアイデアを楽しむ用意があることと同時に、倫理的な観点から本当に失敗しないことへの深い関心が必要とされるような事柄です。

AIの性格に関する問題もそう言えるでしょう。ここについては、様々な異なる声や様々な異なる人々に関与してもらいたいと思っています。しかし、そこには大きな側面があり、現在ほとんどの企業でAIの性格を担当している人々は、このアクティブな方法で対処してきました。なぜなら、私たちは数年先すら見据えていないからです。おそらくAIの性格は今、AIの能力に追いついたところです。しかし、長い時間軸、本当に非常に強力な時間軸におけるマルチエージェントダイナミクスにおけるAIの性格について、どれだけの思考が実際になされてきたでしょうか?

どのような理由であれ、EAのメンタリティを持つ人々は、奇妙で十分に範囲が定まっていない領域に飛び込み、「実際に私たちが焦点を当てるべき最も重要なことは何か」を解明するのを助けるのに長けていたと思います。

「AGIの時代のEA」の議論に反発したい人を想像してみてください。彼らは、「EAは大きなブランドの打撃を受けているし、SBFとFTXのために多くのネガティブな歴史的関連性を持っている。それに加えて、人々が興味を持つかもしれないし持たないかもしれない、たくさんの哲学的な荷物を持ち込んでいる」と言うかもしれません。

たとえば、エビの福祉プロジェクト(shrimp welfare project)などに関連付けられていますよね。私はそれがとても好きですが、多くの人はAGI関連のプロジェクトには興味があっても、エビの福祉プロジェクトには怪訝な目を向けるかもしれません。

だから、なぜあなた自身の動機がより主流のものだったり、動機が混ざり合っていたりするのに(特に珍しいEAの道徳哲学だけが動機ではなく、一般的な方法で世界を良くしたい、みんなが死なないようにしたい、自分の子供たちのために世界を良くしたいという動機があるのに)、自分が個人的に好きかもしれないし好きじゃないかもしれない他の多くの奇妙な仕事と自分を結びつけるのか?なぜプロジェクトを「効果的利他主義」スタイルのプロジェクトとしてブランディングするのか?

単に「私は常識的な方法でも世界を良くしたい」と言えばよくて、それは自分がやっていることを正当化するのに十分ですよね。

ええ。私が言いたい大きなポイントは、私は「EA」という言葉やブランドについて全く売り込みや議論をしていないということです。私自身はその言葉に特別な愛着もありませんし、人々が自分をどう表現するかにも愛着はありません。

実際、常に「そのアイデアが古風に感じられ、消え去る」のが最良の結果です。私は女性に選挙権があるべきだと信じていますが、自分を「サフラジェット(婦人参政権論者)」とは説明しません。それは時代遅れの用語だからです。同様に、人々は自分自身を好きなように表現できます。

重要なのは、「人々が活動しているマインドセット(考え方)は何か?」ということです。それはスカウトマインドセットなのか?スケールに敏感なのか?私たちがいる時点がどれほど異常であるか、そしてモデルの利害がどれほど高いかについて適切に反応しているか?ということです。

ヴィトピア:より良い未来への道しるべ

最近、あなたは短期的な未来のヴィジョンを提唱し、それを「Vitopia(ヴィトピア)」と呼びましたね。ヴィトピアとは何ですか?そして、なぜそれを提唱するのですか?

はい。現在の状況は、世界最大手の企業の多くが、あらゆる認知領域において人間の能力を凌駕するAIシステムを構築しようとしています。これが、人類の歴史において最も重要な出来事の1つ、いや、最も重要な出来事であると考えるには十分な理由があると思います。産業革命や電気、火の発明よりも、ホモ・サピエンスの進化や生命そのものの進化に近いものです。その規模のレベルです。

それにもかかわらず、超知能開発後の良い社会とはどのようなものかについて、十分に形成された肯定的なヴィジョンを持っている人は本質的に誰もいません。これは印象的で、そして懸念すべきことです。

ちょっとした怠慢のような気がしますね。

ええ、怠慢のような気がします。そしてヴィトピアという概念は、超知能開発後の良い社会とはどのようなものかという問いに対する答えが、どうなり得るかについて少なくとも1つの枠組みを提供しようとするものです。

ヴィトピアの概念は、それが「ほぼ最良の未来(near best future)」を生み出す軌道に乗っている社会の状態であるということです。私たちが持ち得る未来の少なくとも90%くらい良いものです。そしてその特徴は、「何らかのユートピア社会を直接目指すべきだ」とは言っていないことです。また、単に「世界に存在するこれらの悪いことを見て、この特定の問題とこの特定の問題を解決できる」と言っているわけでもありません。

代わりにそれが言っているのは、「本当に非常に良いものへと自らを操縦できるような、良い『中継地点(way station)』とはどのようなものか」を解明しようと努めるべきだということです。

例えとして、あなたが冒険家で荒野で迷子になっていると想像してください。あなたが取れる選択肢はいくつかあります。目的地に到達するための正しい道について最善の推測をして進むこともできますし、物資が減っているなど今の問題にその場しのぎで対処しようとすることもできます。

あるいは、「次に何をすべきか、どこへ行くべきかが分かるような位置に自分を置く」こともできます。たとえば、地形を見渡し、実際にどこを目指しているのかを把握するために高台に登ることです。ヴィトピアは、その3番目の道のようなものです。

すぐに良い世界を直接作ろうとするのではなく、今ヴィトピアを目指すことの根拠は何でしょうか。

はい。ユートピア主義(utopianism)にはかなり悪い実績があります。哲学者や作家たちはしばしばユートピアのヴィジョンを描こうとしてきました。そして大抵の場合、それがディストピアに見え始めるまでにそう長くはかかりません。

その理由は、私たちは単に理想的な未来がどのようなものかを知らないからです。「これこそが理想的な未来だ」と自信を持って言えるようになるまでには、私たちがしなければならない道徳的進歩がたくさんあります。

だから、私たちは何か別のことをする必要があります。そうしなければ、私たち自身の重大な道徳的誤りを未来に焼き付けてしまう可能性が高いからです。

なるほど。VitopiaのVi(ヴィ)はどこから来ているのですか?ラテン語で道とか「〜を通って」という意味のVIAですか?

ええ。「この場所、ヴィトピアを経由して(by way of)」という意味です。

このヴィトピアの概念は、非常に人気があり好評だと聞いています。しかし、これが少し空虚な概念ではないかと心配になりませんか?「非常に良い未来に到達したい。だから、その未来に到達する可能性が高い中間段階や中間位置に到達する必要がある」と言っているわけですから。それは素晴らしい洞察なのか、それとも単に自明の理であり、実際にそこに到達するのには役立たないものなのでしょうか。

ええ、良い反論ですね。これは最も実質的なことではありませんし、意図的に枠組みの概念としています。私たちの思考を整理するためのものです。

しかし、それが全く意味がないとは思えません。ユートピア主義や他の概念についての議論の歴史があり、ユートピア主義は非常に人気のあるアイデアで、歴史上のいくつかの巨大な残虐行為の原因となりました。それに対する反発として、カール・ポパーから始まり、現在でも非常に人気があります。

未来学者のケヴィン・ケリーは「プロトピア(protopia)」という考えを持っています。これは、未来に対する肯定的なヴィジョンを全く持たないというアイデアです。代わりに、山登りのようなことを行います。現在の社会を見て、明確な問題である小さな変更可能な点を探し、それらを漸進的に一つずつ解決しようとするのです。

ヴィトピアは、それらとは物事の考え方が異なります。そして、特にここから超知能への移行の過程において、あなたが他で考えるようなこととは実質的に異なる推奨事項を導き出すと思います。

もしあなたがユートピア的視点を持っているなら、「私たちがすべきことは、AIを古典的な功利主義、またはあなたのお気に入りの道徳観にし、その善のヴィジョンを追求するAIにすべてを委ねることだ」と考えるかもしれません。ヴィトピア的視点からは、それは非常に悪く見えます。

プロトピアの視点からはどうでしょう。世界には毎年1億人が死ぬといった大きな問題があり、AIはそれらの問題を完全に解決する能力を与えてくれます。だから、私たちはできるだけ早くそこに到達すべきであり、私たちがどれだけ早く進むかと、この移行過程でどれだけの存続リスク(existential risk)を負うかとの間には、非常に厳しいトレードオフがあると考えます。

ヴィトピアを目指すなら、「実はもっと重要なことがある。それは、私たちを本当に悪い未来にロックインしないことだ。たとえそれが、短期的な利益という点で本来なら得られたはずのアップサイドにそれほど早く到達できないことを意味するとしても」と言うかもしれません。

つまり、プロトピアは「私たちを迷わせるような壮大なヴィジョンは持ちたくない。代わりに、すぐに勝利を得て、理解でき、効果があったか確認できる方法で世界を改善したい」という考えであり、それがAIへの突進を推奨したり、少なくとも優先順位をつけなかったりする可能性があるということですね。

プロトピアは、「超知能に対するコントロールの喪失や権威主義政権の確立のリスクは多少あるかもしれないが、死や貧困のような明確な悪があり、私たちはそれらを解決できるのだから」と言うかもしれません。

しかし、もし「AIが短期間で全員を殺すかもしれない」と考えるなら、それもまた短期的な問題ですよね?確率的であるため評価が難しいかもしれませんが。

評価が難しいですし、プロトピア主義は「これらのうち一方が他方よりもはるかに重要だ」と言うためのリソースを提供してくれません。

ヴィトピアはユートピア主義とプロトピア主義の中間点だと考えていますか?それとも違うものですか?

ある意味では、私たちが向かうべき場所についての肯定的なヴィジョンを提供しているという点で中間点です。しかし、私の見解では、ユートピア主義が持つような落とし穴はありません。なぜなら、良い社会がどのようなものかについての多くの可能な最終ヴィジョンと両立し、特定の狭い善の見解にコミットしていないからです。

では、ヴィトピア的な状態における主要な特性とは何でしょうか?どのような特性を探すべきだと思いますか?

主要な質問と主要な特性があります。私は現在の私の特定の答えよりも、質問の方を強調したいと思います。なぜなら、質問そのものの方が重要ですし、私の見解は時間とともに大きく進化するからです。

しかし、それには「権力がどれほど広く分散しているか?」ということが含まれます。一方の極では、すべての権力が単一のアクターの手に集中しており、もう一方の極では、グローバルな民主主義、あるいはそれ以上に分散した極めて分散された状態です。

2つ目は、「どのような人々、どのような存在が権力を持つのか?」です。特定の社会のメンバーだけなのか?人間だけなのか?AIは未来に影響力を持つのか?未来の世代はどうなのか?

3つ目のカテゴリーは、「主要な決定はいつ行われるのか?」です。「本当に大きな決定は本当に早い段階で下す必要がある」と考える主張もあるでしょう。あるいは、「未来の方向性を本当に決定づけるような決定については、可能な限り未来に先送りしたい」と言うべきかもしれません。

そして最後は、「社会全体として、そして未来がどう進むかについてのこれらの最も重要な決定は、どのように下されるべきか?」という質問です。それは民主主義を通じた投票によるものかもしれません。もしそうなら、どのような投票システムか?オークションや市場メカニズムを通じたものかもしれません。もしそうなら、どのような種類か?

これらが私たちが取り組まなければならない事柄の一部だと思いますし、私には見解がありますが、それは進化します。

私に最もすぐ思い浮かぶアナロジーは、新しい国を建国する人々のグループです。彼らは法律の性質や政治システムがどうあるべきかまだ正確には分からないかもしれませんが、憲法制定会議のようなある種のプロセスについて合意する方が簡単かもしれません。彼らが集まり、「全員が何らかの投票権を得る。この種の熟議プロセスを使用し、この種の投票システムを使用する」と決め、最後に物事がどう運営されるかについての合意のセットに行き着き、結果はなるようになると。これは良いアナロジーですか?

ええ、それは素晴らしいアナロジーだと思います。18世紀末のアメリカの憲法制定会議は驚くべき出来事で、私の記憶が正しければ、約40人の人々が1つの部屋に集まり、アメリカ合衆国はどうあるべきかを3ヶ月間議論したんです。そして彼らが合意したのが、この手続きのセットでした。もちろん、その後批准や修正があります。

特定のアイデアをロックインすることと、ロックインそのものを含まない方法をロックインすることとの間のこのバランスは興味深いですね。時間とともに多くの実験、自由な議論、変更を許容する特定のシステムにロックインすることができます。

それは、1人の人間や1つの家族の血統に絶対的な権力を与えるような憲法を選ぶのとは全く異なります。それも異なる種類の政治システムへのロックインになりますが、オープンエンド性や時間とともに行われる発展の方法という意味でははるかに少ないものになります。

なるほど。では、人々が他の状況なら好まないかもしれないような、ヴィトピアの枠組みが私たちを押し進めるであろう、特に自明でない、あるいは物議を醸すような推奨事項はありますか?

ええ。ヴィトピアが構成されるであろうもので、完全には自明でない特定のことがあります。これから話すことですが、私は権力の分散に非常に賛成しています。

一方で、存存リスク(existential risk)を非常に心配している人々の多くは、実際にはかなり強烈な権力の集中に賛成しています。それは非常識な見方ではありません。実際、もし存存リスクが強い時期があり、特にその存存リスクが、アライメントのずれた超知能を開発したり、極めて強力な生物兵器を作ったりすることによって、多くの異なるアクターのいずれかによってもたらされる可能性があるとしたら、「この時期を私たちを導くことができる、ごく少数のアクター、あるいは実際にはただ1つの強力なアクターが必要だ」と考えるかもしれません。

一方で私は、それが私たちをほぼ最良の未来へ導くことができるような立場に置く可能性は低いと考えています。

なぜですか?

最終的には、単一のアクターは、たとえ彼らが(自分の価値観を)反省することを選んだとしても、反省後であっても間違った道徳的概念を持っている可能性が高いと思うからです。

実際にはそれより少し悪いと思います。なぜなら、結局そのような地位に就くような人々は…

一人の人間がトップに上り詰め、最高権力を握ったと想像してみてください。そこに至るまでに、おそらく悪いフィルターを通過してきているでしょうね。

ええ、まさにそうです。過去の権威主義国家の指導者たちを見てください。

複雑な実績ですね。

ええ。そこにはスターリン、ヒトラー、毛沢東が含まれます。そしてその性格的特徴は恐ろしいものです。彼らはサイコパス的でサディスティックな人々です。絶対権力をたまたま持つことになったランダムに選ばれた人々ではありません。

また、一人の人間や少数の人々が絶対権力の地位にある場合、彼らが肯定的な形で自分たちの価値観を反省する可能性も低くなると思います。それは人間関係の相互作用や必要性からより自然に生じる傾向があるものだと思います。

特に、組織内でより多くの影響力を持ったり、裕福になったり、尊敬されたりする人々でさえ、彼らのアイデアを研ぎ澄ますような通常の反発を受けなくなることに気づくと思います。もしあなたが永遠の最高独裁者だとしたら、あらゆる現実からどれほど切り離されるか想像できますね。ええ。

ええ、まさに。

なるほど。では、あなたが機能する見込みがあると思うヴィトピアの異なるカテゴリーとは何ですか?

ええ。ほぼ最良の未来に到達する方法として、大まかに3つの方法があると思います。

1つ目は、私が「イージーユートピア(easy utopia)」と呼ぶものです。これは実際に常識的な見方だと思いますが、「極めて良い未来、基本的に得られる限り良い未来に到達するのはそれほど難しくない。最も明白でとてつもない悪を排除するだけでいい」というものです。ええ、独裁制もそうですが、貧困をなくし、苦しみをなくし、健康不良をなくし、人々に自由を与える。それと技術の発展だけで、ほとんどの道のり、あるいは完全にそこへ到達するという考えです。

もしそれが正しいなら、ヴィトピアは実際にはそれほど興味深いものではありません。なぜなら、私たちはおそらくいずれにせよそこに到達するからです。

2つ目の見方は「収束(convergence)」です。この見方では、権力を持つ社会の大部分が、正しい種類の倫理的見解に収束する必要があります。あるいは、「正しい道徳観」ですね。これを「私が理想的な反省の後に持つであろう見解」といった、より反実在論的、主観主義的な言葉で言うこともできますが、単に「正しい」または「最良」と言う方が簡単です。

そして、彼らはそれによって動機付けられる必要もありますよね。

ええ。ですから、この収束のアイデアは、「最良の未来は狭いターゲットかもしれないが、社会の大部分、あるいは少なくとも権力を持つ人々の大部分が、最良のもの、最良の道徳観に収束し、それに向かって操縦することができれば、それにもかかわらず私たちは狭いターゲットに命中するだろう。しかしそれは必要条件だ」というものです。

そして3つ目のヴィジョンが、私が「妥協(compromise)」と呼ぶものです。全員が必要なわけではありません。実際、正しい種類の倫理的見解を持ち、それを追求する動機があり、幅広い哲学的視点と世界の理解を持つ人々がごく一部(小さな割合)であっても、彼らが社会の他の部分と取引することができれば、それは私たちをほぼ最良の未来へ導くのに十分です。

そして、少なくとも私の見解では、この3番目の選択肢が最も有望で、舵を取るべき方向だと考えています。

今回はここで「イージーユートピア」のシナリオをスキップします。あなたはForethoughtのウェブサイトで「イージーユートピアはない」という記事を書いており、それがもっともらしくない理由を論じています。手短に言えば、考え得る最良の世界とは単に悪いものを取り除くだけでなく、最良のものをたくさん追加することでもあるということで、私たちはおそらく意見が一致しているからです。

おそらく最良のものは近くにあるものより優れているため、それは命中させるのがかなり狭いターゲットなのです。

そして、「全員が道徳哲学を反省した結果、正しい理論に到達し、それを運用化するためにすべてのリソースを費やす動機を持つ」というケースについても、あまり多くは語りません。なぜそれがうまくいく可能性が極めて高いと思わないのか、手短に何か言いたいことはありますか?

ええ、言うべきことはたくさんありますが、単に人々が反省することに興味を持たないなど、様々な方法で失敗する可能性があると思います。

あるいは間違った方向に反省したり、良い反省プロセスを持っていても最初の直感が間違っていて、良い反省を経ても最終的に間違った場所に行き着いたり。

大規模な集団の人々が実際に同じ方向に収束するだろうというアイデアにはいくらか共感しています。もしそれが真実なら、それは現実の性質によるものです。私の見解では、何らかの道徳的実在論(moral realism)的なものが正しいからか、あるいは議論が特定の倫理的見解に向けて非常に強いからか。

あるいは、「この特定の意識状態を経験すれば、それが実際に良いものであるがゆえに、それが良いものであると信じざるを得ない」といったシナリオを想定しなければならないと思います。しかし、それに確信を持つべきではないとも思います。実際、どれだけの収束が得られるかについては、非常に幅広い不確実性があります。

「実際には大きな集団の人々が収束するだろう」という非常に良いシナリオから、「反省後も誰も収束せず、世界中の80億人が善について全く異なる見解を持つだろう」というシナリオまで。

ええ。あなたがそれらのすべてを正しく行い、全員が正しい道徳理論を結論付けたとしても、彼らが自分のリソースを注ぎ込むことに興味を持たないというケースを見逃していますね。彼らは単に「でも私は自分のやりたいことをやりたいだけだ。道徳的に本当に良いことをするなんて気にしてない」と言うかもしれません。

ええ。実際それが最も起こりやすい失敗だと思います。人々のところに行って、菜食主義や寄付に関する議論を提示すると、彼らは「ええ、それらの議論はすべて成り立ちますね」と言いながら、それに対して何の行動も起こさないということがあり得ます。

実際、今日の人々が倫理的な反省や反対意見の検討などに多くの時間と大金を投資しているのを見ることはありません。それは全く起こっていないことです。それを行うのはかなり奇妙で異常なことになるでしょう。

また、それを防ぎたいと思う人もいるかもしれません。根本主義的な信仰を持つ人や、特定のイデオロギーに強く固執している人を想像してみてください。彼らは「これを反省することで信仰への固執を失うリスクは冒したくない。この代替の立場を検討することすら私にとって嫌悪すべきことだ」と言うかもしれません。未来の技術があれば、彼らは自分たちの情報環境を守るか、自分自身を修正して、これらの代替の視点を検討すらしないようにできるかもしれません。

ええ。さて、範囲をさらに明確にしておくと、私たちはここで壊滅的なアライメントの失敗や、本当に深く陰謀を企てるAIのケースをほとんど考慮していません。それが可能な選択肢や非常に現実的な可能性でないからではなく、単に録音時間が限られており、全く別の問題が山積みになるからです。

何らかの形でそれをほとんど克服した場合に何が起こるかを想像することには価値があります。では、あなたが最も有望だと考えた3つ目の選択肢、「妥協(取引)」と呼ぶものに飛び込みましょう。

取引による最良の未来の追求

権力やリソースで重み付けされ、正しいことのために収束し、自分たちの努力の意味のある一部をそれに割り当てる用意がある人々がいるとします。たとえば、リソースや権力で重み付けされた人々の10%がこの目標を追求したいと思っているとしましょう。

あなたはその10%を、可能な限り最良の未来の10%以上に変えようと紡ぎ出したいわけですね。どうすれば彼らはそれを達成できるのでしょうか?

ええ、大きく2つの方法があると思います。1つは、異なるグループが全く異なることを気にしている場合です。おそらく最大の例は、反省の結果、単にリソースを基本的に線形に評価する人々です。

総量功利主義者(total utilitarians)はこのようになるでしょう。リソースがあればあるほど、より多くの幸せな命を創り出すことができ、宇宙全体の価値は、どれだけ多くの幸せな命があるかに比例するからです。

もっと常識的な他の見解はそれとは全く異なるかもしれません。地球の生物圏の保存だけを気にしたり、時間と空間で割引を行い、自分たちの近くで起こることを気にしたり。あるいは、さらに良い結果の危険なギャンブルよりも、良い結果の保証や非常に高い確率を気にしたりするかもしれません。

そしてこれは、取引の多くの機会を与えてくれます。このケースでは、常識的な人が「よし、私たちは空間的・時間的に近くにあるリソースを管理しよう。総量功利主義者のあなたたちは他の星系に行って、非常に多くの幸せな存在がいる、より野心的で広大な世界を創り出せばいい」と言う取引が成立する可能性があります。

そして実際、彼らがすべてを完全にコントロールしていた場合に理想的に望むものの99.99%を両者が得られるかもしれません。それは非常にエキサイティングな潜在的機会です。なぜなら、「これらすべての異なる倫理的派閥が互いに取引することから有益な利益を得ることができた」というシナリオに入ることができれば、勝者を選ぶ必要がないからです。

それは意見の不一致に対して堅牢(robust)であり、したがって、私たち全員が収束することを単に望んだり、特定の善の見解を押し付けたりするよりも、はるかに安全な選択肢なのです。

物事はそのように展開すると思いますか?それともそれは実行可能なヴィジョンでしょうか?

ええと、それを得ることでさえリスクはあると思います。1つは権力の強烈な集中がある場合です。2つ目は、そのような取引が許可されないかもしれないということです。現在でも取引が許可されていないことはたくさんあります。

おそらく最も良いものを取引することになるでしょう。たとえば、総量功利主義者が特定の至福の状態を好み、その人々が少数派で、社会が「いや、それは違法だ」と言うかもしれません。現在でも、私の見解では倫理的に問題ないのに許可されていないものはたくさんあります。

より大きな問題はこうだと思います。「地球の生物圏の保存やローカルなものへの選好など、比較的簡単に満たせる善の見解を持つグループがたくさんあるかもしれない。しかし、実際には物事を線形に気にする人もたくさんいるだろう」と。そこでは、なぜ貿易からこのような巨大な利益が得られるのか、最初は分かりにくいです。

私が「総量功利主義者は、できるだけ多くの幸せで繁栄した命が存在することを望んでいる」と言いました。しかし、その中でさらに区別してみましょう。「功利主義者タイプ1」と「功利主義者タイプ2」がいて、おそらく彼らは「繁栄とは何から成るか」や「最良の意識的経験や人生とは何か」についての理解が異なるとします。

そこから良い取引の利益を得るためには、両方の見解で50%以上良いとされる「ある種のハイブリッドな人生」が存在する必要があります。そのようなものがあるかどうかは推測に過ぎません。私の推測では、一般的にはおそらく存在しないでしょう。なぜなら、私の推測では、功利主義的観点から見て最良のものは、それより少し劣るものよりも「はるかに」優れているだろうからです。

しかし、ここでの原型的なケースは、派閥Aと派閥Bがいて、派閥Aは快楽を求め、苦痛がないことを望む功利主義者だとします。派閥Bは全く異なるものを望んでいます。そして派閥Bは偶然にも、自分たちの目標を追求する中で多くの苦痛を引き起こすかもしれませんが、その苦痛は彼らがそれ自体のために価値を置いているものではありません。単に自分たちのプロジェクトを少し効率的にするためにやっているだけです。

そして、グループAは基本的にグループBに、偶然に苦痛を伴わないように物事を再設計するようにお金を払うことができます。それはそのようなケースでしょうか?そして、今日の世界でもそのようなことは起きていますよね。

ええ。もし私たちがそのような合意を結ぶためのより良い機会を持っていたり、より良い調整技術などを持っていたりすれば、ヴィーガンやベジタリアン、動物の苦痛を気にかける人々は、肉を食べるのが好きな人々と何らかの取引を行うことができるでしょう。おそらく、農業を完全に排除するほどの交渉力はないかもしれませんが、工場式畜産(factory farming)は排除できると思います。

あなたが言うように、人々は苦痛を直接目指しているわけではなく、それは単なる副作用だからです。つまり、ほとんどの動物の苦痛をなくすことができます。私たちがこれらの非常に壮大なスケールについて考えるとき、それはそれほど一般的ではないか、少なくともかなりの「残存する不適合(residual incompatibility)」が残るだろうというのが私の推測です。なぜなら、あなたは「タイプ1の幸せ」をできるだけ多く生み出そうとしており、私は「タイプ2の幸せ」を生み出そうとしているからです。

私は、あなたの幸福の理解には基本的に価値がないと思いますが、だからといってあなたが多くの苦痛を生み出しているわけではありません。

単に無価値なだけですね。

ええ。あるいは10分の1の価値があるとか。そして逆もまた然りです。

なるほど。ええと、この道徳的貿易のしわ(問題点)や課題として、たとえば工場式畜産を閉鎖したり再設計したりするために人々にお金を払い始めた場合、誰かが「お金を払わないなら最悪の工場式畜産を始めるぞ」と脅してくる可能性があるという点にすぐに触れておくべきですね。彼らがそうでなければやらなかったかどうかわかりません。彼らはあなたを脅迫するためにやっているのではないと嘘をつくことができますが、実際にはそうしています。

おそらく、この星を旅する未来では、それはそれほど問題にならないかもしれませんし、あるいははるかに悪い問題になるかもしれません。私たちには本当のところ分かりません。

ええ、そしてこれは、権力が広く分散し、取引が行われるなどという私の最大の懸念事項であることを強調しておくべきです。そのような恐喝や脅迫の力学への脆弱性です。自己修正したり、嘘をついたり、脅迫や恐喝を使ったりする人々がそのことで報酬を得ないが、それでも運命からこれらの他の有益な利益を得られるような良いシステムとはどのようなものかを解明するための、かなり実質的なプロジェクトがあります。

人口倫理学と飽和見解(Saturation View)

では、本物の哲学、少なくとも分析哲学者が哲学と見なすものに進みましょう。あなたは「飽和見解(Saturation view)」と呼ぶ、ご自身の道徳哲学の理論に取り組んでいますね。飽和見解によって、規範倫理学のどのような問題に対処しようとしているのですか?

ええ、これは実際には「人口倫理学(population ethics)」の中の様々な問題のセットです。これはあらゆる種類のパラドックスを生み出すことでよく知られている倫理学の分野であり、個々には極めてもっともらしい多くの原則が、最終的に互いに矛盾してしまうケースです。

いくつかあります。「単なる追加のパラドックス(mere addition paradox)」、あるいは直感的に妥当な原則が、デレク・パーフィットが「忌まわしい結論(repugnant conclusion)」と呼んだものに行き着いてしまうというものです。

1兆×1兆の極めて幸せな人々から始めたとしても、その結果が、生きる価値がギリギリあるだけの人々だけで構成される人口よりも悪くなる可能性があるという考えです。その人数が十分に多ければ。それが問題の1つです。

2つ目は「狂信主義(fanaticism)」の問題です。この素晴らしい結果の保証から始めて、次にさらに良い、十分に良い結果のほんのわずかな確率を考えてみましょう。期待効用理論と組み合わせると、多くの見解は「どんなに確率が小さくても、十分に良い結果があるならギャンブルをすべきだ」と言います。

基本的にはリスク中立的だからですね。

総幸福量などに関してリスク中立的だからです。問題の第3のカテゴリーは「無限の倫理(infinite ethics)」です。その側面について触れる時間はおそらくないと思いますが、これは倫理学や価値論(axiology)に対するこの種の公平な帰結主義的アプローチを本当に悩ませてきました。

しかし、文献では議論されていない、私自身の見解による第4の問題もあると思います。私はそれを「モノカルチャー(単一栽培)問題」と呼んでいます。よし、最良の可能な未来とはどのようなものか解明しようとしてみましょう。驚くべきことに、現在存在するすべての明確に定義された人口倫理学の理論は、一定量のリソースがある場合、最良の未来とは「最高の人生とは何か?」を解明し(つまり、一定のリソースで最も多くの幸福を生み出す人生)、そしてその人生のコピーを宇宙全体で何度も何度も何度も作り続けることだと言います。

ええ。EAや合理主義者の世界では、時々「宇宙にヘドニウム(hedonium)を敷き詰める(tiling the universe with hedonium)」と呼ばれます。ヘドニウムとは、リソース単位あたり最大の至福を生み出すものです。一般的なアイデアは、それが最も幸福度が高く、それを永遠に繰り返せば完全に平等な社会になるため、平等主義の観点からも良いからと、モノカルチャーを望むというものです。

ええ。それは非常に自然な引力点のように思えます。なぜなら、「最良のものがある」と言い、そのものが宇宙規模でない理論はどれも、「それが小さいなら、それを作って、また別のコピーを作り、ただ作り続けろ」と言うからです。

ほとんどの人が非常に魅力的でないと感じるこのモノカルチャーを避けるためには、それに対する選好をハードコード(組み込み)しなければならないように思えます。

ええ。そして、これは一般的に人口倫理学で「公理的」と見なされているいくつかの原則からも導かれます。これらの原則から作ることができる非常に単純な証明があります。

しかし、少なくとも私はそれが直感に反すると感じます。まったく同じ人生(質的に同一の人生)のレプリカだけが存在する未来は、最良の可能な未来ではないと私は考えます。より良い未来とは、異なる形態の人生や経験などの幅広い「多様性」を含むものになるはずです。

そして、多様性やバラエティが道具的(手段的)に価値があるという直感や、「何が価値があるか分からないからヘッジ(保険をかける)すべきだ」という直感だけではないと思います。そうではなく、私はそれが単に…

多様性に本質的な価値を置いているのですね。

より良い未来のために。ええ、またはそれを暗示する何かです。「特定の経験や人生の形態の実現が、単なる幸福度を超えて、それ自体に価値を持つ」ということかもしれません。いずれにせよ、非常に多様で変化に富んだ未来は、このモノカルチャーよりも良いということです。

ええ。これが哲学の文献でこれまであまり取り上げられてこなかったのは驚きです。オンラインで「すべての物質とエネルギーをどうするか」について話し合い、誰かが「同じことを繰り返す」という非常に単調なことを提案すると、人々は「私はそれが好きではない」と言いますからね。

ええ、恐ろしく聞こえます。

狂っていて恐ろしく聞こえます。しかし、哲学者は、おそらく外にあるすべての銀河を変えるという見通しがこれまでテーブルに載っていなかったからだと思います。「これに対する解決策を見つけ出さなければならない」という問題として実際に出てこなかったのでしょう。

ええ、それは正しいと思います。私は、「どうすればできるだけ多くの善をなせるか」と真剣に心配することが、結局のところ様々な興味深い哲学的な領域や問題を引き出すことになると何度も気づきました。ほとんどの哲学者は同じようには考えていないため、それらの領域は見過ごされているのです。

なるほど。では、飽和見解とは何ですか?それはどのようにこれに対処するのですか?

ええ、飽和見解は、「多様性は本質的に価値がある」という考えを取り入れる方法です。「ある人生のレプリカ(質的なコピー)がある場合、それは価値が下がり、実際にはその人生のコピーが増えれば増えるほど、徐々に価値が下がっていく。それは何らかの上限に向かって収束する」という考えを持ちます。そしてそれを少し一般化し、「正確なコピーではなく、わずかに異なるものも、全く新しい人生の形態よりも価値が少し下がる」とします。

例えるなら、最初は全く光っていない「カラーホイール(色相環)」を想像してください。異なる種類の人生は、そのホイールの異なるスポットを経験します。人生を追加することで、あなたはその小さなスポットを「点灯」させています。

従来の人口価値論は、単に最良のものがあり、それを何度も何度も何度も生み出したいというものでした。しかし飽和見解では、ホイール全体を点灯させたいと考えます。「非常に似た人生のコピーをたくさん作った。それはつまり、追加の人生はそれほど多くの価値を加えていないということだ。だから、全く異なる種類の人生の形態や経験の形態を実体化する方が、より多くの価値を得られる」と。

なるほど、それは「互いに似すぎているものは収穫逓減の法則に当たる」という直感の非常に自然な定式化のように思えますね。何か良いものを手に入れたが、そのコピーをもう一つ作ることは、最初の時ほど良くない。また、それに近すぎるものも、過去にそれに近すぎる他のものがあった場合、少し割引(ヘアカット)されるという。

そして、それらが決して無価値になるわけではない。単に徐々に価値が下がっていくということですね。

まさにそうです。追加の価値が全く得られなくなる時点はありませんが、各コピーが生み出す価値の量はどんどん小さくなっていきます。

ある最大価値に向かって漸近(asymptote)していくのですね。

はい。ええ、それが漸近線の見方の部分であり、実際それの非常に重要な部分です。

なるほど。そして、物事が互いに異なるかどうかを考慮する「ハイパースペース(多次元空間)」を定義するのは難しいですか?それとも一旦置いておきますか?

ええ、これまでの私の仕事では、この異なる人生の空間とは正確には何なのか、それはいくつの次元を持っているのかなどについてはあまり話していません。それについていくつかの形式的な仮定は立てていますが。私の一般的な見解は、「まずはこの見解の形式的な構造と、それが持つすべての素晴らしい特性を見てみよう」というものです。

その後で、それについて議論し始めることができます。それは様々な直感を衰えさせることを含むでしょうが、それが最大の全体像に影響を与えているとは思いません。

では、その素晴らしい特性とは何ですか?

ええ、これらの異なる問題に戻ると、まずはこのモノカルチャーです。明らかにモノカルチャーには至りませんし、実際にはこの非常に豊かで多様な未来を望むようになります。私が定式化した見解の変種では、「単なる追加のパラドックス」を解消します。

それは何ですか?

ええと、これは1つの追加の構造的仮定を含んでいます。強調しておきますが、ここでのポイントは「全体的見解(total view)のようではなく、その問題を避ける何らかの理論を見つけること」です。

しかし、もし非常に幸福度が低いすべての人生や、あるいは集約方法によってはすべての経験が、可能な人生や経験の全体的なランドスケープ(風景)の中のごく一部でしかないとしたら。

パラドックスを生み出す根本的な原則を適切に再定式化すれば(これらは哲学者が「他の条件が等しければ(ceteris paribus)」の原則と呼ぶものでなければなりません。つまり、多様性を一定に保てば、一部の人々の生活を改善し、良い生活を追加することは悪くない、というものです)。

そして、多様性を一定に保てば、より多くの幸福があり、より平等であることは悪くない、あるいは実際には良いことです。

この見解は、忌まわしい結論を拒否し、この支配の原則と、この「平等主義+幸福度の増加」の原則を受け入れる一方で、忌まわしい結論を『決して』伴わないという含意を持つことが判明しました。

なぜなら、これらの幸福度が低い人生や経験はすべて、十分な「持つ価値のある多様性」に達することができないという考えだからです。パラドックスの各ステップで、あなたは人々を追加し、幸福度のバランスを取ろうとします。しかし、それが単にできないステップがあるのです。そのステップを実際に満たす世界は存在しないのです。

なるほど、それは理解できませんでしたが、大丈夫です。

ええ、ポッドキャストで伝えるのは少し難しいですね。実際、論文の大部分はそもそも見解を提示すらしていません。なぜなら見解は数学的にかなり複雑になるため、見解の「おもちゃ(簡略化された)」バージョンを提示し、それを解き明かしているからです。

だから、私がこれにあまり惹かれない主な理由は、私には多くの人が持っているほど強く多様性を支持する直感がないからだと思います。総量功利主義やそれに似た見解のすべての問題の中で、私が最も厄介だと感じるのは、ポジティブな経験とネガティブな経験の間の「リスク中立性」です。

極端に良い人生と極端に悪い人生のそれぞれ50%の確率について無関心であるというのは、私自身にとっては決して選ばないことなので、深く不気味に感じます。

ああ、それは私にとって超直感に反します。

しかし、本当に良いものを作ってからそれをたくさん作るというアイデアは、それほど奇妙には感じません。

あなたがリスク中立性について言及したので聞きたいのですが、単に「ネガティブ重み付け功利主義的見解」を持って、悪いことは良いことの1000倍として数えるといったことはできませんか?それなら、それに関してリスク中立的ではなくなります。

ええ、それはより魅力的ですね。なるほど。悪いことの重み付けを変えているのか、それとも悪いことが本当にそれだけ悪いと正確に評価しているのかは、少し判断が難しいですが。

ええ、ええ。しかし、それは私にとってもっと納得がいきます。決定を下す方法として、悪いことを本当に重く評価するというのは。もちろん、なぜ人間が1時間で喜びを経験するよりも、1時間で多くの苦痛を経験する能力の方が高いのかについての(進化論的な)反論的説明はありますが。

ええ。さて、リスク中立性の側面についてあなたが懸念を持っているのか不思議に思っていました。なぜなら、極端な苦痛のケースと組み合わせると、そこから…

1兆×1兆の強烈な至福の人生からスタートします。オプションAは1兆×1兆の絶対に素晴らしい人生です。オプションBは1兆×1兆の強烈な苦痛、考え得る最悪の苦痛の人生です。それに加えて、生きる価値がギリギリあるだけの人々が極めて多数存在する100京×100京分の1の確率があります。

期待効用理論と組み合わせた総量功利主義は、人生の数が十分に多い限り、後者(B)が前者(A)よりも良いと言わなければなりません。

私たちは生きる価値がギリギリあるだけの人生を大量に追加しているだけで、それがはるかに良いということになるわけですね。

ええ。世界Aは1兆×1兆の至福のユートピア世界です。ギャンブルBは、1兆×1兆の強烈な苦痛の保証と、さらに多数の、ただギリギリ生きる価値があるだけの人生のイプシロン確率(ごくわずかな確率)の組み合わせです。

ええ、あなたは私が何を言っても、このようなエッジケースを投げかけてくるだろうと予見していました(笑)。あなたはこれで練習しすぎていますね。

それもまた、私にとって非常に魅力的ではありません。

ええ、これをどこに持っていこうとしていたのか忘れましたが…これが助けになると思います。リスク中立性について言及されたので。私が言及した問題の1つは狂信主義(fanaticism)でした。「どんなに確率が小さくても、見返りが十分に大きければ、とてつもなく大きな見返りのほんのわずかな確率を追求する」というものです。

そして、この見解(飽和見解)はそれを回避します。なぜなら、結果的に上限が設けられる(bounded)からです。ランドスケープ(風景)が有限であるか、その特定の特徴が十分に速く減衰する限り、あなたが創造できる善の量には上限があります。

直感的には、カラーホイールを想像してください。ランドスケープを可能な限り明るく完全に照明した状態が上限であり、したがって狂信主義を回避できます。

そして理由は省略しますが、同じ理由で、無限の人口を想定した場合でも、かなり望ましい特性の範囲を持っていると思います。総量見解のような多くの帰結主義的見解は、自然に多くの麻痺(paralysis)状態を引き起こします。直感的には比較可能な世界を比較することすらできませんが、この見解にはそのような含意はありません。

なるほど、それは確かに魅力的ですね。

この見解について奇妙に、あるいはあまり魅力的でないと感じた2つのことがあります。1つはネガティブな側面についてです。もしあなたがそこでも飽和させているなら、それはさらに奇妙です。

「私たちはすでに、この非常に特有の拷問のような方法で苦しんでいる人々をたくさん持っている。これ以上増えても誰が気にする?」というように。「それは既存のものと似すぎているから、それほど悪くない」と。ネガティブな側面に関しては、「ひどい人生を送る人がどんどん増えるのは、単に線形に悪い」ということがさらに明確に感じられます。

もう1つのことは、太陽系を私たちが道徳的に最良だと思うものに変えようとするこのプロジェクトについて考えてみましょう。しかしその後、多元宇宙のどこか遠くで、エイリアンがずっと昔、あるいはずっと未来に本当に似たようなことをしたという発見をしたとします。私たちはそれをシミュレートし、彼らがすでにこれを過去に作ったと考えています。

私は「ちくしょう、何てことだ。私たちの時間は無駄だった」と思うでしょう。その非分離性(non-separability)、つまり私たちがすることの価値が、そんなに遠く離れたものと結びついているという事実は、私には直感的ではありません。この2つの点についてどう思われますか?

ええ、両方とも非常に重要なポイントです。そしてええ、ネガティブな側面は、私の見解でも群を抜いて最も魅力的でない側面だと思います。結局のところ、毒を選ばなければならない(pick your poison)のです。残念ながら。

それに後で戻りましょう。分離性の側面についてですが、これは「分離性(separability)」と呼ばれる原則で、基本的には「AとBの2つの異なる結果を比較している場合、遠い時間や空間に何らかの背景となる人口が存在していたとしても、AがBよりも良いかどうかには無関係である」というものです。

ええ、「+C、+C」として相殺し、切り捨てることができるわけですね。

ええ、まさにそうです。そして私も、それはかなり直感的であることに同意します。分離性は直感的です。

しかし、標準的な技術的仮定と組み合わせて分離性を支持する場合、すべての幸福を足し合わせる「総量見解(total view)」か、すべての幸福を足し合わせるが各個人に対して少しだけマイナスする「臨界レベル見解(critical level view)」のいずれかを支持しなければなりません。

たとえば、誰かの幸福度が10で、臨界レベルが2だとすると、彼らを人口に追加することはプラス8になります。

そして、これらの見解はすべて、最初に言及したような問題を抱えています。忌まわしい結論については異なりますが、どちらのケースでも問題は本当に悪質か、一見すると直感に反するものです。

ですから1つ言えることは、「よし、私たちは分離性の違反に耐えなければならない」ということです。2つ目は、多様性の直感は根本的に分離性についての直感であるということです。

ええ。

なぜなら、それは異なる種類の人生のパターンを見て、「私たちはすでにこのものをたくさん持っているから、何か新しいものを持つ方が価値がある」と言っているからです。

これらの事柄が私の頭の中で非常に密接に結びついているため、同質性の問題がそれほど直感に反しないのだと思います。これまでこれについて考えたことがなければ、これらはほぼ別の問題のように思え、深く結びついていることに反省して初めて気づくのかもしれません。

分離性の違反が問題ないように思えるケースもあります。自分自身の場合のように。「エベレストに登ろう。それは素晴らしい達成になるだろう」と思い、その後誰かに「忘れてるかもしれないけど、去年あなたはすでにエベレストに登ったよ。頭を打って記憶喪失になったんだ」と言われたら。

「えっ、そうだったの?」となるでしょうね。経験が同じなら、「じゃあもう一回できるね。忘れてるから」となるかもしれません。

ええ。しかし、ほとんどの人はおそらくそうは思わないでしょうね。

ええ。私は実際、人々の直感が様々な事柄についてどれくらい堅牢かをアンケートで調査しています。人々がこのメドレーの中からどの毒を飲むことを好むかを。

しかし、私はこの新しい見解が「最良の見解」であるとは全く主張していません。「総量見解を拒否したいなら、これらが最も強力な選択肢であり、これが最良のオプションだ」と言っているのです。

この分離性に関して最後に言っておくべきことは、特定の技術的公理を満たす場合、総量見解と臨界レベル見解以外のすべての見解は分離性に違反しなければならないということです。

飽和見解は、それほど悪くない方法で違反していると思います。なぜなら、しばしば、実際にはほとんどの場合、それは分離可能だからです。人口がランドスケープの異なる部分にある場合、単に足し合わせることができます。この人口の価値とこの人口の価値を足し合わせるように。ですから、この種の「限定的な分離性の原則」を支持しています。

そして2つ目に、定義方法によっては、人口規模が本当に本当に大きくなるまでは、すべてがほぼ線形であるように保つことができます。そうすれば、宇宙的スケールに至るまでのほとんどのシナリオで、大体において総量見解のように見えます。

あるいは、ADT(証拠的決定理論)を行っているなら、宇宙間スケールに至るまでですね。

ええ。私がこれまで少しこれに熱意がないように見えたかもしれませんが、私はこれが素晴らしいと思っています。確実にこれは大きな問題になるでしょう。この空間全体の中でトップの理論の1つになるはずですよね?

ええ、そう思います。私はそれを魅力的だと思いますが、これを提示されたら多くの人が自身の人口倫理観として選ぶだろうと思います。

ええ、私はこれが自分の時間の最もインパクトのある使い方だとは全く主張していません。なぜなら、この仕事の多くはAIが良くなるまで先延ばしにできると思うからです。しかし、これは私が人生で最も魅了され、執着してきたアイデアであり、純粋な知的観点からは私の最大の貢献だと考えています。

また、実際に人口価値論(population axiologies)がこれまでにどれほど少なくしか提案されてこなかったかということに気づかされました。選択肢は本当にかなり弱く、行われている仕事のほとんどは「これが一つの見解、これが一つの理論で、これがすべて機能する仕組みだ」というようなものではありません。驚くべきことに。

ええ、人々は「これについて何か出版されているの?」と言います。私の計画では、ブログ記事の要約のつもりだったものを書き上げる予定ですが、13,000語になっているので、「よし、これはドラフト記事だな」となると思います。

なるほど。

ええ、今後数週間のうちにそれを公開する予定です。

わかりました。そのリンクを貼っておきますね。

ええ。そして親切なことに、あなたは非常にネガティブな世界や強烈な苦痛などをどう扱うかというネガティブな側面には戻りませんでしたね。ええ、そのケースにおいて非常に説得力のない含意があることは喜んで認めます。

哲学研究におけるAIの活用

先ほど、この仕事をするためにAIをたくさん使ったとおっしゃっていましたが、それについて教えてください。

ええ、これが私がこのアイデアに非常に惹かれ、執着してきた理由の大きな部分だと思います。休みの時など、空いた時間にできる限りこれに取り組んでいました。それは私の見解では、特に分析哲学におけるAIの驚くべき向上(uplift)のおかげです。

検索においてAIはどれくらい役立ちますか?非常にムラがあります。奇妙な分野について学びたいなら素晴らしいです。マクロ戦略(macro strategy)の特定の分野を助けたい場合、検索は本質的に役に立たないことがあります。しかし、少なくとも分析哲学のこの形式的な側面においては、非常に優れています。

そして正直なところ、称賛すべきは称賛しますが、ほとんどすべてChatGPTのPro版のおかげです。現在のGPT-4o(フォー・オー)について言えば、その特定のモデルが存在しなければ、私はこんなことを言っていなかったと思います。

ほう。GeminiやClaudeは同じレベルではないと。

大きな理由の1つは、単により長く考えるからだと思います。

これは月額200ドルのものですか、それとも…

ええ、今はクレジットで支払っています。だから、これに一番取り組んでいた月には実際1000ドル使いました。

ええ。

でも、価格に見合うだけ考えてくれます。私のこれまでの最高記録では、70分間考えさせたことがあります。

なるほど。そして実際により良い答えを返してくるのですね。

何が起こっているかというと…なぜなら、私は他の研究者とも話しましたが、彼らはそれほど恩恵を受けていないからです。人口倫理学の中の問題は非常に明確に定義されています。AIが消化した大きな文献があり、また数学的分析に適しているほど形式化されていますが、実際にそれを見た数学者はほとんどいません。

主に哲学者が、おそらく学部時代に数学をやった程度の人がやっています。例外は一握りの経済学者と、数学者から分析哲学に移り、私の見解では人口倫理学において誰よりも優れた仕事をしたテルジ・トーマス(Teruji Thomas)くらいです。

ですから、AIが数学に非常に優れていると主張されていることから得られる能力の大きな「オーバーハング(余裕)」があるのです。私自身の場合、1年半か2年前くらいに核となる洞察がありました。それを探求していて、トビー・オードやクリスチャン・タースニー(Christian Tarsney)と話し合いました。(この論文を発表する場合、クリスチャンとの共著になる予定です)。

最初の考えは、明らかにうまく機能しない形で指定されていました。「離散的(discrete)な形で指定しているからだ。うまくいく何らかの連続的(continuous)な形の理論があるはずだ」と。でも私には数学の訓練がありませんでした。自分には手に負えないと感じていたんです。

AIは持っています。だから、このロケットブースターを手に入れたような感じでした。私が「いや、これをこう機能させたいんだ」と言うと、AIは「わかりました、それなら…」と。

AIが出した答えをチェックするのに苦労しましたか?

ええ、そこには課題がありました。私は間違いなく遅かったです。私は多くのAIを使って、多くのケースでAI自身をチェックさせたりしました。AIがまだかなり苦手としていることの1つは、概念をしっかりと保持し続けることです。3ページ目で何かをある方法で定義し、8ページ目では妥当だけれど異なる別の方法で定義することがあります。

気づかないんですね。

ええ。でも、自分で思いつくよりも何かを検証する方がずっと簡単です。そして多くの場合、私が知らなかった概念を使っています。たとえば私は「カーネル(kernel)」が何であるか知りませんでした。学んでしまえばそれほど複雑ではありませんが、それがなければどこへ行けばいいかさえ分からなかったでしょう。

ええ。Twitterでの私の印象では、AIは現在特に数学において有用な貢献を始めているようです。まだ素晴らしいものではありませんが、発表可能なものを生み出すかもしれないという初期の兆候が見られます。

分析哲学の少なくとも一部は言葉を使った数学のようなものなので、分析哲学でも同じことが起こり始めると思いますか?

ええ、正直なところ大きな疑問は、分析哲学者がその機会を掴むかどうかだと思います。マクロ戦略全体に対するAIの初期のテストグラウンドとしてこれを行うことに、私は非常に興味があります。

しかし、これも最良のケースです。AIが、あるケースでは本当に素晴らしい定義を与えてくれました。これも形式的な定義です。他のケースでは、物事の本当にかなり良い非形式的な定義を与えてくれました。また別のケースでは、良い批判を思いつきました。「ここに見解がある。できるだけ多くの反論を生成してくれ」と言って、20個生成してくると、ほとんどはゴミです。非常に良いものはありません。でも、「ああ、それは本当に的を射ている」というものがあったりします。

ええ。

ですから、私たちはこの分析哲学の黄金時代に突入していると思います。潜在的にですが。少なくともより形式的な分野においては、人々が2倍、4倍と生産的になる可能性があります。

たくさんの手助け(handholding)が必要ですか?一人の人間が「ここに問題のセットがある。ここに10万ポンドの計算予算がある。さあ、ChatGPT、やってくれ」と言えるようになった時点で、分野全体が変わる必要はありません。その一人の人間が結局その分野全体を所有することになります。

分析哲学は、一人の人間がそれをやるかやらないかという規模の小ささだと思います。ええ。しかし、分野全体としては、それを評価するのは非常に遅いだろうと予想しています。でも、一部の人々は本当にトップに立つでしょう。

ええ。つまり私が言っているのは、もし前進し、思考を構造化し続けるために常に手助けが必要だとしたら、それは悪い兆候だということです。あるいは、その分野の多くの人々が熱狂的にならない限り(おそらくそうはならないでしょうが)、進まないことを示唆しています。

ああ、それは正しいと思います。共著を予定しているクリスチャンは、このアイデアを拡張する全く異なる他のアイデアを持っていました。私は「GPT-4o(フォー・オー)のPro版を使うべきだ。すごくいいよ。月額200ドルの価値がある」と言いました。

そして彼はそれに仮説や推測を持たせました。するとAIは「ああ、はい、あなたのためにそれを証明しました。かくかくしかじか…」と言いました。私は「いや、いや、いや。非常に複雑だから、こういうものを評価する必要がある」と思いました。しかし、それはただ幻覚(ハルシネーション)を見ていたんです。

ええ。幻覚ですね。なるほど。

あるいは報酬ハッキング(reward hacking)のようなものです。

つまり、運転するには本当にスキルが必要なんですね。

その通りです。いつデタラメを言っていて、いつそうでないのかという直感を持たなければなりません。そしてそれがますます問題になるでしょう。「完全に何かを証明した」と思い込んでいるのに、そうでないことがよくあります。あるいは、「はい、ここに証明があります」と言って提示してきたものを読んでみると、前提の一つが証明すべきことと非常に近いということもあります。

ああ、誰もが気づく古典的な「怠け者」で「喜ばせたがり」なやつですね。

ええ。ですから、いつうまく機能していつ機能しないのかという直感に関しては、多くのスキルが必要です。私がAIの出力を持っていて、人間のテキストを読むのと同じように実際に読んだことがあるでしょうか?おそらく一度もないと思います。「ざっと目を通してから…」という感じです。

ええ。この1年間、私やあなたのように常にこの技術を使ってきた人々と、他の人々との間にギャップが広がっているのだと思います。他の人がそれほど感銘を受けないことがある理由の1つは、彼らが単に「どんなものが機能し、どんな失敗が起こるか、何が間違っているかを探すべきか」についての直感をまだ築いていないからかもしれませんね。

ええ。

なるほど。今後数年で分析哲学が繁栄するかどうかについては、少し複雑なようですね。しかし、Forethoughtが行っているような「マクロ戦略(macro strategy)」については、あなたはそれがそれほど役に立たず、もっと危なっかしい(touch and go)と感じたのですね。

ああ、ええ。はるかに危なっかしくて、玉石混交です。マクロ戦略においてAIが驚くべき向上をもたらす方法もいくつかあります。しばしばその仕事は、様々な異なる分野から少しずつ知る必要があるからです。初期のGPT-4のようなものでも、「地球上ではできなくて、宇宙でしかできない興味深い実験はあるか?」と聞くと、「はい、重力が特定の結晶形成を妨げるため…」と答えてくれます。「これなしでは絶対に得られなかっただろう」というようなものです。全くランダムな科学や情報の断片については非常に役立ちます。

また、たくさんの例を生成する必要がある時にも信じられないほど役立ちます。このAIの性格に関する仕事で、「これら2つの徳の間のトレードオフが必要だ。たくさんの例を挙げてくれ」と言えば、単に大量の例を生成できます。

しかし、何か厄介な問題がある時や、非常に正確である必要がある時、たとえばAIの性格がどう振る舞うべきかの原則を実際に起草している時や、明らかに価値の大きな部分を占める洞察の側面においては、良いマクロ戦略的思考がどのようなものか、AIは本当に分かっていないと思います。

その代わりに、経営コンサルタントや高校生の小論文のようなものを得ることになります。もちろん、まだ良くなっていて有用になりつつあるとは思いますが、「既存の文献があるのはどこで、ないのはどこか」ということをかなり意識させられます。

素晴らしい。まあ、あなたの仕事は少なくとももう1年は安泰のようですね。

今日、過去1年間にForethoughtが出したものの3分の1くらいには触れたと思います。もしこれを楽しんで、もっと読みたい人がいれば、Forethought.orgにリサーチのページがありますね。そこには人々がチェックすべき本当に興味深いマクロ戦略の仕事がたくさんあります。私も読んでいて楽しかったです。

素晴らしい。ありがとうございます。ここに出られて良かったです。会話を本当に楽しみました。

今日のゲストはウィル・マカスキルでした。80,000 Hoursポッドキャストに再びお越しいただきありがとうございました、ウィル。

招いてくれてありがとう。

コメント

タイトルとURLをコピーしました