2050年までに”1万年分の技術進歩”が起きうる

Ajeya CotraとRob Wiblinによる対談。AGIの定義が希薄化しつつある現状を指摘しながら、AIが2050年までに1万年分の技術進歩をもたらす可能性について論じる。知能爆発の速度をめぐる専門家間の大きな見解の相違、その早期検知手段、そして知能爆発が始まった際に社会がいかに対応すべきかを幅広く考察した内容である。

By 2050 we could get "10,000 years of technological progress"

Every major AI company has the same safety plan: when AI gets crazy powerful and really dangerous, they’ll use the AI it...

番組の紹介とAjeya Cotraのプロフィール
AGIという概念の希薄化と経済的影響への期待のギャップ
意見のスペクトルと「知能爆発」の具体像
タイムライン予測と強い相関関係
2030年代のAIと自律的な物理世界への展開
知能爆発の全スタックとフィードバックループ
対立が解消されない理由と二つの「外からの視点」
意見の実証的検証——早期警戒シグナルの収集
企業内部の情報秘匿リスクと透明性要件
企業側の反応と内部情報公開の難しさ
共通知識の形成と情報公開の優先順位
知能爆発の初期段階で社会はどう動くべきか
AIを使ったAI安全性向上という逆説的アプローチ
「AIでAI安全性を解決する」計画の核心的懸念
AIが助けるべき具体的な問題領域
AGIとグランドチャレンジ
フロンティアAI企業の安全計画
知能爆発と失敗シナリオ
AIの能力バランスと安全への応用
能力と対策のタイミングのズレ
理想生成と実行の乖離
クランチタイムが重要な理由
Open Philanthropyのクランチタイム戦略
理想的なペースと白knuckleな現実
計画が失敗する可能性
ウィンドウの短さと組織の硬直性
Open Philanthropyの具体的な行動計画
判断の遅れと意思決定の心理
AIによる組織運営の変革
モデルアクセスとコンピューティング資源の問題
企業の熱意と権力掌握のリスク
並列性の限界と物理的ボトルネック
事前準備の重要性
個人や組織は何をすべきか
Ajeya Cotraのキャリアの変遷
AI安全助成金の課題と哲学
助成金ポートフォリオのリードと試行
AIベンチマーク助成プログラムの立ち上げ
バーンアウトの背景と組織内での孤独感
管理職の難しさと完璧主義
休職とその過ごし方
キャリアの振り返りと自己理解
効果的利他主義（EA）への思いと変化
EA運動の変質と透明性の喪失
敵対的環境とEAの変容
EAと宗教の類似性
EAへの個人的な不満と「スピリチュアル」への欲求
Open Philへの復帰と今後の選択
今後のキャリアと学び
EAの未来とAI時代における役割

番組の紹介とAjeya Cotraのプロフィール

今日のゲストはAjeya Cotraさんです。AjeやさんはOpen Philanthropy（現Coefficient Giving）のシニアアドバイザーで、2024年にはAI安全性に関する技術的な助成活動を率いました。2018年からAI関連の研究と戦略に携わり、タイムライン予測、能力評価、脅威モデリングの分野でAIコミュニティに多大な影響を与えてきた方です。改めてご出演いただき、ありがとうございます。

ありがとうございます。呼んでいただけて光栄です。

今回収録にあたり、2年半前に録音した前回のインタビューを聴き直す機会がありました。Ajeやさんはあのとき本当に先を見通していたというか、その後の2年半で大きな問題となってきた事柄を、すでに視聴者の注意に促していたんですよね。

METRによる自律的能力の評価についても話されていました。あの研究は今や非常に影響力があり、政策の世界でも広く読まれています。また、危険な会話を検知してシャットダウンするためにプローブを使うことについても触れていましたが、それは今や標準的な実践となり、機械論的解釈可能性から生まれた最も有用な成果のひとつかもしれません。

AIが何をしているか、その理由を監視するためにチェーン・オブ・ソートとスクラッチパッドを使う重要性についても語っていましたね。これは今でもおそらく主流の技術です。AIモデルの状況認識の高まりと、それによる欺瞞的アライメントの可能性についても話されていました。これはすっかり主流のトピックになりました。

モデルを悪い行動をしないようにトレーニングすると、必ずしも正直になるのではなく、不正行為をうまく隠すことを学んでしまう、ということも指摘していました。研究によってそれは実際に起きていることが示されており、大きな懸念事項です。モデルが賢くなるにつれてより狡猾になっていく、特に強化学習を組み込んだときに、というお話もありましたが、それは確かに起きています。

それから過剰な同調（sycophancy）についても多くを語っていましたね。モデルが正確な情報を提供するのではなく、ただ人を喜ばせるだけになってしまうのではないか、なぜならそれが人間の好むことだから、と。これらのアイデアをすべてご自身が考案したわけではないでしょうが、時代の先を行っていたと思います。今回のインタビューでもまた先見性のある話が聞けるといいですね。

そう願いたいです。ありがとうございます。

AGIという概念の希薄化と経済的影響への期待のギャップ

Ajeやさんは、AIに関するあらゆる議論の根本的な対立点は、AGIがどれほど科学技術、そして物理的インフラや製造業を加速させるかについての見解の違いにある、とお考えですよね。それはなぜでしょう？

そうですね。AGIという概念がメインストリームになるにつれ、その意味がどんどん薄まっていることに気づいています。昨年、ニューヨークのDealBookでAIの未来についてのパネルに参加しました。私と、安全性の観点から考えている一人か二人、そして何人かのベンチャーキャピタリストや技術者がいました。

モデレーターがパネルの冒頭で、「AIがあらゆることを人間と同等にできる」と定義されたAGIを2030年までに達成できると思うかどうか手を挙げるよう求めました。7、8人が手を挙げましたが、私は挙げませんでした。私のタイムライン予測はそれよりやや長いので。

ところが数問後、今後10年でAIは雇用を増やすか、それとも減らすかという質問をしたんです。2030年まで5年で、10人中7人がその時点でAGIが達成されると考えているのに、10人中8人（私を除く）が、今後10年でAIは雇用を増やすと答えたんです。少し混乱しました。5年後には最高の人間の専門家ができることすべてをこなせるAIができると思っているのに、その後10年では雇用を増やすと思う、というのはどういうことなのか、と。

確かに矛盾していますね。

パネルの後でその矛盾について何人かに聞いてみると、すぐに引いて「AGIって本当は何を意味するの？」という話になりました。モデレーターは非常に極端な定義を使っていたのに、「もう私たちはAGIを持っているようなもの。ゴールポストが動き続けているだけで、次々とクールな新製品が生まれているのに、それをAGIだと認めず、もっと高いものを目指している」という感じで。

面白いと思いました。昔ながらのシンギュラリタリアン的定義ではAGIは非常に極端なものなのですが、VCたちはGPT-5をAGIと呼んだり、もっと穏やかなものをAGIとして扱う傾向があるようです。

これが、AGIはたいしたことではなく何も変えないという証拠をたくさん得た、という感覚を生み出していると思います。なぜなら「すでにAGIがある」「来年には手に入る」「2年前に手に入ったのに見渡せばたいして変わっていない」という状況だから。AGIを今後数年で達成するかどうかに関わらず、多くの人々はこの問いをあまり気にしなくなってきています。

次の25年や50年も、過去の25年や50年と同じように展開すると予想しているんです。2000年から2025年にかけて多くの技術的変化があったけれど、それは適度な変化でした。2050年にも2000年から2025年と同じくらいの変化があると思っている。2030年にAGIを手に入れると思っていても、それは穏やかな改善を促進し続けるものだと考えている。

一方、私は2050年までに世界が今日から見て狩猟採集時代から今日に至るくらい違った姿になる可能性がかなり高いと思っています。25年分の進歩ではなく、AIがすべての知的活動を自動化することで推進される1万年分の進歩です。

意見のスペクトルと「知能爆発」の具体像

意見の幅が非常に広いということを示唆されましたが、そのスペクトルの全体像と両端の様子を教えていただけますか？

一般的な主流の見方、街で普通の人に聞いたり標準的な主流派経済学者に聞いたりすると、2050年の世界は人口が少し増えてテクノロジーが少し良くなっている、という感じだと思います。特に関心のある技術がいくつかあるかもしれません。医療が少し改善されて寿命が少し延びる、という非常に管理しやすい変化の量です。

そこから最も遠い極端な見方は、「誰かが作ったら全員死ぬ（If Anyone Builds It, Everyone Dies）」に描かれている世界観です。その世界では、ある時点でおそらくかなり予測不可能な形で、極限の超知能へのコードが解読されます。GPT-5やGPT-6の延長線上にあるものから突然、猫やネズミやアリが人間の知性に対するのと同じように私たちが比較されるほど圧倒的に賢いものへと飛躍する技術が発明される。

そしてそれは物理的な世界に即座に極端な影響を与えることができます。古典的な例はナノテクノロジーの発明です。非常に小さくて自己複製できて、あらゆることができるものを精密に製造する能力。光速に近い宇宙探査機を発明したり、そういったことです。

その間には幅広いスペクトルがあって、技術が物理的な限界に近づく世界、光速に近い宇宙船、バクテリアと同じ速さで複製しながら私たちに有用なことをする自己複製エンティティ、そこに至るまでの中間段階を経ながら辿り着く、という見方をする人たちがいます。

それでも、AI x-riskを懸念するフューチャリストたちに共通しているのは、来たる数十年でAIによって推進される極端な技術進歩のレベルに達しそうだという見方です。

タイムライン予測と強い相関関係

AIがどれほど科学研究や物理的産業を加速させると期待しているかと、うまくいかない可能性への懸念度との間に、どれほど強い相関がありますか？

非常に強い相関があると思います。合理的なAI加速論者たちは、AIが開発・展開されていくデフォルトの過程は非常にゆっくりで段階的だと考え、もう少し合理的なペースにするために規制の無駄を省くべきだと主張する傾向があります。

x-riskを懸念する人々はデフォルトのAIの過程を爆発的なものと捉え、社会のあらゆる側面を一気に覆す——それが1年なのか5年なのか半年なのか1週間なのかわからないけれど——と考え、10年かけてゆっくり進めるべきだと言います。

一方、加速論者はAIの恩恵を拡散・獲得するには50年か100年かかると見て、35年に短縮したいと思っています。

政策的提言が根本的に異なる人々が同じ速度を目指しているというのは興味深いですね。10年か20年かけてほしい、という点では一致しているかもしれない。でもベースラインが全く違うので、全く逆方向に押している。

2030年代のAIと自律的な物理世界への展開

あなた自身の最も可能性の高い期待は何ですか？

おそらく2030年代初頭にRyan Greenblaatが「トップ・ヒューマン・エキスパート・ドミネーティングAI」と呼ぶものが登場すると思います。コンピューターからリモートでできる作業を最高の人間専門家より優れてこなせるAIシステムです。リモートウイルス学タスクにおいてトップのウイルス学者より優れ、リモートソフトウェアエンジニアリングタスクにおいてトップのソフトウェアエンジニアより優れ、他のあらゆる分野でも同様です。

その頃には、すでにかなり違う世界になっているでしょう。より狭く弱いAIシステムが多くの場所に浸透し、かなり変わった世界になっている。でもその時点でものごとはさらに速く進めるようになると思います。認知領域でトップ・ヒューマン・エキスパート・ドミネーティングなAIは、人間の肉体労働を使って自分たちのためのロボット的な物理的アクチュエータを構築できると思うからです。

AIがすでに独立して行動しているのか、それとも人間がまだAIをコントロールしているかにかかわらず、物理的なものも自動化するという目標を持つと思います。正確にそれがどれほど難しいかについてはかなり不確実性がありますが、ロボット工学の分野を確認するたびに、かなり急速に進歩していると感じます。認知AIが急成長している同じ理由、大規模モデル、大量のデータ、模倣学習、大規模化がロボット工学にも大きく貢献しています。

だから、おそらくかなり早い段階で——1年以内か、数年以内に——この超人AIが大量の物理的アクチュエータを制御し、自分たち自身をもっと作るためのループを閉じることができるようになると思います。つまり、AIを動かすチップを生産する工場を動かすために必要なすべての作業を行い、そのメンテナンスや原材料の調達も含めて。

ということは、2030年代にはこれらのAIモデルがコンピューターベースの研究開発を自動化できるだけでなく、自分たちを動かすチップを生産するファブリケーターを構築するプロジェクトも主導できるということですね。これもまた一種のポジティブなフィードバックループです。

知能爆発の全スタックとフィードバックループ

そうですね。Tom DavidsonのForethoughtのブログ記事「Three types of intelligence explosion」を本当にお勧めします。AIのR&Dを自動化し、より良いAIを作るプロセスを自動化することの約束と危険についてよく語られていますが、それはより多くのAIを作るループを完全に閉じるために必要なフィードバックループのひとつに過ぎない、という点を指摘しています。ソフトウェアがトランスフォーマーアーキテクチャをわずかに効率化したり、より良い訓練データを収集したりする話をしているわけですが、AIはチップの上でも動いているわけです。チップはNvidiaのチップ工場でプリントされ、その工場には他の機械が作った機械があり、最終的には原材料に行き着く。

これについてはあまり語られません。後になって起きることだからです。AIがそのスタック全体——フルスタック、ソフトウェアスタックだけでなく——を自動化することがどれほど難しいか、という話です。

賢明で思慮深い人々の間でも、AGIが経済成長をどれほど加速させるかについてかなり幅のある期待があります。成長率を0.3パーセントポイント加速させる——つまり現在の経済成長率に対して15%増——という人から、ピーク時に経済が年間1,000%以上、数千パーセントで成長するという人まで。つまり100倍、1,000倍、10,000倍という規模の意見の相違が基本的にあります。これほどの不一致は想像を絶します。独立して考えて話し合う機会がなかったというわけではなく、議論を交わして理由を共有してきたにもかかわらず、考えを変えず1,000倍もの影響の違いで意見が食い違っている。

対立が解消されない理由と二つの「外からの視点」

過去数年、あなたは幅広いスペクトルの人々と本当に誠実で知的に深い会話をすることをライフワークにしてきました。なぜこれほどの不一致が維持され続けていると思いますか？

結局のところ、それぞれの側が二つの異なる単純な事前確率、つまりかなり異なる外側の視点に依拠していると思います。

遅いと予想するグループは、先進経済では過去100〜150年、2%成長が続いているという事実に依拠しています。その間にどれほどの技術変化があったかを考えてください。電気は単なるアイデアだったところから、あらゆるところに電力が通るようになった。洗濯機、テレビ、ラジオ、コンピューターが生まれた。これらはどれも経済成長率の上昇として現れていません。

主流の経済学者がよく引用するスタイライズドな事実として、新技術は2%成長を持続させるエンジンであり、新技術がなければ成長は鈍化していただろう、というものがあります。「これが新技術の常です。生産性ブームにつながると思われるが、統計には現れない。ラジオも、テレビも、コンピューターも、インターネットも——AIも現れないだろう。AIは本当にすごいかもしれない。成長を維持させてくれる次のものかもしれない。」

これが一つの外側の視点で、繰り返し立ち返ります。そして「物事はいつも難しくて遅い、思っているよりずっと難しくて遅い」というより一般的なものもあります。マーフィーの法則みたいな？

マーフィーの法則：うまくいかない可能性があるものは必ずうまくいかない。これは私たちの個人的な生活でも経験することで、仕事で何かを成し遂げるのは本当に難しい。他の人から見れば簡単そうなのに、「なんでまだ終わらないの？」と言われて「長いリストがありまして……」となるような。

ホフスタッターの法則もありますね。ホフスタッターの法則を考慮に入れても、必ず思ったより時間がかかる。プログラマーの格言も好きで：難しいからではなく、簡単だと思ったからこそ、私たちはそれをする。

つまり、物事が急速に進むと思うのはナイーブだという考え方がある。完璧で反論できないように見えるストーリーを書いても、そこには必ず考慮しきれなかったボトルネックやさまざまな抵抗要因があるという視点です。

もう一つの視点は、より長期的な経済史に大きく依拠しています。過去1万年の人類の歴史に妥当なGDP指標を割り当てようとすると、加速が見えてきます。先進経済での成長率は常に2%だったわけではありません。2%は紀元前3000年頃の0.1%程度と比べると実際にはものすごく速い。つまり成長率はすでに何倍にも——1桁か2桁分——増加しています。

遅い方のグループは、長期的な歴史データを使う作業は不確かすぎて頼れないと思う傾向があります。でも両グループとも産業革命が起きて成長率を大きく加速させたことには同意しています。1%を大きく下回る成長率から年間2%成長へと移行した。

速い方のグループは長期的な視点と、成長が加速した理由が人々が増えてアイデアを試し発明が増え食料生産が効率化し人口が増え繰り返す、というフィードバックループにあるというモデルに依拠します。

その視点では、認知だけでなく認知と物理の両方、AIを作るために必要なすべてをAIが行う完全なループを閉じるものとしてAIを組み込めば、2%が宇宙の物理法則のようなものだと思う理由はないということになります。物理的な制約が許す限り速く成長できる。それは人間が推進する成長を2%に抑えている制約と同じではないかもしれない。

大まかにはそういう理由付けです。でもなぜ長々と議論し合った後でも、不確実性に収束したり「競合する要因があるから中間くらいになる」とならず、まったく異なる見通しについてそれぞれある程度自信を持ったままでいられるのでしょうか？

正直なところよくわかりません。「より急激な変化がある」側に傾いているので、完全に均衡のとれた説明ができるか自信がありません。遅い方になると考える人々の世界観には、速いと考える人々に対するエラー理論が内蔵されているというのが気づいていることのひとつです。世界観としては単に物事がチクチクと進み続けるというだけでなく、いつでも大きな革命があると誰もが思うというのも含まれています。

いつでも速くなると期待してきたわけですよね、ほぼ常に。

そしていつも間違ってきた。だから彼らの視点からすれば、それは完全に理にかなっています。相手に受け入れてもらえる明確な論理的誤りを指摘できなくても、あるいはストーリーを見てそれなりに妥当だと思っても、「以前にも同じような議論をした人がいたはず」という強い事前確率がある。

テレビについても同じ議論ができたし、コンピューターについても同じ議論ができた。どれも実現しなかった。これが大きな要因だと思います。これらは複雑なアイデアで、対話があまりなされてこなかったとも思います。もっと対話ができると思うし、近い将来の観察に基づいた対話ももっとあっていいと思います。

エラー理論が組み込まれているので、オブジェクトレベルの議論——AIがどうやってロボットを作れるか、ロボットがどうやってより多くのロボットにブートストラップできるか——というような考え方全体が、あまり正当で興味深いものに感じられないのだと思います。あるいは、そのような思考方法は常に物事が実際よりも速く進むという偏りをもたらす、なぜなら引き抵抗とボトルネックをすべて考慮しきれないから、というストーリーを持っています。

一方、速い方になると考える人々は、誰もが一般的にボトルネックがあると仮定しているように感じています。具体的なボトルネックが提示されても、それを詳しく見ると、ある種の絶対的なピーク1,000%成長から速度を落とすかもしれないけれど、2%が天井だとか10%が天井だとか考える理由にはならないという感じです。ボトルネック指摘に対する独自のエラー理論を持っているわけです。

意見の実証的検証——早期警戒シグナルの収集

誰が正しいかを突き止めることは非常に意思決定に関係してきます。立場を完全に変えれば、1,000%と思っていた人が0.3%だと判断したら、おそらく取り組んでいることを変えるか、それまでやっていたことすべてに対する決定的な反論として捉えるでしょう。逆に1,000%の加速があると考えるようになれば、かなり神経をとがらせて別の種類のプロジェクトに関心を持つでしょう。

ではどうすれば早めにどちらに進むかの手がかりを得られるでしょうか？理論的な議論を共有することは説得力を持たなかったようです。早めに収集できる実証的なデータはありますか？

すべてに対処するわけではありませんが、一歩前進となると思うことの一つは、AIがソフトウェアおよびAI研究開発をどのように、なぜ、どれだけ加速させているかを本当に特徴づけることです。

METRがアップリフトRCT（ランダム化比較試験）を発表しましたが、これはこの種の取り組みとしては初めて、あるいは少なくとも最大かつ最高品質のものでした。ソフトウェア開発者を二つのグループに分けて、一方にはAIの使用を許可し、もう一方は禁止して、それぞれのグループがTo-doリストのタスクをどのくらい速く解決するかを調査しました。

興味深いことに、この場合はAIが彼らのパフォーマンスを低下させたんです。それが今後も続くとは思いませんが、今からこのデータを収集し始めていること、ベンチマーク式の評価——AIにたくさんのタスクを与えて自動的にスコアを付けるもの——と、実際のコンテキストでの現実世界の高速化についての証拠を相互確認し始めていることを嬉しく思います。

あらゆる種類の証拠をもっと集めたいですね。大規模なアップリフトRCTもそうですし、企業が社内製品の展開について内部RCTを実施して、最新のAI製品を早く導入したチームとそうでないチームで生産性に差があるかどうかを確認するのも素晴らしいと思います。限界はあるとはいえ自己報告も収集すべきです。

私の大まかな方針は、採用が最も進んでいる場所を見て、実際のアウトプット変数で速度向上を測り始めることです。AIを積極的に採用した太陽光パネル製造工場があれば、どれだけ速く、またはどれだけ良質に太陽光パネルを製造できるかを見始めるのは非常に面白いことだと思います。

チップ製造レベルでこれをやることは可能でしょうか？それはおそらく最も難しい製造の一つです。太陽光パネルのような比較的シンプルなものからの方が早めの手がかりが得やすいかもしれませんが、あらゆる種類の製造でどれだけ違いが出ているかをモニタリングしたいですよね。

全くその通りで。私が最終的に一番気にしているのはAIスタック、つまりチップ設計、チップ製造、チップを製造する装置の製造、そしてもちろんソフトウェアの部分もです。ソフトウェアが最初の部分ですが、AI普及度、自己報告によるAI加速、RCT、スタック全体について手に入れられるものなら何でも監視すべきだと思います。なぜなら、AIフューチャリストたちが物事が速く進んでいると思い始める瞬間は、AIがAIを作るプロセスを完全に自動化した時と一致すると思うからです。だから本当に注目すべきことです。

それとは別に、どこにいるかにかかわらず最先端のパワーユーザーを見ていくことも重要です。そこから得た洞察がこれらの領域に転用できるからです。

他にできることはありますか？

わかりません。本当に気になっています。

昨年Open Philにいた時に、この問いを解決するアイデアを持つ人たちに資金提供しようとした提案依頼書を出したと聞きましたが、そうですか？

はい、2023年末に二種類の提案依頼書を出しました。一つはAIエージェントのための困難で現実的なベンチマーク構築についてのものでした。当時、AIエージェントを使って研究している人はほとんどいなく、前回の放送でも話したMETRのベンチマークを含む、エージェント型ベンチマークはほんの少しだけ出ていたところでした。

大変興奮しました。LLMに多肢選択式のテストを与えるのではなく、「フライトの予約をして」とか「このソフトウェアを動かして：テストを書いて、テストを実行して、実際に動くまで繰り返して」といったリアルなタスクを与える時代に移行する瞬間だと感じました。当時としては非常に新しいアイデアでしたが、そのアイデアの時が来ていたし、この分野に参入することに興奮している学術研究者もたくさんいました。この提案依頼書の部分には多くの応募があり、今では多くの標準的な評価で使われているサイバーオフェンスベンチマークのCybenchを含む、多くの素晴らしいベンチマークへの資金提供ができました。

もう一つの部分は、ベンチマーク以外のタイプの証拠——調査、RCT、話し合ったようなものすべて——についてのものでした。こちらは関心があまり集まりませんでした。ベンチマークの外で物事を測定する良い方法を考えるのが難しいということを反映していると思います。ベンチマークには大きな弱点があり実世界のパフォーマンスを一貫して過大評価する、なぜならベンチマークはきれいで限定的だが実世界は乱雑でオープンエンドだという点で誰もが同意しているのにも関わらず。

この二番目の提案依頼書から生まれてきた、本当に楽しみにしていることがあります。Forecasting Research InstituteがLEAP（Longitudinal Experts on AI Panel）というパネルを運営しています。100〜200人のAI専門家、経済学者、スーパーフォーキャスターを集めて、次の6ヶ月、1年、5年でAIがどこにいるかについての細かい質問に答えてもらいます。ベンチマークスコアのような数字だけでなく、「企業がAIのために採用を遅らせると報告するだろうか？」とか「AIが現実の世界でイベントを計画できるようになるだろうか？」といったことも含みます。

これに非常に期待していますし、主観的な予測をしてもらって、それが長期的な世界観とどう繋がるかを説明してもらい、時間をかけて誰が正しいかを確認するというのが、私たちが持つ最も柔軟なツールかもしれないと思います。LEAPがどこへ向かうか、非常に楽しみです。

ただ、明らかに早期警報となる、より懸念する側の人々が正しい場合に実際に何かできる、かつ現実的でないとして簡単に否定されない、そういった指標を得ることは難しいです。

企業内部の情報秘匿リスクと透明性要件

この一環として、先端AIを開発している企業が内部的にどれほど助けになっているかを見始め、それが自分たちを大幅に加速させているかもしれないことを理解するかもしれないが、その情報を世界と共有しないことを選ぶかもしれない、ということについて考えていましたよね。

そうですね。そして、ある企業が他社より大きくリードしている場合、それらの製品を外部にリリースしないことを選ぶかもしれません。AI 2027では、AIレースでリードしている企業が競合他社にはるかに先行しているため、最善のものを社内に留めて外部には劣ったものだけをリリースする余裕があると描かれていました。

製品を販売して収益化する必要がない、という意味でそれが可能だったということですか？

競合他社がかなり後れを取っているので、より良い製品をリリースしてそれを台無しにしたり、競争することができないということです。その話では、先頭を走る企業[OpenBrain]は基本的に競合他社の最先端よりわずかに良い製品をリリースし続けています。

なるほど。はるかに先行しているので、常に自分たちの内部技術の中から外の世界に対して最善となる水準のものをリリースすることを選べる。

でも、これを知っている人々はいるのに広い世界には知らされない、というのは残念なことでしょう。6ヶ月か1年前に状況がどちらに向かっているかを知れたはずなのに、秘密にされていた。リードしているAI企業にとっては秘密にしておきたいかもしれませんが、私たちの残りにとっては、政府が何が起きているかある程度把握していてほしいと思うでしょう。

企業に対して、残りの私たちに状況の手がかりを与えるための情報開示を義務付けるような透明性要件とは、どのようなものが考えられますか？

AI能力についての証拠にはスペクトルがあると思います。一番テストしやすいが最も情報量が少ないのはベンチマーク結果です。企業は今、モデルをリリースする際にベンチマーク結果を公表しています。Claude Opus 4がリリースされた、このハッキングベンチマークでこのスコア、ソフトウェアエンジニアリングベンチマークでこのスコアと、危険かどうかについてのレポートとしてモデルカードが公表されます。GPT-5も同様でした。

それは素晴らしいことだと思います。でも理想的な世界では、最も高い内部ベンチマークスコアを何らかのカレンダー的なスケジュールで公開してほしいです。3ヶ月ごとに「このハッキングベンチマークでこのレベル、ソフトウェアエンジニアリングベンチマークでこのレベル、自律性ベンチマークでこのスコアを達成した」と言ってほしい。

なぜかというと、おっしゃる通り、危険は純粋に内部展開から現れる可能性があるからです。もし彼らが十分に優秀なAIエージェントを持っていてAI R&Dに使えれば、それを使って内部でずっと速く進めることができ、その結果他の能力やリスクが以前の予想よりずっと速く顕在化するかもしれません。

なので、公開製品のリリース時にシステムカードを出すことが理想的とは言えません。社内製品が公開製品より大幅に強力なものを抱えていないという保証がある場合は別ですが。だから、内部と外部の間に大きなギャップを持たないという保証を別途持つ形で、製品と一緒にモデルカードとシステムカードをリリースするのは問題ないかもしれません。

今現在報告されているものについての改良策はそういうものです。でも今報告されていないけれど知りたい情報もたくさんあります。彼らがAIシステムを社内でどのくらい、どのように使っているか、といったことです。企業は時々、自慢半分に、AIシステムによって書かれたコードの行数の割合を報告することがあります。「社内では90%のコードがAIによって書かれている」などとCEOが言うこともある。そういう指標を体系的に報告してほしいと思います。

でもそれが私の理想的な指標でもない。私が気にしているのは、内部コードベースへのプルリクエストのうち、AIが主に書いてAIが主にレビューした——つまり両側で人間がほとんど関わっていない——ものの割合です。その数字が上がっていくのを見ていきたい。なぜならそれはAIの能力の指標でもあり、AIにどれだけの裁量を与えているかの指標でもあるからです。

そして最終的に物事が急速に進む場合、AIがほとんどのことをしなければならない——管理、承認、レビューのほとんどを含めて——なぜなら人間がそれをしなければならないとしたら、ものごとはある程度の速さまでしか進めないからです。実際に企業内でAIにどのくらいの高レベルの意思決定権限が与えられているかを追跡したいのです。

基本的にはアンケートとして送れるものが他にもたくさんあるでしょう。このことに、あのことにAIをどのくらい使っているか？主観的にどのくらいの速度向上を感じているか？内部RCTを実施しているなら結果を知りたい、ということも当然です。

彼らが将来の世代のAIモデルを訓練しているところで、少なくとも政府の誰かに対して通常の能力評価のパフォーマンスを開示しなければならないという要件についてはどうでしょう？何らかの理由でそれを製品としてリリースしていなくても、線が上がっていくのが見える。ベンチマークが以前の期待を大幅に上回って急上昇し始めたら、警告を発するきっかけになれるかもしれません。

それは良いことだと思いますが、ベンチマーク単独では実際に誰かが警告を発することにはならないと思います。なぜならベンチマークは飽和するからです。

常にS字型のカーブを描きますからね。

常にS字型です。今のベンチマークは前の世代より難しくなっています。でも、AIがこれらのベンチマークで100%のスコアを取ったら世界への脅威で世界を乗っ取ることができる、と確信が持てる状態からはまだほど遠い。今のベンチマークはまだそのレベルを大きく下回っていると思います。だから何が起きるかというと、これらのベンチマークが飽和して、次世代のベンチマークが作られて、それがまた上がっていって飽和する、というサイクルが繰り返される。

警告を発し始める前に何らかのリアルワールドの指標が必要です。そして究極のリアルワールドの指標は実際に観察された生産性です。社内で以前より速く洞察を発見していると見えれば、それは遅いけれど非常に明確なシグナルです。その時点では、必ず警告を発して、何が起きているかを世界に知らせるべきです。

企業側の反応と内部情報公開の難しさ

この考えは企業側にどう受け止められていますか？一方では、透明性要件は企業が最も反対していない、最も受け入れやすい規制手段のように見えます。でも一方で、「情報を世界と共有することを信頼していない、基本的に先を急いで意図的に隠蔽することで私たちを裏切るかもしれない」というメッセージは、少し気分を害する可能性があると思います。もしそれが彼らの計画であれば、このような監視を避ける口実を見つけたいでしょうし。

企業の反応は実際に求めている情報の中身によって異なる傾向があります。ベンチマークスコアについては、今は製品リリース時に公表しています。それは今のところ問題ないと思いますが、製品リリースがなくても何らかの固定されたスケジュールでベンチマークスコアをリリースする体制に移行してほしいと思います。ベンチマークスコアは機密情報とは見なされていません。

でもより有益だと思う他のものは、はるかに扱いが難しい。アルゴリズムの洞察を得るペースを世界に公開したいとは必ずしも思いません。競争上の理由でそこに謎を保ちたいから。少し速すぎると競合他社が注意を向け始めて、コピーして何が起きているかを調べようとするリスクがある。

遅すぎても恥ずかしい、ということもあります。

投資家が意欲を失いますね。そうです。もう一つ言っていなかったことがあります。最も懸念されるミスアライメント関連の安全インシデントを報告してほしいのです。実際の企業内での使用で、モデルが重要なことについて嘘をついてログを隠蔽したことがあるか、というようなことです。でもそれを報告するのは企業にとって非常に恥ずかしいことは明らかです。

一つの解決策として、今は複数の企業があるので、それぞれが匿名化された業界全体の集計スコアを報告するサードパーティのアグリゲーターに個別データを報告するというのもあります。でもそれがすべての問題を解決するとは思いません。企業が少ないので推測できてしまうからです。

競争上の課題、IPの機密性の問題、PRの問題があって、より踏み込んだ内部情報の公開には大きな障壁があります。でも公共の利益にとって十分に重要なので、それを乗り越える方法を見つけなければならないと思います。

政府機関が規制や統治目的のために企業から商業的に機密性の高い情報を基本的に要求できることは珍しくありません。オーストラリア政府にいた頃、生産性委員会で働いていたのですが、そこには基本的にほぼ国内のあらゆる企業から文書を要求できる特別な召喚権限がありました。めったに使われない権限でしたが、その能力を持つのはそこだけではありませんでした。

それを使ってどういったことを求めますか？

その権限が実際に使われているのを見たことはありませんでした。競争目的——企業が談合しているかどうか、市場競争が不十分で介入の余地があるかどうかを判断するため——に通常使うものだったと思います。米国にも同様の権限を持つ政府機関がほぼ確実にあるでしょう。もしその種の情報を秘密に保てるなら、企業もそれを読み理解して何をすべきかを考えることに特化した専門家に共有することに、より前向きかもしれません。

そうかもしれませんが、少し懐疑的です。政府機関にだけ開示するより、公開で情報開示する方がおそらくずっと良い——なぜなら私たちはAI安全性の研究という飛行機を飛びながら作っているようなもので、しばしば技術スタッフが不足しているような政府機関ができるようなチェックリスト的な作業ではないからです。

情報をオープンにして、人々に詳細な分析をしてほしいのです。どんな情報が必要かという感覚も時間とともに変わるでしょうし、どんな指標を見たいか、それが何を意味するか、いつ警告を発すべきかについてロバストな外部の科学的な対話があれば、より良くいけるでしょう。それをすべて10人か50人の担当者を持つ政府機関に通すとなると、証拠を十分速く、十分よく解釈して、警告を発するのに十分な自信を持ち、さらに人々が実際に耳を傾けるようにするのは非常に難しいと思います。

知能爆発のようなことについて警告を発するとしたら、社会全体の議論になる必要があると思います。COVID警戒のようなものです。または頭にあるイメージとして、Joe Bidenが選挙撤退につながった惨憺たる討論会のパフォーマンス——その結果として何週間も続く議論が起きた——があります。限られた権限を持つ少数の人々だけでは、同じことを起こすのは非常に難しかったと思います。

共通知識の形成と情報公開の優先順位

共通知識が必要で、多くの注目が集まる必要があります。技術官僚が把握しているだけでなく。

加えて、今はすべてがSFに見えると思っているかもしれないために、あまり注意を払っていない多くの技術専門家たちが、その時点で飛び込んで意見を述べることができる機会も必要です。Arvind Narayananのような、これらの話についてとても懐疑的なことで知られている人が実際にデータを見て考えを変えて「そう、これは今起きていて危険だ」と言えれば、非常に力強いでしょう。そのような共通知識のダイナミクスは、すべてを政府に送るだけでは得られません。もちろん、政府に送ることも何も送らないよりは良いと思いますが。

一番望ましいプランAは、誰もが情報を見つけられるよう共有してほしい、ということですが、これを義務付ける法律に対しては企業はある程度抵抗するでしょう、部分的には正当な理由から。優先事項として何を求めてどの戦いを選ぶかという視点からすると、これは優先度の高い戦いでしょうか？

私が提示した情報共有の理想的な実践のスペクトル全体について、全か無かのアプローチを取ることが最優先の戦いだとは思いません。でも、知能爆発が起きているかどうかを自分たちで知るために何を知る必要があるかを真剣に考えて、そのリストの価値の高いアイテム、あるいは最もコストパフォーマンスの良いアイテムを手に入れることは、私には非常に重要に感じます。

AI安全性関連の法律に取り組んでいる人々もその戦略に落ち着いています。ニューヨークのRAISE法やカリフォルニアのSB 53はどちらもかなり透明性重視で、例えば告発者保護を重視しています。これは透明性を支える重要な政策の柱です。

知能爆発が現れ始めていることについての情報が、企業のスタッフが秘密裏に進行することに不快感を感じて公開してしまうということはないでしょうか？

十分あり得ると思います。でも、サンフランシスコのテック界隈のパーティで噂として漏れてくる形の情報は、明確に反論されていなくて非常に顕著で公式的な情報と同じように、DCやロンドンやブリュッセルの政策や意思決定に影響を与える力を持てないと思います。

ベイエリアのAI安全コミュニティは、AIの会社で働く人たちとの密な社会的繋がりによって、何が次に来るかの感覚を得るという恩恵を受けてきました。でもそれは本当に警報を鳴らしたり、非常にコストの高い行動を提唱したりするのに使えるものではありません。だからそれで十分でしょうか？私たちにはもっと必要です。

知能爆発の初期段階で社会はどう動くべきか

では、何らかのメカニズムで社会が知能爆発の初期段階が始まっていることを知ることができたとして、その手がかりで何をするでしょうか？

その時点で非常に重要な要因の一つは、AI R&D以外のすべてにおけるAIシステムの能力です。警報が鳴り、先頭のAI研究所（おそらくすべてのAI研究所）でAIがR&Dを完全あるいはほぼ完全に自動化したことがわかったとします。これにより、以前のほぼ人間中心の進歩の時代より、それらの研究所ははるかに速く進んでいます。

その時点では、デフォルトで次の10年、20年、30年に行われると思っていたAIの進歩が、AIがどれだけ速度を上げているかによって1〜2年、あるいは6ヶ月で達成されるかもしれません。この段階では、AIはそれほど危険ではないかもしれない——しかしそれほど危険でない段階から神のような能力を持つ段階に、非常に速く移行しようとしているかもしれません。

社会として、知能爆発の出発点にいるという確信を得た場合にしたいことは、さらなるAI R&Dから、将来世代のAIから私たちを守るのに役立てられる活動へと、できる限り多くのAIの労働を振り向けることです——AIによる乗っ取りリスクという意味でも、ますます強力なAIが社会にもたらすさまざまな他の問題という意味でも。

その時点でも、先頭を走っている企業の狭い自己利益としては、そうすることは利益になりません——一方的に減速すれば、後ろにいる誰かに追いつかれる可能性があるからです。でも、警報が鳴り、過激な超知能まで6ヶ月か12ヶ月か18ヶ月だという明確な絵があれば、これが調整の窓口になるかもしれません——さらなるAI能力の加速ではなく、保護的な活動にAIを使うための。

AIを使ったAI安全性向上という逆説的アプローチ

課題はAIが非常に速く賢くなっていて非常に神経質になっている、ということです。そして生まれる機会は、以前よりはるかに多くの労働力があり、はるかに賢い潜在的な研究者がいるということです。だから新しいリソースをこの問題の解決に向けてはどうか、という話になる。

AIをあまり心配していない人々は、社会全体を見たり歴史を見たりして、技術がよりさまざまな破壊的なことを可能にしてきたが、1900年や1800年に比べて今の方が不安定な状況や個人的なリスクが大きいとは感じない、なぜなら破壊技術の進歩は安全を高める技術の進歩によって相殺されてきた、そして総じて物事はより安全になってきた、と言います。

つまり、急激な時代になるかもしれないけれど、この重要な期間に同じトリックを使えるかもしれない、ということです。

そうですね。AIリスクをより懸念する多くの人々は、このプランをかなり一蹴しています。ちょっと無謀な計画のように聞こえる——問題を作っているものに問題を解決させるという期待は、飛びながら席に座っているようなものだと。

でもある意味、人類は問題を作った汎用技術を繰り返し使って問題を解決してきたと思います。自動車のような日常的なものでも：車は車の強盗や走行中の銃撃の機会を生み出し、悪い行為者をさまざまな形で力づけました。でももちろん、警察や法執行機関も車を持てば、バランスが取れます。

新しい高度な技術を持つ未来を想像して、それが生み出すすべての問題を想像するとき、同じ技術によって可能になるその問題へのすべての対応を、同じ詳細度と正確さで想像するのは難しいです。誰かが速い乗り物の台頭を心配して、それが引き起こす悪いことすべてが、乗り物を法執行などに使う人々によってどのように抑制されるかを忘れる、というような。

コンピューターも同様です。コンピューターでハッキングできるが、コンピューターはそのようなハッキングへの自動監視や自動的な脆弱性発見を多く可能にします。異なる種類の法執行：コンピューターを使わない警察組織は想像できません。だから、技術が生み出す問題を心配しているなら、最初に考えるべきことのひとつが、その新しい技術をどう使えるかだという基本原則は健全だと思います。

でも、これを正しく行うための窓口は特に狭いと思います。あらゆる新技術の急激な広範な加速を生み出す車を想像していて、完全に狂う前に12ヶ月か2年か6年という窓口しかないかもしれない。

だから、その窓口を逃さず、近づきながらどのくらいの時間があるかを監視することが重要だと思います。でも根本的には、早期の変革的AIシステム——多くのことを自動化するシステム——を使って、次世代のシステムからのリスクを制御・調整・管理するプロセスを自動化し、それが次の世代からのリスクを管理するプロセスを自動化し、というようなことに楽観的です。

このアプローチが却下されてきたとおっしゃいましたが、今は非常に流行しているように感じます。2日に1回くらい誰かがそれを提示したり、何らかの形で何かを読んだりしている。

過去に人気がなかった理由のひとつは、人々が主にミスアライメントAIの問題に焦点を当てていたからだと思います——機会があれば乗っ取ろうとするAIについての懸念。それはこのすべての適用の中で最も悪いケースかもしれません。なぜならAIに自分自身をアライメントさせるよう求めているが、助けてくれているのか妨害しようとしているのかわからないからです。

それを機能させる提案はあります。助けてくれたくないAIから有用で正直な仕事を引き出せるとした提案もあります。でもアライメント以外の問題を解決する方がずっと簡単に見えます。アライメントはうまく対処できているが、知能爆発中に生み出される他の問題のリスト——AIにアクセスできる人々がまだ対策を持っていない他の種類の破壊的技術を発明できるようになった事実など——があれば、AIが対策を考えるのを助けられることは明らかです。

「AIでAI安全性を解決する」計画の核心的懸念

それには同意しません。初期の変革的AIがミスアライメントしているという見通しは、具体的に対処して補強する必要がある、このプランへの大きな障害だと思います。

AIに自分自身のアライメント研究をさせることよりも、他の役に立つことをさせることにとって、それほど深刻には働かないとは思いません——なぜなら彼らがあなたに対して持っている場合は、文明の防衛を強化するのを手伝いたいとは必ずしも思わないから。生物防衛について助けを求めようとして、ミスアライメントしているAIに——例えば将来自分の兵器として生物兵器を使うオプションを持ちたいとしたら——同様に、それを不十分にやる動機がある。アライメント研究を不十分にやるのと同様に。

つまり一般的に、その時点で使おうとしているAIが、私たちがやろうとしていることを妨害する動機を与えるような動機を持っているかどうか、それが一つの大きな懸念だと思います。ミスアライメントしているなら確かにアライメント研究を妨害する動機があるでしょうが、私たちをより合理的で思慮深くする取り組みを妨害する動機もある——私たちが合理的で思慮深くなれば、おそらく彼らがミスアライメントしていると気づくかもしれないから。それは彼らにとって悪いことです。私たちの防衛的加速スタイルの防衛努力を妨害する動機もある、それは乗っ取りをより難しくするから。

それは納得できます。私が引いていた区別は、アライメント問題は非常に解決が難しく解決への道から外れていると思っていた人々にとっては、AIに問題を解決させるというアイデアは自己矛盾に近い、なぜなら私はAIをまったく信頼しないし、AIが提案することはすべてサボタージュだと仮定するから。

アライメント問題は実際にはより簡単な部分で、比較的straightforward（注：ここは原文表現を活かす）な技術的問題だと思っていて解決への道を歩んでいる、しかし他の10の問題のリストがある、という側であれば、素晴らしいAGIがあるのだからそれを他のすべての問題に使えばいいじゃないかは非常に明白で、信頼したい気もします。

そうですね。初期の段階でアライメントを心配していなければ、すべてがより簡単になります。さらに魅力的な戦略と経路になります。でもAIで安全性を解決、または防衛にAIを使う、という標準的な計画は、最初は彼らがアライメントしているかどうかわからない、ということを前提にしていると思います。

彼らが完全にミスアライメントして全力で機会があれば乗っ取ろうとしていると強く確信はしていないかもしれませんが、信頼できると確信できるわけでもない。

だから制御技術、アライメント技術、解釈可能性、その他の利用可能なツールを使って、彼らの出力に依拠することができると感じるポイントまで到達するためのセットアップを作る方法を見つけることが、解決すべき重要なステップです——なぜならそれはすべてを常にチェックして速度を落とすことで進歩を妨げるか、妨げないけれどAIに乗っ取る力を与えるか、のどちらかになるからです。

AIが助けるべき具体的な問題領域

知能爆発から生じる具体的にどんな問題についてAGIに助けてもらいたいと思っていますか？

一つの明確なものはAIアライメントです。今使おうとしているAI、将来世代のAI、それらのAIが私たちが作るのを助ける将来世代、そのチェーン全体が人間を助ける動機があって正直で基本的に私たちの言うことを聞いて誘導可能であることをどう確保するか。それがその他すべての基盤です。

でも、AIとは全く関係ない、単に広範な社会的防衛に関することもあります。非常に強力なAIの登場が、兵器システムや電力網などの重要なシステムに新しいサイバー脆弱性を大量に素早く発見する洪水をもたらすとしたら、悪い行為者がAIを使ってそれらを見つける前に、同じ脆弱性発見が得意なAIを先制的に使って見つけてパッチを当てることができるでしょうか。

もう一つは生物防衛です。最近、私の同僚Andrewがあなたのポッドキャストに出て、新しい病原体の検出を急速に拡大する野心的な計画、検出された際の医療的対抗手段の急速な拡大、PPEやクリーンルームなどの製造の急速な拡大について話しました。この種の研究問題が得意なAIシステムがあれば、またその時点にロボットもいるかもしれないので、その製造の多くを自動化でき人間がやるより速く進められる、それは生物防衛に大きな恩恵となるでしょう。

もう少し推測的なものもあります。心理的な防衛とも言えるものとして、AIを使って集合的な意思決定をずっと賢く、賢明に、より良くできるか、一緒に真実を見つけるのに長けるようになれるか、多くの人が幸せになれる妥協した政策解決策を見つけるのに長けるようになれるか。

AIの進歩が米中間の戦争につながらないようにするにはどうすればいいか、そういった問題もありますよね。そうなんです。でも、もっと身近なところでも、例えばここ10〜15年でSNSが政治的議論を劣化させてきたことがあります。AIツールを使えば、膨大な政策の選択肢の中から、実際に多くの人が気に入って信頼できるような政策を見つけ出すことはできないでしょうか。

AGIとグランドチャレンジ

今年の初めに、ForethoughtのWill MacAskillとTom Davidsonにインタビューしました。彼らの組織には「グランドチャレンジ」と呼ばれる長いリストがあって、クランチタイムにはそれらすべてがこの種のAGI労働に適していると考えています。他のものとしては、社会が特定の価値観に固定されて、さらなる熟慮や考えの変更を早期に妨げてしまわないようにすること。AGIが非常に操縦可能で指示に従う限りにおいて、それを操作する人々による権力掌握に利用されるリスク。宇宙ガバナンスの問題、つまり宇宙資源を実際に活用できるようになったとき、どう分け合うか。特に、宇宙で資源を獲得し始めたら圧倒的優位に立てると予測して、人々が先に競い合う事態を避けるために、どう分配するかという問いです。

認識論的混乱という問題もありましたね。多くのAI間で競争が起きると、マルサス的状況に陥る可能性があるという懸念。他にも見落としているものがあるかもしれません。どれが重大になるかは分かりませんし、中には既に対処済みと感じられるものや、実はそれほど深刻でない問題を幻視していたものもあるかもしれません。でも、潜在的に応用できる方向性はたくさんあります。

そうですね、同感です。TomとWillが挙げた問題はすべて、私には現実の問題に見えます。私のアプローチとしては、今の立場からすると、その多くを「AIが私たちをよりよく考えさせ、互いに満足できる解決策を見つけるのを助ける」というカテゴリーにまとめるかな、と思います。AIを使った調整、妥協、交渉、真実探求、そういった一群のことです。

宇宙ガバナンスの問い、つまり既存の勢力分布がある中でどう宇宙資源を分配するかという問題は、誰もが全力で先を争うことで生じる破壊を望んでいないわけです。でもその先には複雑な交渉の選択肢の空間があって、AIはそういったことに大きく貢献できるかもしれないと思います。

フロンティアAI企業の安全計画

あなたのメモには、このアプローチはすべてのフロンティアAI企業が掲げているものだと書いていましたね。これが彼らの安全計画の概要だと。そうですか？

そうだと思います。少なくともOpenAI、Anthropic、Google DeepMindの公式コミュニケーションを見ると、それぞれの形でこのことが浮かび上がってきます。彼らの安全計画にはすべて、AIが良くなるにつれて、AIそのものを安全計画にますます取り込んでいく、という要素があります。AIが急速にAI研究開発を加速させるという特定のクランチタイムを明示的に予期しているところとそうでないところがありますが、全員がAIが将来のAIの安全において重要な役割を果たすという絵を描いています。

このアプローチが成り立つために必要な前提は何でしょうか？あるいは、どういった状況だとこれが悪いプランになり得るでしょうか？

根本的には、AIが制御不能なほど強力になったり、許容できないレベルのリスクを生じさせたりする前に、AIが本当に有能でAI安全研究のゲームを変えるような「機会の窓」が存在する必要があります。そして、そこに近づいていると気づけるだけの意味ある時間的余裕があること。しかもデフォルト状態で、常識外れなスローダウンなしに、少なくとも6ヶ月か1年はその窓が続くということです。

知能爆発と失敗シナリオ

AIが何らかの汎用性の閾値に達した途端、数日か数週間で猛烈な超知性になってしまうと考えるなら、このプランは機能しません。対応する時間がないですね。気づく前に手遅れになっているかもしれません。

それに、能力の順序が不運だとこのプランは機能しないこともあります。AIが特定のことにだけ非常に優れていて、AI研究開発にはとても強いのに、それに非常に近いはずのAI安全研究を含め、他のことには全く優れていないというケースもありえます。ただひたすらAI研究開発だけが得意で、できることと言えば次世代のAIのサンプル効率を上げ、新しいことをより効率的に学習させることだけ、という状況です。

そうなると、6ヶ月か1年間、自分たちがどこに向かっているか分かっていてそのAIもあるのに、汎用超知性に向かって突き進んでいるだけで、そのAIを他のことに使えない、なぜなら他には何も得意じゃないから、という期間があり得るわけです。

少し自己矛盾しているところもありますね。次のモデルのサンプル効率を上げることしかできない非常に賢いAIは、ある意味それ自体はあまり脅威ではないです。汎用的な能力がないので、そういったモデルは乗っ取ったり他の技術を発明したりはできません。汎用的な能力や幅広いエージェント性を持ったときに初めて問題を起こせる。でも、それが全部できることである長い助走期間があって、最終段階では…

そうです。最終段階で最初に話したシナリオに戻るかもしれません。AI研究開発の天才的なナローAIが、ほぼ盲目的な探索のように、アルゴリズムにたどり着く——AlphaFoldがタンパク質の折り畳みを解くのに天才的でも広範な認識を持たないように——そういったAIやアルゴリズム的探索プロセスが、一気に急速発展できるアーキテクチャや訓練戦略にたどり着く可能性があります。

その助走期間に、AIがAI研究開発を加速させている、クランチタイムだ、あと6ヶ月、あと3ヶ月、でもこれらのAIは何か役に立つことに使えるAIじゃない、という状況になるわけです。

AIの能力バランスと安全への応用

解決してほしい問題の多く——社会的問題、政治的問題、場合によっては哲学的問題——AI企業がコーディングやAI研究を上手くさせる方向に、他のどんな特定のことよりも一生懸命取り組んでいると思います。それらは哲学的な問いを解くよりも具体的で測定しやすい問題ですよね。だから、残念ながら能力のバランスがこのプランにとってかなり不利になるというのは十分ありえるリスクだと思います。

そうですね、機械学習研究やソフトウェアエンジニアリングに似た作業から遠ざかるほど、おそらくペナルティは大きくなると思います。今のAIは、一日中ML研究をしている友人を助けるのにはるかに優れていて、私には向いていません。私は変わった考え方をして、こういうポッドキャストに出て、人々にメールを書いて、助成金の決断をしたりしています。AIはそういうことには全然ダメです。すでに非常に特化したスキルプロファイルを持っていることが分かります。

幸い、AI安全研究の大きな部分はML研究にとてもよく似ていると思います。AIから大きなスピードアップを得ている友人たちは安全研究者で、制御やアライメントなどの研究をしています。それこそが最初にAIに助けてほしいと思う最も重要なことの一部になると思います。

でも、認識論のためのAI、道徳哲学のためのAI、交渉のためのAI、政策設計のためのAI、そういったものはそこまで優れていないかもしれません。デフォルトで優れている必要はなく、それがこのプランの大きな懸念点です。

能力と対策のタイミングのズレ

AIモデルが、解決策を見つけるのに十分な能力を持つ前に、問題を引き起こせるようになってしまうという心配もありますね。典型的なケースとして、新しいウイルスや細菌を開発したり、病気をより悪化させるよう改変したりすることに非常に優れたAIモデルを訓練することに多くの努力を投じるというシナリオがあります。実際、医療治療の開発にAIを使っている人たちがいますが、そういったものは他の目的に転用できます。もしその高度に特化したモデルが、社会や生物学や医学の十分な理解を持って良い対抗策を考え出せるモデルより先に登場したら、このアプローチとは別の方法が必要になります。

そうですね。一般的に、AIが防衛的な労働をすることは、計画を立てながら考えておきたい世界についての予測だと思っています。保証ではありません。多くの場合、答えはAIが後で苦手かもしれないことを今やっておくことに特化することです。

大量のPPEやワクチンなどを備蓄するための物理的インフラを構築するといったことは、本質的に長いリードタイムが必要なものの典型で、それが守るべき怖い事態に対応するのが得意になった時点でのAIにとっても、あまり有利ではないかもしれません。

理想生成と実行の乖離

AIがアイデア生成や戦略立案の段階では非常に役立っても、実際にビジネスを動かしたり製造の細部を全部整理したりするのはまだかなり苦手かもしれませんね。新たな生物兵器に対抗する素晴らしい戦略を考えて、「これがあなたが使うべきウィジェットです。100億個作ってください」と言ってくる。「手伝ってもらえますか？」「いや、それは得意じゃないですね。頑張ってください」となってしまう。

そうですね。一般的に、成功を短期間で認識できる、フィードバックループが短いものに対してAIははるかに優れていると思います。それがコーディングでとても優れている理由の一つです。何をしてもコードが動いたかどうかというごまかしにくいシグナルで訓練できます。

アイデア生成と1年間のプランを実際に実行することには、ホワイトペーパーを読んで「なるほど、良さそう」と思える、いいと思うホワイトペーパーを生成するのが得意なAIを作れる、という違いがあります。でも実際にそのプランを実行している何千人もの人間とロボットのチームを動かすAIを訓練するのははるかに難しい。

クランチタイムが重要な理由

知能爆発が起きているかどうかに関わらず、AIが何か問題を解決するための研究や作業を助けられるようになったら、それができるようになった時点ですぐにやりたいと思うわけですよね。なぜクランチタイムという側面がここまで関連するのでしょうか？

ある意味それは正しいです。知能爆発にこれほど注目する理由は二つあります。

一つは、その時点でいろんなことを解決するためのかなり短い時計が動き始めると思うからで、デフォルトの軌道は12ヶ月で極めて強力な制御不能な超知性に到達するように見えます。それは、少なくともクランチタイムには、長いリードタイムのものよりも短期的なことに集中したいという計算を変えます。

もう一つは、クランチタイムが私たちが話してきたAIが望むすべての領域で優れていないという課題をいくらか緩和してくれるかもしれないからです。定義上、その時点でAIはさらなるAI研究開発に本当に優れているからです。AI研究開発が得意なAIでできることの一つは、少なくとも多くの場合、そのAI研究開発をAIのスキルプロファイルを充実させる方向に向け、今は得意でないが得意になってほしいものに向けることです。

その時点では、はるかに多くの能力を手元に持てるかもしれませんし、道徳哲学が得意なAIや生物防衛が得意なAIを作るためにファインチューニングやスキャフォールディングなどの努力を投じる価値がずっと高くなるかもしれません。

Open Philanthropyのクランチタイム戦略

あなたはこの戦略を、他の組織が取り組むべきことの説明として、あるいはAI企業がすでに計画していることの説明としてだけでなく、Open Philanthropyが今後数年でやるべきことにも影響するかもしれないと考えているんですね。Open Philanthropyの最善手は、この関連するクランチタイムに何十億ドルも待機させて、それを非常に速く分散して大量のコンピューティングを買い、AIにこれらの問題を解決させることかもしれないと。

そうです。今、助成金の80%以上が、人々に物事を考えさせ、研究や政策分析、アドボカシーなどを行わせるための給与に充てられているように、数年後にはAIが私たちの人間の助成先のほとんどより優れるようになり、私たちのお金のほとんどはAPIクレジットを買ったりGPU時間を借りたりして、AIに同様の活動分布を行わせることに使われるかもしれません。

別のアプローチとして、知能爆発が始まろうとしているという予告を受けた時点で、その段階で一時停止するためにできる限りのことをして、スローダウンして、そのプロセスを止める——3〜6ヶ月で急いでAIに問題を全部解決させるのではなく、もっと時間を稼ぐ——というものもありますよね。なぜそちらを主要なアプローチとして採用しないのでしょうか？

私が説明したプランは、知能爆発の瀬戸際で一時停止することと両立するものだと思います。実際、デフォルトで12ヶ月で全部整えるのはとても時間が足りないと思うので、そうしてほしいですね。

でもこれは二つのことをしていると思っています。一つは一時停止をあまり二元論的にしないこと。デフォルトのパスをほぼ100%のAI労働がさらなるAI改良と増殖とチップ製造に向かっているとして、一時停止や停止を0%の世界のAI労働がそれらの活動に向かっている状態とするなら、0%と100%の間にはスペクトラム全体があります。

もう一つのことは、一時停止中に何をするかという問いに答えることです。この保護的な活動を全部して、それを行うためのAIも手元にある。

一時停止をあまり二元論的にしないというフレームを持って、一時停止中に何をするかを真剣に考えると、AIの能力をもう少し進めた方がいい、と思うことが多いかもしれません。なぜなら、特に能力を特定の方向に傾ければ、その終わりには制御不能でもなく怖くもない、生物防衛がはるかに優れたAIを得られるかもしれないからです。

その全期間に小さな一時停止と小さな方向転換などを想像できます。いつかその期間に、政策調整などの活動をして、物事を助けるのに十分なほど強力だけれど、もう手遅れというほど強力でもないというAIの「スイートスポット」に長くとどまれることを願っています。

理想的なペースと白knuckleな現実

これがベストな選択肢の一つだとは思いますが、理想の世界ではこれ全体をもっとずっとゆっくり進めたい——なぜなら、このプランがどれだけ良くても、本当に必死で持ちこたえていて、これが必ず上手くいくという確信はないから——ということも明確にしておくべきでしょうね。

そうです。もし知能爆発が始まりそうという明確な早期警戒サインが発動したら——12ヶ月でAI研究開発の自動化から大幅に超人的なAIへと移行するという急テイクオフの空間に入ろうとしているという——その時には、その軌道を10倍長くするか、もっと長くして、1年ではなく10年、1年ではなく20年で社会としてその移行を行うように変えることに賛成票を投じると思います。

少し些細なことかもしれませんが、10年間一時停止して休んでから一時停止解除するというのは推奨しません。ゆっくり段階的に進む方が、一時停止してから解除してジャンプするより良いと本当に思うからです。

でも、デフォルトの軌道の期待値に戻ると、デフォルトは1年でこれを乗り越えていくと思います。10年か15年か20年の方がずっといいですが、AIを使って私たちの問題を解決するというフレームは、1年で必死に持ちこたえていても、2ヶ月余分に引き延ばしていても、10年かけて世界がそれを踏み越えられるような合意と共通認識を得ていても、関係なく適用されると思います。

一時停止してやることがあるとすれば、これがその大きな部分ですね。そうです。

計画が失敗する可能性

これがAI企業の技術的アライメントへの大きな計画です。これが上手くいかない場合、最も可能性の高い失敗理由は何でしょうか？

失敗するとすれば、AI能力の進歩のためにAIを使うことから、AI安全のためにAIを使うことへの大幅な方向転換を実際に行わなかったことが最も可能性が高いと思います。

彼らはこれが計画だと言っていますが、その段階でAI労働や人間の労働のどれだけを安全対さらなる加速に向けるかについて、定量的な主張は全くしていません。その時点で競合他社との競争から先を行く巨大なプレッシャーにさらされます。

だから、今よりずっと強固なコミットメントをしない限り、おそらくそれほど多くのAI労働を向けないでしょう。10万人の本当に賢い人間相当を持っていても、そのうちAI安全に取り組んでいるのはほんの100人だけかもしれません。それは以前の人間労働より多いかもしれませんが、物事が進む速さと比べるとそれほど多くはありません。

強固なコミットメントがない限り、ということですね。他のメカニズムとしては、法的に義務付けられることもあります。政府がほとんどのコンピューティングをこちらに向けるよう要求するか、少なくとも多くを再帰的自己改善には向けないように、とか。

企業間で合意に達するという方法もあります。「私たちは全員コンピューティングをこういうことにもっと使いたいので、コンピューティングの50%をここに使うという契約をして、相対的なポジションを失わないようにする」というような。

その特定の契約は大きな独占禁止法の問題を引き起こすと思いますね。少し違法かもしれませんが、このためだけに独禁法に例外を設けられるかもしれません。政府が大きな関心を持っているとすれば、何らかの形でこれを調整しようとすることもできますよね。

そうですね、可能性はあります。でもかなり難しいと思います。これは法律を作るのがとても簡単なことではないんです。本当にチェックボックスを埋める作業ではないので。コンピューティングの半分を安全ではなく能力に使わなければならないという法律を書くとき、何を安全研究として数えますか？そしてどうやって執行するんでしょうか？すべてのチームリードに「あなたは何に取り組んでいますか？」と聞く監査人がいるんですか？50%が安全だと確認する。そういったことは想像できます。今は本当に持っていない非常に技術的に深い規制当局が必要でしょうが。

アライメントが信じられないほど難しいことが判明したから失敗する、と言うかと思っていました。比較的低い知能レベルでさえひどいミスアライメントが生じて、それを早期に修正する方法を見つけられないから、というシナリオです。

それは可能性としてはあります。でも最も可能性が高い失敗の仕方だとは思いません。私の考えでは、最も可能性が高い失敗は全力でやらないことです。でも、AIにアライメントを助けさせようとしているのに、AIがただミスアライメントしていて、制御手順などが効果がない、という可能性もあります。意図的にAI研究開発の進歩にしか協力せず、アライメントや安全や生物防衛や助けてほしいその他のことには協力しない、ということです。

その段階では透明性の体制が十分強くて、そのことが広く発信され、それによってスローダウンを引き起こす政策変更が促されることを望みます。でもその世界は、たとえ大幅にスローダウンしたとしても、AIの助けを借りられないので自力でやるしかない悪い世界です。

でも実際には、超銀河脳の超知性ではないAIを、得意なことの幅広い範囲で役立てるために制御技術が機能することについては、かなり楽観的です。

ウィンドウの短さと組織の硬直性

もう一つの失敗の仕方として、ウィンドウが比較的短くて、プロジェクトを立ち上げるのに時間がかかり、事前にきちんと計画していないために、議論を続けているうちに本当にやりたいと分かった時には…まあ名目上はこれらの様々な論文に書かれていますが、これがどういう感じになるか本当に先読みして考えているか、そして膨大なリソースをこの他の取り組みに方向転換する決断を下す意思決定能力があるかどうか疑問です。

そうですね、大企業がやっていることに大きな不連続性を求めるものは何でも大きな逆風に直面します。AIsが良くなるにつれて、内部推論コンピューティングの安全への割り当てを徐々に増やしていければ、最終段階でのジャンプが大きくなくて済む、ということを願っています。

そして、歪んだインセンティブを生み出さずに正直なレポートを引き出せるなら、知りたいことは、人間の労働のどれだけが安全対能力に向かっているか、内部AI推論のどれだけが安全対能力に向かっているか、ファインチューニングの努力のどれだけが安全対能力に向かっているかです。何らかのスケジュールに沿って段階的に増やしていれば、はるかに成功の確率が上がると思います。

Open Philanthropyの具体的な行動計画

AIの技術的アライメントについては、主にAI企業がこの戦略に集中すると想像しているわけですが、あなたはOpen Philanthropyの文脈でこれをより深く考えて、どんなニッチを埋められるかを考えてきました。何十億ドルをこのプランに投じることがメインライン戦略になるとしたら、Open Philanthropyは何をする必要があるでしょうか？

今のところ最も重要なことは、社会が知能爆発に備えるために必要なことと非常に似ています。AIが私たちの仕事や助成先の仕事でどれだけ役立つかを今の時点で追跡すること。自分たちを自動化するよう自分たちに促し、助成先にも自動化するよう促して、AIがForethoughtの仕事にどれだけ優れているか、Redwood ResearchやApolloの仕事にどれだけ優れているか、政策助成先の仕事にどれだけ優れているかを追跡することです。

一つは、私たちが資金を出している良いことの何かでAIが本当に優れてきたとき、それはたぶん大きなことだという認識を自分たちの中で醸成すること。そしてそこで兆しが見えてきたら、本当に大きく動く準備をしていること。クランチタイムは100%特別なものではありません。クランチタイムまで何も待つべきではありません。ただ、クランチタイムが以前は自動化が難しかった多くのことが自動化しやすくなる時点だという予測があるだけです。

例えば、AIが数学研究で本当に優れているとしたら——十分あり得ることだと思いますが——技術的な助成金をより数学的な種類のものに意図的にシフトすることを検討すべきかもしれません。なぜなら、それははるかに多く生産できる領域で、はるかに取り組みやすいから。

こういったことを見張る機能を持って、Open PhilとOpen Philの助成先に対してより自動化しやすいものに作業をシフトするよう繰り返し促すこと、例えば自分たちの仕事が自動化できるかどうかを繰り返しテストすることを検討する、というのが重要なことだと思います。

その先には、残りの助成金と助成先のためのAI支払いに向けた助成金を別々に会計処理するようなことも想像できます。すでに大量の助成先にChatGPT ProサブスクリプションとChatGPT APIクレジットを支払っています。私たちの給付のどれだけがそちらに向かっているか、その規模を支持するかどうかをもう少し明確に意識するようにする。もっと大きくすべき場所はないか、軌道に乗っているか。割合はAI能力が高まるのと同じように上がっているか。クランチタイムが6年後に始まると思うなら、その時点で推論コンピューティングが支出の大きな部分を占める軌道に乗っているかどうか。

判断の遅れと意思決定の心理

心理的に考えると、Open Philanthropyをリードしていたり助言を受けているドナーの一人であったりして、透明性の要件があって知能爆発が始まりそうだという感触を得始めた場合、長い間ためらい続けることが想像できます。何十億ドものコミットを決断するのではなく。なぜなら、お金には限りがあって、エンドウメントには限りがあって、早すぎるかもしれない、悪いアイデアかもしれない、後で恥をかくかもしれないと非常に怯えると思うんです。知能爆発の早期兆候があったけれど、それほどうまくいくわけではないと判明するかもしれないし。100億ドル使って何も残らないことになる。その間違いをしたらひどい気持ちになりますよね。それは起こりうることですか？

全くそうですね。そのフロントでの間違いを恐れるだけでなく、単純に組織には特定のやり方があって、プロセスがあります。今のOpen Philの助成プロセスは、比較的若手の担当者がオープンコールやコンタクトを通じてチャンスを見つけて、その若手が材料をまとめてマネージャーを説得して良い案件だと示す。それからそのマネージャーがさらに上の人を説得する。2層か3層、時に4層の情報が私たちの意思決定プロセスを上に流れていって承認されます。

ある特定の自動化しやすい仕事に10億ドルを費やすことが正しいとして、そんな判断をランダムな若手担当者には任せられません。別のプロセスが必要かもしれません。どんなプロセスになるかは分かりませんが、それが解決すべきことの一つだと思います。

AIによる組織運営の変革

この信じられないような資金と努力の拡大が起きるには、人に非常にボトルネックが生じるか、あるいは関わる人がそれほど増えないため、AIが対象となる作業だけでなく、どの問題に取り組むかを決める判断もして、プロジェクトを管理して他のAIを監督するという形で、組織階層全体を引き受けることになる。それがあなたの想像する絵ですか？

二つの可能性があります。一つは、クランチタイムのAI労働に大量のお金を投じるのが正しい動きになる頃には、Open Phil自体がすでに大きく自動化されているという可能性。それは実は簡単な世界で、なぜならその世界ではAIが本当に役立つという実感があるからです。若手採用を減らして、プログラムアソシエイトは全員AIになっていて、組織として完全に変革されている——だからトリガーを引くという確信を得やすいかもしれません。そして実際に大量の労働力がある：今の45人ではなくAIチームに1000人いて、そういったことをずっと素早く解決できるかもしれません。

でも懸念される可能性は、ジャグジーさがあることです。AIは数学に非常に優れていて、技術的なAI安全に非常に優れていて、PPEプレイに本当に役立てる特定の種類の製造にも非常に優れている。でも自分たちを自動化できていない。私たちの仕事が得意じゃなくて、トレーニングデータにそういうものがあまりなかったから。AIの労働に向けて準備ができていません。

まだひどい間違いを犯すことがあるので、完全に信頼できないですね。そうです。ソフトウェアや製造のセットアップの中ではその間違いを捕捉できるような状態に置けますが、Open Phil側にそれをする人間が必要です。私たちはあまり自動化されていなくて、「今がその時だ。AIが本当に優れている。大きく動くべきだ」という実感がない。でも、重度に自動化されているいくつかの特定の領域にAI労働の大量のお金を投じることが正しいことではあります。

モデルアクセスとコンピューティング資源の問題

ここで少し本質的な問題を見落としていたかもしれません。外部グループがこの計画を実行する上での最大の課題は、訓練されている最善のモデルへのアクセス自体を得られるかどうかということです。クランチタイムにコンピューティングの需要が逼迫しているとき、十分なコンピュータチップを本当に持てるか。誰かがこの種の作業のためにあなたに売ってくれるか。それについて話せますか？

外部グループとして十分な労働力へのアクセスを得る上での課題は二つあると思います。

一つは、そもそも売ってくれるかどうか。先に言ったように、AI 2027や多くの知能爆発のシナリオでは、一社が競合他社から十分先に抜け出すと、内部の最善システムを自社で持ち、競合他社のリリース製品よりかなり劣るが外部アクセス可能なシステムだけをリリースして競合他社のリリース製品のちょうど一歩先を行く、という状況になります。内部システムの最善と外部アクセス可能なシステムの最善の間の格差が広がり得て、AI企業は自分たちの秘密を守りたいがために、買いたいと思っている顧客にさえ意図的に売らないことがあり得ます。

もう一つの可能性は、売ってくれてもいいが価格が高すぎるかもしれないということです。あなたのやりたいことのためにそのコンピューティングを売る機会コストは、さらに強力なAIを訓練することで、そのためにかなり高額を払うかもしれません。

両方とも課題だと思います。二番目の方がある意味対処しやすいです。ポートフォリオの一部をコンピューティング価格に大きくエクスポーズしておくことでこの可能性に対してヘッジしようとすること、それが極端な場合には、平時には他の人の商業活動のために貸し出すが、クランチタイムにはAI労働のために方向転換する自社GPUを持つことかもしれません。

ただしその場合は、所有しているチップに最新のAIモデルを乗せる方法も解決しなければなりません。だからそのための取引を結ぶ必要があるかもしれません。でも、あまり極端でないケースでは、NvidiaをたくさんかあるいはAIに露出している多くの流動性公開株を購入して、その時点でAIの能力を買える可能性を高めるということも考えられます。

GPUやコンピューティングの価格が急上昇する可能性がありますが、Nvidiaや他のGPU販売会社への投資をポートフォリオの大部分にすることで、その可能性に一部ヘッジできます——値上がりしたとき投資サイドで恩恵を受けて、上昇する価格を相殺するのに役立てる、ということですね。そうです。

ソフトウェアの面では、訓練されている最善のモデルへのアクセスがあるかという問題があります。企業が非常に近い位置にいて、モデルがほぼ同じで、マージンが非常に低く、競争力を維持するためにできるだけ早くモデルをリリースしようとするシナリオがある一方で、一社が少しリードを持ちつつ物事を秘密にし始めるというシナリオもあります。どちらのシナリオが起きそうか、特に見解はありますか？

クランチタイムの最初の部分、AIがちょうどAI研究開発の多くを自動化し始める頃には、その時点では比較的商業的で比較的オープンだろうと思います。先行する数社は能力フロンティアで1ヶ月以内に収まっているか、一社が事前訓練で少し突出していて別の会社がソフトウェアエンジニアリングで少し突出しているため誰がリードしているか言いにくい、というような状態かもしれません。

そう思う理由は基本的に、単純な経済学101モデルが予測するものだからです。これらの会社には大きなモートがないようで、過去数年で起きてきたことでもあります。

現在の状況をほぼ言い表していますね。そうです。数年前とは変わっていて、OpenAIがはるかに大きなリードを持っていて、独占や複占になりそうだと思われていた頃とは違います。

でも逆方向に押す理由もあります。超指数関数的なフィードバックループがあれば、ますます急速に成長している——2%、4%、8%——複数のアクターが互いに作用しなければ、ウィナーテイクオールダイナミクスになります。全員が同じ成長曲線上にあれば、特定のマイルストーンに最初に達したリーダーが、後れをとる者に対してますます強力で豊かになります。これは指数関数的成長とは対照的で、全員が永遠に2%成長していれば、豊かな国や企業とそうでない国や企業の比率は固定されます。

だから、知能爆発の時期に特に格差が再び広がり始めるという理由はあります。でも、おそらく最初の頃は、資金力があればAI労働を購入でき、APIクレジットを買えて、chatgpt.comに行けるという状態が最も可能性が高いと思います。そしてそこからどう進化するかについては、かなり不確かです。

先行する会社が到達しているレベルを秘密にしようとする確率はどのくらいだと思いますか？

それは直面している競争状況に大きく依存すると思います。基本的に、他の会社がはるかに後れをとっているなら、能力を秘密にする強いインセンティブと理由があります。四半期利益は諦めますが、おそらくそれは気にしないでしょう、どうせ投資マネーで動いているから。そしてAIに良いAIを作らせて、また良いAIを作らせて、と続ければ、国民国家に匹敵する力、あるいは将来をどうするかを決定的にコントロールする能力を持つ超知性で登場できる——それは権力志向の会社にとって非常に魅力的かもしれません。

でも短期利益を諦めることを伴うと思います。競合他社が近づいていて、投資家が四半期収益を出すよう首根っこを押さえているなら——

「心配しないで、私たちは超知性を持っている」と投資家に言いに行けないですよね——それだとWord is getting out ということになるから。

そうです。そしてその場合、計画は投資家を台無しにすることです。この場合の計画は超知性を作ることで、彼らに返済することではなく、超知性を作って世界を乗っ取るかもしれない。投資家はそれを好まないでしょう。投資家とCEOの間にインセンティブのミスマッチがあって、CEOはある意味プリンシパルに対する悪いエージェントになっています。

つまり、基本的に、スラックが非常に少い効率的な競争市場のように見えれば見えるほど、先行する会社は私たちの残りへのアクセスを提供せざるを得なくなります。

企業の熱意と権力掌握のリスク

企業はこのプランへの支援にどれくらい熱心だと思いますか？この戦略は彼らのAI技術安全への主要なアプローチです。楽観論者でさえも、社会が対処しなければならない他の問題があると認めています。実際、会社のリーダーたちは新しい社会契約が必要で、全てをひっくり返すことになるとずっと言っています。大きなことになると。

技術の影響を心配しているとすれば、これらの問題を解決するためにどのようにこのコンピューティングを全部展開するかという事前に準備された計画を持ってきた人がいれば、とても喜ぶと思います。

それは不明確だと思います。確かに多少のインセンティブはあります。でも彼らにとってより魅力的かもしれないAI労働の二つの代替用途があります。一つは自分自身のための権力追求。他の全員に対して巨大なAIリードを築いて、信じられない量の権力と国民国家や政府に挑戦する能力を持って登場する——それは一部の人にとって魅力的かもしれません。それは非常に邪悪な戦略だと思いますが、確かにそういう発想は世の中にあります。

もう一つはより世俗的なことです。これらのAIを使って通常の財やサービスを作ること、人々が短期的に最もお金を払いたいと思う製品やメディアコンテンツやその他のサービスを作ること。今社会のGDPの大きな部分が生物防衛やサイバー防衛などに使われていないのと非常に似ています。

道徳哲学も。そうです、道徳哲学も。それは人々がお金を払いたいものではありません。AIは人々がお金を払いたい製品やサービスの作成を加速するものであって、それはリストのあまり上位にはありません。

ほとんどの人は世界の独裁者になろうとしたり大きな権力を得ようとしたりしていませんが、非常にリスクの高い技術プロジェクトを率いることになる人々は典型的な人ではなく、典型的な人より多少野心的です。だからその可能性を完全に否定はできないですね。

並列性の限界と物理的ボトルネック

例えば、実際にある程度の時間がかかる実験をするような場合、あるいはより一般的にLLMはトークンを一つずつ生成するため、コンピューティングが2倍あっても制限なく答えを2倍速く完成させられるわけではない——という並列性の限界についてはどうでしょうか。非常に短いカレンダー時間で問題を解決しようとしているとすれば、それはどれくらい問題になりますか？

それは特に、PPEの製造や医療対抗措置を迅速に作成する能力の拡大などの物理的防衛や、社会的・政策的なことにも出てくると思います。AIが米中間でどんな合意が互いに有益か、どうやって執行するかを考え出すのに非常に役立てるとは思いますが、人間の意思決定の仕組みとして、米国と中国の人間が集まって話し合い、会議を開いて批准し、良いと感じる決断に至る必要はやはりあります。それはボトルネックになり得ます。

他に同様のボトルネックの例はありますか？理論的な問題を解くことについては、同じモデルの多くのインスタンスを異なる解決策をブレインストームさせて互いに評価させることで大幅にスピードアップできます。

そうです、全くその通り。でも深い理論的問題については、並列に努力を進めることでスピードアップできますが、どこかにある正しい解決策は複数の飛躍を伴っていて、それ以前の洞察の基盤なしに次の洞察を考えるのが難しいです。だから本当に、100のAIが並列で作業していても、その一つが最初のステップの洞察を見つけて、その後全員が次の洞察を探すために並列で作業しますが、やはり3〜4ステップ進む必要があります。

事前準備の重要性

事前にやっておくべきことは何でしょうか？例えば、米中の外交官の会議を先に計画しておくこと——やがて批准したい合意が得られるかもしれないと見越して。少し奇妙に聞こえますが、これ全部が始まる前にやっておく必要があることの他の例はありますか？

一般的に、その時点でAIが最も比較劣位にある領域は何かを考えておきたいです。AIはその時点で多くの面で私たちよりずっと優れているでしょう。状況を今の私たちよりずっとよく理解できて、より速く考え、より速く動けるでしょう。

でも今、私たちが貢献できるのは、本質的に設定に長いリードタイムが必要なことだと思います。同僚のAndrewが構築に取り組んでいる生物インフラのような物理的インフラかもしれません。

社会的合意も含まれます。アイデアが社会に浸透して使えるコンセプトになるにはある程度の時間がかかります。米中間で何らかの条約を作って、AIの進歩を自然に進むよりやや遅らせて、大量のAIコンピューティングを使ってこれらの問題を全部解決しようとするべきかもしれない、という発想が、実際に人々のツールキットに、そういう水の中に入り、AIにその道を下らせてその詳細を解決させることを実際に考えるようになるには、年単位の時間がかかると思います。

個人や組織は何をすべきか

これが理にかなっていると思う人、あるいは貢献したいと思う人は何をすべきでしょうか？同様に計画を立て、これが自分たちにとってどう見えるかを考えるべき他の組織はありますか？または、個人として自分の特定のプロジェクトにこのアプローチを採用することに貢献する方法を考えられるでしょうか？

他の組織については、政府機関がAIの採用を考えることが特に素晴らしいと思います。政府が業界のAI採用より難しくなる様々な種類の規制が多くあることが分かっています。規制される側の業界の人々は速い車を持っていて、規制する側は馬車になってしまうという、このAI採用の格差が生じる状況になってしまうかもしれません。

より広くは、もし自分の会社がまだ個人用途のAI採用を全力で進めていなくて——防衛、AI安全、道徳哲学などの良いことに取り組んでいるなら——AI が実際に役立つようになった途端にすぐに採用できるよう目を光らせるチームを持つことが多分価値あることです。

Ajeya Cotraのキャリアの変遷

2年半前に最後のインタビューをしてからのキャリアの歩みについて少し話しましょう。当時はOpen PhilippyのためにAI全般の研究と戦略をやっていましたね。2023年のことです。2024年にはAI技術助成金のリードを始めて、その年の終わり頃に4ヶ月間休んでサバティカルを取ることにしました。それについて全部教えてください。

最初の助成金を出す前にOpen Philに6年以上いたんです。以前にも助成金の会話に関わったことはありましたが、実際に主導した最初の助成金は2023年の半ばか後半で、Open Philには2016年に入ったので。

ある意味で面白い状況でした。お金を配る慈善団体だという外からの見方をするなら、私の仕事はとても変わっていました。難解なトピックを考え続けて、それについての長い報告書をLessWrongに公開するというものでした。助成金作業に入るべきかな、それが私たちの核心的な製品だしやることだから、といつも少し思っていました。でも知的なプロジェクトにいつも引き寄せられていました。助成金作業をやるべきだという漠然とした考えは常にありましたが、実際には実現しませんでした。

私を助成金作業に飛び込ませたのはFTXの崩壊だったと思います。ごめんなさい、最初の助成金は2023年ではなく2022年だったはずです。なぜならその時点で、FTX財団から助成金を約束された数百人の人が、助成金が通らないか、取り消されるか心配していたり、一部が通らないかもしれないという状況だったからです。

Open Philは崩壊の影響を受けた人々のための緊急提案依頼を出しました。技術研究についての考えと意見があり、また組織としてもこの緊急な助成金の急増に対するサージ能力が必要でした。6週間ほどで、一つも助成金を出したことがない状態から50の異なる助成金を出しました。

それは本当に興味深い経験でした。気に入る部分もありましたが、助成金の作り方として、どんな特定のことにもあまり深く入り込めないという部分もありました。FTXの緊急状況のような文脈では、非常に速く決断を下さなければなりませんでした。

でも、少なくともAI安全の技術分野においては、以前よりも私たちが資金提供している研究方向について内側からの視点による正当化を持って助成金を行える方法についての考えがありました。2023年の初めか半ば頃にそのパスを歩もうとしました。

2022年に大量の助成金作業をしてFTX財団の難民を助けたわけですが、それら全ての助成金の背後に包括的な戦略がないことに気づいて、実際に何を押し進めようとしているのかという大きな絵が必要だと思ったのでしょうか。

そうです。技術研究者への助成金に集中していました。しばしば学者であったり、AI安全のNPOであったり、解釈可能性か何らかの敵対的ロバストネスに取り組んでいました。それらは理にかなった研究への賭けのように見えましたが、満足できていませんでした——これは私とキャリアのテーマになると思います——その変化の理論が本当に詰め切られて、どのように特定のタイプの解釈可能性研究がこのタイプの技術や能力につながり、それがAI乗っ取りを防ぐ計画にどのようにフィットするか、あるいはその他の研究ストリームについても同様に、ということが明確にされていなかった点で。

AI安全助成金の課題と哲学

これは実際、私がOpen Philの技術AI安全助成金作業に長い間関わることを阻んでいた大きなことでした。組織でAI安全の技術面について考えていた数少ない人の一人でありながら。なぜなら、最終的には2015〜2022年の期間のほとんどの助成金決定が、「この人はかっこいい研究者でAI安全を気にしている」というヒューリスティクスにかかっていたからです。それは全くもって合理的ですが、「この研究ラインがこの重要な問題に取り組んでいて、成功する可能性がある理由がこれで、成功したら何を意味するか」というストーリーをもっと持ちたかったんです。

戦略をそのように詳細に構築することには大きな投資が必要なので、非常に難しく、多くの投資を必要とするため、そのような詳細に作り込まれた戦略は本当に持てていませんでした。でも、FTX危機で頭から先に助成金作業に投げ込まれた経験から、AI安全の助成金ポートフォリオを引き受けてみたいかもしれないと思いました。当時、そのポートフォリオを担っていた人たちが全員——実は一部はFTX財団に行っていました——去っていたので、組織内でやや孤立していたそのポートフォリオは、明らかに非常に重要なものでした。

もしかしたら、この分野でとても新しいやり方でアプローチできるかもしれないと思いました。異なる技術研究方向の優先事項について本当に自分たちの内側からの見解を形成しようとして、どのように私たちが最も気にしている問題に対処するかを本当に結びつけようと試みるやり方です。

深い理解なしに助成金を出すことが不快で不安を引き起こすようですね。お金が何に使われているかだけでなく、それが実を結ぶかどうかについて個人的な意見を持っていないことについて。

そうです。あるいは自分の基準がどこにあるかが少し曖昧なんだと思います。タイムラインや、AIが乗っ取りにどうつながるか、AGIがあれば世界がいかに速く変わるかといった研究プロジェクトを考えると、何ヶ月かの努力で、私の結論が全く間違っていて的外れかもしれない非常に幅広い知的な批判に対して、合理的な返答ができるし合理的な往復をできると思えるポイントに到達することが多いです。より悲観的な懐疑論者が何を言うか分かっていて、より楽観的な懐疑論者が何を言うかも分かっていて、どちらの側とも長く続く知的な会話ができると思える。

それが特定の助成金を支援する理由について到達しようとした基準でした。いくつかの助成金ではそれができました。でも「解釈可能性はここ4年で大きな成功を見ていない。どう思うか」という問いに対して、反射的均衡に達していたくて、「はい、でも外側の視点から、様々なことを支援すべきだ」というだけでなく、少し先に行けることを言えるようになりたかったんです。私にとって感情的に満足できない、仕事の大きな部分がそれだとするなら。

Open Philがほとんどの助成金でそのレベルの確信に到達しようとしない理由を説明するのは価値があるかもしれませんね。

単純に時間がかかります。二つのことがあります。まず多くの努力が必要で、努力しても自分自身の内側からの見解を完全に支持したくはありません。それも支持しないと思います。解釈可能性や敵対的ロバストネスや制御や従順性がどのように全てにフィットするかについての見解を形成することは、多くの人と話して大量のものを書き出す必要がある大変な作業です。その間、そういったことを全部やりながらお金を出せていません。

そして、そういったことを全部やった後にどこに至るかといえば、両側に合理的な見解がある場所です。複雑な問題ですし、おそらくリスクを分散して異なる人々に異なる量を任せたいでしょう。だから、合理的な反応として、思い切って考えを突き詰めた、それは大変だった、でもまだ非常に不確かなんだという反応が生まれます。リスクを分散したいので、なぜ全部省略してリスクを分散してアドバイザーを頼るという結論に行かないのか、ということです。それにはある程度共感します。その視点をそれなりに表せたと思います。

でも私の人生では、経験上、本当に宿題をやることが決断の細部を定性的に変えて、非常に高インパクトになり得ると思います。見解を形成するという全プロセスを経た上で私にできることの一つは、研究者とともに彼らのアイデアの最も素晴らしいバージョンを自分の目標の観点から見つけて、それを売り込み、ある意味で共同で助成機会を作り出すことです。それを上手く弁護できないかもしれませんが、他にも漠然とした利点があって、本当にそうやって動くのが好きです。

助成金ポートフォリオのリードと試行

2024年に実際にこのポートフォリオ全体の責任を引き受けましたが、2023年末でしたね。でも個人的な哲学がOpen Phil全体の運営方法とある程度対立しています——

単に短期間に大量の助成金を出すことと対立しているだけだと思います。それが全てです。

そうですね。それでその役割で何をしましたか？

妥協案を追求することになりました。この役割に付随してくることの一つは、過去に助成金を出した助成先が更新の時期になっているということです。このプログラムエリアを担当している人間の責任の一部は、それらの更新を調査して、助成先を続けるかどうかを決定することです。それらの助成金については、Open Phil の標準的な意思決定プロセスに従うようにしました。

しばらくバーベル戦略を追求しようとしました。一方では、更新か私たちを知っていて助成検討を依頼してきた人かで、本当に技術的なメリットの観点から提案を理解して弁護するという基準には自分を縛らず、「この人はAI乗っ取りリスク削減の目標に沿っているようだ、この人は全般的に良い研究実績を持っている」といったヒューリスティクスにより頼って、比較的速くそれらの助成金を出すようにしました。

でも同時に、別の資金プログラムか本当に賭けたい助成金を開発しようとして、高い基準に自分を縛ろうとして、なぜこれが追求すべき良いことだと思うかを本当に書き下ろそうとしていました。

2023年末から2024年半ばにかけてAIエージェントの能力ベンチマークと、世界へのAIの影響に関する証拠を得るその他の方法に賭けるという形になりました。

以前話していたこと、AIが本当に有効なエージェントになるかどうかについて早期の予告を得ようとするやつですね。2023年には、それがどうなるか本当に分かりませんでした。エージェント全般は少し期待外れだったり、私が予想していたよりも、おそらくあなたが予想していたよりも進歩していなかった気がします。でもその時点ではもしかしたらこの頃には完全に人間と同じようにコンピュータを操作できるかもしれないと思われていました。そういう未来に向かっているかどうかを本当に知りたかったんですね。

AIベンチマーク助成プログラムの立ち上げ

そうです。提案依頼を出しました。Open Philはこれまでも技術安全の提案依頼を出していましたが、これはその時点で私たちが出した中で最も的を絞って最も深く正当化された技術RFPでした。チャットボットのモデルだけでなくエージェントをテストするベンチマークを探している、本当に優れたベンチマークが持つべき特性はこれだ、良いベンチマークとそうでないベンチマークの例はこれだ、と言いました。

申請フォームも、ベンチマークの情報を引き出すことを意識した内容にしました。それが本当に情報価値のあるものかどうかを判断するために重要だと思ったことを中心に構成していました。メッセージとして一貫していたのは、もっとリアルに、もっと難しくしてほしいということです。今あるベンチマークよりはるかに難しいタスクを用意してほしい。自分では十分難しいと思っていても、おそらくまだ足りない、という方向への強いプッシュがありました。

非常に主観的で、細かく、範囲を絞ったRFPでした。結果的にそこから2500万ドルの助成を行い、さらに関連するRFP（RCTから調査まで、AIが世界に与える影響に関する幅広い情報を集めるもの）でさらに200〜300万ドルを出しました。

結果には概ね満足しています。ご想像の通り、一つの方向に多大な労力を注ぎ込みました。このような高労力型の助成アプローチに懐疑的な人なら、もっと手を抜いて10の異なる分野に倍の量の助成をして、各分野の低いところにぶら下がっている果実を摘んでいくべきだと言うかもしれません。

バーンアウトの背景と組織内での孤独感

2024年の半ば頃に少し燃え尽きてきたように感じたり、少し休みたいと思い始めたのはなぜだったのか、ということですね。

主にリサーチからグラントメイキングに軸足を移したちょうどその頃、特にAI安全研究に対してより内側からの視点、理解を重視したアプローチで新しいプログラム領域を立ち上げようとしていた時期に、それまでAIチームを率いてきたHolden Karnofsky が組織を去りました。彼は私のマネージャーでした。

Holdenとの仕事の関係は、自分が取り組んでいる内容の本質について、よく議論したり話し合ったりするものでした。彼が去ったことでリーダーシップは薄く広がり、残ったメンバーはHoldenほどのAIへの文脈理解と精通度を持っていませんでした。

そこで私は大きなメモを書きました。AI安全のグラントメイキングはもっと理解志向の形でやるべきで、内側からの視点を育てるべきだ、その理由はこれだ、という内容です。私が望んでいたのは、マネージャーや上層部がそこに対してオブジェクトレベルで議論してくれることであり、それが良いアイデアかどうか、メリットとデメリットは何か、どれだけ賭けたいか、という共通認識が組織内に生まれることでした。でもそれは、彼らの他の優先事項とこの分野への理解度を考えると、少し非現実的な期待だったと思います。

結局、組織に対してもっとトランザクション的なアプローチを取らざるを得なくなりました。これが良いアイデアかどうかを話し合うのではなく、私はこうやりたい、という形で。すると向こうは、それが最善かどうかわからないし多少懐疑的だけど……という感じで。

そうしてくれるなら好きにしていいよ、という感じでしたね。

孤独を感じました。これは、このプログラムを動かそうとしてから休職して振り返る中で自分について学んだことなのですが、私は自分が所属する組織の中枢に繋がっている感覚が非常に重要な人間なんです。そのための道が見えなくなっていた。代わりにあったのは、この取り組みを立ち上げるという仕事だけで、やってはいたけど、どこかしんどかったんです。

少し一人ぼっちだったように聞こえますね。

そうなんです。あまり起業家的な人間ではないと思います。ある意味では野心的ですが、常に誰かと話し続けていたいという欲求がとても強くて。

管理職の難しさと完璧主義

その一体感を生み出そうと、自分の下に人を雇ってこのビジョンを共に実現しようとしました。でも採用や管理がうまくなかったと思います。一つには、このビジョン自体がかなり曖昧で、自分自身でもっと試行錯誤して詰め、理解志向のAI安全プログラムとは何か、その現実的な形はどういうものかを固める作業に多くのサイクルを費やす必要があったんだと思います。だから採用が非常に難しかった。最初から直感的に共鳴してくれる人を採るしかなかったのに、それほど明確に定義されたものではなかったので、多くのエネルギーを要しました。

管理においては、以前からずっと苦労してきたし、今回も同じく完璧主義に苦しみました。長い間、自分のアイデアを文章に起こす書き手を雇おうとしてきましたが、うまくいったことがありません。自分が思うようにはやってくれないから。自分自身はかなり速く書けるタイプなので、書き手と組んでその出力を満足いくものにするまで編集する作業は、自分でやるより時間がかかることが多いんです。

グラントメイカーについても同じことが多少起きました。ある時期、ベンチマークRFPの作業を分担してもらった人たちがいましたが、自分一人で作業したほうがもっと早く進めていたかもしれないと思うことがありました。これはつらいことです。新しいマネージャーの多くが経験する弱点や課題だと思います。

そうした状況に、上から受けるフィードバックや関与が以前より格段に少なくなったと感じること、この新しいやり方の正しさを証明しなければならないという重圧が重なっていました。自分の主張には一定の説得力があると思っていたし今でもそう思っていますが、自分一人でやってみたところ、大成功とはいかなかった。

休職とその過ごし方

昨年の9月に、8年間フルタイムで懸命に働いた後、一度離れてしばらく休もうと決めたそうですね。その時間をどのように過ごしましたか？

色々なことが混在していました。とにかく生活的なことをたくさんやりました。新しいグループハウスに引っ越す先を見つけたり、自分で新しいシェアハウスを立ち上げたり。それは良かったです。自分のケアをもっとしようとしました。運動習慣を始めました。今はまたやめてしまっているので、またやってみるつもりですが。

それから、この仕事の状況がなぜ自分にとってそんなに辛かったのかを振り返るために多くの時間を使いました。これまでのキャリア全体を振り返り、どんな時に辛かったか、そのパターンを考えました。

また、たまたま進行中のプロジェクトに飛び込んでお手伝いもしました。AI懐疑派とAI安全派、AIの社会への影響についてあらゆる立場の人を一堂に集めるカンファレンス「Curve Conference」の第1回開催がちょうど休職中でした。フルタイムで働いていたら関われなかった形で関与でき、それはとても良かったです。

書き物もしました。ほとんどは未公開ですが、やること自体が良かった。あっという間に過ぎてしまいました。考えることも、やることも、たくさんありましたから。

これまでのキャリアや、自分のモチベーション、2023年・2024年に辛かったことについて、どのような内省がありましたか？

キャリアの振り返りと自己理解

2023・2024年に限って言えば、自分はやはり中核組織のアドバイザーであり、助け手でありたいのだということが改めてわかりました。それ以前の6年間はそういう立ち位置でいられていたので、もっと起業家的な役割に移行した、ある意味で自分の領域で助成のスタートアップをやって組織はお金は出すけれど必ずしも多くの注目は向けてくれない、横断的な影響を与える形で議論を展開できるルートもない、という状況がきつかった。

自分についての学びとして面白かったのは、そのルートが閉じていると、他の全ての動きに首を突っ込もうとする方向に自然と引き寄せられてしまい、それを生産的にできないと悲しくなるということです。それが一つの大きな発見でした。

もう一つは、どれだけ深みが必要かということです。何かの本質まで掘り下げたいという衝動が自分には確かにあって、反論の反論の反論まで常に考えてしまう。ごく若い頃から数学の個別指導が好きで、数学全般が好きだったのは、掘って掘って答えにたどり着けるからで、それはグラントメイキングや投資とは本質的に相性が悪い。

Open Philはある意味でベンチャーキャピタルに近い活動をしていますよね。

そうなんです。それも振り返ると面白い。先に言ったように、Open Philでの最初の6〜7年間、実際にはかなり深い研究だけをやっていました。グラントメイキング組織にいながら、グラントメイキングはしていなかった。

それはHoldenがその深い研究を強く求めていたから、という部分もありますか？タイムラインや移行速度をもっと深く理解したい、それが組織にとって健全だと思っていたのでしょうか？

そう思います。彼にはAIタイムラインを本当に解明したい、移行速度を解明したい、AIが世界を支配し得るシナリオの脅威モデルを正確に描きたいという強い意欲がありました。私と同じ本能があったと思います。宿題をしっかりこなすこと、上位10の反論への答えを持つこと、その答えへの答えまで持つこと、しっかり知識を持つことが本当に大事だ、という。

彼が私の仕事の多くを牽引していました。もし別の指導部がOpen Philを運営していたら、Future of Humanity InstituteやForethoughtのような組織に委託すべきだという発想になり、独自にAI戦略を深掘りすることはなかったと思います。

効果的利他主義（EA）への思いと変化

あなたはメモの中で、この時期にEAというエコシステムや考え方として何が好きで何がそれほど好きではなかったか、かなりの時間を振り返りに費やしたと書いていましたね。それについて聞かせてください。

このポッドキャストでEAについて話すのも久しぶりなので、何であるかから説明しますね。キャリアや寄付において、どうすれば最も多くの善を行えるかを明示的に、真剣に、定量的に考えるべきだという運動あるいは考え方です。選べる様々なキャリアパスや寄付先は、どれだけ善をなすかという点で桁違いの差があり得る。気候変動の軽減に取り組む場合、グリーンテクノロジーの研究をするのと、個人の節電を呼びかけるのとでは、役立ち方が桁違いに違う可能性があるわけです。

もし本当に真剣に取り組んでいて、本当に世界を助けたいなら、立ち止まって考え、計算する。ちょうどがんになったり配偶者ががんになったとき、どの治療法に何の副作用があり、成功率はどのくらいかを調べ、医師に多くの質問をするように。何かを真剣に受け止めるとはどういうことか、というのがこの姿勢です。善をなそうとする多くの人は、本能的に良いと感じることをしてしまいますが、それとは全く異なるアプローチとして、その問題の知的深みを尊重するというものがあります。

これに強く惹かれました。13歳の時にEAというウサギの穴に真っ逆さまに落ちて、もう人生の半分以上をこのコミュニティ、この考え方に深く関わって生きてきました。このアプローチについて、大きく三つ好きなことがあったと思います。

一つは、EAの人々が自分たちとは大きく異なる人々、時間的・空間的に遠く離れた存在に対して自分を挑戦させたことです。EA最も「普通」の大義である世界の貧困においても、先進国の個人が貧困緩和のために寄付するお金の大半は先進国内の人々に向けられています。お金の価値がはるかに大きく働く海外の途上国に送ることができるにもかかわらず。なぜ身近な人に寄付するかと言えば、近くて似ている人により強い親近感を持つからです。

EAにはさらに、動物への配慮を広げること、何千年・何百万年後の未来世代への配慮を広げること、そして意識を持ち痛みを感じることができるなら人工知能への配慮を広げることまで求める流れもあります。それがとても魅力的でした。

二つ目は、物事の進め方そのものです。非常にオタク気質で、非常に知的。どうすればある慈善団体を別の慈善団体より良いと言えるか、という問いに対して方法論的に革新的なアプローチで真剣に考え、たくさんの面白い議論を交わしていました。

そして三つ目は、非常に透明性が高かったこと。オープンな議論と失敗を認める文化がありました。初期EAの一大柱だったGiveWellは、自分たちの過去の失敗を掲載した「間違いのページ」をウェブサイト上に持っていました。他の人々をより多く助けることに関係するわけではないのに、独特な誠実さと高い倫理観を持っていた。たとえばGiveWellは「ドネーションマッチング」を拒否しました。ドネーションマッチングは大口寄付者があなたの寄付がなくても同額を寄付したであろうケースがほとんどで、実質的に詐欺だからです。

そのパッケージ全体が本当に魅力的でした。自分の心理的なボタンを一気にたくさん押してくれる感じで、自分の仲間だ、こういう生き方をしたいと思えました。

つまり、より広い範囲の存在への共感は今も変わらず好きな部分ですね。深い知的探求と徹底的な議論、そして一切の誤魔化しを許さない超高水準の誠実さ。

そう、他の運動、高い誠実さを持つ運動でさえ到達しようとしていなかったレベルの、非常に几帳面で厳格な誠実さです。

人々が求める以上のことをも先回りして行うような。

そうです。ドネーションマッチングが詐欺だってご存知でしたか？だから私たちはやりません。貧しい人を助けるための寄付がより増えるにもかかわらず。それが初期EAムーブメントのごく自然な一部だったのは興味深いことです。ある意味でインパクトを犠牲にしているわけですから。

EA運動の変質と透明性の喪失

そして物事が変わるにつれて、二つ目の知的深みが自分の仕事から失われていったと感じましたね。他にも熱意が薄れていったことがありましたか？

知的深みはEAエコシステムの他の部分、特にAI安全と初期の変革的AIシステムをどのようにコントロールするかといった思考においては、非常に色濃く残っていました。私の心はグラントメイキング組織にいながらも、常にそうした問いに引き寄せられていました。

ある意味で、あなたは本来グラントメイカーではなく、グラント受給者の方が自然なのかもしれません。あるテーマを深く掘り下げるためのグラントをもらう側で。

もし2016年ではなく2022年に大学を卒業していたなら、おそらくMATSというML・AI安全研究のスキルアップ向けプログラムに参加して、AI安全グループに入ろうとしていたと思います。実際に研究をすることに、ある意味で自然に引き寄せられているんだと思います。

その意味では、ある種の平凡な問題でした。特にHoldenが去り、リーダーシップレベルでそういう研究への需要が少し薄れてからは。もし最初からやり直せるなら、Open Philに応募するのではなく、AI安全グループに応募していたと思います。

そして三つ目の、ほとんどコミカルと言えるほど高い誠実さへの思いも、年月を経て薄れていきました。

EAムーブメントの主な焦点が、とても賢い人々を別の形の寄付へと説得することにあった頃は、異常なほど高い誠実さが実際に非常に価値ある強力な資産だったのだと思います。私のような人や初期GiveWell寄付者の裕福な人たちは、GiveWellが「間違いのページ」を持っていることを本当に気に入り、そのエトス全体を信頼していました。推薦は本物だ、売り込みやスピンをかけられていない、他の慈善推薦エコシステムとは違う、と思えたから。

でも、それが主な変革の方法ではなくなった後は、かなりの資金提供者を惹きつけ、そのお金と才能を使って世界で実際に何かを成し遂げようとするとき、政治が絡む可能性もある場合、最大限の透明性を保つのは非常に難しい。寄付者はプライバシーを求めますし、政治キャンペーンをやるなら相手に戦略や失敗点を知られたくない。実際の世界の大半はそういうものではありませんから。

そうですね。世界で最も影響力のある組織が常に信じられないほど透明で高い誠実さを持っているとは限らない。

そうなんです。だから目標間の緊張がありました。EAの目標だけを気にするべきだ、と感じていました。EAが私に、そして自分も納得していたのは、ここでの目的はできる限り他者を助けることであり、ある美学に従うことや、最もクリーンで美しいやり方でやることではない、ということです。でも同時に、自分自身のモチベーションや概念への惹かれ方のうち、実際にどれだけが純粋に目標によるものだったか——つまり柱の一つである利他主義だけ——を、ある程度自分に言い聞かせていた部分もあったと思います。知的深みや知的創造性という柱の二と三、そして完全なオープンさ、透明性、何も隠すものがない、誰でも歓迎する、というあの雰囲気。自分という人間の心理的な事実として、後者の二つは自分のモチベーションにとって本当に重要でした。でもそれらは時間とともに、EAを実践する、自分のキャリアでEAの目標を追求するということの特徴として、どんどん小さくなっていきました。

敵対的環境とEAの変容

Open Philが活動してきた環境が、この時期に非常に難しく、また敵対的なものになっていったことを、知らない人たちのために言っておくべきですね。長年、あらゆる種類のAI関連の取り組みに資金を提供してきましたが、AIが巨大な産業になるにつれ、様々な人たちの懸念が明らかになってきました。その活動は大きな商業的利益と衝突する可能性が出てきましたし、物事がどのように規制されるべきか、どうあるべきかについて異なる考えを持つ別のイデオロギーとも衝突するようになりました。

つまり、Open Philに嫌がらせをする方法を考え、公開されたものの中で恥ずかしいものを広めようと狙う人が現れるような世界になっていた。そういう環境では、内部の議論や決定の理由を全て率直に開示することはあまり魅力的でなくなります。誰だって多少慎重になりますよね。

そうです。2023年からのAI政策が加熱する最新の波が来る前から、Open Philは透明性についての最初の大胆な野望をかなり妥協していました。最初は、断った助成申請についても公開して、なぜ断ったかを説明するというアイデアがありましたから。

大多数の組織がそれをやらない理由がありますよね。

そうなんです。最初の二人のプログラムオフィサー採用については、候補者としての強みと弱み、検討した他の候補者、うまくいくかどうかの確信度について書いたブログ投稿まで公開していました。今はそれをやめています。そのレベルの透明性は、私の心の中ではまだ求めているのですが、完全に正気の沙汰ではありません。

そして、あなたが言及した敵対的な圧力によって、Open Philはこのエコシステムに多額の資金を提供する組織として、失うものがとても大きくなっています。私たちが倒れれば、多くの有益なプロジェクトが資金調達にずっと苦労することになる。多くのグラント先が敵対的な環境に直面しているにもかかわらず、私たちはそれらよりはるかにリスク回避的でなければなりません。

多くのグラント先は、反論して自分たちの視点を説明し、公の場で自分たちを定義することで対応していると思います。私の本能は同じようにもっと発信して説明したいのですが、Open Philの立場からはそれが難しい理由がいくつかあります。

EAと宗教の類似性

長年にわたり、多くの批評家から、EAは宗教的な運動といくつかの共通点があると言われてきましたね。どの程度当てはまると思いますか、また当てはまらないと思いますか？

EAは、そしてその努力が実を結んでいますが、世界の宗教よりも、また世界の多くのコミュニティや運動よりも、はるかに真実を追求していると思います。その意味では、非常に重要な相違点があります。

一方で、悪くない比喩だとも思います。EAに深く関わっている人々にとって、それは良い人生の地図のようなものを提供してくれます。善良であるとはどういうことか、良い人生を送るとはどういうことか、という像です。政治的な処方箋だけを持つ政治運動とは違うのですが、多くの宗教運動と同様に政治と交差します。

豚の妊娠ストールを禁止すべきかという政治的問いにもEAへのコミットメントのレンズを通してアプローチする人もいます。単なるコミュニティでも社交クラブでもなく、地域のEAコミュニティから心の支えや友情を得ている人もいます。ちょうど地域の教会コミュニティのように。

でも、それ以上のものがあります。世界の大きな流れと、その中での自分の位置、善くて意味ある人生を送るとはどういうことかについて何かを語ろうとしていて、政治やコミュニティなど様々なものと交差しながら、どれとも全く同じではない。

主要な点として、宗教とは異なり、多くの意味でビジネスや、かなり実際的な目標を持つスタートアップや組織のように感じられます。アイデアが好きでブログ投稿が好きでコミュニティには全く関与しない人もいて、彼らにとっては異なる経験になるでしょう。また、EAに関わっていると言いながらも、実際にはプロジェクトや人助けの取り組み自体にそれほど関心のない人もいます。

好きな側面だけをつまみ食いする人もいます。でもEAに関わっていると自認する人が多くいる組織のスタッフにとっては、もっと実際的だと言えると思います。

そうですね、多くの人にとってはそういう形になっていると思います。でもそれが本当のEAだとは思わないし、EAを世界における三〜四つの目標の集まり——工場畜産の動物の苦しみを減らす、途上国の貧困層の生活水準を上げる、AI安全——に還元してしまうのは間違いだと思います。EAへの一種の奇妙な傘として三つの大義があり、それぞれが明確な目標を持つ専門家コミュニティになっている、という見方をする人もいます。

でも私は、EAはむしろ世界の見方であり、善について考える方法だと思っています。EAのアプローチは、三大EAの大義よりもある意味でもっと身近な大義にも当然適用できると思います。たとえばアメリカ市民の福祉という観点からアメリカの政策にEAのアプローチを取ること、どの政策が実際に役立つかについての厳密なコスト効果分析をすること——これを実践している人は大勢います。

そして、EAはカノンに加えられる新しい大義領域を生み出すエンジンでもあると思います。今は、EAが先進AIによる急激な変化に社会が備えるための力となれるかという豊かな土壌があります。AI安全はその中の一つの重要な要素ですが、他にも様々な問題があり得て、価値観や今後の展開についての見方に基づいて優先順位をつけることになるかもしれません。

EAへの個人的な不満と「スピリチュアル」への欲求

あなたはメモの中で、少なくとも個人的な観点から、EAは宗教らしさが足りない、あるいは自分が個人的に望むほど宗教に近くなかったと書いていましたね。どういうことか説明してもらえますか？

私は構造と感情的なモチベーションの強化から非常に大きな恩恵を受けるタイプの人間です。また、ある程度社会的に周囲に合わせる傾向があるというか、自分がいるコミュニティの理想に近づこうとする傾向があると思います。私のEAコミュニティの一角での理想は、まさにあなたが言った通り——インパクトの大きな仕事を持ち、それをしっかりやり、長時間働くということです。

コミュニティからのメッセージはそれで、私もそれを目指してきました。でも個人的には、コミュニティにもう少しスピリチュアルな側面があってほしかったと思います。同僚のJoe Carlsmithのブログを読んでいると、私たちの道徳や価値観、そして多くのEAが信じているこの凄まじいこと——数十年のうちに、今の視点からは理想郷にも見える、あるいは暗黒郷にも見えるような完全に変容した世界になるかもしれない——についての実存的な内省が得られます。

もしEAの教会があって、毎週日曜日に、こうした問題についての思慮深い人が話をして議論を率いてくれたなら、自分の人生をとても豊かにしてくれていたと思いますし、おそらく最終的にはよりインパクトも高くなっていたと思います。でもEAコミュニティはそういう形には構成されていない。EAの専門家コミュニティとしての側面から、意図的にそうなっていない。深い教えや哲学的方向性を信じているかどうかを気にしないでいたい。ただ、優れたAI安全研究をしているなら、それで素晴らしい、という感じで。だから専門家コミュニティとしてのインセンティブが、私が個人的に望むものと逆方向に引っ張っているんです。

それはあなたにとってより魅力的かもしれないけれど、物事がその方向に向かうことが実際に必ずしも良いとは限らないということでしょうか。個人的には、より職業的でより限定されたコミュニティという側面が好きです——帰宅して、このことについてずっと考えなくても済むから。

私はむしろ帰宅して、別の形でそのことを考えていたいんです。すでに仕事のことを一日中考えて帰宅しているのに。不眠になって仕事のことを考えている。次のGoogle Docや送るべきメールを考えるのではなく、精神的に熟成させていたい。

仕事についてより精神的な次元で考えたい、ということですね。

そうです、まさに。

危険でカルト的になりかねないし、心配すべき理由はたくさんあります。でも、EAの中には私のように精神的な土台を求めている人が多くいると思います。Joe CarlsmithのブログはコアなEAの間でとても人気があります。一般的に人気のブログというわけではないのに、中には、これは自分の中にあった満たされていない何かを本当に育んでくれていると感じている人がいます。

ここには年齢的な要因もあると思います。若い頃、年上の人たちはこの側面にあまり関心がないと感じていました。今や私が上の世代になって、家族が充実感を与えてくれているし、教会に通う時間やエネルギーはあまり残っていない。

子どもを持つことで特定のスピリチュアルな空白が埋まった感じがしますか？それとも、もともとそこまで興味がなかったのでしょうか？

自分はとてつもなくスピリチュアルでない人間だと思っていましたから、それはかゆくて掻く必要のあるものではなかったと思います。以前は社交的な場に出て良い友達を作ったり出会ったりすることにもっと関心があったかもしれないけれど、今は気の合う友人もたくさんいて共通の趣味もあって、それもそれほど必要ではなくなりました。友達はもうできたし、後はそのまま続けていくだけです。

実は自分は極めてスピリチュアルでない人間だと思っていました。20歳の頃はスピリチュアリティに対して多くの軽蔑を感じていました。だから年齢とともに逆の方向に動いています。年を取るにつれて、自分の人生に宗教的な形のものをどんどん求めるようになっています。

なぜそうなのかを考えると、20歳の時は自分の現世的なプロジェクトに非現実的な高い野心を持っていたのだと思います。その時点ですでに6〜7年EAをやっていましたが、世の中で何かをやり始めたばかりで、これは明らかに正しい、明らかに素晴らしい、善良で理性的な人は全員参加してくれて、貧困も工場畜産も解決できる、というような感覚を持っていました。はっきりそう言ったわけではないのですが、こんな雰囲気で、EAの良い話を聞いてもらえますか、と言って回っていました。

そして実際に現実の世界で活動してみると、全てが非常に難しくて遅い。Google Docを書いてメールを送るという日常の仕事の感触は、高い志と自動的には繋がらない。長い苦労があり、たくさんの失敗がある。だから、自分を精神的により大きな視点に向き直させるためだけに存在する別の何かへの需要が、自分の中でどんどん高まっています。

私にとっての結論は、この仕事はかなりストレスが多くて疲れるから、完全にスイッチを切って仕事のことを考えるのをやめ、人と一緒にいて別の話をしたい、ということです。違う戦略ですね。

そうですね、多分どちらも少し欲しいと思います。今は小さな子どもが何人かいるグループハウスに住んでいて、それはすごく良いし幸せです。でも残念ながら、なかなか頭が切り替わらないんですよね。テレビを見ていても、頭の中で他のことを考えている。

Open Philへの復帰と今後の選択

休職中に独立を考えた、つまりライターや研究者として自分のことをやることも検討したようですね。でも最終的にはOpen Philに戻ることにしたのはなぜですか？

休職の終わり頃、Substackを始めてEAについて話していた様々なことや、AIについてのことなど色々書いて、どうなるか見てみようと計画していました。当時、このことについてインパクトの観点からの強い根拠がなかったのは正直なところです。最高インパクトな選択肢として狂った考えではないと思っていましたが、それをやっていた理由は純粋にそれがやりたかったからで、最もインパクトの高い選択だとは正直言えませんでした。でもその瞬間、この長い旅を経た後、自分のキャリア決定をインパクトだけに基づいて行う余地以外のものが人生にあってもいいかもしれない、と感じていました。

戻ることにした理由は、休職中に、Open Philがグローバルカタストロフィックリスク（GCR）に関する全てのAI関連業務とバイオリスク業務を統括する新しいディレクターを探す人事を行っていたからです。これはHoldenが2023年に去った時に就いていたポジションです。最終候補の二人はどちらも非常に優秀に見え、外から来る新しい人物には特定のプログラム領域を運営したり大きなチームを率いたりせず、純粋にその人の文脈構築と戦略策定を助けられる人間がきっと役立つだろうと感じました。そしてそれが、長い間感じていなかった組織の中枢に再びつながる感覚を取り戻すチャンスになるかもしれないと思いました。

うまくいきましたか？

とてもうまくいったと思います。GCRディレクターはEmily Oehlsenで、Open Philanthropyの代表でもあります。今年2025年の大半を、彼女のサポートに専念してきました。これまで何に助成してきたか、その成果は何か、AIワールドビューはどういうものか、AIについて何が起こると思っているか、それがどのように戦略に反映されているか、各サブチームの戦略は何か、というようなことを整理してきました。

彼女とは本当によく働けています。振り返ると、Open Philにいたほぼ全期間ずっと、少し孤独だったと気づきます。Holdenが去った2023年に悪化しましたが、それ以前から。Holdenは私に非常に多くの裁量を与えてくれて、対象レベルの事柄について話してくれました。本当に感謝しています。でもHoldenは、これが大きなプロジェクトだから、この部分を手伝ってほしい、ここにどう繋がるかを示す、というような形で船を動かす人ではありませんでした。Holdenはどちらかといえば研究のPI（主任研究者）のようなものでした。私は自分の研究プロジェクトをやっていて、彼はそれについてよく話し結果に関心を持っていたけれど、全体に統合されているわけではなかった。

Emilyは本当に統合的な形で仕事をする人で、私がやっていることを彼女が知る必要があり、それを使って何かをするということがわかる。これは自分にとって非常に新鮮で、きっとそういう形で働きたいと思っていたし、実際本当に素晴らしい。また、彼女は私にとって非常に気遣いがあって思慮深いマネージャーで、私からうまく仕事を引き出すのが本当に得意です。休職前よりも多く働いているのに、それほど辛く感じないことに気づきました。それはうまくいっているサインです。

今後のキャリアと学び

Open Philに留まるか、もっとメタでない場所に移ってさらに深く掘り下げることができるか、次のステップを考えているところですね。ここ数年で学んだことを、どのようにその決断に活かしていますか？

Open Phil以外に、技術系研究組織の二か所と、そこでのフィットを探す話をしています。一つはRedwood Research、もう一つはMETRです。Redwood Researchは、未来主義に触発された技術的AI安全研究に取り組んでいて、AIコントロールのアジェンダを切り開いた組織として最も知られています。METRは、知能爆発の世界早期警戒システムになろうとしている組織だと思っています。AIがAI研究開発を急速に加速させたり、支配につながる他の能力を獲得したりする前段階にいるかどうかを見極めるための、様々な指標を測定しています。

どちらの使命も自分の心に非常に近い。どちらもOpen Philより範囲が狭く、Open Philでは望めばAIがうまく行くために役立つものほぼ全てに首を突っ込めますが、その代わり、全てが同じなら、おそらくより満足のいく形で深く掘り下げることができます。

学んだことをどう活かすかという点で——これはとてもありきたりで、20歳の自分がこれを見たら目を白黒させるようなことですが——直接的な環境、報告する相手の人物そのものが非常に大きく重要です。仕事で最もよく話す二〜三人、あるいは自分のペースで一人で作業するかどうかといった特徴だけで、大きな変革的な違いが生まれる。

振り返ると面白いと思います。EAが透明性を大きく失い、最大限の誠実さをどんな代価を払っても優先することから遠ざかっているという話をしました。それは今でも気になります。また、EAの道徳的基盤——功利主義的な思考——も、深く掘り下げると多くの意味で非常に疑わしく、以前のエピソードでも話しました。

でも、これらの問題が一段と気になるのは、職場環境が局所的に自分にとって辛いときです。それが問題でないわけではありませんが、こういうハイレベルで大きな絵の問題の目立ち度と、マネージャーとの1on1がどんな感じかというような極めてミクロな問題の目立ち度の比較。自分がこれまでキャリアを考えてきた中で、平凡なことやミクロなことを過小評価していたと思います。

試用期間を設けて試しています。実はこのエピソードを撮影中もMETRの仕事試用期間の真っ最中です。注目しているのは、仕事のリズムはどんな感じか、人々はどんな感じか、ということです。

他に一般化できる観察として、Open Philの環境は9年間で変わりました。2023年のOpen Philが取り組んでいた制約は、2016年とは大きく異なっていました。最初はフィットしていても、それが永遠に続くとは限りません。Open Philのリーダーシップが変わり、報告先の人物が変わりました。こういうことが起きると、その人との非常に良い仕事上の関係、あるいはその人との戦略的な一致があったからこそその役割にいた人たちが離れることもよくあります。

まさにその通りです。

CEOが変わることが、もはやそれほど良くないのではないかと積極的に考えるきっかけになり得たかもしれない、ということですね。

そうですね、両方の方向でそうだったと思います。HoldenはGiveWellで働きたいと思った大きな理由の一つでした。彼が去った時、それは自分にとって辛い時期と重なりました。今、彼がいたポジションにEmilyがいることで、自分の仕事とその感触が再び劇的に変わりました。

だからそれは本当に大きな変革的なことのようです。組織でリーダーシップの変更が起きたなら、たとえ離れなくても、新しいリーダーシップのスタイルや制約・強み・弱みに基づいて、自分の役割や立場や取り組みについて何が変わり得るかを考えるきっかけにすべきだと思います。

4か月の休みを取ったのも良い選択でしたね。かなり不幸な状態でしたが、そのまま続けていたらさらに悪化していたかもしれず、良い決断をするための余裕ができた。

そうです、休職を取ったのは本当に良かったと思います。離れなかったことも良かった。当時の自分にとって目立っていた選択肢は、4か月休みを取るのではなく、そのまま辞めて次に何をしたいかを考えることでした。戻ってきたことは、インパクトの面でも個人の成長や満足の面でも良かったと思います。Emilyをサポートして、今はきちんと転職活動をしています。休職に出た時点では、もっと癒やしと内省のためのもので、役割を探すという意味での集中した転職活動ではありませんでした。

EAの未来とAI時代における役割

少し効果的利他主義の話に戻りましょう。このポッドキャストでは、EAについてほぼ話さなくなっています。以前はもっと大きな特集でした。主な理由は今AIに焦点を当てていることだと思いますが、AIは幅広い道徳的価値観や道徳的コミットメントとは関係なく多くの人が懸念している問題で、EA自体はそれほど関連性が感じられなくなっています。エビの苦しみを気にしたり、時間的に遠い存在を気にしたりしなくても、AI技術安全研究や、そのガバナンス上の課題について考えることは重要だということになりますから。

そしてEAは論争的なアイデアですし、その核心において実はかなり論争的です。完全に理解したとしても、資源配分についての処方箋に同意しない人は多いでしょう。殆どの人にとって実際の意思決定に関係しないとき、その荷物を全部持ち込む必要はなぜあるのか。もっとEAについて話すべきでしょうか、それとも合理的な進化と言えますか？

EAパッケージ全体を、その重荷全てと共に受け入れなくても、制御を失ったAIが世界を支配することを心配したり技術的AI安全研究でそれを防いだり、AIを利用した悪用を心配しそれを防ぐための研究や政策をしたり、単純にAIの混乱全般を心配して考えたりすることができる。だから健全で盛んな「AIは大きな問題になる」エコシステムがEAを前提としないものとして存在するし、実際にそういうエコシステムがあります。

でも同時に、EAの思考とEAの価値観にはまだ多くを加えられると思います。AI混乱の時代、AI自体が道徳的患者かどうか、保護と権利を持つべきかどうか、安全などの目標とのトレードオフを思慮深く進めていく方法について真剣に考えているのは、ほとんどの場合EAの人たちでしょう。AIの混乱が非常に激しく、特定の社会的価値観に固定されてしまう、何百万年あるいは何十億年にもわたって未来を形作る技術的能力を持ち、それがどうあるべきかを考えている——そのことを最も真剣に考えているのは概ねEAの人たちでしょう。

AIの世界観には多くの程度があります。AIが今後10〜20年で全てを混乱させると認めるとしても、最も激しい混乱を最も真剣に考えているのはEAの人たちが不均衡に多いでしょう。なぜならEA思考は、非常に先を見越した厳密な思索にあえて取り組むことを求めるからです。それがとても難しく未来を知ることが非常に困難であっても、EAの人たちは先を覗こうと最も懸命に努力します。

デジタル感情、AIが苦しんでいることを心配することは良い例ですね。その分野で活動する人々の中で、効果的利他主義が大きな存在感を持つと予測します。社会的インパクトに動機づけられていない人にとって、この分野に入ることの意義がやや不明確です。特にまだあまり報酬がよくないし、あまり尊重されているわけでもない。進展させるのも非常に難しいし、十分に非慣習的です。多くの人はキャリアにおいて受け入れられるものを望み、親が誇りに思えるものを望みます。デジタル感情がそういった尊重や名声や安全や快適さを提供してくれるかは不明確です。

だから利他主義的に動機づけられていて、知的にも多少エクレクティックで、アバンギャルドでいることを厭わない人たちが集まりやすい。

そうです、かなりの哲学的な推論や思索に対して寛容な意味でのアバンギャルド。ある意味でこれが健全なEAコミュニティのあるべき形かもしれません。まだあまり尊重されていない段階、非常に投機的で方法論もまだ確立されていない段階の大義領域を孵化させるエンジンとして。ただ極めて利他的で非慣習的なことを厭わない姿勢だけが求められる——そしてその大義領域を、多くのEAが取り組みながらも自立できる段階にまで成熟させる。

デジタル感情と、WillとTomのリストにある宇宙ガバナンス、価値のロックインについて考えることなどが、EAがAI乗っ取りへの懸念を孵化させた方法で孵化させる候補だと思います。

価値ロックインについてはあまり強くそうは感じません。そのメカニズムの多くは、AIが権力の掌握につながったり、民主主義や社会の時間をかけた適応能力を損なうような形になるでしょう。それはEAに関わっている人たちも懐疑的な人たちも心配していることです。

価値ロックインへの懸念には、一人が全権力を握るというような明らかに怖くて悪いことを経由するバージョンもあります。でも、まるでソーシャルメディア++ のような、分散した形でテクノロジーが互いに残酷になることや思考力の低下をもたらしたり、個人が自分で作った情報バブルの中で生きることを可能にしたりするもののスペクトラム全体もあると思います。AIが各個人のための個別情報バブルをはるかに上手に作り上げ、超知性の助けを借りて最初に信じていたことを変えないようにする場面が想像できます。

これは長期的な未来において重要な社会問題だと思うかもしれません。一人が全権力を握るというわけでなくても、権力は比較的分散したままでも、社会の大きな割合が考えを変えることにほぼ免疫を持つような状態になる可能性があります。

他者が埋めないニッチをEAが埋めるものとして指摘していたのは、主に利他主義そのものではなく——デジタル感情においては確かに要因ですが——実際には研究方法論や研究的本能だったのは面白いですね。ただの作り話と、特定の測定をしたからこそ裏づけできる確固たる結論との間の非常に居心地の悪いスペースにいることを厭わないという。

何らかの理由で、それがEAに情熱的な人々の最も独特な側面の一つであるように思えます。物事がどうなるかについて情報に基づいた投機をしようと本当に懸命に努力し、良い話に留まるだけでもなく、ハードな予測を実際に行うことを恐れるほど保守的でもない。

そうですね、まさに。EA最も穏当な大義領域の地球規模の健康と開発でさえ、これが大量に含まれています。GiveWellのコスト効果分析を見ると、非常に低い収入の人が収入を倍にする価値が、特定の死亡リスクや特定の苦痛を伴う病気の価値とどう比較されるかを考えなければならない。そして調査や奇妙な研究に基づいて答えを出さなければならない。最終的にはそれほど厳密ではなく、判断を形成してそれを説明する必要があります。

こうした問いに取り組んで、ここが私たちの答えで、多くの反論がある、というようにはっきりと言う意志は、Redwood ResearchをはじめとするEA系AI安全組織を含むEA組織の非常に典型的なことだと思います。

これらの問いに対するより標準的なアプローチは、ある程度恣意的に一つを選んでそれに強くコミットするか、質問されることに少し苛立って全く知る方法はないと言うか、あるいは全く事実としての問題は存在しないと言うかでしょう。中間のどこかにいることを試みる、というのは……中間が正しいかどうかはわかりませんが。

EAの中でも、中間のどこに着地したいかのスペクトラムがあり、自分より思索的な人を見ては砂の上の城を建てているだけで正しいやり方ではないと思い、自分より思索的でない人を見てはそれは街灯の下効果（見つけやすい場所だけを見る誤謬）で、最も重要な考慮事項を無視して最も重要な領域で活動していないと思うわけです。

その考え方を持っている人たちへの重要なメッセージは、この独特なメンタリティ、あるいはある程度稀なメンタリティを活用して、他の人が恐らく入らないだろうロールに入るべきだということでしょう。他の人には誤りに見えるかもしれないけれど、このことをやってくれる人が他にいるわけではない。

そうですね、確かにそうだと思います。EAを世界のAIのような狂気的な変化への応答の一つのピースとして想像すると、EAは研究に強く傾倒すべきだという議論が実際にあります。

最初はみんな自然に研究系のことに引き寄せられていたため、研究者になりたい人の大きな過剰が生まれました。そして80Kをはじめとした組織から、オペレーションや政策など研究だけではない役割も考えるようにという大きな後押しがありました。それは当時適切な動きだったと思います。でも、EAの相対的な比較優位を考えると、オペレーションをやっていて政策をやっているが、心の底では奇妙な真実探求者として思索的な考えを持つことがしたいという人たちの一部が、また戻ってそれをやることを考えるべきかもしれません。

本日のゲストはAjeya Cotraさんでした。80,000 Hours PodcastにまたゲストとしてきてくださってAjeyaさん、本当にありがとうございました。

こちらこそ、ありがとうございました。