デイビッド・ダルリンプル氏が語る、安全性を確保した変革的なAI

33,603 文字

David Dalrymple on Safeguarded, Transformative AI

David "davidad" Dalrymple joins the podcast to explore Safeguarded AI — an approach to ensuring the safety of highly adv...

Future of Life Institute のポッドキャストにようこそ。私はガス・ドッカーです。本日は、ARAのセーフガードAIプログラムディレクターであるデイビッド・ダルリンプル氏(davadとしても知られる)をお迎えしています。デイビッド、ポッドキャストへようこそ。
ありがとうございます。このポッドキャストに参加できて光栄です。
それでは、セーフガードAIが、AI安全性への取り組みの中でどのように位置づけられるのかについてお話しできればと思います。
私は、AIの重要な能力の閾値における異なるフェーズを区別することが重要だと考えています。それぞれのフェーズでは、異なるリスクが顕著になり、それらのリスクを軽減するために異なるアプローチが必要となります。
まず、現在のフェーズがあります。これは一般的なAI安全性に関連しており、主に誤用のリスクが懸念されています。このフェーズで必要な緩和策は、基本的に監視とジェイルブレイク耐性、そしてAIの出力がユーザーによって危険な方向に誘導されることを防ぐ方法です。
次に、エンドゲームフェーズがあります。これは人々が次によく話題にする段階で、非常に強力なAIシステムを扱う段階です。この段階では、システムを封じ込めることができるとか思い上がるのは愚かでしょう。システムは、あなたが封じ込めたと思っていた基盤を無効にするような新しい科学的原理を、気付いて止める間もないほど短時間で発見するかもしれません。
そのためエンドゲームシナリオでは、野心的なアラインメントが必要な緩和策となります。つまり、このアルゴリズムがどのような状況に置かれても、良性に、あるいは少なくとも善意を持って行動するということです。これには多くの哲学的考察が必要で、エージェント基盤の方向性はこの野心的なアラインメントのカテゴリーに分類されます。
セーフガードAIは、私が「中間期」と呼ぶ時期を対象としています。この時期のシステムは、インターネット上に展開したり、人間が会話したりするには強力すぎます。非常に有害なミームについて極めて説得力のある議論をする可能性があったり、インターネットに接続されていると止めることのできないマルウェアを放出したりする可能性があるからです。しかし、本気で封じ込めようとすれば不可能なほど賢いわけではありません。
セーフガードAIで私が答えようとしている問題は、このような中間レベルのスーパーインテリジェンスを、許容できないリスクを生み出すことなく、どのように活用できるかということです。
一言で答えると、この封じ込められたシステムの周りにワークフローを作成します。これは、特定の用途に関連した定量的な安全性保証を持つ特殊用途のエージェントを、自律的なR&Dによって生み出す一般的な方法です。
つまり、AGIに対する自律的なR&Dではなく、自己改善を行うわけではありません。しかし、もしそのような能力があるなら、特定のタスクのための特殊用途エージェントに対して自律的なR&Dを行うこともできるはずです。そして、それを多くの特殊用途に対して大規模に行うことができます。これが、このプログラムで実証したいと考えていることです。
特殊用途の例を挙げていただけますか？
例えば、バッテリーのための新しい材料の発見、太陽光発電の天気予報や電力需要予測に基づいたバッテリーの充放電制御方針の決定、臨床試験をより迅速で効率的にすることなどが挙げられます。
また、モノクローナル抗体の製造があります。現在、これらは博士号を持つ生物学者の監督のもと、健全な方向に導かれる必要のあるバイオリアクターで製造されています。この製造工程と品質管理を自動化できれば、モノクローナル抗体のコストを桁違いに下げることができます。これらは多くの病気に非常に有用ですが、現在は製造コストが非常に高いため使用されていません。
他にも、他のものを製造する工場の製造を自動化することや、世界中の航空機に搭載されるメタゲノミクスモニターがあります。これらは機内の大気に新しい病原体が出現していないかを監視します。
基本的に、気候変動や健康に役立つもの、経済的価値を提供するもの、エネルギーを管理するものがあります。また、バイオ脅威やサイバー脅威など、悪意のあるAIが使用する可能性のある攻撃ベクトルに対処するものもあります。例えば、悪用可能なバグのない、形式的に検証されたソフトウェアやハードウェアの作成などです。
つまり、これはAIの利点を活用すると同時に、これらの特殊用途エージェントに目的を果たさせることで、マイナス面を制限することにも関係していますね。
はい。すぐに大きな利点を得ることと、後に出現する可能性のある悪意のあるAIに対する文明の回復力を向上させるために、この重要な期間を活用することの両方が目的です。
中間期間はどのくらい続くと予想されますか？現状では、私や多くのリスナーが感じているように、これらの期間が圧縮されており、中間期間があまりないかもしれないと思うのですが、どう予想されますか？
この分野では、タイムラインの予測を含む多くのことについて、徹底的な不確実性を持つことが適切だと思います。デフォルトのスケーリング経路でも、悲観的な近似として実効計算能力が毎年1桁ずつ増加すると考えると、この中間期間、つまり最高の人間よりもはるかに賢いが、100倍のスピードで動作する人類全体よりは賢くない期間は、6〜7桁の規模なので、私の中央値の予想では、デフォルトのスケーリング経路で6〜7年程度だと考えています。
また、経済的な利点を大きく得られる方法があり、世界の他の人々が同じ経路をたどっているかどうかという保証のジレンマを解決する方法があれば、囚人のジレンマではなく、スタッグハント・ゲームになる可能性があります。そこでは、みんなでしばらくこのやり方を続けようという均衡が生まれます。
これは割引率に依存します。現在、経済的割引率は年間約5%で、これが長期的な未来の価値評価方法となっていますが、それでも、プログラムが成功すれば、完全なスーパーインテリジェンスへの移行を約12年間保留することが均衡になるという議論を、私はプログラムの論文で展開しています。
また、気候変動に関して始まっているように、経済的割引率に縛られない低い社会的割引率を持つことの重要性が認識されれば、さらに長期間保留することが均衡となる可能性があります。
そして、より狭い範囲のシステムの利点を、安全性の保証を含めて提示できれば、企業や国家に対して、高度に発達したシステムの開発を早期に行うリスクを取らずに済むと説得しやすくなるということですね。
はい、その通りです。人々が10%のGDP成長という選択肢を見ている場合、その選択肢を完全に放棄することは均衡とはなりません。しかし、形式的に定義可能な特殊用途のことだけを行い、それが経済の15%程度しかカバーしないと言えば、それは突然実行可能になります。
セーフガードAIプログラム内でゲートキーパーはどのような役割を果たすのでしょうか？
これは少し複雑な質問です。形式的検証のさまざまなボックスの詳細に踏み込むことになるからです。ゲートキーパーは検証の最も内側のボックスの一種です。スタック全体を説明しましょうか？最も外側から始めて説明できます。
はい、スタック全体を説明してください。
最も外側のレベルでは、AIシステムを封じ込めておきたいと考えています。そのために、形式的に検証されたハードウェアシステムを用意し、その上で形式的に検証されたオペレーティングシステムを実行します。これは完全性と機密性の不変性を維持します。
機密性と完全性は、サイバーセキュリティの専門家が考える方法ですが、封じ込めの観点から見ると、これらは実際には出力側のチャネルと入力側のチャネルです。外部に情報が漏れる方法があれば、それは機密性の違反です。外部から内部に情報が漏れる方法があれば、それは実際には完全性の違反です。
これらの種類のプロパティは、機密計算においてGPUと統合され始めていますが、封じ込めにとっても重要です。したがって、形式的検証の最外層は、情報の入出力の境界を検証し、それが制御されていることを確実にすることです。
ここで、形式的検証について説明いただけますか？これらのシステムについて、形式的に何を保証できるのでしょうか？
形式的検証とは、数学的証明を使用することです。これらの証明は、マイクロプロセッサの設計のモデルから導かれる仮定に基づいています。マイクロプロセッサ自体を検証する場合、仮定は物理学、固体半導体物理学に基づきます。そして、マイクロプロセッサの設計が、これらの物理的原理を満たす世界で実装された場合、その仕様に沿った振る舞いをすることを検証します。
ソフトウェアレベルでは、マイクロプロセッサがその仕様に従って動作すると仮定します。これはより抽象的な公理系のようなものです。そしてその公理系から、このオペレーティングシステムを搭載し、どのようなプログラムを実行しても、機密性と完全性のプロパティが不変であることを推論します。
つまり、私たちはコンピュータの動作に関する理解が完全で、何か特別な科学的現象を見落としていないとすれば、機密性と完全性のプロパティは指数関数的に低い確率でしか失敗しないことを示しています。
素晴らしいですね。では、スタックの次の層に移りましょう。
はい。封じ込めシステムの内部では、この強力なAIを実行しており、何かを取り出したいと考えています。100%封じ込めたくはありませんが、できるだけ少ないシャノン情報ビットしか外部に通信させたくありません。
システム内部が自由に多くの情報ビットを外部と通信できるようにしたくないのです。しかし、形式的な問題で一意の解、つまり最適化問題の一意の最適解を持つものを指定した場合、封じ込め内部の強力なシステムに要求できることは、その解だけでなく、それが正しく一意であることの証明も提供することです。
ボックス内部でその証明を確認し、これが形式的検証の次の層となります。この証明が正しく、実際に解の正しさと一意性の証明であることを確認します。その確認が通れば、解を出力します。証明は出力しません。なぜなら、証明は一意ではないため、ステガノグラフィに使用できる余地がたくさんあるからです。
ボックス内部の証明チェッカーが破損していないことを信頼できない場合、証明を暗号化して世界中の5つの異なるクラスタに送信し、セキュアエンクレーブ内で異なる実装の証明チェッカーを実行し、正しいことを確認した後に証明を破棄するといった方法もあります。
基本的に、この検証の目的は3つあります。まず、本当に正しいことを知りたいということです。混乱や幻覚を避けたいのです。これは、かなり強力な振る舞いが可能なモデルでも、それらの能力を完全に確実に発揮することは少ないかもしれません。しかし、世界的な大惨事を引き起こすことを心配するほど強力なら、おそらくかなり信頼できるでしょう。
だから正しさそのものよりも、他の2つの検証の利点の方が重要です。2つ目は、人類に正しさの確信を与えることです。たとえ正しくなるはずだったとしても、策略を巡らせている世界と区別するのは難しいでしょう。そのため、チェックがあることは、ゲーム理論的な協調の助けとなります。
3つ目の利点は、因果的な権限を減らすことです。一意性を検証する、あるいは一意性に近いものを検証することで、伝送エントロピーの定量的な制限を行うことができます。ボックス内のシステムが持つ因果的な力の量を減らしているのです。
質問をした時点で明確に定義されていた数学的オブジェクトの詳細を発見しているだけで、我々が答えを見つけられるほど賢くなかっただけだとすれば、たとえ奇妙なことをしたいと望んでも、世界を望む方向に変える能力はほとんどありません。
では、ここでゲートキーパーについて話せますか？
はい、次の層がゲートキーパーです。次の層は、ボックスの中で形式的に検証でき、取り出した時に正しく安全であることを検証できる解がどのようなものかということです。
私のヌル仮説では、スーパーインテリジェンスに代替的なアーキテクチャを見つけさせることもできますが、安全性の証明が普遍的に定量化されるブラックボックスニューラルネットワークと、安全性の安定性不変量を維持することのみを担当するより小さなニューラルネットワークであるバックアップコントローラー、そしてゲートキーパーで構成されると考えています。
ゲートキーパーは実行時検証を行います。これは形式的検証の3番目の層で、ボックスから特殊用途のAIを抽出した後、特殊用途のAIが自身のアクションを検証します。そこでの検証の質問は、次のタイムステップで、回復不能な状態に遷移する確率が十分に低いかということです。
十分に低くない場合は、バックアップコントローラーに切り替わります。バックアップコントローラーは、回復可能な状態から安全性のプロパティを非常に高い確率で維持できます。
そのため、回復可能な集合の外に出るような安全でないアクションが提案された場合、前のタイムステップで回復可能な集合内に留まることが証明されていたため、その時点でバックアップコントローラーに切り替えるのに遅すぎることはありません。
基本的には、数学的帰納法の議論ができます。初期状態で安全であると仮定し、状態nで安全であれば状態n+1では高い確率で安全であることを示すことができます。この帰納法の議論は、特殊用途エージェントの展開前に静的に行うことができます。
しかし、帰納法の議論は基本的に実行時のチェックに依存します。状態空間は次元数に対して指数関数的に大きいため、このチェックを実際に取り除くことはできません。高度なコントローラーで何が起こっても常に安全だと事前に言って、もうチェックする必要がないということはできないのです。
しかし、実行時の検証が回復可能な集合内に留まることを、事前に検証することはできます。
ここで疑問が浮かびます。このシステムやあなたが説明したスタックの実装からどのくらい離れているのでしょうか？これはどの程度理論的で、現時点でどの程度実装可能なのでしょうか？
これは現時点では主に理論的です。ARAのセーフガードAIプログラムでは、現在約57人の数学者が理論技術分野1.1で働いています。つまり、主に理論です。
私たちが開発する必要があるのは、現実世界の問題を形式的な数学的問題として表現する言語です。この言語は、経済的にあるいは回復力の観点から重要だと考えられる、カバーできる可能性のあるすべての科学・工学分野を網羅できるほど十分に表現力豊かである必要があります。
これは確率的プログラミング言語に少し似ていますが、連続時間システムや偏微分方程式、その他のモデリングフレームワークを含みます。これらは有限個の変数を持つ確率的プログラムとしては簡単に表現できないものです。しかし、宣言的であり続ける必要があります。
そうすることで、形式的な推論を行うことができます。あるいは、スーパーインテリジェントなシステムが形式的な推論を行い、その形式的な推論が正しいことを人間が設計したチェッカーに証明できることを期待できます。
プログラムが成功すれば、2028年頃には、いくつかの異なる分野でこれを実証できるようになると考えています。私が目指しているのは、これらの例題の各システムを展開することで、年間10億ポンド規模の経済的価値を得ることです。
成功の例を挙げていただけますか？まだ形式的検証ができない領域で、このような検証可能な言語を作成できた場合、何が可能になるのでしょうか？
例えば、電力網のバランスをより効率的に取ることができるようになります。現在、バランシングコストは年間約30億ポンドです。10年前は約5億ポンドでしたが、再生可能エネルギーの比率が高くなったため、グリッドのバランスを取ることがはるかに難しくなり、大幅に増加しています。
しかし、エネルギー貯蔵システムが稼働し始めれば、AIを使用してエネルギーを時間的に移動させることが可能になるはずです。ただし現時点では、セーフガードされていないAIシステムにこのような決定を任せることは合理的ではありません。
ここで私が懸念するのは、このスタックのさまざまな層が提供する証明を理解できる人が非常に少ないだろうということです。そのため、ある意味で人類の残りの部分は、それらの専門家への信頼に頼らざるを得ません。これらの証明を、形式的に検証されているという性質を損なうことなく説明する方法はありますか？
まず、証明と仕様を分けて考えましょう。証明が機械的にチェックされ、実時間でリアルタイムに行われ、非常に高次元である場合、あるいはボックス内にあってステガノグラフィを防ぐために漏らしたくない場合、誰も証明を読むことはありません。機械的に証明をチェックすることに頼ることになります。
しかし、人間に監査してもらう必要があるのは、証明が正しい定理の証明であるということです。つまり、定理が実生活で我々が気にする安全性のプロパティを本当にカバーしているかということです。
これはより簡単な問題に聞こえますが、実際により簡単な問題なのでしょうか？依然として難しい問題ですが。
はい、はるかに簡単な問題だと思います。一般的にエンジニアリングでは、実装を見つけてその実装が正しいことを示すよりも、何が欲しいかを定義する方が簡単です。
ただし、簡単ではありません。現在のレベル、つまり破滅的なリスクのないレベルの支援AIシステムを使って、それらの仕様の形式化を支援する必要があると考えています。しかし、これらのシステムが常に完全に信頼できるわけではないので、人間による監査が必要です。
私は、人間の大規模なチームが小さな部分に署名することを想像しています。GoogleやAmazonのような企業が大規模なコードレビューを行うのと少し似ています。彼らの巨大なコードベースに入るすべてのコードは、3人の異なる人間によって署名されます。
そのような感じで、巨大なモデルを構築していき、もちろん、スケーラブルな方法で適切にアーキテクチャ設計されていれば、モジュール性を持ち、各モジュールについてブログ記事形式で何が起こっているかを説明することを容易にします。AIを使って説明を生成し、その説明が理にかなっているかを人間にチェックしてもらうこともできるかもしれません。
ここで本当に有用なもう一つのことは、大規模言語モデルが、そしてマルチモーダルになるにつれて、基本的に刺激に対する人間の反応のモデルになっているということです。現在の安全性仕様を満たすが、LLMによってモデル化された人間にとって苦痛となるような状態空間の軌道を見つけることを最適化できます。
そしてそれを表面化させて、「人間の皆さん、あなたがたの仕様にこの基準が欠けているかもしれないことに気付きました。なぜなら、現在の仕様を満たすけれども、あなたがたが好まないと思われる軌道がここにあるからです」と言うことができます。このようなプロセスを使って、仕様を反復的に改善する助けとすることができます。
このような技術開発が、これまでの技術変化と同じように進んだ場合、ある時点で技術の専門家が政府の重要な意思決定者などに何かを提示しなければならないと予想されます。その場合の課題は何でしょうか？
これは先ほどの質問と少し似ていますが、技術的な結果を踏まえて、これらのシステムに対してどの程度の信頼を持てるかを、どのように正直に伝えればよいのでしょうか？
ARAは、1971年以前のARPA（DARPAになる前）のようなものです。私たちは先進研究・発明機関（Advanced Research and Invention Agency）という似たような名前の機関で、助成金を出しています。研究プログラムを策定し、ビジョンを掲げて助成金を出しています。
もう少し詳しく説明すると、個人がプログラムディレクターとして採用され、我々が「機会空間」と呼ぶものを定義します。これは、分野よりも小さな研究開発の可能性の領域で、現在は軽視されているが、進展の余地があり、成功すれば変革的な影響を持つと思われるものです。
そして、その機会空間の中でさらに具体的なものを定義します。これを「プログラム」と呼びます。私の場合、機会空間は「安全なAIのための数学」です。これには、特異学習理論やエージェント基盤など、安全なAIのために数学を使用する他の方法も含まれます。
しかし、その中で私は、形式的検証ツールの特定のスタックを中心とした、このセーフガードAIに関する非常に具体的なプログラムを定義しました。
プログラム内では、ビジョンの特定のテーマ要素に関する提案を募集します。人々が提案を行い、その研究に対して助成金を出します。例えばNASAのように組織内で多くのR&Dを行うことはありません。
とはいえ、ARAは規制機関でも、AI安全性研究所のような規制助言機関でもありません。AI安全性研究所とはかなり交流がありますが、3〜5年後に物事がうまくいった場合の方向性について、私の視点を提供しているだけです。
AI安全性研究所には、安全性ケースと呼ばれるワークストリームがあります。最近、AI Governance Centerから安全性ケースに関する新しい論文が出ました。安全性ケースは、原子力発電や旅客航空など、リスクの高い産業で確立された実践です。
そこには検証できない仮定のセットがありますが、経験的なテストや物理的な材料の振る舞いに関する先験的な議論など、さまざまな種類の証拠があります。これらの仮定は、演繹的な証明のステップのような議論と組み合わされます。つまり、安全性ケースの一部である推論規則です。
「これらの仮定を立てれば、この主張を演繹できる」と言い、この主張は再帰的に他の主張とともに、より高いレベルの主張を演繹するための証拠となります。最終的に、安全性ケースのツリーの頂点にある主張は、「致命的事故のリスクは10万年に1回未満である」といったものです。
これが、規制要件に関する量です。千年あたりの許容される致命的事故の回数と頻度の曲線があり、規制当局によっても検討される仮定から主観的に演繹されることが許容されています。
これが安全性ケースのパラダイムです。AI安全性研究所は、これらの異なる重要な期間に関連する複数の異なるAI安全性ソリューションに対して、このパラダイムを検討しています。主要なリスクは異なる性質を持っています。私は、セーフガードAIの安全性ケースがどのようなものになるかについて、彼らと協力し始めています。
まだ答えは出ていませんが、考えていることの一つです。これらのより進んだ定量的な安全性保証を持つような状況では、技術の専門家が、「このシステムを実行すべきか」「このシステムを展開すべきか」といった決定を行う高官に提示できる数値となるでしょう。
また、プログラムには社会技術的統合に関するサブエリアがあります。これは技術分野1.4で、現在進行中です。もしこれを聞いている方でこの問題に興味がある場合は、提案を提出できるかどうか検討してみてください。
私たちが検討していることの一つは、リスク閾値について、また異なる意見を持つ人々がリスクと利益のトレードオフを行う際の、マルチステークホルダーの集団的熟議をどのようにツールで支援できるかということです。
AIのケースと航空や原子力のケースを比較して議論するのは興味深いかもしれません。AIはより複雑で、基本的に社会のあらゆる側面に関わっているように思えます。また、航空の場合は100年ほどかけてこれを正しく行う時間があったかもしれませんが、AIの場合はそれほどの時間はないように思えます。
私たちが直面している課題と、成功の見通しについてお話しいただけますか？
原子力や航空では、これらの安全性技術が確立される前に多くの致命的な事故が発生したのは事実です。破滅的な能力を持つAIについて話す場合、多くの致命的な事故を許容することはできません。
その意味で、これはより困難なアプローチの問題です。他の産業で成熟した安全性の実践があるという利点はあります。100年前に航空が始まった時には、そのようなものはほとんどありませんでした。静的なシステムに対する土木工学が少しあっただけで、動的なシステムに対してはありませんでした。
現在では、動的なシステムに対する成熟した安全性の実践がありますが、あなたが言うように、使用の文脈が狭く限定されたものだけです。そして今、私たちは、オープンエンドで無制限の使用文脈を持つ動的システムに対して、何らかの安全性の実践を考え出せるかどうかを検討しています。
これは非常に困難だと思います。そのため、セーフガードAIでは、明確に定義された使用文脈において安全性保証を生成するためのスケーラブルなワークフローに焦点を当てています。
安全性が重要なエンジニアリングシステムに対する、明確な使用文脈がある場合にのみ適用される実践を取り上げ、それらの実践をAIの助けを借りて人々が非常に速く簡単に実行できるようにし、多くの使用文脈に渡って行うことができないかと考えています。
これらの文脈の全てが今日では安全性が重要とは考えられないかもしれませんが、このやり方で行うことで、AIが異なる文脈で忍び込ませる危険性の量を制限することができます。
しかし、これは何でも質問できるチャットボット製品にセーフガードAIを使用しないことを意味します。破滅的に危険になる前のシステム、破滅的に危険になる前のシステムをチャットボットとして使用し、それらのシステムが解くには難しすぎる問題を、より能力の高いシステムが形式的検証と封じ込めの層を持って解決できるように、問題を定式化する手助けをするだけです。
そして、あなたが正しく理解されたように、数学的証明ができる領域や、これらの証明や形式的検証ができるほど十分に定義された世界の側面を拡張することにも取り組んでいるのですね。
これはプログラムの中で大きな部分を占めているのでしょうか？最も興味深い側面や、形式化する上で最も課題となる領域は何でしょうか？
現時点では、どのような種類の問題を形式化できるかの範囲を拡大することが、プログラムの大きな部分を占めています。プログラムの終盤には、機械学習がはるかに多くなります。技術分野2に関する関心表明の募集を現在行っており、そこで機械学習が行われることになります。後でそれについてもっと詳しく話すことができます。
理論的な側面は、証明ができる範囲を拡大するというよりも、科学と工学の異なる分野を統一することに関するものです。例えば、化学や疫学ではペトリネットを使用し、土木工学では有限要素法と偏微分方程式を使用し、電気工学では常微分方程式とフーリエ解析を使用するかもしれません。
これらの異なるモデリングのオントロジーを統一することです。そんなに多くはありませんが、12から20ほどの異なるオントロジーがあり、それらを統一したいと考えています。
理論面での他の大きな部分は、ベイズ的不確実性よりも根本的な不確実性の管理です。これを不精密確率と呼んでいます。これはさまざまな形で現れてきました。
聴衆の多くはおそらくかなり正統派のベイジアンだと思うので言っておきますが、ファジー論理やデンプスター・シェーファー理論、プロスペクト理論など、確率よりも不精密になろうとする多くの試みがありました。それらはすべて少し不自然に感じられ、私もそれは理解できます。
私が見てきたのは、非常に異なる方向から、非常に異なる動機付けの考慮から現れた少数のものが、数学的に等価であるという意味で収束してきたということです。
認識論的状態が確率分布ではなく、確率分布の下方閉凸部分集合であるというのは、少し場当たり的に感じるかもしれません。なぜそれらの特定の形容詞をその特定の順序で使用するのでしょうか？
しかし、フェッソとアレックス・アッペルによるエージェント基盤から動機付けられた赤外ベイジアン理論を見ると、その認識論的状態である同種のウルトラ貢献はこれと等価です。12年前のジョー・Hの決定理論を見ると、これは「専門家がイベントの確率について意見が分かれることがあるようなので、それらの意見の不一致を解決せずに、未知のままにしておく決定理論を持つにはどうすればよいか」という動機から出発していますが、これも等価であることが分かります。
2013年のポール・クリスティアーノの「真理の定義可能性」に関する論文は、反射的整合性から動機付けられていますが、これもこの特殊なケースであることが分かります。経済学の論文、プログラミング言語理論、純粋圏論的なアプローチもあります。
そこでは、「これらのモナドは可換ではないけれど、可換であるべきだ。分配則の概念をどのように弱めれば、確率と非決定性がどのように最も近くまでほぼ可換になるかを理解できるだろうか」と考え、そしてこれを見出しました。
私は、これが人類の不確実性下での意思決定の理解における次のステップとして、比較的標準的なものだと考えています。これは私たちがここで行っていることの大きな部分です。
また一般的に、ベイズ的信念状態を持っているなら、すでに仮定しすぎています。事前分布だけでも、すべての可能な仮説に対して正確な事前確率を与えているのです。人々は常に「事前分布をどこから得たのか？」と尋ねます。それは尋ねてはいけないことになっています。「ベイジアンに事前分布の出所を尋ねるな、女性に年齢を尋ねるな」といった具合です。
私はその批判が実際に正しいと思います。数学が次のステップを発見するのに時間がかかっただけです。これは私たちが推進しようとしている大きな部分です。
とても興味深いですね。これは科学でときどき起こることのように思えます。異なるアプローチが同じ解に収束することを発見するのですが、新しいパラダイムがまだ完全に開発されておらず、使用可能になっていないことがあります。
そのため、しばらくの間、あるいは私たちが扱う領域の一部で、ベイズ的であり続ける必要があるかもしれません。同意されますか？それとも、ベイズ的でない新しい決定理論を持てるほど、より進んでいると考えていますか？
理論はかなり近いと思います。1年以内に理論を確立し、その後2年ほどで実装を完成させることを望んでいます。まだ使用可能な実装はありませんが、そう遠くないと考えています。
このアプローチは、プログラム全体が機能するために、セーフガードAIにとって重要になるのでしょうか？より高度な形の決定理論を開発することに成功する必要があるのでしょうか？
プログラムの残りの部分を実行し、安全性仕様にベイズ的事前分布の仮定を要求することは、依然として現状のAI安全性よりも良いと思います。この重要な期間においては。
しかし、ベイズ的な仮定を必要とすることで、安全性の利点の大部分が損なわれると感じるでしょう。なぜなら、あなたが仮定する分布と現実の間には常にギャップがあり、ニー不確実性を使用して不可知論的にそのギャップをカバーできない場合、ボックス内のシステムがそのギャップを利用する可能性があり、それは大きな問題となる可能性があるからです。
OpenAI、DeepMind、Anthropicのような大手AGI企業の一つだとして、セーフガードAIのようなスタックの実装を試みるべきかを考える場合、それに関連するコストは何でしょうか？例えば、モデルの学習に時間がかかるようになったり、モデルの実行時にコンピュータに負荷がかかったりするのでしょうか？
おそらく最大のコストは、これが非常に異なるパラダイムだということです。機械学習のパラダイム、つまりトランスフォーマーなどの代替ではありませんが、ビジネスモデルのパラダイムが異なります。
ウェブ上で提供する単一の製品を持つのではなく、多くのユーザーインターフェースツールや制度設計、そして積み重なった多くの異なる形式的検証システムが本当に必要です。AIシステムの周りに製品を作成する方法が非常に異なります。
AIシステム自体については、事前学習はそれほど異ならない、あるいは異なる必要がないだろうと予想しています。事後学習は異なりますが、おそらく事後学習の方がコスト効果が高いでしょう。もし私が正しく、このパラダイムが機能するなら、おそらく実世界の問題に結合された形式的検証器と対話することで、憲法に従ったかどうかを判断しようとする別の大規模言語モデルと対話するよりも、ボックス内でより多くの能力を得られるでしょう。
なぜそうなのか説明していただけますか？ある意味で夢のシナリオのように聞こえます。安全性を能力に結びつけ、安全性なしには能力も得られないように、インセンティブを整合させることができるのであれば。
実際には、聞こえるほど良いものではありません。それが、セーフガードAIプログラムの機械学習部分を開発するために、前例のないガバナンスの堅牢性を持つ組織を探している理由の一つです。
しかし、ここで強力な能力が得られる可能性があると考える理由は、2024年の間に見られた進歩に関連しています。事前学習で使用される非合成データがその限界、つまりピークデータ、ピークトークンに達したため、より多くの進歩が数学とコーディングで見られました。
テストがいわゆるシミュレーション、つまりサイバースペースで行えるからです。これらのフィードバック源は計算能力とともにスケールしますが、人間のフィードバックや創造的な文章、哲学に関するフィードバックは計算能力とともにスケールしません。
実際、現時点では電気工学や機械工学に関するフィードバックも計算能力とともにスケールしませんが、セーフガードAIツールがあれば、スケールするでしょう。
つまり、私が聞いているのは、現在、機械工学は例えば創造的な文章や哲学に近いものですが、私たちが試みているのは、それを数学のようなものに近づけることですね。
その通りです。
組織とのパートナーシップについて触れられましたが、セーフガードAIスタックの実装を試みる可能性のある組織との連携はどのようなものになるのでしょうか？あなたやARAはどのような役割を果たし、そのようなパートナーシップはどのように機能するのでしょうか？
良い質問です。ARAは常に助成金を出す組織なので、私たちが提案しているのは、1,800万ポンドの助成金を単一の組織に対して出すことです。これは技術分野2のために確保されている金額です。
プロセスは大まかに言えば、現在は関心表明を募集しているところです。これは基本的に、名前と興味を持っている理由について最大数百語程度の説明です。十分な関心があると確信できた時点で、第1フェーズの正式な提案募集に移行します。
提案は簡潔なもので、成功した場合、3〜4件を選んで数ヶ月かけて完全な提案を作成するための資金を提供します。ガバナンスメカニズムの設計には時間がかかるため、一つの賭けだけでなく、可能であれば複数の賭けを行い、これがどのような形になるべきかを並行して検討したいと考えています。
私たちは答えを規定するのではなく、質問を投げかけます。「あなたの法的構造は何か」「定款は何か」「安全性が重要な決定を行う構造の一部である人々のインセンティブが、社会全体に対する正と負の外部性の両方を十分に考慮することを、なぜ期待できるのか」といった質問です。
そして、特定の具体的な法的構造と意思決定構造が、このような望ましい性質を満たすという主張の理由を求めています。これらの質問に対する良い答えが得られれば、新しい組織、あるいは既存の組織の関連組織として新しく作られた組織に、1,800万ポンドの非希薄化研究助成金を提供します。
ただし、既存の法的・意思決定構造を持つ英国の既存組織が、私たちが設定している基準を満たすとは期待していません。したがって、おそらく何らかの形で新しい組織になるでしょう。
その新しい組織に1,800万ポンドを助成し、契約はセーフガードAIプログラムの一部である機械学習研究を行うというものになります。その組織は同時に他の目標を追求することもでき、他の資金源から資金を調達することもできます。これは排他的なものではありません。パートナーシップとさえ考えていません。単なる資金提供です。セーフガードAIが機能するために必要な能力開発を、より堅固に有益な形で行うことを支援したいだけです。
あなたが求めているような制度や法的枠組みを、誰かが設計できると楽観的に考えていますか？法制度は形式的に定義されているわけではないので、ある意味で実装は、あなたのプログラムの技術的な側面よりも曖昧なものに依存することになります。これについてどの程度楽観的ですか？
適度に楽観的です。実際、過去10年間でフロンティアAIラボの組織ガバナンス構造は大きく進歩してきました。基本的に、さらなる改善、さらなる進歩の余地があると考えています。
セーフガードAIの実装により、AIシステムが自律的に行動することを防ぐ、あるいは経済的実行可能性を損なうような特定の方法で制限することになると考えていますか？
私たちが考えている主な応用は、非常に特定のドメインにおける自律エージェントです。例えば、モノクローナル抗体を作る自律エージェントは、他のことは何もしません。そのため、自律性に関する区別ではなく、一般性に関する区別だと言えます。
おそらく統合の容易さについても言えます。セーフガードAIでは、リモートワーカーのドロップイン代替を作ることはできないでしょう。これは制限です。私は、経済的に価値のある仕事の中で、セーフガードAIでそれらの問題を解決するために十分詳細に定義できる、あるいは定義する価値のある仕事は少数派だと考えています。
したがって、主張する必要があるのは、「チャットボットを停止してセーフガードAIに完全に移行せよ」ということではなく、むしろ、ある能力レベルを超えると、チャットボットとして展開することは単に意味をなさなくなるということです。
現在、責任あるスケーリングポリシーや重要な能力に関するフロンティア安全性フレームワーク、そしてAI安全性サミットシリーズの一環として企業が行ったフロンティアAI安全性コミットメントと一般的に呼ばれているものの多くは、「自律的なサイバー攻撃や自律的なR&D、説得が可能なこの重要なレベルでは、どのような緩和策を適用すべきか分からない。そのため、これらの評価で高いリスクレベルが出た場合は停止する」と基本的に述べています。
実際にその時点で停止するかどうかは疑問かもしれませんが、私が提供しているのは、彼らが行うと主張していることに対する経済的な改善です。単に停止するのではなく、「分かった、非常に強力なボックスに入れ、形式的に検証可能な問題にのみ使用して、定量的な安全性保証が得られる特定のドメインで自律エージェントを生成する」と言うのです。
意思決定者が完全に停止するか、より安全に進めることで利益の一部を得るかという選択を迫られるシナリオでは、セーフガードAIのような製品やビジョンへの需要が高まると予想するのが合理的だと思います。
最初から、このような状況全体のゲーム理論について考えておられたようですね。これはしばしば欠けている部分だと思います。理論的には素晴らしく、理論的に美しいものかもしれませんが、現実世界の重要な意思決定者のインセンティブと整合していなければ、それほど有用ではないかもしれません。これは賞賛に値することだと思います。
これがどのように発展すると予想されますか？政治的な雰囲気や時代精神がどのように変化すれば、セーフガードAIのようなものへの関心が高まると思いますか？
良い質問です。大まかに言えば、破滅的リスクの可能性に対する認識の認識が高まる必要があります。認識の認識を重視する理由ですか？
ゲーム理論的な均衡分析では、賭け金が共通知識であることはほぼ古典的なゲーム理論の仮定だと言えます。賭け金が共通知識でない場合、相手が同じゲームをプレイしていることを知っているという確信を持つのは非常に難しくなります。
AIの場合を具体的に説明すると、相手がリスクを認識していることを確信できない場合、相手は囚人のジレンマだと思い込んでいるため、利点を得ようと突き進むと想定するでしょう。また、相手が、あなたが囚人のジレンマではないことを理解していると確信していないことを、相手が確信していない場合、相手はあなたが先手を打とうとすると考えるでしょう。
ユドコウスキーの法則が言うように、メタレベルは実際には3段階までしかありませんが、私は、「我々は皆これを真剣に受け止めている」ということを、現実世界で共通知識として持つ必要があると考えています。
この共通知識は、フロンティアラボのリーダー間では存在しています。しかし、フロンティアラボの全ての重要な意思決定者の間では存在せず、政府の全ての重要な意思決定者の間では確実に存在していません。
これが大きな問題です。新しい科学的証拠が出てくる可能性もあります。これが理想的なケースで、不整合の「モデル生物」のような、危険ではない規模でその危険の形を示すようなデモンストレーションがあれば、非常に説得力があるかもしれません。
それは説得力があると思います。しかし、それは私にとって機能獲得研究に関連した含意を持ちます。防ぎたい危険を示すことで人類が自らを害することになるというのは、非常に皮肉なことになるでしょう。
これは安全に実施できると思いますか?それが興味深い問いだと思います。
そうですね、形式的に検証された封じ込めシステムがこれに役立つと考えています。現在の人々がサイバー攻撃評価をDockerコンテナやVM、仮想ネットワーク上でクラウドで実施している方法については、少し不安を感じます。例えばClaude o1プレビューがそのような封じ込めの層の1つを完全に予期せず突破したとき、「他に2層あって良かった」と皆が言いましたが、それは少し心配です。
封じ込めの層の1つがseL4のような形式的に検証されたものであれば良いと思います。seL4は10年間エクスプロイト可能なバグが発見されていません。seL4クラスタでAIシステムを実行できるようにNVIDIAドライバを用意すべきだというのは、具体的な方向性だと思います。私も何人かと話をしていますが、これは私のプログラムの範囲外であり、まだ取り組まれていない方向性です。
しかし、テストを安全に実施する方法はあると思います。まだ完全ではありませんが、必要なツールは存在します。サイバーセキュリティ研究者が国家レベルのマルウェアを安全に扱って分析できるのと同じように、非常に高度な注意深さが必要ですが、それはまだAIリスク評価には適用されていません。しかし、遅すぎる前には適用されるでしょう。
そして、重要な意思決定者に対して、システムが危険な何かをできることを示しつつも、そのシステムを封じ込めて実際の害を及ぼさないようにしたという結果を提示するというのが、良いアイデアだと思います。
ここで、フレキシブルなハードウェア対応の保証について話してみましょう。まずは基本的な意味から説明していただけますか?
これは、AIの開発経路を制限する合意を競合他社が遵守していることをどのように確認できるかという保証のジレンマを解決するための、ハードウェア対応のメカニズムの一形態です。例えば、10のN乗フロップスを超える学習は行わないという最大制限を設定することもできます。また、フロップス数に応じて学習を階層化し、各レベルでより集中的な能力評価を実施し、能力に応じて階層化するということもできます。そして、緩和策を実証する必要があり、緩和策の強度も階層化されています。
これらの緩和策は、リスク閾値に沿ったものである必要があります。つまり、最上位レベルでは1000人以上の死者を出すような事態が発生する確率が極めて低いという、安全性に関する議論がなければなりません。
フレキシブルなハードウェア対応のガバナンスを目指す理由は、まだ私たちには分かっていないことが多く、社会や政府もこれらの合意の形についての長期的な決定を下す段階にないからです。それは後で決めることになります。
科学的な知見がまだ十分でないため、どのようなルールを設定すべきか決められないという意見がありますが、それには一理あります。詳細を決定するには、まだ十分な知見がありません。
ここで私が目指しているのは、ハードウェアの開発です。ハードウェアには長いリードタイムが必要なため、AIに関する国際的な合意を結ぶ時期ではなくても、ハードウェアプラットフォームの開発は今から始める必要があると考えています。このプラットフォームは、ハードウェアが構築された何年も後に合意される内容について、どのようなものであっても保証を提供できるものでなければなりません。
何を保証したいのかという仕様がない状態で、これは非常に難しい問題のように思えます。どのように進捗を測定しているのでしょうか?
素晴らしいことに、ここで保証しようとしているのはコンピューティングに関することで、コンピューティングは普遍的です。この質問に答える一つの方法は、ポリシーを実行し、コードの実行を許可するかどうかを決定する共同プロセッサを持つということです。そして、そのコプロセッサは多国間の意思決定プロセスに従って更新することができます。
これは基本的な答えですが、化学兵器や核物質に関する以前の保証のジレンマとは、良い面でも悪い面でも大きく異なります。計算は明確な物理的痕跡や署名を残さないという点で、それらよりも不利です。もちろん一定量のエネルギーを消費しますが、多くのものが大量のエネルギーを消費するため、それは特に識別力のある痕跡とはなりません。
また、同じハードウェア上で実行される2つの異なる計算、例えば学習と推論を区別するのにも役立ちません。しかし、逆に、そしてより重要なことに、コンピューティングを統治しようとすることの有利な点は、コンピューティング自体がガバナンスを行うようプログラムできることです。
現在のハードウェアでは一定の調整が必要ですが、例えば1kgのウランを、核兵器に組み込むことを拒否し、平和目的でのみ使用されるように設定することは考えられません。しかし、改ざんを検知してシャットダウンし、用途を分析し、暗号による検証を行い、システムの他の部分と連携してクラスタ全体がルールに従って使用されていることを確認するためのハードウェアを備えたコンピューティングシステムがあれば、物理的な抜き打ち検査やサプライチェーン、地理的な追跡に依存する従来のアプローチよりもはるかに多くのことができます。
実際、すべてのコンピュータがどこで使用されているかを地理的に追跡したり、監視・モニタリングしたりする必要はないと考えています。中央集権的な検証のために使用できるハードウェアの監視システムに依存するガバナンスシステムには深刻な欠点があります。
米国では特に、個人の自由の観点から反対があるでしょう。国際的には、主権の観点から各国が反対するでしょう。そのため、完全にプライバシーを保護し、ある程度の自由も保護するコンピュートガバナンスの技術的オプションを提供しようとしています。
例えば、計算が小規模すぎてAIによる壊滅的なリスクがない場合など、多国間のガバナンス機関が何を決定しようと、特定の種類の計算は実行できるようにする必要があります。デバイスを完全にリモートで無効化したり、ルールを恣意的に制限的に変更したりする方法はあってはなりませんが、大規模な計算についてはある程度ルールを変更できる方法があるべきです。そして、どのような種類のリスクがどのような規模で発生するのか、それらをどのように評価し緩和するのかについて、より多くを学ぶにつれて適応していく必要があります。
プライバシーと自由を保護する方法について、もう少し詳しく説明していただけますか?また、すべての先進的なAIがどこにあるのか、大規模な学習に使用されているかどうかを追跡する必要がないということについても、もう少し詳しく説明していただけますか?
基本的な原則は、何が起きているのかを把握し、ルールのセットに準拠しているかどうかを判断し、そうでない場合は何かを行って阻止するというループ全体が、デバイス内で実行できるということです。そして、物理的な所有者による改ざんと、時間とともに調整を行う意思決定プロセスによる悪用の両方に耐性のある方法で実行できます。
これが基本的な答えです。何かが安全かどうか、あるいは安全性の原則に準拠しているかどうかを判断するために使用される情報は、デバイスが意図した機能を果たすことについて、所有者と世界全体の両方から信頼されている場合、デバイスから出る必要はありません。
フレキシブルなハードウェア対応のガバナンスで防ぐことができるものは何でしょうか?例えば、システム内の特定の機能を防ぐことはできるのでしょうか?
ポリシーに評価を組み込んで、特定の閾値を超えた場合、10の20乗フロップスの学習を行うごとに一連の評価を実行する必要があり、その評価スイートで問題が見つかった場合は一時停止する必要がある、といったことは可能です。評価が懸念される場合や、ポリシーが高リスクだと判断した場合の対処方法には、様々な方法があります。
最も極端な場合は、これらの重みを削除して最初からやり直す必要があると言うことです。最も緩やかな場合は、重みを暗号化して、フレキシブルなハードウェア対応の保証を持つハードウェアでのみ実行でき、速度制限付きで実行する必要があると言うことです。例えば、1秒あたり70トークンでしか推論できないといった制限です。それが最も緩やかな種類の制限となります。
その間にも様々なスペクトルがあり、実際には、私が思いつかなかったようなことも多く実装できることを期待しています。なぜなら、ルールを決定するための汎用的なコンピューティングシステムを実装しているだけだからです。
システムが危険な方法で振る舞っているかどうかを判断するための様々な代理指標について、どう考えていますか?評価やテストスイートで特定の機能やシステム内で発生するイベントをテストすることを言及されましたが、それらは完璧ではありません。評価スイートで何かを捉えようとしていますが、それは目指すものの代理指標に過ぎません。
学習実行で使用される総計算量についても同じことが言えます。これも、システム内の危害や危険を実際に目指しているものの代理指標です。私たちが防ごうとしているものを測定する能力は、どの程度限界となっているのでしょうか?
それについてはいくつかの点があります。まず、能力評価と、一部の人々が傾向評価や緩和評価、保護評価と呼ぶものを区別することが重要です。後者は、システムが実際に危険な能力を発揮するのを防ぐために、学習後の調整を行い、潜在的な能力を引き出す方法がまだ存在するかどうかを判断しようとするものです。
両者とも完璧ではありませんが、事前学習のみを行っている場合、つまり自己回帰的な学習のみを行い、能力が存在するかどうかを判断したい場合は、学習後の調整を行って簡単な方法では能力を引き出せないようにした後で、能力を引き出す方法があるかどうかを判断するよりもはるかに簡単です。
「申し訳ありませんが、それはお手伝いできません」と言うように、すべての単純な方法が機能しなくなった後で、ジェイルブレイクを発見するのは少し難しいのです。自動化された赤チーム評価には大きな期待があり、非常に賢い別のAIシステムを使用して、危険な能力をまだ発揮させる接頭辞を探すことができます。
しかし、確かに標準的な評価の概念、つまり質問を入力してその答えが懸念されるかどうかをチェックするという考え方は、緩和評価には機能しません。それは非常に簡単にゲーム化されてしまいます。しかし、能力評価については、学習が自己回帰的なプロセスに従い、その目的関数が基本的にクロスエントロピーである場合、能力評価をゲーム化するのはそれほど簡単ではありません。
そして、音響性と偽陽性・偽陰性のトレードオフの調整に関する重要な点があります。計算量の閾値は能力の不完全な代理指標ですが、特定の能力が特定の計算規模で確実に発生すると予測できなくても、10の20乗フロップスの自己回帰的な計算では破滅的な能力は生まれないと確信を持つことはできます。そのため、懸念されるべき限界を超えているものの、実際には懸念のないシステムが多数出てくるという偽陽性は多くなりますが、偽陰性は非常に少なくなるように調整することができます。
そして、このような層を多く重ねていくべきだと考えています。計算量の閾値を超えたということは、今度は能力評価を行う必要があるということを意味します。能力の閾値を超えた場合は、自動化された赤チーム評価を行う必要があります。赤チーム評価で何か見つかった場合は、別の緩和アプローチを考え出す必要があります。例えば、極端な場合は保護されたAIを使用して、能力を完全に封じ込め、要求された作業のみを実行させることもできます。
このようなハードウェアガバナンスについて考える動機は何でしょうか?以前、安全なシステムを構築するために必要な研究を行う時間を稼ぐことに興味があるとおっしゃっていました。このハードウェアガバナンスのアプローチは、安全研究のための時間稼ぎなのでしょうか?
私は通常、時間稼ぎという観点では考えません。ゲーム理論的な安定性、つまり全員がより安全な戦略に従うパレート最適なナッシュ均衡を安定化させるという観点で考えています。より安全な戦略は、「n年間停止して、n年後に安全性に関する進展があることを期待する」というような単純なものではありません。それはあまり洗練された戦略ではありません。
戦略はむしろ、「今後n年間は、適切なレベルの安全性なしにシステムを展開することはない。そしてn年後に、バランスを再評価する」というようなものであるべきです。つまり、特定の期間、特定の戦略的方向性を安定化させることが重要であり、将来のある日まで何かを一時停止するということではありません。
このアプローチは、NVIDIA、TSMC、ASMLなど、チップのサプライチェーンにおける主要なプレイヤーからの協力を必要としますか?
フレキシブルなハードウェア対応の保証は、世界で利用可能なフロンティアな学習用コンピュートのほとんどにこの保証が組み込まれていると合理的に想定できる限りにおいて、ゲーム理論的な安定性に役立ちます。
現在の状況において幸運なことに、フロンティアなAIコンピュートの生産には大きなボトルネックがあり、フロンティアなコンピュートがすべて保証付きで製造されているという確信を得ることが可能です。この保証を得るために介入できる場所は多くありますが、長期的には、AIに関する合意の一部として、合意の各当事者が世界中のすべてのデータセンターの場所を知り、査察チームを派遣できる必要があると考える人々がいるように、同様のことが必要です。
私は、プライバシーの保護と、世界中のコンピュートの場所を知る必要性を排除することについて多く話をしますが、それでも世界中のフロンティアなコンピュート製造施設の場所を知り、それらを査察して、ハードウェア対応の保証を欠いたコンピュートを製造していないことを確認できる必要があります。
フレキシブルなハードウェア対応の保証について、まだカバーしていない重要な点はありますか?
必要なサブシステムについてもう少し説明させてください。コードが現在のルールセットを満たしているかどうかを実際に評価する安全なコードプロセッサについて話しましたが、ルールセットを更新するプロセスも必要です。これは、スマートコントラクトに非常によく似ていると考えています。
ルールを更新するには、一定数のステークホルダーが合意に達する必要があります。現在のルールセットは時間とともに変更することもでき、壁時計の時間に依存することもできます。また、スマートコントラクトと同様に、次のルールセットに対する制限もあります。新しいバージョンのルールを提案する場合、それが有効な更新とされるためのメタルールがあります。
物理的な改ざん検知に関する部分もあります。これはハードウェア業界で15〜20年前に放棄されたと思います。90年代から2000年代初頭には改ざん検知に関心がありましたが、結局「常に何らかの抜け道がある」と言われるようになりました。
純粋なサイバーセキュリティや形式的検証とは大きく異なると考えています。物理的な改ざん検知に悪用可能なバグがないと100%確信することは非常に難しいと思いますが、前回真剣に検討された時期と比べて、現在はそれをはるかに有利にする技術がいくつかあります。
特に、6Gが視野に入ってきているため、セルラー通信のために、金属のミリメートル単位の摂動に非常に敏感な無線機を持っています。そのため、サーバーの金属ケースに侵入がないかどうかを、レーダーのように内部からセンシングすることができます。
また、スマートフォンのおかげで、カメラも非常に安価になりました。内部にたくさんのカメラを設置し、小さなAIチップで視覚的な異常を監視することができます。熱センサーや加速度センサーなども利用できます。
ボックスに侵入して改ざんを行うために実行可能なすべての物理的な攻撃を列挙し、改ざん検知メカニズム自体を無効化する前にそれらすべてを検知できるようにすることができると思います。
また、改ざんへの応答メカニズムがAIチップ、アクセラレータに組み込まれています。数百万の小さなナノスケールのヒューズがあり、すべてが正常であることを示す改ざん検知システムからの信号が途絶えると、局所的なコンデンサに蓄えられた電荷によってすべてのヒューズが焼き切れます。そしてそれらのヒューズがなくなると、チップは使用できなくなり、実行できなくなります。
原則的には、すべてのヒューズを修理することは可能ですが、それには数億ドルの費用がかかります。そして、チップの上下を物理的に複製不可能な関数で挟むことで、すべてのヒューズを修理して元通りに戻そうとしても、暗号的に完全性を証明できず、同じ秘密鍵を持つことができないようにすることができます。
これは、さらなるR&Dを必要とする別のサブシステムです。これらの技術は、厳密に言えば投機的ではありませんが、私が提案しているような形でまとめて使用されたことはありません。そのため、詳しく検討する必要のあるシステム統合の側面があります。
しかし、それぞれの分野で非常に高度なスキルを持つ20人ほどのエンジニアが12〜18ヶ月かけて取り組めば実現できると考えています。これは研究の問題というよりも、エンジニアリングやシステム統合の問題だと思います。
総計算量が制限要因ではなくなるような形で、高度なAIの開発方法は変化すると思いますか?例えば、高度なシステムは推論時の計算をより活用し、その方法でよりスマートになるかもしれません。また、同じレベルの能力をより低性能なハードウェアや少ない計算量で得られるよう、アルゴリズムが改善されるかもしれません。ここでの懸念は、当然、そのような世界ではハードウェアガバナンスやコンピュートガバナンスが関連性を失うということです。
これについてはいくつかの点があります。1つは、推論時の計算パラダイムは、非常に大規模な事前学習の後に有用になると考えています。10の35乗フロップスの事前学習が行われると予想する必要はありません。なぜなら、それらの桁の効果的な計算の多くは、代わりに推論時に行われると予想されるからです。
しかし、例えばLlama 2を使って推論時の計算で破滅的な危険を引き起こすような方法があると予想すべきではないとも思います。そのため、ハードウェアガバナンスを考える際には、大規模な学習の規模を制限するだけでなく、中規模の学習でも、重みを暗号化し、推論もフレキシブルなハードウェア対応の保証を持つチップで行うことを要求し、推論時のガバナンスと速度制限を設けることを考える必要があります。
LLMのトークンとは異なる意味でのトークンシステム、つまり暗号通貨のトークンのようなものを持つこともできます。タクシーのメダリオンのように、大規模なモデルを推論するにはこれらのメダリオンの1つをシステムに持っている必要があり、世界中のメダリオンの数が十分に少ないため、ある人々が言うような「100億人の天才の国」にはならないようにできます。「5万人の天才の国」なら対処できるかもしれませんが、単位時間あたりの推論時の計算量には何らかの制限が必要です。
アルゴリズムについてはどうでしょうか?計算が制限要因ではなくなるほど、効率が改善されると予想されますか?
これについての私の考えは、人間の脳と、進化が知能を構築するために使用できる材料や、空間パターンの信頼性、エネルギーの分配方法などの面で制限されてきたという仮定に基づいています。はい、脳は物理的に最適ではない面が多くありますが、アルゴリズムについては、進化が設計空間にアクセスする能力はほとんど制約されていません。
そして、脳は子供時代の過程で10の25乗から10の26乗フロップス程度の計算を行っています。そのため、アルゴリズムの改善によって、それより数桁効率が上がる余地はそれほどないのではないかと推測しています。
これが、私が他の人々よりもコンピュートガバナンスに楽観的な理由の1つです。確かに、アルゴリズムの進歩は起こっており、今も続いていますが、その進歩のベクトルはまもなく飽和するでしょう。一方で、事前学習の規模を拡大し、また事前学習の閾値を超えると推論を拡大するというベクトルが、能力向上の主要なベクトルになるでしょう。
進化したシステムが最適に近いというのは、もっともらしいでしょうか?通常、エンジニアリングされたシステムのほうがほぼ常に優れていると考えますが、進化したシステムが最適に近い例は他にありますか?例えば、歩行時のエネルギー消費や脳のエネルギー消費など、何か例はありますか?
はい、例えば光子を情報に変換する目の効率を見ると、物理的にほぼ最適です。光合成を見ても同じです。鳥が地球の磁場に方向を合わせる方法は、長い間、その感度レベルは物理的に不可能だと思われていたため、神話に違いないと信じられていました。結局、それは量子センシングであることが判明し、可能ではありますが、非常に最適に近いものでした。
待ってください、それは本当ですか?鳥と量子的なものを組み合わせると、面白い陰謀論のように聞こえます。
いいえ、これは人々が混乱する部分だと思います。なぜなら、脳が量子コンピューティングを行っていて、それによって意識が生まれるという仮説があるからです。これは明らかに馬鹿げています。コヒーレンス時間について考えれば、体温でのあらゆる量子コヒーレンスは1ミリ秒以内に崩壊するので、明らかに5ミリ秒以上かかる意識の瞬間が量子コヒーレントであるはずがありません。
しかし、センシングは完全に1ミリ秒以内に起こりうるのです。神経系は量子コンピューティングができないという非常に明確な第一原理の議論があると言う人々は混乱していると思います。いいえ、量子コンピューティングはできませんが、量子センシングは全く異なります。
実際、これは技術についても同じだと思います。量子センシング技術は、量子コンピューティング技術よりもはるかに実り多く、はるかに重要になると考えています。同様の理由で、そんなに長時間コヒーレンスを維持する必要がないからです。
製品としての量子センシングの例は何かありますか?
それについてはあまり考えたことがありませんが、磁場のための量子ホール効果センサーや、医療イメージングや天文学のための光検出器の量子効率の改善などが考えられます。
面白いですね。安全なAIとフレキシブルなハードウェア対応の保証について、今後10年間でこれら2つの研究の方向性やプログラムを考えた場合、成功とはどのようなものでしょうか?また、どのような課題が予想されますか?
安全なAIプログラム自体の成功は、基本的に主要な意思決定者に対して、安全なAIが破滅的なリスクなしに先進的なAIから経済的・安全保障上の利益を引き出すための実行可能な戦略であると納得させることです。
ほとんどのARAプログラムと同様に、可能性の限界を押し広げ、何が実現可能かについての議論を変えることが重要です。それは、能力レベルの様々な次元においてある範囲内のシステムに対して、安全なAIが安全なオプションの1つとして一般的に認識される合意として具体化されることを期待しています。
フレキシブルなハードウェア対応のガバナンスの成功例は、まず10年後には世界のほとんどのコンピュートがフレックスヘグ対応になることです。そして第二に、時間とともにルールを改良・調整するための合理的で、一般的に正当と認められるガバナンスプロセスが存在することです。
世界のほとんどのハードウェアをフレックスヘグ対応にする上での主な課題は何でしょうか?
主な課題は、少数の主要なプレイヤーしか存在せず、特定の主要プレイヤーの間での様々な定足数が、少なくとも今後数年間はそれを実現するのに十分だということです。しかし、それが可能だと人々を納得させることが主な課題だと思います。現在、多くの人々はフレックスヘグは不可能だと考えています。改ざん検知ができないか、クラスタ規模の特性の暗号的検証ができないからだと考えています。
2番目の点については非常に確信を持っており、それは単なるエンジニアリングの問題です。改ざん検知については、より疑問が残ります。正直なところ、1〜2年後に、国立研究所のハッカーによる数々の試みの後で、実際には国家レベルの改ざん耐性は実現できないと確信するかもしれません。しかし、それが主な課題です。国家レベルの改ざん耐性を実現し、それが可能だと人々を納得させることです。
ハードウェアガバナンスに反対する可能性のある企業について心配していますか?例えばMetaなど、実際にそうだとは言いませんが、ハードウェアガバナンスに反対する可能性があり、独自のチップを社内で開発してサプライチェーンを垂直統合し、競争上の優位性を得るかもしれないと想像できる企業はありますか?
それは非常に、非常に高額です。今後5〜10年間、代替的なサプライチェーンを開発することは、誰にとっても実行可能なオプションではないと思います。また、既存のサプライチェーンや技術基盤へのアクセスと引き換えに、フレックススタイルの制限を受け入れることは、価値のある取引になると考えています。
これは、すべてのものがどこにあるのか、その上で実行されているすべての計算を監視するような、より強圧的なハードウェアガバナンスアプローチの場合には、必ずしもそうとは限りません。私がMetaに対して言いたいのは、ある時点で、フロンティアモデルが十分な能力を持つようになり、暗号化されていない重みを利用可能にすることが無責任であることは誰の目にも明らかになるということです。
しかし、個人が独自の言語モデルを実行してプライバシーを確保し、ある程度システムをコントロールできること、微調整や言語のカスタマイズができることが重要だというご指摘は全くその通りです。では、どうすれば両方の良いところを取り入れることができるでしょうか?
それは、プロセッサ上に安全なエンクレーブを持ち、モデルを無料で配布できるものの、暗号化された形でのみ配布され、フレックス対応チップでのみ実行でき、取り除くことのできない組み込みの保護機能を持ちながらも、完全なプライバシーとある程度のカスタマイズが可能な形で実行できるようなものです。
素晴らしいですね。これで最近の仕事についての会話は終わりだと思います。ここで、あなたが過去に行った他の仕事やライフストーリーについても、興味深い点が多くありますので、お話を伺えればと思います。
10年ほど前に脳のアップロードに関する研究をされていましたね。それは興味のある分野でした。脳のアップロードや、そのアプローチが機能する可能性についての見方は、どのように進化してきましたか?
これはずいぶん昔の話で、ARAと関わる前のことです。現在の仕事とは全く別のものですが、2010年から2013年頃、私にはAIが行き詰まっているように見えた時期がありました。
ディープラーニングが機能するということについて、少し気づくのが遅かったのです。2010年に、非常に早い段階で、ディープラーニングは非常に有望で、おそらく機能するだろうと言った人がいましたが、私はそれを却下してしまいました。そこで間違いを犯しました。
気づくのに数年かかりました。2012年には気づくべきだったのに、2013年になってようやく気づきました。もっとも、2013年でもディープラーニングが離陸したことに気づくのは相当早い方です。2010年に気づいていれば、伝説的に早かったでしょう。
その当時、デノボAGI(完全に新しい人工知能)に向けた有望な道筋が基本的に存在しないように思えました。しかし、それはオプトジェネティクスが離陸し始めた時期でもありました。これは、生物学的なニューロンに遺伝子工学を施して、活性レベルに応じて文字通り光を、蛍光を発するようにし、また光を受け取ってスパイク列に変換するようにコントロールできる技術です。
そこで、完全に人工的なものではなく、生物学的な神経ネットワークの非常に忠実なエミュレーション、特定の生物学的な神経ネットワークのエミュレーションによって機械知能を開発する新しい可能性が見えてきました。これが、マインドアップローディングの定義の仕方だと思います。
私は、科学的に知られている最も単純な神経系である線虫のC.エレガンスについて研究を行いました。体全体でちょうど302個のニューロンを持っています。変異がない限り、正確に302個です。非常にステレオタイプ的ですが、それでも少し学習することができ、特定の匂い、例えばメタンや二酸化炭素に対して嫌悪感を持つように学習することができます。
また、幼虫期（子供時代のような時期）に、ある匂いを食べ物と同時に検知していた場合、その匂いがその環境で食べ物を示すという関連付けを学習し、成虫期にはその匂いの源に向かって移動するように引き付けられるようになります。
これについて、実際の幼虫を訓練して特定の匂いに引き付けられるようにし、成虫期に、すべてのニューロンをオプトジェネティクスで様々なランダムなパターンで刺激し、それが他のすべてのニューロンにどのような影響を与えるかを観察し、すべてのニューロン間の結合係数のモデルを常微分方程式として構築し、それをソフトマター物理学を使用して、シミュレートされた体に接続したシミュレーションで実行し、その仮想環境でその特定の匂い物質に引き付けられる行動を示すことを実証できると考えました。
何が起こったかというと、オプトジェネティクスは基本的に機能していましたが、完全には成熟していませんでした。細胞の中心にインジケータを局在化させるのが難しかったのです。実際のシステムでは、ニューロン同士が非常に密接に詰まっており、隣接するニューロン間にはほとんど、あるいはまったく隙間がありません。そのため、画像処理の問題がありました。
当時、私がディープラーニングに懐疑的だったのは非常に皮肉です。なぜなら、この画像処理の問題は、当時でもディープラーニングで解決できた可能性があったからです。当時、私はベイズ推論でアプローチしようとしましたが、それは機能しませんでした。あるいは、リアルタイムでは機能しなかったのです。
私が計画していたことを本当に実行するには、リアルタイムでシステムの状態を推論する必要がありました。そうすることで、クローズドループで自動化された実験設計を行うことができたからです。当時のオプトジェネティクスは非常に感度が低く、非常に強力なレーザーを使用する必要があり、約1時間のレーザー照射の後には、かなりダメージを受けていました。
そのため、神経ネットワークから健康な行動の読み取りを得られる時間はそれほど多くありません。そのため、すべての刺激の情報効率を最適化するために、本当にクローズドループの自動化された実験設計が必要でした。そして、その画像処理と分析をリアルタイムで行うコンピューティング側は機能しませんでした。
しかし、面白いことに、2011年に一緒に研究をしていた人が、「ライトシート顕微鏡から得られるこのぼやけた画像を解釈するのは難しすぎるだろうが、10年後にはスピニングディスク共焦点顕微鏡でカメラ技術が進歩すれば、通常のコンピュータビジョン技術で細胞を区分できるほどクリアな画像が得られるはずだ」と言いました。
彼は全くその通りで、2022年にアンディ・ライファーが、2022年に存在する進歩したカメラでスピニングディスクを使用し、すべてのニューロン間、というかすべてのニューロンというわけではなく、302個のニューロンのうち250個のニューロン間の係数を測定してカタログ化するというプロセスを実行しました。
私が提案したことはまだ完全には完了していませんが、過去1年ほどの間に、ライファーらによってこの技術が基本的に機能することが示されたため、今は単にもう一度プッシュして、シミュレーションで学習された行動が保持されることを実証するプロジェクトを作る必要があるだけだと提案する人々が出てきています。
そのため、C.エレガンスについてはそれが地平線上にあると思います。これは302個のニューロンについての話であり、スケーラビリティは線形未満です。システムが大きくなればなるほど、3次元的であるため、神経系の内部で何が起こっているかを正確にイメージングするのが難しくなります。
マウスの脳のレベルまで大きくなると、限定付きですが、現在C.エレガンスで可能なように、すべてのニューロンを一度に読み取る物理的に実行可能な方法はほとんどありません。基本的には、血管系を通じて何かを循環させる必要があります。生体適合性があり柔軟な固定構造のようなステントかもしれませんし、ニューラルダストと呼ばれるような種類の微小ロボットかもしれません。
それらは超音波で給電され通信する必要があります。なぜなら、無線で給電すると、無線が多すぎて、エネルギーが多すぎて脳を損傷してしまうからです。しかし、超音波なら機能する可能性があります。
そして、人間の脳にはシナプスが非常に多いため、すべての結合係数を抽出するのは難しいでしょう。また、すべてが生体適合性があったとしても、人間には有限の寿命があるため、実験を実行できる時間も限られています。
そのため、非常に困難です。私の推測では、AIシステムが多くのことを加速し、私たちが思いつかなかった新しい解決策を見つけるかもしれませんが、人間の神経系をエミュレートする機械知能を持つ前に、デノボの超知能を持つことは明らかだと思います。それは6〜7年前には私にとって既に明らかでした。そのため、私はもはやこの方向性にはあまり時間を費やしていません。超知能による急性リスクの時期を乗り越えた後に、探求し考えるべきことだと考えています。
脳のエミュレーションやマインドアップローディングを、私たちが表現できない可能性のある選好を引き出す方法として使用し、その選好をAIシステムの訓練に使用して望ましい振る舞いをさせることについて、何か希望はあると思いますか?
良い質問ですね。繰り返しになりますが、マインドアップローディング自体は、その時間スケールで有用になるには難しすぎると思います。人々は「ローファイアップローディング」というものについて話していますが、これは少し誤称だと思います。私はそれを単に模倣と呼ぶでしょう。
大規模言語モデルは、人間の言語的振る舞いを合理的に正確に、と言いますか、正確とまでは言えませんが、模倣を行っています。特定の個人の著作でLLMを微調整すれば、ある程度正確になります。LLMに「これについてどう思いますか?」と尋ねると、その人の意見をかなり良く予測できます。
しかし、それは完全ではありませんし、特に、この種の模倣が前例のない種類の状況や質問に対して堅牢に一般化されるという仮定は、まったく安全ではないと思います。そのため、選好を抽出する観点からは限定的な有用性しかないと思います。
驚きを抽出する手段としては、はるかに有用だと思います。質問に対する出力を見るのではなく、質問が処理される際に蓄積されるロジットを見ることで、これが私に尋ねられる質問としてどの程度驚くべきものかを見ることができます。それはかなり信頼できると思います。
まったく前例のない質問をした場合、LLMを通じて機械的に、これは人間が通常予期していない質問だということが分かります。それを使って、本当に前例がなく、判断が難しい状況に陥らないように、仕様を改良するプロセスのガイドとして使うことができます。
これは、一般的に人々は驚かされることを好まないため、有用でしょう。おそらく、システムが人間をどれだけ驚かせるかに基づいて、システムが何をすべきかについての情報を得ることができます。
これは直接的な価値判断ではありません。驚きを最小化することが倫理的な命令であると主張しているわけではありません。アクティブインファレンスはそう言うかもしれませんが、それは基礎となる数学の誤解釈だと思います。
それが有用なのは、驚くべき質問には上手く答えるのが難しいからです。それは、人々が何を好むかということや、何が価値があるかということのガイドではなく、人々が何を好むかについて確信が持てる場所と、確信が持てない場所のガイドです。確信が持てない場合は、慎重であるべきです。
この会話の準備のために、あなたのCVを見ました。若い頃から多くの成果を上げており、例えば16歳でMITを卒業し、非常に若くして極めて高度な理論的な探求に取り組んできたことから、神童だったと言えるでしょう。そこで興味深い質問の1つは、若い年齢でのメンタリングについてです。
技術的なスキルでは成熟し進んでいても、何をすべきか、どの方向性が追求する価値があるのかを判断するための人生経験が少ない場合、あなたはどのように考えますか?技術的な能力は高いものの、日常生活を送る知恵や人生経験が必ずしも十分でない状況に、どのように対処したと思いますか?
それは、まさに早期の超知能の問題ですよね。非常に強力な技術的能力を持っていても、必ずしも知恵を持っているとは限りません。
正直に言えば、私はこの問題を解決したわけではありません。マインドアップローディングを含め、結果的に最も重要とは言えないことに多くの時間を費やしました。実際に重要だと思えることに取り組もうとは努めましたが、それはある意味で不利にも働きました。多くの異なることに取り組み、外部から見ると行き当たりばったりに見えたかもしれません。
しかし、それによって最終的に、今では非常に重要で、意味のある目的に沿っていると感じられることに行き着くことができました。しかし、おそらくあなたの質問の1つの解釈は、「今日の神童たちにどんなアドバイスをしますか?」ということかもしれません。
その通りです。非常に若くて技術分野で働いており、自分よりもはるかに年上で経験豊富な人々と働いている、そのような準神童たちの何人かが聞いているかもしれません。権威に耳を傾けながら、同時に自分のアイデアを発展させていくという緊張関係を、どのように乗り切ればいいのでしょうか?
これについては答えがあると思います。不確かなことがある場合、それが真実だとしたらどのような観察が得られるか、偽だとしたらどのような観察が得られるかを考えることです。観察には、周りの人々が言う言葉も含まれます。
その言葉を文字通りに受け取って、その言葉が真実か偽かを判断しようとするのではなく、それをデータを生成するプロセスの出力として考えます。そこにはダイナミクスがあり、インセンティブのダイナミクス、心理的なダイナミクス、文化的なダイナミクス、そして真実を追求する論理的なダイナミクスがあります。
それが真実の場合、これらの言葉を聞く可能性はどの程度か、偽の場合はどの程度かを考えます。言葉で真実かどうかを直接教えてくれる情報源を探すのではなく、それが真実の世界と偽の世界で大きく異なるような観察を探します。それは言葉かもしれませんし、データかもしれませんし、論文かもしれませんし、資本の流れかもしれません。
一般的にも素晴らしいアドバイスのように思えますが、かなりの認知的オーバーヘッドを伴うようにも思えます。しかし、神童や準神童について話しているのであれば、それは理にかなっているかもしれませんね。
デビッドさん、お話を伺えて本当にありがとうございました。素晴らしい会話でした。
はい、ありがとうございました。