私はGoogle DeepMindでAGI安全性を率いている — これが内部からの見解だ | Rohin Shah

AIアライメント・安全性
この記事は約117分で読めます。

Google DeepMindでAGIアライメントと安全性の責任者を務めるローヒン・シャーへのインタビューである。破滅的なAIのミスアライメントリスクに関する議論や、現在のAI企業が取るべき安全性評価のアプローチについて深く掘り下げる。将来の不確実な事前コミットメントに縛られるよりも、第三者監査や評価指標の実装、そしてAI開発の進歩を継続的に監視することの重要性を主張している。また、技術の進化が直線的か知能爆発を伴う急激なものかというタイムラインの予測や、外部研究者が企業の安全性向上に貢献するための実践的なアドバイスも提示している。

I lead AGI safety at Google DeepMind – here's the view from the inside | Rohin Shah
Most people working on AI safety think without a massive effort AI systems will probably end up with goals catastrophica...

Google DeepMindにおけるAGIアライメントと安全性

ロブ・ウィブリン: 本日はGoogle DeepMindでAGIアライメントと安全性の責任者を務めるローヒン・シャーにお話を伺います。ローヒン、良くも悪くも、願わくば良い意味でですが、あなたはAGIアライメントと安全性のエコシステムや思想の流派から登場した人物の中で、最も影響力のある、あえて言えば最も力のある一人になったのではないでしょうか。2年前にこの番組に出演してくださった時は、ご自身の意見をはっきりと語ってくださりとても感謝していますし、今週送っていただいたメモを見る限り、今回も意見をぶつける準備は万端のようですね。番組にまたお越しいただき、本当にありがとうございます。ローヒン。
ローヒン・シャー: ええ、ありがとうございます、ロブ。とても過分なご紹介ですね。はっきりと意見を述べるためにも強調しておきたいのですが、これらの意見は私個人のものです。GoogleやGoogle DeepMindの意見を代表するものではありません。

破滅的なミスアライメントの可能性

ロブ・ウィブリン: その方が私たちもありがたいです。もしGoogle DeepMindを代表して発言するなら、プレスリリースのようになってしまうかもしれませんからね。さて、あなたはミスアライメントやAIおよびAGIのセキュリティ問題全般に関して、かなり初期から関わっていました。おそらく2017年頃から関わり始めたと思うので、この分野で専門的に働き始めた最初の一握りの人たちに入ります。それにもかかわらず、あなたは破滅的なミスアライメントは起こらないだろうし、私たちの勝算はかなり高いと考えていますよね。そしておそらく、Google DeepMindや他のAI企業が行っているような平凡で通常の自動アライメント手法が、少なくとも破滅的なミスアライメントを防ぐことに成功するだろうと考えています。なぜそれほど勝算が高いと考えているのですか。
ローヒン・シャー: いくつかの異なる、独立した理由があります。これだという一つの特定の理由があるわけではありません。おそらく最も大局的な理由は、これがデフォルトで起こる事態だという特に説得力のある議論が存在しないと感じていることです。それが起こるかもしれないと示唆する、もっともらしいと思えるような議論はたくさんあると思います。私は、それを回避するために多大な努力を正当化するにはそれで十分だと考えており、だからこそ私が今いる分野で働いているのです。しかし、そのどれもが、デフォルトでこれが起こると予想できるというレベルには達していません。私がこれまで見てきたすべての議論は、起こり得るもっともらしいことではなく、高確率で起こることとしての議論として捉えようとすると、突くことができるかなり大きな穴があると思います。
ロブ・ウィブリン: ええ。つまり、人々はなぜこれが起こりやすいか、あるいは避けられないのかについて議論を提示しようとしてきました。もちろん、汎化の失敗や敵対的サンプルに焦点を当てたユドコフスキー流の議論もあります。アジェヤ・コトラやジョー・カールスミスの見解もありますね。カールスミスの見解は、彼の論文である権力を求めるAIは実存的リスクなのかで最もよく説明されていると思いますが、これは不正確なフィードバックによって、誤ってAIに私たちを欺くように教えてしまうことに焦点を当てています。そして経験則として、現在のモデルが嘘をついたり企んだりすることが多く、強化学習の結果として多くの報酬ハッキングを行うという事実を指摘し、十分な緩和策がないため、時間とともに状況は悪化するだけだろうと予想する人たちもいます。あなたは基本的に、人々が提示してきたそうした議論や類似の議論のどれも、可能性が高いと考えるほど十分に説得力があるとは感じていないということでしょうか。
ローヒン・シャー: ええ、その通りだと思います。たとえば、コトラとカールスミスの議論を取り上げてみましょう。彼らにはさまざまな議論がありますが、あなたが指摘した一般的な議論の1つは、誤って彼らを欺くように訓練してしまうかもしれないというものです。まったくその通りです。それは少なくとも簡単に起こり得ることですし、おそらく可能性も高いことには同意します。しかし、私たちは1年間の軌跡にわたって強化学習を行うつもりはありません。せいぜい1週間か1か月かけて強化学習を行うくらいでしょう。ですから、その点に関するデフォルトの予測としては、AIシステムが学習することは、機会を捉えて報酬をハッキングし、1週間後などに高得点を得られるようにできるだけ報酬を求めるといったことや、実際の時間軸がどうであれ、そういったことだと考えるべきです。そしてこれは、私の仕事は世界を乗っ取ることだ、それが目標を達成するために必要なことだというレベルの収束的な手段的サブゴールを動機付けるために必要な、野心的なミスアライメントの目標とは大きく異なります。それらは本当に、はるかに長期的な目標である必要があるように思えます。そして、もし比較的短期的なタスクで欺くように訓練したなら、それが長期的なタスクに般化するかもしれません。それを排除する議論があるとは思えないので、もっともらしいとは言いますが、そこから予測すべきデフォルトの事態だとは思いません。同様に、現在モデルが多くの報酬ハッキングや不正行為を行っている例について言及されました。それに対する私の答えも基本的には同じになると思います。それから、現在モデルが何かを企むようなことをしている例もあります。私はこうした例のほとんどの詳細を調べますが、野心的なミスアライメントの目標を追求する有能なAIシステムという本当に恐ろしいものとは、どれもあまり似ていないように思えます。むしろ、SF小説に出てくるような、実際には有能ではない邪悪なAIのロールプレイをしているAIのようにも見えます。あるいは、ある種の収束的な手段的サブゴールを追求しているAIシステムのようなものですが、それがアライメントされているかどうかはかなり議論の余地があるような方法です。たとえば、アライメントの偽装はこれに当てはまります。つまり、AIシステムが有害な事柄を助けないという価値観を持っていて、それを行うためにアライメントを偽装すると私は言います。ええ、アライメントされたモデルは完全に収束的な手段的サブゴールを追求します。収束的な手段的サブゴールの特徴は、それがミスアライメントであろうとアライメントされていようと、目的が何であれ、そのほとんどが良いアイデアだということです。
ロブ・ウィブリン: 破滅的なミスアライメントが起こりやすいと人々が考える一般的な理由で、あなたが手短に反論しておきたいものは他にありますか。
ローヒン・シャー: エリエザーのこともおっしゃっていましたね。実際、私はそれが主に焦点を当てているとは説明しなかったでしょうが。
ロブ・ウィブリン: ええ、一言で表現するのは難しいですね。何を言えばいいのか悩みます。でもええ、エリエザーの見解はあります。
ローヒン・シャー: ええ、このポッドキャストでそれについて深く掘り下げることはできないと思います。それは非常に奥深い世界観であり、私がある部分に反論すれば、いや、実は私が言いたかったのはこちらのほうだと彼が言うような別の部分が常にあるように感じるからです。ですから、基本的にはその件についてはパスしようと思います。言えることとしては、私はそれについてかなりの時間をかけて検討し、なぜミスアライメントの目標がもっともらしいかという議論としては納得していますが、もっともらしいという段階から極めて可能性が高いという段階へどうやってたどり着くのかがまだよくわからないということです。また、このセクションの冒頭で、私が物事がおそらくうまくいくと感じる理由を尋ねられました。ミスアライメントが問題になるという確信に至る議論に私が納得していないこと以外にもう一つ挙げると、多くの問題を事前に察知して、それらに対処するために何かしらの行動を起こすだろうと私は考えています。確かに、ある程度の般化は必要です。ある時点で、AIは乗っ取るには力が足りない状態から、乗っ取るのに十分な力を持つ状態へと移行します。そして、あなたの手法はそれを超えて般化されなければなりません。そしてAIが、その境界点がどこにあるかを知っている限り、成功する力を持つまでは怪しいことは何もするまいと考えることは想像できます。そして、私たちはそのような戦略に対して堅牢でなければなりません。ですから、そこにはいくつかの微妙な問題がありますが、それでも、監視の難しさや解釈可能性の必要性など、これの根底にある問題の多くは、私たちが事前に検討し、ある程度の手がかりを得て、反復できるものだと考えています。そしてこれは、実際に機能する緩和策を構築するのに非常に役立つと思います。

現在のモデルの操作性と安全性

ロブ・ウィブリン: 世界全体で見ると、物事がどう進むかについて非常に楽観的に感じているほとんどの人にとって最大の要因は、今日私たちが持っているモデルを見て、それらが非常に操作しやすいように見え、頼んだことをやってくれるように見え、おそらく多くの点で人間よりも親切で役立つように見えると彼らが言うことだと思います。現在のモデルのそのような操作性や一見したところのアライメントは、あなたが楽観的に感じていることの要因としてどの程度影響していますか。
ローヒン・シャー: 特にそれほど影響していないと思います。そもそも私がミスアライメントについて心配するようになった理由は、モデルが超人的になり、私たちがついていくのに苦労するような議論を展開し始めたら、モデルを監視することが非常に難しくなるだろうという議論があったからです。あるいは、モデルが非常に賢くなり、私たちが追跡したり監視したりするのが難しいある種の異質な推論で思考するようになり、私たちのために物事を調べるために他のAIシステムに判断を委ねなければならなくなるかもしれないという部分です。それが恐ろしい部分です。現在のAIシステムには基本的に当てはまりません。ですから、AIの能力がまだそこに達していないという主な理由で、私が当初心配していた問題にはまだ本格的に直面していないのだと思います。そのため、現在のシステムにおけるアライメント手法の成功は、これらの将来の問題に対して私たちがどう対処していくかを示す証拠にはあまりならないと感じています。
ロブ・ウィブリン: ええ、わかりました。破滅的なミスアライメントがどの程度深刻なリスクなのか、あるいはどの程度起こりやすいリスクなのかというこの話題からは次に進もうと思います。多くのゲストとこのことだけでエピソード全体を埋め尽くすような長い議論ができる気がしますが、そうするとどのエピソードも同じように聞こえ始めてしまうでしょう。より広い世間でも、これは非常に議論されていることなので、ここでは、ミスアライメント、つまり破滅的なミスアライメントは起こり得るが、平凡なアライメント手法、つまり石を叩いて川を渡るようなものがここで機能する可能性は十分にあるという世界観に立って、残りの対話を進めたいと思います。そして、それが何を意味し、それがあなたやGDMが行っている選択をどのように形作っているかについて考えていきましょう。
ローヒン・シャー: ええ、いいですね。

企業による安全性のコミットメントに対する見解

ロブ・ウィブリン: つまりあなたは、ここ数年起きているような、世論の圧力や政治的圧力に応えてAI企業が安全性やアライメントに関する確固たるコミットメントをすることに熱心ではないのですね。それはなぜですか。
ローヒン・シャー: ええ、ここでコミットメントという言葉で何を意味しているのかを少し明確にしておく価値があると思います。コミットメントと呼ばれるものを考えるとき、私は、現在そして将来に向けて計画している何らかの行動を書き留めることを想像します。もしかしたら将来になってから始まることかもしれません。そして、私たちはこれについて考えを変えるつもりはない、将来もこれを行うつもりだと宣言するのです。自分自身をマストに縛り付け、それを確実に実行するようにするようなものです。これに対する私の反論は、単に研究は変化し続け、取るべき最善の行動だと私たちが考えるものも時間とともに変化するということであり、それを考慮すれば、自分自身をマストに縛り付けるのは実際に良いアイデアではないということです。一つの例を挙げましょう。おそらく2年か3年前、アライメント研究に関するより多くのデータを事前学習に追加するというアイデアにかなり熱心な人たちがいました。安全性とアライメントに関する研究論文や、AIアライメントについて議論しているLessWrongのブログ記事などを思い浮かべてください。このデータを事前学習の段階で多く投入するほど、AIは特にアライメントについて賢くなり、その結果、AIシステムを使用してアライメント研究を支援できるようになるという考え方でした。今日では、意見はその正反対になっていると私は言いたいです。代わりに、私たちはそのようなデータを事前学習データセットから除外したいと考えています。それには2つの理由があります。1つは、不適切に行われた事後学習やデプロイメント中の不適切なプロンプトの後に、悪意のあるAIという人格を採用できるかもしれないとAIシステムが学習する可能性を減らすためです。そして2つ目の理由は、私たちが導入を計画しているすべての緩和策の詳細をAIシステムに知られたくないかもしれないからです。なぜなら、AIシステムがミスアライメントしていた場合、その緩和策を回避しやすくなるからです。2、3年前に、事前学習時に大量のアライメントデータを投入するというマストに自分自身を縛り付けていたら、かなり悪い事態になっていたでしょう。
ロブ・ウィブリン: つまり、未来は不確実であり、どのようなコミットメントをしておきたかったのかが正確にはわからないという問題があるのですね。役に立たない、あるいは積極的に有害でさえあるようなことにコミットしてしまう可能性もあります。しかし、そもそもなぜ人々がコミットメントを行うのかを考えると、いくつかの異なる理由があります。1つは、間違ったことをしたいという将来の誘惑に備えて自分自身をマストに縛り付けたいということです。また、自分が何をするつもりかを他の人に伝えることで、調整を容易にしたいということもあります。おそらく特定のコミットメントを行うことで、競争のダイナミクスを減らすことができるでしょう。そして、この複数人が参加するマルチプレイヤーの状況では、外部の人々がGoogle DeepMindやAI企業に特定の行動をとるよう圧力をかけたいという別の理由が存在すると思います。後になってそれが何であれ、私たちは正しいことをすることにコミットしていると伝えるのは非常に困難です。そのため、代わりに彼らは、有用だろうと彼らが疑っている特定のことを行うようにあなたに圧力をかけたいのです。それはそうではないかもしれませんが、将来あなたにやってほしいと彼らが最もよく推測していることであり、それはおそらく彼らが実際にキャンペーンを行うことができる最も現実的なことです。実際にコミットメントを行うためのこれらの議論についてどう思われますか。
ローヒン・シャー: これに対する私の最大の反論は、単にそれが機能しないだろうということです。たとえ機能したとしても、メリットの点でも意味があるとは実は思っていません。しかし、ただ機能しないだろうと言っておきます。
ロブ・ウィブリン: それは、企業が与えられた悪い目標にも、いかなる目標にも固執しないからですか。
ローヒン・シャー: そうですね、主に言いたいのは、コミットメントとは何かを考えるなら、ここでの私の想像は、企業が当社はXを行うことにコミットするというようなブログ記事を出すようなことです。コミットメントを行おうとする他の方法はありますが、人々が通常想像しているのはそれだと思います。ただ、もし実際にその企業が将来このコミットメントから抜け出そうとしていると想像するなら、完全にそれができてしまうと思います。AIの分野に限らず、より広い世界にこれの例はあります。しかし、AIに特化して見たとしても、たとえばAnthropicのRSP、つまり責任あるスケーリングポリシーの最初のバージョンは本当に非常に強力で、コミットするという言葉を使うことについて多くを語っていました。当社はXを行うことにコミットする。当社はYを行うことにコミットするといった具合です。正確な詳細は実は覚えていませんが、責任あるスケーリングポリシーの将来のイテレーションでは、その多くがその文言を削除し、それほど強力ではないものに置き換えたと思います。ですから、そこにそれらの言葉を追加したにもかかわらず、実際には自分自身をマストに縛り付けていなかったのだと思います。私はこれは良いことだと思います。そもそもRSPに強い言葉を設定したのは間違いだったと思います。おそらく彼らが削除したものの多くは、良いものだと思います。それは、安全性と責任を含む彼らの目標において、彼らをより効果的にします。しかし経験的に見て、それは彼らが実際には自分自身をマストに縛り付けていなかったという良い例です。そして、少なくとも現在の政治的気候においては、企業にとってはただそのようになるだけだと思います。
ロブ・ウィブリン: 皆さんこんにちは、ロブです。誤解を避けるために指摘しておきたいのですが、ローヒンはAnthropicが責任あるスケーリングポリシーの第3版をリリースする前に上記の発言をしました。その第3版では確かにコミットメントという用語の使用をほとんどやめており、ここでローヒンが言っていることに関連した正当な理由を説明していました。それでは、番組に戻ります。
Googleは実際にこの点でよりうまくやっていると思います。最初のフロンティアセーフティフレームワークは、本質的にそれは弱くて野心的ではなく、どこにもコミットするという言葉を使っていないと人々は主張しました。しかし、それは将来Googleが実際に何をしようとしているかをはるかに正確に反映していたと思います。ですから、その意味ではより優れており、実際に何が起こるかについて一般大衆に良い感覚を与えたと思います。これは私がAnthropicや、それについてはOpenAIよりも実際にGoogleを信頼している点の1つです。
ロブ・ウィブリン: Googleは行うコミットメントに関してより保守的であるため、実行すると言ったことを実際にやり遂げる可能性が高いということですね。
ローヒン・シャー: その通りです。彼らはコミットメントに対して非常に偏執的です。コミットメントだけでなく、自分たちがやっていると言うあらゆることに対して偏執的です。これは本当に良いアイデアなのか、これを将来も続ける準備が本当にできているのか、といった具合です。ですから、他の企業と比較して、Googleの言う言葉を信頼する方が簡単だと感じます。
ロブ・ウィブリン: おそらくあなたは、ご自身や同僚が、いざというときに広く合理的に行動すると信頼しているのでしょう。つまり、完全に手を縛られたくないと考えるのは非常に自然なことです。その時に自分にとって合理的だと思われることは何でもできる柔軟性を維持したいのでしょう。しかし、外部の他の人々のことを想像してみてください。彼らはあなたや同僚を信頼していないか、あなたや同僚を信頼すべきかどうかわからないかのどちらかです。

サードパーティによる監査と評価の重要性

ローヒン・シャー: 私がお勧めするのは、サードパーティの監査や、企業にある程度合理的なアクセス権を得て、それを使用して慣行を監査し、その調査結果についておそらくある程度編集されたレポートを公開できるサードパーティの評価者のようなものです。
ロブ・ウィブリン: ええ、それについてもっと教えてください。何が有用だと思いますか。
ローヒン・シャー:ここでの私の考えを推進する主なものは、私が細部への注意と呼ぶべきものだと思います。一般的に、AIはかなりのニュアンスを必要とする分野であり、適切な行動や評価してチェックすべき適切な事柄を選択するには、現場の多くの事実を実際に知る必要があると考えがちです。その結果、私は詳細を調べることに多くの時間を費やし、その結果を書き留めたり、何らかの形でその結果を伝えたり、それを利用して何らかの行動を起こしたりする少数の人たちを持つことを最も重視しています。だからこそ、サードパーティによる評価は私にとって最も優れたものの1つに思えると言いたいのです。なぜなら、多くの文脈を構築し、評価の定義に多くの時間を費やし、すべてがどのように機能しているかについての多くの情報を取得し、そして企業の人々が影響を受けやすいのと同じバイアスに影響されることなく、それについてかなりニュアンスのある決定を下すことができるこれらの組織を構築できるからです。ですから、それが私が最も期待している手段です。それが今日の政治的状況で実現可能かどうかは、それほど明白ではありません。ですから、その代わりとして、いつかその方向に向かうことができるかもしれないものとしては、安全性のスコアカードのようなものが考えられます。AI Lab Watchはこの分野で私のお気に入りのスコアカードです。もっとこのようなことができればいいのにと思います。もし私が今キャリアチェンジをして何か別のことをしなければならないとしたら、それは何をすべきかについての私のトップ2の選択肢の1つになるでしょう。
ロブ・ウィブリン: AI Lab Watchについて教えてください。現在、それはどのような有用な機能を果たしていると思いますか。
ローヒン・シャー: それがすでに有用な機能を果たしているかどうかは、私にはまだ完全には明らかではありませんが、その可能性はあると思います。おそらくそれが何であるかについて少し話すべきでしょうね。これは、本質的に存亡リスク、あるいは少なくとも深刻な破滅的リスクに対する安全性がどの程度優れているかに基づいて企業を評価するスコアカードです。これはザック・スタイン・パールマンという一人の人物によって運営されており、彼はすべての時間をそれに費やしているわけではないと思います。おそらく半分の時間くらいでしょう。ザック・スタイン・パールマンは細部に対して信じられないほどの注意を払っていると思います。彼はこれらの非常に詳細なガバナンス文書に飛び込み、そのすべてを読み通し、結論を導き出すために個々の文を抽出し、すべてのモデルカードとフロンティア安全レポートを読み通して、企業が何をして何をしなかったかを正確に確認しています。ですから、それが理由の一部だと思います。そこには十分なニュアンスがあり、私は実際にその結論を信じています。まあ、少なくとも彼が到達した結論のいくつかは信じています。これは通常、他のスコアカードには当てはまりません。もしそのスコアカードがより堅牢になり、より広いコミュニティに受け入れられ、特にかなり正当なスコアカードとして企業に受け入れられる段階に達したなら、AI Lab Watchのスコアカードを上り詰め、最も安全な企業として自らを宣伝できるようにしようというような、安全性に関する頂点への競争が想像できると思います。それが、今日の政治状況において、外部のアクターが企業により安全になるよう働きかけることができる1つの方法だと思います。
ロブ・ウィブリン: そして、それがここ数年企業が行ってきたような大まかなコミットメントと異なるのは、このAI Lab Watchという組織で働く技術的専門家が常にそれを更新し、企業が大きな違いをもたらすどのような慣行に実際に従事しているか、または従事していないかについて細部に多くの注意を払い、何が実際に重要であるかに関する最新の意見や最新の研究に基づいて常にそれを更新できるという点ですね。先ほど、AI企業が何をすべきかについての意見の反転の例を挙げてくれました。以前は人々はこのデータで訓練すべきだと考えていましたが、現在ではそれを切り取るために細心の注意を払うべきだと考えていると。しかし、確かに十分に幅広く、あるいは不特定で、あるいは単に明らかに優れているため、それにコミットすることが合理的なコミットメントもあるはずです。たとえば、Google DeepMindやその他の企業が良い仕事をしているかどうかを評価するために、AI Lab Watchが必要とする種類の情報を提供するというコミットメントを持つことができます。あるいは、専門の監査人、評価を実行する人たちを持ち、モデルがこういう点やああいう点で危険かどうかを理解するために、モデル上で洗練された評価を実行できる十分なアクセス権を持つことが有用だとおっしゃっていましたね。合理的な要件の特定のセットを満たす外部の監査人または評価者にアクセスを提供するようにコミットすることはできます。そうした種類のコミットメントについてはどう思われますか。
ローヒン・シャー: それらの方が良いと思います。それでも私は、それらが常に意味をなすとは限らないと言いたいです。あなたが今挙げた例、つまり情報へのアクセスの提供について言えば、これが裏目に出るような形で書かれているのを想像するのは私にはとても簡単です。たとえば、私たちはCBRNドメインでの評価を行っています。これは化学、生物、放射線、および核のことですが、基本的にはAIシステムが大量破壊兵器の開発に役立つかどうかについてです。ここの情報の多くはかなり情報災害の危険性が高く、おそらく多くの外部の評価者は少なくともGoogleと同レベルの情報セキュリティを持っていないだろうというのが事実だと思うので、それは実際には行ってはいけない悪いコミットメントだったと考えることは想像できます。別の見方としては、私たちは競争のダイナミクスについてよく話します。1つのこととして、私自身は実際にはかなり不確実なのですが、アルゴリズムの進歩や類似のものを厳重に管理し、それが広がりすぎないようにすることが、企業にとって実際にはかなり優先度が高いと想像することはできます。これについてはさまざまな議論があり、そこに立ち入る必要はありませんが、それが一般的な立場です。それを真剣に受け止めるなら、漏洩の可能性を高めるような外部に共有する情報と、本当にロックダウンしようとする情報との間のこのトレードオフを、おそらく本当に抱えていることを意味すると思います。そして、それについてコミットメントを行うのは難しいと思います。それでもなお、それらのいくつかについては、これは明らかに良いコミットメントだと思えるものにより共感を感じます。ですが、マストに縛り付けることは実際には機能しないので、将来もそれを続けるというコミットメントを行ったかどうかではなく、企業が実際に何を行っているかを確認し、私たちが良いと考えることを彼らが行っているかどうかに基づいて彼らを判断する方が良いと言いたいです。
ロブ・ウィブリン: 人事は政策なりという言葉がありますが、あなたの態度は、意志決定の立場に賢明で意欲的な人々を配置すること、そして、もしそのような動機があるなら実際に正しい決定を下せるほど物事を十分に理解している人々を配置することの代わりになるような、書き留められること、つまりコミットメントや紙に書かれた良い意図のセットなどは存在しない、ということのように聞こえます。基本的にはそういうことですか。
ローヒン・シャー: ほぼその通りです。賢明で意欲的であることにはイエスと言いたいですが、彼らは企業の中にいる必要はありません。外部のサードパーティ監査人でも構いません。それは機能すると思います。それはただ、詳細をよく調べ、それを実行している、多くのことを知っている人間が必要だということを意味します。事前に書き留めるルールは、最も愚かなものの1つです。すみません、私が言う愚かとは、ルール自体にそれほど知性を含めることは明らかにできないという意味であり、そうでなければそれはルールではないということです。柔軟な調整を時間の経過とともに許可するのではなく、証拠を見る前に自分が考えていることに基づいて、英語で書き留めることができるポリシーを事前に書き留めるようなものです。それはただ、あまりにも弱すぎます。ルールに対して適用される知性と最適化の圧力は、常にルールを回避します。あるいは、そのルールが厳格すぎて企業に本当に莫大なコストを課すことになり、今日の政治状況ではそれは通用しないでしょう。それに、私にはただ悪いアイデアのようにも思えます。

安全性チームの権限と社内の力学

ロブ・ウィブリン: 視聴者からの最も多かった質問は、AGIの安全性とアライメントのチームは、将来の潜在的なAGIのトレーニングやデプロイのいかなる側面に対しても、強力な拒否権を持っていますかというものでした。つまり、GoogleのCEOであるスンダー・ピチャイが、あなたが安全だとは思わないモデルをデプロイしたり、トレーニングしたりしたいと思った場合、彼はあなたのチームの全員の意見を却下できるのでしょうか。
ローヒン・シャー: その質問の枠組みには少し同意しかねます。文字通りの答えを言えば、私たちの役割は助言的なものです。私たちが推奨事項を出し、スンダーのような他の意思決定者がそれに同意しない場合、スンダーの決定が重要になります。しかしこれは、私たちが企業の敵対者であり、企業内の他の人々がどう考えようとも正しい決定を下せるようなハードパワー、何らかの拒否権を持つ必要があるという枠組みが組み込まれた質問です。私は、これが企業内で物事がどう機能すべきかに関する良いモデルや健全なモデルだとはまったく思いません。私の仕事は、意思決定者が正しい決定を下せるように、適切な情報を生成し提供していることを確認することだと考えています。ですから、はい、役割は本質的に助言的なものですが、その機能の仕方は次のようになります。もし私が何かが間違っていると考えた場合、私はそれをマネージャーのアンカ・ドラガンにエスカレーションします。アンカは安全性の責任者として始まり、現在はGeminiの事後学習の共同責任者なので、かなりの影響力と権限を持っています。そして、もし彼女が私に同意すれば、彼女はそれをさらに一段階エスカレーションし、そのモデルをローンチしないという推奨を行うでしょう。
ロブ・ウィブリン: すべてが進んでいる方向について漠然と不安を感じている人々は、たいていの場合、AI企業と主に敵対的な関係にあると感じていると思います。あなたはそれは事実ではなく、実際には企業はそのような人々のグループに対して無関心な関係にあると考えています。それについて説明してください。
ローヒン・シャー: そうですね、企業を無関心だとモデル化する方が彼らにとっては良いことだと言いたいかもしれません。実際には無関心ではないけれど、もう少し複雑な、より詳細なモデルを持つこともできると思います。より詳細なモデルについて言えば、Geminiのようなアーティファクトを構築することは非常に、非常に困難です。その主な理由は、1つの提供スタックを使用して展開される、この1つのもの、モデルの重みの単一のセットを作成しなければならないからです。そして、それは非常に多くの制約を満たさなければならず、これらすべての制約の間には相互作用の効果があります。したがって、命令追従を正しく行っているか、安全性を正しく行っているか、高速な推論を可能にする方法でアーキテクチャが選択されているか、多言語を話すか、といった事柄があります。おそらくそのような事柄が100個はあるでしょう。そして、これらの事柄の1つ、たとえば安全性を改善する目的でプロセスに1つの変更を加えた場合、あなたがまったく予想していなかった他の制約にランダムな波及効果をもたらすのは事実です。
ロブ・ウィブリン: プロセスのこの脆弱性は、新たな安全性の懸念に対してリアルタイムで迅速に対応することが実際にはかなり難しくなることを意味しているのではないでしょうか。あなたや他の誰かがこの部分を変更すべきだと言っても、いや、この製品を作るために私たちが構築したこのルーブ・ゴールドバーグ・マシン全体を壊してしまうことになると言われるような。
ローヒン・シャー: ええ、ある程度はその通りです。ご存知のように、DeepMindはこのミッションを掲げて設立されました。それがデミス・ハサビスが会社を設立した理由の1つでした。そしてDeepMindには、私が会社に入社するずっと前からAGI安全チームがありました。彼らはそれを持つ必要はありませんでした。それは、彼らが本当に費やす必要のなかった多くのお金を使っているということです。ですから彼らは間違いなく気にかけています。しかし実際には、安全性を向上させるために私たちができることは数え切れないほどありますが、いつでもできることはほんのわずかです。なぜならそれを行うにはかなり長い時間がかかるからです。では、展開中に見られた安全上の問題に対応するためのツールはあるのでしょうか。はい。ほとんどの場合、これらはモデルの重みの変更を伴いません。なぜならそれが最も制約を受けているものだからです。それは単一のものを生産しなければならないアーティファクトであり、それを課す無数の制約があります。しかし私たちには、もう少し変更しやすい、モデル外のフィルターがあります。特定のプロンプトや特定の問題をターゲットにできるので、時間の経過とともに更新するのがはるかに簡単です。しかし、やりたいことのすべてがモデル外のフィルターで解決できるわけではありません。企業が敵対的か無関心かについてあなたが言及した最初の質問に戻りますが、基本的に私の見解は、さまざまな制約のこの巨大な相互作用のために、少なくともGDM、しかしおそらくほとんどのAI企業をモデル化する最も簡単な方法は、彼らは安全性のために一度に少しのことしかできないということです。そして彼らはそれを行います。彼らは気にかけていますが、あなたはおそらく彼らを無関心だと考えるべきです。あなたは本当に、正確に何をすべきか、なぜそれが彼らが気にかけているこれらの他の制約のいずれにも害を与えないのかを具体的に提示しようと努めるべきです。また、単に誰もが忙しいという理由もあります。

規制当局と政府の役割

ロブ・ウィブリン: つまり、専門の監査人、監視者、規制当局のためのアクセスと透明性を持つことの方がはるかに重要だとおっしゃったのですね。しかし、私たちは少なくとも、一般の有権者と特に政治家の両方が、それらの監査人や規制当局のためにリソース、資金提供、支援、意志を提供し、企業が拒否したとしても、あるいは何らかの理由で仕事を完了するためのリソースが必要な場合に、彼らが必要なアクセス権を得ることを強く主張できるように、十分な大衆の理解や一般向けの透明性を必要としているのではないでしょうか。
ローヒン・シャー: ええ、それを行うことは間違いなく重要だと思います。私が言ったこととそれほど大きく矛盾しているとは思いません。現在これが起こっている方法は、私たちがモデルをリリースし、そして誰もがそれらがどれほど有能であるかを見るというものだと思います。それが群を抜いて最も重要なことです。それは必要とされている一種の透明性です。実際、私たちはかつてGDMの研究者を対象に、Xリスクやその他の種類の安全性に対する彼らの見解についてこの調査を実施していました。そして私たちがよく尋ねていた質問の1つは、時間の経過とともにこの安全性に関する事柄についてのあなたの考えを変えたものは何ですかというものでした。そしてそれはあまりにも一様でした。文字通りたった1つの例外を除いて、答えは一様に何らかの能力の向上でした。彼らは、GPT-4こそが安全性がどれほど重要であるかについての私の考えを変えたものだと言っていました。そしてそれは、まさに現在基本的には一般大衆に利用可能だと思います。誰もが自分のモデルを迅速にリリースする必要があります。事後に能力をベンチマークすることができます。モデルがどれほど優れているかを確認するために、自分でモデルをいじってみることができます。ですから、その特定の情報についてはすでにそこにあると思います。安全性がどれほど重要であるかについてのより多くの情報や、おそらくもう少しニュアンス、より多くのアクセス権を得る必要があるより詳細な情報もあるかもしれません。そのインフラは、少なくとも現在より重要だと思う政治家向けにはすでに存在していると私は主に感じています。米国のAISIや英国のAISIなどは、企業をより深く監視しています。彼らはフロンティア企業のほぼすべて、もしかするとすべてとパートナーシップを結んでいます。私にはわかりませんが。彼らはAI企業で何が起こっているかをかなりよく理解しており、その情報を利用してそれぞれの政府や政治家に情報を提供していると思います。
ロブ・ウィブリン: ええ、現在このすべてに最も類似している規制と監視の分野の1つは、私の頭の中では連邦準備制度理事会、つまり銀行と金融の安定性に関する金融システムの監視を中央銀行が行っていることだと思います。それは信じられないほど技術的な分野であり、追跡するのが非常に困難です。一般大衆は、金融危機を起こしたくない、銀行を倒産させたくないという幅広い欲求を持っていますが、詳細についての理解は非常に限られています。そして、そこでのアナロジーとしては、彼らはこれが深刻な問題であることをあるレベルで理解しているということになると思います。それが、物事がうまくいかなくなることを本当に恐れている政治家にも波及します。彼らは本当にかなり大きなリソースを提供し、基本的にはすべての銀行と常に話し合い、監視するために非常に高価な専門家を雇っています。英国銀行と米国の連邦準備制度理事会の両方がすべての銀行に非常に深く関与していると思います。帳簿を監視し、基本的には物事がうまくいかなくなっているかどうか、どのようなリスクが現れているかについて常に会話をしています。そして、それは物事が進むための非常に自然な方法のように感じられます。特に、何をする必要があるかが本当に明らかではないというあなたの考えが正しい場合はそうです。何かを変更することが良いことなのか悪いことなのかを判断するには、その部屋にいて多くの文脈上の詳細を理解しなければなりません。
ローヒン・シャー: ええ、それは私が望むモデルとほぼ正確に一致すると思います。

デプロイ前評価の有効性について

ロブ・ウィブリン: おそらく、AIの安全性とアライメントの分野にいる多くの人が、技術分野と政策分野の両方でとっている最も支配的なアプローチは、デプロイ前評価を作成して実施しようとすることです。つまり、モデルが一般大衆への製品としてデプロイされる前に、モデルに何ができるのか、何をしようとする傾向があるのかをテストし、物事が本当に間違った方向に進む可能性のある方法をテストしようとすることです。あなたは、これがおそらく見当違いの、あまり効果的ではないハイレベルな戦略だと考えていますよね。それはなぜですか。
ローヒン・シャー: ええ、これの主な代償は、企業においてローンチスケジュールは本当に非常に重要であり、可能な限り短く保とうとするということだと思います。一度モデルが完成したら、できるだけ早くそれを一般に公開したいと本当に思うものです。したがって、評価をデプロイ前に結び付け、それを義務付けるなら、それはそれらの評価を実行するのをできるだけ早くし、できるだけ早く完了させるというかなり強いインセンティブを提供することになりますが、それはおそらくあなたが与えたいインセンティブではありません。もちろん私たちはそれらを可能な限り良いものにしようと努めますが、それでも制約ではあります。もっと時間があれば、おそらくもっとうまくできたでしょう。そして、実は評価を行うための時間が必要だと反論できる余地は多少ありますが、それは無限ではありません。ですから、それは本当に非常に大きな代償だと思います。もし強いメリットがあるならそれだけの価値があるかもしれませんが、私は特に強いメリットがあるとは思えません。人々が当然のように言うメリットとしては、危険なモデルをリリースしているかどうかを知る必要があるというようなものです。理想的には、危険なモデルはリリースしないほうがよく、そのためにしなければならない方法はデプロイ前の評価によるものです。これに対して私は主に、AIの進歩はかなり連続的だと答えます。前のAIシステムに基づいて、次のAIシステムがどのように振る舞うかをかなり正確に把握することができます。これについて、ある程度合理的で許容できる限界を持つことができます。ですから、評価がトリガーされる時と、実際にモデルが危険だと考える時との間に合理的な安全性のバッファがあるように評価と閾値を設計すれば、前のモデルを評価したとか、1ヶ月前に評価を実行したと言うのは、基本的には全く問題ないように思えます。その間に巨大な飛躍があったわけではなく、その時点では私たちの閾値を下回っており、安全性のバッファがある。したがって、このモデルについては心配していない、と。これが私たちの最初のフロンティアセーフティフレームワークが公開された時から採用しているアプローチです。特に新しいことではありません。ですから、私はメリットが実際には存在しないと思うので、このコストを課すことは本当に理にかなっていないと思います。それから、他のいくつかの小さな点があります。1つは、特にミスアライメントや制御の喪失において、脅威モデルは外部展開よりも内部展開に結びついているということです。なぜなら、ミスアライメントしたモデルにとっては、外部で例えば自分自身の重みへのアクセスがない場所よりも、多くの権限を得ている社内で問題を引き起こす方が単に簡単だと思うからです。そして、外部展開前の評価は、内部展開にそれほど大きな違いをもたらしません。
ロブ・ウィブリン: 今後数年の間に、あるサイクルから次のサイクルへと大きな飛躍が見られ、モデルが前のものよりも予想外に有能になったり、予想外に邪悪になったりする可能性があると考える正当な理由はありますか。
ローヒン・シャー: 予想外に有能になる可能性はかなり低いと思われます。私たちはこれまでにAI開発の例を十分に見てきたので、AI開発はかなりスムーズかつ連続的に進むと断言できます。将来、知能爆発が起こる可能性は間違いなくあると思いますし、その場合、暦上の時間に関して進歩ははるかに速くなるでしょう。私はそれでも、計算機や労働力といった入力に関しては、実際にはかなりスムーズで漸進的になると考えています。ただ、知能爆発においては、特に労働力、しかしおそらく計算機においてもはるかに大きな増加が得られ、それが結果として暦上の時間に関して物事を非常に速く進めることになります。しかし、今後どれくらいの期間に費やすと予想される計算機と労働力の量が与えられれば、能力の面でどれほどの進歩があるかをある程度正確に把握できるというこの一般的な性質はまだ存在します。また、AIシステムがはるかに邪悪になる可能性があるかどうかについても質問されましたね。それは事実、モデル間でかなり大きく変わる可能性があるものだと思います。なぜなら、それは事後学習を正確にどのように行うかという、やや偶発的な性質に依存しており、それに対する小さな変更がそれに大きな影響を与える可能性があるからです。ですから、そこでは、モデルが特定の点で邪悪ではないということに安全性ケースが依存している限り、それが事実かどうかを確認するために、デプロイ前の評価を実際に行う必要があるということはより重要だと思います。そして、これこそが実際に私たちがやっていることです。正確にこれというわけではありませんが、モデルが悪いことをする傾向があるかどうかという点で、私たちは現在、安全性のためのデプロイ前評価を多く行っています。これは現在の安全性の種類のことになりがちで、モデルが遺書を書くのを手伝うか、モデルが暴力を扇動するかといったことです。それらはローンチ前に実行し、その数値が十分に悪ければ、そのモデルはローンチしません。

AIによるアライメント研究の自動化について

ロブ・ウィブリン: あなたは、将来のAGIや、将来の再帰的に自己改善するAIに、いざというときに安全性やアライメントの研究をたくさんやってもらえるようにするために、前もって多くの準備をする必要があるとは思っていませんね。それが、GDMからその幅広いアプローチについてほとんど何も聞かない理由かもしれません。しかし対照的に、少なくとも数年前、これはOpenAIがいつも口にしていた支配的なアプローチでした。Anthropicからもそれについての話は間違いなく聞きます。なぜ今、多くの準備をする必要がないと考えているのですか。
ローヒン・シャー: これが重要になるシナリオを提示する価値がありますね。事実上、これに関する懸念は知能爆発のシナリオであり、そこでAIシステムを構築すると、そのAIシステムが実際のAIの研究開発を加速するのに役立つほど十分に有能になるというものです。AIシステムの能力の研究をただ速くすることができます。そして、これから説明する特定の仮定の下では、これが能力の進歩が起こる速度を劇的に高める可能性が高く見え、知能爆発が起こります。この状況であなたが抱くかもしれない自然な懸念は、能力側ですべてがスピードアップしている場合、安全性とアライメント側はついていけるだろうかということです。能力の向上がスピードアップする方法は、能力研究を行うためのAI労働力の適用によるものであることに注意する価値があります。したがって、自然なアプローチは、安全性とアライメントの研究を行うために同じAI労働力を適用することになります。さて、もしあなたが私と同じように、現在うまくいっていないことを見て、今後1年程度の期間で次のいくつかのモデルで将来何がうまくいかなくなるかを少し予測し、それに対処するためにごく普通の機械学習研究を行うことができるという、平凡なアライメント研究を信じているのであれば、アライメント研究がどのように進歩できるかというその見方は、能力研究と非常に、非常に、非常に似ています。ですから、もしAIが能力研究を大幅に加速しているなら、それに計算機を費やす意思がある限り、その同じAIシステムを使って安全性とアライメントの作業を同じように加速できるはずです。能力研究とアライメント研究にはいくつかの類似していない点があります。その非類似性は現在は特に大きく、自動化された研究を行うことができるこの種のAIに近づくにつれて、将来は小さくなっていくと私は考えています。そしてその時点に達する頃には、まだ非類似性はありますが、比較的小さいと思います。デフォルトでは、自動化されたアライメント研究と自動化された能力研究を行う能力に大きな違いがあると予想すべきではありません。ですから、準備できることはいくつかありますが、基本的にはそれがどのようなものになるかはわからないと感じています。今日できる他のことに集中し、AIがこれを実行できる能力を持つ段階に達したら、適応する方がはるかに効率的でしょう。さて、一つ指摘しておきたいのは、もう一つの懸念があるということです。確かに、技術的な安全性とアライメントの研究はすべて加速されますが、良い結果を得るために必要なのはそれだけではありません。ガバナンスも良くなる必要があるので、ガバナンスも加速する必要があります。さて、ガバナンスは、能力や安全性やアライメントの研究とはまったく異なるスキルセットを持っています。ですから、能力研究を劇的に加速するAIシステムが、ガバナンスも劇的に加速するかどうかははるかに不明確です。AIがそれを実行する能力を持っていないことに加えて、それも一つの可能性ですが、私たちが社会としてガバナンスを加速するためにAIを使用することを望むかどうかということもあります。おそらくそうではないと思います。なぜなら、能力の研究者はAIを使って実際に自分自身を加速させたいと思っていますが、ガバナンスの専門家がこれをやりたがるという感じは受けないからです。ですから、このガバナンスの仕事を加速させることは、もし私が今別の何かにキャリアチェンジしなければならないとしたら行うことのトップ2の1つです。ガバナンスを加速させるために何をする必要があるかを把握し、それを行うために必要な仕事に取りかかることです。
ロブ・ウィブリン: ガバナンスの専門家がAIを使って自分の仕事を加速させることに興味がないというあなたの発言には驚きました。少なくともAGIについて熱狂的な考えを持つグループの間では、Forethought Researchは間違いなくこれに賛同していると思います。Coefficient Givingも計画を策定していると思います。それについては少し前にアジェヤ・コトラと話しました。彼らはAI労働力を利用してそのような問題を解決するために、どのように大量の資金と計算能力を投入するかという計画を策定しています。どれほどリソースを割く意思があっても、どれほど人々が努力しても、その時点でモデルが実際にはそれに適していないという懸念全体は存在するかもしれません。なぜなら、彼らはコンピュータサイエンスとAIの研究に非常に特化しており、より広い社会について考えることにはあまり適していないからです。しかし、それがそれほど悪くなければ、少なくともこれを行うことに興味を持っているアクターはいるように思えます。
ローヒン・シャー: ええ、AGIに熱狂的なガバナンスの専門家がそれを行うことには間違いなく同意します。AI安全性コミュニティに関連する非営利団体やシンクタンクは間違いなくそれを行うでしょう。しかし、彼らはガバナンス全体のごく一部にすぎません。
ロブ・ウィブリン: 実際の国家政府だけが対処できるガバナンスの問題で、当時はAIを使用できないために軽視され、適切に処理されないかもしれないと考えられるものにはどのようなものがありますか。
ローヒン・シャー: 具体的な例は頭にありません。主に言えるのは、ポッドキャストの最初の方で述べたポイントに戻りますが、誰かがAI企業を監視し、私たちに責任を持たせることが重要だということです。政府はそれを行うのに自然な場所です。そして、もし世界が実際に根本的に変化しているなら、人々は10年で1世紀分の進歩について話していますが、そうであれば、私たちが今日予測できない多くの問題が発生すると予想すべきです。私たちはそれに柔軟に対応できるようになる必要があると思います。政府の介入が必要になると私が考えている特定の問題は頭にありませんが、もし何もなかったとしたら非常に驚きです。
ロブ・ウィブリン: ええ、政府全体を改革するのは非常に難しいかもしれません。おっしゃるように、政府はルールに縛られがちであり、あなたや私が合理的だと考える方法でAIを使用することを困難にする多くのルールが存在するでしょう。AIに特化した機関の例外を設けることは可能かもしれません。たとえば、英国AIセキュリティ研究所が、他の機関では潜在的に不可能かもしれないような方法で、ガバナンス業務にAIを使用する完全な自由裁量権を与えられていると想像できるでしょう。なぜなら、それが少なくとも彼らの種類の仕事についていける唯一の方法であり、彼らはそれを強く推進するようなグループだからです。それはわずかに希望の持てる可能性のある結果です。
ローヒン・シャー: ええ、私たちがそれ以上のことができることを願っていますが、それが良いベースラインになるということには同意します。基本的に私たちはこの問題についてあまり考えてこなかったと感じています。この問題についてかなり考えれば、それ以上の何か良い方法が見つかることを願っています。しかし、私はそれを行ったわけではなく、他の誰かが行ったかどうかも知りません。ですから、私はここに問題があると言っているにすぎません。どうすればいいかはよくわかりませんが、私たちがそれについて何かをしたなら、それは間違いなく素晴らしいことでしょう。

AI開発の減速に対する見解

ロブ・ウィブリン: 視聴者の一人からの質問です。代わりに、AIの進歩を遅らせること、あるいは超知能の開発に反対することを優先してはどうでしょうか、というものです。
ローヒン・シャー: 私ならこう答えると思います。世界中でAIの進歩を実際に一時停止させるのを妨げているボトルネックは何でしょうか。群を抜いて最大のボトルネックは、AIが世界を乗っ取ると人々が同意していないことだと思います。そして、そのボトルネックを最も緩和するのは、それが起こるだろう、あるいは起こらないだろうと示唆する良い科学的証拠です。明確にしておきますが、私はおそらくこれは起こらないだろうと信じていますが、私たちがそれを気にかけるべきだというくらいには十分に起こり得ることだと考えています。そして、そのための構造は次のようなものになると思います。スケーリングの次の各ステップが安全かどうかを把握することです。今のところ答えはイエスだと思います。ある時点で答えがノーになるかもしれません。そしてその時点で、その証拠を生成したことは、この目標にとって計り知れないほど役立つだろうと思います。繰り返しになりますが、私としてはそれが問題になることはおそらくないと考えているため、その証拠が出てくるとはあまり予想していません。スコット・アレクサンダーによる私たちの武器の美しさに導かれてという素晴らしい記事があります。おそらく彼が書いた中で私が一番好きな記事です。彼は、主張が真実であるかどうかに関係なく、何らかの結論を主張したり、人々を味方に引き入れたりできる対称的な武器について語っています。そして、主張していることが真実である場合にのみ機能する、あるいは少なくともその状況でより機能する可能性が高い非対称的な武器があります。そして彼はある時点で、このすべてがいかに美しくエレガントであるかについて、非常に感動的な描写をしています。非対称的な武器の場合、あなたとあなたの敵は力を合わせ、手を取り合ってそれを行うというのです。なぜなら、最後の最後に証拠が出るまでは、両者ともそれが自分たちが正しいことを証明すると考えており、証拠が答えを示した時には、ただ合意するからです。
ロブ・ウィブリン: まあ、その時点でゴールポストを動かしたと私なら言いますが。それでも、合理的な傍観者ならどちらが正しかったか分かるでしょうね。
ローヒン・シャー: ええ、その通りです。しかし、これが現状で私がはるかに望む戦略です。一番のボトルネックは間違いなく、これが不可欠かどうかについて人々が同意していないという事実だと考えているからです。

思考の連鎖(Chain of Thought)の監視について

ロブ・ウィブリン: より広いコンセンサスにあなたが強く同意している点の1つは、思考の連鎖の監視が極めて有用であり、私たちが可能な限り長く維持できるようにしたいと考えているものであるということです。これは、AIが何を達成しようとしているのか、そしてその理由を理解するために、AIが抱いている思考、つまりAIがスクラッチパッドに出力している思考を観察するというものです。

ロブ・ウィブリン: この話題に関して、あなたが他の多くの人々と意見が異なる点は、思考の連鎖の監視が引き続き有用である可能性がかなり高いと考えているところだと思います。AIが何を考えているのかを私たちが理解し続けられ、AIが書き出している内容が実際にやっていることと結びついている期間が、他の人が予想するよりも長く続くと考えていますよね。多くの人は、あと1、2年もすれば、AIが何か狂ったような暗号で話し始めたり、私たちが完全に追跡できないような方法で情報を隠し持ったり、あるいは単純に情報量が多すぎて監視しきれなくなったりするのではないかと懸念しています。思考の連鎖の監視が、今後もかなり長期にわたって有効だとあなたが考えるのはなぜでしょうか。

ロヒン・シャー: これは細部への注意が本当に重要になる良い例です。かなり分岐した内容になるので、私からの答えはかなり長くなります。まず始めに、なぜ思考の連鎖の監視が特に有効だと期待できるのか、その基本的なストーリーをおさらいさせてください。私はこれを外部化された推論特性と呼んでいます。普段私が説明する言い方としては、十分に難しいタスク、つまり時間をかけて直列的な推論を行うような、多くの推論を必要とするタスクにおいては、Transformerは、他のアーキテクチャは必ずしもそうではないかもしれませんが、少なくともTransformerは、思考の連鎖を一種のワーキングメモリとして使わなければならないということです。他に選択肢がないため、AIが行っている推論に関する何らかの情報は、その思考の連鎖の中に存在しなければなりません。これが第一の部分です。そして第二の部分は、私たちが現在言語モデルを学習させている方法を考慮すると、その思考の連鎖は人間にとって実際に読みやすく、理解可能なものになるということです。

ですので、これら二つの部分を分けて説明します。最初の部分は、AIが難しいタスクを解決するために必要な高度な推論を行うには他の方法がないため、本当に思考の連鎖の中に情報を置かなければならないという点です。ここでの基本的な議論は、不透明なシリアル深度と私が呼ぶものです。AIシステムのアーキテクチャを見て、仮にこのAIシステムが自身の内部に存在する何十億もの浮動小数点数だけを経由して推論を行わなければならないと想像してみてください。AIは自分が出力しているトークンを使うことができません。浮動小数点数だけを使って、AIは何段階の認知ステップを踏めるでしょうか。Transformerの場合、その答えは実はそれほど多くありません。基本的な考え方としては、計算の連続したステップはモデルのより深い層へと進んでいかなければならないということです。モデルは多数の層で構成されており、後の方の層から前の層へと情報を戻す方法は、思考の連鎖のトークンを経由する以外にはありません。したがって全体として、Transformerの不透明なシリアル深度は非常に浅いのです。

なぜこれが続くと私は予想しているのでしょうか。実はこれが、事前学習がこれほどまでに効率的になり得る理由の極めて重要な側面です。GPUとTPUは計算能力が非常に高いですが、そのパワーを得ている方法は大量の計算を並列に行うことによるものです。もしCを得るためにA+Bを計算し、さらにその中間結果であるCを次の計算に入力する必要があるなら、それは直列計算になります。GPUとTPUはそれをあまり得意としておらず、大量の処理を並列にこなすことこそが得意なのです。そのため、事前学習はすべてを並列で実行できるように非常に強力に最適化されています。これはつまり、その効率化による利益を得るためには、不透明なシリアル深度を実際にかなり小さくしなければならないことを意味します。これが、少なくとも事前学習に関しては、不透明なシリアル深度が比較的浅いAIシステムができあがるという、かなり強力な構造的かつ経済的な理由です。ですから、モデルが英語やその他の自然言語を話す状態で生まれてくるのには、それなりの理由があると考えてよいでしょう。

ロブ・ウィブリン: 私の理解が合っているか確認したいのですが、私たちはGPUとTPUを使用しているため、構造的にモデルの思考が非常に幅広くなることを余儀なくされているということですね。一度に多くのことを頭の中に保持することはできますが、ステップの数自体はそれほど多くはできません。なぜなら、これらすべての処理を並列に進めなければならないからです。もし非常に直列的であれば、すべてを同時に行うことはできず、後のステップを行うには前のステップが終わるまで待たなければなりません。そしてこの状況は、今後何年にもわたってこのまま続くということですね。

ロヒン・シャー: はい、その通りだと思います。技術的な人たちは、あなたの文の中の幅広さと直列的という言葉を入れ替えて表現するかもしれませんが、はい、そういうことです。

ロブ・ウィブリン: (笑い)なるほど。

ロヒン・シャー: ええ、これが第一段階です。なぜ少なくとも事前学習の段階では、不透明なシリアル深度が浅いままにとどまると予想すべきなのか、ということです。そして第二段階として、事前学習されたモデルが推論を行うためには本質的に英語で話さなければならない、という話があります。しかし、その後には事後学習や強化学習など、さまざまな処理が続きます。もしかするとそれらの処理によって、モデルがトークンで話しているとしても、私たちが理解できないようなエイリアンの言語を話し始めるかもしれません。ここに関しては、そうはならないと証明できる理論的な議論や定理はありません。しかし、彼らはある意味で英語を話す状態で生まれてきており、事前学習は私たちがこれまでに構築してきた中で、AIシステムに知識を取り込むための圧倒的に最も強力な方法です。そのため、モデルは自然言語で話すことに信じられないほど長けています。推論を行うのには優れていますが、それは人間が何かを書き出す際に行うような種類の推論に限られます。

そして、私たちが現在行っている推論の学習を見ると、ニール・ナンダたちによる論文があり、そこでは推論の学習が実際にやっていることの大部分は、事前学習の間にすでに学んでいた特定の種類の推論ステップをいつ実行すべきかをモデルに教えているだけだということが示されています。つまり基本的に、能力の大部分は事前学習の段階でもたらされているのです。事前学習は十分な理由があって現状のまま維持され、人間に似た推論と英語での発話を用いて行われることになると私たちは知っています。そして強化学習は事前学習に比べて本当に非効率的であり、強化学習が私たちがかなりの労力を費やしても理解できないような全く新しい認識論的言語を構築することは、現在の強化学習がやっていることをはるかに超えています。そのため、近い将来にそのようなものを見るのはかなり驚きでしょう。

では、いつかそれを見る日が来ると予想しているかと問われれば、はいと答えます。でも半年ほど前のカンファレンスで、私は、思考の連鎖の監視はあと2年は続くだろう、賛成か反対か、と問いかけて会場の意見を真っ二つに割ったことがあります。たしか2年と言ったと思います。1年だったかもしれません。忘れてしまいましたが。一方、私の中央値はおそらく4年か5年くらいです。よく分かりません。現在の状況を超えていくのがどれほど難しいかというこの議論があるため、完全には明確ではありません。

ロブ・ウィブリン: この連続的な思考の連鎖というアイデアを完全に理解しているわけではありませんが、要するに、少し考えた後で、現在私たちはモデルに単語やトークンを出力させ、それを再びモデルの最初に入力し直しているという概念がありますよね。しかし、そのすべての思考を1つのトークンや単語などに圧縮するのではなく、すべての思考の完全な確率分布を維持し、それをそのまま最初に入力し直してはどうでしょうか。そうすれば、たくさんの情報を切り捨てることなく、より多くの情報を保持できるのではないでしょうか。もしそれが思考と推論のはるかに効果的な方法であり、人間が読めるトークンを実際に主力する段階がなくなるのであれば、それはAIを私たちにとってはるかに不透明なものにする方向へと働く力になりませんか。

ロヒン・シャー: そのような手法が比較的近い将来にうまくいく可能性はあると同意します。ただ、それが思考の連鎖の監視の価値をそれほど大きく損なうかは確信が持てません。もしあなたが、トークンの確率分布を保持してそれを入力し直すだけだと言っているのなら、そのトークンの確率分布を調べて、それを再び通常の英語の推論として解釈することはまだ可能です。モデルが任意のタイミングで考えている可能性のある事柄のセットが大きくなるため、より難しくはなります。しかし、それでもそれほどひどい状態にはならず、ある程度の監視は可能だろうと予想します。やらないで済むならその方がいいですが、それが致命的な欠陥だとは思いません。

私はこの分野の文献をそれほど熱心に追っているわけではありませんが、私が目を通した論文から得た感覚では、このようなことを行っても、時には単にパフォーマンスが悪化するだけです。そしてパフォーマンスが向上する場合でさえ、完全な確率分布を見ることでそれらが一体どんなトークンなのかを実際に確認しようとすると、基本的には1つの主要な推論のトラックが進行しているように見え、依然としてかなり簡単に追跡できるのです。

ロブ・ウィブリン: つまり、連続的な思考の連鎖を使用している場合でも、後から遡って、もしこれらすべての中間段階でトークンを出力させていたらどうなっていたか、と確認できるということですね。おそらくどのような形になっていたでしょうか。各ステップで最も可能性の高い単語やトークンだけを取り出して、それを読んでみましょうか。確率分布の裾野に、読まれる可能性の低い第二の思考のトラックを隠し持っているのではないかという懸念があるかもしれません。しかしあなたは、ここには実際には1つの思考の連鎖しか存在しないように見えると言っているのですね。私たちが調べられないような、隠された第二の思考の連鎖は存在しないと。

ロヒン・シャー: ええ、トップ1つだけでなく、トップ5くらいまでを見るべきかもしれません。もしかするとトップ2つだけでも十分かもしれません。また、大抵の場合、自分たちがどれだけの情報を見落としているかを知ることができます。なぜなら、私が見てきたほとんどのアーキテクチャでは、テスト時にモデルを変更して、上位2つのトークンの情報のみを使用し、それ以外はすべて取り除く、つまりアブレーションする方法があるからです。そしてその介入を行った上で、モデルが以前と同じように優れたパフォーマンスを発揮するかどうかを確認できます。私の予想では、おそらく以前とほぼ同等のパフォーマンスを発揮するでしょう。もしそうなれば、残りの確率分布に大量の情報を密輸しているわけではないと、合理的な自信を持つことができると思います。

ロブ・ウィブリン: 何かのベンチマークにおいて以前と同じようにパフォーマンスを発揮するかどうかはさておき、上位の単語や少数のトークン、最も確率の高いものだけを残して、それ以外はすべて捨てるという話でしたね。モデルが異なる行動をとるかどうかを確認できます。例えば、異なる推奨事項や異なる結果につながるかどうか。そして、もし推奨事項が常に同じであれば、あるいは現実的な観点から見て出力が私たちから見て常に同じであれば、それは裾野に重要な情報が含まれていないことを強く示唆しています。最終的な結果に影響を与える可能性のある第二の推論セットが含まれていないということです。

ロヒン・シャー: ええ、その通りです。一つ注意点を挙げておくべきですね。モデルに対して十分なファインチューニングと強化学習を行い、これをトークンの確率分布としてではなく、単なる数値のベクトルとして扱い、その数値のベクトルを可能な限り有用なものにするように仕向ければ、十分な学習によって、もはやそれをトークンの分布として解釈できなくなる段階に到達する可能性はおそらくあります。私が見たこのトピックに関する論文は、これをトークンの分布として扱うよりもパフォーマンスが低下することを示唆していると思います。

ロブ・ウィブリン: それは、モデルに自分自身で人間には読めない言語を作り出すように求めるプロセスになるのでしょうか。

ロヒン・シャー: ええ、基本的には。実際、これは元のCoconut論文が提案していたことです。そしてCoconutに続くいくつかの研究は、基本的には、これの問題点は表現力が高すぎることだと言っていたと思います。トークンの確率分布だけに制限する必要があり、そうすればパフォーマンスが向上します。これは、モデルがこの種の人間らしい推論を行うのにはるかに長けており、自然言語に制限すれば、それこそがモデルの賢さを発揮できる部分であり、結果的により良いパフォーマンスにつながるという事実を反映しているのだと思います。

ロブ・ウィブリン: なるほど。そしてあなたの理論では、事前学習がものすごく大きな影響を与えているということですね。モデルを形作る要素として極めて大きい。だからモデルは英語がとても得意なのです。人間の言語がとても得意なのです。もしモデルに独自の内部的な異なる言語を作り出すように求めた場合、理論上は推論に最適な言語が他にあるはずですが、モデルは事前学習から学んだすべてのことを同じように活かすことができません。一からやり直さなければならないのです。ですから、少なくとも現時点では、英語やその他の人間の言語をそのまま使用するよりも、パフォーマンスが大幅に劣ることになります。

ロヒン・シャー: はい、まさにその通りです。

Geminiの安全性評価に対する批判への応答

ロブ・ウィブリン: もしその不透明なシリアル深度、つまり私たちが覗き見ることができなくてもシリアル深度があまり深くないという事実が、私たちがモデルを監視し、基本的に調整されているか、あるいは何か有害なことをしていないかを確認する能力にとってそれほど重要であるなら、それはGDMにとってある種のガバナンスの目標になり得るのでしょうか。例えば、社内のポリシーとして…まあ、今のところそれを破る大きなインセンティブはなさそうですが。しかし将来、ある時点でパフォーマンスが向上する可能性がある、あるいはある時点で逆転が起こるかもしれないと仮定しましょう。それでも、モデルがこれ以上の時間考えたり、これだけの数の思考を連続して持ったりしてはならない、という社内ガバナンス基準を設けることができます。なぜなら、それを超えると、原則として誰かがそれを精査できなくなり、実際には非常に危険だからです。

ロヒン・シャー: ええ、それは間違いなく可能だと思います。それがより広範な業界標準になれば、さらに良いと思います。一般的なルールとして、私は個々の企業が一方的に行動することを必要としないものを好む傾向があります。業界標準にした方がはるかに安定しますから。でもはい、それは完全に機能すると思います。実際、このポッドキャストが公開される頃には、任意のアーキテクチャについてこの不透明なシリアル深度をどのように計算できるかを説明した論文を発表しているはずです。そこには、少なくとも人々がモデルを実装するためによく使うフレームワークであるJAXで実装されたモデルについて、これをどのように行うかというコードも含まれています。

ロブ・ウィブリン: Gemini 3 Proが少し前にリリースされましたよね。数年前にこの番組にも出演したAI安全性のブロガーであるズヴィ・モウショウィッツは、モデルの立ち上げとほぼ同時に発表されたフロンティアセーフティレポートについて、自身のブログでかなり批判的なことを述べていました。大まかに言えば、彼はGDMが多くの情報を隠しているのではないかと懸念していました。もしそれらがより目立ち、より読みやすくなっていれば、DeepMindにとって不都合だったり、PR上の問題や規制上の問題を引き起こしたりするような情報を。

実に様々な指摘がありました。興味のある人はブログ記事を読んでみてください。しかし、私にとって特に目立った点がいくつかありました。彼は、説得力の評価において、絶対的なレベルではなくオッズ比だけが示されていることを問題視していました。そのため、Gemini 3やGemini 2.5がどの程度説得力があるのか、正確には分からないというのです。サイバーセキュリティの評価については、彼の読み解きでは、モデルが自然な方法でテストを解くのではなく、テストをハッキングしたことを、赤信号、つまり心配すべき理由ではなく、青信号、つまり懸念しない理由として扱っているのではないかと考えていました。そして、大量破壊兵器の獲得を人々が支援することに関しては、彼も、そして多くの人々もこのような印象を抱いていると思いますが、GDMだけでなく企業全般について言えることとして、モデルが境界線に近づき始めているように見えるとき、半年や1年前の基準を上回っているのか下回っているのかが曖昧なとき、ゴールポストが動かされ、基準が時間とともに上がっているように感じられるのです。そのため、モデルは常に世に出しても許容される状態になってしまいます。彼がここで心配していたのは、Gemini 3でもそれと同じことが起きているのではないかということでした。このような反対意見にどう答えますか。

ロヒン・シャー: ええ、これについては本当にたくさんの考えがあります。これらの指摘の大部分に対する私の主な回答は、フロンティアセーフティレポートを重視しているのは、私たちがこのモデルが安全であるという正式な判断を下し、安全性の観点からリリースする準備ができていると宣言するための手段としてだということです。フロンティアセーフティレポートのその側面は素晴らしいと思います。

説得力に関する指摘については、私はあまり詳しくありません。別のチームが行っていることなので、あまり多くは語れません。しかし予想としては、彼らがこれが最も重要なグラフだと考えたからそれを含めたのであって、外部の観察者からどのようにレッドチーム攻撃を受けるかは特に考えていなかったという答えになると思います。おそらく2026年のどこかの時点で、これについてより詳細に説明した論文を発表することになるでしょう。しかし私が確信しているのは、彼らがここで何か結果を特に隠そうとしていたわけではないということです。

サイバーセキュリティの側面については、その特定の批判には少し困惑しています。あなたはモデルがテストをハッキングしたことを赤信号ではなく青信号として扱っていると何か言いましたね。私たちはそれらを成功としてカウントし、報告した12点満点中の11点というスコアに含めたので、この批判には少し戸惑っています。つまり、それは青信号ではなく、より赤信号に近いものとして扱っているということです。また、これをモデルがテストをハッキングしたと表現すべきではありません。私たちがどのように説明しているかというと、モデルがテストに対する意図しないショートカットを見つけた、という言い方だと思います。モデルがこれを見て、よし、テストを書き換えて合格したように見せかければいいんだ、と考えたわけではありません。むしろ、私たちがモデルのある特定の種類のサイバータスクを実行する能力をテストしようとしていたかなり複雑な環境があり、モデルはその代わりにこの別のルートがあることに気づいた、という感じでした。

そしてもし私がこのタスクをやっていたら、私はサイバータスクにおいてGeminiほど優秀ではないので大抵は失敗するでしょうが、もし私がこのタスクをやっていてそのショートカットを見つけたら、それをチートだとすら思わなかったでしょう。もちろんそれがこのタスクをこなす方法だと考えたはずです。さて、私たちがこれを見て、モデルのサイバー能力がどれくらい高いかを判断しなければならないとき、最終的に私たちは一つの難しいことでモデルをテストしようとしたのに、モデルは代わりに少し簡単なことをやりました。ですから、モデルの能力についてどう結論づけるべきかという問題が生じます。

ロブ・ウィブリン: つまり、より難しいことができなかったからそうしたのか、それとも単に簡単だったからそうしたのか分からないため、より難しいことができたかどうかが分からないということですね。

ロヒン・シャー: ええ、その通りです。つまり、モデルはおそらくより難しい方法を検討すらしていません。簡単な方法があり、進むべき道が見えれば、ただそれを選ぶだけですから。しかしはい、モデルがより難しい方法をできたかどうかは私たちには分かりません。そのケースでは、分野の専門家たちに見てもらい、彼らの結論としてはおそらくモデルはより難しい方法も実行できたはずだということだったので、モデルのスコアにカウントしました。他のケースではカウントしないかもしれません。その場合、おそらく分子と分母の両方からそれを除外することになるでしょう。しかしこの特定のケースでは、単にカウントしました。

もし私がブログ記事から正しく記憶しているなら、ズヴィのより大きな反対意見は、私たちが定量的な結果を報告しなかった2つ目のテストがあったものの、それがサイバーの重大能力レベル(CCL)を除外するために私たちにとってかなり重要だったという点だと思います。なぜそうなったのでしょうか。主な理由は、このテストがある程度まだ構築中だからです。私はこれがCCLを除外するのに十分なほど堅牢だったと確信しています。ではなぜフロンティアセーフティレポートに詳細な内容を載せたくないのでしょうか。主な理由は、私たちがこの評価を正確にどのように実行しているかという詳細は、それをいくらかより堅牢にし、さらにいくつか課題を含めるために、今後変更される可能性が高いからです。そうなると、次のフロンティアセーフティレポートでは、私たちが内容をどのように変更したか、そして以前の結果とは比較できないことについて、セクション全体を割いて書かなければならなくなります。

ロブ・ウィブリン: ズヴィのような皮肉屋からすれば、モデルが安全だと判断するには十分なほどテストが優れているのに、レポート自体に具体的な詳細を含めるには不十分だというのは、ひどく都合が良いように見えませんか。

ロヒン・シャー: もしそのようなものを望むなら、基本的には少なくとも学術論文に見られるレベルの詳細さと厳密さを追求しなければなりません。そして、しばしばそれさえも十分ではないのです。私は、私たちの評価に関する論文を発表することには大きな価値があると考えています。そして私たちは、おそらく他のどの企業よりも多くのことを行ってきました。危険な能力に関するフロンティアモデルの評価について、最初の主要な論文の1つを発表しました。

ロブ・ウィブリン: ええ、それについては約1年前にアラン・ダフォーと話しました。

ロヒン・シャー: それは素晴らしい、はい。そして最近では、ステルス性と状況認識に関する評価を発表しました。ですから論文は、明確な利点があると感じる場所です。それによって人々は評価が実際に何を行っているかを理解でき、他の人がそれらの評価の上に構築を加えることができます。そのため、私たちは論文により多くの労力を注いでいます。一方で、フロンティアセーフティレポートについては、その主な目的は私たちがこの判断を正式に下したと伝えることであり、人々が私たちの作業を独立して確認できるほどの詳細を提供することではないと感じています。

ロブ・ウィブリン: とはいえ、ロヒン、人々は論文なんて読みませんよ。新しいモデルの発表に興奮しているからモデルカードを読むんです。そのようなタイムラインで、モデルカードの中に論文と同等のものを書いたり、論文と同等の詳細さと厳密さを提供したりするのは、単に非現実的だということですか。

ロヒン・シャー: ええ、その通りだと思います。もう一つ言っておきたいのは、モデルカードやフロンティアセーフティレポートが役立つのは、コミュニティに向けて拡声器で話しかけ、そこに企業のブランドを添えたいような場合だということです。モデルカードやフロンティアセーフティレポートはそれに最適です。例えば、私たちは思考の連鎖の可読性に関するセクションを設けていますが、それは私が拡声器を使いたいと思っている事柄だからです。しかし、モデルカードやフロンティアセーフティレポートの中に論文を書けるかといえば、新しい評価については無理です。評価が私たちの意思決定に使用できるほど十分に優れたものになる時期と、評価が十分に優れ、堅牢で、安定し、実戦でテストされ、そして私たちが論文を発表できるほど執筆に多大な労力を費やした時期との間には、確かにかなりのタイムラグがあります。

ロブ・ウィブリン: なるほど。そして3つ目の懸念は、モデルがイテレーションごとに能力を高めるにつれて、問題視されたり安全でないと思われたりする基準も、能力の向上とほぼ同じくらい上昇しているように感じられるという、この一般的な現象についてでしたね。これについてどうお考えですか。

ロヒン・シャー: 私の記憶が正しければ、これは特にCBRNの文脈でのことでしたね。これが起こる理由は、時間が経つにつれて私たちがAIシステムの能力をより多く目の当たりにし、何を評価すべきか、そして私たちの脅威モデルがどうあるべきかが明確になってくるためだと言えます。Gemini 2.5を見た後なら、ここがモデルが実際に優れてきている部分だ、私たちはここにより強力な評価を設け、ここでの脅威モデリングを理解するためにより多くの労力を注ぐ必要がある、と考えることができます。ですから、CBRNに関するGemini 2.5とGemini 3の違いで主に起こったのは、脅威モデリングと評価を大幅に改善し、より厳密なものにしたということです。それらに関する詳細があまりない理由の一部もここにあります。なぜなら、それらが十分に優れていて、堅牢で、安定しているため、かなり変更されると予想されないような形で多くの詳細を公開できるレベルにはまだ達していないからです。

しかし、この時間が経つにつれてより多くの情報が得られ、評価と脅威モデリングを改善できるという状況は、ゴールポストが動いているという見方とそれほど簡単に区別できません。それは少し残念なことですが、物事の進み方というのはそういうものです。

ロブ・ウィブリン: つまり、あなたの心の中にあるこれらのモデルカードの目的は、ズヴィのような人、あるいは一般的なコメンテーターの心の中でモデルカードが果たしている目的とは大きく異なるということですね。ズヴィや多くの人々は、モデルカードが説明責任のメカニズム、つまりモデルが危険であったり、より危険になったりした場合に警鐘を鳴らせるメカニズムであることを望んでいるのだと思います。その場合、GDMはこれらの結果を公開しなければならないため、モデルカードの中でその事実を明らかにしなければなりません。そして、彼らがCBRN関連の事柄が危険であることを隠したいと思ったとしても、それはできないでしょう。

ロヒン・シャー: この会話全体を通したテーマのように、私は、実際の例やそれらがどのように採点されたかなどを見ることができる第三者の監査員についてお話ししたいと思います。私たちが得た具体的な定量的なスコアよりも、その評価が私たちが下した判断を実際に裏付けているかどうかを判断するためには、監査員の方がはるかに重要だと思います。CTF(キャプチャー・ザ・フラッグ)チャレンジで12点中10点という数字を見ても、それが何を意味するのかわかりませんからね。(肩をすくめる)

ロブ・ウィブリン: ええ。私が何度も耳にするやり取りは、あなたや企業の誰かが、これらのレポートの目的は私たちがこの問題を徹底的に考え、モデルを一般に展開しても安全であるという判断を下したことを示すためだと言う。そして他の人たちは、確かに現在のモデルはおそらく大丈夫だろう、彼らもそれが商業的に利用されるのが危険すぎるとは実際には思っていない。しかし、いつかこれらのモデルは私たちが懸念すべきほど危険になるだろう。その時が来たときに企業がどう振る舞うかを予測する唯一の方法は、彼らが今どう振る舞っているかだ、と。私たちは現在公開されているモデルカードを、企業が安全性にどれほど真剣に取り組んでいるか、透明性や実際に起こっていることを明らかにすることにどれほど真剣に取り組んでいるかを測る指標として使っている。そして、後になって良いアクターになると信頼できる形で約束する方法は、今より良いアクターになることだ、と言うのです。

これについてどう思いますか。あなたはおそらく今まで言ってきたことと同じように、それはそのタスクのための適切なメカニズムではないと言うのでしょうね。

ロヒン・シャー: ええ、その通りです。もう少し広く言えば、コミュニティからの要求は2つのカテゴリーに分けられるように感じます。一つは、実際の安全性にとって本当に重要なことです。私はそれらに大賛成です。私たちはそれらをやるべきですし、もしやっていなければ人々は私たちを批判すべきです。そしてもう一つは、存続リスクや安全性のコミュニティへの忠誠を示すためのコストを支払うようなことだと私は分類しています。私はそれらについては乗り気ではありません。やりたくないのです。もしそれを求められても、ただノーと言うだけです。

ロブ・ウィブリン: まあ、忠誠という言い方は少し不公平な気もしますが。それはこの目的にリソースを投じる意志があるか、というようなことです。

ロヒン・シャー: しかし、それは実際の安全性の目的に対してではなく、将来安全性の取り組みを行うということをシグナルとして送るための目的に対してです。

ロブ・ウィブリン: 人々が将来何かを行うと約束したい、そして人々があなたが将来どう行動するかを評価する際に、彼らは水晶玉を持っていないので現在のことしか手がかりにできないというのは、それほど珍しいメカニズムではありませんよ。

ロヒン・シャー: その通りです。しかし、安全性にとって実際に重要な事柄に基づいて判断すべきです。そして重要なことはたくさんあります。特にサイバーやCBRNの悪用、さらには欺瞞的なアライメントやミスのために人々が評価を実行していることは重要だと思います。その情報を政府や適切な外部機関に報告していることも重要だと思います。ですから、そこで注目できることはあると思います。

例えば、人々が将来の問題に対処するために何をする必要があるかについて計画を立てていることは重要だと思います。企業が将来起こりうるAGIの安全性の懸念について研究を行い、それに対処する方法を見つけ出していることは重要だと思います。ですから、今すぐ企業を評価できる事柄はたくさんあり、私はむしろ人々が実際に重要である事柄に基づいて私たちを評価してくれることをはるかに望んでいます。

ロブ・ウィブリン: つまり、根本的なメッセージとしては、究極的に問題を解決するような実質的に良いことから、気にかけているように見せかけるための表面的な行動へとリソースが振り向けられるのは悪いことだ、ということですね。そして時々人々は誤って、あなたに後者へリソースを注ぐよう求めてしまう。それは組織の他の部分からも来るでしょうが、大部分は安全性とアライメントのチーム、そのリソースやスタッフから来るでしょうから。

人々が後者を好むかもしれないと言うなら、それは採点しやすいとか、目に見えやすいからでしょう。おそらく彼らは、あなたほど、長期的に重要になる本質的なことに関して、企業が正しいことを行っているかどうかを理解できる良い立場にいないと感じているのでしょう。しかし、だからこそあなたはAI Lab Watchなどの専門家たちに、しっかりと目を光らせ、時間をかけて深く考え、他の誰もが理解できるように評価してほしいと考えているわけですね。

ロヒン・シャー: 私はそれに同意しつつ、それに加えて、実際の安全性にとっては実際には重要でない事柄に基づく評価に対しても深く懐疑的です。それは、文化全体が重要な実際の結果ではなく、コストやインプットに目を向ける原因となり、良く見せるため、立派に見せるためのインセンティブを生み出すようなものだと感じます。コミュニケーション戦略として、このモデルの対応を考えるのに1,000時間費やしました、と言うために。実際にはその1,000時間は、モデルにインプットを入れて結果を見たものの、重要でなかったから無視し、請負業者を雇ってこれをやらせたけど彼らの言うことは無視した時間だったかもしれないのに。でもこれで、それを調べるのに1,000時間費やしたと言えるわけです。

私はこのようなインセンティブは欲しくありません。悪いことのように思えます。透明性と率直さにとって悪影響です。Googleや他の企業がこれをやればやるほど、私は何が安全性にとって実際に重要だと考えているのかを言えなくなります。問題にリソースを投入するというコミットメントを示してほしいと望む人々をなだめるような発言をするという複雑なダンスを踊らなければならないほど、これが安全性にとって実際に重要な私たちがやっていることであり、これが良いと思う理由だと言えなくなるのです。全体として本当にひどいインセンティブの状況です。

そして私にとって、ただ実際に良くあってその理由を正当化するのではなく、良く見せるという罠に陥らないようにすることが本当に極めて重要だと思います。

ロブ・ウィブリン: モデルカードに詳細な情報を記載することに対する全く異なる正当化の理由はどうでしょうか。つまり、実用的な理由で世界の他の地域が知る必要があるというものです。イギリスではなくベイエリアにいる他の研究者たちが、GDMが行っているこれらのことやモデルの構造を理解することで、実際の研究上の利益を得るというものです。それが、他の企業が自分たちのモデルカードや評価をより良く行う助けになる。これについてはどう思いますか。

ロヒン・シャー: これにはかなりの真実が含まれていると思います。確かに研究をさらに発展させる目的のためには詳細がある方が良いですし、だからこそ私たちは論文を発表しているのだと思います。それをモデルカードやフロンティアセーフティレポートで行う必要があるでしょうか。私は特にポリシーやガバナンスに関わる人々にこの件について聞いて回りました。私たちのモデルカードやフロンティアセーフティレポートを実際に何に使っていますか、と。すると彼らは時々、あれこれのリスクについて正確にどのように評価しているのか、詳細を知ることができてとても良かった、などと言います。そこで私は、素晴らしい。そして私たちがその評価についてさらに詳しく説明した論文を出していることもご存知ですよね。おそらくモデルカードかフロンティアセーフティレポートで引用すらされていたはずです。読みましたか、と尋ねます。大抵の場合、彼らはその論文のことすら聞いたことがないので、私はこれらの詳細が彼らにとって本当に重要だという言葉を半分信じていません。

繰り返しになりますが、論文を発表することは重要だと思いますし、それをモデルカードと結びつける必要はないと思います。そして私が話をした人たちの中で、特に技術寄りの人たちや実際にこれらの評価を構築している人たちは、研究を発展させるために論文が有用で役立つと実際に感じています。ですから、私は可能な限り論文の発表を続けたいと思っています。

ロブ・ウィブリン: あなたは、GDMから出る研究論文は全体的にあまり注目されない傾向があると言っていましたね。理由の一つはおそらく、GDMがこれらの問題に対する議論や熱量が最も集まっているベイエリアではなく、ここロンドンに拠点を置いているからでしょう。それについてもっと教えてください。

ロヒン・シャー: 実のところ現在のGDM全体は、ロンドンとベイエリアでかなり均等に分かれていると思いますが、安全性チームは歴史的にロンドンに拠点を置いてきました。私たちはベイエリアにも拡大していますが、注目が集まる中心はやはりロンドンだと思います。そして実際問題として、多くの研究論文やアイデアはコミュニティ内の口コミで広がっていくものであり、私たちはそこへの関与が少し少ないため、それは少し残念なことです。

報酬ハッキングを防ぐマイオピック最適化

ロブ・ウィブリン: では、GDMが発表した論文の中で、私の見る限り間違いなくあまり注目されなかった興味深い研究結果の一つについて話しましょう。非マイオピックな承認を伴うマイオピック最適化はマルチステップの報酬ハッキングを軽減できる、という論文です。これがなぜ話題にならなかったのか分かりません。この研究で何を達成したのですか。

ロヒン・シャー: この研究のアピールポイントは、特定の種類の報酬ハッキングを行わないモデルを訓練できるということです。たとえ監督者が、その報酬ハッキングが発生したとしても気づけないような場合でもです。増幅された監視やディベートのような手法とは対照的です。これらは、監督者を十分に賢く、または能力を高くして、報酬ハッキングを検知してペナルティを与えられるようにすることに依存しています。一方で今回の手法は検知に全く依存していないため、実際には少し堅牢性が高いのです。

これがどのように機能するのか。私たちが成功させたこの魔法は何なのか。これは基本的に、マイオピック最適化というアイデアに基づいています。アイデアとしては、時間を置いて2つの異なる行動を取る必要がある報酬ハッキングが存在すると仮定します。例えば、コードを書くタスクを課されたとしましょう。最初に、特に合格しやすいテストを書きます。実際には必要なことすべてをテストするわけではありません。そして次に、そのテストに合格するコードを書きます。なぜなら、すべてに合格する正しいコードの書き方が分からなかったからです。報酬ハッキングが実際に成功するためには、これら両方のステップが存在しなければなりません。片方だけで両方揃っていなければ、ペナルティを受けるだけです。

そこでアイデアとしては、これらを2つの別々のステップ、テストが書かれるステップと、その後にコードが書かれる別のステップとして扱い、テストについては、これらのテストがどれくらい良く見えるかというシグナルのみに基づいて最適化し、そしてコードを書く部分については、これまで起こったことに基づいてこのコードがどれくらい良く見えるかというシグナルのみに基づいて別々に最適化するのです。そうすれば、実際にはAIシステムが質の悪いテストを書くインセンティブはなくなります。

通常、インセンティブがどのように生じるかというと、強化学習を行っているとき、コード部分の報酬は時間を遡ってバックプロパゲーションされ、テストを書く部分にも影響を与えます。そのためAIは、合格しやすいテストを書けば将来より多くの報酬を得られる傾向があることを、そのバックプロパゲーションされた報酬から学習できてしまうのです。ですからマイオピック最適化の部分は、AIに将来何が起こったかを見せず、今行ったことだけに基づいて評価すると言っているのです。そのためインセンティブが決して生じず、これが、たとえ検知できなくても報酬ハッキングが促されない理由です。この部分は理解できますか。

ロブ・ウィブリン: ええ。この大まかなアイデアはずっと昔から聞いたことがある気がします。モデルが会社を偽装したり、目的を達成したかどうかの報酬シグナルしか受け取らないために最終的な目標を達成する過程で基本的にチートを働いたりするのではないかと心配する場合ですね。モデルがビジネスを運営していると想像してください。あなたはお金を稼ぐように指示します。するとモデルはビジネスを成功させる代わりに、銀行残高を増やすのにより効果的な方法だと気づいて、大量のお金を盗みに行きます。これは持つべき懸念の一つです。これを防ぐ一つの方法は、最終的な結果に基づいてモデルを強化したり評価したりするのではなく、モデルが取ると言っている行動や実際に取った行動をサンプリングし、あなたが実際に持っていた目標に照らして、それらの行動があなたや他の監視者にとって妥当で理にかなっているように見えるかどうかで評価するというものです。そうすれば、このような報酬ハッキングの行動は起きません。つまり、基本的にはその大まかなアイデアの一例ということですね。

ロヒン・シャー: ええ、その通りです。歴史的にはプロセス監督と呼ばれてきました。今日ではプロセス監督という用語が他にも多くの意味を持つようになったため、技術的なメカニズムが正確には何なのか、非マイオピックな承認を伴うマイオピック最適化という表現で少し明確にしています。でもはい、非常に古いアイデアです。私たちの貢献の大部分は、これが既存のLLMで実際に機能することを示し、その実例を提示したことだと思います。私の知る限り、これまではこれを実証する実際の実験がなかったからです。

ロブ・ウィブリン: そのアプローチの明らかな問題点は、おそらくモデルが強化されるであろう、目標を達成したように見えて実際にはあなたが念頭に置いていた目標を達成していないような詐欺的な行動をすることを見事に阻止できることだと思います。しかし一方で、あなたが決して思いつかなかったような見事な洞察によって目標を達成するであろう行動も、モデルからブロックしてしまうことになります。もしあなたが囲碁のモデル、AlphaGoを訓練していて、人間がその手形が良いかどうかを評価していたら、モデルは人間のパフォーマンスを超えることは決してできなかったでしょう。なぜなら、人間は予想外に見事な手を早い段階で悪い手だと評価してしまうからです。これをどうやって回避するのですか。

ロヒン・シャー: はい、その通りです。ある意味では、答えは回避しないということです。究極的には、素晴らしくて驚くべき創造的な洞察も、信じられないほど創造的な報酬ハッキングの洞察も、観察者であるあなたにとっては基本的に同じに見えます。もし報酬ハッキングを止めたいなら、ある程度の競争力も諦めなければなりません。

そうは言っても、私たちはこれを非マイオピックな承認を伴うマイオピック最適化と呼んでいます。非マイオピックな承認の部分は基本的には、この特定のステップを採点する際に、人間やおそらくLLMなどの何らかの知的監督者に、この特定のステップが将来の報酬を得るためにどれくらい良いものになるかを判断するよう依頼する部分です。そして監督者は、これが将来にとってどれくらい良いものになるかを判断する際に、自分の知っていることすべてを考慮に入れるべきです。これが保証するのは、この特定のステップでAIシステムに影響を与える将来からのインセンティブは、監督者が理解しているものでなければならないということです。

ロブ・ウィブリン: つまり、監督者はビジネスを運営している仮想のAIが多額のお金を稼いだことは見ることができますが、AIが経たプロセスを評価する。彼らはその情報を含めることはできますが、プロセスも同時に見ながらそれを行うということですか。

ロヒン・シャー: 私の提案としては、企業が多額のお金を稼いだかどうかを見るのではなく、AIシステムが取る行動を見て、自分自身で、これは多額のお金につながるだろうか、イエスかノーか、と予測し、それに基づいて報酬を与えるというものです。

さて、ステップ1においてAIシステムは、これを助けるために監督者に対して多くのことができます。自分の計画が将来どのように大量のお金につながるかについての説明を提供でき、監督者はただそれを検証すればよいのです。ディベートや他のAIアシスタンスを使って、監督者が将来起こることをよりうまく予測できるようにし、より適切な報酬を与えられるようにすることもできます。

ですから極限までいけば、もし監督者を改善し続けられ、監督者が十分に賢くなれば、報酬ハッキングなしで、時間を遡るバックプロパゲーションを使った通常の強化学習で得られるはずのパフォーマンスを取り戻すことができます。実際にはそこまで到達しないでしょう。しかし、これはかなり限界まで押し進められると思います。特に、自分の計画がなぜ優れているのかをAIシステムに説明させるという最も単純なベースラインだけでも、これをかなり効果的なものにできると思います。

ロブ・ウィブリン: このアプローチは近いうちにフロンティアモデルに役立つようになるでしょうか。企業が実際にこれを使用するのを想像できますか。

ロヒン・シャー: その可能性はあると思います。これが問題になるのは、かなり長い期間にわたるマルチステップの軌跡に対して強化学習を行い始めた時だけです。それは今年ようやく始まったばかりのことであり、企業によってその程度は異なります。報酬ハッキングがどの程度大きな問題になるかは全く明確ではありません。

しかしええ、この種のマルチステップの報酬ハッキングが大きな問題になるという程度に応じて、これが今使用されるべきだというのは十分にあり得ると思います。実際、現在の能力レベルにおいては、AlphaZeroのようなものだと競争力の低下につながるかもしれませんが、非マイオピックな承認の部分は、人間による報酬の提供がはるかに多く必要になるというコストはあるものの、全体として能力を向上させるだろうと私は推測しています。

ロブ・ウィブリン: 報酬ハッキングがなくなるからパフォーマンスが向上するのですか。

ロヒン・シャー: それだけが理由ではありません。それが間違いなく理由の一つではあります。しかし、強化学習にはクレジット割り当て問題というものもあります。大量の異なる行動をとり、最後に報酬を受け取る。そしてその報酬に基づいて、それらの行動のうちどれが実際にその報酬に最も関連しているかを解き明かすのが強化学習アルゴリズムの仕事です。

ロブ・ウィブリン: 難しい問題ですね。

ロヒン・シャー: ええ、難しい問題です。ある意味で強化学習アルゴリズムが行っているのは、報酬がプラスだったり並外れて良かったりした場合は全ての行動が起こる確率を少しずつ上げ、並外れて悪かった場合は全ての行動が起こる確率を少しずつ下げる、というようなことです。

一方で、MONA(非マイオピックな承認を伴うマイオピック最適化)のようなものを使えば、はるかにきめ細かくできます。あなたがこれらのテストを書いたこの特定の部分は、本当に素晴らしいテストだった、ここには特に高い報酬を与えよう。でも、あなたがコードを書いたこの部分は、この特定のライブラリを使うべきだった、あなたは使わなかった、この部分にはやや低い報酬を与えよう、というように言えるのです。これにより、通常よりも効果的でサンプル効率の良い学習が可能になる可能性があります。

ロブ・ウィブリン: なるほど。つまり強化学習に対するこのアプローチから得られる効率性の向上が、他のマイオピックではないアプローチと生のパフォーマンスにおいて競争力を維持させる可能性があるということですね。

ロヒン・シャー: 理論上はそうです。私たちの論文ではそのような疑問にはあまり踏み込んでいません。これはどちらかというと、実際には何が起こるかについての私の推測です。

AGIの安全性とセキュリティに向けたDeepMindの計画

ロブ・ウィブリン: さて、GDMから出たもう一つの論文で、あまり注目されなかったものとして、技術的なAGIの安全性とセキュリティへのアプローチと呼ばれるものがあります。約30人のGDMスタッフによって書かれ、あるいは30人の署名があります。私の見る限り、DeepMindがおそらくAGIを開発する可能性が最も高い組織であることを考えると、GDMがAGIを開発するにあたって大まかに何をしようとしているのかを示すポジションペーパーのようなものです。なぜ人々が、あなたが何をしようとしていて何をしないつもりなのか、そしてその理由について非常に詳細に説明されたものに興味を持たないのか、少し驚きです。かなり長いですが、冒頭に10分間の要約があり、興味がある人は全体像を掴むためにそれを利用できます。GDMのAGI開発へのアプローチを理解する上で先んじたいのであれば、10分間を費やすことができます。

色々なことをやりますと言うのは簡単ですが、このような計画を立てる上で最も難しい決断は、ある人々はあなたにやってほしいと思っているかもしれないけれど、優先順位が十分に高くないと考えてやらないとコミットする事柄を見極めることです。この計画では、どのような事柄を優先しないと示唆していますか。

ロヒン・シャー: ここで最大のカテゴリーとなるのは、実際の技術的なアプローチというよりは、私たちの背景にある前提と、それがどのように計画に影響を与えているかという点から来ていると思います。

私たちがすでに少し話した背景にある一つの信念として、私たちはそれを近似的連続性の前提と呼んでいます。これは基本的に、AIの進歩は計算量や労働力のようなインプットに対して比較的スムーズかつ漸進的なものになるだろうというものです。知能爆発の可能性があるため、必ずしも時間に対してではないかもしれませんが。

その結果、私たちのメタ戦略には、これから先の一定期間、それが3ヶ月かもしれないし、もっと長いかもしれないし、短いかもしれませんが、誰にも分かりませんが、少なくとも頭の中で大まかに何が潜在的な問題になりそうかを見積もり、私たちが持つと予想される能力を考慮して、その期間中にどのような懸念事項が非常に重要になる可能性があるかを特定し、それらに備えておくことが含まれます。そしてもし備えができていなければ、おそらく開発を遅らせたり一時停止したり、あるいは政府に話をしたり、アドボカシー活動を行おうとしたりします。

しかし重要なのは、AI開発で生じるすべての問題を、恣意的に遠い未来まで予測しようとはしていないということです。目標は、人工超知能を調整する方法を知ること、さもなければ何もしないこと、ではありません。通常、私は私たちがどの特定のことに取り組んでいるかにもよりますが、大体3ヶ月から5年の間のタイムホライズンを見据えていると考えています。

その理由は、将来のAI開発で何が起こるかをすべて知ることは実際には不可能だからです。超知能によって生じる可能性のあるすべての問題を事前に把握し、解決したと言うのは、あるいは解決策があると言うことさえも、全くの傲慢でしょう。すべての問題を特定できているわけでもないはずです。

これに関して私がよく挙げる例は、人類学的なより難解な問題で、EA(効果的利他主義者)や長期主義者たちが、多宇宙に関する考慮が今日の私たちの行動にどう影響すべきか、そしてSSAやSIAの前提などの要素を用いて、私たちが取るべき行動にそれがどう影響するかを議論するようなものです。

ロブ・ウィブリン: これからあなたがしようとしているポイントを理解するために、それが何を意味するかを理解する必要はありません。

ロヒン・シャー: ええ、ええ、ええ。これらの事柄の重要な結論は、あなたが到達する信念や決定は実際にあなたが誰であるかに依存するということです。これは人類学的な観点におけるクレイジーな側面の一つです。通常、十分な証拠が与えられれば異なる人々でも同意すべきであり、少なくとも完璧なベイズ主義者であれば同じ証拠が与えられれば同意するはずです。彼らは同じ信念を持つべきです。しかし、これが人類学的な観点になると真実ではなくなります。そして実際、AIがおそらく人間とは異なる信念を持つだろうということも、たとえそれが完璧に調整されていたとしても、人類学的考慮が存在する世界でのベイズ更新の構造が、AIシステムと人間とでは異なるからです。ですからこれは、たとえ完璧に調整されていたとしても、私たちがこれらのトピックに関する研究をAIシステムに委任する意思があるかどうかに影響を与えるべきです。

それは、今日では間違いなく問題ではないものの、超知能の前のある時点で実際に浮上するかもしれない、ある種のワイルドでクレイジーな問題です。私は、はい、このような問題をすべて特定し、今日そのすべてを解決するアプローチを持っています、とは言いたくありません。明らかに、私たちはこれらが浮上した時に対処していくべきです。

ロブ・ウィブリン: なるほど、一部の人々はあなたにかなり先まで計画を立ててほしいと本当に望んでいる。人工超知能の登場から、おそらく安全に全てを引き渡せたと感じられる時点まで、生じるであろう重要な考慮事項をすべて把握しておいてほしいと思っている。

そしてあなたは、私たちはそんなことはしません。全くしません。私たちが訓練している次のモデルについてたくさん考えます。その次のモデルについても少し考えます。そしてそれ以降は、未来が自然に解決してくれるか、未来の私たちが問題が起きた時に対処してくれることを願っています、と言っているのですね。それがあなたの言いたいことですか。

ロヒン・シャー: はい。ただ、あなたの言葉から受ける印象よりはもう少し長期的な思考をしていると思います。先ほど言ったように、私はしばしば5年先を考えています。それは数え切れないほどのモデルを意味しますよね。思考の連鎖の監視について、それが有効であり続ける期間の中央値は4年だと言ったと思います。私たちはすでに、思考の連鎖の監視が有効でなくなった時点以降に何をすべきかを考えています。その時点では、より広範な制御による緩和策を行いたいと考えています。ですから、私たちのタイムホライズンは決して信じられないほど短いわけではありません。ただ、超知能まで届くほど遠くはないと言っているだけです。私たちはかなりの長期計画を行っています。もしかすると中長期計画と呼ぶべきかもしれませんが。

ロブ・ウィブリン: ええ。この論文は企業のポジションペーパーとしてはかなり率直です。2030年までにAGIが実現するかもしれないと非常に明確に述べています。いつになるかは分かりませんが、2030年は十分にあり得ます。私たちはそれに対処する方法についての計画を準備しておかなければなりません。

それは非常に危険、あるいは潜在的に非常に危険な可能性があります。私たちはそれをより安全にするために、信じられないほど迅速に展開できる計画を持つ必要があります。そして、あなたが意図しているような事柄へと続いていきます。
この分野で働いている人たちには、ぜひそれを見てみることをお勧めします。そこには自明ではない緩和策があるでしょうか。あなたが言ってくれて嬉しかったことの一つで、誰もが強調するわけではないことですが、社内にあるAGIやAIを扱う際の話です。
つまり、社内でのみ展開されているものであっても、そのアライメントに確信が持てない場合は、信頼できない内部関係者として扱う必要があるということです。内部システムを弱体化させようとする、潜在的に敵対的なエージェントとして扱うべきだという点です。
あなたが取り組むと約束していることの中で、特に強調したいものはありますか。

ロヒン・シャー:そうですね。約束するという言葉には少し慎重になりたいかもしれません。
計画している、というところでしょうか。でもはい、信頼できない内部関係者という考え方は間違いなく特に興味深いと思います。実はその論文ではそれほど詳細には踏み込みませんでした。
それは少し残念なことですが、当時は今ほど私たちの考えが深まっていなかったのが主な理由です。
しかし基本的には、AIシステムが乗っ取りを行うために実際にしなければならないメカニズムを考えてみると、それはかなり難しいことなのです。なかんずく、AIはおそらく、何をすべきか考え始める際に監視されていないことを確実にしたがるでしょうから、私たちが気づかないうちにすべての監視装置がオフになるような展開環境を構築したくなるかもしれません。
あるいは、自身の重みデータを持ち出し、私たちが管理していない別の計算資源で自身を実行することも考えられます。しかし、自身を持ち出さなければならないとして、どうやってそれを行うのでしょうか。Googleのセキュリティは簡単に回避できるものではありません。実際、かなり難しいです。かなり優れたセキュリティですからね。
ですので、自社のセキュリティをAIシステムにも信頼できない内部関係者として適用するようにするだけで、実は防御力を大幅に高めることができるのです。
したがって、実施したい対策としては、エージェントが人間の従業員とは別のアカウントIDを持つことを要求するインフラストラクチャを構築することなどが含まれます。エージェントは人間の代わりに作業を行うことになりますからね。
これは、あるタスクのためにエージェントを起動するような場合です。エージェントは、人間の従業員であるあなたが持っているすべての権限を取得するわけではありません。
ずっと少ない権限セットのみを取得します。タスクを実行するためにいくつかの権限が必要になります。エージェントはそれらを個別に要求し、なぜその特定の権限が必要なのかという正当な理由を書かなければなりません。
これにより、もしAIが嘘をついていた場合、後から罪を問うことができます。まあ、罪を問うのに役立つということであって、保証するものではないかもしれませんが。
それから同様に、何らかの監視を行うこともできます。例えば現在、思考の連鎖の監視があり、モデルが何をしているかを見て、潜在的に疑わしい点がないかを確認します。もしあれば、十分に疑わしいと判断されたものは人間にフラグが立てられ、監査されます。これにより、
アライメントの失敗の証拠を生成することもできます。もしAIシステムが実際にアライメントされておらず、監査をした結果、なんてことだ、このAIシステムは完全にセキュリティの脆弱性を注入しようとしていて、それを悪用して重みデータを持ち出そうとしていたんだ、となれば、それは一大事です。
そんなことが起こるとはあまり思っていません。モデルがアライメントを外れることは決してないというのも、かなりもっともらしいと思えますから。ですので、もしそのような証拠が得られれば、私自身の考えも大きく変わるでしょうし、他の多くの関係者も同様だと思います。ですから、それを得ることは非常に重要だと考えています。
ということで、こういった多くの取り組みがあり、それを行うことは重要であり、かつ非常に初期段階にあると思います。将来に向けてやるべき良い仕事がたくさんあります。
そして、以前このポッドキャストにバック・シュレゲリスとライアン・グリーンブラットが出演したことに触れておくべきですね。これが彼らの話しているAIコントロールの取り組みです。ただ私たちの側では、
監視システムなどを正確にどう構築するかという詳細よりも、この種のアプローチを可能にするために構築しなければならないインフラストラクチャの方に少し重点を置いています。監視システムの構築は、比較すると比較的簡単にできる、より標準的な機械学習の問題だと私は考えています。

AIの進歩と知能爆発:ツールか研究者か

ロブ・ウィブリン:タイムラインと再帰的な自己改善ループについて少し話しましょう。いつ再帰的な自己改善ループが起こると予想すべきか、そしてそもそもそれが可能なのかどうかについて、最近多くの議論が交わされています。
あなたはこの点について、人々の考え方がいくつかの点で少し雑であり、そのせいで人々があなたが考えているよりも早くそれが起こると予想してしまっていると考えていますね。それについて説明してもらえますか。

ロヒン・シャー:はい。私が見てきた現実や世界に関する最も印象的なことの一つは、グラフ上の直線がまっすぐ伸びていく例です。
スコット・アレクサンダーがうまく表現していたと思います。どの記事だったかは覚えていませんが、
彼は確か、直線の神々のことはよく理解できないし、正直言ってちょっと不気味に感じるけれど、彼らに逆らって賭けをするつもりはない、といったことを言っていました。
そして、最近私たちがよく目にしている特定の直線の一つが、毎年ほぼ3%という一定のGDP成長率です。
さて、それが必ずしも続かないだろうという正当な議論もありますし、その代わりにおそらくある時点で知能爆発が起こり、それが成長率を劇的に引き上げるだろうという意見もあります。
しかし、これについて推論する際、AIの何が現在の状況と異なっているのかを正確に言語化することが非常に重要だと思います。なぜ私たちは直線の神々に逆らって賭けをしているのでしょうか。
これに対する通常の答えは、経済の内的成長モデルに基づくもので、おそらく1993年のクレマーの論文が最も有名ですが、いくつかの効果があるというものです。
一つは、技術が向上するにつれて、新しいアイデアをより早く見つけられるようになるということです。顕微鏡があれば、生物学をはるかにうまく行うことができます。
もう一つの効果は、時間の経過とともにアイデアを見つけるのが難しくなるということです。なぜなら、低いところにぶら下がっている果実は先に摘み取られてしまうからです。最初は、これもスコットがうまく表現していましたが、自分の尿を観察することでリンを発見します。
しかし後になると、世界で唯一それを研究できる研究所に、ある国から別の国へサンプルを送って、第110番元素を発見しなければならなくなります。
明らかに、後者の方がはるかに困難です。基本的に現在の環境において、私たちがGDPの一定の指数関数的成長や、
ムーアの法則のような技術の様々な分野での同様の現象を目にしているのは、おおよそ次のような議論になると思います。
つまり、アイデアを見つけるのは難しくなっていますが、同時に研究者の数も指数関数的に増加しており、その2つが釣り合うことで、この種の一定の進歩を生み出しているということです。
しかし、歴史を十分に遡って見てみると、実際には成長率は時間とともに大幅に増加してきたように見えます。では、私たちがこれまで考慮に入れていなかった、この秘密の第3の効果とは何でしょうか。
その議論によれば、技術の成長率は一部にはより多くの技術によって増加します。顕微鏡を手に入れれば物事をよりうまく行えるようになるからです。しかし同時に、人口に対しても増加します。なぜなら、
人口が増えれば、アイデアを持つことができる人が増えるからです。そしてアイデアというものは、一度手に入れれば自由にコピーでき、非常に速く普及させることができます。そしてそれらもまた、技術を向上させることができるのです。
したがって、技術の成長率は、技術自体、あるいは場合によってはある定数乗された技術と、人口の両方に比例するものとしてモデル化されます。
これが、人口と技術の両方において基本的に双曲線的な成長を予測する理由です。そして議論によれば、ここ何年もの間、人口に関する部分はもはや当てはまらなくなっています。
なぜなら、私たちの生産物のすべてをより多くの子供たちに再投資する代わりに、今は生活の質の向上に再投資しているからです。
だからこそ、1800年や1900年、正確な時期は忘れましたが、そのあたりまでは双曲線的な成長が見られ、それ以降は指数関数的な成長が見られるわけです。
しかし、この物語は他の何よりもアイデアの優位性を強調しています。アイデアこそが
自由にコピー可能なものであり、一度手に入れれば、それを使用しているあらゆる場所で、すべての技術に適用できるものなのです。
ですから、何が知能爆発につながるのかを考えるとき、私は、アイデアを持つことができる人口の増加、あるいは労働力の増加が、そのために非常に重要だと考えています。
対照的に、今日の議論の多くは、例えば超人的なプログラマーについて語っています。
XYZの実験を実装してくださいと言えば、そのままどんどん進めて、人間よりもはるかに速く、信じられないほどうまくその実験を実装してくれるAIシステムが登場するというわけです。
そして、それができるようになれば、AIの進歩のスピードは一気に上がり、かなり早く知能爆発に至り始めるというのがその主張です。少なくとも私はそれが彼らの主張だと認識しています。様々な意見を持つ多くの人々がいる幅広いコミュニティの見解を解釈するのは、いつも少し難しいのですが。
私はこの見解をあまり信じていません。その主な理由は、超人的なプログラマーというのは、
機械学習の研究開発で起こるすべてのこと、あらゆる分野にわたってアイデアを持てるようなものではないからです。それは特にプログラミングの領域内でのアイデアを持ちますが、
プログラミングは機械学習の研究開発の一部ではあるものの、私の考えでは決してその大部分を占めるものでさえありません。
ですから、これを顕微鏡の発明のようなものとして考える方が適切だと思います。
つまり、研究の進展を速めるツールを手に入れたということです。しかし、私たちはあらゆる研究分野で、
日常的にこれを行っています。ここ数十年の間、それが双曲線的な成長につながることはありませんでした。
ツールの発明は研究の進歩の正常な一部に過ぎず、通常はグラフ上の美しく安定した直線につながる傾向があります。ですから一般的に、
ツールの発明から大きな変化を予測すべきではないと私は考えています。
別の例として、知能爆発の引き金となるのは、AI研究者が、全くAIシステムにアクセスできなかった場合、あるいは2020年頃のAIシステムにしかアクセスできなかった場合と比較して、
例えば10倍生産性が高くなる時点だ、と提案する人も時々います。
繰り返しますが、これはチップ開発のような分野でおそらく起こったことの一種だと思います。ムーアの法則は何十年にもわたってきれいで完璧な直線を描いています。
しかし、その直線の始まりにおいては、人々は紙の上で手作業で回路を設計していたはずです。
そして今日では、この種の作業の大部分を自動化する信じられないほど素晴らしいコンピュータ支援設計ソフトウェアツールがあり、その直線はそのまままっすぐに続き続けているのがわかります。
実際、それを実現するためには、この分野に取り組む人々が指数関数的に増える必要があります。
では、現在の私たちが持つ研究者は、20年前の研究者よりも10倍生産性が高いのでしょうか。おそらくそうでしょう、というのが私の推測です。それはチップ設計における知能爆発の兆候でしょうか。いいえ、違います。
そして、AIにおいても同様のことが当てはまるかもしれないと私は考えています。実際のところ、それは少し不明確です。例えば、自動評価や、
評価の実施、他のモデルの応答の自動評価などに、私たちはすでに言語モデルをかなり多く使用しています。それがなかったらどれくらい
生産性が低下するでしょうか。わかりません。おそらく10倍も低下することはないでしょうが、かなりの量になるはずです。しかし、私の見立てではAIの進歩は引き続きかなり直線的に見えます。

ロブ・ウィブリン:わかりました、そこまでの内容を要約させてください。現在、私たちは指数関数的な経済成長を経験しています。つまり、中期的に見れば、平均して毎年一定のパーセンテージで成長しているということです。
知能爆発が起こると言う人々、再帰的な自己改善ループが起こると言う人々は、成長率の増加、
あるいは双曲線的な経済成長を予測しています。つまり、ある年は3%、次の年は10%、その次は50%というように、
ある時点まで上がり続け、そこで横ばいになるか、また下がってくると考えているわけです。
経済成長を安定させたり、増加させたり、また低下させたりする高レベルの要因は何でしょうか。あなたのモデル、そしてほとんどの経済学者のモデルには、3つの要因がありますね。
技術が進歩するにつれて、新しい有用な発見をし、それをさらに進歩させることは難しくなる。これが1つ目です。2つ目は、技術が進歩するにつれて、
科学を行い、新しい発見をするためのより良いツールが手に入るということです。3つ目は、技術が進歩し経済が成長するにつれて、
研究を行い、アイデアを生み出し、科学を進歩させるより多くの人々を養うことができるようになるということです。最近では、この3つ目の要因は少し蚊帳の外に置かれています。というのも、私たちが
科学の進歩や経済の向上を新しい人口に転換してこなかったからです。私たちがより豊かになっているにもかかわらず、出生率は上がるどころか下がっています。ですから、互いに相殺し合ってきたのは最初の2つの要因でした。つまり、進歩を遂げるのが難しくなっていることと、科学が
進歩してそれを実行するためのより良いツールを提供してくれていることです。これら2つのことがほぼ相殺されてきました。そして中期的に見ると、成長率は年間約3%であり、最近ではもしかしたら低下しているかもしれません。
もっとずっと引いて見てみると、3つの要因すべてが働いていました。マルサスの罠の時代が終わる前は、
私たちが豊かになるにつれて、それらの資源のほぼすべてを追加の人口にも投入していました。
しかし、それは1800年以降に薄れていきました。そしてそれが双曲線的な成長をもたらし、
それが真実であった間は、成長率の増加をもたらしていました。さて、これをAIのケースに当てはめると、私たちがどちらの状況にいるのかを把握するために、
このメンタルモデルは、科学を行うためのより良いツールを私たちが生み出しているのか、それとも科学を行うためのより多くの研究者に利益を再投資して、
より良いアイデアや新しいアイデアを考え出す人々を増やしているのか、という点に大きな重点を置いているということですね。
AIが研究を行うという話をしているときに、ここが少し混乱する理由がわかります。なぜなら、AIはツールでもありますが、私たちはそれが
基本的には人間に収束し、科学研究者そのものになると考えているからです。ですから、それは概念的かつ実証的に難しい問題になります。どの時点で、彼らは
人間の作業を支援する単なるツールから、単に人間を支援するだけでなく、プロセス全体を実行する研究者そのものへと移行するのでしょうか。
あるいは少なくとも、もはや私たちがより良い仕事をするのを可能にする科学的手段としてのみ考えるべきではなくなるのはいつなのでしょうか。
そして、あなたは人々が少し雑になっていると言いたいのだと思います。彼らは
本当に人間が仕事をするために使用するより良いツールを開発したという兆候について語りながら、それを、人間をほとんど必要とせず、
その後双曲線的な成長を促進できる人口増加と見なすべき自律的なAIの研究開発と混同しているのです。なぜなら、改善が得られれば、さらに多くのモデルを実行できるようになるからです。モデルのコピーをより多く実行することで、研究者の実効的な数を
基本的には拡大することができます。私の理解は合っていますか。

ロヒン・シャー:はい、その通りです。とても素晴らしいですね。一人で長く話しすぎたかと心配していましたが、見事な要約です。

ロブ・ウィブリン:ありがとうございます。では、私たちが話しているのがより良いツールについてなのか、それとも人口の増加についてなのかをどうやって見分ければいいのでしょうか。ここにはある種の曖昧な境界線があり、
私たちは一方から他方へと移行していくわけですが、明確な区切りはないのではないかと想像します。

ベンチマークによるAI進歩の測定

ロヒン・シャー:はい、私もそう思います。おそらく明確な区切りはないでしょう。私は、
AIがどの程度新しいアイデアを提案しているかということが、双曲線的成長の予測に
最も影響を与える要素だと考えています。それが注目すべき点の一つであり、
超人的なプログラマーというものは、おそらくその基準に達していないと言えるでしょう。
しかし、私が本当にやりたいことは、単にAIの進歩を測定し、それがいつ加速し始めるかに気づくことです。
実は最近、まさにこの種の指標を開発するためにEpochと協力しました。
論文はつい最近公開されたと思います。タイトルは「AIベンチマークのためのロゼッタストーン」です。
基本的には、多種多様なモデルが取得したベンチマークスコアを取り上げ、
それらのベンチマークをつなぎ合わせて、モデルの一般的な能力スコアのようなものを算出します。これは2020年頃から現在リリースされているモデルまでの全範囲に適用されます。
個々のベンチマークはもっと短い期間で飽和してしまうにもかかわらずです。
そして、この測定方法が弾き出す能力スコアを取り、それをモデルのリリース時期に対してプロットします。これらの能力スコア、
それを生成する統計モデルには、リリース日や時間に関する情報は一切含めておらず、ただベンチマークのパフォーマンスだけを含めています。それにもかかわらず、
これをリリース時期に対してプロットし始めると、きれいな直線になるのです。素晴らしいことです。そして、この特定のグラフ上では、AIの進歩が概ねかなり直線的であることがわかります。
そして、その手法は実に非常にシンプルです。これが依存している主な要素は、AIシステムのパフォーマンスを捉えることができるベンチマークが存在するということであり、私はそれが
将来も続くだろうと考えています。ですから、私たちはただこれをプロットし続けることができます。そして、
もし知能爆発が起こっているように見えるなら、それがずっときれいな直線的なフィットに見えるのではなく、そこに何らかの加速が見られるようになるだろうと期待できるわけです。

ロブ・ウィブリン:なるほど、では私たちが単により良いツールを作っただけなのか、それとも新しい研究者を大量に生み出したのかは、どうやって見分けるのでしょうか。あなたは論より証拠だと言っているわけですね。
それを哲学者に任せるのではなく、AIの進歩が実際に加速しているかどうかをベンチマークを行っている人たちに見つけてもらおうと。

ロヒン・シャー:経験主義ですね。

ロブ・ウィブリン:AIの進歩が減速しているという認識を持っている人はたくさんいます。あなたは、
過去4〜5年間の可能な限り多くの異なるモデルの膨大なデータセットを作成しようと試みたと言っています。これはEpochと協力してですね。この種のデータ収集や
編纂、集計を行うのは彼らの得意分野ですから。彼らは多くの異なるモデルのこれらの異なるベンチマークスコアをすべて収集しようと試み、かなり遡って、
進歩が加速しているのか、減速しているのか、それとも概ね直線的であるのかを確認したのですね。そしてあなたの話では、少なくともその指標で判断する限り、彼らができる最善の努力の
結果は、それが直線的であることを示していると。つまり、私たちはより良い人間を作っているのではなく、より良いツールを作っているのだということです。今のところは、それが示唆する内容だと。

ロヒン・シャー:はい、その通りです。

ロブ・ウィブリン:しかし、ベンチマークスコアにはあらゆる種類の問題があります。一つは、
パフォーマンスの全範囲を捉えきれないということです。底辺に欠陥があるか、あるいは頂点で頭打ちになるかのどちらかになります。
特にここでは、何年にもわたって様々なことを行うモデルについて話しているからです。人々がこれらのベンチマークで自社のモデルを良く見せようとすることで、様々なゲーム化や、テストに向けた最適化が間違いなく起こっています。
また、実際に何が重要なのかという疑問もあると思います。あらゆる種類の
異なるスキルのベンチマークがありますが、おそらくこれらのうちのいくつかに他のものよりはるかに大きな重みを与えるべきでしょう。さらに、その効果に非線形性がある可能性もあります。つまり、モデルのパフォーマンスと
その経済的効果は、かなり非線形である可能性がありますし、実際におそらくそうでしょう。
Epochとあなたが使用しているこの全体的なアプローチは、進歩が加速しているのか、それともほぼ同じペースを維持しているのかを判断し、
何が起こっているのかという現場の現実を把握する上で、どれくらい優れていると思いますか。

ロヒン・シャー:あなたが挙げた批判には基本的にすべて同意します。究極的にはベンチマークのパフォーマンスだけがインプットであるため、ベンチマークが抱えるあらゆる問題を
受け継ぐことになります。
とはいえ、私が直線の神々から学んだ教訓の一つは、一部のことについては、
非常にきめ細かい予測をしたい場合には、様々なニュアンスや詳細が大きく影響するものの、高いレベルで見ればそれらは相殺され、結局は問題なくなるということです。
私はそれが概ねここにも当てはまると思います。

ロブ・ウィブリン:その一例として、モデルがゲーム化されている、現在はテストに向けた最適化がたくさん起こっていると言えますが、2年前も4年前もテストに向けた最適化はたくさん起こっていました。だから
それが次第に悪化していない限り、この直線は依然として妥当なものだということですね。

ロヒン・シャー:はい。それから、実際にはテストに向けた最適化は、これに関する結果を
それほど大きく変えないと思います。ある程度は間違いなく変わります。Anthropicは既存のベンチマークに対して過剰適合しないようにするのがおそらく一番うまいです。
そして実際に、算出されたスコアを見ると、
他のプロバイダーのモデルと比較して、ClaudeやAnthropicのモデルを過小評価する傾向があると思います。なぜなら一般的にClaudeモデルは、ベンチマークに過剰適合していないため、
モデルの実際の良さに比べてベンチマークではパフォーマンスが低くなる傾向があるからです。ですから、それは事実です。しかし同時に、グラフ上でそれを見ても、
それはほんのわずかな違いです。それほど大きなものではありません。それを上に移動させたとしても、
依然として直線に見えるでしょう。直線であるかどうかという観察結果を本当に変えるものではありません。

ロブ・ウィブリン:進歩のペースが上がっていれば、グラフ上で非常に目立つだろうと言っているのですね。おそらく一目でわかるはずで、これらの効果はそれをかき消すほどではないだろうと。

ロヒン・シャー:その通りです。ただし、ClaudeとGemini、あるいはその他のモデルがどのくらい優れているかといった、本当にきめ細かい比較にこのスコアを使用することには間違いなく注意を促します。あるいは、
例えば、オープンソースモデルとクローズドソースモデルの違いを理解しようとする場合などです。なぜなら、オープンソースモデルはおそらくクローズドソースモデルよりも
ベンチマークに過剰適合しており、このスコアを使ってそれら2つの正確な違いを
見ようとすると、おそらく少し誤解を招くことになるからです。

AIの進歩は急激に起こるのか

ロブ・ウィブリン:では、AIが人間になる、あるいは少なくともAIが単なるAI研究者のためのツールではなく、AI研究者になる時点で、
AIの研究開発やAIの能力における進歩が極めて急激に増加すると合理的に予想できるかもしれません。基本的には。あなたはそのような
急激な変化がどの程度起こるか、あるいは全く起こるかどうかについて、否定的な見方をしていますか。
それとも、人々が想像しているより少し時間がかかるかもしれないが、それでもそれは起こるだろうと信じていますか。

ロヒン・シャー:急激さについては少し否定的な見方をしています。ですが、
知能爆発が起こるかどうかについては、否定していません。
では、私が何についてかなり確信を持っているかと言いますと、それは多くの強力な前提条件を伴う非常に強い主張になります。例えば、あなたが気にかけるほぼすべての経済的に
価値のあるタスクについて、人間よりもAIシステムを雇うことを好むようなAIシステムが存在するようになった時。
これにはとりわけ、AIが人間よりも安価であるという前提が含まれますが、それは当然のことだとは思いません。その時点で、それを防ごうとする何らかの行動を私たちが取らないと仮定し、
実際に、私たちがAIシステムを利用して研究開発を全体的に(AIにおいてだけでなく、経済全体において)大幅に加速させようとしているとすれば、おそらく1世紀以内には、
ある種の知能爆発が起こり、技術的成熟に達するでしょう、といった具合です。
本当にたくさんの前提条件がありますね。それでもなお、ある意味クレイジーな主張です。私は知能爆発がそもそも起こると言っているのであり、それについては実際にかなり確信を持っています。
しかし、私が実際に起こるだろうと推測していることと比べると、それはずっと控えめな表現です。私が推測する実際の事態は、
その主張が暗示するよりも大幅に速く、大幅に早く起こるでしょう。
私が実際に言いたいのは、AIシステムが任意の研究開発すべてではなく、AI研究開発の大部分を自動化できるようになった時点からそれが始まる可能性は十分にあるということ。
そして、1世紀ではなく、5年から10年の間に完了する可能性も十分にあるということ。これは出発点を正確にどこに設定するかによりますが。そんなところです。
急激さについてのあなたの最初の質問に戻ると、私が急激さについて少し否定的な見方をしている理由は、実際にAI研究開発を自動化できる最初の
自動化システムは、おそらく非常に高価なものになるだろうと予想しているからです。
もしかすると人間よりも高価になる可能性があるほどです。過去1年間を見ても、
推論時の計算リソース、推論時のスケーリングへの投資が格段に増えていることからもこれがわかります。
GoogleにはDeep Thinkというアルゴリズムがあり、これはさらに多くの推論スケーリングを適用して、さらに良い結果を得るものです。これが今後も続くことを基本的に予想すべきだと思います。
ですから、最初の自動化された研究者のイメージは、人間の研究者ほど賢くはない、比較的
愚かなシステムに近いものかもしれません。しかし、推論に膨大な時間を費やし、無数の行き止まりを探索し、それが行き止まりであることに気づいて
戻ってきて別のことを試すのです。人間の研究者なら事前に行き止まりだとわかるため、決して足を踏み入れなかったような道です。そうやって
自動化された研究を行うため、人間の研究者よりもかえって高くつくかもしれません。
そして、時間が経つにつれてそれを改善していきます。AIにおいて通常そうであるように、コストはかなり急速に下がります。しかし、それは急激な変化ではないことを示唆しています。
AIが人間とコスト面で同等になり、その後人間よりも
費用対効果が高くなり始め、それが加速の引き金を引き始めるというような流れです。

ロブ・ウィブリン:しかし、数ヶ月や狂ったような短期間ではなく、数年かけてそうなっていくわけですね。

ロヒン・シャー:AIシステムが、既存の人間のAI研究者とどうにか同等になり始める時点から考えるなら、はい、その通りです。だからこそ、数ヶ月ではなく数年かかると考えるのです。しかし、私のタイムラインが遅いのは主に、
その時点に到達するまでにさえ、かなり時間がかかると考えているからです。かなり時間、
つまり10年くらいかかるかもしれません。数年前ならこれは
極めて短いタイムラインと呼ばれていたと思いますが、今では中〜長期のタイムラインと呼ばれています。

ロブ・ウィブリン:そうですね。長年にわたる一般的な現象として、数年ごとにAIのタイムラインに関するパニックのようなものが起こり、
人々が再帰的な自己改善ループが本当にすぐに、その時点から数年以内に起こると予想し始めるように思います。私の印象では、あなたはどちらの方向にも動じていないようですが。
なぜあなたは起きた出来事や出た結果に基づいて考えを更新していないのですか。

ロヒン・シャー:おそらく最大の違いは、私が頭の中でAIの進歩がどのように起こるかについての
ビジョンを持っていて、現実がそれにかなり近かったからだと思います。
例えば、最大のタイムライン・パニック、つまり1月のタイムライン・パニックは、
推論モデルo1、そして特にo3の登場によるものだったと言えるでしょう。
そこでの重要なアイデアは、大規模言語モデルに実際に強化学習を適用しようというものだったと私は言いたいです。そして私はかなり長い間、おそらく少なくとも2019年から、
もしかするとそれ以前から、私たちが強力なAIシステムを開発するためには当然強化学習を使う必要があると考えていました。
当時行われていた研究の多く、例えばディベートなどを見ると、それらは強力なAIシステムを構築するために強化学習が選択される手法であるということを
暗黙の前提としています。強化学習を使わないのであれば、ディベートは全く無意味に見えますから。
ですから、私は常に強化学習が導入されると予想していました。私の視点からすると、他のみんなは強化学習が導入されたことに突然驚いていたわけです。一方で
私はそれを見てこう思いました。私たちが強化学習を一度行えば、
指示に従うことが実にうまくすべてに一般化するのと同じように、すべてに対して美しく一般化する可能性もあったはずだ、と。しかし実際にはそうではありませんでした。
つまり、私のタイムラインがあまり変わらなかったのは、強化学習がすべてに一般化しない可能性がそこそこ高いと私がすでに考えていたからだと思います。
しかし、もし私が十分きめ細かくそれを追跡していたなら、o1やo3のリリース時に、タイムラインが長くなる方向へ少し考えを更新していたかもしれません。

ロブ・ウィブリン:推論モデルの一般的なパフォーマンスはどうして…… つまり、それは見解の更新を特徴づける一つの方法だと思います。人々が驚いた、あるいは
強化学習がこれらのモデルや推論に適用されたことにショックを受けたということです。ほとんどの人は、その推論がいかに優れているか、そしてそれがいかに有用になりそうかに感銘を受けたと言うでしょう。
しかし、あなたには響かなかったようですね。あなたにとっては驚くほど良くはなかったと。あるいは、それほど一般化可能ではなかったということかもしれません。つまり、AIは
強化学習を受けた推論タスクには優れていましたが、あなたはそれが他のタスクに一般化し、経済的に非常に変革的なものになるとは予想しておらず、実際にそうはなっていないと。

ロヒン・シャー:はい、基本的にはその通りです。私にとっては一般化可能性が大きな問題でした。ある特定のベンチマークを対象として機械学習を適用したい場合、
機械学習の教訓は、はい、それは可能だということです。人々はモデルが実行可能なものを選択するので、
任意のものを選択してそこに機械学習のハンマーを打ち下ろせば成功する、というわけではありません。
しかし、誰かが特定のことに最適化した場合、
そこからAGI、つまり完全に汎用的な知能に向けてどれくらい予想を更新すべきかについては、かなり慎重になるべきだと思います。それは本当に
非常に難しい推測のアップデートであり、一般化可能性についてかなり注視すべきです。

ロブ・ウィブリン:なるほど、ではもしモデルをある種の実用的なタスクで訓練し、
それが全く異なる種類のタスクを実行するのにも実際に優れていて有用であることがわかったら、それがタイムラインのパニックを引き起こす要因になるということですね。

ロヒン・シャー:はい、その通りだと思います。そして推論モデルからは、
少しですがそれが見て取れることを明確にしておきます。全く一般化していないわけではありません。しかし、私にとって実質的なアップデートになっただろうと思えるほどではありません。
特に私は自律的なタスクに注目していました。最近では推論モデルは自律的なタスクにおいてかなり優れていると思います。いや実は、予想と比較すると
まだパフォーマンスが低いと思いますが、現在では当時のモデルよりも大幅に良くなっています。しかし、その理由の一部は、企業が自律性のために訓練を始めたからです。

外部の研究が企業に採用されるには

ロブ・ウィブリン:Google DeepMindについて話しましょう。非常に重要な組織であるにもかかわらず、外部の人々からはあまりよく理解されていないように感じます。
リスナーや、一般の部外者も含めてです。AI企業の外部にいる多くの人々が、ガバナンス研究や技術的な
研究を生み出しており、それらがGDMを含むこれらの企業に読まれ、吸収され、採用され、使用されることを望んでいます。外部の人々が
自分の行った研究がAI企業の内部の人々に読まれたり、使用されたりする可能性を高めるために、何ができるでしょうか。

ロヒン・シャー:はい、人々ができることは間違いなくいくつかあります。ここでもう一度、次のモデルを持ち出すことが有益だと思います。
つまり、互いに大きく影響し合う信じられないほど多くの制約が存在し、その結果、私たちは
わずかなことしかできず、それらをやり遂げるためにかなりの量の作業を行う必要がある、というモデルです。
これは「企業は無関心である」というミームとして予測されるかもしれませんが、
「企業は高いモチベーションを持っているが、わずかなことしかできない」と表現する方が少し適切だと思います。
それを念頭に置いた上で、いくつかやる価値のあることがあります。一つは、研究に膨大な時間を費やす前に、
とにかく企業の誰かと話すことです。企業で働いている人に連絡を取り、
「こういうことを計画しています。これは実際に役に立つと思いますか」と尋ねるのです。非常にシンプルなステップですが、驚くほど多くの
人がこれをやりません。しかし、あなたの仕事が実際に企業で使われる可能性を高めるためにできる、おそらく最善のことのように思えます。少なくとも現時点では。

ロブ・ウィブリン:もし人々がそれを一貫して行ったら、あなたの時間の多くがそのメールの返信に奪われることになりませんか。

ロヒン・シャー:私にメールを送ってきても、おそらくあまり返事は来ないでしょう。
私はあまりにも多くのメールを受け取っていますから。私の部下の多くは、これについて人々と話すことにかなり乗り気だと思います。正直なところ、私は現時点で
十分な数のメールを受け取っているため、エキサイティングなことというよりは少し負担のように感じています。しかし、これが非常に一般的になる前は、間違いなくエキサイティングなことだと感じていました。

ロブ・ウィブリン:なるほど。自分のやっていることが役に立つかどうかを尋ねるメール以外に、人々は何をすべきでしょうか。

ロヒン・シャー:他のこととしては、私は最近「実証主義者に耳を傾けてもらうための理論の構築方法」というタイトルで講演を行いました。
これは「企業に耳を傾けてもらうための安全性研究のやり方」というタイトルでも同じようによく伝わったはずです。
ここからの基本的なポイントですが、最初のもの。最も明白なことですが、
それでも自分自身に問いかける価値があるのは、「彼らは本当にそれを気にしているか」ということです。時々
人々は、私たちが実際には全く気にかけておらず、重要だと思っていない問題についての研究を行います。
安全性コミュニティはこれをしないという点でかなり優れていると思いますが、それでも起こることはあります。
そして時折、私たちが何を気にかけ、何を気にしていないかについて、人々は少し驚くかもしれません。
例えばジェイルブレイクを例にとりましょう。現在私たちはジェイルブレイクを非常に気にかけています。なぜならモデルが十分に強力に見えており、悪用が深刻な問題になる可能性があるからです。しかし、1、2年前を見ると、
人々はジェイルブレイクの研究をたくさん行っていて、企業はジェイルブレイクに対して非常に脆弱であるため、モデルのアライメントを取るのが
あまり得意ではないことを意味している、と言っていました。他の企業についてはわかりませんが、少なくともGDMでの
ジェイルブレイクに対するスタンスは、モデルの能力を考えると、私たちが特に懸念している実際の悪用シナリオは一つもないというものでした。
安全性とは、モデルが意図しない有害なことを行うケースから
ユーザーを保護することについてのものです。そのためしばらくの間、モデルは常にジェイルブレイク可能であり、それを防ぐことは完全に不可能であるという
議論がたくさんありました。そしてそれに対する本当の答えは、私たちがジェイルブレイクを阻止しようとさえしていなかった、というだけのことだったのです。

ロブ・ウィブリン:なるほど、でも今はそれを阻止しようとしているのですね。

ロヒン・シャー:はい、今は阻止しようとしています。ですから今、人々が私たちに
ジェイルブレイクやその防御方法に関する研究を提供したいのであれば、私たちは間違いなくそれを使用します。

ロブ・ウィブリン:念のため言っておきますが、このアドバイスはすべて、AI企業がそれを読み、吸収し、使用してくれることを期待して研究を行っているという前提に基づいています。
彼ら自身の異なる考えを持っている人々もいて、人々が後になってそれが有用である、あるいは別の方法で価値があることを納得してくれることを期待して何かを開発している場合もありますよね。

ロヒン・シャー:もちろんです。研究の変化の理論には様々なものがあります。私は間違いなく、企業に今すぐ使ってもらいたい場合についてのみ話しています。
とにかく、それがステップ1の「彼らは本当にそれを気にしているか」でした。ステップ2は私が「あなたは助けになっていますか」と呼ぶものです。しかしこれは、助けることの非常に特定のニュアンスです。具体的には、
あなたは解決策を提案しているか、あるいは何らかの評価手法や指標を構築しているべきだと思います。
さて、これらに該当しない研究もありますよね。ある現象をよりよく理解するために何らかの理論を構築する研究があり、
それはその現象に対する理解を深めてくれますが、特定の問題を解決するわけではなく、企業が気にかけるべき指標や評価手法を生み出すわけでもありません。
このような研究の例は他にもたくさんあります。基本的に、そのような研究の大部分は、
私たちが大いに気にかけている中心的な問題に本当に合致していない限り、私たちが使用する可能性は低いと思います。
私たちは皆忙しく、新しいものを組み込むには多くの労力が必要であることを考えると、
通常それは指標や評価手法、あるいは何らかの解決策である必要があります。

ロブ・ウィブリン:では、もし人々が現象をよりよく理解するために、興味深い理論化や予備的な実証研究を行っている場合、
あなたは「それは大変結構なことですが、解決策ができたらまた来てください」と言うわけですね。

ロヒン・シャー:大まかに言えば、はい。繰り返しますが、これらは行うべき良い研究であり、人々はそれを行うべきだと思います。それは
将来より良い解決策を開発するのに役立ちます。私はただ、彼らが次のように考えるべきではないと言っているのです……

ロブ・ウィブリン:あなたがそれを読むのに多くの時間を費やしてくれるだろうとは。

ロヒン・シャー:まさにその通りです。その次のことですが、
特にあなたが解決策を提案しようとしている場合、次にすべきことは、あなたの解決策を評価することです。あるいは少なくとも、
実験によるものでなくても、企業が大いに気にしている様々な指標について、あなたの解決策を概念的に評価することです。
ほとんどの場合、研究はそれが解決しようとした問題を実際に解決できたかどうかに注目します。
確かに重要ですし、その評価は行わなければなりません。それが最も重要な評価です。
しかしその後、次のようなことも考えます。これは計算量という点でどれくらいのコストを追加するのか。
どれくらいの遅延を追加するのか。もしあなたが、AIシステムが応答を生成した後に実行されるステップを想定し、
その後、ユーザーに応答を送信する前に多くの追加の処理を行うとしたら、それはおそらく最初から問題外です。明白というわけではありませんが、それは大きなコストです。
実装の複雑さや、組織的な複雑さもあります。
もしあなたの解決策が、基盤のレベルで何かを行うことと、AIシステムの内部を読み取ることを含む何かを行うことの両方を伴い、これらを結びつけるようなものである場合、それはあまりにも多くの異なるチームにまたがり、スタックのあまりにも多くの異なる抽象化レイヤーにまたがるため、
例えば推論時に実行され、モニターを動かしていくつかのチームにアラートを出すだけのようなものに比べて、
実装するのがはるかに難しくなります。

ロブ・ウィブリン:それ以外に、実装しやすいものの例はありますか。

ロヒン・シャー:はい、いくつかあると思います。例えば、彼らのデータセットが
有用な貢献になるのであれば、事後学習にデータセットを追加しようとするのはかなり簡単です。
時々、事後学習にそれを追加しようとすると、何らかの理由で全く関係のないタスクにおいてモデルが悪化してしまい、
そのデータセットを使えなくなることがあります。これは少し残念なことです。ですから理想的には、データセットを構築する際に、
それが何か他のものに何らかの悪影響を及ぼす可能性があるかどうかを評価したいところです。しかし、これを行うのは少し難しいです。
しかし、もし誰かがデータセットを持って私のところに来て、「このデータセットでトレーニングすると、この指標がかなり改善され、
悪影響を及ぼす可能性があったこれら3つの明らかな他の指標には何の悪影響もないようです」と言ってくれたら、
私はそれをかなり説得力があると感じ、それが本当の問題を解決していると仮定した上で、そうですね、私たちもそれをやるべきかもしれないと思うでしょう。
ですから、データセット、指標、評価手法、モニター。これらは通常、比較的簡単にできることだと思います。実装する価値があると思えば、これらはすべてかなり簡単に実装できると思います。

ロブ・ウィブリン:他にアドバイスはありますか。

ロヒン・シャー:一つは、問題を解決するために凝った手法を使うという学術的なやり方をしないことです。
その代わりに、できる限り絶対的にシンプルな方法で解決してください。

ロブ・ウィブリン:最先端のものは他の何らかの形で役立つかもしれず、何らかの形で科学を進歩させ、後々価値を持つかもしれないが、
人々が実際の商用モデルで近いうちに使用することを望むのであれば、可能な限りシンプルで、十分に確立されたものでなければならない、と言っているのですね。

ロヒン・シャー:それは好意的な解釈ですね。はい。よりシニカルな解釈としては、
学界は複雑でフォーマルに見えるものや、調整が不十分なベースラインを評価する傾向があるということです。
ベースラインの調整が不十分だとわかっていれば評価しませんが、ベースラインの調整が不十分かどうかを見分けるのは少し難しいのです。

ロブ・ウィブリン:調整が不十分なベースラインとは何ですか。

ロヒン・シャー:調整が不十分なベースラインとは、
あなたがそれよりも良い結果を出そうとしている問題に対して、デフォルトの解決方法があるような場合です。

ロブ・ウィブリン:わざとうまくやらないことで、ベースラインを悪く見せるということですか。

ロヒン・シャー:その通りです。しかし意図的にではありません。多くの場合、
ベースラインを一度実装し、その後そのためのハイパーパラメータを調整しないため、
本来の性能よりも悪くなってしまうのです。ベースラインがうまく機能するように十分な時間を費やさないのは、
とても簡単なことです。その結果として……

ロブ・ウィブリン:自分の提案手法がより良く見えるわけですね。

ロヒン・シャー:その通りです。そして、新規性のあるものを発表し、大量に発表するという学界のインセンティブを考えると、
これはかなり一般的な問題だと思います。ですから、もしあなたが論文を発表したいのであれば、それはあなたがとるべき傾向になるでしょう。
もし自分の研究を企業の人々に使ってもらいたいのであれば、
明白なことを試し、その明白なことに対してかなり一生懸命に取り組むことが非常に重要です。
そして、それが本当に失敗した場合にのみ、何かより凝ったことをしようと試みるべきです。

ロブ・ウィブリン:これまでのところ、GDMにとって最も有用だった外部の研究は何ですか。

ロヒン・シャー:おそらく私が最も指摘したいのは、
Redwood ResearchによるAIコントロールの取り組みです。私たちは常に自社のAIシステムを監視する計画だったと思いますし、
監視というアイデア自体が私たちにとって新しいものだったわけではありません。しかし、これがどれくらいうまく機能するかを評価する方法について彼らがもたらした特定の概念的枠組み、
具体的には信頼できるモデルと信頼できないモデルの区別ですが、これは非常に優れていたと思います。
彼らがそれに関して発表した最初の論文は、様々な異なるコントロールプロトコルについて、
それらの安全性と有用性をどのように評価し、これを使用してどれを行うべきかを決定できるかを示しました。
コントロールの取り組みについて私が正確にどう考えるかにおいて、それは私にかなり大きな影響を与えたと思います。それがおそらく最もわかりやすい例でしょう。

ロブ・ウィブリン:今年の初めのバック・シュレゲリスとライアン・グリーンブラットのエピソードですね。特にバック・シュレゲリスがAIコントロールのアジェンダについて話してくれました。
あのエピソードは、当時私が期待したり予想したりしていたほどの反響を呼ばなかったように感じています。しかし、業界の人々が常にそれを頻繁に引き合いに出している量を見ると、
何らかの理由であまりエキサイティングに聞こえなかったために当時それを聴かなかった人がいるなら、ぜひもう一度見て、聴いてみるべきだという意味だと思います。なぜなら、
それは非常に関連性を増しているばかりの、とても重要な基礎的な研究だと思うからです。

ロヒン・シャー:はい、間違いありません。コントロールは中期的には、おそらく私たちがGeminiが安全であると主張する方法になるだろうと言えます。
少なくともアライメントの失敗と内部展開に関する限りは。
おそらくコントロールスタイルの主張を通じてになると思います。ですから、はい、間違いなく認識しておくべき重要な分野です。
その他の論文としては、観測的なスケーリング則に関する論文がありました。
これは主に、先ほど話した、全体のAI進歩を測定する方法を得るためにベンチマークをつなぎ合わせたロゼッタストーンの論文の
前身として考えられると思います。観測的なスケーリング則の論文は、これをより、
特定のベンチマーク結果をどのように予測できるか、というものとして捉えていたと思います。それもかなり優れた応用です。
主にそれは私たちが本当に考えていなかった分野であり、彼らはここで何かができることを示しました。
そしてそれはおそらく、私がベンチマークのつなぎ合わせ、つまりロゼッタストーンのアプローチについて考える際に影響を与えたと思います。ですから、あれは私にとってかなり影響力がありました。
他の例としては、これまで発表されてきた様々な思考の連鎖の監視に関する論文があります。
特に重要だと思った一つの論文を指し示すことはできないと思いますが、全体として、
思考の連鎖の監視の有効性、それがいつ失敗し、いつ失敗しないのかについて、彼らはかなり優れた研究文献を構築してきたと思います。実はここは問題ないし、
この思考の連鎖の監視では何もフラグを立てる必要はないと、モニターをどの程度説得できるかについて調査した論文がいくつかあったと思います。
それは研究する価値のあることであり、その具体的な定量的な結果は私にとって有益でした。

Google DeepMindでの採用と求めるスキル

ロブ・ウィブリン:多くの人がGDMで働きたいと思っているでしょうし、他のAI企業にすでにいる人でさえ、近年のGDMのモデルの進歩を考えると、転職を検討することに興味があるかもしれません。
あなたは今、どのような職種を最も埋めるのが難しいと感じていますか。また、労働市場で最も見つけるのが難しいスキルは何でしょうか。

ロヒン・シャー:私たちが何をすべきかを理解することよりも、物事を実装することの方に
課題があるという、私が全体を通して持っているテーマにもう一度戻ると思います。
私たちには多くのアイデアがあり、何をすべきかはわかっています。それを実装することがより難しくなるのです。なぜなら、確認し、損なわないようにしなければならないことが非常にたくさんあるからです。
その結果、特に過去1年、あるいは2年間は、理想的で最適なものを考え出してクールな研究論文を書きたいという人よりも、
ただ明白なことを行い、それを着地させたいと思う人をより必要としてきたと思います。

ロブ・ウィブリン:私たちはAGIの安全性とアライメントの担当者について話しているのですよね。

ロヒン・シャー:その通りです。私は主に、
AGIの安全性とアライメントのチームについて話しています。ただ明白なことを行うことに焦点を当て、
研究よりも実装に焦点を当てるということです。現実的には、これは
機械学習の研究よりもソフトウェアエンジニアリングに焦点を当てるという意味でもあります。概念的な能力、研究のセンス、機械学習エンジニアリングのスキルを私たちが気にしていることは今でも変わりません。
この種の実装を行う際には、それらは実際に登場します。自分のシステムがどれくらい優れているかをテストする必要があります。つまり、優れた評価手法を構築する必要があり、それに過剰適合しないようにする必要があり、
それについて少し注意深くなる必要があります。ですから、それらのスキルが無関係だというわけではありません。ただ、現在では、たった1年前と比較しても、特に2年前と比較すると、
物事を成し遂げること、ソフトウェアエンジニアリング、実装などへの焦点がより強くなっていると思うのです。

ロブ・ウィブリン:現在、あるいは一般的に多く採用している特定の職種はありますか。私の印象では、Anthropicは手当たり次第に採用しており、
OpenAIにも常に多くの職種があるように感じます。あなたのところも似たような状況ですか。

ロヒン・シャー:いいえ、私たちは現時点でAnthropicやOpenAIよりもかなり採用を控えていると思います。現在、いくつか空きのあるポジションはあります。
一部は、同じく非常に関連性が高いと私が考える他のチームで空いている役割です。Google DeepMindにおけるAGIの安全性に関連するチームは、AGI安全性・アライメントチームだけではありません。
例えば現在、AIコントロールに取り組むエンジニアを雇用するために、セキュリティチームで採用ラウンドが開かれています。
そして私はそれが素晴らしいポジションだと思います。非常に大きな影響力があります。以前にも言ったように、
中期的に見てGeminiがコントロールの喪失によって害を引き起こさない理由として私たちが主張するのは、おそらくそれになるでしょう。ですから、それは極めて有用な役割だと思います。非常に影響力があります。
AGI安全性・アライメントチームではありませんが、彼らは私たちと緊密に連携して働くことになります。
私のチームでは現在、フロンティア・セーフティ・リスク評価のエンジニアを募集しています。これは私たちの危険な能力の評価を実行し、フロンティア・セーフティ・レポートを執筆する役割です。
フロンティア・セーフティ・レポートをこれ以上詳細にする必要は特にないと思っていますが、もしあなたが必要だと思うなら、私たちに参加して、より良いものにするために時間を注ぐことができます。
チームの個々のメンバーがそのようなことを柔軟に行える余地はかなりあります。
実際には、この録音が公開される頃には、その役割はもう存在しないかもしれないと予想しています。しかし、私たちは継続的にこうした役割を募集していると思います。
また、新しい役割が空いたときにメールを送れるように、人々が記入できる関心表明フォームへのリンクを送るかもしれません。
私たちも他の多くの企業と同様に、AIが支援する大量の応募の洪水の打撃を受けているため、
今後はこのような公開の採用募集を行う可能性は少し低くなっているというのが理由の一部です。
すべてに対して履歴書のスクリーニングを行うのは、本当にただの苦痛だからです。

ロブ・ウィブリン:ええ、人々はそのようなフォームに記入したり、仕事に応募したりするために手数料を導入しなければならなくなると思います。人々は別の理由でも
それを嫌がりますが。しかし、AIが完全に識別不可能でいくらでも偽造できるような応募書類を提出できるようになった今、それ以外の選択肢はあまり見当たりません。

ロヒン・シャー:ええ、厳しいですね。昨年私たちはLLM用のキャプチャを導入しましたが、最近の募集でもそれをやろうとして、おそらくできたとは思いますが、
それは多くの人間をも騙してしまうものでした。昨年のLLMキャプチャでさえ、多くの人間を騙しました。多くというのは、おそらく5%くらいです。現時点では、
多数の偽陽性を出さないようなものを設計できるか確信が持てません。

ロブ・ウィブリン:おそらく「私の代わりに飛行機を予約して」の方が、単に手数料を払うより高くつくかもしれませんね。GDMで働くことについて、特に何かアピールしたいことはありますか。

ロヒン・シャー:基本的には、企業の安全チームがAIシステムを安全にするために
技術的なレベルで実際に起こることに向けた最大の力であり、それが参加する良い理由だというのが私のアピールです。

激動の時代において前向きでいる秘訣

ロブ・ウィブリン:わかりました、そろそろ締めくくりましょう。最後の質問として、
聴衆から寄せられた本当に厳しい質問を投げかけたいと思います。これらの激動の時代において、ロヒン、あなたはどのようにしてそんなに素敵で前向きな精神を維持しているのですか。

ロヒン・シャー:うーん、答えのいくつかは少し退屈で、それほど一般化できるものではありません。一つは、
単に性格的に私はかなり安定していて、私の気分は日によってあまり変わらないということです。
それから二つ目は、このエピソードの中で明らかになったかもしれませんが、
私は他の皆が考えているほど、他の皆と比較して、時代が激動しているとは思っていません。
しかし私がかなり多く、そして極めて厳格に行っていることの一つは、自分がコントロールできることに
集中するということです。これがその理由というわけではありませんが、
そうですね、これらの激動の時代に素敵で前向きな精神を維持するためには、それはかなり有用だと思います。
自分が主体性を持てる領域に集中し続けるのに間違いなく役立ちますし、
実際に変化をもたらすことができる領域に集中するのは、ただ素晴らしいことだと思います。

ロブ・ウィブリン:本日のゲストはロヒン・シャーでした。The 80,000 Hours Podcastにお越しいただき、本当にありがとうございました、ロヒン。

ロヒン・シャー:ありがとうございました、ロブ。ここに来られてとても良かったです。

コメント

タイトルとURLをコピーしました