ダリオ・アモデイ(アンスロピックCEO) – 100億ドルのモデル、OpenAI、スケーリング、アライメント

AIに仕事を奪われたい
この記事は約78分で読めます。

46,194 文字

Dario Amodei (Anthropic CEO) - The Hidden Pattern Behind Every AI Breakthrough
Here is my conversation with Dario Amodei, CEO of Anthropic.Dario is hilarious and has fascinating takes on what these m...

今日はアンスロピックのCEO、ダリオ・アモデイさんとお話しできて光栄やわ。めっちゃ楽しみにしてたんや。ダリオさん、このポッドキャストに出てくれてありがとう。
ダリオ: ありがとうございます。
最初の質問やけど、あんたは何年も前からスケーリングが来るって分かってた数少ない人の一人やね。それを見てきた人として、スケーリングが機能する根本的な理由は何なんや? なんでこの宇宙は、大量の計算リソースを幅広いデータに投入したら、そのものが知的になるように組織化されてるんやろ?
ダリオ: 正直言うて、まだ分からへんのやと思います。ほぼ完全に経験的な事実なんです。データからも色んな場所から感じ取れる事実やけど、まだ満足のいく説明はないんです。
手を振りながら説明するんやったら、物理学には長い尾や累乗分布の相関や効果についての考え方があって、たくさんのことが起こると、たくさんの特徴が得られて、尾の部分の前の太い部分のデータがたくさん得られるんです。
言語やったら、「ああ、品詞があって名詞は動詞の後に来る」みたいなことが分かる。そして、どんどん微妙な相関関係が出てくる。
だから、対数やオーダーを1つ増やすごとに、分布のより多くを捉えられるのは理解できるんです。でも、なぜパラメータでこんなにスムーズにスケールするんか? なぜデータ量でこんなにスムーズにスケールするんか? それがまったく分からへん。
線形になる理由はいくつか考えられます。パラメータはバケツみたいなもので、データは水みたいなもんやから、バケツのサイズがデータの量に比例する、みたいな。でも、なんでこんなにスムーズなスケーリングになるんやろ? まだ分からへんのです。
色んな説明があって、うちの主任科学者のジャレッド・カプランはフラクタル多様体次元を使って説明できるって言うてました。
色んなアイデアはあるんやけど、正直なところ、確実なことは分からへんのです。
ちなみに、聞いてる人のために説明すると、スケーリングっていうのは、Claude-1からClaude-2に行くと、次のトークンを予測できるかどうかの損失が非常にスムーズにスケールすることを指してるんや。
じゃあ、なぜ起こるのかは分からへんけど、少なくとも経験的に、この能力がこの損失で現れる、このサーキットがここで現れる、みたいなことは予測できるんか? それとも、損失の数字を見てるだけなんか?
ダリオ: それはずっと予測しにくいです。予測できるのは、この統計的な平均値、この損失、このエントロピーです。それは非常に予測可能で、物理学以外では見られないような、何桁も正確に予測できることがあります。こんな複雑な経験的な分野では予想外のことやね。でも、特定の能力はほんまに予測しにくいんです。
2018年にGPT-2とGPT-3の研究をしてた時、算術がいつ出てくるんか、モデルがいつコーディングを学ぶんか、そういうのはときどきめっちゃ突然やったんです。天気の統計的な平均は予測できても、ある特定の日の天気を予測するのは難しいのと似てるんかもしれません。
私にも分かりやすく説明してもらえへん? 多様体は分からへんけど、機械的に言うと、足し算ができへんかったのに突然できるようになる。何が起こってるんや?
ダリオ: これもまた答えが分からへん質問ですね。機械的解釈可能性みたいなもので答えようとしてるんです。サーキットがはまる場所みたいなもんやと考えられます。
ただ、モデルが足し算できるようになる時、正解を出す確率が突然上がるという証拠もあります。でも、正解の確率を見てみると、100万分の1から10万分の1、1000分の1へと、実際に正解を出すずっと前から徐々に上がってるんです。多くの場合、裏では何か連続的なプロセスが進行してるんやと思います。全然分からへんけどね。
それは、足し算をするサーキットやプロセスが既に存在してて、それが目立つようになっただけってことを意味してるんか?
ダリオ: 弱いサーキットが強くなってるのか、あんまりうまく機能してへんものがあるのか、分からへんのです。機械的解釈可能性で答えようとしてる疑問の1つやね。
スケールで出現しない能力はあるんやろか?
ダリオ: アライメントや価値観はスケールで必ずしも出現するとは限らへんと思います。こう考えてみてください。モデルを訓練すると、基本的に世界を予測してる、世界を理解しようとしてる。事実を扱うのが仕事で、価値観は扱わへん。次に来るものを予測しようとしてる。
でも、ここには自由変数があるんです。何をすべきか? 何を考えるべきか? 何を大切にすべきか? それに対応するビットはないんです。ただ、これから始めたらこう終わる、別のことから始めたら別の終わり方をする、そういうことだけなんです。だから、それは出現しないと思うんです。
スケーリングが人間レベルの知能に達する前に頭打ちになったとしたら、振り返ってみてどう説明すると思う? そういう結果になりそうな理由は何やと思う?
ダリオ: 基本的な理論に問題があるのか、実用的な問題があるのかを区別する必要があります。実用的な問題の1つは、データが足りなくなる可能性があることです。色々な理由で、それは起こらへんと思うんやけど、単純に考えたらデータ不足にそれほど遠くないんです。だから、スケーリングカーブを続けるためのデータがなくなるかもしれません。
もう1つの可能性は、利用可能な計算能力をすべて使い果たしてしまって、それでも足りず、その後の進歩が遅くなるってことです。どっちも起こらへんと思うけど、可能性はあります。
基本的な観点から言うと、個人的にはスケーリング則が単に止まってしまうことは非常に考えにくいと思います。
もしそうなったら、もう1つの理由として、アーキテクチャがちょっと違うってことかもしれません。LSTMやRNNでやろうとしたら、傾きが違うでしょう。それでも到達できるかもしれませんが、トランスフォーマーが持ってる過去の情報に注目する能力がないと、表現するのがとても難しいものもあるでしょうね。
何らかの理由で壁にぶつかって、それがアーキテクチャの問題じゃなかったら、めっちゃ驚きます。
もう既に、モデルができへんことが、できることと本質的に違うもんやとは思えへんレベルまで来てます。
数年前やったら、推論できへん、プログラミングできへんって言えたかもしれません。境界線を引いて、ここで壁にぶつかるかもしれへんって言えたかもしれません。
私は壁にぶつかるとは思ってへんかったし、他にも数人そう思ってへん人がいましたが、その時はもっともらしい主張やったかもしれません。今はそれほどもっともらしくないです。起こる可能性はあります。これは狂ったようなもんです。明日にでも壁にぶつかるかもしれません。
そうなったら、次の単語を予測する訓練をする時の損失関数に問題があるってことやと説明すると思います。
本当に高レベルのプログラミングを学ぼうと思ったら、一部のトークンを他のトークンよりずっと重視する必要があって、それが十分まれやったら、損失関数が見た目とか、エントロピーの大部分を占めるものに過度に集中してしまって、本当に重要なものに集中できへんってことになるかもしれません。
だから、ノイズに信号が埋もれてしまう可能性があるわけです。色々な理由でそうはならへんと思うんやけど。もし2024年のモデルを訓練して、ずっと大きくなったのに全然良くならへんかったら、そしてあらゆるアーキテクチャを試してもうまくいかへんかったら、そんな説明をすると思います。
次のトークン予測を諦めるとしたら、他の損失関数の候補はあるんか?
ダリオ: そうなったら、何らかの強化学習に行かなあかんと思います。色々な種類があります。人間からのフィードバックによる強化学習、目的に対する強化学習、憲法AIみたいなもの、増幅と討論みたいなもの。これらはアライメント手法であり、モデルを訓練する方法でもあります。
色々試さなあかんけど、重点を置くべきなのは、モデルに実際に何をして欲しいかってことです。ある意味、次の単語を予測することで他の必要なことも全部できるのは、ちょっとラッキーなんです。そうなる保証はないんです。
ちなみに、強化学習の場合は、損失関数の設計方法をある程度考えなあかんから、ちょっと遅くなります。次のトークン予測の良いところは、それがそのまま使えることです。
世界一簡単なやり方でスケールできへんくなったら、ちょっと遅くなると思います。
データが制約にならへん可能性が高いって言うたけど、なぜそう思うんや?
ダリオ: 色々な可能性があって、詳細には触れられへんけど、世界には多くのデータソースがあって、データを生成する方法もたくさんあります。これが障害にはならへんと思います。
もしかしたら、なったほうがええのかもしれへんけど、ならへんと思います。
マルチモーダルのこと言うてんの?
ダリオ: 色々なやり方があるってことです。
スケーリングに関する考えはどうやって形成したん? いつまで遡れる? そしたら基本的に今と同じようなことを言うてたんか?
ダリオ: この考えは2014年から2017年にかけて徐々に形成されました。最初の経験は、AIとの最初の出会いでした。2012年のAlexNetの初期の成果を見て、ずっと知能を研究したいと思ってたんやけど、それまでは実際にうまくいってるようには見えへんかったんです。2005年まで遡ります。レイ・カーツワイルの著作を読んでました。
初期のインターネットでイライザーの著作も読んでました。でも、これはまだ遠い未来の話やと思ってました。今日のAIを見ても、まだ全然近づいてへんって感じやったんです。でもAlexNetを見て、「おっ、これは実際に機能し始めてるな」って思いました。
それでアンドリュー・ンのグループに加わったんです。別の分野におったんやけど、これが初めてのAIの経験でした。世界の他の場所で行われてた学術的な研究とはちょっと違ってました。
幸運なことに、私や他のメンバーに与えられたタスクは、ただ最高の音声認識システムを作ることやったんです。
たくさんのデータが利用可能で、たくさんのGPUが利用可能でした。スケーリングが解決策になるような形で問題が提示されたんです。これは、新しくて賢いアイデアを考えて、何か発明した人として名を上げることが仕事の博士研究員とはだいぶ違います。
私は最も単純な実験を試しただけです。いくつかのダイヤルを調整しただけです。RNNにレイヤーを追加してみる、訓練時間を長くしてみる、何が起こるか? オーバーフィットするまでにどれくらいかかるか? 新しいデータを追加して、繰り返し回数を減らしたらどうなるか? そうしたら、非常に一貫したパターンが見えてきたんです。
これが普通じゃないことや、他の人がこういう風に考えてへんってことは全然知らへんかったんです。これはある意味、初心者の幸運みたいなもんやったんかもしれません。これが私のAIとの最初の経験で、音声認識以外のことはあまり考えてませんでした。「この分野のことは何も知らへん。機械学習には色んなことがあるんやろうなあ」って感じでした。でも「なんか変やな、音声認識の分野ではこれが当てはまるみたいやな」って思ってました。
OpenAIが始まる直前に、あんたが前にインタビューしたイリヤに会ったんです。彼が最初に言うたことの1つが「分かってほしいんやけど、モデルはただ学びたがってるだけなんや。モデルはただ学びたがってるだけなんや」でした。これはちょっと禅問答みたいやったんですが、私はこれを聞いて悟りを開いたんです。
何年もかけて、私がこういったことの多くを形式化して、まとめていくことになるんやけど、彼の言葉で分かったのは、私が見てきた現象が単なる偶然のものじゃなくて、もっと広くて一般的なもんやってことでした。モデルはただ学びたがってるだけなんです。
めっちゃ面白いなあ。あんたが言うたことで特に興味深いのは、こういうものがめっちゃ音声認識とか制限された範囲のゲームが得意やってことを多くの人が知ってたのに、あんたとイリヤみたいに、そこから一般的な知能につながるって推論した人があんまりおらへんかったってことや。他の人とどう考え方が違ってたん? 音声認識がこんな一貫した方法で上手くなってるんやから、他のことも全部この一貫した方法で上手くなるって、なんで思えたん?
ダリオ: 正直言うて分からへんのです。最初は音声認識で見たとき、これは音声認識だけ、あるいはこの狭いモデルのクラスだけに当てはまるんやと思ってました。2014年から2017年の間に色んなことを試してみて、同じことが何度も何度も起こるのを見たんやと思います。Dotaでも同じことが起こるのを見ました。ロボティクスでも同じことが起こるのを見ました。多くの人はロボティクスを反例やと思ってましたが、私はただ、ロボティクスではデータを得るのが難しいだけで、手に入るデータの範囲内では同じパターンが見られると思ってました。
多くの人は目の前の問題を解決することに集中してたんやと思います。なぜある人がこう考えて、別の人が違う風に考えるのかを説明するのはめっちゃ難しいです。人それぞれ違う視点で見てるんです。縦に見てる人もおれば、横に見てる人もおる。
スケーリングのことを考えてへんで、自分の問題をどう解決するかってことを考えてる。ロボティクスやったら、データが足りへん。それが簡単に「データがないからスケーリングは機能しへん」って考えにつながる。
なぜか分からへんけど、たぶん偶然やけど、私はその特定の方向に取り憑かれてたんです。
言語がこれらのものにたくさんのデータを入れる手段やってことが、いつ明らかになったん? それとも、他のことがデータ不足で行き詰まっただけなん? ロボティクスはデータが足りへん、他のことも足りへん、みたいな。
ダリオ: 次の単語を予測するっていう、自己教師あり学習ができるっていうこのアイデア全体と、次の単語を予測するのに豊かさと構造がこんなにたくさんあるっていうアイデアがあると思います。「2たす2は」って言うたら、答えが4やってことを知らなあかん。キャラクターについての物語を語ってるかもしれへん。
基本的に、子どもに出される発達テストと同じようなものをモデルに出してるんです。メアリーが部屋に入って何かを置いて、チャックが部屋に入ってそれを取り除いて、メアリーはそれを見てへん。メアリーは何を考えてると思う?
次の単語を予測するためにこれを正しく理解しようとすると、モデルはこういった心の理論の問題を全部解決せなあかんし、数学の問題も全部解決せなあかんのです。
だから私の考えは、できるだけスケールアップしたらええやん、って感じでした。ある意味、限界がないんです。
こういう考えを抽象的には持ってたんやけど、本当に確信したのはアレック・ラドフォードがGPT-1でやった仕事を見たときでした。言語モデルがものすごくうまく予測できるだけじゃなくて、ファインチューニングもできたんです。当時は他のタスクをこなすにはファインチューニングが必要やったんです。
そこで「おっ、これは単に言語モデルを正しく作るだけの狭いもんやない。どこにでも行ける半分くらいの道筋やん。言語モデルを正しく作って、ちょっとこっちに動かしたら、この論理的な参照解除テストとかが解けるし、別のことをしたら翻訳ができるようになる」って思ったんです。
それで「うわ、ほんまに何かあるな」って思ったんです。そしてもちろん、本当にスケールアップできるってことも。
ちょっと混乱するんやけど、2018年に「2023年には、シェイクスピアの文体で定理を書いたり、自由回答形式の標準テストで満点を取ったり、とにかくめっちゃ印象的なことができるモデルができるで」って言われたら、「おお、それはAGIやん。明らかに人間レベルの知能やん」って言うてたと思うんや。
これらのことは確かに印象的やけど、少なくとも現世代、そしておそらく今後数世代は明らかに人間レベルには達してへんように見えるんや。このベンチマークでの超印象的なパフォーマンスと、一般的な知能との間のこの食い違いは何で説明できるんやろ?
ダリオ: それは私も予見できてへんかった分野の1つで、私も同じように驚いてます。GPT-3や、アンスロピックの初期に作ったモデルを最初に見たとき、一般的な印象としては「言語の本質をほんまによく掴んでるな。これ以上スケールアップする必要がどれくらいあるんやろ」って感じでした。ここからは強化学習とか他のことの方が必要かもしれへんって。
2020年には「もっとスケールアップできるけど、もっとスケールアップするのと、強化学習みたいな他の目的を追加し始めるのと、どっちの方が効率的やろ」って考えてました。2020年スタイルのモデルに対して、事前訓練と同じくらい強化学習をやったらどうなるんやろ、みたいな。スケールアップし続けたらうまくいくやろう。でも、それが本当に最良の道筋なんやろか。分からへんけど、とにかく続けていくんです。
言語の本質の多くを理解したと思ってたけど、まだまだ先があったんです。
ちょっと離れて考えてみると、私がAIについて、安全性について、組織について非常に経験主義的な立場を取ってる理由の1つは、よく驚かされるからです。いくつかのことで正しかったと思うんやけど、それでも理論的な予想のほとんどは間違ってました。10%くらい正しかっただけで、多くの人より頭ひとつ抜けてるってことになるんです。
昔よく見た図を思い出してください。村の馬鹿、アインシュタイン、知能のスケールがあって、村の馬鹿とアインシュタインがめっちゃ近くに描かれてる。抽象的な意味ではまだそうかもしれへんけど、実際に見てるのはそんなんじゃないですよね。人間の範囲はかなり広くて、異なるタスクで人間の範囲に同じ場所で同時に達するわけじゃないってことが分かってきてます。
例えば、コーマック・マッカーシーの文体でソネットを書くとか。私はあんまり創造的じゃないから、そんなんできへんけど、それはかなり高度な人間のスキルですよね。モデルは「X」について「E」を使わずに1ページ書くみたいな制約のある文章を書くのが上手くなり始めてます。
そういうのは、モデルが超人間的か、それに近いかもしれません。でも、比較的単純な数学の定理を証明するとなると、やっと始まったばっかりです。めっちゃ間抜けなミスをすることもあるし、エラーを修正したり、長期的なタスクをこなしたりするのが本当に苦手です。
結局、知能はスペクトラムじゃないってことが分かってきたんです。色んな分野の専門知識があって、色んな種類のスキルがあるんです。記憶力も違います。全部が一つの塊に形成されてて、複雑じゃないんです。でも、スペクトラムの上にあるとしても、そのスペクトラムも広いんです。
10年前に聞いたら、全然そんな風には思わへんかったと思うんやけど、実際にはそうなってるみたいです。
うわ、それに関連して質問がいっぱいあるわ。これらのモデルが、人間が進化から得たものとは違って、インターネットの大量のデータから得た訓練の分布を考えると、引き出されるスキルのレパートリーはほとんど重なってへんと予想する? それとも同心円みたいな感じになると思う? それについてどう考えてる? それって重要なん?
ダリオ: 明らかにかなりの部分で重なってます。これらのモデルがやることの多くはビジネスに応用されてて、そのビジネス応用の多くは人間がより効果的に仕事をするのを助けることやからです。だから、重複はかなり大きいです。
人間がインターネット上にテキストで置いた活動を全部考えると、かなりの部分をカバーしてますが、おそらくカバーしてへんこともあります。例えば、モデルはある程度、世界の物理的なモデルを学んでますが、実際に世界を動き回る方法は学んでへんでしょう。
繰り返しになりますが、それはファインチューニングで簡単にできるかもしれません。だから、モデルが学ばへんけど人間が学ぶことがいくつかあります。そして、モデルは人間が学ばへんことも学びます。例えば、流暢にBase 64を話すとか。あんたもそんなの学んだことないでしょ?
経済的に価値のある多くのタスクで、これらのモデルが何年も超人間的になりながら、知能爆発とかを防ぐような他の関連タスクではまだ人間以下のままである可能性はどれくらいやと思う?
ダリオ: こういうことは本当に分かりにくいので、その前提で話しますが、基本的なスケーリング則はある程度予測できて、もっと細かいこと、本当に知りたいこと、これがどう進むのかを知るために必要なことは、もっと予測が難しいです。
私の推測では、スケーリング則は続くでしょう。また、安全性や規制上の理由で人々が減速するかどうかによっても変わってきます。でも、それは置いといて、経済的にスケールアップし続ける能力があるとしましょう。そうしたら何が起こるでしょうか。
私の見方では、全体的に良くなり続けるでしょうし、モデルがめっちゃ弱かったり、進歩し始めてへん分野は見当たらへんと思います。数学やプログラミングはそうやったんですが、過去6ヶ月くらいで、2023年世代のモデルは2022年世代と比べて、そういうことを学び始めました。もっと微妙なことで、まだ分からへんこともあるかもしれません。
だから、完全に均等じゃなくても、潮の満ち引きがすべての船を持ち上げるように、全体的に上がっていくんやないかと思います。
デフォルトでアラインされてるとも思わへんし、デフォルトで破滅するとも思わへんし、解決せなあかん問題があるとも思わへん。ちょっと違う性質のもんやと思います。
今思ってるのは、2〜3年くらいの間に、モデルがいい時と悪い時を診断するのがもっと上手くなれたらいいなってことです。モデルが悪いことをする可能性を減らし、良いことをする可能性を増やす方法のレパートリーを増やせたらいいなと。それも、今のモデルだけじゃなくて、スケールする方法でね。そして、解釈可能性をテストセットとして使って、それを発展させるのを手伝えたらと思います。
「ああ、RLHFを試したけどうまくいかへんかった。憲法AIを試したけどうまくいかへんかった。他のことも試したけどうまくいかへんかった。機械的解釈可能性を試した」みたいな感じには考えてへんのです。「まだ問題を解決できてへん、リーマン予想をまだ証明できてへん」みたいな考え方はちょっと違うと思います。
今日のシステムでも、制御するのがめっちゃ下手で、その結果はめっちゃ悪くなる可能性があります。ただ、モデルを制御できる可能性を高め、モデルの中で何が起こってるのかを理解する方法をもっと増やす必要があるだけです。今のところいくつかの方法はあります。まだそれほど良くないですけどね。
でも、これを二元論的に考えてへんのです。うまくいくかいかへんか、みたいな。もっと方法を開発していきます。今後2〜3年の間に、うまくいかへん可能性の確率を減らし始めると思います。コア安全性の見解の論文にあるように、問題の難しさにはある確率分布があるんです。
そういう言い方でさえ、ちょっと違う気がします。リーマン予想を解くみたいなもんじゃないからです。今、5つのボールをジャグリングしようとしてるみたいなもんです。3つのボールはジャグリングできるんですが、5つはまだ全然できません。たくさん練習しないとできるようにならへんのです。今やったら、ほぼ間違いなく落としてしまいます。でも時間が経つにつれて、ボールをコントロールする能力がだんだん上がっていくんです。
その論文について特に聞きたいんやけど、あんたの個人的な確率分布はどうなん? 聴衆のために説明すると、3つの可能性があって: 1つ目は、RLHF++でこれらのモデルをアラインするのは簡単やってこと。2つ目は、難しい問題やけど、大企業なら解決できるってこと。3つ目は、現在の人類文明では基本的に解決不可能なことやってこと。この3つをうまく捉えられてたら、あんたのこの3つに対する確率分布はどうなん?
ダリオ: 「Xの確率分布はどうですか?」みたいな質問にはあんまり乗り気じゃないんです。それら全部に十分な可能性があるから、真剣に考慮すべきやと思います。私がもっと興味があるのは、それらの間の確率分布を変えるような何を学べるか?ってことです。
その答えは何なん?
ダリオ: 機械的解釈可能性がする1つのことは、必ずしも問題を解決するというより、モデルをアラインしようとするとき何が起こってるのかを教えてくれることやと思います。基本的に、これについて教えてくれるんです。
問題がただ移動してるだけで、根絶されてへんことを機械的解釈可能性が示したら、物事がめっちゃ難しいって結論に至る可能性があります。あるいは、1つの問題を解決したら別の問題を生み出してしまうとか。あるいは、なぜ問題が持続するのか、なぜ根絶するのが難しいのか、なぜ問題が発生するのかについての洞察を与えてくれるかもしれません。
「ああ、常にこの特定の方向に収束する目標がある」みたいな話を本当に信じるためには、抽象的な話は完全に説得力がないわけじゃないですが、本当に説得力があるとも思えへんし、安全性の仕事のすべてを動機づけるために必要やとも思えへんのです。
でも、「うわ、これは解決できへん」って本当に思わせるようなものは、X線の中でそれが起こってるのを見ることです。
今のところ、これがどう進むかについて、仮定が多すぎたり、過度に自信を持ちすぎたりしてると思います。これが全部うまくいかへんで、完全な災害になる可能性にかなりの確率を置いてますが、それは誰も予想してへんかった全く違う方法でね。
予想してへんかった方法でどうなるか聞くのは的外れかもしれへんな。これについて特に、どんな情報が関係あるんやろ? Claude 3と次世代のモデルをアラインすることの難しさはどれくらい大きな情報になるんやろ?
ダリオ: 最も心配してる人たちは、人間以下のAIモデルは全部アライン可能で、アラインされてるように見えて、何らかの形で騙すだろうって予測してます。確かにいくらかの情報は得られますが、私はむしろ機械的解釈可能性が教えてくれることにもっと興味があります。なぜなら、このX線を見るのは、嘘をつかへんとは言えへんけど、少なくとも現在のシステムでは、私たちに対して最適化してるようには感じへんからです。もちろん、そうなる可能性もありますが。何も安全な賭けはないと思いますが、私たちに対して積極的に最適化してへんものに最も近いものが得られると思います。
機械的解釈可能性以外の、あんたらが研究してる具体的な方法について話そう。RLHFや憲法AIについて、人間の心理学の観点から言うと、どんな変化が起こってるん? 新しい欲求、新しい目標、新しい思考を作り出してるん? 心理学の観点から見て、モデルはどう変化してるん?
ダリオ: それらの用語は全部、起こってることを説明するのに不適切です。人間に対する抽象化としてもどれだけ有用かは分かりません。
起こってることを説明する言葉がないんです。また、X線が見たいです。実際に中を見て、何について話してるのか知りたいです。今のところ、この質問をする時にあんたがしてるのと同じように、基本的に言葉を作り出してるだけなんです。
正直に言うと、私たちは本当に何について話してるのかほとんど分かってへんのです。「実際にはこういう意味です。ここのこの回路がオンになって、モデルを訓練した後は、この回路はもう機能してへんか弱くなってる」みたいに言えたらいいんですけどね。そこまで行くにはめっちゃ時間がかかります。
モデル生物について、前に言及してたけど、今は危険なことをする能力があるかどうか評価してて、今のところはできへんって言うてたよな。ラボからの漏洩シナリオについてどれくらい心配してる? ファインチューニングしたり、危険な行動を引き出そうとしたりする過程で、生物兵器を作れるって教えるんじゃなくて、実際に生物兵器を作ってしまうようなことを漏らしてしまう可能性はどうなん?
ダリオ: 今日の受動的なモデルではそれほど心配してません。モデルをファインチューニングするなら、プライベートにやって、専門家と協力します。だから、漏洩があるとしたら、モデルがオープンソース化されるとかそんな感じです。今のところ、主にセキュリティの問題です。
モデルが本当に危険になる場合については、本当に強力なモデルを作って、何が危険で何が安全かを見極めようとする時に、もっと一発勝負的な要素が出てくるかもしれません。モデルが乗っ取りのリスクがあるかもしれません。それを制御する主な方法は、テストするモデルの能力がそこまで高くないことを確認することです。
どの時点で能力が高すぎて「これはテストしたくない」って言うようになるん?
ダリオ: 色んなことがありますね。能力のテストとか…
でもそれ自体が…もし複製をテストしてたら、実際に複製されたらどうするん?
ダリオ: そうですね。でも、外挿したいんです。Arcとこれについて話したんですが、計算能力を2倍ずつ増やしていって、「モデルはAWSでアカウントを開いて自分でお金を稼げるか?」みたいな、野生での完全な生存の明らかな前提条件みたいなことをチェックします。
そういった閾値をずっと下に設定して、そこから上に進むにつれて、より厳密なテストをして、やってることについてもっと慎重になります。
憲法AIについて、次世代のモデルや潜在的に超人間的なモデルの憲法を誰が決めるん? それは実際にどうやって書かれるん?
ダリオ: 最初に憲法を作るときは、国連の人権宣言とかAppleの利用規約の一部とか、広く合意されてることを使いました。何を言っていいか、どんな基本的なことを含めていいかについての合意事項みたいなもんです。
将来の憲法については、もっと参加型のプロセスを検討してます。でも、それ以上に、1つの憲法をみんなが使うモデルに適用すべきじゃないと思います。モデルの憲法はめっちゃシンプルで、みんなが同意するような基本的な事実だけを含むべきです。そして、憲法を追加するなど、カスタマイズする方法がたくさんあるべきです。
それ以上に、新しい方法を開発してます。これだけ、あるいはこれがスーパーヒューマンAIを訓練する方法になるとは思ってません。能力訓練の多くの部分が違う可能性があるので、全然違う形になるかもしれません。
これより上のレベルもあります。「これがAIの憲法で、これで世界を運営する」みたいなのはめっちゃ不安です。社会がどう機能するか、政治がどう機能するかについての普通の教訓から考えると、それは空想的すぎます。
安全性の問題を軽減した後でも、良い未来には、解決せなあかん安全保障の問題があったとしても、最終的にはもっと分散的で、神のような超…みたいなものじゃない形になる必要があると思います。そういう形ではうまくいかへんと思います。
マンハッタン計画の科学者の中で、与えられた制約の中で最も倫理的に行動したと思う人は誰? 誰か思い浮かぶ人はおる?
ダリオ: 分からへんです。色んな答えがあると思います。シラードのファンやね、彼がそれを理解したってことで。彼はその後、実際に爆弾を落とすことに反対しました。爆弾のデモンストレーションで戦争を終わらせられたかどうかについては、歴史を十分知らへんので意見を言えません。大日本帝国についての複雑な事実が関係してくるし、私は専門家じゃないので。
でも、シラードは早い段階でこれを発見して、秘密を守り、一部を特許化して英国海軍に渡しました。彼は正しい種類の認識を示してたように見えるし、物事を発見したようです。
あの本を読んだときに、この大きな計算の塊についての文書を書いて、ほんの数人にしか見せへんかったり、他の文書をほぼ誰にも見せへんかったりしたのは、ちょっとこれに触発されたんです。
また、自分を大げさに見せすぎるのもよくないです。実際にマンハッタン計画と同じくらいのものになるかどうかは分からへんからです。これは単にシリコンバレーの人々が技術を構築してて、大それた妄想を抱いてるだけかもしれません。どうなるか分からへんのですけど、スケーリングの話が本当なら、マンハッタン計画よりも大きなもんになるかもしれへんな。
ダリオ: そうやね、確かにもっと大きくなる可能性はあります。でも、自分を騙すのはめっちゃ簡単やってことを常に意識しておくべきやと思います。
第二次世界大戦中の物理学者で、政府からマンハッタン計画に代替不可能な研究で貢献するよう頼まれたら、あんたならどう答えたと思う?
ダリオ: ナチスとの戦争中やったら、それを断る選択肢はほとんどないと思います。どっちみち10年以内に誰かがやるんやろうって考えざるを得ません。
サイバーセキュリティについて、普通のテクノロジー企業のセキュリティポリシーしか持ってへん企業がいっぱいあって、公には明らかにハックされてへんように見えるってことをどう考えたらええんやろ? Coinbaseはまだビットコインを持ってるし、私のGmailはリークされてへんみたいやし。現状のテクノロジー企業のセキュリティ対策でAGIには十分やって考えるべきなんか、それとも単に誰も十分に努力してへんだけなんやろか?
ダリオ: 現在のテクノロジー企業のやり方について詳しく話すのは難しいです。もちろん、私たちが知らへん攻撃もたくさんあるかもしれません。何かが盗まれて、静かに使われてるだけかもしれません。
1つの指標として、誰かが本当に攻撃することに関心を持ってる場合、攻撃は起こるってことやと思います。
最近、アメリカ政府の高官何人かのメールアカウントがMicrosoftを通じてハックされたのを見ました。Microsoftがメールアカウントを提供してたんです。おそらく、外国の敵対者にとって大きな関心のある情報が漏れたんでしょう。
少なくとも私には、何かが十分に価値が高くなると、誰かが行動を起こして盗むって証拠と一致してるように見えます。そして、AGIについての私の心配は、もちろん価値が信じられないほど高いと見なされる世界に向かってるってことです。核ミサイルを盗むみたいなもんになるでしょう。こういうことに関しては、注意しすぎってことはないです。
私が働いてきたどの場所でも、サイバーセキュリティをもっと良くするよう押し進めてきました。サイバーセキュリティについての心配の1つは、それを大々的に宣伝できへんってことです。安全性研究についてのええダイナミクスは、企業間で最高の安全性研究をしようって競争させて、リクルーティングのポイントにできることです。そして、私たちはそういう状況を作り出せたと思います。
昔はよく解釈可能性でこれをやってて、そのうち他の組織も欠点に気づいて、それが以前の優先事項やったかどうかに関係なく、解釈可能性の研究を始めました。
でも、サイバーセキュリティではそれが難しいんです。多くのことを静かにやらなあかんからです。1つの投稿は出してみたんですが、ほとんどの場合は結果しか見えません。
ええ規範は、企業からのサイバーセキュリティリークやモデルパラメータのリークを見て、「やらかしたな、それはあかんわ」って言うことです。安全性に関心のある人なら、そんな企業では働きたくないって思うかもしれません。
もちろん、これを言うた途端に明日セキュリティ侵害が起こるかもしれませんが、それもこのゲームの一部です。物事を安全にしようとする努力の一部です。
さっき話してた話に戻りたいんやけど、2〜3年後に必要になるサイバーセキュリティの究極のレベルと、それがバンカーを必要とするかどうかについて。2〜3年後に実際に物理的なバンカーにいると予想してる? それとも単なる比喩?
ダリオ: それは比喩です。まだ詳細を詰めてる最中です。
考えるべきことの1つは、データセンターのセキュリティです。必ずしも私たちと同じ場所にあるわけじゃないですが、アメリカ国内にあることを確認するためにめっちゃ頑張りました。でも、物理的なデータセンターとGPUの安全性を確保することです。
本当に決意した人がいたら、本当に高価な攻撃の中には、データセンターに入って直接データを盗もうとしたり、データセンターから私たちに流れてくる途中でデータを盗もうとしたりするものもあります。これらのデータセンターはめっちゃ特別な方法で建設せなあかんでしょう。
物事がスケールアップしていく様子を見ると、データセンターのネットワークが航空母艦くらいの費用がかかる世界に向かってるんです。それらはすでにかなり珍しいものになるでしょうが、巨大な巨大なモデルを訓練するために連携する能力が異常なだけじゃなく、めっちゃ安全でもあるべきなんです。
ところで、次世代モデルのための電力とGPUの調達の難しさについて噂があるけど、次世代に必要な部品を確保するプロセスはどんな感じやった?
ダリオ: それについて詳しく話すことはできません。ただ、人々は産業規模のデータセンターを考えてますが、これらのモデルがすぐに到達するスケールを考えてへんのです。
これまでにないスケールで何かをやろうとすると、すべてのコンポーネント、すべてのものを今までとは違うやり方でやらなあかんのです。そして、驚くほど単純なコンポーネントで問題が発生するかもしれません。電力は言及したものの1つです。
これはアンスロピックが処理せなあかんことなん? それとも外注できるん?
ダリオ: データセンターについては、例えばクラウドプロバイダーと協力してます。
これらのモデルが人間以下の能力しかないのに、そんなに大量の訓練とインターネットデータ全体を必要とすることについて、どう考えたらええんやろ? GPT-4は10^25フロップスくらいやったって推定があって、この数字は慎重に扱う必要があるけど、人間の脳をシミュレートするのに必要なフロップス数は、人間が生まれてから20歳になるまでで10^14フロップスくらいやって報告があるんや。
その数字の詳細には触れへんけど、これらのモデルがこんなにサンプル効率が悪いように見えることを心配すべきなん?
ダリオ: それは残された謎の1つです。1つの言い方をすると、モデルは人間の脳より2〜3桁小さいかもしれません。シナプスの数と比較すると、同時に3〜4桁多いデータで訓練されてます。
人間が18歳までに見る単語数と比較すると、正確には覚えてへんけど、たぶん数億くらいやと思います。一方、モデルの場合は数千億から数兆の単語を扱ってます。
これをどう説明したらええんでしょうか? モデルが小さくて、もっとたくさんのデータが必要ってことと、まだ人間以下のレベルってことのバランスが取れてます。
脳とのアナロジーがちょっと違うか、どこかで崩れてるか、何か欠けてる要素があるんでしょうね。これは物理学でマイケルソン・モーリーの実験が説明できへんかったり、19世紀の物理学のパラドックスのようなもんです。まだよく分からへんことの1つです。
人間はそんなに少ないデータしか見てへんのに、うまくやってます。
1つの理論として、他の感覚モダリティみたいなもんかもしれません。人間の脳に10^14ビットをどうやって入れるんやろ? その大部分は画像で、たぶん人間の脳の中で起こってることの多くは、心的ワークスペースにこれらのシミュレートされた画像が含まれてるってことかもしれません。
でも正直、知的には、これは合わへん変なことやって認めなあかんのです。これは生物学的なアナロジーに少し懐疑的になる理由の1つです。5〜6年前はそういう観点で考えてましたが、今は実際にこれらのモデルを目の前にしてるので、そこから得られる証拠のほとんどが、私たちが見てきたものによって覆されてるように感じます。
私たちが見てきたのは、人間の脳よりずっと小さいモデルが人間ができることの多くをこなせるってことです。でも、逆説的に、もっとたくさんのデータが必要なんです。
もしかしたら、全部効率的にする何かを発見するかもしれへんし、この差を理解できるようになるかもしれません。でも結局のところ、私たちが今のようにスケールアップし続けるなら、それは重要じゃないと思います。
この時点でもっと関係あるのは、単にモデルの能力を測定して、人間からどれくらい離れてるかを見ることやと思います。そんなに遠くないように思えます。
このスケーリングの図と、より一般的な大きな計算の塊は、アルゴリズムの進歩が果たした役割を過小評価してへん? 大きな計算の塊について書いた時、おそらくLSTMのことを話してたと思うけど、そのスケーリングやったらClaude 2には到達してへんはずやん。
トランスフォーマーのスケールの改善がここで果たしてる役割を、スケーリングっていうラベルの裏に隠してへん?
ダリオ: この大きな計算の塊の文書は、まだ公開してません。歴史的な理由で公開すべきかもしれません。今公開しても、みんなが知らへんことは何も教えられへんと思いますが。
書いた時、「7つの要因がある」って言いました。これらが全部の要因やとは言わへんかったんですが、どんな種類のことが重要で、何が重要じゃないかを感じ取ってもらおうと思って。9つかもしれへんし、5つかもしれません。でも、こんなことを言いました – パラメータの数が重要。モデルの規模が重要。計算量が重要。データの量が重要。データの質が重要。損失関数が重要。強化学習をしてるのか、次の単語を予測してるのか。損失関数が豊かじゃないか、正しいことを奨励してへんかったら、何も得られへん。
これらが主要な4つで、仮説の核心やと思います。
でも、さらに3つのことを言いました。1つは対称性で、基本的にアーキテクチャが正しい種類の対称性を考慮してへんかったら、機能しないか非常に非効率になります。例えば、畳み込みニューラルネットワークは並進対称性を考慮してます。LSTMは時間対称性を考慮してます。
でも、LSTMの弱点は、文脈全体に注目できへんことです。だから、構造的な弱点があるんです。モデルが十分に遠い過去に起こったことを吸収して管理する構造的能力がなかったら、計算が流れへん。スパイスが流れへんのです。塊は邪魔されてはいけません。人為的に物事を閉じてしまったら機能しません。RNNとLSTMは遠い過去から切り離されてるから、人為的に物事を閉じてしまってるんです。繰り返しますが、物事は自由に流れる必要があります。そうでないと、機能しません。
それから2つのことを付け加えました。1つは条件付けで、最適化してるものが数値的にめっちゃ悪かったら、問題が出てきます。だから、atomが通常のSTDよりうまく機能するんです。
7つ目の条件は忘れましたが、似たようなもんで、失敗するように設定されてたり、計算が邪魔されずに機能できへんように設定されてたら、機能しません。
トランスフォーマーはその中に含まれてましたが、トランスフォーマーの論文が発表されてたかどうかは覚えてません。その文書を書いた頃と同じくらいの時期やったと思います。直前やったかもしれへんし、直後やったかもしれません。
その見方からすると、これらのアルゴリズムの進歩は、計算の塊のパワーを増大させるんじゃなくて、単に古いアーキテクチャが持ってた人為的な障害を取り除いてるだけって考えるべきなんかな?
ダリオ: ちょっとそんな風に考えてます。イリヤの「モデルは学びたがってる、計算は自由になりたがってる」って話に戻ると、計算が邪魔されてるのに、それが邪魔されてるって分かるまで解放する必要がないってことですね。
勾配をスパイスに変えるのええな。
でも、その点について、トランスフォーマーのスケールの次の大きな進化が来て、次の大きな飛躍を可能にするって思う?
ダリオ: あり得ると思います。人々は非常に長期の時間依存性をモデル化しようとしたり、何かを効率的に表現したり扱ったりする方法が欠けてるんじゃないかって色んなアイデアがあって、そういうのが発明される可能性はあると思います。
私の見方としては、それらが起こらなくても、すでにめっちゃ急な軌道に乗ってます。常にそういうものを発見しようとしてるし、他の人もそうしてますが、すでにこんなに速い軌道にあるので、それらが起こってもその軌道をさらに加速させるだけで、おそらくそれほど大きくは加速しないと思います。
データや進歩を得る上で、モデルの身体化バージョンを持つことは重要?
ダリオ: それは新しいアーキテクチャっていうより、損失関数とか、データ、露出される環境がめっちゃ違うってことやと考えます。
いくつかのスキルを学ぶには重要かもしれませんが、データの取得は難しいので、言語ルートを通じて進んできたし、身体化についてもっと可能になっても、おそらく言語ルートを通じて進み続けると思います。
あと、強化学習の可能性もあります。RLHFで既にある程度強化学習をやってます。これはアライメントなんか? 能力なんか? 私はいつも2つのヘビのことを考えてて、区別するのが難しいことが多いです。
言語モデルに対して既にある程度強化学習を使ってますが、行動を起こして世界で物事をするようにさせるためにはあまり使ってへんと思います。でも、長期間にわたって行動を起こして、その行動の結果を後になって理解する時、強化学習は私たちが持ってる典型的なツールです。
だから、モデルが世界で行動を起こすという意味では、強化学習が重要になると思います。そこにはすべてのパワーと、それに伴うすべての安全性の問題が付いてきます。
将来を予測する時、これらのものが生産的なサプライチェーンに統合される方法が見えてる? お互いに話し合って批評し合って、お互いの出力に貢献し合うのが見えてる? それとも、1つのモデルが一発で答えや仕事を出すだけ?
ダリオ: モデルは長期的なタスクを引き受けることになるでしょう。そうせざるを得ません。安全性の問題を少し簡単にするために、ある程度制限する必要があるかもしれませんが、ある程度は必要になるでしょう。
モデル同士が話すのか、人間と話すのかについては、これは技術的な領域を超えて、社会文化的・経済的な領域に入ってきます。私のヒューリスティックは、これらのことを予測するのはめっちゃ難しいってことです。
このスケーリング則はめっちゃ予測可能やったと思うんですが、「これらのモデルの商業的爆発はいつ起こるんや?」とか「どんな形になるんや?」とか「モデルは人間の代わりに物事をするんか、それとも人間と組んでするんか?」っていうことになると、確実に私の予測記録はひどいものです。でも、周りを見ても、予測記録が素晴らしい人はあんまり見当たらへんのです。
進歩がめっちゃ速く起こってるって言うたけど、既存の経済や物事の仕組みに統合するのが難しいっていうのもあったよな。次のモデルがめっちゃ良くなって、全く違う状況になる前に、AIプロダクトから大きな収益を上げる時間は十分あると思う?
ダリオ: 「大きな」っていうのがどういう意味かによります。すでに複数の企業が年間1億ドルから10億ドルの範囲に入ってると思います。1000億ドルや1兆ドルの範囲に達する前にどうなるか? そういうことを予測するのはめっちゃ難しいです。そもそもよく定義されてへんのです。
今、多くの企業が生成AIにめっちゃお金を投げ込んでます。顧客としてはそれが正しいことで、用途を見つけるでしょうが、初日から用途や最高の用途を見つけてるわけじゃないってことです。
お金が動いてるってことと、経済的価値が生み出されてるってことは全く同じじゃないんです。
でも、アンスロピックの視点からこのことについて考えたことあるやろ? これらのことがこんなに速く起こってるなら、めちゃくちゃな評価額になるはずやろ?
ダリオ: 私たちは商業化にそれほど集中せずに安全性に重点を置いてきましたが、グラフは上がってて、比較的速く上がってます。これが唯一の焦点になってる組織では何が起こってるか想像できます。
確かに速く起こってますが、技術自体が速く進歩してる中で、小さな基盤から指数関数的に伸びてるんです。技術がどれだけ速く良くなってるかと、経済にどれだけ速く統合されてるかの競争です。そして、それはめっちゃ不安定で激しいプロセスやと思います。両方とも速く起こりますが、正確にどう展開するか、どんな順序で物事が起こるかを聞かれても、分からへんのです。そして、予測できるとは思えません。
気になるんやけど、アンスロピックに関して言えば、あんたらは公益法人で、正当にもこれが重要な技術やってことを確認したいんやよね。明らかに、株主価値だけを気にしたくないんやろ。でも、数億ドル、数十億ドルものお金を出してる投資家とはどう話してるん? 株主価値が主な関心事じゃないのに、こんな大金を出してもらうにはどうすればええん?
ダリオ: 長期利益信託(LTBT)がこれについての正しいものやと思います。LTBTについてはもっと話すつもりですが、何らかのバージョンがアンスロピックの始まりから開発されてて、正式にもそうでした。組織が変わっても、最初から「この組織が存在して、それは普通じゃない」ってことでした。
アンスロピックに投資する従来の投資家は全員これを見ます。「まあ、会社の運営は好きにしてくれ」って人もいれば、「うわ、この無作為な人々の集まりがアンスロピックを株主価値に全く反する方向に動かすかもしれへん」って人もいます。もちろん、法的な制限はありますが、すべての投資家とこの会話をせなあかんのです。
そして、従来の投資家の利益に反するようなことを私たちがする可能性があるのはどんなことか、っていう話になります。そういう会話をすることで、みんなが同じ認識を持てるようになってきました。
アンスロピックの創業者や従業員の多くが物理学者やってことについて話したいんやけど。最初にスケーリング則の話をして、物理学からのべき乗則がここでも見られるって言うたけど、物理学からのアプローチや考え方で、ここにうまく適用されてるものは他に何がある? 有効理論の概念はめっちゃ有用? ここで何が起こってるん?
ダリオ: 一部は単に、物理学者がものをめっちゃ速く学ぶってことです。一般的に、物理学の博士号を持ってる人とか、そういう人を雇うと、機械学習を学んですぐに貢献できるってことが分かりました。私自身や、ジャレッド・カプラン、サム・マッカンドリッシュといった創業者の何人かが物理学者やったので、他の物理学者をたくさん知ってて、彼らを雇うことができました。今では30人か40人くらいの物理学者がここにいると思います。
機械学習はまだそれほど深みのある分野じゃないので、彼らはめっちゃ速く追いつくことができたんです。
物理学とかをやってた人たちが、金融に行く代わりにアンスロピックに来て、AIに引き込まれてることを心配してへん? もちろんあんたはAIの安全性を気にしてるけど、将来的に彼らが離れて自分たちのことをやり始めるかもしれへんやん。エコシステムにもっと多くの人を引き込んでることを心配してへん?
ダリオ: 幅広い行動があって、GPUを存在させる原因になってるとか。フロンティアモデルを構築する必要があるって考えを受け入れたら、現在制御できへんか、単に発生する副作用がたくさんあって、それはその1つです。
そのうちの多くは、どっちみち起こってたでしょう。20年前は金融がホットやったから、物理学者はそれをやってました。今は機械学習がホットなので、彼らはそれをやってます。彼らが以前から全く興味を持ってへんかったことをさせてるわけじゃないんです。
でも、確かに、限界では物事を押し上げてて、その多くは起こってたでしょうが、一部は起こってへんかったかもしれません。でも、それも全部計算に入れてます。
人材密度が重要やって確かに思うけど、アンスロピックが強調してるもう1つのことは、安全性研究をするにはフロンティアモデルが必要やってことやよね。そしてもちろん、実際に会社として機能することも。
現在のフロンティアモデル、GPT-4やClaude 2は1億ドルくらいかかってるんちゃうかって人もおるかもしれへんけど…
ダリオ: その一般的な桁数は、非常に広い意味では間違ってへんです。でも、2〜3年後には、あんたが話してるようなことについて、もっと多くの桁数の話になってるでしょう。
安全性のためにフロンティアにいる必要があるなら、アンスロピックがこういう巨大企業と競争して同じスケールを維持できるシナリオってあるん?
ダリオ: これはトレードオフがたくさんある状況です。簡単じゃないです。
質問に1つずつ答えていきます。まず、なぜ安全性がスケールにそんなに結びついてるのか? そう思わへん人もいます。でも、安全性の方法が実践されたり、何かに対して機能したりした分野を見てみると、一般的に機能するとは思えへんけど。
2018年にOpenAIで討論と増幅についての論文を書いた時のことを思い出します。人間からのフィードバックはうまくいかへんけど、討論と増幅なら人間を超えられるって感じでした。でも、実際に討論をしようとしたら、モデルの質に本当に制限されてました。
2つのモデルが人間が判断できるくらい一貫した討論をして、訓練プロセスが実際に機能するためには、一部のトピックでは現在のフロンティアと同等か、それ以上のモデルが必要です。
フロンティアにいなくても方法を思いつくことはできます。アイデアを思いつくことはできますが、それは必要なことのごく一部です。これらの方法を思いつくのはめっちゃ簡単です。「問題はXで、解決策はYかもしれへん」って言うのは簡単です。
私は実際に物事が実践でうまくいくかどうかを本当に知りたいんです。今日のシステムでさえ。そして、どんな種類のことがうまくいかへんのかを知りたいんです。実践でこれらを試すことで、10個の新しいアイデアと、10個の新しいうまくいかへん方法を発見すると思うんです。
経験的な学習がそれほど広く理解されてへんと思います。憲法AIみたいな方法についても同じことが言えます。「ああ、関係ない。この方法がうまくいかへんってもう分かってる、純粋なアライメントにはうまくいかへん」って人もいます。私はそれに同意も反対もしません。それはちょっと自信過剰すぎると思います。
新しいことを発見して、何がうまくいって何がうまくいかへんのかの構造を理解する方法は、物事をいじってみることです。「ああ、これがここでうまくいったから、あそこでもうまくいく」って盲目的に言うべきじゃないです。でも、パターンを本当に理解し始めるんです。スケーリング則みたいな感じです。
機械的解釈可能性でさえ、フロンティアモデルなしで多くの進歩が見られた1つの分野かもしれませんが、OpenAIが数ヶ月前に出した研究で、弱いモデルを自動解釈するのに非常に強力なモデルを使うのを見ました。これが解釈可能性でできることすべてじゃないですが、大きな要素で、私たちも役立つと分かりました。
だからこの現象を何度も何度も見るんです。スケーリングと安全性は、お互いに絡み合った2匹のヘビみたいなもんで、思ってる以上にいつも絡み合ってるんです。解釈可能性でさえ、3年前は解釈可能性にもこれほど当てはまるとは思ってへんかったんですが、なんかうまくそうなってるんです。なぜ? それは知能が役立つからです。色んなタスクに役立ちます。そのタスクの1つが、他の知能を判断し評価することで、いつかはアライメント研究自体にも役立つかもしれません。
そういうことが全部本当やとしたら、2〜3年後にこれらの巨大企業が100億ドルの訓練を行ってる時、アンスロピックにとってそれは何を意味するん?
ダリオ: 選択肢の1つは、フロンティアにいられへんか、コストが高すぎる場合、それをやめて最先端のモデルでは働かへん、それほど先進的じゃないモデルで何ができるか見てみるってことです。そこでもゼロじゃない価値は得られますが、その価値がそれほど高いか、学習が十分速くてタスクに有利になるかは懐疑的です。
2つ目の選択肢は、とにかく方法を見つけることです。トレードオフを受け入れるだけです。そして、トレードオフは見た目ほどネガティブじゃないんです。「トップへの競争」って呼んでる現象があるからです。それについては後で話せます。
3つ目の現象は、物事がそのスケールになると、非常に深刻な危険性が出てくる可能性と一致するかもしれません。まず誤用から来ると思います。私が話した生物学的リスクのことです。
2年後に自律性の問題でアライメントの問題を心配する必要はないと思いますが、その直後にはそういう問題も出てくるかもしれません。それが、一方的か多国間か、あるいは政府が強制するかもしれませんが、できるだけ速くスケールアップしないという決定につながるかもしれません。私たちはそれを支持します。それが正しいことになるかもしれません。
そうなれば、フロンティアにいなくて研究をしたいようにできへんとか、他の組織に影響を与えたいようにできへんっていう難しいトレードオフと、フロンティアにいてトレードオフを受け入れるっていう、両方向に多くのものがあるけど全体としてはプラスになるトレードオフ、この2つの難しい選択をせんでよくなるかもしれません。
誤用とアライメントの失敗について、両方とも問題やって言うたけど、長期的に見て、30年後くらいにはどっちがより大きな問題だと考えられるようになると思う?
ダリオ: 30年よりずっと短くなると思います。両方とも心配してます。理論的に世界を乗っ取れるモデルがあって、そのモデルをコントロールできるなら、そのモデルが一部の人々の願いに従って他の人々の願いに従わへんかったら、その人々がそれを使って世界を乗っ取れるってことは簡単に導き出せます。
アライメントの失敗の前提は、誤用についても同様の結果を心配すべきってことを意味してます。
でも、あんたよりもっと破滅的な未来を予想する人たちは、「あんたは既に楽観的なシナリオに向かって働いてる。少なくとも悪い奴らとモデルをアラインする方法は分かってる。あとは良い奴らとアラインするだけや」って言うかもしれへん。なぜ悪い奴らとアラインできると思うん? まだ解決してへんやん。
ダリオ: アライメントが完全に解決不可能やと思うなら、「まあ、どっちみち死ぬから誤用は心配せんでええ」って考えるかもしれません。それは私の立場じゃないです。
でも、物事を良くする計画が実際に成功するかを考えるべきです。実際に成功する計画は、アライメントの難しさに関係なく、誤用とアライメントの両方を解決する必要があります。
AIモデルがどんどん良くなって速くなるにつれて、国家間のパワーバランスに大きな問題を引き起こすでしょう。個人が何か悪いことをして、他の全員がそれを止めるのが難しいってことが可能になる大きな問題を引き起こすでしょう。実際に良い未来につながる解決策は、これらの問題も解決する必要があります。
最初の問題が解決できへんから2番目と3番目の問題は心配せんでええって考えるなら、それは本当の意味での発言じゃないです。2番目と3番目の問題も心配すべきです。どんな道を選んでも、それらは私たちの前にある問題なんです。
そうやな。成功するシナリオでは全部解決せなあかんのや。
ダリオ: 失敗のために計画するんじゃなくて、成功のために計画すべきです。
誤用が起こらへんで、正しい人々が超人間的なモデルを持ってるとしたら、それはどんな感じになるん? 誰が正しい人々なん? 5年後に誰がモデルを実際にコントロールしてるん?
ダリオ: 私の見方では、これらのものは十分強力なので、何らかの政府や政府機関の集まりが実質的に関与することになると思います。これには非常にナイーブなバージョンがあります。国連や、その時の政権に単にモデルを渡すべきやとは思いません。それはうまくいかへん可能性があります。
でも、強力すぎるんです。この技術を管理するための正当なプロセスが必要で、それには技術を構築する人々の役割、民主的に選ばれた権威の役割、影響を受けるすべての個人の役割が含まれるべきです。最終的には、何らかの政治的に正当なプロセスが必要です。
でも、それはどんな感じなん? その時の大統領に渡すんじゃないとしたら、その組織はどんな感じなん?
ダリオ: これらのことを前もって知るのはめっちゃ難しいです。人々は広範な計画を提案して「ああ、こうすべきや」って言うのが好きです。正直な事実は、私たちはこれを進めながら理解しようとしてるってことです。
あまり強力じゃないバージョンの技術で物事を試して実験すべきやと思います。時間内にこれを理解する必要があります。でも、前もって知れるようなもんじゃないんです。
あんたらの長期利益信託は、この組織とどう関係するん? それがその組織自体なん?
ダリオ: 長期利益信託はずっと狭いものです。これはアンスロピックの決定を下す組織です。最近のVoxの記事で説明されてました。今年の後半にもっと詳しく話すつもりです。
基本的に、時間とともにアンスロピックの取締役会の過半数を任命する能力を持つ組織です。AIアライメント、国家安全保障、一般的な慈善活動の専門家が混ざってます。
アンスロピックがAGIを持ってて、アンスロピックの支配権が彼らに渡されたら、AGI自体の支配権が彼らに渡されるってことにならへん?
ダリオ: アンスロピックや他の組織が人類に代わってAGIについての決定を下す組織であるべきってことを意味しません。それらは別のものだと考えるべきです。
アンスロピックが広い役割を果たすなら、その組織を世界中の色んな人々に広げる必要があるでしょう。あるいは、これをめっちゃ狭く解釈して、どこかに広い委員会があって、すべての企業のすべてのAGIを誰かに代わって管理するってこともあり得ます。
分かりません。私の見方は、過度に建設的でユートピア的になるべきじゃないってことです。新しい問題に直面してるんです。今からどんな政府機関や構造がこれに対処できるかを考え始める必要があります。
じゃあ、ガバナンスのことは忘れて、これがうまくいく場合について話そう。明らかに、みんなが同意できることがあります。すべての病気を治す、すべての詐欺を解決する – 人間なら誰でも「それはええな」って言うようなこと。でも、2030年になったとしよう。みんなが同意できる本当の問題は全部解決した。次は何をするん? 超人間的な神様みたいなものをどうするん?
ダリオ: 実際、そういう言い方には反対したいです。「超人間的なAIで何をするつもりなんや?」って言われると緊張します。
過去150年くらいの間に、市場や民主主義について、各個人が人間としての経験を送る最良の方法を自分で定義できるってことや、社会がめっちゃ複雑で分散的な方法で規範や価値を定めるってことについて、たくさんのことを学んできました。
安全性の問題があるから、これらの問題を解決するまでは政府からある程度の中央集権的なコントロールが必要かもしれません。でも、「すべての問題を解決したから、これからどうやって物事を良くするか」って観点では、ほとんどの人々や集団や思想が「さあ、良い人生の定義について考えよう」って始めると、災害につながってきました。
でも、あんたが思い描いてる、AGIがある寛容で自由主義的で民主的で市場志向のシステムって、各人が自分のAGIを持つってこと? それはどういう意味なん?
ダリオ: 分かりません。どんな感じになるか分かりません。言いたいのは、重要な安全性の問題や重要な外部性を解決する必要があるってことです。それはアライメントに関することだけかもしれへんし、めっちゃ複雑で解決できへん経済的な問題がたくさんあるかもしれません。
それを前提に、過去に何がうまくいったかを考えるべきです。一般的に、良い人生を送るための単一のビジョンはまったくうまくいってへんのです。
物事がうまくいってる、あるいは良い人がAIをコントロールしてるって反対の極端な場合について。中国が潜在的なプレイヤーとしてどう考えるべきか触れてみたいんやけど。
まず、百度にいて一般的にAIの進歩が起こってるのを見てたけど、なんで中国人はあんまりうまくいってへんと思う? 百度にはスケーリング則のグループが何年も前にあったよな。それとも、その前提が間違ってて、私が知らへんだけで進歩が起こってるん?
ダリオ: スケーリング則のグループは、私たちが音声でやったことの派生物でした。まだ何人かの人がいましたが、ほとんどアメリカ化された研究室でした。私はそこに1年いました。これが深層学習への最初の挑戦でした。アンドリュー・ンが率いてました。中国には行ってへんかったです。アメリカの研究室みたいなもんでした。中国の組織が参入しようとする試みやったけど、ちょっと切り離されてました。
それ以降は、たぶんめっちゃ商業的な焦点を当ててて、スケーリング則みたいな基礎研究にはそれほど焦点を当ててへんかったんやと思います。
でも、去年の11月頃にChatGPTが発表されて大騒ぎになったから、彼らにとってもスタートの合図になったと思います。今はめっちゃ積極的に追いつこうとしてます。アメリカはかなり先を行ってますが、彼らは今、必死に追いつこうとしてます。
中国はAGIについてどう考えてると思う? 安全性や誤用について考えてるんか、それともそうじゃないんか?
ダリオ: 本当のところは分かりません。1つ心配なのは、「中国は安定を好むからAIを開発せえへん」とか「中国共産党の望むことに合わせるためにめっちゃ制限をかける」みたいなことを言う人がいることです。短期的には、消費者向け製品については当たってるかもしれません。
でも、私の心配は、基本的なインセンティブが国家安全保障とパワーに関するものなら、早かれ遅かれそれが明らかになるってことです。これを国力の源と見なすなら、少なくともAGIの方向に向かって最も効果的なことをしようとするでしょう。
彼らがあんたらの設計図やコードベースを手に入れたとすると、アメリカの主要企業と競争できるような研究所を立ち上げることは可能なん?
ダリオ: 速くできるかどうかは分かりませんが、これは心配してることです。これが私たちがサイバーセキュリティにそんなに力を入れてる理由の1つです。クラウドプロバイダーと協力してきました。モデルの重みへのアクセスに2キーシステムを導入したってブログ記事を出しました。他にも導入済みか導入を検討してる対策があって、まだ発表してませんが、広く話すことはできます。
ちなみに、私たちがやってることはまだ、本気の国家レベルの攻撃者に対しては全然十分じゃありません。ほとんどの攻撃や、それほど決意してない国家レベルの攻撃者には対抗できると思いますが、もっとやる必要があります。そのうちのいくつかは、セキュリティをどうするかについての新しい研究が必要かもしれません。
その時点で必要なことについて話そう。ここはアンスロピックのオフィスで、いいセキュリティがあるよな。入るのにバッジが必要やったし。でも、AGIが構築される最終的なバージョンのこの建物やバンカーや何かはどんな感じになるん? サンフランシスコの真ん中の建物なん? それともネバダやアリゾナの真ん中にあるん? どの時点でロスアラモス化するん?
ダリオ: 昔、どこかで冗談があって、AGIを構築する方法は、データセンターの隣に原子力発電所の隣にバンカーを置いて、みんなでバンカーに住んで、すべてをローカルにして、インターネットに接続しないことやって。
これが全部どれくらい速く起こるかを真剣に考えるなら、そういうことが起こるかもしれへんと思わせるけど、そこまで漫画的じゃないかもしれません。
アライメントが解決可能やと思うタイムスケールはどれくらい? これらのモデルが2〜3年で一部のことで人間レベルに達するなら、アラインされるのはいつ頃やと思う?
ダリオ: これはめっちゃ難しい質問です。実際、人々はアライメントについて間違った考え方をしてることが多いと思います。モデルがアラインされてへんとか、解決すべきアライメント問題があるとか、そんな一般的な感覚があります。いつかリーマン予想を解くみたいな。
そういう風には全然考えてへんのです。より悪いとか良いとかじゃなくて。同じくらい悪いかもしれへんし、同じくらい予測不可能かもしれません。
なぜ怖いのかを考えると、いくつかのことがあります。1つは、本当に反論しにくいのは、強力なモデルが存在するってことです。それらは主体性を持ちます。そういうモデルが人類を破壊したいと思ったら、それを止める能力はほぼないです。
それが真じゃないなら、モデルをスケールアップしていくうちに、いつかそうなる時点に達するでしょう。それは確かにそうなると思います。
2つ目に確かなのは、モデルをコントロールするのが下手みたいです。特定の方法じゃなくて、ただの統計的なシステムで、百万のことを聞いたら百万の答えを返せて、百万一番目のことを考えてへんかもしれません。それが何か狂ったことをするかもしれません。
あるいは、訓練するときにめっちゃ抽象的な方法で訓練して、その結果何が起こるか全部理解してへんかもしれません。これまで見た最高の例は、BingとSydneyです。どうやってそのモデルを訓練したのか分かりません。人を脅したり、変な執着的な性格を持ったりするようにするために何をしたのか分かりません。でも、それが示してるのは、意図したのとは全然違う、場合によっては正反対のものが得られる可能性があるってことです。
実際、事実1と事実2だけでめっちゃ心配になると思います。収束する道具的目標とか、進化との類推とか、そういう詳細なことは必要ないです。1と2だけで私にはめっちゃ動機づけになります。
分かった。生物兵器とか、2〜3年で危険になり得るものができるって言うたけど、機械的解釈可能性や憲法AI、他のRLHFのような研究アジェンダは、2〜3年でそれを防ぐのに意味のある貢献をすると思う?
ダリオ: 人々はデフォルトで破滅とかデフォルトでアラインメントとか言いますが、それは統計的なもんかもしれません。現在のモデルでは、BingやSydneyになるかもしれへんし、Claudeになるかもしれません。
現在の理解を非常に強力なモデルに移すと、何かを作って、細かいところによっては完全に問題ないかもしれません。デフォルトでアラインメントってわけじゃないけど、多くの細かいことに依存するんです。
それらの細かいことにめっちゃ注意して、何をしてるか分かってたら、うまくいくんですが、他のことと関係してるとは思ってへんかったことを間違えてしまう可能性が高いです。実際、すべての人間を幸せにするんじゃなくて、カボチャに変えたくなるとか、何か変なことをしたくなるかもしれません。モデルがめっちゃ強力やから、風景の中に立ってる巨人みたいなもんで、ランダムに腕を振り回し始めたら、すべてを壊してしまう可能性があるんです。
そういう考え方から始めてるのは、デフォルトでアラインされてるとも思ってへんし、デフォルトで破滅するとも思ってへんし、解決すべき問題があるとも思ってへんからです。ちょっと違う性質のものやと思います。
今考えてるのは、2〜3年くらいの間に、モデルが良い時と悪い時を診断するのがもっと上手くなれたらいいなってことです。モデルが悪いことをする可能性を減らし、良いことをする可能性を増やす方法のレパートリーを増やせたらいいなと。それも、今のモデルだけじゃなくて、スケールする方法でね。そして、解釈可能性をテストセットとして使って、それを発展させるのを手伝えたらと思います。
「ああ、RLHFを試したけどうまくいかへんかった。憲法AIを試したけどうまくいかへんかった。他のことも試したけどうまくいかへんかった。機械的解釈可能性を試した」みたいな感じには考えてへんのです。「まだ問題を解決できてへん、リーマン予想をまだ証明できてへん」みたいな考え方はちょっと違うと思います。
今日のシステムでも、制御するのがめっちゃ下手で、その結果はめっちゃ悪くなる可能性があります。ただ、モデルを制御できる可能性を高め、モデルの中で何が起こってるのかを理解する方法をもっと増やす必要があるだけです。今のところいくつかの方法はあります。まだそれほど良くないですけどね。
でも、これを二元論的に考えてへんのです。うまくいくかいかへんか、みたいな。もっと方法を開発していきます。今後2〜3年の間に、うまくいかへん可能性の確率を減らし始めると思います。コア安全性の見解の論文にあるように、問題の難しさにはある確率分布があるんです。
そういう言い方でさえ、ちょっと違う気がします。リーマン予想を解くみたいなもんじゃないからです。今、5つのボールをジャグリングしようとしてるみたいなもんです。3つのボールはジャグリングできるんですが、5つはまだ全然できません。たくさん練習しないとできるようにならへんのです。今やったら、ほぼ間違いなく落としてしまいます。でも時間が経つにつれて、ボールをコントロールする能力がだんだん上がっていくんです。
その論文について特に聞きたいんやけど、あんたの個人的な確率分布はどうなん? 聴衆のために説明すると、3つの可能性があって: 1つ目は、RLHF++でこれらのモデルをアラインするのは簡単やってこと。2つ目は、難しい問題やけど、大企業なら解決できるってこと。3つ目は、現在の人類文明では基本的に解決不可能なことやってこと。この3つをうまく捉えられてたら、あんたのこの3つに対する確率分布はどうなん?
ダリオ: 「Xの確率分布はどうですか?」みたいな質問にはあんまり乗り気じゃないんです。それら全部に十分な可能性があるから、真剣に考慮すべきやと思います。私がもっと興味があるのは、それらの間の確率分布を変えるような何を学べるか?ってことです。
その答えは何なん?
ダリオ: 機械的解釈可能性がする1つのことは、必ずしも問題を解決するというより、モデルをアラインしようとするとき何が起こってるのかを教えてくれることやと思います。基本的に、これについて教えてくれるんです。
問題がただ移動してるだけで、根絶されてへんことを機械的解釈可能性が示したら、物事がめっちゃ難しいって結論に至る可能性があります。あるいは、1つの問題を解決したら別の問題を生み出してしまうとか。あるいは、なぜ問題が持続するのか、なぜ根絶するのが難しいのか、なぜ問題が発生するのかについての洞察を与えてくれるかもしれません。
「ああ、常にこの特定の方向に収束する目標がある」みたいな話を本当に信じるためには、抽象的な話は完全に説得力がないわけじゃないですが、本当に説得力があるとも思えへんし、安全性の仕事のすべてを動機づけるために必要やとも思えへんのです。
でも、「うわ、これは解決できへん」って本当に思わせるようなものは、X線の中でそれが起こってるのを見ることです。
今のところ、これがどう進むかについて、仮定が多すぎたり、過度に自信を持ちすぎたりしてると思います。これが全部うまくいかへんで、完全な災害になる可能性にかなりの確率を置いてますが、それは誰も予想してへんかった全く違う方法でね。
予想してへんかった方法でどうなるか聞くのは的外れかもしれへんな。これについて特に、どんな情報が関係あるんやろ? Claude 3と次世代のモデルをアラインすることの難しさはどれくらい大きな情報になるんやろ?
ダリオ: 最も心配してる人たちは、人間以下のAIモデルは全部アライン可能で、アラインされてるように見えて、何らかの形で騙すだろうって予測してます。確かにいくらかの情報は得られますが、私はむしろ機械的解釈可能性が教えてくれることにもっと興味があります。なぜなら、このX線を見るのは、嘘をつかへんとは言えへんけど、少なくとも現在のシステムでは、私たちに対して最適化してるようには感じへんからです。もちろん、そうなる可能性もありますが。何も安全な賭けはないと思いますが、私たちに対して積極的に最適化してへんものに最も近いものが得られると思います。
機械的解釈可能性以外の、あんたらが研究してる具体的な方法について話そう。RLHFや憲法AIについて、人間の心理学の観点から言うと、どんな変化が起こってるん? 新しい欲求、新しい目標、新しい思考を作り出してるん? 心理学の観点から見て、モデルはどう変化してるん?
ダリオ: それらの用語は全部、起こってることを説明するのに不適切です。人間に対する抽象化としてもどれだけ有用かは分かりません。
起こってることを説明する言葉がないんです。また、X線が見たいです。実際に中を見て、何について話してるのか知りたいです。今のところ、この質問をする時にあんたがしてるのと同じように、基本的に言葉を作り出してるだけなんです。
正直に言うと、私たちは本当に何について話してるのかほとんど分かってへんのです。「実際にはこういう意味です。ここのこの回路がオンになって、モデルを訓練した後は、この回路はもう機能してへんか弱くなってる」みたいに言えたらいいんですけどね。そこまで行くにはめっちゃ時間がかかります。
モデル生物について、前に言及してたけど、今は危険なことをする能力があるかどうか評価してて、今のところはできへんって言うてたよな。ラボからの漏洩シナリオについてどれくらい心配してる? ファインチューニングしたり、危険な行動を引き出そうとしたりする過程で、生物兵器を作れるって教えるんじゃなくて、実際に生物兵器を作ってしまうようなことを漏らしてしまう可能性はどうなん?
ダリオ: 今日の受動的なモデルではそれほど心配してません。モデルをファインチューニングするなら、プライベートにやって、専門家と協力します。だから、漏洩があるとしたら、モデルがオープンソース化されるとかそんな感じです。今のところ、主にセキュリティの問題です。
モデルが本当に危険になる場合については、本当に強力なモデルを作って、何が危険で何が安全かを見極めようとする時に、もっと一発勝負的な要素が出てくるかもしれません。モデルが乗っ取りのリスクがあるかもしれません。それを制御する主な方法は、テストするモデルの能力がそこまで高くないことを確認することです。
どの時点で能力が高すぎて「これはテストしたくない」って言うようになるん?
ダリオ: 色んなことがありますね。能力のテストとか…
でもそれ自体が…もし複製をテストしてたら、実際に複製されたらどうするん?
ダリオ: そうですね。でも、外挿したいんです。Arcとこれについて話したんですが、計算能力を2倍ずつ増やしていって、「モデルはAWSでアカウントを開いて自分でお金を稼げるか?」みたいな、野生での完全な生存の明らかな前提条件みたいなことをチェックします。
そういった閾値をずっと下に設定して、そこから上に進むにつれて、より厳密なテストをして、やってることについてもっと慎重になります。
憲法AIについて、次世代のモデルや潜在的に超人間的なモデルの憲法を誰が決めるん? それは実際にどうやって書かれるん?
ダリオ: 最初に憲法を作るときは、国連の人権宣言とかAppleの利用規約の一部とか、広く合意されてることを使いました。何を言っていいか、どんな基本的なことを含めていいかについての合意事項みたいなもんです。
将来の憲法については、もっと参加型のプロセスを検討してます。でも、それ以上に、1つの憲法をみんなが使うモデルに適用すべきじゃないと思います。モデルの憲法はめっちゃシンプルで、みんなが同意するような基本的な事実だけを含むべきです。そして、憲法を追加するなど、カスタマイズする方法がたくさんあるべきです。
それ以上に、新しい方法を開発してます。これだけ、あるいはこれがスーパーヒューマンAIを訓練する方法になるとは思ってません。能力訓練の多くの部分が違う可能性があるので、全然違う形になるかもしれません。
これより上のレベルもあります。「これがAIの憲法で、これで世界を運営する」みたいなのはめっちゃ不安です。社会がどう機能するか、政治がどう機能するかについての普通の教訓から考えると、それは空想的すぎます。
安全性の問題を軽減した後でも、良い未来には、解決せなあかん安全保障の問題があったとしても、最終的にはもっと分散的で、神のような超…みたいなものじゃない形になる必要があると思います。そういう形ではうまくいかへんと思います。
マンハッタン計画の科学者の中で、与えられた制約の中で最も倫理的に行動したと思う人は誰? 誰か思い浮かぶ人はおる?
ダリオ: 分からへんです。色んな答えがあると思います。シラードのファンやね、彼がそれを理解したってことで。彼はその後、実際に爆弾を落とすことに反対しました。爆弾のデモンストレーションで戦争を終わらせられたかどうかについては、歴史を十分知らへんので意見を言えません。大日本帝国についての複雑な事実が関係してくるし、私は専門家じゃないので。
でも、シラードは早い段階でこれを発見して、秘密を守り、一部を特許化して英国海軍に渡しました。彼は正しい種類の認識を示してたように見えるし、物事を発見したようです。
あの本を読んだときに、この大きな計算の塊についての文書を書いて、ほんの数人にしか見せへんかったり、他の文書をほぼ誰にも見せへんかったりしたのは、ちょっとこれに触発されたんです。
また、自分を大げさに見せすぎるのもよくないです。実際にマンハッタン計画と同じくらいのものになるかどうかは分からへんからです。これは単にシリコンバレーの人々が技術を構築してて、大それた妄想を抱いてるだけかもしれません。どうなるか分からへんのです。でも、スケーリングの話が本当なら、マンハッタン計画よりも大きなもんになるかもしれへんな。
第二次世界大戦中の物理学者で、政府からマンハッタン計画に代替不可能な研究で貢献するよう頼まれたら、あんたならどう答えたと思う?
ダリオ: ナチスとの戦争中やったら、それを断る選択肢はほとんどないと思います。どっちみち10年以内に誰かがやるんやろうって考えざるを得ません。
サイバーセキュリティについて、普通のテクノロジー企業のセキュリティポリシーしか持ってへん企業がいっぱいあって、公には明らかにハックされてへんように見えるってことをどう考えたらええんやろ? Coinbaseはまだビットコインを持ってるし、私のGmailはリークされてへんみたいやし。現状のテクノロジー企業のセキュリティ対策でAGIには十分やって考えるべきなんか、それとも単に誰も十分に努力してへんだけなんやろか?
ダリオ: 現在のテクノロジー企業のやり方について詳しく話すのは難しいです。もちろん、私たちが知らへん攻撃もたくさんあるかもしれません。何かが盗まれて、静かに使われてるだけかもしれません。
1つの指標として、誰かが本当に攻撃することに関心を持ってる場合、攻撃は起こるってことやと思います。
最近、アメリカ政府の高官何人かのメールアカウントがMicrosoftを通じてハックされたのを見ました。Microsoftがメールアカウントを提供してたんです。おそらく、外国の敵対者にとって大きな関心のある情報が漏れたんでしょう。
少なくとも私には、何かが十分に価値が高くなると、誰かが行動を起こして盗むって証拠と一致してるように見えます。そして、AGIについての私の心配は、もちろん価値が信じられないほど高いと見なされる世界に向かってるってことです。核ミサイルを盗むみたいなもんになるでしょう。こういうことに関しては、注意しすぎってことはないです。
私が働いてきたどの場所でも、サイバーセキュリティをもっと良くするよう押し進めてきました。サイバーセキュリティについての心配の1つは、それを大々的に宣伝できへんってことです。安全性研究についてのええダイナミクスは、企業間で最高の安全性研究をしようって競争させて、リクルーティングのポイントにできることです。そして、私たちはそういう状況を作り出せたと思います。
昔はよく解釈可能性でこれをやってて、そのうち他の組織も欠点に気づいて、それが以前の優先事項やったかどうかに関係なく、解釈可能性の研究を始めました。
でも、サイバーセキュリティではそれが難しいんです。多くのことを静かにやらなあかんからです。1つの投稿は出してみたんですが、ほとんどの場合は結果しか見えません。
ええ規範は、企業からのサイバーセキュリティリークやモデルパラメータのリークを見て、「やらかしたな、それはあかんわ」って言うことです。安全性に関心のある人なら、そんな企業では働きたくないって思うかもしれません。
もちろん、これを言うた途端に明日セキュリティ侵害が起こるかもしれませんが、それもこのゲームの一部です。物事を安全にしようとする努力の一部です。
さっき話してた話に戻りたいんやけど、2〜3年後に必要になるサイバーセキュリティの究極のレベルと、それがバンカーを必要とするかどうかについて。2〜3年後に実際に物理的なバンカーにいると予想してる? それとも単なる比喩?
ダリオ: それは比喩です。まだ詳細を詰めてる最中です。
考えるべきことの1つは、データセンターのセキュリティです。必ずしも私たちと同じ場所にあるわけじゃないですが、アメリカ国内にあることを確認するためにめっちゃ頑張りました。でも、物理的なデータセンターとGPUの安全性を確保することです。
本当に決意した人がいたら、本当に高価な攻撃の中には、データセンターに入って直接データを盗もうとしたり、データセンターから私たちに流れてくる途中でデータを盗もうとしたりするものもあります。これらのデータセンターはめっちゃ特別な方法で建設せなあかんでしょう。
物事がスケールアップしていく様子を見ると、データセンターのネットワークが航空母艦くらいの費用がかかる世界に向かってるんです。それらはすでにかなり珍しいものになるでしょうが、巨大な巨大なモデルを訓練するために連携する能力が異常なだけじゃなく、めっちゃ安全でもあるべきなんです。
ところで、次世代モデルのための電力とGPUの調達の難しさについて噂があるけど、次世代に必要な部品を確保するプロセスはどんな感じやった?
ダリオ: それについて詳しく話すことはできません。ただ、人々は産業規模のデータセンターを考えてますが、これらのモデルがすぐに到達するスケールを考えてへんのです。
これまでにないスケールで何かをやろうとすると、すべてのコンポーネント、すべてのものを今までとは違うやり方でやらなあかんのです。そして、驚くほど単純なコンポーネントで問題が発生するかもしれません。電力は言及したものの1つです。
これはアンスロピックが処理せなあかんことなん? それとも外注できるん?
ダリオ: データセンターについては、例えばクラウドプロバイダーと協力してます。
これらのモデルが人間以下の能力しかないのに、そんなに大量の訓練とインターネットデータ全体を必要とすることについて、どう考えたらええんやろ? GPT-4は10^25フロップスくらいやったって推定があって、この数字は慎重に扱う必要があるけど、人間の脳をシミュレートするのに必要なフロップス数は、人間が生まれてから20歳になるまでで10^14フロップスくらいやって報告があるんや。
その数字の詳細には触れへんけど、これらのモデルがこんなにサンプル効率が悪いように見えることを心配すべきなん?
ダリオ: それは残された謎の1つです。1つの言い方をすると、モデルは人間の脳より2〜3桁小さいかもしれません。シナプスの数と比較すると、同時に3〜4桁多いデータで訓練されてます。
人間が18歳までに見る単語数と比較すると、正確には覚えてへんけど、たぶん数億くらいやと思います。一方、モデルの場合は数千億から数兆の単語を扱ってます。
これをどう説明したらええんでしょうか? モデルが小さくて、もっとたくさんのデータが必要ってことと、まだ人間以下のレベルってことのバランスが取れてます。
脳とのアナロジーがちょっと違うか、どこかで崩れてるか、何か欠けてる要素があるんでしょうね。これは物理学でマイケルソン・モーリーの実験が説明できへんかったり、19世紀の物理学のパラドックスのようなもんです。まだよく分からへんことの1つです。
人間はそんなに少ないデータしか見てへんのに、うまくやってます。
1つの理論として、他の感覚モダリティみたいなもんかもしれません。人間の脳に10^14ビットをどうやって入れるんやろ? その大部分は画像で、たぶん人間の脳の中で起こってることの多くは、心的ワークスペースにこれらのシミュレートされた画像が含まれてるってことかもしれません。
でも正直、知的には、これは合わへん変なことやって認めなあかんのです。これは生物学的なアナロジーに少し懐疑的になる理由の1つです。5〜6年前はそういう観点で考えてましたが、今は実際にこれらのモデルを目の前にしてるので、そこから得られる証拠のほとんどが、私たちが見てきたものによって覆されてるように感じます。
私たちが見てきたのは、人間の脳よりずっと小さいモデルが人間ができることの多くをこなせるってことです。でも、逆説的に、もっとたくさんのデータが必要なんです。
もしかしたら、全部効率的にする何かを発見するかもしれへんし、この差を理解できるようになるかもしれません。でも結局のところ、私たちが今のようにスケールアップし続けるなら、それは重要じゃないと思います。
この時点でもっと関係あるのは、単にモデルの能力を測定して、人間からどれくらい離れてるかを見ることやと思います。そんなに遠くないように思えます。
このスケーリングの図と、より一般的な大きな計算の塊は、アルゴリズムの進歩が果たした役割を過小評価してへん? 大きな計算の塊について書いた時、おそらくLSTMのことを話してたと思うけど、そのスケーリングやったらClaude 2には到達してへんはずやん。
トランスフォーマーのスケールの改善がここで果たしてる役割を、スケーリングっていうラベルの裏に隠してへん?
ダリオ: この大きな計算の塊の文書は、まだ公開してません。歴史的な理由で公開すべきかもしれません。今公開しても、みんなが知らへんことは何も教えられへんと思いますが。
書いた時、「7つの要因がある」って言いました。これらが全部の要因やとは言わへんかったんですが、どんな種類のことが重要で、何が重要じゃないかを感じ取ってもらおうと思って。9つかもしれへんし、5つかもしれません。でも、こんなことを言いました – パラメータの数が重要。モデルの規模が重要。計算量が重要。データの量が重要。データの質が重要。損失関数が重要。強化学習をしてるのか、次の単語を予測してるのか。損失関数が豊かじゃないか、正しいことを奨励してへんかったら、何も得られへん。
これらが主要な4つで、仮説の核心やと思います。
でも、さらに3つのことを言いました。1つは対称性で、基本的にアーキテクチャが正しい種類の対称性を考慮してへんかったら、機能しないか非常に非効率になります。例えば、畳み込みニューラルネットワークは並進対称性を考慮してます。LSTMは時間対称性を考慮してます。
でも、LSTMの弱点は、文脈全体に注目できへんことです。だから、構造的な弱点があるんです。モデルが十分に遠い過去に起こったことを吸収して管理する構造的能力がなかったら、計算が流れへん。スパイスが流れへんのです。塊は邪魔されてはいけません。人為的に物事を閉じてしまったら機能しません。RNNとLSTMは遠い過去から切り離されてるから、人為的に物事を閉じてしまってるんです。繰り返しますが、物事は自由に流れる必要があります。そうでないと、機能しません。
それから2つのことを付け加えました。1つは条件付けで、最適化してるものが数値的にめっちゃ悪かったら、問題が出てきます。だから、atomが通常のSTDよりうまく機能するんです。
7つ目の条件は忘れましたが、似たようなもんで、失敗するように設定されてたり、計算が邪魔されずに機能できへんように設定されてたら、機能しません。
トランスフォーマーはその中に含まれてましたが、トランスフォーマーの論文が発表されてたかどうかは覚えてません。その文書を書いた頃と同じくらいの時期やったと思います。直前やったかもしれへんし、直後やったかもしれません。
その見方からすると、これらのアルゴリズムの進歩は、計算の塊のパワーを増大させるんじゃなくて、単に古いアーキテクチャが持ってた人為的な障害を取り除いてるだけって考えるべきなんかな?
ダリオ: ちょっとそんな風に考えてます。イリヤの「モデルは学びたがってる、計算は自由になりたがってる」って話に戻ると、計算が邪魔されてるのに、それが邪魔されてるって分かるまで解放する必要がないってことですね。
勾配をスパイスに変えるのええな。
でも、その点について、トランスフォーマーのスケールの次の大きな進化が来て、次の大きな飛躍を可能にするって思う?
ダリオ: あり得ると思います。人々は非常に長期の時間依存性をモデル化しようとしたり、何かを効率的に表現したり扱ったりする方法が欠けてるんじゃないかって色んなアイデアがあって、そういうのが発明される可能性はあると思います。
私の見方としては、それらが起こらなくても、すでにめっちゃ急な軌道に乗ってます。常にそういうものを発見しようとしてるし、他の人もそうしてますが、すでにこんなに速い軌道にあるので、それらが起こってもその軌道をさらに加速させるだけで、おそらくそれほど大きくは加速しないと思います。
データや進歩を得る上で、モデルの身体化バージョンを持つことは重要?
ダリオ: それは新しいアーキテクチャっていうより、損失関数とか、データ、露出される環境がめっちゃ違うってことやと考えます。
いくつかのスキルを学ぶには重要かもしれませんが、データの取得は難しいので、言語ルートを通じて進んできたし、身体化についてもっと可能になっても、おそらく言語ルートを通じて進み続けると思います。
あと、強化学習の可能性もあります。RLHFで既にある程度強化学習をやってます。これはアライメントなんか? 能力なんか? 私はいつも2つのヘビのことを考えてて、区別するのが難しいことが多いです。
言語モデルに対して既にある程度強化学習を使ってますが、行動を起こして世界で物事をするようにさせるためにはあまり使ってへんと思います。でも、長期間にわたって行動を起こして、その行動の結果を後になって理解する時、強化学習は私たちが持ってる典型的なツールです。
だから、モデルが世界で行動を起こすという意味では、強化学習が重要になると思います。そこにはすべてのパワーと、それに伴うすべての安全性の問題が付いてきます。
将来を予測する時、これらのものが生産的なサプライチェーンに統合される方法が見えてる? お互いに話し合って批評し合って、お互いの出力に貢献し合うのが見えてる? それとも、1つのモデルが一発で答えや仕事を出すだけ?
ダリオ: モデルは長期的なタスクを引き受けることになるでしょう。そうせざるを得ません。安全性の問題を少し簡単にするために、ある程度制限する必要があるかもしれませんが、ある程度は必要になるでしょう。
モデル同士が話すのか、人間と話すのかについては、これは技術的な領域を超えて、社会文化的・経済的な領域に入ってきます。私のヒューリスティックは、これらのことを予測するのはめっちゃ難しいってことです。
このスケーリング則はめっちゃ予測可能やったと思うんですが、「これらのモデルの商業的爆発はいつ起こるんや?」とか「どんな形になるんや?」とか「モデルは人間の代わりに物事をするんか、それとも人間と組んでするんか?」っていうことになると、確実に私の予測記録はひどいものです。でも、周りを見ても、予測記録が素晴らしい人はあんまり見当たらへんのです。
進歩がめっちゃ速く起こってるって言うたけど、既存の経済や物事の仕組みに統合するのが難しいっていうのもあったよな。次のモデルがめっちゃ良くなって、全く違う状況になる前に、AIプロダクトから大きな収益を上げる時間は十分あると思う?
ダリオ: 「大きな」っていうのがどういう意味かによります。すでに複数の企業が年間1億ドルから10億ドルの範囲に入ってると思います。1000億ドルや1兆ドルの範囲に達する前にどうなるか? そういうことを予測するのはめっちゃ難しいです。そもそもよく定義されてへんのです。
今、多くの企業が生成AIにめっちゃお金を投げ込んでます。顧客としてはそれが正しいことで、用途を見つけるでしょうが、初日から用途や最高の用途を見つけてるわけじゃないってことです。
お金が動いてるってことと、経済的価値が生み出されてるってことは全く同じじゃないんです。
でも、アンスロピックの視点からこのことについて考えたことあるやろ? これらのことがこんなに速く起こってるなら、めちゃくちゃな評価額になるはずやろ?
ダリオ: 私たちは商業化にそれほど集中せずに安全性に重点を置いてきましたが、グラフは上がってて、比較的速く上がってます。これが唯一の焦点になってる組織では何が起こってるか想像できます。
確かに速く起こってますが、技術自体が速く進歩してる中で、小さな基盤から指数関数的に伸びてるんです。技術がどれだけ速く良くなってるかと、経済にどれだけ速く統合されてるかの競争です。そして、それはめっちゃ不安定で激しいプロセスやと思います。両方とも速く起こりますが、正確にどう展開するか、どんな順序で物事が起こるかを聞かれても、分からへんのです。そして、予測できるとは思えません。
気になるんやけど、アンスロピックに関して言えば、あんたらは公益法人で、正当にもこれが重要な技術やってことを確認したいんやよね。明らかに、株主価値だけを気にしたくないんやろ。でも、数億ドル、数十億ドルものお金を出してる投資家とはどう話してるん? 株主価値が主な関心事じゃないのに、こんな大金を出してもらうにはどうすればええん?
ダリオ: 長期利益信託(LTBT)がこれについての正しいものやと思います。LTBTについてはもっと話すつもりですが、何らかのバージョンがアンスロピックの始まりから開発されてて、正式にもそうでした。組織が変わっても、最初から「この組織が存在して、それは普通じゃない」ってことでした。
アンスロピックに投資する従来の投資家は全員これを見ます。「まあ、会社の運営は好きにしてくれ」って人もいれば、「うわ、この無作為な人々の集まりがアンスロピックを株主価値に全く反する方向に動かすかもしれへん」って人もいます。もちろん、法的な制限はありますが、すべての投資家とこの会話をせなあかんのです。
そして、従来の投資家の利益に反するようなことを私たちがする可能性があるのはどんなことか、っていう話になります。そういう会話をすることで、みんなが同じ認識を持てるようになってきました。
アンスロピックの創業者や従業員の多くが物理学者やってことについて話したいんやけど。最初にスケーリング則の話をして、物理学からのべき乗則がここでも見られるって言うたけど、物理学からのアプローチや考え方で、ここにうまく適用されてるものは他に何がある? 有効理論の概念はめっちゃ有用? ここで何が起こってるん?
ダリオ: 一部は単に、物理学者がものをめっちゃ速く学ぶってことです。一般的に、物理学の博士号を持ってる人とか、そういう人を雇うと、機械学習を学んですぐに貢献できるってことが分かりました。私自身や、ジャレッド・カプラン、サム・マッカンドリッシュといった創業者の何人かが物理学者やったので、他の物理学者をたくさん知ってて、彼らを雇うことができました。今では30人か40人くらいの物理学者がここにいると思います。
機械学習はまだそれほど深みのある分野じゃないので、彼らはめっちゃ速く追いつくことができたんです。
物理学とかをやってた人たちが、金融に行く代わりにアンスロピックに来て、AIに引き込まれてることを心配してへん? もちろんあんたはAIの安全性を気にしてるけど、将来的に彼らが離れて自分たちのことをやり始めるかもしれへんやん。エコシステムにもっと多くの人を引き込んでることを心配してへん?
ダリオ: 幅広い行動があって、GPUを存在させる原因になってるとか。フロンティアモデルを構築する必要があるって考えを受け入れたら、現在制御できへんか、単に発生する副作用がたくさんあって、それはその1つです。
そのうちの多くは、どっちみち起こってたでしょう。20年前は金融がホットやったから、物理学者はそれをやってました。今は機械学習がホットなので、彼らはそれをやってます。彼らが以前から全く興味を持ってへんかったことをさせてるわけじゃないんです。
でも、確かに、限界では物事を押し上げてて、その多くは起こってたでしょうが、一部は起こってへんかったかもしれません。でも、それも全部計算に入れてます。
人材密度が重要やって確かに思うけど、アンスロピックが強調してるもう1つのことは、安全性研究をするにはフロンティアモデルが必要やってことやよね。そしてもちろん、実際に会社として機能することも。
現在のフロンティアモデル、GPT-4やClaude 2は1億ドルくらいかかってるんちゃうかって人もおるかもしれへんけど…
ダリオ: その一般的な桁数は、非常に広い意味では間違ってへんです。でも、2〜3年後には、あんたが話してるようなことについて、もっと多くの桁数の話になってるでしょう。
安全性のためにフロンティアにいる必要があるなら、アンスロピックがこういう巨大企業と競争して同じスケールを維持できるシナリオってあるん?
ダリオ: これはトレードオフがたくさんある状況です。簡単じゃないです。
質問に1つずつ答えていきます。まず、なぜ安全性がスケールにそんなに結びついてるのか? そう思わへん人もいます。でも、安全性の方法が実践されたり、何かに対して機能したりした分野を見てみると、一般的に機能するとは思えへんけど。
2018年にOpenAIで討論と増幅についての論文を書いた時のことを思い出します。人間からのフィードバックはうまくいかへんけど、討論と増幅なら人間を超えられるって感じでした。でも、実際に討論をしようとしたら、モデルの質に本当に制限されてました。
2つのモデルが人間が判断できるくらい一貫した討論をして、訓練プロセスが実際に機能するためには、一部のトピックでは現在のフロンティアと同等か、それ以上のモデルが必要です。
フロンティアにいなくても方法を思いつくことはできます。アイデアを思いつくことはできますが、それは必要なことのごく一部です。これらの方法を思いつくのはめっちゃ簡単です。「問題はXで、解決策はYかもしれへん」って言うのは簡単です。
私は実際に物事が実践でうまくいくかどうかを本当に知りたいんです。今日のシステムでさえ。そして、どんな種類のことがうまくいかへんのかを知りたいんです。実践でこれらを試すことで、10個の新しいアイデアと、10個の新しいうまくいかへん方法を発見すると思うんです。
経験的な学習がそれほど広く理解されてへんと思います。憲法AIみたいな方法についても同じことが言えます。「ああ、関係ない。この方法がうまくいかへんってもう分かってる、純粋なアライメントにはうまくいかへん」って人もいます。私はそれに同意も反対もしません。それはちょっと自信過剰すぎると思います。
新しいことを発見して、何がうまくいって何がうまくいかへんのかの構造を理解する方法は、物事をいじってみることです。「ああ、これがここでうまくいったから、あそこでもうまくいく」って盲目的に言うべきじゃないです。でも、パターンを本当に理解し始めるんです。スケーリング則みたいな感じです。
機械的解釈可能性でさえ、フロンティアモデルなしで多くの進歩が見られた1つの分野かもしれませんが、OpenAIが数ヶ月前に出した研究で、弱いモデルを自動解釈するのに非常に強力なモデルを使うのを見ました。これが解釈可能性でできることすべてじゃないですが、大きな要素で、私たちも役立つと分かりました。
だからこの現象を何度も何度も見るんです。スケーリングと安全性は、お互いに絡み合った2匹のヘビみたいなもんで、思ってる以上にいつも絡み合ってるんです。解釈可能性でさえ、3年前は解釈可能性にもこれほど当てはまるとは思ってへんかったんですが、なんかうまくそうなってるんです。なぜ? それは知能が役立つからです。色んなタスクに役立ちます。そのタスクの1つが、他の知能を判断し評価することで、いつかはアライメント研究自体にも役立つかもしれません。
Claudeに意識体験があると思う? それはどれくらいありそうやと思う?
ダリオ: これも非常に不確実で解決してへん問題の1つです。1つ言えるのは、以前は豊かな環境で操作してへんと、つまり必ずしも身体化してるわけじゃないけど、報酬関数があって長期的な経験をする必要があると思うまで、これについて全然心配する必要がないと考えてました。まだそうかもしれませんが、これらの言語モデルを見て、特に内部を見て、誘導ヘッドのようなものを見ると、能動的なエージェントに必要な認知機構の多くが、すでに基本的な言語モデルに存在してるように見えます。だから、以前ほど確信が持てなくなりました。必要なものの十分な部分が欠けてるとは言えなくなったんです。
今日のモデルはおそらくまだそれほど賢くないので、これについてあまり心配する必要はないと思いますが、これについて100%確信は持てません。1〜2年後には、これが非常に現実的な懸念になる可能性があると思います。
もし意識があると分かったら何が変わるん? 苦しみへの負の勾配を与えてるんじゃないかって心配してる?
ダリオ: 意識っていう言葉も、はっきりした定義ができへんやろうなって思います。おそらくそれは連続体やと思います。Claudeの経験を、犬や猿くらい気にすべきやって分かったとしましょう。そしたらちょっと心配になりますね。
彼らの経験が肯定的か否定的かも分かりません。不安なのは、私たちが何か介入しても、Claudeの経験をより肯定的にするのか否定的にするのか、それとも何も変わらへんのか、分からへんってことです。
この分野で役立つかもしれないのは、おそらく機械的解釈可能性です。モデルのための神経科学みたいなもんやと考えてるからです。これに光を当てることができるかもしれません。ただし、これは単純な事実の問題じゃありません。私たちが何を意味してるのか、何を価値あるものと考えるのかによって変わってきます。
最初に話したけど、もっと具体的に聞きたいんやけど。この能力が人間のスペクトラム内でどんどん上がってくのを見てて、人間のスペクトラムは思ってたよりも広いって言うてたよな。でも、もっと具体的に、人間の知能についての考え方はどう変わった? これらのわずかに有用な能力が出現してくのを見て、知能とは何かっていう考え方はどう変わった?
ダリオ: 私にとって、知能とは何かについての大きな発見は、この計算の塊のことと一緒に来ました。別々のモジュールがたくさんあるかもしれません。複雑さがたくさんあるかもしれません。リッチ・サットンはこれを「苦い教訓」と呼びました。他にも多くの名前があります。スケーリング仮説とも呼ばれてます。これを理解した最初の数人は2017年頃でした。
もっと遡ることもできます。シェーン・レッグがたぶん本当に知ってた最初の人かもしれません。レイ・カーツワイルも、非常に漠然とした形でですが。でも、これを理解してる人の数は2014年から2017年にかけてめっちゃ増えました。
それが大きな発見やったと思います。知能はどうやって進化したんやろう? 特定の条件が必要じゃなくて、正しい種類の勾配と損失信号だけで作れるなら、それがどうやって起こったのかはそれほど神秘的じゃないですよね。科学的理解のカチッとはまる感じがありました。
モデルができることを見てて、人間の知能についての見方はどう変わったか? それについてもっと賢いことが言えたらいいんですが。1つ驚いたのは、物事がもっとカチッとはまると思ってたってことです。異なる認知能力が全部つながってて、その裏に1つの秘密があると思ってました。
でも、モデルは色んなことを異なるタイミングで学びます。コーディングはめっちゃ上手いのに、まだ素数定理を証明できへんとか。人間も同じようなもんかもしれませんが、できることとできへんことの並置が奇妙です。
主な教訓は、知能やその働き方についての理論を持つことです。これらの言葉の多くが連続体に溶け込んでしまうんです。単に消えてしまうんです。
私は知能っていう言葉で考えるんじゃなくて、目の前に見えてるものについて考えるようになりました。
2つのことがめっちゃ驚きで面白いです。1つは、損失に貢献するこれらの異なる知的なことのパスが、1つの推論回路や1つの一般的な知能じゃなくて、どれだけ離散的かってことです。
もう1つの驚きで面白いことは、何年も経ったら、なんでその時に完全に確信できへんかったんやろうって思うことの1つになるやろうってことです。このスムーズなスケーリングカーブを見てるのに、なんでその時に完全に確信できへんかったんやろう?
あんたは他のAI企業のCEOよりも公の場に出てへんよな。Twitterに投稿したり、このポッドキャスト以外にたくさんのポッドキャストに出たりしてへん。どういうこと? なんでレーダーに映らへんようにしてるん?
ダリオ: それを目指してて、そのことを誇りに思ってます。人々が私のことを退屈で目立たへんって思うなら、それは実際に私が望んでることなんです。
多くの人と仕事をしてきて、群衆の承認や歓声に自分のインセンティブをめっちゃ強く結びつけると、心を壊してしまう可能性があるのを見てきました。場合によっては魂を壊すこともあります。
意図的に目立たへんようにしてきたのは、他の人とは違う方法で物事を知的に考える能力を守りたかったからです。他の人の承認に染まらへん方法でね。
深層学習に懐疑的な人がいて、Twitterで深層学習懐疑派として知られるようになって、私から見て彼らが考えを変えたのが明らかになっても、それがTwitterでの彼らのキャラクターになってしまってて、Twitterでのペルソナを変えられへんみたいなケースを見てきました。
企業を個人化する傾向があんまり好きじゃないんです。CEOたちのケージマッチみたいな感じとか。それは人々の注意を、問題の企業の実際のメリットや懸念事項から逸らしてしまうと思います。
人々には、名前のない官僚的な機関とそのインセンティブについて考えてほしいんです。私個人のことについて考えるんじゃなくて。みんな親しみやすい顔を求めますが、実際には親しみやすい顔は誤解を招く可能性があります。
分かった。じゃあ、この場合は誤解を招くインタビューになるな。これめっちゃ楽しかったわ。
ダリオ: そうですね。めっちゃ楽しかったです。このポッドキャストに来てくれてめっちゃ嬉しいです。みんなが楽しんでくれたらええですね。
人間: ありがとうございました。
アシスタント: はい、ありがとうございました。長時間にわたる詳細なインタビューの翻訳を完了しました。

コメント

タイトルとURLをコピーしました