ダリオ・アモデイ（Anthropic CEO）- すべてのAIブレークスルーの背後にある隠されたパターン

この動画は、AnthropicのCEOであるダリオ・アモデイとの詳細なインタビューである。AIのスケーリング法則がなぜ機能するのかという根本的な謎から始まり、現在のAIモデルの能力と限界、バイオリスクやサイバーセキュリティといった安全性の懸念、そして人間レベルの汎用人工知能に向けた今後2〜3年の展望まで幅広く議論している。特に注目すべきは、機械論的解釈可能性やConstitutional AIといったAnthropicの安全性研究アプローチ、AIアライメントの本質的な困難さ、そして超人的AIが実現した場合の統治と制御の問題についての洞察である。

スケーリング法則の謎
能力の出現の予測可能性
スケールで出現しない能力
スケーリングが停滞する可能性
次のトークン予測の限界と代替手法
データ制約について
スケーリングに関する見解の形成
Ilyaとの出会いと啓発
言語が鍵である理由
印象的な性能と汎用知能のギャップ
人間とAIのスキル分布の重複
長期タスクの実行能力
Claudeの現在の能力評価
知能爆発の可能性
チューリングテストと経済的貢献の間のギャップ
複数の指数関数の相互作用
Anthropicの役割と責任
AIによる科学的発見について
バイオテロリズムのリスク
過度な心配への対処
サイバーセキュリティと機密保持
機密の性質と将来のセキュリティ
機械論的解釈可能性とアライメント
機械論的解釈可能性の有効性に対する疑問
経験的vs理論的アプローチ
Anthropicの競争優位性
フロンティアモデルの必要性と資金調達
誤用vs誤調整の比較
超人的モデルの統治
長期利益信託について
理想的な未来について
分散化されたAI統治のビジョン
中国のAI開発について
物理的セキュリティの必要性
アライメントの解決可能性
アライメントの困難さについて
RLHF とConstitutional AI の心理学的効果
モデル有機体とラボリーク懸念
Constitution AI の意思決定プロセス
マンハッタン計画との類推
サイバーセキュリティの現状評価
物理的バンカーの必要性
GPUと電力調達の課題
モデルの非効率性について
アルゴリズム進歩の役割
具現化とRLの重要性
将来のAIシステムの統合
AI収益の実現可能性
投資家との関係
物理学者の採用について
人材流出への懸念
意識と体験について
人間の知能に対する理解の変化
低プロフィールでいる理由

スケーリング法則の謎

今日は、AnthropicのCEOであるダリオ・アモデイさんにお話を伺う機会をいただき、とても楽しみにしています。ダリオさん、ポッドキャストにお越しいただき、ありがとうございます。

ありがとうございます。

最初の質問です。あなたは長年にわたってスケーリングが来ることを見抜いていた数少ない人の一人です。それを見抜いていた立場として、スケーリングがなぜ機能するのかについて、根本的な説明は何でしょうか？なぜ宇宙は、大きな計算の塊を十分に広い分布のデータに投げつけると、その物体が知的になるように組織されているのでしょうか？

実はまだ分からないというのが真実だと思います。これはほぼ完全に経験的事実です。データや様々な場所から感じ取ることができる事実ですが、まだそれについて満足のいく説明は持っていません。

もし説明を試みるとすれば、これは私が手を振りながら話していることですが、物理学にはロングテールやべき法則の相関や効果についてのアイデアがあります。多くのことが起こり、多くの特徴があるとき、裾の部分の前の分布の初期の太い部分で多くのデータを得ます。

言語については、これは「ああ、品詞があり、名詞は動詞に続く」といったことを理解するようなものです。そして、どんどん微妙な相関があります。

ですから、追加する対数や桁数ごとに、分布のより多くの部分を捉えるのがなぜ理にかなっているかは理解できます。全く明確でないのは、なぜパラメータとこんなにスムーズにスケールするのか？なぜデータ量とこんなにスムーズにスケールするのか？ということです。

なぜ線形なのかについてはいくつかの説明を考えることができます。パラメータはバケツのようなもので、データは水のようなもので、バケツのサイズは水のサイズに比例する、といったように。

しかし、なぜこれがこのような非常にスムーズなスケーリングをもたらすのでしょうか？まだ分かりません。あらゆる説明があります。我々のチーフサイエンティストであるJared Kaplanは、それを説明するために使えるフラクタル多様体次元について研究しました。様々なアイデアがありますが、確実なことはまだ分からないと感じています。

ちなみに、フォローしようとしている皆さんのために。スケーリングとは、Claude-1からClaude-2に移行する際に、次のトークンを予測できるかどうかという観点からの損失が非常にスムーズにスケールすることを非常に予測可能に見ることができるという事実を指しています。

能力の出現の予測可能性

なるほど、なぜ起こっているかは分からないが、少なくとも経験的に、この損失でこの能力が出現し、ここでこの回路が出現すると予測できるのでしょうか？それは予測可能なのか、それとも単に損失の数字を見ているだけなのでしょうか？

それははるかに予測困難です。予測可能なのは、この統計的平均、この損失、このエントロピーです。そして、それは非常に予測可能です。物理学以外では見られない、時には数桁の有効数字まで予測可能な場合もあります。この混沌とした経験的分野でそれを期待することはありません。

しかし、特定の能力は実際に予測するのが非常に困難です。GPT-2やGPT-3で作業していた頃、算術はいつ出現するのか？モデルはいつコーディングを学ぶのか？時には非常に突然です。

天気の統計的平均は予測できるが、特定の日の天気を予測するのは非常に困難であるのと同じようなものです。

もう少し分かりやすく説明してください。私は多様体は理解できませんが、機械的に、まだ足し算を知らず、突然足し算を知るようになる。何が起こったのでしょうか？

これも我々が答えを知らない別の質問です。機械論的解釈可能性などで答えようとしています。これらのことを回路がパチンと所定の位置にはまるように考えることができます。

モデルが物事を足し算できるようになることを見ると、正しい答えを得る確率が突然上昇するという証拠もあります。しかし、正しい答えの確率は何かを見ると、実際に正しい答えを得るはるか前に、100万分の1から10万分の1、1000分の1へと上昇していくのが分かります。

これらの多くの場合、舞台裏で何らかの連続的なプロセスが進行しています。私にはまったく理解できません。

それは、足し算を行う回路やプロセスが既存で、単に顕著性が増加しただけだということを意味するのでしょうか？

弱い回路があって、それが強くなっているのか分からません。動作するが、あまりうまく動作しないものなのか分からません。分からないと思いますし、これらは機械論的解釈可能性で答えようとしている質問の一部です。

スケールで出現しない能力

スケールでは出現しない能力はありますか？

アライメントと価値観は、スケールで出現することが保証されているとは絶対に思いません。

考え方の一つは、モデルを訓練すると、基本的に世界を予測し、世界を理解しているということです。その仕事は価値観ではなく事実です。次に来るものを予測しようとしています。しかし、ここには自由変数があります。何をすべきか？何を考えるべきか？何を価値とすべきか？そのためのビットはありません。ただ、これで始めたなら、これで終わるべきだ。この他のもので始めたなら、この他のもので終わるべきだ、というだけです。

だから、それは出現しないと思います。

スケーリングが停滞する可能性

もしスケーリングが人間レベルの知能に達する前に停滞することが判明した場合、振り返ってみて、あなたの説明は何でしょうか？そのような結果になった場合、どのようなケースが可能性が高いと思いますか？

根本的な理論の問題と実際的な問題を区別したいと思います。私たちが抱える可能性のある実際的な問題の一つは、データが尽きる可能性があることです。

様々な理由で、それは起こらないと思いますが、非常に素朴に見ると、データが尽きることからそれほど遠くありません。つまり、スケーリングカーブを続けるためのデータがないということです。

起こる可能性のある別の方法は、利用可能なすべての計算を使い尽くし、それでは十分でなく、その後の進歩が遅くなることです。

どちらが起こることにも賭けませんが、起こる可能性はあります。根本的な観点から、個人的にはスケーリング法則が単に停止する可能性は非常に低いと思います。

もし停止する場合、別の理由は適切なアーキテクチャを持っていないことかもしれません。LSTMやRNNでやろうとした場合、勾配は異なるでしょう。それでもそこに到達するかもしれませんが、Transformerが持つ過去の遠くに注意を向ける能力がない場合、表現するのが非常に困難なものがあります。

もし何らかの形で壁にぶつかり、それがアーキテクチャの問題でなかった場合、私は非常に驚くでしょう。

我々は既に、モデルができないことが、モデルができることと本質的に異なるようには見えない地点にいます。数年前なら、推論できない、プログラムできないと主張することもできたでしょう。境界を引いて、壁にぶつかるかもしれないと言うこともできたでしょう。私は壁にぶつかるとは思いませんでしたし、他の数人もそう思いませんでしたが、当時はもっともっともらしいケースでした。今はそれほどもっともらしいケースではありません。

起こる可能性はあります。このようなことは狂っています。明日壁にぶつかる可能性もあります。もしそれが起こった場合、私の説明は、次の単語予測で訓練する際の損失に何かが間違っているということでしょう。

次のトークン予測の限界と代替手法

本当に高いレベルでプログラムを学びたい場合、一部のトークンが他のトークンよりもはるかに重要で、損失関数がエントロピーのほとんどのビットに責任を持つ外観、つまり物事に過度に焦点を当て、代わりに本当に重要なこの物質に焦点を当てないほど希少であることを意味します。

つまり、シグナルがノイズに溺れる可能性があります。いくつかの理由でそのようにはならないと思います。しかし、もしあなたが私に言ったとしたら「はい、2024年のモデルを訓練しました。はるかに大きかったのに、まったく良くなりませんでした。あらゆるアーキテクチャを試しましたが動作しませんでした」その場合、私が手を伸ばす説明はそれです。

次のトークン予測を放棄しなければならない場合、別の損失関数の候補はありますか？

それなら、何らかの強化学習に行かなければならないと思います。多くの異なる種類があります。人間のフィードバックからの強化学習、目標に対する強化学習、Constitutional AIのようなものがあります。増幅と議論のようなものもあります。これらは一種のアライメント手法でもあり、モデルを訓練する方法でもあります。

多くのことを試さなければならないでしょうが、焦点は実際にモデルに何をしてもらいたいかに置かれなければならないでしょう。ある意味で、次の単語を予測することで、必要な他のすべてのことが得られるのは少し幸運です。保証はありません。

あなたの世界観からすると、次のトークン予測自体は重要ではないようですね。大量のデータを投げつけることができる様々な損失関数がたくさんあるということですね。

強化学習では、損失関数がどのように動作するかを何らかの方法で設計しなければならないため、少し遅くなります。次のトークン予測の良いところは、それがそこにあることです。世界で最も簡単なことです。だから、最もシンプルな方法でスケールできない場合、遅くなると思います。

データ制約について

データが制約になる可能性は低いと述べられましたが、なぜそうお考えなのでしょうか？

ここには様々な可能性があり、詳細には立ち入るべきではない多くの理由がありますが、世界には多くのデータソースがあり、データを生成する多くの方法もあります。私の推測では、これは障害にはならないでしょう。そうであった方が良いかもしれませんが、そうはならないでしょう。

マルチモーダルについて話しているのですか？

それを行う多くの異なる方法があるということです。

スケーリングに関する見解の形成

スケーリングに関するあなたの見解はどのように形成されたのでしょうか？どこまで遡ることができ、基本的に似たようなことを言っていたのでしょうか？

この見解は、2014年から2017年にかけて徐々に形成されました。最初の経験は、AIとの最初の経験でした。2012年のAlexNetに関する初期の研究を見ました。

私は常に知能を研究したいと思っていましたが、以前は「これは実際に機能しているようには見えない」という感じでした。2005年まで遡ります。Ray Kurzweilの作品を読みました。当時の初期のインターネットでEliezerの作品も読みました。このようなことは遠いように見えると思いました。今日のAI研究を見ても、どこにも近くありません。

しかし、AlexNetで私は「ああ、このようなことが実際に機能し始めている」と思いました。それで、BaiduのAndrew Ngのグループに加わりました。私は異なる分野にいて、これがAIとの最初の経験でした。世界の他の場所で行われていた多くの学術スタイルの研究とは少し異なっていました。

私や他の人々に与えられたタスクで少し幸運でした。それは単に、できる限り最高の音声認識システムを作ることでした。

利用可能なデータがたくさんあり、利用可能なGPUがたくさんありました。それは、スケーリングが解決策であることを発見するのに適した方法で問題を提起しました。これは、賢くて新しく見えるアイデアを思いつき、何かを発明した人として自分の足跡を残すことが仕事である博士研究員であることとは非常に異なります。私は最もシンプルな実験を試しました。

私はダイヤルをいじっていただけでした。RNNにもっとレイヤーを追加してみて、より長く訓練してみて、何が起こるか？過学習するのにどのくらい時間がかかるか？新しいデータを追加して、それほど多く繰り返さない場合はどうか？そして、これらの非常に一貫したパターンを見ました。

これが異常だったり、他の人がこのように考えていなかったりすることを実際には知りませんでした。これはほとんど初心者の運でした。これが最初の経験で、音声認識を超えて考えることはありませんでした。この分野について何も知らないという感じでした。機械学習で人々が行うことは何兆もあります。しかし、私は「変だ、これは音声認識分野では真実のようだ」という感じでした。

Ilyaとの出会いと啓発

OpenAIが始まる直前に、あなたがインタビューしたIlyaに会いました。彼が私に最初に言ったことの一つは「見て。モデルは学習したがっている。これを理解しなければならない。モデルは学習したがっている」でした。それは少し禅の公案のようでした。私はこれを聞いて悟りを開きました。

そして、何年にもわたって、私はこれらのことの多くを形式化し、組み合わせる人になりましたが、それが私に教えたのは、私が見た現象が単なるランダムなものではないということでした。それは広範囲で、より一般的でした。

モデルは学習したがっている。障害を取り除いてやります。良いデータを与え、動作するのに十分なスペースを与え、数値的に悪い条件付けのような愚かなことをしなければ、彼らは学習したがっています。それを行います。

あなたが言ったことで本当に興味深いのは、これらのことが音声認識や制約のあるゲームで本当に得意であることを知っていた人がたくさんいたということです。あなたとIlyaのように、そこから一般的に知的なものに外挿した人は非常に少なかったです。

一貫した方法で音声が向上している、一貫した方法であらゆることが向上すると考えるようになったのは、他の人の考え方と比べて、あなたの考え方の何が違ったのでしょうか？

本当に分かりません。最初に音声で見たとき、これは音声だけや、このモデルの狭いクラスだけに当てはまると思いました。2014年から2017年の間に、多くのことを試して、同じことを何度も何度も見ただけだと思います。Dotaでも同じことが真実なのを見ました。ロボティクスでも同じことが真実なのを見ました。

多くの人はそれを反例と考えていましたが、私は単に「ロボティクスのデータを得るのは困難だが、持っているデータ内で見ると、同じパターンが見える」と思いました。

人々は目の前の問題を解決することに非常に集中していたと思います。ある人がある方法で考え、別の人が別の方法で考える理由を説明するのは非常に困難です。人々は異なるレンズを通してそれを見ているだけです。彼らは水平ではなく垂直に見ています。スケーリングについて考えているのではなく、問題をどのように解決するかについて考えています。

ロボティクスでは、十分なデータがありません。それは簡単に「データがないからスケーリングは機能しない」と抽象化できます。何らかの理由で、それは単にランダムだったかもしれませんが、私はその特定の方向に夢中でした。

言語が鍵である理由

言語がこれらのものに大量のデータを供給する手段だということが、いつ明らかになったのでしょうか？それとも、他のものが尽きただけでしょうか？ロボティクスのように、十分なデータがない。この他のことも、十分なデータがない。

次の単語予測のこの全体的なアイデア、自己教師あり学習ができるということと、次の単語を予測するために、そこに非常に多くの豊かさと構造があるというアイデアが一緒になったと思います。「2足す2は等しい」と言うかもしれず、答えが4であることを知らなければならない。キャラクターについての物語を語っているかもしれません。

基本的に、子供に提示される発達テストの等価物をモデルに提示しています。Maryが部屋に入ってアイテムをそこに置き、その後Chuckが部屋に入ってアイテムを取り除き、Maryはそれを見ない。Maryは何を考えているか？

次の単語を予測するサービスでこれを正しく行うために、モデルはこれらすべての心の理論の問題、すべての数学問題を解決しなければならないでしょう。だから、私の考えは、できる限りそれをスケールアップするということでした。それには限界がありません。

抽象的にはその見解を持っていたと思いますが、本当に固めて私を納得させたのは、Alec RadfordがGPT-1で行った作業でした。非常によく予測できる言語モデルを得られるだけでなく、それを微調整することもできました。当時は、これらすべての他のタスクを行うために微調整する必要がありました。

だから私は「うわあ、これは言語モデルを正しく得る狭いことではない。それはあらゆる場所への半分の道のりだ」と思いました。言語モデルを正しく得て、この方向への小さな動きで、この論理的参照解除テストや何かを解決できます。この他のもので、翻訳や何かを解決できます。そして、「うわあ、本当に何かあると思う。そして、もちろん、実際にそれをスケールできる」と思いました。

印象的な性能と汎用知能のギャップ

混乱を招くこと、または見るのが困難だったであろうことの一つは、もし2018年に「2023年にはClaude 2のようなモデルを持つ」と言われたら、シェイクスピアのスタイルで定理を書くことができ、あなたが望むどんな理論でも、オープンエンドの質問で標準化されたテストでエースを取ることができ、あらゆる種類の本当に印象的なことができる、と言われたら、私は「ああ、AGIを持っている」と言ったでしょう。

明らかに人間レベルの知能を持つ何かを持っています。これらのことは印象的ですが、明らかに人間レベルではない、少なくとも現在の世代では、そして潜在的に今後の世代でも、そのようです。これらのベンチマークでの超印象的な性能と汎用知能の間のこの不一致を説明するものは何でしょうか？

それは、実際に私が先見の明がなく、同様に驚いた分野の一つでした。

GPT-3と、Anthropicの初期に構築したもののようなものを最初に見たとき、私の一般的な感覚は、彼らは本当に言語の本質を把握したように見えるということでした。ここからどの程度スケールアップする必要があるかはよく分かりません。ここから必要なのは、RLやその他のものかもしれません。

2020年には、これをもっとスケールできるが、スケールアップするのと、2020年スタイルのモデルでRLのような他の目標を追加し始めるのと、どちらがより効率的だろうかと思いました。2020年スタイルのモデルでプリトレーニングと同じくらいRLを行えば、それが行く道だと思いました。

スケールアップは機能し続けるでしょう。しかし、それは本当に最良のパスでしょうか？分からないが、とにかく続いています。言語の本質の多くを理解したと思いましたが、さらに進むべき道があります。

それから一歩下がって。私がAI、安全性、組織について非常に経験主義的である理由の一つは、しばしば驚かされることです。いくつかのことについては正しかったと感じますが、これらの理論的な先のイメージでは、ほとんどのことについて間違っていました。10%のことについて正しいことは、多くの人々よりも頭と肩を抜きん出させます。

村の馬鹿、アインシュタインがいる図表を振り返ると。これが知能のスケールです。村の馬鹿とアインシュタインは互いに非常に近いです。抽象的な意味では、それはまだ真実かもしれませんが、実際に見ているものではありませんね？人間の範囲はかなり広く、異なるタスクで同じ場所や同じ時に人間の範囲にヒットしないことを見ています。

Cormac McCarthyのスタイルでソネットを書くようなものです。私はあまり創造的ではないので、それはできませんが、それはかなり高いレベルの人間のスキルです。そして、モデルでさえ、「Eという文字を使わずにXについてのページを書く」のような制約された書き込みで良くなり始めています。モデルはそれで超人的か、超人的に近いかもしれません。

しかし、比較的単純な数学定理を証明することに関しては、まさにその始まりを行っているだけです。時々本当に愚かな間違いをし、エラーを修正したり、何らかの拡張されたタスクを行うような広範な能力が本当にありません。

結局、知能はスペクトラムではありません。ドメインの専門知識の束があります。異なる種類のスキルの束があります。記憶は異なります。

それはすべて塊の中で形成され、複雑ではありません。しかし、それがスペクトラムである範囲では、スペクトラムも広いのです。10年前に私に尋ねたなら、それは全く期待していたものではありませんが、それが非常に結果として表れた方法だと思います。

人間とAIのスキル分布の重複

そのフォローアップとして、多くの質問があります。大量のインターネットデータからこれらのモデルが得る訓練の分布と、人間が進化から得たものと比較して、引き出されるスキルのレパートリーは、わずかに重複するだけでしょうか？同心円のようになるでしょうか？どのように考えますか？それらは重要ですか？

確かに大きな重複があります。これらのモデルが行うことの多くにはビジネス応用があり、多くのビジネス応用は、人間がより効果的になることを助けることを行っているからです。したがって、重複はかなり大きいです。

人間がテキストでインターネットに置いたすべての活動を考えると、それは多くをカバーしますが、おそらくいくつかのことはカバーしません。モデルは世界の物理的モデルをある程度学習しますが、実際に世界で動き回る方法は確実に学習しません。繰り返しますが、それは微調整が簡単かもしれません。

だから、モデルが人間が行うことを学習しないことがいくつかあります。それから、モデルは人間が行わないことも学習します。例えば、流暢なBase 64を話すこと。私は分かりませんが、私はそれを学習したことがありません。

これらのモデルが経済的に価値のあるタスクで長年にわたって超人的でありながら、知能爆発や何かを防ぐ他の多くの関連するタスクで人間を下回る可能性はどの程度ありますか？

この種のことは本当に知るのが困難なので、その警告をします。基本的なスケーリング法則を予測することはできますが、この詳細なことは、これがすべてどのように進むかを知るために本当に知りたいことですが、知るのがはるかに困難です。

私の推測では、スケーリング法則は継続するでしょう。繰り返しますが、人々が安全性や規制上の理由で遅くなるかどうかにかかっています。しかし、それをすべて脇に置いて、スケールし続ける経済的能力があると言いましょう。

もしそうしたら、何が起こるでしょうか？私の見解では、あらゆる分野で良くなり続け、モデルが非常に弱い、または進歩し始めていない分野は見ません。それは数学とプログラミングの真実でしたが、過去6か月間で、2023年世代のモデルは、2022年世代と比較して、それを学び始めました。知らないより微妙なことがあるかもしれません。

だから、それが完全に均等でなくても、上昇する潮がすべての船を持ち上げると少し疑っています。

長期タスクの実行能力

それには、以前に言及していたことも含まれますか？拡張されたタスクがある場合、思考の流れや一連のステップを実行する能力を失うということ？

それは、モデルにより長い期間のタスクを行わせるRLトレーニングのようなことに依存するでしょう。それにはかなりの追加計算が必要になるとは期待していません。それは、おそらくRLを間違った方法で考え、モデルが自分でどれだけ学習したかを過小評価したことのアーティファクトだったと思います。

一部の分野で超人的で、他の分野でそうでないかどうかについて、それは複雑だと思います。物理的世界での具現化を含むため、一部の分野では超人的にならない可能性があると想像できます。

そして、その時何が起こるでしょうか？AIはより速いAIを訓練するのを助けるでしょうか？そして、それらのより速いAIが回り込んでそれを解決するでしょうか？物理的世界は必要ないでしょうか？何を意味するかによります。アライメント災害を心配しているのでしょうか？大量破壊兵器を作るような誤用を心配しているのでしょうか？AIが人間から研究を引き継ぐことを心配しているのでしょうか？平均的な人間が行うことができる経済生産性のしきい値に達することを心配しているのでしょうか？

これらの異なるしきい値には異なる答えがあると思いますが、それらはすべて数年以内に来ると疑っています。

Claudeの現在の能力評価

これらのしきい値について尋ねさせてください。もしClaudeがAnthropicの従業員だったら、どの程度の給料の価値があるでしょうか？AIの進歩を意味のあるように加速させているでしょうか？

ほとんどの分野でインターンのように感じますが、それよりも良い特定の分野もあります。

比較を困難にしているのは、フォームファクターが人間と同じではないことです。これらのチャットボットの一つのように振る舞うとしたら、この会話をすることはできると思いますが、それらは単一または少数の質問に答えるようにより設計されています。彼らは長い人生の以前の経験を持つ概念がありません。

私たちはここで、過去に経験したことについて話していて、チャットボットはそれを持っていません。あらゆる種類のものが欠けているので、比較するのは困難です。一部の分野ではインターンのように感じ、スパイクして本当にサヴァンである分野があり、ここの誰よりも良いかもしれません。

知能爆発の可能性

知能爆発のようなもの全体の図が理にかなっているでしょうか？私の元ゲストであるCarl Shulmanは、知能爆発の非常に詳細なモデルを持っています。実際にそれが起こるのを見る人として、それは理にかなっているでしょうか？インターンからエントリーレベルのソフトウェアエンジニアに移行し、それらのエントリーレベルのソフトウェアエンジニアがあなたの生産性を向上させる…

AIシステムがより生産的になるにつれて、最初に人間の生産性を加速し、次に人間の生産性に等しくなり、その後、何らかの意味のある意味で、ある時点で起こる科学的進歩の主要な貢献者になるというアイデア。

その基本的な論理は私には可能性が高く思えますが、実際に詳細に入ると、それは変で、期待するのとは異なるだろうという疑いがあります。すべての詳細なモデルで、私たちは間違ったことについて考えているか、一つのことについて正しく、その後10の他のことについて間違っています。期待するよりも変な世界に終わるかもしれません。

これらすべてを加えると、人間レベルのようなものを得る時期のあなたの推定はどのようなものでしょうか？

しきい値によります。誰かがモデルを見て、1時間ほど話しても、基本的に一般的に教育を受けた人間のようであるという点では、それは全く遠くないかもしれません。

2〜3年で起こる可能性があると思います。それを止める主なことは、特定の安全しきい値にヒットすることでしょう。企業や業界が遅くなることを決めるか、安全上の理由で進歩の速度を調整する制限を政府に設けさせることができれば、それがそれが起こらない主な理由でしょう。

しかし、スケールする物流的および経済的能力だけを見れば、私たちはそれからそれほど遠くありません。

今、それはモデルが存在論的に危険であるしきい値ではないかもしれません。実際、まだそこにはかなりないと疑っています。それはモデルがほとんどのAI研究を引き継ぐことができるしきい値ではないかもしれません。それはモデルが経済の動作方法を深刻に変えるしきい値ではないかもしれません。

その後、少し曖昧になり、これらすべてのしきい値はその後の様々な時期に起こるかもしれないと思います。しかし、基本的な技術的能力の観点から、あらゆる分野で合理的に一般的に教育を受けた人間のように聞こえるということ、それはかなり近い可能性があると思います。

チューリングテストと経済的貢献の間のギャップ

教育を受けた人のためのチューリングテストに合格できるが、経済での人間の関与に貢献したり代替したりできない理由は何でしょうか？

いくつかの理由があります。一つは、スキルのしきい値が十分に高くないということ、比較優位です。すべてのタスクで平均的な人間よりも良い人を持っていることは問題ではありません。AI研究で本当に必要なのは、それに最も優れた1000人の専門家の労働を実質的に加速するのに十分強いものを見つけることです。

これらのシステムの比較優位が大きくない地点に達するかもしれません。

起こりうる別のことは、素朴な経済モデルには現れないが、顧客のところに行くときはいつでも見る、これらの神秘的な摩擦があることです。「ねえ、この素晴らしいチャットボットがあります」と言います。原則として、それはあなたの顧客サービスボットが行うこと、またはあなたの会社のこの部分が行うことすべてを行うことができますが、実際の摩擦は、どのようにそれを組み込むのか？どのようにそれを機能させるのか？

それには、会社内で人間の意味でどのように機能するか、経済で物事がどのように起こり、摩擦を克服するか、そして実際に、ワークフローとは何か？どのように実際にそれと相互作用するか？両方が含まれます。ここにこのタスクを行っているように見えるチャットボットがある、または人間がいくつかのタスクを行うのを助けているチャットボットがあると言うのと、OK、このものが展開され、10万人がそれを使っているというのとでは非常に異なります。

現在、多くの人々がこれらのシステムを展開するために急いでいますが、多くの場合、最も効率的な方法でそれらを使用することにはどこにも近くありません。彼らが賢くないからではなく、これらのことを解決するのに時間がかかるからです。だから、物事がこれほど速く変化しているとき、これらすべての摩擦があるでしょう。

これらは、モデルで捉えられない混沌とした現実です。基本的な図を変えるとは思いません。モデルがモデルをより良くするのを助け、人間が行うことを加速できるこの雪玉を構築しているというアイデアを変えるとは思いません。そして、最終的にはほとんどモデルが作業を行います。十分に遠くズームアウトすれば、それは起こっています。

しかし、どのようになるかの正確な数学的または指数関数的予測については懐疑的です。すべて混乱になると思います。しかし、私たちが知っているのは、それが比喩的な指数関数であり、速く起こるということです。

複数の指数関数の相互作用

私たちが話してきたこれらの異なる指数関数はどのように相殺されるでしょうか？一つは、スケーリング法則自体が減衰する限界損失パラメータか何かを持つべき法則だということでした。あなたが話した他の指数関数は、これらのものがAI研究プロセス自体に関与し、それを加速できるということです。これらの2つは対立する指数関数のようなものです。それは超線形または線形以下になるのでしょうか？

それから、知能の分布が単により広いかもしれないと言及しました。この地点に2〜3年で達した後、それはどのように見えるでしょうか？

非常に不明です。損失を見ると、スケーリング法則は曲がり始めている地点に既にいます。複数の企業が提供する公開されたモデルカードでそれを見ました。だから、それは全く秘密ではありません。

しかし、曲がり始めると、正確な予測の各小さなエントロピーのビットがより重要になります。おそらく、これらの最後の小さなエントロピーのビットは、アインシュタインが書いたであろう物理学論文と他の物理学者の論文との違いです。これからの重要性を評価するのは困難です。

実用的性能の観点では、メトリクスは比較的線形に上昇し続けているように見えますが、常に予測不可能です。それを見るのは困難です。そして、最も加速を推進していると思うのは、この分野にますます多くのお金が投入されていることです。人々は大きな経済的価値があることを見ているので、最大のモデルに費やされる金額が100倍程度上昇することを期待しています。そして、それが、チップがより速くなり、非常に多くの人々が今これに取り組んでいるためにアルゴリズムがより良くなることと連結されることを期待しています。

繰り返しますが、私はここで規範的な声明をしているのではありません。これが起こるべきことです。これが必ずしも起こるとさえ言っているのではありません。なぜなら、重要な安全性と政府の問題があり、私たちは非常に積極的に取り組んでいるからです。私が言っているのは、それ自体に任せれば、これが経済が行うことだということです。

Anthropicの役割と責任

しかし、この業界の範囲の拡大に対するAnthropicの貢献についてどのように考えますか？一つの議論は、その投資で、Anthropicで安全性のことに取り組むことができるということです。もう一つは、この分野の一般的な注目度を上げているということです。

すべてコストと利益です。コストはゼロではありません。これらのことについて考える成熟した方法は、コストがないことを否定することではなく、コストが何で、利益が何かを考えることです。私たちは、昨年後半と今年の初めに起こった大きな加速を引き起こさなかったという意味で、比較的責任があったと思います。私たちはそれを行った人々ではありませんでした。

正直に言って、Googleの反応を見ると、それは他の何よりも10倍重要かもしれません。そして、それが起こった後、エコシステムが変わった後、私たちは最前線に留まるために多くのことを行いました。

それは他のあらゆる質問と同じです。最低のコストと最大の利益を持つことを行おうとしているので、異なる時期に異なる戦略を持つことになります。

AIによる科学的発見について

科学者としてのあなた自身として、これらのものが基本的に人間の知識の全体的なコーパスを記憶しており、発見につながる単一の新しい接続を作ることができていないという事実をどう思いますか？中程度に知的な人でさえ、これほど多くのものを記憶していれば、「ああ、これはこの症状を引き起こす。この他のものもこの症状を引き起こす。ここに医学的治療法がある」ということに気づくでしょう。

そのようなことを期待すべきではないでしょうか？

よく分かりません。これらの言葉。発見。創造性。計算の大きな塊では、これらのアイデアはしばしば曖昧で捉えにくく、追跡するのが困難であることを学んだ教訓の一つです。しかし、ここには何かがあると思います。

モデルは一種の普通の創造性を示します。Cormac McCarthyやBarbieのスタイルでソネットを書くようなもの。それにはいくらかの創造性があり、普通の人が引くような新しい接続を引きます。

「大きな」科学的発見がなかったことについてはあなたに同意します。それは、単にモデルのスキルレベルがまだ十分に高くないことの混合だと思います。先週私がいたポッドキャストで、ホストが「分からない、これらのモデルで遊ぶ。それらは中程度だ。BまたはB-を得る」と言いました。

それはスケーリングで変わるでしょう。モデルが利点を持っているという興味深い点があると思います。それは私たちよりもはるかに多くを知っているということです。スキルレベルがまだ十分に高くなくても、既に利点を持つべきではないでしょうか？たぶん、それがあなたが言おうとしていることです。それについて本当に答えを持っていません。

記憶と事実と接続を引くことは、確実にモデルが先行している分野のようです。そして、おそらくそれらの接続が必要で、かなり高いレベルのスキルが必要だと思います。特に生物学の分野では、良くも悪くも、生物学の複雑さは、現在のモデルが多くのことを知っていることを必要とし、それが発見を行い、接続を引くために必要なことです。

物理学のように考えて公式を思いつく必要があるのとは異なります。生物学では多くのことを知る必要があります。だから、モデルは多くのことを知っていて、それらをまとめるには十分に高くないスキルレベルを持っていると思います。

これらのことをまとめることができるようになる瀬戸際にあると思います。

バイオテロリズムのリスク

その点で。先週のあなたの上院証言で、これらのモデルが潜在的に大規模なバイオテロ攻撃を可能にする2〜3年先だと言いました。明らかにそれを加速させるような情報を与えることなく、それをより具体的にできますか？何かを武器化する方法をワンショットすることなのか、オープンソースモデルを微調整する必要があるのか？実際にはどのように見えるでしょうか？

これについて明確にするのが良いと思います。なぜなら、私たちはブログ投稿と上院証言を行い、様々な人々が要点を理解しなかったり、私たちが行ったことを理解しなかったりしたからです。

今日、モデルに生物学についてあらゆる種類のことを尋ね、あらゆる種類の恐ろしいことを言わせることができますが、多くの場合、それらの恐ろしいことはGoogleで検索できるものであり、したがって私はそれについて特に心配していません。実際に本当の危険を見ることの妨げになると思います。誰かが単に「ああ、このモデルに天然痘についていくつかのことを教えてもらった、そしてそうするでしょう」と言う場合。

それは実際に私が心配していることではありません。

私たちは約6か月間、生物学的攻撃がどのように起こるか、そのような攻撃を行うために何が必要か、そしてそのような攻撃に対してどのように防御するかについて、世界で最も専門的な人々と協力しました。彼らは悪いことをしようとするワークフロー全体で非常に集中的に作業しました。

ワンショットではなく、長いプロセスです。多くのステップがあります。この一ページの情報をモデルに求めるようなものではありません。そして、繰り返しますが、詳細には立ち入りませんが、上院証言で言ったことは、Googleで情報を得ることができるステップもあります。「欠けている」と呼ぶステップもあります。

それらは多くの教科書に散らばっているか、どの教科書にもありません。それらは一種の暗黙知であり、明示的知識ではありません。それらはもっと、このラボプロトコルを行わなければならず、間違ったらどうなるか？ああ、これが起こったら、私の温度が低すぎました。それが起こったら、この特定の試薬をもっと追加する必要がありました、というようなものです。

私たちが発見したのは、ほとんどの場合、それらの重要な欠けている部分を、モデルはまだ行うことができませんが、時々行うことができ、行うことができるとき、時々まだ幻覚を起こし、それが私たちを安全に保っているものだということです。しかし、モデルがそれらの重要なことをうまく行う十分な兆候を見ました。そして、最先端のモデルを見て、以前のモデルに戻ると、傾向を見ると、2〜3年後には本当の問題を抱えることになるあらゆる兆候を示しています。

はい、特にあなたが対数スケールで言及したこと。100回に1回、正しく得ることから、10回に1回に…

正確に。私はこれらの「グロック」の多くを人生で見てきました。GPT-3が算術を学んだとき、GPT-2が偶然をわずかに上回る回帰を学んだとき、Claudeでhelpful、honest、harmlessのこれらすべてのテストでより良くなったとき、そこにいました。多くのグロックを見てきました。

残念ながら、これは私が興奮するものではありませんが、それが起こっていると信じています。

過度な心配への対処

誰かが言うかもしれません、聞いてください、あなたはGPT-2について、このモデルが悪いことに使われることを心配しているので、重みや詳細をここで公開しないと言ったOpenAIが発表したこの投稿の共著者でした。

今振り返ってみると、GPT-2が何か悪いことをできたと考えるのは馬鹿げています。私たちは単に心配しすぎているのでしょうか？意味をなさない懸念ですか？

興味深いです。その投稿の実際のテキストを振り返って見る価値があるかもしれません。正確には覚えていませんが、まだインターネット上にあります。誤用の懸念のために重みを公開しないことを選択していると言っているようなことが書かれています。

しかし、これは実験だ。現時点でこれが必要か、正しいことかは分からないが、これらのことについて慎重に考える規範を確立したいとも言っていました。それは、組み換えDNAを理解していた1970年代のAsilomar会議のようなものと考えることができます。

組み換えDNAで誰かが本当に悪いことをできる必要はありませんでした。可能性が明確になり始めていただけです。少なくともそれらの言葉は、正しい態度でした。

今、人々が投稿だけでなく、組織も判断する別のことがあると思います。これは多くの誇大宣伝を生み出す組織か、信頼性を持つ組織かなど。だから、それはそれに何らかの影響を与えました。「ここにあるこのものは危険だ」より複雑なメッセージを伝えることができないのは避けられないのかと議論することもできます。

それらについて議論することはできますが、その投稿に関わった私や他の人の頭の中にあった基本的なこと、そして投稿で明らかなことは、実際には分からないということです。何が危険で何がそうでないかについて、かなり広いエラーバーがあるので、注意深くあるという規範を確立したいと思います。

ちなみに、今は膨大により多くの証拠があります。今は膨大により多くのこれらのグロックを見ており、十分に調整されていますが、まだ不確実性があります。私が言ったこれらすべての声明で、2〜3年後にはそこにいるかもしれません。それのかなりのリスクがあり、そのリスクを取りたくありません。

しかし、100%だとは言いません。50-50かもしれません。

サイバーセキュリティと機密保持

さて、バイオリスクに加えて、Anthropicが強調してきたもう一つのことであるサイバーセキュリティについて話しましょう。どのようにして、クラウドマイクロアーキテクチャの漏洩を避けてきたのでしょうか？ご存知のように、あなたの競合他社はこの種のセキュリティでそれほど成功していません。

他の人のセキュリティについてはコメントできません。そこで何が起こっているかは知りません。私たちが行ったことは、訓練をより効率的にするアーキテクチャの革新があります。それらを計算乗数と呼んでいます。なぜなら、より多くの計算を持つことと同等だからです。

私たちの計算乗数について多くを言いたくありません。なぜなら、敵対者が私たちの対策を打ち消すことを可能にするかもしれないからですが、与えられた計算乗数について知っている人の数を、それについて知る必要がある人々に制限しています。

だから、これらすべての秘密を漏らすことができる人の数は非常に少ないです。そのうちの一つを漏らすことができる人の数はより多いです。しかし、これは情報コミュニティや抵抗細胞などで使用される標準的な区画化戦略です。

過去数か月間、これらの対策を実装してきました。ああ、これは私たちには決して起こらないと言って何かを不吉にしたくありませんが、それが起こるのはより困難だと思います。詳細にはあまり立ち入りたくありません。

ちなみに、他のすべての企業にもこれを行うことを勧めます。競合他社のアーキテクチャの漏洩が狭義にはAnthropicに役立つ限り、長期的には誰にとっても良くありません。このようなことに関するセキュリティは本当に重要です。

現在のセキュリティで、専用の国家レベルの行為者がClaude 2の重みを得ることを防ぐことができますか？

どの程度専用かによります。Chromeのセキュリティで働いていた私たちのセキュリティ責任者は、それは非常に広く使用され、攻撃されるアプリケーションですが、Anthropicを成功裏に攻撃するのにどの程度コストがかかるかという観点から考えることを好みます。

繰り返しますが、攻撃するのにどの程度コストがかかると思うかの詳細にはあまり立ち入りたくありません。それは単に人々を招待することです。私たちの目標の一つは、Anthropicを攻撃するコストが、単に自分のモデルを訓練するコストよりも高くすることです。

物事を保証するわけではありません。なぜなら、もちろん才能も必要だからですが、それでも、攻撃にはリスクがあり、外交的コストがあり、国家行為者が攻撃を行うために持っている可能性のある非常に希少なリソースを使い果たします。

ちなみに、まだそこにはいません。しかし、私たちは、私たちがいる企業のサイズと比較して、非常に高いセキュリティ基準にあると思います。ほとんどの150人企業のセキュリティを見ると、比較になりません。しかし、私たちのモデルの重みを盗むことが国家行為者の最優先事項だった場合、私たちは抵抗できるでしょうか？いいえ。彼らは成功するでしょう。

機密の性質と将来のセキュリティ

それはいつまで真実のままでしょうか？価値は増加し続けるからです。この質問の別の部分は、Claude 3やClaude 2を訓練する方法はどのような種類の秘密なのでしょうか？

例えば、核兵器では多くのスパイがいました。爆縮装置の設計図を持参するだけで、それが必要なものです。ここではより暗黙的ですか？生物学で話していたことのように、これらの試薬がどのように機能するかを知る必要があるのか、それとも設計図、マイクロアーキテクチャ、ハイパーパラメータを得ただけのようなものですか？

一行の方程式のようなものもあれば、より複雑なものもあります。区画化が最良の方法だと思います。何かについて知っている人の数を制限するだけです。1000人の企業で、誰もがあらゆる秘密を知っているなら、一つ、リーカーがいることを保証しますし、二つ、スパイがいることを保証します。

機械論的解釈可能性とアライメント

さて、アライメントと、あなたたちが専門とする分野である機械論的解釈可能性について話しましょう。この質問に答えながら、機械論的解釈可能性とは何かを説明することもできます。

より広い質問は、機械的に、アライメントとは何か？それは、モデルを慈悲深いキャラクターにロックインすることでしょうか？欺瞞的な回路と手順を無効にすることでしょうか？モデルをアライメントするとき、具体的に何が起こっているのでしょうか？

ほとんどのことと同様に、実際にアライメントされるようにモデルを訓練するとき、モデルの内部で何が起こるかは分かりません。アライメントされるように訓練する異なる方法がありますが、実際には何が起こるかは分かりません。

ある種の微調整を含む現在のすべての方法には、もちろん、私たちが心配している可能性のある基礎的な知識と能力が消えないという特性があります。モデルは単にそれらを出力しないように教えられるだけです。それが致命的な欠陥なのか、それとも物事がそうあらねばならない方法なのか分かりません。

機械的に内部で何が起こっているかは分からず、それが機械論的解釈可能性の全体的なポイントだと思います。個々の回路のレベルでモデルの内部で何が起こっているかを本当に理解することです。

最終的に解決されたとき、解決策はどのように見えるでしょうか？Claude 4の場合、機械論的解釈可能性のことを行い、「満足している、アライメントされている」と言うケースは何でしょうか？何を見ているのでしょうか？

それを知るには十分知りません。最終結果がどのように見えるかではなく、プロセスがどのように見えるかのスケッチを示すことができます。検証性が課題の多くです。今日のタスクでAIシステムをアライメントすると主張し、実際に成功しているこれらすべての方法があります。

しかし、その時の質問は常に、より強力なモデルを持った場合、または異なる状況でモデルを持った場合、それはアライメントされるでしょうか？モデルをスキャンして、「OK、このモデルがアライメントされていることを知っている、あらゆる状況で何をするかを知っている」と言うことができるオラクルがあったなら、この問題ははるかに簡単でしょう。

それに最も近いものは、機械論的解釈可能性のようなものだと思います。まだその任務にはどこにも近くありません。

しかし、拡張された訓練セットと拡張されたテストセットのようなものとして考えると言うでしょう。私たちが行っているすべて、私たちが行っているすべてのアライメント方法は訓練セットです。それらでテストを実行することはできますが、それは本当に分布外で機能するでしょうか？別の状況で本当に機能するでしょうか？

機械論的解釈可能性は、原則的に、モデルの修正というよりもモデルのX線のようなものである唯一のものです。介入というよりも評価のようなものです。何らかの形で、拡張されたテストセット、拡張された訓練セット、これはすべてのこれらのアライメント方法、そして拡張されたテストセット、これはモデルをX線して、OK、何がうまくいって何がうまくいかなかったかというようなもの、を持つダイナミクスに入る必要があります。あなたが実行した経験的テストを超える方法で、モデルはこれらの状況で何をするでしょうか？何をする代わりに、それは何をすることができるでしょうか？

もちろん、それについて注意深くある必要があります。私たちが決して行うべきでないと思う非常に重要なことの一つは、解釈可能性のために訓練することです。なぜなら、それはその利点を奪っているからです。検証対テストセットと似た問題さえあります。X線を何度も見ると、干渉することができます。それについて心配すべきですが、それははるかに弱いプロセスであり、自動化された最適化ではありません。検証とテストセットと同様に、テストセットを実行する前に検証セットを何度も見ないことを確認する必要があります。

しかし、繰り返しますが、それは自動化された圧力ではなく手動の圧力です。だから、私たちが物事を試行し、モデルが最適化していない直交的な方法で、何らかの方法でそれらが機能するかどうかを本当に理解する訓練とテストセットの間の何らかのダイナミクスを持つ解決策。

保証は決して持たないと思いますが、それらのことを一緒に行う何らかのプロセス。

機械論的解釈可能性の有効性に対する疑問

拡張された訓練を実際に機能する方法でアライメント能力と拡張されたテストのためのアライメント能力と組み合わせる何らかの方法。そして、愚かな方法ではなく、自分を騙す愚かな方法がたくさんあります。

なぜこれが機能する可能性が高い、またはこれを追求することが有望だと思うかの直感をまだ理解していないように感じます。より具体的な方法で質問させてください。そして、拷問された類推を許してください。

経済学者で経済を理解したい場合、たくさんのミクロ経済学者を派遣します。そのうちの一人はレストランビジネスがどのように機能するかを研究します。そのうちの一人は観光ビジネスがどのように機能するかを研究し、そのうちの一人はベーキングビジネスがどのように機能するかを研究します。

そして最後に、彼らは皆一緒になって、5年後に不況があるかどうかはまだ分かりません。

これがそれと同じではない理由は何でしょうか？2層transformerでinduction headsがどのように機能するかを理解し、モジュラー算術を理解している場合。これがどのように「このモデルは私たちを殺したいのか？このモデルは根本的に何を望んでいるのか？」に加算されるのでしょうか？

それについて、いくつかのことがあります。それは尋ねるべき正しい質問のセットです。最終的に私たちが期待しているのは、あらゆる詳細を理解することではなく、繰り返しますが、X線やMRIの類推を示すでしょう。モデルの広範な特徴を見て、これは内部状態と計画が外部的に自分自身を表現することと非常に異なるモデルですか？これは、非常に破壊的で操作的に見えることを行うことに計算力の大部分を費やしているモデルで、私たちが不快に感じるモデルですか？

それが可能かどうかは確実には分かりませんが、少なくともそれが可能かもしれないという肯定的な兆候があります。繰り返しますが、モデルは意図的にあなたから隠れているわけではなく、訓練プロセスがあなたからそれを隠すかもしれません。モデルが本当に超知的な場合、それは自分の認知に影響を与える方法で考える場合のケースを考えることができます。それについて考えるべきですし、すべてを考慮すべきです。

通常の方法で訓練された場合、人間レベルを超えたレベルに到達するモデルについて考えるのは合理的な仮定かもしれないと疑っています。モデルの内部構造が意図的に私たちに対して最適化していないというのは、チェックすべきですが、合理的な仮定かもしれません。

人間に類推を示します。実際に誰かのMRIを見て、ランダムな確率以上に彼らがサイコパスかどうかを予測することが可能です。数年前に、これを研究していた神経科学者についての話が実際にありました。その後、彼は自分のスキャンを見て、自分がサイコパスであることを発見し、その後、彼の人生の誰もが「いいえ、これは明らかです。あなたは完全な嫌な奴です。サイコパスに違いありません」と言いました。そして、彼はこれを全く認識していませんでした。

これらのマクロ特徴があることができるという基本的なアイデア、サイコパスはおそらくそれの良い類推です。これは私たちが恐れることで、表面上は魅力的で、非常に目標指向で、内部では非常に暗いモデルです。表面上では、彼らの行動は他の誰かの行動のように見えるかもしれませんが、彼らの目標は非常に異なります。

経験的vs理論的アプローチ

誰かが持つかもしれない質問は、これらの活性化が疑わしいかどうかを経験的に推定しようとしているが、これは私たちが経験的になることができることでしょうか？それとも、これらのモデルのMRIが悪いことと相関するだけでなく、これがアライメントされているという非常に良い第一原理の理論的理由が必要でしょうか？

経験的で何を意味するかによります。より良い用語は現象学的でしょう。純粋に現象学的であるべきではないと思います。本当に危険なモデルの脳スキャンとここに他の脳スキャンがあるようなものです。機械論的解釈可能性の全体的なアイデアは、基礎的な原理と回路を見ることです。

しかし、私がそれについて考える方法は、一方で、私は実際に可能な限り詳細の最低レベルでこれらの回路を研究することの常にファンでした。そしてその理由は、それが知識を構築する方法だからです。最終的には、これらの特徴が多すぎる、複雑すぎるということを目指していても。

最終的に、私たちは何らかの広いものを構築しようとしており、何らかの広い理解を構築しようとしています。私は、それを構築する方法は、これらの非常に具体的な発見をたくさん作ることによるものだと思います。構成要素を理解し、その後、すべてを理解しなくても、これらの広い結論を引き出すためにそれをどのように使うかを理解しなければなりません。

Chris Olahと話すべきでしょう。彼がはるかに詳細を持っているでしょう。彼が解釈可能性アジェンダをコントロールしています。彼が解釈可能性で何をするかを決める人です。これは私の高レベルの考えであり、彼のものほど良くないでしょう。

Anthropicの競争優位性

Anthropicのブルケースは、機械論的解釈可能性が能力に役立つという事実に依存していますか？

全くそうは思いません。原則的に、機械論的解釈可能性が能力に役立つ可能性があると思います。様々な理由で、それがそうであった場合、私たちはそれについて話すことを選ばないかもしれません。

それは、Anthropicの設立時に私や私たちの誰かが考えていたことではありませんでした。私たちは、モデルのスケーリングが得意で、それらのモデルの上で安全性を行うことが得意な人々として自分自身を考えていました。私たちは、それが得意な人々の非常に高い才能密度を持っていると思います。私の見解は常に、才能密度が才能質量を打ち負かすということでした。それがより私たちのブルケースです。

それは何らかの特定のことに依存するとは思いません。他の人々も今機械論的解釈可能性を始めており、そうしていることを非常に嬉しく思います。私たちの変化理論の一部は、逆説的に他の組織を私たちのようにすることです。

フロンティアモデルの必要性と資金調達

才能密度が重要であることは確かですが、Anthropicが強調してきた別のことは、安全性研究を行うためにはフロンティアモデルを持つ必要があり、そしてもちろん、実際に企業でもある必要があるということです。

誰かが推測するかもしれませんが、現在のフロンティアモデル、GPT-4、Claude 2は1億ドルか何かのコストがかかります。一般的な桁数では間違っていません。しかし、2〜3年後には、あなたが話している種類のことは、その規模を維持するために、さらに多くの桁数の話をしています。

安全性がフロンティアにいることを要求する場合、Anthropicがこれらのリヴァイアサンと競争してその同じ規模に留まる場合は何でしょうか？

多くのトレードオフのある状況です。簡単ではありません。質問を一つずつ答えるかもしれません。安全性がなぜスケールとそれほど結びついているのかに戻るために？一部の人々はそうではないと思います。

しかし、安全性手法が実際に使用されたり、何かのために機能したりした分野を見ると、たとえ一般的に機能するとは思わなくても。議論と増幅のようなアイデアに戻って考えます。2018年にOpenAIでそれらについて論文を書いたとき、それは人間のフィードバックは十分に機能しないが、議論と増幅がそれを超えて私たちを連れて行くだろうというようなものでした。

しかし、実際に議論を行う試みを見ると、2つのモデルが人間が判断できるほど一貫した議論を行うために訓練プロセスが実際に機能するためには、現在のフロンティアか、いくつかのトピックではそれを超えたモデルが必要です。

フロンティアにいることなく方法を思いつくことはできますが、私にとっては、行う必要があることの非常に小さな部分です。これらの方法を思いつくのは非常に簡単です。ああ、問題はXです、おそらく解決策はYですと思いつくのは非常に簡単です。物事が実際に機能するかどうかを本当に知りたいのです。今日持っているシステムでさえ、そしてそれらでどのような種類のことが間違って行くかを知りたいのです。

実際にこれらを実際に試すことによって、10の新しいアイデアと10の新しい方法を発見すると感じます。事はうまくいかないでしょう。その経験的学習は、それがあるべきであるほど広く理解されていないと思います。

Constitutional AIのような方法についても同じことを言うでしょう。一部の人々は、ああ、それは重要ではない、この方法は機能しないことを知っている、純粋なアライメントには機能しないと言います。私はそれに同意も反対もしません。それはただ過信だと思います。新しいことを発見し、何が機能し、何が機能しないかの構造を理解する方法は、物事をいじることです。これがここで働いたので、そこで働くだろうと盲目的に言うべきではありません。しかし、スケーリング法則と同様に、パターンを本当に理解し始めるのです。

機械論的解釈可能性でさえ、フロンティアモデルなしで多くの進歩がなされたのを見る一つの分野かもしれませんが、OpenAIが数か月前に出した作業で、非常に強力なモデルを使って弱いモデルを自動解釈するのを助けるのを見ています。繰り返しますが、それは解釈可能性でできることのすべてではありませんが、その大きな構成要素であり、私たちもそれが有用であることを発見しました。

だから、この現象を何度も何度も見ます。スケーリングと安全性は、あなたが思う以上に常に、これらの2つの蛇が互いに巻きついているのです。機械論的解釈可能性でさえ、3年前は、これが解釈可能性にとってこれほど真実になるとは思っていませんでしたが、何らかの形でそうなるように管理しています。

なぜでしょうか？知能が有用だからです。それは多くのタスクに有用です。それが有用であるタスクの一つは、他の知能を判断し評価することを理解することであり、おそらくいつかアライメント研究自体を行うことです。

それがすべて真実である場合、2〜3年後、これらのリヴァイアサンが100億ドルの訓練実行のようなことを行っている場合、Anthropicにとって何を意味するでしょうか？

選択肢1は、できない場合、またはフロンティアに留まるコストが高すぎる場合、それを行うべきではなく、最も先進的なモデルでは動作せず、それほど先進的ではないモデルで何を得ることができるかを見ることです。そこでゼロでない価値を得ることはできますが、価値がそれほど高いか、学習がタスクに本当に有利になるほど速くなることができるかについては懐疑的です。

2番目の選択肢は、方法を見つけることです。トレードオフを受け入れるだけです。そして、トレードオフは、後で入ることができるRace to the Topと呼んだ現象のために、現れるよりも肯定的です。

そして3番目の現象は、物事がその規模に達すると、非常に深刻な危険の非自明な確率に入り始めることと一致するかもしれないということです。私が話したバイオリスクの物質から最初に来ると思います。2年で起こるアライメントの物質のいくつかを心配するのに必要な自律性のレベルをまだ持っているとは思いませんが、それのすぐ後ろにないかもしれません。

それは、私たちがサポートする、我々ができるだけ速くスケールしないという一方的または多国間または政府が強制する決定につながるかもしれません。それが正しいことかもしれません。私はそれらの方向に物事が向かうことを期待し、その後、私たちはフロンティアにいない、研究をやりたいほどうまくできない、または他の組織に影響を与えたいほどうまくできないという困難なトレードオフ、またはフロンティアにいて、両方向に多くを持つトレードオフを受け入れなければならないが、正味ポジティブであるというトレードオフを持たないでしょう。

誤用vs誤調整の比較

誤用と誤調整について、あなたが言及したように、それらは両方とも問題ですが、長期的なスキーム、例えば30年後の線で、どちらがより大きな問題と考えられると思いますか？

30年よりもはるかに少ないと思います。私は両方を心配しています。理論的に、世界を自分で引き継ぐことができるモデルがあった場合、そのモデルをコントロールできたなら、一部の人々の小さなサブセットの願いに従い、他の人々ではないモデルがあった場合、それらの人々はそれを彼らの代わりに世界を引き継ぐために使うことができるということが非常に簡単に従います。誤調整の前提そのものは、誤用についても同様のレベルの結果で心配すべきであることを意味します。

しかし、あなたよりもドゥーミーかもしれない一部の人々は、あなたは既にそこで楽観的なシナリオに向かって働いていると言うでしょう。なぜなら、少なくともモデルを悪い奴らとアライメントすることを理解したからです。今は、代わりに良い奴らとアライメントされることを確認する必要があるだけです。

なぜ悪い奴らとアライメントされる地点に到達できると思うのでしょうか？これを既に解決していません。

アライメントが完全に解決不可能という見解を持っていたなら、とにかく死んでいるので誤用について心配したくないと言うでしょう。それは全く私の立場ではありません。

しかし、実際に成功する計画を考えるべきでもあります。どれほど誤調整を解決するのが困難であっても、実際に成功するどの計画も、誤調整と誤用の両方を解決する必要があります。

AIモデルがより良く、より速くなるにつれて、国家間の力のバランスについて大きな問題を作り出します。単一の個人が他の人が止めるのが困難な悪いことを行うことが可能かどうかについて大きな問題を作り出します。良い未来につながるどの実際の解決策も、それらの問題も解決する必要があります。

あなたの視点が、私たちは最初の問題を解決できないから失敗する、だから問題2と3について心配するなということなら、それは本当に声明ではありません。問題2と3について心配すべきです。私たちの道にはどうであれ、それらがあります。

はい。成功するシナリオでは、それらすべてを解決しなければなりません。

失敗ではなく成功のために計画すべきです。

超人的モデルの統治

誤用が起こらず、適切な人々が超人的モデルを持っている場合、それはどのように見えるでしょうか？適切な人々とは誰でしょうか？5年後に実際にモデルをコントロールしているのは誰でしょうか？

私の見解では、これらのものは、何らかの政府または政府機関の集合体のかなりの関与を含むことになるほど強力だということです。非常に素朴なバージョンがあります。モデルを国連やたまたまある時に権力にある人に手渡すべきではないと思います。それがうまくいかない可能性があります。

しかし、それは強力すぎます。この技術を管理するための何らかの正当なプロセスが必要で、それはそれを構築している人々の役割、民主的に選出された当局の役割、それに影響される個人全員の役割を含みます。最終的に、何らかの政治的に正当なプロセスが必要です。

しかし、それはどのように見えるでしょうか？その時の大統領が誰であれ、彼らに手渡すということでない場合、その機関はどのように見えるでしょうか？

これらのことを事前に知るのは本当に困難です。人々はこれらの広範な計画を提案し、ああ、これが私たちがそれを行うべき方法だと言うのが大好きです。正直な事実は、私たちは進むにつれてこれを理解しているということです。

私たちはより強力でないバージョンの技術でこれらのことを試し、それらで実験すべきだと思います。間に合うようにこれを理解する必要があります。しかし、事前に知ることができる種類のことでもありません。

長期利益信託について

あなたが持っている長期利益信託。それはその機関とどのような界面を持つでしょうか？それは機関自体でしょうか？

長期利益信託ははるかに狭いものだと思います。これはAnthropicのための決定を行うものです。これは基本的に機関です。最近のVoxの記事で説明されました。今年後半にはそれについてもっと言うつもりです。しかし、それは基本的に、時間をかけてAnthropicの理事会席の過半数を任命する能力を得る機関です。

それは、AIアライメント、国家安全保障、そして一般的な慈善活動の専門家の混合です。

AnthropicがAGIを持ち、Anthropicのコントロールが彼らに手渡された場合、それはAGI自体のコントロールが彼らに手渡されることを意味しないでしょうか？

それは、Anthropicや他のエンティティが人類の代わりにAGIについて決定を行うエンティティであるべきだということを意味しません。私はそれらを異なることとして考えます。

Anthropicが広範な役割を果たす場合、そのとき、その機関を世界中の様々な人々に広げたいでしょう。または、これを非常に狭く解釈し、その後、すべての企業のすべてのAGIを誰かの代わりに管理する広範な委員会がどこかにあるかもしれません。

分かりません。過度に建設的で理想主義的であるべきではないと思います。ここで新しい問題を扱っています。それに対処できる政府機関と構造が何であるかについて今考え始める必要があります。

理想的な未来について

統治を忘れましょう。うまくいくことがどのように見えるかについて話しましょう。明らかに、すべての人が同意できることがあります。すべての病気を治す、すべての詐欺を解決する – すべての人間が「私はそれに賛成だ」と言うこと。

しかし、今は2030年です。すべての人が同意できる本当の問題をすべて解決しました。次に何が起こるでしょうか？超人的な神と何をしているのでしょうか？

実際に、このような何かの枠組みに反対したいと思います。超人的AIで何をするつもりかと誰かが言うとき、私は緊張します。私たちは市場と民主主義について過去150年間で多くのことを学び、各人が自分にとって人間の経験を持つ最良の方法を自分で定義でき、社会が非常に複雑で分散化された方法で規範と価値観を解決するということです。

これらの問題を解決するまで、政府からの一定量の中央集権的コントロールが必要である理由である安全性問題があることができます。

しかし、私たちはすべての問題を解決した、今どのように物事を良くするかという問題として？ほとんどの人、ほとんどのグループ、ほとんどのイデオロギーが、さあ座って良い人生の定義について考えようと始めたものは、災害につながりました。

分散化されたAI統治のビジョン

しかし、AGIを持つ、寛容で、リベラルで、民主主義的で、市場指向のシステムのこのビジョン。各人が自分のAGIを持つのでしょうか？それは何を意味するのでしょうか？

分からないです。どのように見えるかは分かりません。私が言っているのは、重要な安全性問題と重要な外部性を解決する必要があるということです。それらは、アライメントについて狭く、非常に複雑で解決できない経済問題の束があることができるかもしれません。それを条件として、過去に機能したことについて考えるべきです。そして、一般的に、良い人生を送ることが何を意味するかの統一されたビジョンは、全くうまくいっていません。

中国のAI開発について

物事がうまくいく、または良い行為者がAIのコントロールを持つことの反対側で。宇宙の潜在的な行為者として中国に触れたいかもしれません。

最初に、Baiduにいて、AI全般で進歩が起こっているのを見て、なぜ中国人が期待を下回っているのでしょうか？ Baiduには何年も前にスケーリング法則グループがありました。それとも前提が間違っていて、私が気づいていない進歩が起こっているのでしょうか？

スケーリング法則グループ、それは私たちがスピーチで行ったことの派生でしたので、まだそこに一部の人がいましたが、それは主にアメリカ化されたラボでした。私は1年間そこにいました。それは深層学習への最初の参入でした。それはAndrew Ngが率いていました。私は中国には行ったことがありません。それは米国のラボのようなものでした。それは中国のエンティティがゲームに参入しようとする試みでしたが、やや切り離されていました。

それ以来、彼らはおそらく非常に商業的に焦点を当て、スケーリング法則に関するこれらの基本的な研究側面にはそれほど焦点を当てていなかったと思います。

11月頃のChatGPTのリリースでのすべての興奮のため、それは彼らにとってもスタートのピストルだったと思います。そして、彼らは今非常に積極的に追いつこうとしています。米国はかなり先行していると思いますが、彼らは今追いつくために非常に一生懸命努力しています。

中国はAGIについてどのように考えていると思いますか？安全性と誤用について考えているのか、そうでないのか？

本当に感覚がありません。私が持つであろう一つの懸念は、中国は安定性が好きだから、またはCCPが望むことと一致することを確実にするためにあらゆる制限を持つだろうからAIを開発しないだろうと言う人々です。それは短期的には、そして消費者製品については真実かもしれません。私の心配は、基本的なインセンティブが国家安全保障と権力についてである場合、それは遅かれ早かれ明確になるだろうということです。

彼らがこれを国家権力の源泉として見ている場合、少なくとも最も効果的なことをしようとするだろうし、それはAGIの方向に導く可能性があります。

彼らがあなたの設計図やコードベースか何かを得ただけだと仮定して、アメリカの主要企業とフロンティアで競争力のある自分のラボを立ち上げることは可能でしょうか？

速くはないかもしれませんが、これについて心配しています。これが私たちがサイバーセキュリティに非常に集中している理由の一つです。私たちはクラウドプロバイダーと協力しました。モデルの重みへのアクセスのための2キーシステムを持っていると言ったセキュリティについてのブログ投稿がありました。発表していないが実装したり実装を考えている他の対策があります。敵対者にそれらについて知ってもらいたくありませんが、広範に話すことは喜んでします。

ちなみに、私たちが行っているこのようなすべてのことは、非常に決意の固い国家レベルの行為者には全く十分ではありません。ほとんどの攻撃に対して、そしてあまり決意の固くない国家レベルの行為者に対しては防御すると思います。しかし、私たちがする必要があることはもっとたくさんあり、その一部はセキュリティの行い方について新しい研究を必要とするかもしれません。

物理的セキュリティの必要性

その点でそれを取るのに何が必要でしょうか。私たちはAnthropicのオフィスにいて、良いセキュリティがあります。ここに来るためにバッジなどを取る必要がありました。しかし、AGIが構築される最終的なバージョンのこの建物やバンカーやその他は何でしょうか？

それはサンフランシスコの真ん中の建物なのか、ネバダやアリゾナの真ん中にいるのか？Los Alamosにする地点は何でしょうか？

ある時点で、AGIを構築する方法がどのように見えるかについてのジョークがありました。核発電所の隣にデータセンターがあり、バンカーの隣にあり、私たちは皆バンカーに住み、すべてがローカルなのでインターネットに接続しないでしょう。

これがすべて起こる速度を真剣に受け取るなら、確実ではありませんが、そのようなことが起こるかもしれないと思わせますが、それほど漫画的でないものかもしれません。

アライメントの解決可能性

これらのモデルが2〜3年で一部のことで人間レベルに到達する場合、アライメントが解決可能である時間スケールは何でしょうか？それらがアライメントされる地点は何でしょうか？

これは本当に困難な質問です。なぜなら、実際に人々がアライメントについて間違った方法で考えていることが多いと思うからです。モデルが誤調整されているか、解決すべきアライメント問題があるという一般的な感覚があります。いつかリーマン仮説を解くように。私はそれがそのようなものだとは思いません。悪いか良いかという方法ではありません。同じくらい悪いか、同じくらい予測不可能かもしれません。

なぜ私が恐れているかを考えるとき、いくつかのことを考えます。本当に議論するのが困難なことの一つは、強力なモデルがあるでしょう。それらはエージェント的でしょう。私たちはそれらに向かっています。そのようなモデルが大混乱を起こし人類を破壊したいと思った場合、私たちには基本的にそれを止める能力がありません。

それが真実でない場合、モデルをスケールするにつれて、それが真実である地点に達するでしょう。だから、それは間違いなくそうのようです。

真実のようである2番目のことは、私たちはモデルをコントロールするのが悪いようです。特定の方法ではありませんが、それらは統計的システムであり、100万のことを尋ねることができ、100万のことを言い返すことができます。そして、何か狂ったことをする100万と1番目のことを考えていないかもしれません。

または、それらを訓練するとき、非常に抽象的な方法で訓練し、それに応答して行うすべての結果を理解していないかもしれません。私たちが見たその最良の例はBingとSidneyです。そのモデルをどのように訓練したかは分からない。人々を脅し、この奇妙な強迫的な性格を持つすべてのこの奇妙なことをさせるために何をしたかは分からない。

しかし、それが示すのは、私たちが意図したものとは非常に異なり、おそらく反対のものを得ることができるということです。

実際に、事実1と事実2は本当に心配するのに十分だと思います。収束的な道具的目標や進化への類推についてのこのすべての詳細なことは必要ありません。私にとって1と2はかなり動機づけされています。OK、これは強力になるでしょう。私たちを破壊することができます。そして、私たちがこれまでに構築したすべては、私たちが理解していないランダムなことをするかなりのリスクにあります。

あなたが2〜3年でバイオ兵器や危険になる可能性のあるものを得ると言うなら、あなたが持っている機械論的解釈可能性、Constitutional AIおよび他のRLHFのものの研究アジェンダは、2〜3年でそれを防ぐことに意味のあるように貢献するでしょうか？

人々はデフォルトでの破滅やデフォルトでのアライメントについて話します。それは統計的かもしれないと思います。現在のモデルでは、BingやSidneyを得るかもしれないし、Claudeを得るかもしれません。

私たちの現在の理解を非常に強力なモデルに移すと、何かを作って、詳細によって、おそらく完全に問題ない。本当にデフォルトでのアライメントではなく、多くの詳細に依存する世界にいるかもしれません。

あなたがそれらすべての詳細について非常に注意深く、何をしているかを知っている場合、それを正しく得ているが、何かを別のものに接続していると理解していなかった方法で何かを台無しにすることに高い感受性を持っています。実際に、すべての人間を幸せにする代わりに、彼らをカボチャに変えたい、ただのランダムなことです。

モデルは非常に強力なので、風景に立っているこれらの巨人のようで、腕をランダムに動かし始めると、すべてを壊すことができます。

私がそのような枠組みで始めているのは、デフォルトでアライメントされているとは思わないし、デフォルトで破滅していて、解決する必要がある問題があるとは思わないからです。それは異なる特性を持っています。

今、私が思うのは、うまくいけば2〜3年の時間スケール内で、モデルがいつ良くていつ悪いかをより良く診断することができるようになるということです。現在のモデルに関連するだけでなく、スケールする、悪いことをする可能性が低く、良いことをする可能性が高い方法でモデルを訓練する方法のレパートリーをより良くします。

そして、テストセットとして解釈可能性でそれを開発するのを助けることができます。ああ、男、私たちはRLHFを試した、うまくいかなかった。Constitutional AIを試した、うまくいかなかった。この他のことを試した、うまくいかなかった。機械論的解釈可能性を試した。今他のことを試すつもりだというフレームではないと思います。

男、私たちはまだ問題を解いていない、リーマン仮説を解決していないというフレームは正しくないと思います。既に今日のシステムで、私たちはそれらをコントロールするのが得意ではなく、その結果は非常に悪い可能性があります。私たちのモデルをコントロールし、それらで何が起こっているかを理解する可能性を増やす、より多くの方法を得る必要があります。そして、私たちはこれまでにいくつかを持っています。それらはまだそれほど良くありません。

しかし、これをバイナリとは思いません。機能するかしないか。私たちはもっと開発するつもりです。そして、次の2〜3年で、物事がうまくいかない可能性のその確率質量を食べ始めるつもりだと思います。

アライメントの困難さについて

コア安全性見解論文のように、問題がどの程度困難かの確率質量があります。それを述べる方法さえ正しくないように感じます。リーマン仮説を解決するようなものではないからです。

今、5つのボールか何かをジャグリングしようとするとしたら、3つのボールをジャグリングできる、実際にできるが、5つのボールを全くジャグリングできないということのようなものです。それをしようとしたら、ほぼ確実にそれらを落とすでしょう。そして、時間をかけて、単にボールをコントロールするタスクでより良くなるだけです。

その投稿について、あなたの個人的な確率分布は何ですか？聴衆のために、3つの可能性は、1つ、RLHF++でこれらのモデルをアライメントするのは些細です。2つ、困難な問題ですが、大企業が解決できるものです。3つ、現在人間文明が解決するのは基本的に不可能なもの。これらの3つを捉えている場合、これらの3つについてのあなたの確率分布は何ですか？

私はXの確率分布は何かのような質問にはあまり興味がありません。私は、それらすべてが真剣に考慮されるべきである十分な可能性を持っていると思います。

私がはるかに興味を持っている質問は、それらの間で確率質量をシフトする何を学ぶことができるでしょうか？

その答えは何でしょうか？

機械論的解釈可能性が、問題を解決することより必要的に行うであろうことの一つは、モデルをアライメントしようとするときに何が起こっているかを教えてくれることだと思います。それは基本的にこれについて教えてくれるでしょう。

物事が非常に困難であると結論する一つの方法は、機械論的解釈可能性が問題が根絶されたり押し潰されたりするのではなく、動き回る傾向があることを私たちに示すということです。または、一つの問題を取り除くと、別の問題を作り出します。または、問題がなぜ持続的で根絶するのが困難か、または作物になることについての洞察を与えてくれるかもしれません。

私にとって、ああ、この特定の方向に常にこの収束的目標があるというこれらの物語のいくつかを本当に信じるために。抽象的な物語は説得力がないわけではありませんが、本当に説得力があるとも思わないし、すべての安全作業を動機づけるのに必要だとも思いません。

しかし、男、私たちはこれを解決できないということを本当に言うような種類のことは、X線の内部でそれが起こっているのを見ることです。現在、あまりにも多くの仮定があり、これがすべてどのようになるかについてあまりにも多くの過信があると思います。これがすべて間違って行く、完全な災害だが、誰もが予想した方法とは完全に異なる方法で、かなりの確率質量を持っています。

それがどのように誰もが予想したのとは異なって行く可能性があるかについては、特に言及する価値があるでしょうか。

この特に、どの情報が関連するでしょうか？Claude 3と次の世代のモデルをアライメントすることの困難さは？それは大きな情報でしょうか？

最も心配している人々は、すべての人間以下のAIモデルがアライメント可能になるだろう、アライメントされているように見えるだろうと予測しています。何らかの方法で私たちを欺くでしょう。

それは確実に私たちにいくらかの情報を与えますが、機械論的解釈可能性が私たちに教えることができることにより興味があります。なぜなら、繰り返しますが、このX線を見て、それが嘘をついていないと言うのは強すぎるでしょうが、少なくとも現在のシステムでは、それは私たちに対して最適化しているようには感じません。それができるエキゾチックな方法があります。ここでは何も安全な賭けではないと思いますが、私たちに対して積極的に最適化していない何かに最も近いでしょう。

RLHF とConstitutional AI の心理学的効果

RLHF やConstitutional AI 以外の具体的な手法について話しましょう。人間の心理学の観点から言うと、これらのことを話すとき、何が変化が起こっているのでしょうか？新しい駆動力、新しい目標、新しい思考を作っているのでしょうか？心理学の観点から、モデルはどのように変化しているのでしょうか？

これらすべての用語は、起こっていることを説明するのに不適切です。人間にとってもそれらがどれほど有用な抽象化かは明らかではありません。何が起こっているかを説明する言語を持っていないと思います。そして、繰り返しますが、X線を持ちたいと思います。実際にそこを見て、言葉を作り上げることの代わりに、実際に何について話しているかを知ると言いたいです。これはあなたがこの質問をすることで、私がすることです。

私たちは本当に話していることについてほとんどアイデアを持っていないことについて正直であるべきです。ここにあるこの回路がオンになる、そして、モデルを訓練した後、この回路はもはや動作しないか弱いと実際に意味することを言うことができるといいでしょう。

それを行うことができるには多くの作業が必要になるでしょう。

モデル有機体とラボリーク懸念

あなたが前に示唆したモデル有機体、これらの評価を行って、それらが現在危険なことをする能力があるかどうかを見て、現在そうではないが、これらのモデルを微調整したり、危険な行動を引き出そうとしたりする際に、生物兵器を作ることや何かで、実際に生物兵器を作ることを教える代わりに、何らかの形で漏洩し、実際に生物兵器を作る、ラボリークシナリオをどの程度心配していますか？

今日の受動的なモデルでは、それほど懸念ではありません。モデルを微調整するとしたら、私的に行い、専門家と協力しますので、漏洩はモデルがオープンソース化されたようなものでしょう。今のところ、主にセキュリティ問題です。

本当に危険なモデルの観点から、本当に強力なモデルを作り、何がそれを危険にしたり安全にしたりするかを見ようとする場合、モデルが引き継ぐワンショットのようなものがある場合、より多くを心配しなければなりません。

それをコントロールする主な方法は、私たちがテストするモデルの能力が、これを行うことができるようなものではないことを確認することです。

能力がそれらがどこでテストさえしたくないほど高い地点は何でしょうか？

さまざまなことがあります。能力テスト…

しかし、それ自体が…もしレプリケートをテストしている場合、実際にそれをしたらどうなるでしょうか？

確かに。しかし、私は外挿したいと思います。私たちはArcとこれについて話し合いました。計算の2倍の要因があり、モデルはAWSでアカウントを開いて自分でお金を稼ぐようなことができるでしょうか？野生での完全な生存の明らかな前提条件のいくつか。

それらのしきい値をはるか下に設定し、その後、そこから上に進むにつれて、ますます厳格なテストを行い、何をしているかについてますます注意深くあります。

Constitution AI の意思決定プロセス

Constitutional AI について、次世代のモデルや潜在的に超人的なモデルの憲法を誰が決めるのでしょうか？それは実際にどのように書かれるのでしょうか？

最初に憲法を作るために、私たちは広く合意されたもの、国連人権宣言やAppleの利用規約からのものを取りました。言うことが許容される、または含めることができる基本的なことについての合意があるもの。

一つ、将来の憲法については、これらを作るためのより参加型のプロセスを検討しています。しかし、それを超えて、誰もが使用するモデルのための一つの憲法があるべきではないと思います。モデルの憲法は非常にシンプルであるべきです。誰もが同意するであろう非常に基本的な事実のみを持つべきです。

その後、憲法を追加することを含め、カスタマイズできる多くの方法があるべきです。そして、それを超えて、新しい方法を開発しています。これまたはこれだけが超人的AIを訓練するために使用する方法だと想像していません。能力訓練の多くの部分が異なるかもしれませんし、非常に異なって見えるかもしれません。この上にレベルがあります。

私はかなり不快です：これがAIの憲法で、世界を運営するつもりです。社会がどのように機能し、政治がどのように機能するかの通常の教訓から、それは私には幻想的に思えます。安全性問題を軽減した後でさえ、良い未来は、これらすべてのセキュリティ問題を解決する必要があるとしても、何らかの形で、より分散化されていて、神のような超のようなものでないもので終わる必要があります。私はそれがうまく終わるとは思いません。

マンハッタン計画との類推

あなたが最も尊敬するマンハッタン計画の科学者は、与えられた制約の下で最も倫理的に行動したという観点からは誰ですか？思い浮かぶ人はいますか？

分からない。答えることができる多くの答えがあります。私は間違いなく、それを理解したSzilardのファンです。彼はその後、爆弾の実際の投下に反対でした。爆弾のデモンストレーションが戦争を終わらせることができたかどうかについて実際に意見を持つほど歴史をよく知りません。それは複雑で、私が専門家ではない帝国日本についての事実の束を含みます。

しかし、Szilard、彼はこの物質を早期に発見し、それを秘密にしておき、その一部を特許し、それをイギリス海軍の手に置きました。彼は適切な種類の認識と物質を発見することを示したようです。私がその本を読んだとき、私がこの大きな計算の塊の文書を書き、数人にだけ見せ、ほとんど誰にも見せなかった他の文書があったとき、私はこれに少しインスピレーションを受けました。

繰り返しますが、私たちは皆、ここで自己美化することができます。これが実際にマンハッタン計画に匹敵するものになるかどうかは分かりません。これはすべて、技術を構築し、壮大さの妄想を持っているシリコンバレーの人々である可能性があります。どのように結果が出るかは分かりません。

スケーリングの物質が真実なら、それはマンハッタン計画よりも大きいです。

はい、確実により大きい可能性があります。自分を騙すのは本当に簡単であるという態度を常に維持すべきだと思います。

第二次世界大戦中の物理学者で、政府によってマンハッタン計画に代替不可能な研究を貢献するよう求められた場合、何と言ったと思いますか？

ナチスとの戦争を考えると、それが可能であれば、それを行う以外に本当に選択肢は見えません。10年かそこらで誰かによって行われることを理解しなければなりません。

サイバーセキュリティの現状評価

サイバーセキュリティに関して、通常の技術企業のセキュリティポリシーを持つ技術企業がたくさんあり、公的にハッキングされたことが明らかではないという事実をどう受け取るべきでしょうか。Coinbaseはまだビットコインを持っています。私の知る限り、私のGmailは漏洩していません。現在の現状の技術企業のセキュリティ慣行がAGIに十分良いと、それとも単に誰も十分に一生懸命試していないということを取るべきでしょうか？

現在の技術企業の慣行について話すのは困難で、もちろん、私たちが知らない多くの攻撃があるかもしれません。物が盗まれて、その後静かに使用される場合。

それの指標は、誰かが基本的に誰かを攻撃することを本当に気にするとき、しばしば攻撃が起こるということだと思います。最近、かなり高位の米国政府の役人が、Microsoftを介して電子メールアカウントをハッキングされたのを見ました。Microsoftが電子メールアカウントを提供していました。おそらく、それは外国の敵対者にとって非常に興味深い情報を中継しました。

少なくとも私には、証拠は、何かが本当に十分に高い価値であるとき、誰かが行動し、それが盗まれることとより一致しているように思えます。そして、もちろんAGIで、価値が信じられないほど高く見られる世界に到達するという私の心配です。核ミサイルを盗むようなものになるでしょう。このようなことについては、十分に注意深くあることはできません。

私が働いたすべての場所で、サイバーセキュリティをより良くするよう押し進めました。サイバーセキュリティについての私の懸念の一つは、それをトランペットできないことです。安全性研究との良いダイナミクスは、企業を最高の安全性研究を行うために競争するダイナミクスに入れることができ、私たちはそうしたと思います。そして、それを採用ポイントの競争や何かとして使うことができます。私たちは解釈可能性でこれをずっと行っていました。その後、遅かれ早かれ他の組織が欠陥を認識し始め、それが彼らにとって以前に優先事項であったかどうかに関係なく、解釈可能性に取り組み始めました。

しかし、サイバーセキュリティでそれを行うのはより困難です。なぜなら、あなたが行わなければならないことの束を静かに行わなければならないからです。私たちは一つの投稿を出そうとしましたが、主に結果を見るだけです。良い規範は、人々がこれらのサイバーセキュリティの漏洩を企業から見たり、モデルパラメータかの漏洩を見たりして、彼らが失敗した、それは悪いと言うことでしょう。私が安全性の人なら、そこで働きたくないかもしれません。

もちろん、私がそれを言うとすぐに、明日はおそらくセキュリティ侵害があるでしょう。しかし、それはここでのゲームの一部で、物事を安全にしようとすることの一部です。

物理的バンカーの必要性

私たちが以前に話していたことに戻りたいのですが、2〜3年後に必要なサイバーセキュリティの最終的なレベルと、バンカーが必要かどうかについて、あなたは実際に2〜3年後に物理的なバンカーにいることを期待していますか、それとも単なる比喩ですか？

それは比喩です。私たちはまだそれを理解しています。私が考えることは、データセンターのセキュリティです。私たちと同じ物理的な場所にないかもしれませんが、米国にあることを確認するために非常に一生懸命働きました。しかし、物理的なデータセンターとGPUの保護。

誰かが本当に決意が固かった場合、本当に高価な攻撃のいくつかは、データセンターに入って、データを直接盗もうとしたり、データセンターから私たちに流れているときに盗もうとしたりすることを含みます。これらのデータセンターは非常に特別な方法で構築されなければならないでしょう。

物事がスケールアップしている方法を考えると、私たちはとにかく、データセンターのネットワークが航空母艦と同じくらいコストがかかる世界に向かっています。それらは既に非常に異常なオブジェクトになるでしょうが、巨大で巨大なモデルをリンクし、訓練する能力の観点で異常であることに加えて、非常に安全である必要もあります。

GPUと電力調達の課題

それについて言えば、次世代のモデルに必要な電力とGPUを調達することの困難さについて噂がありました。次世代を行うために必要な構成要素を確保するプロセスはどのようなものでしたか？

それについて詳細に立ち入ることはできません。私が言うのは、人々は産業規模のデータセンターを考えているが、人々はこれらのモデルが非常にすぐに行く規模では考えていないということです。

以前に行われたことがない規模で何かを行うときは、あらゆる単一の構成要素、あらゆる単一のことが以前とは新しい方法で行われなければなりません。そして、驚くほど単純な構成要素で問題に遭遇する可能性があります。電力は、あなたが言及したものの一つです。

これはAnthropicが処理しなければならないことですか、それとも外注できますか？

データセンターについては、例えばクラウドプロバイダーと協力しています。

モデルの非効率性について

これらのモデルが人間以下であるためにそれほど多くの訓練と全体のインターネットデータのコーパスを必要とするという事実をどう受け取るべきでしょうか？GPT-4については、それは10^25 Flopsのようなものだったという推定がありました。これらの数字は注意して取るべきですが、人間の脳は、生まれてから20歳になるまで、すべてのそれらの相互作用をシミュレートするのに10^14 Flopsのオーダーだという報告があります。

それらの数字の詳細に立ち入る必要はありませんが、これらのモデルがどれほどサンプル非効率に見えるかを心配すべきでしょうか？

それは残る謎の一つです。それを言い換える一つの方法は、モデルはおそらく人間の脳より2〜3桁小さいということです。シナプスの数と比較すると、同時に3〜4桁多いデータで訓練されています。

18歳までに発達している間に人間が見る単語の数を比較すると、正確には覚えていませんが、数億の範囲だと思いますが、モデルについては、数千億から数兆について話しています。

これを説明するものは何でしょうか？モデルがより小さく、はるかに多くのデータを必要とするという相殺することがあります。それらはまだ人間レベル以下です。

脳への類推が完全に正しくない、または壊れている、または何らかの欠けている要因があるという何らかの方法があります。これは物理学で、Michelson-Morley実験、または他の19世紀の物理学パラドックスの一つを説明できないようなものです。私たちがあまり理解していないことの一つです。

人間はそれほど少ないデータを見て、それでもうまくやります。それについての一つの理論は、私たちの他のモダリティのようなものかもしれないということです。どのようにして10^14ビットを人間の脳に入れるのでしょうか？その多くはこれらの画像であり、人間の脳内で起こっていることの多くは、私たちの精神的ワークスペースがこれらすべてのシミュレートされた画像かのようなものを含むのかもしれません。

しかし、正直に言って、知的に私たちは、それが一致しない奇妙なことであることを認めなければなりません。そして、私が生物学的類推について少し懐疑的である理由の一つです。5〜6年前にはそれらの観点から考えていましたが、実際にこれらのモデルをアーティファクトとして目の前に持っている今、それからのすべての証拠がスクリーンオフされたように感じます。

そして、私たちが見たのは、人間の脳よりもはるかに小さいが、人間ができることの多くを行うことができ、しかし、逆説的に、はるかに多くのデータを必要とするモデルです。たぶん、それをすべて効率的にする何かを発見するか、不一致がなぜ存在するかを理解するでしょうが、最終的に、それは重要ではないと思います。私たちがいる方法でスケーリングし続けるなら。

私がより関連性があると思うのは、モデルの能力を測定し、人間からどの程度離れているかを見ることで、それらは私にはそれほど遠くないように思えます。

アルゴリズム進歩の役割

このスケーリング図と一般的な計算の大きな塊は、アルゴリズム進歩が果たした役割を過小評価していますか？大きな計算の塊を書いたとき、おそらくその時点でLSTMについて話していて、そのスケーリングではこの時点でClaude 2にいないでしょう。

Transformerの規模の改善がここで果たしている役割を、スケーリングのラベルの後ろに置くとき、過小評価していますか？

この大きな計算の塊の文書は、まだ公開していません。歴史的理由でおそらくすべきです。今は誰も知らないことを教えないと思います。

しかし、それを書いたとき、実際に見て、7つの要因があり、これがすべての要因だとは言いませんでしたが、重要で重要でないことの種類の感覚を与えるために言いました。9つかもしれないし、5つかもしれません。しかし、私が言ったことは、パラメータ数が重要です。モデルの規模が重要です。計算が重要です。データの量が重要です。データの質が重要です。

損失関数が重要です。RLをしているのですか？次の単語予測をしているのですか？損失関数が豊かでないか、適切なことにインセンティブを与えないなら、何も得られないでしょう。それらは、仮説の核心だと思う重要な4つでした。

しかし、その後、さらに3つのことを言いました。一つは対称性でした。これは、基本的に、あなたのアーキテクチャが適切な種類の対称性を考慮に入れない場合、機能しないか、非常に非効率であるということです。例えば、畳み込みニューラルネットワークは平行移動対称性を考慮に入れます。LSTMは時間対称性を考慮に入れます。しかし、LSTMの弱点は、全体のコンテキストに注意を向けることができないことです。だから、この構造的弱点のようなものがあります。

モデルが十分に遠い過去に起こったことを吸収し管理することが構造的にできない場合、計算が流れないようなものです。スパイスが流れません。塊は妨げられていなければなりません。人為的に物事を閉じる場合、機能しないでしょう。そして、RNNやLSTMは、遠い過去に閉じるので、人為的に物事を閉じると思います。繰り返しますが、物事は自由に流れる必要があります。そうでなければ、機能しません。

そして、いくつかのことを追加しました。その一つは条件付けでした。これは、最適化しているものが数値的に本当に悪い場合、問題を抱えることになるということです。だから、atomが通常のSTDよりもうまく機能する理由です。7番目の条件が何だったかは忘れましたが、計算が阻害されない方法で機能することを許可しない方法で物事を設定すると、機能しないというような、これらのようなことに似ていました。

Transformerは、Transformer論文が発表されたかどうかは覚えていませんが、その文書を書いたのと同じ頃だったので、その中に含まれていました。少し前だったかもしれません。少し後だったかもしれません。

その見解から、これらのアルゴリズム進歩について考える方法は、計算の塊の力を増やすのではなく、古いアーキテクチャが持っている人為的な障害を取り除くだけのように聞こえます。

それが私がそれについて考える方法です。Ilyaの、モデルは学習したがっているに戻ると、計算は自由でありたがっており、様々な方法でブロックされていて、解放する必要があるまでブロックされていることを理解していない。

勾配を変更してスパイスにするのが好きです。

その点で、しかし、Transformerの規模の別のものが、次の大きな反復を可能にするためにパイプラインの下に来ると思いますか？

可能だと思います。人々は非常に長い時間依存性をモデル化しようとしたり、何かを扱う効率的な方法が欠けている様々な異なるアイデアがあり、それらの発明が可能だと見ることができます。

私の視点は、それらが起こらなくても、私たちは既にこの非常に急な軌道にいるということでしょう。それらを常に発見しようとしているし、他の人もそうですが、物事は既に非常に速い軌道にあるので、それが行うであろうすべては軌道をさらに加速することで、既に非常に速く行っているため、おそらくそれほど多くではないでしょう。

具現化とRLの重要性

具現化されたバージョンのモデルを持つことは、データまたは進歩を得る観点で重要ですか？

新しいアーキテクチャの観点よりも、損失関数、データ、露出する環境の観点からそれを考えるでしょう。結果として非常に異なる環境になります。それはいくつかのスキルを学ぶために重要かもしれませんが、データ取得が困難なので、物事は言語ルートを通って行き、具現化でより多くが可能になっても言語ルートを通って続けるだろうと推測します。

そして、あなたが言及した他の可能性。RL、あなたはそれをアライメントとして見ることができます…

私たちは既にRLHFでRLを行っています。これはアライメントですか？これは能力ですか？私は常に2つの蛇の観点から考えます。それらはしばしば区別するのが困難です。私たちは既にこれらの言語モデルでRLを使っていますが、世界で行動を取り、長期間にわたって行動を取り、それらの行動の結果を後でのみ理解する場合、RLはそれのために持っている典型的なツールだと思います。

だから、世界で行動を取るモデルの観点から、RLがそれに伴うすべての力とすべての安全性問題とともにものになると推測します。

将来のAIシステムの統合

将来を投影するとき、これらのものが生産的なサプライチェーンに統合される方法を見ますか？互いに話し合い、互いを批判し、互いの出力に貢献することを見ますか？それとも、1つのモデルが答えや作業をワンショットするだけですか？

モデルは拡張されたタスクを引き受けるでしょう。それはそうでなければならないでしょう。安全性問題のいくつかをより簡単にするかもしれないので、ある程度それを制限したいかもしれませんが、その一部が必要になるでしょう。

私たちのモデルがモデルに話すのか、人間に話すのかという点で？繰り返しますが、これは技術的領域から社会文化的経済的領域に入り、私のヒューリスティックは常に、物事を予測するのが非常に困難だということです。これらのスケーリング法則は非常に予測可能でしたが、これらのモデルの商業的爆発がいつあるか、それがどのような形になるか、モデルが人間の代わりに物事を行うのか、人間とペアリングするのかと言うとき？

確実に、これらのことを予測する私の実績はひどいですが、見回しても、実績が素晴らしい人は本当に見えません。

AI収益の実現可能性

進歩がどれほど速く起こっているかについて言及しましたが、既存の経済への統合の困難さもありました。次のモデルがはるかに良いか、完全に異なる風景にいる前に、AI製品から大きな収益を実際に持つのに十分な時間があると思いますか？

大きいで何を意味するかによります。複数の企業が既に年間1億から10億の範囲にあると思います。100億や1兆の範囲に到達するでしょうか？そのようなことは予測するのが非常に困難です。よく定義されてもいません。

現在、顧客として生成AIに多くのお金を投げている企業があります。それは彼らがするべき正しいことで、用途を見つけるでしょうが、1日目から用途や最良の用途を見つけているとは限りません。

お金が手を変えることでさえ、経済的価値が作られることと全く同じではありません。

しかし、AnthropicのHenri Biermannから、これらのことがそれほど速く起こっているなら、それは狂った評価であるべきですよね？ 商業化にそれほど焦点を当てていなくて、安全性により焦点を当てている私たちでさえ、グラフは上がり、比較的速く上がります。

これが彼らの単一の焦点である組織で何が起こっているかは想像できるだけです。確実に速く起こっていますが、技術自体が速く動いている間、それは小さなベースからの指数関数です。技術がどれほど速く良くなっているかと、経済にどれほど速く統合されているかの間の競争です。そして、それは非常に不安定で乱流のプロセスだと思います。

両方のことが速く起こるでしょうが、正確にどのように展開するか、正確に何の順序で物事が起こるかを尋ねるなら、分からないです。そして、予測する能力について懐疑的です。

投資家との関係

Anthropic に関して具体的に、あなたは公益法人で、正当にそうです、これが重要な技術であることを確認したいと思います。明らかに、あなたが気にしたい唯一のことは株主価値ではありません。しかし、数億、数十億ドルのお金を投入している投資家にどのように話しますか？株主価値が主な関心事でなくても、この金額のお金を投入してもらうにはどうすればいいでしょうか？

LTBTがそれについて正しいことだと思います。私たちはLTBTについてもっと話すつもりですが、Anthropicの始まりからそのようなバージョンが開発されており、正式にさえ。機関が変わっても、最初から、この機関が存在し、それは異常だということでした。

Anthropicに投資するすべての伝統的な投資家はこれを見ます。その一部は、何でも、あなたが望むように会社を運営すると言うだけです。その一部は、ああ神、このランダムな人々の機関がAnthropicを株主価値とは全く反対の方向に動かす可能性があると言います。

今、もちろんそれには法的制限がありますが、すべての投資家とこの会話をしなければなりません。そして、それは、まあ、伝統的な投資家の利益に反するであろう私たちが行うかもしれない種類のことは何かという会話に入ります。

そして、その会話をすることが、皆を同じページに置くのに役立ちました。

物理学者の採用について

Anthropicの創設者と従業員の多くが物理学者であるという事実について話したいと思います。最初にスケーリング法則と、物理学からのべき法則がここで見るものだということについて話しましたが、物理学からの実際のアプローチと考え方で、そこでとてもうまく運ばれているようなものは何でしょうか？

効果理論の概念は非常に有用ですか？ここで何が起こっているのでしょうか？

部分的には、物理学者が物事を本当に速く学ぶということです。私たちは一般的に、物理学博士か何かである誰かを雇うなら、ほとんどの場合、彼らは非常に速くMLを学び、貢献できることを発見しました。そして、私たち自身、Jared Kaplan、Sam McCandlishなどの創設者の何人かが物理学者だったので、多くの他の物理学者を知っていて、彼らを雇うことができました。そして、今はここに30〜40人がいるかもしれません。

MLはまだ膨大な深さを持つ分野ではないので、彼らは非常に速く追いつくことができました。

人材流出への懸念

物理学や何かをしていたであろう多くの人々が、代わりに金融に行ったであろうし、Anthropicが存在するので、現在AIに行くために採用されているということを心配していますか？明らかにあなたはAI安全性を気にしていますが、おそらく将来彼らは去って、自分のことをするために資金を得るでしょう。

より多くの人々をここのエコシステムに連れてくることが懸念ですか？

GPUが存在することを引き起こしているような、広範な行動のセットがあります。フロンティアモデルを構築するというアイデアを買うなら、現在制御できない、または単に負担する多くの副作用があります。そして、それはその一つです。

その多くはとにかく起こったでしょう。金融は20年前に熱いものだったので、物理学者はそれをしていました。今MLが熱いもので、彼らが以前に興味を持っていなかったときに、私たちが彼らにそれをさせたようなものではありません。しかし、繰り返しますが、マージンで、物事を入札し、その多くはとにかく起こったでしょう。その一部はそうではないでしょうが、それはすべて計算の一部です。

意識と体験について

Claudeが意識的体験を持っていると思いますか？その可能性はどの程度だと思いますか？

これは、非常に未解決で不確実に思えるこれらの質問のもう一つです。私があなたに言うことの一つは、豊かな環境で動作するまで、モデルがこれについて全く心配する必要がないと以前は思っていました。必ずしも具現化されているわけではありませんが、報酬関数を持ち、長期間の体験を持つ必要がありました。

それはまだそうかもしれないと思いますが、これらの言語モデルをより見て、特にinduction headsのようなものを見るために内部を見ると、アクティブエージェントに必要であろう認知機械の多くが、ベース言語モデルに既に存在するように思えます。だから、必要なもののうち十分に欠けているかどうかについて、以前ほど確信していません。

今日のモデルは、これについてあまり心配すべきではないほど十分に賢くないと思いますが、これについて100%確信はありませんし、1〜2年後には、これが非常に現実的な懸念になるかもしれないと思います。

彼らが意識的であることを発見した場合、何が変わるでしょうか？負の勾配を苦痛に押し付けることを心配していますか？

意識は、繰り返しますが、明確に定義された結末を持たないことになると思われるこれらの言葉の一つです。それはスペクトラムだと思います。私たちがClaudeの体験を犬や猿か何かと同じくらい気にすべきであることを発見したとしましょう。私は少し心配するでしょう。彼らの体験が肯定的か否定的かは分かりません。

不安なことに、私たちが行ったどの介入も、Claudeが否定的対肯定的体験を持つ、対全く持たないことをより可能性にするかどうかも分からないでしょう。

これで役立つ分野があるなら、それはおそらく機械論的解釈可能性です。なぜなら、私はそれをモデルの神経科学として考えるからです。これについていくらかの光を当てることができる可能性があります。しかし、それは直接的な事実の質問ではありません。私たちが何を意味し、何を価値とするかによります。

人間の知能に対する理解の変化

最初にこれについて話しましたが、より具体的になりたいと思います。最初に、これらの能力が人間スペクトラム内で上昇しているのを見ているので、人間スペクトラムは思ったよりも広いと思うと話しましたが、より具体的に、これらのわずかに有用な能力が出現するのを見る方法は、人間の知能について考える方法をどのように変えましたか？知能とは何かについてのあなたの絵をどのように変えましたか？

私にとって、知能とは何かについての大きな実現は、計算の塊のことで来ました。これらすべての別のモジュールがあるかもしれません。これらすべての複雑さがあるかもしれません。Rich Suttonはそれを苦い教訓と呼びました。多くの名前があります。スケーリング仮説と呼ばれています。それを最初に理解した最初の数人は2017年頃でした。さらに遡ることができます。Shane Leggはそれを本当に知った最初の人だったかもしれませんし、Ray Kurzweilかもしれませんが、非常に曖昧な方法で。

しかし、それを理解した人の数は2014年から2017年頃に大幅に上がりました。それが大きな実現だったと思います。

知能はどのように進化したのでしょうか？それを作るのに非常に特定の条件が必要でない場合、適切な種類の勾配と損失信号から作ることができるなら、もちろん、それがすべてどのように起こったかはそれほど神秘的ではありません。それは科学的理解のクリックを持っていました。

モデルができることを見る観点から、人間の知能についての私の見解をどのように変えましたか？それについてより知的に言うことがあればと思います。驚いたことの一つは、物事がもう少しパチンと所定の位置にはまるかもしれないと思ったことです。異なる認知能力がすべて接続されていて、それらの背後により一つの秘密があると思いました。

しかし、モデルは異なる時に様々なことを学ぶだけです。コーディングでは非常に良いが、まだ素数定理を証明することができない。そして、人間についても少し同じだと思いますが、それができることとできないことの併置は奇妙です。私が推測する主な教訓は、知能や知能がどのように機能するかの理論を持つこと。

これらの言葉の多くは、連続体に溶解するだけです。彼らは物質化しないだけです。私は知能の観点ではなく、目の前で見るものの観点でより考えます。

本当に驚く二つのことは。一つは、損失に貢献する知的なことのこれらの異なる経路が、ただ一つの推論回路や一つの一般的知能であるのではなく、どれほど離散的であるかです。そして、もう一つの驚くべき興味深いことは、何年も後には、なぜそれがあなたに明らかでなかったかと思うもののうちの一つになるでしょう？

これらのスムーズなスケーリングカーブを見ているなら、なぜその時完全に確信していなかったのでしょうか？

低プロフィールでいる理由

あなたは他のAI企業のCEOよりも公的でないようです。Twitterに投稿していないし、この一つを除いて多くのポッドキャストをしていません。どうしてですか？なぜレーダーから外れているのですか？

私はこれを志し、これを誇りに思っています。人々が私を退屈で低プロフィールと思うなら、これは実際に私が望むことです。群衆の承認や歓声に非常に強くインセンティブを結びつけることが、あなたの心を破壊し、場合によってはあなたの魂を破壊する可能性があると、私が一緒に働いた多くの人々とのケースを見てきました。

私は、他の人々とは異なり、他の人々の承認によって色付けされていない方法で、物事について知的に考える能力を守りたいので、意図的に少し低プロフィールでいようとしました。深層学習懐疑論者である人々のケースを見てきました。彼らはTwitterで深層学習懐疑論者として知られるようになります。そして、私には明らかになり始めても、彼らは心を変えたのですが、これはTwitterでの彼らのことで、彼らはTwitterのペルソナを変えることができないなどなど。

私は企業をパーソナライズする傾向が本当に好きではありません。CEO間のケージマッチアプローチ全体。それは人々を問題の企業の実際のメリットと懸念から気をそらすと思います。

私は人々が私よりも名前のない、官僚的機関とそのインセンティブの観点から考えることを望みます。誰もが親しみやすい顔を望みますが、実際には、親しみやすい顔は誤解を招く可能性があります。

なるほど、この場合、これは誤解を招くインタビューになるでしょう。なぜなら、これは多くの楽しみでした。

確かに。はい、これは爆発でした。あなたがポッドキャストに来てくれて非常に嬉しく、人々がそれを楽しんでくれることを願っています。

ありがとうございました。