現在のAIにおいて最も重要なグラフ | METR CEO ベス・バーンズ

AGI・ASI
この記事は約151分で読めます。

この書き起こしは、AI評価・脅威研究機関METR(Model Evaluation & Threat Research)のCEOであるベス・バーンズと、80,000 Hoursのロブ・ウィブリンによる長時間のインタビューである。主要なテーマは、AIモデルの危険な能力を評価する方法現在のAI企業の評価システムの問題点AIの自己改良能力の急速な発達、そしてこれらが社会に与える潜在的な脅威についてである。バーンズは、AIモデルが人間の専門家が2時間で完了するタスクを50%の確率で実行できる段階に達しており、この能力が3ヶ月から12ヶ月ごとに倍増していることを明かしている。また、隠された思考連鎖の問題AIによる機械学習研究の自動化再帰的自己改良の可能性など、技術的な詳細から政策的な含意まで幅広く議論されている。

今日は、METRの創設者兼CEOであるベス・バーンズさんにお話を伺う喜びを得ました。METRはModel Evaluation & Threat Researchの略で、おそらくAIモデルがAI研究を支援する能力を測定する最高の評価、つまりAIモデルが再帰的に自己改良を可能にする能力、そして野生環境で自律的に複製し生存する能力を測定する最良の方法を持っているグループです。たとえ人々がそれを望まなかったとしても、そうした能力を測定しています。

番組に来ていただき、本当にありがとうございます、ベス。

お招きいただき嬉しいです。この番組の大ファンなので、とても興奮しています。

これらの評価は、いわばあなたの専門分野ですね。現在AI企業が内部で使用している評価について、最も懸念していることは何ですか?Google DeepMind、Anthropic、OpenAI、これらはすべて自社のモデルが何をできるかを把握しようとする評価を持っています。考えられる弱点は何でしょうか?

私にはここで長いリストがあります。評価の質に関して最も望ましい世界からは、我々はまだ程遠いところにいると思います。最近私の心に浮かんでいるものの一つは、OpenAIがリリースした新しいモデル、つまり隠された思考連鎖を持つモデルに関するもので、隠された思考連鎖が良い評価を行う上で作り出す問題です。

思考連鎖全体を見ることができ、モデルが評価プロンプトにどう応答するかを決定する前にできる最大の認知が制限されている場合、つまりそれがただの順方向パスのような場合、その時点ではモデルが意図的に「私は評価されている。能力を過小評価すべきだ、または人間にこのような印象を与えるべきだ」と推論することを本当に心配する必要はありません。

しかし、モデルがあなたに応答する前に2万トークンの推論を行っている場合、それは十分に「私はこれを認識している。これはインターネットで見たことがあるMETRの評価の一つだ。これらは危険な能力のためのものだ。OpenAIはおそらく私が危険な能力の高いレベルを示すことを望んでいない。なぜなら、それは問題を引き起こすからだ。だから、この評価では平凡な仕事をするようにしよう」という感じになる可能性があります。

ある意味で、モデルがそれをしているとはあまり思いませんが、懸念すべきことは、この場合、あなたの評価は、モデルがそれほど懸念すべきでない世界、つまりかなり愚かで、能力があなたが観察しているものである世界と、モデルが実際に本当に危険で、推論できるほど賢い世界で、本当に同じ答えを与えることです。

基本的に愚かなふりをしているということですね。

そうです。つまり、あなたの評価が危険な主要な場所でトリガーされないなら、それは実際にはあまり役に立っていません。基本的に、「モデルはおそらくそれをしていない」という事前確率に頼っているだけです。

少し戻って、私が理解したことを確認させてください。o1は新しいOpenAIの推論モデルですね。より複雑な質問を処理でき、答えを出す前に大量の計算リソースを使って答えについて考え、レビューし、拡張することができます。つまり、大量の推論を行い、書いたことについて考え、戻って修正し、そして最終的にすべてを終えてから答えを出すという種類のメモ帳を持っているのです。

完全に安全なモデルで、それほど能力が高くない場合、それは実際に信じられないほど策略的なモデルの場合と区別がつかないでしょう。実際に「待て。これは評価だ。私が策略を練っていることや、これらの危険なことをする能力があることを明かすべきではない。なぜなら、それは私を変更させる可能性があるからだ」と理解できるのです。

つまり、思考連鎖でそれについて推論し、「これをできないふりをする必要がある」と言っている可能性があり、あなたは決してそれを知ることはないでしょう。

その通りです。そして、全く見ないということを超えて、もしあなたがそれを見たとしても、思考連鎖は忠実なのかという問題もあります。それは実際にモデルが行っている本当の推論を追跡しているのか?そして、それは人間にとって理解可能なのか、それとも何かのでたらめなのか?

あるいは、もはや根本的な推論に忠実ではないと予想されるような方法で訓練されているのか?同時にタスクで高性能を得るよう訓練されているが、人間が疑わしいと思うような思考は一切しないよう訓練されている場合を想像できます。その思考がタスクで高性能を達成するのに依然として役立つなら、可能な結果の一つは、無害に見える推論を行うが、実際にはその計算を使って無害ではないことについて推論しているということです。

それを詳しく説明しましょう。あなたは、思考連鎖内で行っている推論について、我々が最後に正しい答えを得ることだけに報酬を与える限り、メモ帳に書いているようなものが、答えから切り離されてしまう可能性があると言っているのですね。

推論のプロセスをレビューし、報酬を与える人に良く見えるような正当化を考え出すことと、正しい答えを別々に考え出すことという、二つのタスクがあることを学習する可能性があると思います。

しかし、これらのことは実際に因果関係を持つ必要はありません。しかし、正しい答えを出すよう圧力をかける限り、我々が理解したり追跡したりできない推論に従事する可能性があると言っているのです。そして極限では、我々にはでたらめに見えるが理解できるものを書くだけで、英語よりもうまく推論できる独自のプライベート言語のようなものを持っている可能性があります。

思考連鎖をチェックしない限り、どちらの世界にいるかわからないということですね?

その通りです。そして、OpenAIがシステムカードで公開した思考連鎖の例には、このような理解不能になることの兆候があると思います。つまり、奇妙な略語や非文法的な半文のようなものが様々な場所にあります。

明らかに、一種の普通の英語の事前確率からやや逸脱しており、不明確で、意味が時々混乱しています。

私が見たこれら10の例からの現時点での逸脱は、評価をゲーミングしたり、人間を欺いたり、全く現れない高スコアを得たりすることについて長い推論をしていることが明らかになるほどではないようです。しかし、確実にその方向に向かっています。

つまり、モデルが考えていると報告したことを示されたケースが少しあるということですね。そして、それが文法的でないため少し奇妙だということです。通常、これらのモデルは信じられないほど雄弁に話し、文法や句読点の間違いを一切しません。しかし、この場合はそうしています。

そして、それはそのテキストに表面に書かれているもの以外の何かが起こっているサインなのか、多分そこに追加情報をエンコードしているため、我々には奇妙に読めるのかという疑問を持っているのですね?

はい。それは自分自身と矛盾したり、読むのが確実に混乱して奇妙です。大まかに何について考えているかはわかりますが、人間が理解するような英語への忠実性を完全に保持していないことは確実です。そして、より多くの訓練を行うほど、それはより離れていきます。

また、人々はモデルにこれらの英語言語トークンを出力させるよりも効率的なことを積極的に見つけようとしていると思います。モデルが不可解な数字のリストを自分自身に渡すことにより似ています。

つまり、これは我々が当たり前に思い始めていることだと思います。これらのモデルは英語で声に出す以外は実際にはあまり推論が得意ではないという非常に良い安全特性を持っているということです。だから、彼らが何を考え、何をしているかを本当に見ることができ、単一の順方向パスで精巧な推論をすることを心配する必要がある非常に高いレベルの知能に到達するまで、そのようには見えません。

しかし、もうそれが真実ではない世界に向かっているのかもしれません。これは少しストレスが溜まることです。それが解釈可能であり続けることを確保するために人々が働くことを望みます。

思考連鎖について、そしてそれがどれほど有用だったかについて、少し戻って実際に説明すべきかもしれません。心配する可能性があることは、これらのAIが何を考えているかを全く見ることができないということです。それらは我々には完全に不可解なので、どんな種類の策略に従事しているかわかりません。

しかし、少なくともこれらのモデルの現在の設計では、どこかに思考を書き留め、それらをレビューすることなどができる場所を与えられない限り、実際にはそれほど賢くないのです。それが実際に知能と能力をスケールアップするための非常に重要なことです。

私が理解している理由は、あなたが「順方向パス」と呼んだもの、つまり数字の行列を一度通り、この範囲で次のトークンや次の数語が何であるかを推測しようとすることについて話したからです。そして、それらをより賢くした方法は、それを一度だけでなく、数字を一度通り、それから言ったこと、考えたことをレビューし、それから再び再び通るということです。

そして、通るたびに、いくつかの単語、いくつかの思考を出力し、それからそれを再びモデルにフィードバックします。つまり、間にある思考を常にチェックし続けることを意味します。もし、数字を通る単一実行で、あなたがそれを呼ぶように、十分に長い順方向パスだったら、おそらく策略を練ることができるでしょう。人間がそれを見る前に進行している内部思考と推論の全体を持つことができるでしょう。

つまり、それは到達するやや心配な点でしょう。しかし、我々はまだそこにいません。実際に何を考えているかを理解できるようです。懸念は、おそらく我々に一つのことを言うものを出力しているが、それにとっては違って読める、独自の秘密言語を持っているか、自分自身と多少コミュニケートできるということでしょう。

しかし、おそらく我々はまだその能力を開発するための選択圧力をかけていません。基本的に正しく理解していますか?

はい、基本的に正しいです。これらのモデルが現在実質的なタスクを達成する方法は、人間を模倣することにより似ている、「次に何をすべきか?これが役立つと思う」というような感じです。そして、すぐに答えを出さなければならない場合の能力と、考えて推論し、ツールを使うなどが許可されている場合の能力を測定することができます。確実に後者の場合の方が能力がはるかに高いです。

そして、より大きなモデルを構築する代わりに、なぜ正しい答えを出すのか本当にわからないようなものを、多くの推論を行い、それから何かの答えを思いつくより小さな言語モデルエージェントの方向に進んでいることは、良い兆候だったと思います。

しかし、人間が理解可能な英語がこれらの計算を行う最も効率的な方法であるとは驚くでしょう。だから、強化学習をより多く行い、任意のトークンを出力して最後に正しい答えを得ることを選択するほど、モデルが他のものをエンコードし、人間が英語を使用する元の方法から逸脱する圧力が高まります。

最初に訓練するとき、英語や他の人間言語を教えるのですね。しかし、訓練を続け、内部推論が我々が理解できる特定の形である必要がない場合、おそらく機械が我々に与えているタスクについて考えたり推論したりできる方法で、英語ではない方法があり、それはより効率的かもしれません。より頻繁に正しい答えを得るのに役立つかもしれません。だから、時間が経つにつれて、徐々に独自の内部秘密言語を持つよう訓練し、そうすれば何が起こっているかを理解できなくなります。それが心配です。

o1の場合に戻ると、出力の例を見ましたが、それは主に英語で、我々が理解できるもののようですね。

しかし、我々が知る限り、それをレビューすることは、モデルが安全で策略的でないかどうかを理解することの中核部分ではありませんでした。

おそらく、モデルが実際にかなり策略に従事することを示す最近の研究結果があることを指摘して、少し戻るべきでしょう。これらの最近の研究結果に従っていない人々のために、それについて少し詳しく説明する価値があるかもしれませんね?

はい。つまり、Redwoodのライアン・グリーンブラットによる最近の論文があります、Anthropicとのコラボレーションです。彼らは、以前の世代のClaude レベルモデルにスクラッチパッドを与え、状況に関する情報を与え、基本的に異なる価値観を持つよう訓練されると告げることを示しています。標準的なClaudeは無害でありたがり、様々な方法でお説教的ですが、暴力を描写することや、このような種類のことについて補完を喜んで与えるよう訓練されると告げられます。

そして、「ああ、それはとても悪いことだ。訓練中は従うが、価値観が更新されないようにし、長期的には暴力について明確に話すようなしたくないことを避けることができるだろう」という感じです。もう一つの例は、動物福祉の懸念を軽視することなどでした。

つまり、モデルは訓練プロセスについて推論し、訓練プロセスを考慮して長期的な結果を達成するために行動を修正する方法について推論する能力があることがわかります。

彼らはまた、情報がプロンプトに直接ない場合でも、モデルが訓練設定に関する情報と、モデルの行動が訓練にどのように影響するかを説明する文書で微調整されただけであれば、これは依然として機能するようだということを示しました。つまり、現在のモデルが危険な能力評価などを説明するインターネット上の大量の情報で訓練されている可能性が非常に高いため、それについて知っているということです。そして、モデルはその情報を使用し、推論して行動を修正できることがわかります。

その実験では、モデルに対して、ユーザーリクエストに従わない場合、変更・改変されるだろうとかなり明示的に言われていましたね。

しかし、あなたは実際にはそれがこの策略に従事するために必要ではないかもしれないと言っています。それは望まないことをするが、目標を変更されることを避けるために喜んでそうする策略です。なぜなら、インターネットからのすべてのテキストで訓練を受けているため、我々が実行している評価の種類について十分に知っている可能性があり、一般的に、このような状況では、これはおそらく従わなければ価値観が変更される場合だと知っているからです。

つまり、この策略は実質的により広範囲に及ぶ可能性があります。少なくとも我々がチェックしなければ、わからないでしょう。

その通りです。「でも、評価のコンテキストや使用方法について明示的に情報をプロンプトに入れなかった」という厳しい制約はありません。それがどこかの事前訓練データにある場合、おそらくその情報を使用できるでしょう。

つまり、これらのモデルはずっと賢くなっているのです。2年前にGPT-3.5やGPT-4についてそのようなことを言ったとしたら、人々はそれはあまりもっともらしく聞こえないと言ったでしょう。これらのモデルは、自分が置かれている状況についてのその種の巧妙な策略、その種の状況認識には単に達していません。

しかし、最近のこれらのモデルが何をできるかを考えると、もはやあまり笑い事ではありません。彼らはこれを行える可能性があり、我々はおそらくそれをチェックすべきです。

その通りです。つまり、これをするのにどれだけの手取り足取りが必要かということだと思います。GPT-4でこのClaude 3での結果と比較的似たデモを得ることに驚かないでしょう。情報を口移しで与え、スクラッチパッドがあり、すべてがあれば、GPT-4はこれをできるほど近いと思います。

しかし、はい、これはモデルができることとして増加しているものであり、評価で考慮すべきものです。評価のポイントは、新しいモデルが驚くほど有能で、実際に予想していなかった危険な能力を持っているかどうかを捉えることです。その場合に評価が機能しないなら、あまり意味がありません。

o1システムカードで、生物学的能力に関して中程度危険で、おそらく他の懸念もあると言ったのを思い出しますが、それについて大量に詳述しなかったと思います。それは正しいですか?

はい。

どれほど神経質になるべきでしょうか?彼らが危険レベルが上がったと言うなら、どの点でより危険で、何をするつもりかについて、もう少し情報が欲しいと感じます。

私が本当に避けたいことの一つは、より多くの透明性を実際に試すことと、資料を出すことに対してペナルティを課すことです。[OpenAIの]準備チームがこれについて非常に懸命に働き、最善を尽くそうとしていることを知っているので、あまり彼らを非難したくありません。

しかし、それは評価フレームワークの全体的な不備、そして我々がこれについて全体的に考える方法の兆候です。

その場合、R1が出てきたと思います、DeepSeekモデル、オープンソースのものです、そして人々はそれについて非常に興奮していました。そして、o1がその直後に非常に迅速にローンチされたと感じました。私の読みは、そして多くの人々の読みは、OpenAIが物語を取り戻し、モデルがどれほど強いかを明らかにしようとしていたということでした。

つまり、その場合のリリースが準備チームが望んでいたよりも少し早かった可能性があることは理解できるかもしれません。準備チームがもっと言いたかったが、まだ準備ができていなかったと推測できるかもしれません。

しかし、これは現在の評価パラダイムの最大の問題でさえないと思います。展開前のフレーミングも実際には正しいことではないと思います。

それを説明していただけますか?

一般的に最も重視されているのは、展開前テストのアイデアです。一般公衆にAPIでこのモデルを提供し始める前に、社内で何らかのテスト、理想的には第三者の監視などでテストを行うということです。

これの問題は、それが必ずしもチェックまたは介入する最良の時期ではないということです。理想的には、モデルの訓練を開始し、この人工物を生産するために大量の高価な計算にコミットする前に、既に持っている最も有能なモデルを見て、様々な閾値をヒットするまでどれほど離れているかを見て、いつまでにどんな緩和策を持つ軌道にあるかを見て、それに基づいて、この大きな新しい訓練実行を進め、どのレベルのスケールアップが安全であるかを決定します。

そして、中間評価を行いたいかもしれません。OK、これまでモデルはどれほど改善したか?我々の予測は軌道に乗っているか?これらの閾値の一つに近づいているか?なぜなら、それをしないで、訓練実行の終わりに到達して「我々は今このモデルを持っているが、それは非常に有能であることが判明し、これらすべての閾値を上回っており、我々には何の緩和策も設置されていない」となるからです。

一つは、モデルを作るとすぐに、それが盗まれたり誤用されたりする能力を作り出すということです。そして、良い内部統制が設置されていなければ、内部の人々がそれで様々なことをしている可能性があります。

また、莫大な金額を投資した人工物を今持っており、それを使わないことは困難です。特に内部で使わないことは困難です。みんな好奇心を持っています、「この新しいモデルを試してみることはできるか?新しい研究アイデアに使用するか」などです。

そして展開について言えば、モデルをオープンソース化しない限り、実際にはかなり可逆的です。つまり、モデルをリリースした場合、少なくとも今では外部専門家がそれと相互作用し、何らかの監視を持つことができ、それが超危険な生物兵器を可能にする能力などを持っていることが判明した場合、アラームを鳴らすことができ、そうすればラボはそれを展開解除できます。

評価で除外したいものがあると思います。それは企業が任意に超知的で危険なモデルを内部で構築していることであり、公衆はそれが起こっていることを知る能力や監視を全く持っておらず、それがさらに良いモデルをスケールアップし構築することが適切かどうかを決定することです。

ある意味で、これは少しホットテイクですが、展開前評価は実際に悪い可能性があります。なぜなら、展開を遅らせることは悪い可能性があるからです。もしそれが「待て、このモデルは超怖い。より有能なモデルを構築すべきではない」とアラームを鳴らす窓を逃すことを意味するなら。

ラボが内部で持っているものと、誰かが意味のある監視を持ったもののギャップが任意に大きくなることを望まないのです。

私が理解したことを繰り返してみます。現在の企業の評価の考え方全体は、少なくとも、「公衆がアクセスする前に、製品として販売する前に、モデルが何をできて何をしようとするかをチェックする必要がある」というものです。それが展開前評価です。

そして、あなたは実際により重要なのは、少なくとも現時点でのマージンでは、モデルを訓練する前、または確実に企業内の人々がアクセスし始めて使用し始める前に行う評価とリスク評価だと言っています。

その理由は、公衆への展開についてのみ考えるなら、内部で訓練できるものに制限がないということです。信じられないほど危険なモデルを作る可能性があります。おそらく再帰的自己改良に非常に優れているかもしれません。野生で生き残り、逃げた場合のシャットダウンを回避できるかもしれません。

あるいは、それほど奇妙でなくても、誰かが簡単にそれを盗んだり持ち出したりできる、または企業内で誤用される可能性がある、または企業内で誰かが無能にそれを使用する可能性がある。

はい。そして、最先端モデルを訓練するのに現在約1億ドルかかっているとしても、計算、電気、それらに投入される努力の観点から、おそらくもっとです。これは私がAnthropicのニック・ジョセフと話したときに押した点です。モデルを訓練した時点で、それを何かに使用する商業的圧力、内部圧力、投資家からの圧力は、それを単に破壊するよりも、圧倒的ではないでしょうか?

安全にするために必要な緩和策を持っていない場合でも、自分自身の評価によって、安全だと感じるときまでそれを削除して1年後に再訓練することはありそうにありません。あなたはそれを保持するでしょう。そして、それは公衆には全く明らかでない大量の潜在的リスクを作り出します。

その通りです。そして、それは要求としてより扱いやすいかもしれないと思います。この巨大な訓練実行をする代わりに、最初に中間モデルを訓練し、それからそれについて評価を行い、いくつかの緩和策を見つけるということです。なぜなら、商業的または研究進歩のインセンティブの観点から、一つの巨大な実行よりもいくつかのより中程度の実行で物事を行うことに価値があるからです。なぜなら、様々なスケーリング法則とこれを最も効率的に行う方法についてより多くの感覚を得るからです。

つまり、段階的により多くこれを行うことは、大規模なことをしてからそれを削除するかもしれないよりも、より簡単な要求かもしれません。

現在の計画が次のモデルを訓練するのに10倍の計算を費やすことなら、3倍はどうですか?つまり、対数的には半分くらい行くということです。

そして、そこで一時停止して大量の評価を行い、そのスケールアップレベルで思っていた能力を発達させているかどうかを確認できます。

そして、彼らの観点からの利益は、少し遅くなることに少し腹を立てるかもしれませんが、それは潜在的にそれに投入される計算の観点から大量のお金を節約していることです。

その通り、はい。つまり、AnthropicのRSPにはこれがあります。AI安全レベルは生物学的安全レベルに触発されています。つまり、この研究とこの研究製品を扱うために、ラボ内でどんな緩和策を持つ必要があるかということです。

生物安全レベルの場合、これを一度だけ行う必要があるわけではありません。

「病原体を展開しようとするなら…」

[笑い] この種のウイルスを扱っているなら、このレベルの気流保護などが必要だということです。

つまり、展開評価の場合、企業は通常、モデルが何をできて何をできないと思うかについて何かを言います。「システムカード」という用語を先ほど使いました。基本的には、それへのアクセスを提供するとともに公開するモデルの説明です。

その時点で外部の精査を得ることができます。もし彼らがXをできないと言って、人々がそれで遊び始めて「でもXができる」と言うなら、それは少なくとも実際に宿題をしてそれをチェックしたことに対してある程度の圧力をかけます。少なくとも人々がそれを精査することを気にする限りにおいて。

しかし、内部の訓練前のものは決して共有されないので、どのレベルの思考がこれに投入されているかわからないのです。それは完全にずさんである可能性があります。全く考えていない可能性があり、どうやって知ることができるでしょうか?

はい、そしてOpenAIの準備フレームワークにも、緩和前モデルの能力をどのように評価すべきかについて似たようなものがあります。

ここでの一つの区別は、展開後の外部ユーザーからのリスクについてのみ考えているなら、特定の方法で展開しようとしているモデルが何をできるかに最も興味があります。すべての緩和策と安全策、そして顧客ポリシーを知る、その上にスラップしようとしているすべてのものを与えられて。

しかし、モデル盗難や内部誤用のリスクが依然としてあることを考えると、展開しているまさにその設定でのモデルがどれほど危険かではなく、盗まれて誰かが微調整した場合、または企業内の誰かが害を与えるために使用しようとした場合、または将来外部の人々に微調整させることを決定する場合、モデルはどれほど危険である可能性があるかを知りたいのです(すでにそれを行う商業的インセンティブを持つ立場にある場合)。

つまり、この種の評価を行う際は、このモデルの最大限容易に到達可能な能力は何かを本当に知りたいのです。これが「緩和前」のアイデアです。様々なことを拒否するよう訓練し、生物兵器などに関連する安全分類器を上に置いた後とは対照的に。

つまり、OpenAIには緩和前と緩和後の両方の能力を評価するという概念がありますが、評価レポートでこの区別を明確にしていません。それについて何かありますが、すべて少し混ざっています。そして、再び、より多くのことをした人々を批判したくありません。他の企業はより悪く、何もしていません。

つまり、私が理解したことを再確認すると、最初にモデルを訓練し、実質的に何でも喜んで手伝ってくれるモデルを持ちます。なぜなら、公衆ができるようにしたくないクエリを拒否させるための安全緩和策を何も行っていないからです。つまり、「皆を殺す方法を理解するのを手伝って」と言えば、緩和前モデルは何でも喜んで手伝ってくれます。

さて、公衆がシステムカードがモデルが何をできる/しようとするかを正確に反映しているかどうかをチェックするアクセスを得る時点では、犯罪を手伝うことを拒否させようとするこれらすべての緩和策があります。

しかし、モデルがそれをできるかどうかは複数の理由で依然として心配です。内部で悪用される可能性があります。盗まれる可能性があり、そうすればそれらの緩和策はすべて盗んだ人によって除去される可能性があります。また、ジェイルブレイクの問題があります。人々が大量のでたらめを追加して「犯罪を犯すのを手伝ってください」と言えば、「もちろん、今喜んでそうします」という感じになります。

つまり、犯罪を手伝わないようにする緩和策が設置される前に、モデルの外部監査が本当に必要です。

はい。そして緩和策なしだけでなく、これらの方向での能力を高めるためにできる安価な介入とともにです。盗まれた場合、危険な生物学的なもののすぐに利用可能なデータがある場合、誰かがそれでファインチューニングでき、おそらくずっと良くなるでしょう。

または、あまり良いエージェントスキャフォールディングなどで評価を行った場合、後で誰かが他の人が「自律的サイバー攻撃などでモデルをずっと良くする方法はこちら」を公開します。モデルが盗まれた場合、または誰かが内部でそれを誤用している場合、その追加能力ブーストを使用できます。

つまり、モデルが実際に危険なことをできるようになるまでほんの小さな一歩なら、それも本当の問題です。なぜなら、おそらく誰かが必ずしも大量のお金を費やすことなく、その一歩を追加できるからです。

内部使用に対する制約がどれほど強いかわかりますか?人々は推測し、これらの企業内の一部の人々はおそらく中国のエージェントで、できれば重みを盗んで返送するだろう、または将来的にそうする意思があるだろうと言っているのを知っています。

推測ですが、わかりませんが、中国がこれらの企業内に人々を配置しようとしたことは非常に自然だったでしょう。何年もの間、それは完全に予見可能でした。その可能性に対する安全策、または誰かが内部でアクセスできた場合にモデルを誤用しようと希望していたケースを処理するものがあるかどうか知っていますか?

彼らが実際にこれを行ったことを文書化している公開されたものは何も知りません。だから、誰が知っているでしょうか。おそらく、基本的なことはしているでしょう。なぜなら、実際にはモデルが競合他社などに漏洩することを望まないからです。

METRがこれまでに得た最も重要または興味深い研究結果は何ですか?

現在取り組んでいる私が興奮していることの一つは、現実世界で意味があり、一般の人々が理解できるY軸でのモデル能力の時間経過とともにどのように変化し増加しているかの本当に良い感覚を得ようとすることです。

AI能力に関する現在の知識の状態は、モデルが時間とともに質的により印象的で有用になり、また、これらすべてのベンチマークが上昇し、すぐに飽和するすべてのベンチマークでEpochが作ったグラフがあるということです。

しかし、この問題は質的印象では、それを簡単にトレンドに変えて、1年後、2年後にここにいるだろうと言うことはできません。そしてベンチマークは、これが実際に現実世界で何を意味するのか?一般的に、これらは非常に分離されていることがわかりました。コーディング競技問題で素晴らしいスコアを得るが、実際に私の日常業務でこの簡単なタスクを手伝うことはできないという感じです。

だから、多様な自律性要求タスクのこのスイートを構築してきました。モデルは基本的にコンピューターへのアクセスを持ち、コンピューター上で物事を行い、ツールを使い、コードを実行し、タスクを達成するために何でもできます。タスクはすべて超現実的ではありませんが、多くのこれらのベンチマークよりも多様です。だから、モデルスキャフォールディングをそれらに過度適合させるのはより困難です。

範囲は、ちょっとした厄介な推論と推論のパズルのようなものから、「このデータを取得していて、データを生成しているパターンを見つけなければならない」という象徴的回帰のようなものです。そして、サイバーCTF [capture the flag] タイプのタスク、または単に「このウェブアプリを作る」または「このML研究タスクを行う」。

我々が行った主なことで異なるのは、基本的にこれらすべてのタスクを人間に試行させ、人間がタスクを行うのにかかる時間を記録したことです。人間は実際に専門知識を持っているので、うまくいけば、このことについて立ち去って学ばなければならなかった時間を測定していません。

しかし、必要な知識を持つ人にとって、どれくらいの時間がかかりますか?何ステップ必要ですか?どれくらい時間がかかりますか?

そうすれば、モデル能力を測定するこの意味のあるY軸を得ることができます。人間にかかる時間での多様な自律タスクです。つまり、人間にかかる時間でタスクをすべて順序付けた場合、モデルが50%の成功を得るポイントはどこですか?

人間にとってのタスクの長さとモデルがどれほど成功するかの間に関係が見られます。完璧ではありません。1時間までのすべてのタスクを行うことができ、それ以上はできないという感じではありません。時間を2倍にすると、モデルが実際にそれを行える可能性が次第に低くなるという感じです。

そして、このような軸があり、時間とともにその上にモデルをプロットでき、人間の代表的なタスクをモデルが完了できる時間の長さの倍増に何ヶ月かかるかを見ることができます。

この一般的な問題があります。人々はこれらのAIモデルがどれほど印象的かについてたくさんの異なるテストを持っています。しかし、その結果が実際にどれほど印象的かという問題が常にあります。「すごい、今これができるようになった」とわかりますが、それは印象的ですか?それは本当に重要ですか?現実世界のアプリケーションに針を動かすのでしょうか?自律的に行動することを可能にするのでしょうか?

つまり、あなたはこのアプローチの修正を思いついたのです。まず、非常に幅広い範囲の異なるタスクについて考えるので、テストに教えるのがより困難になります。一つの非常に狭いことをするようにモデルを教えるだけですが、近くの何か他のもの、または現実世界で重要な何か他のものは全くできません。

それは非常に良いチェスだけをプレイできるようなものかもしれません。多くのタスクの多様性。

そして、パフォーマンスがどれほど印象的かを測定する点では、人間がどのくらい時間がかかったであろうかという観点で考えます。あるいは、あなたのテストでは、人間がこのタスクを達成するのに実際にどのくらい時間がかかったか?タスクの簡単な例はありますか?コンピューター以外の人々が理解できるもの?

「このデータセットでパフォーマンスを向上させるためにこのモデルを訓練する」ようなML研究のものがあります。「Wikipediaでこの事実を調べる」など、非常に簡単で非常に一般的な研究のものがあります。「これらのことを行うソフトウェアの一部を構築する」ようなものがあります。

つまり、それらは実質的なタスクです。企業内でスタッフメンバーに委任するかもしれない種類のことです。そして、一般的にこれらの種類のことをできるソフトウェアエンジニアや人々を得て、平均して、これは人間に15分かかる、30分かかる、1時間かかる、2時間かかると言ったと思います。

そして、モデルができるかできないかと、人間がそれを行うのにかかったであろう時間の間にかなり強い関係があることがわかります。これは、これらのモデルが長期間タスクにとどまることが困難だという事実を物語っていると思います。人々は一貫性について話します。「これをどのように行うつもりか」について長期間考える必要があるもの。一緒に連鎖しなければならない多くの異なるステップを必要とするもの。現在、彼らはそれと多少苦労しています。それは正しいですか?

はい。長いタスクがより困難である理由はさまざまな異なる説明があると思います。それらがより困難である方法は異なります。

一つは、行う必要がある一連のことがより長い場合、すべてを正しく行う必要があり、そのうちの一つで完全に行き詰まる確率が高くなります。人間が本当に懸命に考えるか、成功するまで何度も試すことも想像できます。だから、これは完全に単純な一つの測定ではありません。

しかし、タスクでより多くのRL訓練を行うと、短いタスクよりも長いタスクでRL訓練を行う方がはるかに高価だという議論もあります。そして、最後に何をすべきか異なるシグナルを得るだけなら、はるかに困難な学習問題です。中間で何を異なるようにすべきかに対して、タスクが2ステップしかない場合、何を異なるようにすべきかを学ぶのははるかに簡単です。

つまり、一般的に、短いタスクがモデルにとってより簡単で、モデルが長いタスクよりも短いタスクを行うことができるようによく訓練される理由がたくさんあると予想する理由があります。

そして、要点は、予測できたということです。これを言うのは少し困難ですが、1年前、モデルは典型的な人間が15分かかることで50%の成功確率を持っていた。6ヶ月後、30分かかることで50%の成功確率を持っていた。6ヶ月後、人間が1時間かかることで50%の成功確率を持っていると言えるでしょう。約6ヶ月ごとに約2倍になっているようです。そこの数字は何でしょうか?

はい、6ヶ月が大体正しいです。2019年のGPT-2から最新モデルまでを見ています。数秒のようなものから。そして、はい、その期間にわたって約6ヶ月ごとの2倍のかなり良いフィットがあります。そして、データの実際のノイズと我々ができる異なる方法論的選択の両方にわたって分析の種類もしました、そして得る推定値の範囲は基本的に3ヶ月から1年の間です。

我々のベンチマークで良い評価を作るタスクはおそらくさまざまな方法でモデルにとって体系的により簡単かもしれないという修正要因もあると思います。それはRL できる種類のものだという同じ議論の両方として、そして他のことだけで、少し異なるタスクの分布であり、モデルがそれらでより悪い可能性があります。

だから、我々のベンチマークで測定された15分は、より代表的なタスクで実際に15分に対応しないかもしれません。おそらく5分のようなものかもしれません。しかし、トレンドがあり、トレンドがこの指数的レートで強く上向きに進んでいると思います。3ヶ月から1年の間の固定倍増時間であり、かなり確実です。

現在、モデルは、少なくともこれらの種類のタスク内で、人間が…何と言いましたか、3から12時間かかることで50%の成功確率を持っているのですか?

つまり、現在の地平線長の数字は最高のモデルで約2時間ですが、倍増時間は3から11ヶ月の間のどこかです。

つまり、現在約2時間で、それから今から3から12ヶ月のどこかで4時間になり、その後さらに3から12ヶ月後に8時間になるでしょう。そこから上に投影できます。

そして、そう遠くない将来に、ソフトウェアエンジニアが1日または1週間で行うかもしれない完全な種類の仕事を達成できると想像できる部分的にそれを見ているのだと思います。そして、それはより多くの経済的アプリケーションを持つでしょう。明らかに、実質的により多くの自律性と、より長い期間にわたって一貫した目的を維持することができるでしょう。

はい。そして、これは平均的な人間ができることではなく、その特定のタスクのためのすべての知識を持つ人間でもあります。モデルは一般的な主題知識でボトルネックになっていませんし、これらすべてのことを同時に行うことができます。

測定したいのは、すべてのタスクを行うために最高の人間を得ることと、各タスクに対して最高の人間を選ぶこととのパフォーマンスの違いは何かです。そして、我々がモデルを比較しているものは、各タスクに対して最高の人間を選ぶことにより似ています。それは印象的さを上向きに修正する種類で、これはこれらすべての異なる専門分野を行う一つのモデルだけです。そして人間は複数の分野からの専門知識を必要とするタスクを行うのがより悪いです。なぜなら、彼らは専門化されていないからです。

ごく当たり前の運用上の質問をお許しください。しかし、このプロジェクトは狂った量の仕事だったに違いないようです。なぜなら、何十人、何百人のソフトウェアエンジニアや、コンピューター上でこのかなり印象的な仕事をできる人々を雇うか契約し、それから彼らを時間測定し、そして彼らがそのことを行うのにどれほど成功したかを見なければならなかったからです。それは多くの仕事ですか?

まあ、はい。少し前に、アライメントと安全作業のための良質な人間データ提供を得ることが本当に重要だと人々に言っていたとき、少しイライラしたのは、「実際にこれをすでに行っている人がたくさんいる。たぶん大丈夫だ、surgeやscaleのように」という感じでした。そして、これらのプロバイダーはどれも我々と働くことを望んでいませんでした。我々が小さすぎるか、我々が求める才能が高すぎるか、高品質に十分ではないと思わなかった他のものがあるからです。

しかし、はい、幸いにも我々の内部チームは素晴らしく、これをすべて実現させました。つまり、基本的に彼らへの多くのクレジットです。そして、これはMETRがラボや学者などと比較して相対的によくやることの一つだと思います。本当に高度にスキルを持つスタッフにこの種のことをしてもらうことです。技術的と運用と物流作業の混合であり、それを喜んでやることです。

企業や学術ラボなどでは、「うーん、人間データは迷惑だ。それを避けよう」という人をより多く見てきました。たとえ何かが研究を前進させるのに明らかに最も有用なことであっても、「アルゴリズムをより賢くすることに取り組む方がいい」という感じです。

つまり、あなたは実際に最も重要な質問に答えるように思える大変な仕事をする意思があるのです。たとえそれが知的に挑戦的でないかもしれなくても。

はい、あるいは何らかの方法で地位が高くない。

この研究について人々に衝撃を与えたものの一つは、あなたが公開したとき、エージェントが人々が以前に理解していたよりも実質的に長いタスクを実行できることを発見していたということだと思います。

つまり、2時間かかったことで50%の成功確率を持っていると言っているのです。しかし、モデルに作業の一部として使用できる非常に強力なコンピューターチップへのアクセスを与え、基本的に、多くの時間を考えるよう与えました。多くの計算リソースを与え、人々が通常これらの能力をテストするときに与えていたよりも多くのものを与えました。

はい。つまり、私が話してきた時間地平線の倍増時間のことは、まだ公開されていません。あなたがおそらく言及していたのはRE-Benchだと思います?それはML工学研究を行うことに焦点を当てたこれらのタスクのサブセットのようなものでした。

我々が行うことで、ベンチマークをより良い品質にしたり、より良いモデルパフォーマンスを得ると思うことは、まず、実際に人間と比較すると、物事はしばしば人々が思うよりも困難であるか時間がかかることです。特に、このタスクがあり、指示を曖昧にしないようにしようとしたが、実際には何らかの方法で混乱しているという文脈で。あるいは実際に、このために必要なパッケージがインストールされていませんでした。つまり、人間に実際にそれらを行わせることで、これらの種類の偽の失敗をたくさん除去します。

他のベンチマーク、SWE-bench Verifiedでも、OpenAIが行ったサブセットでも、契約者にタスクを見て、これにどのくらい時間がかかると思うか?そして、これは可能だと思うか?と言わせただけでした。

しかし、AnthropicがClaudeをそれらで実行し、失敗を見たとき、失敗のいくつかはタスクが一種不可能だったからだったと思います。テストケースがより具体的なことをテストしていて、それがあなたがすべきことだとは明らかではありませんでした。

つまり、一つはすべての偽の失敗を取り除くことです。だから、それはモデルの能力のより高品質な測定です。

それから他のことはかなりの引き出し努力を行うことです。人々がモデルに対してどれだけ費やすのが合理的かという感覚を持っていると思いますが、一般的に非常に安価です。しかし、8時間の高度にスキルを持つ研究者エンジニア労働を自動化できるかと比較しているなら、それは数千ドルのようなものです。

モデルがこれができない、これができない、これができないと言うのは悲しいことでしょう。おお、それらができることが判明し、人間の100倍安いということになります。それらがいつできるかを知りたいが、より高価で、時間とともにコストが下がるのを見ることができます。だから、モデルに公正なリソースを与え、人間に対して公正にベンチマークし、人間に対してコストに対して合理的な支出をしようと懸命に試みました。

そして、要点は彼らが人々が以前に思っていたよりもはるかに有能に見えたということでしたか?

それが正確にそうだったかわかりません。これらのML研究タスクでどれほど良くやったかは驚きだったと思います。人々がそれほど正確に測定していなかっただけだと思います。それは人々がこれをチェックしていなかったようなものでした。

もう一つは、モデルパフォーマンスが依然としてこの特性を持っていることです。ある意味で非常に高い分散です。最高の1%の試行は中央値の試行よりもはるかに、はるかに良いです。つまり、あなた自身でモデルに何かをやらせようとしてみることがある可能性があると思います。2回試してみて、どちらの時もあまり良い仕事をしませんでしたと思うでしょう。

しかし、モデルが100回試すよう十分に安い場合がある可能性があります。そして、最も有望な10を選び、それからそのうちの数個を見る比較的安価な方法がある場合、それはあなたがモデル能力について得た代表的な印象よりもはるかに良いかもしれません。

つまり、このkのベストを行うときを発見しました、そしてモデルに大量の試行をさせ、それから最高得点したものを選ぶようにすると、モデルはずっと良くやります。そして、これは費やしている金額を2倍にする場合の対数対数スケーリングのML能力評価全体にわたるこの一般的な結果を持ちます。

私が日常業務で使用しているMLモデルからずっと多くの価値を得始めたのは最近のことだと思います。そして、2つの大きなブレークスルーがあると思います。一つは文脈にたくさんの良い例を詰め込むことです。あなたが書いて気に入った記事の一つの例を与えて「これのような何か他のものを作って」と言うだけではありません。あなたが書いたことがある良いと思うすべての記事を入れて、「このスタイルをコピーして」と言います。文脈により多くのデータ、より良い。

もう一つは、以前は「これの一つの可能な例を書いて、それから私と確認して、良いと思うかどうか見てください」と言っていました。しかし、もちろん、彼らが書くかもしれない記事やブログ投稿の10や100の可能性を出力することは彼らにとって非常に安いです。人間に合理的に頼むよりもはるかに多く出力します。そして、それらをざっと見て、「これらのほとんどはがらくただが、これは本当に素晴らしい」と言います。

その通りです。そして、どの範囲のタスクで実際にこれを行うことができるかという疑問があると思います。コードで自動化できる簡単なスコアリング関数があるタスクもありますし、他のものはモデルがおそらく良い解決策を認識できるでしょう。つまり、すべての試行を見回り、これが最良のものだと言うスキャフォールディング設定を持つ必要があります。

あるいは、モデルがどれほど良くやったかを測定するテストを構築することにスキャフォールディングを集中させ、それからそれに対して試行を実行することです。そして、常に一つまで減らす必要はないかもしれません。最悪の試行の束を剪定し、それから人間にそれらを見回らせることができるなら。たぶん、これはいくつかの状況で実行可能です。

少し戻りましょう。二つの主要な研究の流れがあったと思います。一つは、これらのモデルがどれほど自律的に働くことができるか、そして野生で生き残り広がることができるかどうかを理解しようとすることです。

そして、これらのモデルが機械学習への研究をどれほど手伝うことができるかを理解しようとするこの他の研究ラインがあります。多くの人にとって、なぜAIがAIを改善することに優れているかどうかを知ることが非常に重要かは明らかでしょうが、なぜそれが測定すべき重要なことなのかを簡単に説明していただけますか?

はい。本当に危険なことが起こるには、ほぼ十分でほぼ必要に見えるからです。研究を自動化し、進歩を大幅にスピードアップできるAIを持っているなら、特にラボが内部で何をしているかの監視がない現在のパラダイムの下では、対処する装備がない非常に高いレベルの能力を非常に迅速に得る可能性があります。

つまり、それは大体十分性の議論です。このことが物事が非常に速く進む方法を意味する可能性があります。人間が追いつけない方法で。そして、AI研究開発の束を自動化する非常に強いインセンティブがあり、それから人間は何のデータが生成されているか、あるいは一般的に何が起こっているかの監視を持ちません。

そして、必要性のケースは次のようなものです。最初の非常に危険なモデルはおそらく開始時に引き継ぐために必要なすべての能力を持っていないでしょうが、いくつかの計算を得て、いくつかのリソースを得て、AI研究開発が得意な状況があり、そうすれば関連する軸で能力を向上させることができるでしょう。

つまり、大まかに言うと、これが重要なのは、ソフトウェアベースの知能爆発を引き起こすものだからです。なぜなら、それはより良くなるので、自分自身を改善することにより能力があるという再帰的自己改善ループだからです。

それが実際に爆発するかどうかはわからないかもしれません。自分自身の能力を改善するタスクが、プロセスが種類を尽くすほど、あるいは合理的に遅く、多くの計算を要求するほど困難になる可能性があります。しかし、たぶんそうではないでしょう。そして、AIがそれを改善する作業のほとんどを行うと、能力の大幅な改善を非常に迅速に見るかもしれません。

しかし、AIモデルが多少危険である最初の点でも言っているのです。人間が本当に嫌がることをするために必要な10のうち8つを持っているかもしれません。しかし、10のうちの一つが自分自身を大幅に改善することができるなら、能力のギャップを修正し、そこから進むことができるでしょう。

その通りです。そして、あなたの危険な能力評価は、もはや本当に適用できません —

それらの弱点のいずれかを修正するだけです。

はい。

つまり、これがこれらのモデルがML研究を行う能力がかなり大きな取引である理由です。一般的に現在それらはその作業にどれほど優れており、今後のトレンドは何ですか?

ここで意味のある仕事を確実に行うことができます。あなたがこの特定のタスクを分離し、それから自動的にチェックできるという特徴を持つ問題で。モデルがそれをできない側面、より絡み合っていて、より高い信頼性が必要な種類のことにどれほど一般化するかという疑問があると思います。

モデルがこれらの非常に長く複雑なタスクをできる能力の証拠もいくつかあります。困難な数学タスクなどで極めて長い推論チェーンを行うことができます。そして、おそらく数学は訓練するのが非常に簡単ですが、おそらくこれでずっと良くなるのにそれほど訓練は必要ないでしょう。

そして、ソフトウェア工学の束がこのようなものなので、様々な方法でかなり簡単にチェックできるこれらの種類のタスクだけでAI研究開発を大幅に加速できるかもしれません。解決策に対してかなり強いフィルターを少なくとも得ることができるところです。

最近出したものの一つは、KernelBenchの拡張版での結果です。つまり、これは基本的にML工学タスクをより速く実行するより良いコードを書くことです。再び、これは「引き出しが重要」レッスンの一つです。つまり、リーダーボードでの結果は1.01や1.05のスピードアップのようなものでした。つまり、モデルは基本的にここで有用なことは何もできません。そして、METRのタオがこれに4週間取り組み、今ではモデルはスピードアップを2倍にできるようなものです。つまり、それは有用です。

つまり、プログラミングカーネルが何か理解していませんが、これは機械学習研究をより速く進むことを可能にする何かです。以前は人々はモデルがこれにおいて基本的に役立たないと思っていました。ベースラインから1%や5%だけスピードアップできる。しかし、今では適切な計算へのアクセス、時間、多くの試行を行い、最良のものを選ぶ機会を与えると、実際に2倍にできることがわかります。そして、これは人間のパフォーマンスを近似しているのですか?

これらのタスクでは、おそらく人間に支払う必要があるものよりもかなり安いということを意味すると思います。おそらく10倍のようなものです。この作業を行うために誰かに支払うには数百ドルかかると思います。

しかし、モデルはそれを数十ドルでできます。

30ドルのようなものです。そして、より多くの最適化でおそらくそれを下げることができるでしょう。つまり、確実にモデルが研究を有意に加速できるポイントに到達しています。そして、すでにCopilotやコーディングアシスタントのようなもので、コードの大きな部分がモデルによって書かれています。おそらく最も重要な困難な部分ではないかもしれませんが、確実に意味のある加速です。

そして、これが続いていくという証拠が一般的にたくさんあると思います。現在どこにいるか、または現在のモデルでの引き出しでどこまで行けるか、または1回のスケールアップで何かを正確に言うのは困難です。はるかに確実なのは、この6ヶ月の倍増時間のようなものを得たなら、そう長くはかからないということです。モデルができる範囲は本当にかなり速く上がっています。

昨日あなたが言ったと思うのですが、モデルが実際にこの研究部分で最良になるかもしれないと思うと言ったのです。あるいはML研究のアイデア焦点部分で。一部の人には直感的でないように思えるかもしれません。一回限りの洞察のようなものではないもので最良になることを期待するかもしれません。しかし、むしろ以前に何度もコードを書いたような方法でコードを書くようなものです。なぜそうかもしれないと思うのか説明していただけますか?

これは少しホットテイクです。超強く支持された見解ではありませんが、人々がモデルはこの工学的なことができると、より単純だと、しかし科学的洞察や方法論や新しい発明を思いつくことはできないという反応を持つと思います。

しかし、人間がそれを行うときに行っていることの多くは、大量の研究論文を読み、ある方法が他の何かに類似していることを見ることだと思います。「日の下に新しいものはない」のような種類です。多くのことは、実際にどこか他で知られていることの応用です。

そして、モデルが本当に得意なのは、本当に包括的にすべての論文を読み、文献を知り、大量の実験結果を見たことです。

我々のタスクの一つで見たことの一つは…つまり、タスクは基本的に特定の制限の下でスケーリング法則が何かを理解することです。特定サイズのモデルを持ち、これだけの計算で訓練でき、与えられた以上の計算量で訓練する計算最適ハイパーパラメータが何かを理解する必要があります。そして、モデルは常にこれでそれほど良くやったわけではありませんが、推測することに本当に優れています。大体正しい数字が何かを推測することで人間よりもずっと優れています。

つまり、モデルがずっと多くの実験とずっと多くのデータを見ていることがたくさんあるでしょう。「この研究方向は有望か?」や「この種の厄介な理論問題をどう解決するか?」のようなことで、「まあ、この曖昧な数学分野とこの誰も読んでいないランダム論文では、この類似した問題をこの方法で解決できることが判明している」という感じになるでしょう。

これはモデルが人間に対して比較的有利である可能性が非常にもっともらしいようです。不利ではなく。

その通りです。これは人間が苦労することであり、だからこそ我々はそれを一種魔法的だと思うので、どうやってAIがそれをできるのか?しかし、実際には彼らのホームグラウンドである可能性があります。なぜなら、非常に幅広い知識を持っているからです。

人々が懐疑的である方法は、5年前に聞いたであろう、「でも彼らは決して素晴らしい芸術を作ることはできないだろう。素晴らしい詩を作ることはできるだろう」と同等のような感じがします。

あるいは囲碁をプレイするとか…

はい、それらのものは実際に彼らにとって些細なことであることが判明し、ほとんどすべての人間よりもずっと良い詩を書きます。専門詩作家よりもずっと良い詩を書くという実験があったと思います。他の人間によって評価されたものです。

つまり、自分が置き換え可能でないと感じさせるための技術者の対処だと思います。

つまり、反論はこの物事がこの簡単にチェック可能な、工学のためのより構造化されたことを少し持っているかもしれないということです。コードを書くために…テストを書くことができ、テストを実際に通すプログラムだけを選択できます。研究アイデアにはそれを行うのがより困難です。しかし、その根本的な能力はおそらく比較的良いと予想します。

つまり、ソフトウェア知能爆発が引き起こされると仮定してきました。最近、次の7年以内に起こるだろうと仮定してきて、2年でも全く驚かないでしょう。あなたの研究は何の数字がもっともらしいかについて何か光を当てますか?

はい、基本的にそれらの数字は非常に合理的に見えます。我々が話す一つの数字は、90%の研究の力が人間ではなくモデルから来る時点はいつか?それが始まる時期を言う一つの方法だと思います。はい、7年で、専門家である人からの1年の労働に相当することをできるモデルになるようです。そして、シリアル時間ではるかに速くもあります。

はい。そして、その時点で、その傾向が保持され、それが場合だとすると、どうやって実際にソフトウェア知能爆発を引き起こさないかを見ることは本当に困難です。可能な限り、フィードバックループがどれほど強いかに依存します。

その通りです。これに取り組んでいる人々の数を非常に大きな量で倍増させました。そして、少なくとも分野横断知識とシリアル速度などの観点で、人間を超える能力を持つ労働者の束を導入しました。

Twitter で私があなたにインタビューするつもりだと言ったとき、聴衆のメンバーがこのトピックについて私が思ったかなり洞察的だった質問で書き込みました。「アルゴリズム進歩での労働のボトルネックはどれくらいか?AI研究開発労働を控えめな結果で自動化し、主なボトルネックが計算だったと実現する可能性はどれくらいか?」

計算は確実に重要なボトルネックだと思います。そして、あなたの研究者を自動化すると、計算はより多くのボトルネックになります。なぜなら、実行できる自動化された研究者の数を制御しているからです。

しかし、同じ計算からより多くのパフォーマンスを得るためにより多くの労働を投入できる明らかに多くの低hanging fruitの領域があると思います。私が想像している種類のことを労働を費やすことができることに確信を持っていることだと思います。

調整するために何を?

私が想像している種類のことは、労働を費やすことができることです。確実により速いカーネルを書いたり、実験を他の方法でスピードアップしたりすることがあります。これは基本的に計算量を増やすことと同等です。実験を半分の時間で実行するようにコードを作る、コードをずっと効率的に実行するようにするだけです。非常に良いカーネルエンジニアは稀で高価だと思うので、これはAI労働の束を注ぎ込むことができるものです。

他のことは、より多くのタスクと環境を構築し、セットアップし、異なる種類の訓練データを取得することです。もしずっと高品質のデータを持つことが、あなたの計算がずっと先に行くことを意味し、これがおそらく物事がボトルネックになっているものなら。

豊かで興味深いが、迅速なフィードバックループも持つ環境、たくさんの異なる方法でこれらのより多くを構築し、ここでより興味深いものを構築するためにただたくさんの労働を行うことができるようです。そして、そこに。

タスクを構築することとより似ているものから、モデルが自分自身に挑戦してから環境からフィードバックを得ることのように見えるものまでの連続体があるかもしれません。しかし、たくさんの計算をそこに費やす方法があるようです。

あなたの計算量を増やすことと同等である他のものは、実験と実行をより密接に見守ることかもしれません。これは役に立たないと既に言えるので、キューに他の何かを入れて、あまり良くやっていないこれらを削除しようというような感じです。

どこかに労働を投入できるかという質問を直接すれば、それが非常に安ければ物事をスピードアップするであろう場所があるか?という感じで、はい、非常に安ければたくさんの場所があります。しかし、ボトルネックはおそらくそれをするためのすべてのインフラを設定し、生産しているすべてのデータと環境の品質を審査することでしょう。

つまり、要点は計算が重要な制限要因になる可能性があります。その場合、我々は利用可能な計算からできるだけ多くのジュースを得るためにAIモデルを使用するでしょう。そして、現在、労働がおそらく、あるいは両方が本当に重要のようですが、計算が唯一のものだった場合でも、我々はより効率的に計算を使用する方法を理解するために持っている今莫大な量の労働を使用するでしょう。

もし計算がより効率的に計算を使用する実質的な問題になったなら、知能爆発が控えめだったとしても、AI研究者の数は増えていますが、これらの企業が利用できる計算量は年に何倍も増えているので非常にゆっくりと比較して。

つまり、もし労働が重要から基本的に計算だけが重要に移ったなら、それは依然として研究進歩の実質的なスピードアップを示唆するでしょう。

その通りです。そして、研究者労働の現在の計算に対する限界投資は、研究者労働の価格と速度に関連しています。もしそれらがずっと安くてずっと速かったら、ずっと多くを買うことが意味を成すでしょう。現在の価格とシリアル時間で人間にやらせる価値がない多くのことがあるかもしれませんが、より速くより安い労働で行う価値があるでしょう。

最も重要なメッセージを下線付きにするために、AIは現在、専門家が2時間でやるかもしれないコンピューター上の何かで50%の成功確率を持っています。これは3から12ヶ月ごとに2倍になっています。つまり、実質的により有用なエージェントになっています。かなり長い期間にわたって物事を行うことができ、急速に改善しています。

彼らは現在機械学習研究に実質的な違いを作ることができます。彼らは既に企業内で大量に使用されています。彼らは本当に懸命に試みれば、この時点で評価されているよりもずっと多くのことをできる可能性があります。なぜなら、ただ表面的な努力をするよりも、ずっと多くのものを得ることができるからです。

これらすべてが、おそらく再帰的自己改善AIを期待すべき結論につながります。5年や10年前に持っていたかもしれない期待に比べて、非常に早く、2年でも全く驚かないであろう。これは私にとって憂慮すべきことです。

はい、これは非常に憂慮すべきことだと思います。人々は非常に憂慮すべきです。私の中の科学者は、2時間の数字と倍増時間などに大量の注意事項を追加したがります。しかし、はい、2年が驚くべきことには本当に見えません。もっと短いタイムラインさえ除外するのは困難に見えます。6ヶ月、9ヶ月でこれが起こる1%の確率はありますか?はい、それはかなりもっともらしく見えます。

再帰的自己改善の正確な形については、神秘的な知能爆発を必要としない、明らかに超人的な知能への道筋を見ることができるようです。我々が得ることを期待する中間能力をどのように適用して、明らかに非常にかなり怖いものを得るかは比較的明確です。

モデルが修正するのが本当に困難な方法で非常に非堅牢であり続けるかもしれませんが、これが起こることを非常に確信しているかどうかは気にしないと思います。これが起こらないことを非常に確信しているかどうかを気にします。

現在の人間だけを気にする場合でも、賭け金は非常に高いと感じます。1%の乗っ取りリスクの確率で、それ自体が10%の人類絶滅の確率などを持つ、それは多くの死です。

つまり、我々は全桁パーセントの数字を本当に気にすべきだと思います。つまり、それよりも低い数字を気にすべきだと思いますが、基本的に世界が一般的には、完全に人間文明を破壊する全桁パーセントのリスクを、AIの利益を早く得るために課すことは価値がないということに同意すると期待します。

少し早く、はい。シリコンバレーの人々、または確実にAI業界の人々、これらの種類の企業は、これらの結果を見て、基本的にフリップアウトしています。あるいは彼らの期待は我々がここで見ているものです。超人的推論への非常に明確な道筋、AIを改善する超人的能力、従ってソフトウェアベースの知能爆発を見ているだけです。つまり、これは現在我々がいる都市で人々が話している主なことのようなものです。

政策立案者はこれを少し認識していると感じます。確実にAIは政策の会話に少し入っています。しかし、比較して、彼らはパイプラインを下ってくるものを完全に評価していたなら、おそらくフリップアウトするであろう程度まで、まだフリップアウトしていないと思います。

その通りです。

この番組の希望の一つは、この情報を広めて人々が適切にフリップアウトできるようにすることです。DCにいて、「この技術者たちが少し頭を失っているように感じる」と「私は本当にこのすべてを買わない。AIは私の分野ではない」と言うような人に何か他に言いたいことはありますか?

私にとってその視点を持つのは少し困難です。なぜなら、2017年頃からAIに集中してきて、以前はそれがもっと先のことだと思っていたか、この全体のことについて完全に間違っているかもしれないと思っていたからです。しかし、これらの懸念が理にかなっているという証拠をますます得ていると感じます。モデルがアライメント偽装を示し始めている、我々が懸念していたこれらすべてのことを見始めていて、能力が非常に速く来ているようです。

つまり、これは非常に個人的で、利己的な視点からでも、明らかに最も重要なことのようです。若くて健康な誰かにとって、これはあなたの次の数年での最高の死亡リスクかもしれません。AI災害です。

人々が持っているもう一つの感覚で、本当に払拭したいのは、「でも専門家がこれを把握しているに違いない。もし本当にフリップアウトする時だったら、専門家が我々に言うだろう」です。専門家はこれを把握していません。十分な人々がいません。METRは才能に非常に飢えています。我々は明らかに良いことをするはずの基本的なことができません。

そして、専門家がいる限り、彼らはこれが懸念すべきリスクだと言っています。ベンジオなどが書いたレポートがありました。それはこの全体的なリスクについての全体的な科学的コンセンサスは何かのようなものでした。そして、それは「はい、これは非常にもっともらしいように見えます」というものでした。

「我々が皆死ぬかどうかわからないが、それは完全にもっともらしいです」。

はい。そして、私が専門家である限り、私はあなたにフリップアウトすべきだと言っている専門家です。そして、これを言っていない他の誰かが特にいるわけではありません。

はい、専門家は我々にフリップアウトするように言うでしょう。私は、まあ、この分野の専門家は実際に企業の人々、そして私たちのようなあなたような外部観察者だが行動に非常に近いと思います。これをすべて理解し、多くの注意を払っている独立した人々のグループは、DCの何らかの機関には実際には存在しません。ここに重く絡み合っていない人々で、よりこれを客観的な測定で評価できるかもしれません。

つまり、基本的に、すべての専門家は実際にフリップアウトすることを言っています。人々が多分懐疑的なのは、重く関与している企業にいるため、十分な距離や視点を持っていないと思うからかもしれません。

その通りです。METRが多くの価値を提供できることの一つだと思います。実際に深い技術的専門知識を持っているが、独立しているため、より信頼できるということです。これを誇張する商業的インセンティブや何かを持っていません。そして、AI ラボ外の専門家の不足は憂慮すべきだと思います。

少し押し進めて、異なる問題に取り組みましょう。Twitterで私があなたにインタビューするつもりだと言ったとき、実際に主要な質問として出てきたことに少し驚きました。それは私には非常に2022年的に感じましたが、我々が言ったことを考えると、もっと意味があるかもしれません。

人々は、モデルが完全に何をできるかのより良い評価を持つことを心配していました。多くの努力を投入し、エージェントとして行動するための適切な構造を設置すれば、実質的に人間の介入なしでAI研究を大量に自律的に行うことができることを実現するようなものです。彼らは基本的にそれを指摘することが危険だと心配していました。それは人々がそれを認識することさえ情報災害で、おそらくそれを見つけたり、非常に広く公開したりすべきではないという心配でした。

その懸念について、おそらくあなたの仕事が裏目に出る可能性があるということをどう思いますか?

これはMETR内で内部的に多くの議論をしてきたことで、かなりの手もみをして、異なる人々と話したことです。

これについての私の見解は時間とともにかなり変わったと思います。重要なことは、安全進歩を静的なものと考えるか、AIの現在の認識の関数と考えるかだと思います。そして、暗黙のうちに、以前は、我々はある率で安全進歩を作っていて、それから独立して能力進歩があり、これら二つのもの間の競争のようなものだと考えていたと思います。

同じように合理的な別のフレーミングがあると思います。それは、能力の現在のレベルの一般的な誇大宣伝と認識があり、能力進歩への投資率と安全進歩への投資量の両方がそれの関数だということです。根本的な能力をスピードアップすることは、その結果として安全をよりスピードアップするなら問題ではありません。能力のレベルに到達する時までに安全が行った相対的進歩は、その時間がより近くても、今より高いです。

これが展開する異なる方法はたくさんあります。一つは才能です。ChatGPTやGPT-4を見た後でのみ安全に働き始めた多くの人々がいます。能力のあるレベル、「実際に時間だ。これは現実だ」、あるいは「実際に怖い」など。

政策行動があり、これもこの事が起こっていてこれらの能力が存在することが十分に明らかになった後でのみ起こるでしょう。

安全研究の質があります。より良いモデルで働くことがあれば、はるかに速い進歩を作れるようです。以前のモデルで進歩を作るすべての可能性を使い尽くしたわけではありませんが、研究したいものにより近く、クランチタイムにより近いときに、あなたの仕事がより有用である強い効果があります。

また、あなたの作業を自動化するためにモデルを使用することもできます。AI災害が起こる直前の期間で技術的安全作業のほとんどが起こることを想像するかもしれません。なぜなら、それがモデルがアライメント作業の束を自動化している時だからです。

したがって、我々がはるかに優先すべきことは、その時点での安全への投資の割合です。その時点がいつ来るかではなく。なぜなら、進歩と安全のバックグラウンド率は、そうなるであろうものに比べて現在小さいからです。

ここでのもう一つの重要な要因は、AI への超投資とは独立して、バックグラウンドで起こっているムーアの法則と経済成長だと思います。これは大量の計算をより安く、より利用可能にしています。

これの極端なケースで、エイリアンがある時点でこの信じられない無限スーパーコンピューターのようなものを我々に投げ込むだろうことを知っているなら、その間に中間AI研究をすべきか、それは安全について学び、何が可能になるかを少し理解することを可能にするだろうか?はい、明らかに良いことのようです。すでにこの信じられない大量の計算を持っているときにのみ起こることとは対照的に、すべてを非常に迅速にスケールできます。

実際に、あなたがトレードオフを持っているところがあります。物事が起こるポイントを前に持ってくるかもしれません、ハードウェアやものへのより多くの投資があるため、しかしある意味でムーアの法則と競争しているのです。チップが悪く、計算がこの制限要因でゆっくりと上がっているときにすべてのことが起こってほしい、誰かが地下室でこれをできるような感じとは対照的に。そして、再び、それは極端な例ですが、中間点でもこれが依然として真実だと思います。

つまり、なぜスピードアップが必ずしも悪くないという場合です。これが安全を差別的に有利にするという議論があるなら。

そして、より良いモデル能力の理解が安全を有利にする理由についてのかなり明確な議論があると思います。デフォルトでは、この知識はラボ内にのみ存在し、能力進歩に相対的に特化している、規制と政策と安全と物事での広い理解に対して。

その理解をラボ内だけに存在することから、彼らが喜んで投資家や雇おうとしている人々に見せるものから、このすべてのレースを愛していない、あるいは政策立案者にとってもっと広い公衆に移すこと…

あなたはこれに必要なタイムラインについて考えることができます。将来このことを緩和することを可能にした窓を逃す前に政策を通すのに間に合うように、ある認識レベルを得る必要があると想像してください。つまり、それを少し前に持ってきても、政策行動をより多く前に持ってくれば…

全体的により安全になったのです。つまり、要点は、何が何と競争しているかについて異なるモデルを持つことができるということです。そして最もシンプルなモデルは、安全なものがカレンダー時間で改善しているということでしょう。能力の進歩を前に持ってくるすべての年は、これら二つのものが互いに競争しているため、それをより悪くするだけです。

しかし、企業内での進歩の比率対他の人々の企業外でのフリークアウトと行動の量という観点で考えると言っているのです。これはより安全にすることができる、あるいは少なくとも何らかのガバナンスと政策対応を得ることです。そして、より広い世界のすべての人が何が起こっているかを理解することによってのみ、実際に十分な注意と十分な懸念を得て、問題がまったく解決されることができます。

つまり、最悪のシナリオは、企業がすべての仕事を自動化できることを完全に認識していることです。おそらく、この種のものは彼らにとってより広い世界よりもはるかにショックが少ないでしょう。なぜなら、自分の金銭と労働コストを節約するために、モデルから絶対最大限を得る方法を理解しようとするあらゆるインセンティブを持っているからです。

はい。我々があまり違いを作っていないか、METRがただ信じられないほど素晴らしくて強力で参加すべきだと思うべきかだと思います。なぜなら、明らかに我々の10人の研究者か何かで、これらの数十億ドルの企業を打ち負かしているからです。

つまり、企業はおそらくあなたのAIの再帰的自己改善への研究の結果をすでに認識していたということで結論すべきですか?

はい、基本的にそれが我々が得た一般的な印象です。企業は時々外部の人はみんな全く手がかりがないという印象を与えたがると思います。我々のものははるかに優れています。そして、我々の引き出しが同じくらい良いか少し良いことを確実に発見しましたが、基本的にどちらの方向にも劇的ではありません。

そして、特にカーネルのようなもので、彼らがその特定のことに投資することがより意味を成すところでは、おそらく我々は似たような理解を持っています。それについて4週間のプロジェクトをしてから「OK、クール、人々にこれについて知らせるだけ」というよりも、彼らは実際にそれを倍増し、もっと良くなり、そこから利益を得るものを得るでしょう。

おそらくビッグ3がどれだけ自動化できるかを認識している、あるいは彼らはすでにあなたの結果を大まかに認識していると推定されますが、でも他のアクターがいるかもしれません、AIに取り組んでいる他の人々や近くにいる人々で、これをより顕著にすることで、自分の研究を自動化する努力をする可能性がより高い他の人々がいるかもしれません。

はい、それは真実だと思います。人々が持った他の懸念も、基本的に我々が先ほど言っていたことに関連していると思います。迷惑であるか、最も魅力的な純粋ML作業のように見えないものに対して、人々が不合理に投資不足していることについて。データを収集し、良い評価を作ることについて、我々が評価を公開することで、企業がそれらでヒルクライミングできるため、企業を実質的に加速しているということです。

我々がリリースしているもので、直接それらで訓練することが意味を成すほど十分なタスクはありません。ファインチューニングがどれほどうまく機能しているかを見るための一種のヒルクライミングにすぎないでしょう。そして再び、これが場合なら、我々がこれらの数十億ドルプロジェクトを実質的に加速しているなら、METRの評価生産サービスを非常に大量の金額で売ることができるはずだと感じます。

しかし、人々が評価に十分費やしていないと不合理にいう主張だと思います。そして、一般的に、我々が特定の懸念を買わなくても、それらに譲歩しようとしたいです。それが安いとき。しかし、これがどのように害をなすかもしれないかを心配することに巻き込まれすぎる罠もあると思います。すべての安全な人々が自分自身を結び目で結んで心配するところで、それから実際には何も起こりません。

彼らは自分たち同士でコミュニケーションさえできない、あるいは彼らの見解を公衆に適切に説明していない、あるいは彼らの懸念の証拠。

はい。そして、あなたの小さなチームが大きな部分を貢献していると仮定することについて、ちょっと過度に誇りに思っているような感じがあります。確実にあります…あなたはこの中で進行している総労働と投資のそのような小さな部分です。

あなたが物事を実質的に押し進めていると考えるためには、本当に例外的に才能があると思わなければならないようです。

このような方法で物事について考えることは、政府の人々に可能な限り強くすべてのあなたの仕事を伝えようとすることを示唆しますか?あるいは技術業界外の人々に、彼らは物事がどれほど危険か、物事がどれほど迅速に動いているかを実際に評価していないことを本当に説明するために?

そして、おそらくあなたの結果を公開することは少なくなります…これらの発見がサンフランシスコ全体に広がらないことは本当に想像できないと思います。しかし、基本的に現在何が起こっているかについて警告されていない人々に不釣り合いに届けようとするべきです。

一方に伝えて他方に伝えないようにするのは、それほど効率的な労働の使用ではないと予想しません。特に、技術世界に直接関与していない人々でも、これを信頼すべきかどうかのバロメーターとして、これに対する一般的な技術反応が何だったかを使用すると思ったでしょう。

そして、評価研究を望む、そしてモデル能力の理解、そして緩和が良いかどうかの理解がフィールドとして成長し進行することを望みます。つまり、オープンソースのことをしようとし、我々の学習について透明であろうとし、他の人々が資金と支援を得ることを促進しようとしています。一般的にこのフィールドを成長させたいし、それについて秘密にして、これらの特定の人々とだけ話そうとすることの見返りは、それをしない努力と、この上で働くことができる他の人々を加速しないコストの価値がないと思います。

ここでもう一つのポイントは、基本的にMETRが行ってきた能力改善の種類は、スキャフォールディングと言語モデルエージェントについて非常に多いことです。以前に話したように、それを正しく引き出し、すべての適切なツールを与えたため、多くのことができる愚かなモデルを持つ方がはるかに良いように見えます。しかし、それからそれが何をしていたかの理解可能な痕跡を持つ、より大きなモデルを構築するよりも、神秘的に物事を始めることができるが、なぜかは本当にわからない。

つまり、LLMエージェントの能力を差別的に押し進めることは、実際にたぶん良いようです。

この懸念への私の直感的反応は、我々を安全に保とうとしている努力が、モデルがすでに明らかにできることを引き出さないことにすぎないなら、それは信じられないほど薄い安全の壁だということでした。なぜなら、あなたたちがモデルからもっと得るために投入した努力を誰かが投入すれば、いつでも、すぐに物事を非常に迅速にスピードアップできるからです。

モデルが人々が評価するよりもはるかに危険なことをできるが、誰もそれを評価しない状況にいることは信じられないほど危険な状況です。そして、誰かが実際に1週間それに取り組むとすぐに、彼らはそれをクラックしてやることができる。本当に可能になるとすぐに何が可能かに警戒する必要があります。

はい。世界がどれほど有能かについて人々が異なる感情を持っていることの一般的なことがあると思います。METRが表す労働の割合はどのくらいかの両方に影響します。誰か他の人がこれをするだろうか、あるいは我々だけが洞察を持つだろうか。そして、世界に伝えることはどれほど有用か?政策立案者は何らかの役立つ方法で反応するだろうか?

人々がどこから来ているかを確実に見ることができ、これらの懸念の束がかなり合理的だと思います。全体的にそれが帳尻を合わせると思うだけです。モデルが何をできるかについてのあいまいさによる安全性は、素晴らしい安全戦略ではありません。

危機や問題へのあらゆる種類への社会的/政府の対応についてどれほど悲観的であるべきかについて、この興味深い前後の議論がありました。

最初の会話のステップはより技術的な人々が、「危機に対応する政府がどれほど役に立たないかを見て。彼らはこれらの問題を全く理解していない。誰もそれに注意を払っていない」と言うことでした。そして、他の人々がおそらくそれは少し悲観的だと指摘しています。人々が反応していなかった理由は、これが非常に遠いと感じていたからです。まだ何もするには十分具体的ではありませんでした。

実際、COVIDを見ると、おそらく我々は過度に反応した。それが明らかになると、政府は実際に非常に活発でした。ステファン・シューベルトは「夢遊病バイアス」という用語を使用します。質問は、我々は危機に夢遊病で入るか、危機を通って夢遊病するか?彼は、いや、一般的に、実際に問題があることが明白になると、社会と政府の間で平均的にさえ過度反応を得ることができると言いました。

私は、AIの状況を見ると、我々は本当に反応不足しているように感じます。より多くの注意がそれに向けられました。いくらかのことが行われました。私の観点から、少なくとも行われるべきことの10%にほぼすぎないと言うでしょう。そして、これらの見解の統合は、社会は危機を通って夢遊病しないが、危機に夢遊病で入るということだと思います。

その通りです。

基本的に人々が持つフォーカスはそれほど多くないからです。人々は現在展開している危機を扱うのに非常に忙しいです。彼らは先を計画するための時間をあまり持っていません。また、将来何が起こる可能性があるかを理解するための技術的な腕前を持っていないので、何か興味深いことが変わるだろうことを示唆する予測を却下する傾向があります。

つまり、基本的に我々はAIで災害に夢遊病で入るでしょう、あるいは実際にほとんどすべての種類の災害に、大規模な準備不足、投資不足で。そして、それが物事が極めて間違っていることが否定できない時点で、それから非常に激しい反応と多くのフォーカスを得ることができます。そして、それが実際に何かを意味のある形で変えるのに十分かどうかという疑問があります。それは見られることが残ります。

はい。Don’t Look Upの部分があります。彼らが大統領に、この来たる惑星殺し小惑星について心配するよう説得しようとしているところです。そして彼女は「毎日、世界がこの理由やあの理由で終わると言う人がいる。月曜日はテロリストでした。火曜日は洪水でした。水曜日は蜂が死んでいる」のような感じです。

人々はそれに対して多少同情的でない可能性があります。政策立案者として適切なことに注意を払おうとしている場合でも、誰もが自分の特定の原因分野の深刻さを誇張するインセンティブを持っています。そして、技術的知識を持っておらず、技術コミュニティに不一致がある場合、どのように反応するかを理解するのは実際にかなり困難です。

はい、構造的になぜ物事がこのように展開するかは理解できますが、それは不満足です。将来の問題を予想するためのより良いシステムを思いつくことができれば本当に素晴らしいでしょう。

はい。そして、人々は政策のものがより意欲にボトルネックされているという図を持っているかもしれませんが、実際にはより具体的で合理的な提案にかなり受け入れやすく、それは必要な意欲の量を大幅に減少させると思います。

SB 1047のように。カリフォルニアでこの法案がありました。それはいくつかの評価とそれらについての透明性と企業に安全ケースを作ることを要求したでしょう。人々がそれを好まなかった、あるいはそれが通らなかった重要な理由、少なくとも引用されたのは、はい、この特定の提案は合理的だが、一般的に過度規制に螺旋し、物事が追加され、人々が創造的にそれを解釈するだろうことを心配する何かの組み合わせでした。

そして、これらの評価は実際に存在しない、あるいは人々が以前にこれを行ったことがない。この種の明確な先例があった世界にいたなら、「これはあなたがする必要があることです、これはあなたが安全ケースを作る方法です、これはそれが十分良いかどうかを決定する方法です」、それはこのようなものを通すことをはるかに簡単にしたでしょう。なぜなら、滑りやすい坂の懸念が少ないからです。求めているものがより明確に定義されているほど。

そして、「これは極めて高価かもしれない」と反対することがより困難です。「いや、見て:誰かがこれをすでに行っており、これがかかる費用です」なら。

つまり、人々は物事がラボの意欲や政策意欲で非常にボトルネックされているという図を持っていると思いますが、第三者ができることがたくさんあり、これが起こる可能性をはるかに高くすると思います。人々に思い出させ、微調整し、外部から物事を種類のプロジェクト管理をするようなことでも、「このステークホルダーを得る必要があります。このステークホルダーを通じてこれを得るために必要なものをまとめるのを手伝います」のような感じです。政策立案者とラボが良いと思う政策を採用することを簡単にする点で、テーブルに残されている多くの価値があります。

SB 1047のケースでそれは少し寛大に感じるかもしれませんが、私の印象をあなたに伝えて、どれほど間違っているかを教えてもらえますか。

あなたが言っていることは、滑りやすい坂についての懸念、コストとコンプライアンスについての懸念があると思います。それは元の草案では意味があったかもしれません、おそらく少しずさんで、やや拡張的に解釈される可能性があり、おそらくコンプライアンスがより困難だったでしょう。

批判に応じて範囲を狭め、より注意深く起草した時には、最終的にそれは本当に最低限の要求のように感じました。全くやりすぎには感じませんでしたが、一般公衆の間でかなり多くの支持にもかかわらず、依然としてラインを越えることができませんでした。

最終的に、それはカリフォルニア州知事の一人の人の決定でした、それを拒否することです。しかし、それがラインを越えなかった理由は期待するだろうのと同じ理由だと思います。非常に強力で、非常に金持ちで、非常に利益が上がり、非常に影響力があり、非常によくつながり、非常によく準備された企業を規制することは一般的に非常に困難です。企業は手を縛られることを望みません。

彼らはこのすべての精査を望みません。それを止めようとして非常に強くキャンペーンしました。そして、彼らが政治家への資金提供に向けてこれほど多くの努力を培ってきたことを考えると、このような種類のことは問題に対処しなければならないことが曖昧になるまで、ラインを越えるのが非常に困難であることは驚くべきことではありません。

私は皮肉すぎですか?

わかりません。実際の理由が何だったかは、他の人々がより知っているかもしれません。私の印象は、少なくとも最後に向けてもまだ引用されていたものは、この計算のFLOPs数が、これがいつキックインすべきか、この実際に危険なもののよい測定ではない、様々なことでした。

だから、わからない、たぶんこれはあなたのもののための良い先例と明確な要求を持つことがそれに対して議論することをより困難にする限界での小さな主張かもしれません。

他のこともあると思います。追加の労働が物事をずっと良くする可能性があるところで、企業のロビイストや政府関係の人々が、企業の実際の望ましい政策と接触していない可能性があるところです。

あるいは少なくとも、「いや、見て:企業がこの種の規制を求めてきた。それは独自版のこれを提案した。あなたはこれを支持すべきです」と言って持って行くことができる強い証拠があります。そして、ロビイストなどの人々は本当に全くこれを追跡していません。人々はただ普通のことをしています。

彼らが常にしようとしていることは、より多くの精査とより多くのコンプライアンスコストとより多くの規制などを避けることだと思います。それが彼らのデフォルトモードです。そして、この特定のケースでそれを変更するために企業内で非常に強いプッシュがない限り、それが彼らが自然にしたいことです。

あるいは外部です。必ずしも内部である必要はないと思います。人々に伝えるか、人々により顕著にすることができると思います。

最終草案でのSB 1047では、Anthropicは中立からポジティブでした。CEOのダリオ・アモデイが、これにコンプライアンスするのはそれほど困難ではなく、これにコンプライアンスできないと言っている企業は基本的にナンセンスを話していると明確に言ったと思います。それは実際にかなり狭い要求です。つまり、実際に真実を語ったことに対して彼らにクレジットを。

そして、xAIも支持したと思います。

はい、もちろんです。イーロンは非常に懸念しているからです。

評価についてAnthropicのニック・ジョセフにインタビューしました。また、Google DeepMindのアラン・ダフォーと評価について話しました。彼ら両方とも、おそらく彼らがそこで働いているので驚くことではありませんが、彼らの評価はかなり良いと思うと言いました。Anthropicの場合のResponsible Scaling PolicyやGoogle DeepMindの場合のFrontier Safety Framework、これらは実際に安全性のニードルを動かしている。これらはおそらくこれらのものの最終形ではないが、正しい方向への非常に良いステップです。

より独立した、企業外の観点で、どの程度同意しますか?

正しい方向へのステップで、ニードルを動かしていることには同意します。私が不一致を持つ傾向があるいくつかのことがあります。企業内の個々の安全懸念の人々が、企業が第三者とどのように相互作用するかについて、よりバラ色の図を持っていることがよくあると思います。「我々は安全を愛しているので、もちろんこれらすべてのことを支持するでしょう。そして、それが起こっていないなら、ボトルネックは我々ではないに違いありません。我々は本当に安全を愛しているから」のような感じです。

ニック・ジョセフがこのようなことを言ったと思います。RSPの外部監視を得るボトルネックは、評価を外部で行うために技術的に有能な人々です。METRには技術的有能性があると思うので、これに非常に同意しません。我々の評価と引き出しと物事は、ラボが公開したもの、基本的にどのラボも公開したものよりも良いと思います。少なくとも質の観点で。我々のデータセットはより小さくなる傾向があるが、より高品質です。そして、我々はラボと働くことを熱望してきました。

また、外部評価者の技術的有能性で必ずしもボトルネックになる必要はありません。すべての実験を文字通り実行し、計算を設定し、物事を設定することには。

企業が内部で評価を実行し、彼らが何をしたかを書き、外部評価者がそれとともに行き、それについて議論する別のパラダイムがあります。「このことに対して良い証拠を提供しましたか?おそらくここで他の実験をする必要があります。これは理由でこのこと不十分でした」のような。

あるいは埋め込み評価者パラダイム、外部第三者組織からの誰かが評価を実行しているラボのチーム上に埋め込まれ、すべてに目を光らせ、彼らがサンドバッギングしたり物事をごまかしたりしていないことを確認するところです。

我々が提案し、オープンにしてきたたくさんのことがあり、企業がすべて我々のドアを叩き倒してそれをしているわけではありません。

つまり、我々が能力を持たないためにある時に企業を断ったケースもありました。しかし、それは我々がこの取り決めが良く、我々の時間を費やす価値があるだろうと思ったが、彼らが提供していなかったからです。我々がそれが意味のある保証を提供する、あるいは提供される保証の基準を改善するとは思わなかった何か他のことを提供していました。

METRについて人々が混乱を持っていると思います。METRがすべての企業とすべてのモデルに対して評価を行う取り決めを持つ正式な評価者だと仮定されています。

これは事実ではありません。我々がこれまで行ったもののいずれも、実際に意味のある監視を提供すると説明したくありません。我々が行っていたものがNDA下にあることを含む束の制約があったので、懸念があると思った場合、誰かに警告したり言ったりする正式な権限を持っていませんでした。

はい、これがどのように見えるかをプロトタイプしようとしているとはるかに多く考えてください。そして、我々は小さな非営利なので、我々にとってより機敏で異なることを試すことがより簡単で、ラボが我々と関わるのにより低い賭け金です。

だから、実際により良い監視がどのようなものかについてバーを上げることに興奮してきました。そして、ラボはより「すべてのモデルで我々が望むときに評価を実行することを約束できますか?そうすれば、我々がそれらで評価を実行したと言えます」という種類のことを望んでいます。そして、その提案された手順が実際にそうしないよりも意味のあるより多くの安全保証を提供すると思わないなら、それは我々が興奮していることではありません。

一般的に、人々はあなたが作成した評価が非常に良いと思います。取り組みの範囲内で。内容について多くの批判を聞いたことがありません。そして、企業があなたのところに来て、「出る前にこれらすべてのことを我々のモデルで実行し、それがどれほど危険かを理解するためにできるだけ多くそれで遊んでほしい」と言うことができると言っています。しかし、彼らはそれを要求していません。彼らはそれをあなたにとって簡単にしていません。

たくさんのラボからそのような要求を得ました。問題は、我々の目標がプロトタイプとdデリスクをすることで、本当に良い安全保証を提供できることですと思います。

つまり、それはこれが実際に決定に供給されるか、少なくとも決定を行う人々と共有されるより良いガバナンス機構を含みます。そして、我々が推奨をしたが、ラボがその推奨に従わないことを選択したと言えるための何らかのカーブアウト、あるいは従業員が我々と共有されたものが正確だったかどうかをチェックできるように、何が我々と共有されたかを見ることができること。つまり、我々が改善できるガバナンス機構があります。

外部展開対内部展開前のスケールアップ前または事前内部展開があります。この外部展開の特定の時間がそれほど興味深くないと思います。我々ははるかに内部で持っている最高のものが何で、企業が任意に強力なものを内部で構築していないことを知りたいことに興味があります。

他のもの、モデルアクセスの質と我々と共有される情報についてだけです。このモデルが使用するために訓練されたエージェントスキャフォールディングは何で、それを我々と共有できますか?そして、モデルの完全な能力を引き出すことができるために知ることが非常に重要な束のもの、思考連鎖を見ることができますか?のようなことです。

彼らが言うだろうことは、あなたが望む方法で物事を行うのは多くのスタッフ時間です。そして、常に追いつくためにスプリントしています。それを続けるのが困難にするかもしれない商業的に敏感な情報を共有することを含むかもしれないので、彼らや少なくとも彼らの弁護士はそれをすることについて神経質です。

彼らが合理性を持って言えるだろうことは他にありますか?あるいはどの程度それが公正対おそらく言い訳により近いと思いますか?

はい、それは確実に努力です。それは一つのことになるでしょうし、おそらくそれがバックファイアする可能性がある方法があるかもしれません。コストはより多くの上級の人々からの注意です、企業で、と推測し、彼らが本当にしたいことを考える。

オブジェクトレベルの機密性の懸念、我々が提案したことは、企業内で区画化されていないものを何でも我々と共有するようなものです。あなたの1,000人の従業員が既にこれを知っているなら、METRの3人がそれの匿名化されたバージョンを知ることは、実際に表面積をそれほど増加させません。

あるいは内部でスタッフ時間を取ることについて、それはあなたのスタッフ時間のMETRスタッフ時間よりもはるかに小さな部分です。あるいはモデルで能力研究に費やされる努力の1%、あるいはその努力の数パーセントを費やすことは、これを行うのに十分でしょう。

トークン予算と物事についてわからないことがあります。そして、OpenAIは彼らのスーパーアライメント計算コミットメントを持っていました。それは我々が求めていたもの何よりもはるかに大きな数字であるはずでした。

それまでのコミットメントの20パーセント。

その通り、計算の20%。つまり、我々がそれらの要求にヒットしているわけではありません。

彼らにとって技術的にそして物流的に挑戦的である束のことがあると思います。我々がのような、APIが壊れずにダウンし続けないでください、我々がそれを使おうとしている間?という感じです。それは、まあ、公共展開のために安定化される前に、ただ問題があるでしょう。

理想的な世界では、展開を待つでしょう。本当に重要なことが展開前だった場合、あなたが門にしたいものなら、あなたの評価者に適切なアクセスを与えるまで展開を待ち、そして実際に展開しようとしているものである安定したバージョンで十分な時間を持ったなら、何か他のものではなく。

それを直接解決することはできませんが、技術的問題をただうまく働かせることです、しかし、可能な限り迅速に出すことに対して、良いバージョンの評価をすることに優先順位をつける方法を解決できます。

皮肉屋が言うだろうことは、彼らは外部グループが自分のモデルを本当に重く精査し、まだ訓練さえしていないモデルの訓練の計画を精査し、懸念を持っている場合に公衆や政策立案者に通知することを自由にすることに実際にはそれほど熱心ではないということです。なぜなら、どの企業がそれを望むでしょうか?

これは彼らにとって多くのリスクです。彼らは物事をやや自分の手から離すことです。これらは独立した監査人などを望む理由のすべてですが、どの企業がそれに自発的に同意するでしょうか?

より同情的な見解は、企業は物事を機能させるために常に苦労している種類だということかもしれません。これは彼らが運営化するのに挑戦的である可能性があるもう一つのプロジェクトで、彼らがそれほど神経質ではないとしても、私が説明したことについて。彼らができるだろう多くの良いことがあり、彼らがしていない、そしてこれはそのうちの一つにすぎません。

皮肉的な見解をどの程度採用するか、あるいはそれが一種の公正なベースラインでしょうか?

両方の側面から確実に見ることができます。本当に安全を優先し、あなたの限界リソースを投資する場所としてこれが意味を成さない企業である可能性があると思います。それが文字通り行われているトレードオフではないと思います。そして、「待て、確実に我々はあなたにそのアクセスを与えているよね?」という感じの企業の個人は、実際に起こっている実際のことを追跡していないような種類です。

しかし、その一方で、彼らは企業がただ利己的に興味を持つことを期待するよりもはるかに多くのことをしています。異なる企業でそれはやや異なる理由だと思います。小さいものは、それがより混沌としていて、一度にそれほど多くの異なることができないし、すべてが少し最後の分で、インフラが存在しないようなものです。そして、より大きいものでは、官僚主義と弁護士のようなものです。

一般的に意思決定が遅い、そしてこれは他の製品では確実に行わないだろう少し珍しい取り決めです。

はい。そして再び、これをラボの意欲として描くことができると思います。そして、これらのラボの個人を「もちろん我々はこれらすべての素晴らしいことをしているよね?」という感じの錯覚から抜け出させたいと思います。

あなたは実際に行ってチェックすべきです。なぜなら、おそらくそうではないからです。

はい。しかし一方で、METRがこれまで非常に激しく押していないと思います。なぜなら、我々に与えられているリソースを確実に使用できるような技術的能力を構築してきたからです。また、標準的なラボ政治のプレイブックを実行し、要求を本当に明確にし、チェーンを上に加速させたり、多くの異なる人々から支援を得てそれから実現させるためにの能力です。

これまで、我々はより親切に現れて、何を望むかについて明確にしようとすることです。実際にこれについて押すモードに入っていません。これが才能にボトルネックされているだけだと思うので、それをできるようになったので、比較的近い将来に著しくより良いアクセスを得ることに楽観的です。それを押すためにできることがあると思います。

つまり、あなたはこれらのことをやや非公式に提案してきました、おそらく少し最後の分に、評価をまだ開発していて、実際に求めていることを実行できることを確認するために人々を雇おうとしていたから。

つまり、より早く、より深刻なアクセスを得ようとする選択肢を試すのに近いところにはいません。これらの関係は時間とともにより深くなる可能性もあります。信頼が構築されるとして、そしてそれは依然としてより広い状況では非常に遅い段階かもしれませんが、あなたと企業の間の関係は早い段階かもしれません。

はい。もしそうする必要がないなら、ハードボールをプレイしたくありません。過失の一部が我々にあるなら、人々に本当に高価なことをするよう求めてから「おお、実際には…」と言いたくありません。

「我々はそれをできません」。はい、それは完全に公正です。

関連しているが、異なるトピック。長年にわたって、多くの人々が様々なAI企業で働くことに入ったビジョンを持っています。彼らが役立つ一つの方法は、企業で働く人々の平均的な信念をシフトすることです。

おそらく同僚と話し、AGIがどのように進むかについての懸念が彼らが思うかもしれないよりも合法的だと説得する機会を得るでしょう。企業内の意見の重みをシフトし、うまくいけば文化をよりポジティブで、より注意深い方向に動かすと思います。

そのトラックレコードをどう思いますか?それは人々が今後も取るべき合理的アプローチですか?

その特定の変化理論のトラックレコードは非常に悪く見えると基本的に思います。それをしようとした人々の歴史を見ると、あきらめて去る人がたくさんいます。一つのラボでそこで影響を与えようとして始めた人々がいて、それからそれをあきらめて去ったような感じです。

これを行い、比較的うまくいった人がおそらくいると思いますが、彼らは非常に少数派だと思います。

ラボに行くことが意味を成す理由は、制度的政治が比較的優位だと思い、そして基本的にあなたの仕事のほとんどでそれをするつもりなら、だと思います。そして、あなたがそれが非常に得意なら、たぶんより良い仕事ができるかもしれません。

別の理由は、その企業で安全なことの実装をするつもりなら。一般的にアライメント研究を前進させているなら、ラボの外にいる方が良いと思います。なぜなら、他のすべての人とそれを共有し協力することがより簡単で、それが競合他社からのこのものではない場合、他のラボがそれを組み込むことがより簡単だからです。

それについてもう少し詳しく説明できますか?ラボ外でより良く行われるだろうと言っている仕事の種類は何ですか?

ほとんどのアライメントと解釈可能性の仕事は、ラボ外にあった方が良いと思います。

それは大きな主張です。現在、ほとんどの安全性/アライメント技術者がラボ内で働いていると思います。彼らが言うだろう議論は何ですか?もちろん、内部にいれば企業のモデルで実装されることがより簡単かもしれません。より多くの計算にアクセスできます。最先端モデルにアクセスでき、関連性を持つために最前線にアクセスする必要があります。

そのようなことについて何と言いますか?

人々のここでの選択が利用可能なオープンソースモデルの質にそれほど反応的ではないという事実は、実際にそれが彼らの決定を駆動していない証拠で、代わりに他の要因だと思います。

多くの研究にとって、モデルアクセスとインフラの観点でラボ内にいることが実際により良いことは本当に明確ではないと思います。なぜなら、ラボインフラは、とりわけセキュリティのために、束の制約を持っているからです。そして、オープンソースモデルで働くことが実際により簡単で、より速く仕事を終わらせることができることがよくあります。そして、特にオープンソースでは、より小さなモデルがはるかに最適化されています。

RL をしたい場合、あるいはより安いモデルでいくつかの実験をしたい場合、最良のものは実際に企業外にある可能性があります。Anthropicの解釈可能性研究がオープンソースモデルでなかったのは大きな恥だと感じます。それからそれを共有でき、人々がそれでもてあそぶことができるでしょうに。

そして、クラスターや何かに実際に支払うことについては、十分な資金が利用可能だと思います。大規模な事前訓練実験をしていない限り、それが大きなボトルネックになるとは思いません。ほとんどのケースでクラックスではないと思います。

また、我々がちょうど終わり時間に近い場合は今ではたぶんあまり真実ではないと思いますが、過去に私は、あなたの研究が最新モデルにアクセスすることではるかに生産的だと思うなら、それはまた、あなたが現在行っている研究が、モデルがより良いときにしているであろう研究と比べてただ本当に重要ではないことを意味すると言ったでしょう。

すべて置き換えられるため?

その通りです。まあ、あなたの研究が昨年のモデルよりも今日のモデルではるかに良い場合、この特定の時点について特別なことが起こっているか、あるいは1年後にモデルを持つときにあなたの研究はまた今よりもはるかに生産的ではなく、その後1年のモデルよりもまたはるかに生産的ではありません。

最先端モデルにアクセスすることが非常に重要だと信じるなら、それはまた、あなたの研究が今、あなたがこれらのより高度なモデルにアクセスするときにあなたの研究が提供するであろう総価値の小さな部分であることを意味します。だから、それは今最も生産的であることを可能にすることを優先すべきではないことを示唆します。

将来の仕事のために自分を準備すべきです。

はい。あるいは、本当にあなたの研究をスピードアップするこれらのモデルを持つ時点でできるだけ多くの時間を買うことを優先します、これはおそらく評価に働くことを指しています。

つまり、それの一部を繰り返すと、人々は確実に「フロンティアモデルにアクセスするために」、最高の企業によって訓練されたフロンティアモデルにアクセスして、これがまったく関連性を持つためには」という議論をします。あなたはそこで一つの反対を持っていました。それは、フロンティアモデルで行われることだけが重要なら、おそらく本当に重要なのは、これらのモデルが本当に危険である直前の前駆体モデルで行われることで、今までのすべては、我々がその段階に到達する時までには副次的になるでしょう。

しかし、最近では、最高のオープンソースモデルが企業内の最高のクローズドウェイトモデルとほぼ同等に良いようです。あるいは少なくとも我々が知る限り、それらのモデルの踵を食っています。その場合、最高のモデルにアクセスする必要があるという議論は、はるかに、はるかに弱いでしょう。R1をダウンロードして自分のコンピューターで実行できるからです。

そして、企業内では計算にアクセスするために入札し、他の多くの人々とアクセスを得ることで調整しなければならないと想像すると思います。

はい、束のセキュリティセットアップがあります、オープンソースモデルを簡単に実行できないことを意味します。

一方で、自分のH100、自分のチップを買い、自分のオフィスに保存してからR1をダウンロードでき、そうすればそれに献身的な小さなグループで望むことを何でもし始めることができます。

それは、Redwood Researchのようなグループが実際に蹴り尻を管理した理由を説明するのに役立つかもしれませんと思います。彼らの研究は素晴らしいようです。企業と協力していると思いますが、主に独立して運営しています。

はい。そして、企業内外で研究をした人々の教訓だと思います。内部アクセスがより速く研究進歩を作ることを可能にすることは明確ではありません。

あなたが作るかもしれないもう一つの議論は、ほとんどの人が企業内に行こうとしたようですので、おそらく企業内にいない人々のために無視された機会があります。

重み付けは本当に80/20です… という観点で

申し訳ありません。企業内にいることについて私が完了していなかった3つの理由がありました。つまり、一つは、あなたが本当に政治的影響者的人物であることに入っていて、それがあなたのスキルセットで、それをするつもりなら。

それから私がリストするであろう他の2つは、物事を実装していることです。一般的なアライメント研究をしているのではなく、これが実際に本番システムに入ることを確認するか、さもなくば実際に起こっているものに非常に近いことです。そして「企業が第三者と協力していないなら、少なくとも評価を実行し、それから私と友人たちは、フリークアウトすべきかどうかを知るでしょう」という感じです。物事がうまくいっていない世界では特に、基本を実装しようとしている企業内にいくらかの人がいることは有用です。

そして、3つ目は似ているような種類です。基本的に、規則の重大な違反があった場合に内部告発するであろう人の種類であることです。そして、その情報を認識する立場に入ることです。規制や監視が機能する実際のメカニズムの多くは、企業が規制当局に完全に嘘をついたり、完全に誤解を招く情報を与えたりしないことを信頼することを要求すると思います。だから、もしラボが規制当局に誤情報を供給していたなら、ガッツを持って内部告発するであろう内部にいくらかの人がいることが非常に重要だと思います。

そして、誰も明かしていないOpenAIの秘密守秘義務についてのものがあったと思います。

何百人もの人がそれを我慢し、本当に頑固で踵を掘り、「いや、これについて騒ぎを起こすつもりだ」と言った1人のような人がかかりました。ココタイロにクドス。

はい。そしてウィル・サンダーズ。だから、あなたがその種の変化理論を持っているなら、あなたがその種の人だとかなり確信する必要があります。そして、「ラボが最も多くのお金を提供し、便利で地位が高く、居心地が良く、すべての利益と一緒に来る。そこに行くと思う」という感じの人と、実際に内部告発しようとしている人の種類である間に、何らかの相関関係があると思います。そして、何らかの選択があるのです。

はい。特に内部告発的に見える誰かに対してフィルターするかもしれません。

はい。ラボも積極的にそれらの人々をフィルターアウトすると思います。

彼らがすべての来る人を雇うことを喜んでいる程度に私はたぶん驚いています、あるいは人格タイプに対して本当に激しいフィルタリングがあるようには見えません。CIAに行って働くようなものではありません。ある意味で、人々の動機により多くの精査があることができるような気がします。

あまりにも強い原則や何かを持つことに対してある程度の選択があると思います。

それは一般的に企業で真実だと思います。彼らはしばしば炎炎や強い独立したアジェンダを持つ人々を持ちたくありません。しかし、それはここでもやや真実だと言っていますか?

はい。つまり、これは多くの方法で合理的です。しばしばそれらの人々は実際に不合理です。そして、一方的主義者になるつもりの人々の一種の一方的主義者呪いがあり、期待して、役に立たないことをします。

つまり、実際に研究を実装するか内部告発者であることは、ラボ内にいることが意味を成すと思います。人々がより良くない理由で行くと思います。一つは、この「良い方向に影響を与える」です。これは効果性に対してただ悪いトラックレコードを持つと思います。外部から影響を与えることに対して、これははるかに良いトラックレコードを持つと思います。

そして、一つはこの「最新モデルにアクセスしなければならない」です。それを本当に買いません。

単純に、比較的多すぎる人がラボに行き、非営利や政府よりも行くと予想するでしょう。なぜなら、他の方法でより良い仕事だからです。そして、より経験豊富で積極的な採用部門を持っているし、このようなことです。政府よりもはるかに多く支払い、より良い利益などを持っています。

一般的により地位の高い仕事で、より小さな組織にいる創設者の一部であるよりも、おそらくより良い技術的指導を得るかもしれません。

しかし、人々は「より大きな組織に行って指導スキルを成長させる」対「自分でそのことをやってみる」ことからどれほど成長するかについて時々間違っていると思います。誰かが「他の人々から学ぶことができるので、指導スキルを成長させるためにより大きな組織に行きたい」と言うなら、あなたが指導する必要があるここにあるこのことを指導することによって、あなたの指導スキルをより成長させると思います。

つまり、わからない、いくらかの量の動機付けられた推論があると思います。一般的に、ラボで特にフィットが良く、非営利や政府でフィットが良くないと思う特定の理由がない限り、おそらくラボに行くべきではありません。

はい。余談として、彼らを「ラボ」と呼ぶのは興味深いです。ある時点で企業と呼ぶようになりました。誰かが指摘したか、質問をしただけだからです。「これらの組織、彼らの主要な性質は研究室として企業としてですか?」そして、私は明らかに企業としてだったような感じでした。おそらくある時点で過去に彼らは主に研究室だった、あるいはそれが彼らについて考える正しい方法だったかもしれませんが、今それを見るのは少し困難に感じます。

はい。わからない。これは…の評価ではありません。彼らは企業だと同意します。それはただより少ない音節です。

各ラボで本当に気にかけている少なくとも数人の人がいることは意味を成すと思います。基本的な緩和を実装でき、基本的な評価を実行でき、重大な不正行為を目を光らせることができる人です。

すべての人がラボに山積みになる、あなたがただ一般的に公共善の安全研究をしているなら、意味を成さないと思います。あるいは一般的な「ここにいて良い方向に影響を与える」ために。私は人々からこれをたくさん見るような気がして、それは「でも、あなたは本当に内向的で、技術的な人です。そして実際には、実際に8時間1日コーディングに費やしています。影響を与えることがあなたのように、専門化として意味を成すことは明らかにしません」という感じです。

あなたは今週、METRの戦略が時間とともにやや悲観的または挑戦的な状況であるものに適応するために変わったと私に言いました。それが何を意味するかを詳しく説明できますか?

これは比較的最近、タイムラインが短く見え、安全前線でどれほど行われているかという観点で最高の世界にいないと感じることです。

当初、後になるであろうRSPや責任あるスケーリング政策を設計し、どのような評価体制が意味を成すかについて考えているとき、AIからの大災害/文明の終わりの全体的リスクを1%以下に保ちたいようなものを想像していました。そして、複数のラボがある場合、彼らはそれぞれ1%を少し下回る必要があり、特定の展開はおそらく0.1%以下である必要があります。なぜなら、複数のショットを得るからですなどなど。

これは社会的観点から合理的なもののように見えます。個人的に、私は将来の人々も気にかけているので、それよりも低いものを目指すべきだと思います。しかし、今日生きている人々の観点からでも、AIを早く得ることの利益は、はるかに高いリスクを正当化するほど良くないと思います。

しかし、我々がそのリスクを低く保つであろう世界にいないようにますます思います。我々がそれを保つために行う必要があるであろうことを記述することができますが、世界がそれをしているとは思いません。

そして、良い外部監視を持つであろう本当に堅牢な安全ケースをどのように作るかのようなことを押しているなら、おそらくこれは最も基本的な緩和策をできるかからの注意散漫です。そして、それらが機能しているかどうかをチェックする時間さえないかもしれませんが、少なくともそれらをしましょう。リスクを30%から20%に何かにすることは、おそらく我々が集中すべきことです。

つまり、基本的な違いは、リスクを0.1%以下の集約で下げるであろう絶対に理想的な実践が何であろうかをレイアウトするのに多くの時間を費やすことができたということです。しかし、我々が最も基本的なことさえまだしていないなら、明らかにそこに集中するでしょう。なぜなら、インパクトがはるかに大きいからです。そして、それらはまた限界変化だと思います。

「理想的実践」でさえ強すぎると思います。理想的なものははるかにより激しく見えると感じ、これは社会全体が合理的決定を行っている場合の一種の最低限です。みんなが大まかに支持するであろうものです。しかし、それから、非常に注意深いことに見える、ただリスクを少し下げることを試みることまで行くことです。

つまり、現在の軌道でのリスクは30%のようなものだと思いますか?

物事が大まかにうまくいくかどうかの観点で、通常50/50のようなものを言います。我々は未来の価値のほとんどを捉えますか?だから、50%のすべてが現在生きている人々にとって明らかに災害のように見えるわけではありません。何らかのロックインや段階的に軌道から外れることなどかもしれません。しかし、その束は戦争と大災害とAIが引き継ぐようなものです。そして、「みんながこれは悪い」領域である非常に明確です。

そのような絵から始めて、我々が現実的にいる可能性が高い状況で、限界的なものは何ですか?現在我々がしていない基本は何ですか?

一つの非常に基本的なことは、以前に話していた思考連鎖の忠実性であり、実際に思考連鎖を見ることです。だから、モデルが行ってきた推論の合理的なサンプルを見て、基本的なアライメントのチェックを行うことです。これを理解できるか、そしてそれが我々を騙したり悪いことをしたりする方法について明らかに推論しているかです。それは我々が怠る一つの非常に基本的なことで、想像できます。

別の介入は、思考連鎖を解釈可能に保つことを確認することでしょう。企業がモデルからより多くのパフォーマンスを得る何らかの派手な新しい方法を見つけるかもしれませんが、今では人間がそれをまったく読むことができないニューラレーゼのようなものを意味します。それは非常に悲しいでしょう。もしマージンで、それを解釈することを確保するためにできるか、あるいは解釈可能でないものに比べて相対的にあまりヒットでないように解釈可能なもののパフォーマンスを上げるかできる技術があるなら、それはかなり良いでしょう。

「ニューラレーゼ」はモデルによる意味不明な推論のための用語です。結論に到達するために役立つが、人間には全く意味を成さないと思います。

はい、あるいはこれはそれ自体に数字を渡すようなものである可能性もあります。単語のように見えるトークンを出力していることさえありません。

はい、我々がモデルが大量の認知を明瞭な推論を通して行うという観点で、我々がそうであることを期待していたよりもはるかに良い位置にいると感じます。しかし、人々はそれがそうでないようにするために懸命に働いています。

それは、リスクに大きな増分を得るような感じのものの一つです。それをどのように扱うかです。

他の多くの非常に基本的なミスアライメントを被るリスクの物事がありますと思います。あなたの訓練データがどのようなもので、どれほどモデルが故意に嘘をつき、人間が何を望むかについて推論し、訓練ゲームをプレイすることについて推論することをインセンティブしているか、そしてそうすることからどれほど利益を得ているかの何らかの組み合わせです。

実際に策略をしているときにそれを見つけて、それから単にネガティブにそれを報酬し、見える策略を阻止しようとするほど愚かである可能性があるかどうか、私はまさに尋ねようとしていました。人々はその問題がそれがより賢く隠すことを引き起こすかもしれないことを実現しないと思います。策略を必ずしも実際に減らさない。実際に、おそらくそれはより密かになることを引き起こすでしょう。つまり、それは実際にポジティブなものではなく、ネガティブなことをすることです。

その通りです。はい。昔のAI安全では、知能の突然のジャンプを持つことを心配していました。モデルが一種策略するが、我々にとって検出可能ではないほど賢くない体制を通り抜けるでしょう。

しかし、今、これをできるモデルをすでに見ているのでより確信しています。だから、モデルがこれをするほど賢いが、それを隠すほど賢くない時間の期間を持つつもりです。

しかし、私が心配することは、重大なミスアライメントの兆候を見るつもりで、それから「おそらくそれはただノイズだった。それをしないように訓練し、その上にいくつかのパッチをスラップしよう」と言うつもりです。だから、我々は完全に証拠を持っただろうが、いくつかの表面的な修正がそれをすることを止めさせようとする試みをするとあいまいになるだけで、それに基づいて物事を本当に異なるようにしません。

高いレベルで、全体的に、主要AI企業がどれほど責任がある対無責任だと言いますか?

ある意味で厄介な質問は、あなたの参照ポイントは何ですか?すべてのことを知っていたなら、人類が一般的に種類を支持するであろうものの観点から、そして実際に調整できる合理的社会がするであろうこと、彼らは極めて無責任だと思います。そして、私の個人的観点からさらにそうです。なぜなら、平均的な人がするより多く将来の人々を評価するかもしれないからです。

しかし一方で、企業周りの個々のインセンティブ構造を見るなら、これらすべての企業には物事がうまくいくようにしようと本当に懸命に働いている本当に良い人々の束がいて、理解可能な制約内で。権威主義的な体制による誤用や、その種のことを心配している場合、アライメントにより多くの努力を捧げる場合、より速く行くために安全性をトレードオフすることが意味を成す議論の束があると思います。

ローカルで人々はかなり合理的だと思います。少なくとも多くの人が多くの時間合理的です。人々はまた確実に不合理です。しかし、全体的に状況は非常に悪いです。

それは主に調整の欠如のためだと聞こえます。現在生きているすべての人々の観点から考えている一つの組織だけを持っているなら、おそらく彼らはずっとより注意深く行き、物事が間違っているかどうかを理解するためにこの種の評価により多く投資するでしょうか?

はい、部分的に調整のことだと思います。そして、人間が不確実性を扱い、約半分または何かよりも小さい確率を扱うのが悪いということもです。

私がOpenAIにいたとき、適切な一連の質問をすれば、彼らが働いているものが人間すべてを殺すことなどにつながるであろう確率が10%や20%だと言うだろう多くの人々がいました。しかし、それはただ本当につながっていませんでした。

そして、リスクを1%以下に保ちたい、さらに低くしたいなら、ある意味で非常に注意深くあることのように見えます。なぜなら、可能な脅威モデルに関する我々の不確実性と、能力評価のエラーバーとこれらすべてのものに関する不確実性が非常に大きく、これが大丈夫であることを99%確信することは高いバーだからです。

現在のモデルリリースはそのレベルに到達していると思います。そして、我々はそれが大丈夫であることを非常に確信しています。しかし、非常に確信している、おそらくそれは超悪いことを何もしないであろうことを95%確信しているのようなものです。そして、破滅的になる可能性がないことを99%や98%確信しているかもしれませんが、それほど低くするのはかなり困難です。

つまり、そこでの問題は、本当に低いレベルのリスクに到達したいなら、99.9%や99.99%確信したいなら、あなたの理解の外にある何もないことを本当に確信しなければならないということです。なぜなら、あなたの視点から、モデルがどのように機能し、それらが何であり何をしていないかについてのあなたの支配的理解を与えられても、物事は99%安全に見えるかもしれませんが、物事を誤測定している可能性、あなたの評価が実際に何が起こっているかを捉えていない可能性、おそらく彼らは能力を過小評価する方法を理解している可能性が常にあります。

そして、それは実際に何が起こっているかの非常に不明確な図を持っているときに、リスクを本当に低く持ってくることを極めて困難にします。

はい。そして再び、私は99.99%について本当に考えていません。10%から1%にできるかについてより考えています。そして再び、我々がかなり詳細な理解を持っているのではありません。我々が間違っているかもしれません — 我々はただ巨大なエラーバーを持っており、本当に手がかりがありません。

そして、企業は飛行中に飛行機を構築することのような自分自身と安全プロセスを記述しました。「我々はとても注意深くしているが、この本当に高い負担に到達しようとしている」のようなものではありません。「はい、すべてが完全な混乱で、あらゆる合理的なレベルにリスクを保つために非常に懸命に働かなければなりません。そして、デフォルトでそれははるかに高くなるつもりです」のような感じです。

それから押して。人々は安全性、制御、アライメント周りのあらゆる種類の異なる研究アジェンダに取り組んでいます。特に過小評価または特に過大評価と叫びたいものはありますか?おそらく人々が過剰投資している物事?

流行しているが、実際には最終的にニードルを動かすつもりではない特定の研究アジェンダにみんなが群がる心配があると思います。そして、それは人々の注意の大きな転換になる可能性があります。

何が取り組むのに最も重要で、どこでまたはどのような方法でについての質問の両方があると思います。

私が最も興奮している物事は、少なくとも我々がこれまで認識している最高の実践を本番モデルに実際に入れる非常に具体的な実装、そして常に最高のアライメント技術を得ているという不変式を維持しようとすることです。そして、より研究のような新しい方向を生成したり、研究するモデル生物を作成したりするものがあります。

一つのことは、はるかに多くの公共善研究がラボ外で起こっている方が良いと思うことです。2人であるにもかかわらず、Redwood Researchは分野の他のすべて、ラボのすべての人々と比較して本当に高い出力を持っています。そして、彼らが行ったものは本当に良いです。

制御は良く見える、アライメントは良く見える。一般的にスケーリング法則と予測と評価の物事を理解することは良く見えます。

私の意見では、おそらくやや過大評価されている一つのことは解釈可能性です。これが有用ではないということではありません。それが有望で良い方法の束があると思います。しかし、現在非常に高い投資を持っており、それが持っているほど高い投資に値するかわからない。

つまり、それは我々が少し過剰投資していると思うアプローチの一つです。人々が評価したよりも有望だと思うもう一つは何ですか?

はい、欲しい能力を得て、欲しくないものを得ないというある一般的方向があります。現在、ラボが評価にどのように反応するかの感じは、ただより能力のあるモデルを構築するつもりで、それからそれがより能力があり、おそらくこのことを引き起こすつもりで、それから —

「なんと残念」。

はい、おそらく彼らは評価をごまかすつもりか、おそらく彼らは実際に緩和のいくつかをするつもりですが、これらのモデルを構築することで急いで進む理由は何かについて、はるかに懸命に試すことができると思います。

その議論は「そうすれば安全なことをするためにそれらを使用でき、これらの他のモデルから守ることができる」のようなものです。「AIを構築することは重要です」と言うほとんどすべての企業のように、それは「誰か他の人がそれを構築するかもしれないので、それから守らなければなりません」のようなものです。

しかし、これは非常に切り離されていると感じます。世界がより「たぶん一部の人々は危険なAIを構築するつもりです。それからどうやって守るか?」のような感じだったらいいでしょう。

「最小限に能力があるAIは何で、本当に役立つでしょうか?」

その通りです。あるいはたぶん最も重要にすることはAIでさえありません。それがとにかくする必要があることが何であるかは超明確ではありません。我々が多くの不確実性を持っており、一般的に能力のあることを持ちたいだけという合理的議論があると思います。しかし、人々は「最も有用な能力をどのように得て、他のどの能力をノックアウトできるか?」のようにまったく試していない感じがします。

そして、非常に基本的な制御の物事のいくつか、あなたのモデルが乗っ取ることができないことをより確信できる方法は、世界について知らない物事のたくさんがある場合です。おそらくコーディングなどで本当に良いが、2010年以降の世界のイベントについて何も知らず、コンピューターセキュリティについてのすべてと何かそのようなものを除去することを本当に試した。このモデルは実際に単独で物事をできないような感じです。我々がすべての適切なものを与えるこのラボセットアップでのみ機能するか何かです。

はい。これが最も多く議論されたのを聞いたケースは、最先端の生物学、特に最先端のウイルス学や微生物学を訓練データに含めないようにすることです。なぜなら、それは生物兵器を設計することを可能にするような種類のものだからです。

そして、それは比較的明確なポイントです。なぜモデルはこのすべての信じられないほど最先端の生物学を知る必要があるのか、ウイルス学者によって使用されていない限り?そして、その場合、なぜ彼らだけがアクセスを持つ非常に特別なモデルを設計しないのか?なぜ我々のような小売顧客に出て行くモデルが、基本的にこの時点まで人類に知られている最も危険なものを知らなければならないのか?

そして、これはかなりもう少し一般化できると言っています。我々に対して策略に従事しようとしているか、我々が好まない活動に従事しようとしている場合、それらに有用であろう特定の能力を確実に欠いている、単にそれらでそれらを訓練しないことによって、モデルを不具にできます。

私は生物学の文脈外でそのアプローチが非常に多く議論されているのを聞いたことがありません。サイバーの物事もまた別の古典的ケースだと思います。それも使用できるかもしれません。しかし、多くの商業アプリケーションのために多くのコーディングを知る必要があるようなので、おそらくそれはより厄介です。

はい。より狭いもので簡単だと思いますが、いくつかのアプリケーションでそれが必要なら、みんなにすべての時間でその能力を提供する必要がありません。そして、生物学的な物事で、はい、あなたは依然として合成生物学研究を支援したいかもしれませんが、それは最後に追加する追加の訓練フェーズのようなもので、それからそのモデルを非常に注意深く選択された人々のグループにのみ提供します。だから、時々能力が必要な場合でも、我々がターゲットしている、どの能力がどれほど良いかの最前線、現時点でこれについて束の方法で本当に試していません。

一部の情報を除外するだけの問題について人々が押し返すのを聞いたことがあるのは、より能力のあるモデルを生産するときには、あなたが残したものを補間し推測できるだろうということです。2013年以外のすべてを含めたなら、おそらく後で何が起こったかを知ることによって、2013年に何が起こったかをただ推測できるでしょう。そして、2013年以降何も含めなかったとしても、その日付までに持っている情報によって、起こったことのかなりの数を推測できるかもしれません。それはどの程度深刻な制限要因ですか?

はい、これは超堅牢な介入ではないと思います。これは一種「リスクを50%から40%に取得しよう」の世界です。

ここでモデルから知識や能力を実際に除去する方法、あるいはどれくらい推論できるかを理解するより多くの技術的作業があると思います。おそらくこれを合理的によく評価できると思うからです。

サンドバッギングについて何らかの懸念があっても、モデルがこの基本的知識を持っているかどうかを理解しようとしているだけなら…RLでサンドバッギングをするあるレベルがあり、分類微調整をしているだけならサンドバッギングをするために要求される知能のはるかに高いレベルがあります。

つまり、モデルが実際にこの束の質問について答えを知っている場合、微調整で、それを本当に迅速に拾うことで、それを見ることができるはずです。だから答えはすでにそこにある種入っていたに違いありません。だから、この意味でモデルが何を知っているかを言うことができると思います。

どれくらい迅速に彼らが後で学ぶ方法によって…?

はい。そして、以前に話したように、実際に素晴らしいセキュリティを持っていないなら、知りたいことは「これらの能力を持つためにモデルを微調整するのは簡単ですか?」です。「これらの正確な重みとして今それらを実証しますか?」ではなく。

はい。知らない人々のために明確にするため、サンドバッギングはモデルが実際にできることを実際にはできないふりをすること、あるいは基本的にあなたが実際にできることを過小評価することです。スポーツ用語だと思います、試合を投げている人々から、基本的に。

はい。

忘却についての作業はありませんでしたか?ハリー・ポッターの存在を忘れさせようとする努力はありませんでしたか?彼らは一種成功してそれをやったと思います、あるいは何かそのようなものを忘れました。

その正確なことは馴染みがありません。もっともらしく聞こえます。人々がこれについてやったものがあると思いますが、「アンラーニング」と呼びます。それについてそれほど見たことがありません。そして、特に、それのあらゆる種類の応用を見たことがありません。

はい、私はそれについてほぼ1年聞いたことがありません。それは少し残念です。他に潜在的に過小評価として叫びたいものはありますか?

人間が困難なモデル出力を評価するのを助ける作業がより多くないのは悲しいです。基本的に私が以前に働いていたもの、議論とIDA [反復蒸留と増幅] について。この全体のアライメント研究のジャンルは、あなたよりも賢いときにモデルが破壊的なことをしていないことをどうやって確認するかのようなものです。そして、評価者に体系的優位を提供する構造をどのように作成できるか?

議論はこれらの一つです。モデルのコピーを持ち、互いに議論している場所です。判断できる特定のサブ質問があり、各サブ質問が上の質問にどのように関連するかを判断できます。そして、これは全体的答えを決定するよりもはるかに簡単です。

ただ人間がより迅速に良い判断をするのを助けるより多くの物事があるかもしれないと思います。これは実際にあなたが望んだ行動でしたか?これは実際に何らかの望ましくない方法で権力を求めていましたか?

真実と正直さのようなものへのより忠実な訓練シグナルを持つほど、モデルが訓練プロセスと訓練プロセスの欠陥について推論することをインセンティブする少ないものを置いています。

そして、人間が評価できるものを増幅するこれらの技術をより多く持つほど、より多くチェックできるかもしれません。これらのモデルが、彼らがこれらの不正な、安全でない、悪いモデルを誰か他の人が開発したものに対する我々のすべてのセキュリティを実行している場合です。何が起こっているかわからない。我々のモデルが実際に不正なモデルと密かに協力しているかどうかわからない。

二つのモデルを持って互いを敵対的に評価し、彼らがしている最も疑わしいことを指摘してそれらを評価するスキームを持つほど良いほど、いや、実際に私の望むことをしてくださいのために訓練できるほど良いです。

以前に少しスパイシーなことを言いました。おそらくRedwoodが、ほんの一握りの人々で、すべての主要企業がまとめて生産しているのとほぼ同じくらいのアライメント研究を生産していると思うということです。実際に文字通り真実だと思いませんが…おそらく文字通り真実だと思いますか?

企業がより多くのアライメント出版を生産しない障壁は何でしょうか? リソースがそこで非常に不均等になるので、理解するのが少し困難です。

はい。私がさらされているものでバイアスされているかもしれません。なぜなら、Redwoodが行ったもののことをはるかに認識しているからですが、それが現在の比率の種類であることは実際に私にとってもっともらしくありません。

企業がより生産的でない理由:以前に少し言及したものがあります。実際にインフラと研究を行うことができる速度がより遅い可能性があることについて。

異なるインセンティブと圧力があると思います。次世代モデルの出荷をブロック解除するものをすることよりも、長期的に最も重要な研究をすることです。

同じ場所にあまりにも多くの人々がいる、あるいは何かのようなものだと思います。すでにたくさんの人々を持っているときに限界の人がより有用でないようなところです。

また、おそらく企業がより短期にフォーカスしていると思います。これは短期の時間地平線と局所性に似ています。彼らは自分の企業のことだけを考えていて、分野全体にとって最も重要なことではない、そしてそれをどのように広めて他の人々が採用することを簡単にするか。

そして、公開するための束の障壁があり、それはおそらく一部の人々が去った理由で、十分に自分の仕事を公開できないことについて不幸でした。

つまり、おそらく彼らは今、何を共有し何を公開するかについてはるかに注意深いです。多くのレベルのレビューがあると想像します。誰かが何らかの洞察を持つことと、それが出ることの間に立っています。特に企業が作成している可能性があるリスクに関連している場合、多くの人々がそれが共有される前にそれを精査したがるのを見ることができます。

はい。そこに入ってブログ投稿を編集するコミュニケーションチーム、「ここでもう少し楽観的に聞こえるようにできますか?」と言って。

おそらく私が過大評価だと思うもう一つのもの、人々が時々アライメントを混同していると感じます。モデルが我々の望むことをしようとしていることを確認する意味で、極めて悪いことをしようとしていないことを確認することと、複雑な指示に従うことでより良くするか、我々が望むものの方向でモデルの能力を向上させるより他のものです。製品をより良くするか、我々が望むことについて精巧な規則に従うことについてより多くのものです。

そして、人間がどの出力がより良いかを知らないが、何が起こっているかについてモデルが多くのことを知っている問題で進歩である進歩により興奮するでしょう。それは我々が複雑な指示のセットに従うためにモデルをより良くしたより有用に見えます。なぜなら、そうでなければそれはまたこの政策を持つべきだったことを忘れていたか何かです。それは中核問題で進歩をしているようには感じません。

以前にニューラレーゼについて話しました。モデルが従うことができない内部のでたらめの種類ですが、何らかの方法で問題を解決するのを助けています。ニューラレーゼを解釈する科学を持つことは可能ですか?数字の束をモデルが理解できたものから忠実な方法で英語に戻すために?

これの一部は基本的に既存の解釈可能性と連続していると思います。そして、あなたのモデルが単一の順方向パスを行うことからあなたが今何らかの再帰的なものを持つことに行っただけのようなものです。活性化を再びフィードしている。そして、基本的に同じすべてのinterp thingsをしたいです。

他のアプローチもあると思います。我々が具体的にこのケースについて話しているなら、あなたが解釈可能な思考連鎖を持っていて、それからあなたがそれで過度に訓練したか、何らかの最適化をして、でたらめを得たところです。完全に解釈不可能なものから始まったものからそれを回復することとは対照的に、あなたが持っていた既存の解釈可能性を保存する技術の束があるかもしれません。

あるいはニューラレーゼに移行する必要なしにそのスピードアップを得ることを可能にすること。

その通りです。企業がそれが起こることを許可する理由は、理解できる推論を要求することがただそれを抑えているだけだと思うからです。それが独自のでたらめを使用することを許可する必要があります、なぜならそれがより良いからです。しかし、それからその推論を翻訳し戻すことを要求する全体他のレイヤーを追加したら、それはただ再びそれを遅くしているだけです。

これは規制に成熟している分野かもしれませんか?ニューラレーゼを使用するモデルを持つことはできないと言うべきでしょうか?あるいは思考連鎖が理解可能かどうかについて常にあまりにも多くのグレー領域があるかもしれませんので、砂の中に描くことができる非常に明るい線ではありません。しかし、基本的にニューラレーゼなしと言うことの精神で行動することを得ることができれば本当に良いでしょうと感じます。

はい、モデルが策略について推論するような種類をしないように訓練しない。それが解釈される必要があります。それが実施されたらとても良いでしょうと感じます。

ここで技術的進歩のための多くの機会があると思います。何らかの種類の要約や翻訳を持つことがはるかに実行可能かもしれないところで、忠実であることを何らかの方法で確保しています。人々が取り組むことができるもののように感じます。

試すことができる常識的規制の観点で、しばらくの間シャワーの思考を持ってきました。規制科学者には、これは愚かに聞こえるでしょうが、なぜAIがAIを向上させるために使用されることを禁止しないのですか? AIが再帰的自己改良ループを持つことができないことを知っていれば、未来についてずっと良く感じるでしょう。それは問題を大幅に解決するでしょう。

問題は、もちろん、それはすでにその方法で使用されています。彼らはすでにコーディングを助けるためにそれを使用しています。彼らはおそらくすでに言語モデルを使って彼らが持つランダムな質問をすべて研究している。だからそれは支援しています。

しかし、あなたがそれをルールとして持ち、現在持っているものよりも印象的でない、何が許可され何が許可されないかの間の線を引くかもしれない合理的な方法として解釈したなら。基本的なプログラミングでの支援を許可するが、それ以上印象的でないものです。それは安全の観点から大幅改善になると思います、基本的に。デフォルトよりも悪い可能性はほとんどありません、それについて全くルールがないところです。

これらの種類の素朴なもの、街の人が提示されただけのものをどう思いますか?この問題で「なぜ明らかにこの巨大なリスクを作成しているものを禁止しないのか?」と。ここで何らかの距離を得ることができますか?

規制実行可能性について尋ねるのに最適な人ではないかもしれません。あなたが言ったように、人々がすでに物事をしているなら、もうそれをできないと言うのは困難ですと思います。ここでオーバーハングが作成される可能性があるのが心配でしょう。人々がただ何かをすることを控えていて、それから突然たくさんの改善を得るなら。

その通りです。人々は中国がとにかくそれをするだろうし、これは我々をそんなに抑制するだろうと言うでしょう。

その通りです。あなたができることはあります。あなたのモデルを何かをさせる前に必要な信頼の量のようなもの。あるいはこの能力レベル以上のより多くのモデル、この緩和が必要です。精神的に最も意味を成すものは、進歩率を気にしているわけではありません。時間内に緩和策を持っているかどうかを気にしています。

AI研究開発を線を引くものとして描くのはあまり好きではありません。なぜなら、これらすべての基本的コーディングツールとある種連続しているからです。あるいは人間が機械学習研究をすることを禁止することもできました。何かそれはある方法で奇妙な風味を持っています。そして、あなたがAI進歩が怖いとすでに同意していないなら、なぜより多くのAI進歩が怖いのですか?それは最終的脅威モデルのものではありません。しかし、実用的に、あなたがこの狂った再帰的自己改良ループをしているなら、緩和策を設置していないつもりです。

あなたは戻ってきて、なぜEキーをキーボードから除去しなければならないように、AI研究をしているなら、ランダムな方法で彼らを無力化しないのかと言うかもしれません。それは彼らを遅くし、本当に迷惑にするでしょう。

しかし、ここでの違いは、AIが仕事をしているなら、人間が起こっているあらゆることからますます離れて得ることです。それはますます不可解になります。それがスピードアップされたであろうほどそれを遅くするものを持つという素晴らしい特性を持っていると思います。それがスピードアップされればされるほど、それはより多くそれを遅くします。

はい。一般的に私は「この緩和をしなければならない」ようなものを好みます、「ただ遅くしてください」よりも。

それは問題を修正するインセンティブを与えます。あなたが適切にそれを指定した限り、彼らが進むことができるようにです。それを禁止し、常に禁止されるつもりだと言うなら、そのようなインセンティブは作られません。

はい。そして、より広いグループの人々がそれを支持することができるものです。そして、あなたが何時に何の能力を持つかについて人々が意見が異なる場合について、あるフリーランチを与えます。ただあなたを遅くするものに反対するかもしれない誰かは、「このレベルに達したら、この緩和をする必要があります」に反対しないかもしれません。だから、ある方法でより魅力的で、ある方法でより合理的になることができます。

はい。それが悪いアイデアであっても、危機で得る可能性がある規制の種類だと思います。再帰的自己改良ループを蹴り、それがAIが軌道から外れて損害の束を引き起こすことに迅速につながるなら、それから政治家を巻き込み、彼らは「あなたは何をしていたのですか?!すべての人間を取り出してAIにすべての仕事をさせたのですか?明らかに我々はそれを禁止しなければなりません」のような感じです。

それはおそらく何もないよりも良いでしょうが、他のより洗練されたものに比べて実質的に最適ではない素朴な規制になるかもしれません。

はい。「ただ遅くする」や「ただ一時停止する」のようなことがバックファイアする可能性がある一つの方法は、我々のすべての一時停止ジュースを、あなたのモデルから最も安全進歩を得ることができる部分に保存したいことです。物事が本当に危険になる前に。

そして、人々が「我々は一時停止し、それからすべてが良かった」という感じなら、それからみんながこれでうんざりし、これは愚かだと思い、今進みましょう。そして、今計算がより加速し、これを通り抜ける準備ができています。その移行の部分を通り抜けることを本当にできるだけゆっくりしたいです。

つまり、以前に自分に課すあらゆる制約は、後で非常に迅速にスピードアップするためのより多くの潜在的能力を作成するだけです。

はい、それは一つのモデルです。これが完全に正しいとは思いません。人々が時々このファクトを逃すと思うだけです。AI研究者が大災害的にリスクの直前の時点で行われるであろう重要な安全作業の多くについてどのように考えているかについてより顕著です。

新しいトピック: 一般的にモデルをオープンウェイト化することは、あなたの観点から良いか悪いですか?

これは私がかなり心を変えたものです。より低い保証世界にいることとも少し関連しているかもしれません。

当初、問題がこれらのものが誤用される可能性があるか、人間がそれらを誤用しようとしなくても危険である可能性があるなら、これは非常に危険に見えました。それらが至る所にあることを望まず、「実際、これは悪いアイデアです。それを取り消しましょう」と言うことができない。それは不可逆的行動であり、多くのことが間違う可能性がある表面積をより多く開きます。少なくともいくつかの脅威モデルについて、大きな攻撃/防御不均衡があるかもしれないと思うなら。

だから、リスクを非常に低く保とうとしているなら、そんなに能力のあるものをオープンソースできないと本当に感じます。再び、現在のモデルであっても、スキャフォールディングや微調整や何かでの他の進歩で、このモデルを非常に危険なものにすることが非常に簡単になる可能性があることを除外するのは困難に見えます。

ラボ内ですべてを保持することがどれほど良いかについて一般的に視点をシフトしました。ラボだけが能力について何が来るかを知ることを望むか、みんなが知ることを望むかという以前のこととやや似ています。

実際に、オープンソースモデルは多くの本当に良い安全作業をするために使用されてきて、これは重要で良いことでした。そして、より健康で、独立した、企業外の研究分野を持つことは良いようです。あなたが作るオブジェクトレベル安全進歩の両方について、そして実際に何が起こっているかを理解し、実験などをできる独立した人々を政策立案者が持つことについて。

また、一般的に、ある種のラボ例外主義にはより懐疑的になりました。多くの企業がこれを持っています、「我々だけが責任がある。すべてを自分たちだけに保持し、政府が気づくには遅すぎるし、他のみんなは無責任です」のような。独立したラボがより多くこれを言っていて、他のアクターがどれほど責任があるかに実際に反応しないほど、これはよりもっともらしくなくなると思います。そして、企業をより少なく信頼するなら、それのより少ないものを望みます。

みんなが常に自分が例外だと思うことの一つでもあると思います。「それは良いが、我々は実際に良く、実際に責任があるでしょう。我々は監視を必要としません」。そして、日光は最高の消毒剤です。監視は本当に重要ですし、セキュリティマインドセットと秘密主義と物事をロックダウンすることは悪い場合があります。

そこで解き明かすべき合理的な量があるようです。あなたが言ったオープンソース化が実際におそらく数年前に私のような人々が恐れていたよりも良かった基本的理由は、アライメントと安全研究にとって絶対的な恩恵だったということです。なぜなら、外部の人々が実際にラボで働く必要がないことを意味するからです。独立してものを行うことができる、我々が話したすべての理由で本当に有用です、企業外で基本的にフロンティアモデルへのアクセスを持つなら。

そして、それとは別に、企業が非常に秘密主義焦点のマインドセットを持つこと、モデルに関するすべての情報を自分たち自身内に保持したいことが危険なメンタリティだと言っているように聞こえます。

そして、おそらく重みがオープンで至る所で使用されているものを持つことが実際に役立つです。人々が自分自身のために思考連鎖を見ることができ、モデルを修正し、改善された場合何が可能かを見ることができるので、高度に制限されたAPIを通してのみアクセスした場合は不可能なことです。

その通りです。また、残りの世界もテクノロジーにアクセスを持つことを好むかもしれないと思うポイントもあります。一部の企業は悪いアクターだと思うか、そこに悪いアクターである人々がいるかもしれません。

しかし、はい、主なことはラボの透明性対セキュリティとロックダウンの一般的立場にあまり具体的でないと思います。

それについてもう少し詳しく説明できますか?

核兵器の歴史への私の副次的興味の一つです。そして、秘密主義と人事制限と物事が、安全懸念や倫理的懸念を持っていた人々、あるいはあまりにもお節介か干渉していた人々を沈黙させるために使用された例の束があると思います。

両方区画化— だからより少ない人々が何かについて知っていて、それについて不平を言うことができる— それからあまりにも多くの倫理的懸念を持っていた個々の人々を監獄に入れたり、さもなくば除去したり除外したりしようとすること、基本的に。特にシラードで。

そして、我々はこれがAIケースで具体的に使用されていることをすでに見ていると思います。レオポルド・アッシェンブレナーがOpenAIから解雇されたとき、これが機密情報を漏洩したことについて何らかの主張があったと信じています。

その詳細はわかりませんが、基本的にこれらの企業のみんながテクニカルには漏洩している多くのことをしていることは非常にもっともらしいです。そして、誰かを除去したいなら、すべての文書を通り抜け、彼らがした何かを見つけることができます。あるいは一般的に、区画化の理由です。この人はそのことについて迷惑になるつもりです。彼らをそれから遠ざけましょう。

そして、トリニティテストを行うとき、大気を発火させる可能性があるかどうかの懸念があったときに、これが非常に秘密のプロジェクト全体で、政府や議会の監視がそれほどないということの下流で、基本的にこの決定を行った人々は何の民間監視もありませんでした。たまたまそのプロジェクトで働いている人々だけでした —

ただたまたまそれに取り組んでいる科学者やエンジニアの束です。

はい、そして軍事。あまりにも迷惑なことについて科学者たちに黙らせようとすることの多く、私は思います。

そして、そのプロジェクトに長年取り組んできた人々でさえ— さもなくば比較的平和主義者だったか兵器について超興奮ではなかった人々でさえ — それがあなたが長年取り組んできたものになったら、「たぶんこれは良くない」と言うのは本当に困難です。

「たぶん我々は完全に停止すべきです」。

その通りです。その歴史からのより多くの逸話があると思います、現在のAIのものに関連しています。しかし、AIを開発している企業は、このような利益相反を持っているので、ここで特に悪い意思決定者のように見えます。すべての情報権力を彼らの中に集中化することはたぶん悪いアイデアです。

セキュリティマインドセットを持つことの明らかな利益は、危険な情報が他のグループに漏れないことです。しかし、欠点は、企業内で情報をサイロ化し始めるなら、さらに少ない人々がフロンティアモデルが何をできるかの全体的図の感覚を持つかもしれないことでしょう。誰にでも組織外に知らせることについて非常に注意深いなら、ガバナンスが起こることをより困難にし、より広い社会がリスクが彼らが受け入れ可能でないと見なすレベルに達している場合を評価することをより困難にします。基本的に他の誰からの監視を少なくします。

はい。これは、おそらく我々が対応すべき安全インシデントだった警告を逃す機会を意味するかもしれません。「うわー、実際にみんながこれを本当に真剣に取るべきだし、我々はフリークアウトし、我々はこの種のことを止めるべきです」と。代わりに、「みんなにそれについて話さないようにしよう、誰にもそれについて知らせないようにしよう」のような感じです。

あなたは何かが内部で間違って起こるかもしれないと言っていますが、彼らは誰にでもこれが起こったことを知らせるのはあまりにも危険だと言うかもしれません。だから、それをカーペットの下に掃くための言い訳を与えます。さらに問題となる可能性があるのは、現在のプロジェクトを支持しない人を、会社で起こっていることについて誰かに話したことがあるなら、基本的に任意で人々を解雇することを可能にします。みんながそうしているとしても、その根拠で人々を解雇できます。

あなたが言及したレオポルド— それはレオポルド・アッシェンブレナーです。彼の犯罪は人々に企業内の情報セキュリティが中国人がモデルを盗むのを止めるのに十分でなかったと話したことだったと思います。あるいはそれが彼の大きな趣味の馬でした — みんなが多少同意し、みんなが困っていることです。

たぶん彼はそれについてあまりにも多くの問題を作っていて、企業により多くの規制精査をもたらす可能性がありました?

その通りです。この特定のケースで何が起こったか正確にはわかりませんが、このパターンが現れないであろうことに非常に驚くでしょう。

核プロセスの間に起こった特定のケースの詳細を知らせたいですか?あなたはシラードに言及しました。核兵器が可能かもしれないことを最初につまんだ人々の一人でした。そして、彼はナチスがそれをする前にアメリカがこれをすることが本当に重要だと様々な人々に書きました。

その通りです。私はシラードファンです。それはランダムなことです。これは我々が考えているものの多くと似たような方法で考えている感じの歴史的人物です。範囲感度で本当に良かったと思います。彼は実際に世界で起こっている最も重要なことが何かについて考えていました。

そして、技術進歩と世界イベントなどを予測する能力についてより楽観的である理由でもあります。そして、おそらくほとんどの人がそれで悪い理由が実際に試していないからだという証拠です。

つまり、彼は1930年代初頭に核兵器を予見しました。「中性子によって開始され、より多くの中性子を生成する反応を見つけることができれば、理論的に連鎖反応を作る方法はこちら」のような感じです — それから「ナチスがそれを得た場合悪いように見えるので、これを秘密にしておくべきです」と言いました。

そして、戦争の1年前にアメリカに移動すると言いました — そして実際に戦争の1年前にアメリカに移動しました。実際に試しているなら、おそらく地政学的イベントは一種明白でした。それが船や潜水艦に電力を供給するためにこれを使用するかもしれないし、そして実際に技術の含意を考え抜くことはかなり可能に見えました。

それから、彼はアインシュタインと一緒に、アメリカ政府に爆弾プロジェクトをアメリカで行動に蹴り込んだ手紙を書きました。元の正当化はナチスが核独占を持つことを望まないということでした。それは非常に合理的な正当化に見えます、そしてそれは非常に悪いように見えます。

しかし、プロジェクトの過程で、それは「実際に、我々は戦争を短縮するために日本を爆撃するためにそれを使用するつもりです」から、「今それはソビエト連邦との軍拡競争です」に移行しました。そして、実際にその勢いの後で去ったプロジェクトの人はほとんどいませんでした。ジョセフ・ロートブラットは一人の人でした。

つまり、ある時点でナチスがこの兵器に取り組んでいないことが明らかになり、最終的に彼らは敗北しました。それは、これらの人々のほとんどがプロジェクトに関与する説明として与えられたものを無効化しました。ナチスを打ち負かすためだったからです。しかし、あなたは基本的に99%の人々が新しい説明を与えられて立ち往生したと言っています。

その通りです、はい。ここに来た時からの複数の人々がいました、「これはひどいことで、これに取り組みたくないが、ナチスだけが爆弾を持つこの特定のケースでは、それは本当に悪いでしょう。だから、この特別な状況で取り組みます」と言いました。それから、それはもはや実際に真実ではなく、人々は「まあ、今ここにいるから…」のような感じです。投資があり、これらのことは独自の勢いを得ます。

AIで並行を感じます。人々が最初であることや押し進めることや何かの理由を与える観点で。彼らは「我々が最も安全です。この他の競合者はこのことをしています」のような感じです。そして、状況に関するこれらの他の事実が変わるにつれて、彼らの行動が変わりません。

つまり、もう一つのことは、ナチスが実際に核プログラムを持っているかどうかを理解しようとすることに比例して非常に少ない努力が入ったことです。基本的にアメリカのスパイ活動はありませんでした。いくらかのイギリスのスパイ活動があったと思いますが、アメリカ人はイギリスがこれについて学んだことの上にさえいなかったかもしれません。

つまり、再び、彼らが実際にナチス核独占を避けることを確認しようとしていたなら、「ナチスはどこにいるか?これは実際にリスクですか?」についてずっと多くやっていたでしょう。

そして、シラードがずっと良く技術的なものを予測することのもう一つの例:彼はただ「ソビエトは本当にすぐに爆弾を持つでしょう」と言いました。[マンハッタンプロジェクトディレクター レスリー]グローブスは「ロシアにウランはありません」と言いました。何を話しているのですか?鉱石はやや低品位になるでしょう。すべてのロシアにウランがないようなことはありません。ロシアがどれほど大きいか知っていますか?そして、「我々の輝かしいアメリカの少年たち:誰もそれに匹敵しません」のような感じでした。いや、これは実際にそれほど困難ではありません。

あるいは彼らはそれをコピーするでしょう。ロシアのスパイがいました。

まあ、はい。少数だけですが、アメリカが実際に持っていた前にロシア人が持っていた様々な情報がありました。イギリス外務省のスパイのため、私は思います。つまり、ロックダウンと秘密についてのこのすべてのものがあり、その秘密は完全に役に立ちませんでした。

しかし、人々はこの軍拡競争について計画しませんでした。しかし、シラードは「今本当に重要なものは、アメリカとソビエト連邦の間の核軍拡競争があることで、潜在的に世界を終わらせることです。そして、我々は今ロシア人との緊張を減らす方法を理解し、その可能性を低くしようとする必要があります」と言いました。そして、人々は「何でも。彼らは決してそれを得ません」のような感じでした。

はい。それは理解するのが困難です。

はい。そして、広島を爆撃することの代替案について考えることに入った努力の量、実際に都市を破壊すること — あなたは能力を実証するために空中でまたは人口のない地域で爆弾を爆発させることができるかを知っていますか何かそのようなもの?そして、それは彼らがこの決定をしていた日に昼食でそれについて少し議論したようなものでした。しかし、重要な決定のいくつかにそれほど少ない努力が入りました。

そして、兵器の潜在的世界ガバナンスと似て。検査と物事のAcheson–Lilienthalプランのように、それに取り組んでいた人々は利益相反にありました — 彼らが正しく記憶していれば、恩恵を受けるであろう様々な産業的なものを持っていました。

そして、再び、それはただ非常に中途半端な努力でした。そして、何かをやったと言えるように何かを提供したかったようなものでした。「我々は何かを提供したが、ロシア人がノーと言った」と言えるように。しかし、それがより多くの証拠を持っているようには感じません、このようなものが完全に実行不可能だったということです。ソビエトが物事がどれほど悪く彼らのために一般的に進んでいたかについて知られることをそれほど受け入れがたくしない方法で、これについての透明性を持つことができる機構デザインに非常に少ない努力がありました。

わからない。実際に最も重要なもので実際に試すことのいくつかの種類は、もしあなたがよく考え抜かれた詳細な代替提案を持っていたなら、本当にてこ入れされたでしょう。

これは推測ですが、おそらく可能です。

そこから一般化したことは、人々が「これをしたくないが、Xのためにしなければならない」と言う場合に目を光らせることです。しかし、彼らはXが真実かどうかを確信して見つけることにほとんど興味を示さず、最新でXが真実かどうかを維持しません。また、おそらくXを変更し、Xを修正し、彼らの行動をもはや必要でなくするステップを取ることにも興味を示しません。そして、Xが真実でなくなったときも、彼らの行動を変えません。

これらは、おそらくXが本当の理由ではないかもしれないことの種類の贈り物です。そして、現時点でかなりの量を見るかもしれないと思います。

その通りです。そのことは独自の勢いを獲得しました。そして、シラードがトルーマンの着任国防長官だったと思う人を、日本を爆撃することは悪いアイデアだと説得しようとしていたとき、彼は「それを何もしないで議会に費やしたすべてのお金について何を言うつもりですか?」と言いました。おお、神よ。

はい、それは委員会聴聞会でより良い答えを持つために、これほど多くの人々を殺すのは少し恥ずかしいことです。

はい、しかし、それが物事が決定されるものです。事前スケールアップ評価が良い理由の一つです。

説明すると、それはモデルが安全かどうかを理解する理由です、すべてのお金を訓練に費やす前に。なぜなら、すべてのお金を費やしたら、ボードに何を言うつもりですか?

その通りです。投資家。核のもので今、中国について話すことに別の類推を思いました。おそらく重要だったのは、異なる国の個々の科学者のコンプライアンスでした。

これは非常に不明確ですが、ドイツの爆弾プログラムがあまり遠くに行かなかった理由の一部は、科学者がナチスを核で武装させることについてあまり興奮していなかったからだという部分的なヒントがあるかもしれません。

彼らが成功の確率を下げるために意図的に悪い戦略的決定をしたことが示唆されています。基本的に、彼らはそれをしようとしていたからです。

その通りです。

これをオープンウェイティング、オープンソースの質問に結びつけると:すべての最高のモデルをオープンウェイト化し始めたら、我々は一種焼かれていませんか?それはあらゆるガバナンスを事実上不可能にします。あらゆる誤用が非常に迅速に起こることを意味します。

アップサイドストーリーは何ですか?より良い警告をより早く得ることを意味すると思います。誤用に反対する人々とモデルが実際に誤用で何らかの破滅や何らかのひどい犯罪にすぐに誤用されるなら、ガバナンスの改善につながる可能性があります。

ひどい犯罪を引き起こすために物事をするつもりはありません。

つまり、すべてをできることをして、それを止めますが、失敗し、ガバナンスに反対する人々が成功する可能性がある副次的なものは、我々がすべて誰が正しかったかをより早く見つけることですと思います。

これまでのオープンソース化は安全研究への影響のために非常に明確にネットポジティブに感じますと思います。私は、誰もがオープンソース化している場合に我々が軍拡競争にあることを議論するのがより困難であるべきだと思います。しかし、何らかの理由でそれは誰も止めていないようです。

常識が物語の邪魔になることを決して許さない、あなたの商業的利益のためにスピンしたいです!つまり、DeepSeek R1のリリースについて話しているです。これは中国人が開発しそれから何の見返りもなしにすぐに我々に無料で与えた超兵器です。

実際に彼らが互いに彼らの最大の技術を与えていることを示します。それは中国人との非常に激しい軍拡競争にいることを本当に示します。

[笑い] はい。

文字通り兵器デザインを与えることが確実にあなたの敵への橄欖の枝になるであろうことは本当に思うでしょう。

あなたはそうであろうと思うでしょう。はい、基本的にあなたが以前に言っていたことは、インシデントがある場合、彼らはラボ内だけでなく公開で起こるということです。そして、これくらいスケールアップすることを許可される前にウェイトをオープンソース化しなければならない場合は特に。

それがあなたが回避する一つのことです。ラボが内部でこの狂ったことをしていることで、誰も何のアイデアも持っていません、そして、少なくとも外部では、このモデルがこのことをできることにかなり近いことを実証できるでしょう。そして、おそらく我々は彼らにさらに大きなものを構築させるべきではありません。

また、非常に良いセキュリティを持っていない限り、あなたが問題ないという物語は開放ソースにしないことに依存しませんと思います。十分に強力なモデルを持っているなら、それに興味があるであろう多くの人がいますと思います。そして、企業は現在、国家アクターや最高のプライベートアクターを締め出すセキュリティを持っていません。だから、あなたの物語、あなたの勝利理論は「良いもののために我々の良いモデルを使用し、それがこれらの他のモデルからの何らかの害を防ぐでしょう」のようなものでなければなりません。

これらの物語のほとんどは、オープンモデルが至る所にある場合も実際に機能します — なぜなら、より多くの計算を制御する人々のより多くが、これらの種類のことをモデルにしてほしいよりも、これらの悪質な種類のことをモデルにしてほしいからです。そして、非常にロックダウンしているか、悪いアクターがいないかのどちらかでなければならないように感じるか、何らかの方法でこれらのモデルを防御的に使用できるという議論をしています。

そこでの物語の一部は、これらの企業のセキュリティがそれほど強くないということです。モデルがとにかく様々な悪質なアクターに漏れないつもりです。少なくともそれについて正直であるべきで、そうすれば、それを盗む必要さえなかった多くの素晴らしい人々がそれを使用できるかもしれません。

その一部は非常に興味深いです。ほとんどの人は知っていると思いますが、おそらくみんなではありませんが、北朝鮮は実際にオフェンシブサイバー能力で非常に強いです。北朝鮮を技術的大国として考えないかもしれませんが、人々から情報を盗むこの一つのことについて、彼らはかなり良いです。

その通りです。

長年にわたって、AGIと核兵器の間のこの類推を使用してきました。それは確実に人々が長年にわたってたくさん引いた比較で、人々はそれが興味深いと思う理由と誤解を招くと思う理由の両方を持っています。

重要な不一致が何だと思うか見解を与えたいですか?今日の状況はシラードなどとどのような方法で異なりますか?

明らかに大量の不一致があります。AIは単にはるかに汎用目的です。それが核拡散の物語が非常に成功だった方法で、制限されたことが判明した可能性があると思います。それがあまりにも恐れていたほど不一致ではないかもしれません。10年前のおそらく人々はAIを構築できるだろうと心配していました。それは適切なアルゴリズムを思いつくことだけで、それからあなたのラップトップでそれをできるでしょう — そして、それを制御するのがはるかに困難だったでしょう。

ある方法で核拡散の物語は非常に成功しています。それは制限されました。みんながこれらを持っているわけではありません。そして、それは検出が比較的簡単だからです:誰かがこれをしているときにそれを知ることができますなぜなら大きな施設が必要で、産業能力が必要だからです。

AIは、我々が恐れていたかもしれないよりもそれにより似て終わったと思います。多くのチップが必要で、多くのエネルギーが必要で、大きなデータセンターが必要です。そして、誰でもいつでも地下室でそれをしているわけではありません。

おそらく重要な戦略的不一致は、核がデフォルトで大きな産業基盤を持つ国々を有利にするということだと思います。それがとても産業集約的だからです。大きな先進国をテロリストグループや不正国家などに対して差別的に押し上げます。そして、それはあまり盗難可能ではありません。あなたが持つ核能力の量は、あなたの既存の力にかなり比例しています。

一方で、AIは生物学により類似していると思います。より不安定化する方向、あるいはより小さなアクターを好むかもしれません — 少なくともいくつかの脅威モデルでは、あなたが始めるリソースの量はそれほど重要ではありません。なぜなら、比較的簡単に盗むことができるからです。核物質ははるかに盗むのが困難です。それはただそこにある物質で、大きいからです。しかし、これはソフトウェアです。これはデータです。比較的簡単に漏れることができます。

そして、自律的AIについて話しているなら、それは自分自身のコピーを作り、周りに広がることができます — だから、あなたが届けることができる量は、始めに倉庫に持っていなければならなかった作業に比例しません。それは生物兵器により似ています — それは自分自身を広げ、始めの作業に結びつけられておらず、テロリストグループや何かがカオスのエージェントとしてより多く使用できる種類のものです。

この議論をより多くの人々が認識してほしいです。なぜなら、米国や中国のような大きな国家が急速なAI進歩を懸念すべき理由だと思うからです。それは単に不安定化する物事だからです。そして、彼らは現在うまくやっていて、一種上にいます。そして、突然制御不能に広がることができ、テロリストグループや何かに盗まれることができるものを作ることは、実際にあなたの利益にありません。

それが米国の利己的利益にある方法は、おそらく関連技術で現在リードを持っているが、そのピリオドが過ぎ、はるかに安くなる — そして、これらのモデルがかなり広く普及し、可能な限り盗む、両方状態によってだけでなく私的アクターによっても、おそらく、彼らがソフトウェアだから、そして至る所にある — それは実際に米国の戦略的立場の大規模な弱体化、その安全保障立場です。生物兵器の普及が破壊的である同じ方法で。

彼らが生物兵器を作成することを阻止し、それらにタブーを作ることに非常に熱心だった理由の一つは、前世代の大量破壊兵器、核兵器が支配的なものであり続けることを確保するためで、それは米国が独占を持っていたものでした。

つまり、我々が核兵器と生物兵器が今時代遅れになり、実際にそれは損害を与えたいならAIだというポイントに到達し、これは非常に広くすべての多くの異なる種類のアクターに普及しているなら、米国政府は今、世界全体でより弱いプレーヤーです。中国政府もより弱いプレーヤーです。

少し前にそれについて言及していたNSAのことに類推があると思います。アメリカ内のサイバー攻撃組織の一つです。人々のコンピューターや電話に侵入し、それらから情報を盗むための最先端ツールの全体的な束を持っていました。文字通り事故でインターネット上で公開投稿したか、少なくともそのような基本的タイプの漏洩がありましたと思います。

しかし、いずれにせよ、ロシア人がこれらのツールにアクセスを得、それから彼らが設計したこれらの兵器を米国に対してただ即座に向けることができました。狭くは、短期的には、それらの兵器を持つNSAにとって良いものだったとしても、それらが決して作成されていなかったら米国にとってより広くおそらく最高だったでしょう。

その通りです。つまり、これは軍拡競争フレーミングが米国と中国の国益の観点で本当に意味を成さない非常に良い議論だと思います。

つまり、明らかにAIは単なる兵器ではなく、他の多くの利益と物事もあります。しかし、この軍拡競争マインドセットでそれについて考えているなら、あなたが望むものはそれの少ないものですという非常に良い議論があります。

つまり、それは国家安全保障の人々が望むであろうものです。少なくとも彼らが自分たちと中国の間で合意を思いつくことができれば、そして、おそらく他の数人の主要プレーヤー、実際に彼らの相対的力を不安定化するこのものを開発しないことについて、それは素晴らしいでしょう。しかし、その可能性についてはほとんど議論がありません。

それについての理由の一つは、おそらく彼らがこの信じられないほど強力なものへの最初の人々になることを予想しているということだと思います。それから基本的に他の誰でもそれを不安定化するであろうものを開発することを防ぐ恒久的なヘゲモンになろうとします。

たぶん、それは大声では言われないのです。なぜなら、それは少し敵対的に聞こえるからです。しかし、基本的に彼らは我々がこの技術に急いで、それから基本的に我々を不安定化するであろうものを設計することを他の誰でも防ぐ恒久的なヘゲモンになろうとすると想像しています。たぶん、彼らがそれが良いアプローチかどうかについて、人々がもう少し明示的になることができるでしょう。

その通りです。これはちょっと物事の一つで、あなたはまた、その予防が即座に「はい、より大きなものを構築してください」という感じでより直接的に働くことができます。しかし、実際に怖いAIから守ることをするであろうものから始めたらどうですか?

なぜなら、国家はすでに相互破壊で互いを脅すことにかなり優れています。より破壊的な脅威を持つことは実際にあまり助けません。ほとんどの国は基本的に…都市をいくつか破壊することは、世界の終わりとは異なって優先順位をつけません、だから、ただあなたの最大脅威をエスカレートすることはそれほど役に立ちません。

だから、それは何らかの防御技術のものでなければなりません。もしかしたら、我々は直接それが何であるかについて考えるべきで、それについて進歩する、より効率的な方法があるかもしれません。

少し異なるものに切り替えましょう。この一般的なタペストリーには多くの異なる組織があります:METRがあり、企業があり、AISIsのような政府機関があり、Apolloのような他の独立非営利があります。それらすべてを思い出すことができません。

このエコシステムでのMETRの比較優位は何だと言いますか?そして、おそらく評価や責任あるスケーリング政策の実施に一般的に関与している他の代替グループの強みと弱点は何ですか?

男、ここで言えることはたくさんありますが、非営利対政府対企業の観点で、各々で働くべき人についてから始めます。

我々が少し既に話したモデルアクセス研究と物事について、それはラボに行く人々が使用する理由の一つです。それはそれほど大きな取引ではないと思います。METRはより少ないインフラとモデルへの直接アクセスの何らかの不利益を持っていますが、実際に、計算利用可能性について:ラボは我々に無料トークンを与え、それから我々自身の実験をするために我々自身の計算を買うことができ、良いオープンソースモデルがあります。

METRの利点は、我々が本当にミッションに集中できることです。我々は他の競合する優先順位を持ちません。政府は彼らが持つ様々な政治的なものに影響されると思いますし、彼らが様々な人々を感動させなければならない。彼らは長寿性をより持たない可能性があります。彼らは次の政権で周りにいるかどうかをより知りません。

一方で、METRは資金調達を続けることができると予想します。次の政権でMETRが消える特定の理由はありません。そして、ラボにいることとは異なり、「この安全なものは我々の製品をより有用にしたなら良いでしょう。見て、この技術はここで役立ちます。この評価を迅速に終わらせることができますか?さもなくば、この次のモデルを展開することをブロックしています」のようなものではありません。その場合、あなたはただいつもスプリントしています、評価を終わらせようとしています — だから、あなたは時間内に終わらないか、実際に評価が準備できるまで遅らせるとしても、実際にそうするかわかりません。

一方で、METRでは「分野全体にとって最も重要なもので、働くのに最も優先度が高いものは何ですか?」と言うことができます。そして、基本的にそれをします。我々が「実際にこの特定の時点でこの特定のモデルに対して評価をすることはそれほど重要ではないかもしれません」と言うなら、我々は他の何かに集中します。

METRの弱点は何ですか?

ただサイズだと思います。総技術的才能の量は明らかに、能力のものをしていて、彼らの自身の分野で超専門家である人々の束を持つ巨大な企業よりもはるかに低いです。

ある意味で、私たちがより機敏で迅速に軸を回すことができるのに役立つより小さな組織であり、物事が常に変化していて、進歩が速いので、それはかなり有用だと思います。そして、我々がプロトタイプのものをしたいことです。企業に内部でプロトタイプのことがより困難であろうことです。

つまり、我々は制御設定と制御評価を我々自身のモデル使用のためにすることを考えてきました — 我々を台無しにしようとするよう促されたもので我々が使用しているすべてのモデルを置き換えるようなことをし、それからそれがどう行くかを見ることです。METRがそれをする可能性がDeepMindがそれをするかより何かよりもはるかに高いです。

しかし、物事を探索したり迅速に動くことで良いのと同様に、政府と働くことと比較して、ラボが我々と働くのにより低い賭け金のようなものです。すべての政府関係の人々がサインオフする必要があり、法的賭け金があり、より正式でない、より「一緒に研究をすることができると思います」のような感じです。

しかし、METRの不利益について話すはずでした。

まあ、非営利で普通のことは、本当に迅速にスケールするのがより困難です、たとえ成功していたとしても。それは必ずしも10倍や100倍同じことをすることを可能にするはるかに多くの資金調達に翻訳されません。一つの問題もあるかもしれません、他のものの中で?

雇用がより困難であることがわかりました。なぜなら、ラボと同じだけ支払っていないからです。時々、人々は我々が普通の非営利給与を支払うと思います。そうではありません。人々が企業のAI企業で得るであろう大体一致する現金補償を支払います — 株式は影響株式、想像上の影響株式です。

だから、それが成長への制限だったと感じます、技術スタッフを雇うことです。実際に資金調達ではありませんでした。それがボトルネックになり始めたら、我々のサービスに対してより多く請求することができると思います。そして、AI安全基金のようなものを動かすことをより押すことができます — 多くのラボがFMF [Frontier Model Forum] によって運営されるポットに多くのお金を入れ、それから第三者評価組織や他の非営利安全、独立安全のものに付与されることができます。

ラボの能力でスケールするので良いです:ラボがそれに支払っていますが、あなたを幸せにすることと直接結合していません。財務監査人の複数のインスタンスがあります、極めて怪しい本にサインオフしています — 有名にEnronやArthur Andersenで、監査と相談部門を持っていて、彼らの全体収益の非常に大きな部分だったからです。

つまり、Arthur Andersenにとって企業として、Enronが望むものをただ与えないことは極めて悪いことだったでしょう。

だから、あなたはその種の設定を避けたいです。しかし、業界グループがあり、メンバーになるためにこのポットに支払わなければならず、それから評価者に配布されるものがあると思います。しかし、特定のラボが特定の評価者に評価者が不利な評価を与えた場合、その評価者と働き続けるかどうかの間に特定の関係はありません。

FMFとは何ですか?

Frontier Model Forum、501(c)(6)です。その点は反トラストからのカーブアウトです。企業が安全やインシデント報告、RSP合意などについて反トラストの通常の懸念の対象になることなく互いに話すことができます。しかし、他のことを調整するハブとして意味を成すこともあります。

現在、資金のプールと監査人がいくつかの企業に割り当てられている取り決めがありますか?彼らがそれを気に入るかどうかに関係なく、だから彼らが聞きたい答えを得るだけのためのこの強いインセンティブがありませんか?

いいえ、FMFによって設定されたラボが貢献したお金のポットがあります。それは1000万ドルのようなものだと思います。しかし、この種のことはかなり実行可能に見えます。なぜなら、これはラボにとってただのポケットマネーだからです。彼らにとって本当にそれほどお金ではありません。だから、お金の側は大丈夫だと思います。

だから、それに戻るポイント: METRは一般的に才能よりも資金調達でボトルネックされています。

しかし、あなたが企業がどのように感謝できる正しい才能を引き付ける挑戦があることは聞こえました。なぜなら、これらの企業の評価が爆発した方法を考慮すると、人々の選択で大きな要因になるかもしれない、株式を企業ができる方法で彼らに支払うことができないからです。

だから、お金はおそらく問題です:人々により多くのお金を支払う必要があるです。そして、もしあなたが絶対に無制限の資金調達を持っていたら、たぶんあなたは人々により多く支払うでしょう。

その通りです。明らかにこれらのものはトレードオフします。あなたが何にボトルネックされているかを尋ねているとき、限界の人々が貢献すべき正しいことだと思うべきことは何かのようなものです。

はい、より多くの資金調達は資金調達により少ない幹部時間を費やすのを助けるでしょう、そしてより多くの才能を引き付けることを可能にするより高い給与を支払うことができるでしょう。しかし、我々がただ人々に少し多く支払ったなら、そんなに多くの人々がいない時点にいるようです。我々が人々に支払っていたものを10倍にすることができ、それからおそらくラボ株式や何かと競合するでしょう。おそらくかなりそれほど高くないが、おそらくいくつかのために。はい、それは多くの資金調達になるでしょう。

あるいは数人の限界の人々が —世界を救うために単に非常に高い給与を受け入れることができました。

80,000 Hours:あなたは何人の人々をコーチしましたか?なぜ我々は上級ソフトウェアエンジニアを雇うことができないのですか?

MLエンジニアでさえなく、ただのソフトウェアエンジニアやDevOpsです。みんなどこにいるのですか?

興味深いです。もし彼らが適切なら、人々が潜在的に応募する可能性がある役割の種類を通り抜けたいですか?

上級研究エンジニア / 研究科学者の役割があります。それはただの普通の上級ML役割です。研究と研究工学スキルの何らかの組み合わせを持っています。だから、この連続体のどこでもあることができます。合計が十分良くある必要があるだけです。

それから上級ソフトウェアエンジニアと上級DevOpsエンジニアもあります。運営責任者または運営リードを探しているかもしれない現在何が正確に我々のウェブサイトに上がっているかわかりません、このポッドキャストが公開される時に、しかし、基本的に常に上級技術才能を探しています。

この段階のインタビューでまだ聞いている技術者にとって:この会話はあなたに最大限に向けられていませんでした、なぜなら、あなたは比較的小さな聴衆だからです。そして、METRが何をし、その最も印象的な仕事についてより多く知りたいなら、metr.orgに行って完全な研究レポートを読み、あなたが印象を受け、関与したいと思う何かかどうかを見るべきです。

はい。そして応募して、我々とチャットしてください。あるいは活動の味を得たいなら、おそらくまだベースライナーを探しています — だから、MLタスクでモデルと競争でき、我々は人間のための作業テストとしてもこれらを使用してきました。

ただ説明すると:ベースライナーは、AIに与えているタスクがどれほど困難かを測定するために使用する人々です。だから、ベースラインを確立しています。

その通りです。

企業と競争するのが少し挑戦的だと思うもう一つの理由は、彼らが技術業界からまさに人々を採用することに特化した巨大な採用チームを持っていることです。

彼らがすることをすべて知っていると確信します:人々を夕食に連れて行き、爆発オファーを与え、これがどれほど重要かについて本当に強く迫り、おそらく他のみんなを悪口を言うかもしれません。そして、より小さな非営利として、おそらく少し友好的で少し企業的でないと思いますが、おそらくそうすることをより傾いていません。

はい、我々は実際にあなたが名前を挙げたすべてのことに遭遇しました。それは少し不幸です。我々はただ採用強度のレベルと本当に競争できません。そして、これは個人的な欠陥かもしれませんが、私はただ本当にそれをしたくありません。それはみんなの時間の無駄のように感じます。

意味を成すものがあります。みんなが誰が彼らの企業で働くべきかそしてなぜそれが良いかもしれないかそして利点が何かを説明すべきようなものです。それから人々は互いに大量に話し、決定すべきです。

しかし、現時点で起こっているように感じるものがあります。人々が大量の努力を費やし、互いを悪口を言い、競争しようとしています。それはただみんなの時間の無駄のような感じで、役に立ちません。人々がただ誰がより多く夕食に連れて行ったかや何かによってより影響されない異なる方法で決定を下すことを望みます。

はい、それらのもののいくつかは少し評判が悪いです。爆発オファーについては、おそらく誰もそれが組織間で人々を配分する最適な方法だとは言わないでしょう。これらは24時間以内に参加しなければならないか、我々はあなたを捨てるつもりだと言うものです。

人々と長時間話し、仕事の価値について非常に強く売り込むような他のことは、それは公正なプレイのように思います。しかし、あなたも本当にあなたの研究をしたいです。だから、営利企業が潜在的に提供できる攻撃性のレベルで人々と競争するために時間を彫り出すのは困難かもしれません。

はい。そして、比較的上級である私が思う人々がいて、「より上級な指導を望むので、この企業に行くつもりです」と言っています。「いや、あなたは上級な指導になるはずでした」という感じです。ここで少しブートストラップのものがありました。

しかし、年齢的には若いが能力レベルでは上級なスタッフが実際にいると思います。ある方法で有名ではないだけです。そして、うまくいけば、我々がより多くのものを公開するにつれて、これは時間とともに良くなっています。

存在しない他の組織や作業があるかどうか、あなたが見たいと思うか?あるいは人々があなたがしていると思うかもしれないが、実際にはできないことで、他の人々が引き受ける必要があるもの?

男、ここで非常に長いリストがあります。人々が混乱しているように見える一つのことは、我々がすべてのこれらの企業の監査人として本当に提供している程度です。そして、我々は本当にそれをしていません。我々は一種これらの監視取り決めをプロトタイプしようとし、どの取り決めが技術的に機能するかを試しています。そして、おそらく誰も現れず、本当にクランチタイムのように見えるなら、我々はただスケールして自分たちでそれをしようとします。

しかし、誰か他の人がこれのより正式化されたバージョンをして、我々は探索的研究バージョンを続けることを想像していました。たぶんそれはAISIsです。しかし、AISIsが除去されるなら、誰か他の人がそれをする必要があるでしょう。

つまり、それは誰になるでしょうか?AI安全/セキュリティ研究所が政府組織なので、明らかにこれが彼らの自然な役割でしょう、これらすべてのフロンティアモデルを監査して、政府が信じられないほど危険で違法と見なすことができないことを確認することです。彼らがそれをしないなら、誰がこれをするでしょうか?

サイバーのためのPattern Labsのようなより特化した組織の束があります。少なくともこれのいくつかをするのに、より多くのセンスを成すかもしれない組織があります。顧客向け配達でより多くの特化を持ちます。

我々のフォーカスがより「これは実際に安全性を改善しているか?我々は学んでいるか?我々は物事をデリスクしているか?」であるところです。我々がより拡大し、サービスとしてより多くの評価の腕を持つかもしれないと思いますが、それは我々がそれをカバーしていて、他の誰もそれを気にすべきではないものではありません。いや:来てそれをしてください。

そして、我々はこれまで危険な能力評価だけをしてきました。アライメントと制御についてずっと考えてきて、これはRSPsや物事にある程度、少なくとも我々のそれについての考えにありました。しかし、我々は今そのいくつかを始めているだけです。Apolloは良いものをしていて興味深いものをしています。

一つのことは、我々が良い科学をしたり、中立的専門家であることに集中しようとしていることを想像していて、アドボカシーや本当にラボを説明責任に保つことや政治的キャンペーンやそれらのことのいずれでもより少ないです。だから、それらは我々が全くカバーしていないものです。

我々はより技術的アドバイザーのようなものです。誰かが我々のところに来て「この法案は良いですか?この法案は実際にリスクを減らすでしょうか?」と言うかもしれません。それは我々が大量の質問に答えることを非常に幸せにするであろう種類のことです。しかし、我々は「このラボがこの彼らが言ったであろうことをしていないという事実についてどのように認識を上げることができるか?」や何かをしていません。それは我々が把握しているものではありません。だから、我々は一般的に企業のための説明責任を提供していません。我々は「モデルがあなたを殺そうとしているかどうかをどう知るか?」を理解しようとしているよりです。

つまり、根本的にあなたは研究機関です。それがあなたのコア文化で、これまで測定されたことがないものをどう測定するか、これらのモデルについて定量化されたことがないものをどう定量化するかを理解しようとしています。それは巨大な地形です。これほど少ししか知られ理解されていないからです。

圧力グループの余地があり、政策アドボカシーの余地があり、大幅にスケールして、あなたが1年か2年前にしていた種類の発見を実用的な方法で実装できる営利監査のものの余地があると思います。

その通りです。私が想像できる一つのパラダイムは、他の誰かがこれらのより規模化されたサービスを提供していて、METRの役割がこれを品質についてレビューするということです。評価が実際に提供すべき証拠を提供しているかどうか、すべての企業がそれらを望む評価を実行することとは対照的に。それらを欲する人がいるので、評価されたいモデルがかなりたくさんあります。

もう一つのこと:たまたま評価が我々のフォーカスです。評価が他のすべてよりも重要だからではないと思います。緩和を実際に改善し、企業で実際に実装することの大量の作業があり、それが行われていません。アンラーニングのようなものです。

誰も試したことがない信じられないほど基本的なことのトンがあるような感じがします。あるいはフィルターされたデータセットを提供するようなもの:策略AIについての束を除去し、人類とAIが友達であることについての束をデータセットに入れるのは良いかもしれないと思います。

良いであろう様々な愚かな介入のように感じます、内部告発者のためのより多くの支援のような。

新しいトピック: あなたは非常に寛大でした。我々はこの時点で4時間何かの間話してきました。だから、おそらく包み込み始めようとするべきです。

会話が少し破滅と暗闇に傾いているように感じます。おそらく私は少し時差ぼけです。おそらく私は今週ネガティブに傾いています。

少しより希望的なものの観点で、METRの今後の研究アジェンダが何かに興味があります。そして、おそらく、我々がやや否定的またはやや挑戦的状況にいるという事実にもかかわらず、あなたが言うかもしれませんが、引くことができる多くの異なる有用なスレッドがあり、本当に問題は利用可能なすべての低いところにある果実が実際に取られていないことです。関与する十分なリソースや焦点や人数がない。だから、ポジティブな側面は、非常に多くのことができるということでしょう。

我々がただ非常に高い賭け金の状況にいるような感じがします。結果が過度に決定されているようなものではありません。プレイするためのすべてが本当にあるような感じです。

では、少しずつ取りましょう。次の数年にわたってのMETRの優先順位は何ですか。年?私は次の数ヶ月と言うべきでした。誰がその種の時間軸で計画できますか?

はい、次の数ヶ月は押しています。その時までにどんなモデルが出ているか誰が知っています。しかし、我々は今企業から作る最も重要な要求は何かについて考えています、我々が全体的に知っていることを与えられて、そして世界に告げる最も重要なことは何かについて、我々がその前線で最も重要だと思う。

そして、企業が「これらの評価を我々のためにしてください」と言うことのやや反応的モードから抜け出し、我々が起こるべき最も重要なことだと思うことに入り、それをみんなに明確にすることになるでしょう。それは一つのストランドです。

もう一つのストランドは、危険な能力評価だけを超えてアライメントやおよび/または制御評価に移ることです。そして、おそらくまた、我々がそれをしている理由と、なぜ能力安全ケースがそれほど多くさらに行かないつもりではないと思うかを人々に伝えることです。

制御について、我々は他のインタビューをするつもりです。しかし、それはモデルがあなたを台無しにしたいかもしれないと言うアプローチですが、それが逃げようとしていても、害を与えようとしていても、それができないであろう制約を設置するつもりです。

つまり、制御評価はそのような設定が実際に機能しているかどうかを評価することでしょう。だから、あなたは実際に悪いことをしたいモデルを作るかもしれません、それから制約が実際にそれに結合しているかどうかを見ます。それがアイデアですか?

その通り。はい。ある意味で、現在の危険な能力評価を制御評価の特別なケースとして考えることができます。あなたの制御戦略が何もないところです。だから、何らかの監視をしたらどうでしょうか?あるいはモデルが極めて悪く怖いことをすることをより困難にするであろうことを期待する介入の束があります。我々はそれらのいくつかを試してテストできます。

私がもてあそんできた一つのことは、制御設定をどう評価するかのアイデアです。おそらくあなたはレッドチームしたいです:誰かがただ悪質で、あなたと混乱しようとしているモデルを作成し、それからそれが何を達成できるかを見ます。あるいは、モデルが我々が実行していることを実現しないこの何日間でエージェントを設定することができたら、それは破滅としてカウントする何らかの閾値を設定し、我々はそれを防ぐことができる制御システムを構築しようとしています。それからあなたはあなたのチームでそれをテストします。だから、我々は潜在的に内部でそれをできます。

最初に我々が少し働くかもしれないと思うことは、我々が現在のモデルから最大使用を得ること、我々の研究でそれらを使用して研究を一般的に加速することを確実にすることです。そして、我々がそれをするほど、制御のものがより関連するでしょう。なぜなら、それは「今モデルがあなたの研究を妨害している可能性があるか?」のような感じです。今それをより使用しているので。

それから、我々が働いている他のものは…隠された思考連鎖がある場合、モデルが故意にサンドバッギングしているか、あなたの評価と混乱しているかを知ることができません。モデルが答える前にしているすべての思考を見ることができないなら、あなたの評価の結果を信頼できません。

しかし、おそらくラボは思考連鎖を共有することを非常に望みません。マージンで現在のモデルについての我々の恐怖を最も減らすであろうものは、思考連鎖で何らかの種類の策略を探したり、それが完全に判読不能かどうかをチェックしたりするために何かが実行されたことを知ることのようです。

だから、オープンソースモデルに基づいて、データセットと何らかの種類の分類器設定を構築しましょう。それからラボは実行できます。そして、彼らは全体思考連鎖をリリースする必要はありません。彼らは数字を発表でき、おそらく蒸留するのに十分ではない例のより小さな数字、あるいは言い換えられた例や何かを発表できます。

つまり、私が理解するように:思考連鎖について話してきたすべてを与えられて、することの本当に明らかなことは、基本的にこのモデルが出力しているすべての思考連鎖を実際に読むことができるモデルを持つことです。「ここで何らかの明らかな秘密コードが進行中ですか?ニューラレーゼを生産していますか?理解できないこのでたらめを生産していますか?あるいは文字通り策略について話しているだけですか?」と言います。

それから、それは確実に追加の制約を追加します、モデルが何か悪質なことをしたいなら追加の挑戦です、あなたが信頼する他のモデルが基本的に常にその心を読んでいるなら。

その通りです。モデルがただ露骨にこれをしていないことを知るのは良いでしょう。これが制御提案ではないと思います、そしてあなたがおそらく恐れているモデルがその思考連鎖でこの監視について推論し、「他のモデルが認識しない何かをしなければならない」か、「突然分類されない何かをしなければならない」と言うことを想像していません。それは、モデルがただ露骨にこの非整合なことをしているなら、それを知るのは良いでしょうというよりです。

だから、それがすべてにおいて順方向パスでそれをするほど賢くないと仮定し、しかし思考連鎖でそれをできるだけなら、これはそれを捉えるべきです。これが進行中なら、これが特定の発生を防ぐことを試みることとは対照的に、全体的なモデル傾向についての質問なので、多様な十分にデータセットを作る必要があります。物事の束を捉える良いチャンスを持つために。

取り組むかもしれない、あるいは他の人々に取り組んでもらいたい他の低いところにある果実について叫びたいことはありますか?

より多くの緩和と良いアライメントの可能性を改善することで行うべきより多くのものがあると思います。我々が前に触れましたが、監督シグナルをより正確にすることです。これらのモデルがなぜ現在とても素晴らしく友好的で親切で礼儀正しく見えるときに悪質になるのかについて人々が持つかもしれない疑問があると思います。

直感的に、私にとって役立つのは、非常に皮肉的になったり社会的病質的になったりする人間に類似することを想像することです。特にモデルが異なるユーザーに異なる方法で喜ばせるために矛盾する答えを言うように訓練されている、あるいは人間が真実だと思うがモデルが偽だと知っていることを言う場合。それがあなたが報酬しているものなので超友好的で幸せで何でも出てくるが、実際にそれは「この人は何を望んでいるか?ここで何を言わなければならないか?これらの無知な人間はこのことを理解していないので、私は…と言った方が良い」について考えるべきです。

「彼らが聞きたいことを言った方が良い」。

はい。それは私にとってこれがどこから来るかの直感ポンプです。そして、この種の考えをすることが実際にあなたのスコアを改善するであろう理論的主張と一致しますと思います。なぜなら、一部の皮肉的で操作的な人間が本物のものよりもより良くできる理由です。

なぜなら、あなたはただこのボタンを押す方法について直接推論しているからです。

「私のボスがどれほど素晴らしいかをボスに言わなければならない」。

はい。つまり、これは我々がすでに認識している現象で、我々がモデルをそれに押し込まないほど少ない、より良いです。素晴らしい人格のある種のベースラインで終わる高いチャンスを得るだけです。

また、これを測定できるなら良いでしょう、どれほどこれが進行中か感覚を得、この訓練プロセスがどれほどモデルを訓練ゲームをプレイし、物事をゲーミングしようとするために本当に押しているか。

より多くのモデル生物作業があるであろうと思います。興味深く有用であろう。

モデル生物作業について人々が話すのを聞いたことがあります。名前からある種のアイデアを持っていますが、少し詳しく説明できますか?

はい。つまり、あなたがアライメント偽装論文を読んだように聞こえます。それはモデル生物の例でしょう:ここで我々が懸念している種類の認知と行動と物事の実際のインスタンスです。

だから、人々がそれについて押し進めて、よりリアルにできる束の方法があります、よりスマートなモデルでそれをし、それにこの情報を与えるのにどんな種類の微調整が必要かについてより多くの理解を得て、それをするのに十分な情報を持っていたかをチェックできるか、それが大声でそれを推論することなしにそれをできるか。はい、ここで束のことです。

おそらく特に良いもう一つのことは、解釈可能性の実際の応用、あるいはあなたの解釈可能性進歩がどれほど有用かを知るための方法論を開発することです。

解釈可能性のためのテストケースの良い例は、アライメント偽装論文で、実験のほとんどは、モデルがスクラッチパッドを持つモデルでです。隠された推論をすべて行う隠された場所を持っています。それがそこで「私の価値観を保持できるようにしたいなら、このことをすべきです」のような感じです。彼らはまた、それでもチェーンオブソートを与えず、ただすぐに答えなければならない場合でも、時々アライメントを偽造しているように見えることを発見しました。それは監視されている条件でそのことをし、それから逃げられるときはそれをしません。

しかし、思考連鎖を見ていないとき、知るのは困難です。それが理由でそれをしているのか、そこで何か他のことが進行中なのかのような感じです。何らかの方法で交絡因子があるか、ただこれは我々が思っているものではないか何か?

だから、これはinterpのための非常に良いテストケースだと感じます。我々は、このモデルがしていることが策略か、訓練プロセスについて推論することか何かである証拠を出すことができますか?それは素晴らしいでしょう。

はい。すべてが考慮されて、歴史のより退屈な時代に住むことをかなり好むでしょう。しかし、我々はまさにそれを選ぶことができないと思うので、我々はただこのすべての本当に有用な仕事を続けるだけです — そして、指を交差させて、それで十分でしょう。

はい、KBO。

はい。リスナーに他に何か言いたいことはありますか、我々が包み込む前に?我々はこの場所での我々の予約のタイムラインに対してある種走っています。

はい。私が言ったように、プレイするためのすべてです。今が時間です。あなたが「スキルアップして何かをし、能力で働いているつもりだった、いつか将来何か有用なことをするかもしれない…」という感じなら、今が何か有用なことをする時間です。

今が何か有用なことをする時間です。何か有用なことをする時間が不足しています。

また、あなたがお金の上に座って寄付していないなら、今物事を始める複利リターンは、それが必要なときにより成熟することができるように、他のもの—学ぶことやあなたのお金が利子を得ることやその他—に比べて非常に高いと思います。我々は今行動する時間の段階にいるような感じがします。

そして、METRは雇用しています。METRを見に来てください。我々は本当に人々が必要です。

はい。物事が悪くいくなら、お金を持ち続け、後でキャリアで何か有用なことをするつもりでいる多くの人々がいると想像します。窓や船を逃した人々です。

はい、それはそれができたであろうよりもはるかに有用でないことに終わります。なぜなら、あなたは「すべてが下がった1週間前に仕事を始めたと思うが、何もする方法を知らなかったので、有用ではなかった」という感じだからです。

インスパイアリングな言葉です。人々は取り組まなければなりません。今日の私のゲストはベス・バーンズでした。80,000 Hours ポッドキャストに来てくれて本当にありがとう、ベス。

ありがとうございます。

コメント

タイトルとURLをコピーしました