本動画は、AnthropicのCEOダリオ・アモデイを含む共同創設者たちが、同社設立の経緯、AI安全性への独自のアプローチ、そして責任あるスケーリング方針(RSP)の開発について語った貴重な対話である。創設者たちは、OpenAI時代からの経験を振り返りながら、なぜAnthropicを設立する必要があったのか、どのようにして安全性を企業文化の中核に据えたのか、そして将来のAI開発において安全性と競争力を両立させる「レース・トゥ・ザ・トップ」戦略について詳しく説明している。
そもそもなぜ私たちはAIに取り組んでいるのでしょうか?とりあえずジャレドを指名しましょう。なぜあなたはAIをやっているのですか?
つまり、私は長い間物理学に取り組んでいて、飽きてしまったんです。そして、友人たちともっと時間を過ごしたくなったので、それでですね。
ダリオがあなたを口説いたと思っていました。
私は明確にあなたを口説いたことはないと思います。ただ、AIモデルの結果を見せて、それらが非常に汎用的で、一つのことだけに適用されるわけではないということを示そうとしていました。そして、十分に見せた後のある時点で、あなたが「ああ、それは正しいようですね」と言ったんです。
あなたが始めた時、教授になってからどのくらい経っていましたか?
6年くらいだったと思います。サムをリクルートするのを手伝ったと思います。
あなたと話した時、あなたは「ここで良いバブルを作り上げたと思う」と言って、「私の目標はトムを戻すことです」と。それがうまくいきました。
クリス、あなたがGoogleで解釈可能性の研究をしていた時、みんなに会ったのですか?
いえ。実は19歳の時に初めてベイエリアを訪れた際に、皆さんの多くに会いました。
そうでしたね?
その時ダリオとジャレドに会い、彼らがポスドクをしていて、当時とてもかっこいいと思いました。その後、Google Brainで働いていて、ダリオが加わり、実際しばらくの間隣同士の席に座っていました。そこでトムとも一緒に働きました。そしてもちろん、OpenAIに行った時には皆さん全員と働くことができました。
10年以上も皆さんを知っているというのは、なんだかワイルドですね。
記憶が正しければ、2015年にあなたが参加していた会議で初めてダリオに会い、インタビューを試みました。GoogleのPRは、あなたの研究論文を全て読む必要があると言いました。
ええ、Googleにいた時に「AI安全性における具体的問題」を書いていたと思います。
あなたはその論文について記事を書きましたね。
書きました。
あなたと働き始める直前に、オフィスに招待してもらい、AIについて全てを話してもらったのを覚えています。その後、「ああ、このことは私が思っていたよりもずっと深刻なんだ」と思いました。あなたは計算の大きな塊やパラメータ数、脳内のニューロン数などについて説明していました。
ダリオは人々に「これは私が思っていたよりもずっと深刻だ」と感じさせる効果をよく持っていますね。
私は幸せな知らせをもたらす者ですからね。
OpenAIにいた時のスケーリング法則のことや、物事を大きくすることで機能し始め、さまざまなプロジェクトで不気味なほどうまくいき続けたのを覚えています。それが私たち全員が密接に協力することになった理由だと思います。最初はGPT-2、そしてスケーリング法則、GPT-3と続きました。
私たちは物事をうまくいかせる人々の塊でした。
その通りです。
私たちは安全性についても興奮していたと思います。なぜなら、その時代にはAIが非常に強力になるが、人間の価値観を理解しないかもしれない、あるいは私たちとコミュニケーションを取ることさえできないかもしれないという考えがあったからです。そのため、私たちは皆、言語モデルが一種の暗黙知を理解することを保証する方法として言語モデルについて非常に興奮していました。
そして言語モデルの上での人間のフィードバックからの強化学習ですね。これらのモデルをスケールアップする理由全体が、モデルがRLHFを行うのに十分賢くなかったからです。これが私たちが今日でも信じている、安全性とモデルのスケーリングの相互関係です。
スケーリング研究がダリオがOpenAIで始めた安全性チームの一部として行われたという要素もありました。AI動向の予測が重要で、私たちが真剣に受け取られ、安全性を深刻な問題として扱うためだと考えていたからです。
その通りです。
イングランドのある空港でGPT-2からサンプリングして偽ニュース記事を書き、ダリオにSlackで「このことは実際に機能する。大きな政策的含意があるかもしれない」と送ったのを覚えています。ダリオは「はい」のような、彼の典型的な方法で答えました。しかし、その後、リリースに関する作業も含めて、たくさん取り組みました。それはかなりワイルドでした。
リリースの件を覚えています。それが私たちが初めて一緒に働き始めた時だったと思います。
あれは楽しい時でした。
そうです。
GPT-2のローンチでした。
でもそれは私たちにとって良かったと思います。少し奇妙で安全性指向のことを一緒にやり、その後Anthropicという、もっと大きくて少し奇妙で安全性指向のことを一緒にやることになったからです。
その通りです。
具体的問題に戻ると、私は2016年にOpenAIに参加し、最初の20人の従業員の一人でした。その時、AI安全性における具体的問題は初めての主流なAI安全性論文のようだったと記憶しています。どのようにしてそれが生まれたのか、その話を聞いたことがありませんでした。
クリスが関わっていたので、彼は話を知っています。私たちは両方ともGoogleにいました。他にどんなプロジェクトに取り組んでいたかは忘れましたが、多くのことと同様に、それは私が取り組んでいた他のプロジェクトから逃避しようとする試みでした。そのプロジェクトが何だったかは完全に忘れています。
クリスと私がAI安全性のオープンな問題を書き留めることにしたのだと思います。また、AI安全性は通常、非常に抽象的で難解な方法で話されていました。当時行われていた機械学習にそれを根拠づけることができるでしょうか?今では、その方向で6、7年の研究がありますが、当時はほとんど奇妙なアイデアでした。
ある意味で、それはほとんど政治的なプロジェクトだったと思います。当時、多くの人が安全性を真剣に受け取っていませんでした。そのため、人々が合理的だと合意する問題のリストを照合し、多くの場合すでに文献に存在していて、そして異なる機関の信頼できる多くの人々を著者として得るという目標がありました。
Brain の20人の異なる研究者と話して、論文の公開への支持を構築した長い期間があったのを覚えています。問題や強調された多くのことを見ると、適切な問題ではなかったという意味で、それほどうまくいかなかったと思います。しかし、合意形成の演習として見ると、ここに現実的で真剣に取り組む価値のあるものがあるということでは、非常に重要な瞬間でした。
Anthropic の初期に、憲法AIについて話していたとき、ジャレドが「言語モデルのために憲法を書けば、そのすべての行動が変わる」と言ったのを覚えています。当時それは信じられないほどクレイジーに聞こえましたが、なぜあなたたちはそれがうまくいくと思ったのですか?それは会社での最初の大きな研究アイデアの一つでした。
ダリオと私はしばらくの間それについて話していました。AIではシンプルなことが本当に、本当にうまく機能すると思います。最初のバージョンはかなり複雑でしたが、その後、AIシステムが多肢選択試験を解くのが得意だという事実を使用し、何を探しているかを教えるプロンプトを与えるという、必要なことの多くをそぎ落としました。
そして、これらの原則を書き下すことができました。
それは計算の大きな塊や苦い教訓、スケーリング仮説に戻ります。AIにデータを与えることができ、それが明確なターゲットである何かを特定できれば、それを実行させることができます。つまり、これは指示のセットであり、原則のセットです。AI言語モデルはその原則のセットを読むことができ、自分自身が従事している行動と比較することができます。そこにトレーニングターゲットがあるので、それを知った後は、私とジャレドの見解では、それを機能させる方法があります。詳細を十分にいじくり回すだけです。
私にとって、特に初期の時代では、いつも奇妙でした。物理学出身で、今ではみんながAIに興奮しているのでこのことを忘れがちですが、ダリオと具体的問題やその他のことについて話した時、AI研究者たちがAIの冬によって心理的に非常にダメージを受けていて、本当に野心的なアイデアや野心的なビジョンを持つことが非常に禁止されているように感じていた印象を受けました。
それが安全性について話すことに関してもそうだったと思います。安全性を気にするためには、AIシステムが実際に非常に強力で非常に有用である可能性があると信じなければならず、野心的であることに対する一種の禁止があったと思います。
利点の一つは、物理学者は非常に傲慢で、常に本当に野心的なことをやり、壮大な計画の観点から物事について話しているということです。
それは確実に真実だと思います。2014年には、言えないことがいくつかありました。しかし、実際には、理論物理学以外の学術界全体に存在する問題の拡張だったと思います。いくつかの理由でリスク回避的な機関に進化してしまったのです。
AIの産業部分でさえ、その考え方を移植またはフォークリフトしていました。それを抜け出すのに長い時間がかかりました。2022年まで、その考え方から抜け出すのにかかったと思います。
保守的で敬意を払うということの意味について奇妙なことがあります。保守的であるということの一つのバージョンは、自分がやっていることのリスクや潜在的な害を真剣に受け取り、それについて心配することかもしれません。
しかし、別の種類の保守主義は、「ああ、アイデアを真剣に受け取り、それが成功するかもしれないと信じることは、一種の科学的傲慢さのようなものだ」というものです。そのため、二つの異なる種類の保守主義や注意があり、私たちはその一つによって非常にコントロールされた体制にいたと思います。
歴史的にもそれが見られますよね。1939年の核物理学に関わる人々の間での核爆弾についての初期の議論を見ると、深刻な懸念でした。フェルミがこれらのアイデアに抵抗していたのも、まさに同じことです。それはただクレイジーなことのように思えたからです。
シラードやテラーのような他の人々は、リスクを心配していたからこそアイデアを真剣に受け取っていました。
私がこの10年間で学んだおそらく最も深い教訓は、皆さんも何らかの形でそれを学んだと思いますが、一種の見かけの合意、みんなが知っているようなこと、賢明に見え、常識のように思えるが、実際には成熟と洗練を装った群集行動であることがあるということです。
合意が一夜にして変わるのを見たことがあり、それが何度も起こるのを見たことがあります。疑っていたが実際には賭けなかった時、「ああ、私はこれを思っていたが、私に何がわかるだろう?どうして私が正しくて、これらすべての人々が間違っているのだろう?」となります。それを数回見ると、「いや、これが私たちが行う賭けだ。確実に正しいかどうかはわからないが、この他のすべてを無視して、それが起こるのを見て、50%の確率で正しくても、50%の確率で正しいことは非常に多くを貢献する」と言い始めます。他の誰も追加していないものを追加しているのです。
今日、私たちが安全性に関してそこにいるように感じます。この安全性の多くが異常であるか、技術から自然に出てこないという合意的見解があります。
しかし、Anthropicでは、奇妙な安全性の不整合問題が、私たちが構築している技術の自然な配当として出てくるすべての研究を行っているので、私たちは今、その反合意的見解にいるように感じます。
しかし、それは過去18ヶ月でも変化していると感じます。
私たちは変化を助けてきました。
私たちは確実に助けています。
つまり
公開と研究によって。
絶え間ない公開。
この絶え間ない力。はい。
でも、AI周辺の世界の感情が本当に劇的に変化したと思います。私たちが行うユーザー研究で、一般の顧客や普通の人々が「AIが世界全体に与える影響について本当に心配している」と言うのを聞くことがより一般的になりました。
時にはそれは仕事やバイアス、毒性を意味しますが、「これは世界をめちゃくちゃにするのか?人間が一緒に働き、運営する方法を根本的に変えることにどのように貢献するのか?」を意味することもあります。これは実際には予測していませんでした。
そうですね。しかし、何らかの理由で、ML研究領域の人々は、一般大衆よりもAIが非常に強力になることについて常により悲観的だったようです。
一般大衆はただ
奇妙な謙遜か何かかもしれません。はい。
2023年にダリオと私がホワイトハウスに行った時、その会議で、ハリスやライモンドなどが基本的に「私たちはあなたたちに目を光らせている。AIは本当に大きな問題になるだろうし、私たちは今実際に注意を払っている」と言いました。パラフレーズしますが、それは
そして彼らは正しいです。
彼らは正しい。
絶対に正しい。絶対に正しい。
しかし、2018年には「大統領があなたをホワイトハウスに呼んで、言語モデルの開発に細心の注意を払っていると告げる」とは思わなかったでしょう。
そうですね。
それはとてもクレイジーな場所です
それはビンゴカードにはありませんでした。
それは2018年のようでした。
興味深いことの一つは、私たち全員が、そうはならないように思えた時にこれに取り組み始めたことです。
それが起こる可能性があると思っていましたが、フェルミが原爆に懐疑的だったのと同じでした。彼はただ良い科学者だったし、それが起こる可能性があるという証拠があったが、それが起こらないという多くの証拠もありました。
そして、彼は、それが真実なら大きな問題になるだろうから、価値があると決めたのだと思います。私たち全員にとって、2015年、2016年、2017年には、これが大きな問題になるかもしれないという証拠と増加する証拠がありましたが、2016年に私のアドバイザー全員と話したのを覚えています。
「私はスタートアップをやったことがある。AI安全性を手伝いたいが、数学がそれほど得意ではない。どうやって手伝えるのか正確にはわからない」と言いました。当時、人々は「決定理論が非常に得意でなければ手伝えない」と言うか、「そんなクレイジーなAIは得られないようだ」と言うかのどちらかでした。そのため、「はい、それは良いことのようですね」と言ってくれる人は数人しかいませんでした。
2014年にジャーナリストとして ImageNet の結果の時系列グラフを作成し、それについて記事を公開しようとした時、人々は私が完全に狂っていると思いました。
そして、2015年にBloombergにNVIDIAについて記事を書かせようと説得しようとしたのを覚えています。すべてのAI研究論文がGPUの使用について言及し始めていたからです。彼らはそれが完全に狂っていると言いました。そして、2016年にジャーナリズムを離れてAIに行った時、「あなたは人生最悪の間違いを犯している」というメールがあり、今でも時々振り返りますが、あらゆる観点から、それを真剣に受け取ること、スケーリングがうまくいくこと、技術パラダイムについて何かが違うかもしれないということは、当時はすべてクレイジーに見えました。
あなたは高校でコーチが信じなかったマイケル・ジョーダンのようですね。
でも、実際にどうやって決断を下したのですか?迷いを感じましたか、それとも明らかでしたか?
私は「フルタイムのAI記者になり、給与を2倍にしてください」というクレイジーな逆賭けをしました。彼らがイエスと言わないことを知っていました。
それから寝て、起きて辞表を出しました。すべてがかなりリラックスしていました。
あなたはただ決断力のある人ですね。
その例では、そうでした。仕事に行って、アーカイブ論文を読み、アーカイブ論文を印刷して家に持ち帰って読んでいたからだと思います。Baiduの研究からのダリオの論文も含めて「ここで完全にクレイジーなことが起こっている」と思いました。
ある時点で、信念を持って賭けるべきだと思いました。これはここにいる全員がキャリアでやったことだと思います。これがうまくいくという信念を持って賭けることです。
私は確実にあなたほど決断力がありませんでした。6ヶ月間、「実際にやるべきか?これをやるべきか?スタートアップをやってみるべきか?このことをやってみるべきか?」と迷いました。
でも、当時はエンジニアとエンジニアがAIに与える影響についてあまり話されていなかったと感じます。
そうです、そうです、方法はありません。
それは今の私たちには非常に自然に感じられます。私たちはあらゆる種類のエンジニアに対して同じような人材募集をしていますが、当時は、研究者であり、それがAIに取り組める唯一の人々でした。
そうです。
そのため、あなたがそれについて時間を費やして考えていたのはクレイジーではなかったと思います。
そうです。
そして、それが基本的に私をOpenAIに参加させたことだったと思います。そこの人々にメッセージを送ったところ、「はい、実際にエンジニアリング作業を手伝うことができると思う」と言われました。
そうです。
「そしてその方法でAI安全性を手伝うことができる。」
そのための機会は本当になかったと思うので、それが私をそこに導いたものでした。
その通りです。
あなたはOpenAIでの私のマネージャーでした。
そうでした、その通りです。
あなたがしばらくそこにいた後に私が参加したと思います。
少しです。
私はBrainに少しいたからです。
そうです。
あなたが参加した理由を聞いたことがあるかわからないのですが?
Stripeに約5年半いて、グレッグを知っていました。彼は私の上司でした。
Stripeでしばらく私の上司だったし、実際に彼とダリオを紹介しました。彼がOpenAIを始めた時、「私が知っている最も賢い人はダリオです。彼を得られたら本当にラッキーでしょう」と言ったからです。ダリオはOpenAIにいて、Stripeからも何人かの友人が行っていました。あなたのように、Stripe後に何をしたいかを考えていたと思います。
非営利や国際開発で働いた後により多くのスキルを得たくてそこに行ったのですが、実際にはそれに戻るつもりでした。基本的に、私は常に働いていて、「私よりも少ない人々を本当に助けたい」と思っていましたが、Stripe前にそれをやっていた時はスキルがありませんでした。
そうです。
そのため、公衆衛生に戻ることを検討し、政治に戻ることを非常に短期間考えましたが、他の技術会社や影響を与える他の方法も見ていました。OpenAIは当時、本当に素晴らしい交差点に感じられました。非営利で、この本当に大きく高尚な使命に取り組んでいました。ダリオを少し知っていたので、AIの可能性を本当に信じていました。
そして彼らは管理の手助けが必要でした。
彼らは確実に手助けが必要でした。それは事実です。そのため、それは非常に私にぴったりだと感じました。「ああ、この非営利があり、本当に良い意図を持った本当に素晴らしい人々がいるが、少し混乱しているようだ」と思いました。
そして、それは私にとって非常にエキサイティングに感じられました。来て、ただユーティリティプレイヤーでしたが、人々を管理していましたが、技術チームの一部も管理していました。
組織のスケーリング、そうです。
スケーリング組織、言語チームで働き、引き継ぎました
政策についても働いていました
政策の仕事をいくらかし、クリスと働き、そこの従業員の多くに非常に多くの良さがあると感じ、会社を少しより機能的にするために来て手助けしようとする非常に強い欲求を感じました。
GPT-3をやった後の終わりの方で、あなたが「トラスト・アンド・セーフティというものを聞いたことがありますか?」と言ったのを覚えています。
はい、それを覚えています!それは起こりました。
そうです。
そうです。
Stripeでいくつかのトラスト・アンド・セーフティチームを運営していました。このような技術のために考慮したいかもしれないトラスト・アンド・セーフティというものがあります」と言いました。
それは面白いです。なぜなら、それはAI安全性研究、つまりモデルを実際に安全にする方法と、もっと実用的なもの、というものの中間ステップのようなものだからです。これは大きなことになるだろう、また、物事がはるかに高いリスクになる時のために筋肉を構築するために、日々この種の実用的な作業を行わなければならないと言うことに価値があったと思います。
それは責任あるスケーリング政策やそれをどのように思いついたか、なぜ思いついたか、そして今日のモデルで行っているトラスト・アンド・セーフティ作業の量を考慮して、現在どのように使用しているかについて話すための良い移行点かもしれません。RSPは誰のアイデアでしたか?あなたとポールですか?
そうです、私とポール・クリスティアーノが2022年末に最初に話しました。
最初は、「特定の安全性問題の解決方法を発見するまで、特定のポイントでスケーリングを制限すべきか?」というものでした。そして、「制限して、その後制限を解除するという一箇所を持つのは奇妙だから、多くの閾値を持ち、各閾値でモデルが能力があるかどうかを見るための特定のテストを行い、増加する安全性とセキュリティ対策を取らなければならない」となりました。
しかし、元々私たちはこのアイデアを持っていて、その後の考えは、見てください、これは第三者によって行われた方がうまくいくでしょう。私たちがやるべきではありません。一つの会社から来るべきではありません。そうすれば他の会社が採用する可能性が低くなるからです。そのため、ポールは実際に行ってそれを設計し、その多くの機能が変更され、私たちは私たちの側でそれがどのように機能すべきかに取り組んでいました。
ポールが何かをまとめた後、彼がコンセプトを発表してからほぼすぐに、私たちは1、2ヶ月以内に私たちのものを発表しました。私たちの多くが深く関わっていました。私自身も少なくとも一つの草案を書いたのを覚えていますが、いくつかの草案がありました。
非常に多くの草案がありました。
どんな文書よりも最も多くの草案を経たと思います。
そうですね。
それは理にかなっています。アメリカが憲法を神聖な文書として扱うのと同じ方法だと感じます。
そうです。
それはアメリカを強化する大きなことだと思います。
はい。
アメリカが脱線しないと期待しない部分は、アメリカのすべての人が「憲法は大きな問題で、それを踏みにじるなら、私は怒る」と言うからです。
そうです。
RSPは私たちのそれで、それがそのことを保持しています。AnthropicにとってのRSPは神聖な文書です。そのため、それを正しく行うために多くの反復を行う価値があります。
AnthropicでのRSP開発について見るのがとてもクールだったことの一部は、それが非常に多くの異なる段階を経て、それを機能させるために非常に多くの異なるスキルが必要だと感じることです。ダリオ、ポール、サム、ジャレドなど多くの人々による大きなアイデアがあります。「原則は何か?何を言おうとしているのか?正しいかどうかをどのように知るのか?」というものです。
しかし、「この安全性レベルでこれを見ると思ったが、見なかったので、自分たちに責任を持たせるようにするために変更すべきか?」と言う、ただ反復する非常に運用的なアプローチもあります。そして、あらゆる種類の組織的なことがありますよね?私たちはただ「より明確な責任のためにRSP組織の構造を変えましょう」と言いました。
これほど重要な文書にとって、憲法のアナロジーが大好きですが、憲法を確実に従うために米国に存在するすべてのこれらの機関とシステムのようなものがあります。裁判所、最高裁判所、大統領職、議会の両院があり、もちろん他の多くのことも行いますが、この一つの文書の周りにすべてのこのインフラストラクチャが必要で、私たちもここでその教訓を学んでいると感じます。
それは私たちの多くが安全性について持っている見解を反映していると思います。それは解決可能な問題だということです。
ただし、非常に、非常に困難な問題で、大量の作業が必要になるでしょう。
自動車安全性の周りに構築されたすべての種類の機関があり、長年にわたって構築されています。
しかし、私たちは「それを行う時間があるでしょうか?AI安全性に必要な機関が何かを可能な限り迅速に理解し、それらを構築し、ここで最初に構築しようとするが、輸出可能にする必要があります」ということです。
その通りです。
それはまた統一を強制します。なぜなら、組織のどの部分も私たちの安全性価値と一致していない場合、それはRSPを通じて現れるからです。RSPは彼らがやりたいことをやることをブロックするので、安全性を製品要件、製品計画プロセスの一部にするために、基本的に皆に何度も何度も思い出させる方法です。そのため、それは私たちが繰り返すただの見かけ倒しの束ではありません。あなたが一致していない状態で現れると、実際にそれに遭遇するものです。
そうです。
プログラムに参加することを学ぶか、うまくいかないかのどちらかです。
そうです。
RSPは時間の経過とともに面白くなります。なぜなら、私たちはそれに何千時間もの作業を費やし、その後私は上院議員と話に行き、RSPを説明し、「私たちが作るものを盗むのが困難で、また安全であることを意味するものがあります」と言います。彼らは「はい、それは完全に正常にやることです。みんながこれをやっていないと言っているのですか?」と言います。あなたは「ああ、わかりました」となります。
みんながこれをやっていないというのは半分真実です。
そうです。
しかし、私たちがここでそれに多くの努力を費やし、それを要約すると、彼らは「はい、それは正常にやる方法のように聞こえます」と言います。
はい、それは良く聞こえます。
それが目標でした。ダニエラが言っていたように、「これをできるだけ退屈で正常にしましょう。これを財務のことにしましょう」。
監査のように想像してください。
そうです、そうです。
はい。
いや、退屈で正常なことが私たちが望むことです、確実に振り返ってみると。
そうです。また、ダリオ、私は整合性を推進することに加えて、それはまた明確さも推進すると思います。
なぜなら、私たちがやろうとしていることが書き下されており、会社の全員にとって理解しやすく、安全性の観点から私たちが目指すべきだと思うことが外部的に理解しやすいからです。完璧ではありません。私たちはそれを反復し、より良くしていますが、「私たちはこのこと、ここのこのことを心配している」と言うことに価値があると思います。
安全性のためにこちらの方向に何かを脱線させたり、安全性のためにXをやらなければならないと言ったりするために、この言葉を使うことはできません。私たちが何を意味するかをより明確にしようとしています。
そうです、それは太陽の下のあらゆる小さなことを心配することを防ぎます。
その通りです。
なぜなら、実際には火災訓練が長期的に安全性の原因を損なうからです。
はい。
「建物があり、火災警報が毎週鳴る場合、それは本当に安全でない建物です」と言いました。
実際に火災がある時、誰も気にしないからです。
「ああ、それはいつも鳴るだけです」と言うでしょう。そのため
そうです。
較正されることが非常に重要です。
そうです。
その通りです。
そうです。私が少し明確にすると思う、少し異なるフレームは、RSPが多くのレベルで健全な incentives を作り出すと思うということです。
内部的には、安全性で進歩を遂げなければブロックされるため、すべてのチームのインセンティブを安全性と一致させると思います。外部的にも、少なくとも私が見る他の可能性よりもはるかに健全なインセンティブを作り出すと思います。なぜなら、ある時点で何らかの劇的な行動を取らなければならない場合、「モデルを安全にできない点に達した」と言わなければならない場合、それはその決定を支持する証拠がある点と一致し、それについて考えるための既存のフレームワークがあり、理解できるからです。
そのため、RSPには、初期バージョンについて話していた時に最初に理解していなかった方法で、私が考えたどの他のフレームワークよりもより良いフレームワークを作り出す多くのレベルがあると思います。
これはすべて真実だと思いますが、適切な政策と評価、そして線がどこにあるべきかを理解することがどれほど困難だったかを過小評価していると感じます。
私たちは継続してそれについて多く反復していると思いますし、非常に明らかに何かが危険である、または非常に明らかに何かが安全である点にいる可能性もありますが、非常に新しい技術では、実際には大きなグレーゾーンがあります。
そのため、それが始めにRSPについて私を本当に、本当に興奮させたすべてのことでしたし、今でもそうですが、これを明確な方法で制定し、機能させることは、私が予想していたよりもはるかに困難で複雑でした。
そうです、それはまさにその通りです。
そうです。
グレーゾーンは予測不可能です。それらは非常に多くあります。実際にすべてを実装しようとするまで、何がうまくいかないかわからない。そのため、私たちがやろうとしていることは、行ってすべてを実装することで、何がうまくいかないかを可能な限り早く見ることができるようにすることです。
そうです、あなたは
グレーゾーンは
3回または4回のパスをやらなければなりません
そうです。
そうです。
本当に、本当に正しく行う前に。反復は非常に強力で、最初の時に正しく行うことはできません。そのため、リスクが増加している場合、早期に反復を行いたい。遅く行いたくはありません。
あなたは内部の機関とプロセスも構築しているので、特定のことは大きく変わるかもしれませんが、それを行う筋肉を構築することが本当に価値のあることです。
私はAnthropicでコンピュートを担当しているので
それは重要です。
そうだと思います。そのため、外部の人々と取引しなければならず、異なる外部の人々は物事がどれほど速く進むと思うかの異なるスペクトラムにいます。
それもまた、私が最初は物事がそれほど速くないと思っていて、時間の経過とともに変わったことの一つです。そのため、私はそれに共感を持っています。そのため、RSPは物事が長い時間かかるかもしれないと思う人々とコミュニケーションを取るのに非常に有用でした。なぜなら、物事が本当に激しくなるまで極端な安全対策を行う必要がないということがあり、その後彼らは「物事が長い間激しくならないと思う」と言うかもしれません。
そして私は「わかりました、そうなら極端な安全対策を行う必要はありません」と言うでしょう。そのため、それは他の人々と外部的にコミュニケーションを取ることをはるかに簡単にします。
そうです、そうです、それは本当に奇妙なことではなく、話すことができる正常なことにします。
そうです。
そうです。他の人々にとってどのように現れていますか?あなたは
評価、評価、評価。
良い。
それはすべて評価についてです。みんなが評価をやっています。あなたのトレーニングチームは常に評価をやっています。このモデルが危険である可能性があるほど十分に良くなったかどうかを理解しようとしています。評価チームがいくつありますか?Frontier Red Teamがあります。つまり、多くの人々がいます
基本的にすべてのチームが評価を生産します。
そして、それはRSPに対して測定すること、あなたを心配させるか心配させないことの特定の兆候に対して測定することを意味します。
まさに。モデルの能力を下限を設定するのは簡単ですが、上限を設定するのは困難ですので、「このモデルはこの危険なことができるかできないか?思考の連鎖やベストイベント、モデルが何か非常に危険なことをするのを手助けするような何らかのツール使用など、私たちが考えていない何らかのトリックがあるかもしれない」と言うために大量の研究努力を投入します。
それは政策で本当に有用でした。安全性とは何かという非常に抽象的な概念だったからです。「モデルを展開するかどうかを変える評価がある」と言うと、政策立案者や国家安全保障の専門家、または私たちが行うこれらのCBRN分野の一部と実際に較正し、よく較正された評価を構築するのを実際に手助けしてもらうことができ、それは反実仮想的に、そうでなければ起こらなかったでしょうが、特定のことを得た後、人々はそれを正確にするのを手助けすることにはるかに動機づけられるので、それに有用でした。それがどのように現れましたか
RSPは確実に私にとって現れます。よく。実際、私がRSPについて最も考える方法は、奇妙なことに、それがどのように聞こえるかだと思います。
ただトーンのような。私たちは、それが過度に官僚的で、少し敵対的にさえ感じられたので、RSPのトーンの大きな書き直しをしたと思います。
人々がただ参加したいと思うシステムをどのように構築するかについて多くの時間を費やして考えました。
RSPが会社の全員が歩き回って、今私たちがOKRで行っているように、あなたに言うことができるものである方がはるかに良いです。RSPのトップ目標は何ですか?それらを満たしているかどうかをどのように知るのですか?今どのAI安全レベルにいるのですか?ASL-2にいるのですか?ASL-3にいるのですか?何か間違ったことが起こっているかどうかの共通認識を持つのがこれらです。
過度に官僚的で、会社の特定の人々だけがアクセス可能だと感じるものである場合、それはそれほど生産的ではありません。そして、役割に関係なく、会社のほとんど、そうでなければ全員が、それを読んで「これは本当に合理的に感じられる。私たちが以下の方法でAIを構築していることを確認したいし、これらのことを心配する理由がわかるし、何かに遭遇した場合に何を探すべきかもなんとなくわかる」と言えるこの文書にそれが移行するのを見るのは本当にクールでした。
製造工場で働いていて、「ふーん、これの安全ベルトはこの方法で接続すべきに見えるが、接続しない」と思えば、それを見つけることができるほど簡単にするようなものです。
リーダーシップと取締役会と会社の残りの部分と実際に構築している人々の間に健全なフィードバックフローがあることです。なぜなら、実際にほとんどの場合、このようなことが間違って行く方法は、ワイヤが接続しないか、交差してしまうことだと思うからです。そして、それは物事が間違って行くための本当に悲しい方法でしょう。それは運用化し、人々が理解しやすくすることのすべてです。
そうです、私が言いたいことは、私たちの誰も会社を設立したくありませんでした。それは私たちの義務のように感じただけです。
私たちはこのことをやらなければならないように感じました。
これが私たちがAIでより良くする方法です。それが私たちが誓約もした理由でもあります。
私たちがこれをやっている理由は、それが私たちの義務のように感じるからです。
私は何らかの有益な方法で物事を発明し発見したかったのです。それが私をそこに導き、AIに取り組むことになり、AIには多くのエンジニアリングが必要で、最終的にAIには多くの資本が必要でしたが、環境を設定せず、会社を設定しない方法でそれを行うなら、多くのことが行われ、技術コミュニティについて私が非常に疎外感を感じていた同じ間違いの多くが繰り返されることがわかりました。
同じ人々、同じ態度、同じパターンマッチングです。そのため、ある時点で、私たちは異なる方法でやる必要があることが避けられないように思えました。
大学院でぶらぶらしていた時、あなたが公共の利益を促進する方法で科学を行う方法を理解しようとする全体的なプログラムを持っていたのを覚えています。
そして、それは私たちがこれについて考える方法とかなり似ていると思います。あなたはProject Vannevar か何かを持って、それを行っていたと思います。私は教授でした。基本的に、私は状況を見て、AIが影響の観点で非常に、非常に、非常に急峻な軌道にあると確信しました。資本の必要性のためにそうは見えませんでしたし、物理学教授として、それを続けることができ、AIがうまくいくように機関を構築することで信頼する人々と一緒に働きたいと思いました。
でも、はい、会社を設立することを決してお勧めしません。
または本当にやりたいと思いません。つまり、はい、それはただ手段のための目的だと思います。つまり、それは通常物事がうまくいく方法だと思います。自分を豊かにしたり権力を得たりするためだけに何かをやっているなら、実際に世界で現実の目標を達成することを気にして、そのために必要などんな手段でも見つけなければなりません。
戦略的優位として私が多く考えることは、つまり、これを言うのは本当に面白く聞こえますが、このテーブルにどれほど多くの信頼があるかということです。
つまり、トム、あなたは他のスタートアップにいました。私は以前に創設者になったことはありませんでしたが、大きなグループの人々に同じ使命を持ってもらうのは実際に本当に困難です。
そして、私が仕事に来る時に最も幸せで、Anthropicで最も誇りに思うことは、それがどれほど多くの人々にうまくスケールしたかだと思います。このグループとリーダーシップの残りの部分で、全員が使命のためにここにいると感じ、私たちの使命は本当に明確で、非常に純粋です。ダリオが指摘したように、技術業界ではそれほど頻繁に見ないことだと思います。私たちがやろうとしていることには心の健全さがあるように感じます。いや、同意しますが、私たちの誰も「会社を設立しましょう!」ではありませんでした。やらなければならないように感じました。私たちがやっていた場所で続けることができませんでした。自分たちでやらなければなりませんでした。
そして、GPT-3で、私たち全員が触れたり取り組んだりしたものと、スケーリング法則やその他すべてで、2020年に私たちはそれを目の前で見ることができました。そして、すぐに何かを一緒にやらなければ、帰還不能点に達するように感じました。そして、環境を変える能力を持つために何かをやらなければなりませんでした。
ダニエラを基に構築すると、このグループには多くの信頼があるだけだと思います。私たちのそれぞれが、世界を助けたいのでこれに入ったことを知っています。
そうです。
80%誓約のことをやりましたが、それは皆が「はい、明らかに私たちはこれをやります」と言ったことでした。
そうです、そうです。
そして、はい、信頼のことは極めて稀な特別なことだと思います。
そうです。
ダニエラに、基準を高く保つことを認めます。事実に認めます
ピエロを締め出すこと。ピエロを締め出すこと。
チーフピエロ・ラングラー!それが私の仕事です。
いや、でも文化がスケールした理由はあなたです、と思います。
そうです。人々はここの人々がどれほど素晴らしいかと言います。
そうです。
それは実際にワイルドに重要なことです。
Anthropicは本当に政治が少ないと思いますし、もちろん、私たちは皆平均とは異なる視点を持っており、それを覚えておこうとしています。
それは低いエゴのためです。
しかし、それは低いエゴであり、私たちの面接プロセスとここで働く人々の種類だと思いますが、政治に対するアレルギー反応のようなものがほとんどあります。
そして統一。
統一は非常に重要です。製品チーム、研究チーム
はい。
トラスト・アンド・セーフティチーム、市場進出チーム、政策チーム
そうです。
安全性の人々のように、彼らは皆、会社の同じ目標、同じ使命に貢献しようとしています。
はい。
会社の異なる部分が異なることを達成しようとしていると思う、会社が異なることについてだと思う、または会社の他の部分が彼らがやっていることを損なおうとしていると思う時、それは機能不全だと思います。
そうです。
そして、私たちが保持することに成功した最も重要なことは、そして再びRSPのようなことがそれを推進しますが、会社の一部が損害を引き起こし、会社の他の部分がそれを修復しようとしているのではなく、会社の異なる部分が異なる機能を行っており、それらがすべて単一の変化理論の下で機能しているという考えです。
極端な実用主義です。
そうです。
最初にOpenAIに行った理由、非営利で、安全性に焦点を当てることができる場所でした。時間の経過とともに、それはそれほど良いフィットではなかったかもしれませんし、いくつかの困難な決定がありました。
多くの点で、私はそれについてダリオとダニエラを本当に信頼していましたが、去りたくありませんでした。それは実際に私がかなり躊躇していたことだったと思います。なぜなら、一つには、より多くのAIラボを持つことが世界にとって良いことかどうかわからなかったからです。そして、それは私がかなり、かなり躊躇していたことでした。
そして、私たちが去った時も、会社を始めることを躊躇していました。長い間、代わりに非営利をやって、安全性研究だけに焦点を当てるべきだと主張していました。
はい。
そして、その使命を達成するために制約に立ち向かい、制約が暗示することについて正直であることという実用主義が本当に必要でした
それがAnthropicにつながりました。
早期に良くできた本当に重要な教訓は、より少ない約束をし、より多くを守ることだと思います。
そうです。
較正され、現実的で、トレードオフに立ち向かうようにしてください。信頼と信頼性はどんな特定の政策よりも重要だからです。
そうです。
私たちが持っているものを持つことは非常に珍しく、マイク・クリーガーが安全性のことを守るのを見て、なぜ製品をまだ出荷すべきではないかの理由を見て、しかしその後、ヴィナイが「ビジネスのために正しいことをやらなければならない。どうやってこれをフィニッシュラインを越えさせるか?」と言うのを見ることです。
そして、技術安全性組織の深いところの人々が、人々にとって実用的なものを構築することも重要だと話すのを聞き、推論のエンジニアが安全性について話すのを聞く。それは素晴らしいです。それが、ここで働くことの最も特別なことの一つだと思います。その統一を持って、皆が実用主義、安全性、ビジネスを優先しています。
それはワイルドです。
最も安全な動き
私はそれをトレードオフを会社のリーダーシップだけから皆に広げることとして考えます。
そうです。
機能不全の世界は、安全性が「私たちは常にこれをやらなければならない」と言い、製品が「私たちは常にこれをやらなければならない」と言い、研究が「これが私たちが気にする唯一のことだ」と言う多くの人々がいることだと思います。
そして、あなたは上で立ち往生します。
はい。
あなたは上で立ち往生します。どちらよりも多くの情報を持たないあなたが決定しなければなりません。それが機能不全の世界です。機能的な世界は、皆に「私たちが一緒に直面しているこれらのトレードオフがあります」と伝えることができる時です。
そうです。
世界は完璧からは程遠い場所です。ただトレードオフがあります。やることすべてが最適以下になります。やることすべてが思った通りにうまくいかない両方の世界の最良を得ようとする試みになります。そして、皆がそれらのトレードオフを一緒に立ち向かうことについて同じページにいます。彼らは特定のポストから、全体的なトレードオフすべてに立ち向かう全体的な仕事の一部として、特定の仕事からそれらに立ち向かっていると感じるだけです。
それはレース・トゥ・ザ・トップへの賭けです。
それはレース・トゥ・ザ・トップへの賭けです、はい。
それは純粋な利益の賭けではありません。物事が間違って行く可能性がありますが
私たちは皆「これが私たちが行っている賭けです」で一致しています。
そして市場は実用的なので、Anthropicが会社として成功すればするほど、私たちを成功させるものをコピーする人々により多くのインセンティブがあります。そして、その成功が私たちが行う実際の安全性のことに結び付けられればされるほど、実際に業界の残りに競争させる業界において重力を作り出すだけです。
そして、「確かに、私たちはシートベルトを構築し、他の皆がそれらをコピーできます」ということです。それは良いことです。はい。
それは良い世界のようです。
そうです。
はい。これがレース・トゥ・ザ・トップです。しかし、「私たちは技術を構築しない、他の誰かよりも良く構築しない」と言うなら、最終的に、あなたがここからそこに行くことが可能であることを証明していないので、それはただうまくいきません。
世界が到達する必要がある場所は、業界を気にしない、一つの会社を気にしないということですが、この技術は存在しないから技術が非常に強力な方法で存在し、社会が実際にそれを管理したところまで私たちを成功裏に通り抜けさせることです。そして、それが起こる唯一の方法は、一つの会社のレベルで、そして最終的に業界のレベルで、実際にそれらのトレードオフに立ち向かっていることだと思います。
実際に競争力があり、実際に業界をリードする方法を見つけなければならず、場合によっては、しかし安全にものを行うことを管理しなければなりません。そして、それができるなら、あなたが発揮する重力の引力は非常に大きいです。規制環境から、異なる場所で働きたい人々の種類、時には顧客の見解まで、非常に多くの要因があります。
競争力を犠牲にすることなく安全性でうまくやることができることを示すことができるなら、これらの種類のウィンウィンを見つけることができるなら、他の人々が同じことをするインセンティブを与えられます。
そうです、つまり、RSPのようなものを正しく行うことがなぜそれほど重要かだと思います。なぜなら、技術がどこに向かっているかを見て、私たち自身がしばしば「ああ、ワオ、このことには本当に注意しなければならない」と思ったと思うからですが、同時に「イノベーションはここで止まらなければならない」と言って狼を叫ばないようにさらに注意しなければなりません。
AIを有用で、革新的で、顧客にとって喜ばしいものにする方法を見つけなければなりませんが、システムを安全にする制約が実際に何でなければならないかも理解しなければなりません。そのため、他の人々が彼らもそれができると思うことが可能で、成功でき、私たちと競争できると思えるようになります。
私たちは終末論者ではありません。私たちは積極的なものを構築したいのです。
そうです。
私たちは良いものを構築したいのです。
そして、それが実際に起こるのを見ました。私たちがRSPを出してから数ヶ月後、最も著名な3つのAI会社がそれを持ちました。解釈可能性研究、それは私たちがやった別の分野です。
安全性全体への焦点、AI安全性研究所との協力、他の分野のように。
そうです、Frontier Red Teamはほぼ即座にクローンされましたが、それは良いことです。すべてのラボが非常に、非常にセキュリティの恐ろしいリスクをテストすることを望みます。
シートベルトをエクスポートする。
そうです、まさに。
シートベルトをエクスポートします。
また、ジャックも前に言及しましたが、顧客も安全性について本当に気にかけています。顧客は幻覚を起こすモデルを望みません。彼らは簡単にジェイルブレイクできるモデルを望みません。彼らは有用で無害なモデルを望みます。
そうです。
そのため、多くの場合、顧客コールで聞くのは「私たちはより安全だと知っているのでClaudeを選んでいます」ということです。それは巨大な市場影響だと思います。なぜなら、信頼でき信頼性のあるモデルを持つ私たちの能力は、競合他社にもかける市場圧力にとって重要だからです。
ダリオが言ったことをもう少し解くために、高潔に失敗するのが美徳的なことだというナラティブやアイデアがあると思います。安全性を置くべきで、原因への純粋さを実証するために何らかの非実用的な方法でそれを実証すべきだということです。そして、それをやると、実際には非常に自己敗北的だと思います。一つには、決定を下し、決定をしている人々が、気にしない人々、安全性を優先していない人々、気にしない人々のために自己選択されることを意味します。
一方で、インセンティブを一致させる方法を見つけ、困難な決定がある場合、最も正しい困難な決定を行うことを支持する力が最も多く、最も証拠がある点でそれらが起こるようにしようと本当に努力するなら、ダリオが説明しているレース・トゥ・ザ・トップを引き起こし始めることができます。そこでは、気にする人々が影響から押し出されるのではなく、代わりに他の人々を引っ張って従わなければならないようにします。
次に私たちが取り組むことについて、皆さんは何にワクワクしていますか?
解釈可能性についてワクワクできる理由はたくさんあると思います。一つは明らかに安全性ですが、感情的なレベルで、同等にワクワクする、または同等に私にとって意味のある別のものがあります。それは、ニューラルネットワークは美しく、私たちが見ない多くの美しさがそれらにあると思うということです。
私たちはそれらを、内部のことに特に興味のないブラックボックスとして扱いますが、それらの中を見始めると、それらは素晴らしく美しい構造に満ちています。人々が生物学を見て「進化は本当に退屈だ。長時間実行されるシンプルなもので、動物を作る」と言うようなものです。代わりに、実際には、進化が生産するそれらの動物のそれぞれが、ニューラルネットワークを訓練するような最適化プロセスだと思います。それらは信じられない複雑さと構造に満ちており、私たちはニューラルネットワークの内部に人工生物学全体を持っています。
それらの中を見る意志さえあれば、素晴らしいものがたくさんあります。そして、私たちはそれをゆっくりと解きほぐし始めているだけで、それは信じられないほどで、そこにはたくさんありますが、発見したものがたくさんあります。私たちはそれを開き始めているだけで、それは素晴らしく美しいものになると思います。
時には、10年後に本屋に入って、ニューラルネットワーク解釈可能性の教科書、または本当にニューラルネットワークの生物学についての教科書を買うことを想像し、その中にある野生のものの種類を想像します。そして、次の10年間で、次の2、3年でさえ、私たちはそれらすべてを実際に発見し始めるつもりです。
そして、それは野生で信じられないものになるでしょう。
あなた自身の教科書を買うことも素晴らしいでしょう。
ただあなたの顔がそれに載っているだけです。
つまり、はい。
数年前、「政府がAIシステムをテストし評価するための新しい機関を設立し、それらが実際に有能で良いものになるでしょう」と言ったなら、そうなるとは思わなかったでしょう。
しかし、それは起こりました。政府がこの新しいクラスの技術、またはクリスが研究するもののようなものを扱うために、これらの新しい大使館のようなものをほぼ構築したようなものです。そして、それがどこに行くかを見ることにとてもワクワクしています。それは実際に、この種の社会的移行を扱うための国家能力があることを意味するので、会社だけではありません。
そして、それを手助けすることにワクワクしています。
私は今日でもある程度すでにこれについてワクワクしていますが、AIが人々のためにできることの未来の世界を想像するだけで、それについてワクワクしないことは不可能です。ダリオはこれについて多く話しますが、ワクチン開発、がん研究、生物学研究でClaudeが手助けできることのちらつきを見るだけでもクレイジーです。今できることを見るだけでなく、3年後または5年後を早送りして想像すると、Claudeが人間として直面する多くの根本的問題を実際に解決できることを想像すると。
健康の観点だけからでも、他のすべてを取り除いたとしても、私にとって本当にワクワクすることに感じられます。25歳の時に私がはるかに効果的でない方法でやろうとしていた多くの作業をClaudeが手助けして行うことができたら素晴らしいでしょう。私の国際開発時代を振り返ると。
私は仕事のためのClaudeを構築することにワクワクしていると思います。Claudeを会社に、そして世界中の会社に構築することにワクワクしています。
個人的に、仕事でClaudeを多く使うのが好きなので、家での時間でClaudeとただ物事について話すことが増加している量があります。最大の最近のことはコードでした
6ヶ月前、私はコーディング作業にClaudeを使いませんでした。
私たちのチームは本当にコーディングにClaudeをそれほど使っていませんでしたが、今ではただ段階的な違いです。先々週YCUで話をしましたが、最初に「さて、ここにいる皆さんのうち、今コーディングにClaudeを使っている人はどのくらいいますか?」と聞きました。文字通り95%の手
ワオ。
ワオ。
部屋のすべての手が、4ヶ月前やそこらとは全く違います。
私がワクワクしていることについて考える時、以前に言ったように、再び、皆が賢いと思うもののようなコンセンサスがあり、その後それがただ壊れるような場所、そして私がそれが起こりそうでまだ起こっていないと思う場所があります。
その一つは解釈可能性です。解釈可能性は、安全なAIシステムを操縦し作ることの鍵であり、私たちは理解しようとしており、解釈可能性は知的最適化問題と人間の脳がどのように働くかについての洞察を含んでいると思います。私は言いましたし、本当に冗談ではありませんが、クリス・オラーは未来のノーベル医学賞受賞者になるでしょう。
ああ、はい。
私は真剣です。私は真剣です。なぜなら、これらの多く、私は以前神経科学者でしたが、私たちが理解していない多くの精神疾患、統合失調症や気分障害のような、より高レベルのシステム的なことが起こっていて、脳が非常にぐちゃぐちゃで開いて相互作用するのが困難であるため、それらを脳で理解するのが困難だと疑っています。
ニューラルネットはそうではありません。それらは完全なアナロジーではありませんが、時間が経つにつれて、より良いアナロジーになるでしょう。それが一つの分野です。二つ目は、それに関連して、生物学のためのAIの使用だと思います。生物学は信じられないほど困難な問題です。人々は多くの理由で懐疑的であり続けています。そのコンセンサスが壊れ始めていると思います。
私たちは化学のノーベル賞がAlphaFoldに授与されるのを見ました。驚くべき成果です。私たちは100のAlphaFoldを作ることを手助けできるものを構築しようとしているべきです。そして最後に、民主主義を強化するためのAIの使用です。私たちは、AIが間違った方法で構築されると、権威主義のツールになる可能性があることを心配しています。AIはどのように自由と自己決定のツールになることができるでしょうか?その一つは他の二つよりも早いと思いますが、同じくらい重要になるでしょう。
そうです、つまり、二つのことがあると思います。少なくとも先ほどあなたが言ったことに関連することですが、一つは、人々がAIについて科学的に本当に好奇心を持っているためにAnthropicに参加し、その後、技術を進歩させるだけでなく、より深く理解し、安全であることを確実にする必要があるというビジョンを共有するようになることを、AIの進歩によって確信されることがよくあると感じます。
そして、あなたが一緒に働いている人々が、AI開発がどのようなものかとそれに関連する責任感の両方について、より統一されたビジョンを持つようになることがワクワクすることだと感じます。そして、トムが話したことのような昨年に起こった多くの進歩のために、それが多く起こっているように感じます。
もう一つは、つまり、本当に具体的問題に戻ると、私たちはこの時点までAI安全性について多くの作業を行ってきました。それの多くは本当に重要ですが、いくつかの最近の開発で、非常に、非常に高度なシステムから文字通りどのような種類のリスクが生じる可能性があるかを本当に垣間見ていると思います。
それらを解釈可能性で、他の種類の安全メカニズムで直接調査し研究でき、非常に高度なAIからのリスクがどのようなものかを本当に理解できます。そして、それは私たちが本当に深く科学的で経験的な方法で使命を進めることを可能にするものだと思います。
そのため、非常に高度なシステムで何が間違って行く可能性があるかの理解を使って、それを特徴付け、それらの落とし穴を避ける方法を理解する次の6ヶ月についてワクワクしています。
完璧!フィン!
やったー!
やりました!
ウー!
良い時間でした。
わかります。もっと頻繁にこれをやらなければなりません。


コメント