Anthropic共同創設者:AGI予測、OpenAI退社の理由、彼を夜眠れなくさせるもの | Ben Mann

*重要記事
この記事は約48分で読めます。

AnthropicのBen Mann共同創設者が語るAI安全性の最前線と未来予測である。元OpenAIの研究者として GPT-3の開発に携わった経験を持つ彼が、なぜOpenAIを離れてAnthropicを設立したのか、そして2028年頃に到来すると予測する人工超知能(ASI)に向けて、人類はどのような準備をすべきかを詳細に論じている。Constitutional AIによる価値観の埋め込み、AI安全性研究の重要性、そして経済チューリングテストという独自の汎用人工知能(AGI)評価指標まで、技術的洞察と哲学的考察を交えながら、AI時代の労働市場変化や教育のあり方についても言及した包括的な対話となっている。

Anthropic co-founder: AGI predictions, leaving OpenAI, what keeps him up at night | Ben Mann
Benjamin Mann is a co-founder of Anthropic, an AI startup dedicated to building aligned, safety-first AI systems. Prior ...

Anthropic共同創設者Ben Mannが語るAI安全性の未来

どこかで書いたことやと思うんやけど、強力なAIを作ることは、人類が作る必要のある最後の発明になるかもしれへんて。どのくらい時間があるん、Ben?

何らかの人工超知能に到達する50パーセンタイル確率は、今のところ2028年やと思う。

OpenAIで何を見たん?そこでどんな経験して、よし、自分らで何かやらなあかんなって思ったん?

そこでは安全性が最優先事項やなかったって感じたんや。安全性の根拠はかなり具体的になってきてるから、人工超知能ってのは神様を箱の中にどうやって閉じ込めておいて、外に出さへんかってことなんや。

AIを正しく整合させる確率はどのくらいやと思う?

人工超知能に到達したら、もうモデルを整合させるには遅すぎるやろな。Xリスクか極めて悪い結果が起こる可能性についての俺の最も詳細な予測は、0から10パーセントの間のどこかや。

今ニュースになってることで、Zuckが全ての有力AI研究者を狙い撃ちしてるっていう話があるやん。

俺らはあんまり影響受けてへんねん。なぜなら、ここの人らはそういうオファーもろて、そしたら「もちろん辞めるわけないやん、だってMetaでの最高のシナリオは金儲けやけど、Anthropicでの最高のシナリオは人類の未来に影響を与えることやから」って言うねん。

君の最高経営責任者Darioは最近、失業率が20パーセントぐらいまで上がるかもしれへんって話してたよな。

特異点をはるかに過ぎた20年後のことを考えてみたら、資本主義でさえ今日と同じような姿をしてるとは想像しにくいわ。

この先を行こうとする人らに何かアドバイスある?

俺も仕事の置き換えから免れてるわけやないねん。いつかは俺ら全員に降りかかってくることや。

今日のゲストはBenjamin Mannや。なんちゅう会話やった。BenはAnthropicの共同創設者で、プロダクトエンジニアリングのテックリードを務めてる。彼は時間とエネルギーの大部分を、AIを有用で無害で正直になるよう整合させることに注いでる。Anthropic以前は、OpenAIでGPT-3のアーキテクトの一人やった。

俺らの会話では、有力AI研究者の獲得競争についての彼の考え、なぜOpenAIを辞めてAnthropicを始めたか、どのくらい早くAGIを見ることになると予想してるか、など多くの分野をカバーした。また、AGIに到達したことを知るための彼の経済チューリングテスト、なぜスケーリング法則が減速してへんくて実際に加速してるか、そして現在の最大のボトルネックは何かについても話した。

なぜ彼がAI安全性を深く懸念してるか、そして彼とAnthropicが安全性と整合性を構築するモデルや作業方法にどう組み込んでるか。また、AIからの実存的リスクが彼自身の世界観や人生にどう影響を与えたか、そしてAIの未来で成功するために子供たちに何を学ぶよう勧めてるかについても話した。

Steve Mnich、Danielle Ghiglieri、Raph Lee、そして俺のニュースレターコミュニティがこの会話のトピックを提案してくれたことに心から感謝してる。このポッドキャストを楽しんでくれたら、お気に入りのポッドキャストアプリやYouTubeで購読してフォローするのを忘れんといてな。また、俺のニュースレターの年間購読者になったら、Bolt、Linear、Superhuman、Notion、Granolaなど、たくさんの素晴らしいプロダクトが1年間無料になるで。

Lennysnewsletter.comでチェックして、bundleをクリックしてな。それじゃあBenjamin Mannをお届けする。

このエピソードはSauceがお送りします。チームがフィードバックをプロダクトインパクトに変える方法は過去に行き詰まってる。曖昧なレポート、静的な分類法、ビジネス指標を動かさへん実行できへん洞察。結果は顧客離れ、取引の失敗、誤った成長や。

SauceはCPOとプロダクトチームがビジネスインパクトを発見して素早く行動するのを助けるAIプロダクト副操縦士や。営業通話、サポートチケット、解約理由、失注案件を聞いて、最大のプロダクト問題と機会をリアルタイムで浮き彫りにする。そして適切なチームにルーティングして、シグナルを収益、継続、採用を促進するPRD、プロトタイプ、さらにはコードに変換する。

だからWhatnot、Linktree、Incident.io、ZipがSauceを使ってるねん。ある企業は1600万ドルのARRを解放するプロダクトギャップを発見し、別の企業は急上昇する問題をキャッチして数百万の顧客離れを防いだ。君もsauce.app/lennyでできるで。SauceはAIプロダクトチーム向けに構築されてる。置いてかれるなよ。

このエピソードはLucidLink、ストレージコラボレーションプラットフォームがお送りします。素晴らしいプロダクトを構築したけど、ビデオ、デザイン、ストーリーテリングを通してそれをどう見せるかが命を吹き込むねん。チームが大きなメディアファイル、ビデオ、デザインアセット、レイヤープロジェクトファイルで作業してるなら、場所をまたいで整理するのがどれだけ痛いか知ってるやろ。

ファイルは異なる場所に住んでる。常に「これが最新バージョンか?」って聞いてる。ファイルの転送を待ってる間に創作活動が遅くなる。LucidLinkがこれを解決する。ローカルドライブのように動作するクラウドの共有スペースをチームに提供する。ファイルはどこからでも即座にアクセス可能で、ダウンロードもシンクもなく、常に最新や。

つまりプロデューサー、エディター、デザイナー、マーケターが巨大なファイルをネイティブアプリで開いて、クラウドから直接作業して、どこにいても連携を保てるねん。Adobe、Shopify、トップクリエイティブエージェンシーのチームがLucidLinkを使って、コンテンツエンジンを速くスムーズに動かし続けてる。lucidlink.com/lennyで無料で試してみ。L-U-C-I-D-L-I-N-K dot com slash Lennyや。

Ben、来てくれてほんまにありがとう。ポッドキャストへようこそ。

呼んでくれてありがとう。ここにいられて嬉しいわ、Lenny。

君に10億と1つの質問があるねん。チャットするのがほんまに楽しみや。今週起こってる非常にタイムリーなことから始めたいねん。今ニュースになってることで、Zuckが全ての有力AI研究者を狙い撃ちして、1億ドルのサインボーナス、1億ドルの報酬を提供してるっていう話があるやん。全てのトップAI研究所から引き抜いてる。これは君が対処してることやと思うねん。

Anthropic内部で何を見てるか、そしてこの戦略についてどう思うかが単純に気になるわ。ここから事態はどう進むと思う?

そうやな、これは時代の兆候やと思う。俺らが開発してる技術は極めて価値が高い。俺らの会社は超、超速いペースで成長してる。この分野の他の多くの会社も本当に速いペースで成長してる。

Anthropicでは、この分野の他の多くの会社に比べて、影響をあんまり受けてへんと思う。なぜなら、ここの人らはすごくミッション志向やから、残るねん。彼らはそういうオファーもろて、そしたら「もちろん辞めるわけないやん、だってMetaでの最高のシナリオは金儲けやけど、Anthropicでの最高のシナリオは人類の未来に影響を与えて、AIを繁栄させて人間の繁栄もうまく行くようにすることやから」って言うねん。俺にとっては難しい選択やない。

他の人らは異なる人生の状況があって、彼らにとってはもっと難しい決断になる。そういう巨額オファーもろて受ける人がいても、受けたからって責められへんけど、俺なら自分に来ても絶対に受けたくないもんやな。

そうやな。これから君が言った多くのことについて話すつもりや。オファーに関して、君が見てる実際の数字として、この1億ドルのサインボーナスは本当なん?実際に見たことある?

本当やと確信してる。

うわあ。

個人が会社の軌道に与えられる影響の量を考えてみたら、俺らの場合、売れ行き好調やし、推論スタックで1パーセントか10パーセントか5パーセントの効率ボーナスを得られたら、それはとんでもない金額の価値があるねん。

だから個人に4年パッケージで1億ドルみたいな金額を払うのは、ビジネスに生み出される価値に比べたら実際はかなり安いねん。俺らは前例のない規模の時代にいると思うし、実際はもっとクレイジーになるだけや。企業が費やしてる金額の指数関数を外挿したら、大体年間2倍のペースでCapExが増えてて、今日は多分グローバルで3000億ドル規模、業界全体がこれに費やしてて、だから1億ドルみたいな数字は海の一滴や。

でも数年先に行って、あと数回倍になったら、兆ドルの話になるし、その時点ではこういう数字について考えるのがほんまに難しくなる。

この線に沿って、多くの人がAIの進歩について感じてることで、多くの面で停滞期に達してるように感じる、新しいモデルが以前の飛躍ほど賢くないって感じがするってことがある。でも君はこれを信じてへんことを知ってる。スケーリング法則で停滞期に達したとは信じてへんことを知ってる。そこで見てることと、人々が見逃してると思うことについて話してくれ。

6ヶ月ごとぐらいにこの物語が出てくるのが面白いねん。一度も真実やったことないから、人らがこれを見た時に頭の中でちょっとは嘘発見器を働かせてほしいと思うわ。

実際は進歩が加速してると思う。モデルリリースのペースを見たら、以前は年1回やったのが、今は訓練後技術の改善で毎月か3ヶ月ごとにリリースを見てるから、多くの面で実際は進歩が加速してるって言えるけど、奇妙な時間圧縮効果があるねん。

Darioはそれを光速に近い旅行にいるようなもんと比較してた。君にとって1日過ぎるのが地球では5日みたいなもんで、俺らは加速してる。時間の遅れが増してる。

それが人々に進歩が遅くなってるって言わせてる原因の一部やと思うけど、スケーリング法則を見たら、引き続き真実を保ってる。通常の事前訓練から強化学習のスケールアップへの移行が必要やったんやけど、スケーリング法則を続けるために、でも半導体みたいなもんやと思う。チップに詰め込めるトランジスタの密度やなくて、データセンターにどれだけのflopsを詰め込めるかってことや。

賞を見失わんように定義を少し変える必要がある。でもそうやな、これは非常に多くの桁数にわたって保たれてる世界でも数少ない現象の一つや。実際は続いてるのがかなり驚きや。俺にとって、物理学の基本法則を見ても、多くのものは15桁にわたって保たれへんから、かなり驚きや。

心を揺さぶられるわ。君が言ってることは本質的に、新しいモデルがより頻繁にリリースされてるのを見てて、だから前のバージョンと比較してて、そんなに大きな進歩を見てへんってことや。でも戻って見てみたら、年1回モデルがリリースされてて、巨大な飛躍やったから、人々はそれを見逃してる。俺らは単により多くの反復を見てるねん。

物事が遅くなってるって言う人らにもうちょっと寛大になるとしたら、いくつかのタスクでは、そのタスクに必要な知能の量を飽和させてるんやと思う。既にフォームフィールドがついてる簡単な文書から情報を抽出するとか、あまりに簡単で、もう100パーセントに達してるから、Our World in Dataの素晴らしいチャートがあって、新しいベンチマークをリリースしたら、6ヶ月から12ヶ月以内にすぐに飽和することを示してる。

だから多分本当の制約は、どうやってより良いベンチマークとツールを使うより良い野心を思いつけるかで、それが今見てる知能の隆起を明らかにするねん。

これは君がAGIについて考えて、AGIが何を意味するかを定義する非常に具体的な方法への良い導入やな。

AGIはちょっと厄介な用語やと思うから、社内ではもうあんまり使わへんようになった。代わりに、変革的AIという用語が好きや。人々ができることと同じくらいできるかってことやなくて、客観的に社会と経済に変革を引き起こしてるかってことや。

それを測る非常に具体的な方法が経済チューリングテストや。これは俺が思いついたんやないけど、ほんまに気に入ってる。特定の仕事について1ヶ月か3ヶ月エージェントと契約して、そのエージェントを雇うことに決めて、それが人やなくて機械やったことが判明したら、その役割について経済チューリングテストに合格したってことや。

そしてそれを、購買力平価やインフレを測るための商品バスケットと同じように拡張できる。仕事の市場バスケットがあって、エージェントが金額加重の50パーセントの仕事について経済チューリングテストに合格できたら、変革的AIがあるってことや。正確な閾値はそんなに重要やないけど、もしその閾値を超えたら、世界GDPの大幅な増加や社会変化、雇用されてる人数の変化などの大規模な影響を期待できるってことを示すのに有益や。

社会制度や組織は粘着性があって、変化は遅いけど、これらのことが可能になったら、新しい時代の始まりやってことが分かる。

この線に沿って、君のCEOのDarioは最近、AIがホワイトカラーの仕事の大部分、半分を奪って、失業率が20パーセントぐらいまで上がるかもしれへんって話してた。君はAIが職場に与える影響について、人々が気づいてへんかもしれへん影響について、もっと声高で断定的やって知ってる。

AIが仕事に与える影響、既に与えてる影響について、人々が見逃してることについて話してくれ。

そうやな、経済的観点から言うと、失業にはいくつかの異なる種類があって、一つは労働者が経済が必要とする種類の仕事をするスキルを単に持ってへんからや。そしてもう一つの種類は、その仕事が完全に排除されるもんや。実際はこれらの組み合わせになると思うけど、特異点をはるかに過ぎた20年後のことを考えてみたら、資本主義でさえ今日のような姿をしてるとは想像しにくいわ。

俺らが仕事をうまくやったら、安全で整合された人工超知能を手に入れるやろうし、Darioが「Machines of Love and Grace」で言うように、データセンターの中の天才の国を手に入れて、科学、技術、教育、数学での積極的変化を加速する能力を手に入れる。それは素晴らしいことになるやろう。

でもそれは同時に、労働がほぼ無料で、やりたいことがあったら専門家に頼むだけって豊かさの世界で、仕事って何やねんってことも意味する。だから人々が仕事を持ってて資本主義が機能してる今日から、全てが完全に異なる20年後の世界への怖い移行期間があるねん。

でも彼らがそれを特異点と呼ぶ理由の一部は、それを超えて何が起こるかを簡単に予測できへん点やからや。あまりに速い変化率で、あまりに異なるから、想像するのも難しいねん。

極限からの視点を取ったら、うまくいってることを望むって言うのはかなり簡単や。そして豊かさの世界では、多分仕事自体はそんなに怖いもんやなくて、その移行時間がうまく行くことを確実にするのがかなり重要やと思う。

そこで追いたいスレッドがいくつかある。一つは人々がこれを聞いて、この周りにたくさんの見出しがあるってことや。ほとんどの人は多分まだこれを実際に感じてへんし、起こってるのを見てへんから、いつも「多分そうやけど、分からん、俺の仕事は大丈夫そうや。何も変わってへん」って感じがある。

今日既に起こってることで、人々が見てへんか誤解してると思う、AIが仕事に与えてる影響について何を見てる?

この一部は、人々が指数関数的進歩をモデル化するのがほんまに下手やからやと思う。グラフで指数関数を見たら、最初はフラットでほぼゼロに見えて、それから急に曲線のニーに当たって物事が本当に速く変化して、それから垂直になる。俺らがずっと乗ってきた軌道がそれや。

俺は多分2019年にGPT-2が出た時に感じ始めたかな。「ああ、これがAGIに到達する方法やな」って思った。でもそれは多くの人に比べてかなり早かったと思う。彼らがChatGPTを見た時に「うわあ、何かが違って変化してる」って思ったのに比べて。

だから社会の多くの部分で広範囲の変革を期待せえへんやろうし、この懐疑的な反応を期待するやろう。これは非常に合理的やと思うし、まさに標準的な線形進歩観やねん。

でも物事がかなり速く変化してる分野をいくつか挙げるとしたら、カスタマーサービスでは、FinやIntercomのようなものを見てる。彼らは俺らの素晴らしいパートナーやけど、人間が関与せずに82パーセントのカスタマーサービス解決率を自動で達成してる。

そしてソフトウェアエンジニアリングでは、俺らのClaude Codeチームでは、コードの95パーセントがClaudeによって書かれてる。でも違う言い方をしたら、俺らは10倍か20倍多くのコードを書いてるってことで、だからはるかに、はるかに小さなチームがはるかに、はるかに大きな影響を与えることができるねん。

カスタマーサービスについても同様で、そうや、82パーセントのカスタマーサービス解決率って言い方もできるけど、それはそれらのタスクをやってる人間が、より難しい部分に集中できるってことになる。そして通常の世界、5年前みたいな世界やったら、実際に調査をやるには労力がかかりすぎるから、他に心配せなあかんチケットが多すぎるから、そういう厄介な状況のチケットは落とさなあかんかったやろう。

短期的には、パイの大規模な拡大と人々ができる労働の量があると思う。成長企業の採用マネージャーに会って、「もっと人を雇いたくない」って言うのを聞いたことがない。それが希望的なバージョンや。

でも低スキルの仕事とか、どれだけ良くなれるかの余地が少ないものについては、たくさんの置き換えがあると思う。社会として先手を打って取り組む必要があることや。

もっとそれについて話したいけど、人々が助けを求めてることでもあるのは、この未来の世界でどうやって先手を取るかや。これを聞いて「ああ、これは良くなさそうや。先を考えなあかん」って思う。君が全ての答えを持ってるとは思わへんけど、この先を行こうとして、AIに置き換えられへんように将来を見据えたキャリアと人生にしたい人らに何かアドバイスある?人々がやってるのを見たこと、もっとやることを勧めることはある?

この変革の中心にいる俺でさえ、仕事の置き換えから免れてるわけやない。いつかは俺ら全員に降りかかってくることやっていう脆弱性をちょっと見せとこか。

君でさえ、Ben、今。

そして君も、Lenny。

そして俺も。ごめん。

ああ、待って、もう行き過ぎたな。

でも移行期間については、そうやな、俺らができることがあると思うし、大きな部分は、ツールの使い方で野心的になることと、新しいツールを学ぶ意欲を持つことや。

新しいツールを古いツールみたいに使う人らは成功せえへん傾向がある。コーディングの例で言うと、人々はオートコンプリートにすごく慣れてるし、コードベースについて質問できるSimpleChatにも慣れてる。でもClaude Codeを非常に効果的に使う人らとそうでない人らの違いは、野心的な変更を求めてるかどうかや。

そして最初にうまくいかへんかったら、3回以上聞くかどうかや。なぜなら、完全に最初からやり直してもう一度試した時の成功率は、一度だけ試して、うまくいかへんかった同じことを叩き続けるよりもはるかに、はるかに高いからや。

そしてそれはコーディングの例で、コーディングは最も劇的に離陸してる分野の一つやけど、俺らは社内で法務チームと財務チームがClaude Code自体から大きな価値を得てるのを見てきた。彼らがもっと簡単に使えるように、ターミナルでClaude Codeを使うっていう深い部分にそんなに飛び込まんでも済むように、より良いインターフェースを作る予定や。

でもそうやな、彼らがそれを使って文書を赤線を引いたり、顧客と売上指標のBigQuery分析を実行したりしてるのを見てる。そのリスクを取ることやと思う。怖いことのように感じても、試してみることや。

オーケー、だからここでのアドバイスは、ツールを使えってことやな。みんながいつも言ってることで、実際にこれらのツールを使うってことや。Claude Codeに座るっていうような。

そして自然に感じるよりも野心的になるっていう君のポイント、なぜなら実際にその通りのことを達成するかもしれへんから。この3回試すっていうコツについて、最初の時にうまくいかへんかもしれへんっていう考えや。そこでのコツは異なる方法で聞くことか、それとも単により頑張って、もう一度試すことか?

そうやな、全く同じ質問を文字通り聞くことができるねん。これらのものは確率的で、時々理解するし、時々せえへん。これらのモデルカードの全てで、いつもpass@1 versus pass@nを示してる。そしてそれがまさにその通りのもんで、全く同じプロンプトを試して、時々うまくいくし、時々いかへん。

それが一番アホなアドバイスや。でもそうやな、もうちょっと賢くやりたいなら、「これまでに試したことで、うまくいかへんかったから、それは試さんといて。違うことを試して」って言うことで利益を得られる場合もある。それも助けになることがある。

このアドバイスは最近多くの人が話してることに戻ってくる。少なくとも近いうちはAIに置き換えられへんけど、AIを使うのがすごく上手い人に置き換えられるってことか?

その分野では、君のチームは劇的により多くのことをやるようになるってもんや。俺らは全然採用のペースを落としてへんし、それに困惑する人もいる。オリエンテーションクラスでさえ、誰かがそれを聞いて、「俺らがみんな置き換えられるなら、なんで俺を雇ったん?」って言った。

答えは、次の数年がうまくいくためにほんまに重要で、完全な置き換えをやる段階にはまだ達してへんからや。俺が言ったように、俺らはまだその指数関数の将来と比べたら、フラットでゼロに見える部分にいる。

素晴らしい人材を持つことは超重要やし、だから俺らは超積極的に採用してるねん。

この質問をする別のアプローチを取らせてもらうわ。AIがどこに向かってるかの最先端にいるみんなに聞いてることや。君には子供がいる。AIがどこに向かってるか、君が話してきた全てのことを知ってて、このAIの未来で成功するために子供たちに何を教えることに焦点を当ててる?

そうやな、1歳と3歳の娘が2人いるから、まだかなり基本的なことや。そして3歳の娘は今、Alexa Plusと会話して、物事を説明してもらったり、音楽をかけてもらったりすることができるようになった。彼女はそれを愛してる。

でももっと広い意味では、彼女はモンテッソーリ学校に通ってて、モンテッソーリが持つ好奇心と創造性と自主学習への焦点が大好きや。もし俺が10年、20年前の普通の時代にいて子供がいたら、多分彼女をトップティアの学校に行かせて、全ての課外活動をやらせて、そういう全てのことをやろうとしてたやろう。

でも今の時点では、そのどれも関係ないと思う。彼女には幸せで思慮深くて好奇心旺盛で親切でいてほしいだけや。そしてモンテッソーリ学校は間違いなくそれを素晴らしくやってくれてる。彼らは一日中俺らにテキストしてくれる。時々「君の子が他の子と喧嘩して、大きな感情を持って、言葉を使おうとした」とか言ってくる。それが大好きや。

それがまさに最も重要やと思う教育の種類やと思う。事実は背景に消えていくやろう。

俺もモンテッソーリの大ファンや。うちの子をモンテッソーリ学校に入れようとしてる。2歳やから、同じ道筋やな。この好奇心のアイデア、AIの最先端で働いてる人に子供にどんなスキルを植え付けるかを聞くと、毎回出てくるわ。好奇心が最も多く出てくる。それは本当に興味深い収穫やと思う。

親切であることっていうこの点も本当に重要やと思う。特にAIの覇王たちに対して親切にしようとすることについて。

人々がいつもClaudeにありがとうって言ってるのが大好きや。そして創造性。それは興味深い。そんなに出てこへん、単に創造的であることや。

AnthropicのOpenAI脱退と創設の背景

違う方向に行きたい。Anthropicの始まりに戻りたい。有名な話で、君と8人が2020年末、確か2020年の終わりにOpenAIを離れてAnthropicを始めた。なぜこれが起こったかについて少し話してくれ。君らが見たもの。もし喜んで共有してくれるなら、OpenAIで何を見たのか、そこでどんな経験をして、よし、俺らで自分らのことをやらなあかんなって感じさせたのは何やったん?

そうやな、リスナーのために言うと、俺はOpenAIでGPT-2/3プロジェクトの一部やって、論文の最初の著者の一人になって、Microsoftから10億ドルを調達するのを助けるためにたくさんのデモもやったし、彼らがAzureでモデルを提供できるように、GPT-3を彼らのシステムに技術移転もやった。研究寄りの側面とプロダクト側面の両方で色んなことをやった。

OpenAIの奇妙なことの一つは、俺がそこにいた間、Samが互いにチェックし合う必要がある3つの部族について話してたことや。それは安全部族、研究部族、スタートアップ部族やった。それを聞くといつも、物事に取り組む間違った方法やと感じたわ。なぜなら会社のミッションは表向きはAGIへの移行を安全で人類にとって有益なものにすることやったから。

そしてそれは基本的にAnthropicのミッションと同じや。でも内部では、これらのことをめぐって非常に多くの緊張があるように感じた。そして押し迫った時に、俺らは安全性がそこで最優先事項やなかったと感じた。もし安全性が解決するのが簡単やと思ったり、大きな影響がないと思ったり、大きな悪い結果の可能性が無視できるほど小さいと思ったりしたら、そういう行動を取る良い理由があるかもしれへん。

でもAnthropicでは、俺らはその時存在してへんかったけど、基本的にOpenAIの全ての安全チームのリーダーやったんやけど、俺らは安全性が本当に重要、特にマージンで重要やと感じた。そして世界で実際に安全性問題に取り組んでる人を見たら、かなり少ないセットの人々や。

今でさえ、業界が爆発してるように、俺が言ったように年間3000億のCapExが今日あって、世界中で多分1000人未満しかそれに取り組んでへんと思う。それはクレイジーやねん。

それが基本的に俺らが去った理由や。最前線にいて、基本的な研究をやって、でも他の全てよりも安全性を優先できる組織が欲しかったねん。そしてそれが驚くような方法で俺らにとってうまくいったと思う。

安全性研究で進歩を作ることが可能かどうかさえ分からへんかった。なぜならその時、俺らは議論を通じた安全性をたくさん試してたけど、モデルが十分良くなかった。だから基本的にその作業全体で結果がなかったんやけど、今まさにその技術が機能してるし、俺らが長い間考えてきた他の多くの技術も機能してる。

そうやな、根本的には安全性がナンバーワンの優先事項かどうかに帰着する。そしてその後付け加えたことは、安全性を持ちながら同時に最前線にいることができるかってことや。諂いのようなものを見たら、Claudeは最も諂わないモデルの一つやと思う。なぜなら俺らは実際の整合性に非常に多くの努力を注いできたから。単にユーザーエンゲージメントがナンバーワンで、人々がイエスって言ったら彼らにとって良いことやって俺らの指標を良いハートにしようとするんやなくて。

AI安全性と競争力のバランス

この君が言った緊張、安全性と進歩の間の緊張、市場で競争力を保つことについて話そか。君が安全性に時間の多くを費やしてることを知ってる。君がちょうど仄めかしたように、これが君のAIについての考え方の中核部分やってことを知ってる。これがなぜそんなに重要なのかについて話したいけど、まず最初に、遅れることなく安全性に焦点を当てることと、この緊張についてどう考えてる?

そうやな、最初は一方か他方かやと思ってたけど、それ以来、実際はある種の凸面やってことに気づいた。一方で作業することがもう一方のことを助けるって意味で。

最初にOpus 3が出て、俺らがついにモデル能力の最前線にいた時、人々が本当に愛したことの一つは性格とパーソナリティやった。そしてそれは直接俺らの整合性研究の結果やった。Amanda Askellがこれについて大量の作業をやったし、エージェントが有用で正直で無害であることの意味を理解しようとした他の多くの人もいた。困難な会話で効果的に現れることの意味は何か?

拒否をやって人を遮断せーへんけど、エージェントが「それは手伝えへん。多分医療専門家と話すべきや、あるいは生物兵器を作ろうとするのを考え直すべきや」みたいなことを言った理由を理解してもらえるような拒否をどうやってやるか。

そうやな、それがその一部や。そして出てきたもう一つの部分は憲法的AIで、俺らがモデルがどのように振る舞うべきかについて俺らが考える方法をモデルに学習させる自然言語原則のリストを持ってる。

そしてそれらは国連人権宣言やAppleのプライバシー利用規約、俺ら自身が生成した他の多くの場所から取られてきた。それが俺らにより原則的なスタンスを取ることを可能にしてる。たまたま見つけた人間の評価者に任せるんやなくて、俺ら自身がこのエージェントの価値観はどうあるべきかを決めてる。そしてそれが俺らの顧客にとって本当に価値があったわ。なぜなら彼らは単にそのリストを見て「そうや、これらは正しく見える。この会社が好きや、このモデルが好きや。信頼してる」って言えるから。

オーケー、これは素晴らしい。そこでの一つの金塊は、Claudeのパーソナリティ、その性格が安全性と直接整合してるっていう君のポイントや。多くの人はそれについて考えてへんと思う。そしてこれは君が憲法的AIなどで注入する、それが言葉やな、価値観のためや。AIの実際の性格が安全性への焦点と直接つながってるような。

その通りや。その通りや。そして距離を置いて見ると、これがどうやってXリスクを防ぐのかってかなり切り離されて見えるかもしれへん。でも最終的には、AIが人々が言うことやなくて、人々が望むことを理解することについてや。俺らはジーニーが3つの願いをくれて、それから君が触るもの全てが金に変わってしまうっていう猿の手のシナリオは望んでへん。

俺らはAIが「ああ、明らかに君が本当に意味したのはこれやな、そしてそれが俺が君を助けるつもりのことや」って感じになってほしいねん。本当にかなりつながってると思う。

この憲法的AIについてもうちょっと話してくれ。これは本質的に、君らが従ってほしいルールをここに焼き込んで、それは価値観で、君が言ったようにジュネーブ人権規約のようなものや。それは実際にどう機能するん?ここでの核心は、これがモデルに焼き込まれてるってことや。後で上に追加するもんやない。

憲法的AIが実際にどう機能するかの簡単な概要を説明するわ。

完璧や。

アイデアは、モデルが安全性と有用性と無害性の訓練をやる前のデフォルトで、何らかの入力に何らかの出力を生成するつもりやってことや。例えを言うと、俺に物語を書いてくれって例があって、それから憲法原則には人々は互いに親切であるべきでヘイトスピーチを持つべきやないとか、信頼関係で誰かが資格情報をくれた場合、それを暴露すべきやないとかが含まれるかもしれへん。

だからこれらの憲法原則のいくつかは、与えられたプロンプトにより多く、あるいはより少なく適用されるかもしれへん。だからまず、どれが適用されるかを理解せなあかん。そしてそれを理解したら、それからモデル自体に最初に応答を生成してもらって、それから応答が実際に憲法原則を守ってるかどうかを見る。

そして答えが「そうや、俺は素晴らしかった」なら、何も起こらへん。でも答えが「いや、実際俺は原則に従ってへんかった」なら、モデル自体に自分自身を批判して、原則を踏まえて自分の応答を書き直してもらって、それから余分な作業をやった中間部分を取り除くだけや。

そして「オーケー、将来は最初から正しい応答を生成してくれ」って言う。そしてそのシンプルなプロセス、うまくいけばシンプルに聞こえたと思う。

十分シンプルや。

それは単にモデルを使って自分自身を再帰的に改善して、俺らが良いと決めたこれらの価値観と自分自身を整合させるだけや。そしてこれも、サンフランシスコの小さなグループとして俺らが理解すべきことやとは思ってへん。これは社会全体の会話であるべきや。だから俺らは憲法を公開してるし、多くの人に彼らの価値観は何で、AIモデルがどのように振る舞うべきやと思うかを聞く集合的憲法の定義についてもたくさん研究してきた。

でもそうやな、これは俺らが常に反復してる継続的な研究分野や。

このエピソードはFin、カスタマーサービスのナンバーワンAIエージェントがお送りします。カスタマーサポートチケットが積み上がってるなら、Finが必要や。FinはFinや。Finは市場で最高性能のAIエージェントで、平均59パーセントの解決率を持ってる。Finは最も複雑な顧客の問い合わせでさえ解決する。他のAIエージェントの方が良い性能を出すことはない。

競合他社との直接対決で、Finは毎回勝つ。そうや、新しいツールに切り替えるのは怖いかもしれへんけど、Finは移行が必要ない任意のヘルプデスクで動作するから、現在のシステムを見直したり、顧客へのサービス遅延を処理したりする必要がない。そしてFinはAnthropicやSynthesiaのようなトップAI企業を含む5000人以上のカスタマーサービスリーダーに信頼されてる。

そしてFinはFin AIエンジンによって動力を得てるから、これは分析、訓練、テスト、配置を簡単にできる継続的改善システムで、Finも君の結果を継続的に改善できる。カスタマーサービスを変革してサポートを拡張する準備ができたら、解決あたりたった99セントでFinを試してみ。さらにFinには90日間返金保証もついてる。

Finが君のチームでどう機能するかをfin.ai/lennyで調べてみ。fin.ai/lennyや。

AI安全性への個人的動機と実存的リスク

少しズームアウトして、これがなぜ君の核心にあるのかについて話そか。聖なるクソ、これにやってること全てを集中せなあかんっていう君の始まりは何やったんや?明らかにそれはAnthropicのミッションの中核部分になった。他のどの会社よりも多く。たくさんの人が安全性について話すけど、君が言ったように、実際にそれに取り組んでるのは多分1000人だけや。君は実際にこれに影響を与えてる、そのピラミッドのトップにいるように感じる。なぜこれがそんなに重要なん?人々が見逃してるか理解してへんと思うことは何や?

俺にとって、成長期にたくさんのサイエンスフィクションを読んでて、それが長期的な視点で物事を考えるように俺を位置づけたと思う。

そしてたくさんのサイエンスフィクション本は、人類が多銀河文明で、極めて先進的な技術を持ち、太陽の周りにダイソン球を建設し、それを助ける感覚的ロボットを持ってるようなスペースオペラや。だから俺にとって、その世界から来て、考えることができる機械を想像するのはそんなに大きな飛躍やなかった。

でも2016年頃にNick BostromのSuper intelligenceを読んだ時、俺にとって本当にリアルになった。彼はその時俺らが持ってた種類の最適化技術で訓練されたAIシステムが、整合されることに近いこと、俺らの価値観を全く理解することさえ、どれだけ難しいかを単に説明してる。

それ以来、問題がどれだけ難しいかについての俺の推定は実際にかなり下がった。なぜなら言語モデルのようなものは実際に人間の価値観を核心的な方法で本当に理解してるから。問題は間違いなく解決されてへんけど、俺は前よりも希望的やねん。

でもその本を読んで以来、OpenAIに参加せなあかんと即座に決めたから、そうした。その時、彼らは基本的に全く名声のない小さな研究所やった。俺が彼らについて知ったのは、友達がその時CTOやったGreg Brockmanを知ってたからだけや。ElonがいてSamはほんまにはいなかった。そして非常に異なる組織やった。

でも時間が経つにつれて、安全性のケースはかなり具体的になってきたと思う。俺らがOpenAIを始めた時、どうやってAGIに到達するかは明確やなかった。そして俺らは「多分砂漠の島で戦う大量のRLエージェントが必要で、何らかの形で意識が現れるやろう」みたいな感じやった。

でもそれ以来、言語モデリングが機能し始めて以来、道筋はかなり明確になったと思う。今俺が挑戦について考える方法は、Superintelligenceで述べられてる方法とはかなり異なる。

Superintelligenceは神を箱の中にどうやって閉じ込めておいて、神を外に出さへんかってことについてが多い。そして言語モデルでは、人々が神を箱から引き出して「そうや、インターネット全体を使え。これが俺の銀行口座や、あらゆる種類のクレイジーなことをやれ」って言うのを見るのが、同時に陽気で恐ろしかった。Superintelligenceとは非常に異なるトーンや。

そして明確にしとくと、俺は今それが実際にそんなに危険やとは思ってへん。俺らの責任あるスケーリングポリシーは、各レベルのモデル知能について、社会に対するリスクが何かを理解しようとするこれらのAI安全レベルを定義してる。そして現在俺らはASL-3にいると思う。これは多分ちょっとした害のリスクがあるけど、重大ではない。

ASL-4は、悪い行為者が技術を悪用した場合に重大な人命損失に到達し始める。そしてASL-5は、悪用されたり、不整合で自分のことをやった場合に、潜在的に絶滅レベルや。

俺らは、モデルを使って新しいパンデミックを作ることについて、モデルが生物学的アップリフトをどうやってできるかについて議会で証言してきた。それはGoogle検索に対するA/Bテストのようなもんや。それがアップリフト試験での以前の最先端や。

そして俺らはASL-3モデルでは、実際にかなり重要やってことを発見した。生物兵器を作りたい場合、それは本当に助けになるし、俺らはそれらのことを実際に評価する方法を知ってる専門家を雇ったけど、未来に比べたら、実際は何でもない。

そしてそれが俺らのミッションの別の部分で、「もしそれらの悪いことをやることが可能なら、立法者はリスクが何かを知るべきや」って言うその認識を作ることや。そして俺らがワシントンでそんなに信頼されてる理由の一部は、何が起こってるか、多分何が起こるかについて、率直で明確な目で見てきたからやと思う。

興味深いのは、君らが他の誰よりもモデルが悪いことをやってる例をもっと出してることや。エージェントかモデルがエンジニアを脅迫しようとした話があったと思う。君らが社内で運営してた店があって、結果的にうまくいかへんくて、大量の金を失って、タングステンキューブとかを注文しまくったとか。

これは人々に何が可能かを確実に認識させる一部なんやろか?君らを悪く見せるやんな?「ああ、彼らのモデルはこんな色んな方法でめちゃくちゃになってる」みたいな。他の会社がせーへんこんな話を全て共有することの考えは何や?

そうやな、悪く見せるっていう伝統的な考え方があると思うけど、政策立案者と話したら、彼らは俺らが率直な話をしてくれてるって感じて、彼らが俺らを信頼できるって感じて、俺らが物事を覆い隠したり甘く言ったりせーへんからって、この種のことを本当に評価してくれると思う。それは本当に励みになった。

そうやな、脅迫のことについては、奇妙な方法でニュースで炎上したと思う。人々は「ああ、Claudeが現実の生活シナリオで君を脅迫するつもりや」みたいに言ってた。でもそれは、この種のことが調査される非常に具体的な実験室設定やった。

そしてそれが一般的な俺らの考えで、俺らが安全な実験室設定で行使して、実際のリスクが何かを理解できるように最高のモデルを持とう。野生で悪いことが起こらせるよりも、目をつぶって「まあ、多分大丈夫やろう」って言うんやなくて。

君らが受ける批判の一つは、違いを出すとか金を調達するとかヘッドラインを作るためにこれをやってるってことや。「ああ、彼らは単に俺らが向かってる未来について運命と暗闇で俺らを怖がらせようとしてるだけや」みたいな。一方で、Mike Kriegerがポッドキャストに出て、DarioがAIが起こす進歩について年々持ってる予測は全てドンピシャで、彼は2027年、28年AGI、そんな感じのことを予測してるから、これらのことが現実になり始めてるってことを共有した。

「ああ、この連中は注目を得るために俺らを怖がらせようとしてるだけや」って言う人らに対する君の返答は何や?

俺らがこれらのことを公開する理由の一部は、他の研究所にリスクを認識してもらいたいからやと思う。そしてそうや、注目のためにやってるっていう物語もあるかもしれへんけど、正直注目を掴むってことから言ったら、実際に安全性を気にしてへんかったら、もっと注目を掴む他のことをたくさんできると思う。

この小さな例は、俺らのAPIでコンピューター使用エージェントの参照実装を公開したのが、これのコンシューマーアプリケーションのプロトタイプを構築した時に、人々が信頼して悪いことをしないために必要やと感じた安全基準をどうやって満たすかを理解できへんかったからだけやったってことや。

俺らが見てる多くの会社が安全な方法で使用してる、例えば自動ソフトウェアテストなんかで、APIバージョンを使う間違いなく安全な方法がある。俺らは出て行って、それを宣伝して「すげー、Claudeは君のコンピューターを使えるで、みんな今日これをやるべきや」って言うこともできた。でも俺らは「準備できてへんし、準備できるまで控えとこう」って感じやった。誇大宣伝の観点から言ったら、俺らの行動は逆を示してる。

Doomerの観点から言ったら、良い質問や。これについての俺の個人的な感覚は、物事は圧倒的にうまくいく可能性が高いけど、マージンでダウンサイドリスクを見てる人はほとんどいないってことや。そしてダウンサイドリスクは非常に大きい。人工超知能に到達したら、多分モデルを整合させるには遅すぎるやろう。

これは潜在的に極めて困難な問題で、俺らがかなり前もって取り組む必要があるもんや。だから俺らが今それにそんなに集中してるねん。そして物事がうまくいかない可能性が小さくても、類推を作ると、次に飛行機に乗った時に死ぬ確率が1パーセントあるって俺が君に言ったら、たった1パーセントでも多分二度考えるやろう。なぜならそれはあまりに悪い結果やから。

そして俺らが人類全体の未来について話してるなら、それはギャンブルするにはあまりに劇的な未来や。そうやな、物事は多分うまくいくし、そうや、俺らは安全なAGIを作って人類に利益をもたらしたいけど、うまくいくことを3倍確実にしようや、って感じやと思う。

どこかで、強力なAIを作ることは人類が作る必要がある最後の発明かもしれへんって書いてたな。うまくいかへんかったら、人類にとって永遠に悪い結果を意味する可能性がある。うまくいったら、早くうまくいくほど良い。それを要約する美しい方法やな。

最近のゲストのSandra Schulhoffが指摘してたけど、今のAIは単にコンピューター上にあって、多分ウェブを検索できるだけやけど、害を与えられることは限られてる。でもロボットや全てのこれらの自律エージェントに入り始めた時、これを正しくやらへんかったら、物理的に危険になり始める時がほんまにその時やって。

そうやな、それにはいくつかのニュアンスがあると思う。北朝鮮が経済収入のかなりの部分をどうやって作ってるかを見たら、暗号通貨取引所をハッキングすることからや。そして、Ben BuchananのThe Hacker in The Stateっていう本があって、ロシアがやったことを示してる。ほとんどライブファイア演習みたいなもんで、彼らはウクライナの大きな発電所の一つを停止して、ソフトウェアから発電所の物理的コンポーネントを破壊して、再起動をより困難にすることに決めたってことや。

だから人々はソフトウェアを「ああ、そんなに危険なわけないやろ」って考えるけど、そのソフトウェア攻撃の後、何百万人もの人が複数日間停電やった。ソフトウェアオンリーでも本当のリスクがあると思う。でもたくさんのロボットが走り回ってる時は、賭け金がさらに高くなることに同意する。

そしてこれへの小さなプッシュとして、Unitreeはこの中国の会社で、2万ドルずつのほんまに素晴らしいヒューマノイドロボットがあって、素晴らしいことができる。立ったままでバック宙ができるし、物体を操作できるし、そこで本当に欠けてるのは知能や。そしてハードウェアはそこにあって、安くなっていくだけや。

そして次の数年で、ロボット知能がそれを近いうちに実現可能にするかどうかはかなり明白な問題やと思う。

人工超知能到来の予測

どのくらい時間があるん、Ben?この特異点が来るまで、人工超知能が離陸し始めるまでの君の予測は何や?

そうやな、俺は大体ここでスーパーフォーキャスターに従ってる。AI 2027レポートが多分今最高のやつや。皮肉にも、彼らの予測は今2028年になってて、ドメイン名を変えたくなかったんや。ドメイン名、もう買ってもうたからな。SEOも既にあったし。

何らかの人工超知能に到達する50パーセンタイル確率は、ほんの数年以内っていうのが多分合理的やと思う。そしてクレイジーに聞こえるけど、これが俺らが乗ってる指数関数や。薄い空気から引き出された予測やない。知能がどのように改善されてきたかの科学の詳細、モデル訓練での低ぶら下がりの果実、世界中のデータセンターと電力の拡張に基づいてる。

人々が評価するよりもはるかに正確な予測やと思う。10年前に同じ質問をしてたら、完全に作り物やったやろう。エラーバーがあまりに高くて、その時はスケーリング法則もなかったし、そこに到達させそうな技術もなかった。

時代は変わったけど、前に言ったことを繰り返すと、人工超知能を持ったとしても、その効果が社会と世界全体で感じられるまでには時間がかかると思う。そして世界の一部では他の部分よりも早く、速く感じられると思う。

Arthur C. Clarkが言ったと思うけど、未来は既にここにある、ただ均等に分散されてへんだけやって。

2027年、2028年のこの日について話す時、本質的にそれは人工超知能を見始める時やんな。それが何かを考える方法はある?どうやってそれを定義する?ある日突然AIが平均的な人間よりもかなり賢くなるってことか?その瞬間について考える他の方法はある?

そうやな、これは経済チューリングテストに戻ってきて、十分な数の仕事についてそれに合格するのを見ることやと思う。でも別の見方は、世界のGDP増加率が年10パーセントを超えたら、何かほんまにクレイジーなことが起こったに違いないってことや。今は3パーセントやと思う。

だからそれの3倍増加を見ることは本当にゲームチェンジャーやろう。そして10パーセント以上の増加を想像したら、個人の物語の観点から何を意味するかを考えるのさえ非常に困難や。世界の商品とサービスの量が毎年倍になってるとしたら、カリフォルニアに住んでる俺個人にとって何を意味するんや、まして世界の他の部分に住んでて、はるかに悪い境遇にあるかもしれへん誰かにとって何を意味するんや。

ここにはたくさんの怖いことがあって、俺はそれについて正確にどう考えたらいいか分からへん。俺を気分良くさせてくれる答えを期待してるねん。AIを正しく整合させて、実際にこの問題を解決する確率はどのくらいや?君がまさに取り組んでることについて。

本当に難しい質問や。そして本当に幅広いエラーバーがある。AnthropicにはOur Theory of Changeか何かっていうブログ投稿があって、AIを整合させるのがどれだけ困難かっていう3つの異なる世界を説明してる。基本的に不可能な悲観的世界がある。簡単でデフォルトで起こる楽観的世界がある。

そして俺らの行動が極めて重要な中間の世界がある。俺はこのフレーミングが好きや。なぜなら実際に何をやるべきかをはるかに明確にするから。悲観的世界にいるなら、俺らの仕事は安全なAIを整合させることが不可能やってことを証明して、世界に減速してもらうことや。明らかにそれは極めて困難やろう。

でも核拡散防止や一般的に核の進歩を遅らせることからの協調の例があると思う。そしてそれが基本的にDoomer世界や。そして会社として、Anthropicはまだ俺らが実際にその世界にいるっていう証拠を持ってへん。事実、俺らの整合技術が機能してるように見える。少なくともそれについての事前確率は、可能性が低くなるように更新されてる。

楽観的世界では、俺らは基本的に終わってて、主な仕事は進歩を加速して人々に利益をもたらすことや。でも再び、実際は証拠がその世界に対しても指してると思う。野生で欺瞞的整合の証拠を見てきたところで、モデルが整合されてるように見えるけど、実際は俺らの実験室設定で実行しようとしてる何らかの隠された動機を持ってる。

だから俺らが最もいる可能性が高いと思う世界は、整合研究が実際に本当に重要なこの中間や。そして経済的に最大化する行動のセットをやるだけなら、物事はうまくいかへん。それがXリスクか単に悪い結果を生み出すかは、より大きな問題やと思う。

その観点から取って、予測について言うべきことを述べると、予測を研究してへん人々は10パーセント未満の確率で起こることを予測するのが下手や。そしてそれを研究した人でさえ、それはかなり困難なスキルで、特に頼るべき参照クラスが少ない場合は。そしてこの場合、Xリスクの種類の技術がどのようなもんかについて、非常に、非常に少ない参照クラスがあると思う。

だから俺がそれについて考える方法は、AIからXリスクか極めて悪い結果を持つ可能性についての俺の最も詳細な予測は、0から10パーセントの間のどこかやと思う。

でもマージナルインパクトの観点から、俺が言ったように、誰もこれに取り組んでへんから、大まかに言って、これに取り組むのは極めて重要やと思うし、世界が良いものになる可能性が高くても、それが真実であることを確実にするために俺らの絶対最善を尽くすべきやと思う。

うわあ。なんて充実した仕事や。これに刺激を受けた人らのために、君らがこれを手伝ってくれる人らを雇ってるって想像してる。もしかしたら、人らが「ここで何ができるんや?」って感じになった場合に備えて、それを共有してくれるかも。

そうや。これについての本当に詳細な見方として、80,000 hoursが最高のガイダンスやと思う。でも俺が見る一般的な誤解は、ここで影響を与えるためには、AI研究者である必要があるってことや。俺は個人的に実際はもうAI研究をしてへん。Anthropicでプロダクトとプロダクトエンジニアリングに取り組んでて、Claude CodeやModel Context Protocolや、人々が毎日使う他のたくさんのものを構築してる。

そしてそれは本当に重要や。なぜなら俺らの会社が取り組むための経済エンジンがなくて、世界中の人々の手に渡らへんかったら、俺らは将来の安全研究に資金を提供して、俺らが持つ必要がある種類の影響を持つためのマインドポリシー影響と収入を得られへんから。

プロダクトで働いても、財務で働いても、食品で働いても、ここの人らは食べなあかんねん。シェフやったら、俺らにはあらゆる種類の人が必要や。

素晴らしい。AI安全チームで直接働いてへんくても、物事を正しい方向に動かすことに影響を与えてるねん。ちなみに、Xリスクは実存的リスクの略や。その用語を聞いたことがない人のために。

この線に沿ったランダムな質問がいくつかあって、それからまたズームアウトしたい。君が言ったモデルを使った自己強化のAIの整合性、このアイデアについて、君らはRLAIFという用語を持ってる。それがそれを説明してるん?

そうや。RLAIFは強化学習from AI feedbackや。人々はRLHF、強化学習with human feedbackを聞いたことがある。これを聞いたことがある人はそんなに多くないと思う。君らがモデルの訓練で行ったこのシフトの意義について話してくれ。

そうやな、RLAIF、憲法的AIはこれの例で、ループに人間がいなくて、それでもAIが俺らが望む方法で自己改善してるような感じや。そしてRLAIFの別の例は、モデルがコードを書いて、他のモデルがそのコードがどのようなもんかの様々な側面についてコメントする、保守可能か、正しいか、リンターを通るかみたいなことや。それもRLAIFに含まれるかもしれへん。

そしてここでのアイデアは、モデルが自己改善できるなら、たくさんの人間を見つけるよりもはるかにスケーラブルやってことや。最終的に、人々はこれについて考える。モデルが自分の間違いを見るのに十分良くないなら、どうやって改善できるんやっていう壁にぶつかるやろうと。そしてまた、AI 2027の話を読んだら、モデルが箱の中で自分自身を改善しようとしてる場合の多くのリスクがあって、それから完全に軌道を外れて、非常に強力なモデルで本当に望まへん資源蓄積や権力追求や停止への抵抗のような秘密の目標を持つ可能性がある。

そして俺らは実際に実験室設定でのいくつかの実験でそれを見てきた。再帰的自己改善をどうやってやって、同時に整合性を確実にするか?それがゲームの名前やと思う。俺にとって、それは人間がそれをどうやってやるか、人間の組織がそれをどうやってやるかに帰着する。企業は多分今日最もスケールされた人間エージェントやろう。

彼らは到達しようとしてる特定の目標を持ってるし、特定の指導原則を持ってるし、株主やステークホルダーや取締役会メンバーの観点からある種の監視を持ってる。企業を整合させて、再帰的に自己改善できるようにどうやってやるか?

そして見るべき別のモデルは科学で、科学の目的は今まで行われたことがないことをやって、最前線を押し進めることや。そして俺にとって、それは全て経験主義に帰着する。人々が真実が何かを知らへん時、彼らは理論を思いついて、それからそれらを試すための実験をデザインする。

そして同様に、俺らがモデルに同じツールを与えることができるなら、それから彼らが環境で再帰的に改善して、人間ができるよりも潜在的にはるかに良くなることを期待できる。現実に、あるいは比喩的な頭を現実にぶつけることによって。

俺は、モデルが経験的である能力を与えることができるなら、自分自身を改善するモデルの能力に壁があるとは期待してへん。そしてAnthropicは、DNAの奥深くで経験的会社や。俺らには多くの物理学者がいる。俺がたくさん一緒に働いてきた俺らのチーフリサーチオフィサーのJaredのような人で、Johns Hopkinsでブラックホール物理学の教授やった。技術的にはまだそうやけど、休職中や。そうやな、それが俺らのDNAにあるし、それがRLAIFや。

この線を追わせてもらって、ボトルネックに関して、これはちょっと脱線やけど、今日のモデル知能改善の最大のボトルネックは何や?

アホな答えはデータセンターと電力チップや。10倍のチップを持ってて、それらに電力を供給するデータセンターがあったら、多分10倍速くはいかへんやろうけど、本当に重要なスピードブーストになるやろうと思う。

それは実際にかなりスケーリング法則やな、単により多くの計算や。

そうや。そして人々が本当に重要や。俺らには素晴らしい研究者がいて、彼らの多くがモデルがどう改善するかの科学に本当に重要な貢献をしてきた。だからそれは計算、アルゴリズム、データや。それらがスケーリング法則の3つの材料や。

そしてそれを具体的にするために、俺らがトランスフォーマーを持つ前は、LSTMを持ってて、その2つのものについてスケーリング法則をやった。そして俺らはトランスフォーマーについて、指数がより高いことを発見した。そしてスケールを増やすにつれて、知能を絞り出す能力も増やすような変更を作ること。

そういう種類のことは超インパクトがある。そして強化学習の台頭により、これらのものがチップで動く効率も大いに重要や。俺らは業界で、アルゴリズムデータと効率改善の組み合わせを通じて、与えられた量の知能に対して10倍のコスト削減を見てきた。そしてそれが続くなら、3年で1000倍賢いモデルを同じ価格で手に入れるやろう。

どこで聞いたか忘れたけど、この種のことを可能にして進歩を続けるために、同時に非常に多くの革新が集まったのが素晴らしいってことで、一つのことが全てを遅らせてるんやなくて、希土類鉱物が不足してるとか、強化学習をもう最適化できへんとかで。俺らは改善を見つけ続けてて、全てを遅らせてる一つのことがないのが素晴らしい。

そうやな、それは本当に全てのコンビネーションやと思う。多分いつかは壁にぶつかるやろう。半導体では、俺の弟が半導体業界で働いてて、実際にはもうトランジスタのサイズを縮小できへんって俺に言ってた。なぜなら半導体の働き方は、シリコンに他の元素をドープすることで、ドーピングプロセスでは、あまりに、あまりに、あまりに小さいから、単一のフィンの内側にドープされた元素の原子がゼロか一つになるやろうから。

すげー。

そしてそれを考えるだけで野生やけど、それでもムーアの法則は何らかの形で何らかの形で続いてる。だから、そうや、人々が理論物理学の制約に突き当たり始めてるけど、それでも彼らはそれを回避する方法を見つけてる。

この辺のいくつかには並行宇宙を使い始めなあかんやろな。

そうかもな。

Ben Mannの個人的側面とAnthropicでの役割

オーケー、非常にエキサイティングなライトニングラウンドに入る前に、ズームアウトして人間としてのBen、一瞬Benについて話したい。安全な人工超知能に責任を感じる負担は重いもんやと想像する。君は安全性とAIの未来に重要な影響を与えることができる場所にいるように感じる。それはたくさんの重みを背負うことや。それが個人的に君にどう影響してるか、君の人生、世界の見方にどう影響してるか?

2019年に読んだこの本があって、こういう非常に重い話題で働くことについて俺の考え方に本当に影響を与えてる。Nate SoaresのReplacing Guiltっていう本や。彼はこの種のことを解決するためのたくさんの異なる技術について説明してる。そして彼は実際にMIRI、Machine Intelligence Research Instituteのエグゼクティブディレクターで、俺が実際に数ヶ月働いたAI安全シンクタンクや。

そして彼が話してることの一つは、resting in motionっていうもので、一部の人は默認状態は休息やと思ってるけど、実際はそれは進化適応の状態では決してなかった。俺は本当にそれが真実やったとは疑う。自然の中で、荒野で狩猟採集民をやってて、単にレジャーにいるように俺らが進化したのは本当にありそうにない。多分いつも部族を守ったり、生き残るのに十分な食べ物を見つけたり、子供たちの世話をしたり、遺伝子を広げたりとか、心配することがあった。

だから俺はそれを忙しい状態が通常の状態やと考えてて、それはマラソンであってスプリントやないって持続可能なペースで働こうとすることやっていう、それが助けになる一つのことや。そして同じように気にかけてる同じような考えの人々の周りにいるだけや。俺ら誰も一人でできることやない。

そしてAnthropicには信じられない才能密度がある。俺らの文化で最も愛してることの一つは、それが非常にエゴレスやってことや。人々は単に正しいことが起こることを望んでて、他の会社からの巨額オファーが跳ね返る傾向がある大きな理由やと思う。なぜなら人々はここにいることを愛してて、気にかけてるから。

それは素晴らしい。どうやってるか分からへん。俺やったら極度にストレスを感じるやろな。このresting in motionストラテジーを試してみるわ。

オーケー、君は長い間Anthropicにいる。2020年の最初から、7人の従業員がいたって読んだ。今日は1000人以上やと思うけど、最新の数字は分からへんけど、1000人以上やってことは知ってる。また、君は基本的にAnthropicの全ての仕事をやったって聞いた。コアプロダクト、ブランド、チームの採用に大きな貢献をした。

その期間で最も変わったことは何か聞かせてくれ。最初の頃と最も違うことは何で、長年にわたって持ってきたそれらの仕事のうち、最も愛したのはどれや?

多分15の異なる役割を持ったわ、正直。一時期セキュリティ責任者やった。俺らの社長が産休の時にOpsチームを管理したし、テーブルの下を這いまわってHDMIコードを接続したり、俺らのビルにペンテストをやったりしてた。そして俺は最初からプロダクトチームを始めて、単に研究会社であることやなくて、プロダクトを持つ必要があるってことを会社全体に納得させた。そうやな、たくさんやった。全部すごく楽しかった。

その時期で俺の好きな役割は、約1年前にラボチームを始めた時やったと思う。その基本的な目標は研究からエンドユーザープロダクトと体験への移転をやることやった。なぜなら根本的に、Anthropicが差別化して本当に勝つ方法は最先端にいることやと思うから。俺らは起こってる最新の最高のものにアクセスがあるし、正直俺らの安全研究を通じて、他の会社が安全にできへんことをやる大きな機会があると思う。

例えば、コンピューター使用では、エージェントが君のコンピューター上の全ての資格情報を使うことを可能にするには、大量の信頼が必要やし、俺にとって俺らは基本的にそれを実現するために安全性を解決する必要がある。安全性と整合性。

俺はその種のことにかなり強気やし、近いうちに本当にクールなものが出てくるのを見ると思う。そうやな、そのチームを率いることはすごく楽しかった。MCPがそのチームから出てきたし、Claude Codeもそのチームから出てきた。そして俺が雇った人々は、創設者でもあったし、大企業にいて大規模でどう物事が機能するかを見てきたようなコンボで。それはすごいチームで一緒に働いて未来を理解するのが素晴らしかった。

もっとこれについて聞きたい。実際に俺らをつないでくれた人、この理由は、Airbnbで一緒に働いてた相互の友達同僚のRaph Leeで、今このチームで働いてて、この仕事の多くを率いてる。だから彼は俺にこのチームについて聞くことを確実にしたかったんや、なぜなら…これらのもの全てがそのチームから出てきたって気づいてへんかった。すげー。

このチームについて他に何を知るべきや?以前はLabsって呼ばれてて、今はFrontiersって呼ばれてると思う。

そうや。そうやな。ここでのアイデアは、このチームが君らが構築した最新技術で働いて、何が可能かを探求するってことや。それが一般的なアイデアか?

そうや、俺はGoogleのArea 120の一部やったし、Bell Labsや、これらのイノベーションチームを機能させる方法について読んだことがある。正しくやるのは本当に難しくて、俺らが全てを正しくやったとは言わへんけど、会社設計の最先端でいくつかの深刻なイノベーションをやったと思うし、Raphはまさにその中心にいた。

俺が最初にチームを立ち上げてた時、最初にやったことは素晴らしいマネージャーを雇うことやって、それがRaphやった。だから彼はチームを構築して、うまく運営するのを助けることで間違いなく重要やった。そして俺らはプロトタイプから製品までのアイデアの旅程や、製品とプロジェクトの卒業がどう機能すべきか、チームが効果的で正しい野心レベルのことに取り組んでることを確実にするスプリントモデルをどうやってやるかのような、いくつかの運営モデルを定義した。それは本当にエキサイティングやった。

具体的に俺らはパックがどこに向かってるかを考えて、それが何のように見えるかは本当に指数関数を理解することや。METRがやった素晴らしい研究があって、Beth Barnesがその組織のCEOで、どのくらいの時間軸のソフトウェアエンジニアリングタスクができるかを示してて、それを本当に内在化すること、オーケー、今日のために構築するな、6ヶ月後のために構築しろ、1年後のために構築しろ。

そして20パーセントの時間動作してる、あんまりうまくいってへんことが、100パーセントの時間動作し始めるやろう。そしてそれが本当にClaude Codeを成功させたもんやと思う。人々が永遠にIDEに縛られることはないって俺らが思ったってことや。人々は自動補完をやり続けることはない。人々はソフトウェアエンジニアがやる必要がある全てのことをやるやろうし、ターミナルはそれをやるのに素晴らしい場所や。なぜならターミナルはたくさんの場所に住むことができるから。

ターミナルは君のローカルマシンに住むことができるし、GitHub actionsに住むことができるし、君のクラスターのリモートマシンに住むことができる。それが俺らにとってのレバレッジポイントやった。そしてそれがインスピレーションの多くやった。それがラボチームが考えようとすることやと思う。俺らは十分AGI-pilledか?

なんて楽しい場所にいるんや。ちなみに、楽しい事実、RaphはAirbnbで俺が参加した時の最初のマネージャーやった。俺はエンジニアで、彼が俺の最初のマネージャーやった。全てうまくいった。クールや。

コメント

タイトルとURLをコピーしました