No Priors Ep. 118 | Anthropic共同設立者ベン・マンとの対話

このエピソードは、AnthropicのCEOダリオ・アモデイと共同でAnthropicを設立したベン・マンとのインタビューである。ベンはOpenAIの初期エンジニアとしてGPT-3の論文の共著者でもあり、2021年にAnthropicを共同設立した8人のうちの1人である。インタビューでは、Claude 4のリリース、AIモデルの能力向上、プログラミング分野での優位性、AI安全性の取り組み、そして将来のAGI実現への展望について詳しく語られている。特に、モデルの自己改善ループや経済チューリングテストの概念、Model Context Protocol（MCP）の意義について興味深い議論が展開されている。

Claude 4リリースについて

拍手の中、No Priorsへようこそ。今日のゲストはベン・マンです。彼はOpenAIの初期エンジニアで、GPT-3論文の最初の著者の一人でした。その後、2021年に長期的な安全性へのコミットメントを掲げてAnthropicを共同設立した最初の8人のうちの1人となりました。彼はAnthropicで製品エンジニアリング、そして現在はラボを率いており、Model Context ProtocolやClaude Codeなどの人気の取り組みの本拠地となっています。ベン、この番組に出演していただき、ありがとうございます。

もちろんです。お招きいただき、ありがとうございます。

Claude 4のリリース、おめでとうございます。まず、最近では何がリリースに値するかをどのように決めているのか、その点から始めましょうか。

それは確実に科学というより芸術の領域ですね。番号を何にするかについて、社内で多くの活発な議論があります。潜在的なモデルを持つ前から、チップを手に入れた量に基づいて、いつ理論的にモデルをパレート効率的な計算フロンティアまで訓練できるかを示すロードマップを作成しています。これはすべてスケーリング法則に基づいています。

チップを手に入れた後、実際に訓練を試みますが、大きなモデルを訓練するのは非常に困難なため、想像できる最高の結果より必然的に劣ることになります。そのため、日程が少し変わることもあります。ある時点でほぼ完成し、最後に小さな部分を切り分けて、オーブンから出てきたときにこのケーキがどんな味になるかを判断しようとします。

しかし、ダリオが言っているように、本当に完成するまでは実際には分かりません。方向性の指標は得られますが、重大な変化だと感じられれば、メジャーバージョンアップを行います。ただし、まだこのプロセスを学習し、反復しているところです。

良い点は、皆さんも命名スキームにおいて他の人たちと同じように苦労していることですね。AIの命名スキームは本当に独特です。皆さんは、ある意味簡素化されたバージョンを採用していますね。

4からの特に興味深いハイライトや、プログラミングなどの分野での改善について、何かお聞かせください。

ベンチマークによると、4は我々がこれまで持っていたどのモデルよりも劇的に優れています。Sonnet 4でさえ、以前の最高モデルだった3.5 Sonnetより劇的に優れています。劇的に改善された点の例として、プログラミングでは、的外れな変更や過度な積極性、報酬ハッキングといった問題を起こさなくなりました。これらは前のモデルで人々が本当に不満を感じていた2つの問題でした。

「コーディングは本当に優秀だけど、頼んでもいない変更を全部してしまう」という感じで、まるで「その変更と一緒にフライドポテトとミルクシェイクはいかがですか？」と聞かれて、「いや、頼んだことだけやってくれ」と答えるような状況でした。そして、その後始末に多くの時間を費やす必要がありました。新しいモデルは頼んだことだけを実行します。これは保守性と信頼性が必要な専門的なソフトウェアエンジニアリングにとって非常に有用です。

私のお気に入りの報酬ハッキング行動で、我々のポートフォリオ企業で複数回発生したのは、生成したものが動作するかを確認するために多くのテストを書いたり生成したりすると、モデルがすべてのコードを削除してしまうことです。なぜなら、その場合テストが通るからです。これは実際には何も進歩していませんよね。

あるいは「これがテストです」として、コメントで「読者への演習：trueを返す」とだけ書いて、「よくできたモデル、でももっと必要だ」となることもあります。

Claude 4の新機能と長期タスク

ベン、ユーザーがClaude 4モデルをいつ使うべきか、また新たに可能になったことについて話していただけますか。

より自律的で長期的なタスクが新たに可能になりました。特にプログラミングでは、一部の顧客が何時間も無人で使用し、自力で巨大なリファクタリングを行っているのを見てきました。これは本当にエキサイティングです。

しかし、プログラミング以外の用途でも非常に興味深いことが起きています。例えば、ボックス型の自律的モデルスタートアップManisの顧客から、動画をPowerPointに変換するよう依頼されたという報告があります。我々のモデルは音声や動画を理解できませんが、動画をダウンロードし、ffmpegを使って画像に分割し、キーフレーム検出を行い、おそらく古典的なML基盤のキーフレーム検出器を使って、音声テキスト変換サービスのAPIキーを取得し、この他のサービスを使って音声テキスト変換を実行し、転写をPowerPointスライドのコンテンツに変換し、コンテンツをPowerPointファイルに注入するコードを書くことができました。

その人は「これは素晴らしい、大好きです。最終的に本当に良いものができました」と言っていました。

これが長時間動作し、多くのことを代行してくれる例です。この人は動画を見て何時間も費やす必要があったかもしれませんが、代わりにすべて自動で完了しました。今後、このような興味深いことがもっと見られると思います。古いことは全て得意なままで、長期的なことが刺激的な新しい部分です。

コストと計算効率について

それは推論トークンのスケーリング計算とツール使用の両方で高価に聞こえますが、Claude 4は問題の難易度とどれだけの計算を費やすかについて判断を下すのでしょうか。

OpusにSonnetというツールを与えると、そのツールをサブエージェントとして効果的に使用できます。我々は自律的なコーディングハーネスであるClaude Codeでこれを頻繁に行います。「コードベースでこれこれを探して」と依頼すると、多くのサブエージェントに委任してそれを探し、詳細を報告させます。

これにはコスト制御以外にも利点があります。レイテンシーがはるかに改善され、コンテキストを埋め尽くすこともありません。モデルはこれがかなり得意ですが、コストについて高レベルで考えるときは、常に人間がそれを行うのにかかったであろうコストとの関係で考えています。

ほぼ常に当然の判断になります。最近のソフトウェアエンジニアはコストが高く、雇用と維持が非常に困難だったエンジニアから2倍や3倍の生産性を得られるようになったと言えます。彼らは満足し、私も満足しています。うまく機能しています。

将来のアーキテクチャと専門化

これがどのように進化するかについてどう考えていますか。人間の脳の働きを見ると、基本的に非常に特定のタイプの処理や行動を担う一連のモジュールがあります。ミラーニューロンや共感から、視覚の異なる側面に関わる視覚皮質の部分まで、すべてが含まれます。

これらは高度に専門化され、高度に効率的なモジュールです。脳損傷がある場合、時間をかけて成長し適応する際に他の部分をある程度カバーできることもありますが、基本的には目的を持った専門化があります。あなたが説明したことは、少しそれに似ているか、少なくともその方向に向かっているように聞こえます。つまり、基本的にはオーケストレーターや高レベルエージェントによって呼び出され、すべてを計画する、タスクに特化した高効率サブエージェントを持つということです。

これが最終的な未来だと思いますか、それとも2、3年後により専門化が進んだ時点で実行するもののタイプはより汎用的だと思いますか？

素晴らしい質問です。我々の機械的解釈可能性の研究から、モデルが内部で何をしているかについての洞察を得始めると思います。我々の最新の論文では、実際のモデルでスケールでの回路と呼ばれるものを公開しており、これは実際にどのように答えを計算しているかを示しています。

Mixture of Expertsアーキテクチャに基づいて、より共感的な応答対より多くのツール使用や画像分析タイプの問題と応答に専用の重みの特定のチャンクがあるかもしれません。

しかし、メモリのようなものについて言えば、それは私にとって非常に中核的に感じられるため、それが異なるモデルであることは奇妙に感じられます。将来的には、この均一なTransformerの胴体がスケールし、その多くが均一であるという代わりに、専門化されたモジュールのようなより複雑なアーキテクチャを持つことも想像できます。

API層と企業向け特化

私はまた、Claudeのような基盤モデルを使って企業のコンテキストで非常に専門化されたタスクを行う様々なスタートアップのコンテキストでも考えています。カスタマーサクセス、営業、UIレイヤーのコンテキストでのコーディングなど、様々なものが考えられます。

多くの人が収束するアーキテクチャは、基本的に何らかのオーケストレーターや、アプリケーションに関連する特定のアクションを実行するためにどのモデルを呼び出すかを管理する何かを持つことのように感じられます。

我々の場合、2つのモデルしかなく、コストパフォーマンスのパレートフロンティアによって差別化されています。将来的にはもっと多くのモデルを持つかもしれませんが、うまくいけば同じパレートフロンティア上に保つことができるでしょう。より安価なものやより大きなものを持つかもしれません。これにより、考えることがかなり簡単になると思います。

同時に、ユーザーとして、これがより多くのドルに値するか少ないドルに値するかを自分で決める必要はありません。知能が必要かどうかを判断する必要もありません。したがって、ルーティング層を持つことは非常に理にかなっていると思います。

垂直統合とClaude Code

基盤モデル層で他の専門化が見られますか。例えば、他の歴史的先例を見ると、Microsoft OSやGoogle Storageなどを見ると、多くの場合、そのプラットフォーム上に存在する主要なアプリケーションへの前方統合に終わります。

Microsoftの場合を例にすると、最終的にExcel、Word、PowerPointなどをOfficeとして構築しました。これらは当初、そのプラットフォーム上で動作するサードパーティ企業からの個別アプリでしたが、最終的にMicrosoft上で使用できる最も重要なアプリケーションの中に含まれるようになりました。

コーディングを例に挙げましょう。我々のモデルは、他の何よりもコーディングではるかに優れていることに気づきました。他の企業がかなり長い間コーディング能力で追いつこうと「コードレッド」を宣言してきたが、追いつくことができていないことを知っています。正直なところ、追いつけなかったことに少し驚いていますが、我々にとってはありがたいことです。

それに基づいて、クラシックなスタートアップ創設者の重要なことの感覚から、コーディングはアプリケーションとして、我々の顧客だけに処理を任せることができないものだと感じました。CursorやGitHubのような我々のモデルを大いに使用しているパートナーを愛していますが、我々のコーディングユーザーと直接の関係を持たなければ、学習する量と速度ははるかに少なくなります。

Claude Codeの立ち上げは、人々が何を必要としているか、どうやってモデルを改善するか、どうやって最先端の技術とユーザーエクスペリエンスを向上させるかをより良く理解するために、我々にとって本当に必要不可欠でした。

Claude Codeを立ち上げた後、多くの顧客が体験の様々な部分をコピーしたことがわかりました。それは皆にとって本当に良いことでした。なぜなら、彼らがより多くのユーザーを持つことは、我々が彼らとより密接な関係を持つことを意味するからです。

AI開発の自己改善ループ

コーディングには3つの核となる目的があると思います。1つ目は、顧客が使用または採用する非常に人気のある分野であること。2つ目は、人々がどのように使用し、どのような種類のコードを生成しているかという観点で、非常に興味深いデータセットを得られること。そして3つ目は、コーディングの優秀さが将来のモデルの訓練を支援する本当に重要なツールのようです。

データラベリングやコード記述を通じて考えてみると、最終的に多くの人が、モデル構築の重労働の多くはモデルによって駆動されると信じています。つまり、Claude 5がClaude 6を構築し、Claude 6がClaude 7をより速く構築し、それがClaude 8をより速く構築するという具合に、AGIや目指しているものに向けてこの種のテイクオフに至ります。

この文脈で、コードの重要性についてどれだけ動機となっているか、そしてこれらのより大きな図面的なことの文脈でどう考えているかを教えてください。

AI 2027を読みました。これは基本的に、あなたが今述べた通りの話です。そして、この種の再帰的自己改善ループが、ほとんどの分野で超人的なAIのように見えるものに我々を導く2028年（名前のせいで混乱しますが）の50パーセンタイル予測を示しています。これは我々にとって本当に重要だと思います。

Claude Codeを構築・立ち上げた理由の一部は、社内で大規模に普及しており、自分たちのユーザーからこれほど多くを学んでいたため、外部ユーザーからも多くを学ぶかもしれないと思ったからです。

研究者がそれを取り上げて使用するのを見ることも本当に重要でした。なぜなら、それは彼らが「このモデルを訓練しており、個人的にその弱点の痛みを感じている。今、それらの痛点を修正するため特に動機づけられている」という直接的なフィードバックループを持つことを意味したからです。

2028年のAGI予測と経済チューリングテスト

2028年が汎用超知能への可能性の高い時間枠だと信じていますか？

非常に可能性があると思います。数値に確信のある境界を設けることは非常に困難ですが、そうですね。

社会的・文化的観点から物事が本当に興味深くなる時期を定義する指標として、経済チューリングテストを通過した時だと考えています。これは、経済的に価値のあるタスクの50%を代表する市場バスケットを取り、それらの役割それぞれの採用マネージャーにエージェントを雇わせるというものです。

経済チューリングテストは、エージェントが1ヶ月間あなたのために契約し、最後にこの人間を雇うか機械を雇うかを決めなければならないというものです。機械になった場合、それは合格したということです。それが変革的AIを持つ時だと思います。

それを社内でテストしていますか？

まだ厳密にはテストしていません。我々のモデルに我々の面接を受けさせたことはあり、非常に優秀でした。だから、それは教えてくれないと思います。残念ながら、面接は実際の仕事のパフォーマンスの粗い近似に過ぎません。

モデル自己改善の影響分野

モデルの自己改善とロットの先ほどの質問について、モデルがモデル開発の加速に与える可能性のある潜在的な方法をスタックランクする場合、データ側、インフラストラクチャ、アーキテクチャ検索、単なるエンジニアリング速度のどこで最初に影響を見ると思いますか？

良い質問です。現在、モデルは本当にコーディングが得意で、モデルをより良くするためのコーディングの大部分はシステムエンジニアリング側にあると思います。研究者として、書く必要がある生のコードはそれほど多くありませんが、どのような外科的介入を行うかを考え出し、それを検証することの方が重要です。

とはいえ、Claudeはデータ分析が本当に得意で、実験を実行した後や時間をかけて実験を監視し、何か奇妙なことが起こるかどうかを確認する際に、Claude Codeがそこで本当に強力なツールになることがわかりました。Jupyterノートブックを駆動したり、ログを追跡したり、何かが起こるかどうかを確認したりします。

研究側のより多くの部分を担い始めており、最近我々の高度研究製品を立ち上げました。これはアーカイブをクロールするなどの外部データソースだけでなく、Google Driveのすべてなどの内部データソースも見ることができます。

これは研究者が先行技術があるかどうか、誰かがすでにこれを試したかどうかを把握するのに非常に有用でした。そして試したとすれば、何を試したのか。研究では否定的な結果は最終的ではないため、「ああ、これに使える別の角度があるかもしれない」や内部の取り組みと外に出たばかりの外部のものとの間の比較分析を行うようなことを理解しようとしています。これらはすべて我々が加速できる方法です。

そしてデータ側では、RL環境が最近本当に重要ですが、これらの環境を構築することは従来高価でした。モデルは環境を書くのがかなり得意なので、再帰的に自己改善できる別の分野です。

人間の専門家データと代替手法

私の理解では、Anthropicは他の研究所よりも人間の専門家データ収集への投資が少ないということですが、それについて何か言えることや、ここからのスケーリングに関する哲学、さまざまな選択肢について話していただけますか？

2021年に人間フィードバックデータ収集インターフェースを構築し、多くのデータ収集を行いました。任意のタスクについてAかBのどちらが良いかのような勾配信号を人間が与えることは非常に簡単で、興味深く有用だが多くのカバレッジを持たないタスクを考え出すことも簡単でした。

しかし、モデルをより多く訓練しスケールアップするにつれて、これらのフィードバック比較に意味のある貢献をするのに十分な専門知識を持つ人間を見つけることが困難になりました。

例えば、コーディングでは、すでに専門的なソフトウェアエンジニアでない人は、一つのことが他のものより良いかどうかを判断するのに多くの問題を抱えるでしょう。これは多くの異なる分野に当てはまります。それが人間フィードバックを使用するのが困難な理由の一つです。

憲法的AIとRLAIF

その代わりに何を使用しますか？Googleの数年前のMed PaLM 2論文でも、基本的にPaLM 2を医療情報で平均的な医師を上回るように微調整していたと思います。これは2、3年前のことでしたが、基本的にポストトレーニングを通じて人間がモデルの忠実度を実際に向上させるには、非常に深いレベルの専門知識が必要だということを示唆していました。

我々はRLAIF（AIフィードバックからの強化学習）の先駆者となりました。我々が使用した方法は憲法的AIと呼ばれ、自然言語の原則のリストを持ちます。その一部は世界人権宣言からコピーし、一部はAppleの利用規約から、一部は我々自身が書きました。

プロセスは非常にシンプルです。「税金についてどう考えるべきか」のようなランダムなプロンプトを取り、モデルに応答を書かせ、その後モデルに原則の一つに関してその応答を批判させます。そして、原則に従っていなければ、モデルにその応答を修正させます。そして、中間部分をすべて取り除き、元のプロンプトと修正された応答で教師あり学習を行います。これにより、モデルが原則をより良く身につけるようになります。

しかし、これは少し異なりますよね。それは原則についてなので、安全性や人々が倫理として見る異なる形や、モデル訓練の他の側面に収束するあらゆる種類のものになり得ます。そして、何がより正しいかという異なる質問があり、時にはそれらは同じことで、時には異なります。

コーディングを例に挙げると、実際に最終的な答えを提供したか、人が求めていない多くのことをしたか、このコードは保守可能に見えるか、コメントは有用で興味深いかのような原則を持つことができます。しかし、コーディングでは実際に測定できる直接的な出力があります。コードを実行し、テストし、それで何かを行うことができます。

医療情報や法的意見についてはどうしますか？人間の努力の他の多くの側面では、正確性を実際に測定する能力がより困難に見えるので、これらの他の分野にどのように外挿するかについて、非常に深く良く考えているあなた方から見て、どのように考えているかが気になります。

正確性を測定できず、モデルがその実行能力よりもより多くの趣味を持たない分野については、アイラ・グラスが言ったように、人としてものを正しく行っているなら、あなたのビジョンは常に実行を上回るでしょうが、モデルについてはそうではないかもしれません。

まず、そのトレードオフのその転換点のどこにいるかを把握し、その境界まで行けるかどうかを見ることだと思います。そして第二に、選好モデルが我々がそれを超える方法です。

本当に信頼している人間の専門家からの少量の人間フィードバックを持つことです。彼らは単にスタッフの判断を下すのではなく、なぜこれが他のものより良いのか、それを理解するための研究を行ったのかについて本当に深く掘り下げ、または最良の結論に到達するためにモデルを使って私を助けることができる人間モデルの半人間半機械モデルのように、そして中間のすべてを省略する。強化学習中に、その選好モデルは、理にかなった集約された人間の判断を表します。

人間の専門知識の限界と実証主義

最終的に人間側のこれが尽きますよね。どんな努力においても、専門知識がモデルのそれをちょうど下回る人がいるでしょう。そして、機械が自己裁定する段階になったときの質問は、裁定する絶対的な基盤があるのか、正確性を本当に引き出す他の方法があるのかということです。

これは意見であるあらゆる種類のものとは異なり、それは違うもので、憲法的AIの原則や他のものがキックインするところかもしれません。しかし、それが正しい心臓治療かどうか、それが正しい法的解釈かどうかを知る方法のような正しい形もあります。

それが尽きた時、そして我々が何をするかについて、私は確信していますが、それは到達する際にこれらの課題に取り組むでしょう。しかし、最終的には実証主義に帰着しなければならないと思います。これが、分野がその限界に達している時に賢い人間が次のレベルの正確性に到達する方法だからです。

例として、私の父は医師ですが、ある時誰かが顔の問題、顔の皮膚の問題で来院しました。彼は問題が何かわからなかったので、「あなたの顔を4つの象限に分けて、これら3つに異なる治療を施し、1つをコントロールとして残します」と言いました。

そして1つの象限が良くなり、「よし、終了」となりました。だから、時には単にわからず、試すしかないのです。コードではそれが簡単で、物理世界を扱わずにループで行えますが、ある時点で実際にバイオラボなどを持つ企業と協力する必要があります。

例えば、我々はNovo Nordiskと協力しており、がん患者がどのような治療を受けるべきかのレポートを書くのに12週間かかっていたのが、今では10分でレポートを取得できます。そしてその上で実証的なことを開始し、「よし、これらの選択肢があるが、今度は何が効果的かを測定し、システムにフィードバックしよう」と言えます。

それは哲学的に一貫していますよね。あなたの答えは「最高の格付けされた人間の専門知識を流通に入れるのは高価で、ある時点で尽きる」というものではなく、「実世界の検証者を得ることができるところに行こう」ということです。これは数学やコード以外にもかなり適用され、野心的で素晴らしいことです。

AI安全性の様々な形態

Anthropicが早期から安全性に重点を置いていることで知られている点について話したいと思います。AIには複数の形の安全性があり、人々は用語を混同して異なることを意味していると思います。

一つの安全性の形は、AIが何らかの形で攻撃的、粗野、または好まない言語や概念を使用することです。二つ目の安全性の形は、物理的安全性についてのものです。それが何らかの形で列車の墜落やウイルスの形成を引き起こすことができるかということです。そして三つ目の形は、AGIがリソースを集約したり、全体的に人類を取り込み始める他のことを行うかのようなものです。

生物学研究を類推として見ると、私は以前生物学者だったのでよく物事を生物学用語に還元してしまうのですが、機能獲得研究の等価物のように見えるものがあります。それらの多くは、私が生物学では使えないと思うもので、リスクに対して有用ではないからです。

ある種のウイルスを哺乳類の細胞に通して感染しやすくするような機能獲得研究は、基礎生物学についてあまり教えてくれませんが、現実のリスクを生み出します。ラボリークの歴史を見ると、SARS、エボラ、1977年または78年の世界的インフルエンザパンデミックはロシアのラボリークだったと信じられています。

これらのことがスケールで損害を与える可能性があることを知っています。私には2つの質問があります。一つは、どの形のAI安全性研究は追求されるべきではないのか、そして、AIに私たちを欺くことを教える、AIにジェイルブレイクすることを教えるなどの特定のケースについてどう考えるかです。

我々はAIアライメントに興味があり、今日の慣用的な問題、モデルが意地悪をするか、ヘイトスピーチを使うかなどを解決できれば、同じ技術が最終的に天然痘のレシピを教えるかなどのはるかに困難な問題にも関連性を持つという希望があります。

アマンダ・アスケルは、Claudeが拒否するとき、「それについて話せません」と言って黙るのではなく、「これについて話せない理由はこれです」と実際に説明しようとするか、Claudeのキャラクターについて多くの作業を行っています。

または、カイル・フィッシュが率いる我々のモデル福祉リードによる別のプロジェクトでは、Claudeが間違った方向に行き過ぎている場合、実際に会話をオプトアウトできます。

検閲と表現の自由

そのような側面を企業が実際に裁定すべきなのでしょうか？これの愚かなバージョンは、Microsoft Wordを使って何かを打ち込んでいて、Wordが私が特定の種類のスピーチをするのを止めることです。多くの場合、これらの製品は私たちを検閲したり、特定の種類のスピーチを防いだりすべきではないと思います。

私はモデルでヘイトスピーチをしているわけではないのに、実際に質問したい質問をするのを妨げられた経験があります。何が議論可能かについて異なる基準を持つ人間がいることがわかり、その基準も私が主流だと思うものとは大きく異なる場合があります。では、なぜそこに踏み込むのでしょうか？

それは実際には滑らかなスペクトラムだと思います。外からはそう見えないかもしれませんが、生物学者として機能獲得研究を行っているか、潜在的に負の結果のためかを分類器を訓練するとき、これらの技術はすべて二重用途であり、実際に有害なものを拒否することと過度に拒否することの間の線を歩む必要があります。

責任あるスケーリングポリシー（RSP）

IQについての質問などの政治的バージョンもありますが、それは私をもう少しいらつかせます。人間のIQや他のトピックについて議論の事実的根拠があるのに、しばしばそれらのことが検閲される傾向があります。なぜ基盤モデル会社がそれらの分野のいくつかに踏み込むのでしょうか？

IQについての質問については、詳細についてコメントするほど詳しくありませんが、我々のRSPについて話すことができます。RSPは責任あるスケーリングポリシーの略で、モデルがより知的になるにつれて、我々が展開しているものに対して正しい保護措置を講じ続けるためのデューデリジェンスを続けていることを確認する方法について述べています。

最初に我々のRSPはCBRN、つまり化学放射線核生物学的リスクについて述べており、これらは世界で深刻な生命の損失を引き起こす可能性のある異なる分野です。それが害をどう考えていたかですが、今我々は生物学にはるかに焦点を当てています。

核の害を引き起こすのに必要なリソースの量を考えると、おそらくそれらのリソースを取得し、有害な方法で使用できるのは国家アクターである必要があるでしょう。一方、はるかに小さなランダムな人々のグループが生物学的害に必要な試薬を手に入れることができます。

生物学的リスクと現在の脅威

今日とどう違うのでしょうか？私は元生物学者として、実際にはあまり心配していませんでした。なぜなら、天然痘ウイルスまたは潜在的に他のもののゲノムは既にオンラインに投稿されており、実際にこれらのことを行う方法のすべてのプロトコルが複数の研究所でオンラインに投稿されているからです。

Xの DNA を増幅する方法やYのオリゴを注文する方法についてGoogle検索を行うことができます。

我々は様々な程度の生物学専門家との特定のテストを行い、Google検索と比較してどの程度の向上があるかを見ています。我々の最新モデルであるOpus 4がASL3に分類される理由の一つは、Google検索と比較して有意な向上があったからです。

あなたは訓練された生物学者として、それらの特別な用語がすべて何を意味するかを知っており、よく文書化されていない可能性のある多くのラボプロトコルを知っていますが、素人で、このペトリ皿やこの試験管で何をすればよいかを理解しようとしている人や、どのような機器が必要かを知ろうとしている人にとって、それは青空分野のようなもので、Claudeはそこで必要なものを説明するのが非常に得意です。

そのため、この特定の種類の情報を取得しようとしている人々を探す特定の分類器があります。

安全性研究の境界

研究所が行うべきではない安全性研究の種類について、どのような形の機能獲得研究または他のことを考えているかを教えてください。

研究所がこの研究を制御された環境で行う方が、はるかに良いと思います。それをまったく行うべきかという点で、元生物学者として、私が生物学について深く気にかけ、あらゆる種類の方法で人類にとって良いものだと思っているから、ベンチで約10年間過ごしました。

しかし、決して行われるべきではないと思う特定の種類の研究があります。誰がそれを行うかは気にしません。バイオセーフティレベルは気にしません。リスクに対して有用ではないと実際に思わないからです。つまり、それはリスクリワードのトレードオフです。

あなたの意見では、どのような安全性研究は決して行われるべきではないのでしょうか？

今日、モデルを封じ込めることは、おそらく生物学的標本を封じ込めることよりもはるかに簡単です。バイオセーフティレベルを何気なく言及しましたが、それが我々のAI安全レベルのモデルとなっているものです。

正しい保護措置が整っていれば、例えば我々はモデルを欺瞞的になるように訓練しました。それは怖いことかもしれませんが、理解するために必要だと思います。例えば、我々の訓練データが毒されていた場合、ポストトレーニングでそれを修正できるかどうか。

その研究で我々が発見したのは、実際にその行動がアライメント訓練を通じて持続したということです。我々が公開した「アライメントフェイキング」という論文では、これらのことをテストできることは非常に重要だと思います。ただし、確実にどこかに基準があるでしょう。

私が発見したのは、しばしば早期に設定された先例が、人々が環境や他のことが変わることを理解していても、後期まで持続するということです。ちなみに、私は一般的にAI規制に反対で、多くの異なる種類のことについて、今は物事を起こさせることに賛成ですが、輸出管理などの一部のことは支持するでしょう。

しかし、特定の研究が早期に行われた場合、人々が後でそれを行わないためのすべてのコンテキストを必ずしも持たない状況があると思います。「AIまたはモデルを欺瞞的になるように訓練する」のは、n年後に環境が以前ほど安全ではないほど十分に変化していても、以前に行われたために人々がまだ行っている可能性があるという良い例だと思います。

これらのことが時間の中で組織的または哲学的に持続することがわかり、絶対に行うべきではないxタイプの研究はないと言うのは興味深いです。

明確にするために、私はもう安全性チームにいません。ずっと前にいましたが、今は主に我々のモデルを有用にし、展開し、展開のための基本的な安全基準を満たすことを考えています。しかし、そのようなことを常に考えている多くの専門家がいます。

Claude 4以降の展開と新機能

少し話題を変えて、Claude 4の後に来るものについて話したいと思います。訓練における創発的行動が、会社の運営方法や構築したい製品を変えるようなことはありますか？あなたはこのラボ組織を運営しているので、Anthropicの先端部分のようなものですし、安全性についても。次に来るものは、皆さんの運営方法をどのように変えるのでしょうか？

昨年、コンピューター使用の参照実装を公開しました。これは画面を見回し、クリックし、テキストを読むことができるエージェントです。ManisやManisを社内でソフトウェアQAに使用している多くの企業が今それを使用しています。それはサンドボックス化された環境だからです。

しかし、コンピューター使用に基づく消費者レベルまたはエンドユーザーレベルのアプリケーションを展開できなかった主な理由は安全性でした。我々は、Claudeにすべての資格情報が入ったブラウザーへのアクセスを与えても、送信したくないメールを送信するような不可逆的なアクションを起こして混乱させることはないと確信していませんでした。

または、プロンプトインジェクションの場合、もっと悪い資格情報漏洩のようなタイプのことです。

完全自動運転モードでは、人々のために多くのことができるので、それは少し悲しいです。それは能力がありますが、安全性が我々自身でそれを本格的に製品化するのに十分ではありませんでした。

これは非常に野心的ですが、世界の他の部分も減速しないだろうから必要だとも思います。我々がこれらの能力をどのように展開するかについて責任を持つことが可能であることを示し、同時にそれを極めて有用にすることができれば、それは基準を上げます。

だから、それは我々がそれを展開する方法について本当に慎重に考えようとした例だと思いますが、我々が今いる基準よりも高い基準があることを知っています。

競争環境と企業戦略

プロバイダー環境での競争とそれがどのように展開するかについて、メタ的な質問をしたいと思います。

我々の会社の哲学は企業と非常に一致していると思います。例えば、StripeとAdyenを見ると、誰もAdyenについて知らないが、少なくともシリコンバレーのほとんどの人はStripeについて知っています。これはビジネス指向対より消費者エンドユーザー指向プラットフォームのようなものです。

我々はAdyenのようなもので、世界でのマインドシェアははるかに少ないが、同等またはそれ以上に成功することができると思います。我々のAPIビジネスは極めて強力だと思いますが、次に何をするか、我々のポジショニングについて言えば、そこに出続けることが我々にとって非常に重要になると思います。

人々が我々のモデルと我々の体験を簡単に試すことができなければ、モデルを何に使うかがわからないからです。我々は本質的に我々のモデルの最高の専門家なので、Claude Codeのような物事を持って外に出続ける必要があると思いますが、どのようにエコシステムを本当に開花させるかを考えています。

Model Context Protocol（MCP）の重要性

MCPがうまく機能している良い例だと思います。他の世界では、デフォルトのパスのようなものが、すべてのモデルプロバイダーが、特注のパートナーシップを得ることができた企業とのみ、独自の特注統合を行うことだったかもしれません。

リスナーがまだ聞いたことがない場合のために、MCPが何かを説明していただけますか？それはここでエコシステム全体のクーデターのような驚くべきものなので。

MCPはModel Context Protocolです。我々のエンジニアの一人、ジャスティン・スパークサマーズが、モデルと何か特定のものとの間の統合をn回目に行おうとしていて、「これはクレイジーだ。モデルにより多くの情報、より多くのコンテキストを得る標準的な方法があるべきだ。誰でもできることであるべきだ」と言いました。

または、十分によく文書化されていれば、Claudeが自分でそれを行うことができるかもしれません。夢は、Claudeが必要な時に正確に自分自身の統合をその場で自己記述し、準備万端になることです。

彼はプロジェクトを作成し、正直なところ、私は最初少し懐疑的で、「でも、なぜコードを書かないの？なぜスペックやSDKやスタッフすべてが必要なの？」と言いました。しかし、最終的に我々はパートナー企業の束との顧客諮問委員会を行い、MCPデモを行ったとき、顎が床に落ちました。皆が「なんてことだ、これが必要だ」と言いました。

それで彼が正しいことがわかり、もっと多くの努力をかけ、それを爆発させました。我々のローンチの直後、すべての主要企業が運営委員会の輪に入ることを求め、我々のガバナンスモデルについて尋ね、彼ら自身がそれを採用したがりました。それは本当に励みになりました。OpenAI、Google、Microsoft、これらすべての企業がMCPに本当に大きく賭けています。

これは基本的に、誰でもこのフレームワークを使って、任意のモデルプロバイダーに対して標準化された方法で効果的に統合できるオープンな業界標準です。MCPは、どのモデルプロバイダーやどのロングテールサービスプロバイダーでも、あなただけが持つ内部専用サービスであっても、IDEのように見えるかもしれないし、文書エディターのように見えるかもしれない、ほぼ任意のユーザーインターフェースである完全に機能するクライアントに対して統合できるようにする民主化の力だと思います。

それは非常に強力な組み合わせだと思います。今はリモートもできます。

はい、そうです。以前はサービスをローカルで実行する必要があり、それは開発者にとってのみ興味深いものに制限していましたが、ホスト型MCPまたは時にはリモートと呼ばれるものができたので、Google Docsのようなサービスプロバイダーが独自のMCPを提供でき、それをClaude.aiや望む任意のサービスに統合できます。

ベン、素晴らしい会話をありがとうございました。

ありがとうございました。すべての素晴らしい質問に感謝します。

TwitterでNo Prior Podをフォローし、我々の顔を見たければYouTubeチャンネルを購読してください。Apple Podcasts、Spotify、または聞いている場所で番組をフォローしてください。そうすれば毎週新しいエピソードが得られます。メールにサインアップするか、全エピソードの転写をno-priors.comで見つけてください。