3つの研究所がClaudeの頭脳を盗んだ 何が壊れたのか そしてなぜあなたが気にすべきなのか

Anthropic・Claude・ダリオアモデイ
この記事は約31分で読めます。

AnthropicのClaudeが中国の3つのAI研究所による組織的な能力窃取の標的となった事件は、単なる米中対立の問題ではなく、AIの価値が数学として軽量にコピー可能であることに起因する構造的な情報経済の問題である。DeepSeek、Moonshot、Minimaxは計1600万回の自動会話を通じてClaudeの推論能力を抽出したが、この蒸留技術は中国特有の問題ではなく、フロンティアモデルの開発コストと抽出コストの間に存在する圧倒的な経済的インセンティブによって普遍的に駆動される現象だ。蒸留されたモデルはベンチマークでは競争力があるように見えるが、持続的な自律作業において重大な性能低下を示す。この性能の影が最も大きく現れるのが、まさにAI価値の最前線であるエージェント的作業領域である。企業や個人がAIツールを選択する際、ベンチマークではなく汎化能力を試験し、タスクの範囲とモデルの出自を適切にマッチングする能力が競争優位の鍵となる。

Three Labs Just Stole Claude's Brain. Here's What It Broke (And Why You Should Care)
My site: Story w/ Prompts:

Claudeへの組織的な能力窃取が明らかに

Anthropicは、3つの中国AI研究所がClaudeの頭脳を盗んでいるところを捕まえました。そして本当の話は、誰もがそれをやりたがっているということなんです。

3つの中国AI研究所が、24,000の偽アカウントを通じて1600万回の自動会話を実行し、Claudeの能力を盗もうとしているところを捕まえられました。DeepSeek、Moonshot、Minimaxです。産業規模の抽出作業で、不正アカウントのヒドラネットワーク、地理的制限を回避するためのプロキシサービス、そしてMinimaxの場合は、新モデルのリリースから24時間以内に方向転換して、誰も止められないうちに最新の能力を捕捉しようとしていたのです。

もしこれがスパイ映画から出てきたように聞こえるなら、おそらくそうあるべきでしょう。みんなこれを冷戦と呼んでいますが、彼らは間違っています。冷戦のフレーミングで止まってしまうと、あなたのキャリア、あなたの会社、そしてあなたが今使っているすべてのAIツールにとって最も重要な意味を見逃すことになります。

誰も言っていないことは、これは本当に中国の問題ではないということです。根本的にも、構造的にも違うんです。これはNapsterの問題なのです。アメリカ企業によって作られた最も価値のある知能は、数学として保存されています。OpenAIに保存されています。Googleに保存されています。Anthropicに数学として保存されているんです。重さがなく、コピー可能で、チャットウィンドウを通じて抽出可能なのです。

フロンティア研究所の内部にあるものと、他の誰もがアクセスできるものとの間のギャップは、私が圧力勾配と呼ぶものを作り出しています。水が丘を下って流れるのと同じ力です。一方の側に潜在的に数兆ドルの価値がある能力があり、もう一方の側がそれを数千ドルで抽出できるとき、情報は常に移動するのです。

勾配があまりにも極端なので、蒸留はスパイ活動として適切にフレーミングされているわけではありません。たとえそのレベルを満たしているとしても、これは海賊行為としてフレーミングされるべきです。そして海賊行為は、音楽業界が1999年に学び、映画業界が2003年に学んだように、止まりません。減速するだけです。重要な問題は、その減速の速度とフロンティアモデルにおける能力獲得の速度との比較なのです。そしてモデルの能力が90日ごとに倍増しているとき、これは重要です。

蒸留モデルの隠れた性能問題

でもそれは、あなたを夜も眠れなくさせるべき部分ですらありません。あなたを夜も眠れなくさせるべき部分はこれです。蒸留されたモデル、盗まれた出力から構築されたもの、ベンチマークで競争力があるように見えるもの、あなたの会社が今まさに購入したり無料で展開したりしているかもしれないものは、今日の評価スイートがうまく測定できない方法で、フロンティアモデルよりも体系的に悪いのです。

そしてそのギャップが最も広いのは、まさにAI価値が向かっている使用事例、つまり持続的で自律的なエージェント的作業においてなのです。コピーによって構築されたモデルは、チャットには問題なく見えます。でも8時間連続で考え続け、障害を回避し、誰も予想しなかった組み合わせでツールを使う必要があるとき、それらは崩壊するのです。

誰もがこれに対応して輸出規制と地政学について議論しています。誰もがこの漏洩に対応して輸出規制と地政学について議論しています。でも私は、本当の会話は違うと思うのです。蒸留があなたが使っているモデルに何をするのか、盗むインセンティブが中国だけでなく地球上の誰にでも適用されることが何を意味するのか、そしてエージェント的作業における性能の影が、今日のエンタープライズAIにおける最も測定されていないリスクである理由です。

数日前、私はGemini 3.1 Proと誰も構築していないトノミーの問題について書きました。難しさは一つのものではなく、異なるモデルが異なる種類の難しさを解決するという議論です。この動画は関連しているけれど異なることについてです。この動画は、最も価値のある種類の知能が最もコピー可能な種類の知能でもあるときに何が起こるのか、そしてそれがあなたが使っているツール、あなたが信頼しているベンダー、あなたがAIインフラストラクチャに要求している能力をどう評価すべきかを変える理由についてです。

冷戦フレーミングの限界

冷戦のフレーミングが便利なのは分かっています。見出しを引っ張るのも分かっています。でもそれは不完全でもあるのです。Anthropicの開示は、その国家安全保障の言葉に本当に強く傾いています。おそらく意図的に。輸出規制、中国共産党、軍事および監視への応用、競争格差を縮める外国の敵対勢力。

このフレーミングはAnthropicの政策的利益に役立っています。彼らは一貫して輸出規制を支持してきましたし、それらの規制が機能していること、中国研究所の明らかに急速な進歩が独立したイノベーションではなく盗まれたアメリカの能力に依存していることを示したいのです。そしてそのいくつかは明らかに現実です。

DeepSeekの作戦は、150,000回の交換を通じてClaudeの推論能力を標的にし、大規模に思考連鎖のトレーニングデータを生成していました。彼らのプロンプトは、Claudeに完成した応答の背後にある内部推論を想像して明確に表現し、段階的に書き出すよう求めていました。競合モデルをトレーニングするために必要な推論トレースを効果的に製造していたのです。

でも彼らの最も明らかな技術の一つは、軍事応用とは何の関係もありませんでした。彼らはClaudeを使って、反体制派、党指導者、権威主義に関する政治的にセンシティブなクエリに対する検閲セーフな代替案を生成していました。DeepSeek自身のモデルが中国政府が議論されたくないトピックから会話を遠ざけるのを助けるように設計されたトレーニングデータです。

Anthropicはアカウントを研究所の特定の研究者に追跡しました。支払い方法とリクエストメタデータを通じてです。太平洋における地政学的ダイナミクスは現実です。それは20年間加熱してきました。実は私は学部の卒業論文を東南アジア政治における中国の関与について書きました。九段線、人工島、台湾への圧力。それらのどれも仮想的なものではありません。

でも地政学的ダイナミクスを超えて、私は冷戦の比較が主に方法論的な観点から興味深いと思うのです。例えばガールフレンドアプローチです。諜報機関が魅力的な工作員を配置して研究者との関係を育み情報を抽出する。それは新しいことではありません。

マタハリ以前にまで遡りますし、シリコンバレーのAIコミュニティで十分に文書化されています。もしあなたがサンフランシスコで驚くような美女を釣り上げているエンジニアなら、そのディナーの招待を動機づけているものについて、私はいくつか不幸なニュースがあります。

ヒューマンインテリジェンス作戦は現実で、文書化されていて、継続中です。でもここでフレーミングがあまりにも便利になるのです。Anthropic自身が米国防衛機関との複雑なダンスをしてきました。彼らは許容される使用ポリシーを更新して、Claudeの特定の防衛および諜報応用を許可しました。以前のポジショニングからのシフトです。同時に、彼らの技術が軍事的文脈でどのように使用されるべきかについての緊張をナビゲートしています。

蒸留を主に中国からの軍事的脅威としてフレーミングするとき、Anthropicがそうしたように、あなたはアメリカのAI企業が危険な能力の責任ある守護者であり、中国の研究所が無謀な拡散者として描かれるという物語を構築しているのです。現実はそれよりも複雑です。

Anthropicは同時に、これらの能力は中国の研究所にアクセスさせるには危険すぎると主張しながら、同じ能力をアメリカの軍産複合体内でどう展開するかについて、時には緊張のポイントから交渉しているのです。プレスリリースが信じさせようとするほど単純ではありません。

経済的インセンティブの本質

そして方法論的な類似性は、基礎となるダイナミクスが主に軍事的であることを意味しません。率直に言って主に経済的なのです。フロンティアモデルを蒸留するインセンティブは、たとえ中国とアメリカが親密な同盟国だったとしても存在するでしょう。

軍事応用が全くなくても存在するでしょう。それが存在するのは、情報経済における最も基本的な力のためです。知能を生成するコストは、その知能をコピーするコストよりも天文学的に高いのです。

これが蒸留が実際に何を生み出すかという話につながります。なぜならこれが、実際の作業にAIモデルを使う誰にとっても重要な部分だからです。うまくいけば多くの皆さんと私ですね。そしてこれは議論が完全に無視している部分なのです。

蒸留が知能に与える影響

知能をコピーすることが知能に何をするのか、説明しましょう。蒸留はオリジナルのモデルのコピーを生成しません。圧縮を生成するのです。そしてその圧縮は、損失のあるMP3のように、これらのモデルの上に実際のシステムを構築する誰にとっても非常に重要な特性を持っています。

幾何学的に考えてみてください。Opus 4.6のようなフロンティアモデルは、数ヶ月の計算をかけて膨大で多様なコーパスでトレーニングされます。結果は、私が高次元能力空間と呼ぶものを占めるモデルです。コードについて推論し、曖昧な指示をナビゲートし、ツールを新しい組み合わせで使用し、長いワークフローにわたって一貫性を維持し、エラーから回復し、計画が失敗したときにアプローチを適応させることができます。

それは、私が広いマニフォールドと呼ぶものを持っています。多くの異なる種類のタスクにわたる広い能力の表面です。対照的に蒸留されたモデルは、フロンティアモデルの出力のサブセットでトレーニングされます。特定の行動、蒸留者が捕捉することを選んだものを再現することを学びます。結果は、それらの特定の行動でうまく機能するが、より狭いマニフォールドを占めるモデルです。

能力空間におけるボリュームが少ないのです。蒸留者が標的としたタスクに最適化されていて、その分布の外に出るとより急激に性能が落ちます。

フットボールの試合を類推として見てみましょう。NFLフットボールの試合全体を見れば、すべてのプレーを見ることができますし、たくさんの広告も見ます。ハイライトだけを見れば、広告は少なくなりますが、フットボールの試合もずっと少なくなります。NFLがあなたが興味を持つと思う部分だけです。それが蒸留のようなものです。

これが脆弱性の問題で、広く誤解されています。部分的にはベンチマークの最大化がそれを覆い隠しているからです。実際にどう機能するか説明しましょう。Minimaxは、Anthropicが開示した3つの作戦のうち最大のものですが、エージェント的コーディングとツールオーケストレーションに特化して1300万回以上の交換を実行しました。

彼らはそれらの出力でモデルをトレーニングしました。結果として得られたモデルは、コーディングベンチマークで良いスコアを出します。特定の評価ではClaudeに匹敵するかもしれません。なぜならベンチマークは蒸留者が最適化したまさにその種類のタスクをテストするからです。

だから標準的な評価スイートを実行しているエンタープライズバイヤーは、モデルがほぼ同等だと結論付けるかもしれません。そして彼らは間違っているでしょう。それらは同等のモデルではありません。

蒸留されたモデルは、コーディングタスクでClaudeの出力のように見える出力を生成することを学びました。Claudeがタスクタイプ全体で汎化し、予期しない失敗から回復し、特にトレーニングされていない組み合わせでツールを使用し、拡張された自律ワークフローにわたって一貫した推論を維持することを可能にする基礎となる表現構造を学んだわけではありません。

蒸留されたモデルはより狭いマニフォールドを持っています。トレーニング分布の中心では優秀ですが、端では非常に脆弱なのです。

Moonshotの作戦は異なる角度から同じ話を語っています。彼らは数百の不正アカウントを通じて340万回の交換を実行し、エージェント的推論、ツール使用、コンピュータ使用、エージェント開発、コンピュータビジョンを標的にしました。

後のフェーズでは、より外科的なアプローチにシフトし、Claudeの推論トレースを直接抽出して再構築しようとしました。AnthropicはMoonshotの上級スタッフの公開プロファイルと一致するリクエストメタデータを通じてキャンペーンを帰属させました。結果がKimmyです。

Kimmyの性能限界

そして私はKimmyを十分に使って、圧縮がどこで現れるかを正確に見てきました。私は時々PowerPoint生成にKimmy K2を使います。それが本当に優れているところです。美しいデザイン、クリーンな実行、比較的速い反復。

でも持続的なエージェント的作業、あるいはより大きなPowerPointプロジェクトに使うとき、AIが自律的に障害をナビゲートし、リサーチを行い、特定のスタイルガイドに従い、数時間のワークフローにわたってアプローチを適応させ、プロンプトが正確に指定しなかった目的のためにツールを使う必要がある種類のとき、Kimmyの性能は純粋なベンチマークが捕捉しない方法で低下します。

だから私は毎回Claude Opus 4.6を使うことになるのです。Kimmy K2にはClaudeが持つような汎化可能な性能がないからです。なぜでしょうか。

違いは、より長期的な目標に向かって信頼性高く自律的に障害を回避する能力が狭まったものとして現れるからです。Opus 4.6のようなフロンティアモデルは、複雑なコーディングタスクの途中で予期しないエラーに遭遇すると、どう再ルーティングするかを知っています。別のライブラリを試します。アプローチを再構築します。コンテキストが本当に曖昧な場合は明確化を求めます。

より狭いモデルは同じエラーに遭遇すると、失敗するか、ループするか、技術的には有効だが戦略的には間違った回避策を生成します。元のアプローチが選ばれた理由と実際の制約が何かを理解するための表現の深さを持っていません。だから同じ流暢さで代替案について推論することができないのです。できないだけです。

違いはまた、多様な目的のためにツールを使う能力が狭まったものとしても現れます。フロンティアモデルは、ファイルシステム、データベース、ウェブブラウザ、コードエグゼキュータを新しい組み合わせで使って、明示的にトレーニングされていなかった目標を達成できるほど、十分に多様なツール使用シナリオでトレーニングされています。

対照的に、蒸留されたモデルはトレーニングされたパターンでツールを使い、タスクが馴染みのない組み合わせを必要とするときに即興するのに苦労します。

この違いは本当に重要です。なぜならAI価値のフロンティアは、エージェント的作業に向かって急速に移動しているからです。数時間あるいは数日間実行される持続的な自律ワークフロー、ツールとシステム全体で調整され、まさに蒸留が圧縮してしまう汎化性を必要とするものです。

短く明確に定義されたタスクにおけるフロンティアモデルと蒸留モデルの間の性能の影は比較的狭いです。拡張されたエージェント的作業における性能の影は大きく、それは大きくなっていて、今日それをうまく捕捉するベンチマークは存在しません。なぜなら持続的な自律的汎化性を測定するであろう評価が本当にまだ存在しないからです。そしてそれが実は今AIにおけるより大きな問題の一つなのです。

こう考えてみてください。チャットアプリケーションのためにモデルを評価しているなら、この質問に答えてください。何かテキストを生成して、段落を翻訳する。蒸留されたモデルは、コストの15%でフロンティアの90%くらい良いかもしれません。そしてあなたは一日中そのトレードを取るでしょう。

でも6つのリポジトリにわたる週間の自律的コーディングスプリントのためにモデルを評価していて、モデルが組織のコンテキストを理解し、作業を正しくルーティングし、見たことのないエラーから回復し、トレーニングデータになかった組み合わせでツールを使う必要がある場合。これは実際の例ですが。

蒸留されたモデルは、40%くらいしか効果的ではないかもしれません。ずっと効果的でないのです。なぜならオリジナルモデルの出力のサブセットでしかトレーニングされていないからです。だから失敗モードは現れず、それがトレーニングされないので、週間その作業ができる汎化可能な高品質ハイパースケーラーモデルの真の表現構造を反映する方法でトレーニングされないのです。

モデル評価の新しい枠組み

さらに悪いことに、その種の能力をテストしているなら、ほとんどの評価スイートは不十分です。失敗モードは、ベンダーにモデルを比較するよう依頼しても現れません。なぜならその種の作業に信頼性のある再現可能な方法で取り組むように設計された既存の評価スイートがないからです。

代わりに、その種のタスクのために蒸留されたモデルを購入すると、エージェントが9時間実行されていて、その分布の外の何かに遭遇し、非常に、非常に悪いことをする木曜日の午前3時に現れることになります。

誰もこれを十分に明確に言っていないので、私が言います。ますますエージェント的になるモデルの蒸留タイムエッジの最も重要な結果の一つは、通常のチャットベースの作業よりもはるかに深刻で測定が困難な性能の影なのです。

これをあなたが考えるときに持ち運ぶシンプルな枠組みがあります。AIタスクを2つの軸で考えてください。横軸はタスクの範囲です。左側では狭く明確に定義されているかもしれません。このメールを分類する、このドキュメントを要約する、この関数を完成させる。右側では広くオープンエンドです。

ねえ、3日間で6つのリポジトリにわたってこのシステムをデバッグして。曖昧な仕様から製品プロトタイプを構築して。あるいは複数のツールにわたってリサーチワークフローを調整してかもしれません。

縦軸はモデルの出自です。上部でフロンティアトレーニング。Gemini 3.1 Pro、Opus 4.6、GPT 5.3を考えてください。対して下部で蒸留または派生です。

さて、狭いタスクでは、その縦のギャップはほとんど重要ではありません。蒸留されたモデルは、コストのわずかな部分でフロンティア品質の90%以上でメール分類を処理します。本当にスマートなトレードオフです。ほとんどの場合、それを取るべきです。

広いタスクでは、その縦のギャップは深淵です。蒸留されたモデルは最初の1時間か2時間は問題なく見えますが、4時間目、6時間目、8時間目までには、蒸留トレーニングデータで見つからなかったエラーに遭遇することになり、トラブルに巻き込まれます。

より広いマニフォールドを持つフロンティアモデルは、再ルーティングし、適応し、明示的に使用するようプロンプトされなかったツールで即興できます。タスクを完了したとタスクを信頼できるほどうまく完了したの間のギャップは、キャリアと企業が差別化される場所であり、それがここで重要なのです。

じゃあ動きは明白ですよね。出自を範囲にマッチさせるのです。軸の左側で蒸留または軽量モデルを積極的に使用してください。それが彼らが輝く場所です。そして狭いタスクにフロンティア価格を払うのはしばしば無駄です。

フロンティアモデルを右側のために予約してください。汎化性、持続的な一貫性、トレーニングデータが予想しなかった状況を処理する能力を必要とする作業です。

モデルルーティングスキルは、あなたのタスクがこのマップのどこにあるかを知り、それに応じて選択することです。

ハイパースケーラーのタイムエッジ

さて、ハイパースケーラーが維持しようとしているタイムエッジについて、もう少し話させてください。それがたとえ比較的短い数ヶ月であっても、なぜそれが重要なのか。これのすべての物理を非常に明白にする比較から始めましょう。

核兵器には濃縮ウランまたはプルトニウムが必要です。遠心分離機、原子炉、専門施設、監視および阻止できるサプライチェーンが必要です。原子は重いです。移動するのが難しいのです。拡散の物理は本当の摩擦を課します。

これが核物質の輸出規制が機能する理由です。完璧ではありませんが、意味があります。物理的な基盤が政策が利用できるボトルネックを作り出すのです。

大規模言語モデルは原子に存在しません。それらのどれも必要ありません。能力は重みとして存在します。ファイル内の数字です。それらの重みを生成するトレーニングプロセスには数億ドル以上のコストがかかり、数ヶ月間実行される数千のGPUが必要です。

でも結果として得られる成果物はただの数学です。数秒でコピーできます。ネットワーク経由で送信できます。そしてAnthropicがたった今示したように、フロンティアモデルの出力は、重み自体に触れることなく競合モデルをトレーニングするために使用できます。モデルを盗む必要すらありません。十分に話しかけるだけでいいのです。

すべてのデジタル産業がこの教訓を学んできました。音楽、映画、出版、ソフトウェア、それぞれが価値が高くコピーのコストがゼロのとき、コピーはただ起こることを発見しました。人々が本質的に悪だからではなく、経済が圧倒的だからです。

AIにおけるフロンティアの不均衡は、Napster時代を古臭く見せます。Opus 4.6のようなモデルは、控えめに見ても計算、研究、トレーニングにおける数十億ドルを表し、エンタープライズ価値ではそれよりもはるかに多くを表します。フロンティアトレーニング実行の信頼できる見積もりは、今や10億ドルから始まり、研究スタッフ、データキュレーション、インフラストラクチャを含めるとそこから上昇します。

だからこのモデルの能力、エージェント的推論、持続的な自律コーディング、複雑な環境にわたるツールオーケストレーション、これらは独立して開発するのが不釣り合いに難しいので、不釣り合いに価値があるのです。

さあ抽出の計算をしてみましょう。Minimaxは1300万回の交換を実行しました。典型的な交換は平均1000の入力トークンと2000の出力トークンかもしれません。Opus 4.6の公開されたAPI価格、100万入力トークンあたり15ドル、100万出力トークンあたり75ドル。それは約195,000ドルの入力コストと、おそらく195万ドルの出力コストです。

寛大に200万ドルとちょっとと呼びましょう。そしてそれは、プロキシ割引と不正アカウント悪用の前の完全小売価格で、それらはほぼ確実に実際の支出を下げました。

20億ドルかけて開発された能力を抽出するために、最大でも200万ドル。それは1000対1の窃盗のリターンです。これらのオッズに直面している合理的な経済主体は、そのお金をテーブルに残しません。唯一の問題は、それを集めることについてどれだけ大胆になる意志があるかです。

Anthropicが検出した作戦の規模は、これらの経済を強調しています。3つの研究所すべてが、Anthropicがヒドラクラスタアーキテクチャと呼ぶものの上で実行される商業的プロキシサービスを使用しました。APIとサードパーティのクラウドプラットフォーム全体にトラフィックを分散する不正アカウントの広大なネットワークです。

あるケースでは、単一のプロキシネットワークが同時に20,000以上のアカウントを管理し、検出を困難にするために無関係な顧客リクエストと蒸留トラフィックを混合していました。

あるアカウントが禁止されると、新しいアカウントがその場所を取りました。単一の失敗点はありませんでした。Minimaxのキャンペーンは、彼らがトレーニング中のモデルをリリースする前に、まだアクティブな間に検出されました。そしてAnthropicがキャンペーンの途中で新しいモデルを出荷したとき、Minimaxは24時間以内に方向転換し、最新のシステムを捕捉するためにトラフィックのほぼ半分をリダイレクトしました。

ここでの運用上の洗練度は、私が説明した1000対1の経済的インセンティブに直接マッピングされます。

タイムエッジの戦略的価値

さあ時間に戻りましょう。蒸留が避けられないなら、経済が本質的にフロンティア能力が誰かに漏洩することを保証するなら、それを防ごうとする意味は何でしょうか。意味は時間です。意味は時間なのです。

能力が90日ごとに倍増しているとき、Gemini 3.1 Proが単一世代でその前任者のARC AGI2スコアを2倍以上にしたとき、Opus 4.6が四半期未満でエージェント的ベンチマークでOpus 4.5を飛び越えたとき。3ヶ月のリードは、それがそうであるなら、些細ではありません。

最新の推論またはエージェント能力で能力を最初に展開することと、競合が蒸留版を出荷した後に展開することの違いです。市場ポジションを確立することと、追いつくためにスクランブルすることの違いです。次に何が来るかを開発する3から6ヶ月のリードを持つことと、常にフロンティア研究所が生産しているものに従わなければならないことの違いです。

Anthropicの対抗措置、行動フィンガープリンティング、検出分類器、アクセス制御、他の主要研究所とのインテリジェンス共有のようなもの。それは蒸留を止めません。減速させるのです。そして能力曲線が指数関数的である景観では、フロンティア能力の獲得を数週間または数ヶ月遅らせることは、本当の競争優位を生み出します。

これらはAnthropicが取っている合理的な行動です。これは音楽業界でDRMを推進したのと全く同じロジックで、ソフトウェア業界でコピー保護を推進し、映画配信で海賊対策を推進したものです。それらのどれも実際にコピーを止めませんでした。すべてが摩擦を課しました。

そしてその摩擦、リリースと広範な入手可能性の間の遅延が、お金が存在した場所でした。ファーストムーバーウィンドウ、オリジナルの創造者が誰も持っていないものを持っていた期間です。

ASIシナリオへの懐疑

人々が現時点で議論する通常のエンドゲームは、ある種の特異的な人工超知能の瞬間です。あなたが最初にそこに到達すれば、チェックメイトです。私はそれが時期尚早で間違っていると思います。

物理的な計算要件だけでも、フィールドの残りが非常に近くにいることなく、単一の研究所が不連続な知能爆発を起こすことはありそうにないと思います。そしてAI 2027エッセイのような投機的シナリオにおける記憶とインフラストラクチャの仮定は、私には信憑性を欠いています。

より妥当に思えるのは、フロンティア研究所が不安定だが重要なリードを維持する持続的な競争ダイナミクスです。商業的および戦略的に重要な十分なエッジですが、乗り越えられない堀を構成するには十分ではありません。

熱心に維持されるスピードバンプが、そのエッジを保持するものです。核心はここで、Anthropicの国家安全保障フレーミングが本当に覆い隠している部分だと思います。フロンティアモデルを蒸留するインセンティブは、中国の研究所に特有ではありません。文字通り普遍的なのです。

Google、Anthropic、OpenAIでないすべての研究所は、全く同じ圧力勾配に直面しています。フロンティアモデルをゼロからトレーニングするために必要な計算は数十億で測定されます。蒸留するために必要な計算は2桁ほど低いです。蒸留のROIは、行為者が誰であろうと存在することになります。

それが何を意味するか考えてみてください。より小さなアメリカの研究所、ヨーロッパのスタートアップ、オープンソースプロジェクト、学術研究グループ、政府請負業者。数十億ドルのトレーニング実行を買う余裕がない誰もが、それができる研究所から能力を抽出する構造的インセンティブを持っているのです。

そして方法は、有用であるために、プロキシサービスを通じて24,000の不正アカウントを実行するほど大胆である必要はありません。蒸留はスペクトラム上に存在します。一端には、Minimax様式の産業抽出があります。

もう一端には、Claudeの出力を使って自分のモデルアーキテクチャに情報を提供する研究者がいます。正当な使用と不正な蒸留の間の線は非常に、非常に曖昧で、技術がより洗練されるにつれてより曖昧になります。

地球上で最大のテクノロジー企業の一つであるMetaでさえ、実質的に無制限の計算とドルを持っていますが、人材獲得を通じてAI能力を追求してきました。ザッカーバーグは個人的にGoogle、OpenAI、Anthropicから研究者をリクルートし、9桁のパッケージを提供し、彼らにスープを作りました。それは本当です。

彼はScale AIを140億ドルの取引で買収しましたが、それは少なくとも部分的に、もしほとんどでないなら、Alexander Wangと彼のチームの専門知識を獲得することについてでした。Llama 4がアンダーパフォームしてMetaのオープンソースの物語を粉砕したとき、Zuckは独立した研究を倍増しませんでした。

彼は他の場所ですでに困難な作業を行った人々を買いに行ったのです。さて、人材獲得は蒸留ではありませんが、全く同じ原理で動作しますよね。既存の知能を獲得する方が、独立して開発するよりも安いのです。

AnthropicからMetaに移動する研究者は、トレーニング技術、アーキテクチャの決定、データキュレーション方法、安全アプローチについての知識を運びます。それは開発するのに数年と数十億ドルかかったものです。

知識は誰かの頭の中で外に出て行き、APIを通じて流れるのではありませんが、経済ダイナミクスは同一です。

能力出自の重要性

これには、人々が内面化する必要があると私が思う直接的な意味があります。DeepSeekがR1をリリースし、市場が彼らが主張した控えめな予算で中国の研究所がそのような有能な推論をどう生成したかに集団的に息を呑んだとき、正しい質問は、彼らがどうそれをそんなに安くやったのかではありませんでした。みんながそれを尋ねましたが。

正しい質問は、この能力のどの部分が独立して開発されたのかです。Anthropicがたった今部分的な答えを提供したと思います。非ハイパースケーラー研究所が蒸留に依存する度合い。ところで、これは中国の研究所や他の小さな研究所で働いている優秀な研究者がいないことを意味するわけでは全くありません。絶対にいます。

才能はそこにあります。でもAPI抽出を通じてであれ、人材獲得を通じてであれ、フロンティアモデルの出力でトレーニングを通じてであれ、これらのハイパースケーラーからデータを引き出すインセンティブは、ただ恐ろしく高いのです。

ほとんどの人が気づいているよりも高く、彼らの才能レベルに関係なく、これらの小さな研究所でのロードマッピングを必然的に推進することになります。私は深く尊敬しています。

そしてこれはマニフォールド問題に直接つながります。もしあなたのモデルが主に蒸留を通じて構築されたなら、そして範囲がありますが、蒸留者が標的とした特定の能力を継承しました。フロンティアトレーニングが生成する広く一般的な表現構造を継承しなかったのです。

つまりモデルが蒸留に依存すればするほど、そして範囲がありますが、そのマニフォールドは狭くなり、分布外のタスクでの性能はより脆弱になり、ますます100倍と1000倍の価値が存在する長時間実行されるエージェント的作業でのパフォーマンスは悪くなります。

モデルの出自は倫理的な質問だけではありません。法的な質問だけでもありません。能力の質問なのです。重みがどこから来るかが、モデルがどう壊れるかを決定するのです。

個人とチームへの実践的影響

ここからこれが個人的になります。なぜならこれは抽象的な地政学と企業スパイについての話だけではないからです。あなたが今使っているツールと、来四半期、来月、来年選ぶツールについての話なのです。

もしあなたがハイパースケーラー、Google、Anthropic、OpenAI、たぶんMetaで働いているなら、あなたは標的です。抽象的にではなく。個人的に意味しています。APIベースの蒸留を推進する同じ経済的力が、ヒューマンインテリジェンス作戦を推進します。

フロンティア研究所の研究者は、外国の諜報工作員によってアプローチされ、並外れた報酬パッケージでリクルートされ、場合によっては社会工学を通じて危険にさらされています。

トレーニング技術、アーキテクチャの決定、安全アプローチ、ハーネス、データキュレーション方法についてのあなたの頭の中の知識は、テクノロジー業界の他の何よりもキログラムあたりの価値があります。それに応じて行動してください。

もしあなたが印象的なAIモデルをリリースしたばかりの会社で働いているなら、そしてその会社が私が名前を挙げたものの一つではない、ハイパースケーラーではない、Anthropicではない、Googleではないなら、それらの能力がどこから来たのか注意深く見てください。

これは非難的ではありません。ただ構造的なのです。蒸留するインセンティブは普遍的です。そして景観におけるすべての非ハイパースケーラーモデルは、完全に独立した研究と重度に蒸留された抽出の間のスペクトラムのどこかに存在します。そしてそれは灰色です。

質問は、あなたとあなたのモデルがその灰色のスペクトラムのどこにいるかで、答えはモデルの汎化性をどれだけ信頼すべきかに直接的な意味を持っています。

もしあなたが作業のためにAIツールを選んでいる個人貢献者またはチームリードなら、作業で汎化性を識別し要求することを学び始める必要があります。これが、ほとんど誰もがここで見逃すであろう実践的な要点だと思います。

ベンチマークはこれであなたを助けません。あなたを助けるのは、その能力の幅をテストすることです。モデルの明白なトレーニング分布の外のタスクを処理する能力、新しい組み合わせでツールを使う、あなたのドメインの拡張されたワークフローにわたって一貫性を維持する、あなたが働く領域での予期しない失敗から優雅に回復する。

私はあなたのためにそのテストを書くことはできません。私が言えるのは、あなたのドメインを見れば、モデルにとって難しいタスクを思いつくことができるはずで、どのモデルも壊れるほど十分に難しいべきですが、それがどう壊れるかがモデルの汎化能力について多くを教えてくれるはずだということです。

もしモデルが毎回全く同じポイントで壊れるなら、モデルがツール使用の周りで壊れるなら、モデルがタスクへの持続的な注意の周りで壊れるなら、それはモデルが蒸気を使い果たしたり注意を失ったりしたからではなく、それが選んだタスクが非常にトークン重量だったので圧縮ウィンドウを使いすぎて続けることができなかったために壊れるのとは非常に異なる種類の壊れ方です。

後者はより汎化可能なモデルが問題に成功裏に取り組み、単に構造的記憶を使い果たしたように見えます。前者はより蒸留されたモデルのように見えます。

だからあなたのドメインで複雑なタスクを取ってください。ベンチマークタスクではなく、あなたが気にする本物のものです。複数のステップ、ツール使用、判断を必要とする何か。異なるモデルでそれを実行してください。

両方が成功したら、制約を変えてください。タスク全体ではなく、一つの変数です。何が起こるか見てください。モデルは適応しますか。推論のどの部分が転移しどの部分が修正を必要とするかを特定しますか。それともすべてをゼロから再生成しますか。さらに悪いことに、古い解決策を新しい制約に無理やり当てはめますか。

このテストは、私がオフマニフォールドプローブと呼んでいるものですが、リーダーボードスコアの多くがやることよりも、モデルの基礎となる表現の深さについて多くを教えてくれます。

一方、もしあなたがAI調達を主張しているリーダーなら、広いエージェント能力を持つフロンティアモデル対より安価で蒸留されたまたは制約された代替案のROIケースは、この動画から明白であるべきです。

カスタマーサービス分類、ドキュメント要約、既知のパターンのコード補完のような、明確に定義された狭いタスクには、蒸留されたモデルが優れた価値を提供するかもしれません。

オープンエンド、長時間実行、クロスファンクショナルな作業、ますますAI価値のフロンティアである種類のためには、より広いマニフォールドが必要です。より広い能力のボリュームが必要です。汎化性が必要なのです。

そして今、それはハイパースケーラーのスタックのトップエンドを意味します。Opus 4.6、GPT 5.3、Gemini 3.1 Pro、何であれ。ベンチマークがそう言うからではなく、真のフロンティアトレーニングから来る表現の深さが、これらのモデルが断片化することなく新しい状況にわたって自律的に機能することを可能にするからです。

ちなみにGoogleは、ここで特によくやっていることがあります。彼らは価格帯の範囲にわたってモデル能力の範囲にわたってオンタップでインテリジェンスを提供しています。それは異なるタスクを異なる推論深さにルーティングすることを可能にします。

だからクイック分類にはGemini Flash、より重いタスクには3.1 Proライトモード、困難な推論問題には最大思考の3.1 Pro、持続的なエージェント的作業にはOpus 4.6、より大きなコンテキストウィンドウでより安いものにはSonnet 4.6です。

すべてのハイパースケーラーがこの連続体を異なる方法で扱います。私はGoogleが利用可能なモデルの広い範囲とトークンあたりの魅力的な価格ポイントで素晴らしい仕事をしていると思います。

モデルルーティングスキル、どの問題タイプがどの価格でどのモデルにマッピングされるかを知ることは、今や競争優位であり、率直に言ってそのスキル曲線がコストごとにどう機能するかを理解することも、Cスイートだけでなく率直に言って取締役会にとっても戦略的必須事項です。

エグゼクティブへの戦略的視点

これはあなたのビジネスにおける知能のコストになりつつあり、モデル景観が差別化するにつれてより価値が高くなります。そしてもしあなたがエグゼクティブなら、さらにズームアウトする必要もあります。AI能力は遍在的になりつつあります。

それは顧客とのインタラクション、内部ワークフロー、製品開発、競争的インテリジェンスに織り込まれつつあります。蒸留の景観は、床が上昇していることを意味します。平凡なモデルでさえ、日常的なタスクを非常に合格的に処理できるようになります。

でも天井は差別化にとって重要です。あなたのタスクは、作業に適した能力範囲を見つけ、それが安定していることを確認することです。能力が彼らから離れていくフロンティアから借りられているモデルの上に重要なワークフローを構築していないことを確認してください。

安定性は、直接的にか、真に独立して大規模にトレーニングされたモデルを持つプロバイダーを通じてか、フロンティアアクセスを意味します。

見てください、大きな絵は地政学が見せるよりも単純です。AI能力は水のようになりつつあります。すべての亀裂を通じて浸透します。輸出規制、アクセス制限、検出システム、行動フィンガープリンティング。

これらはダムと堤防ですよね。機能します。意味のある摩擦を課します。時間を買います。でも後ろの圧力は減少していません。すべての能力獲得とともに増加しています。なぜならすべての能力獲得が抽出の価値を増やし、相対的なコストを減らすからです。

このコンテキストにおけるAnthropicの開示が重要なのは、それが独自に中国の問題を明らかにするからではなく、中国的特性を持つ普遍的なダイナミクスを明らかにするからです。特定の特徴、政治的検閲トレーニングデータ、国家支援研究所への接続、地理的アクセス制限の回避、これらは中華人民共和国のコンテキストに特有です。

でも基礎となる経済的力、独立した開発ではなく抽出を通じてフロンティア能力を獲得することの驚異的なROI、それは地球上の誰にでも適用されます。

だからその世界で、何にしがみつくべきでしょうか。私は3つのことを提案します。

第一に、フロンティア能力が漏洩することを想定してください。質問は速度であって、可能性ではありません。すべての保護はスピードバンプであり、スピードバンプは重要です。なぜなら能力曲線は指数関数的だからです。現在の進歩率での3ヶ月のエッジは本当に意味があります。あなたのスピードバンプに投資してください。

第二に、蒸留されたモデルは、ベンチマークが捕捉しない方法で、最も価値の高い使用事例にとって最も重要な方法で、フロンティアモデルよりも体系的に悪いです。エージェント的作業における性能の影は大きく、成長していて、本当に測定されていません。モデルを評価するとき、汎化性をテストする必要があります。ベンチマークだけに耳を傾けないでください。私が説明するオフマニフォールドプローブはあなたの友達です。

第三に、能力の景観は、あなたのツール選択がこれまで以上に重要になるほど十分に差別化されました。どのAIを使うべきか。それは間違った質問です。これらのモデルがどう構築されたかと、それが実際の能力について何を意味するかについて今知っていることを考えると、どの問題に対してどのAIを使うべきか。はい。それが正しいものです。

よくルーティングする人々、表現の深さの真の理解に基づいて問題をモデルにマッチさせる人々、マーケティングコピーではなく、それらの人々は、すべてに一つのツールを使い、安いものを選ぶ人々をアウトパフォームします。

Anthropicがカーテンの角を引き戻して私たちに下にあるものを見せてくれたことに感謝します。でも私は彼らに同意しません。これは主に冷戦としてフレーミングされるべきではないと思います。それは圧力勾配であり、圧力勾配は国境を気にしないのです。

そこでの幸運を祈ります。

コメント

タイトルとURLをコピーしました