Anthropic「我々のAIは全てのホワイトカラー業務を自動化できるツールを開発した」私「本当に?」

Anthropicが発表した新ツール「Claude Co-work」は、ホワイトカラー業務の自動化を謳い4200万回再生という驚異的な反響を呼んでいる。このツール自体がClaude Opus 4.5を搭載したClaude Codeで開発されたことで、AI業界の予測「2026年までに全てのナレッジワークが自動化される」という主張に注目が集まる。しかし実際の使用経験から見えてくるのは、モデルが時に天才的な洞察を示す一方で基本的なタスクで失敗する「脆弱性」である。Oxford Economicsの最新データは、AI導入による大規模な失業は現時点で確認されていないことを示している。LLMは複数レベルの「理解」を持ち、深いアルゴリズム的理解と表面的な記憶を状況に応じて使い分けるという研究結果が、この矛盾を説明する。過度な楽観論と悲観論の中間に真実があり、AIツールは確かに生産性を向上させるが完全な自動化にはまだ到達していないという現実的な評価が求められる。

Anthropic: Our AI just created a tool that can ‘automate all white collar work’, Me:

A new tool, with code written *only* by AI, has gone omega-viral: Claude Cowork. But is the hype justified? What do the ...

Claude Co-workの登場と「全自動化」の主張
実際の検証:サッカークラブのデータ課題
現実的な評価:過度な期待と完全否定の中間
労働市場への実際の影響データ
LLMの「理解」の多層性と脆弱性の理由
今後の可能性と中道のアプローチ

Claude Co-workの登場と「全自動化」の主張

主要AI研究所の1つのCEOは昨年、今頃までにその企業が書くコードの100%が自社のAIモデルによって生成されるようになると予測していました。次は2026年内に他の全てのナレッジワークも同様になるとのことでしたが、Anthropicがここ数日でリリースした新しいツールは、まさにその予測を裏付けるものとなっているようです。それがClaude Co-workです。

このツールはコーディング以外のタスクを自動化する能力で4200万回という驚異的な再生数を記録しただけでなく、ツール自体が最新のフロンティアモデルであるClaude Opus 4.5を搭載したClaude Code内で作られたものなのです。これによって、基本的に全てのコードが今やAIによって書かれるという予測が正当化されたように見えます。では、待ってください。もしその予測が正しかったのなら、Anthropicやダグラス・シュルトのような人たちが言う「2026年、つまり今年中に全てのホワイトカラー業務の自動化も同じように実現する」という主張も正しいということなのでしょうか。

来年最も顕著になることは、他の形態のナレッジワークが、ソフトウェアエンジニアが今感じていることを経験するようになるということです。彼らは年初にはコードの大半の行を自分でタイプしていたのが、年末にはほとんどタイプしなくなりました。私はこれを全ての形態のナレッジワークに対するClaude Code体験と考えています。また、おそらく継続的学習も満足のいく形で解決されると思います。

私はClaude Codeをかなり長い間使ってきましたし、新しいClaude Co-workも使ってみました。そして私にとって、これらの予測は正しくありません。しかし、多くの人が赤ちゃんを浴槽の水と一緒に捨ててしまい、かなり驚異的な生産性の向上を見逃してしまうかもしれません。

実際の検証:サッカークラブのデータ課題

ですから、私たちが得られる利益を過小評価すべきではない理由をお見せしようと思います。そして、もう少し深く掘り下げたい方のために、最後に「なぜ」という部分を説明します。なぜモデルは大規模なコードベースの中の小さなバグを見つけたり、私のために力強い詩を書いたりといった天才的なことができる一方で、依然として基本的なタスクで失敗するのでしょうか。いえ、「orange」という単語に「a」が何個あるかという話ではありません。

驚くべきことに、GPT-5.2はまだそれを正しく答えられませんが。私が言っているのは、なぜモデルは「トム・スミスの妻はメアリー・ストーンである」と記憶しているのに、「メアリー・ストーンの夫はトム・スミスである」と推論できないのか、ということです。そしてこれらが、ホワイトカラーであろうとなかろうと、あなたの仕事にとって何を意味するのでしょうか。最新のデータは何を示しているのでしょうか。

まず当然ながら、Claude Co-workについて少し触れておきましょう。どうやら一部の人々はこれをAGIと呼んでいるようです。これは当然、適切な足場を与えられた基盤モデルであるClaude Opus 4.5がすでにAGIであるという、多数のバイラル投稿や記事に続くものです。実際、著名なコメンテーターの長いリストがこの見方を持っています。

こうした投稿は当然ながら、2つの非常に絶望的な反応につながる可能性があり、私はどちらも勧めません。1つは、全てが嘘で誇大広告屋ばかりだと。これらのツールは常に幻覚を起こし、ほとんど役に立たないという反応です。そして2つ目は、これらはAGIかもしれず、あなたは単に見逃しているだけだと。私たちはこれらの使い方を理解できていない。私たちは多くのことを見逃しているからキャリアは終わりだという反応です。

このビデオが皆さんを中間の道へと導くことを願っています。つまり、大きな生産性の向上は得られるが、まだそこまでは到達していないということです。背景として、私はClaude Codeを非常に長い間使っており、Co-workはこの48時間使っています。

誇大広告を少し否定するために、もし私が新入社員にこのタスクを与えたとしましょう。このサッカークラブの過去5シーズンそれぞれについて、今日の日付時点でのリーグ順位の比較チャートを作成してください。PowerPointとして私のデスクトップに追加してください。ああ、それと明確にすべき質問があれば聞いて、このタスクにどうアプローチするかの計画を共有してください。

私なら、そして皆さんも同意するかどうか教えてほしいのですが、彼らが一日の終わりに「その質問に明確な答えを与える情報源を見つけられませんでした」と言うか、関連するPowerPointを作成しているかのどちらかを期待するでしょう。

ここでCo-workのタブと、それが提示する質問の種類が見えますね。実際に素晴らしい計画を提示してくれました。私はすぐに承認しましたし、正直なところそれほど時間もかかりませんでした。結果は、視覚的にかなり印象的で、ほぼ許容できるものだったと言えます。明らかに、適度に難しいタスクを選ぶ必要があります。簡単すぎるなら自分でやればいいわけですから。これが結果でした。

ちょっとした問題があります。私は2023年1月と2025年1月の日付と、このクラブのリーグ順位の2つをチェックしたのですが、両方とも間違っていました。手動でチェックしたところ、約5分でBBCとこの11v11というサイトという2つの他のデータソースを見つけました。両方とも2025年1月13日時点でストックポートは3位ではなく7位だったと言っています。

ちなみに、このCo-workingのAGIは、信頼できる情報源が見つからなかったという注釈を要約に付けませんでした。もちろん、Claude Opus 4.5を搭載した伝説的なClaude Codeから何百ものそうした例を挙げることもできますが、それはあまり面白くないし、皆さんにも不公平でしょう。コードベース全体の文脈を見なければなりませんから。

現実的な評価:過度な期待と完全否定の中間

ただ、皆さんにこれらのバイラル投稿を見て、「先週リリースされたばかりのツールに全財産を費やして追いつかなければ、ホワイトカラーの仕事で完全に失敗する」と思ってほしくないのです。そしてモデルが間違いを犯したら、自分が愚かなんだと。何か間違ったことをしたに違いないと思ってほしくありません。

しかし、反対の間違いも犯してほしくありません。つまり、これらのツールを完全に無視して、生産性を全く高められないと考えることです。真実はその中間にあります。見てください、Claude Codeの主任開発者でさえ、Claude Co-workの全てのコードがClaude Opus 4.5によって書かれたと言った後の返信で、こう明確にしています。「介入ゼロではありませんでした。私たち人間が計画し、設計し、Claudeとやり取りする必要がありました」と。

そして、私の超賢い視聴者の皆さんには、重要な質問が浮かびます。Claude Codeに下書きをさせて、それから再作成させて、テストして失敗して再作成させて、ようやく正しくさせるのと、人間が最初から自分でやるのと、どちらが速いのでしょうか。コーディングであれ、他のホワイトカラー業務であれ。

ありがたいことに、2025年10月のこのOpenAIの論文から重要な手がかりがあります。盲検での人間による評価を使うと、私たちはすでにその転換点を超えています。モデルに何度も何度も試させて、人間がレビューと編集のために介入するだけの方が、人間が最初から全部やるよりも、生産性の倍増効果が得られるのです。

この論文は数十のホワイトカラー産業をカバーしており、私はこれについて完全なビデオを作りました。ですからあまり深くは掘り下げませんが、私にとってこれが本当の転換点です。そして、はい、私自身のコーディングでもそれを経験しています。ほぼ毎日やっていますが、多くの愚かで、時には危険な間違いを犯しますが、赤ちゃんを浴槽の水と一緒に捨ててはいけません。

私のストックポートのPowerPointを見てください。デザインは本当によくできていて、他のほとんど全ての事実は正しいのです。ですから、数字をいくつか編集するだけで、ゼロから作成するよりも短時間でまともなプレゼンテーションができます。

少し技術的な詳細です。Claude Co-workはMaxティアでのみ利用可能です。最低90ドルまたは100ドルで、Maxのみです。これはMac OS、Windowsではありません。Mac OSです、Windowsではありません。しかしMaxのみで、ClaudeのProティアでもありません。

労働市場への実際の影響データ

ただし、この生産性の向上は最新のモデルの一部でのみ当てはまることに注意してください。私たちのような愛好家が試す可能性が最も高いもので、一般の人々はそれほどでもありません。また、GPT-5.2 ProやClaude Opus 4.5のようなモデルは価格によって大きく制限されています。

もし私たちがその転換点と、最新のモデルを最適な足場で使っている人がいかに少ないかについて正しければ、現在のAIの生産性と労働市場への影響は比較的限定的であると予想されます。そして広く引用されているOxford Economicsの2026年1月7日の報告書によると、データは何を示しているでしょうか。私にとっては、まさにそれを示しています。

はい、新卒者はやや高い失業率に直面していますが、それは他の歴史的傾向から外れているわけではありません。これを聞いている皆さん、新卒者の失業率は2015年や2010年のような、かなり最近の過去においてもっと高かったのです。著者たちは、このグラフをズームインすると、昨年の3月から9月にかけて実際にはわずかな下降傾向があったと指摘しています。

著者たちは言います。「私たちは、AIが今後1年か2年で米国や他の地域で失業率を大幅に上昇させるとは予想していません」と。これは、AIから人間の仕事への影響が全くなかった、因果関係のある影響すらなかったという意味ではありません。例えば、AI採用からの簡単な成果が最も期待できるセクターは、新技術を試す動機が強いと彼らは言います。

カスタマーサービス業務やPlerのような企業を考えてみてください。これに資金を提供するため、彼らは続けます、賃金を含む事業の他の部分の予算が削減されたかもしれません。まあいいでしょう。しかし、大量解雇や差し迫った仕事の黙示録についての多数の見出しはどうでしょうか。

著者たちは、もしAIがすでに時代遅れの労働者の大量解雇につながっているなら、労働生産性の指標も増加しているはずだと言います。同じ産出量がより少ない労働者で生産されるわけですから。生産性に影響を与える循環的要因は多くありますが、ティール色の2025年に焦点を当てると、私は色覚異常ですが、おそらくティール色だと思いますが、労働生産性の1時間あたりの成長が以前の年や期間と比べて著しく高いわけではないことがわかります。

実際、2025年の生産性成長は、例えば2000年から2007年の各期間よりも小さく見えます。では、なぜ多くの企業がAIのために仕事を削減していると宣言するのでしょうか。著者たちは、弱い需要や過去の過剰雇用などの他の否定的要因ではなく、AI使用の増加に雇用損失を結びつけることは、投資家にとってよりポジティブなメッセージを伝えると言います。

多くの企業や個人がLLMがどれほど幻覚を起こすかを発見したとき、昨年の半ばに向けて採用とテストの最初の波は少し落ち着きました。しかし最近、より新しい上昇傾向があります。人々は当然、自分のユースケースに対して異なるモデルを比較し始めています。Google DeepMindのCEOであるデミスが言ったように、着実な進歩を遂げていて、ChatGPTの生成AI全体に占めるシェアがかなり著しく低下していることを指摘しています。

それが、私が設計したアプリ、lmconsil.aiの背後にある論点です。そこでは、すべてのフロンティアモデルの答えを素敵でカスタマイズ可能な形式で比較できます。実際、モデル同士でチャットさせることがここで非常に人気のある機能になったので、セミコロンでモデル間の自己チャットを開始できるショートカットを作りました。

ちなみに、もし大量の解雇が来るのを見たら、できる限り皆さんに警告しますが、私はダリオ・アモデイ側というよりも、ジェンスン・フアン側に近いです。彼は数日前のインタビューで最近こう言いました。仕事の目的を、その仕事内の個別に自動化可能なタスクの連続と間違えないでください。

サッカーの解説者を例に取りましょう。その解説者の声を自動化できます。その解説者による戦術分析を自動化できます。すべてをより速く、より安く行えます。しかし、サッカー解説者の究極の目的は、視聴中にあなたを楽しませ、試合に引き込み続けることだと言えるでしょう。そしてその目的は、AIモデルによって最もよく果たされるとは限りません。

LLMの「理解」の多層性と脆弱性の理由

そして、木を見て森を見ないというのが、このビデオの第2部に移る理由です。モデルが特定の状況で脆弱である背後にある「なぜ」です。なぜ彼らはある瞬間IQ200のように見えて、別の瞬間IQ50のように見えるのでしょうか。

今週、私はこのトピックについての一連の論文を読んでいますが、おそらく私のお気に入りは、ちょうど6日前のこれです。もし皆さんがLLMの背後にある「なぜ」に惹かれるタイプの人なら、スポンサーについて簡単に触れておきます。それはMATSプログラムで、2026年夏のプログラムへの応募締め切りが今からわずか4日後です。

ご存知かもしれませんが、MATSは、整合性のとれていないAIモデルからのリスクを減らすという、おそらく世界で最も人材不足の問題の1つに取り組む研究者を見つけ、訓練しています。彼らの卒業生がMeta、Anthropic、DeepMindなどの場所で働くようになったことで、皆さんは彼らに馴染みがあるかもしれません。もちろん、他の多くの場所でもです。

私の推薦基準を満たしていることからもお分かりのように、このプログラムには世界クラスのメンターシップ、給付金、計算予算、そして全額費用補助も含まれています。説明欄の私のリンクをチェックしてみてください。

さて、LLMがなぜそれほど脆弱に見えるのかという具体的な質問に戻りましょう。信じられないほど複雑なコードベースをナビゲートして微小なバグを見つけ出す一方で、2日前のあるユーザーによると、Claude Co-workがある男性のデスクトップから無作為に11GBのファイルを削除したりするのはなぜでしょうか。なぜそんなことをするのでしょうか。

簡単に言えば、大規模言語モデルには複数のレベルの引用符付きの「理解」があるからです。しかしまず、不気味な考えをお伝えしましょう。私たちは英語で「understanding(理解)」という言葉が何を意味するのかさえ知りません。何を示すかは知っていますが、私たちは何の「下(under)」にいるのでしょうか。もし「under」の接頭辞が通常の「下」という意味でないなら、それは「undergo(経験する)」や「under the circumstances(状況下で)」の「under」のようなものなのでしょうか。

「understand」という言葉の語源の最良の推測は、何か遠くにあるのではなく、アイデアの間や存在につながったものの中にいるということのようです。繰り返しますが、初期の人間は「understanding」が何を意味するのか完全には理解していなかったようです。何かの存在の中にいるという感じです。

そして「comprehend(理解する)」のような同義語でさえ、本質的に何かを「grasp(つかむ)」ことを意味します。しかし、なぜ何かを持つことやつかむことが、論理的に、知的にそれを「get(得る)」することを意味するのでしょうか。しかし、「intelligence(知能)」という言葉の語源は、物事の間で選択することです。

ですから、何かの存在の中に立つこと、物事の間で選択すること、物事を把握することについてのこの曖昧な概念の集合があるとすれば、理解について完全に直感的な定義を持っていないのも不思議ではありません。そしてLLMに理解を帰属させるのに苦労するのも不思議ではありません。

ベックマンとクアオスのこの論文では、理解の3つのカテゴリーを示しています。単純な概念的理解、つまり実体の多様な現れの間に結びつきがあることを単に認識すること。それだけです。2つのものの間の結びつきを見つけるだけです。

次に第2段階、世界の状態または偶発的な理解。これらのことが、特定の状況で特定の時間にのみ真実であったり結びついていたりすること。そして究極のもの、私が他のビデオで新しい関数を効率的に導出すると説明したもの、それが原理的な理解です。多様な事実の配列を統一する基本的な原理やルールを把握する能力です。

時間があまりない方のために、この論文からのTLDRは、LLMは3つのティア全てにわたる、乱雑に混合されたメカニズムに分散された理解を持っているということです。ある意味で、彼らは単純さや簡潔さを目指していません。仕事を成し遂げるために、脆弱であれ深くアルゴリズム的であれ、どんな結びつきでも学習するだけです。

彼らは理解の第3段階に到達できます。世界から深いアルゴリズムやパターンを導き出すことができます。足し算のやり方を理解(grok)できるので、「これ足すこれは何になる」という記憶されたペアを削除できますし、詩で先を計画します。詩の新しい行が始まる前のトークンで、Claudeの中にはすでに韻が何になるか、その韻を達成するために必要な意味論を計画している回路があります。

研究者たちは、数値比較、多肢選択式問答のための計算可能な回路を発見し、さらに私が昨年の秋に議論したように、内省が必要であることを認識するための回路さえ発見しています。これらの回路が明確に定義され再利用可能であることを考えると、彼らが概念を理解していないと誰が言えるでしょうか。

しかしここに問題があります。LLMは脆弱な記憶にも依存しています。彼らは実用的に、世界の状態をモデル化することと、浅いヒューリスティックや経験則に依存することを、どちらの回路が損失を最小化し、予測をより効率的により良くするかに応じて切り替えています。

彼らは、時々自分を強制して教材を適切に学び、他の時には必要なものを単に記憶するだけの、怠け者の賢い子供のようなものです。しかし、彼らが時々記憶を使うという事実は、著者たちが知っているように、認識論的信頼の基礎を損ないます。何かを正しく理解したとき、彼らはその統一的なメカニズムに頼ったのでしょうか、それとも単に浅いヒューリスティックの群れに頼っただけなのでしょうか。

もちろん、認知心理学も、人間が同じことをすることを指摘しています。時々ショートカットに頼って、ローカルまたは国際的な舞台で心に浮かんだ最初のことを言ったりしたりします。他の人間は、これらのヒューリスティックを二重チェックし、問題について深く考えようとします。

ですから、LLMと話すとき、著者たちが知っているように、それは専門知識が大きく異なる巨大な委員会と話すようなものです。より高品質の回路が時々強化されますが、時にはより低品質の回路によってかき消されることもあります。

覚えておいてください、これらは次の単語やトークンを予測するために、簡単な方法でも難しい方法でも、できることは何でもする異星人の知性なのです。人間にとって、「トムの妻はメアリーです」という文は具体化された概念です。何十もの含意があり、特に「メアリーの夫はトム」であることも含まれます。

LLMにとって、「トーマス・スミスの妻はメアリーです」と初めて聞いたとき、それは単に、将来「トム・スミスの妻は」の後に何が来るか、あるいは「トム・スミスの妻は」のような並び替えを予測するために彼らの重みを更新するだけです。しかし彼らはこれらの概念を結びつけていないので、「メアリー・ストーンの夫は」という文がトムで終わると信じる理由がありません。

さて、他のさまざまな論文が議論しているように、この特定の弱点はデータ拡張によって解決できますが、それが私の要点ではありません。私の要点は、LLMは物事を非常に深いレベルで理解することもできれば、同時に非常に浅いレベルでも理解できるということです。

強化学習がこれらのより高い回路を強化できるという混合的な証拠があります。しかしこれや他の論文が示しているのは、LLMがほとんどの場合正しい答えを得るのに十分学習した後は、現在の方法では、より頻繁に正しい答えを得るためにさらに高い回路を学習する動機がはるかに少ないということです。

今後の可能性と中道のアプローチ

しかし私たちは異星人の風景を探索しています。今から1ヶ月後、2ヶ月後に、モデルをはるかに高い理解の平面に到達させるよう動機づける画期的な発見があるかもしれません。この論文によれば、それはモデルをほぼ混乱の状態に到達させることによって達成できる可能性があります。それは、複数の道が最も生産的に探求できるときです。

そして、彼らが多様な範囲の新しいモダリティで訓練されたら、どのレベルの理解に到達できるでしょうか。アメリカ政府は、AI研究所に米国の十数の国立研究所へのアクセスを与えています。そしてそれは、例えば天気予報でその価値が証明されているハイブリッドアーキテクチャに到達する前の話です。

とにかく、このビデオは長くなりすぎています。要点は、皆さんをこれら2つの極端の間のどこかに導くことです。AIモデルがあなたのワークフローで絶えず間違いを犯しても、あなたは一人ではありません。しかし、それらが全て誇大広告だと言うのも公平ではありません。

私にとって、それらの最大限の理解と使用による生産性は、その中間の場所から来ます。ご視聴ありがとうございました。素晴らしい一日をお過ごしください。