ルカンはLLMが行き止まりだと発言し、そしてMetaがベンチマークを改ざんしていたことを暴露した。その両方が重要である理由

AI研究
この記事は約20分で読めます。

AI業界における5つの重要な動きを分析する。OpenAIとAnthropicの医療分野参入はIPO戦略の一環であり、ヤン・ルカンのMeta退社とLLM限界論の主張は業界の根本的な方向性に疑問を投げかける。物理AIとロボティクスでは、ファウンデーションモデルの進化により実用化が現実味を帯び、学習データの枯渇は企業の実務データが新たな価値を持つことを示唆する。Claude CodeとChatGPT 5.2による開発能力の飛躍的向上は、AI活用の転換点を示している。

LeCun Said LLMs Are a Dead End—Then Revealed Meta Fudged Their Benchmarks. Both Matter - Here's Why.
My site: Story:

AI業界で本当に重要な5つの出来事

毎週私は何時間もかけてAIで実際に何が起きているかを追跡しています。見出しではなく、その下で起きている変化を追っています。先週は200以上のニュースに目を通しましたが、その中で本当に重要だと思うのは5つです。今からその5つについてお話しします。まずは医療競争から始めましょう。

OpenAIとAnthropicの医療分野進出の真相

OpenAIとAnthropicが実際に何をしたのか、報道が完全に見逃しているポイントをお話しします。OpenAIは2つの製品を発表しました。1つ目は消費者向けのChatGPT Healthで、健康データを同期して自分の体について質問できるものです。これは広く報道されました。そして2つ目は企業向けのOpenAI for Healthcareで、HIPAA準拠のAPIです。病院システムとの統合機能があり、大規模運用を想定して設計されています。

Anthropicは5日後にClaude for Healthcareを発表しました。これはCMSデータベースや保険請求システムへのコネクタを備えています。表面的な大きな話は「AIが医療にやってくる」というものです。確かに消費者側の話としては、チャット量から判断すると、消費者は定期的にLLMを使って健康問題について話していることがわかります。

ですから、これを最も簡単に解釈すれば、ChatGPTとClaudeの両方にとって防御的な動きだと言えます。なぜなら、個人の健康問題について消費者と話すなら、より高い注意義務基準を守らなければならず、それだけでこの製品投資を正当化できるからです。

しかし、ここには別の話があると思います。医療AI関連の失敗例は膨大で数多くあり、その結果として懐疑的に見たくなります。例を挙げましょう。IBM Watsonは数年前に腫瘍学製品を出しました。がん治療に革命を起こすはずでした。初期の結果は素晴らしいものでした。しかし2022年に部品ごとに売却されました。

GoogleのDeepMindはタンパク質折り畳みで素晴らしい仕事をしましたし、AIに触発された様々な薬が開発パイプラインにありますが、正直なところ、まだ市場に出て大ヒットになったものはありません。数百万人に届いたものはまだありません。

ですから、AIが医療製品を発表したときに自然に浮かぶ疑問は「今回は何が違うのか」ということです。ここで誰も語っていない話をしましょう。両社とも株式公開市場に近づいており、消費者向けチャットボットや仕事用チャットボットとは少し違うストーリーが必要なのです。

医療は非常に説得力のあるIPOストーリーを提供します。「これは早すぎるのでは」と思うかもしれません。どちらの企業もIPO日程を発表していません。なぜ今IPOを気にする必要があるのでしょうか。しかし私はこう反論します。上場企業の物語の一部となり得る成功した医療ストーリーが欲しいなら、早く始めなければなりません。

病院との既存のパートナーシップが必要です。機能している医療データが必要です。何百万人もの消費者が医療のためにあなたの製品を使って恩恵を受けていると話せる必要があります。そのような物語を構築するには時間がかかります。今始めるべき時なのです。

そして、その物語がどれほど力を持つか考えてみてください。規制された業界にいるということは、ビジネスの真剣さを示唆します。HIPAA準拠は技術的な洗練度を示します。病院とのパートナーシップは企業としての信頼性を示唆します。投資家にとって良いストーリーです。アメリカでは医療費の増加があり、投資家はそれを収益の増加と読み取ります。

ここで注意したいのですが、AnthropicとOpenAIが発表した医療製品が単なる空約束だと言っているわけではありません。実際には逆のことを言っています。例えば、Anthropicが発表した事前承認のユースケースについて考えてみましょう。医師が治療承認のために保険会社に書類を提出するというものです。これは年間300億ドルの管理負担です。これは本物のビジネスです。

多くのことが同時に真実でありえると思います。医療ストーリーは、これらの主要なモデルメーカーがAIからの医療アドバイスに対する既存の消費者需要に応えているという話でもあり、同時に経済の中で成長している支出カテゴリーに自らを位置づけているという話でもあります。彼らがいずれ公開投資家を獲得し始めるときに、このポジショニングが活きてくるでしょう。

おそらく2026年後半か2027年後半かもしれません。IPO日程はまだわかりません。戦略的に考えるなら、より大きな疑問は、両方の主要なファウンデーションモデル企業が直接競争する場合、医療AI市場構造にどうなるかということです。これは医療に限らず考える価値があります。なぜなら、他の分野でも同じことが起こると思うからです。

すべての医療AIスタートアップは、今まさに「作るか買うか」の計算を書き直すことになりました。病院システムが医療AIスタートアップと提携するのはなぜでしょうか。ソースから直接、HIPAA準拠のClaudeやChatGPTを入手できるのに。

私たちが学んでいることの1つは、AIがコードを書くことを簡単にしているため、AIは既存のプラットフォームに新機能を構築することを簡単にしているということです。AnthropicとChatGPTの両方が、程度は異なりますが、そのような配信力を持っている場合、成功パターンを見つけたとき、構築したい何かを見つけたとき、彼らは非常に迅速かつ効率的にその分野に参入できるのです。

そして、その分野の小規模スタートアップにとって非常に厄介な問題を引き起こします。これは大企業の問題というより、スタートアップの問題です。ファウンデーションモデル企業はスタックの下層に移動し、垂直アプリケーションに進出しています。彼らはスタートアップが構築するAPIであることに満足していません。興味深いユースケースを見つけたら、アプリケーション収益を得たいのです。

ですから、どの業種でもAIスタートアップを構築している場合、自問すべきことがあります。OpenAIが同じ基盤モデルと彼らの配信力を持つ製品を発表したら、私たちはどうなるのか。その時点での差別化要因は何か。

医療発表は部分的には医療についてですが、垂直統合についても語っています。そして、公開市場で魅力的になるストーリーを語り始めることについてだと思います。そして、それが見落とされていると思います。

ヤン・ルカンのMeta退社が意味するもの

2つ目の大きなニュースは、ヤン・ルカンの退社が実際に何を意味するかです。ルカンは10年以上在籍したMetaを去り、その際に多くのことを語りました。文脈を説明すると、ルカンはジェフリー・ヒントンとヨシュア・ベンジオと並んで深層学習革命の功労者とされる3人のうちの1人です。彼は中間管理職ではありません。この分野の創設者の1人なのです。

彼はFinancial Timesのインタビューで本音を語りました。まず、MetaがLlama 4のベンチマークを改ざんしていたことを確認しました。スコアを水増しするために異なるテストで異なるモデルバリアントを使用していたのです。何を契約したのかわかりませんが、彼は気にしないことに決めたようです。

第二に、マーク・ザッカーバーグは基本的に、ベンチマークが改ざんされていたことを発見した後、Llama 4リリースに関わった全員に対する信頼を失い、GEI組織全体を傍流に追いやったと語りました。外から見ているとこれは理にかなっています。だから新しいリーダーシップを連れてきたのです。だから新しい人材を連れてくるために大規模な採用をしたのです。

しかし最も重要なのは、ルカンがLLMは行き止まりであり、超知能には至らないと言い続けていることです。彼は以前からこれを言い続けており、これはシリコンバレーにおける最も根本的な意見の相違の1つです。時々これを見直す価値があります。なぜなら、誰かが大きく間違っているはずだからです。

ルカンが時代遅れで、LLMにスケーリングの壁がなく、AGIに向かって進み続けるのか、あるいは彼が正しくて、AIやスケーリングに多額の資金を注ぎ込んでいる多くの人々が、やりすぎだと気づくことになるのか。ダリオ・アモデイのような他の創設者たちは、スケーリングの壁の頂上をまだ見ていないことについて非常に正直です。

しかし定義上、それが現れるまで見ることはできません。ですから、これは多くの非常に賢い人々、確実に私やあなたよりもはるかに賢い人々が、実際にぶつかるまで誰も証明できないことについて議論している例です。

そして本質的に、ルカンはこう言っているのです。根本的にLLMは世界モデルを構築できない。それらは知性に必要な属性を持っていない。私は自分のスタートアップを設立するつもりで、それは知性への異なる道に取り組むことになる。

これがイリヤ・サツケヴァーを思い起こさせるなら、その通りです。しかし彼がその道を行く一方で、私たちはエージェントがますます長いタスクを実行することで成果を上げ続けているのを見ています。このビデオの後半で新記録について報告します。

そして、LLMのスケーリングに終わりが見えません。汎化のギャップも、成果のペースも見えません。正確に言いたいのは、LLM全体としてはまだ脆弱な汎化能力を持っているということです。人間ほどうまく汎化できませんが、どんどん良くなり続けています。そしてギャップを埋めています。

ですから、誰が正しいかわかりません。世界で最も賢い人々の間で大きな戦いがあり、私たち全員が傍観席に座って、今後数年間で誰が正しいかを見極めることになるとお伝えしています。AGIに到達することについて誰が正しいかを見るのに、あと1、2年しかかからないからです。それが今生きていることのエキサイティングなことの1つです。

物理AIとロボティクスの転換点

次のストーリーは物理AIについてです。明らかに、NvidiaはCESでReubenプラットフォームを発表しました。先週それについて話しました。同じ週に、Google DeepMindとBoston Dynamicsが、GeminiファウンデーションモデルをAtlasロボットに搭載するパートナーシップを発表し、最初の展開はハイエンドAI工場で行われます。

同時にNvidiaは、自動運転車用のオープンAIモデルのAlfa NIOファミリーも発表しました。Open AIとは会社を意味するのではなく、文字通りオープンモデルを意味します。そしてジェンスン・フアンは、良いフレーズを見つけるのが好きで、とても上手なのですが、「ロボティクスのChatGPTモーメントが来た」と言いました。これは素晴らしいまとめだと思います。

ロボティクス側で何が構築されているのか、少し掘り下げてみましょう。なぜなら、現れた豊富な発表から完全に明確ではないからです。過去数年間、AIのストーリーは言語モデル、チャットボット、コーディング支援、テキスト生成などについてでした。

変わったのは、ロボットが「もうすぐ来る」から「今ここにある」に変わったのは、これまで一緒に機能していなかった3つのテクノロジーの収束です。第一に、ファウンデーションモデルが本物のマルチモーダル推論ができるようになりました。

Claude、Gemini、ChatGPTを使えば、画像を見て何が写っているかを理解し、空間関係について推論し、計画を立てることができます。これは、過去に多くのロボットが苦労してきた知覚と推論のレイヤーです。

第二に、シミュレーション環境が今や非常に優れています。NvidiaのOmniverseや類似のプラットフォームは、実世界のパフォーマンスに転移する合成シナリオを作成できます。Omniverseは昨年出たときは大ヒットではありませんでしたが、方向性としてはデータ問題を解決するためにどこに行けるかを示していると思います。

なぜなら、同様の民間企業環境で、Nvidiaではありませんが、Teslaで非常に成功したデータ問題の解決策を見てきたからです。Teslaは膨大な量の訓練データを使用して自動運転を解決しました。

第三に、エッジ推論チップが登場し、サーバーからではなくロボット上で実際のモデルを実行できるほど強力になりました。これは大きな技術的ブレークスルーです。今年CESで発表されたNvidiaのJetson T4000は、同じ電力範囲内で前世代の4倍のAI計算能力を提供します。

そのため、ロボットは意思決定をするためにホームに電話をかける必要がそれほどありません。さて、Nvidiaはこのすべての中心にいます。ご想像の通りです。そして、これが彼らの戦略的プレイです。彼らは物理AI用のフルスタックを構築しています。データセンターのトレーニングインフラストラクチャ、考えてみてくださいReuben、からエッジ推論、考えてみてくださいJetson、シミュレーション、Alpa IOのようなオープンモデルまで。

彼らは、ロボットがBoston Dynamicsから来ようと、中国メーカーから来ようと、Teslaから来ようと、私たち全員がロボットを構築するプラットフォームになりたいのです。

Boston Dynamicsとのパートナーシップは特に興味深いものです。なぜなら、明示的にデータ収集の取り組みとして説明されているからです。Gemini搭載のAtlasロボットはハイエンド工場で働き、それらの展開からのデータが次世代のモデルをトレーニングします。

これはロボティクスにとって興味深い製造フライホイールの始まりです。なぜなら、ロボットを展開し、より良いモデルをトレーニングするためのデータを収集し、より良く、より速いロボットを展開できるようになるからです。それは速く加速します。

戦略的な質問は、物理AIが言語モデルと同じスケーリングダイナミクスに従うかどうかです。なぜなら、もしそうなら、具現化されたデータを蓄積する先行者は複合的な優位性を持つことになるからです。

そしてもちろん、Nvidiaはインフラストラクチャレイヤーとしての地位を確立することで、どのロボット企業が成功しても勝つことになります。さて、常により難しい質問があります。物理AIは実際に今近づいているのか、それともこれは単なる別の偽りの夜明けなのか。

私はこの分野をしばらく見てきましたが、今回私を少し楽観的にさせるのはこれです。それはファウンデーションモデルの部分です。前世代のロボットは脆弱でした。なぜなら、知覚システムが過度にハードコーディングされていたからです。

私たちは今、はるかに柔軟な知覚システムを持っています。2025年12月と2026年1月の初期の兆候として、モデルがビデオから汎化し、自分でアクションを取る方法を学び始めることができるようになっています。

私たちは、ロボティクスを中心とするフライホイールが形成され始める最初の兆候を見始めている地点にいると思います。そして、2026年の多くのストーリーは、そのフライホイールの最初の1、2回転を実現する方法を見つけ出し、知識を蓄積し始め、2027年、2028年に向けてより良いロボットシステムを作ることができる企業についてになると思います。

実用的な意味としては、物理的な操作を伴う業界にいる場合、「ロボットが来る」から「ロボットは周りにいて、いつロボットを導入して学習を始め、そのフライホイールを回し始めるかを考える必要がある」に物語を変える必要があるということです。

訓練データの枯渇と新たな価値

次のストーリーは、訓練データが枯渇しているということです。これは埋もれていました。見つけるのが非常に難しかったのですが、超重要だと思います。Wiredのレポートによると、OpenAIとHandshake AIという会社が、契約者に過去の雇用主からの実際の業務上の仕事をアップロードするよう求めています。

リクエストされる例には、Wordドキュメント、PDF、PowerPoint、Excelファイル、画像、コードリポジトリが含まれます。ちなみに、AIへのAIリークを心配しているなら、元従業員がドキュメントをリークすることをもっと心配すべきかもしれません。

契約者は独占的な情報と個人識別可能な情報を削除するように言われています。確かに、それが常に起こるとは思いません。このストーリーはほとんど注目されませんでしたが、戦略的に重要です。なぜなら、簡単に入手できる訓練データが枯渇していることを示唆しているからです。

公開インターネットはもはや有用ではありません。スクレイピングされました。本もスクレイピングされました。能力向上の次のフロンティアには、現在アクセス可能な形で存在しないデータが必要です。人々が仕事で作成する実際の成果物です。

それが何を意味するか考えてみてください。大規模言語モデルは、読まれることを意図して書かれたテキストで訓練されています。しかし、経済における価値ある仕事のほとんどは、広く読まれるために書かれていません。内部文書、プロジェクトファイル、分析スプレッドシートの中にあります。

それこそが、AIに知識労働を議論させるのではなく、実行させるデータです。そしてOpenAIは、本質的に契約者に過去の仕事をアップロードするために支払うことで、そのデータを取得しようとしています。これは力ずくのアプローチです。

明らかに法的および倫理的な問題を引き起こしますが、戦略的優先事項を明らかにしています。人々が実際にどのように仕事をしているかの最良のコーパスを組み立てる者は、仕事を実行できるAIを構築する上で大きな優位性を持つことになります。

そして、これはあの大きな物理AIストーリーにつながりますよね。ロボット訓練が難しかった理由は、知識労働が難しかった理由と同じです。関連データをアクセス可能な形で入手するのが難しいのです。だからこそ、ハイエンドAIとのこのパートナーシップが本当に重要なのです。

企業への示唆は、あなたの内部データがこれまでにない方法で戦略的に価値あるものになろうとしているということです。チームが作成する成果物、彼らが従うプロセス、それはAIシステムを改善したい誰かが欲しがる訓練データです。

そして問題は、その価値を自分でどのように捉えるか、あるいはファウンデーションモデル企業に漏れないようにどのように保護するかです。

Claude Codeと開発能力の飛躍

また、Claude Codeのストーリーはもっと注目されるべきだと思います。Claude Codeは12月からXで爆発的に広まり、1月にかけて、人々がトマトを育てることから家の配線まで、あらゆることをするためにClaude Codeを実行していることについて話す新興現象として登場しました。

Claude Codeの作成者であるBoris Churneyは、今週彼自身のワークフローを共有しました。彼は同時に5から10のClaudeインスタンスを実行します。専ら4.5 Opusを使用し、claude.markdownというファイルを維持しており、Claudeが犯すすべての間違いが恒久的なルールに変換されます。そのため、彼のClaudeは時間とともに良くなります。

単一のmarkdownファイルに、作業を提出する前にClaudeが確認すべき多くのルールを維持することで、Borisははるかに軽くClaudeを監督できます。彼はコーダーです。エンジニアです。ですから、Claudeが彼のために行っていることの多くはコーディングタスクです。

そのため、彼のルールの多くは、事実上、ClaudeのPRやエンジニアリングコード提出が成功するために通過しなければならないルールです。それらの個々の試みのほとんどは失敗するかもしれませんが、Borisが5つか10の並列Claudeインスタンスを設定して、定期的に更新されるルールセットに対して常にチェックするようにしているため、彼は少しリラックスして、構築したいものに集中し、Claudeが正しくなるまで反復させることができます。

これは、フロンティアがどれほど速く動いているかの例です。そして、さらに目を見張るような例をChatGPTから見つけました。今週、CursorのCEOであるMichael Truelyが、ChatGPT 5.2を使用してブラウザ、インターネットブラウザをゼロから構築したことを共有しました。

待ってください、それは丸1週間中断されることなく実行され、300万行のコードを生成しました。HTMLパース、CSSカスケード、レイアウト、テキストシェーピング、ピクセルをペイントする能力、カスタムJavaScript VMを備えたRustのレンダリングエンジンを生成しました。

さて、Michaelは正直でした。彼は「ある程度機能する」と言いました。シンプルなウェブサイトは迅速かつほぼ正しくレンダリングされます。まだChromiumパリティには近くありません。Chromiumは有名なことに、ChromeやYブラウザを動かすブラウザエンジンです。

しかし、ここで核心的なコンセプトを理解してください。ブラウザエンジンを構築することは、ソフトウェアエンジニアリングで最も難しいタスクの1つです。世界にはレンダリングエンジンが3つしかありません。Chrome用のChromium、Firefox用のGecko、Safari用のWebKitです。それぞれが数千人年のエンジニアリング作業を表しています。

今、1週間実行された単一のエージェントによって書かれた4つ目があります。Truelyは明確です。いくつかの問題があります。まだ実際のブラウザに匹敵していませんが、それこそがこれを信頼できるものにしているのです。

私たちはここで例を選り好みしようとしているわけではありません。3ヶ月前には考えられなかった時間枠で、非常に複雑なシステムの機能的なバージョンを生成したエージェントについて話しているのです。

そして、これがClaude Code爆発の背後にある大きなストーリーです。人々はそれをClaudeがどうこうと考えていると思いますが、私は一歩引いて、4.5 OpusとChatGPT 5.2で見られる能力が、構築者にとって転換点を超えたことに気づいています。

私たちが見ている興奮はツール駆動ではありません。これらのツールが私たち全員が一緒にアンロックすることを可能にしている能力についてのものです。だからこそ、私はChatGPTとClaudeの両方からのストーリーを意図的に強調したのです。

Claude Codeの熱狂を取り巻く大きなストーリーは、それがClaude Codeに符号化されているのではないということだと思います。これは実際には物事を構築する能力と、それがいかに急速に転換したかについてのものです。

繰り返しますが、ブラウザはChromeと競争しません。Chromeと競争することを期待しないでください。しかし、能力曲線がどこにあるかの感覚をつかんでください。

コーディングは非常に速く進歩しています。なぜなら、再試行が非常に簡単だからです。成功基準を確認するのが非常に簡単で、フィードバックループを実行するのが非常に簡単だからです。

2026年の大きな課題の1つは、フィードバックループが一貫しておらず、成功基準が残りの知識労働のようにより曖昧なドメインで、AIエージェントがどのように非常に速く進歩するかです。私のメールを手伝ってください。この状況を分析してください。これらはAIにとってコーディングタスクよりも複雑です。

今週、AnthropicはClaude Co-workをリリースし、残りの仕事のためのClaude Codeとして位置づけられています。それは2番目の課題にレーザーフォーカスしています。Claudeがファイルにアクセスし、アクションを実行し、複数ステップのタスクを完了できるサンドボックス環境です。

私はそれについて完全なビデオを作りました。それが機能するかどうかは、ユーザーが非コーディングタスクの成功基準を定義できるかどうかにかかっています。それは難しいです。なぜなら、ユーザーは多くの場合、自分自身をそれほど明確に表現できないからです。

Claudeの名誉のために言うと、Claude Co-workでテストを行ったときに気づいたのは、彼らがそのモデルに対してトレーニングと反復を行っているため、一般的な仕事のタスクがある場合、非常に有用な仕事を呼び出すために、それほど長くない一般的に正しい英語コマンドを使用できるということです。

つまり、もしあなたが「このデータを使って素敵なプレゼンテーションを作ってください」のようなことを言ったら、彼らはClaudeで十分なトレーニングを行っているので、典型的なClaude美学スタイルのように感じられても、かなり良いプレゼンテーションにたどり着くことができます。

励みになることは、このビデオの前半で見たように、AI企業は実際の企業からの実際の成果物を使用してこれらのモデルをトレーニングしているため、まともな成果物を取り戻すために、やや曖昧な英語を使用できるということです。

それでも、優れた仕事をしたい人々が、プロンプティングをうまくなり、アウトプットを定義し、知識労働における正しさを定義し、Claude Co-workのような新しいツールから並外れた結果を得る余地が残されています。

Claude Codeモーメント全体の大きなストーリーは、これらのモデルが新しい能力レイヤーに転換し、人々は非常に興奮しており、私たちは次の大きな課題を試そうとしているということだと思います。Claude Co-workがその最初の兆候であり、それはAIに知識労働に本当に取り組み始めることです。

2026年の転換点

では、全体として私たちはどこにいるのでしょうか。AI業界は過去3年間、能力セットを構築することに費やしてきました。モデルはどんどん大きくなり、ベンチマークは改善し続け、デモはますます印象的になりました。その能力が価値に変換されるという前提がありました。より良いモデルがより多くの製品と収益を意味するということです。

その前提は今年試されています。今年、医療分野に参入することが重要かどうか、Claude Co-workが機能するかどうか、物理AIに参入することがスケールするかどうかを見極めています。そして、AI業界全体として、過去数年間に行ったすべての実験の中から、何が複合的で価値があるのかを発見しています。

そして、ユーザーとして、構築者として、私たちは何が本当にここに価値があるのかを見極める一部になるつもりです。ですから、1つだけお伝えするとすれば、物理的な仕事に少しでも関わっているなら、ロボティクスを念頭に置く必要があります。

そして、ソフトウェアに少しでも関わっているなら、Claude Co-workで遊ばなければなりません。その両方が、私たち全員が参加できる複合的な部分に関係する大きなストーリーです。

さあ、楽しんでください。構築を始めましょう。それが今週のニュースです。

コメント

タイトルとURLをコピーしました