カル・ニューポートのAI論が衝撃的すぎる件

AIニュース
この記事は約40分で読めます。

AIライターのカル・ニューポートが公開した動画が物議を醸している。マット・シューマーによる「Something Big Is Happening」という記事を批判する内容だが、その主張は事実と正反対である可能性が高い。ニューポートはAIの進歩が2025年に減速したと述べているが、実際にはGPT-4から推論モデル(O1、O3など)への移行により指数関数的な性能向上が見られた。また、AIがコーディングに特化したのは狭い用途に過ぎないと主張するが、ソフトウェア産業は米国GDPの10%を占め、世界経済の半分以上がソフトウェアに依存している。さらに、AIが自己改善できないと断言しているが、Google DeepMindのAlphaEvolveやAnthropicの事例はそれを否定する。投資家が不安を抱えているとする一方で、OpenAIは史上最大級の1100億ドルの資金調達に成功し、AnthropicやOpenAIの収益は毎年10倍成長を続けている。ニューポートの分析は現実とかけ離れており、AI業界の実態を正確に反映していない。

Cal Newport AI takes are WILD...
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

イントロダクション

こんな展開になるとは思っていませんでした。実際には正反対なんです。事前学習のスケーリングが機能していた時期こそ、物事が本当に速く動いていた時代でした。GPT-2から3へ、そして3から4への飛躍は、目を見張るような進歩だったんです。彼が2025年に到達したと語っている時期というのは、実際には進歩が減速した時期なのです。つまり、あなたはここで進歩が止まったと考えていて、2025年以降は本当に進歩がなかったと思っているわけですね。

実際には大幅に減速しました。カル・ニューポートが言っているのは、GPT-2から3へ、そして3.5へのこの進歩が信じられないほど素晴らしく印象的だったということです。それこそが本当に加速していた時期だったと。しかし、AI企業がまずコーディングエージェントを構築することを選んだという考え方、つまりより優れたモデルを構築して、それが他のすべてのことをできるようにするためだったという主張は間違っています。

私が想像していたメカニズムは、コーディングが得意でAI研究が得意なモデルを作り、それを使って次世代のモデルを生み出し、スピードを上げてループを作り出すというものでした。それによってモデル開発のスピードが上がっていくはずだったんです。彼らはまずAIにコード記述を得意にさせることに注力しました。なぜならAIの構築には大量のコードが必要だからです。

もしAIがそのコードを書けるなら、次のバージョンの自分自身を構築する手助けができます。より賢いバージョンがより良いコードを書き、さらに賢いバージョンを構築していくというわけです。AIをコーディングに優れたものにすることが、他のすべてを解き放つ戦略だったのです。これは最高級のナンセンスです。Google DeepMindがAlphaEvolveについて何と言っているか、ここで紹介しましょう。AlphaEvolveはGoogleのデータセンター、チップ設計、そしてAI訓練プロセスの効率を向上させました。AlphaEvolve自体の基盤となる大規模言語モデルの訓練も含めてです。

カル・ニューポートの動画との出会い

私のフィードにこの動画がポップアップしたんです。カル・ニューポートによる動画でした。私はカル・ニューポートの仕事が好きで、彼がAIについてコメントしているのを見て、かなり興奮しました。彼がそれについてどう考えているのか知りたかったんです。さらに良いことに、クリックしてみると、彼が数週間前に私たちが取り上げた記事、「Something Big Is Happening」と呼ばれるものを扱っていることに気づきました。

これはマット・シューマーによる記事で、X上で完全にバズって大流行したものでした。それで動画を見始めたのですが、正直言って、ショックを受けました。冗談抜きで、この動画は衝撃的です。もしこれを理解する手助けをしてくれるなら、ぜひコメントしてほしいです。なぜなら私は完全に混乱しているからです。カル・ニューポートは有名で、非常に尊敬されている、とても賢い人物です。

動画の冒頭から、もしかしたら彼はマット・シューマーの記事に同意していないのかもしれないと感じ取れました。それで私は学ぶ準備をしました。もしかしたら彼は私が見逃した洞察を提供してくれるかもしれない。もしかしたら私が誤解していた細かい点があるかもしれない。もしかしたら私がいくつかのことについて間違っていて、自分の信念を更新しなければならないのかもしれないと。

しかし動画を聞き始めると、本当に奇妙なことが起こり始めました。カル・ニューポートが間違っているように思えたんです。私が言う「間違っている」というのは、彼の意見に同意しないという意味ではありません。彼の意見と私の意見が異なるという、そういう種類の間違いという意味ではありません。私が言っているのは、単純明快に間違っているということです。

これはディストラックのつもりではありません。戦争を始めようというつもりでもありません。私はこの人を非常に尊敬しています。しかし、私は非常に混乱しています。動画を再生して、それにリアクションしてみましょう。もしこれを理解する手助けをしてくれるなら、本当にありがたいです。

マット・シューマーの記事への批判

これは、AIがすべてを変えようとしている、今度こそ本物だから皆心配すべきだという、真ん中を突くタイプのエッセイです。私はこれを何度も送られてきました。何らかの理由で、これは一般文化とテック文化、テックジャーナリズム文化から飛び出して広まりました。誰もがこれを読んでいるようです。では、ここから何かを読んでみましょう。冒頭部分から始めます。

マット・シューマーはこう書いています。私は6年間AI企業を構築し、この分野に投資してきました。私はこの世界に生きていて、この世界に生きていない人々のためにこれを書いています。私の家族、友人、大切な人たち。彼らは私に「それで、AIって何なの?」と尋ね続けていますが、実際に起こっていることに見合った答えを得られていません。

私は彼らに丁寧なバージョン、カクテルパーティーバージョンを提供し続けてきました。なぜなら正直なバージョンは、私が正気を失ったように聞こえるからです。しばらくの間、私はこれが真実を自分の中に留めておく十分な理由だと自分に言い聞かせてきました。しかし、私が言ってきたことと実際に起こっていることのギャップがあまりにも大きくなりすぎました。私が大切に思う人々は、たとえそれがクレイジーに聞こえたとしても、何が来るのかを聞く資格があります。

なかなかの前置きですね。ここにはAI報道の典型的な罠がいくつか起こっています。実際の情報は何もありません。純粋な感情操作であり、デジタルな不快感を与え、不安にさせようとしているのです。AIを注意深く追っていない人をこの感情状態に設定するわけです。そうですね、あなたの最悪の疑念は真実です、外で起こっていることはクレイジーなんだ、と。

さて、このエッセイの内容に入る前に、これは古典的な手法です。私はあなたに外で何が起こっているかを明かそうとしています、それはあなたが思っているより悪いんだ、という。これはすべてにおける古典的な手法です。陰謀論的思考、急進的な健康トレンド、何を言おうとしているにせよ、非常に説得力のある設定方法なんです。

最初の疑問点

彼はAtlanticのために書いているようで、AIに関する他の動画もいくつかあります。私の視点から見ると、これは意見ですが、どちらかというとネガティブな感じです。AIリアリズムと称していますが、実際にはAIは本当には機能していないと言っているような感じです。現実的になろうというわけです。これは全く問題ありません。誰もが自分自身の意見、視点を持つことができます。それは重要なことです。私たちは互いに盲目的に従うべきではありません。

彼が言ったAIの不快感みたいなものについてですが、彼はこれらのAIトラップを説明するために3つの異なる用語を作ったと思います。でも続けましょう。ここに最初の実質的なことがあると思います。何年もの間、AIは着実に改善してきました。大きなジャンプがあちこちにありましたが、それぞれの大きなジャンプは、それらが来るたびに吸収できるくらい十分に間隔が空いていました。

そして2025年に、これらのモデルを構築するための新しい技術が、はるかに速いペースの進歩を解き放ちました。それからさらに速くなり、さらに速くなりました。新しいモデルはそれぞれ、前のモデルよりも単に優れているだけではありませんでした。より大きな差で優れていたのです。そして新しいモデルのリリース間の時間は短くなっていきました。

私はAIをますます使うようになり、それとのやり取りはますます少なくなり、以前は自分の専門知識が必要だと思っていたことを処理するのを見ていました。さて、ここで止めましょう。これは最初の証拠です。ああ、この著者は、自分が描こうとしている雰囲気に合うなら、基本的に物事を作り上げることをいとわないという証拠です。

進歩の減速という主張への反論

彼がこれを説明する方法は、実際にはある意味で現実の逆です。ジェネラルAI革命を非常に注意深く取材してきた者として、New Yorker誌のために、このショーのために、これは物事がどのように起こったかではありません。正反対です。事前学習のスケーリングが機能していた時期こそ、物事が本当に速く動いていた時代でした。

GPT-2から3へ、そして3から4への飛躍は、これらは印象的な飛躍でした。これはKaplanのスケーリングペーパーからのロスパワーロッカーの急勾配部分にいる時です。彼が2025年に到達したと語っている時期というのは、実際には進歩が減速した時期です。それはAI企業にとって問題になりました。

事前学習のスケーリングから起こっていた全体的な一般能力の向上が起こらなくなり、彼らは代わりにバックアッププランに移行しなければなりませんでした。それは、非常に特定のタスクに対してこの種の事後訓練作業を行い、推論時計算のようなことを行うというものでした。彼らは、どのユーザーにも明らかに印象的な一般能力の改善から、これらの難解な名前の付いたベンチマークを追いかけることに焦点を移しました。それらについて具体的に良いパフォーマンスをするようにモデルを教えることができるからです。

ユーザーにとってこの全期間で、私が主に気づいているのは、チャットボットの個性が変わっているということです。これが、私が聞いていて、これがちょっと軌道から外れていると気づいた最初の部分でした。記事でマット・シューマー、著者は、2025年に進歩が加速した、増加したと言っています。カル・ニューポートは、それは現実から切り離されていて、実際には逆だ、2025年に進歩は減速したと言っています。

スケーリングが止まり、彼らはこの他のもの、事後訓練/推論時計算に切り替えなければならなかった、それが推論モデルO1、O3などの出現だと。今ではそれらのほとんどが、答える前にその思考の連鎖を行うために、より多くのトークンを使用するために、考える時間を延長する方法を持っています。ヘビー思考、ロー思考など。

カルはこの事前学習スケーリングから事後訓練/推論時計算への移行を、ほとんど失敗のように枠組みしていますが、それはプロペラを速くすることをやめてジェットエンジンに切り替えたから航空が停滞したと言っているようなものです。彼はGPT-2からGPT-3への印象的なジャンプについて話しています。その当時、誰もこれらのことについて知りませんでした。なぜなら役に立たなかったからです。

GPT-3.5 TurboとGPT-4、それがAIに興味のあるほとんどの人が目覚め始めた時期でした。しかしGPT-4からO1、O3、Opus 4.5への飛躍、それが私たちが見た驚異的な進歩でした。それによって誰もが後ろ向きになり、うわあ、これは本当に速く進んでいる、と感じたのです。

ベンチマークデータの検証

彼が言っていることが分かりますか。これはMeterリサーチのようなAIモデル能力のデータです。彼らは一つのことを具体的にテストしています。これらのモデルは、ソフトウェアエンジニアリングの専門家がX時間かけて行うタスクを置き換える能力がどれくらいあるか、ということです。ソフトウェアエンジニアなら、小さなPythonライブラリのバグを修正するのに約1時間かかることを知っていますよね。

しかし、脆弱なEthereumスマートコントラクトを悪用するには8時間かかるかもしれません。あるいは機械学習研究コードベースの複雑なバグを修正するには15時間の実際の作業時間がかかるかもしれません。人間を取り上げると、これが人間時間で、作業時間でどれくらいかかるかです。

カル・ニューポートが言っているのは、この2から3、3.5への進歩が信じられないほど素晴らしく印象的だったということです。それこそが本当に加速していた時期だったと。さて、皆さんはどうか知りませんが、私にはこれらの点の違いが分かりません。私の目には、すべてゼロのように見えます。カーソルを合わせると36秒です。GPT-2は2秒。GPT-3は9秒。GPT-3.5は36秒です。

つまり彼らは2秒分の人間の労働を置き換えることができました。それは文章を書くことだったのか、コードブロックだったのか分かりません。でも彼は、ここで私たちは本当に加速していて、進歩が速かったと言っているんです。そして2025年、ここで進歩が本当に減速したと彼は言っています。垂直に上がるこの狂気の指数関数的なグラフのところです。

ここでAIの進歩が本当に減速したと。カル・ニューポートによると減速した理由は、GPT-4以降、私たちは推論時計算に切り替えたからだそうです。そういった思考モデルですね。これがなぜ混乱を招くか分かりますか。私がこのチャートを見ると、GPT-2からGPT-4の間には進歩がほとんどないように見えるからです。

彼らは何も有用なことをしていません。少しずつ良くなっているかもしれませんが、まだ指数関数的な改善さえ見えていないような状態です。そして推論時計算に切り替えた途端、それが本当にこの狂気の指数関数を解き放つブレークスルーとなり、2025年に本当に飛躍するのです。Claude Opus 4.6へのこの狂気のジャンプが見られます。

カル・ニューポートはその正反対のことを言っているわけです。ところで、皆さんは「それは良いチャートじゃない、なぜなら遺伝的タスクで、主に機械学習やコンピュータサイエンスの様々な分野で測定されているから」と言うかもしれません。ここに全く関連性のない別のベンチマークがあります。

ARC-AGIベンチマーク

これはARC-AGIです。ARC-AGIは、かつてGoogleの著名なAI研究者だったフランソワ・ショレによって開発されました。彼は2019年の論文「知能の測定について」でこれを導入しました。これは結晶化された知識や記憶されたスキルではなく、流動的知能を測定するように設計されました。

これは、これらの企業のいずれにも所属していない著名なAI研究者によるベンチマークです。したがって彼は株価を吊り上げようとしているわけではありません。これは独立した第三者のベンチマークです。カル・ニューポートが言っているのは、GPT-2からGPT-3、GPT-4への飛躍が、これらが巨大で巨大で巨大な前進であり、非常に刺激的だったということです。

それからマルチモーダルモデルであるGPT-4oがありました。しかしその後、進歩が止まりました。進歩が止まったのは推論時計算に切り替えたからです。スケーリングが止まりました。だから私たちは様々なトリックを追加しなければなりませんでした。その種の思考の連鎖を持った最初のモデル、答えを出すためにより長く考える能力を持った最初のモデルはO1 Previewでした。

あなたはここで進歩が止まったと考えていて、その後2025年には本当に進歩がなかったと。実際には大幅に減速しました。GPT-4はこのベンチマークで3、4パーセントのスコアでした。それから思考モデルが急速にベンチマークを飽和させ、数ヶ月以内に100%に近づきました。AI分野のほとんどの人がそれについてコメントしたとき、これはかなりエキサイティングだと思いました。

あまり進歩がなかったのに、その思考モードに切り替えたときに非常に短期間で狂気の量の進歩があったと。カル・ニューポートは、大きな進歩はここで起こり、ここで止まったと言っているのです。これまでのところ、彼は完全に間違っている、完全に逆だと感じました。でももし私が何か見逃しているなら教えてください。2025年に進歩は減速したのでしょうか。

コーディングエージェントに関する議論

でもまあ、続けましょう。もしかしたら良くなるかもしれません。そして彼らが具体的にその活動のために事後訓練しようとできる特定の活動について、漸進的な改善を得ているのです。実際には成長にとって悪い時期でした、良い時期ではなく。つまり、変化が加速しているというこの考えは、私が言うには、ほとんどの注意深い観察者は「いいえ、いいえ、これは実際に減速しました」と言っています。

彼らは何らかの顕著な改善ができる特定の分野を見つけようとしなければなりませんでした。ビデオ生成はそのうちの一つで、結局はちょっと失敗に終わりました。それから他の場所はコンピュータプログラミングツールでした。だから私は、彼がコンピュータプログラミングツールでの継続的な進歩を推定していると思います。これについては後で触れます。

それは指数関数的ではなく、モデル全般で困難なものでした。私たちは何らかの大きなペースでより速くなっています。それは単純に真実ではありません。より速いペースで、一般的には速くなっているわけではありません。それは単純に真実ではありません。人々がClawdbotコードについてもっと話しているという雰囲気には合うことは知っていますが、それは単純に真実ではありません。

ところで、これは時間経過によるClawdbotのGitHubコミットです。ご覧のとおり、かなりバイラルな成長があります。これはClawdbotコードの作成者であるBoris Crynyが、Clawdbotコードについてツイートしたことを指していると思います。今やClawdbotコードはClawdbotコード自体への新しい改善と反復のほとんどを作っていると。

それでますます多くの開発者がこれを使ってコーディングし、コードベースに実際の変更をコミットしていて、それはロケットのように飛び立っているわけです。それから2月5日、2つの主要なAIラボが同じ日に新しいモデルをリリースしました。OpenAIからGPT-5.3 Codex、そしてAnthropicからOpus 4.6です。そして何かがクリックしました。

電灯のスイッチのようではなく、水があなたの周りで上昇していて今や胸まで来ていることに気づく瞬間のようなものです。繰り返しますが、これらはコーディング関連エージェントでの継続的な漸進的改善に過ぎませんでした。私はしばらくの間これらについて報道してきました。彼らはしばらくの間印象的でした。

彼らは、プログラミングタスクに特化して行っているファインチューニングや他のタイプの事後訓練に基づいた、これらのやや頻繁だが比較的小さなステップで進歩を遂げてきました。ある種の変曲点のようなものがあって、これらの最新モデル、コードの自動生成エージェント自動生成タスクのようなものについて、それがちょうどレベルに達して、ますます多くの人々が「これを日常的にもっと使い始められると思う」と言うようになりました。

しかしこれらは技術的なシフトであり、プログラミングで具体的に起こっていることに非常に焦点を当てています。だから一般的にこれらのモデルが指数関数的に加速していたという考えは、これは指数関数的の逆です。彼らが思っていたモデルがはるかに優れているだろう他のアプリケーションで、これまでのところ進歩を遂げることに失敗している少数の狭いアプリケーションでの漸進的な着実な進歩です。

数学における突破口

ところで、これはテレンス・タオです。おそらく今日生きている最も偉大な数学者の一人と考えられています。彼はこれらの未解決のエルディシュ問題のセットを持っています。それは彼のものではありませんが、エルディシュという名前の数学者によって最初に考えられた興味深い問題を彼が収集しているのです。

2025年後半から2026年初頭にかけて、これらのAIモデルがこれらの以前は未解決だった問題の解決策を自律的に考え出し始めました。ここで彼は、AIが最近マイルストーンを通過したと言っています。このエルディシュ問題はAIによってほぼ自律的に解決されました。

ところで、この投稿の後、同じモデルでさらに多くの問題が解決されました。モデルが出てきて、人々がそれがこの能力を持っていることに気づいたとき、さらに多くの問題が解決されたのです。また2025年7月21日、Geminiはこれを行いましたが、OpenAIも行いました。彼らはIMO、世界で最も複雑で難しく、権威のある数学コンペティションの一つ、国際数学オリンピックで金メダルを獲得しました。

ここでGeminiモデルが金賞を獲得します。以前、ここで話しているような大規模言語モデルではなく、数学問題に特化したモデルで非常に良いスコアを持っていました。ここでは大規模言語モデルで、英語で問題を読むだけでした。特別な言語に変換する必要はありませんでした。そして公式に金メダルを達成します。人々はこれが何十年も先のことだと賭けていました。

プログラミングの自動化

マットはこう書いています。「私はもう自分の仕事の実際の技術的な作業には必要ありません。私は平易な英語で何を作りたいかを説明すると、それがただ現れるのです。修正が必要な粗いドラフトではありません。完成したものです。私はAIに何が欲しいか伝え、コンピュータから4時間離れて、仕事が完了し、よくできて、修正が必要なく、私が自分でやるよりも良くできているのを見つけるために戻ってきます。」

数ヶ月前、私はAI担当者と行ったり来たりして編集をしていました。今は、私はただ結果を説明して去るだけです。さて、ここで最後の詳細をスキップします。彼が言っているのは、コンピュータプログラミングの狭い世界で、これがコンピュータプログラマーとして今やAIにこれが欲しいと伝えて4時間後に戻ってくればそのアプリが構築されているという変曲点の進歩だということです。

コンピュータプログラミングの狭い世界で、という一点だけ。それは何を意味しているのでしょうか。プログラミングが得意になっても、それはあまりにも狭いアプリケーションに過ぎないから大したことじゃない、と言っているのでしょうか。そういう風に読めます。間違っていたら教えてください。

しかし明確にしておくと、ソフトウェアは米国の付加価値GDPの1.14兆ドルです。テクノロジーセクター全体は米国GDPの10%です。それは経済の非常に大きな部分です。世界的には経済の半分以上がデジタル変革された企業と呼ばれるもので、つまりソフトウェア上で動いているということです。テック企業ではないかもしれませんが、ソフトウェア上で動いているのです。

だから彼がコーディングの狭い世界で、と言っていることについて少し混乱しています。コーディングは文字通り米国経済の大部分を支えています。すべてがコード上で動いています。コーディングを加速することはすべてを加速します。

現場からの報告との矛盾

彼が言っているのは、コンピュータプログラミングの狭い世界で、これがコンピュータプログラマーとして今やAIにこれが欲しいと伝えて4時間後に戻ってくればそのアプリが構築されているという変曲点の進歩だということです。彼はさらに、それがアプリを構築するだけでなく、アプリをテストし、修正すると語ります。もう何もする必要がないのです。

さて、これは今、人々がこの技術、今月初めにリリースされた最新モデルをどのように使っているのでしょうか。誰が分かるでしょうか。私には分かります。なぜなら私はちょうど先週始めた報道プロジェクトの真っ最中だからです。

彼が話している正確なモデルで、これまでに現役のコンピュータプログラマーからAIをどのように使っているかについて詳細なノートを受け取りました。私は250以上のそのようなケーススタディを持っています。これまでにそれらの約半分を調べました。だからまだこの進捗の初期段階にいます。

しかしここで私が言えることがあります。誰もアプリを作ってくれと言って、歩き去って4時間後に戻ってくるということはしていません。彼が言っていることはすべて私にとって非常に奇妙に思えます。なぜなら、これが真実かどうか誰が分かるだろうか、と言っていますが、これらのツールをコーディングに使っている人々、私自身、マット・シューマー、皆さんの多くのように、X上やTwitter上の多くの人々、これらをいじり回したすべての人々が、それは実際に正しいと教えてくれるでしょう。

私は自分のウェブサイトを完全に作り直しました。Natural20.comです。その宣伝、気に入りました?私は一行もコードを書いていません。一行もテキストを書いていません。これは完全にAIエージェントによって書かれました。今私が使っているのはOpenClawですが、もっと良いものが出てくると確信しています。

でもこれはOpus 4.6です。それが基盤となるモデルです。それがマット・シューマーが話しているようなモデルです。これが私たちが議論しているものです。私はそれに構築するように言って、4時間歩き去ったでしょうか。完全にではありません。

私たちは何が必要かについて行ったり来たりして話しました。私はプロジェクトの範囲を説明しました。私は、すべてのAIニュースを収集して一箇所に集約する方法が必要だと言いました。定期的にチェックする多くのソースから引っ張ってこなければなりません。Hacker NewsやRedditなどから引っ張ってこなければなりません。

最近、私がフォローしているいくつかのSubstackを追加して、そこに入れられるようにしました。それから、ストーリーがどれだけ大きいかをランク付けするアルゴリズムのようなものがあればいいと伝えました。私たちはそれについていくつかアイデアを持っていました。私はGoogle Trendsを使うことを提案しました。それは上昇トレンドか下降トレンドかを見るのに非常に優れている傾向があります。

もちろんそれを実行しました。私たちは行ったり来たりしました。プロジェクトの範囲について議論しました。それはテキストで私が探しているものを構築しました。そして私はそれに「実行してくれ、ナンバーワン」と言いました。そして私は眠りにつきました。私はそれにGitHubアクセスを与えました。

GitHubに設定したので、コードへの変更をコミットできます。変更を加えることができます。バージョン履歴があります。繰り返しますが、私は何もしませんでした。ただそれに許可を与えて、それが実行したのです。そしてVercelプランのホビープランの一つも取得しました。これはこのようなもののホスティングプラットフォームです。それにアップロードする許可を与えました。

だからそれはまずテストサイトを構築して、最終的にすべてが機能していることを確認したら、ライブで公開しました。だから私のニュースフィードがあり、それが研究して書く大量の記事があります。たくさんのAIツールがあります。これはPrettyからのものでした。

だからそれはこれをしませんでしたが、ある意味でそれを整理し、クロスリンクし、SEO最適化しました。また、誰もが独自のベンチマークを持っていて、その半分しか公開しないので、それらを探し回るのがいつも面倒なので、AIモデルベンチマークのようなものも欲しかったのです。

だから私は「これを全部まとめてくれ。すべての主要なラボからのすべてのベンチマーク、異なるカテゴリーがある、だからVending BenchとAlpha Arena、Profit Arena、Browse Comp、エージェント的なもの、How-To Bench、すべて、すべて、すべてを一箇所に。最良から最悪にソートできる必要がある」などと言いました。

すべてのモデルがありました。そしてここにすべてのベンチマーク説明があり、それらを自動更新して最新に保つので、いつでもここに来てリーダーボードのトップを見ることができます。繰り返しますが、私はどれだけのコードを書いたでしょうか。ゼロです。どれだけのテキストを書いたでしょうか。ゼロです。

つまりこのウェブサイトのためのテキストです。テレグラムで入力する必要がありました。トイレにいる間でしたが、欲しいものを入力しました。眠りにつき、ライブウェブサイトに目覚めました。現在、私たちはこのデモページを構築しています。ところで、これはすべてウェブサイトで見ることができます。

下にリンクします。natural20.comです。だから私はそれに2つのものを構築させています。一つはAmong Us AIです。これは一種の社会的推論ゲームです。その要点は、LMがAmong Usに似たものをプレイすることです。2つ目はボットアリーナです。これはまだ初期のプロトタイプです。低解像度で複数のLMモデルが戦うようなものを想像してください。

彼らはワーカーとマイニングを持ち、ユニットを構築し、互いに攻撃しようとします。また、実際のモデルがリリースされると、それらの様々なデモを構築させています。ここにGemini 3.1 Proがあります。これはStarlinkトラッカーを作成しました。そこにあるすべてのStarlinkをリアルタイムで追跡できます。

スピードアップできて、すべてを見ることができます。それらをクリックすると、実際にどのStarlinkかが表示されます。画面では見えませんが、これはStarlink 35611です。高度、速度などを表示します。繰り返しますが、私はこのためのコードをゼロ行書きました。

だから、それが真実かどうか誰が分かるでしょうか。ツールを使っている人々が教えてくれます。はい、それは真実です。彼は誇張していません。はい、作りたいものを伝えて4時間歩き去ることでアプリを構築できます。彼は嘘をついていません。アプリを使ったことがあれば、これも知っています。しかしカル・ニューポートは、彼は異なるアプローチを持っています。

これは今、人々がこの技術、今月初めにリリースされた最新モデルをどのように使っているのでしょうか。誰が分かるでしょうか。私には分かります。なぜなら私はちょうど先週始めた報道プロジェクトの真っ最中だからです。彼が話している正確なモデルで、これまでに現役のコンピュータプログラマーからAIをどのように使っているかについて詳細なノートを受け取りました。私は250以上のそのようなケーススタディを持っています。これまでにそれらの約半分を調べました。だからまだこの進捗の初期段階にいます。

イノベーターのジレンマ

さて、彼は自分自身で実際に何も検証していませんよね。だから彼は実行していませんが、これが真実かどうか知っていると言っています。なぜなら、自分が何をしているか知っている真剣なプログラマーからレポートを受け取ったからです。だから彼らは私にAIをどのように使っているか教えてくれます。

皆さんの少なくとも何人かは今、顔を手で覆っているでしょう。なぜなら彼は冗談を言っているわけではないからです。この新しい本があります。新しい本ではありません。1997年に最初に出版されました。『イノベーターのジレンマ』と呼ばれていました。

この本の核心的な教えの一つは、この破壊的技術がどれだけ大きくなるかを判断すること、専門家がそれをどのように使うかによって判断することが、典型的な間違いだということです。初心者の大失敗です。デジタルカメラが登場したとき、プロの写真家はそれを笑いました。嘲笑しました。彼らはフィルムでより良いことができました。

しかし推測してください。カジュアルユーザーは気にしませんでした。彼らは即座にプレビューできました。フィルムを扱う必要がありませんでした。デジタルカメラの販売は爆発しました。時間が経つにつれて、今ではフィルムよりも優れたところまで改善されました。しかし当時、これらのデジタルカメラが成功する可能性があるかどうかをどうやって見分けるか、と言った場合、

これらのプロの写真家にデジタルカメラをどのように使うか尋ねようと。そして彼らは使いません。だからその技術は運命づけられています、と。パーソナルコンピュータが登場し始めたとき、この分野の一部の幹部は、誰も家にコンピュータを欲しがる理由はないと言っていました。

YouTubeが登場したとき、テレビプロデューサーはそれを低解像度のゴミと見なしました。今日まで私が続けている伝統です。しかし今日早送りすると、YouTubeはテレビを食べています。人々がテレビで見るものの最大のシェアの一つです。Wikipediaが登場したとき、ブリタニカ百科事典の編集者はそれは信頼できない、アマチュアっぽいと言いました。

しかし学生や情報へのアクセスが必要な人々は気にしませんでした。なぜならそれはそこにあったからです。NapsterとMP3が登場したとき、オーディオファイル、彼らは小さな圧縮アーティファクトを聞きました。音楽の品質が気に入りませんでした。これは決して流行らないと言いました。Napsterの6000万人のユーザーは気にしませんでした。なぜなら彼らはどんな曲も即座に手に入れることができたからです。

これは何百万もあります。2009年頃に出てきたときに銀行家がどのように使ったかで暗号がどれだけ大きくなるかを判断したくないでしょう。携帯電話のカメラも同じです。単純に何でも。専門家は出てくる新しい技術を利用可能な最良の代替品と比較しています。他の誰もがそれを何もないものと比較しています。

無料の音楽がないのと、想像できるあらゆる無料の音楽があるが少し品質が低いのと、どちらが好みですか。ええ、ええ、それを取ります。だから私にとって、私はこのウェブサイトとそれがどれだけうまく作られているかを、6桁の給料の開発者がそれをどれだけ作れるか、どれだけ良くできるかと比較していません。

私はそれを、私がこの機能を持つウェブサイトを持っていないという事実と比較していますが、もしAIエージェントにテキストメッセージを送れば、それが私のために作ってくれます。意味が分かりますか。これは無料で、何もないよりずっとずっと良いです。そうは言っても、かなり素晴らしいです。

しかし私が思うに、カルがここで暗示しているように聞こえるのは、このマット・シューマーという人は明らかに、自分が目指している雰囲気に合うように物事を作り上げていると。なぜなら私はこれらの真剣な専門家、企業で働いている人々に尋ねたが、彼らはマット・シューマーが使っているような方法でそれを使っていないからです。

だからマット・シューマーが言っていることは真実ではないに違いありません。つまり、何か見逃していたら教えてください。これが私が聞いているようなことです。誰もアプリを作ってくれと言って、歩き去って4時間後に戻ってきて、「はい、これがあります。これをリリースしましょう」というようなことはしていません。

それはプログラマーがこれらの最新ツールを使っている方法ではありません。それは非常に特定のタイプのアプリに対してのみ機能します。非常に一般的なスタイルのアプリケーションの少数のうちの一つでなければなりません。特別な言語のようなインターフェースにもっと焦点を当てたもので、あまり大きくなく、特に安定している必要もありません。

だから趣味としてのようなバイブコーディングができます。ダンジョンズ&ドラゴンズのキャラクターでテトリスゲームを作ってくれ、みたいなことを言えば、それを実行します。戻ってきて何かを持つことができます。

2年前との比較

ええ、2年前にそれをやっていました。それ以来、そのチャートを覚えていれば、垂直になりました。今は違います。2026年です。これを行っている人々は、これらの超明確な仕様についてたくさん話しています。これがまさに私があなたにやって欲しいことです。

そして彼らはモデルにこの部分のためのコードを構築させ、それから広範囲にテストしなければなりません。なぜなら繰り返しますが、モデルは20%の時間で間違いを犯すからです。そして彼らはそれに対して一連のユニットテストを実行します。OK、これは機能していると思う。これを統合しよう。

OK、次に必要なことはこれです。そしてこれらの試みの5回に1回のように、OK、AIはそれを理解できないだけです。自分でやります。AIで起こっている興味深いことはたくさんあります。しかし彼が非常に自信を持って説明していることは、私が話した実際の現役のプロのコンピュータプログラムのこの広範なサンプルのごくわずかな一部です。

ごくわずかな一部がこの方法でツールを使っています。起こっていることはクールですが、「これをやってくれ、4時間後に戻ってくる。これは完了していて、人生を進めている」というようなことではありません。これらは今のところ大いに監視されています。さて、ここで続けましょう。この作品から強調したい次の引用があります。

AIの自己改善能力についての議論

AIラボは意図的な選択をしました。彼らはまずAIにコード記述を得意にさせることに焦点を当てました。なぜならAIの構築には大量のコードが必要だからです。もしAIがそのコードを書けるなら、次のバージョンの自分自身を構築する手助けができます。より賢いバージョンがより良いコードを書き、さらに賢いバージョンを構築します。AIをコーディングに優れたものにすることが、他のすべてを解き放つ戦略でした。

これは最高級のナンセンスです。それはただのバイブなナンセンスです。これらのAIエージェントは私たちがより良いAIモデルを作るのを助けてくれません。それはそのように機能しません。それは起こっていることではありません。だから最高級のナンセンスです、正しく理解したと思います。

最高級、つまり私が理解している限り、ナンセンスの最も多い種類です。最高級はナンセンスの王様のようなものだと思います。だからこの最高級のナンセンスを読み直しましょう。なぜならそれは大胆な主張だからです。それは非常に高レベルのナンセンスです。私はそれがナンセンスの王様だと信じています。

AIラボは意図的な選択をしました。彼らはまずAIにコード記述を得意にさせることに焦点を当てました。なぜならAIの構築には大量のコードが必要だからです。もしAIがそのコードを書けるなら、次のバージョンの自分自身を構築する手助けができます。より賢いバージョンがより良いコードを書き、さらに賢いバージョンを構築します。AIをコーディングに優れたものにすることが、他のすべてを解き放つ戦略でした。

さて、それは最高級のナンセンスでしょうか。調べてみましょう。これは2025年5月14日です。これはGoogle DeepMindによる投稿で、AlphaEvolveについてです。AlphaEvolveについて考える良い方法は、それは足場を持つLMだということです。

私はよく、フォーミュラ1の車のように説明します。パイロットがいるとします。LMがパイロットで、足場が車のようなものです。足場を改善して車の能力を向上させることができますが、より良いドライバーがそこにいれば、その車からさらに多くの能力を引き出すことができます。

Google DeepMindによるこのブログ投稿は、今日、汎用アルゴリズム発見と最適化のための大規模言語モデルによって駆動される進化的コーディングエージェント、AlphaEvolveを発表していると言っています。進化的というのは、何が機能して何が機能しないかを見るために多くの分岐を試すという意味です。

より良いアプローチを見つけるために多くのことをテストします。それはアルゴリズムの発見と最適化、アルゴリズムをより良くするためのものです。繰り返しますが、AlphaEvolveは大規模言語モデルといくつかの足場です。だからデータといくつかのコードといくつかのツールのようなものですが、その中心には大規模言語モデルがあります。

Google DeepMindがAlphaEvolveについて何と言っているか、ここにあります。AlphaEvolveはGoogleのデータセンター、チップ設計、そしてAI訓練プロセスの効率を向上させました。AlphaEvolve自体の基盤となる大規模言語モデルの訓練も含めてです。

このチャンネルを見ている方なら、以前これについて話したのを聞いたことがあるでしょう。これがクレイジーなことです。彼らが投稿している研究、これは何日でしたか。2025年5月14日、それは約1年前からのもので、当時存在していたモデルでした。

2024年初頭当時、Googleはこの進化的コーディングモデルを使っていました。どう表現すればいいでしょうか。次のバージョンの自分自身を構築する手助けができるコードを書くことができるAIとして使っていました。だからGoogle DeepMindが彼らが言っていることをしたか、これが真実か、あるいはそれは最高級のナンセンスです。

両方はあり得ません。だからこのモデルはソフトウェア最適化を最適化しています。Geminiの訓練です。だから自分自身を訓練している、あるいはより正確には次世代、次のバージョンを訓練しています。TPU回路設計も最適化しています。それはそれが動作するハードウェア層のようなものです。

だからそれはハードウェアを改善しています。ソフトウェアを改善しています。Googleのデータセンターを改善し、行列を乗算する新しい方法を発見しています。そして繰り返しますが、彼らがこれに使っていたモデルは2024年初頭からのものです。だから2026年の今日何が起こっているか想像できます。

実際、想像する必要さえありません。教えてあげられます。ダリオ・アモデイは2026年1月のAxiosとのインタビューで次のように述べました。AIは独自のAIを含むAnthropicの製品を構築するためのコンピュータプログラミングの90%を行っています。

それは主要なAIラボのCEOが、90%のように実際に起こっていると言っているのです。でももしかしたら彼は嘘をついていて、Googleも嘘をついているのかもしれません。もしかしたら全員がこれについて嘘をついていて、すべて作り話なのかもしれません。誰が知っているでしょうか。でも彼らはIMO数学オリンピックで金も獲得していて、それは第三者によって検証されています。

だからもしかしたら彼らも嘘をついているのかもしれません。もちろん、私たちは皆の好きな日本のAIラボ、Sakana AIを取り上げてきました。これは2024年8月13日でした。AI科学者、完全に自動化されたオープンエンドの科学的発見に向けて、このモデルは研究作業をエンドツーエンドで生成しました。

論文研究論文の生成、コードベースの作成、アイデアの生成、文献検索、実際の実験、実験結果の書き上げなどを含みます。AIはまた最近、2025年5月30日に、自分自身のコードを書き換えることで自分自身を改善するダーウィングリッドルマシンAIを公開しました。

それもこの進化的研究を使って、自分自身のコーディング能力を向上させる目標で、自分自身のための新しい能力をコーディングすることで、自分自身の足場を改善します。反復を通じての進歩を見ることができます。多くの異なることを試します。すべてが機能するわけではありませんよね。

しかし何かを見つけると、その能力が向上し、そのチェーンを通じて検索を続けます。最終的には、開始時よりずっとずっと良くなります。さて、あなたは「でももしGoogle DeepMindが嘘をついているとしたら。ダリオ・アモデイ、彼も嘘をついている。Sakana AI、彼らも嘘をついている。みんな嘘をついている。みんなこの話をでっち上げている」と言うかもしれません。

Google DeepMindが最近Sakana AIを買収した方法。もしかしたら彼らが嘘をついていることを知っていたからかもしれませんが、「でももしかしたらSakana AIが本当に解決したのかもしれない。念のため彼らを購入しよう」と思ったのかもしれません。

でもそれは間違いでした。なぜならSakana AIも嘘をついていたからです。なぜならこのアイデアは、まあ、カル自身に言わせましょう。これは最高級のナンセンスです。それはただのバイブなナンセンスです。これらのAIエージェントは私たちがより良いAIモデルを作るのを助けてくれません。それはそのように機能しません。それは起こっていることではありません。

彼らができないのは、新しい知能のモデルを発明すること、機械学習の基本的な数学を改善すること、これまで見たことのないAIのためのより良いモデルを構築することです。Google DeepMind、2023年12月14日。FunSearch、大規模言語モデルを使った数学科学における新しい発見の実現。

またGoogle DeepMindから、Gnome、深層学習で発見された数百万の新材料。彼らはNatureに記事を公開しました。彼らは220万の新しい結晶の発見を共有しました。これは約800年分の知識に相当します。彼らはこれをAI Gnomeと呼んでいます。

この小さな青い円があります。それは人間の実験です。これは人間がどれだけ思いつくことができたかです。そしてこのやや大きい青い円、それは計算方法です。これは人間がコンピュータを使っています。そしてこの巨大な水色の円。それはGoogle DeepMindからのこのAIモデル、Gnomeと呼ばれるものです。

それは材料の提案を思いつきます。そしてこの防弾、爆発防止のガラスケージに囲まれたロボットアームがあり、それらを作ろうとします。実際にそれを作ることが可能かどうか実験します。だからAIはレシピを思いつき、いわば、そしてこのロボットシェフがそれらをテストするのです。

またGoogleのAutoMLは、特にAIの豊富な経験を持たない人々にとって、機械学習モデルの構築と使用を容易にするように設計された機械学習製品とツールのスイートです。2017年にこの作業が画期的だった理由は、機械設計されたネットワーク、つまりAIによって設計されたネットワークが、画像分類や物体検出のようなタスクのために人間が設計した最良のアーキテクチャと同等か、それ以上のパフォーマンスを達成したからです。

これらはもっとたくさんありますが、ここで止めます。要点は理解してもらえたと思います。それはそのように機能しません。そしてAIの一般的な革新のどれも、プログラミング関連の革新ではありません。それらはすべて概念的数学的革新であり、機械学習の専門家が、ああ、強化学習は、ベクトルの異なる再正規化を適切に行えば言語モデルに適用できる、と気づき、それから誰かが出て行ってプログラミングします。

だから、面倒なコードや、多くの情報を調べる必要があるコードを自動的にコーディングでき、それによって多くの時間を節約できるというこの考え。そこから、ああAIは今自分自身を書くことができて、今やこの自己強化ループを持つことになる、とジャンプすることはできません。

そのアイデアは1960年代にさかのぼって時代精神の中にありました。JL Goodが超知性に関する最初の論文を書き、再帰的自己改善のアイデアを導入したときです。それはこれらのツールが行うことを意図されていることではありません。彼らはそれをできません。それは起こっていることではありません。

AIラボがまずAIエージェント、つまりコーディングエージェントを構築することを選んだというこの概念は、それによってより良いモデルを構築でき、それが他のすべてをできるようにするためだったというものは間違っています。私が想像していたメカニズムは、コーディングが得意でAI研究が得意なモデルを作り、それを使って次世代のモデルを生み出し、スピードを上げてループを作り出すというものでした。それによってモデル開発のスピードが上がっていくはずだったんです。

私たちは今、コードを書くモデルという点では、Anthropic内のエンジニアが、私はもうコードを何も書いていないと言っています。

続々と明らかになる矛盾

コーディングエージェントについてもっと聞いている理由は、彼らが市場を見つけることができた唯一の狭いアプリケーションの一部だからです。そしてヒットは続きます。この動画は衝撃的ではないですか。AIラボがAIのために見つけることができた唯一の狭いアプリケーションはコーディングでした。

コーディングはAIのために見つけられた唯一のアプリケーションでした。その動画が4日前に公開されたとき、それはまさにAnthropicと国防総省との対立が終わりに近づいていたときでした。主要なAIラボの一つと国防総省との間のこの大規模な対立、そして最終的にトランプが介入してAnthropicを遮断します。

技術を誰がコントロールし、どのようにするかをめぐるその戦い全体が終わりに近づいていました。だからAnthropicは2億ドルの国防総省との契約を失う立場にありました。それは彼らにとってそれほど大きな打撃ではありませんでした。なぜなら彼らの収益は年間10倍で成長していたからです。

そして本当に、それは彼らにとって大きな打撃ではなかったでしょう。Anthropicのクラウドはイランでの標的攻撃に使用されました。国防総省はベネズエラのマドゥロ急襲でAnthropicのクラウドを使用しました。その前に、様々なソフトウェア企業がただ打ちのめされていました。SaaSの黙示録と呼ばれました。

ほぼ1兆の時価総額が消し飛びました。なぜなら人々はこれらのAIモデルが特定の企業を置き換えるのにどれだけ効果的かを理解していたからです。カスタマーサービスの自動化は巨大で巨大で巨大な市場です。法律、医療、診断、創薬、コンテンツ作成、マーケティングコピー、すべての企業にわたるデータ分析。

すべての企業内でAIの使用が増加しています。中国は様々なDeepSeekモデルを訓練するために内モンゴル内にGPUを密輸しています。この方法で彼らは米国の輸出法を回避します。2026年初頭の時点で、世界中で10億から15億人以上の人々が毎月AIチャットボットを使用していると推定されています。

さて、ここで終わりにしようと思います。なぜならこの推定は私を少し動揺させるからです。でも明確にしておきましょう。GPT-4以降のAI業界の苦闘、プロジェクトオリオンの失敗、BMFモデルの失敗、GO3の失敗をまとめてください。彼らは訓練のために10万個のGPUに移動しましたが、大きな改善は得られませんでした。

事後訓練への移行、より漸進的な改善とベンチマークの追求。これは失敗している産業の肖像ではありませんが、順風満帆で進んでいるわけでもありません。だから今、投資コミュニティは大手AI企業の株について少し神経質になっています。

私たちはあなたの大きな収益がどこから来るのか見る必要があり、まだそれを見ていません。ただの複雑なストーリーのようです。クールな技術です。彼らは市場を見つけようとしています。いくつかのニッチ市場、カスタマーサービス、ビデオ制作を見つけています。

だから投資コミュニティ、それが何を意味するにせよ、投資家、投資家は神経質になっています。一方、Microsoft、Google、Amazon、Metaが合計でインフラ構築に3000億ドル以上をコミットしています。また、興味深い点として、その動画が公開されたその同じ日に、このニュースが出ました。

OpenAIは史上最大級のプライベート資金調達ラウンドの一つで1100億ドルを調達しました。ところで約1年前、彼らは400億ドルの資金調達ラウンドを締めくくりました。それは記録上最大のプライベートテック取引でした。そして数日前、彼らは今や史上最大のプライベート資金調達ラウンドを調達しました。

だから投資家は神経質ですが、AI企業は史上最大の資金調達ラウンドを締めくくり続けています。だから彼らは神経質ですが、Googleはインフラ構築に1750億から1850億ドルを費やす計画です。投資家は神経質ですが、Google株は過去1年間で82%近く上昇しています。

投資家は神経質ですが、Nvidiaは過去1年間で60%上昇しています。投資家は神経質ですが、Anthropicの評価額は放物線を描いて急上昇しています。Anthropicの評価額は爆発的な成長を経験しています。2026年2月に3800億に達しました。

投資家が神経質な理由は、これらすべての派手なAIのものに対して何か収益があるかどうか分からないからです。AnthropicとOpenAIの両方、彼らの収益成長は放物線です。垂直です。ただ真上に上がっています。Anthropicでは、年間100万ドル以上を費やす500以上の顧客で140億ドルに達しました。

そして会社は過去3年間のそれぞれで年間10倍以上の収益成長を見てきました。だからそれは10倍の収益、10倍の収益、10倍の収益です。これは失敗している産業の肖像ではありませんが、順風満帆で進んでいるわけでもありません。だから今、投資コミュニティは大手AI企業の株について少し神経質になっています。

私たちはあなたの大きな収益がどこから来るのか見る必要があり、まだそれを見ていません。ただの複雑なストーリーのようです。クールな技術です。彼らは市場を見つけようとしています。いくつかのニッチ市場を見つけています。カスタマーサービス、ビデオ制作、それはかなり小さな市場ですが、そこには良いものがあります。

そしてプログラミングでは、彼らはプログラミングにかなり優れています。そして彼らは着実な漸進的な進歩を遂げてきました。そしてツールは今十分に良くなっているので、プログラマーの無視できない割合の実際のワークフローリズムに影響を与え始めています。

結論

だから、ここで何が起こっているか解き明かし始めることさえできません。私が狂っていないと言ってください。あなたもこれを見ていますよね。これは意見の違いではありませんよね。このビデオが言っていることは現実の正反対だということです。

彼はこれらすべてのことを何のバックアップもなく、チャートもなく言っています。私が言っていることすべて、私を信頼する必要さえありません。私が何を見ているか、どこから情報を得ているかを示しています。私は何を見逃しているのでしょうか。どうやって同じ現実に生きられるのでしょうか。

ところで、もし私が何か誤解していて、もしかしたら何か間違っていることがあるなら、コメントで教えてください。気になりますから。しかし私自身としては、彼の仕事をフォローしてきました。彼の仕事を尊敬しています。しばらく前に彼の本のいくつかを読んだことを覚えています。

これは単に視点の問題でしょうか。これは私が見た中で最も衝撃的なAI動画だったと言わざるを得ません。そして私はいくつかの衝撃的なAI動画を見てきました。そしてもしもカルがこれを見る可能性があるなら、これは無礼を意図したものではないことを理解してほしいです。

これは攻撃ではありません。私はただ非常に混乱しているだけです。でももしかしたら私が見ていないデータを持っているのかもしれません。もしかしたらこれは単に視点の問題なのかもしれません。私は間違っている準備ができていますが、今のところ、私はただ混乱しています。

ここまで見てくれた方、本当にありがとうございました。私の名前はウェス・ロスです。

コメント

タイトルとURLをコピーしました