2025年:私がコードを書くのをやめた年

2025年はAI支援コーディングが劇的に進化した年である。推論モデルの登場、エージェントの実用化、Claude CodeやCodexといったCLIツールの台頭により、開発者のコーディング方法は根本的に変化した。モデルは半年ごとに2倍の長さのタスクを処理できるようになり、PRのサイズは33%増加、開発者1人あたりのコード量は76%増加した。OpenAIは優位性を失い、AnthropicやGoogleのGeminiが台頭。中国のDeepSeekやQwenなどのオープンウェイトモデルも急成長を遂げた。バイブコーディングという概念が定着し、多くの開発者がコードエディタよりもGitHubでのレビューに多くの時間を費やすようになった。月額200ドルのサブスクリプションが標準化し、非同期コーディングエージェントが普及。一方で、YOLOモードでの実行や正常性の逸脱の常態化といったセキュリティ上の懸念も浮上している。

2025: The year I stopped writing code

Claude code, reasoning models, useful agents, 2025 was a wild year...Thank you Blacksmith for sponsoring! Check them out...

AIコーディングの革命的な1年
Simonの2025年レビュー

AIコーディングの革命的な1年

2025年は、AIを使ってコードを書く私たちにとって、かなりワイルドな年だったと言っていいと思います。モデルがはるかに賢くなっただけでなく、その周辺のすべてが変わりました。年の初めに推論モデルが登場し、エージェントが流行語から日常的に使える実用的なものへと進化し、Claude CodeやOpen Code、Codexといったクールなツールが、私たちが普段使っているターミナルで使えるようになりました。

本当にワイルドな年でしたし、その結果もワイルドなものになっています。個人的には、コードエディタの編集画面で過ごす時間が以前とは比べ物にならないほど少なくなりました。そもそもコードエディタを使っていないことすらあります。本当に信じられないことです。

そして、こう思っているのは私だけではありません。業界全体として、バイブコーダーやAIツールを使っている人たちが今年をどう感じているのかを知るために、たくさんの人たちの2025年の振り返り記事を集めてきました。今年起きたクールなことをすべて概観し、興味深いトレンドをいくつか紹介して、これらが業界としての私たちにとって何を意味するのかを見ていきたいと思います。

PRのサイズがどう変化したか、異なるSDKの採用がどれだけ大きく伸びたか、モデル自体がどう改善されて処理できることの量がどう変わったかまで。今年は本当に多くの興味深いことが起こり、その結果、私たちのコーディング方法が変わりました。以前は、コーディング方法が変わるには何年もかかっていました。

それが1年になり、6ヶ月になり、3ヶ月になり、そして今では正直なところ、これらの移行の間隔は、今日のスポンサーについて話す時間よりも短く感じられます。

2025年、私たちのコードの書き方は永遠に変わりました。しかし今は2026年で、あなたのCIはまだ90年代のように動いています。真面目な話、なぜ私たちは何時間もビルドを待っているのでしょうか。数分、いや数秒で済むかもしれないのに。Blacksmithがあなたをひどいビルド時間から救ってくれます。

GitHubアクションで1行変更するだけで、コストが75%削減されます。半分は彼らのコストが半額だからで、もう半分は時間が半分で済むからです。たくさんの半分ですね。でも真面目に、Blacksmithに移行すると、どれだけ物事が良くなるかは本当にクレイジーです。Superbase、Dscript、Exa、Clerkといった企業がすでに移行しています。

その理由は明白です。キャッシュのダウンロードが4倍速く、実行されるハードウェアが2倍速く、提供できるDockerビルドは最大40倍速くなります。なぜなら、ビルドを行っているのと同じマシン上のNVMeドライブにビルドレイヤーをキャッシュしているからです。移行するとどれだけ速くなるかは、もう笑えるほどです。

でも、それは私のお気に入りの部分ではありません。オブザーバビリティこそが素晴らしいのです。アクション全体で実際に機能する検索があったらどれだけ素晴らしいでしょうか。特定のアクションがどれだけ頻繁に失敗するかを示すパネルがあったらどれだけ素晴らしいでしょうか。どのテストが不安定で問題を引き起こしているのかを知り、PRが失敗したときにもう少し自信を持てたら素晴らしいと思いませんか。

AI生成のPRを、テストが失敗したからという理由で却下したものの、後になってそのテストが不安定だったと気づいたことが何回ありますか。おそらく、GitHubアクションの信頼性が低いためにコードを捨ててしまったこともあるでしょう。Blacksmithがどれだけ信頼性が高いかを延々と話すこともできますが、むしろオブザーバビリティについて話したいと思います。だから、失敗したときに理由を突き止めることができるのです。

真面目に、Blacksmithは一度移行すると、なぜこんなに長く待っていたのかと疑問に思うような、当然の選択肢の一つです。今すぐsoyv.link/blacksmithでチェックしてください。

Simonの2025年レビュー

まずはSimonの投稿から始めたいと思います。Simonを知らない方のために説明すると、彼はPythonのDjangoフレームワークの作成者で、LLMの世界で起きているクールなことをカバーしている、インターネット上で最も優れた人物の一人です。彼は2025年とその中で変化したことについて、素晴らしい記事を書きました。

これを簡単に見ていきながら、State of AIレビューや他のいくつかの場所からの興味深い情報源も取り入れていきたいと思います。これらすべての素晴らしいリソースを書いてくれたみんなに感謝します。ここには本当に良いものがたくさんあります。これらの人々をフォローして、彼らの記事も読むことを強くお勧めします。

これらの人々から学べることはたくさんあります。そして、2026年もこのようなクールな情報源を見つけ続け、最新情報を把握したいなら、YouTubeのチャンネル登録は実際には無料です。赤いボタンを押すだけで、私の動画が少し頻繁に表示されるようになります。スパムにはなりません。ベルを押さない限り通知は来ませんが、最新情報を追いかけやすくなります。

そして、このような動画で登録すると、私たちはそれを見て、こういうものをもっと作るようになります。だから、役に立つと思ったらそのボタンを押してください。

とにかく、推論の年です。これは本当に良い出発点です。なぜなら、私たちが年を始めた場所だからです。2024年が終わる前は、すべてのモデルは単なる次のトークン補完でした。技術的には今でもそのように動作していて、テキストがあって、次に最も可能性の高いテキストが何かを推測するのですが、推論は非常に興味深い変化でした。

モデルは効果的に、結論に達する前にアイデアを反復する方法として、自分自身と話すための箱を持ち、物事を考え抜くための独自のコンテキストを作成できるようになりました。そしてそれは非常に強力でした。そしてこれは、今年の初めにDeepSeekがR1モデルでコピーされ、みんなを驚かせました。推論の門が開いた感じでした。というのも、OpenAIのモデルは推論トークンさえ見せてくれなかったからです。

だから、このプロセスがどのように機能するかを見る唯一の方法は、DeepSeekの仕事を通してでした。2024年に12本以上の論文を発表したことから、年末、年初、年央に発表した驚異的なモデルまで、彼らの努力には今でも拍手を送ります。推論は本当にスタンダードになりました。

そして今では、新しいモデルが出てきて推論モデルでないと、ちょっと奇妙に感じるようになりました。これがどれだけ物事を助けてくれたかが明白だからです。懐疑的だったAnthropicでさえ、とにかくそれを出すことに決め、推論トレースを共有しました。なぜそれがそんなにうまく機能するのか分からなかったからです。

そして、推論トレースを共有することで、より多くの人々がなぜこれがこんなにうまく機能するのかを理解できることを期待していました。Simonがここで言っているように、OpenAIは03、03 Mini、O4 Miniで推論に全力を注ぎました。そして今やGPT-5も推論モデルです。OモデルルJF推論モデルで、GPTモデルが非推論モデルだった頃を覚えていますか。

それがどう変わったか、クレイジーですよね。今や推論はモデルのチェックボックスに過ぎません。また、彼が推論を「トリック」と呼んでいるのも気に入っています。実質的にそうなのです。そして、これがKarpathyの意見です。数学やコーディングパズルのような、自動的に検証可能な報酬がある多数の環境に対してLLMを訓練することで、LLMは人間にとって推論のように見える戦略を自発的に発展させることができます。

彼らは問題解決を中間計算に分解することを学び、行ったり来たりして物事を解決するための多くの問題解決戦略を学びます。これはDeepSeek R1の論文で見ることができます。検証可能な報酬を使った強化学習を実行することで、ドルあたりの高い能力が得られることが判明し、元々は事前訓練に充てられていた計算リソースを食いつぶしました。

したがって、2025年の能力の進歩のほとんどは、LLMラボがこの新しい段階のオーバーハングを消化することによって定義されました。そして全体として、ほぼ同じサイズのLLMを見ましたが、はるかに長いRL実行を見ました。つまり、以前はすべての作業がデータの収集と整理に費やされ、重みが出た時点でモデルを可能な限り有能にするように訓練されていました。

しかし、この強化学習と推論、そして強化学習でどれだけ効果的に調整できるかということで、モデルが作られた後にこれらの技術を使ってモデルを調整することに、より多くの努力が費やされるようになりました。なぜなら、全体的にベンチマークポイントあたりのコストが安くなったからです。だから、面白いことに聞こえるかもしれませんが、今年私たちが興奮したモデルの多くは、必ずしも新しいモデルではありませんでした。

これはOpenAIで特に一般的でした。彼らは、これはすべて疑惑であり、私はこれについて内部確認を何も持っていませんが、疑惑では、新しいモデルの事前訓練を使っていないとされています。私たちはOpenAIの同じベースモデルを使っていて、その上により多くの強化学習が行われています。彼らは事前訓練をまったく変更していません。疑惑では、これは近い将来変わるかもしれません。

しかし、そうです、これの多くは、モデルがより多くの強化学習を投入することで調整されてきたということです。2025年には、すべての注目すべきAIラボが少なくとも1つの推論モデルをリリースしました。いくつかのラボは、推論モードと非推論モードで実行できるハイブリッドをリリースしました。多くのAPIモデルには今、特定のプロンプトに適用される推論の量を増減するダイヤルが含まれています。

Simonも私も、推論が何に役立つのかを理解するのに時間がかかりました。初期のデモでは、数学的論理パズルを解いたり、Strawberryの中のRを数えたりするのを見せていました。これらは日常生活でモデルを使う上で必要なことではありませんでした。推論の真の解放は、ツールの駆動にあることが判明しました。

ツールにアクセスできる推論モデルは、複数ステップのタスクを計画し、それらを実行し、望ましい目標をよりよく達成するために計画を更新できるように詳細について推論し続けることができます。これがうまく機能している例の一つがAI支援検索で、今では実際に機能するようになりました。以前は検索エンジンをLLMに接続すると疑わしい結果になっていましたが、今では、より複雑な検索や研究の質問でさえ、ChatGPTのGPT-5 thinkingで答えられることが分かりました。

T3 chatでもそうです。まだ試していない方はぜひチェックしてください。彼らはコードを書くのも本当に得意です。何が間違っているかを考え、コードをはるかにうまく修正できます。推論とツールの使用を組み合わせると、エージェントの年になります。これがSimonが好きな理由です。彼は、エージェントは起こらないだろうという予測で年を始めました。

これを読みたいと思います。彼はOxide and Friendsポッドキャストに出演していました。大好きなポッドキャストです。そして彼の予測の一つは、1年以内にエージェントは再び起こらないだろうというものでした。なぜなら、2024年にはそれについて実際の進歩を見ていなかったからです。2024年、人々がエージェントについて話しているのを聞いたことを覚えていますが、それが何なのか、なぜ重要なのかを定義できる人は誰もいませんでした。

そしてそれ以来、大きく変わりました。2024年を通して、みんながエージェントについて話していましたが、それらが機能している例はほとんどありませんでした。さらに混乱させたのは、みんなが用語を異なる方法で使用し、みんなが完全に異なる定義から作業しているように見えたことです。9月までに、Simonはその用語を避けようとすることにうんざりしていました。なぜなら、それがあまりにも過負荷だったので、彼は独自の明確な定義を作ることにしました。それは、目標を達成するためにループで実行されるLLMです。

具体的には、ツールをループで実行します。これにより、エージェントについて生産的な会話をすることができなくなっていましたが、それは常に彼がこのような技術の用語で目指していたことでした。エージェントが起こるとは思わなかった理由は、騙されやすさの問題が解決できるとは思わなかったからです。彼が騙されやすさの問題をどう定義しているのか気になります。

LLMはあなたが言うことを何でも信じます。あなたの代わりに意味のある決定を下そうとするシステムは、同じ障害に直面します。旅行代理店やデジタルアシスタント、研究ツールでさえ、真実とフィクションを区別できなければ、どれだけ良いでしょうか。そうですね。そして、推論がそれに大きく役立つ理由が分かります。

LLMで人間のスタッフを置き換えるというアイデアは、当時は笑い話でした。彼は自分の予測で半分正しかったです。あなたが頼んだことを何でもやってくれる魔法のコンピューターアシスタントというSFバージョンは実現しませんでした。Herへのリンクが好きです。しかし、エージェントを複数のステップにわたってツール呼び出しを通じて有用な作業を実行できるLLMシステムと定義するなら、エージェントはここにあり、非常に有用であることが証明されています。

そうですね、私は毎日あらゆる種類の作業でエージェントを使っています。それはちょっとクレイジーです。2つの注目カテゴリーはコーディングと検索です。そうです、15分以上かけて詳細なレポートを作成するようLLMに挑戦するディープリサーチパターンは、年の前半に人気がありましたが、今ではGPT-5 thinkingやGoogleのAIモードが流行から外れました。

これらすべてが今では、はるかに短い時間で同等の結果を生み出すことができます。私はこれらをエージェントパターンと考えていて、本当にうまく機能するパターンです。同意します。しかし、コーディングエージェントははるかに大きな問題です。これはコーディングエージェントとClaude Codeの年です。2025年のより影響力のあるイベントは、2月にClaude Codeが静かにリリースされたときに起こりました。

静かと言うのは、当時独自のブログ投稿さえなかったからです。AnthropicはClaude Codeのリリースを、Claude 3.7 Sonnetを発表する投稿の2番目の項目としてまとめました。なぜAnthropicは3.5から3.7に飛んだのでしょうか。それは、10月に3.5のアップデートがあったものの名前を変えず、私たちは皆それを3.6と呼んでいたからです。

そうです、彼らは命名のせいでバージョン番号を丸ごと1つ燃やしてしまいました。Claude Codeは、私がコーディングエージェントと呼ぶものの最も顕著な例です。コードを書き、コードを実行し、結果を検査し、さらに反復できるLLMシステムです。そして今では、すべての主要なラボが独自のコーディングCLIを出しています。

最近Borisのビデオで聞いた引用を入れたいと思います。これがなぜClaude Codeのことが後で起こったのかを文脈化するのに役立つと思います。これを見つけさせてください。彼はスケーリング則について、モデルがどれだけ速く改善しているかを内部的に本当に理解していたと思います。だから彼は実際に私を本当に強く押して、今日のモデルのために構築するのではなく、6ヶ月後のモデルのために構築しろと言いました。

だから正直なところ、長い間Claude Codeは素晴らしい製品ではありませんでした。そして、社内で使われていたときでさえ、私のコードの10%くらいにしか使っていませんでした。時々使っていましたが、モデルが十分に有能ではないので、ほとんどのことができませんでした。そしてある時点でSonnetとOpus 4をリリースしました。これは今年の3月くらいだったと思います。そして製品がうまく機能するようになりました。

これは使用データで見ることができましたし、自分のコーディングでも見ました。おそらく自分のコードの半分くらいに使い始めることができました。そしてこれは完全に実現しました。なぜなら、これは実際にプロジェクトを始めてから文字通り6ヶ月後だったからです。これがタイムラインでした。そして今では、Claude Codeのほとんどは、Claude Codeを使って書かれています。

80%か90%だと思います。このインタビューのこの特定のセクションは私にとって魅力的でした。彼らがClaude Codeを今のモデルができることの周りに構築しなかったというアイデアです。BorisはClaude Codeを、6ヶ月から1年後にモデルができることを期待していることの周りに構築しました。そしてそれができるようになり、実現しました。そして今ここにいます。

これは非常に興味深く、この特定の引用についてずっと考えてきました。なぜならそれは、なぜClaude Codeがそのような静かなリリースだったのかを示しているからです。そしてまた、今どのように構築するかについての異なる考え方を示しています。これらのことが改善し続けることに賭ける意志があるなら、成功する可能性が高いのです。

そして、モデルが今有意義な作業をするために時々使えるツールを構築するなら、でもモデルがより良ければ、ツールはより良く機能します。それが構築すべき正しいものです。Sam Altmanが似たようなことをYCイベントで言っているので、この考え方についてしばらく考えてきました。彼は、モデルが良くなることがあなたのスタートアップを傷つけることを心配しているなら、自分に問いかけてくださいと言いました。モデルが良くなると、あなたの製品は良くなりますか、悪くなりますか。

モデルの改善があなたのビジネスをあまり関連性のないものにするなら、例えばレシピの提案をしているとしましょう。だから、モデルが良くなれば、レシピ専用のアプリはもうそれほど有用ではなくなるかもしれません。困ったことになるかもしれません。しかし、モデルの改善があなたのアプリを良くするなら。AIコーディングツールをやっているかもしれないので、より賢いモデルがそれをより有用またはより使いやすくすることができます。

それなら、それは構築するのに良いことです。しかし、私はこれを、モデルが良くなればという観点で構築することとして具体的には考えていませんでした。そして、それがClaude Codeの成功と、Claude Codeの成功がいつ起こったのかをはるかに理解しやすくします。それは本当に、あなたの願望の周りにハーネスを構築し、それから願望が達成され、今ではすべてがうまく機能するということに帰着します。

どうやら、Simonは2023年の初めにChatGPTのコードインタプリタのようなものを試していたようです。これはChatGPTに組み込まれていて、Kubernetesサンドボックスで安全にPythonコードを実行できました。彼は今年9月にAnthropicがついに同等のものを出したときに喜んでいました。ただし、最初は「Claudeでファイルを作成および編集」という不可解な名前でしたが。

10月には、彼らはそのコンテナサンドボックスインフラストラクチャを再利用して、Claude Code for webをローンチしました。彼はそれ以来ほぼ毎日それを使っています。私はまだClaude Code for webを試していません。最近どれだけClaude Codeを使っているかを考えると、おそらく試すべきでしょう。見てみます。Claude Code for webは非同期コーディングエージェントで、プロンプトを送って忘れることができるシステムで、問題に取り組み、すべてが完了したらプルリクエストを提出します。

OpenAIにはCodex Cloudがあり、最近Codex Webに名前が変更されました。5月にローンチされました。GeminiにはJulesがあり、これも5月に出ました。それからDevonのような企業もあり、まさにこれを構築しています。Simonは非同期コーディングエージェントカテゴリーが大好きです。それらは、個人用ラップトップで任意のコード実行を実行するというセキュリティの課題に対する素晴らしい答えです。

そして、しばしば携帯電話から、複数のタスクを一度に開始し、数分後にまともな結果を得ることができるのは本当に楽しいです。彼はそれについてたくさんの記事を持っているので、興味があればどうぞ。しかし、彼がそこで話していたとき、これはエキサイティングです。なぜなら、彼はコンピューターで物事を実行する必要がないからです。しかし、コンピューターで物事を実行したい場合、2025年はLLMがコマンドラインに到達することでそれを大いに助けました。

どうやら、彼はすでにコマンドライン用のLLMツールを持っていて、CLIで質問をして応答を得ることができました。それは本当に気に入っていました。繰り返しますが、Unixパイプはすべて理にかなっています。Claude Codeとその仲間たちは、十分に強力なモデルと適切なハーネスがあれば、開発者がコマンドラインでLLMを受け入れることを決定的に示しました。

sedやffmpeg、bash自体のような難解な構文を持つターミナルコマンドが、どんなLLMでもあなたのために正しい方法で吐き出すことができるときに、もはや参入障壁ではないことも助けになります。完全に同意します。私は、CLIを少し恐れていた何人かの開発者が、Claude CodexやそのようなものでCLIをもっと使うようになっていることを知っています。

私でさえ、CLIをもっと設定していることに気づきます。通常は設定してから触らないのですが、今年は過去5年くらいよりもZishプロファイルとZish RCファイルを編集しました。どうやらClaude Code自体は年間10億ドルの収益があるそうです。ちょっとクレイジーですが、私も月額200ドルのプランに入っています。

納得です。ZshとはJF呼びません。Zishです。すみません。Zishの作成者がZshだと言っても、Zishです。すみません。発音可能な方法でスペルを作らないでください。それが発音できないなら。BashとZishです。BashとZshではありません。いいえ。現実的になってください、みんな。わかりました、本当の名前はZshellだと知っていますが、私はZishと呼びます。Zishです。Primeは誇りに思うでしょう。

それはほとんど侮辱です。私はシェルについて話しません。LLMは物事を正しく発音することを自動化できますか。それに対して私が言うことは何か分かりますか。YOLOです。YOLOの年と逸脱の常態化です。これは最も興味深いトレンドの一つです。一方で、人々はホームフォルダを削除されています。他方で、彼らはこれらのエージェントを何時間も実行させています。

そして今、私も同じ罪を犯しています。このランダムなターミナルで上矢印を押したら、そうです、これは許可されていませんでした。危険です。これを常に持つようにコマンドを上書きする度胸はまだありません。誘惑されています。非常に誘惑されています。まだそこまではいっていません。いずれにせよ、YOLOモードのアイデアは、私たちが今これらのツールを十分に信頼して、コンピューター上で暴れさせることができるというのはクレイジーです。

Codexは、危険な承認とサンドボックスフラグのバイパスをyoloにエイリアスするところまで行っています。それが大好きです。安全装置なしでエージェントを使用すると、まったく異なる製品のように感じます。そうです。何度も何度もイエスと言う必要がないことが、これらのものの使い方をどう変えるかはクレイジーです。これが非同期コーディングエージェントがクールである理由でもあります。なぜなら、YOLOモードで実行すると、問題を引き起こす可能性が低くなるからです。

Simonは、関連するリスクを深く認識しているにもかかわらず、常にYOLOモードで実行していますが、まだ火傷を負っていません。でもそれが問題なのです。LLMセキュリティにおける彼のお気に入りの作品の一つは、セキュリティ研究者Johan Rebergerによる「AIにおける逸脱の常態化」です。うまく名前を発音できていればいいのですが。Yanは逸脱の常態化現象を説明しています。それは、否定的な結果を伴わないリスクの高い行動への繰り返しの曝露が、人々や組織にそのリスクの高い行動を正常なものとして受け入れさせる現象です。そうです。非常に一般的です。

人々がリスクのあることをして何も起こらなければ、それを続けます。これがスペースシャトル・チャレンジャーが墜落した理由です。そうです。非常に多くの打ち上げが成功したので、人々はリスクをあまり気にしなくなり、物事を真剣に受け止めなくなりました。これらのシステムを根本的に安全でない方法で実行し続ける期間が長ければ長いほど、私たち自身のチャレンジャーや災害に近づいています。そうです。

そうです。常にdangerously skip permissionsを使うべきですか。おそらくそうではありません。しかし、私にはここで本当に興味深い副次的な利点があります。これを使って問題が発生したら、それでコンテンツを作ることができます。だから、私のリスクプロファイルは、ほとんどの人、確かにほとんどの企業とは異なります。そして、これがすべての本番データを削除したり、システムを破壊したりするリスクを実行できる場合、それは私のラップトップよりもあなたにとってはるかに悪いことです。私は意図的に主要なサービスの本番キーを保持していません。

そして、それが何かすべきでないことをして、マシンを破壊した場合、私はそれについて本当に本当に良いビデオを作ることができます。物事が常態化して問題を引き起こすことについて言えば、これは月額200ドルのサブスクリプションの年でもあります。私は現在、CursorとOpenAIでChatGPTとCodexでClaude Code、数日前のように、月額200ドルのプランに入っています。

だから、Googleで2倍を利用したかったのです。当時はV3ができたので、今ではGoogle Driveにデータが多すぎて、プランをダウングレードしてすべてに対処するのが怖いです。それはビジネス経費ですが、そうですね、私は今5つの月額200ドルのサブスクリプションに入っています。それは年間1万2000ドルをAIサブスクリプションに費やしていることになります。

それはばかげています。それは不条理です。おそらく、すべてを分解し、最終的にほとんどをキャンセルするビデオ全体を作るでしょう。OpenAIの月額200ドルが最初に起こったと思っていました。私は間違っていますか。OpenAIがこれを始めて、それからAnthropicがコピーし、それからGoogleが新しいVOのことをやったときに同じことをしたと確信していました。それが順序だと確信しています。

間違っているかもしれません。コメントで事実確認してください。これらは間違いなく狂気の収益を生み出しています。また、ここには奇妙な副作用もあります。ほとんどのユーザーにとって、彼らが月額200ドルのプランをできる理由は、それらのユーザーの半分以上が月に200ドル近くを使わないことです。そして彼らはAPIプライシングのような他のものを持っていて、これはすべてのこれらのビジネスにとってかなり一貫したマージン勝利であり、サービスをほとんど使っていない20ドルプランの多くの人々がいます。

これらの200ドルプランが非常に有用である理由は、月に1,000ドルから2,000ドルのことをするクレイジーなユーザーがそれをできるようにするからです。なぜなら、私は先週、Claudeの月額200ドルのプレイで1,000ドル近く、あるいはそれ以上の推論をしたからです。そして彼らが私にそれをさせる理由は、それから多くのセンチメントの勝利を得るからです。

私は彼らに月に200ドルを払っているので、自分がやっていることに対して公正な金額を払っていると感じています。彼らは私に月額200ドル以上の推論をはるかに与えてくれます。それから私は話したり共有したりすることがもっとあります。だから、それは効果的に、他のすべてのサブスクリプションとすべてのAPI使用によって補助されているマーケティング費用であり、そのプロセスで彼らを殺していません。

しかし、これはT3 chatのような私のビジネスに奇妙な副作用があります。私たちは同じ方法でそれらのマージンを食べる能力を持っていません。実際、それはほとんど逆です。私たちは多くのこれらのモデルに対して最高価格帯を支払って推論をしています。そして、それは月に1,000ドルの推論をしている本当に高価な月額200ドルのユーザーを補助することになります。

私はT3 chatに全額を支払うことでClaude Codeの使用を補助しています。そして、それは奇妙です。なぜなら、それはモデルを作る企業が、モデルを使おうとしている企業に対して任意に望むだけ請求し、それから支払っている以上のものをはるかに与えるこれらのサブスクリプションプランを導入できるという独占的なことだからです。なぜなら、コストはそれによって補助されているからです。彼らが興味を持っている特定のプランや分野で私たち自身のサブスクリプションを提供する能力を殺しています。

これが実際にそうであることが判明し、長期的にT3 Chatのような企業を殺すという目標に成功した場合、彼らはそれらの補助されたコストを支払う人が誰もいなくなり、価格を上げなければならなくなります。しかし、それまでにはモデルのコストが下がることを願っています。そして私たちもそれを生き延びることを願っています。これが私がオープンウェイトモデルを愛する理由です。

これらの企業が月額200ドルで何千ドルもの推論を補助しているために死にたくありません。そして、どうやらSimonはAnthropicのものに早期アクセスを得ています。私はまだ得ていません。彼らは私に何の早期アクセスも与えないラボの一つです。私が最もお金を払っているラボなのに。2026年にはそれが変わるかもしれません。

Claude Codeを十分に気に入っています。多分彼らも私を気に入ってくれるでしょう。彼はまた、APIクレジットの200ドルを使うには、モデルをたくさん使わなければならないと指摘しています。だから、ほとんどの人にとって、トークンごとに支払う方が経済的に理にかなっていると思うでしょう。とはいえ、Claude CodeとCodex CLIをより難しいタスクに使用すると、彼らは莫大な量のトークン使用を行います。

そして、月額200ドルは実質的な割引になります。そうです、私は自分の使用を最善を尽くしてログに記録しました。彼らはClaude Codeでそれを難しくしています。数週間で1,000ドル以上を大幅に超えました。お分かりでしょう。これは中国モデルの年でもあります。繰り返しますが、物事を相殺する良い方法です。2024年は中国のAIラボからいくつかの初期の兆候が見られました。主にQwen 2.5と初期のDeepSeekの形で。

DeepSeek V3は2024年の終わりで、とても良かったので、T3 Chatの構築を始めました。彼らはきちんとしていましたが、世界を打ち負かすような感じではありませんでした。DeepSeek V3は当時のSonnet 3.5に非常に近く、はるかに安かったです。完全には同意しません。彼らは世界を打ち負かすものではありませんでしたが、信じられないほどエキサイティングでした。しかし、これはすべて2025年に変わりました。

彼のブログのAI in Chinaタグには、2025年だけで67の投稿があります。そして彼はたくさんのリリースを見逃しました。彼はGLM 4.7やMinimax 2.1をカバーしませんでした。しかし、チャートを見ると、これらのモデルは素晴らしい成績を収めています。GLM 4.7、Qwen K2 thinking、Mimo V2 Flash、DeepSeek 3.2、Minimax M2.1はすべて中国のオープンウェイトモデルです。

チャート内の最高の非中国モデルは、OpenAIのGPT O1 1206 1200億で、6位になります。私のState of AI 2025ビデオでは、これについてもっと深く掘り下げています。だから、もっと学びたいなら、それを見るか、彼の記事を読んでください。中国のモデルについてはここでもう少し他の部分について話したいからです。

長いタスクは私のお気に入りの一つで、この一つには掘り下げたい多くのレイヤーがあります。これは、特定のタスクを人間が行うのに何時間かかり、モデルが半分以上の時間それをできるかということです。だから、この特定のライブラリでバッファオーバーフローを悪用することは、その分野の経験豊富な人間が行うのに約2時間半かかり、2025年半ばには、半分以上の時間で同じタスクを完了できるモデルを見始めました。

そしてOpusが追加され、チャートを破りました。Opusは、通常人間が5時間かかるタスクを50%以上の成功率で完了できます。それはクレイジーです。だから私は、リポジトリ全体を1つのパッケージから5つにリファクタリングし、monorepo構造を作成し、Turbo repoでのすべての奇妙なことを処理し、1回の発火でゼロからモバイルアプリを構築するといった、これらの非常識なタスクを渡すことができました。

まさに不条理です。それが変わったクレイジーなことの一つです。2024年の半ばから後半にかけても、これらのモデルができる最高のことは、現実世界の作業の半時間くらいで、今では5時間やっています。それは巨大な巨大な変化です。おそらく今年の最大の変化です。

Meterの結論、ちなみにMeterはその研究を行った人たちですが、彼らはAIができるタスクの長さが7ヶ月ごとに2倍になっていると結論づけました。Simはこのパターンが続くと確信していますが、それでもかなりクレイジーです。私はある時点で頭打ちになることを期待していますが、私たちはクレイジーな時代にいます。これはまた、GrappleからのState of AI codingで掘り下げたいことの一つです。

今年にわたって、PR当たりの平均変更行数。これはAI PRだけではありません。これは一般的なPRで、3月から11月まで33%増加しました。一般的なPRがサイズで引き上げられているという事実を考えると、それはクレイジーな現実世界の変化です。なぜなら、これらのモデルができる作業量が長さで増加しているからです。

開発者あたりのコード行数も4,450から7,800に増加しています。これはウィンドウ全体ですか。これは月あたりのようなものですか。わかりました、それは月ごとです。興味深い。だから、そうです、開発者あたりのコード行数は76%増加しました。クレイジーです。クレイジーです。中規模チームの平均出力は89%増加しました。だから、6人から15人のチームは、開発者あたり約7,000行のコードから13,000行に出力を増やしました。

そして、ファイル当たりの変更行数も増加していますが、それほどではありません。これはすべて、これらの長いタスクのことに関係していると思います。より長い間作業できるという事実は、行われている作業の範囲を広げ、これらすべてのことを引き上げます。そして、私のような最先端にいる人々は、エディタをほとんど使わないポイントに近づいています。

私は今、エディタでコードを書くよりも、GitHubでコードをレビューすることにはるかに多くの時間を費やしています。より多くのモデルが学術コンテストやクレイジーなプログラミングコンテストで金メダルを獲得し始めました。クールです。素晴らしい。私たちがここにいる理由ではありません。私たちは現実世界のことについて話しています。これはまた、Llamaが完全に落ちた年でもあります。

4月のLlama 4を覚えていますか。彼らは大きいバージョンさえリリースしませんでした。そうです、Llama 4の巨大な2兆パラメータバージョンは消えました。ただ消えました。静かに。消滅しました。どうなるか見てみましょう。しかし今のところ、かなり死んでいます。しかし、ここで物事は本当に興味深くなります。OpenAIがリードを失った年です。

OpenAIがどのように2位に落ちたかについてのビデオを作りました。強くお勧めします。本当にそのビデオを誇りに思っています。サムネイルも本当に誇りに思っています。彼らはほとんどすべてで2位です。そしてついに十分に悪くなりました。彼らは内部的にコードレッドを宣言しました。これは、Grapple tileピースの私のお気に入りのチャートのもう一つです。

彼らは、コードで異なるモデルを使用するための異なるSDKがどれだけ人気があるかを追跡しています。OpenAIのSDKは明らかに時間とともに爆発的に増加しています。2023年から現在まで、月に約80万インストールから成長しました。これはPyPI monthlyです。だから、月に約80万インストールから1億3000万に成長しました。しかし、その同じ時間枠で、Anthropicは大規模に成長し、2023年4月以来1,547倍以上になりました。そこでは0.0でした。ここでは丸め誤差です。

ゼロに下がるだけです。そして今、彼らは月に3,000万から3,100万のインストールを引っ張っています。ここでの比率の違いを比較すると、非常に興味深いです。最悪の時点では、OpenAIのSDKはAnthropicのSDKの45倍インストールされていました。そのギャップは現在4.2倍にまで縮まりました。魅力的です。こういうものを見るのは超興味深いです。

また、気になる場合は、私も気になっていましたが、Vercel AI SDKの成功も非常に興味深いです。これはpip plus npmですが、Vercel SDKはnpmのみであるにもかかわらず、Anthropic SDKの半分の人気を得ています。非常に非常に興味深いことです。Vercel SDKは、Vercelによって構築された最も重要なものの一つとして記憶されるでしょう。

それはおそらくNext.jsを全体的な影響の面で追い抜くでしょう。それについて考えると本当に面白いです。しかし、OpenAIが苦戦しているもう一つの理由はGeminiです。個人的には、Geminiのものは大量データ処理、特に2D画像を分析しようとしている場合のビジョンのこと、画像とビデオの生成に最適に使用されると思います。

ビデオでは彼らはもうそれほど得意ではありません。彼らは打ち負かされましたが、画像では彼らはまだ王様です。しかし、私はこれらのモデルを使うのが嫌いです。特に仕事には。彼らはただツール呼び出しを幻覚し、JSONを吐き出します。彼らは一緒に仕事をするのが最悪です。しかし、彼らは有能です。OpenAIが今恐れているほど有能です。

そして、彼らが独自のTPUを実行しているという事実は、さらに怖いです。これはまた、ペリカンがついにSVGで自転車に乗れるようになった年でもあります。これは、Simonがモデルに試してもらうために尋ねるのが大好きなことです。自転車に乗っているペリカンのSVGを生成してください。そして今、彼らはかなりまともになりました。彼のお気に入りは、私たちがGPT-5の早期アクセスのことで一緒にいたときに得たGPT-5のものです。まだとてもクールです。

そして、これはまた、彼が110のツールを構築した年でもあります。そして、これは私がここで行ったクリックベイトな始まりにつながります。私たちが書くコードの大部分は、もはや手で書かれていませんが、私たちは10倍以上のコードを書いています。ちょっとクレイジーです。私は昨年3つのアプリのうち5つを出しました。今年は15くらい出しましたし、内部でのみ使用するものがもっとたくさんあります。

有用なものを構築することは、これまでになく簡単です。その結果、まあ、私が推測するに、自分で書いていなくても、これまで以上にはるかに多くのコードを公開しています。Claude Codeについてのビデオが非常に近い将来出てきます。そこでは、エディタを一度も開かずに使用するすべての方法について詳しく説明します。私がこうなるとは思っていませんでした。

これは、ああ、まあまあだけどCursorに固執するつもりだ、から、ああ、ああ、今コンピューターを別の方法で使えるようになったんだ、という2週間の旅でした。私はまだCursorが大好きです。明らかに、私は投資家なので、そのバイアスを考慮してください。実際のプロジェクトと実際のコードベースで作業しているとき、私はCursorで多くの時間を費やします。しかし、新しいものをいじくり回しているとき、グリーンフィールド、コンピューターの修正、物の変更をしているとき、私はClaude Codeができることが本当に本当に好きです。

彼がリリースして投稿した110のツールはとてもクールです。ここに彼のアプリの例があります。黒くなったカリフラワーとトルコ風シチュー。これは彼が作った馬鹿げたアプリです。Green Chefの黒くなったカリフラワーとトルコ風スパイスひよこ豆シチューのレシピを同時に準備する必要がある人のためのカスタム料理タイマーです。

それはとても奇妙な特定のニーズで、彼はそのソリューションをバイブコーディングしました。そして彼はまた、古典的なXKCDコミックに基づいて、それは鳥ですか、というアプリを作りました。私のお気に入りの一つです。ユーザーが写真を撮ると、アプリは彼らが国立公園にいるかどうかをチェックする必要があります。もちろん、簡単です。GISシステムで調べます。数時間ください。

また、写真が鳥のものかどうかもチェックします。5年で研究チームが必要になります。CSでは、簡単なものと事実上不可能なものの違いを説明するのが難しい場合があります。古典的です。そしてそれはAIのおかげで今ははるかに簡単でもあり、はるかに難しくもあります。しかし、彼は写真が鳥かどうかを教えてくれるアプリを構築しました。transformers.jsと小さな150メガバイトのモデルを使って。面白いです。

彼らはまた、カスタムBlueskyスレッドビューアを作りました。超クールです。カスタムSVGレンダラー、マークダウンレンダラー、altテキスト抽出ツール、どのツールを最も頻繁に使用しているかを追跡するためにローカルストレージに対して構築したプライバシーフレンドリーな個人分析ツール。超興味深いです。そしてお気に入りのセクション、密告者の年です。

このセクションが好きです。なぜなら私がその中にいるからです。本当に誇りに思っています。モデルの密告がどれほど積極的になっているかを測定する私の小さなばかげたベンチマークが、あらゆる種類のクレイジーな場所で参照されるものになりました。私たちは実際にそれで研究を行い、完全に具体化することに取り組んでいます。超エキサイティングです。ありがとう、Simon。Simonが、私が誰であるかあまり知らずに、クールだと思ったことについてブログ投稿をしただけだったとき、これは私の年のハイライトの一つでした。

しかし、私たちはそれ以来良い友達になりました。私の人生にSimonがいることは幸運です。そして私たちはまた、2026年にSimonにもっとたくさんのお金を稼がせるために非常に懸命に働くつもりです。彼はこのコンテンツを無料でやるべきではないからです。それについて言えば、Simon、もしこれを見ているなら、スポンサーをする気にさせるインセンティブとして、このビデオのスポンサー収益と広告収益の半分をあげます。時が来ましたよ。

もし何か責任があるなら、私に責任を取らせてください。私があなたにそうさせたと世界に言ってください。あなたは支払われるべきですし、この仕事にはよく支払われるべきです。これらのものはあまりにも良すぎます。時が来ました。そしてタイトルに戻ります。バイブコーディングの年に入るにあたって、2月のツイートで、Karpathyはバイブコーディングという用語を作りました。

それがわずか10ヶ月前だったとはクレイジーで、これは多くの異なる定義になりました。彼の定義はちょっと長かったです。もしまだ見ていないなら、私はこれについて多くのビデオを持っていますが、バイブコーディングとの私自身の関係も変わりました。ああ、ははは、コードを読まずにプロジェクトを作れるんだ、ちょっとクールだ、から始まりました。

待って、これは地獄のようにクールだ、に。ああ、くそ、このコードは最悪だ。もっと多くの時間を費やす必要がある、に。物事をレビューすることにどれだけの努力を払うべきか、そしてその努力をどこに置くべきかについて、直感、直観を構築し始めるこの新しい異なる場所に。時間とともに、私はこれらのツールについて、バイブコーディングについて、いつコードを読むべきか読まないべきかについて、どう考えるかという点ではるかに良い場所にいることに気づきました。

その結果、私はまったく異なる方法でコーディングしています。だから、バイブコーディングの元のアイデアは、コードを見ないで、ツールにそのことをさせるというものだったのはクレイジーです。モデルとツールがひどかったので、それは馬鹿げているように見えました。本当に小さな一回限りのことには楽しかったですが、意味がありませんでした。この用語は、コードをすべて読んでいても、AIを使ってコーディングすることに流用されました。それは愚かでした。

だから、人々は本当にバイブコードではないことにこの用語を使い始めました。私はその用語と関連付けることを拒否しました。なぜなら私はそれをやっていなかったからです。そして、モデルとツールが良くなるにつれて、私は一回限りの変更、サイドプロジェクトの構築、あらゆる種類のことを回すために、コードを読まない伝統的なバイブコーディングをしている自分を見つけました。私が今年書いたコードの大部分、または今年書いたコードは、バイブコーディングされたと言えます。

それは私が一回限りのプロジェクトのために構築し、二度と読まなかったソースコードでした。Claude Codeビデオが来ています。しかし、このプロジェクトを見て、gitの部分を削除すると、私は今JJを使っています。このプロジェクトには、ゼロからたった2日間で書かれた12,000行のコードがあることがわかります。私によるゼロです。私はこれをエディタで開いたり、このプロジェクトで1行のコードを変更したりしていません。

すべてがClaude Codeを通してです。それはクレイジーです。それはたくさんのくそコードです。しかし、Simonが言うように、彼は新しい用語がこれほど早く定着したり歪曲されたりするのを見たことがあるかどうか分かりません。そうです。そうです。そして私はバイブコーディングについて話すときにSimonの仕事を非常に多く引用してきました。彼は元の用語を維持し、意味のあることについて話す方法を見つけるために最善を尽くしてきました。

彼は、プロフェッショナルエンジニアがAI支援を使って本番グレードのソフトウェアを構築するときのために、バイブエンジニアリングという新しい用語を使いました。それも本当に好きです。彼はここに多くの仕事を入れました。彼が底で言ったように、私は本当にもっと対立的でない言語的趣味を持つべきです。とてもリアルです。とてもくそリアルです。バイブコーディングについてもう一つの部分がありますが、私はそれについてずっと考えてきました。

Peterのこの記事は本当に良く、いつものようにこれらすべては説明欄にリンクされているので、もっと情報が欲しい場合は説明欄をチェックしてください。PeterはClaude CodeではなくCodexでやっている狂気のことについてもっと共有してきました。驚くほど良い理由があります。この記事は5月以来何が変わったかから始まります。

5月には、いくつかのプロンプトがそのまま機能するコードを生成できることに驚いていたバイブコーディングがどれだけ進んだかは信じられません。これは今や期待です。私も同じように感じています。OpenAIオフィスで初期バージョンのGPT-5をCursorで遊んでいたときの感覚を覚えています。以前のモデルの手が届かなかったことをするように頼みました。問題なくやりました。

それからそれをたくさん押して、どこまで行けるか見ました。そして最終的に、T3 chatのgo buildプロファイルの実装を渡しました。そして、それはコードベースに60か70の型エラーを追加しました。決して回復できないコードでした。私はああ、試したと思いました。1時間かかって失敗しましたが、試しました。それがくそ6月か7月だったという事実と、それ以来ほとんどのラボがそのタスクを実行できるモデルを持っているのはクレイジーです。

3ヶ月前にもちろんそれはできないというハハだったことが、今ではただの期待になっています。それがどれだけ速く変化したかはクレイジーです。それはモデルが良くなり、ハーネスが良くなり、私たちの期待が良くなり、Claude.mdファイルが良くなり、これらすべてのことが改善されたことでした。彼はまた、時間とともに発展し始めるこの興味深いバイブを指摘しています。

伝統的に、抽象化が間違っているときを知るには、コードを書いている必要があるように感じました。そして私は完全にそこに同意します。本当にそう思っていました。しかし今、どのツールがどのような方法で意味をなすかについての私の以前の理解でプロジェクトを構築していて、私がやっていたであろうことをやるようにモデルに頼むと、うまくいきます。

そして抽象化が間違っている場合、実行に時間がかかりすぎたり、初回で失敗したりすると疑わしくなります。それが何かが間違っていることを知るときです。この記事全体は素晴らしいです。まだの場合は、ぜひチェックすることを強くお勧めします。説明欄にリンクがあります。彼の記事の最後の一つ。なぜ彼がCodexをもっと好きかを明確にしませんでした。Codexは遅いです。

それはより多くのファイルを読みます。より多くのことをチェックしますが、最終的に正しい結果を得る可能性が高いです。だから、彼は使うことを気にしません。彼はただ同時に多くのことを実行しています。ハーネスがそれほど強力でなくても、モデルははるかに喜んでスピンして物事を見つけ、ファイルをチェックし、はるかに多くを引き込みます。

だから彼は、難しい仕事のためにより高い成功率を持っていると主張しています。そして正直なところ、私はそれをある程度見てきましたが、Claude Codeのフィードバックループは非常にタイトなので、私はまだそれを使っている自分を見つけます。仕事によります。もし私がCodexについて再び深く掘り下げるなら、それは純粋に彼のせいです。彼は私がそれを試すインスピレーションです。

私たちがいた場所に戻ります。なぜなら私はMCPについて文句を言いたいからです。Simonはこのセクションを「MCPの唯一の年」と呼んでいます。その理由は理解しています。彼と私はこれについて似たような見解を持っています。Anthropicは昨年11月にModel Context Protocolの仕様を導入しました。まあ2024年です。今では2年前です。クレイジーです。それは、異なるLLMとツール呼び出しを統合するためのオープンスタンダードでした。2025年初頭、それは人気が爆発しました。

5月には、OpenAI、Anthropic、Mistralがすべて8日以内にAPIレベルでMCPのサポートを展開したポイントがありました。それは十分に理にかなったアイデアですが、巨大な採用は驚くべきものでした。Simonは、これはタイミングに帰着すると考えています。MCPのリリースは、モデルがついにツール呼び出しが得意になり、信頼できるようになったポイントと一致しました。多くの人々がMCPサポートをモデルがツールを使用するための前提条件として混同しているように見えました。

そうです、モデルはファイルの編集やコマンドの実行がMCPの呼び出しよりもはるかに得意です。そしてMCPはほとんどのことに意味をなさない実装の悪夢です。しばらくの間、MCPは、AI戦略を持つようにプレッシャーを受けていたが、それをどうやってやるか本当に知らなかった企業にとって便利な答えのように感じられました。

MCPを追加することは、今やあなたがAI企業であることを意味しますよね。彼がMCPが1年限りの不思議だと考える理由は、コーディングエージェントの成層圏の成長です。どんな状況でも可能な最良のツールはBashであるように見えます。エージェントが任意のシェルコマンドを実行できるなら、ターミナルにコマンドを入力することで実行できることは何でもできます。

ほとんどのことがそうであることが判明しました。Claude Codeとその仲間たちに自分自身が大きく傾倒して以来、私はMCPをほとんど使っていません。GHのようなCLIツールやPlaywrightのようなライブラリが、GitHubやPlaywright MCPよりも良い代替手段であることが分かりました。Anthropic自身は、年の後半に素晴らしいスキルメカニズムのリリースでこれを認めているように見えます。

Simonの10月の投稿を見てください。Claude skillsは素晴らしい、多分MCPよりも大きな問題です。MCPにはWebサーバーと複雑なJSONペイロードが含まれます。スキルは、オプションで実行可能なスクリプトを伴うフォルダ内のマークダウンファイルです。そうです、理にかなっています。通常、それはただのマークダウンファイルで、ちょっと面白いですが、それはMCPの混沌と、これらすべてのくそをサーバーに実装することよりもはるかに優れています。

彼らはまた、MCPのためにコード実行を導入しました。それは全体をこのような面白い方法でまとめるようなものです。私はこれについて多くのビデオを持っています。また、私はこれを知りませんでしたが、Simonは発表の1週間前にAnthropicのスキルをリバースエンジニアリングすることができました。そして2ヶ月後にOpenAIにも同じことをしました。

MCPは12月の初めにLinux FoundationPart of the Linux Foundationの一部であるAgentic AI Foundationに寄付されました。そしてスキルは18日にオープンフォーマットになりました。素晴らしい。それからAIブラウザがあります。私はこれについて心配していることについてビデオ全体をやりたいと思っていますが、まだです。致命的な三つ組の年です。そうです。突然、外部コミュニケーション、プライベートデータ、信頼されていないコンテンツ。

モデルは今、はるかに多くのものにアクセスできます。怖いです。そして、私がまだやっていないけれども、非常に近い将来やることを計画している深い掘り下げ。Simonは私がそれをする最大のインスピレーションです。携帯電話でプログラミングする年です。Simonは今年、コンピューターよりも携帯電話からより多くのコードを書きました。年のほとんどを通して、これは彼がバイブコーディングに大きく傾倒していたからでした。

tools.simonwillison.netのツールは、ほとんどそのように構築されたHTML plus JavaScriptツールのコレクションです。プロジェクトのアイデアがあれば、それぞれのiPhoneアプリを介してClaude artifactsまたはChatGPTまたは今ではWebでClaude Codeをプロンプトします。そして、結果をコピーしてGitHubのWebエディタに貼り付けるか、モバイルSafariでレビューしてマージできるPRが作成されるのを待ちます。そうです。そうです。

これらのツールは通常、彼にとって100から200行のコードで、興味のないボイラープレートと重複したCSSとJSパターンでいっぱいですが、それらの110が合わさると多くになります。そうです。11月まで、Simonは携帯電話でより多くのコードを書いたと言っていたでしょうが、ラップトップで書いたコードは明らかにより重要で、完全にレビューされ、よりテストされ、本番用に意図されていました。

しかし過去1ヶ月で、それが変わりました。なぜならOpus 4.5は、彼が携帯電話でClaude Codeで以前やっていたよりもはるかに複雑なことをできるからです。Djangoを含む非おもちゃプロジェクトに着地させるつもりのコードを含めて。そうです、私は非常に似たように感じています。携帯電話の部分ではなく、ターミナルでバイブコードで物を書くという部分です。

そうです、彼は新しいFabricプロジェクト、quickjs.jsをポートすることさえできました。知らない方のために、Fabric Bellard、FFmpegの作成者、QEMUの、QuickJSの、そして彼が出したばかりの他のランダムなくその束、新しいJSランタイムです。そして彼はCライブラリをPythonにポートしたかったのですが、携帯電話でClaude Codeをプロンプトすることでほとんどそこまで到達できました。

それは非常識です。絶対に非常識です。そして、これはコーディング方法の大きな変化でもあり、なぜ私たちがますます多くのコードを自動的に書いているのかです。それは適合性スイートの年です。突然、本当に良いテストベンチを持つことは、物事をはるかに、はるかに良くします。なぜなら、モデルはエラーを見て、それがどこから来たかを見て、それを修正することができるからです。

彼らは今、これらのタイプのループを行う能力を持っています。それは巨大な変化です。2026年に新しいプロトコルや新しいプログラミング言語さえも世界に導入する場合、Simonはプロジェクトの一部として言語にとらわれない適合性スイートを導入することを強くお勧めします。同意します。ローカルモデルは今年良くなりましたが、クラウドモデルはさらに良くなりました。

同意します。私のState of AIビデオでもっとカバーしています。ローカルモデルは今有用ですが、クラウドモデルは今信じられないほど強力です。彼らで実際の作業ができるようになりました。Simon、あなたはまだラップトップをアップグレードしていません。私は文字通りあなたにラップトップを買います。チャットしましょう。最後の部分、スロップの年です。

スロップは今非常に人気のある用語です。彼は2024年5月にそれについて書きました。その直後にGuardianとNew York Timesで引用を獲得しました。今ではMerriam Websterの年の言葉です。面白いです。それはまた、データセンターが非常に不人気になった年でもあります。世論はデータセンターに対して積極的に転換しました。200以上の環境グループが、新しい米国のデータセンターの停止を要求しました。

すべてあなたが主張するのは水の使用です。私はそれは一般的に電力がそれで最大の問題だと思います。しかし、そうです、人々は今データセンターを憎んでいます。私たちはおそらく、人々がそれらを取り壊したり、データセンターで抗議したりするような本当に怖いくそを見始めるでしょう。奇妙な年になるでしょう。

そしてここにSimonの今年のお気に入りの言葉があります。バイブコーディング。バイブエンジニアリング。致命的な三つ組。コンテキストが長すぎると成長するにつれてモデルが鈍くなるコンテキストローット。プロンプトエンジニアリングの代わりにコンテキストエンジニアリングです。モデルに正しいコンテキストが存在することを確認します。これはおそらく今年の私のお気に入りです。

モデルが正しい方向に進む可能性が高くなるように、モデルが持つコンテキストを管理します。推論さえもある程度これだと主張します。LLMが不正確なパッケージ名を幻覚し、それがマルウェアを配信するために悪意を持って登録されるスロップスクワッティング。それは面白いです。モデルがパッケージを幻覚し、誰かがそのパッケージ名を取得して悪意のあるものにします。面白いです。

ちなみに、npmでcloudblockがどのようにオープンだったのか分かりません。Claude Codeを実行していないときにTwitterをブロックするようなツールをブロックするための私の拡張機能のためにそれを手に入れましたが、これは悪くなるでしょう。プロンプトによって駆動されるコーディングエージェントによって実装されたプロジェクトをスクレイピングするためのバイブスクレイピング。私はこのような奇妙なスクレイピングのことをやったことがありますが、おそらく人気のある用語ではありません。

非同期コーディングエージェント、これは今全体的なものであり、抽出的貢献、これはオープンソース貢献のためのNadiaによる用語で、貢献をレビューおよびマージする限界費用がプロジェクトの生産者への限界利益よりも大きい場合です。非常に良い、非常に良い用語、非常に現実的なことで、PRがコードを読むだけでも、ましてやそれをマージすることは、それを行うコストがコードがそこにあった場合の利益よりも大きい場合です。

そして、チャットからもう一つの素晴らしい用語。Open CodeのAdamが有機的なコードを落としました。適切なAI支援を受けて人間によって書かれました。私の好きなビーガンとして、彼がこれを落とすのは理にかなっています。なんという年だったでしょう。私のコーディング方法は根本的に変わりました。おそらく、私のコードのどれだけがAIで、どれだけが私のものでなかったかについての分析を行う方法を見つけるべきです。

まあ、それは後の問題です。多分私もそれをバイブコーディングで出すでしょう。しかし、あなたたち全員がどう感じているか気になります。全体的にはるかに多くのコードを書きましたか。そして、そのうちどれだけがあなたのもので、どれだけがAIのものでしたか。私は実際に興味があります。あなたはチームでAIを使っている一人の人ですか。これらの技術についてまだ弱気ですか。それとも、仲間全員がこれらのことに取り組む中で、遅れをとっていると感じていますか。あなたたち全員がどう感じているか教えてください。そして次回まで、平和を、オタクたち。