AIコストについて私が間違っていたこと（コストは上がり続けている）

この動画は、AI業界における料金体系の急激な変化について詳細に分析した内容である。投稿者は以前「AIは底辺への競争」という動画でAIモデルの価格下落を楽観視していたが、実際には推論機能を持つ新世代モデルによってコストが大幅に増加していることを認めている。特にGrok 4のような推論モデルは、表面的なトークン単価は安くても、大量の推論トークンを生成するため実際の利用コストが従来モデルの20-30倍に跳ね上がる現象を詳しく検証している。この構造的変化により、定額制サブスクリプションモデルを採用するAI企業の多くが経営難に陥っており、AnthropicのClaude Codeですら無制限プランを撤回せざるを得なくなった状況を分析している。

I was wrong about AI costs (they keep going up)

Despite the cost of tokens going down, AI is actually getting more expensive...Thank you Fal for sponsoring! Check them ...

AIコストの現実：予想外の価格上昇
価格の謎：なぜGrok 4はそんなに高いのか
AIが高くなる理由の分析
トークン量の爆発的増加
AI業界の構造的問題

AIコストの現実：予想外の価格上昇

少し前に「AIは底辺への競争」っていう動画を公開したんや。これは、いろんなモデルの価格がどんどん安くなっていって、それがどれだけワクワクすることかっていう話やってん。一方では俺、ちょっと正しかったんやけど、もう一方では本当に、本当に間違っとったわ。

実際、俺はちょっと騙されてた感じがするんや。こんなチャートを見ると、いろんなモデルがどれくらいのコストかかるか、めっちゃはっきりしてるように見えるやろ？ここ見てみると、O3 ProとClaude 4 Opus Thinkingはめっちゃ高いけど、他のモデルはそうでもないってわかるんや。これらの価格は、100万トークンの入力と出力で計算されてるんや。

Claude 4 Opusへの100万トークンの入力は15ドルで、Claude 4 Opusからの100万トークンの出力は75ドルや。これはかなりの金額や、特に2.5 Flashみたいなもんと比較したら、入力100万トークンあたり30セント、出力100万トークンあたり2.50ドルやからな。2.0 Flashの時はもっと安かったしな。ここで考えることはいっぱいあるけど、めっちゃ明らかに見える。Grok 4はClaude 4 Opusより3倍から20倍安いってことやろ？そうやろ？

まあでも、俺がベンチマークを実行した時は、そうじゃなかったんや。実際、Grok 4はGemini 2.5 Proより2.5倍高くて、ほぼ5ドルかかったんや。そして文字通りClaude 4 Opusより20倍から30倍高くて19ドルかかった、まったく同じベンチマークを実行してるのにや。

価格の謎：なぜGrok 4はそんなに高いのか

一体全体何が起こってるんや？トークンがめっちゃ安いのに、なんでGrok 4はそんなに高いんや？なんでトークンにそんなに料金取ってるモデルがこんなにいっぱいあるんや？そして一番重要なのは、artificial analysisのベンチマーク実行コストを見た時、なんでこのチャートが他のコストチャートと全然違うように見えるんや？

ここで掘り下げることはいっぱいある。そして結果はめっちゃ高いんや。俺は個人的に、この情報を自分で検証するためにこれらのベンチマークを実行するのに使いすぎたわ。そしてGrokにお金を渡すのは大嫌いやけど、みんなのためにこれらの数字を得るためにせざるを得なかったんや。誰かが請求書をカバーしなあかん。

今日のスポンサーから一言言わせてもらって、それからすぐに飛び込んでいくで。

AIモデルは毎日良くなってる。コードへの影響は見てきたけど、画像生成、動画生成、音声生成の世界への影響は見たことあるか？物事がどれだけ変化してるかはクレイジーや。でも問題がある。それらの異なるモデルは設定するのがめっちゃ難しいんや。異なる言語モデルでやるみたいに簡単にドロップできひん。

いろんな異なるAPI、請求システム、回避しなあかん変なプラットフォームのものがめっちゃある。今日のスポンサー、FALを使わない限りはな。この人たちは、アプリに生成機能を追加するのをめっちゃ簡単にしてくれたんや。古いHerokuの日々みたいに感じる、ただ飛び込んで、クリックして、準備完了や。でも俺が試した他の全てよりレベルが上やねん。

Google Cloudのダッシュボードに入って、物事が適切に設定されてることを確認する時、めっちゃ痛みを感じるわ、だってこっちの方がめっちゃ良いからや。ちょっと見せてやるわ。彼らが持ってるいろんなモデルを探索できる。探してるモデルの異なるタイプをチェックできる素晴らしいギャラリーがあって、他の会社のいろんなものもサポートしてる、動画モデル、Flux Pro contextモデル、そしてGoogleのV3まで。

実際、今現在GoogleからアプリケーションにVideogenを追加する一番簡単な方法や。Recraft V3テキスト画像を使った簡単なデモがここにある。スケートボードに乗ってるコーギー。実行。これらの追加設定を全部変更できる。解像度、スタイル、色など変更できる。生成あたりいくらかかるか、1ドルで何回生成できるかも教えてくれる。

持っておくべき本当に良い情報や。でも一番重要なのは、良い画像を生成することや。そして今、APIタブをクリックすると、開発者として期待する全てのものが見える。ここでJavaScript nodeオプションをクリック。PNPMをクリック、それが使いたいものやからな。好きならFALクライアントをインストールできるし、代わりにfetchで叩きたいならそうすることもできる。

APIキーをドロップして準備完了や。file.subscribe、使いたいモデルを渡して、入力を渡して、リクエストに対してやりたい他のカスタマイゼーションを渡して、欲しいなら進行中のアップデートを取得して、完了したら結果を取得する。設定がこれ以上簡単になることはない。そして一番重要なのは、異なるモデル間、さらには異なるプロバイダー間での切り替えがこれ以上簡単になることはない、ここの文字列を変更するだけやからや。

約束するわ、俺は経験済みや。画像生成の異なる方法を切り替えるのは全然楽しくない。最初からFALで始めてたら、めっちゃ簡単やったやろう。そして彼らと遊べば遊ぶほど、俺たちが構築した全てに彼らを使いたかったと思うわ。まだやってないなら、今日soyv.link/falでチェックしてくれ。

AIが高くなる理由の分析

AIがなんで高くなってるかについて話そうや。コストには2つの主要な要因がある。1つはトークンあたりのコスト。まだトークンに馴染みがないなら、モデルに与える時のインプットがどう分解されるかっていうことや。何かランダムなコードを掴んで、OpenAIのトークナイザーに貼り付けると、この情報をどうトークンに分解するかを見せてくれる。トークンはモデルが情報を処理して、次に最も可能性の高いトークンを予測するために使うものや。

これは、モデルが使えるように情報を分解するための基本単位や。これにもうちょっと単語っぽくて、コードっぽくないものを与えると、分解がめっちゃ違うのがわかるやろ。ここのコピーがどうトークンに分解されるかがこれや。334文字、83トークン。だいたい1トークンあたり4文字や。

いろんなことに依存する。これも、入力にJSON形式を使うのが良くない理由でもある、形式の中の文字や何やらで取られる追加スペースの量のせいで本当にトークンが重いからや、XMLみたいなものと比較すると、XMLはもうちょっと効率的になる傾向がある。それがトークンっていうものや。

100万トークンのコストについて話してる時は、100万の入力トークンが一定の金額かかって、100万の出力が異なる、より高い金額かかるんや、新しいトークンを生成するのは既存のものを処理するよりも高いからや。トークンあたりのコストが最初のコストやけど、2番目のコストがあって、物事が変わり始めてから間違いなくもっと重要なやつがある。推論や。

推論の問題は、生成される出力トークンの数を大幅に増加させることや。簡単な例として、俺が作ったスケートボードのトリックに異なるモデルがどれだけ良く名前をつけられるかを測るベンチマーク、skate benchのシステムプロンプトを与えたんや。トリック命名アシスタントやって伝える。説明が与えられたらトリックの名前を付ける。一番一般的な名前だけを与える。そして基本的に360フリップっていうものを聞いてる。ボードが360度バックサイドに回転して、キックフリップの方向にフリップする。スケーターは回転しない。これは360フリップや。これをGemini 2.0に与えてる、これは非推論モデルで、バックサイド360フリップって言った、間違いやけど、まあええわ。出力は7トークンやった。

これを推論モデルと比較してみよう。実際に推論情報をくれるやつを使おう。Anthropicについて本当に好きな数少ないことの1つ、彼らは推論をくれる。そやから、Claude 3 reasoning medium budgetを使おう。そして今、これらの推論トークンを全部生成して、それでもバックサイド360フリップっていうめっちゃ小さい答えをくれる。

そやから、255トークン対7トークンやった。今、これをGrok 4と比較してみよう。Grok 4は推論の予算を選ぶ能力すら与えてくれへん。そやから、好きなだけ推論して、推論トークンすら与えてくれへん。ただthinking、thinkingを何度も繰り返すだけや。まだ生成してないのに、まだ生成してると思ってる、Grok 4 APIはめちゃくちゃ不安定で信頼できひんからや。

603トークン。2語で63トークン。どれだけばかげてて愚かなことかわかるか？特に、彼らがそれらのトークンをくれない時はな。出力が入力よりもどれだけ高いかを考えると、それは意味があることや。そしてベンチマーク全体を実行した結果を見ると、チャート上の他のすべてのモデルより2倍以上高いコストがかかってるのがわかる。

実際、俺がskate benchを実行した他のすべてのモデルを足しても、Grok 4で1回実行するよりまだ少ない金額や、think thinkを止められへんからな。そして、これをパフォーマンス対コストのチャートで見ると、さらに面白く見える、O3がテストを実行するのに文字通り5セントかかって、同じテストを実行するのに5ドルかかったGrok 4よりも良いスコアを出したからや。

コストで100倍の違いがあって、パフォーマンスはちょっと悪い。Grok 4は素晴らしいモデルや。この怒りは、俺に送られてきた記事に触発されたもので、Ethanの人と一緒に読みたいと思う、俺も同じことに怒りを感じそうやからな。そやから、飛び込もう。モデルは10倍安くなって、90%のマージンを持つことになる。

トークン量の爆発的増加

トークン量が10,000倍増加。そう、cursorの価格がなぜ上がったかについての俺の動画を覚えてるか？同じ話やった。平均的なリクエストは、最大で数百トークンから最低で数千トークンに変わった。これは、このようなもののコストプロファイルの大規模な変化や。俺の例をここで取って、これをトークナイザーに投げ込むと、83の入力トークンや。

俺の例では、入力は常に83トークンや。これを100回実行したとしよう。1000回実行したとしよう。1000回実行した。そやから、83,000の入力トークンで、出力はモデルによって異なる。Gemini 2.0から始めよう。Gemini 2.0は7トークンを生成した。そやから、1000回だと7,000になる。

そやから、ここでのコストは比較的小さくなるやろう。このテストをもうちょっとリアルにするために、Claudeの非推論バージョンを使おう。Claude 3 Sonnet standardを使うだけや。名前を長く言った。20トークンやけど。可能な限り公平にするために、その数字を使おう。そやから出力は20トークンやった。

20,000の出力トークンが合計になる。入力100万あたり3ドル、出力100万あたり15ドルや。そやから、これの入力は25セントになる。出力は30セントで、このテスト、俺がちょうどやった同じことを1000回実行することになる。Grok 4は同じ価格やということを覚えといて。そやから、Grok 4の数字を比較しよう。Grok 4は出力に603トークンやった。

そやから、603,000の出力トークンや。それで95ドルになる。そやから、この2つのモデル、同じコストのやつを実行した合計は、1つはばかげたレベルの推論を持つGrokで、もう1つは推論をオフにしたClaudeや。55ドル対9.30ドルや。まったく同じ入力で、入力がまったく同じ金額にもかかわらず、最終価格は文字通り30倍高くなった、また、この出力コストの違いのせいでや。クレイジーや。

推論のせいで、同じ出力に対して30ドル対95ドル。これが、トークンあたりのコストがもはや重要な数字じゃない理由や、生成されるトークンの数がばかげた量だけ上がったからや。これを見る俺の好きな場所は、実際のテストコスト分析に戻ることや。めっちゃ変な場所で見せてやる。Gemini 2.0 Flash。

Gemini 2.5 Flash reasoningでartificial analysisベンチマークを実行するのに229ドルかかる。2.0 Flashで同じベンチマークは3ドルやった。理由は、2.0と2.5の間でトークンあたりのコストが上がったことやけど、それは100倍の違いやない。100倍の違いは、生成されるトークンの量で、2.5 Flashは推論モデルやからや。

そして推論に190ドル使うんで、めっちゃ高くなる。2.0 Flashは推論しない。実際、ここの値はめっちゃ小さい。推論コストが0やから、バーにホバーして内訳を見せることすらできひん。これも、俺がいろんな異なるタスクで2.0 Flashをまだ愛してる理由のもう1つや、規模での唯一の実際に安いモデルで、O3 ProやGrok 4が必要ない時に地獄の果てまで推論することをリスクしなくて済むからや。クレイジーや。

ばかげてる。でも、これらの新しい推論モデルでの生活や。トークン差の数を数えるだけや。約100,000の総トークンから約683,000の総トークンになった。大規模な変化。これも、Open Routerのリーダーボードでの俺たちの位置に俺が腹を立ててる理由でもある。

俺たちは現在、Open Routerによると、Grok 4で最も人気のアプリや。それはめっちゃ高い問題や。記事に戻ろう。消費者が月20ドル以上払わないことを知って会社を始めることを想像してみて。わかった、あなたは思う。典型的なVCのプレイブック。コストで請求して、成長のためにマージンを犠牲にする。顧客獲得コスト、生涯価値、その他すべてについて計算をした。

でもここで面白くなる。LMコストが毎年10倍下がることを示すA16Zのチャートを見た。これが俺が見せたチャート、俺がそれについて動画全体を作ったやつや。このチャートはもう重要やない、今話してることのせいでや。そやから、月20ドルで今日は損益分岐点になって、モデルが来年10倍安くなったら、ブーム、90%マージンになると思う。損失は一時的や。

利益は避けられない。T3 Chatで俺たちが陥った罠とは全然違う。Grokは俺たちのマージンを本当に悪くすることができる。そのモデルをサポートし続けたいなら、価格設定に大きな変更を加えなあかん、そのモデルは邪悪でめっちゃ高いからや。VCアソシエイトでも理解できるくらい簡単や。

それは皮肉や。本物やけど、それでも。1年目、月20ドルで損益分岐点。2年目、コンピュートが10倍下がって90%マージン。3年目、ヨットショッピング。理解できる戦略や。LLM推論のコストは6か月ごとに3分の1になった。俺たちは大丈夫やろう。でも18か月後、マージンは今までで最もネガティブになってる。

Windsurfは部品として売られ、Claude Codeは今週、元の無制限200ドル月額ティアをロールバックしなあかんかった。会社はまだ出血してる。モデルは安くなった。GPT-3.5は以前より10倍安い。でもなぜか、マージンは良くなるんじゃなくて、悪くなった。何かがおかしい。誰も昨日の新聞を欲しがらない。3.5は10倍安いけど、iPhoneの発売でのフリップフォンみたいに望ましくない。

新しいモデルが最先端としてリリースされると、需要の99%が即座にその新しいモデルに移る。消費者も自分たちの製品にこれを期待してる。今、フロンティアモデルの実際の価格履歴を見てみて、特定の時点での需要の99%があるやつや。

これは最も需要のあるモデルのトークンあたりの平均価格や。かなり一貫してる。下がる瞬間もある。O3がこんなに安くなったのはクレイジーや。でも、ここでの核心はまだ有効や。4が60ドルで発売された時、GPT-3.5が26倍安いにも関わらず、みんなそれを使った。その後、Claude 3 Opusが60ドルで登場した時、その前にGPT4が価格カットを受けたにも関わらず、人々は切り替わった。

10倍のコスト削減は本物やけど、Commodore 64で動いてるのと同じようなモデルにとってだけや。これが「コストは下がる」戦略の最初の欠陥のある柱や。最高の言語モデルに需要がある。ピリオド。そして最高のモデルは常に同じくらいのコストがかかる、それが今日の推論の端にかかるコストやからや。95年のCivicを指して、この車は今めっちゃ安いって言うのは、的外れや。

確かに、その特定の車は安い、でも2025年のトヨタカムリのMSRPは3万ドルや。その通り。そしてもしあなたがAnthropicなら、価格を下げる手間すらかけない。AIと時間を過ごしてる時、コーディング、ライティング、考えることのどれでも、常に品質を最大にする。誰もClaudeを開いて、「わかった、ボスの金を節約するためにクソバージョンを使おう」なんて思わない。

俺はベンチマークを実行する時にそう思うけど、確かに、俺たちは認知的に欲張りな生き物や。特に自分の時間と他方をバランス取ってる時は、手に入れられる最高の脳が欲しいんや。これはT3 Chatでも見てきたことや。これをO4に切り替えると、推論の努力を選ばせる。それは間違いやった、みんなただ高を選ぶからや。

俺が持つ最大の後悔の1つは、人々にオプションの1つを選ばせるこのボタンをここに与えたことや。これは理由もなく俺たちのコストを3倍にするボタンや。これがなかったら、人々はそれを求めるやろうけど、それほど良い答えは得られないやろう。これらのたくさんと遊んで、O4 Miniを毎日使ってる人として、それほど重要やない。俺はmediumにしておく。

lowにも下げる。でも多くの人は毎回highをクリックしに行く。そして人間の心は最高の可能なオプションに引かれるから、それは何も提供しないのにクリックするのに高いボタンや。彼らは最も、最高、最もスマートなものが欲しい。そしてそれは、彼らがT3 Chatにも来る大きな理由の一部でもある。

T3 Chatでは、すべてにアクセスできるからや。最高のために来てる。最高が最高の状態にあることを望んでる。可能な限りスマートな場所まで押し上げる。俺たちがレート制限をかけるまで、絞り込める限りのコンテキストを与える。そして、ここでその数字が重要になる。

low、medium、highを選ぶ時、実際にやってることは、モデルがどれだけ推論することを許可するかを増やすことや。そやから、10,000トークン推論することを決めたら、ただそうする。そしてそれが、モデルが俺たちが思ってるより燃やしてるから、コストが本当に意味をなさなくなってる理由や。でも、まだ管理可能やろ？俺たちはただ永遠に損益分岐点でいるだけや。

AI業界の構造的問題

おお、甘い夏の子供よ。各世代のフロンティアモデルがトークンあたりでより高くならなかったのは事実やけど、他のことが起こった。もっと悪いことが。消費したトークンの数が絶対に核爆発した。ChatGPTは以前、1文の質問に1文の返答をしてたんや。今、Deep Researchは3分間計画して、20分間読んで、あなたのためにレポートを書き直すのにもう5分かけて、一方でO3は「Hello there」に答えるために20分間走るだけや。

テスト時間コンピュートでの強化学習の爆発は、誰も予想しなかった結果をもたらした。AIが完了できるタスクの長さが6か月ごとに倍になってる。以前1,000トークンを返してたものが今は100,000を返してる。外挿すると、数学は本当にクレイジーになる。

今日、20分間のDeep Research実行は約1ドルかかる。2027年までには、筋書きを失うことなく24時間連続で実行できるエージェントができる。フロンティアの静的価格と組み合わせると、ユーザーあたり1日72ドルの実行で、複数を非同期で実行する能力がある。怖いわ。24時間非同期でワークロードを実行するエージェントをデプロイできるようになったら、1つの指示を与えてフィードバックを待つんじゃない。

バッチでスケジュールするようになる。問題を並行して攻撃するAIワーカーの艦隊全体、1999年みたいにトークンを燃やしまくる。明らかに、そして俺はこれを十分に強調できないけど、月20ドルのサブスクリプションは、ユーザーが1日1ドルのDeep Research実行をすることすらサポートできない。なんでT3 ChatにDeep Researchがないのか聞いてる人のために、俺たちは月8ドルや。

文字通りそれをすることはできない。すぐに廃業してしまう。まあ、他にもやることをすべてカバーしなあかんから、3つ与える。8回のDeep Researchリクエストを送ったら、その月の残りはアプリからロックアウトしなあかん。モデル能力のすべての改善は、一度に意味のある形で消費できるコンピュートの量の改善や。

より燃費の良いエンジンを作って、効率性の向上を使ってモンスタートラックを作るようなものや。確かに、ガロンあたりのマイルは向上してるけど、ガロン数は50倍使ってる。これが、Windsurfを彼らがやったように強制したショートスクイーズで、T3 Chatで持ってるような定額サブスクリプション＋有用なトークン集約的ワークフローを傷つけるものや。

俺たちは今、みんなこれの銃口を見つめてる。Anthropicはこのショートスクイーズをカバーしようと勇敢に努力してる。Claude Codeの最大無制限実験は、俺たちが見た嵐を乗り切る最も洗練された試みやった。彼らは本のすべてのトリックを試して、それでも完全にやられた。プレイブックは賢かった。まず、価格ポイントを10倍にする。

Cursorが20ドル請求する時に月200ドル。出血が始まる前により多くのバッファで開始する。2つ目、負荷に基づいてモデルを自動スケールする。重くなったらOpusからSonnetに切り替える。脳のAWS自動スケーリングみたいに、読み込み用にHaikuで最適化する。そう。そして確実にClaudeコードを使った時、一日中モデル間をローテーションしてるのに気づいたやろ。

一日のどの時間にものをやってるか、どれだけのトラフィックがあるかによって、彼らの側で扱ってる負荷に基づいてモデルを切り替える。彼らはほぼ確実にこの動作を直接モデルの重みに組み込んでる、これは将来もっと見るパラダイムシフトやろう。彼らがやった3つ目のポイント、ユーザーマシンに処理をオフロードした。

ユーザーが完全に良いCPUを遊ばせてる時に、なんで自分のサンドボックスを立ち上げるんや？すべてのエンジニアリングの才能にもかかわらず、トークン消費はまだ超新星になった。Claude Codeの使用状況のグローバルリーダーボードがここにある。3万5千ドルの推論をやった誰かがいる。2万6千ドルやった誰かがいる。そう、これが問題や。100億トークン。

それは1か月で『戦争と平和』を12,500冊や。どれだけばかげてるかわかるか？それは、1か月で生成して、入力と出力として扱った長いクソ本をほぼ13,000冊や。どうやって？10分実行でも、誰かが100億トークンをどうやって動かすんや？10分から20分の連続実行は、人々がforループを発見するのにちょうど十分な長さやということがわかった。

アプリ内でトークン消費を人間の時間から切り離すと、物理学が引き継ぐ。Claudeにタスクを設定して、作業をチェックさせて、リファクタリングさせて、最適化させて、破産まで繰り返させる。ユーザーはAnthropicの金で24時間365日コード変換エンジンを実行するAPIオーケストレーターになる。チャットからエージェントへの進化は一夜にして起こった。消費の1000倍増加、段階的変化、漸進的変化やない。

そやから、Anthropicは無制限をロールバックした。月2,000ドルを試すこともできたやろうけど、教訓は十分に課金しなかったということやない。この新しい世界では、どんなサブスクリプションモデルの下でも無制限の使用を提供する方法がないということや。この新しい世界で機能する定額サブスクリプション価格はない。数学が根本的に壊れた。

すべて真実の発言や。ああ、他の誰かがVibe Rankで新しいリードを持ってる、総コスト50万ドルで。過去30日間だけで9万6千ドルやった。クレイジーや。絶対にクレイジーや。他のみんなにとっての囚人のジレンマ。これは他のみんなを不可能な立場に置く。すべてのAI会社は、使用量ベースの価格設定が彼らを救うことを知ってる。

彼らも、それが彼らを殺すことを知ってる。あなたが1000トークンあたり1セントで責任を持ってる間に、あなたのVC資金の競合他社は月20ドルで無制限を提供してる。ユーザーはどこに行くと思う？俺はこれをGemini CLIの動画でカバーした。これらの会社は、お金がかかることを知ってこれらの無制限プランを提供してる、ただ顧客を獲得して、すべての競争相手を締め出したいからや。

銀行口座が最も長く生き延びる人が、他のみんなが廃業するからデフォルトで勝者や。みんなが使用量ベースで課金すれば、業界は持続可能や。みんなが定額を課金すれば、底辺への競争や。あなたが使用量で課金して他が定額なら、あなたは一人で死ぬ。そして、あなたが定額で課金して他が使用量なら、あなたは勝って、それからお金がなくなって後で死ぬ。

そやから、みんな離脱する。みんなパワーユーザーを補助する。みんなホッケースティック成長チャートを投稿する。みんな最終的に重要な価格更新を投稿する。Cursor、lovable、Replit、彼らはみんな数学を知ってる。彼らは今日の成長、明日の利益、最終的には破産を選んだけど、それは次のCEOの問題や。正直、おそらく正しい。

土地争奪戦では、市場シェアがマージンを上回る。VCが単位経済学を糊塗するためにチェックを書き続ける限り。ありがたいことに、俺たちはT3 Chatでまだ利益を上げてる。俺はそれらのマージンに目を光らせてて、Grok 4ドロップのようなものが大幅に傷つける。長期的に物事が合理的であることを確実にするために、本当に注意深くなければならない。そして、悪用を難しくするが毎日使いやすくするために、まもなくレート制限をやり直す予定や。

それをどうバランス取るか本当に見つけたい。でも大変やな、俺たちもここで同じ問題と戦ってるから。ありがたいことに、人々はT3 Chatを20分連続でタスクを実行するために使ってない。そやから、俺たちはここでめっちゃ異なるコストプロファイルを持ってるけど、それでも超注意深くなければならない。トークンショートスクイーズを避けることは可能なんか？

Cognitionは150億の評価で資金調達してると噂されてる、一方で外部的には1億ARRすらレポートしてない、著者によると50百万に近いやろう。俺にはそれが正しいように聞こえる。これは、500百万ARRでもっと急な曲線で100億の評価でCursorが調達したのと対照的や。収益の8倍以上で、評価は3分の2や。VCはCognitionについて俺たちが知らないことを何を知ってるんや？

彼らは両方ともコードを書くAIエージェントや。Cognitionは死のスパイラルから抜け出す方法を見つけたんか？著者は3つの道があると思ってる。

1日目から使用量価格。補助金なし。今すぐ獲得、後で収益化ではなく、正直な経済学。でも、爆発してる消費者使用量ベースのAI会社を見せてくれ。消費者は従量課金を嫌う。請求書に驚かされるより、無制限に過払いする方がいい。すべての成功した消費者サブスクリプション、Netflix、Spotify、ChatGPTは定額や。

メーターを追加した瞬間、成長は死ぬ。そしてそれがSpotifyが勝った方法や。それは議論の余地すらない。Spotifyの前は、アルバムを買ってた。そしてSpotifyでは、買わない。人々は選択する時にオプションに払うよりも、無制限オプション付きサブスクリプションをめっちゃ好む。高いマージンにつながる狂った切り替えコスト。

これはDevinが全力でやってることや。彼らは両方の会社で40,000人のソフトウェアエンジニアにDevinを展開するCity and Goldman Sachsのパートナーシップを発表した。月20ドルで、これは1000万ドルのプロジェクトや。でもここに質問がある。Goldman Sachsからの1000万のARRと、プロシューマー開発者からの5億、どちらが欲しい？答えは明らか。

6か月の実装、コンプライアンス審査、セキュリティ監査、調達地獄。これらすべては、Goldman Sachsの収益は勝つのが困難だということを意味する。でも一度勝てば、チャーンするのは不可能や。銀行の単一決定権者があなたに評判を賭けて、みんながそれを機能させるために全力を尽くす場合にのみ、それらの契約を得る。

これも、ハイパースケーラー以外の最大のソフトウェア会社が、まさにそれらのペルソナに販売するすべてのシステムレコード会社である理由でもある。世界のCRM、ERP、EHRや。切り替えが困難であるほど、購入者の価格感応度は低くなるから、彼らは皆80-90%のマージンを作る。競合他社が現れる頃には、別の6か月の営業サイクルを必要とする官僚制の奥深くにいる。

離れられないわけじゃない、CFOが別のベンダー評価を通すより死んだ方がましだということや。そして選択肢3、垂直統合。インフラでもっとお金を作れる。これはReplitのゲームや。コーディングエージェントをアプリケーションホスティング、データベース管理、デプロイメント監視、ロギングなどと束ねる。

すべてのトークンで損失を出すけど、この新世代の開発者のためにスタックの他のすべての層で価値を捉える。Replitがどれだけ垂直統合されてるか見てみて。彼らがいる恥はかろうじて機能してるけど、彼らは自分たちですべてを所有してる。AIを損失リーダーとして使って、AWS競争サービスの消費を促進する。推論を販売してるんじゃない。

他のすべてを販売してる。そして推論はただのマーケット支出や。天才的なのは、Codegenが自然にホスティングの需要を作り出すことや。すべてのアプリはどこかで動作する必要がある。すべてのデータベースは管理が必要や。すべてのデプロイメントは監視が必要や。OpenAIとAnthropicが推論をゼロまで競争してる間に、他のすべてを所有する。

これは俺が作ってきた賭けの一種でもある。最高の価格で最高のモデルを作る人が誰であるかは必ずしも気にしない、それらを使う最高のアプリを持ってる限りはな。まだ定額制でコストを問わず成長してる会社は、歩く死体や。ただ、Q4にスケジュールされためっちゃ高い葬儀を持ってるだけや。これが好きや。

創設者たちが「モデルは来年10倍安くなる」を救命ボートのように指すのを見続ける。確かに。そしてあなたのユーザーは彼らから20倍多くを期待するやろう。ゴールポストはあなたから疾走してる。Windsurfを覚えてるか？Cursorが彼らの損益に与えたプレッシャーから抜け出す方法を見つけることができなかった。地球上で最も垂直統合されたアプリケーション層を持つAnthropicですら、無制限使用で定額サブスクリプションを機能させることはできない。

Lever Betaからの要約は、あなたが必要とするすべてで、早いことが賢いことに勝つのはまだ真実やけど、計画なしに早いことは、墓場に最初に到着することを意味する。ネガティブマージンビジネスに24億ドルのチェックを書くGoogleはない。AWSの請求書があなたの収益より大きい時の「後で考える」はない。

そやから、この世界でビジネスを構築するにはどうするか？短い答えは、Neocloudになることで、これが俺の次のもののタイトルや。でも少なくともモデルは来年10倍安くなるやろう。これは驚異的なブログ投稿やった。俺は絶対にEthanのSubstackを購読して、Neocloudについての彼の次の投稿をドロップされた瞬間にチェックするつもりや。

あなたもおそらく同じことをすべきや。これは信じられないコンテンツや。これについて俺が言うことはすべてや、と思う。ああそう、俺の銀行口座はもうすぐめっちゃ痛むことになるやろう。ああ、ボーイ。Grok 4みたいになって駄弁ることもできるけど、さっさと終わらせたい方がええわ。聞いてくれてありがとう、次回まで、平和ナーズ。