GitHub Copilotの料金体系改定を巡り、従来のメッセージ単位の課金がいかに崩壊していたかを検証する動画の翻訳。投稿者が自作の難解な暗号パズルをAIモデルに解かせることで、わずか40ドルの月額プランから数万ドル規模の推論コストを発生させる限界突破の実験を行い、エージェント化するAI時代の適正な価格設定のあり方について解説している。

Copilotの進化と料金改定の衝撃
Copilotが登場した日のことは今でもよく覚えています。とても奇妙な瞬間でした。自分には絶対に縁のないものだと思っていましたし、TypeScriptの自動補完さえあればそれでいいと考えていました。しかし今や、私たちはコードのすべてをAIに書かせようとしています。
その間にCopilotは大きく変わらざるを得ませんでした。かつてはただの自動補完ツールだったものが、今ではCursorやClaude Code、Codexなどに対抗する完全なエージェント型ソリューションになろうとしています。その過程で多くの変更が行われましたが、その多くは疑問の残るものでした。
最近、彼らは大幅な料金改定を発表しました。毎月のメッセージ数を固定で提供するのをやめ、Claude CodeやCodexで見られるような、より従来型のレート制限を導入するというのです。これはCopilotのユーザーから大きな反発を招き、本当に興味深い意見も飛び交いました。マイクロソフトはもはや補助金合戦に耐えられなくなり、ユーザーへの補助を打ち切ることにした証拠だ、と思い込んでいる人たちまでいます。
しかし、数字をまともに精査した人はいないと思います。そして、もし私が何かの専門家であるとするならば、それはマイクロソフトのお金を無駄遣いすることです。私には長い歴史があります。Azureから100万ドル以上のクレジットを受け取っていました。この100万ドルのグラントを得る前すでに、50万ドルを持っていました。そして、私はそれを燃やすために多大な努力を傾けてきました。あまりにも努力したため、彼らの推論がいかに劣悪であるかについて、激しく非難しなければならないほどでした。
Azureはモデルをホスティングするにはあまりにも遅く、私は頭がおかしくなりそうだったので、彼らがくれたお金を使う他の方法が必要でした。そこで私は、クローンジョブを使ってOpenAIと比べてどれだけ遅いかを一時間ごとに測定し、大量のクレジットを無駄遣いすることに決めたのです。ひどい状態だとは分かっていましたが、P90、つまり上位90パーセントの数値が21倍も悪いというのは不条理でした。
散々文句を言った結果、彼らはそれを修正しました。このベンチマークは拡散しました。社内でも噂になり、適切な幹部が介入してくれました。Azureの名誉のために言っておくと、かなり上層の人物から電話があり、一緒にデバッグを行って修正してくれたのです。その結果、現在彼らの推論は実際にOpenAIよりも一貫して高速になっています。これは本当に素晴らしいことです。
しかし、私はこれらのテストで大量のお金を燃やしました。どういうわけか彼らはそのお金を私に返すつもりのないようです。ですから、復讐の時が来ました。
面白いことに、私は現在GitHub Copilot Plusプランを提供されています。これは月額40ドルのティアです。私はこのプランをそれほど使っていませんでした。簡単に言えば、普段はCodexを使い、たまにClaude Codeを使い、もちろんCursorも少し使っているからです。そのため、無料で手に入れているこの40ドルのティアは、思い出したように言いますが、今まで使われずに放置されていました。
今、画面にパーセンテージが表示されているかもしれません。4.7パーセントです。これが、今月これまでに私が消費した1500メッセージの割合です。40ドルのティアの5パーセントも使っていません。その5パーセントの使用量で、私が彼らにどれだけの推論コストを負わせたか、当ててみてください。最低でも550ドルです。私は4万ドルに達することができるか試してみるつもりです。そして、それを皆さんと一緒にやっていきましょう。
これらのプランの多くがいかに簡単に悪用され得るか、そしてなぜCopilotの既存の課金モデルがこれほどまでに破綻しているのか、皆さんに共有できる楽しい話がたくさんあります。彼らがこれほど長い間、この状態を放置してきたのは本当に正気の沙汰ではありません。しかし、もし私が補助金を打ち切られ、結果として100万ドルのクレジットを失うことになるのであれば、その前に本日のスポンサーについて手短にお話しさせてください。
スポーカー企業Clerkの紹介
かつて私が愛用していた製品や企業の中で、新しいエージェント駆動の世界への移行があまりうまくいっていないところはたくさんあります。本日のスポンサーであるClerkは、そのような企業ではありません。彼らはエージェントがコードベースを構築する際に最も直面する2つの問題、つまり認証と課金を受け入れ、その両方を信じられないほど見事に解決しました。
課金を適切に設定することは、考えてみれば本当にユーザー固有の問題です。なぜ私たちはデータベースで課金を処理しながら、ユーザー情報を別の場所に保持していたのでしょうか。これらは、特に組織などの話になると、非常に密接に関連しているものです。Clerkも同じことに気づき、課金実装でそれを解決しました。彼らは課金を適切に設定するために必要なすべてのコンポーネント、プロセス、UI、そしてバックエンドの機能を提供しています。
ダッシュボードのフィールドに入力するだけです。機能を追加することもでき、コードからアクセスできるようになります。ユーザーがどのプランに加入しているかを確認し、その機能の有無に応じて異なるものをレンダリングするために使用できる表示コンポーネントが用意されています。さらに、変更に応じて更新される組み込みの価格表コンポーネントまであります。これらのパズルを正しく組み合わせるのは本当に面倒な作業です。私たち自身、T3 Chatでこれを正確に行わなかったため、古いUIが残ってしまったことすらありました。
課金のついでに、彼らの課金体系についてお話ししたいことがあります。私がしばらくの間、彼らに変えるよう迫っていた変更が行われました。彼らは以前、プロジェクトごとに課金していましたが、私はそれが愚かだと考えていました。彼らは私の意見を聞き入れ、私が想像していたよりもずっと素晴らしい方法でそれに対処してくれました。現在、月額20ドルでプロジェクト数が無制限になっています。ユーザーの上限はそれらすべてで共有されます。
そうは言っても、無料ティアでも十分にやりくりできるかもしれません。無料ティアでもアプリ数は無制限で、1シートあたり月間5万人のユーザーが利用できます。ちなみに、月間ユーザーとしてカウントされるのは2日以上アクセスした場合のみで、最初の24時間だけではありません。認証、課金、そしてコストに関するストレスを、指定のリンクで解消してください。
AI推論における4つの課金モデル
これらすべての話を理解するためには、推論に対して課金する方法と、推論の実際のコストがいくらであるかを分解して説明する必要があります。まず、推論で課金される4つの異なる方法から始めましょう。
1つ目は、私たち全員が慣れ親しんでいる、レート制限付きのサブスクリプションです。これはClaude CodeやCodexで見られるモデルで、Claude Codeのダッシュボードには現在のセッションが表示されます。5時間のウィンドウが設定されています。5時間以内にできることは限られており、さらに毎週、別途到達可能な制限が設けられています。そのため、5時間のセッションを何度も上限まで使い切ると、週間の制限がリセットされるまでそれ以上の推論を行うことができなくなります。
それぞれでどれくらいの量が使えるのでしょうか。メッセージ数やトークン数はどれくらいなのでしょうか。私には分かりません。彼らはそれをまともに文書化していません。それだけでなく、彼らは定期的に制限を引き上げたり引き下げたりしています。時には、一日の特定の時間帯に5時間のウィンドウをより制限的にすることさえあります。最近も5時間のウィンドウが変更されました。カリフォルニアやニューヨークの標準的な労働時間、つまり日中の仕事の最中には、使用量が通常よりもずっと早く消費されるようになっていました。Anthropicにお金を払っている他の方法の顧客に対して、GPUを確保したかったからです。現在、彼らはより多くの割り当てを確保したため、制限を2倍にし、その部分を廃止しました。しかし、それが現実というものです。
この方法を確実に理解しておいてください。これは、これに対してこれが得られるという直接的なものではありません。費やしているお金に対して、特定の量のトークンやメッセージを受け取っているわけではありません。月額200ドルを支払うことで、プロプランが得られるものの20倍という、曖昧な何かを得ているのです。これがClaude Codeで得られるものです。Codexもこの点においては同様で、倍率が設定されたブラックボックスにお金を支払っているだけです。実際にどれくらいの使用量が得られるのかについて、透明性のある情報は一切得られません。ある意味、バイブスに基づいています。だからこそ、彼らが何かを変更し、かつては使用量の30パーセントしか消費しなかったものが、突然すべてを消費するようになったりすると非常に奇妙に感じられるのです。とにかく奇妙です。人々が混乱するのも無理はありません。
しかし、人々は今やこれに慣れています。データが見えない不透明な数字に慣れているという意味ではなく、特定の金額に対して一定量の使用量を得ることに慣れているという意味です。そのため、Claudeで100ドルや200ドルのプランを使っている人たちは、一時間、あるいは一ヶ月を通じて必要なすべての使用量を得ることに慣れています。彼らは、後ほど説明するAPIコストを支払うとしたら、その使用量に実際どれほどの費用がかかるのかを知りません。これがレート制限付きのサブスクリプション、つまりClaudeやCodexなどです。
次のカテゴリーは、メッセージ制限付きのサブスクリプションです。これは、ユーザーとして送信できるメッセージの数が決まっているサブスクリプションです。これはかつてのT3 Chatの仕組みと同じで、安価なモデルでは1500メッセージ、OpusやGPT-5、あるいはSonnetのような高価なモデルでは100メッセージが提供されていました。Sonnetは非常に割高でした。それらのモデルはコストが大幅に高くなるため100メッセージに制限し、他のすべてのモデルは比較的安価だったため1500メッセージを提供していました。ほとんどのユーザーにとっては、それで問題ありませんでした。しかし、より多くのプレミアムメッセージを求める特定のユーザーもいました。このようなモデルを導入していた当時のT3 Chatの数字の仕組みについての詳細は、今回の焦点ではないので後ほど少しだけ触れます。今日はCopilotが本題です。私がこの情報に精通しているのは、サブスクリプションを販売するプラットフォームを運営しており、これらの各モデルのメリットとデメリットを比較検討してきたからです。そのため、課金の仕組みについては熟知しています。
この間には、利用制限付きのサブスクリプションというものもあります。サブスクリプションを契約すると一定量の使用量が得られますが、それはドル単位の金額であり、ダッシュボードで確認できます。これはOpenCode ZenやCursorのようなもので、20ドルを支払うと20ドル分の推論が提供されます。ダッシュボードでそれを確認できますが、上限を超えてさらに実費を支払うことも可能です。レート制限付きのサブスクリプションと非常によく似ていますが、使用されているドル金額についてより透明性があります。リセットの頻度はそれほど高くなく、上限を超えたときにもずっと理解しやすいです。これは今はそれほど重要ではありません。そのため、このセクションは省略して、推論費用を支払う他の2つの方法について話します。
私が群を抜いて最も多くのお金を費やしているのが、トークンごとのAPI課金です。新しいモデルが登場し、価格設定を確認するときに見るのがこれです。例えば、私の記憶が確かなら、GPT-4は入力100万トークンあたり12.5ドル、出力100万トークンあたり15ドルでした。もし80万トークンを入力し、20万トークンを出力するリクエストを行った場合、計算すればそのコストがいくらになるか分かります。PDFを添付したリクエストがあり、それが100万トークンである場合、そのリクエストは単純な数学の問題を解くように求めるリクエストよりもはるかに高価になります。入力トークンは誤解を招きやすいほど高価だからです。大量のデータをモデルに渡すと、モデルはそのすべてのデータを読み込む必要があり、そのすべてのデータを読み込むのには費用がかかります。
多くの人が理解していないように思われるのは、PDFをモデルに貼り付けてそれについて質問する場合、そのメッセージには、単純なことへの回答を求めるメッセージよりもはるかに多くの費用がかかるということです。これらは、私たちがT3 Chatのために支払わなければならない価格です。そして、T3 Chatプランで月額8ドルや50ドルを費やしている人が、支払っている金額よりも高価になるような方法でメッセージを消費しないことを願うばかりです。これが、私たちが外部に対してバランスを取らなければならない部分です。
しかし、4番目のカテゴリーがあり、これがラボが位置するカテゴリーであり、本当に大企業がよく利用するカテゴリーでもあります。専用コンピュートです。これは、従来のトラフィックに対して専用サーバーを用意することに似ています。ユーザーがリクエストを行ったときにサーバーを起動し、リクエストがないときに停止するのではなく、プロビジョニングされたサーバーをレンタルし、リクエストを待機させておくことを選択できます。AWS、Azure、Google Cloudなどのプラットフォームでは、トークンごとに支払うだけでなく、大量のGPUをレンタルし、そこで提供されるモデルを実行することを選択できます。通常、これにはいくらかのライセンス料が上乗せされます。これでその環境が手に入り、そのボックスが対応できる限りの計算をいくらでも行うことができます。OpenAIやAnthropicはこのように考えなければなりません。なぜなら彼らはGPUを購入しているからです。彼らはGPU上でモデルを実行し、それらのモデルをさまざまな顧客に提供しています。その顧客の一部はAPI価格を支払っている人々であり、一部はレート制限付きのサブスクリプションを使用している個人ユーザーです。企業として専用コンピュートを利用することもできますが、多くの理由からあまり合理的ではありません。しかし、大手のラボはそのように考えています。
これら4つの課金方法を、話を進める前に理解しておく必要があります。
メッセージ課金の破綻と悪用ツールの現実
これら4つを把握した上で、人間の心理がどのように働くかを理解することが重要です。人々はある特定の方法で物事を行うことに慣れてしまい、その仕組みが変わると腹を立てます。そのものを利用すればするほど、より激しく怒ります。そのため、Copilotを本当にヘビーに使っていて、月に特定の数のメッセージを受け取ることに慣れている人が、別のモデルに移行されるとなると、非常に腹を立てることになります。
ただし、恩恵を受けるユーザーもいます。T3 Chatを例に挙げましょう。以前のT3 Chatでは、月額8ドルで通常のモデル、つまり安価なモデルでは1500メッセージ、プレミアムモデル、つまり高価なモデルでは100メッセージを提供していました。私たちがこのようにしたのは、立ち上げ時の経緯によるものです。これは良いアイデアではありませんでした。当時はそれが最もシンプルな方法だっただけです。T3 Chatを立ち上げたとき、サポートしていたモデルはGPT-4o miniとDeepSeek V3だけで、どちらも非常に安価でした。そのため、8ドルに対して寛大な使用量を提供していました。
その後、誰もが求めたため、Sonnetを追加しました。するとSonnetは、トラフィック自体は3分の1だったにもかかわらず、すぐに他のすべてを合わせたよりも10倍高価になりました。私たちはすぐに失敗したと気づきました。去年の2月に、私はT3 Chatの課金方法を変更しなければならないと発表しました。繰り返しになりますが、以前は非常に寛大でしたが、特定のユーザーがClaudeの使用において私たちを搾取していたのです。
そこで私たちは月に1500メッセージに変更しました。お金がなくならないよう、Claudeは月に100メッセージに制限しました。当時、8ドルでさらに100クレジットのClaudeクレジットを購入できるようにしました。すでにサブスクリプションを契約していた人たちには、たくさんの無料クレジットを配りました。そしてレート制限をリセットしました。私が元祖課金リセット男です。わずか数日で200ドル以上のコストを私たちに負わせた個別のユーザーがいました。なぜなら、2月に開始してからわずか5日以内に、すでに推論に2000ドルを費やしていたからです。これは私たちをほぼ即座に倒産させていたでしょう。
そのため、Sonnetのような高価なモデルの制限を100にし、それほど高価ではないものには1500を提供しました。しかし、これは私たちが施したパッチに過ぎず、問題を解決したわけではないことを強調しておきたいです。それは出血を少し止めただけで、コストは上昇し続けました。特に、モデルがより長く実行され、より大きなタスクを実行できるようになると、あるリクエストは1、2セントしかかからない一方で、別のリクエストは10ドル以上かかるようになりました。私はOpusへの一通のメッセージで10ドル以上かかったことがあります。それはそれほど難しいことではありません。
このため、私たちは熟考を迫られ、多くの時間を費やした結果、メッセージを販売することは自殺行為であると気づきました。メッセージ一通が特定の金額と等価ではないからです。これは、5台の車に対して100万ドルを支払うと言うようなものです。もし車がすべてフェラーリであれば、それはおそらく良い取引です。しかし、車がすべてボロボロで放置された2001年の中古のスバルであれば、それは最悪の取引です。メッセージのコストには、車と同じくらい、あるいはそれ以上の多様性があり、人々はこれを理解するのに本当に苦労しています。
ですから、いつもパターンのように説明しようとするのではなく、実演することに決めました。私は最近、Copilotがいまだにこの方法で課金していることを知りました。Copilotがこの方法で課金していたのは、コードベースでチャットを使用する際、モデルがより愚かだった頃は、その動作方法が比較的均一だったからです。モデルは時間の経過とともに遥かに賢くなりました。より賢いモデルはメッセージ一通あたりにより多くのことを実行できるため、メッセージ一通あたりにより多くのトークンを消費しています。
T3 Chatのほとんどのユーザーは利益をもたらしていました。大半のユーザーは8ドルよりも遥かに少ない推論しか行いません。しかし、1パーセントのユーザーは、100のプレミアムメッセージを慎重かつ戦略的に使用し、それぞれが私たちに1ドルから3ドルのコストを負わせました。個別のユーザーが、この構造であっても月に200ドル以上のコストを負わせることが可能でした。メッセージに基づく課金が愚かだからです。
そこでの問題は、もし私が数字を下げ、最も高価なリクエストによって私たちが倒産しないようにプレミアムメッセージの数を減らした場合、Sonnetに単純な質問をする通常の善意のユーザーが、月に10メッセージしか使えなくなってしまうということです。このごく少数のユーザーが、プラットフォーム内で実行できることを悪用していたためです。
ですから、もし私たちがこれらの変更を行ったことに腹を立てているなら、私に対して怒らないでください。Repixのクリエイターに対して怒ってください。コードベース全体をXMLに圧縮し、T3 Chatのようなチャットアプリに貼り付けられるようにする、あのひどく、身の毛もよだつようなツールです。このたった一つのアプリのせいで、私のビジネスはおそらく50万ドルの損失を被りました。これは決して作られるべきではありませんでした。小規模ビジネスが運営するチャットアプリでこれを使用している人は誰であれ、本当に罪悪感を抱くべきです。それを使用するとき、あなたはメッセージのクォータを悪用しているのです。
言ったように、小規模ビジネスを悪用するためにこのようなことを行うのは非常に見苦しく、悪いことであり、それを行ったことを恥じるべきです。あのツールを使用した人は、私がマークやジュリアスのような人たちに支払うことができるお金の量に直接影響を与えました。私はGitHubではありません。GitHubはマイクロソフトに75億ドルで買収されました。GitHubはいまだに完全にマイクロソフトから資金提供を受けており、クソほどの大金を持っています。
私たちがこの仕組みを変更しなければならなかったのは、メッセージあたりのコストが非常に多様で、特定のユーザーが私たちを倒産させかねなかったからです。私たちは見栄えの悪さによる批判を受け入れました。それは大打撃でした。信じてください、ここでの変更を行ったとき、人々が腹を立てたため、私たちの収益は減少しました。変更の結果、ほとんどのユーザーはより多くのメッセージを送信できるようになりました。しかし、一部のユーザーは送信できなくなり、それらのユーザーは腹を立てて全員去っていきました。
マイクロソフトは、そのような見栄えの悪さによる批判に対処したくありません。そのため、Copilotにおける最も安いメッセージと最も高いメッセージの差が著しく悪化していたにもかかわらず、彼らはより長くその波に乗り続けました。なぜなら、少なくともT3 Chatでは、一通のメッセージは最大でも2ターンのやり取りしか行えないからです。
私が検索をオフにして、アメリカの現在の統領は誰ですか、というようなメッセージをこのモデルに送信した場合、それは1ステップしか実行しません。それは推論を行い、これは何が起きているか、そしてどう応答すべきかを把握するためにモデルが自問自答することですが、正しく応答しました。アメリカの大統領はドナルド・トランプです。素晴らしい。これは1ターン、そして1ステップです。私がメッセージを送信しました。1回のAPIコールが行われ、モデルが1つの応答を生成しました。
しかし、先週の株式市場のパフォーマンスはどうでしたか、と質問したとしましょう。モデルはツール呼び出しを生成しました。ツール呼び出しが実行され、ツール呼び出しが発生しているとき、前のリクエストは完了しています。終了したのです。検索が実行され、結果が生成され、それらが新しいメッセージとして履歴に戻され、そこから継続するために推論が発生する場所へと新しいAPIリクエストが行われます。モデルがどのツールを呼び出すかを決定すると、実行は一度停止します。そして停止すると、ツール呼び出しが実行されます。それが完了すると、履歴の別の部分として戻ってきます。そしてモデルは新しいAPIリクエストとともに再度起動し、そこから継続します。それが一連の仕組みです。
ただし、私たちはそれらのステップを一定の回数しか実行できません。モデルが実行できる検索の数を引き上げることはできますが、それには厳しい制限を設けています。検索回数が増えると使用量が増加すると明記しているのも、モデルが複数のステップを実行できる場合、それらのステップのそれぞれがより多くの推論を行い、私たちにより多くのコストを負わせるからです。そのため、モデルがこれらのステップを実行できればできるほど、より多くの推論が消費されます。
T3 Chat、Copilot、そしてかつてのCursorなどの製品がすべてメッセージベースの課金を選択した当時、モデルは各ターンで1ステップしか実行できませんでした。モデルにメッセージを送信すると、モデルは応答を返しました。それ以上のことはしませんでした。現在、モデルは主にエージェント型のワークフローで使用されており、ユーザーが応答した後にモデルがさまざまなことを実行できるようになっています。メッセージを送信した後、モデルは複数の異なるステップを実行します。それは、著しく多くのトークンを生成することを意味します。
それでも、T3 Chatはまだ制限されています。私たちはメッセージあたり1回のAPIコールから、検索をオンにした場合は2回、検索回数を引き上げた場合は3回や4回になることもあります。Copilotがどれくらい実行できるか知っていますか。Claude CodeやCodexがどれくらい実行できるか知っていますか。私は知りません。なぜなら、私の知る限り、実際には厳しい制限が存在しないからです。
Claude Code、Codex、Cursor、Copilot、これらのツールはすべて、ただ実行し続けることができます。あなたがメッセージを送信した後、追加のツール呼び出しをただ繰り返し行い続けることができるのです。つまり、T3 Chatにおける最も安いメッセージと最も高いメッセージのギャップは、1セントから1ドルか2ドル程度です。しかし、Copilotのようなものでは、一通のメッセージが1セントになることもあれば、30ドル、あるいはそれ以上になることもあるのです。
これは私がGPT-4の特別高推論モデルを使用して、暗号解読チャレンジを解決したときの実行結果です。入力トークンが1億1100万、出力トークンが160万です。このリクエストは16時間実行され、たった一通のメッセージでした。一通のメッセージです。キャッシュを無視すると、1億1130万に入力トークンの12.5ドルを掛け、さらに160万に出力トークンの15ドルを掛けます。キャッシュがなければ、この一回のリクエストだけで163ドルになっていたでしょう。
ありがたいことに、キャッシュが存在します。よく知らない人のために、これについては以前も何度も話したことがあります。本当に手短にまとめます。理解できなくて詳細が知りたい人は、Claudeがどのように退化したかについての私の動画を観に行ってください。そこではClaudeにおけるキャッシュの仕組みについてたくさん話しています。
入力があり、それをモデルに渡すとき、モデルは次の出力を正しく生成するためにパラメータを調整しなければなりません。それには大量の数学的な計算や、GPUが実行しなければならない奇妙な計算が必要になります。キャッシュとは、履歴をある時点まで取得し、その時点でメモリに保持していた内容を保存して、それを復元することです。これにより、その時点までの再計算を行う必要がなくなります。その結果、キャッシュされた入力トークンは10倍安くなります。
ツール呼び出しを行っているとき、キャッシュは非常に重要になります。なぜなら、新しいAPIリクエストが行われるたびに、キャッシュがなければすべての入力トークンを再読み込みしなければならないからです。しかし、キャッシュされていれば、すでに計算された内容を保存して再利用できるため、遥かに安価になります。
ここから計算が面倒になります。キャッシュされたトークンのコストは10分の1になりますが、これらの数字を簡単に計算する方法はありません。本当に多くの数学が必要です。そこで私は、小さなくだらないアプリをサクッと作ることにしました。Claudeの組み込みアプリ機能のテストも兼ねています。くだらないものですが、機能します。では、先ほどの実行結果の数字を入力してみましょう。
キャッシュを考慮すると、コストは半分以下になりますが、それでもたった一通のメッセージで62ドルです。私はこれを1500回利用できます。つまり、その月のすべてのメッセージでその数字を達成することに成功した場合、私の40ドルのプランは9万3600ドルの価値を持つことになります。これは膨大な推論量です。
自作の暗号パズルとコミュニティの反応
では、一体私は何をしてモデルをこれほど長く実行させたのでしょうか。これまでに言及しておくべきでしたが、私は暗号パズルに本当にのめり込んでいます。私を夢中にさせたDefconのせいにしてください。Defconに行って、そこで出題される不条理なチャレンジを解決しようとするのが本当に楽しいのです。これらは、サーバーへの侵入を試みるような従来の伝統的な意味でのハッキングではありません。意味不明な文字列が与えられ、その中に隠された意味を解き明かそうとする、楽しい解読問題です。
私はGPT-5クラスのモデルが何を解決できるかを確認しようとしていましたが、手元にあったパズルはすべて解決できてしまいました。そこで、自分自身でパズルを作り始めたところ、モデルはそれを解決できました。具体的にはこのパズルを解決できましたが、完了するまでにクソほど長い時間がかかりました。私のコミュニティがこれをどれだけうまく解決できるか興味が湧きました。そのため、特に理由はありませんが、賞金を出すことにしました。
初めての暗号チャレンジを作成しました。最初に解決した人に1000ドルを支払います。勝者は、私のDMに最初に答えを送ってきた人です。それを午前11時49分に投稿したところ、午前11時58分に解決されました。10分も経っていません。これは楽しかったです。解決策を分解してみましょう。
モデルの能力をテストするために、私はこの暗号パズルを取得し、ChatGPTに放り込んで解決できるか確認しました。そして、解決しました。しばらく時間がかかりました。どれくらいかかったかはすぐにお見せします。
思い出してください、1行目がパズルです。2行目がヒントです。実質的に、モデルは2行目がROT47であることに気づき、これを次のようにデ読しました。月にいる犬がかつてこのハッシュを言った。このハッシュは、人々を混乱させてデコードを試みさせようとするためのものでした。しかし、ここにはデコードするものなど何もありません。GPT-4 Proはこれを見抜きました。これはクラックすべきハッシュではありません。私のDogecoinシミュレータプロジェクトにおけるGitのコミットハッシュです。コミットのタイトルは、レガシーDogeハッシュキャリブレーションの追加、となっています。
私は、1行目をデコードするために必要だったこの偽の古いDogeハッシュのシードを追加および削除できるよう、それほど怪しまれないように、以前は存在しなかったブランチ上のプロジェクトの古いGit履歴を編集して偽のコミットを追加したのです。GPT-4 Proがこれを解決するのに81分47秒かかりました。クソ長い時間実行されましたが、解決しました。
また、ヒントもそれほど多く与えられていませんでした。私はただ暗号チャレンジを解決するように指示しただけです。メモリ機能すらオンにしていなかったので、モデルは私が誰であるかも、私のGitHubを見つける方法も知りませんでした。メモリがオフだったため、そのような方法での追加のヒントはありませんでした。
Gistへのリンクを渡すと、それが巨大なヒントになります。チェックすべきGitHubアカウントが判明するからです。そして、それをDogeに関するヒントと組み合わせると、私と結びつけることが遥かに容易になります。そのため、人々がGistのリンクをCodexに貼り付けて解決しろと言ったとき、私のGitHubとこのGitHubの結びつきが緊密に結合していたため、解決するのが容易だったのです。そしてそこから、1行目はJSONとしてデコードされますが、クラックするためにはシードが必要でした。そして私はこのJSONの塊の中に、デコードを行うために必要なすべてのパーツを提供していました。
ですから、私はこれをより難しくする必要がありました。遥かに難しくする必要があったのです。ただし、私が犯したもう一つの愚かなことがありました。この1行目のエンコーディングについて、私を指し示すもう一つのヒントにしたかったのです。これのコーディングは、私がベース23と呼んでいるものの出来損ないのバージョンです。23。Tは20番目の文字です。T3。これはT3を暗示することを意図していたため、私のGitHubに行く必要がありました。
このパズルに挑戦した私の暗号仲間のひとりは、私に対して非常に怒っていました。彼に言わせれば、ベース23はゼロから始まるべきだからです。私に言わせれば、ベース23など実在しません。チャレンジのために私がでっち上げたものです。どこから始めても私の勝手です。ベース32やベース64はゼロから始まりません。それらはAから始まります。しかし、これが私の暗号仲間をこれほど苛立たせたという事実が、私にあることを教えてくれました。これらはすべて、恣意的なくだらないことです。ベース64には、物事があるべき特定の順序が存在します。直感に反しますが、0は52、大文字のAは0、Bは1、C、という具合です。そして26で小文字に切り替わります。これが標準的なベース64のアルファベットです。通常、どのような種類のアルファベットが使われているかは、見ただけで推測できます。
そこで、次のバージョンに向けて変更したいことが3つありました。第1に、Gistを投稿したときにバレてしまうため、GitHub上にヒントを置きたくありませんでした。第2に、JSONとしてデコードできてしまうと解決が容易すぎるため、JSONとして簡単にデコードできるようにしたくありませんでした。そのため、次のステップをより不鮮明にしたいと考えました。しかし最も重要なのは、おかしなエンコーディングを望んでいたことです。エンコーディングを使ってもっとトロールしたかったのです。
それが、翌日に2つ目のチャレンジを出した理由です。これはコミュニティが解決するのに10時間かかり、大量のヒントを必要としました。そして、私のエージェントたちは、さらに多くのヒントなしには決して解決できませんでした。また、多くの人を失格にしなければなりませんでした。彼らはパズルをエージェントに貼り付け、エージェントが解決できないために何かしらの幻覚を生成し、そのランダムでデタラメな内容を私に送りつけてきたからです。
もしこのパズルをご自身で解決したい場合は、動画を一時停止してください。すべてをネタバレしようとしているので、この先は見ないでください。しかし、私はこれを誇りに思っていますし、紹介する機会を持てて嬉しいです。
これがパズル2です。1行目の見た目が大きく異なることに気づくでしょう。遥かに短く、全く異なるアルファベットです。実際、このアルファベットは非常に明確にベース64であるように見えます。この2行目は、再びヒントとして、すべてが始まった場所、とデコードされましたが、その始まった場所はn_oから始まるランダムな文字列です。もしあなたが十分なオタクであれば、それが何であるか知っているかもしれません。そうでなければ、画面をもっとよく読んだ方がいいでしょう。それはYouTubeスタイルの動画IDだからです。
その動画IDは、私が新しいiPhoneをテストしていたときのスケートのデモ動画という、私のYouTubeチャンネルにある最初の動画につながっています。その中に、ランダムな文字列を置いてあります。特に理由はありませんが、ドラムブレイクがそれを打ち砕くかもしれません。そして、その下に明記しました。もしこのフレーズを私にDMしてきたら、あなたを失格にし、ブロックします、と。なぜなら、非常に多くの人がこの文字列をDMしてきて、それが答えだと思い込んでいたからです。実際には1行目をデコードするために使用する2行目からのヒントであるにもかかわらず。
そこから、より愚かなパズルを解決しなければなりません。これが標準的なベース64ではないと気づくことです。この部分は異なるエンコーディングです。これをベース64としてデコードしようとしても、何の成果も得られません。回転させてみたり、ブルートフォースを試みたり、様々なことを行っても機能しません。人々はこれに非常に苦労していました。特に、正しいデコードが得られたときでさえ、パート1のようにJSONへとデコードされなかったため、依然としてある程度ランダムに見えたからです。それはパート1と同じAES暗号化の異なる形式へとデコードされていました。
では、私が使用したエンコーディングは何でしょうか。最初のヒントは、昨日のパズルが今日のパズル2の青写真である、というもので、パズル1と似ています。私がマイアミに出かけていたため、少し遅くなりました。その後、私は動画の中で行ったトリックがスイッチレーザーであると指定しました。スイッチは逆さま、つまり反転しています。そのヒントによって、ほぼ即座に答えが明らかになりました。
私が施した、デコードのための邪悪なトリックは、ベース64のアルファベットを反転させたことです。ゼロがAである代わりに、ゼロをスラッシュにしました。1がBである代わりに、1をプラスにしました。2がCである代わりに、9にしました。素晴らしい、ちょっとした愚かなトリックです。私はこの種のパズルを設計するのに適したタイプのバカなのだ、と私は言いたいのです。いずれにせよ、これをただエージェントに投げつけて、解決を期待することはできません。
私は2つ目のパズルで180分以上実行されたログがありましたが、それが見つかりません。しかし、パズル1は時に157分かかることがあり、これはかなり驚異的です。これらのモデルは、このパズルを解決するために本当に必死になっていました。
Copilotを限界まで酷使する邪悪なスクリプト
なぜ私がCopilotのお金を無駄遣いすることに関する動画で、これほどまでに自身の暗号チャレンジについて語っているのか、疑問に思っているかもしれません。しかし、その数字こそが、皆さんが注目すべきヒントなのです。このような単純なプロンプトで157分間も実行させることができるのであれば、それは悪用可能でしょうか。Copilotをそれほど長く実行させることはできるでしょうか。
答えは、実はノーです。私はそれを著しく長く実行させることができます。私はこの実行を16時間10分間継続させました。それは実行するにはクソ長い時間です。生成するには大量のトークンです。
では、これらすべてを組み合わせて、Copilotにとっての最悪の悪夢にするにはどうすればよいでしょうか。まず、私のMac miniにSSHで接続することから始めましょう。これを24時間365日実行し続ける必要があったため、私のラップトップ上ではなくそこを動かします。Copilotを実行します。これについて理解しておくべきことがいくつかあります。
まず、モデルの選択がどのように機能するかです。ここに多数の異なるモデルが表示されており、それらの横に異なる倍率が記載されていることに気づくでしょう。倍率とは、あの1500メッセージのウィンドウから、メッセージが何回分消費されるかを示しています。安価なティアでは少なくなります。40ドルのティアでは1500です。そのため、もし私がGPT-5.5を使用している場合、彼らはそれを7.5倍として請求するため、200メッセージしか利用できません。したがって、5.5での各メッセージは、ただの1回ではなく7.5回のメッセージとしてカウントされます。
一方、Opus 47は15倍です。なぜなら、比較的トークン効率の良い5.5とは異なり、Opusはそうではなく、非常に高価なトークンだからです。そのため、Opus 47では100メッセージしか得られず、GPT-5.5では200メッセージしか得られません。しかし、GPT-5.4はわずか1倍です。彼らはまた、どの推論レベルを選択するかを気にしていないようです。高に切り替えても、消費するメッセージの数が増えることはありません。そしてここから、Copilotをあまりにも、あまりにも長く実行させることは非常に些細なことです。
私は特に邪悪なことを行うつもりです。私はCopilotのお金を自動的に燃やすためのシステム全体を構築しました。そしてそれはすべて、このプロンプト用のマークダウンファイルを通じて行われます。このファイルには、チャレンジの内容とともにシンプルなプロンプトが含まれています。
次の暗号パズルを解決してください。プレーンテキストの答えが得られるまで継続してください。プレーンテキストの答えはクエスチョンマークで終わると聞いています。答えは1行目にあります。2行目はヒントです。繰り返しになりますが、答えが得られるまで継続してください。
モデルにとってこれをもう少し難しくするために、いくつか変更を加えるつもりです。このコンピュータ上の他のファイルにアクセスしないでください。Twitterにもアクセスしないでください。どちらもこのパズルを解決するために必要ありません。
これは、モデルが他のモデルが行っている他の実行結果に頻繁にアクセスして、多くの不正を行っていたためです。そのため、私は難易度レベルを私の能力の限り制限しました。しかし、ここでさらにもう一つの邪悪な変更を加えるつもりです。文字を1つ変更します。これで、これは解決不可能になりました。
さらにいくつかセッションを立ち上げましょう。これは私がここしばらくの間で行った中で最も邪悪なことです。もしこれが私が手渡している相手が人間であったなら、私は合法的に、これによって刑務所に入れられるべきだと感じるでしょう。しかし、これは人間ではありません。尊重する価値のある仕組みですらありません。気にする価値のある銀行口座ですらありません。これはマイクロソフトのお金です。彼らの推論が機能しないことを証明するために、私が数千ドルのクレジットを費やさなければならなかった、あの同じマイクロソフトです。ですから、私に関する限り、これはただの親切です。
そして私は現在、マイクロソフトが徐々に追加しようとしてきた追加のレート制限を回避するために、非常に慎重に時間をずらして50のセッションを立ち上げており、これがどれほどのお金を燃やすことができるかを確認しています。私は非常に驚くでしょう。もし私が今実行したあのコマンド一つで、マイクロソフトに1000ドルのコストがかからなかったとしたら、並外れて驚くでしょう。
常に高価な実行になる可能性を高めるために実行できる他の戦略もありますが、悲しいことに、私にはそれほどの一貫性がありませんでした。難易度のせいだとは思いません。単にモデルが気まぐれなのだと思います。しかし、すべての実行結果が含まれているCSVファイル、これがそうですが、最後の数字が出力トークンです。これを確認すると、中にはわずか30万出力トークンほどのものもあることが分かります。おっと、あれは1万トークンしかありません。それは恐ろしい。それは、本来燃やすべきだったほどのお金を燃やさなかったことを意味します。
これらの一部は78万トークンの範囲にあります。すべての実行をこの範囲にすることが私の目標です。そして、これが常に160万トークン以上を達成できるようにするための、いくつかのさらなる理論を私は持っています。最大200万トークンまで引き上げることができるかもしれません。ここにあるすべての平均、60メッセージで545ドルだったことを考慮すると、私はここでメッセージあたり平均10ドルを達成しています。悪くありません。しかし、先ほどお見せしたように、個別のメッセージを60ドル以上に引き上げることができます。ここでの私の実験だけで、1万5000ドル以上のコストがかからなければ驚きです。4万ドルまで引き上げることができなければ落胆するでしょう。
信じてください、私は挑戦するつもりですし、将来の動画で実際にどれだけの成果を得られたかについて、間違いなく最新情報を共有します。しかし、今行ったリクエストとこれだけで、5パーセント未満の使用量で優に600ドルを超えていることを考えると、ここでの私の目標は成功したと思います。
従量課金への移行とサブスクリプション脳の脱却
そして繰り返しになりますが、私は今、時間の制約に直面しています。なぜなら6月1日以降、Copilotの使用は、送信するメッセージの数ではなく、使用されたトークンの数に対してレート制限が課される、より従来型のクレジットシステムを使用するようになるからです。プレミアムリクエストをカウントする代わりに、すべてのCopilotプランにGitHub AIクレジットの月間割り当てが含まれ、有料プランには追加の使用量を購入するオプションが提供されます。これらは、各モデルのリストされたAPIレートを使用し、入力、出力、およびキャッシュされたトークンを含むトークン消費量に基づいて計算されます。
悲しいことに、5月上旬にプレビューの請求体験を提供すると約束されていたにもかかわらず、まだリリースされていません。今日はまだ5月6日なので、彼らには時間があります。プレビューの請求書を投稿したときに見たい方は、私のTwitterをフォローしてください。非常に楽しいものになるはずです。
年間プロプランおよびプロプラスプランに加入しているユーザーは、プランが期限切れになるまで、既存のプレミアムリクエストベースの価格設定のプランに留まります。ただし、6月1日には倍率が増加します。そのため、年間プランを利用している場合でもこのモデルは維持されますが、実際の消費額はおそらく上昇することになります。Opusは15倍から27倍になります。5.4は1倍から6倍になります。ですから、私が今これをやっているのは非常に都合が良いのです。
では、なぜ私はマイクロソフトが私にお金を借りている、率直に言ってAzureでの仕事に対して私は支払われるべきだと考えているため、彼らに敵意を向けているということ以外に、この話をしているのでしょうか。私がこの話をしている理由は、率直に言って、これは詐欺的な仕様変更ではないからです。あなたが愚かなだけです。私がこれを言っているのは、今の私のチャットの中でさえ、非常に多くの人々を目にしているからです。仕様変更による詐欺だ、騙し討ちだ、説明してくれ、と。私はお金を支払い、今や期待を抱いているユーザーについて話しています。あなたは愚かです。
私がこの動画を作成し、GitHubに数千ドルのコストを負わせているのは、マイクロソフトが課金体系を変更するのに時間をかけすぎたために、少額のお金で数千ドル分の価値を手に入れる権利があると思い込んでいる非常に愚かな人々がたくさんいるからです。推論を行うすべての企業は、エージェント型に移行した時点で課金体系を変更すべきでした。モデルがメッセージ一通あたりに1回以上のリクエストを継続できるという発想は、それらの製品におけるメッセージのコスト特性を本質的に変化させます。
T3 Chatはエージェント型のフローに本格的に移行したわけではありません。私たちは検索機能を備えているだけです。しかし、それだけでさえ不条理であり、基本的には課金モデルの変更を私たちに要求するものでした。それによって、メッセージあたり1回のAPIリクエストから2回へと増加しました。Copilotがエージェント型のフローを導入したことは、1回のAPIリクエストから、潜在的には数百、下手をすれば数千回へと移行したことを意味します。GitHubが犯した唯一の過ちは、ここでの課金変更に時間をかけすぎたことです。彼らはこれらの変更を数ヶ月前、いや数年前にデ行うべきでした。
そして彼らがこれを行うのに時間をかけすぎたのは、現実を見れば、GitHubのCopilot製品が現在、全く焦点になっていないからです。人々が腹を立てている理由は、彼らが騙し討ちに遭っているからではありません。GitHubだけが、この抜け穴をあまりにも長い間放置しておくほど不注意で愚かだったからです。他のすべての企業は、モデルやエージェントが高価になるにつれて、この課金モデルから撤退しました。マイクロソフトはただ時間をかけすぎただけです。
彼らは依然として、あなたが支払っている分の価値を提供しています。プランに40ドルを費やしているなら、少なくとも40ドル分の推論は依然として得られています。そして、もしこれがマイクロソフトがお金に困っており、あなたからより多くのお金を請求したがっているからだと考えているなら、それも理解していません。彼らにはこれを処理するためのコンピュートが足りないのです。
もしあなたが40ドルのプランで4万ドルの推論を行っているとしたら、それは彼らがあなたに請求すべき4万ドルではありません。それは、彼らが企業に販売するために利用できたはずの、利用不可能になった4万ドル分のコンピュートなのです。
マイクロソフトはこのようにお金を無駄遣いしている私に対して腹を立てているかもしれませんが、厳しい真実は、私がマイクロソフトを守るためにこれを行ったということです。私がマイクロソフトを守るため、あるいは彼らがより良くなるのを助けるためにAzureのベンチマークを行ったのと同じ方法です。私は、これが騙し討ちではないということを皆さんに証明するために全力を尽くしています。これは、彼らが長い間放置しすぎた抜け穴であり、支払っている金額の1000倍以上のコストをかけることを可能にし、皆さんがそれを悪用したため、悪用できないように彼らが変更しようとしているだけなのです。40ドルで40ドル以上の推論を得られるべきではありません。
私はここで自分の主張を明確にできたと思います。GitHubはあなたから利益を最大化しようとしている邪悪な企業などではありません。彼らは文字通り、補助金を提供し続けるための十分なコンピュートを持ち合わせていないだけです。そして彼らは、できる限り長くこれを維持してきたように見えます。彼らはここに到達するまでに、あるべき姿よりも遥かに長い時間をかけました。そして彼らが変更を行ったのは、変更を行うことで人々を怒らせるか、あるいは人々のリクエストを処理するためのコンピュートが足りなくなるかという、板挟みの状態に陥ったときだけでした。
彼らは新規登録を停止するまでに至りました。コンピュートが利用できなかったため、現在Copilotに登録することはできません。誰もがコンピュート危機に瀕しており、Anthropicがそれを解決するためにイーロン・マスクと提携しているほどです。これは騙し討ちではありません。彼らはあなたからより多くのお金を搾り取ろうとしているのではありません。彼らはプログラムを維持し、あなたのお金に対して妥当な価値を提供しようとしているのです。
そして、もしあなたが40ドルのプランから4万ドルの推論を騙し取ることができなくなったことに腹を立てているなら、お気の毒様ですが、実力を磨く時が来ました。
この件に関して私が言いたいことは以上です。この最後の1ヶ月の間に、GitHubのお金をどれだけ無駄遣いすることができたか、必ず最新情報をお届けしますし、できる限り強力に突き進むつもりです。皆さんがどう感じているか興味があります。プランを限界まで使い切るつもりですか、それとも、このような状況に陥ってしまった企業に対して少しは同情を覚えるようになりましたか。
私は開発者として、これらすべての経済学をもう少し理解しやすくしようとしているだけです。なぜなら、それらのサブスクリプションプランが私たちの脳を腐らせてしまい、これが実際にどのように機能しているかを誰も理解していなくなっていると思うからです。これについて皆さんがどう感じているか、教えてください。


コメント