ChatGPTの悪習のせいでClaudeの利用枠が90分で消滅する理由

AIエージェント
この記事は約26分で読めます。

本動画は、大規模言語モデル(LLM)におけるトークン消費の無駄を省き、コストを最適化するための具体的な手法を解説したものである。PDFなどの文書読み込み時のマークダウン変換の重要性、長すぎる会話履歴の分割、タスクに応じたモデルの使い分け、不要なプラグインの整理、そしてプロンプトキャッシュの活用など、初心者から上級者まで実践できるトークン節約のノウハウを提示している。次世代モデルの利用料金が高騰する可能性を見据え、真に価値のある仕事にトークンを集中させるための効率的なAI活用スキルを身につける重要性を説いている。

Your Claude Limit Burns In 90 Minutes Because Of One ChatGPT Habit.
My site: Story w/ Prompts:

次世代モデルの登場とトークン最適化の重要性

次世代のモデルが今後1、2ヶ月のうちにリリースされる可能性が高いです。Claude Mythosのことや、ChatGPTが次にリリースするもの、そして次のGeminiモデルの話をしています。これらのモデルは今よりずっと高額になるでしょう。なぜなら、NVIDIAのGB300シリーズというはるかに高価なチップでトレーニングされているからです。そして、そこからさらに費用は上がっていく一方です。

私たちが手にする知能、つまり私たちの身の回りにある環境コンピューティングとしての実質的に無料の知能は、より性能の低いモデルになるでしょう。それが現実です。もし最先端のモデルを使いたいのであれば、トークンを無駄遣いしておいてモデルのせいにするのはやめなければなりません。それがこの動画のテーマです。自分自身のトークン使用量がどれくらいなのか、AIのコストがどれくらいかかっているのか、AIにトークンを使いすぎているのではないか、それをどうやって測定し、どうすれば改善できるのか疑問に思っているなら、ぜひ聞いてください。

このスキルは、地球上で最も価値のあるスキルのひとつになるはずです。なぜなら、年間25万ドルも費やすような状況にはなりたくないからです。これはJensen Huangが実際のインタビューで、一人のエンジニアがトークンに費やすと予想したリアルな数字です。支払う必要のないトークンに25万ドルも費やすような人にはなりたくないですよね。賢く立ち回りたいはずです。

ここで具体的な例を挙げましょう。これは私が知っている実在の人物から許可を得て紹介する現実の話です。私は最近、ある本番環境のAIパイプラインを目にしました。それはユーザーごとに複数の長文の会話を取り込み、数十の次元にわたって分析を行い、お金で買える最も高価なモデルを使って完全にパーソナライズされた出力を生成するというものでした。高価なモデルを使いたかったからではなく、テストした結果、そのビジネスに必要な結果を出すにはより優れたモデルが必要だとわかったからです。それでいて、そのユーザーあたりのコストは25セント未満でした。私たちの多くはAIに必要以上のお金を費やしており、この動画はまさにそのことについてお話しするものです。

賢く立ち回り、本当に優れた最先端のAIを使用しながら、トークン使用量を賢く管理して大金を費やさないようにすることは可能です。その方法を知りたい方は、このまま見続けてください。具体的な戦略に踏み込み、誰もが簡単に行えるように私が構築したツールも紹介します。もう勘に頼る必要はありません。

結論から言うと、やり方さえ分かっていれば、最先端のAIは驚くほど安く使えるということです。本質的にモデル自体が高価なのではなく、あなたの使い方の習慣にコストがかかっているのです。ここ最近はClaudeの利用制限の話題で持ちきりですから、この話をする価値はあると思います。それでは始めましょう。モデルをもっと上手く使えるというお話をしてきました。では、具体的にどんな習慣を変えればいいのでしょうか。私が他の人との会話や、肩越しに操作を見たり、GitHubのリポジトリを読んだり、オンラインでの会話を聞いたりして気づいた具体的な習慣をいくつか挙げたいと思います。これらは私が何度も目にしてきたパターンの具体的な例です。まず最初は初心者のケースです。最先端のAIに触れたばかりの人たちが、何にトークンを浪費しているか分かりますか。それはドキュメントの読み込みです。

初心者が陥りがちな文書読み込みの罠

これは本当に簡単に直せるので、見ていて歯がゆくなります。Claude Desktopを使い始めたばかりのユーザーは、それぞれ1500語程度のPDFを3つ、会話にドラッグ&ドロップするかもしれません。テキストにすればわずか4500語で、それほど長くはありません。そして、これを要約してと言います。するとClaudeは、ヘッダー、フッター、埋め込みフォント、レイアウトのメタデータなど、フォーマットに関するすべてのオーバーヘッドを含む生のPDFを処理することになり、バイナリ構造全体がトークンとしてエンコードされてしまいます。

そのため、気をつけないと4500語のコンテンツが10万トークン以上になってしまう可能性があります。これを避けるためにすべきことは、マークダウン形式で考えることだけです。Claudeに頼むか、インターネット上の無料サービスを使ってマークダウンに変換してと頼めばいいのです。すぐにやってくれます。わずか10秒でマークダウンに変換してくれます。そうすれば、4000から6000トークン程度の非常にクリーンなコンテンツのセットができあがります。これはメモリを20倍節約するようなものです。

そして、この無駄は雪だるま式に増えていきます。なぜなら、その10万トークンが一度会話履歴に入ると、やり取りのたびに何度も送受信されるからです。こうやってトークンウィンドウを使い切ってしまい、なぜ他の人はあんなにたくさんの作業をこなせるのかと不思議に思うわけです。AIの初心者の方や、これまで考えたことがなかった方は、どうか投げ込んでいるファイル形式について考えてみてください。なぜなら、こうしたファイル形式の多くは人間が読みやすいように設計されているからです。

AIが読みやすいようには設計されていません。ファイル形式のトークン効率について考えてみてください。どうやってマークダウンに変換すればいいのかと疑問に思う方のために、私がツールを作りました。ファイルを読み込ませて変換ボタンを押すだけで、マークダウンに変換してくれます。それだけです。様々なファイル形式に対応しています。コミュニティからの要望で、対応形式は常に増やしています。これはOpen Brainエコシステムの一部で、プラグインとして追加するだけでマークダウンに変換してくれます。しかし、方法はこれだけではありません。Claudeに直接指示することもできますし、インターネット上の数ある無料ウェブサービスを使って直接行うこともできます。マークダウンの変換に制限を設けるべきではありません。

とにかく超簡単なことです。トークンは元のテキストのすべてを保持するように設計されています。もしPDFのスタイルについて推論させたいのであれば、そのままにしておいて構いません。しかし、99%の場合、必要なのはテキストだけです。マークダウンになっていればいいのです。どうかファイル形式についてしっかり考えてください。

会話の肥大化を防ぎ目的に合わせてモデルを使い分ける

人々が犯す次の大きな間違いは、マークダウンへの変換を覚え、初期ドキュメントの仕組みを理解し始めた少し後に起こりがちです。どうか会話を無駄に長引かせないでください。1つの会話で20回、30回、40回とやり取りをしているとしたら、そのような肥大化を処理するように強化学習されたり、トレーニングされたり、設計されたAIは存在しません。あなたがしていることは、最初の指示が行われた会話の比率を圧縮しているだけです。

確かに、モデルは圧縮を経ても、最初の指示にアンカーを下ろし、それを記憶する能力がどんどん向上しています。しかし、なぜわざわざモデルを苦しめる必要があるのでしょうか。なぜゴミのような情報でコンテキストウィンドウを埋め尽くして、自分自身を苦しめるのでしょうか。なぜトークンを無駄にするのでしょうか。最初から欲しいものを頼めばいいのではないでしょうか。もし発展的なやり取りや会話をするつもりなら、冒頭で明確に、ここでの目標は一緒に発展させ結論に達することだと示してください。

そして20回か30回の軽い会話をした後、ありがとう、結論が出ました、これを要約してくださいと言います。その後で実際の作業に取り掛かるのです。多くの人が異なるモードを混ぜ合わせようとしているのを見かけますが、AIは本質的にシングルターンで多くの重い作業をこなすように設計されており、その傾向はますます強まっています。そのコンテキストにおいては、事前に思考を整理し、それを提示する必要があります。もしAIと一緒に考えたいのであれば、それは別のチャット、別の会話で行うべきです。

あるいは別のモデルを使うべきかもしれません。3つの異なるモデルを使い、そのすべてを持ち寄るのもいいでしょう。私はいつもそうしています。X上のコミュニティがAIについてどう考えているか調べたい時はGrokを使います。あるいは、AIの状況や資本投資について決算報告書がどう述べているか調べたいとします。その場合は、ChatGPTの思考モードに通して、たくさんのレポートを出力させます。あるいは、Perplexityのリサーチ機能を使ってたくさんのレポートを作成します。

次に、特定のAIトピックについて主要なブログ記事がどう述べているかを見たいとします。その時はClaude Opusを使うでしょう。ターゲットを絞ったウェブ検索を行い、振り返り、見ているものを確実に理解します。これらはどれも単一の答えを出すことを意図したものではありません。すべて発展的な会話です。それぞれの個別のスレッドから欲しい情報を得たら、それらをまとめて、さあ、これから実際の作業に取り掛かろうと言うのです。

今、私には実際に完了させるべきタスクがあり、必要なコンテキストはすべて揃っている状態です。つまり、ここには2つのモードがあるべきなのです。情報収集をしようとするモードと、集中して作業を完了させようとするモードです。この2つを混ぜてはいけません。それがトークンを浪費する原因です。AIを混乱させる原因でもあります。AIに実際の作業を行わせたい時のあなたの目的は、AIが他に何もする必要がなく、ただ行って作業を完了させて戻ってくるだけで済むほど明確であるべきです。それくらい明確でなければなりません。もしあなたが中級者で、そんなことは知っているよ、Nate、と思うなら、あなたが知らないかもしれない別のヒントをお教えしましょう。

プラグインやコネクタの隠れたコスト

ChatGPTやClaudeの環境にたくさんのプラグインを追加している方、あなたは会話を始めるたびに税金を払っているようなものです。なぜなら、バックグラウンドでそれらが読み込まれ、コンテキストウィンドウを埋め始めるからです。ある人が教えてくれたのですが、最初の言葉を入力する前にコンテキストウィンドウで5万トークン以上を消費しているそうです。それだけ多くのプラグインやコネクタを読み込んでいるからです。そんなにたくさん必要ありません。

それがどういうことか分かりますか。機能的な工具がすべて揃った作業場に入っていき、壁に工具を掛けたままにするのではなく、まずすべての工具を取り外して作業台の上に並べ、さあ、何をするか分からないけどベンチを作ろう、と言っているようなものです。ベンチを作るのに作業場にある200個の工具すべてが必要でしょうか。いいえ、必要なのは適切な5つの工具だけでしょう。次にツール環境を構築する時は、そのことを考えてみてください。

私たちは皆、新しいプラグインや新しいコネクタについて耳にし、誰かがそれを持ち上げると、追加しなければと思い込みます。そして、それがその後ずっと静かな税金としてかかり続けることに気づかないのです。会話をするたびに、ほんの少しずつ、1000トークン、2000トークンと追加され、それが常に追加され続けます。モデルに対してそんな対価を払いたいですか。どのプラグインやコネクタが本当に自分にとって価値をもたらしているのか、もう少し戦略的に考えるべきかもしれません。もちろん、それらは非常に価値のあるものになり得ます。

途方もない価値を持つこともありますが、自分が本当に必要としているものを確実に把握してください。そうしないと、価値を加えるはずの何十個もの不要なプラグインを抱え込むことになり、コンテキストウィンドウにゴミを詰め込み、モデルを混乱させ、良い仕事を妨げ、どのツールを使うべきかモデルを迷わせてしまうことになります。

上級者向け:エージェントとコンテキストの管理

さて、最も費用がかかり、最も高度な使い方をしているユーザーについての話は最後に取っておきました。なぜなら、ここにこそ最も大きなレバレッジがあるからです。もしあなたが上級者で、GitHubのリポジトリを教えてくれれば自分でできるよ、とか、Mac MiniにOpenClaudeをインストールさせてくれ、ゲートウェイの管理は問題ないしセキュリティも確保できる、というような方なら、これはあなたのための話です。あなたはトークンの使用量において、他の誰よりも大きなレバレッジを持っています。

そして一般的に言って、あなたのミスは最も高くつきます。なぜなら、あなたが失敗した場合、数十万から数百万、あるいはそれ以上のトークンレベルでの失敗になるからです。その理由は簡単です。あなたはAIを使ってより大きなプロジェクトを行っているからです。AIを使って大きなプロジェクトを行う場合、AIを効果的に活用する能力は、特定のプロジェクトのROIとコストを管理する上で最も重要なことの1つになります。

そのレベルになると、それはもはや職務スキルです。GitHubに行けるほどの技術的知識があるなら、トークンを効率的に管理する職務スキルも持ち合わせているはずです。そして、それを誰かに丸投げすることはできません。それは組織内で誰か他の人の専任の仕事にはなりません。私たちは皆、自分自身のトークンを管理することを学ばなければならないのです。もしあなたがエージェントのシステムプロンプトの責任者でありながら、ここ数週間それを整理していないとしたら、何をしているのでしょうか。

一行ずつ確認して、これらの100行はバージョン3.5の頃からあるもので、今はもう必要ない、と判断していないとしたら。なぜリポジトリ全体をコンテキストウィンドウに読み込んでいるのか分からないけれど、いつもそうしていて、2世代前はそれで上手くいっていたみたいだから、テストもせずに続けているとしたら。それは無責任というものです。モデルの知能の向上を利用して、コンテキストウィンドウをスリム化できるような体制を整える必要があります。

今日のAIにおけるより大きなトレンドを見ると、2025年のより性能の低いモデルに対しては、多くのコンテキストを前倒しで提供し、非常に具体的に指示する必要がありました。しかし2026年になった今、モデルがより賢くなるにつれて、検索能力が向上していると信頼できるため、最初はコンテキストウィンドウをスリム化することができます。だから、このことを真剣に受け止めてください。これはClaude Mythosに備えるための実践的な行動です。軽く見ないでください。

繰り返しになりますが、技術者の方にとって、これは数百万トークンに関わる決断です。特にこのエージェントを何度も実行する場合はなおさらで、コストは積み重なっていきます。コストの具体的な違いを示すために、先ほどの初心者のPDFの例に基づく具体的な例を挙げましょう。これは全体に波及する問題です。もし信じられないなら、これは現実の話です。生のPDFをコンテキストに読み込ませたとしましょう。先ほど話したように、10万トークン対5000トークンだとします。

そして、30回のやり取りに及ぶ冗長な会話になったとします。私はこうしたケースを見てきましたし、これは非常に現実的です。フォーマットや校正も含め、すべてにClaude Opusを使用し、5時間のセッションにわたってやり取りをしながら何かを作っているとします。思考を含めて、およそ80万から100万の入力トークンと、15万から20万の出力トークンを消費しているかもしれません。100万トークンあたり入力5ドル、出力25ドルとして計算すると、8ドルから10ドル相当の計算リソースを費やしていることになります。

まあそれくらいなら許容できるよ、とか、無制限プランに入っているから関係ない、とか言うかもしれません。しかし、私はその違いに目を向けてほしいのです。AIに真剣に取り組むようになれば、その違いを理解する必要があります。私たちはAIを無駄遣いしないことについて話していますが、これは無駄遣いです。水やエネルギーを節約したいのと同じように、トークンを無駄にしないでください。クリーンなセッションで同じ作業をしてみましょう。

まずドキュメントをマークダウンに変換し、10回から15回のやり取りごとに新しい会話を始め、推論にはClaude Opus、実行にはClaude Sonnet、仕上げにはClaude Haikuを使い、コンテキストを必要な範囲に絞ります。すると、同じ時間で同じ結果を得るのに、入力は10万から15万トークンと大幅に減り、出力は5万から8万トークン程度になるでしょう。これらのモデルを組み合わせて使えば、計算リソースに8ドルから10ドルかかる代わりに、わずか1ドルで済みます。

つまり、コストを8倍から10倍削減できたということです。これをスケールアップしてみましょう。ずさんなユーザーは1週間に40ドルから50ドルの計算リソースを燃やし、クリーンなユーザーは5ドルから7ドルです。APIを使用する10人のチーム全体で考えると、全く同じ結果を得るのに月額2000ドル対250ドルになります。サブスクリプションユーザーにとっては、毎日制限に引っかかるか、あまりにも生産的で制限の存在すら忘れてしまうかの違いです。

もしこれが深刻な問題ではないと思うなら、少しMythosのコスト構造について考えてみてください。Mythosは、Anthropicの中で群を抜いて最も高価なモデルになると噂されています。私は、4月か5月にはトークンの価格帯が現在の5ドルから25ドルの範囲をはるかに超え、おそらくその10倍になるような新しい価格クラスが登場すると強く予想しています。現在のOpusのコストの10倍の世界を想像してみてください。Opusが入力5ドル、出力25ドルだとして、もしそれが入力50ドル、出力250ドルになったらどうでしょう。

そうなれば事態は深刻になります。一日の個人の作業でコストを8倍から10倍削減できることは、ビジネスとして実際に測定し考慮すべき事項になります。そして、開発チーム全体で作業し始めた時にその影響がどれほど大きくなるか想像がつくでしょう。今日あなたがしているミスは、求める最先端の知能を持つモデルが安価に設定されていたから許容できただけなのです。高額になれば話は別です。正確な価格はわかりません。

50ドルと250ドルになると言っているわけではなく、思考実験として提示しているのです。代わりに10ドルと50ドルになるかもしれません。それでもポイントは同じです。重要なのは、あなたが望むモデルのコストが高くなるということです。そしてモデルのコストが高くなるにつれて、あなたのミスの代償も大きくなります。知能の価格の上昇とともに、ミスのコストも跳ね上がるのです。そして間違いなく、モデルは向上し続けます。四半期ごと、リリースごとに、その軌跡は明白です。

モデルの進化が頭打ちになっていると言う人は嘘をついています。彼らはあなたに嘘をついています。モデルははるかに速くなっています。時折、モデルは良くなっていないと主張する人を見かけますが、どんな基準で見てもそれは事実ではありません。そう主張する人たちは、AIがこれほど優れており、これほどのスピードで加速し続ける未来の世界に直面したくないという思いが一部にあるからそう主張しているのだと思います。怖いことですよね。しかし私たちはそれに直面すべきですし、みんなで一緒に乗り越えていけるはずです。

検索ツールの最適化とトークン消費の可視化

さて、私はStupid Button(おバカボタン)というものを作りました。これがこの議論に対する私なりの貢献です。コンテキストを間違って使用していないかチェックできるように、このボタンを作っています。皆さんにお金を節約してほしいのです。何百ドルも節約してほしいのです。どうかトークンを愚かに使わないでください。環境を気にするなら、水や電気を無駄にしないのと同じです。もし利益だけを気にするのであっても、お金を無駄にしないことですよね。

私たちはおそらくそのすべてを気にかけるべきです。私が作ったStupid Buttonに何が含まれているか知りたい方のために説明すると、非常にシンプルです。6つの質問に答える手助けをします。1つ目、テキストだけが必要なのに、Claudeに生のPDFや画像を読み込ませていませんか。トークンに関して、著しく非効率なことをしていませんか。ちなみにスクリーンショットは非常に非効率です。テキストをコピーして貼り付ける方がはるかに良いでしょう。常にマークダウンに変換してください。

Claudeは本当に素早くやってくれます。やらない手はありません。2つ目の質問です。最後に新しい会話を始めたのはいつですか。あなたは会話をいつまでも続けようとするタイプですか。断言しますが、会話を永遠に続けようとする人の数は、LLMの幻覚症状を経験し始める人の数と高い相関関係があります。なぜなら、モデルは時間が経つにつれてドリフトするからです。モデルはもともとそんなに長い会話を意図して設計されていません。

もしあなたが長時間の会話をしているなら、それは未知の領域に足を踏み入れているようなものです。最後に新しい会話を始めたのはいつですか。それはなぜでしょう。繰り返しますが、会話のターンを経るごとに、あなたは1行のメッセージを送り返しているだけだと認識しているかもしれません。しかし、ClaudeやChatGPT、Geminiは、会話全体が送り返されてきていると認識しています。そして、これはClaudeだけの話なのかと疑問に思うかもしれません。

私がClaudeの話ばかりしているからです。いいえ、ChatGPTにも、Geminiにも、LLaMAにも、あなたが使っているどのLLMにも当てはまります。Qwenにもです。これがLLMの仕組みなのです。無駄にしないでください。3つ目の質問です。すべてにおいて最も高価なモデルを使っていませんか。Claude Opusを使っていますか。Proモードの5.4を使っていますか。選択が何であれ、より安価なモデルの方がうまく機能するかもしれないのに、とにかく最も高価なモデルを選んで盲目的に使っていませんか。

これは特に本番環境のワークロードを抱えている場合に重要ですが、私たち全員にも当てはまることです。例えば、単なるフォーマットの調整のようなタスクであれば、Claude Opusに頼らないでください。5.4に頼らないでください。それぞれのモデルが設計された目的に合わせて使ってください。スーパーに買い物に行くのにフェラーリを出さないでください。4つ目の質問です。入力する前にコンテキストに何が読み込まれているか知っていますか。これは実際に調べることができます。

Claude Codeで/contextコマンドを実行できます。そうすれば、読み込まれているものの数を確認できます。もしClaude Codeについてよく分からない場合は、ChatGPTやClaudeの画面に行って、利用可能なコネクタの数や、読み込んでいる数を確認できます。気づかないうちに、そして実際には使っていないのに、何万ものトークンを読み込んでいる可能性があります。数ヶ月前にGoogleドライブ連携を有効にして、その後一度も使っていないとしたら、それはリリースされた日にクールだと思ったから設定しただけですよね。

なぜそのままにしているのですか。ただ外してください。クールなものを見つけて追加し、そこにあることを忘れてしまうという例はたくさんあります。それは船底につくフジツボのようなものです。あなたを遅くし、トークンを燃やすことになります。持っている必要はありません。監査してください。自分のプラグインを監査してください。これは重要です。次の質問です。API開発者の方々、安定したコンテキストを再利用しないようにキャッシュしていますか。

プロンプトキャッシュを使用すると、繰り返されるコンテンツに対して90%の割引を受けることができます。Claude Opusでのキャッシュヒットは、標準の100万トークンあたり5ドルに対し、100万トークンあたり50セントで済みます。これは大きな違いです。何もせずにプロンプトキャッシュを無視しないでください。真剣に取り組んでください。システムプロンプト、ツール定義、リファレンスドキュメントをキャッシュしていないとしたら、何をやっているのでしょうか。

2026年においては、これは高度な技術ではありません。当たり前にやるべきことです。最後の質問です。このStupid Buttonのテストですが、これは本物のボタンです。ちなみに、私は本当にStupid Buttonを作りました。ウェブ検索をどのように処理していますか。Claudeに高価な方法でウェブリサーチをさせていませんか。皆さんは気づいていませんが、検索にPerplexityを呼び出すと、Claudeをネイティブに使用するよりもトークンがはるかに安く済む傾向があります。

現在、Claudeはこの問題に対処しています。Claudeで検索を行う方法はたくさんあります。実際にClaudeを使ってブラウザを操作することもできますし、ターミナルで直接検索すると、バックグラウンドでサービスが立ち上がり、Perplexity用のMCPコネクタのようなものを呼び出すこともできます。これらはすべてあなたが利用できる様々なオプションです。これは概して言えることです。Claudeに限ったことではなく、ChatGPTにも、Geminiにも言えることです。なぜならMCPは魔法のようなものだからです。

しかし、検索を行おうとする場合の大きなポイントは、できるだけ安価に検索を行うべきだということです。もしトークン効率が良く素早い結果だけを求めているなら、時間をかけてMCPを立ち上げ、検索結果だけを返す専用のサービスを持つ価値があるかもしれません。私がPerplexityとClaudeを使って実験的に発見したのは、Perplexityの方が1回の検索あたり1万から5万トークンほど消費が少ない傾向があるということです。複雑な検索を行っている場合、これは小さな数字ではありません。

しかも5倍ほど速く、構造化された引用も備えています。これはPerplexityの宣伝というわけではありません。単なるトークン管理のアピールです。ご自身で試してみてください。でも、私は速い方が好きですし、引用があるのも好きです。リサーチの多いセッションでトークンが少ないのも気に入っています。そうしたプラグインはトークン面で大きな節約になります。これが大きな呼びかけです。もし自分のトークン使用量を確認し診断する方法があれば、より賢く立ち回れるでしょう。

そして、それこそがStupid Buttonの目的なのです。盲滅法で飛ぶのはやめましょう。実際のトークン使用量を確認し、良い選択をして最適化しましょう。では、このStupid Buttonには何が含まれているのでしょうか。1つ目はプロンプトです。もしこれまでにやったことがなく、MCPサーバーって何?という状態であれば、あなたのためのプロンプトがあります。最近の会話に対して実行でき、あなたが具体的に行っている愚かな行動を特定するプロンプトです。

生のまま読み込ませているドキュメントはどれか、会話がどう肥大化しているかを見つけ出します。モデルの誤用や、冗長なコンテキストの読み込みもチェックします。あなたの実際のパターンを見て、最初に何を修正すべきかを教えてくれます。これが簡単なバージョンです。誰でも使えて、どのプランでもセットアップは不要です。2つ目はスキルです。これは呼び出し可能なスキルで、Claude Codeやデスクトップ環境、その他の環境を監査します。ChatGPTなどでも構いません。

スキルは移植可能で、セッションごとのトークンのオーバーヘッドを測定します。システムプロンプトの読み込みをフラグ付けし、プラグインやスキルの読み込みをチェックします。変更を加える前と後の状態を教えてくれます。トークン用のガソリンタンクが必要だと思ってください。あれば便利ですよね。つまり、これはガソリンタンクのようなスキルです。3つ目は、いくつかのガードレール(保護機能)を構築しました。ガードレールはナレッジストアに直接配置されます。

私たちがコミュニティとして取り組んでいるOpen Brainを使っているなら、Open Brainに直接配置され、入力時にトークンを燃やすのを防いでくれます。素晴らしい機能ですよね。ストアに入ってくるドキュメントの自動マークダウン変換。単にダンプして検索するのではなく、インデックスベースの検索。クエリに対して最小限の実行可能なコンテキストを可能にするコンテキストスコーピング。ここでトークン管理は単なる個人の規律ではなくなり、自らを維持し始めるインフラとなります。

Open Brainはオープンソースであり、私たちはこれを進化させ、改善し続けていくので、コミュニティがこれを基盤にどのように構築を続けていくかを見るのが本当に楽しみです。しかし、Open Brainコミュニティが責任あるトークン使用を確保するためのレールを確実に敷いておきたかったのです。さて、最後にエージェントとコンテキストについて少し話して締めくくります。なぜならエージェントは場合によっては数億ものトークンを燃やすからです。

エージェント開発における5つの戒め

エージェントを除外したくはありません。エージェントのコンテキスト管理についてどう考えるべきでしょうか。ここで5つの戒めを提示します。私はこれを、エージェント向けのKISS(Keep It Simple, Stupid)の戒めと呼んでいます。第1の戒め、リファレンスをインデックス化すること。もしエージェントが関連するチャンクではなく生のドキュメントを受け取っているなら、すでに失敗しています。

検索の最大の目的は、モデルが見る範囲を必要なものだけに絞り込むことです。エージェントを呼び出すたびにドキュメントのフルセットをウィンドウにダンプするのは非常に無責任です。エージェントにコンテキストを与えるためだけにそんなことをしてはいけません。エージェントに不必要な仕事をさせないでください。第2の戒め、消費できるようにコンテキストを準備してください。前処理を行い、事前に要約し、事前にチャンク化してください。

リファレンスドキュメントは、読んだり処理したりする準備ができているのではなく、すぐに使える状態でエージェントのコンテキストに届くべきです。もしモデルの最初の数千トークンの推論が、あなたが行ったひどい前処理の対処に費やされているなら、あなたは責任あるエージェント開発者とは言えません。第3の戒め、これは以前にも触れたことです。エージェントのワークフローにとって非常に重要なので、エージェントのコンテキストで改めて強調します。

どうか、どうか、安定したコンテキストはキャッシュしてください。システムプロンプト、ツール定義、ペルソナの指示、参考資料など、安定しているものはすべてキャッシュし、キャッシュヒットで90%の割引を受けるべきです。これは、あなたが利用できる中で最も労力が少なく、最もインパクトの大きい最適化です。1日に何千回もエージェントを呼び出しているのにキャッシュしていないとしたら、それはお金をドブに捨てているようなものです。

第4の戒め、各エージェントのコンテキストを必要最小限に絞り込んでください。プランニングエージェントにコードベース全体は必要ありません。コードベース全体を与えないでください。編集エージェントにプロジェクトのロードマップは必要ありません。プロジェクトのロードマップを与えないでください。もうお分かりですね。すべてのエージェントにすべてを渡すのはアーキテクチャ上の怠慢であり、トークンの燃焼による実際のコストがかかり、率直に言ってエージェントのパフォーマンスの低下を招きます。

関連するコンテキストの海で溺れていると、モデルのパフォーマンスは悪化します。ちなみに、エージェントが何を必要とするか分からない、と思う方もいるでしょう。より賢いエージェントなら自分で見つけるべきではないのか、と。答えはイエスです。しかし、それを効率的に行えるのは、検索可能で前処理されたリポジトリを与え、エージェントが関連するコンテキストの一部だけを取りに行けるようにした場合だけです。ですから、時間をかけて正しく行ってください。

第5の戒め、何を燃やしているか測定してください。1回の呼び出しあたりのトークンコストを把握していないなら、情報なしで最適化しようとしているのと同じです。エージェントの呼び出しを計測してください。入力トークンを追跡し、出力トークンを追跡してください。全体的なモデルの構成比とコスト比率を追跡してください。測定しないものを改善することはできません。

エージェントシステムを構築しているほとんどのチームは、機能的に正しいかどうかではなく、意味的に正しいかどうかばかりを考えています。ここには大きな違いがあります。そして、彼らはシステムプロンプトの最適化についてよく考えていますが、モデルのコストについてはあまり考えていません。なぜなら、ほとんどの場合、モデルのコストがプロジェクトの生死を分けるわけではないからです。2025年や2026年初頭の現在、今のコスト水準と経営陣からの開発を急ぐ声がある中で、1回の実行に12ドルかかろうが、それがプロジェクトを破綻させる原因にはならないことは理解しています。

トークンを賢く消費する文化へ

しかし、モデルがより高価になる世界に備えて計画を立ててください。スケールアップが必要になる世界に備えて計画を立ててください。責任を持って計測しなければならない世界に備えてください。さて、少し視点を変えましょう。この背景には私たちが認識すべき文化的な問題があります。ここ数ヶ月のどこかで、トークンを燃やすことが名誉の勲章のようになってしまいました。その気持ちは分かります。AIの時代に意味のある仕事をするためには、ある程度トークンを燃やす必要があります。

ここまで話してきたことは、トークンの消費量が減ることを期待しているわけではありません。減ることはないでしょう。トークンを燃やす覚悟を持つ必要があります。私のお願いは、トークンを使うなということではありません。効率的に使ってほしいというお願いです。ですから、Jensen Huangがステージに座って、開発者1人あたり25万ドルのトークンコストがかかると言い、みんながショックを受けたり、目を丸くしたり、どんな反応をしようと、私の反応は、その25万ドルが賢いトークンの使われ方であってほしい、というものです。

Jensenにとっては銀行に現金があるので個々の金額の問題ではありません。問題はトークンがうまく使われたかどうかです。賢くトークンを使えたかどうかなのです。ですから、自問し始めてください。自分はClaudeを最大限に活用する必要があると。Claudeが使えないと禁断症状が出るような人もいます。そんな人を何人か知っています。ああ、映画を見に行ったら数時間Claudeが使えなかった。トークンの利用枠を逃した気分だ、と。

少し外の空気を吸って落ち着きましょう。大丈夫ですから。でも、トークンは上手に使ってください。トークンの使用を効率化してください。何に費やしているのかを把握してください。馬鹿げたことに使わないでください。変換すればいいだけのPDFに使わないでください。本当に意味のある仕事に使ってください。そして、それは人間の問題でもあります。私たちは大胆で挑戦的である必要があります。

これらのモデルは本当に様々なことが得意です。だから、もっと大胆に、もっと挑戦的になって、モデルを何に向けるべきか、もっと大きく考えましょう。なぜなら、私たちがもっと効率的になれれば、そのトークンを使って、よりクールでクリエイティブなことをもっとたくさんできるからです。それが私がインターネット上にStupid Buttonを作った理由です。

コメント

タイトルとURLをコピーしました