私はクロードのGmail「スーパーパワー」にお金を払った—しかしAnthropicの計算能力不足でそれは使い物にならなかった

3,373 文字

I Paid for Claude's Gmail 'Superpower'—and Anthropic's Compute Crunch Made it Useless

My site: links: substack: wanted to love this so bad!!Takeawa...

クロードの新機能を試してみました。カレンダーとメールをクロードに接続するものです。とても期待していました。「これでメールから今までにない洞察が得られる」「サードパーティを使わずに直接LLMをメールアカウントに接続できる」「最先端モデルのパワーを自分の受信トレイやカレンダーで活用して、毎日のブリーフィングを準備してもらえる」といったアイデアが浮かびました。
しかし、まったく機能しませんでした。なぜなのか調べてみると、非常に興味深い理由が見つかりました。それは現在Anthropicが直面している核心的な問題の一つに関わっています。
根本的に、Anthropicは計算能力に制約があります。これが彼らのすべての活動に影響を与えており、この機能のロールアウトもその影響を受け、本来あるべき姿よりもはるかに期待外れなものになっています。
クロードは素晴らしいモデルだと思います。私のクロードとの全体的な経験は素晴らしいものでした。しかし、今回のクロードとの体験はひどいものでした。一般的にクロードはコーディングが得意なのに、メールやカレンダーからの入力に基づいたブリーフィングのReactアーティファクトをコーディングするよう頼んだところ、非常に出来の悪い仕事をしました。
たった一回の呼び出しをするだけで、一つのリストを落とし、私のミーティングの半分しか取得しませんでした。確かに私はたくさんのミーティングがありますが、それでも最初の7、8個だけを取得しました。そして私のメールも最初の5つほどしか取得しませんでした。
理由を調べてみると、Anthropicはおそらくコスト削減のためにバックエンドでレート制限をかけていることがわかりました。そのため、Anthropicの最大プランで月額100ドル払ったとしても、カレンダーやドキュメント、メールへの呼び出しは合計で50回しかできません。これは1日に3つのドキュメントを見るために使ったり、1日に2回カレンダーを確認したり、メールをチェックしてメールの返信を作成したりすると、あっという間になくなってしまいます。
彼らはいずれ制限を解除すると言っていますが、月額100ドル払っても私にとってそれが変わらないという事実は、彼らが現在いかに計算能力に制約があるかを物語っています。
私が懸念しているのは、モデル開発者がエージェントのツール使用を示す圧力にさらされている時点にいるということです。OpenAIが裏側で600ほどのツールにアクセスできるO3をリリースした同じ週に、彼らがこれを投入したことに気づきますよね。ドロップダウンから選ぶことはできませんが、O3自体がツールを選んで操作します。
基本的に、Anthropicはクロードにより多くのツールを与えているだけです。チャットボットの中に包まれた、十分に説明されていないエージェントツールの使用です。問題は、AnthropicがChat GPTよりもはるかに計算能力に制約があることです。そして最終的に、それはこれらのロールアウトの実際の方法に現れています。
私はカレンダーとメールを取得してみましたが、ひどい経験をしました。再構築してもらおうとして「クロード、もう一度試して」と言いました。通常、クロード3.7や3.5は問題の修正が得意なので、これで解決するはずでした。しかし、クロードは2回目、3回目の試行でも基本的な完全なカレンダーのドロップを取得することができませんでした。過去15通のメールを取得することもできず、取得できたとしても、取り込んだすべてのデータから意味のあるLLMの洞察を生成することができませんでした。
それらのデータソースを別々のコンテキスト取り込みとして引き出し、マージしたファイルとして見ることができないのかもしれません。わかりません。しかし最終的には、素晴らしい顧客体験とは言えません。
また、クロードは理論上は巨大なコンテキストウィンドウを持っていますが、出力のコンテキストウィンドウが非常に小さいことも問題だと思います。実際には、1ターンのコンテキストウィンドウ出力を約8Kトークンに制限しているのは、あまりにも短く感じます。ドキュメント全体を取り込むことができたとしても、クロードが意図的に省略しているように感じます。
Chat GPTは、彼らの方法でそれをうまく隠していると思います。理論上のトークン入力制限は、必要に応じてディスクに情報を保存し、トークンをストリーミングできるため、あまり感じられません。これは彼らのLLMのアーキテクチャの特別な点であり、消費者の視点からは、トークン制限に気づかないということです。
私たちはトークン制限が体験のすべてであるかのように話していますが、実際には計算能力の制限の方が興味深いです。OpenAIは多くの計算能力を持っているため、それを活用しています。トークンのストリーミング、サーバーへの保存、ロールアウト時に計算能力をきちんと割り当てて実際に良い体験を提供することなどを行っています。無制限のクエリを提供するなどの工夫もしています。
一方、クロードは根本的に計算能力に制約があり、基本的には与えられたターンで生成できる出力トークンのみを生成します。そのため、チャンキーに感じ、ツールを実際に使用することができません。なぜなら、ツール使用に関する計算能力が制約されているからです。OpenAIは計算能力を持続できる自信がなければ、O3で600のツールを提供することはしません。
私がクロードのカレンダーやメールのロールアウトで見ているものは、チームの知識やモデルの品質に関するものではないと思います。また、仕様書に書かれていて、誤解を招くと思われるトークン制限についてでもありません。実際には、この分野の資本制約についてです。
クロードはOpenAIほど資本力がありません。クロードはネットで見るとGPUが少なく、その厳しい事実のために遅れをとっています。これは、私がチームやクロードで彼らが試みていることにどれだけ感銘を受けているかとは全く関係ありません。クロード、特にクロード3.5は私が愛するモデルであり、ちょうど良いバランスを見つけています。
しかし、最終的には、計算能力の制約が顧客体験に影響します。顧客体験は単なる入力トークンと出力トークンだけではありません。インターフェース、会話の感じや流れなど、層になった顧客体験があります。
ディスクに保存するという選択、思考の過程の一部を表示して全部は表示しないという選択、特定のプランで特定の体験を優先してそれが完全に感じられるようにするという選択など、それらの小さなことが重要です。だからこそ、Chat GPTはこの日付の時点でPlusプランではO3のクエリを週50回に制限し、Proプランではもっと多く（私が思うに無制限）提供していると思います。
彼らはそうすることで、チャットを使用している人々に完全な体験を提供しようとしています。それとは対照的に、すべての人がアクセスできるようにしつつ、誰もが少し悪い体験をするというのではなく。それがより良い選択だと思います。
クロードがある程度制限しようとしていないと言っているわけではありませんが、Proプランでもゲートが解除されないことに気づきました。最初に話したように、月額100ドル払っても、ドキュメント、カレンダー、メールへの50回の呼び出し制限は解除されません。これは計算能力の制約であり、資本の制約です。
資本制約がこのレースのダイナミクスにどのように影響し始めているのか、もっと話し合う必要があると思います。オープンソースについて話すのが好きなのはわかっています。Deepseekは素晴らしいことをしています。それは別の日の別のビデオのテーマです。しかし、資本制約は現実であり、GPU制約も現実です。計算能力はこの分野での成功の原動力であり続けており、それはすぐには変わりません。
今週の03のロールアウトで見られるもの、特にクロードが戦略的にエージェントツールをロールアウトする必要があったものと比較すると、資本制約が明らかに表れていると思います。あなたの考えを聞かせてください。