Claude 3.7: Anthropicの戦略、ChatGPTの戦略、そして現実世界での評価の必要性

2,298 文字

Claude 3.7: Anthropic's Strategy, ChatGPT's Strategy, plus the need for real world evals

My site: ( My links: ( My substack: ( My review: ---### **Takeaways** 1. **AI Model Evaluations Are Overfitted** Current...

Claude 3.7の発表は、AIモデルにとってより良い評価方法（evals）が必要だということを私に強く印象づけています。現在、モデルはAIMEのような広く公開されている評価基準に過度に最適化されています。これらのモデルはすべて、広く知られている評価基準で信じられないほど高いスコアを獲得していますが、それは最初から評価基準に対して良い結果を出すように訓練されているからであり、これは一種の循環論法ではないでしょうか。
少し視点を変えて、サティア・ナデラが言及していたことについて考えてみると、「モデルに経済的に有用な仕事をさせたい」という彼の発言はその方向性を示しているのではないでしょうか。モデルはこのベンチマークやあのベンチマークでは非常に優れていますが、実際に意味のある仕事をしているのでしょうか？そして、意味のある仕事に対する優れたベンチマークがないため、おそらく最も近いのは「Lancer」と呼ばれる全く新しいベンチマークでしょう。ChatGPTが維持しているものです。本来は独立した組織がこれを維持すべきですが、現時点ではOpenAIがこれを維持しています。このベンチマークはモデルが独立してフリーランスの仕事を完了する能力を測定するように設計されています。
これが実際の仕事を測定する最も近いものでしょうし、Claude 3.5（3.7ではなく3.5）はその点で非常に良い成績を収め、これまでで最高のスコアを獲得しました。これが、私が言うところの例です。学術的なベンチマークでは全てのモデルが非常に似たようなスコアを獲得していても、Lancerが測定しようとしているような実際の世界で実際の仕事をする際には、あるいは他のベンチマークが出現して測定することを望むような場合、モデルは異なるのです。
モデルは同じではありません。現在、これを「モデルのバイブ」、つまりモデルを使用したときに受ける印象と呼んでいます。残念ながら、それは私のようにAIモデルで多くの時間を費やす人々が、この暗黙の情報の門番になっていることを意味します。私はClaude 3.7に触れるとすぐに、これが3.5とどう違うのか、ChatGPTモデルとどう違うのかを直感的に理解しますが、それを異なる仕事をしている人々に役立つ形で伝えるのは非常に難しいのです。これは業界全体が現在本当に苦労しているところだと思います。
3.7に関する私の見解からいうと、彼らは典型的なチャレンジャーブランドのプレイを行っており、Claudeが歴史的に素晴らしかったコーディングと構築に本当に焦点を当てています。3.7をどこで優先的に利用可能にしているかを見ると、コーディングと構築に特化しています。ターミナルで利用可能、Cursorですぐに利用可能、ChatGPTアプリではGitHub統合で利用可能です。彼らはこのモデルで構築してほしいと考えており、それは理にかなっています。チャレンジャーブランドは通常専門化しており、それが彼らが市場で勝つ方法の一部です。
ChatGPTのような大きなブランドは通常、一般化する必要があり、彼らの価値提案を一貫性のあるものにする必要があります。これがChatGPTがGPT-5に投資している理由の一部であり、彼らは何十ものモデルを誰もが何のためのものかを理解できる一つの一貫したモデルにする必要があります。
3.7はClaudeの測定重視の伝統を続けると予想しています。3.5は発表後9〜10ヶ月間、その間に発表された他のモデルにもかかわらず、好まれるコーディングモデルであり続けました。3.7を試して、3.5よりもどれだけ良く感じるかを見て、同じ運命をたどると思います。長い間非常に人気のあるコーディングモデルになると思います。
今日、Substackで3.7が3.5と比較してどのようなものかの例を示せるか試してみたいと思います。同じプロンプトに対してこれらのモデルがどのように反応するか、特にどのように構築するかの違いを実感できるようにしたいです。これが経済的に有用な仕事をどのように行うかを示す私の試みですが、繰り返しになりますが、これを理解するのに役立つ独立したベンチマークが本当に必要です。
個人が本当にできることではなく、モデル作成者がやるべきことでもありません。モデル作成者は試さなくても本質的に偏っているからです。OpenAIがフリーランサーベンチマークを立ち上げた理由は、ChatGPT 4.5かもしくはChatGPT 5でそれに勝つことを期待しているからだと思います。それがベンチマークを維持し推進するためにお金を払う理由です。
ベンチマークは無料ではなく、維持するには多くの作業が必要です。私たちは現実世界のベンチマークをもっと切実に必要としています。現在、企業のような支払う能力のある組織は、これをどのように経済的に有用な仕事に使用しているかを共有するインセンティブがありません。それは企業の秘密のソースだからです。なぜ共有するのでしょうか？
そのため、経済的に有用な仕事のための独立した評価を開発・設定するインセンティブを持つお金を持っている人は誰もいないという状況にあります。それがあれば本当に役立つでしょう。答えが何なのかわかりませんが、もし魔法のように数百万ドルを持っていて、これを聞いているなら、ベンチマークを設定してください。世界の残りの部分が本当に感謝するものになると思います。そして、もしそうでなければ、人々がそうしてくれることを求め、願う私に加わってください。乾杯。