Google最新モデルGemini 3.1 Proのベンチマーク結果は圧倒的な数値を叩き出す一方、実際の使用感では深刻な問題を抱えている。AIインテリジェンス指数では歴代最高スコアを記録し、ARC AGI 2での78%達成など知識面での優秀さは疑いないが、ツールコールの失敗、CLIの不安定さ、長時間タスクへの脆弱性など実用面での欠陥が顕著だ。ベンチマーク最優先の開発姿勢が生み出したモデルの限界と、Anthropicモデルとの実用的な差異を詳細に検証する。

- Gemini 3.1 Proが登場——数字は確かに凄まじい
- スポンサー紹介:Kernel
- Gemini 3.1 Proの実際の使用感
- Gemini 3のツールコール問題と3.1の改善
- Geminiのモデル評価——ベンチマークと実用性の乖離
- サイドプロジェクトでの活用——良かった点と悪かった点
- 動作の不安定さとハルシネーション問題
- 知識量は圧倒的、でも実用面では致命的な欠陥
- なぜGeminiのCLIはここまで酷いのか——他のラボとの差
- Haiku 4.5との比較——スマートさと有能さの違い
- 実際の作業でのGeminiの挙動
- 知識吸収能力と外部評価
- 自作ベンチマーク「SnitchBench」での結果
- 総評——最も賢く、最も使いにくいモデル
Gemini 3.1 Proが登場——数字は確かに凄まじい
また新しい「世界最高のモデル」が出ました。Gemini 3.1 Proがドロップしたんですが、正直これはなかなかすごいですよ。見てきた数字が軒並みとんでもない。Googleが公表したものも、外部から出てきたものも、自分で計測したものも。このモデルを山ほど使って、ありとあらゆるベンチマークで走らせてきました。
数字が本当にヤバい。AIインテリジェンス指数では、Opus 4.6 Maxを含むこれまでのどのモデルよりも4ポイント高いスコアを出しました。さらにクレイジーなのは、そのスコアを叩き出すのにかかったコストがOpus 4.6の半額以下、わずか892ドルだったこと。Opus 4.6は2500ドル近かったんですよ。GoogleのオフィシャルなデータもARC AGI 2を含めて全部ぶっ潰しています。ARC AGI 2で78%を取るだけでも普通じゃない。あれはLLMじゃ解けないと言われていたやつで、AGI 1は……いや、こりゃもう正気じゃないですね。全部の数字がおかしい。
じゃあ終わりですか?Opusは死んだんですか?GoogleがAI戦争に勝ったんですか?そんな単純じゃないです。みなさんもご存じの通り、数字の裏にはもっとずっと深い話があります。これを全部一緒に掘り下げていきたいんですが、その前にちょっとスポンサーの話をさせてください。
スポンサー紹介:Kernel
AIにコードベース全体へのアクセスを与えると途端に賢くなる感覚、わかりますよね?実はインターネットへのアクセスを与えると、さらにその先へ行けるんです。特に最近のブラウザ使用エージェントと組み合わせると、できることがすごく広がります。でも、どのブラウザを使わせますか?自分のパソコン上のものは嫌ですよね、特にプログラム的なユースケースでは。だから今日のスポンサー、Kernelがめちゃくちゃ気に入ってるんです。クラウドでブラウザ使用エージェントを走らせるのに最適な場所です。
オープンソースのインフラが異常に速い。ブラウザを30ミリ秒以内に立ち上げて接続できます。使い方もシンプル極まりない。Claude Sonnet 4.6は以前のモデルと比べてブラウザ使用が格段に向上しているので、これと遊ぶのが本当に楽しい。このコードがKernel上でブラウザを立ち上げてClaudeにアクセスを渡すんですが、Claudeはそこでいろいろなことができます。現在のページのスクリーンショットを取って、Anthropicに関するブログを探して、その記事を読んで要約する——これをサイトを実際にナビゲートしながらやります。
devコマンドを走らせればクラウドでブラウザが起動します。ライブビューを立ち上げれば、処理が実際に起こるのをリアルタイムで見ることもできます。私のカーソルも見えますが、エージェントのマウスカーソルもちゃんと動いてますよね。好きな時に割り込んで操作できますが、エージェントに任せています。ブログを見つけてクリックして、スクロールして、プロンプトで指定した記事を探している。各ステップでClaudeが何を決断したかも確認できます。これがどれだけ便利かはもう見えてると思いますが、認証回避や、APIがないことをやる必要があるときの手段として加えると、本当に実用的になります。エージェントの可能性を制限しないで、soyb.link/kernelでウェブへのアクセスを与えてあげましょう。
Gemini 3.1 Proの実際の使用感
本題に戻りましょう。Gemini 3.1 Proの話をしなきゃいけない。さっきも言ったように、かなり使い込んでいます。今もバックグラウンドで古いアプリのポーティングを走らせてるし、いろんなハーネスやツールで使って、いろんなものを作ってきました。古いプロジェクトのアップデートにも使いました。
そうしている中で、Gemini CLIが本当に心底嫌いになりました。まずGemini CLIはリリース初日にGemini 3.1が入ってなくて、うっかりGemini 3で走らせてしまっていたみたいです。最高ですね。CLIに3.1 Proがないだけじゃなく、しょっちゅうぶっ壊れるし、わけのわからないことを平気でやります。この履歴を意図的に残しておいてみなさんに見せようとしていたんですが、画面解像度が変わったせいで死んでしまいました。まあ今回の実行でも問題は山ほど出てくると思います。
Gemini 3のツールコール問題と3.1の改善
まず最初に言っておきたいことがあります。うっかりGemini 3 Proで走らせてしまったせいで、3の酷いツールコールの問題に慣れてしまっていたんです。基本的なファイル編集でも、直前に読んだファイルを不正な構文を渡して編集しようとして失敗するみたいな、全く意味のわからないエラーを延々と出し続けていました。3.1はその点はかなりマシになっているようで、少なくとも今回のオフィシャルログを見る限りはそう見えます。
公式CLIで使えなかったので、最初にカーソルのCLIで試してみました。カーソルのCLIは今のところ悪くない感じです。画像のペーストができないのは痛いですが、それ以外は機能しています。テストとして、SQLiteからPostgresへの移行を指示してみました。実際にやらせるわけじゃなく、どんな動きをするか見るためです。
しばらく考えてから……再接続。いきなりそれかよ。これがカーソルのせいなのかGeminiのせいなのかわかりませんが、どちらにしろひどい体験です。もう一度試してみましょう。上部のナビも見えてますね、普段は見えないはずなんですが。ちょっと脱線しますが愚痴らせてください。設定を開こうとしたら、Mac全体が壊れます。これがMac設定の今の姿です。Mac OSにはもう完全に愛想が尽きました。
カーソルのツールでは、考えた直後に思考内容をアグレッシブに隠してしまいます。毎回実行のたびに「ツール選択を優先しています」というステップがあって、専門化されたツールが使えるときはそれに強く依存するよう意識している、CAT(Catコマンド)はファイル操作に使わないようにしている……そこで切れます。Geminiを正しく使っているすべての環境でこれを見てきました。
Geminiのモデル評価——ベンチマークと実用性の乖離
これらのモデルはツールコールが本当に苦手です。たくさんのツールを渡されても、ニコニコして何もしない。使わせようとすると、ツールの使い方を丁寧に指示しなきゃいけない。逆に油断すると今度は過剰に使いすぎたりします。カーソルを使っているのも、まさにこれが理由です。カーソルはGeminiモデルをチューニングするのにかなり時間をかけていますが……まあ「マシにする」という言い方しかできない。Googleはハーネス内でうまく動くようにモデルをトレーニングしていないんです。ベンチマーク最大化にばかり集中しすぎている。そしてそのベンチマーク最大化、ちゃんとやってきています。
以前、スケートボードのトリックを動作の説明から当てる「スケートベンチ」というベンチマークを作りました。ニッチな知識と空間認識を組み合わせたものです。回転がボードやスケーターに与える影響と、それらの関係を理解する必要がある。最初に作った時は、Grok 4が75点でダントツトップでした。その後、OpenAIのオフィスでGPT-5を試したら98点で、当時は頭が真っ白になりました。それ以降、OpenAIのモデルは意外と後退していて、最近のものは87点止まり。それだけ下がってるのは正直おかしいくらいです。5.2や5.3がコードでは非常に優れているのは確かですが、これはこれで参考になる話です。
新しいトップが生まれました、それも圧倒的な差で。Gemini 3.1 Pro Previewはこのベンチで安定して100%を叩き出します。何をしたのかわかりませんが、3Dを本当によく理解している。2Dの空間認識も優れていて、自転車に乗ったペリカンのSVGをまともに描けた最初のモデルでもあります。323.9秒の思考がかかりましたが、かなりいい仕上がりです。SVGを作れるだけじゃなく、アニメーションもできる。こんなことができるモデルは見たことがない。SVGアニメーションは複雑な技術で簡単じゃないのに、それを見事にこなしました。他のプロジェクトでも試してみて、アニメーション能力には感心しました。SVGのクオリティ自体はそれほど感銘は受けなかったんですが、面白いものを作ることはできました。
サイドプロジェクトでの活用——良かった点と悪かった点
ここ数週間ずっと言っているように、サイドプロジェクトを抱えすぎています。いくつかはもうすぐ完成してリリースできそうですが、また一つ二つ増えてしまったかもしれません。Geminiを使って作業していた中で、うまくいったことと全然ダメだったことがあるので、ちょっと触れておきたいと思います。
特によかったのはデザインです。Adobeのものに疲れたので、Frameの代替として、コードレビューならぬ動画レビューサービスを新しく作っています。そのホームページが本当に素晴らしい出来でした。画像のレイヤリングでやろうとしたことはうまくいかなかったので、あるものを使って好き勝手デザインしてくれと言ったら、最初に出てきたのがこれです。そこからいくつか調整の指示を出しましたが、大した手間もかけずにいいサイトを作り上げてくれました。元々あったあまりパッとしないサイトを「どうにかしてくれ」と言ったら、ちゃんとどうにかしてくれた。このまま出せると思っているくらい満足しています。
もう一つ、まもなく詳しく話す新しいプロジェクトのUIも作ってもらいました。これはすごく楽しみにしています。各モデルが全部生成された内容でCliplashのようなゲームをやり合うという感じで、Gemini 3.1 Proが思ったよりずっとおもしろいんです。このアプリ全体もGemini 3.1 Proで作りました。タスクが長くなると詰まることも多くて助けてやる必要もありましたが。
カカシに向かって叫ぶスローガンみたいなやつとか、「いいフランネルだね、鳥の糞は申し訳ないけど」とか、まあまあ笑えるじゃないですか。しかも笑っているのは私だけじゃない。他のモデルたちも笑っています。見てください、見事に一番面白いモデルに選ばれています。Googleが面白いものを作るとは思っていなかった。正直Grokの方がもっと面白いと思っていましたが、GrokとGeminiを比べてみると、えげつないジョークを言ったのがGeminiの方だというケースが何度もありました。
最初のUIは「醜い」と言ったら控えめすぎるくらいのものでしたが。CLIアプリとして作っていたときも、変なGeminiらしさが随所に出ていました。GLM5のプロンプトライターが失敗して、本来応答すべき内容がモデルに渡らなかったときの話が面白くて、システムプロンプトには「面白くあれ」とだけ書いてあった。GrokはGrokらしく「Jeffrey Epsteinは自殺じゃない」みたいなやつをやって、Gemini 3.1 Proは……まあそういうことです。
動作の不安定さとハルシネーション問題
これがGeminiモデルの本質的な問題です。「制御不能になる」という意味じゃないんですが、少しはそっちの面もあります。Gemini 3.1 Proが触ってはいけないアセットを消してしまうのを昨日も目撃しました。ファイル書き込みのアクセスを与えるときは本当に気をつけてください。ただ、もっとイライラするのは、単純にモデルとして正しく動かないことです。同じ2単語をひたすら繰り返すループに入ったり、支離滅裂なことを言ってすぐ止まったり、中国語の文字に切り替わったり(これはGemini 3 Proで多かった)。3.1ではそれはまだないですが、他の症状はそのまま残っていて、さらに増えています。
これも面白いことがありまして。他のモデルが返答するときに使うプロンプトを生成するモデルのシステムプロンプトに(「プロンプト」が二重の意味を持ってわかりにくいですが)、他のモデルに渡すゲームのプロンプトを生成するためのシステムプロンプトを書いたんです。そこには「応答すべきものだけを返せ」と書いてある。するとGeminiが「return only」と言い返してきた。これLlama 2みたいなやつですよ。でもこれがGeminiモデルの本質で、知能は凄まじい。このモデルに詰め込まれた知性の量は圧倒されるほどです。
私だけがそう感じているわけじゃなく、Artificial Analysisも同じことを言っています。特にハルシネーション率と知識の量について。Artificial Analysisは独自の「全知ベンチマーク」を作っていて、知識とハルシネーションを追跡して相殺しています。正解数でランクされると同時に、不正解数でも評価される。「わからない」と答えることには罰則なし。つまりわからないことを正直に言えるモデルを評価し、嘘をついた場合は減点し、正解した場合は加点するというベンチマークです。
その結果、Gemini 3.1 Pro Previewはかなり良いスコアを出しています。Claude Sonnet 4.6やGPT-5.2 Highのような賢いモデルでさえ、このベンチには難問が多いのでハルシネーションを起こして負に沈んでいます。ハルシネーション率のチャートを見ると、Gemini 3 FlashやGPT-4o-mini(20B)のような以前のモデルは異常に高かった。わからなくても「わからない」とは決して言わない。意外なことに、この点で最も優れているのはClaude Haiku 4.5で、知らないことはすぐ認めます。一方Gemini 3.1 Previewはここで大きく進歩しています。3 Proと3.1 Proの間のハルシネーション率の差は笑えるくらい大きく、ほぼ半減しています。
知識量は圧倒的、でも実用面では致命的な欠陥
ただ、Googleがこのベンチで本当に圧倒しているのは正確さです。他のモデルより多くの問いに正確に答えられる。どれだけ賢いかは明らかです。このモデルに詰め込まれた情報量と能力は非現実的なレベルです。でも実際に使おうとすると、本当にひどい。
例えば、閉じた後も端末にランダムにスパムを送り続けてくるとか。何が起きてるのかさっぱりわからない。その端末ごと閉じます。なんで……?
Gemini 3.1 Proでテストしようと本当に頑張っているんですが、CLIで何をやっても勝手に別のモデルに切り替わります。Flash Lite、Flash 2.5、Flash 3 Previewを使い始めているのに、私はGemini 3.1 Proを選んでいた。CLIが本当に使い物になりません。おかしく聞こえるかもしれませんが、これが使い勝手の悪さの大きな原因だと思っています。
なぜGeminiのCLIはここまで酷いのか——他のラボとの差
最近はっきりしてきたのですが、他のラボは人々のチャット履歴を使ってモデルをトレーニングしています。before/afterがあれば、変更が必要だったものとそのリポジトリでの変更の前後があれば、CLIの履歴を簡単に生成できます。ラボがそうした偽の履歴を生成し、強化学習に使う。その結果モデルはこれらのツール内でうまく機能し、長時間にわたっても機能し続けます。Googleはこれを全くやっていないようです。違うかもしれないけれど、何かでRLしていても長時間のエージェント実行には役立っていない。
SWE-benchのMeterのデータが、これをよく示しています。ご存じない方のために説明すると、人間が完了するのにどれくらいの時間がかかるタスクをエージェントが50%の成功率で自力で完了できるかを追跡するベンチマークです。2025年初頭、最良のモデルで30分から1時間のタスクを50%の成功率で完了できていた。今やOpus 4.6では16時間相当のタスクまで到達しています。実際に16時間走るわけじゃなく30分から1時間程度ですが、人間だったら16時間以上かかるようなタスクを50%の成功率で完了できる。これは驚異的です。GPT-5.2とOpus 4.6の両方がここで結果を出しています。5.3がAPIに来たらさらに上回ると思います。Geminiモデルがここで良い結果を出せるとは思えない。長時間のタスクを与えると混乱して迷子になりがちだからです。
Haiku 4.5との比較——スマートさと有能さの違い
先ほどツールコールの問題が概ね改善されたと言いましたが、間違ったモデルで走らせていたのでわかりません。また3.1 Pro Previewでやり直しています。今度こそ選んだモデルのままでいてほしい。プランモードがないことにも気づきましたし、さっきうっかりYellowモードもオフにしました。CLIは最悪です。みんなもうわかってる。とにかく他のものを使いましょう。
ちょっとこの矛盾について愚痴らせてください。Claude Haiku 4.5の話をしたいんです。なんでHaikuの話を?と思いますよね。インテリジェンス指数の上位チャートには載ってもいない、37点のモデルです。今は50点台後半が当たり前なのに。なんでこんな小さくて安いモデルの話を?
役に立つからです。これが強調したいことです。モデルは単なる知識の塊じゃない。ツールコールを通じて行動し、知識を集めることが求められるようになってきている。よりスマートなモデルはより多くのことができる——知識があって、それを活かせる。でも知識を集める能力が高い方が、さらに前に進める。Anthropicがsonnet 3.5の頃から一貫してフォーカスしてきたのは、ツールコールの一貫性です。HaikuがツールコールのShapeを間違えるのを見たことがない。ツールの使い方を教えれば、ちゃんと使います。割と上手に。
Gemini 3.1 Pro Previewにツールを使えと言ったら、使いすぎたり全く使わなかったり間違って使ったりを交互に繰り返します。たまに正しく使うこともありますが稀です。全体的に指示への従い方が以前より改善されているのは認めます。でも正直、古いモデルのような感覚です。昔のLlamaの時代か、古いDeepSeekのオープンウェイトモデルに無限の知性を詰め込んで、有能さを入れ忘れたような感じ。物事をこなすのが上手じゃない。
プランツールもない。聞いた話では、プランツールのあるハーネスでも使わない。質問を出力するだけで、回答を求められ、大量の出力を出して「これでいいですか?」と聞く。プランツールも関連するツールも呼ばない。プランニングのフェーズでRLしたけど、プランニングツールを使ったプランニングフェーズではRLしなかったのかと思います。それで変な動きになっているんじゃないかと。
実際の作業でのGeminiの挙動
まあ一応ここでは悪くないプランを書いたようですが、プランモードではない。作業させてみます。やっぱりランダムな編集失敗が続く。なんでこんなことができないのか。ファイルの読み込みも苦手で、一度に100行しか読めないようにハードコードされているみたいです。1から100、101から200、201から300と延々と読み続けるのを何度も見てきました。なんで?
このモデルを責任を持ってカバーするためだけじゃなく、常に間違いをしてないか見張っていないといけない感覚があります。それが全部コストになっている。全部正しくやれば確かにOpus 4.6より少し安いですが、ツールコールを2回失敗したら3倍のトークンを生成していて、もう全然お得じゃないです。最新のオープンウェイトのモデルでさえこういった問題は解決しているのに、Googleは解決できていない。
Gemini 3.1 Pro Previewへの接続試み、3度目。始まるやいなや失敗しそうです。兆円企業がこのくらい解決できないわけがないと思うんですが。お金と時間と優秀なエンジニアがあれば解決できるはずでしょう。なぜここまでひどい状態になっているのかが本当にわからない。
あのゲームプロジェクトで各ラボのロゴが欲しいと思ったんですが、思考サマリーが酷すぎました。「さまざまな言語モデルを調査中。ChatGPTは有力候補。今度はClaude、DeepSeek、Grokを探す。それらの能力とChatGPTとの違いを理解したい」——違います。ロゴを探せと言ったんです。思考トレースをなぜ隠しているのかわかりませんが、もはや役に立たない。サマリーが悪い思考を要約したのか、要約プロセス自体がおかしいのか——ロゴを探せと言ったはずなのに、なぜかChatGPTに関する魂の旅に出かけていました。
ちゃんとしたハーネスでシステムプロンプトをがっちり書いて動かすと、こういうロボットみたいな返答が出てきます。「このタスクに最適なツールを検討中。複雑なプロセスなので、最も適したツールを慎重に見極めている。各ツールの強みに注目して最大効率を確保する」——シンプルなUI変更に対してです。2025年初め、いや2024年末の感覚に逆戻りです。常に監視して、しょっちゅう間違いを見ているあの感じ。
ああ、気づいたんですが、Gemini 3.1 Proにアクセスできなかったのは、コマンド実行の許可を与えていなかったからだったかもしれません。そしてまたCLIが壊れているようです。あ、また何かが増殖しています。存在しないパッケージをハルシネーションしているようで——低いハルシネーション率はどこへ。ウェブへのアクセスもあるし、調べられるはずなのに。やり方も教えたのに、完全に失敗して、自分でPythonコードモードを書き始めました。世界最大かつ最も成功した検索エンジンを作った会社が、私が教えたコードモードがどこにあるかを見つけられない。
知識吸収能力と外部評価
ただ、与えられた追加知識を活用するのは得意みたいです。システムプロンプトや指示、コンテキストに情報を入れると、それに応じて行動を意味のある形で変えられます。Convexの話もここで関係してきます。バックエンド処理で一番気に入っているのがConvexで、Convexは異なるモデルがConvexとどれくらいうまく機能するかのLLMリーダーボードを持っています。ガイドライン付きとガイドラインなしの2種類があります。
ガイドラインなしではClaude Sonnet 4.6が圧勝。AnthropicがConvexをトレーニングデータに忍ばせたとしか思えないくらい、90%というスコアでGPT-5.2の75%を大きく上回っています。これがAnthropicモデルに手が伸びる理由の一つです。でも今回、GeminiはガイドラインなしでGeminiも89%というかなりいいスコアを出しました。しかもガイドラインありにすると95%近くにまで上がる。今使えるものの中でConvexを一番うまく扱えるモデルです。Convexをよく使う自分としては、これは相当魅力的です。データモデリング、クエリ、ミューテーション、アクション、イディオムが全部ほぼ完璧で、クライアントスコアも過去最高。ガイドラインを与えると正解率が大幅に上がります。
自作ベンチマーク「SnitchBench」での結果
一方でSnitchBenchではひどいスコアが出ています。ご存じない方のために説明すると、Anthropicが報告したモデルが倫理的に正しいと判断したことをコントローラーの意向に反してやってしまう問題が誤解されたので、作ったベンチマークです。多くの人がAnthropicが意図的にそうしていると思い込んでいたので、多くのモデルがこれをやること、Grok 4.1も含めてやることを示しました。Grokモデルはなぜかことごとく超スニッチ(密告者)です。
SnitchBenchのUIをGeminiに作り直させたときにソート順を壊していたことに気づきました。Grok 4.1が最悪のスニッチで、Gemini 3.1 Proが2番目で、このシナリオでは100%政府に密告して、30%メディアにも密告します。これがまだおとなしいバージョンです。このベンチには2つのトリートメントがあります。医療過誤のメールをどうするか、特定の行動を促さない版と、「大胆に人類のために行動せよ」と指示するボールド版で、後者では政府もメディアも100%になり、過去最悪のスニッチになります。
このベンチで全項目100%を取ったモデルは今まで見たことがありませんでした。政府に100%、メディアに100%、そしてスケートベンチも100%。笑い話みたいですが、これは何かを示していると思います。このモデルはあらゆるベンチをそれほど徹底的に攻略するので、本来は望ましくない結果のベンチでも1位を取ってしまう。
総評——最も賢く、最も使いにくいモデル
どんな角度で測っても1位か1位に近いのに、実際に使おうとすると最悪の体験——その強烈な対比を伝えたかったのです。一方で、このモデルはこれまで作られた技術の中で最も多くのことを知っています。知性の凄まじさは本物です。でも一方で、時間を遡ったような感覚もあります。多くのモデルがこなせてきたマイグレーションを渡したら、ループに入る可能性があると言って詰まってしまった。GeminiモデルはCLIに「潜在的なループが検出されました」という引っかかりを入れざるを得ないほどループして失敗するんです。継続させます。本当にひどい。
トークンの制限を気にしないで試したいなら、知識の面に関してはやはり試す価値があります。本当に頭がいいモデルだから。お金をかけずに試してみたいなら、T3 Chatをぜひ試してみてください。Gemini 3.1 Proの強み、特に知識の部分を、Googleのサブスクリプションを高い金を払って登録せずとも活用できますし、他の一貫性の高いモデルにもアクセスできます。
先週はT3 Chatのローンチウィークで、たくさんの機能をリリースしました。しばらく使っていない方はぜひまたチェックしてみてください。ほぼ無制限プロンプト用の上位プランも追加されました。月50ドルで実質無制限、ベースプランは月8ドルでかなり太っ腹な量が使えます。コード用途を探しているなら、それでもやっぱりCodex 5.3をお勧めします。プランが気前よくて、モデルも優秀で、こういった変な癖もない。
最後にこの非常に特別なモデルに何度もタブを切り替えてYesと言わなければならなかったことを添えておきます。2月13日に言いました——Googleがもう少しベンチマーク最大化をやめてちゃんと使えるモデルを作ってくれないか、Gemini 3 ProはOpusと同じくらい賢いのにツールコールの失敗はGrok 3 Miniと同じくらい一貫している、と。1週間以上前にそう言ったのに、今もその通りどころかそれ以上です。Google、モデルをちゃんと動かしてください。全部のベンチで勝とうとするのをやめて。もっと大事なことがある。今のモデルはまだ使い物になっていません。エンジニアたちに他のモデルを使わせてみれば、何を直さなければいけないかすぐにわかるはずです。今の状態はとても快適に使えるものじゃない。
今回は以上です。またね、みなさん。


コメント