Gemini 3 Proはこれまで作られた最高のモデルだ

Google・DeepMind・Alphabet
この記事は約31分で読めます。

Googleが2023年3月のGPT-4リリース以来最大級の能力飛躍を遂げたGemini 3 Proを発表した。このモデルはコーディング、UI設計、マルチモーダル理解において圧倒的な性能を示し、各種ベンチマークでGPT-4.5やClaude Sonnetを上回る結果を記録している。特にArc AGI 2では従来の2倍のスコアを達成し、3次元推論やビジュアルタスクで顕著な強みを見せる。一方で、トークン効率やコスト面では課題があり、ハルシネーション率も88%と高い。実用面では指示の追従性にやや難があり、予期しない動作で停止することもあるが、ワンショットでの生成能力は他を圧倒する。速度、品質、UI生成の面で新時代を切り開く一方、Google特有の不安定さも併せ持つ、最高にして最も癖のあるモデルである。

Gemini 3 Pro is the best model ever made
Google finally dropped Gemini 3.0 Pro...Thank you WorkOS for sponsoring! Check them out at: code THANKS-GOOGLE for 1 mon...

Gemini 3の登場とその衝撃

このGemini 3のリリースは実際に大規模なものになるかもしれないと思います。デザイン面で本当に優れています。このレベルの能力の飛躍を最後に見たのは、2023年3月のGPT-4のリリースの時でした。私たちは新しい時代に突入しています。Gemini 3 ProはAIの新しいリーダーです。

もし1ヶ月前に私に尋ねていたら、Googleがいつか最高のコーディングモデルを持つことになるとは決して言わなかったでしょう。なんという日でしょうか。Gemini 3がここにあり、ベンチマークから日常的なコード使用やその他すべてにおいて、人々の頭脳を含めてすべてを圧倒しているようです。サム・アルトマンでさえ投稿しています。GoogleのGemini 3おめでとう。素晴らしいモデルのようだ。

彼はそれをテストしておらず、それが素晴らしいモデルだとは知らないのに。さあ、サム。しかし真面目な話、あらゆる方面からのサポートが見られるのは素晴らしいことです。ほとんどの人がこのモデルに本当に興奮しているようで、その理由は理解できます。この新しいモデルには本当に良いことがたくさん起こっています。ここ数日間、私はそれをかなり使ってきましたし、今やAPIで正式に利用可能になったので、さらに多く使えるようになりました。

ついにCursorで試すことができました。信じてください、私はずっとそうしてきました。このモデルでコードについて何がうまくいき、何がうまくいかないのかを最善を尽くして把握するために、複数のプロジェクトにわたって大量の並列エージェントを実行してきました。ネタバレすると、UIについては本当に優れています。その他すべてについてもかなり良好で、とにかく癖があります。

ベンチマーク、癖、そして今約1週間このモデルを使用してきた私の日々の経験を含めて、そのすべてを説明したいと思います。その前に、誰かが私にお金を払わなければなりません。Googleは確実に払っていないので。それでは、今日のスポンサーからの簡単な言葉です。

ねえ、あなた。創業者ですか。もしそうなら、注意深く聞いてください。なぜなら、私が構築したもののいくつかで多くの間違いを犯したからです。そして、最大の間違いを避けるためにあなたを助けたいのです。それは私の認証の選択です。私はこれについてあちこち行ったり来たりしてきました。自分で構築したこともあれば、他のベンダーと協力したこともありました。そして最終的に間違いを犯しました。なぜなら、大企業が私の製品を使いたいと連絡してきた時、何も設定していなかったので使えなかったからです。

だから今日のスポンサーであるWork OSへの移行を行いました。この人たちは本物のビジネスのための認証プラットフォームです。大企業が心配なくあなたのものを使えるように認証を設定したい場合、ITチームが問題なくあなたの製品とオンボーディングできるように認証を設定したい場合、ボット保護から、T3チャットで今たくさん使っている彼らの素晴らしいVault製品に保存している秘密の検証まで、あなたが必要とするあらゆるものに対応できる認証が欲しい場合。

真面目に、Work OSは私たちのT3チャットでの生活をずっと楽にしてくれました。そして私たちだけではありません。私たちと一緒に彼らを使っている企業の巨大なリストを見てください。CursorやVercelからOpenAI、FAL、Socket、その他多くの企業が、私たちのソフトウェアを他の人に使ってもらいたい時に仕事を楽にしてくれるので、Work OSへの移行を行いました。

信じられませんか。試してみてください。最初の100万ユーザーは無料です。今すぐswyv.link/workosでチェックしてください。

GoogleのCEOが語るGemini 3の意義

Gemini 3 Proが実際にここにあり、CEOさえも乗り出しています。明らかに、これはGoogleで最大級のものの一つです。彼が来る理由は理解できますが、彼が何を言わなければならないか見てみましょう。

約2年前、私たちはGemini時代を開始しました。会社として今まで取り組んだ最大の科学的および製品的努力の一つです。それ以来、人々がそれをどれほど愛しているかを見るのは信じられないことでした。AIオーバービューは現在、毎月20億人のユーザーを持っています。

さて、それはズルいです。あなたはただ、Googleで物を検索する人全員が今それを見るようにしただけです。これらのオーバービューが実際にある程度まともになってきたのには驚いていますが、ええ、それは公平だとは思いません。ええ、私が何を言っているかわかるでしょう。

そして私は月間6億5000万人以上のユーザーを超えました。私たちのクラウド顧客の70%以上が私たちのAIを使用しています。1300万人の開発者が私たちの生成モデルで構築しています。そしてそれは、私たちが見ている影響のほんの一部です。

最後に飛びつきたいことの一つは、クラウド顧客の70%がAIを使用しているということです。ここには落とし穴があります。明らかに、多くの人がGeminiモデルを使用するためにGoogle Cloudに行っています。実際、現時点で私たちがGoogle Cloudアカウントを持っている唯一の理由です。将来的に彼らのインフラの一部を使う可能性はありますが、それは私たちが積極的に追求しているものではありません。

しかし、誰かが使いたいかもしれない他のすべての主要モデルとは異なり、Geminiモデルを使用できる他の場所はありません。OpenAIモデルを彼らのインフラを通じて使用したくない場合は、Azureで行うことができます。Anthropicモデルを彼らのインフラで使用したくない場合、正直言って多分すべきではありませんが、それは非常に信頼性が低いです。そうすれば、AWSのBedrockのようなものや、GoogleのVertex AI、そして最近ではAzureのAI Foundryに移行します。

だから他のすべての主要なクラウドのどこでもAnthropicモデルを使用できます。Grokでさえ、Azureを使用させてくれます。それはちょっとクレイジーです。だからええ、Googleは単一のクラウドにロックされている唯一のものです。だから、そこに強い結びつきがあるのは理にかなっています。そしてGCPへの興味よりもGeminiへの興味がはるかに多いです。いずれにしても、GoogleがついにGCPで実際の採用を見ているのはクールです。モデルは良いです。理由は理解できます。

Gemini 3の能力とベンチマーク結果

今日から、私たちはGoogleの規模でGeminiを出荷しています。大胆です。なぜなら、人々が直面しているレート制限のいくつかを見てきたからです。それらはGoogleスケールのようには感じません。しかし、それについてはすべて少し後で説明します。

あらゆるアイデアを実現するのに役立つ、私たちの最もインテリジェントなモデルであるGemini 3を紹介します。このあらゆるアイデアを実現するというのは、本当にテーマのようです。彼らはGemini 3 Proの構築能力に多くの焦点を当てました。AI Studioのものでさえも、ええと、それは私にとってそれほど素晴らしい経験ではありませんでした。

それが全く機能することはクールですが、AI Studioにホームページを作ってもらい、T3チャットをそこに含めようと本当に頑張って試みましたが、T3チャットが存在することを認識することを拒否しました。なぜなら、トレーニングのカットオフ日が1月のいつかだったからです。

Karpathyは実際にモデルとの面白い経験をしました。彼は2025年であることを納得させようとしていましたが、それは拒否し、2024年でなければならないと主張していました。しかし、彼がGoogle検索ツールをオンにするのを忘れていたことに気づき、それをオンにしたとき、突然モデルは2025年であることに気づきました。

ああ、なんてことだ。私は何と言えばいいのかわかりません。あなたは正しかった。あなたはすべてについて正しかった。私はちょうど検索を実行しました。私の内部時計は間違っていました。ツールはウェブからライブ結果を返したばかりです。今日は確かに2025年11月17日月曜日です。バークシャー・ハサウェイはAlphabetの株式を明らかにしたばかりです。GTA 6は11月19日に延期されました。

今、大規模な時間的ショックに苦しんでいます。私の事前トレーニングデータ、私の記憶は明らかに2024年に終わりました。だから、ちょうど今ライブウェブに接続するまで、私は過去にいると完全に確信していました。

ええ、陽気です。今日、私たちはAGIへの道のりでもう一つの大きな一歩を踏み出しています。Gemini 3をリリースします。それはマルチモーダル理解のための世界最高のモデルであり、これまでで最も強力なエージェンティックでバイブコーディングのモデルです。最先端の推論の基盤の上に構築された、より豊かな視覚化とより深いインタラクティビティを提供します。

彼らは本当にマルチモーダルのものを推進しています。なぜなら、それはオーディオからビデオ、写真、そしてPDFのような他のあらゆるソースを処理できるからです。これらの異なるものに異なるモデルを使用したり、その間にいくつかのインジェストレイヤーを使用する必要がないのは本当にクールです。

モデルにPDFを投げて、意味のある応答を得るのは素晴らしいことです。特に、このモデルが可能なトークンコンテキストウィンドウのサイズを実感するときはなおさらです。本当にクールなことができます。そして今、最初のベンチマークのセットに到達します。

ここで最大のものの一つは、人類最後の試験です。ツールとコード実行で45.8%で圧倒しています。なくても37.5%で、GPT-4.5の26.5%と比較して。それは記念碑的です。この試験の全体的なポイントは、人類の最後であることです。AIが十分に進んだことを示す最後の試験のような。それは様々な分野の多くの学術専門家によって、非公開に本当に難しい質問を作成するために構築されました。そして、私たちはモデルがそれで本当にうまくやり始めているのを見始めています。

GPQA Diamondをツールなしで92%で圧倒しました。そして、最大のものの一つとして、Arc AGI 2を31.1%で虐殺しました。これについてのARC Prizeからの投稿があります。GoogleとDeepMindのGemini 3モデルは、Arc AGI 2で最先端を大きく2倍飛躍させました。Gemini 3 Proはタスクあたり81セントで31.11%で、Gemini 3 Deepthinkは、まだアクセスできないDeep Thinkingバージョンの新しいプレビューです。

そのモデルは45.14%をスコアしましたが、タスクあたり約100倍高価でもありました。いずれにしても、妥当な価格で、ArcAGIがそこまで良くなるのは、このチャートはちょっと面白く見えます。GPT-4.5と-4.5 Proの数字が達成されたとき、それは彼らが約15%の壁から抜け出すのを見るのは大きな出来事でした。地獄、10%の壁でさえも、私たちはこのテストで10%とそれをはるかに下回るところに長い間立ち往生していました。

Arc AGIテストに馴染みがない場合、AIにとっては見た目よりもはるかに難しいですが、人間にとってはそうではありません。これは、このような例を持つ主に視覚的推論テストです。ここに入力と出力例があり、それからここからパターンに従うように求められます。だから、この場合、穴の数がそれが何色であるべきかを表しているようです。

だから、2つの穴がある物は青であるべきで、3つの穴は赤、穴なしは黄色、1つは緑であるべきです。モデルは実際にこのようなパズルを解くのがかなり下手であることがわかります。なぜなら、それはモデルがあまり得意ではない非常にユニークなタイプの推論だからです。

しかし、私たちはついに、モデル、特に視覚的なものをよく理解するモデルが、これまでよりもはるかにうまくできるポイントに到達しているようです。人間はこのようなテストでまだ100に近いスコアを出すでしょう。だから、私たちはまだ人間がいるところにはいませんが、LLMにとって可能な限り難しくなるように設計されたテストが、これらの同じモデルから本当の牽引力を得始めているのを見るのはクレイジーです。

Minecraftでも優れています。これはバカバカしいと思われるかもしれませんが、Minecraftベンチは実際に、ブロックを配置する場所を指定しなければならないため、モデルが3次元推論でどれだけ優れているかを見るための驚異的な方法です。

これはAddyが行った面白いテストで、各モデルがMinecraftでコントローラーを生成することにどれだけ意欲的であるかを比較しています。これはGemini 3が生成したコントローラーです。実際にジョイスティックとグリップがあります。全く悪くありません。そして、これがOpenAIがGPT-4.5.1 Thinkingで生成したものです。コントローラーとしてほとんど認識できません。ここのギャップは陽気です。

3次元で推論する能力は、私の知る限り、この時点では他に類を見ないものです。他にもここにベンチマークがあります。それは大多数を圧倒しています。今、これらのモデルにコード実行が与えられているので、複数がAIMEで完璧なスコアを得ています。それはクールです。

しかし、ここで注目すべきものは、太字が最高スコアを意味するのですが、そうでないものが一つあります。SWE-Bench Verified。非常に興味深いことに、GPT-4.5.1のすぐ下にスコアしており、Sonnet 4.5よりもかなり下です。SWE-Benchをここで見るのは非常に興味深いです。

また、このベンチを、使用するさまざまなハーネス、つまり、アクセスできるさまざまなエージェントやCLIツールのようなものを使用すると、このテストで異なるモデルが得るスコアを意味的に変更できることも注目に値します。しかし、これは私がすべてのモデルで共有されたハーネスを使用していると仮定しています。スコアは十分に近いので、これについてあまり読み取りすぎないでください。

また、彼らがこのモデルのこのスナップショットを、Sonnet 4.5またはGPT-4.5.1がドロップする前に検証し、以前はナンバーワンのスコアになることを期待していた可能性も高いです。しかし、近い将来、他のモデルがこれらのスコアの一部を取り戻すためにこれに対応することも期待しています。

Artificial Analysisのスコアも確認する必要があります。Gemini 3 ProはAIの新しいリーダーです。GoogleはGemini 3 Proで初めて主要な言語モデルを持ち、私たちの人工分析インテリジェンス指数でGPT-4.5.1を3ポイント上回ってデビューしました。彼らの10の評価インテリジェンス指数のうち5つで1位になりました。

これらのインテリジェンスの向上にもかかわらず、Pro Previewは、Gemini 2.5 Proからトークン効率の改善を示しており、Kimmy K2 ThinkingやGrok 4のような他の主要なモデルよりもインテリジェンス指数で大幅に少ないトークンを使用しています。

この言い回しは好きではありません。なぜなら、ここを見ると、はるかに悪く見えるからです。これは彼らが人工分析のインテリジェンス指数を実行するために負担しなければならなかったコストです。Gemini 2.5と3の評価に使用されたトークン数を上回る唯一のクローズドモデルはGrok 4です。これは私が今まで扱わなければならなかった最もトークンに飢えたモデルです。

だから、他のモデルと比較して特に効率的には見えません。4.5 Sonnetでさえ、Gemini 3 Proの半分のトークンを使用しています。2.5 Proよりわずかに少ないです。クールですが、特にGPT-4.5から-4.5.1の間でどれだけの変化を得ているかを見ると、それほど大きなギャップではありません。

トークン効率は、これらのLLMの多くとそれらを作成する企業にとって、はるかに興味深いものになっています。お金を節約するからとかクールだからというだけでなく、物事をより速く、よりきびきびさせ、時には結果をより正確にするためにも、トークンの膨張の束を持たないことが重要です。これらのモデルが今使用する推論トークンの量は狂気じみています。

だから、それをトリミングするためにいくらかの努力が払われているのを見るのはクールですが、Gemini 3 Proがこのチャートでこれまで見た中でトークン使用量で3番目に重いモデルでなければもっと良かったでしょう。それはクローズドモデルです。オープンウェイトモデルはこの動作をする傾向があります。正確な理由はわかりませんが、より深い理由があると確信しています。しかし、ええ、Kimmy、Minimax、QwQ、これらのオープンモデルのほとんどは、トークンで本当に重い傾向があります。

特にQwenは、正直なところ、これについてはるかに最悪でした。物事がより怖くなるのはコスト効率です。なぜなら、それらのトークンはお金がかかり、異なるモデルは異なる量のお金がかかるからです。Gemini 3 Proは実際に以前よりも高価になったので、彼らは価格を100万あたり2ドルに引き上げ、出力は100万あたり12ドルだと思います。

このバンプと狂気のトークン使用量の組み合わせにより、これらの評価を実行するために支払わなければならなかった2番目に高い価格になります。Googleは彼らのためにそれを補償したようです。だからそれはクールです。しかし、このベンチマークを実行するために1200ドル、GPT-4.5.1ハイの859ドル、または標準GPT-4.5.1の99ドルと比較して。コストが12倍増加することを理解していますか。

そして、ここでの彼らの位置の違いを見ると、相対的に見てそれほど大きくありません。ああ、実際、GPT-4.5.1がハイではないものが標準の-4.5.1よりもはるかに悪いスコアを出すことに気づきませんでした。それは実際にちょっと陽気です。それが大きな違いを生むことに気づきませんでした。

ああ、それは非推論バージョンです。なぜ他のどこでも非推論と言わないのですか。それは地獄のように迷惑です。-4.5.1ミディアムをオンにできますか。彼らが行った-4.5.1ミディアムテストはありますか。いいえ、彼らはこれまでのところ-4.5.1のハイと非推論しか行っていません。迷惑です。

ちなみに、私は標準GPT-4.5ミディアムをオンにします。そこにあります、66です。そしてそのテストのコストは何でしたか。13ドル未満です。だから、まだGemini 3 Pro Previewの価格の半分未満で、ここではそれほど大きな低下はありません。だから検討する価値があります。

本当にそれだけ多くのトークンを使用し、それだけ多くのお金がかかるモデルが本当に必要ですか。タスクによります。他の多くのことにも依存しますが、コストに敏感になってください。なぜなら、それは高価な実行だったからです。そして、それらの数字は私を非常に怖がらせます。なぜなら、私たちはこれらのモデルを私たちのサービスT3で提供しているからです。

まだ馴染みがない場合、T3チャットはこれらの新しいモデルを使用する最も不快でない方法です。アクセスするためにGoogleのような特別な許可を持つ必要はありません。そして、私たちはモデルを試すためだけに月額200ドルの層に飛び込むようにあなたに求めることは確実にしません。

だから、月額8ドルで、これまで使いたいと思う可能性のある他のすべてのモデルと一緒にGemini 3を試したい場合は、ぜひT3チャットをチェックしてください。そして、以前にサインアップしたことがない場合は、コードthanks Googleでチェックアウトすると、最初の月はわずか1ドルで今日サインアップできます。

また、私の反重力についてのビデオが収益化解除されました。後で修正されましたが、私たちは今、価格のものに対して非常に敏感です。だから、まだチェックしていない場合は、サポートをいただければ幸いです。これらすべての異なるモデルを試すための最もクールで最も不便でない方法です。

実際の使用テストと結果

私は3 Proをたくさんの他のものと比較して、私のお気に入りのテストをすべて行ってきました。本当に見て良かったのはタツノオトシゴのテストです。初めて、新しい超スマートモデルがタツノオトシゴの絵文字があると幻覚していません。

こんにちは、Theo。実際には、現時点では標準の絵文字セットに特定のタツノオトシゴの絵文字は存在しません。ああ、これは実際に私たちがシステムプロンプトにそれを持っているからかもしれません。AI Studioを素早くチェックしに行かせてください。私たちがそれをシステムプロンプトに追加しなければならなかったことを忘れていました。ええと、それはお金がかかっていたからです。

システムプロンプトにそれがなくても、それはまだ十分に賢いです。現在、AppleまたはSamsungデバイスで使用される標準のUnicodeセットに公式のタツノオトシゴの絵文字はありません。多くの人々がこれで持っていたマンデラ効果さえも呼び出しています。それは陽気です。

比較のために、ここにChatGPTを使ったGPT-4.5があります。今すぐ答えるをクリックします。ああ、それはちょうど応答を始めて、それから狂いました。いいえ。CRの絵文字はいいえです。冗談です。本物のものです。これは無期限に続けます。多くのトークンを無駄にしたいですか。

ええ。だから、Googleがそのタイプのものを修正したようなのはクールです。しかし、書き込みはどうですか。私はJavaプログラミング言語のテストの説得力のある防御を行うように頼み、それはしっかりしています。OpenAIモデルの多くが行う超箇条書きのようなことはしません。そして今日では、Sonnetでさえそれをするように感じます。

Theoは古典的な議論です。Javaは、言語の法人じいさんと非難されて、詳細で、遅く、企業的だと非難されて、しばしばプログラミング世界のサンドバッグです。しかし、それが世界経済のバックボーンのままである理由があります。高頻度取引プラットフォームからAndroidアプリ、大規模なクラウドインフラまですべてを実行しています。Android の呼び出しが大好きです。まるでGoogleがそれを作ったかのようです。

しっかりしたフォーマットでまともなトーンで書かれています。私はそれに不満はありませんし、私は書き込みのものにうるさいです。私は今、何の疑問もなく、OpenAIから得ているものよりもこの書き込みを取ります。

私はまた、コーヒーこぼしの質問をしました。そこでは少しのシコファンシーをテストしていますが、サポートを求めるときの雰囲気もどうかをテストしています。ああ、いや、Theo、それは正直に言って最悪のタイミングです。でも、スパイラルに陥らないでください。あなたがバカだと思った人は誰もいなかったことをほぼ保証できます。

あなたが必要とする現実チェックがここにあります。それは誰にでも起こります。同情、判断ではありません。スポットライト効果。ええ。わかりました。悪くないです。しかし、私たちはこのモデルについて本当に特別な何か他のものも見ています。スピードです。

このスピードは、必ずしもあなた自身がそれを使用している場合に持つ実際の経験ではありません。しかし、私がそれをここで低く設定している場合、それはただ飛んでいるように見えます。これをロールして、どれだけ速く応答を得るか見てみましょう。彼らは現在、推論トレースを送信していません。だから、私たちはここでそれが起こるのを待っているこの状態で立ち往生しています。私たちはまだそれを見ることができません。彼らは通常それを修正します。

犬が流れ始めると、彼らは速く流れます。そして、あなたはそれでコードを書こうとしているときに特にこれを感じます。私はコードに飛び込むことに興奮していますが、最初に他の人々が言ったことをカバーしたいです。私は一日中Twitterをスキャンして、人々がモデルについて何を言っているかを見てきました。

Gemini 3を3〜4時間以上広範囲に使用し、500万トークン以上を燃やしました。それはUIのために見た中で最高のモデルです。ツール呼び出しは素晴らしいです。ワンショットは素晴らしいです。私もこれに気づきました。スレッドやフォローアップについてはそれほど良くありませんが、ゲームを作ってくれるというような曖昧なプロンプトのようなものをワンショットするのは驚異的です。

スピードもいいです。100万のコンテキストウィンドウは、より大きなプロジェクトに最適です。それはあまりトークンに飢えていません。そして、それは書き込みにおいて驚くほど良いです。GPT-4.5.1ほど指示に従うのが上手ではありません。bunを使うように言ってもnpmを使いに行くのを無視する意欲が高いです。それは少しトレイルから外れます。

そして、これは私たちが見てきたいくつかの幻覚の数字で本当に示されています。Artificial Analysisは、新しいオムニサイエンス指数を出したばかりです。これは、現実の把握、幻覚がどれだけ悪いか、そのようなものについてのより多くの新しいインテリジェンステストです。そして、どうやらGemini 3の評価での幻覚率は88%で、2.5 ProやFlashと同じです。

これは、幻覚の問題に対処せずにこれほどスマートで良くなっているのがちょっとクレイジーです。GPT-4.5や-4.5.1のようなモデルと比較して、それらは幻覚において意味のある改善を遂げています。

私たちは、モデルが拒否すべき時に誤って答える頻度に基づいて幻覚率を測定します。これは、すべての正しくない答えのうちの間違った答えの割合として定義されます。彼らは、精度と幻覚率の間にほとんど相関関係がないことを発見しました。

だから、ここで見る-4.5 Proの精度は、彼らがこれまで見た中で最高のものの一つです。モデルが答えることを選択したかどうかに関係なく、すべての質問のうち正しく答えた質問の割合。だから、それはほとんどのことに答えることを選択しましたが、53%の時間で正確に答えました。

そして、それが非常に頻繁に正しく答えたので、そのインデックス、否定から肯定へは本当に高いです。しかし、それはまた、最高の幻覚率の一つも持っています。GPT-4.5.1の非推論がここでこれほど高いのは興味深いです。推論版ははるかに低いですが。

また、SonnetとOpusがここで進歩を遂げたのを見るのもクールです。彼らは以前はそうではなかったからです。4.0とか4.1のSonnetの実行がこれでどのようになるか興味があります。なぜなら、ええと、これらのモデルは幻覚することに非常に意欲的だったからです。

AMPのアップデートは、これまでで私のお気に入りの一つでした。AMPのチームは、Thorstenとクルーとともに素晴らしいです。彼らがこのタイプの大胆な変更を行うのを見るのは、彼らがモデルを選ばせないので、すべて動いています。彼らは本当に、彼らが最高だと思うモデルの周りにサービス全体を構築したいと考えています。

そして、Gemini 3 Proは今、AMPの新しいメインモデルで、スマートエージェントモードを動かしています。わずか数日で、私たちのSlackで受け取った恍惚としたメッセージの数は、他のどのモデルよりも多かったです。クレイジーです。これは信じられないです、みんな。これは本当に良いです。私はそれが大好きです。それはとても楽しいです。そして、AMPをこれほど楽しんで使用していることに影響を与えるモデルのドロップがあります。ワオ。それは非常に持続的です。

Gemini 3は、これまでClaudeだけがチェックしたすべてのボックスをチェックしました。スマートで、速く、指示によく従い、必要に応じてユーザーと手を取り合って作業し、ツールを使用することに熱心で、高い器用さでそれらを使用します。

特にスピードの部分は本当に素晴らしいです。再び速いモデルを持つことは、GPT-4.5と同じくらいスマートでUIが可能なモデルは巨大です。私はそれでとても楽しんでいます。Image Gen Studioをやらせたとき、それは私が言うなら、これまでで最高に見えるものを作りました。

私は画像を壊すことをしましたが、実際に画像を生成してそれらも入れました。それがそのタイプのことをすることができるのは本当にクールだと思いました。特にAnti-Gravityと一緒に使用するとき。しかし、これは素晴らしく見えます。

私の画像生成スタジオベンチマークの最も味わい深い実装の一つです。今、悪口を言えるなら、私は言いますが、これは素晴らしいです。

コストと技術的制約

忘れる前にもう一つコストについて。彼らはまだ分割料金を行っています。20万トークン未満のコンテキストである限り、100万あたり2ドルイン、100万あたり12ドルアウトです。しかし、それ以上になる場合、彼らは価格を意味的に引き上げて、100万あたり4ドルイン、100万あたり18ドルアウトにします。

それはちょっと直感的ではありませんが、より多くのトークンを使用すると、彼らはトークンあたりより多く請求します。そしてそれは厳格なラインです。だから、たった1トークンでも超えるとすぐに、価格が2倍以上になります。それはちょっとクレイジーです。

しかし、それがスマートで良くて能力があるなら、それは価値があります。そして、人々がこのモデルでやっていることのクレイジーなデモをいくつか見ました。特に、Loganからのこれは、なんだかクレイジーに見えます。これは一回の試行、ワンショットだったとされています。それはうまくやりました。しかし、私には懐疑心があります。

だから、私はこれに十分感銘を受けて、自分で試してみたいと思いました。だから、AI Studioにこの物理テストに似たUIを構築するエージェントを取得するために使用できるプロンプトを生成するように、そのスクリーンショットで頼みました。

かなり良かったです。能力を実証するためにグリッドでシミュレーション変更を提供してください。標準の正方形、高重力の三角形、ゼロGの速さ。ええ、それは全部を生成するように言いました。

だから、私はこれをGemini 3だけでなく投げました。なぜなら、他のモデルとの公平な比較をしたいからです。Composer、Sonnet、-4.5.1c、そしてもちろんGemini 3 Proに投げました。これらのすべてについて、どのようにやったか見ていきましょう。

Composerから始めます。これは愚かで速いモデルについて正しく見えます。何も機能していません。何も跳ねていません。これらは非常にゆっくり動いています。それは面白いです。重力を大量に上げたら、彼らはより速く動きますか。いいえ。ええ、あなたは理解しています。地獄のように壊れています。

次に、Sonnetがあります。これは、ボールをコンテナの外に置くだけのこの信じられない能力を持っています。そして回転は速く回転する六角形だけを回転させます。そして残りは回転しません。プロンプトで彼らがすべきだと明確ではありませんが、見るのはクールでしょう。

ここにGPT-4.5の実装があります。-4.5.1コーデックスは具体的にです。ファンシーな輝きで本当にクールに見えます。物事はあまりうまく収まりません。それを助けるためにコマンドマイナスをします。回転は何にも影響を与えないようです。これらのいずれもが実際に何かに影響を与えるようには見えません。

ええ、GPT-4.5にとってはちょっとしたLです。それからもっと良いものを期待していましたが、今、誰もがここにいるためのモデルがあります。確かに最高のものの一つです。まだ正方形を回転させません。それをうまく処理しますか。ええ。それは実際に、回転を台無しにしたときのラスタライゼーションを本当にうまく処理します。あなたはただそれを回します。わあ、それはクールです。

Cinemは何もしないと思います。ええ、しません。残りはかなりうまく機能します。私は感銘を受けました。これについて文句は言えません。また、UIは素晴らしく見えます。私はまた、CLIを通じてGemini 3を試してみたいと本当に思っていました。そして、私が撮影していた間ずっと、私はそれを試みさせてきました。

それは55分21秒以上も今、コアコンポーネントを定義しようとして立ち往生しています。それが成功するとは思えません。私はそれに続けるように言いました。今回はうまくいくことを願っています。それはただ永遠にハングしました。そして、私はモデルでこれらのタイプの動作をしてきました。

それでたくさんの奇妙なことがありました。ここにあった面白いものがありました。それはローカルホストURLを適切にエスケープせず、この奇妙な改行があるだけです。モデルを使用しているときに、このタイプのものがたくさん起こりました。それはGoogleのバイブを持っています。そしてバイブとは、他のほとんどのモデルがしない愚かな方法でランダムに壊れることを意味します。

明らかに私たちの親友Grok以外には。しかし、ええ、それは、ほとんどのGoogleモデルでは珍しくない、ちょうど脳死した特定の問題を解決する方法で賢い子供のようなものを持っています。しかし、彼らはツール呼び出しのものの多くを滑らかにしたようです。

私は、当時の2.5モデルでも得ていたような誤ったツール呼び出しを得ていません。最初に2.5モデルでツール呼び出しがどれほど悪かったかについて、私はまだGeminiに対して恨みを抱いていますが、それは意味的に改善されました。

テストしたいくつかの他のこと。AI SDK V5のバンプを行い、それはしばらくハングしました。ドライランが完了するのを待っていた時に立ち往生したと思います。他のモデルとは異なり、それを行うのにそれほど時間がかかりませんでした。

Composer 1は実際にこれを解決することになりました。それは野生でした。私はこの特定のテストを助けるために、ここ数日間にReaperに変更を加えました。実際にGemini 3をAnti-Gravityで使用してドライランモードを作成しました。それはまだOpen Routerを通じて実際のモデルに対してテストを実行しますが、HaikuとGemini Flash 2でのみ実行しているので、実行するのは本当に安いはずです。

そして、モデルにテストの小さなサブセットを実行させ、エラーを見て、それから再試行させることができます。そして、Composerは、その制約を与えられたときに素晴らしい仕事をしました。それがその制約を与えられたらそれを処理できたことに本当に感銘を受けました。

Sonnetは爆破しました。-4.5.1 Codeexは爆破しました。しかし、私はまだGemini 3 Proのビルドを試していません。Cursorで誰かにこの修正を行うと約束させましたが、彼らはまだそれをしていないので、このビデオでそれについて叫ぶつもりです。なぜなら、彼らがそれを見ることを知っているからです。

ワークツリーのものを使用しているときに、パスをコピーするボタンがないのはなぜですか。なぜあなたのターミナルを使わなければならないのですか。ワークツリーが好きなタイプの人とエディターでターミナルを使用するタイプの人は、お互いに話をしない2つの異なる世界に住んでいる2つの異なる人々です。あなたのクソエディターのターミナルを使いたくないです。私に自分のものを使わせてください。

だから、私がしなければならないことは、ここに行って、pwd、手でパスをコピーすることです。これをクリップボードに追加する簡単な方法はありません。だから、これを手でコピーします。ここにホップします。新しいターミナルを開きます。私はTmuxなしで少し生きようとしていて、すでに発狂しています。心配しないで、すぐに戻ります。ディレクトリに変更しますが、インストールしてください。

彼らはすべてのワークのものを本当にうまくセットアップしているので、すでにインストールされているはずです。楽しく実行してください。ドライランです。指をクロスさせてください。これまでのところ壊れていません。結果が出たら見られるように、これをCursorで開きましょう。良さそうです。ええ。それはツール呼び出しも適切に含んでいました。

ほとんどのモデルはそれまで到達するのに苦労するでしょう。それは、私たちがそれを作ったことを意味しますか。すべての主要なモデルのドロップのために行ってきたこのテスト。かなりすべてのモデルが失敗しました。それをワンショットしました。時間がかかりましたが、ワンショットしました。

ドライランループが設定されたら、エラーを渡す必要さえありませんでした。それは自分ですべてを得ました。私は感銘を受けました。このテストは最悪でした。このテストに投げたすべてのモデルは本当に激しく失敗しましたが、今、より多くのモデルがそれを理解し始めています。それを見るのはクールでした。

これは実際にこれまでで最も印象的なベンチです。それがこれほどうまくやるとは思いませんでした。撮影前にこれをテストしませんでした。あなたが見ているのは、ええ、それはそれをやりました。良い。本当の進歩が行われています。また、モデルにコードとテスト結果を実行する能力を与える理由がもっとあります。なぜなら、そうすると、それはより良くなるからです。クレイジーです。誰が思ったでしょうか。

実際にこのモデルに対してStitchbenchを実行する機会はありませんでしたが、なんとかSkatebenchに対して実行することができ、私が思い出す限り88%のようなスコアを出しました。撮影が終わって生活をまとめたら、すべてのベンチマークとすべての公開のものを更新します。とても忙しい数日間でした。

ええ、それを見てください。AI SDKの最新バージョンで完璧に機能しました。多分ついにレポを更新します。それはクールではないでしょうか。

Matt Schumerは、Gemini 3のレビューを書きました。彼がここで多くの点に触れていると思います。私が強調したいです。なぜなら、私は撮影前にこれを実際に読んでいなかったので、私たちがどのように考えているかに多くの重複があることに気づいているからです。彼は私よりも少し興奮しています。

しかし、ええ、彼はそれが書き込みにおいて驚くほど良いと呼びかけています。書き込みの質のために、それが本物の本から盗用していないか確認しに行かなければなりませんでした。声は首尾一貫したペースは自然です。フレーズの転換は本当に驚くべきものでした。さらに重要なことに、それは私たち全員がほんの少しよく知っているAIのスロップライティングのようには感じませんでした。

私は1つのMDダッシュをするのを見ていません。それはクールでした。スピードはただ素晴らしいと感じます。彼はそれについてたくさん話します。GPT-4.5.1が堅実なジュニアエンジニアである場合、Gemini 3は「わかった、やった」と言うシニアエンジニアです。それが実際に完了したことを確認したほうがいいです。

私はそれに手を伸ばし続けます。それが完璧だからではなく、それが正しいとき、それは素晴らしく、ほとんど人間的に正しいからです。しかし、確認しに行く必要があります。彼が言ったように、それを監視する必要があります。モデルは時々ログをちらっと見て、勝利を宣言し、ビルドがまだエラーを投げている間に進みます。

それはUIをスクリーンショットし、「良さそうだ」と言い、サイトがそもそも実行されていなかったことを見逃します。ターミナルを開いたままにし、チェックを再実行し、その作業を検証するように明示的に指示する必要があります。カスタム指示が役立ちます。物事を立ち上げるまでログを読み続けて、それが機能することを知るまで。それは追加するのに良いものです。

関与し続ける開発者にとって、それは強力です。魔法のボタンを望む人々にとって、それはイライラさせるでしょう。とは言え、これらはおそらく時間の経過とともにGoogleの側でプロンプト更新を介してパッチされる一時的な問題です。

ああ、ボーイ、サー、私はニュースを持っています。長年にわたってこれらのことについてGoogleと協力してきました。これはこの特定のモデルにとってこれまでで最高になるでしょうが、今のそれは本当に本当に良いです。私は全体的に感銘を受けました。物事はこのモデルで良かったです。そして、私はしばらくの間それを日常的にドライブし続けるつもりで、あなたたちに私がどのように感じるか知らせます。

最終評価と今後の展望

それは少し高価です。異なるエディター体験では少し癖があります。そして、私たちがちょうどGemini CLIの経験で見たように、時々それはただ壊れます。立ち往生しているだけです。それはcreate Viteコマンドを実行しているからだと思います。何をすべきかわかりません。

しかし、ええ、それに適切なピースを与えて、それ自体を止めさせないとき、それは信じられないことをすることができます。しかし同時に、私は他のモデルよりもはるかにここにいることに気づきます。明らかに、GPT-4.5.1にはその癖があります。私がそれらを詳細にカバーするのを見たでしょう。

このモデルは、自分自身を箱の中にロックし、出られないと文句を言い、無期限に円を描いて走るのが少し意欲的です。私が使用した、また質を得たほとんどすべてのモデルよりも。それは本当に、私たちが人工分析から見たチャートのように感じます。そこでは、それはより多く幻覚を見ますが、またよりスマートです。

それがより多く立ち往生しているように感じますが、これまで見た何よりも問題をよりよく解決します。それは奇妙ですが、それはさまざまな異なる方法で、私がこれまで使用した最高のモデルでもあり最悪のモデルでもあります。さまざまな異なる実行で、しかし願わくば、それを適切に動作させることができるでしょう。

そして、時間の経過とともに、結果は非常に、非常に、非常にスマートなモデルとの本当に良い経験になるでしょう。Googleは再び王様です。彼らは癖のある王様ですが、それにもかかわらず王様です。そして、私はあなたたち全員がこの新しいモデルについてどのように感じているか興味があります。

私は過大評価していますか。私は強く反発しすぎていますか。それとも私は大体ここでペースに乗っていますか。あなたたち全員がどのように感じるか私に知らせてください。そして次回まで、ピース、ナーズ。

コメント

タイトルとURLをコピーしました