Googleが先日Gemini 2.5 Proをアップデートしましたが、これがとんでもないんです…

11,060 文字

Google just updated Gemini 2.5 Pro and it's insane...

Check out Box AI here: My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 Subscribe:

先日、Googleが今まで作られた中で最高のモデル「Gemini 2.5 Pro IO Edition」を本日5月6日にアップデートしました。私は徹底的にテストを行い、その驚異的なパフォーマンスをお見せします。このモデルは、私がこれまで見たことのある中で最も印象的なコードプロジェクトをゼロから生成することができます。
まずはルービックキューブから始めましょう。前バージョンのGemini 2.5 Proも一度で解くことができましたが、新バージョンにはさらに多くの機能があります。回転したり、ズームイン・アウトしたり、これらのボタンで回転させたりできるのは本当に素晴らしいですね。
もちろん、簡単に解くこともできます。前回と同じくスクランブルボタンがあります。前より早くスクランブルし、12手で完了します。では解いてみましょう。素晴らしい！前回は10×10をやりましたが、今回は20×20にしてみましょう。スクランブルします。はい、完全にスクランブルされた20×20キューブができました。これは非常に複雑です。
解いてみましょう。これはしばらく時間がかかるので、お付き合いください。終わったらお見せします。
彼らが行ったアップデートについてお話ししましょう。すでに信じられないほど優れたモデルに対して、これは非常に大きな改良でした。更新されたGemini 2.5 Proでリッチなインタラクティブウェブアプリを構築できるようになり、それが今回の重点でした。私はテストして、すぐにお見せします。
これは「Gemini 2.5 Pro Preview IO Edition」と呼ばれています。「IO」は間もなく開催されるGoogleの会議で、彼らの新しいクールな製品をお披露目するためのものです。コーディング、特に魅力的なインタラクティブウェブアプリの構築能力が大幅に向上した2.5 Proの更新版です。数週間後のGoogle IOでこのアップデートをリリースする予定でしたが、このモデルへの圧倒的な熱意に基づいて、皆さんがビルドを始められるよう早めに提供することにしました。
Gemini 2.5 Proは市場で最高のコーディングモデルであり、本当に競合がありません。しかし、エージェンティックコーディングについては、実際にClaude 3.7の方が優れていると感じました。アプリケーション全体、ゲーム全体、シミュレーション全体をゼロから生成する点ではGeminiの方が優れていますが、関数呼び出しやエージェント的な使用ではClaudeの方が優れていました。しかし今回、新バージョンの2.5 Proではツール呼び出しの改善に投資しました。
これらの改善は、コード変換、コード編集、複雑なエージェントワークフローの開発などの他のコーディングタスクにも及びます。そして他のGeminiモデルと同様に、100万トークンのコンテキストウィンドウを持っており、これは絶対に驚異的です。また、ビデオ、画像、音声など、ほぼすべてを取り込むことができます。
LM Arenaでは、前のバージョンの2.5 Proが1437のスコアで首位を獲得していましたが、新しいスコアは11ポイント上昇して1448になりました。これは小さな成果ではありません。またウェブ開発アリーナのリーダーボードでは、1272から1419へと147ポイントの向上を見せました。20×20キューブの解法をチェックしてみると、まだ解いている最中です。後ほどまた確認しましょう。
次にベンチマークを見てみましょう。5月6日のGemini 2.5 Pro Previewのデータです。GPQA Diamondは83%です。比較できる唯一のモデルはOpenAIの03です。Amy 2024は83%で03の方が優れています。Ader Polyglotは76%で03の方が優れています。Sweetbench Verifiedは63%対69%で03の方が優れています。Simple QA、MMLUなど、ほとんど同等か03が勝っています。
ベンチマークについて言えることは、それらが意味するところは限られているということです。私の経験では、洗練されたアプリケーションやゲームを構築するための信じられないほど長いコードを出力できる唯一のモデルはGemini 2.5 Proです。
価格については、これが本当に決定的です。Googleはトップクラスの最先端モデルを持っているだけでなく、そのインテリジェンスレベルでは群を抜いて最も安価です。入力トークン100万につき2.50ドル、出力トークン100万につき15ドルです。これは03と比較すると、入力は4倍、出力は約3倍のコスト差があります。
実際、Gemini 2.5 Proより安いモデルはオープンソースのDeepseek R1だけです。さて、キューブの状況を確認してみましょう。あ、ちょうど見たところで終わりました。信じられません。このタブに戻ったらちょうど目の前で完了したんです。20×20が完全に解けました。
これには本当に感銘を受けます。このモデルを試して、あなたの文書の上に本当にクールなものを構築したいなら、Box AIを試す必要があります。Boxはこのビデオのスポンサーであり、まもなくGemini 2.5 Pro IO Editionを提供する予定です。Boxを使えば、あらゆるタイプの会社の文書を保存し、人工知能を活用して洞察を抽出し、Q&Aに答え、自動化やエージェントによるインテリジェントなワークフローを作成できます。
非常に使いやすいAPIがあるので、Box AIの上に本当にクールなものを構築でき、彼らはRAGパイプライン全体を処理してくれるので、それらの複雑さについて心配する必要がありません。Boxは私の会社を含む115,000の企業組織から信頼されており、エンタープライズグレードのセキュリティ、コンプライアンス、ガバナンスを提供しています。Box AIをチェックしてください。
リンクを下に貼っておきます。まもなくGemini 2.5 Pro IO Editionを彼らと一緒に試してみてください。Box、ありがとうございます。
次のテストに進みましょう。次は3D浮島シミュレーションを作成したいと思いました。OpenAIの0304のテストでは、まあまあの結果でした。完璧とは程遠いですね。
では、プロンプトをお見せして、実際のシミュレーションをご覧いただきます。「動的な照明と穏やかなアニメーションを備えた夢のような低ポリゴンの浮島シーンを単一のHTMLファイルで作成してください」というプロンプトを使いました。考えるのにわずか25秒かかっただけです。これがその結果です。見てください、なんて素晴らしいでしょう。浮かんでいる雲があります。
背景には大きな雲があります。ズームインやズームアウトもできます。照明は良く見え、影も非常に良く見えます。また、たくさんのスライダーもあります。太陽の強度を変えることができます。上下に調整できます。環境光もあります。クリスタルグロー中心もあります。
それは真ん中にあるクリスタルです。それを調整してみましょう。近距離の霧もありますが、あまり霧が見えないので少し変ですが、照明に影響しています。遠距離の霧もあります。あまり効果が見られませんね。島の揺れる速度もあります。速度を変えられるのがわかります。まだ比較的遅いですが、非常に遅くしたり少し速くしたりできます。島の揺れる量もあります。今では本当に上下に動いているのがわかります。そして雲の速度もあります。
雲の速度を調整できます。今はずっと速く動いているのがわかります。最大まで上げたり、遅くしたりできます。とても素晴らしいですね。最初に出力されたものは素晴らしかったのですが、さらに改良して「異なる側面をコントロールするためのスライダーをたくさん追加してください」と言いました。そして今お見せしたのがそのスライダーたちです。
次は、ゴルトンボードシミュレーションです。「クライアントサイドJavaScriptとMatter.jsのような2D物理エンジンを使用したゴルトンボードシミュレーション用の自己完結型HTMLファイルを作成してください。シミュレーションはHTML5キャンバス上でレンダリングされ、次の基準を満たす必要があります。単一ファイル、キャンバスサイズは約500×700、標準的な画面に広範なスクロールやズームなしで収まること。2D剛体物理を利用し、障害物としてペグ、格納容器などを含む」というプロンプトを使いました。
コードがたくさん出力されましたが、一つ問題がありました。最初はこのような見た目でした。問題は上部の漏斗に穴がないため、ボールが通過できないことです。
修正するには別のイテレーションが必要でした。「上部の漏斗に穴がなく、ボールが詰まっています。また、スライダーもありません」と伝えました。これが結果です。ゴルトンボードシミュレーションが見えます。ボールが中央に落ちる確率と両側に落ちる確率を示す素敵なベル曲線が表示されるはずです。
多くのスライダーがあります。ドロップ間隔があります。これを上げると、滴下頻度が大幅に下がります。すべて下げると、より多くのボールが出てきます。見ての通り、物理的に詰まることがあります。素晴らしい物理シミュレーションですね。
次にボールの最大数があります。これを下げることができます。これは単一のシミュレーションで出現する総ボール数です。ビンの数もあります。リセットできます。ご覧のとおり、下にはより多くのビンがあります。ペグ行の数も調整できます。これらはすべて確率を変えるだけです。ペグの半径、ボールの半径、ボールの弾力性もあります。いくつか変更してみましょう。そして重力もあります。
重力が高い状態を見てみましょう。では重力を大幅に下げて何が起こるか見てみましょう。今はゆっくり浮いています。一つ気づいた小さな問題は、ペグが交互になるべきですが、すべて互いの真上にあることです。そのため、できる限り良いシミュレーションではありません。まあ十分でしょう。
次に、もちろんフライトシミュレーターを作成しました。「three.jsを使用して簡単なフライトシミュレーターを作成する完全なHTMLファイルを書いてください。シーンには、基本的な飛行機モデルの後ろ少し上からついてくる三人称カメラが特徴です。基本的なジオメトリを使って作成できますが、飛行機のように見えるべきです。簡単な操作：WDで右左、上下のピッチ。スペースバーで速度を上げ、シフトで遅くします。重力は必要ありません。飛行機は空中にとどまるべきです。テクスチャを持つ地面のプレーンを追加し、世界にいくつかの簡単な建物を配置します。飛行機はそれらの周りを自由に飛べるようにします。すべてを一つのHTMLファイルに収めてください。外部の3Dモデルをインポートしないでください（後のテストでは面白いかもしれませんが）」というプロンプトを使いました。
これがその結果です。本当に素晴らしいです。ここに重力を追加するのもクールだと思います。スペースバーを押して加速し、シフトを押して減速します。うまく機能しているようです。地面から反射している影も見えます。非常に基本的ですが、本当にクールです。
次は、もちろんスネークゲームを復活させましたが、単にスネークゲームを作るだけでは十分ではありません。複雑なバージョンが欲しかったのです。
「Pygameを使用してクラシックなゲーム「スネーク」のPythonバージョンを書いてください。ただし、見るのが信じられないほど素晴らしい、ユニークで視覚的に見事で複雑な拡張機能を持つものにしてください。標準的なスネークのメカニクスに加えて、次の機能を実装してください：動的な視覚効果。蛇は輝く消えていく痕跡を残します」というプロンプトを使いました。これを読みながら、前のバージョンのGemini 2.5 Proが作成できたものをお見せします。それは本当に良かったです。そして、このバージョンが作成できたものをお見せします。「背景は食べ物が食べられるとき、微妙な色のグラデーションとトランジションで脈動します。粒子爆発効果をトリガーします。異なるタイプの食べ物は一時的な能力を与えます。スピードブースト、コントロール反転、二重視力、時間スローダウン。各食べ物には独自のアニメーションがあり、蛇は進化します」。
試してみましょう。これがその結果です。食べ物を手に入れようとする小さな壁があります。私たちと対戦するAIバージョンのスネークがあります。明らかに彼が私にぶつかっても終わりません。ご覧の通り、彼は私を通り抜けることができます。全体的に、他のバージョンの方が実際には優れていたと思います。
次に、Punitの粒子シミュレーションを使いました。私がしたのは動画をダウンロードし、新しいバージョンのGemini 2.5 Proにアップロードして「これを再現してください」と言っただけです。ご覧のとおり、動画をアップロードしました。36秒の長さで、10,000トークンを使用しました。「このシミュレーションを正確に作り直してください」と言いました。最初にそれが行ったのは、実際に多数の個別ファイルを提供することでした。それで修正しました。
「いいえ、一つの大きなファイルですべてを与えてください」と言いました。これは何も間違いではなく、私が指定しなかっただけです。そして「マウスで形を回転できるようにしてください」と言いました。それを問題なく追加しました。最後に「シミュレーションのさまざまな設定を制御するスライダーを追加してください」と言いました。
最終結果をお見せします。これがそれです。回転できるのがわかります。いくつかの異なる色をお見せします。クリックすると、異なる形に変形します。他の色も見れます。本当にクールです。虹色にしてみましょう。非常に素敵です。
下部にいくつかのスライダーがあります。粒子の数を制御できます。これを上げると、形を構成する粒子が増えます。減らすと、粒子が少なくなります。少ない方が本当にクールに見えると思います。このあたりにしておきましょう。粒子のサイズを変更することもできます。本当に小さな粒子にすることができ、素敵な輝きも持っています。
もちろん、最大まで上げることもできます。今度は少し輝きすぎていますね。では戻しましょう。変形速度もあります。これを下げると非常に速く変形します。ドーナツ形になりました。変形を5秒に設定すると、変形により時間がかかります。
そして3Dの平面があります。すべての形を取得しました。本当に印象的です。そして自動回転速度もあります。もちろん、形を変えるためにここをクリックするだけです。そして球に戻りました。
次に、レゴシミュレーターを作りましょう。「単一のHTMLファイルに含まれる、three.jsを使用したインタラクティブなレゴビルディングシミュレーションを作成してください。このシミュレーションでは、ユーザーが3D環境でレゴブロックを配置、移動、接続できるようにする必要があります。主な機能：正確な寸法、色、テクスチャを持つ現実的なレゴブロックのセットを作成します。ブロックが適切に接続できるようにグリッドベースのスナップシステムを実装します。ブロックが同じ空間を占有できないように適切な衝突検出を確保します。ブロックが接続するときに満足のいく視覚的および音声のフィードバックを作成します」というプロンプトを使いました。
技術要件：three.jsを使用し、現代のブラウザで動作するようにします。すべてのコードを単一のHTMLファイルに含めます。パフォーマンスを最適化します。さまざまなブロックサイズを作成します。複数の色を含めます。正確なスタッドなどを含めます。
3D平面があり、ブロックを選択して配置すると、素敵な小さなブループ音がします。Rキーで回転は機能していないようです。それは欠けているものの1つです。オーバーハングさせることができます。Escキーを押すと回転できます。明らかに完璧ではありませんが、それでも本当に良いです。
ちなみに、はい、このようにピースを削除することもできます。では、別の色、別のサイズを選びましょう。それをここに置きます。1×4のプレートがあります。配置は確かに完璧からは程遠いですが、これでも本当に良いと思います。そうです、これが結果です。保存、以前のものをロード、クリアもできます。
次に、私は90年代の子供なので、もちろんたまごっちで育ちました。たまごっちを再現したかったのです。これを知らない方のために説明すると、小さなキーチェーンゲームでした。小さなキャラクターを持ち、世話をする必要がありました。餌をやったり、掃除したりなどします。
AIを使ってこの仕様を作成するのを手伝ってもらいました。それはこのような感じです。「Pythonでたまごっちゲームを構築します。この仕様をガイダンスとして使用してください。コアループ：時間ベースの進行。シミュレーションはリアルタイムクロックで動作します。ユーザーインタラクション：プレイヤーは事前定義されたアクションのセットを通じて仮想ペットとやり取りします。状態更新：ペットの状態は時間の経過とともにユーザーのアクションに応じて更新されます。空腹、幸福度、しつけ、健康、年齢、体重があります」。
たまごっちが食べて進行し、時間が経つにつれて、進化し、最終的には死にます。ユーザーアクション：一緒に遊んだり、掃除したり、しつけたり、癒したり、ライトをオン・オフして寝かせたりできます。進化段階があります：赤ちゃん、子供、ティーンエージャー、大人、シニアです。行動メカニクス：ペットは自分のニーズを知らせます。
お見せしましょう。ペットの名前。私の犬の名前であるBと名付けます。ここに来ました。年齢がカウントされているのがわかります。これが私のたまごっちです。今は孵化中です。まだ卵です。5回のティックで孵化すると思います。ここにたまごっちがいます。空腹、幸福度、健康、しつけ、体重があります。しつけが低いようです。では、しつけましょう。しつけをすると、幸福度が下がります。
では、一緒に遊びましょう。幸福度が上がります。空腹なので、餌をあげましょう。これで100%満腹になりました。しつけがまだ少し低いです。もう一度しつけましょう。そして幸福度が下がりました。何回か遊びましょう。そして進化しました。今は子供です。ライトを消すと、Bは眠りました。
眠っている間、これらの異なるステータスが上がっているのがわかります。興味深いことに、なぜかうんちがありません。以前はうんちがあり、見るのが少し面白かったのですが、今回はなぜかありませんでした。再起動したら、うんちが表示されました。「Bのスペースは掃除が必要です」と表示されています。では、掃除しましょう。これでOKです。
もちろん、はい、これは震える、振動する、奇妙なうんちです。これがこの見た目です。非常にシンプルなバージョンです。簡単に改良してより楽しくすることもできます。懐かしいですね。
次に、プロデューサーのAlexに考えてもらった新しいテストがあります。古い学校版のDoomゲームを作りたいと思いました。「HTMLでレトロなFPSゲームを作成します。3JSを使用し、1993年のオリジナルDoomにインスパイアされた、レトロスタイルの3D一人称シューティングゲームを1つのHTMLファイルで作成してください。ゲームはブラウザで完全に実行され、3JSと標準のWeb API以外の依存関係はありません。コードはモジュールや埋め込み以外の外部アセットを使用してはいけません。テクスチャ付きの壁と床を持つ迷路のようなレベルレイアウト、周囲の照明、効果のためのオプションの動的ライト、雰囲気を作るためのスカイボックスまたは暗い霧の背景。ミニマップ」というプロンプトを使いました。
ポインタロックコントロールを使用した一人称カメラ。WDで移動、ジャンプ、衝突検出、健康システム、弾薬システムがあります。異なる武器があります。ピストルとショットガンがあり、キー1と2で切り替えることができます。銃口の閃光、射撃などがあります。これらのいくつかは実装され、いくつかは実装されていません。異なる速度と健康を持つ複数のタイプの敵、シンプルなAI、プレイヤーを追いかける、射撃の影響などがあります。
お見せしましょう。ゲームを開始します。ここにあります。敵がいて、それを撃つと、非常に良いです。敵は消え、射撃時に弾薬が減っていき、自動的にリロードする必要があります。移動できます。右上のミニマップを見てください。それは非常に印象的です。この敵が私に向かってきています。ショットガンに切り替えて一発で倒します。
私は反転マウスに慣れていて、これにはありませんので、ご容赦ください。これらは2発必要です。迷路内のすべての敵を確実に排除しましょう。別の敵がいます。リロード中です。彼らは少しゆっくり動きますが、素晴らしいと思います。最後の敵です。リロードする必要があります。逃げましょう。これで勝ちました。すべての敵を排除しました。非常に基本的なバージョンで、これも簡単に改良できます。
次に、タワーディフェンスです。「HTML5キャンバスベースのタワーディフェンスを構築してください。健康値1から10の風船の敵が色分け（緑から紫）され、曲がりくねった道をたどります。計画モードでは、プレイヤーは5つのタワータイプを配置します：ダート、キャノン、アイス、スナイパー、レーザー。それぞれ独自の色の点とホバー時の範囲プレビューで表されます。ラウンド開始を押して開始します」というプロンプトを使いました。
ダートタワーは速い単一ターゲットショットをバーストで放ちます。キャノンは遅いスプラッシュダメージを与えます。アイスは敵を遅くします。スナイパーは長距離の高ダメージを与えます。レーザーは視覚的なレーザーラインを持つ連続ビームです。試してみましょう。
ここにあります。非常にシンプルなグラフィックですが、良いはずです。ウェーブ番号、所持金、残りライフがあります。ダートタワーから始めましょう。ここに置きます。2つ目のダートタワーをここに置きます。ラウンドを開始しましょう。最初のラウンドは非常に簡単です。敵を倒すたびに、より多くのお金を得られるのが素晴らしいです。より強力な敵がやってきています。
ウェーブ1完了。現在$210あります。この角を出てくるところにアイスタワーを追加しましょう。そしてここにスナイパータワーを追加します。次のラウンドを開始しましょう。アイスタワーが敵を遅くし、他のものが彼らを倒しているのがわかります。
より強力な敵がいるようです。うまくやっているようです。完了しました。レーザータワーを追加しましょう。これは本当にクールだと思います。ここに追加し、もう1つをここに追加しましょう。開始を押します。レーザーがあります。どれだけクールですか？非常にうまく機能します。
これは1回で完成したわけではありません。解決する必要があったいくつかの問題がありました。最初に「パスがないか、ラウンドを開始できません。コンソールエラーはありません」というスクリーンショットを提供しました。それが私たちが言わなければならなかったことのすべてです。次に「現在タワーを配置すると、タワーを変更しない限り他のものをクリックできないので、右クリックで選択解除できるようにしてください」と言いました。
少しの修正を行ったり来たりしました。2〜3回やり取りしたと思います。そして最終的にこのゲームを完成させました。ちなみに、まだ続いています。
次に、この描画アプリのための基本的なスケッチを作成しました。上部に色があります。実際のスケッチエリアがここにあります。異なるツールと異なるサイズがあります。本当にこれ以上大雑把にはできませんでした。「このアプリをコーディングできますか？」と尋ねただけです。ここにあります。まさに私たちが求めたものです。
ここに青があります。黄色。オレンジ。赤。素晴らしい。クレヨンを使ってみましょう。少し太くなっています。ブラシがあります。バケツもあります。このようにサイズを変更できます。そうです、単一の画像だけで、この完全なインタラクティブWebアプリを作成しました。
次に、AIスタジオのフロントエンドを再現したいと思いました。このバージョンのモデルはフロントエンドに非常に優れているそうです。何をしたかというと、「GoogleのAIスタジオのフロントエンドを再構築」と入力し、そのスクリーンショットを撮りました。
非常にメタです。13秒かかり、何か奇妙なものを出力しました。「GoogleのAIスタジオのフロントエンドを再構築する」が機能しませんでした。奇妙な点のようなものをくれました。とにかく、「いいえ、それを再現する完全なHTMLファイルを提供してください」と言いました。その後22秒考え、ここにあります。
非常に正確です。完璧とは言えませんが、非常に正確です。APIキーの取得があります。これらのさまざまな設定を調整できます。構造化出力のトグル、コード実行のトグル、関数呼び出しがあります。停止シーケンスを追加したり、top Pを変更したり、出力の長さを変更したりできます。スクリーンショットだけに基づいてゼロショット、1回の試行でAIスタジオを取得することに関しては、10点満点中8点をつけます。
かなり良いですが、どのモデルも合格しないテストを見つけたと思います。これを試してみました。オンラインで見て、このバージョンのGeminiでさえもできませんでした。これです。「完全な立方体を作るために、いくつの立方体が足りないですか？」
それらを数えると、これは4×5×3です。つまり、合計60個の立方体があります。足りない数を数えるのです。興味深いことに、「画像に基づいて画像の質問に答えてください」と言いました。質問さえ与えていません。答えは14です。それらを数えるだけです。それを詳しく見てみましょう。サイズを決定します。64個の小さな立方体。すでにサイズが間違っています。4×4×4ではなく、4×5×3です。したがって、もちろん20個の立方体が足りないというのは正しくありません。
これが新しいベンチマークになると思います。この問題を解決できるモデルが、おそらく最高のモデルになるでしょう。今日はここまでです。最高のモデルがさらに良くなりました。コメント欄であなたの考えを教えてください。このビデオを楽しんでいただけた場合は、いいねとチャンネル登録を検討してください。