Gemini 2.5 Flash は驚異的な可能性を秘めている…(Google が勝ち続けている)

AGIに仕事を奪われたい
この記事は約19分で読めます。

11,332 文字

Gemini 2.5 Flash has insane potential... (Google Keeps WINNING)
Check out Box AI here: My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 Subscribe:

Xで投稿されたPunitによるGemini 2.5 Proでのバイブコードされたデモをご覧ください。このデモを再現しますが、あなたが思っているようなやり方ではありません。実際に私は動画をダウンロードしてGemini 2.5 Flashにアップロードし、これを再現してもらいました。
見てください。TwitterからビデオをダウンロードしてGoogle AI Studioに直接アップロードしましたが、これはGeminiでも直接できます。かかったトークンはわずか1万500トークンでした。これは100万トークン中のほんの一部です。私は単に「このビデオに表示されているものをコードで再現してください」と言いました。
3JSを使用し、すべてのコードを単一のHTMLファイルに入れてください。このように3JSを読み込んでください。後ほど、なぜこの最後の部分を入れたのか説明します。AIは22秒間考え、これがGemini 2.5 Flashモデルの最も印象的な点です。とても高速で、他のモデルと比較すると非常に安価です。
そして大量のコードと説明を出力しました。元のものとは完全に同じではありませんが、ビデオだけからこれを再現したことを覚えておいてください。回転させたり、軸に沿って動かしたりできます。色を変更することもできます。ピンクと紫がきれいですね。こちらは青と緑、そして虹色もあります。とても素晴らしいです。ズームインすると、この3Dビジュアライゼーションを構成している小さな正方形がすべて見えます。
元のデモと同様に、「形状を変更」をクリックすると新しい形状が読み込まれます。今回は立方体です。前と同じように回転させることができます。紫、青、水色、緑、黄色、オレンジ、そして底部は赤です。もう一度クリックして、他にどんな形状があるか見てみましょう。ピラミッドが出てきました。少しズームアウトして、すべての側面を見てみましょう。これは私のお気に入りです。もう一度形状を変えてみましょう。ドーナツ形になりました。とても素敵です。もう一度形状を変えてみましょう。平らな面や平面があります。素晴らしいですね。もう一度形状を変えてみましょう。これはクールですね。ここには一種の波形があり、背景では色が重なり合うと変化しているのが見えます。とても素晴らしいです。プロンプトもほとんど書く必要がありませんでした。
先ほどの「このように3JSを読み込んでください」という部分を追加した理由に戻りましょう。importマップを使ったスクリプトを使用した理由は、Gemini 2.5 Flashで行ったすべての生成が3JSを正しく読み込めなかったからです。奇妙な方法を使用していて、コンソールでエラーが出ていましたが、これが正しいやり方だと気づきました。だからシンプルに「このようにしてください」と指示しました。
Gemini 2.5 Proにはその問題はなく、これが2つのモデルの重要な違いです。Proは大規模で強力なモデルで、速度は遅く、より高価ですが、より高性能です。このように指示を追加するようになってからは、すべてがうまく動作しています。
これからGemini 2.5 ProとFlashの違いをお見せします。Flashは素晴らしいですが、Proには若干の優位性があることがわかるでしょう。最新のフロンティアモデルのベンチマークやデモなどをもっと知りたい方は、私のニュースレターforwardfuture.aiに含まれています。ぜひ購読をお勧めします。素晴らしいオリジナルコンテンツがあり、ニュースもまとめています。forwardfuture.aiをチェックしてください。
ルービックキューブのシミュレーションは、Gemini 2.5 Proのテストでお気に入りでした。ゼロショットで、たった一度の試みで完全なビジュアライゼーションを作成できました。アレックスが今話している間に画面に表示してくれるでしょう。これはGoogleが非常に感銘を受けたのと同じデモで、最近のGoogle Cloud Nextイベントで紹介され、CEOも言及しました。
同じプロンプトを使いましたが、見た目はかなり良いです。なぜかすべてが少し暗いですが、ダークモードのブラウザプラグインがオフになっていることを確認しました。回転し、各面のすべての色がほぼ正確に表示されています。サイズを大きくすることもできますね。キューブのサイズを変えることができ、平面上で回転させたり、異なる角度で回転させたりできます。10×10まで大きくしましょう。まだ見た目は良く、すべての面が正しいですが、「スクランブル」を押しても何も起こりません。
コンソールを確認すると「150手でスクランブル中」「スクランブル完了、0手記録」とあります。何かが起こるはずですが、うまく機能していないようです。今日お見せするデモの一部では、何度か繰り返し試しましたが、これについては試していません。ゼロショットでできるかどうか見たかったのです。
3×3キューブに戻って見てみましょう。「回転」と言うと回転しますが、色が少し奇妙になり、位置が入れ替わったりして少し不自然に見えます。別の軸で回転させても同じです。おそらくGemini 2.5 Flashともう少しプロンプトを練れば、うまく動作させることができるでしょう。しかし、他のデモではゼロショットでうまくいったものもあり、それをお見せします。最も印象的なのは、実はビデオ全体を見て、ビデオの中の細かい部分について非常に詳細な質問をすることです。それについてはすぐに説明します。
「解く」をクリックしても何も起こりません。「12ステップで解いています」「キューブ解決済み」と表示され、エラーが出ていますが、最も重要なのは、実際に解かれる様子が見えないことです。Gemini 2.5 Proは初回の試みですべてができました。
今日のビデオのスポンサーであるBoxをぜひテストしてほしいと思います。Box AIは信じられないほど素晴らしく、私は最近チーム全体をBoxに移行し、とても気に入っています。Boxを使えば会社のあらゆる種類の文書を保存し、人工知能を活用して洞察を抽出し、Q&Aに回答し、エージェントによる自動化とインテリジェントなワークフローを作成できます。さらにBox AIのAPI上に自分でビルドすることもできます。
最先端のモデルをすべて備えており、Box内に特別なチームがあり、モデルがリリースされるとすぐに独自のベンチマークを実行し、結果をすべて公開しています。Box AIを活用したり、その上に構築したりしたい場合、彼らはRAGパイプライン全体を処理してくれます。すべての文書に対応し、115,000の企業組織から信頼されており、エンタープライズグレードのセキュリティとガバナンスを備えています。また、Gemini 2.5 Flashや最近リリースされたすべてのモデルと互換性があります。ぜひチェックしてみてください。素晴らしいパートナーでした。リンクは下に記載しておきます。Boxに感謝します。
次のテストに移りましょう。ウイルスシミュレーションです。血流の中で血球を攻撃するウイルスです。前回と同じプロンプトを使用しています。Gemini 2.5 Proに同じプロンプトを与えた結果がこちらです。非常に印象的です。
次に、Gemini 2.5 Flashがどのように見えるか見せます。Flashはコードを出力するのにかかる時間が非常に短いことを覚えておいてください。プロンプトはこうです:「血流の中でウイルスが細胞を攻撃する対話型シミュレーションを作成してください。すべてのコードを単一のHTMLファイルに入れ、3JSを使用してください」なぜこうするのかというと、自分にとって簡単にするためです。Geminiを使用する良い点は、Canvasも使えるようになったことなので、必ずしも1つのファイルにすべてを入れる必要はありませんが、そうする方が簡単です。
環境は赤血球、白血球、ウイルスを含む流れる血液を視覚的に表現する必要があります。以下の機能を含めてください:シミュレーション要素、赤血球(ウイルスが標的とし破壊する受動的な細胞)、白血球(など)。そして多くのスライダーがあります。ウイルス設定(ウイルスの数、ウイルス複製率、ウイルスタイプセレクタ、攻撃的、ステルス等)、白血球設定(白血球の数、攻撃力、検出半径、移動速度)、環境設定(血流速度、シミュレーション速度、カメラズームとパン感度)などです。
ウイルスはランダムに移動するか、接触時に赤血球を探すべきです。接触時、ウイルスは赤血球を破壊し、場合によっては複製します。白血球は積極的にパトロールすべきです。基本的な健康状態インジケータを含め、カメラを動かせるようにしてください。
AIは考え始めました。「完全な対話型3Dシミュレーションを作成しています」などと言っています。考えた後、コードの出力を開始しました。かなりの量のコードです。
一つエラーがありました。コンソールから直接コピーペーストしました:「uncaught reference 3 is not defined」これは先ほど言及した問題で、何らかの理由でローカルで3JSを読み込む方法を知らなかったのです。しかし、Canvasでは動作しました。Gemini 2.5 Flashが3JSを読み込む方法と、私のローカルマシンの組み合わせに問題があっただけです。それでも1回のパスで成功したと言えるでしょう。Canvasで動作したからです。
こちらがCanvasでの見た目です。血流があり、異なる軸で動かしたり、回転させたりできます。赤血球、白血球、ウイルスがあります。ウイルスの数を増やすと、緑の小さな点であるウイルスの数が大幅に増えるのがわかります。実際に血流の内部にズームインできるのも素晴らしいと思います。
また、複製率もあります。ウイルスが攻撃した後に複製されるようにできます。ウイルスタイプは「攻撃的」「ステルス」(まだ未実装)、「高速複製」(未実装)などがあります。なぜ実装されなかったのかはわかりません。白血球の数があります。白血球は反撃します。攻撃力、検出半径、移動速度もあります。環境設定では、シミュレーション速度を上げることができます。血流速度も上げられます。すべてがそこに表示されています。これはかなり良いと思います。非常に印象的で、1回の試みで成功しました。
Xで見つけた別のデモがあります。Keepyによる「procedural animation(手続き型アニメーション)を使用したduck sorder」というものです。あなたはこの小さな白いキャラクターのsorterとなり、周りを走り回って3つの異なる色のアヒルのグループを集めて色ごとに分類する任務を持っています。私はただビデオをダウンロードし、Gemini 2.5 Flashにアップロードしました。
その結果がこちらです。なぜか1トークンしか使用しなかったと表示されていますが、私はビデオをアップロードして「このduck sorderゲームを作成し、コードはPythonの単一ファイルのみで手続き型アニメーションを使用してください」と言いました。Flashは超高速なので、わずか21秒だけ考えました。
考えの一部を見てみましょう:コアリクエストを理解する(ユーザーはduck sorderゲームを複製したい)、ゲーム要素を特定する(暗い灰色の背景、タイトル画面、ゲーム画面、エンド画面など)、物理と動き(sorterアヒルはカーソルに向かって移動すべき、色付きアヒルはアイドル移動を持つべき、sorterアヒルとの衝突、アヒル同士の衝突、境界との衝突など)。ビデオを見ただけですべての要素を理解しました。他のAIモデルでこれができるものは知りません。非常に印象的です。
そしてコードが出力されました。設定が間違っていたので何度かやり取りしましたが、実際にはGemini 2.5 Flashとやり取りする必要はなく、ただ設定を調整する必要がありました。できるだけ「バイブコード」したかったのです。
見た目はほぼ同じで、クリックするとゲームが始まります。青いアヒルを他の青いアヒルと一緒にしようとしています。キャラクターやスプライト自体はそれほど良く見えませんが、それは大丈夫です。黄色いアヒルを集めてみましょう。このゲームはあまり得意ではありません。黄色のアヒルをそこに連れて行き、ピンクのアヒルをあちらに、ティール色の青いアヒルを他のグループを壊さないように移動させます。見ているみなさんには痛々しいかもしれませんね、すみません。
勝利条件は現在機能していませんが、前回の繰り返しでは機能していました。勝利条件は単に「やりました!」と表示されます。ビデオを見て再現しただけにしては、かなり良いと思います。
次に、プロデューサーのアレックスが作成したタワーディフェンスゲームです。驚くほどうまく動作しました。プロンプトはこうでした:「HTML5キャンバスベースのタワーディフェンスを構築してください。風船の敵(体力1~10、緑から紫までの色分け)が曲がりくねった道を辿ります」彼は手動でこれをすべて書いたわけではなく、基本的なアイデアを持ち、LLMを使ってプロンプトを書くのを手伝ってもらいました。いつもそうすることをお勧めします。
「計画モードでは、プレイヤーは5種類のタワーを配置します:ダート、キャノン、氷、スナイパー、レーザー。各タワーは固有の色の点で表され、ホバー時に範囲プレビューが表示されます」欠けているのはビジュアルですが、それは簡単に追加できます。「ラウンド開始を押すと開始します。ダートタワーは高速の単一ターゲット攻撃、キャノンタワーは遅い範囲ダメージ、氷タワーは敵を遅くする、スナイパータワーは高ダメージで長射程、レーザータワーは連続ビームで視覚的なシアンレーザーラインがあります。敵は整数の体力を上に表示する」などが含まれています。
短時間で考え、コードが出力されました。こちらがその見た目です。氷をここと、ここに配置して、最初に敵を遅くさせましょう。100残っているので、たくさん配置しすぎたかもしれません。ダートを2つ、ここと、ここに配置しましょう。始めましょう。風船が来て、遅くなっているのがわかります。ダートが風船を倒しました。波1完了、波2の準備をしてください。お金をもっと獲得しました。もう一つダートをここに置いて、再び始めましょう。体力が増えています。上に3と4が表示されています。
見ての通り、かなりうまく機能しています。もちろん、より多くのビジュアルやゲームの複雑さを追加するために反復を続けることもできますが、これはGemini 2.5 Flashとしては本当に良いです。
次は、過度に複雑なスネークゲームです。「PyGameを使用した古典的なゲームSnakeのPythonバージョンを書いてください。ただし、見るのが信じられないほど素晴らしい、ユニークで視覚的に見事で複雑な拡張を加えてください」というプロンプトです。前回と同様に、Gemini 2.5 Proができたことをお見せします。本当に視覚的に見事だったからです。
こちらをご覧ください。異なる食べ物のタイプ、AIと人間が競争する2匹のヘビ、カメラが周りを移動する…本当に印象的です。このプロンプトの残りの部分には「動的な視覚効果(ヘビは光る消える軌跡を残す、背景は微妙な色のグラデーションで脈動し、食べ物を食べるとパーティクル爆発エフェクトが発生する)、異なるタイプの食べ物(スピードブースト、コントロール反転、二重視界、時間減速)」などがたくさん書かれています。
Gemini 2.5 Flashはかなり良いものを作れましたが、Gemini 2.5 Proほど良くはありませんでした。こちらです。私は緑、AIは赤です。スピードブーストがあり、衝突してゲームオーバーになりました。もう一度見せます。異なるタイプの食べ物がうまく機能し、AIのヘビが私に衝突して負けました。あ、今度は私が負けました。微妙なパーティクル効果、異なるタイプの食べ物がありますが、Gemini 2.5 Proほど視覚的に見事ではありません。このコードは677行で完成しました。
これがGemini 2.5ファミリーのモデル(ProとFlash両方)と他のすべての既存モデルとの最大の違いかもしれません。Gemini 2.5にコードを要求すると、数百行、場合によっては1000行以上のコードを提供してくれます。他のモデルでは、数百行のコードしか取得できません。コードの行数に制限があると、構築できる複雑さも制限されます。しかし、Flashは値段が安く、速度が速いことを忘れないでください。タスクに適したツールを使うだけです。
次は、アレックスが作成した別のものです。AIプレイヤー同士の対戦型テトリスです。「Pythonを使用して、Pi gameを使った2人のAIプレイヤーが古典的なテトリスルールで対戦するサイドバイサイドのテトリスシミュレーションを作成してください。一方のプレイヤーがトップアウト(上限に達する)すると試合は終了します。各AIはラインをクリアすると相手にガベージライン(邪魔なライン)を送ります」
コア機能として「古典的なテトリスルールセット、標準的なテトラミノ回転システム、10×20グリッド、ホールド機能なし、Tスピンなし、コンボなし、プレイヤーごとに1つのアクティブピースと1つのプレビューが表示される」というものです。ガベージシステムでは「1、2、3、または4ラインをクリアすると、それぞれ0、1、2、または4ガベージラインが送られる。ガベージラインには1つのランダムに配置された穴がある。ガベージは短い遅延または警告アニメーションと共に相手のボードの下部から追加される」というものです。
元のビデオでテストしたときには、このテトリステストを使用しませんでしたので、これは新しいものになります。バックグラウンドでは2.5 Proでも実行して、どうなるか見ています。
改良されたAIロジックとして「ルールベースのAIでスマートな配置ヒューリスティックが使われ、スタック内の穴の数を最小化し、最も高い列の高さを最小化し、クリアしたラインを最大化する」などがあります。AIは考えを巡らせ、ゲームが出力されました。アレックスはGemini 2.5 Flashで何度もやり取りしてうまく動作させました。
最終製品がこちらです。2つのAIプレイヤーが対戦し、次に来るピースが表示されています。ガベージが表示されました。これらの灰色の四角形です。現在19対15のスコアです。両側にガベージがあります。これはしばらく時間がかかるでしょう。AIはかなり優秀です。プレイヤー1にはより多くのガベージがありますが、プレイヤー2はより高いスコアを持っています。どうなるか見てみましょう。プレイヤー1が負け(上限に達する)に近づいているようです、あるいはそうでもないかもしれません。
最終的に終了し、プレイヤー1が上限に達したことがわかります。つまりプレイヤー2のAIが勝ちました。これはかなり良いですね。2.5 Proの結果も見てみましょう。これは1回の試みでまだテストしていません。どうなるか見てみましょう。
見た目はかなり似ていますが、Gemini 2.5 Flashと同じ問題がありました。一部が切り取られています。ほぼ同じに見え、同じように機能しています。すべてが少し遅く動いていますが、全体的にはほぼ同じように出力されたと思います。非常に印象的です。
次に、XでRomeshが作成した「Galtonボード」(ゴルトン盤)です。確率分布を示し、パチンコのようにも見えます。ボールを通して落とすと、最終的に確率分布を表すベルカーブが表示されます。彼は「Gemini 2.5 flashは私のGaltonボードテストを圧倒的にこなします。ChatGPT-4o miniやChatGPT-4o mini high、Claude 3などではこれを作ることができませんでした」と述べています。
このテストのために、彼のプロンプトを使用し、ビデオもダウンロードして、構築方法の2つめの情報源としてアップロードしました。まず、プロンプトだけを試しました:「CDN経由で含まれるMatter.jsのような2D物理エンジンを使用したクライアントサイドJavaScriptで、GaltonボードシミュレーションのHTMLファイルを作成してください。シミュレーションはHTML5キャンバスにレンダリングされ、以下の条件を満たす必要があります:単一ファイル、キャンバスサイズ、物理特性など」これは基本的にGaltonボードがどのように見えるか、ボールがどのように振る舞うべきか、ペグがどのように見えるべきかなどを定義しています。
16秒の思考の後、何かを出力しました。最初の試みでは、ボールが落ちる底部のカップが欠けていたので、彼のデモからビデオをアップロードして「底部のカップ部分が欠けています。このビデオを確認して、これとまったく同じように見えるようにしてください」と言いました。私がビデオでなぜ1トークンと言い続けているのかわかりませんが、明らかに1トークンではありません。
22秒間考え、何度かやり取りしました。本当に調整していたのは底部のカップの幅だけでした。少し問題が発生したので、修正を依頼しました。この出力がどれだけ速いか見てください。これがFlashです。非常に高速で、すべてのコードを再レンダリングしています。もう一度試してみましょう。
ボールが落ちてきて、完璧です。前回はボールが着地して消えてしまいましたが、少しの説明と数語で修正され、ベルカーブが形成され始めています。完全にランダムなので、完全に均等なベルカーブにはならないかもしれませんが、見てみましょう。
左側にシミュレーションコントロールも追加しました。ボールの最大数を100から2,000まで設定できます。ドロップ間隔をミリ秒単位で設定できます。重力の設定もあります。ボールの半径を大きくすることもでき、大きくするとボールは少し詰まりやすくなりますが、それでも落ちていきます。ペグの半径も調整できます。ペグの半径を最大にし、ボールの半径も最大にすると、ボールは全く動きません。ボールの半径とペグの半径を可能な限り小さくすると、ボールはかなり速く落ちていきます。
ペグの水平間隔も調整できます。垂直間隔も調整できます。ビンの数も設定できますが、増やしすぎるとスペースがなくなるので少し扱いにくいです。ビンの上の隙間も調整できます。ボールの弾力性、ボールの摩擦、空気摩擦なども設定できます。
これはかなり素晴らしいと思います。投下されるボールの数が表示され、ボールのドロップ間隔を減らすとボールがより速く落ちていきます。これは成功と言えるでしょう。
次にアレックスがiPhone描画アプリを作成しました。実際にはiPhone用ではなく、Pythonで作られたので直接その指示に従ったわけではありませんが、見てみましょう。「iPhoneアプリのシミュレーションを作成してください。描画ができるようにしてください。スライダーとセレクターがあり、サイズ、硬さ、色などが異なるペン、鉛筆、ブラシを選べるようにしてください。長方形作成ツール、消しゴム、塗りつぶしバケツなど、いくつかの異なるツールも用意してください」というプロンプトでした。
AIは考え、Pythonコードを出力しました。ペンがあり、設定ボタンをクリックすると色を変更できます。緑色にしてみました。設定ボタンは少し不格好に見えます。ペンのサイズを変更できます。消しゴムがあります。これはWindowsに付属している基本的な描画キットのように見えます。長方形作成ツールがあり、塗りつぶしもあります。クリアすることもでき、長方形タイプのアウトラインもあります。サイズを小さくすることもでき、ファイルをPNGとして保存することもできます。これは非常に素晴らしいと思います。特に構築にほとんど労力がかからなかったからです。
最後に、そして最も素晴らしいかもしれないのが、16分間のポパイ(古いカートゥーンをご存知でしょうか)のビデオをダウンロードし、非常に具体的な質問をしたことです。まずそのビデオがどのようなものか見せましょう。
こちらがポパイです。非常に古いスタイルのカートゥーンです。スクラブしてみると、ポパイの悪役がいます。彼の名前さえ知りません。すみません、ポパイは見ていませんでした。少し私の時代より前です。かなり詳細なカートゥーンで、16分とかなり長いです。これを直接Gemini 2.5 Flashにアップロードしました。
16分間のビデオで283,000トークンを使用しました。100万トークンを持っているので、おそらく1時間近くのビデオをGemini 2.5に入れることができるでしょう。最初に「8分あたりにポパイがライオンと戦うシーンがありますが、ライオンは何匹いますか?」と尋ねました。ビデオを直接読み取っています。
8分のマークではライオンが2匹います。かなり簡単ですが、1年前、あるいは1年半前に、16分、30分、45分のビデオについて質問をし、それに答えてもらえるとは想像できましたか?考えられないことでしたが、今はそれが可能になりました。
AIは22秒間考え、「8分17秒付近でポパイはシンバッドの島の洞窟の入り口で2匹のライオンに遭遇し、戦います」と回答しました。質問した以上の情報を提供してくれましたが、それは大丈夫です。
次に「ビデオの最初の1分に2匹のヘビが巻きついた看板がありますが、その看板には何と書いてありますか?」と質問しました。34秒間考え、「43秒付近にあり、”the aisle of Sinbad beware”(シンバッドの島 注意)と書いてあり、ドクロと交差した骨、シンバッドの文字があります」と回答しました。確認してみると、確かにそこにあります。「the aisle of Sinbad beware」、2匹のヘビが巻きついていて、ドクロと交差した骨が正確に表示されています。
もっと難しい質問をしてみましょう。「10分付近に背景に樽がありますが、その樽には何と書いてありますか?」AIは12秒間考え、「10分付近に樽があり、”XXX buckshot”(バックショット)と書かれています」と回答しました。確かに樽があり、「トリプルX」と「バックショット」と書かれていますが、ほとんどが切れていて見えません。しかし確かに「バックショット」と書かれています。テキスト全体を見るには注意深く観察する必要がありますが、「XXX buckshot」と書かれています。
Gemini 2.5 Flashは素晴らしいです。Gemini 2.5 Proにほぼ匹敵する性能を持ちながら、圧倒的に高速で、はるかに安価です。このような最先端モデルは、ほとんどのユースケースでは必要ないかもしれません。2.5 Proとほぼ同等の性能を持ちながら、コストの一部で、はるかに高速なモデルがあるという事実は、Googleがいかに優れた実行力を持っているかを物語っています。
この動画が気に入ったら、いいねとチャンネル登録をよろしくお願いします。

コメント

タイトルとURLをコピーしました