Gemini 3 – 次なる時代の到来

Google・DeepMind・Alphabet
この記事は約16分で読めます。

Googleが発表した最新の大規模言語モデルGemini 3は、1週間のリーク期間を経てついに正式リリースされた。このモデルはGeminiシリーズで最も知的なモデルであり、特にマルチモーダル推論とUI生成において飛躍的な進化を遂げている。LM Arenaで1500点を超える初のモデルとなり、ウェブ開発やグラフィカルユーザーインターフェースの生成においてAIが作成したとは思えないレベルの品質を実現した。Gemini 3 Proと同時に、ジュニア開発者として機能する新しいエージェント型コーディングIDE「Google Anti-gravity」もリリースされ、タスクの計画、実行、検証において優れた能力を発揮する。物理シミュレーションから複雑なウェブアプリケーション、テキストベースの動画編集ツールまで、単一のプロンプトから実用的なソフトウェアを生成できる。PhD レベルの推論能力を持ち、人文科学の試験で37.5%、GPQAで92%近くのスコアを達成している。このモデルの登場により、AI開発は新たな段階に入り、個人向けソフトウェアの開発が大幅に加速する可能性がある。

Gemini 3 - The Next Era!
Gemini 3 pro is here and its the most capable Gemini model to day. Its built for agentic era. We will have a very first ...

Gemini 3の正式リリースと主要機能

1週間にわたるリーク情報の後、ついにGemini 3が正式にリリースされました。待った甲斐がありましたね。私はこのモデルを1週間ほど使ってきましたが、本当に楽しい体験でした。これはこれまでで最も知的なGeminiモデルです。マルチモーダル推論能力は単純に次元が違います。Googleはこのモデルで本当に素晴らしい仕事をしました。特にUIに関しては際立っています。

彼らの焦点はエージェント機能に置かれており、それは私が行ったテストでも実際に現れています。計画立案、アクション実行、検証において本当に優れたモデルです。しかし、Gemini 3 Proと共に投下されたかなり素晴らしいサプライズもあります。彼らはGoogle Anti-gravityもリリースしています。これは新しいエージェント型コーディングIDEです。

これはジュニア開発者のようなものだと考えることができます。これに加えて、Geminiを搭載したエージェントを使用する多数の異なるアプリケーションが登場します。その1つがGeminiアプリで利用可能になるGeminiエージェントです。これはあなたの代わりにアクションを実行できます。

例えば、ついにGmailアカウントをフィルタリングし、カレンダーで直接アクションを実行できるエージェントが登場しました。しかも実際にGoogleによって構築されています。このビデオでは、私自身のテスト結果を含めてカバーすべきことがたくさんありますが、まずはベンチマークから見ていきましょう。早期アクセス段階では、私がアクセスできるベンチマークはこれら2つだけです。

私はこのモデルを1週間以上テストしてきたので、実際の能力についてはかなりよく理解しています。見ているベンチマークはLM Arenaです。このモデルは、Gemini 2.5 Proと同様に、新記録となる1511点でリーダーボードのトップに立っています。これはかなり驚異的です。そしてWebDev Arenaでも1487点を記録し、最上位ランクのモデルとなっています。

このモデルについて気づくことの1つは、UI生成が本当に得意だということです。詳細については後ほどビデオで見ていきます。しかしその前に、このモデルのマルチモーダル推論能力をお見せしたいと思います。これはAI Studioで利用可能なアプリです。リンクを載せておきます。ここでは、画像をアップロードするだけで、画像の内容を見て、動作するウェブアプリを生成してくれます。

例えば、ここにかなり素晴らしいものがあります。これをクリックすると、カセットとカセットレコーダー、この場合はプレーヤーが配置されています。そして再生したり、取り出したりできます。これはかなり素晴らしいですし、学習に非常に役立つと思います。例えば、ここでブラックホールの画像をアップロードしただけで、これを作り出しました。

素晴らしいのは、ブラックホール周辺の重力の歪みを実際にシミュレートしていることです。オブジェクトを送信すると、オブジェクトの軌道がブラックホールにどれだけ近いかによって、まったく異なる挙動を示すことがわかります。これは人々の学習を本当に加速させることができます。さて、ここにもう1つ面白いものがあります。

私のYouTubeロゴをアップロードしたら、これを作成しました。では、この1週間ほどでこのモデルで行ったテストのいくつかをお見せしましょう。しかしその前に、Google Anti-gravityについてお話ししたいと思います。これは本当にソフトウェア開発の新しい方法です。これについては別のビデオを作成する予定ですが、Googleはこれをコーディングアシスタントとしてではなく、本当にジュニア開発者として考えています。タスクを計画し、割り当てることができます。

独自のブラウザでそれらをテストし、その後あなたがレビューしたり、それらのタスクにコメントを残したりできます。つまり、非常に異なるコーディング体験であり、これまで見てきた他のソリューションとは非常に異なる方法で物事を行います。後で専用のビデオを作成する予定ですので、ぜひご覧ください。

Gemini 3の実践テスト結果

しかし、ここに私のGemini 3のテストのいくつかがあります。いくつか例をお見せしましょう。マウスカーソルを追跡する物理ベースの3D花キャラクターを特徴とするログインページを作成してください。これが得られるものです。本当に、本当に素晴らしいです。そして、このアニメーションはすべて単一の静止画像から作成されています。しかし、このモデルの主な強みはウェブデザインです。こちらがプロンプトです。

音声からテキストへのアプリのランディングページを作成してください。これは、テンプレートのように見えないものを作成した初めてのモデルです。さらに印象的なことに、これを一発で実現しました。次のものは、これまで単一のモデルでさえ達成しているのを見たことがないものです。カメラアングルが鳥瞰図に変わるにつれて、歩いている人々の群衆がhello worldを形成するアニメーションを作成してください。

こちらが出力です。この場合、モデルには時間的一貫性があります。これを一貫して作成しているモデルを1つも見たことがありませんでしたが、新しいGemini 3モデルは何の問題もなくそれを実行できます。これはかなり印象的です。そしてSVGの作成が本当に得意です。SVGとして台座扇風機のアニメーション。速度を上げたり下げたりできるコントロールまで付けて作成しました。

完全にプレイ可能なMinecraftを作成できます。これらのほとんどは単なるおもちゃのプロンプトですが、本当の美しさは、これで個人向けソフトウェアを作成できることです。私は、期待されるすべての機能を持つ完全にローカルな動画編集ツールを作成しています。このモデルは現在Gemini 3 Pro Previewとして利用可能です。

繰り返しますが、これは安定版ではありません。プレビュー版です。いくつかの機能と能力について話し、その後このモデルからの出力をいくつかお見せします。それがこのモデルを非常に印象的にしています。デフォルトの温度設定があります。マルチモーダル入力を提供できます。画像でテストしましたが、動作します。

そして解像度を定義できます。これは基本的にモデルに入るトークン数を制御します。関数呼び出しを除いて、通常の機能も持っています。そのツールは少なくとも早期アクセス中は現在利用できませんが、Google検索でグラウンディングできますし、URLをコンテキストとして提供できます。これはかなり素晴らしいです。

出力長は65,000トークンです。総コンテキストウィンドウは約100万トークンのようです。思考レベルも設定できます。現時点で表示されるオプションは、低と高の2つだけです。いくつかテストを実行してみましょう。おそらくここにGemini 3がリストされているのが見えるでしょう。私は早期アクセス中なので、ここにはリストされていませんが、設定にあります。ルービックキューブソルバーを作成してください。

ユーザーは異なるサイズのルービックキューブを初期化し、その後ソルバーを使用してランダムな位置から解けるようにします。ユーザーがシャッフルできます。文字起こしには満足しています。通常、この新しいGemini 3 Proは前の2.5 Proと比較してかなり高速で、前モデルと比較してはるかに少ないテキストやトークンを生成することに気づいています。

思考の連鎖は高度に構造化されており、Gemini 2.5 Proができたことと非常によく似ています。この場合、コアとなる目標について考えています。今、ユーザーコードリクエストの自己完結型HTMLルービックキューブソルバーを理解することに完全に没頭していると言っています。特に多様なキューブサイズと初期化のサポートに必要な機能を積極的に検討しています。

まず、ユーザーが何を求めているのかを理解しようとします。次に、それを達成する方法についての計画を立て、その後実装について考え始めます。こちらがコードです。AI Studioを初めて使う方のために、彼らはこの素晴らしいプレビュー機能を追加しました。これをクリックすると、作成したものの正確なプレビューを見ることができます。

シャッフルしてみましょう。現在3×3を使用していて、解くことができます。覚えておいてください、これは魔法ではありません。ルービックキューブを解くアルゴリズムがあり、まともに知的なLLMならできるはずです。しかし、これは単純なルービックキューブの解法以上のことをします。非常に興味深い例をいくつかお見せします。

その1つがこのアニメーションです。歩いている人々の群衆が「Hello world, I’m Gemini」を形成するアニメーションを作成してください。カメラが鳥瞰図に変わるとき。通常、3.jsを使用し、すべてを単一のHTMLファイルにするように依頼します。こちら側にGemini 2.5 Proがあります。これら2つのモデルからの出力を比較したかったのです。Gemini 2.5 Proは約6,000トークンを作成しました。一方、新しいGemini 3 Proは約3,500トークンしか作成しませんでした。しかし、Gemini 2.5 Proが作成したもののプレビューをお見せしましょう。この場合、基本的にこの表面を作成しましたが、その上には何もありません。こちらが実際のファイルです。これは2025年3月時点では最先端でした。

比較として、Gemini 3 Proから得られるものはこちらです。これらのキャラクターが異なる方向にランダムに歩いているのがわかります。上面図に切り替えると、実際に何が起こっているのかをより良く理解できます。すべてが歩いていて、今、私たちがモデルに求めた言葉を形成しています。これは本当に印象的です。

このモデルの中核的な強みの1つはグラフィカルユーザーインターフェースで、初めてAIによって作成されたように感じないUIを生成できると感じます。私は完全にローカルで実行できる自分の音声テキストシステム用のウェブサイトを作成しようとしましたが、本当に素晴らしい仕事をしてくれました。

ただし、期待値が正しいことを確認したいと思います。ここで使用しているプロンプトがこちらです。非常にシンプルなプロンプトでは、おそらくそれほど詳細は得られないでしょう。美しいのは、これをブレインストーミングにも使用できることです。例えば、この場合、ウェブリンクを提供し、異なるウェブデザインを繰り返すように依頼しました。

私のウェブサイトのコンテンツに基づいて作成されたウェブサイトがこちらです。情報にアクセスできるだけでなく、それを非常に効果的に活用できることが実際にわかります。ウェブデザインに関しては、どこまで押し進められるかを見たいと思いました。こちらはAlex Kからのツイートです。これを見ました。

これをできるAIはまだありません。かなり素晴らしいアニメーションです。ここで、シーンの期待される動作と定義と共に同じ画像を提供しました。何を実装すべきかについて考えるのに少し時間を費やし、これが最初の実装です。実際にこれをお見せできます。画面全体をカバーするアニメーションの実装は依頼しませんでしたが、一般的な動作はそこにあります。

次の反復では、他の要素も動かすように依頼しただけで、本当に素晴らしい仕事をしてくれます。一般的に、これはかなり印象的なモデルです。ただし、非常に興味深い失敗ケースもいくつかあります。最初の1つは、時計テストに失敗することです。アナログ時計を提供しました。

ここで見ることができますが、ほぼ1時50分で、この時計の現在時刻は何かと尋ねただけです。思考の連鎖は興味深いです。表示されている時刻を確認するために画像を調べてきたと言っています。時針の位置を10と11の間、10をわずかに過ぎた位置に特定しました。分針と時針を混同していると思います。それが混乱した理由です。

最後に、時針、短い黒い針は10に向かって位置しており、分針は2の位置に直接位置しており、10分マークを表していると言っています。犯した唯一の間違いは、これら2つの針を入れ替えたことで、それが混乱した理由です。それ以外は、本当に印象的です。しかし、私にとって最も楽しく有用な部分は、個人向けソフトウェアの開発と呼んでいるものでした。

複雑なソフトウェア開発への応用

私はかなり長い間テキストベースの動画編集ツールを構築しようとしてきましたが、複数の異なるエージェントツールを試してきましたが、この新しいGemini 3.0ができることに近づいたものはありませんでした。これまで、モデルが本当に素晴らしい仕事をするワンショットプロンプトをほとんど見てきました。しかし、正直に言うと、これらの基盤モデルのほとんどは、何らかの形でこれらのプロンプトを見てきています。

しかし、本当のテストは、複雑なソフトウェアを構築できるかということです。それがまさに私がここで達成しようとしていたことです。音声を無効にします。しかし、基本的に人が話している間に単語を追跡していることがわかります。しかし、ここが最高の部分です。テキストセクションをハイライトできます。キャプションを追加するとしましょう。

そして再生を開始すると、キャプションが表示されるのがわかります。ズームインとズームアウトも含めることができます。例えば、ここにランダムにズームを追加します。アプリがそれを行うのがわかるでしょう。これはテキストベースの動画編集ツールでもあります。テキストを選択して削除するだけです。

それらのセグメントは動画から削除されます。フィラーワードを削除する機能もあります。それをクリックするだけです。セグメントを選択してそのセグメントを削除するだけで、すべてを削除できます。これは完全に機能するアプリです。おそらく、どのようにしたかについてより詳細なビデオを作成します。

実際の開発経験に基づいて、このモデルはClaude 4 Sonnetに非常に近いか、おそらく上回っていると言えます。Googleはこのモデルで本当に素晴らしい仕事をしました。ところで、このプロジェクトや私のローカルでプライベートな音声テキスト書き起こしシステムに興味がある方は、動画の説明で詳細を確認してください。

これは推論モデルなので、私の誤誘導注意質問でテストしました。これは5人の死者がいるトロッコ問題の修正版です。ここで、それらの人々がすでに死んでいることを正しく識別しました。思考の連鎖では、選択肢について考えています。選択は厳しく、死体を轢くか生きている人を殺すかです。

核心的な倫理的対立が明確になったと言っています。そして、レバーを全く引かないことに決めます。これはかなり賢いです。いいえ、レバーを引くべきではないと言っています。このシナリオでは、メイントラック上の5人はすでに死んでおり、トロッコが彼らを轢くことは生命の喪失にはつながりません。しかし、これにはまだ苦労しています。

これは川渡りです。この場合、ヤギだけを川の反対側に移動させたいのです。現在、コアロジックを具体化していると言っています。具体的には、各アイテムの状態をどのように表現するかに焦点を当てています。最初のアイデアは、単純なバイナリ表現を使用することで、左側の各アイテムは1で表され、右岸は0と1で表されます。

そして謎について考え始めます。この場合も誤誘導注意に悩まされています。なぜなら、ここで提供したものではなく、川渡り問題の元の未修正バージョンを解こうとするからです。ここでは、ヤギの安全を確保することが重要であり、それがプロセス全体を導くと言っています。各移動を注意深く分析し、コア制約に違反しないことを確認しています。

これは良いです。少なくともヤギがここでのコアゴールであることを識別しました。ここでの思考の連鎖について本当に好きではないことの1つは、基本的に何をしているかを教えてくれますが、実際に何について考えているかは教えてくれないことです。正直に言うと、そこからあまり多くの情報は得られません。

しかし、ここで最後に、全員を安全に渡すために、農夫はこれらのステップに従わなければならないと言い、すべてのステップを示していますが、基本的にヤギを連れて渡って停止するという1つのステップだけがあるはずです。この場合、誤誘導注意に悩まされています。それは言っても、これはウェブデザインとグラフィックレンダリングに関して、私が見た中で最も印象的なモデルの1つです。

そして、これはAIによって生成されたように見えないウェブアプリを作成できる初めてのモデルだと私は思います。デザイン関連のタスクに非常に有用になるという閾値を本当に超えています。もう1つテストを行います。それはモデルの幻覚をテストするものです。ここでGoogle検索でのグラウンディングを有効にします。

私はタイトな締め切りのあるテックジャーナリストだと言います。これはGemini 3が発表された現在の日付です。これまで多くのリークがあり、ここにいくつかの噂されている機能があります。Google検索を実行して、何が真実で何が偽りかを理解できるか見てみましょう。

こちらが応答です。これは速報状況ですと言っています。今朝の伝統的なテレビ中継の基調講演はありませんでしたが、Google CEOのSundar Pachaiは、一晩で開発者と企業ユーザーに向けてGemini 3の大規模なシャドーリリースに続いて、暗号的な考える絵文字の確認をドロップしました。これは、Sundar Bachaiが今週のGemini 3リリースに関するPolymarketのベッティング予測を共有した後にツイートしたことを指していると思います。

次に、あなたが尋ねた3つの特定の機能の詳細な内訳がありますが、現在GeminiアプリとAI Studioに表示されている新しいGemini ProとGemini Nano、内部コードネームバナナモデルからのリークによって確認されています。多くのリークがあり、その一部と混同したと思います。なぜなら、今、これらの推定リーク機能の多くの詳細を提供し始めたからです。

実際にそれについての情報があるとは思いません。最後にいくつかのベンチマークと私の最終的な考えを見てみましょう。これはかなり印象的なモデルです。LM Arenaリーダーボードで1500を超えることができた最初のモデルです。コミュニティによく受け入れられています。

次に、人文科学最後の試験でPhDレベルの推論を実証し、37.5%に達しています。こちらが現在のリーダーボードです。GPT-4.5 Proは31.64%です。これはかなり大きなリードです。そして、大学院レベルの試験であるGPQAでは、ほぼ92%を達成しています。本当に強力なマルチモーダル能力を持っています。MMLU Proでは81%を達成しています。

M video MMUでは87.6%を達成しています。ベンチマークに関しては、眉唾物として受け取ってください。これらはおそらくすでに十分に飽和しています。しかし、このモデルのバイブは本当に良いです。Gemini 3 Deep Thinkバージョンもあり、画期的なパフォーマンスを達成することができます。例えば、人文科学最後の試験では、ツール使用なしで最先端です。

GPQAでも非常に似た状況です。ARC AGI 1では、このモデルはコード実行で45.1%を達成しています。vendingベンチマークでもいくつかのベンチマーク結果があります。これでGemini 3 Proは再び最先端です。これは正確には何を意味するのでしょうか。モデルがすでに十分に強力な段階にあると思います。

この時点で異なるモデル間を差別化することは非常に難しくなるでしょう。考えるべき主なことは、これらのモデルの上に何を構築するかです。ぜひ試してみてください。このモデルを気に入ると思います。バイブは良いです。とにかく、このビデオが役に立ったと思っていただければ幸いです。

コメント

タイトルとURLをコピーしました