Googleがまたやった。Gemini 3.1 Pro レビュー

Google・DeepMind・Alphabet
この記事は約14分で読めます。

GoogleがリリースしたGemini 3.1 Proは、創造性・科学的推論・コーディング・マルチモーダル理解など多岐にわたる領域で際立ったパフォーマンスを発揮する最新モデルである。本動画では、実際のデモを通じてその能力を検証するとともに、Humanity’s Last ExamやARC-AGI 2などの主要ベンチマークにおける他モデルとの比較、さらには独立系リーダーボードによる評価を交えながら、Gemini 3.1 Proの強みと限界を多角的に分析している。

Google wins again. Gemini 3.1 Pro review
Gemini 3.1 Pro review. New best AI model. #ai #ainews #agi #aimodel #llm Thanks to our sponsor Hubspot. Access the free ...

Gemini 3.1 Proの登場

Googleが最強・最高性能のAIモデル、Gemini 3.1 Proをリリースしました。これが本当にすさまじい。あらゆる面でとてつもなく強力なんです。というわけで今回は、どこでどう使うのか、どんなことができるのか、そしてもちろんスペックやパフォーマンス、他のモデルとのベンチマーク比較もたっぷりご紹介していきます。早速始めましょう。

このビデオはHubSpotの提供でお送りします。

さて、この収録時点では、Gemini 3.1はすでにGeminiアプリで使えるようになっているはずです。Proを選択すると、ここに「3.1 Proを使用」と表示されているのが確認できますね。では、いくつかプロンプトを試してみましょう。まずは創造性と新しいアイデアの発想力を試してみます。

創造性テスト:モバイルOS設計

AndroidやiOSよりも優れたモバイル向けOSを開発してほしい、ホーム画面に8つのアプリを含めて、設計内容や仕組み、その理由も説明してほしい、というプロンプトを入力します。そしてツールからキャンバスを選んで、横のウィンドウでプレビューできるようにします。

実行してみましょう。これが生成結果です。名前は「Fluid OS」。このOSのコアアプリが8つ紹介されています。まず「Omni」というトップバナーで、これがいわば端末の頭脳です。クリックしてみると、これは統合AIエージェントで、カレンダー・メール・位置情報をプロアクティブに読み取り、次の会議がいつかなど、今まさに必要な情報を表示してくれます。

次は「Thread」。SMS、WhatsApp、メールなど全メッセージ・DM・通話をひとつにまとめるアプリです。なぜバラバラなアプリが必要なのか、Threadがすべてのコミュニケーションを統一するという考え方ですね。続いて「Sense」は、スマートウォッチや端末センサーなどから生体データをまとめて集約するアプリ。「Flow」はユニバーサルメディアプレイヤーです。

そして「Prism」はただのカメラではなく、リアルタイム翻訳・テキストコピー・ビジュアル検索ができるARレンズ。「Shift」はナビゲーションで、Googleマップみたいなものですが、いつ出勤するかを把握して、聞かなくても渋滞情報をプロアクティブに表示してくれます。それから「Vault」はセキュリティキー・クレジットカード・パスワード管理。最後に「Home」はスマートホームのコントロールアプリです。

正解があるわけではありません。これはGemini 3.1 Proが設計したものですが、AndroidやiOSより優れていると思うかどうか、ぜひコメントで教えてください。

3D生成・コーディング能力のテスト

次は定番のテストです。この画像をアップロードして、3Dアニメーションを作ってもらいましょう。どれだけうまくコーディングしてくれるか見てみます。結果はこちら。この五重塔、他のモデルと比べてかなりリアルで細かく仕上がっています。このプロンプトは主要モデル全部でテストしてきましたが、Gemini 3.1が今のところ断トツで最も詳細な五重塔を生成しました。

完璧ではありません。手すりや窓、屋根瓦がなかったり、桜の花ももう少し細かくてもいいかなとは思いますが、プロンプト一発でここまで出るのはすごい。実際、Gemini 3.1 Proは3Dと空間理解が格段に上手くなっています。前バージョンのGemini 3と比較したいくつかの3D生成例を見ると、どれも明らかに詳細さと品質が上がっています。SVGアニメーションを作らせても、3 Proの方がはるかにスムーズで精細、かつ正確な仕上がりになっています。

音楽生成テスト

次は音楽の作曲能力を試してみましょう。まずは音楽を作るためのインターフェースを作る必要があります。タイムライン上でノートをドラッグして描けるピアノロールのインターフェースを作ってもらいます。実行してみると、まず最初のバージョンが完成しました。ちゃんと動くか再生してみます。動きましたね。

次が本番のテストです。深みと表現力に富んだ32小節のピアノ曲を作って、複雑さとダイナミクスを最大限に引き出し、巨匠ピアニストの最後の演奏を表現してほしい、と入力しました。結果はこちら。ちょっと全体が見えないので少しズームアウトして、再生してみましょう。

これは本当にすばらしい。全体的に非常に調和がとれていて、不協和音もありません。同じテストを別の最先端モデルであるGLM5で試したところ、かなりバラバラな結果でした。こちらは本当に良く聞こえる。固有の音楽構成知識がしっかり組み込まれているようです。

照明物理シミュレーション

次は照明物理の再現力を試してみます。金属製の球体3つが街並みの上に浮かんだシミュレーションを作ってもらいます。2つなら他のモデルでもできるので、あえて3つにしました。反射率・粗さなどのパラメータを調整できるようにもします。

最初の結果を見ると、本当のテストは「球体同士が互いに映り込んでいるか」です。最初のイテレーションではそれができていなかったので、「球体が互いに反射していない」と伝えました。その後の最終バージョンを見ると、ちゃんと球体同士が互いに映り込んでいます。各球体の動作確認をしていきましょう。金の球体の反射率を変えると、ちゃんと動きますね。粗さも動きます。反射の明るさも動く。色の変更もできます。例えば青に変えると、これも機能します。

真ん中のクロームの球体の反射率も動く、粗さも動く。そして粗さを変えると、他の球体に映るこの球体の反射も変わるのが分かります。続いて反射の明るさも動きます。すばらしい。最後に赤い金属球体も確認すると、はい、全設定が機能しています。たった2回のプロンプトで、パラメータを自由に変えられる完全に機能するフローティング球体シミュレーションが完成しました。

実用的なユースケース:領収書の解析

Gemini 3.1 Proの便利な使い方をいくつかご紹介します。大量の領収書をアップロードして、日付・品目・合計・通貨という列でスプレッドシートにまとめてもらいます。結果はこちら。ちゃんとすべての品目が入っていて、通貨も正確です。HKDではなくカナダドルで書かれた仕掛けの領収書も正確に読み取っていました。非常に印象的です。「シートにエクスポート」をクリックすると、スプレッドシートが開いてきれいにまとまっています。

画像解析ができるので、ウォーリーを探せの写真を入れて、ウォーリーを見つけて丸をつけてもらいましょう。Proモードで実行してみます。残念ながら、結果は非常にがっかりするものでした。ウォーリーはこの写真にいないと言ってきたのですが、実際にはいます。これは典型的なハルシネーションの例で、完全に間違った答えを作り上げてしまっています。

動画解析からのアプリ生成

Gemini 3.1の素晴らしいところは、画像だけでなく動画や音声も解析できるという点です。まず、日本の地震シミュレーションの解説動画をアップロードして、その動画をもとにアプリを作ってもらいます。動画の内容はこんな感じです。日本のインタラクティブな地震可視化ツールを作ってほしい。日本地図に主要都市を表示して、左サイドバーでマグニチュードなどの設定を調整できるようにする。地図上をクリックすると地震が発生し、波紋が広がって各都市に到達し、マグニチュードに応じてその被害を計算する。

ポイントは、プロンプトにテキストで何も具体的な内容を書いていないということです。日本も地震も指定していません。動画を実際に見て、すべてを自分で把握しなければなりません。実行してみると、なんとこんなものができました。実際に動作するか試してみます。地図上をクリックすると地震がシミュレートされます。クリックすると、自動的に日本地図を引っ張ってきてくれました。マグニチュードを上げると、より大きな影響が出ます。マグニチュードを小さくすると、主要都市にはあまり影響がありません。マグニチュード9まで上げてどこかをクリックすると、これがすごいことになりますね。動画で指定した内容を完璧に再現しています。


HubSpotによるスポンサーコーナー

ところで、リサーチに何時間もかかっているのに表面しか掘り下げられていないと感じているなら、リサーチと情報収集のやり方が根本から変わるものをご紹介します。「20分で10時間分のリサーチを行う方法——マーケター向けGoogle GeminiとNotebook LMガイド」by HubSpot です。概要欄から無料でダウンロードできます。

AIリサーチツールを活用して、以前は何時間もかかっていた作業をわずか数分に圧縮し、どんなトピックでも数ヶ月ではなく数日以内にトップ10%の専門家レベルに到達できるようになります。チーム全員が処理する以上のソースを扱い、人間では見落としがちな情報のパターンも発見できます。Geminiのディープリサーチ機能を使って数十のソースから包括的な情報を収集するステップバイステップの手順と、Notebook LMを使ってその生データをAI要約やパーソナライズされたオーディオ概要として活用可能なインテリジェンスに変換する方法が掲載されています。

個人的に一番好きなセクションは、コンテンツ制作から競合インテリジェンス、危機対応コミュニケーション計画まで、このリサーチスタックの11の実践的な活用例が紹介されているところです。実際のマーケティングシナリオでこれらのツールをどう実装するかが具体的に示されています。HubSpotが作成した資料で、概要欄のリンクから無料でダウンロードできます。


教育コンテンツ生成

次のデモです。自分や子どものためにパーソナライズされた教育コンテンツを簡単に作れます。例えば、子ども向けの化学の楽しい教育コースを複数レッスンで作ってもらい、実際の画像とインタラクティブな視覚演習を入れてもらいましょう。結果はこちら。3つのレッスンが用意されていて、実際の画像も使われています。

最初のレッスンを始めてみます。水素と酸素を加えて水分子を作るというものです。やってみると、水分子が完成しました。アニメーションも非常にスムーズです。次のレッスンは固体・液体・気体。ここで画像の読み込みに失敗していますね。物質の状態を選ぶ問題では、適当に入力してみても動きます。最後のレッスンは「不思議な反応」。ビーカーで材料を混ぜてみます。もう一度混ぜてみましょう。今度は酢と食器用洗剤を混ぜてみます。何も起きませんでした。食器用洗剤と食用色素を混ぜると、魔法のようなカラフルな泡が出てきます。これはほんの一例で、プロンプト1回で生成したものです。もちろんさらにプロンプトを重ねて、レッスンを増やしたり、より詳細にすることもできます。

ゲーム生成テスト

次はゲームのコーディング能力を試してみましょう。スーパーマリオに似た2Dプラットフォームゲームを作って、見た目もすごくカッコよくして、すべてをスタンドアロンのHTMLファイルにまとめて、公開されているアセットやモデル、エフェクトを使ってほしい、と指定します。

結果はこちら。スタートを押してみると、見た目がかなりスーパーマリオに似ています。効果音までついています。落ちるとゲームオーバーになりました。プロンプト1回で、敵・コイン収集・効果音を備えた完全に機能する2Dプラットフォームゲームができてしまいます。もちろんさらにプロンプトを加えて、マルチレベルにしたりゲームの仕様をカスタマイズすることも可能です。

科学・医療分野の能力

次に後ほど触れますが、Gemini 3.1は科学的な知識と推論が非常に得意です。医療の例として、デュシェンヌ型筋ジストロフィーにおけるジストロフィン欠損の分子病理を分析して、治療法を比較し、最近の試験から長期的な機能的転帰を評価して、きれいな表とグラフも含めてほしい、と指示します。キャンバスをオフにして実行してみると、分子病理学の詳細な説明に続き、DMD治療法の比較分析が非常に充実した表で示されています。シートへのエクスポートもできます。

長期的な機能的転帰の部分もあります。Gemini 3.1の良いところは非常に簡潔であることです。余計な情報や埋め草がなく、質問に直接答えてくれます。機能的な乖離を示す別の表もあり、これもシートにエクスポートできます。シンプルにまとまっています。これには正解はなく、どの上位AIモデルも情報の統合はできます。どんな雰囲気を求めるかによって変わってきますが、Gemini 3.1は簡潔さが際立つ一方、他のモデルはより詳細で丁寧な回答をする傾向があります。

スペックと主要ベンチマーク

さて、ここまでがデモのハイライトです。次にGemini 3.1 Proのスペックを見ていきます。テキスト・画像・音声・動画を入力として受け付けることができ、コンテキストウィンドウはなんと最大100万トークン。これはプロンプトに一度に入れられる情報量の指標で、Geminiは断トツで最大の100万トークンを誇ります。これは約70万ワード、中規模のコードベース、または1時間以上の動画に相当します。他の多くの上位AIモデルはこれよりずっと小さいコンテキストウィンドウしか持っていません。

アーキテクチャについてはGemini 3をベースとした段階的な改良であり、大幅な変更ではないとのことです。現時点ではGeminiアプリでアクセスでき、今回ご紹介したデモのほとんどもこちらで行いました。また、学習や学習ノートの作成に便利なNotebook LMでも使えるようになっています。開発者向けにはGoogleのAI Studio、Gemini CLIのほか、Cursorによく似たGeminiベースのIDE「Anti-gravity」でも利用可能です。Android StudioやエンタープライズプラットフォームでもすでにGemini 3.1 Proが使えます。

ベンチマーク比較

では実際の性能を見ていきましょう。Anthropicのclaude-opus-4-6 Thinking Max、OpenAIのGPT-5.2 Extra High、GPT-5.3 Codex Extra Highなどのトップモデルとのベンチマーク比較です。ほとんどの指標でGemini 3.1 Proが上回っています。

Humanity’s Last Examでは、ツール使用なしで最高スコアを記録しました。これはAIがかなりマニアックな分野の知識を持っているかを試すベンチマークです。サンプル問題を見るとほとんどの人が答えられないような深い科学的知識が問われていますが、ウェブ検索などのツールを一切使わずにGemini 3.1 Proが断トツで最高スコアを出しています。膨大な世界知識が詰め込まれているということです。

ARC-AGI 2では圧倒的なリードです。この表だけでは伝わりきらないので、ARC-AGI 2リーダーボードの別の表も合わせてご覧ください。Y軸がスコアです。Gemini 3.1 Proが最上位にいて、このラベルで隠れているclaude-opus-4-6さえ上回っています。その他のモデルはずっと下の方に位置しています。

なぜこれが重要なのか。ARC-AGI 2ベンチマークは視覚パズルを解く能力を測るものですが、それだけではありません。まず問題と答えのペアが与えられます。例えば、青い四角はすべて左に引き寄せられ、赤い四角はすべて右に引き寄せられるというルールが示されます。そして新しい問題が出て、このパターンからルールを適用して答えを出さなければなりません。これが難しいのは、AIモデルは基本的に新しいことを学べないからです。学習が終わると重みとパラメータが固定されるため、こういった未見のパターンを吸収して答えに活かすのは非常に難しいとされています。だからこそほとんどのモデルはこのベンチマークで低スコアになるのですが、Gemini 3.1 Proは最上位に位置しています。訓練データで見たことのない新しいパターンを実際に学習して活用できるという、ある種の創発的な能力を持っているようです。

GPQA diamondベンチマーク(大学院レベルの科学的知識)でも圧倒的な性能を発揮しています。Terminal BenchなどのエージェントコーディングベンチマークやLong Context Performance——70万ワード近い大量の情報を入力した場合でも正確に分析できる能力——においても非常に優秀です。

独立系評価と価格比較

これらはGoogleによる自己申告のベンチマークです。独立系の評価機関の結果も見ていきましょう。こちらの独立系リーダーボードによると、Gemini 3.1 Proは知能指数で断トツのトップです。claude-opus-4-6 MaxやGPT-5.2 Extra Highをはるかに上回り、現時点で使用可能な最高のモデルと評価されています。しかもコスト効率も非常に優れています。claude-opus-4-6やGPT-5.2、Grok 4より賢いにもかかわらず、価格は安く、パフォーマンスとコスト効率の両方でトップのクローズドモデルということになります。

一方、LM Arenaというリーダーボードでは、Gemini 3.1 Proはテキスト部門でclaude-opus-4-6に及ばない結果になっています。コーディング部門ではGPT-5.2よりも下にランクされていて、ビジョン部門でも前バージョンのGemini 3 Proを下回っています。

このようにリーダーボードによって結果がバラバラになっているので、モデルの実力を正しく把握するには複数のリーダーボードを参照することが重要です。SWE-benchやLiveBenchなどについては、この収録時点でまだGemini 3.1 Proのデータが公開されていませんでした。

ハルシネーション率

Gemini 3.1のもうひとつの優れた点がハルシネーション率の低さです。AI Omniscienceのハルシネーション評価を見ると、Gemini 3.1はclaude-opus-4-6やGPT-5.2など他の上位モデルよりもはるかに誤った情報を生成しにくいことが分かります。もちろん一定の割合では起きますが。なお、スコア50%というのはハルシネーションが50%の確率で起きるという意味ではなく、このベンチマークで50%の問題に誤答したという意味です。

もし最もハルシネーション率の低いモデルを求めるなら、先週リリースされたオープンソースのGLM5が最善の選択肢です。これは本当に優秀です。

まとめ

以上がGemini 3.1 Proのレビューです。現時点で使えるモデルの中で最も知的で高性能なものの一つであり、すでにGeminiアプリで試すことができます。ぜひ使ってみて、感想を教えてください。引き続きAIの最新ニュースやツールをお届けしていきますので、気に入っていただけたらいいね・シェア・チャンネル登録をよろしくお願いします。

AIの世界では毎週あまりにも多くのことが起きていて、YouTubeチャンネルだけではすべてをカバーするのは不可能です。最新情報をしっかり追いたい方は、無料の週刊ニュースレターにもぜひ登録してください。リンクは概要欄に記載しています。ご視聴ありがとうございました。また次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました