Gemini 3が示す、これまで見たことのない知能レベル(Gemini 3解説)

Google・DeepMind・Alphabet
この記事は約24分で読めます。

GoogleのGemini 3は、マルチモーダル理解と推論能力において前例のないレベルに到達したAIモデルである。PDFから教育アプリを生成し、動画分析を通じて専門的なコーチングを提供し、手書きスケッチから動作するウェブサイトを構築するなど、その能力は多岐にわたる。コーディングベンチマークではClaude Sonnet 4.5と競合し、Arc AGI2などの高難度推論タスクでは大幅なリードを示している。Google検索に統合されたAIモード、Gmail管理のエージェント機能、そして新開発環境Antigravityの導入により、Gemini 3はチャットボットから真のデジタルワーカーへと進化を遂げた。一部の視覚認識における限界は残るものの、このモデルは人間レベルの問題解決能力に近づきつつあり、AI技術における大きな飛躍を示している。

Gemini 3 Shows a Level of Intelligence We Haven’t Seen Before. (Gemini 3 Explained)
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

Gemini 3の登場とその衝撃

さて、Google Gemini 3がついに登場しました。このモデルは確実に期待に応えるものとなっています。複数の異なる項目でベンチマークを破り、現在アクセスできる最も知的なモデルとなっています。では、本当に知っておくべきすべてのことに飛び込んでいきましょう。2秒間だけ、このGoogleの短いイントロをお見せしてから、本当にジューシーな部分に入っていきます。

Geminiは最初からマルチモーダルでした。Gemini 1モデルは、膨大な量の情報を見て、聞いて、理解し、ネイティブにモダリティを超えて生成することができました。Gemini 2は、高度な推論で次のステップを踏み出し、AIエージェントが考え、コーディングし、行動を起こすことを可能にしました。私たちはGemini 3でこれらすべてを次のレベルに引き上げています。

Gemini 3は、マルチモーダル性と推論において世界最強のモデルです。あらゆるアイデアを実現するのに役立つ、私たちの最も知的なモデルです。本日から、Gemini 3を製品に展開していますので、自分自身で体験できます。

マルチモーダル理解の驚異

まず最初に皆さんにお見せしたいのは、マルチモーダル理解です。ほとんどの人は、文字通りPDFを入れて、何かについて学びたいと言えば、そのPDFの中身を正確に視覚化してくれることに気づいていません。GoogleはただのGoogle Docs 3Dビジュアルを表示しているのではありません。これは、これまで見たことのないレベルでの真のマルチモーダル理解なのです。PDFとその背後に隠されたテキストを理解しています。それを見ているのです。

コードを作成しています。単に言葉を読んでいるだけではありません。すべてを完全に理解しているのです。そして、ゼロから教育アプリ全体を構築しています。説明でもなく、要約でもありません。完全なUI、クリーンなレイアウト、ナビゲーションボタン、タイプスタイル、タイポグラフィを備えています。これは本当に、本当にクールです。

視覚学習者にとってゲームチェンジャーとなる3D視覚化さえも搭載しています。ゼロショットでデザインを完璧に仕上げることができるというのは、完全に狂気の沙汰です。これは、本当に人々を助け始める種類のものです。AIモデルが論文を読み、核心となるアイデアを理解し、視覚的な解説を構築し、それをアプリに変え、すべてステップに分解してコンセプトをガイドしてくれる、これが初めてのことです。

これまで、これほど速く効率的にこれらすべてを行えるAIを持ったことはありませんでした。確かに、Claudeは存在していましたが、Gemini 3がマルチモーダル能力により理解できるレベルは完全に狂気的です。そして皆さん、これはマルチモーダルモデルだということを覚えておいてください。だから、これは完全に群を抜いているのです。

ほとんどのモデルは、クロスモダリティベンチマークに関してはこれほど優れていません。なぜなら、本当に見ることも聞くこともできないからです。しかし、Googleはその分野で完全に異なっています。

動画分析による革新的なコーチング

Gemini 3の狂気のマルチモーダル性について話したばかりですよね。Gemini 3はさらにクレイジーになります。完全な動画を分析できるからです。そうです。Geminiは非常に長いコンテキストウィンドウを持っており、これはマルチモーダル能力を使って実際に動画を見て、本当に良いアドバイスを提供する方法で分析できることを意味します。

Geminiは単に色や形を見ているだけではありません。スタンス、パドルの角度、フットワーク、タイミング、反応速度、ポジショニングを分解しています。これは生体力学的分析であり、コーチだけができたものです。AIは動作そのものだけでなく、動作のパターンを見ているのです。

そして覚えておいてください、GeminiはAIです。あなたが気づかないことさえも拾い上げることができるでしょう。人間は自分自身の録画を見ないと見逃すことがあります。しかし、Geminiは小さな手首の傾き、前に傾きすぎること、一貫性のないフォロースルー、遅いスプリットステップ、非効率的なスイングアークをキャッチできます。

誰かがパドルをプレイして、Geminiに「どうすれば改善できますか?」と尋ねるこの例は、動画分析があなたのために実際に何ができるかのはるかに大きな例です。これは誰もが利用できる技術だということを理解しなければなりません。誰もがピクルボールコーチ、プレイする友人、クラブメンバーシップ、またはマンツーマントレーニングの時間を持っているわけではありません。そしてGeminiは基本的に10秒のクリップをパーソナライズされたコーチングセッションに変えることができ、スキル向上を民主化しています。

あらゆる分野への応用可能性

これについて考えてみてください。ピクルボールができるなら、テニスもできるし、バスケットボールもできるし、ゴルフスイングもできるし、フットボールもできます。これは、熟練したトレーナーのように振る舞えるAIコーチへのステップです。そして覚えておいてください、マルチモーダル理解はピクルボールの分析で止まる必要はありません。あなたの話し方、歩き方を分析できます。

それができることは100万通りあります。もしかしたらジムにいて、フォームを分析してくれるかもしれません。マルチモーダル能力は本当に、想像力だけが唯一の制限となる広範な能力を解き放ちます。

さて、もう一度、マルチモーダル能力にさらに深く飛び込むと、Google AI Studioを持っている場合、後で少し詳しく説明しますが、Gemini 3にアクセスしてマルチモーダル能力を使用し、文字通りあらゆる画像をインタラクティブな作品に変えることは絶対に信じられないことです。

Gemini 3は、この雑然とした描画を見て、何がヘッダーで何がボタンかを理解し、それから全体をクリーンなHTML CSSに変えることができます。チェス盤のシンプルな写真を完全なビジュアルゲームに変えました。これは狂気的です。なぜなら、デザインからコードへのワークフローを1ステップで崩壊させるからです。つまり、Figmaが必要ないかもしれないし、Webデベロッパーが必要ないかもしれません。

それほど技術的である必要さえないかもしれません。文字通りアイデアを描いて、写真を撮るだけで、モデルがこれを動作するウェブサイトに変えてくれます。ほとんどのマルチモーダルモデルはウェブサイトを説明したり、その中のテキストを書き直したりできますが、レイアウトを解釈し、そのレイアウトを尊重する使用可能な実行コードを生成できるものはほとんどありません。

Gemini 3はここで、深い視覚理解、エージェンティックコーディング、クロスマルチモーダル一貫性を行っています。これは信じられないエンドツーエンドの製品作成です。アイデア、スケッチ、写真、ウェブサイト、完全にインタラクティブ。10のツールではなく、これはワンショットです。

Google AIモードの進化

これが、私が言ったように、新しい能力の領域を開くことになることを理解しなければなりません。これがマルチモーダルエージェンティックモデルであり、推論、コーディング、作成のあらゆるレベルで物事を行うことを可能にする広範な能力を持っているという事実を本当に、本当に把握してください。そうすれば、あなたが成し遂げる必要があることを本当に成し遂げられます。

さて、ほとんどの人が存在することを知らない1つの機能は、GoogleのGoogle 新しいAIモードです。これはGoogle検索に直接組み込まれた実験的機能で、従来の検索体験を会話型のAI駆動アシスタントに変換します。単にリンクのリストを返すのではなく、AIモードはGoogleのGeminiモデルを使用して、質問に対する包括的で統合された回答を生成します。多くの場合、リアルタイムデータ、画像、さらには製品リストを含む複数のソースから情報を引き出します。そしてこれにより、検索がより直感的で、ダイナミックになり、チャットインターフェースのような複雑なマルチステップクエリを処理できるようになります。

良いことに、今では思考が有効になっています。つまり、AIモードはGeminiの高度な推論とマルチモーダル能力を活用して、質問を深く理解しているということです。タイプ、音声、または画像をアップロードしても、何かを尋ねると、システムはクエリをサブトピックに分解し、複数のストーリー、複数のソースを同時に検索し、結果を明確な会話型の回答に統合します。

しかし今、あなたが見ることができる基本的な新しいアプローチは、Geminiがその場で物事を生成できるということです。EIモードは、よりインタラクティブになるように設計されており、ユーザーがトピックを深く探索し、ニーズを明確にし、会話が進むにつれて進化する真にカスタマイズされた応答を得ることができます。基本的には、質問に答えるだけでなく、より深く掘り下げ、オプションを比較し、さらには現実世界の行動を取るのを手伝ってくれる知識豊富なアシスタントを持っているようなものです。

これは、クリエイティブまたは分析的な助けを得るために、もはやアプリやプラットフォーム間を飛び回る必要がないことを意味します。すべてがGoogle検索の中で起こり、体験がよりスムーズで直感的になります。だから、Google検索が変わることを理解しなければなりません。Gemini 3がそこに埋め込まれています。

検索から生成アシスタントへの転換

そしてこれは、受動的な情報検索から、ユーザーが答えを見つけるだけでなく、作成、探索、行動するのを助けるように設計されたアクティブな生成アシスタントへのシフトです。検索をはるかに強力で、柔軟で、パーソナライズされたものにします。私にとって、おそらくこれをほぼ毎日使うことになると思います。なぜなら、初期の頃、AIモードは本当にひどかったと感じていますが、今Gemini 3を使えば、この種の検索は打ち負かすことができないからです。

さて、Gemini 3と改善されたツール使用を組み合わせることで、Gemini 3はあなたに代わって複雑なアクションを実行できます。これはGemini 3があなたの受信箱を整理している例です。GoogleのAI Ultraサブスクライバーは、今日Geminiアプリで、Geminiエージェントを使ってこれらのエージェンティック能力を試すことができます。基本的に、Geminiはもはや単なるチャットボットではありません。進化したのです。真のデジタルワーカーです。

そして正直なところ、非常に印象的です。ほぼ誰もがGmailを持っていて、今ではそれが推論し、ただ返信するだけでなく行動を起こすことができることを理解しなければなりません。それができる最も重要なことは、あなたのメールを理解することです。コンテキストを理解し、何が重要かを決定し、独自に受信箱内でアクションを実行できます。

これは、Googleが個人アプリ内で実際の自律性を示す初めてのことです。皆さんはどうか知りませんが、これはおそらく膨大な時間を節約してくれるでしょう。人間のアシスタントのようなマルチステップ計画。これは信じられないことです。受信箱をスキャンし、異なるタイプのメールを分類し、タスクを特定し、優先順位で並べ替え、要約し、応答を生成し、どのツールを使用するかを選択します。基本的にこれは、人間の個人アシスタントが散らかった受信箱を処理する方法です。

エージェント機能の実現

そして、ワークフロー全体を理解できることは、単一のタスクだけでなく、信じられないことです。Gemini 3はここで、タスクを管理し、決定を下し、手取り足取り教えることなく指示に従い、外部ツールを正しく使用できることを示しています。これは基本的にGoogleのエージェント公開の瞬間です。

そして彼らは以前にいくつかのデモでこれを示していましたが、実際に効果的に利用されているのを見たことはありませんでした。だから、これは本当にクールで、私の受信箱は基本的にこの時点で混乱状態なので、これを使うのが待ちきれません。そして、時間が経つにつれてこれが進化することを期待しています。つまり、多くの場合、私たちのために仕事をするAIエージェントを約束されていました。

そして、Googleが複数の異なる領域にわたってGemini 3を埋め込んでいるだけで、これが私たちの日常生活の効率にどのように影響しているかを最終的に見始めることができると思います。

コーディング能力の飛躍

さて、Gemini 3のコーディングは絶対に信じられません。誰もがSonnet 4.5が何であるかを知っていますが、私が言うことを信じてください。Googleを甘く見てはいけません。エージェンティックコーディングと自律的なワークフローで、単一のプロンプトからマルチステップのコーディングプロジェクトを自律的に計画、足場を組み、実行でき、単一のファイルだけでなく、実行可能なWebアプリ全体を処理します。

また、バイブコーディングでもあなたを助けることができます。Geminiができることは非常に狂気的です。私はしばらくTwitterを見ていますが、さまざまな例の量は本当に、本当に信じられないものです。

モデルは、巨大な100万トークンのコンテキストウィンドウもサポートしており、コードベース全体または非常に大きなエンジニアリングドキュメントを読み、消化し、推論することができます。これはレガシーコード移行、ソフトウェアテスト、コードレビューにとって重要な要素です。

そしてGemini CLIを通じて、複雑なUnixシェルコマンドまたは自動化スクリプトが平易な英語の要求から生成され、フォーマットされた出力が読みやすい説明に返されます。これができることは本当に本当に信じられないことです。コーディング関連のほぼすべてのベンチマークでトップティアの結果を提供します。

皆さんに正確に何を意味するかをお見せしましょう。この種の奇妙なクロップについてお詫びしますが、モデルがコーディングでいかに強力かを本当に示す唯一の方法でした。ここには、最も重要なコーディングベンチマークと言える3つがあります。LiveBench Pro、Terminal Bench 2.0、FWE Bench verifiedがあります。

Googleは基本的に今、これらすべてのベンチマークでナンバーワンのリーダーです。なぜそれが大きな問題なのか説明させてください。1番目は、ライブコードベンチプロです。これは競技コーディングの難易度です。純粋なアルゴリズム問題解決でモデルはどれだけ賢いでしょうか?これは、AIにCode ForcesとICPCレベルのプログラミング問題、トップ競技プログラマーが解決するのと同じ残酷なパズルを与えるようなものです。

より高いELOは基本的に、より強い生の知能を持っていることを意味します。Gemini 3.0が2,439で登場し、他のモデルのほぼ2倍であることは非常に信じられないことです。ちなみに、2,000以上はエリート人間競技者です。これは単にコーディングが得意なだけでなく、戦略的で数学的に鋭いことを意味します。

Terminal Bench 2.0は、基本的に、モデルが本物のコンピュータを使用する本物の開発者のように振る舞えるかと言っています。これはエージェンティックターミナル使用と実際のシェル環境の使用を測定します。これは、コードを書いているのではないことを意味します。フォルダをナビゲートし、コマンドを実行し、パッケージをインストールし、ファイルを編集しています。そしてターミナルを通じてエラーも修正しています。

基本的に、実世界のエンジニアのようなものだと考えてください。そしてGemini 3は再び54.2%のスコアを記録しています。これは以前のモデルからの大きなジャンプです。そしてこれは基本的に、AI開発者エージェントを予測するベンチマークです。つまり、ジュニアエンジニアを置き換える能力がここで本当に本当に示され始めているということです。

そしてもちろん最後のものはSW bench verifiedです。モデルはGitHubプロジェクトの実際のバグを1回の試みで修正できますか?SWB benchは実際のGitHubリポジトリと実際の歴史的なバグを使用します。AIに壊れたリポジトリを与え、テストに合格する実際のパッチを生成しなければなりません。

ここでGemini 3.0 ProがClaude Sonnet 4.5のすぐ後ろに来ていることがわかります。ただし、モデルの前回のイテレーションからの驚くべきジャンプだと言えます。そして正直に言うと、他のモデルから文字通り1%しか遅れていません。だから、正直に言えば、それほど大きな違いには見えません。

実際の使用感と今後の展望

しかし、私たちが見なければならないのは、モデルの実際のバイブです。つまり、ユーザーがモデルがどのようにコーディングしていると報告しているかということです。これまでのところ、両方をテストしましたが、コーディングする予定の本当にクレイジーなプロジェクトはありませんが、本当に違いが見えません。

しかし時間が経つにつれて、それらの違いがますます顕著になり始めるでしょう。しかし、Gemini 3.0がターミナルベンチとライブコードベンチプロでより優れていることを考えると、全体的により堅牢なレベルの知能を持っていることを考えると、時間が経つにつれて人々がこれらの他のモデルよりもGoogle Geminiを好まないわけがありません。

さて、Googleがコードに関して行ったのはそれだけではありませんでした。Googleはまた、新しいエージェンティック開発プラットフォームであるAntigravityを立ち上げました。これは基本的に、コードを提案するだけでなく、実際にタスクを実行できるAIコーディングアシスタントのGoogleバージョンです。CursorやWindsurfを考えてください。しかしGoogleからです。

だから、基本的に複数のAIエージェントと同時に作業し、複数のコーディングアシスタントが一緒に作業し、IDE、つまりコードエディタの上に構築されています。そしてこれはGemini 3.0 Proを使用しています。見てください。Googleは基本的にここでCursorを追いかけています。

コーディングのためのモデル知能のすべての突破口は、開発がどのようなものであるべきかを再考することを私たちに促します。Gemini 3は私たちの最新のそのようなモデルの進歩です。だから私たちは、IDEの次のステップチェンジを構築するために出かけました。Google Antigraphをご紹介します。このエージェンティック知能の次の時代のための新しい作業方法です。これは理想的なエージェンティック開発ホームベースです。

IDEがありますか?はい、しかしそれ以上のものがたくさんあります。私たちはコアIDから始めて、ブラウザ使用、非同期対話パターン、追加の新しいエージェントファーストの製品形式要因などのIDEをエージェントファーストの機能に進化させる部分を追加しました。離陸を体験するのに役立ちます。

あなたの新しい焦点は、すべての単一ステップを実装することではなく、ソリューションを設計することです。だから、おめでとうございます。あなたはエージェントのマネージャーに昇格しました。エージェントがツールの中に住むのではなく、ツールは今や多くのエージェントのための手段です。

エージェントは、実装計画を作成し、複数の表面を活性化してリクエストを完了することにより、自律的に作業を開始します。私たちのエージェントは、複雑なタスクに取り組み、並行してそれを行うことさえでき、これまで以上に出荷できるようになります。

一目でコード品質を確認してから、絶対的な自信を持って出荷できます。エージェントは自動的にバグ修正のブラウザスクリーンショットや、機能実装のスクリーンレコーディングさえも撮ることができ、作業が完了しテストされたことを証明します。これらの即座の検証可能な成果物を提供することにより、何時間もの手動レビューなしで自信を持ってコードを信頼し、マージできます。

Antigravityは、エージェントの90%ソリューションを100%まで簡単にガイドすることにより、ほぼ完璧な結果を磨こうとする痛みを排除します。さて、エージェントがNano Bananaでランディングページのモックアップを作成し、今UIの調整をしたいとしましょう。デザイナーのように視覚的なコメントを提供でき、問題がある場所に正確にフィードバックを残すことができます。

そして、コードの差分やブラウザ使用のスクリーンレコーディングに対するフィードバックにもコメントを残すことができます。これはエージェントとのコラボレーションのまったく新しい方法であり、あなたはそれを気に入るでしょう。以前あなたを抑えていたものに別れを告げてください。Google Antigravityへようこそ。

ベンチマーク性能の詳細分析

さて、もちろん、このビデオでやりたかったことは、私たちの一部が注目したいよりクレイジーなベンチマークに飛び込む前に、Gemini 3.0が実際にあなたのために何ができるかの生の能力に焦点を当てたかったのです。つまり、正直なところ、このリストには、Gemini 3.0が打ち負かされる例がほとんどありません。そしてGemini 3が勝利を収める例では、正直なところ、かなり大差です。

さて、私は実際にいくつかの最も重要なベンチマークに飛び込むつもりです。なぜなら、ほとんどの人がこれらを見逃すでしょうが、Googleがどれだけ先を行っているかを本当に示しているからです。これはモデルの3回目のイテレーションであり、あらゆる点で、Bardからここまで来たのは信じられないことです。正直なところ、彼らはかなり遅れていましたが、今ではパックをリードし、革新し、人々にまさに彼らがすべきことを示しています。

まず最初はLM Arenaです。これは、同じプロンプトを使用してモデルの出力間の1対1のバトルに関する実際のユーザーフィードバックを通じて、AIモデルを評価し、ランク付けするために使用されるオープンなコミュニティ主導のベンチマークプラットフォームです。基本的に、同じプロンプトを使用して2つのAIモデルを匿名で対戦させます。ユーザーは、有用性、明確性、創造性などの基準に基づいて、どちらの答えがより良いと信じるかを投票します。

そして各アップボートは、ELレーティングシステムを使用して動的リーダーボードを更新します。だから、ここで本質的に、文字通り数時間前まで、Grok 4.1 thinkingがおそらく最高のモデルでしたが、今ではGemini 3.0 Proがリードしています。

これは少し主観的だと思います。なぜなら、はい、人々が実際に日常的にモデルを使用していて、実際にモデルを気に入っていることは重要ですが、このベンチマークはおそらく最も印象的ではないと思うからです。非常に印象的ですが、最も印象的ではありません。なぜなら、次にお見せするものは単に狂気的だからです。

これはArc AGI 2です。もし少し混乱して見えるなら、それは大丈夫です。Gemini 3.0 Proがかなり上位にあるという事実だけを見てください。だから、Arc AI2は基本的にAIにとって最も難しいベンチマークの1つと考えられています。なぜなら、モデルのコア推論能力と、標準的な暗記やパターンマッチングをはるかに超えた抽象的な問題解決と適応性をテストするように設計されているからです。

人間にとっては簡単だが現在のAIシステムにとっては非常に難しいタスクを意図的に特徴としており、基本的に以前のベンチマークが見逃したか過小評価した弱点を強調しようとしています。問題は、現在のベンチマークが本当に飽和状態になっているため、現在のAIが苦労するものを作らなければならなかったということです。

さて、皆さん覚えておいてください。ARC AGI2ベンチマークの各タスクには新しい推論が必要です。基本的に、基礎となるルールを推測し、非常に少数の例から一般化することを要求する視覚的タスクです。そして本質的に、彼らはモデルがその場で考え、人間のように振る舞うことを望んでいます。

だから、Gemini 3.0 Pro、少なくともDeep Thinkが、Rhi2ベンチマークで文字通り他のどのモデルよりもマイル先を行っていることがわかります。能力の文字通りの飛躍的前進です。そして私は、これが非常に重要な1つだと主張します。なぜなら、ARC AGI2ベンチマークは重要だからです。それは、Gemini 3 deep thinkが実際に人間のベースラインに近づいていることを示しているからです。

人間はこのベンチマークで平均約60%であり、45%に達することは、AIを利用可能な最も難しい推論の課題のいくつかで高度な人間問題解決者の範囲に持ち込みます。これは、彼らが予想される数年の進歩を文字通り1つのモデル世代に圧縮していることを意味します。それはクレイジーです。

あなたは理解していないと思います。そして、それはこのモデルが真のマルチモーダルエキスパートだからだと思います。もしこれらのArc AI質問がどのように見えるのか疑問に思ったことがあるなら、人々はそれについて話す傾向があるので。これはそれがどのように見えるかです。これを正確にどのように解決するか説明するのに時間を費やしません。

つまり、ビデオを一時停止して自分で解決してみることができますが、これらはAIが苦労する種類の質問です。

Vending benchは、LMが自動販売機をどれだけうまく管理できるかをテストするように設計されています。そしてアイデアは、自動販売機をどれだけうまく管理できるかだけではなく、基本的には短い孤立したタスクから離れ、AIが何千ものステップにわたって一貫性があり、論理的で、収益性の高い決定を維持できるかどうかを確認することです。単一の実行でビジネス運営の数ヶ月をシミュレートします。

今、AIエージェントは日常的だが独立したタスクを実行しなければなりません。プロジェクトを注文し、在庫を管理し、価格を設定し、毎日のイベントに対応します。などなど、退屈な退屈なビジネスのものです。しかし、ベンチマークは長期的な一貫性、エージェントが整理された状態を保ち、未処理の注文を覚え、戦略を適応させ、メルトダウンを避ける能力を強調します。

そして、ここで他のモデルと比較して、時間とともにバランスを本当に増やし始める唯一のモデルがGemini 3.0 Proであることがわかります。だから私は、このモデルが推論能力の真のジャンプだと思います。これらのベンチマーク、Arc、AGI 2、Vending Bench、これはモデルの真の生の能力が輝き始めるところです。

これは、モデルが他の人間ができることを実際に始めることができる人間レベルの領域に入るところです。Gemini、GPT 2 5.1、Claude Sonnet 4.5のような他のモデルは馬鹿げて賢く、時間とともにバランスをわずかに増やしていることがわかりますが、Gemini 3では、チャートが他のどのモデルよりもはるかに急勾配で上昇していることを文字通り見ることができます。

さて、ほとんどの人が見逃したもう1つのベンチマークは、ブラウザ使用です。だから、もう一度、他のフロンティアモデルからの巨大なジャンプが見られます。Gemini 3.0 thinkingは72.9%です。そして、ブラウザが何を使用するかわからない場合、これは基本的にLLMまたはエージェントが自然言語の指示を使用してWebブラウザと対話し制御することを可能にするオープンソースのAIフレームワークです。

基本的に人間のようなWeb活動と自動化をシミュレートします。だから本質的に、彼らが試みていることは、AIが人間のようにコンピュータ/ブラウザをどれだけうまく制御できるかを見ることです。そしてもう一度、前世代のモデルと比較して、Geminiシリーズのモデルからの大規模なジャンプが見られます。

正直なところ、これほど大きなジャンプになるとは思っていませんでしたが、モデルがマルチモーダル能力の点でそれほど優れていることを考えると、これらすべてのエージェンティック能力で設計されていることを考えると、それが単にその次のステップを本当に進むことは理にかなっています。

もちろん、Gemini 3とGemini Deep Thinkがありますが、基本的に本当に本当に賢いモデルです。Deep Thinkは基本的に、最も困難なAIベンチマークのいくつかで優れており、議論することがたくさんありますが、正直なところ、これのスクリーンショットを撮って1分間見れば、モデルがどれだけ先を行っているかがわかります。

私はすでにGemini 3がどのようなものかについて多くを語ってきましたし、他のAIベンチマークでこれについてすでに話しましたが、Deep Thinkが本当に本当に一歩先を行っていることがわかります。だから、RAWモデルがそれほど先を行っているという事実は、正直なところ、Googleがこれを行うことができたのは非常に驚くべきことです。そしてその上に思考を追加すると、能力はさらに飛躍します。

限界と今後の課題

さて、私たちはこのモデルができることについてかなりの時間話しました。では、このモデルは何ができないのでしょうか?私が見たかったことの1つは、モデルが何ができないかでした。そして最終的に、Twitter上のこの写真に出くわしました。これは、おそらくAI生成画像の指の束です。

そして私はこのモデルに何度も尋ねました、皆さん。異なるプロンプトを試しました。異なる推論方法を試しました。「何本の指ですか?各指を数えてください。ステップバイステップで考えてください」と言いました。しかし、それはしませんでした。このモデルに5本以上の指があることを理解できませんでした。

さて、これはGemini 3.0がここで行っていることを軽視するためではなく、何が起こっているかの生の理解に関して、LLMが人間とどれほど異なるかを皆さんに示すためだと思います。8本の奇妙に重なり合う指を明確に見ることができますが、LLMは幻覚を見ることができません。そしてそれは、LLMが手や指のクリーンな3D表現を持っていないことが多いからです。彼らはこの部分が指Aに属し、この部分が指Bに属するというようには見ていません。彼らは単にローカルエッジ、テクスチャ、肌の曲線、関節、影を見ています。

だから指がこのように重なっていると、モデルは単にそれらをより少ない特徴に崩壊させ、手が本質的により少ない指を持っていると考えます。だからモデルは基本的に、7本から8本見えるときでも、5本の指があることを非常に確信していると言います。だから、これらのビジョンモデルは時々、ビジョンが苦労しますが、これはおそらく将来のバージョンで解決されるであろう本当のエッジケースだと思います。

しかし、これを見せたかったのは、それが本当にこれを解決できなかったことがかなり面白いと思ったからです。そしてそれはそれほど難しいタスクには見えませんでしたが、そこにありました。だから、Gemini 3.0 Proで皆さんが何をするか教えてください。このテーマに関するビデオがもっと来るでしょう。

コメント

タイトルとURLをコピーしました