Gemini 2.5がレベルアップしました。そして、それは怪物級です

11,752 文字

Gemini 2.5 just leveled up. And it’s a BEAST

Google Gemini 2.5 Pro 05-06 full review. #ai #aitools #ainews #chatgpt #videcodingDownload the free “Google Gemini at Wo...

なぜここに木の写真があるのでしょうか？それについては後ほどお話します。Googleは最もスマートなAIモデルであるGemini 2.5 Proをさらに改良しました。紛らわしいことに、2.6 Proと呼ばずに、引き続きGemini 2.5 Proと呼んでいますが、末尾に0506が追加されました。これはリリース日を示しています。
このモデルは本当に印象的です。LM Marinaリーダーボードのすべてのカテゴリーで圧倒しており、最も性能が高く、最も知的なAIモデルとなっています。このビデオでは、その使い方と使用場所をお見せします。さらに、いくつかの素晴らしい機能も紹介し、もちろん、スペック、性能、ベンチマークスコアについても説明します。早速始めましょう。
このビデオのスポンサーであるHubSpotに感謝します。まず第一に、どこでこれを使用できるのでしょうか？少なくともこの録画時点では、Googleの「AI Studio」でのみ利用可能です。リンクは説明欄に記載します。右上のモデルドロップダウンに、この新しいGemini 2.5 Pro0506が表示されるはずです。
GoogleのGeminiモデルを使用できるもう一つの場所は、Geminiプラットフォームです。こちらも説明欄にリンクを記載します。URLはgemini.google.comです。しかし、モデルドロップダウンを選択しても、少なくとも現時点では、この2.5 Proが最新の0506バージョンかどうかは明確ではありません。そのため、このビデオでは主にAI Studioを使用していくつかの素晴らしい例をお見せします。
これは私が個人的に好む方法です。なぜなら、Gemini 2.0 Flashからの非常に強力な画像エディタを含め、これらの異なるモデル間で切り替えることができるからです。そして、この最新のGemini 2.5 Proについて注目すべきは、100万トークン以上のトークンウィンドウを持っていることです。これは基本的に一度にプロンプトに入れることができる情報量です。
100万トークンは約70万語または1時間の動画に相当します。これは他の主要なAIモデルが一度に取り込める量の5倍です。また、応答の創造性を決定するこの便利な温度スライダーもあります。例えば、これを2まで全部右にドラッグすると、プロンプトに忠実に従わなくなり、より創造的になることができます。
これを完全に左にドラッグすると、プロンプトをより文字通りに処理します。今回は、デフォルトの1のままにしておきます。そして、ここにはさまざまなトグルもあります。構造化出力は基本的にAIに応答を構造化された方法でフォーマットするよう強制します。
例えば、JSONのみを出力したり、指定した列のデータテーブルを出力したりしたい場合は、このトグルをオンにするといいでしょう。コード実行については、これによりGeminiがプロンプト内のコードを実行することができます。そして関数呼び出しについては、これを有効にすると、AIは情報を取得するために外部ツールやAPIを使用できます。
最後にこれも非常に便利です。これをオンにすると、基本的にGoogleで検索して最新の情報を取得できます。Gemini 2.5 Proを含む主要なAIモデルは、すでにエッセイの作成や単純なQ&Aなどの簡単なことができることに注目してください。そのような単純なものを求めている場合は、これらのモデルのどれを使用しても実際には問題ありません。
どれも非常に優れています。しかし、Gemini 2.5や03、04 Miniを含むトップモデルが特に役立つのは、思考し推論する能力と、コーディング、数学、科学などのSTEM科目のより複雑な問題を解決する能力です。このビデオでは、主にそれを示します。
本当に難しいSTEM関連のプロンプトでテストします。さらに、Geminiの素晴らしいところはマルチモーダルであることです。音声、画像、ビデオなど、複数のフォーマットを取り込んで理解することができます。実際、最初の例では、私が欲しいアプリの図を描いて、それが何をするべきかを説明するビデオを使用します。
まずビデオを再生してみましょう。「日本の対話型地震可視化を作成してほしいです。日本の地図がこのようにあるとします。まず、地図上に日本の主要都市をすべてリストアップまたは表示してほしいです。そして左側にサイドバーがあり、地震の規模などのさまざまな設定を調整できます。
これらは調整できる設定です。そして地図上のどこかをクリックすると、例えばここをクリックすると、地震が発生し始めます。それはゆっくりと波紋が広がり、これらの都市の一つに到達するまで広がっていくアニメーション効果になります。
地震の規模に基づいて、各主要都市への影響の深刻さを計算してほしいです。」このビデオをYouTubeにアップロードしました。そして、このようにYouTubeのリンクをここに貼り付けます。自動的にYouTubeビデオを抽出して分析することができることに注目してください。
これは100万トークンのうち約14,000トークンを使用します。実際にビデオを分析し、プロンプトのビデオのすべてを理解していることを確認するために、地震や日本について何も言及せず、単に「すべてをスタンドアロンの単一HTMLファイルに入れてください」と書くだけにします。
「実行」をクリックして、何が出るか見てみましょう。さて、これが思考プロセスです。すべてのトップモデルでは、通常、この思考機能があり、最終的な応答を提供する前に答えを考え、修正するのに時間がかかります。では、思考プロセスを簡単に見てみましょう。
ここではビデオで指定した要件を分解しています。日本の地図、設定用の左サイドバー、クリックして地震を作成、地震のアニメーション、影響計算など。そして、作戦計画から始めます。フェーズ1は基本構造と地図です。フェーズ2はサイドバーコントロールの追加です。
フェーズ3は地震のアニメーションです。フェーズ4は影響計算などです。その後、完全なコードを提供してくれます。スクロールして一番下まで行き、このHTMLをダウンロードします。そして、ブラウザでHTMLを開きます。これが結果です。
確かに、移動可能な日本のインタラクティブな地図があります。例えばここをクリックすると、地震が発生します。そして、すべての都市への地震の影響を見ることができます。これはとても素晴らしいです。ここで規模を変更すると、例えば低くすると、また同じ場所をクリックすると、より大きな規模を持つ前の地震よりも重症度が低いことがわかります。
これを10のように最大まで引き上げて、ここをクリックすると、重症度がはるかに高くなり、近くにある一部の都市では100に達しています。次に波係数は何をするか見てみましょう。これは波紋の速度のようなものだと思います。これを低い値にドラッグして、もう一度ここをクリックします。はい。
波紋がもう少しゆっくりと広がります。とにかく、本当に素晴らしいアプリです。ビデオからの私の下手な説明とイラストを完全に理解しました。これにより多くの可能性が開かれます。プロンプトを入力してアプリのデザイン方法を完全に説明できないのではなく、自分でイラストを描いてアプリの各コンポーネントが何をするのかを説明する様子を録画するだけです。
そしてビデオをGeminiに接続するだけで、アプリを生成してくれます。次に、再びGeminiはマルチモーダルで画像を理解できるため、この木の画像をアップロードして、「これは何ですか」と質問します。「実行」をクリックして、これが何か分かるか見てみましょう。
わずか5秒ほど考えただけです。そして、これが正しくコケのような葉のヤモリだと識別しました。木の幹に擬態している科学名も教えてくれました。これは確かに正解です。何を見ているのか全く分からない方のために、ここにヤモリがいます。
これはその頭です。下を向いています。ここに目があります。マウスをなぞると、これがだいたい頭の輪郭です。これはマダガスカルにいると思われる本当にクールなヤモリです。そして、擬態がとても上手です。見てのとおり、Geminiは画像の分析と理解に問題ありません。GoogleのGeminiについて言えば、マーケティングに携わっていて、調査、戦略、コンテンツ作成に何時間も費やしている場合は、AIでアプローチを見直す時が来ています。
HubSpotによる無料ガイド「Google Gemini at Work」をチェックしてください。中には、Geminiマーケティングスタックが紹介されています。これらは、研究、キャンペーン計画、コンテンツ作成をはるかに生産的にするAIツールです。そして私のお気に入りの部分は、コピーアンドペーストできる多くの事前構築されたプロンプトとテンプレートを提供していることです。
Gemini Deep Researchを使用して研究を10倍速く行う方法についてのステップバイステップの指示が得られます。また、Notebook LMを使用してキャンペーンデータ、競合調査、顧客フィードバックを一つの強力なダッシュボードに接続し、実際に考えてくれる方法も紹介しています。もう手動でフォルダを掘り下げたり、洞察をまとめたりする必要はありません。
最後には4週間の実装計画もあり、小さく始めてすぐに結果を見ることができます。このリソースはこのビデオのスポンサーであるHubSpotによって作成されました。説明欄のリンクから無料でダウンロードすることをお勧めします。次に、数年前にしたハイキングの画像をアップロードします。
これはハイキングの主要な湖や見どころですらありません。山と湖の普通のハイキング写真です。どこにでもあるような場所です。ここに画像を貼り付けて、「これはどこですか」と尋ねます。「実行」をクリックして、何が出るか見てみましょう。これが結果です。思考プロセスを展開してみましょう。
主要な視覚要素を分析しています。ターコイズブルーの水、急な木で覆われた斜面、背景の氷河があります。これらすべてのオプションがあり得ます。雰囲気からすると、カナディアンロッキーまたはBCコーストのようです。そして実際に特定の湖を検索しています。Googleでの検索を有効にしていないので、実際にGoogleを使用して検索しているわけではありません。
訓練されたに基づいて頭の中で精神的に検索しているだけです。そして、これらのターコイズブルーの湖をすべて見つけました。追加の手がかりの後、これが実際にJoffer Lakesであることを突き止めました。驚くべきことに、これは中央の湖のように見えると識別しており、それは正しいと思います。これらは画像とビデオ分析機能に関するいくつかのテストでした。
次に、コーディングの知識をテストしましょう。次のアプリを備えたWindows XPデスクトップを構築してもらいます。ペイント。これをクリックすると、インタラクティブなキャンバスで新しいウィンドウが開きます。ビデオプレーヤー。これをクリックすると、YouTubeのURLを入力して再生を押すことができるウィンドウが開きます。
そして電卓については、これをクリックすると、機能する電卓を備えたウィンドウが開きます。CSS、JS、HTMLを単一のHTMLファイルで使用してください。これは、すべてを自己完結型のスタンドアロンファイルに保つために使用するキーフレーズです。「実行」を押した後、思考プロセスを展開すると、再びステップバイステップで分解しています。
まず要求を理解し、次にHTMLを構造化し、次にスタイリングを処理しています。つまり、デスクトップのルックアンドフィールです。次にJavaScriptで機能を網羅しています。そして、すべてを洗練させています。そして、ここに本当に興味深い観察があります。
自己修正と応答の改善も行っています。ここには最初の考えがありますが、ここで自己修正しています。ドラッグとスタッキングも必要です。これを実装する必要があるかもしれません。そしてYouTubeプレーヤーについては、これだけでいいでしょうか？修正はいいえです。組み込みプレーヤーも必要です。
そして、これについても、安全ですか？などなど。つまり、自分の応答を評価し、さらに修正しています。その後、このコードを提供してくれました。スクロールして一番下までいき、HTMLをダウンロードします。これを開くと、適切な色でクラシックなWindows XPデスクトップが表示されるのがわかります。
スタートメニューもあり、ここには時計もあります。ペイントをクリックすると、確かにウィンドウが表示されます。これで描いてみましょう。機能します。色を少し変えてみましょう。そしてサイズも変えてみましょう。サイズと色も機能します。本当に印象的です。これを閉じましょう。
次に、このビデオプレーヤーを開きます。そして、YouTubeのURLを貼り付けます。先ほどの地震ビデオを貼り付けて再生を押します。「日本の対話型地震可視化を作成してほしいです。日本の地図がこのようにあるとします。まず、日本の主要都市をすべてリストアップしてください。」とても良いです。
これは完璧に機能しています。そして最後に、この電卓アプリがあります。3 * 9をやってみましょう。はい、それは27に等しいです。3つのアプリすべてが機能しています。たった1つのプロンプトでWindows XPデスクトップと3つの機能的なアプリをコーディングできました。非常に印象的です。次に、クールな可視化を作成してもらいましょう。
私のプロンプトは「形状、色、その他のプロパティを変更できるパーティクルクラウドビジュアライザを作成してください。インタラクティブにしてください。3JSを使用してください。」これは3Dアニメーションを作成するためのJavaScriptライブラリです。そして「anime.js」も使用します。これも滑らかでダイナミックなアニメーションを作成するのに役立つもう一つのライブラリです。そして、私が使うのが好きなキーフレーズ「すべてを単一のHTMLファイルに入れてください」です。
「実行」をクリックして、何が出るか見てみましょう。これが結果です。これを展開すると、再び核心的な要求を分解しています。次にHTMLの構造を計画し、3.jsのセットアップ、パーティクルシステムのセットアップを行い、インタラクティブ性のコーディング、形状遷移の実装、色の変更などを行っています。
そして最後に、自己修正と洗練のセクションもあり、自分の応答を評価してさらに修正します。その後、HTMLコードを提供してくれたので、スクロールして一番下までいき、ダウンロードをクリックします。次に、これをブラウザで開いてみます。
なんてこと、ここに何があるでしょうか？このパーティクルクラウドがゆっくりと球体に形成されているようです。これはとても素晴らしいです。マウスをドラッグしてさらに見ることができます。パーティクルサイズを大きくすると、確かに大きくなります。色もこのように変更できます。とても素晴らしいです。これをトグルすると、このシェイプモッドカラーも使用するようです。
色を変えてみて何が起こるか見てみましょう。色がグラデーションに変わっているようです。現在の形状は球体です。これを立方体に変えてみましょう。すごい。これはとても素晴らしいアニメーションです。見てください。次にこれをトーラスに変えてみましょう。これは本当に印象的です。
見てください。最後に、これを平面に変えてみましょう。確かに、このような平面に変わります。とても素晴らしいです。これを球体に戻してみましょう。確かに、これから球体を作成します。たった一つのプロンプトでゼロショットでこれを実現しました。ページをもう一度更新してみましょう。
パーティクルクラウドから球体に変わる最初のアニメーションが本当に好きです。これがどれほどクールか見てください。このエフェクトが本当に好きです。次に、物理学を理解する能力をテストしましょう。ここでのプロンプトは「ペグのグリッド、サイドウォール、底部に別々の仕切りを持つGtonボードシミュレーションを作成してください。ボタンクリックで上からボールを落とします。matter.jsを使用してください。」これは物理学をとてもよくシミュレートできる別の重要なJavaScriptライブラリです。そして、ここにはすべてを単一のHTMLファイルに入れるというキーフレーズがあります。「実行」をクリックして、何が出るか見てみましょう。これが応答です。
スクロールして一番下までいき、HTMLをダウンロードします。その後、これを開いてみます。ここでは、完璧な物理理解を持つ完璧なGenボードが表示されています。「ボールを落とす」を押すと、確かにボールが落ち、重力と物理学に基づいて特定のコンテナにランダムに落ちていきます。
もう少し数回クリックして、さらにいくつかの例を見てみましょう。これも、ゼロショットで作成された完璧なアプリです。非常に印象的です。もう一つの素晴らしい例があります。「マウスホバー時にアニメーションするビジュアライザを表示してください。サイドバーでぼかし、液体、クロム、パーティクル、波、グリッド、歪み、虹色、ハイパースピードなど、さまざまなエフェクトから選択できます。さらに追加してください。」
これらのエフェクト名のいくつかは単に私が作ったものです。何が出てくるかさえわかりません。そして、anime.jsを使用します。これもウェブページでアニメーションを作成するのに非常に優れています。「実行」をクリックして、何が出るか見てみましょう。これが応答です。再び、すべてを分解してステップバイステップで取り組むという通常の思考プロセスがあります。
そして、思考プロセスの終わりに、自己修正をし、すべての要件に関する最終チェックも行っています。コードの最後までスクロールしてダウンロードを押します。これを開いて何が出るか見てみましょう。
ここで最初のエフェクトはぼかしです。マウスをここに置くと、確かにこれらの円がぼやけます。マウスを画面から離すと、円は再び鮮明になります。とても素晴らしいです。ぼかしは機能します。次に、パーティクルに移りましょう。マウスをかざすと、すごい、それを見てください。画面上でマウスを動かすと、自動的にこのようなパーティクル花火が作成されます。
Geminiを使えば、ウェブサイトにこのような本当にクールで複雑なアニメーションを簡単に追加できます。次に、波を試してみましょう。これが結果です。マウスを画面に置くと、これが起こります。このエフェクトをもう少し見せるために数回やってみます。とても素晴らしいです。
次に、グリッド歪みがあります。グリッド歪みは次のようなものです。これも非常に興味深いエフェクトです。そして次はハイパースピードです。マウスを画面に置くと、これは本当にクールです。星が今や非常に速いペースで動いていることに注意してください。マウスを画面から離すと、星は遅いペースに戻ります。
このエフェクトが見えるようにもう一度やってみましょう。とても素晴らしいです。次に、グリッチを試してみましょう。とても素晴らしいです。マウスをかざす場所によって、テキストにこのグリッチエフェクトが追加されます。次に、ピクセルストレッチが何をするか見てみましょう。すごい、本当に面白いです。文字を水平または垂直に引き伸ばしているようです。
これはバーコードのようにも見えます。次に液体クロムがあります。これが何をするか見てみましょう。これも本当にクールです。マウスを動かす場所によって、描写できないようなこのエフェクトが作成されます。最後に虹色があり、次のようになります。
虹色の何を期待すればいいのかさえわかりませんが、これは確かに虹色の球体のように見えます。この球体にマウスを置くと、何が起こるかわかりません。色がわずかに変わりますが、これらのエフェクトの多くに対して何を期待すべきかわからないので、あまり期待していません。
虹色の球体を作成できたこと自体がすでに非常に印象的です。これが私のいくつかのテストです。この新しいGemini 2.5 Pro0506は以前のバージョンよりもはるかに優れているわけではないことに注意してください。これはほんの少し良くなっただけです。実際、オリジナルのGemini 2について完全なレビューをすでに行いました。
5 Proでは、いくつかの本当に驚くべきデモを紹介しています。ポケモン図鑑や星座付きのインタラクティブな夜空ビューアを作成しました。多くの財務報告書を分析させ、香港の3D観光マップも作成しました。このビデオでは、それらの例を繰り返しません。もっと知りたい場合は、まだ見ていなければこのビデオをチェックしてください。
最後に、Google自身によるいくつかのデモをご紹介します。Geminiはマルチモーダルなので、画像を理解できます。この木の画像をアップロードして、それを自然な挙動のコードベースの表現に変換することができます。これが結果です。木の代わりにクモの巣の写真を同じプロンプトでアップロードすると、このアプリを作成します。
ここには同じプロンプトで火の写真があります。ここには蛍の写真があります。雲もあり、鳥の群れもあり、このシダの写真もあります。このアニメーションが本当に好きです。そして、ここには水の波紋があり、これが何かさえわかりません。これは菌類が成長しているのでしょうか？また、この稲妻シミュレーターも作成できます。とても素晴らしいです。
Deis Hassabisによる別の素晴らしいデモもあります。彼は作成したいアプリの非常にラフなスケッチを描いただけで、単に「このアプリをコーディングできますか？」と書きました。これが最終結果です。または、ユーザーが彼の犬に基づいたゲームをコーディングするようプロンプトを出した別の例があります。
彼は桜の背景を持つ彼の犬の写真をアップロードし、実際に彼の犬をキャラクターとした桜関連のゲームを作成します。これはなんて素晴らしいのでしょうか？次に、仕様とパフォーマンスについて見ていきましょう。まず、人々がさまざまなAIモデルを並行してブラインドテストできるこのチャットボットアリーナです。
この最新バージョンのGemini 2.5 Proについては、全体で1位にランクされているだけでなく、スタイルコントロール、難しいプロンプト、コーディング、数学、クリエイティブライティング、指示への従順さ、より長いクエリなど、これらすべてのカテゴリーでトップです。ちなみに、そのマージンは絶大です。次のトップ3モデルであるOpenAIの03とGPT40とGrok 3を見ると、これらは10ポイント以内しか差がありませんが、Gemini 2.5 Proは次に優れたものを37ポイント差で上回っており、これは驚異的なリードです。LM Arenaの代わりに、Abacus AIによるLiveBenchという別の人気のリーダーボードがあります。興味深いことに、このリーダーボードでは、Gemini 2.5 Proの最新バージョンはそれほどうまく機能していません。これは彼ら独自のベンチマークに基づいており、他のユーザーからのブラインドテストではないので、それを念頭に置いてください。
彼らのリーダーボードでは、03 Highが依然として1位にランクされていることに注意してください。そしてGemini 2.5 Proは3位です。推論、コーディング、言語の面では03より性能が劣りますが、数学やデータ分析の面では03を上回っています。また、Artificial Analysisという別の独立した評価者にもアクセスしてみましたが、彼らはまだGemini 2.5 Proの最新バージョンを追加していないようです。
これはまだ3月のバージョンです。Fiction Livebenchと呼ばれる別の非常に便利なベンチマークがあります。これはAIが非常に長いプロンプトを分析する能力をテストします。例えば、ストーリーの長さが12万語あり、非常に具体的な質問をする場合、AIモデルは実際に正しく答えることができるでしょうか？驚くべきことに、OpenAIの03は100%正解するのに対し、Gemini 2.5 Proの最新バージョンは71.9%正解します。
これは以前のバージョンのGemini 2.5 Proと同じスコアであることに留意してください。一度に大量の情報を与えて特定の質問をする場合、このリーダーボードによると、03の方が良い選択かもしれません。ちなみに、OpenAIの03と04 Miniについてもっと知りたい場合は、それについても完全なレビューを行いましたので、まだ見ていなければぜひチェックしてください。
次に、「Humanity’s Last Exam」と呼ばれる別のリーダーボードがあります。この名前は非常に誤解を招きます。AIが100%を取得すると私たちが破滅するという意味ではありません。これは基本的に、非常に曖昧で専門的な科学分野についての特定の知識のテストです。興味深いことに、Gemini 2.5 Proの最新バージョンは、ここのスコアから分かるように、3月にリリースされた以前のバージョンよりも少し低いスコアです。
しかし、信頼区間に基づくと、これは有意な差ではありません。実際、これら5つのモデルはすべて、パフォーマンスに関して有意な差はありません。つまり、すべて1位の座を争っているようなものです。最後に、Geobenchと呼ばれるこのリーダーボードを見ると、これは基本的にAIが写真に基づいて場所を推測する能力をテストします。これは先ほどのJoffre Lakesの例と同様です。
ここでGemini 2.5 Proが現在1位にランクされていることがわかります。そして検索を追加すると、これは一種のチートですが、追加するとさらに良いパフォーマンスを発揮します。AIモデルが実際に事実に基づいた正確な情報を提供し、物事をでっち上げないことも非常に重要です。ここにAIモデルの幻覚率、つまり基本的にでっち上げる頻度を示す非常に便利なリーダーボードがあります。
彼らはまだGemini 2.5 Proの最新バージョンの結果を発表していませんが、3月のバージョンから見ると、1.1%の時間で幻覚を見ています。情報が事実に基づいて正確であることを本当に望むなら、例えば科学的または法的調査の場合、少なくともこのリーダーボードによれば、代わりにGemini 2.0 Flashを使用すべきです。
最後に、コストについても説明したいと思います。公式ブログでは、この改良されたバージョンは同じ価格で利用可能になると述べています。Gemini 2.5 Proの価格を見ると、Claude 3.7、Grok 3、OpenAIの03（これは非常に高価）よりも安いことに注目してください。つまり、これは最高のモデルの一つであるだけでなく、他のものよりも安く、非常にコスト効果が高いのです。
とにかく、これがGemini 2.5 Proの最新バージョンについてのレビューの要約です。私にとって、最も役立つ機能は、アプリの外観と機能を正確に説明するビデオを録画でき、それが実際にすべてを理解してアプリを作成してくれることです。これはテキストプロンプトだけを使うよりもはるかに効果的です。
コメント欄であなたの考えを教えてください。この最新バージョンを試す機会があった場合、他にどのような素晴らしく印象的なことができたでしょうか？いつものように、トップAIニュースとツールを探して皆さんと共有します。このビデオを楽しんでいただけたなら、いいね、シェア、登録をして、さらなるコンテンツをお楽しみに。
また、AIの世界では毎週非常に多くのことが起こっており、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっていることすべてを本当に最新に保つために、私の無料の週刊ニュースレターに登録してください。そのリンクは説明欄にあります。視聴いただきありがとうございます。次回お会いしましょう。