Gemini 2.5がスゴすぎる

AGIに仕事を奪われたい
この記事は約29分で読めます。

16,922 文字

Gemini 2.5 is so cracked
Google Gemini 2.5 Pro full review and testing. The best AI model so far. #ai #aitools #llm #vibecoding #ainewsThanks to ...

あら、これは試してみましょう。「最初の50匹のポケモンを含むインタラクティブなポケモン図鑑を作成して、アニメーションとステータスも含めてください」
これは簡単すぎますね。では、こちらはどうでしょう。「主要な星座を含む夜空のインタラクティブなビューを作成してください」
見てください、まさか!
ではさらに難しいものを試してみましょう。「左のコラムに主要な観光名所をリストアップし、クリックすると場所に移動する香港の3Dビジュアライゼーションを作成してください」
冗談でしょう!すべてが正確で、これは非常にスムーズです。本当に次元が違います。
次に、GoogleとNvidiaとAmazonの四半期決算報告書をアップロードして、「これをグラフやチャート付きのレポートに変換してください」と入力します。
ああ、これは簡単すぎます。数秒でこれらすべてを作りました。
次は創造性をAIに任せてみましょう。「複数の形状、色、効果を持つ、すごいインタラクティブなビジュアライザーを作ってください」と書きます。何が出てくるかわかりませんが、結果を見てみましょう。
うわ、何これ?これはすごい!
Googleは最近Gemini 2.5をリリースしましたが、これは本当に印象的です。これまで使ったモデルの中で最も高性能なものです。私の言葉だけで判断しないでください。現在、複数のカテゴリーにわたるAIモデルのトップリーダーボードすべてで1位にランクされています。つまり、最も知性的で性能の高いAIモデルということです。
しかし、本当にそうなのでしょうか?このビデオでは、どこでどのように使うかをお見せするとともに、それが行える驚くべきことをいくつか紹介します。もちろん、そのスペック、性能、ベンチマークについても説明しますが、それは退屈なことなので最後に残しておきましょう。さっそくデモを見ていきましょう。
このビデオのスポンサーであるHubSpotに感謝します。
現在、Gemini 2.5 Proを使用できる場所が2つあります。1つ目はgemini.google.comで、説明欄にリンクを貼っておきます。ここのドロップダウンメニューで「2.5 Pro experimental」を選択できるようになりました。
注意点として、通常このGeminiプラットフォームでは、2.5 Proを選択しない場合、例えば2.0 Flashを選ぶと、コードをサイドバイサイドでプレビューできる「キャンバス」機能があります。例えば、AI向けコンサルティング会社のランディングページを作成するよう依頼すると、このキャンバスウィンドウでコードを確認でき、さらに完成後には実際の見た目もプレビューできます。
ただし、最新の2.5 Proを選択すると、このキャンバス機能が表示されません。これは覚えておいてください。いずれ追加されるでしょう。
もう一つの試せる場所はGoogle’s AI Studioです。両方のプラットフォームは無料で使えます。モデルのドロップダウンメニューで、単に「Gemini 2.5 Pro experimental」を選択するだけです。
私は一般的にこのプラットフォームを使用することを好みます。なぜなら、調整できる他の設定があるからです。温度は、AIがどれだけ創造的に応答するかを指します。低い値にすると応答がより予測可能になり、高い値にするとより多様で創造的になります。また、構造化出力をオンにすると、AIに構造化された方法で応答をフォーマットさせることができます。例えば、JSONだけを出力させたい場合や、データテーブルだけを出力させたい場合に便利です。
コード実行を有効にすると、プロンプト内のコードも実行できます。ファンクションコーリングを有効にすると、AIは外部ツールやAPIを使用して情報を取得できます。Googleで検索して根拠付けをするとは、基本的にウェブ検索のことです。これをオンにすると、AIはGoogle検索から最新の情報を取得できます。また、編集できる安全設定もあります。
ちなみに、Gemini 2.5 Proは100万トークンのコンテキストウィンドウを持っています。これは、プロンプトに一度に収めることができる情報量です。100万トークンとは、プロンプトに70万語以上入れられることを意味します。これは他の主要AIモデルが一度に処理できる量の5倍です。これについては後ほど詳しく説明します。
なお、Gemini 2.5 Proを含む主要なモデルはすべて、エッセイの作成やメールの返信、ソーシャルメディア投稿の作成などの単純なタスクをすでに行えます。トップモデルが特に役立ち、他のモデルより優れている点は、コーディング、数学、科学におけるより複雑な問題の推論と解決能力です。そのため、このビデオでは主にそれを示します。いくつかの非常に難しいコーディング、数学、科学のプロンプトでテストして、それが解決できるか見てみましょう。
さらに、Geminiの素晴らしい点はマルチモーダルであることです。テキスト、音声、画像、ビデオ、コード全体など、複数の形式を受け入れて理解できます。そのため、いくつかの音声、画像、ビデオ処理の例もお見せします。
使い方は非常に簡単です。ここにプロンプトを入力するだけです。こちらから始めましょう:「最初の50匹のポケモンを含むインタラクティブなポケモン図鑑を作成して、アニメーションとステータスも含めてください。CSS、JS、HTMLを単一のHTMLファイルで使用してください」これは、すべてを独立したファイルに収めるために私がプロンプトでよく使うキーフレーズです。
実行をクリックして、結果を見てみましょう。まず、Gemini 2.5は思考モデルなので、最高品質の回答を提供するために、どのように回答するかを考えるためにコンピューティングと時間を使用していることに注目してください。これをクリックして、その思考プロセスを実際に見ることができます。
まず、ポケモン図鑑を作るという核心的な要求を理解しています。次に、HTML構造を計画し、CSSですべてをデザインする方法、そしてJavaScriptのロジックも含まれています。注目すべきは、思考プロセス中の自己修正と改善です。最初はユーザーがクリックしたときにデータを1つずつ取得することを考えていましたが、自己修正して、すべての50匹のポケモンを一度に取得することに決めました。もう一つの初期の考えとして、最初は静的な画像を表示するだけでしたが、プロンプトでアニメーションを作成するように指定したので、各ポケモンのアニメーションを表示するためにアニメーション化されたスプライトURLを見つける必要があります。
その後、下にスクロールすると回答があり、長いコードが提供されます。そして、HTMLをダウンロードするためにここをクリックするだけで、HTMLを開くと、ポケデックスが表示されます。これは完璧です。確かに1番はフシギダネで、次にフシギソウ、フシギバナ、そしてヒトカゲ、リザード、リザードンとあります。これらはすべて正確です。なんて素晴らしいことでしょう。そして各ポケモンには、ここにすべてのステータスが表示されています。これは美しいです。
そこで、たった1つのプロンプトでゼロショットで、最初の50匹のポケモンを含む完全に機能するポケデックスができました。ピカチュウはどこでしょう?25番目のはずです。確かに25番目はピカチュウです。
次は、ここをクリックして新しいチャットを開始します。次の例では、スケッチから3Dプリント可能なモデルを作成する方法をお見せします。最初は実際にGemini 2.5 Proを使用せず、画像生成機能を持つGemini 2.0 Flashを使います。そして出力形式として画像とテキストを選択します。ちなみに、これは最高の画像ジェネレーターおよびエディターの一つです。このGemini 2.0画像ジェネレーターに馴染みがない場合は、その素晴らしい機能についてのこのビデオをぜひご覧ください。
とにかく、この家のスケッチをアップロードして、「この家の3Dレンダリングを白い背景で作成してください」と書きます。実行をクリックして結果を見てみましょう。
はい、これが私たちの3D家です。これをダウンロードして、次に新しいチャットを開始し、こちらでGemini 2.5 Proを選択します。これはマルチモーダルなので、画像を取り込んで理解できます。そこで、先ほど生成した画像をアップロードし、プロンプトとして「この家のOpenSCADコードを書いてください。モデルは3Dプリントされます」と入力します。実行ボタンを押して結果を見てみましょう。
再度、回答の考え方から始めています。思考プロセスを展開すると、まず目標を理解し、次に画像を分析して家を主要な幾何学的コンポーネントに分解し、各コンポーネントの寸法を推定してからコードを開発していることがわかります。
その後、コードが提供されるので、これをコピーして無料のオンラインOpenSCADビューアを開き、これを削除してから、生成されたすべてのコードを貼り付けると…できました!
ほんの数秒で、Geminiは家の非常に粗いスケッチを3Dレンダリングに変換し、そして印刷可能な本格的な3Dモデルに変換しました。どれほど素晴らしいことでしょう!これは完璧ではなく、いくつかの窓が欠けていて、何らかの理由でドアがここにぶら下がっていますが、プロンプトをさらに追加してこのモデルを改良することはいつでもできます。
新しいチャットを開始して、もっとクレイジーなことを試してみましょう。プロンプトは「香港の3Dビジュアライゼーションを作成し、インタラクティブにしてください。左のコラムに主要な観光名所をリストアップし、クリック時にその場所に移動できるようにしてください。threebox と 3.js を使用してください」です。3boxは基本的に3Dマップレンダリングツールで、3JSは3DアセットをレンダリングするためのJavaScriptライブラリです。そして再び、これは私がプロンプトでよく使うキーフレーズです「CSS、JS、HTMLを単一のHTMLファイルで使用してください」。それだけです。実行をクリックしてみましょう。
思考プロセスを展開すると、まずリクエストを理解し、必要なキーテクノロジーを特定してコードを生成し、観光名所のデータを見つけ、名前や座標などを検索し、エラーを処理し、さらに改良してテストしています。各リストアイテムをテストクリックして、正しくナビゲートされるかどうかを確認し、アニメーションがスムーズかどうかを確認しているようです。
その後、すべてのコードが提供されるので、ここまで下にスクロールしてダウンロードをクリックし、コンピュータにHTMLを保存します。ダウンロードしたHTMLを開いてみましょう。最初に開くと、「警告:実際のMapboxアクセストークンであなたのMapboxトークンを置き換えてください」と表示されます。threebox.jsはMapboxを使用するため、まずMapboxでアカウントを作成する必要があります。かなりの無料使用量が得られます。その後、トークンを作成する必要があります。
それをすぐに行いましょう。これを「テスト」と名付け、下までスクロールしてトークンの作成をクリックします。その後、これをコピーします。このトークンは誰とも共有しないでください。ダウンロードしたHTMLを右クリックし、メモ帳や好きなコードエディタで開きます。VS Codeで開いて、ここで実際のMapboxトークンに置き換える必要があります。これを貼り付けて保存します。これで、ページを更新すれば、すべてが機能するはずです。
さて、香港の完全な3Dマップがあります。もし各場所をクリックすると…最初にビクトリアピークの観光スポットをクリックしてみましょう。実際にビクトリアピークに移動します。
次にこれを試してみましょう。おお、これはすごい!そしてアニメーションはとても滑らかです。次にウォンタ寺院を試してみましょう。今、寺院に移動しています。場所は正確です。この大きな仏像に行ってみましょう。確かに、仏像にズームアウトしてからズームインしています。そして、ディズニーランドを試してみましょう。確かに、ここがディズニーランドです。なんてクールでしょうか。
ほんの数秒で完全にインタラクティブな3Dマップを作成できます。例えば、ハイキングコースや観光スポット、レストランなどのアプリを簡単に作ることができます。非常に強力なツールです。
GoogleのGeminiといえば、あなたが何時間もかけて手動でトピックを調査しているにもかかわらず、表面だけを掻いているようなら、研究とデータ収集のアプローチを完全に変革するものがあります。「10時間の研究を20分で行う方法:マーケターのためのGoogle GeminiとNotebook LMガイド」をご覧ください。HubSpotによるこのガイドを無料でダウンロードできるよう、説明欄に入れています。
このガイドは、AIリサーチツールを活用することで、かつては何時間もかかっていたことを数分に圧縮し、何日もかかるところを数日で任意のトピックの上位10%の専門家になるのに役立ちます。あなたは、チーム全体よりも多くの情報源を処理し、人間が通常見逃してしまう情報間のパターンを見つけることができるようになります。
ガイド内では、何十もの情報源から包括的な情報を収集するためのGeminiの深い研究能力の使用方法のステップバイステップ指示、そして生のデータをAIパワードのサマリーや個人化されたオーディオ概要などを通じて実用的なインテリジェンスに変換するためのNotebook LMの使用方法が見つかります。
私のお気に入りのセクションは、コンテンツ作成から競合情報、危機コミュニケーション計画まで、このリサーチスタックの11の実用的なアプリケーションが概説されているところです。例では、これらのツールを実際のマーケティングシナリオでどのように実装するかが正確に示されています。
このリソースは、このビデオのスポンサーであるHubSpotによって作成されました。説明欄のリンクから無料でダウンロードしてください。
新しいチャットを開始しましょう。今回は創造性をAIに任せてみましょう。多くの詳細を指定しないので、プロンプトは「複数の形状、色、効果を持った、すごいインタラクティブなビジュアライザーを作ってください。3JSを使用してインタラクティブにし、CSS、JS、HTMLを単一のHTMLファイルで使用してください」です。実行をクリックして結果を見てみましょう。
大文字で「すごい」ビジュアライザーを要求しただけで、そのビジュアライザーがどのように見えるかは具体的に指定しなかったことに注目してください。どれほど「すごい」ものにできるか自由に考えられるようになっています。
ここに思考プロセスがあります。ユーザーは大文字で「すごい」インタラクティブなビジュアライザーを望んでいるので、これらすべての要素を持つ必要があります。今、すべてをセットアップしています。複数の形状や色を含む「すごさ」を追加しています。そして、コードを提供しています。
このHTMLコードをダウンロードして開き、何が得られるか見てみましょう。うわ、これはすでにかなりすごいです。マウスをそれぞれの物体の上に置くと、物体が大きくなるようです。はい、ズームインしたり、周りを動き回ったりできます。それはとてもクールです。ズームアウトするとどうなるでしょうか?
これはすべての物体の巨大な球体のようで、マウスをどこに置いても、星が弾むようです。とてもクールです。この物体のようなものにマウスを置くと、その物体にズームインします。これがちゃんと見えることを願います。非常にクールですが、もっとすごくしましょう。「外部依存関係をインポートせずに、もっとクールなビジュアライゼーションと効果を追加してください」と書いてみます。Enterを押して、どうなるか見てみましょう。
ここに私たちの回答があります。さらにどのように追加できるかを考えています。「すごさ要素をさらに上げよう」と言っています。その後、このコードを提供してくれました。これをダウンロードして、HTMLを開いてみましょう。
うわ、なんてことだ!これは何?それは狂っている!すごい!ここで何が起きたの?これは本当にすごいです。これらの物体のような各物体にマウスを置くと、それらがズームインして中空になることに注目してください。それはとてもクールです。グリッチ効果もあります。このクラウドをクリックすると、本当にクールな何かに分散します。どう表現すればいいかわかりませんが、とにかくすごくてクールに見えます。これは間違いなく、AIに作らせたことのある中で最もすごいビジュアライザーです。
さて、十分な楽しみはこれぐらいにして、次のプロンプトに移りましょう。私のビデオを通して、これらのAIモデルの実際に役立つアプリケーションを示すようにしています。回転する立方体や楽しいビジュアライゼーションだけでなく、これが実際に役立つアプリケーションです。インタラクティブな教育コンテンツを作成することができます。
ここにプロンプトがあります:「三角形の和定理、ピタゴラスの定理、三角形の面積のためのヘロンの公式を教える、インタラクティブな教育ページを作成してください。それぞれにインタラクティブなビジュアライゼーションを含めてください」そして、これは私がプロンプトでよく使うもう一つのキーフレーズです。「CSS、JS、HTMLを単一のHTMLファイルで使用してください」。実行をクリックして結果を見てみましょう。
ここに得られたものがあります。以前と同様の思考プロセスがあります。時間の関係で、一番下までスクロールしてHTMLをダウンロードします。
これを開いてみましょう。ここに「インタラクティブな三角形ジオメトリエクスプローラー」があります。まず三角形の和定理を見てみましょう。三角形のすべての3つの角度の合計は180度であるはずです。これが正しいか見てみましょう。
角度Aを異なる値にドラッグすると、すべての角度の合計はまだ180度です。角度Bも同様に、異なる値にドラッグしても合計は180度のままです。非常に良いです。
次にピタゴラスの定理については、この公式を知っているはずです。これがどのように機能するか見てみましょう。辺Aをこのようにドラッグすると、斜辺はこのようになるので、辺Aや辺Bの値が何であれ、この公式に従います。
そして、これがヘロンの公式で、このようになっています。この三角形の辺を調整すると、面積と周囲をリアルタイムで計算します。もちろん、デザインを改良したり、この機能をさらに追加したりするようにプロンプトを追加することもできます。教育のための非常に役立つツールです。
次に、本当にクールなアプリを構築できるか見てみましょう。このプロンプトを、AIエージェントのManisやClaude Sonnet 3.7、Gro 3、03 Miniで試しましたが、どれも実際にこれを実行することができませんでした。
ここでのプロンプトは「上位20の星座を含む夜空のインタラクティブなビューを作成し、ラベルを含めてインタラクティブにしてください。3JSを使用し、CSS、JS、HTMLを単一のHTMLファイルで使用してください」です。実行をクリックして結果を見てみましょう。
時間の関係で、一番下までスクロールしてHTMLをダウンロードします。これを開いて、何が得られるか見てみましょう。
うわ、ここには確かに星座付きの夜空のアプリがあります。なんてすごいことでしょう!私が知っているのは北斗七星だけなので、ここで探してみましょう…はい、ここにあります。北斗七星がここにあるのが見えますか?
オリオン座も知っていると思いますが、さっき見たような…オリオン座はどこでしょう?ここにオリオン座があります。確かにオリオン座の形に見えます。
ズームアウトすると、これが見えます。真ん中が地球のようで、このように地球を囲むすべての星があります。これは非常にクールなビジュアライゼーションです。ちなみに、これはゼロショットでこれを実行できる最初のAIです。
もちろん、さらに改良することもできます。おそらく一部の星座の形が正確でないかもしれませんし、この地球にリアルなテクスチャを追加したいかもしれません。2、3回のプロンプトでこれをさらに良くすることができますが、ゼロショットでインタラクティブな夜空ビューアーができました。
さて、私は可能な限り多くの役立つ例を示そうとしているので、実生活でGemini 2.5 Proを実際にどのように使用できるかを把握できるようにしています。これを試してみましょう。
Google、Nvidia、Amazonの2024年第4四半期の決算報告書のPDFをダウンロードしました。これはマルチモーダルなので、テキスト、画像、音声、ビデオ、文書を理解し分析できます。3つの報告書すべてをここにアップロードします。トークン数も確認できます。この報告書は3,000以上のトークンを使用し、こちらは2,500、そしてこちらも、ここでもトークン数が確認できます。
繰り返しますが、100万トークンは70万語以上です。一度に分析するための大量の文書をアップロードできます。これは非常に大まかな例で、3つの四半期決算報告書をアップロードしているだけですが、理論的にはNASDAQのすべての企業からのすべての報告書などをアップロードできます。
とにかく、プロンプトには「これをグラフ、チャート、ビジュアル付きのレポートに変換してください。ページをレスポンシブにし、ビジュアルが適切に収まるようにしてください。単一のHTMLファイルのみを使用してください」と書きます。これは別のキーフレーズで、異なる幅の画面に適切に収まるようにするためのものです。
ここで拡張すると、まず重要な情報を特定し、すべてを抽出し、3つの企業を比較しています。ここでも自己修正があります。「最初は生の数字だけをプロットするかもしれないが、数百万単位での表示は読みやすくないことに気づいた」として、これらの数字を適切にフォーマットするための追加のJavaScript関数を追加しました。同様に、読みやすさを考慮して、異なるチャート間で各企業に一貫した色コーディングを追加することも決めました。
その後、このコードが提供されるので、下にスクロールしてHTMLをダウンロードし、レポートを開きます。ここに3社のPDFを統合したレポートがあります。
ここがGoogleで、これがすべての財務ハイライトです。収益と営業利益を示すインタラクティブな円グラフもあります。そしてこちらがNvidia、様々なセグメント別の収益パフォーマンスです。次にAmazonがあり、純売上高と営業利益が表示されています。
最後の楽しい部分は、すべての情報を統合することです。こちらが3社すべての収益比較です。色分けもうまくされていることに注目してください。Alphabetは青、Nvidiaはロゴが緑色なので緑色、Amazonはロゴに黄色が含まれているため黄色です。非常に良いです。
これが第4四半期の収益で、こちらが通年の収益です。こちらが第4四半期の純利益、こちらが通年の純利益、そして営業利益率です。もちろん、より具体的なグラフやデータテーブルをこのレポートに追加したい場合は、AIにさらにプロンプトを与えることができます。ほんの数秒で、大量のPDFをアップロードして分析し、情報を統合し、このような素敵なレポートを作成できるのです。Gemini 2.5 Proがどれほど有用であるかがお分かりいただけると思います。
次は生物学シミュレーションを試してみましょう。以前のビデオでは、アリのコロニーや進化する細菌のコロニーをシミュレーションしました。今回はミツバチのコロニーを試してみましょう。
プロンプトは「花から花粉を集めるミツバチのコロニーをシミュレーションしてください。多くの調整可能な設定を含め、素晴らしいビジュアルを含めて、インタラクティブで教育的にしてください」です。これらはすべて、プロンプトでよく使うキーフレーズです。今回は3JSの代わりに、p5.jsを使用します。これはアニメーションを作成するための別の便利なライブラリです。実行をクリックして結果を見てみましょう。
思考プロセスは以前と同じでしょう。時間の関係上、すぐに一番下までスクロールしてHTMLをダウンロードします。
これを開いてみましょう。うわ、これは本当にミツバチのように見えます!なんてクールでしょう!さて、ここで何ができるか見てみましょう。様々な設定があります。
ミツバチの数を増やしたり、花の数を増やしたりできます。ミツバチの最大速度は、ミツバチの動きを速くしたり遅くしたりします。花の最大花粉量は、一つの花がどれだけの花粉を持っているかを設定します。
フェロモンの設定もあります。ミツバチが花を検出したとき、他のミツバチにどれだけその同じ道を辿るよう影響を与えるかという設定です。風の設定もあり、風の強さを上げると、風の方向は上部に指定されており、ミツバチはその方向に吹き飛ばされます。非常に興味深いです。
また、「地面より上のキャンバスをクリックして新しい花を追加してください」とも書かれています。これが機能するか見てみましょう。ここをクリックすると…確かに新しい花が追加されました!なんてクールでしょう!
そこで、完全に機能するミツバチのコロニーが、調整可能なたくさんの設定とともに、近くの花から花粉を集めています。これをたった一発でゼロショットで得ました。非常に印象的なデモです。さらに、本物のように見えるミツバチ、本物のように見える花、そして素晴らしい見た目の巣箱まで生成しました。超クールです!
こちらは別の楽しくて教育的な例です。確率を学んだり教えたりしようとしている場合を考えてみましょう。プロンプトは「確率実験をシミュレーションしてください。ランダムなサイコロ投げ、コイン投げ、分布をインタラクティブで教育的にしてください。すべての実験には視覚的なグラフを含めてください」です。
ここでは、サイコロ投げ、コイン投げ、分布を示すように指定しました。少し曖昧なので、AIが好きなものを選ぶことができますが、このプロンプトに学びたいまたは教えたいトピックを指定することができます。とにかく、実行をクリックして結果を見てみましょう。
時間の関係上、すぐに一番下までスクロールしてHTMLをダウンロードします。これを開いてみましょう。
ここに私たちのインタラクティブな確率シミュレーションがあります。まずはこのコイン投げから始めましょう。100枚のコインを投げるとどうなるでしょうか。非常に良いですね。69枚のコインを投げると、このようになります。または4枚のコインを投げると、このようになります。
また、サイコロ投げもあります。2つのサイコロを持ち、それらを1000回投げると、ここに合計の分布があります。2つのサイコロではなく、1つに設定し、投げる回数を100に設定すると、シミュレーションを実行して、1から6の間の分布がこのような頻度で表示されます。
さらに、平均値、標準偏差、サンプル数、ビンの数を指定できる正規分布もあります。このシミュレーションを実行すると、ここに理論的な正規分布が表示されます。これは正規分布とそれらの変数の意味を教えるまたは学ぶための非常に素晴らしいリソースになります。
ここに一様分布の別の例があります。デフォルト設定のままでシミュレーションを実行すると、ここに得られるものがあります。そこで、もう一つの本当に役立つ教育的な例があります。
しかし、コーディングとビジュアライゼーションの例はもう十分です。Gemini 2.5 Proはさらに多くのことができます。冒頭で述べたように、Gemini 2.5はマルチモーダルであり、テキストだけでなく、音声、画像、ビデオも取り込むことができます。
新しいプロンプトを開始して、画像分析の例を試してみましょう。「ウォーリーをさがせ」の画像をアップロードし、「この画像からウォーリーを見つけてください」と書きます。実行をクリックして結果を見てみましょう。
思考プロセスを展開すると、まずウォーリーがどのように見えるか(赤と白の縞模様のシャツを着て、青いジーンズまたはズボンを履き、丸い眼鏡をかけている)を特定していることがわかります。そして、画像のスキャンを開始します。左上から右へ、そして中央セクションも左から右へとスキャンし、いくつかの類似したオブジェクトに気づきます。例えば、赤と白の縞模様の傘や、赤と白の縞模様のタオルを持つキャラクター、赤と白の縞模様のビーチチェアなどですが、それらはウォーリーではありません。
そして、画像を複数のセクションに分割し、そこでウォーリーを探しています。最終的に、6番目のクロップの右下部分で、ウォーリーを見つけました。ここで「ウォーリーを見つけました」と言っています。画像の中心から少し右、水平中央線のすぐ下を見てください。
画像の中心から少し右、水平中央線のすぐ下を見ると、確かにこれがウォーリーです!なんてクールでしょう!Gemini 2.5 Proは、この場面が多くの人々やオブジェクトを含む非常に複雑なものであっても、画像分析がかなり得意であることがわかります。
ここにもう一つできることがあります。これはビデオを分析でき、巨大なトークンウィンドウがあるため、ビデオ全体をアップロードしたり、YouTubeリンクを貼り付けたりするだけでビデオを分析することができます。
YouTubeビデオのリンクをここに貼り付けるだけです。このビデオは約37分で、650,000トークンしか使用していないことに注目してください。これは約1時間のビデオを分析でき、「これを要約してください」と書くだけです。実行をクリックして結果を見てみましょう。
ここにビデオの要約があり、確かに要約は正確です。これは実際にビデオで指定したことです。アニメーション「攻殻機動隊」からのシーンのような、クリップに含めた参照までも正確に識別しています。ポッドキャストや長編ビデオを要約することが誰にとっても今いかに簡単かがおわかりいただけると思います。
ポッドキャストといえば、音声を分析させる例をご紹介します。ポッドキャストからの短い抜粋をアップロードします。33秒しかありません。後でこれを再生しますが、ここでは「タイムスタンプと話者を含むこの文字起こしを提供してください」と書きます。実行をクリックして結果を見てみましょう。
ここに、すべての話者が含まれた文字起こしがあります。実際にクリップを再生して、文字起こしが正確かどうかを確認してみましょう。
[ポッドキャストの音声再生]
そして、完璧に理解しました!「yeah」や「right」のような非常に短い単語でさえ、話者と正確なタイムスタンプを識別することができました。非常に強力なツールです。
とにかく、これでGemini 2.5 Proでできるクールなことのショーケースはおしまいです。これがあなたにとってどのように使えるかのインスピレーションになれば幸いです。
次に、そのスペック、性能、ベンチマークについて見ていきましょう。これが彼らの公式リリースページです。デモでお見せしたように、これはマルチモーダルであり、テキスト、音声、画像、ビデオ、さらにはコード全体を取り込み理解することができます。
さらに、これはなんと100万トークンのコンテキストウィンドウを持っています。200万も近日公開予定であると言及されており、100万は巨大で、他の主要AIモデルが提供するものよりもはるかに多いです。例えば、OpenAIのO3とO1、Claude 3.7は200,000トークンのコンテキストウィンドウしか提供していないのに対し、Deepseek R1は128Kのコンテキストウィンドウを持っています。
Google Gemini 2.5 Proは、他の主要モデルと比較して、プロンプトに少なくとも5倍多くのデータを取り込むことができます。参考までに、100万トークンは約1時間のビデオ、11時間の音声、3万行のコードに相当します。適度なサイズのコードベースを簡単にプラグインできます。また、これは70万語なので、小説全体やたくさんの文書を一度にすべて分析するためにプラグインできます。
では、これはどれほど優れているでしょうか?言い換えれば、一度にこれほど多くの情報を与えると、実際にそのすべての情報を取り込み、分析し、正しい答えを提供できるでしょうか?それがこのベンチマーク「Fiction Live Bench」の目的です。多くのAIモデルは、長いストーリーや大量の文書など、多くの情報を一度に消化するのに苦労します。ストーリー全体を与えると、プロットやキャラクターをよく見失います。
Fiction Livebenchの目的は、モデルが本当に長いストーリーから情報を見つけて分析する能力をテストすることです。長さが12万の最も長いストーリーに対して、Gemini 2.5 Proは90.6を獲得しました。これは他のすべてのモデルよりもはるかに優れています。最も近いものでもChatGPTの最新バージョンの65.6です。これは巨大なマージンであり、Gemini 2.5は一度に多くの情報を分析するのが非常に得意です。
他のリーダーボードに移りましょう。ここにLM Arenaがあり、ユーザーのブラインドテストに基づいてAIモデルをランク付けしています。Gemini 2.5 Proがランク1位であり、そのマージンも巨大であることがわかります。次の上位3つのモデルのアリーナスコアは数ポイントしか違わないのに対し、Gemini 2.5 Proはほぼ40ポイントのマージンを持っています。これは他のモデルに対する信じられないリードです。
さらに、難しいプロンプト、コーディング、数学、クリエイティブライティング、指示に従う、長いクエリ、マルチターンなど、これらの異なるカテゴリに基づいてさまざまなAIモデルをランク付けするこの表を見ると、ボード全体を通してGemini 2.5 Proがランク1位であることがわかります。これは信じられない成果です。
そして、「Artificial Analysis」というこの独立した評価者による別のリーダーボードを見ると、インテリジェンスインデックス(モデルがどれほど知的であるか、どれほどパフォーマンスが高いか)に基づいてすべてのモデルをランク付けすると、Gemini 2.5 Proがランク1位です。
価格を見ると、Gemini 2.5 Proがこのチャートに載っていないことに気づくかもしれません。これは使用コストが0ドルだからです。なんて驚くべきことでしょう!AI Studioでこの2.5 Proモデルカードにカーソルを合わせると、100万トークンごとの入力と出力は0ドルであることがわかります。これは、Googleが独自のTensor Processing Units(後で説明します)を持っているためで、実際に非常にコスト効率が良いのです。
Gemini 2.5 Proはこれらすべてのベンチマークによると最高のモデルであるだけでなく、最も安価なモデルでもあります。0ドルよりも安くすることはできません。これは考えるとちょっと馬鹿げています。
ここにはMath Arenaという別のリーダーボードがあり、名前が示す通り、競争的な数学の問題でAIモデルをテストします。ここでもGemini 2.5 Proは現在リーダーボードの1位であり、次に優れたモデルと比較して巨大なマージンを持っています。
Aacus AIによるLiveBenchという別のリーダーボードを見ても、Gemini 2.5 Proがランク1位であり、マージンも巨大です。他の主要モデルのグローバル平均スコアを見ると、互いに1ポイント未満しか勝っていないのに対し、Gemini 2.5 Proは次に優れたモデルを6ポイント以上上回っています。
推論、コーディング、数学、データ分析、言語など、ボード全体を通して他のすべてのモデルを打ち負かしています。これは単なる主観的な意見ではありません。Gemini 2.5を特にコーディングや推論、問題解決の機会があれば、少し知的で性能が高い雰囲気があることがわかると思います。
「Humanity’s Last Exam」という別のベンチマークがあります。これは非常に誤解を招く名前です。AIが100%達成したとき、人類が困るという意味ではありません。これは基本的に、AIを曖昧なドメインからのいくつかの詳細な質問でテストしています。このリーダーボードを見ると、Gemini 2.5 Proが18.8%のスコアで主要モデルであることがわかります。
私のすべてのデモとこれらすべてのリーダーボードから考えると、Gemini 2.5 Proが現在最高のAIモデルであると言っても過言ではないと思います。これは実際に非常に印象的です。2022年末にChatGPTが登場して以来、OpenAIは常に最も知的または最もパフォーマンスの高いモデルを持つというリードを保持していました。初期の頃、Googleは追いつこうと努力しましたが、初期のGeminiのバージョンはかなり悪く、OpenAIのモデルよりもはるかに能力が低かったです。
しかし、状況は一変しました。Googleは追いついただけでなく、かなり大きなマージンでAIレースをリードしています。しかし、正直なところ、これは実際には驚くべきことではありません。より良いAIモデルをトレーニングするには、最も多くのデータと最高品質のデータが必要であり、さらに大量の計算能力も必要です。
さて、これらすべてを持っているのは誰でしょうか?明らかに、Googleはグーグルウェブ検索でインターネットの最も多くのデータを持っています。しかし、これはまた、Googleの画像検索で世界で最も多くの画像データも持っていることを意味します。それだけでなく、YouTubeで世界で最も多くのビデオデータも持っていると言えます。さらに、Google Mapsで世界で最も多くの地理空間データも持っています。
これには、世界の主要な通りすべての画像データとビジネス、レストラン、公共交通機関、Google Mapsのその他すべてに関する位置データが含まれます。他のテック大手は、Googleが持つデータの量と多様性に近づくこともできません。
さらに、この間ずっと、GoogleはAIコンピューティングのための独自のプロセッサを開発してきました。これらはテンソル処理ユニット(TPU)と呼ばれています。他のAI大手(OpenAIやX、Anthropicなど)がコンピューティングのためにNvidiaに依存する必要がある間、実際に彼らは皆、非常に供給の少ない最新のNvidiaプロセッサを手に入れるために競争しています。
彼らはそれをしている間、Googleはこのボトルネックを実際には持っていません。コンピューティングハードウェアからAIソフトウェアまで、垂直スタック全体を構築しました。さらに、世界で最も多くのデータを持っています。
正直に言って、AIレースに誰が勝つかと賭けるなら、私はGoogleを選ぶでしょう。そのため、彼らの最新のGemini 2.5 Proが実際にAIレースをリードしているのは、少なくとも現時点では驚きではありません。
とにかく、これでGemini 2.5のレビューを終わります。これは間違いなく、そして明らかに、現在使用できる最高のAIモデルです。まだ使ったことがなければ、ぜひ試してみてください。少し知的な雰囲気があることもわかると思います。
あなたがこれについてどう思うか、コメントで教えてください。Gemini 2.5 Proを使って遊んでいた場合、他にどのようなクールで興味深い作品を生成できたかも教えてください。
いつものように、あなたと共有するためのトップAIニュースとツールを探し続けます。このビデオを楽しんでいただけた場合は、「いいね」、「シェア」、「購読」を忘れずに、今後のコンテンツもお楽しみに。また、AIの世界では毎週非常に多くのことが起こっているので、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっているすべてのことを最新に保つために、無料の週刊ニュースレターを購読してください。そのリンクは説明欄にあります。視聴ありがとうございました。次回でお会いしましょう。

コメント

タイトルとURLをコピーしました