
5,600 文字
GoogleがついにAI業界を席巻しました。彼らは最近Gemini 2.5をリリースしましたが、これは現在最も知的なAIモデルで、わずかな差ではなく、圧倒的な差をつけています。Gemini 2.5は、ますます複雑な問題に取り組むために設計された思考モデルです。このGemini 2.5実験モデルは、すべてのベンチマークで有意な差をつけてリードし、強力な推論能力と信じられないほどのコード能力を示しています。このモデルがAI業界に多くの変化をもたらした理由と、今後何が起こるかを見ていきましょう。
すぐにベンチマークの話に入りますが、ベンチマークは通常、企業がモデルの成功をアピールするために示すものです。現在、最新版のGemini 2.5 Proは、重要なすべての分野で優れた性能を発揮しています。これらのベンチマークを見てみると、Gemini 2.5 Proが本当に優れた性能を発揮していることがわかります。そして私が気づき始めていることの一つは、これらのベンチマークが飽和し始めているということです。ベンチマークの飽和は、モデルが非常に優れるようになり、すべてが自然な点に収束し始めるときに発生します。
Gemini 2.5 Proを見てみると、GPQAではすべてのモデルが約80%前後で、Geminiは84%です。数学のベンチマークであるAME 2025では、すべてのモデルが約85%前後で、Geminiは86.7%です。AME 2024では、モデルは約90%前後で、Geminiは92%です。Live Codebench V5では、すべてのモデルが約75%前後です。Geminiの際立った特徴の一つは、実際にビジュアルランキングでした。ビジュアルランキングは非常に重要だと思います。ビジョンはAIではまだ十分に探求されていない分野ですが、Googleはその分野で勝利を収めたようです。ビジョンに基づく試験であるMMLUでは81.7%の性能を発揮し、他のどのモデルも大きく上回っています。長文コンテキストのベンチマークであるMRCRでは、このモデルも91%を獲得しています。そして他の画像ベンチマークでも、このモデルは非常に優れた性能を示しています。このモデルの重要なポイントの一つは、ビジョン分野で本当に重要なモデルであり、マルチモーダルコンテキストの理解にどれほど優れているかを示していると思います。
Gemini 2.5の際立った特徴について疑問に思っている方のために言うと、私はビジュアル推論を挙げます。それだけでなく、コーディングも優れています。aeenticコーディングを見ると、Claude 3.7 Sonnetにわずかに及ばないだけですが、興味深いことに、ADA polyotテストでは、実際に最先端レベルの性能を発揮しています。ADA Polyglotテストは、複数の異なる言語をカバーする実世界のソフトウェアエンジニアリングタスクをテストする包括的なテストです。これは本当に驚くべきことで、長い間Claudeがコーディング能力の面ではリーダーであったことを考えると特筆すべきです。
これらのベンチマークを実際に見てみると、私が最も印象的だと思うことの一つをお見せしたいと思います。推論と知識に関して、Google Gemini Proが際立っている重要な点は、他の多くのモデルがまだ突破できていないベンチマークです。これは「人類最後の試験」と呼ばれるもので、AIシステムの限界をテストするために設計された挑戦的なモデルベンチマークです。Center for AI SafetyとScale AIが共同で作成したもので、数学、人文科学、自然科学にわたる3,000の明確で簡単に検証できる学術的質問で構成されています。この試験は、50カ国の500以上の機関に所属する教授、研究者、大学院の学位保持者など、約1,000人の専門家の貢献によって開発されました。このベンチマークは、すでに多くの異なるベンチマークで90%を達成するAIの急速な進歩に対応して作成されました。これはもちろん飽和に達しています。
これが非常に印象的だと言うのは、質問の10%だけが画像とテキストの両方を必要とし、90%はテキストベースであり、これには専門家レベルの難しさも含まれているからです。これらの質問は意図的に難しく、多くの場合、大学生のほとんどが何を聞かれているのかさえ理解できないレベルですが、Google Geminiは18.8%を獲得しています。このベンチマークは非常に多様で、化学、生態学、純粋数学、古代ヘブライ語、ロケット科学、ギリシャ神話、そしてほぼすべての体系的な研究分野が含まれています。驚くべきことに、このテストには答えがありますが、インターネット検索だけでは迅速に解答できません。実際に優れた推論が必要です。もちろん、これが「人類最後の試験」と呼ばれるのは、これが人間がAIの支援なしで作成し採点できる最後の一般知識ベンチマークかもしれないからです。Google Gemini 2.5 ProがOpen 3 MiniやCore 3.7 Sonetを18%上回ることができるということは、推論面で彼らが何か本当に優れたことをしたことを示しています。
公式ベンチマークを見てきましたが、偽装できないベンチマークも見てみましょう。大規模言語モデルアリーナ、実際に実ユーザーが日常的に使用しているものを見るベンチマークに目を向けると、実に興味深いことがわかります。Gemini 2.5 Proは、人間の関与に関する多くのベンチマークで実際に優れています。先ほどベンチマークを見て、もちろんベンチマークが飽和状態に達しているため、Gemini 2.5 Proには際立った領域がなかったと言えますが、ユーザーが毎日異なるAIモデルを使用しているアリーナでは、Gemini 2.5 Proが最も使用されているモデルであることがわかります。そして最も驚くべきことは、ELOジャンプが実際にかなり大きいことです。これは実際に40ポイントで、これまで存在したAIモデルからの最大のスコアジャンプでした。彼らは明らかに何か新しいことをしています。このモデルをどうやってこんなに早く出せたのかわかりませんが、このELOジャンプは本当に印象的です。
また、ビジョン分野に目を向けると、先ほど言ったように、ビジョンは非常に過小評価されているAIの使用形態です。多くの人は画像を分析したいとは思わないからですが、信じてください、数年後にはこれは広範囲に及ぶ影響を持つでしょう。ビジョンでできることは非常に多くあります。例えば、ビデオを分析するように頼んだり、画像の中の特定のものを指摘するように頼んだり、画像の中のものを変更するように頼んだりすることができます。可能性は完全に無限です。そして私は、人々がそれほど多くのクレイジーなユースケースを見ないため、ビジョンモデルは実際にテキストの多くの場所から遅れていると思います。しかし、他のすべてのモデルと比較して、再び大きなジャンプがあることは本当に非常に印象的です。
私が本当に印象的だと思う別のこと、それはGoogleが他のすべてのAI企業を追い詰めていることを示していると思うのは、彼らがWeb開発アリーナで他のすべての人を上回ることに成功したという事実です。これはもちろんWeb開発分野で、驚くべきことに、第1位のモデルはClaude 3.7 Sonicで、明らかな差をつけています。これはかなり驚くべきことです。なぜなら、Googleがこのコーディング分野で8位から2位に上がったのを見たことがないからです。これが非常に印象的である理由は、これまで他のモデルがClaudeが提供してきたものに近づいたことがなかったためです。そして初めて、これは実際に私がワークフローで使用しているAIです。これは間違いなく、私のコミュニティでいくつかの重要なAIワークフローをリリースする予定のものであり、みんなにこれをどのように活用するかを示しています。そして今日すでに、究極のGemini 2.5 Proチートシートをリリースしました。私のコミュニティをチェックすることを忘れないでください。アクセスしたい方は、バイオの最初のリンクになります。
私が本当に興味を持っているベンチマークの一つはシンプルベンチマークです。シンプルベンチは、AIが本当に推論しているかどうかを捉えるように設計されたベンチマークです。問題の一つは、これらのAIシステムが推論しているように見えるような話し方をすることです。ある人が発見した重要な個人的問題は、多くの場合、モデルが実際に推論していないことに気づかないことです。つまり、他の質問からの推論ステップを再現しているだけで、問題を見ているだけで、この試験で何が正しいべきかを真に分析していないということです。これは人間レベルの推論のためのテストと呼べるかもしれません。ここでは人間のベースラインは83%で、現在の最先端モデルであるClaude 3.7は思考モードでも46%しかスコアしません。多くの質問は、人間が簡単に答えられるものです。なぜなら、私たちは物理学の基本的な理解を持っていると思うからです。例えば、質問の一つは「炎の上に氷のキューブを約5分間置いた場合、2分後に何個の氷のキューブが残っているか」というものです。多くの場合、これらのAIは氷のキューブがまだそこにあると考えるように騙され、推論を始め、一連の数学を行いますが、表面的な価値では、そこに氷はないことがわかるでしょう。これは私が本当に興味を持っていることです。なぜなら、最後にここでモデルを取得して、それらが本当にうまく機能して、約46%を獲得したからです。これは、パフォーマンスがどうなるか本当に興味深いベンチマークになるでしょう。
コーディング分野を見ると、Googleはさまざまなデモをリリースしました。例えば、誰かが星雲の反射のシミュレーションのHTMLファイルを欲しがっているところを見ることができます。Google AI Studioに行き、このプロンプトを入力すると、このAIは単純にこれを一発で多くの異なるコード行で実行できます。まず推論し、次に必要なアプリをコード化し、そしてもちろんコピーしてHTMLのcode penに貼り付けると、エンターを押すとこのシミュレーションがここにあることがわかります。これはAIがとてもうまくコードを書ける能力として本当に興味深いことです。
また、Mandelbrotセットのデモもあります。再び「p5.jsを使用してマンデルブロセットを探索する」と言うことができ、そして個人はもう一度Gemini 2.5 Proをリクエストすることを決定します。再びその考えが浮かび、非常に興味深いことに、OpenAIのモデルとは異なり、思考の連鎖を実際に見ることができます。それが考えていることを正確に見ることができ、そしてもちろん、これを再び使用してプレイをクリックすると、マンデルブロセットのデモを取得できることがわかります。これはもちろん数学では有名なパターンで、それは続き続けます。これは本当に興味深いことですが、これらのものは全くコーディングが簡単ではありません。
もちろん、これはGemini 2.5 Proができるインタラクティブなプロッティングデモです。plotly expressを使用したアニメーション付きバブルチャートを作成し、各大陸の経済と健康指標が年々どのように進化してきたかについて話しているのがわかります。再び思考部分があり、これらのモデルを使用する予定があれば、モデルがどのように考えるかを見ることをお勧めします。なぜなら、それによってモデルがあなたがこれを行うために使用しているのと同じタイプのロジックで推論しているかどうかを確認できるからです。ここで見ることができるように、プレイをクリックすると、これは何か興味深いものを生成し、このインタラクティブなチャートを生成するのがわかります。これは一つのプロンプトで一発で生成したもので、これは本当に興味深いことです。これにはさまざまな用途があります。手元にあるデータを素早く視覚化したい場合などは、これをお勧めします。なぜなら、これは私がいつも使っていたことだからです。
例えば、六角形のデモの中の少年たちがあります。p5.js、HTMLなし、回転する六角形の中で30匹のカラフルな魚が泳いでいる群れ、再びこれを行うためにモデルを使用することができます。実行をクリックして思考に進むと、さまざまなことについて素早く考えているのが見えます。そして皆さんはこの要点を理解していると思います。これは包括的なモデルで、様々な方法でさまざまなことができます。そして以前に言ったように、以前はできなかったさまざまなことができるかどうかを確認するために、このモデルを使用することを強くお勧めします。多くの人々がこのモデルを最先端で使用していることを考えると。
全体として、皆さんはGemini 2.5 Proについてどう思いますか?Googleが再びそれをやったと思いますか?私は確かに彼らがAIレースをリードする最先端の分野にいると思います。しかし、AI業界にはいくつかの変化があると思います。彼らは間違いなく、私たちがこれらのツールを使用する方法を変えるでしょう。この動画を楽しんでいただけたなら、動画にいいねを残すことを忘れないでください。次回の動画でお会いしましょう。


コメント