Gemini 2.5 Pro: これまでで最高のモデルがGPT 4.5、Deepseek R1、3.7 Sonnetを打ち負かす!(完全テスト済み)

AGIに仕事を奪われたい
この記事は約9分で読めます。

4,856 文字

Gemini 2.5 Pro: BEST Model Ever BEATS GPT 4.5, Deepseek R1, 3.7 Sonnet! (Fully Tested)
Google has just dropped Gemini 2.5 Pro Experimental, and it’s absolutely insane! This model is #1 on LMArena, beating GP...

私のTwitterでのGoogle新モデル発表に関する投稿が的中したようです。本日、Googleが過去最高の知性を持つモデルを発表しました。Gemini 2.5の登場です。これは彼らの初めてのProE実験モデルシリーズのリリースで、様々なベンチマークで最先端の成績を誇ります。つまり、複雑な問題を処理し、より正確な回答を提供できるということです。
これは実際にこれまでにリリースされた中で最高のモデルであり、OpenAIのO3 Mini、GPT 4.5、Claude 3.7 Sonnet、DeepSeek R1を上回る性能を持ち、100万トークンのコンテキスト、ツール使用、構造化出力の機能を備えています。Google AI Studioで完全無料で利用でき、今日からAPIを通じてアクセスすることができます。
Gemini 2.5 Pro Experimentalは最先端の思考モデルで、幅広いベンチマークでリードしており、推論とコーディングの能力が大幅に向上しています。LM arenaで大差で1位を獲得しています。
興味深いのは、これが回答する前に考えを整理するよう設計された思考モデルであり、正確さとパフォーマンスにおいて優れていることです。単なる分類や予測を超え、情報を分析し、論理的な結論を導き出し、文脈を取り入れることができます。このモデルはGemini 2.0 flash思考モデルをベースに構築されており、ベンチマークスコアにおいて驚異的な性能を示しています。
ご覧ください。このモデルはO3 Mini、OpenAIの新モデルであるGPT 4.5、Claude 3.7 Sonnet、さらにGrok 3やDC1など多くのモデルを上回っています。最も強力なコーディングモデルの一つと報告されていますが、OpenAIのO3 MiniやClaude 3.7 Sonnet(最高のコーディングモデル)にはわずかに劣ります。しかし、ビジョンやMMLUなどの他のベンチマーク、および推論や科学ベンチマークのほとんどのカテゴリーでリードしていることは素晴らしいことです。
始める前に、World of AIニュースレターにぜひ登録することをお勧めします。私は毎週様々なニュースレターを投稿しており、AIの分野で何が起きているかについて最新の知識を簡単に得ることができます。完全に無料なので、ぜひ登録してください。
冒頭で述べたように、Google AI Studioに行き、ドロップダウンメニューをクリックして新しいPro Experimentalモデル、Gemini 2.5 Proを選択するだけで簡単に始めることができます。APIにもアクセスでき、Open Routerからも無料APIを取得できます。これが簡単に始める方法です。
ビデオの次のセグメントでは、数学から論理的推論、コーディングまで様々なプロンプトでこのGemini 2.5 Proモデルを評価していきます。様々なカテゴリーで、このモデルがどれだけ効率的にコードを提供できるかを見ていきましょう。
まず、HTML、CSS、JavaScriptを使って、ユーザーが月々の収入と支出を追跡できるレスポンシブなウェブアプリを構築してもらいましょう。昨日DeepSeek 3モデルに依頼したものよりも少し難しいプロンプトを全て作成しました。
アプリの構築が完了したようです。このコードをフォルダにコピーして開いてみましょう。コードを全てこのフォルダに入れました。開いてみると、絶対に素晴らしいです。これは昨日のDeepSeek V3で得たものよりもさらに良く見えます。
この場合、任意の支出、例えば光熱費のような異なるカテゴリーの支出を追加することができます。例えば$100や$1,000などを入力し、日付を設定します。そして取引を追加すれば、円グラフとして視覚化したり、上部パネルで支出を確認したり、月々の収入と支出を視覚化することができます。昨日のモデルでは実現できなかった機能的なウェブアプリが実現しました。これは素晴らしいです。合格としましょう。
次に、「ライフゲーム」を作成するよう依頼しました。これはグリッド操作のロジックを必要とする、よく知られた細胞オートマトンのシミュレーションを実装する能力をテストするプロンプトです。これをPythonファイルで開いて、実際に生成されるかを確認します。
素晴らしいのは、このモデルがライフゲームを実行する基本的なスクリプトを生成しただけでなく、グライダーパターンや速度を変更する機能など、いくつかの追加機能も付け加えたことです。デスクトップに移動して、このPythonファイルを実行し、生成されたものを確認しましょう。
実行すると、このグリッド内で開かれます。そこに機能的なコンウェイのライフゲームがデスクトップ上に生成されました。これは間違いなく合格です。
次に、どのモデルにとっても解決するのが最も難しいプロンプトの一つを送信します。対称的な羽と単純なスタイリングを持つ蝶のSVG表現を作成するというものです。ここでは、SVGコードを出力する点でモデルを評価しています。この特定のケースでは、SVGの構文を評価し、ベクター形状を作成してスタイリングを適用する能力を試しています。
このSVGコードをコピーして、オンラインビューアに移動して表示してみましょう。真実の瞬間です。これを貼り付けます。そこに素晴らしい蝶の生成があります。虫の体と羽の生成を素晴らしくやり遂げました。両方の羽にスタイリングが施されているのが見えます。これは本当に素晴らしいです。間違いなく合格です。この品質のものを生成できて本当に嬉しいです。
次に、農家が三角形の畑を持っており、その三辺がそれぞれ13m、14m、15mの長さであるというプロンプトを送信します。彼は頂点の一つを通る線で畑を同じ面積の2つの領域に分割したいと考えています。分割線の長さを求めてください。これは基本的に数学、特に幾何学に焦点を当てたプロンプトで、三角形の特性(特に中線が三角形を2つの等しい面積に分割する)についての知識をテストしています。
回答を読んでみると、正しい答えである11.24mと12.97mを提供してくれただけでなく、良い近似値も示してくれました。ステップバイステップで正確な答えを出し、値の近似値も示し、定理を使って答えを導き出したので、これは間違いなく合格と見なします。素晴らしい仕事をしてくれました。
次のプロンプトでは、列車Aが午前8時に都市Aを出発し、500km離れた都市Bに向かって時速70kmの一定速度で走行します。列車Bは午前9時に都市Bを出発し、都市Aに向かって時速80kmの一定速度で走行します。列車Aは出発してちょうど2時間後に15分間の予定された停車をします。列車Bは途中停車せずに走行します。
このプロンプトは、他のモデルに尋ねたものよりも少し難しくなっています。二つの小問を尋ねているからです。まず、列車が出会う時刻(時計の時間)、次に列車が出会う場所が都市Aからどれだけ離れているかを尋ねています。これはモデルの代数および速度問題の能力を評価するもので、距離=速度×時間という公式を使って一定の速度での動きをモデル化する能力を評価しています。
どのような答えが出るか見てみましょう。すべての変数を考慮しながら、どのようにこの答えに至るかを複数のステップで説明しています。質問の最初の部分については、11:59に会うという正しい答えを提供し、距離についても784/3kmという正しい答えを提供しています。これは間違いなく合格です。
次に、このPythonコードの論理エラーを特定して修正するようモデルに依頼します。このコードスニペットには3つの異なるバグがあります。productの初期化が不正確で1にすべきこと、型チェックが欠けていること、そして戻り値のロジックが欠けていることです。
素早く応答し、私が言及した3つのことに全て焦点を当てたのは素晴らしいことです。このコードを生成してデバッグしたのは素早かったです。送信した論理エラーを評価し、正しいコードを提供してくれました。また、行った変更の種類も説明しています。鳥瞰的に見ても正しく見えるので、これは私のシートでは間違いなく合格です。
次のプロンプトはディオファントス方程式で、基本的に数論と離散数学におけるモデルを評価しています。これは図書館購入の組み合わせ問題で、制約のある線形方程式を解く能力、正の整数解を見つける能力を評価しています。数論のテクニックで体系的に数を探す必要があるため、この方程式を解くのに約1分かかったと思います。
複数の異なる組み合わせを試して結論に達するかどうかを確認しているのが分かります。しかし、この特定のプロンプトには可能な組み合わせが実際には存在せず、それは正解です。結論に至らないことが分かります。これは間違いなく合格です。ほとんどのモデルがこの問題で失敗するので、このモデルがこれを解決できたことに実際に驚きました。
このビデオが気に入って、チャンネルをサポートしたい場合は、下のスーパーサンクスオプションを通じてチャンネルに寄付を検討することができます。または、毎月無料で様々なAIツールの複数のサブスクリプションにアクセスできる私たちのプライベートDiscordへの参加を検討してください。さらに毎日のAIニュースや限定コンテンツなど多くの特典があります。
最後に、複数のモデルでテストしたこのプロンプトがあります。ある町には二種類の人々がいます。真実しか言わない「真実の語り手」と、常に嘘をつく「嘘つき」です。あなたはA、B、Cという人々に会います。Aは「Bは嘘つきだ」と言い、Bは「Cは真実の語り手だ」と言い、Cは「AとBは異なるタイプだ」と言います。誰が真実の語り手で誰が嘘つきか、理由を一歩一歩説明しながら判断してください。
かなり迅速に答えを出してくれました。これは論理パズルで、定義されたルールに基づいた論理的推論と一貫性チェックをテストしています。この町の3つのタイプの人々の設定を特定し、この答えを解くための推論を探しています。これを解くには3つのステップがあります。
AがいつわりでBが真実の語り手、Cも真実の語り手であるという正しい答えを提供してくれました。これはすべて正確で、私が提供したすべてのテストにこのモデルが合格したことを嬉しく思います。これらのテストはほとんどのモデルにとって解決するのが非常に難しいものです。
Gemini 2.5 Proが正確な答えをすべて提供したことに大きな称賛を送ります。これは本当に素晴らしいモデルであり、非常に安価なので近い将来使用するつもりです。ただし、コーディングに関しては、LiveベンチやSway bench検証テストなどのほとんどのカテゴリーでのパフォーマンスとベンチマークスコアから、Claude 3.7 Sonnetを引き続き使用します。
これはマルチモダリティにおいても優れたモデルですので、それを念頭に置いてください。論理的推論を非常に上手く支援してくれるでしょう。ですので、下の説明欄にあるすべてのリンクをチェックしてみてください。
今日のビデオをお楽しみいただけたでしょうか。ニュースレターの購読、Patreonでのフォロー、Twitterでのフォローができるように、これらのリンクを説明欄に残しておきます。最後に、必ず購読して通知ベルをオンにし、この動画に「いいね」をして、そして過去の動画もぜひご覧ください。本当に役立つコンテンツがたくさんあります。今日はここまで、皆さん素晴らしい一日をお過ごしください。ポジティブな気持ちを広めて、またすぐにお会いしましょう。では!

コメント

タイトルとURLをコピーしました