AIにおける新たなブレークスルー(Gemini 2.5 Pro アップデート):その能力が信じられないほど凄い!

AGIに仕事を奪われたい
この記事は約16分で読めます。

9,434 文字

Nouvelle Percée en IA (Gemini 2.5 Pro MAJ) : ses Capacités sont Dingues !
🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

今日は素晴らしいことについてお話しします。Googleが、これまでに作られたコーディングのための最高のAIモデルをちょうどアップデートしたんです。これは誇張ではありません。2、3日前、私たちは画像生成のための最高のモデルを見ましたが、今度はGoogleがGemini 2.5 Pro IO editionをリリースしました。すぐにこれが何を意味するのか説明しますが、実際に私は徹底的にテストしてみました。このモデルは、AIにとって非常に難しいとされる有名なデモのいくつかを実行できるのです。今日はその驚くべきパフォーマンスをお見せします。
ご覧ください、AIにとって非常にコーディングが難しい5つのソフトウェア例をGoogleのGeminiに与えて、それらをクリアできるかどうかを確認し、結果に応じてチェックマークまたはバツ印をつけていきます。ここから徐々に難しくしていきますので、最も簡単なものから最も難しいものへと進めていきます。しかしテストの前に、彼らが追加したすべての機能が含まれたブログ記事を見てみましょう。これは、すでに非常に優れていた、信じられないほど優れていたモデルに対する非常に大きな改善です。
すでに少しテストする機会があり、Xで取り上げましたが、単純に信じられないほど素晴らしいものです。最後のテストは驚異的なので、最後まで見ていてください。
始める前に、動画を見ていて気に入ったら、まだであればチャンネル登録やいいねをお願いします。また、ニュースレター(メーリングリスト)を設定したことをお知らせします。登録するだけで、月曜から金曜まで最新のテック情報をまとめたメールをお送りしますので、テクノロジーの世界で何が起きているかを常に把握できます。
では、動画を始めましょう。Gemini 2.5 Proのアップデートブログ記事を見てみましょう。この新しいモデルは「Gemini 2.5 Pro preview i/O edition」と名付けられています。これは彼らの年次カンファレンスの名前で、素晴らしい新技術をすべて発表する場です。彼らはこのアップデートをカンファレンスの名前にちなんで名付けました。実はこのモデルは近日開催される会議で発表する予定でしたが、Grockや中国のモデルなどからのプレッシャーに直面して、スケジュールを前倒しにし、今回リリースすることにしたのです。
まずページを翻訳して見てみましょう。最初に書かれているのは、コーディング能力が大幅に向上したというアップデートです。これは重要なポイントで、その理由はすぐにわかります。特にインタラクティブなウェブアプリケーションの構築に関して向上しています。これから全てテストします。前述の通り、彼らは数週間後のGoogle IOカンファレンスでこのアップデートを公開する予定でしたが、スケジュールを早めることにしました。
次に例が示されています。Gemini 2.5の能力についてもう少し詳しく説明されています。このツールのもう一つの主要なアップデートは、前バージョンよりもはるかに効率的にエージェントツールを利用できるようになったことです。Chat GPT O3がリリースされたときのテスト動画を覚えているかもしれません。そこでは、画像を与えてその画像がどこにあるかを見つけさせるなど、たくさんの例をテストしました。そこではエージェントツールと呼ばれるものを使っていました。例えば画像を分析するツールや、ヒエログリフを分析するためにさらに他のツールを使って画像を白黒に変換するなど、それらすべてがエージェントツールと呼ばれるもので、新バージョンのGoogle Geminiでも改善されています。
次に、LM Arenaのランキングを見てみましょう。これは人間の好みに基づく最高のAIランキングです。人間の多くが好むAIはどれでしょうか?2025年5月6日のGemini 2.5 Pro previewが1位であることがわかります。4月16日版の前バージョンを追い抜いたのです。
言語面ではこれは小さな偉業ではありませんが、もっと詳しく見ていくと、web dev arenaでは客観的な結果に基づいたコードとコンピュータープログラミングに特化したランキングがあります。そこでGeminiは1419点で、前バージョンから147ポイント向上しています。これは小さな改善ではありません。コンピュータープログラミングの分野では有名なClaude 3.7 Sonnetさえも追い抜いています。
ベンチマークについてはもっと話せますが、今日では特定のベンチマークではあまり意味をなさなくなっています。私の経験では、洗練されたアプリケーションやゲーム全体を構築するための信じられないほど長いコードを生成できる唯一のモデルは、Gemini 2.5とChat GPT O3です。
価格についても話しましょう。それも印象的です。Googleは最先端の一流モデル(State of the earthモデル)を持っているだけでなく、その知性レベルとしては最も安価です。入力トークン100万あたり2.5ドル、出力トークン100万あたり15ドルです。これをChat GPT O3の価格と比較すると、入力は4倍、出力は約3倍も高くなります。実際、Gemini 2.5 Proよりも安いモデルは、オープンソースのDeepseek R1だけで、それは当然のことです。
ベンチマークは良いですが、実用的なアプリケーションに移りましょう。これこそが本当に重要です。この新しいモデルが実際どれだけの価値があるかをテストします。そのために、今日行う5つの例を用意しました。もしこのモデルをテストしたい場合は、Google Studio AIにアクセスし、モデル選択でGemini 2.5を選び、5月6日のGemini 2.5 Pro previewを選択してください。つまりIO editionです。
最初の例として、簡単なガルトンボードのシミュレーションをしてみましょう。ガルトンボードとは、二項分布が正規分布に収束することを示す物理シミュレーション装置です。これは一度は見たことがあるはずです。もっと詳しく知りたい方のために言うと、二項分布が正規分布に収束することを示す装置です。
そのために事前にプロンプトを準備しました。それをLMスタジオに貼り付けて、それ以上何も考えずに実行します。もちろん、すべてが正しく取り込まれたことを確認します。ここでトークン数は534です。パラメータはそのままで、コード実行だけを有効にします。これによりコードを実行しデバッグすることができます。それではrunをクリックします。
最初の結果が出ました。80秒の計算の後、コードが表示されました。単純にダウンロードボタンをクリックします。これはHTMLコードです。実行すると、これが結果です。
最初の試みとしては、かなり正確なボードに見えます。「ボールを落とす」をクリックします。ボール数は100個にします。そして実行すると、ボールのシミュレーションがうまく動いているのがわかります。リセットボタンも機能しています。ボール数を変更してみましょう。1個にすると、1つのボールだけが落ちます。10個にすると、10個だけのボールが落ちます。
最初の結果としては良いですが、もう少し欲しいところです。スライダーを追加して物理パラメータを変更できるようにしたいです。というのも、このシミュレーションの目的は初期条件と様々なパラメータをテストすることだからです。それをやってみましょう。Google Studioに戻り、「物理パラメータを変更するためのスライダーを追加してください。反発力、摩擦、密度など。さらに投下の高さも」と追加します。
2つ目のバージョンができました。すでにずっと良くなっています。見た目も良くなりました。左ではなく、きちんと中央に配置され、私が要求した通りのスライダーも追加されています。テストしてみましょう。例えばすべての値を1にして、ボールを落としてみます。
ボールがより多く跳ね返り、より均等に分布しているのが分かります。10個のボールでテストしても、何も壊れていません。リセットして、例えば投下の高さをテストしてみます。ここでは45になっていて、低い位置から落としています。10に設定すると、もっと高い位置から落とします。すべてがうまく機能しているようです。シンプルなプロンプトだけで、Geminiは2分以内にこれをコーディングしました。印象的です。この最初の例では、予想通り、新しいバージョンのGoogle Geminiにチェックマークをつけます。
次に、粒子シミュレーションまたは粒子の可視化に取り組みましょう。Google Gemini Flashがリリースされたときの動画を覚えているかもしれませんが、そこでは今から試すようなシミュレーションをテストしました。GoogleのGeminiに特定の形を表示する粒子シミュレーションを作るよう依頼しました。これはAIが動画を読む能力をテストするためでした。この例はXでPunetteという名前のユーザーからのもので、彼がこのシミュレーションをコーディングしました。
今回は同じテストをGeminiの大規模モデル、つまり完全版の2.5で行います。Flashでテストしたものと比較します。ユーザーの動画を再度ダウンロードし、Geminiにそれを貼り付けるだけで、特に深く考えずに実行します。適切なGeminiモデルを使用していることを確認します。AIが動画を読み取り、抽出を開始します。「このシミュレーションを正確に再現してください、それ以上のことはしないでください」と指示します。テストしたいのは、動画を読み取り、動画内で何が起きているかを理解し、その情報を利用する能力です。これはAIにとってかなり難しいタスクです。
結果を見てみましょう。先ほどお見せした動画を再現しようとしています。まず気づくのは、Gemini Flashではできなかった全体にズームできる機能が追加されていることです。形が変わるかどうか見てみましょう。はい、形は変化します。ただ、粒子が動画と比べて少し大きいように感じます。動画ではもっと細かく、違いがよりはっきりと見えます。ここではまったく同じではありませんが、違ったスタイルといえばいいでしょうか。少なくともすべてがうまく機能しているようです。色を変更してみると、それもうまく動作します。
すべての形が元の動画から正確に再現されています。新しいGeminiは動画を入力として取り込み、直接コードを再現する能力を失っていません。非常に印象的です。でも改善してみましょう。粒子を洗練させて、より美しくするようにプロンプトで指示してみます。
結果をご覧ください。はるかに良くなりました。最初の印象として、より細かく、より詳細で、見た目もより良くなっています。「形を変更」をクリックすると、うまく機能し、より細かい粒子で異なる形が表示されます。少し見にくいかもしれませんが、1回ではなく2回の反復で完成しました。この効果は非常に素晴らしいです。Flashでは全くこのような形を再現していませんでした。とても美しい表現で、作るのにわずか2分程度しかかかっていません。この動画をダウンロードして、Geminiに与え、同じように洗練させるよう指示すれば、あなたも試すことができます。
予想通り、Gemini Flashは成功し、完全版のGemini 2.5 Proも成功しました。粒子シミュレーションでもチェックマークです。
次の例ではさらに複雑にしていきます。たまごっちゲームを作りましょう。おそらく皆さんはご存知だと思いますが、90年代に非常に人気がありました。生き物を生存させなければならない小さなデバイスでした。これをウェブ版で再現してみましょう。この例は非常に興味深いです。プロンプトと画像の組み合わせを与えるからです。
Google Studioに戻り、まずたまごっちの画像を与え、たまごっちが何であるかをよく説明するために、より複雑なプロンプトを作成します。プロンプトを入力し、コード実行を有効にしてrunをクリックしました。入力は890トークンだけです。たくさんではありませんが、100万トークンまで利用可能です。画像とプロンプトを与えました。「たまごっちゲームのシミュレーション」です。
このプロンプトはChat GPTの助けを借りて作成しました。もし私の学生であれば、「プロンプトパーフェクト」テクニックと呼ばれるものを知っているでしょう。基本的に、たまごっちゲームの動作方法についていくつかの仕様を要求しました。AIは自分で考え始めています。
結果をご覧ください。元の画像にかなり近いものができました。少なくとも、できる限り再現しようとしています。Pythonでプログラミングされています。すべてがうまく機能するか見てみましょう。たまごっちのように、このボタンを押してメニューをナビゲートできます。
気づいたのですが、文字も大文字と小文字を画像の通りに再現しています。これは予期していなかったことです。すべてがうまく機能するか見てみましょう。ステージがあります。selectをクリックすると、ステージが表示されます。これは赤ちゃん段階で、空腹レベル、幸福度レベル、健康レベルなどがあります。すべてうまく機能しているようです。リセットをクリックすると、初期状態に戻ります。
餌をあげてみて、次に治療をクリックすると「病気ではありません」と表示されます。すべてがうまく機能しています。本当に示したかったのは、今日のAIで非常に短時間で何ができるかということです。ここでは、1つのプロンプトと1枚の画像だけで、たまごっちゲームを1分か2分で再現しました。2年後には何ができるようになるか想像してみてください。この例は、以前のAIでは一度でできませんでした。多くの反復と行き来が必要でした。もちろんバイブコーディングで達成できましたが、一発でこれが可能になるのは本当に大きなアップデートです。コーディングランキングで1位になったのも不思議ではありません。もちろん、更なる改善や新機能の追加、外観の変更などを要求することもできますが、この例の本質はご理解いただけたと思います。これもチェックマークです。この非常に複雑な例でも成功しました。
次の例は、タワーディフェンスゲームです。ここから本当に複雑になっていきます。複数のインタラクションレベルがあるからです。このようなゲームはより洗練されており、より多くの関数呼び出しなどが必要です。新しいチャットを開き、同じテクニックで、望むゲームの主要部分を説明するプロンプトを準備しました。
ここに彼がコーディングしたゲームがあります。一見して、見た目はかなり良いです。これはタワーディフェンスの原理です。ここでタワーを配置すると機能し、お金が減っていくのがわかります。「ラウンド開始」をクリックすると、敵が数字付きで現れ、タワーが発射を始めますが、敵が消えません。彼らは最後まで進んでしまいます。波が終わるのか見てみましょう。終わりました。続けてみましょう。同じように敵は死なず、ゲームオーバーになります。バグがあります。
AIに問題を解決するよう依頼しましょう。スクリーンショットを撮り、Google Studioに戻ります。いつものように「敵のライフがゼロになっても消えません」と書き、送信します。AIは画像を分析し、何が起きているかを確認して、エラーを修正します。2回目の試行でGeminiは成功するでしょうか?
ゲームの2回目の反復です。インターフェースは同じです。タワーをいくつか配置し、開始をクリックします。問題が解決されました!敵がタワーに当たると消えるのが見えます。上部に波の番号が表示され、敵を倒すごとにお金が増えています。ラウンドは終了しました。2回の反復でバグを修正できました。もちろん、これは基本バージョンです。これからは機能を追加したり、インターフェースを変更したりすることが、いわゆる「バイブ」の原則です。タワーディフェンスゲームのテストもチェックマークです。これはすでに少し複雑なものでした。
さて、Geminiで私が本当に気に入っている最後の機能をお見せします。紙に描いたアプリケーションのスケッチをAIに与え、それを作ってもらうというものです。その前に30秒お時間をください。
Gemini、Chat GPT、ClaudeなどすべてのAIが指数関数的なスピードで進化していることに気づき、取り残されたくないなら、私はあなたのために特別なものを開発しました。AIを学ぶコースです。私はAIエコシステムに直接飛び込める非常にアクセスしやすいトレーニングを作りました。実用的で効果的、そして何よりもリーズナブルな価格です。基本から始めて、このようにより複雑なシステムを構築していきます。全く専門家である必要はなく、初心者から上級者まで対応しています。あらゆるモデルとさまざまなツールを活用して、すべてのタスクを達成する方法を本当にお見せします。過去3ヶ月で1500人以上を訓練し、フィードバックは信じられないほど良いものでした。ありがとうございます。
よく「なぜ価格がこんなに低いのですか?」と質問されます。それはまさにこのためです。フィードバックが素晴らしいのです。私はこの知識を、数百あるいは数千ユーロも支払わなくても、できるだけ多くの人がアクセスできるようにしたいのです。単純に言えば、高すぎるトレーニングが多すぎて、本当に多くのツールや日常生活のための実践的なことを教えていないからです。
だからこそ手頃な価格を維持したいのです。もしAIをマスターしてプロセスを自動化し、追加収入を生み出したり、単にこの技術革命の最前線に立ちたいと常に思っていたなら、今がチャンスです。正直に言って、数ヶ月後には、この動画で見ているGemini 2.5 Proのようなハイブリッド推論モデルを活用できる人が、他のすべての人に対して決定的な競争上の優位性を持つでしょう。すべてのリンクはこの動画のピン留めされたコメントや説明欄にあります。この機会を逃さないでください。これは一度しか訪れない重要な瞬間です。
それでは動画に戻り、この例をテストしましょう。Paintソフトを開きました。紙に描いても同じです。鉛筆で描いた後に携帯で写真を撮れば同じことができます。
これが私が想像したものです。真ん中に描画領域がある窓で、下部に色があります。5色ほど用意しました。上部に2つの小さな四角があり、「ツール」と書かれています。鉛筆や消しゴムなどの異なるツールと、サイズを変更できるようにしたいです。ブラシのサイズを変更するためのものです。
これはどんな方法でも描けるスケッチです。スクリーンショットを撮り、Googleに戻って新しいチャットを開き、画像を貼り付けます。単に「このアプリケーションをコーディングしてください」と言います。頭を悩ませずに、このようなシンプルな画像から何を理解するかをテストしたいのです。コード実行をオンにして、runをクリックします。
彼がコーディングしたものをご覧ください。第一印象として、信じられないほど良いです。私のスケッチをうまく再現できました。判断してください、うまく再現されていますか?正直なところ、はい。彼が成功したのは本当に素晴らしいことです。
テストして、すべてがうまく機能するか確認しましょう。2つのツールが用意されています。鉛筆と消しゴムです。もっと多くのツールを追加することもできましたが、写真ではどのツールが欲しいか指定していなかったので、文句は言えません。欲しいツールの小さなアイコンを入れることもできました。サイズは機能しているようです。
試してみましょう。赤を選んで描いてみます。機能します。サイズを小さくすると、鉛筆のサイズが小さくなります。大きくすると、鉛筆のサイズも大きくなります。すべての色がうまく機能しています。アプリケーションは機能しています。2分か3分しかかかっていません。プロンプトも練り上げていません。「このスケッチをコーディングしてください」とだけ書きました。どう思いますか?日が経つにつれ、バージョンが進むにつれ、より複雑なアプリケーションを作れるようになっています。どんどん複雑化しています。
ほんの2ヶ月前、Snakeゲームをテストしていたことを覚えていますか?当時はすでに驚くべきことでした。4〜5ヶ月前は、さらに別のことを要求していました。単語を与えて「この単語を使って3つの文を作ってください」と言っていました。それができるだけでも驚異的でした。今日、私たちがどこまで来たか見てください。この動画で見たようなアプリケーションを要求しています。確かに小さなアプリケーションですが、非常に簡単なものでもありません。
情報科学の1年生に同じことを頼んでも、2分ではできないでしょう。もちろんできますが、時間がかかります。AIの進歩は本当に指数関数的で、見るのが信じられないほどです。ということで、最後の例にもチェックマークをつけておきます。
今日の動画で、Google Gemini 2.5 Pro、Googleの新しい大型アップデートは本当に話題になり始めています。Xをブラウズするだけで、人々がこのAIモデルを使って、ますます複雑なことをするのを見ることができます。これが主要なバージョンであることを理解するためです。
最新情報をリアルタイムで知りたいなら、Xで私たちに参加してください。AIとテクノロジー、特にロボット工学の世界で何が起きているかを本当に時間単位でカバーしています。あまりにも多くのことが起きているので、YouTubeですべてをカバーすることはできません。もしXに興味がなければ、ニュースレターに登録することもできます。月曜から金曜まで毎日、その日の技術的ブレークスルーのベストサマリーをメールでお送りします。
コメント欄で教えてください、この新しいGeminiをすでにテストする機会はありましたか?もしなければ、普段行っているテストで試してみることをお勧めします。以上です。ここまで動画をご覧いただきありがとうございます。次回もお楽しみに。ニュースレター、Twitter、トレーニングへのリンクはすべて、コメントや動画の説明欄にあります。
信じてください、今がAIを学び始めるときです。日々進化していますが、決して遅すぎることはありません。ぜひトレーニングを受けて進化し、時代の流れに乗り続けてください。この技術は本当に早く進化しており、できることは信じられないほどです。いくつかの例を見ましたが、実際にはたくさんあります。ありがとうございました、また次回お会いしましょう。

コメント

タイトルとURLをコピーしました