Gemini 2.5 Proのコーディング能力がさらに向上

AGIに仕事を奪われたい
この記事は約12分で読めます。

7,130 文字

Gemini 2.5 Pro's: The Best Coding Model Just got Better
Testing Google's Major Gemini 2.5 Pro Update: Web Dev Capabilities Put to the Test!In this video, we dive into Google's ...

Googleが先日Gemini 2.5 Proの大型アップデートをリリースしました。このアップデートは、すでに優れているコーディング能力をさらに向上させるもので、特にウェブ開発に焦点を当てています。これによって、よりよく見えるウェブアプリを作成できるようになったとされています。この動画を録画している時点では、ウェブ開発アリーナのリーダーボードではClaude 3.7 Sonnetが最上位モデルでした。しかし、この新しいアップデートにより、Geminiが大差でリードすることになると予想しています。リーダーボードのスコアはまだ確認していないので、この時点では推測にすぎませんが、他のGeminiモデルと比較してテストし、どのように動作するか確認できます。
モデルはアーリーアクセスのGemini 2.5 Pro Previewとして表示されています。AIスタジオの比較機能を使用して、このモデルと前世代のGemini 2.5 Pro Preview 0325を比較してみます。AIスタジオ自体は、Geminiモデルをいじりたい場合には優れた製品です。最近、様々な機能を紹介する詳細な動画を作成しました。ぜひチェックしてみてください。リンクは動画の説明欄にあります。
まず、非常にシンプルなプロンプトでテストします。左側にはGemini 2.5 Pro、右側には新しくアップデートされた2.5 Proがあります。両方のモデルにファンタジースポーツリーグマネージャーダッシュボードを作成し、すべてを1つのファイルに実装するよう依頼します。両方のモデルからの生成結果と最終出力を比較してみましょう。
現在、両方のモデルが思考の連鎖のトレースを作成しています。Geminiモデルで本当に気に入っているのは、思考の連鎖の中で、コードをどのように実装するかについて具体的に考えており、時にはコードスニペットを実際に見ることができる点です。
両方のモデルのすべての設定はデフォルトでした。新しくアップデートされたバージョンは約60秒かかり、前世代は約50秒かかりました。両方の場合の思考の連鎖は非常に似ています。
まず、以前のGemini 2.5 Proを試してみます。このHTMLエディタを使用します。ここにコードがあります。右側にプレビューが表示されます。これがダッシュボードのプレビューです。異なるチームの順位、あるチームのロースター、そして試合があります。スケジュールがどのようになっているか、最近の活動は何かなどがわかります。見た目はかなり良好です。全く悪くありません。
次に、アップデートされたGemini 2.5 Proを見てみましょう。実際に非常に似ていますが、名前も同じです。提供した絵文字を見たようで、より多くの詳細が追加されています。複数の異なるタブが追加されています。これは異なる試合、フリーエージェントとのスケジュールです。機能するかどうかはわかりませんが、全体的なレイアウトは間違いなく改善されています。テーマも非常に似ているように見えます。提供した絵文字に触発されたかもしれません。それを削除して再実行し、何が起こるか見てみましょう。
今回も2.5 Proの方が53秒とかなり速く、アップデートされたバージョンは約60秒かかりました。同じプロンプトを絵文字なしで試してみて、出力の違いがどのように見えるか確認したいと思います。より難しいプロンプトでこれらのモデルをテストしますが、まずは視覚的な違いがどのように見えるかを確認したいと思います。これらは私の最初のテスト、最初の実行であり、初期印象を伝えているだけだということを覚えておいてください。
スピードに関しては、既存の2.5 Proが約50秒、アップデートされたバージョンが約64秒かかっています。アップデートされたバージョンは、現在使用している人はそれほど多くないと思うので、比較的短い時間で済むと思っていましたが、十分なリソースが割り当てられていないのかもしれません。
これが、アップデートされたプロンプトでの現行世代です。デザイン面でとても似たものが出来上がったことがわかります。要素を少し移動させましたが、リーグの順位があり、テーマも変更されています。絵文字の影響を受けたと思います。
アップデートされた2.5 Proをコピーしてみましょう。デザインやテーマは異なりますが、全体的には間違いなくずっと良く見え、より詳細になっています。複数のタブを追加することにし、タブ内でも異なる試合、最終スコア、対戦しているチームなどを追加しています。非常に洗練されています。このようなアプリケーションでは、以前のバージョンと比較して、間違いなくこの新しいバージョンを選ぶでしょう。
もう一つシンプルなウェブアプリを作成してみましょう。最初の25体の伝説のポケモンの簡単な百科事典を作成し、タイプ、スニペット、画像を含めるよう依頼します。そして再び、すべてを単一のHTMLファイル内に収めるよう指示します。2.5 Proとアップデートされた2.5 Proを実行しています。
今回は出力を生成するのにかかる時間が非常に似ていました。62秒対68秒です。トークン数を見てみましょう。新バージョンは約7,000トークンを生成しており、非常に似ています。興味深いことに、トークン数はまったく同じです。これはおそらくバグでしょう。同じコードとは思えないからです。
既存の2.5 Proバージョンから始めましょう。実行してみます。かなり洗練されていますね。小さなアニメーションも追加されています。カーソルを合わせると、カードが動いているのがわかります。非常に洗練されています。
アップデートされたバージョンはどのようなものでしょうか。コードを置き換えてみましょう。はい、非常に似ています。大きな違いはあまり見られませんが、非常に具体的な詳細を提供したためだと思います。だからこそ、非常に似た出力が見られるのでしょう。
次に、HTML、CSS、JSを使用してモダンなランディングページをコーディングし、すべてを1つのファイルに入れるよう依頼します。具体的な指示を提供しない場合、どのようなものが出てくるかを確認したいと思います。
これが現在のバージョンのGemini 2.5 Proです。うまく機能しているようで、モダンなSaaS企業向けの見栄えの良いランディングページになっています。こちらがアップデートされたバージョンです。機能面でもデザイン面でも非常に似ていますが、ここに絵文字や画像を追加しようとしたようですが、表示されていません。
次に、もっと複雑なことを試してみましょう。このプロンプトでは、コーディング能力だけでなく、モデルの創造性も発揮されます。0から9までの数字キーを使ってチャンネルを変更できるテレビをコーディングするよう依頼します。クラシックなテレビチャンネルのジャンルにインスパイアされた、すべての番号のアイデアを考えてもらいます。コンテンツの詳細で興味深いアニメーションを表示し、画面上にチャンネル名を作成します。名前は非常に創造的である必要があり、p5.jsスケッチを作成することになっています。HTMLは不要で、すべてのチャンネルのコンテンツがテレビ画面にマスクされるようにし、すべてを1つのファイルに入れるよう指示します。
両方のモデルにこのプロンプトを実行して、出力がどのようになるか見てみましょう。思考の連鎖は両方の場合で非常に似ており、大きな違いはあまり見られません。これは思考の連鎖の要約版かもしれないので、あまり違いが見られないのかもしれません。
再び、現行バージョンの2.5 Proはアップデートされたバージョンに比べてはるかに速いです。両方のケースで9,865トークンを確認しています。
これが現行バージョンです。要件を満たすことができているようです。これはチャンネル番号0、そして1、2、3、4、5、6、7、8、9でした。コードは約570行です。このコードを約570行です。これをコピーして、どのような出力が得られるか見てみましょう。
これがアップデートされたバージョンです。実行してみます。問題が発生しました。これは予想していなかったことです。このエラーのあるコードを両方の2.5 Pro(現行バージョンと新バージョン)に送信することになりますが、両方のモデルがこのエラーにどう対応するか見てみましょう。
アップデートされた2.5 Proからの更新コードをテストする前に、これらのモデルが内部でどのように考えているかを実際に見せたいと思います。本当に魅力的です。これは2.5 Pro 0325です。このモデルによって生成されたコードにはエラーはありませんでした。「エラーを分析しています」と言っています。これがエラーメッセージです。問題のある行を特定しようとしています。そして、その特定の行を見ています。
その関数を調べているようですが、エラーメッセージは15行目に言及していると言い、それを再確認したいと言っています。そして、特定の行に言及されていたエラーがあったが、提供したコードは別のファイルからのものだったことに気づきます。つまり、同じコードではないということです。
本当に調査モードに入り、さまざまな可能性を調べ始めます。その特定のコード部分を見つけることができないので、報告された行番号がp5.jsのソース行と完全に一致していないかもしれないが、そのreact関数を呼び出す内部キャンバスに関連しているのかもしれないと言っています。
問題は、エラーを生成していないにもかかわらず、バグを見つけることができないが、それでもキャンバスのレンダリング方法にいくつかの調整を行うということです。更新されたコードをコピーして、それが実際に動作することを期待しましょう。
ここで出力が表示されています。これはチャンネル0です。チャンネル1、アニメーションは前世代と比較してより良く見えると思います。大きな差ではありませんが、これは間違いなくはるかに良く見えます。これは本物のアニメーションのように見えますが、それらはかなり近いと言えるでしょう。大きく異なるわけではありません。0325バージョンによって生成されたコードに何が起こったのか見てみたいと思います。
コードを調整しただけで、新しい機能は導入されていないようです。これを見ると、新しいバージョンは間違いなくはるかに良いビジュアルを作成しており、興味深いことに、考え出したチャンネルやアニメーション、特にこのジャックポットのようなものは非常に似ています。アイデアは非常に似ており、まったく同じベースモデルを使用しており、おそらく同じ微調整または指示バージョンにいくつかの追加のポストトレーニングを施したものであるように見えます。
他のプロンプトもいくつか試してみましょう。これは、現実的な物理法則の下で落下している文字のJavaScriptアニメーションで、この複雑な状況にどのように対処できるかを見たいと思います。
思考の連鎖のトレースの中でも、大きな違いは見られません。両者は非常に似た思考の連鎖を生み出しているようです。最終的な実装は少し異なりますが、大きな差ではありません。この場合、既存のバージョンはほんの数秒長くかかりました。
このコードをコピーします。単一のHTMLファイルが欲しいので、同じプロンプトを再実行しました。今回、2.5 Proは82秒かかったのに対し、アップデートされたバージョンは55秒でした。これをコピーしてみましょう。
これを貼り付けると、落下する文字が表示されます。異なる形になっています。理由は、文字の周りにボックスを描いていると思われるからです。モデルに文字が表示されていないことを伝えるだけでよいのです。他の要件を満たしているかどうか見てみましょう。うまく機能しているようです。
それをする前に、新しいバージョンを確認してみましょう。これが新しいバージョンです。実行してみると、実際に文字を正しく表示することができています。これはかなり洗練されており、衝突検出があるようです。画面領域を変更すると動作が変わるか確認してみましょう。うまく機能しているようです。
実際の文字の代わりに長方形や円形のオブジェクトが表示されていると言うプロンプトを実行します。何が起こっているのか簡単に認識できるはずです。
これは正しいコードを生成しました。しかし、「申し訳ありませんが」と書かれています。あなたの言う通りです。デフォルトの長方形や円形のオブジェクトが表示されている場合、カスタムテキストレンダリング部分が意図したようにデフォルトの物理ボディの形状を上書きしていないことを意味します。コードを更新してみます。
はい、うまく動作するコードができました。ただし、文字の周りに長方形のボックスが依然として表示されていますが、少なくとも文字が見え、期待どおりの動作をしています。
Gemini 2.5 Pro以前のバージョンは非常に優れたコーディングモデルです。Gemini 2.5 Proの以前のバージョンでさえ大きな問題を抱えていたプロンプトがあります。
そのプロンプトはこれです。回転する七角形の中に20個のバウンシングボールを表示するHTMLコードを書くように依頼します。これはウイルス性の六角形プロンプトの変形ですが、1つのボールではなく20個のボールが必要です。それらは同じ半径を持ち、番号が付けられ、すべて中央から始まる必要があります。そして、壁との衝突検出と互いの衝突検出の両方が必要であり、他にもいくつかの条件があります。これまでのところ、Claude 3.7 Sonnetがこれを一貫して行うことができると見ています。他にテストしたモデルで一貫してできるものはありません。
この場合、何が起こるか見てみましょう。元のバージョンは66秒かかり、アップデートされたバージョンは73秒かかりました。両方とも同じ数のトークンを表示すると思います。コードを実行して結果を見てみましょう。
これは以前のバージョンです。実行してみましょう。ご覧のとおり、できていません。ボールは作成されましたが、七角形の外にあります。
では、こちらはどうでしょうか。これが新しいバージョンです。うわ、正解だと思います。もう一度実行してみましょう。中央から始まり、これは本当に素晴らしいです。そして、互いに衝突しています。七角形は回転しています。
これはかなり大きなアップグレードです。実際、そのうちの1つはバウンドしました。非常に素晴らしいです。アニメーションは前のバージョンと比べて興味深く、よりリアルに見えます。この動作が一貫しているかどうかを確認するために、もう一度試してみたいと思います。
これが前世代です。これをコピーしてみましょう。今回はずっと良くなりましたが、それでも期待していたものではありません。新しいバージョンはループに閉じ込められているように感じます。
170秒以上経過していて、この時点では単にでたらめを生成しているように感じます。220秒以上経過したので、このプロセスを終了します。しかし、お見せしたいことがあります。コードの中で、使用しているパッケージのMITライセンスの生成を開始していることがわかります。
とにかく、この新しいモデルをテストする簡単な動画でした。ビジュアルウェブアプリの構築に関しては間違いなく改善されており、このような問題でも以前のバージョンよりうまく機能しているようです。
この動画で指摘したいもう一つのことは、私の動画や他のYouTubeのテスト動画で見られるテストのほとんどは、実際の使用ケースを表現したものではないということです。実際には、より大きなコードベースを扱う必要があり、Geminiモデルは一般的に長いコンテキストウィンドウのおかげで輝いています。
実世界の例をお見せするために、現在取り組んでいるrackパイプラインがあります。これは今後の動画のいずれかで紹介する予定です。このコードベースは数十万行のコードであり、Gemini 2.5 Pro Experimentalのインカーソリーだけがそのコンテキスト全体を保持できます。3.5 SonnetやClaude 3.7 Sonnetなどの他のモデルは非常に優れたモデルですが、コンテキストやコードベースが大きくなりすぎると、これらのモデルはこれらの巨大なコードベースに対応できません。
実際のコーディングの課題でテストしてみて、どのモデルが実際に持ちこたえるか確認してください。これらのリーダーボードは、実生活で何が起こるかの優れた表現ではありません。最近、チャットボットアリーナのリーダーボードの限界をいくつか強調した動画を作成し、Coherの論文を取り上げました。
このモデルをぜひテストして、以前の世代や以前のバージョンのGemini 2.5 Proと比較してコーディング能力に大きな違いが見られるかどうかをコメント欄で教えてください。この動画にはモデルをテストした初期印象のいくつかしか含まれていません。あなたの考えを教えてください。
この動画が役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました