Gemini 2.5 Flash: 強力かつ最安値のモデルがGPT 4.5、Deepseek R1、3.7 Sonnetを凌駕!(完全テスト済み)

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,698 文字

Gemini 2.5 Flash: POWERFUL & CHEAPEST Model BEATS GPT 4.5, Deepseek R1, 3.7 Sonnet! (Fully Tested)
Google just dropped Gemini 2.5 Flash Preview, and it's changing the game for everyone building AI apps. This model isn't...

Googleは今年懸命に取り組んできましたが、ついに本日Gemini 2.5 Flashプレビューをリリースしました。これは素晴らしいオールラウンドモデルだと言わざるを得ません。しかし、このモデルが際立っているのはパフォーマンスではなく、その価格設定です。低レイテンシーでコスト効率の高いワークホースモデルとして位置づけられています。
Gemini 2.5 Flashは、チャットボット、分析、エージェント型ワークフローなどの高ボリュームのリアルタイムアプリケーション向けに構築されています。高度な推論が強みのGemini 2.5シリーズをベースにしており、Gemini 2.5 Proのような大型モデルと同等の品質を提供しながら、より高速かつ大幅に低コストを実現することを目指しています。これはAI分野における大きな前進と言えるでしょう。
ここで注目すべきは、2つの異なる価格帯が用意されていることです。「思考モード」では、入力トークン100万あたり15セント、出力トークン100万あたり3.50ドルを支払うことになりますが、この思考モデルのパフォーマンスレベルとしては非常にお得です。次に「非思考モード」があり、入力トークン100万あたり15セント、出力トークン100万あたりたったの60セントという驚くべき価格設定になっています。これは信じられないほど安価で、特にリアルタイムアプリケーションにとって素晴らしい価格です。GoogleはFlashがエージェント型ワークフロー、チャットボット、あるいはこのチャンネルで見てきたようなあらゆるものの次世代を支えるものであることを明確にしています。
また、Googleチームはこのモデルの使用に関する1日あたりのリクエスト制限を増やしたことも素晴らしいポイントです。無料枠では1日あたり約500リクエストが可能となり、これは以前よりもはるかに多いです。
ベンチマークスコアに関しては、そのサイズと価格を考慮すると、間違いなく強力なモデルです。コンテキストウィンドウについては、100万のコンテキストウィンドウを持っていることは明らかですが、OpenAIのO4 Mini、Claude 3.7 Sonnet、Grok 3 Beta、Deepseek R1など他の多くのモデルと比較しても優れた性能を発揮しています。ほとんどの場合、これらを上回っていますが、唯一やや劣っているのはLive Codebenchでの評価です。その他のケースでは、多言語対応、長文コンテキスト、そして数学や科学の分野でも全体的に良好な結果を示しています。他のすべてのモデルを上回っています。コードではやや遅れをとっていますが、価格を考慮すると、Claude 3.7 Sonnetと比較して使用するには素晴らしい代替手段となっています。
良い点は、このモデルにGoogle AI Studioでアクセスできるようになったことです。ドロップダウンメニューをクリックすると、新しい2.5 Flashプレビューを見ることができます。それを選択すると、異なるモードを使用する2つのオプションが表示されます。思考モードを使用したり、思考予算を設定して実際のモードを使用せず、より安価なオプションを選ぶことができます。
ここからは、推論からフロントエンド、そして数学に至るまでいくつかの異なるプロンプトに焦点を当てていきましょう。このモデルがどれほど優れているかを確認するために、いくつかの異なるベンチマークテストで評価します。
昨日、実際にO3を調査し、他のさまざまなメトロンスコアを上回る性能を発揮する適切なモデルであることがわかりました。しかし、Gemini 2 Flashがこれを実現できるかどうか見てみましょう。
まずは、モダンなメモ取りアプリのフロントエンドを作成してもらいます。付箋を追加できるようにします。これは本質的に、ユーザーインターフェースの構築、UIとUXのデザイン論理の処理におけるモデルを評価するものです。
生成されたものを見ると、付箋アプリの最初のイテレーションが完成し、絶対に素晴らしく見えます。その機能性も実際に動作します。この場合、さまざまなタイプのノードを追加でき、ドラッグアンドドロップ機能があり、異なる色も追加できます。特に気に入ったのは、実際のメモをロックする機能を追加したことです。ロックを解除したい場合は、「YouTubeビデオを作成する」などと書き込むことができます。そして、それをロックし、実際に動かすことができます。ドロップダウンメニュー内のこのカラーテキストの色など、修正が必要な細かな点がありますが、全体的には、機能性と適切なフロントエンドを生成できる高度な付箋アプリを生成する上で、かなり良い仕事をしました。これは間違いなく合格と見なせます。
次に、Conwayのライフゲームのパイソン実装を作成してもらいます。これはコーディングシミュレーションターミナルアプリケーションのカテゴリーで、モデルがパイソンスクリプトを返すことと、このアルゴリズム設計を生成することの両方でどれだけ優れているかを確認します。
コードがこのパイソンファイルに出力されました。起動してみましょう。これは実際に、利用可能なパターンが生成されるのを初めて見ました。これは他のほとんどのモデルでは見たことがないものですが、グライダーパターンを生成してエンターをクリックしてみましょう。あらゆる種類の世代を追加できます。例えば100とします。そして、コマンドプロンプトまたはターミナル内でシミュレーションが生成されたのを確認できます。これは本当に驚くべきことです。これは間違いなく合格と見なせます。
これが皆さんが待ち望んでいたプロンプトです。蝶の形のSVGコードを生成するためにコード実行をオンにすることがわかります。蝶は対称的でなければなりません。これは、ほとんどのモデルが実際に完了するのが非常に難しいプロンプトであることを私たちは知っています。この場合、モデルが空間的推論、対称性のロジック、SVG構文と幾何学の知識をどれほど理解しているかを見ようとしています。
生成されたコードをコピーして、何を生成できたか見てみましょう。その前に、「世界のAI」ニュースレターにぜひ登録してほしいことを言及しておきます。毎週異なるニュースレターを投稿し続けています。これにより、AI分野で何が起きているかについて最新の知識を簡単に得ることができます。完全に無料ですので、ぜひ登録してください。
こちらがオンラインSVGビューアです。貼り付けてみましょう。驚くべきことに、蝶の形を正しく理解しました。色彩は魅力的ではないかもしれませんが、蝶の羽の機能性を正しく理解していて、これは元のGemini 2.5 Proが生成できるものに似ています。全体的に、これを実行できたことに驚いています。これまでのところ、これらの異なる3つの生成から得た答えに関して非常に印象的に見えます。
次のプロンプトでは、「ある列車が午前9時に都市Aを出発し、時速60kmで走行しています。別の列車が午前11時に都市Bを出発し、都市Aに向かって時速90kmで走行しています。都市Aと都市Bの間の距離は450kmです。2つの列車はいつ出会いますか」と述べています。本質的にこのプロンプトは、速度、距離、時間の関係を理解し、この代数方程式を解くことに焦点を当てています。さまざまな手順から、正解である午後1時12分を導き出していることがわかります。これは間違いなく合格と見なせます。
次はクリエイティブコーディングのプロンプトです。基本的には、数字キー0から9でチャンネルを変更できるテレビをコーディングしてほしいと依頼しました。p5.jsスケッチを返してほしいと依頼しました。これは本質的に、インタラクティブプログラミングとp5.jsキャンバス操作の理解におけるモデルの優秀さに焦点を当てたクリエイティブコーディングプロンプトです。
生成されたものを見ると、このモデルで生成できたものがこれです。私の意見では見た目も良好で、このテレビアプリ内でさまざまな種類のクリエイティブな生成物を得ることができました。出力できたさまざまな種類の生成物があることがわかります。これは間違いなく合格と見なせます。
次のプロンプトは、読解力と科学的推論のプロンプトです。基本的に、気候モデリング論文の3つのセクションを読んで、なぜハイブリッドモデルの方が優れているのかを説明するよう依頼しています。どのようなアプローチを見つけるか、そして回答を生成する能力がどれほど優れているかを見ようとしています。
モデルがこの回答を生成する速さ、論文全体を読み、3種類の段落に焦点を当てる能力がわかります。複数セクションの情報を統合し、推論を導き出し、明確な回答を返してきました。生成できたものは合理的であり、読んでみると確かに有効な回答であるため、これも合格と見なします。
最後のプロンプトは演繹的推論のプロンプトです。基本的に、5人の容疑者と矛盾する供述がある探偵事件があります。1人だけが真実を語っています。誰が有罪かを問うものです。これはモデルの条件文処理能力を評価するものです。
ある人は「別の人が有罪だ」と言っています。別の人は「私は有罪ではない」と言っています。さらに別の人は「私はそこにいなかった、私はやっていない」と言っています。本質的に、設定されたさまざまな制約に基づいて、論理的に真実を推論できるかどうかを確認しようとしています。
最終的に、デビッドが有罪であるという正解が得られました。これは実際の答えに100%合致しています。また、すべての異なる可能性を説明するという点でも非常に良く推論しています。この最後のプロンプトは間違いなく正解であり、合格です。
このビデオが気に入り、チャンネルをサポートしたい場合は、下の「スーパーサンクス」オプションを通じてチャンネルに寄付することを検討できます。または、私たちのプライベートDiscordに参加することを検討できます。そこでは、毎月無料で異なるAIツールへの複数のサブスクリプションにアクセスできるほか、毎日のAIニュースと独占コンテンツなど、さらに多くのものにアクセスできます。
これらのさまざまなベンチマークスコアをテストし評価しました。このモデルはすべてに合格し、これは間違いなく印象的です。私の意見では、このモデルをより印象的にしているのは、明らかにその価格構造であり、これが私がこのモデルを使用したいと本当に思う理由です。これは、Geminiやgemini 2.0 Flash、Gemini 2.5 Pro、そしてベンチマークシートで見たGrok 3やClaude 3.7 Sonnetなどの他の最先端モデルから得られるのと同じようなパフォーマンスを提供する、予算に優しいモデルです。
以上、今日のビデオを楽しんでいただき、何か価値を得ていただければ幸いです。第二チャンネルを購読し、ニュースレターをフォローし、Discordに参加し、Twitterページもぜひご覧ください。最後に、購読して通知ベルをオンにし、このビデオをいいねし、最新のAIニュースを常に把握できるよう以前のビデオもぜひご覧ください。素晴らしい一日を過ごし、ポジティブなエネルギーを広め、また近いうちにお会いしましょう。

コメント

タイトルとURLをコピーしました