Googleの新しいOpenAI殺し 💥 開発者向け最安値の推論AIモデル💥

AGIに仕事を奪われたい
この記事は約4分で読めます。

2,098 文字

Google's NEW OpenAI killer 💥 The CHEAPEST Reasoning AI Model for Developers💥
2.5 Flash is Google's, cost-efficient, thinking model that comes with Budgeted thinking! Gemini 2.5 Flash Benchmarks

Google DeepMindの唯一の目標はOpenAIを倒すことであり、その最新版がGemini 2.5 Flashです。これから5分間で、いくつかのデモを含めてGemini 2.5 Flashについてすべてを学んでいきましょう。
まず第一に、Gemini 2.5 Flashには思考モードが搭載されています。ですから単なる非推論モデルではなく、推論モデルなのです。ここで最も素晴らしい点は、どれだけ推論させたいかをカスタマイズできることです。おそらくこれは、モデルにどれだけ考えさせたいかを制御できる初めてのモデルだと思います。
例えば、この思考モードは有効または無効にすることができます。さらに、モデルが考えて返答するために使用できるトークン数という観点で、思考予算を設定することもできます。これは開発者にとって非常に役立つものになるでしょう。
ベンチマークに関しては、このモデルはOpenAIのo4 miniにほぼ近いです。MMLU(Massive Multitask Language Understanding)においてこのモデルは12.1%のスコアを獲得し、OpenAIのo4 miniは14.3%でした。AMでは78%、o4 miniはその次のレベルにあります。AMY 2024ではこのモデルのスコアがはるかに良く、ポリグロットでは51.1%のスコアを獲得しています。
よく理解できるように、この時点でこのモデルは最高のモデルであることよりも、速度とコスト効率に非常に焦点を当てています。このモデルについての最も重要なニュースはコストです。このモデルは推論なしの場合、入力トークン100万あたりわずか15セント、出力トークン100万あたり60セントです。推論を追加すると3.5ドルになります。
OpenAIのo4 miniにはそのようなコスト区分はなく、推論・非推論に関わらず一律で4.4ドル、入力は1.10ドル(110セント)で、Gemini 2.5 Flashの約10倍です。しかし、このモデルを使用した印象としては、OpenAIのo4 miniと比較して非常に優れているにもかかわらず、考えるのに多くの時間がかかります。例えばこの問題では、このモデルは考えて返答するのに54秒かかりましたが、o4 miniはわずか6秒でした。
このレイテンシーは、開発者がどのモデルを選ぶかに重要な役割を果たすと思います。しかしそれを別にすれば、このモデルは非常に役立ちます。マルチモデルであり、100万トークンまでの長文脈をサポートし、予算制限のある思考モードも利用できます。特定のユースケースに対してモデルにどれだけ考えさせたいかを制御でき、その上にソフトウェアアプリケーションを開発する際に非常に役立つでしょう。
このモデルにアクセスする方法は、Google AI Studioに行き、新しいチャットをクリックして、モデル選択からGemini 2.5を選び、Gemini 2.5 Flash プレビューを選択します。選択後、思考モードを有効または無効にすることができ、コード実行も有効または無効にすることができます。
質問してみましょう。「フィボナッチ数列の24番目の数を知りたい」と送信します。Pythonコードを書くことが予想されます。ロジックを考え、Pythonコードを書き、最終的な答えを返してくれます。答えを得るのに7秒かかりました。
次に、モデルにチャートを作成してもらいましょう。コード実行を有効にし、思考モードをオンにしておきますが、予算を減らして何が起こるか見てみましょう。Googleが提供しているこの特定の場所からチャートを選び、Google AI Studioに貼り付けて、「これらのレートのチャートを作成して」と言います。
画像が貼り付けられ、プロンプトを実行します。入力画像と私が与えたプロンプトを取得しました。それほど面白いプロンプトではありませんが、ここで思考予算が3,875トークンに設定されているのがわかります。そのプロンプト内でチャートを作成できるか見てみましょう。また、コード実行も有効にしているので、チャートを作成して最終的に表示する必要があります。
ここで何か間違いがあるようで、チャートをすでに表示したと思っているようですが、チャートは表示されていません。しかし、他のすべては正確に理解しています。
次に、モデルの多言語・マルチモデル能力をテストしましょう。タミル語の詩のテキストがあり、モデルに最も文字通りの方法でこれを翻訳するよう依頼します。ここでは思考予算を設定していません。「早い夜なしの眠りの中で、早い夜なしの眠りの中で」と文字通りに翻訳してくれました。
この特定の画像を見ると、「urakum」は「眠り」を意味し、「ill」は…というように、非常に良い翻訳をしてくれました。このモデルの最大の強みの一つは、マルチモダリティであり、多言語対応で、安価で高速だということです。
このモデルについてどう思うか教えてください。また別の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました