Googleが史上最速のLLMを発表！

Googleが新たにリリースしたGemini 2.5 Flashlightモデルの性能検証動画である。このモデルは従来版と比較して大幅な高速化を実現しており、出力トークン数を半減させることでレスポンス時間の短縮とコスト削減を両立している。数学問題やプログラミング課題を用いた実演では、従来のGemini 2.5 Flashモデルに対して明確な速度優位性を示しながらも、回答精度は同等水準を維持している点が特徴的である。

Google launches its FASTEST LLM!

Gemini 2.5 Flash-LiteThe latest version of Gemini 2.5 Flash-Lite was trained and built based on three key themes:Better ...

Googleの新モデル「Flashlight」の登場
パフォーマンスの大幅改善
他モデルとの比較結果
実際の性能テスト開始
リアルタイム比較デモ
プログラミング問題での検証
まとめと推奨事項

Googleの新モデル「Flashlight」の登場

これはなあ、Googleが最近リリースした中でも一番過小評価されとって、しかも独特なモデルやねん。これは「flashlight」っていう新しいモデルで、前にあったflashlightのアップグレード版なんや。Googleは2つの異なるモデル、2.5 flashとflashlightを発表したんやけど、この動画では1つのモデル、flashlightだけに焦点を当てるで。なんでかって？それがめちゃくちゃ素晴らしいからや。

まるでソニックの動画を見とるような感じやねん。このモデルは最速のモデルになるはずや。groを使う必要もないし、cerebrasを使う必要もない。Googleがこのモデルを提供してる通常のハードウェア上でも、このモデルは極めて高速なんや。

パフォーマンスの大幅改善

ここで一番重要なベンチマークはなあ、前のモデルが特定のクエリに対して1億4000万個の出力トークンを提供してたのに対して、最新モデルは7000万個の出力トークンしか提供せえへんってことや。

これはつまり、モデルが生成する出力トークンが少ないってことやねん。だから遅延も少ないし、コストも安い。これは特に、LLMの出力を常に取得して何かをせなあかんシステムを持ってる場合には重要な指標や。このモデルの上にアプリケーションを構築するなら、このモデルは価値のあるモデルやで。

次の重要なアップデートは、秒単位でのエンドツーエンドの応答時間が短くなってる一方で、より高い知能を維持してるってことや。ここで見てるx軸は右側が高い方がええし、y軸は低い方がええ、つまり高さが低い方がええってことやねん。

他モデルとの比較結果

そんで今見てみると、前のバージョンのGemini 2.5 flashがここにある。現在のバージョンのGemini 2.5 flashがここや。そんでGemini 2.5 flashlight、我々が注目してるモデルを見ると、これが極めて高速やねん。最新のGemini 2.5 flashよりもほぼ早いのが分かるし、知能も向上してるんや。

つまりこのモデルは速度を維持して、実際には速度を向上させて、しかもモデル全体の知能も向上させてるってことや。前のGemini 2.5 flash（思考なし）よりも総合的に優れてる。現在はハイブリッドのGemini 2.5 flashがあるけど、思考なしのGemini 2.5 flash、推論モデルなしと比較すると、現在の2.5 flashlightの方がはるかに優れてるんや。

実際の性能テスト開始

この2つのモデルが数学と推論の問題でどう比較されるか、簡単なデモをやってみよう。推論問題から始めるで。最新のGemini Flashと最新のGemini Flash Lightがある。これらは両方とも先週アップグレードされたばかりのモデルや。

ベティは新しい財布のためにお金を貯めてるねん。その財布は100ドルするんや。ベティは必要な金額の半分しか持ってない。両親がその目的で15ドルをくれることにして、祖父母は両親の2倍をくれるって決めた。ベティが財布を買うのに、あとどれくらいお金が必要やろか？

簡単な計算をしてみよう。100ドルが彼女が支払わなあかん総額や。彼女はすでに半分のお金を持ってる。100割る2は50や。両親が15ドルをくれることにした。だから50プラス15は65や。そんで祖父母は両親の2倍をくれることにした。だから30ドルや。65プラス30は95や。だから彼女はあと5ドル必要やねん。人間である私はこれくらいの時間をかけて計算した。LLMがどれくらい時間をかけるか見てみよう。特に我々が持ってる最速のモデルで。同じ量のトークンが両方のLLMに入力される。始めよう。

リアルタイム比較デモ

両方のモデルが処理を開始してるのが分かる。でもここではもう応答を得てるのに対して、ここではモデルがまだ思考プロセスを経てから答えを返してくれてる。これは再び非常に簡単な数学問題や。送信してみよう。

通りに5軒の家がある。最初の4軒の家にはそれぞれ庭にgnome（ノーム）が3体ずつある。どう発音するかは分からんけど、これがLinuxディストリビューションの名前やってことは知ってる。通りに合計20体のgnomeがいるとしたら、5軒目の家には何体のgnomeがあるやろか？

ここでモデルがもう8って答えをくれてるのが分かる。そんでこっちのモデルはもうちょっと時間がかかって、それから戻ってきて8って答えをくれた。

プログラミング問題での検証

非常に簡単なプログラミング質問をしてみる。これはStack Overflowにあった質問で、pandasについてや。そう、人々はまだStack Overflowを使ってるねん。これはちょうど10日前のやつやから、この正確な質問は訓練データセットにはあらへんはずや。これを貼り付けてみる。ここでフォーマットがうまくいくといいんやけど。

送信して、どんな応答をくれるか見てみよう。まず、ここでの速度を見てみよう。flash light latestでほぼ答えが出るポイントまで来てるのが分かる。こっちでやってることを、このモデルはまだやってる最中や。

両方のケースで実際に最終的な出力を示してて、pandasデータセットを得られた。最終的なプロンプトは会計のプロンプトのようなもので、答えは3ドルや。モデルが何をしてるか見てみよう。

このモデルはもう計算を終えてて、近似値は3.23や。そんでこのモデルは計算を始めたばかりで、同じ結論に達した。近似値は3.23ドルや。両方のモデルが正解を出してて、このモデルだけの特徴は極めて高速やってことや。

まとめと推奨事項

これは非常に過小評価されてるモデルや。強くお勧めするのは、試してみることやねん。Google AI Studioで利用できる。Google検索でモデルの応答を根拠づけることもできる。URL コンテキストも提供できる。つまり、URLから読み取って応答をくれるってことや。このモデルには多くの利点がある。試してみて、どう感じたかコメント欄で教えてくれ。また別の動画で会おう。