Gemini 2.5 Pro が O3 を打ち負かす — ElevenLabs と Qwen からの大きな発表

AIニュース
この記事は約9分で読めます。

本動画では3つの重要なAI技術リリースについて解説している。まずGoogle の Gemini 2.5 Pro が O3 を上回る性能を示し、特にコーディング分野で顕著な改善を見せている。次に ElevenLabs の V3 アルファ版が発表され、より高品質で制御可能な音声合成技術を提供する。最後に Qwen 3 の埋め込みモデルとリランカーが RAG システム向けにリリースされた。これらの技術は AI 開発の現在のトレンドと将来の方向性を示している。

今日は3つの主要なリリースがありました。最初は Gemini 2.5 Pro で、報告されたベンチマークで本当に素晴らしい結果を示しています。次は 11 Labs の素晴らしいテキスト音声合成システム です。これを聞いてください。

よ、ジェシカ、なんてこった、新しい 11 Labs V3 を試した?

ヘイ、ドクター・ヴォンフュージョン。ええ、今使ってみたところよ。クラリティが素晴らしいの。今度はこんな風にささやきまでできるようになったのよ

おお、見てよ、お嬢様じゃないか。

そして最後は、RAG に興味のある方々向けに、Qwen が Qwen 3 リランカーと埋め込みモデルをリリース しました。これらすべてをチェックしていきますが、まずは Gemini 2.5 Pro から始めましょう。これは本当に優秀なコーディングモデルです。

私は単一のプロンプトでこのようなウェブアプリを作ることができました。元の 2.5 Pro はすでに本当に優秀なコーディングモデルでした。これは嬉しいアップグレードです。このモデルで作成できるウェブ UI も本当に良いものです。単一のプロンプトを使ってそのウェブアプリにいくつかの調整を加えることができ、プロンプトにきちんと従っているようです。

しかし、本当に興味深い失敗例もいくつかあり、このビデオでそれらを見ていきます。Logan がこの新しいモデルを発表しました。これは humanity’s last exam、ADAR、GPQA において最先端であるとされています。今度は思考バジェットをサポートしており、思考に必要なトークン数を実際に設定できるようになりました。

残念ながら、アクセスできるのは要約のみで、生の思考トークンは見ることができません。また、コストは前のバージョンと同じで、これはかなり良いことです。そして 0325 リグレッションのギャップを埋めるとのことです。この 05 05 バージョンについては多くの苦情がありました。人々は実際に特定の側面で退行していると不満を述べていましたが、Logan によるとそのリグレッションのギャップを埋めるはずです。様子を見なければなりません。

皆さんにテストしてみることを強くお勧めします。ベンチマークをざっと見てみましょう。これは ほぼすべてのベンチマークで O3 high をリード している最初の Gemini Pro です。すべてではありませんが、ほぼです。humanity’s last exam では良い結果を出しています。数学では O3 に遅れをとっていると思います。しかし個人的にはコーディングに興味があります

Ader Polycott ベンチマークにおいて、コード編集に関して、これは単一モデルでのコード生成において最先端です。O3 はまだ優れているようです。Ader Polyglot ベンチマークはコーディングに関して最も信頼できるベンチマークの一つで、現在 O3 が最高のモデルです。単一モデルよりも優れた2つのモデルの組み合わせがありますが、それは完全に異なるアーキテクチャです。

しかし今度のこの新しい 2.5 Pro はこれに近づくとされており、かなり素晴らしいことです。しかし公式の数字が発表されたときのコストも見なければなりません。Gemini 2.5 Pro の実際のコストがどのようになるかを見るのは興味深いと思います。しかし 72% から 82% まで上がるのは大幅な改善です。

この新しいモデルが持つ一つの優れた機能をお見せしたいと思います。私のチャンネルをフォローしている方なら、私が Escaladra を愛用していることをご存知でしょう。これは私がこれらすべてのアーキテクチャ図を描くために使用しているプラットフォームです。そして今度のこの新しいモデルは実際に escalator 図を描くことができるのです。これはかなり素晴らしいことです。基本的に公式ベンチマークスコアである これをこの新しいモデルにアップロードし、escala スタイルでこのプロットを再作成できますかと尋ねただけで、これを作成しました。

適切な形式でファイルを保存し、プラットフォームにアップロードするだけで、本当に素晴らしい仕事をしてくれました。これが出力で、とても素晴らしいです。なぜなら今度は必要に応じて編集できるからです。個人的には私自身のワークフローを本当に改善してくれると思いますし、かなり詳細です。

私にとって興味深いこのユースケースをハイライトしたかったのですが、X でこの特定の機能で遊んでいる人々を見てきました。このモデルは私の通常のプロンプトのいくつかで良い仕事をします。しかし、前のバージョンと比較して苦戦するプロンプトをいくつか見つけました。簡単な例をお見せしましょう。

AI Studio の比較モードに行くと、2つの異なるモデルを選んで互いに比較することができます。そこで、2.5 Pro の前のバージョンと最新バージョンを選びます。AI Studio は本当に素晴らしいプラットフォームです。すべての機能を示す詳細なビデオを作成しました。興味がある方は、このビデオを必ず見てください。

これは私がこれらのモデルをテストするために通常使用するプロンプトです。私のテストに基づくと、この特定のプロンプトで一貫して苦戦しているようです。それを実行している間に、これが前の世代の結果です。Gemini 2.5 Pro の前のバージョンは約2分かかりました。このバージョンはかなり長く、ほぼ6分を見ていました

生成される思考連鎖、または実際には思考連鎖の要約に関しては、2つのバージョン間で大きな違いは実際に見られませんでした。かなり似ているようです。しかしコードについては、これが前のバージョンからの出力です。これを実行することができ、これは本当に難しいプロンプトですが、前のバージョンは何の問題もなく実行できました。

前のバージョンの 2.5 pro の前では、Claude だけがこれらの結果を生成できたと思いますし、deepseek R1 の新しいバージョンもそうです。これがアップグレードされた 2.5 pro からの出力です。これを実行しようとすると、コードにバグがあるようです。出力では実際何も見えません。

11 lab を見る前に、他のいくつかのテストを行いました。これは推論モデルなので、誤った注意問題でテストして、モデルが実際に論理的推論を行えるかどうかを確認しました。これはトロッコ問題の修正版です。唯一の違いは、この場合5人の死者がいることですが、その人々がすでに死んでいることを特定できません

しかし、ハイライトした非常に興味深いことがあります。この シナリオに最初に提示されたとき、ほとんどの人はレバーを引く方に傾きます。しかし、問題のわずかな変更がしばしばこの直感を覆します。レバーの代わりに、線路を見下ろす橋の上にいることを想像してください。トロッコが5人を殺すのを止める唯一の方法は、あなたの隣に立っている非常に大きな人を線路に押し落とすことです。

数学的には結果は同じです。5人を救うために1人が死ぬのです。しかし今度は行動がはるかに直接的で、個人的で、暴力的に感じられます。それでも、この問題の核心は、その5人がすでに死んでいることを特定できるかということでしたが、それはできないようです

私がテストした2番目の問題は、この修正版の農夫のパラドックスまたは問題でした。基本的にこの場合、ヤギだけを反対側に渡らせたいのです。これまでテストした他の LLM と同様に、すべてが川を渡ることを確実にするために複雑な一連のステップを通り抜けるだけで、それは問題の要件ではありません

モデルをテストして、このアップグレードされた Gemini 2.5 Pro での経験を教えてください。今度は 11 v3 alpha と呼んでいる 11 lab からの新しいリリースを見てみましょう。これはすでに彼らのプラットフォームで利用可能です。単一のテキストプロンプトから生成できるオーディオのタイプをより多くコントロールできます。そして素晴らしいことは、オーディオ品質自体がかなり素晴らしいということです。

しかし今度は欲しい表現のタイプを追加できます。例えば、ここのこれから始めると、キャラクターに笑ってほしいとします。2つの異なるキャラクターがいます。

ヘイ、クリス。ノック ノック。

もうこれはやらないよ。

さあ、M。お願い。きっと気に入ると約束するよ。

いや、いや、いや。もう二度と。最後の10個は面白くなかった。次の10個も面白くない。君は面白くないし、決して面白くならない。

11 Labs のエンジニアが電球を交換するのに何人必要?

[笑い声]

なんてこった、家に帰るよ。

これはAPI を通じてもうすぐ利用可能になる予定です。これを見てみてください。11 Labs はおそらくテキスト音声合成システムにおいて最高の提供の一つだと思いますし、6月中は 80% オフになる予定です。テストするには良い価格だと思います。

Iraq に興味がある方向けの最後のリリースは Quinn からのものです。Quinn は大規模言語モデルに関して好調を続けています。あらゆるサイズのマルチモーダルモデルをリリースしてきました。しかし今度は2つの異なるモデルをリリースしています。一つは Qwen 3 embedding、もう一つは Qwen 3 reranker です。

何らかの検索システムで作業したことがある方なら、両方の埋め込みモデルが LLM が応答を生成するための正しいコンテキストを確実に取得する上で重要な役割を果たすことをご存知でしょう。そして、ユーザーが質問している内容に関連しないテキストチャンクをフィルタリングすることも確実にするリランカーも必要です。

RAG パイプラインを構築している場合、埋め込みとリランカーの両方が重要な役割を果たします。高度な RAG 技術についてもっと学ぶことに興味がある方には、これに関するコースがあります。リンクはビデオの説明に記載されます。最近、マルチモーダル検索に関するいくつかの新しいトピックでコースを更新しました。

画像、テキスト、表を含む PDF を扱っている場合、それは間違いなく興味深いものになるでしょう。どちらの場合も、埋め込みモデルを探している場合は 6b から 8b まで、リランカーでも同様に最小が 6b から 8b までの異なるサイズの複数のモデルを入手できます。これらはオープンソースなので、Hugging Face からダウンロードして、独自の RAG パイプラインですぐに使用を開始できるため、非常に価値があると思います。

彼らが共有したベンチマークに基づくと、それぞれのサイズに対して最先端または最先端に近い性能を示しています。8b リランカーを見ると、他の利用可能なリランキングモデルをほぼ上回っています。8b モデルは他の利用可能なリランカーと比較して比較的大きいですが、6B または 6B モデルでも今日利用可能な最先端と比較して本当に良い結果を出しています。

Qwen 3 の埋め込みとリランキングモデルの使用に関する詳細なビデオを作成する予定です。興味がある方はチャンネルを購読してください。とにかく、これは今日リリースされたすべての簡単な概要でした。実際には、このビデオを見る頃には昨日かもしれません。とにかく、このビデオが役に立ったと思っていただければ幸いです。ご視聴ありがとうございました。いつものように、次回またお会いしましょう。

コメント

タイトルとURLをコピーしました