Mistralの初の推論モデル、Gemini 2.5アップデート、FLUX.1 Kontext [Max]、Metaの大規模投資

AIニュース
この記事は約10分で読めます。

この動画は、AI業界における最新の重要な動向を包括的に解説している。Mistralの初の推論モデルのリリースとその圧倒的な処理速度、11 LabsのV3 alpha音声モデルの表現力向上、OpenAIの新しい音声モードの人間らしさ、Gemini 2.5 Proの性能向上、GoogleのVeoの高速版、そしてMetaによるScale AIへの140億ドルの大型投資と新たなAI研究チームの結成について詳細に報告している。さらに、DIA AI ブラウザーの登場やFLUX.1 Kontext Maxの画像生成能力についても触れており、AI技術の急速な進歩と企業間の激しい競争を浮き彫りにしている。

Mistralが超高速推論モデルを発表

この1週間で非常に多くのニュースが発生しましたので、すべてを振り返ってみましょう。まずMistralから、彼らは初の推論モデルをリリースし、その小型版をオープンソース化しました。そして重要なのが、これは私がこれまで使用した中で圧倒的に最も高速な推論モデルだということです。Gemini 2.5 Proが高速だと思っていましたが、これはそれを完全に置き去りにします。

知っておくべきことは、私たちがこのモデルを2つのバリエーションでリリースしていることです。Magestraw Smallは240億パラメータのオープンソース版、Magestraw Mediumはより強力なエンタープライズ版となっています。これは今すぐダウンロードしてお使いのコンピューターで実行できるものです。240億パラメータは比較的小さく、さらに小さなサイズに量子化されれば、ほとんどの一般消費者向けコンピューターで実行可能になるでしょう。

Magistral MediumはAME 2024で73.6%のスコアを記録し、64回の試行による多数決投票では90%を達成しました。Magestraw Smallは70%のスコアを記録し、ほぼMagistraw Mediumに匹敵する性能で83%を記録しています。Magestawの思考連鎖は世界各国の言語とアルファベットで動作し、ほとんどの競合他社と比較して10倍の速度で実行されます。

処理速度の驚異的な違い

その速度がどれほどかを示すために、左側がMagestrol、右側がOpenAIのモデルの一つです(どのモデルかは明確ではありませんが)。この速度をご覧ください。出力の速さを見てください。さらに、思考連鎖でより詳細な情報を得ることができます。5.3秒間思考し、OpenAIモデルは17秒間思考してまだ最終回答を出力中です。

ぜひ試してみてください。ダウンロードするか、Mistral Le Chat アプリで使用してください。無料です。どう思うか教えてください。

11 LabsのV3 Alpha音声モデル

次に、11 LabsがテキストトゥスピーチモデルのV3 alphaをリリースしました。これは11 Labsにとって最も表現豊かで感情的な音声モデルです。聞いてください。

「やあ、ジェシカ、新しい11 V3を試した?今手に入れたばかりなんだけど、音質が素晴らしいよ。実際にこんな風にささやき声もできるようになったんだ。おお、素敵だね。これをチェックしてみて、完全なシェイクスピアもできるようになったよ。生きるべきか死ぬべきか、それが問題だ。いいね。でも僕は笑い声のアップグレードにもっと興奮してるんだ。これを聞いてみて」

その信じられないほど不気味な笑い声を除けば、他のすべてが本当に良く聞こえました。これらの音声モデルは信じられないほどリアルになっており、ほとんど人間のようすぎるほどです。

OpenAIの新しい音声モード

実際、OpenAIは音声モードのアップグレードをリリースしましたが、これが本当に人間らしすぎるほどです。「えー」や「あー」といった言いよどみや間違いが多すぎて、実際には少しAIらしく聞こえる方が好ましいと思います。しかし、これについては後でこの動画で話します。

そして現在、音声と交換の音がどのようになるかについて、はるかに多くの制御が可能になりました。興奮して飛び込む、つまり割り込む、驚いた重複、慎重に、といったような小さなタグを追加できるのは本当にクールです。11 LabsのV3 alphaをチェックしてみてください。

実際にテストしてみましたが、本当に良く、怖いほどリアルです。どんな音になるか例をお見せしましょう。

「半導体産業について教えて」 「半導体産業は基本的に現代エレクトロニクスのバックボーンです。スマートフォンから自動車、産業機械まで、あらゆるものの必須コンポーネントである半導体デバイスの設計と製造に関わります。えー、この産業は常に革新と競争が続く非常にダイナミックなもので、米国、韓国、台湾、ヨーロッパの主要プレーヤーによって本当にグローバルなものです」

これは信じられないほど良く聞こえます。聞こえたかどうかわかりませんが、そこにはいくつかの「えー」があり、リアルに聞こえる特定の間があり、物事のリストを挙げているときでさえ、そのリストの音は、つまり、私が今どのように話しているかを考えています。なぜなら、それは私がどのように話すかにとても似ていたからです。

「リアルに聞こえると思ってくれて嬉しいです。そのフィードバックを聞くのはいつも興味深いことです。私の話し方を調整してほしいことがあったり、特定のスタイルを好む場合は…」

はい、はい、静かにしてください。彼女はまだ聞いていましたが、ええ、非常に非常に良いです。運転中に彼女と話し始めて、物事を教えてもらう習慣がつきました。あなたもそうするかどうか教えてください。

Gemini 2.5 Proの最新アップデート

次に、これは1週間も前に出たものですが、すでに古いニュースのようです。Gemini 2.5 Proに全く新しいバージョンが登場しました。このバージョンは様々なベンチマークでさらに優れた性能を発揮しており、間違いなくこれまでで最高のGemini 2.5 Proモデルです。

Alam Marinaで24ポイントのELOジャンプを記録し、1470で首位を維持しています。WebDev Arenaで35ポイントのELOジャンプを記録し、1443でリードしています。コーディングに優れ続けており、Ader Polyglotのような困難なコーディングベンチマークでリードしています。

そのため、今日でもGemini 2.5 Proは私のお気に入りのコーディングモデルです。少なくとも直接アクセスしてルービックキューブテストのような問題を解いてもらう場合においてです。新しいモデルをチェックしてみてください。GoogleのAI Studioで無料で使用できます。

GoogleのVeo高速版

次に、もう一つの簡単なGoogleアップデートです。GoogleのテキストトゥビデオAIモデルであるVeoに新しい高速版が登場しました。この新しい高速オプションはV3の価格の5分の1で、その名前の通り大幅に高速化されています。Veoの動画で遊ぶのが大好きなので、これは間違いなく試してみたいと思います。

Metaの大規模投資と新AI研究チーム

そして今週のビッグニュースです。MetaがScale AIに大規模投資を行い、AIチームを刷新しています。Metaが新しいAIラボを設立し、Scale AIのCEOであるアレックス・ワンがそれを率いるという報告があります。そう、この報告は正確なようでした。

ザッカーバーグはMetaがAI競争で遅れをとっていると感じ、Scale AIに140億ドルの投資を行い、同社の49%を取得し、CEOを雇いました。そのCEOはもはやScale AIのCEOではなく、現在はザック自身が直々に選んだとされる新しく設立されたスーパーインテリジェンスチームを率いています。

ザックはスーパーインテリジェンスを構築するために業界トップのAI専門家50人を探しているようです。おそらくヤン・ルカンがザックの期待に応えていないのかもしれません。

49%の出資が奇妙に聞こえるかもしれません。なぜ会社全体を買収しなかったのでしょうか?おそらく実際にそれを行うための規制上のハードルを通過したくなかったのでしょう。つまり、この少数派だが少数派の多数を取得する49%の出資という回りくどい方法が、それを回避する方法なのです。GoogleもMicrosoftもOpenAIでそれを行いました。これが企業買収のトレンドのようです。

Scale AIの重要性とAI人材争奪戦

Scale AIに馴染みがない方のために説明すると、彼らは基本的にAI企業向けのデータラベリングと注釈のエンジン全体を構築しました。本当に強力で、本当に良い、高品質で豊富なデータです。そして今やMetaがそのすべてを手に入れました。

そう、ザックはAI業界のトップの頭脳を激しく追い求めています。DDによると、これは全く検証されていませんが、もし本当なら、スーパーインテリジェンスチームへのMetaの申し出は実際に非常識です。ザックは個人的に年間1000万ドル以上を現金で交渉しているとのことです。私はこのようなものを見たことがありません。

すべての主要なAI企業が同じ限られた人材セットを奪い合っており、それは完全に熾烈な競争です。

DIA AIブラウザとPerplexity Comet

次に、Arkブラウザを作る会社から、AI ネイティブブラウザであるDIAブラウザが登場しました。これは、独自のブラウザCommetをまもなく立ち上げるPerplexityに先んじています。

このブラウザは、あなたがタブと「チャット」できるという事実を強調しています。基本的に、たくさんのタブを開いて、AIを使ってそれらをまたいでチャットできるのです。個人的には何が特別なのかわかりませんが、試していないので、疑いの目で見つつも試してみたいと思います。

例えば、インラインコピーエディターがあります。Gmailのメールの一部をハイライトして「これをもっと自信があるように聞こえるようにして」と言うと、ブーム。Gmailはすでにこれを行っているので、何が特別なのかわかりません。「バカに聞こえないようにして、誤字や文法の問題はある?」。これもすべてGoogle Docsにネイティブに組み込まれています。

Slackの要約のようなNotionがあります。要約も、すでにNotionで完了しています。これらすべてのことはすでにネイティブツールで行われていますが、すべてを一か所にまとめるのは良いことかもしれません。まだわかりません。試してみたい場合は、待機リストに参加してください。

FLUX.1 Kontext Maxの画像生成能力

次に、artificial analysisによると、Flux one context maxモデルは地球上で最高のテキストトゥイメージモデルの一つであり、それだけでなくオープンソースです。印象的な画像編集モデルであるだけでなく、artificial analysisイメージアリーナでGoogleのImagine 4に匹敵する最高のテキストトゥイメージモデルの一つでもあります。

これはBlack Forest Labsによるもので、約1週間前にリリースされました。MaxとProバージョンはオープンウェイトではないことを覚えておいてください。これらはAPIまたは他のパートナープロバイダーを通じてのみ利用可能です。Black Forest Labsは、オープンウェイトにする予定の120億パラメータの拡散画像編集モデルであるFlux One Context Devも開発しています。現在はプライベートベータリリース中です。

OpenAI GPT-4oがまだトップの座を占めており、次にSeDream Recraft V3、Imagine 4 Ultra and Preview、そしてFlux One Context Maxが続きます。非常に近く、非常に良いモデルです。

画像生成の比較例

この新しいモデルからのいくつかの例画像があります。「南極研究基地のホバリング」。ここにFlux One Context Max、Flux 1.1 Pro Ultra、GPT-4o、SeDream 3.0があります。すべて本当に良いです。これはよりイラストのように見えますが、すべて本当に良いです。

もう一つの例は「雨空の下でアニメーションの群衆で賑わう東京のネオン街の路地をアニメスタイルで」。これはFlux One Context Max、Flux 1.1 Pro Ultra、GPT-4o、Seed Dreamです。4つすべてが本当に良く見えます。最も詳細があるので、おそらくこれが私のお気に入りです。Flux 1.1 Proですが、すべて本当に、本当に良いです。

もう一つは「高い海を航海する若い漫画海賊冒険者」です。Flux One Context Maxによるこれは非常に良いですが、目の上の眼帯が少し壊れています。1.1 Pro Ultraは非常に良く、ここで見る唯一の間違いは水が船から出ているように見えることです。GPT-4oでは海賊の足が船と重複しています。SeDream 3.0では間違いは見当たりません。

終わりに

それが今日のすべてのニュースです。このビデオを楽しんでいただけたら、いいねとチャンネル登録をお願いします。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました