Googleが発表したGemini 3 Flashは、Gemini 3 Proに匹敵する性能を持ちながらコストは4分の1という驚異的なコストパフォーマンスを実現し、特にコーディング分野で優れた結果を示している。NVIDIAはNemotron 3シリーズのオープンソースモデルファミリーをリリースし、OpenAIはChatGPT用の新しい画像生成モデルImage 1.5を発表した。一方、バーニー・サンダース上院議員がデータセンター建設のモラトリアムを支持する発言を行い、AI業界に波紋を広げている。その他、ZoomがフェデレーテッドAIシステムで人類最後の試験において高スコアを記録し、OpenAIがAmazonから100億ドル規模の投資を受ける交渉中であることが報じられた。Metaは音声分離技術SAM Audioをオープンソースで公開するなど、AI業界は急速に進化を続けている。

Gemini 3 Flash登場
Gemini 3 Flashがついに登場しました。そして、これは極めて高速で、Gemini 3 Proとほぼ同等の性能を持ち、一部のベンチマークではそれ以上の結果を出しています。非常に効率的で、価格も安い。現時点で地球上で最高の総合モデルです。ベンチマークを見てみましょう。
まず価格からです。入力トークン100万あたり50セントで、これはGemini 3 Proのコストの4分の1、Claude Sonnet 4.5の6分の1、そしてGPT 5.2の3分の1となっています。そしてご覧のように、Gemini 3 Pro、Claude Sonnet 4.5、GPT 5.2、そしてGrok 4.1 Fastといった主要なベンチマークのほぼすべてで匹敵する結果を出しています。
しかし、私が最も注目しているのはSWE-bench Verifiedで、78%のスコアを記録し、Gemini 3 Proを2パーセントポイント上回り、GPT 5.2をわずか2パーセントポイント下回っているという点です。そして、はい、Claude Sonnet 4.5も上回りました。コーディング能力が驚くほど優れています。これが皆さんの新しいデフォルトのコーディングモデルになるべきです。
私は常にスピード重視派でしたが、これがそれを証明しています。そして、スピード重視でありながら品質も求め、さらに最も安いコストも求めるなら、これは完璧なモデルです。Googleは基本的に今、これを無料で提供しているようなものです。Geminiアプリで利用可能です。彼らのワークプレイス製品スイートすべてで利用可能です。Google検索でも利用可能です。繰り返しますが、すべて無料です。
GoogleのFlashシリーズモデルは、Artificial AnalysisのIntelligence Indexで下位から一気に世界第3位のモデルにジャンプし、Claude Opus 4.5を打ち負かしました。これは主要なベンチマークすべてを独立して検証したインデックスです。そして、マルチモーダルのユースケースに最適です。動画、音声、画像、テキスト、基本的にあらゆるモダリティをFlashに与えることができます。素晴らしいモデルです。Googleは2025年において最高のモデルプロバイダーとしての地位を確立しました。
しかし、一つだけそうでないことがあります。それはオープンソースではないということです。そして、そこでNVIDIAが次のストーリーに登場します。
NVIDIAのオープンソースモデルファミリー
NVIDIAがNemotron 3ファミリーのモデルをリリースしました。オープンソース、オープンウェイト、本当に素晴らしいモデルファミリーです。ダウンロードしたい場合、ファインチューニングしたい場合、強化学習を行いたい場合、そして単純にモデルとデータを所有したい場合、これが最良の方法です。
3つのサイズがあります。Nano、Super、そしてUltraです。Nanoは300億パラメータのモデルで30億の活性パラメータを持ち、Superは1000億パラメータのモデルで100億が活性、そしてUltraは5000億パラメータのモデルで500億が活性です。そして、これらは前世代のNemotron 2ファミリーのモデルよりも4倍高速です。
NVIDIAからの新しいツールも手に入ります。これらのモデルで好きなことを何でもするために必要なすべてのツールと、大量の新しいデータが得られます。3兆トークンのNemotronの事前学習、事後学習、そして強化学習のデータセットが、高度に有能なドメイン特化エージェントを作成するために必要な豊富な推論、コーディング、そして複数ステップのワークフローの例を提供します。
すでにLM Studio、Llama CPP、SGLang、そしてVLMによってサポートされています。そしてもちろん、Hugging Faceから入手、ダウンロード、試用することができます。
次に、今日の動画のスポンサーであるHubSpotについてお話しさせてください。私がAI業界のすべてにおいて最新情報を把握し続けられる方法を疑問に思ったことがあるなら、それは私がビジネスの基本的にすべてを自動化しているからです。そして、私はHubSpotと協力してこれらの自動化を文書化し、無料で皆さんにお届けしました。
私たちは「未来志向のビジネスのための9つのAI自動化」を作成しました。そして、これはコンテンツ作成から調査、リード生成などすべてを行うために私が使用する最も強力な自動化を示しています。このガイドは、私たちが使用するツール、それを設定する方法、そして得られる出力を正確に教えてくれます。
そして、私のお気に入りの部分は、これらの自動化が一般化されているため、ほぼすべてのビジネスに適用できるということです。コンテンツクリエイターである必要はありません。ぜひチェックして、無料でダウンロードしてください。下の説明欄にリンクを掲載します。この件でパートナーシップを組んでくれたHubSpotに感謝します。では、動画に戻りましょう。
OpenAIの新しい画像モデル
しかし、もちろん、OpenAIはメディアの話題にならない週を見逃すわけにはいきません。そこで彼らは画像モデルの新バージョンをリリースしました。これはChatGPT Imagesの全く新しいバージョンです。これにより、以前の世代よりも優れた画像を作成できます。精密な編集ができますが、これは常にDALL-E 3モデルの方が優れていましたが、今ではChatGPT Imagesでもできるようになり、前世代のChatGPTの画像生成よりも4倍高速です。
では、例を見てみましょう。マーク・チェン、ヤコブ、そして犬がいます。そして、これらすべてを一緒にします。2人の男性と犬を、子供の誕生日パーティーで退屈そうに見える2000年代のフィルムカメラスタイルで組み合わせます。そして、精度は素晴らしいです。
指示により確実に従います。これを見てください。左が新しいもの、右が古いものです。6×6のグリッドを描きます。1行目は、ギリシャ文字のベータ、ビーチボール、レモン。つまり、基本的にすべての正方形に何があるべきかを説明しています。そして、こちらも同じことです。明らかにこれは4×おそらく6.5です。明らかに良くありません。こちらは完璧です。本当に高品質で、プロンプトに正確に従っています。
テキストレンダリングも非常に優れています。これは画像生成にとって非常に重要です。ご覧のように、すべてのテキストが完璧に見えます。どれにも欠陥が見当たりません。
別の比較を見てみましょう。1970年代のロンドンのチェルシーでシーンを作成し、フォトリアリスティックで、すべてにフォーカスが合っていて、大勢の人々がいて、Image Gen 1.5の広告が載ったバスがある。さて、左が新しいバージョンです。右が古いバージョンです。
こちらは少し彩度が高く、少し暖色系で、バスの看板が少し切れているのがわかります。こちらの方が多くの点で良く見えます。劇的に良いとは言いませんが、確実に良いです。
例を挙げます。ゴールデンゲートブリッジの前に数万人の群衆がいます。全員の顔が見えるべきです。このように、こちらは本当に良いです。こちらは再び暖色系で、こちらほどすべての顔を見ることができません。
そして、サム・アルトマン自身がこれを投稿しました。公平に言えば、これはホリデーテーマの消防士カレンダーのピンナップ風で、明らかにサム・アルトマンをフィーチャーしており、面白いです。すべてのテキストが正しく見えます。彼の顔は信じられないほど正確です。腹筋については、自分では判断できませんが、それでも面白いです。
テクニウムがこれをまとめたのは、おそらく新しい画像モデルをローンチするためです。そして、これはサム・アルトマンが初期の頃にLooptをピッチしていた時の非常に有名な画像を遊び心を持って再現したものです。彼はダブルパステルカラーのシャツを着ていました。参考までに、その写真がこちらです。では、ChatGPTの新しい画像モデルを試してみてください。
Zoomのフロンティアモデル
次に、私は2025年のビンゴカードにこれを持っていませんでしたが、どうやらZoomが今やフロンティアモデルを持っているようです。Zoom、ビデオ会議の会社です。Zoom、史上最大の在宅勤務トレンドの中でピークに達した会社です。そして、これを見てください、Humanity’s Last Examです。
Zoom Federated AIが48.1%、Gemini 3 Proが45%、AnthropicのOpus 4.5が43%、そしてGPT-5 Pro with toolsが42%と比較されています。そして、このモデルを特別なものにしているものについて少し説明します。
私たちは、どんなに高度であっても、単一のモデルではすべてのタスクで優れることはできないことを認識しました。この洞察により、私たちはフェデレーテッドAIアプローチを開発することになりました。これは、複数のモデルの独自の強みを活用しながら、新しいアーキテクチャの革新を導入する洗練されたシステムです。
私たちのフェデレーテッドアプローチは、Zoomのスモールランゲージモデルと高度なオープンソースおよびクローズドソースモデルを組み合わせ、独自のZ-Scoreシステムを使用して最適なパフォーマンスのための出力を選択し、洗練させています。
したがって、これは実際には彼ら自身のモデルではありません。これはフェデレーテッドAIシステムです。つまり、基本的に彼らは、最適な結果を得るために、適切なプロンプトを適切なタイミングで適切なモデルにルーティングする方法を見つけ出し、それが実際に機能したということです。
先ほど述べたように、これはすべて彼らのZ-Scoreシステムに基づいています。
バーニー・サンダースの憂慮すべき発言
次に、非常に残念なニュースですが、バーニー・サンダースがデータセンターの建設をこれ以上進めることに対するモラトリアムの支持を表明しました。私はこの立場に非常に反対です。これはひどい立場だと思います。バーニー・サンダースがAIの仕組みを理解しているはずがありません。まして、テクノロジー全般についても。
そして彼は、私たちは今、AIデータセンターの建設を完全に停止する必要があると言っています。まず第一に、それは完全にAI競争を中国に明け渡すことになります。それは私たちの地政学にとって壊滅的なことです。
次に、彼は自分の主張を証明するために、多くのドゥーマー的な論点を選び取っていますが、多くの思想的リーダーやAIリーダーたちが、私自身を含め、それが社会にとって信じられないほど有益になると言っていることには言及していません。
そしてもちろん、彼はこのすべてを、AIは1%の人々だけに利益をもたらし、すべての人には利益をもたらさないという議論の枠組みで捉えていますが、これは真実ではありません。AIは安価です。広く利用可能です。そして、はい、企業、上位1%の人々、上位1%の企業は、それを構築するために投資する必要があります。
データセンターの建設にモラトリアムを課せば中国が私たちを追い抜くという議論だけでも、これを無効にするのに十分な議論です。
彼はまた、電気料金の高騰についても話しています。では、データセンターの建設にモラトリアムを課す代わりに、なぜもっとエネルギーインフラを構築しないのでしょうか。それは確実により多くの雇用を創出します。そして、データセンターの建設だけでなく、エネルギーインフラの建設についても。請負業者、電気技師、建築家について話しています。
これらは、アメリカ国内で調達できる非常に価値のある仕事です。だから、私はこれを見て非常に失望しました。
OpenAIとApple Musicの統合
次に、OpenAIについての別のストーリーです。Apple MusicがChatGPTに登場します。9to5 Macによると、まもなくChatGPTにApple Musicのプレイリストを素早く作成するよう依頼できるようになります。その他のこともできるようになります。
そして、これはすべて、わずか数ヶ月前にローンチされたChatGPT内のアプリに由来しています。Adobeは、PhotoshopやAcrobat、そしてソフトウェアメーカーからの他の主要なアプリケーションがChatGPTでネイティブに利用可能になると発表しました。
ChatGPTは急速にインターネットのデフォルトのエントリーポイントになりつつあります。これは考えるとすごいことです。これは人々がウェブを使用する方法における根本的な変化です。
OpenAIへのAmazonの巨額投資
そして、OpenAIについて話し続けましょう。The Informationによると、OpenAIはAmazonから100億ドルの投資を受けるための交渉中です。おそらくこの時点でOpenAIに投資していない地球上で最後の企業でしょう。これらすべてのAI企業の相互接続された性質を示す新しいインフォグラフィックが必要になります。
Amazonは、OpenAIに100億ドル以上を投資するための交渉中です。議論に詳しい3人によると、評価額は5000億ドルを超えるでしょう。ある人物は、Amazonの投資により、OpenAIがクラウドプロバイダーからサーバーをレンタルするために行ったコミットメントの一部を賄えるようになると述べました。
そして先月、彼ら、つまりOpenAIは、今後7年間でAWSからサーバーをレンタルするために380億ドルを費やすと発表しました。つまり、基本的に起こっていることは、OpenAIがOracle、NVIDIA、そして今やAmazonなどの主要企業からサーバー、インフラ、GPU、何と呼ぼうとそれらをレンタルすることを約束しているということです。そしてその見返りに、これらの企業は基本的にただ彼らにお金を渡し、会社の一部を取得しているのです。
これは私を少し不安にさせるものの一つです。そして、それはすべてTrainiumチップについてです。それはAWSからのカスタムシリコンです。OpenAIは、可能な限りすべてのGPU、TPU、Trainiumチップを手に入れようとしています。それが、彼らが事前学習をスケールアップできる方法であり、すでにここにあり、指数関数的に増加している信じられないほどの推論需要に対応できる方法です。
MetaのSAM Audioリリース
そして最後に、MetaがSAMモデルファミリーに別のオープンソースモデルをリリースしました。それはSegment Anythingモデルです。すべてSAM 3ファミリーの一部です。彼らはSAM 3、SAM 3Dを持っていて、今やSAM Audioがあります。
アップロードしたい任意の音声から、音声をスプライスし、抽出し、分離することができます。音声分離をしたい場合、動画を見て、特定のオブジェクトをクリックして、そのオブジェクトの音声だけを分離したい場合、例えばこのペリカンの例や、騒がしいレストランで話している2人の人物を分離するこの例のように。
「インストラクターが少し頼りないから、それが便利だったか念のため二重チェックしてね」
「うん、チェックしてね、そうじゃないと彼があなたをフォローアップするから」
非常に簡単で、繰り返しますが、オープンソース、オープンウェイトで、非常に非常にクールです。
今日は以上です。この動画を楽しんでいただけたなら、ぜひいいねとチャンネル登録をお願いします。


コメント