AI ニュース:Gemini 2.5 Flash、o3と o4、Claude Research、Kling 2.0など!

AGIに仕事を奪われたい
この記事は約14分で読めます。

7,764 文字

AI News: Gemini 2.5 Flash, o3 and o4, Claude Research, Kling 2.0, and More!
Get 10% off your first month of Replit Core with code "MATTHEW" My Newsletter for Regular AI Updates 👇🏼

今週はすべて新しいモデルのリリース、フロンティアモデルのリリースについてです。最初に取り上げるのはGemini 2.5 Flashです。これは私の意見では現在市場で最高のモデルであるGemini 2.5 Proの、より小型で効率的なバージョンです。あのルービックキューブを一気に作れるモデルですね。そして今、私たちはそのはるかに安価なバージョンを手に入れました。
この動画はRepletがスポンサーです。Repletはコードを「バイブ」する最も簡単な方法で、後ほど彼らの新しいAgent V2についてお話しします。
Gemini 2.5 Flashは私たちの最初の完全ハイブリッド推論モデルで、開発者にシンキング(思考)機能のオン・オフを切り替える能力を提供しています。これは素晴らしいことです。開発者としては、より単純なクエリに対する応答を得るだけの選択肢、あるいはより複雑な論理的推論、数学、コーディングのためにシンキングをオンにする選択肢があります。また、シンキングの予算、つまりシンキングウィンドウ内で使用する固定トークン量を設定する機能も提供しています。
いくつかのスコアを見てみましょう。彼らが行ったことで私が気に入っているのは、ベンチマーク比較にOpenAIが先日リリースしたo3とo4 Miniモデルを含めたことです。これらについては後ほど話します。これらのモデルは文字通り前日にリリースされたもので、多くのモデルプロバイダーはそれらを無視したかもしれませんが、彼らはそれらを含めました。たとえそれらのモデルが多くのベンチマークでFlashよりも優れた結果を出したとしてもです。
まずGemini 2.5 Flashについて、価格設定から話しましょう。これがこのモデルの際立った特徴です。入力トークン100万件あたり15セントです。これはo4 miniの1ドル、Claude 3.7 Sonnetの3ドル、Grok 3 betaの3ドル、DeepSeek R1の55セントと比較してください。つまり、Gemini 2.5 Flashはオープンソースよりも安いのです。出力については、非推論時は60セント、推論時は3.50ドルで、DeepSeek R1を除いてすべてのモデルと比較して、はるかに安価です。
実際の品質を見てみましょう。HumanEval(人間性最終試験)では12.1%、これはo4 Miniの14.3%と比較すると若干劣りますが、Claude 3.7 Sonnetの8.9%よりは優れており、DeepSeek R1の8.6%も上回っています。現在、唯一このモデルより優れているのはo4 Miniです。科学ベンチマークのGPQA Diamondでは78.3%、OpenAIは81.4%なので、基本的に他のすべてのモデルと同等です。MMLU 2025、MMLU 2024でも非常に良い成績を出していますが、ご覧のように、全体的にMiniが最も強力なモデルですが、かなり高価です。
このグラフを見てください。Y軸にはArenaスコア、X軸にはトークン100万件あたりの価格があります。X軸の左側はより高価で、右側はより安価です。このような象限の外側に近いほど良いことを示しています。上部にGemini 2.5 Proがあり、最高のモデルです。その他にはChatGPT-4o latestやGrok 3 Previewがありますが、まだかなり高価ですが、他の多くのモデルよりは安価です。そしてここにGemini 2.5 Flash previewがあります。基本的に競合と同等レベルですが、Gemini 2.5 Proよりは明らかに下で、非常に安価です。Gemini 2.5 FlashとProを比較する完全なテスト動画を作成する予定です。
次に、OpenAIが今週3つの異なるモデルをリリースしましたが、そのうち2つについて話します。o3とo4 Miniです。o3は私が今まで見た中で最高のツール使用能力を持っています。実際、思考過程の中でツールを使用することができ、これは他のモデルでは見たことがありません。o4 Miniは異なるモデルで、より小型、より効率的、より安価ですが、両方とも非常に優れています。はい、これら2つのモデルも徹底的にテストする予定です。
これらの2つのモデルについては既に動画を作成したので、あまり詳しく説明しませんが、私の心を完全に吹き飛ばした一つのことをお見せしたいと思います。これをご覧ください。先週私は休暇中でした。ここで休暇中の別の場所で動画を録画しています。画像にロケーションメタデータが含まれていないことを確認するために、スクリーンショットを撮るだけです。GPT-o3に戻って、画像をドラッグして「この人がどこにいるか正確に教えてください」と言います。
今回は前回試したときよりもはるかに短時間で結果が出ました。思考過程では「ユーザーは正確な場所を要求しました。おそらくハワイのカウアイ島プリンスビル付近のように見えます。写真の詳細から判断すると、おそらくプリンスビルでハナレイ渓谷に面し、ナモロカマ山の景色が見えるところです。周囲の植生と家屋の構造はプリンスビル地域と一致します。マウイ島やオアフ島である可能性もあります」とあります。
最終的な回答は「カウアイ島プリンスビルのラナイからハナレイ渓谷とナモロカマ山に面している場所」となり、これは全くその通りです。私がいた場所そのものです。つまり、地理的位置特定(ジオギグ)が解決されたのです。これは絶対に信じられない機能であり、ある意味怖いものでもあります。
初めてこれを試したとき、本当にクールなことをしました。写真の背景にズームインし、ズームアウトし、他の場所でズームインするなど、基本的に画像の各部分とそれがどこにあるかを本当に特定していました。今回はもっと簡単にできていました。また、以前のチャットからのメモリを使用していないことを確認するために、カウアイ、ハワイ、プリンスビルなどの言及をすべて削除し、削除されたことを確認しました。
次に、Repletが Agent V2をローンチしました。彼らは今日の動画のスポンサーでもあります。Repletは素晴らしい完全クラウドベースのIDEで、彼らはバイブコーディングツール、特にAgent V2に懸命に取り組んできました。私はRepletをたくさん使用してきました。特にデプロイメントプロセスがとても簡単です。データベースのセットアップや、ローカルでコーディングした後のデプロイメントを心配する必要がありません。最初からクラウド上にあるので、すべてがうまく機能します。
Agent V2では、V1と比較して格段に改善された自律エージェントが代わりに働きます。Replet V2では、必要なものを作成する成功率が5倍になります。最高の部分は、完全にクラウドベースであるため、世界のどこにいても、どのコンピュータを使用していても、ブラウザからログインできる限り、リポジトリ全体、コードベース全体に簡単にどこからでもアクセスできることです。Apple端末やAndroidでRepletアプリをダウンロードすることもできます。
replet.com/refer/matthewbermanをチェックしてください。リンクを下に貼っておきます。コード「Matthew」を使用すると、Repletの最初の月の料金が10%オフになります。リンクをクリックするだけでなく、コード「Matthew」を入力してください。Repletは素晴らしいパートナーですので、ぜひチェックしてみてください。
次に、OpenAIについて話を続けましょう。今週初めにGPT-4.1がリリースされました。これはGPT-4oの後継で、より優れ、より高速、より安価、より効率的なモデルです。今週は他にも多くのモデルがリリースされたため、発表されるとほぼ同時に忘れられてしまいましたが、ご覧のように、GPT-4.1 Nano、Mini、完全版の3つのモデルファミリーがあります。これは4o Mini と4o完全版と比較したものです。
これは多言語理解がY軸、レイテンシーがX軸のチャートです。残念ながらラベルが付いていないのは人道に対する犯罪のようなものですが、これはOpenAIモデルリリースウィークにおける別の素晴らしいモデルです。
次に、Anthropicも今週の話題から取り残されないように、いくつかの新機能をリリースしました。一つは「Research」で、これは基本的にDeep Researchと同じものですが、単に「Research」と名付けられています。こんな感じです。「アパラチアン・トレイルをハイキングするために3ヶ月の休暇を計画しています」、リサーチベータをオンにして進みます。おそらくGrokのDeep Research、GoogleのDeep Research、OpenAIのDeep Researchとまったく同じように見えると思いますが、一つ際立っていることは、Google Workspaceスイート(Gmail、Calendar、Docsなど)との統合があることです。
これは信じられないほど強力で、その重要性を過小評価することはできません。私はこれを待っていました。私のために電子メールの返信を下書きしてくれるAIツールを待っていたのです。すでにClaudeでテストを始めています。Grokにも似たようなものがあり、Geminiにも同様のものがあります。そしてそれらはすべて先週くらいにリリースされたばかりです。現在、Googleワークスペースを通じてAIを使用して検索や作成をすることができます。私は多くのGoogle製品を使用しているので、これについては非常に楽しみにしています。
次に、Grok GQがCompound Betaをリリースしました。開示すると、私はGrokの非常に小さな投資家です。これは既に彼らが信じられないほど高速な推論スピードで動かしているオープンソースモデルに、APIコールの一部としてツール使用を追加するものです。これらのモデルが最初に手に入れる2つのツールはウェブ検索とコード実行で、現時点では本当に最も重要な2つのツールです。
Compound Betaは複雑なクエリに答えるために反復的なサーバーサイドツール実行を使用します。ウェブ検索やコード実行などのツールをいつどのように使用するかを自律的に決定し、応答を返す前にそれらを複数回実行できます。これは多くのフロンティアクローズドソースモデルが既にできることですが、今度はGrokオープンソースと信じられないほど高速な推論スピードでそれが手に入ります。
Compound BetaはGrok Cloudですでにサポートされている複数のオープンで利用可能なモデル(最新のLlama 4モデルを含む)を活用しています。コア推論にはLlama 4 Scoutを使用し、ルーティングとツール選択にはLlama 3.1 70Bが補助しています。これは本当にクールなので、ぜひチェックしてみてください。
次に、テキストから動画を生成するモデル会社であるKlingがフェーズ2をリリースしました。まずKling 2.0 Masterによる動画生成です。1.6モデルよりもさらに優れたプロンプト遵守性、大幅に強化されたダイナミクス、改善された美学が特徴です。画像を取り、「男性が最初に楽しそうに笑い、突然怒り出して、テーブルを叩いて立ち上がる」というプロンプトを与えています。これが古いバージョンの1.6です。まあまあですね。手が少し変に見え、完全に自然には見えません。
新しいバージョン2.0 Masterを見てみましょう。そう、すべてがより良く見えます。はるかに動的で、より流動的です。物理的な動き、照明、煙、すべてがより良く見えます。もう一つの例を見てみましょう。これはKling 1.6です。公園にいる女の子がいて、周りを歩いている人々がいます。すべてOKに見えますが、よく見ると周りを歩いている人々は少し不自然に見え、不自然な歩き方をしています。
2.0を見てみましょう。今では、すべてが早送りのように見え、よりぼやけていて、女の子の周りのすべてのものが速く動いていて、女の子はゆっくりと動いているように見えます。これははるかに良く、はるかに自然に見えます。彼らはまた、ダイナミクスの大幅な改善、キャラクターの被写体のより広い動きの範囲、流動的な動きと自然な速度、最も複雑な動きの間でも細部まで自然な外観で没入型の体験を提供すると述べています。また、視覚的な美学も向上し、プロレベルの演技のためのより劇的な表現が可能になっています。Klingをチェックしてください。彼らは素晴らしいAIビデオ製品を作っています。
OpenAIに戻りましょう。彼らが30億ドルでWindsurfを買収する交渉をしていると報じられています。私はこれについて複雑な感情を持っています。製品の基盤となるインフラを提供する企業に買収されるたびに、その製品は明らかにそのインフラ、つまりOpenAIモデルとより良く連携するようになります。そのため、将来的にClaudeやGeminiを使いたい場合、それらのモデルにそれほど焦点を当てなくなる可能性がありますが、希望を持っています。彼らが引き続きすべてのモデルをサポートすることを楽観的に考えています。
現在、これは単に報告されているだけで、まだ確認されていませんが、OpenAIがこの買収を行うことは実際に理にかなっていると思います。バイブコーディングは、以前はソフトウェアを構築できなかった人々、ビルダーの爆発的増加を可能にするでしょう。それは学習曲線が高すぎたか、コストが高すぎたからです。今では基本的に自然言語だけで何でも構築できます。ご存知のように、私はバイブコーディングを推進しており、もちろんOpenAIはインテリジェンスレイヤーを超えて拡大したいと考えています。私が言ってきたように、インテリジェンスは急速に商品化されているので、その上にアプリケーションを構築する必要があります。Windsurfはインテリジェンスレイヤーの上に構築された優れたアプリケーションです。このストーリーがどうなるか見てみましょう。
次に、OpenAIは明らかにXのようなソーシャルネットワークに取り組んでいるとのことで、これによりSam Altmanのこのツイートがより意味を持ちます。2月27日に「Metaは、OpenAI ChatGPTと競合するために、スタンドアロンのMeta AIアプリをリリースする計画です」とありました。Sam Altmanは「いいよ、多分私たちもソーシャルアプリを作るかも」と返しています。それが実は本当だったかもしれません。そして「もしFacebookが私たちに挑んでくるなら、UNOリバースカードを出すのはとても面白いだろう」と。Sam Altmanはしばしばこのようなことをします。彼らが開発しているものをただ言うのです。
これは素晴らしい判断だと思います。ソーシャルネットワークを構築することは、特に今日ではほぼ不可能です。ネットワーク効果は構築するのが非常に難しいですが、ChatGPTにはすでに数億人のユーザーがいるので、初期のトラクションを得ることは彼らにとって比較的容易なはずです。
これが多くの意味を持つのはなぜでしょうか?それはすべてデータにあります。XやMetaのプラットフォームが非常に価値があるのは、モデルのトレーニングに使用できる大量のデータと継続的に新しいデータを持っているからです。OpenAIにはそれがないので、データを購入したり、合成データを作成したりする必要がありますが、他の多くのモデルプロバイダーのような有機的なデータソースを持っていません。ソーシャルネットワークを成功裏に構築できれば、自己生成データシステムを持つことになります。これはクールに聞こえますし、彼らがそれを実現し、AIネイティブであればなお良いと思います。
次に、Microsoftが、UI自動化のためのMicrosoft Copilot Studioでコンピュータ使用を発表しました。コンピュータ使用はエージェンティック行動の次のフロンティアです。この新機能により、Copilot Studioエージェントはウェブサイトやデスクトップアプリケーションをツールとして扱うことができます。コンピュータ使用を使用すると、エージェントはグラフィカルユーザーインターフェースを持つあらゆるシステムとやり取りできるようになります。
彼らが示している例のいくつかは、自動データ入力、市場調査、請求書処理などです。ここでのキーポイントは、ロボティックプロセスオートメーション(RPA)の再構想です。これは何十億ドルもの産業で、基本的にそれを根底から覆そうとしていると言っています。そして私はそれを信じています。ブラウザ使用、コンピュータ使用、これはRPA業界を完全に変えるでしょう。
次に、話題から取り残されないようにGrokもある機能を追加しています。Grokは今あなたの会話を覚えています。あなたが推奨やアドバイスを求めると、パーソナライズされた回答が得られます。これは個人向けAIにとって非常に重要な機能です。おそらく皆さんの中には、AIに自分のことを覚えてほしくないと思う人もいるかもしれませんが、私個人はそうではありません。私は私のAIアシスタントと短い言い回しや表現方法を発展させたいです。プロンプトを出すたびに自分のことをすべて伝える必要はなく、過去の会話を参照してほしいです。
もちろん、これらのメモリはいつでもオプトアウトでき、先ほど示したように削除することもできます。しかし個人的には非常に楽しみにしています。メモリは透明性があり、Grokが何を知っているかを正確に見ることができ、何を忘れるかを選択できます。メモリを忘れるには、メッセージの下にある小さな本のアイコンをタップします。Androidにも近日公開予定です。現在ベータ版で、grok.comとiOSおよびAndroidアプリで利用可能です(明らかな理由によりEUおよびイギリスを除く)。
これが今週のすべてのストーリーです。何と素晴らしい一週間だったでしょう。今週はすべてモデルに関するものでした。Replitにこの動画のスポンサーをしていただき、ありがとうございます。ぜひチェックしてください。説明欄にすべてのリンクを貼っておきます。リンクをクリックするだけでなく、コード「Matthew」を入力することを忘れないでください。この動画が気に入ったら、ぜひいいねとチャンネル登録をよろしくお願いします。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました