OpenAIが自ら考えることのできる思考AIをリリース + Gemini 2.5 Flash、Embed 4…

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,593 文字

OpenAI Just Released a Mind That Can Think on Its Own + Gemini 2.5 Flash, Embed 4...
Experience a gripping first-person journey as a medieval knight prepares for battle, from dawn rituals to the moment of ...

OpenAIがブレイニアック・デュオのo3とo4 Miniをリリースし、Googleは予算調整可能なGemini 2.5 Flashを展開、Cohereは次世代マルチモーダル検索のためのEmbed 4を公開、そしてMicrosoftはEdgeでCopilot Visionを無料化しました。それぞれがどのように機能し、なぜ重要なのか、そしてどれを最初に試すべきかについて掘り下げていきます。
まず最初に、OpenAIがo3とo4 Miniを発表しました。Chat GPTを使っていると、時々AIが話す前に長く考えているように感じることがあるかもしれませんが、それは意図的な設計です。o3は彼らの最も強力な推論モデルで、より深く考え、ツールを自律的に組み合わせ、1分以内に詳細な回答を提供するよう訓練されています。ウェブ検索、Pythonコード実行、ファイル分析など、あらゆる機能を備えており、さらに各ツールをいつ使うべきかを判断するため、面倒を見なくても正確で思慮深い回答が得られます。
この飛躍的な進歩はあらゆるベンチマークで顕著です。AIMEのような複雑な数学問題では、o4 Miniは小型で低コストにもかかわらず、Pythonアクセスがある場合、2025年の試験で99.5%のパス率を達成し、8回の試行で100%の一致率を示しています。o3もそれに劣らず98.4%のパス率です。コードを少し利用するだけで、ほぼ完璧な成績です。Code Forcesでは、o4 mini highのELOレーティングは2,719、o3 highは276です。
PhD級の科学的質問、高度な研究タスク、MMUのようなマルチモーダルベンチマークやCharizの科学的図表推論に興味があれば、これらのモデルは先代を大きく引き離しています。o3はo1と比較して重大なエラーを約20%削減しています。視覚認識タスクでは特に顕著で、o3はMMUで86.8%の精度を達成し、o1の71.8%を上回ります。数学的視覚パズルでも、o1の55%からo3の78%へと大幅に向上しています。
本当に驚くべきは自律的な能力です。「カリフォルニアの夏のエネルギー使用量は昨年と比べてどうなるか?」と尋ねると、モデルがウェブ検索を連鎖させ、公共事業データを取得し、Pythonを書いて使用量を予測し、グラフを生成してから主要な要因を説明する様子を見ることができます。すべて自律的に行います。必要に応じて検索を繰り返し、新しい情報を見てピボットし、画像を回転やズームしながら考え続けることができます。次元が違いますね。
内部的には、OpenAIは強化学習の計算能力を1桁スケールアップし、推論時間の思考のためにそのスケーリングパスを再トレースしました。より多くの計算能力はより良いパフォーマンスを意味します。また、生物学的リスク、マルウェア、ジェイルブレイクに関する新しい拒否プロンプトを含め、安全性トレーニングデータを一から再構築しました。さらに、不審な行動を99%の成功率でフラグ付けする推論LLM安全性モニターを重ねています。レッドチームのテストでも、両モデルはバイオ、サイバー、AI自己改善リスクに関する準備態勢フレームワークを通過し、高いしきい値を下回っています。モデルが鋭くなるにつれ、安全性の基盤もより強固になっています。
o3、o4 Mini、およびo4 Mini Highバリアントは、Chat GPT PlusやPro、またはTeamの企業ユーザーであれば今日から試すことができます。教育ユーザーは約1週間で利用可能になり、無料ティアのユーザーでも、プロンプトの前に「think」と入力することでo4 Miniを試すことができます。開発者はチャット完了APIと応答APIを通じてこれらを呼び出すことができ、推論の要約が付属し、ウェブ検索やコードインタープリターなどの組み込みツールもまもなく登場します。
そしてすべてを理解したと思った矢先に、OpenAIはCodeCliというミニマリストなコーディングエージェントをリリースしました。ローカルで実行するターミナルインターフェースで、コードと推論し、スクリーンショットや低解像度のスケッチを取り込み、マシンに直接接続できます。GitHubでオープンソース化されており、コミュニティプロジェクトを促進するための100万ドルの助成金プログラムが準備されています。API利用枠として25,000ドル単位で配布される予定です。エンタープライズアーキテクトであれ個人開発者であれ、真剣に遊べる新しいツールが手に入りました。
話題を変えて、Googleについて話しましょう。昨日、彼らはGemini 2.5 Flashをロールアウトしました。ここでの目玉は「思考予算」です。モデルが使用する推論トークンの数を、ゼロから最大24,576トークンまで調整できるようになりました。なぜなら、深い推論はより多くの計算を必要とし、計算にはお金と時間がかかるからです。翻訳のような単純なタスクでは思考をオフにし、出力トークン100万あたりわずか0.6セントを支払います。一方、複雑なエンジニアリング問題や多段階のロジックといった重い処理が必要な場合は思考をオンにすると、入力トークン100万あたり3.5セントかかり、出力は0.15セントのままです。この6倍の価格差は偶然ではなく、Googleは本当のコストが異なる解決策のパスを評価するモデルの思考段階にあることを非常に透明に示しています。AI StudioのUIでは、それらの隠された内部の思考をのぞくこともできます。APIでは文字は見えませんが、トークンカウントの上下を監視できます。
パフォーマンス面では、Gemini 2.5 Flashは自重以上の力を発揮します。「Humanity’s Last Exam」では12.1%のスコアでAnthropicのClaude 3.7 Sonnetの8.9%とDeepseek R1の8.6%を上回りますが、OpenAIのo4 Miniの14.3%には及びません。技術的ベンチマークでは、GPQA Diamondで78.3%を記録し、数学パフォーマンスは2025年のAIMEで78%、2024年版で88%を達成しています。Googleの売り込みポイントは、速度とコストを考慮すると最高の価値を提供するということです。特に予算の予測可能性を必要とする企業顧客にとって魅力的です。Google AI StudioとVertex AIで現在プレビュー中であり、他にもいくつかの動きと組み合わせています。まず、Gemini Advanced登録者向けにV2ビデオ生成を開始し、テキストプロンプトから8秒間のクリップを生成できます。次に、米国の大学生は2026年春までGemini Advancedに無料でアクセスでき、これは次世代のAI人材を確保するための明確な戦略です。一般ユーザー向けには、Geminiアプリのドロップダウンに「2.5 Flash Experimental」が追加され、古い「2.0 thinking」オプションに代わっています。これは一般提供前に実際のユーザーからフィードバックを集めるGoogleの方法です。
企業について話すと、Cohereが最近Embed 4をリリースしました。これは検索拡張生成(RAG)を行うあらゆるエージェントAIアプリのための基盤となることを目指すマルチモーダル検索エンジンです。企業がチャート、表、コードスニペット、埋め込み画像が含まれたPDFとどう格闘しているかご存知でしょう。Embed 4では、約200ページの年次報告書に相当する最大128Kトークンを分割せずに一度にインデックス化できます。アラビア語、日本語、韓国語、フランス語など100以上の言語に対応したマルチリンガル機能を備えています。また、金融、医療、製造などの規制業界向けに調整されているため、投資家向けプレゼンテーション、臨床試験報告書、製品仕様書、修理ガイドなどを理解できます。
埋め込みベクトルは圧縮されたバイナリNT8やFP32で提供されるため、ストレージの使用量を最大83%削減しながらも、上位1/4タイルのNDCG@10スコアを達成できます。顧客はすでに大きな成果を上げています。Hunt Clubは複雑な候補者プロファイルを検索する際、Embed 3と比較して相対的な精度が47%向上したと報告しています。AIを活用したショッピングエンジンであるAgoraは、何万もの店舗から適切な商品を表示する製品検索が大幅に向上したと述べています。また、スキャンした文書、手書き、横向きページなどの実世界のノイズに強いため、奇妙なPDFで常に壊れてしまう面倒な前処理パイプラインの必要性を大幅に削減します。Embed 4は現在Cohere自身のプラットフォームで利用可能で、Microsoft Azure AI Foundry、Amazon SageMaker、さらにはプライベートにオンプレミスのVPCでも展開できます。また、安全なAIエージェントランナーであるNorthのCompass検索レイヤーを強化し、独自のデータボールトから確実にデータを取得するエンドツーエンドのエージェントを構築できます。
最後にMicrosoft Copilot Visionについて話しましょう。彼らはEdgeブラウザを使用している全ユーザーに無料で提供することにしました。以前はCopilot Visionと画面コンテンツを共有するためにCopilot Proのサブスクリプションが必要でした。現在、最新のEdgeを使用していれば、ブラウザのマイクアイコンをクリックし、AmazonやTarget、Wikipedia、TripAdvisorなどにCopilotを向けると、見ているものを解析して質問に答えてくれます。有料サイトや機密サイトでは機能せず、完全にオプトイン式です。Microsoftはモデルトレーニングのために画像、音声、会話を収集していません。プライバシー面での勝利ですが、それだけではありません。
今月初めには、CopilotをモバイルとWindowsアプリに統合しました。モバイルでは、スマートフォンのカメラをコーヒーマシンの説明書や奇妙な道路標識などに向けると、Copilotがライブビデオや保存した写真を解釈します。Windowsでは、インサイダーがCopilotコンポーザーの小さな眼鏡アイコンを通じてアプリウィンドウを共有し、質問できます。近いうちに、より多くのWindowsユーザーにロールアウトされるでしょう。Edgeと組み合わせることで、誰でも無料で見たり説明したりできるAIを利用できるようになります。これは日常のブラウジングにおけるシームレスなマルチモーダル対話への大きな一歩です。
今日のAIオーバーロードについてのまとめです。数多くの強力なツールがあなたの手に入ります。試してみて、どれがあなたの心を最も驚かせるか教えてください。視聴ありがとうございます。次回もお楽しみに。

コメント

タイトルとURLをコピーしました