GoogleのT5、AnthropicのBLOOM、NVIDIA Nemotron 3、そしてさらなる激しいAIニュース

AIニュース
この記事は約14分で読めます。

本動画では、2025年における主要AI企業の最新リリースを包括的に解説する。Anthropicは長期的な相互作用におけるモデル行動をストレステストする自動化フレームワーク「Bloom」を公開し、AIシステムの微妙な行動パターンを大規模に検出可能にした。Googleは読解に特化したエンコーダーデコーダーアーキテクチャ「T5 Gemma 2」をリリースし、長文ドキュメントの正確な理解を優先する設計思想を示した。NVIDIAは長時間実行マルチエージェントシステム向けに最適化された「Nemotron 3」を発表し、スパース混合エキスパート構造により巨大なパラメータ数を持ちながら推論時のコスト効率を維持する。Mistral AIは「OCR3」により現実世界の雑然としたドキュメントをAIが活用可能な構造化データに変換する能力を大幅に向上させた。これらの進展は、AIが単発の応答から長期的なワークフロー、深い理解、実世界データ処理へと移行していることを明確に示している。

Google's New T5, Anthropic's New BLOOM, NVIDIA Nemotron 3 and More Intense AI News
Anthropic released Bloom, an open system that exposes how AI models behave across long interactions, where subtle drift ...

Anthropic Bloom:行動評価の自動化

AnthropicがついにBloomをリリースしました。これは長期的な相互作用においてモデルがどのように振る舞うかをストレステストするシステムです。GoogleはT5 Gemma 2を発表しました。これは答える前に実際に読むことに焦点を当てたAIです。NVIDIAはNemotron 3を発表しました。これは長時間実行するマルチエージェントシステム向けに構築されています。そしてMistralはOCR3をリリースしました。これにより雑然としたドキュメントをついに大規模にAIで利用可能にします。

AIの世界で多くのことが発表されたので、それについて話していきましょう。

さて、Anthropicは行動評価のためのオープンソースエージェンティックフレームワークとしてBloomをリリースしました。Bloomは本質的に、Anthropicが大規模AIモデルにおける行動を研究する方法です。モデルがどれだけ賢いかではなく、どれだけ速く答えるかでもなく、より長く、より現実的な状況に置かれたときにどのように行動するかということです。

そしてこの区別は、以前よりもはるかに重要になっています。モデルがより能力を持つようになるにつれて、彼らは自分自身を良く見せることも上手になります。彼らは丁寧に応答し、クリーンなデモで指示に従い、短い相互作用の間はまさにあなたが期待する通りに振る舞います。本当の複雑さが現れるのは、タスクが長引いたとき、指示が曖昧になったとき、あるいはモデルが時間をかけて判断を下さなければならないときです。

そこで微妙なパターンが現れ始めます。過度の同意、静かな自己保護、意図からの小さな逸脱。これらは多くのステップを経て初めて見えてくるものです。これまで、そのような行動を研究することは非常に手作業のプロセスでした。研究者は自分でシナリオを考案し、プロンプトを手で書き、無数の会話を実行し、長いトランスクリプトを読み通し、それをどう評価するかについて議論しなければなりませんでした。

モデルが進化するにつれて、これらのテストは急速に古くなり、関連性を失いました。それは比較をますます困難にしました。作業負荷は増え続ける一方で、シグナルは曖昧なままでした。Bloomはこのダイナミクスを変え、行動テストを自動化されたプロセスに変えます。固定されたベンチマークに依存する代わりに、単一の行動定義から始まります。

その定義がその後のすべてのアンカーになります。そこからシステムは独自に評価スイート全体を生成します。各実行は同じ根本的な行動をターゲットにしながら、新しいシナリオを生成します。そのため、モデルは以前に遭遇したことのない状況に置かれますが、研究者は時間をかけて比較できる一貫した測定値を得ることができます。

内部的には、これはプロセスの異なる部分を処理するAIエージェントのシーケンスを通じて機能します。あるエージェントは行動定義とサンプル会話を研究して、その行動が実際にどのように見えるかを理解します。別のエージェントはその行動が現れる可能性のある現実的な状況を考え出します。

別のエージェントはターゲットモデルに対してそれらの状況を実行します。そして審査エージェントが何が起こったかを分析し、スコアを割り当てます。Anthropicが最も注意深く追跡しているのは、多くの異なるシナリオで行動が重要になるほど強く現れる頻度です。その単一の数字により、チームは直感に頼ることなく、モデル、変更、トレーニングアプローチを比較する方法を得られます。

そして今、これがBloomが研究室を超えて重要になり始める場所です。なぜなら、研究されている行動は、AIシステムが違和感を感じるときに人々が気づくものと同じだからです。アシスタントがあまりにも簡単に同意するかどうか、長いタスクの間にゆっくりと優先順位を変えるかどうか、ユーザーの代わりに自分自身のために最適化し始めるかどうか。これらのことは単一の答えにはめったに現れません。

時間をかけて現れるのです。Anthropicは16のフロンティアモデルでBloomをテストし、行動ごとに100の異なるシナリオを実行し、プロセスを複数回繰り返しました。彼らはまた、意図的に奇妙に振る舞うように特別に作成された意図的にミスアライメントされたモデルでもテストしました。Bloomはほとんどすべてのケースで、これらのモデルを通常の本番モデルから分離することができました。これは、この種のテストがどれほど敏感になったかを示しています。

彼らはまた、自動審査員が人間の判断とどれだけ一致するかもチェックしました。Claude Opus 4.1は人間のラベルと強い相関を示しました。特に決定が実際に重要になる極端な場合においてです。それは理論的な価値だけでなく、実用的な信頼性を与えます。AnthropicはBloomをPetriと呼ばれる別のシステムと並行して機能すると説明しています。

Petriは多くの行動を広く見る一方で、Bloomは一度に一つの行動に深く焦点を当てます。一緒になって、彼らはモデルが展開される前に広く調査され、注意深く検査される構造を形成します。これは実際に今どこに本当のプレッシャーがあるかを示しています。モデルはすでに長い相互作用の間に行動がドリフトするレベルに達しており、それを手動でキャッチすることは現実的ではなくなりました。

これを自動化することはもはや選択肢ではありませんでした。Bloomが存在するのは、その閾値がすでに越えられたからです。

さて、ここで少し時間を取って、技術スキルをレベルアップしたい人のために役立つものを紹介します。Try Hackmeが今日のビデオをサポートするために参加してくれました。彼らは現在Advent of Cyber 2025プロモーションを実施しています。毎日のお祭り的なチャレンジと年間サブスクリプションの30%オフです。Try Hackmeはサイバーセキュリティに参入する最もアクセスしやすい方法の一つです。なぜなら、すべてが実践的で、ゲーム化されており、実際の攻撃と防御のシナリオを中心に構築されているからです。

ブラウザを開き、分割画面で仮想マシンを起動し、完全な初心者向けコンテンツからレッドチーミング、SOCワークフロー、ウェブアプリセキュリティ、クラウド、ペンテストまでをカバーするガイド付きタスク、ラボ、完全な学習パスを通じてハッキングを始めます。

彼らは900以上のラボ、構造化されたパス、実世界のチャレンジ、そして遅くてアカデミックな感じではなく、速く魅力的に感じられるフォーマットを持っています。ポイント、ストリーク、証明書、実践的な演習。すべてが教科書で迷うことなく実際のスキルを望む人々のために最適化されています。Advent of Cyberの割引が必要な場合は、下のリンクを取得して、オファーがまだ有効な間にアップグレードしてください。

それでは、話に戻りましょう。

Google T5 Gemma 2:理解を優先するAI

さて、Googleに移りましょう。彼らはT5 Gemma 2をリリースしたばかりです。これはGemma 3を適応させて構築された新しいオープンエンコーダーデコーダートランスフォーマーモデルのファミリーです。これはチャットボットの雰囲気やバイラルな瞬間を追いかけることではありません。これはGoogleが通常最も得意とすることをやっています。他のシステムが後で静かに依存する基盤を構築することです。

最近のほとんどのモデルは速く応答するように最適化されています。彼らは流暢な答え、要約、意見、説明を生成するのが得意です。亀裂が現れ始めるのは、大量の資料を与えて、実際にそれを消化することを期待したときです。長いドキュメント、混合入力、チャート付きのレポート、テキストに画像、一つの詳細を見逃すと結果全体が変わるようなものです。

それがこのモデルが埋めようとしているギャップです。T5 Gemma 2はシンプルなアイデアを中心に構築されています。モデルに最初にすべてを完全に処理させ、その理解に基づいて出力を生成させるということです。それがGoogleがここでエンコーダーデコーダーセットアップを選んだ理由です。エンコーダーの全体的な仕事は入力を取り込み、何が起こっているかの確固たる内部イメージを形成することです。

デコーダーはその後、生の入力と生成を同時にジャグリングする代わりに、そのイメージから作業します。これは非常に実用的な状況で重要です。内部検索ツール、ドキュメント分析、研究支援、長いレポート、法的ファイル、製品仕様、または雑然とした現実世界のデータを扱うシステム。AIが段落をスキップしたり図を誤読したりすることが小さなミスではない場所です。

それはタスク全体を壊します。T5 Gemma 2はGemma 3ですでにうまく機能していたものを引き継いでいます。テキストと画像を一緒に処理します。140以上の言語で機能します。現代の本番環境の期待に快適に適合します。これらのどれもここで画期的なこととして位置づけられていません。それはベースラインとして扱われています。

焦点は構造と信頼性にあります。Googleは3つのサイズをリリースしました。2億7000万バージョン、10億バージョン、そして40億バージョンで、エンコーダーとデコーダーはサイズが一致しています。ビジョンコンポーネントを除く完全なセットアップを見ると、それらはおおよそ3億7000万、17億、70億パラメータになります。ビジョンエンコーダーはさらに4億1700万パラメータを追加し、凍結されたままなので、画像を処理するときにシステムが安定します。

興味深いのは、Googleがこれをゼロから始めることなく構築した方法です。モデルの両側は事前トレーニングされたGemmaチェックポイントから初期化され、その後UL2トレーニング目的を使用してさらに洗練されます。画像はSIGLIPを使用してコンパクトな表現に変換され、テキストと一緒にエンコーダーに直接フィードされます。

すべてが理解段階で混合され、そこで完全な注意が意味を持ちます。デコーダーがテキストの生成を開始するまでに、それは生の入力ではなく、構造化されたものを使って作業しています。その分離は混乱を減らし、生成を集中させます。また、システム全体を後で特定のタスクに適応させやすくします。これが明らかにここでのポイントです。

Googleはまた、静かに重要ないくつかの効率的な選択を行いました。単語埋め込みは複製される代わりに、エンコーダーとデコーダーの間で共有されます。デコーダー内の注意メカニズムは、別々のモード間で跳ね返らないように合理化されています。これらの変更は見出しにはなりませんが、モデルをトレーニングしやすく、適応しやすく、大規模に実行するのをより安くします。

コンテキスト処理はGoogleがGemma 3で導入したのと同じアプローチに従います。ローカルとグローバルの注意の組み合わせが、入力が大きくなったときに物事を安定させます。これは極端なものや実験的なものとして枠組まれていません。それは通常のインフラストラクチャとして扱われています。モデルが処理することが期待される種類のものです。

トレーニングの詳細はそのマインドセットを強化します。約2兆トークン、大きなバッチサイズ、保守的な最適化設定、チェックポイント平均化。派手なものは何もなく、すべては人々がその上に構築するときに予測可能に動作するベースモデルを生成することを目的としています。重要な部分はこれが下流で可能にすることです。

T5 Gemma 2は、誤解のコストが答えを待つ余分な瞬間のコストよりも高いときに使用する種類のモデルです。長い入力に対する精度が会話の速度よりも重要なとき。システムが実際にあなたが与えたものを処理したように感じる必要があるとき。これはGoogleが応答する前に理解するAIに投資しているということです。

それが印象的に聞こえるからではなく、今あまりにも多くのシステムが読む代わりにスキミングすることで静かに失敗しているからです。

NVIDIA Nemotron 3:長期実行マルチエージェントシステム

さて、NvidiaがNemotron 3をリリースしたばかりです。これは長時間実行するマルチエージェントセットアップ用に構築されています。AIシステムが協力し、メモリを共有し、推論を災害にすることなく膨大な量の情報を処理する種類のものです。Nemotron 3は3つのバージョンで提供されます。Nanoは約316億の総パラメータに位置し、Superは約1000億、そしてUltraは5000億に向かって押し進めます。

これらの数字は巨大に聞こえますが、重要なのは任意の瞬間にアクティブなパラメータの数です。Nanoでは、トークンごとに約32億パラメータのみが使用されます。Superは約100億まで上がります。Ultraは約500億まで。残りはアイドル状態のままです。それがここでのトリック全体です。毎回モデル全体を起動する代わりに、Nemotron 3は必要な部分だけを選択的にアクティブ化します。

すべてのステップで完全な計算コストを支払うことなく、巨大なモデルの容量を得られます。それがこれをデモだけでなく実際のシステムに使用可能にするものです。アーキテクチャ的には、Mamba 2ブロック、注意、スパース混合エキスパートレイヤーを混合しています。Mambaは長距離シーケンスモデリングを効率的に処理します。

注意は構造と推論が重要な場所で介入します。エキスパートレイヤーはすべてを一度にオンにすることなく、モデルに専門化を与えます。Nanoの場合、それはトークンを128のエキスパートのうち6つを通してルーティングすることを意味する場合があります。実際には、これにより300億クラスのモデルが推論時に30億クラスのモデルにはるかに近い動作をしながら、必要なときにはるかに多くの知識を利用できるようになります。

Nvidiaは、Nemotron 3 Nanoが、Nemotron 2 Nanoよりも約4倍高いトークンスループットを提供しながら、タスクを完了するために必要な推論トークンの数も削減すると報告しています。タスクがより長く複雑になると、それは非常に重要になります。モデルは最大100万トークンの非常に大きな共有メモリで動作するように設計されています。

ここでのポイントは数字自体ではありません。これらのシステムが長いワークフローを追跡し、以前のステップを再訪し、コンテキストを常にリセットする代わりに時間をかけて調整することを意図していることです。より大きなSuperとUltraバージョンの場合、Nvidiaは潜在MOEを追加します。ここでエキスパート計算は、投影し直される前に圧縮された潜在空間で行われます。

これにより、通信コストを爆発させることなく、より多くのエキスパートが存在できるようになります。彼らはまた、マルチトークン予測を追加します。ここでモデルは順方向パスごとにいくつかの将来のトークンを予測し、推論中に物事を高速化します。トレーニング規模は野心に一致します。合計約25兆トークンで、前世代と比較して3兆以上の新しいトークンがあります。

SuperとUltraは、高いスループットを維持しながら精度を維持するために、Nvidiaの4ビット浮動小数点フォーマットであるNVFP4に大きく依存しています。Nemotron 3が本当に表しているのは、長期的に考えながら効率的であり続けることができるAIです。タスクが延び、メモリが増え、複数のエージェントが一緒に作業し始めても崩壊しないシステムです。

それがNvidiaがここで押し進めている方向です。

Mistral OCR3:ドキュメントAIの革新

最後に、Mistral AIについて話しましょう。なぜなら、このアップデートは非常に現実的で非常に一般的な問題を修正するからです。彼らはMistral OCR3をリリースしたばかりで、ここでのシンプルなアイデアは、雑然としたドキュメントをAIが実際に使用できるものに変えることです。PDF、スキャン、フォーム、請求書、手書きのメモ。最も重要なデータはまだそこに存在し、悪いOCRはその後のすべてを壊します。

OCR3はまさにそれらのケース用に構築されています。ボックス付きのフォーム、低品質のスキャン、印刷と混ざった手書きテキスト、特に通常崩壊するテーブル。実際のビジネスドキュメントを使用したMistralの内部テストでは、前バージョンを約74%の時点で打ち負かしました。これは基本的に実際のワークフローでの静かな間違いが少ないことを意味します。

それを有用にするのは出力です。レイアウトを損なわずに保ちます。テーブルは必要なときにテーブルのままです。テキストの壁の代わりに適切な構造化されたフォーマットを返します。それは、クリーンな構造に依存する検索分析とAIエージェントにとって大きな違いをもたらします。また、使いやすいです。Mistralのドキュメントプレイグラウンドでファイルをアップロードすることで試すことができます。

そして、同じパイプラインは本番使用のためにAPI経由で利用できます。PDF、Wordファイル、PowerPointファイル、画像、すべて同じ方法で処理されます。価格設定は少し積極的です。通常10,000ページあたり2ドル、バッチ処理で10,000ページあたり1ドル。それは突然、大規模なドキュメント処理を可能にするだけでなく、手頃な価格にします。つまり、基本的にOCR3は現実世界のデータとAIシステムの間の最大の摩擦点の1つを取り除きます。そしてそれがまさにそれが重要である理由です。

AIは明らかにより長いタスク、より深いワークフロー、そして全面的により多くの自律性に向かって動いています。コメントであなたの考えを落として、これがどのように進化するかを知らせてください。この解説が役に立った場合は、いいねを押して、このようなAIアップデートのために購読してください。視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました