MicrosoftがHarrier OSS version 1をリリースし、多言語検索においてSOTAを達成した。同モデルは27億パラメータまでの3サイズを展開し、デコーダーオンリーアーキテクチャと最大32,768トークンの文脈長を実現している。Googleは動画生成モデルVO 3.1 Lightでコスト効率を大幅改善し、Gemini内で3Dアバターや学習モード「Remy」をテスト中である。Metaは処方箋対応のAIグラス新モデルを発表し、日常利用の摩擦を削減する戦略を推進している。一方、AnthropicはClaude Code内の新UI「Epitaxi」をテスト中にnpm経由でソースコードが流出し、内部モデル名が明らかになった。xAIはGrokにカスタムスキル機能を準備中で、ChatGPT、Claude、Geminiと同様の再利用可能な命令セット機能を実装する方向に進んでいる。

MicrosoftがHarrier OSS version 1をリリース
MicrosoftがHarrier OSS version 1を発表しました。このモデルはすでに多言語検索においてSOTAを達成しています。GoogleはVO 3.1 Lightで動画生成のコストを大幅に削減する一方、Gemini内で3次元アバターや新しいRemyという学習モードを静かにテストしています。
Metaは処方箋対応のRay-BanモデルでAIグラスを日常生活に浸透させようとしています。AnthropicはEpitaxiと呼ばれる奇妙な新しいClaude Codeインターフェースをテスト中に、自社システムの一部を誤って流出させてしまいました。そして今、xAIはChatGPT、Claude、Geminiと直接競合するため、Grok用のカスタムスキルを準備しています。
多くのことが一度に変化しましたが、まずはMicrosoftから始めましょう。彼らはHarrier OSS version 1をリリースしたばかりです。これは基本的に多言語埋め込みモデルの新しいファミリーです。ここには3つのサイズがあります。約2億7000万パラメータ、6億、そしてはるかに大きい270億パラメータ版です。
これらのモデルが行うのは、テキストをスマートなベクトル表現に変換することです。これはAI検索、検索システム、セマンティック理解が舞台裏でどのように機能するかの大きな部分を占めています。
Harrier OSS version 1の特徴とベンチマーク性能
さて、これが興味深い理由は、これらのモデルが多言語MTE-B version 2と呼ばれるベンチマークでSOTAを達成したことです。このベンチマークは、分類、クラスタリング、検索、そして言い換えマッチングなどを幅広い言語にわたってテストします。つまり、これは英語で良い結果を出すだけの話ではありません。これは1つの共有システム内でグローバルデータ全体にわたって意味を適切に処理することなのです。
アーキテクチャの変更がおそらく人々が注目している最大の理由です。Microsoftは何年も埋め込みを支配してきたBERTのような古いエンコーダーモデルを使う代わりに、デコーダーオンリーのセットアップに移行しました。これは現代の大規模言語モデルがどのように機能するかにはるかに近いものです。これによりモデルがテキストを読む方法が変わります。
ここでは、シーケンス内の最後のトークンを使用して最終的な表現を構築し、それを正規化して出力が一貫性があり比較可能な状態を保つようにしています。これは小さな技術的詳細のように聞こえるかもしれませんが、はるかに大きな変化を示しています。ますます多くのAIシステムが古いNLPスタイルから離れ、LLMスタイルの基盤に向かって移行しています。
コンテキスト長の大幅拡張と実用的な意義
ここでのもう1つの大きなアップグレードはコンテキスト長です。3つのモデルすべてが32,768トークンをサポートしています。これは512トークンや多くて1,000トークンで止まることが多い古い埋め込みモデルと比較して巨大です。そのため、ドキュメントを多くの小さなチャンクに分割して途中で意味を失う代わりに、はるかに大きなテキストやコードの断片を一度に処理できます。
次に命令ベースのセットアップがあります。これらのモデルは最良の結果を望むならプラグアンドプレイではありません。Microsoftによると、クエリには最初に短い命令を含める必要があります。意味的に類似したテキストを検索するようモデルに指示するようなもので、その後に実際のクエリが続きます。
一方、ドキュメントは命令なしでエンコードされます。これによりモデルは実際にどのような種類のマッチを望んでいるかを理解し、さまざまなタスクにわたってパフォーマンスを向上させます。そして小さなモデルについては、Microsoftは知識蒸留を使用しました。つまり、2億7000万と6億のバージョンは、より強力で大規模な埋め込みモデルから学習するように訓練されました。
これにより、そのサイズで通常期待されるよりも優れたパフォーマンスを発揮できるようになります。これは速度、メモリ、コストがすべて重要である実世界の展開にとって重要です。全体として、これはMicrosoftが特に多言語アプリケーションにおいて、非常に真剣な方法でオープンソース検索を前進させているということです。
GoogleのVO 3.1 Lightによるコスト革命
さて、Googleに話を移しましょう。彼らはVO 3.1 Lightを導入したばかりです。ここでの重要なポイントはコストです。これは現在、彼らの最もコスト効率の良い動画生成モデルであり、Gemini APIを通じて利用可能です。VO 3.1 Fastと同じ速度で動作しながら、コストは半分以下です。これは動画を多用するアプリを構築する開発者にとって大きな意味があります。
このモデルはテキストから動画へ、画像から動画へ、両方をサポートし、出力フォーマットの柔軟性を提供します。16×9の横長動画や9×16の縦長動画を生成でき、最大1,080ピクセルの解像度が得られます。期間も調整可能で、4秒、6秒、または8秒で、価格設定はそれに基づいてスケールします。
ここで起こっていることは非常に明確です。Googleは大量使用のユースケースに向けて推進しています。一度に1つの洗練された動画を生成するだけでなく、ユーザーが素早く反復し、複数のバージョンを生成し、コストの爆発を心配することなくリアルタイムで出力を改良できるアプリを開発者に構築してもらいたいのです。そして彼らは高速版のVO 3.1 Fastの価格も4月7日から引き下げています。
つまり、動画生成スタック全体が安くなっているということです。これはアプリで主流になるために必要なことそのものです。VO 3.1 LiteにはGoogle AI StudioまたはGemini API経由ですでにアクセスできます。これは将来のリリースではありません。今、展開されているのです。
Geminiの新機能:3DアバターとRemy学習モード
同時に、Googleは次に何が起こるかを示唆するGemini内の新機能も実験しています。その1つが添付メニュー内の3次元アバターオプションです。これは以前likenessと呼ばれていたものと結びついており、ユーザーは画像や動画生成に使用するための自分自身の3次元バージョンを生成できるようです。これは明らかにしばらくの間内部的にテストされており、UI要素に表示されているという事実は、一般公開が近づいていることを示唆しています。
また、Remyと呼ばれる新機能もあり、専用の学習モードのように見えます。これはGoogleの学生向けAIツールへの推進の一部のようです。見える内容に基づくと、Remyはユーザーが試験の準備をするのを支援するように設計されているようです。つまり、これは明らかにGeminiをより構造化された教育ユースケースに移行させています。
それに加えて、スキルサポートと呼ばれるものが一部のGemini Ultraユーザーに展開されている兆候があります。これはAIシステムが再利用可能なスキルやモジュール式の命令セットに向かって移行している業界全体で見られることと一致しています。これらすべてはGoogle IOの直前に起こっているので、これらの機能のいくつかがそこで正式に発表される可能性は十分にあります。
Metaの処方箋対応AIグラスで日常化を加速
さて、Metaは異なる角度を取っています。ハードウェアと日常的な採用により焦点を当てています。彼らは新しいAIグラス、具体的にはRay-Ban Meta ラインナップの処方箋対応バージョンを発表したばかりです。これにはBlazer Optics Gen 2とScriber Optics Gen 2が含まれます。
ここでの大きな変化は、これらが単なる追加のガジェットとしてではなく、通常のメガネを置き換えるように設計されていることです。ほとんどの処方箋タイプをサポートし、ノーズパッドやテンプルチップのような調整可能なコンポーネントが付属し、米国では約499ドルから始まります。
予約注文は3月31日に開始され、4月中旬により広範な入手可能性が期待されています。ハードウェア自体は以前のバージョンから劇的に異なるわけではありません。約8時間のバッテリー寿命、ケース使用で最大48時間、そして3万画素の動画キャプチャを引き続き提供しています。したがって、真の焦点は快適さ、フィット感、そして人々が実際に一日中着用するものにすることにあります。
これがここでの重要なポイントです。Metaは摩擦を取り除こうとしています。人々がすでにメガネをかけているなら、2つ目のデバイスを必要とせずにAI機能を提供することははるかに簡単な売り込みです。彼らは新しいソフトウェア機能も追加しています。ユーザーは音声や写真を使ってハンズフリーで食事を記録できるようになります。WhatsAppの要約がデバイス上処理とエンドツーエンド暗号化で導入され、ナビゲーション機能が米国の都市全体で拡大しています。
Metaは2025年にすでにグローバルスマートグラス出荷台数の約76.1%を占めていました。したがって、この動きは競合他社が完全に追いつく前にそのリードを固めることです。
AnthropicのEpitaxiとソースコード流出
さて、それが起こっている間、Anthropicは少し混沌とした何かに対処しています。Claude Code内でEpitaxiと呼ばれる新しいインターフェースがテストされています。これはモデル選択、スキル選択、一般的なナビゲーションのためのより多くのホットキーを備えた代替デスクトップUIのように見えます。また、「Let Claude cook」というフレーズとともにClaudeマスコットが火の玉を発射するアニメーションのような遊び心のある要素も含まれています。
同時に、ソースコードの流出がありました。Anthropicはこれが侵害ではなく、npmレジストリを通じてファイルを公開した設定ミスだったことを確認しました。その流出により、まだ正式に発表されていないCapiara、Strudelなどの内部モデル名が明らかになりました。これはAnthropicが舞台裏で何に取り組んでいるのかについて多くの憶測を引き起こしました。
一部のユーザーはすでに流出した資料で実験を始めており、Claude Codeを異なるプログラミング言語にフォークする者さえいます。つまり今、新しいUI実験と彼らの内部ロードマップへの予期しない透明性の組み合わせが生まれています。それが意図的でなかったとしてもです。
xAIがGrokにカスタムスキル機能を実装予定
そして最後に、xAIは他のすべての人が向かっているのと同じ方向にさらに深く進んでいます。彼らはGrok用のカスタムスキルに取り組んでいます。これによりユーザーはインターフェース内で直接再利用可能な命令セットを作成できるようになります。
名前、説明、そして命令自体を定義し、それを保存して必要なときに再利用します。また、zip、skill、またはマークダウン形式のようなファイル経由でスキルをインポートするサポートもあります。つまり、これは単なる基本的なプロンプトではなく、プロンプトを再利用可能なモジュールに変えることです。
これは3月初旬に開始されたカスタムエージェント機能の上に構築されています。ユーザーは最大4つの別々のエージェントを設定できました。スキルはそれよりも細かいものです。完全なエージェントの代わりに、異なるワークフローに添付できるビルディングブロックのようなものです。
これはより広範な業界トレンドに適合しています。AnthropicにはすでにClaudeスキルがあります。OpenAIはChatGPTのために同様の機能を開発しており、GoogleはGemini内でそれを実験しています。したがって、xAIは基本的に追いついており、この分野が向かっている場所に合わせています。
この機能はまだ稼働していません。まだフィーチャーフラグの後ろにありますが、コードベース内での存在は、それが積極的に開発されており、まもなく開始される可能性が高いことを示唆しています。
とにかく、これですべてです。以下にあなたの考えをドロップしてください。これらの動きのうち、実際に長期的に最も重要なのはどれか気になります。これを楽しんでいただけたなら、いいねとチャンネル登録をお願いします。ご視聴ありがとうございました。次回お会いしましょう。


コメント