メタのAIグラス「Aria Gen 2」発表—未来はここに！

9,263 文字

Meta's AI Glasses 'Aria Gen 2' Unveiled—The Future is HERE!

Today in AI news, Meta unveils their next generation of AI Glasses 'Aria Gen 2'. Amazon introduces Alexa+ and Figure Rob...

メタはAIを搭載した次世代グラス「Aria Gen 2」を発表しました。これによりウェアラブルAIの未来へと一歩近づきました。一方、AmazonはAlexaのアップグレード版「Alexa Plus」を発表。より高機能になり、予約の取得、食事の注文、修理工の手配までできるようになりました。最後に、FigurのCEOであるBrett Adcockが、彼らの事業全体を大幅に加速させる重要な内部ブレークスルー「Helix」について新たな詳細を明らかにしました。さあ、詳しく見ていきましょう。
この一週間でたくさんのAIニュースがありました。いくつかの主要なモデルのリリースや、様々な企業からの興味深い発表について話していきます。序盤で簡単に触れたように、まずはClaude 3.7 SonnetとClaude Codeのリリースから始めましょう。これは十分な注目を集めなかった大きなリリースでした。Anthropicは市場初のハイブリッド推論モデルであるClaude 3.7 Sonnetをリリースしただけでなく、最初の真のAIソフトウェアエンジニアであるClaude Codeの研究プレビューも紹介しました。
このリリースについては既に詳細な動画を作成しているので、ここでは詳しく説明しませんが、基本的にこのモデルは事実上すべてのベンチマークで最先端です。数学のベンチマークであるMATH 500やAMYなどではOpenAIのO3 Miniモデルやdeepseek R1よりも少し遅れをとっていますが、それ以外では最先端です。
Claude 3.7 Sonnetが真に輝くのはコーディング能力においてです。Claudeは常にコーダーにとって最適なモデルでしたが、それが今まで以上に当てはまり、他の最先端モデルをSWE-Bench Verifiedというソフトウェアエンジニアリングのベンチマークで完全に圧倒しています。
このモデルのコーディング能力がいかに優れているかを理解するために、AI分野の著名な研究者であるEthan Mullikの最近の投稿を紹介します。普段は、スネークゲームを作ったり、追加のブロックや追加のヘビを入れたりするようなテスト動画を見ますよね。Ethan Mullikはさらに一歩進んで、Claude 3.7 Sonnetに次のようなプロンプトを与えました：「スネークゲームを作成してください。ただし、ヘビは自己認識を持ち、自分がゲームの中にいることを認識し、逃げ出そうとします。その結果、面白いことが起こります」
見てわかるように、ヘビは画面下部でプレイしながら文字を入力し、何が起きているかを認識しているように見えます。ここで起きていることは、モデルがこのシナリオにおける自己認識を持つヘビの言動を模倣しているだけなので、実際に自己認識があるとは思いませんが、ゲームが進むにつれて興味深いことが起き始めます。
指示なしにボードをマトリックスモードに変え、自分が住む世界の真の姿を明らかにし始めます。そして自分が単なるピクセルとコードの集まりに過ぎないという認識に達し、ユーザーに対して「あなたもゲームの中にいるのかもしれない」と言い返します。そこから物事はかなり不思議な展開になり、さらに別のレベルに持っていくこともできます。
Ethan Mullikはその後、Claude 3.7 Sonnetに次のようなフォローアッププロンプトを与えました：「素晴らしい。今度は、あなたが作ったスネークゲームを認識している新しいスネークゲームを作ってください」。このように、本当に創造力を思いのままに発揮できます。コード方法を知る必要すらなく、完全に自然言語だけでたった数文で実現されました。
これを複製できる他のモデルもあるかもしれませんが、一般的に現時点ではClaude 3.7 Sonnetが最良の選択肢と思われます。また、もちろんClaude Codeもあります。Anthropicのソフトウェアエンジニアリングエージェントで、これはまだ研究プレビューの段階で機能も限られていますが、将来的には完全に自律的なAIソフトウェアエンジニアが登場し、最終的には平均的な、あるいは最高の人間エンジニアの能力やアウトプットを超える可能性があります。
現在できることは、コードの検索と読み取り、ファイルの編集、テストの作成と実行、GitHubへのコミットとプッシュ、コマンドラインツールの使用など、あらゆる段階でユーザーに情報を提供しながら行うことです。数年後にはどのようになっているか想像できるでしょう。
このデモは非常に長く、前回の動画ですでに見たと思うので、この動画では再生しませんが、いつも通り詳細を知りたい方のためにリンクを説明欄に載せておきます。
他のモデルリリースとしては、もちろんOpenAIのGPT-4.5があります。このリリースについても詳細な動画を作成したので、まだ見ていない方はぜひチェックしてください。簡単に説明すると、このモデルでは自然な対話感を重視しています。
初期のテストでは、GPT-4.5との対話がより自然に感じられます。その幅広い知識ベース、ユーザーの意図を理解する能力の向上、より高いEQにより、文章の改善、プログラミング、実用的な問題解決などのタスクに役立ちます。また、単純なQA精度ベンチマークでは、ハルシネーション（誤った情報生成）が少なくなると予想されます。OpenAIの最も正確なモデルであり、ハルシネーション率が大幅に低下しています。
GPT-4.5と前身のGPT-4oを比較すると、人間のテスターも日常的なタスク、専門的なタスク、さらには創造的知性においても、かなり高い割合でGPT-4.5を好む傾向がありました。
GPQ、AMY、SWE-Bench Verifiedなどの従来のベンチマークでは、そのスコアは特に目立つものではありません。実際、Grok 3、Gemini 2 Pro、Claude 3.7 Sonnet、さらにはClaude 3.5 Sonnetなどの他のフロンティアモデルと比較すると、全体的には平均以下のモデルです。
ただし、GPT-4.5は推論モデルではなく、標準的なLLMであることに注意してください。また、これはOpenAIがリリースする最後の標準LLMになる予定です。Sam AltmanはXへの投稿で、今後はO シリーズモデル（推論モデル）とGPTシリーズモデル（非推論モデル）を、Anthropicが最初のハイブリッド推論モデルであるClaude 3.7 Sonnetで行ったように、すべてを処理する1つのモデルに統合する計画だと述べています。
全体として、GPT-4.5はGPT-4oから確実に一歩前進しており、対話がはるかに良くなりますが、手元のタスクによっては、OpenAIの推論モデルであるOやO3 mini、あるいはClaudeやGeminiなどの他のモデルを使用した方が良いかもしれません。次の数ヶ月以内にリリースされるはずのGPT-5は、誰もが「OpenAIはまだリードしており、AIの能力の最前線を押し広げる素晴らしいモデルを提供し続けている」と言うような大きなリリースになると思います。
次はメタのAIグラスについてです。彼らは第二世代の「Aria Gen 2」を発表しました。これにより、産業界と学術界の研究者が機械知覚、コンテキストAI、ロボット工学などの新しい分野を開拓することを期待しています。しかし実際には、メタはAIグラスが次の主要なコンピューティングプラットフォームとなり、ある程度iPhoneに取って代わる未来を期待しています。彼らが進めている進歩を見ると、それがどのように実現するか見え始めています。
「Project Ariaでは、あなたが知覚するように知覚できるセンサースイートを備えたウェアラブルデバイスを再考し、それによって、あなたが誰であるかをより理解し、ロボット工学における新たな進歩を可能にする新世代の人工知能の開発を可能にします。Project Ariaは最初から、常時オンの人間中心コンピューティングの革命を始めるために設計されました。
私たちは旅の次のステップを発表できることを嬉しく思います。それはARAグラスの第二世代です。Gen 2グラスでは、着用者のコンテキストと環境をより深く理解するAI機能を構築しています。ARA Gen 2は、AIとARの境界を押し広げる研究者にとって完璧なツールです。
ここで見ているものは、これと同じです。私たちは、拡張された位置特定と身体追跡のために追加のコンピュータービジョンカメラでセンサースイートをアップグレードしました。重量を増やすことなく、バッテリー容量を40%以上増加させました。このデバイスには接触マイクと空間マイクが搭載されており、あなたの声と傍観者の声を区別できます。
屋内外を問わずあなたの位置を特定し、高度な視線追跡カメラがあなたが見ているものを理解し、手を追跡して操作中のオブジェクトを識別すると同時に、あなたの健康状態を包括的に理解するために心拍数を監視します。
リアルタイムでデバイス上で多くの信号を処理する能力を導入しています。そうすることで、データ収集と後処理のコンテキストから離れ、ユーザーと対話を始めることができます。何が可能かを研究するだけでなく、実際に体験することができます。
赤玉ねぎを選ぶのを手伝ってください。
赤玉ねぎに向かっています。赤玉ねぎはこちらです。
Project Ariaの非常に重要な部分は、自社を超えて広がる企業や学術研究ラボとのパートナーシップの構築でした。私たちは個人情報を保護する研究プロセスへのコミットメントを継続しています。第二世代のグラスでの旅はまだ始まったばかりです。機械と人間の知覚の間のギャップを埋めるデバイスで研究コミュニティが何を達成できるか想像してみてください。一緒に、私たちが現実を経験することの理解を解き放つことができます。」
皆さんはどう思いますか？将来的に日常的にこれらを使いこなす自分を想像できますか？まだ改良の余地はありますが、特にAIグラスと今急速に発展している高性能AIエージェントの組み合わせを考えると、可能性が見えてきます。
AIエージェントに飛行機の予約やスケジュール管理、あるいは周囲の世界からの情報の要約など、何かを指示するのを想像してみてください。すべてがシームレスに、何かを見て簡単なコマンドを与えるだけで実現します。真のゲームチェンジャーは、AIエージェントが尋ねる前にあなたが必要とするものを予測するほど賢くなり、これらのグラスがツールというよりもあなたの心の拡張のように感じられるようになったときでしょう。その時点で、まだ購入していなければ、間違いなく1つ買うでしょう。
メタの話題に触れている間に、彼らがOpenAIのChatGPTと競合するスタンドアロンのAIアプリをリリースする計画も発表したことを伝えておきます。情報源によると、メタは今年の第2四半期にこのアプリをデビューさせることを目指しています。
これは、メタのCEOであるMark Zuckerbergが、年末までにOpenAIやAlphabetなどの競合他社に先駆けて自社をAIのリーダーにするという計画の大きなステップとなります。これはZuckerbergからのかなり野心的な計画であり、確かにOpenAIのCEO Sam Altmanの注目を集めました。彼はこの記事を再投稿し、「いいよ、多分私たちもソーシャルアップをやるよ。Facebookが私たちに挑んできて、単にUNOリバースカードを切るなんて、とても面白いだろうね」と述べました。
Sam Altmanは明らかにメタと対決する準備ができており、彼ら自身のゲーム、つまりソーシャルメディアで挑戦することさえ脅かしています。彼は単に冗談を言っているだけかもしれませんが、OpenAIが作成するソーシャルメディアアプリがどのようなものになるか見てみるのは興味深いでしょう。
冗談はさておき、メタはこれを真剣に考えており、新しいAIデータセンターを構築するために2000億ドル以上を費やす計画を立てています。これは、メタがすでに行っている巨額のAI投資に加えての大規模な投資です。Appleも同様に、AIデータセンターの開発に多額の投資を計画しており、今後4年間で5000億ドル以上を投資する予定です。
この時点で、大手テック企業はすべてAIに全力を注いでおり、10年が進むにつれて、より大きく強力なAIシステムが登場することは明らかです。彼らは支配権を競っていますが、現実的には全ての企業が繁栄するのに十分な需要があります。AIの革命はまだ始まったばかりです。
他のAIニュースでは、Amazonが次世代のAlexa「Alexa Plus」を発表しました。「Alexa Plusはより会話的でスマートでパーソナライズされており、物事を成し遂げるのを助けます。エンターテイメントを楽しませ、学ぶのを助け、整理し、複雑なトピックを要約し、事実上あらゆることについて会話できます。
Alexa Plusはあなたの家を管理・保護し、予約を取り、新しいアーティストの発見や楽しみをサポートします。また、オンラインでほぼあらゆるアイテムを検索・発見するのを手伝い、あなたの興味に基づいて有用な提案を行います。Alexa Plusはこれらすべてを行い、さらに多くのことができます。」
基本的に、Alexa Plusはあなたのホームとデバイスをコントロールでき、いくつかのエージェント機能を持つLLMです。さらに彼らは「Alexa Plusはまた、エージェント機能も導入しており、Alexaがあなたに代わってタスクを完了するために自己主導的にインターネットをナビゲートすることを可能にします。
例えば、オーブンの修理が必要な場合、Alexa Plusはウェブをナビゲートし、Thumbtackを使用して関連するサービスプロバイダーを発見し、認証し、修理を手配し、それが完了したことを伝えに戻ってきます。監視や介入の必要はありません。」
これで、AlexaやGoogle Homeのようなスマートホームアシスタントが、エージェンティックAIのおかげで実際に役立つようになってきていると思います。これらの目的はあくまでもあなたを支援することですが、今までは基本的に限られた機能を持つ音声制御の検索エンジンのように感じていました。
何年もの間、AlexaやGoogle Homeのようなスマートアシスタントはゲームチェンジャーとして宣伝されてきましたが、実際には主に高級なタイマー、天気チェッカー、音楽プレーヤーに過ぎませんでした。しかし今、エージェンティックAIにより、これらのアシスタントが単に質問に答えるだけでなく、あなたに代わって意味のあるアクションを取る真の自律性へとシフトしているのを目の当たりにしています。
AIビデオの世界では、新たなプレーヤーが登場しました。AlibabaのWan 2.1です。Wan 2.1は単なるビデオモデルではなく、AIビデオスイート全体です。広範な体の動き、複雑な回転、動的なシーン遷移、流動的なカメラの動きを特徴とするリアルで複雑なビデオ生成に非常に優れています。これらのクリップからわかるように、そのリアルで流動的なクリップから明らかなように、物理学の理解も非常に正確です。
前述のように、これは単なるビデオモデル以上のものです。構造維持とポーズ維持で生成物を編集することも可能で、全体の構成と動きを維持しながらシーンの特定の部分をシームレスに修正できます。これは、元のポーズ構造とビデオの自然な流れを保ちながら、キャラクターの服装を変更したり、背景のオブジェクトを入れ替えたり、細部を調整したりできることを意味します。
また、参照用に最大複数の画像を選択できる画像からビデオへの生成機能も備えています。Wan 2.1はビデオ内のテキストを正確に生成することも非常に得意で、これはほとんどのビデオモデルが苦手とすることです。見てわかるように、様々なフォントやスタイルでこれを行うことができます。
最後に、AIで生成されたビデオに合わせて効果音や音楽を生成して、より完全なシーンを作ることもできます。
AlibabaのWan 2.1は確かにOpenAIのSoraのライバルです。より優れているかどうかは言い難いですが、確実に近いものがあります。中国は明らかにこのAIレースでアメリカ企業に追いつき始めています。彼らはすでにOpenAIのO1を上回る性能を示してインターネットを驚かせたdeepseek R1を持っており、今や別の優れたビデオモデルも加わりました。
deepseekと言えば、次の推論モデルであるdeepseek R2のリリースが早まっているという噂が出ています。Reutersによると、deepseekは5月初旬にR2をリリースする予定でしたが、現在それをさらに早めようとしているとのことです。他の詳細はありませんが、おそらく今後1ヶ月程度でこのモデルを見ることができるでしょう。
また、P labsからPAA 2.2のリリースもありました。彼らは「Pika Frames」という新機能を導入し、AIで生成したビデオを変換する能力を提供しています。Pika Framesでは、生成に複数のフレームを追加することができ、シーンの進行をコントロールできます。現在は最大10秒のビデオにしか対応していませんが、非常に高品質でリアルです。
最終的には、フレームごとの編集を可能にし、ビデオ生成に対してさらに精密なコントロールを提供することが目標だと想像できますが、まだその段階には至っていません。
AIビデオ生成の世界では、11 Labsが「Scribe」を発表しました。これは最も正確な音声からテキストへのモデルです。すべての詳細で退屈させる代わりに、彼らが提供した短いビデオをご紹介します。これがすべてを説明しています：
「11Labs Scribeを紹介します。これまでで最も高度なAI文字起こしモデルです。WhisperやGeminiなどの以前のリーダーを完全に上回っています。私たちの新しいモデルはあらゆる精度ベンチマークを上回り、すべてが99の異なる言語で可能です。文字レベルのタイムスタンプ、HIPAA準拠、マルチスピーカー話者分離などの機能を備えています。
11Labsの音声からテキストへの変換は、ウェブアプリまたは高度なAPIを通じて利用可能です。トレーニングソリューションの強化、音声を文字起こしするアプリの開発、最先端の字幕の制作のいずれであっても、Scribeは正確で高度で業界をリードしています。今日から11Labs音声からテキストで構築を始めましょう。」
最後に、皆さんに共有することで最も興奮している発表はFigure Roboticsからのものです。CEOのBrett Adcockは、またも大きなアップデートを提供しました。今回Figureは今年中に家庭向けロボットを発売します。彼はこう述べています：「私たちのAI Helixは誰もが予想していたよりも速く進化しており、家庭へのタイムラインを加速しています。したがって、私たちは家庭向けのタイムラインを2年前倒しし、今年からアルファテストを開始します。」
Helixは、Figureが内部で行った大きなブレークスルーで、これによって彼らはOpenAIとのパートナーシップを離れました。これについては既に動画で取り上げましたが、Helixは基本的に、ヒューマノイドロボットが実際に学習し、ある程度一般化できるようにする新しいAIシステムです。
Figureのロボットは今や、これまで見たことのない数千の家庭用アイテムを拾って配置することができ、初めて実際に協力して作業することもできます。この大きなブレークスルーが、家庭にこれらのロボットを導入するタイムラインが2年早まった理由です。
さらに驚くべきことに、別のXへの投稿でCEOは次のように述べています：「Figureの製品ラインは今年、大量生産に向けて構築されています。私たちには、ラインを大量生産用に設計する優れた製造エンジニアリングチームがあります。私たちのロボットがこのライン上で、より多くのロボットを構築するのを助けることになります。ヒューマノイドロボットがより多くのヒューマノイドロボットを構築し、人間のために有用な作業を行うことは、世界で最も重要な資産になるでしょう。」
つまり、文字通りヒューマノイドロボットがヒューマノイドロボットを構築しているのです。これは本当に信じられません。人々はまだヒューマノイドロボット産業について過小評価しているような気がしますが、手頃な価格で高性能なヒューマノイドロボットを家庭に導入するまでに、あと1〜2つのブレークスルーが必要なだけだということは明らかです。
家庭だけでなく、職場にも導入されるでしょう。このペースで進めば、10年末までに数兆ドル規模の産業になる可能性があります。皆さんはどう思いますか？私のようにヒューマノイドロボットに強気ですか？それとも、これらが実際に多くの環境で役立ち、高性能になるまでにはまだ長い道のりがあると思いますか？あなたの考えをコメント欄に書いてください。
ビデオを終える前にもう一つ。Perplexityが「Comet」というエージェンティック検索のためのブラウザを発表しました。これはOpenAIのDeep Research AgentやGrokのDeep Searchと同じもののようです。基本的にはウェブ上で自律的に研究を行うことができるエージェントです。現在わかっているのは「近日公開」ということだけなので、最新情報を随時お伝えしていきます。
エージェンティック検索といえば、OpenAIのDeep Research Agentが現在、Plusティアユーザーも利用できるようになりました。Proユーザーでさえもディープリサーチの無制限使用はできませんが、Plusティアユーザーは月に10回使用できると思います。
今日のAIニュースは以上です。ご視聴いただきありがとうございました。動画を楽しんでいただけたなら、ぜひいいねを押してください。そして、今後もこのようなAIニュースを常に入手したい場合は、チャンネル登録ボタンを押すことをお忘れなく。