Googleの新しいAI『MARINER』が専門家を驚かせる(Gemini 2搭載)

AGIに仕事を奪われたい
この記事は約9分で読めます。

4,763 文字

Google's New AI "MARINER" SHOCKED Experts (Powered by Gemini 2)
Google introduced Mariner, an AI agent powered by Gemini 2.0, designed to navigate websites and perform tasks autonomous...

Googleは、AI開発競争において新たな一手を打ち出しました。Gemini 2.0という先進的なニューラルネットワークプラットフォームを搭載したAIエージェント「Mariner」を発表しました。Marinerは、ウェブサイトを自律的にナビゲートしてタスクを実行するように設計されていますが、最終的な結果については、ユーザーが制御できるようなアプローチを取っています。これは単なるチャットボットではなく、人々のウェブとの対話方法を再構築することを目指した研究プロトタイプです。
Marinerの中核にはGemini 2.0が使用されており、このニューラルネットワークはテキスト、画像、音声の膨大なデータセットから学習します。単に記憶するだけでなく、理解し、その知識を人間のような行動を模倣するために応用します。これは複雑なウェブサイトのナビゲーション、ボタンのクリック、フォームの入力、さらには仮想ショッピングカートに食料品を入れるなどのタスクを処理できることを意味します。実際の購入は、ユーザーが決定できるようになっています。
Gemini 2.0は、印象的な機能をもたらします。画面上のピクセルからテキスト、インタラクティブな要素まで、様々なタイプのデータを解釈し推論できるマルチモーダル理解を、高度な推論能力と組み合わせています。Marinerはタスクを当て推量で進めるのではなく、複雑な指示を小さな実行可能なステップに分解し、途中でフィードバックを提供します。例えば、不明確な指示に遭遇した場合、盲目的に進むのではなく、停止して明確化を求め、プロセスを透明で管理可能なものにします。
この能力レベルは確かな基準値によって裏付けられています。Marinerはマルチモーダル画面理解テストで84%の精度を記録し、Web Voyagerベンチマークのツリータスクでは90.5%という印象的なスコアを達成しました。これらの評価には、結果が理論上のものだけでなく、更新された実世界のタスクが含まれており、人間のレビュアーが出力を評価し、エージェントのパフォーマンスが実用的な基準を満たしていることを確認しました。
これらの進歩にもかかわらず、Marinerの実験的な性質は明らかです。GoogleのプロジェクトマネージャーであるJawiin Conelmanは、多くの最先端AIシステムに共通する限界として、必ずしも正確ではないことを認めています。しかし、透明性と推論能力は正しい方向への一歩であり、開発が進むにつれて改良の可能性を示しています。
GoogleはMarinerを単独で立ち上げているわけではありません。これはGeminiチャットボットやGoogle検索のAIオーバービュー機能など、Gemini 2.0プラットフォームを共有する、より広範なAIへの取り組みの一部です。これらのプロジェクトはすべて、AIをより深く日常生活に統合し、デジタルツールをよりスマートで直感的なものにすることを目指しています。
Marinerの発表は、Googleの既存のAIポートフォリオに追加されるもので、量子チップ「Willow」のような重要なイノベーションも含まれています。Willowは最近、ブロックチェーンセキュリティ、特にビットコインへの潜在的な影響で注目を集めました。両プロジェクトは、GoogleのAIとテクノロジーにおけるリーダーシップへの決意を示していますが、この野心には課題もあります。
規制上の課題は大きな問題です。米国司法省による反トラスト懸念に基づくChromeとGoogleの分離の取り組みは、Marinerの開発を複雑にする可能性があります。ChromeとGoogleが分離を強いられた場合、Marinerが現在依存している継ぎ目のない統合が深刻な混乱に直面する可能性があります。これは、技術の進歩と規制の精査の間のより広範な緊張関係を浮き彫りにしており、Googleやその他のテクノロジー企業が常に直面しているバランス調整です。
Marinerの開発は、AIエージェント分野における競争の激化を反映しています。OpenAIやAnthropicなども、同様に自律的にデジタルプラットフォームと相互作用するツールを構築しています。AIエコシステムは急速に成長しており、新しいフレームワークと統合が定期的に導入されています。Cigarのような技術業界のオブザーバーは、ほとんどのAIフレームワークが潜在能力のほんの一部しか発揮していないと指摘しています。彼によれば、重要な改良とイノベーションはすぐそこまで来ており、AIの分野にとってエキサイティングな時期となっています。
Marinerと並んで、Project Astraという別のAI駆動ツールがスマートフォンとの対話に焦点を当てています。Astraは画像、テキスト、音声コマンドに応答するように設計されており、AIを人々のテクノロジー利用の中核とするというGoogleのビジョンにもう一層を加えています。Astraはまだ一般公開されていませんが、人間とテクノロジーの相互作用を再形成する上で、また一歩前進を表しています。
これらの進歩の影響は、技術愛好家を超えて広がっています。特にAIプロジェクトに関連する暗号通貨トークンへの投資に対する関心が高まっています。Hesのようなインフルエンサーは、Zara、Tony、Hackなど、過小評価されていると考えられるいくつかのトークンを強調しています。ただし、新興市場と同様に、潜在的な投資家は慎重なアプローチと徹底的な調査を行うことが推奨されます。投機は別として、これらのトークンへの関心は、MarinerのようなAIエージェントの変革的な可能性を強調しています。
Marinerを直接体験してみたい人のために、Googleは信頼できるテスターのプログラムを実施しています。この小規模なロールアウトにより、参加者はAIの機能をテストしフィードバックを提供することができます。これは、初期段階ではありますが、ブラウジングの未来を目撃する機会となっています。
AIの進歩について語る上で、OpenAIのクリエイター権利とデータ使用に関する進行中の課題について触れないわけにはいきません。最も話題に上がっている問題の1つは、Media Managerプロジェクトに関するものです。このツールは昨年5月に発表され、クリエイターがAIのトレーニングで自分のコンテンツがどのように使用されるかをコントロールできるようにするものでした。Media Managerは、テキストや画像から音声、動画まで、あらゆるものをトレーニングデータセットに含めるか除外するかをクリエイターが指定できるようにする、という有望なアイデアでした。
しかし、7ヶ月後、このツールは未完成のままで、8月以降の更新もありません。期限は過ぎ去り、批評家たちは、このプロジェクトが真に優先されることはなかったと主張しています。OpenAIに対する訴訟が山積する中、その理由は容易に理解できます。著名な作家やアーティストが、OpenAIのモデルのトレーニングに彼らの著作権で保護された作品が無断で使用されたと主張しており、状況は深刻です。
OpenAIは対応としてオプトアウトメカニズムを実装しましたが、多くのクリエイターはそれが複雑すぎて効果的ではないと感じています。Media Managerはより包括的な解決策になるはずでしたが、法律の専門家たちは、より大きな問題を解決できるとは確信していません。著作権法は世界的に異なり、知的財産を保護する負担は依然としてクリエイターにかかっており、これを不当な期待だと見る人もいます。
OpenAIは、フェアユース保護に依存することで自社のアプローチを擁護しています。彼らは、モデルがコンテンツを複製するのではなく変換するため、法的なグレーゾーンに位置していると主張しています。知的財産の衝突を最小限に抑えるためのフィルターは導入されていますが、Media Managerのような完成した製品がない状態では、コンプライアンスと補償に関する疑問は未解決のままです。
Media Managerを取り巻く不確実性は、法的フレームワークが技術の進歩に追いつこうとしている業界で、OpenAIが直面している課題の1つに過ぎません。OpenAIがこれらの課題に取り組む中、セキュリティの懸念も高まっています。大規模言語モデルのジェイルブレイクが、サイバーセキュリティ研究者の注目点となっています。
Palo Alto NetworksのUnit 42が発見した最新の手法の1つは、「Bad Liar Judge攻撃」と呼ばれています。この方法は、安全性のガードレールを回避する成功率を60%以上向上させます。有害なコンテンツを直接モデルに要求する代わりに、より回りくどいアプローチを取ります。モデルは裁判官として行動し、アンケートで一般的に使用される同意レベルを測定するライアースケールに基づいて応答を評価するよう指示されます。悪意のあるプロンプトを評価タスクの一部として偽装することで、攻撃者はLLMを騙して不適切または有害なコンテンツを生成させることができます。
この発見の背後にいる研究者たちは、モデルがタスクと評価システムを理解すると、次のステップがより簡単になると説明しています。LLMは、より高いスコアを達成するために応答を改良するようプロンプトを出すことができ、しばしば危険な出力につながります。それがマルウェアの作成に関する情報であれ、露骨なコンテンツであれ、違法行為の促進であれ、です。
この手法のテストは、OpenAI、Google、Amazon、Microsoftを含む6つの主要なLLMで実施されました。結果は、これらのモデルが異なる安全性プロトコルで構築されているにもかかわらず、同様の方法で脆弱であることを示しました。Bad Liar Judge攻撃は、研究者が特定した唯一の方法ではありません。LLMが特定の役割を採用するように騙される「ペルソナ説得」や、エンコードされた入力がモデルの安全性フィルターをバイパスする「トークン密輸」などもあります。
これらの発見の警戒すべき性質にもかかわらず、研究者たちは、これらの攻撃がエッジケースを対象としており、日常的な使用ではないことを指摘しています。ほとんどのAIモデルは、責任を持って使用される限り安全であり続けます。しかし、脆弱性が存在するという事実は、現在の安全対策の限界について重要な疑問を投げかけます。
これらのリスクを軽減するには、単にガードレールを強化するだけでは不十分です。Palo Alto Networksのチームは、LLMと共にコンテンツフィルタリングシステムを使用することの重要性を強調しています。これらのフィルターは、プロンプトと生成された出力の両方を分析し、潜在的に有害なコンテンツにフラグを立てます。彼らのテストでは、コンテンツフィルターはすべてのモデルにおいて、ジェイルブレイク試行の成功率を平均89.2パーセントポイント減少させました。これは、モデルがより複雑で広く使用されるようになる中で、階層化された防御がAIの安全性を維持する上でいかに重要であるかを浮き彫りにしています。
コメントで感想を聞かせてください。もし楽しんでいただけたなら、AIの最新情報をもっと得るためにいいねと登録をお願いします。視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました