Amazonの衝撃的なAIの動きがOpenAIとMicrosoftを打ち負かす可能性

AGIに仕事を奪われたい
この記事は約11分で読めます。

6,259 文字

Amazon’s Shocking AI Move Could Crush OpenAI and Microsoft
Did Amazon just outmaneuver OpenAI and Microsoft in the AI arms race? In a seismic power play, Amazon has secretly devel...

Amazonが、AI世界を本格的に揺るがす可能性のある動きを見せました。そして確かに、それはOpenAIとMicrosoftの両方に挑戦するのに十分大きなものです。それはNova Actと呼ばれており、単なる別のチャットボットや言語モデルではありません。この開発ツールキットによって、開発者は話すだけでなく実際に行動する自律AI エージェントを構築できるのです。
これらは、クリック、ナビゲーション、データ抽出を行い、驚くほどの精度でウェブ上でタスクを自動化できます。この動画では、Nova Actがどのように動作するのか、OpenAIのエージェントSDKやMicrosoftのAutogenとどう比較されるのか、そしてなぜこれがAmazonにとって最も破壊的なAIリリースになり得るのかを詳しく分析します。しかもそれだけではありません。
最後まで見ていただければ、この動きがAIコンピューティングのエージェント層を支配するというAmazonの長期戦略にどう適合するのか、Nova Actが実際に何なのか、そしてなぜそれが重要なのかを理解できるでしょう。Nova Actとは一体何なのか。その核心において、それは構造化されたモジュラーアプローチを使用して、特にブラウザベースのデジタルタスクを実行するAIエージェントを作るために構築された開発者SDKです。
一つのプロンプトとしてユーザーの指示全体を処理しようとする多くのLLM駆動エージェントとは異なり、Nova Actは違った動作をします。タスクをより小さな原子レベルのステップに分解し、明示的なACTコールを通じて一度に一つずつ実行します。その設計選択は単なる技術的な好みではありません。それは現在のAIエージェントの一般的な落とし穴への直接的な対応なのです。
今日、多くのエージェントは数ステップ以上を含むワークフローの完了に苦労し、しばしば静かに失敗したり予測不可能な動作を実行したりします。Nova Actはそれを避けるように設計されています。例えば、来週末のニューヨークでホテルの部屋を予約するようにAIに頼む代わりに、Nova Actはそれを検証可能なステップに分解するでしょう。
サイトにナビゲートし、場所を選択し、日付を選び、フォームデータを入力し、予約を確認する。各ステップはチェックアンドバランスとともに個別に実行されます。Amazonによると、この方法はより予測可能で信頼性の高い動作につながり、これはビジネス運営、Eコマース、または機密データを含むフォーム送信を自動化する場合に重要なことです。
そしてNova ActはMicrosoftによって開発されたブラウザ自動化フレームワークであるPlaywrightと直接統合されているため、モデルの推測に依存することなく、ボタン、フィールド、ドロップダウンなどのウェブ要素とやり取りできます。このような制御は機密のワークフローにとって重要です。Nova Actはあなたのパスワードやクレジットカード番号を見ることは決してありません。
Playwrightが安全な入力を処理している間、単にフィールドに焦点を当てるだけです。これは、処理のために機密入力を直接モデルに送信することを通常要求する汎用LLMとは大きく対照的です。これらすべてがNova Actを単なる開発者ツール以上のものにしています。それは、AIエージェントは話し手ではなく行動者であるべきだというAmazonの意思表示なのです。キラー機能
他のプラットフォームが開発者にエージェントツールを提供することに競争している間、Nova Actはその密接に統合された機能セットで際立っています。最もインパクトのあるものの一つは、細かい粒度のタスク分解です。曖昧なプロンプトから全体のフローを理解するようにモデルに任せる代わりに、開発者は明確なステップを定義します。
これらのステップは一度に一つずつ実行され、より大きな透明性とエラー処理を可能にします。次に、Playwright統合があり、これは産業強度のブラウザ自動化を直接AIの手に委ねます。エージェントはクリック、スクロール、ホバー、データ入力、ポップアップ処理が可能で、これらはすべて通常人間の監視を必要とする動作です。
しかし今、開発者はこれらのUI インタラクションを自然言語プロンプトに結び付けることができ、スクリプトの予測可能性とLLMの柔軟性の両方を手に入れることができます。もう一つの主要な機能はPythonの相互運用性です。Nova Actは孤立して存在するのではありません。開発者が自然言語ロジックとネイティブPythonコードを混合できるようにします。
これは、ブレークポイント、アサーション、マルチスレッディング、その他の標準プログラミング構造を使用して、エージェントの動作をより正確に制御できることを意味します。SDKはまた、Pydanticスキーマを使用した構造化データ抽出もサポートしており、モデルが生の非構造化出力の代わりにきれいな型付きデータを返すことを可能にします。これは、スクレイピングしたウェブコンテンツをJSONやテーブルのような機械読み取り可能な形式に変換するのに便利です。
Amazonのサンプルワークフローの一つは、リスティングをスクレイピングし、駅までの自転車での距離を計算し、結果を構造化されたテーブルに整理することで、アパート検索を自動化しています。別のサンプルは、エージェントが毎週火曜日にSweet Greenにログインし、定期的なサラダ注文を完全に自動化、手放し、スケジュール化された状態で行う方法を示しています。これらは単なる技術デモではありません。
これらは、Nova Actが現実世界のブラウザタスクの一貫した反復可能な自動化をどのように可能にするかの例です。そして、エージェントが信頼性のために目的構築されているため、開発者は一つ一つのステップを監視したり、プロセスを世話したりする必要がありません。誇大広告の背後にある数字
Nova Actに対するAmazonの核心的なピッチは、それが世界で最も強力なモデルであるということではありません。それが信頼できるということです。彼らの見解では、今日のほとんどのAIエージェントは知的でないから分解するのではなく、動的なウェブUIとやり取りする際に予測不可能であるから分解するのです。これを定量化するために、AmazonはOpenAIとAnthropicのモデルと比較したNova Actのベンチマークスコアを発表しました。ウェブサイト上のテキスト要素を使った指示にエージェントがどれほどよく従うかを評価するScreenspotウェブテキストベンチマークで。
Nova Actは0.939のスコアを記録し、0.90のClaude 3.7 Sonnetと0.883のOpenAIのo1モデルを上回りました。アイコンやボタンなどの視覚的UI要素の識別とやり取りに焦点を当てたScreenspotウェブ視覚ベンチマークでも、Nova Actは0.879のスコアで再び優位に立ちました。わずかに後れを取った唯一の分野は、一般的なUIやり取りのより広いテストであるGroundUI ウェブベンチマークで、0.805を記録し、ClaudeとOpenAIのモデルにわずかに遅れをとりました。
しかし、スコアよりもさらに示唆的だったのは、Amazonが内部評価中に示したデモでした。ブラウザベースのハト themed video game とやり取りするAIエージェント。サイトでの明示的な訓練なしに、Nova Actエージェントはハトにステータスを割り当て、戦闘を開始し、インターフェースを自律的に進歩させました。
このデモンストレーションはゲームについてではありませんでした。それは汎化についてでした。Nova Actがパターン認識とタスクチェーンに基づいて、まったく見慣れないUIを理解し、やり取りできることを示したのです。Amazonの自律性チームの副社長であるDavid Luonによると、この汎化は彼らのビジョンにとって不可欠です。新しいレイアウトごとに再訓練を必要とすることなく、オンラインのどこでも機能できるエージェント。
そのような柔軟性が、ほとんどのベンチマークで90%を超える一貫した成功率と組み合わされることで、Nova Actは安定したブラウザエージェントを構築しようとする誰にとっても魅力的なツールになります。Nova Act対OpenAI、Microsoft、Salesforce
AIエージェントの競争は激化しており、テクノロジー分野の最大手企業がすべて異なるアプローチでそれに取り組んでいます。AmazonのNova Actは、OpenAI、Microsoft、Salesforceが既に独自のエージェントフレームワークを提供している競争分野に参入し、それぞれが明確な哲学と技術的なトレードオフを持っています。OpenAIのエージェントSDKは柔軟性のために設計されています。開発者がGPT-4oなどのOpenAIモデルに支えられた自律エージェントを構築でき、エージェントがウェブページをナビゲートし、リンクをクリックし、ブラウザ自動化を使用してタスクを完了できるようにする応答APIのサポートが含まれています。
SDKはオープンソースで、開発者はエージェントが実行するカスタムツールと機能を作成できます。しかし、OpenAIのシステムは複雑な指示を解釈し、それに基づいて行動するモデルに大きく依存しており、これは機密性の高いハイステークスのワークフローを扱う際に脆弱になる可能性があります。例えば、認証情報を送信したり、安全なフォーム入力を実行したりすることは、汎用LLMを通してルーティングされる場合、プライバシーの課題を引き起こす可能性があります。
一方、MicrosoftのAutogenは複数のLLMプロバイダーをサポートし、マルチエージェントオーケストレーションを導入し、異なるAIエージェントがタスクを完了するために協力できるようにします。Autogenは特にAzure統合を通じて、エンタープライズグレードのRPA(ロボティックプロセスオートメーション)セットアップで使用されています。
強力でありながら、それは依然としてモデルに依存せず、開発者が使用ケースに適したエージェントとモデルの正しい組み合わせを選択することに依存しています。Salesforce AgentforceはCRMを核心として構築されています。セールスサポートとマーケティングワークフローに最適化され、AIエージェントを既存のSalesforceエコシステムに統合します。
Microsoftのプラットフォームと同様に、さまざまなLLMをサポートし、限定的なカスタマイズを可能にしますが、その範囲はより狭く、主にSalesforceツール内のビジネス運営に焦点を当てています。AmazonのNova Actは際立っています。Amazonの専有Nova モデルでのみ動作し、サードパーティのLLMは使用しません。しかし、このトレードオフにより、ブラウザアクションを実行するよう特別に訓練され、UI インタラクション、タスク分解、ウェブ自動化においてより信頼性が高くなります。
PlaywrightとのBibiaは密接な統合を提供し、機密フィールドとUI要素との安全なやり取りを可能にします。OpenAIとMicrosoftが柔軟性を提供する一方で、Nova Actは予測可能性、安全性、制御に焦点を当てています。このロックインアプローチは実験を制限する可能性がありますが、一貫性を強化し、これは現実世界のアプリケーションにおいて重要な優位性です。
Nova Actにより、Amazonは単にエージェント競争に参入するだけではありません。ウェブのエージェント実行層を所有する意図を示しているのです。なぜAmazonのクローズドループモデルが究極の武器になり得るのか
Nova Actの最も特徴的な側面の一つはそのアーキテクチャです。SDKはApache 2.0ライセンスの下でオープンソースですが、それが動作する基盤となるNovaモデルはクローズドで専有ですが、それは設計によるものです。Amazonの自律性チームの副社長であるDavid Luonによると、これは単に洗練されたエージェントフレームワークでラップされた汎用LLMではありません。Nova Actを支えるNovaモデルは、信頼性があり制御された方法でブラウザインタラクションを実行するために特別に訓練されています。
モデルとSDKの間のこの密接な結合により、Amazonは実行に対してより大きな制御を得ます。開発者が異なるツールやモデルを交換できるOpenAIとは異なり、Nova Actは単一の統合システムで動作します。これは、エッジケースの減少、意図と行動の間のより良い整合性、そして問題が発生した際のより明確なデバッグパスを意味します。安全で影響の大きいデジタルタスクを自動化しようとする開発者にとって、その一貫性は深刻な利点になり得ます。
金融データを入力するか、システム構成を管理するかにかかわらず、Novaのような目的構築されたモデルでは誤解釈のリスクが大幅に低くなります。Amazonのクローズドループシステムはアクセスを制限することについてではありません。安定性と反復可能性のために構築することです。
そして、単一のエラーが数千の損失をもたらす可能性がある自律エージェントの世界では、信頼性は贅沢品ではなく、要件なのです。開発者とエージェントの未来にとって意味すること
現在、Nova Actは本格稼働の価格発表なしに無料のリサーチプレビューとして利用可能です。開発者はローカルまたは任意のクラウド環境でダウンロードして実行できます。AWSに排他的に結び付けられてはいません。その柔軟性とタスク自動化への狭い焦点を併せ持つことは、AmazonがNova Actを汎用チャットボットやアシスタントの競合として位置づけていないことを示唆しています。実用的なタスク駆動AIツールを一から構築する開発者を支援することを目指しているのです。
David Luonは、最も有用なエージェント製品はまだ構築されていないと述べています。それは Nova Actをツールキットとしてだけでなく、次に来るものの基盤層として枠付けしています。物流、運営、金融、さらには消費者アプリに特化したカスタムAIエージェント。他の企業が会話知能の拡張に焦点を当てる一方で、Amazonは次世代のAIは話すだけでなく、実行するだろうに賭けています。
そして、その環境では、信頼性があり、安全で、機能的なエージェントを構築できる開発者が、私たちがウェブを使用する方法の未来を定義する人々になるかもしれません。ここまで見ていただいた方は、下のコメント欄でご意見をお聞かせください。より興味深いトピックについては、今画面に表示されている推奨動画を必ずご覧ください。ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました