
4,580 文字

世界のウェブAIエージェントがおそらく未来である中、真に自律的なデジタルアシスタンスの競争に新たな挑戦者が現れました。OpenAIのOperatorやAnthropicのコンピュータ使用機能に続き、この最新のイノベーションは、ウェブブラウザを制御してユーザーに代わって独立してタスクを実行するよう設計されたAIシステムの成長するエコシステムに加わります。これらの企業がエージェントベースのAI技術の可能性の限界を押し広げる中、私たちは実際にこれらのシステムの加速を目の当たりにしています。
これらはウェブサイトをナビゲートし、購入を完了し、前例のない正確さで予約をスケジュールできます。Amazonの研究者たちによって開発されたこれは、Amazon Novaという画期的な新しいAIエージェントで、自律的にウェブを閲覧することができます。このAIエージェントは突然現れたわけではなく、Amazon NovaエコシステムをベースにしたAmazon Nova Actと呼ばれるものです。AmazonはAIゲームをレベルアップし、独自のAIモデルをリリースすることを決定したのです。Amazonがどのようにして自分たちのAIゲームをレベルアップしているのか、実際に詳しく見ていきましょう。きっとあなたは学びたいと思っているでしょう。
この最初の動画では、Nova Actはテキストを生成したり質問に答えたりする代わりに、AIにウェブサイトを実際に使用する力を与えることがわかります。このデモでは、アパートを検索し、ボタンをクリックし、通勤時間の計算やデータの整理などのことまで行っています。これはAIがより確実に処理できるよう、大きなタスクを小さなステップに分解することで機能します。そしてそれは開発者がPythonで簡単に構築できるように設計されています。もしAIがオンラインで私たちのためにタスクを実行し始めることに興味があるなら、これは未来の一端です。
まもなく、人間よりも多くのAIエージェントがウェブを閲覧し、私たちに代わってタスクを実行するようになるでしょう。そのために私たちはNova Actを構築しました。開発者が実際に機能するウェブエージェントを構築し展開するために設計されたSDKです。これらのエージェントが宇宙船を着陸させられるようになるまでそれほど時間はかかりませんが、信頼性についてはまだそこには到達していません。Nova Actはモデルの現状に対応し、開発者が複雑な作業を明確なステップに分解してモデルが従えるようにし、細かな監視なしでも詳細な制御を提供します。
Nova Actの動作を見てみましょう。モデルの指示は「act」呼び出しを行うだけの簡単なもので、自然言語を画面上のアクションに変換します。複数のact呼び出しを連鎖させて、より複雑なワークフローを構築することができます。このブロック単位のアプローチにより、ワークフローはより一貫性があり、正確で信頼性が高くなります。この例では、Nova Actを使って理想のアパートを見つけます。レッドウッドシティの2ベッドルーム1バスを検索しています。
ここで最初のact呼び出しをエージェントに行いました。それはこのタスクを完了する方法を分解し、次のステップを計画する際に各ステップの結果を考慮します。背後では、これはすべてUI作業の高い信頼性のために訓練されたAmazon Novaの特殊バージョンによってパワーを得ています。SDKはあなたのお気に入りのPythonツールやライブラリとシームレスに統合するように設計されており、クールなことをより簡単に行えるようになっています。
画面上に多くの賃貸物件が表示されているので、構造化された抽出を使ってそれらを取得しましょう。pydanticクラスを定義し、エージェントにそのスキーマに一致するJSONを返すように依頼します。通勤については、これらの結果それぞれについて、最寄りのCalTrainの駅までの自転車距離を知りたいと思います。add_biking_distanceというヘルパー関数を定義しましょう。それはアパートを入力として受け取り、Googleマップを使用して距離を計算します。
これらの検索が一つずつ完了するのを待ちたくないので、並行して実行しましょう。これはPythonなので、スレッドプールを使用して複数のブラウザを起動できます。アドレスごとに1つずつです。最後に、pandasを使用してこれらすべての結果をテーブルに変換し、CalTrain駅までの自転車時間でソートします。このスクリプトは当社のGitHubリポジトリのsamplesフォルダにチェックインされていますので、ぜひ試してみてください。これは一例に過ぎません。SDKはあなたが探索するためのものです。Nova Actで何が可能か見てみてください。私たちはあなたが何を構築するのか本当に楽しみにしています。
もう一つの動画もご覧いただきたいと思います。私はAmazonのNovaが実際にどのように機能するのか、それが何をするかだけでなく、どのように行うのかを知りたいのです。ここでの焦点は信頼性です。Nova Actがタスクをボタンのクリック、日付の選択、フィールドへの入力など、実際の人がアプリを使用する場合と同じように、シンプルで小さなステップに分解できることを示しています。これらの小さなステップはAIエージェントの構成要素と呼ばれ、モデルがこれらを確実に実行できるようになると、休暇の申請や自動返信の設定など、より複雑なワークフローを自動化するために組み合わせることができます。舞台裏でどのように機能しているのか知りたい方は、これがあなたのための動画です。
エージェントが時々しか機能しないのであれば、それはあまり役に立ちません。私たちはNova Actがワークフローを構成する構成要素を確実に実行できるようにすることに焦点を当てています。私たちは私たちのエージェントに、私たちと同じ画面に対する直感を持つように教えています。これは、アイコン、フォーム、検索フィールド、日付ピッカー、ドロップダウンメニューなどのUI要素と直感的に対話することを意味します。
これらの構成要素を組み合わせる例を見てみましょう。ここでは、私の同僚がいくつかの簡単なACTコマンドを組み合わせて休暇を申請するワークフローがあります。まず、Nova Actはカレンダーで予定を設定します。これはタスクをステップバイステップで分解し、オープンテキストフィールドに入力し、適切な日付を選択し、ドロップダウンから選択します。各ステップは「思考」から始まります。この思考は、画面上で見ているものと、目標を達成するための最善の次のステップを考慮します。そしてその思考に基づいて行動を起こします。
Nova Actが最初のタスクを完了したら、自動メール返信を設定します。同じ種類のUI要素と基本的なアクションに注目してください。これらはウェブ全体をナビゲートし、あらゆる種類のソフトウェアを使用するための基礎を形成しているため、私たちはエージェントがこれらの構成要素で信頼性を持つように訓練することに焦点を当てています。最後にNova Actは休暇申請を提出します。この場合、すでに認証情報でログインしているので、申請をシームレスに提出できます。ここでは、同じ基本的な要素が再結合されて私たちのタスクを完了できる第三のコンテキストを見ています。
これはNova Actが日常的に役立つと思われる多くの定型ワークフローの一つに過ぎません。会議室の予約のような単純なことから、経費報告書の提出のようなより複雑なことまであります。これらのタスクは積み重なりますので、Nova Actを使用してそれらを処理することで、本当に重要なことに集中する自由を得ることができます。
次の動画では、Amazon Nova Actの最も強力で正直に言うと過小評価されている部分の1つである、AIエージェントが自分で実行するようにスケジュールすることについて見ていきます。これは本物のAI自動化についてです。食べ物の注文やフォームの記入などのタスクをエージェント用に構築したら、スケジュールに従って自動的に実行するように設定できます。手動で監視する必要はなく、手動でトリガーする必要もありません。彼らが示す例は非常に楽しく共感できるもので、毎週火曜日に同じサラダを配達してもらうというものです。コンピュータに触れることなく実現します。
また、ヘッドレスモードでの実行方法も示しています。これは画面に何も表示せずに裏側で動作する方法を意味します。自動化を監視しなければならないなら、それは本当の自動化ではありません。そのため、信頼性は私たちが構築したすべてのコアです。ワークフローが稼働したら、簡単にヘッドレスモードに切り替えることができ、さらに自分のスケジュールで実行するように設定することもできます。
これがどれほどシンプルで強力であるかを見てみましょう。私は毎週火曜日の夜に同じサラダを配達してもらっていますので、Novaがこれをより簡単にできるかどうか見てみたいと思いました。ワークフローをまとめて、cronジョブを使用してスケジュールに従って実行しました。私はしゅまみが大好きなので、モデルにそれを検索して私のカートに追加するように指示しました。エージェントはスクロールして適切なボウルを見つけ、私のバッグに追加し、さらにチェックアウトまで行います。そして、そのように私の夕食が指定時間通りに私のドアステップに到着します。私は指一本動かしませんでした。
これは画面表示版でしたが、ヘッドレスモードに切り替えるのはスイッチを切り替えるのと同じくらい簡単です。私たちのGitHubリポジトリでスクリプトの他のバージョンをチェックして、Noaがあなたのために機能する他の方法を探索してください。
次に、Amazon Nova AIエージェントで使用できる楽しい例を見てみましょう。予約の予約からQAテストの自動化まで、Nova Actにはたくさんの可能性を想像してきました。今、私たちはあなたが何を構築できるか、そしてあなたが想像できるすべての奇妙で変わった型破りなことを見るのが楽しみです。私がNova Actを試していたとき、何か馬鹿げたことをしたいと思ったので、この楽しい鳩バトルゲームを見つけ、インタラクティブモードを開き、エージェントに鳩のステータスを割り当て、そして他の鳩と戦うように指示するいくつかの文章をすぐに書きました。
私たちは明らかに鳩のトーナメントで優れるようにモデルを訓練していなかったので、これが実際に機能するかどうか確信がありませんでした。驚いたことに、Nova Actは防御に1ポイント追加するなど、すべてのステータスポイントを正常に割り当てました。その後、2羽の鳩を連続して倒し、最終的に巨大な筋肉質の鳩に進化しました。今度はあなたの番です。探索してみてください。あなたが何を創造するのか待ちきれません。


コメント