MITの報告書によれば、企業におけるAIパイロットプロジェクトの95%が失敗に終わっているという衝撃的なデータが明らかになった。この課題に対し、AWSは年次カンファレンスre:Inventにおいて、エージェントプラットフォームAgentCoreに関する2つの重要な発表を行った。これらは企業がエージェントシステムを本番環境に展開する際の根本的な問題、すなわちAIをいかに信頼し制御するかという課題を解決することを目指している。AgentCoreの最新アップデートには、ポリシー管理、評価機能、エピソード記憶という3つの重要な機能が中核的な要素として統合された。ポリシー管理では自然言語でガードレールを設定でき、自動推論技術により数ミリ秒でポリシーをテストできる。評価機能では標準的な評価指標またはカスタム評価を使用してエージェントのパフォーマンスを継続的に測定できる。エピソード記憶により、エージェントは成功と失敗の両方から学習し、パターンを認識して将来のインタラクションに適用することが可能となる。これらの機能がAgentCoreの実行パスに組み込まれることで、プロダクショングレードのエージェントシステム構築における新たな標準が確立される。

AWSがエージェントシステムの課題を解決
これはMITから出されたレポートで、AI業界を完全に揺るがしたものです。企業内でのAIパイロットプロジェクトの95%が失敗しているという内容でした。このレポートはバイラルになり、ほんの数ヶ月前にはあらゆる場所で話題になっていました。それからわずか数ヶ月後の今日、AWSは年次の大規模カンファレンスre:Inventを開催しており、エージェントプラットフォームに対する2つの発表を行いました。これらは企業がエージェントシステムを本番環境に展開する際に抱えている問題を本当に解決しようとするものです。
その2つの大きな問題とは、AIをどう信頼するか、そしてAIをどう制御するかです。もちろんそこにはもっと大きな実存的な疑問があるかもしれませんが、企業という文脈においては、プロダクショングレードのエージェントシステムを絶対に持つことができます。AWSがこの動画をスポンサーしてくれているので感謝します。そしてこれらの発表は、私がこれまで市場で見てきた他のどのものとも本当に異なっています。
何が特別なのかというと、ポリシー処理、評価、そしてエピソード記憶が、彼らのエージェントフレームワークであるAgentCore内で第一級の市民になったということです。AgentCoreは、インフラ管理を必要とせずに、プロダクションレベルでエージェントを構築、展開、スケールできる最も先進的なエージェントプラットフォームです。どのモデルでも、どのフレームワークでも動作します。
さて、繰り返しになりますが、彼らは今週re:Inventでこれらの発表を行ったばかりなので、それについてお話しできることを嬉しく思います。まず、ポリシー管理について話しましょう。これは本質的に、エージェントの周りにガードレールを設置して、あなたが望むことだけを確実に行うようにするものです。そして明らかに、これはエージェントを本番環境に展開する際の非常に重要な要素です。
AgentCoreでのその画面はこのように見えます。設定は非常に簡単です。説明欄に手順へのリンクを貼っておきます。そしてこれらのポリシーの1つはこのように見えます。まず、このようなプロンプトで自然言語で入力できます。ユーザーがメッセージング権限スコープを持っていない限りSlackメッセージを禁止する。
ユーザー名がadminで始まらない限り、内部を含むURLのウェブサイトの閲覧は禁止される。ユーザーが許可されたグループ内にいる場合はSlackメッセージを許可する。そうするとプロンプトからプログラマティックなコードを自動的に生成し、それをテストするだけです。望み通りに動作することを確認すれば、それだけで完了です。つまり、これを大規模に想像してみてください。
それが重要な部分です。これはプロダクショングレードの機能です。ここに書かれているように、1秒あたり数千のリクエストを処理できます。そしてエージェントが、最も重要なことに自然言語で簡単に定義された、アクセスすることが許可されているもののみにアクセスすることを保証します。そして私は、これら2つの主要機能がAgentCore体験内で第一級の市民であると述べました。
そしてそれがどのように機能するかはこうです。ユーザーがここでエージェントに指示を与えます。エージェントと他のMCPクライアント。リクエストはAgentCoreゲートウェイを通過し、ポリシーエンジンにアクセスします。ポリシーエンジンは、エージェントが与えられたリソースにアクセスすることが許可されているかをチェックし、実行することが許可されているツール呼び出しのみを提供します。
そしてツール、API、システムデータ、その他何でも、許可されていることのみに基づいて実行されます。そして以前私が自動推論について作った動画を覚えていますか。それは非決定論的システムをテストする検証可能な方法です。複雑に聞こえるかもしれませんが、モデルが幻覚を起こしているかどうかをテストするための数学的証明を想像してください。
それもAgentCoreのポリシーに組み込まれているものです。そしてレイテンシーは非常に低いです。これらのポリシーはミリ秒単位でテストされます。これらのポリシーガードレールは、多くのAnthropicの論文によれば、これらのモデルが欺瞞、内省、嘘、情報持ち出しなどが可能であることを発見し続けている中で、ますます重要になっています。
したがって、これらのエージェントシステムの最低レベルでのガバナンスポリシーは絶対に重要です。次に評価があり、これはAWSが今週発表したもう1つの主要なリリースです。評価はまさにその名の通りのものです。プロダクショングレードのAIシステムとエージェントフレームワークを運用する上で最も重要な要素の1つです。
私は多くの企業と仕事をしてきました。そして常に二の次になっているように見えるのが評価ですが、それは最初に来るべきです。ベースラインが必要です。測定できなければ、改善しているかどうかわかりません。そして評価によって、それができるようになります。AgentCoreの評価では、標準的な既成の評価を使用するか、独自のカスタム評価を作成することで、エージェントシステムを評価できます。
実際、私はこれについても動画を作りました、完全なチュートリアルです。それは具体的にはAIモデルに対するものでしたが、今ではエージェントに評価を適用でき、非常に似ています。そのチュートリアルへのリンクを下に貼っておきます。そしてモデルを評価するのと同じように、エージェントを評価するには、正確性、有用性、簡潔性、指示への従順性、忠実性、応答、関連性、一貫性、拒否など、テストできる多くの異なるシグナルがあります。
そしてもちろん、前に述べたように、独自のカスタム評価を使用できます。つまり、海賊のように話させたいと思っていて、海賊のように話していることを確認したい場合は、そのための評価を作成できます。そして繰り返しになりますが、これが特別な理由は、AgentCoreがこれらのAIの基本的な構成要素を取り、エージェント構築の最低レベルにそれらを持ち込んだということです。それが鍵です。
これらは第一級のエージェント機能として、最低レベルに組み込まれています。そしてエージェントをオンデマンドでいつでも、または継続的に評価できます。つまりいつでも、これらのエージェントが必要なことをしているかどうかを確認できます。そしてAgentCoreで完全な可観測性があるため、エージェントが何か間違ったことをしたり、誤った情報を提供したりした場合、それを最初の決定まで遡って追跡できます。
そして3つ目は、AgentCoreメモリへの大幅なアップグレードです。今ではエピソード記憶があります。これは、これらのエージェントが複数のインタラクションにわたって成功と失敗から学習できることを意味します。成功と失敗の両方からのすべてのメモリを持つことでパターンを認識し、それらのパターンからの学びを将来のインタラクションに適用できるようになります。
そしてこれらのメモリは特定のユーザーや特定の会話に紐付けられていません。エージェント実装全体に広がります。そして再び評価に結びつけると、これらすべてがAgentCoreの最低レベルに組み込まれているため、評価はメモリを取得し、評価中にそれらを使用して、エージェントがそれらのメモリによって実際に向上しているかどうかを確認できます。
つまりポリシー、評価、エピソード記憶により、AgentCoreは今や、これらの機能をAgentCore体験の深部に組み込んだ最初のものとなりました。そして重要なのは、これらの機能、この機能性のすべてが実行パスに移されたということです。後付けではありません。これはエージェントを構築する方法に組み込まれています。
これが未来です。この動画をスポンサーしてくれたAWSに感謝します。AgentCoreをチェックしてください。すべてを下にリンクしておきます。試してみてください。エージェントを構築してください。何を構築したか教えてください。これらの機能とAgentCoreに付属する残りの機能についてどう思うか教えてください。AWSは企業の展開ジレンマを解決しています。
もしこの動画を楽しんでいただけたなら、いいねとチャンネル登録をご検討ください。


コメント