我々はAIエージェントを逆に捉えている—シミュレーションが勝利する

AIエージェント
この記事は約13分で読めます。

この動画では、現在多くの企業が注目しているAIエージェントの活用方法について、従来の「実行型エージェント」から「シミュレーション型エージェント」への転換の重要性を解説している。実行型エージェントは線形的な時間節約を提供するが、シミュレーション型エージェントは意思決定の質を向上させ、指数関数的な価値を生み出す可能性を持つ。デジタルツインやバーチャルシミュレーションを活用することで、企業は複数のタイムラインを探索し、より賢明な判断を下せるようになる。

We're Getting AI Agents Backwards—Simulation Wins
My site: substack: story:

AIエージェントの真の活用法とは

私たちは、AIエージェントを最も活用度の低いポイントに焦点を当てていると思います。どういう意味かを説明させてください。

根本的に、私たちはAIエージェントを実行者として捉えています。AIエージェントをメール作成、チケット対応、コード生成デモなどの実行者として見ており、私たちはコミュニティとして、AIエージェントにより良い作業をさせる方法を模索することに、インクとピクセルとトークンを費やしています。

これはAIエージェントにとって低いレバレッジの機会であり、私たちは高いレバレッジの機会についてほとんど話していません。そしてそれは今日、賢い企業によって使用されています。高いレバレッジの機会とは、AIエージェントをAIモデルとしてモデリングすることです。これは指数関数的な機会であり、この動画は「モデリングが実行に勝る」という考えを解き明かすことに関するものです。

そして、それを理解した企業の間で静かなAI革命が起こっています。私は、次の1兆ドルのエッジが、エージェントを使ったより速い実行ではなく(それも良いことですが)、エージェントを使ったより良いシミュレーションである理由をお見せしたいと思います。

従来のエージェント概念とその限界

従来のエージェント概念は、LLM(大規模言語モデル)プラスツールプラスガイダンスです。非常にシンプルですよね。AIエージェントの中核には大規模言語モデルがあります。これを「脳」と呼ぶことができます。タスクを実行するためにツールを呼び出すことができ、それは何をすべきかを指示するポリシーと、何をすべきでないかを制約するガイダンスまたはオーケストレーションによって包まれています。

そして私たちの評価の多くは、本質的にこれらのエージェント(LLMとツールとガイダンスを小さなトレンチコードに組み込んだもの)が実際の作業をどれだけうまく遂行するかを測定します。

そして私たちが自慢するKPI(主要業績評価指標)である、クローズしたチケット数、節約した時間、インタラクションあたりのコスト、これらはすべてエージェントのその考えから来ています。ツールとポリシーガイダンスで物事を実行するエージェントとして制約するという考えです。エージェントのネットワーク、エージェントのコミュニティ、マッキンゼーの表現を使えばエージェントのメッシュ、これらはすべて、あなたのために作業をするエージェントの群れやチームが必要だという概念から来ています。

これは自動化には素晴らしいです。実行には素晴らしいです。より広い機会にズームアウトしてみましょう。

エージェントは現実シミュレーターになれる

エージェントは現実シミュレーターになることができます。デジタルツインの概念は、実際に今年の初め、1月にNvidiaが製造倉庫ツインを発表したときに初めて公に持ち出され、披露されたものです。

これは、NvidiaのCEOであるジェンセンが「これはAIエージェントの年だ」と発表したのと同じカンファレンスでした。そして私たちは、AIエージェントに対するVCの誇大宣伝が大きいことを知っていました。ジェンセンが年初の1月に完全なAIエージェントデモで登場しました。人々は倉庫の部分を軽視していました。人々は、ジェンセンが持っていたアイデア、つまりデジタルツインが長期的な生産性とAIエージェントのAI活用のレバレッジを最大化するために深く重要であるということを忘れていました。

シミュレーション型エージェントの定義

実行者であるAIエージェントをLLMとツールとガイダンスとして定義したように、エージェントをモデラーとして使用したい場合は、もう一つ追加するものがあると言います。シミュレートされた世界でLLMとツールとガイダンスを持つエージェントです。それが最後の部分です。そしてそれが、ジェンセンが紹介した倉庫でシミュレーションがとても重要な理由です。

私たちが持っているモデル構築の他のすべての例は、世界をシミュレートします。それは3Dビデオゲーム世界シミュレーションのようなものでなくても構いません。テキストや言葉で世界の関連する制約をモデル化するシミュレーションかもしれません。それも可能です。そして、あなたがする必要があるのは、私たちがいつもやっていることのように、現実シミュレーター内でエージェントとして行動するようにLLMを設定するプロンプトがあることです。

あなたがしていることは、世界の制約を考慮して、このポリシーとガイダンスで特定の方法で行動するようにエージェントに指示することだけです。そして私たちが「難しい利害関係者とのこの状況をゲームアウトするのを手伝って」と話すとき、人々は彼らのLLMとそのような会話をしています。彼らはChatGPTとそのような会話をしています。

彼らは元恋人と別れることについて話し、どうなるかを見るためにChatGPTとその会話をシミュレートしています。それがエージェントを現実シミュレーターとして使うということです。

なぜシミュレーション型エージェントが重要なのか

なぜこのことについて話すことが重要なのかをお話ししましょう。私たちは実行するエージェントについて話すことに時間の大部分を費やしています。それらは線形時間節約エージェントです。10分のメールを0分のメールに変えます。

それは素晴らしいことです。ビジネスとしての意思決定を改善するのに役立つ現実シミュレーターエージェントを持つときの違いを想像してみてください。様々なビジネスタイムラインをシミュレートし、それらを探索することを可能にするエージェントを想像してみてください。私たちは多くの場合、3つの選択肢を持つ取締役会への簡単なPowerPointプレゼンテーションと、これが私たちの好ましいものだという機会しかありません。

AIは私たちにはるかに多くの力を与えてくれ、私たちのほとんど誰もこれらのエージェントを現実シミュレーターとして使用して、構造化された方法で異なるタイムラインを考え抜いていません。その世界では、ビジネスのために少し構造化されたタイムライン探索を行えば、10年の市場サイクルを10時間のシミュレーションに変え、5つまたは6つの異なる10時間のシミュレーションを持って戻ってきて、ビジネスがどこに向かっているかについてはるかに有用な理解を得ることができるでしょう。

ある意味で、私たちは歴史的に次の2、3ステップしか見ることができなかったこれらすべてのタイムラインを取り、今ではそれらの異なるラインの束をシミュレートし、それらを持ち込んでより賢い決定を下すコンピュートを持っています。それが人間としての私たちの意思決定を少しでも改善すれば、実行に焦点を当てたすべてのLLMエージェントの影響を補って余りあるでしょう。

指数関数的価値レバーとは

では、これらの指数関数的価値レバーとは何でしょうか。正しく行っているかどうかをどうやって知るのでしょうか。

一つ目、私はタイムラインについて話しました。巨大な代替タイムライン優位性があります。ビジネス全体だけでなく、特定のシナリオも含めて、あらゆる種類の異なる選択肢を実行してシミュレートできます。製品発売に対する顧客の反応をシミュレートできます。

1ドルも使う前にマーケティングキャンペーンのユニバースをシミュレートできます。実際にコードを出荷する前に、あらゆる種類のコード順列をシップテストできます。

時間圧縮は、私が指摘したい2番目のものです。時間圧縮とは、あなたの競合他社が反復3にいる一方で、あなたは反復300にいるという考えです。なぜなら、あなたは実時間ではなく、シミュレーション時間にいて、物事を非常に迅速にシミュレートして破棄できるからです。

シミュレーションの精度に対する反対意見への回答

確実に反対意見が出るでしょう。人々は「これらのシミュレーションはすべて正確ではない。では、なぜこの代替タイムラインを信じるのか、なぜこの時間圧縮概念を信じるのか」と言うでしょう。

まず、それはすでに世界最大の企業のいくつかによって並外れた価値を提供するために使用されており、それについては後で触れます。

しかし第二に、完全に正確でなくても、まったく考えないという選択肢よりも大幅に優れていれば素晴らしいのです。70%正確であっても、非常に有用です。そして実際に、バーチャルシミュレーションを使用して進歩を劇的に加速している企業があります。

ロボティクスは良い例です。ロボットは実際に歩いたことがなくても、最初にバーチャル環境で訓練されることで歩くことを学んでおり、そこで非常に迅速に訓練できます。

これにより、企業は訓練コストで大幅な時間を節約できます。もう一つの例はTeslaと運転です。Teslaはシミュレートされたコースで運転AIを訓練し、それが役立つのは、車が非常に高価な事故に遭うことなく、すべてのエッジケース体験を持てるからです。

複利効果と非線形価値

タイムライン代替、時間圧縮のような価値レバーについて話しました。現実世界に入る前に、もう一つ指摘したいものがあります。複利は大きなものです。シミュレーションを行うたびに、より良い事前知識を開発します。より良い事前知識を開発すると、非線形的なブレークスルーをより簡単に得ることができます。価格の崖を見つけることができます。隠れたセグメントを見つけることができます。画期的な製品を見つけることができます。

世界で最も賢い実行エージェントでは得られないものです。私が本当にあなたに理解してもらいたいのは、実行者としてのAIエージェントでは線形価値スケールにいて、モデルシミュレーターとしてのAIエージェントでは非線形価値スケールにいるということです。

実世界での成功事例

いくつかの例に移りましょう。これらはすべて車両の例です。今回は車をいくつかやります。これが起こっている唯一の場所というわけではありませんが、有用だと思います。

Renaultでは、デジタルツインを持つことで車両開発時間を60%削減しました。デジタルツインはプロトタイプ前のクラッシュ結果を予測し、車を適切に開発するのに本当に役立ちます。

BMWは、一晩で何千ものライン変更の順列を持つバーチャルファクトリーを構築し、最高の工場結果をシミュレートしました。Formula 1にはリアルタイムピット戦略シミュレーションがあり、ピットクルーの交代でエネルギーを配分する最も効率的な方法を見つけ出し、その車を可能な限り迅速にレースコースに戻すのに役立ちます。

そして車の状況ではない一つの例として、広告ネットワークは支出なしにROAS向上のためのクリエイティブミックスを事前推定できます。バイラルシミュレーターのアイデアについて話すとき、それを行うアプリが今あります。それが本質的に行っているのは、AIエージェントを世界モデルとして使うことです。LLMまたは他の機械学習アルゴリズムに制約のセット、ツールのセット、そして動作する世界を与えています。

そしてその世界をモデル化した後に応答を返すように求めています。

反対意見への対処

さらに反対意見が出ることを予想しています。それらの反対意見について正直に話しましょう。

「ガベージイン、ガベージアウト」が最初の反対意見です。ガベージを入れれば、悪いシミュレーションが出てきて時間の無駄になります。それは本当です。

おそらく証明された較正ループを入れ、入れるものを較正してください。注意を払ってください。これは非常にコントロール可能です。そして、パフォーマンスに対してバックテストし、自分を正直に保つことを確実にしてください。デジタルツインがタイムラインをシミュレートしていて、実際にそのタイムラインを実時間で実行していて、シナリオと比較して物事が大幅に乖離していることがわかった場合は、正直になってください。

シミュレーションで何が間違っていたかを評価してください。取締役会に予測を出すときに通常制約を見逃していたので、戻って修正してください。

別の反発。これは偽の自信を与えます。公正です。オプションを考慮しなかったときにも偽の自信を持っていたと思います。シミュレーションを使用して分布を制限し、ポイント予測を実行しないようにする必要があります。

意味がわかりますか。タイムラインの分布があります。起こりそうなことをモデル化したシナリオがあったので、それらの周りにいくつかの制約を置くべきです。ポイント仮定を作りたくありません。それは常に人間の弱点でした。特定のポイント仮定に過度に固執し、世界を一連の分布として考えないことです。

別の反対意見、コンピュートは非常に高価です。どうやって余裕を持てるでしょうか。まあ、どうやって余裕を持たないでいられるでしょうか。画期的な可能性を与えてくれるなら、それは価値があるように思えます。

4番目のものを指摘したいと思います。文化の変化は困難です。実際に人々にボーナスを与え、意思決定の質に対して報酬を与え、新しいものを構築するだけでなく災害を避けることに対して人々に報酬を与えれば、企業のインセンティブを変えることになります。

文化変化の必要性と実践的なスタート

それは困難なものだとわかっています。幻想は持っていません。企業の世界で十分長く働いて、それを行う企業があまり多くないことを知っています。しかし、意思決定の方法を再考し、ビジネスでのエージェント的効用の方法を再考する機会があり、以前は決してできなかった方法でコンピュートを意思決定と将来志向の思考に持ち込むことができます。

それは文化の変化を意味すると思います。思考の仕方、意思決定の仕方、災害を避けることについてもっと考えることを意味すると思います。

あなたは「わかった、これは多すぎる。どうやって始めればいいのか」と言っているでしょう。まず、ツイン化を試す一つのKPIを選ぶことを提案します。十分によく知っていてモデル化できると思うもの、ChatGPTでの長いプロンプトで文字通りモデル化するか、カスタムなものを構築するかに関わらず。

おそらく獲得コストかもしれません、おそらくチャーンかもしれません、わかりません。次に、それに供給するデータを理解することを確実にしたいです。そのデータをどのように更新し、フィードバックループを理解することです。最後に、信頼でき堅実なツールスタックを持っていることを確実にしたいです。

大企業の取り組みなら、データレイクとレイクハウス、フィーチャーストア、シミュレーションエンジン、ダッシュボードを持っているかもしれません。それがエンタープライズスタックの例でしょう。非常に小さく、元恋人または間もなく元恋人になる人との別れをシミュレートしようとしているなら、それほど派手ではありません。良いデータを持つ必要があります。

別れを考えている人との次のデートがあるときのリフレッシュケイデンスと良いフィードバックループが必要です。そして私は意図的に私たちの私生活からの少しユーモラスな例を使います。なぜなら一つには、私たちはChatGPTと私たちの私生活について話しているからです。そして二つには、それが具体的になるのに役立つと思うからです。

根本的に、関係をシミュレートしたい場合は、それを有用なシミュレーションにするためにその関係について十分な情報を与える必要があります。そして現実が進化し続けるにつれて、そのエージェントがどのように調整する必要があるかを理解するために、事前知識を変更し更新する必要があります。

道徳的責任と競争優位性

私があなたに残したいものはこれです。より明確な先見性を持つ能力があり、それを使わないことを選択する場合、これは私たちの道徳的責任を高めるでしょうか。エージェントを世界構築者として考えるコンピュートを持っているので、将来のタイムラインに対してより責任があるでしょうか。私はそう思います。

より深く考える責任があると思います。なぜなら、今そうするコンピュートを持っているからです。そして再び指摘したいのは、ここに巨大な分岐曲線の機会があることです。他の全員がエージェントを実行者として夢中になっている一方で、あなたは将来の現実をモデル化し、より良い意思決定を行う方法としてエージェントについて考えている一人であるなら、あなたは異なるゲームをプレイしており、そのゲームの先駆者です。

AIがこのタスクをどのように実行できるかを尋ねるのをやめてください。いや、やめるとは言いません。AIは実行者として途方もなく価値がありますが、私が見るものの95%はそれです。AIがどのように異なる種類の未来を示し、意思決定の改善を助けることができるかを尋ね始めてください。デジタルツインはどこであなたを次の大きな間違いから救ってくれるでしょうか。それが私からあなたへの質問です。

楽しんでください。

コメント

タイトルとURLをコピーしました