なんで大抵のAIエージェントは本番で失敗するんや（そして、どないして直すんや）

Freleangの共同創設者であるYanが、AIエージェントの生産環境での課題と解決策について詳しく解説している。デモでは80%の精度を示すAIエージェントが本番環境で失敗する理由、自動化と自律性の違い、LLMの意思決定からの脱却、ニューロシンボリックAIの活用など、実用的なAIエージェント構築に必要な技術的洞察が語られている。

Why Most AI Agents Fail in Production (and How to Fix It)

In this episode, I sat down with Yann Bilien, co-founder and Chief Scientist of Rippletide, to explore the cutting edge ...

AIエージェント開発の現実と課題
構築か購入か：AIエージェントの戦略選択
Freleangの創業背景と使命
AIセールスエージェントの本質
自律エージェントの定義と特徴
セールスエージェントとAISDRの違い
AIエージェント業界の混乱と課題
AISDRの限界と課題
自律性の実例：自動運転から学ぶ
AISDRと真の自律性の乖離
確率性と決定論的システムの両立
ガードレールの重要性
ニューロシンボリックAIの復活
現在のエージェント構築の問題点
本番環境での失敗の原因
LLMの根本的な限界
プロトタイプと本番環境の違い
意思決定システムの革新
データ制約とスケーリングの限界
スケーリング法則の限界とデータ不足
情報密度の重要性
AIエージェントの生活体験の必要性
80%から99%への精度向上
エラーの複合効果
ハイパーグラフとは
データドリフトと評価の課題
評価手法の限界
評価の2つのアプローチ
コンテキストウィンドウの課題
RAGの制限とボトルネック
コンテキストエンジニアリングの登場
デモから本番への移行
ブランド安全性と信頼性
クライアント導入プロセス
ヘルスケアエージェントの構築例
ターゲット顧客層
構築か購入かの戦略判断
技術購入vs社内開発
社内データの重要性
モデルの進化とエージェントの関係
基礎モデルとアプリケーションのギャップ
垂直化の継続的重要性
人材雇用との類似性
人間とAIの協働の重要性
真の自律性への展望

AIエージェント開発の現実と課題

私の名前はYanで、Freleangの共同創設者や。以前はAI研究をしてて、今は自律エージェントの開発に取り組んでるんや。

もしも君がうちのクライアントやったとしたら、どうやって始めたらええか聞くやろな。その時に私が君に聞くのは「君のエージェントにとって80%の精度で十分なんか？」っちうことや。

今の最大のLLMでも、4歳の子どもが見たのと同じ量の情報しか見てへんのが現状なんや。そやから、言語モデルの改善率を維持するためのデータが間もなく不足することになる。コンピュート（計算能力）は制限要因やないけど、この評価スキームがAIにおける課題であり続けてて、まだ解決されてへんのが実情や。

デモから信頼できる本番環境への滑らかな移行ってどんな風に見えると思う？エージェントを構築する時は、普通は2つのステップがあるんや。

構築か購入か：AIエージェントの戦略選択

AIエージェントのニーズに対して、企業は自社開発するべきか、それとも購入するべきか？それは難しい質問やな。答えるのに2つの要素があると思うわ。

1つ目は観察やけど、AIエージェントが真に自律的になることってあると思う？自律性はどんどん重要視されてきてて、シリコンバレーでWaymoの自動運転車なんかを見てると分かるやろ。

そやから間違いなく、自律システムが次の大きなトレンドになるで。君のウェブサイトでも、AIエージェントを80%の精度レベルから99%の精度レベルに引き上げるって書いてあるな。それはかなり大胆な声明やと思うで。

やあ、Yan。やあ、Angelina。会えて嬉しいわ。招待してくれてありがとう。私もまた会えて嬉しいで。

Freleangの創業背景と使命

私はGen AIカンファレンスでYanに会ったんやけど、本番環境でのAIエージェントについて魅力的な講演をしてくれたんや。それが今日のトピックや。自己紹介して、何をしてるか、なんでその仕事をしてるか聞かせてもらえる？

もちろんや。私の名前はYanで、以前はripples、今はFreleangの共同創設者や。AI研究をしてて、ロンドンのImperial Collegeにいて、今は自律エージェントに取り組んでるんや。

triple thっていうのは、人々がAIエージェントを構築するのを手助けする会社や。基本的に2年前に始めたんやけど、自律性に到達できるっちう直感から始まった。自律性に到達するためには、今日欠けてる技術スタックがあるんちゃうかと思ったんや。それでエージェントを構築して販売して、欠けてる技術を構築し始めた。今日はその技術を人々がエージェントを構築するために販売してるんや。

何が欠けてるか知りたいわ。ripple typeがどのくらい古いか聞こうと思ったけど、2年って言ってくれたな。君のウェブサイトではAIセールスエージェントについてたくさん言及してるけど、AIセールスエージェントって何なのか詳しく教えてくれる？

AIセールスエージェントの本質

もちろんや。ripple tileを始めた時、私たちは本当に自律性に向けて前進したかったんや。エージェントを作り始める時にセールスエージェントから始めたんやけど、なんでセールスエージェントかって言うと、人がセールスプロセスに関わってるからや。つまり、そこで自律性を非常にうまく表現できるってことや。状況で何が起こるかを事前に知ることができへんからな。

それでこのセールスエージェントの構築を始めた。R&Dをして、そんなエージェントを作るための技術コンポーネントを開発した。ある日、人々がエージェントのハイプと共に毎日自分たちでエージェントを構築し始めて、「君たちが開発した技術を使って問題を解決したり、自律エージェントを作ったりできるか？」と聞かれるようになった。それで今は他の人々にもこの技術を提供してるんや。

状況を予測できないって言うてるけど、今私たちが通話してるような状況やな。君は私が何を聞くか予測できへんし、私も君が何を言うか予測できへん。それがAIエージェントを使うのに完璧なシナリオなん？

自律エージェントの定義と特徴

そうやな、そうかもしれん。今日存在してるものと比較して自律エージェントって何かの定義から始めるのがええと思う。興味深いのは、基本的に2つのタイプのエージェントがあるってことや。

1つはオートメーション、RPAにより焦点を当てたもんや。例えばビジネスワークフローを取って、技術を使ってそれを実行したいっちうもんや。

もう1つは、事前にワークフローやプロセスが何かを言えない状況があるっちうもんで、特に人間が関わってる時がそうや。君が言ったように、私は君の次の質問を予測できへんし、君の質問に基づいて、周りの状況に基づいて、答えを作るためにいくつかの決定を下さなあかん。それが自律性が登場するところや。

私の推測では、自律性があることで、単にワークフローを自動化するだけやなくて、たくさんの新しい使用例が可能になると思うんや。それで私たちがそこに取り組んでるんや。

それは素晴らしい定義やな。私の頭がかなりクリアになったわ。私はナンオートメーションに取り組んでたから、エージェントやなくてオートメーションに取り組んでたってことやな。2つの概念の素晴らしい区別や。

セールスエージェントとAISDRの違いも教えてくれる？それについてもたくさんの混乱があると思うんや。

セールスエージェントとAISDRの違い

セールスエージェントは単にサブエージェントのカテゴリやと言えるな。例えば、多くの人が話してるデジタルワーカーの概念に頼るとしたら、エージェントを使って仕事をするっちう考えや。エージェントをデプロイする方法は2つある。

1つは誰かに協働者のようなものを提供することや。つまり、各人と一緒に働くエージェントや。もう1つは会社の使用例全体を処理したいっちうことや。例えば、セールスモーションに入ってくるインバウンドリード全部に対応したいとか、そんな感じや。

この2つの方法があって、セールスエージェントは議論できるたくさんの異なる使用例のカテゴリに依存してると思う。セールスモーションの中では、ミーティングを取得して予約しようとするSDRがおる。取引を前進させようとするAE（アカウントエグゼクティブ）がおる。取引をクローズするエージェントも持てるやろうし、そんな感じや。

AISDRは列の最初のやつや。多くの人がAISDRを構築しようとするのは、それが始めやすい一番簡単なやつやからやと思う。それで今日それをやってる会社がたくさんあるんや。

AIエージェント業界の混乱と課題

非常に混雑した空間やし、君たちが最初に思い浮かぶのは何や？正直言うて、非常に混乱するんや。AISDRやAIエージェント会社がたくさんあって、時々みんなセールスチームのために働くって言うけど、実際に何をしてるのかが非常に不明確なんや。例えば11Xっちう有名な会社があるやろ。君たちは11Xに似てるんか？

私たちはSDRエージェントを構築してへん。人々は私たちの技術を使ってたくさんの異なるエージェントを構築できる。さっき言ったように、SDRは一つの方法として最も簡単なやつやろうな。ワークフローでたくさんのことを自動化できるからや。インターネットで情報を取得して、メールを下書きして、送信するっちう感じや。それをするのに実際は自律性は必要ないんや。

興味深いのは、そんな状況でエージェントを配置する際のボトルネックが何かっちう点や。時には技術だけやなくて、外部要因もあるんや。AISDRとか、君がそれらの会社について聞いたことがあることに関しては、1日に数万通のメール、1ヶ月に数百万通を送ることができるって聞いたやろ。それは技術的な問題やない。

AISDRの限界と課題

こんなソリューションの制限は、結果を改善するための変数がボリュームしかないっちうことや。そやから毎日もっとメールを送る必要があって、みんな1日に何千通ものメールを受け取ってて、全部読むことはできへん。結局、そんなソリューションの制限は、アドレサブル市場の制限なんや。1ヶ月に何百万通ものメールを送ったら、数ヶ月後にはもうアプローチする相手がおらんようになるからな。

それは技術的な問題やない。ボリューム以外の変数で改善したいんや。それが自律性が登場するところで、結果を改善する方法は、もっとパーソナライズしたり、会社を尊重したり、見込み客との話し方を工夫したりすることであって、可能な限りボリュームを向上させるだけやないんや。

それがripple tideが取り組んでることなんか？そうや、私たちは自律性に取り組んでる。つまり、確実に考えて、推論して、決定を下すシステムを持つことであって、単に事前定義された行動の連続やなくて、それはオートメーションにより関連したもんや。私たちは自律性に向けて取り組んでるんや。

それがAISDR会社や製品が失敗してる理由やろな。ソーシャルメディアの投稿で人々が試してから放棄してるのをたくさん見るけど、まさに君が言った通りや。自律エージェントがどう違うのか、どんなパラメーターが関わってくるのか知りたいわ。君が言及したもん、もっと詳しく教えてくれる？

自律性の実例：自動運転から学ぶ

そやな、たぶんな。自律システムがやり取りする例を挙げてみよか。Waymoの自動運転車を例に取ると、車に乗った時、車は3分47秒後に加速せなあかんとか、その後ブレーキをかけなあかんとかを知らへん。歩行者やその他の周りで起こってることに基づいて、ある方法で行動するか別の方法で行動するかの決定を下すんや。

エージェントでも同じことや。最初にタイミングとかと一緒に正確な行動の連続で何をせなあかんかが分かってるなら、このワークフローに従うだけで、自律性を導入しようとするよりもおそらくより信頼性があるやろう。

そやから、事前に何が起こるかを予測できへん全ての状況で自律システムを持つことは理にかなってると思う。多くの状況で、そこに人間が関わってる時がそうや。君は人間が何をするかを予測して予想することができへんから、起こってることに基づいて新しいソリューションを見つけなあかん。

自律性の鍵は決定を下すことができることや。リアルタイムで決定を下さなあかん時もあれば、そうやない時もあるけど、それをするためには自律性が必要なんや。

AISDRと真の自律性の乖離

見込み客開拓やからAISDRが自律性への最良のケースかどうかは分からへん。それはかなりワークフローベースやからな。そやから自律性により適した他の使用例がたくさんあると思うで。

私たちは自律エージェントやろ？私たちは自律的や。そやな、ある意味では。私の推測では、AIシステムは必ずしも人間がどう考えるか、どう推論するかを模倣する必要はないと思う。でも確実に、私たちが決定を下す方法にはいくつかのパターンがあって、時にはシグナルとノイズを見ることに基づいてる。たくさんのセンサーがあって、結局決定を下すんや。

そやから高いレベルでは、AIシステムのためにいくつかのインスピレーションを得ることができると思うけど、低いレベルでは、人間と同じように考えることからはかなり遠いんや。

確率性と決定論的システムの両立

君の製品説明でも決定論的という言葉をたくさん使ってるけど、自律的やったら、エージェントが自律的やったら、自律性は本質的に確率的な推論モデルに基づいてるんやろ？ここで決定論的はどう可能なんや？

それは理解できるし、君はAIの有名なトレードオフについて言及してると思う。一方でコントロール、もう一方で柔軟性っちうトレードオフや。

柔軟性っちうのは、以前に見たことがない新しい状況に適応できることを意味してて、たとえ予想してなくても適応できるっちうことや。コントロールっちうのは、システムに何かを期待して、システムが期待した通りに同じ方法でそれを実行してほしいっちうことや。

それは非常に有名なトレードオフやけど、私の考えではそれはトレードオフであるべきやないと思う。システムの一部の部分ではコントロールが必要やし、他の部分では柔軟性が必要やからや。このトレードオフを望む場所は同じやないんや。

君がエージェントフレームワークでのLLMについて言及してる時、それが今日エージェントが構築されてる方法や。基本的なフレームワークを取ると、中心にLLMがあって、質問やそんなもんを受け取って、何かの行動を実行するために外部ツールを呼び出すことができる。でも結局、決定を下してるのはLLMなんや。

君が言ったように、これは確率的や。そやから君のエージェント、特に機密性の高い文脈やハイステークエージェントなどで、決定論的であってほしいのは必ずしも行動やない。それよりもシステムに提供してるガードレールなんや。

ガードレールの重要性

例えば、システムに価格について話してほしくないとする。カスタマーサクセスエージェントがあるとしたら、エージェントを構築する従来の方法では、LLMに価格について話すなとプロンプトするだけや。結局、それはLLMによって選択される最も高い確率のトークンに過ぎへん。そやから確率的になって、時にはシグナルが他の場所で高ければ、ポートレートに従わへんことがある。

そやからこの側面では決定論的なクアドレースが必要やけど、ある時点では確実に柔軟性が必要や。そうやなかったら、新しい決定を構築できへんし、起こってることに基づいてロジックを構築できへんからな。

コントロールと柔軟性の間で、エージェントフレームワークの異なる領域で、同じ場所やない。どうやってそれらのコントロールを設定するんや？例を教えてくれる？

私たちはLLMから決定を除去することに多く取り組んだ。エージェントフレームワークでは、決定を下してる、外部ツールを呼び出すことを選択してるのはLLMやない。それは他のタイプの技術や。例えば、ニューロシンボリックAI、グラフなどに関する多くの研究作業があって、それからそれらの技術を活用して決定論的になることができる。

ニューロシンボリックAIの復活

ある時点でバイナリになることができるし、いくつかのグラフ領域を禁止することができるし、それらの技術を活用することができる。特に、かなり古いけど前面に戻ってきてるやつが1つある。それがニューロシンボリックAIや。

ニューロシンボリックAIっちうのは、柔軟性に関するこのニューロンの部分を持ってるっちうことや。つまり強化学習、従来のAIシステム。もう一方では、物事をする古い方法を持ってる。つまりシンボリシズム、つまりその周りにルールやロジックを置くことができるっちうことや。

これを活用すれば、確実に例えば決定論的な怒りを持つことができる。君はルールベースエンジンと組み合わせてるって言うてるけど、それは一つのやり方やな。明らかに、君は問題をいくつかの部分に分割できると思う。確率的計算やそんなもんでAIになる部分もあれば、シンボリシズム、ルールクエに関連したもんが欲しい他の領域もある。

それは本当にいい洞察やな。プロンプトに入れるんやなくて、ルールエンジンの中に入れるっちうのは非常に興味深いし、人がそれについて話すのをよう聞かへん。共有してくれてありがとう。

現在のエージェント構築の問題点

問題ないで。今日、バレーでみんながエージェントを構築してて、同じ方法でやってると思う。LLMを使うのが自然に最初にすることやからや。ある意味で使いやすいからな。APIコールをするだけやし、そんなもんからな。デモは非常に素晴らしいものになるやろう。

でも私たちはそれに向かって壁にぶつかってて、本番に入らへんエージェント、そんな要素では達成できへん自律性に関してそうや。そやから今後数ヶ月で人々はこの壁にぶつかって、それをするために新しいか以前のアーキテクチャに戻ることになるかもしれへんし、普通エージェントを構築してる方法を切り替えようとするやろうと思う。

次の数ヶ月って言うのが気に入ったわ。次の数年やなくて、次の数ヶ月や。最近は本当に早いな。現実的になりたいなら、それは数ヶ月以内やと思う。

そう、それがAIエージェント、私のクライアントでさえも本当に素晴らしいデモを持ってるけど、君が言ったように本番にデプロイしてへん理由やと思う。何が間違いになりうるか、君の観察を共有してくれる？

本番環境での失敗の原因

基本的に、それはLLMが決定を下すことに関連してると思う。LMを使ってデモを構築する時は本当に速いから、1週間で非常に素晴らしいデモを作ることができる。前に言ったように、本番状況では誰かが何をするかを予想することができへん。それが人間の構築方法やと思う。

例えば、顧客対応エージェントがあるとしたら、人間が聞くことができる質問がたくさんあって、それぞれの確率は非常に低い。それはロングテール分布と呼ばれるもんや。非常に低い確率やけど、たくさんの可能性があるっちうことや。そやから全てを事前に予想することはできへん。

プロトタイプでは動作してるのは、基本的に君が完璧なデータを与えたからや。まさにその通りや。いつもと同じ質問や。プロンプトをたくさん繰り返したりしてな。

LLMの根本的な限界

本番にリリースした日に、君が以前予想してなかったことが起こる。その日は通常壊れる。LLMが周りで起こってることを真に理解してへん、正しい決定を下してへんからや。それよりも、以前に見たトレーニングセットに基づいて一貫性のあるテキストを生成しようとしてるだけや。

そやから本番で、トレーニングセット外の新しい質問では通常壊れる。これを説明するのにチェスの比喩をよう使うんやけど、君が非常に経験豊富なチェスプレイヤーで、初心者と対戦してるとしたら、全く考えたり推論したりする必要がない。初心者がやってることのパターンを認識するだけで、考えることなく初心者を追い詰める方法を自然に見つけるやろう。

でも同じように非常に経験豊富な相手と対戦してる時は、人間がどうするかっちうと、いくつかの手をシミュレートしようとするんや。「この手の連続をしたら勝てるか？」って考える。そうやって、それが正しい決定やなかったかもしれへんから、何か別のことを試してみる。そうやって異なる行動の可能性をシミュレートして、結局正しい手を選ぶんや。

プロトタイプと本番環境の違い

それがエージェントで起こることで、プロトタイプの時は初心者と対戦してるから、考えることなく、考える必要なく、自然に出てくることを生成するだけや。でも以前予想してなかった新しい質問がある本番環境では、考えて推論して「知らなくても何をすべきか」を言う必要がある。

それが、エージェントの中心にLMを置いてる時に通常壊れるところや。本当にいい比喩やな。そやからデモAIエージェントは十分経験があるかもしれへんけど、それから真に自律的なエージェント、つまり人間と戦ってるっちうことやな。

そやな、確実に私たちの方が経験豊富や。このパイプラインでAIエージェントを構築してる時について言及したけど、こんな感じやろ？LLMから決定ポイントを除去してるなら、誰が決定を下すんや？このパイプラインでどう決定を下すんや？

意思決定システムの革新

それは素晴らしい質問や。今日では、君が対処してる使用例によって本当に異なると思う。そこに言語モデルのような基礎技術がないから、一般的なケースを扱って推論して決定を下すために適用できるもんを単に取ることはできへん。それは基本的にAGIやからな。そやから今日私たちはそこにおらへん。

一部の人々はコンピュートをスケールして、非構造化データでこの自律性レベルに到達しようとしてる。それをする別の道は、より垂直化することや。全ての産業で垂直的なことをしてる会社がたくさんあるのを見るやろ。そやから、そんな垂直領域で推論エンジン、意思決定エンジンを開発できる。より少ないデータ、より少ないコンピュートが必要やからな。

ルールとビジネスロジックは垂直領域の小さなサブセットでだけ動作するけど、少なくともこの業界で働く人々がすることの推論と行動を模倣することを試みることができる。

データ制約とスケーリングの限界

君のブログ投稿の1つを読んだ記憶があるわ。君のブログ投稿はよく書かれてて、垂直ライト推論エンジンがはるかに少ないコンピュートを必要として、2026年にスケーリングポイントで最大になる可能性がある典型的なチェーンオブソウモデル開発と比較してるって読んだ。それについてもっとコメントある？

今の主な制限要因はコンピュートやない。ある意味でデータやと思う。コンピュートはかなり広範囲で、人々は新しいデータセンター、それらの計算をするための新しいコンピュートを構築してるからや。でも本当に欠けてるのはある意味でデータなんや。

言語モデルについて言及してるから、そんなモデルに供給するテキストが必要なんや。テキストは情報密度が低い。つまり、その上でロジックをするためにはたくさんのテキストが必要っちうことや。例えば、ビデオやセンサーやそんなもんと比較すると、テキストに明示的やない情報ロジックははるかに少ない。テキストに明示的やない推論をするのは難しいんや。

スケーリング法則の限界とデータ不足

去年のNeurIPSで、OpenAIの共同創設者でSafe Superintelligenceのイリヤの会議があったんや。典型的なスケーリング法則についてや。今まで、モデルに供給するトークン数、つまりデータを改善すると、モデルのパフォーマンスも改善するっちう法則があった。それは対数的な法則やった。

今、この法則はプラトーに達しつつあって、間もなくプラトーになる。データが不足してるからや。LLMが見た情報量について、このフランスの科学者Yann LeCunを引用できるけど、今の最大のLMでも4歳の子どもと同じ量の情報しか見てへん。LLMを訓練するために使う合成データやそんなもんを除いて、もうそれ以上のテキストを得ることができへん。

そやから、言語モデルの改善率を維持するためのデータが間もなく不足することになる。要約すると、コンピュートは制限要因やないけど、データは確実にそんなアーキテクチャでは制限要因や。合成データでは十分やない。

そやな、異なるアプリケーションによるけど、多くのアプリケーションでデータを生成できるなら、基本的にモデルに新しいシグナルをもたらさへん。そやからクローズドループでループして、モデルは徐々に派生して、最終的にパフォーマンスを下げることになる。うまくいくケースもあるけど、大部分のケースではこれまでのところうまくいかへん。

情報密度の重要性

最大のものでも4歳が見たもんしか見てへんっちうのにショックを受けたわ。ある意味でそれは、子どもがセンサーを持ってるからそれだけなんや。たくさんのもんを見ることができるし、聞くこともできる。そやから子どもが見ることができるデータがたくさんあるけど、LLMは単にこのテキストだけや。

そやから意味論、つまりテキストに基づいてパターンや情報、推論する方法を見つけなあかん。それは将来おそらく改善されることで、ロボティクスを解放する鍵や。センサーを活用できるから、情報の密度がはるかに高いからな。

純粋なデータの量は実際にはそれが訓練されてる量ほど多くないんやな。そやな、最終的には情報の密度や。

AIエージェントの生活体験の必要性

AIエージェントやLLMには、人生を生きるような、そんな生活体験が必要やと思う。それは確実にあるやろうし、今人々が探求してる方法がいくつかある。エージェントを訓練する方法で、相棒のようなもんを持って、エージェントを君と一緒に連れて行って、君がやってることと一緒に学習させるんや。

君がやってる行動を見たりして訓練する。単に基礎モデルを訓練してからユースケースでファインチューニングするんやなくて、システムを毎日君と一緒に連れて行って、最終的に君がやってるのと同じ方法で学習するんや。

ちょっと怖いし、ちょっと気味悪いけど、理解できるわ。

80%から99%への精度向上

君のウェブサイトでも、AIエージェントを80%の精度レベルから99%の精度レベルにハイパーグラフ決定などで引き上げてるって言及してるな。99%にはどうやって到達するんや？それはかなり大胆な声明や。

そやな、これに基づいて、前に言及したエージェントで君がオートメーションをしたいもんと自律性が必要なもんに戻ることができるかもしれへん。誰かがエージェントを構築しようとする時に別の区別があると思うんやけど、私は通常「君のエージェントにとって80%のパフォーマンスで十分か？」って聞く。

多くの使用例で80%で十分なんや。例えば、カスタマーサクセスのチケットを解決してるだけなら、80%を解決してるなら問題ない。それだけで君の会社にとって大きな利益やから、ここで止めることができる。

一方で、99.9%のパフォーマンスが必要な使用例もある。特に顧客対応の時、規制業界に関連する時やそんな時や。例えば、君の見込み客や会わなあかん人々とのミーティングを予約してくれる個人アシスタントエージェントを考えてみ。80%では明らかに十分やない。5回に1回間違った時間スロットを送るなら、それはアカンやろ。

会う予定の人々はそれについて非常に怒るやろうから。80%で十分な状況もあれば、99.9%が必要な状況もある。そやから私たちは自分たち自身で、そんなハイステークエージェントのためにエージェントを99.9%に引き上げることに非常に焦点を当ててる。

エラーの複合効果

どうやってそれができるかっちうと、明らかにいくつかのポイントで確率的な行動を除去することや。この80%がどこから来るかっちうと、エラーの複合効果からや。エージェントを構築する時は、通常複数のステップがあるプロセスを取るからや。

例えば、市場標準5%の幻覚率を持つLLMを取って、連続で10ステップがあるとしたら、最終的な成功率は60%だけになる。つまり2回に1回近くで幻覚やそんなもんが起こるっちうことや。それは80%では機能するけど、99.9%が必要な他のエージェントでは機能せへん。

そんな場合には、LLM以外の何かが必要や。それで私たちが、本番でエージェントにより高い安全性と信頼性をもたらすために君が引用したハイパーグラフに取り組んできた理由や。

ハイパーグラフとは

ハイパーグラフって何や？すまんな、それについて。ハイパーグラフは単に複数次元を持つグラフや。エージェントを構築する時、ある時点で2つの主要なレイヤーがある。メモリレイヤーと推論レイヤーや。

そやからデータを表現する方法がある。例えば、LLMだけのためのテキストを持つことができる。そうやなかったら、人々がナレッジグラフと呼ぶもんを持ってくることができる。つまりロジックをもたらすっちうことで、例えばYanとAngelinaの間の関係が何かを言うことや。そやからシステムが君について話す時、君が私と話してることを知るやろう。例えば、その関係は決定論的やろ。そやからメモリレイヤーでのパスや。

40%のエラー率はかなり高いな。そやな、そうや。でもいくつかの使用例では問題ないんや。そやから私はいつも「80%で十分か？」って聞くんや。十分やったら、それで作業するだけや。ワークフローでそれができるかもしれへんし、そうしたら100%決定論的になって、さらに良いやろう。でもワークフローができるなら、結局ワークフローをするだけや。

データドリフトと評価の課題

プロトタイプエージェントを本番に投入する時、データドリフトがあるかもしれへん時をどう検証するんや？データドリフトっちうのは、システムのパフォーマンスが本番で時間と共に低下することを意味してるんやろ？

それは興味深い話題やし、同時に実際に本番で真の自律システムは非常に少ないんや。そやからドリフトの問題は他の問題より重要性が低いかもしれへん。特に今日の主な問題は幻覚と従われへんガードレールやけど、ドリフトは第3の問題として来るかもしれへん。

実際に評価するのは困難や。まずエージェントを評価する方法が必要やからや。それはより広範囲やけど、結局それをせなあかん。プロトタイプを持ってて、それを本番でリリースしたい時と同じことや。それをリリースするのに十分安全かどうかをどう知るんや？

通常、人々は本番でエージェントをリリースするのを怖がってる。異なる状況で何が起こるか、人々が何を聞くか、エージェントがどう反応するかを知らへんからや。

評価手法の限界

この評価スキームはこれまでAIの課題であり続けてて、主なソリューションがそれが困難な課題であることを示してる。例えば、最も一般的な技術であるLLM as a judgeを取ってみ。別のLLMの出力を評価するためにLLMを使うか、ヒューマンインザループを置く。つまり、エージェントが何をしてるかをレビューする誰かがいるっちうことや。

そんなソリューションは、それが困難な課題であり、まだ解決されてへんことを示してる。エージェントを評価するために最終的に人間が必要やったら、それは全く自律的やないやろ。評価についても同じや。

そやからおそらく、エージェントを評価するためにビジネスロジックに基づいた何かを持つべきや。カスタマーサクセスエージェントを持ってるとしたら、おそらくそれは1人で解決できるチケットの割合に関連してる。セールスエージェントがあるなら、それはコンバージョン率やそんなもんかもしれへん。そやから確実に、基礎的な評価だけに頼らんで、エージェントに関連した本当にビジネスメトリクス、ビジネス評価を持つことをアドバイスするわ。君のエージェントには非常に適してへんからな。

機械学習エンジニアやから、構造化データでデータドリフトを測定するために本番でのデータの分布を見るのは知ってる。本番でエージェントを使うのと比較して、より簡単やな。

評価の2つのアプローチ

そやな。おそらく君が言及したように評価する2つの方法があると思う。統計的アプローチを持つことができて、特にフィードバックループをしたい時に使われるもんや。

例えば強化学習をしてる。行動をして、それから評価して、モデルを少し再訓練しようとする。でも一方で、事前にそれをすることもできる。何かをしたら何が起こるかを予測しようとして、そやから少なくとも、セールスエージェントがあるとしたら、新しいことを学ぶためにリードを燃やす必要がない。事前に予測できるんや。

エージェントをストレステストするっちう意味か？そやけど、基礎レベルでもそれに関する研究作業があって、フィードバックループで最後に評価するだけやなくて、物事を予測することや。予測っちうことやな。

コンテキストウィンドウの課題

コンテキストウィンドウについてどう思う？プロンプトエンジニアリングが進むにつれて、コンテキストウィンドウにたくさんの情報を供給してるやろ。それをいっぱいに詰め込んで、もうこれ以上詰め込めへんようになったらどうなるんや？無限のメモリを持つことになるんか？それは望ましいことなんか？

それについては2つのことを考慮する必要がある。1つ目は、自律エージェントを構築したいなら、起こってる実際の状況を説明するのに十分なデータが必要っちうことや。そやからある意味で、たくさんのデータを入れて、たくさんのデータを処理する必要がある。

一方で、今日の大きなコンテキストウィンドウでの技術では、昨日Geminiで働いてる人と話してたんやけど、100万コンテキストウィンドウについて知ってるやろ。真ん中でのアテンションのピットに関してたくさんの問題がある。例えば、多くのトークンがより少ないアテンションを持ってるとかな。

3つ目のポイントは、今日のGenAIプロジェクトでは、通常メモリと推論レイヤーを分離する時、両者の間にパイプラインがある。通常それはRAG、グラフRAG、その他何でもや。検索パイプラインで、クエリがあって、質問に答えることができるように関連情報を取得したいっちうもんや。

RAGの制限とボトルネック

通常、それらのパイプラインはプロジェクトのボトルネックになる。RAGは網羅的やないからや。時には、君が話してることに関連してへんコンテキストのチャンクがあって、結局幻覚を起こしたりするんや。

そやから君のプロジェクトでは、おそらくそれらのボトルネックパイプラインを除去しようとして、知識、メモリと行動が行われる場所、決定が下される場所の間のギャップを埋めようとすべきや。両者の間のギャップを埋めることができれば、このコンテキストウィンドウを拡張する方法の1つがそれをする方法や。今日でも多くの不完全性やそんなもんがまだある。

でも他の方法もあって、特にデータを別の方法で構造化すれば。コンテキストウィンドウは、例えば大きなテキストがある時に非常に有用やからや。でもテキストを構造化することができれば、同じ量の情報を保持するけど、より少ないトークンで、おそらく最終的により正確な結果を得ることができるやろう。

コンテキストエンジニアリングの登場

これが人々が最近コンテキストエンジニアリングと呼んでるもんなんか？そやな、コンテキストエンジニアリングっちう用語は興味深いな。人々はおそらく、プロンプトエンジニアリングと呼んでたもんが時間を費やすステップやないって見たんやろう。おそらくプロンプトだけに関するもんやないからや。プロンプトをするだけやったら、LLMをファインチューニングしようとしてるだけやからな。

モデルにデータをどう持ってくるか、どんなタイプのアーキテクチャを使ってるか、毎回システムに全体のコンテキストを供給する必要があるか、それともその一部だけを与えればええかに関連した何か他のもんがある。

そやからこのコンテキストエンジニアリング用語は私には非常に興味深くて、モデルがそれをするために必要なもの、モデルが最終的により正確になるようにその情報をどう与えるかについて、正しい方向に向かってると思う。

私たちもそれについてビデオを作ったばかりや。素晴らしいな。私の共同創設者や。

デモから本番への移行

デモからより信頼できる本番使用例への非常にスムーズな移行はどんな風に見えると思う？今日のエージェントの信頼性と安全性は、明らかに本番でリリースするための重要なポイントやと思う。特にハイステークエージェントを持ってて、幻覚を許すことができへん時、ガードレースが従われへんこととかな。

そやからそれは本当にこれに関することやと思う。より少ないことしかできへんかもしれへんエージェントを持とうとするけど、最終的に君が代表してるブランドを守るんや。例えば、君がラグジュアリーブランドやったら、エージェントにプレミアム体験であってほしいやろ。スパムみたいになったり、うるさくなったりしてほしくないやろう。

君が働いてるブランドを本当に代表せなあかん。物事を発明することはできへん。例えばルールに従わへんこともできへん。そやからビジネスロジックに非常に近くて、モデルがビジネスがやってることを本当に再現するための全ての要素を持ってることを確実にすることが鍵や。

ブランド安全性と信頼性

そやからブランド安全性、つまり適切な方法でブランドを代表することは確実に鍵やし、それをするために安全性、信頼性の違いは、信頼性っちうのは、このエージェントで人々が通常することをするなら、毎回それをする時に何パーセントの割合で機能するかっちうことや。

安全性はむしろ情報を漏らさへん、幻覚を起こさへん、そんなことに焦点を当ててる。Airlineっちう会社の例があるのを知ってるやろ。エージェント、カスタマーサクセスエージェントが顧客のために割引を発明して、それから訴訟に発展したとかな。そやから人々に多大な費用をかけた。そやから本番でリリースするっちうのは本当に安全性と信頼性に関することや。

クライアント導入プロセス

ripple tideがどう機能するかに戻ろか。私が君のクライアントやとしよう。どうやって始めるんや？何が起こるんや？

君にこの質問をするやろう。君のエージェントにとって80%で十分か、それを決めるんや。99.9%やとしよう。カスタマーサービスボットやけど、ヘルスケア用やとしよう。ヘルスケアデバイス用や。そやから許容度はほぼゼロや。ヘルスで間違いを犯すことはできへん。

確実にそやな。エージェントを構築する時、今は通常2つのステップがある。1つ目は知識を構造化すること、パイプラインを持つこと、エージェントが使用できるもんを持つこと、ビジネスロジックを記述することなどに関することや。

ヘルスケアエージェントの構築例

それらのデータって何や？エージェントが何をすべきかによるんやけど、君のヘルスケアエージェントが例えば健康保険に関する質問に答えるべきやったら、健康保険で何が必須かを学ぶ必要がある。それらの健康保険の全ての概念の間にロジックを持ってくる必要があるし、そんな感じや。

それからエージェントでユーザーができることに基づいていくつかの決定を下すことができるシステムが必要や。結局、エージェントの行動を定義する。最終的に、私が言及したコントロールと柔軟性の間のトレードオフを同時に破ることができるシステムを持つ。特に、君が持ってる現在の情報に基づいて正しい決定を選ぶことができるっちうことや。

十分な情報を持ってへんかったら答えるべきやないかもしれへん。いくつかの決定論的な怒りに従うべきかもしれへん。そやからそれらを定義せなあかん。それは本当にビジネスに関連してて、同時にそれをするための適切な技術を持つことや。

ターゲット顧客層

理想的な顧客プロファイルは誰や？私たちの側では、私が言及したようにハイステークエージェントを持つ人々と本当に働いてる。そやから99.9%が必須で、決定論的なガードレールやそんなもんを置かなあかん。そやからむしろ、規制業界で顧客対応エージェントを持って働いてる大企業や。エージェントが任意の状況で非常に信頼性高く働くべき時はいつでもや。

それは全てのエージェント会社の中で非常にいい差別化要因に聞こえる。そやな。それが最初のポイントで、2つ目は自律システムが必要か、君がやってることをするのにワークフローで十分かっちうことや。確実に自律性が必要やったら、この信頼性やそんなことは理にかなってると思う。

自律性と言うことで、エージェントが何をすべきかを事前に記述することができるっちうことや。そやからプロジェクトに知能をもたらす必要がある。

構築か購入かの戦略判断

AIエージェントのニーズに対して企業は構築すべきか購入すべきか？それは困難な質問や。それに答えるために2つの要素があるかもしれへん。

1つ目は観察で、エージェントの結果を評価するのに最も優れた人々は誰かっちうことや。通常それはエージェントを使用してるビジネスの人々や。エージェントを構築してるITチームに渡したら、エージェントが適切に動作してるかどうかを言うことができへん。テキストやそんなもんについてのメトリクスを持ってへんからな。結局、ビジネスから誰かがそれに関わる必要があるんや。

2つ目のポイントは、自律的な信頼できるシステムが必要やったら、おそらく現在の最先端の制限を克服する必要があるっちうことや。それは強力な機械学習、データサイエンティストチームやそんなもんを必要とする。

そやから確実に社内構築はいいポイントやと思う。ビジネスロジックに近くいることができるからや。でも同時に現在の制限を押し進めるための適切な技術が必要や。そやからこの技術を購入して、会社で自分で統合することができる。ビジネスの近接性やそんなもんを持つことになるからや。

技術購入vs社内開発

チームがそれらの主題で本当に働いてへんなら、購入することが理にかなう。そやから統合技術を持つことになって、知識に関して、ビジネスロジックに関してそんなもんと統合して働く会社と働くことになる。

技術だけを購入することもできるし、それとの統合も購入することができる。3つ目の道は確実に社内で構築することや。でも今日、そんなシステムを社内で構築することの1つの制限は、非常に速く進むことで、AIの古い主題で働くことができへんっちうことや。

そやから確実に最終的にいくつかの戦いを選ばなあかん。正しいやつを選べば確実にそれができるけど、次のホットな主題では君が以前考慮してへん技術が必要になるかもしれへん。そやからタイミングの観点から外部技術を持つことは役に立つことがある。

社内データの重要性

データについてはどうや？社内データについて？企業は独自のデータを持ってるかもしれへんやろ？それが自分たちのもんを構築したい理由の推進力になるかもしれへん。

確実にそやな。君が持ってるかもしれへん通常のデータレイクがあって、エージェントも何か他のもんが必要や。プレイブックやそんなもんみたいな。そやからこれまで現在のシステムに存在してへんかもしれへん何かや。

そやから確実にデータとの近接性が鍵や。それからそれがどう構造化されてるか、データの健全性やそんなもんを見ることや。エージェントはその上でいくつかのもんを必要とするからや。一方で、非常に不完全なデータ、非常に悪くアノテーションされたデータやそんなもんで機能できるシステムもある。

そんなデータで機能するエージェントを構築することが可能なエージェントもある。そやから君が今日会社で持ってるもんによると思う。それはクリーンなデータか、メッシーなデータか。おそらく両方のソリューションがあるけど、今日持ってるもんに基づいて技術的ソリューションを考慮すべきや。

モデルの進化とエージェントの関係

LLMとこれらのモデルがどこに向かってるかについての多くの一般的な認識は、これらのモデルがどんどん賢くなってるっちうことやろ？モデルがより賢くなるという事実により、本番AIエージェントがどんどん簡単になることを期待できるんか、それとも同じことやないんか？

それは正しいポイントやと思うし、基礎モデルやそんなもんと、それらを使って構築できるアプリケーションの間にはまだ巨大なギャップがあると思う。このギャップはいつも存在してきた。

一方では、今日でも非常に有能なモデルがある。例えば、言語モデルは2つのことに非常に優れてる。1つ目は膨大な量のデータを圧縮することや。システムに数兆のトークンを与えることができて、言語モデルを使ってシグナルを取得することができる。2つ目は自然言語の生成や。

基礎モデルとアプリケーションのギャップ

言語理解、言語生成やそんなことに関して非常に有能なモデルを持ってるけど、それらを適用することにギャップがある。それで全ての産業で垂直アプリケーションを構築してる会社をたくさん見るんや。各産業で、その上で垂直エージェントを構築してるスタートアップが数十、数百ある。

研究基礎モデルやそんなもんと、実世界で使われてるもんの間にこのギャップがある。私はこのギャップを埋めるために、この中間にたくさんのスペースがあると思う。

確実にモデルはどんどん賢くなるけど、人々がそれらをどう使うことができるかっちう問題がある。おそらく最初は非常に有能なモデルを持つ大きなテキストラボやそんなもんがあるけど、誰も本番でそれらを使用してへん。そのモデルを提供するのに必要なコンピュートが重すぎるし、それらのモデルの推論に多すぎるコンピュートが必要やし、そんなもんで、それらのモデルを簡単に提供することができへんからや。

モデルがどんどん賢くなるって言う時、おそらくどんどん小さくなることも意味してると思う。各モデルを実行するのに必要なコンピュートは少なくなるけど、一方で、例えば1つのLLMリクエストをする代わりに、同じことのために10や20をすることができるようになるやろう。そやからより正確な答えを得ることができる。

より賢いモデルが必要なだけやない。10や20のリクエストができるなら、おそらくより正確な結果を得ることができるやろう。そやから人々がそんなモデルを使用するのに必要なコンピュートは、結局同じままやと思う。各モデルはより少ないコンピュートを必要とするけど、最終的に同じモデルを複数回呼び出すことになるからや。

垂直化の継続的重要性

そやから、それらの機能モデルと垂直アプリケーションの間のギャップを埋めることは、おそらくまだ課題やと思うし、両者の間の分布と、それらを活用した実際のシステムをどう提供して構築するかはまだ課題や。

課題は予見可能な将来にはおそらくまだ存在するやろうな。AGIに到達するまでは分からへんけど、AGIでも、誰かを雇う時は何かに経験がある人を雇うやろ？そやから人々も同様に垂直化されてる。データサイエンティストは、症状を治療するために医者としてデータサイエンティストを雇わへんやろ？

でもそれは、君がセールスエージェントを構築してるとしたら、セールスパーソンを雇う時、その人は君の会社を知らへんけど、以前に製品を売ったことがあるなら、セールスセンスやそんなもんを持ってるっちうエージェントを設計することで対処できる。

人材雇用との類似性

誰かを雇う時、彼は売り方を知ってるけど君の会社を知らへん。エージェントでも全く同じことができる。推論技術やそんなもん。つまり、例えばセールスセンスを持つエージェント、それから君の会社に関する情報を与えるだけやけど、最初から非常に有能なシステムを持ってるっちうことや。

これらのAIエージェントによって人間が置き換えられる可能性にどんどん近づいてると感じる。それについてどう思う？

私はそう思わへん。自律システムやそんなもんでたくさんのことができると思う。アイデアは明らかに、おそらくより少ない人でより多くのことができるっちうことや。

人間とAIの協働の重要性

デジタルワーカーの物語やそんなもんがある会社があるとしたら、デジタルワーカーを雇って人を解雇する会社と、同じ数のデジタルワーカーを雇うけど同じ人を保持して、デジタルワーカーと人間の間で相乗効果があるから10倍多くのことができる他の会社を取ったとしよう。どちらが競争から脱落するかは君に推測させる。

そやから確実にポジションの組み合わせは少し変わるけど、人間と自律システムやそんなもんの組み合わせは、確実に人を置き換えるよりも良いやろう。君が望むなら、これまでそんなデジタルワーカーやそんなもんを持ってるのは、数ヶ月から数年で競合他社と比較して競争優位性や。持ってへんかったら、単に遅れをとることになる。

エージェントやそんなもんを持ってへん人が単に遅れをとることになる。そやから今は主題を掘り下げて、デジタルワーカーを人間と一緒に働かせることの効果をどう複合させることができるかを見る時や。それらは異なることをやってるけど、それらを複合させることは確実に人を置き換えるよりも多くを提供するより良いソリューションや。

真の自律性への展望

AIエージェントが真に自律的になることはあると思う？そやと思う。自律性はどんどん文化化されてて、Waymoの自動運転車やそんなもんでバレーにいる時、周りのもんをたくさんすることができる。自律システムに関する研究は加速してるし、そんなもんで、私たちがtriple taiでそれに向けてやってることを非常に誇りに思ってる。

多くの状況で私たちはそれに近いと思うし、いくつかの状況ではそうや。そやから確実に、自律システムが次の大きなもんになるやろう。それを楽しみにしてるわ。

それが私の全ての質問や。ありがとう、Yan。本当にこの会話をしてくれて嬉しかった。ありがとう。君との会話は楽しかったで。

たくさん学んだし、全ての情報を共有してくれてありがとう。また今度会おう。そやな、確実に。会おう。どうもありがとう。今夜は。