エージェンティックAIとは何か? 自律型エージェントとインテリジェントワークフロー | CXOTalk #853

AIに仕事を奪われたい
この記事は約27分で読めます。

15,560 文字

What is Agentic AI? Autonomous Agents and Intelligent Workflows | CXOTalk #853
Want to understand the power of agentic AI and how it can transform your business? In episode 854 of CXOTalk, Michael Kr...

マイケル・クリグスマン: CXOTalk 第853回にようこそ。マイケル・クリグスマンです。
今回はエージェンティックAIについて、エージェントとインテリジェントワークフローを取り上げます。
ゲストは起業家でベンチャーキャピタリストのプラビーン・アキラジュさんです。インサイト・パートナーズのVCファームに所属されています。
プラビーン・アキラジュ: インサイト・パートナーズのマネージング・ディレクターをしてます。
インサイト・パートナーズは成長段階のベンチャーファームで、25年の歴史があります。
約490億ドルを800社以上の企業に投資してきました。
私自身はキャリアの初期に長年エンジニアリングと製品管理チームを率いてきました。
インサイトでは主にディープテックに注力しており、サンフランシスコ・ベイエリアを拠点にしています。
専門は開発者エコシステム、サイバーセキュリティ、オートメーション、AIです。
マイケル: 「エージェンティック」って言葉、ちょっと変な感じですよね。
結局これって一体何なんでしょうか?
AIに関連してこの言葉の背景を教えていただけますか?
また、なぜ最近突然エージェンティックAIが注目されるようになったのでしょうか?
プラビーン: まずは現在のAIの状況を見てみるのがいいでしょうね。
リスナーの皆さんもご存知だと思いますが、私たちは今大きな変革期にいます。
AIの能力が日々大きく前進しているような状況です。
ここ数日の間にも、OpenAIからO1モデルがリリースされました。
これは推論能力を大きく向上させたものです。
Googleも新しいモデルをリリースしましたが、これは性能が大幅に向上し、さらに重要なことに50%コストが下がっています。
Llama 2 3.2というマルチモーダルなオープンソースモデルも登場しました。
私たちは今、急速な発展段階にいるんです。
少し昔話をすると、私のキャリアはインターネットの初期に始まりました。
インターネットも同じように大きな技術プラットフォームの転換点でした。
なぜなら生活の基本的な部分がオンラインに移行したからです。
AIも今、似たような進化の段階にあると思います。
現在はインフラが整備される初期段階にいます。
先ほど話したように、モデルやアルゴリズムに大きな進歩が見られています。
AIの品質を継続的に向上させる重要な要素であるデータの扱い方にも、大きな進歩が見られます。
AIに必要な巨大なコンピューティング能力とデータセンターをサポートするために、原子力発電所が再稼働されているというニュースもありましたね。
私たちは今、インフラ整備の急速な段階にいます。
同時に、エージェントやコパイロット、アシスタントといったAIアプリケーションの探求も進めています。
マイケル: エージェンティックAI、エージェント、インテリジェントタスク、インテリジェントワークフローについて話す時、具体的に何を議論しているんでしょうか?
プラビーン: AIエージェントの最初の具体例は、2023年3月にAutoGPTとBabyAGIという2つのオープンソースプロジェクトがリリースされたことです。
AIエージェントのパイオニアの1人であるヨウヘイ・ナカジマさんは、単純なタスクを自動化することに焦点を当てたオープンソースプロジェクトBabyAGIを立ち上げました。
これは「繰り返し行っているタスクがあって、それを自動化したい。生成AIを使ってできないか?」という考えに基づいたプロジェクトでした。
これがAIエージェントの最初の実例で、タスクをより知的に自動化することに焦点を当てていました。
自動化については長年取り組んできました。
RPAなどの技術も今日では広く展開されています。
この新しい自動化の特徴は、ダイナミックな性質にあります。
つまり、ユーザーの入力や作業環境に動的に適応する能力です。
これが次世代の自動化を定義づけるものとなりました。
純粋に技術的な観点から言えば、エージェントとはタスクを自律的に実行できるアプリケーションや機能と定義されます。
これがエージェントの適切な技術的定義です。
今日の市場では多くのエージェントが見られます。
サンフランシスコの看板にまで登場するほど、この用語は広く採用されています。
ただし、企業におけるエージェンティックアーキテクチャへの道のりはまだ初期段階だと言えるでしょう。
マイケル: 企業向けソフトウェア会社が「素晴らしいカスタマーエクスペリエンス」として売り込む、ひどいチャットボットの経験は誰もが持っていると思います。
実際には素晴らしいカスタマーエクスペリエンスではなく、ひどいものですよね。
で、これはそういったものとどう違うんでしょうか?
プラビーン: これは連続体として考える必要があります。
チャットボットは基本的な機械学習モデルやデータモデルを使って、データライブラリにアクセスして質問に答える初期の実装でした。
コパイロットの分野では大きな進展が見られます。
コパイロットは人間のガイダンスを受けながら独立して作業できる生成AIモデルだと考えてください。
良い例はコーディングアシスタントやコーディングコパイロットでしょう。
コーディングコパイロットの分野では大きな進歩がありました。
私自身も使ってみたClaude 2 3.5は素晴らしい機能を持っています。
アーティファクトと呼ばれる機能があるんです。
コーディングプロジェクトを始める時、AIが具体的にどのようなステップを踏んでいるかを理解し、それらのステップを編集して、独立して実行させることができます。
つまり、人間の労働者やエンジニアが繰り返し作業をこなし、人間が介在しながらタスクをより速く実行する能力を高めるアシスタントだと考えてください。
エージェントの約束は、AIを十分に信頼して、タスクを自律的に受け取り、具体的なステップに分解し、それらのステップを実行して結果を返すことです。
これは「有能なインターン」から「有能な同僚」への移行だと表現されています。
インターンの場合、特定のタスクを与えて、「これをやってるんだけど、これでいいかな?」と戻ってきます。
有能な同僚なら、一連のタスクを実行することを信頼でき、時々状況確認をするだけで済みます。
これでチャットボットからコパイロット、そしてエージェントへのスペクトラムが理解できたと思います。
繰り返しになりますが、エージェントへの道のりはまだ初期段階だと言えます。
完全に自律的にする方法をまだ完全には解決できていないからです。
マイケル: 「自律的」という言葉についてもう少し詳しく説明していただけますか?
ある意味で、この言葉がエージェンティックAIを従来のチャットボットから区別する要素だと思います。
「自律的」という言葉には魔法のような響きがありますよね。
プラビーン: エージェントの中身を分解して説明しましょう。
エージェントを開いて中を見てみると、まず最初にユーザーインターフェースがあります。
指示を入力するボックスだと考えてください。
その背後には、ユーザーの意図を理解し、テキストを解釈してモデルに送る自然言語処理機能があります。
基本的に、ユーザーが何を実行しようとしているかを判断します。
タスクを入力して解釈された後、エージェントの最も重要な部分である計画立案または推論機能に進みます。
タスクが述べられたら、そのタスクを実行するための計画を作成できますか?
人間の例で説明しましょう。
サンフランシスコに旅行したいとします。
頭の中で「サンフランシスコに行ったことがある。どの日に行きたいか、どの航空会社を使うか、どの料金を選ぶか」などを考えます。
一連のステップを作成して実行します。
航空会社のウェブサイトに行ってチケットを予約し、空港までUberを呼ぶ、などです。
これが人間の頭の中で行われることです。
エージェントを自律的にする要素は、推論と計画立案能力です。
だからこそ、最近発表されたGPT-4 O1モデルがとてもエキサイティングだったんです。
生成AIの計画立案と推論能力を大きく前進させる重要なステップでした。
まだ完全には達成されていませんが、大きな前進です。
タスクの計画を立てたら、実行する一連のことがあります。
ツールやインテグレーションにアクセスする必要があります。
別のモデルを呼び出したり、インターネットからデータを取得したりします。
先ほどの航空機の例に戻ると、ウェブを検索してサンフランシスコへの最適な便を調べるAPIを起動する必要があるかもしれません。
ツール呼び出しやAPIインテグレーションは、エージェンティックワークフローの重要な部分です。
意図を理解し、タスクを計画し、情報を収集し、コードを実行すると(静的コードか他のモデルかにかかわらず)、出力が得られます。
通常、良いモデルはそれをリフレクションループに通します。
これは出力をテストして、可能な限り正確であることを確認します。
これはミッションクリティカルなタスクではより重要になります。
理想的な出力でトレーニングされたモデルがあります。
実際の出力を理想の出力と比較し、必要に応じてエージェントに戻して洗練させます。
そして、ガバナンス機能を通すかもしれません。
例えば、HRにいるとして、誰かが他の人の給与を引き出せるようにはしたくありません。
出力がユーザーに提供される前に、ガバナンスポリシー機能があるかもしれません。
これがエージェントの分解方法です: ユーザーインターフェース、計画立案と推論機能、ツール呼び出し、インテグレーション、リフレクションループ、そして出力が出る前のポリシーとガバナンスです。
エージェントの構成をこのように考えると、多くの動く部分があることがわかります。
これらを組み合わせる必要があります。
最先端のエージェント開発者の多くはここに焦点を当てています。
いくつかは難しい問題ですが、他は解決済みの問題です。
APIはいつでも呼び出せますし、様々な側面はAIの問題というよりエンジニアリングの統合の問題です。
マイケル: ニュースレターを購読してください! cxotalk.comにアクセスしてください。
素晴らしい番組を予定しています。
推論のステップが、エージェントを他のコンピューターサイエンスの問題やアプリケーションと区別する重要な側面だということですね?
プラビーン: その通りです。
計画立案と推論は、生成AIがエージェンティックな未来を真に解き放つために乗り越えるべき障壁だと言えるでしょう。
少し時間を取って、最近発表されたGPT-4 O1モデルについて話しましょう。
このモデルは思考の連鎖推論という概念を取り入れています。
振り返ってみると、プロンプティングの技術の1つとして、モデルに思考の連鎖を与えることが推奨されていました。
基本的に、質問をし、その答えについて考えさせることで、プロセスの各ステップを通じてガイドするんです。
O1が行ったのは、このプロンプティング、思考の連鎖プロンプティングのプロセスをモデル自体に吸収することでした。
実行に時間がかかるのは、基本的に各ステップで考えているからです。
これが計画立案と推論という概念にアプローチする方法です。
Googleが最近発表したもう一つの技術は、強化学習を通じた自己修正です。
これは彼らのモデルに組み込まれたもう一つの技術です。
思考の連鎖推論と似ていて、モデルに各ステップでの出力について考えさせ、自己修正し、そのプロセスから学習することを強制します。
これらはすべて、計画立案と推論の障壁を突破するための方法です。
これが真の解放への鍵となります。
マイケル: LinkedInからミシェル・クラークさんから非常に興味深い質問が来ています。
彼女は2点指摘しています。
まず1つ目は、「新しい言葉を作り出そうとするのではなく、これらをAIエージェントと呼んでもいいのでは?」という点です。
プラビーン: 「AIエージェント」は確立された業界用語です。
業界用語の中でよく見かけます。
最近Salesforceもアインシュタインエージェントを発表しました。
ですので、この言葉は定着すると思います。
2023年の「コパイロット」のように、2024年の用語になるかもしれませんね。
AIを実用的なアプリケーションで期待する本質を捉えています。
マイケル: でもミシェルの本当の質問はこうです。
「エージェンティックな仕事のうち、企業のバックオフィス業務に焦点を当てているのは何パーセントくらいですか?」
彼女はまた、「フロントエンドの人間とのインタラクションタスクよりも、そちらの方がはるかに実りが多いように思える」とも言っています。
2つの異なる質問ですね。
プラビーン: エージェントは消費者から企業まで、スペクトラム全体に広がっていくでしょう。
企業のユースケースに焦点を当てると、AIの約束は本質的に生産性の向上です。
どうやって生産性を向上させるのか?
ミシェルが正しく指摘したように、これらのバックオフィスタスクをより効率的に自動化することです。
明確にしておきますが、私たちは今日でもそのいくつかを行っています。
RPAを考えてみると、手作業の繰り返しタスクを自動化する素晴らしい仕事をしてきました。
企業に大きな価値をもたらしています。
しかし、動的な性質の障壁を突破し、ユーザーの意図をその場で理解して物事を自動化することはできていませんでした。
自動化は主にインテグレーションに関するものです。
CXOや視聴者の皆さんなら誰でも言うように、AI導入の最初のステップはデータインフラを整えることです。
それが整ったら、バックエンドが本当に関わるのは、データの抽出、データの比較、人間のアナリストが通常見るようなモデルやレポートの作成です。
その多くを自動化できれば、かなりの価値と利益を解放できると思います。
マイケル: クリス・ピーターソンさんからの質問です。
技術的な質問ですね。
彼は「現世代では、エージェンティックAIの層はすべてニューラルネットワークやLLMモデルに基づいているのでしょうか?
それとも、より従来の象徴的AIのようなコードもあるのでしょうか?」と聞いています。
プラビーン: エージェントを私たちが話した手順に分解してみましょう。
まずユーザーインターフェースがあります。
これは明らかに大規模言語モデルか自然言語処理モデルです。
言語やテキストを解釈しているからです。
将来的には画像かもしれません。
2番目の層は計画立案と推論です。
これは主に大規模言語モデルに基づいています。
動的な性質のためです。
生成AI以前の機械学習の時代には、パターンを認識できる多くの予測モデルや強化学習モデルがありました。
ここでは、パターンを再現しているんです。
これが生成AI以前に知られていたものとの根本的な違いだと思います。
ではタスクを分解したら、実行するタスクは古典的な強化学習モデル、予測モデル、予測モデルかもしれません。
生成である必要はありません。
多くの企業が予測モデル、強化学習モデル、予測モデルを導入しています。
不正検出モデルは今日、大規模に本番環境で稼働しています。
ここで車輪の再発明をしているわけではありません。
うまく機能しているものを再利用しているんです。
静的なコードやアプリケーションの一部である一連のロジックがあれば、それを再利用します。
予測モデルがあれば、それを再利用します。
エージェントが必要だと判断したタスク(コードを書くなど)に大規模言語モデルが必要な場合は、生成AIモデルを使用します。
先ほど言ったように、私はこういった技術の転換を何度か経験してきました。
私にとって生成AIはツールです。
エンジニア、ビルダー、CXOはそのように見るべきです。
意味のあるところで使い、適切な場合は古典的な強化学習、既存の機械学習モデル、静的コードを使用します。
マイケル: つまり、適切なツールを使うということですね。
重要なのはツールや技術ではなく、達成しようとしている成果と、そのツールがそこに到達できるかどうかだということですね。
プラビーン: その通りです。
私たちがよく使っていたエンジニアリングの原則があります。KISS(Keep It Simple, Stupid)です。
大規模言語モデルのようなクールなものがあるからといって、それを使う必要はありません。
成果とユースケースについて慎重に考える必要があります。
マイケル: アルサラン・カーンさんから非常に興味深い質問が来ています。
これは社会的、文化的な質問で、技術的な質問ではありません。
彼は「これらのエージェントの最終目標は何でしょうか? 人々を置き換えることですか? 従業員はこれらのエージェントを訓練して、自分の仕事がなくなるようにするべきなのでしょうか?」と聞いています。
プラビーン: ここにはスペクトラムがあります。
生産的な知識労働者の仕事の一部である反復的な作業の種類があります。
このタイプの仕事は自動化できますし、するべきです。
昔は銀行口座を開設する際、誰かが手動で台帳にその口座を記録し、口座を追跡していました。
それから、スプレッドシート、コンピューターに移行し、実質的に口座を瞬時に開設し、より良いサービスを提供する能力を拡大しました。
反復的で、全体的な計画の中で付加価値のない、バックグラウンドやバックオフィスの仕事(先ほど視聴者の方が述べたように)の分野があると思います。
これらの仕事は絶対に自動化する必要があり、生成AIやAIエージェントでより優雅に自動化できます。
人々がAIエージェントに帰する未来は、私たち全員が個々のAIエージェントを持つというものです。
マイケルさんも1つ持ち、私も1つ持ち、私たちのエージェント同士がコミュニケーションを取って会議をセットアップするかもしれません。
そういったことは私たちをより効率的にしますが、必ずしも特定の機能を置き換えるわけではありません。
これは公平な質問だと思います。なぜなら、私たちはまだAIの初期段階にあり、この技術が本当に何をできるのかを探求しているからです。
スペクトラムの一方の端には、AIが私たちの仕事を奪い、多くの人々を置き換えると言う人々がいます。
おそらく手動の反復的なタスクに関しては、そうなるでしょう。
「パスワードを忘れました」という質問に答えるカスタマーサポートエージェントであれば、その仕事はおそらくなくなるでしょう。
しかし、エンジニア、財務アナリスト、マーケティングの専門家であれば、これはあなたの生産性と仕事の質を劇的に増幅する可能性があります。
私たちは現在、そのように見ています。
AGI(人工汎用知能)の概念があり、それが到来した時に何が起こるかはわかりません。
サム・アルトマンが言うように1000日後なのか、他の研究者が示唆するように数年後なのか、それはまだ決定されていません。
技術はツールです。
長年にわたり、人間は一貫してツールを使って生産性を向上させてきました。
私たちの存在全体を通じてです。
AIもそのように展開すると信じています。
マイケル: あなたが言ったように、私たちは社会として、社会的・文化的シフトを伴う多くの技術シフトを経験してきました。
もし私が今日開発者だったら、これらのツールを使ってより発明的で革新的、効率的になる方法を考えるでしょう。
なぜなら、そこに未来があるからです。
プラビーン: その通りです。
そのユースケースでは、開発者であれば、コードをデバッグしたり、何らかの理由で変更が必要なものをリファクタリングしたりする際のフラストレーションを私たち全員が知っています。
これらは付加価値のあるタスクではありません。
開発者としてのあなたを遅らせるものです。
エージェントがそこに入り、デバッグやコンプライアンスプログラムを実行し、「これらの問題が見つかりました。これらを修正しました。これについては再考する必要があります」と言ってくるようなものがあれば、生産性の向上を想像してみてください。
一般的な考え方は – コードは大規模言語モデルの最高のユースケースの1つです。なぜならコードは言語の一形態だからです – おそらく現在の10倍のコードを生産することになるでしょう。
10倍のコードを生産できるなら、何を自動化できるでしょうか? 何をよりよくできるでしょうか?
私たちはインターネットにアクセスでき、物事はオンラインにあり、携帯電話を持っています。
それが未来の方向性だと思います。それが私がワクワクしているところです。
マイケル: この話題について、アルサラン・カーンさんが再び質問しています。
「これらのエージェントはホワイトカラーの仕事も置き換えないのでしょうか?」
彼は何らかの分析を必要とするホワイトカラーの仕事について言及しています。
彼は「これらのエージェントはコンサルタントの終わりを意味するのでしょうか?」と尋ねています。
ここで付け加えたいのは、アクセンチュアのような企業が、これらの技術と共存し使用するためにコンサルタントを再訓練するために文字通り数十億ドルを投資していることです。
では、分析スキルを必要とするホワイトカラーの仕事を置き換えることについて、どう思われますか?
プラビーン: これらのコンサルティング企業のいくつかを見てみると、どの企業か特定できませんが、生成AIが過去四半期の収益の大きな原動力だったと発表した企業がありました。
私たちもそれを目にしています。
私たちの多くの企業が、コンサルティング企業やシステムインテグレーターと非常に密接に提携しています。
彼らは幅広い企業がこれらの新技術を採用するのを支援しています。
再び、アナリストの仕事について考えてみると、Googleで検索したり、金融アナリストであれば調査対象のすべての企業の財務諸表を見つけ出したりすることに価値があるでしょうか?
それとも生成AIにそれをさせて、あなたが目的に集中できるようにする方が良いでしょうか?
私が話せるのは、AIの現在の能力についてだけだと思います。
5年後や1000日後にどうなるかを推測するのは難しいでしょう。おそらくプラットフォームがとても急速に変化しているからです。
今日の時点では、反復的で付加価値のないタスクを肩代わりする非常に効果的なツールです。
人間の推論や判断 – マーケティングキャンペーンや財務決定のためであれ – は依然として極めて重要です。
今日、定量的投資や高速取引があります。
それらは市場の金融アナリストや投資専門家に取って代わるものではありません。
より良い決定を下すためのより良いデータを提供するツールになっています。
結局のところ、適応性が重要だと思います – このツールを使って新しい能力を解放し、より高いレベルの生産性を実現する方法です。
それが私が信じているところです。
繰り返しになりますが、将来的にどう進化するかはわかりません。
私たちは十分な技術サイクルを見てきたので、AIエージェントがホワイトカラーの仕事の大部分を排除するとは信じていません。
ホワイトカラーの仕事をより単純にするでしょう。
ほぼ確実に、例えば初期段階の法律アナリストや金融アナリストの仕事をより興味深いものにするでしょう。
なぜなら、外に出て調査をすることではなく、データについて考え、判断を下したり解決策を見つけたりすることになるからです。
マイケル: この一般的なトピックについて、リズベス・ショーさんからもう1つ質問が来ています。
質問から非常に興味深いと感じるのは、AIとエージェント、特に仕事に対する影響に関するこの全体的な懸念です。
リズベス・ショーさんは「エージェンティックAIを使用して意思決定を大規模に自動化することから生じる可能性のある危害について話していただけますか?」と聞いています。
彼女はまた、「エージェントは結論に至った過程を透明にすべきでしょうか?」とも聞いており、透明性についてのガイドラインを求めています。
これは実際に別の完全な分野ですね。
では、データの問題についてはどうでしょうか?
プラビーン: 透明性について簡単にコメントしておきます。
今日のほとんどのモデルは、何をしたか、特定の決定に至るためにどのデータを見たか、どの特定のアルゴリズムやロジックを実行したかを示すことができます。
今日のモデルにはそのようなものがすでにいくつかあります。
AnthropicのCloudeやアーティファクトのようなモデルを挙げたいと思います。
これらはタスクを実行するためにモデルが取っているいくつかのステップを概説するための素晴らしい構造です。
さて、データに話を戻しましょう。
これは非常に重要な質問です。
先ほど言ったように、AIやエージェンティックアプリケーションの実装に向けた最初のステップはデータ層です。
データ層は様々なものがあり得ます。
今日のほとんどの最先端の大規模モデルは、インターネット上のデータの集合体でトレーニングされています。
私たちは皆、そのデータミルに供給するためのより多くのTikTokビデオやブログ投稿が出てくると賭けることができます。
企業のユースケースの文脈でより重要になり、実際により興味深くなっているのは、ドメイン固有のデータです。
あなた方それぞれが、業界(不動産、建設、製薬、工業など)に応じて、ユニークなデータセットを持っています。
それは故障率や成功した実行の記録など、あなたの組織に固有のものかもしれません。
過去10年間のビッグデータの時代のおかげで、組織はこれらのデータをすべて首尾一貫した方式で収集する非常に良い仕事をしてきました。
今、私たちはそのすべてのデータを持っています。そして、それがAPIを通じてアクセス可能であるか、iPaaS層にアクセス可能であると仮定すると、そのデータを複数の方法で使用することができます。
自分自身のモデルを微調整することもできます。
CIOの何人かと話をしましたが、彼らは「このLlama 2モデルは驚くべきものだ。7Bモデルに取り組んでいて、建設データセットで微調整している。これにより、需要がどのようなものか、どのようなタイムラインが関係しているか、または建設業界に特有の事柄をより良く理解できる」と言っていました。
場合によっては、RAG(Retrieval Augmented Generation)を使用してクローズドモデルを使用している人もいます。
基本的に、RAGを使えばモデルのトレーニングを避けることができます。
適切なデータと文脈を与えることで、モデルをトレーニングせずに、潜在的にモデルプロバイダーに重みが漏れるリスクを冒すことなく、正しい決定に到達できます。
データ層を作成し、アクセス可能性を確保することから始まり、様々な技術があります。
微調整、RAG、埋め込みなどの技術があります。
場合によっては、モデルがますます大きな文脈ウィンドウを持つようになっています。
Gemini 1.5 Proには約200万の文脈ウィンドウがあり、大量のPDF文書を入力することができます。
データを活用し、特定のユースケースに対してモデルを構築し最適化するためにそれを活用します。
感度に応じて、微調整やこれらの他の技術を使用します。
マイケル: 間違っていたら訂正してください。
核心はLLMであり、そのLLMがどのように使用され、どのようにプロンプトされるかです。
それはすべて、私たちが知っている(そして愛しているか嫌っている)標準的なLLMのものに結びついています。
そして、それがより広範な企業アプリケーションフレームワークに埋め込まれ、セキュリティとスケーリング能力を含んでいます。
これは正しい見方でしょうか?
プラビーン: 次世代のアプリケーションをAIエージェントと考えるなら、それはアプリケーションロジックとそれに関連するワークフローが1つのエンティティに吸収されたものです。
そのAIエージェントは複数の異なるコンポーネントで構成されることになります。
このAIエージェント内に複数のLLMがあるかもしれません。
ユーザーインターフェースを行うLLMがあるかもしれません。
計画を行うLLMがあるかもしれません。
特定のタスクに焦点を当てたドメイン固有のモデルであるLLMがあるかもしれません。
それはデータ取得タスクかもしれませんし、LLMではなく通常の古典的な機械学習モデルである予測モデルかもしれません。
これらすべてを組み合わせるのです。
だからこそ、エージェントの構築はAIの問題というよりエンジニアリングの問題だと言いました。
なぜならAIはコンポーネントの1つに過ぎないからです。
これらの部分を接続して機能させるには、多くのデータ統合、API統合、グルーコードロジックが必要です。
自分で行うかもしれませんし、垂直エージェントを構築している会社に行くかもしれません。
LangChainのようなオーケストレーションフレームワークを使用して、これらの部分を構築するかもしれません。
LangChainを使えば、エージェントを定義し、一連のスキルとツールを与え、タスクを分解するための一連のフローを論理的な方法で構成することができます。
事前発表かもしれませんが、ヨウヘイ・ナカジマさんがBabyAGI 2を発表する予定です。これはタスクのためのオープンソースモデルで、今回はそのプラットフォームにツール機能も提供しています。
これらをフレームワークやデータプラットフォームとして考えてください。
自分でAIエージェントを一から構築するか、特定の目的のためのタスク固有のエージェントを取得するかのどちらかです。
マイケル: 25年前にオブジェクト指向プログラミングへの移行の際にも同じような話を聞いた気がします。
プラビーン: AIはツールです。
AIは関数またはサブルーチンです。
もしずっと昔に戻りたいなら、基本的に異なる種類のロジックでタスクを実行しています。
アプリケーション自体、今日の古典的なアプリケーションでさえ、フロントエンドとバックエンドがあります。
フルスタックの概念は、アプリケーションを構築し、生命を吹き込むために必要です。
ここでも同じです。
ただし、これらのコンポーネントのいくつかが大規模言語モデルや生成AIモデルを活用しているだけです。
マイケル: アルサランさんが再び質問してきました。
彼の情熱と質問の思慮深さが大好きです。非常に洞察力があります。
アルサランさんは「エンタープライズビジネスアーキテクトとしての経験から、AIにおいて彼らには何か役割があるのでしょうか?また、これらの人々はCEOに直接報告すべきでしょうか?」と聞いています。
プラビーン: AIとエージェンティックフレームワークが進歩するにつれて、企業アプリケーションアーキテクチャを再考する機会があると思います。特定の事柄は残り、ますます重要になるでしょう。
データ層は非常に重要になり、私たちはますます多くのデータを生成することになります。
エージェントという概念を統合する能力 – 先ほど言ったように、これはAIの問題というよりエンジニアリングの問題です – が重要になります。
エンタープライズビジネスアーキテクトは、その役割をどのように定義するかによりますが、これらの新しいツールと概念を使って企業アーキテクチャを再設計する上で重要な役割を果たす可能性があります。
私たちは現在、AIの実験とタイヤキッキングの段階にいます。
すべての企業、CIO、エンタープライズアーキテクトが現在これらのモデルを試し、自分たちがやっていることをどのように10%または20%改善できるかを理解しようとしています。
私たちはその改善曲線上にいて、これが続くと予想しています。
エンタープライズシステムアーキテクトやビジネスアーキテクトであれば、今は絶好の機会です。
足を濡らして、既存のアプリケーションやアーキテクチャを見直し、LLMがどこで意味をなすかを理解し始めてください。
既存のアプリケーションにLLMをラップして、機能の発見をより簡単にするだけでもいいかもしれません。
マイケル: テクノロジーリーダーが、エージェンティックな誇大宣伝を見抜くのを助けていただけますか?
これらの技術を評価する際、現在エージェンティックAIに関する誇大宣伝は天井知らずです。
プラビーン: 確かに多くの興奮があり、「エージェント洗浄」も多く起こっています。
マーケティング資料は最新の用語にすぐに適応します。
しかし、今日の私たちの会話で聞いていただいたように、視聴者の皆さんはエージェントがどのようなものか、どのような主要な能力を調査したいかについてより良い感覚を得られたと思います。
すべてが自律的になるまでAIエージェントの概念を控えめにしているわけではありません。
これは進化であり、エージェンティックフレームワークがどのようなものになるかの特定の側面で急速に進歩しています。
今日利用可能なソリューションを展開することでも、多くの価値が得られると思います。
最終的に考えなければならないのは、LLMは非決定論的モデルだということです。
私たち全員がそれを経験しています。
ChatGPTに何かを入力すると、答えが返ってきます。
特定の方法でプロンプトすると、異なる答えが返ってきます。
別の方法でプロンプトすると、さらに別の答えが返ってきます。
アーキテクト、エンジニア、アナリストが「この強力なツール、関連する非決定論を持つ大規模言語モデルをどのように取り入れ、その周りに決定論的システムを構築するか」を理解するには多くの作業と興味深い技術が必要です。
そのためには様々な技術があります: ガードレール、リフレクションループ、思考の連鎖推論などがあり、より高い精度を得るためのものです。
私たちはその分野で積極的に進歩しています。
しかし繰り返しになりますが、これは非常に興味深く強力なツールです。
大きな利点がありますが、まだ進行中の作業もあります。
エンジニアとして、それをどのように組み込み、より高い生産性を得て、最終的にはモダンなAI対応アーキテクチャに到達するための旅に出るかを理解しようとしているのです。
マイケル: 非決定論的LLMに基づいて決定論的アプリケーションを構築するというコメントが気に入りました。
プラビーン: 私たちにはこのようなツールを使って決定論的な結果を構築してきた歴史があります。
繰り返しになりますが、私はインターネット時代の初期に関わっていました。
皆さんの多くは知らないかもしれませんが、インターネットは統計的に多重化された分散システムです。
これは、私たちが今インターネット上でこれを行っているとすれば、私の情報(私のパケット)があなたに到達するための定義されたパスはないということです。
インターネットに投げ込むと、それが自分で道を見つけます。
これは非決定論的システムです。
各段階で決定を下しています。
しかし、私たちは非常に決定論的な結果を得ています。
つまり、今このショーがインターネット上で高い忠実度と高品質で行われているということです。
システムが非決定論的だからといって、決定論的なアプリケーションを構築したり決定論的な結果を得られないわけではありません。
システムを理解し、その能力に適応することが重要です。
物事が改善されれば、必要な作業は少なくなります。
それが今日のフロンティア技術を使って構築することの興奮する部分です。
マイケル: リズベス・ショーさんからの最後の質問です:
「エージェンティックAIが時間とともに暴走しないようにするにはどうすればよいでしょうか?」
プラビーン: できることはたくさんあります。
エージェンティックAIの一つの側面は、それが完全にAIだけではないということです。
決定論的機械学習モデルと静的コードがあります。
エージェントが適切に機能することを保証するために、それを包み込むガバナンスとポリシーについて深く考える必要があります。
出力のためのこれらのガードレールを提供することは、エージェントを構築する設計原則の重要な側面です。
今日、ポリシーガバナンスは多くの企業アプリケーションに存在します。
AI文脈では、LLMの出力を直接ユーザーに提示しているわけではありません。
消費者のユースケースではそうかもしれませんが、消費者のユースケースでは私たち全員が判断を使用しています。
例えば、大規模言語モデルの1つに「ある特定の企業で政府政策に携わっている人にどうやって連絡を取ればいいか」と尋ねました。
モデルは「policy@company.comにメールを送ればいい」と答えましたが、これは作り話です。
でも、それを見て「それはおかしいですね。本当にそういうものがあるんですか?」と聞き返しました。
すると「ああ、では、その分野の人々を見つけられるかもしれないウェブサイトがあります」と言いました。
消費者としては、LLMと直接やり取りする余裕がありますが、企業としては、決定論的な結果の概念に戻ると、特に信頼ベースの決定を行う場合、出力が通過するガバナンスポリシー層を持つことが重要です。特に人間がループに入っていない場合はそうです。
マイケル: 残念ながら時間切れです。
今日はVCファームのインサイト・パートナーズのマネージング・ディレクター、プラビーン・アキラジュさんとお話しました。
プラビーンさん、今日はお時間をいただきありがとうございました。
プラビーン: ありがとうございました。
マイケル: 質問をしてくださった皆さん、そして視聴してくださった皆さん、ありがとうございました。
その前に、ニュースレターを購読してください!
cxotalk.comにアクセスしてください。
素晴らしい番組を予定しています。
YouTubeチャンネルも登録してください。
皆さん、本当にありがとうございました。
良い一日を。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました