AI信念関数:絶対的不確実性下での意思決定

本動画は、AIエージェントの数学的・理論的基礎を解説する入門編である。McKinseyが25,000のAIエージェントを導入した一方、Ernst & Youngは少数精鋭のエージェントを採用するという対照的な戦略を例に、AIエージェントの本質的な必要性を問う。LLMとは異なり、AIエージェントはメモリを持ち、ツール使用のための訓練が可能であり、複数のエージェントを並列・逐次的に展開できる点が特徴である。計算理論の観点から、エージェントは部分観測マルコフ決定過程として定式化され、絶対的な不確実性下で適応的最適化を行うシステムとして定義される。センサーノイズや不完全な情報により真の状態を直接観測できない現実世界では、エージェントは信念状態という確率分布を維持し、ベイズフィルタリングによって状態を推定しながら意思決定を行う。本動画はこれらの数学的枠組みを明確にし、次回の「インテリジェントAI委譲」に関する議論への準備を整える。

AI Belief Functions: Deciding Under Absolute Uncertainty

Engines of Intelligence: The Definition and Necessity of AI Agents. Basic mathematical explanations for any CEO of any m...

AIエージェント導入戦略の分岐点
なぜLLMだけでは不十分なのか
AIエージェントの科学的定義
現実世界の複雑性とエージェントの必要性
信念状態の必要性
固定方策の限界と部分観測可能性
ベイズフィルタリングの役割
信念状態による意思決定
具体例:金融市場と医療診断
AIエージェントの正式な定義
LLMとエージェントの違い
エージェントの本質と学習方法
次回予告:インテリジェントAI委譲

AIエージェント導入戦略の分岐点

皆さん、こんにちは。もし誰かがこう言ったらどう思いますか。「うちのグローバル企業には25,000のエージェントがいる」と。これは良いことでしょうか、それとも悪いことでしょうか。

ここに事例があります。McKinseyはBusiness Insiderの記事で25,000のAIエージェントを保有していると述べています。これは2026年2月13日に公開されました。一方、McKinseyのライバル企業であるErnst & Youngは、コンサルタントのために重要な仕事をこなすエージェントは「ほんの一握りしかない」と述べています。

McKinseyには約40,000人の人間の従業員がいて、25,000以上のAIエージェントがいることを考えると、すべての人間に対してAIエージェントが一対一で対応している可能性があることが分かります。それとも、Ernst & Youngのように、すべてのコンサルタントのために重要な仕事をこなす少数のエージェントだけを持つという方向に進むべきでしょうか。

どちらの道が正しいのでしょうか。どちらのCEOが正しくて、どちらのCEOが間違っているのでしょうか。そして、私はここで皆さんの疑問にお答えしたいと思います。シンプルな質問ですよね。「なぜAIエージェントが必要なのか。LLMがあるじゃないか」と。

なぜLLMだけでは不十分なのか

では、このビデオへようこそ。これはどのCEOも理解していないように見える基本的な入門編です。LLMがあります。それなのに、なぜ今さらAIエージェントが必要なのでしょうか。

簡単です。AIエージェントにはメモリがあるからです。そして、ツール呼び出しやツール使用のためにエージェントを訓練できるからです。これは本当に役立ちます。さらに、複数のエージェントを並列、逐次、さまざまな構成で展開できるからです。そして、単一のエージェントでは私のタスクを解決できないからです。

したがって、単一のエージェントは私のタスクをいくつかのサブタスクに分解します。そして、あるエージェントが私のサブタスクの1つを解決し、別のエージェントが別のサブタスクを解決することを期待します。そして全体として、解決策全体が導き出せるようになるのです。

AIエージェントの科学的定義

さて、「これは全くナンセンスだ」と思うかもしれませんね。では、科学的な視点とAIエージェントの定義を見ていきましょう。

計算理論において、エージェントとは環境から観測を受け取り、内部状態を維持し、特定のアクションを選択し、時間経過とともに定義された目的関数を最適化するシステムです。

数学的に正式には、これは部分観測マルコフ決定過程としてモデル化されます。この中には以下の観測可能な変数があります。状態空間、行動空間、観測空間、遷移関数、報酬関数、そして特定の割引因子です。

エージェントは、絶対的不確実性の下で閉ループの適応的最適化を実行します。この「絶対的不確実性」という言葉が最も重要です。そして、私たちはまさにこのための数学的プロセスを開発してきました。

現実世界の複雑性とエージェントの必要性

現実世界の問題に目を向けると、私たちは膨大な状態空間、非線形動態、隠れた要因や隠れた真実があるため部分的な観測可能性しかありません。そして確率的な遷移があります。

高次元システムでは、古典的なルールベースの制御は計算上実行不可能になります。したがって、AIエージェントは統計に基づいた数学的近似ツールであり、正確な計算がほぼ不可能であるか、あるいはあまりにも高価である場合の最適な方策、つまり私が戦略と呼ぶものを近似します。

つまり、私たちは計算複雑性理論について話しているのです。制御理論では、システムの動態は時間とともに変化します。したがって、固定された方策や安定した方策は、5ステップや10ステップ後には次第に最適ではなくなります。

適応的エージェントは、学習ベースの更新、強化学習、メタ学習、模倣学習を通じてこれを解決できます。したがって、エージェントは真の状態を持つ環境と相互作用します。これは素晴らしいことですが、現実世界ではこの特権はありません。

信念状態の必要性

エージェントは、システムの真の状態s(t)を直接観測しません。代わりに、センサーデータ、つまりロボットセンサーを使った観測だけを受け取ります。つまり、数学的には部分観測マルコフ決定過程そのものです。これが時刻tにおける観測の確率です。

では、なぜエージェントには信念状態が必要なのでしょうか。センサーにノイズがあり、情報が不完全だからです。私たちが認識していないシステム内の隠れた変数があります。そして、他のAIエージェントには隠れた意図があり、皆さんはそれについて何も知りませんが、考慮しなければなりません。

ロボットシステムを見てみましょう。ロボットの位置は、センサーノイズによる一定の不確実性を持っています。したがって、ロボットは信念関数、つまり三次元空間における可能な位置に関する分布を持っています。

これがロボットが作業する信念です。これはAI信念の更新と不確実性の円錐の本質的な部分です。ここで、時間ステップにわたるAIエージェントの軌跡は絶対に魅力的なAI研究のトピックですが、シンプルに保ちましょう。

固定方策の限界と部分観測可能性

先ほど申し上げたように、固定方策は次第に最適ではなくなります。したがって、経済システム、生物学的モデリング、気候モデリング、自律ロボティクス、自動運転、サイバーセキュリティ防衛など、どんなことをしたくても、何か別のものが必要になります。

ご存知のように、部分観測可能性は例外ではなく標準です。現実のシステム、現実世界のシステムでは、私たちの確率は1に等しくありません。これは、状態を推測しなければならないことを意味します。

観測o(t)が与えられたときの特定の真の状態s(t)の確率は、例えば0.64といった特定の値です。これは役に立ちません。なぜなら、状態を推測しなければならないからです。

しかし、エージェントは何をするのでしょうか。エージェントは信念分布、つまり確率分布を維持します。信念分布とは、すべての可能な状態sの確率分布です。これは、小さなAIエージェントがこれまでの履歴で観測し、アクションと相互作用として行ってきたすべてのことを条件としています。

ベイズフィルタリングの役割

これはまさにベイズフィルタリングです。時刻tにおける環境の真の状態s(t)と、時刻tにエージェントが受け取った観測o(t)があります。多くの現実のシステムでは、真の状態を直接観測することは決してありません。代わりに、観測は確率的観測モデルによって生成されます。

そう、これは純粋な統計学です。ここで観測o(t)を受け取ったとき、それを生成した可能性のある状態が複数存在する可能性があります。真の単一状態はありません。これは不可能です。したがって、ここにLLM統合のアイデアが美しく入り込んできます。これがAIエージェントの理論全体です。

システムが完全に観測可能であれば、美しいことに、確率は1に等しくなります。つまり、AIエージェントとして持つ各観測が、システムの真の状態を一意に決定することになります。

しかし、現実のシステムでは、確率は1未満です。つまり、1つの観測が複数の状態と互換性があるということです。AIには大きな不確実性があります。どう決定すればよいのでしょうか。私はどこにいるのか。何をすべきなのか。そして、状態を確実に知ることはできません。

そして今、小さなAIが意思決定をしなければなりません。自分がどこにいるのかさえ分かりません。これが私たちが直面する問題だとお分かりいただけるでしょう。したがって、統計と確率分布が必要なのです。観測はシステムの状態を一意に決定しません。

信念状態による意思決定

ロボットシステムが置かれている状態について考えてみましょう。システムの真の状態を直接観測できないが、行動しなければならず、できればエージェントとして最適な方法で行動したい場合、どうすればよいでしょうか。

単純に推測するのです。数学的な推測プロセスがあります。ここにAIエージェントの信念状態があります。そして信念状態とは、これを見て「これはもはや単なる確率ではなく、すべての可能な状態にわたる確率分布だ」と気づくでしょう。

これがAIの信念状態です。真の状態を知る代わりに、AIがこれまでセンサー、ノイズのあるセンサーで特定してきたすべての可能な状態の可能な分布を維持します。

「この正確な情報があれば何が間違う可能性があるのか」と思うかもしれません。さて、ベイズフィルタリングは、時間経過とともに信念状態を更新するための再帰的な方法です。

AIエージェントは環境と相互作用しなければなりません。これはエージェントの定義上そうなっています。最も簡単な方法では、2つのシンプルなステップがあります。予測があります。つまり、時刻t-1における信念と時刻t-1におけるアクションaが与えられたとき、シンプルな数学式で次の状態を予測するだけです。これは、新しい観測を見る前の事前分布です。

そしてステップ2は単純に更新です。今度は、ロボットセンサー、ビジュアル、レーダー、ライダーなどから入ってくるすべてのデータである観測を組み込みます。そしてこれが事後信念です。コーディングは簡単で素晴らしいです。

これは単純にベイズの法則であり、事後信念が得られます。部分観測可能性下での最適制御には、信念状態に基づいて行動するだけで済みます。なぜなら、これが統計的に関連性があることを期待できるからです。これがまさにπ、つまり私たちの方策です。

これは私たちの戦略でもあります。実際、エセリウムとして、部分観測マルコフ決定過程は、特定の統計データが与えられれば、信念状態にわたる完全観測マルコフ決定過程に変換できます。

具体例:金融市場と医療診断

2つの例を挙げましょう。Binanceでは、市場価格を観測しますが、市場レジーム、市場動態、流動性状態などのシステムの真の状態は隠されています。

小さな何かのセットを観測するだけです。したがって、価格と市場レジームが与えられたときの確率は1未満です。そのため、将来を予測しようとするエージェントは、これの隠れた構造を推測しなければならず、隠れた構造を特定できるようにするための訓練データを持っている必要があります。

これはまた、AI機械知能がパターン認識システムであると言う理由でもあります。医療診断についても同様です。医師として症状を観測します。しかし、症状は疾患と等しくありません。したがって、確率は1未満です。

そして、計算理論の観点から見ると、医療診断は疾患の潜在状態に関するベイズ推論です。

したがって、観測は真の状態を一意に決定しません。したがって、真の状態は隠されています。したがって、確率的に推測されなければなりません。他に方法はありません。したがって、AIエージェントは確率分布の正しいセットに関する信念分布を維持しなければなりません。

したがって、最も単純な場合、ベイズフィルタリングが必要です。

AIエージェントの正式な定義

これが、不確実性下でのAIエージェントの意思決定のための数学的構造です。それでは、定義に入りましょう。AIエージェントとは何でしょうか。

もう少し科学的な観点から見ると、AIエージェントとは、時間経過とともに目的を最適化するために、完全な不確実性の下で逐次的意思決定、アクションの実行、将来の予測を行うシステムです。

これは、制御理論、強化学習、意思決定理論を用いた正式な定義です。注意が必要なのは、時間経過とともに最適化する目的がかなり多くのものになり得るということです。なぜなら、人々はここでLLMと次トークン予測の自己回帰的定式化を混同するからです。次のトークンは何か、ということですが、注意してください。これは、環境相互作用と動的関数の下での逐次的意思決定を行うAIエージェントについて話していることとは構造的に完全に異なります。

LLMとエージェントの違い

LLMがエージェントになるのは、環境状態を観測し、環境に影響を与えるアクションを生成し、環境を何らかの方法で更新し、最初のアクション後に新しい観測を受け取り、完全なシステムに関する内部状態と内部理解を更新し、そして隠れた状態と特定のアクションが与えられた方策πを実装するループに組み込まれたときです。これは私が戦略とも呼ぶもので、エージェントが実行することを決定するものです。

もちろん、ここには理論的な区別があることを理解する必要があります。検証可能なパラメータなどによるLLM強化学習訓練があります。注意してください。これは最適方策を近似するためにパラメータを最適化しますが、エージェントでは少し異なります。なぜなら、状態遷移と報酬フィードバックを伴うライブ環境で方策を実行するからです。そして、最終報酬と部分報酬フィードバックがあります。これらを混同しないように注意してください。

そう、統計的および情報的な正則制約の下で、LLMの次トークン予測は、AIモデルに潜在構造をエンコードさせます。これが世界についてのあなたの疑問の1つです。私たちが世界モデルと呼ぶものですが、注意してください。これは自動的にこのLLMをエージェントにするわけではありません。内部世界モデルを持っているというだけで、どの多様体で、どの理論に基づいているのかを問わなければなりません。

したがって、LLMの次トークン予測は、ある程度、理論的な潜在世界モデルを暗黙的に誘導します。世界の構造がテキスト統計に影響を与えるという意味でです。しかし注意してください。私たちはここで次トークン予測におけるテキスト統計について話しているのです。環境との直接的な相互作用について話しているのではありません。

これが欠けています。これは単なる言語的・テキスト的な統計的演習です。これはエージェントではありません。

エージェントの本質と学習方法

一言で言えば、エージェントとは特定の報酬関数を最適化するために実環境で行動するシステムだと言えるでしょう。方策πは、状態または信念分布からアクションへのマッピングです。

そして強化学習は、単純に異なる報酬シグナル、異なる関数からその方策を学習する方法です。しかし、強化学習を使う必要はありません。多くの人が私に尋ねます。「本当に強化学習を使わなければならないのですか」と。いいえ。

教師あり学習があります。ラベル付けされた最適な行動πがあれば、教師あり学習を介して直接方策を訓練できます。強化学習なしで、非常にインテリジェントな行動と呼べるものを生成できます。または、完璧な世界モデル、確率分布があれば、確率そのものがあり、動的計画法、木探索、予測制御を介して最適方策を計算できます。狭い意味での強化学習は必要ありません。ベルマン方程式を直接解くこともできます。

パターン認識に基づく機械知能の継続的学習プロセスには、非常に多くの可能性があります。

次回予告:インテリジェントAI委譲

素晴らしい。これで皆さんは同じレベルの知識に到達しました。皆さんはほぼ専門家です。これがパート1の終わりです。そして今、基礎ができたので、パート2、つまり明日のビデオで新しい研究について話すことができます。

この新しい研究は、インテリジェントAI委譲のための新しい適応フレームワークです。つまり、複数のエージェントによる一連の意思決定が関与します。このビデオの冒頭で述べたように、タスクを割り当て、複雑なタスクをより単純なサブタスクに分解します。つまり、タスク割り当てが含まれます。

そして、これも含まれます。靴下をしっかり履いていてください。エージェント間の権限の移譲です。責任とは何でしょうか。冗談ですか。エージェントのアカウンタビリティです。これは一体何という悪魔的なものでしょうか。

各エージェントのルールと境界に関する明確な仕様について話します。意図の明確さについて話します。なんてことでしょう。そして2つ以上のAI当事者間で信頼を確立するためのメカニズムについて話します。

したがって、今日のビデオは少しレビューでした。エージェントとは何か。信念関数とは何か。なぜ、そしてどのようにして不確実性の下で動作できるのか。数学的枠組みは何か。ベルマン方程式。確率分布とは正確には何で、どの状態についてなのか。環境との相互作用はどうなっているのか。どのような数学的枠組みがあるのか。どのように実装できるのか。どのように統計的に関連する定理を持つことができるのか。その背後にある数学的文献は何か。

そして今、私たちは明日のビデオ、インテリジェントAI委譲についてのビデオに進む準備ができました。少しでも楽しんでいただけたでしょうか。もしかしたら新しい情報があったかもしれません。いずれにせよ、またお会いできることを願っています。