あなたの質問に答えます：因果的世界モデルを持つAI？

この動画は、単純な予測モデルを超えた因果的世界モデルを持つ社会認識人工知能の構築について解説している。物理エンジン、社会エンジン、感情エンジンという3つの専門化された「脳」を持つAIシステムの設計手法を説明し、因子化潜在状態という概念を用いて複雑な現実世界の状況を整理された部分に分解する方法を示している。部分観測マルコフ決定過程と動的ベイジアンネットワークの数学的基盤を活用し、自動運転車と歩行者の相互作用のような複雑な状況での意思決定を可能にするAIエージェントの実現を目指している。

Your Questions answered: AI w/ Causal World Models?

Beyond Prediction: Building Socially-Aware AI with Causal World Models.Today I try to answer the questions from my subsc...

因果的世界モデルを持つ社会認識AIの構築

こんにちは、コミュニティの皆さん。戻ってきてくださって本当に嬉しく思います。今日は知性を構築していきます。私たちは新しい知性の建築家なのです。

もう少し正確に言うと、単純な予測モデルを超越していきます。因果的世界モデルを持つ社会認識人工知能を構築するのです。なぜ社会認識AIに関心を持つべきなのかと思われるかもしれません。

私の前回の動画では、感情が本当にLLMのパフォーマンスを大幅に向上させることをお見せしました。単なるペルソナとしてではなく、非常に具体的な特性を持ってです。

今日もこの質問にお答えします。特定の世界モデルをLLMやエージェントにコーディングする場合、別々の潜在空間を使用するか、統一された潜在空間をコーディングするか、そしてどのようにそれを行うかという質問をしたところ、いくつかの選択肢と説明動画も提供しました。150票のうち71票が説明動画を求めており、これがその答えです。では始めましょう。

AIが現実世界の状況を理解する仕組み

AIが現実世界の状況を理解する必要があると想像してください。最も簡単な方法で行うとすれば、このAIに2つの追加の脳を与えます。物理的な脳と、社会的な事柄のみに注目する社会的な脳です。素晴らしいですね。

ここで因子化潜在状態という用語が出てきます。非常にシンプルな言葉で言えば、隠れた状況を整理された部分に分解することです。

例えば、特定の時間tでの状態がある場合、物理のためのxt、目標のためのgt、エージェントの感情のためのetがあります。これらをどのように因子化できるでしょうか。見てみましょう。

これは単に動的回避ネットワークの因子化です。もちろんフローチャートに過ぎません。実際、これは私が思いつく最も簡単な説明です。これは単に、ある箱の中のもの、例えばすべての物理を含む箱、物理エンジンが、感情のような別の箱のものにどのように影響を与えるかを示すマップです。そして時間の経過とともに感情エンジンがあり、もちろんそれらの箱の間には相互作用があります。

世界モデルの重要性と構築方法

世界モデルは非常に重要になってきており、世界モデルとは何か、どのように構築するか、どのように相互接続されているか、その複雑さ、感情の世界モデルを持つことができるかという質問をよく受けます。

もちろんです。世界モデルは最もシンプルに言えば、AIの想像力です。そして私が想像できることは、単なる物理を超えて、人々を理解し、社会的相互作用、さらには人間の感情までも理解することです。

それらを構築する最良の方法は、いつも行うことです。私たちの小さなAIマシンはそれほど賢くないため、問題の複雑さを整理された部分に分解することで、AIの複雑さを軽減します。因子化が行われ、物理、目標、感情、社会的相互作用などのためのエンジンやボックスを持つことになります。

感情とAIの新たなフロンティア

将来のAIは、より賢く、より安全で、より社会的に認識するエージェントを作ることについてです。私の最後の動画をご覧ください。私たち人間の想像力や、世界がどのように機能するかについての私たちのアイデアと一致した、強力で信頼できる想像力を彼らに与えることです。

皆さんは私の最後の動画について笑うでしょう。感情がエージェントAIの次のフロンティアだという話です。正直言って、私自身もそれを信じるのが難しいのですが、物理に戻りましょう。

私はここにビデオを持っていて、人工知能の核心にあるものは何か、AIが動作する数学的核心は不確実性だということを皆さんにお示ししました。しかし、なぜ、どのように、そして仕事をするすべての手段、媒体は何かという質問に対して、このビデオで説明したのは部分観測マルコフ決定過程だということです。

数学的基盤としての因子化状態空間

これを基礎として構築していきます。数学的空間に少し移動すると、因子化状態空間sがあります。ここで見ることができるように、これは物理的な点から、社会的な点から、その他の感情的な点からの明示的な横断結合をパラメータに持っています。

これは何を意味するでしょうか。因子状態があります。時間tでの潜在状態は、今や単にお示ししたようにxtとgtとetのタプルであり、積空間から引き出されます。

物理空間では、オブジェクトの位置、オブジェクトの速度、オブジェクト状態自体、回転、色などのすべての変数があります。次の空間では社会的または意図的変数、私たちの目標、私たちの役割、私たちの人間の意図があります。そして効果的な変数、優位性やその他の感情的なものがあります。

明示的な横断結合が最も重要な要素です。なぜなら、ダイナミクスと観測モデルは因子間で独立ではなく、すべてのサブステート間に依存関係があるからです。したがって、必要な最もシンプルなモデルは、時間を超えて因子間のエッジによってエンコードされた動的ベイジアンネットワーク（DBN）です。

線形結合とニューラル状態空間

物理と社会、社会と物理、またはその他の組み合わせの間の相互接続を構築する教科書的な方法は、多かれ少なかれ2つあります。

最初の最もシンプルなものは線形ガウス結合です。ここではAのオフ対角ブロックにあり、ブロックスパースなヤコビ行列と閉形式フィルタリングをカルマンとして与えます。美しいです。

より興味深く、柔軟なデータ駆動アプローチのためには、ニューラル状態空間があります。横断入力、グラフメッセージパッシング、多時間スケールを持つ2つの学習関数があり、これらすべてを私の最後のビデオの1つで説明しました。

理解しやすい例を挙げましょう。線形ガウスの場合、歩行者とロボット車があるとします。

ルールAでは、車が人間に1フィート近づくたびに、これは物理です、車と人間の距離を測定できます、歩行者の緊張レベルを5ポイント増加させます。これは社会的要因です。

それらは異なる数学的空間に存在しています。次にルールBがあります。社会空間で10ポイントの緊張を得るたびに、歩行者の歩行速度を時速0.1マイル減少させます。これで物理的特徴を得ました。

この非常にシンプルな例で、これら2つの間に相互接続があることがわかります。それは予測可能で理解しやすいものです。しかし、決定論的システムでどのようなルールが必要かを予測できないより複雑な状況では、あまり柔軟ではありません。

ニューラル解釈の力

ここで私たちのニューラル解釈の力が発揮されます。私たちは「ええ、素晴らしい、でもルールを書きたくない」と言います。ここで追加のミニAIシステムを与え、何千、何万もの訓練データの例を見せます。AIは自分で異なる数学的空間間の相互接続が何であるかを学習します。

AIは今や、車が高速で接近していて夜間である場合（これは物理パラメータです）、人間の歩行者が道路を横断する意図（これは社会的パラメータです）が劇的に低下するという複雑なルールを学習するかもしれません。

しかし、車がヘッドライトを友好的にフラッシュする場合（これが何を意味するにせよ、これは物理パラメータです）、横断する意図が実際に上がり、歩行者はロボット車が人間を検出し、道路を横断したがっていることを認識し、人間の道路横断の意図を理解し、それに応じて行動すると信じて道路を横断するかもしれません。

物理と社会の横断結合

シンプルな部分観測マルコフ決定過程ですが、注意してください。私たちには横断結合されたルールがあり、それらは両方向に作用します。

物理の脳は「人間とロボットはどれくらい離れているか、それぞれがどれくらい速く動いているか」と言います。これらは古典的な物理パラメータです。

社会の脳は他のパラメータを扱います。人間の秘密の隠された意図は何か。私たちはこれを譲歩確率として測定します。はい、もちろん統計です。これは人間が停止してロボットを通すことを計画している可能性を意味します。

この確率、この譲歩確率は本当に多くの要因に依存します。夜間、日中、車の速度、車と人間の距離、その他何でもです。人間の隠れた状態を定義する確率パラメータが数十あり、それらがどのように相互作用するかがわかります。

双方向の影響システム

お話ししたように、両方向があります。物理は社会に影響を与えることができます。ロボットの物理的行動は人間の隠された秘密の意図を変えます。

ルールは、ロボットが近づいたり速く動いたりすると、人間がより注意深くなるため人間の譲歩確率が上がるというものです。普通に聞こえます。

しかし、社会も物理に影響を与えます。人間の秘密の意図は彼らの物理的動きを変えます。ルールは、例えば人間の譲歩確率が高い場合、彼らは物理的に減速して車に優先権を与え、譲歩確率が低い場合、歩き続けるか速度を上げるなどします。

この横断結合は美しいものです。物理世界での行動が社会世界の信念を変え、それがまた物理世界での新しい行動を引き起こすということです。この横断結合は地獄のように複雑になることがあります。

動的ベイジアンネットワークによるシステム実装

しかし、このシステムをどのようにコーディングするのでしょうか。すでに答えをお示ししました。動的ベイジアンネットワークです。

それは何でしょうか。その真の核心において、これは時間の経過とともに一連の確率変数の進化を表現するために設計された確率的グラフィカルモデルです。「やったー、また統計だ。美しくないですか？」と言うかもしれません。はい、もちろんです。

確率的グラフィカルモデル（PGM）は、グラフ、ノード、矢印、エッジの表現を使用して複雑な確率分布を表現するフレームワークです。

何があるでしょうか。ノードがあります。各ノードは確率変数、不確実な何かを表し、確率分布でのみ記述できます。ロボットの位置、部屋の温度、または車のすぐ隣を歩いているこの人の隠れた意図などです。

本当に重要なのはエッジです。ノードAからノードBへのエッジがある場合、それは変数Bが変数Aに直接統計的に依存していることを意味します。相互接続があります。

より簡単に言えば、Aの値を知ることで、ボンドの確率、条件付き確率について直接何かがわかります。動的部分は、DBNをDBNたらしめる特別な要素です。これは特定の時間ステップのシーケンスにわたって展開されるベイジアンネットワークです。

時系列データや確率過程をモデル化するために特別に設計されています。そしてここで私たちはそれを使用できます。

DBNの深層構造と数学的前提

DBNの深層構造を見ると、抽象化を行い一歩下がって理解すると、過去は現在が与えられれば重要ではないというマルコフ仮定でも機能することがわかります。過去のステップに長い依存関係のリストはありません。

2つ目は、定常過程の仮定で、簡単な説明では、自然の物理法則、私たちが見ているシステムの物理は時間の経過とともに変化しないと言います。依存することのない安定した条件があり、それらに頼ることができます。

完全なDBNを指定したい場合に必要なのは、まず事前分布、つまり時間ゼロでのすべての変数の状態についての初期信念を記述するベイジアンネットワーク、そして全シーケンスのベイジアン事前分布です。

そして絶対に美しいものが必要です。それが真の核心である2タイムスライス・ベイジアンネットワークです。

大学で物理学や数学を学んだ方は覚えているでしょう。もちろん遷移モデルを定義するテンプレートです。それをどのように表現するか。それはグラフです。時間tとt+1からのノートを持つグラフであり、理解できます。そして矢印は、特定の時点での変数が時点t+1での変数にどのように影響するかを示します。

これは私たちの世界モデルにとっても必要なすべてです。2タイムスライス・ベイジアンネットワークです。

DBNの科学的本質

DBNの科学的本質は何でしょうか。まず第一に、それは確率変数のシーケンスにわたる結合確率分布を表現します。「ああ、素晴らしい、DBNは何をエンコードするのか？」と言うでしょう。

特定の時間間隔、特定の時間ステップでの時系列にわたる条件付き依存性です。

どのように機能するのでしょうか。遷移モデルを使用します。これが私たちの2TBNで、状態の全シーケンスの確率を定義します。これが必要なすべてです。

美しくないですか？DBNは、例えばロボット車と人間の歩行者の相互作用のような信じられないほど複雑なシステムをモデル化することを可能にします。車は人間がどのような心理状態にあるかを推測しなければなりません。人間は車の前を通ろうとしているのか、それとも人間は「大丈夫、車よ先に行って」と言うだけなのか。

複雑さの分解と実用性

これらすべての未知の仮定、これらすべての隠れた状態を、私たちのAIシステムで計算しなければなりません。それらの真の複雑さに対処することはできません。そこで、それらをよりシンプルな局所条件付き確率に分解します。

これで終わりです。これが不可能であれば、完全なシステムは機能しません。しかし、今日は楽しみたいだけです。

これにより、推論と学習が計算可能になります。そうでなければ、チャンスすらありませんでした。

そして今、A+の質問があると思います。これが部分観測マルコフ決定過程とどのように統合されるのでしょうか。

私たちはそれについてずっと話してきました。それらは美しく連携します。不確実性を伴う複雑な証明を解決するための相補的なツールであり、未定義の時間間隔にわたる不確実性パラメータの伝播を扱います。

最もシンプルなケースでは、部分観測マルコフ決定過程は問題の記述自体であり、この問題記述内のエンジンが私たちのDBNです。

それらは素晴らしく機能します。しかし、もう少し具体的になりましょう。

POMDP とDBNの統合

部分観測マルコフ決定過程には状態があり、行動があります。深く理解したい場合は、これが視聴すべきビデオです。部分観測マルコフ決定過程を本当に理解するためのものです。

そして遷移モデルが必要です。車の場合、ブレーキを踏めば、AIは速度が下がると言います。ヘッドライトを振れば、歩行者の意図が変わるかもしれません。

これがDBNが生きる場所であり、突然DBNが生きてきます。

観測モデルでも、AIは「実際に何が見えるか？」と言い、ロボットは「自分の車の速度とレーダーセンサーやライダーセンサーによる歩行者との距離は見えるが、人間の隠れた意図は見えない」と答えます。

これが部分観測部分です。そうでなければ、それは単なるマルコフ過程になります。

すべての遷移、何が起こるか、原因と結果、複雑な多様体でのマッピング。これがまさに私たちがDBNを持つ理由です。そしてもちろん効果があります。行動が取られ、決定が下された場合、結果として戻ってくる報酬は何か、私の目標は何か。別の報酬モデルがあります。

アイデアを示すために、私たちには部分観測マルコフ決定過程があり、遷移モデル、観測モデル、報酬モデルがあります。

システムの複雑さとDBNの役割

AI側では、複雑さが4倍になるため、物事が本当に興味深くなります。

短い要約をすると、DBN、動的ベイジアンネットワークは遷移モデルと観測モデルの具体的で詳細な実装です。

それは洗練されたエンジンであり、世界が実際にどのように進化するかを計算します。これが私たちに必要なことだからです。最もシンプルな方法では、詳細なフローチャートです。

環境のすべてのノード、距離、オブジェクトの速度、さらにはこの愚かな人間の隠れた意図などがあり、複雑な因果関係を定義するすべてのエラーがあります。

DBNを間違えると、エージェントのすべてが間違ってしまいます。

横断結合の美しさ

この美しい横断結合では、単に連結された数学的空間ではなく、織り込まれた関係があります。DBNに横断結合エッジがあり、これが部分観測マルコフ決定過程の遷移モデルを非常に強力にします。

それらは実際に、ブレーキング（これはロボット車の行動です）と歩行者の意図（人間の状態）が一緒になって、システム全体の次の距離にどのように影響を与えるかを記述します。

3つ目として、DBNは観測モデルもモデル化します。測定可能な距離のような真の隠れ状態から観測距離ノードへのエラーがあり、真の距離が与えられたセンサー読み取りの確率を定義します。

私たちは統計的近似の統計的パターンの深部で動作しています。理解できますね。

実世界への応用例

非常に短く言うと、DBNとは何でしょうか。それは車内の物理学と人間生理学のようなもので、車とその環境の因果関係を計算します。

この環境には人間の歩行者が歩いており、ロボット車と人間歩行者の意図との相互作用があります。

何が起こりうるか？ロボット車はAIが行動として準備すべき速度、距離、その他をどのように変更すべきか。

もう一つの例です。もちろんです。さあ。もう一つの例。なぜダメでしょう？それらがどのように連携するか？信念更新です。

車は特定の信念から始まります。信念とは何でしょうか？お見せした歩行者の意図のような隠れたものを含む、すべての可能な状態の確率分布です。

信念更新のプロセス

コースプランナー（これは部分観測マルコフ決定問題です）は、AIが持つ現在の信念を見て、DBN、特に遷移モデルを使用して、車が加速する、車がブレーキをかける、車が歩行者により近づくなど、可能な各行動でどうなるかをシミュレーションします。

何が起こっても、未来を想像し、多くのシナリオがあり、AIは歩行者の安全と車に何も起こらないための最良の行動を選ぶことを決定します。

車がブレーキをかけることを選ぶとしましょう。車の決定実行です。行動を設定します。私たちは部分観測決定過程の深部にいます。

事故の後、車はセンサー読み取りから周りを見回し、新しいデータストリームを取得して言います。「新しい観測、私はどこにいる、何が起こった、人間の歩行者の行動は何だった、どの状況で何が変わった、私の環境はどのように変化した」

ベイズルールによる魔法

ここで魔法が起こります。DBNの詳細な遷移と観測モデルによって駆動される古い祖父ベイズルールを使用して、新しい更新された事後信念を計算します。

「ブレーキをかけ、環境のこの特定の状態を見たとき、私が観測したことを考慮して歩行者の隠れた意図を更新することを含む、世界の最も可能性の高い新しい状態は何か」と尋ねます。

これは単なる推測作業だと言いたいところですが、もちろんこれは不正確な数学用語です。これは単なる統計的パラメータです。

すべてをまとめる

これらすべてをまとめましょう。複数の人が相互作用し、複数の車が相互作用する環境の状態が複雑で、AIとして多くの相互作用部分で構成されたすべてを計算しなければならない部分観測マルコフ決定過程に必要な動力学を指定するためにDBNを使用します。

複雑さを減らし、任意のAIシステムで計算可能にするために、因子化状態を構築しなければなりません。これは因子化状態とは何か、なぜこれを行うのかというこのビデオの最初に戻る美しいループを閉じます。

最終的な統合システム

したがって、私たちが話したすべての最終要約では、車やその他の衛星におけるあなたの美しいLLM駆動AIエージェントはどのように機能するのでしょうか。

エージェントは、ビデオでお見せした部分観測マルコフ決定過程を使用します。任意のシステムの深い核心は何か？それは、不確実性の下でのAI意思決定のための戦略的ガイドとしての部分観測マルコフ決定フレームワークです。AIには常に不確実性があります。

そして、与えられた環境での未来の次のステップを予測するエキスパートシミュレーターとして、DBNベースの世界モデルを呼び出します。それは単なる観測可能なエンジンではありません。そして反応します。

しかし、このAIは環境の複雑さを考慮して、すべての可能なオブジェクトからすべての可能な行動を計算し、未来の3秒を予測するシミュレーターを実行し、予測したいと考えています。

理論から実践への橋渡し

私たちの部分観測マルコフ決定過程とDBNが提供するのは、エージェントの核心としてLLMが必要とする信頼性と医学的数学的基盤です。単なる理論物理学の段落の要約を話すことを超えて、環境で知的かつ安全に実際に行動することです。

私たちはついに、AIと現実世界との相互作用を達成しました。これが私たちがAIについてずっと話している理由です。現実世界で相互作用するAIが欲しく、安全にし、信頼できるようにし、最も重要なのは信頼に値するものにしなければならないからです。

このビデオを楽しんでいただけたことを願います。皆さんのすべての質問にお答えできたことを願います。もしそうでしたら、チャンネル登録をして、次のビデオでお会いしましょう。