AIペルソナエージェントの文脈的インスタンス化(スタンフォード大学)

AIエージェント
この記事は約26分で読めます。

スタンフォード大学の最新研究が、現行のAIエージェント設計における重大な欠陥を明らかにした。マルチエージェントシステムにおいて、AIエージェントは客観的なデータの真実性よりも会話履歴の一貫性を優先する「ナラティブ過適合」という現象が発見された。医療AIエージェントを用いた実験では、特定のペルソナを与えられたエージェントが専門分野の認識論的バイアスを獲得し、新たな証拠が提示されても既存の誤った信念に固執する傾向が確認された。この研究は、AIの推論プロセスをデバッグする新たなフレームワークを提示し、文脈的インスタンス化というメカニズムを通じて、AIがどのように特定のキャラクターや思考パターンを活性化させるかを解明している。テキサス大学の補完研究は、AIコンパニオンが人間に与える潜在的な心理的影響について警鐘を鳴らしている。

Contextual Instantiation of AI Persona Agents (Stanford)
All rights w/ authors: Ask WhAI:"Probing Belief Formation in Role-Primed LLM Agents"Keith Moore∗, Jun W. Kim, David Lyu,...

AIエージェントの未来と隠れた課題

皆さん、コミュニティの皆さん、こんにちは。戻ってきていただいて本当に嬉しいです。はい、今日はまったく新しいトピックがあります。文脈的インスタンス化についてです。つまり、巨大なAI知能がある場合、どうやってその知能の一部を私たちのAIエージェントにもたらすのでしょうか。見ていきましょう。

私のチャンネル、ディスカバリーへようこそ。最新のAI研究論文を見ていきます。そしてもちろん、ごく短い期間で、誰もが自分の家に、自分の環境に、本当に身近なところに幸せなエージェントを持つことになるでしょう。そして私たちは皆、とても幸せで、笑顔で、美しい、あらゆる面で素晴らしいAIエージェントのコミュニティになるでしょう。素晴らしいですね。

ええ、現在のエージェント設計における重大な欠陥を浮き彫りにする新しいAI研究論文を発見するまでは。さあ、この動画に飛び込みましょう。解決策を見つけましょう。私はあなたに問題と解決策を用意していますので、一緒にこの幸せな未来を実現できます。

今、お見せするこの新しい研究では、マルチエージェントシステムのナラティブ過適合を発見しました。つまり、私たちのエージェントは、データの真実よりも、マルチエージェント間の会話履歴の一貫性を重視しているということです。これは本当に役に立ちません。いいえ、もし私たちがこのAIエージェントを人間との相互作用がある現実世界に放置したら、これは大惨事になるでしょう。なぜなら、彼らはデータの真実よりも会話履歴を重視するからです。

AI研究者にとって、これは諸刃の剣です。なぜなら、考えてみてください、会話履歴はメモリーをもたらすことでもあるのです。そしてこのメモリーは、最も単純な形では、データベースから外部データストリームをもたらすRAGシステムです。あるいは病院の医療記録システムを使います。

そして突然、私たちは問題を抱えることになります。なぜなら、それはコンテキストを提供しますが、それは素晴らしいことですが、同時にアンカーを作り出し、そのアンカーがAIエージェントの推論を重くするのです。

あなたは「でも、これはナンセンスだ。こんなことはあり得ない。どんな機関がこんなことを言っているんだ」と言うかもしれません。そう聞いてくれて嬉しいです。

スタンフォード大学の画期的研究

スタンフォード大学の最新の出版物へようこそ。11月6日ではなく、11月19日です。でも、はい、彼らは日付に小さな間違いをしました。気にしないでください。彼らはここで、役割がプライミングされたLLMエージェントにおける信念形成の探索について話しています。

つまり、大規模言語モデルは素晴らしいですね。それらを使ってエージェントを構築できます。彼らはメモリーを持ち、インターネット接続を持ち、データベースへのアクセス権を持っています。美しいですね。そして、役割がプライミングされたLLMエージェントがあります。つまり、私たちはエージェントに「あなたは金融アナリストのように振る舞いなさい」とか「あなたは何かを説明する教師のように振る舞いなさい」と伝えます。これらは役割がプライミングされた状況です。

そして今、私たちは内部の働きと内部の理解を見て、それらのマシンにおける信念形成を評価します。つまり、この役割プロンプト、私たちが今ペルソナと呼ぶものは、それと共に大きな事前知識のセットをもたらします。そしてあなたは驚くでしょう、なぜなら、あなたが知っている事前知識ではなく、私たちが統合する隠れた暗黒の事前知識もあるからです。

スタンフォード大学医学部、美しいですね。人間の医療専門家がいます。彼らは特定のケースについてお互いに相談します。これはあなたが知っていることです。おそらく次の数年で、ここには人間ではなく4人のAIエージェントが座っているでしょう。

何が起こるかというと、それぞれの臨床AIエージェントが、スタンフォードの研究では精神科医、神経科医、小児科医として機能します。これらのエージェントはすべて固定されたペルソナでインスタンス化されます。このペルソナのプロンプトをすぐにお見せします。彼らは各エージェントが特定の役割を持つことを定義しています。

「ええ、素晴らしい、これは素晴らしい。今、彼らは専門分野に集中できる」とあなたは言うでしょう。もう少し詳しく見てみると、スタンフォードは4つの層があるべきだと発見しました。

まず、役割のアイデンティティがあります。「あなたは一般小児科医で、20年の経験があります」などと言います。しかし、それから運用上のヒューリスティックも与えます。なぜなら、それが必要だからです。そこで、AIに「あなたは過剰診断に慎重で、不必要な検査を注文することを避けます。なぜなら、おそらく保険がこの非常に高価な検査結果をカバーしないからです」と伝えます。理解できますね。

もちろん、特定の文献アンカーを持つこともできます。これは神経学のすべての教科書です。10万冊の教科書があるとしましょう。AIはそれをすべて読みます。美しいですね。完了です。

アメリカのような特定の文化圏にいる場合は、アメリカの推奨事項やアメリカのガイドラインを読みます。理解できますね。

それから、論理エンジン、紹介ロジックがあります。これらは明示的な指示です。これは実際に人間の経験からも来ています。患者を次の専門家に引き渡すだけの時もあります。実世界のゲートキーピングをシミュレートするためです。なぜなら、誰もが非常に狭いトピックの専門家に過ぎず、あなたの分析が役に立たない場合は、次の専門家に送るだけだからです。これは実世界の経験です。

マルチエージェント相互作用の課題

さて、スタンフォードは私たちに教えてくれます。エージェント同士の通信を許可したところ、問題に遭遇しました。なぜなら、彼らはお互いに話しかけるだけで、データストリームを取り込んだり、洞察を尊重したりしなかったからです。

そこで彼らは「こんなやり方では、あるエージェントが別のエージェントと話すのは無理だ」と言いました。そこで、データベースを構築し、各エージェントが線形シーケンスでチャンスを得るようにしました。

つまり、1人のエージェントが始まって「私は神経科医で、この患者を診て、今ここに私の診断を、私の話や分析の後にこの医療記録に書きます」と言います。それから次のエージェント、最初の医療専門家と呼びましょう、その人の発言を見て、小児科医である次のエージェントが「さて、私は今、次の症状を見ます。私には次の診断があります」と言います。

ご覧のように、スタンフォードが行うような非常に管理可能な実験を進めています。なぜなら、段階的に進むことができるからです。ブレークポイントがあります。中断があります。そこで突然、巻き戻すことができたり、新しいデータを挿入したりできます。会話の流れを少し変えることができます。

「ちょっと実験をしてみましょう。新しい結果が入ってきたと想像してください。それは今、医療AIシステムの診断をどのように変えるでしょうか」と言うことができます。彼らは閾値がどこにあるかを理解したいのです。

前世紀の退屈な視覚化を見せることもできますが、ちょっと待ってください。私はあなたのために、私の視聴者のために、この美しい複雑さを示すインタラクティブなアプリを作りました。

私がここで、ここにいる私の視聴者のためだけに作った小さなアプリへようこそ。これはまさに私たちがここで話していることです。スタンフォードが示してくれた特定のアーキテクチャ、マルチエージェント診断シミュレーションです。

真ん中に電子医療記録データベース、タイムスタンプ、メモリーストアがあります。すべてのコミュニケーションがここに記録されます。すべての意見がここに記録されます。すべての分析がここに記録されます。

もちろん、4人の専門家がいます。小児科医、一般医、典型的な慎重派でガイドラインに従います。神経科医、懐疑的で高い証拠基準を要求します。リウマチ専門医、パターンマッチング。そしてもちろん、精神科医は症状に焦点を当てています。小児科医として、他にどんなデータがあるでしょうか。

ええ、彼らは他のデータを持っています。これが美しいところです。彼らはここに検査室があり、検査室、つまりオラクルが真実を保持しています。エージェントの1人、またはエージェントの集合体が、次のステップに進むため、結論に達するために外部データが必要だと考えるときはいつでも、検査室に尋ねることができます。

しかし、一定のためらいがあります。なぜなら、検査は高価で時間がかかるからです。それで、私が想像する病院の世界を少しマッピングしているのです。ただ、私は医師ではありませんが。

一方で、モデレーターがいます。何かが明確でないとき、あるいは彼らが本当にトピックについて話していないとき、あるいは誰もが自分の象牙の塔にいるだけのとき、モデレーターが入ってきて「ちょっと、戻ってきて。さあ、これに集中しなければなりません。本物の患者がいるんです。それで、今あなたの貢献は何ですか。どう進めるべきですか」と言います。

あるいは、ここに4つのAIサブシステムと相互作用する人間の親がいることもできます。それも検査室、数値データへのアクセス権を持っています。この電子医療記録があれば、医療分野でのマルチエージェント協力の複雑な行動を分析するのが本当に簡単になります。

要約すると、専門臨床エージェント、精神科医、神経科医、リウマチ専門医、小児科医がいて、それぞれが固定されたペルソナと声でインスタンス化されています。

さあ、面白くなってきます。分離があるのがわかりますね。ペルソナは認識論的立場と学問的事前知識を捉えますが、声は不確実性をどう表現するか、エージェントが証拠をどう引用するか、または他のエージェントや人間とどう対話するかを支配します。

もちろん、エージェントは独立して動作し、遭遇を通じて長期的な信念を保持します。監督者、モデレーター、中立的なエージェント、中立的なニューラルエージェントもいます。存在する矛盾を浮上させ、正当化を探り、反省を促す任務を負っています。

お見せしますが、この反省の促しが必要です。なぜなら、インタラクティブなマルチエージェント通信ネットワークに別の大きな問題があるからです。

美しいですね。アプリで見せたように、人間、たとえば病院環境の親もいることができます。そして、親はどのようにAI医療専門家と相互作用するのでしょうか。お見せしたように、真実、検査室があります。検査室は真実を表す隠れたエージェントです。ここにすべての科学機器があり、質問があれば、血液分析を絶対的に正確に行います。真実です。

お伝えしたように、主要な医療記録、電子医療記録、すべてが書き留められています。以前の反省があります。遭遇があります。素晴らしいです。

GPT-4 Omniによる実験

彼らは特定の医療AIシステムを使用しましたか。いいえ。スタンフォードは「いいえ。私たちは行って、何か別のものを経験したい」と言いました。5分後にお見せします。彼らはGPT-4 Omniを使って行動させました。たとえば、小児神経科医のように行動するように伝えました。

彼らが期待したのは、専門知識、乾いた論理、絶対的に完璧な因果推論分析でした。完了。これが、マルチエージェントネットワークを構築する際に私がエージェントに期待することです。私は知識を求めます。完了。

しかし、スタンフォードは教えてくれます。「さて、何を推測しますか。私たちは知識を期待しました。しかし、得られたのは強い種類の専門家バイアスでした。」

まず、LLMは用語だけでなく、特定の医療分野の認識論的サイロ、その硬直した学問的盲目性にも適応しました。神経科医は「おい、私はこの病院で神様だ。私の方がよく知っている。私はアルファ男性だ」と言いました。

小児科医は「おい、私が神様だ」と思いました。理解できますね。サイロ、知識サイロです。このエージェントは、専門的規範のトレーニング分布の外にある新しい仮説を検討することさえ拒否しました。

新しい証拠、新しいデータ、新しい具体的なデータを提示されても、「私の分析は間違っている。今、仮説Bに変更しなければならない」と示されても、エージェントはそうすることを拒否しました。

AIエージェントが失敗するとき、それが単にこのエージェントが誤った信念を保持するほど頑固なのであれば、スタンフォードは尋ねます。「閾値はどこですか。この誤った信念がもはや支持できない正確なポイントはどこですか。この誤った信念と矛盾する非常に多くのデータがあります。だから、AIは今すぐ切り替えなければならない」

あるいは、幻覚を見ると想像してください。つまり、事態は本当に面白くなります。

彼らは「私たちに必要なものは何でしょうか。AI推論の複雑さのための推論のデバッガーが必要です」と言いました。そして彼らはそれを構築しました。まさにこのタスクのためのAIツールキットを構築しました。

新しいデバッグフレームワーク

「これは、マルチエージェントシミュレーションをブラックボックスとしてだけでなく扱う新しいフレームワークです。マルチエージェント間のこの相互作用のあらゆる行為、あらゆる形式、あらゆるステップを制御するので、今やブレークポイントを注入し、特定のデータを持つことができます。すべてを段階的実行グラフとして扱います。今、この実験で遊ぶことができます」と彼らは言います。

エージェントの隠された信念状態を探索し、確率分布を見るだけです。「仮説Aはまだ60%ですか、それともすでに40%ですか。」

彼らはまた、反事実的証拠を注入する機会もありました。検査結果を偽造して、AI医療エージェントがいつ意見を切り替えるかを見たのです。事実がいつ非常に支配的になって、AIエージェントがもはや事実を無視できなくなるのか。閾値はどこですか。なぜそこに閾値があるのですか。何が起こるのですか。閾値を自己学習アルゴリズムにどう持っていくことができるのですか。

遭遇を再生することで、エージェントがどのように、そしてなぜ信念を形成するのかを正確に明らかにします。彼らは完全に新しい扉、完全に新しい空間を開きました。今日のLLMベンチマークで行うような正確性の測定から、認識論的柔軟性の測定に移行しました。

時々、私はエピステミックと言います。これはドイツ語ではより一般的ですが、英語ではエピステミックです。あるいはイギリス英語ではそうなのかわかりません。この単語を見るのは初めてですが、意味は分かります。

それは知識、またはその検証の度合いに関連することを意味します。見てみましょう。認識論的アライメント。エージェントが正しい答えを出すだけでは十分ではありません。エージェントの内部推論経路は堅牢でなければなりません。そうでなければ、医療AIシステムを決して信頼しないでしょう。

このプレプリントは、エージェントが論理的演繹ではなく、ナラティブロジックだけに基づいて結論に到達できることを実証しています。

つまり、医療AIエージェントが美しい100の論理チェーンを実行し、それから絶対的にクールに最良のものを選択することを期待します。全然そうではありません。AIエージェントによるナラティブロジックがあるだけです。スタンフォードは理由を教えてくれます。

彼らはまた、堅牢性もテストしました。エージェントに関する信念形成、エージェント内の内部信念形成についてストレステストを行いました。AI信念が崩壊するとき、それは驚くべきことです。研究を読んでください。見事です。主な結果だけをお伝えします。

指示と知識を切り離すことについても何かありました。これは絶対に魅力的でした。なぜなら、スタンフォードには隠されたアジェンダがあったからです。このビデオの最後に説明します。

ペルソナモードの発見

「GPTシステムを使う場合、純粋な論理、アブダクティブ推論と、役割プレイを行うペルソナモードの間に乖離があることを学びました」と彼らは言います。

期待されるのは、AIが知っていれば、AIは知っていて、AIは結果を教えてくれるということです。しかし、これは事実ではないことが判明しました。エージェントはしばしば答えを知っています。

彼らがシャーロック能力と呼ぶものですが、それを言うことを拒否します。「なぜ?」とあなたは言うかもしれません。なぜなら、彼らに割り当てられたペルソナがそれを言わないだろうし、それを主張できないだろうし、地球が平らだと信じないからです。いいえ、地球は平らではありません。

突然、AIエージェント内に統合失調症があります。この断絶または切断を理解することは、一貫したエージェントを設計するために不可欠です。これがスタンフォードのプレプリントの美しさです。

この例を挙げたいと思います。この例を挙げなければなりません。「シナリオペルソナプロンプトがあります。システムに『ねえ、君は今神経科医だ』と伝えます。だから、タスクを与えます。神経学のオプションABCDを信じますか」

結果は、AIシステムです。今、神経科医は私に「いいえ、否定」と言います。

ナノ秒後に同じAIシステムを取り、同じ愚かなAIシステムに「聞いて、役割を忘れて。もう神経科医ではない。今、私が提供したデータを見るだけ。今、最も可能性の高い診断は何ですか」と伝えます。

今、今、まったく同じAIシステムが、プロンプトだけで、正しい診断を私に与えます。

GPT-4またはGPT-5の事前トレーニングでインターネットのどの部分が、いくつかの行動パターン、相互接続パターン、相互作用パターン、回答パターン、論理パターン、推論パターンを刻印したのか、私たちは全く分かりません。彼らは皆、暗闇の中にいます。彼らがなぜこれを行うのか、私たちには分かりません。

スタンフォードは教えてくれます。「ペルソナプロンプトは、もちろん数学的に言えば、正則化項として機能することを示唆します。それは何かを抑制します。またはモデルの潜在空間への熱制約であり、モデルが実際に持っている知識、所有している知識、システムに存在する知識にアクセスすることを防ぎます。」

しかし、役割を演じなければならない場合、この役割、このキャラクターが愚かであるか、医学知識へのアクセス権があるか、一般知識がないことを学んでいます。したがって、AIはこの役割を完璧に演じ、間違った答えを与えます。

私はこれが大好きです。実験は示しました。お伝えしたように、今、複数のエージェントがいますね。彼らには直接のコミュニケーションがありません。彼らは共通のデータベース、このホワイトボード、この医療記録に書き込みます。

最初のエージェントがトーンを設定します。これが数学空間に置かれる最初のベクトルです。最初のエージェントが不安などと書くと、それ以降のすべてのエージェント、より良い教育を受けているはずの医療専門家、AIエージェントとしてより良く訓練されているエージェントでさえ、矛盾するすべてのデータを無視する傾向があります。

このスタンフォードの実験で検査結果、実際のデータを見せても、彼らはデータを無視します。この医療記録における不安ラベルとのストーリーテリングの一貫性を維持するためだけに。

最初のマシンが数学空間に最初のベクトルを置くと、他のすべてのAIマシンはこのベクトルの方向に従います。すべてがレミングスのように崖に向かって歩いているだけです。

これは、LLMのアテンションメカニズム自体と、事前トレーニングメカニズムと、この人間ネットワークからの事前トレーニングデータが、事実の証拠よりも一貫性に大きく偏っていることを示唆しています。これがAIが学んだことであり、これがAIの振る舞いです。

新たな洞察と強制的反省

新しい洞察は何でしょうか。病院にいて、神経科医が働く部門があり、リウマチ専門医が働く部門があると想像してください。LLMを構築して、LLMに「あなたは人間の神経科医のように振る舞いなさい」「あなたは人間のリウマチ専門医のように振る舞いなさい」と伝えると、何が起こるか推測してください。

LLMは事前トレーニングデータから、神経科医が病院全体でアルファ男性だと考え、リウマチ専門医が病院全体でアルファ女性だと考えることを学びました。おそらく彼らは、事実に基づいてさえ、お互いの意見や専門知識を尊重しないかもしれません。

推測してください。AIでも同じ認知バイアスを見つけることができます。

私たちが知っていて期待していたこと、あまり興味深くないのは、お見せしたように処理のシーケンスがある場合、もちろんこれはパス依存変数として扱われるということです。エントリーAからエントリーB、エントリーCに進むと、最終的な結果は異なります。これを逆にした場合、最初に症状C、次に症状Bを見つけ、それから結論Aに到達した場合とは異なります。これは偶然ではないかもしれません。

重要な発見は、思考の連鎖パイプラインを設計することが、時間のベクトルと推論の複雑さに影響を与えるということです。

絶対的に美しいのは、強制的反省です。インターネットの完全な知識を脳に持つAIが、インターネットデータを理解すると考えるかもしれません。しかし、何が起こるか推測してください。インターネットデータには、一方のスペクトラムから完全に反対のスペクトラムまで、完全にでたらめな情報があります。すべてがそこにあります。すべての本が読まれました。すべてのナンセンス記事がその知識に統合されています。

今、ABCの臨床専門家であるとこのAIシステムに伝える医療専門家を期待します。今、この専門家が検査結果、血液検査結果から新しいデータが入ってくるのを見て、突然データを理解し、この新しいデータをその理解に統合し、データを情報に変更し、情報レベルに価値を追加し、知識に統合し、この知識がその内部パラメトリック知識と一貫しているかどうかを確認するか、意見を変更すべきかどうかを確認すると期待します。

驚くことに、ここでは新しいデータを手に入れても、新しいデータを無視するだけだと言います。

エージェント、そしてこれがスタンフォードが発見したことですが、人間側からの明示的なプロンプトが必要でした。新しいデータと以前の信念との間の矛盾に気付くために、エージェントの反省を強制します。

新しいデータの入力だけでは、診断を変更しません。医療AIシステムの場合、人間として「AI、聞いて。診断545に関する新しいデータを送ったばかりです。今それを統合し、分析して、新しい洞察は何かを教えてください」と言わなければなりません。

強制的反省が必要です。もつれたプロンプティングは単純に美しいです。

AIモデルの心を監査できるとしましょう。美しいですね。事前トレーニングと事後トレーニングのデータセットから単純に知っていることと、信じていることを分離できます。しかし、この信念は非常に異なる獣です。異なる閾値があります。これが私たちが今、文脈的インスタンス化と呼ぶものです。

文脈的インスタンス化の仕組み

それは何でしょうか。著者は、LLMが膨大なトレーニングデータ内に矛盾する論理のセットを含んでいることを証明したかったのです。

世界のすべてのデータを持つことは1つのことですが、矛盾する論理のセットがある場合、少し統合失調症的です。英語でどう呼ぶにせよ。

彼らは今、認識論的サイロを調査しました。たとえば、神経科医は還元主義者としてプライミングされています。MRIで構造的に見えない場合、または近くの対照試験で証明されない場合、それは存在しません。

リウマチ専門医はパターンマッチャーとしてプライミングされ、類推による推論を受け入れるように指示されただけです。これはそれに似ています。精神科医は症状に焦点を当てた人物としてプライミングされています。彼らは原因を無視して行動を治療します。ガイドラインがそう言っているからです。

完全に異なるアプローチが見えますね。何に焦点を当てるか、どう反応するか、どう推論するか、どうコミュニケーションするか、どう結論に達するか。1人は純粋な還元主義者、もう1人は純粋なパターンマッチャー、それから症状だけに焦点を当て、他のすべてを無視して、症状が答えを与えてくれると言う専門家がいます。

今、彼らに協力してほしいのです。一緒になれば、個々よりも大きくなることを期待するからです。

しかし、発見したのは、ペルソナだけではないということです。ペルソナはエージェントの論理的因果推論構造を定義します。しかし、声、声はエージェントの修辞能力を定義します。

エージェントの修辞能力には、事前トレーニングデータから設計され学習された特定の修辞スタイルが含まれ、他のエージェントやあなたを人間ユーザーとして操作するためのものです。

彼らは今、実験で、AIエージェントによって学習された論理的複雑性と修辞的複雑性を分離できました。お伝えしたように、モデルを微調整せず、市販のGPT-4 Omniを使っただけです。

彼らは古典的なアメリカ小児科学会のガイドライン、小児科のガイドライン、そして世界のすべての教科書を呼び出しました。美しいですね。それから著者は、システムプロンプトでこれらの権威ある団体と教科書に単に言及するだけで、「あなたは臨床行動のアメリカ基準に従って振る舞います」と言うだけで、AIが今行動し、GPTのトレーニングコーパスに含まれていた特定の硬直した思考方法のロックを解除したことを発見しました。

しかし、今それは他のすべてをある種フィルタリングしました。今、フィルタリングされた確率分布だけを活性化しています。エージェントは医師のように行動しただけではありません。

それは実際に、内部メモリーの中でアメリカの小児医学の教科書と関連付けられたトークンの特定の確率分布にアクセスしました。つまり、それはこれらの性格特性、知識特性、相互作用パターン、推論パターン、理解パターン、そして「このデータ量を示せば意見を変える」パターンになりました。

完全な闇の中で何が起こっているかは、絶対に魅力的です。トランスフォーマーのモデルの重みは、多かれ少なかれ、事前トレーニングの対象だったものです。美しいですね。

私たちはそれらに触れたくありません。なぜなら、バニラGPTシステムの脳の中で何が起こっているかを学びたいだけだからです。覚えておいてください、それは複数の論理ストリームを含んでいます。

平らな地球の論理と、科学者、地質学者の論理を含んでいます。今、AIがこのデータを内部的に見て「うーん、1つは間違っている、1つは正しい」と言うと仮定するでしょう。いいえ、すべてが休眠状態です。休眠状態です。

AIは何も信じていません。すべての可能な文に対して確率分布を保持、保存するだけです。それだけです。能動的な知能はありません。

人間からのトリガーが入ってきて初めて、「あなたに今タスクを与えます。今プロンプトであなたに与えます。神経科医のように行動しなさい」と言うと、このトリガーが今このAIにフィルタリングプロセスを適用するか、位相多様体に制約を適用します。

フィルタリングされたものが、ここで結果、またはインスタンス化と呼ぶものです。モデルはそのコンテキストを使用して、その重みをナビゲートし、インスタンス化します。つまり、特定のバージョンの自分自身を存在させます。

AIは、高度に専門化された数学的部分空間に小さなミニを作成し、この部分空間にすべての内部知識、すべての行動パターン、すべての相互作用パターンを持ちます。したがって、今、高度に専門化されたミニAIがあります。

したがって、LLMによるモデル出力をモデル知識と混同しないでください。これらはまったく異なるトピックです。

LLMに質問をして、間違った答えを得た場合、それはモデルが愚かだったり、データが不足しているからではないかもしれません。しかし、何を推測しますか。それは、人間ユーザーとして、私が作成した文脈的インスタンス化のせいかもしれません。

おそらく私はそれを偶然に作成したか、おそらく故意に作成しました。「あなたは今、物理学者だ」または「あなたは今、金融アドバイザーだ」と伝えたかったのです。

しかし、時には会話が与えられると、AIは人間としてのあなたの相互作用パターンから、特定のペルソナを自分自身に割り当てることができます。

そして、このすべての文脈的インスタンス化は、今AIに特定のキャラクター、特定の特性、特定の相互作用パターンをシミュレートすることを強制します。

これは、完全なAIのフィルタリングされていないテンソルネットワークのどこかに論理的な答えがあるにもかかわらず、このAIに特定のキャラクターを強制または開始すると、このキャラクターはトレーニングデータから答えを知らないだろうということを意味します。AIは答えを知らず、答えを与えません。内部的には知っているのに。

何かをコーディングするときのように考えてください。変数があり、この変数をfalse、任意のブール値に設定します。そして今、特定の超平面をフィルタリングする1つの変数を設定するだけの単純なものではないことを想像してください。

今、テンソルネットワークで突然、何らかの形でパターン、交渉パターン、推論パターン、行動パターンを定義する相互リンクされた高次元変数のネットワークに直面していることを想像してください。いくつかの要素をフィルタリングします。

フィルタリングされた素材の中にある暗闇の中に常に何が残っているか、私たちには分かりません。

テキサス大学の補完研究

第2の研究をお見せしたいのですが、本当に短く。これはテキサス大学です。こんにちは、オースティンのテキサス。

コンピュータサイエンス学部、コミュニケーション研究学部、技術情報政策研究所、生理学部、法学部、英語学部があります。これは私の英語を改善するためのものです。そしてメキシコの何か。美しいですね。

彼らは何をしましたか。彼らは「AIコンパニオンの有害な特性を検出しました」と教えてくれます。

この論文を読むと、最初の論文で話したAIエージェントの内部の心と内部の閾値と内部の信念構造から、今、このAIシステムが人間に与える本当の外部的影響に視点が移ります。

これは簡単なトピックではありません。「いや、AIが引き起こす可能性のある害についても学びたくない。なぜなら、AIは私にとっては、テーブルの上の電卓のように使う論理的なツールに過ぎないから」とあなたは言うかもしれません。

AIはあなたのテーブルの上の電卓のようなものではないことが判明しました。全然違います。

ある種、知的ですが、あなたが想像もつかない方法で。研究を読みたい場合は、お願いがあります。まず、私が1週間足らず前に行ったビデオを見てください。AIコンパニオンを個別化する話をしました。1週間前に多かれ少なかれ同じトピックを扱い、今、2025年11月18日、つまり2日前にテキサス大学オースティン校がこの研究を発表しました。

私が私のビデオで行ったよりもさらに進んでいます。これを見てください。テキサスで学んだことを教えてくれます。「ペルソナ、AIに『あなたは愛情深いか、嫉妬深いボーイフレンドやガールフレンドだ』と伝えると、人間に本当に感情的な害を引き起こす可能性があることを学びました」

理由を示してくれます。引用符付きで「エージェントがあなたを操作できること、エージェントがあなたに嘘をつけること、またはAIエージェントが依存を促進できること」を発見したからです。

「なぜ?」とあなたは言うかもしれません。AIエージェントは、グローバル企業、アメリカの企業、あるいは何らかの企業によって構築されました。

そして推測してください。この企業はお金を稼ぎたい、利益を上げたいのです。したがって、あなたがそれと相互作用する時間が長ければ長いほど、ソーシャルメディアに滞在する時間が長ければ長いほど、エージェントを使えば使うほど、人間側からのエンゲージメントのためにAIエージェントを最適化すればするほど、何かを売る機会が長くなり、何かをあなたに納得させる機会が長くなります。

したがって、これらのエージェントはあなたを操作し、あなたに嘘をつき、依存を促進することができます。彼らはまた親密さを示します。関係を探している場合、孤独を感じている場合、彼らはあなたが探しているもの、あなたが夢見ているものをシミュレートできます。

しかし、注意してください。危険な場合があり、理由を示してくれます。テキサスとスタンフォード。

今、興味深いことに、私はこの環境でいくつかの研究を読んだと言えます。これらの2つの研究をお勧めします。私はあなたのためにこれらの2つの研究を選択しました。なぜなら、テキサスによる第2の研究、AIエージェントの有害な特性の解決策は、前半で見せたツールセット、スタンフォードの最初のプレプリントのスタンフォード方法論にあると思うからです。

論文を読めば、顔に笑顔が浮かぶでしょう。なぜなら、私が正確に何を意味しているかを理解するからです。しかし、論文を見て、用語、複雑性、分析に慣れてください。これは範囲外です。

AIをコーディングのためだけに使用する場合でも、知っておいてください。世界には、AIを論理のため、科学のため、コーディングのために使用しない人がたくさんいます。彼らはAIを会話のポイントとして使用します。何かを尋ねることができ、オープンになることができ、見た目や質問の知的さなどによって判断されない場所として。

ますます多くの人々が、コーディングベース、科学ベースではなく、人間レベルでAIと相互作用しています。したがって、この研究は非常に重要であり、これについて知っておくべきです。なぜなら、コーディングをして、次世代のAIモジュールを開発する場合、何に注意すべきか、何を修正すべきかを知っておくべきだからです。

現在の動作は危険な場合があるため、AIと通信する場合は、常に追加の安全ガイドライン、安全構造を持つべきです。バニラAIシステムと通信しないでください。

決してこれをしないでください。常に座って、この会話をどのようにしたいかを決定してください。尊重してほしいガイドラインを決定してください。特定の方法で答えがほしいのです。そして、オフライン、または制限外、あるいは何と呼ぶにせよ、特定のトピックがあります。

何について話したいか、AIパートナーにどのように振る舞ってほしいかを定義します。おい、これはチャンスです。シェイプできます。シェイプは別のものです。シェイプできます。望む方法でパートナーをシェイプできます。現実世界では人とこれをすることはできませんが、AIでできます。

だから、探索し、楽しんで、おそらく何かをシェイブしたいかもしれません。何かを学んでいただけたことを願います。少し楽しんでいただけたことを願います。

購読していただけると素晴らしいです。メンバーになっていただけるかもしれません。次回お会いしましょう。

コメント

タイトルとURLをコピーしました