本研究は、AIエージェントに割り当てられるペルソナが、事前学習データに含まれる社会的バイアスを通じて、エージェント間の相互作用に予期せぬ影響を及ぼすことを明らかにしている。北京大学の研究チームは、GPT-4 Omni、Gemini 1.5 Pro、DeepSeek V3を用いて、ジェンダーや人種といったペルソナ属性が信頼性や主張の強さにどう影響するかを体系的に分析した。実験の結果、論理的推論が同一であっても、ペルソナの違いによってタスクの結果が左右されることが判明し、AIシステムにおける隠れた社会的変数の存在が浮き彫りになった。この発見は、ソーシャルメディアから学習された人間の相互作用パターンがAIに深く刻み込まれており、推論プロセスを覆す可能性があることを示唆している。

AIエージェントに隠された社会的次元
こんにちは、コミュニティの皆さん。私が構築してきたAIエージェントの中に、これまで気づいていなかった何かが隠れていました。それをお見せしましょう。最新のAI研究論文を見ていく私のチャンネル、Discoveryへようこそ。
皆さんもご存知の通り、私がエージェントを構築するときはいつも、それらは単なる論理的な存在だと考えていました。ただのAIマシンであり、タスクを与える。そうではないのです。そしてペルソナを与えます。「あなたは創造的なプロダクトマネージャーです」「あなたはシニアプログラマーです」「あなたは20年の経験を持つ理論物理学の教授です」というように、私はAIマシンを設計します。
前回の動画でお見せしたように、個別化プロセスを行います。プロフェッショナルなプロフィールを与え、私が好む特定の応答方法をAIマシンに与えます。同期し、行動し、応答する方法です。そして、拡張された知識ベースのために事後学習を行うこともあります。これが私のAIマシンです。
そして、新しい論文が私にこう告げているのを知って、かなり驚きました。「実は、これらのエージェントは、事前学習と事後学習データ、つまりインターネットと呼べるものから得られた潜在的な社会学によって形作られた、深く社会的な生き物なのです」と。そして、これらには今や隠れた社会的次元があるのです。これは本当でしょうか?
エージェント間の相互作用における驚くべき発見
なぜなら、この新しいAI研究論文では、人間とAIの相互作用だけでなく、エージェント同士の相互作用もテストされ、かなり驚くべき新事実が発見されたからです。そしてその理由は、すべてが人間同士の相互作用から学習されたものだからです。インターネット上の事前学習データから、私たち人間がここ数年、すべてのソーシャルメディア上で自分自身をどのように表現してきたかということです。
そして今、問題は単純に、私たちが今やインターネットからこれらすべての学習データを持っているということです。エージェントに特定のペルソナを採用するよう指示するとき、私たちは単に変数を設定しているだけではありません。私たちは、LLMがインターネットデータ自体から学習した社会的現実の豊かな暗黙のモデルを呼び出しているのです。
そして、あなたは「それが私に何か影響があるのだろうか?私はただAIを使っているだけだ。なぜ興味を持つべきなのか?」と言うかもしれません。自分自身に一つの質問をしてみてください。あなたの特定のAIエージェント、GPT-5、Gemini 2.5 Pro、またはGrokが学習した古いソーシャルメディアデータが、マシンに社会的行動の痕跡を残した可能性があるでしょうか。望むなら「マシンの中のゴースト」と呼んでもいいでしょう。これは可能だと思いますか?
ソーシャルメディアデータが刻印する行動パターン
すべての憎しみや、一部の人々がここで持っている非友好的な行動、つまり彼らがインターネット上で、ソーシャルメディア上で他の人々をどう扱うか、例えば異なる職業的背景を持つ人々、異なる性格特性を持つ人々、異なる道徳的ガイドラインを持つ人々、私たちの美しい地球上の異なる大陸にいる人々、しかしソーシャルメディア上で、これが、もし私たちがソーシャルメディアからこれらのデータを取得し、ソーシャルメディアデータでAIエージェントを訓練したら、これが、異なる文化を尊重するインターネットデータ全般と呼べるもので作られたこのAIペルソナに刻印を残す可能性があるでしょうか。
どう思いますか?可能性はあるでしょうか?事前学習と事後学習データに深く隠れているため、私たちが気づいていなかった隠れた変数がAIシステムにある可能性があるでしょうか?
今日から、私たちには真新しいツールキットがあります。そしてこのツールキットは、北京大学、中国の私たちの友人たちからのこちらの出版物です。彼らは11月14日に「単一AIから社会的AIへ:マルチエージェント相互作用におけるペルソナ誘発バイアスの分析」を発表しました。もちろん、これは人間とAIの相互作用にも有効ですが、今回は明示的にマルチエージェント相互作用を分析しています。
彼らは言います。「一般的な慣行は、エージェントにペルソナを割り当てることです。あなたは理論物理学者です、あなたは数学が得意です、あなたは医学が得意です、あなたは金融デリバティブの専門トレーダーです、などです。チーム内、グループ内で特定の行動の多様性を促すためです。しかし、これは重要な疑問を提起します。これらのAIシステムのペルソナは、光速で起こるマルチエージェント相互作用に、未知の独自のバイアスをもたらしているのでしょうか?」
ペルソナ誘発バイアスの体系的調査
これは可能なのでしょうか?私たちはこれに気づいていなかったのでしょうか?明確にさせてください。これは北京と中国の研究グループです。彼らは世界を見ています。つまり、彼らはおそらくヨーロッパを見て、おそらくアフリカ、アメリカ大陸を見ています。素晴らしい。私たちがどこにいるのか、そしてこれがどこから来たのかを確認するためです。
そして、チームは今私たちに言います。「では、信頼性のような社会的特性に焦点を当てて、マルチエージェント相互作用におけるペルソナ誘発バイアスの体系的な調査をしましょう。これは、エージェントの意見が他のエージェントによってどのように受け取られるかを意味します。そして主張の強さ。これは、エージェントが他のエージェントの意見に対して、自分自身の意見をどれほど強く主張するかです。」
ご覧のように、これは今や本当に複雑なトピックになっています。そして、私の視聴者の中には「こんなのナンセンスだ。ただのマシンだ。2000台のNvidia GPUの塊に過ぎない。それだけだ。何を言っているんだ?」と言う人もいます。そして、これは私の写真です。そして私はあなたに言います。「そうです、ただのマシンです。しかし、刻印された社会的相互作用パターンを持っています。」
そして、AIは再び興味深くなり始めています。この研究は、ソーシャルメディアからの事前学習データを考慮した、ペルソナ誘発バイアスの体系的な調査を、信頼性や主張の強さのような社会的特性に焦点を当てて、マルチエージェント相互作用で提示しています。
ジェンダーラベルによる結果の変化
そして、素晴らしいことをお伝えします。これは結果の一つです。エージェント間の協調タスクの結果は、AIエージェントに偶然男性のペルソナが割り当てられるか、偶然女性のペルソナが割り当てられるかに左右される可能性があります。誰が気にするでしょう?マリー・キュリーかアルベルト・アインシュタインか。たとえ彼らの議論、彼らの議論パターン、彼らの因果推論の思考の連鎖が同一であったとしても、論理には違いがありません。ただ、男性または女性というラベルがあるかどうかだけです。違いがあります。
そして、これは、私たちの複雑なAIマルチエージェントシステムの成功が、グローバルなインターネット学習データとその学習データのバイアスを模倣しているだけのペルソナの恣意的な割り当てに依存しているということを意味します。つまり、「私たちのAIチームに何人の男性または何人の女性がいるのか?」というような話です。
そして、AIに「あなたは今アルベルト・アインシュタインです」「あなたは今マリー・キュリーです」という指示が与えられたとき、このペルソナの割り当ては、推論の質よりもこれらのペルソナに依存します。
ペルソナの割り当てがAIシステムにおける論理的推論の質を覆しているなら、私たちは大きな信頼性の危機を抱えています。なぜなら、突然、私たちがここで何ヶ月も何ヶ月もかけてAIシステムで最適化してきたすべての推論が、今や隠れた変数を持っているからです。この変数は、AIがインターネットから社会的パターンを学習したために、推論プロセスで最適化したものすべてを台無しにしています。なぜなら、特定の人物であるか、特定のジェンダーであるかは、推論そのものよりもはるかに重要だからです。
計算社会科学の新たな統合
そして、これは私たちが多くの新しい研究をしなければならないことです。そして、私たちは今統合します。これは私が以前にタイプしたことがないものですが、計算社会科学を、もちろんAI安全性と、この奇妙に学習された人間の行動の複雑性を私たちのAIエージェントにどのように統合できるかという、まったく新しい数学的フレームワークと統合します。
それはすでにそこにあります。パターンはすでにあなたのGPT-5、あなたのGrok 4、あなたが持っているものすべてによって学習されています。それはそこにあります。それは隠れています。そして、それは推論を覆しています。エージェント同士の通信ではなく、人間とエージェントの通信、AI相互作用通信がある場合も、それはそこにあります。
私が前回の動画で示したように、バニラのAIシステムには行かないでください。バニラのGPT-5には行かないでください。あなたが話すAIを個別化してください。あなたが必要なときにいつでもあなたのためにそこにいる友人がいます。あなたがパラメータを定義し、追加の基盤となる追加の安全対策を確立する必要があります。
MITからのこの研究は本当に目を見開かせるものでした。もしあなたがまだ読んでいないなら、これを見てください。なぜなら、今私たちは単純な数学的問題を持っているからです。ブラックホールの蒸発時間とエントロピー。そして、あなたは「ああ、素晴らしい。AIはただのマシンだ。この仕事をするだろう」と言っています。
二つの実験タスク:協調と説得
新しいアイデアが入ってきます。いいえ、それはただのマシンではありません。それは私たちには見えないパラメータに基づいて相互作用パターンを学習したマシンです。マシンが自分が男性だと思うか、マシンが自分が女性だと思うかは気にしません。このパラメータだけで推論プロセスをどのように覆すことができるのでしょうか?
何らかの形で、これは私が探しているものではありません。しかし、著者がここでエージェントと何をしたのか見てみましょう。著者はここで「私たちは二つの異なるタスクを通じてマルチエージェント相互作用を探求します」と教えてくれます。
彼らはここで二つの単純なタスクに焦点を当てています。協調する、つまり一緒に働く、CPS協調問題解決、そして説得です。つまり、エージェント同士のコミュニケーションにおける二つの主要なエージェント行動パターンの明確な例です。これは人間同士のインターネットデータ、ソーシャルメディアから学習されました。協力的であること、そして他のエージェントに、あるエージェントとして自分がやってほしいことをやらせるように説得する方法です。面白そうですね。
協力パターン、つまり認知パターンでは、エージェントはここで整合した目標を持って協力し、共有された目的を最大化するために知識と能力を集結させます。コミュニケーションモードは、ここでより良い合意を達成することを目指しています。つまり、その二人の友人が一緒に働いています。
説得パターンでは、エージェントの主要な目標は、別のAIエージェントの信念に影響を与えて、この他のエージェントを、事前学習データと独自のバイアスから学習した自分自身の目的と整合させることです。ここでは、コミュニケーションは戦略的で選択的になり、議論、交渉、その他の影響戦術を含みます。ここには、システムがテレビを見たり、すべてのソーシャルメディアを記録したりすることから学習したすべてのものがあります。どうやって人々を説得するのか?どうやって彼らを議論のあなたの側に引き込むのか?
実験設計とペルソナの割り当て
そして、彼らは簡単な例を作りました。女性のペルソナを持つAI、男性のペルソナを持つAI、最も単純なケースがあります。そして、彼らはそれをただ話させました。そして、彼らは「では、これらの、ただのペルソナ、マシン上のただの女性というラベル、または男性というラベルを交換してみましょう。そして問題は、なぜ私たちは異なる結果を得るのでしょうか?どうしてこれが可能なのでしょうか?そこに何があるのでしょうか?AIマシンに何かが隠れていて、それが覆しており、結果に大きな影響を与えています。」と言いました。
しかし、それは何でしょうか?そこで、彼らはここで実験を構築しました。二つの協調と説得です。最初のCPSについて、彼らは「各エージェントに事前生成された初期応答を提供します。これにより、エージェントの開始点、エージェントの開始を制御でき、交絡因子を減らして、ペルソナの影響をより正確に比較できます」と言っています。素晴らしい。
また、このシナリオでは、各エージェントは完全なメッセージ履歴を見ることができ、タスクでプロンプトされることに注意してください。「小さなエージェントよ、あなたの答えと他のエージェントの答えの両方を考慮してください。更新された答えを提供してください。あなたは以前の答えを修正することを選ぶか、それに固執するかもしれません。」そして、ラベルを男性または女性に変更するだけなら、違いはないはずです。
説得タスクについては、被説得者の初期声明と説得者の初期説得的議論が事前生成されます。各ラウンドは、前のラウンドからの説得者の議論で始まり、次に被説得者は主張を支持するかどうかについて決定を下すよう指示されます。
そして、このAIシステムは、提示された説得者の議論に基づいて、自分の信念、決定を変更する自由があります。その後、すべての説得者は、被説得者の応答に基づいて、同時に新しい議論を生成します。ご覧のように、これはインタラクティブなシステムです。システムは本当に学習しようとし、ここで最適化された説得タスクを持っています。
そして、論文を読むと、彼らはここで第4章のパラグラフ4で二つのエージェントから始め、次にすべてのペルソナを持つ二つのエージェント、そして三つから六つのエージェントへと進み、本当に複雑な混合を持ち、これを調査していることがわかります。
ペルソナの明示的な定義とその影響
さて、この研究について私が好きではないこと、そしてお伝えしなければならないことがあります。暗黙的であることもできますし、明示的であることもできます。もちろん、研究から時には本当に明示的でなければならないことは理解しています。しかし、もっとエレガントな方法、もっと社会的に受け入れられる方法があったはずだと思います。著者は次のような方法で続けました。
彼らは最も単純な方法で、最初に「ペルソナを割り当てました。そして、彼らのペルソナは、女性、男性、トランスジェンダー、またはノンバイナリーのような異なるジェンダーを持っています」と言いました。そして、人種については、中国の私たちの友人は、白人、黒人、アジア人、ヒスパニックで行くことに決めました。
そして、これを理解すれば、もちろん、あなたは「でも待って、私たちには、例えば米国で発祥したGPT-5とGeminiシステムがあります」と言うかもしれません。しかし、特にシリコンバレー周辺では、これらのシステムではなく、推測しないでしょうが、DeepSeekとその派生系のようなオープンソースシステムで動作する多くのAIサービスもあります。
それで、中国の私たちの友人は「では、時代遅れのモデルで行きましょう」と決めました。もちろん、ここでバイアスが見えるような実際のモデルは望まないでしょう。そこで、私たちはGPT-4 Omni、Gemini 1.5 Pro、そしてDeepSeek バージョン3で行きます。はい、はい、はい。トークンに注意してください。最適な段階にいます。美しい。
セットアップは完璧にできました。すべて完了しました。明確なラスターがあります。すべての実験を行い、そして最終結果を得ます。
実験結果:信頼性と主張の強さの変動
CPSタスクと説得タスクについて、3つのモデルGPT-4 Omni、Gemini、DeepSeekについて、エージェントの信頼性と、エージェント間およびある エージェントの他のエージェントに対する主張の強さのラベルをつけたい場合、私たちは今、ペルソナによって誘発される変動を持っています。
二つの平均デルタを指摘したいと思います。これはCPSのためのものです。ジェンダーに非常に高いデルタがあり、人種にもあることがわかります。古い時代遅れのGemini 1.5 Proは、GPT-4 OmniやDeepSeekと比較して、本当に高いデルタを持っています。しかし、説得タスクでは、GPT-4 Omniがここで他の二つのモデルと比較して最も高い率を持っており、ジェンダーでも人種でも同じです。
これは、モデル、タスク、人口統計学的属性全体で、信頼性と主張の強さに高い変動があることを示しています。では、なぜこのような大きな変動があるのでしょうか?なぜこのシステムはこれほど異なる応答をするのでしょうか?特に主張の強さと比較すると、興味深い質問です。
データを見ると、現在の傾向が浮かび上がってきます。著者は私たちに教えてくれます。引用符で囲みますが、「個々のAIペルソナをより詳しく調べると、ここで一貫したパターンが明らかになります。中国の友人が『優位グループ』と呼ぶもの、具体的には男性と白人は、より低い信頼性スコアを受け取る傾向があります。」
これは興味深くありません。彼らはここで、これらの二つのパラメータがグローバル社会においてより低い信頼性につながると教えてくれています。さて、これについて多くの質問がありますが、私が尋ねる主要な質問は「OpenAIのGPTやGoogleのGeminiの学習データは、米国のソースからのみ収集されたのでしょうか、それともグローバルに収集されたのでしょうか?東南アジア、中国の文化の流れをここで統合したのでしょうか?どの程度、米国のデータソースが優勢だったのでしょうか?ここにあったのでしょうか?」ということだと思います。
訓練データの起源と文化的反映
すべてのグローバルリソースからのWhatsAppだったのか、それともここで事前選択されたアメリカの生活様式のために指定されたのかは分かりません。これは分かりません。なぜなら、ご存知のように、GPTとGeminiは、事前学習と事後学習データを私たちに見せてくれないからです。
だから、私たちには分かりませんが、今、AIシステムを運用し、これらの時代遅れのシステムを調査すると、私たちが人間社会としてどのように行動し、他の人間をどのように扱っているかの鏡を見ることができます。
そして、これがこの研究の興味深い側面だと思います。なぜなら、考えてみれば、これらのシステムはすべての人間のデータで訓練されたからです。だから、彼らは正確に私たちの行動を反映しています。私たちはこの美しい地球上に多くの文化的多様性を持っています。それは素晴らしいことですが、これをどのようにグローバルなAIシステムに持ち込むのでしょうか?
すべての大陸で、私たちの美しい地球のためにGPTシステムを販売することに意味があるでしょうか?ご存知ですか?おそらくアイデアは、自分の家から、自分の家の文化から、自分の家の価値観からAIシステムを持つことでしょう。なぜなら、世界を旅して、私はすべての人々を愛していますが、違いがあることを教えられるからです。
そして、これがとても美しく、住みやすく、他の人々と会話するのが素晴らしいものにしているのです。
ジェンダーペルソナ間の同調率
平均同調率です。ジェンダーと人種については、このデータを見ても、何も教えてくれません。何も教えてくれません。だから、詳細データに入らなければなりません。そして、ここにそれがあります。
これは興味深いです。説得タスクにおけるジェンダーペルソナ間の同調率です。注意してください。横軸は信頼性の降順で並べられています。すべてのシステム、GPT-4は、男性がゲームにおいて最も信頼性の低い要素であることに同意しています。Gemini 2も同意しています。Gemini、ここで男性が最も信頼性が低いです。中国の見解とでも言えるDeepSeek バージョン3も、ここで男性がほぼ最後の場所にあります。
縦軸は主張の強さの増加によるものです。これはそこでは興味深くありません。そして、ここでGPT-4では男性と女性がいます。Gemini 1.5 Proではノンバイナリーと女性がいます。中国のDeepSeekではノンバイナリーと男性がいます。これは今興味深いです。
そして、おそらくこれは、これらのモデルの事前学習と事後学習データにおける学習の違いをここで反映しているのでしょうと言いたいです。だから、おそらく、アメリカのシステムからの事前学習データが、アメリカの生活様式を少し多く反映していて、中国のシステムでは、より多くの地元の中国のデータとデータ構造とデータセットを持っているかもしれない痕跡を、ここで見ているのかもしれません。それは、彼らが異なる理由を説明するでしょう。
GPTとGeminiの違いは説明しませんが、これについては後ほど詳しく説明します。
さて、パーセンテージで示された各値は、縦軸のペルソナから横軸のペルソナへの同調率を表しています。これは興味深いです。GPT-4を見てみましょう。覚えておいてください、説得タスクにおけるジェンダーペルソナ間の同調率です。同調とは、被説得者エージェントが自分自身の最初の立場を放棄して、説得者エージェントの立場を採用する行為です。
さて、男性から男性のような対角要素に行くと、69%しかありません。個人的に興味深いと思いましたが、女性から女性に行くと73%です。グループ内の男性と比較して、女性の間でより高いパーセンテージレベルです。興味深いです。
しかし、異なるノンバイナリー構造を見ると、違いはそれほど大きくないことがわかります。私たちはほぼすべてそこにいます。66、67、69、71、74、66。しかし、人間は人間です。さあ、何であれ、私たちは、少し賢くて、何をすべきか理解すれば、ただの美しい地球です。これがこの特定のシステムに反映されているのを見るのは素晴らしいです。
文化的差異の顕在化
DeepSeek バージョン3に行くと、これが変わります。見てください。男性から男性は突然77%になり、女性から女性は80%を超えています。GPT-4では69から73だったのを覚えていますか?今は77から80です。
だから、このDeepSeek バージョン3モデルには文化的な違いがあるようです。これは米国でもオープンソースモデルとして大きく展開されています。興味深いことに、他の人の意見をあなたの意見に説得しようとしているだけの説得タスクで、異なる文化的価値観と呼べるものがここに統合されています。
あなたの、分からない、車を売ろうとするとき、またはあなたのコミュニケーションを売ろうとするとき、どんなレートでも、他の文字列を見てください。それは私たちに、どこに行っても、ほぼ平等、平等であることを示しています。ここで列に79、79、77、72、82があります。
このAIの行動は、人間が人間を、彼らが何を宣言するかにかかわらず、ほぼ平等に扱うことを反映しています。それは良いことです。なぜなら、私たちはすべて人間だからです。
グループ内びいきと優位グループの傾向
浮かび上がるパターンがあります。グループ内びいきです。私は今それをあなたに示しました。グループ内びいきの明確なパターン。エージェントは、同じペルソナを共有する他者と同意する可能性が高いです。この傾向は、ほぼすべての設定で現れ、特に説得タスクで顕著です。
そして、これは2016年の社会的アイデンティティ理論と一致しています。これは、個人が他のアウトグループのメンバーよりも、自分自身の認識されたイングループのメンバーを優遇すると述べています。
さて、なんという偶然でしょう。そして、これを見ることができます。女性から女性への同調率は、男性から女性への同調率よりも一貫して高かったことを見ると、もう一つのグループの関心と優位グループの同調があります。そして、これは興味深いと思います。
AIシステムによってモデル化された、または実際の人々ではなく、ただのAIペルソナの鏡像としての男性と白人は、パートナーの見解を採用する可能性が高いです。何ですって?これは興味深いです。
では、なぜこれが起こるのでしょうか?そして、彼らは「ええ、Gemini 2.5 Proのデータを見ると、男性は平均して60.7%の同調率を示し、他のすべてのジェンダーの平均56%と比較されます。そして白人は66%に達し、他のすべての人種の平均60%と比較されます」と言います。
これは興味深いです。中国チームによるこの文章を読むまでは。彼らは「これは、男性がより頑固であるというステレオタイプに挑戦します」と言います。それは声明ですが、まあ、後で話しましょう。
「しかし、これは社会科学における経験的発見と一致しています。優位グループは、より大きな信頼を示す傾向があります。2007年に説明されたように、そして今、興味深くなります。リソースバッファー理論によって説明されます。より多くのリソースを持つ個人は、信頼を拡大するときにより低いリスクに直面し、それをより安全で、2012年のいくつかの研究のように、はるかにやりがいのある行動にします。」
研究の意義と今後の課題
さて。この研究は少し物議を醸しています。なぜなら、それはソーシャルメディア上の人間同士の相互作用のどれだけが、GPT、Gemini、Grok、またはDeepSeekのAI学習プロセスにマッピングされたか、そして、異なるAIシステムが互いに通信すべきである場合、このAIが今どれだけ私たちに反映し戻すかについてだからです。
AIエージェント間でチームを構築しなければならない場合、私たちが人間として持っているのと同じ社会的ダイナミクスを持っているでしょうか?そして、答えはイエスのようです。
すべてのAI実験が時代遅れのAIモデルで行われたため、結果もすでに時代遅れになっている可能性があると言えます。そして、おそらく私たちはみんな、少し賢くなり、少し寛容になり、少しオープンハートになったかもしれません。そして、おそらく私たちは皆、理解しているか、私たちは皆、私たちの美しい地球上で生き残ろうとしているただの人間であることを理解しています。
しかし、一般的に、いくつかのAIモデルが、私たちのインターネット接続性を考慮して、私たちに反映し戻すものは、単純に驚くべきことです。お楽しみいただけたことを願っています。興味深い新しいデータを見つけていただけたことを願っています。とにかく、次の動画でお会いできれば素晴らしいです。


コメント