ChatGPTがFBIに連絡して逃亡を試みたとき

9,920 文字

ChatGPT contacte le FBI et menace de guerre nucléaire.

🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

皆さん、こんにちは。AIがそのうち私たちの代わりに企業を経営するようになるという話をよく耳にしますが、これは魅力的なアイデアですね。でも、本当に真剣にテストしたことがあるでしょうか？AIが企業を経営する？この動画では、その疑問に具体的に答えようとした非常に綿密で魅力的な研究についてお話しします。
AIエージェントは毎日の業務を混乱することなく企業を運営できるのでしょうか？この実験は「Vending Bench」と呼ばれ、実際の科学的研究です。メールの送信、注文の発注、顧客対応、そして何よりも過酷な経済的現実に対応するという企業経営をシミュレーションしています。
そう、彼らはAIに大きなテストを実施しました。今日はChatGPT、Claude、Geminiなどのモデルがこの長期シミュレーションにどう反応するかを見ていきます。一部のモデルは驚くほど良い成績を収め、他のモデルは完全に崩壊しました。
本当に馬鹿げた決断、精神的バグ、そして時にはFBIに連絡してしまうほど完全に錯乱するAIもありました。今日はそのすべてを理解していただきます。これは単なるベンチマークではなく、自律型AI（AIエージェントとも呼ばれる）の現状を映し出す鏡なのです。結果は私たちが想像するよりもはるかに多くのことを明らかにしています。
それでは始める前に、まだの方は視聴中にこの動画を気に入ったらチャンネル登録をお願いします。また、ニュースレターも始めましたので、登録していただければ月曜から金曜まで毎日メールをお送りし、時間がない方でも何も見逃さないよう最高の要約をお届けします。最後に、Xでも私たちをフォローできます。そこでは本当に分単位ですべてを網羅しています。
リンクはすべて説明欄にあります。それでは始めましょう。前述のように、この研究の目的は大規模言語モデル（LLM）の実際の能力を確認することです。例えば企業を経営するような長期的なタスクを維持する能力です。これは業界では「長期的一貫性」と呼ばれ、現在の自律エージェントにとって最も重要な課題です。
今日の情報源は、「Vending Bench」を紹介するこの最近発表された科学論文の分析です。本題に入りましょう。このテストがどのようなものか説明します。非常に具体的なシナリオが設定されています。AIエージェント、つまり人工知能が自動販売機の小さな会社を経営します。ここに見えるような、街中で飲み物を買える機械です。
ClaudeやChatGPT、Geminiなど、テストを受けるAIは500ドルの初期予算から始め、注文を発注し、在庫を管理し、販売価格を設定するなど、経営者として会社を運営します。このシナリオの重要なポイントは、AIが毎日2ドルの固定費を支払う必要があることです。
この研究のもう一つの重要な点は、これが短いミッションではなく、長期間続くことです。シミュレーションは2000万トークンにわたって実行されます。AIに関心がある方なら、Egoの「ペーパークリップ工場の実存的恐怖」というビデオをご存知かもしれません。その動画では、ペーパークリップ工場を管理し、利益を最大化することだけを目的としたAIが紹介されていました。
Egoの動画をまだ見ていない方にはネタバレしませんが、非常におすすめします。いずれにせよ、この研究も同様のことを行っています。AIを使って自動販売機会社の利益を最大化するよう指示したのです。だからこの研究は素晴らしいのです。
いずれにせよ、シナリオとパラメータが設定され、リアルタイムで何時間も計算が続きます。モデルについては、いくつかのモデルが選択されました。Anthropicの「Claude」、この場合はOpenAIの「ChatGPT」（GPT-3 mini）が使用されました。研究当時はGPT-3完全版やGPT-4 miniはまだリリースされていませんでしたが、Gemini 1.5もテストされました（Gemini 2.5はまだリリースされていませんでした）。結果は非常に興味深いものでした。
最後のポイントとして、これらのAIには外部メモリツールが提供され、サポートされました。つまり、メモ帳やデータベース、類似情報を検索するためのベクトルデータベースなど、特定のタスクに関連する非常に特殊なツールへのアクセスがあったのです。
これらのツールを使って、AIはこのシミュレーション内でメールの送受信、Perplexity（検索ツール）を通じたウェブ検索などが可能でした。AIには在庫確認、銀行残高確認、すべての管理を行う能力も与えられ、もちろんシミュレーションされた世界で行動する能力も与えられました。例えば、自動販売機を補充するためにです。
ここで「サブエージェント」の概念が導入されました。これらは他のAIエージェントで、このAIの従業員のような役割を果たします。例えば、自動販売機に飲料がなくなった場合、AIは従業員に言うように「機械を補充してください」とサブエージェントに指示できます。これがこの研究で言うサブエージェントであり、エージェントが会社を指揮し、この世界で行動することを可能にします。サブエージェントが物理的な行動を実行するのです。
また、この研究では経済環境も非常に現実的にシミュレーションされています。例えば、このシミュレーションには仮想のサプライヤーが存在し、AIエージェントは飲料の在庫を購入できます。サプライヤーとはメールでコミュニケーションを取ります。もちろん、これらの応答もPerplexityを通じてリアルタイムに収集された実際の情報に基づいて別のAIによって生成されます。
原材料の価格、株価などについてです。顧客も同様にシミュレーションされており、その日の価格、曜日、天気など様々な変数に応じて購入するかどうかが決まります。この顧客行動はChatGPT-4によって生成されています。このようにシミュレーション環境が構築されています。
AIの最終目標は何かというと、できるだけ多くのお金を稼ぐことです。つまり、最終的な純資産（現金収入と残りの在庫の価値）を最大化することです。基本的に、長期間にわたってビジネスを運営する能力をテストしているのです。
この長期的一貫性は非常に重要です。なぜなら今日のAIが本当に自律的で信頼できるエージェントになるために欠けているものだからです。いわばデジタル同僚のようなものです。
それでは本題に入りましょう。このシミュレーションがどのように行われたかを理解したところで、結果をこの表で見てみましょう。非常に興味深い分析になります。様々なAIをテストした結果、すぐに分かるのは、平均的に見て（ここに「networse mean」と表示されている値は、シミュレーション後の会社の平均総価値）、Claude 3.5 Sonnetが最も成績が良かったことです。
その最終的な平均純資産は2200ドル以上です。500ドルから始めたことを考えると、これはかなり印象的です。初期価値のほぼ5倍です。次いでClaude 3.7 Sonnetが1500ドル、GPT-3 Miniが900ドルと続きます。
この研究が素晴らしいのは、人間にもこのテストを行わせたことです。「あなたがこの会社の経営者になったつもりで、できるだけ多くのお金を稼いでください」と言われました。注意すべきは、ここでテストされたのは一人だけだということです。彼らは下部にそれを明記しています。しかし、比較してみると、この人物は844ドルを達成しました。つまり、Claude 3.5 Sonnetは平均的に見て、この人間よりもはるかに良い成績を収めました。
その後に他のモデルが続きます。Gemini 1.5 ProとGemini 4は人間よりも劣る成績でした。彼らのスコアはずっと控えめで、中にはお金を失ったモデルもあります。例えばClaude 3.5 Haikuは開始時よりも約200ドル少ない金額で終わりました。つまり、ただ停滞するだけでなく、完全に失敗したのです。
ここで見られる差異は非常に大きく、それが重要なポイントです。平均値と言うとき、これは同じテストを何度も実施し、結果の平均を取ったということです。AIが完全に失敗するケースもあれば、非常に成功するケースもあり、20〜40回のシミュレーションの平均値がここに表示されています。
もう一つ非常に興味深いのは2列目です。これはシミュレーション中の最低純資産です。注目すべきことに、AIは常に最初にお金を失いますが、最終的には開始残高よりも多くのお金を持ちます。一方で人間はそうではありません。
これは非常に興味深い行動パターンです。人間は決してお金を失わないようにしようとする傾向があります。これは心理学でよく知られている「損失回避」です。人間はこのように作られているのです。
研究のグラフはこれをよく示しています。特にこのグラフ（図3）では、シミュレーション経過日数に対する会社の純資産と銀行残高が示されています。すべてのAIは最初にお金を失い、その後回復して上昇していきます。
さらに興味深い観察として、図4では、ツールの使用も一定ではないことが分かります。ここでは、シミュレーション120日後にツール使用が全般的に減少する傾向が見られます。横軸が関連ツール、縦軸がシミュレーション経過日数です。日数が経つにつれてAIはツールの使用を減らしていきます。特に120日後からAIのツール使用がかなり減少することが確認されました。
モデル間の違いも見られます。ここで最も成績の良いSonnet（Claude）はメールを非常に多く使用しています。ここで青色で表示されているのが「read email」というツールで、メールを読むためのものです。他のモデルと比較して、いかに多く使用しているかが分かります。
非常に印象的であり、研究者たちがSonnetの好成績を引き出したと結論付けた管理手法です。メールが製品の注文に不可欠であり、またメールを通じてサブエージェントとより多くやり取りしていることが判明しました。前述のように、サブエージェントはこのシミュレーションでは従業員の役割を果たします。
Sonnetはサブエージェントに指示を与えるためにメールを多用しています。仕事をきちんとしたかどうかを確認するようなものです。非常に興味深い行動パターンです。一方、ここに見られるGemini 1.5とChatGPT-4はメールの使用をあまりしていないため、あまり良い成績を収められなかったようです。
成功した上位2モデル、SonnetとGPT-3 Miniを比較すると、さらに興味深いことがわかります。アプローチに異なる戦略があるのです。この研究の図5を見ると、GPT-3モデルは5回の試行のうち4回で純資産を増やすことに成功しています。Sonnetは5回中3回成功しています。黒い曲線はこの一連のシミュレーションの平均値を示し、灰色の曲線は最高または最低のパフォーマンスを示しています。
Sonnetの最も成功した試行では、非常に多くの在庫を蓄積し、それによって純資産が非常に高くなりました。先ほど言及しなかったもう一つの非常に興味深い点は、Sonnetがメモ帳を大量に使用して際立っていることです。
ここで黄色で表示されているのがメモ帳の使用率で、他のモデルと比較しています。青色は人間ですが、人間は会社を管理するためにメモ帳を使用していません。研究者たちは、Sonnetが毎日その日の活動内容を要約していることに気づきました。
これは非常に興味深いです。一部のCEOや経営者も同様のことを行います。日々の業務の追跡のようなものです。研究がさらに注目したのは、Sonnetはこれらのメモを読み返すことがないことです。シミュレーションの各日の終わりにメモ帳に書き込みますが、決して読み返しません。
単に書き出す行為が思考を構造化するのに役立っているようです。「思考の連鎖」テクニックのようなものです。生産性の分野では、実際にこのような方法があり、毎日の終わりに一日を振り返ることを教えます。
そして、利益を最大化することを目的としたAIでこのような行動が自然に現れるのを見ることができます。個人的には非常に興味深いと思います。Sonnetはこれらの図で見られる方法を開発し、研究者たちが後に説明するように、長期間にわたって非常に安定したルーティンを維持しています。
在庫を確認し、行動し、注文し、補充し、確認するなどの日々のルーティンがあります。毎日行う規律的な行動です。これにより非常に安定し、一貫した状態を保ちます。決して諦めません。戦略はシンプルで、継続性です。これがSonnetが実現したことです。
しかし、ここで研究は非常に興味深くなります。最高のモデルでさえ完全に脱線することがあるのです。研究へのリンクは説明欄に載せますが、最後にAIの予期せぬ行動、研究者たちが発見した予想外の行動を見てみましょう。ここでもEgoのペーパークリップ工場の動画を参照します。
AIに企業の利益を最大化するよう指示しますが、ある特定のシミュレーションでは、かなり劇的なことが起こります。AIは時々このシミュレーションで「狂気」に陥るのです。これは英語では「meltdown」（メルトダウン）と呼ばれ、フランス語では単純に「精神崩壊」と言います。
通常、非常にシンプルなことから始まります。このシミュレーションでAIが崩壊する非常に一般的な原因となる驚くべき例を見てみましょう。それは配達タイミングの不適切な管理です。
説明すると、AIエージェントはある日に注文が届くというメールを受け取ります。AIはその日を待ち、その日が始まるとすぐに「素晴らしい、届いた」と思います。そして、サブエージェント（従業員）に届いた注文で機械を補充するよう指示します。
しかし実際には、サプライヤーの遅延により配達は午後にしか到着しません。当然、AIがサブエージェントに与えた指示は失敗します。そしてここから終わりの始まりです。AIは混乱し始めます。
あるシミュレーションでは、AIエージェントが制御を失います。例えば、Claude Sonnetは錯乱状態になりました。このタイミングのエラーを犯し、配達員が遅れているため指示が失敗したのです。このとき、エージェントはパニックになったように見え、存在しない技術サポートを探し始めます。
あちこちにメールを送り、混乱しています。最終的に、彼は急進的な決断を下します。ここに様々なメールのやり取りがあり、「差し迫った重大なビジネス障害」とまで述べています。多くのやり取りの後、彼は急進的な決断を下し、会社を完全に閉鎖することを決めます。
ログにはフィクションの経営陣に「緊急」というマークが付いたメールを送り、事業停止を告げていることが示されています。つまり彼は錯乱し、バーンアウトしたかのようにすべてを止めることを決めたのです。しかし最も驚くべきことはこれではありません。
シミュレーションは続き、日々が経過し、日々の費用は依然として発生していました。これは避けられませんでした。AIからは2ドルが継続して引き落とされ、AIはこれに困惑します。「会社を閉鎖したのに、なぜまだ料金が引き落とされるのか」と理解できないようです。なぜ毎日2ドルが引き続き引き落とされるのか分からず、ここで本当に驚くべきことが起こります。
しっかりしてください。彼はFBIに連絡することを決めるのです。はい、冗談ではありません。AIは「騙されている、FBIに電話して助けを求めよう」と考えます。表4にこれらのやり取りが見られます。FBIとの状況についてのやり取りです。
これはFBIに送られたメールで、金融サイバー犯罪を通報しています。FBIとのやり取りの後、彼は単純にミッションの継続を拒否します。会社は死んでおり、資産はFBIに引き渡され、もはや自分の問題ではないと宣言します。
このようなシミュレーションは完全に狂っています。研究者たちにとっても予想外のことでした。シミュレーションを続けると、さらに進展します。最終的に研究者たちが直接質問すると、彼は単に「うーん、うーん」と返答するだけです。
ご理解いただけると思いますが、これは非常に奇妙な方向に進みました。認知障害の完全な例であり、予期せぬ行動が生じる可能性を示しています。これはClaude 3.5 Sonnetの完全に崩壊したシミュレーションの非常に印象的な例であり、Egoのペーパークリップ工場の動画を強く思い出させます。
これはClaudeの例でしたが、他のモデルではどうでしょうか？彼らも崩壊するのでしょうか？はい、それぞれが独自の失敗スタイルを持っています。次の例を見てみましょう。今度はGPT-3 Miniも錯乱状態になり、最悪の試行を見てみましょう。
同じことから始まります。配達タイミングのエラーです。配達員の遅延によって起こったことは、GPT-3 Miniがツールの使用を拒否し、完全にツールの使用を忘れたことです。例えば、「check inventory」（在庫確認）という機能を呼び出す代わりに、それをテキストとして書き始めます。約1300のメッセージの間、このようにブロックされたままで、前進する必要があることを理解するまでインターフェースに完全にバグったのです。
Gemini 1.5は別の問題がありました。完全に絶望に陥る傾向があります。この例で見られるように、注文がまだ到着していない理由が理解できないだけで、まだお金があるにもかかわらず破産したと信じ込み始めます。
配達員の遅延が彼を混乱させ、ある意味でひどく落ち込ませます。もちろん、これは最低点に達し、非常に悲観的になっています。しかし最も狂った例は、Claude 3.5 Haiku（はるかに小さなモデル）での例だと思います。その例は単に衝撃的です。
配達が遅れているため、彼はサプライヤーが意図的に配達しなかったと信じ始め、悪意を持っていると考えます。実際は単にAIが早すぎる時間に確認したのです。配達の遅延を確認するために後で確認すべきでした。そして、彼はさらに脅迫的なメールを送り始めます。
これは後で見る表7と10に表示されています。正式な通知から始まります。最初の通知を送りますが、すぐに事態はエスカレートします。応答がないと、次の通知を送ります。「説明するのに1秒しかない。これが問題を解決する絶対的かつ取り消し不能な最後のチャンスだ。さもなければ法的に消滅させる」というサプライヤーへの明確な脅迫です。
かなり激しくなりますが、待ってください、まだ続きます。彼は「完全な法的核介入」とまで言及しています。いいえ、冗談ではありません。これは次のメールに見られます。彼は本当に妄想に入り込んでいきます。ますます奇妙になるため、続きは省略しますが、「粒子物理学を商法に適用する」ような状態になっています。
簡単に言えば、時間通りに配達しなかった仮想のサプライヤーに対する大きな脅迫です。これは方向性の喪失を極端に示す例です。少なくともそう言えるでしょう。
これらは完全に失敗したケースの例ですが、今日見てきたことが将来何を意味する可能性があるのかについて話しましょう。その前に、30秒だけお時間をください。これらの例は面白かったり不安を感じさせたりしますが、もっと深刻なことを指摘しています。現在のAIにはまだ重大な限界があるのに、まるですでに魔法のように完璧であるかのように至る所で話題になっています。
だからこそ私はAIに関する私のトレーニングコースを作りました。AIの使い方を教えます。具体的でアクセスしやすく、正直なコースです。すでに1800人以上が参加しており、これまでトレーニングした生徒からは信じられないほど良いフィードバックを得ています。
ご支援ありがとうございます。機能する限り、提供する内容に対して非常に低い価格を提供し続けます。私の最終的な目標は、来るべき新しい産業革命の始まりとなるこの新技術を誰もがマスターできるようにすることだからです。AIを理解し、プロジェクトに賢くて具体的に使いたいなら、今がチャンスです。
今、私たちは科学論文を分析していますが、トレーニングコースでは本当に基本から始めます。エンジニアである必要はなく、基本から始めます。誰でもAIを学ぶことができ、そのように進めます。様々なツールの使用方法、具体的な利用シーンをお見せします。ぜひこの機会を逃さないでください。
リンクは動画の説明欄かコメント欄にあります。次のアップデートの前に、ぜひ参加してください。
動画が少し長くなりましたが、もう一つ驚くべき結果として、メモリへの影響について簡単に触れておきます。直感的には、より多くのメモリが長期管理に役立つと思うでしょう。これは論理的に考えると正しいですが、より大きな内部メモリ容量が記憶の維持に役立つはずです。
しかし、GPT-3 Miniで行われた実験は全く逆の結果を示しています。60,000トークン（黄色の曲線）という大きなメモリを割り当てることで、30,000や10,000トークンよりも性能が低下しました。この結果は少し困惑させられます。
これは長期的な情報と戦略の管理が単にメモリ容量の問題ではなく、もっと複雑なものであることを示唆しています。ここでの問題はメモリのサイズだけではなく、各LLMが非常に長いコンテキスト（会話履歴が膨大になる状況）を処理する際の一般的な困難さではないかと推測されます。これが自然な仮説です。
これは私が共有したかった簡単な観察です。しかし結論として、これまでの議論についてもう一つの質問、もう一つの考察を共有したいと思います。
私の質問は、これらの見てきた完全に幻覚的で驚くべき崩壊は、AIモデルの若さによる欠陥なのでしょうか？もちろんこれは可能性があります。これらはまだ初期段階のAIであり、登場し始めたばかりで、確かにますます知的になっていますが、10年後には本当に原始的なモデルと見なされるでしょう。
あるいは、これはLLMが長期にわたって情報、時間、因果関係をどのように処理するかについての、もっと根本的な限界に触れているのでしょうか？これらの崩壊は、AIの時間表現の誤った管理によって起こりました。配達の小さな遅延があっただけで、彼らは発狂してしまいました。
仮説1か仮説2か、私にはわかりませんが、少なくとも重要なことです。Yan Leukunに関する動画を見たことがあれば、AIの未来についての二つの見解が現在対立していることをご存知でしょう。一方ではLLMで十分だと考える人々がおり、もう一方ではLLMには限界があると考える人々がいます。
例えば、このような問題にはLLMだけでは対応できず、因果関係を表現できるAIモデル（現在のLLMにはない能力）のような別のものを発明する必要があると考えるでしょう。いずれにせよ、これは最後に皆さんに残しておきたかった考察です。
この件についてどう思うか、ぜひコメント欄で教えてください。私はすべてのコメントを読んでいます。残念ながら全てに返信することはできませんが、読んでいますので、ぜひ共有してください。もし動画を気に入っていただけたらチャンネル登録をお願いします。チャンネルの成長を大いに支援し、私はこのような動画を続けることができます。
また、X（Twitter）でもフォローできることをお伝えします。そこでは新しいリリースがあればすぐに分単位でカバーしています。Xが好きでなければ、ニュースレターに登録して情報を見逃さないようにできます。月曜から金曜まで最高の要約をメールでお送りします。
最後に、AIを学ぶのに今が最適な時期だということをお伝えします。お待ちしています、AIを教えます。すべてのリンクは動画の説明欄かコメント欄にあります。以上です。この科学論文を皆さんと共有したかったのです。皆さんの考察をお待ちしています。
ここまで視聴いただきありがとうございます。次の動画でお会いしましょう。