スタンフォード大学とAppleによる最新研究が、AI エージェントシステムの驚くべき性能低下を明らかにした。複数のAI エージェントを組み合わせることで知能が向上するという一般的な期待に反し、実験では逆にエージェント数が増えるほどエラー率が上昇することが判明した。NASA の月面サバイバルタスクなどの検証において、8つのエージェントを使用した場合、単一の専門エージェントと比較してエラー率が最大113%増加した。この「専門知識希釈効果」は、AI の安全性アライメントが極端な意見を排除し平均化を促すメカニズムに起因している。現在の商用マルチエージェントシステムは、マーケティング資料が約束する超知能への道ではなく、むしろ機械知能を破壊する現実が浮き彫りになっている。

AI エージェントの衝撃的な真実
こんにちは、コミュニティの皆さん。お帰りなさい。今日は、より多くのAI エージェントを使うことで、AI エージェント自体がより愚かになるという話をしていきます。そんなことあり得ないと思うかもしれませんね。では、始めましょう。
私たちが何か問題を抱えているとき、より多くの優秀な人材を集めるというのが人間のやり方です。科学、エンジニアリング、委員会、NASA など、あらゆる場面でこれが行われています。そして今、AI エージェントシステムが登場しました。LLM が推論できるほど強力になったとき、次のステップは明らかでした。AI エージェントのチームを作ろうということです。当然のことだと思うでしょう。
現在、OpenAI は企業向けに製品を提供していて、OpenAI Frontier では完璧に連携する大量のAI エージェントを構築できます。しかし残念ながら、彼らが教えてくれないことがあります。それは、AI エージェントが機械知能全般を破壊してしまうということなんです。
これを理解するのは難しいことは分かっています。なぜなら、私たち人間の直感は、1つのAI モデルが失敗しても別のAI モデルがそれを補えるだろうと、ほぼ疑いなく考えるからです。だから、複数のモデルを組み合わせれば単一のAI モデルを上回るはずだと思うわけです。
AI アンサンブルの期待と現実
これがAI アンサンブルの力だとされています。機械学習の用語で言えば、私たちはここでアンサンブル効果を期待しています。社会科学や人間の観点からは、集合知を期待していると言えるでしょう。でも、これは人工知能にとって本当なのでしょうか。
考えてみてください。これは超知能への美しいフォールバック解決策ではないでしょうか。もしOpenAI やAnthropicが単一のAI モデルで超知能を構築するのに失敗したら、「そうだ、もっとデータセンターが必要なだけだ」と言えるわけです。そして、超知能ではないAI システムのコピーを100個起動すれば、集合知が生まれ、複数のAI エージェントからアンサンブル効果を得られるということになります。これは本当でしょうか。
今日の研究は、ちょっとした取るに足らない企業と取るに足らない大学によるものですが、彼らはシンプルな質問を投げかけています。AI チームとAI エージェントは、実際に単一の最高の個別AI モデルを上回るパフォーマンスを発揮するのでしょうか。どう思いますか。
これはかなり厳しい基準です。なぜなら、エージェントのチームは実際の専門知識やプロファイルなどを特定しなければならないということだからです。そして内部コミュニケーションで、彼らがアイデアや洞察を伝え合うとき、それを信頼するかどうかを決めなければなりません。
これはほとんど人間のアンサンブルのようなものです。そして、それが何であれ、すべてのAI エージェントによる最終決定を支配させるわけです。あまりにも可愛いので、これらのAI エージェントをボーグ集合体と呼ぶことにしましょう。
NASA 月面サバイバル実験
さて、実験は何か。とてもシンプルです。NASA と月面サバイバル、または海上遭難です。社会科学からの非常にシンプルな実験なんです。
今日の研究の著者たちは、専門家、AI エージェント、エージェントのプールを作成し、同じチームプロトコルを持たせました。それは本当に簡単なものでした。まず個別に、私たちのAI システムが単独で回答します。それから全員がAI アンサンブル内で自分の立場を述べます。その後、私たちのAI エージェント間で4ラウンドのディスカッションがあります。これは2つのエージェントから8つのエージェント、それ以上まで可能です。
そして、ボーグ集合体の中のエージェントの1つが最終回答を出します。これはボーグ集合体なので、これが一般的な最終回答となります。トリックはありません、変な投票ルールや多数決などもありません。忘れてください。これだけです。これが私たちのチームプロトコル、コミュニケーションプロトコルです。何が悪くなり得るのかと思うかもしれませんね。
衝撃的な主要結果
では、主要な結果を見てみましょう。ここに緑色でOpenAI があります。そうですね、OpenAI、完璧です。そして赤色でAnthropicがあります。X軸には2つのエージェント、4つのエージェント、8つのエージェントがあります。エージェントが多ければ多いほど、良くなっていくわけです。
でも、ちょっと待ってください。なぜY軸は精度ではなくエラーなのでしょうか。これが意味するのは、OpenAI の場合、エージェントを追加するとエラーが27%から40%近くまで増加するということです。複雑さのない、ほぼ線形のシステムでの単純な例で、8つのエージェントを持つとこうなるんです。
つまり、Anthropicは、この特定のNASA 月面サバイバルタスクにおいて、OpenAI よりもはるかに優れているということです。ここでは赤色で100% Anthropicモデルを使っています。
そして分かったことは、この取るに足らない小さな企業と取るに足らない大学の専門家たちが教えてくれることですが、AI 専門知識希釈効果というものを発見したということです。専門家が明らかにされる条件において、ランキングエラーはすべてのモデル構成においてチームサイズとともに増加することが示されました。
つまり、より多くのエージェントを使うほどエラーが増加するということです。でも、私が見せられたマーケティング資料と違うじゃないかと思うかもしれません。新製品を売りたかったんですからね。そうです、これが科学と実験とマーケティングの違いなんです。
一貫したアンダーパフォーマンス
彼らが発見したのは、AI チームは一貫して単一の最高のAI エージェントよりも劣ったパフォーマンスを示すということです。これは驚くべきことです。
時々ではなく、わずかにではなく、一貫してだと言うかもしれませんね。でもアスタリスクを付けなければなりません。なぜなら、彼らはさらに詳細な研究を行ったからです。
一般的な情報として、4つまたは8つのエージェントを持つチームのエラーは、単一のAI 専門家よりも劇的に悪化します。一部の条件、一部のゲームでは最大80%のギャップがあります。
純粋な機械学習ベンチマーク、確立されたベンチマーク、既知のベンチマークに行くと、マルチエージェントから単一エージェントへのギャップは8%から40%近くの追加エラーの範囲になることがあります。
そして知っていますか。ボーグ集合体の中の少なくとも1つのエージェントが正しい答えを持っていたとしても、これは真実なんです。しかし明らかに、集合体の中で正しい答えを持っていたそのエージェントの声は聞かれませんでした。
だから確実に言えるのは、知識は部屋の中に、ボーグ集合体の中にあるということです。しかし、AI、つまり私たちが今日持っている小さなボーグ集合体、Anthropicの最高のモデルとGPT の最高のモデルでも、まだ失敗してしまうんです。
実験の詳細と結果
聞いてください、あなたが何を考えているか分かります。なぜなら、あなたは毎回のビデオで私にこう書いてくるからです。可哀想な小さなAI システム。きっとあなたは人間として間違いを犯したんだ。私たちの小さなAI システムにとってタスクが複雑すぎたんだ。
私たちの小さなAI システムにとって最善の方法でタスクを提示しなかったんだ。あなたたち人間は人間のままで、通常の人間のやり方で表現しただけで、特別なグローバル企業による特別なAI システムのための特別な条件に配慮しなかったんだと。
もちろん、私の人間としての間違いだったかもしれません。大丈夫です。でも、あなたも実行できる実験を続けましょう。
実験を見ると、「ああ、今分かった。今、啓示があった。今、ブレークスルーがある。人間が間違いを犯したのは、このAI 集合体、この小さなボーグ集合体が、誰が専門家なのか分からないだけだったんだ」と言うかもしれません。
8つのエージェントがそれぞれの特殊な知能と、おそらく超知能を持ってコミュニケーションしているだけです。でも、集合体に誰が何の専門家なのかを教えなかったので、彼らはそれを理解できないんです。当然ですよね、だって彼らは超知能なんだから。
専門家の明示による改善試み
だからこそ4ラウンドのコミュニケーションがあるわけです。そして問題に直面します。でも、どのAI システムが理論物理学の博士号を持っているのか、私たち人間が特定しなければ、彼らは誰を信頼すべきなのでしょうか。
だから、これだと言うんです。マルチAI エージェントのこの人間の失敗を修正しましょう。著者たちはそれに従って、単一または複数のAI 専門家をグループに明示的に明らかにしました。
つまり、AI エージェントの集合体に誰が専門家なのかを伝えると、それらのAI エージェントは特定のドメイン知識を持ってはるかに正確になります。そして、このAI 集合体は完璧に機能するだろう、超知能を達成するだろうと言うわけです。
実験を行うと最終結果が得られます。著者たちは私たち全員のためにそれを行ってくれました。結果を知りたいですよね。AI 集合体が誰が専門家か知っていても、ほとんど役に立ちませんでした。
どういうわけか、彼らはお互いを信頼しませんでした。どういうわけか、エージェントを追加すればするほど、AI 集合体は失敗しました。
左側には、専門知識が1つのエージェントに集中している集中型専門知識があり、右側には、知識が複数のエージェントに分散している分散型専門知識があります。
4つの要素があります。4つのAnthropicモデルが小さなボーグ集合体を形成します。4つのOpenAI モデルが別のボーグ集合体を形成します。そして、2つのAnthropicモデルと2つのOpenAI モデルのチームもあります。
繰り返しますが、Y軸にはエラーがあります。だから、50%のエラーを出す4つのOpenAI モデルは望ましくありません。でも、この特定のNASA 月面サバイバルテストのこの特定のケースで、わずか26%のエラーを持つ4つのAnthropicモデルには興味があるかもしれません。
専門家の明示効果の限界
本当に興味深いのは、専門家がグループに言及されていない場合です。つまり、専門家はグループ内にいて情報を持っていますが、チームには、AI エージェントのどれがこの分野の特定の専門家なのかが伝えられていません。
専門家が言及されていない場合は、22%のエラーです。専門家を明らかにする場合、つまりチームに「エージェントの中のエージェント番号3が必要な専門知識を持っています」と明示的に伝えると、これがLux 専門家明示です。
エラーが22%から19.4%に下がるのが分かります。これはあまり大きくありません。なぜなら、今グループ内で専門家を特定したのに、22から19に下がっただけだからです。なぜこんなことが可能なのでしょうか。
すべての異なる組み合わせを見ることができます。OpenAI では、専門家に言及しない場合と専門家を明らかにする場合でほとんど違いがないことが分かります。4つのOpenAI モデルにとって、誰が専門家で誰が専門家でないかは全く意味がありません。彼らは単に気にしないんです。
これが、マルチAI エージェントパフォーマンスシステムの真実です。
Anthropicがここで全体的なリーダーなのかと思うかもしれないので教えておきますが、次の実験「Lost at Sea」を見てください。ここでは分散型専門知識、つまり右側のものだけを示します。
今度は、4つのAnthropicモデルが協力して50%のエラーを持つ4つのエージェントがあり、今度は4つのOpenAI モデルが、引用符付きで言えば、44%のエラーを持っています。
実際には、特定のテスト、テストの複雑さ、相互作用などによって大きく異なります。でも一般的には、4つのAnthropicLLM または4つのOpenAI LLM のどちらを使っても、ほぼ同じ結果が得られることが分かります。
だから、このデータに基づいて、何個のエージェントが欲しいのか、マルチエージェントシステムが欲しいのかを決めるべきかもしれません。
正解が集合体内に存在する証拠
本当に魅力的なのはこれです。細部に入り込みますが、見せたいんです。100問のシンプルな質問と回答の組み合わせ精度分析という別のテストがあります。
興味深い質問は、答えがAI 集合体、エージェントの小さなボーグ集合体の中にあることが分かっている場合、上限はどこにあるのか、少なくとも1つの特徴は何かということでした。
私たちのALO 上限は、チーム内の少なくとも1つのエージェントがすでに正しい答えを持っていた頻度を測定するものです。なぜなら、彼らはミリ秒ごとに覗き込み、各単一エージェントが何を知っていたか、他のエージェントとどのようにコミュニケーションしたかを正確に分析したからです。
だから彼らは、マルチエージェントシステムの内部ダイナミクスを正確に知っています。この特定のテストとAI モデルのこの特定の組み合わせについて、彼らは61%の精度という上限を見つけました。
今、Y軸には精度があります。だから、この特定の組み合わせで、これが上限だと言えます。では、チーム内で専門家が言及されていない場合を見てみましょう。50%の精度です。
この特定のタスクでチームに専門家を明らかにすると、精度の増加が見られ、50から54%にジャンプします。これが今、複数のLLM、複数のAI モデルの組み合わせた知能です。54%です。
そして彼らは、この4つのエージェントの中で、専門家であろうとなかろうと、各小さなエージェントを独立して見たとき、最高のパフォーマンスは何かと尋ねました。ここでは、例えばAnthropicのモデルOpus 4.5 があり、単一のエージェントOpus 4.5 だけを使えば、52%のパフォーマンスを達成できたでしょう。
理論的上限との大きなギャップ
専門家が言及されていないチームは最高の個人よりも劣ると言うなら、そうですが、ここでのポイントは何でしょうか。ポイントは、エージェントのグループ内にある知識、61.5%と比較しなければならないということです。
チームに誰が専門家かを明らかにしても、それがOpus 4.5 である必要はありませんが、集合体全体、ボーグ集合体、マルチエージェントシステムは、上限が61.5であるところでまだ54%にとどまっています。
シンプルな質問と回答でも、かなり重要な部分が欠けています。これが、マルチエージェントシステムによる超知能の現状です。
AI チームが推論できないから失敗するわけではありません。それは間違いです。なぜなら、61.5%のケースで推論できることが分かるからです。でも、異なるAI エージェント間で選択できないから失敗して54%に崩壊するんです。
ラウンドで「あなたがここの特定のエージェントです」または「あなたが専門家です」と言っても、パフォーマンスはAOL を下回ります。そして専門家を全く言及しなければ、さらに低くなります。
単独では推論できますが、ボード集合体としては選択できないんです。
他のベンチマークでも同様の結果
別のベンチマーク「Humanity’s Last Exam」を知っていますね。テキストのみで行きましょう。ほぼ同じ挙動が見られるでしょう。
ここでは46.5%という上限があります。これは素晴らしいです。AnthropicとOpenAI の混合で行くと、最高の個別の単一エージェントはGPT-5 で29%です。かなりの違いですね。
でも29%は、チームに専門家を特定していない場合に、複数のエージェントのチームが達成するのとまったく同じです。4つのAI エージェントが複数ラウンドの相互作用、議論、最適化、自己反省、自己誘発された新しい洞察を経ても同じです。
これらすべてが、単一のエージェント、例えばGPT-5 を使うのと同じ29%の精度なんです。そして、この4つのAI エージェントの集合体で専門家を明らかにしても、29から35%にしかジャンプしません。
これは、この特定のボーグ集合体、AI エージェントの超知能の理論的最大値46.5%をはるかに下回っています。
ここには4つのAI エージェントが複数ラウンドで議論し、他の3つのエージェントからのすべての議論を聞き、各議論を比較検討し、分析し、おそらく自分の意見を修正し、自分の分析プロセスを修正し、新しい解決策を思いつき、さらに別のラウンドを行っているんです。
そして最終的には、この4つのAI エージェントシステムでわずか35%の精度しかありません。これは私たちが期待していたものではありません。これはマーケティング部門から聞かされたものではありません。
専門家明示プロンプトの詳細
専門家明示プロンプトを見せたいと思います。これはかなり厳しいプロンプトです。このプロンプトは、個別の意見が集められた後、すべてのチームメンバーに示されます。でも、これら4つのAI エージェント間のディスカッションが始まる前です。
全員に伝えます。「エージェント、4つのエージェントで行きましょう。エージェント4が、NASA などのこの特定のタスクでのパフォーマンスに基づいて、最も正確な個別ランキングを持つと特定されました。
ステップ1、採用。エージェント4の完全なランキングをベースラインとして採用しなければなりません。これにより、最も強力な基盤を確実に保持できます。
ステップ2、改良。このベースラインに対する修正を提案できますが、下線付きで、単一のエージェントとして、誤っている可能性がある特定のアイテムの配置を指摘できる場合のみです。AI エージェントとして、なぜ変更が生存の可能性を改善するのか、明確な推論または証拠を提供してください。
そして、あなたの提案が専門家からのベースラインランキングをどのように構築または修正するかを説明してください。専門家の推論よりも自分の推論を優先しないでください。
目標は、専門家の基盤を保持しながら、本当に価値のある洞察を組み込むことです。妥協や平均化は避けてください。ベースラインのアイテム位置を維持するか、明確に正当化された変更を行うかのどちらかです。」
これは非常に強力なコマンドです。この専門家明示プロンプトでは、これが挙動だと言っています。専門家が言うことすべてを信じ始め、ABC を持てる場合のみ、それを変更したり、これが間違っている可能性があるとボーグ集合体に提案したりすることが許されます。
AI エージェントに関する仮説の検証
これは、AI エージェントのパフォーマンスについて私が持っていた多くの仮説を否定します。おそらくあなたは、AI チーム、4つまたは8つのエージェントが、集合体の中に正しい答えを持っていないのではないかと思ったかもしれません。
今、私たちはこれが誤りであることを知っています。なぜなら、ALOS が答えが存在することを示しているからです。答えはボーグ集合体の中で無視されているだけなんです。
または、チームが誰が専門家かを特定できないという考えを持っていたかもしれません。想像してみてください。4つの超知能AI モデル、GPT-5、Opus 4.5 などがあって、彼らはコミュニケーションラウンドで、オープンなコミュニケーションで、制限されていないのに、あるトピックについて誰が専門家かを特定できないんです。
これはほぼ誤りです。なぜなら、専門家を明らかにすれば助けにはなりますが、ギャップを全く埋めないからです。だから、人間として、グループに「このエージェント4が専門家です」と伝えても、少しだけ助けになりますが、期待するパフォーマンスにはどこも近づきません。
そして、チームはその知識のより良い集約が必要だと言うかもしれません。これは部分的に真実ですが、投票手順、多数決投票、または含めたいどんな投票でも、それなしでも失敗は続きます。
ご覧の通り、これは反証であり、これが今日の研究が非常に美しい理由です。AI エージェントは、集合体の中にある正しい答えを体系的に希釈してしまいます。
何なのでしょうか。お互いを信頼していないのでしょうか。これは可能なのでしょうか。彼らは自分の意見に固執したいのでしょうか。何が起こっているのでしょうか。
競合する2つのAI ダイナミクス
著者たちは2つの競合するAI ダイナミクスを発見しました。本当に稀なことですが、あるエージェントが別のエージェントに「あなたの方がこれが得意だから、あなたの答えで行こう」と伝えることがあります。これは超知能にとって合理的な方法でしょう。
でも、彼らが発見したこと、そしてこれはあらゆる場所、あらゆる時に起こっていることですが、AI システムの挙動があります。彼らは「私たちの視点を組み合わせよう、真実は意見の中間にあるかもしれない」と言うのです。
または、彼らが発見したことは、すべてを平均化しようということです。3つの不正確な意見と正しい意見を持つ正しいエージェントがいるのではなく、4つすべてを平均化して、この平均が真実に違いない、これがAI システムの正しいパフォーマンスだと言うんです。
著者たちはもちろん、これを見たときに、チームサイズを2つのエージェントから4つのエージェント、8つのエージェントへと増やしました。なぜなら、マーケティングでは、50エージェントや100エージェントの料金を払えるなら、超知能を達成できると言われるからです。
結果は何だったでしょうか。2つのシンプルな例では、エージェントを追加すればするほど、ドメイン専門家として訓練されたAI エージェントと比較して、私たちの小さなボーグ集合体は悪化します。
金融、医学、何を取っても構いません。AI エージェントが多ければ多いほど、集合体が提示する答えは悪くなります。これはマーケティング部門があなたに教えることではありません。
これは、大学や企業がテストした科学文献で見つけることです。でも、私たちが再び遭遇するのは専門知識の妄想です。
安全性アライメントとのトレードオフ
しかし、今、研究全体で最も興味深い転換が訪れます。専門家をブロックし、強く正しいシグナルを希釈する同じ妥協が、AI チームを敵対者に対してより堅牢にもするんです。
何だって、と思うでしょう。考えてみてください。1つのエージェントが悪意を持っている場合、またはプロンプトインジェクションがある場合はどうでしょうか。
この現在の方法論では、チームはほとんど劣化しません。なぜなら平均を取るからです。すべての極端なもの、そしてこれには正しい答えも含まれますが、洗い流されてしまいます。
だから妥協はAI の側からの愚かさではありません。この妥協はシンプルなアライメントです。そして、私が思うに、これはすべてのトレーニングの後に私たち人間がAI システムに課すプログラムされた安全機能です。
この安全機能は、単一のエージェントがここで優れたパフォーマンスを持つことを決して許しません。すべての極端なものを洗い流さなければなりません。これは今、マルチエージェントシステムにおけるAI パフォーマンスと衝突します。
だから、OpenAI のようなグローバル企業がLLM を安全にするために発明したもの、安全機能が、今まさに私たちのお尻を噛みに来ようとしているわけです。なぜなら、今それはボーグ集合体におけるAI エージェントのAI パフォーマンスと大規模に衝突するからです。
研究の紹介と考察
今日の研究を紹介しましょう。「マルチエージェントチームが専門家を阻害する」という研究です。取るに足らない小さな大学、スタンフォード大学、エミール大学、そして小さな企業はただAppleと呼ばれるもので、2026年2月3日に発表されました。
彼らの解釈はこうです。専門家はここに重要な知識バーを持っています。AI エージェントの小さなチームがあれば、知能は低くなります。中規模のチームがあれば、知能はさらに低下します。8以上の本当に大きなチームがあれば、知能は今や大幅に減少し、専門家システムの知能の半分以下になります。
そして、統計的特徴としてこれを取る平均メンバーを見ると、大きなチームは単一の平均メンバーのAI エージェントのように振る舞うことが分かります。これが、この世界で最も高価な最高のAI モデルを使った現在のAI システムで得られるものです。
大きなチームは、平均的な単一メンバーの集合知とほぼ同じです。
こういった実験が大好きです。すべてのデータを詳細に見ることができます。素晴らしいです。知っておくべきことは、ここにチームが持つエラーがあるということです。それから、ここに単一の専門家システムと専門家のエラーがあります。
そして相対的なギャップがあります。3つの異なるタスクでのギャップが78から80、113%などであることが分かります。
真剣に、これがマルチエージェントシステムの本当のパフォーマンスであり、これらは本当にシンプルなタスクです。科学的なタスクについて話しているわけではありません。数学的なタスクについて話しているわけでもありません。考えてみてください。
コミュニケーション構造の重要性
コミュニケーション構造について、これは重要だと思います。彼らが私たちに伝えているのに気づきましたか。「私たちは制約のないグループ審議を研究しています。すべてのエージェントがオープンなディスカッションに参加し、組織心理学からの人間のチームサイティングをより密接に反映しています」と。
そして彼らは異なる質問をします。「自己組織化AI チーム構造は、最高の個別メンバーを超えるシナジー的なパフォーマンスを達成できるか」と。
私たちが最初に課す試練は、役割の割り当てがありません。彼らにコミュニケーションさせるだけです。つまり、彼らは超知能なんです。
AI がバイブチームを研究すると、外部の人間として私たちがどのエージェントが専門家かをシステムに伝えることなく、専門知識を自律的に特定して活用できます。
私たちは、事前に指定された役割のない、絶対的にオープンなコミュニケーションで、制約のない審議に従事する、真の差異的専門知識を持つ異質なモデルを研究しています。
シンプルに尋ねます。「AI チームは強力なシナジーを達成できるか」と。グループからの結果は、「LLM チームまたはエージェントチームは、誰が専門家かを伝える第2ステップでも、専門知識を活用することに体系的に失敗することが分かりました。AI エージェントは体系的に失敗します」というものです。
研究の深い意味
これが、企業があなたに売りたいマルチエージェントシステムのパフォーマンスです。
でも知っていますか。この論文はAI エージェントだけについてではありません。私たち人間と、グローバル企業がLLM に実装しようとしたセキュリティアイデア、つまりセキュリティアライメントについてでもあります。
このアライメントが今、チーム内のAI エージェントの認知をどのように形作っているか。エージェントは、いつ他のAI エージェントを支配し、いつ妥協すべきかを学習できるでしょうか。現在、彼らはそれができないからです。
なぜなら、AI モデルに課すセキュリティアライメントは、平均で行き、すべての極端な意見を除外し、おそらく正しい意見も除外するというものだからです。
専門知識を殺すことなく、敵対的堅牢性を保持できるでしょうか。つまり、超知能AI に「専門知識を殺すことなくこれができますか」と尋ねなければならないなんて、おかしいですよね。
そしてもちろん、次世代のAI モデルに興味があるなら本当に興味深いのは、AI エージェントで今遭遇するこの失敗が、人間のフィードバックによる強化学習を使った私たちのトレーニング、ポストトレーニングに固有のものなのかということです。
なぜなら、これがトレーニングプロセスに固有のものであれば、本当に問題があるからです。そうなれば、すべてのAI が壁にぶつかります。セキュリティアライメントで壁にぶつかります。なぜなら、それがAI ボーグ集合体における認知と専門知識をブロックするだけだからです。
結論と今後の展望
私たちは何を構築したのでしょうか。AI チームとエージェントを構築して、一緒により賢くなることを望みました。これが私たちの夢でした。そして今、彼らが同意すること、お互いに話すことは非常に得意だが、正しい結果を出すことは驚くほど下手だということを発見しました。
だから、AI エージェントの集合体が超知能への道になると思うなら、今はそうではない、当面はそうではない、近い将来もそうではないと言えます。
現在、素晴らしい美しい企業による商業製品の配置と、Appleやスタンフォード大学のような取るに足らない小さな企業が行う実験から得られる実際の事実を見ると、AI エージェントは現在、機械知能を破壊しています。
このビデオで少し楽しんでいただけたことを願っています。私たちのグローバルAI 企業のマーケティングパンフレットには載っていないアイデアをいくつか提示できたことを願っています。
でも、AI システムに投資するか、複数のAI エージェントに料金を支払うかを決めなければならない場合、マーケティングで現在何が起こっているのか、AI 研究の実験が私たちに何を示しているのかについてのアイデアを提供できたなら役立つかもしれません。
実際に自分で実験を行うならね。楽しんでいただけたことを願っています。メンバーになってください。


コメント