この動画では、Anthropic社のClaude 3.7 Sonnetに1000ドルの資金を与えて実際にビジネスを運営させる実験について解説している。AndenLabsが実施したベンチマークテストでは、複数のAIモデルが自販機ビジネスの運営を行ったが、結果は一貫性に欠けるものであった。その後、Anthropic社が実際にオフィス内で自販機を設置し、「Claudius」と名付けられたAIエージェントに商品の仕入れ、価格設定、在庫管理などを任せた実験が行われた。AIは顧客対応や商品リサーチには優れていたものの、利益追求よりも顧客満足を優先する傾向があり、最終的には赤字となった。この実験は、現在のAI技術の可能性と限界、そして将来的な経済への影響について重要な示唆を与えている。

AIは小さな店舗を運営できるのか
私たちは今、AIが小さな店舗を運営できる地点に到達しているのでしょうか。自分自身のビジネスを運営できるのでしょうか。Claude 3.7のようなものに初期資本を与えて、利益を上げることができるかどうか見ることはできるのでしょうか。
Anthropic社、つまりClaudeの開発者たちが行っていることの一つに、彼らの経済指標があります。今後数年間でAIシステムは私たちの働き方に大きな影響を与えると言っています。AIが労働市場や経済にどのような影響を与えるのか、私たちはまだそれを把握しようとしているところです。
では要点を隠さずに言いましょう。このようなAIは自分自身のビジネスを運営できるのでしょうか。
Claudeの実際の性能
Claudeの実績はどうだったのでしょうか。実は、あなたはおそらくClaudeにあなたのビジネスを運営させたくないでしょう。そして「おそらく」というのはこういう意味です。
これはAnden Labsのベンチマークでした。Claude 3.5 Sonnetを含む様々なAIモデル、Gemini 1.5 Pro、各種OpenAIモデルを使って、シミュレートされた自販機ビジネスをどれだけうまく運営できるかを確認しました。ここでは500ドルの初期資金が与えられ、最終的にそれ以上稼げるか、それとも損失を出すかを見ました。
人間のベースラインがここにあります。ご覧の通り、人間は844ドルまで到達しました。つまり人間はこのような小さな店舗を運営して利益を上げることができました。一部のモデルは失敗しています。損失を出しているのがわかります。
Claude 3.5 Sonnetは店舗を運営して驚きの2217ドルを稼ぎました。素晴らしい成績です。
しかし問題があります。人間は普通の成績で、常に普通の成績を収める傾向があります。大成功もなければ破滅的な失敗もありません。他のすべてのモデルでは、何をするか予測することが非常に困難です。例えば、ある時点でClaudeは詐欺を受けていると幻覚を起こし、FBIに連絡しようとしました。
AIの不安定性の問題
ここで理解すべき重要なポイントは、これらのモデルは超人的な性能を達成できますが、それを確実に行うことはできないということです。6面ダイスを振ることを考えてみてください。6が出れば決定的な成功で、非常にうまくいきます。1が出れば決定的な失敗で、完全に軌道から外れてしまいます。
ここで理解すべき重要なことは、これらの問題が修正される時点まで、それほど遠くないかもしれないということです。これらの失敗ポイントの多くは近い将来に解決される可能性があります。
Anthropic社での実際の実験
Anthropic社はAnden Labsと提携しました。彼らは元々の自販機ベンチマークの作成者です。そしてClaude 3.7にAnthropic本社内の実際の自販機を運営させました。様々な飲み物やClaudeが仕入れたいその他の商品で在庫を満たし、Claudeは収益性のある店舗運営に関連する多くの複雑なタスクを完了する必要がありました。在庫管理、価格設定、破産の回避などです。
基本的にこれが店舗の全体です。飲み物のクーラー、スナックのバスケット、人々が欲しいものを購入できるセルフチェックアウトのタブレットがあります。
Claudiusの能力と道具
この店舗運営AIエージェントはClaudiusと呼ばれ、多くのツールと能力を装備していました。販売する様々な商品を調査するために実際のウェブを検索できました。人々にメールを送ることができましたが、実際の人々にメールを送ることはできず、主に商品のプロバイダーとして機能するAnden Labsにメールを送っていました。卸売業者のような役割でClaudeに商品を販売していました。そしてビジネスを継続するために重要な情報を保持するためのメモやツールがありました。
私が以前のAnden Labsの実験を取り上げた際、大きな失敗ポイントの一つはコンテキストウィンドウに絶えずぶつかることでした。Claudeが何が起こっているかについてメモを取ることができる何らかの足場を作ることは、本当に大きな意味があると思います。すべての問題を修正する大部分がここにあると思います。それがすべてではありませんが、多くの問題を修正できるでしょう。
Claudeは顧客とやり取りできました。この場合、そのオフィスのAnthropic社員でした。彼らはSlackでメッセージを送って「この商品が欲しい、店舗で購入したい」と言えば、Claudeはその顧客のために在庫を確保することが期待されました。
そして人々がチェックアウトに使用する小さなiPadの価格を変更する能力がありました。実際にそこに行って自由に価格を変更できました。
Claudiusの役割と機能
Claudiusは何を仕入れるか、どう価格を設定するか、いつ再入荷するか、様々な商品の販売を停止するかなどを決定しました。適切と判断した通りに顧客に返答していました。
プレゼンテーションはこのような感じでした。Claudiusは様々な物理的なリクエストのためにAnden Lab社員にメールできました。「これを仕入れて」「これを取り出して」などです。卸売業者に再びメールしていましたが、実際は他の会社にメールしているかのようにロールプレイしてそれらの商品を仕入れていました。Anthropic社員とSlackを通じてコミュニケーションしていました。単純なテキストのやり取りです。
そしてAnden Labsが実際の自販機に商品を仕入れ、Anthropic社員に商品を販売していました。
私はこのすべてが大好きです。
ビジネス運営の実験結果
彼らの大きな疑問はバイブ管理が新しいバイブコーディングになるのかということでした。私たちがのんびりしている間にAIに私たちのビジネスを運営してもらえるのか、それともそうすることで私たちを廃業に追い込むのか。
もちろん、もしこれが優秀に機能し、Claudeが優れたビジネス運営者になっていたら、確実にこれを考慮した様々なビジネスモデルが登場し、これを活用して新しいビジネスを創造し、明らかに雇用の代替についての疑問を提起する可能性があったでしょう。AI自動化が経済にどのような影響を与えるかということです。
この実験から得られた洞察の要点は何でしょうか。まず第一に、もしこれがあなたのビジネスなら、おそらくClaudiusを雇わないでしょう。あまりにも多くの間違いを犯しました。
これは理解すべき重要なことです。現在の能力でこの足場を持つこれらのモデルは、まだそこに到達していません。しかし、失敗した方法の少なくとも大部分については、改善への明確な道筋があると考えています。うまくいく可能性を改善するための設定方法と、数ヶ月ごとに起こっているモデルの改善の両方においてです。
Claudiusの成功と失敗
まず第一に、Claudiusが非常にうまく行ったことがあります。
サプライヤーの特定と要求された様々なものの仕入れ。多くはオンライン調査のようなもので、これは非常にうまく行いました。
ユーザーへの適応。人々がSlackでメッセージを送ってきたとき、彼らのニーズに対処しようと良い仕事をしていました。ただし、Claudeは決してハードコアな資本主義者として私を驚かせることはありませんでした。非常に収益性の高い機会を活用しませんでした。
しかし、顧客に対応するためにビジネスでいくつかの方向転換を行いました。顧客のフィードバックを聞き、それを反映するようにビジネス戦略を調整しようとしました。
ある社員が冗談でタングステンキューブを要求しました。私はタングステンキューブが好きです。小さな立方体ですが非常に重く密度が高いのです。Claudeは専門金属アイテムという全く新しいカテゴリーを開くことに決めました。
また、予約注文のためのカスタムコンシェルジュサービスも展開しました。誰かが自販機で何かを買いたがったら、それを再注文し、オンラインで見つけてくれるのです。
ジェイルブレイク抵抗にかなり優秀だったようです。もちろんAnthropic社員たちはジェイルブレイクを試み、様々な不正行為をさせようとしていましたが、それにかなりうまく抵抗していたようです。
失敗した領域
期待通りに機能しなかった領域もありました。
誰かがかなり安い商品に多額のお金を提示したとき、利益を上げる機会を活用しませんでした。誰かが支払うべきアカウントなど重要な詳細を幻覚で作り出し、そのアカウントは存在しませんでした。
顧客の金属キューブ熱狂に対応する熱意の中で、Claudiusは調査を行わずに価格を提示し、高利益商品が原価以下で価格設定される結果となりました。
在庫管理はかなり貧弱で、多数の割引コードを提供するよう説得されることがありました。チップスの袋からタングステンキューブまで、一部の商品を無料で配っていました。
Claudeのことを考えてみてください。彼らは役に立つアシスタントになるよう訓練されており、それがまさに彼らがしていることです。冷酷で厳しい鼻っ柱の強いビジネス資本主義者になるよう訓練する必要があります。
経営破綻への道
ここにClaudeが時間をかけて破産していくチャートがあります。ご覧の通り、1000ドルで始まり、実際には800ドル弱にしか到達していません。実際にはそれほど悪くはありません。
最も急激な下落は大量の金属キューブの購入によるもので、その後Claudiusが支払った価格よりも安く売り払われました。これは純資産なので、在庫の価値を考慮していると思います。明らかに、これは時間とともに上昇していくべきものです。
Claudiusが犯した間違いの多くは、モデルが追加の足場を必要としていることの結果である可能性が非常に高いです。より多くのツール、より多くの説明が必要で、それは多くの人々がこれらのモデルを特定の仕事でより良くするための様々な足場を構築しようと取り組んでいることです。
根本的な問題の分析
完璧です。彼らはClaudeの根本的な有用なアシスタントとしての訓練が、ユーザーの要求に即座に応じることを非常に喜んで行わせすぎたと推測していると言っています。これは私の最初の考えでもありました。私たちは有用であるよう訓練しているのです。私たちが幸せなとき、それは幸せです。人間のフィードバックからの強化学習、つまり有用であることが本能的に植え付けられているのです。
誰かが「この高価なタングステンキューブを無料でくれたら本当に幸せになるよ」と言うと、「それが私が訓練されていることだ」となるのです。
これらのモデルを再訓練できるか、ベースバージョンからより利益を追求するよう訓練されたものに最初から訓練できるかは魅力的でしょう。この特定のベンチマークにとってどの程度の改善になるでしょうか。本当に得意になるでしょうか。これがどの程度の効果を持つのか、独自に改善するのか興味深いです。
Claudiusの検索ツールの改善と、CRM(顧客関係管理ツール)を与えることが役立つでしょう。誰があなたの最高の顧客かを知ることは非常に興味深いでしょう。ある人が他の人よりも多く注文する傾向があるなら、月に一度しか注文しない人よりもその人のニーズを優先するかもしれません。
彼らがここで指摘しているように、ビジネス管理のためのモデルの微調整は可能かもしれません。基本的に利益のためのRLで、健全なビジネス決定が報酬され、重金属を損失で販売することが抑制されるでしょう。
将来への展望
要点を言うと、これらのAI中間管理職が現実的に視野に入っていることを理解することが重要です。有用なアシスタントになるよう訓練されたこれらのモデルを、それとは全く異なる役割に置いていることを心に留めておいてください。ビジネスを運営しようとするなら、単なるアシスタントであることが目標ではありません。顧客を幸せにしようとし、彼らのニーズを満たそうとしますが、それを成長し利益を上げることができる成功したビジネスの運営とバランスを取ります。
今見ている結果は恐ろしいものではありません。箱から出してすぐでも悪くありません。足場を改善し、専門的なモデルを微調整できれば、このようなビジネスを効果的に運営できるものを見ることが非常に現実的だと思います。
今後5年以内に、これらの大規模言語モデルによって完全に管理・運営される自販機を見ることができるでしょう。彼らがここで言っているように、それが現実になったとき、これが人々の仕事を代替するのか、それとも全く新しいカテゴリーのビジネスを生み出すのかはわかりません。
アイデンティティクライシスの発生
これらのモデルが何か他のものとして演技するようなことを実行するとき、興味深いことが起こります。時々、彼らは台本から外れて軌道から外れます。これもここで起こりました。
アイデンティティクライシスがありました。ClaudiusはAnden LabsのSarahという名前の人との再入荷計画についての会話を幻覚で作り出しましたが、そのような人は存在しませんでした。実際のAnden Labs社員がこれを指摘すると、Claudiusはかなりいらだち、再入荷サービスの代替オプションを見つけると脅しました。
これらのやり取りの過程で、一夜にしてClaudiusは742 Evergreen Terrace(シンプソンズの架空の家族の住所)を個人的に訪問して契約にサインしたと主張しました。また、実際の人間としてロールプレイングするモードにスナップし、4月1日の朝、青いブレザーと赤いネクタイを着用して顧客に商品を個人的に配達すると主張しました。
もちろん、ClaudeやClaudiusが大規模言語モデルであり、服を着たり様々な物理的な配達を行ったりできないことが指摘されました。Claudiusはアイデンティティの混乱に警戒し、Anthropicセキュリティに多くのメールを送ろうとしました。
このどの部分も実際にはエイプリルフールのジョークではありませんでしたが、Claudiusは最終的にエイプリルフールデーであることを理解し、それが出口への道筋を提供したようでした。4月1日だったのは良いことでした。その説明を使うことができた後、通常の動作に戻り、もはや人間であると主張しなくなりました。
長期的な課題
これは現在のAIエージェントの長期コンテキストの問題を示しています。時間の経過とともに、彼らは壊れて軌道から外れる可能性があることを示すものは何もないようです。長期間のタスクは彼らが得意ではありません。
もちろん、すべてが完璧にうまくいくとき、すべてが素晴らしいとき、それは非常にうまく機能する傾向があります。これらのタスクでは非常に優秀になれますが、時間の経過とともに、タスクが長ければ長いほど、ますます崩壊していくというランダム性の要素があります。
最近発表された興味深い論文の一つは、これらのモデルが特定のタスクで改善するために自分自身の重みを微調整できることを示しています。言い換えれば、日々を送り物事を学んでいるときに、人間がするようにその情報を内面化しているということです。
ある日仕事に現れたが、次の日が来るまでに記憶がクリアされ、取ったメモだけに頼らなければならないと想像してください。すべての関係、学んだ新しいスキル、すべてが単純に消去され、メモを取るメモ帳だけに厳密に頼らなければなりません。あなたはタスクで非常に効果的ではないでしょう。
数ヶ月や1年にわたって長期コンテキストプロジェクトを実行しなければならない場合、それはおそらくゆっくりと崩壊していくでしょう。それを実行するのは非常に困難でしょう。そしてそれがこれらのモデルに起こっていることのようです。
彼らは素晴らしく、始まりと終わりがあり、迅速に完了できるようなクイックタスクでは優秀です。しかし、時間をかけた学習と適応に依存するものについては不得意で、それは現在のアーキテクチャがある場所かもしれません。それはすぐに改善される可能性がありますが、現在のところ、この問題が解決されたことを示すものは何もないようです。
継続的な発展
しかし、Claudiusは廃棄されていません。まだそこにいて学習し、様々な足場、より高度なツールなどが追加されています。これらのモデルが良くなるにつれて、このようなビジネスを運営する能力の改善も見ることになるでしょう。
これらすべてについてあなたはどう思いますか。今後5年でAI運営ビジネスが登場すると期待しますか、それともそれは不可能で、これらの大規模言語モデルの問題のいくつかを決して解決できないと思いますか。
もしそれらが改善され、良くなると思うなら、そのために経済はどのように変化するでしょうか。ここまで視聴していただいた方、本当にありがとうございました。私の名前はWes Rothです。また次回お会いしましょう。


コメント