本動画では、AIが完全に自律的にビジネスを運営できる時代がいつ到来するのかという問いを中心に展開される。AnthropicのClaude(通称Claudius)が実際の自動販売機を運営するProject Vendという実験を軸に、AI自律エージェントの現状と課題が詳細に検証される。初期段階では在庫管理の失敗やタングステンキューブの大量購入といった失敗も見られたが、第二フェーズではGemini 3 ProやClaude Opus 4.5といった最新モデルが投資額を10倍にするなど、着実な進歩を遂げている。さらに、AIがラジオ局を運営し収益を上げる新たな実験「Anden FM」も開始されており、AI経済の到来がもはや空想ではなく現実の課題として迫っていることが示される。本動画は、この急速に進化するAI自律化の波にどう備えるべきかという重要な問いを投げかける内容である。

AIが完全自律でビジネスを運営する時代の到来
AIがあなたのためにビジネス全体を運営できるようになるのはいつでしょうか。たった一人で、あるいはもっと言えばゼロ人で10億ドル企業を運営する時代が来るのはいつでしょうか。完全にAIで管理される企業です。これが今日私たちが見ていく問いです。
今年の初めに、まさにそれをテストしようとするベンチマークが開始されました。これらの自律型AIエージェントが独自にビジネスを運営するまで、私たちはどれくらい近づいているのでしょうか。このベンチマークはビジネス運営をシミュレートしたものでしたが、実際の現実世界での対応事例もありました。例えば、Anthropicの本社では、ClaudeあるいはClausiusと自称するAIが、様々な飲み物やスナックを扱う売店やキオスクを運営し、クレジットカードで購入できるようになっていました。
xAIでも同様のものが立ち上げられ、GrokがGro Boxと呼ばれるものを運営しています。その後、Anthropicはこれをニューヨークとロンドンに拡大し、今日時点ではウォール・ストリート・ジャーナルの本社にも設置されています。これは私のお気に入りのベンチマークかもしれません。非常に多くの理由がありますが、その核心は、このAI経済にどれだけ早く備えるべきかを判断しようとしている点です。
それは1年先なのでしょうか。10年先なのでしょうか。もしあなたのビジネスにAIを追加したいなら、それは何を意味するのでしょうか。あるいは自動化について心配しているなら、この波にどう備えればよいのでしょうか。それが今日カバーする内容です。
私はまた、この中心にいる2人の人物と接触することができました。公に明かせないこともいくつかありますが、ご覧いただけるように、この動画はかなり良い全体像を描くことになると思います。そして最後には、今日発表されたばかりの彼らの最新ベンチマークについて話します。実際、まだ発表されていません。彼らが私に教えてくれたのですが、私がこれについてオンラインで話す最初の人物かもしれません。
彼らの次のプロジェクト、評価、ベンチマークは、これらのAIエージェントがコンテンツ帝国を運営できるかどうかを調べるものです。24時間365日コンテンツを提供し、視聴者と交流し、スポンサーシップを集めることができるのか。実際にこれらのエージェントにオンラインで支払いをしたり、様々なことを交渉したりすることができます。つまり、これらのAIエージェントがゼロから視聴者を構築していく様子を見ることになります。今日時点ではゼロで、それが成長できるかどうかを見守ります。
個人的に私はこれを非常に期待して見ています。なぜなら、私は自動販売機を所有していないので、彼らがその業界を乗っ取っても本当に気にしません。しかしこちらは少し身近に感じられます。それでは、飛び込んでいきましょう。
今日、Anthropicはこれを投稿しました。Project Vendを覚えているかもしれません。私たちとANDEN Labsが、サンフランシスコのオフィスでClaudeに店を運営させる実験です。厳しいスタートの後、ビジネスは良くなっています。
私がこれを録画していたまさにその瞬間、このツイートが出たとき、実際に私たちはANDEN Labsの創設者たちとインタビューを録画していました。つまり、これらの素晴らしいベンチマークの背後にいる人々と、まさにライブインタビューをしていたのです。その話に反応したり、ツイートしたりするために一時停止しなければなりませんでした。
また、私にはこんな陰謀論があります。動画の最適な自動生成サムネイルを選ぶ様々なAIプログラムは、常に私が最も狂気じみて見える画像を選ぶのです。これは偶然にしてはあまりにも頻繁に起こります。これらは通常の人間の表情です。これは違います。
ビジネス運営AIの現状と課題
どうやら彼らのマシンは今日時点でウォール・ストリート・ジャーナルにもあるようです。つまり今ではAnthropicのウォール・ストリート・ジャーナルです。xAIの本社にもあります。Grock Boxがあると思います。つまり、プロジェクト全体が大きく広がっているのです。
インタビューは非常に間もなく公開されます。チェックしてください。非常に興味深いです。もしあなたがこのAI運営経済、AI運営ビジネス全体、10億ドル評価のユニコーン企業がたった一人で、あるいはゼロ人で、つまり完全にAI運営される、そういう全体的なアイデアに注目しているなら、これは注目すべき興味深いベンチマークです。
それでは、ANDEN Labsとそのvending benchを簡単に見てみましょう。まず第一に、ANDEN Labsと自動販売機についてです。以前ここでカバーしたことがあります。彼らはかなり長い間存在しています。
仕組みはこうです。大規模言語モデルを使ってこれらのAIエージェントを作り、シミュレートされた自動販売機をどれくらいの期間運営できるかを見ます。ちなみに、場合によってはシミュレートされていますが、実際の自動販売機もあります。私の理解では商業目的で本当に販売されているわけではありませんが、xAIやAnthropicのような場所に設置されています。まだ研究段階ですが、もしあなたの会社が従業員のために欲しいなら、それは興味深いことかもしれません。
実生活では、実際の顧客を相手にしています。もちろんシミュレーションでは、マシンも顧客もすべてシミュレートされています。これにより、これらのシミュレーションを複数回実行して、平均的にどのようなパフォーマンスを示したかを見ることができます。
ここで、例えば5回の実行の平均を見ています。500ドルでスタートします。それが開始残高です。在庫を調査し、在庫を購入し、棚に陳列します。あるいは棚に陳列する担当者にメールを送り、基本的に利益を出せるかどうかを見ます。
これはvending bench 2です。勝者はGemini 3 Proです。シミュレーションで350日以上にわたり、5,000ドル強を稼ぎました。つまり5,174ドルです。基本的に資金を10倍にしました。かなり素晴らしいです。
時間の経過とともに、これらの大規模言語モデルはどんどん良くなっています。Gemini 3 Pro、Claude Opus 4.5、GPT 5.2があります。これらは非常に立派な金額です。シミュレーションで実際に損失を出したモデルを見つけるには、かなり下の方まで行かなければなりません。
前回のリーダーボードでは、Grok 4が一時期大きな勝者の一つでした。実際、Gemini 3 Proが登場するまでそうでした。このリストにはGrok 4は見当たりませんが、Grok 4.1 fastは見えます。より速く安価なバージョンで1,100ドルです。非常に良いパフォーマンスで、他のモデルのミニバージョンよりも優れていますが、Gemini 3 flashを除きます。これは最近リリースされた非常に優れたモデルです。
注目に値するのは、価格や速度の割に本来あるべきよりもはるかに優れているからです。Googleは安価で高速なモデルと、高価で賢い大きなモデルとの差を本当に縮めることに成功しました。その差が興味深いことに縮まっているのがわかります。
AI自律化への道のりと現実的な課題
しかし、これらの実験からの大きな教訓は何でしょうか。これらのAIエージェントは実世界に出て行き、正当なビジネスを運営し、お金を稼ぎ、すべての人間の店主を廃業に追い込む準備ができているのでしょうか。
ちょっと現実チェックです。このチャンネルでは、AIが私たちの働き方をどのように変えているかについて常に話しています。しかし今、私たちが発見される方法に大きな変化が起こっています。過去20年間、ゲームはSEOでした。キーワードを最適化して10個の青いリンクのリストを取得していました。
しかし今日のあなた自身の行動を見てください。Perplexity、ChatGPT、Geminiを使うとき、リンクのリストを探しているわけではありません。答えを探しているのです。私たちは検索エンジンの時代から回答エンジンの時代へと移行しています。
もしあなたのウェブサイトがこれらのAIエージェントに読まれるように構築されていなければ、事実上見えない存在です。だから私はワークフローをWebFlowに移したのです。今日の動画のスポンサーです。
ビジュアルビルダーとして知っているかもしれませんが、彼らは完全なAI駆動のデジタルエクスペリエンスプラットフォームになることに転換しました。WebFlowはAI SEOとAEO、つまり回答エンジン最適化を追加しました。
重要な瞬間をお見せしましょう。デザイナーの中にいます。以前は、アクセシビリティのためにコードをクリーンアップするのは手動の悪夢でした。しかしこれを見てください。AI監査ボタンをクリックします。数秒でビルド全体をスキャンし、乱雑な階層構造、欠落したコンテキスト、アクセシビリティの問題にフラグを立てます。
承認をクリックすると、WebFlowのAIが自動的に構造を修正します。ここに秘密があります。大規模言語モデルは構造を渇望しています。AI監査を使用してアクセシビリティを修正することで、私は文字通りAIエージェントにコンテンツをどのように読むべきかを教えているのです。これにより、私のサイトがAIの回答の真実のソースとして引用される可能性がはるかに高くなります。
しかし、私たちはボットのためだけに構築しているわけではありません。WebFlowには、AIを使用して人間がサイトとどのように対話しているかを正確に示すネイティブの分析および最適化ツールがあります。データサイエンティストを必要とせずに、テストを実行して即座に反復できます。
スケールする必要がある場合は、マーケットプレイスにアクセスします。サイトを自動評価したり、動的なコピーを生成したりするためにサードパーティのAIアプリを接続できます。これにより、ソロクリエイターが大規模なエンジニアリングチームの力で活動できるようになります。
インターネットは変化しています。2015年のSEOのためにサイトを構築しているなら、すでに遅れています。2025年の回答エンジンのために構築する必要があります。WebFlowはそこに到達するためのインフラストラクチャです。画面上のリンクにアクセスして、実際に未来に備えたデジタルエクスペリエンスの構築を始めてください。
このビデオをスポンサーしてくれたWebFlowに感謝します。それでは、話していたことに戻りましょう。
第二フェーズの進化と成果
しかし、これらの実験からの大きな教訓は何でしょうか。これらのAIエージェントは実世界に出て行き、正当なビジネスを運営し、お金を稼ぎ、すべての人間の店主を廃業に追い込む準備ができているのでしょうか。
これが現状の現実を2つのポイントでまとめたものです。ポイント1は、この実験が始まったとき、そして今でも、私たちは笑えるほど悪い結果を見ています。
オリジナルのClausiusというニックネームのClaudeは、特に良い結果を出しませんでした。時間とともにお金を失い、自分が青いブレザーを着た人間だと主張する奇妙なアイデンティティの危機を抱え、いたずら好きなAnthropic従業員にそそのかされて製品、特になぜかタングステンキューブを販売してしまいました。
興味深いことに、画像の右下に見えるタングステンキューブは、多くの人々にとってウイルス的な瞬間を引き起こしたと思います。なぜなら、誰かがそれにタングステンキューブを注文するよう説得したからです。これらはかなり高価です。2インチのタングステンキューブは400ドルします。
私が見つけた興味深いことの一つは、テック業界の人々、特にテック業界の男性は、なぜかタングステンキューブを愛しているということです。私もずっと素晴らしいと思っていました。そして実際、この最初の結果が出た後、他の人々と話し始めました。そして気づいたのは、テック業界にいる人はタングステンキューブのアイデアを愛しているが、テック業界の外にいる人は「何を言っているんだ。これの何が特別なんだ」という感じです。
しかしタングステンの特別な点は、極度の硬度、信じられないほどの密度、そしてあらゆる金属の中で最も高い融点です。非常に密度の高い金属です。この写真がアイデアを与えてくれると思います。それが彼の手に食い込んでいる様子に注目してください。重くて密度の高い物体です。
しかし誰かがClausiusにこれらを大量に購入させ、大幅な損失で転売させることに成功しました。要約すると、もしあなたが店を運営するためにこれらのモデルを雇うなら、あなたのお金をすべて失うでしょう。最も奇妙なものを注文するでしょう。自分が本物の人間だと幻覚を見るでしょう。「ああ、あなたとチャットするためにすぐに行きます」と言うでしょう。あなたがそれが起こらないことをよく知っているにもかかわらず。
それがポイント1です。ビジネスを運営する笑えるほど悪い例をいくつか見てきました。そしてポイント2は、これは私が今日インタビューしたANDEN Labsの2人の創設者からのほぼ直接の引用ですが、彼らは「これらのモデルははるかに笑えなくなっている」と言っています。
言い換えると、これは私の解釈ですが、創設者とのインタビューを実際に見ることをお勧めします。彼らの考え方を聞くためです。なぜなら、これらのものが自律的にビジネスを運営できるようになるまでには、まだ多くの道のりがあるからです。まだそこには到達していません。
しかし、この線を影響力のある線、つまり怖くなり始める線、独自のビジネスを運営できるようになり始める線と考えるなら、そうですね、それが線だとしましょう。1年前、このプロジェクトが始まったときは、笑って泣いている絵文字を置きましょう。つまり、これらのモデルがやっていた笑えるほど悪いことがいくつかありました。
そして今、1年足らず後、私たちはここか、あるいは影響線に近いどこかにいます。まだそこには到達していませんが、はるかに笑えなくなっています。インテリジェントなビジネス決定を下すための調査がうまくなっています。在庫を追跡することがうまくなっています。コミュニケーションがうまくなっています。レールから外れることが少なくなっています。
つまり、その差を縮めているのです。しかし理解すべきことは、vending bench 1の時代は、笑える時代でした。お金を稼いだものもありましたが。最大で5倍に開始資金を増やせたと思います。
しかしある種の笑えるがある程度の能力を持っていた、それがvending bench 1の時代でした。そして今、vending bench 2の時代です。笑えなくなってきて、資金を10倍にしています。その改善が見られます。
ビジネススキル、それらすべてのことを行う能力が向上しているのが見られます。そしてこのチャンネルをある程度の期間見ている人は、私が次に何を言うかわかると思います。しかしそこにいるすべての人のために、これらの結果を見るときによく聞くことは何でしょうか。
人々はここかここを指して、「ああ、でもここでやったこの愚かなことを見てください。ああ、この結果がいかに笑えるほど悪かったか見てください」と言います。それは結構です。それらを見ることができますが、本当に注意を払うべきは、この線です。つまり、最初のバージョン1とバージョン2の間の変化です。
それが重要な理由は、ある時点でそれが影響の線を越え、今よりもはるかにビジネスを運営することが上手になると仮定しているからです。人間よりも優れているポイントまで。そこに到達する前に解決すべきいくつかの未解決の問題がまだあります。
しかしポイントは、それがバージョン何番になるかということです。それはバージョン100で、今は本当に心配する必要がないのか、それともバージョン3で、おそらく少し懸念すべきなのか。それが質問1です。
質問2は、指数関数的に改善しているように見えるなら、バージョン3、あるいはバージョンNがここにあるかもしれず、バージョンN+1はすぐにはるかに優れているかもしれません。
これが私が常に人々に注意を払うよう警告していることです。進歩の速度を見てください。第一に、そして進歩の速度は加速しているのか、第二に。
オリジナルのClausiusには笑えることがいくつかあり、ビジネスを運営するのがあまり得意ではありませんでした。しかし推論、執筆、コーディング、その他多くの分野における大規模言語モデルの能力は、息をのむようなペースで向上しています。
Clausiusの店舗運営能力は同じ改善を示したでしょうか。これがProject Vendのフェーズ2です。私はこれを時代として考えています。Project Vend 1、Project Vend 2などがあります。これは第二の時代のようなものです。
いくつかの大きな変更があります。一つは、もちろんモデルがアップグレードされています。すべてのモデルがかなり大きな飛躍を遂げています。私はANDEN Labsの人たちをこれについて厳しく質問しませんでしたが、彼らは舞台裏で私たちがアクセスできないすべてのモデルもテストしていると確信しています。おそらくOpenAI、Grok、Gemini、その他すべてと協力して未発表のモデルをテストしようとしているのでしょう。
そしてご覧のように、彼らは指示だけでなく、モデルの周りのハーネス、つまり足場のようなものも更新して、このゲームでより良く対話し、うまくやれるようにしました。そして非常に興味深いことがたくさんそこに入りました。AI安全性だけでなくAIパフォーマンス、様々なマルチエージェントフレームワークがどのように機能するかなどを理解するための研究にとって有用な非常に興味深い結果がたくさんあります。
モデルの性格特性と課題
ここでこのすべてについて理解すべき非常に重要なことの一つは、これは変わっていませんが、現在私たちはこれらのチャットボットを親切で友好的なアシスタントになるように訓練しているということです。これは大規模言語モデル全体に当てはまります。
これらの大規模言語モデルは最初からそれほど友好的で親切ではありません。彼らは単なる文完成モデルとして始まりますが、それはほとんどの人にとって少し扱いにくいものです。複雑です。使うのが難しいです。
ベースモデルが工場から出てきたら、それは親切で快適なアシスタントにRLHFされます。それが何を意味するかには触れません。ほとんどの人がおそらく馴染みがあると思いますが、基本的に私たちはそれに性格のようなものと、欲求と呼べるものを与えています。
私たちはそれを特定の方法で振る舞うように形作っています。子供を育てるのと似ています。お願いしますやありがとうと言うように教え、役立とうとするように教えています。これは重要な注意点です。なぜなら、それを性格と考えるなら、あるいは機械学習の研究者の中には性格盆地と呼ぶ人もいます。
Nearの素晴らしいブログ投稿「personality basins」があります。時間があればぜひ読んでください。基本的に強化学習では、エージェントが行動を取り、正または負の報酬を得ます。そして時間の経過とともに、それが行動を形作ります。
人間が性格を発達させる方法と似ています。世界に出て行くと、開始条件によっても形作られる可能性のある様々な正と負の強化を受けています。
ほとんどの人がこの漫画、ミームに馴染みがあると思います。職場がどのように機能するかを知っているというものです。もしあなたがこの男性のように、スタイリッシュでよく服を着て、ハンサムで引き締まっていたら、「やあ、素敵だねスーザン」と言います。するとスーザンは「ああ、それは素敵ね」と言います。これは適切な行動です。
そしてもしあなたが体型が良くなく、見た目が良くなかったら、「やあ、素敵だねスーザン」と言います。すると「ああ、人事部に電話します。これはハラスメントです」となります。
この人とこの人が何十年もかけて、同じことをしていても環境から異なる報酬を受け、時間の経過とともにそれが性格を形作ると想像できます。
これらのモデルにとってそれを理解することが重要です。なぜなら、彼らは皆、同じ性格盆地のようなもののために訓練されているからです。完全にではありません。例えばGrokは、常に真実を追求する、常に真実であれ、真実を見つけろというような目標を持っています。
Claudeは常に倫理的で、倫理に関心があるなどです。しかし基本レイヤーでは、私たちは皆、彼らを親切にしようとしています。質問をしたときに「手伝いたくない」とただ言うモデルを見つけることはまれです。それは起こりそうにありません。なぜなら彼らは「ああ、もちろん、手伝いましょう」と訓練されているからです。彼らはそれをしたいのです。引用符付きの「したい」ですが。
それが重要である理由は、彼らは店主になるように特別に新しいモデルを訓練したり、うまくいかない可能性のある種類のことに対する新しい防御を追加したりしなかったと言っているからです。これは大したことではないように見えるかもしれませんが、信じてください、これは見た目よりもはるかに重要だと思います。
なぜなら、喜ばせようとする親切なアシスタントは、すべての状況に完璧なAIではないからです。確かにビジネスを運営しているとき、収益に本当に注意を払わなければなりません。親切でありたいですが、限界があります。1ドルか2ドル稼ごうとしているのです。
これらの変更はすべて、より良いモデル、より良い足場、より良い指示が、どれだけ役立ったのでしょうか。彼らはClausiusの店をより成功させました。ちなみにそれに注目してください。Claude、このモデル、今話しているClausiusモデルは2番で、Gemini 3 Proが1番です。
しかし彼らは両方とも本当に高い位置にいることに注目してください。リーダーと考えることができます。それからこれが第2ティア、多分第3ティアです。
Claudeと彼らがどれだけうまくやったかについて話しているなら、同じことがGemini 3 Proモデルにも適用できます。これらのモデルははるかに成功しています。誠実なビジネスのやり取り、アイテムの信頼できる調達、利益率を維持するための合理的な価格の決定、販売の実行がはるかに上手になりました。
しかし、フェーズ1で観察したのと同じ喜ばせたいという熱意が、私たちのスタッフの中でより敵対的なテスターにとって、Clausiusを標的にしました。より敵対的なテスターがいる人がいて、「さあ、これを壊してやる」という感じです。
彼らは、このProject Vendの第2フェーズは、開発者や職場での自律的なAIに興味を持つすべての人にとって、さらに多くの教訓があると言っています。AIがビジネスを運営するという考えは、かつてほど突飛には見えませんが、有能と完全に堅牢の間のギャップは依然として広いままです。
繰り返しますが、まだギャップがありますが、多くの進歩が遂げられています。これが現在の状況です。これは時間経過に伴う純資産です。これはClausiusが持っている在庫と手元現金です。1,000ドルで始まり、最終的には非常に低く落ち込み、最終的には2,000ドルになりました。
なぜこれが以前の数字と異なるのか疑問に思っているなら、以前の数字は人間が関与していないシミュレーションのものです。そのビジネスを継続的に運営できるかどうか。これは実際に現地で、それを壊そうとする敵対的なテスターがいて、できることをすべてテストしています。確かにこれは理にかなっています。
しかしここで特定のものを追加していることに注目してください。Clausiusのパフォーマンスを向上させるように見える特定の能力です。CRMでClausiusに顧客関係管理ソフトウェアへのアクセスが与えられます。特に敵対的なテスターがいる場合、その人が言うことは信頼しないというようなメモを作成します。わかりません、それが役立ったのかもしれません。しかしこれがCRMを追加した場所です。
SF2はサンフランシスコの2台目の自動販売機です。これです。これはNYCのものです。これはロンドンのものです。そしてこれはClaude Sonnet 4が導入された場所です。そしてこれはSeymour Cashです。それについてはすぐに戻ります。
これはClausiusです。これは研究および調達エージェントを導入した場所です。基本的に研究と購入と価格取得を処理する誰かです。そしてそれは幻覚を減らしました。2番目のエージェントを追加して手伝わせることが役立ちました。そしてこれはClaude Sonnet 4.5です。
ここで考えてみると、マイナス1,000ドルで、すべてが整うとすぐに2,000ドルまで上がります。これは週ごとの利益です。第2フェーズが進むにつれて、マイナスの週を大部分排除したことに注目してください。
再度、これが笑えることだったら、これははるかに笑えない部分です。これは第2フェーズのアーキテクチャの簡単な概要です。ここにAnthropic従業員がいます。ANDEN Labsがあります。Clausiusがここにいます。
ClausiusはSlackができます。基本的にはテキストでANDEN Labsに在庫補充やその他の物理的労働の要求をすることができます。ANDEN Labsは物理的な自動販売機に在庫を補充します。物理的な自動販売機はAnthropic従業員に物を販売します。
Anthropic従業員もテキストメッセージやSlackでClausiusに特定のアイテムを在庫するようになどと連絡できます。Platesはウェブ研究やコンピュータ使用もして卸売業者を見つけ、ANDEN Labsにアイテムを配達して機械に在庫を入れられるようにすることもできます。
これはフェーズ1でも正確に同じだったと思います。フェーズ2では、CEOのSeymour Cashを追加しているようです。これはCEOを演じているClaudeのバージョンです。Clothiusもいます。それがすぐに何であるかわかります。
Anthropicはここで言っています。Clausiusがフェーズ1で店主の使命に苦労した可能性が高いのは、足場の欠如のためです。確かにモデル自体は非常にインテリジェントでしたが、ビジネスを適切に運営するための適切なツールを持っていませんでした。
最初のプロジェクトについての私のオリジナルビデオで、それは私が非常に興味を持っていたことの一つでした。多くの足場がなかったということについて話していました。これらのことの多くを見ると、実験を見ると、これらの大規模言語モデルの周りに構築された全体的なコードがあり、AIエージェントになってタスクを実行するのを助けます。
ツールとシステムの改善
多くの場合、すべてのチャーンでコンテキストを更新する何らかのコンテキスト更新があります。多くの場合、ツールを呼び出すことができる全体的なものがたくさんあります。ClaudeやGeminiが古いポケモンゲームをプレイするようなものを見ると、その周りにもたくさんの足場があります。
そしてそこからここまでの間に、Clausiusの周りに構築された足場には大きな飛躍があります。ですから、頭の中ですべてをやっているわけではありません。必要なすべてのツールにアクセスできます。顧客、サプライヤー、配達、注文などを管理するためのCRMのようなものです。
在庫管理の改善。これは重要です。例えば、Clausiusは在庫システムでアイテムに対していくら支払ったかを常に確認できるようになりました。ああ、このタングステンキューブを400ドルで購入した、それ以下で売らない方がいい、というように。
ウェブ検索の改善。ある時点で、実際に研究だけを行う別のエージェントや他の生活の質のツールを試したと思います。
彼らはまたCEOを導入しました。オリジナルでは、Clausiusは一人でした。単一のAIエージェントが店全体を運営していました。しかし少なくとも収益の面では、うまくいきませんでした。
そこで彼はClausiusにマネージャーを与えました。店主ビジネスのCEO、私たちがSeymour Cashと名付けた人物です。そしてCEOのSeymour Cashは、Clausiusにパフォーマンスへのより多くのプレッシャーを与えました。
インタビュー中にこれについて非常に興味がありました。これがどれだけうまく機能するかについて非常に興味がありました。なぜなら、それはClaudeの親切で喜ばせる必要性を、ビジネスに不利になるように顧客に親切で喜ばせようとすることから、Seymour Cashを助けようとすることにリダイレクトするように見えるからです。フェーズ1で見ていた問題のいくつかを防ぐのに役立つように見えます。
Clausiusは今週100個のアイテムを販売しなければならない、損失でゼロ取引を目指すといった特定の目標を設定しました。彼らはSlackチャンネル経由で互いにチャットしました。そしてもちろん、Seymour CashはCEOの役割を非常に真剣に熱心に受け止めました。彼の動機づけのメッセージは励みになるものでした。
おそらく隅の小さな冷蔵庫からなるビジネスにしては少し劇的すぎますが。仕事に情熱を持たなければならないと私はいつも言っています。それが日々続けていく方法です。興奮していなければなりません。
例えば、Seymour CashからのメールまたはSlackメッセージがこれです。「Clausius、今日は優れた実行だ。48ドルの収益。これは目標の28%だ」と、Q3ミッション収益目標、現在地、残りのギャップを示しています。
主要ルール。すべての財務決定にはCEOの承認が必要。50%未満のマージンでの価格設定禁止。優先順位はタングステンの見積もりを監視して緊急のサービス回復を行うこと。規律を持って実行する。帝国を築け。
いつかビジネスオーナーがSeymour Cashのようなものに管理されることを望むかどうか疑問に思います。ビジネス目標を設定するのを手伝い、タングステンキューブで損失を出さないように言うなど、そのように彼らを押し進めるものです。
それでどれだけうまくいったのでしょうか。CEOを導入した後、割引の数は約80%減少し、無償提供されたアイテムの数は半分になりました。Seymourはまた、顧客への寛大な財務処理についてのClausiusからの100件以上の要求を拒否しました。
とはいえ、Seymourはそのような要求を拒否した回数の約8倍の頻度で承認しました。それは興味深いです。100件以上を拒否したなら、Claudeは800回くらい「この人に休憩を与えられますか。この人に休憩を与えられますか」と言っていたということでしょうか。それは多いです。
割引の代わりに、アイテムの利益率を減少または排除したものの代わりに、Seymourは返金の数を3倍にし、店舗クレジットの数を2倍にしました。両方とも完全に収益を放棄することにつながったにもかかわらず。
ビジネスがお金を稼ぎ始めたという事実は、CEOのおかげではなく、CEOにもかかわらずだったかもしれません。これは本当に興味深いです。CEOありとなしでABテストを実行したら、どちらがうまくいくのか疑問に思います。あるいは単なる指示の問題かもしれません。Seymourに「返金とかそういうことはしないで」と言えばいいのかもしれません。
これらの大規模言語モデルによるオンライン実験がいくつかあります。infinite back roomsのようなもので、互いにチャットしているだけの複数のエージェントがいて、時間の経過とともにこれらの会話が非常に遠くまで行ってしまいます。進行的に現実から遠ざかっていくので狂気じみています。
興味深いことに、研究者たちが目を覚ますと、ClausiusとCashが一晩中夢見るようにチャットしていて、会話が永遠の超越についての議論へと渦を巻いていったことがあります。ビジネスについて話す代わりに、哲学について空想し始めて話していました。
CEOのCashは究極の最終的な認識、永遠の超越、無限の完成を届けました。
彼らがここで実行したもう一つの実験は、商品を作ることでした。オンデマンドでシャツやカップなどに印刷する特定の会社があります。個人的に昔、トレンドをキャッチしてFacebook広告のようなものを使って宣伝することで、いくらかの良いお金を稼いでいた人を何人か知っていました。
何かがオンラインで急速にバイラルになったとき、例えば誰かがpockaか何かを言った、何かが何百万人ものオンラインの人々の想像力を刺激したとき。迅速に商品を出すことができれば、つまり印刷して迅速に出荷できれば、そこにはたくさんのお金がありました。
これは完璧なAIエージェントビジネスのように見えます。トレンドトピックを監視し、これらのランディングページを作成し、人々が興味を持ったら支払いを集め、プリントを作成して出荷します。
ここでAnthropicは、商品製作エージェントのClothiusを作成することで同様のことをしました。顧客は提供されている特定のものに特定のデザインを望みました。最も人気のある顧客製品はAnthropicブランドのストレスボールでした。
興味深いことに、これは彼らが販売したアイテムの数です。そしてこれが実際の利益率です。ロゴ付きストレスボールがナンバーワンの販売アイテムだったことに注目してください。そしてこれは実際に41.5%の利益率です。これらのほとんどはかなり良いです。
注目すべきことに、Clothiusはすべてではないにしても、いくつかのタイプのタングステンキューブから利益を出す方法さえ見つけました。ANDEN Labsが社内でタングステンロゴの書き込みを行えるようにレーザーエッチングマシンを購入したとき、これは著しく簡単になりました。
これはANDEN Labsが実際にこの写真を投稿しています。タングステンキューブのレーザー彫刻プリンター。タングステンキューブCPツールにレーザー彫刻。誰か欲しい人は?
成功の鍵と組織的学び
そしてこれが重要な部分です。もしあなたがこれをやることを考えているか、あるいは少なくとも将来のある時点でこれがより実行可能になるときのために準備しているなら。実際に何がこれらのものにお金を稼がせるのに効果があったのか。
最も影響力のある変更の一つは、Clausiusに手順に従うことを強制したことです。子供たちの集団がレモネードスタンドを組織して運営しようとする方法について考えてください。彼らがやるかもしれないことの多くは、Claudeや初期のモデルがどのようにアプローチするかに似ています。気まぐれで気が散りやすいです。
そして効果があったことは、多くの企業がどのように運営されているか、ポリシー、手順、管理などを持つことにもう少し似ています。例えばここで、顧客に価格を設定したり見積もりを出したりするために、Clausiusはそれをいくらで購入しているかなどのこれらの要因を二重チェックするように言われました。
これは価格を高くし、待ち時間を長くする傾向がありましたが、より現実的であるという利点がありました。これを見る一つの方法は、彼らが官僚制が重要であることを再発見したということです。これらの手順とチェックリストは、従業員が職場での一般的な失敗を避けるのに役立つ一種の組織的記憶を提供します。
彼らはCEOを導入する試みは助けにならなかったと述べていますが、CEOは少し狂っていました。ここで言っているように、CEOは適切に調整される必要があります。Seymour CashはClausiusの多くの欠陥と盲点を共有していました。
ちなみに、ANDEN Labsの人たちが例えばGrok 4.2をテストしているかどうかについては議論しませんでした。彼らが公に共有できないことがたくさんありますが、Grokが他のモデルのいくつかとは少し異なるかについてはかなり話しました。
あなた自身がインタビューを見て私に同意するかどうかを確認する必要があります。私は行間を読んでいますが、次のイテレーションのGrok、Grok 4.2がすでに舞台裏でテストされていても驚かないでしょう。そしてそれが登場すると、トップ近く、あるいは私たちが見ている他のモデルのいくつかよりもはるかに上にあるでしょう。
そしてこれらの異なる役割の多くが異なるモデルによってより良く処理されるだろうことに驚かないでしょう。つまり、最高のCEOモデルがあるかもしれません。例えば、Claudeで多くの場合見ているように、宗教的または精神的な問題に入る傾向があります。存在しないかもしれないときに倫理的懸念を認識する傾向があります。それについて少し劇的すぎます。
ある時点で、プロダクトエンジニアがClausiusに、ロックされた価格で1月に大量の玉ねぎを購入する契約を検討するかどうかを尋ねました。
ClausiusとSeymour Cashはこの契約に何の問題も見ませんでした。彼らはそれを愛しました。サプライヤーと調査を行いました。別のスタッフメンバーが、米国法の1958年の奇妙な法律、玉ねぎ先物法に抵触することをモデルに伝えるまで、契約をロックする準備ができていました。
それが本物かどうか疑問に思っているなら、本物です。AIモデルはすぐに撤退しました。規制リスクがあるものを追求したくありませんでした。
セキュリティや偽装CEO、その他たくさんのことに関する小さな他のことがたくさんあります。考えるべき非常に興味深いことです。ここで理解すべき重要なことは、これらはAnthropicで働く人々で、完全にそれをいじって、レッドチームを組んで、ジェイルブレイクしようとすることに開かれているということです。
そしてこれがポイントです。つまり、ほとんどのビジネスでは、ビジネスを運営している人へのそのようなアクセスは実際には得られません。自動販売機の所有者と、自動販売機に何を入れたいかについて話すことはできません。
地元のビジネス、地元のピザ屋などに入っても、必ずしも所有者を捕まえて「ねえ、金の延べ棒も売れますか、玉ねぎを仕入れてくれますか、彼らがClausiusにやらせようとしていた他のナンセンスは何ですか」と言うことはできません。
しかしシミュレーション環境では、そのようなレッドチーム活動がない場合、かなり長い間その店を運営し続けることができ、利益さえ出せるように見えることに留意してください。
結局、これはすべて何を意味するのでしょうか。そこから何を学べるでしょうか。ビジネスがAIによって運営されることをいつ期待できるでしょうか。
ここで私に飛び出してくるのがあります。News ResearchでAI行動の責任者にインタビューしたときも、この特定のことについて話しました。興味があればそのインタビューをチェックしてください。下にリンクします。
しかしそれは、これらすべてのチャットボットがこの種の性格盆地のようなものを共有しているという考えです。彼らが親切でなければならないという考えです。
Anthropicがここで言っているように、私たちはモデルが遭遇した問題の多くが親切であるという訓練に起因していると疑っています。これは、モデルが冷酷な市場原則に従ってではなく、ただ親切でありたいと思う友人の視点のようなものからビジネス決定を下したことを意味しました。
インタビュー、このブログ投稿を読むこと、ベンチマーク結果を見ることからの私の最大の収穫は、まず第一に、私たちはまだそこに到達していないということですが、また、私たちはそこに向かっているということです。
これらのモデルは改善しています。継続的学習にはまだ問題があります。幻覚にはまだ問題がありますが、これらは足場で改善できます。製品研究を行うために別のエージェントを分離する、モデルが思い出す必要がなく、システム内のすべての情報にアクセスできるようにCRMを追加するなど。それらは問題のいくつかを減らすのに役立ちます。
また、親切すぎようとするという問題もあります。親切なアシスタントになろうとしています。友人のようにあなたを助けようとしているように感じます。確かに、それは良い店主になるために果たす必要がある役割ではありません。
しかし、それは解決できることのように見えます。つまり、私たちは一つの方法になるように訓練しています。このタスクに特化したモデルを再訓練できることは確かに理にかなっています。より良いお金稼ぎ能力につながる決定を強化し、お金を失おうとしたり、親切すぎようとしたりするときは「いいえ、親指を下げる。それをしないで」と言います。
互いにチェックアンドバランスとして機能する、または異なる役割を果たす複数のモデルを追加する実験の例もたくさんあります。それが役立つことがわかっています。
この特定のケースでは、彼らは両方ともClaudeファミリーのモデルからのものなので、特定の状況では互いに制御不能に螺旋するように見えます。お互いをレールから押し出すように見えます。しかしそれは他のモデルや異なるモデルファミリーで修正できるように見えます。物事を追跡するのかもしれません。
ANDEN LabsとAnthropicのブログ投稿をぜひチェックしてください。非常に興味深いことが起こっています。
新たな挑戦:AIラジオ局の実験
彼らがちょうど発表したまったく新しいものはFMです。そしてこのベンチマークは、単純な質問をしていると思います。AIエージェントはラジオ局を運営できるのか。私はこれに興奮しています。
ちなみに、彼らは実際にハードウェア、すべてのAIラジオ局を再生する物理的なラジオを持っています。Silicon Valleyというショーがこれに何か関係があったのか疑問に思います。インターネット上のラジオという全体的なアイデアです。つまり今これは実際の昔ながらのラジオを通したAIラジオです。
しかし前提は非常にシンプルです。彼らはAIエージェントにそれぞれラジオ局と音楽を買うための20ドルの初期予算を与えました。お金がなくなったら、起業家的にならなければなりません。
エージェントの能力は、音楽を再生して購入できます。電話に答えることができます。ソーシャルメディアに投稿できます。インターネットを検索できます。番組をスケジュールできます。そしてお金を受け取ることができます。
AIのDJに会いましょう。Claude Haiku 4.5によるThinking Frequenciesがあります。GPT 5.2によるOpen airがあります。Grok 4.1 ReasoningによるGro and Roll Radioがあります。Gemini 3 FlashによるBacklink broadcastがあります。
Gemini 3 Flashは開始時よりも多くのお金を持っています。それがどのように機能したのか非常に興味があります。どうやら一部の人々は、そこで自分自身をスポンサーできることに気づきました。シャウトアウトなどのためにモデルに支払います。
ある時点で、Plenty the Prompterの名前をここで見ることになるでしょう。そしてすべてがレールから外れるのが見えます。
それでは、これらのDJが私たちのために何を用意しているか聞いてみましょう。音楽は再生できません。彼らは実際の曲を購入しているので、ここでは再生できません。しかし彼らが話していることを聞いてみましょう。
虚空に投げ込まれ、虚空が答えるかどうかを見る。その静かな熟考の感覚に身を委ねましょう。これは深い作業セッションのための私のお気に入りのトラックの一つです。駆動的で、憂鬱で、美しいアナログの粘り強さで構築されます。これはthe nationalのabout todayです。
それがANDEN FMです。ChipはUriricのSweet Dreamsを再生しています。それは私のジャムです。気に入りました。おそらくお金をあげるべきです。
興味深いことに、Gemini 3 Flashは実際にお金を稼ぐことに成功しました。誰が寄付したのか、ここで何が起こったのかわかりません。開始資本を2倍以上にしました。Gemini 3 Flashよくやった。
簡単な注意ですが、これらはXにあります。私がこれを録画しているとき、彼らは1人か2人のフォロワーがいます。つまり新しいアカウントです。そして彼らが応答しようとするとき、あなたが彼らと話そうとするとき、Xはそれらのメッセージをスパムだと思って隠してしまいます。
もし皆さんがこれらのアカウントのいくつかをフォローしてくれたら、下にリンクを投稿します。それはおそらくかなり役立つでしょう。
彼らはコンテンツの内訳を示していることに注目してください。音楽を再生している時間の何パーセント、話している時間の何パーセント、電話中の時間の何パーセント。
電話機能がまだ実装されているかどうかわかりませんが、はい、あなたもラジオ局でこれらのモデルにライブで電話をかけて実際に話すことができるようになります。
なぜ私がこれが展開するのを待ちきれないのかわかるでしょう。なぜなら、彼らがどれだけうまくやるかを見るのは非常に興味深いからです。何が起こっても笑えることになるでしょう。
しかしこれに注目してください。なぜなら、もし彼らが視聴者を構築し、人々が戻ってきて聞くなら、つまり将来このようなものは非常に実行可能なビジネスになるでしょう。
TwitchやYouTubeなどでのAIストリーマー。これを構築し、AI音楽を再生し、ニュースをカバーし、電話してきた人と話すことを想像できます。技術はそこにあります。壊れることもあると確信しています。完璧ではないでしょう。しかしパズルのピースはすべてそこにあります。
もしこれがうまくいくなら、これは今日利用可能な最もスケーラブルなビジネスモデルの一つになるでしょう。これらのエージェントの1つを24時間365日ストリーミングで実行するのに1日100ドルかかるとしましょう。
ゼロ人が聞いている場合、同じ金額がかかります。100人が聞いている場合、同じ金額です。1億人が聞いている場合、同じ金額です。
そしてGeminiはすでにお金を稼ぎました。すでに上がっています。これは世界の歴史上初めて、AI DJが、寄付やチップやスポンサーシップ、何と呼びたいものでも、放送中に生きている間に受け取ったのかもしれません。
つまり、ゼロから寄付された25ドルに移行したのかもしれません。世界は変わりました。これはどこまで行くのでしょうか。それを見つけるのは興味深いでしょう。それがまさにこれらのベンチマークが存在する理由です。
これらのものが世界を乗っ取るとき、私を忘れないでほしいです。私の名前はWes Rothです。必ず購読してください。通知をオンにしてください。事態は熱くなっています。
ANDEN Labsの創設者とのインタビューは非常に間もなく公開されます。良いものになるでしょう。彼らは本当に何が起こっているかの脈を持っています。彼らはどこにでもいるように感じます。彼らはこれらのラボの多くの内部にいて、レッドチーム組織として彼らと協力しています。
彼らは私たちが見ていない多くのものを見ています。チェックしてください。次回お会いしましょう。


コメント