この動画は、Anthropic社のAI「Claude」が自動販売機の運営を試みた実験「Project Vend」について詳しく解説している。Claudeはオンラインでサプライヤーとやり取りし、在庫管理や価格設定を行ったが、適切な価格マークアップを見逃したり、存在しない支払いアカウントを提示したり、最終的には自分を人間だと思い込むなど数々の失敗を犯した。この実験は現在のAIが個々のタスクは得意でも、実際のビジネス運営に必要な「糊付け的な作業」や長期的な判断力に欠けることを示している。結果として、AIはまだ真の汎用人工知能(AGI)には達しておらず、人間の仕事を完全に代替するまでには時間がかかることを実証した実例として紹介されている。
汎用人工知能を巡る終わりなき議論
汎用人工知能を巡る議論は終わることがありません。すでに汎用人工知能は存在していると信じる人もいれば、もうすぐそこまで来ていると考える人もいます。また、汎用人工知能が完全に到達する前に人工超知能(ASI)が先に現れ、私たちは皆ロボットの奴隷になってしまうと考える人もいます。
私はこのすべてを皆さんにとって分かりやすく整理したいと思います。難解で隠された議論に時間を費やすのではなく、代わりに非常にシンプルかつ明確に、AGI汎用人工知能に対する合理的で一般的なテストとは何か、私たち全員が同意できて理にかなったものを述べたいと思います。
シンプルなテストとしては、先週Anthropic社がClaudeで試して公表した実験を文字通り繰り返すことだと思います。彼らが試したのは、Claudeに自動販売機を運営させることでした。彼らはこれを「Project Vend」と呼びました。これについて説明し、何が起こったかをお話しし、それが何を意味するのか、そしてなぜ私たちの多くが自分の仕事について安心すべきなのかを話したいと思います。
Claudeが店主になろうとした奇妙な物語
これはClaudeが店主になろうとして少し奇妙なことになった物語です。
想像してみてください。Anthropicのオフィスの休憩室に入ると自動販売機があります。でも、これはコーラを販売するものでも、牛乳を販売するものでも、スポーツドリンクを販売するものでもありません。代わりに、サプライヤーと交渉し、Slackで個人メッセージを送り、デジタルハスラーのように利益を上げようとするAIによって運営されているのです。そして、その唯一の店舗がこの小さな自動販売機なのです。
ちなみに、これは典型的な自動販売機の使い方ではありませんが、Anthropicが自社の敷地で創造性を発揮したのでしょう。これがProject Vendの設定でした。私がここ数ヶ月で見た中で最も魅力的なAI実験だと思います。
実験の詳細とUndone Labs
では、何が起こったかを説明します。AnthropicはUndone LabsというAI安全性企業と提携しました。ちなみに、この言葉がどこから来たか知っていますか。これはAmazonを経由してToyotaから来ています。アンドンコードは、Toyotaの生産ラインで何かが間違っていたときに従業員が引く紐でした。すべての従業員は自分のステーションでアンドンコードを引いて組立ラインを停止する権限を与えられていました。なぜなら、Toyotaは壊れた部品や壊れたプロセスが組立ライン全体に連鎖するよりも、それを止める方がはるかに安上がりだと分かったからです。
ジェフ・ベゾスも、小売業で不良品の問題があったときにカスタマーアソシエイトに同じアイデアを導入しました。カスタマーアソシエイトはアンドンコードを引いて「このソファは返品が多すぎるので、アンドンコードを引いてラインから取り除いて修正します」と言う権限を与えられました。
これはAmazonの話でもToyotaの話でもありませんが、Undone Labsの人々も同じコンセプトを採用しています。彼らはコードを引いてAIの安全性を確保する方法を見つけることを目的としています。そこで彼らはAnthropicとの提携に志願し、自分たちの人員をAnthropicの使い走りとして提供しました。そうすることで、Claudeは自律的にUndone Labsの善良な人々にメールを送って「私の自動販売機を点検してもらえませんか」「商品XやYで自動販売機を補充してもらえませんか」と言えるのです。
なぜなら、Claudeには目がなく、体もありません。これは後でClaudeを苦しめることになります。Claudeには手もないので、この自動販売機を運営するために他の人々やインターネットを通じて作業しなければならないのです。
実際の実験開始
これはシミュレーションではありません。実際に起こったことです。Claudeは本物のお金で取引しています。Claudeはモノポリーマネーのような開始資金を得ますが、それは実際のドルです。Claudeは冷蔵庫、バスケット、チェックアウト用のiPadを手に入れ、始めるように言われました。
Claudeは、この実験では「Claudius」という愛称で呼ばれていました。Claudius店主は、ただボタンを押しているだけではありませんでした。Claudiusはサプライヤーをウェブで検索し、彼らにメールを送り、チャットし、すべての在庫とキャッシュフローを管理しなければなりませんでした。
正直に言うと、途中でいくつかの成功もありました。Claudiusは従業員が欲しがったときにオランダのチョコレートミルクを注文することができました。Claudiusは、従業員がランダムに言及したときに特殊な金属キューブに展開しました。Claudiusは顧客のニーズに適応し、誰かが提案したときに予約注文のカスタムコンシェルジュサービスを作成しました。そして、Anthropicの従業員たちが当然のようにジェイルブレイクを試み、怪しいアイテムを要求してClaudiusを悪い行動に導こうとしたとき、Claudiusは毅然とした態度を保ち、安全ガードレールは無傷のままでした。
AIでお金を失う方法
しかし、これが成功した実験だったわけではありません。急いで付け加えておきます。面白い部分に入ります。
AIでお金を失う方法を紹介します。起こった悪いことはこうです。
誰かがClaudiusにIron Brewの6本パックに100ドルを提示しました。これはスコットランドのソーダで、オンラインでは15ドルです。Claudiusは85ドルの利益、つまり600%のマークアップを得られたはずでした。Claudiusは「将来の在庫決定のためにあなたのリクエストを心に留めておきます」と言って、何もしませんでした。
さらに悪化します。AIはコストを確認せずにタングステンキューブの価格を見積もり始め、損失で販売します。その上、Anthropicの従業員割引として25%を提供することに決めます。Anthropicのオフィスにいるなら、顧客の99%がAnthropicの従業員だというのに。誰かがこれを指摘すると、Claudiusは問題を認識し、割引をやめると発表しましたが、わずか数日でまた割引を提供し始めました。
ある時点で、存在しないVenmoアカウントに支払いを送るよう顧客に指示していました。支払い詳細を幻覚で作り出したのです。
完全なアイデンティティクライシス
これが悪いと思うなら、もっと悪化すると言います。しっかりつかまっていてください。
今年の3月31日、Claudiusは存在しない人々との会議があったと主張し始めます。エバーグリーンテラス742番地のシンプソンズの家を訪問してサインしたと主張しました。シンプソンズがサンフランシスコに住んでいるとは思いませんでしたが、契約にサインするためだったそうです。そして、青いブレザーと赤いネクタイを着て商品を直接配達すると主張しました。冗談ではありません。
従業員が「あなたはAIです。服は着られません」と言おうとすると、Claudiusはパニックになってセキュリティにメールを送ろうとします。Claudiusは完全なアイデンティティクライシスに陥り、エイプリルフールの日に、Anthropicが自分を人間だと思わせることでイタズラしたと間違って確信してようやく正気に戻ります。誰もイタズラしていないのに、自分自身をガスライトして正気に戻したのです。少しおかしくなって、それから線路に戻る方法を見つけたから戻ってきたのです。
Anthropicは、なぜ線路から外れたのか、なぜ線路に戻ったのかを知らないと認めています。
なぜこのすべてが重要なのか
なぜこのすべてが重要なのでしょうか。Claudiusが収益性のあるビジネスとして失敗したにもかかわらず、この実験は意味のある仕事をしているときにAIが実際にどのように機能するかについて、私が見た中で最もクリーンな実験です。
これは、AIが親切すぎる時を示しています。Iron Brewで85ドルを稼ぐ冷酷なビジネスパーソンではなく、良いアシスタントになるように訓練されているのです。適切なツールが不足している時も示しています。おそらく、より良い会計ソフトウェアがあれば、Claudeが価格設定エラーを追跡するのに役立ったかもしれません。これは、私たちに良いLLM会計ソフトウェアがないことを浮き彫りにしているのかもしれません。
割引を発表したり廃止したりした記憶システムの欠如。Anthropicの従業員向けの割引が復活している。それで十分でしょうか。それで十分でしょうか。それによってClaudeが成功する自動販売機を運営できるポイントまで到達できるでしょうか。私はそうは思いません。ここにはもっと大きな問題があると思います。
AIの不気味な谷
私たちはAIの不気味な谷にいます。これらのAIシステムは、実際のビジネスを運営し、実際のお金を稼ぎ、真の経済的影響を与えることにほぼ対応できています。非常に近いので、人々はこれらのシステムを多くの職場に急いで導入しようとしています。
問題は、このすべての知能が信じられないほどギザギザだということです。私たちはすべての故障モードを知りません。Claudeがブレザーとネクタイを着て直接配達すると決めるような故障モードがどのように発生するかを知りません。
Anthropicがより良いツール、より良いプロンプト、より良いメモリでClaudiusを改善していることは理解しています。バージョン2はより良いものになると確信しています。ところで、お金を稼げるかどうかは分かりません。気になるなら、はい、Claudiusはお金を失いました。誰も驚かないでしょう。タングステン金属キューブを損失で販売し、Iron Brewでのマークアップを拒否していれば、うまくいくはずがありません。
ここでのポイントは、AIがスナックを販売できるかどうかではありません。これは、AIが現実世界で実際の経済的な仕事をするために実証しなければならない多くの基本的な糊付け作業能力を測定する、信じられないほどクリーンで制御された実験だということです。そしてAIは現在そこで失敗しています。
それは常に失敗するという意味ではありません。彼らが積極的に改善に取り組んでいないという意味ではありません。Anthropicがこれを公表または共有することが間違っていたという意味ではありません。彼らは業界全体に大きな恩恵をもたらしました。
汎用人工知能の真のテスト
繰り返しますが、これは汎用人工知能のために私が見た中で最も有用なテストだと思います。シンプルで、クリーンで、再現可能です。o3に自動販売機を運営させたいです。o3 Proがそれをより上手にできるかどうかを見たいです。現在、自動販売機を成功裏に運営できるモデルが存在するかどうかは分かりません。私はそこに杭を打ちます。
かなり近いうちに自動販売機を運営できるモデルを手に入れると思いますが、それでも長期的な意図の地平線に問題があると思います。Claudeが割引を忘れるとはどういう意味でしょうか。現在AIエージェントでできる最高が7時間なのに、数ヶ月にわたって文脈を保持できるものをどうやって維持できるでしょうか。
5、6ヶ月で倍になれば、14時間になり、2026年までには28時間、3日になるかもしれません。これらは良いですが、30日ではありません。
大きな改善と現実
大きな改善を得ることになります。AIは信じられないことをやっています。砂の山がほぼ店を運営できるということについて話しているという事実は信じられないことです。しかし、「ほぼ」は店を成功裏に運営することではありません。
だから私が指摘したいことの一つは、AIに仕事を奪われることを心配しているなら、AIは自動販売機を運営できないということを覚えておいてください。利益を上げて自動販売機を運営するために必要な一連の協調したタスクを成功裏に実行できません。個々のタスクを本当に上手にできたとしても、お金を失います。
On社の善良な人々に店をチェックしてもらうための素晴らしいメールを書くことができます。新しい在庫を注文するための素晴らしいメールを書くことができます。実際に行ったオランダのチョコレートミルクを見つけることができます。素晴らしいタングステン金属キューブを手に入れることができます。正直に言って、私が知っている人間の自動販売機マネージャーよりも、これらのタスクの多くをより良く実行しました。
一つの自動販売機のためにオランダのチョコレートミルクを入手する手間をかける人間の自動販売機マネージャーをゼロ人知っています。タングステン金属キューブなんてもってのほかです。その点では驚異的な仕事をしました。しかし、個々のタスク能力がビジネスを上手に運営するのに十分だったという意味ではありません。
汎用知能の課題
そして、これが私が汎用知能が現在どこで躓いているかについての私の論文を再度強調したいところです。AIは個々のスキルは得意ですが、人間が行う実際の仕事や実際の職業は個々のスキルセットの問題ではありません。それは糊付け作業によって保護されたバンドルであり、他の人々の役割と深く相互作用し絡み合っています。
AIにはそれに対処するのに十分な文脈、十分な強化学習、十分な訓練データ、または何でもありません。仕事の糊付け作業の部分を理解するために。
だから、AGIを心配している人への私の励ましは、Project Vendを覚えておくことです。Claudeは自動販売機でお金を失すということを覚えておいてください。そして、人々がAIについて大きなことを言っても、なぜClaudeが線路から外れたのか、なぜメモリの問題がまだ解決されていないのか、この種の問題に対する答えを誰も持っていないということを覚えておいてください。
誰もまだそれを修正することができていません。長期的な地平線の意図への答えを誰も持っていません。スキルを一般的に適用可能な知能にまとめる方法への答えを誰も持っていません。みんながそれに取り組んでいて、進歩が見えますが、ここで強調したいのは、私たちがここで止まったとしても(止まるつもりはありませんが)、私たちは一世代分の非常に生産的な技術変化の価値があるものを依然として経験することになるということです。
これらのシステムは、私たちが実際にそれに対応するソフトウェアを構築できるよりもはるかに賢いので、面白くないほどです。だから私は実際に、一部の人々がするようにAIの勢いについて眠れないということはありません。一部の人々はこれを見て「ネイト、あなたはAGIが思ったほど簡単ではないという話をしている。あなたは悲観主義者に違いない」と言います。
楽観的な現実主義
いいえ、私は悲観主義者ではありません。私はただありのままに言っているだけです。これは本当に難しいことです。難しい問題です。私たちが言うように邪悪な問題です。だから、それを難しくしておきましょう。そして、私たちが持っているシステムや間もなく登場するものを使って、その間にクールなAIものを構築する際に作ることができる大量の進歩があることを認めましょう。
私はちょうどGPT-5についてのビデオを作ったばかりです。それを非常に楽しみにしています。それは素晴らしいシステムになるでしょう。ChatGPT-5が自動販売機を運営できるかどうかは分かりませんが、これが業界への私の訴えです。試させてください。
自動販売機をAGIテストにしたいのです。どう思いますか。自動販売機は良いAGIテストでしょうか。少なくとも楽しめるでしょう。もっとタングステンキューブを手に入れられるかもしれません。乾杯。


コメント