22歳の若者が開発したモバイルゲーム版TikTok、急速に成長中 | E2276

スタートアップ・VC
この記事は約47分で読めます。

本動画は、スタートアップ企業と最新テクノロジーに焦点を当てたポッドキャストの2つのインタビューを収録している。前半では、モバイルゲーム版のTikTokとも言えるプラットフォームを開発した若き起業家たちが登場し、AIを用いて誰もが数秒でゲームを作成し、共有できる新しいエコシステムについて解説する。後半では、家庭用人型ロボット「Neo」を開発する1XのCEOをゲストに迎え、日常生活の家事をサポートするロボットの現状や、ワールドモデルを利用したAIの学習プロセス、そして人間とロボットが共存する未来の展望について深く掘り下げている。

This 22-Year-Old Built TikTok for Mobile Games, and It’s Growing Fast | E2276
This Week In Startups is made possible by:LinkedIn Jobs - LinkedIn.com/twist Every.io - every.io Render - render.com/twi...

モバイルゲーム版の新しいプラットフォーム

This Week in Startupsへようこそ。ロン・ハリスとジェイソン・カラカニスでお送りします。今回はナノグの共同創設者であるアルバート・ブラザートンとボリス・ラタロフにお越しいただきました。これは本当に素晴らしいサービスですね。基本的にはモバイルビデオゲーム版のTikTokのようなもので、現在Google PlayストアとiOSストアで配信されています。二人とも今日は来てくれてありがとうございます。

こちらこそお招きいただきありがとうございます。

今取り組んでいることについて教えてもらえますか。

ええ、ボリス、デモ画面を出して説明してもらえますか。

もちろんです。画面を共有するので少し待ってください。

ジェイソン、私のスマホにも入っていますが、今すぐ利用できるんですよね。基本的にはTikTokを想像してもらえれば分かりやすいですが、ユーザーがカジュアルなモバイルゲームを非常に素早く自作できるんです。そして一つのゲームに飽きたら、上にスワイプするだけで次のゲームに移ることができます。本当に驚きですよ。

おなじみのTikTokのようなフィードですね。これは私たちが1ヶ月半前に公開したMVP、つまり実用最小限の製品です。ゲームをプレイして、飽きたら次のゲームに行きます。このゲームをプレイして、また飽きたら次へ、という非常にシンプルなコンセプトですが、かなり興味深い結果が出ています。連続して複数のゲームをプレイして脳を刺激するというのは、このサイクルの半分に過ぎません。残りの半分はゲームの作成部分です。

新しいゲームを探すとき、選択肢が多すぎて選べないというマヒ状態に陥ることがありますよね。何百ものゲームがあって、すべてのビデオゲームを調べる時間なんてありませんから。でもこれなら、スマホを開いてすぐにゲームをプレイし始められます。

AIを活用した画期的なゲーム作成機能

作成機能はさらに素晴らしいんです。作成タブを開いてAIで作成を選ぶと、様々なテンプレートが用意されています。もちろんカスタムテンプレートを作ることもできますよ。ここで簡単にデモをお見せしますね。私は14歳の頃にビデオゲームを作りたくてプログラミングを始めました。当時は1週間かかっていた作業が、今ではAIやエージェントのおかげでたった90秒で終わってしまいます。

例えば、Flappy Birdの3D版を作りたいと思ったら、3Dを選んでFlappy Birdと入力し、生成ボタンを押すだけです。するとAIがゲームを作り始めてくれます。さらに面白いのは、エージェントを待っている間に、他の人が作ったゲームをプレイしてインスピレーションを得ることができる点です。通常、最初のプロンプトから完全なゲームが一発で生成されるまで、だいたい60秒から90秒くらいかかります。

その後は自由にゲームをリミックスできるのも魅力です。話しながらプレイするのは少し難しいので、プレイが下手なのは大目に見てくださいね。つまり、その後は何度でも好きなだけゲームをリミックスできるということです。

その機能についてはすぐにお見せできると思います。さらに、他の人のゲームをリミックスすることも可能です。例えば、私がすごくクールなゲームを作ってここにいるジェイソンに送ると、彼はそれを自分の好きなようにリミックスして変更できるんです。さて、これが私たちが作った3DのFlappy Birdです。これは非常にベーシックなもので、私たちの出発点のようなものですね。

子供の頃の私なら、AIがなかった時代にはこれを理解するのに数日かかったはずです。でも面白いことに、今ではこれが90秒でできてしまいます。さらにプロンプトを追加して、これに銃を追加してくださいと頼むこともできます。

お願いしますと丁寧に頼むところがいいですね。

つまり、これらはすべてゲームを作るためのAIプロンプトなんですね。裏で動いているエンジンは何ですか。これはClaudeか何かですか。それともゲーム作成に特化した独自のAIエンジンを使っているんですか。

私たちがやっているのは、カスタムのゲームエンジンを作成し、そこにGeminiと多数のエージェントフレームワークやツール呼び出し機能を使用することです。これにより、3Dアセットやピクセルアートから2Dアセットなどを作成する機能を持たせています。基本的にはネイティブプラットフォームに極力依存するように作っています。ツール呼び出しに関しては本当にGeminiに頼り切っていますね。そして、3Dメッシュの生成、2Dピクセルアートの生成、サウンドの生成などのさまざまなツールを組み合わせています。AIがこれらのコードの書き方を理解し、ゲームに組み込んでユーザーのためにあらゆる処理を行ってくれます。

天才的ですね。私がロンのゲームをベースにして新しく分岐させることはできますか。

ええ、もちろんです。

つまり、ロンがFlappy Birdを投稿したら、それに銃を追加したいと言えるわけですね。写真や動画を送ることもできるのでしょうか。なるほど、基本的にはコンテンツを分岐させていくシステムなんですね。

リミックスのようなものです。ええ、Soraのリミックスに似ていますね。誰かの動画を見て、代わりにこう言わせてと指示するような感覚です。みんなのアイデアが別の誰かのアイデアの上に積み重なっていくんです。

ビジネスモデルとターゲット層

ビジネスモデルはどうなっているんですか。それに、君たち二人は一体何者なんですか。

私がアルバートで、こちらがボリスです。私はCEO兼CTOを務めています。ビジネスモデルについてですが、結局のところ私たちはインタラクティブなコンテンツのフィードを提供していると考えています。ゲームとさえ言いません。なぜなら私たちが向かっている方向はインタラクティブなコンテンツだからです。

今はまだ新しい分野なので、これから多くの収益化の実験を行いたいと考えています。最終的にどうなるかは正確には分かりませんが、現在簡単に配信できる手軽なインタラクティブ広告のスペースが存在しないという点で、非常に興味深い領域だと思っています。

例えばドミノ・ピザのような大手広告主を例に挙げてみましょう。彼らが手軽な広告を出したいと考えた場合、ショートフォームコンテンツを利用するでしょう。ショートフォームが得意なマーケティングチームがいて、InstagramやTikTokに投稿しますよね。でも結局のところ、インタラクティブなコンテンツの方がコンバージョン率ははるかに高いんです。エンゲージメントが高いため、ユーザーはより多くの時間を費やします。

だからドミノ・ピザは、岩や小惑星がドミノになっていて、それを壊すとプレッツェルバイトに変わるようなアステロイド風のゲームを作りたいと言えるわけです。そして宇宙船が通り過ぎる、それがブラウニーだったりするわけです。

素晴らしいアイデアですね。

ピザを作るんです。そして、ゲーム内で作ったのと全く同じピザを注文するというコールトゥアクションを設定することもできます。これはかなりクールですよ。

アルバートとボリス、あなたたちは同じ学校に通っていたんですか。今は高校生ですか。どういう経歴なんですか。

いえいえ、私は22歳で、ボリスは24歳です。私たちは一緒に仕事をしてきました。

そう見えて嬉しいです。ジェイソン、アルバートのことを言ったつもりでしたが、まあいいでしょう。冗談ですよ。二人ともかなり若いですが、大学は卒業したんですか。それとも飛び級ですか。

私は個人的に大学はスキップしました。

よくやりましたね。

私は残念ながらリーズ大学に進学し、コンピューターサイエンスを学びました。ただ運悪く新型コロナの時期と重なってしまったため、3年間のうち2年間は文字通り全く授業に行きませんでした。

つまり大金を払って何も得られなかったということですね。それはひどい。ボリス、借金はどれくらいあるんですか。

それほど多くありません。イギリスではかなり安くて4万から5万ポンドくらいです。

5万ドルならそれほどでもないですね。なんとかこのスタートアップを成功させないといけません。アメリカで多額の借金を背負っている人たちと比べればですが。

さて、アルバート、あなたの経歴は。ビジネス担当ですか。それとも開発者ですか。

私はビジネス担当です。私がビジネスを回すハスラーですね。ちなみに私は6歳の頃からゲーマーでした。Z世代の中では珍しくWorld of Warcraftをたくさんプレイしている変わり者なんです。あれはどちらかというとミレニアル世代のものですよね。

ボリスもプレイしていますよ。一緒に遊んだりもしますが、私は6歳からやっています。

それが二人の出会いのきっかけですか。World of Warcraftで知り合ったんですか。

いえ、幼馴染を通じて知り合いました。私とボリスの共通の友人で、約3年前に紹介されて意気投合し、大親友になったんです。

なるほど。そして今はゲーミングチェアに座っているんですね。それはゲーミングチェアでしょう。

Razerのチェアです。ええ。

やっぱりRazerですね。私は投資家版のコロンボ刑事のようなものでして、小さな手がかりを探すんです。アルバートが座っている椅子はゲーミングチェアで、ブランドはRazerだぞと。私の義理の兄弟もRazerのマウスを持っていて、World of Warcraftのようなゲームをプレイするのに使っていました。アルバート、あなたは本当にゲームに夢中なんですね。

これをすべてバイブコーディングしたんですね。自分たちでやり遂げたんです。そのRazerの椅子には重りも入っていて、プレイするゲームに合わせて重さを調整できるんですよね。

資金調達についてはどうですか。インキュベーターに入る予定ですか、それともすでに資金は調達済みですか。法人化はしましたか。これは素晴らしいアイデアですからね。

ええ、資金調達は完了しています。私たちにとって今は本当にエキサイティングな時期で、Driveから出資を受けました。

最高ですね。素晴らしいです。拠点はどこですか。

現在はロンドンとソフィアに拠点を置いていますが、ニューヨークに進出する計画があります。

素晴らしいですね。私の地元です。ニューヨークに行ったら、間違っても過激派組織には入らないでくださいね。エリス島に到着したとき、テロリストの訓練キャンプに行きますか、それともブルックリンに行きますかと聞かれるかもしれませんから。

正直言って、ロンドンも少しそんな感じなので心配しないでください。

若者としてそういうイデオロギーから身を守る必要があるだけです。とにかく何も爆破しないでくださいね。

ニューヨークはあなたたちにとって素晴らしい場所です。ニューヨークはマーケティングの中心地ですし、人々は実験を好みますから。それにこのプラットフォームは許可不要で使えるのがいいですね。企業に対して、好きなものを自由に作ってくださいと言えばいいんですから。

ブランドとの連携とオーガニックなマーケティング

StaplesのBaddieの動画は見ていますか。

いいえ。

ロン、TikTokのStaples Baddieを知っていますか。うちのチームのジェイコブがすぐに見つけてくれました。彼女は基本的にStaplesという文具店に情熱を持っていて、そこで働いているんです。インターネットスラングでいうBaddie、つまりイケてる女性で、最高のペンはこれだといった話をしています。

先日、私も新しいペンを探していました。1ドルの安いペンは嫌だけど、100ドルの高級ペンも買いたくなかったので検索していたら彼女が出てきたんです。彼女が気に入っていたペンの1つがZebraのG750で、私は実際にそれを買いました。Staplesで買ったわけではありませんが、彼女をフォローしました。つまり私は彼女にStaplesの功績を認めているわけです。

私が言いたいのは、彼女がさらに多くの再生回数を稼ぎ、1000万ドルや1億ドルを費やす企業の誰よりもブランドのためにオンラインで貢献しているということです。なぜなら彼女は人々とオーセンティックにつながったからです。

LinkedIn Hiring Proのご紹介

採用活動はそれ自体がフルタイムの仕事になり得ます。そしてお分かりのように、私にはすでにフルタイムの仕事があります。ポッドキャストを制作し、投資を行っています。しかし小さな会社を経営していると、採用の一つ一つが重要であることは私たちもよく知っています。会社にあるポジションを無駄にしたくはありませんよね。

そこで最高のパートナーとなるのがLinkedIn Hiring Proです。なぜでしょうか。LinkedInには10億人ものユーザーがおり、優秀な人材がすべてそこに集まっているからです。自分の仕事に誇りを持っていれば、LinkedInのページを作成し、それを更新するはずです。

LinkedIn Hiring Proは採用プロセス全体を合理化し、シンプルにしてくれます。LinkedIn Hiring Proを利用している企業の約60%が、最初の1週間で素晴らしい候補者と面接を行っています。私たちのポッドキャストでも新しいプロデューサーを探していました。この番組で呼びかけ、私のソーシャルメディアに投稿し、友人にも尋ねました。私たちが次の素晴らしい人材をどこで見つけたか分かりますか。LinkedInです。

競争は激しく、3、4人の本当に素晴らしい候補者がいました。ですから最初の採用を正しく行いましょう。最初の求人を投稿し、求人掲載に使える100ドルの割引を受け取ってください。linkedin.com/hiringpro offerにアクセスしてください。繰り返します、linkedin.com/hiringpro offerです。利用規約が適用されます。

オーガニックな宣伝の重要性

話を戻しますと、彼女は手帳やペンを試して、今や話題になっています。Office Depotも自分たちのBaddieを見つけようとしていて、一つの社会現象になっています。

先週あなたが追っていたファストフードのハンバーガーの件と同じコンセプトですね。マクドナルドのCEOがTikTokをやったことを視聴者に説明してあげてください。

あれは本当にひどかったですね。

彼はハンバーガーを食べましたが、すごく小さな一口しか食べず、自分の会社のハンバーガーを嫌悪しているように見えました。今では他のすべてのファストフード企業のCEOが、ハンバーガーを愛し、顔いっぱいに頬張る自分たち独自のバージョンを公開しています。このマクドナルドのバイラル動画の勢いに乗るために、すべてのCEOがやらざるを得なくなったような感じです。

あの動画も見たんですが、問題は彼が非常にロボットのようだったことだと思います。

ええ。

誰かを診断するようなことはしたくありませんが、MBAを持っている少しスペクトラム気味の人のような印象を受けました。ロボットのようだと言えば、なんとなく分かりますよね。ぎこちなくて、本当に楽しんでいる、このハンバーガーを食べたいんだというような演技がうまくできないんです。

彼は人間であることすら演じ切れていませんね。

本当にその通りです。ある時点で彼は、これが今日の後のお昼ご飯になりますと言います。昼食にハンバーガーを食べることを信じさせるのは難しくないはずですが、私は彼を信じられませんでした。あの瞬間、彼の言葉は嘘だと感じました。

彼はハンバーガーのことをプロダクトと呼んでいて、すごく不自然でしたね。しかも食べる一口がすごく小さいんです。

大きくは食べませんね。バーガーキングの人についても同じことを思いました。バーガーキングの担当者も動画を出していましたが、彼もハンバーガーが大好きだというような男らしい大きな一口は食べていませんでした。

誰がこれを投稿させたのかという疑問が湧きます。おそらくマーケティング部門全体が関わっていたはずですよね。

ソーシャルメディアの担当者がその場にいながら、もっと大きくかじれませんか、ハンバーガー好きに見えませんよ、上品すぎますよと指摘しなかったんでしょうか。実際に動画を見ても、噛みついたようには見えません。

アルバート、これを見ると、この人が自分の製品を好きではないことが明らかですよね。どうしても好きになれないんでしょう。

カメラの回っていないところではシェフが彼の指定通りに作ったサラダが用意されていて、彼は食べたものを吐き出し、希望通りの温度のサンペレグリノで口をすすぎ、それからシェフが作ったサラダを食べるつもりなんでしょう。そのサラダはすべての具材が計量されていて、彼がカロリー計算をしているスプレッドシートに入力されているはずです。

必要なのは、シェフと一緒に座って、玉ねぎをもっと入れてくれとか、マスタードの比率がおかしいと指摘できるような人です。それこそがマクドナルド兄弟がやっていたことです。

クリエイターのエコシステムと収益化

アルバート、ここでのビジョンは何ですか。許可不要のシステムについて話していましたが、ブランドには自由にコンテンツを作らせておいて、その後でそれを宣伝する機能を提供するということですね。

それはまさに今ブランドがやっていることと同じです。コンテンツを作るのに許可は必要ありません。再生回数を稼ぎ、良い仕事をすれば自然と伸びますが、ブーストするためにお金を払うこともできます。ブーストにお金を払うというシステムは非常に良いアイデアだと思います。

では、クリエイター側の収益化についてはどうでしょうか。私がゲームをアップロードして、もっとレベルを進めたければコインを買ってねと設定することはできますか。それともそれは顧客にとって煩わしく、アルバートの哲学に反するものですか。

これも私たちが実施したい大きな収益化の実験の一つです。私はこれを2つの側面から見ています。例えばRobloxのようなプラットフォームは素晴らしいクリエイター通貨のシステムを構築しました。しかし、彼らのゲームは100%長時間のプレイを前提としています。1時間に100個もゲームをプレイするようなものではありませんよね。

ですからマイクロトランザクションやクリエイター通貨が存在するのは非常に自然なことです。クリエイターが、もっとレベルを追加したい、100万回もプレイされているから、応援してくれるファンのためにレベルを追加しようと言えるわけです。

これは私たちが実験したいことの一つです。はい、クリエイター通貨の実験を検討しています。なぜならクリエイターにとって大きなインセンティブになると思うからです。例えば2分でゲームを作って投稿したとします。プロンプトを3回ほど入力しただけで100万回のプレイ回数を獲得したとしましょう。

誰もが知っているゲームを例に出します。キャンディークラッシュだとしましょう。まだキャンディークラッシュが存在しない世界で、あなたが最初のレベルを開発したとします。ソーシャルメディアではあまり見られませんが、すでに投稿されたコンテンツを反復して改良していくための大きなインセンティブを設けたいんです。

InstagramやTikTokでは、投稿ボタンを押した瞬間にそれで終わりです。手遅れになります。ですから、私たちがテストしたい側面は確かにありますが、率直に言ってそれがうまくいくかどうかを判断するにはまだ早すぎると思います。それが成功するかどうかを決めるのは私たちではありませんからね。

最初の2年間は、人々が夢中になるような素晴らしくて中毒性のあるツールを作ることに専念すべきだと思います。

ええ、すでにその状態に近づきつつあります。私たちのユーザーの定着率やエンゲージメントについて何かご存知ですか。

少し教えてもらえますか。

かなり面白いデータがあります。1月中旬にローンチして、これまでに約10万人のユーザーを獲得しました。そのうちの20%は私たちがパワーユーザーと呼んでいる人たちです。彼らは1セッションにつき25以上のゲームをプレイします。平均セッション時間は約21分で、1日に2回のセッションを行います。つまり彼らは1日1時間弱プレイして、50以上のゲームを楽しんでいるんです。

これは本当にすごいことだと思います。フィードを少しお見せしましたが、私たちにはInstagramやTikTokのようなプラットフォームでショートフォームのエンゲージメントを牽引するアルゴリズムが存在しません。

アルゴリズムについては長引かせたくありませんが、これまでゲーム業界に導入されたことはありませんでした。ショートフォームのソーシャルエンゲージメントのほとんどを牽引していますが、ゲームでは前例がありません。つまり私たちは、現状では質の低いコンテンツをひたすら提供しているだけなのに、非常に長いセッション時間を維持していることになります。システムが改善されるまでの間はそんな状態ですが、人々はすでにこれに大きな期待を寄せてくれています。

初期のユーザー獲得とシェアの力

これは間違いなく大ヒットすると思いますよ。最初のカジュアルユーザーはどのように獲得したんですか。どこでユーザーを見つけたのでしょうか。

正直に言うと、最初はDiscordから始めました。11月にアイデアを思いつき、Discordコミュニティを立ち上げました。1万人規模にまで成長しましたが、全員がアクティブだったわけではなく、実際に活動していたのは2000人程度でした。この人たちが私たちのテストユーザーでした。

1月にローンチするまで200人でベータテストを続けていました。彼らはこのプラットフォームを本当に気に入ってくれて、当時にゲームを作っていた人たちは今でもゲームを作り続けています。信じられないほどのコミットメントです。当時はまだゲームの自動生成機能がなく、自分たちで作成してアップロードしていました。

ユーザーを獲得するもう一つの大きな方法は、もちろん広告もありますがそれは明白なので置いておいて、興味深いのはゲームを共有することです。ソーシャルメディアやコンテンツの共有についてよくお話しされていますが、Xの投稿を共有したことはありますよね。

もちろんです。グループチャットなどでよく共有します。

それがハイスコアの共有などにつながるわけですね。さらにデュアルモードのゲームもあります。例えばロンと私が対戦したり、スコアを競うために招待したりできます。そこからループが生まれるわけですね。

完全にその通りです。Wordleのようなゲームで、ロンに、5回中3回でクリアしたよ、君も挑戦してスコアを抜いてみてよと送るんです。

なるほど。

ええ、これは本当に興味深いことだと思います。私が言いたいのは、ゲームを共有するという文化はまだ私たちに根付いていないということです。リールや投稿は共有しますが、最後にゲームを共有したのはいつですか。

強いて言うなら、YouTubeでCall of Dutyの特定のキルシーンのクリップを共有することはありますね。それはディープなゲーマー向けコンテンツですが、やはりコンテンツの共有です。

そうですね、結局のところそれはまだ非常にニッチです。Instagramの熱心なユーザーなら毎日リールを送信するでしょう。これは一種の連絡手段になっています。私は真ん中の子供で兄弟が2人いますが、毎日リールを送り合っています。でもゲームは人々が共有するものではありません。今のところは、です。

だからこそ、これを始める前に私たちが抱いていた2つの大きな疑問がありました。今ではその答えが出ていて本当に面白いんですが、その1つ目は、そもそも人々はゲームを共有したいと思うのかということです。今は誰もやっていませんからね。そして2つ目は、この移行が、長尺動画のYouTubeから短尺動画のInstagramやTikTokへの移行と同じような道をたどるのかということです。

最初の疑問に対する答えはイエスです。現在アプリ内での100いいねにつき、30から50の共有が行われています。ボリスのベータ版ではいいねや共有ボタンは見えませんでしたが、現在私たちが動かしているバージョンには搭載されています。100いいねに対してほぼ2人に1人が共有しているという膨大な数字です。

そして長尺から短尺への移行については、すでにお話しした通りです。ユーザーベースの20%が1セッションで25分未満、約21分で25以上のゲームをプレイしています。

私たちにとって大きなサインだったのは、TikTokやInstagramが登場する前、長尺コンテンツが主流だった時代にも、3秒間の動画を見るユースケースは存在していたということです。それはカメラロールです。iPhoneやAndroidのカメラロールの機能は本当に天才的です。自分で撮った、あるいは友人が送ってくれた3秒のクリップをスクロールして見ることができます。

しかしゲームは全く違います。Flappy Birdのセッション時間はだいたい8分ですし、Subway Surfersなどのゲームも5秒で終わるわけではありません。ですから私たちの最大の疑問は、人々がゲームに対してこの超カジュアルなドゥームスクローリングを行うかどうかでした。そしてその答えはイエスだったんです。

素晴らしいアイデアですね。ご一緒できるのが楽しみです。半年後にまた番組に出演していただき、進捗状況を聞かせてください。アルバートとボリス、ポッドキャストに出演してくれてありがとうございました。

Everyのご紹介

私は毎年1万社のスタートアップを見ていますが、UberやRobinhoodなど、私が幸運にも投資できたこれらの素晴らしい企業の本質とは何でしょうか。彼らは顧客に集中し、製品に集中していました。そして彼らには雑務をサポートする体制がありました。

雑務と呼びましょう。法人設立、銀行業務、給与計算、福利厚生、税金など、あらゆるバックオフィス業務のことです。こうした業務に溺れてしまうか、それとも雑務を喜んで引き受けてくれるパートナーを見つけるかです。Everyはあなたのためにこうした細かい作業を行ってくれます。

デラウェア州のCコーポレーション設立、EINの取得、登録代理人の手配などを、弁護士費用なし、遅延なしで処理してくれます。もし創業の旅をさらに進めていて事業を拡大する必要がある場合、Everyは200カ国以上での請負業者の雇用もサポートしてくれます。

才能ある人材は世界中にいますが、障害となるものもあります。あるいは健康保険や歯科保険などの福利厚生もすべて組み込まれています。さらにEveryの法人カードで支払った金額のすべてに対して3%のキャッシュバックが得られます。ですからevery.ioにアクセスして、会社の成長に繋がらない仕事に時間を無駄にするのはやめましょう。evio、Everyです。

ロボットが家事を担う未来

Twistへようこそ。私はアレックスです。今日は私の人生で最大の悩みの種の一つ、つまり子供たちの片付けについて解決策を探ります。私にはたくさんの子供がいます。彼らは家中あちこち、物の上や下に物を置きっぱなしにします。めちゃくちゃです。家をまともな状態に保つのは常に闘いで、ミルクを作ったりおむつを替えたりと、しょっちゅう腰をかがめています。

もちろん子供たちは愛していますが、もう少し助けがあればどれほどありがたいことでしょう。私のような親にとっての朗報は、いずれ私たちの生活を楽にしてくれる人型ロボットを開発している企業があるということです。中でも1Xという会社は、家庭用に特化して設計されたNeoというロボットを開発しています。まさに私の夢です。

このロボットについて、どのように市場に投入されるのか、そしてそれはいつになるのかについて詳しく教えてもらいましょう。番組にバーント・ボーニックをお迎えします。調子はどうですか。番組へようこそ。

こんにちは。ここに来られて嬉しいです。この対談を楽しみにしていました。

私は1Xのことを以前から知っていて、進捗状況も追っていました。でも知らなかったのは、最初は家庭用ではなく産業用のロボットを作り始めたということです。Eveという車輪付きの産業用ロボットがあって、そこから家庭用へと方針転換したんですね。まずは数年前に産業用に導入したロボットについて教えてください。

11年前に会社を立ち上げたとき、最初に書き留めた理念は今でも変わっていません。それは、人々の間で生活し学習できるよう安全なロボットを作ること、人間と同じような器用さ、力、敏捷性を備えた有能なロボットであること、そうでないとただのおもちゃになってしまいます、そして影響力を与えられるように拡張性があり手頃な価格であること、です。

Eveを設計した当時はまだ初期段階で、私たちの望むような汎用性を実現するための電力密度や技術がまだありませんでした。しかし、その時代における最大限の汎用性を持たせることはできました。

それは素晴らしいロボットでしたね。視聴者の皆さんは知らないかもしれませんが、実は私もEveを家に何年も置いていたんです。

本当ですか。産業用に設計されたように見えるロボットを家に置いていたんですね。

一般労働向けに設計されたものです。人型ロボットのポイントはそこなんです。私にとって人型ロボットとは、一般労働を生み出すためのアプローチです。限界までシステムを拡大した場合、最も信頼性が高く、最も手頃で、最も知的で、最も役立つのは、最大規模のスケールを持つものになります。

すべてのテクノロジーはこうしたサイクルを経ます。最も分かりやすい例はコンピューターでしょう。メインフレームから始まり、ある時点で消費者向けのPCが登場しました。それが信じられないほどの数にスケールし、エコシステムや信頼性、コストなどあらゆるものが伴ってきました。今ではこの一つのツールがすべてを解決するハンマーのようになっています。

タイピングをするのも、ポッドキャストを録音するのも、私たちは皆同じコンピューターを使っていますよね。専門家はいません。最終的には一周回って、市場が非常に大きくなり、再び専門化が進みます。今コンピューターで起きているのがまさにこれです。推論用、トレーニング用、シミュレーション用など、特定の計算リソースが存在します。それぞれの市場が今や巨大になっているからです。

ロボット工学や物理的なAIでも同じことが起きています。私たちのメインフレームとも言える産業用ロボットから始まりました。そして今、一般労働の段階に入ろうとしています。つまり、生産性へのアクセスによって妨げられてきた人類を真に解放できるような、可能な限り汎用的な機械を作ろうとしているのです。

最終的にはスター・ウォーズのような世界になり、様々な種類のドロイドが登場するかもしれません。いずれにせよEveは、人間が本当に重要なことに集中できるように完全に私たちを支援してくれるようなものを作るという、何十年にもわたる旅の始まりとして、できるだけ汎用的なものを作るための私たちのベストな挑戦でした。

私がEveを家に置いていたのは、いつかこれが人々の家庭に入ることを確認するためには非常に重要だったからです。早いうちから始める必要がありました。しかし、十分な安全性が確保されていませんでした。

実際のところ、Eveはそのカテゴリーの中では非常に安全なロボットで、世の中にある他のほとんどのロボットよりも安全だと私は主張しますが、少し重すぎたのと、十分な汎用性がありませんでした。それが産業用市場にEveを導入する理由になりました。

私は人生の大半をロボット工学に費やしてきて、これまで多くの美しいロボットを作ってきました。しかしそれらは現実世界に何の影響も与えませんでした。1Xを始めたとき、現実世界に影響を与えるものを作ることが私にとって非常に重要でした。YouTubeの動画や研究室の中だけではダメで、実際に外に出て何かを行う必要があります。その点において、産業用ユースケースは初期の素晴らしい応用例でした。

人型ロボットNeoへの進化と真の汎用知能

しかし、人間に役立つ汎用的なものを作りたいなら、いくつかの要素が必要になります。初期のEveのアイデアからNeoへ進化するにあたり、脚があり、移動しながら新しいことを学ぶことでロボットがより汎用的に役立つようになるための現代的なAI技術が必要だと思います。

つまり優れた概念実証があり、それを洗練させ、最新のAIを吹き込んだ結果、Neoが誕生したというわけですね。今画面にNeoを映していますが、私の見立てでは本質的により柔らかく、軽く、知的な、率直に言ってより人間に近いロボットだという印象です。この要約は妥当でしょうか。

その通りです。多くの理由がありますが、1Xの非常にユニークな点からいくつか説明させてください。私たちは、人間とまったく同じように動き、世界と相互作用するものを作らなければならないということに全力を注いできました。それは組織や皮膚の硬さ、そしてそれが世界とどう相互作用するかというような最小のインタラクションにまで及びます。

もしその感覚やすべてを正しく理解できれば、主に動画やその他のデータとして存在する人類の全知識を取り込むことができます。これらの事前知識を保持し、知能を向上させるために活用できるのです。これは非常に重要です。なぜなら、その代わりとなるのはインターネット規模のデータセットを自分たちで収集しに行くことだからです。もちろんそれらが役に立たないと言っているわけではありません。私たちも遠隔操作を利用しています。

ええ。

しかし、モデルをトレーニングするための数十億のトークンを手に入れるために自力で解決しようとするのは解決策にはなりません。何らかのブートストラップの方法を見つける必要があります。私が今Neoに最も興奮しているのは、それが機能していることがはっきりと見え始めているからです。

私たちが発表しているワールドモデルの研究や、その延長線上にあるまもなく発表される素晴らしい研究などは、私たちの賭けが正しく、真の汎用知能であるAGIを獲得できることを証明し始めています。現在YouTubeでロボットがやっていることの多くは、私たちがファインチューニングされたポリシーと呼んでいるものです。

それは必ずしも一つのタスクではありませんが、一連のタスクを取り上げ、その特定のタスクに関する大量のデータを収集するようなものです。

そしてロボットに別の環境でそのタスクを実行させることはできますが、タスク自体は同じかわずかに似ている程度です。私たちがここで構築しているのは真の汎用知能です。ロボットに何でも頼むことができ、かなりうまくやってくれます。

ワールドモデルについては後ほど詳しく聞きますが、先ほどおっしゃった家庭用に設計されたNeoが人間と似た物理的特徴を持っているという点についてです。例えば指や皮膚の張りなどですね。これにより人間が世界とどう相互作用するかをロボットにマッピングでき、ロボットは世界がどう動くかをより明確に、正確に、素早く学ぶことができるわけですね。つまり、より人間に近づけることでより早く学習するということでしょうか。

その通りです。例えば私が物を拾うとき、指を使って特定の方法で拾います。手の中で物を回転させるときもそうです。

それを指でやる方法ですよね。3本指のグリッパーや爪のようなものにそれを転用するのは非常に困難です。転用できないんです。だからそのためのすべてのデータを収集しに行かなければならなくなります。

なるほど。それが早く学習するための重要なポイントの一つなんですね。

Renderによるスポンサーメッセージ

会社にエンジニアリングチームがある場合、彼らがインフラ構築に時間をかけすぎている可能性が高いでしょう。開発チームは仮想ネットワークの設定ではなく、顧客を喜ばせる製品の構築に集中すべきです。

Renderは、運用負担ゼロでアプリやエージェントを展開、スケーリング、保護できる、開発者向けのオールインワンクラウドプラットフォームです。多くのクラウドプラットフォームは製品とインフラに労力を分割するよう求めるか、半年後には確実に限界が来るようなプラットフォームの制約を押し付けてきます。

しかしRenderなら、GitHubのリポジトリに接続するだけで公開できます。ウェブサービス、Cronジョブ、マネージドPostgresなど、スタック全体を一つのプラットフォームで管理できます。すでに500万人の開発者がRenderを利用している理由をぜひ確かめてください。render.com/twistにアクセスし、Renderスタートアッププログラムにご応募ください。

ステージや支援者に応じて、500ドルから10万ドルの無料クレジットが提供されます。render.com/twistです

家庭での役割とコンパニオンとしての可能性

もう一つの重要な理由は、この世界が私たちのために作られているからです。

家の中を動き回り、自分がやりたくないことをすべてロボットにやってもらうためには、ロボットが人間に非常に近い形である必要があります。また、身体性が感情的につながるようなものを作ることには、何か魔法のような魅力があると思います。

製品のコンパニオンとしての側面は、あまり語られていませんが非常に大きな部分を占めています。単に労働をするだけでなく、人生のコンパニオンとして寄り添い、人間がテクノロジーとより良く関わるための手助けをするということです。

毎日ロボットを使っている私にとっては、急速にその方向に向かっていると感じています。私はコンピューターに話しかけるのではなく、ロボットに話しかけます。これにより画面から離れ、日常生活により集中できるようになります。これがいつか私たちを画面から解放する方法として、素晴らしいストーリーになると思います。

高齢者ケアという側面でも非常に大きな可能性があると思います。社会の高齢化が進み、高齢の親や友人が孤独を感じているという話はよく聞きます。ペットももちろん素晴らしいですが、ペットは皿洗いを手伝ってくれません。年を取って助けが必要で少し孤独を感じているなら、Neoのような一台のデバイスでその多くを満たすことができるでしょう。これをディストピアだとは全く思いません。テクノロジーを通じて人間が人間をケアする方法であり、私にとっては良い未来だと思えます。

100%同意します。これも私が朝起きる理由の大きな一つです。私たちは今、これが選択肢の一つではないという歴史的な岐路に立っていると思います。高齢者が歳を重ねても尊厳を持って扱われる環境をすべての人に提供するためには、テクノロジーを活用してこの問題を解決しなければなりません。

人々はロボットが何かの代わりになると勘違いすることがありますが、そうではありません。家にロボットがある身として言わせてもらえれば、ロボットは犬の代わりにはなりませんし、子供の代わりにも、妻の代わりにもなりません。それは新しい何かです。

家族に犬を迎え入れるのと同じように、人生を通して常に味方でいてくれて、あらゆることを助けてくれて、起きていることをすべて覚えていてくれる美しい相棒なんです。カルビンとホッブスに出てくるホッブスみたいなものだと考えています。

あの作品はアメリカの子供向けコミックで、少年のぬいぐるみのトラが生きていると信じて一緒に遊ぶという話ですよね。

この文脈が分からない方はぜひ読んでみてください。本当に素晴らしい作品です。私も読んで育ちましたから、非常に思い入れがあります。

ところで、YouTubeのデモ動画の話がありました。他の企業がオンラインでデモを披露していることと、実際に家で機能するものを作れるかどうかの違いについてです。現在あなたはNeoを家に置いていて、予約注文も開始されています。今年の後半には出荷が始まるとのことですが、価格は2万ドルか月額500ドルですよね。

現在、Neoは一般的な家事をどの程度うまくこなせるのでしょうか。また、その問題セットに対してどのくらいのスピードで改善されているのでしょうか。ワールドモデルの仕組みも気になりますし、テレオペレーションがどのように関わってくるのかも知りたいです。新しいタスクを学習させるために専門家をNeoに呼び出せるというアイデアは素晴らしいですが、素人考えでは、十分な使用データが集まれば、いずれはこうしたギャップも埋まるのではないかと思います。多くの人が同じ助けを必要とするからです。現状の性能と改善のスピードについて教えてください。

ワールドモデルの実用性と課題

一つ話を戻させてください。全体的な視点からお答えします。まず先ほどおっしゃった、なぜ家庭からなのか、という質問ですが、これは一般労働に関することだからです。家庭に限った話ではありませんが、ロボットが人々の間で生活し学習することを望んでいるため、家庭から始める必要があるんです。

おばあちゃんのためにドアを開けたままにしておくとか、仕事の社会的背景を理解するとか、こうした巨大な多様性こそが知能を与えるんです。毎日同じことしか見ないような狭い環境にいては、実際には学習できません。これは人間も同じです。だから家庭から始める必要があるんです。

だからこそ、アーリーアダプタープログラムと呼んでいる初期のロボットは、率直に言って少し荒削りなものになるでしょう。これは歴史上誰もやったことがないことだからです。でも素晴らしい旅になるはずです。現在私の家では、ロボットはかなり良い仕事をしてくれています。すべてをこなすわけではありませんが、洗濯をしてくれたり、整理整頓や掃除の多くをやってくれます。

それに、ドアベルが鳴った時にドアを開けたりといった、コンパニオンとしての楽しいことも色々やってくれます。

ドアダッシュの配達員が来た時にドアを開けるのはいいパーティートリックになりそうですね。パッケージを受け取れるかも試してみたいです。

現在、これには2つのモードがあり、顧客からのフィードバックにも耳を傾ける予定です。なので決定事項ではありませんが、1つはベストエフォートの自律モードです。ワールドモデルを実行し、私が頼んだことをできる限りの力でやってくれます。

音声だけで指示できるんですか。話しかけるだけで。

ええ、話しかけるだけです。非常に汎用的ですよ。先日私が一番驚いたのは、あそこのボードに貼ってあるポストイットを取って読んでくれないか、と頼んだら、ロボットがそれをやってのけたことです。これはトレーニングデータにはありませんでした。本当に魔法のようですよね。これこそが真の汎用知能です。

次に、それがすごく面白かったのでNeo、あのポストイットを読んでと同じことを頼みました。すると今度はポストイットを理解できませんでした。つまり、常に完璧に機能するわけではないんです。

確率論的なAIの悔しいところですね。

でもこれこそがワールドモデルの魔法なんです。ワールドモデルは非常に汎用的な知能のベースレイヤーを提供してくれます。音声の指示だけであらゆるタスクに合理的にアプローチできるようになります。あとはロボットに何度か試させるだけで学習していくんです。

失敗しても問題ないタスクの場合は非常に楽しいですね。例えばロボットは洗濯がすごく得意です。シャツを畳むのを失敗しても、もう一度やり直してと頼むだけですから。

リスクが少ないですね。

もしおばあちゃんの年代物の花瓶を棚から出してテーブルに置くようなタスクなら、その方法ではやらせないでしょう。ですから繰り返し可能で失敗しても問題ないタスクに関しては、ロボットはすでに非常に優れています。ドアを開けるのも良い例です。ロボットは私たち人間と同じように、柔らかく柔軟で、低エネルギーかつ軽量に作られています。だから自分自身もドアも傷つけることはなく、うまくいくまで挑戦し続けることができます。

絶対に失敗してほしくないタスクについては、成功の確率が極めて高くなるまで社内でデータ収集を拡大することに依存しています。またタスクが失敗しそうになった時、それを早期に特定して停止するための非常に優れた仕組みを用意する必要があります。

これもワールドモデルの非常に素晴らしい点です。私たちが考えるときと非常に似た働きをするからです。先ほど子供がいるとおっしゃいましたが、もし熱いコーヒーが入ったカップを拾いに行く場合、どういう行動をとると何が起こるかを瞬時に頭の中でシミュレーションするはずです。子供にコーヒーをこぼしてしまうかもしれないといったリスクを頭に思い浮かべるわけです。

そしてすべての制約に基づき、タスクを達成するための最も安全な軌道を選択します。これがまさにワールドモデルがやっていることです。この行動をとったらどうなるかを未来に向けてシミュレーションするんです。ある種の検索のようなもので、これが最善の方法だと判断します。

私たちは今、ロボットが常に最も安全な経路を選択してタスクを実行できるようにすることや、過度なリスクがある場合はタスクを実行しないようにするという安全性の側面に非常に力を入れて取り組んでいます。これはまだ進行中ですが、信じられないほど重要な進歩です。安全性には2つの側面がありますから。

1つはロボットが物理的に人間を傷つけることができないという側面です。10年かけて取り組んできた軽量さ、低エネルギー、柔らかさなどによるものです。これは本質的に安全であることを証明するだけの別の問題です。

標準的な認証基準ですね。

そしてもう1つがAIの側面です。現在顧客に対しては、ロボットができることをある程度制限しています。

例えば料理はさせていないんですね。

ええ、料理や熱い液体、危険なアイテムの取り扱いは許可していません。もちろん長期的には非常に優れた安全プロファイルのもとでこれらを行えるようにしたいと考えています。これこそが、こうした作業を安全に行うためにAIの最前線で取り組まれていることです。

つまり私が家にいるときは、このベストエフォートのAIモードを使っているわけですね。それはすごく楽しいです。仕事に出かけるときはNeoのアプリを開いて、外出するから毎日の家事をやっておいてと指示します。家に帰るとすべて終わっています。その作業の中で遠隔操作が介入して完璧に仕上げてくれることもありますが、私はその場にいないので全く気にしません。

私も気にしません。ただ洗濯が終わっていて、必要な時に子供たち全員のきれいな靴下があればいいんです。だからこそ月額500ドルの価値があると思います。どれだけ私の人生を救ってくれるか。すぐに元が取れますよ。

さて、ワールドモデルについて少しお聞きします。視覚言語モデル、VLMだけでは、ロボットのような物理的AIの汎用知能としては不十分だとあなた方はよく書かれています。AIに詳しくないリスナーのために、ワールドモデルとは何か、そして今回リリースされ、まもなくアップデートされるワールドモデルを構築するのに何が必要だったのか説明してもらえますか。

VLMは基本的に言語モデルにロボットができるアクションを付け加えたものです。これが実際どう機能するかというと、まず世界のスクリーンショットを撮ります。そして達成したいことのテキスト情報と、世界がどうなっているかの画像を持ち、計画を立ててそれを実行し始めます。そしてまた新しいスクリーンショットを撮る、という繰り返しです。

これでは世界のダイナミクスを捉えることはできません。人間の知能の素晴らしいところは、物事を実行した時に何が起こるかを視覚化できるほど、世界がどう機能しているかを理解していることです。これを行うには、空間的および時間的ダイナミクスを捉える必要があります。

少し複雑な言葉ですが、要するに私たちは3D空間に住んでいて、時間の経過を気にしているということです。言語モデルは2Dのスクリーンショットのようなもので、時間も3Dも存在しません。もちろん言語モデル自体は信じられないほど素晴らしいものです。

私は大好きですよ。

ええ、ただそれは汎用知能の完全な解決策ではないということです。特定の問題のサブセットにおいて非常にうまく機能する、非常に狭いタイプの知能です。だからこそ、ワールドモデルをトレーニングできるのは非常にエキサイティングです。基本的には何が起こるかを予測するようにトレーニングします。

最も典型的な例は、私がこれを持って落としたらどうなるか、ということです。複雑には聞こえませんが、これは物理法則を学んでいるようなもので、魔法ではありません。しかしこれを大規模に行うと、多くの魔法のようなことが起こります。

なぜ家庭からなのかという話に戻りますが、冷蔵庫からコーラを取ってきてもらうという社会的状況を乗り越えるには、ロボットは人がどう振る舞うかを理解する必要があります。

ロボットの学習プロセスとスケーリング

なるほど、ワールドモデルの中では人々が登場するんですね。ロボットは人々がどう見え、どう行動するかを考えているわけですか。

ええ、ワールドモデルの中には人々が登場し、人間のように振る舞います。これはインセプションのような議論になりますが、世界とどう相互作用するかを完全に理解するためには、人間がどう機能するかを完全にシミュレーションできなければならないため、一種のAGIの完全な問題と言えます。

私の考えでは、これは知能における自然な次のステップです。言語を使っていないわけではありません。明らかに言語は私たちの知能の一部ですが、知能の骨格ではありません。知能の骨格は私たちの感覚、視覚、身体であり、世界とどう相互作用するかです。

子供たちを見ていれば分かりますよね。彼らは世界がどう機能するかを学び、それから言語を通じてそれを表現し始めます。ゆっくりと。

ですからこれは本当にエキサイティングで、純粋なデジタルデータよりもロボットのデータを使った方がうまくいくという最初の兆候が見え始めています。AIの未来はウェブだけでなく、身体を通じた経験からトレーニングされるモデルになるとますます確信しています。もちろんウェブのデータも使いますが、それに加えて、現在欠けている重要な要素だと思っています。

今年アーリーアダプター向けにNeoを市場に出すことで、現実世界におけるNeoのフットプリントが増加し、ビジョンモデルを現実と照らし合わせてテストできるようになります。そして、学習のフライホイールを大きく加速させ、将来の知能のイテレーションに活かせるようになるわけですね。

100%その通りです。それが私たちがやっている最も重要なことであり、できるだけ早く世に出す必要がある理由です。

だからこそ、アーリーアダプター向けには少し荒削りになるというお話を聞いて興奮しています。つまり、学習を始めてより良くするために、できるだけ早く出荷するということですから。

ワールドモデルと身体的知能を思い通りに素早く改善させるためのデータ流入を得るには、どれくらいの数のNeoが家庭に必要ですか。100台ですか、それとも1万台でしょうか。スケール感がよく分かりません。

正直に言うと、誰にも分からないというのが答えです。これまで誰もやったことがないからです。でも第一原理に基づいた数字はお出しできます。YouTubeと同じくらいのサイズのデータセットで事前トレーニングを行うと、汎用知能という点ではかなり進歩することが分かっています。

もちろんそのデータには、私たちがエージェント的振る舞いと呼んでいるものや、力を使った物理的な相互作用は含まれていません。このエージェント的振る舞いは極めて重要です。動画でトレーニングする場合、次に何が起こるかしか分かりません。エージェントがどんな行動をとったかは分からないんです。

例えばあそこにあるスマホを拾おうとする場合、まず目標があります。そしてそれを実行するための行動を決定し、その結果を見ます。これはデータの3つの異なるタイプです。動画には最後の結果しかありません。ロボットのデータにはこれら3つすべてが含まれています。ロボットの内部状態、何を考えていたか、何を達成しようとしていたか、どんな行動を試みようと決定したか。そして結果が得られます。

ですからこのデータははるかに豊かで、より少ないデータで済むことを期待しています。しかしYouTubeを基準に考えると、約1万台のロボットがあれば、YouTubeと同程度のデータが流入することになります。これは決して少ない数ではありませんが、乗り越えられないほど大きな数でもありません。

YouTubeのコーパスは非常に巨大なので、たった1万台のロボットでそれに匹敵するデータ流入があるというのはかなり印象的です。

正確にお伝えすると、既存のYouTubeのすべてのデータではなく、YouTubeへのアップロードの速度が、1万台のロボットからのデータ流入とほぼ同じだということです。

なるほど、理解しました。それなら実現可能ですね。十分に可能です。しかしそれで終わりではありません。もちろんここでの目標は、人類の進歩を真に加速できるほど知的なものを作り出すことです。インフラストラクチャーの構築を支援し、製造、コンピューティング、データセンター、電力インフラを十分に確保できるようにロボットが助けてくれます。労働力やコストの制約がないため、すべてを持続可能な方法で行うことができます。

持続可能にしない理由がありませんよね。科学を進歩させる。こうしたAIモデルは、実験室での作業を行わずに科学や特に医学の未解決問題をすべて解決する助けにはなりません。AIは実験を設計し、実行し、データが正しく取得されたかを検証する必要があります。これらを反復して行うのが研究というものです。

今日では、モデルは提案を思いつくのは得意になっていますが、それがうまくいったかどうかループを閉じて確認することができないというボトルネックがあります。

そのためには現実世界に行かなければなりませんね。それを行うなら、研究室のような人間の機関を模倣することになりますから、人型ロボットにそれをやらせるのは理にかなっています。今日Neoの話をしているとき、私は家での手伝い役が欲しいのでどうしてもそちらに目が行ってしまいます。

しかし、時間の経過とともにこれらの汎用ロボットの知能を向上させ、より多くのことができるようにするというあなたの例では、ある意味で家庭から離れ、人間のいない暗い工場や実験室へと向かっているように感じます。ロボットが自立してより汎用的に役立つようにするために、まず家庭でトレーニングするというのは興味深いですね。あるクラスのロボットたちを子供のように育ててから世界に送り出すような感覚です。

Neoが家庭でのタスクを十分にこなせるようになり、一般に普及する時期と、科学を加速させるために人型ロボットが実験室の作業を自動化してくれるようになる時期との間には、どれくらいのタイムラグがあるのでしょうか。それは短い期間ですか、それとも比較的長いのでしょうか。

かなり短いです。実は家庭が最も複雑なんです。だからこそ始める場所として適しているとも言えます。水の中に飛び込んで、泳ぎ方を学ばなければならないようなものですから。私はすべての顧客を満足させ、需要に応えられるよう全力を尽くしたいと思っていますが、現在はそれが制約になっています。ですから、他の市場にどれくらい早く展開できるかは、製造をどれくらい早くスケールできるかにかかっています。

製造、コストダウン、そして未来への展望

ではその点について話しましょう。収録が始まる前にお聞きしましたが、サンカルロスに新しい施設をオープンされたそうですね。設計から製造まですべて一つ屋根の下で行うとおっしゃっていました。

その通りです。研究、開発、AI、生産、サービスなどすべてが一つの屋根の下にあります。生産と言っても製造だけでなく、R&Dも含みます。私たちは機械を作る機械を作っているんです。ゼロからイチを生み出す技術において、これは極めて重要です。開発スピードは、スタック全体にわたってどれだけ早くイテレーションを回せるかに依存するからです。サプライヤーに頼っていては非常に難しくなります。

さらに重要なのは、私たちが発見したロボットをより安全に、手頃な価格に、そしてより良くするための素晴らしい発見のほとんどは、異なる科学分野の境界線から生まれているということです。ハードウェア側の担当者が、そこに行き詰まっているみたいだけど、こうすればモデルの学習が良くなると思うよ、と提案したり、組み立てにその公差が必要なら難しいけど、ニューラルネットワークを使えばそんな公差は必要ないよ、校正方法を学習させれば公差を緩められて、もっと安く製造できる、といった具合です。

まるでベル研究所のような科学的思考ですね。働く場所としてこれ以上エキサイティングな場所はないと思います。対面での仕事が単に良いだけでなく、はるかに優れているという数少ない良い例だと思います。あなたがそのような効果を生み出しているのは素晴らしいですね。

サンカルロスの新施設では、初期の生産段階で四半期あたり、あるいは年間にどれくらいのNeoを製造できるんですか。50台ですか、500台ですか。

現在ヘイワードにある工場がフル稼働しており、今年の家庭用ロボットの出荷を担当します。そこでは年間数万台の製造が可能です。現在ヘイワードに建設中のものは年間数十万台の製造が可能になります。

先ほどのYouTubeのデータ流入の話を考慮しても、年間数万台というのはすごい数ですね。アーリーアダプターからの初期の商業的需要は、工場をそのペースで稼働させ続けるのに十分ですか。それとも、より速い学習プロセスを開始するために数千台を販売することに重点を置いていますか。

需要はありますが、もちろん製品の品質が伴っていなければなりません。ですから現在は非常に慎重に進めています。基本的には小ロットを非常に早く生産し、それを市場で評価します。まだエンドユーザー向けではありませんが、NDAを結んだ家庭や他の産業用アプリケーションに導入してテストを行い、データを取得します。

何がうまくいき、何が最適でないかを見極め、設計を修正して、またすぐにバッチ生産を行います。つまり、工場をフル稼働させ、設計を修正し、またフル稼働させるということを、製品が完全に安定するまで繰り返しています。これを実行できるのは一度きりです。歴史上初めてこのようなロボットを出荷するわけですから、絶対に成功させたいんです。

だからこそ明確な出荷日を公表していないんです。2026年までに出荷すると言いましたが、その目標に向けて順調に進んでいます。しかし、それは準備が整ったときです。やり直しはききませんから。

ええ、完全に納得です。半年なら待てますよ。6年は待てませんが、半年なら大丈夫です。

私は金融オタクなので、2万ドルという価格設定に非常に興味があります。規模の経済がコストを下げることは誰もが知っていますが、小規模なバッチ生産を行っている段階で、2万ドルで部品コストをカバーできるのでしょうか。それとも部品と人件費をカバーできるレベルですか。利益は出ていますか。それとも大赤字ですか。人型ロボットの経済性の基準がどこにあるのか分かりません。

これについては最初の段階まで話を戻す必要があります。初日からスケールと価格の手頃さを考えていなければ、どうやって大規模な製造を行うのでしょうか。特定の設計や技術的な方向性を決定してしまうため、身動きが取れなくなってしまいます。

分かりやすく例えるなら、電気自動車を作るかガソリン車を作るかということです。少量でガソリン車を作り、さあ量産するぞ、電気自動車にしよう、とはなりませんよね。過去10年間間違った技術を作ってきたことになります。それでは機能しません。

だから私たちは最初からこれを考えていました。地球上には何十億台もの人型ロボットが存在するようになるでしょう。つまり、レアメタルなど特別な原材料が含まれていないかを考える必要があります。さらに言えば、どれくらいの量の原材料が使われているかも重要です。

Neoの重さはわずか66ポンドです。競合他社の製品のほぼ3分の1です。それは原材料も3分の1になるということです。10億台作るとなれば、これは非常に重要な意味を持ちます。

ええ、ガリウム鉱石などを運ぶ船の数を劇的に減らせますからね。10億台という規模になると、世界のアルミニウムやマグネシウムの大部分を占めることになりますから、どう精製するかも考えなければなりません。何十億台と聞いた時、最初に私が思ったのは十分な金属があるだろうかということでした。毎年車を作っている数を見ても、原材料への需要は決して少なくありません。

明らかにそうです。ですからその点を考慮し、さらに公差についても考える必要があります。どれくらい正確である必要があるのか。それが精製のコストを決定します。この規模では基本的に原材料を精製して完成品にしますが、それほど精度を必要としない設計であれば、精製プロセスは非常に安価になります。

ですから、それは設計の核心部分でなければなりません。私たちが開発した独自のモーターは、従来のギアの代わりにこれらの腱を引っ張ることを可能にしました。これはEveが産業用に使われる前からあった、会社の最も初期の発見の一つです。Neoはその技術の第n世代なんです。

この技術は製造において非常に寛容で、非常に少ない部品点数、緩い公差、特別な素材を必要としません。これらすべてを行い、早い段階で組み立ての自動化に取り組めば、コストを非常に低く抑えることができます。もちろん私たちの工場でもロボットを使ってロボットを組み立てています。NeoがNeoを作っているんです。

完成したらその写真をテキストで送ってくださいね。

そうすれば非常に低コストになります。とはいえ、地球上で最も複雑なシステムの一つですから、利益を出しマージンを確保できるところまでコストを下げるには、ある程度の生産量が必要です。しかしこれは持続可能なビジネスであり、それが最も重要なことです。

それを聞いて本当に安心しました。2万ドルなら、計算機を叩かずに1台買える価格帯ですから。もし5万ドルだと言われたら、子供の大学の学費1年分に充てたいと考えるでしょう。でも2万ドルで機能するなら、膨大な生産量が見込めますし、本当にワクワクします。

サプライチェーンや部品の調達に関しても、中国からのリスクは比較的低いようですね。

非常に調達が難しい重要な部品もあります。誰もが苦労している磁石などがそうです。現在私たちは磁石のプロセスに深く入り込んでいます。独自モーターの設計上、1Xの最初の1年目も私が磁石の新しいプロセス設計に取り組んでいました。

中国には素晴らしい企業があり、磁石に関する新しいアプローチを共同開発してきました。これをアメリカ国内でも対応できるように取り組んでおり、素晴らしいプログラムも立ち上がっているので、将来的には解決できると期待しています。まだそこまでは至っていませんが、クリアすべき多くの課題の一つです。しかしそれ以外については、ほとんどがオープンマーケットで一般的に手に入る銅やアルミニウム、鉄などの原材料です。

アジアの国々の方が安いかもしれませんが、ここでも手に入りますし、船の輸送時間や関税などを心配する必要がありませんからね。

最後に一つ質問させてください。あなたたちは当初、ノルウェーの投資家から資金を調達したようですが、その後世界中の投資家から資本ベースを拡大しています。今年のNeoのローンチ、そして次世代機の開発に向けて、どれくらいの資金が必要ですか。数億ドルでしょうか、それとも数十億ドルですか。

端的に言えば、Neoを出荷するための資金は十分にあります。しかし少し長めに答えるなら、これが人類に与える影響はまだ完全には理解されていないと思います。これはおそらく史上最もインパクトのあるテクノロジーの一つになるでしょう。私たちが消費するものはすべて最終的には物理的なものであり、知能が汎用的かつ物理的になることで、本質的に新しい生き方が解放されます。

私はこの未来をできるだけ早く実現させたいと強く願っています。なぜなら、誰もが必要なものを手にし、生きるために肉体労働をするのではなく、人間としての本質的な活動に集中できる非常に美しい世界を構築できると信じているからです。

長く話しましたが、要するに私たちは資金調達を行う可能性が高いということです。なぜならプロセスを加速させることができるからです。しかし、消費者に製品を届けるために絶対に必要というわけではありません。

どのくらい必要なのか知りたかったんです。SaaS企業なら、従業員数と顧客獲得コストから計算できるんですが、ロボット企業は全く違いますから。

そうですね。もし最大限のスピードで進めたいなら、他の企業と同じように膨大なコンピューティングリソースが必要です。最高のモデルをトレーニングしなければなりません。私たちは他よりもはるかに優れたデータを持つことになるので、はるかに優れたモデルをトレーニングすることになります。私たちが他より賢いと言っているわけではなく、単により良いデータを持つということです。

そして製造能力もすべて構築しなければなりません。ですから非常に資本集約的な競争になるでしょう。短く言えばそういうことです。しかし私たちには非常に有利な点があります。それは、自社のスケールアップに労働力のアービトラージを利用できるということです。

汎用ロボットを自分たちで作っているからですね。ジェンスン・フアンに電話して、急いでいるので、たくさんのコンピューティングリソースを買います、だからもっと資金を提供してください、そうすればもっと速く進められます、と提案することは考えませんでしたか。

私は良い意味でせっかちなんです。この未来がもっと早く来てほしい。投資家の皆さんがこの価値を理解し、もっと資金を提供しようとあなたのドアを叩き続けることを願っています。この未来が来るのが待ちきれませんから。本当にワクワクします。

そのポジティブな姿勢、大好きです。とてつもない未来になるはずですよ。

NDAを結んでいない一般の人たちにNeoが出荷され始めたら、ぜひまた番組に来てください。どんなレビューが出てくるか本当に楽しみです。私も妻に名前を登録していいか聞いてみるつもりですが、彼女はもっと現実的なことを考えているかもしれませんね。

バーント、今日は出演してこれを説明してくれて本当にありがとうございました。もし視聴者がもっと詳しく知りたい場合、ウェブサイトはどこに行けばいいですか。

1x.techです。

シンプルで分かりやすいですね。

ええ、シンプルです。

とても楽しかったです。番組に出ていただきありがとうございました。

コメント

タイトルとURLをコピーしました