Forward Future Live 8.22.25

さあさあ、始まるで！ヒートや！

ヒートやで！

よーし、今日のForward Future Liveへようこそや、8月22日、2025年やな。今日もめちゃくちゃええ番組を用意しとるで。DeepSeek、Grok、Meta、人工超知能、それに今週の他のニュースもぎょうさん話すからな。それに3人のすげー客人も来てもらっとる。

まず最初は、ARC Prize財団の会長Greg Cameronや。ARC AGIベンチマークを担当しとる非営利団体の代表やな。ARC AGI 3、つまり彼らのAIベンチマークの第3版について話してもらうで。それに一般的なAGIへの進歩についても聞くからな。

次に、Leta（AI エージェントメモリスタートアップ）の創設者Charles Packerが来てくれる。AI エージェントとメモリについて、なんでメモリが重要なんか、どれくらい競争上の優位性になるんか、彼らが何をユニークにやっとるんかについて話してもらうで。

最後に、Skywork AIのマルチモーダル担当ディレクターAlan Louや。この会社はMatrix Gameの開発元で、オープンソースの完全制御可能な世界シミュレーターを作っとる。GoogleのGenie 3のオープンソース版みたいなもんや。めちゃくちゃかっこええで。

いつものように、Alexがプロデューサーとして番組をスムーズに進行してくれとる。みんな、ようこそや。

ビジネスパートナーの紹介

でも最初に、今日の番組のゲスト共同司会者を紹介させてもらうわ。これは僕のビジネスパートナーで、Forward Futureのニュースレターを含むForward Futureの全ての事業をやっとる。Nick Wentzや。Nick、どうぞ。

ハロー、みんな。ここにおれて嬉しいわ。今日はめっちゃええゲストが揃っとるし、カバーする話題もすげーのばっかりや。さっそく始めようか。

DeepSeek V3.1の発表

よーし、世界中から見てくれとるみんな、ようこそや。インドも見えるし、メキシコも、マイアミも。世界中から見てくれとるな。今日は楽しい番組にするで。最初のゲストGreg を呼ぶ前に、いくつかニュースを見ていこか。

Nick、今週DeepSeek V3.1が発表されたな。Alex、スクリーン共有してくれるか。クジラが帰ってきたで！

そうやな、確かに。DeepSeek V3モデルの新しいバージョンが出たんや。これはRシリーズのモデルとちゃうで。V3っていうんかな。それでこれはハイブリッドモデルなんや。最近のフロンティアモデルの傾向みたいやな。ハイブリッドっていうのは、考える版と考えへん版の両方っていう意味や。

だから考えへん版の低レイテンシも得られるし、もしほんまに難しい問題を解いてもらう必要があるときは、時間をかけて実際に考えてもらえるんや。

そうや、ここで面白いのは3つぐらいあると思うねん。1つ目は確実にハイブリッド推論やな。君の言う通り、これは間違いなくトレンドになっとる。2つ目はエージェントスキルの向上や。これもフロンティアラボで見られる傾向やな。DeepSeekもこの競争に参加したがっとる。分かるわ。

そうや、これはまさにGPT-5と同じやろ。ハイブリッドモデルで、速くて低レイテンシで低コストのモードと、もっと時間をかけて難しい問題を正しく解いてくれるモードの両方を持つ能力や。もしほんまにそのトークン予算を追加で使う必要があるときはな。

そうやな。君は速いモード派？それとも慎重モード派？

実は僕は少数派やと思うねんけど、99%の時間は速さを重視するねん。答えを速く欲しいんや。だからもし有能なモデルがインターネットに接続されとったら、それだけで僕の使用例の大部分には十分なんや。

その追加の思考処理能力が実際に必要になる時はほんまに稀やからな。だからGPT-5 Pro は使うけど、たまにだけや。僕の使用例の大部分では、単純に必要ないねん。君はどうや？

僕も速い派やな。チャットで思考モードファンがちらほらおるのが見えるわ。もし君が思考モードファンやったら、どんな使用例で使っとるか教えてくれ。僕もほとんど速い派や。

でも価格について話そうか。ここがめっちゃ面白いと思うねん。

Venlo VenturesのDDが言うとるやん。中国のDeepSeekがまたやりよった。最高のオープンソースモデルドロップV3.1で、Sweet Benchで66%のスコア、入力トークン100万あたり56セントや。

これはGPT-5の2倍安いねん。ちなみにGPT-5は既にかなり安いで、特にClaudeファミリーと比べるとな。出力トークン100万あたり168セントで、これは6倍安い。だから彼が言う通り、クジラが帰ってきたんや。違うベンチマークも見えるやろ。Sweetbench verified、multilingual、terminal benchや。そしてめちゃくちゃ安い価格設定や。キャッシュヒットも見てみ。6倍安いなんて狂っとるわ。

もしこの数字が実際に成り立つなら、DeepSeekは極めて魅力的になるな、特にコーディングやデータ分析の使用例では。これは狂っとるで。

そうやな。Sweet Benchの66%、GPT-5がいくらやったか忘れとるけど、もっと高いのは確かやけど、近いやろ？競争できるレベルや。

そうや、比較可能やな。でも見て、もし最先端のコーディングモデルが必要やったら、おそらくClaudeかGPT-5を選ぶやろうけど、それでもこれはめっちゃ強力やと思う。そして繰り返すけど、使用例の大部分では、レイテンシとコスト、これは多くの人にとって極めて魅力的なモデルや。さらに、オープンウェイトやと思うから、ダウンロードして自分のハードウェアで実行できるんや。

めっちゃええ価値提案やと思うで。

間違いないな。めっちゃかっこええ。よし、次の話に行こか。これらをサクサク進めて、最初のゲストを呼ぼう。

Grokチャット履歴の漏洩

Grokチャットが何十万件もGoogle検索結果に露出したっていうニュースや。この話にはそんなに驚かへんな。明らかにGrokチームは猛スピードで動いとるからな。速く動くときは、時々ミスが起こるもんや。

ちなみに、彼らだけやないで？OpenAIも似たようなことがあったと思う。ユーザーのチャット履歴の共有を自動的にオプトインさせて、それが自動的にGoogleにインデックスされたっていう。Grokも同じ問題を抱えとるようやな。

確実にGrok独自の問題やないな。君の言う通り、OpenAI、あとMetaも今年前半に漏洩があったと思う。だからパターンとしては、AI 企業がこの共有・発見機能をプッシュしとるんや。その理由は明らかやろ？露出にはええし、バイラル要素もあるし、いろいろや。

でもプライバシーの反発が起こると、撤回することになるんや。だからGrokもすぐに同じことをすると思うで。すぐにパッチを当てるやろうな。

共有会話、共有プロンプトには大きな価値があるから、理解できるで。でも明らかに、これが共有されることをユーザーに積極的に伝えたいわけやし、「これを共有してもええか？これはインデックスされるで」っていう風にな。だからこれは確実にミスや。修正する必要があるし、おそらくもう修正済みやと思う。

そうや、はっきり言って、これは心配やろ？僕はチャットでめっちゃ機密情報を共有しとるからな。君はどうか分からんけど、詳細をぺらぺら喋っとる。モデルに対してより透明になればなるほど、より良いアウトプットが得られるからな。だからこれは確実に修正が必要や。

Meta Super Intelligenceの組織変更

よし、次の話に行こか。最初のゲストGregを呼ぶ前の最後の話や。MetaのMSI、Meta Super Intelligenceで大きな変化があったな。

そうや、これで6ヶ月で4回目の大規模再編成みたいなもんやないか。

そうやな。Scale AIの買収を通じて獲得されたAlexander Wangが、今Meta Super Intelligence Labsの全てを運営しとる。全てを仕切っとるように見えるな。多くの人を驚かせた（あるいは驚かせへんかった）重要な部分がこれや。Yann LeCunがWangに報告することになったんや。

Yann LeCunはMetaのAIラボ、FAIRグループのリーダーやった（あるいは今もそうや）。今は全てのグループがAlexander Wangに報告しとると思う。それでAlexander Wangが書いたメモで「人工超知能が来る。真剣に受け止めろ」って言うとった。

MSLの研究はShenzhia Xiao（うまく発音できとるかな）が率いることになる。Metaは2つの部門で研究を集約しとる。TBDラボ（まだ名前が決まってへん）、大型AIモデルの訓練に集中する小さなチーム。それとFAIR、Metaの長年のAI研究組織や。

面白いのは、組織の一部がTransformerアーキテクチャ、大規模言語モデルアーキテクチャを追いかけとる一方で、同時にYann LeCunは大規模言語モデルではAGI/ASIには到達できへんって極めて声高に言うとることや。だから内部で確実に摩擦があると思うで。

そうやな、おそらく緊張関係があるやろうな。新しいリーダーシップもあるし、給与格差もあるやろうし。だからこれがどうなるか見てるのは面白いで。ちなみに、LeCunのプレゼンテーションのツイートあるか？ええ引用があったと思うねんけど。

今手元にないな。

そうか。もし人間レベルのAIに興味があるなら、LLMには取り組むなって言うとったな。だから面白いダイナミクスが起こっとるわけや。

最初のゲスト：Greg Cameron（ARC Prize）

よし、最初のゲストを呼ぼうか。ARC Prizeについて、AGIについて、全部聞きたいからな。Greg Cameron、ようこそ。

Greg、ハロー。Matt、呼んでくれてありがとう。

よう、また会えてええな。また会えて嬉しいわ。

よし、ARC Prizeに馴染みのない人のために、Greg、ARC Prizeが何で、君がそこで何をやっとるか、簡単に説明してくれるか？

もちろんや。僕の名前はGreg Cameron、ARC Prize財団の会長や。僕らは非営利団体で、目標はオープンAGIを前進させることや。オープンって言うときは、ここでは非常に明確な意味があるねん。AGIは技術の一部として、オープンにあるべきやと信じとるからや。それが安全性を解決する方法やし、それが分散化されてみんながそこにおることで整合性を解決する方法や。

だから僕らは非営利団体で、ベンチマークをツールとして使って、オープンな研究を引き出しとるんや。オープンソースのコンペティションを開催して、最高の研究に対するオープンソースの論文賞を開催しとる。特に僕らが最も有名なのは、ARC AGIベンチマークや。

僕らは知能とは何かについて、非常に主張的な見方を持っとるし、ARC AGIベンチマークがその主張的な知能観を測定しに行くと信じとる。2019年にFrançoisが導入したARC AGI 1があった。2025年の3月に ARC AGI 2を出した。そして今作業中なのがARC AGI 3や。でもここで一旦止めさせてもらうわ。どの方向でも行けるで。

そうやな。これらのベンチマークが何なのか少し話してくれ。僕が見た他のベンチマークとは全然違うからな。なんでこの主張的な見方を取ったんか、どうやってこれらの特定のベンチマークがその主張的な見方に対して測定するんかを教えてくれ。

そうやな、絶対にや。全てはFrançoisの2019年の論文「知能の測定」から始まるんや。その論文で、彼は実際に知能の定義の提案をしとる。それを言う必要があること自体がちょっと変やけどな。なぜなら業界では、AIに関する誇大宣伝があれだけあるのに、知能の正式な定義を持ってへんのが実情やからな。

それだけやなくて、AGIとは何かの正式な定義もあるはずやと思うやろ。OpenAI Microsoftのシナリオでも、AGIを収益数値に結びつけとるし、まあそれは別の話やけどな。

でもFrançoisの論文では、知能は「新しいことを学ぶ能力」として定義されると提案しとる。

これは単純に聞こえるかもしれへんけど、もう少し実演させてもらうわ。AIがチェスで人間を打ち負かせることは既に分かっとる。囲碁でも人間を打ち負かせる。自動運転車でも人間より良くなりつつある。まだ正式に完全にそこまで到達してへんけど、めっちゃ近づいとる。だから適切なデータがあれば、AIは何でも学習できるんや。

しかし、それは人間がするように新しい領域に汎化する能力を証明するわけやない。だから僕らが汎用知能の唯一の証明点として使うのは、人間、人間の脳やねん。僕らの頭の中に汎用知能があるんや。だから、それを存在証明として使って、人間が新しいことを学べることが分かる。

そのため、僕らは知能を「新しいことを学ぶ能力」として定義するんや。その定義を与えられると、疑問が出てくる。実際にどうやって「新しいことを学ぶ能力」をテストするんか？これはなかなか面白い質問で、ここでFrançoisがこのベンチマークARC AGIを思いついたんや。

これはちょっとメタベンチマークみたいなもんやと思ってくれ。なぜなら各質問が2つの部分に分解されとるからや。君に何かを教えて、それから君が僕らが教えたばかりのことを実際に学んだことを実演してもらうんや。

だからARC AGI 1では、ちょっとした変換を教える。それは数ピクセルだけで、それらを動かして、どう機能するかを理解してもらって、それからそれを実演してもらうんや。それがARC AGI 1と2や。

そして面白い部分はARC AGI 3で、僕らが向かっとるのは実際にはインタラクティブビデオゲームや。だから僕らは実際にテスト受験者を未知の環境にドロップして、彼らは環境がどう機能するか、ルールは何かを学んで、その環境を正常に完了できるかどうかを見る。つまり、実際に何かを学んだことを実演するんや。

そうやな。それだけやなくて、異なるベンチマーク全体のテーマは、人間には簡単やけどAIには難しいものでなければならんっていうことやろ？

そうや。それが僕らをユニークにする部分の一つでもあるんや。人間ができてAIができへん問題が大好きやねん。なぜなら僕らの仮説では、そのクラスの問題やそのタイプの問題を見つけられる限り、それがいくつかのことを教えてくれるからや。

1つ目は、現在のAIと適切なAGIの間で何が欠けとるかに光を当ててくれるんや。なぜなら汎用知能の存在証明（つまり人間）ができることやけど、現在のAIができへんことを示せるなら、明らかにギャップがあるってことやからな。

それから、これは僕らのAGIの定義にもつながるんや。これはより観察的な定義で、人間ができるけどAIができへん問題を思いつける限り、僕らはまだAGIを持ってへんっていうことや。その逆も真やで。つまり、人間ができるけどAIができへん問題をもう思いつけへんようになったら、僕らはAGIを持っとるっていうことや。これらのベンチマークが今そこにあって、全ての AIが100%のスコアを取ってへんことによって、僕らはまだAGIを持ってへんことが分かるんや。

よし、これはARC AGI 2の例の一つを表示しとる。人間が来てこれをどう解くか、簡単に説明してくれるか？

もちろんや。実は僕はこれにめっちゃええスライドを持っとるねん。プレゼンターを交代してもええか？

ええよ、スクリーンを共有してくれ。Alexがストリームに表示してくれるわ。

いいな。スクリーンを共有させてもらうわ。ARC AGI 3のプレビューも見せてもらったから、それも少し見せてもらうのを楽しみにしとる。

きれいやな。アスペクト比を少し小さくさせてもらうわ。よし、前に言うたように、ARC AGI 1と2の各タスクは2つの部分に分かれとる。

僕らの目標は、新しいことを学べるかどうかを見ることや。もし僕らがそれをテストするつもりやったら、何かを教えて、それができるかどうかを見る必要がある。だからこれが僕らのタスクの一つや。左側が「スキルを学ぶ」側や。だから人間として、あるいはAI、テスト受験者として、これを見て、この画像で入力と出力の間で何が起こっとるかを言うんや。君の目標は起こっとる変換を特定することや。

ここで青い線が延びとって、ここで緑の線が延びとるのが見えるやろ。だから色を理解せなあかんし、向きも理解せなあかん。誤解を避けるために明確にしとくけど、人間は好んでこれを視覚的な絵として見るけど、僕らはAIにはJSONでデータを与えとる。

もし欲しけりゃ画像に変換できるし、動画にもできる。生のJSONも読める。AIがやりたいデータフォーマットに対して、僕らは不可知論者や。

これの第2部は、よし、君にミニスキルを教えたばかりや。今度はそのミニスキルを僕らに実演してくれっていうことや。これが「スキルを適用する」セクションや。

それから、人間として出力を埋めて、実際にこれを学んだことを実演する必要がある。だからこれが僕がここで出力をやっとることや。そして正解やったら、ここで素敵な紙吹雪が出るんや。

もう1つ言いたいのは、実際に本当に重要な部分は、ピラミッドの頂上から線を延ばすのは1回だけしか求めへんということや。なぜなら多くのスキルを教えてから、何度も何度も聞くのは嫌やからな。一度学んだら、何度もやることで、新しいことを学んだことを実演してるわけやなくて、学んだ同じことを何度も繰り返せることを実演してるだけやからな。

だから僕らの質問の全て、一つ一つに対して、異なる変換が必要なんや。だからミニの新しいスキルを学んで、それを実演するんや。ARC AGI 2、僕らのベンチマークの第2バージョンには、1300以上のタスクがある。だからそれは僕らが学んで実演してもらう1300の小さなミニスキルってことや。

君が前に言うた通り、あるいは僕が前に言うたように、Matt、人間はこれら全てを一人一人がやっとる。実際、複数の人が自分でこれらを解いとる。そしてAI、ARC AGI 2のトップスコアは現在16%だけやと思う。Grokがやったやつや。16、1と6や。ARC AGI 2で、3やない。正解や。

僕らがこれらをテストしに行ったとき、実際にサンディエゴまで行って400人を募集してこれらをテストしてもらったねん。なぜなら人間に簡単やって主張するなら、ファーストパーティデータが必要やからな。平均的な人間は与えられたタスクの70%を解いたと思う。そして4人、たぶん5人から10人の間のパネルがあったら、忘れたけど正確な数字は。そのパネルがあったら、100%のタスクが彼らによって解かれた。人間はこれらができるけど、AIはまだ苦労しとる。

そうやな、これはすげーな。現代のフロンティアモデルから何が欠けとるから16%より高くいけへんのやと思う？

これは単純にモデルのアーキテクチャの反映なんか、訓練されたデータに固有やない新しいスキルを学ぶ能力の失敗なんか？何やと思う？

そうやな、ここで言わせてもらうと、僕らが今欠いとる一番のもの、そして今ホットな話題やけど、継続学習やテスト時適応や。

大規模言語モデルを見ると、静的モデルや。そして、コンテキストウィンドウ内に新しいものを入れて新しいことを学ばせようとするかもしれへんけど、訓練データの中にないドメイン外データがあったら、めちゃくちゃ苦労するんや。人間が絶対的に得意なことの一つが、サンプル効率的汎化や。

それが帰結するのは、人間が頭の中に世界モデルを構築して、サンプル効率的な方法で効果的に予測する能力や。だから正確な答えは分からへん。もし分かってたら、おそらくAGI研究ラボにいて、Zuckからオファーをもらってるやろうな。でも僕らが知っとるのは、これから欠けとる重要な部分のいくつかは分かるってことや。

そうやな。これは、これらのモデルが汎化できるけど、訓練セットから少しだけ外れる程度やっていう証拠みたいなもんやと思う。本当に広い汎化やない。明らかやと思うねん。

じゃあ君はARC AGI 2を持っとるやん。これは解かれるにはほど遠いし、飽和もしてへん。なんでARC AGI 3を作ることにしたんや？ちなみに、ARC AGI 2と何が違うんや？

もちろんや、絶対にや。僕らがARC AGI 3の作業を引っ張ることにした理由は、1つは単純な答えやけど、世界が向かっとる場所より先を行くためや。簡単なことや。これらのベンチマークを作るのはかなり時間がかかるんや。

だからタイムライン的に、ARC AGI 3はおそらく作るのに1年かかると予想しとる。僕らは既にその中にかなり入っとる。だから2026年にローンチすると予想しとるけど、2がどうなるかも見て、そこから進める必要があるから、ARC AGI 3のローンチ日付にはコミットしてへん。ベンチマークを作って維持するのは簡単やないから、時間もお金もかかるし、早めに始める必要があったんや。

ARC AGI 3を引っ張ったもう一つの理由は、人間ができてAIができへん問題のクラスがどんどん小さくなってきとるからや。僕の好きな表現の仕方やと、これはほとんど特権みたいなもんやねん。AIがめちゃくちゃ良くなってきて、僕らがこのタイプの問題を思いつくのが難しくなってきとるからや。

でも僕らが次に狙う問題のクラスは、「インタラクティブ推論ベンチマーク」って呼んでるもんや。インタラクティブな部分っていうのは、このタイプのベンチマークや環境と行ったり来たりのやりとりをするってことや。これは静的ベンチマークとは対照的やな。

静的ベンチマークは単純に質問と答えやけど、今新しいクラスのベンチマークが出てきとる。もし皆が知ってるなら、terminal benchっていうめっちゃ面白い例があって、ターミナルの環境があって行ったり来たりするんや。Sierraから出てるTowenもあって、これは顧客サービスチャットボットタイプのインタラクティブ環境や。

ARC AGI 3もインタラクティブ環境やけど、抽象的で推論的な環境になる予定や。だから動作する仕組みは、テスト受験者を環境にドロップするんや。これは基本的にビデオゲームって言う派手な言い方やけどな。

それから指示なしで、人間は周りをクリックして、いろんなボタンを動かして、目標が何かを理解して、何をすべきかを理解して、基本的にゲームから出る方法を学んで、それを成功させる必要があるんや。

そうやな。Greg、NickとマコとはサンフランシスコでのARC AGI 3のローンチイベントに行ったねん。ちなみに招待してくれてありがとう。

言語モデルに投下される環境について一切情報を与えへんことに、君らがめちゃくちゃ厳格やったと思うねん。実際、ローンチの1日前に、ゲームの名前すら削除することにしたやろ？ゲームが何についてかのヒントになるかもしれへんからって。だからなんでそんなに厳格なん？

そうや、絶対に。ちょっと簡単にゲームについて、いや、実際もっと根本的な理由から始めさせてもらうわ。僕らはテストしたいねん、さらに戻らせてもらうと、人間ができることやから。だから人間は新しい環境をサンプル効率的な方法で理解して探索できるし、それは彼らの汎用知能ができることの範囲内やねん。

だから人間を同じ基準（高い基準やけど）に置くなら、AIも全く同じ基準に置く必要がある。なぜなら僕らは人間ができてAIができへん問題のクラスが大好きやからな。

名前を削除した理由は、以前は全てのゲームにめちゃくちゃ面白い名前をつけとって、どうプレイするかの小さなヒントを与えとったんや。でも全部英語やった。英語を知らへん人はどうするん？彼らは明らかに知的やし、明らかに汎用的に知的や。ただ英語を知らへんだけや。

僕らは準備や事前訓練の量に関係なく成功に役立たへんタイプの問題が好きやねん。その特定の事前訓練はな。

例えば、日本出身で英語を知らへん人がいたとする。それは彼らの汎用知能を測るのに公平なテストやないやろ？たまたま英語でテストしただけやからな。ゲームを見せてくれるか？どんな感じか、どうやるかを。

正直に言うと、Greg、君が準備してる間に。人間には簡単なはずやけど、僕が試したときは、そうやなかった。最初のは最終的に理解できたと思うけど、2つ目のゲームはめちゃくちゃ難しかった。

そうやな。Greg、LS20を見てみようか。これが僕が実験したやつや。最初のレベルはサクサク進めたって言わなあかんけど、2番目のレベルでかなり詰まった。

そうやな。これをLS20って呼んでる。こんな静的スクリーンショットを見ると、何が起こっとるんかって思うやろ？下の底に利用可能なアクションが書いてある。そしてAIにも利用可能なアクションを教えるで。上、下、左、右がある。

そして小さなエージェントが見えてきて、僕がそれを世話しとるんや。この暗いものの上に行ってみよう。何も起こらへん。この明るいやつの上に行ってみよう。おお、左下のが変わって、今度は上の同じシンボルと一致しとる。だからここから上に行ってみよう。かっこええ。レベルから出た。

まるで出られるようにしてくれる鍵を見つけたみたいやった。だからこっちに行ってみよう。上の紫の点は動きの制限回数や。エージェントはそれを知らんし、最初にここにドロップされた人間も知らへん。

だから君が直感したか、「おお、ここから下がるものがある。鍵が一致したから、出口に行ってみよう。ああ、エネルギーが切れた。これで学んだから、おお、もっとエネルギーを上で取る必要があるんや。それから戻らなあかん」って思ったんやと思う。

小さな環境トリックがあるんや。これらを異なるゲームメカニクスって呼んでる。皆が入っていく必要があるんや。上の鍵を見ると、オレンジやけど、下のはまだ白いのが分かる。今度は新しい変換を導入するんや。色を変えるけど、エネルギーに気をつけるんや。もっと拾いに行く必要がある。

最後のレベルだけやらせてもらうわ。うん、僕より先に進んでるやん、はっきりさせとくけど。

そうやな。これを最後まで勝たせてもらって、それから一旦停止するわ。前に言うたように、ARC AGI 2では実際に400人をテストしたんや。含めるものが全て人間によってできることを確認するためにな。

ARC AGI 3でも同じ基準を自分らに課すつもりや。だから一般の人々からのテスターがいて、僕らと一緒にテストしに来るには少し資格が必要やけどな。コンピューターの使い方を知って、インターネットの使い方を知る必要がある。

でも複数の人が最初の実行で指示なしでこれらのゲームを倒せたら、含められる。でも君が話しとるように、Matt、もしできへんかったら、ゲームやレベルをカットするだけや。

ゲーム自体について最後に一つ質問や。エージェントがドロップされるとき、何か指示は与えられるんか？「これを解く必要がある」って言われて他は何もないんか、それとも文字通り何も言わずにドロップされるんか？

僕らは、基本指示を洗練するけど、多かれ少なかれ、まだ決定事項やないから引用せんといてくれ、でも君は環境にいる、君の目標は出ることや、ここに利用可能なアクションがある、って伝える予定や。それだけや。

でも僕らには内部的なモットーがあるねん。人間に伝えることは何でもAIに伝えなあかんし、AIに伝えることは何でも人間にも伝えなあかん。だから可能な限り公平な競技場を保とうとしとるんや。

よし。実際、僕は疑問に思うねん。Alex、僕のスクリーンをすぐ表示してくれるか？このアクション効率のツイートについて話したいねん。君がやったのが大好きや。

そうやな。僕のお気に入りのトピックの一つや。

これを説明してくれるか？

違うのを見てるみたいやな。共有するタブをクリックしてるか確認してくれ。もう一度やってみよう。できた。きれいや！そうや、大好きや。

インタラクティブベンチマークから得られるめちゃくちゃかっこええ部分の一つは、テスト受験者を判断する新しい軸やねん。静的ベンチマークでは基本的に正しい答えを出したかどうかだけを見とる。

知能は効率比やから、知能比は分子にパフォーマンスの出力があって、分母にどれだけのエネルギーと訓練データが実際にかかったかがあるんや。だからこれは力任せの解決法を視野に入れてくれるんや。

インタラクティブベンチマークのめちゃくちゃかっこええ部分の一つは、目標やゲームを完了するのに何手かかったかを測定できることや。ClaudeがポケモンをプレイするとかGeminiがポケモンをプレイするグラフィックを見たことがあるやろ。X軸に時間やアクション数があって、Y軸にレベル進行があって、線が上がっていくのが見えるやつや。

ARC AGI 3でも全く同じことをするつもりや。僕らが持つ全てのゲームでこれをやるんや。何百ものゲームについて話しとるんやで。君が見とるのはこれらのゲームの一つだけのグラフや。X軸に誰かが取った総アクション数があって、Y軸に彼らが進歩できたレベルがある。

赤い線が平均的な人間の様子や。レベル5で、レベル5に到達するのにたぶん合計40アクションぐらいかかったように見える。それからレベル6。レベル6はちょっと長かったやろ？だからレベル6では90アクションまで上がっとる。

かっこええのは、これらのアクションが人間がする必要がある2つのことで構成されとることや。環境を探索するためにアクションを使う必要がある、つまりルールが何かを学ぶ。それから環境で実行するためにもアクションを使う必要がある。実際に目標を完了するためにな。

めちゃくちゃかっこええのは、AIが同じ目標を完了するためにかかったアクション数をプロットできることや。だから今はAIに「このタスクをやってくれ」って頼むだけやなくて、「このタスクを効率的にやってくれ」って頼んどるんや。

僕らが競争してもらっとるベンチマークやベースラインは、人間レベルのベースラインや。それがめっちゃ重要なんは、僕らが汎用知能の唯一の証明点をサンプル効率的知能がどんなもんかのベースラインとして使っとるからや。僕らがスコアを報告するとき、AIのスコアは僕らがやる平均的な人間レベルのパフォーマンスをベースラインにするで。まだテストしてへんけどな。

めちゃくちゃかっこええ。効率を最適化することのリスクについて簡単に質問や。創造性や新しい解決法にペナルティを課すかもしれへんって想像できるねん。それについて考えたことある？

新しい解決法や創造性を必ずしも最適化しとるわけやないと思うねん。その2つはめちゃくちゃ重要やけど、僕らがここでやっとることの焦点やない。僕らの焦点は効率的知能を測定することで、かなり狭い領域でや。

僕はいつも皆にこう言うとる。全人的な人や全人的なAIを測定するつもりやったら、ベンチマークのポートフォリオが必要やって。全てに対する万能薬はないねん。だから僕らは決してこれがAIについて測定できる全ての事柄を測る最高のベンチマークやって主張してへん。でも僕らはこれがAIの汎化能力を測る最高の試みやって主張しとる。

めちゃくちゃかっこええ。理にかなっとる。

エージェントコンペティションがあったやろ？それについて教えてくれ。結果があるなら、結果をシェアしてくれ。

そうや、絶対に。もう一度スクリーンを共有させてもらうわ。ここで飛び回らせてもらってありがとう。エージェントコンペティションを開催したんや。

共有したばかりで、30日間だけやったから長くなかったけど、これらの異なるゲームを本当にバトルテストしたかったんや。めちゃくちゃすげー投稿がたくさんあって、これが最終的なリーダーボードの様子や。少しズームアウトさせてもらうわ。

スイスのTufa Labsの仲間が、Stochastic Gooseを投稿してくれた。めちゃくちゃかっこよかったのは、これは基本的に力任せエージェントやけど、知的な力任せエージェントやということや。だからたくさんの異なるアクションを試して、どのアクションが実際にスクリーンを動かしたかを見て、「おお、たぶんそれらを試すべきや」って言うんや。それから実際に何かをしたアクションを基本的に活用するんや。だから勝ったんや。12%獲得した。

僕らが使う予定のスコアリングメカニズムはまだ流動的やから、あまり深読みしてほしくないけど、プライベートテストセットで18レベルを完了できて、その18レベルを25万アクションで完了したんや。

それを言う理由は、人間がこれらのゲーム全てを完了するのに必要なのは約400アクションやからや。

400対AIエージェントにとっては桁違いに大きな数字やってことや。

そうや。だからゲーム完了とレベル完了を分子として考えることができる、つまり何をしたか、パフォーマンスは何やったかって感じで、でも効率に到達する分母はアクション数になるんや。だから25万5000は狂っとる。

一つのリプレイを見せたいねん。ちなみに、僕らのチームにDavidっていうすげーエンジニアがおって、彼がバックグラウンドで全部構築してくれたんや。でもめちゃくちゃかっこええから、この勝利投稿のリプレイを表示して何が起こったかを見せることができるんや。

こっちに推論ログがあって、これは開発者が各アクションと一緒に投稿するものや。テスト、テスト、テストって言うとる。これを速めるわ。テストって。何も結果をもたらさへんアクションをやってるのが見える。だからフィードバックを得てへんのや。これを速められるか？もう一度。アクション200や。変化を起こした。アクション約350ぐらいまでやないと思う。ドーン。

だから今「おお、実際に何かをクリックできることに気づき始めた、そうしたら何か他のことが起こるんや」って感じや。ワオ。それでも基本的にアクション空間をスパムして、何ができるかを見とるだけや。

だからこれは効率的知能やないけど、証明点やし、ここでできることの能力実証で、僕らはそれが大好きや。でもこれは全然サンプル効率的知能やない。

最初のゲームから教訓を取って、2番目のゲームに持っていって、「よし、今度はこの環境で動き回るべきやって分かった」って言うんか、それとも毎回新しく始めるんか？

そうやな。各レベルについては、前のレベルで学んだことを将来のレベルに持っていくんや。でもゲーム間での共有はしてへんと思う。

ゲーム間で、やな。それから、どのタイプのAIがベンチマークを飽和させて、これらのゲーム全てを解くと思うかについて考えるとき。苦い教訓って聞いたことがあるやろ。汎用AIの一種のエンドツーエンドニューラルネットワーク、単純にスケールアップすることが最終的に最良のアプローチになるっていう。

ARC AGI 3では、具体的に解決することに非常に焦点を当てた多くの投稿があったと思うし、GPT-5かGPT-4みたいなのもあったと思う。一般的なアプローチの方がはるかに良くやったんや。

最終的に勝利するアプローチは何やと思う？より苦い教訓を学んだエンドツーエンドアプローチになると思うか、それともより焦点を当てたものになると思うか？

適切なAGIのための僕の仮説、つまり僕らがそれを見つけて少し反復した後の最適化されたAGIは、苦い教訓に沿ったものになると思う。それが僕の考えや。

もちろん、単純にスケールアップされたニューラルネットワークだけになるんか？その発言にはたくさんのニュアンスがあるからな。ある意味ではそうやし、ある意味ではそうやない。

僕の目標や希望は、ARC AGI 3を倒すもので、3つか4つの金塊があることや。「うわあ、これを解くのに使われたのはめちゃくちゃかっこよかった。今度はそれらを取って、より一般的な使用例に適用する必要がある」みたいな。

たぶん言語がないから、言語モデルや他の何かに適用するかもしれへん。でも僕らの目標は、これを倒すものが、君のバーチャル従業員になって、たくさんの仕事を自動化するものと全く同じものになることやない。

戦術的に僕がこれが進むと思う方法、少なくとも僕が望む方法は、これを倒す解決法が論文を発表して、その論文がめちゃくちゃかっこええ取引になって、それから他の人がその論文の側面を取って、他の場所に実装して、最終的に「うわあ、AGIの秘密はオープンで、ARC Prizeがそれを前進させる一部を担った」ってことや。

よし、めちゃくちゃかっこええ。Matt、新しい種類のベンチマークが今リリースされたと思うねん。それを表示しよう。冗談かどうか分からんけど、かなり真剣やと思う。これを真剣に受け止めよう。

ああ、見つけるのに苦労しとる。問題ないわ。ああ、ここやで。これはbench pressベンチマークや。冗談は抜きにして、これはめちゃくちゃ重いで。かなり印象的や。どうやってここまで到達したん？

めちゃくちゃ訓練したんや。15ヶ月前に最初の子供ができて、可能な限り自由時間の1秒1秒のために戦わなあかん。朝にジムで週3回1時間取れたら、それが全てや。それしかできへんときは、1つのことにだけ集中できるんや。だから今は普通のベンチだけやっとる。

いいね。よし、Greg、今日は参加してくれてありがとう。いつものように君と話すのは楽しかったわ。君がやっとることが絶対に大好きや。オープンなのが大好きやし、参加してくれてありがとう。やってくれてることに感謝しとる。

かっこええ。すげー。Matt、Nick、呼んでくれてありがとう。また後でな。

よし、ありがとう。

AI音声アシスタントのニーズ

そうやな。実際にNickに聞かなあかんかったねん。僕はほとんどウェイトトレーニングをしてへんから、あれがたくさんかどうか聞いて、君は「そうや、あれはたくさんや。めちゃくちゃ重いで」って言うた。

そうや。よし、フィードからいくつかツイートがある、いくつか話がある。スクリーンを共有するわ。そこから行こう。Alex、表示してくれた？ありがとう。

最初に僕がこのツイートを出したんや。1日半前の投げやりなツイートやった。運転してて、駐車して、出たときに気づいたんや。車で過ごす時間がめちゃくちゃ多いって。いつもはポッドキャストとかオーディオブックとか音楽を聞くけど、時々は仕事を片付けたいねん。でも運転中は何も仕事ができへん。

だからこのツイートを出したんや。「運転中に実際の仕事ができる音声AIに月1000ドル払うわ。メール返信、会議のスケジュール、その他のタスク」って。そしたらバイラルになった。だから明らかに他の多くの人も同じ感情を持っとるんや。

だからほんまに考えさせられたんや。僕は電話を持っとる。今はAndroidを使っとるけど、iOSも使ったことがある。でも少し遅れとるかもしれへん。でも「ヘイ、一番重要なメールを読んで。よし、これに返信して。よし、これのカレンダー招待を設定して。よし、ここで予約を取る必要がある」って言えるアシスタントがあったらどんなにいいか。

何年もこの話をしてきた気がするし、可能やとも思うけど、まだ持ってへんのはなんでや、Nick？

そうやな、君の推測も僕の推測も同じや。ちょっと驚くけど、chatGPTの音声機能について考えてみ。多くの点で素晴らしいやろ。車の中で新しいトピックについて学びたいときに使うし、めちゃくちゃ会話的や。

時々トーンが少しうっとうしくなることもあるけど、全体的には役立つ。だからそれをアクションにさらに一歩進めることは、そこにあるはずやと思うけど、まあ。

そうやな。このツイートで何が起こったかって？

そうやな、たくさんの感情があって、たくさんの人が同意して、それからStephen Zangがランダムに構築したんや。バイブコーディングして、これをまとめた。彼のアプリを構築した。最初から再生するわ。

音声をオンにさせてもらうわ。このデモが車から聞こえるかどうか分からんけど、音声エージェントを使ってメールに答えて会議をスケジュールできるんや。やることはGoogleアカウントでサインインして、許可を受け入れるだけ。それでは始めよう。

「ヘイ、メールをチェックしてくれる？」

「Broadway SFから1通の未読メールがあります。今度の土曜日のオリウム劇場ロビーバーでのティプシーティーイベントについてです。もっと読むか、何かアクションを取りますか？」

「うん。『ありがとう、行きます』って返信してくれる？」

「『ありがとう、行きます』という返信を送りました。」

「ありがとう。カレンダーもチェックしてくれる？」

「7時にサンフランシスコのKen 252 DivasでGraceとのディナーがあります。」

「よし。」そこで一旦停止するわ。要点は分かるやろ。

約1日の作業でめちゃくちゃすげー。足をぼかしたのが面白いと思う。見えた？モーションブラーやろ？きれいや。

そうやな、すげーデモや。すげー景色ももちろん。でもこれはめちゃくちゃ印象的や。これは時代の兆候やろ？これらのものがどれだけ早くまとまるか。

僕の個人情報でこれを使うか？おそらく使わへん。でも存在することは大好きや。

そうやな。君が言うたchatGPTのボイスモードについて、コネクターを使うとき、おそらく最も近いと思うねん。実際にGmail、drive、Boxなどのサービスに接続できるんや。

たぶん8個か10個だけやけど、少なくとも始めるには十分や。ほとんどそこにあるような気がするけど、「メールを取ってきて、このメールに返信して」って言う信頼は僕にはまだないねん。インタラクション層と信頼がまだ完全にはないけど、めちゃくちゃ近い感じがするし、完全な体験を得るためのもう少し何かが必要なだけや。

同感やな。これはXとTwitter圏の最高の部分やと思うで。行動喚起を出したら、誰かが24時間で答えてくれるんやからな。めちゃくちゃすげーわ。

そうやな、絶対に。これはめちゃくちゃかっこよかったと思う。これで100万回再生を得た。だからほんまにかっこええ、Stephen。このデモをまとめてくれてほんまに感謝しとる。うまくいけば彼とすぐに話せるやろうし、めちゃくちゃ楽しいやろうな。

Claude Codeとコーディングツールの競争

よし、次の話や。Nick、これを引っ張ってくれるか？

そうやな。これは僕らの友人Reyや。彼はClaude code wi-iにさよならって言うとる。明らかにスパイシーな意見やな。

これを読んでいくと、重要なポイントがあると思うねん、一部は個人的な好みの問題でもあるけど。フル IDEを使いたい開発者もいれば、コマンドラインに集中したい開発者もいる。でも僕がこのツイートを見て思うのは、これらのフロンティアラボがエージェンティックコーディングに向けてめちゃくちゃプッシュしとるってことや。もう競争力があるんや。

だからcursors、replets、cognitionsのような世界は、競争上の優位性を見つける必要があるんや。「ヘイ、僕らの中にclaudがある」以上の何かが必要や。だから速度を上げる方法、大規模なコンテキストウィンドウ、より良い統合、これらすべてを見つけて競争力を保つ必要がある。

最終的には個人的な好みの問題やと思うけど、このツイートは僕にとって、cursorのようなツールがこれらの大きなコンテキストウィンドウを含めることで、どれだけ競争力を維持できるかの兆候やねん。

そうやな。これはプラットフォームリスクを非常によく反映してて興味深いねん。Claudeに統合されてる、あるいはClaudeの上に構築されてるcursorを想像してみ。他のいくつかのモデルにも構築されとるけど、主にClaudeに構築されてるとしよう。そしてClaudeも独自のCLI、コーディングツールをリリースしとる。

全てのフロンティアモデルラボがコーディングはめちゃくちゃ重要な使用例やと信じてるから、それに取り組むんやろ？OpenAIにはCodex、claudeにはcloud code、cloud CLIがある。だから厳しい立場にいるんや。

僕も以前創業者やったけど、僕らと競争することになったTwilioの上に前のスタートアップを構築して、ええ気分やなかったし、ここで起こってるかもしれないことと非常に似てる感じがする。だからcursor、Windsurf、Kleinなど、どれも好きやけど、多くにとって、プロバイダーとも競争してるんや。めちゃくちゃ変な立場にいるわけや。

そうやな、確実に面白いな。この分野で何が起こるか見てみよう。

OpenAIの教育への取り組み

次の話に行こう。表面的には、これは小さな機能でちょっと些細な話やけど、もっと重要なことが起こってると思うねん。

OpenAIが何をやっとるか考えてみ。教育への巨大なプッシュをやっとる。先月か今月前半に、スタディモードを導入したと思う。今はフラッシュカードがある。

それに言うまでもなく、chatGPTは大学生に無料や。だから僕にとって、これは本当に採用についてやねん。彼らは次の波を獲得しとる。これは流通プレーヤーの思考や。

流通やと思うけど、実際はスティッキネスを作ることについてやねん。次の消費者セットを開発しとるんや。

そうやな。記憶とパーソナライゼーションがAIとの相互作用の方法にとってめちゃくちゃ重要になってくるにつれて、早く相互作用を始めるほど、より価値があるものになるし、離れるのが難しくなる。

だからこれはかなり戦略的な動きやと思うねん。

そうやな。表面的な機能に見えるけど、たぶん君の言う通りや。僕が見るよりも戦略的かもしれへん。

実際にスタディモードは好きやった。覚えてない人のために、基本的にはカスタムGPTのような機能で、直接答えを与えるのではなく、そこに到達する方法を案内してくれるんや。だから途中で学習していくってわけで、まあ、ええと思うで。

LM Arenaでの競争

次の話に行こう。Dan MackがGPT-5のLM arena統治が既に終わったって投稿した。ここで見れるように、Gemini 2.5 Proがスコアを同じにした。基本的にELO 1456で1位タイや。

覚えといてほしいのは、LM Arenaはユーザー投票に基づいてるってことや。伝統的なベンチマークのようなものやない。厳密にユーザーの好みや。

そのせいで、もちろんゲームされる可能性がある。Llama 4がローンチしたとき、特定のモードがあったんや。正確には覚えてへんけど、たくさんの絵文字を含んでて、競合他社の出力よりも彼らの出力を好む（お気に入りにする）ように人々を誘導したんや。

だからLM Arenaの仕組みは、君のプロンプトに対する2つの異なる解決法や2つの異なる返答を提示して、どちらを好むかをブラインドで選んでもらうんや。

だから必ずしもどちらが最も正しいかやなくて、どちらを好むかや。それは君にとって最も重要やと思うことに基づいてる可能性がある。スタイル、トーン、簡潔さ、何でもや。それで選ぶんや。Gemini 2.5 Proが上にいるように見えるな。

統治が短命やったのはそんなに驚くことやない。制限はあるけど、LM Arenaは実際、現実世界のテストをかなり示してると思う。確実に何らかの価値はある。でもそうや、AI の世界では統治は短命や、確実にな。

GPT-5の新しい数学の発見

よし、次のゲストを呼ぶ前に最後の話や。実際にはOpenAIから2つの異なる簡単な話があった。番組の友人Mark Chenが、GPT-5 Proが新しい数学を開発し始めてるって投稿した。

これはSebastian Bubeck自身の投稿に基づいてたんや。彼は基本的に「新しい面白い数学証明を証明できる。凸最適化の論文でクリーンなオープン問題があるやつを取って、GPT-5 Proに作業してもらった」って言うた。

全部は読まへんけど、基本的にこの数学は僕には複雑すぎて説明できへんけど、基本的には新しい数学を解いとるんや。Nick、これについての君の考えを聞きたいけど、まず今朝公開されたもう一つの投稿を見せたいねん。

OpenAIの研究者Boris Powerが、「僕らはAIが科学と創薬を加速できると信じてる。新しい研究の例がここにある。ノーベル賞受賞の山中タンパク質の改良版を設計できた」って。

だから新しい数学の発見、新しい科学の発見。僕らはこのチャンネルでしばらくこれについて話してきたし、そうや、これができるってヒントと小さな種が見え始めてるようや。実際めちゃくちゃ印象的やねん。Nick、どう思う？

そうやな、番組前にSebastianを調べてたけど、彼は真剣な重鎮やねん。プリンストン大学の教授で、バークレーの研究者で、MicrosoftでAI担当VPとして10年以上過ごしたと思う。だから、君と同じように数学が何を言ってるかは全く分からんけど、彼の言葉を信じるわ。Mark Chenがサポートしてくれてるのも確実に助けになる。

でも僕にとって面白い部分は、この時点でモデルが単に何かを逆流させてるわけやないってことや。これは一種の新しい知識やねん。皆が知ってる通り、それは人々がAGIについて話す基本的な構成要素やねん。だからめちゃくちゃエキサイティングや。

そうやな。特に自己改善AGIやろ？僕個人は科学的発見だけやなくて、ヘルスケア、新薬、僕らをより健康にできるものすべて、健康問題を早期に特定することについてめちゃくちゃエキサイティングや。これらすべてがほんまにエキサイティングや。

それから数学もある、新しい数学が発見されて、うまくいけばモデル自体に再適用できる。それが素敵な再帰的フィードバックループを得るところで、自己改善人工知能や。

よし、ここで終了しよう。Letaからのゲスト共同司会者Charles Packerを呼ぼう。Charles、ショーへようこそ。

2番目のゲスト：Charles Packer（Leta）

ヘイ、どうや？呼んでくれてありがとう。

ヘイCharles、また会えてええな。Charles、君はLetaの創設者や。最初に君と出会って、君とつながったのは、君がMEMGPTっていう論文を発表したときやった。

めちゃくちゃすげー論文やった。僕はそれについて動画を作ったけど、それが何やったかを簡単に説明してくれ。それからLeta設立への移行について教えてくれ。

そうやな、MEMGPTは皆がChat GPTメモリ、Geminiメモリのメモリ機能に慣れてると思うねん。メモリはおそらく全ての製品チャットアプリの機能やと思う。これらのシステム全てでメモリが機能する方法は、ツール呼び出しベースのメモリやねん。

だからそのスタックのどこかに言語モデルがあって、会話の転写を見て、「ヘイ、ユーザーが言ったばかりのことはかなり面白い。新しいメモリを作成するっていうツールを呼ぶべきや」とか「既存のメモリを編集するっていうツールを呼ぶべきや」って決めてるんや。

そのツール呼び出しメモリの概念が、基本的にGPT-4が出た頃に僕らがmemgpt論文で紹介したものや。実際MEMGPT論文は、GPT-4ツール呼び出しや関数呼び出しがOpenAI APIに追加された直後に出たんや。

そうやな、MEMGPTも言語モデルオペレーティングシステムの議論の大きな部分やったと思う。Karpathyがめちゃくちゃ注目度の高いツイートをしてたのを知ってると思うねん。「ヘイ、LMOSを作るのがどんな感じかマッピングしよう」みたいな。

MEMGPTのLMOSのビジョンは少し違ってたと思う。言語モデル自体によって駆動されるコンピューターよりも、実際に自己改善知能を得るために言語モデルの周りに構築する必要があるコンピューターに集中してたんや。

だから君がさっき話してた自己改善について、それがまさにMEMGPTの全てやった。この信じられへんモデル、GPT-4は信じられへんモデルやったと思うねん？でもそれを時間とともに実際に意味のある成長をするシステムに入れるには？単一のGPT-4エージェントを持って、10年間実行させて、時間とともに実際に意味のある成長をするようにできるんか？今日みたいに最終的に脱線して、コンパクトにして、捨てなあかんようになるんやなくて。

僕らは論文を表示しとる、非常に魅力的な論文や。まだ読んでへん人は皆読むことをお勧めする。あるいは僕がそれを分解した動画をチェックしてくれ。

まず最初に、メモリについて考えるインスピレーション、「ヘイ、僕らはほんまにメモリについて考える必要がある」っていうのは何やって、それから実際にその周りで会社を始めるっていう移行について教えてくれ。

そうやな、インスピレーションは、本当に、Sarah、Kevin、僕ら全員が論文のBerkeleyにいて、皆違うことをやってたんや。僕はRL研究をやってて、KevinはピュアNLP、Sarahはよりシステム寄りのMLをやってた。でもGPT-4が出たときに皆めちゃくちゃエキサイトしたんや。

僕にとって、僕らが経験した最大のデルタ、最大のステップジャンプは3.5から4やったと思う。4が出たとき、僕はやってたことを全部やめて、毎日ただ遊び始めたんや。毎日4と遊んでたんや。

GPT-4と遊んでるときに一番欲しかったのは、これが意味のある時間実行されて、時間とともに実際に学習する方法がないってことやった。でも幸運にもツール呼び出しがAPIに出たばかりやった。

だから「よし、ツール呼び出しとメモリバンクをLMに添付することを組み合わせたらどうや？たぶん長いショットやけど、たぶんそれで何らかの長期実行メモリが得られるかもしれへん」って思ったんや。そしてGPT-4がめちゃくちゃ良いから、箱から出してうまくいったんや。

「うわあ、待って、これは実際かなりええ」って思ったんや。MEMGPTから会社を始めることについて考えると、基本的にこの会社Letaの皆、僕ら皆めちゃくちゃ自己改善AIについてエキサイトしてるけど、まだそこにないんやねん。

だから僕らは、現在のフロンティアモデルに実際に追加できる、MEMGPTを超える論文や手法で、実際に真に自己改善するものを与えるものに特異的に集中しとる。MEMGPTエージェントはすげーと思う。基本的にChat GPTやGeminiのメモリで見るのは、MEMGPTエージェントみたいなもんや。

でもCloud Codeでさえ意味のある自己改善って真剣に呼べる人はいないと思う。Cloud.MDファイルを編集するのはまあまあやけどな。でも僕らが本当に欲しいのは、君が会社のエンジニアやとして、Cloud Codeを支給されて、キャリア全体を通して同じCloud Codeを使って、時間とともにどんどん成長して良くなるようなもんや。それは僕らがまだ持ってないもんやけど、かなり早く手に入ると仮定するのは合理的やと思う。

論文から取ったものや、Leta立ち上げ中に発見したもので、Chat GPTのメモリを直接使ってる消費者や競合他社から君らを際立たせる主要なイノベーションは何や？

そうやな、MEMGPTを他から際立たせた一番のもの、それがなんでそんなに影響力の高い論文やったかの理由は、全てこのOSアイデアについてやねん。言語モデルはCPUみたいな新しいもんで、CPUはビット入力ビット出力みたいなもので、言語モデルはトークン入力トークン出力みたいなもんや。

だから僕らはこの信じられへんほど強力なCPUを持ってるけど、その周りのコンピューターがないんや。君のコンピューターの動作方法は、CPUに入るバイトを直接プログラムしてるわけやない。そこには非常に大きな抽象化の塔があって、アプリケーション層から行って、その下でメモリスワッピングが起こってて、そして一番下には非常にタイトなレジスターがあって、全てのデータのバイトがパックされるんや。

言語モデルでも似たようなもんがあると思う。信じられへんほど良い計算単位があるけど、基本的にトークンを出し入れする適切な抽象化がないんや。RAGは何らかのLMOSの非常に単純な例やと思う。なぜならトップKランキングをして、コンテキストウィンドウに何かを引っ張ってくるからやねん。

でもRAGの問題は、アルゴリズムが人間によって書かれてることや。だから人間がトップkランキングをするためにコサイン類似度検索を書いて、それをコードで書いて、今そのコードがLMのコンテキストウィンドウに何が入るかを決定するんや。

僕が思う未来、これもMEMGPTを違わせるものやけど、コンテキストウィンドウの出し入れのアルゴリズムは実際にマシン自体によってやられるべきやねん。僕らがコンテキストエンジニアリングをする必要はないはずや。マシンが自分自身をコンテキストエンジニアリングするべきや。

全てのコンテキストエンジニアリングをツール呼び出しを通してやれば、それが得られると思う。LMに自分のコンテキストウィンドウを操作する能力を与えて、これらの言語モデルがツール呼び出しでどんどん良くなると、最終的にOSのように見えるシステムを構築できると思う。

コンテキストウィンドウの内部で異なるメモリ層やコンテキスト層から、めちゃくちゃ複雑な流動性と動きがたくさんあるけど、その多くが言語モデル自体によってオーケストレーションされてるんや。

僕はチャンネルやTwitterでメモリ、エージェントメモリ、AI メモリについてたくさん話してきたし、これらのAI モデルが優れた性能を発揮して現実世界のタスクができるための重要なピースの一つやし、メモリで手抜きを開発することで、より効率的になる。メモリは企業にとってもめちゃくちゃ大きな堀やねん。

僕はGoogleのCEOにこれについて質問したんや。だからGoogle で、君についての全ての情報を既に持ってるとしよう。それら全てがメモリになれるし、Geminiとの全ての相互作用もメモリになれる。でも、もしそれらがGoogleの壁の内部に閉じ込められて、他の競合他社に持って行けへんかったら、消費者に害を与えるような気がするねん。

だからメモリが異なるシステム間で転送できるオープンスタンダードが必要やと思うか？あるいはGoogleのようなこれらの企業とは別のメモリがあって、全てのメモリを保存して、Googleのモデルの一つを使いに行ったらLetaみたいなところから取得するような、そのアーキテクチャはどうなると思う？メモリのオープンスタンダードが必要やと思うか？

そうやな、オープンスタンダードの構成要素については後で少しコメントするかもしれへんけど、確実にメモリのオープンバージョンが必要やと思う。なぜなら僕が思うに起こることは、これらのエージェントがあって、どんどん長時間実行されるようになるからや。

Cloud Codeは最終的に僕が説明してたものになる。一つのCloud Codeだけを持って、ずっと実行して、無限のコンテキストウィンドウを持つようなもんやねん。常により多くの情報を構築して、自己改善してる。

同様に、Chat GPTも最終的に、サイドバーにメッセージ履歴はもうなくなる。統合されて一つのシステムみたいになるんやろうな。

消費者の観点からは、それでもええと思う。問題はあるけど、多くの人が「ヘイ、僕のメモリが吸い込まれるのは喜んで受け入れるトレードオフや」って言うやろうな。

でも開発者にとっては、ちょっとした災害やと思うねん。もしこれらの無限に動く自己改善エージェントがあって、会社でプログラマーとして意味のある仕事をしてるAIがあったら、そのAIがOpenAIでしか機能できなくて、OpenAIが潰れたらそのエージェントを取り出す方法が全くないのは本当に悪いことや。

これらのフロンティアラボの一つは、おそらく数年か10年では存在してへんやろうけど、もし君の全ての長時間動く自己改善エージェントをそのプラットフォームに構築してたらどうする？完全に終わりやろ？

だから僕らがLetaで構築しようとしてるのは、このオープンバージョンで、全てのメモリをモデルプロバイダーから分離して保持できるもんや。君と一緒にそのメモリを持ち歩ける。

でもそのメモリをファイルやブロックとして扱うのは非常に難しい。本当に自己改善要素、モデルがメモリを改善できるようにするには、もう少し上に抽象化を作る必要があると思う。

でも長期的には、GoogleやOpenAIのようなフロンティアラボにとっても、メモリは実際にモデルよりもはるかに価値があるんや。10年、世紀か何かで動いてるエージェントを想像してみ。そのエージェントは多くの異なるモデルサイクルを経験してるんや。GPT-5、GPT-6、GPT-7、8、10を経てきたか、たぶんGPTとClaudの間を跳んできたかもしれへん。

でもメモリと状態は信じられへんほどスティッキーや。それは10年、20年、30年間同じものやった。だからもしMission Impossibleスタイルの潜入作戦をOpenAIにやって、その会社の最も重要なもののサムドライブを持って出ようとしてるなら、かなり早く君が持って出るものはモデル重みやないと思う。全ての流出させてるメモリを持って出てるんや。

だからモデルがより重要になるよりもメモリがより重要になるのは、自己改善がもう少し良くなるとすぐやと思うねん。

そうやな。Letaはオープンソースで、今日はどんなタイプの顧客を得てるんや？誰にサービスを提供してて、彼らの使用例は何や？

そうやな、Letaはオープンソースや。オープンソースやないのは、Reactのウェブアプリみたいなフロントエンドがあって、それで物を見ることができるプレイグラウンドや。それはオープンソースやないけど、無料や。それから完全オープンソースのREST APIもあるから、誰でも自分のバージョンをバイブコーディングできる。

でもコアAI技術は全てオープンソース、Apache 2.0ライセンスや。それは意図的で、Letaをこの破滅的なメモリロッキング問題を避ける方法として考えてもらいたいからや。

Letaを使えば、もし欲しけりゃ、完全にインターネットから切断されて、全てのエージェントをブルーレイドライブに全てのエージェントメモリを入れて、銀行フォルダーにロックするような特別なアーカイブに保存できるようになるはずやねん。

だからそれが僕らがLetaで構築しようとしてる技術や。すまん、質問の他の部分は何やったっけ？顧客や、そうや。

誰にサービス提供してるかやな。

そうや。Letaは会社として非常に特別やと思うねん。僕らは非常に長時間動く領域、つまり非常に長時間、潜在的に永続的に動くことを意図され、時間とともにどんどん良くなるエージェントに極度に集中してるんや。

オンラインで読めるLetaの最大のデプロイメントは、Builtという会社とのものや。彼らは実際にはチャット目的でLetaエージェントを使ってへん。基本的にユーザーデータを読んで取引を見て、推薦に使われるユーザープロファイルを構築するために、全ての顧客にLetaエージェントを支給してるんや。

だからそれらのエージェントは、今数百万のエージェントがある。何百万の顧客がいて、各顧客が50以上のエージェントを持ってるって感じや。数千万のエージェントや。これらのエージェントは決してオフにならへん。

無限のコンテキストウィンドウを持ってて、Letaでのセットアップの仕方で、ユーザーについての自己編集メモリブロックを持ってるんや。だから「Charlesは本当に金曜日にチームと一緒にこのレストランに行くのが好き」みたいなことを学ぶんや。

そういうことが、無限のコンテキストウィンドウでアプリの推薦を生成する、これもLeta上の別のエージェントで使われるんや。

Letaでやってる仕事のせいで無限やから、そこで一旦停止したいねん。無限やけど、最終的にはモデルのコンテキストウィンドウに制約されてるやろ？どうやって無限になるんや？

そうやな、コンピューターで作業するとき、本当に無限なものは決してないよな。技術的には無限の仮想メモリがある。欲しいだけChromeタブを開けるけど、最終的にどれだけのスワッピングをしてるかでコンピューターが死に始めるんやろう。

言語モデルでは、実際最近めちゃくちゃ面白い研究が起こってるんや。100万トークンがあっても、実際は3万トークンぐらいのスイートスポットの方が良い場合が多いってことを示すやつや。

だからLetaで、基本的に物理的なストーリーや物理的なコンテキストウィンドウを好きなように設定できるけど、最大値を超えることはできひん。だからClaude Opusで100万トークンの最大値があるとしよう。Letaでスライディングウィンドウを設定して、「ヘイ、僕のコンテキストウィンドウ、つまりメモリに類似した物理的サイズを3万kにしたい」って言えるんや。

それからLetaエージェントにメッセージを送ると、これは全てオープンソースソフトウェアやけど、基本的にコンテキストウィンドウを超えたら、スマートなコンパクションをするようになっとる。僕らがやるコンパクションはCloud Codeよりもはるかに良いと思う。コンテキストウィンドウの30%ほどを保存してスライドさせて、再帰的要約をするから、はるかに破壊的やないんや。

でも最も重要なのは、ロスレスやないってことや。コンテキストウィンドウ内ではロッシーやけど、エージェントは常にデータベースに戻って検索して、欲しいものを何でも引き出すツールを持っとるんや。

だからWhatsAppのメッセージやiMessageみたいに、会話履歴を検索できるし、親指を疲れさせて、メッセージ履歴の最初まで引っ張ることもできる。エージェントにもそんなツールを与えることを想像してみ。

おお、Nick、君はミュートされてるかもしれへん。彼が解決してる間に僕が飛び込むわ。

モデルのコンテキストウィンドウサイズは実際にはそんなに重要やないって言うてるんか？なぜならClaude Sonnetで今100万トークンを得られるし、Gemini 2.5で100万トークン得られる。様々なサイズがある。

モデルのコンテキストウィンドウは実際にLettaのパフォーマンスを助けるんか、向上させるんか、それとも実際には関係ないんか？君は1000万トークンのコンテキストウィンドウを楽しみにしてるか？それは助けになるんか？君がやっとることにどう影響するんか？

そうやな、再びコンピューターの類推を使うと、Lettaでは基本的にコンピューターや高レベルの抽象化を構築してるんや。だからコンピューターを構築するビジネスにいるなら、チップがどんどん早くなったり、マザーボードに詰め込めるRAMの量がn年ごとに倍になったりするのは素晴らしいことやろ？構築できるアプリケーションの上限がはるかに高くなるからな。

新しいMacBookがもっとRAMで出てくるたびに、僕らはそれを悪用して、コンピューターのRAMを完全に飽和させる方法を見つけるんや。16ギガバイトが良い類推やと思う。

言語モデルに適用した類推は、デバイス上で実行できる商品言語モデルが1000万トークンのコンテキストウィンドウを持つようになるとすぐに、マルチモーダルアプリケーションをたくさんアンロックすると思う。マルチモーダルはめちゃくちゃトークンハングリーやからな。

今20万とか、MacBookで意味のある実行ができる3万では、画像や動画データを内部に入れるのに十分なトークンがないことが多いんや。

でも元の質問に答えると、コンテキストウィンドウを増やすことはマルチモーダルにとってめちゃくちゃ重要やと思うけど、ある順序で何かXYZをやろうとしてるエージェンティックタスク、チケットを開く、チケットを閉じる、チケットをトリアージする、監督者に割り当てるみたいなことにとっては、オーディオが切れた？

すまん、オーディオをタップしたと思う。続けてくれ。

そうやな。だからCloud Codeみたいなツールのヘビーユーザーやと想像してる。Cloud Codeでは、ベースモデルの100万トークン制限が出るとすぐに、ヘビーなCloud Codeユーザーとして内部的に「ああ、ありがたい、この信じられへんほど破壊的なコンパクションがそんなに頻繁に起こるのを見なくて済む。もっと長く待てる」って思ったんや。

でもLetaのようなものの約束は、「コンパクションが本当に流動的で、舞台裏で起こって、破壊的でもなかったらどうや？このコンパクションが完璧で、破壊的な性質を決して持たへんかったらどうや？」って言うことやと思う。

その場合、実際にCloud Codeをより小さなスライディングウィンドウにするように設定するかもしれへん。より良いフォーカスが得られるか、コスト理由で、常に100万サイズのペイロードを送ってリセットすることでAPI請求を爆発させへんようにするためにな。

そうやな。DarweshがAGIには現在のモデルアーキテクチャでは到達できへんって話すブログ投稿を数週間前に出したと思う。モデルが実際に学習を内部的に自分自身に適用してへんからやって。君はそれに同意するか？

外部メモリと一緒に、モデルが実際に内部で進化して学習できるアーキテクチャがある将来にエキサイトしてるか？

そうやな、まず現在のモデルでも適切な足場やシステムを通して自己改善知能に到達できると思うねん。めちゃくちゃ難しい問題やから、確実に数ヶ月の研究とエンジニアリング作業がかかるやろうけど、現在のモデルの品質で非常に可能やと思う。

重みの内部と外部のメモリについて、Letaでは僕らはメモリがどこに行くべきかについて教条的やないねん。より大きなLM駆動システムで調整できるノブは全部やと思ってて、最高のパフォーマンスを得るために調整できるノブは全部調整すべきやと思う。

モデル重みについて一つ言うとすると、まず重みにアクセスがあるなら、確実に更新すべきやと思う。アクセスがあるのに更新せへんのは無駄やけど、明らかにクローズドAPIでは非常に難しい。

でもアクセスがあると仮定すると、この自己改善知能がある世界で、10年、世紀、それ以上動くエージェントがあって、そのエージェントが多くのモデルサイクルを経験してきた場合、メモリの階層がどんな感じかと、最も重要なメモリがどこに行くかについて考える必要があるんや。

実際に単一のエージェントが多くの異なるモデルを見て、その生涯でそれらのモデルを交換する世界にいるなら、最も重要な種類のスタイルやメモリのセクション、本当に釘を刺すべきは外部メモリやって非常に強い議論があると思う。モデル重みを常に捨てることになるからな。

外部メモリをファインチューニングのブートストラップデータソースとして定期的にモデルにファインチューニングするメカニズムは欲しいと思う。でも継続的にモデルを捨てて新しいモデルを入れるなら、このシステム全体の最も重要な部分がファインチューニングやって議論するのは非常に難しい。ファインチューニングは君がやることで、後でシステムを捨てることになるからな。

そうやな。君が前進を見据えて、エージェントメモリの最先端にいるとして、まだここにないけど君がLeta内部で開発してるかもしれへん、あるいは他の研究論文がメモリで可能なことのヒントを見始めてるかもしれへん、今君が最もエキサイトしてることは何や？

そうやな、最もエキサイティングなことは、僕らのsleeptime computeの研究論文で触れたものやけど、それは素晴らしい論文やった、Charles。

たぶんそれが何かをもっと広く説明して、それから君が言おうとしてたことに飛び込んでくれ。

そうやな、高レベルで、僕らは皆テストタイム計算に馴染みがあると思う。特定のモデルに、正しく訓練されてるなら、これらのモデルをより長く考えさせると、基本的にIQが向上するっていう発見のことやな。より長く考えさせると、より賢くなって、最終結果がより良くなる。

でもそれは疑問を投げかける。モデルがより長く考えることができて、出力が良くなるなら、なんで僕らは何かをしてもらう必要があるときだけ考えてもらうんや？なんで常に考えててもらわへんの？GPT-5でいっぱいのデータセンターを持って、一日中親指をくるくる回して考えてもらうのはどうや？

彼らは既に君について多くを知ってるから、いろんな狂ったことができるんや。無限の計算があれば、おそらく自分のchat GPTに異なるchat GPTのマルチプレックスを持たせて、事前に準備してもらえるやろう。皆が「おお、Mattが今日何をするやろう？Mattが午後1時に何をするやろう？Mattが午後3時に何をするやろう？事前に準備してみよう」って言うような感じや。

同様に、chatGPTとのチャットが終わってログオフしたら、たぶんそれは「ヘイ、現在のメモリは何や？セッションで得たばかりの情報をより深いメモリにどう組み込めるやろう？」って考えることにたくさん時間を費やすべきや。フル書き換えをするか、軽い編集、軽いパッチをするかもしれへん。

sleeptime computeっていう言葉は、テストタイム計算っていう言葉や句から来てるんや。テストタイムは「ヘイエージェント、ヘイLM、今何かしてくれ」って頼んでるときで、sleeptimeはエージェントやLMが推論エンジンにロードされてへん、どこかのコールドストレージに座ってるだけのその他全ての時間や。

sleeptime compute論文は学術論文で、基本的に「ヘイ、データセンターが常に料理してて、エージェントが常に学習してる世界への道をマッピングしよう。考えてへん時がないようにしよう」って試みてるんや。テストタイム計算の前提は、長く考えるほど物事が良くなるっていう非常に強い議論やからな。

だからAIに常に考えさせるメカニズムがあるべきや。

そうやな。GPUの効率について考えるだけでも、めちゃくちゃ面白いねん。24時間稼働させるのが実際に最も効率的やからな、経済的に言うと。それをsleeptime computeに直接適用できる。

論文から覚えてるのは、必ずしもそのインファレンスとプリコンピュートをピーク計算時間に実行する必要がないってことや。低計算、低帯域幅のときに実行できる。だからより低いレイテンシが得られるやろ？モデルと相互作用を始める前にたくさんの計算をやってるから。それに低いコストも得られる。非常に面白い。

だからそれをLetaに適用したか？それが君が将来エキサイトしてることの一つか？

そうや、今Letaに組み込まれてるんや。Letaオープンソースをチェックアウトしたら、sleeptime compute agentっていうエージェントで遊べるで。基本的にはmemgptエージェントに似てて、君について学ぼうとするチャットボットやけど、全てのメモリ更新をする別に動くエージェントがある。

これらのエージェントは全て共有メモリブロックを持っとる。だから基本的に同じデータベースの部分を一緒に編集してるんや。一つがそれから読んでて、ごく具体的に言うと、元のMEMGPT論文の非常に大きな問題は、僕がエージェントに「ハイ、僕はMatt Berman」って言うと、エージェントが「おお、これはメモリに書き込むええ機会や。メモリ挿入をするつもりや」って言うかもしれんけど、それはツール呼び出しで、君はそのエージェントを待つことになって、他のことをやってるから返事が2倍長くかかるんや。

でもchat GPTや何かのエージェントとチャットして「ハイ、僕の名前はMatt Bermanや」って言ったとき、人間がするようにすぐに「おお、かっこええな、Charles、よろしく」って言うけど、メインエージェントとしてこのメモリを共有する潜在意識みたいなものがあって、メモリ更新を非同期でやるっていうのを想像してみ。だから今日それが使えるんや。

さっき話してた推薦システム、Builtでデプロイされてるやつも、sleeptime computeを使ってる。

sleeptime computeの最もかっこええ部分は、この学習コンテキストっていう概念やと思う。sleeptime computeをやると、必然的にコンテキストウィンドウがあって、そのコンテキストウィンドウ内にメモリブロックがあるシナリオに終わるんや。それ自体が何百もの推論サイクルの出力みたいなもんや。だから何度も何度もサイクルを計算するのにかかったこのめちゃくちゃ高価な学習コンテキストのセクションを持ってることになる。

それが未来のビジョンやと思うねん。メモリから組み立てられたコンテキストウィンドウを持つエージェントを持つけど、それらのメモリがめちゃくちゃ価値があるのは、そのすげーメモリを生成するのに必要やったのが、たぶん何十年ものchat GPTとの相互作用やったからやねん。

だからメモリがOpenAIやGoogleにロックされるんやなくて、君がコントロールして動かしてダウンロードできるものであることがめちゃくちゃ重要なんや。

Charles、僕はもっと同意できんわ。君がLetaでやっとることにめちゃくちゃエキサイトしてるで。今日参加してくれて、これについて話してくれてありがとう。Letaをチェックしたい人は、leta.comに行ってくれ。

彼らのGitHubプロジェクトもチェックできるで。スターして、フォークして、試してみてくれ。Charles、ほんまにありがとう。また会えてよかったわ。

同じく。ありがとう、Matt。

よし、バイバイ。

ロボティクスのデモ

次に、Figure Roboticsからの新しいデモ動画がある。これはFigure RobotのAI ディレクターCorey Lynchからや。「僕らの完全にシミュレーションからリアルへの強化学習全身制御がかなり安定してきた。」

全然腕を動かしてへんから不格好に見えるけど、めちゃくちゃ困難な地形を歩いてるのが見える。足が少し引っかかって、自分でキャッチして、そんな感じや。

でも今週得られた唯一のロボットデモやなかった。表示してみよう。ちょっと待って。

Boston Dynamicsも非常に信じられへん新しい動画を共有した。ここで共有するわ。音声をオフにさせてもらうわ。

これは彼らのロボット、Atlas、名前を忘れとったけど、Atlas や。このAtlasロボットがめちゃくちゃ信じられへんことをやってる。エンドツーエンド強化学習、エンドツーエンドニューラルネットワークで、リアルタイムでいじくられても、めちゃくちゃかっこええ。人型ロボットは遅かれ早かれ来る感じやな。

僕はまだ家にこれらの一つが欲しいわ。先週、Figure robotが洗濯をかなり成功してるのを得た。今週は困難な地形を歩いてるのがあった。今度はBoston Dynamicsロボットが変化する挑戦的な状況に動的に調整できてる。

だからBoston Dynamicsがめちゃくちゃかっこええデモで来てくれたな。

最後の研究記事

最後にもう一つ、Good Fire AIからの新しい研究投稿がある。「ポスト訓練はしばしば変な望まれへん行動を引き起こして、デプロイメント前に捕まえるのが難しい。なぜなら稀にしか出てきへんけど、困惑したユーザーによって見つけられるからや。どうやって効率的にこれらを見つけられるか？」

彼らはスレッドをまとめた。おそらく論文に基づいて、ポスト訓練中に出てくるかもしれないこれらの稀な問題を見つける方法を、かなり技術的に示してる。これをチェックアウトすることをお勧めするし、説明や下のチャットに落とすで。

Alex、僕らのゲストの準備はできてるか？簡単な紹介をするわ。

最後のゲスト：Alan Louu（Skywork AI）

これは僕らのゲスト、Skywork AIのマルチモーダルディレクターAlan Louや。Alan、ショーへようこそ。

ハイ、調子はどうや、Matt？

ヘイ、Alan。初めまして。今日は参加してくれてありがとう。君らと話すのを楽しみにしてたんや。Matrix gameを見て君らに連絡したんや。

Matrix gameが何かと、なぜSkywork がMatrix gameを構築したかの簡単な説明をしてから、質問がたくさんあるねん。

Google のGenie 3を数週間前に見た人にとって、それは完全制御可能な本質的に世界シミュレーターや。リアルタイムで生成される完全制御可能なビデオゲームのようなものと考えることができる。絶対的に信じられへん。Skywork がSkywork AI でmatrix gameを構築して、それのオープンソース版を出した。

Alan Lou、参加してくれてありがとう。Skyworkが一般的に何をやってるか少し教えてくれ。それからMatrix game構築のインスピレーションについて教えてくれ。

そうやな。僕を呼んでくれてありがとう、Matt。僕の名前はAlan、フルネームは(聞き取り困難)やけどAlanって呼んでくれ。

僕はAI研究者で技術リードで、マルチモーダリティ、ジェネレーティブ音楽、空間知能に焦点を当てとる。現在Skywork AIでマルチモーダルディレクターとして、またMira AIのCTOとして務めとる。

Mattが言うたように、metric gameへの最初のオープンソースでリアルタイム相互作用の世界モデル含めた僕らの主要な成果がある。UniっていうUnified Picture Modelも公開した。画像理解、生成、編集のための統合モデルや。Skywork R1V最先端オープンソースマルチモーダル推論モデルも公開した。

僕らのチームからのたくさんの作業があって、最先端研究と現実世界のアプリケーションの間のギャップを橋渡ししようとしてると信じてる。簡単な紹介や。

ありがとう。なんで今これら全ての世界モデル、制御可能世界モデルが出てくると思う？研究論文があったんか？君らが持ってた何らかの洞察があって、今、今が理にかなっとるんか？

破られた計算制限機能みたいなもんなんか？なんで今なんや？

ああ、素晴らしい質問や。最近のコンピュータービジョンカンファレンスから、以前は主に画像生成と画像編集、あるいは去年でさえビデオのことについてやったけど、今年はもっと3Dと世界モデルについてや。トレンドやと思う。

君が言うたように、計算リソースが爆発的に増えて、以前よりもはるかに効率的やねん。それが一つの理由や。

もう一つは、これまでに業界がたくさんの素晴らしいベース動画生成モデルを発表したと思うねん。世界モデルにとって素晴らしいベースモデルやと思う。この種の素晴らしい動画生成モデルに基づいて、アクションのような追加制御を加えることができるんや。

それに基づいて、基盤として世界モデルを構築できるんや。だからこの2つのことが世界モデルの進歩を実現させたり、加速させたりしたと思うねん。

そうやな。君はそれをmatrix gameと名付けた。これをビデオゲームの未来として見てるんか？エンボディッドAIを訓練する方法として見てるんか？この種の技術の未来について、何が最もエキサイティングや？

ああ、いい質問やな。実際僕はあんまり上手いゲーマーやないけど、暇な時にいくつかゲームをやるねん。

ビデオゲームやゲームのフォーマットの一つになると思う。今のところGenie 3でもMatrix game 2でも、僕にはちょっと退屈やねん。WSDと制御可能な右マウスで歩いたり何かを見たりするだけで、ちょっと退屈や。

だから今のところはゲームやとは思わんけど、将来、たぶん数年後にはもっと楽しくて、完全に相互作用可能な、ユーザー同士やNPCとユーザーの間の相互作用に関係なく構築できるかもしれへん。世界モデルにもっと相互作用を加えたら、もっと面白くなると思うけど、今のところ、この時点では非常に始まりの時や。

僕らは世界モデルと人々との相互作用の概念を提案しただけや。

そうやな。確実に非常に始まりやけど、これは今まででは最悪やって僕はよく言うねん。ここから良くなるだけや。Elon Muskが来年までに完全に生成されるAAAゲームを持つって言うてるのを見たやろう。

明らかに彼のタイムラインは控えめに考えて受け取るべきやけど、君は最前線にいて、これらのものを作ってるから、ほとんどの人よりも良い洞察を持ってる。

来年何が可能やと思う？始めに、僕らが見てることは何や？生成はどれぐらい長くて、どれぐらいの制御が可能で、来年何が可能になると思うか？

うわあ、たくさん質問があるな。

まず、MinecraftやPUBGみたいなオープンワールドFPSゲームみたいな、シンプルなゲームやシンプルなオープンワールドゲームが非常に近い将来に起こるかもしれへん。でもそんなにきれいやなかったり、かなりええゲームみたいなコアコンセプトを持ってへんかもしれんけど、来年にはプレイできるかもしれん。

今のところ拡散ベースの世界モデルにとって、たくさんの制限もある。君が言うたように、メモリによって制限されて、リアルタイムシーンによって制限される。

僕らのモデルで今できるのは、数百から数千フレームをメモリできることで、これは数分を意味するねん。今のところは大きな制限やと思うけど、とにかく僕らはそれを破って、進歩を遂げるで。

それを実現させる2つの方法や2つのメカニズムがあると思う。一つはより良い長いシーケンスモデリングを持つことや。

今のところ僕らは自己回帰拡散モデルや。つまり過去のフレームに基づいて次のフレームを生成するってことや。だからより長いシーケンスがあったら、より長いkキャッシングや長いkキャッシングが必要で、次のステップは僕らが現在取り組んでることでもあるけど、クロスタイム検索や。

それはどういう意味か？MattとAlanが同じ世界モデルに参加するときのようなもんや。僕らは異なる始点で始まるかもしれんけど、時々僕らが戻ってきたとき、世界モデルの一貫性を持つべきや。

だからMattと僕が同じビューを共有するかもしれへん、その時僕らのフィールドオブビューが共有される、つまり重複するとき。僕らはそれをフィールドオブビューって呼んでる。

だから僕らのフィールドオブビューが共有されたり重複したりするとき、次のフレームを生成する条件として僕らのモデルに検索されるべきや。それがメモリをより長く保って、世界モデルで長いシーケンスを実現させるものや。

これを実行するのは極めて計算集約的に見えるけど、オープンソースで、計算、GPU数、GPUサイズの観点で何が必要なんや？誰かがこれを実行するのに必要な最低スペックは何や？

今のところ僕らのモデルは、めちゃくちゃすげーと言えると思う。matrix game 2で18億パラメータや。一つのH100 GPUで実行できるねん。

うわあ。

そうや。実際、それはめちゃくちゃ効率的やねん。

そうやな。でも確実にこのモデルのFPSや解像度をトレードオフしてる。次のステップで、いくつかのティア種のモデルを構築するつもりや。最強のモデルが最高の解像度と最高のFPSを持つけど、訓練と推論にたくさんのGPUがかかることが分かってるような感じや。でもmatrix game 2みたいなものをシェアする、たぶん1GPU推論や低コストデプロイメント種のもの。

そうやな。オープンソースで、オープンウェイトでもあるんか？

そうや。

なんでオープンソース、オープンウェイトに行くことにしたんか教えてくれ。そうしてくれてありがとう、なぜなら他の人が何が起こってるかを知って、自分で実行できるから非常に役立つねん。でもその決定、なんでそこに行ったんや？

そうやな、このモデルだけやなくて、最初からこの会社のDNAの一部としてオープンソースがある。約2年前にこの会社に入ったときから、この種のモデル、データセットとトークンの両方をシェアすることで、実際に研究者の障壁を下げて、イノベーションをより速くしたいねん。

信頼についてでもあるねん。このモデルだけやなく他のモデルについても、実際にたくさんの多様なフィードバックを得て、技術周辺のコミュニティを育成してるねん。

オープンソースのコア研究コンポーネントとその上にプロダクトを構築するアプローチや。両方が研究に利益をもたらすし、僕らのビジネスモデルをより速く反復させ続けるって思うねん。

そうやな。Matrix Game 2をリリースしたばかりやけど、Matrix Game 3について前向きに考えるとき、コミュニティから聞いてる改善点は何や？内部的にエキサイトしてる改善点は何や？

そうやな、正直言って、たくさんある。僕らはたぶんMatrix Game 4種のものにもう取り組んでるかもしれんけど、集中して反復すべきことがたくさんある、半年か1年かかるようなものもあるから、僕はそれをMatrix Game 4って呼んでる。

でも確定的やないけど、たぶん5か4か。最近のバージョン、Matrix Game 4では、より大きなモデル、より高い解像度、より良いFPS、ユーザーにとってより処理制御可能にするつもりや。

今のところWSDして行くだけで、ゲームみたいやないやろ？だからユーザーとのより制御可能な相互作用を導入しようとしてる。でも将来的には、マルチユーザー相互作用を導入したいねん。それを僕らはゲームや世界モデルって呼んでる。世界は君だけやない。ユーザーと相互作用せなあかんし、世界と相互作用せなあかん。

それが一つ。もう一つは、マルチモーダリティの観点で、世界モデルと相互作用するとき、スピーチが非常に重要な橋になると思うねん。

ゲームをプレイするとき、両手がキーボードとマウスで占領されてるから、ほとんどの時間、実際にはボイス、スピーチでユーザーと相互作用するねん。

だから遠い将来やなくて、それほど遠くない、NPCとの間、ユーザー間でもスピーチ相互作用をするべきやと思う。ボイス相互作用ができるんや。「おお、Mattが小屋をここにくれ」とか「Mattの小屋の隣に木を植える」って言うような感じや。それが相互作用的世界やろうな。

そうやな、めちゃくちゃかっこええ。そこで君が言及した2つのこと。マルチプレイヤーについて話したな。

単一のモデルインスタンスが複数の人のためにスピンアップされて、同じモデルと相互作用するんか、それとも複製されるんか？複数の人が同じモデルからの生成と相互作用し始めたときのアーキテクチャがどんな感じかを教えてくれ。シェアできる範囲で。

コアモデルはテーマであるべきやと思うねん。実際僕らは同じコアモデルをシェアしてる。でも前に言うたように、僕らが同じテーマの世界モデルをシェアするとき、僕らがある重複を持つとき、一貫性を保つ必要があるねん。

本当に大きな世界モデルを持って、マルチユーザーがその中にいるようなもんや。最初は、僕らが異なるモデルを持って世界モデル種のものを影響させたり探索したりするのは大丈夫や。でも一部の人が会ったり、時々重複ビューを持ったりするとき、一貫性を保つべきや。

マルチユーザー世界モデルについてそんなに複雑なことやないと思うけど、対処せなあかん難しいこともあるやろうな。

そうやな。それから君が言及したもう一つのこと、あるいは僕が考えてるのは、これを実際のビデオゲームにするには持続性が必要やろってことや。毎回新しく生成されるんやなくて。

メモリについてどう考える？コアモデルから生成されるこれらの世界の持続性についてどう考える？それは君が考えてることか？

この質問について考えさせてくれ。

正直言って、将来新しく生成される方がええかもしれんと思う。君の考えはどうや？だから計算効率的な計算リソース効率があって、将来より良いモデル推論があるなら、フレームごとに新しく生成されるのが大丈夫やと思うけど、確実にメモリのために履歴データを蓄積し続けて、モデル訓練に大きな助けになると思う。

僕が本当に聞きたいのは、プレイヤーやと想像してくれ。この世界に飛び込んで、30分プレイして、明日戻ってきたいとき、世界で起こった全てのこと、君が言うた小屋、他のプレイヤーとの相互作用、それら全部がゲームを通して持続せなあかん。

でも新しく生成されるとしても、それでもうまくいく可能性はあるけど、ゲームで起こった全てのことの歴史や何らかのメモリが必要や。どう考える？

そうや、すまん誤解してた。全部について完全に生成されるんやなくて。君が再開するときに履歴フレームをメモリに保持して、また戻ってきたときに履歴フレームを使って新しいフレームを生成できるような感じや。つまり起きたり眠ったり、再開したり、このモデルをプレイし続けたりみたいなもんや、それは大丈夫やと思う。

だから履歴的なものが君の世界モデルメモリになるけど、他の人についてやなくて、君についてだけやねん。

そうやな。会社の観点から、Skyworkはこれを実際のゲームとして提供することを考えてるんか、それとも君らが念頭に置いてる将来のプロジェクトのための研究なんか？この種の研究でSkyworkを戦略的にどう位置づけてるんや？

このプロジェクトについては、僕らの長期ビジョンは相互作用AI システムとプロダクトを構築することや。ゲームについてだけやなくて、現実世界の意味のあることにもなると思う。

農民訓練は非常に危険で非常に高コストやけど、世界モデルは環境をより良くシミュレートして、訓練を助けることができるんや。それは非常に意味があると思う。

ゲームに関しては、例えば、僕らは既にリアルタイム世界生成とエージェント相互作用を見せてるねん。次のステップはプレイヤードリブンエクスペリエンスに変えて、スケーラブルでコスト効率的にしようとすることや。

だから今僕らは推論コストを下げて、長いシーケンス生成とより一貫性を作ることに集中してるねん。

だからもしゲームをプレイして、何百万のユーザーをサポートしたいなら、それら全部が非常に重要やねん。でも言うたように、非常に早い段階で、研究プロトタイプから相互作用現象に移ってるところやけどな。

そうやな。Skywork AIをゲーム会社として、あるいは再び、どうSkywork AIを説明するんや？

そうやな、Skywork AI。Matrix gameは僕らの研究プロジェクトの一部やねん。実際Skywork AIには3つのプロダクトがあるんや。

一つはSkywork AIって呼ばれて、今年初めに公開した。AI 生産性スイートやねん。それはスーパーエージェントやねん。ドキュメント生成、スライス生成、ウェブサイト生成さえできるんや。

スーパーエージェントで、僕はMira AIでCTOとして務めてる、音楽生成・編集プラットフォームや。Sky Rios AIはAI 音楽、AI 動画生成・作成に集中してるねん。

だからこの3つのプロダクト全部が僕らの会社のビジネスモデルで、実際に同じコアを共有してるねん。ユーザーの作成障壁を下げて、最先端研究を現実世界のアプリケーションに橋渡しして、ユーザーがかっこええ作成をするのを助けることやねん。

番組終了

すげーな。Alan、今日参加してくれて、これら全部について教えてくれてほんまにありがとう。Matrix gameを見て、絶対的に圧倒された、特に技術的に自分のマシンでオフラインで実際にダウンロードして実行できるもんやから。めちゃくちゃかっこええ。

Alanをチェックしたい、Skyworkをチェックしたい人は、Skywork AIとMira AIをチェックしてくれ。Matrix Gameをチェックしたい人は、Hugging Faceに行って、Matrix Game 2.0を得られるで。GitHubでもチェックできる。

Alan、今日参加してくれて本当にありがとう。感謝しとるわ。

こちらこそ呼んでくれてありがとう。ありがとう。

それが僕らの番組やった。ゲストのARC PrizeのGreg Cameron、LetaのCharles Packer、Skywork AIのAlan Louに感謝したいねん。

もしまだ僕らのニュースレターを購読してへんかったら、ぜひしてくれ。Forward future.aiが僕らのニュースレターや。すげーニュースまとめがあるし、異なるAIトピックを深く掘り下げるオリジナル記事もあるねん。

毎週金曜日に参加してくれ。来週の金曜日もここにおるで。みんな、ありがとう。残念やけどNickは技術的な問題を解決できへんかったけど、次回はまた参加してくれるやろう。参加してくれたみんな、ありがとう。