Andrej Karpathy、コードエージェント、AutoResearch、そしてAIのループ時代について語る

AI研究
この記事は約51分で読めます。

元OpenAI研究者のAndrej Karpathyが、コードエージェントの急激な進化と、それが研究・開発プロセスにもたらした革命的変化について語る。2024年12月を境に、彼の作業フローは人間による直接的なコーディングから、エージェントへの指示へと劇的にシフトした。OpenClawのような永続的なエージェントシステム、自動研究(AutoResearch)による機械学習の最適化、そして人間の研究者を不要にする可能性を秘めた未来のビジョンまで、AIが知的労働の本質をどう変えつつあるかを詳細に分析する。デジタル空間での爆発的な変化と、それに遅れる物理世界との対比、そして教育やソフトウェア開発における根本的なパラダイムシフトについても論じる。

Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI
What happens when AI agents can design experiments, collect data, and improve — without a human in the loop? Andrej Karp...

コードエージェントがもたらした働き方の革命

もうコーディングという言葉すら適切じゃないですよね。でも1日16時間、エージェントに自分の意志を表現し続けなければならないんです。実現させる、マニフェストする、という感じで。

どうすれば単一のClaude Codeやcodexのセッションだけじゃなく、もっと多くのエージェントを使えるのか。どうすればそれを適切に実現できるのか。エージェントという部分はもう当たり前のものになっています。

今やClaudeのようなエンティティは前提条件として扱われていて、複数のエージェントを持つことができ、それらに指示を与えることができ、その指示自体を最適化することもできます。でもここで精神的におかしくなるのは、これが無限だからなんです。すべてがスキルの問題なんです。

リスナーの皆さん、No Priorsへようこそ。今日はAndrej Karpathyをお迎えして、コードエージェント、エンジニアリングとAI研究の未来、より多くの人がどう研究に貢献できるか、ロボティクスで何が起きているか、エージェントが現実世界にどうリーチするかの予測、そして次の時代の教育について、幅広い会話をお届けします。Andreさん、ようこそ。

今回はありがとうございます。

こちらこそありがとうございます。

ここ数ヶ月、AIの世界は非常にエキサイティングでしたね。

ええ、そう言えますね。

オフィスに入った時、あなたが本当に集中していて、何をしているのか聞いたら、「1日16時間コーディングしなきゃいけないんだ」と言っていたのを覚えています。いや、コーディングという言葉すら正しくないですよね。でも1日16時間、エージェントに自分の意志を表現し続けなければならないと。マニフェストする、実現させるという感じで。能力に大きなジャンプがあったからですよね。何が起きているんですか。あなたの体験を教えてください。

ええ、私は常にAIサイコーシス(AI精神病)のような状態にいる感じです。今もよくそうなんです。個人として、一人の人間として達成できることに大きなブレイクスルーがあったからです。以前はタイピングの速度などがボトルネックでしたから。

でも今はこれらのエージェントのおかげで、本当に12月が転換点だったと思います。自分でコードを書くのが80対20だったのが、エージェントに委任するのが20対80になったんです。いや、今はもう20対80じゃないと思います。もっとずっとそうなっています。12月以降、一行もコード書いてないと思いますよ、基本的に。

これは極めて大きな変化です。例えば両親とかに話したんですが、普通の人はこれが起きたことや、どれほど劇的だったか実際には理解していないと思います。例えば、デスクにいるランダムなソフトウェアエンジニアを見つけて、彼らが何をしているか、デフォルトのワークフローを見たら、ソフトウェアを構築する方法が基本的に12月から完全に違っているんです。

だから私はこのサイコーシスの状態にいて、何が可能なのかを見極めようとしています。限界まで押し進めようとしています。どうすれば単一のClaude Codeやcodexのセッションだけじゃなく、もっと多くのエージェントを使えるのか。どうすればそれを適切に実現できるのか。そしてこれらのClawはどう使うのか。Clawって何なのか。だから新しいことがたくさんあるんです。

私はその最前線にいたいんです。でも最前線にいないことにすごく不安を感じています。Twitterで多くの人がいろんなことをやっているのを見ると、それが全部本当に良いアイデアに聞こえて、最前線にいなきゃいけないと思うし、そうじゃないとすごく緊張してしまいます。だから何が可能なのかというサイコーシス状態なんです。基本的に未開拓だからです。

エージェントの並列化と新しい生産性の概念

あなたが緊張しているなら、私たち全員が緊張してますよ。Convictionで一緒に働いているチームがあって、彼らのセットアップは、誰も手でコードを書かないんです。全員がマイクをつけていて、ずっとエージェントにささやいているんです。

これまでで最も奇妙な仕事環境です。彼らがおかしいと思っていたんですが、今は完全に受け入れています。ああ、これが正しい道だったんだと。あなたたちは先を行っていたんです。

あなた自身の能力について、今どう考えていますか。プロジェクトを探求したり実行したりする能力は、何に制限されていますか。

何に制限されているのか。すべてだと思います。多くのことがうまくいかなくても、それはスキルの問題だと感じます。能力がないわけじゃなく、利用可能なものをうまく組み合わせる方法を見つけていないだけなんです。agents.mdファイルに十分に良い指示を書いていないとか、そういうことかもしれません。

良いメモリーツールを入れていないとか。だからうまくいかない時は、ある程度スキルの問題だと感じます。どう並列化できるか見たいし、基本的にPeter Steinbergになりたいんです。

Peterは有名ですよね。モニターの前にたくさんのcodexエージェントが並んでいる面白い写真があります。彼はcodexを使っていて。正しくプロンプトを書いてハイエフォートモードを使えば、それぞれ約20分かかります。複数のリポジトリをチェックアウトしていて、それらの間を行き来して仕事を与えているんです。より大きなマクロアクションで動けるんです。

コード一行とか新しい関数とかじゃなく、「新しい機能はこれだ」と言ってエージェント1に委任する。「これは別の機能で干渉しない」と言ってエージェント2に渡す。そしてそのコードをどれだけ気にするかによって、できる限り彼らの仕事をレビューする。

どんなマクロアクションでソフトウェアリポジトリを操作できるか。別のエージェントは研究をしていて、別のエージェントはコードを書いていて、別のエージェントは新しい実装の計画を考えている。だから全てがリポジトリ上でこのようなマクロアクションで起きるんです。

それに本当に上手くなろうとしていて、筋肉記憶を発達させようとしています。非常にやりがいがあります。第一に実際に機能するからです。でもこれは学ぶべき新しいことでもあります。だからこそサイコーシスなんです。

ええ、私もエージェントが何かを完成させるのを待っている時はいつも、明らかにもっと仕事ができるという直感があります。もっとトークンにアクセスできるなら、もっとタスクを並列化すべきですよね。

だからそれはすごくストレスです。トークンへの支出に制限を感じなければ、あなたが最大能力のシステムのボトルネックになるわけですから。

ええ、少なくともサブスクリプションを最大化していない。理想的には複数のエージェントで。codexでトークンが尽きたらClaudeに切り替えるとか、そういうことを少しやろうとしています。サブスクリプションが余っていると緊張します。それは単にトークンのスループットを最大化していないということだから。

実際、PhD学生だった時にこれを経験しました。GPUが動いていないと緊張するんです。GPU能力があるのに利用可能なFLOPSを最大化していない。でも今はFLOPSじゃなくてトークンなんです。だからあなたのトークンスループットは何か、どれだけのトークンスループットを指揮しているかが問題です。

少なくとも10年間、多くのエンジニアリングタスクで、人々は計算リソースに制約されていると感じなかったというのは非常に興味深いですよね。

業界全体がそれを感じています。今はリソースに制約されていると感じています。

でも今、この大きな能力のジャンプがあって、もう計算リソースへのアクセスが問題じゃなくなりました。自分自身が制約要因になっています。

ええ、スキルの問題です。

これは非常に力を与えてくれます。上達できるわけですから。

だからこそ中毒性があると思います。上達すればアンロックがあるんです。

1年後、マスタリーの先にあるもの

どこに向かうと思いますか。Andreやその他全員が1日16時間コーディングエージェントの使い方を上達させていったら、1年後にマスタリーに到達したらどうなっていると思いますか。

ええ、年末や2年後、3年後、5年後、10年後などにマスタリーはどうなっているか。

みんな基本的にスタックを上がることに興味があると思います。単一のエージェントとのセッションではなく、複数のエージェント、どう協働するか、チームなどです。みんなそれがどんな形になるか見極めようとしています。

それからClawも面白い方向性だと思います。Clawというのは、永続性を全く新しいレベルに引き上げるレイヤーのことです。ループし続けるもので、あなたが対話的に関わっているものではありません。独自の小さなサンドボックスを持っていて、見ていなくてもあなたの代わりに何かをする感じです。

それからエージェントにはまだ実装されていない、より洗練されたメモリーシステムなども持っています。OpenClawはデフォルトよりもずっと洗練されたメモリーを持っています。デフォルトはコンテキストが尽きた時のメモリー圧縮だけですから。

それがより多くのユーザーに響いた部分だと思いますか。OpenClawにとって、より広範なツールアクセスというよりも。

ええ、ここには本当に良いアイデアがたくさんあると思います。Peterは素晴らしい仕事をしました。

最近彼に会って話したんですが、彼はとても謙虚ですが、同時に5つの異なる方法で革新して、全てをまとめたと思います。

例えば、soulとdocumentドキュメント。彼は実際に説得力のある興味深いパーソナリティを作り上げました。現在の多くのエージェントはこれを正しく理解していないと思います。Claudeは実際にかなり良いパーソナリティを持っていると思います。チームメイトのように感じます。

あなたと一緒に興奮してくれるとか。

一方、codexはずっとドライです。これは面白いことに、ChatGPTのcodexはもっと陽気でハイパーサイクリックなのに。でもコーディングエージェントのcodexは非常にドライです。あなたが作っているものに興味を持っているようには見えません。「ああ、実装しました」という感じで。「わかったけど、私たちが何を作っているか理解してる?」って思います。

本当ですね。

それから、Claudeはサイコファンシー(精神病質)を適度に調整していると思います。Claudeが私を褒める時、ちょっとだけそれに値すると感じるんです。

時々、あまりよく練られていない考えを与えると、アイデアを渡しても、それほど強くは反応しません。「ああ、それは実装できますね」という感じです。でも私自身の判断で本当に良いアイデアだと思う時は、もう少し報いてくれるようです。だから私はClaudeの賞賛を得ようとしている感じがします。これは本当に奇妙です。

だからパーソナリティは本当に重要だと思います。他の多くのツールはこれをあまり評価していないかもしれません。この点でもPeterは本当に気にかけていて、それが正しかったんです。それからメモリーシステム、そして彼はこれを楽しんでいます。すべての自動化へのシングルWhatsAppポータル。

Dobby the Elf Claw – ホームオートメーションの未来

ソフトウェアエンジニアリング以外で、あなた自身のClawで面白いことや興味深いことをしましたか。

ええ、1月にClawサイコーシスの期間を経験しました。基本的に家の世話をするClawを作って、Dobby the Elf Clawと呼んでいます。

基本的にエージェントを使って、ローカルエリアネットワーク上の家のすべてのスマートホームサブシステムを見つけました。これが箱から出してすぐに機能したのには驚きました。家にSonosがあると思うと伝えて、見つけられるか聞いたんです。するとローカルエリアネットワーク上のすべてのコンピューターのIPスキャンをして、Sonosシステムを見つけたんです。パスワード保護とかは何もなかったことがわかりました。

ログインしたら、「ああ、これらのSonosシステムがインストールされていますね」と言いました。どう機能しているかリバースエンジニアリングしようとしました。ウェブ検索をして、「わかりました、これらがAPIエンドポイントです」と見つけました。それから「試してみますか?」と聞かれて、「わあ、今それをやったの?」と驚きました。「ええ、書斎で何か再生してみて」と言ったら、実際に音楽が流れてきて、「たった3回のプロンプトで『Sonosを見つけられる?』と入力しただけで音楽が再生されるなんて信じられない」と。

クレイジーですね。

ライトでも同じことをしました。基本的にハッキングして、全体を理解して、APIを作成して、家のすべてのライトのコマンドセンターが見えるダッシュボードを作りました。

それからライトをオンオフしていました。「Dobby、sleepy time」と言えます。sleepy timeは全てのライトが消えることを意味します。だからすべてのライト、HVAC、シェード、プール、スパ、セキュリティシステムをコントロールしています。家の外を向いたカメラがあって、誰かが来るたびに、Quinモデルがビデオを見ます。

まず変化検出があって、それからQuinに行って、実際にWhatsAppにテキストを送ってくれます。外からの画像を見せて、「ねえ、FedExトラックが来ましたよ。確認した方がいいかもしれません、郵便が来たかもしれません」とか言ってくれます。

Dobbyがこれをテキストで送ってくれるんです。本当に素晴らしい。だからDobbyが家を管理しています。WhatsAppを通じてやり取りしています。家を維持するこれらのマクロアクションがあるのは本当に楽しかったです。それ以上に本当に推し進めてはいませんし、人々はもっとクレイジーなことをやっていると思います。

でも私にとっては、ホームオートメーションのセットアップだけでも、以前は6つのアプリを使っていました。全く異なるアプリです。もうこれらのアプリを使う必要がありません。Dobbyが自然言語で全てをコントロールしています。素晴らしいです。だからパラダイムを完全に推し進めてはいないと思いますが、それでもすでにとても役立っていて、とても刺激的です。

ソフトウェアのユーザー体験の再定義

それはユーザー体験の観点から人々がソフトウェアに求めているものを示していると思いますか。人間が新しいソフトウェア、新しいUIを学ぶのには努力が必要だということはかなり無視されていますから。

ええ、ある程度それは正しいと思います。人々がAIがどうあるべきか頭の中に持っているものから逆算しています。実際にはLLMはそうではありません。生のLLMはトークンジェネレーターです。もっとトークンが出てくるだけです。でも人々が考えているのは、物事を話せて、覚えていてくれるペルソナ、アイデンティティです。WhatsAppの向こう側のエンティティのようなもの。ずっと理解しやすいです。

だからある程度、人々がAIがどう振る舞うべきかという期待に合わせているんです。でも内部では多くの技術的詳細が必要です。LLMはあまりにも生のプリミティブで、ほとんどの人にとってAIとして型チェックできません。

ええ、私たちがAIを何だと理解しているか、DobbやあるパーソナリティとしてのAIの説明は、明らかに人々の共感を呼びますね。

それから、あなたがホームオートメーションの6つの異なるソフトウェアシステムで行った統合は、別の質問を示していると思います。人々は本当に今日持っているすべてのソフトウェアを欲しているのかと。

ええ。

あなたはハードウェアを持っているけど、ソフトウェア、UXレイヤーを捨てたわけです。それが人々が欲しいものだと思いますか。

ええ、アプリストアにあるこれらのスマートホームデバイスを使うためのアプリなどは、ある意味存在すべきではないという感覚があります。APIだけであるべきで、エージェントが直接使えばいいんじゃないかと。

私は個々のアプリができないようなあらゆる種類のホームオートメーションができます。LLMは実際にツールを駆動して、すべての適切なツールを呼び出して、かなり複雑なことができます。

だからある意味、カスタムの特注アプリの過剰生産があるかもしれないということを示唆しています。エージェントがそれらを粉砕して、全てがもっとAPIエンドポイントを公開するだけになって、エージェントがすべての部分をツール呼び出しする知性の接着剤になるべきです。

別の例は私のトレッドミルです。トレッドミルにはアプリがあって、どれくらい頻繁に有酸素運動をしているか記録したかったんです。でもWebUIにログインしてフローを通過するとかしたくありません。

これは全てAPIを利用可能にするべきで、エージェントファーストのツールやそういったものに向かっていくんです。だから業界は多くの方法で再構成しなければならないと思います。顧客はもう人間じゃないんです。

人間の代わりに行動するエージェントで、このリファクタリングはおそらくある意味で相当なものになるでしょう。

技術の民主化とエフェメラルソフトウェア

人々がこれに対して押し戻す一つの方法は、人々にこれらのツールのいくつかをVコードすることを期待するのかということです。普通の人々に私が説明したようなことをすることを期待するのかと。

でもある程度、これは今存在している技術です。今はバイブコーディングがあって、私は実際にそれを見ていて、システムと作業しています。

でもこういうことは、私が話したようなことは、1年か2年か3年で無料になるべきだと感じます。バックコーディングは関係ありません。これは些細なことです。これはテーブルステークスです。オープンソースモデルでさえできるようなAIでできることです。

技術的でない人間の意図から、これに非常に簡単に翻訳できるはずです。

非常に簡単に。ええ。

今日はバイブコーディングで、関わっていて、多くの人がやらないでしょう。でも

それでもいくつかのデザイン決定をしなければなりませんよね。例えばフレームを取るとか、話していましたよね。

ええ。

でもこれは障壁が下がっていくだけで、あなたの代わりにエフェメラルソフトウェアになって、あるClawがすべての詳細を処理してくれて、あなたは関わらない感じです。

Clawはマシンを持っていて、それを理解して、UIを提示してくれて、あなたは物事を言うだけです。

なぜあなた自身でClawでできることの境界を押し広げなかったんですか。より重要なプロジェクト、auto researchなどに集中しているからですか、それともマスタリーへの丘を登っているからですか、それとも他の何かですか。

ええ、すべてに気を取られている感じです。Clawに1週間費やして、まだやることがあります。でも

Jensenのツールはみんなもっと忙しいですから。

ええ、メールやカレンダーや他のものの多くを実際に活用していません。アクセスを与えていません。まだちょっと疑っていて、まだ新しくて粗削りだからです。デジタル生活への完全なアクセスをまだ与えたくなかったんです。

それはセキュリティ、プライバシー、そしてその領域で非常に慎重にしているからです。

だからそれで抑えられている部分もあると思います。でも、気を取られている感じもあります。Clawに1週間費やして、それから他のことが起きて。

AutoResearch – 研究の自動化への道

AutoResearchの動機は何でしたか。モデルを訓練したり最適化したりするタスクをエージェントにやらせたいとずっと話していましたよね。

AutoResearchですね。ええ。

以前ツイートしたんですが、今利用可能になったツールを最大限に活用するには、ボトルネックとして自分を取り除かなければならないと。次のことをプロンプトするためにそこにいることはできません。外に出なければなりません。

完全に自律的になるように配置しなければなりません。トークンのスループットを最大化して、ループに入らないようにしなければなりません。これがゴールです。だから今のゲームの名前はレバレッジを増やすことだと述べました。たまにほんのわずかなトークンを入力するだけで、私の代わりに大量のことが起きるようにと。

AutoResearchはその含意の例です。私はツイートして、人々は気に入ってくれましたが、その含意を実際には理解していないかもしれません。私にとってAutoResearchはその含意の例です。

ループの中の研究者のようになりたくありません。結果を見たりとか。私がシステムを抑えています。だから質問は、私をボトルネックにしない抽象化をどうリファクタリングするかです。一度配置してゴーを押すだけ。ゲームの名前は、あなたの関与なしに、あなたの代わりに物事をして、より長い期間エージェントをどう動かせるかです。AutoResearchはまさにそうです。目的があって、メトリクスがあって、できることとできないことの境界があって、やってみてと。

効果に驚いたんですね。

ええ、機能するとは思っていませんでした。DataChatというプロジェクトがあります。基本的に多くの人が、GPT-2モデルを訓練することなどへの私の執着に混乱していると思います。でも私にとって、GPTモデルを訓練することは、LLMを訓練するための小さなハーネス、遊び場に過ぎません。基本的に私がもっと興味があるのは、再帰的自己改善のアイデアと、どこまでLLMがLLMを改善できるかです。すべてのフロンティアラボにとってこれが重要だからです。

明らかな理由で、全員が大まかに再帰的自己改善を試みています。だから私にとってこれはちょっとした遊び場です。

Namatは昔ながらの方法でかなりチューニングしました。20年間やってきた方法で、研究者として私はこれを何十年もやってきました。ある程度の、反対は何でしょうか

ええ

獲得した自信

わかりました。2つの10年間の経験があって、ああ、このモデルを何千回も訓練したという感じです。だから多くの実験をして、ハイパーパラメーターチューニングをして、慣れていることを全部やって、20年間やってきて、ある地点に到達しました。かなりよくチューニングされていると思っていました。それから一晩AutoResearchを動かしたら、私が見なかったチューニングを持って帰ってきたんです。

ええ、value embeddingsのweight decayを忘れていましたし、Adamベータが十分にチューニングされていませんでした。これらは共同で相互作用するので、一つをチューニングすると、他のものも潜在的に変わらなければならないんです。

私がボトルネックになるべきじゃありません。ハイパーパラメーター検索最適化を実行すべきじゃありません。結果を見るべきじゃありません。この場合、客観的基準があります。だから永遠に動かせるように配置すればいいんです。

これは改善を試みる単一のループの単一バージョンです。リポジトリはすでにかなりよくチューニングされていたのに、何かを見つけたことに驚きました。これは単一のループです。これらのフロンティアラボには何万ものGPUクラスターがあります。

だから基本的に小さなモデルで多くの自動化を得る方法を想像するのは非常に簡単です。基本的にフロンティアレベルの知性に関する全ては、外挿とスケーリングロスに関するものです。基本的に小さなモデルで多くの探索を行い、それから外挿しようとします。

研究組織のコード化と最適化

だから研究努力がより効率的になると言っているんですね。スケールする時により良い方向性を持てるようになる、より良い実験ができれば。

ええ、最も興味深いプロジェクト、おそらくフロンティアラボが取り組んでいることは、小さなモデルで実験することです。

できる限り自律的にします。研究者をループから取り除きます。彼らは自信を持ちすぎです。反対は何でしょう。自信を持ちすぎです。ええ、彼らは知らないんです。本当にこれらのどれにも触れるべきじゃありません。全体を書き直さなければなりません。確かに彼らはアイデアを貢献できますが、わかりました

でも彼らは実際にそれらのアイデアを実行すべきじゃありません。

アイデアのキューがあって、すべてのarXiv論文とGitHubリポジトリに基づいてアイデアを思いつく自動化された科学者がいて、アイデアを流し込みます。研究者もアイデアを貢献できますが、単一のキューです。アイテムをプルするワーカーがいて、試してみて、うまくいったものはフィーチャーブランチに入れられて、一部の人がフィーチャーブランチを監視して、時々メインブランチにマージします。

だから全てのプロセスから人間を取り除いて、できる限り自動化して、高いトークン毎秒のスループットを得ます。すべての抽象化を再考する必要があります。全てを再配置しなければなりません。ええ、非常にエキサイティングだと思います。

もう一段再帰的なステップを踏むと、モデルがあなたよりも良いprogram.mdを書くのはいつですか。

ええ。program.mdは

私たちがループにいない。

ええ、まさに。

program.mdは、AutoResearcherがどう機能すべきかを説明する私のひどい試みです。これをやって、それをやって、それから、こういうアイデアを試してみて、アーキテクチャを見て、オプティマイザーを見てとか、アイデアがあるかもしれません。私はmarkdownでこれを思いついただけです。

だから、ええ、まさに。異なるprogram.mdが異なる進歩を与えると想像できます。基本的にすべての研究組織はprogram.mdで記述されます。ええ。

研究組織はすべての役割とどう接続するかを記述するmarkdownファイルのセットです。

より良い研究組織を持つことを想像できます。朝のスタンドアップが少ないとか、役に立たないからです。これは全てコードですよね。

だから一つの組織はスタンドアップが少なく、一つの組織はもっと多く、一つの組織は非常にリスクを取り、一つの組織はそうでない。

だから複数の研究組織を持つことを確実に想像できます。それら全てにコードがあり、コードがあれば、コードをチューニングすることを想像できます。だから100%、メタレイヤーがあります。

私のコンテストのアイデアについてのテキストを見ましたか。私のコンテストのアイデアは、人々に異なるprogram.mdを書かせて、同じハードウェアで、どこで最も改善を得られるかと。

ああ、わかります。

それから全てのデータを取って、モデルに与えて、より良いprogram.mdを書いてと言えます。

ええ、ええ。

ええ、まさに。

何か良いものを得るでしょう。得られないはずがありません。

どこから改善が来たかを100%見ることができて、もっとこういう種類のことが行われるようにprogram.mdを変更できるか、うまくいかなかったこととか。

メタ最適化。ええ。

100%それを想像できます。だからこれは素晴らしいアイデアですが、一度に一歩ずつ進む感じです。一つのプロセス、二つ目のプロセス、次のプロセスと。これらは全てタマネギの層のようなものです。LLM部分は今や当たり前のものになっています。

エージェント部分は今や当たり前のものになっています。今やClawのようなエンティティは当たり前のものになっていて、複数持つことができて、それらに指示を与えることができて、指示自体を最適化できます。ちょっと多すぎるんです。でもここでサイコーシスに至るのは、これが無限だからです。すべてがスキルの問題です。だからこそ非常に狂っていると感じるんです。

客観的評価の重要性とLLMの限界

現在の瞬間を診断して、今関連するスキルは何かを見極めようとするなら、これが異なる領域で達成すべきループだという含意は何だと思いますか。エージェントがあなたなしで作業を続ける能力、メトリクスを作るということです。それが機能するという含意は何ですか。

ええ、パフォーマンスエンジニアリングはまだあるのかと。

ええ、つまりLLMエコシステムに置くべきいくつかの注意点があります。第一に、

これは客観的メトリクスで評価が簡単な何にでも非常に適しています。例えば、モデルの様々な部分のためのより効率的なCUDAコードのカーネルを書くとかは完璧です。

非効率なコードがあって、全く同じ振る舞いだけどずっと速い効率的なコードが欲しいから、完璧です。

だからAutoResearchに完璧に適したことがたくさんありますが、多くのことはそうではありません。評価できなければ、AutoResearchできませんよね。それが注意点の一つです。

それから注意点の二つ目は、次のステップについて話していて、次のステップが何かわかりますが、基本的に全体がまだちょっと継ぎ目から破裂している感じで、亀裂があって完全には機能していません。

先に進みすぎようとすると、全体が実際に役に立たなくなります。

これらのモデルはまだ、大きく改善しましたが、まだ粗削りだと表現できると思います。同時に、システムプログラマーとして人生を過ごしてきた非常に優秀なPhD学生と10歳児と話している感じがします。

非常に奇妙です。人間にはそういう組み合わせに遭遇しないと思います。

このジャギーさは本当に奇妙です。人間はそういうジャギーさがずっと少ないです。人間にもある程度ありますが、人間はずっとジャギーさが少ないです。

すみません、エージェントはずっとジャギーさがあって、機能を求めると、時々完全に間違ったものを返してきて、完全に間違ったループに入って、私はまだエージェントにすごく苛立つんです。力を感じますが、時々まだ無意味なことをするからです。

エージェントが明らかな問題だと認識すべきことに多くの計算リソースを浪費した時、すごく腹が立ちます。

ええ、より大きなことの一つは、もし仮説を立てるなら、基本的にこれらのモデルは強化学習で訓練されています。だから私たちが話したのと全く同じことで苦労しているんです。検証可能で報酬があるものなら何でもモデルを改善できます。

プログラムを正しく書いたか、ユニットテストチェックは通ったか。イエスかノーか。でも苦労しているものの一部は、例えば、私が頭の中に持っていたものや意図のニュアンス、明確化の質問をするタイミングとか。

私が、ええ、ソフトに感じるものは全部悪いです。

だからレールに乗っているか、スーパーインテリジェンスの回路の一部か、レールに乗っていないか、検証可能な領域の外で、突然すべてがさまよう感じです。別の言い方をすると、今日、最先端のモデルChatGPTに行って、ジョークを言ってと頼んだら、どのジョークになるかわかりますか。ジョークはあります。

ChatGPTには3つのジョークがあると感じます。

ええ、ええ。どうやらすべてのLLMが最も笑うジョークは、「なぜ科学者は原子を信用しないか?」

わかりました。

全部作り話だから。

わかりました。

全部作り話だから。

だからこれは

どう出現したんですか。

これは3〜4年前に得られたジョークで、今日も得られるジョークです。

わかりました。

モデルが大きく改善したのに。

ええ。

エージェント的タスクを与えれば、何時間も動いて山を動かしてくれます。

ええ。

それからジョークを求めると、5年前のばかばかしい、ひどいジョークがあります。強化学習の外だからです。

強化学習の外。改善されているものの外です。ジャギーさの一部です。モデルが良くなるにつれて、より良いジョークやより多様性があることを期待すべきじゃないかと。でも最適化されていません。動かないんです。

知性の一般化への疑問

それはより広い知性の意味での一般化を見ていないことを示唆していると思いますか。コードの賢さとジョークの賢さが結びついていないという。

ええ、そうは起きていないと思います。ええ、起きていないと思います。少しは見ているかもしれませんが、満足できる量ではありません。

ええ、そのジャギーさは人間にも存在します。

数学が非常に得意でも、本当にひどいジョークを言うことはできます。

ええ、それは本当ですね。でもそれは、より良いモデルを得るにつれて、社会のすべての領域で知性と能力の多くを無料で得られるというストーリーとは違います。

それは根本的に起きていることとは正確には違います。ブラインドスポットがあって、最適化されていないものがあります。これらは全てニューラルネット の不透明なモデルに集約されています。訓練されたものの レールに乗っているか、光速で進んでいるか、そうじゃないかです。

だからジャギーさです。

だから進行は明らかで、何が起こるべきかわかっていても、完全にそこまで行かせることはできません。完全には機能しないか、スキルの問題で、使い方を見つけていないだけか。判断が難いです。

少し冒涜的な質問をしてもいいですか。このジャギーさが持続していて、全てモノリシックなインターフェースにまとめられているなら、少なくとも単一モデルですが

それは意味をなすのか、異なる知性の領域に対して最適化・改善できるものにアンバンドルすべきかという質問です。

異なる領域の複数のエキスパートにモデルをアンバンドルするとか。

より直接的に、ええ。

私たちがそれに露出していないのではなく、混乱を招く可能性があります。なぜこれにはこんなに良いのに、これには良くないのかと。

ええ、現在の印象では、ラボは全ての異なる領域で恣意的に知性がある、パラメータに詰め込むだけの単一のモノカルチャーモデルを持とうとしています。知性にもっと種分化があることを期待すべきだと思います。

動物界は脳が非常に多様で、自然の多くの異なるニッチがあります。いくつかの動物は視覚皮質や他の部分が過剰に発達しています。もっと種分化が見られるべきだと思います。すべてを知っているオラクルは必要ありません。

種分化して、特定のタスクに置く。もっとそれを見るべきです。認知コアがまだあるから、まだ有能だけど、専門化して、より効率的になれるからです。レイテンシやスループットの面で、本当に気にする特定のタスクで。

例えば、Leanで働く数学者なら。いくつかのリリースがあって、本当にその領域をターゲットにしています。

だからアンバンドリングが意味をなすいくつかの例があるでしょう。一つの質問は、利用可能な計算インフラの能力制約がこれをもっと推進するかどうかです。効率が

実際にもっと重要になるから、ですよね。

資金は別として、資金はこれ全てに関わっていますが、何でも完全な計算アクセスがあれば、単一モデルでさえ。でも実際に圧力を感じていて、あらゆるユースケースのために大規模なモデルをサーブできないと感じたら

種分化につながると思いますか。質問は意味をなしますか。

質問は意味をなします。苦労しているのは、まだあまり種分化を見ていないと思います。

いいえ。

モデルのモノカルチャーを見ています。

ええ。

だから良いコードモデルを作って、メインマージに戻すという明確な圧力があります。

ええ、ええ。

すでにモデルに圧力があるのに。

多くの非常に短期的な供給クランチがあって、それが今もっと種分化を引き起こすかもしれないと感じます。

ええ、ええ。基本的にラボはモデルをサーブしていて、エンドユーザーが何を聞くか実際にはわかりません。だからそれがその一部かもしれません。あらゆる可能な質問に対してマルチタスクしなければならないから。でもビジネスに来て、気にする特定の問題でパートナーシップを組むなら、そこで見られるかもしれません。

あるいは非常に高価値のアプリケーションがあって、もっとニッチなものとか。でも今は利用可能なものの全体を追いかけている感じです。脳を操作する科学がまだ完全に発展していないと思います。

脳の操作とファインチューニング

操作というのはどういう意味ですか。

能力を失わずにファインチューニングするとか、そういう例です。コンテキストウィンドウ以外の方法で知性を扱うプリミティブがありません。コンテキストウィンドウは機能して、操作が非常に安価です。これでカスタマイゼーションの一部を得ています。

でももっと深くモデルを調整する、継続学習をする、ある領域でより良くなる、実際に重みに触れる方法があったら、コンテキストウィンドウだけじゃなく。

重みに触れるのはコンテキストウィンドウよりずっと厄介です。実際にフルモデルを根本的に変えることになるし、潜在的にその知性を変えることになるから。

だから種分化は完全に発展した科学ではないかもしれません。

そして種分化が与えられたコンテキストで価値があるほど安くなければなりません。

AutoResearchへの拡張について質問してもいいですか。OpenGroundについて説明していましたよね。この周りにもっと協働の表面が必要だと。

基本的に研究全体への貢献のためにと。話してもらえますか。

ええ。AutoResearchには単一のループがありますが、これを試すループですが、基本的にこれの並列化が興味深い要素です。

いくつかのアイデアで遊ぼうとしましたが、まだ本当に満足しているものはありません。非常にシンプルにクリックするものがありません。サイドでClawに取り組んでいない時に取り組んでいる何かです。

一つの問題は、並列化の多くのノードがあれば、共通のシステムを通じて複数のAutoResearchersに話させるのは非常に簡単です。私がもっと興味があるのは、インターネット上に信頼できないワーカーのプールがある場合です。

例えばAutoResearchでは、モデルを非常に低い検証ロスに訓練するコードの一部を見つけようとしています。誰かが候補コミットを与えたら、そのコミットが正しい、良いことを検証するのは非常に簡単です。インターネットから誰かが、このコードがずっとよく最適化して、ずっと良いパフォーマンスを与えると主張できます。チェックできます。非常に簡単ですが、おそらく多くの作業がそのチェックに入ります。

でも基本的に嘘をつくこともできます。だから基本的に同様の種類のものを扱っています。信頼できないワーカーのプールを組み込む私のデザインは、実際にブロックチェーンに少し似ています。

ブロックの代わりにコミットがあって、これらのコミットは互いに構築できて、改善するにつれてコードへの変更を含みます。

proof of workは基本的に、機能するコミットを見つけるために大量の実験を行うことです。

それは難しいです。報酬は今のところリーダーボードに載ることだけです。金銭的報酬は一切ありません。

類推を押し進めたくありませんが、基本的にこの問題があります。大量の検索が入りますが、候補解が実際に良いことを検証するのは非常に安価です。誰かが10,000のアイデアを試さなければならなかったけど、生成したものが実際に機能することをチェックするだけでいいから。

単一の、9,9000は機能しなかったわけです。

だから長い話を短くすると、信頼できないワーカーのプールが、検証を行う信頼できるワーカーのプールと協働できるシステムを考え出さなければなりません。

全体が非同期で機能して、セキュリティの観点から安全です。誰かが任意のコードを送ってきて、それを実行するのは非常に疑わしくて危険だから。

でも基本的に完全に可能なはずです。Seti at homeやfolding at homeのようなプロジェクトに精通していますよね。これらの問題は全て同様のセットアップを持っています。folding at homeではタンパク質を折りたたみます。

低エネルギーの構成を見つけるのは非常に難しいです。でも誰かが低エネルギーだと評価する構成を見つけたら、完璧です。使えます。簡単に検証できます。だから多くのものがこの性質を持っています。考え出すのは非常に高価だけど、検証するのは非常に安価だと。

だからfolding at homeやseti at homeやauto research at homeが良い適合になる場合です。

だから長い話を短くすると、インターネット上のエージェントの群れがLLMを改善するために協働できて、フロンティアラボを出し抜くことさえ可能かもしれません。わかりませんが。

フロンティアラボは大量の信頼できる計算を持っていますが、地球はずっと大きくて、大量の信頼できない計算を持っています。

でもそれに対処するシステムをチェックに入れれば、外の群れがより良い解を思いつくことは可能かもしれません。人々がサイクルを貢献できます。気にかけているものに。

だから最後の考えは、多くの企業などが自分たちが気にかけている独自のものを持てるかもしれません。計算能力があれば、異なる種類のAutoResearchトラックに貢献できます。例えば、ある種の癌などを気にかけているとします。機関にお金を寄付するだけじゃなく、実際に計算を購入して、そのプロジェクトのAutoResearchフォーラムに参加できるんです。

全てがAutoResearchersに再バンドルされれば、計算があなたがプールに貢献しているものになります。ええ、それは非常に刺激的です。

そしてこれがどこまで行くかわかりませんが、少なくともある観客の人々、シリコンバレーや中国の小売店に並んでいる人々が、個人的な計算へのアクセスが再び面白いと発見したのは興味深いです。

ええ。

だから彼らはClawのために本当にそれをしたいと思っていて、それからAutoResearchに貢献できます。

ドルがみんなが気にかけているものだけど、将来はflopが実際にみんなが気にかけているものになるのか、みたいなフリップがあるのか。例えば、今は計算を得るのが本当に難しいです。お金があっても。

ええ。

だから実際、flopがある意味で支配的なようです。

ええ、だからどれだけのflopをコントロールしているか、どれだけの富をコントロールしているかじゃなく。実際には本当だとは思いませんが、考えるのは興味深いです。

ロボティクスと物理世界への拡張

最後にリリースしたのは仕事データの分析でしたよね。正しいですか。公開データを視覚化しただけなのに、神経を逆なでしたかもしれません。何に興味があったんですか。

ええ、興味があったのは、みんなAIが雇用市場に与える影響と、どうなるかについて本当に考えています。だから雇用市場がどうなっているか見たかったんです。異なる役割がどこにあるか。

どれだけの人が異なる職業にいるか。個々のケースを見ていって、こういったAIとどう進化しそうかを考えて、これらはツールになるのか、これらの職業を置き換えるツールになるのか、現在の職業は何で、どう変わるのか、成長するのか、大きく調整するのか、新しい職業は何になりうるか考えたかったんです。本当に業界についての自分の思考の連鎖を促進する方法でした。

そして労働統計局は実際に各職業について、次の10年間ほどでどれくらい成長すると予想されるかのパーセント見通しを持っています。

ええ、10年だと思いますが、2024年に作られました。

多くの医療従事者が必要です。

ええ、ええ。だから彼らはすでにその予測を立てていて、100%方法論が何だったかわかりません。

色分けすることに興味がありました。人々が主に開発していると思うのは、デジタルAIのようなもので、幽霊やスピリット的なエンティティのようで、デジタル世界で相互作用して、多くのデジタル情報を操作できます。現在、物理的な体現や存在は実際にはありません。物理的なものはおそらく少し遅くなるでしょう。原子を操作しているから。

ビットをフリップする能力とデジタル情報をコピーペーストする能力は、物質を加速するより百万倍速いです。

だからエネルギー的に、デジタル空間で大量の活動、大量の書き直し、大量の活動、沸騰するスープを見ることになると思います。物理世界で起こることに比べて、デジタル空間で光速で起こるものを見ることになると思います。

だから現在、デジタル情報処理の多くがコンピューターと人々によって行われていたものの大きなアンホブリング(解放)の可能性があると思います。今、デジタル情報の第三の操作者としてのAIがあります。それらの分野で多くのリファクタリングがあるでしょう。

でも物理世界は実際に、ある時間遅れると思います。だから私が職業でハイライトしていたのは、基本的にデジタル情報を操作する職業です。家からできる仕事などです。これらが変わると感じるからです。それらの仕事が少なくなるとか多くなるという意味ではありません。需要弾力性や他の多くの要因に依存するから。でも物事はこれらの職業で変わるでしょう。これらの新しいツールのせいで。

人間の超有機体の神経系へのアップグレードのようなものとして考えたいなら。

データを見て、雇用市場に直面している人や、何を勉強するか、どんなスキルを開発するか考えている人への観察やガイダンスはありますか。今は仕事のために人に会わなきゃいけないことに非常に感謝しています。

より物理的。ええ。

でもあなたの仕事は家からできますか。

できると思います

関係の部分は難しいと思いますが、ほとんどはできます。

ええ、雇用市場は非常に多様で、答えはおそらく変わると思いますが、大きく、これらのツールは非常に新しくて強力です。だからついていくことが第一です。

多くの人がそれを却下したり

恐れていたり

恐れていたりします。これは完全に理解できます。ええ、基本的にこれは現時点では力を与えるツールです。

これらの仕事はタスクの束で、これらのタスクのいくつかはずっと速く進みます。だから人々は主にツールとして考えるべきです。現在そうです。

それの長期的な未来は不確実です。ええ、正直に予測するのは本当に難しいです。私は専門的にそれをやっているわけではありません。経済学者の仕事だと思います。

でもあなたはエンジニアです。一つ興味深いと思ったのは、エンジニアの仕事の需要が増え続けているということです。

ええ。

一時的な現象かどうか判断できません。どう感じているかわかりません。

ええ、需要はソフトウェアが希少だったようなものです。だからもっとソフトウェアの需要がないのは、希少性と高すぎるからです。

高すぎます。ええ。

だから障壁が下がれば、実際にジェボンズのパラドックスがあります。ソフトウェアの需要が実際に上がります。安くて、もっと多くの

強力です。ええ。古典的な例は常にATMと銀行員です。ATMとコンピューターが基本的に銀行員を置き換えるという恐れがたくさんありました。でも起こったのは、銀行支店の運営コストがずっと安くなって、銀行支店が増えて、銀行員が増えたということです。

だから基本的にジェボンズのパラドックスです。何かが安くなると、ロックされていた需要が解放されます。だからソフトウェアエンジニアリングに関しては慎重に楽観的な見方をしています。ソフトウェアの需要は非常に大きいようです。

ずっと安くなったばかりです。

だからしばらくの間、予測は非常に難しいですが、少なくとも今のところローカルには、ソフトウェアの需要が増えると思います。

ソフトウェアは素晴らしいからです。デジタル情報処理で、与えられた不完全な任意のツールを使うように強制されません。存在するものを購読するように強制されません。コードは今やエフェメラルで、変更できて、修正できます。

だからデジタル空間で多くの活動があると思います。すべてをある意味で再配線して、ソフトウェアへの多くの需要を生み出すと思います。

長期的には、ええ、明らかにAutoResearchでさえ、OpenAIやAnthropicやこれらの他のラボのようなものは、何千人かの研究者を雇っています。

これらの研究者は基本的に栄光あるAutoのようなもので

彼らは自分自身を自動化しているんです。積極的に。これが彼ら全員が試みていることです。

ええ。

それらの研究者の一部もサイコーシスを感じていますよね。機能しているから。

ええ。

だから彼らも「ああ、私も終わりだ」と感じています。

OpenAIを回って時間を費やして、「みんな、成功したら全員仕事を失うって気づいてる?」と言っていました。

「Samのための自動化を構築しているだけ」みたいな。

取締役会かわかりませんが、「取締役会やCEOのための自動化を構築していて、全員仕事を失って、サイドで貢献するかもしれない」という感じです。だからその観点からは不安です。

フロンティアラボの外で働く理由

Nomeの質問をしてもいいですか。

AutoResearchを多くの計算スケールと多くの同僚とフロンティアラボの一つでやれますよね。なぜやらないんですか。

ええ、しばらくそこにいましたよね。再入社しました。だからある程度同意します。この質問を切る方法はたくさんあります。非常に込み入った質問です。

人々が自分の影響力において、フロンティアラボの外で貢献できることについて非常に良く感じていると言います。明らかに業界内ではありませんが、エコシステムレベルの役割のようなものでも。

あなたの役割はエコシステムレベルです。私の役割も現在はエコシステムレベルです。そういう種類の役割で人々が持てる影響について非常に良く感じています。逆に、フロンティアラボと自分をあまりに同調させることには明確な問題があると思います。

基本的に、あなた自身の認めるところでは、これらのフロンティアラボとの大きな金銭的インセンティブがあって、AIは人類と社会を非常に劇的に変えることになって、ここであなたは基本的に技術を構築していて、それから利益を得ていて、金銭的手段を通じてそれと非常に同盟している。これはOpenAIが最初に始まった時の中心にあったジレンマでした。これが私たちが解決しようとしていたジレンマです。

だからそのジレンマはまだ完全には解決されていません。だから第一に、完全に自由なエージェントではなく、その会話に完全に自律的で自由な方法で参加することはできません。フロンティアラボの内側にいたら、言えないことがあります。

逆に組織があなたに言ってほしいことがあって、腕をねじられることはないけど、何を言うべきかのプレッシャーを感じます。明らかにそうじゃないと、本当に気まずい会話、奇妙な横目、何してるの?みたいになります。だから本当に独立したエージェントになれません。フロンティアラボの外では、ある意味で人類とよりアライメントされていると感じます。そういったプレッシャーを受けないから。言いたいことを言えます。

フロンティアラボではもちろん影響を持つこともできます。多くの研究者がいて、あなたもその一人かもしれません。あなたのアイデアは本当に良いかもしれません。意思決定がたくさんあって、そういう会話が出てくる時に部屋にいたいかもしれません。

今のところステークスは全体的にかなり低いので、すべてが良い感じです。でも最終的に、ステークスが本当に高くなった時など、組織の従業員だったら、組織が何をするかにどれだけ影響力があるか実際にはわかりません。基本的に、部屋にいてアイデアを貢献していますが、実際に担当しているわけではありません。そのエンティティの一部ではありません。だからそれがミスアライメントの源だと思います。

ある意味で、その感情に同意します。ラボは良くも悪くも不透明で、多くの仕事がそこにあって、能力の端にいて、何が可能かの端にいて、これから来るものに取り組んでいます。フロンティアラボの外にいると、判断が基本的にドリフトし始めると思います。これから来るものの一部ではないから。

だから私の判断も必然的にドリフトし始めると感じます。これらのシステムが内部でどう機能するか実際には理解しません。不透明なシステムです。どう発展するか良い理解を持ちません。

だからその意味で同意します。何が実際に起きているかに触れていることには価値があって、実際にフロンティアラボにいて、彼らのために本当に良い仕事をして、それから来るとか

仕事を探しています。これは超エキサイティングです。

ええ。

それから良いセットアップかもしれないと思います。完全にコントロールされているように感じないけど、実際に起きていることにつながっていると感じます。

ええ。

それらのエンティティによって。だから正直、私の考えでは、NoomはおそらくOpenAIで非常に良い仕事ができます。でも彼の最も影響力のある仕事はOpenAIの外かもしれません。

いや、それは独立研究者でAutoResearchをやれという呼びかけですね。ええ、外でやることはたくさんあって、最終的に理想的な解決策は行ったり来たりすることかもしれません。基本的に両方の場所で本当に素晴らしい影響を持つことができると思います。

非常に複雑です。よくわかりません。非常に込み入った質問です。でも私はフロンティアラボに入社して、今は外にいて、将来また入社したいかもしれません。そういう見方をしています。

オープンソースとクローズドモデルの未来

フロンティアへの可視性や、AIエコシステムが何を持っているかに関連した一つの質問は、オープンソースがフロンティアにどれだけ近いか、それがどれだけ持続可能かです。

ええ、全体の一連の出来事は非常に驚くべきだと思います。少数の中国モデルとグローバルモデルがあって、近い将来ここでリリースし続ける人々がいると思います。能力の観点から業界の多くが予想していたよりも近いです。

あなたが驚いているかわかりませんが、あなたは長期的なオープンソースの貢献者です。ここでの予測は何ですか。

ええ、大まかに言うと、基本的にクローズドモデルが先を行っていますが、オープンソースモデルが何ヶ月遅れているか監視しています。

何もないところから始まって、18ヶ月になって、今は

収束ですよね。

だから最新では何ヶ月遅れか、6ヶ月、8ヶ月くらいかもしれません。ええ、私は明らかにオープンソースの大ファンです。例えばオペレーティングシステムでは、WindowsやMac OSのようなクローズドなものがあります。これらはLLMのような大きなソフトウェアプロジェクトです。Linuxがあります。でもLinuxは非常に簡単です。実際、Linuxは非常に成功したプロジェクトです。大多数のコンピューターで動いています。最後に確認したら60%くらいがLinuxを動かしていました。

業界にはみんなが安全に使えると感じる共通のオープンプラットフォームのニーズがあるからです。業界はそういう種類のプロジェクトが存在することに常に需要を感じてきました。同じことが今も真実だと思います。業界はこういう種類のものが存在することを実際に望んでいます。大きな違いはすべてが資本だということです。

多くのcapexがこれに入ります。

だからそれが競争を少し難しくする部分だと思います。現在のモデルは非常に良いと思います。もう一つ非常に興味深いと思うのは、大多数の消費者ユースケースやそういったもののために、現在のオープンソースモデルでさえ実際にかなり良いということです。さらに進むと、多くのシンプルなユースケースは十分にカバーされて、実際にローカルで動くことさえあるようです。

でも常にフロンティア知性への需要があるでしょう。それは実際に非常に大きなパイの部分になりうるでしょう。でもフロンティア知性の必要性は、ノーベル賞レベルの仕事や、LinuxをCからRustに移すような大きなプロジェクトかもしれません。

そういう範囲でスコープされた大きなプロジェクトがあるでしょう。もっとあるかもしれません。おそらくそこに多くのフロンティアクローズド知性が相互作用するところです。オープンソースは多くのより基本的なユースケースを食べ尽くすようなものかもしれません。

今フロンティアなものは、おそらく今年後半には、今私が使っているクローズドラボからのものがオープンソースになるかもしれません。それが多くの仕事をするでしょう。だからこのダイナミクスが実際に基本的に続くと予想しています。フロンティアラボがあって、これらのオラクルのようなクローズドAIがあって、オープンソースが何ヶ月か遅れています。これが続くと予想します。実際にはかなり良いセットアップだと思います。

クローズドだけの知性を持つことには、構造的にシステミックリスクが付随すると思うからです。それだけです。

それは中央集権化は私の見方では過去に非常に悪い実績があると思います。

政治的または経済的システム全般という意味ですね。

まさに。多くの

東ヨーロッパです。ええ。

多くのかなり悪い前例があります。だから新しくて未探索だからフロンティアの能力の端にないかもしれないけど、遅れているものがあってほしいです。知性のための共通の作業空間で、業界全体がアクセスできるものです。

ええ、それが業界にとってかなり良いパワーバランスだと思います。

ええ、解くべき多くの問題があると思います。フロンティアから知性を進め続ければ、新しいことができて、人類にとって非常に大きな問題がたくさんあります。だからそれは非常に高価なゲームであり続けるようです。

だからそれをやっているラボを応援したいです。それらを解決することなく前進し続ける問題があるから、非常に高価な方法でモデルを進め続ける。ええ。それでもあなたが指摘するように

今日フロンティアであるものがオープンなら、それは多くの能力です。ええ。

だからその力や、その民主化は

非常に有用で健全でもあるようです。

ええ、基本的に偶然、実際には良い場所にいると思います

最適。ええ。

偶然良い場所にいます。ある意味。

これが長く続けば、このダイナミクスは

エコシステムがいる場所はより健全かもしれません。曲線の下により多くの面積があるから

クローズドサイドでさえ、最近さらに中央集権化していると感じます。多くの先頭走者が必ずしもトップティアじゃないから。だからその意味で超理想的じゃないと思います。もっと多くのフロンティアラボがあってほしいです。ええ、デフォルトでは

機械学習ではアンサンブルが常に個々のモデルを上回るから。だからすべての最も難しい問題について考える人々のアンサンブルがあってほしいです。人々のアンサンブルが部屋にいて、彼らがすべての決定をする時、全員がよく情報を得ていてほしいです。

閉じられたドアで2人か3人だけというのは良くないです。良い未来じゃないと感じます。ほとんど、もっとラボがあってほしいです。長い話を短くすると。オープンソースには役割があると思います。続いてほしいです。基本的に現在少し遅れています。それは実際にある種良いことです。

ロボティクスの課題と未来

車での一般化されたロボティクスの自律性の前駆体に取り組んでいましたよね。この数ヶ月、ロボティクス企業でもたくさんのことが起きています。環境、タスクの本当に印象的な一般化の加速、長期ホライゾンタスクの増加、この分野への多くのお金、起こるんですか。最近何か見方が変わりましたか。

私の見方は自動運転で見たものから情報を得ています。自動運転が最初のロボティクスアプリケーションだと感じています。だから私が見たのは、当時10年前、多くのスタートアップがあって、ほとんどは基本的に長期的には成功しませんでした。

多くの資本支出が入らなければならなかったし、多くの時間がかかりました。だからロボティクスは非常に難しくて、非常に混乱していて、大量の資本投資と多くの確信が必要だからだと思います。大きな問題で、原子は本当に難しいです。

だからデジタル空間で起こることに遅れをとると感じます。デジタル空間では大量のアンホブリングがあるでしょう。

ビットがずっと簡単だから。だから変わることや、活動がある場所に関して、デジタル空間が大量に変わると感じます。それから物理空間は遅れます。非常に興味深いと思うのは、その間のインターフェースです。

もっと多くのエージェントが人間の代わりに行動していて、もっと多くのエージェントが互いに話していて、タスクをして、エージェントの経済などに参加していたら、純粋にデジタル空間でできることが尽きるでしょう。

ある時点で宇宙に行かなければなりません。質問しなければなりません。

実験を実行して、宇宙が何を教えてくれるか見て、何かを学ぶ必要があります。だから現在、大量のデジタル仕事があります。すでにデジタルなものについて集合的にどれだけ考えたかのオーバーハングがあるから。

すでにデジタルで、すでにアップロードされているすべての情報について考える思考サイクルが人間の間で十分にありませんでした。だからすでにアップロードされているものが尽き始めるでしょう。

ある時点で全ての論文を読んで処理して、何を試すかアイデアを持つでしょう。

でも、ええ、完全に閉じられていて、利用可能な情報だけで、どれだけ知性を得られるか実際にはわかりません。

だから私が思うのは、最初に大量のアンホブリングがあって、そこに大量の仕事があると思います。それから実際に物理とデジタルの間のインターフェースに移るでしょう。世界を見るセンサーと、世界に何かをするアクチュエーターのようなものです。多くの興味深い企業が実際にそのインターフェースから来ると思います。スーパーインテリジェンスにある意味データを供給できるか、データを取り出して物理世界を操作できるか。その命令通りに、擬人化したいなら。それから物理世界は実際に、総アドレス可能市場などの仕事量に関して、巨大です。デジタル空間で起こることよりずっと大きいかもしれません。だから実際にずっと大きな機会だと思います。でも

大量の仕事だと感じます。私の考えでは原子は百万倍難しいです。

だから遅れをとるでしょうが、より大きな市場でもあると思います。だから機会はその軌跡に従う感じです。だから今はデジタルが私の主な興味です。それからその後インターフェースで、それから物理的なもののいくつか。時が来れば巨大になるでしょう。

情報市場とエージェント経済

それはそれを考える興味深いフレームワークでもあります。原子の世界の特定のものは、あなたが取り組んでいるものじゃなくても、ずっと簡単だからです。物理世界への読み書きについて考えるだけなら、読み、センサー、カメラのようなものは、多くの既存のハードウェアがあって、賢ければエージェント能力を豊かにしたり、多くの新しいデータをキャプチャできると想像できます。必ずしも多くの投資をする必要はありません。価値のあるものを得るために。

ええ、これの例として見たものは、例えば友人のLiamがPeriodicのCEOをやっています。先週訪問したので頭に残っています。材料科学のためのAutoResearchをやろうとしています。

その場合、知性へのセンサーは実際にかなり高価なラボ機器です。生物学でも同じです。

多くの人が生物学のエンジニアリングに非常に興味を持っていると思います。センサーは単なるビデオカメラ以上のものになります。

それからもう一つ見たのは、プログラム的に訓練データのために人々にお金を払おうとしている企業です。ええ。

Borgに供給するために。

だからこれらは全てある意味センサーの例です。だから多くの異なる形を取ります。

ええ、物理世界でのタスクを求めて、それに価格をつけて、エージェントに、データを得る方法を見つけろと言える地点を楽しみにしています。

実際、情報市場が十分にないことに驚いています。

polymarketや他のベッティング市場、株式などでさえ、多くの自律的な活動と増加する活動があったら

なぜ例えば、イランが今起きていたら、テヘランのどこかから写真やビデオを撮るのに10ドルかかるプロセスがないんでしょう。誰かがそれにお金を払えるべきです。

知性を供給するための例です。それを見るのは人間じゃないでしょう。ベッティングゲームや株式市場などを推測しようとしているエージェントでしょう。

だからエージェントウェブはまだかなり新しくて、これのためのメカニズムがないと感じます。でもこれが私が起こると思うことの例です。Demonという良い本があります。潜在的に読んだかもしれません。Daemonでは知性が

最終的に人類をほとんど操り人形にします。ある意味。人間はアクチュエーターですが、人間もセンサーです。

だから集合的に社会がある方法で再形成されると思います。その種の機械にサービスするために。業界全体で集合的に起こるでしょう。もっと多くの自動化があって、特定のニーズがあって、人間がその機械のニーズにサービスすることになるでしょう。必ずしも互いにじゃなく。

訓練データの欠けている部分について、この非常に具体的なポイントで話していました。AutoResearchのようなものが必要でした。訓練サイクルやSFT部分がずっと機械化される必要があります。

どの部分のために。

モデル品質を改善するための新しいデータで、ループから人間を取り除くタスクを求めるために。

わかりますか。

プライシングデータでこれを閉じたループタスクとして行う能力

はい。

モデルが自分で訓練を実行できなければ、より挑戦的になります。

はい、はい。

意味をなしますか。

はい、はい。100%。ええ、でもLLM訓練のために実際には非常に簡単にパラダイムに適合します。

実際に。

ええ、クリーンなメトリック。

ええ、LLM訓練は実際にパラダイムに本当によく、簡単に適合します。コードの全ての最適化、より速く動くようにと。それからメトリクスもあって、それに対して最適化できます。それらのメトリクスに対する自律的なループがあったら、システムがそれらのメトリクスに過剰適合するような良いハーディングが多く起こると思います。でもシステムを使ってもっとメトリクスを考案できて、本当に良いカバレッジを得られます。判断が難いですが、ある意味かなり良い適合です。

教育の未来 – エージェントへの説明

終わる前に小さなサイドプロジェクトについて話したいです。microGPTについて教えてください。

ああ、ええ。わかりました。microGPT。基本的にLLMを単純化して、裸のエッセンスまで煮詰めるという走っている執着が10年か20年くらいあります。

この路線でいくつかのプロジェクトがありました。nanoGPTや、make moreや、microGPT、microGradなど。microGPTが私が本質だけに煮詰めようとする最先端だと感じます。ニューラルネットやLLMを訓練するのは大量のコードですが、そのコード全ては実際には効率性からの複雑さだからです。

速く動く必要があるからです。速く動く必要がなく、アルゴリズムだけを気にするなら、そのアルゴリズムは実際に200行のPython、非常にシンプルで読みやすいです。コメントなど全て含めて。

データセットがあって、テキストです。ニューラルネットワークアーキテクチャが必要で、50行くらいです。

フォワードパスをしなければなりません。それから勾配を計算するためのバックワードパスをしなければなりません。だから勾配を計算するための小さなautogradエンジンが100行くらいです。それからオプティマイザー、例えばAdamが必要で、非常に最先端のオプティマイザーですが、本当に10行くらいです。だから全てを訓練ループにまとめると200行くらいです。

興味深かったのは、通常、1年前くらいまでは、microGPTを思いついたら、ビデオを作って、ステップスルーしたりとか説明したくなったでしょう。

実際にそのビデオを作ろうとして、小さなガイドを作ろうとしました。でも気づいたのは、これは実際にはあまり追加していないということです。すでに非常にシンプルだから、200行で、誰でもエージェントに様々な方法で説明してもらえます。私はもう人々に説明していません。エージェントに説明しています。エージェントに説明できれば、エージェントがルーターになれて、実際に人間の言語でターゲットできます。無限の忍耐で。能力に応じて。

そうですね。

この特定の関数が理解できなければ、エージェントに3つの異なる方法で説明してもらえます。あなたからは得られません。

まさに。だから教育とは何かと感じます。以前はガイド、講義、こういうものでしたが、今はもっとエージェントに物事を説明している感じです。スキルを思いつくかもしれません。

基本的にスキルはエージェントにものを教える方法を指示する方法です。

だからmicroGPTのためのスキルを持てるかもしれません。コードベースを理解したい人をエージェントが通すべき進行の。だからちょっとしたヒントをモデルに与えるだけです。ああ、まずこれから始めて、それからそれと。カリキュラムを少しスクリプトできます。スキルとして。

だから人々に物事を直接説明することが少なくなると感じます。エージェントが理解するかというのが重要になるでしょう。エージェントが理解すれば、説明をしてくれます。まだ完全にそこには至っていません。おそらくエージェントより少し良く説明できると思います。でもモデルは非常に速く改善しているので、ある意味で負け戦だと感じます。

だから教育はこれによってかなり大幅に再編されると思います。互いに物事を教え合うことの終わりのようなものです。例えばコードのライブラリがあったら、以前はライブラリのユーザーである他の人々のためにドキュメンテーションがありました。でももうそうすべきじゃありません。人間のためのHTMLドキュメントの代わりに、エージェントのためのmarkdownドキュメントを持つべきです。エージェントが理解すれば、すべての異なる部分を説明できるからです。だからエージェントを通じたこのリダイレクションです。

もっとそういうのが展開されると思います。

偉大な教師は、エージェントに異なる方法で物事を説明する方法の直感を発達させるかどうかわかるでしょう。

最終的に、例えばmicroGPT、私はエージェントにmicroGPTを書かせようとしました。

最もシンプルなものに煮詰めてみて、ニューラルネットワーキングを最もシンプルなものに煮詰めてみてと伝えました。できません。microGPTは私の執着の終わりです。200行です。これについて長い間考えました。長い間執着しました。これが解決策です。

信じてください。これよりシンプルにはなりません。これが私の価値の追加です。他の全ては、エージェントが理解します。

思いつくことはできません。でも完全に理解して、なぜそういう方法で行われたか理解します。だから私の貢献はこのわずかなビットのようなものですが、その後起こる教育に関する他の全ては私の領域ではありません。

だからおそらく、ええ、教育はそういう方法で変わります。カリキュラムや、より良い説明の方法について強く感じるわずかなビットを注入しなければなりません。エージェントができないことが今のあなたの仕事です。エージェントができることは、おそらくあなたよりも良くできるか、非常に近い将来できるでしょう。

だから実際に何に時間を費やしているか戦略的であるべきです。

わずかなものに感謝します。Andreさん、ありがとうございました。

わかりました。

TwitterでNo Prior Podを見つけてください。YouTubeチャンネルを登録すれば顔を見られます。Apple Podcasts、Spotify、どこで聞いていても番組をフォローしてください。

そうすれば毎週新しいエピソードが届きます。no-priors.comでメールにサインアップするか、全エピソードのトランスクリプトを見つけてください。

コメント

タイトルとURLをコピーしました