OpenAIの共同創設者であるAndrej Karpathyが出演したポッドキャストが、シリコンバレーで大きな論争を巻き起こした。彼はAIエージェントが真に有用になるまでには10年かかると主張し、現在のエージェントにはメモリ、堅牢性、信頼性が欠けていると指摘した。また、LLMの認知的欠陥や強化学習の困難さについても言及し、AGIが経済成長に劇的な変化をもたらすという楽観的な見方に疑問を呈した。この発言は「スロップ(粗悪品)」という言葉とともにセンセーショナルに報道されたが、実際には彼は段階的な進歩と継続性を重視する立場を示していた。ビルダーの視点からは、現在のエージェントでも適切なアーキテクチャを構築すれば十分な価値を生み出せるという反論がなされている。

シリコンバレーを揺るがしたポッドキャストの真意
シリコンバレーは数日間、Andrej KarpathyとDwarkesh Patelのポッドキャストで大騒ぎになっていました。なぜそれがこれほど物議を醸したのか、そして今、ほとぼりが冷めた今、AIを使って仕事をしたい人々、ビルダーたちにとって本当の教訓は何なのかについてお話ししたいと思います。
まず最初にすべきことは、Andrejがどこから来ているのかを理解することです。AndrejはOpenAIの共同創設者の一人です。彼は長い間、AIシステムの最先端にいた人物なんです。彼は最近、nano chatという新しい小型のGPTトレーニング方法をリリースしました。素晴らしいものです。しかし、彼が最先端にいる世界では、彼が言うことすべてをその参照枠から理解する必要があります。
これは私が何度も立ち戻るポイントになります。なぜなら、それは現場の実践者やビルダーとして既存のAIツールを使用するのとはかなり異なる参照枠だからです。Andrejは何を言ったのでしょうか。まず第一に、彼が指摘したのは、有用なエージェントは10年先だということです。それがエピソードのタイトルでした。そして彼が本質的に言っているのは、現在のエージェントにはメモリが欠けているということです。
堅牢性が欠けていて、信頼性も欠けています。彼は「スロップ」という言葉を使いました。そして人々はそれに飛びつきました。彼自身も予想していなかったような形で。それがこの論争全体を煽った一因でもあります。しかしある意味では、よく見てみれば、彼は正しいんです。エージェントは本質的に記憶して学習することができません。私たちは彼らが知っているすべてのことを教えなければなりません。
エージェントは特に堅牢ではありません。私が関わってきた最も洗練されたマルチエージェント実装は、エージェント自体からの堅牢性ではなく、アーキテクチャからの堅牢性を持つ傾向があります。そして信頼性が欲しければ、再びアーキテクチャに戻って信頼性を求めることになります。エージェント自体ではなく。ビルダーとして、これは私が話していることですが、これらのどれも、今日エージェントに対して本当に高い価値のユースケースを持つことを妨げるものではありません。
そして私は、エージェントを機能させるために建築的に行わなければならない作業を、エージェントが現在いる場所に対して支払う代償として捉える傾向があります。そしてROIはそこにあります。なぜならエージェントはすでに非常に多くのことができるからです。しかしエージェントの約束はこれよりもはるかに大きなものでした。エージェントの約束は、Andrejが反応していると私が思うものですが、彼らは何でもするということです。彼らはどこにでもいるということです。彼らは学習し、すぐに使えるものとして有用であり、すべてを記憶するということです。
もちろん、エージェントを使ったことがある人なら、それが真実でないことを知っています。そしてAndrejはそれが真実でないと言っていて、彼は正しいんです。ですから、Andrejの参照枠の中で、メモリを持ち、堅牢で、超信頼性があり、複雑なタスクを実行するためにアーキテクチャを必要としない本当に優れたエージェントと言うとき、ええ、それは確かに10年先のように感じられます。それは必ずしもすぐ目の前にあるわけではありません。
彼の視点から見て、彼が強調する必要を感じなかったことは、今日すでにそれらから価値を得ることができるということです。そしてそれがポッドキャストでもう少し伝わってほしかった部分だと思います。今日、AIエージェントを使用して年間数億ドルのオーダーで節約している企業があります。来年ではなく、再来年ではなく、10年後でもなく、今日です。
これらのエージェントはメモリの堅牢性と信頼性に苦労していますか。Andrejは正しいです。あなたはアーキテクチャでそれを考慮しなければなりません。私がエージェントについて教えるときに人々に教えることの多くは、今日私たちが持っているエージェントのためにどのようにアーキテクチャを設計するかということです。彼らに価値がないという意味ではありません。ですから皮肉なことに、私はAndrejの視点からエージェントがスロップかもしれないということに同意できますが、彼らは今日のままでも途方もない価値を追加できるんです。
LLMの認知的欠陥と事前学習の課題
彼が指摘した2番目のこと、2番目の大きな会話のテーマは、LLMには認知的欠陥があり、LLMで効果的な事前学習のダイナミクスを駆動するのに苦労しているということです。これは技術的にあまり詳しくない方々にとっては少し専門的な話になります。できるだけ明確にしたいと思います。根本的に、事前学習は本当に、本当に、本当に厳しい学習方法なんです。
得られるのは、何かが正しいか間違っているかという単一のシグナルだけです。ですから、モデルをトレーニングしている場合、得られるのはこれがイエスかノーかだけです。私が書いたこのエッセイは良いのか悪いのか。微妙なフィードバックの余地は一切ありません。これは既知の問題です。そしてそれが、事前学習中にあらゆる種類の近似的な学習を得るために、多くの異なるユーザーからの非常に多くの異なる種類の応答が必要な理由の一部なんです。
Andrejがこのモデルは本当に扱いにくく、ストローを通して監督ビットを吸い上げていると言うのは正しいです。それは彼の言葉です。私は彼が正しいと思います。扱いにくいモデルです。私が思うに、それに対する反論は、それが厳しかったとしても、驚くべき結果をもたらしてきたということです。今日LLMの進歩を止めたとしても、兆候はありませんが、私たちがすでに持っているすべてのものを完全に組み込むためには、まだ10年以上の技術的進歩があるでしょう。
ですから、LLMが人間のように学習しないことに同意し、事前学習を通じて監督を与えるのは本当に難しく、解決しなければならない問題があるとしても、それらのどれも、ビルダーの視点から見て、今すぐできることの邪魔にはなりません。彼が指摘した3番目のことは、強化学習は絶対にひどいが、今のところ彼はより良い選択肢を思いつけないということです。
そして私は、彼が業界の最先端にいる人々にこれについて考えるよう呼びかけていると思います。これは私がクレジット割り当てのアイデアについて話すときに伝えようとしていることなんです。イエスかノーがあるところですね。それは非常に鈍い道具なので、正しく機能させるのは本当に、本当に、本当に、本当に難しいんです。その後、会話は経済成長へと移りました。
AGIと経済成長に関する現実的な視点
汎用人工知能が、破滅論者が言う世界の終わりか、楽観論者が言う前例のない経済成長期間を推進するという多くの仮定がありました。そしてAndrejが指摘したことの一つは、彼の基本ケース、彼の仮定は、人間が過去数十年にわたって我々のベースラインである2%の国内総生産成長に膨大な量のイノベーションを組み込んできたということです。
そして彼の現在の評価は、AGIは現在の自動化のトレンドに溶け込んでいき、ベースラインのシフトは見られないだろうというものです。ですから、彼は世界の終わりだと言っているわけではありません。彼は破滅論者ではありませんが、成長にステップ関数があるとも言っていません。それもまた多くの論争を呼びました。しかし私は彼がどこから来ているのか理解できます。
私たちが学問分野として苦労してきたことの一つは、90年代にインターネットとパーソナルコンピュータの出現によって私たちの生活が劇的に変わったという事実に対してまだ答えがないということです。そしてそれは国内総生産の成長データに実際には現れませんでした。同様に、携帯電話とソーシャルウェブ全体の発明もGDPデータには現れませんでした。
そして私が思うに、Andrejが私たちに挑戦していること、そしてこれは有用だと思いますが、彼は奇跡を期待しないよう私たちに挑戦しているんです。破滅を期待しないでください、しかしまた必ずしもすべてが突然解決されるとも期待しないでください。これは特にAnthropicのチームから最近出てきた、より劇的な予測とは対照的です。彼らは雇用、コーディングなどにおいて非常に劇的な変化を期待していると記録に残しています。
Andrejはそれを見ていません。彼はこれを技術革新の進行中の物語の一部として見ており、私たちはこの10年間で人工知能を使って次の章を書いているのだと。そしてそれが私たちにとって劇的なシフトのように感じられるかもしれませんが、GDP成長率プラス8%のような経済統計には現れないかもしれません。
ビルダーの視点から、私が持っている教訓は、システムを計画しようとするときに奇跡を期待すべきではないということです。私たちは、単に段階的なケースがあり、それが超基本的で、システムの構築を進めることができ、ニルヴァーナや破滅に向かって構築しているかどうかを心配する必要がないときに、システムの計画をはるかにうまく立てられると思います。
今日私たちが持っているシステムから何かを構築しようとするだけの方がはるかに有用で、時間とともに徐々に良いシステムが得られるでしょう。それはAndreが肯定していることです。彼がかなり話していることの一つで、それはある種の長い余談ですが、自動運転についての会話です。そしてあなたは、なぜこれが出てくるのか不思議に思うでしょう。まあ、自動運転はAIに現実世界のスキルを教えることがいかに難しいかの例なんです。
自動運転から学ぶエージェント開発の教訓
そして私はこれについてしばらく考えていました。Andrejの見解を聞くのは楽しかったです。基本的に、自動運転にはほぼ無限のエッジケースがあります。だからこそWaymoが新しい都市に来たとき、単に車を道路に投入することはできません。都市全体を学習しなければなりません。なぜなら、すべての角が独特だからです。ですからAndrejが言っているのは、自動運転に到達することはまだ困難な道だということです。なぜなら、エッジケース、データ、データ、安全性についてこれらの教訓を学び、それらすべてをエージェントにどのように転送するかを学ばなければならないからです。
そして彼は、世界中のほとんどの都市で自動運転の派手なデモがあったにもかかわらず、自動運転車はゼロだということを私たちに理解してほしいと思っています。今日サンフランシスコの一部に行けば手に入れることができますが。そして彼が指摘しているそこのギャップは、会話の冒頭で彼が強調したのと同じこと、つまりメモリの堅牢性と信頼性に関するものです。
Waymoの運転エージェントをどの都市にも一般化することはできません。カスタムトレーニングが必要で、それは脆弱で厳しいものです。彼がそれを問題として指摘するのは正しいです。同時にビルダーとして、Waymoは展開を止めていませんよね。Waymoは現在、展開しようとしている都市が半ダースか10都市あります。運転は時間とともに解決され続けており、私たちはAI側で本当に似たようなことをしています。問題の一部を噛み砕いて取り組んでいるだけです。
そしてそれは、私たちが解決している問題の種類とそれらをどれだけ速く解決しているかを考えると、Andrejと私が同意するエリアだと思います。もしあなたが、本当に一般的に知的なエージェントがあり、堅牢性と信頼性を持って絶対に何でもでき、構造とスキャフォールディングをサポートするためのアーキテクチャを必要としない世界を望むなら、10年かかるかもしれません。
彼はそれについて正しいかもしれません。彼が話した最後のことで、私が指摘したいのは、教育に関する会話のテーマです。彼は、パーソナライゼーションとAIチューターが、人々が必要なことを学ぶのを助けるために非常に有望だというアイデアについて話しましたが、対処する必要があるメモリに関するいくつかの課題があるという注意点がありました。
メモリ問題と教育AIの可能性
そしてこれは私がしばらくこのポッドキャストで指摘してきたことです。メモリは簡単に解決できる問題ではありません。メモリは難しい問題です。AIがそれをうまく行うメモリは簡単ではありません。私は少し前のビデオでその理由を分解しました。人々に有用に教えたい場合、する必要があることの一つは、エージェントが学生と教材との相互作用の記憶に基づいて、有用な方法で次のレッスンを段階的に進めることに非常に優れていることです。
それは複雑なタスクであり、エージェントにその責任を与える準備ができていることを確認しなければなりません。そして私が本当に見たいと思っていることの一つは、教育とAIに関する多くの取り組みが現在進行中であることを知っています。私は細部に入り込みたいです。教育とAIが、学生から学ぶことに関してメモリの問題をどのように解決しているのか、そして責任ある、敬意を持った、プライバシー第一でありながら、学生から学ぶ方法でどのようにそれを行うことができるのかをよりよく理解したいです。
それは本当の挑戦であり、Andrejがそれを指摘したのは正しいと思いますが、それはまた本当の機会でもあり、彼もそれを認識していました。反応に飛びましょう。反応はほぼ一様にひどいものでした。見出しは、エージェントはスロップだ、AGIは10年先だというような最もセンセーショナルな解釈を拾い上げました。そして彼らはそれを、シリコンバレーのAIバブルを弾けさせるものとして、あるいは近い将来の汎用人工知能楽観主義への反論として組み立てました。
そして私は多くの点で、彼らがAndrejの言葉を文脈から外して取り上げたと思います。実際、彼は後にX(旧Twitter)に書いたフォローアップ投稿でそれを示唆しました。彼は自分が引き起こした種類の炎上を引き起こすつもりはありませんでした。そして彼は、OpenAIの創設者または元創設者としての彼の地位のために、彼の言葉がシリコンバレー内の人々だけでなく、世界全体によってどれほど真剣に受け止められるかを理解していなかったと思います。私は同意します。
私は反応があまりにも過剰だと思います。私が見たプレスからシリコンバレーのAIコミュニティに向けた敵意の種類には、ほとんど理由がないと思います。この作品が引き出したAIに対する根底にある敵意がない限り。そしてそれは一種の皮肉ですよね。なぜならAndrejは今日私たちが持っているAIを構築するのを助けた人だからです。
彼は確かに反AIではありません。それでも、私はプレスから見た反応の中に、その敵意が戻ってくるか、引き出されているのを感じました。では、これに対応するより良い方法は何でしょうか。彼が何について話したかを理解しました。私は私の見解についていくつかのヒントを与えましたが、これを段階的に戻しましょう。
見過ごされている4つの重要なポイント
私はAndrejの作品から人々が話していない4つの注目されていないポイントをあなたに与えたいと思います。そして少しそれを掘り下げて、私の教訓について少し話したいと思います。第一に、Andrejが話していた断絶ではなく連続性について豊かな何かがあります。つまり、アイデアはビジネス計画においてヒューリスティックとして連続性を考えるということです。
着実な複利を仮定してください。能力の着実な複利を仮定してください。成長の着実な複利を仮定してください。着実な複利を仮定し、魔法のようなステップ変化を仮定しないでください。今日あなたが行う退屈な信頼性作業が関連性を持つと仮定してください。私たちが本当に欠けていることの一つは、将来に対する着実な感覚に錨を下ろすことへの回帰だと思います。なぜならAIは非常に不確実に感じられてきたからです。
そして私が感謝していることで、もっと人々が話してほしいと思うことの一つは、Andrejが将来の着実な感覚を見ているということです。Andrejはパニックになっていません。Andrejは実際にエージェントの問題を、完全に解決するならば、長い時間をかけて適切に考え抜いて解決する必要がある本当に難しい問題として見ています。それが彼がそれを組み立てた方法です。
私はビルダーとして見ていて、私たちがすでにエージェントを持っている世界のこの小さな部分について、うわあ、うまく構築するために建築的にしなければならないことがたくさんあると言っています。しかし良いニュースは、Andrejがあなたにはそれを行うための滑走路があると言っていることです、よね。今すぐうまく構築できます。断絶ではなく連続性。それはあなたが実践できる規律です。
それは否認の中で生きているわけではありません。そして私は人々が、物事が同じままだと信じるなら、あなたは否認の中で生きていると言うのを聞いたことがあります。絶対にそうです。AIに関連して大規模な変化があるでしょう。しかし私たちはこれらの変化に連続性を見るでしょう。私たちはこれらのトレンドを見ることができます。例として、AIのために仕事が進化しているのは本当ですか。そして私たちはそれらのパターンを追跡してトレンドを予測できるのも本当ですか。これも本当です。
私たちが理解できるトレンドラインに一種の連続性があります。グラフ上で文字通り、AI求人の線が上がっているのを見ることができます。はい、それも連続性です。なぜなら、新しい産業が形成されているのを見ることができ、新しい産業には新しい仕事があるからです。私たちは以前にそれを見てきました。歴史を通じたすべての主要な技術革新でそれを見てきました。
蒸気、鉄道、シリコンとコンピュータで、新しい仕事が形成されるのを見ます。AIでも同じです。実際にはそれほど違いはありません。私が十分に話されていないと思うもう一つのことは、彼の強化学習批判が反強化学習ではないということです。深く専門的な人々にとって、Andrejはもう強化学習を信じていないと示唆する多くの反応がありました。いいえ。
そして彼はこれを明確にしましたが、彼が使ったストローのメタファーは、初期バージョンの強化学習のすべてのトークンにわたって広がる疎な軌跡レベルのシグナルの種類に対する具体的な告発です。より豊かで、より細かい粒度の監督とより良いメモリがあれば、より高品質の強化学習に到達し始めることができます。
そしてそれがあなたの頭の上を越えているなら、それは大丈夫です。しかしあなたはそれを、彼がこれらの鈍いイエスかノーの道具を取ってモデル全体に適用するだけのときに得られるシグナルの欠如を批判していると受け取ることができます。それは私が先ほど話したことです。しかし彼は、より細かい粒度の監督、本当に高品質のデータ、改善されたメモリで強化学習の同じ原則を使うことができ、はるかに良い結果が得られると言っています。
そして彼は本質的に、私たちが強化学習をより上手に行い、よりリッチな方法でそれを行う方法について考えるよう求めています。それは良い挑戦だと思います。幸いにも私が対処する必要のないことですが、モデルメーカーコミュニティにいる人々にとっては関連性があります。私が十分にカバーされていないと思う第三のポイントは、人間の学習とLLMのトレーニングは単なるデータスケールの問題ではないということです。
人間の学習とAIの学習の本質的な違い
私たちは過去にこのアイデアについて話してきました。LLMを十分にトレーニングすれば、人間の学習に匹敵する点に到達できるかもしれないという考えです。彼が挑戦したのは、これは単なるデータスケールの問題ではないということです。Andrejのポイントは、耐久性のあるメモリなしではエージェントは人間の学習軌跡を近似しないということです。
あなたのエージェントがあなたのように記憶できなければ、あなたが学ぶ方法で学ぶことはできません。彼はメモリの問題に戻りました。今、プレスはこれをスロップと関連付けて、本当にネガティブでした。しかし私がより興味深いと思うポイントは、メモリの問題がAndrejが他の多くの問題の根本にあると見ているものだということです。
そして私たちがLLMが信頼性のある方法で記憶することを解決できれば、それに対応して多くの追加の力を解き放つことになります。私がクライアントにアドバイスしたり、エージェントシステムの構築について人々と仕事をしたりするときにすることの多くは、エージェントのメモリについて考えることです。このエージェントタスクにはどのメモリが必要か。それはどこに存在するのか。どのように更新されるのか。誰がそれに触れるのか。関係する権限は何か。時間とともにどのように変化するのか。私たちはメモリエンジニアリングを扱っています。
そしてAndrejが言っているのは、それは今やるのが難しいことだということです。彼は正しいです。そしてそれをより簡単にしようとするなら、今日解決されていないLLMのいくつかの根本的な問題を解決しなければならないでしょう。そしてそれは公正なポイントだと思います。私が十分に話されていないと思う第四のことは、彼が使った進化の類推です。
ある時点で彼はDwareshとのアイデアについて話します。DNAは一種の奇跡的な圧縮であり、私たちの人間としての全存在をこの小さなDNA鎖に圧縮できるということです。それでもどういうわけか私たちは出てきて、赤ちゃんとして学び始め、成長し、それはこの途方もない圧縮アルゴリズムになります。DNAが有用な学習生物を構築することに信じられないほど優れているところです。
そして私が思うに、ここで彼が指摘したことで、十分に話されなかったこと、確かにすべてのスロップの会話に埋もれてしまったことの一つは、彼が言ったことです。そしてこれはシリコンバレーの誰もが同意することではないのですが、彼は非常に明確に言いました。私たちはその類推を使うべきではない、それは人間が何であるかの説明かもしれない、動物が何であるかの説明かもしれないが、メタファーによってさえLLMの有用な説明ではないと。
言い換えれば、LLMがDNAを持っていないというだけではありません。私たちがその経路を模倣しようとすべきではないということです。なぜなら、私たちは有用で制御可能なツールを構築しようとしているからです。私たちは動物や生き物を構築しようとしているのではありません。彼に同意しない人もいるかもしれませんが、私はそれは本当に良いポイントだと思いますし、再び言う価値があると思います。
私たちは有用で制御可能なツールを構築しようとしており、私たちがこのほとんどに使っているメタファーは結局ツールのメタファーではなくなり、私たちはそれを使うことができます。なぜなら、私たちは人を構築していると言っているなら、間違ったものを最適化しようとしているからです。私たちは人を構築しているのではありません。
エージェントの10年が始まる
では、これはエージェントの10年なのでしょうか。私はそうだと言いますし、私の答えは楽観的だと思います。同じ言葉遣いで、プレスはそれを悲観的として拾い上げました。エージェントの観点から構築すべきことが非常にたくさんあります。私たちはまだ始まったばかりです。私がこれを見てすぐにしたことの一つは、戻って、これを私の記事に含めるつもりですが、過去に私がAIエージェントについてどのように書いてきたかを見返しました。
そして私は、Andrejがここで話していることと一致する、時の試練に耐えるAIエージェントの原則のいくつかを選び出したいと思います。そして私はあなたに、Andrejがここで話しているいくつかの原則に対して、あなたの現在のソフトウェアスタックにおけるAIエージェントの影響と格闘するのに役立つライトアッププロンプトを提供したいと思います。
私のエージェントは信頼性を仮定していますか。私のエージェントは連続性を仮定していますか。私のエージェントは適切にメモリを扱っていますか。私はこれらが本当に興味深い質問だと思います。私たちはそれらについて十分に話していませんし、このポッドキャストが私にとってそれらについて考えるための入り口のように感じられました。ですから、あなたもそれらについて考えたいなら、掘り下げることができます。そして私はそれについて全体の記事を書きました。楽しんでください。
いつものようにパニックにならないでください。そして次にシリコンバレーの投稿が炎上するまで待ちましょう。


コメント