Andrej Karpathy — AGIはまだ10年先である

*重要記事
この記事は約95分で読めます。

本動画は、OpenAIの創設メンバーであり、Teslaの自動運転部門を率いたAndrej Karpathyへのインタビューである。Karpathyは、AGIの実現には10年単位の時間が必要だと主張し、現在のAIエージェントには継続学習やマルチモーダル能力など多くの認知的欠陥が存在すると指摘している。彼は自動運転の開発経験から、デモと実用化の間には「9の行進」と呼ぶ膨大なギャップがあることを強調し、AI業界における過度な楽観論に警鐘を鳴らす。また、強化学習の限界、LLMの記憶と知能の分離の必要性、モデル崩壊の問題など、技術的な課題を詳細に論じている。後半では、彼が立ち上げた教育プロジェクトEurekaについて語り、AI時代における人間の役割と教育の重要性を訴えている。Karpathyの視点は、AI研究の最前線にいた人物ならではの実践的かつ冷静なものであり、AGIへの道のりがいかに複雑で困難かを示している。

Andrej Karpathy — “We’re summoning ghosts, not building animals”
The Andrej Karpathy episode. During this interview, Andrej explains why reinforcement learning is terrible (but everythi...

Andrej Karpathyが語るAGIへの長い道のり

今日はAndrej Karpathyさんとお話しします。Andrejさん、なぜこれが「エージェントの年」ではなく「エージェントの10年」になると言うのですか。

まず、お招きいただきありがとうございます。ここに来られて嬉しいです。今言及された「エージェントの10年だ」という引用は、実は既存の引用への反応なんです。誰が言ったのか正確には分からないのですが、LLMとそれがどう進化するかに関して、今年が「エージェントの年」になるだろうと示唆していました。それに対して私は反応したんです。というのも、業界には過剰予測が起きているからです。私の考えでは、これはより正確には「エージェントの10年」と表現すべきです。

私たちには非常に初期段階のエージェントがいくつかあって、それらは極めて印象的で、私も日常的に使っています。ClaudeやCodexなどですね。しかし、まだやるべきことがたくさんあると感じています。私の反応は、これらのものと10年間取り組むことになるだろうということです。それらは良くなっていくでしょうし、素晴らしいものになるでしょう。私はただ、その含意のタイムラインに反応していたんです。

10年かかると思うことは何ですか。ボトルネックは何でしょうか。

実際にそれを機能させることです。エージェントについて話すとき、あるいはラボが念頭に置いているもの、そして恐らく私も念頭に置いているものは、雇う従業員やインターンのようなものだと考えるべきです。例えば、あなたはここで何人かの従業員と働いていますよね。

ClaudeやCodexのようなエージェントにその仕事をしてもらいたいのはいつですか。現在、もちろん彼らにはできません。彼らがそれをできるようになるには何が必要でしょうか。なぜ今日それをしないのですか。今日それをしない理由は、単にうまく機能しないからです。彼らには十分な知能がありません。十分にマルチモーダルではありませんし、コンピューター使用などもできません。あなたが以前言及した多くのことができないんです。彼らには継続学習がありません。何かを伝えてもそれを覚えてはくれません。

彼らには認知的な欠如があり、機能していないんです。これらすべての問題に取り組むには約10年かかるでしょう。

興味深いですね。プロのポッドキャスターとして、そしてAIを遠くから見ている者として、何が欠けているかを特定するのは簡単です。継続学習が欠けているとか、マルチモーダリティが欠けているとか。しかし、それにタイムラインを設定する良い方法が私にはありません。

継続学習にどれくらいかかるか誰かに尋ねられても、これが5年、10年、50年かかるプロジェクトなのか、私には何の事前知識もありません。なぜ10年なのでしょうか。なぜ1年ではないのですか。なぜ50年ではないのでしょうか。

ここで少し私自身の直感に入り込むことになりますが、この分野での自分の経験に関して少し外挿しています。私はAIの分野にほぼ20年います。15年ほどになります、そんなに長くはありません。ここにはRichard Suttonさんもいらっしゃいましたが、彼はもっと長い間この分野にいます。私には約15年の経験があり、人々が予測を立て、それがどうなったかを見てきました。また、私は業界にしばらくいましたし、研究にもいました。業界でもしばらく働きました。そこから残っている一般的な直感があります。

問題は扱いやすく、克服可能だと感じていますが、それでも困難です。それを平均すると、私には10年という感じがするんです。

これは非常に興味深いです。歴史だけでなく、様々な画期的な瞬間に部屋にいた人々が何が起ころうとしていると感じていたかを聞きたいです。彼らの感覚が過度に悲観的だったり過度に楽観的だったりした方法は何でしたか。それらを一つずつ見ていくべきでしょうか。

それは巨大な質問ですね。15年分の出来事について話しているわけですから。AIは素晴らしいです。なぜなら、分野全体が突然異なる様相を呈する、いくつかの地殻変動的なシフトがあったからです。私はそのうちの2、3回を経験してきました。それらは驚くほどの規則性で来るので、今後も続くと思っています。

私のキャリアが始まったとき、私がディープラーニングに取り組み始めたとき、ディープラーニングに興味を持つようになったとき、これはトロント大学でGeoff Hintonのすぐ隣にいた偶然によるものでした。Geoff Hintonはもちろん、AIのゴッドファーザー的存在です。彼はこれらすべてのニューラルネットワークを訓練していました。私はそれが信じられないほど興味深いと思いました。これは、AIで皆が行っていた主なことでは全くありませんでした。これは脇にあるニッチな小さな主題でした。

それが恐らく最初の劇的な地殻変動的シフトで、AlexNetなどとともに来ました。AlexNetは皆を再方向付けし、皆がニューラルネットワークを訓練し始めましたが、それでもタスクごと、特定のタスクごとでした。画像分類器があったり、ニューラル機械翻訳があったり、そういったものです。人々は徐々にエージェントに興味を持つようになりました。

人々は「オーケー、視覚野か何かの隣にチェックマークがあるかもしれないが、脳の他の部分はどうか、そして世界と相互作用できる完全なエージェントや完全な実体をどうやって得られるか」と考え始めました。2013年頃のAtariディープ強化学習のシフトは、私の考えでは、エージェントの初期の取り組みの一部でした。なぜなら、世界を知覚するだけでなく、行動を取り、相互作用し、環境から報酬を得るエージェントを得ようとする試みだったからです。

当時、これはAtariゲームでした。これは誤った方向だったと感じています。私が参加していた初期のOpenAIでさえ採用した誤った方向でした。なぜなら当時、時代精神は強化学習環境、ゲーム、ゲームプレイ、ゲームを打ち負かすこと、様々な種類のゲームを手に入れることであり、OpenAIはその多くをやっていたからです。

それはAIの別の顕著な部分で、恐らく2、3、4年間、皆がゲームで強化学習をやっていました。それはすべて少し誤った方向でした。私がOpenAIでやろうとしていたことは、ゲームがAGIにつながるものだということに常に少し懐疑的でした。

なぜなら私の考えでは、会計士のような、現実世界と相互作用する何かが欲しいからです。ゲームがそれにどうつながるのか見えませんでした。例えば、OpenAIでの私のプロジェクトは、Universeプロジェクトの範囲内で、キーボードとマウスを使ってウェブページを操作するエージェントでした。実際のデジタル世界と相互作用でき、知識労働ができる何かが本当に欲しかったんです。

ただ、これは極めて早すぎて、あまりにも早すぎて、私たちはそれに取り組むべきではありませんでした。なぜなら、ただよろよろと歩き回り、キーボードを叩き、マウスをクリックして、これらの環境で報酬を得ようとすると、報酬が疎すぎて学習できないからです。森のような量の計算を燃やすことになり、地面から何も立ち上がることはありません。

欠けているのは、ニューラルネットワークにおけるこの表現の力です。例えば、今日では人々はこれらのコンピューター使用エージェントを訓練していますが、彼らは大規模言語モデルの上でそれを行っています。まず言語モデルを手に入れ、まず表現を手に入れなければなりません。そして、すべてのプレトレーニングとすべてのLLMのことでそれを行わなければなりません。

完全なものを早く手に入れようと人々が何度か試みていたと、大まかに言えば感じています。人々は本当にエージェントに早すぎる段階で取り組もうとしていました。それがAtariでありUniverseであり、私自身の経験でもありました。これらのエージェントに到達する前に、いくつかのことを最初にやらなければなりません。今、エージェントははるかに有能になっていますが、恐らくそのスタックのいくつかの部分がまだ欠けています。

私が言うなら、人々がやっていたことの3つの主要なバケツは次のようなものでしょう。タスクごとにニューラルネットワークを訓練すること、エージェントの最初のラウンドを試みること、そして恐らくLLMであり、他のすべてをその上に付け加える前に、ニューラルネットワークの表現力を求めることです。

興味深いですね。もしSuttonの視点を最も強い形で主張するなら、人間は一度にすべてを受け取ることができる、あるいは動物でさえ一度にすべてを受け取ることができるということになるでしょう。動物は恐らくより良い例です。なぜなら彼らは言語の足場さえ持っていないからです。彼らはただ世界に放り出され、ラベルなしですべてを理解しなければなりません。

そうすると、AGIのビジョンは、感覚データを見て、コンピューター画面を見て、ゼロから何が起こっているかを理解するだけのものであるべきです。もし人間が同様の状況に置かれ、ゼロから訓練されなければならなかったら…これは人間が成長したり、動物が成長したりするようなものです。

なぜそれがAIのビジョンであるべきではないのでしょうか。何百万年もの訓練をやっているこのやり方ではなく。

それは本当に良い質問です。Suttonさんはあなたのポッドキャストに出演していましたし、私もそのポッドキャストを見ました。そのポッドキャストについて、私がどう見ているかについて書いたものがあります。私は動物に類推するのに非常に慎重です。なぜなら、彼らは非常に異なる最適化プロセスによって生まれたからです。

動物は進化してきており、組み込まれた大量のハードウェアとともにやってきます。例えば、その投稿での私の例はシマウマでした。シマウマは生まれて、数分後には走り回って母親について行っています。これは極めて複雑なことです。これは強化学習ではありません。これは焼き込まれているものです。進化は明らかに、私たちのニューラルネットの重みをATCGでエンコードする何らかの方法を持っており、私はそれがどう機能するか全く分かりませんが、明らかに機能しています。

脳は非常に異なるプロセスから来たものであり、私はそこからインスピレーションを得ることに躊躇しています。なぜなら、私たちは実際にそのプロセスを実行していないからです。私の投稿では、私たちは動物を構築していないと言いました。私たちは幽霊や精霊、あるいは人々が何と呼ぼうとするものを構築しています。なぜなら、私たちは進化による訓練を行っていないからです。

私たちは人間の模倣と、彼らがインターネットに置いたデータによって訓練を行っています。これらの霊的な精神実体になってしまいます。なぜなら、彼らは完全にデジタルで人間を模倣しているからです。これは異なる種類の知能です。知能の空間を想像すると、私たちはほぼ異なる地点から始めています。私たちは本当に動物を構築しているわけではありません。しかし、時間とともに彼らをもう少し動物のようにすることも可能で、私たちはそれをやるべきだと思います。

もう一つのポイント。私はSuttonが非常に…彼のフレームワークは「動物を構築したい」というものだと感じています。それがうまくいけば素晴らしいことだと思います。それは驚くべきことでしょう。インターネット上で実行できる単一のアルゴリズムがあって、それがすべてを学習するなら、信じられないことです。

それが存在するかどうか分かりませんし、それは確かに動物がやっていることではありません。なぜなら動物には進化という外側のループがあるからです。学習のように見えることの多くは、むしろ脳の成熟のようなものです。動物にとって強化学習は非常に少ないと思います。強化学習の多くは運動タスクのようなもので、知能タスクではありません。だから実際、人間はRLをあまり使っていないと思います、大まかに言えば。

最後の文を繰り返してもらえますか。強化学習の多くは運動タスクではない知能…何でしたっけ、すみません。

強化学習の多くは、私の見方では、運動のようなもの、フープを投げるような単純なタスクになるでしょう。しかし、人間は問題解決などの多くの知能タスクに強化学習を使っているとは思いません。

それが研究のためにそれをやるべきではないという意味ではありませんが、それが動物がやっていることか、やっていないことだと感じているだけです。

消化するのに少し時間がかかります。たくさんの異なるアイデアがありますから。視点を理解するために尋ねられる一つの明確化の質問があります。あなたは、進化がプレトレーニングがやるような種類のことをやっていると示唆していますね。つまり、世界を理解できる何かを構築するという意味で。

違いは、進化の場合、人間の場合は3ギガバイトのDNAを通して滴定されなければならないということです。それはモデルの重みとは非常に異なります。文字通り、モデルの重みは脳であり、それは明らかに精子と卵子には存在しません。だから成長させなければなりません。

また、脳のすべてのシナプスの情報は、DNAに存在する3ギガバイトに単純に存在できません。進化は、その後生涯学習を行うアルゴリズムを見つけることに近いように見えます。さて、恐らく生涯学習はRLに類似していないかもしれません、あなたの指摘通りです。それはあなたが言っていたことと互換性がありますか、それとも反対でしょうか。

そう思います。あなたに同意します。何らかの奇跡的な圧縮が起こっていることに。なぜなら明らかに、ニューラルネットの重みはATCGに保存されていないからです。何らかの劇的な圧縮があります。オンラインで学習の一部を引き継ぐ、何らかの学習アルゴリズムがエンコードされています。私は確かにあなたに同意します。

私はずっと実践的な考え方をしていると言えるでしょう。私は「動物を構築しよう」という視点からは来ていません。「役に立つものを構築しよう」という視点から来ています。私はヘルメットを被っていて、進化はやらないだろうということを観察しているだけです。なぜなら、その方法が分からないからです。

しかし、インターネット文書を模倣することで、これらの幽霊、精霊のような実体を構築できることが分かりました。これは機能します。進化がやったことに似た、何らかの方法で多くの組み込み知識と知能を持つ何かにあなたを引き上げる方法です。だから私はプレトレーニングをこの「くそったれな進化」と呼んでいます。

これは私たちの技術と私たちが利用できるもので実際に可能なバージョンであり、強化学習などができる出発点に到達するためのものです。この他のSuttonのインタビューをやって少し考えた後、彼にはここで重要なポイントがあります。

進化は本当に知識を与えてくれるわけではありません。知識を見つけるためのアルゴリズムを与えてくれるのであり、それはプレトレーニングとは異なるように見えます。恐らく視点は、プレトレーニングはより良く学習できる種類の実体を構築するのに役立つということです。メタ学習を教えているので、アルゴリズムを見つけることに似ています。しかし、もし「進化は知識を与え、プレトレーニングは知識を与える」なら、その類推は崩れるように見えます。

微妙で、あなたが反論するのは正しいと思いますが、基本的にプレトレーニングがやっていることは、インターネット上で次のトークン予測器を得ていて、それをニューラルネットに訓練しているということです。それは無関係な2つのことをやっています。第一に、私が知識と呼ぶこのすべてを拾い上げています。第二に、実際に知能になっています。

インターネット内のアルゴリズムパターンを観察することで、コンテキスト内学習などをするための、ニューラルネット内のこれらすべての小さな回路とアルゴリズムを起動させます。知識は必要ないか、欲しくないんです。それがニューラルネットワークを全体的に妨げていると思います。なぜなら、知識に時々頼りすぎるようになっているからです。

例えば、エージェントが得意でないことの一つは、インターネットに存在するデータ多様体から外れることだと感じています。もし彼らがより少ない知識やより少ない記憶を持っていたら、恐らくより良くなるでしょう。今後私たちがやらなければならないこと、そしてこれは研究パラダイムの一部になるでしょうが、知識の一部を取り除き、私が認知コアと呼ぶものを保持する方法を見つけることです。

それは知識から切り離された知的実体ですが、アルゴリズムを含み、知能と問題解決の魔法、その戦略などを含んでいます。そこには非常に興味深いことがたくさんあります。コンテキスト内学習から始めましょう。これは明白なポイントですが、明示的に言って瞑想する価値があると思います。

これらのモデルが最も知的に見える状況、つまり私が彼らと話していて「ワオ、物事について考えて私に応答している何かが本当に反対側にいる」と感じる状況は、もし間違いを犯したら「ああ待って、それは考える間違った方法だ。戻るよ」と言うようなときです。そのすべてがコンテキストで起こっています。私が実際に知能を目に見える形で感じるのは、そこだと感じています。

そのコンテキスト内学習プロセスは、プレトレーニング上の勾配降下によって開発されています。それは自発的にコンテキスト内学習をメタ学習しますが、コンテキスト内学習自体は勾配降下ではありません。人間として物事を行う能力である私たちの生涯知能が進化によって条件付けられているのと同じように、しかし私たちの生涯中の学習は他のプロセスを通じて起こっています。

それには完全には同意しませんが、あなたの考えを続けてください。その類推がどう崩れるのか理解したいです。

コンテキスト内学習が勾配降下をやっていないとは言いたくありません。明示的な勾配降下はやっていません。コンテキスト内学習は、トークンウィンドウ内でのパターン完成です。インターネット上には膨大な量のパターンがあることが分かります。

モデルはパターンを完成させることを学び、それは重みの内部にあります。ニューラルネットワークの重みは、パターンを発見してパターンを完成させようとしています。ニューラルネットワーク内で起こる何らかの適応があり、それは魔法的で、インターネットからただ出てきます。たくさんのパターンがあるからです。

コンテキスト内学習の背後にあるメカニズムを見た論文がいくつかあって、興味深いと思いました。コンテキスト内学習が内部的に、ニューラルネットワークの層で小さな勾配降下ループを実行している可能性があると思います。特に覚えている論文の一つは、コンテキスト内学習を使って線形回帰をやっていました。

ニューラルネットワークへの入力は、線上にあるXYペア、XY、XY、XYです。それからXをやって、Yを期待します。このように訓練すると、ニューラルネットワークは線形回帰を行います。通常、線形回帰を実行するとき、XYを見て、誤差を見て、重みの勾配を計算し、数回更新を行う小さな勾配降下オプティマイザーがあります。

そのコンテキスト内学習アルゴリズムの重みを見たとき、彼らは勾配降下メカニズムに対する類推を見つけました。実際、その論文はさらに強力だったと思います。なぜなら、彼らはアテンションとニューラルネットワークのすべての内部を通じて勾配降下を行うために、ニューラルネットワークの重みをハードコーディングしたからです。それが私の唯一の反論です。コンテキスト内学習がどう機能するか誰が知っていますが、恐らく内部で何らかの奇妙な勾配降下を少しやっているのでしょう。

それは可能だと思います。私は、コンテキスト内学習をやっていないとあなたが言ったことに反論していただけです。何をやっているか誰が知っていますが、恐らくそれに似た何かをやっているかもしれませんが、私たちは知りません。

それで考える価値があるのは、もしコンテキスト内学習とプレトレーニングが両方とも勾配降下のようなものを実装しているなら、なぜコンテキスト内学習で継続学習、本当の知能のようなものに到達していると感じるのでしょうか。プレトレーニングからは類似の感覚を得ません。同じアルゴリズムなら、何が違うのでしょうか。

一つの考え方は、モデルが訓練から受け取る情報ごとに、どれだけの情報を保存するかということです。プレトレーニングを見ると、例えばLlama 3を見ると、15兆トークンで訓練されていると思います。70Bモデルを見ると、それはプレトレーニングで見るトークンごとに0.07ビットに相当します、モデルの重みの情報と読むトークンを比較すると。

一方、KVキャッシュと、コンテキスト内学習で追加トークンごとにどう成長するかを見ると、それは320キロバイトのようなものです。だからトークンごとにモデルが同化する情報量に3500万倍の違いがあります。それが何らかの関連性があるかどうか気になります。

それにはある程度同意します。私が通常これを表現する方法は、ニューラルネットワークの訓練中に起こることは何でも、知識は訓練時に起こったことのぼんやりした記憶に過ぎないということです。それは圧縮が劇的だからです。15兆トークンを取って、それをほんの数十億パラメータの最終的なニューラルネットワークに圧縮しているわけです。明らかに、膨大な量の圧縮が起こっています。だから私はそれをインターネット文書のぼんやりした記憶と呼んでいます。

一方、ニューラルネットワークのコンテキストウィンドウで起こることは、すべてのトークンを差し込んで、すべてのKVキャッシュ表現を構築していて、それはニューラルネットにとって非常に直接的にアクセス可能です。だから私は、KVキャッシュとテスト時に起こるものを、作業記憶のようなものに例えています。

コンテキストウィンドウにあるすべてのものは、ニューラルネットに非常に直接的にアクセス可能です。LLMと人間の間には、常にこれらのほとんど驚くべき類推があります。私はそれらが驚きだと感じています。なぜなら、私たちは人間の脳を直接構築しようとしているわけではないからです。これが機能することを発見しているだけで、それをやっているんです。

しかし、重みにあるものは何でも、1年前に読んだもののぼんやりした記憶だと思います。テスト時にコンテキストとして与えるものは何でも、作業記憶に直接入っています。これは物事を考え抜くための非常に強力な類推です。例えば、LLMに行って、ある本について、そこで何が起こったか尋ねるとき、Nick Laneの本か何かのように、LLMはしばしば大体正しいことを与えてくれます。

しかし、完全な章を与えて質問すると、はるかに良い結果が得られます。なぜなら今、それがモデルの作業記憶に読み込まれているからです。だから非常に長い道のりを経て、私は同意すると言っているわけです、そしてそれが理由です。

一歩下がって、私たちがこれらのモデルで複製に最も失敗している人間の知能の部分は何でしょうか。

たくさんあります。だからある意味での考え方、これが最良の方法かどうか分かりませんが、私はほとんど、これらの類推は不完全ではありますが、極めて強力で非常に一般的なトランスフォーマーニューラルネットワークで偶然つまずいたように感じています。

トランスフォーマーは音声、動画、テキスト、何でも欲しいものに訓練できて、それはただパターンを学習し、非常に強力で、本当にうまく機能します。それは私にとって、これが皮質組織の一部であることをほとんど示しています。そのようなものです。なぜなら、皮質は有名に非常に可塑的だからです。

脳の一部を再配線できます。視覚野を聴覚野に再配線する、少し残酷な実験がありました。この動物は問題なく学習しました、など。だから私は、これが皮質組織だと思います。ニューラルネットワーク内で推論と計画を行っているとき、思考モデルのために推論トレースをやっているとき、それは前頭前野のようなものです。恐らくそれらは小さなチェックマークのようなものですが、まだ探索されていない多くの脳の部分と神経核があると思います。

例えば、モデルに強化学習でファインチューニングするとき、少し強化学習を行う基底核があります。しかし、海馬はどこにありますか。それが何であるか明白ではありません。一部の部分は恐らく重要ではありません。恐らく小脳は認知、思考にとって重要ではないので、その一部は飛ばしてもいいかもしれません。しかし、例えば扁桃体、すべての感情と本能があります。

恐らく、私たちが本当に複製していない、非常に古い脳内の他の神経核がたくさんあるでしょう。私たちが人間の脳の類似物の構築を追求すべきかどうか分かりません。私は心の中ではほとんどエンジニアです。恐らく質問に答える別の方法は、これをインターンとして雇うつもりはないということです。

まだ完全にそこに達していないので、多くが欠けています。なぜなら、私たち全員がモデルと話すときに直感的に感じる、多くの認知的欠陥を伴ってやってくるからです。だからまだ完全にそこには達していません。まだすべての脳の部分がチェックオフされていないと見ることができます。

これは、これらの問題がどれほど速く解決されるかを考えることに関連しているかもしれません。時々人々は継続学習について言います。「見てください、この能力を簡単に複製できます。コンテキスト内学習がプレトレーニングの結果として自発的に出現したように、より長い時間範囲での継続学習は、モデルがより長い時間範囲、つまり1セッションより長い時間範囲で情報を思い出すようインセンティブを与えられれば、自発的に出現するでしょう」と。

だから、その外側のループRL内に多くのセッションがある何らかの外側のループRLがあれば、この継続学習、つまり自分自身をファインチューニングするか、外部メモリに書き込むかするものは、ただ自発的に出現するでしょう。そのようなことは妥当だと思いますか。私はそれがどれほど妥当か、事前知識がないんです。それが起こる可能性はどれくらいですか。

それに完全には共鳴しません。これらのモデルは、起動してウィンドウにゼロトークンがあるとき、常に彼らがいた場所からゼロからリスタートしています。だからその世界観で何がどう見えるのか分かりません。

恐らく人間に類推を作る、それが大体具体的で考え抜くのに興味深いと思うので、私が起きているとき、一日の間に起こっていることのコンテキストウィンドウを構築していると感じています。しかし眠りにつくとき、何か魔法的なことが起こり、そのコンテキストウィンドウは残らないと思います。

重みへの何らかの蒸留プロセスがあります。これは睡眠中などに起こります。大規模言語モデルにはそれに相当するものがありません。それが私にとって、継続学習などについて話すときに、より隣接しているものです。これらのモデルには本当に、起こったことを取り、それを執拗に分析し、考え抜き、何らかの合成データ生成プロセスを行い、それを重みに蒸留し直す蒸留フェーズがありません。恐らく人ごとに特定のニューラルネットがあります。恐らくそれはLoRAです。完全な重みのニューラルネットワークではありません。変更される重みのほんの小さなスパースなサブセットです。

しかし、非常に長いコンテキストを持つこれらの個人を作成する方法を作りたいと思います。コンテキストウィンドウに残るだけではありません。なぜならコンテキストウィンドウは非常に、非常に長く成長するからです。恐らく、その上に非常に精巧なスパースアテンションがあります。しかし、人間には明らかに、その知識の一部を重みに蒸留する何らかのプロセスがあります。それが欠けています。人間には非常に精巧なスパースアテンションスキームがあるとも思いますし、その初期の兆候を見始めていると思います。

DeepSeek v3.2が出たばかりで、彼らがスパースアテンションを持っているのを見ました。例えば、これは非常に、非常に長いコンテキストウィンドウを持つ一つの方法です。だから私たちは、進化が非常に異なるプロセスを通じて思いついた認知的トリックの多くをやり直していると感じています。しかし、認知的に似たアーキテクチャに収束していくでしょう。

10年後、それはまだトランスフォーマーのようなものだと思いますか。しかし、はるかに修正されたアテンションとよりスパースなMLPなどがありますか。

私がそれについて考えるのが好きな方法は、時間における平行移動不変性です。だから10年前、私たちはどこにいましたか。2015年。2015年には主に畳み込みニューラルネットワークがあり、残差ネットワークがちょうど出てきました。

だから驚くほど似ていると思いますが、それでもまだかなり異なっています。トランスフォーマーは存在していませんでした。トランスフォーマーに関するこれらすべてのより現代的な調整は存在していませんでした。恐らく私たちが賭けられるものの一部、10年後の平行移動等価性によって、私たちはまだ順伝播と逆伝播、そして勾配降下による更新で巨大なニューラルネットワークを訓練しているでしょうが、少し違って見えるかもしれません。そしてすべてがはるかに大きいだけです。

最近、私は1989年まで遡りました。これは数年前の私にとって楽しい演習でした。なぜなら、Yann LeCunの1989年の畳み込みネットワークを再現していたからです。それは私が知る限り、勾配降下で訓練された最初のニューラルネットワークでした、数字認識における現代的なニューラルネットワークの勾配降下訓練のようなものです。これをどう現代化できるか興味がありました。

これのうち、どれだけがアルゴリズムなのか。どれだけがデータなのか。この進歩のどれだけが計算とシステムなのか。私は33年のタイムトラベルによって学習を非常に速く半減させることができました。だから、アルゴリズムで33年タイムトラベルすれば、1989年にYann LeCunがやったことを調整できて、エラーを半減させることができました。

しかしさらなる利得を得るには、もっと多くのデータを追加しなければなりませんでした。訓練セットを10倍にしなければなりませんでした。それからもっと多くの計算最適化を追加しなければなりませんでした。ドロップアウトや他の正則化技術でもっと長く訓練しなければなりませんでした。だから、これらすべてのものが同時に改善しなければなりません。

恐らく、もっと多くのデータがあり、恐らくもっと良いハードウェアがあり、恐らくもっと良いカーネルとソフトウェアがあり、恐らくもっと良いアルゴリズムがあるでしょう。それらすべて、そのうちの一つが勝ちすぎているわけではありません。それらすべてが驚くほど平等です。これはしばらくの間のトレンドです。だからあなたの質問に答えると、今日起こっていることとはアルゴリズム的に違いがあると期待しています。しかし、非常に長い間存在し続けているものの一部は、恐らくまだそこにあるでしょう。恐らくまだ勾配降下で訓練された巨大なニューラルネットワークです。それが私の推測です。

それらすべてを合わせてもエラーを半減させただけというのは驚きです、30年の進歩が…。恐らく半分は大きいです。なぜならエラーを半減させるなら、それは実際には…

半分は大きいです。しかし、私にとって衝撃的だったのは、すべてが全面的に改善する必要があるということです。アーキテクチャ、オプティマイザー、損失関数。それも永遠に全面的に改善してきました。だから、私はそれらすべての変化が生きていて健在であることを期待しています。

そうですね。nanochatについて非常に似た質問をしようとしていたところです。あなたが最近それをコーディングしたばかりなので、チャットボットを構築するプロセスのすべての単一ステップがあなたのRAMに新鮮です。「ああ、GPT-2からnanochatに行くのに関連した一つのものはなかった」のような似た考えがあったかどうか興味があります。経験から驚くべき収穫は何ですか。

nanochatを構築することについてですか。だからnanochatは私がリリースしたリポジトリです。昨日だったか一昨日でしたか。覚えていません。それに注ぎ込まれた睡眠不足が見えますね…。

これは、ChatGPTクローンを構築する全パイプラインをエンドツーエンドでカバーする、最もシンプルで完全なリポジトリであろうとしています。だからすべてのステップがあります、個々のステップだけでなく、それはたくさんです。私は過去に個々のステップすべてに取り組んで、アルゴリズム的な意味で、シンプルなコードでそれがどう行われるかを示すコードの小さな断片をリリースしました。しかしこれは全パイプラインを扱います。

学習という点では、必ずしもそれから何かを学んだとは思いません。どう構築するかは既に頭の中にありました。これは機械的にそれを構築し、人々が学べるように、そして彼らが役立つと感じるように十分にクリーンにするプロセスでした。

誰かがそれから学ぶ最良の方法は何でしょうか。すべてのコードを削除してゼロから再実装しようとするのか、それに修正を加えようとするのか。

それは素晴らしい質問です。基本的にそれは、全パイプラインを通してあなたを連れて行く約8,000行のコードです。恐らく右のモニターに置くでしょう。2つのモニターがあれば、右に置きます。ゼロから構築したいなら、最初から構築します。コピペは許されません、参照は許されます、コピペは許されません。恐らくそれが私のやり方です。

しかし、リポジトリ自体もかなり大きな獣だと思います。このコードを書くとき、上から下へは行きません。チャンクから行って、チャンクを成長させます。その情報は欠けています。どこから始めればいいか分からないでしょう。だから、最終的なリポジトリだけでなく、リポジトリの構築、つまり複雑なチャンク成長プロセスが必要なんです。その部分はまだそこにありません。

恐らく今週後半に追加したいです。恐らく動画か何かです。大まかに言えば、それが私がやろうとすることです。自分でものを構築してください、しかしコピペは許可しないでください。知識には2種類あると思います。

高レベルの表面的な知識がありますが、何かをゼロから構築するとき、自分が理解していないこと、そして理解していないことを理解していないことに向き合わされます。それは常により深い理解につながります。それが構築する唯一の方法です。構築できなければ、理解していません。それはFeynmanの引用だと思います。私は100%、これを常に非常に強く信じてきました。なぜなら、適切に配置されていない微細なことがすべてあり、本当に知識を持っていないからです。知識を持っていると思っているだけです。

だからブログ投稿を書かないでください、スライドをやらないでください、そういうことは何もしないでください。コードを構築し、配置し、機能させてください。それが唯一の方法です。そうでなければ、知識が欠けています。

あなたは、このリポジトリを組み立てるのにコーディングモデルがほとんど役に立たなかったとツイートしていました。なぜそうだったのか興味があります。

リポジトリを1ヶ月ちょっとの期間で構築したと思います。人々が今コードとどう相互作用するかには、3つの主要なクラスがあると言えるでしょう。

一部の人々はLLMのすべてを完全に拒否していて、ただゼロから書いています。これは恐らくもう正しいことではありません。中間の部分、それが私がいる場所ですが、まだゼロから多くのものを書きますが、今これらのモデルから利用可能なオートコンプリートを使います。だから、その小さな部分を書き始めると、それがあなたのためにオートコンプリートしてくれて、タップして進めます。

ほとんどの場合正しく、時々正しくなく、編集します。しかし、あなたはまだ書いているものの設計者です。それからバイブコーディングがあります。「やあ、これやあれを実装してください」、エンター、それからモデルにやらせる。それがエージェントです。

エージェントは非常に特定の設定で機能すると感じますし、特定の設定で使うでしょう。しかしこれらはすべてあなたが利用できるツールで、何が得意で何が得意でないか、いつ使うかを学ばなければなりません。だからエージェントは、例えば定型的なことをやっているなら、かなり得意です。コピペのような定型コードは、彼らは非常に得意です。

インターネットで非常に頻繁に発生するものには非常に得意です。なぜならこれらのモデルの訓練セットにその例がたくさんあるからです。モデルが非常にうまくやる物事の特徴があります。nanochatはそれらの例ではないと言えるでしょう。なぜならそれはかなりユニークなリポジトリだからです。私が構造化した方法では、それほど多くのコードはありません。定型コードではありません。

ほとんど知的に集中的なコードで、すべてが非常に正確に配置されなければなりません。モデルには非常に多くの認知的欠陥があります。一つの例は、彼らがコードを誤解し続けたことです。なぜなら、彼らはインターネット上の典型的なやり方すべてからあまりにも多くの記憶を持っていて、私がただ採用していなかったからです。

例えば、モデルは、完全な詳細に入りたくはありませんが、私が通常のコードを書いていると思い続けました、そして私はそうではありません。恐らく一つの例は。8つのGPUがあって、すべてが順伝播、逆伝播をやっています。それらの間で勾配を同期する方法は、PyTorchのDistributed Data Parallelコンテナを使うことです。逆伝播をやっているとき、自動的に通信を開始し、勾配を同期します。

私はDDPを使いませんでした。なぜなら使いたくなかったからです。なぜなら必要ないからです。それを投げ出して、オプティマイザーのステップ内にある自分自身の同期ルーチンを書きました。モデルは私にDDPコンテナを使わせようとしていました。彼らは非常に心配していました。これは技術的すぎますが、私はそのコンテナを使っていませんでした。なぜなら必要なく、それに似た何かのカスタム実装があるからです。

彼らはただ、あなたが独自のものを持っていることを内面化できませんでした。それを乗り越えられませんでした。スタイルを台無しにしようとし続けました。彼らはあまりにも過度に防御的です。これらすべてのtry-catch文を作ります。プロダクションコードベースを作ろうとし続けます、そして私のコードには多くの前提があり、それで大丈夫です。

そこにこのすべての余分なものは必要ありません。だから、彼らはコードベースを肥大化させ、複雑さを肥大化させ、誤解し続け、非推奨のAPIを何度も使っていると感じます。完全に混乱です。ネットで有用ではありません。入って、クリーンアップできますが、ネットで有用ではありません。また、英語で欲しいものをタイプアウトしなければならないのは面倒だと感じます。タイピングが多すぎるからです。

もし欲しいコードの部分にナビゲートして、コードが現れなければならない場所に行き、最初の数文字を書き始めるだけなら、オートコンプリートがそれを手に入れて、コードを与えてくれます。これは、欲しいものを指定するための非常に高い情報帯域幅です。

欲しい場所にコードを指し示し、最初の数ピースをタイプアウトすると、モデルが完成させます。だから私が言いたいのは、これらのモデルはスタックの特定の部分で良いということです。私がモデルを使った2つの例があり、それは示唆的だと思います。一つはレポートを生成したときです。それはより定型的なので、そのもののいくつかを部分的にバイブコーディングしました。それは大丈夫でした。なぜならミッションクリティカルなものではなく、うまく機能するからです。

もう一つの部分は、トークナイザーをRustで書き直していたときです。私はRustがそれほど得意ではありません。なぜならRustはかなり新しいからです。だから、Rustコードの一部を書いているとき、少しバイブコーディングが起こっていました。しかし、完全に理解しているPython実装があり、ただそのより効率的なバージョンを作っていて、テストがあるので、そういうことをやるのがより安全に感じます。

彼らは、あなたがそれほど馴染みがないかもしれない言語やパラダイムへのアクセシビリティを高めます。そこでも非常に役立つと思います。たくさんのRustコードがあり、モデルはそれにかなり得意です。私はそれについてそれほど知らないので、モデルはそこで非常に有用です。

この質問が非常に興味深い理由は、AIが爆発してかなり急速に超知能に到達することについて人々が持っている主なストーリーが、AIがAIエンジニアリングとAI研究を自動化することだからです。彼らは、Claude Codeを持って、CRUDアプリケーション全体をゼロから作れるという事実を見て、「OpenAIやDeepMindやすべての中に同じ能力があったら、並列で1000人のあなたや100万人のあなたがいて、小さなアーキテクチャの調整を見つけていると想像してみてください」と考えます。

彼らがこれに非対称的に悪いということを聞くのは非常に興味深いです。AI 2027型の爆発が近い将来起こる可能性が高いかどうかを予測することに非常に関連しています。

それは良い言い方ですね、そしてなぜ私のタイムラインが少し長いのかに到達しています。あなたは正しいです。彼らは、これまで書かれたことのないコードにはあまり得意ではありません、恐らくそれが言い方の一つで、それは私たちがこれらのモデルを構築しようとしているときに達成しようとしていることです。

非常に素朴な質問ですが、nanochatに追加しているアーキテクチャの調整、それらはどこかの論文にありますよね。どこかのリポジトリにさえあるかもしれません。「RoPE埋め込みを追加して」とかあなたが言ったときに、彼らがそれを統合できないのは驚きですか、彼らはそれを間違った方法でやりますか。

難しいです。彼らは知っていますが、完全には知りません。それをレポジトリとあなたのスタイルとあなたのコードとあなたの場所、そしてあなたがやっているカスタムなものの一部、そしてそれがリポジトリのすべての前提とどう適合するかに完全に統合する方法を知りません。彼らは何らかの知識を持っていますが、それを統合して意味を成すことができる場所には到達していません。

多くのものが改善し続けています。現在、私が行く最先端のモデルはGPT-4o Proで、それは非常に強力なモデルです。もし20分あれば、私のリポジトリ全体をコピペして、GPT-4o Pro、オラクルに、いくつかの質問のために行きます。しばしばそれは悪くなく、1年前に存在していたものと比べて驚くほど良いです。

全体として、モデルはそこにありません。業界は大きすぎるジャンプをしていて、これが素晴らしいかのように振る舞おうとしていると感じます、そしてそうではありません。スロップです。彼らはそれに向き合っていません。恐らく資金調達をしようとしているか何かです。何が起こっているか分かりませんが、この中間段階にいます。モデルは素晴らしいです。まだ多くの作業が必要です。今のところ、オートコンプリートが私のスイートスポットです。しかし時々、いくつかのタイプのコードでは、LLMエージェントに行きます。

これが本当に興味深い別の理由があります。プログラミングの歴史を通じて、コンパイラ、リンティング、より良いプログラミング言語など、プログラマーの生産性を向上させた多くの改善がありましたが、爆発にはつながっていません。

それはオートコンプリートタブに非常に似ているように聞こえます。そして、このもう一つのカテゴリーは、プログラマーの自動化です。より良いコンパイラか何かの歴史的な類推のカテゴリーにより多くを見ているというのは興味深いです。

恐らくこれは別の考えにつながります。これらの会話で、どこでAIが始まり、止まるのか区別するのが難しいです。なぜなら、AIを根本的にコンピューティングの拡張として見ているからです、かなり根本的な方法で。この再帰的な自己改善やプログラマーの高速化の連続体を、最初から見ています。コードエディタ、構文ハイライト、あるいは型のチェック、データ型チェックのようなもの、私たちがお互いのために構築してきたこれらすべてのツール。検索エンジンさえも。

なぜ検索エンジンはAIの一部ではないのですか。ランキングはAIです。ある時点で、Googleは初期でさえ、Google検索エンジンをやっているAI企業として自分たちを考えていました。それは全く公正です。私はそれを他の人々よりもはるかに連続体として見ています。そして線を引くのが難しいです。

私たちは今、はるかに良いオートコンプリートを手に入れていると感じます。そして今、これらのループするものであるいくつかのエージェントも手に入れていますが、彼らは時々レールを外れます。何が起こっているかというと、人間が徐々に低レベルのものを少しずつやらなくなっているということです。

アセンブリコードを書いていません。なぜならコンパイラがあるからです。コンパイラは私のC言語の高レベル言語を取って、アセンブリコードを書いてくれます。私たちは非常に、非常にゆっくりと自分自身を抽象化しています。私が「自律性スライダー」と呼ぶものがあります。より多くのものが自動化されます、任意の時点で自動化できるもののうち、そして私たちは少しずつやることが減っていき、自動化の上の抽象化の層で自分自身を引き上げています。

強化学習とその限界

RLについて少し話しましょう。あなたはこれについて非常に興味深いことをツイートしていました。概念的に、私たち人間が環境と相互作用するだけで豊かな世界モデルを構築できる方法、そしてエピソードの最後の最終的な報酬とほとんど無関係に見える方法について、どう考えるべきでしょうか。

もし誰かがビジネスを始めていて、10年後の最後に、ビジネスが成功したか失敗したかを知るなら、私たちは彼女が多くの知恵と経験を得たと言います。しかしそれは、過去10年間に起こったすべての単一のもののログ確率が上方重み付けまたは下方重み付けされたからではありません。もっと意図的で豊かな何かが起こっています。

MLの類推は何でしょうか。そしてそれは今LLMでやっていることとどう比較されますか。

恐らく私が言う方法は、人間は強化学習を使わないということです、私が言ったように。彼らは何か違うことをしていると思います。強化学習は、平均的な人が思うよりずっと悪いです。強化学習はひどいです。ただ、その前にあったすべてのものがはるかに悪いというだけです。なぜなら以前は人々を模倣していただけで、それにはこれらすべての問題があるからです。

強化学習では、数学の問題を解いているとしましょう。非常にシンプルだからです。数学の問題が与えられて、解を見つけようとしています。強化学習では、まず並列で多くのことを試します。問題が与えられ、何百もの異なる試みを試します。これらの試みは複雑になり得ます。「ああ、これを試してみよう、あれを試してみよう、これはうまくいかなかった、あれはうまくいかなかった」などのようなものです。

それから恐らく答えを得ます。今、本の裏を確認して、「オーケー、正しい答えはこれだ」と分かります。このもの、このもの、そのものが正しい答えを得たことが分かりますが、他の97個は得られませんでした。

文字通り強化学習がやることは、本当にうまくいったものに行って、途中でやったすべての単一のこと、すべての単一のトークンが「これをもっとやれ」のように上方重み付けされます。それの問題は、人々はあなたの推定量が高い分散を持っていると言うでしょうが、ただノイジーなだけです。ノイジーです。正しい答えに到達したあなたが作った解の単一の小さな部分すべてが、やるべき正しいことだったと仮定しているようなものです。そしてそれは真実ではありません。正しい解に到達するまで、間違った路地を下ったかもしれません。あなたがやったこれらの間違ったことの単一のものすべて、正しい解に到達した限り、「これをもっとやれ」として上方重み付けされます。

ひどいです。ノイズです。すべてのこの作業をやって、最後に、「ああ、正しくやった」のような単一の数字を得るだけです。それに基づいて、その軌跡全体を上方重み付けまたは下方重み付けとして重み付けします。私が好きな言い方は、ストローを通して監督を吸っているということです。

1分間のロールアウトになり得るすべてのこの作業をやって、最終的な報酬信号の監督のビットをストローを通して吸い、それを軌跡全体にブロードキャストして、その軌跡を上方重み付けまたは下方重み付けするために使っています。ただ愚かで狂気です。人間は決してこれをやらないでしょう。

第一に、人間は決して何百ものロールアウトをやらないでしょう。第二に、人が解を見つけたとき、彼らはかなり複雑なレビューのプロセスを持つでしょう。「オーケー、これらの部分はうまくやったと思う、これらの部分はそれほどうまくやらなかった。恐らくこれやあれをやるべきだ」と考えます。彼らは物事を考え抜きます。

現在のLLMには、これをやる何の等価物もありません。何の等価物もありません。しかし、人々がこれをやろうとしている論文が出てくるのを見ています。なぜなら、この分野の皆にとって明白だからです。

ところで、最初の模倣学習は、極めて驚くべきで奇跡的で素晴らしいものでした。人間を模倣することでファインチューニングできるということ。それは信じられないことでした。なぜなら最初は、ベースモデルしかありませんでした。ベースモデルはオートコンプリートです。当時、私には明白ではありませんでしたし、これを学ばなければなりませんでした。

私の心を吹き飛ばした論文はInstructGPTでした。なぜなら、プレトレーニングされたモデル、つまりオートコンプリートを取って、会話のように見えるテキストでファインチューニングするだけで、モデルは非常に急速に適応して非常に会話的になり、プレトレーニングからのすべての知識を保持するということを指摘したからです。これは私の心を吹き飛ばしました。なぜなら、文体的に、それがそんなに速く調整でき、そのような種類のデータのファインチューニングの数ループを通じてユーザーのアシスタントになれるということを理解していなかったからです。それが機能したことは私にとって非常に奇跡的でした。

だから信じられないことでした。それは2年から3年の仕事でした。今、RLが来ました。そしてRLは、ただ模倣学習よりも少し良くできます。なぜなら報酬関数を持つことができ、報酬関数でヒルクライミングできるからです。

いくつかの問題はただ正しい答えを持っているだけで、模倣する専門家の軌跡を得ることなく、それでヒルクライミングできます。だからそれは素晴らしいです。モデルはまた、人間が決して思いつかないかもしれない解を発見することもできます。これは信じられないことです。しかし、それでもまだ愚かです。もっと必要です。

昨日、Googleからこの反映とレビューのアイデアを念頭に置こうとする論文を見ました。メモリバンクの論文か何かでしたか。分かりません。この方向に沿ったいくつかの論文を見ました。だから、LLMのためのアルゴリズムをどうやるかに関するその領域で、何らかの大きなアップデートが来ることを期待しています。

3つか4つか5つくらい、もっと必要だと思います。

あなたは喚起的なフレーズを作るのが本当に上手です。「ストローを通して監督を吸う」。とても良いです。結果ベースの報酬の問題は、この巨大な軌跡があって、最後に、何をすべきか、世界について何を学ぶべきかについて、すべての単一の可能なことを、その一つの最終的なビットから学ぼうとしているということだとあなたは言っています。

これが明白であるという事実を考えると、なぜプロセスベースの監督が代替として、モデルをより有能にする成功した方法になっていないのでしょうか。この代替パラダイムを使うことを妨げているのは何ですか。

プロセスベースの監督は、最後だけに報酬関数を持たないという事実を指しているだけです。10分間の作業をやった後、うまくやったかどうかを言うつもりはありません。途中のすべての単一のステップで、どれだけうまくやっているかを言うつもりです。

それを持っていない理由は、それを適切にやる方法が難しいからです。部分的な解があって、どうクレジットを割り当てるか分かりません。だから正しい答えを得たとき、それは答えへの等価性マッチにすぎません。実装するのは非常にシンプルです。プロセス監督をやっているなら、自動化可能な方法で、部分的なクレジット割り当てをどう割り当てますか。それをどうやるか明白ではありません。

多くのラボがこれらのLLMジャッジでやろうとしています。LLMにやらせます。LLMにプロンプトを出します。「やあ、学生の部分的な解を見てください。答えがこれなら、彼らはどれだけうまくやっていると思いますか」そしてプロンプトを調整しようとします。

これが難しい理由はかなり微妙です。報酬を割り当てるためにLLMを使うときはいつでも、それらのLLMは数十億のパラメータを持つ巨大なもので、ゲーム可能です。それらに関して強化学習しているなら、LLMジャッジのための敵対的な例を見つけることになります、ほぼ保証されています。

だからあまり長くこれをやることはできません。恐らく10ステップか20ステップやって、恐らくうまくいくでしょうが、100や1,000はできません。

明白ではないことは理解していますが、基本的にモデルは小さな亀裂を見つけるでしょう。巨大なモデルの隅や隙間のこれらすべての偽のものを見つけて、それをだます方法を見つけるでしょう。

顕著に私の心にある一つの例、これは恐らく公開されていました、もしLLMジャッジを報酬に使っているなら、学生からの解を与えて、学生がうまくやったかどうか尋ねるだけです。その報酬関数に対して強化学習で訓練していて、本当にうまくいきました。それから突然、報酬が極めて大きくなりました。大規模なジャンプで、完璧にやりました。

それを見て、「ワオ、これは学生がこれらすべての問題で完璧だということを意味する。数学を完全に解いた」と思います。しかしモデルから得ている完成を見ると、それらは完全にナンセンスです。まともに始まって、それから「dhdhdhdh」に変わります。ただ、「オーケー、2足す3を取ってこれとこれをやって、それからdhdhdhdh」のようなものです。

それを見て、これは狂気だと思います。どうやって1または100%の報酬を得ているのでしょうか。LLMジャッジを見ると、「dhdhdhdh」はモデルにとって敵対的な例であることが分かり、それに100%の確率を割り当てます。これはLLMにとってサンプル外の例だからです。訓練中に見たことがなく、純粋な汎化の地にいます。

訓練中に見たことがなく、純粋な汎化の地では、それを壊すこれらの例を見つけることができます。あなたは基本的に、LLMをプロンプトインジェクションモデルになるように訓練しています。

それでさえありません。プロンプトインジェクションはずっと洗練されすぎています。敵対的な例を見つけているんです、彼らが呼ばれているように。これらは明らかに間違っている無意味な解ですが、モデルはそれらが素晴らしいと思っています。

これがRLをより機能的にするボトルネックだと思う程度に、それは自動化された方法でやりたいなら、LLMをより良いジャッジにすることを必要とするでしょう。これをやりたいなら。ある種のGANのようなアプローチになるでしょうか。モデルをより堅牢になるように訓練しなければなりませんか。

ラボは恐らくそれをすべてやっているでしょう。明白なことは、「dhdhdhdh」は100%の報酬を得るべきではないということです。オーケー、では「dhdhdhdh」を取って、LLMジャッジの訓練セットに入れて、これは100%ではない、これは0%だと言います。これをやることはできますが、やるたびに、新しいLLMを得て、それでもまだ敵対的な例があります。敵対的な例の無限があります。

恐らくこれを数回繰り返せば、敵対的な例を見つけるのが恐らくより困難になるでしょうが、100%確信はありません。なぜならこのものは1兆パラメータかそこらを持っているからです。ラボが試しているに違いありません。それでも他のアイデアが必要だと思います。

興味深いです。他のアイデアがどのような形を取り得るか、何か考えはありますか。

解のレビューのこのアイデアは、合成例を包含していて、それらで訓練すると良くなり、何らかの方法でメタ学習します。出始めているいくつかの論文があると思います。私は抄録を読んでいる段階にいるだけです。なぜならこれらの論文の多くはただのアイデアだからです。

誰かがそれをフロンティアLLMラボスケールで完全な汎用性で機能させなければなりません。なぜならこれらの論文が出てくるのを見るとき、それらはただ少しノイジーだからです。クールなアイデアですが、これが可能であることを誰かが説得力を持って示しているのを見ていません。そうは言っても、LLMラボはかなり閉じているので、彼らが今何をやっているか誰が知っているでしょう。

合成例や自分のために作った合成問題で訓練できる方法を概念化できます。しかし、人間がやる他のことがあるように見えます。恐らく睡眠がこれです、恐らく白昼夢がこれです。それはただ反映することです。MLの類推が白昼夢や睡眠、あるいはただ反映することに対して何なのか分かりません。

新しい問題を思いついているわけではありません。明らかに、非常に基本的な類推は反映ビットでファインチューニングすることでしょうが、実際にはそれは恐らくそれほどうまくいかないと感じています。このもののMLの類推は何だと思いますか。

いくつかの側面が欠けていると思います。例として、本を読むことを取りましょう。現在、LLMが本を読んでいるとき、それは何を意味するかというと、テキストのシーケンスを引き伸ばして、モデルが次のトークンを予測していて、それから何らかの知識を得ています。

それは本当に人間がやることではありません。本を読んでいるとき、本が注意を払い、訓練すべき説明だとさえ感じません。本は私が合成データ生成をやるためのプロンプトのセットです、あるいはブッククラブに行って友達とそれについて話すために。

その情報を操作することによって、実際にその知識を得るんです。LLMにはそれに相当するものはありません。彼らは本当にそれをやりません。プレトレーニング中に、材料を考え抜き、既に知っていることとそれを調和させようとし、ある時間それを考え抜き、それを機能させる何らかの段階が欲しいです。

これには何の等価物もありません。これはすべて研究です。それが些細ではない、私が理解するのが非常に難しいと思う、いくつかの微妙な理由があります。一つ説明できるなら。なぜただ合成的に生成して、それで訓練できないのか。

なぜなら、すべての合成例、もしモデルに本について考えることの合成生成を与えるだけなら、それを見て、「これは素晴らしく見える。なぜこれで訓練できないのか」と思います。試すことはできますが、試し続けるとモデルはずっと悪くなるでしょう。それは、モデルから得るサンプルのすべてが静かに崩壊しているからです。静かに、個々の例を見ても明白ではありませんが、それらは可能な思考の空間の非常に小さな多様体を占めています。

LLMは、出てくるとき、私たちが「崩壊している」と呼ぶものです。彼らは崩壊したデータ分布を持っています。それを見る簡単な方法の一つは、ChatGPTに行って、「ジョークを言って」と尋ねることです。それは3つくらいのジョークしか持っていません。可能なジョークの全幅を与えているわけではありません。3つくらいのジョークを知っています。

彼らは静かに崩壊しています。これらのモデルから人間から得るような豊かさと多様性とエントロピーを得ていません。人間はずっとノイジーですが、少なくとも偏っていません、統計的な意味で。彼らは静かに崩壊していません。彼らは膨大な量のエントロピーを維持しています。

だから、崩壊にもかかわらず、そしてエントロピーを維持しながら、合成データ生成を機能させるにはどうしますか。それは研究問題です。

理解したことを確認させてください。崩壊が合成データ生成に関連している理由は、既にあなたのデータ分布にない合成問題や反映を思いつくことができたいからですか。

私が言っているのは、本の章があって、LLMにそれについて考えるように頼むとしましょう。それは非常に合理的に見える何かを与えてくれます。しかし10回尋ねると、それらすべてが同じであることに気づくでしょう。

同じ量のプロンプト情報で「反映」をスケーリングし続けて、それからリターンを得ることはできません。個々のサンプルは大丈夫に見えますが、その分布はかなりひどいです。あなた自身のものをあまりにも多く訓練し続けると、実際に崩壊するような方法でかなりひどいです。

これには恐らく根本的な解決策はないと思います。また、人間は時間とともに崩壊すると思います。これらの類推は驚くほど良いです。人間は人生の過程で崩壊します。だから子供たちは、彼らはまだ過学習していません。彼らはあなたを衝撃させるようなことを言うでしょう。なぜなら、彼らがどこから来ているか分かりますが、それはただ人々が言うことではないからです。なぜなら彼らはまだ崩壊していないからです。

しかし私たちは崩壊しています。同じ考えを再訪し続けます。同じものをますます言うようになり、学習率が下がり、崩壊がますます悪化し続け、そしてすべてが悪化します。

この非常に興味深い論文を見ましたか。夢を見ることがこの種の過学習と崩壊を防ぐ方法だというものです。夢を見ることが進化的に適応的である理由は、日常の現実とは非常に異なる奇妙な状況にあなたを置いて、この種の過学習を防ぐためです。

興味深いアイデアです。頭の中で物事を生成していて、それに注意を払っているとき、自分自身のサンプルで訓練していて、合成データで訓練していると思います。あまりに長くそれをやると、レールを外れて、あまりにも多く崩壊します。人生でエントロピーを常に求めなければなりません。

他の人々と話すことはエントロピーの素晴らしい源です、そしてそういったもの。だから恐らく脳は、そのプロセスでエントロピーの量を増やすための何らかの内部メカニズムも構築しているのでしょう。それは興味深いアイデアです。

これは非常に形成されていない考えなので、ただ出して、あなたに反応させます。私たちが知る限り最高の学習者、つまり子供たちは、情報を思い出すことが極めて下手です。実際、子供時代の最も初期の段階では、すべてを忘れるでしょう。特定の年齢日付の前に起こるすべてについて、ただの記憶喪失者です。

しかしあなたは新しい言語を拾い上げ、世界から学ぶことが極めて得意です。恐らく、木を見て森を見ないことができる何らかの要素があります。一方、スペクトルの反対側と比較すると、LLMプレトレーニングがあり、これらのモデルはWikipediaページで次に何があるかを文字通り単語ごとに吐き出すことができます。

しかし、子供ができる方法で抽象的な概念を本当に速く学ぶ能力は、はるかに限られています。それから大人はどこか中間にいて、子供時代の学習の柔軟性はありませんが、子供にとってより困難な方法で事実や情報を記憶できます。そのスペクトルについて何か興味深いものがあるかどうか分かりません。

それについて何か非常に興味深いものがあると思います、100%。人間はLLMと比べて、はるかに多くの、木を見て森を見る要素を持っていると思います。私たちは実際にそれほど記憶が得意ではなく、それは実際には特徴です。記憶が得意ではないので、より一般的な意味でパターンを見つけることを強いられます。

対照的にLLMは記憶が極めて得意です。彼らはこれらすべての訓練ソースからの一節を引用します。完全にナンセンスなデータを与えることができます。何らかのテキストをハッシュ化するか何かで、完全にランダムなシーケンスを得ることができます。それで訓練すると、ただ1回か2回の反復でも、突然全体を吐き出すことができます。それを記憶するでしょう。

人が単一のランダムな数字のシーケンスを読んで、それをあなたに暗唱する方法はありません。それは特徴であって、バグではありません。なぜなら、汎化可能な成分だけを学ぶことを強いられるからです。一方、LLMはプレトレーニング文書のすべての記憶によって気を散らされていて、それは恐らくある意味で彼らにとって非常に気を散らすものです。

だから、認知コアについて話すとき、私たちが話した記憶を削除したいんです。彼らにより少ない記憶を持ってもらい、物事を調べなければならないようにしたいです。そして思考のためのアルゴリズム、実験のアイデア、そして行動のこのすべての認知的接着剤だけを維持します。

これもモデル崩壊を防ぐことに関連していますか。

考えさせてください。分かりません。ほとんど別の軸のようなものです。モデルは記憶があまりにも得意すぎて、何らかの形でそれを削除すべきです。人々ははるかに悪いですが、それは良いことです。

モデル崩壊の解決策は何でしょうか。試みることができる非常に素朴なものがあります。ロジット上の分布がより広くあるべきだとか。試みることができる多くの素朴なものがあります。

素朴なアプローチの問題は何になりますか。

それは素晴らしい質問です。エントロピーのための正則化などを持つことを想像できます。経験的にそれらがそれほどうまく機能しないのだと思います。なぜなら今モデルは崩壊しているからです。しかし、私たちが彼らに求めるタスクのほとんどは実際には多様性を要求しないと言うでしょう。それが恐らく何が起こっているかの答えです。

フロンティアラボはモデルを有用にしようとしています。出力の多様性はそれほど…第一に、それと一緒に作業し、評価することなどがはるかに難しいですが、恐らくそれは最も価値を捉えているものではありません。実際、それは積極的にペナルティを受けます。

RLで超クリエイティブなら、それは良くありません。

そうですね。あるいは恐らくLLMから多くの執筆、助けをやっているなら、それは恐らく悪いです。なぜならモデルは静かにあなたにすべて同じものを与えるからです。質問に答える多くの異なる方法を探求しません。

恐らくこの多様性、それほど多くのアプリケーションがそれを必要としないので、モデルはそれを持っていません。しかしそれから、合成データ生成時などに問題になります。だから、このエントロピーをモデルに維持させないことで、自分自身の足を撃っているのです。

恐らくラボはもっと頑張るべきです。あなたはそれが非常に根本的な問題だと示唆したと思います、解決するのは簡単ではないでしょう。あなたの直感はそれについて何ですか。

超根本的かどうか分かりません。そう言うつもりはなかったと思います。これらの実験をやっていないので分かりませんが、恐らくエントロピーをより高くなるように正則化できると思います。

だからモデルに、より多くの解を与えるよう促していますが、訓練データからあまりに逸脱し始めることは望みません。独自の言語を作り始めるでしょう。極めてまれな単語を使い始めるでしょう。だから分布からあまりに漂流するでしょう。だから分布をコントロールすることはただ難しいです。恐らくその意味で些細ではありません。

推測しなければならないなら、最適な知能のコアは最終的に何ビットになるでしょうか。フォン・ノイマン探査機に載せるもの、どれくらい大きくなければなりませんか。

この分野の歴史で本当に興味深いのは、ある時点ですべてが「もっとずっと大きなモデルを作ろう、数兆パラメータのモデルを」のようなスケーリング一辺倒でした。モデルがサイズでやったことは、上がって、それから下がったんです。最先端のモデルはより小さいです。

それでさえ、彼らはあまりにも多く記憶しすぎていると思います。だから以前、10億パラメータでさえ非常に良い認知コアを得られるという予測をしました。もし10億パラメータモデルと話すなら、20年後には非常に生産的な会話ができると思います。

それは考え、もっと人間のようです。しかしもし何らかの事実的な質問をしたら、調べなければならないかもしれませんが、知らないことを知っていて、調べなければならないかもしれず、すべての合理的なことをやるでしょう。

10億パラメータかかると思うのは驚きです。なぜなら既に10億パラメータか数十億パラメータのモデルがあって、非常に知的だからです。

そうですね、最先端のモデルは1兆パラメータくらいです。しかし彼らは非常に多くのものを覚えています。

そうですが、10年後、そのペースを考えると驚きます…gpt-4o-miniがあります。それは元のGPT-4よりずっと良く、それは1兆プラスパラメータでした。そのトレンドを考えると、10年後に認知コアがまだ10億パラメータだと思うのは驚きです。数千万や数百万のようなものではないと言わないのが驚きです。

問題があります。訓練データはインターネットで、それは本当にひどいです。インターネットがひどいので、得られる膨大な利得があります。インターネット、あなたと私がインターネットについて考えるとき、ウォール・ストリート・ジャーナルのようなものを考えています。それはこれではありません。

フロンティアラボでプレトレーニングデータセットを見ていて、ランダムなインターネット文書を見るとき、それは完全なゴミです。これが全くどう機能するのか分かりません。株式ティッカー、シンボルのようなもの、インターネットのすべての隅からの膨大な量のスロップとゴミです。ウォール・ストリート・ジャーナルの記事のようなものではなく、それは極めてまれです。

だからインターネットが非常にひどいので、それをすべて圧縮するために本当に大きなモデルを構築しなければなりません。その圧縮のほとんどは、認知作業の代わりに記憶作業です。しかし本当に欲しいのは認知部分で、記憶を削除することです。

私が言っているのは、認知成分だけに絞り込むためにプレトレーニングセットさえも洗練するのを助けるために、知的なモデルが必要だということです。そうすればはるかに小さなモデルで済むと思います。なぜならずっと良いデータセットで、それで訓練できるからです。

しかし恐らくそれで直接訓練されるのではなく、恐らくまだはるかに良いモデルから蒸留されます。しかしなぜ蒸留されたバージョンがまだ10億なのですか。

蒸留が極めてうまく機能すると感じているだけです。だからほとんどすべての小さなモデル、小さなモデルがあるなら、それはほぼ確実に蒸留されています。

そうですが、なぜ10年後の蒸留が10億を下回らないのですか。

ああ、10億より小さくあるべきだと思いますか。つまり、ちょっと、ね。分かりません。ある時点で、何か興味深いことをやるには少なくとも10億のつまみが必要です。もっと小さくあるべきだと思いますか。

そうですね。この数年間のトレンド、低く垂れ下がる果実を見つけて、1兆プラスのモデルから文字通り2桁小さいモデルに2年間で行き、より良いパフォーマンスを持つようになったことを見ると、知能のコアはさらにずっと、ずっと小さいかもしれないと思わせます。

Feynmanを言い換えると、底にたくさんの余地があります。私は既に10億パラメータの認知コアについて話すことで対照的だと感じています。そしてあなたは私を上回っています。

恐らく少し小さくできるかもしれません。実際的に言えば、モデルに何らかの知識を持ってもらいたいと思います。すべてを調べているのは望みません。なぜならそうすると頭の中で考えられないからです。あまりにも多くのものをずっと調べています。知識のための何らかの基本的なカリキュラムがそこにある必要がありますが、秘伝的な知識はありません。

私たちは何が妥当に認知コアであり得るかを議論しています。別の質問があります。それは、時間とともにフロンティアモデルのサイズがどうなるかです。予測はありますか。

恐らくGPT-4.5までスケールを増やしていて、今はスケールを減らしているか横ばいです。これが起こっている多くの理由があり得ます。予測はありますか。最大のモデルはより大きくなるでしょうか、より小さくなるでしょうか、同じままでしょうか。

超強い予測はありません。ラボはただ実際的です。彼らはflops予算とコスト予算を持っています。プレトレーニングがflopsやコストの大部分を置きたい場所ではないことが分かったんです。

だからモデルは小さくなりました。少し小さくなりましたが、プレトレーニング段階は小さくなりましたが、強化学習、中間訓練、そしてそれに続くすべてのもので補っています。彼らはすべての段階と、どうやって最も費用対効果を得るかについて実際的です。

そのトレンドを予測するのはかなり難しいです。それでもまだ低く垂れ下がる果実がたくさんあると期待しています。それが私の基本的な期待です。ここでは非常に広い分布を持っています。

低く垂れ下がる果実が、過去2年から5年間に起こってきたことの種類に似た種類であることを期待しますか。nanochatとnanoGPTと、あなたが作ったアーキテクチャの調整を見ると、それは起こり続けると期待するもののフレーバーですか。巨大なパラダイムシフトは期待していません。

ほとんどそうです。データセットがずっと、ずっと良くなることを期待しています。平均的なデータセットを見ると、彼らは極めてひどいです。あまりにも悪くて、何かがどう機能するのか分かりません。

訓練セットの平均的な例を見てください。事実の間違い、エラー、無意味なこと。何らかの形で大規模にやると、ノイズが洗い流されて、信号の一部が残ります。データセットは大幅に改善するでしょう。すべてが良くなります。

私たちのハードウェア、ハードウェアを実行し、ハードウェアで得られるものを最大化するためのすべてのカーネル。Nvidiaはゆっくりとハードウェア自体を調整しています、Tensor Core、それすべてが起こる必要があり、起こり続けるでしょう。すべてのカーネルが良くなり、チップを最大限に活用するでしょう。

最適化、アーキテクチャ、そしてすべてがどう行われるか、訓練しているアルゴリズムさえも、すべてのモデリングコンポーネント上のすべてのアルゴリズムは恐らく改善するでしょう。何も支配しないことを期待しています。すべてプラス20%。これは大体私が見てきたことです。

AI進捗の測定と教育の未来

人々は完全なAGIに向けてどれだけ進歩を遂げたかをチャート化する異なる方法を提案してきました。何らかの線を思いつくことができれば、その線がAGIとどこで交差するか、そしてそれがx軸のどこで起こるかを見ることができます。

人々はそれが教育レベルだと提案してきました。高校生がいて、それからRLで大学に行き、博士号を取得するでしょう、と。私はそれは好きではありません。あるいは彼らは時間範囲の長さを提案します。恐らく彼らは1分かかるタスクができて、それらを自律的にできます。それから彼らは自律的に人間が1時間かかるタスク、人間が1週間かかるタスクができます。

AIがどう進歩しているかについて、関連するy軸についてどう考えますか。AI進捗についてどう考えるべきでしょうか。

それには2つの答えがあります。第一に、質問を完全に拒否したいと思うくらいです。なぜなら、これをコンピューティングの拡張として見ているからです。コンピューティングの進捗をどうチャート化するかについて話したことがありますか。あるいは1970年代かそこらからのコンピューティングの進捗をどうチャート化しますか。y軸は何ですか。その視点から、質問全体が少しおかしいです。

人々がAIと元のAGI、OpenAIが始まったときに私たちがそれについてどう話したかについて話すとき、AGIは、経済的に価値のある任意のタスクを人間のパフォーマンスかそれ以上でできるシステムでした。それが定義でした。私は当時その定義にかなり満足していました。

その定義に永遠に固執してきましたが、それから人々は他のあらゆる種類の定義を作りました。しかし私はその定義が好きです。人々が常にやる最初の譲歩は、単にすべての物理的なものを取り出すことです。なぜなら、デジタルな知識労働について話しているだけだからです。

それは元の定義と比べてかなり大きな譲歩です、それは人間ができる任意のタスクでした。物を持ち上げることなどができます。AIは明らかにそれができませんが、受け入れましょう。「ああ、知識労働だけ」と言うことで、経済の何割を取り除いていますか。数字は分かりません。

10%から20%くらいだと感じます、もし推測しなければならないなら、それだけが知識労働です、誰かが在宅勤務してタスクを実行できる、そのようなものです。それでもまだ本当に大きな市場です。経済の規模は何で、10%か20%は何ですか。

米国だけでも、市場シェアや仕事の数兆ドルについて話しています。だからそれはまだ非常に巨大なバケツです。定義に戻ると、私が探しているのは、その定義がどの程度真実かということです。

仕事や多くのタスクはありますか。もし私たちがタスクを仕事ではなくタスクとして考えるなら。それは難しいです。なぜなら問題は、社会が、何が自動化可能か不可能かに基づいて、仕事を構成するタスクに基づいて、リファクタリングするからです。

今日、どの仕事がAIで置き換え可能ですか。最近の良い例は、Geoff Hintonの放射線科医がもはや仕事ではなくなるだろうという予測で、これは多くの点で非常に間違っていることが分かりました。放射線科医は生きていて健在で成長しています、コンピュータビジョンが画像で認識しなければならないすべての異なるものの認識が本当に、本当に得意であるにもかかわらず。

ただ、患者を扱うことや、その文脈のすべてのものを扱うことなど、多くの表面と面倒で複雑な仕事なんです。その定義によって、AIがまだ大きな痕跡をつけたとは思いません。

私が探している仕事の一部には、他のものより早く自動化に非常に適したものにするいくつかの特徴があります。一例として、コールセンターの従業員がしばしば出てきます、そして正当だと思います。コールセンターの従業員には、今日自動化可能なものに関して、いくつかの単純化する性質があります。

彼らの仕事はかなりシンプルです。タスクのシーケンスで、すべてのタスクが似ています。人と電話を取り、10分間の相互作用か何かです、恐らくもう少し長いです。私の経験では、ずっと長いです。

何らかのスキームで何らかのタスクを完了し、いくつかのデータベースエントリを変更するとか、そういったものです。だから何かを繰り返し続けて、それがあなたの仕事です。タスクの時間範囲を持ち込みたいです、タスクを実行するのにどれくらいかかるか、そしてコンテキストも削除したいです。

会社の異なる部分や他の顧客を扱っているわけではありません。ただデータベース、あなた、そしてサービスしている人です。もっと閉じていて、もっと理解可能で、純粋にデジタルです。だから私はそれらのものを探しているでしょう。しかしそこでさえ、まだ完全な自動化を見ていません。

自律性スライダーを見ています。人々を即座に置き換えるつもりはないと期待しています。ボリュームの80%をやる5人のAIのチームを監督している人間がいて、ボリュームの20%を人間に委任するAIを入れ替えていくでしょう。

より定型的なコールセンター作業をやっているこれらのAIの一部を管理することを可能にする何らかの層を提供する新しいインターフェースや新しい会社を探しているでしょう。まだ完璧ではないんです。それから経済全体でそれを期待するでしょう。

多くの仕事はコールセンターの従業員よりずっと難しいです。放射線科医について、私は完全に推測していて、放射線科医の実際のワークフローが何を含むか全く分かりません。しかし適用可能かもしれない一つの類推は、Waymoが最初に展開されたとき、前の座席に人が座っていて、何かが本当にうまくいかなかった場合のために、そこにいなければなりませんでした、監視するために。

今日でさえ、物事がうまくいっていることを確認するために人々はまだ見ています。ちょうど展開されたRobotaxiは、まだ中に人がいます。

今、私たちは同様の状況にいるかもしれません。もし仕事の99%を自動化すれば、人間がやらなければならない最後の1%は信じられないほど価値があります。なぜなら他のすべてをボトルネックにしているからです。

放射線科医でそうだった場合、Waymoの前に座っている人が、最後の1%を提供するために何年も特別に訓練されなければならない場合、彼らの賃金は途方もなく上がるべきです。なぜなら、彼らは広範な展開をボトルネックにしている一つのものだからです。代替不可能です。放射線科医は、同様の理由で賃金が上がったと思います、もしあなたが最後のボトルネックで、代替不可能なら。Waymoのドライバーは他の人と代替可能かもしれません。

だから、賃金が上がって、99%に到達し、それから最後の1%がなくなったときにちょうどそのように落ちるこのものを見るかもしれません。そして放射線学や、コールセンターワーカーの給与や何でもそういったもので同様のことを見ているかどうか気になります。

それは興味深い質問です。放射線学では現在それを見ているとは思いません。放射線学が良い例だとは思いません。なぜGeoff Hintonが放射線学に目をつけたのか分かりません。なぜなら、極めて面倒で複雑な職業だと思うからです。

例えば、今日のコールセンターの従業員で何が起こっているかにずっと興味があるでしょう。なぜなら、定型的なものの多くが今日自動化可能であることを期待するからです。それに対する第一レベルのアクセスはありませんが、コールセンターの従業員で何が起こっているかのトレンドを探しているでしょう。

私が期待するもののいくつかは、恐らく彼らはAIを入れ替えているが、それから1年か2年待つでしょう。なぜなら、潜在的に彼らが撤退し、人々の一部を再雇用することを期待するからです。AIを採用してきた企業で一般的にそれが既に起こっているという証拠があり、それは非常に驚くべきことだと思います。

AGI、そうですよね。すべてをやるであろうもの。物理的な仕事は取り除きますが、すべての知識労働ができるべきです。素朴に予想していたであろうことは、この進行が起こる方法は、コンサルタントがやっている小さなタスクを取り出し、バケツからそれを取り出すということです。会計士がやっている小さなタスクを取り出し、バケツからそれを取り出します。それからすべての知識労働にわたってこれをやっているだけです。

しかし代わりに、もし私たちが現在のパラダイムでAGIへの道にいると信じるなら、進行は全くそのようではありません。コンサルタントや会計士が巨大な生産性向上を得ているようには見えません。プログラマーが自分たちの仕事をますます削り取られているような感じです。

これらの企業の収益を見ると、通常のチャット収益を差し引いて、それはGoogleか何かに似ています、ただAPI収益を見ると、コーディングに支配されています。だから「一般的」であるべきで、任意の知識労働ができるべきこのものが、ただ圧倒的にコーディングだけをやっています。

AGIが展開されることが期待される驚くべき方法です。ここに興味深いポイントがあります。コーディングが

これらのLLMとエージェントにとって完璧な最初のものであることを信じています。なぜならコーディングは常に根本的にテキストの周りで機能してきたからです。

コンピュータ端末とテキスト、そしてすべてがテキストに基づいています。LLM、彼らがインターネットで訓練される方法、テキストが大好きです。彼らは完璧なテキストプロセッサで、そこにこのすべてのデータがあります。完璧にフィットします。

また、コードとテキストを扱うための多くのインフラが事前に構築されています。例えば、Visual Studio Codeか、あなたのお気に入りのIDEがコードを表示していて、エージェントがそれにプラグインできます。もしエージェントが何らかの変更を加えたdiffを持っているなら、突然diffを使ってコードベースへのすべての違いを示す、このすべてのコードが既にあります。

それはほとんど、コードのためにインフラの多くを事前に構築したようなものです。それと、それをまったく楽しんでいないもののいくつかを対比してください。一例として、コーディングのためではなく、スライドのために自動化を構築しようとしている人々がいます。スライドをやっている会社を見ました。それははるかに、はるかに難しいです。

それがはるかに難しい理由は、スライドはテキストではないからです。スライドは小さなグラフィックで、空間的に配置されていて、視覚的な成分があります。スライドにはこの事前に構築されたインフラがありません。例えば、エージェントがあなたのスライドに変更を加えるなら、ものはどうdiffを表示しますか。どうdiffが見えますか。

スライドのdiffを示すものは何もありません。誰かがそれを構築しなければなりません。これらのもののいくつかは、今日のAI、つまりテキストプロセッサには適していません。そしてコードは驚くほど適しています。

それだけでは説明できないと確信しています。個人的に、純粋に言語入力、言語出力の領域で、LLMを有用にしようとしました。転写の書き直し、転写に基づいてクリップを思いつくこと。私がすべての可能なことをやらなかった可能性は非常にあります。たくさんの良い例をコンテキストに入れましたが、恐らく何らかのファインチューニングをやるべきでした。

私たちの共通の友人、Andy Matuschakは、モデルに間隔反復プロンプトを書くのが上手になるよう50億のことを試したと言っていました。繰り返しますが、非常に言語入力、言語出力のタスク、LLMのレパートリーの真ん中にあるべき種類のものです。彼はいくつかの例を使ったコンテキスト内学習を試しました。

教師あり

ファインチューニングと検索を試しました。彼の満足のいくカードを作らせることができませんでした。だから、コーディングとは別に、言語出力の領域でさえ、これらのモデルから多くの経済的価値を得るのは非常に難しいと印象的に思います。説明できるものが何なのか分かりません。

それは理にかなっています。テキストである何でも些細だと言っているわけではありません。コードはかなり構造化されていると思います。テキストは恐らくずっと花のようで、テキストにははるかに多くのエントロピーがあります、と言い方がよく分かりません。

また、コードは難しいので、人々はLLMによって、単純な知識からさえも、かなり力を得られると感じます。非常に良い答えは持っていません。明らかに、テキストはそれをはるかに、はるかに簡単にしますが、すべてのテキストが些細だということを意味しません。

超知能についてどう考えますか。それは通常の人間や人間の企業とは質的に異なると感じると期待しますか。

それを社会における自動化の進行として見ています。コンピューティングのトレンドを外挿すると、多くのものが段階的に自動化され、超知能はそれの外挿になるでしょう。

時間とともに、ますます自律的な実体があって、デジタル作業の多くをやり、それから最終的にはある程度後に物理的な作業さえもやることを期待しています。基本的に、ただ自動化として見ています、大まかに言えば。

しかし自動化は人間が既にできることを含み、超知能は人間ができないことを意味します。しかし人々がやることの一つは新しいものを発明することで、理にかなっていれば、それはただ自動化に入れるでしょう。

しかし推測すると、より抽象的ではなく、より質的に、何かが感じるように期待しますか…なぜならこのものは非常に速く考えられるか、非常に多くのコピーを持っているか、コピーが自分自身に戻ってマージできるか、はるかに賢いか、AIが持つかもしれない利点の任意の数のために、これらのAIが存在する文明は人間とは質的に異なると感じるでしょうか。

感じると思います。それは根本的に自動化ですが、極めて異質なものになるでしょう。本当に奇妙に見えるでしょう。あなたが言及したように、コンピュータクラスタ上でこのすべてを実行でき、はるかに速くできます。

世界がそのように見えるとき、私が神経質になり始めるシナリオのいくつかは、何が起こっているかの制御と理解の段階的な喪失です。それが最も可能性の高い結果だと思います。理解の段階的な喪失があるでしょう。

すべてのこのものをあらゆる場所に段階的に層にしていき、それを理解する人がますます少なくなるでしょう。それから何が起こっているかの制御と理解の段階的な喪失があるでしょう。それが私にとって、このすべてのものがどう展開していくかの最も可能性の高い結果に見えます。

それについて少し探ってみましょう。制御の喪失と理解の喪失が同じことかどうかは明確ではありません。TSMC、Intelの取締役会、ランダムな会社の名前を挙げますが、彼らはただ名声のある80歳の人々です。理解はほとんどなく、恐らく実際的には実際に制御を持っていないかもしれません。

より良い例は、アメリカ合衆国大統領です。大統領は多くの権力を持っています。現在の運用者について良い発言をしようとしているわけではありません、あるいは恐らくしているのかもしれませんが、実際の理解のレベルは制御のレベルとは非常に異なります。

それは公正です。それは良い反論です。両方の喪失を期待すると思います。

理解の喪失は明白ですが、なぜ制御の喪失ですか。

私たちは、私がどんなものに見えるか分からない領域に非常に深く入っています。もしSF小説を書くとしたら、すべてを乗っ取る単一の実体でさえないという方向に沿って見えるでしょう。しかし段階的により自律的になる複数の競合する実体です。

それらのいくつかは不正になり、他のものがそれらを撃退します。私たちが委任した完全に自律的な活動のこのホットポットです。そのフレーバーを持つと感じます。

彼らが私たちより賢いという事実が制御の喪失を引き起こしているわけではありません。彼らが互いに競合しているという事実であり、その競争から生じるものは何でも制御の喪失につながります。

これらのものの多くは、人々のためのツールになるでしょう、人々を代表して行動している、そのようなものです。だから恐らくそれらの人々は制御の中にいますが、恐らく私たちが望む結果という意味で、社会全体にとって制御の喪失です。

個人を代表してまだ大体見られる実体があって、それでもまだ制御不能と見られます。

これは以前に尋ねるべきだった質問です。AIエンジニアリングやAI研究をやっているときに、現在これらのモデルがコンパイラよりむしろ置き換えのカテゴリーにより多く感じているという話をしていました。ある時点で、AGIがあれば、あなたがやることができるべきです。

並列であなたの100万のコピーを持つことが、AI進歩の何らかの巨大なスピードアップにつながると感じますか。もしそれが起こるなら、真のAGIを持ったら知能爆発が起こることを期待しますか。今日のLLMについて話しているわけではありません。

期待しますが、それはビジネス・アズ・ユージュアルです。なぜなら、私たちは既に知能爆発の中にいて、何十年もそうだったからです。それは基本的に、業界の非常に多くの側面にわたる指数加重和であるGDP曲線です。

すべてが段階的に自動化されてきて、何百年もそうでした。産業革命は自動化であり、物理的な構成要素のいくつかと、ツール構築とそういったすべてのものです。コンパイラは初期のソフトウェア自動化、などです。

私たちは再帰的に自己改善し、長い間爆発してきました。それを見る別の方法は、地球はバイオメカニクスなどを見なければかなり退屈な場所で、非常に似ているように見えました。宇宙から見ると、私たちはこの爆竹イベントの真ん中にいますが、スローモーションでそれを見ています。

これは既に非常に長い間起こってきたと確かに感じます。繰り返しますが、AIを、既に非常に長い間起こってきたものに関して、別個の技術として見ていません。

あなたはこれが超指数トレンドと連続していると思いますか。

はい。それが私にとって非常に興味深かった理由です。なぜなら、しばらくの間、GDPでAIを見つけようとしていたからです。GDPは上がるべきだと思いました。

しかし、コンピュータや携帯電話などのような、非常に変革的だと思った他の技術のいくつかを見ました。GDPでそれらを見つけることはできません。GDPは同じ指数です。App Storeがなかった初期のiPhoneでさえ、現代のiPhoneが持っている多くのベルとホイッスルを持っていませんでした。だから2008年、iPhoneが出たとき、この大きな地震的変化として考えますが、実際にはそうではありません。

すべてが非常に広がっていて、非常にゆっくりと拡散するので、すべてが同じ指数に平均化されてしまいます。コンピュータでも全く同じです。「ああ、今コンピュータがある」のようにGDPでそれらを見つけることはできません。

そういうことは起こりませんでした。なぜなら非常にゆっくりした進行だからです。AIで全く同じことを見るでしょう。ただもっと自動化です。以前は書けなかったような種類のプログラムを書くことを可能にしますが、AIはまだ根本的にプログラムです。

新しい種類のコンピュータであり、新しい種類のコンピューティングシステムです。しかしこれらすべての問題があり、時間とともに拡散していき、それでも同じ指数に加算されるでしょう。

極めて垂直になる指数をまだ持つでしょう。その種の環境に住むのは非常に異質なものになるでしょう。

成長率が上がると言っているのですか。それとも、産業革命前の今までのトレンドを見ると、0%成長から超指数があると言っているのですか。10,000年前は0.02%成長で、今は2%成長です。それは超指数です。そこにAIをチャート化すると、AIは20%成長や200%成長にあなたを連れて行くと言っているのですか。

それとも、過去300年を見ると、あなたが見てきたものは、次々と技術があること、コンピュータ、電化、蒸気機関、鉄道などですが、成長率は全く同じで、2%だと言っているのですか。

成長率も大体一定のままでしたよね。

過去200、300年だけです。しかし人類史の過程では爆発しています。0%からより速く、より速く、より速くなりました。産業爆発、2%。

しばらくの間、GDPカーブでAIを見つけようとしたり、AIを探そうとしました。そしてこれが偽だと自分自身を納得させました。ラボや物事について再帰的自己改善について人々が話すときでさえ、これはビジネス・アズ・ユージュアルです。もちろん、再帰的に自己改善するでしょう、そしてそれは再帰的に自己改善してきました。

LLMは、エンジニアがはるかに効率的に働いて次のラウンドのLLMを構築することを可能にします。そして、構成要素のはるかに多くが自動化され、調整されている、など。Google検索にアクセスできるすべてのエンジニアはその一部です。

IDEを持っているすべてのエンジニア、オートコンプリートを持っている、Claude Codeを持っているすべてのエンジニア、などは、すべてがただ全体のスピードアップの一部です。それはただ非常にスムーズです。

明確にするために、成長率は変わらないと言っているのです。知能爆発は、2%成長軌道に留まり続けることを可能にしただけとして現れるでしょう、ちょうどインターネットが2%成長軌道に留まることを助けたように。

はい、私の期待は、それが同じパターンに留まることです。

反対の議論を投げかけると、私の期待は、爆発すると思うからです。なぜなら、真のAGI、そして私はLLMコーディングボットについて話しているのではなく、サーバー内の人間の実際の置き換えについて話していますが、これらの他の生産性向上技術とは質的に異なると思います。なぜなら、それは労働そのものだからです。

私たちは非常に労働制約のある世界に住んでいると思います。もし任意のスタートアップ創業者や任意の人に話しかけて、何がもっと必要かと言えますか。本当に才能のある人々が必要です。そしてもし数十億の余分な人々がいて、物を発明し、統合し、最初から最後まで企業を作っているなら、それは単一の技術とは質的に異なると感じます。それはまるで惑星に100億の余分な人々を得るようなものです。

恐らく反論。この点で、どちらか一方に納得させられることにかなり意欲的です。しかし言いますが、例えば、コンピューティングは労働です。コンピュータ、多くの仕事が消えました。なぜならコンピュータは、今や人間が必要ないデジタル情報処理の束を自動化しているからです。

だからコンピュータは労働で、それは展開されてきました。例として自動運転もコンピュータが労働をやっています。それは既に展開されています。それはまだビジネス・アズ・ユージュアルです。

潜在的により速いペースでそのようなものをもっと吐き出す機械があります。歴史的に、0.2%成長から2%成長に行った成長体制が変化する例があります。次の自動運転車と次のインターネットと何でも吐き出している機械は非常に妥当に思えます…

それがどこから来ているか分かります。同時に、人々はこの仮定をしていると感じます、「箱の中に神がいて、今すべてができる」、そしてそうは見えないでしょう。いくつかのことができるでしょう。

他のいくつかのことで失敗するでしょう。段階的に社会に入れられ、同じパターンになるでしょう。それが私の予測です。突然、完全に知的で、完全に柔軟で、完全に一般的な人間を箱の中に持ち、社会の任意の問題でそれを分配できるというこの仮定は、この離散的な変化を持つとは思いません。

私たちが到達する同じ種類の段階的な拡散になると思います、業界全体でこれの。

これらの会話で、しばしば誤解を招くことになります。この文脈で知能という言葉を使うのが好きではありません。なぜなら知能は、サーバーに座っている単一の超知能があって、この爆発を引き起こす新しい技術や発明をどう思いつくかを神託するということを意味するからです。それは20%成長を想像しているときに想像しているものではありません。

私が想像しているのは、何十億もの非常に賢い人間のような心があることです、潜在的に。あるいはそれが必要なすべてです。しかし、そのうちの何億、何十億もあるという事実、それぞれが個別に新製品を作り、経済に自分自身を統合する方法を見つけ出しています。

もし高度に経験豊富な賢い移民が国に来たら、経済にどう統合するかを見つけ出す必要はありません。彼らがそれを見つけ出します。会社を始めたり、発明をしたり、世界の生産性を上げたりできます。

現在の体制でさえ、10-20%の経済成長を持っていた場所の例があります。もしたくさんの人々がいて、人々と比較して資本が少ないなら、香港や深圳か何かを持つことができます、10%以上の成長が何十年もあります。

本当にたくさんの賢い人々がいて、リソースを利用し、私たちがこの不連続性を持っていたので、このキャッチアップの期間をやる準備ができています。AIは似ているかもしれないと思います。

理解しますが、それでもある離散的なジャンプを前提としていると思います。主張しようとしている何らかのアンロックがあって、私たちが待っています。そして突然、データセンターに天才がいるでしょう。

それでも、歴史的な前例がない、統計のどこにも見つけられない何らかの離散的なジャンプを前提としていると思います。そして恐らく起こらないと思います。

つまり、産業革命はそのようなジャンプです。0.2%成長から2%成長に行きました。私はただ、それのような別のジャンプを見るだろうと言っているだけです。

少し疑っています、見なければなりません。例えば、産業革命前のログのいくつかはあまり良くありません。それについて強い意見は持っていませんが、少し疑っています。

あなたはこれが、極めて魔法的だった単一のイベントだったと言っています。恐らくそのような別のイベント、極めて魔法的なものがあるでしょう。パラダイムを破り、そういったことです。

実際には…産業革命の重要なことは、それが魔法的ではなかったということです。もし1770年や1870年にズームインしただけなら、何らかの鍵となる発明があったとは見えないでしょう。しかし同時に、経済を進歩がはるかに速く、指数が10倍になった体制に動かしました。

AIから似たようなことを期待します。重要な発明をやった単一の瞬間があるようにはならないでしょう。

アンロックされているオーバーハングです。新しいエネルギー源のようなものかもしれません。何らかのアンロック、この場合は何らかの認知的能力があり、やるべき認知作業のオーバーハングがあります。

そうです。そのオーバーハングが、しきい値を超えたときにこの新しい技術によって満たされることを期待しているわけですね。

恐らくそれについて考える一つの方法は、歴史を通じて、多くの成長が人々がアイデアを思いつき、それから人々がそこにいてそのアイデアを実行し、価値のある出力を作るものをやっているから来ています。

この時間のほとんど、人口は爆発してきました。それが成長を駆動してきました。過去50年間、人々は成長が停滞したと主張してきました。フロンティア国の人口も停滞しました。

出力の超指数成長を引き起こす、人口の指数成長に戻ると思います。

本当に言うのは難しいです。その視点は理解します。その視点を直感的に感じません。

教育の変革とEurekaプロジェクト

あなたは私にNick Laneの本を勧めてくれました。その基礎で、私もそれが超興味深いと思い、彼をインタビューしました。知能と進化史について考えることに関して、いくつか質問があります。

過去20年間AI研究をやってきて、恐らく知能が何であるか、それを開発するのに何が必要かについて、より具体的な感覚を持っているでしょう。その結果として、進化がただ自発的にそれにつまずいたことについて、より驚いていますか、それとも驚いていませんか。

Nick Laneの本が大好きです。ここに来る途中で彼のポッドキャストを聞いていたところです。知能とその進化に関して、それは非常に、非常に最近のことです。それが進化したことに驚いています。

そこにある千の惑星のようなものについて考えるのは魅力的だと思います。地球のような千の惑星があって、それらがどのように見えるか言ってください。Nick Laneはここで、最も初期の部分のいくつかについて話していたと思います。

大体似たような生命体、大まかに言えば、そしてバクテリアのようなものをほとんどのものに期待しています。そこにはいくつかの断絶があります。知能の進化は、私にとって直感的に、かなりまれなイベントであるべきだと感じます。

恐らく何かがどれくらい存在してきたかに基づくべきです。もしバクテリアが20億年間存在していて、何も起こらなかったなら、真核生物に行くのは恐らくかなり難しいです。なぜならバクテリアは地球の進化や歴史でかなり早く出現したからです。

動物をどれくらい持っていましたか。恐らく数億年、走り回ったり、這ったりする多細胞動物など。それは恐らく地球の寿命の10%です。恐らくその時間スケールではそれほど難しくありません。

それでも驚きです、私には直感的に。恐らくただ動物のような生命体が動物のようなことをやっているのをたくさん期待するでしょう。文化と知識を作り、それを蓄積する何かを得られるという事実は、私には驚きです。

いくつかの興味深いフォローアップがあります。もしSuttonの視点、知能の核心は動物の知能だという視点を買うなら…彼が言った引用は「もしリスに到達したら、AGIへの道のりのほとんどになるだろう」です。

カンブリア爆発の直後、6億年前にリスの知能に到達しました。それを引き起こしたように見えるのは、6億年前の酸素化イベントでした。しかし知能アルゴリズムはすぐそこにあって、リスの知能を作りました。

環境に酸素があるとすぐに、真核生物がいて、ただアルゴリズムを得られました。恐らくそれは偶然でした、進化がそんなに速くそれにつまずいたのは、しかし最後にそれがかなりシンプルであることを示唆するかどうか分かりません。

このすべてのものについて言うのは非常に難しいです。何かがどれくらい存在してきたか、あるいは何かがボトルネックになっているように感じられた期間に基づいて、少しできます。

Nick Laneは、バクテリアと古細菌における非常に明白なボトルネックについて説明するのが非常に上手です。20億年間、何も起こりませんでした。生化学の極端な多様性があり、それでも何も成長して動物にならない。20億年。

動物と知能に関して、あなたの指摘通り、正確にその種の等価物を見てきたとは思いません。また、特定の知能が個別に湧き上がったと思う回数に関しても見ることができます。それは調査するのに本当に良いことです。

その点について一つの考え。ヒト科の知能があり、それから鳥の知能があります。カラスなどは極めて賢いですが、彼らの脳の部分はかなり異なり、私たちとはそれほど共通点がありません。それは知能が何度か湧き上がる軽い兆候です。その場合、もっと頻繁に期待するでしょう。

元のゲスト、Gwern、そしてCarl Shulmanは、それについて本当に興味深い点を作りました。彼らの視点は、人間が持っている、霊長類が持っているスケーラブルなアルゴリズムは、鳥にも生じたし、恐らく他の時にも生じました。しかし人間は、知能の限界的増加に報いる進化のニッチを見つけ、それらの知能の増加を達成できるスケーラブルな脳アルゴリズムも持っていました。

例えば、もし鳥がより大きな脳を持っていたら、ただ空気中から崩れ落ちるでしょう。その脳のサイズに対して非常に賢いですが、脳をより大きくすることに報いるニッチにはいません。

それは恐らく本当に賢いいくつかの…イルカのようなものに似ているかもしれません。

正確に。人間は、私たちにはツールの使い方を学べるように報いる手があります。消化を外部化でき、脳により多くのエネルギーを、そしてそれがフライホイールを蹴り飛ばします。

ものを扱うものもあります。恐らくイルカだったらもっと難しいと推測します。どう火を持ちますか。水の中で、水の中でできることの宇宙は、恐らく陸上でできることより低いです、ただ化学的に。

これらのニッチと何がインセンティブを与えられているかのこの視点に同意します。それでもまだ奇跡的だと思います。より大きな筋肉を持つ動物でものが詰まることを期待していたでしょう。

知能を通過するのは本当に魅力的な分岐点です。Gwernがそれを言った方法は、それが非常に難しかった理由は、DNAに直接正しい回路を蒸留して戻す価値がないほど何かを学ぶことが重要な状況と、まったく学ぶほど重要ではない状況の間の非常に細い線だからです。

生涯で学ぶアルゴリズムを構築することにインセンティブを与える何かでなければなりません。何らかの適応性にインセンティブを与えなければなりません。予測不可能な環境が欲しいです、そうすれば進化はアルゴリズムを重みに焼き込むことができません。

多くの動物はこの意味で事前に焼き込まれています。人間は、生まれたときにテスト時に見つけ出さなければなりません。本当に急速に変化する環境が欲しいです、何がうまくいくか予見できない場所。テスト時にそれを見つけ出すために知能を作ります。

Quintin Popeはこの興味深いブログ投稿を持っていて、急激なテイクオフを期待しない理由は、人間が急激なテイクオフを持っていたところだと言っています。6万年前、私たちは今日持っている認知アーキテクチャを持っていたように見えます。1万年前、農業革命、近代性。その5万年間に何が起こっていましたか。

世代を超えて知識を蓄積できる文化的な足場を構築しなければなりませんでした。これはAI訓練をやる方法で無料で存在する能力です。多くの場合、彼らは文字通り蒸留されています。もしモデルを再訓練するなら、互いに訓練できますし、同じプレトレーニングコーパスで訓練できます、文字通りゼロから始める必要はありません。

人間がこの文化的ループを進行させるのに長い時間がかかったという意味がありますが、LLM訓練をやる方法でただ無料で来ます。

イエスでもあり、ノーでもあります。なぜならLLMには本当に文化に相当するものがないからです。恐らく私たちは彼らにあまりにも多くを与えていて、それを作らないようインセンティブを与えているか何かです。

しかし文化の発明、書かれた記録の発明、互いにメモを渡すこと、今LLMには相当するものがないと思います。LLMは今本当に文化を持っていませんし、それは妨げの一つだと言うでしょう。

LLM文化がどのように見えるかの何らかの感覚を与えてくれますか。

最もシンプルなケースでは、LLMが編集できる巨大なスクラッチパッドになるでしょう、そしてものを読んでいるとき、あるいは仕事を手伝っているとき、自分自身のためにスクラッチパッドを編集しています。

なぜLLMは他のLLMのために本を書けないのですか。それはクールでしょう。なぜ他のLLMはこのLLMの本を読んで、それにインスパイアされたり、ショックを受けたりできないのですか。このもののどれにも相当するものはありません。

興味深いです。Eurekaを通じて数年後に利用可能なものを想像するとき、大きなボトルネックは、分野ごとに分野でこれらのランプに彼らの理解を変換できるKarpathyを見つけることになりそうです。

時間とともに変わるでしょう。今は、AIと人々のチームと手を取り合って働いて最先端のコースを構築するのを助けるために教員を雇うことになるでしょう。

時間とともに、恐らくTAの一部はAIになれます。すべてのコース資料を取って、それから学生のためのより基本的な質問があるときに非常に良い自動化されたTAをサービスできると思います。しかしコースの全体的なアーキテクチャと、それが適合することを確認するために、恐らく教員が必要でしょう。だからこれがどう進化するかの進行が見えます。

恐らく将来のある時点で、私はそれほど有用でさえなく、AIがほとんどのデザインをずっと良く私よりやっています。しかしそれが展開するにはまだ時間がかかると思います。

他の分野に専門知識を持つ人々がコースを提供することを想像していますか、それともあなたが教えたい方法の理解を考えると、あなたがコンテンツをデザインする人であることがビジョンにとって非常に本質的だと感じますか。Sal KhanがKhan Academyのすべての動画をナレーションしています。そのようなものを想像していますか。

いいえ、教員を雇うでしょう。なぜなら私が専門家ではない領域があるからです。最終的に学生に最先端の体験を提供する唯一の方法です。教員を雇うことを期待しますが、恐らくしばらくの間はAIに留まるでしょう。

現在の能力のために、恐らく人々が予想するよりも従来的なものを念頭に置いています。Starfleet Academyを構築しているとき、恐らく物理的な機関を想像しています、そして恐らくその下の階層として、誰かが物理的にフルタイムで来て、最初から最後まで資料を通して作業し、理解することを確認する、あなたが得る最先端の体験ではないデジタル提供があります。それが物理的な提供です。

デジタル提供は、インターネット上の多くのものと恐らく何らかのLLMアシスタントです。階層で少し安っぽいですが、少なくとも80億人にアクセス可能です。

あなたは基本的に、今日利用可能なツールのために最初の原則から大学を発明していて、本当に材料に関与する動機と興味を持つ人々を選択しているだけです。

教育だけでなく、再教育もたくさん必要になるでしょう。仕事がかなり変わるでしょうから、そこを助けたいです。例えば、今日多くの人々が特にAIでアップスキルしようとしています。この点で教えるのに本当に良いコースだと思います。

動機づけ的に、AGI前の動機は解決するのが非常にシンプルです。なぜなら人々はお金を稼ぎたいからです。これが今日業界でお金を稼ぐ方法です。AGI後は恐らくずっと興味深いです。なぜならもしすべてが自動化されていて、誰にとっても何もやることがないなら、なぜ誰かが学校に行くでしょうか。

私はしばしば、AGI前の教育は有用だと言います。AGI後の教育は楽しいです。似たような方法で、人々は今日ジムに行きます。私たちは重い物を操作するために彼らの物理的な力を必要としません。なぜならそれをやる機械があるからです。彼らはまだジムに行きます。

なぜ彼らはジムに行くのですか。なぜなら楽しいからです、健康だからです、そして6パックを持っているとホットに見えるからです。人々がそれをやることは魅力的です、人類にとって非常に深い、心理的、進化的な意味で。教育は同じように展開するでしょう。

ジムに行くように学校に行くでしょう。今は、学習は難しいので、それほど多くの人が学びません。材料から跳ね返ります。一部の人々はその障壁を克服しますが、ほとんどの人にとって、それは難しいです。

それは解決すべき技術的な問題です。私が韓国語を学んでいたときに家庭教師がやってくれたことをやることは、扱いやすく、構築可能です。そして誰かがそれを構築すべきです。任意の知識の断片にそのような家庭教師がいたら、何でも学ぶことが些細で望ましくなり、人々は楽しみのためにそれをやるでしょう。些細だからです。

もし任意の知識の断片にそのような家庭教師がいたら、何でも学ぶことがはるかに簡単になり、人々はそれをやるでしょう。彼らはジムに行くのと同じ理由でそれをやるでしょう。

それは、娯楽として、あるいは自己向上として使うこととは異なるように聞こえます。しかしまた、人類をAIの制御下に保つためにこの教育が関連しているというビジョンを持っていたようにも聞こえました。それは異なるように聞こえます。一部の人々にとっては娯楽で、他の人々にとってはエンパワーメントですか。どう考えていますか。

最終的には少し負けゲームだと思います、それが理にかなっていれば。長期的にはそうです。長期的に、それは恐らく業界のほとんどの人々が考えるよりも長いですが、それは負けゲームです。

人々がどれだけ遠くまで行けるかと思いますし、私たちは人がどれだけ遠くまで行けるかの表面をほとんど掻いただけです。それはただ、人々があまりにも簡単すぎるか難しすぎる材料から跳ね返っているからです。人々ははるかに遠くまで行けるでしょう。

誰でも5つの言語を話すでしょう。なぜなら、なぜそうしないのですか。非常に些細だからです。誰でも学部の基本的なカリキュラムのすべてを知っているでしょう、などなど。

今ビジョンを理解していますが、それは非常に興味深いです。ジム文化への完璧な類推があります。100年前には誰もマッチョではなかったと思います。誰も自発的にただベンチプレスで2プレートや3プレートとかできなかったでしょう。

今では非常に一般的です。なぜならジムで体系的に訓練し、重量を上げるというこのアイデアのおかげです、あるいはマラソンを走れるように体系的に訓練するというもので、それはほとんどの人間が自発的に持たない能力です。

多くの異なる領域で学習について同様のことを想像していて、はるかに集中的に、深く、速く。

正確に。私は人間性の時代を超越したものに少し暗黙的に賭けています。これらのことをやることは望ましいでしょうし、人々は何千年もの間それを尊敬してきたと思います。

これは真実であり続けるでしょう。歴史的にそれの何らかの証拠があります。例えば、貴族を見たり、古代ギリシャか何かを見たりすると、AGI後のような小さなポケット環境があったときはいつでも、人々は物理的あるいは認知的に、ある意味で繁栄することに多くの時間を費やしてきました。

私はその見通しについて大丈夫だと感じています。もしこれが偽で、私が間違っていて、WALL-EやIdiocracy未来になるなら、ダイソン球があったとしても気にしません。これはひどい結果です。私は本当に人類を気にかけています。

誰もがある意味で超人間でなければなりません。それでも、それは私たち自身の労働や認知だけで技術の軌跡を変換したり、決定に影響を与えたりすることを可能にしない世界です。それはCultureの世界のようなものですよね。

AIがあなたの承認を求めているから決定に影響を与えることができるかもしれませんが、それは私が何かを発明したり、本当に影響を与えている新しいデザインを思いついたりしたからではありません。

恐らくそうです。私たちがループにいて、多くのものを理解していれば、ものを進めることができる移行期間があると思います。長期的には、それは恐らく消え去ります。

スポーツになるかもしれません。今、極端な方向に行くパワーリフターがいます。認知時代の認知的なパワーリフティングは何ですか。恐らくものを知ることで本当に極端になろうとしている人々です。もし完璧なAI家庭教師がいたら、恐らく極めて遠くまで行けます。

今日の天才は人間の心ができることの表面をほとんど掻いているだけだと感じています、私は思います。

このビジョンが大好きです。また、私が最もプロダクト・マーケット・フィットを持っている人物だと感じます。なぜなら私の仕事は毎週異なる主題を学ばなければならないことを含み、私は非常に興奮しています。

私は似ています、そういえば。多くの人々は、例えば、学校を嫌って、そこから出たいです。私は本当に学校が好きでした。ものを学ぶことなどが大好きでした。学校に留まりたかったです。博士号まで学校に留まり、それから彼らがもう長く留まらせてくれなかったので、業界に行きました。

大まかに言えば、学習が大好きです、学習のためでさえも、しかし学習が大好きなのは、それがエンパワーメントの形であり、有用で生産的であるからでもあります。

あなたはまた、微妙で、綴りたいポイントを作りました。これまでオンラインコースで起こったことで、なぜ彼らが既にすべての単一の人間がすべてを知ることを可能にしていないのですか。明白なオンランプがなく、詰まるのが非常に簡単なので、彼らはただ非常に動機づけ満載です。

もし代わりにこのもの、本当に良い人間の家庭教師のようなものがあったら、動機づけの視点からちょうどそのようなアンロックになるでしょう。

そう思います。材料から跳ね返ることは悪い気持ちです。悪い気持ちです。何かに一定の時間を沈めて、それがうまくいかないこと、あるいは得ているものがあまりに簡単すぎるか難しすぎるから完全に退屈することから、負の報酬を得ます。

適切にやると、学習は良い気持ちです。そこに到達するのは技術的な問題です。しばらくの間、AIプラス人間のコラボになるでしょう、そしてある時点で、恐らくそれはただのAIです。

うまく教えることについていくつか質問できますか。もしあなたが作ったようなYouTubeチュートリアルを作るために、あなたが興味を持っている別の分野の別の教育者にアドバイスをしなければならなかったら。何かをコーディングするか何かで誰かの技術的理解をテストできない領域について話すのは特に興味深いかもしれません。

どんなアドバイスをしますか。

それはかなり広いトピックです。恐らく半意識的にやっている10から20のヒントとトリックがあります。しかしこの多くは私の物理学のバックグラウンドから来ています。私は本当に、本当に物理学のバックグラウンドを楽しみました。

初期の学校教育で皆が物理学を学ぶべきことについて、全体的な長々とした話があります。なぜなら初期の学校教育は、後で業界でのタスクのための知識や記憶を蓄積することではないからです。脳を起動させることです。物理学は独特に脳を最もよく起動させます。なぜなら物理学で脳にやらせるもののいくつかは、後で極めて価値があるからです。

モデルと抽象化を構築するアイデア、システムのほとんどを記述する一次近似があるが、それから二次、三次、四次項が存在するかもしれないし、しないかもしれないという理解。非常にノイジーなシステムを観察しているが、抽象化できる基本的な周波数があるというアイデア。

物理学者が教室に入って、「球形の牛を仮定してください」と言うとき、誰もがそれを笑いますが、これは素晴らしいです。多くの方法で牛を球として近似できる、非常に汎用可能な素晴らしい考え方です、業界全体で。

例えば本当に良い本があります、Scale。それは生物学について話している物理学者からのものです。恐らくこれも読むことを勧める本です。本当に興味深い近似を得て、動物のスケーリング法則をチャート化できます。

心拍などを見ることができて、それらは動物のサイズなどと並びます。動物を体積として話すことができます。その熱散逸について話すことができます、なぜならあなたの熱散逸は表面積として成長し、それは二乗として成長するからです。しかしあなたの熱生成や生成は立方体として成長します。

だから物理学者は、世界での問題解決にアプローチするためのすべての正しい認知ツールを持っていると感じます。だからその訓練のおかげで、私は常にすべての一次項や二次項を見つけようとします。

システムや物を観察しているとき、心の中にアイデアや知識のもつれた網があります。私は、何が重要なのかを見つけようとしています。一次成分は何ですか。どう単純化できますか。それを示す最もシンプルなもの、実際にそれを示すものを持ち、それから他の項を付け加えることができますか。

恐らくそれをよく示していると思う私のリポジトリの一つからの例は、microgradと呼ばれるものです。これに馴染みがあるかどうか分かりません。だからmicrogradは、バックプロパゲーションを示す100行のコードです。

プラスやタイムズのような単純な操作からニューラルネットワークを作成できます、など。ニューラルネットワークのレゴブロック。計算グラフを構築し、フォワードパスとバックワードパスをやって勾配を得ます。

今、これはすべてのニューラルネットワーク学習の中心にあります。だからmicrogradは、かなり解釈可能なPythonコード100行で、任意のニューラルネットワークのフォワードとバックワードをやることができますが、効率的にはできません。

だからmicrograd、これらのPython100行は、ニューラルネットワークがどう訓練するかを理解するために必要なすべてです。他のすべてはただ効率です。他のすべてはただ効率です。効率を得るには膨大な量の作業があります。

テンソルが必要です、それらをレイアウトし、ストライドし、カーネルを作り、メモリ移動を正しく調整する、などを確認します。それはすべてただ効率です、大まかに言えば。しかしニューラルネットワーク訓練の核心的な知的部分はmicrogradです。100行です。

簡単に理解できます。それは勾配を導出するための連鎖律の再帰的な適用で、任意の微分可能な関数を最適化することを可能にします。だから、これらの小さな次数項を見つけ、それらを皿に盛って提供し、発見することが大好きです。

教育が最も知的に興味深いものだと感じます。なぜなら理解のもつれがあって、すべてがその前のものにだけ依存するランプを作る方法でそれをレイアウトしようとしているからです。

この知識のもつれを解くことが、認知的なタスクとして非常に知的に興味深いと思います。個人的にそれをやることが大好きですが、ある方法でものをレイアウトしようとすることに魅了されています。恐らくそれが私を助けます。

また、学習体験をはるかに動機づけられたものにします。トランスフォーマーについてのあなたのチュートリアルはbigramから始まります、文字通り「これが今の単語です、あるいはこれが前の単語です、これが次の単語です」のルックアップテーブルです。文字通りただのルックアップテーブルです。

それがその本質です、そうです。

ルックアップテーブルから始めて、それからトランスフォーマーに行くというのは非常に素晴らしい方法です。各部分は動機づけられています。なぜそれを追加するのですか。なぜ次のものを追加するのですか。

アテンション式を記憶できますが、すべての単一の部分がなぜ関連するのか、どんな問題を解決するのかを理解しています。解決策を提示する前に痛みを提示していて、それはどれだけ賢いですか。

学生をその進行を通して連れて行きたいです。それを良くて魅力的で興味深くする他の多くの小さなことがあります。常に学生にプロンプトを出します。良い教育者がやるであろう他の多くの小さなことがあります。

これをどう解きますか。推測する前に解決策を提示するつもりはありません。それは無駄になるでしょう。それは少し…汚い言葉を使いたくありませんが、私があなたに解決策を提示する前にあなた自身でそれを思いつこうとするショットをあなたに与える前に、それはあなたに対するちょっと嫌な動きです。

なぜなら、もしあなた自身でそれを思いつこうとするなら、アクション空間が何か、目的が何かについてより良い理解を得て、それからなぜこのアクションだけがその目的を満たすのかについてより良い理解を得るからです。

あなた自身でそれを試すチャンスがあり、私があなたに解決策を与えたときに感謝します。追加された新しい事実ごとに知識の量を最大化します。

あなたの分野の本物の専門家であるデフォルトの人々が、しばしば立ち上がっている誰かにそれを説明するのが下手なのはなぜだと思いますか。

それは知識と専門性の呪いです。これは本当の現象で、私自身もそれに苦しんでいます、できるだけそうならないようにしようとしても。しかし特定のことを当然のこととして受け取り、ただ始めたばかりの新しい人々の立場に自分を置くことができません。

これは蔓延していて、私にも起こります。非常に役立つことの一つ。例として、誰かが最近生物学の論文を見せようとしていて、私はただ即座に非常にひどい質問をたくさんしました。

私がやったことは、コンテキストウィンドウに論文を入れてChatGPTを使って質問をすることでした。それはシンプルなもののいくつかを通して働きました。それから、その仕事に取り組んだ人にスレッドを共有しました。

もし彼らが私が持っていた愚かな質問を見ることができれば、将来より良く説明するのに役立つかもしれないと感じました。私の材料については、私が作ったものについてのChatGPTとの愚かな会話を人々が共有してくれたら大好きでしょう。なぜなら、始めたばかりの誰かの立場に自分を再び置くのに本当に役立つからです。

驚くほどよく機能する別のトリック。もし誰かが論文やブログ投稿やアナウンスを書いたら、昼食中にあなたにそれをどう説明するかのナレーションや転写だけが、100%のケースで、より理解可能であるだけでなく、実際により正確で科学的です。人々が可能な限り最も抽象的で、専門用語に満ちた方法でものを説明するバイアスがあるという意味で、そして中心的なアイデアを説明する前に4パラグラフ喉を clearing するという意味で。

しかし人と一対一でコミュニケーションすることについての何かが、ただそのものを言うことを強制します。

ただそのものを言ってください。私はそのツイートを見ました、本当に良いと思いました。たくさんの人と共有しました。私はこれに何度も、何度も気づきました。最も顕著な例は、私の博士課程時代に研究をやっていたことを覚えています。

誰かの論文を読んで、それが何をやっているか理解しようと働きます。それから彼らを捕まえます、後で会議でビールを飲んでいて、「だからこの論文、何をやっていたの。論文は何について」と尋ねます。彼らはただこの3つの文章を言うでしょう、それはその論文の本質を完璧に捉えていて、完全にアイデアを与えてくれます。

そして論文を読む必要はありませんでした。ビールか何かを持ってテーブルに座っているときだけで、「ああそうだ、論文はただ、このアイデアを取って、そのアイデアを取ってこの実験を試し、このものを試してみる」のようなものです。彼らは会話的に完璧にそれを置く方法を持っているだけです。なぜそれが抄録ではないのですか。

正確に。これは、アイデアを説明しようとしている誰かの視点から、アイデアをより良く定式化する方法です。学生として他の学生へのあなたのアドバイスは何ですか、もしあなたが専門家ではない分野で興味を持っている材料を学んでいるKarpathyを持っていなかったら。

誰かからの論文を読んでいるか、本を読んでいるなら、あなたが興味を持っている分野で専門家ではない分野で材料を学ぶためにどんな戦略を使いますか。

独特のヒントやトリックがあるとは思いません、正直に言って。それは痛みを伴うプロセスです。常に私をかなり助けてきた一つのことは、小さなツイートを持っていましたが、オンデマンドでものを学ぶことはかなり良いです。深さ方向に学ぶこと。

深さ方向に学ぶこと、オンデマンドで、報酬を得る特定のプロジェクトを達成しようとしている、と幅方向に学ぶこと、それはただ、「ああ、何でも101をやろう、そしてこれが恐らく後で必要になるすべてのものだ」というようなものの少しの交互が必要だと感じます。それは学校の多くです、幅方向の学習をやります、「ああ、私を信じて、後でこれが必要になる」、そのようなもの。オーケー、あなたを信じます。恐らく必要になるので学びます。

しかし、何かをやって報酬を得る、そしてオンデマンドで学ぶような種類の学習が大好きです。

私が極めて役立つと思ったもう一つのこと。これは教育がもう少し無私である側面ですが、人々にものを説明することは、何かをより深く学ぶ美しい方法です。これは私にいつも起こります。他の人々にもしばしば起こると思います。なぜなら、本当に何かを理解していなければ、説明できないことに気づくからです。

そして試みていて、「ああ、これを理解していない」と思います。それに向き合うのは非常に面倒です。戻って、理解したことを確認できます。理解のギャップを埋めます。人々にそれに向き合うことを強制します。

ものを再説明することが大好きですし、人々ももっとそうすべきです。知識を操作し、説明しているときに何について話しているか知っていることを確認することを強制します。

それは締めくくるのに素晴らしいメモです。Andrej、素晴らしかったです。ありがとうございました。

コメント

タイトルとURLをコピーしました