Andrej KarpathyがAI楽観主義者を打ちのめす発言

AI分野の重要人物であるAndrej Karpathyが、AGI実現までの展望について詳細な見解を示している。彼はAGI到達まで10年以上かかると予測し、現在のAI業界の楽観的な見方に対して慎重な立場を取る。特に注目すべきは、2025年を「エージェントの年」とする業界の風潮に対し、彼は「エージェントの10年」と表現し、実用的なエージェントの普及には長期的な取り組みが必要だと主張している点である。また、現在の強化学習アプローチへの懐疑的な見方、システムプロンプト学習という新しいパラダイムの提案、そしてLLMと人間の協働作業の重要性について論じており、AI開発における現実的かつ建設的な視点を提供している。

Andrej Karpathy devastates AI optimists...

Check out the Dell Pro Max Workstation with the NVIDIA RTX PRO! One Hundred Ways to Use AI Guide 👇🏼http:...

Andrej KarpathyのAGIタイムラインに関する見解
進歩と課題のバランス
システムプロンプト学習という新しいパラダイム
エージェント産業への現実的な視点

Andrej KarpathyのAGIタイムラインに関する見解

人工知能分野で最も重要な人物の一人であるAndrej Karpathyは、AGI到達まで10年かかると述べています。彼はDwareshのポッドキャストに出演したばかりで、本当に素晴らしい議論が交わされました。しかし、実際には彼のXでのフォローアップ投稿も同じくらい興味深いものでした。今日はそれについて見ていきましょう。

彼はDarkhポッドキャストで述べた多くの点を明確にし、さらに少し踏み込んでいます。早速見ていきましょう。その前に、私たちの新しい「100 ways to use AI guide」についてお知らせします。これは完全無料で、私のチームが作成したものです。ニュースレターに登録するだけです。下にリンクを貼っておきます。今すぐダウンロードしてチェックしてみてください。

では始めましょう。まず彼はAGIのタイムラインについて話しています。そして確かに、彼はAGIは10年以上先だと言いました。最初に彼が明確にしているのは、これは「エージェントの10年」だということです。これは実際、OpenAIなどが「エージェントの年」だと言っていることへの反応です。これはなかなか興味深い指摘です。なぜなら、エージェントの年、エージェントの10年とは一体何を意味するのでしょうか。

私が「エージェントの年」と言うとき、それは人々の思考や実装の最前線に来るという意味です。彼が「エージェントの10年」と言うとき、それは実際に使用可能で、価値があり、経済全体に普及するエージェントを実現するのにそれだけの時間がかかるということだと思います。

彼は今年の初めに投稿したツイートをリンクしています。お見せしましょう。OpenAIのOperatorのようなプロジェクトは、デジタル世界におけるヒューマノイドロボットの物理世界での存在に相当します。

OpenAIのOperatorが何だったか覚えていない方のために説明すると、あまり人気が出ていないと思いますが、基本的にはブラウザを制御して実際にあなたの代わりにウェブを閲覧できるChatGPTです。これは本当に特別なプロジェクトでした。これに非常に似た多くのプロジェクトを見てきましたが、特別なのは、それが汎用的だという事実です。

ウェブブラウザとプロンプトまたはタスクを与えるだけで、何を求められているかについて専門的な知識がなくても、あなたの代わりに実際に物事を達成していきます。つまり、一つの汎用的な設定、モニター、キーボード、マウス、あるいは人間の身体があれば、原則として、人間向けに設計されたIOインターフェースを通じて、徐々に任意の一般的なタスクを実行できるということです。

どちらの場合も、人間が低レベルの自動化の高レベルな監督者となる、徐々に混合された自律性の世界につながります。これはデジタル世界の方が物理世界よりも早く起こるでしょう。なぜなら、ビットを反転させることは原子を動かすことよりも約1000倍安価だからです。つまり、AIは物理的な現実世界を操作するよりも、インターネットを操作する方がはるかに簡単だということです。

しかし、ここからが興味深い点です。市場規模と機会は物理世界の方がはるかに大きいように感じられます。さて、これについてどう思いますか。知識労働は物理労働よりも大きな市場機会だと思いますか。私は、もし地球を超えて拡大するなら、物理世界では本当に無限だと思います。

しかし現時点では、知識労働の方が大きな機会のように思えます。しかし、ここで彼がエージェントの年ではなくエージェントの10年だと言う理由があります。私のタイムライン上の人々は2025年がエージェントの年だと言っています。個人的には、2025年から2035年がエージェントの10年だと思います。実際に機能させるには全般的に膨大な作業が必要ですが、機能するはずです。

彼が話しているのはスキャフォールディングについてです。さて、この最近の投稿に戻りましょう。基本的に、私のAIタイムラインは、あなたの近所のサンフランシスコAIハウスパーティーやTwitterのタイムラインで見られるものに比べて、約5倍から10倍悲観的です。基本的に、私が接しているすべてのもの、そしておそらくあなたも同様に接しているものは、極端に楽観的です。

私は1年だとは思いません。また10年だとも思いませんが、増加するAI否定派や懐疑派に関しては、かなり楽観的です。つまり、彼は自分が最も悲観的なものと最も楽観的なものの中間あたりにいると信じているのです。

進歩と課題のバランス

では、彼が示す対立点がここにあります。まず一つ目は、近年LLMで膨大な進歩を見ました。これは事実です。2022年末にChatGPTが最初に登場したときから現在までを見てください。どれだけの進歩があったか見てください。しかし同時に、まだやるべきことがたくさん残っています。地道な作業、統合作業、物理世界へのセンサーやアクチュエータ、社会的な作業、安全性とセキュリティの作業、ジェイルブレイク、ポイズニングなどです。

そして、世界の任意の仕事について人間よりも雇いたいと思えるような存在を持つ前に、やるべき研究もあります。そして彼は正しいです。彼が言及したすべてのこと、あるいは少なくともその一部は、スキャフォールディングの継続的な展開によって達成されるでしょう。これは多くの人がモデルオーバーハングと呼んでいるものです。

コアモデルの能力、知性は本当に優れていますが、実際のツールやメモリ、そしてこれらのモデルのコア知性から実際に力を得て価値を獲得するためのインフラストラクチャの構築は、まだモデルの実際の能力よりもはるかに遅れています。さて、Andrej Karpathyはまた、モデルのコア能力がまだ完全ではないとも言っていますが、私は彼よりもはるかに楽観的です。

私は、全体的に10年というのはAGIにとって非常に強気なタイムラインであるべきだと思います。それが強気に感じられないのは、現在の誇大宣伝と対比されているからにすぎません。次は、動物対幽霊です。これについては1秒後に触れます。しかしまず、今日の動画のスポンサーであるDell Technologiesについてお話しさせてください。

この動画の一部をスポンサーしてくれたDell Technologiesに特別な感謝を。DellのProMaxファミリーのPCは、AIワークロードに対して信じられないほど強力です。GB300やGB10を含む新しいGrace BlackwellシリーズのNvidia GPUを使用しています。これらはあなたのデスクトップにある絶対的なモンスターGPUです。NvidiaのRTX Pro GPUを搭載したDellPro Max GB10とGB300、およびDell Pro Maxラインナップのワークステーションについて詳しく知りましょう。

下の説明にあるリンクをクリックしてください。私が送ったと伝えてください。チェックしてみてください。彼の主張の要点は、LLMの学習方法は動物の学習方法よりも幽霊に近いということです。彼はそれが実際に何を意味するのかを説明します。分解してみましょう。私は、世界に放って一から全てを学習する単一のシンプルなアルゴリズムがあるということに懐疑的です。

非常に興味深い点です。一から全てを学習できる単一のシンプルなアルゴリズム。彼はそれが可能だとは信じていません。もし誰かがそのようなものを構築したら、私は間違っていることになり、それはAIにおける最も信じられないブレークスルーになるでしょう。私の考えでは、動物はこれの例では全くありません。彼らは進化によって大量の知性がパッケージ化されており、彼らが行う学習は全体的にはかなり最小限です。

基本的に、人間を含む動物は、何世代にもわたる進化を通じて、物事をどのように行うかについてのパッケージ化された知識をすべて持って生まれてきます。そして彼が挙げる例は、出生時のシマウマです。なぜ彼がこの例を挙げるのかお見せしましょう。さて、これは生まれたばかりのシマウマです。そして呼吸や視覚のような基本的なことをすべて知っているだけでなく、すぐに歩き始めることができ、その方法を知っています。

そしてそれは簡単な偉業ではありません。だからもう一度見てください。出生直後です。さあ始まります。少しぐらついていますが、すぐにやるべきことの要点を掴んでいます。立ち上がります。そしてそこに行きます。そしてもう歩き始めています。見てください。出生時のシマウマ。それは何世代にもわたる進化がこの赤ちゃん動物にパッケージ化されたものです。

しかし、彼は私たちがアルゴリズムだけで進化を再現することはできないと言っています。彼は、LLMは学習への異なるアプローチだと言います。それは進化ではありません。しかしLLMでは、ニューラルネットワークに大量の知性をパッケージ化する別のアプローチを偶然見つけました。進化によってではなく、インターネット上の次のトークンを予測することによって。

しかし、そのタイプの学習は進化とは異なります。彼が言うには、動物とは異なり、幽霊や精霊により近いと。私たちは時間をかけてそれらをより動物的にすることができるし、すべきです。そしてある意味で、それが多くの最先端の研究のすべてです。そして彼は特に記憶について話しています。

LLMについて考えるとき、それらは物事を記憶しています。まだ汎化はそれほどしていません。少なくともまだです。特にARK賞のようなベンチマークでは、いくつかの汎化が見られます。それは本当に汎化のテストです。そして汎化は、AGI、汎用人工知能への鍵です。記憶だけでは十分ではありません。

それは良いことですが、明示的に教えられるのではなく、その場で新しいことを学べることが本当の鍵なのです。そして彼は強化学習について話を続け、さらに掘り下げます。つまり、私はすでに何度か強化学習を批判してきました。まず、あなたはストローを通して監視を吸い上げているのです。つまり、そこに到達するために使用する計算量あたりに得られる実際の学習量は現時点では非常に悪いと思います。

しかし、良くなる一方だと思います。つまり、明らかに良くなる一方です。しかし、その比率は本当に汎化に到達するのに十分なほど改善されるのでしょうか。強化学習は非常にノイズが多いです。なぜなら、完成物には多くのエラーがあるかもしれず、たまたま正しい答えにたどり着いた場合、それらが奨励される可能性があり、逆に、後で失敗した場合、素晴らしい洞察トークンが抑制される可能性があるからです。

これが結果ベースの報酬の問題です。では、それがあなたにとって何を意味するか分解してみましょう。強化学習における結果ベースの報酬では、何かがうまくいったときはいつでも、モデルに、重みに伝え、重みを更新しています。だから思考連鎖がどのように機能するかを考えると、最終的な答えの前に起こる多くの中間思考があります。

本当に簡単な例を挙げましょう。1足す1は2です。そしてモデルがそれについてたくさん考えなければならないとしましょう。そしてそれは間違った方法で考えます。そして「さて、1引く1は0だから、10足す50は60に違いない」と言います。そしてこのような関連性のない思考をすべてしています。あるいは本当に根本的に間違っている可能性があります。

だから3足す3は50だと言うかもしれません。そして最終的な答えで1足す1は2だと言うとき、思考プロセス全体が報酬を受けます。だからそれは実際に、ああ見て、途中で考えたすべてのことと最終的な答えが実際に正しいと考えているのです。そこでプロセス報酬が役立ちます。しかし、彼が言っているように、それらにも問題があります。

だからモデルが何かを理解するのに5つのステップを踏み、最終的な答えに到達したとき、最終的な答えが間違っているとしましょう。しかし5つのステップのそれぞれは正しいです。その最終的なシグナルは、ヘイ、あなたはそれらのステップを正しく行ったが、全体的な答えは間違っていたと伝えるでしょう。

だから、それらの中間ステップは本当に良かったにもかかわらず、実際にペナルティを受けることになります。プロセス監督とLLM判定にも問題があります。私たちは代替学習パラダイムを見ることになると思います。私はエージェント的な相互作用には強気ですが、強化学習には弱気です。これはクレイジーです。なぜなら、見たところすべての最先端研究所が強化学習に非常に強気なのに、彼はエージェント的な相互作用が道だと言っているからです。

私が思うに、彼がエージェント的な相互作用と言っているのは、本質的にエージェントが実験し、進みながら学習するための遊び場を作ることです。これは、Andrej KarpathyがインターンをしていたDeepMindチームが、囲碁ゲームで世界最高のAIを作ることができた方法です。そして、世界モデルを構築している企業があり、それは本当にエンボディードエージェントやデジタルエージェントが遊び回り、進みながら物事を理解するための遊び場なのです。

システムプロンプト学習という新しいパラダイム

彼は続けます。私の意見では正しい方向を向いている、最近いくつかの論文が出てきているのを見ました。それらは私がシステムプロンプト学習と呼んだものに沿ったものです。彼は数ヶ月前に投稿した、システムプロンプト学習を定義した投稿を参照しています。ところで、ちょっと立ち止まって、Andrej Karpathyが物事に名前を付けるのがどれだけ上手いか評価しましょう。

彼は幻覚と名付けた最初の人物でした。彼はバイブコーディングと名付けた最初の人物でした。だから、彼は命名に関しては至る所にいます。そして今、私たちはシステムプロンプト学習を持っています。それが何かを説明しましょう。事前学習は知識のためです。ファインチューニングは習慣的な行動のためです。これらは両方ともパラメータの変化を伴います。

しかし、人間の学習の多くは、システムプロンプトの変化のように感じられます。そしてシステムプロンプトは、すべてのプロンプトに追加するメッセージであり、それがモデルに与えられ、基本的にモデルの動作に影響を与えることを覚えておいてください。それは、モデルの個性が実際にどのように現れるかにとって本当に核心的なものです。

その一例は、xAIがシステムプロンプトを変更すると、突然すべての投稿でElon Muskについて話し始めることです。プロセスは、問題に遭遇し、何かを理解し、次回のためにかなり明示的な用語で何かを覚えるというものです。例えば、このような種類の問題に遭遇したとき、このような種類のアプローチ解決策を試すべきだと感じられます。

それは自分自身のためにメモを取るような感じです。そして彼は、システムプロンプトがそれらのメモを取るのに最適な場所である可能性があると言っています。しかしシステムプロンプトは非常に限られています。私たちはコンテキストウィンドウを持っており、そのコンテキストウィンドウは有限です。だから、そこに入れられるものは限られています。システムプロンプトとユーザーからの実際のプロンプトを入れる必要があります。

それは自分自身のためにメモを取るような感じです。メモリ機能のようなものです。つまり、ユーザーについて覚えておく必要があると考えるすべてのログを持っているChatGPTのメモリ機能ですが、ユーザーごとのランダムな事実ではなく、一般的なグローバルな問題解決の知識と戦略を保存します。彼は実際にClaudeのシステムメッセージを見ました。それは17,000語で、基本的な行動、スタイル、好みを指定するだけでなく、大量の一般的な問題解決も持っています。ここに例があります。

もしClaudeが単語、文字、文字数を数えるように求められたら、人に答える前に段階的に考えます。それぞれに番号を割り当てることによって、単語、文字、または文字を明示的に数えます。この明示的なカウントステップを実行した後にのみ、人に答えます。これは明示的に、Claudeが「strawberryという単語にはRがいくつあるか」というテストを解決するのを助けるためのものです。

そして彼は、本当に有望な多くの論文があると言いますが、それらの論文と実際に本番規模で世界に出ているものは、控えめに言っても不足しています。そして彼はもう一度ChatGPTメモリを参照しますが、それは彼が話していることの最も基本的なバージョンにすぎないという意味で、新しい学習パラダイムの原始的に展開された例です。

彼はまた認知コアについても話しています。だから彼は本当に記憶に反対しており、これらのモデルを大規模にスケールアップするときに起こることです。認知コア、LLMを削ぎ落とし、記憶を困難にしたり、汎化を向上させるために積極的にメモリを取り除くというアイデアです。そうでなければ、彼らは記憶したものに強く依存しすぎます。

そしてもちろん、人間と比較してみましょう。人間はそう簡単に記憶できません。それは対照的に、バグというよりも機能のように見えます。なぜなら、すべてを記憶したら、もちろん私たちは常に記憶を松葉杖として、将来の学習の頼みの綱として使うからです。記憶できないことは、ある種の正則化のようなものかもしれません。

だから、実際に彼の認知コアの投稿をもう少し深く掘り下げてみましょう。これは数ヶ月前の投稿でした。認知コアによって、彼は能力のために百科事典的知識を最大限に犠牲にする数十億パラメータモデルを意味します。そして、私たちはそのようなものをいくつか見始めました。実際、ほんの数週間前、確か700万パラメータモデルで、パズルを解くのに非常に有能だったという素晴らしい論文があったことを覚えていますか。

それは常にオンで、デフォルトですべてのコンピュータ上にLLMパーソナルコンピューティングのカーネルとして存在します。その特徴は徐々に結晶化しています。一つはネイティブにマルチモーダルで、入力と出力の両方でテキスト、ビジョン、オーディオです。マトリオシカスタイルのアーキテクチャで、テスト時の推論でも能力を上下にダイヤルできるようにし、ダイヤルシステム2を使用し、積極的にツールを使用し、デバイス上でのファインチューニング、テスト時のトレーニング、パーソナライゼーション、カスタマイズのためのLoRAスロットがあり、インターネットが利用可能な場合はクラウド内のオラクルと適切な部分を委任し、ダブルチェックします。これはGoogleの非常に小さく高性能なオープンソースモデルであるGemini 2.0 Nanoが登場したことへの返信でした。

それから彼はこの点をモデルサイズの逆方向のトレンドと、モデルが小さくなる前にまず大きくならなければならない理由で締めくくります。次に触れたい点は、LLMエージェントと彼がそれについてどう考えているかです。

エージェント産業への現実的な視点

彼は現在の形でのエージェント産業についてかなり強い批判をしました。具体的には、私の産業に対する批判は、現在の能力に対してツールを過度に強化していることにあります。そして彼はエージェントに対する現在の見解を説明し続けます。彼はLLMやエージェントと協力したいと考えており、そこでは彼の短所と彼らの強みが本当にうまく組み合わされています。

しかし彼は、エージェントがタスクを割り当てられて20分30分も離れて作業するのに十分な準備ができているとは思っていません。実際、彼は具体的に、彼の最新プロジェクトであるNano Chatはほぼ完全に手作業で構築されたと言いました。手動コーディング、バイブコーディングなしです。業界は、完全に自律的なエンティティが並行して協力してすべてのコードを書き、人間が役に立たない未来に生きています。

例えば、私は20分間離れて1000行のコードを持って戻ってくるエージェントを望んでいません。私は確かに10人のエージェントチームを監督する準備ができているとは感じていません。私は頭の中に保持できるチャンクで進みたいのです。そこではLLMが書いているコードを説明してくれます。私はそれが正しいことを証明してほしいのです。

私はそれがAPIドキュメントを引っ張ってきて、正しく使用したことを示してほしいのです。より少ない仮定と、何かについて確信が持てないときに協力するよう求めることです。そして彼は特に、もしエージェントが外に出て1000行か数千行のコードを書いて戻ってきて、私がすべての行を高い精度でコンテキストの理解を持って本当にレビューしないなら、と言います。

私たちは彼が「スラップの山」と呼ぶものを持つことになるでしょう。そして最後に、一つの楽しい小話で終わりたいと思います。Elon Muskがこの投稿に返信して言いました。「あなたは多くの素晴らしい点を指摘しています。特に子供たちが物理学のツールを早期に学ぶべきだという点です。Andrej対Grok 5、カスパロフ対Deep Blueのような、AIコーディングコンテストまたはあなたが望むどんな形式の競争でもいいですか」。覚えていない方のために、Gary Kasparovは史上最高のチェスプレーヤーの一人です。

90年代だったと思いますが、IBMのDeep Blueと対戦しました。それは本当の人工知能ではなく、どちらかというとブルートフォースとヒューリスティックのアプローチでしたが、Gary Kasparovを破りました。だからElon Muskが言っているのは、わかった、Andrej Karpathy対Grok 5がバトルであるコーディングチャレンジをしましょう、ということです。そしてAndrejは返信します。私はGrok 5と競争するよりも、使用して協力したいです。

チェスと非常に似ていますが、極限では、物理学について言えば、私の付加価値はおそらくゼロに向かう傾向があります。彼が言っているのは、まず、彼はその競争をしたくないということです。なぜなら彼は誇大宣伝には興味がなく、それは純粋な誇大宣伝プレイのように見えるからです。そして彼の付加価値はゼロに向かう傾向があります。つまり、はい、Grok 5は十分な時間をかければ、コーディングチャレンジで私よりも優れているでしょうということです。

これは非常に魅力的だと思いました。投稿へのリンクを下に貼っておきます。この動画を楽しんでいただけたら、ぜひいいねとチャンネル登録をお願いします。