この動画は、AIポッドキャストのホストであるドワルケシュが、AGIの到来時期について自身の見解を述べたものである。現在のLLMの限界として継続学習の欠如を挙げ、真の経済変革には時間がかかるとの立場を示している。コンピューター使用エージェントの開発予測についても慎重な見方を示し、AGIの実現は2030年代になると予測している。

AGIへのタイムラインについて
わしのポッドキャストでは、AGIまでのタイムラインについて色んなゲストと議論してきてん。20年先やと思ってる人もおれば、2年先やと考えてる人もおる。これが2025年7月時点での、わしの考えや。
時々、仮にAIの進歩が完全に止まったとしても、今日のシステムはインターネットよりもはるかに経済的な変革をもたらすやろうって言う人がおるけど、わしはそうは思わん。今のLLMは確かに魔法みたいなもんやと思ってる。
でも、フォーチュン500の企業がこれらを使って業務フローを完全に変革してないのは、そこの経営陣が頭固いからやない。むしろ、これらのLLMから普通の人間みたいな労働力を引き出すのは本気で難しいからやと思うねん。そしてこれは、これらのモデルに欠けてる根本的な能力に関係してる。
LLMの実用性への挑戦
わしはドワルケシュ・ポッドキャストで「AI推進派」やと思ってるねん。ポストプロダクションのセットアップ用に小さなLLMツールを作るのに、たぶん100時間以上は費やしてきた。そして、それらを有用にしようとした経験が、わしのタイムラインを延ばしてしもうた。
自動生成された書き起こしを、人間がやるように読みやすさを最適化して書き直してもらおうとしたり、入力した書き起こしからクリップを特定してもらおうとしたりしてる。時には、段落ごとにエッセイを一緒に書いてもらおうとすることもある。
これらは単純で、自己完結した、短期的な、言語を入力して言語を出力するタスクで、LLMのレパートリーのど真ん中にあるべき種類の課題や。それなのに、5点満点中5点程度の出来やねん。勘違いせんといてや、それでも印象的やとは思うで。
でも根本的な問題は、LLMが人間のように時間をかけて良くなっていかんことや。この継続学習の欠如は、めちゃくちゃ大きなボトルネックやねん。
多くのタスクでLLMのベースラインは平均的な人間よりも高いかもしれん。でも、モデルに高レベルなフィードバックを与える方法がないねん。箱から出た時の能力に縛られてしまうわけや。
人間の学習との違い
システムプロンプトをいじり続けることはできるけど、実際にはこれは人間の従業員が経験するような学習や改善にはほど遠い結果しか生まんねん。
人間が有用な理由は、主に生の知性やない。コンテキストを構築し、自分の失敗を問い詰め、タスクを練習しながら小さな改善や効率性を身につける能力や。
子どもにサックスの演奏を教えるならどうする?サックスに息を吹き込んでもらって、どんな音が出るかを聞かせて、調整させるやろ。
でも、もしこんな風にサックスを教えなあかんとしたらどうや:生徒が一回だけ試してみる。そして間違いを犯した瞬間に、その子を帰らせて、何が間違ってたかについて詳細な指示を書く。そして次の生徒を呼ぶ。
次の生徒はあんたの注意書きを読んで、いきなりチャーリー・パーカーを演奏しようとする。そして失敗したら、あんたは指示を洗練させて次の生徒を呼ぶ。
こんなんうまくいくわけないやろ。どんなに洗練されたプロンプトでも、指示を読むだけでサックスの演奏を覚える子どもなんておらん。
強化学習の限界
でも、これがLLMに何かを「教える」唯一の方法やねん。確かに強化学習ファインチューニングはあるけど、人間の学習のような意図的で適応的なプロセスやない。
わしの編集者たちはめちゃくちゃ上手になってる。そして、もし彼らの仕事に関わる様々なサブタスクのために特注の強化学習環境を構築せなあかんかったら、彼らはそんな風に上手くなれんかったやろう。
彼らは自分たちで多くの小さなことに気づいて、観客に響くもの、わしが好むコンテンツの種類、日々のワークフローをどう改善できるかについて一生懸命考えてきたんや。
もちろん、より賢いモデルが外から見てすごく自然に感じられる専用の強化学習ループを自分で構築する方法を想像することは可能や。
高レベルなフィードバックを与えると、モデルが強化学習で練習するための検証可能な練習問題を山ほど考え出す、さらには自分に欠けてると思うスキルをリハーサルできる環境全体を作り出すかもしれん。
でも、これはめちゃくちゃ難しそうやねん。そして、これらの技術が異なる種類のタスクやフィードバックにどれだけうまく汎化するかもわからん。
継続学習への展望
最終的には、モデルは人間ができるような、この有機的な方法で仕事中に学習できるようになるやろう。でも、これらのLLMのようなモデルに継続学習を組み込む明らかに即座の方法がない以上、これが今後数年以内に実現するとは考えにくいねん。
LLMは実際にセッションの途中でかなり賢くて有用になることがあるねん。
たとえば、時々LLMと一緒にエッセイを共同執筆することがある。アウトラインを渡して、段落ごとにエッセイを下書きしてもらうねん。そして4段落目まで、すべての提案がただ悪いだけやねん。すべての段落を一から書き直して、「見てみい、あんたの書いたもんはクソやった。代わりにわしが書いたのがこれや」って言うねん。
そしてこの時点で、実際に次の段落に対して良い提案をし始めるようになるねん。でも、わしの好みやスタイルのこの微妙な理解は、セッションが終わるまでに失われてしまうねん。
これに対する簡単な解決策があるかもしれん。長いローリングコンテキストウィンドウみたいなもので、Claude Codeがすでに持ってるような、30分ごとにセッションメモリを要約に圧縮するようなやつや。
でも、この豊富な暗黙の経験をすべてテキスト要約に滴定するのは、ソフトウェアエンジニアリング以外の領域では脆弱やと思うねん。ソフトウェアエンジニアリングは非常にテキストベースで、コードベース自体に保存される外部のメモリの足場がすでにあるからな。
もう一度、テキストだけで子どもにサックスの演奏を教えることがどんなもんかを考えてみてや。
Claude Codeでさえ、/compactを押す前に一緒に設計した苦労して得た最適化を元に戻すことがよくあるねん。なぜそれが作られたかの説明が要約に入らんかったからや。
Anthropic研究者との見解の相違
これが、わしのポッドキャストに出演したAnthropic研究者のショルト・ダグラスとトレントン・ブリックンが言ったことに同意せん理由や。
これはトレントンからの引用や:「AIの進歩が完全に停滞したとしても(そしてモデルが本当にスパイキーで、汎用知能を持ってないと思ったとしても)、それは経済的に非常に価値があり、これらすべての異なるホワイトカラーの仕事のタスクに関するデータを収集するのが十分簡単なので、ショルトのポイントに従えば、今後5年以内にそれらが自動化されることを期待すべきやねん」
もしAIの進歩が今日完全に止まったら、ホワイトカラーの雇用の25%未満しか消えんと思うねん。確かに、多くのタスクが自動化されるやろう。Claude 4 Opusは技術的にはわしのために自動生成された書き起こしを書き直すことができる。でも、時間をかけて改善させて、わしの好みを学習させることができんから、わしはまだこの仕事に人間を雇ってるねん。
だから、もっとデータを得られたとしても、継続学習の進歩なしには、他のすべての種類のホワイトカラー業務でも実質的に似たような状況にあると思うねん。確かに、技術的にはAIは多くのサブタスクをある程度満足にできるようになるやろうけど、コンテキストを構築できんことで、実際に会社の従業員として機能させることは不可能になるねん。
長期的な楽観論
これは今後数年間の変革的AIについてわしを弱気にさせるけど、今後数十年間のAIについては特に強気にさせるねん。継続学習を解決した時、これらのモデルの価値に巨大な不連続性が見られるやろう。
これらのモデルが急速により賢い後継システムを構築するソフトウェアのみの特異点がなかったとしても、広範囲に展開された知能爆発のように見えるものを得るかもしれん。
AIは経済全体に広く展開され、異なる仕事をして、人間ができるように仕事をしながら学習するようになるやろう。しかし、人間とは違って、これらのモデルはすべてのコピー間で学習を融合できるねん。つまり、一つのAIが基本的に経済のすべての仕事をする方法を学習してるということや。
この種のオンライン学習ができるAIは、さらなるアルゴリズムの進歩がなくても、急速に人工超知能になるかもしれん。
でも、継続学習が完全に解決されたとOpenAIがライブストリームで発表するのを見ることは期待してない。研究所は革新をすぐにリリースするインセンティブがあるから、人間のように真に学習するものを見る前に、壊れた初期バージョンの継続学習(またはテスト時間訓練、または何と呼びたいにしても)を見ることになるやろう。
この大きなボトルネックが完全に解決される前に、たくさんの予告を得ることを期待してるねん。
コンピューター使用エージェントへの懐疑
わしのポッドキャストでAnthropic研究者ショルト・ダグラスとトレントン・ブリックンにインタビューした時、彼らは来年末までに信頼できるコンピューター使用エージェントを期待してると言った。わしらには今でもコンピューター使用エージェントがあるけど、かなり悪いねん。
彼らが想像してるのは全く違うもんや。彼らの予測では、来年末までに、AIに「税務申告をやってくれ」と言えるようになってるはずや。そうすると、AIがあんたのメール、Amazonの注文、Slackメッセージをすべて調べて、請求書が必要なすべての人とメールでやり取りし、すべての領収書を集めて、何が実際にビジネス経費なのかを決めて、すべての境界例についてあんたの承認を求めて、それから1040フォームをIRSに提出するねん。
わしは懐疑的やねん。わしはAI研究者やないから、技術的な詳細について彼らに反論するのは恐れ多いけど、わしが知ってる限りでは、この予測に反対する理由はこうや:
一つ目。ホライゾンの長さが増加するにつれて、ロールアウトがより長くなる必要がある。AIは、それが正しくやったかどうかをわしらが確認できる前に、2時間分のエージェンシックなコンピューター使用タスクをする必要があるねん。
コンピューター使用は画像とビデオの処理を必要とすることは言うまでもなく、これはより長いロールアウトを考慮しなくても、すでにより多くの計算集約的やねん。これは進歩を遅らせるはずやと思うねん。
二つ目。わしらにはマルチモーダルなコンピューター使用データの大きな事前訓練コーパスがない。ソフトウェアエンジニアリングの自動化に関するMechanizeの投稿からのこの引用が気に入ってる:
「過去10年間のスケーリングでは、わしらが自由に使える膨大なインターネットデータによって甘やかされてきた。これは自然言語処理を解決するには十分やったけど、モデルを信頼できる有能なエージェントにするには十分やなかった。1980年に利用可能やったすべてのテキストデータでGPT-4を訓練しようとすることを想像してみてや。必要な計算量があったとしても、データは全然足りんかったやろう」
繰り返すけど、わしは研究所におらん。たぶんテキストのみの訓練で、異なるUIがどう動作するか、異なるコンポーネント間の関係について、すでに素晴らしい事前知識が得られるかもしれん。たぶん強化学習ファインチューニングはサンプル効率が非常に良くて、そんなに多くのデータは必要ないかもしれん。
でも、これらのモデルが、特に実質的に経験の少ない領域で、突然データに飢えなくなったと思わせる公開された証拠をわしは見てない。
あるいは、これらのモデルがフロントエンドコーダーとして非常に優秀で、練習用に何百万ものおもちゃのUIを自分で生成できるかもしれん。
でも、三つ目。振り返ってみると非常に単純に見えるアルゴリズムの革新でさえ、解決するのに長い時間がかかった。DeepSeekがR1論文で説明した強化学習手順は、高レベルでは単純に見えるねん。
それでも、GPT-4の開発と発売からo1のリリースまで2年かかった。もちろん、R1/o1が簡単やったと言うのは、とんでもなく滑稽なほど傲慢やということはわかってる。この解決に到達するには、膨大なエンジニアリング、デバッグ、代替アイデアの剪定が必要やったねん。
でも、それがまさにわしのポイントやねん!「検証可能な数学とコーディング問題を解くためにモデルを訓練すべきや」というアイデアを実装するのにどれだけ時間がかかったかを見ると、はるかに厄介なコンピューター使用の問題を解決する難しさを過小評価してると思うねん。コンピューター使用では、全く異なるモダリティで、はるかに少ないデータで動作してるからな。
現在のAIの印象的な能力
よし、冷や水はもう十分や。ハッカーニュースの甘やかされた子どもの一人みたいにはならん。黄金の卵を産むガチョウを手渡されても、そのガチョウの鳴き声がうるさいことについて文句を言うのに時間を費やすような奴らやな。
o3やGemini 2.5の推論トレースを読んだことあるか?実際に推論してるねん!問題を分解し、ユーザーが何を望んでるかを考え、自分の内部モノローグに反応し、非生産的な方向を追求してることに気づいた時に自分を修正してる。
どうしてわしらは「ああ、そうや、もちろん機械が考えて、たくさんのアイデアを思いつき、賢い答えを持って戻ってくるねん。それが機械のすることや」みたいに振る舞ってるんや?
一部の人が過度に悲観的な理由の一つは、最も有能な領域で最も賢いモデルと遊んでないからや。Claude Codeに曖昧な仕様を与えて、10分間座ってる間に動作するアプリケーションをゼロショットで作らせるのは、ワイルドな体験やねん。
どうやってそれをやったんや?回路や訓練分布、強化学習について話すことはできるけど、最も近接的で簡潔で正確な説明は、単純にそれが赤ちゃんの汎用知能によって動力を得てるということや。
この時点で、あんたの一部は「実際にうまくいってる。わしらは知能を持つ機械を作ってるねん」と思わなあかんやろう。
タイムライン予測
わしの確率分布は非常に幅広いねん。そして、わしは確率分布を信じてることを強調したい。つまり、誤った調整された2028年のASIに備える作業は、まだ大いに意味があるということや。これは完全にもっともらしい結果やと思うねん。
でも、わしが50/50の賭けをするタイムラインはこうや。
有能な総括マネジャーが1週間でできるように、わしの小さなビジネスの税務申告をエンドツーエンドでできるAI:異なるウェブサイトですべての領収書を追跡し、欠けてる部分を見つけ、請求書のために面倒をかける必要がある人全員とメールでやり取りし、フォームに記入し、IRSに送信する。これはわしは2028年やと言うやろう。
わしらはコンピューター使用についてはGPT-2時代にいると思うねん。でも、わしらには事前訓練コーパスがなく、モデルは慣れ親しんでない行動プリミティブを使って、はるかに長い時間ホライゾンでの、はるかにまばらな報酬を最適化してるねん。
とは言うものの、ベースモデルはすでにそこそこ賢くて、コンピューター使用タスクについて良い事前知識を持ってるかもしれんし、世界にはより多くの計算量とAI研究者がいるから、それでバランスが取れるかもしれん。
小さなビジネスの税務申告の準備は、コンピューター使用にとって言語に対するGPT-4のようなもんやと感じるねん。GPT-2からGPT-4まで4年かかった。
明確にしとくけど、わしは2026年と2027年に本当にクールなコンピューター使用デモがないとは言ってない。GPT-3は超クールやったけど、実用的にはそれほど有用やなかった。わしが言ってるのは、これらのモデルがコンピューター使用を含む1週間の非常に複雑なプロジェクトをエンドツーエンドで処理できるようにはならんということや。
そして、どんなホワイトカラー業務でも、人間と同じくらい簡単に、有機的に、シームレスに、迅速に仕事中に学習できるAIの予測については。たとえば、わしがAIビデオ編集者を雇ったとして、6か月後にはわしの好み、わしらのチャンネル、観客に効果的なものについて、人間と同じくらい実行可能で深い理解を持ってるやろう。これは2032年やと言うやろう。
これらのLLMのようなモデルに継続的オンライン学習を組み込む明らかな方法はわからんけど、7年は本当に長い時間や!ちょうど7年前にGPT-1が出たばかりやったねん。今後7年間で、これらのモデルが実際に仕事中に学習する方法を見つけることは、わしにはもっともらしくないとは思えん。
野心的な未来予測
この時点であんたは「ちょっと待てや、継続学習がそんなに大きなハンディキャップやって大騒ぎしたのに、そしたらあんたの予測は、最低でも広範囲に展開された知能爆発のように見えるものから7年先やって言うんか」って反応してるかもしれん。
そうや、あんたの言う通りや。わしは比較的短期間で、かなりワイルドな世界を予測してるねん。
AGIのタイムラインは非常に対数正規やねん。この10年か、さもなくば破綻や(実際は、年ごとの限界確率がより低いということやけど、それはキャッチーやない)。
過去10年間のAIの進歩は、フロンティアシステムでの訓練計算のスケーリングによって推進されてきた。年間4倍以上やった。
これは、チップ、電力、さらには訓練に使用されるGDPの生の割合を見ても、この10年を超えて続けることはできん。2030年以降、AIの進歩は主にアルゴリズムの進歩から来る必要があるねん。
でも、そこでさえ、少なくとも深層学習パラダイムの下では、すべての低木の果実が摘まれてしまうやろう。だからAGIの年間確率は崩壊するねん。
これは、もしわしの50/50の賭けのより長い側に終わったら、2030年代や2040年代まで比較的普通の世界を見てる可能性があることを意味してる。でも、他のすべての世界では、AIの現在の限界について冷静であっても、本当にクレイジーな結果を期待せなあかんねん。
これは元々わしがdwarkesh.comのウェブサイトで公開したブログ投稿やった。そして明らかに、わしのポッドキャストでショルトとトレントンと行った議論にインスパイアされたもんで、結局タイムラインについて彼らと意見が合わんかったけど、正確にどこで意見が合わんのか、なぜわしがより長いタイムラインを持ってるのかを整理するのに、その後数週間考える必要があった。
わしは他のエピソードでもこれをやってるねん。スティーブン・コトキンがスターリンについて書いた何千ページにもわたる思考をまとめたりもした。明らかに、その2時間のインタビューでは網羅的にカバーできんかったからな。
とにかく、このポッドキャストの結果として、そしてエピソードの準備として、わしが作るこれらの追加のアーティファクトや文章を見たいなら、わしのブログとニュースレターを購読すべきや。dwarkesh.comでできるで。
そうでなければ、来週も本物のゲストとのフルエピソードでまた会うやろう。


コメント