この動画は、AIモデルが特定のタスクにおいては賢くなっているものの、真の汎用人工知能(AGI)に必要な汎用的知能には達していないという現状を分析している。プレトレーニングデータの拡張と推論能力の向上だけでは、適応的文脈理解、長期的意図、暗黙知の処理、多目的最適化などの重要な技術的突破が実現されず、AIが真の同僚として機能する未来には到達できない可能性があるという問題提起である。
もしボットがより賢くなり続け、AIがより賢くなり続けたとしても、それがもはや重要ではなくなったとしたらどうでしょうか。これが私を夜も眠らせない質問なのです。そしてこのことについて話したいと思います。
この話には様々なアプローチがありますが、最も簡単な方法はこう言うことです。ボットが賢くなっているのは、主に2つの要因によるものです。1つは非常に大規模なプレトレーニングデータセット、もう1つは2024年後半にo1モデルで導入されたスマートな推論機能です。今では多くの人がこの技術を持っています。
そこで質問です。プレトレーニングと推論・理知性だけで、CEOたちが行っている大きな約束のすべてを実現できるのでしょうか。長編映画を作ることができるのでしょうか。職場で私たちの専門的な同僚のようなエージェントを持ち、私たちの仕事をすべて代行してもらうことができるのでしょうか。
これらのボットの世代が次々と進歩し、o3が登場し、Gemini 2.5 Proが登場するのを見るにつれ、私が目にするのは、これらのボットが賢くなっているものの、狭い方法で賢くなっているということです。特定のことについては賢くなっていますが、汎用的に賢くなっているわけではありません。これでは、推論やプレトレーニングデータの改善だけを続けても、この汎用的な作業を可能にすることはできません。ちなみに、プレトレーニングデータには独自の問題があります。もちろん、世界には無限のデータが存在するわけではありません。
私たちはすでに多くのデータを使用しており、残りのデータは品質が高くない可能性があります。これには疑問があります。ChatGPTは今や使用状況から多くのデータにアクセスできると言えるでしょう。ほぼ10億人のユーザーがいて、そのデータを使ってモデルを洗練させることができます。ちなみに、これがAnthropicがWindsurfへのモデルアクセスを可能な限り削減することを決定した理由です。WindsurfはOpenAIに買収され、Anthropicは基本的にこれらのトークンがOpenAIの学習に使用される可能性があると述べています。私たちはそれを望みません。
クラウドモデルへのサードパーティアクセスを取得していただく必要があります。学習トークンは今や金のような価値があるため、ファーストパーティアクセスはもう提供しません。
さて、プレトレーニングに関する問題を解決したと仮定しましょう。データがあると仮定し、それは実際に真実かもしれません。とにかくもう少し長くスケールできるかもしれません。また、推論が解決され、推論がますます上達できると仮定しましょう。それでも、数か月の意図を必要とするタスクを実行するのに本当に十分なのでしょうか。
私が幅広い変化する文脈理解と呼ぶもの、つまり非常に広範囲な仕事や個人的な文脈を認識し、1日や1週間の間に2つか3つの要素が同時に変化し、そのすべての文脈変化と曖昧な論理的含意を追跡できるようなことに、本当に十分なのでしょうか。
例えば、あなたが販売目標を達成しようとしており、製品、財務、カスタマーサクセスの3つか4つの要素が、取引の成立にどのように影響しているかを認識し、それらすべてを処理して、見込み客との会話で有用な形にパッケージ化できるような場合です。
人間はそのようなことが本当に得意です。AI、たとえ本当に賢いAIでも、必要なレベルには達していません。その理由の一部は、そのような広範囲に変化する文脈があるとき、展開後に現場で得た経験から学習するAIが必要であり、プレトレーニングでの経験だけでは不十分だからです。
ChatGPTはメモリー機能でその方向性を示していますが、メモリーは、これらの非常に広範囲な文脈変化に適応的に学習し、高い忠実度でそれを追跡できると言えるレベルには遠く及びません。単純にそうではないのです。
数か月前に作った動画で、かなり人気があったと思いますが、基本的にメモリー問題があると言いました。それよりも広く言うなら、文脈認識と適応性の問題があります。また、これらのシステムが目標を持たなければならない時間経過における意図の問題もあります。職場での暗黙知の扱い方についても大きな問題があり、これについては他の動画で詳しく話しています。
人間にとって社会的結果があるために決して話されない知識をどう扱うのでしょうか。AIはそれを見ることができません。見えないのです。無限に賢いAIがあったとしても、それでは役に立ちません。成功するために境界で進化するタスクをどう扱うのでしょうか。
この良い例は、マーケティングを行う場合、複数の異なる報酬を最適化していることです。動作するかしないかが明確なコードのような、1つの明確な報酬だけではありません。ファネル内のこれらの異なる報酬間の関係は不明確で、ビジネスによって劇的に異なります。1つを最適化すると、別のものを最適化解除するリスクがあり、ビジネスとその価値、そして数か月から数年は見えない長期的な顧客価値に目を向け続けなければなりません。
一部の取引サイクルは数年かかります。そのため、マーケターはこの極めて変化しやすい部分的情報環境に適応し、顧客が求める新しさや新しい戦術の出現にも対応しなければなりません。AIはそれが得意ではありません。これは適応可能な文脈問題です。また、境界でタスクを変更し、人間が何らかの曖昧な論理と直感で説明している複数の部分的報酬を考慮できる方法で調整する問題でもあります。
私たちが直感と呼ぶもの。AIには本当の直感がありません。AIは時々直感的に感じられるかもしれませんが、結局のところ、AIは受けた強化学習、何らかのメモリーがある場合はあなたとの過去のやり取り、そして推論に基づいて結論に達しているのです。それがあなたが得られるすべてです。
ですから、これらのビジョンが実現する場所に実際に到達するために必要な技術的突破の数を過小評価していると思います。重要なことは、この話をしていないことです。なぜなら、大部分において、AIが推論で、そしてプレトレーニングデータでいかに素晴らしいかについてだけ話しているからです。それは素晴らしいことです。
岩が考え始めたという魔法のようなことを行います。文句は言いません。しかし、たとえそのすべてがあり、たとえより賢く、より賢いAIがあったとしても、私が説明している適応可能な文脈、時間経過における意図、複数の部分的報酬間で最適化を行う能力の問題を解決しなければ、このAIの魔法のすべてを実現したいという観点から困ったことになるでしょう。
さて、私たちの大部分が実際にその未来を望んでいるかどうかは明確ではありません。ですから、私は幻想を抱いてはいませんが、それが1000億ドルの資本が今追いかけている目標なのです。リスク管理の観点から、彼らは皆、他の誰かが突破口を開くかもしれないと考えています。そのため、誰かがその突破口を得た場合、テーブルの上に膨大なお金があることになるので、追いかけ続けなければなりません。
そういうわけで、そのすべてのお金が結集し、その目標を追いかけているのです。しかし、誰も他の突破口や、完全に機能するAI同僚のビジョンに実際に到達するために必要な種類の突破口について報告したり話したりしていません。それについて話さなければ、1つには、AI企業やモデル作成者に対して透明性を保てません。そして私たちはそうすべきです。それは非常に重要な取り組みです。彼らが何をしているかについて話すべきです。
2つには、それを名前で呼べなければ、理解できないため、ユーザーとして、ビルダーとして、消費者として、私たちが何を望むか、何を望まないかを説明できません。ですから、実際に私たちがこのより広範囲なビジョンの邪魔をしているものは何かを言える会話ができることを心から望んでいます。
これが私が興味を持つものです。これが私が興味を持たないものです。これが私が行きたい場所です。これが私が行きたくない場所です。これが私が構築したい製品の種類です。これが私が構築したくない種類です。特定の好みを持つことは大きな違いを生みます。
私は、プレトレーニングデータと推論を超えて考え、より大きなギャップについて会話することを私たちに懇願しています。なぜなら、推論とプレトレーニングで本当に賢いモデルを得るが、他の技術的突破は不可避ではなく、おそらく10年間、20年間、30年間、あるいは永遠にそれらに到達しない世界に住む実際の可能性があると思うからです。私たちにはわかりません。それらは不可避ではありません。
ですから、ギザギザした未来についてもっと考えてもらいたいのです。汎用人工知能に向けていくつかの突破口があるが、それらがすべて実現しない、または少なくとも同じタイムラインでは実現しない場合、どのようになるでしょうか。わかりません。あなたが教えてください。
AGIの邪魔をしているものは何でしょうか。


コメント