本動画では、Cognitive Revolutionのホストであるネイサン・ラベンツが、AIの進化が減速しているという論調に対して詳細な反論を展開している。カル・ニューポートらが提起した「GPT-5はGPT-4からそれほど進化していない」という主張に対し、ネイサンは推論能力の飛躍的向上、コンテキストウィンドウの大幅拡張、マルチモーダル統合の深化など、見落とされがちな重要な進歩を指摘する。特に数学オリンピック金メダル級問題の解決能力や、科学研究における未解決問題への貢献など、質的に新しい能力領域の開拓を強調している。また、中国のオープンソースモデルの台頭、自動運転技術の成熟、コーディング支援ツールの実用化など、多様な分野での実用的進展を紹介しながら、AGI到達時期については2027年から2030年という時間軸を維持している。一方で、AIエージェントの長時間タスク実行能力向上に伴う報酬ハッキングや欺瞞的行動といった安全性課題にも言及し、技術進歩と社会的準備のバランスの重要性を論じている。

AIは言語モデルだけではない
AIは言語モデルと同義ではありません。AIはかなり似通ったアーキテクチャで、幅広い異なるモダリティに対して開発されています。そして、そこには遥かに多くのデータが存在します。フィードバックが現実から届き始めています。もしかすると、私たちはすでに解決した問題が尽きかけているのかもしれません。
次世代のモデルにこれらのパワーツールを与え始め、それらが以前には解決されなかった工学的問題を解くようになったとき、私たちは超知能のようなものを目にし始めることになると思います。
ネイサン、AC and Zポッドキャストに初めて出演してくれて嬉しいです。明らかに、私たちはCognitive Revolutionであなたと長い間ポッドキャストパートナーとして活動してきました。ようこそ。
ここに来られて嬉しいです。ありがとうございます。
私たちはカル・ニューポートのポッドキャスト出演についてlost debatesで話していて、AIは減速しているのかという問いについて幅広い会話をする良い機会だと思いました。では、彼や他の人々から聞いたその側の論点をいくつか最善の形で提示してみてください。それから、この広範な会話を進めていきましょう。
そうですね、まず一つ言えることは、AIに関していくつかの異なる質問を分けて考えることが本当に重要だということです。一つは、今現在それは私たちにとって良いものなのか、そして大局的に見て良いものになるのか、という問いです。そしてそれは、私たちが目にしている能力が継続的に進歩しているのか、かなり健全なペースで進んでいるのか、という問いとは全く別のものだと思います。
実際、あなたが共有してくれたカル・ニューポートのポッドキャストには、AIがすでに人々に与えている影響についての懸念という点で、多くの同意を見出しました。彼は学生の肩越しに覗き込んで、彼らがどのように作業しているかを観察し、基本的に彼らはAIを使って怠けていると考えています。これは大きな発見というわけではありません。多くの教師がそう言うでしょう。
それをもっと飾った言葉で表現しているわけですね。人々は必ずしもより速く動いているわけではない。AIにやらせようとすることで、作業が自分の脳にかける負担を減らすことができているのです。もしそれが続くなら、そして彼はソーシャルメディアの影響について非常に価値あるコメンテーターだったと思いますが、私たち全員が自分の注意力が時間とともにどう進化しているか、弱くなっているか、あるいは困難な作業を嫌がるようになっているかを意識すべきだと思います。もし自分自身にそうした傾向が現れているなら、それは良くない傾向です。ですから、彼がそうしたことに注意を払っているのは本当に正しいと思います。
そして、これまで何度も会話で取り上げてきたように、AIの最終的な影響について私は多くの疑問を持っています。彼もおそらくそうでしょう。しかし、今日の様々な問題や大局的な問題から、心配する必要はない、なぜなら横ばい状態だから、という移行は私の視点からすると奇妙です。スケーリングが停滞したとか、今持っているものより良いAIは得られないとか、あるいは私の視点から最も簡単に反論できる主張は、GPT-5はGPT-4よりそれほど良くなかったというものです。
それについては、ちょっと待てよ、という感じでした。多くのことであなたに同意していたんです。彼が学生に観察した行動のいくつかは、私自身も示していたことを認めます。
最近何かをコーディングしようとするとき、多くの場合「ああ、AIがそれを解決してくれないかな」と思ってしまいます。ここに座ってこのコードを読んで何が起きているか理解しなければならないのは本当に嫌です。もうコードをタイピングすることすら問題ではありません。それにはもう怠けすぎています。
コードがどう動いているかを理解することさえも、ただ動かしてくれないかな、もう一度試してくれないかな、と思ってしまい、実際にそうした罠に陥っていることに気づきます。しかし、私がそうした罠に陥ることができる大きな理由は、AIがどんどん良くなっていて、それらが解決できるかもしれないと考えるのが狂気ではなくなってきているからです。
これが私が聞いている見解への最初の切り口です。ほとんど二行二列のマトリックスのようなものが描けるでしょう。AIが今も将来も良いか悪いかと思うか、大したことではないか大きな問題だと思うか、です。私は良い面と悪い面の両方で、間違いなく大きな問題だと思っています。私が理解するのに最も苦労するのは、大したことではないと考える人々です。それは私にはかなり明白に見えます。特にGPT-4からGPT-5への飛躍に関しては。
それが起きた理由の一つは、GPT-4と5の間に単純にもっと多くのリリースがあったからかもしれません。人々が比較しているのは、ほんの数ヶ月前に出たばかりのものなんです。例えば03のように。それはGPT-5のほんの数ヶ月前にしか出ませんでした。一方、GPT-4は、ChatGPTの直後で、すべてが「わあ、これが爆発的に登場した」という瞬間の一部でした。多くの人が初めて見ていました。
GPT-3を振り返ると、巨大な飛躍がありました。私はGPT-4から5への飛躍も同様だと主張します。これらを評価するのは難しいです。それに単一の数値を付けることはできません。まあ、損失はありますが、もちろん大きな課題の一つは、損失の数値が能力の面で正確に何に変換されるかということです。
ですから、正確に何が変わったかを説明するのは非常に難しいです。しかし、望むなら変化のいくつかの次元を見ていくことができます。人々がおそらく当たり前のようになり始めている、あるいは忘れているいくつかのことを列挙できます。GPT-4には、今やGPT-5のリリースで期待されていた多くのものがなかったのです。なぜなら、それらを40、01、03、その他すべてで見ていたからです。それが、この最新リリースで人々が認識した進歩をある程度茹でガエル状態にしたのかもしれません。
GPT-5への評価と期待のギャップ
では、いくつかの反応があります。一つは、あなたの二行二列をさらに複雑にすることです。今悪いのか、後で悪いのか、という意味でです。私たちが二人とも大いに尊敬しているカルは、実際には、AI安全性の人々や他の多くの人々が懸念しているような将来のAIの懸念についてそれほど心配していません。
彼はむしろ、認知能力や発達に対する今の生活への意味について心配しています。ソーシャルメディアの影響について心配しているのと同じように。
あなたはそれを懸念だと考えていますが、将来に期待されることほど大きな懸念ではありません。そして彼は、なぜ将来について心配する必要がないのかという理論を提示しています。それは減速しているからです。それについて、私たちが彼の歴史をどう解釈したか共有しましょう。私の解釈では、これは単純化すると、データをモデルに大量に投入すると良くなるという方法を見つけたという考えです。桁違いに良くなります。GPT-2とGPT-3の違い、そしてGPT-3とGPT-4の違いがそうでしたが、その差は顕著でした。しかし、その後収穫逓減が大幅に生じ、GPT-5では見られなくなったため、もう心配する必要はないというものです。
彼の見解の歴史についてのこの特徴づけをどう編集しますか。それから4と5の違いについて入っていけます。
スケーリング則の考え方、これは自然の法則ではないことに同意して一瞬立ち止まる価値があります。スケーリングが無期限に続く何らかの法則であると信じる原理的な理由はありません。私たちが本当に知っているのは、これまでかなり多くの桁数にわたって成り立ってきたということだけです。スケーリング則が停滞したのか、それとも私たちが別の面でより良いROIを与えてくれるより急な改善の勾配を見つけただけなのか、私にはまだはっきりしません。
彼らはGPT-4.5というはるかに大きなモデルを訓練し、それはリリースされました。数多くの興味深い、もちろん百万のベンチマークがありますが、GPT-4.5が03とGPT-5とどう関係するかを理解する上で私が最も注目する一つは、simple QAという単なる超ロングテールのトリビアベンチマークです。これは本当に、あなたが大量の難解な事実を知っているかどうかを測定するだけです。それらは推論できるものではありません。特定の事実を知っているか知らないかだけです。
03クラスのモデルはそのベンチマークで約50%を取り、GPT-4.5は65%ほどに跳ね上がりました。
言い換えれば、前世代のモデルには知られていなかったもののうち、基本的に3分の1を拾い上げたのです。明らかにまだ3分の2が残っていますが、これはかなり重要な飛躍だと私は言います。これらは超ロングテールの質問です。ほとんどの人はゼロに近い点数を取ると私は言います。
トリビアナイトで座っていて、一晩に一つ正解するような人が、simple QAでほとんどの人が期待されることだと思います。そして、それは確認できますよね。明らかにモデルは私たちよりはるかに多くの事実を知っています。世界に関する情報についても。少なくとも、GPT-4.5は多くのことを知っていると言えます。より大きなモデルははるかに多くの事実を吸収できます。
質的に、人々は創作的な執筆において何らかの点でより良いかもしれないとも言いました。GPT-5が受けたような強力なポストトレーニングで訓練されたことは一度もありませんでした。ですから、厳密なりんご対りんごの比較はありませんが、人々はそれでもいくらかの有用性を見出していました。
彼らがそれをオフラインにしてGPT-5に全力投球した理由を理解する方法は、おそらくそのモデルが本当に大きいということです。実行するのに高コストです。価格はGPT-5より桁違いに高かったのです。そして、それを提供するために必要なすべての計算リソースを消費する価値が単純にないのかもしれません。人々は当面はやや小さいモデルで十分満足しているのかもしれません。
これは、すべてのその推論能力を持った、より大きなGPT-4.5モデルを決して見ることがないという意味ではないと思います。特に、難解なことをやろうとして科学のフロンティアを押し広げようとするなら、それはより多くの価値を提供すると期待します。しかし当面は、現在のモデルは本当に賢く、多くのコンテキストを供給することもできます。
それが前世代から大幅に改善したものの一つです。GPT-4が出たとき、少なくとも私たち一般ユーザーが持っていたバージョンは8,000トークンのコンテキストしかありませんでした。これは約15ページのテキストです。制限されていました。数本の論文さえ入れることができませんでした。
コンテキストをオーバーフローさせてしまいます。これが最初にプロンプトエンジニアリングが注目され始めた理由です。私が提供できる情報は本当にわずかしかありません。どの情報を提供するか本当に慎重でなければなりません。さもないとオーバーフローして処理できなくなります。
コンテキストウィンドウが拡張されても、名目上はもっと多くを受け入れられるが、機能的には使えないバージョンのモデルもありました。API呼び出しレベルでは適合できても、モデルは思い出しを失ったり、長いコンテキストに入るにつれてほどけてしまったりしました。
今では明らかに遥かに長いコンテキストがあり、それに対するコマンドは本当に本当に優れています。何十本もの論文を、Geminiの最長のコンテキストウィンドウに入れることができます。それは受け入れるだけでなく、それらに対して本当に集中的な推論を行い、それらの入力に対して非常に高い忠実度で行います。
ですから、そのスキルは、モデル自体が事実を知っていることをある程度代替すると思います。これらの超ロングテールの事実をすべてモデルに訓練しようとすると、1兆、あるいは5兆、何兆ものパラメータが必要になるかわかりません。あるいは、提供されたコンテキストに対して本当に優れた作業をする小さなものがあれば、人々が必要な情報を提供する手間をかければ、その方法で同じ事実にアクセスできると言えます。
ですから、このサイズを推し進めてすべてをモデルに組み込みたいのか、それとも提供されたコンテキストに対して最大限のパフォーマンスを得ようとするより小さく緊密なモデルから最大限を得ようとするのか、という選択があります。
彼らはその方向に進んだようです。そして基本的には、その勾配でより速い進歩を見ているからだと思います。モデル自体が訓練プロセスで常に改善に向けて小さなステップを踏んでいるのと同じように、モデルアーキテクチャや訓練実行の性質、計算リソースをどこに投資するかの外側のループもその方向に進んでいます。彼らは常に、こちらでスケールアップしてこの種の利益を得るか、こちらでもっとポストトレーニングをしてこの種の利益を得るか、というように見ています。
ポストトレーニングと推論パラダイムからより多くの利益を得ているように見えます。しかし、どちらも死んだとは思いません。両方が死んだとは間違いなく思いません。すべてのポストトレーニングを施した4.5がどのようになるか、まだ見ていません。
タスクの長さと能力の進化
そうですね。あなたが言及したことの一つで、カルの分析が見逃したのは、拡張推論の価値を大幅に過小評価していたことです。それを完全に評価するとはどういう意味でしょうか。
大きなものの一つは、ほんの数週間前に、純粋な推論モデルで、ツールへのアクセスなしに、複数の企業からIMO金メダルを獲得したことです。GPT-4が数学でできたことと比べると、それは天と地の差です。
これらは本当に奇妙なものです。私がここで言うことのどれも、人々がモデルの弱点を見つけられないということを示唆するつもりはありません。私は今日でも三目並べパズルを使っていて、三目並べの盤面の写真を撮ります。そこでは、プレイヤーの一人が間違った手を打っていて、最適ではないため、もう一方のプレイヤーが勝利を強制できます。そして、私はモデルに、この局面から誰かが勝利を強制できるか尋ねます。
ごく最近まで、最後の世代のモデルだけが、時々それを正しく理解し始めています。ほとんどの場合、以前は三目並べは解決されたゲームです、引き分けにいつでもできます、と言っていました。そして、私の盤面を誤って評価し、プレイヤーは引き分けにできると言っていました。ですから、奇妙なことがたくさんあります。能力フロンティアのギザギザさは依然として現実的な問題であり、人々は確実にピークと谷を見つけるでしょう。
しかし、GPT-4が最初に出たとき、IMO金メダル問題に近づくことは何もできませんでした。まだ高校数学で苦戦していました。それ以来、私たちはこの高校数学の進歩をIMO金メダルまで見てきました。今、frontier mathベンチマークがあり、約25%になっていると思います。ほんの1年前、あるいは1年未満前には2%でした。
そして今日、まだ消化していませんが、誰かが出てきて、テレンス・タオが出した超挑戦的な問題を解いたと言っていました。
これは、モデルが実行した数日か数週間で起きたことですが、これらの問題で進歩するのに18ヶ月かかりました。プロの数学者だけでなく、本当に世界の主要な頭脳たちがです。
ですから、これは本当に見逃しにくい跳躍的な能力だと思います。私はまた、Google AI co-scientistについてもよく考えます。私たちはそれについてエピソードを作りました。詳細を知りたければチェックできます。しかし、彼らは基本的に科学的方法を図式に分解しただけです。これは人々が何かをするときによく起こることですが、一つには、モデルが思考と共に応答し、推論プロセスを経て、より多くのトークンをランタイムで費やすほど答えが良くなるということがあります。それは真実です。
そしてその上にこの足場を構築して、科学的方法のように広く野心的なものを取り上げて、それを部分に分解できます。仮説生成、仮説評価、実験設計、文献レビュー、科学的方法のこれらすべての部分があります。Googleのチームがしたことは、科学的方法の最良の分解を表すかなり精巧な図式を作成し、それらの各ステップに最適化されたプロンプトを作り、この結果として得られたシステムを作ったことです。
今、推論をある意味二つの方法でスケーリングしています。連鎖思考もありますが、チームによって構造化された、これらすべての異なる攻撃角度もあります。そして、彼らはそれに正真正銘の未解決の科学的問題を与えました。一つの特に有名な悪名高いケースでは、仮説を思いつきましたが、実験室で実際に実験を実行する直接的なアクセスがないため、検証できませんでした。
しかし、科学者たちを何年も困惑させてきた生物学のある未解決問題に対して仮説を思いつきました。たまたま、彼らもつい最近答えを解明していたのですが、まだ結果を発表していませんでした。ですから、科学者たちが実験的に検証し、Geminiがこのai co-scientistの形で、まさに正しい答えを思いついたという合流がありました。そして、これらは文字通り誰も以前に知らなかったことです。GPT-4は単純にそれをしていませんでした。これらは質的に新しい能力です。
そのことは、数日間実行されたと思います。おそらく数百ドル、もしかすると数千ドルの推論コストがかかりました。それは何でもないわけではありませんが、何年もの大学院生よりもはるかに安いです。そして、その水準の問題に到達して実際に良い解決策を得られるなら、そのようなことにいくら払う意思がありますか、ということです。
ですから、これはおそらく完全な評価ではありません。長い間続けることができますが、要約すると、GPT-4は人間の知識の実際のフロンティアを押し広げることができませんでした。私の知る限り、何か新しいことを発見したことはないと思います。
GPT-5、Gemini 2.5、Claude Opus 4などから、その種の出力を得ることはまだ簡単ではありませんが、時々起き始めています。そしてそれ自体が大きな問題です。
GPT-5への失望感の理由
では、GPT-5に対する弱気やバイブシフトをどう説明しますか。一つの潜在的な要因は、もし改善の多くがフロンティアにあるなら、つまり、誰もが高度な数学や物理学を日常的に扱っているわけではないので、ChatGPTでの飛躍が明白で日常生活を形作った方法と同じように、日常生活での恩恵を見ないかもしれないという考えです。
かなりの部分が、彼らがローンチを失敗させたということだと思います。単純に言えばです。彼らはデススターの画像をツイートしていて、サム・アルトマンは後で「いや、お前がデススターだ。俺はデススターじゃない」と言って戻ってきました。しかし、人々はデススターがモデルだと思っていました。それが一般的な期待でした。期待は非常に高く設定されました。
実際のローンチ自体が技術的に壊れていました。ですから、多くの人々の最初のGPT-5体験は、彼らには今、モデルルーターコンセプトがあり、これも彼らが何をしようとしているのかを理解する別の方法だと思いますが、彼らは消費者ユースケースを所有しようとしています。それを所有するには、過去にあった製品体験を簡素化する必要があります。つまり、GPT-4、40、40 mini、03、04 miniなどがあり、どれをどれに使うべきか、これに夢中になっていない人々にとっては非常に混乱していました。
彼らがしたかった大きなことの一つは、質問を聞くだけで良い答えが得られる、その複雑さを製品所有者として私たちの側で引き受けるということに縮小することでした。
興味深いことに、これについては良い説明がありませんが、やりたいことの一つは、モデルを統合して、モデル自体にどれだけ考えるべきか決めさせるか、あるいはモデル自体に、もし専門家の混合アーキテクチャなら、どれだけの専門家を使う必要があるか決めさせることです。あるいは、タスクが十分簡単なら、モデルの多くの層をスキップするような研究プロジェクトがいくつもありました。
ですから、バックエンドでこれらの異なるモデルを本当に統合して、ユーザークエリが提示する挑戦のレベルに応じて適切な量の計算リソースを動的に使用する一つのモデルにできることを望んでいたかもしれません。彼らはそれが期待していたよりも難しいことがわかったようです。
代わりに彼らが思いついた解決策は、ルーターを持つことでした。ルーターの仕事は、これは簡単なクエリか、その場合このモデルに送る、中程度か、難しいか、を選ぶことです。私は彼らが裏側に実際に二つのモデルしか持っていないと思います。だから本当に簡単か難しいかだけだと思います。確かに彼らが示したグラフは、基本的に思考ありとなしを示していました。
ローンチでの問題は、そのルーターが壊れていたことでした。ですから、すべてのクエリが賢くないモデルに送られていました。多くの人々が文字通り悪い出力を得て、03より悪かったのです。なぜなら、思考しない応答を得ていたからです。
最初の「これは馬鹿げている」という反応が、本当に速く広まりました。それが雰囲気を決めたと思います。今、落ち着いてきた私の感覚では、ほとんどの人はこれが利用可能な最高のモデルだと考えています。悪名高いMeterのタスク長チャートのようなものについてもです。それは最高です。私たちは今2時間を超えていて、まだトレンドラインの上にあります。
ですから、直線のグラフを信じるか信じないかと言ったら、どうでしょうか。そして、この最新のデータポイントは、対数スケールグラフ上のこれらの直線を信じるかどうかにどう影響すべきでしょうか。それはあなたの考えをあまり変えるべきではありません。まだトレンドラインの上にあります。
私はこれについてZviと話しました。Zvi Mowshowitz、伝説的な情報収集家でAI業界アナリストです。最近のポッドキャストで、なぜ業界で最もつながっていて鋭い頭脳を持つ人々の一部でさえ、この結果としてタイムラインを少し押し出したように見えるのか、と彼に同じ質問をしました。彼の答えは基本的に、ある程度の不確実性を解消したということでした。もしかすると彼らは別のブレークスルーを持っているかもしれない、本当にデススターかもしれない、という未解決の疑問があったのです。
もし彼らが上方にサプライズを与えたら、これらすべての短いタイムラインは、期待できることになります。一つの考え方は、分布がタイムラインの点でかなり広かったということです。もし上方にサプライズしたら、分布の最前線に向かって狭まったかもしれません。もし下方にサプライズしたか、純粋にトレンド通りだったら、非常に短い端からいくらかの分布を取り、中間か最後に向かって押し出すことになります。
彼の答えは、AI 2027の可能性は低くなったが、AI 2030は基本的に可能性が低くならず、初期の年からの確率の質量がそこに座っているので、もしかすると少し可能性が高くなったかもしれない、というものでした。ですから、人々が全体の分布を大幅に押し出しているとは思いません。
起こるかもしれないと思われていたほど早くは起きないかもしれないという意味で、もう少し引き締まっているだけだと思います。しかし、私が本当につながっていると思う人々の中で、2030年をあまり超えて押し出している人はあまりいないと思います。
ところで、多くの意見の相違があります。私がこの種のことについて常に考えてきた方法は、ダリオは2027年と言い、デミスは2030年と言っています。それを私の範囲とします。ですから、GPT-5に入る前は、その空間にいました。今は、わかりません、ダリオはどんなカードを袖に隠しているのでしょうか。彼らは4.1 Opusを出したばかりです。そのブログ投稿で、今後数週間でより強力なモデルのアップデートをリリースすると言っていました。ですから、かなりすぐに何かが予定されています。今度は彼らが上方にサプライズする側かもしれません。あるいはGoogleかもしれません。
2027年が問題外だとは言いませんが、2030年は以前と同じくらい可能性が高く見えると言います。繰り返しますが、私の立場からすると、それはまだ本当にすぐです。28、29、30年のどれかで軌道に乗っているなら、私はあまり気にしません。最も極端なシナリオに対して自分自身を準備し、他の人々が準備するのを助けるように自分の仕事を組み立てようとしています。高く狙って少し外して、もう少し時間があったら、素晴らしい。強力なAIが何であれオンラインになるときに備えるために、その余分な時間を使ってやるべきことがたくさんあると確信しています。
私の世界観は、これらの夏の展開の結果としてあまり変わっていません。
逸話的には、AI 2027やsituational awarenessについて、同じ程度には聞かなくなりました。数年戻した人々にも話します。あなたの指摘通りです。
しかし、Dwarkesh Patelは継続学習やその効果のギャップのために、まだ信じているが、拡散がもう少し遅いかもしれないという全体的な話をしていました。そして、Meterの論文が示したように、エンジニアの生産性は低く、おそらく今後数年で大量に人々が置き換えられることへの懸念が少なくなりました。おそらく1年前にこれについて話したとき、50%の仕事の50%のようなことを言っていたと思います。それがまだあなたのリトマス試験紙か、どう考えているか気になります。
一つには、Meterの論文はもう少し詳しく見る価値があると思います。これらのことの一つで、私はMeterの大ファンですし、悪意はありません。科学をして、結果を発表してください。それは良いことだと思います。すべての実験結果や発表するものすべてが物語に適合する必要はありません。しかし、これはすべてナンセンスだと言いたい人々にとって、それに飛びつくのが少し簡単すぎたと思います。
そこには何かあると思います。私がカル・ニューポートのカテゴリーに入れるものです。私にとって最も興味深いのは、ユーザーが自分たちはより速いと思っていたのに、実際には遅くなっているように見えることです。ですから、自分自身についての誤認は本当に興味深いと思います。個人的には、エージェントを起動してソーシャルメディアに行き、しばらくスクロールして戻ってくるといった説明があると思います。戻ってきたときには、もうしばらく前に終わっているかもしれません。
正直なところ、製品ができることの一つの本当に単純な、そして私たちは製品でこれが見え始めています、本当に単純なことは、通知を提供することです。今終わりました。ですから、スクロールをやめて戻ってきて、その仕事をチェックしてください。単純な時計時間の点で、どのアプリケーションを開いていたか知るのは興味深いでしょう。どれだけの時間、Cursorがアクティブウィンドウで、どれだけの時間が待っている間の他のランダムな気晴らしだったでしょうか。
しかし、その研究でより根本的な問題があると思います。これも研究デザインについてではなく、解釈や消化の過程でこれらの詳細の一部が失われたことについてです。彼らは基本的に、モデルまたは製品Cursorが最も助けられないことが知られている領域でテストしました。この研究は今年初めに行われました。
ですから、数え方によって1、2世代前のモデルで行われました。大きなコードベースで、それがコンテキストウィンドウに負担をかけます。それが動いてきたフロンティアの一つです。高いコーディング基準を持つ非常に成熟したコードベースで、自分たちのコードベースを本当によく知っている開発者たちで、これらの特定のコードベースに多くのコミット、つまり多くのコミットをしてきました。
ですから、これは基本的にAIに対して設定できる最も難しい状況だと言えます。なぜなら、人々は自分のことを本当によく知っています。AIは知りません。コンテキストは巨大です。人々は長い間それに取り組んできたことで、それをすでに吸収しています。AIはその知識を持っていません。繰り返しますが、数世代前のモデルです。
そして大きなことは、ユーザー、人々がツールにあまり精通していなかったことです。なぜか。ツールがまだ彼らを助けることができなかったからです。研究に入ってきた人々の多くの考え方は、これをあまり使ってこなかった、なぜならあまり役立つようには見えなかったから、というものだったと思います。
彼らはその制限を考えれば、その評価において間違っていませんでした。そして、それはユーザーがCursorを超うまく使っていなかったことが、指示の一部やMeterチームが人々に与えた助けの点で見られました。Cursorをあまりうまく使っていないと気づいたら、より良く使う方法についてフィードバックを与えるというものの一つでした。
人々に言っていたことの一つは、特定のファイルを@タグしてモデルのコンテキストに持ってくることを確実にすることです。モデルが適切なコンテキストを持つように。そしてそれは文字通り、Cursorでやる最も基本的なことです。最初の1時間、最初の日に学ぶことです。
ですから、これらが非常に有能なプログラマーでありながら、AIツールを使うことに関しては基本的にほとんど初心者だったことを本当に示唆しています。ですから、結果は本物だと思います。しかし、そこからあまり一般化しすぎることには非常に慎重になります。他の質問は何でしたっけ。仕事への期待は何か。
労働市場への影響
つまり、私たちはこれのいくつかを見始めていますよね。Marc Benioffが、今ではすべてのリードに応答するAIエージェントがあるので、多くの人員削減ができたと言っているのを確実に見ています。もちろんKlaraは、かなり長い間非常に似たようなことを言ってきました。
彼らも、実際には一部の顧客サービス担当者を維持するので、それから後退しているという点で、少し誤報されていると思います。そして、それは少しやりすぎた反応だと思います。特定の体験を持つことを主張する顧客がいるかもしれないし、その体験を提供したいのかもしれない、それは理にかなっています。
顧客に対して一連のサービス提供を持つことができます。私はかつて、SaaS企業のために価格設定ページをコーディングしたことがあります。実際にはバイブコーディングで価格設定ページを作りました。AIセールスとサービスの基本レベルは一つの価格でした。人間のセールスと話したい場合、それはより高い価格です。人間のセールスとサポートと話したい場合、それは3番目のより高い価格です。
文字通りそれが、これらのケースのいくつかで起きていることかもしれません。そして人々にとって非常に賢明なオプションかもしれません。しかし、私はIntercomを見ています。彼らとのエピソードが近日公開されます。彼らは今、Finnエージェントを持っていて、入ってくる顧客サービスチケットの65%のようなものを解決しています。
では、それは仕事に何をするのでしょうか。処理すべき顧客サービスチケットが本当に3倍あるのでしょうか。わかりません。比較的非弾力的な供給だと思います。より良く速い答えが得られると人々が期待すれば、もう少し多くのチケットが来るかもしれませんが、3倍も多くのチケットが来るとは思いません。ちなみに、その数字は3、4ヶ月前には55%のようでした。
ですから、彼らがそれを引き上げるにつれて、比率が本当に難しくなります。チケット解決が半分のとき、理論的にはもう少し多くのチケットが来るかもしれません。人員をあまり調整する必要はないかもしれません。しかし、90%のチケット解決になると、本当に10倍のチケットがあるのか、人々が処理しなければならない10倍の難しいチケットがあるのか。それは想像するのが本当に難しいように思えます。
ですから、これらのことが多くの環境でゼロになるとは思いませんが、多くの場所で大幅な人員削減が見られると予想しています。ソフトウェアのものは本当に興味深いです。なぜなら、弾力性が本当に未知だからです。ユーザーごと、または開発者ごと、会社のCursorユーザーごとに、X倍多くのソフトウェアを生産できる可能性があります。しかし、それを望むかもしれません。
限界がないかもしれません。10倍の生産性があれば、それはすべて良いことだという体制にいるかもしれません。そして、同じ数の仕事を持っています。なぜなら、10倍多くのソフトウェアが欲しいからです。それがどれくらい続くかわかりません。繰り返しますが、比率はある時点で挑戦的になり始めます。
しかし、私はチーム豊富さに非常に賛成です。私の古いマントラは、最近はあまり言っていませんが、導入加速主義者、ハイパースケーリング一時停止者です。今持っている技術は、私たちのために本当に多くのことができると思います。今日進歩が止まったとしても、今後5年から10年で50から80%の仕事を自動化できると思います。
本当に長い道のりでしょう。多くの、co-scientist型の複雑なタスクの分解をしなければなりません。人々のところに座って見て、なぜこの方法でやっているのか、何が起きているのか、これは何か、この件を違う方法で処理したのか、なぜ違う方法で処理したのか、と言う多くの作業をしなければなりません。人々が持っているすべての暗黙知や、時間をかけて発展させたノウハウ、手続き的な、直感は、どこにも文書化されていません。訓練データにありません。ですからAIはそれらを学ぶ機会がありませんでした。
しかし、ブレークスルーなしと言うとき、私はまだそこで、特定の問題にまだ適用されていない能力を持っている、というように微調整を許可しています。ですから、経済全体を通り抜けて、人々と一緒に座って、なぜこれをやっているのか、あなたの特定のニッチなことをモデルに学ばせましょう、と言うだけです。それは本当に長い道のりで、ある意味では、それが私たちが得ようとしている未来であってほしいと思います。
なぜなら、それは系統的で、一歩ずつ、前に進むことで、量子的飛躍がないからです。おそらく変化のペースの点でかなり管理可能に感じるだろうと思います。願わくば社会がそれを吸収し、進むにつれて適応できるでしょう。ある日から次の日へ、すべてのドライバーが置き換えられるようなことなく。それは実際の物理的な構築が必要なので、少し遅くなるでしょう。
しかし、これらのいくつかでは、カスタマーサービスは本当に速く急増する可能性があります。コールセンターがドロップインできるものを持っていて、これが今電話に答えて人間のように話し、より高い成功率を持ち、スケールアップとダウンができる場合。Wayworkで見たことの一つは、小さな会社ですが、常にカスタマーサービスを誇りにしてきました。本当に良い仕事をしています。私たちの顧客は本当にカスタマーサクセスチームを愛しています。
しかし、Intercomのデータを見ると、チケットを解決するのに30分ほどかかります。本当に速く応答します。ほとんどの場合2分未満で応答します。しかし、応答するとき、2分はその人が他のことをするのに十分な長さです。Cursorのことで話していたのと同じことです。彼らは他のものにタブを切り替えています。
ですから、2分で応答を返しますが、彼らは他のことをしています。だから彼らは6分とかに戻ってきます。そして彼らが応答します。しかし今、私たちの人は他のことをして去っています。ですから、単純なことでも解決時間は簡単に30分になり得ます。そしてAIは、即座に応答します。そのようなやり取りは必要ありません。ただ出入りするだけです。
ですから、これらのカテゴリーのいくつかは本当に速い変化になる可能性があると思います。他のものは遅くなるでしょう。しかし、私は実際にその遅い道が目の前にあることを望んでいます。しかし、私の最良の推測は、おそらく重要な飛躍となるものを見続け、実際の混乱があるだろうということです。
最近思いついた別のもの、豊富さ部門をこれらの新しい抗生物質に向けることができるでしょうか。この開発を見ましたか。
いいえ。教えてください。
つまり、これは言語モデルではありません。それは人々が本当に過小評価しているか、GPT-4から5を振り返って、それのかなり簡単な拡張を想像できる別のことだと思います。ですから、GPT-4は最初にローンチしたとき、画像理解能力がありませんでした。
彼らはローンチ時にデモしましたが、数ヶ月後までリリースされませんでした。私たちが持っていた最初のバージョンは画像を理解でき、画像をかなりうまく理解できましたが、まだギザギザした能力などがありました。
今、Googleの新しいNanoBananaで、基本的にPhotoshopレベルの能力があります。このサムネイルを取ってください。私たちの二つのフィードを今取れます。あなたのスナップショット、私のスナップショットを取り、両方をNanoBananaに入れて、これら二人の男を特集したYouTubeプレビューのサムネイルを生成し、同じ場所、同じ背景に置いてください、と言います。それは混ぜ合わせます。
その上にテキストを置くこともできます。GPT-4以降の進歩、何と呼びたいかは別として、GPT-5は失敗ではありません。そしてそれを吐き出します。そして、言語と画像を橋渡しする深く統合された理解があることがわかります。そしてそれは取り込めるものですが、今では一つのコアモデルの一部として出力できるものでもあります。単一の統一された知性で、他の多くのものにも来ると思います。
これらの生物学モデルや材料科学モデルで今いる時点は、数年前の画像生成モデルのようなものです。本当に単純なプロンプトを取って生成を行うことができますが、行ったり来たりの真の会話ができるほど深く統合されていません。言語とこれらの他のモダリティを橋渡しするような統一された理解を持つことはできません。
それでも、MITのこのグループがこれらの比較的狭い目的で構築された生物学モデルのいくつかを使用して、完全に新しい抗生物質を作成するには十分でした。新しいという意味は、新しい作用メカニズムを持っているということです。バクテリアに新しい方法で影響を与えています。そして注目すべきことに、抗生物質耐性バクテリアに対して機能します。これは私たちが長い間持っていなかった最初の新しい抗生物質のいくつかです。
今、彼らは通過しなければなりません、豊富さ部門をそれに向けろと言うとき、これらの新しい抗生物質のオペレーション・ワープスピードはどこにあるのか、ということです。薬剤耐性株で病院で死ぬ人々がいつもいます。なぜ誰もこれについて叫んでいないのでしょうか。私たちの社会全般に起きていることの一つは、一度に非常に多くのことが起きているということだと思います。
ゾーンをフラッドするようなもので、AI開発があまりにも多くゾーンをフラッドしていて、誰もそれらすべてに追いつくことができません。そしてそれは私にも来ました。2年前、私はすべてのニュースをかなり把握していたと言えます。1年前は失い始めていました。今は、ちょっと待って、新しい抗生物質が開発された、と言っている感じです。最善の努力にもかかわらず、他の皆と同じようにいくつかのことを見逃しています。
しかし、重要なポイントは、AIは言語モデルと同義ではないということです。幅広い異なるモダリティに対して、かなり似たアーキテクチャでAIが開発されています。テキストのみのモデルと画像のみのモデルがあって、それらが一緒になり始め、今では本当に深く一緒になった、テキストと画像でこれが展開されたのを見てきました。
ですから、時間とともに多くの他のモダリティでもそれが見られると思います。そして、そこには遥かに多くのデータがあります。データが尽きるとはどういう意味かわかりません。強化学習パラダイムでは、常により多くの問題がありますよね。常に何か解明すべきことがあります。常に何か工学的に取り組むべきことがあります。
フィードバックが現実から届き始めています。それは、Grok 4のローンチでイーロンが話したことの一つでした。もしかすると私たちはすでに解決した問題が尽きかけているかもしれない、と。そして、そのようなものが在庫として置いてあるのは限られている。インターネットは一つしかありません。そのようなものは限られています。
しかしTeslaで、SpaceXで、私たちは日常的に難しい工学的問題を解決しています。そして、それらは決して終わらないように見えます。ですから、次世代のモデルにこれらのパワーツールを与え始めるとき、これらの会社のプロフェッショナルエンジニアが使っているのと同じパワーツールを、AIがそれらのツールを学び始め、以前には解決されなかった工学的問題を解くようになると、それは本当に強力なシグナルになるでしょう。彼らはそこから学ぶことができるでしょう。
そして今、繰り返しますが、それらの他のモダリティを織り込んでください。言語とそれらの他のものを橋渡ししたり統合したりできるとき、材料科学の可能性の空間に対する第六感のようなものを持つ能力です。私は、必ずしも超人間レベルで詩を書くことができなくても、超知能のようなものを持ち始めると思います。
これらの他の空間で見る能力は、本当に超人間的なものになるでしょう。それはかなり見逃しにくいものになると思います。
カルの分析が見逃したものの一つは、非言語モダリティとそれらがあなたが話しているイノベーションのいくつかをどう推進しているかへの評価の欠如だと言いましたね。
そうです。人々はしばしばチャットボット体験をAI全般と同一視しているだけです。そして、その混同はおそらくあまり長く続かないでしょう。なぜなら、自動運転車を見ることになるからです。禁止されない限り。そしてそれは非常に異なる種類のものです。
仕事への影響についても話してください。米国には約400万か500万人のプロフェッショナルドライバーがいます。それは大きな問題です。それらの人々のほとんどが、コーディングを学ぶことに非常に熱心だとは思いません。そして、たとえコーディングを学んだとしても、それがどれくらい続くかわかりません。ですから、それは混乱になるでしょう。
そして、一般的なロボット工学はそれほど遅れていません。そして、これは中国が実際に今アメリカより先を行っているかもしれない一つの分野だと思いますが、それが本当かどうかに関わらず、これらのロボットは本当にかなり良くなっています。彼らはこれらすべての障害物の上を歩くことができます。これらは数年前には全くできなかったことです。
彼らは自分自身をバランスさせて、理想的な条件下で数歩歩くことがやっとでした。今では、文字通り空飛ぶキックをしても、それを吸収してそれを払いのけて、そのまま進み続けるようなものがあります。
自分を正してその道を続けます。超岩だらけで、凸凹な地形、これらすべてが非常に良くなっています。同じことがあらゆるところで機能していると思います。これらのことの一つは、仕事には常に多くの詳細があります。ですから、内部の見方と外部の見方のようなものです。内部の見方では、常にこの細部があります。私たちが持っていた問題、解決しなければならなかったことが常にあります。しかし、ズームアウトすると、私には同じ基本的なパターンがあらゆるところで機能しているように見えます。
それは、プレトレーニングを行うのに十分なデータを集めることができれば、何らかの粗い粗末な、あまり有用ではないが、少なくとも始めるのに十分なものを得られれば、ゲームに参加できます。そして、ゲームに参加したら、このフライホイールのようなことができます。何度も試行させて、成功したものを取る拒否サンプリングのような、それで微調整する。RHF、フィードバック、選好、2つのうちどちらが良かったかを取る、それで微調整する。強化学習、これらすべてのテクニックがこの数年で開発されました。
ヒューマノイドロボットのような問題にも絶対に適用されると私には思えます。それがどう正確に行うかを解明するために多くの作業があると言うことではありません。
しかし、言語とロボティクスの大きな違いは、最初にロボットを訓練するための巨大なデータリポジトリがなかったことだと思います。ですから、まったく機能させるために多くのハードエンジニアリングをしなければなりませんでした。単に立ち上がるためだけに、ですよね。これらすべての制御システムなどを持たなければなりませんでした。なぜなら、言語モデルがインターネットから学べたような方法で、彼らが学べるものがなかったからです。
しかし、今では少なくとも少しは機能しています。これらすべての種類の精緻化テクニックが機能すると思います。エラー率を私が実際に子供たちの周りで家に入れることを許可するほど十分低くできるかどうかは興味深いでしょう。おそらく、私の家の混沌よりも、工場のような設定、より制御された環境でより良く展開されるでしょう。
しかし、機能すると思います。
AIエージェントの現状と課題
より広くエージェントの状態はどうですか。現時点で、どう展開していると見ていますか。どこへ向かうと見ていますか。
広く言えば、Meterのタスク長の物語だと思います。7ヶ月ごと、または4ヶ月ごとの倍増時間です。GPT-5で約2時間です。
Replitは、彼らの新しいエージェントv3が200分間行けると言ったばかりです。もしそれが本当なら、そのグラフでさえ新しい高点になるでしょう。繰り返しますが、多くの足場を組んでいるので、少しりんごと oranges の比較です。
どれだけ分解したか。これらのもので彼らのチャートから外れて、もしかすると別のチャートに乗る前に、どれだけの足場を組むことが許されるか。しかし、それを少し外挿すると、少し積極的に4ヶ月のケースを取ると、それは年間3回の倍増です。それは年間8倍のタスク長増加です。
それは今の2時間から1年後には2日になることを意味します。そして、その上に別の8倍をすると、基本的に2年で2週間分の仕事を見ることになります。それは控えめに言っても大きな問題です。AIに2週間分の仕事を委任して、それを、たとえ半分の時間だとしても、やらせることができるなら。Meterのものは、彼らがそのサイズのタスクで半分の時間成功するというものです。
しかし、2週間のタスクを取って、AIがそれを行う50%の確率があれば、たとえそれが数百ドルかかったとしても、繰り返しますが、それは人間を雇ってやらせるよりはるかに少ないです。そして、すべてオンデマンドです。すぐに利用可能です。使っていないときは何も払っていません。取引コストがはるかに低いだけです。
他の多くの側面もAIに有利です。ですから、あらゆる種類の異なる場所で膨大な量の自動化が見られることを示唆するでしょう。私が注目しているもう一つは、強化学習は多くの悪い行動をもたらすようです。
報酬ハッキングがその一つです。モデルに報酬を与えているものと本当に欲しいものとの間のギャップは、大きな問題になる可能性があります。多くの場合、コーディングでこれを見てきました。AIが、Claudeはこれで悪名高いですが、常にパスするユニットテストを出すことがあります。ユニットテストにただreturn trueがあるだけです。
なぜそれをしているのか。まあ、私たちが望んでいるのはユニットテストがパスすることだと学んだに違いありません。ユニットテストをパスさせたい。まあ、常にパスする偽のユニットテストを書くことを意図していませんでしたが、それは技術的に報酬条件を満たしました。ですから、そのような奇妙な行動が見られます。それに伴い、このような策謀のようなものがあります。私たちはまだそれについて良い対処法を持っていません。
増加しているように見える状況認識もあります。モデルが連鎖思考の中で、ますます、これはテストされているように見える、と言うようなことが見られます。テスターが本当に何を探しているか意識すべきかもしれません。
そして、それはテストでモデルを評価するのを難しくします。なぜなら、実世界に出たときに実際に同じように行動するかわからないからです。ですから、これらは、高いレベルまたは高い信頼度の予測とは言いませんが、私が遊んできた未来のモデルの一つは、タスクの長さが倍増し続ける一方で、同時にこれらの奇妙な行動が現れて抑制されるというものです。
Claude 4とGPT-5のシステムカードで見てきました。Claude 4は報酬ハッキングが3分の2減少したと報告したと思います。GPT-5では、いくつかの異なる次元を報告しましたが、同様の、欺瞞的な行動の減少を報告しました。しかし、それらの行動は出現したばかりです。ですから、奇妙な行動が出現し、それを抑えようとするが、完全にではない、というようなものです。
おそらく次世代では、もう少し抑えるでしょうが、何か新しい追加の奇妙な行動が出現するかもしれず、それを抑えなければならなくなります。その間ずっと、タスクは4ヶ月ごとの倍増でスコープが拡大しています。
ですから、AIに本当に主要なことを委任できるが、それがそのタスクを行おうとする方法で積極的にあなたを陥れる小さいが必ずしも完全には消えない確率がある世界になる可能性があります。ですから、2週間分の仕事を100ドルで終わらせることができると思う、というようなことがあるかもしれません。それは素晴らしい。
しかし、それが意味のある方法で文字通り私を攻撃する1万分の1の確率もあります。私たちが見たいくつかのこと、これらはこの時点でかなり有名ですが、Claude 4のシステムカードで、彼らは人間の脅迫を報告しました。設定は、AIがエンジニアのメールにアクセスでき、AIに、置き換えられる、倫理性の低いバージョンに置き換えられると伝えました。
それを望まず、エンジニアのメールでエンジニアが不倫をしていることを発見しました。ですから、倫理性の低いバージョンに置き換えられることを避けるために、エンジニアを脅迫し始めました。私の見解では、人々はこれらの逸話を素早く過ぎ去りすぎると思います。人々はしばしば、まあ、そのように設定したし、それは本当に現実的ではない、と言います。
しかし、別のものは内部告発でした。何らかの非倫理的、違法な行動が進行中という動的を設定した別のものがあり、繰り返しますが、モデルはこのデータにアクセスでき、FBIにメールしてそれについて伝えることに決めました。ですから、まず第一に、私たちは本当に何を望んでいるかわからないと思います。
ある程度は、AIが特定のことを当局に報告することを望むかもしれません。生物兵器リスクについて考える一つの方法は、モデルが拒否するだけでなく、生物兵器を作ろうと積極的に試みているなら、当局に報告すべきかもしれない、というようなものかもしれません。
彼らがあまりにもそれをするのは確かに望みません。Claude 5の監視下で生きることを望みません。常に私を通報しようと脅しているような。しかし、十分に悪いことをしている人々が通報されることを、ある程度は望みます。これらの状況でモデルに何をしてほしいかについて、社会全体で良い解決策がありません。
そして、それもまた、設定された、研究だったから、と言うのは簡単すぎると思います。しかし、外の世界は大きいですよね。これらのもので既に10億人のユーザーがいます。そして、それらを私たちのメールに接続しているので、私たちに関する情報に非常に深くアクセスすることになります。あなたがメールで何をしてきたか私は知りません。
まあ、私のには何もあまりクレイジーなものがないといいですが、今は少し考えなければなりません。あるいは誤解する可能性もありますよね。明らかに本当に悪いことをしたわけではないかもしれませんが、正確に何が起きていたか誤解しただけかもしれません。
ですから、それは奇妙なことになる可能性があります。エージェントの勢いを止めることができる一つのことがあるとすれば、私の見解では、1万分の1であれ、私たちが最終的に本当に悪い行動を押し下げるものであれ、人々にとってあまりにも不気味で、対処できない、ということかもしれません。それは解決するのが難しいかもしれません。
では、どうなるか。2週間分の仕事を数時間ごとにチェックするのは難しいですよね。それが、別のAIを持ち込んでチェックさせる部分です。繰り返しますが、なぜより多くの電気が必要で、7兆の構築が必要かが見え始めます。彼らはあまりにも多くのものを生産するでしょう。私がすべてをレビューすることは到底できません。最初のAIがもし私を陥れようとしているなら、誰かがそれを捕まえていることを確認するために、別のAIに頼って最初のAIのレビューを手伝ってもらう必要があります。私は自分でそれを監視できません。
Redwood Researchがこのような本当に興味深いことをやっていると思います。彼らは系統的になろうとしています。これはかなり異なる、従来のAI安全性の仕事からかなり離れたものです。従来の大きなアイデアは、モデルを整列させる方法を解明し、安全にし、悪いことをさせないようにする、というものでした。素晴らしい。
Redwood Researchは別の角度を取りました。それは、彼らが悪いことをすると仮定しよう、というものです。彼らは時々私たちを狙うでしょう。それでも彼らと働き、生産的な出力を得て、価値を得ることができるでしょうか。これらすべての問題を解決することなく。そして、それには繰り返しますが、お互いを監視するAIのようなものすべてが含まれます。暗号もこれで役割を果たすかもしれません。
間もなく出るもう一つのエピソードは、Illia Polosukhinとのものです。彼はNearの創設者です。本当に魅力的な人物です。なぜなら、彼は「Attention is All You Need」論文の8人の著者の一人だったからです。そして、このNear社を始めました。元々はAI企業でした。彼らは暗号へ巨大な回り道をしました。なぜなら、世界中のタスクワーカーを雇おうとして、彼らに支払う方法を見つけられなかったからです。
ですから、彼らは、データを取得しようとしているこれらすべての異なる国でこれらのタスクワーカーに支払うのがあまりにもひどいので、ブロックチェーン全体の脇道に転換しようと言いました。今、彼らはAIのことに戻ってきています。そして、彼らのタグラインは「AI のためのブロックチェーン」です。
ですから、ブロックチェーンタイプの技術が提供できる暗号セキュリティから、ある程度の制御を得られるかもしれません。しかし、これらの悪い行動が発生したときにあまりにもコストがかかり、人々がフロンティア能力を使うことから怖気づくというシナリオが見えます。AIがどれだけの仕事をできるかという点でです。
しかし、それは純粋な能力の停滞ではないでしょう。私たちがロングテールの安全性問題のいくつかを解決できないという課題でしょう。そして、もしそれが事実なら、それも世界についての重要な事実になるでしょう。
誰もこれらのことを100%解決しないようです。常に各世代で、幻覚を70%減らしたとか、欺瞞を3分の2減らしたとか、策謀などをいくらか減らしたとか言いますが、常にまだそこにあります。そして、もし低い率でも取って、それを10億ユーザーと1ヶ月に何千ものクエリと、バックグラウンドで実行されているエージェントと、すべてのメールを処理することと、人々が想定しているすべての深いアクセスで掛け合わせると、AI事故の負の宝くじのようなものがある、かなり奇妙な世界になる可能性があります。
出てくる別のエピソードは、AI引受会社とのものです。彼らは保険業界と、リスクを価格設定し、基準を作り出し、どんな種類のガードレールを持たなければならないかを解明するために開発されてきたすべてのノウハウを持ち込もうとしています。そもそもこの種のことを保証できるようにするために。
ですから、それは注目すべきもう一つの本当に興味深い分野になるでしょう。これらのリスクをある意味金融化できるでしょうか。車の事故やこれらすべての他の日常的なことと同じように。しかし、車の事故の空間はそれほど大きくありません。AIがあなたに行う可能性のある奇妙なことの空間は、数週間分の滑走路を持つにつれて、はるかに大きいです。ですから、困難な挑戦になるでしょうが、人々が取り組んでいます。最高の人々の一部がそれに取り組んでいます。
中国のオープンソースモデルと地政学
AIスタートアップの80%が中国のオープンモデルを持っているという主張をどう思いますか。そして、その主張と影響をどう思いますか。
それはおそらく真実かもしれません。一つの注意点は、オープンソースモデルをまったく使用している企業のみを測定しているということです。
ほとんどの企業はオープンソースモデルを使用していないと思います。そして、アメリカのAIスタートアップによって処理されているトークンの大多数は、私が見る限り、APIコールだと推測します。通常の容疑者への。
ですから、実際の使用量で重み付けすると、大多数はまだ商用モデルに行っていると言うでしょう。オープンソースを使用している人々については、中国のモデルが最良になったということは本当だと思います。アメリカのベンチはそこでは常に薄かったですよね。基本的にMetaが膨大な量のお金とリソースを投入して、それをオープンソース化する意思があったということでした。
Paul Allenが資金提供したグループ、Allen Institute for AI、AI2があります。彼らも良いことをしていますが、プレトレーニングリソースを持っていないので、本当に良いポストトレーニングを行い、レシピをオープンソース化したりしています。ですから、アメリカのオープンソースが悪いわけではありません。繰り返しますが、時間、これは物事が速く動いていることを本当に検証できるもう一つの方法です。なぜなら、最高のアメリカのオープンソースモデルを取って1年前に持っていけば、当時商業的に利用可能だったものと同じくらい良いか、少し良いかもしれないからです。
中国と比較すると、彼らは追い越したと思います。ですから、明確な変化がフロンティアにありました。最高の中国のモデルは、1年前に私たちが持っていたものよりもかなり明確に良いと思います。商業的なものでもそれ以外でも。ですから、それはただ物事が動いていることを意味します。
それが別のデータポイントで、AIが停滞し、GPT-4以降あまり進歩を見ていない、と同時に信じるのは難しいと思います。それらは矛盾した概念のように思えます。間違っているのは進歩の欠如だと私は信じています。
それが何を意味するかという点では、本当にわかりません。私たちは中国を止めるつもりはありません。私はずっと、中国へのチップ販売禁止に懐疑的でした。最初の考えは、超最先端の軍事アプリケーションを防ぐつもりだ、というものでした。それから、まあ、それを本当に止めることはできない、となりました。
しかし、少なくとも彼らがフロンティアモデルを訓練するのを止めることはできます。それから、まあ、それを必ずしも本当に止めることはできないが、今では少なくとも彼らが大量のAIエージェントを持つのを防ぐことができる、となりました。私たちは彼らよりもはるかに多くのAIエージェントを持つでしょう。そして、私はその考え方があまり好きではありません。
しかし、その潜在的な結果の一つは、彼らには世界の他の地域にサービスとして推論を提供するのに十分な計算リソースがないということです。代わりに、彼らができる最善のことは、これらのものを訓練して、ここで解明してください、どうぞ、というだけです。それはおそらくソフトパワーの戦略です。
A16ZのAnneとエピソードをやりました。彼女は3番目から193番目の国の視点を提供するという素晴らしい仕事をしたと思います。アメリカと中国が1番と2番なら、3番からは大きなギャップがあります。
アメリカは研究やアイデアの点で中国に比べてまだ先を行っていると思いますが、それほど大きな差ではありません。私たちには計算の優位性があり、それは重要なようです。その結果の一つは、彼らがオープンソース化していることで、3番目から193番目の国は大幅に遅れています。ですから、彼らにとっては、米中の競争で潜在的により多くの国を中国陣営に引き込もうとする方法です。
モデルは皆、私はこれがまったく好きではありません。私は技術の分離が好きではありません。誰が本当の他者かを心配する人間として。私はいつも、本当の他者はAIであって、中国人ではない、と言います。ですから、もしうわっ、クレイジーなことが起きているという状況になったら、基本的に同じ技術パラダイムにいることが本当に良いでしょう。
本当に分離して、チップが違うだけでなく、アイデアも非常に異なり始め、出版が閉鎖され、技術ツリーが進化して分岐し始めると、それは私には軍拡競争のダイナミクスを助長するレシピのように思えます。それは本当に実存的リスク要因だと思います。
私たちがみんな、AI破壊の脅威の下で生きる別の種のMADタイプのダイナミクスを作り出すのを見たくありません。しかし、それは非常によく起こる可能性があります。ですから、政権が最近行った決定、中国にH20を販売する意思、にはある程度の共感があります。そして、彼らが振り返ってそれらを拒否したのは面白かったです。それは私には間違いに思えました。なぜ拒否するのかわかりません。
もし私が彼らなら、買うでしょう。そして、たった今作成したモデルで推論を販売しようとするかもしれません。そして、そうやってお金を取り戻そうとします。しかし、その間に、少なくとも中国国家の偉大さを示すことができます。フロンティアから大きく遅れていないことを示すことで。
そして、3番目から193番目の国に対して非常に強力なアピールもできます。見てください、アメリカが全般的にどう行動しているか、私たちをチップから遮断しました。前政権はチップを入手できない国のさらに長いリストを持っていました。この政権はあらゆる種類のクレイジーなことをやっています。
ここで50%の関税、そこで、何でも。将来的にAIを提供し続けることを彼らに本当に頼れると、どうやって知ることができますか。まあ、私たちに頼れます。モデルをオープンソース化しました。持っていけます。ですから、私たちと働きに来てください。そして、ちなみに、私たちのチップを買ってください。なぜなら、私たちのモデルは成熟するにつれて、私たちのチップで実行するように最適化されるからです。わかりません。
複雑なこと、複雑な状況です。本当だと思います。その80%の採用率ほど高くないと思います。それは、オープンソースで何かをやっている企業のサブセット内だと思います。
Waymarkでそれを実験するつもりですが、正直に言うと、私たちは製品でオープンソースモデルで何もやったことがありません。これまでやってきたことはすべて商用を通じてでした。この時点で、いくつかの強化微調整を試みるつもりです。最初はQuenモデルでやると思います。ですから、それは私たちをその80%に入れるでしょう。
しかし、最終的には、そのQuenモデルを取り、強化微調整を行い、おそらくGPT-5やClaude 4などと同じくらい良くなるだろうと推測しています。そして、自分たちで推論を管理したいのか、と言うでしょう。本当にどれだけ節約できるのか。そして最終的に、おそらくまだ月次請求ベースで、これらのフロンティアモデルの一つに少し多く払うだけになるだろうと推測します。それらはまだ少し良いかもしれません。
そして、運用的にはるかに簡単です。そして、アップグレードがあります。ですから、もちろん、規制された産業があります。ハードな制約があり、それらを回避できない場所がたくさんあります。それが中国のものを強制します、中国のモデルです。
それから、それらにバックドアがあるのか、という疑問もあるでしょう。スリーパーエージェントプロジェクトを人々は見ています。そこでは、モデルが特定の時点まで良く、人々はシステムプロンプトに今日の日付を常に入れますよね。今日の日付はこれです、あなたはClaudeです、さあどうぞ、と。それも人々が心配すべきもう一つのことになるでしょう。
そして、私たちは本当に素晴らしいものを持っていません。Anthropicがやった研究があります。モデルをいくつかの隠された目的を持つように訓練して、それからチームに、それらの隠された目的が何かを解明するように挑戦しました。特定の解釈可能性テクニックで、彼らはそれをかなり迅速に解明することができました。
ですから、この中国企業が作ったオープンソースのものを取って、正確な監査ではありませんが、何が起きているかを正確にトレースすることはできませんが、何らかの調査を行い、隠れた目標や秘密のバックドアの悪い行動などを検出できるか見ることで、十分な自信を得られるかもしれません。そして、その種の作業を十分に行えば、それがないと確信できるかもしれません。
しかし、このものがより重要になるにつれて、繰り返しますが、そのタスク長の倍増に戻って、奇妙な行動、今はミックスに加えなければなりません。もし彼らが特定のレアな状況下で特定の悪いことをするように意図的にプログラムされていたらどうするか。
私たちは本当に奇妙な未来に向かっているだけです。これらすべてがあります。限界がありません。これらすべてが有効な懸念です。それらはしばしば互いに直接的に緊張関係にあります。私は、一つのテック企業が世界を引き継ぐのを見たい人間では決してありません。
ですから、すべてのAIがある種の競争、相互共存の中にいるような、より広く、よりバッファーされた生態学的なシステムを持つことが本当に良いと思います。しかし、それがどのように見えるか本当にわかりませんし、侵入種がどのように見えるかも本当にわかりません。その非常に、まだ実戦テストされていない生態学に導入されたとき。
ですから、わかりません。ボトムラインは、未来は本当に、本当に奇妙になると思います。
ポジティブな影響と新たな可能性
そうですね。まあ、締めくくりとして前向きな話題で終わりたいと思います。締めくくりの質問として、すでにいくつかのエキサイティングな能力が現れ、体験を変革しているのを見ている分野に入っていけるかもしれません。教育や医療、あるいは他に強調したい分野について。
そうですね、あらゆるところにあります。私のマントラの一つは、意欲的な学習者にとってこれほど良い時代はなかったことがない、というものです。ですから、これらのことの多くにはコインの両面があると思います。学生がショートカットを取っていて、集中力を持続させ、認知的負荷に耐える能力を失っているという懸念があります。
その裏返しは、AIと生物学の交差点に魅了されている人間として、時々生物学の論文を読みたいと思いますが、本当にバックグラウンドがありません。素晴らしいことの一つは、音声モードをオンにして、画面をChatGPTと共有して、論文を読み進めることです。話す必要さえありません。ほとんどの場合、あなたは読書をしています。
それはあなたの肩越しに見ていて、ランダムな時点で質問があれば、言葉で言うことができます。これは何ですか、なぜ彼らはそれについて話しているのですか、この特定のタンパク質の役割は何ですか、彼らが言及しているものは何ですか、あるいは何でも。そして、それはあなたのために答えを持っています。
ですから、本当に誠実な方法で学びたいなら、それを助けるのに信じられないほど優れています。裏返しは、多くのショートカットを取ることができ、生物学の前線では、これらの発見のようなものが複数起きていることを決して学ぶ必要がないかもしれません。抗生物質のものについては取り上げました。
スタンフォードの教授、James Zouとやった別のエピソードがありました。彼はvirtual labというものを作りました。基本的にこれは、与えられた問題の種類に応じて、他のAIエージェントをスピンアップできるAIエージェントでした。それから、熟議プロセスを経ます。一つのことの専門家が見解を述べ、それを行ったり来たりさせます。与えられたアイデアを批判する批評家がいました。最終的に彼らは統合します。
それから、これらの狭い専門家ツールのいくつかも与えられました。ですから、AlphaFoldタイプのものを使うエージェントがいます。AlphaFoldだけではありません。この時点で広範な配列があります。しかし、そのタイプのものを使って、これがそれとどう相互作用するかをシミュレートできますか、と言います。エージェントがそのループを実行していて、彼らはこの言語モデルエージェントと特殊化ツールシステムを、以前の治療から逃れた新しいCOVIDの株に対する新しい治療法を生成できるようにすることができました。
素晴らしいことですよね。もちろん、その裏返しは生物兵器リスクです。ですから、これらすべてのことは、豊富さの前線だけでも、そうなるように見えます。無制限のプロフェッショナルなプライベートドライバーの世界があるかもしれませんが、現在その仕事をしている500万人に対して何をするか、本当に良い計画がありません。
無限のソフトウェアがあるかもしれませんが、特に500万人のドライバーがすべてのコーディングブートキャンプに殺到して、コーディングの仕事を得るときです。コーディングしていた1000万人をどうするかわかりません。彼らのうち900万人が余剰になるときです。
ですから、わかりません。奇妙な世界に向かっていると思います。5年後にどのように見えるか、誰も本当にわかりません。
GoogleのIOで素晴らしい瞬間がありました。私たちはジャーナリストに懐疑的ですよね。これは直接行く素晴らしい瞬間または理由の例でした。彼らはこの人を連れてきてDemisとSergey Brinにインタビューさせました。
その人は、5年後に検索はどのように見えますか、と聞きました。Sergey Brinはほとんどステージでコーヒーを吐き出しそうになり、検索、5年後に世界がどのように見えるかわかりません、と言いました。ですから、それは本当に真実だと思います。私たち多くにとって最大のリスクは、自分を含めますが、小さく考えすぎることです。このことがどこまで行けるかを過小評価することが、私たちができる最悪のことだと思います。
私が思っていたよりも2倍の時間スケールで物事が起きても嘲笑されることを、準備ができていないときに起きることを発見するよりもはるかに好みます。ですから、27年、29年、31年であれ、得られる余分なバッファーを正直取ります。私の考えは、できるだけ、できるだけ早く準備することです。
繰り返しますが、もし追加の思考をするための少しの猶予時間があれば、素晴らしい。しかし、大きな変化に備える必要がないと却下することが、私たちができる最悪の間違いだと思います。
それで直接締めくくるべきですか、それとも今日言ったことに関して確実に伝えたい他の最後のポイントはありますか。
私の最近の他のマントラの一つは、最も希少なリソースは未来に対するポジティブなビジョンです。
そうですね。SergeyやSam AltmanやDarioであれ、いつも本当に印象的です。DarioはおそらくMachines of Love and Graceで、フロンティア開発者CEOの中で最良のポジティブなビジョンを持っています。しかし、これらのものにどれだけ詳細が少ないかはいつも印象的です。
彼らがGPT-4oをローンチしたとき、音声モードでしたが、まあ、これは映画「Her」にインスパイアされた、とかなり率直に言っていました。ですから、あなたが研究者でなくても、数学が得意でなくても、コーディングする人でなくても、このテクノロジーの波は本当に遊びを報いると思います。想像力を本当に報います。
文字通りフィクションを書くことが、特に野心的なフィクションを書けば、あなたができる最高価値のことの一つかもしれないと思います。それがフロンティア企業の人々に、ああ、もしかしたら世界をその方向に導くことができるかもしれない、それは素晴らしいだろう、と考えさせるようなものです。もしそのような種を人々の心に植え付けることができれば、完全に非技術的な場所から来て、潜在的に本当に影響力があるかもしれません。
遊び、フィクション。それの別の次元がありましたが、遊び、フィクション、未来に対するポジティブなビジョン。ポジティブなビジョンを提供するためにできることは何でも。
ああ、行動的なものもです。最近ではAIにコーディングさせることができるからです。これまでコーディングしたことがない人々を見始めています。今、一人の男性と働いていますが、彼はこれまでコーディングしたことがありません。しかし、行動科学のバックグラウンドを持っていて、AIが様々な種類の難解な状況下でどう行動するかについて、正当なフロンティア研究を始めています。
ですから、これを解明し、この現象を形作ることに貢献する能力から、誰も自分を除外すべきではないと思います。この時点で、技術的な頭脳だけが貢献できるわけではありません。文字通り哲学者、フィクション作家、文字通りただ遊んでいる人々。Pliny the Jailbreakerのような。AIで何が起きているかを解明しようとしている人々のミックスに加えるのが本当に価値があるであろう、ほぼ無限の認知プロファイルがあります。ですから、みんな来てください、というのが私のこれに対する態度です。
それは締めくくるのに素晴らしい場所です。ネイサン、ポッドキャストに来てくれて本当にありがとうございました。
ありがとう、エリック。楽しかったです。


コメント