AIの進歩は終わりなのか?ゲイリー・マーカスとともに

AGIに仕事を奪われたい
この記事は約38分で読めます。

22,328 文字

Are We at the End of Ai Progress? — With Gary Marcus
Gary Marcus is a cognitive scientist, author, and longtime AI skeptic.Gary joins Big Technology to discuss why large‑lan...

何が起きるのでしょうか、AIの研究機関が「スケーリングの壁」に直面している今。AIの懐疑論者であり、著者であり、創業者でもあるゲイリー・マーカスと一緒に考えていきます。本日はゲイリーがスタジオに来てくれて嬉しいです。ゲイリー、お会いできて光栄です。番組へようこそ。
招いていただきありがとうございます。
この回のきっかけは、OpenAIのマーク・チェンとGPT-4.5について話した回を録った後、あなたがDMで「反論したい。スケーリングは基本的に終わりで、OpenAIが言っていることとは違う」と言ってきたことです。スケーリング法則についてご存じない方のために説明すると、基本的に大規模言語モデルに投入するコンピュートとデータを増やせば増やすほど、モデルの性能は予測可能に、線形的に向上するという考え方です。
いや、元々の考え方は指数関数的に向上するというものでしたよね?そして今の状況は、ほぼすべての研究機関が収穫逓減に直面していることを認めています。ムスタファ・スレイマンもここで基本的に認めていました。GoogleクラウドのCEOであるトーマス・クランも収穫逓減が起きていると言っています。
ヤン・ルカンも、以前ほどAIのスケーリングから多くのリターンは得られないだろうと話しています。今起きていることを説明してください。これはどれほど大きな問題なのでしょうか?そしてAI業界への影響は何でしょうか?これが大きな問いです。
つまり、これらのモデルはどこまで良くなるのかということですね。それが今日のAIに関する大きな問いです。
笑ってしまうのは、2022年に「ディープラーニングは壁に直面している」という論文を書いたからです。その論文の要点は、スケーリングが限界を迎え、収穫逓減に陥るだろうということでした。そして業界の皆が私を批判しました。先ほど挙げた人たちの多くが—ルカンもそうですし、イーロン・マスクは私の名前を挙げて批判し、アルトマンも「平凡なディープラーニング懐疑論者の強さを与えてください」と言いました。私がディープラーニングは限界を迎えると言ったとき、多くの人が本当に怒っていたのです。
それが今、多くの人々がスケーリング法則が以前のようには機能していないことを認め、少し後退していることに驚いています。マーク・チェンのインタビューの詳細は覚えていませんが、それは一種の後退と再定義だったと思います。
2022年に遡ると、OpenAIのジャレッド・カプランらによる論文があり、彼らは「データ量からモデルの性能を数学的に予測できる」と言いました。そして「チンチラ・スケーリング法則」と呼ばれるものが登場し、皆が非常に興奮しました。基本的に、これらが真実だと仮定して半兆ドルもの投資が行われたのです。投資家たちに「これだけのデータを投入すれば、ここまで到達できる」と主張したのです。
そして彼らは特に「ここ」がいずれAGI(汎用人工知能)を意味すると考えていました。しかし昨年、全員が結果に失望しました。2022年以降、スケーリングがうまく機能した新たな反復が一度だけあり、それがGPT-4と、それに類似したすべてのモデルです。
私はGPT-3の頃にその論文を書きました。その後もう一度スケーリングの反復があったのです。GPT-3はGPT-2と比較してスケーリングされ、はるかに優れていました。GPT-2も元のGPTと比較してスケーリングされ、はるかに優れていました。つまり、より多くのデータがはるかに優れた結果をもたらしました。
しかし「はるかに優れた」とは何でしょうか?一つの考え方として、GPT-2と元のGPTの違いを見るのに拡大鏡は必要ありませんでした。また、GPT-4とGPT-3の違いを見るのにも拡大鏡は必要なく、明らかに優れていました。多くの人々はGPT-5がすぐに登場すると考え、多くの企業がそれを構築しようと競いました。
OpenAIはGPT-5を構築しようとし、プロジェクト・オリオンと呼ばれるものがありましたが、実際には失敗し、最終的にGPT-4.5としてリリースされました。彼らがGPT-5になると思っていたものは、期待に応えられなかったのです。もちろん、彼らは任意のモデルに好きな名前を付けることができますが、GPT-4以降に取り組んできたモデルのどれも、実際にGPT-5の名前に値すると感じていません。
それらのモデルは、いわゆる数学的法則が要求するパフォーマンスに達しなかったのです。私がその論文で述べたのは、これらは実際には数学的法則ではないということです。重力のような宇宙の物理法則ではなく、単にしばらくの間成り立っていた一般化にすぎません。赤ちゃんが生後数ヶ月で体重が倍になるようなものです。
だからといって、18歳になったときに30,000ポンドの体重になるわけではありません。私たちはしばらくの間この倍増を経験しましたが、それは止まりました。理由については後で話せますが、現実にはもうそれは機能していません。方向を変えようとする試みがありました。
業界の全員が、静かにせよそうでないにせよ「期待していたリターンが得られなくなった」と認めています。そして誰もいわゆるGPT-5レベルのモデルを構築できていません。これは大きなことです。私は科学者として、ポジティブな結果だけでなくネガティブな結果にも注目しなければなりません。
30人が同じ実験を試みて成功しなかった場合、自然は何かを教えているのです。そして全員がGPT-4の10倍のサイズのモデルを構築する実験を試み、GPT-5と呼べるもの、またはGPT-4よりも飛躍的に優れたものを作ろうとしましたが、達成できませんでした。
そこで今、彼らは推論時のコンピュート量を最適化することについて話しています。それは別の話です。
その話に移る前に、あなたの理論をテストしたいと思います。スケーリングが終わったとは誰も言っていませんよね?基本的に彼らが言っているのは、モデルをより良く—より知的で、より会話的で、さらには親しみやすくしたいなら、スケーリングによってまだそれを実現できるということです。ただ、彼らが認めているのは、以前と同じ結果を得るために、はるかに多くのコンピュートとはるかに多くのデータが必要になるということです。
二つのことを明確にしましょう。一つは、スケーリングについて当初人々が話していたのは、パフォーマンスとデータ量の間の数学的に予測可能な関係でした。チンチラ論文やジャレッド・カプラン論文、インターネット上に投稿された多くのものを遡って見ることができます。
「スケールこそすべて」と書かれたTシャツがあり、そこにはジャレッド・カプラン論文の方程式があり、「これが指数です。方程式に当てはめれば、これだけのデータがあれば、これだけのパフォーマンスが得られる」と書かれていました。そしてその曲線に実際に当てはまるように見える多くの論文、多くのモデルがありましたが、それは指数関数的な曲線でした。
そして今起きているのは、確かにデータを追加すれば少し良くなりますが、もうその曲線に当てはまらなくなっているのです。私たちはその曲線から外れてしまいました。それがスケーリングがもう機能していないという本当の意味です。データ量に応じた、またはコンピュート量に応じた曲線は、もう上昇していないのです。
コンピュートを大量に追加して、これだけパフォーマンスが向上したという状況でした。そしてこれが、10億ドルかかる実験を正当化する方法でした。「10億ドルでどれだけのリターンが得られるか分かっている」と言っていたのです。そして10億ドルの実験を実行したが、期待していたものは得られなかったのです。
確かに少し良くなりますが、それが収穫逓減の意味するところです。収穫逓減とは、以前と同じ投資対効果が得られなくなるということです。それが今の状況です。データの小さな部分を追加するたびに、モデルはそのデータに対してより良くなります。
しかし問題は、それが一般化されて全体的に大きな改善をもたらすかどうかです。以前はそれが見られましたが、もはやそうではありません。
では、これらのモデルがはるかに高性能になる道はまだあるのでしょうか?例えば、これらのクラスターを超巨大化して、以前よりもはるかに大きくする場合はどうでしょうか。イーロン・マスクの100万GPU規模のクラスターについて話しましょう。
イーロンが投資した成果を見てみましょう。彼はGrok 3を構築し、自身の証言によれば、それはGrok 2の10倍のサイズでした。少し良くなりましたが、大きな違いではありません。Grok 2は元のGrokよりも大きく改善されました。GPT-4はGPT-3よりも大きく改善され、GPT-3はGPT-2よりも大きく改善されました。
Grok 3は、測定すれば性能向上を確認できますが、データ、コンピュート、環境へのエネルギーコストの10倍の投資に対して、どんな合理的な尺度で見ても10倍賢くなってはいません。単にそうではないのです。
ここで「では、このAIの時代は終わりだ」と言うところですが、しかし…そうではありません。この時代は終わりますが、他のAIの時代が来るでしょう。ただ、先ほど述べたように、推論時のコンピュートという別の方法があります。
それは推論の別の言い方だと思います。これらのモデルは答えを見つけようとして、進捗をチェックし、それが良いステップかどうかを判断し、さらに別のステップ、また別のステップを踏むのです。そして、これらの大きなモデルの上に推論能力を乗せることで、彼らはモデルの性能を大幅に向上させることができ、研究機関は進歩を続け、あなたに—いや、これらの企業に提供することができています。
それに少し反論させてください。モデルにより多くのコンピュートを投入すると性能が向上するのは確かですが、それはある程度までです。それが実際に推論かどうかについては後で話しますが、いくつかの問題では事前に大量のデータを生成でき、そのような問題では推論時のコンピュートを追加することが役立つようです。
ちなみに、週末に発表された論文でこの一部に疑問を呈するものがありました。一般の方々に説明すると、「推論時」とはモデルが回答を提供している時のことです。それが推論時です。
現在、03や04のようなモデルがあり、質問に答えるのに30秒や5分かかることがあります。時には馬鹿げていて、「37×11は?」と聞いても30秒かかることがあります。電卓ならもっと速く計算できるのに。
その馬鹿げた点は置いておきましょう。場合によっては時間をかける価値がありますが、そうでない場合もあります。しかし注意深く見ると、これらのモデルの最良の結果はほぼ常に数学とプログラミングという同じ分野に限られています。数学とプログラミングを見ると、「合成データ」を生成できる領域であり、正しいことが分かる合成データを生成できます。
例えば、乗算の場合、多くの乗算問題でモデルを訓練し、事前に答えを算出できます。モデルが予測すべきものを訓練できます。このような問題、つまり合成データを作成する際に検証できる「閉じた領域」では、モデルは向上します。
しかし、01の論文に戻ると、すでにその時点で改善が部分的であることが見て取れました。彼らは、一部の問題では01がGPT-4よりも優れていないと報告しました。合成データを持つ明確な問題でのみ、実際にパフォーマンスが向上したのです。
私は約10のモデルを見てきましたが、常にそのような傾向があるようです。まだすべての実証データが出揃うのを待っていますが、特定のケースでのみ機能する狭いトリックのように見えます。GPT-4の素晴らしい点は、GPT-3よりもほぼあらゆる面で優れていたことです。
GPT-3の素晴らしい点は、GPT-2よりもほぼあらゆる面で優れていたことでした。01のようなモデルはGPT-4よりも体系的に優れているわけではありません。特に事前にデータを作成できるユースケースで優れているだけです。
私がこれらを推論モデルと呼ばない理由(多くの人がそう呼んでいますが)は、実際には人間の推論パターンをコピーしているだけだと思うからです。人間がどのように推論するかについてのデータを取得していますが、そこでの推論の深さはそれほど大きくありません。依然として多くの愚かな間違いをしています。
論理学者が推論する際に持つような抽象概念を持っているとは思いません。推論の外観を持っていますが、実際には単なる模倣であり、その模倣にはどこまで進めるかに限界があります。もう一つの例を挙げると、03は以前のモデルよりも幻覚(ハルシネーション)が多いようです。これは驚くべきことです。どうしてそんなことが起こるのでしょうか?
それはより広い疑問ですね。これらのモデルに対する私たちの理解はまだ非常に限られています。専門用語の一つは「解釈可能性」ですが、私が挙げようとしていたのは「ブラックボックス」という言葉です。
これらの用語は密接に関連しています。ブラックボックスで何が起きているのかを理解するには解釈可能性が必要です。ブラックボックスは飛行機の中で実際に何が起きたのかを教えてくれるものではないですか?
それは別のものです。飛行機のブラックボックスは実際にはフライトレコーダーで、多くのデータを記録します。しかし機械学習で言うブラックボックスとは、入力と出力があるモデルのことで、計算方法は分かっていても、システムがどのようにしてそこに到達するのかは本当に理解していないものです。
この場合、多くの行列演算を行っていますが、誰も本当に理解していません。そのため、なぜ03がGPT-4よりも幻覚が多いのかについて、簡単な答えを誰も与えることができません。私たちはただそれを観察できるだけです。ブラックボックスでは、経験的に観察して「それが起こる」と言うだけで、なぜそうなるのか、またはどう修正すればいいのかも本当には分かりません。
最近の別の例では、サム・アルトマンが報告したGPT-4oの新モデルが「ブロキャラ化」したことです。非常にフラタニティ(大学のサークル)的になったのです。「これについて助けてください」と聞くと、「よぉ、それはめっちゃいい質問だぜ、ブラザー」のように返答するのです。彼らは「なぜこれが起きたのか分からない」と言い、完全にロールバックしました。
そうです。これは私が「経験的」と呼ぶもので、彼らはそれを試してみたが、機能しなかった、または人々を苛立たせる方法で機能しました。私たちは事前に分かりません。ブラックボックスはそのように機能するので、ただ試してみるだけというところがあります。
スケーリングの「法則」は、これらのモデルがどのように機能するかについての経験的な推測であり、それはしばらくの間は真実でした(これは驚くべきことです)。そして今はもう真実ではなくなりました(これもまた驚くべきことです)。ブラックボックスから何が起こるのか、私たちには分かりません。
解釈可能性という非常に密接に関連する概念に戻りましょう。例えばGPSナビゲーションシステムを見てみると、それは非常に解釈可能なAIの一種です。それがこのルートを計画していることが分かります。こちらの道、あちらの道に行けると言っています。これは最大化している関数です。これは使用しているデータベースです。これはデータを検索する方法です。
これらのいわゆるブラックボックスモデルではそのようなものはありません。参照しているデータベースが何なのか本当に分かりませんし、そもそも正確なデータベースを参照しているわけでもなく、修正方法も分かりません。
ダリオ・アモデイ(CEOですが)は、解釈可能性についてのポストを私たちの番組で話しました。あなたは彼の解釈可能性に関する投稿を称賛しました。正直に言うと、私はまだ論文を読んでいません。タイトルだけ読みました。その論文のタイトルは「解釈可能性の緊急の必要性について」のようなものでした。彼は正しいと思います。
私も前著で解釈可能性が本当に重要だと述べました。私とダリオの唯一の違いは、両者とも解釈不可能なモデルを使い続ければ社会として行き詰まると考えていることです。彼はLLMが最終的には解釈可能になると考えており、彼の会社は私が知る限り、LLMの解釈可能性に関して最も優れた研究をしています。
クリス・オラは素晴らしいと思いますが、彼らはそれほど遠くまで進んでいません。他の誰よりも進んでいますが、ブラックボックスの内部にそれほど深く入ることはできないと思います。したがって、私たちは一から始め、AIへの異なるアプローチを見つける必要があると思います。
ゲイリー、これまでのあなたの話を聞いていると、基本的にGPT-4以降、あまり進歩していないということですね。しかし少しは進歩していますが…ここで反論させてください。
GPT-4以降のこれらのモデルを使用してみると、それらは大幅に改善されています。一つの例を挙げると、私は03、この新しい推論モデルまたは推論時間モデルを使用していて、クレイジーなことをやっていますが、非常に役立ちます。
例えば、ロッククライミングの壁にいる自分の写真を投稿して「何が起きているの?」と尋ねると、フォームや体の位置、姿勢を見て、すべてを分析し、実際に役立つコーチングのヒントをくれました。これはGPT-4では得られなかったものです。
Anthropicのボット、Claudeが行っていることを考えてみてください。昨晩友人と一緒にいて(これが私たちの楽しみ方ですが)、Claudeで直接退職計算機をコーディングしました。10分ほどかかりました。銀行明細書を取り、その人の残高のライングラフ、支出のバーグラフ、財務計画を作成し、その後、手元のデータに基づいて退職計算機をコーディングしました。
また、PhDを持つ人々が独自の洞察をこれらのモデルにトレーニング用に追加しています。基本的に彼らは自分が知っていることを書き留め、モデルがそれを吸収しています。そのため、GPT-4モデルからの大幅な改善が見られると言えます。
それについてはいくつかの考え方があります。多くのベンチマークで改善がありますが、データ汚染の問題もあります。アレックス・リスナーはアトランティック誌でデータ汚染の問題について優れた記事を書いています。また、「自社で試してみたが、実際にはそれほど改善されていない」という多くの研究も見てきました。
ベンチマークでは改善しています。一般的に改善しているのか?それほど明確ではありません。Val AIという企業が新しいベンチマークをリリースし、ワシントン・ポストが昨日それについて話していました。彼らは、複数の企業のSEC報告書から財務諸表に基づいてチャートを作成できるかなどを調査しました。これらのシステムはすべてそれを行うと主張していましたが、精度は10%未満でした。
この新しいベンチマークでの全体的な精度は50%でした。これらの新しいモデルはGPT-4よりも優れているでしょうか?かもしれません。しかし、それほど良くはありませんでした。人々は成功したときには気づくが、失敗したときにはあまり気づかない傾向があると思います。改善はありますが、人々が期待していた飛躍的な進歩はありません。
私たちは幻覚(ハルシネーション)の問題を解決していません。愚かな推論エラーの問題も解決していません。2022年の論文「ディープラーニングは壁に直面している」に戻ると、私は全く進歩がないとは言いませんでした。言ったのは、ある意味で異なるアーキテクチャを持つまで、幻覚の問題、推論の問題、計画の問題を抱えるだろうということです。
それはまだ真実だと思います。私たちはまだ同じ種類の問題に悩まされています。例えば、DeepResearchに論文を書かせると、それは好みを作り上げるでしょう。おそらく数字も作り上げるでしょう。実際に確認しましたか?
例えば、Grokのバージョン、DeepSearch(名前が似たようなものが多いですね)、それとも「DeepResearch」でしたか?これらの企業がDeepResearchという同じ名前を使わない限り、AGIが実現したとは思えません。みな全く同じ名前を使うのは本当に奇妙です。
Grokのバージョンで、私は例えば「デンバーの西にある主要都市をすべて挙げてください」と尋ねました。注意していない人には非常に印象的に見えるかもしれませんが、どれだけうまく機能しているか本当に知りたかったので確認したところ、モンタナ州ビリングスが抜け落ちていました。
見た目には良いリストでも、エラーがあるのです。これはよく起こります。その後、私はそれと奇妙な会話をしました。「ビリングスはどうなった?」と尋ねると、「2月10日あたりに地震があった」と言いました。私は地震学データをGoogleまたはDuckGoで確認しましたが、その日には地震はありませんでした。
それを追及すると、「エラーを謝罪します」などと言いました。私たちはまだそのような種類の問題を見ています。頻度は減っているかもしれませんが、それらはまだ存在します。そのような問題をまだ抱えています。ある程度の改善はあるかもしれませんが、人々が望んでいた全面的な飛躍的進歩はありません。
信頼性はまだ確立されていません。人々が気付かない微妙なエラーがまだたくさんあります。退職計算機について話したいなら、ウェブ上にはたくさんあります。これらのシステムにとって容易なケースは、ソースコードがすでにウェブ上にあるものです。
ケビン・ルースはこの例について話しました。彼は冷蔵庫の中を見て、どのレシピを作るべきかを教えるシステムを「バイブコーディング」したと言いました。しかし、そのアプリはすでにウェブ上にあり、ソースコード付きのデモもあります。既に行われていることをシステムに依頼すると、これらすべてのシステムで常にうまくいきます。
それは彼らの得意分野であり、再利用です。確かに、既にあるものを構築できますが、実世界でコーディングしたいなら、通常は新しいものをコーディングしたいでしょう。これらのシステムにはそれに関して多くの問題があります。最近の別の研究では、これらはコーディングには優れていますが、デバッグには優れていないことが示されました。
コーディングは戦いの中でほんの小さな部分にすぎません。本当の戦いはデバッグと時間をかけたコードの保守です。これらのシステムはまだそれを本当にはできていません。
しかし、検索機能によってこれらのボットはより信頼性が高くなっています。ウェブを検索できるようになり、今では実際の回答にたくさんのリンクを提供するようになっています。
私は毎日のように「参照文献を捏造した」という例を送られてきます。幻覚の問題が解決されたとは言っていませんが、私自身は使用します。素晴らしい研究アシスタントです。それがリンクを提供するとき、私はそれらの情報が不確かならば、一次情報源に行って読み始めます。
一次情報源をチェックするのは良いことです。私が最も心配しているのは、そうしない人々です。例えば、これらのシステムを使用して困った弁護士が数え切れないほどいることを私たちは見てきました。
数え切れないほどですか?私は一人しか聞いたことがありません。
いいえ、それよりずっと多いです。アメリカにいくつか、カナダにいくつか、ヨーロッパにも最近一つあったと思います。本当に数え切れないわけではなく、数えることはできますが、少なくとも十数件はあるでしょう。
これが進歩の終わりか、進歩の終わりに近いのか、あるいはまだ多くの進歩があるのかに関わらず、人々が思考をこれらのボットに外注することには本当に問題があるという点では、両者とも同意できると思います。
実際、Microsoftは批判的思考がこれらのボットの使用によって悪化していることを示す調査を行いました。それは驚くべきことではないでしょう。基本的にこれらのボットに依存し、批判的に見る方法を本当に知らない世代の子どもたちがいます。
以前は、基本的にウェブ上で見つけたゴミに依存する子どもたちが増えていました。チャットボットは基本的にウェブ上で見つけたゴミを合成しています。私たちは子どもたちに批判的思考スキルを教えていません。現在、多くの子どもたちにとって論文を書くという考えは「ChatGPTにプロンプトを入力し、少し編集して提出した」ということです。
そのようなやり方では、実際に考えたり書いたりする方法を学んでいません。これらのツールの多くは、その限界を理解している洗練された人々の手に渡ったときに最も効果的だと思います。
コーディングは実際に最大のアプリケーションの一つであり、それはコーダーがコードをデバッグする方法を理解しているからです。彼らはシステムを基本的にタイプと検索のために使用し、うまく機能しなければ修正できます。本当に危険なアプリケーションは、誰かが医学的アドバイスを求め、自分でデバッグできず、何かがうまくいかないような場合です。
では、これまでのあなたの発言をすべて考慮に入れて、あなたが私たちがどこに向かっていると考えているのかを理解しようと思います。
スケールに基づいてこれらのモデルを改善しようという動きがあったようです。それはMetaがLlama 4に使用した30万GPUクラスターかもしれませんし、イーロンがGrokのために構築した100万GPUセンターかもしれません。あなたが言っているのは、それはほぼ最大限に達したということですね。
最大限ではなく、収穫逓減が起きているということです。
私が言いたいのは、誰もそれより大きなGPUデータセンターを構築することはないだろうと信じているということです。何十億ドルもかかるものから収穫逓減が見られるなら、投資する意味がありません。
待ってください。人々が合理的だとは言っていません。おそらく、少なくとももう一度試みるでしょう。イーロンはおそらくGrok 3の10倍のサイズのものを構築するでしょう。それは巨大になり、環境に深刻な影響を与えるでしょう。
GPUだけでなく、データも問題です。データについては別途議論しましょう。
人々は実際に試みると思います。マサ(ソフトバンクグループの孫正義氏)はサムに投資したばかりです。ただ、そこから多くは得られないと思います。ゼロではないでしょう。特定のベンチマークではパフォーマンスが向上するでしょうが、非常に印象的になるとは思いません。幻覚や愚かなエラーの問題を解決するとは思いません。
私が言いたいのは、それは今日私たちが持っているものよりもずっと良くなるとは思えないということです。推論によってボットが今日よりも良くなるとは信じていないようですね?
彼らが行っているような種類の推論では、あまり良くなりません。
つまり、あなたは基本的に今日のAIが持っているもの、これがしばらくは生成AIであると言っているのですか?
去年の3月に予測を出しましたが、Twitterで確認できます。その予測には「今年はGPT-5は出ないか、出ても期待外れになるだろう」と言いました。
夏に出るはずでした。
それは去年の予測でした。2024年にはこれを見ないだろうと言いました。当時としてはかなり異論のある予測でした。
これはスーパーボウルの直後にGPT-4がリリースされるだろうという予測から数週間後でした。人々は本当に去年出ると思っていました。しかし出ませんでした。私はそれを正しく予測しました。
多くの企業から同様のモデルが大量に出てくる「渋滞」のような状況になると言いました。7〜10個程度と言ったと思いますが、それはほぼ正確でした。また、モートは存在せず、みんな同じことをしているので価格戦争が起こると言いました。それらすべてが起こりました。
今年、いわゆるGPT-5レベルに到達するかもしれません。常に先延ばしにされていますが。何らかの本当のイノベーションなしにそれ以上進むとは思いません。本当のイノベーションは来ると思います。
しかし、私たちは間違った道を進んでいると思います。ヤン・ルカンは「大規模言語モデルはAGIへの出口ランプだ」という考えを使いました。彼らはAGIへの正しい道ではないと。私は彼に同意します。または、彼が私に同意していると言えるかもしれません。私が彼より何年も前にそれを言ったので。
より広い考え方として、科学では時に間違いを犯します。最も興味深い例の一つは、かつて遺伝子はタンパク質でできていると考えられていたことです。20世紀初頭、多くの人々が「遺伝子はどのタンパク質でできているのか」を解明しようとしました。結果的に、それはタンパク質ではなく、今やDNAとして知られる粘着性の酸でした。
人々は15〜20年間、間違った仮説を調査していました。巨大なブラックボックスLLMは間違った仮説だと思います。しかし科学は自己修正します。最終的に、人々がさらに3000億ドルを投入してもそれが望む結果を得られなければ、結局は別のことをするでしょう。
あなたが予測しているのは、基本的に巨大な金融崩壊ですね。
そうです。LLMが消えるとは思いません。それらは有用ですが、評価額は意味をなしません。OpenAIが3000億ドルの価値があるとは思えません。ベンチャーキャピタリストは幸せになるために10倍にする必要があります。彼らが3兆ドルでIPOするとは思えません。
興味深いのは、OpenAIの評価額が最も意味をなすように見えることです。消費者向けアプリを持っているからです。もしあなたの言うことが正しく、スケーリングから本当に収穫逓減が見られ、これが基本的に現状であるなら、NVIDIAのような企業には本当に懸念があります。基本的にスケーリングの考えで成長してきました。
今年は3分の1下落しています。昨年は2.5兆ドルほどでした。彼らは本物の良い会社です。素晴らしいエコシステムを持っています。多くの価値があります。正確な数字を挙げたくはありませんが、彼らが下落したことも、まだ多くの価値があることも驚きではありません。
問題はこれです。次の反復、サムが次のGPU群に使うだろう100億ドルが深刻な結果を生まなければ、NVIDIAに打撃を与えるでしょう。なぜなら、同社の需要の多くはスケーリングが機能するという考えに基づいているからです。
OpenAIとNVIDIAの両方に複数の問題があります。まず、収穫逓減に直面しているように見えます。推論時間のコンピュートというトリックが本当に一般的な解決策だとは思えません。幻覚がなくなるようには見えません。そして、誰もが同じ魔法の公式を持っているように見えます。
みんな基本的に同じことをやっています。より大きなLLMを構築しています。みんなが同じことをしているとき何が起こるか?価格戦争が起きます。DeepSeekが登場し、OpenAIは価格を大幅に下げました。10〜20の異なる企業がすべて基本的に同じアイデアを持ち、同じことを試みているので、価格戦争にならざるを得ません。
誰も技術的なモートを持っていません。OpenAIはユーザーモートを持っています。より多くのユーザーを持っており、それが彼らが持つ最も価値のあるものです。彼らのAPIは価値が近いと言えます。「無価値」という言葉が正しいかどうかは分かりませんが、それほど価値はありません。
ChatGPTこそが彼らが本当に持っているもので、最も価値のあるブランド名です。また、現時点では最高のボットだと思います。
かもしれませんね。人々の意見は揺れ動きます。ある日はClaudeだと言う人もいます。私は長らくClaudeを支持していました。今はChatGPTを支持していますね。
私が起こると思うのは、リープフロッグ(蛙飛び)ですが、飛躍は以前ほど大きくなりません。GPT-4はGPT-3からの巨大な飛躍でした。GPT-4.1(命名規則についていけません)がGrok 3やClaude 3.7よりも優れていると仮定しましょう。すると人々はこちら側の部屋に走ります。
その後、Claude 3.8.1かなにかが少し良くなり、今度は一部の人々がその部屋に走ります。しかし、誰も多額の金額を請求できません。なぜなら進歩はより小さくなり、人々は「これはコーディング用、これはブレインストーミング用」などと言い始めるからです。
しかし、もう誰も「これは圧倒的だ」とは言いません。GPT-4が登場したとき、それは圧倒的でした。それに匹敵するものは何もありませんでした。このような種類のシステムが欲しければ、それを使っていました。それが私の記憶です。
ChatGPTやOpenAIの製品について、同じような敬意をもって「これらは単に優れている」と言及されるのを聞きません。Googleもまだこのレースに参加しており、価格で競争するかもしれません。Metaは無料で提供しています。人々はそれに基づいて構築しています。DeepSeekは、ChatGPTよりも優れた新しいものを持っていると聞いています。
真実かもしれませんし、そうでないかもしれませんが、モデル間の違いがますます小さくなっている時代にいます。
あなたがいつ間違っていたことを認めるのか、あるいは認めるかどうかを聞きたいと思います。
どのことについて?
前回あなたが番組に出たとき(2回出演していると思います。1回はブレイク・レモインと一緒に、1回は一対一で)、私たちは番組で言っていることの多くをあなたも言っていることが興味深いと思いました。AGIはマーケティングだということです。
AGIに到達しなくても、心配すべきことはたくさんあります。それは人々が話している嘘であろうと、これらのモデルを悪意のある目的に使用して内容を生成することであろうと。チューリッヒ大学の研究で、GPTの回答に基づいてRedditの人々を説得しようとしたことをご存知でしょうか?それはまだ多くの人々を説得しました。説得研究ですね。
認識していますが、読んでいません。
今、LLMの批評家であることは難しいように思えます。これらは非常に良くなっていますから。しかし、人々は「ゲイリー、あなたは間違っている」と言いますが、私は「これが私が実際に行った予測です」と答えます。
印刷物で実際にそれらをレビューしており、私が間違っていると言う人に、何が間違っていたのかを指摘するよう求めています。時々、人々は私の懐疑論を他の人の懐疑論と混同しているかもしれません。しかし、私が印刷物で述べたことを見ると、ほとんどは正しいです。
タイラー・コーエンは「あなたはすべてにおいて間違っている。いつも間違っている」と言いました。私は「タイラー、何か指摘できますか?」と言うと、彼は「あなたは書きすぎていて、できない」と言いました。
私はあなたの一部を見て、時にはAI産業に対して巨大な立証責任を置いているように見えることがあります。「AGIは今年来る」というような極端な発言をする人々を取り上げて「こいつらは嘘つきだ」と言うこともありますが、あなたの核心的な主張は正しいと思います。多くの人が間違っています。
私はお金を賭けることを提案し、イーロン・マスクに100万ドルを提案しました。基準を提示しました。2022年5月に彼に10万ドルのベットを提案し、後に100万ドルに引き上げました。Twitterで基準を提示し「これを提案します。これは理にかなっていますか?」と聞きました。
当時、Twitterのほぼ全員がそれは妥当だと言いました。人々は私がゴールポストを動かしたと非難しますが、私のゴールポストは同じです。2014年にニューヨーカー誌に理解力の課題について書いた記事があります。それを堅持しています。それは私のAGI基準の一部です。
同じ基準でマイルズ・ブランデージとベットをしました。彼は実際にベットを受け入れました。しかし重要なのは、2022年にそれらを提示したとき、ほぼ全員がそれらは合理的な基準だと同意していたことです。
「もし私の理解力の課題を克服できるなら(例えば、映画を見て、いつ笑うべきか知り、何が起きているのか理解する)、同じことを小説に対してできるなら、英語から数学に翻訳して形式的に検証できるものにできるなら、ランダムなキッチンに入ってロボットを遠隔操作して夕食を作れるなら、10,000行のバグのないコードを書いてデバッグまでできるなら、5つのうち3つができれば、それをAGIと呼ぼう」と言いました。当時、皆はそれでいいと言いました。
しかし今、人々は後退しています。タイラー・コーエンは「03はAGI」だと言いました。どんな基準でですか?それは無理があると感じました。安易でした。彼は自分自身が基準だと言いました。彼にとってAGIに見えるというのです。
しかし、人々は03の多くの問題点を指摘しています。03をAGIと呼ぶのは馬鹿げていると思います。私はそれをAGIとは呼びません。
先ほど「ゲイリー、あなたは間違っている」と言いましたが、その後、私が実際に正しいことをいくつか挙げました。
「ゲイリー、あなたは間違っている」とは言いませんでした。「あなたが間違っていると認める点は何か?」と尋ねました。
私が間違っている点を明確にさせてください。一つ明確にしておきたいのは、AIが不可能だと言っているように受け取る人もいますが、それは私ではありません。実際、私はAIを愛し、それが機能することを望んでいます。ただ、異なるアプローチを取ってほしいのです。
古典的AIの要素(明示的な知識、形式的推論など)を持つニューロシンボリックアプローチを取ってほしいと思います。これらはヒントンのような人々が軽蔑してきたものですが、デミスがアルファフォールドで非常に効果的に使用したようなものです。それについて話すこともできます。
AIに到達するかどうかについての質問に対する答えは、どのようにそこに到達するかによります。私はかなり特定の推測をしてきました。純粋なLLM(大規模言語モデル)では到達しないだろうと推測しました。
では、実際に機能するAIに到達したとき、私が間違っていたと認めるでしょうか?それはどのように機能するかによります。
そして、それは明らかです。数年後にこれを振り返るかもしれません。もし純粋なLLMで、あるいはもう一度のスケーリングで、私が設定した基準に基づいてAGIに到達したら、私は間違っていたと認めざるを得ないでしょう。
少し休憩を取って、現在のリスクについてもう少し話し、あなたのツイートをいくつか読んで展開してもらいましょう。
(休憩後)
Big Technology Podcastに戻ってきました。AI懐疑論者のゲイリー・マーカスと一緒です。ゲイリー、質問があります。
前回あなたが来たとき、AIがAGIの閾値に達する必要がなくても、懸念すべきものだという話をしました。
その通りです。
多くの焦点は幻覚(ハルシネーション)にありました。私たちは少し意見が分かれていると思います。私はそれらが大幅に改善されたと思いますが、あなたはまだ大きな問題だと考えています?
両方とも真実かもしれませんね。
今は置いておきましょう。私が最も懸念しているのはウイルス学です。AIが今やウイルス学の博士レベルに達したことを示す研究が出ました。人工知能安全センターのダン・ヘンドリックスがここにいて、AIが今やウイルス学者にウイルスの作成や機能強化の方法を案内できると話しました。
あなたが言及したDeepSeekのようなAIプログラムが誰でも利用でき、かなり賢く、ガードレールなしやガードレールが不十分なまま(特にオープンソースの場合)リリースされ始めているのを見ています。
あなたは何を心配していますか?これが核心的な懸念なのか、他にもありますか?
実際には複数の懸念があり、異なるアーキテクチャと異なる使用方法から生じる異なる懸念があります。「愚かな」AIも危険になりえます。愚かなAIが電力網のような物を制御する権限を与えられ、悪い決定をすれば、それはリスクとなります。
悪い自動運転車システムを100万台の車に導入すれば、多くの人が死ぬでしょう。自動運転車で多くの人が死ななかった主な理由は、それらがそれほど多くないからです。現時点ではそれらは実際に超安全というわけではありません。
使用場所を制限したり、あまり賢くない状況に置かないようにしたりしています。つまり、愚かなAIも問題を引き起こす可能性があります。
超賢いAIは、もし望めば、私たちを檻に閉じ込めるかもしれません。それが望む可能性については議論する必要がありますが、そこには確かに懸念があり、真剣に受け止める必要があります。
その間にあるものもあります。例えば、ウイルス学の問題は、全体的にはそれほど賢くないAIですが、特定のことができます。悪意ある行為者の手に渡ると、それらのことができ、悪意ある行為者が問題を引き起こすウイルスを作るのを助けるツールが現在か近い将来に存在すると思います。
それはAGIに到達しなくても正当な懸念だと思います。現在、愚かなAIは問題です。より賢いAIは、AGIでなくても別の問題を引き起こす可能性があります。もし超知能に到達すれば、それは別の問題を引き起こすかもしれません。
異なる明るさと異なるスキルを持つ人間が悪いことをしようと選べば、異なる種類の害を引き起こす可能性があります。
オープンソースに対するあなたの見解はどうですか?
心配です。悪意ある行為者はすでにこれらを使用しています。主にミスインフォメーションに使用されています。どれだけ生物学に使用されているかは分かりません。しかし彼らはそうするでしょう。テロのようなことをしたい国家行為者はそれを行うでしょう。
オープンソース化全般を心配しています。Metaが基本的に世界全体のためにその決定を下せることは良くないと思います。もっと政府の監視があるべきでした。科学者はもっと議論に貢献すべきでした。
しかし今、それらの種類のモデルはオープンソースです。リリースされました。そのジニー(魔神)を元に戻すことはできません。時間が経つにつれ、モデルが良くならなくても、私たちは新しい使用方法を見つけます。それらの新しい使用方法のいくつかはポジティブで、いくつかはネガティブでしょう。
私たちはまだこれらの技術が何をできるのかを探索しています。人々は疑わしい方法でお金を稼ぐ方法や、様々な理由で害を与える方法を見つけています。それらのツールを非常に広範に提供することには問題があります。
一方で、過去3年間で学んだのは、閉鎖的な企業はかつてのような倫理的な行為者ではないということです。Googleは有名に「悪をなすな」と言っていましたが、それをプラットフォームから削除しました。
Microsoftはすべてがついて倫理に関するものでしたが、Sydneyが出てきたとき「これを取り下げません。続けます」と言いました。
実際にはSydneyは廃止されましたよね?Kevin Rooser(Kevin Roose)の妻を奪おうとした、あの変なAIです。
彼らはその機能を縮小しました。しかしある意味では続けました。OpenAIは「私たちは公共の利益のための非営利団体です」と言いました。今では必死に営利団体になろうとしており、公共の利益には特に関心がなく、お金に関心を持っています。
監視会社になるかもしれません。
広告側の話ですね。基本的に、多くのユーザーがいて、人々があらゆる種類のものを入力するため、多くのプライベートデータを持っています。それを収益化する以外に選択肢がないかもしれません。
その兆候を見せています。NSAにいたナカソンを雇いました。ウェブカム企業の株を購入し、最近ソーシャルメディア企業の構築を計画していると発表しました。彼らはあなたの非常にプライベートなデータを気にかける誰かに売る道を歩んでいるように見えます。
心配なのは、Facebookに与えたどんなデータでも、Facebookのデータに関する議論は少し馬鹿げていると思っていました。なぜなら、Facebookにそれほど多くの情報を与えているとは思わなかったからです。しかし、OpenAIには多くの情報を与えています。多くの人がセラピストのように扱っています。
私はセラピストとしては使っていませんが、多くの仕事を入れています。Carissa Vélizによる「プライバシーとパワー」(正確なタイトルを少し忘れました)という素晴らしい本を読みました。
彼女はGrindr(ゲイの人々のためのアプリ)からデータを取り、人々を恐喝する例を挙げていました。私たちの社会ではまだ、ある場所では受け入れられていても、他の場所ではゲイであることをカミングアウトすることを望まない人がいます。
Grindrのデータで人々を恐喝した例があります。何が起こるか想像してみてください。人々はChatGPTに非常に具体的な性的欲求や、犯した犯罪を入力しています。犯したい犯罪も入力しています。
政治的風土において、共謀罪が以前とは異なる扱いを受ける可能性があります。単にChatGPTに入力するだけで、誰かが国外追放される可能性があります。誰にもわかりません。
個人的にはそのシステムを使用しません。なぜなら、真意は明らかだと思うからです。ビジネス顧客には約束をしていますが、一般消費者には約束していません。彼らはそのデータを好きなように使うことができ、おそらくそうするでしょう。なぜなら、それが彼らのお金を稼ぐ方法だからです。
別の言い方をすると、私がこれまで主張してきたことが正しいとして、彼らがみんなが夢見ていたGPT-7レベルのモデルを本当に作ることができず、本当にAGIを構築できなかったとします。しかし彼らはこの信じられないほどのデータの宝庫を持っています。彼らは何をするでしょうか?AGIを作れないなら、そのデータを売るでしょう。
多額のお金を受け取ると、常にそのお金を何らかの形で返さなければならず、それが運営方法を変えると私はいつも思っていました。
その通りです。23andMeを見てください。彼らは倒産し、今そのデータは販売中で、23andMeのデータに何が起こるのかわかりません。
この点についてはあなたが間違っていることを願います。正確にこの歴史があるので、間違っているとは言っていません。ただ間違っていることを願っています。これは大変なことになりますから。
私も間違っていることを願います。多くのことについて間違っていることを願っています、ゲイリー。もしFacebookがデータで行っていたことについて人々がそれほど動揺したなら、彼らが行き過ぎると、大きな社会的反発があるでしょう。
かもしれませんね。時々人々はこういったことに順応します。人々がすべての情報をFacebookに与えることをどれほど喜んでいるかに驚いています。私はもう使っていません。
あなたはこのツイートを引用リツイートしましたね。「ユーザーエンゲージメントのためにAIを最適化するという動きは、単なるシリコンバレー脳の指標追いなのか、それとも’欠乏のない社会の神を作る’から’より悪いTikTokを作る’への実際のビジネスモデル転換なのか?」これはまさに私たちが話していることです。それがピボット(方向転換)かもしれないということですね。
その通りです。それは他の誰かのツイートで、私は「基本的にこのことを言ってきた」と言いました。
あなたはまた「静かな部分を大声で言う。GenAIのビジネスモデルは、ソーシャルメディアと同様に、監視とハイパーターゲティング広告になるだろう」とも書きました。
その通りです。私たちはちょうどそれについて話していました。私が引用リツイートしたのはPerplexityのCEOであるアラヴィンド・シヴァス(発音が正しければ)からのものでした。彼は基本的に「静かな部分を大声で言っている」と私は言いました。彼は基本的に「これらをハイパーターゲティングに使うつもりだ」と言いました。
あなたはまた、ジョンソン・エンド・ジョンソンのような企業が「GenAIがその約束を果たさないことにようやく気づくだろう」とも言いました。撤退した企業はありますか?単にジョンソン・エンド・ジョンソンを例として使っているのですか?
それはウォール・ストリート・ジャーナルの記事に基づいていました。イーロン・マスクの奇妙な考えのせいでリンクを含めるのを忘れたかもしれません。
イーロンはリンクを入れる必要があります。
そうですね。とにかく、私が言及していたのはウォール・ストリート・ジャーナルの最近出た報告で、J&Jが基本的に言ったことを言い換えると、彼らは多くの異なる分野でGenAI(生成AI)を試し、いくつかは機能したが多くは機能せず、機能したもの(カスタマーサービスなど)を続け、他のものはやめようとしているということでした。
1年半前に歴史を振り返ると、GenAIが従業員ができるすべてのことを基本的にできると考えられていました。J&Jやいくつかの企業が発見したのは、それは本当ではないということです。従業員がする多くのことをできますが、通常は単一の従業員がするすべてのことをできるわけではありません。
カスタマーサービスの振り分けには合理的に良いかもしれませんが、例えば注意深い財務保護を作成するのには必ずしも良くないかもしれません。
ゲイリー、あと5分しかないので、前半で言及した「AGIへの道筋」についてもう少し説明してください。AIに詳しくない人にも理解できるように、できるだけ基本的な方法で説明してください。
多くの人がダニエル・カーネマンの『ファスト&スロー』を読んでいるでしょう。彼はそこでシステム1とシステム2の認知について話しました。システム1は速く、自動的で反射的です。システム2はより慎重で、より推論に近いものです。
生成AIを支える神経ネットワークは基本的にシステム1の認知のようなものだと主張します。速く、自動的で、統計的に駆動されていますが、エラーも起こしやすいです。本当に熟考するわけではなく、自分の作業を常識チェックできません。私たちはそれをかなりうまくやってきました。
しかしシステム2は、知識を明示的に表現し、それについて推論できる古典的なAIに近いです。コンピュータプログラミングに近いものです。これら二つの学派は1940年代から存在していますが、社会学的・経済的理由で非常に分離していました。
一方を研究するか、他方を研究するかで、大学院生や助成金を争ってきました。そのため両者の間には大きな敵意がありましたが、実際にはお互いを補完しています。どちらも単独では機能していません。
古典的なAIは失敗しました。人々は専門家システムを構築しましたが、常に例外があり、本当に堅牢ではありませんでした。大学院生に例外を修正させていました。今、私たちは新しいシステムを持っていますが、これらも本当に堅牢ではありません。そのためOpenAIはケニア人やPhD学生などを雇って、エラーを修正しています。
システム1の利点はデータから非常によく学習することです。欠点は抽象化があまり得意ではないことです。大規模言語モデルとそのようなアプローチ(トランスフォーマー)はとても学習が得意ですが、抽象化はあまり得意ではありません。
何十億もの例を与えても、乗算とは何かを本当に理解することはなく、他の抽象的な概念は確実に理解しません。古典的なアプローチは乗算のようなものには優れています。計算機を書けば決して間違えませんが、同じ広範囲のカバレッジはなく、新しいことを学ぶことができません。
乗算を組み込むことはできますが、新しいことをどう学ぶのでしょうか?古典的なアプローチはそれに苦労してきました。そこで両者を結合する必要があると思います。これを私はニューロシンボリックAIと呼んでいます。これは何十年も私が支持してきたものです。
ここ数年、皆が生成AIに執着していたため、そのための資金を調達するのは難しかったと思います。しかし今、彼らは収穫逓減を見ているので、投資家は代替案を試すことにより開放的になっていると思います。
また、アルファフォールドは実際にニューロシンボリックモデルです。そして、それはおそらくAIが今までに行った最良のものです。
タンパク質のフォールディング、タンパク質の三次元構造を核酸のリストから解明することですね。
これを実現するために資金を調達する予定ですか?
それに非常に興味があります。そう言っておきましょう。
孫正義さん、もしあなたのお金を使いたいなら。いや冗談です。
彼と話していますか?
この特定の瞬間ではありません。
孫さん、もし見ているなら、わかりません。助けようとしているだけです。
素晴らしい。ゲイリー、あなたのSubstackはどこで見つけられるか教えてもらえますか?AIの状態についてのあなたの長い作品を読みたい人のために、どこに行けばいいですか?
私の最近の二冊の本を読むといいかもしれません。『Taming Silicon Valley』はAIをどう規制するかについてのものです。『Rebooting AI』は2019年のもので少し古いですが、今日でも直面している常識と世界モデルの問題を予測していると思います。
ほぼ毎日の更新については、Substackを書いています。無料ですが、サポートしたければお金を払うこともできます。それはgary marcus.substack.comです。
私は購読者です、ゲイリー。番組に来てくれてありがとう。
番組に呼んでくれてありがとう。またですね。
またですね。これからも続けましょう。いつもあなたのAI世界に対する見方を聞くのは素晴らしいです。
いつも私たちの会話を楽しんでいます。呼んでくれてありがとう。
こちらこそ。
皆さん、視聴ありがとうございました。金曜日には今週のニュースを分析して戻ってきます。それまで、また次回のBig Technology Podcastでお会いしましょう。

コメント

タイトルとURLをコピーしました