GPT-5がついに登場…しかし、あなたが思っているものではない

GPT-5
この記事は約32分で読めます。

この動画は、GPT-5の発表直後にBlack Hatカンファレンスで行われたAI専門家ガリー・マーカスとのインタビューである。GPT-5が期待されていたような革命的な進歩ではなく漸進的な改善に留まったこと、AIエージェントやバイブコーディングに潜むセキュリティリスク、ハルシネーション問題の根本的原因、そしてAI業界の投資バブルについて詳しく議論している。マーカスは四半世紀にわたってハルシネーション問題を予測し続けており、現在のLLMアーキテクチャでは根本的な解決が困難であると主張している。

GPT-5 Just Dropped… And It’s NOT What You Think
To try everything Brilliant has to offer for free for a full 30 days, visit or scan the QR code onscreen – You’ll also g...

GPT-5発表への現実的な評価

われわれはそれをやる方法を知らん。人々が今欲しがってるエージェントを本当に支えるためには、われわれが持ってるものよりもはるかに信頼性が高い、非常に賢いシステムが必要やろうな。それで、われわれは未来の先取りプレビューみたいなもんを見てるわけやけど、これは1850年に車の先取りプレビューを見るようなもんで、4台に1台は顔の前で爆発するんや。そやから、他の人にテストドライブさせといた方がええやろう。そしたらガソリンが爆発性やということや、給油するときは車に乗ってたらあかんということとかを学ぶやろうからな。これは人々が最終的にボートで学んだことやし。

Appleは実際に約1年前、多分今でもやと思うけど、システムプロンプトに「真実を言え、でっち上げるな」って入れてたんや。そう、ハルシネーションするなってことやな。それでも結局やったんやろ?これは簡単なバージョンのアライメントや。

俺が「でっち上げるな」って言うとするやろ。これを俺のところで働いてるインターンや従業員に言えるやん。もし俺のところで働いてる従業員にそれを言うて、その人がそれを続けるなら、クビになるわ。その通りや。でもLLMの場合、クビになる代わりに、さらに5000億ドルの資金提供を受けるんや。狂ってるで。

皆さん、こんにちは。デヴィッド・ボンブルです。Black Hatから非常に特別なゲストとお送りしてます。ガリー、ようこそ。

お招きいただいてありがとうございます。お会いできて嬉しいです。私のチームがあなたが共有してくださったことについてたくさん教えてくれましたし、私もあなたの動画などを見させていただいてました。AIについて現実的な見方を提供していただけるということで、番組に出ていただけて嬉しいです。でも、そこに入る前に、大きなニュースが飛び込んできました。その通りです。

私が来る文字通り数分前に、GPT OpenAIがGPT-5を発表しました。GPT-5の公式発表をしたんです。そして、ほとんどの人にとってはおそらく失望的やったと言わなあかんな。皆、GPT-4が出てからずっとGPT-5について話してる。それは32ヶ月前のことや。そして実際、ビル・ゲイツは、計算が正しければ、4年前、いや3年前にGPT-4のプレビューを見たんや。3年前やな。

それ以来、皆は「うわー、GPT-5は素晴らしいものになるだろう」って言い続けてる。実際、俺はそれについてツイートしたばかりや。マイクロソフトのCTOであるケヴィン・スコットとの写真で、GPT-3が小さな海の生物の小さな絵があるんや。小さなクジラやと思う。そしてGPT-4は少し大きくて、でも明らかに大きいんや。

そして、ケヴィン・スコットが約1年前に作ったこの図では、GPT-5はこの巨大なザトウクジラなんや。そして俺がずっと言ってきたことは、これは本当にこの素晴らしいザトウクジラにはならへん。他のシステムのようになって、少し良くはなるけど、大幅には良くならへんということや。そして、それがわれわれが見たことやな。GPT-5は多くのベンチマークで良くなってる。

今日のプレゼンテーションで一番大きかったことは、プレゼンテーションの開始から数分で既にやられてしまったことや。彼らはこれらすべてのベンチマークを見せて、これで良くなった、あれで良くなったと言った。サム・アルトマンはこれが史上最も賢いモデルやと言うたけど、彼らはフランソワ・ショレのARC-AGI2を報告しなかった。これは多くの人が注目するベンチマークで、6ヶ月前のo3デモでは注目してたんや。言及しなかった。まあ、推測してみると、それは1、2ヶ月前に出たGrok-4にも勝てへんのや。

それで、われわれは指数関数的進歩についてずっと聞かされてるこの話があるんや。Twitterで知り合いの人が今日投稿してて、もう指数関数的進歩について聞きたくないって言ってた。これは熱狂的で、ハイプを信じてて、幻滅した人やな。そして多くの人がゆっくりと、自分たちが商品の請求書を売りつけられてたことを理解し始めてると思う。

各モデルが前のものより少し良くなるって言うのは一つのことやな。まあ、当然そうなるやろ。モデルに10億ドル費やしたんやから、投資に対して何らかのリターンを得るべきや。そう願ってるわけやな。でも、それはこれらのものがAGI、汎用人工知能であることを意味するわけではない。この新しいモデルは、絶対にAGIではない。この一番速いものでGrokにも勝てへん。ここには漸進的な進歩がある。われわれが約束されてきたような、この巨大なザトウクジラの飛躍のようなものは何もない。

現実とハイプの乖離

このビデオのスポンサーであるBrilliantに感謝します。忙しいスケジュールでも毎日新しいことを学びたいですか?そのためのアプリがあります。それがBrilliantプラットフォームです。

スマートフォンにアプリをインストールすることでBrilliantプラットフォームにアクセスでき、どこにいても自由に学習できます。電車で通勤中でも、ちょっとした空き時間があるときでも関係ありません。Brilliantアプリを使えば、ほんの数分の空き時間があるときに、一口サイズの間隔で何かを学ぶことができます。

明日には何を見たかさえ覚えていないような無意味なコンテンツを見るのではなく、むしろその時間を何かを学ぶことに費やしましょう。でも、学習において一貫性を保つことも本当に重要です。毎日少しずつ学ぶのです。そしてBrilliantはそのアプリでこれを手助けしてくれます。

例として、Python with functionsコースでPythonプログラミングスキルを構築できます。基礎から始めて、関数への簡単な紹介をします。そして、タプル(またはtupilsがお好みなら)について、関数をデバッグする方法、関数の依存性とは何か、そして関数をどのように構成すべきかを学びます。関数の複数の入力についても学びます。

そしてBrilliantは、一度に一日ずつ大きな学習目標に到達できるよう、さらに先に進むことを促します。そして出来上がりです。一貫した学習がすべてスマートフォンのアプリに組み込まれています。

Brilliantが提供するすべてを試してみたい場合は、brilliant.org/davidbumbleにアクセスするか、画面上のQRコードをスキャンしてください。年間プレミアム購読も20%オフになります。必ず動画の説明にある私のリンクを使って、今日新しいことを学び始めてください。教育は人生を変えます。毎日少しずつ勉強するだけで、あなたの人生を変えることができるのです。

そうやな。俺はハイプをずっと聞いてるからな。AIこれ、AIあれ。みんなあらゆる製品にAIを入れてるけど、俺にはただの多くのハイプに見えることが多いんや。つまり、本当の進歩はある。だから、現在のシステムは3年前のシステムより確実に良くなってる。

でも、ハイプはこれがあなたのすべての問題を解決するというようなものや。現実にはそれが有効な文脈がある。この会議で学んだことは、それが有効な最大の文脈であるコーディングに実際は巨大な欠陥があるということや。だから、この1年間みんながエージェントについて話して、どれだけ素晴らしいかを語ってた。

そして俺はずっと「ちょっと待て」と言ってた。それらは欠陥があるやろう。なぜなら複数のステップがあるからや。LMを使った個々のステップは実際にリスクなんや。何かが間違った方向に行く。だから、それらを組み合わせると深刻な問題が出てくる。

セキュリティ脅威とプロンプトインジェクション攻撃

そして、ここで2つの講演があった。1つはNvidiaから、もう1つは今朝ネイサン・ハミルからのもので、プロンプトインジェクション攻撃と呼ばれるこれらのものが、これらのシステムを完全に座り込みのカモにすることを示してた。だから、もしあなたがこれらのいわゆるレベル3エージェント(Nvidiaの用語やけど)の1つを使うなら、それはコードを書く。ウェブに出て行く。例を探す。

そしてそれらの例は、ウォータリングウェルみたいなものと呼ばれてると思うけど、ひどいことをする悪いコードで満たされてるか、満たされる可能性がある。だから彼らは基本的にライブデモ、完全にライブではないけどデモの録画を見せて、システムにこのコードを作ってくれと頼むと、次の瞬間には誰かが基本的に彼らのシステムをコントロールしてて、リモートコード実行をしてた。これは基本的にあなたに起こりうる最悪のことやろ?

そして彼らはこれを行う方法を1つではなく、十数種類の異なる方法を見せた。そしてそれらの方法のそれぞれが実際には巨大な攻撃面なんや。だから、本質的に、システムに吸収させることができるあらゆるコードが攻撃面になる。だから、ここには巨大な問題がある。

一つの考え方として、われわれはAIが安全で安心、役に立つなどであることを望んでる。それは、われわれがそれに指示を与えることができることを意味する。われわれはそれに物事を話したくない。だから、この講演で皮肉な暗いユーモアの意味で最も面白かったのは、誰かがコーディング用の基本的にシステムプロのユーザープロンプトに「安全なコードのみを書け」と入れたことや。

システムはそれが実際に何を意味するのか全く分からへん。それは、システムに「この銀行取引をやってくれ」と言うて、システムが「任せて」と言うけど、実際にはあなたのパスワードを知らないからできないのと同じや。それはただ人々が言うことをおうむ返ししてるだけで、もしあなたが「安全なコードを書いてるか?」と聞いたら、書いてると言うかもしれないけど、現実は書いてない。

それは安全なコードが何かについて十分に深い概念的理解を持ってない。そして同じことがあらゆる分野で言える。だから、人々のデータベースを削除したりするのを見てきた。

そうやな、それを言ってくれて嬉しいわ。なぜならわれわれはBlack Hatにおるからな。そして俺の大きな懸念はサイバーセキュリティの部分なんや。だから、エージェントについて言及してくれて嬉しい。なぜなら、エージェントがすべてを自律的にやってると言われてるなら、彼らは安全なコードを書いてない。つまり、攻撃者にとっては楽園やな。

多分20年後には、エージェントは人間よりもはるかに良い本当に素晴らしいコードを書くやろうけど、エージェントが実際に安全ではないコードを書く、最高のコーダーができるほど良くないコードを書く移行期間にしばらくいることになる。

部分的には、最高のコーダーは理解してないランダムなリポジトリからすべてを取ってくるようなことはせず、彼らが良いなら使ってるコードを理解してるからや。つまり、悪いコーダーは常に問題やったけど、良いコーダーはメモリオーバーフローエラーが何かについて概念的な理解を持ってて、難読化されたコードの一部を見たら、「これは入れへん。これが何をするか分からん」って言う。

それは桁の束に見える。なぜなら難読化されてるからや。そして彼らはこのコードを使わない方が良いと知ってる。でも、これらのシステム、これらのエージェントシステムは何を使うべきかを本当に知らない。だから、非常に多くの脆弱性がちりばめられてる。

そして、これらのシステムを使って「ねえ、Unicodeで太字に翻訳する小さなことのためのコードを書く方法はある?」みたいな小さなことだけに使うなら、それは調べることができる。以前はStack Overflowで調べることができた。今はChatGPTやClaudeなどを使ってそのコードを見つけることができる。それは大丈夫や。それは俺が言うフルエージェンシーのことではない。

フルエージェンシーは「俺のコードにバグレポートがある。それを修正してくれ」みたいなことや。それは俺が人間の目でチェックできる小さなコードを見つけることではない。それは多くの自律性をシステムに任せるようなことや。そしてその自律性が入ってきたときに本当に問題が出てくる。

ミコ・ヒッポンにインタビューしてたのを知ってるけど、名前を正しく言いたい。昨日彼の講演を見たんやけど、彼の本のタイトルは何やったっけ?「賢くすれば脆弱になる」みたいなことやったかな。

「If It’s Smart, It’s Vulnerable(賢ければ脆弱)」やな。

そうや、「If It’s Smart, It’s Vulnerable」。まあ、それはこの状況では星印付きで本当やな。そしてこれらのものは本当に賢くないけど、力を与えられてるんや。本当に「自律的なら脆弱になる」ということやな。そして脆弱性の一部は愚かさから来てる。

だから、例えば、誰かが白い背景に白い文字で何かを書いたら、それはおそらく実際に悪いニュースやということを理解してない。おそらくあなたのシステムから隠すためにそうしたんやろう?彼らは本当にそれを理解してない。そして人々はこれやあれに絆創膏を貼るやろうけど、コードを攻撃する方法は非常にたくさんある。

もしあなたが俺のコードについて話してるなら、俺は子どもたちを楽しませるためにビデオゲームを書いてるから、おそらく誰も俺を狙いにこないやろう。でも、国防省の物とかについて話してるなら、誰かが侵入したがってて、侵入する多くの方法を見つけることができるやろう。

つまり、あなたがよく知ってるように、サイバーセキュリティの状態は既に良くなかったのに、これの結果としてはるかにはるかに悪くなるやろう。

あなたはエージェントについて言及したけど、バイブコーディングについても話してると思う。それもわれわれが話してることやな。

だから、バイブコーディングはエージェントを使う。だから、バイブコーディングは基本的にこれの対象やな。人々はこのバイブコーディングをやってるときに異なるツールを使って、バックグラウンドで何らかの度合いの自律性を持つエージェントがある。

Nvidiaの講演で言及されたことの一つは、autoinstallか何か、オプションの名前を忘れたけど、基本的に切り替えることができるものが実際にあるということやった。基本的にシステムにコードを書かせて、パッケージなら、それをダウンロードして、あなたのためにコードを実行する。それはおそらく最悪のことで、今はバイブコーディングプラットフォームを作ってる人々は少なくともそれを切り替えるオプションを提供してるか、あなたの会社全体に対してかもしれない。

でも、ラスベガスにいるのはスロットマシンのようなもので、人々はハンドルを引き続けて、引き続けて見つめるやろう。だから、そのオプションが切り替えられてても、「このパッケージをインストールしますか?」みたいなものをたくさん受け取るやろう。そして彼らの目は曇るやろう。

彼らは速く動きたいからや。なぜならコーダーはどれだけのコードを書くかで報酬を受けるからや。だから、autoinstallされるかどうかに関係なく、結局これらのパッケージをインストールすることになるやろう。そして理解してない外部からコードをインストールするときに問題が起こる。

コメントの中にコードがあった別の例があって、画面の右側に隠されてた。だから、ユーザーは画面の右側のこのコードに気づくことさえない。こちらを見てて、あちらにあるんや。だから、非常に多くのものが入ってくる。そうや、その多くはバイブコーディングの文脈にある。

エージェントにそんなに多くの力を与えて私たちの生活を運営させたいというのは驚きやな。だから、この質問をしなければならない。われわれはそれに対して準備ができてないんや。それは我々が志すべきことやと思う。いつかはそれを望むやろう。つまり、誰かを雇う代わりに、これをやるだけならお金を節約できるからな。

多分それは速いかもしれない。彼らがどのタイムゾーンにいるかを心配する必要がない。それを望む理由はある。でも問題は、今我々がこれらのものを構築する方法を知っている唯一の方法がLLMを使うことやということや。そして大規模言語モデルは本質的に欠陥がある。ハルシネーションをする。奇妙な推論エラーをする。

コードをハルシネーションすることを想像してみてくれ。そして実際に一部の人々がそれを脆弱性として調査してる。ハルシネーションが何になるかを推測することができる。攻撃的なコードを明確に入れる代わりに、あなたが望むものになるハルシネーションがあるのに十分似たコードを入れる。それに対してどうやって守るんや?

ハルシネーション問題の根本的原因

われわれはそれをやる方法を知らん。人々が今欲しがってるエージェントを本当に支えるためには、われわれが持ってるものよりもはるかに信頼性が高い、非常に賢いシステムが必要やろう。それで、われわれは未来の先取りプレビューみたいなもんを見てるわけやけど、これは1850年に車の先取りプレビューを見るようなもんで、4台に1台は顔の前で爆発するんや。

そやから、他の人にテストドライブさせといた方がええやろう。そしたらガソリンが爆発性やということや、給油するときは車に乗ってたらあかんということとかを学ぶやろうからな。これは人々が最終的にボートで学んだことや。

われわれは非常に初期の段階にいて、危険がある。ここでの危険は誰かが直接死ぬということではないけど、電力グリッドや原子力グリッドなどを制御する悪いコードがあるために、人々が間接的に死ぬ可能性がある。

そして、データベースが削除されたり、誰が知ってるかわからないもので書き換えられたり、情報が我々の敵に渡ったりするやろう。だから、車の爆発の完璧な比喩ではないとしても、多くの現実の危険がある。たくさんの問題が起こるやろう。

今、あなたはハルシネーションという言葉を言及した。あなたの本でそれについて言及してなかったっけ?

そうや、実際に俺はハルシネーションのアイデアを思いついたと思う。これは2001年の俺の本『The Algebraic Mind』や。そして俺は今われわれが直面してることの大部分を、神経ネットワークアプローチに対する課題が何かという観点で本当に示したと思う。

だから俺は学位論文で初期の神経ネットワークを扱ってた。そして、これは俺の学位論文から発展したものやけど、俺の学位論文は約8年前やったが、当時人々が構築してた神経ネットワークの探索から発展したものや。

そして俺はそれらに対して実験を行い、それらに関する問題を発見した。そして、本当にハルシネーションを予期した小さな一節がある。俺は叔母のエスターが宝くじに当たる例を出した。まあ、彼女が当たってたらよかったんやけど、仮定では叔母のエスターが宝くじに当たって、それを神経ネットワークに教える。

でも神経ネットワークは誤って、叔母と何らかの特性を共有する残りの15人のうち11人に宝くじの当選を一般化してしもた。だから俺は続けて、この種の過度の一般化は、われわれがここで話してる種類の自動的一般化の避けられない欠点やと言った。

それは基本的に2001年にハルシネーションの問題を指摘して、それは避けられないと言ってた。われわれがこれをやって、他のことをやってない限りはな。そして何か他のことについて話すことができる。

そうやな、そうしてほしいわ。なぜならLLMはなぜハルシネーションするのかという俺の質問があるからや。

彼らがハルシネーションするのは、俺が話してる自動的過度一般化のためや。十分に明確に説明してないかもしれないけど、彼らがやってたこと、そして今でもやってることは、分散表現と呼ぶものを持つことや。だから、各個人のための単一のデータベースレコードを持って、それからそれらの人々についての事実を持つ代わりに、神経ネットワークがやることは、それが役に立つときは役に立つけど、害になるときは害になるということやけど、すべての情報を小さな情報のビットに分解することや。

だから、この特定のシステムでは叔母のエスターのための独特のノードはなくて、むしろエスターは彼女が他の人々と共有する特性としてコード化される。だから今は少し違った働き方をするけど、われわれは埋め込みと埋め込み空間などについて話す。

そして、特性を共有する多くの人々が似たような場所に置かれて、それからシステムはそのクラスターの人々に当てはまるかもしれないことが一般的に当てはまるかもしれないと推測することが分かるやろう。最近のSubstackで、俺の友人ハリー・シアーについて話した。あなたは知ってるかもしれないけど、彼はシンプソンズのキャラクターの多くの声をやってる。彼はシンプソンズのベースプレイヤーやった。いろんな映画に出てる。

例えば、クリストファー・ゲストと一緒にたくさんの映画に出てる。彼はスパイナル・タップにも出てるしな。それで、システムで、誰かがハリーに伝記を送って、彼が俺に送ってくれたんやけど、ハリー・シアーはイギリスの芸能人、声優などやったと書いてあった。でも彼は違う。アメリカ人や。ロサンゼルス生まれや。それで彼はこれは面白いと思った。

それから、彼が『ジョーズ』の声の仕事を手伝ったと続けて言ってたけど、実際にはやってない。そして、いろんなことが真実やと言ってて、彼のキャラクターの名前も間違えてた。だから、その一部は真実やったんや。『チキンラン』に出てたしな。まあ、俺についての話があるんや。誰かが俺の伝記を俺に送ってくれた。

俺は価値がないと思ってるからGPTに伝記を求めて座ってるわけではない。でも他の誰かが俺の伝記をやって、俺に送ってくれた。それによると、俺はヘンリエッタという名前のペットの鶏を飼ってるとなってた。俺はペットの鶏を飼ってない。もし飼ってたとしても、ヘンリエッタとは呼ばんやろう。

それで、これは一種のランニングジョークになってる。実際、それがハリー・シアーが俺に送ってくれた理由や。実際、彼が他の誰かのメッセージを伝記と一緒に転送する前のタイトル行は「ヘンリエッタはいないが、それでも」やった。それがハリーが彼のメッセージに書いたことやな。俺の有名なハルシネーションの鶏ヘンリエッタに言及してるんや。

だから、これは2001年から続く一貫した問題やった。この分野のハイプ好きな人々について本当にイライラすることは、彼らがいつも「ああ、来年まで待て。来年解決する」と言ってることや。そして俺は「おい、あんたは四半世紀もそう言い続けてるやんか。あんたのアプローチは機能してない。まだこの問題がある」って言うんや。

今日のモデルはハルシネーションに関するいくつかのベンチマークで少し良くなったけど、それでも3%みたいなもんや。30回に1回でっち上げるのは本当に良くない。Wikipediaやデータベースからかんたんに得られるようなものをな。われわれは本当に曖昧なもので何かをでっち上げることについて話してるんではない。

でも、でっち上げるなら、そう言うべきやろ?良いAIシステム、そしてこれはエージェントに戻るけど、理解してないことを言うべきや。だから、ハリー・シアーはロサンゼルス生まれやって言うか、これは見つけるのが難しくない、Wikipediaの彼のエントリの最初のページで見つけることができる、あるいは少なくとも分からないと言うべきや。

何らかの理由でロンドンと言いたい気がするけど、それを裏付けることができないと言うべきや。みんなLLMを他の人間のように知的やと想像してるけど、彼らは違う。違うことをやってる。オートコンプリートをやってる。実際、俺は数年前に「ステロイドのオートコンプリート」という言葉を作った。

彼らはステロイドのオートコンプリートをやってて、それがやってることや。そしてファクトチェックはしない。ニューヨーカーでファクトチェックの仕事を得ることはできん。それは彼らがやることではない。

人工知能や。何らかの種類の知能であることになってる。でも、AIは知的ではない。そう言うのは正しいか?

それは定義的なことやな。だから、チェスコンピューターには、実際に、GPT-5については知らんけど、o3はまだチェスに問題がある。少し後で話すかもしれん。チェスコンピューターは知能の一つの尺度を持ってると言えるかもしれん。なぜなら知能は多次元やと言えるからや。多くの側面がある。

一つはチェスで生の計算をすることができることで、ガリー・カスパロフはチェスが本当に上手やった。彼は他にもたくさんのことができる。政治も本当に上手やしな。でも、チェスコンピューターは知能の一部を持ってる。チェスコンピューター、ガリー・カスパロフを倒したコンピューターでさえ、カスパロフほど遠くも知的ではないと俺は言うやろう。なぜならカスパロフは推論や思考などにおいてこの柔軟性を持ってるからや。

実際、俺は彼といつでも出るポッドキャストがある。そして、われわれがチェスについて話したように、彼は政治についても流暢に話すことができて、AIについても話すことができる。そして少しチェスについても話した。彼の心は多才で、みんながガリー・カスパロフではない。実際、誰もガリー・カスパロフではないけど、平均的な人間でさえ実際に多くのことについて流動的に考えることができる。

例えば、彼らはハリー・ポッターの映画に行ったり、ハリー・ポッターの本を読んだりして、「ああ、クィディッチというものがある」と言うかもしれない。そして、それがわれわれの世界では起こらないことでも、それについて学ぶことができる。クィディッチについて多くの経験はない。なぜなら現実世界のことではないからや。

でも、オーケー、彼らは箒に乗って飛び回ってて、これは可能かもしれない、これは、もし俺が「1分でイングランドからアメリカまで箒で飛べるか?」と言ったら、「いや」と言うやろう。慣れ親しんでないドメインでも、それについて推論し始めることができる。

そして現在のシステムはそれをするのに多くの問題がある。クィディッチについて十分なデータがあるから、クィディッチではできるかもしれないけど、われわれが他の新しいものを思いついたら、それに問題を抱えることになるやろう。

つまり、LLMはハルシネーションを止めることはあるか?なぜなら、あなたは多分それをする他の方法があるか何かと言ったからや。

まあ、われわれがしなければならないことは、それらを脇に置くことやと思う。LLMには何らかの価値があると思う。統計的分布を学ぶのは本当に上手で、それは非常に有用やけど、抽象化を学ぶのは上手ではない。信頼できる方法で特定の個別の情報のビットを表現するのは上手ではない。ハリー・シアーはどこの出身か?みたいなな。

あなたの聞き手は、俺が何度か言うのを聞いて、おそらくロサンゼルスと言えるやろう?システムは、ハリー・シアーを例として使う理由の一つは彼が有名やからということからも、それを信頼できるようにはできん。ドナルド・トランプほど有名ではないけど、かなりよく知られてる。

だから彼についてたくさんのエントリがある。Wikipediaがあって、それからIMDbがあって、いろんなプロフィールなどに出てる。だからそこにはたくさんのデータがあるのに、まだ定着しない。

チェスについても話すつもりやった。ちなみに、これらのモデルはチェスでトレーニングされる。たくさんのゲームを見る。チェスのルールを見る。chess.comのようなサイトをダウンロードして、それが教えてくれる。そして「クイーンはナイトを飛び越えることができるか?」のような質問をすることができて、「いいえ」と答えるやろう。

そして、ゲームの過程で、実際にクイーンをナイトの上に飛び越えさせるんや。だから、違法な動きが何かを知らないんや。教えられてて、明示的な知識を持つことができるけど、それに基づいて行動することができない。

そして、それはエージェントで話してた同じ問題や。「安全なコードを書け」と言うことはできるけど、実際にそれに基づいて行動することはできない。

そうやな。あなたがそれはステロイドのオートコンプリートやと言うから。それはオートコンプリートやな。それがやってることに知能があるようには見えん。また、それを釘付けにするためにな。

だから、それが持ってると言える知能の側面があるけど、完全で徹底した知能のようなものではない。もうあまり使わない用語やけど、特定のカレンダーの日が何日かを教えることができるイディオットサヴァンのようなものや。ちなみに、これらのシステムの一つがそれを間違えた。

俺の友人が9月4日が何日になるかみたいなことを聞いて、間違った日、何曜日かを間違えた。でも、イディオットサヴァンのように、特定のことを本当にうまくやることができる。特に、文脈で起こりそうなことの統計的予測や。それらは非常にうまくやる。

でも、ファクトチェックのような他のことはまったくできない。そして、実際の知能、あるいは堅牢な知能と言おうか、それをすることができることを期待するやろう。

だから、大学のソフォモアがバーでほら吹き男のようなものと言えるかもしれん。未経験者を説得することはできる。でも、専門分野の専門家が見ると、「まあ、物理学について俺に話すとき、物理学について本当に知らない」みたいな感じや。

そして、われわれにはこの幻想がある。「まあ、俺は物理学を知らないから、俺には結構良く見える」でも、専門家に聞くと、専門家は「いや、実際には物理学を理解してない。そこにある多くのことをオウム返ししてるだけや」と言う。そして、大量の数の問題でトレーニングすることができるから、特定の種類の問題を解くことができるけど、人間の知能の柔軟性と一般性は本当に欠けてる。

収穫逓減と技術的限界

だから、収穫逓減を見ることになるか?企業はGPU、データ、何でもこれらのものに巨額の資金を投じてるからや。GPT-5で得られるはずやった大規模な躍進を得られないのか?

われわれは既に収穫逓減を得てる。だからGPT-5はGPT-4より良いけど、大幅に良いわけではない。測定可能に良いと言えるけど、大幅に良いわけではない。

われわれは収穫逓減の瞬間を見てる。他の技術が役立つかもしれないことが分かってる。その一つは古典的なシンボリック技術を加えることや。AI全体の歴史は、神経ネットワークの人々とシンボリックの人々が基本的にお互いを憎んでたということやった。

それを説明してもらえるか?詳細を教えてくれ。続けてくれ。すまん。

そうやな。だから神経ネットワークは今人気のあるものや。情報のビットを小さな小さなビットに分解して、たくさんの統計情報を得て、オートコンプリートのようなことをしようとする。シンボリック素材は古典的なコンピュータープログラム、代数、論理のようなものに見える。

そして、GPSナビゲーションシステムのような特定のことにそれらを使う。シンボリックAIをずっと使ってて、非常に効果的に使ってる。大学院生や資金調達などのリソースをめぐる争いのために、2つのグループは本当にお互いに敵対的やった。

そして俺がこの本『The Algebraic Mind』で求めたことは、副題は「コネクショニズムと認知科学の統合」やった。コネクショニズムは神経ネットワークで、認知科学はより古典的なシンボル操作のものやった。われわれが必要なのは和解で、俺は25年間この分野にお願いしてきた。そして少しだけ今バックドアからこっそり入ってきてる。

彼らは大規模言語モデルにいくつかのシンボリック素材を追加し始めてて、これは少し少なすぎて遅すぎると思うけど、実際に得てる進歩はそこから来てる。

だから、ガリー、われわれは再びBlack Hatにいるけど、サイバーセキュリティの観点から見てるけど、AI安全性についてはどうや?それについて何を教えてもらえる?

つまり、明らかに関連する概念やろ。だからサイバーセキュリティは本当にあなたのコードが安全かどうか、誰かがそれを盗むことができるか、誰かがそれをコントロールできるかということで、それの商業バージョンがある。それから、これらのシステムでできることから人類の種が安全かどうかという人類バージョンがある。

異なる側面がある。例えば、これらのシステムは、そうでなければできない誰かに生物兵器の作り方を教えることができるか、Googleなどから得ることができる以上のことを教えることができるか。そして答えはますます「はい」のように見える。いわゆるローグAIの領域がある。

俺の見解では、汎用人工知能ではないけれども、少なくとも使用可能なものについてはずっと多くの進歩をした。ステロイドのオートコンプリートなどでできることやな。そこで本当の進歩をしたけど、アライメント、機械にわれわれがやりたいことをやらせることについてはそれほどではない。ハルシネーションは例やな。

Appleは実際に約1年前、多分今でもやと思うけど、システムプロンプトで「真実を言え。でっち上げるな」ってシステムに言ってた。ハルシネーションするなってことやな。それでも結局やったんやろ?これは簡単なバージョンのアライメントやな。

「でっち上げるな」って俺が言うようなものや。これを俺のところで働いてるインターンや従業員に言えるやん。もし俺のところで働いてる従業員にそれを言うて、その人がそれを続けるなら、クビになるわ。その通りや。でもLLMの場合、クビになる代わりに、さらに5000億ドルの資金提供を受けるんや。狂ってるで。

システムに「ハルシネーションするな」って言えないなら、「人間に害を与えるな」みたいなことについてはどうや?システムにそれを理解させることが本当にできるか?そして答えは「いいえ」やな。

そしてその問題について四半世紀、俺にはわからん期間、大きな進歩はなかった。最大の進歩は1950年代にアイザック・アジモフがそれらがそれほど素晴らしくないと知ってて提案したときやったと論じることができる。

アジモフの法則、われわれが呼んでるもの、彼は多分ロボット工学の三法則と呼んだかもしれん。それらはすべての状況をカバーしてないなどの理由で、それほど素晴らしくなかった。そして、それは彼の物語の要点の一部やった。これは実際に難しいということや。でも少なくとも彼は機械にどんな倫理的原則を植え付けるかという質問を提起した。

アジモフが正しい質問を提起したんや。われわれはまだ、実際に何をコードすべきかについての答えを持ってない。これは難しいし、文化的問題などがある。でもわれわれはその答えを持ってないし、それをどうやってやるかの答えも持ってない。そして多くの人々がそれに取り組んでるけど、みんなLLMの文脈で取り組んでる。

そして俺の見解では、LLMはあまりにも厚く、そのような概念を理解できるほど意味的に豊かではない。だから、これらすべてを表現する別の方法は、LLMはブラックボックスやということや。データの束を入れて、何かを出して、最善を望む。そして、それが基本的にそれがどう動作するかやな。われわれはそれでもって世界を運営したいと思ってる。

われわれは「最善を望む」では世界を運営すべきではない。われわれは本当にホワイトボックスAIを構築すべきで、その中に何が入ってるかを理解して、デバッグできるようにすべきや。われわれはこのブラックボックス方式に根本的にシフトした。今われわれはコードを書いてる。バイブコーディングは、あるレベルでほとんどブラックボックスコードやな。

文字通りそうではない。なぜなら実際に少なくともその出力を見ることができるからやけど、多くのユーザーの観点からは、基本的にブラックボックスや。彼らは自分が書いたコードや、機械に読ませたコードを理解してない。

そしてLLM自体もブラックボックスで、安全性に関してはうまく機能してない。お金を稼ぐことに関してもうまく機能してるかもしれん。そこでも、本当にお金を稼いでる唯一の人はジェンスン・ファンと彼の会社Nvidiaやろ?チップを売ってるんやな。

でも、多くの人がこの時点で使ってる類推は、ゴールドラッシュでシャベルを売るようなもんやな。ジェンスンはシャベルを売ってる。素晴らしいシャベルを作る。本当にうまく機能する。その周りには素晴らしいエコシステムがある。彼は素晴らしいマネージャーや。会社については、会社のすべてが素晴らしい。

でも問題は、その物を買ってる人々が実際にはそれからお金を稼ぐ方法を知らないということや。彼らのほとんどまたはほぼ全員が実際に利益を出してない。そしてそれは部分的に、その物が信頼できないからや。

だから、このまま続くのを見るか、それともどこかで壁にぶつかるか、あるいはもう壁にぶつかったか?

まあ、俺は2022年に「ディープラーニングが壁にぶつかってる」という論文を書いた。そして、その要点は、事前トレーニングデータをスケールし続けることはできないということやった。そして実際、それは正しいと証明された。

議論の一部は、全く進歩しないということではなくて、同じ問題にぶつかり続けるということやった。それはハルシネーションと推論の問題と誤情報の悪用などやった。そしてわれわれはまだ同じ障害を見てる。

間違った比喩を選んだかもしれん。なぜなら「まあ、ここで進歩した」っていつも言えるからや。でも、信頼できるエージェントのようなものを作る方法の重要な次元では、それほど多くの進歩をしてない。

そして俺は今年AGIを約束した人と話した。AGIについてはいつかというあなたの見解は?それとも起こることがあるか、それとも現実か、それともただの幻想か?

起こるやろう。原理的な理由はない。それは本当にアーキテクチャの問題やな。われわれは間違ったアーキテクチャを使ってて、正しいアーキテクチャを見つけるのにどれくらい時間がかかるかわからん。

同じことをもっとやることで次の数年でAGIを見る可能性は非常に低い。それは本当に機能してない。少し機能するけど、本当にAGIまでは導いてくれない。5年で到達する可能性はある。これだけ多くの人が研究などをしてると、比較的長い時間やな。

10年で到達する可能性の方が高いし、100年で到達する可能性は非常に高いけど、いつかは正確にはわからん。

それとは少し違うことについてGoogleの講演を聞いたと言うつもりやった。

まあ、Googleではなかったと思う。実際にはMicrosoftにいるムスタファやったと思うけど、オーケー、実際俺は5年前にポインタリスティックAIと呼んでた非常に似たアイデアについて話してた。それからイーサン・モリックがそれをジャギッドインテリジェンスにして、それからムスタファがそれを借りたと思う。誰も途中で帰属を得てない。

でも、アイデアは、これらのシステムがトレーニングされたものに近い問題を得るということや。俺のバージョンのアイデアは、でも遠ざかると、信頼性が低くなって、いくつかのポイントを得るけど他は得ない、前もってうまくいくかどうかを本当に知らないという意味で、ジャギッドまたはポインタリスティックやということやな。

この現在の時代の狂ったことの一つは、それを電卓とスプレッドシートの時代と比較することや。電卓とスプレッドシート、もし問題を正しく提起すれば、正しい答えを得るやろう。もちろん、スプレッドシートで何かを省くことはできる。数式が間違ってることもある。それはあなたのせいや?システムのせいではない。Excelはあなたが計算するように言ったことを計算するやろう。俺のポケット電卓は教えてくれるやろう。

スライドルールは一度もハルシネーションしなかった。一度もや。使うには若すぎたけど、使い方は学んだ。それはこのクラスのAI製品については当てはまらない。それはすべてのAIにも必要ではない。だからGPSシステムは道を発明したりしない。

われわれはここベガスのストリップにいる。サンフランシスコのロンバード・ストリートのようにくねくねと行く道の代替バージョンを作ったりしない。そんなことはしない。その通りや。古典的なAIは物をでっち上げない。そしてわれわれは、ウィンクしながら、でっち上げることを気にしないふりをしてるこの狂ったパラダイムに浸かってる。

でも、それは続かない。

そうやな。俺の次の質問は、次の数年でこれがどこに向かうと思うか、ただもっとお金を投げつけるだけか?何が起こると思うか?あなたの予測は?

俺が今まで得た最も有名な株のアドバイス、そして俺は本当に市場をプレイしないけど、「市場はあなたが支払い能力を保てる期間より長く非合理的でいることができる」やった。

だから、なぜ俺はこれらすべてをショートしてないか?われわれがいつまで妄想が続くかわからないからや。つまり、昔のチューリップを見て「これは狂ってる」と言うことはできた。でも人々がいつ1つのチューリップに7000ドル使うのをやめるかはわからん。だから、外からそれを知るのは難しい。

実際、技術的なことに関する俺の予測の実績を見ると、ほぼ完璧やった。本当に、本当に良かった。市場の合理性については、それほど良くなかった。だから、OpenAIが3000億ドルの評価額に達するとは思わなかった。そして俺は間違ってた。それに値するとは思わないけど、他の人々がマーケティングハイプなどをどう信じるかを予測するのははるかに難しい。

だから、わからん。一つの可能な結果は、人々が今日GPT-5を見て、「くそ、これはAGIではない」と思うことや。サムは何年間もAGIの構築方法を知ってると俺たちに言ってきた。これはただAGIではない。いいものやし、便利やし、安くなって嬉しいし、使うけど、AGIではない。来年AGIには到達しないやろう。

おそらく職場でわれわれが思ったほど多くのお金を節約することにはならないやろう。このお金をすべて投入することは意味がないかもしれないし、明日Nvidiaがクラッシュする可能性がある。人々はそれを見て、「これは本当に失望的なことだった」と言うかもしれん。でも、おそらくそうしないやろう。「オーケー、もう少し買おう。人々はこれを使うやろう。もっとチップを売ろう」みたいになるやろう。

そして俺は人間の心理と、人々がこの賭けにいつまでこだわるかという大衆心理の部分を予測することはできん。ある時点で、やめなければならなくなる。イーロンがやったように、毎回投資を100倍にするようなことは続けられん。だから、計算を間違えてるかもしれないけど、Grok-4はGrok-2の100倍の大きさやと思う。

だから、Grok-6は10,000倍大きくなるのか?それを燃やすのに十分な電力と水が地球上にない。だから、ある時点でこれは尽きなければならないけど、それがいつの日かはわからん。

そして技術的には何だと思う?技術的に。技術的には、あなたは技術的予測に賭けると言った。

ああ、俺はたくさん作った。だから、ハルシネーションがどこにも行かないと予測した。GPT-5は人々が思ったよりもはるかに時間がかかると予測した。そしてそうなった。推論エラーがすぐに解決されないと予測した。そしてそうならなかった。

人々が読める「2025年の25の予測」というエッセイがある。そして、それらはほとんどすべて軌道に乗ってる。22個か21個が今のところ軌道に乗てると思う。

そして、それはまた俺が作った以前の予測のいくつかをレビューしてる。収穫逓減があるからあまり技術的な堀がないと予測して、みんなが大体同じ場所に収束するやろうと。そして、それは起こった。だから、長年にわたって正しかった多くの予測があった。

一つの予測、一つの技術的予測を教えてくれ。人々が読んでないかもしれないからや。

まあ、俺が作った中で、ある意味で最も誇りに思ってるのは、この種のことをやってるだけならハルシネーションはなくならないという25年間の予測やな。俺はそれについて四半世紀正しかった。そして、AIで四半世紀正しいというのは、非常に注目すべきことやな。

ガリー、ありがとう。時間がなくなった。追いかけられてる。終わる前に最後の言葉はあるか?

まあ、サイバーセキュリティの世界でこれを見てる人々は、プロンプトインジェクション攻撃に非常に注意を払わなければならん。それらは最終的に、あなたがこれまで扱ったすべてを凌駕すると思う。あなたが知ってて学んだことはすべて役に立つやろうけど、これは大規模な問題になるやろう。

われわれは全員参加が必要やろう。本当に巨大になるやろう。

ハリー、ありがとう。ありがとう。ありがとう、ありがとう。感謝してる。

コメント

タイトルとURLをコピーしました