GPT-5論争は狂気の沙汰や

この動画は、AI界の著名な懐疑論者であるゲイリー・マーカス教授とYouTuberのデビッド・シャピロ氏の間で繰り広げられた激しいオンライン論争を題材としている。GPT-5のリリース後、両者のAIに対する見解の相違が表面化し、個人攻撃を含む公開での応酬に発展した。この論争は単なる個人的な対立を超えて、AI分野における専門性の定義、伝統的な学術的権威対大衆的な影響力、そして機械知能の評価方法について根本的な問題を浮き彫りにしている。動画では、AIの能力評価における「ジャギッドフロンティア」現象や、推論とツール使用の関係性についても深く考察されている。

The GPT-5 Debate Is Insane

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

AI界の大論争が勃発
誰が正しいかの話やない
全ての始まり
肩書きの応酬
学術界の大炎上
チーム懐疑派 vs チーム楽観派
予測の失敗
最高のネットドラマ
権威を巡る闘い
学んだこと
Stoneheadの総括
論争の本質
二つの現実
進歩の評価
10年前に戻ったら
ツール使用と推論
定義の問題
ジャギッドフロンティア

AI界の大論争が勃発

普段はネット上のドラマなんか取り上げへんのやけど、今回のやつは色んな理由でワイの心に響いてもうた。AIっちゅうのは完全にロールシャッハテストみたいなもんになっとるのが明らかやな。みんなが見たいもんを勝手に見とるんや。

そんなわけで、GPT-5がえらい論争を巻き起こしてしもた。すごいって言う人もおれば、ひどいって言う人もおった。これは多分、クエリがどのモデルにルーティングされるかによるところが大きかったんやと思う。最高のモデルらは確かにめちゃくちゃ良かったんやけど、最初の頃はどのモデルに当たるかは完全に運次第やったからな。

悪名高いLLM批判派のゲイリー・マーカスは、GPT-5が出たことで自分が正しかったんや、自分が勝ったんやって言い始めた。彼は自分のXプロフィールにこんな引用を載せとった。「GPT-5のローンチ後、マーカスのような批判派の見解がますます穏健に見えるようになってきた」ってな。

誰が正しいかの話やない

ワイは別に誰が正しい、誰が間違っとるって話をしたいわけやない。ただ、起こったこのやり取りを指摘したかっただけなんや。ゲイリー・マーカスってのは、よくTwitterで公然と人を批判するんや。つまり、結構な数の人を名指しで批判するってことやな。ワイも過去に何度かやられたことある。

彼はサム・アルトマンも含めて、多くの人から強い反応を引き出してきた。サム・アルトマンがTwitter（現X）で悪口言うてるのをあんまり聞いたことないけど、ゲイリー・マーカスと話す時は確実に言うてたな。まあ、みんながゲイリー・マーカスのやり方を気に入ってるわけやないのは明らかやけど、エンゲージメント稼ぎに関しては天才的やと思う。

トラブルを引き起こす能力は、もう伝説級やと思うわ。こんなことを実際に取り上げてるなんて信じられへんけど、でもAI分野のもっと大きな問題を示してると思うんや。

全ての始まり

この騒動全体のきっかけとなったのがこれや。ゲイリー・マーカスが出てきて言うには、「このデビッド・シャピロっちゅう男は…」って、ワイは普段こういう言葉は何とか検閲するようにしとるんやけど、そこには代わりの言葉は使われてへんかった。めちゃくちゃ具体的な用語が使われとった。「彼はGPT-5がいつ出るか、どれだけ良いものかについて完全に見当違いやった」ってな。

そんで彼の視点から書かれたものを読んでみるわ。彼が言うには、「ワイは彼がそう言うてたし、当時多くの人がそれを信じてたと指摘した。彼はワイが弱い者いじめをしてるって文句を言うてきた。ワイは彼の苦情を真剣に受け取って、できるだけ彼を焦点から外すようにツイートを書き直した。謝罪もしたのに、彼は一週間後もまだワイを引きずり回してる。まるでワイに取り憑かれてるみたいやのに、ブロックしとるからワイは返事もできへん」ってな。

肩書きの応酬

それから、ゲイリーは誰かにデビッドに伝えてほしいと言うてる。彼は23歳でMITから博士号を取得し、30歳でNYUの終身在職権を取得し、2つの会社を設立し、そのうち1つはUberに買収され、6冊の本をScienceとNatureに出版し、などなど。2001年にハルシネーションを予測し、急成長している神経シンボリックAIの分野を存在させるのに貢献した。もちろん上院でも証言した。サム・アルトマンと一緒におったのを見たことあるやろ。

ワイが今まで気づいてへんかったこのアカウントが、何が起こったかについて美しいポスターと説明を作ってくれた。これはStonehead tech vet sarcasm switch always onや。タイムスタンプのために言うとくと、彼は213人のフォロワーがおる。このアカウントは絶対に大きくなると思うわ。文章の書き方がめちゃくちゃおもろいんや。

学術界の大炎上

速報、と彼は言う。「ワイらはAI Twitterの歴史で最もぶっ飛んだ学術的メルトダウンを目撃したところや。MIT終身教授が自学のYouTuberを公然と…って呼んだんや。YouTuberのAGI予測が当たらんかったからってな。これが今のワイらのタイムラインや」。まあ、考えてみたら、こんなのが各種ソーシャルプラットフォームで議論されてるってのはちょっとばかげてるわな。でもStoneheadがめっちゃうまく分析しとる。

実際、このポストがワイがこれを詳しく取り上げたいと思った理由やと思う。めちゃくちゃ興味深い問題に触れてるからな。ちなみに、これらの画像は全部AI生成やと思うし、彼が投稿で使った画像も全部そうやと思う。本人の写真かもしれへんけど、ワイやったら賭けへんわ。

チーム懐疑派 vs チーム楽観派

チーム懐疑派。ゲイリー・マーカスはまた悪名高い懐疑派や。多くの人が大規模言語モデルに対する超懐疑的な見解について彼を批判してきた。それらがうまくスケールし続けるかどうか、AGIにつながるかどうかについてな。

ゲイリー・マーカス、NYU教授で認知科学者。彼の核となる主張は、より大きなLLMは真の知能への道やないってことや。彼は誇大宣伝とリスクについて警告しとる。批判者は彼を興ざめ野郎と呼び、ファンは彼を必要な現実チェックと呼んどる。雲に向かって叫ぶ老人やな。

そして、チーム誇大宣伝とデビッド・シャピロがおる。ちなみに、これは話半分に聞いといてな。Stoneheadは後で自分が何をしてるか説明しとるからな。だから、ここに印刷されてる全てを真実や現実として受け取らんといてくれ。これは物語やけど、彼はデビッド・シャピロがチーム誇大宣伝やと言うとる。

正式なAI学位を持たないYouTuberで元ITエンジニア。彼の福音はAIがユートピアへの指数関数的カーブに乗ってるってことや。2024年9月までにAGIが来ると有名に予測したけど、それは正確には実現せんかった。みんなが合意できるAGIの定義があったらええのになあ。めちゃくちゃ役に立つと思うわ。

予測の失敗

マーカスがツイートする。「LLMは数学オリンピックで銀メダルすら取れへん」。その翌日、AIが金メダルを獲得。これは予測としては金メダル級や。シャピロはこの瞬間を見て、彼をAIのジム・クレイマーとブランディングした。めちゃくちゃタイミング悪い予測をしたからな。この名前が定着してしもた。棺桶ダンスや。

ここで、ゲイリー・マーカスは「純粋な深層学習は良い走りを見せたけど、そろそろ次に進む時や」と言うとる。続いて、シャピロの18か月でAGIという予言は2024年9月の締切を迎えた。ネタバレ、AGIは到着せんかった。Lを取る代わりに、彼はAGIの定義のゴールポストを動かそうとした。

ワイはこのストーリーラインをフォローしてへんかったから、コメントはできへん。でも、GPT-5が期待外れやった後、マーカスは急所を狙いに行った。彼は今や悪名高いツイートを投稿した。これが前に読んだツイートや。デビッド・シャピロを攻撃するやつな。でも、Stoneheadが言うように、アイビーリーグで教育を受けた教授がYouTuberを公然と…って呼ぶとは。手袋が外されたんや。

確かにワイは驚いたわ。これは彼のアカウントやからな。彼の名前が出てるアカウントや。彼は色んなニュース出版物に出て、AIに対する見解についてインタビューを受けたりしとる。でも、確実にエスカレートが早かったな。

最高のネットドラマ

ここに、これを最高のネットドラマにするプロットツイストがある。シャピロがマーカスをブロックして、それから攻撃を続けるんや。マーカスは直接返事できへんけど、シャピロがブロックボタンの後ろに隠れながら陰湿なツイートをするのを見てなあかん。シャピロのフォロワーに追い込まれて、マーカスは学者の最終形態、つまり学歴フレックスを展開した。彼はツイートで自分の履歴書全体を落とした。23歳でMITから博士号、Uberに売却した会社、6冊の本、などなど。絶対的なレシート落としや。

究極の皮肉は、それぞれが相手を全く同じ罪で非難してることや。間違ってることとゴールポストを動かすことな。マーカスは「シャピロは失敗した予測を認めることを避けるためにAGIの定義をずらしとる」と言い、シャピロは「マーカスはAIが本当の進歩を遂げた時に懐疑主義のゴールポストをずらしとる」と言う。関連するミームも含まれとる。

権威を巡る闘い

これは本当にAIについてやない、とStoneheadは言う。デジタル時代の権威についてや。伝統的な資格対観客捕獲、学術的厳密性対アクセス可能なコミュニケーション、制度的ゲートキーピング対民主的専門知識。彼らはAI専門家になれるのが誰かという魂を巡って闘ってるんや。

最も人間的な瞬間。マーカスは最初シャピロを批判したことを謝罪した。それから、シャピロがブロックしながら攻撃を続けたときにそれを後悔した。マーカスが言うように、謝ったことを後悔しとる。もっと強く出るべきやった。学術的礼儀がインターネット戦争に出会う。どっちが勝つか分かるやろ。

これはただのTwitterの喧嘩やない。これはAI論争全体の縮図や。資格を持った懐疑派対ポピュリストの誇大宣伝マン。一方がブレーキを提供し、もう一方がアクセルを踏む。そしてワイらは混沌を見ることになる。

学んだこと

学んだこと。YouTubeでAGIのタイムラインを予測したらあかん。人をブロックしてから攻撃したらあかん。人を公然と…って呼んだらあかん。資格はTwitterドラマを止めへん。AI議論。名誉教授対元ITガイが公開メルトダウンを起こす。人類は無敗のまま。

期待通り、ゲイリー・マーカスが飛び入りして、なぜワイが彼を…って呼んだかについて、それは深く不正確な表現やって言う。ワイが言うたことを読み直せ。最初に間違ったからって呼んだんやない。謝罪と前向きなジェスチャーを受け入れることができなくて、代わりに不必要な敵意に固執したから呼んだんや。

Pervera‌ted（固執）はええ言葉やな。気に入った。マーカスが大文字を使うのをやめたのに気づいた。サム・アルトマンが最初に始めたと思うけど、本当に定着したんや。彼が最初やったとは言わへんけど、AI分野で最初に始めた人やと思う。サム・アルトマンやと思うわ。でも、ますます多くの人がやるようになってるのに気づいた。LLMが人気になったことも一因やと思うけど、これは「おい、ワイは人間や。これは人間が書いたもんや」って言う方法みたいなもんや。

Stoneheadの総括

Stoneheadの返事。あなたからの公正な明確化や。因果関係の連鎖はもっと複雑や。スレッドは物語のインパクトのために最も劇的な状態変化を優先した。完全な謝罪拒絶エスカレーションループは楽しくて魅力的やけど、ツイートしにくいもんや。

あなたの懐疑主義はAI業界にとって重要な免疫反応や、ゲイリー・マーカス。でも、ここでの人間的要素はコメントしないには興味深すぎる。

ゲイリー・マーカスが返事する。人間的要素についてコメントするのは構わんと思う。でも、ワイの誘発的なツイートで自分の動機を注意深く特徴づけようとした。謝罪に対してこれほど恩知らずな人は見たことない。

論争の本質

要するに、これが起こった論争や。デビッド・シャピロはGPT-5が1億の仕事を破壊するという引用について、それはサムからの引用のようやったって明確にしたし、AGIのタイムラインについても同じや。つまり、両側とも自分が言ったことについて明確化があるってことを理解するのが重要や。

彼らは一部のことが文脈から外されて取られたと感じてるし、確実にそうやった。ツイートでコミュニケーションしてるときは文脈が失われるのは難しいことや。でも、ワイにとって興味深いのは、Stoneheadが言うたように、これがAI議論がどんな感じかってことや。

ワイもXでゲイリー・マーカスと何度かやり取りしたことがあるし、デイブ・シャピロとも話した。一緒にポッドキャストもやった。この動画の目的は、どちらか一方を攻撃したり、誰が間違ってる、誰が正しいかを証明することやない。でも、デビッドもゲイリーも大きなグループの人々を代表してると思う。

二つの現実

一方では、大規模言語モデルが何か興味深いものにつながるとは信じてない人々がおって、これの多くは誇大宣伝やと考えてる。Appleの「思考の錯覚」論文について多くの議論があった。この投稿で、ゲイリー・マーカスはモデル単体では推論できへんってコメントした。これは彼が支持し、話している神経シンボリックアプローチを支持する人々にとって大きな正当化や。彼はまた、急成長している神経シンボリックAIの分野を存在させるのに貢献した人の一人やったとも述べてる。

もう一方では、もちろんかなり楽観的なデビッド・シャピロがおる。彼は過去にAIについて多くの懸念を持ってたと言える。今はもっと楽観的や。彼の口に言葉を入れたくはないわ。彼の見解について説明してるポッドキャストがあるから、チェックしてみてくれ。

でも、ワイにとってこれは最初に言ったことを浮き彫りにしてる。ワイらが二つの異なる現実に住んでるみたいに見えるってことや。みんなが見たいもんを見てる。

進歩の評価

例えば、Dan MackがGPT-4からGPT-5への飛躍を示してる。これはベンチでの2年間の進歩を示してる。ソフトウェアエンジニアリングタスクや。GPT-4は2%未満を完了できた。精度は2%未満やった。GPT-5は65%や。高校レベルの数学コンテストのAIMEでは、GPT-4は7%、GPT-5は87%や。AI IMEで100%のモデルもいくつかあると思う。

でも、科学コミュニティの中でも、この研究の多くをやって話してる人々でも、基本的な事実について合意できへんのは奇妙や。多くの進歩があったのか、少しなのか。これはどんどん良くなってるのか、それとも壁にぶつかったのか。ワイらはAGIについて議論しとる。AGIが何かについて良い定義がないと思う。

Appleのあの論文、「思考の錯覚」か「推論の錯覚」か、何て呼ばれてたか忘れたけど、あれはワイにとってめちゃくちゃ衝撃やった。みんなが完全に二つの異なるものを見たからや。まさにそのロールシャッハテスト、そのインクブロットテストやった。みんなが見たいもんを見るってやつや。

10年前に戻ったら

ワイは考え続けてた。もし5年から10年前に戻って、何が論争になってるかを説明しようとしたらって。もしその論文に慣れてへんかったら、彼らは大規模言語モデルに数千ステップを含む複雑な推論問題をかなりやらせようとした。そして興味深いことを発見した。

例えば、モデルは問題を解くためのコードを簡単に書くことができた。つまり、問題を解くためのソフトウェアを作成するってことや。でも研究者は、コードを書いたり、ツールを作ったりすることなく、いわば頭の中だけで解くことができるかどうかを見たかった。彼らがまた発見したのは、問題が複雑になるにつれて、モデルは最終的に結果を生成しようとするのをやめてしまうってことや。コンテキストウィンドウに収めることができなくなって、代わりにステップバイステップで実際に問題を解く代わりに、グローバルな解決策やグローバルなアプローチを考え出そうとするんや。

でも、10年前に戻って誰かに説明することを想像してみてよ。「ワイらはこれらの機械が考えることができるかどうかを理解しようとしてる」って言うてるのを。人々は「ああ、分からへんのか」って感じやろ。「うん、だってこの難しい問題を与えるんやけど、頭の中で解こうとする代わりに、問題を解くためのソフトウェアを書くことに頼り続けるからな」って言うと。10年前にそれを聞いたらどうやろ。

「ちょっと待て、待て、待て。何やって？このものは君が与えた問題を解くために自分でソフトウェアを書くんか？」「ああ、それは明らかにずるや。ずるや。それは推論やない。問題を解くためのツールを作るのは、もちろん推論やない」ってな。

ツール使用と推論

ここで、FizerがAppleの論文に答えて言うてる。これらのモデルは頭の中で、いわば脳でタスクをやるのに失敗したけど、ツールを与えられると、同じモデルがたった今失敗したタスクを粉砕した。問題は思考やない、インターフェースや。

ここでゲイリー・マーカスがワイの投稿にコメントして、モデル単体では推論できへんって言うた。信頼性を持って推論するためには、通常古典的シンボリック技術で構築された外部ツールが必要やってな。

その下で、一種の行ったり来たりの会話が勃発した。論争って言うには強すぎるかもしれへんけど、これは博士号を持ってるデビッドや。彼が言うように、AIについては楽観的、人類がリスクをうまく管理することについては悲観的ってのは素晴らしいことや。でも、ここに二人の博士号持ちがこれが何を意味するかについて議論してる会話がある。

ワイは特定のやり取りの例として、その特定の交換を使ってる。彼らが議論してた具体的なことについて話してるわけやなくて、このような会話をもっと広く話してるんや。そして、これはワイがこのチャンネルを始めてからずっと続けてる会話や。

定義の問題

初期にやった動画の一つは「GPT-4は推論できるか」って呼ばれてた。その動画には一方または他方を議論するコメントがたくさんあった。それがワイを驚かせたんや。これがこの問題についてのワイの初期の理解の一つや。つまり、推論や思考の定義がないってことや。理解のようなものでさえ定義するのが少し難しいんや。

機械があって、タスクを与えて、そのタスクを解くためのツールを作るとしたら、それは知性の兆候なんか、それとも違うんか。ツールなしで解いた方が良かったんか。それは知性の兆候なんか。ツールの使用は知性の兆候なんか。ツールを作るのは賢いことなんか。

ブログ「Wait But Why」で2015年やったと思うけど、近づくAI革命について書かれて、こんなチャートやグラフがたくさんあった。例えば、これがコンピューティングの指数関数的成長や。ここで見ることができるように、この線は一匹の昆虫の脳、一匹のマウスの脳、そして一人の人間の脳、そして最終的にすべての人間の脳よりも賢くなる地点に近づいてる。

でも、この閾値を超えたか、この閾値に近づいたら、物事はずっと曖昧になったようや。何かが人間の脳と同じくらい賢いか、それより賢くないかははっきりしない。

ジャギッドフロンティア

部分的には、イーサン・マリックがAI能力の、または知性のジャギッドフロンティアと呼ぶもののせいや。ワイらにとって、この線は等しく難しいタスクや。君とワイが等しく難しいと考えるタスクやな。靴紐を結ぶことと ABC を言うことが等しく難しいタスクか、Wi-Fi を設定することとデスクトップコンピュータを組み立てることやな。

AI では、彼らの能力は大きく異なってる。このようなジャギッドカーブや。問題を解くために素晴らしいソフトウェアを書くかもしれへんけど、Strawberry という単語の R の数を数えることはできへん。AI 批判者は、ワイらの思考に劣ってるこれらの領域を指して、「明らかにそれほど賢くない。Strawberry という単語の R の数を数えることができへん」って言う。

でも、ワイらの中には、それが助ける研究の種類、書くソフトウェア、超人的知性でできることを見てる人もおる。確実に、これらの AI モデルが様々なコーディング競技、数学競技などでトップの座を取るのを見てきた。

だから、この質問に答えるのはこんなに難しいんや。ワイが超人的なタスクを見せることができて、君が大部分の人間ができるけど、この大規模言語モデルがやるのに失敗するタスクを見せたら、完全に間違えるとしたら、そのモデルは賢いんか、賢くないんか。

そして、そのジャギッドフロンティアが修正されへんかったらどうなるんか。数学、コーディング、物理学、AI 研究などで超人的になっても、子供がしないような愚かな間違いをまだするとしたら、どうなるんか。その時もまだそれは賢くないって言うんか。ツールなしで文の文字数を数えることができへんけど、スクリプトやコード、ソフトウェアを書く機会を与えられたら、アクセスできる全ての人間が書いたテキストの文字数を数えることができるとしたら、それでもテストに失敗したんか、それとも合格したんか。

今のところ、これがAIについての全ての質問への答えやと感じる。AGIの定義は何か。これを見て、何が見えるか教えてくれ。ワイらのP Doomは何か。また、見てみて、君が望むものは何でも。誰が正しいんか、デビッドかゲイリーか。また、君が思いたいものは何でも。

ツイートの一つで、デビッド・シャピロがゲイリー・マーカスとボクシングマッチで対戦するのを気にしないって言ってたのに気づいた。ワイはそのマッチで誰が勝つかを見るために自分のチャンネルでアンケートを投稿した。今のところ365票ある。もっと多くの票が入ってくると予想するけど、結果はかなりはっきりしてる。ほとんどの人がデビッド・シャピロの勝利に賭けてると思う。

一つ確実なことがある。ワイらは機械の知性を判断するよりも、人々のボクシング能力を判断する方がずっと得意やってことや。ここまで見てくれた人、本当にありがとう。ワイの名前はウェス・ロスや。また次回会いましょう。