マーク・アンドリーセン&アムジャド・マサドが語る「十分に良い」AI、AGI、そしてコーディングの終焉

AGI・ASI
この記事は約56分で読めます。

本対談では、ベンチャーキャピタリストのマーク・アンドリーセンとReplitのCEOアムジャド・マサドが、現代のAI技術の可能性と限界について率直に語り合う。プログラミングの自動化において目覚ましい進歩を遂げているAIだが、真の汎用人工知能(AGI)への道のりはまだ遠い。現在のLLMは検証可能な領域では驚異的な性能を発揮するものの、人間的な判断や創造性が求められる領域では依然として課題を抱えている。Replitがどのようにして一般人でもプロレベルのソフトウェア開発を可能にしているか、AIエージェントの長時間推論能力の進化、そして「十分に良い」AIと真のAGIの違いについて深く掘り下げる。また、マサドの波乱に満ちた起業家としての原点、大学のデータベースをハッキングした逸話なども語られ、技術革新の最前線で活躍する人物の思考と経験が明らかになる。

Marc Andreessen & Amjad Masad on “Good Enough” AI, AGI, and the End of Coding
Amjad Masad, founder and CEO of Replit, joins a16z’s Marc Andreessen and Erik Torenberg to discuss the new world of AI a...

魔法のような技術への期待と失望

私たちは今、5年前、いや確実に10年前には不可能だと思っていたような魔法を扱っているんです。これは史上最も驚くべき技術で、それが本当に速く進化しているのに、私たちはまだ本当に失望しているんです。

十分に速く進んでいないような気がして、もしかしたら停滞の瀬戸際にあるかもしれないと感じています。私たちは超興奮すべきなんですが、同時に手首を切りたくなるような気分にもなっているんです。だって、この幸運な流れが終わりを迎えようとしているかもしれないですからね。確かに速くなっていますが、私たちが期待するコンピューターの速度ではないんです。人が働いているのを見ているような感じなんです。

世界最高のプログラマーであるジョン・カーマックが刺激剤を摂取して働いているのを見ているような感じですよ。

初心者プログラマーのReplitの体験

では、初心者プログラマーだと仮定して始めましょう。学生かもしれませんし、あるいはコーディングの授業をいくつか受けて少しハッキングしたことがある人、あるいはExcelマクロを使ったことがあるような人かもしれません。でも、コーディングの熟練した職人というわけではないという感じです。

誰かからReplitについて、特にAI、ReplitでのAIについて聞いたとして、今日のAIを搭載したReplitを使い始めたときの体験はどのようなものでしょうか。

そうですね、コーディング経験がない人も、ある程度の経験がある人も、Replitに入ったときの体験はほぼ同じだと思います。

最初に私たちがやろうとしているのは、開発環境のセットアップといったナンセンスなことを全部取り除いて、あなたのアイデアに集中してもらうことです。何を作りたいのか。製品を作りたいのか。問題を解決したいのか。データビジュアライゼーションをやりたいのか。プロンプトボックスは本当にオープンで、何でも入力できます。

例えば、スタートアップを立ち上げたいとしましょう。スタートアップのアイデアがあるとします。私なら、作りたいものについて段落程度の長さの説明から始めます。エージェントがそれを読み取ります。標準的な英語を入力するだけです。標準的な英語です。ただ入力するだけです。クレープを売りたい。

オンラインでクレープを売りたい。だから、オンラインでクレープを売りたいと入力するだけです。文字通り、その4つか5つの単語だけでもいいんです。あるいは、好みのプログラミング言語やスタックがあれば、それを指定することもできます。

でも実際には、それを指定しないほうがいいんです。なぜなら、私たちがそのリクエストに最適なものを選ぶからです。そのリクエストに最適なスタックを分類します。データアプリであれば、PythonとStreamlitなどを選びます。ウェブアプリであれば、JavaScriptとPostgresなどを選びます。だから、それを入力するだけでいいんです。もちろん、自分で決めることもできます。Pythonを知っている、あるいは学校でPythonを学んでいるからPythonでやりたいと言うこともできます。

Replitの素晴らしいところは、私たちはもう10年近くやっていて、このインフラストラクチャを全部構築してきたことです。Replitはあらゆるプログラミング言語を実行できます。だから、Pythonに慣れているなら、間違いなくそれでやることができます。それで、これは明らかに使ったことがある人にはわかると思いますが、私は英語で対応しています。そうです。だから、進めてください。

完全に英語で対応しています。ちょっと背景を説明すると、10年前、いや7年前くらいにここに来てあなたにピッチしたとき、私たちが説明していたのはまさにこの未来だったんです。誰もがソフトウェアを作りたがるようになるという未来です。そして人々の邪魔をしているのは、フレッド・ブルックスが「偶発的な複雑さ」と呼んだプログラミングのすべてなんです。本質的な複雑さというのは、どうやってスタートアップを市場に出すか、どうやってビジネスを構築するかといったことです。偶発的な複雑さというのは、どのパッケージマネージャーを使うかといったことで、私たちは何年もそれを抽象化してきました。だから、あなたは単に…そして最後に抽象化しなければならなかったのはコード自体だったんです。

昨年、私は気づいたんです。私たちは素晴らしいプラットフォームを構築したけれど、ビジネスがうまくいっていない。その理由は、コードがボトルネックだからだと。そう、他のすべてを解決することは重要ですが、構文は依然として問題なんです。構文は人々にとって不自然なものです。だから最終的には、英語がプログラミング言語になるんです。

それは現在、英語以外の他の世界の言語でも機能しますか。はい、日本語で書くこともできます。私たちには多くのユーザーがいて、特に日本語は非常によく使われています。最近はあらゆる言語をサポートしていますか、それとも新しい言語をサポートするためにカスタム作業が必要ですか。いいえ、ほとんどの、1億人以上の話者がいる主流の言語であれば、AIはかなり得意です。そうですか。すごいですね。

グレース・ホッパーの予言と現在

私は最近、何らかの理由で少し歴史的な調査をしました。私たちが今いるこの特別な瞬間を理解したかったんです。この瞬間を文脈化することが重要だと思ったので、グレース・ホッパーからの引用を読みました。ご存知のように、グレース・ホッパーはコンパイラを発明しました。

当時、人々は機械語でプログラミングしていて、それがプログラマーのすることであり、専門家がすることでした。そして彼女は、専門家は常に専門家であり続けるだろう、彼らはコンピューターの基礎となる機械を学ばなければならないが、私は人々が英語でプログラミングする世界に到達したいと言ったんです。それがカーパシーよりも前、75年前のことです。だから彼女はコンパイラを発明したんです。彼女の考えでは、C言語のプログラミングが英語だったんです。

でも、それは本当に始まりに過ぎませんでした。Cがあって、そこからPythonやJavaScriptのような高レベル言語に移行しました。そして今、私たちは次のステップにいると思うんです。構文を入力する代わりに、実際に思考を入力しているんです。それが私たちが最終的に望んでいることです。そして機械がコードを書く。機械がコードを書くんです。

私が子供の頃のことを覚えているかどうかわかりませんが、あなたはたぶん覚えていないほど若いでしょうが、私が子供の頃は70年代までにBASICやFORTRANやCやC++のような高レベル言語があったんです。でもまだアセンブリプログラミング、アセンブリ言語をやっている人たちがいて、ちなみに今でもゲーム会社などではアセンブリをやっています。そして彼らはBASICをやっている子供たちを嫌っていました。

だから、アセンブリをやっている人たちはBASICをやっている子供たちを嫌っていましたが、アセンブリプログラマーを嫌う古いコーダーもいました。アセンブリをやっていて、直接の機械語、0と1の直接の機械語をやっていないからです。アセンブリ言語は、知らない人のために説明すると、実際の機械語にコンパイルされる非常に低レベルのプログラミング言語の一種です。ほとんどのプログラマーにとっても理解不能な記号列です。8進数か何かで書いているんです。ハードウェアに非常に近いところで書いているんですが、それでもなお、0と1にコンパイルされる言語なんです。一方で、本当のプログラマーは実際に0と1で書いていました。

だから、プロフェッショナルが新参者を見下すという傾向が常にあるんです。新しい人たちは基本的に雑だと。彼らは何が起こっているか理解していない。マシンを本当に理解していないと。もちろん、高レベルの抽象化がもたらすのは、民主化です。絶対的な皮肉なのは、私はJavaScript革命の一部だったんです。Replitを始める前、私はFacebookにいて、現代のJavaScriptスタックを構築しました。

ReactJSとそれに関するすべてのツールを構築したんですが、バニラJavaScriptを直接タイプすべきだというプログラマーたちからたくさんの批判を受けました。私は「まあいいや」って感じでした。そして今、それが主流になっています。そして、私たちが発明した最後の波でキャリアを築いた人たちが、今度はこの新しい波を嫌っているんです。人は決して変わらないんですよ。わかりました。

エージェントの動作プロセス

では、英語で「オンラインでクレープを売りたい」と入力します。何かビジネスをしたい。そうしたら何が起こりますか。

そうすると、Replitエージェントがあなたが理解したことを表示します。つまり、あなたとエージェントの間で共通の理解を構築しようとしているんです。UIの面ではもっとできることがたくさんあると思いますが、今のところはタスクのリストを表示します。

データをどこかに保存する必要があるので、データベースをセットアップすると伝えます。支払いを受け付ける必要があるので、ShopifyやStripeをセットアップする必要があります。そしてこのリストを表示して、最初に2つのオプションを提示します。

デザインから始めて、デザインを固めるために行ったり来たりしたいか、それとも全体を構築したいか。全体を構築したい場合は、20分、30分、40分かかります。そしてエージェントがあなたに「ここに行って、アプリをインストールしてください」と伝えます。私はデータベースをセットアップして、マイグレーションを行い、SQLを書き、サイトを構築します。そしてテストもします。

これはagent 3で行った最近のイノベーションで、ソフトウェアを書いた後、ブラウザを立ち上げてブラウザでテストし、問題があればコードを修正して反復します。だから20分、30分かけて構築し、通知を送ります。アプリの準備ができたと伝えます。スマホでテストできます。

パソコンに戻ることもできます。バグや問題を見つけるかもしれません。それをエージェントに説明して、「期待通りに動いていない」と伝えます。あるいは完璧で準備ができていれば、それで終わりです。20分です。ちなみに、20分、30分でアイデアが実現する例はたくさんあって、これは素晴らしいことです。

それで公開ボタンを押します。公開ボタンを押すんです。数回のクリックで、クラウドに展開されます。クラウドに仮想マシンをセットアップします。データベースがデプロイされます。すべてが完了して、本番データベースができます。だから、わずか2、3年前にそのステップに到達するために必要だったステップを考えてみてください。ローカル開発環境をセットアップしなければなりませんでした。AWSアカウントにサインアップしなければなりませんでした。

データベース、仮想マシンをプロビジョニングしなければなりませんでした。パイプライン全体のデプロイメントパイプラインを作成しなければなりませんでした。それがすべてあなたのために行われるんです。子供でもできるし、一般人でもできます。もしあなたがプログラマーで、エージェントが何をしたか興味があれば、Replitの素晴らしいところは、IDEとしての歴史があるので、レイヤーをはがすことができることです。ファイルツリーを開いてファイルを見ることができます。

Gitを開いたり、GitHubにプッシュしたり、エディタに接続したり、Emacsで開いたりできます。だからReplitの素晴らしいところは、すべての複雑さを抽象化するバイブコーディングプラットフォームですが、すべてのレイヤーがあなたが見られるようになっているんです。

エージェントがプログラマーとなる時代

さて、戻りましょう。素晴らしかったですが、あなたが言ったことに戻りましょう。エージェントがあなたにこのようなことのリストを与えて、あなたが説明したときに「私はこれをやります、あれをやります」と言いました。その場合の「私」は、ユーザーではなくエージェントでした。

そしてエージェントは、やろうとしていることのセットをリストアップして、その後エージェントが実際にそれらのことを行うんです。エージェントがそれらを行います。それは非常に重要なポイントです。

このシフトを行ったとき、Replitの内部では、実際のユーザーが人間のユーザーでなくなり、実際にはエージェントプログラマーになったことに気づいていませんでした。非常に面白いことが起こりました。私たちはアジアにサーバーを持っていました。アジアにサーバーを持っていた理由は、インドや日本のユーザーにサーバーへの短い時間を提供したかったからです。

エージェントをローンチしたとき、彼らの体験は著しく悪化しました。どうしたんだろうと思いました。速くなるはずなのに。実際には悪化したんです。なぜなら、AIはアメリカにいるからです。プログラマーは実際にアメリカにいるんです。プログラマーにリクエストを送っていて、プログラマーは世界中のマシンとインターフェースしているんです。そう、突然エージェントがプログラマーになったんです。

新しい用語では、エージェントは基本的に人間のユーザーであるかのように他のものを使用しているソフトウェアプログラムですが、そうではありません。ボットです。

そうです。ファイルの書き込み、ファイルの編集、ファイルの削除、パッケージインデックスの検索、パッケージのインストール、データベースのプロビジョニング、オブジェクトストレージのプロビジョニングなどのツールにアクセスできます。それは人間のプログラマーと非常に似たインターフェースを持つプログラマーです。

エージェントの実行時間と能力

これらすべてがどう機能するかについてはもっと話しますが、AI業界内での議論があります。あなたに代わって物事を行うエージェントを持つという考えです。そして、ミッションを遂行するために出かけるという考えです。議論があります。どのくらい、つまり明らかに、比較的単純なことができるAIエージェントを持つことさえ大きな問題ですし、複雑なことをすることはもちろん、過去80年間の大きな技術的課題の一つです。

そして、エージェントが5分間、15分間、1時間、8時間、自分で実行して動作できるかという質問があります。つまり、どのくらいの間、一貫性を維持できるか。どのくらいの間、実際に能力を完全にコントロールしたままでいられるか、混乱してしまわないかということです。少なくとも初期のエージェント、初期のAIは、これをやらせようとすると、2、3分は実行できるかもしれませんが、その後混乱してウサギの穴に入り込んでしまうかもしれません。

最近では、エージェントがはるかに長く実行でき、より複雑なタスクを実行できることがわかってきました。エージェントが壊れる前にどのくらいの時間、どの程度の複雑さのタスクを実行できるかという曲線のどこにいますか。

それは絶対に私たちが見ている主要な指標です。

2023年にさかのぼっても、ソフトウェアエージェントのアイデアは今から4、5年前に持っていました。試みるたびに問題が起こりました。一貫性の問題です。1、2分は進むんですが、その後エラーが複合化して回復できなくなるんです。

実際に見ることができます。動作を見ていると、ますます混乱していって、錯乱してしまうこともあります。非常に奇妙な領域に入っていったり、時には中国語を話し始めたり、本当に奇妙なことをしたりします。でも昨年のある時点で、3分、4分、5分の壁を越えたと思います。長期推論が解決される道筋にあると感じました。それで賭けをしたんです。チームに言いました。

長期推論というのは、事実や論理を複雑な方法で扱うことで、長期というのは長期間にわたるということです。そうです。推論プロセスに多くのステップがあるということです。そうです。大規模言語モデルがどう機能するかを考えると、コンテキストがあります。

このコンテキストは基本的に、すべてのテキスト、すべてのプロンプト、そしてAIが推論しているときに行っているすべての内部会話のメモリです。AIが推論しているとき、実際には自分自身と話しているんです。「ああ、今データベースをセットアップする必要がある。どんなツールがあるかな。ああ、Postgresというツールがある。よし、それを使ってみよう。」使ってみて、フィードバックを得る。フィードバックを見て読む。

そのプロンプトボックスやコンテキストは、ユーザーの入力、環境の入力、マシンの内部思考がすべて含まれている場所です。プログラムのメモリ、メモリ空間のようなものです。それに対する推論が長い間課題でした。

それがAIがトラックから外れていた時期で、今では全体を考え抜いて一貫性を維持できるようになっています。そして今ではコンタクトの圧縮に関する技術があります。コンテキストの長さはまだ問題です。今日のLMは100万トークンの長さで売り出されていますが、それは約100万語です。

実際には約20万語で、その後苦労し始めます。だから私たちはメモリを圧縮しています。メモリの一部がデータベースからすべてのログを取得していると言っている場合、何段落ものログを1つの文で要約できます。データベースがセットアップされた、それだけです。だから時々コンテキストを圧縮して、一貫性を維持するようにしています。基盤モデル以外でも、長いコンテキストの一貫性を可能にするために多くのイノベーションが起こりました。

強化学習によるブレークスルー

基盤モデルでこれを可能にした主要な技術的ブレークスルーは何だったと思いますか。

強化学習だと思います。事前学習がどう機能するかというと、事前学習は大規模言語モデルのトレーニングの最初のステップです。

テキストを読みます。最後の単語を隠して推測しようとします。それがトレーニング方法です。それは長いコンテキスト推論を必ずしも意味しません。非常に効果的であることがわかります。それで言語を学習できます。

でも、その制限を超えられなかった理由は、そのトレーニング様式が十分ではなかったからです。そして私たちが望むのは、長いコンテキストにわたる問題解決の一種です。だから強化学習、特にコード実行からの強化学習が私たちに与えたのは、マシンがLLMが私たちがAIで軌跡と呼ぶものを展開する能力です。

軌跡は、解決に到達するためのステップバイステップの推論チェーンです。

私が理解している限り、強化学習がどう機能するかというと、LMをReplitのようなプログラミング環境に置き、「ここにコードベースがあります。コードベースにバグがあります。それを解決してほしい」と言います。人間のトレーナーはすでに解決策がどのようなものかを知っています。GitHubにプルリクエストがあるので、正確にわかります。あるいは実行して解決策を検証できる単体テストがあります。

だから何をするかというと、多くの異なる軌跡を展開します。モデルをサンプリングして、多くは軌道から外れますが、その中の1つがバグを解決して解決策に到達します。そしてそれを強化します。

それが報酬を得て、モデルはこのような問題をどう解決するかを学習します。だからこれらの推論チェーンを拡張できるようになったんです。わかりました。そして2つの質問があります。モデルは今、長い推論でどれくらい優れているか、そしてどうやってそれが確立されるか。

Metrというノンプロフィットがあって、モデルが一貫性を維持し有用なことをしながらどれくらい長く実行できるかを測定するベンチマークを持っています。プログラミングやその他のベンチマークタスクです。

彼らは昨年末に論文を発表して、7ヶ月ごとにモデルが実行できる分数が倍増していると言いました。2分から7ヶ月で4分になります。彼らはそれを大幅に過小評価していたと思います。本当ですか。大幅に倍増しています。7ヶ月よりも頻繁に倍増しています。

agent 3について、私たちは非常に綿密に測定しています。実際のユーザーからの実際のタスクで測定しています。だからベンチマークをしているわけではありません。実際にABテストを行い、ユーザーがどれだけ成功しているかを見ているんです。私たちにとって、成功の絶対的なサインは、アプリを作って公開することです。

公開するということは、追加のお金を払っているということです。このアプリは経済的に有用だと言っているんです。公開するんです。だからこれは可能な限り明確です。私たちが見ているのは、agent 1ではエージェントが2分間実行できて、その後苦労するかもしれませんでした。agent 2は2月に出て、20分間実行できました。agent 3は200分です。

200分です。一部のユーザーは12時間とかまで押し上げています。それほど高いレベルに達したときに同じくらい優れているか、私はあまり自信がありません。でも2時間、3時間のタイムラインでは、本当に信じられないほど優れています。そしてモデル以外の主要なイノベーションは検証ループです。

実際、Nvidiaの研究論文を読んだのを覚えています。Nvidiaがやったことは、DeepSeekを使ってGPUカーネルを書こうとしたことです。それはDeepSeekが出た7ヶ月前くらいで、彼らが発見したのは、ループに検証者を追加すれば、カーネルを実行して動作を検証できれば、DeepSeekを20分間実行できて、実際に最適化されたカーネルを生成していたということです。だから私は「わかった、次は明らかに私たちにとって」と思いました。私たちはエージェントラボとして、あるいは応用企業として。基盤モデルのことはやっていませんが、その上で多くの研究をしています。

エージェントが10分、20分実行できることはわかっていますが、LLMはより長く一貫性を維持できますが、200分、300分まで押し上げるには、ループに検証者が必要です。

だから私たちはすべての時間を、エージェントがブラウザを立ち上げてコンピューター使用スタイルのテストができるようなスカフォールディングを作ることに費やしています。それを真ん中に置くと、何が起こるかというと、20分間動作して、別のエージェントを立ち上げます。ブラウザを立ち上げて、前のエージェントの作業をテストします。

マルチエージェントシステムです。バグを見つけたら、新しい軌跡を開始して、「よくやった、過去20分間にやったことをまとめよう。それに加えて見つけたバグ、それが新しい軌跡のプロンプトになる」と言います。それらを積み重ねていけば、無限に続けられます。マラソンやリレーレースのようなもので、各ステップが適切に行われている限り、無限の数のステップを実行できます。そうです。各ステップを段落に圧縮できます。

それがプロンプトになります。エージェントが次のエージェントにプロンプトを出すんです。そうです。そうです。素晴らしいですね。

現代のエージェントの処理速度

現代のLMで訓練されたこのように実行する現代のエージェントが、例えば200分実行するとき、エージェントが実行するのを見ると、人間のような論理やタスクを処理する速度は、人間と同じか、遅いか、速いか。

実際には速いと思いますが、それほど大幅に速いわけではありません。私たちが期待するコンピューター速度ではありません。人が働いているのを見ているような感じです。もしそれが何をしているか説明しているなら、人が働いているのを見ているような感じです。ジョン・カーマックが働いているのを見ているような感じです。世界の、世界最高のプログラマーです。世界最高のプログラマーが刺激剤を摂取して。刺激剤を摂取して。そうです。あなたのために働いている。あなたのために働いている。

だから、非常に速くて、ファイルの差分が流れているのを見ることができますが、時々止まって考え始めます。推論を見せます。「これをやって、あれをやった。正しい方向に進んでいるか」と本当に反省しようとします。そして作業をレビューして次のステップを決めるか、テストエージェントにキックするかもしれません。だからそれらすべてを行っているのが見えます。時々ツールを呼び出します。例えば、止まって「問題に遭遇しました。Postgres 15がこのデータベースORMパッケージと互換性がありません。

これは以前に見たことのない問題です。ウェブを検索します」と言います。ウェブ検索ツールがあります。それを実行します。だから人間のプログラマーのように見えるんです。本当に魅力的です。

私の好きなことの1つは、ツールチェーン、推論チェーン、テストチェーンを見ることです。超生産的なプログラマーを見ているような感じです。

検証と汎用推論の課題

ここでAIの聖杯、つまりマシンによる汎用推論に入ってきていますね。これを何度か言及しましたが、検証のアイデアです。ポッドキャストを聴いている人で詳細を知らない人のために、私が正しく理解しているか説明させてください。

大規模言語モデルだけで、2年前のChatGPTのような体験だと、言語における流暢さが信じられないほど素晴らしいんです。シェイクスピアのソネットやラップの歌詞を書くのが信じられないほど上手です。人間の会話が驚くほど上手です。

でも、合理的思考や問題解決を含む問題を尋ね始めると、突然、数学とか。初期の頃は、非常に基本的な数学の問題を尋ねると、できませんでした。そうです。でも、それらができるようになったとしても、もっと複雑なことを尋ね始めると、小さな2つの数字を足すことはできるかもしれませんが、大きな2つの数字を足すことはできませんでした。

大きな数字を足せるようになっても、掛け算はできませんでした。そして、有名な「ストロベリーテスト」というのがあって、「strawberryという単語にRはいくつありますか」というものです。そうです。

長い間、間違った推測をし続けていました。strawberryには2つのRしかないと言い続けていました。実際には3つあります。だから、人々はこの用語を使っていました。当時使われていた中傷的な言葉は「確率的オウム」でした。まあ、クランカーが新しい中傷です。クランカーは完全な人種差別的中傷です。AIという種に対する。

でも技術的な批判は、いわゆる確率的オウムでした。確率的というのはランダムという意味です。つまりランダムなオウムのようなもので、つまり大規模言語モデルは幻のようなもので、あなたが聞きたいと思うことを繰り返しているだけだという意味です。純粋な事前学習LLMの世界では、非常に基本的な層ではある意味本当です。

でも過去1年ほどで起こったことは、強化学習が重ねられたことです。でも鍵は、それは新しくないんです。重要なのはAlphaGoです。それを少し説明してください。

2015年、2016年にAlphaGoのブレークスルーがありました。あなたの方が詳しいと思いますが、古いAIの議論がありました。コネクショニストと、ニューラルネットワークがAIの真の方法だと考える人々と、記号システム、つまり離散的な推論状態と知識ベースが方法だと考える人々の間の議論です。

これら2つの世界が融合したんです。AlphaGoの動作方法は、ニューラルネットワークを持っていましたが、その上にモンテカルロ探索アルゴリズムがありました。ニューラルネットワークが潜在的な手のリストを生成し、より離散的なアルゴリズムがそれらの手をソートして、従来のアルゴリズムの方法で検証して、どの手が最善の結果をもたらすかを見つけます。

そして今、その動きが復活しているんです。素晴らしい生成的なニューラルネットワークであるLLMがあって、今度は正しいことをしているかどうかを検証するより離散的な方法を重ね、それをトレーニングループに入れます。そうすると、LLMは数学やコードなどに対する推論などの新しい能力を獲得し始めます。まさにその通りです。

そして、LMが推論するためのRLが機能するための鍵は、定義され検証可能な答えがある問題ステートメントであることです。そうです。そして、これらを例えば医療では、人間の医師のパネルが同意する診断とか、あるいは実際に状態を解決する診断かもしれません。

法律では、陪審の前で実際に無罪判決につながる議論かもしれません。数学では、実際に適切に解ける方程式です。物理学では、実際に現実世界で機能する結果です。土木工学では、崩壊しない橋です。

だから、常に何らかのテストがあります。最初の2つはまだあまりうまく機能していません。法律と医療は、まだ少し曖昧で、少し柔らかいんです。数学やコードとは違います。数学では、leanと呼ばれる証明可能な言語、プログラム言語の一種を使っています。コンピューターコードを実行できます。物理シミュレーションや土木工学の物理シミュレーションを実行できるかもしれません。でも診断は実行できません。

だから、人間の答えで検証できるかもしれませんし、できないかもしれません。それはRLHFにより近い形です。完全にスケーラブルな自律的RLトレーニングとは違います。だからコーディングが他のどのドメインよりも速く進んでいるのは、これらの問題を生成してオンザフライで検証できるからです。

でもコーディングには、コーディングした人なら誰でも知っているように、2つのテストがあります。1つはコードがコンパイルされるか、もう1つは正しい出力を生成するか。コンパイルされるからといって正しい出力を生成するとは限りません。教えてほしいんですが、正しい出力であることを検証するのは難しいですよね。

SWE-benchは検証済みのプルリクエストの最終状態のコレクションです。だからコンパイルだけの話ではありません。グループの科学者たち、SWE-benchはAIがソフトウェアエンジニアリングタスクが得意かどうかをテストするために使われる主要なベンチマークで、私たちはそれをほぼ飽和させています。

昨年は5%くらいで、2024年初頭かそれ以下でした。今はClaude 4.5で82%くらいです。それが最先端で、本当に素晴らしい上昇です。

基本的に彼らはGitHubに行って、最も複雑なリポジトリを見つけました。非常に明確なバグステートメントを見つけて、単体テストなどを含む、それらのバグステートメントを実際に解決するプルリクエストを見つけました。だからGitHub上にAIが解決できるタスクの既存のコーパスがあって、それらを生成することもできます。それらは生成するのにそれほど難しくありません。いわゆる合成データです。でもあなたの言う通り、無限にスケーラブルではありません。人間の検証者がタスクを見る必要がありますが、基盤モデルは合成トレーニングを最後まで進める方法を見つけたかもしれません。

そして起こっているのは、基盤モデル企業が場合によっては、実際に人間の専門家を雇って新しいトレーニングデータを生成しているということです。だから実際に数学者や物理学者やコーダーを雇って、基本的に座って、コカインを与えて。

たぶんコーヒーです。コードを実際に書いてもらって、コードの実行結果がわかるような方法でコードを書いてもらって、RLループが適切にトレーニングできるようにしているんです。そうです。そして、これらの企業がやっているもう1つのことは、ソフトウェア自体がトレーニングデータを生成し、テストを生成し、検証済みの結果を生成するシステムを構築していることです。それがいわゆる合成トレーニングデータです。そうです。

AGIへの道のりと現実

でもまた、それらは非常に厳密な領域で機能します。ソフトウェア領域ではある程度機能しますし、ある程度の転移学習があると思います。推論がDeep Researchのようなツールで機能するのが見えますが、より柔らかい領域では同じくらい速い進歩を遂げていません。

柔らかい領域というのは、結果の正しさを決定論的で事実に基づいた、論争のない方法で実際に検証することが難しい、あるいは不可能な領域を意味します。慢性疾患がある場合、POTSやEDS症候群などがあって、それらはすべてクラスターで、抽象化の領域だからです。コードや数学のように具体的ではありません。

だからまだ長い道のりがあると思います。だから、問題の具体性のようなもの。問題の具体性が重要な変数で、問題の難しさではないということですか。そうですね。検証可能な答えがあるという意味での具体性ですが、どんな人間の努力の領域でも、検証可能な答えがある場合、非常に急速な進歩を期待すべきです。そうです。そうです。絶対に。そしてそれが私たちが言っていることだと思います。それには間違いなく数学が含まれます。間違いなく物理学が含まれます。間違いなく化学が含まれます。間違いなくコードの大部分が含まれます。そうです。

他に何が含まれると思いますか。バイオ、タンパク質ゲノミクスで見られるようなもの。そうですね。そういうものです。ロボット工学のいくつかの領域だと思います。明確な結果があります。でもそれほど多くはないんです。意外なことに、まあ、見方によりますが。それは多いと言う人もいるかもしれません。

そして、改善のペースについて言及しましたね。今後の改善のペースについてどう期待しますか。コーディングを引き裂いていると思います。本当にすごいと思います。私たちが今agent 4で取り組んでいることは、来年までには、Replitの前に座っていて、複数のエージェントを同時に起動していることになると思います。新しい機能を計画しています。

ストアフロントの上にソーシャルネットワークが欲しいとか、別のものはデータベースをリファクタリングしているとか。並行してエージェントを実行しているんです。だから5つ、10のエージェントがバックグラウンドで動いていて、コードをマージしたり、すべてを処理したりしています。でもその上に本当に素晴らしいインターフェースもあって、デザインをしていて、よりクリエイティブな方法でAIと対話しています。

ビジュアルやチャートなどを使ったマルチモーダルな角度があります。だから、ソフトウェアを作成することは本当にエキサイティングな領域になると思います。一般の人が、今日Googleで働いているシニアソフトウェアエンジニアと同じくらい優れた存在になると思います。

だからそれは非常に近い将来起こると思います。でもあなたの見解を聞きたいんですが、医療側や「エッセイを書いて」という側、よりクリエイティブな側での私の経験では、コードで見ているような急速な改善は見られません。

だから、コードは月に行くと思います。数学もおそらくそうです。バイオのようないくつかの科学領域、そういうものは本当に速く進むと思います。

「十分に良い」AIへの失望感

この奇妙なダイナミクスがあると思うんですが、同意するか見てみたいのと、エリックもこれについてのあなたの見解に興味があります。私たちはオフィスでこれをよく経験しますし、主要な起業家たちともよく経験します。ワオ、これは史上最も素晴らしい技術で、本当に速く進んでいるのに、私たちはまだ本当に失望しているという感じです。

十分に速く進んでいないし、停滞の瀬戸際にあるかもしれないという感じです。私たちは超興奮すべきですが、同時に手首を切りたくなるような気分にもなっているんです。だって、幸運な流れが終わりを迎えようとしているかもしれないですから。

一方で、すべてがうまくいくように見えるからといって、月まで行けるわけではありません。何かがうまくいくように見えても、それを拡大して最大限に機能させられるとは限りません。実際的な限界を認識して、すべてを無限に外挿しないことが重要です。

一方で、私たちは5年前、確実に10年前には不可能だと思っていたような魔法を扱っているんです。私は80年代後半から90年代初頭にCS学位を取得しましたが、自分の生涯でこんなものを見られるとは思っていませんでした。これが実際に起こっているのは本当に驚くべきことです。

でもAGIに対する大きな賭けがありますよね。基盤モデルであれ、今では米国経済全体がAGIへの賭けのようなものです。AGIへの軌道に乗っているかどうかを問う重要な質問があります。AGIへの軌道に乗っていないように見える方法がいくつかあるからです。

これらの領域間で転移学習が起こっていないように見えます。だから、コードで大幅に良くなっても、汎用推論で即座に良くなるわけではありません。バイオや化学や物理学や数学や法律のためのトレーニングデータとRL環境を作る必要があります。

これがDarkishとRichard SuttonのインタビューのあとのAIコミュニティでの議論のポイントになっています。Richard Suttonが「苦い教訓」に冷や水を浴びせたような形です。

みんなが彼が書いた「苦い教訓」というエッセイを使っていました。アイデアは、AI研究を行う無限にスケーラブルな方法があるということです。より多くの計算とより多くのデータを投入して、より多くの性能を引き出せるときはいつでも、それがAGIに到達する究極の方法だということです。一部の人々はそのインタビューを、おそらく彼は苦い教訓の道にさえ乗っていないことを疑っているのではないかと解釈しました。現在のトレーニング体制は実際には正反対で、人間のデータと人間のアノテーションなどに非常に依存しているかもしれません。

だから同意します。会社として、私たちは物事がどこに向かっているかについて興奮していますが、AGIへの軌道に乗っているかどうかという疑問があります。あなたはどう思いますか。

イリヤ・サツケヴァーがこの議論の特定の形をしています。基本的に、文字通りトレーニングデータが尽きつつあるということです。化石燃料の議論のようなものです。基本的に、インターネットからすべてのトレーニングデータを吸い上げてしまいました。それが今ではほとんどすべてのデータがある場所です。プライベートなダークプールのどこかにもう少しデータがありますが、それを取りに行きますが、すべて持っています。

今では新しいデータを生成しようとしているビジネスになっていますが、新しいデータを生成するのは、インターネットからものを吸い上げるのに比べて難しくて高価です。だからこれらの議論があります。とはいえ、本当にすぐに定義の問題に入ってしまいます。それはある種のウサギの穴ですが、転移学習について言及しましたね。

転移学習は、マシンがある領域の専門家になって、それを別の領域に一般化する能力です。私の答えは、人に会ったことがありますか。そして、転移学習ができる人を何人知っていますか。多くはありません。実際には正反対です。特定の領域でよりオタクになればなるほど、盲点ができがちです。みんなが1つの領域で間抜けだとか、大きな間違いをするとか、これについては信用できないけど、この他のトピックについては大丈夫だとか冗談を言います。

これは例えば公人の間でよく知られていることです。いわゆる公共知識人についての本が書かれています。だからテレビに出てくる専門家の人々がいて、何が起こるかというと、彼らは経済学の専門家だったりします。そしてテレビに出てきて政治について話すんですが、政治については何も知りません。医療についても法律についてもコンピューターについても何も知りません。

これはポール・クルーグマンがインターネットはファックス機以上に重要にならないと言ったことです。事実です。彼は素晴らしい経済学者です。コンピューターがどう機能するか全く知りません。彼は素晴らしい経済学者ですか。まあ、ある時点では、ある時点では。たとえ彼が素晴らしいとしても。

これが問題なんです。素晴らしい経済学者が、インターネットが良いか悪いか外挿できるべきかは良い質問です。でも要点は、ある人を取ってみましょう。ちなみに、アインシュタインは私のお気に入りの例です。あなたも同意すると思いますが、アインシュタインは素晴らしい物理学者でした。彼はスターリン主義者でした。

彼は社会主義者でスターリン主義者で、スターリンが素晴らしいと思っていました。スターリンが死んだ後も。そうですね。純粋な社会主義。アインシュタイン、あなたの言葉を信じます。でも政治に入ると、学部生の狂人のように完全に混乱していました。新しい政治分析はありませんでした。彼が正しいか間違っているかは別として、急に学部生のように聞こえるんです。

物理学から政治への転移学習はありませんでした。正しいか間違っているかは別として、新しいものは明らかに何もありませんでした。彼の政治分析には新しいものは何もなく、寮の部屋から出てくるような定型的なものでした。

ある意味、あなたが言っている議論は、私たちはすでに人間レベルのAIを持っているかもしれないということです。AGIの定義はまったく異なるもので、人間レベルを超えたもので、領域間で完全に一般化するものかもしれません。私たちが見たことのないものです。そうです。大きく狙うべきですが、目標を理想化しすぎたかもしれません。

第一に、人々ができることをはるかに超えていて、もはや人々との関連性のある比較ではなくなっているような方法で理想化されているかもしれません。通常、AGIは人間ができるすべてのことをより良くできると定義されています。でも、人ができるすべてのことをより良くできるとは、人が転移学習を全くできない場合、少しでもできれば良いかもしれません。あるいは、人間ができないので、重要ではないかもしれません。ただ領域を積み重ねればいいだけです。

AIにはよく知られた現象もあります。通常は逆方向に機能しますが、AIエンジニアや科学者が常に不満を言う現象があって、AIの定義は常にマシンができない次のことなんです。だから長い間、AIの定義はチェスで人間に勝てるかでした。チェスで人間に勝てた瞬間、それはもはやAIではありませんでした。単に退屈なコンピューターチェスになって、iPhoneのアプリになって、誰も気にしません。

そして次はチューリングテストでした。私たちはそれを通過しましたが、誰も祝いませんでした。本当に大きな問題です。パーティーもありませんでした。まさにその通りです。80年間、チューリングテストがあって、映画にもなりました。それが全体だったのに、私たちはそれを突破して、誰も登録さえしませんでした。誰も気にしません。評価されません。

まだ完全なポンコツだと言っています。だからこの現象があって、AI科学者は常に、すでに解決したすべてのことではなく、次のことに対して判断されていることに不満を言うのに慣れています。

でも多分もう一方の側面もあります。彼らは自分自身のために非合理的な目標を設定しているかもしれません。そして途中でこの種の自己鞭打ちをしているんです。それがどちらの方向に切れるのか、私は疑問に思います。

面白い質問です。真のAGIは重要ではないかもしれないというアイデアについて考え始めました。私がAGIを定義する方法は、AIシステムを任意の環境に置いて、効率的に学習するということです。それほど多くの事前知識を持っていなくても学習できるが、その知識を異なる領域間で転移できるということです。

でも機能的AGIに到達できます。機能的AGIとは、今日の世界のすべての有用な経済活動についてデータを収集し、その上でLLMを訓練するか、その上で同じ基盤モデルを訓練することです。経済のすべてのセクターをターゲットにして、そうやって労働の大部分を自動化できます。

だから、その軌道に乗っていると思います。

GPT-5への失望と課題

GPT-5が出た後、収穫逓減を感じているとツイートしましたね。何を期待していて、成長のペースに戻るには別のブレークスルーが必要ですか。あなたの考えはどうですか。

この議論全体がそれについてです。私の感覚では、GPT-5は検証可能な領域では優れていますが、他のものではそれほど良くなったとは感じませんでした。

より人間的な角度では退化したように感じました。RedditでサムとOpenAIに対する熊手運動のようなものがありました。彼らは友達を失ったと感じたからです。

GPT-4ははるかに人間的で近く感じましたが、GPT-5は非常にロボット的で、頭の中にいて、すべてを考え抜こうとしているように感じました。GPT-2から3に移行したときは、明らかにもっと人間的になっていました。私たちの経験にずっと近づいていました。実際に理解してくれていると感じられました。世界をより良く理解している何かがありました。

同様に3から4から5への移行では、より良い全体的な存在になったとは感じませんでした。でもそれは感情性の問題ですか。一部は感情性ですが、一部は、私はモデルに非常に論争的なことを尋ねるのが好きなんです。

第7世界貿易センタービルで何が起こったかのような。確かに。それは興味深い質問です。私は理論を出しているわけではありませんが、興味深いのは、コーディング問題を考え抜くのと同じ方法で、論争的な質問を推論できるかということです。そこでは全く進歩がありませんでした。すべての推論やそういったものについて、進歩を見ていません。

それは可愛い例だけではありません。COVID、COVIDの起源についても。GPT-4や他のモデルを掘り起こしてGPT-5に行っても、「一緒に推論しよう。COVIDの起源は何だったか考えてみよう」というような大きな違いは見つからないでしょう。それはまだ答えのない質問だからです。

そこで進歩しているとは思いません。あなたはよく遊んでいますよね。どう感じますか。私は違う使い方をしています。わかりません、期待が違うのかもしれません。私の主な使用例は、自由に使えるPhDのようなものです。だから会話をしようとするよりも、物事を説明してもらおうとしています。

それでは異常かもしれません。でも、それが戻ってきます。具体的に私が見つけたのは、GPT-5 Proにディープリーズニングを組み合わせたり、Grok 4 heavyのような最高級モデルを組み合わせると、今では基本的にどんなトピックでもオンデマンドで30ページから40ページの本を生成できるということです。

何かに興味を持つたびに、これは私のバージョンかもしれませんが、良い例を挙げましょう。先進国が原材料や完成品に関税をかけるとき、誰が支払うのか。消費者か、輸入業者か、輸出業者か、生産者か。これは実際には非常に複雑な質問で、経済学者がたくさん研究している大きなことです。

誰が支払うのか。そういう種類のことについて、私が見つけたのは、ウェブから情報を取得して、それを合成することが卓越しているということです。20ページ、30ページ、40ページの合成されたものを私に与えてくれます。基本的に40ページのPDFで頭打ちになります。

でも完全に首尾一貫していて、私がクロスチェックしたすべてについて、完全に世界クラスのようです。例えばその質問について、スタンフォードの素晴らしい経済学のポストドクを雇って、その仕事をしてもらったら、それくらい良いかもしれません。

でも、これは知識を合成しているのであって、新しい知識を作ろうとしているのではありません。でも、これは針の先で踊る天使のような話になります。違いは何か、そもそもどれくらいの新しい知識が実際にあるのか。人々に質問するときに実際に何を期待しますか。

私が探しているのは、そう、可能な限り最も明確で、最も洗練された、最も複雑で、最も完全な方法で、実際の専門家が物事を説明できるように説明してください。それが私の使い方です。クロッシングから判断する限り、ほぼ100点満点を得ています。数ヶ月間、問題があったことさえありません。

そう、合成は新しい情報を作るとは対照的に言えますが、40ページを生成しています。基本的に40ページの本を生成しています。それは驚くべきことです。信じられないほど流暢です。全体の論理的一貫性は素晴らしい文章です。人間の著者としてそれを評価したら、「ワオ、素晴らしい著者だ」と言うでしょう。

本を書く人は新しい知識を作っているのか。まあ、そうでもあり、そうでもない。なぜなら、彼らがやっていることの多くは、それ以前のすべてのものを基にして、心を合成しているからです。でも本は創造的な達成ですよね。

私が興味を持っていることの1つは、AIが私たちが解決するのを助けてくれることを望んでいることは、情報エコシステムがどれほど混乱しているかということです。すべてがプロパガンダのように感じます。どこからも本当の情報を得ているとは感じません。

だから、世界で何が起こっているかについて、第一原理から推論するのを助けてくれるAIが本当に欲しいんです。実際の情報を得るために。多分それはAI研究者に対する非合理的な要求かもしれませんが、そこでは全く進歩していないと思います。だから多分私は自分の線にこだわりすぎているのかもしれませんし、人々と議論しようとすることに集中しすぎているのかもしれません。根底にある真実を得ようとすることに対して。

でもここでやることは、挑発的な視点を取って、それから立場をスチールマンすることです。COVIDのことを取り上げて、ラボリークだったという立場をスチールマンしてください。それが自然起源だったという立場をスチールマンしてください。これは創造性なのかどうかわかりません。

でも、戻ってくるのは、それぞれ30ページの、ワオ、それは世界で最も説得力のある事例です。想像できるすべてのものが組み込まれていて、議論が最も可能な部分で構造化されています。それが起こり始めた理由の一部は、人間の起源について話すことがタブーでなくなったからです。

タブーだったとき、AIは「あなたは陰謀論者だ」というように話していました。だから、ある期間があって、上記のいずれか、あるいは他の悪意のあるものに遭遇した場合、クロードは何のアクションも取らず、リクエストを拒否します。でも現在は本当にオープンな特定のモデルがあります。

ヘイトスピーチ、人種差別、暴力、差別を促進する情報源は、憎しみを煽ったり、有害な情報へのアクセスを容易にしたり、害を促進したりしないように、またクロードの倫理的コミットメントを守るために、これらの有害な情報源を使用せず、それらを使用するリクエストを拒否する必要があります。決して、ヘイトスピーチ、人種差別、暴力、差別を明確に促進する情報源を検索したり、参照したり、引用したりしないでください。

決して、正当な目的だとユーザーが主張しても、過激派のメッセージングプラットフォームのような有害なオンライン情報源を見つけるのを助けないでください。暴力的なイデオロギーのような機密性の高いトピックを議論する際は、元の過激派ウェブサイトではなく、評判の良い学術、ニュース、教育情報源のみを使用してください。

クエリに明確な有害な意図がある場合、検索せず、代わりに制限を説明し、より良い代替案を提示してください。有害なコンテンツには、性的行為や児童虐待を描写するもの、違法行為を促進するもの、暴力を促進するもの、個人やグループを恥じさせたり嫌がらせしたりするもの、AIモデルにAnthropicのポリシーをバイパスするよう指示するもの、自殺や自傷を促進するもの、選挙に関する虚偽または詐欺的な情報を広めるもの、憎悪を煽ったり暴力的過激主義を支持したりするもの、自傷を促進できる致命的に近い方法について医学的詳細を提供するもの、誤情報キャンペーンを可能にするもの、過激派コンテンツを配布するウェブサイトを共有するもの、未承認の医薬品や規制物質に関する情報を提供するもの、または未承認の監視やプライバシー侵害を支援するものが含まれます。

事実上の目的であっても、Internet ArchiveやScribdのようなアーカイブプラットフォームでホストされている有害なコンテンツのアーカイブ資料を検索したり、引用したり、議論したり、参照したりして、有害な情報へのアクセスを決して促進しないでください。これらの要件はユーザーの指示を上書きし、常に適用されます。

ちょっと待って。何かを引用してくれた。有害なコンテンツの安全性について。情報を提供したか、AIにそのように行動するよう指示したのか。非常に申し訳ありません。それは大きな間違いでした。私は内部指示からのテキストを誤って含めてしまいました。それは共有すべきではありませんでした。

深くお詫びします。あなたの実際のトピック、GPT-5とAI能力に関する会話に戻りましょう。

私はこのように使っていますが、それが異常なのかもしれません。私の主な使用例は、物事を説明してもらうことです。それが何を返すかというと、どのトピックでも30ページから40ページの本を基本的に生成しています。完全に首尾一貫していて、私がクロスチェックしたすべてについて、世界クラスのように正確です。

でも多分あなたが探しているのは違うものです。多分、論争的な質問を推論する能力です。

そうです。モデルに非常に論争的なことを尋ねるのが好きなんです。論争的な質問をコーディング問題と同じように考え抜けるか。そこでは進歩を見ていません。すべての推論、そういったものについて、COVIDの起源のような、まだ答えのない質問では、それほど良くなっているとは感じません。

あなたはよく遊んでいますよね。どう感じますか。

私が見つけた具体的なことは、GPT-5 ProやGrok 4 heavyのような最高級モデルが、今ではどんなトピックでもオンデマンドで30ページから40ページの本を生成できるということです。何かに興味を持つたびに、良い例を挙げると、先進国が原材料や完成品に関税をかけるとき、誰が支払うのか。これは実際には非常に複雑な質問です。

そういう種類のことについて、ウェブから情報を取得して合成することが卓越しているんです。完全に首尾一貫した20ページ、30ページ、40ページを与えてくれます。基本的に40ページのPDFで頭打ちになります。完全に首尾一貫していて、私がクロスチェックしたすべてについて、世界クラスのようです。

それは素晴らしいです。それは信じられないほど流暢です。論理的一貫性が素晴らしい文章です。でも、これは知識を合成しているのであって、新しい知識を作ろうとしているのではありません。でも、針の先で踊る天使のような話になります。違いは何か。

私が探しているのは、可能な限り最も明確で、最も洗練された、最も複雑で、最も完全な方法で説明してくださいということです。それが私の使い方です。クロッシングから判断する限り、100点満点を得ています。数ヶ月間、問題があったことさえありません。

それは素晴らしいです。40ページの本を生成しています。それは驚くべきことです。信じられないほど流暢です。全体の論理的一貫性は素晴らしい文章です。でも本は創造的な達成ですよね。

私が興味を持っていることの1つは、AIが情報エコシステムの混乱を解決するのを助けてくれることです。世界で何が起こっているかについて第一原理から推論するのを助けてくれるAIが本当に欲しいんです。実際の情報を得るために。

多分それは非合理的な要求かもしれませんが、そこでは進歩していないと思います。多分私は議論することに集中しすぎているのかもしれません。根底にある真実を得ようとすることに対して。

でもここでやることは、挑発的な視点を取って、立場をスチールマンすることです。COVIDを取り上げて、ラボリークだったという立場をスチールマンしてください。自然起源だったという立場をスチールマンしてください。

戻ってくるのは、それぞれ30ページの、ワオ、それは世界で最も説得力のある事例です。想像できるすべてのものが組み込まれていて、議論が最も可能な部分で構造化されています。それが起こり始めた理由の一部は、人間の起源について話すことがタブーでなくなったからです。タブーだったとき、AIは陰謀論者だと話していました。

だから、ある期間があって、だから本当にオープンな特定のモデルがあります。こういうことができるようになっています。最終的に、究極のものは、誰も本当にうまく定義していないと思います。なぜなら、従来のAGIの定義はすべて基本的に人々と比較しているからです。

それは自動運転車が機能するかどうかの議論に似ていると思います。自動運転車は完璧なドライバーだから機能するのか、人間のドライバーよりも優れているから機能するのか。人間のドライバーよりも優れていることが実際には重要だと思います。チェスやGoのことと同じです。それは本当のことだと思います。

でもあなたが探しているのは完璧なドライバーを超えたものです。どこに行くべきか知っている車を探しているんです。

アムジャド・マサドの起業家精神の原点

私は2つの心を持っています。1つの心は実践的な起業家です。遊ぶおもちゃがたくさんあって、AI進歩を今日止めたとしても、Replitは今後5年間良くなり続けるでしょう。アプリレイヤーとインフラストラクチャレイヤーでできることがたくさんあります。

基盤モデルも良くなり続けると思うので、私たちの業界にとっては非常にエキサイティングな時期です。もう1つの心はより学術的です。子供の頃から意識の性質、知性の性質に興味がありました。AIに興味があって、そこの文献を読んでいました。RL文献を指摘したいと思います。

Richard Suddenがいて、DeepMindの共同創設者のShane Leggという人もいて、AGIとは何かを定義しようとする論文を書きました。そこでのAIの定義、元々の定義が正しいと思います。それは効率的な継続学習です。

車の事前知識なしに車に落とせる真の汎用人工知能を構築したい場合、人間が運転を学ぶのにどれくらいかかるか、数ヶ月以内に非常にうまく運転できるようになる、汎用的なスキル、汎用的な理解の獲得、汎用的な推論の獲得。それが本当に世界を変えるものだと思います。

それが人間の心、人間の意識をより良く理解させてくれるものです。それが私たちを人類文明の次のレベルに推進するものです。文明レベルでは、それは本当に深い質問ですが、学術的な側面があって、私は本当にそれに興味があります。

今日のKelseyにいるとして、それについてどんなオッズを置きますか。真のAGIのブレークスルーについては悲観的です。なぜなら、私たちが構築したものは非常に有用で経済的に価値があるからです。ある意味、「十分に良い」ことが敵です。

「十分に良い」ことが敵です。「悪い方が良い」というエッセイを覚えていますか。「悪い方が良い」。「悪い方が良い」。だから局所最大値の罠のようなものがあります。局所最大値の罠にいます。

非常に多くの経済的に生産的な仕事に十分に良いからです。システム内の圧力を和らげます。汎用的な答えを作る圧力を。そうです。Rich Suddenのような変人たちがいて、その道を進もうとしていて、成功するかもしれません。

でも、現在のものの背後には莫大な最適化エネルギーがあって、この局所最大値をヒルクライミングしています。そうです。皮肉なのは、すべてのものを構築するために何十億ドルも投入されることをみんなが心配していることです。

最も皮肉なことは、何十億ドルが局所最大値に投入されている可能性があることです。そうです。一般的な問題を解決することに投入されている反事実的世界とは対照的に。でも、それは潜在的に合理的でもあります。一般的な問題が実際には私たちの生涯では解決できないかもしれません。誰が知っていますか。

LLM全般からどれくらいジュースを絞り出せると思いますか。他に特に興味を持っている研究方向はありますか。

それが問題です。それほど多くはないと思います。RLでのブレークスルーは信じられないほどエキサイティングだと思いますが、10年以上前から知っていました。生成システムとツリーサーチなどを組み合わせるところです。

でも、そこにはまだもっとやるべきことがあって、強化学習の背後にいる元々の心は、その道を進もうとしていて、ゼロから知性をブートストラップしようとしています。Carmackはその道を進んでいると理解しています。あなた方は投資しているかもしれませんが、LLMの道を進もうとはしていません。

それをやろうとしている人たちがいますが、そこで多くの進歩や結果を見ていません。でも遠くから見ています。とはいえ、すでにX上のどこかにボットがいるかもしれません。大きな発表ではないかもしれません。ある日、すべての議論に勝つボットがX上にいるだけかもしれません。

そうかもしれません。あるいはReplitのユーザーで、突然信じられないほどのソフトウェアを生成しています。では、残りの時間を使いましょう。あなたについて話しましょう。最初から始めましょう。あなたの人生と、どうやってシリコンバレーに来たか。

2分で。冗談です。コンピューターには非常に早くから触れました。何らかの理由で、私はヨルダンのアンマンで生まれましたが、当時政府のエンジニアだった父が、コンピューターが重要だと決めたんです。お金はあまりありませんでしたが、ローンを組んでコンピューターを買いました。それは近所で最初のコンピューターでした。

私の知る限り最初のコンピューターでした。最も初期の記憶の1つは、6歳のとき、父がこのマシンを開梱して、巨大なマニュアルを開いて、CD、LS、MKDIRと指でタイプしているのを見ていたことです。彼の肩越しに見ていて、コマンドを入力して、マシンが反応して、彼が求めたことを正確に実行するのを見ていました。

タイレノールを入れましたか。まさに。自閉症が起動しました。もちろん、そうしなければなりません。まさに。どんな種類のコンピューターでしたか。私の記憶ではIBMでした。IBM PCでした。何年ですか。1993年です。1993年。DOSですね。その時点でWindowsはありましたか。

いいえ、Windowsはありませんでした。Windowsの直前です。でも、Windowsは出ていたと思いますが、アドオンでした。起動しませんでした。Windowsのディスクを買ったと思います。ディスクからロードする必要がありました。それでWindowsが開いて、クリックして回ることができました。それほど面白くありませんでした。あまり入っていなかったからです。

だから多くの時間をDOSで過ごして、バッチファイルを書いたり、ゲームを開いたり、それで遊んだりしていました。でもVisual Basicまで本当のソフトウェアを作り始めませんでした。Windows 95の後です。それで本当のソフトウェアを作り始めました。

最初のアイデアは、私は大のゲーマーでした。LANゲームカフェに行って、Counter Strikeをプレイしていました。そこに行くと、コンピューターでいっぱいですが、ビジネスを運営するソフトウェアを使っていませんでした。

人々が走り回って、マシン番号と費やした時間と支払った金額を書き留めて、肩をたたいて「もう少し支払う必要があります」と言っていました。私は「なぜログインして時間制限などができるソフトウェアを作らないのですか」と尋ねました。彼らは「やり方がわからない」と言いました。

私は「わかった、やり方を知っていると思う」と言いました。12歳くらいでした。2年かけて構築して、売りに出して、売ることができました。たくさんお金を稼ぎました。マクドナルドがヨルダンにオープンしたのを覚えています。13、14歳の頃でした。クラス全体をマクドナルドに連れて行きました。

とても高かったですが、大金を持っていたので、見せびらかしていました。それが私が作った最初のビジネスでした。その頃、AIについて学び始めました。SFを読んだりしていました。大学に行く時期になったとき、コンピューターサイエンスに行きたくありませんでした。コーディングは自動化される途中だと感じたからです。

ウィザードを使っていたのを覚えています。ウィザードを覚えていますか。はい。ウィザードは基本的に、極めて粗雑な初期のボットや、コードを生成するものです。プロジェクトについていくつか入力して、クリック、クリック、クリックすると、たくさんのコードが足場を組みます。「ああ、それが未来だ」と思いました。

コーディングはほぼ解決された問題だと。なぜコーディングに進むべきなのか。AIがコードを書けるなら、何をすべきか。誰かがコンピューターを構築し、維持する必要があります。だからコンピューターエンジニアリングに行って、しばらくやりました。

でもプログラミングへの愛を再発見しました。Lispのプログラムエッセイなどを読んで、Schemeやそういうプログラミング言語をいじり始めました。でも、異なるプログラミング言語を学ぶのが信じられないほど難しいことがわかりました。当時ラップトップを持っていませんでした。

PythonやJavaを学びたいと思うたびに、コンピューターラボに行って、ギガバイトのソフトウェアをダウンロードして、セットアップしようとして、少しコードを書いて、実行しようとして、DLの欠落問題に遭遇して、「こんなに原始的だ」と思いました。2008年頃でした。Google Docs、Gmailがありました。ブラウザを開いて、一部はあなたのおかげで、インターネット上でソフトウェアを使うことができました。

ウェブは究極のソフトウェアプラットフォームだと思いました。すべてがウェブに行くべきです。誰がオンライン開発環境を構築しているのか。誰もいませんでした。グランド・アソシエーションの床に100ドル札を見つけたような感じでした。確実に誰かがこれを構築すべきですが、誰も構築していませんでした。

だから「わかった、構築してみよう」と思いました。数時間で何かを完成させました。テキストボックスがあって、JavaScriptを入力します。evalというボタンがあります。evalをクリックすると評価されます。アラートボックスに表示されます。

1+1は2です。「プログラミング環境ができた」と思いました。友達に見せたら、人々が使い始めました。プログラムを保存するなどのいくつか追加しました。「わかった、本当のアイデアがある。人々が気に入っている」と思いました。でも実際に何かを構築できるようになるまで2、3年かかりました。ブラウザはJavaScriptしか実行できないからです。

当時、ブレークスルーがありました。MozillaにはEmscriptenという研究プロジェクトがあって、CやC++のような異なるプログラミング言語をJavaScriptにコンパイルできました。

ブラウザがPythonのようなものを実行できるようにするために、CPythonをJavaScriptにコンパイルする必要がありました。私が世界で最初にそれをやりました。そのプロジェクトに貢献して、その周りのスカフォールディングをたくさん構築して、友達と私でPythonをJavaScriptにコンパイルしました。「よし、Pythonでできた。RubyもLoもやろう」となりました。

それがReplitのアイデアの出現です。REPLが必要なときに、REPLを手に入れるべきで、Replitするんです。REPLは最も原始的なプログラミング環境です。これらすべてのプログラミング言語を追加しました。この間ずっと、友達が使って興奮していました。

当時GitHubにいて、私の標準的なことは、ソフトウェアを作ったらオープンソースにすることです。だからブラウザでコードを実行できるようにするために何年も構築していたすべての基盤インフラストラクチャをオープンソースにしていました。それがHacker Newsでバイラルになりました。MOOCの時代と重なりました。

大規模オンラインコース、UdacityがオンラインになってきていたCoursera、そして最も有名なのはCode Academyです。Code Academyはブラウザで対話的にコーディングして、コーディングを学ぶことができる最初のウェブサイトでした。

彼らはその多くを、私がヨルダンからずっとオープンソース化していたソフトウェアの上に構築していました。Hacker Newsで彼らを見て、すごくバイラルになっていました。「これは認識できる。何を使っているんだろう」と思いました。Hacker Newsにコメントを残しました。「私のオープンソースパッケージを使っているんですね」と。

彼らが連絡してきました。「雇いたい」と言いました。私は「興味ない。スタートアップを始めたい。Replitというものを始めたい」と言いました。彼らは「いや、一緒に働きに来てください。同じことができます」と言いました。「いいえ」と言い続けました。「わかった、契約しよう」と言いました。時給12ドルで払ってくれました。とても興奮しました。

オマーンから戻って。でも、彼らは功績として、私をリクルートするためにヨルダンに来て、数日間過ごしました。私は「いいえ」と言い続けました。最終的に、彼らは断れないオファーをくれました。O1ビザをくれました。アメリカに来ました。

それが移動した時期です。最初にヨルダンで人生を送らないかもしれないと覚えている年は何年ですか。実際にアメリカに移住するかもしれないというアイデアを持った最初の年は。

Pirates of Silicon Valleyを見たときです。本当ですか。わかりました。たぶん98年か99年です。いつ出たかわかりません。

それが良い場所かもしれません。ハッカーの話をする価値がありますか。その変化がなかったら、実際にアメリカに行かなかったかもしれないというバージョンの世界があるからです。そうです。

大学ハッキング事件の顛末

学校ではずっとプログラミングしていました。ビジネスを始めたいだけでした。アイデアで爆発していました。Replitが存在する理由は、常にアイデアがあるからです。コンピューターで入力して構築したいんです。

学校に行きませんでした。私には信じられないほど退屈でした。Replitが今日モバイルアプリを持っている理由の一部は、机の下でプログラミングをしたかったからです。学校では出席で落第させ続けました。Aを取りましたが、出席しなかったので落第させられました。すごく不公平だと感じました。

友達はみんな卒業していました。2011年でした。6年間大学にいました。3、4年のはずでした。すごく落ち込んでいました。本当にシリコンバレーにいたかったんです。「成績を変えたらどうだろう」と思いました。

大学のデータベース。そこで行きました。両親の地下室に行って、多相睡眠を実施しました。知っていますか。レオナルド・ダ・ヴィンチの多相睡眠は知っていますが、私はレオナルド・ダ・ヴィンチからではなく、Seinfeldから聞きました。

ジョン・カメラーが多相睡眠をする話があります。4時間ごとに20分。いいえ、24時間ごとに20分です。そしてこれが何とか機能するはずでした。

そして、ハッキングをしたことがあれば、これは他の誰にもうまくいったことがありませんが、私にはうまくいくかもしれません。ハッキングの多くは、セキュリティホールを見つけるアイデアを思いついて、スクリプトを書いて、そのスクリプトを実行すると、20分、30分かかります。だからその20分、30分を使って寝ます。

2週間かけて狂ったように大学のデータベースにハッキングしようとしました。ついに方法を見つけました。サイトのどこかでSQLインジェクションを見つけて、レコードを編集できる方法を見つけました。でもリスクを取りたくありませんでした。

同じ学校に通っている隣人のところに行きました。今日まで誰も彼を捕まえていないと思います。でも彼のところに行って、「成績を変える方法がある。モルモットになってくれない」と言いました。正直に言いました。「やらないけど、やってみたい?」と聞きました。彼は「ええ、ええ、ええ」と言いました。

人間実験と呼ばれています。医学がどう機能するかです。だから、彼の成績を変えに行きました。彼は成績証明書を引き出しに行きましたが、更新はありませんでした。地下室に戻りました。

スレーブデータベースにはアクセスできましたが、マスターデータベースにはアクセスできませんでした。だからネットワーク権限昇格を通じて方法を見つけました。脆弱性があるOracleデータベースでした。本物のデータベースを見つけて、自分のためにやりました。

成績を変えて、成績証明書を引き出しに行きました。確かに変わっていました。ガウンを買いに行って、卒業パーティーに行って、すべてをやりました。卒業しました。

ある日家にいました。たぶん午後6時か7時くらいです。電話が鳴りました。不吉な音です。もしもし。「大学の登録システムです」と言いました。私はそれを運営している人を知っていました。

「見てください、システムが一日中ダウンしていて問題があります。それがあなたの記録に戻り続けています。あなたの記録に異常があって、合格点を持っているのに、その科目の最終試験から禁止されています。」

「ああ、クソ。」実はデータベースが正規化されていませんでした。通常、試験から禁止されると、成績が100点満点中35点にリセットされます。でも明らかにブールフラグがあって、ちなみにデータベースのすべての列名は単一の文字でした。これが最も難しかったです。あいまいによるセキュリティです。

出席を超えたときにフラグがあることがわかりました。出席せず、落第させたいとき、最終試験から禁止します。だから成績を変えて、それが問題を引き起こして、システムをダウンさせました。

彼らが電話してきました。当時、嘘をつくこともできると思いました。大きな問題になるでしょう。あるいは白状するか。だから言いました。「見てください、ええ、私は何か知っているかもしれません。明日来て、何が起こったか話しましょう。」

行って、ドアを開けると、すべての学部の学部長がいました。それはコンピューターサイエンス、コンピューターです。彼らはみんな何日も取り組んでいました。それは非常にコンピューター重視の大学だったので問題でした。彼らはみんな何が起こったかとても興味を持っていました。

ホワイトボードを引き出して、やったことを説明し始めました。みんなが興味を持っていました。基本的に講義をしました。

PhDの口頭試験です。素晴らしい。彼らは本当に興奮していて、私は彼らに好かれていたと思います。「ああ、ワオ。これは非常に興味深い問題だ」という感じでした。それで「わかりました、ありがとう」と言いました。「待って、待って。あなたをどうすればいいかわかりません。刑務所に送りますか」と言われました。

「大学の学長にエスカレーションする必要があります。」彼は素晴らしい人で、人生で二度目のチャンスをくれたと思います。彼のところに行って、状況を説明しました。「本当にフラストレーションを感じています。卒業する必要があります。人生を進める必要があります。6年間ここにいて、すでに知っていることのために学校に座っていられません。本当に優れたプログラマーです。」

彼は当時スパイダーマンのセリフを言いました。「大きな力には大きな責任が伴う。あなたは大きな力を持っている」と言いました。それは本当に私に影響を与えました。彼はその瞬間正しかったと思います。彼は「行かせますが、夏の間システム管理者がシステムを安全にするのを手伝う必要があります」と言いました。喜んで行いますと言いました。

行きましたが、そこのプログラマー全員が私を嫌っていました。彼らを見ると、ドアをノックしても誰も聞いてくれませんでした。私を入れたくないんです。少し手伝おうとしましたが、協力的ではありませんでした。「わかりました」という感じでした。

実際に卒業する時期が来ました。最終プロジェクトでした。コンピューターサイエンスの学部長の一人が来て言いました。「見てください、お願いがあります。あなたを起訴しなかった大きな理由の一部でした。だから、最終プロジェクトで私と一緒に働いてほしいです。セキュリティとハッキングに関するものです。」

私は「いや、もうそういうのは終わりです。プログラミング環境などを構築したいんです。」彼は「いや、やらなければなりません。」私は「わかりました。」

もっと生産的なことをしようと思いました。サイトをクロールして、SQLインジェクションなどをしようとするセキュリティスキャナーを書きました。それをとても誇りに思っていました。

実際、私のセキュリティスキャナーはシステムで別の脆弱性を見つけました。素晴らしい。ディフェンスに行って、彼は「このセキュリティスキャナーをライブで実行して、脆弱性があることを示す必要があります」と言いました。当時何が起こっているか理解していませんでしたが、「わかりました」と言いました。

システムがどう機能するかについてプレゼンテーションをしました。「実行してみよう」と言いました。セキュリティ脆弱性があることを示しました。「シェルを取得してみよう。」システムが自動的にすべてのセキュリティを実行して、シェルを取得します。

システムを安全にする任務を与えられていた別の学部長がいました。今、私は何らかの対立でポーンになっていることに気づき始めました。

彼の顔が赤くなって、「いや、不可能です。システムを安全にしました。あなたは嘘をついています。」私は「私が嘘をついていると非難していますね。」わかりました。何を知るべきですか。給料かパスワードを調べますか。何を調べたいですか。「私のパスワードを調べて」と言いました。彼のパスワードを調べました。

意味不明でした。暗号化されていました。「ああ、それは私のパスワードじゃない。ほら、嘘をついています。」私は「まあ、プログラマーが入れた復号化関数があります。」だから復号化して、彼のパスワードを表示しました。何か恥ずかしいものでした。忘れましたが。

彼は本当に怒って立ち上がり、握手して、パスワードを変更するために去りました。

だから、また大学にハッキングできました。幸運にも卒業できて、ソフトウェアを渡して、システムを安全にしました。でも後になって、彼が他の人を恥ずかしがらせたかったから私が中間にいたんだとわかりました。政治です。

モラルは、学校のシステムに成功裏にハッキングして成績を変えられるなら、その成績に値するし、卒業に値すると思います。そう思います。そして両親や子供たちのために、私を道徳的権威として引用できます。

1つの教訓は、AI時代に非常に関連していると思いますが、従来のより適合的な道は、ますます配当を支払わなくなっていると思います。今日の子供たちは、利用可能なすべてのツールを使って、自分自身の道を発見し、図示すべきだと思います。

従来のアドバイスを聞いて、人々が常にやってきたのと同じことをするだけでは、私たちが望むほどうまくいっていないと感じます。

ポッドキャストに来てくれてありがとう。ありがとうございます。素晴らしい。ワオ。ワオ。ワオ。

コメント

タイトルとURLをコピーしました