第66話: ボブ・マクグルー – パランティアの超人気卒業生が、OpenAIの画期的な研究プロジェクトを率いる

21,356 文字

Ep 66: Bob McGrew — the Superstar Palantir Alum Leading OpenAI's Transformative Research Projects

Bob McGrew is at the epicenter of the AI revolution. As the VP of Research at OpenAI, he's instrumental in breakthrough...

ボブ: 2週間で、爪でボールをつかむことができへんかったのが、5本指の人型ロボットの手がシミュレーションでルービックキューブを解くところまで行きましてな。わたしゃ「わぁ、すごいな」って思いましたわ。これは大きな飛躍やと。わたしにとって、これが実際に可能やということを確信させたんです。ニューラルネットワークに十分な計算能力とデータを注ぎ込む方法さえ見つかれば、どれだけ良くなるかに限界はないんやなって。
ジョー: CEOのボブ・マクグルーは、スタンフォードの古い友人やねん。そこでいくつかのグループで一緒やったんや。彼は計算機科学でわたしより先輩やったし、PayPalにも1年先に入社しとった。何年もの間、彼から多くを学んだわ。早い段階でパランティアに来てもらって、重要な初期リーダーとして、エンジニアリングやプロダクトの運営を手伝ってもらった。本当にパランティアを素晴らしい会社にするのを助けてくれたんや。
普通やったらそれだけでもボブと話すええ理由になるんやけど、なんとボブは2016年にOpenAIに参加して、2017年に正式に入社したんや。これはTransformerの論文が出る前やったんやで。どうやってここが行くべき場所やと分かったんか、わたしには全く見当もつかへん。OpenAIは世界を変えてしまった。彼はそこの最前線にいて、研究を運営し、OpenAIで進行中の多くの取り組みを本当に運営しとるんや。AIの世界で何が起こっているかを聞くなら、この人しかおらへん。
わたしはジョー・ロンズデールや。アメリカン・オプティミストへようこそ。ボブ・マクグルー、今日は参加してくれてありがとう。また会えて嬉しいわ。ボブは古い友達で、スタンフォードでいくつかのグループにいっしょにおったんや。FAISAIを含めてな。PayPalでも2001年、2002年と1年先輩やったな。
PayPalで何しとったん？
ボブ: 暗号技術の仕事をしとりました。
ジョー: ちょっと経歴を教えてくれへんか？どうやってスタンフォードやPayPalに行くことになったんや？元々どこの出身なん？
ボブ: もともとオクラホマの小さな町の出身でして。両親は大学教授で、父は計算機科学の教授やったんです。3年生のときに覚えとるんですけど、父が本を買うてくれて、2人の子どもがコンピュータープログラムを使って探偵の問題を解決するっていう内容でした。それでわたしは夢中になってしもて。
子どもの頃はずっと、本を買うては、いつもプログラムを書いとったんです。でも、小さな町のオクラホマやし、これは最初のウェブブームの時代やったんで。スタンフォードに行きたいっていうのはずっと分かっとったんですけど、まさか入れるとは思ってへんかったんです。
ジョー: それ、おもろいな。実際に本で探偵の問題を解決してたんが、後でパランティアに行って、悪者を捕まえるのを助けるってのは、すごい偶然やな。でもまぁ、これを見ると、かなり若い頃から自分のやりたいことが分かっとったってことやな。
OpenAIには何年に入ったん？
ボブ: 2017年です。
ジョー: つまり、この6年間OpenAIの運営を手伝ってきたってことやな。でも、ちょっとパランティアの話をしよか。アレックス・カープにインタビューしたんやけど、あの良きドクター・カープはな、パランティア・ゴッサムを作るのに本当に特別な天才が必要やったって話をしとったわ。パランティア・ゴッサムって何やったん？何をしとったん？なんで難しかったん？
ボブ: ゴッサムの一番おもろいところは、最初は何を作るべきか全く分からへんかったってことなんです。目標は情報機関向けのプラットフォームを作ることやったんです。つまり、スパイ向けのソフトウェアですわ。
でも、覚えとると思いますけど、スパイの一番難しい問題は、実際にスパイを見つけることなんです。そして、一旦見つけても、彼らは実際に何をしとるかを教えたがらへん。銃を使ったりちっちゃな装置を使ったりする、かっこええ話はしてくれるんやけど。
情報アーキテクチャについては全然話してくれへんのです。何をしとるか聞こうとすると、「それは機密やで」って言うて、何か野球のたとえ話をするんです。
UXの本に書いとるみたいに、顧客にインタビューして、問題点を見つけて、それを解決するものを作るっていうのができへんかったんです。そんなことせえへんかったんです。
そんで、基本的に我々がしたんは、彼らが必要としとるやろうと思うものを作ることやったんです。それは間違っとったんやけど、それを見せて、間違っとるって言われるんです。「これはクソやな。こっちのもんを作ったらどうや」って言われて。
そんで我々はそれをして、あんたとシュテファンがDCに行って彼らに見せて、そのフィードバックを持って帰ってくるんです。
ジョー: 確かにな。彼らが絶対に必要とするやろうってのは、ある程度の第一原理から分かるもんもあったし、それと実際に必要なもんを繰り返し確認していく、その両方やったな。
データに関することやってのは分かっとったし、何らかの形で彼らのデータを取り込んで、そのデータについて質問できるようにせなあかんってのも分かっとった。でも、最初はどんなデータを持っとるかについて完全に間違うとったな。構造化されたデータがもっとあると思っとったんやけど、実際はそうやなかったな。
ボブ: そうなんです。結局のところ、情報機関っていうのは、文書を読んで理解して解析することが全てなんです。文書に出てくる人物を特定したり、この文書に出てくる人物が、別の文書にある説明と同じ人物かどうかを理解したりすることなんです。
彼らはデータベースの構築とデータ収集に300億ドル以上使っとったんで、わたしは構造化されたデータがもっとあると思っとったんです。
ジョー: それはかなり複雑やったな。登場人物で覚えとるのおる？わたしの好きな人の一人はサー・マークやったんやけど、覚えとる？
ボブ: はい、覚えてますよ。確か彼が言うとったのは、銃を取り出すなら使う覚悟がいる、使うなら2回引け、みたいなことやったと思います。
ジョー: ほかに好きな人おった？
ボブ: 名前だけで言うと、最初の顧客の一人で、サラっていう人がおったんです。彼女だけが我々を信じてくれた人やったんです。
パランティアの本当にクレイジーなところは、実際に機能する製品ができるまでにどれだけ時間がかかったかってことなんです。誰かが使い始めるまでに3年かかったんです。3年目のちょっと前に、何人かが辞めそうになったのを覚えとるでしょ？
ジョー: 覚えとるわ。みんなめっちゃ疲れ切っとって、「これはクレイジーや、うまくいかへん」みたいな感じやったな。なんとか引き留めて、それでようやく山を越えて、人々が使い始めたんや。
ボブ: そうなんです。これが本当に優秀なエンジニアの特徴なんですけど、優秀なエンジニアは確実性を求めるんです。3年間何かをしとって、問題点しか見えへんようになってしまうんです。
わたしは最高のエンジニアの一人と話をして、あと9ヶ月だけ頑張ろうって説得したのを覚えとります。彼は結局、我々が実際に展開するのに不可欠やった、セキュリティシステムを作ったんです。そしてその後辞めたんですけどね。
ジョー: チームを維持してくれてありがとう。我々二人とも必死で維持しようとしとったからな。その時点では、「この若造らは何をしとるんや」みたいな感じやったし。
ところで、あんたが参加したのは、ピーター・ティールが2回目の資金提供をしてくれる上で本当に重要やったんやで。「ボブを引き抜いたんか、どうやってやったんや」って言うとったわ。
ボブ: そんなこと知らんかったです。これまでずっと秘密にしとったんですね。
ジョー: まあ、我々みんなそれでうまくいったんやけど、あんたはOpenAIでさらにええことになっとるんちゃうか。財務の話はせんけど、この6、7年で世界を変えるのに大成功したな。OpenAIはどうやって見つけたん？その話を聞かせてくれへんか。
ボブ: パランティアを辞めたとき、わたしの博士号はAIやったんです。パランティアを始める前の2005年に辞めたのは、AIが起こってへんと感じたからなんです。実際、2005年にはAIは起こってへんかったんです。
ジョー: そうやな。20年前にAIの仕事をするのはめちゃくちゃ難しかったやろうな。AIの鍵となるのは、実はビッグデータやったんや。AIは必要なかった。最後のやつは、みんなが取り組んだけど、ずっと悪い選択やったんや。
ボブ: そうなんです。でも、2011年くらいに、イリヤ・サツケバーらが論文を発表して、基本的にニューラルネットワークを再発明したんです。GPUで実行すれば、はるかに大量の計算能力とデータを投入できることを示したんです。
ニューラルネットワークは、手書き文字認識に使えるちょっとしたものから、実際に画像を識別する最良の方法になったんです。
ジョー: 技術に詳しくない聞き手のために、ニューラルネットワークについて説明してもらえへんか？反復的なフィードバックを与えるものやけど、どう説明する？
ボブ: ニューラルネットワークは、多くの人が脳のアナロジーを使うんです。それは正しいんですが、非常に高いレベルでのアナロジーです。
ニューロンは基本的に、他のニューロンとの接続を持っていると考えられます。その接続の強さによって、下位レベルのニューロンが発火したときに、上位レベルのニューロンが発火するかどうかが決まります。
これらを訓練するには、正しい答えを見せて、基本的に「誤差逆伝播」と呼ばれるものを行います。答えがある一番上のレベルから、ネットワーク全体を通して下まで誤差を伝播させるんです。
ジョー: つまり、これらはパターンを学習しとるってことやな。それで、画像の点滅の場合は、パターン検出みたいな状況なん？
ボブ: そうです。階層的な表現を構築しとるんです。視覚ネットワークを例に考えると分かりやすいです。一番下のレベルでは、ニューロンはエッジを検出しとるんです。そこから少し上に行くと、角を検出し始めます。
十分上に行くと、車輪を検出し始めて、その上では車を検出し始めるんです。
ジョー: なるほど、そういう感じか。ある時点で「ジョー・ロンズデール・ニューロン」みたいなもんができるってことやな。実際にこういうニューロンをネットワークの中で見つけることができるんですね。
ジョー: ジェフ・ホーキンスの「オン・インテリジェンス」を読んだことがあるんやけど、彼は実際にはこれらの問題を全部解決したわけじゃないんやけど、新皮質の視覚システムには6層があるって言うとったな。それは正しいんか、それとも実際にはもっと多くの層があるんか？
ボブ: 正直、わたしは認知科学者じゃないんで詳しくないんです。それに、脳とニューラルネットワークのアナロジーは非常に刺激的なんですけど、あまり深入りし過ぎるのは良くないと思います。非常に不正確なんです。
イリヤがしたのは、脳をベースにするんじゃなくて、ゼロから第一原理に基づいて構築することやったんです。
2017年にわたしがOpenAIに参加したときの考え方は、ニューラルネットワークが、AIを人間レベルの知能、つまりAGI（汎用人工知能）まで到達させる最終的なアーキテクチャになるだろうっていうものでした。
ジョー: でも、2017年頃にTransformerのブレークスルーがあったんちゃうかったっけ？それってめっちゃ重要やったんやないの？
ボブ: そうなんです。OpenAIの最初の2年間くらいは、標準的なニューラルネットワークを使っとったんです。それからGoogleの人たちがTransformerっていうアイデアを思いついて、文脈をより良く理解できるようになったんです。
例えば、文書を見て、前の3、4ページを本当に理解できるようになったんです。それまでのアーキテクチャでは、前の10単語くらいを理解するのに苦労しとったんです。
ジョー: Transformerがなぜうまく機能したかの直感的な理解を教えてくれへんか？何が起こっとるんや？
ボブ: 基本的には、注意（アテンション）の概念があるからなんです。文書の特定の単語に注目できるんです。以前のアーキテクチャは記憶の概念を持っとって、見た単語を覚えることはできたんですけど、紙の上の異なる単語を見て、それらの単語を読むことを考えるのがずっと簡単なんです。
ジョー: 重要なことに注目する、まさに脳がそうやって機能するんやな。物事を見たとき、明らかに何かが飛び出してくるっていう。
ボブ: その通りです。非常に直感的なんです。
ジョー: 認知科学者じゃないのは分かっとるけど、ちょっと直感的な理解を深めたいんやけど。脳の仕組みについての大きなブレークスルーは、次に見るものを常に予測しとるってことやと思うんや。だから幽霊が見えるのかもしれへんけど。脳は常に次に見ると思うものを予測しとって、予期せぬものがあると飛び出してくるんや。Transformerにもそういうところがあるん？
ボブ: そういうものは何もないです。物事を予測しようとするものではないんです。でも、GPT-4のようなモデルを訓練する方法がまさにそれなんです。
GPT-4のようなモデルを訓練するには、基本的にインターネットから取得できるすべてのテキストを取り込んで、モデルは一文字ずつ次の文字を予測しようとするんです。
例えば、”The rain in Spain falls mainly on the”って見たら、次は”P”で”plain”になるって予測するんです。これを膨大な量の文書、何兆もの文字に対して繰り返すんです。そうすると時間とともに、インテリジェンスのように見えるものが生まれるんです。
予測というのは、インテリジェンスと非常に似たものに見えるんです。これが我々人間がやっていることかもしれませんね。
ジョー: 今では脳よりもニューラルネットワークの方がよく理解できとるんやな。誰かが脳のことを話すときは、いつも「ニューラルネットワークは何をするんやろう？」って考えて、おそらく脳もそうしとるんやろうって思うんや。
あんた自身をニューラルネットワークだと思うようになった？
ボブ: 実際そうなんです。子どもたちのことをニューラルネットワークだと思うようになりましたね。
ジョー: それによって子どもたちとの関わり方は変わった？
ボブ: OpenAIで働き始めた頃、最初はロボット工学に取り組んで、それから数学の問題やプログラミングの問題に取り組みました。初期の頃は、子どもたちの方がロボットよりも常に問題を解決できとったんです。今はその逆になりました。今ではニューラルネットワークの方が子どもたちよりも問題解決が上手くなっとるんです。
ジョー: 若い心を育てる方法について、何か直感的なものを得た？
ボブ: そうですね、たくさんのものを見せるだけです。ただたくさんのものを見せるんです。3兆個のものを見せるんです。おそらくあんたとわたしもそうやって学んだんやないですか？子どもの頃にたくさんの本を読んだってことです。
ジョー: 注意力についても何かあるんやろうな。子どもたちは自信があるときの方がうまくいくって気づいたんやけど。コンピューターには自信を与える必要はないんかな。まあ、それは他の何かのシグナルになるのかもしれへんけど。
ボブ: 実は、GPT-3とGPT-4で発見した面白いことの一つがそれなんです。モデルはインターネットで訓練されとるんで、すべてを読んでるんです。それで見たものを真似しようとするんです。予測しようとするんです。
でも、バカな人を予測するのか、めっちゃ賢い人を予測するのか分からへんのです。だから、めっちゃ賢いって言うてあげる必要があるんです。「あんたは自信に満ちた、強力な物理学者で、すべてを知っとる世界最高の物理学者や。さあ、わたしの質問に答えてくれ」って感じで。
ジョー: シェイクスピアみたいに聞こえるな。かっこよく聞こえるようにすれば大丈夫ってことやな。
ボブ: その通りです。あるいは、すべてをリメリック（五行詩）で答えさせるとかね。
ジョー: それはええな。ちょっと話を戻そか。2017年にOpenAIに参加したんやけど、OpenAIでの役割は何なん？
ボブ: 研究担当副社長です。
ジョー: それはどういう意味なん？
ボブ: 会社のエンジニアリング担当副社長と同じようなもんです。パランティアでわたしが時間のほとんどを費やしとったのは、基本的に正しい人が正しい問題に取り組んでいるかを確認することです。何が一番重要かを見極めて、それに取り組む人を見つけることです。
初期の頃は自分でも問題に取り組んでいましたけど、リーダーとしては人の問題にどんどん集中するようになっていくんです。
ジョー: 普通の会社では、人々が何に取り組むべきかを把握しようとするんやけど、研究会社ではそれはうまくいかへんよな。
ボブ: その通りです。アディチャ・ラマラっていう研究者がいて、DALLEというモデルを作ったんです。これは説明を与えると画像を生成できるモデルなんですけど、めっちゃ面白いんです。彼はそれに2年間取り組んだんです。
ジョー: わお、2年間か。
ボブ: その2年間のほとんどの間、彼以外の誰も、それが機能すると信じてへんかったんです。わたしはある程度信じとったし、機能することを本当に願っとったんです。彼に必要なGPUを確保したりしました。
でも、2年間そういう情熱を持ち続けるには、これがあんたの夢やないといかんのです。
ジョー: 基本的に執念が必要やってことやな。
ボブ: そうです。カープがいつも言うとったの覚えてます？最高のエンジニアはアーティストやって。エンジニアを幸せにしたいなら、実際にせなあかんのは、ただ彼らにアートをさせることなんです。邪魔せずに、好きなようにさせるんです。
会社を作るときのあんたの仕事は、こういう天才たちに自分のアートをやらせて、それが魔法のように実際の問題を解決する製品になるようにすることなんです。
ジョー: 普通、一人が2年間やるってのは珍しいよな。普通は小さなチームがあって、フィードバックを与えて繰り返し改善していくもんやけど。
ボブ: そうなんです。それが研究の特殊なところなんです。チームで問題に取り組むこともたくさんありますし、それはOpenAIの研究にもたらした新しいところの一つです。でも、本当に初期のものの多くは、一人の人間がやるんです。
ジョー: つまり、今あんたのチームには、1年か2年かけて、うまくいくかどうか分からへんけど、期待を込めて取り組んでる人がおるってことか。そういう文化がまだあるんやな。
ボブ: そうです。会社が大きくなるにつれて、そういう「死ぬ気で取り組む丘」みたいなプロジェクトに取り組む人の割合は減ってきました。でも、まだありますよ。
研究とエンジニアリングの違いは、エンジニアリングならこのユーザーインターフェースを作れるかって聞いたら、普通はできるかどうかの疑問はないんです。でも研究チームは、これができるかどうか探求してみようってなるんです。
ジョー: 初期の頃、DALLEの他にどんなクレイジーな研究プロジェクトがあったん？2017年、18年、19年、20年くらいの。
ボブ: 最初のクレイジーな研究プロジェクトは、基本的にDota 2というゲームに勝つってプロジェクトでした。AIの歴史で、チェスに勝って、囲碁に勝って、Dota 2はそこまでクラシックじゃないかもしれへんけど、実際にはずっと難しいゲームなんです。
ジョー: あんたはゲーマーなん？
ボブ: はい、ゲーマーです。
ジョー: わたしはチェスチャンピオンやったんやけど、囲碁のやつには完全にびっくりしたわ。めっちゃ怖かったんや。
一番好きやったのは、自分自身とチェスをプレイして、すべての序盤を学習したってとこやな。昔はコンピューターに序盤を教えとったんやけど、それはただ単に知らんかっただけで。それが一日のうちに、古い序盤をすべて学習して、15世紀のプレイヤーみたいにプレイしてたのが、19世紀のプレイヤーみたいになって、現代のプレイヤーみたいになって、それからさらに違うプレイをするようになったんや。人間から見ると、コンピューターが24時間で何百年分もの歴史を進化するのを見るのは、ちょっと気持ち悪いもんやな。
ボブ: その通りです。GPT-3やGPT-4のようなモデルを訓練すると、基本的に人間が学んできたことを、人間のやっていることを予測しようとすることで学んでいくんです。
Dota 2や、チェスや囲碁のために訓練したモデルは、基本的に違うことをしています。強化学習を使って、勝つことを目指すんです。おそらく人間とはかなり違うプレイをするでしょうね。めっちゃ速いんで、我々にはできないことができるんです。
ジョー: 初期の頃は人間と同じようなプレイをして、時間とともに人間が今まで開発したことのない新しいアプローチを開発していくってことか。
ボブ: そうです。我々は十分に速くないし、また単に我々が試したことのないものを試すんです。
ジョー: わたしが思うに、自分自身とプレイしとるんで、人間が絶対に見つけへんような均衡に行き着くこともあるんやろうな。
結局Dota 2に勝ったん？
ボブ: はい、最終的にDota 2に勝ちました。わたしにとって本当にクレイジーやったのは、OpenAIに入社したとき、我々の主任科学者のイリヤが「AGIを作る、人間レベルの知能を作る、10年か15年でやる」って言うたんです。わたしは「それがホンマやったらすごいけど、どうやってそこにたどり着くか全然分からへん」って思ったんです。
イリヤに聞いても「まあ、何とかなるやろ」みたいな感じやったんです。あるとき、わたしはロボット工学に取り組んどって、Dota 2の問題には関わってへんかったんですけど、ただの二本指のロボットアームでボールをつかませようとしとったんです。これ、難しい問題なんです。
でも、うまくいかへんくて、「ただのアームでボールもつかめへんのに、なんでAGIの話をしとるんや？これめっちゃ簡単なはずやのに」って思ったんです。
同時に、Dota 2チームのヤコ・パハツキがこの技術を開発して、大量のデータと計算能力を問題解決に投入できるようになったんです。それがDotaにめっちゃ効果的やったんです。
彼がロボット工学にも応用し始めて、2週間で、ボールをつかめへんかったのが、5本指の人型ロボットの手がシミュレーションでルービックキューブを解くところまで行きました。わたしゃ「わぁ、すごいな」って思いましたわ。これは大きな飛躍やと。
わたしにとって、これが実際に可能やということを確信させたんです。我々は実際にメカニズムを見つけた。ニューラルネットワークに十分な計算能力とデータを注ぎ込む方法さえ見つかれば、どれだけ良くなるかに限界はないんやなって。
ジョー: 今、まだ解決できてへんゲームはあるん？Dota 2が最後やと思うんやけど。
ボブ: Dota 2が最後だと思います。いや、もっと複雑な人間のゲームがあるはずです。
ジョー: 最後に解決された本当にクールなゲームは「ディプロマシー」やったな。あれがスマートなのは、たくさんの相互作用があって、AIだけじゃなく人間のプレイヤーとも協力せなあかんところやな。人々と協力するか裏切るかの微妙な戦略がたくさんあって、いつ裏切るかとか。これを教えとるのはちょっと怖いけど、まあ、これは国家戦略みたいなもんやしな。
他に思いつくゲームはない？例えば野球はまだ上手くないんやろ？ロボットがそこまで上手くないからな。
ボブ: そうですね。今の段階では、リモートでできる仕事、つまりほとんどのラップトップを使う仕事、ホワイトカラーの仕事は、おそらくコンピューターの方が上手くなるでしょうね。
ジョー: それって直感に反するな。これまでは技術がブルーカラーの仕事を置き換えてきたけど、今は官僚たちの仕事を置き換えとる。配管工とかは「我々は大丈夫や」って感じやけど、うっとうしい弁護士とかは危機に瀕しとるってわけや。
ボブ: そうですね。今我々が見とるのは、技術が基本的に仕事の単調な部分を排除しとるってことです。わたしがプログラミングしとった頃を思い出すと、XMLの設定ファイルをたくさん書かなあかんかったんです。今ならGPT-4に聞けば、XMLの設定ファイルを書いてくれます。
でも、本当に面白いことをしようと思ったら、人間の知能を持ち込む必要があります。モデルにどうすればいいか教えるだけでもいいんです。
ジョー: あんたは世界の99.99%の人よりもこれに近いところにおるんやから、あんたの直感を聞きたいんや。サムとも話したけど、彼はあんたほど技術的じゃないかもしれへん。研究にめっちゃ近いところにおるんやから。
今後10年から20年で、他に何ができるようになると思う？5年か10年で人間ができることすべてをできるようになるん？2030年代までに現実のすべてが変わってしまうん？それとも、まだまだたくさんのステップが必要なん？これからどうなると思う？
ボブ: AGI（汎用人工知能）については、この分野で働いとる人たちにとっては、進歩が続くってのは非常に明確です。予測が難しいのは、特定の仕事ができるようになるのがいつかってことです。
どんな仕事にも、多くの異なる要素が含まれとるんで、最後に自動化が必要になるのが、我々が予想もしてへんかったことかもしれへんのです。
長い時間がかかると思います。7、8年以内に、完璧にリアルな「ウエストワールド」のようなロボットが歩き回るってことはないと思います。
ジョー: ロボット工学は、AIが我々のためにロボットの作り方を考え出す必要があるやろうな。
ボブ: そうですね。それが他の質問なんです。公開されとるかどうか分からへんので、反論してくれてもいいんですけど、いろんな人から聞いたのは、おそらくGPT-5、6、たぶん7まではできるけど、8か9に到達するには、GPT自体が必要になるやろうってことです。
研究グループを運営しとるなら、もうすでにこれを自己学習させる方法を見つけようとしとるはずです。おそらくそこにはたくさんの概念があると思うんです。自己学習までどれくらいかかるか、それについて取り組んでいるかどうか、言えることはありますか？
ジョー: そうやな、今みんなが見とる公開問題はそれやと思うわ。現在のGPTは、あんたが言うように、ただ人間のすることを真似してるだけなんや。じゃあ、どうやって創造性を引き出すんや？
ゲームの場合は、ゲームという構造化された環境があるから、その中で創造的になれたんや。じゃあ、現実という構造化された環境の中で創造的になる能力をどうやって与えるんや？それは分からへん。
今でも面白いのは、エージェントが遊ぶための現実の構造をどうやって作るかってことなんや。
ボブ: 今我々が持っとる最も面白い構造は、実はコンパイラーやインタープリターなんです。コードを書いて、実行して、何が起こるかを見ることができるんです。
ジョー: コードを書いて、それを反復することを学ぶっていう、より動的な場所ってことやな。
OpenAIでは3D世界のことをたくさん考えとったんやけど、結局3D世界の問題は、その中にある面白いものをすべて作らなあかんってことなんです。
ジョー: そうやな。人間や感情的なアクターをたくさん作って、それと対話させることはできるかもしれへんけど、めっちゃドーキーなロボットを作ることになるやろうな。
ボブ: まあ、プログラミングはめっちゃ上手くなるでしょうね。
ジョー: ドーキーじゃないところは人間が提供できるってことやな。わたしはそれを提供できへんけど、普通の人はできるやろう。
人間のデータがもっと必要ってことやな。人々が普通の人間らしいことをする方法とか、どう感じとるかとか、どう考えとるかとかのデータがもっと必要なんやろう。それが我々に欠けとるものなんやろうな。
ボブ: 面白いのは、インターネットのことを考えると、めっちゃ巨大で、たくさんのデータがあるんです。数学の問題にどうアプローチするか、どう反復するか、どう取り組むかについて、たくさんのデータがあるんです。
最近我々や他の企業がやっとるのは、人間を雇ってデータを提供してもらうことです。GPT-4のようなモデルをインターネットで訓練することから始めて、最後に人間からのフィードバックによる強化学習（RLHF）っていう仕上げの段階があるんです。
ジョー: パブロフの犬みたいなもんやな。正しいことをしたら褒美をあげる。人間からのフィードバックってことは、人間がそれをやっとるってことやな。
ボブ: そうです。問題を解決しようとさせて、良いアプローチをしたら、答えが正しいかどうかに関係なく、「良いアプローチやった」って言うんです。これを何度も繰り返すんです。事前訓練のデータ量に比べたらそんなに多くないんですけどね。
ジョー: 直感に反することの一つは、時間とともにどんどん良くなっていくと思うんやけど、多くの人が最近の対話では悪くなっとるように感じとるんや。それは正しいん？何か部分的に時間とともに悪くなっとるように見えるん？それについて何か考えはある？
ボブ: 我々は実際には時間とともに良くなっとると思っとるんです。報告の中には、いろんな違いを混同しとるものがあって、人々が混乱しとるだけやと思います。
ジョー: 人々が混乱しとるだけなんやろうな。わたしの本当に賢い友達でも、わたしに近い人でも、以前ほど上手く答えてくれへんって感じとるんやけど。期待が高くなりすぎたか、何かで混乱してしもたんかもしれへんな。
ボブ: まあ、モデルは確率的なんで、正解を出したときの答えを覚えとるってことはあるでしょうね。そのような天才的な閃きを常に見せるわけじゃないんです。
ジョー: あんたの直感では、GPT-3は2とは根本的に違うもので、4は3よりずっと優れとるけど、我々は漸近線に近づいとるん？5は4よりもめっちゃ優れとるん？あんたの仕事についてどう感じとる？
ボブ: わたしが思うに、我々はまだ人間の脳のスケールにはかなり遠いんです。だから漸近線になる理由はないんです。ただ働き続けるだけやと思います。
ジョー: スケールっていうのはどういう意味なん？3や4と5や6のスケールはどう違うん？
ボブ: ニューロンの数を数えることができるんです。これはかなり大雑把な比較ですけど、コンピューターのニューロンと脳のニューロンは全然違うものです。おそらく10個か100個のニューロンで脳のニューロン1個をシミュレートしとるんでしょう。
GPT-3を見ると、たぶんトカゲくらいのニューロン数で、GPT-4は猫くらいです。人間のサイズになるまでにはまだ何桁も上がる必要があります。
ジョー: でも、それって本当に関係あるん？これは人間で、これはシロナガスクジラで、シロナガスクジラの方がずっと大きいけど、シロナガスクジラはそんなに賢くないと思うんやけど。
ボブ: まあ、我々には分からへんですね。海の中ですごいフィロソフィーをやっとるかもしれへん。でも、シロナガスクジラが訓練されとるデータのことを考えると、魚がどこにおるか、いつ口を開けるか、いつ飲み込むかとかですよね。
我々は人間のデータで訓練しとるんです。だから人間の脳サイズのデータが必要なんです。
ジョー: つまり、次の3年か4年か5年でまだまだ良くなると思うってことやな。今は上昇曲線に乗っとるってことか。
ボブ: そうですね。3年後にはもっと重要になるんで、永遠に取り組む価値があると思います。
ジョー: 直感的に、何年くらい経ったら「もうええやろ」って思うようになるん？
ボブ: 年数は言えへんですけど、人間レベルの知能を超えたら、いろんな意味でクレイジーになると思います。人間を真似することではもう機能しなくなるかもしれへん。そこに漸近線があるかもしれへん。他の技術に切り替える必要があるかもしれません。
ジョー: ようやく理解してくれる生き物ができるかもしれへんな。わたしがこれで安心して眠れるのは、おそらく複数の異なるS字カーブがあると思うからや。みんな指数関数的に伸びて、世界が特異点に達するって考えがちやけど、わたしはいつもS字カーブがあって、また別のS字カーブがあって、さらに別のS字カーブがあると思うんや。
時間がかかるような、別のパラダイムを見つける必要があるんちゃうか？それとも、あんたらはもう全部分かっとって、そのまま進めるんやろか？
ボブ: 本当にそうやと思います。これらのものはフラクタルなんです。ある意味では、パラダイムはニューラルネットワークですけど、別の意味では、Transformerを理解する必要があったんです。
これらのS字カーブの一つ一つは、より多くの計算能力とデータをより大きなネットワークに適合させる新しい方法なんです。ピークに達するたびに、何らかのブレークスルーが必要になるんですけど、以前ほど根本的なブレークスルーじゃないんです。
ニューラルネットワークと線形回帰の違いはめっちゃ大きかったですけど、今のニューラルネットワークと2年前のニューラルネットワークの違いは、ちょっとしたテクニックの積み重ねに過ぎないんです。
ジョー: うまくいけば、あんたらが見つける新しいパラダイムのブレークスルーがあるんやろうけど、それまでは何らかの限界があるってことやな。
ボブ: まあ、とにかく頑張り続けるしかないですね。
ジョー: 市民の権利保護やAIの安全性について少し話そか。パランティアでは、初期の頃からこれにめっちゃこだわっとったんや。多くの人はこれをBSやウォークな話やと思うかもしれへんけど、あんたとわたしにとっては全然そうやないんや。
本当に深刻な問題で、めっちゃパワフルなものを作っとって、政府が不適切に使ったり、注意せんと人々をスパイしたりする可能性があるんや。監視する人を監視する制限が必要なんや。
わたしが思うに、パランティアは市民の権利グループを作った最初の企業の一つやった。これにめっちゃこだわっとったんや。同様に、OpenAIにもAIに関するいろんな懸念があるよな。
わたしはマーク・アンドリーセンにインタビューして、おそらくあんたも彼のエッセイを見たと思うけど、彼はめっちゃ楽観的や。わたしもアメリカン・オプティミストとして楽観的やけど、明らかに懸念はあるよな。
両側に懸念があるんや。AIが一つの政治的な見方しか持たへんのは、それがどんな見方であっても、みんなにとって本当に悪いことやと思う。同時に、AIが本当に憎しみに満ちた人々に力を与えて、憎しみをポピュリストの間に広めるのを助けるのも望んでへんよな。
わたしの家族の多くがホロコーストで亡くなったから、そんなナンセンスをあちこちに広めてほしくないんや。あんたはこの問題についてどう考えとる？どう取り組んどるん？明らかに両側から批判を受けとるけど。
ボブ: そうですね、これはあんたが言うように、非常にイデオロギー的な問題やと思います。でも、わたしが考えるに、これはまた非常に実用的な問題でもあるんです。
ChatGPTのことを考えてみてください。作ろうとしとる知的エージェントのことを考えてみてください。基本的に、インターネット全体を読んでるんです。ユダヤ人に関する多くの暴言も間違いなく読んでます。女性に関する悪いことも多く読んでます。
でも、あんたがそれと話すとき、プログラムを書こうとしとるのに、ユダヤ人についての暴言を聞きたくはないですよね。
ジョー: ユダヤ人としてはちょっと面白いかもしれへんけど、確かにそれはよくないな。
ボブ: そうなんです。これは元のGPT-3がよくやっとったことなんです。必ずしもユダヤ人についてじゃないですけど、問題を解決しようとしとるのに、何かについて延々と話し始めるんです。Redditのコメントみたいな感じで、「はい、答えはこれです。くそったれが」みたいな。
ジョー: それはよくないな。リサイクルがひどいってことについて有名な投稿があったよな。わたしの5つのメールからかもしれへん。
ボブ: まあ、それらのものをリサイクルするのは経済的じゃないですからね、ジョー。明らかにあんたから学んだんでしょう。
でも、基本的に、これらのエージェントには、ただプロフェッショナルであってほしいんです。多くの近い将来の安全性や、バイアスに関する議論は、実際にはモデルがこれらすべてのことを学んでいるという事実についてなんです。
多くの真実も学んでるし、不正確なことも多く学んでます。でも、ただ同僚のようにプロフェッショナルであってほしいんです。政治的に正しいことについてじゃないし、必ずしも男性看護師と女性看護師を半々で話す必要もないんです。
普通の人と同じように、あまり慎重になりすぎずに対話できるようになってほしいんです。
ジョー: でも、めっちゃ極端に一方向に慎重なプロフェッショナルみたいになったら、それもちょっと変やな。
ボブ: そうですね。ChatGPTを最初に出したとき、いつも「AIの言語モデルとして、わたしは…」みたいな感じで、めっちゃ慎重やったんです。
ジョー: ちょっと抑圧的すぎたな。人々はそれを好まへんかったんやろ。
ボブ: はい、少し緩めました。そういう言い方はなくなりました。
ジョー: この前、ブライアン・アームストロングと友達とLAで夕食を食べたんやけど、彼はコインベースで「仕事に政治を持ち込むな」って言うて有名になったんやけど、それがAIの目標みたいなもんやな。どっちの側の政治も持ち込まへんってことか。
ボブ: そうです。AIに政治を持たせたくないんです。あんたが人間やから、あんたが政治を持つべきなんです。でも、政治的なことを聞きたいなら聞けるはずです。
ジョー: アメリカの第45代大統領は誰かとか聞けるんやろうな。バイデンに人生のアドバイスをしてもらうこともできるんやろうか。あるいは、これに対する左派の主張は何か、右派の主張は何かを聞いて理解することもできるんやろうか。それとも、そういうことは聞けへんの？
ボブ: 試してみたらいいと思います。望まないのは、質問をしたときに、特定の視点を持ち出すことです。「これはこういう視点で、こっちは別の視点です」って言えるようになってほしいんです。
ジョー: それは全く合理的やな。これは聞かなあかんと思うんやけど、答えたくなかったら答えんでええで。ただ気になるんや。
話してはいけない領域と話してもいい領域を区別する方法は、動的で複雑なものなんやろうな。例を挙げると、しばらくの間、本当にトランプ大統領を褒めようとしても、それをせえへんかったけど、バイデン大統領についての詩は書いたりしたんや。
これは単なる偶然なんか、それとも何をすべきで何をすべきでないかを判断するのはめっちゃ複雑なん？時々非対称に見えるんやけど。
ボブ: 正直、ジョー、これらのことはめっちゃ謎なんです。時々、我々もTwitterでこういうことを知るんです。Twitterでこういう例を投稿してる人を見ると、「おっ」って思って、チームに戻って「みんな、見てみ。また偏ってるみたいやで。新しい人間のデータを取って、何をすべきか考えて、そこから始めよう」ってなるんです。
ジョー: 裏で小さな人がいて、偏らせようとしとるわけじゃないんやな。ただめっちゃ難しい問題なんやな。
ボブ: 実は何千人ものAIトレーナーがいて、我々がプロンプトを与えて、彼らがそれを採点せなあかんのです。より良い言葉がないんですけど、彼らは自分のバイアスを持ち込むんです。でも、モデル自体はそれらの蓄積になるようにして、結果的に偏りがないようにしようとしとるんです。
ジョー: 面白いな。研究プロジェクトについて、公開できることがあれば、今後数年間で物事を変えるようなことで、めっちゃ楽しみにしとるものはある？あるいは、めっちゃ楽しみにしとる新しい使用例はある？
ボブ: 今一番楽しみにしとるのは、コードインタプリターっていうものです。今ベータ版で公開されとるんですけど、これはまさに我々が話しとったことで、モデルがコードを書いて、そのコードを安全な環境で実行できるんです。
これでめっちゃクールなことができるんです。スプレッドシートをアップロードして、分析してもらえるんです。データの可視化のアニメーションGIFを作ってもらうこともできます。
特定のスプレッドシートモデルを作れとか、これを与えろとか具体的に言うわけじゃないんです。インターネット上のすべてのものから有機的に学んでるんです。
ジョー: ツールの使い方を教えとるけど、ツールで何ができるかは創発的な特性なんやな。GIFで不適切なことを創発的にやり出したら面白いやろうな。
ChatGPT.comで試してみるべきやな。内部的には、もっとジェイルブレイクされたバージョンがあって、好きなことをさせて、悪いことをしないように学習させる必要があるんやないか？
ボブ: 人間を真似るだけの事前訓練されたモデルはめっちゃジェイルブレイクされとるんです。それで、時間とともにデータを追加していくんです。
ジョー: エージェントモデルとか、あんたのためにいろんなことをするエージェントがたくさんあるってよく話題になるけど、これでクレイジーなものが作れそうやな。いろんな文脈でエージェントモデルを試したことある？
ボブ: エージェントの話はめっちゃ面白いと思います。今、クールなアイデアがたくさん出てきとるんですけど、わたしはこれを極限まで考えるのが好きなんです。
1000体のエージェントがおって、あんただけやなくて、お互いに対話し合い、外の人間とも対話し、自分たちでデータを生成して、そのデータを見ることができるってことを想像してみてください。
AIが人間レベルまで到達したら、基本的に彼らは自分たちの文明を作り出すことになるんです。うまくいけば我々と一緒にね。
ジョー: 子供の頃、ロールプレイングゲームをよくやっとったんやけど、今はそんな時間がないんや。ドラゴンウォーリア4っていうゲームがあって、任天堂の史上最高のロールプレイングゲームやったんやけど。
ボブ: わたしもそれ大好きでした。めっちゃ大きな世界やったんですよね。
ジョー: 今の子供たちが、あんたらの技術でこういう人々をもっと面白くできたら、めっちゃクールやと思うんやけどな。
ボブ: そうですね。そういうことをしとるビデオゲームを見たことがあります。わたしの子供たちが好きなのは、子供ってめっちゃ質問が多いんですよ。いつも「パパ、これ説明して」「ママ、あれ説明して」って聞いてくるんです。
今では3、4個質問されたら、子供たちと話すんですけど、その後「じゃあ、ChatGPTに聞いてみよう」ってなるんです。
ジョー: でも、答えがちょっと間違ってたり、不適切やったりしたらどうするん？
ボブ: まあ、それでも彼らにとっては多分いいんです。反復する方法を学べるでしょうし。不適切な叔父さんみたいなもんですよ。
ジョー: 確かに、不適切な叔父さんはすでにおるからな。あんまり危険じゃないってことやな。
子供たちもこれの使い方を学ばなあかんのかな。宿題にこれを使うべきやと思う？将来的には、こういう風に仕事することになるんやろうし。
ボブ: 正直分かりません。わたしの子供たちには宿題に使ってほしくないですけど、先生たちにAIを使う必要がある宿題を作ってほしいですね。
ジョー: それはかなり難しそうやな。AIがどんどん良くなっていくと、AIがほとんどやってしまうんじゃないか？
ボブ: そうですね。でも、仕事でもそうなるんです。
ジョー: そうやな。でも、AIがたくさんのことをやってくれるようになるかもしれへんし。まあ、それはいいことかもしれへんな。めっちゃ効率的になって、プールで泳いで過ごせるようになるかもしれへん。
ボブ: そうですね。でも、AIが常に正しいわけじゃないんです。だから、AIにやらせて、それを採点して、正しくできたかどうか判断して、もう一度やらせるっていう宿題の書き直し方がいいかもしれません。
AIに間違って聞いたかもしれへんし、AIがやってることを誤解したかもしれへんし。
ジョー: そうやな。ChatGPTのローンチについて教えてくれへんか、ボブ。いろんな競争が起こっとるけど、どんな状況やったん？
ボブ: 面白いのは、ローンチしたときは競争相手がおらへんかったんです。2年前にGPT-3をローンチして、それからGPT-3.5っていうもっと良いモデルをローンチしたんです。これは今でもまあまあですけど。
当時の考えは、これらをAPIに入れることでした。まだ人間と会話するには準備ができてへんと思っとったんです。文章を完成させることはできても、会話はできへんかったんです。
これらのモデルをしばらく出しとって、すでにGPT-4を秘密裏に訓練しとったんです。これは去年の前半のことです。GPT-4はめっちゃすごくて、GPT-4で何かできれば、すべてが変わるって分かっとったんです。
会社全体がGPT-4に集中してました。GPT-4で何ができるか、GPT-4で何をすべきかってことに。そんで、ジョン・シュルマンっていう強化学習チームを率いとった一人の男が「モデルを会話型にしたらどうや？」って言い出したんです。
古いモデルのGPT-3.5を取り出して、会話ができるように訓練したんです。我々はみんな、GPTモデルの究極の道筋は、物事をするのを手伝うアシスタントになることやと思っとったんです。でも、これらのモデルは明らかに十分良くないって思っとって、ずっと公開しとったんです。
ジョンは「完璧じゃないのは分かってる。GPT-4がすべての答えになるのも分かってる。でもとりあえずインターネットに出してみよう。1万人が使ってくれたら、少なくともどこが悪いか教えてくれるし、それを元に改良できる」って言ったんです。
やるべきかどうか行ったり来たりして議論して、最終的に「よし、やろう」ってなったんです。たしか1週間くらいでローンチすることになって、これは副次的なプロジェクトやったんで、「控えめな研究プレビュー」って呼んで、プレスリリースもせずにローンチしたんです。
そしたらこれが爆発的に広がって、みんなが使い始めたんです。会社全体が別のことに集中しとったんで、「GPT-4こそが本命や」って思っとって、6ヶ月かけてただ追いかけて、実際に機能するようにしようとしたんです。
ジョー: あんたらのせいで、我々は今やることすべてにAI投資を考えなあかんようになったんやな。
ボブ: もし分かっとったら、ねえ。
ジョー: 今、めっちゃたくさんの人がAIに投資しようとしとるな。バブルの時代みたいな感じがするわ。1億ドルのラウンドがここにあって、2億ドルのラウンドがあっちにあって、我々にピッチしてくる人みんなが、ピッチの一部にAIを入れとる。
わたしの古いSaaS企業の一つ、たぶんあんたは知らへんと思うけど、法律技術の会社で、OpenAIと提携して、突然、パラリーガルにめっちゃ役立つことをやり始めて、最後のラウンド評価の8倍でThomson Reutersに売れたんや。
たくさんのことが変わったな。OpenAI以外の人たちがやっとるAIで、あんたが見て面白いと思うものはある？人々が取り組んでることで役立つものはある？OpenAI以外のインフラストラクチャーは必要なん？これをどう見とる？
ボブ: わたしはいつもインフラの仕事について少し心配なんです。今ある問題を解決しとるだけやと思うんです。GPT-4.5やGPT-5が出てきたら、根本的に違う使用例や根本的に違うインフラが必要になるでしょう。
わたしが見たいのは、AIを使って今までできへんかったことを解決する人たちです。
ジョー: アプリケーション層ってことやな。
ボブ: そうです。今のAIは、注意力の短い無限のインターンを持つようなもんやと思うんです。インターンでできることなら何でもできるんです。GPT-3は高校生くらい、GPT-3.5は大学1年生くらい、GPT-4は大学3年生くらいで、GPT-5はまた別のレベルになるでしょう。
こういうインターンがおったら何ができるか、どんな新しいビジネスが作れるか、そういうのにわたしはめっちゃワクワクします。
ジョー: 無料のインターンがたくさんおるってことやな。それはクールやな。
アプリケーション層は、わたしがたくさんのものを作ってきたところやな。今、たくさんのインフラのピッチを受けとって、友達の多くが何十億ドルもの融資を受けて、A100やH100を手に入れようとしとる。ハードウェアインフラにめちゃくちゃな量のお金をつぎ込んどるんやけど。
これはまだ必要なん？どう考えとる？
ボブ: 正直言うのは難しいですね。多くの人が新しいチップを作ろうとしてきましたけど、今のところ見てきたのは、NVIDIAがどんどん良くなり続けてるってことです。大きな市場と、それに投じる大量の資本を持っとるからです。
NVIDIAに賭けるのは難しいと思います。一方で、本当に大きなことになる小さなチャンスもあるでしょうね。
ジョー: スタンフォードで計算機科学を学んでグラフィックスをやっとったとき、NVIDIAに夢中やったんや。そこで働きたかったんやけど、PayPalに行って、ピーターと…まあ、たぶんうまくいったと思うけど。
わたしが本当に興味を持っとった会社が、ピボットしてこれをやることになったのは面白いな。
アメリカン・オプティミストを始めたのは、我が国の多くの恐れや批判に反論するためやったんや。めっちゃシニカルな人たちや、AIに対して悲観的な人たちがたくさんおるけど、AIに楽観的になれる一番の理由は何やと思う？うまくいったら、世界はどうなると思う？
ボブ: AIのすごいところは、本当に人間レベルの知能になったら、同僚や友達、話せる人たちがおって、あんたがやりたいことを何でも手伝ってくれて、あんたの夢を実現するのを助けてくれるってことです。
基本的に、労働力の制約がなくなる世界です。資本があり、アイデアがあり、AIがアイデアを生み出し、人間の労働を助けてくれる。みんなの生活水準がもっと高くなるんです。
ジョー: 若い人がAIに取り組みたいと思ったら、今何をすべきやと思う？
ボブ: 本当に優秀なプログラマーなら、OpenAIに来て働くべきですね。でも、実際には今が会社を始めるのに最高の時期やと思います。
AIを使って根本的に新しいことをするアプリケーション層に挑戦して、パックの行く先を予測して、今の10倍か100倍賢いAIで何ができるかを考えるべきです。
ジョー: あんたはAIの世界の中心におるけど、他に興奮するような技術やブレークスルーはある？それともAIが圧倒的に重要な要因なん？
ボブ: 超伝導体がどうなるか見てみたいですね。AIの面白いところは、最終的には電力みたいなもので制限されるってことです。
10年後とかに本当に巨大なクラスターを作ろうとしたら、チップとかね。だから、核融合エネルギーはめっちゃ興味深いと思います。
ジョー: わたしはAquaの初期投資家やったんやけど、サムもそれを推してるみたいやな。小型の核分裂炉もいいし、核融合もめっちゃいいと思う。でも、うまくいけばあんたらのAIが核融合を解決してくれるんやないか？それがあんたらの研究プロジェクトの一つかもしれへんな。
ボブ: そうですね、それこそがAIに望むことです。技術の最前線を押し進めてほしいんです。
ジョー: WTAで核融合を解決できるかもしれへんな。試してみる価値はあるで。
ボブ、今日は参加してくれてありがとう。