AGIのための突破口は既に発見されている:OpenAI元研究責任者ボブ・マクグリューが語る

AGI・ASI
この記事は約34分で読めます。

OpenAIの元研究責任者Bob McGrewが、AI開発の最前線について包括的に語った貴重なインタビューである。現在のAI技術における「事前学習、事後学習、推論」という三つの柱について詳しく解説し、AGIに必要な基本概念は既に発見済みであるという注目すべき見解を示している。推論技術の革新性、エージェントの価格競争、ロボティクスの転換点、独自データの価値変化、コーディング分野の急速な進歩など、AI業界の現状と未来について実践的な洞察を提供する。特に、スタートアップの機会や企業向けAI活用の具体的な戦略についても触れており、AI研究者や事業家にとって極めて有益な内容となっている。

LLMとロボティクスの革命的変化

今本当に変わったのは、LLMを手に入れたことで、ロボットに言語インターフェースが備わったことです。これにより、はるかに安価にタスクを記述できるようになり、その知能に結び付いた非常に強力な視覚エンコーダーも手に入りました。これにより、ロボットは汎用的なタスクを実行する大きなチャンスを得ました。

私たちは長年をかけて一つの特定の問題、つまりロボットにルービックキューブを操作することを教えるという問題を解決してきました。しかし今では、Physical Intelligenceのような会社が数か月で、洗濯物の折りたたみ、段ボール作業、卵パックの梱包など、膨大な種類の問題を解決できるようになっています。これは、既存の最先端モデルの上に構築し、私たちが過去10年間にわたって築き上げた技術と研究スタックの全体を活用できるからこそ実現できることです。

現在のAI開発における三つの柱

Training Dataへようこそ。今日はOpenAIの元最高研究責任者であるボブ・マクグリューをお迎えして、最先端AI開発の舞台裏について魅力的な視点をお聞きします。ボブはAI における三つの要素、事前学習、事後学習、推論について語り、AGIに必要な基本概念をすべて既に発見済みである可能性について説明します。

エージェントが計算コストで価格設定されるため従来の経済モデルが崩壊する理由、そして無限に忍耐強いAIが代替手段を再現できるようになると、独自データでさえ価値が下がる理由についても学べるでしょう。さらに、ボブはスタートアップの機会が実際にどこにあるのか、そして長年時期尚早だったロボティクスがついにその瞬間を迎えている理由について、逆張りの見解を披露します。

ボブ、今日はお越しいただきありがとうございます。

こちらこそ、お招きいただきありがとうございます。

事前学習、事後学習、推論の現状と未来

AI開発において非常に興味深い時期にいます。事前学習、事後学習、推論という美しい新しい三つ組みがあります。それぞれにどのような余地が残されているか、教えていただけますか。

今後も能力の向上は続くと思います。過去5年間でさえ、非常に速く、非常にエキサイティングに感じられてきましたが、今後もそのような感覚が続くと思います。ここに壁があるわけではありませんが、2025年は推論の年になるでしょう。

推論は新しい技術です。新しい技術を手に入れると、活用できる計算やデータ、アルゴリズムの効率性改善のオーバーハングがしばしば存在します。9月の01 previewから6か月後の4月の03への信じられないような進歩を見れば、同時に、長年取り組んできたOpenAIからGoogle、DeepSeek、Anthropicへと、わずか数か月で推論が拡散していることも分かります。これは本当に、すべての研究所が今年注力する正しい場所です。

現在どれほど簡単に収穫できる果実があるかの面白い例として、01 previewと03の最も興味深い違いを見てみましょう。01 previewはツールを使用できませんが、03は思考の連鎖の一部としてツールを使用できます。これはかなり明白ですよね。01を訓練していた時、私たちはこれが実装したいことだと知っていましたが、実装が困難で時間がかかりました。それで、完成してリリースするまでに6か月かかったのです。

推論の次のステップは、それよりもはるかに明白でなく、はるかに困難になるでしょう。推論が成熟し続けるにつれて、オーバーハングは消費され、進歩はより遅くなっていくでしょう。

事前学習の壁説について

壁はないとおっしゃいましたが、Twitterphere では現在、事前学習が壁にぶつかっているというミームがあります。その動向についてもう少し詳しく教えていただけますか。

それは素晴らしい質問です。事前学習はなくなりませんが、事前学習から見えるのは、非常にうまく機能していて、収穫逓減に直面しているということです。

収穫逓減は織り込み済みです。なぜなら、モデルの知能は、訓練に使用する計算量に対して対数線形だからです。つまり、知能の各増分を得るには、計算量の指数的増加が必要になります。

モデルを事前学習する際、それは巨大な訓練で、データセンター全体を数か月間使用します。次のモデルを事前学習する際、同じデータセンターでは実際にはできません。アルゴリズムの効率性に少し頼ることはできますが、根本的には新しいデータセンターを待つ必要があります。これは推論で現在できる6か月での改善のようなものではなく、年単位の時間がかかることです。

しかし、それは事前学習が無用だという意味ではありません。2025年における事前学習の真のレバーはアーキテクチャの改善だからです。推論に取り組んでいても、より良い推論時間効率や、より長いコンテキスト、コンテキストのより良い利用のために事前学習を改善したいのです。その際は、この新しいアーキテクチャで最初から事前学習を開始し、再び推論プロセス全体を通過する必要があります。これが現在のパイプラインにおける事前学習の役割です。依然として重要ですが、パイプラインで異なることをしているのです。

事後学習に残された余地

事後学習に何が残されているか、教えていただけますか。

事後学習は非常に興味深いです。事前学習と推論の両方が知能を増加させることに関するもので、計算を投入すると知能の向上が得られるという非常に明確なスケーリング法則があります。事後学習はそうではありません。事後学習はモデルの人格に関するものです。

知能は一種の細い問題です。それが向上すると、非常に汎用的であることが分かり、すべてに適用されます。数学に取り組むと、法的推論も向上することが分かります。しかし、モデルの人格は厚い問題です。実際に多くの人間の努力が必要で、良い人格とは何か、このエージェントにどう行動してもらいたいかを考える必要があります。それは多年にわたって人々と交流することで通過するような訓練プロセスです。

エージェントの仕様を実際に魅力的な人格に変換することは、非常に困難な研究問題になります。事後学習について考える際、私はOpenAIのJoan JangやAnthropicのAmanda Askellのような人々を思い浮かべます。彼らは本当に多くの時間をかけてこれらのモデルの人格を作り上げています。彼らは研究実践者ではありません。彼らはプロダクトマネージャーか、人間の本質を非常に深く理解している人々です。

AGIに必要な基本概念は既に発見済み

足場にはもっと多くの脚があるのでしょうか。

これから言うことは論争を呼ぶかもしれませんが、実際にはないと思います。2030年や2035年に振り返って、より多くの知能を創造するために必要だった基本概念は何だったかと言えば、おそらくそれはAGIか何か違うものかもしれませんが、Transformerを使った言語モデルのアイデア、それらの言語モデルでの事前学習のスケーリングのアイデア(基本的にはGPT-1とGPT-2)、そして推論のアイデア、そしてその全体を通してますます増加するマルチモーダル能力が織り込まれたものが答えになると思います。

2035年でさえ、それら以外の新しいトレンドは見ないと思います

私がこう考える理由は、2020年に戻ってみると、GPT-3が訓練されたばかりで、OpenAIにいた私たちが、まだリリースしていないがとんでもないことが起こったと知っていたと想像してください。Dario Amodei、Ilya Sutskever、Alec Radfordなど、みんなでこの物を見ながら部屋に座っていました。内部的には、ロードマップがかなり明白でした。

この時点で、事前学習を増加させてGPT-3からGPT-4に進むことが絶対に重要だと知っていました。最終的にはコンピューターを使用できるモデルに至るマルチモーダリティを増加させる必要があることが分かっていました。テスト時間計算の実験を始めていて、2021年にAnthropic の人々が去った後、OpenAIで推論のアイデアを本格的に開発し始めました。

実際に面白いのですが、時々友人たちが、Anthropicがコンピューター使用をリリースした後「それが来るのが見えていたか」と聞いてくるのですが、「まあ、彼らが去る前に一緒に取り組んでいたんだ」と答えます。そのプロジェクトをした人の一人はAnthropicに行き、もう一人はOpenAIに行ってOperatorを開発しました。マルチモーダリティがその時点まで成熟するのに長年かかっただけです。それは当時の私たちには明白でした。

だから今後は、非常に重要なスケーリング、これらのアイデアの非常に重要な開発と洗練があり、それは極めて困難で、多くの頭脳が必要で、簡単ではありませんが、2035年から振り返ると、新しく基本的なものは何も見ないと思います

私が正しいと思いますし、私が間違っていることを少し願っています。間違っていた方がもっと楽しいでしょうが、見てみないと分からないでしょう。

推論への注力の背景

これは熱い意見ですね。2035年に記録に残ることを嬉しく思います。推論について聞きたいのですが、OpenAIが他の会社より前にこのパラダイムに大きく賭けたように見えます。現在では誰もが推論モデルを持っています。推論について何を見て、そこまで速く、そこまで深く賭けることになったのでしょうか。

実際には、これは欠けている部分のようなものでした。事前学習では、モデルは質問への答え方について直感的な感覚を持ちますが、5桁の数字を2つ掛け合わせてくださいと言われたら、これは完全にあなたの能力の範囲内ですが、今すぐやってくださいと言われてもできないでしょう。なぜなら、答える前に何かについて考える、スクラッチパッドを持つ、問題を解決するというのが人間の自然な能力だからです。

これは最初のモデル、GPT-3でさえ本当に持っていなかったもので、公開されているもので「段階的に考える」やモデルが思考の連鎖を学習して、人間がどう考えるかについて公開されているデータからクローンを作るのではなく、思考の連鎖を自分で導く方法を学習するという考えの兆しを見始めました。それは非常に強力でした。

事前学習よりも強力になることが分かっていました。なぜなら、実際にはあなたの考えは頭の中にあり、モデルがアクセスできないものだからです。外にあるデータのほぼすべては、実際には最終的なプロセスに過ぎず、その思考の連鎖は見られません。モデルは自分でそれを理解する必要がありました。だから推論が重要だったのです。

推論研究の現状

推論においてまだ発見すべきことがもっとあるとおっしゃいましたが、今日それらのことについて良い感覚を持っているでしょうか。そのR&D段階の早期にいるのでしょうか。

この時点で推論について言えば、最前線にいる場合は多くのアイデアや改良できることを見ています。最前線の研究所にいない場合、外部にいる場合は、おそらくもうそれらを見ていないと思います。これは、ある時点で学術研究所が大きな進歩を遂げることができたが、後に学術論文を見て「ああ、彼らは私たちがずっと前に発見したことを再発見したな」と思うようになったのと同じ状況です。

今この分野に投じられている努力のレベルは実際にかなり強烈だと思います。発見すべきことは確実にありますが、あなたと私が話せるような単純なアイデアではありません。

エージェントの価格と競争

話題を少し変えて、エージェントについて最近ツイートされていました。非常に興味深い見解で、エージェントは非常に強力だが、競争により計算コストで価格設定されるだろうというものでした。それが事実なら、エージェントを構築している新しいスタートアップや会社にどのような機会があると思いますか。

エージェントについて人々が考えるのは、「エージェントを開発しよう」と思い、外の世界でその仕事がどれだけの価値があるかを人間によって見ているということです。AI弁護士を開発したいと思って、弁護士は高額な報酬を得ているから、AI弁護士を開発できれば膨大な金額を請求できると考えます。

しかし、弁護士が高額な理由は、彼らの時間が希少だからです。その訓練を受けた人の数が限られているからです。しかし、AIモデルにしてしまえば、今度は実質的に無限の数の弁護士がいることになり、全く希少ではありません。AI弁護士スタートアップとして他の人々に対してリードを持てるかもしれませんが、根底には同じ最先端モデルがあり、他のスタートアップも参入してその差を競い合うことができます。

計算コストに対する何らかの機会コストで価格設定されることを期待すべきです。興味深いのは、供給を変更しているからです。今では、どんな分野でも最高の能力の知能の無限の供給があります。

一方では、これはスタートアップがお金を稼げないから悪いという話があります。しかし、これは実際に私たちが望む未来です。人を必要としないサービスを非常に安価にしたいのです。誰もが弁護士にアクセスできることを望んでいます。

高額で希少であってほしいのは、実際に個人的な関係についてのことです。人間の弁護士に契約書を書いてもらうことは求めないかもしれません。エージェントが代わりにやってくれるからです。しかし、法的課題がビジネスで直面している詳細な課題にどう影響するかについて、深いアドバイスを求めるでしょう。これが私たちが住みたい世界だと思います。

アプリケーション企業の収益可能性

エージェントを販売するアプリケーション企業はお金を稼げると思いますか。どこに投資すべきか教えていただけますか。

イエスでもあり、ノーでもあります。少し戻って、スタックのどこに価値が蓄積されるかという話をよくします。モデル層なのか、アプリケーション層なのか。

モデル層を見ると、非常に競争が激しいです。すべての会社が最先端モデルを持っています。最先端モデルの中には他ができないことをできるものもありますが、大まかには全て非常に優秀で、企業なら非常に簡単に交換できます。最先端以外では、大部分の質問に答えるモデルはすべて蒸留されていて、非常に競争が激しいです。モデルを訓練するコストを考えると、これは良いビジネスではありません。

そもそもなぜモデルを訓練するのか。それは選択肢を与えるためです。最先端研究所に、登場してくるアプリケーション層の価値ある場所での選択肢を与えるためです。ChatGPTは素晴らしいビジネスです。そこには多くの競争がありますが、ChatGPTを置き換えるのはおそらく遅すぎると思います。そうでないかもしれませんが、非常に異なることをする必要があるでしょう。

コーディングは、すべての最先端研究所が現在注目しているもう一つの場所です。最先端研究所と競争できると思いますが、異なることをしたいでしょう。単にコンピューターと話すこと以上のこと、コンピューターで何らかの個人的生産性タスクをすること以上のこと、他の人々が関わること、企業が関わることです。

ビジネスのための堀は、常にそうだった堀と同じになると思います。ネットワーク効果、ブランド、規模の経済です。これらのネットワーク効果を持てるエージェントを見つけたいのであって、外の世界で高価格になるだけのものではありません

最先端研究所の範囲外の機会

最先端研究所が革新して構築したいと思う範囲外にあると思われる特定の分野がありますか。興味深いと思っていて、考えているものはありますか。科学者、弁護士、研究アナリスト、エージェント型ソフトウェアエンジニアなどがありますが、他にどんな分野を考えていますか。

個人的には、ロボティクスに非常に興味があります。ロボティクスは現在、最先端研究所のロードマップから外れているとは実際には言いませんが、十分に離れていて、数年前のAIのように感じられることだと思います。だから、今はSkilledやPhysical Intelligenceのような会社にとって非常に良い時期だと思います。あるいは新しいロボティクス会社を始めるのも良いでしょう。その2社と競合するものではなく、何か違うこと、独自のことをするものです。

研究課題の最終段階にあり、商業化まであと数か月、あるいは小さな桁の年数の問題だと思います。だからとても楽しいと思います。

ロボティクスの転換点

今なぜなのでしょうか。OpenAIは長期間ロボティクス努力で有名でした。何が変わったと思いますか。

PalantirとOpenAIの間に、実際に私自身がロボティクス会社を始めたいと思っていました。2016年に、視覚からチェッカーをプレイするようにロボットを教えるところまで行きました。チェッカーの駒を拾い上げて、ボード上の別の場所に移動させることができました。

これから得た結論は、非常に楽しくて超クールだが、あらゆる形の商業化からは非常に遠いということでした。OpenAIでロボティクスを追求した際、商業的動機で追求したのではありませんでした。本当に機械学習の力の実証で、そこで得たアイデアの一部は後に大規模言語モデルに活用されました。

しかし、本当に変わったのは、LLMを手に入れたことでロボットに言語インターフェースができたということです。これにより、はるかに安価にタスクを記述でき、その知能に結び付いた非常に強力な視覚エンコーダーがあります。これにより、ロボットは汎用的なタスクを実行する大きなチャンスを得ました。

私たちは年数をかけて一つの特定の問題、ロボットにルービックキューブを操作することを教えるという問題を解決しました。今では、Physical Intelligenceのような会社が数か月で、洗濯物の折りたたみ、段ボール作業、卵パックの梱包など、膨大な種類の問題を解決できます。これは、既存の最先端モデルの上に構築し、過去10年間に築き上げた技術と研究スタック全体を活用できるからこそ可能なことです。

基盤モデルのアプリケーション市場への影響

価値がどこにあるかという点に戻りたいのですが、基盤モデルが所有したいアプリケーションスタックのどの部分でも選択肢を持っているという素晴らしいフレーミングでした。基盤モデルはアプリケーション市場のどれくらいを勝ち取ると思いますか。

少し違う方向から見たいと思います。スタートアップにとって、どこで戦うのが安全で、どこで最先端研究所に踏み潰されるかということです。

安全に戦えると思う分野は、モデル外の何かを非常に深く理解しなければならない分野です。多くの企業がこの特徴を持っていると思います。例えば、Palantir AIPは実際にこれに当てはまります。モデル会社ではありませんが、モデルの外に位置し、ビジネスの残りの部分と相互作用するものです。

私が投資家兼アドバイザーをしているDistillという別の会社もあります。これは、ビジネスがビジネス内からコンテキストを抽出し、それをモデルに供給して決定を下すためのAIシステムを構築しています。これらは最先端研究所がやりたがらないことです。最先端研究所はビジネス問題を「何か新しいことをするモデルをどう訓練するか」として見ています

これらすべての企業を見ると、それぞれが非常に小さな問題です。OpenAIやAnthropicがそれぞれのためにモデルを特別に訓練する価値はありません。問題を裏返して、モデルの周囲のシステムは何か、コンテキストを入力してアウトプットを得るためにモデルをどう使うかと考えると、突然それは一つの問題になり、大きな機会だと思います。

企業向けAI活用の具体例

DistillとPalantirの取り組みが企業にとって解決する具体的な使用例と問題は何ですか。

多くの場合、現在見られるのは既存の仕事の一部を自動化しようとしていることです。簡単なケースは、その仕事が規制業界にあり、医療で働いていて保険会社と相互作用しているような場合です。極めて台本化されたワークフローがあり、会社がそのワークフローへの忠実性を非常に重視します。

これは「AI よ、臨床ガイドラインを読んでこれらの決定を下してくれ」と単に言えるものではありませんが、変換プロセスを通じて、AIがそれを行えるレベルまで到達できます。それが簡単に収穫できる果実です。

次のレベルは、規制業界でない、あるいは極めて台本化されていない何かに取り組んでいて、誰かに何かを尋ねたい、労働集約的なプロセスを自動化したい場合です。まず最初にしなければならないのは、それを理解可能にすることです

誰かに行って仕事を説明してもらうよう頼むと、多くの場合、マネージャーは彼らが何をしているか知らず、彼ら自身も本当には何をしているか知りません。例は示せますが、「私が従うワークフローはこれだ」とは言えません。なぜなら、実際には単一のワークフローに従っていないからです。

多くのこれらの問題はそのように見えます。例えば、Distillが実際にしているのは、会社と協力し、持っているデータを取り、AIで人々にインタビューし、それらすべてを体系化し、AIモデルが実際に実行できるものにすることです

独自データの価値の変化

独自データについても関連した質問をしたかったのですが、あなたのツイートで驚いたのは「競合他社の無限に賢く無限に忍耐強いエージェントが公開データから推定できることと比較して、あなたの独自データはどれくらい価値があるでしょうか」という問いでした。少し詳しく説明していただけますか。

これの出発点は、数年前に業界縦断特化モデルを訓練することに多くの関心があったことです。金融会社が「他の誰も持っていないこのデータがすべてあり、GPTやLLaMAの上にファイナンスモデルを訓練すれば、はるかに良くなる」と言っていました。実際には、それらはすべて次世代のGPTより悪かったのです。知能の力と新しい情報を合成する能力が、持っている古い情報を記憶する力よりも大きかったからです。

数年前のこのテーマの見え方はそんな感じでしたが、1年か2年先を見ると、話は「長年にわたって蓄積してきたこの独自データがすべてある」となります。多くの場合、そのデータがモデルにスキルを教えているなら、そのデータは実体化された労働です。誰かがこれらすべてのケーススタディを解決し、誰かがこれらすべての顧客に電話して情報を見つけました。

その実体化された労働は今や無料です。AIがそれらすべてを行えるからです。今では機会があります。AIにそれらすべての顧客に電話させ、大規模な調査を行い、彼らが知っていることを見つけさせることができます。AIに03との多くのチャットを通じてケーススタディを解決させることができます。今度は、その独自データを複製できますが、そのすべての作業を必要とせずに。

実世界の独自データの価値

CursorがDeveloper communityから常に得ているもの、またはTeslaが過去数年でAutopilotから得たものなど、実世界の独自データとの整合性はどうでしょうか。

それらは中間にあると思います。本当に膨大な量のデータだからです。ユーザーから得るデータでの訓練には時々課題があります。多くの場合、データを訓練して特定の人についてのデータを記憶すると、それが次の人に漏れ出すかもしれません。これらの種類の独自データを使用する際の実際の課題です。

本当に有用な実世界の独自データの種類があると思います。それは、非常に特定の顧客についての非常に具体的なデータで、彼らがあなたを信頼して代理で使用することを許可するものです。

例を挙げると、私のファイナンシャルアドバイザーは私について多くを知っています。私のポートフォリオ全体、私が持っている目標の種類、リスク許容度を知っています。彼女はそのすべての情報を使って、私により良い結果を提供します。つまり、次に買うべき資産は何かということです。彼女はそのデータが彼女をより良いファイナンシャルアドバイザーにするからそうしているのではありません。スキルを教えているわけではありません。しかし、既に持っているスキルを使う機会を与えています。それが独自データが本当に有用だと思う場所です

コーディング分野の急速な発展

話題をコーディングに変えたいと思います。ソフトウェアエンジニアリングがこの急激な離陸の瞬間を経験したように感じられます。物事が変化する速度を見ていると、市場の少なくとも一部の人々は、コーディングがこれほど速く離陸したことを考えると、超知能の離陸確率が人々が思っていたよりもはるかに高いと考えているようです。コーディング空間で何が起こったかについて、あなたの見解はどうですか。

一方では、コーディングは非常に速く離陸しました。他方では、2020年1月にGPT-3を見るとすぐに、GPT-3にコーディングを教えるプロジェクトを開始しました。指数曲線を見ると、進歩は実際にはずっと同じですが、その進歩の影響は閾値を越えると非常に非線形になることがあります。それがここ数年でコーディングに起こったことです。

コーディングがどこに向かうかについての私の見解は、IDEでのユーザーとのコーディング(従来のCursorスタイルの作業)と、バックグラウンドでエージェントとしてのコーディング(Devinスタイルの作業)の組み合わせが続くということです。それは長期間続くでしょう。AI導入における1年か2年は長い時間ですが、それはAI年での永遠です。

Vibe Codingのようなものについて考えてみてください。Vibe Codingで聞く話は、PMがいて実証プロジェクトを作りたい場合、PMがVibe Codingで本当にクールなプロトタイプや実証を作って、ユーザーフィードバックを得られるということです。しかし、それらは捨てられ、プロフェッショナルなソフトウェアエンジニアによって再構築されるでしょう。

理解していないコードベースを与えられたとき、それは債務なのか資産なのかという古典的なソフトウェアエンジニアリングの質問があります。古典的な答えは債務だということです。それを維持しなければならないが、どう動作するか分からない。誰も分からない。それはひどいことです。通常の答えは、実際にはゼロから書き直す方が安いということです。

エージェントがコードベースを理解する者である場合に、私たちが満足できる方法はまだありません。現在は債務が減少したと思いますが、まだ正味で債務です。デザインを行い、高レベルでコードベースを理解するには人間が必要で、何かが壊れたとき、プロジェクト自体がAIが理解するには複雑すぎるとき、人間が問題分解を行い、AIにとって十分小さな問題に分解できます。

その1年か2年後に何が起こると思いますか。

分からないので、見つけなければなりません。

エージェント型ソフトウェアエンジニアの分類

あなたの二分化は素晴らしかったです。一方でバックグラウンドでタスクを自律的に処理するエージェント型ソフトウェアエンジニア、他方でAIの助けを借りてIDEでコードを書く人間のプログラマー。主流の人々は実際にはそれを理解していないと思います。もう少し詳しく教えていただけますか。エージェント型ソフトウェアエンジニアはどのようなタスクを自律的に処理し、スペクトラムの他端はどこに向かうと思いますか。長期的にはぶつかるのでしょうか、それとも別々のままだと思いますか。

既にそれはスペクトラムだと思います。エージェント型ソフトウェアエンジニアができることは、バグ修正やリファクタリングなど、比較的少ないセンスを必要とし、明確な結果があるものです。

聞いたことがある別の素晴らしい使用例は、ソフトウェアをCOBOLからPythonに翻訳することです。正しく行ったかどうかは非常に明確ですが、多くの作業で、非常に退屈で、これに取り組んで良い仕事をしたい賢い人を得ることはできません。

一方で、多くのセンスを必要とし、実装方法におけるセンスが必要で、実装の動作方法に非自明な結果があるものをしている場合、パフォーマンスに非自明な結果があるかもしれませんし、ユーザーインターフェースがどう進化するかに非自明な結果があり、したがってシステムの深い抽象化をどう変更する必要があるかに影響するかもしれません。これらは現在、人間がその作業を行う以外に選択肢がない場所です。

これは非常に興味深いです。エージェントが私たちのために書ける十分に詳細な仕様や十分に詳細なアーキテクチャ図面がある方法はあるでしょうか。つまり、あるエージェントから作業を取り、別のエージェント(異なるコンテキストウィンドウを持つ翌日の同じエージェントかもしれません)に渡すとき、実際にコードベースで進歩を遂げられるということです。これらは今後数年で答えを見たい質問の種類です

MTS(Member of Technical Staff)という職名の由来

なぜMember of Technical Staffと呼ばれるのでしょうか。

素晴らしい質問です。これは私がOpenAIに参加する前からの長い伝統で、Greg Brockmanのアイデアだったと思いますが、エンジニアと研究者の間に区別を設けたくありませんでした

古典的な研究所、例えばOpenAIを始めた多くの人が来たGoogle Brain(当時、今でもかもしれません)を見ると、PhDを持って研究者であるか、ソフトウェアエンジニアでデータや実装を行うかの大きな区別がありました。

それは悪いことでした。研究者がデータコードや実装コードを書くことに手を汚せると感じられなかったからです。コードを書かない限り、研究のシステム面を理解することはできません。

Alec Radfordを天才的な研究者にしているのは何かを考えてみてください。彼が何かをするたびに、データを非常に注意深く見て、このデータの可能性は何かを考えることです。最初から自分のデータスクレイピングコードを書きました。

本当にフルスタックを理解する人を持ちたいなら、Paul Grahamが絵画への素晴らしい類推を持っています。メディアの抵抗が作れる絵画の種類を決めるのです。研究は非常にそれと似ています。非常に芸術的な努力で、研究者自身がアーティストであり、アーティストのように行動すべきです。

その区別をなくし、みんなをMember of Technical Staffと呼ぶことで、はるかに平等な競争の場を持てました。後にこれが本当に役立ったのは、PhDを持たない人々がいたときです。OpenAIの多くの偉大な研究者、Aditya Ramesh、Alec Radfordなど、これらの人々の多くはPhDを持っておらず、実際にOpenAIで働くことで技術を学びました。

ChatGPTの世代別使用方法

AI Demoで最近、Sam Altmanが興味深い話題を残してくれました。ChatGPTの世代別使用方法について、高齢者はGoogleの代替として使い、20代と30代はチャットGPTをライフコーチやライフアドバイザーとして使い、高校生以下はオペレーティングシステムとして使うということでした。あなたの周りの人々がChatGPTをどう使っているか、お子さんにどう使わせているかを教えていただけますか。

そのオペレーティングシステムのコメントについて少し考えてみましょう。最も高いレベルで、ChatGPTの総到達可能市場は、思考や行動を必要とするすべてのユーザー意図で、自分でやりたくないものです。完了してほしいが自分でやる必要がないことは何でも、AIを使いたいかもしれないことです。

それについて考えると、非常に怖く感じるバージョンがあります。人々が自分で何もしなくなる、デスキングし、誰も困難なことを学ばなくなり、みんなVRヘッドセットを見ながらゾンビのように映画を見ているような感じです。しかし、それは実際に人々がAIに求めるものだとは思いませんし、私たちが住みたい世界ではありません

これは私がAIとの関係に求めるものではありませんし、今人々がしていることでもありません。これは部分的には、オペレーティングシステムとしてのChatGPTの技術がまだそこにないからです。有名な話ですが、ChatGPTでiPhoneを制御することはできません。しかし、それは人々が望むものでもありません。

息子で見ています。彼は8歳で、かなり幼いころからChatGPTを使っています。公開リリース前にモデルをテストしてもらっていました。実際にかなり良いフィードバックをくれました。彼はChatGPTと多くの時間を過ごしますが、それが友人ではないことを知っています。仲間ではありません。物事を正しく詳しく、多くの忍耐をもって説明してくれる専門家なのです

8歳で、正確に詳しく多くの忍耐をもって物事を説明してくれる人がいることは、非常に価値あることです。彼は好奇心と熱意を持っています。ある日、コイン収集家になりたいと決めました。家中のコインをすべて集め、1970年以前のものをすべて分類し、ChatGPTに行って、1970年以前のコインの一枚一枚について写真を撮って質問し始めました。

これはいくらの価値があるのか、これをより価値あるものにするには何をすればいいのか、これをどうテストできるのか、ミントマークとは何か、このようなさまざまな質問です。これについて考えてみてください。私が子供の頃、これを学ぶことはおそらくできたでしょう。本があったかもしれません。雑誌があったかもしれません。百科事典を見ることができたかもしれません。しかし、これらすべてが今はとてもアクセスしやすく、8歳の子供にアクセス可能なのです

休暇でコインショップに連れて行ったとき、コインショップのスタッフは、この8歳の子がどれだけ知っているかに驚きました。詳細な質問は「あなたのコインをすべて見せてください。いや、それはいりません。サンフランシスコのミントマークがあるものがほしいです。この年のものがほしいです。この年はすべてが銀で作られた年です」といった具合でした。コインショップのオーナーは非常に驚いていました。少なくとも今まで、そのレベルの詳細を持つ子供を扱ったことがなかったのです。

これが実際にAIに求めるものだと思います。AIはあなたがやりたいことの専門家にしてくれるべきで、やりたくない退屈なことをする負担を取り除いてくれるべきです。

次世代のAI準備

次世代について、AIで登場するすべての能力に対して次世代をどう準備していますか。

これは非常に難しい質問です。特定の分野について考えてみると、息子にコーディングを教えるべきでしょうか。私の8歳の息子について考えると、娘はエッセイを書いており、長男は数学に興奮しています。これらすべてが自動化されるでしょう。だから、教えるべき特定のスキルは明らかにありません。

子供たちに理解してもらいたいことが本当に2つあります。第一は学習のプロセスと物事を理解することです。それが数学、エッセイ執筆、コーディングの価値です。特定のスキルではなく、学習することを学ぶプロセスです。

第二は、アイデアとプロジェクトを持つこと、それができるという信念、そして手の届く範囲にあるツールを使ってそれを理解する能力です。これはエージェンシーですよね。それが現在子供たちがAIを使う正しい方法だと思います。

いつもトレードオフがあります。私はしばしば非常に悩んでいます。8歳の息子は多くのことにChatGPTを使いますが、コーディングには使わせません。コーディングを学ぼうとしているからです。コーディングにそれを使わなくてもいいとわかれば、そこまで到達する作業をするのが非常に困難になるでしょう。

他の子供たちが学校の課題にそれを使うことは当然させません。なぜそんなことをするでしょうか。しかし、基礎を持ってもらい、一段階下のことを理解してもらった後、能力を拡張するためにそれを使えるようになってもらいたいのです。

8歳の息子についてのもう一つの楽しい話があります。先週、彼は祖父母が訪問に来たときにボタンを押すことができ、別の部屋でブザーが鳴り、朝食をベッドまで取りに行けるプロジェクトを作りたいと決めました。ChatGPTに助けを求めました。「ジャンパーワイヤー、2つのArduinoボード」といったもののリストが必要だと言われました。

多くの質問をしました。これはどう動作するのか、Amazon のリンクのリストをくれるよう頼みました。私はこれを確認し、感電しないことを確認し、Amazonでアイテムを購入し、今それを組み立てています。

私のアプローチは、彼ができるすべてを彼に組み立てさせることです。彼のコンピューターはロックダウンされていてソフトウェアをインストールできないので、ソフトウェアは私がインストールします。これは彼のプロジェクトになります。

私たちの誰も8歳でそれができませんでした。彼はこれをすることで非常に多くを学んでいます。すべてをChatGPTにアウトソースしたわけではありません。今では、Arduinoとは何か、回路基板で何が起こるかを理解しています。このピンを押すと何が起こるのか、なぜこのピンがGRP1と名前が付いているのか。これらすべての答えを私も知らないので、ChatGPTが彼のためにこれらすべてのことをできることは本当に大きな助けです。

好奇心を呼び起こし、そしてエージェンシーを育てる。素晴らしいです。影響までの時間もそうですね。時間の経過とともに、より多くの好奇心とエージェンシーを育てるだけです。

そうです。もし振り返って考えてみれば、「このプロジェクトをやりたい、Arduinoの本があるから、コードを自分で書く必要があり、どの回路基板を使うべきかも分からない」と言ったら、おそらくこのプロジェクトは途中で死んでしまうでしょう。

教育理論には、誰かが質問をするとき、それは彼らが質問していることを学ぶ準備ができている時だという真理があります。だから、誰かの質問に答えるために予定を外れることは価値があります。その時にその物事を教えることで、彼らに大きなサービスをしているからです。今では、まさにあなたのためのタイミングで、疲れて学校にいて他のことを考えているときではなく、精神的に準備ができているときに、実際に答えを知りたいときに、オンデマンドで質問の答えを得る能力があります。それは非常に強力だと思います。

日常生活でのAI活用

他に日常生活でAIをどう使っていますか。ChatGPT、研究、スケジューリング用AI、Autopilotなど。

この時点で私はほぼ専ら03を使っています。良いモデルを使い始めると、戻るのは非常に困難だと思います。Gemini 2.5を使うこともできるでしょう。本当に良いと聞いています。しかし、先ほど話したように、十分良ければなぜ変える必要があるのでしょうか。

週に約5回Deep Researchを使っています。非常に役立ちます。数時間の作業を節約してくれる時があれば、コストを十分に回収できます。

Deep Researchは何に使いますか。

混合です。一つの答えは、子供たちと何かについて話していて、おそらく誰も今まで尋ねたことのない質問で、答えを知りたい場合です。例えば、木を圧縮するとどうなるか。最初は弾性圧縮で、それから変形し始め、もう少し進むとダイヤモンドになり、それからもう少し進むとブラックホールになります。実際には十数のステップがあります。

これは15年前だったらXKCDコミックになっていたような楽しいトピックで、彼が理解するのに数週間かかっていたでしょうが、今では数秒で答えを得ることができます。

新しい分野や新しいスタートアップの機会について考えているときにも使います。ロボティクスに興味があるなら、特定の会社や特定の市場について知っているすべてを教えてください。

その他の新しいAI製品

他の新しい製品はどうですか。

スケジューリング用のAIアシスタントを使っています。素晴らしいです。現在は一人なので、アシスタントを雇うこともできますが、実際には自分で物事をする方が楽しいです。しかし、カレンダリングは本当に退屈で、AIエージェントをCCして代わりにカレンダリングをしてもらえるのは非常に素晴らしく快適です。

OpenAIでの研究管理について

OpenAIの研究管理について少し聞きたいと思います。非常に賢い個人、創造的な人々の集まりです。組織に対してあなたが公平で優秀なマネージャー、リーダーだったという素晴らしいフィードバックがあります。そのような組織を去る際の教訓は何でしょうか。

これは退屈に聞こえるかもしれませんが、マネージャーとしてしなければならない核心的なことは、管理している人々を本当に気にかけることです。これは多くの場合はそれほど関連しないかもしれません。多くの場合、マネージャーとしての日常業務は調整したり、人々が物事を理解するのを助けたりすることで、忠誠心はそれほど重要ではありません。

しかし、マネージャーとして誰かに困難なことをするよう頼まなければならない時が来ます。キャリアの初期には、バスケットボールをする代わりに日曜日に来て働くよう頼むことかもしれません。しかし、キャリア後期には、本当に気にかけているプロジェクトを諦めて他の人に渡すよう頼んだり、一人で到達できると知っている研究の突破口の功績を共有するよう頼んだりすることです。しかし、チームの人々、その一人の才能ある人だけでなく、2人や3人の非常に才能ある人が一緒に働けば、さらに速く完成できることです。

Palanteerでアレックス・カープと働くことから学んだことの一つは、非常に才能ある人々は超能力を持っているが、同時に衰弱させる弱点も持っているということです。これらの能力の最先端にいる人々にとって、彼らは自分の弱点が何かを理解していないことがよくありますが、周りのすべての人には極めて明白です。

マネージャーとしての私にとって、それは非常に簡単に見えることで、このレベルの能力で人々が失敗するとき、それはほとんど常に自己破壊の形です。彼らができたはずの選択があり、キャリアを変える選択を悪い方向でしたとき、それはほとんど常に自己破壊の問題です。なぜなら、彼らにとって非常に困難なことをしなければならなかったからです。他のすべての人にとってはかなり明らかに正しい答え、会社にとって明らかに正しいことですが、彼らにとっては感情的に極めて困難なことに立ち向かわなければならなかったからです。

マネージャーとして戻ると、人々があなたが自分のためにいると知っている場合、その非常に困難で極めて怖いことをするよう伝えるとき、時々あなたは彼らが深淵を越える手助けができ、問題を解決し、本当に愚かなことをするのを防ぎ、うまくいく結果を得ることができます

人を解雇するときでさえ、この基準を保持します。誰かと話すとき、私は常に彼らにアドバイスを与え、彼らと会社の両方にとって最良のことをする手助けをしなければなりません。人を解雇するときでさえ、この役割で成功しないだろうし、成功しないことを確認するのに十分な時間を投資したなら、彼らが成功していないことを伝え、他の場所を見つける機会を与えることが彼ら自身の最良の利益になります。

最終的に、忠誠心は管理で望む他のすべてのことを解き放つものだと思います

高パフォーマンス研究者のコラボレーション

高パフォーマンスの個人たちと働くことについての微妙なニュアンスが中間にありました。彼らは本当に特定の研究方向に興奮していて、単独で、あるいは1、2人の他の人と一緒に突破したいと思っています。みんな良い自信を持っていて、時には自我もあります。実際に彼らに協力して一緒にそこに到達する努力を受け入れるよう説得するにはどうしますか。

非常に困難で、これは実際に研究所がエンジニアリング文化と非常に異なる点の一つだと思います。エンジニアリング文化では、みんなが一緒に働き、みんなが一つの製品を構築しているという想定があります。しかし、研究はしばしば学術界から出てきて、非常にネガティブな文化があります。PIで、彼のチームで、誰が筆頭著者になるか、誰が最終著者になるか、中間の他の人々は重要ではない、という具合です。

私たちはこれで多くの苦労をしました。一つの答えはないと思います。一時期うまくいったことの一つは、OpenAIを筆頭著者とする論文を発表したことでした。そうすれば筆頭著者を巡る争いがなくなります。それは一つの技術でした。いつもできるわけではありませんし、いつも意味があるわけでもありませんでした。

しかし、最終的には、人々と働くとき、彼らが望むものがあることを理解し、彼らに望むものを与え、やりたいことをやらせる方法を見つけなければなりません。彼らが作ろうとしている芸術を、同時に他のすべての人々にもそれをやらせながら、それがすべて一つの大きな全体に足し合わされるようにすることです。その問題を解決することに何度も時間をかけることです。

AI時代のセキュリティ課題

セキュリティは興味深いトピックだと思います。ますますエージェント的になる世界で、どのようなセキュリティ問題を認識すべきでしょうか。どこに潜在的な機会があると思いますか。

AIがセキュリティにどう影響するかを考えるとき、私にとって第一順位は、以前にできたよりもはるかに簡単に攻撃的な作業ができるようになったことです。脅威の数が増加し、脅威を実行する時間が短縮されました。それが防御をもっとエージェント的になるよう押し進めます。

私が投資している会社でOuttakeという会社があります。元Palanteerの人々のチームに会いました。OpenAIでも非常に成功裏に使いました。彼らがしたのは、人間の入力をほとんど使わないサイバーセキュリティを行うエージェント的スタックを作ったことです。

現在、モデルは実際にこれらすべてのことができる場所にいます。人間ができるこれらの一括操作の一つなら、モデルにそれをさせられないなら、それはあなたの責任であって、モデルの責任ではありません。しかし、障壁は、ビジネスと組織がこれを行うために設定されていないことです。これを実現するために、ビジネスプロセスを変更しなければなりません。

これが、ウェブからモバイルへの移行と同じくらい大きな、既存のビジネスを破壊するスタートアップの機会だと思います。彼らの技術と流通を複製する方が、必要な人間の数を減らすために運営方法を変更するよりも速いかもしれないからです。

ボブ、今日はお越しいただきありがとうございました。お招きいただいて光栄でした。

コメント

タイトルとURLをコピーしました