この動画は、OpenAIの最高科学責任者ヤクブ・パホツキと最高研究責任者マーク・チェンによる研究開発の現状と将来展望に関する詳細なインタビューである。GPT-5の開発経緯から始まり、推論モデルの進化、強化学習の成功要因、コーディング能力の飛躍的向上について語られている。特に注目すべきは、従来の「バイブコーディング」から「バイブ研究」への発展可能性や、自動化された研究者の実現という野心的な目標について言及している点である。両氏は研究組織の運営哲学、人材採用の基準、基礎研究の保護といった組織論的側面についても深く議論し、OpenAIが如何にして急速な技術進歩と組織拡大を両立させているかを明かしている。

- OpenAIの推論革命:GPT-5の登場
- 評価指標の進化と新たな挑戦
- GPT-5の驚くべき能力発見
- 自動化された研究者への道のり
- エージェンシーと品質のトレードオフ
- 検証可能性を超えた領域への拡張
- 強化学習の継続的成功
- 報酬モデリングの実践的アプローチ
- コーディングの新時代
- 競技プログラミングからの洞察
- バイブコーディングからバイブ研究へ
- 問題選択の技術
- 研究開発の困難と突破
- 優秀な人材の維持と組織の堅牢性
- 隠れた才能の発見
- 研究者対エンジニアの区別
- 勝利する文化の構築
- 基礎研究と製品開発のバランス
- 多様な研究プログラムの統合
- 優先順位付けの課題
- リソース配分の実際
- 計算制約の現実
- 大学研究との融合
- 外部認識と内部方向性
- 変化の中での不変の原則
- 規模と速度の維持
- 信頼とパートナーシップ
- 科学における偉大な協力関係
OpenAIの推論革命:GPT-5の登場
私たちが狙っている大きなことは、自動化された研究者を作り出すことです。つまり、新しいアイデアの発見を自動化することです。次に私たちが注目している評価や マイルストーンは、経済的に重要なものに実際の動きをもたらすことです。
私は高校生たちと話していたのですが、彼らは「実際、デフォルトのコーディング方法はバイブコーディングです」と言っていました。私は将来はバイブ研究になることを願っています。
ヤクブさん、マークさん、お越しいただきありがとうございます。ヤクブさんはOpenAIの最高科学責任者、マークさんはOpenAIの最高研究責任者として、AIにおいて恐らく最も注目度の高い研究チームを運営するという特権とストレスの両方を抱えていらっしゃいます。
私たちは、最近OpenAIから出た最もエキサイティングなアップデートの一つであるGPT-5をはじめ、様々なことについてお話できることを本当に嬉しく思います。そして一歩下がって、GPT-5だけでなく、Codex、ChatGPT、そしてAPIビジネスを構築でき、モダリティや製品フォームファクター全体にわたって皆さんが持つ多くの異なる賭けを一つの一貫した研究文化とストーリーに織り込むことができる研究チームをどのように構築するかについてもお聞きしたいと思います。
では、まずGPT-5から始めましょう。GPT-5のローンチについて、あなたの視点から少し教えてください。どのように進んだのでしょうか?
GPT-5は、推論を主流に持ち込む私たちの試みだったと思います。GPT-5以前は、2つの異なるモデルシリーズがありました。GPT 2、3、4シリーズのような即座に応答するモデルと、非常に長時間考えてから最良の答えを提供するO1シリーズがありました。
戦術的に、私たちはユーザーが「どのモードを使うべきか」について困惑することを望んでいません。これには、特定のプロンプトに対して適切な思考量を特定し、その負担をユーザーから取り除く多くの研究が必要でした。私たちは、未来はますます推論について、そしてエージェントについてであり、GPT-5はデフォルトで推論とよりエージェント的な行動を提供するステップだと考えています。
このモデルには、O1や以前のモデルと比較して全般的な多くの改善もありますが、このローンチの主要な焦点は確実に、推論モードをより多くの人々に届けることでした。
評価指標の進化と新たな挑戦
評価についてどのように考えているか、もう少し教えていただけますか?ローンチビデオでも、98%から99%へとわずかに向上している多くの評価があることに気づきました。それが評価を飽和させた方法ですね。進歩を測定するためにどのようなアプローチを取っているのか、どのように考えているのでしょうか?
確かに、過去数年間使用してきたこれらの評価については、実際にかなり飽和に近い状態です。そのため、それらの多くにおいて、96%から98%への向上は必ずしも世界で最も重要なことではありません。
もう一つ、より重要だがもう少し微妙なことは、GPT-2、GPT-3、GPT-4の時代にいたとき、基本的に一つのレシピがあったということです。大量のデータでモデルを事前訓練し、これらの評価を異なるタスクへの汎化の物差しとして使用していました。
現在、私たちは異なる訓練方法、特に真剣な推論に対する強化学習を持っています。これにより、ドメインを選択し、そのドメインの専門家になるように、それについて非常に深く推論するようにモデルを訓練することができます。これは特定の種類のタスクをターゲットにできることを意味し、一部の評価で極めて良いパフォーマンスを得ることができますが、他のことへの汎化はそれほど示さないということです。
この世界では、私たちは確実に優れた評価の少し不足状態にあると考えています。私たちが注目している大きなことは、モデルが新しいことを発見できることの実際の指標です。
私にとって今年最もエキサイティングな糸口であり、実際の進歩の兆候は、数学やプログラミングコンテストにおける私たちのモデルのパフォーマンスでした。ただし、それらもある意味で飽和しつつあると思います。次に私たちが注目している評価とマイルストーンは、実際の発見と経済的に重要なものに対する実際の動きを含むものです。
皆さんはすでにAtCoderコンテストで2位を獲得されました。本当に1位しか残っていませんね。
これらの評価、AtCoderやIMOなどが、将来の研究における成功の実世界の指標であることを注意することは重要だと思います。世界の最高の研究者の多くがこれらのコンテストを経験し、非常に良い結果を得ています。私たちは、モデルに新しいことを発見させようとするフロンティアに向けて準備していると思います。
GPT-5の驚くべき能力発見
GPT-5のリリース前に、評価ベンチを進めたり内部で使用したりしている中で、どの能力が最も驚きでしたか?日常的な使用で有用だったので、リリースするのに十分良くなってきたと感じた瞬間はありましたか?
私にとって大きなことの一つは、非常に困難な科学分野でフロンティアをどれだけ押し進めたかということでした。私たちは、職業物理学者や職業数学者である友人たちとモデルを試してみました。そして、Twitterで見かけたようなインスタンスをすでに目にしていました。問題を取り上げて、非常に複雑な新しい数学ではないかもしれませんが、自明ではない新しい数学を発見させることができるのです。
物理学者や数学者たちがこの体験を何度も繰り返しているのを見ています。彼らは問題を試して「わあ、これは以前のバージョンのモデルではできなかったことだ」と言っています。それは彼らにとって少し電球が点くような瞬間です。彼らの学生の一人が数ヶ月かかるかもしれないことを自動化できるのです。
GPT-5はO1に対する明確な改善です。私にとって、O1は推論モデルが日常的に実際に非常に有用になった瞬間でした。特に数学の公式や導出を進める際には、実際にかなり信頼できるレベルに達し、仕事のツールとして実際に使用できるようになりました。
そのような瞬間に到達することは非常にエキサイティングです。しかし、これらのモデルがより長い時間軸でコンテスト問題を解決するような作業を実際に自動化できるようになっているのを見ている今、来年にかけて来るものと比べれば、それは非常に小さなものだったと期待しています。
自動化された研究者への道のり
次の1年から5年で何が来るのでしょうか?あなたが共有することに快適な範囲で、研究ロードマップはどのような感じでしょうか?
私たちの研究で狙っている大きなことは、自動化された研究者を作り出すことです。新しいアイデアの発見を自動化することです。もちろん、私たちが多く考えることの一つは、私たち自身の仕事、ML研究を自動化することです。
しかし、それは少し自己言及的になる可能性があります。そのため、他の科学における進歩の自動化についても考えています。そこでの進歩を測定する良い方法の一つは、これらのモデルが実際に推論し進歩を遂げることができる時間軸を見ることだと思います。
高校のコンテストの近くでの習熟レベルに到達している現在、おそらく1時間から5時間の推論の次元にいると言えるでしょう。私たちは、モデルが非常に長い期間にわたって計画し、記憶を保持する能力の両方の観点で、その時間軸を延ばすことに焦点を当てています。
評価の質問に戻ると、このモデルがどのくらいの期間自律的に動作するかという形の評価が私たちにとって特に興味深い理由です。
エージェンシーと品質のトレードオフ
エージェンシーとモデル開発への大きな動きがありました。しかし、少なくとも現在の状態では、ユーザーは、あまりにも多くのツールや計画ホップが品質の回帰を引き起こす可能性があることと、少しエージェンシーが少ないものでは、品質が少なくとも今日観察される範囲ではもう少し高いということの間のトレードオフを観察しています。安定性と深さの間のトレードオフについてどのように考えていますか?
モデルが取る段階が多いほど、10段階目が正確である可能性が低くなる一方で、一つのことを行うよう求めれば非常によくできるということです。その一つのことをより良く、より良くしていくことはできますが、より複雑なことでは、そのトレードオフがあります。しかし、完全な自律性に到達するためには、複数の段階を踏み、複数のツールを使用しています。
深さを維持する能力は、長期間にわたって一貫性を保つことの多くの部分だと思います。そのため、それらは非常に関連した問題だと思います。実際、推論モデルを使って、モデルが軌道を外れることなく信頼性を持って推論し作業できる長さを大幅に延ばすことを見てきました。これは私たちにとって大きな焦点分野であり続けると思います。
推論は、長期間にわたって動作する能力の核心だと思います。数学問題を解く自分を想像してみてください。アプローチを試してうまくいかず、次にどのアプローチを取るかを考え、最初のアプローチの間違いは何かを考えて、別のことを試します。世界からの厳しいフィードバックを受け、異なるアプローチを試し続けます。長期間にわたってそれを行う能力が推論であり、エージェントにその堅牢性を与えるのです。
検証可能性を超えた領域への拡張
数学と科学について多く話しましたが、私たちが行った進歩の一部が、検証可能性が低い領域、明確な正解や不正解が少ない分野に同様に拡張できると思うかについて、あなたの見解をお聞かせください。
これは私が本当に好きな質問です。実際に研究に拡張し、数ヶ月や年の規模で技術を意味ある形で進歩させるアイデアを発見することを本当に望むなら、これらの質問はそれほど異なったものではなくなると思います。
1時間の規模で非常によく設定された制約問題を解くことと、調べる必要があるアイデアの有限の量があることは、非常にオープンエンドな何かを解くこととは極めて異なって感じるかもしれません。
しかし、はるかに長いスケールでの非常によく定義された問題を解きたい場合、ミレニアム懸賞問題を証明するような場合、突然、どの数学分野や他の科学が関連する可能性があるか、物理学からインスピレーションを得る必要があるか、この周りで開発したい全体的なプログラムは何かについて考える必要があります。そして今、これらは非常にオープンエンドな質問になり、私たち自身の研究についても、与えられたデータセットでのモデリング損失を減らすことだけを気にするなら、その進歩を測定することは、研究で実際に正しい質問をしているかどうかは、実際にかなりオープンエンドな問題になります。
クリエイティブな意味でのオープンエンドの限界について考えることも理にかなっていると思います。しばらく前に、サムが私たちのモデルがより創造的に書くことの改善について投稿していました。私たちはここでも極端なケースを考慮しています。
強化学習の継続的成功
O1が出て以来、強化学習は与え続ける贈り物のようです。数ヶ月ごとにOpenAIがリリースを出すと、皆が「ああ、それは素晴らしいが、この強化学習は高原状態になる。評価を飽和させる。モデルは汎化しないか、合成データが多すぎることによるモード崩壊があるだろう」と言います。皆が強化学習からのパフォーマンス向上が頭打ちになる理由の長いリストを持っています。そして、どういうわけかそれらは起こりません。皆さんは継続的な改善を出し続けています。なぜ強化学習はそんなにうまく機能しているのか、そしてそれがどれだけうまく機能するかについて何か驚いたことはありますか?
強化学習は非常に汎用性の高い手法であり、強化学習システムが動作している状態で探索できるアイデアがたくさんあります。
OpenAIでは長い間、言語モデル以前から始めていました。強化学習は深層学習の上に乗った、この非常に強力なものだと考えていました。深層学習はこの信じられないほど汎用的な学習手法です。しかし、長い間苦労していたのは、環境とは何か、これらのモデルを実世界にどのように実際に固定するか、それとも彼らが皆協力し競争することを学ぶ島をシミュレートすべきかということでした。
そして、もちろん言語モデリングのブレークスルーが来ました。自然言語のモデリングで深層学習をスケールすると、人間言語のこの信じられないほど微妙な理解を持つモデルを作成できることを見ました。それ以来、これらのパラダイムを組み合わせ、自然言語で動作するように強化学習を得る方法を求めてきました。
それができると、事前訓練によって与えられたこの非常に堅牢で豊かな環境で、これらの異なるアイデアと目的を実際に実行する能力を持つことになります。そのため、過去数年間の私たちの研究で最もエキサイティングな期間だったと思います。私たちは本当に多くの新しい方向性と有望なアイデアを見つけ、それらがすべてうまくいっているようで、比較する方法を理解しようとしています。
報酬モデリングの実践的アプローチ
強化学習の実践者でない人々にとって、強化学習の最も困難なことの一つは、適切な報酬モデルを作成するアイデアです。特に、皆さんが出している驚くべき進歩を活用したいが、どこから始めればよいかわからない企業やエンタープライズにとって、次の数年はどのような感じでしょうか?この最新の推論技術ファミリーを使用するアプローチや思考の正しい考え方について学んだことはありますか?生物学者や物理学者として報酬モデリングにアプローチする正しい方法をどのように考えるべきでしょうか?
これは非常に急速に進化すると期待しています。より簡単になると期待しています。2年前であれば、適切なファインチューニングデータセットを作成する正しい方法について話していたでしょうし、その進化の終わりにまだ到達していないと思います。私たちはますます人間らしい学習に向かって進んでいくと思います。強化学習はまだそれほど人間らしくありません。
考え方の最も重要な部分は、現在あるものが永遠に続くと仮定しないことだと思います。
コーディングの新時代
会話をコーディングに戻したいと思います。今日出たばかりのGPT-5 Codexについてお祝いを言わないわけにはいきません。それについて少し詳しく、どのように異なるか、どのように異なって訓練されているか、なぜ興奮しているかを教えていただけますか?
Codexチームの大きな焦点の一つは、推論モデルから得られる生の知能を取り、それを実世界のコーディングに非常に有用にすることです。彼らが行った作業の多くはこれと一致しています。
彼らは、モデルがより困難な環境を扱えるように作業しています。実世界のコーディングは非常に混乱していることを知っています。そのため、ここでのすべての複雑さを処理しようとしています。
スタイルに関係するコーディングがたくさんあり、モデルがどれだけプロアクティブか、どれだけ怠惰かなど、よりソフトなものがあり、コーディングモデルがどのように振る舞うべきかの仕様をある意味で定義できることです。彼らはそこで非常に強い作業を行っており、見ているように、彼らははるかに良いプリセットでも作業しています。
コーダーは、特定のソリューションのために待つ意思のある時間の概念を持っています。簡単な問題ではより低いレイテンシ、困難な問題では実際により高いレイテンシが正しいことで、本当に最良のソリューションを得るという多くの作業を行ったと思います。そのプリセットの甘い点を見つけることです。
簡単な問題対困難な問題と言えば、私たちが発見したのは、Codexモデルの前世代が、最も困難な問題を解くのに時間を費やしすぎず、簡単な問題に時間をかけすぎていたということです。おそらくO1から箱から出して得られるものだと思います。
競技プログラミングからの洞察
コーディングの話題で、皆さんは両方とも過去に競技プログラマーだったので、リー・セドルのGo棋士の話に感銘を受けました。彼はAlphaGoに複数回負けた後、有名にGoを辞めました。最近のインタビューで、皆さんは両方とも、現在コーディングモデルが皆さんの能力より優れていると言っていました。それは皆さんを興奮させます。それについてもう少し話してください。
どのくらいコードを書きますか?手でキーボードを叩いているという意味で、OpenAI全般について話すことができますが、現在AIによってどのくらいのコードが書かれているでしょうか?
コーディングモデルがより良いという点で、この進歩を見ることは極めてエキサイティングだと思います。プログラミングコンテストは、この箱化された環境と時間枠で新しいアイデアを思いつく能力の良いカプセル化されたテストを提供すると思います。
IMO問題6や最も困難なプログラミングコンテスト問題などを見ると、モデルにはまだ少し向上の余地があると思いますが、それが長く続くとは期待していません。
歴史的に、私は実際に非常に謙虚で、歴史的には実際にあらゆる種類のツールを使うことに極めて消極的でした。私はかなり昔からVimを使っていました。
最終的に、特にこの最新のコーディングツール、GPT-5を使って、これはもはや方法ではないと本当に感じました。30ファイルのリファクタリングを15分でほぼ完璧に行うことができるので、それを使わざるを得ません。そのため、私はこの新しいコーディング方法を学んでいます。それは確実に少し異なって感じます。
今は少し不気味の谷にいると思います。非常に多くのことを興奮させているので使わざるを得ませんが、まだ同僚ほど良くありません。その不気味の谷から抜け出すことが私たちの優先事項です。しかし、確実に興味深い時代です。
リー・セドルの瞬間について話すと、AlphaGoは私たち両方にとって、AI開発において非常に形成的なマイルストーンでした。少なくとも私にとっては、そもそもこの分野で働き始めた理由でした。
競技プログラミングの背景のために、これらのコンテスト形式で非常によくできるモデルを構築することに親和性を持っていました。8年生の数学問題を解くことから、1年後に私たちのレベルのパフォーマンスをこれらのコーディングコンテストで打つことまで。
その進歩を見るのは狂っており、少なくともリー・セドルが感じた感情のセットを感じると想像します。これは本当にクレイジーで、可能性は何か、これは私が数十年かけて行ったことで、最前線に到達するのに多くの困難な作業を要したということです。そのため、これらのモデルが何をできないのかという含意を本当に感じます。
バイブコーディングからバイブ研究へ
すでにコーディングのデフォルトを変革したと感じています。この週末、私は高校生たちと話していて、彼らは「実際、コーディングのデフォルト方法はバイブコーディングです」と言っていました。時には完全性のために、すべてのコーディングの仕組みを自分でゼロから実際に行うかもしれませんが、それは彼らにとって奇妙な概念です。なぜそんなことをするのか?デフォルトでバイブコードです。
そのため、将来はバイブ研究になることを願っています。
それについて質問があります。優れた研究者を作るものは何でしょうか?バイブ研究と言うとき、バイブコーディングの大部分は、世界のために有用で興味深いものを構築したいという良い味覚を持つことです。Codexのようなツールの素晴らしいところは、人々が望むものに対する良い直感を持っていれば、それを明確にし、プロトタイプを非常に速く実現するのに役立つことです。研究では、その類推は何でしょうか?優れた研究者を作るものは何でしょうか?
持続力は非常に重要な特徴です。研究で異なることは、実際に何かを作成したり学習したりしようとするとき、それは単に知られていないということです。うまくいくことが知られていない、うまくいくかどうかわからない、そして常に失敗する可能性が最も高いことを試しているということです。
失敗の準備ができ、これらの失敗から学ぶ準備ができた考え方の場所に到達することが重要だと思います。もちろん、それに伴って明確な仮説を作成し、それらについてどのように行っているかについて自分自身に極めて正直であることです。
多くの人が陥る罠は、それがうまくいくことを証明するために手を尽くすことです。これは、アイデアを信じ、重要性を信じることとは全く異なります。それは極めて重要で、持続したいと思いますが、いつうまくいっているか、いつうまくいっていないかについて自分自身に正直でなければなりません。そうすれば学習し調整できます。
経験に対する近道はほとんどないと思います。経験を通じて、問題を考える適切な期間を学びます。困難すぎるものを選ぶことはできませんし、簡単すぎるものを行うのは満足いきません。
研究の多くは、長期間にわたって自分の感情を管理することでもあります。試すことがたくさんあり、それらはうまくいかないでしょう。時にはそれを通して忍耐すべき時を知る必要があり、時には異なる問題に切り替える時を知る必要があります。
興味深さは、良い論文を読み、同僚と話すことを通じて身につけるものだと思います。そして彼らの経験を自分のプロセスに蒸留します。
問題選択の技術
大学院時代、私は研究アドバイザーの大きな推進力の一部が、困難な時期を通して持続し忍耐できるような適切な問題を選ぶことについてでした。アイデアに確信を持つことと、それがうまくいかない時について最大限真実を求めることの違いがあると言いました。そして、両方のことが時にはゼロサムの緊張関係にあるかもしれないことを考えると、あるトピックや問題について深く没頭することがあります。確信と真実探求がそれほどゼロサムの緊張関係にない他の種類の問題に到達するのに役立つ、味覚の段階、問題選択の段階で有用だと発見したヒューリスティックはありますか?
明確にするため、確信と真実探求が本当にゼロサムの緊張関係にあるとは思いません。アイデアを確信することができ、それが機能していない間も非常に持続的であることができると思います。
どれだけ進歩を遂げているかについて自分自身に正直であり、途中の失敗から学ぶことができる考え方にいることが重要だと思います。
本当に気にかけ、本当に重要だと信じる問題を探すことが重要だと思います。私が私を触発した多くの研究者で観察した一つのことは、本当に困難な問題に取り組むことです。広く知られているが、実際には扱いやすいとは考えられていない質問を見て、なぜそれらが扱いやすくないのか、このアプローチについて何が問題なのか、なぜこのアプローチが失敗するのかを尋ねることです。常に次のステップの障壁は何かについて考えています。
本当に真に重要だと信じる問題に取り組んでいるなら、数年にわたってそれらと共に持続する動機を見つけることがはるかに容易になります。
研究開発の困難と突破
GPT-5の開発中、例えば再訓練段階で、困難な問題があり、その問題を解決するための最初の試みがうまくいかず、それでも誰かがそれを通して持続した瞬間はありましたか?そのようなストーリーで思い浮かぶもので、うまくいったもので、他の人々や他の研究者にもっとやってほしいと思うことはありますか?
事前訓練モデルと推論モデルの両方を含むモデルの一連の経路で、非常に一般的なテーマの一つはバグです。ソフトウェアのばかばかしいバグが、知らないうちにすべての実験を少し無効化する方法で、ソフトウェアに数ヶ月間留まることがあります。それらを特定することは、研究プログラムにとって非常に意味のある突破口となることがあります。
また、何かについての特定の考え方を持っていて、その方法が少し歪んでいるために間違った仮定を行わせるという意味でのバグもあります。それらの間違った仮定を特定し、フレームをゼロから再考することです。
最初の推論モデルを動作させることや、より大きな事前訓練モデルを動作させることの両方で、私たちが取り組まなければならなかった複数のそのような問題があったと思います。
優秀な人材の維持と組織の堅牢性
研究組織のリーダーとして、チームで最高の人材を維持するために何が必要か、そして反対に、キーパーソンが離れても崩壊しない非常に堅牢な組織を作ることについてどのように考えていますか?
最高の人々をやる気にさせ興奮させ続ける点で、OpenAIが持っている最大のことは、私たちが基礎研究を行う事業にいることだと思います。私たちは、「ああ、X会社がどのようなモデルを構築したか、Y会社がどのようなモデルを構築したか」を見回すような種類の会社ではありません。
私たちは構築しようとしているものについて、かなり明確で鮮明な定義を持っています。私たちはフロンティアでのイノベーションが好きです。私たちは本当にコピーが好きではありません。人々はそのミッションにインスパイアされていると思います。あなたは本当に深層学習スタックについて新しいことを発見する事業にいて、非常にエキサイティングなものを一緒に構築しています。
それを超えて、多くは非常に良い文化を作ることです。人々が非常に良い研究者になるための良いパイプラインが欲しいです。私たちは歴史的に最高の人材と最も革新的な人材を採用してきたと思います。
非常に深いベンチもあると思いますし、私たちのリーダーのほとんどはミッションに非常にインスパイアされており、それが彼らすべてをそこに留めてきたものです。私の直属の部下を見ると、彼らは人材戦争の影響を受けていません。
隠れた才能の発見
最近研究者と話していて、彼は洞窟住民を見つけたいと話していました。これらはしばしば、自分の仕事についてソーシャルメディアに投稿しない人々です。何らかの理由で、彼らは出版さえしていないかもしれません。彼らは背景で仕事をしている種類の人々です。この概念に同意するかわかりませんが、研究者をどのように採用していますか?人材を探す非明白な方法や、探している非明白な属性はありますか?
私たちが探している一つのことは、任意の分野で困難な問題を解決したことがあることです。私たちの最も成功した研究者の多くは、深層学習の旅をOpenAIで始め、過去に物理学、コンピュータサイエンス、ファイナンスなどの他の分野で働いたことがあります。
非常に野心的な問題に実際に取り組み、実際にそれらと共に持続する意図と結合された強力な技術的基礎。私たちは純粋に、最も目に見える仕事をした人や、ソーシャルメディアで最も目に見える人を探すわけではありません。
研究者対エンジニアの区別
話しているとき、私が創設者で自分の会社を経営していた時を思い出していました。私たちが優秀な人材エンジニアを募集していた時です。あなたが述べた属性の多くは、その時私の心にあったものでした。
イーロンが最近、この研究者対エンジニアの区別は馬鹿げていると投稿しました。それは単に意味論的に、意味論的につまらないことなのか、それともこれら二つのことは実際に見た目よりも似ていると思いますか?
研究者は一つの形にフィットするわけではないと思います。OpenAIで非常に生産的な特定の研究者がいて、彼らはアイデア生成が非常に得意で、必ずしもすべてのアイデアを実装することで大きな影響を示す必要はありません。「これを試してみよう」「これを試してみよう」「もしかしたらそれについて考えているかもしれない」と思いつくだけで、非常に多くのアルファを生成します。
そして、一つのアイデアを取って、そのアイデア周辺の実験の空間を厳密に探索することに非常に効率的な他の研究者もいます。
研究者は非常に異なる形で来ると思います。最初のタイプは必ずしも優秀なエンジニアと同じバケットにマップされるとは限りませんが、かなり多様な研究の好みとスタイルのセットを持とうとしています。
勝利する文化の構築
フロンティアで勝利する種類の文化を作り、あらゆる形の研究者を惹きつけ、実際に彼らを成長させ、繁栄させ、大規模で一緒に勝利させるために何が必要かについて少し話してください。勝利する文化の最も重要な要素は何だと思いますか?
最も重要なことは、基礎研究を保護することだと思います。これほど多くの異なる会社がある世界に入ることができ、チャット製品や他の種類の製品表面でどのように競争するかについて考えるだけになります。
研究をあるがままに認識し、それを行うスペースを与えることを確実にする必要があります。すべての異なる製品方向に引っ張られることはできません。
これは私たちが文化内で注意を払っていることの一つです。特に現在OpenAIに非常に多くのスポットライトが当たり、AI全般に非常に多くのスポットライトが当たり、異なる研究所間の競争があるときです。
「ああ、この最新のリリースに勝つために競争している」のような考え方に陥るのは簡単でしょう。人々が肩越しに見始め、「他のこれらのことは何か」について考え始めるリスクが確実にあります。
人々が1年から2年後に物事が実際にどのように見えるかについて考える快適さとスペースを持つことを確実にすることが、私たちの仕事の大部分だと見ています。実際に答えたい大きな研究質問は何か、現在見ているものを大幅に上回るモデルに実際にどのように到達するかについて、現在のパラダイムで反復的に改善するだけではなく。
基礎研究と製品開発のバランス
基礎研究の保護についてその糸をもう少し引っ張ると、皆さんは明らかに世界で最高の研究組織の一つですが、世界で最高の製品会社の一つでもあります。世界で最高の製品エグゼクティブの何人かも連れてきています。基礎研究を保護しながら、持っている優れた製品を前進させ続ける間の焦点のバランスをどのように取っていますか?
製品について本当に気にかけ、製品の成功に実際に責任を持ちたい研究者のセットを区別することだと思います。もちろん、彼らは大規模な研究作業と非常に密接に調整すべきです。
人々が自分の義務と何に対して報酬を得ているかを理解することが非常に重要なことだと思います。
役立つと思うことの一つは、私たちの製品チームとより広い会社のリーダーシップが、研究でどこに向かっているかのこのビジョンを買っていることです。
そのため、「ああ、今持っている製品は永遠に持つ製品であり、研究から新しいバージョンを待つだけ」のように仮定している人はいません。将来がどのように見えるかについて共同で考えることができます。
多様な研究プログラムの統合
皆さんが行ったことの一つは、OpenAI内部でそのような多様な異なるアイデアと賭けを繁栄させ、それから研究リーダーとして、それをすべてロードマップの一部として一貫した意味を成すようにする方法を見つけ出さなければならないことです。こちらに拡散モデルと視覚メディアの未来を調査している人々がいて、こちらにはコードに関する推論の未来を調査している人々がいます。それをすべてどのように一貫した絵として描きますか?研究者に基礎研究に向かう独立性を与えることと、それを一つの一貫した研究プログラムに適合させることとの間に、少なくとも素朴には何らかの緊張があるかもしれない時に、それはすべてどのように一緒になりますか?
私たちの研究プログラムの確定目標は、数年間、自動化された研究者を作り出すことでした。そのため、私たちはこの目標を念頭に置いてプロジェクトのほとんどを構築してきました。
これは様々な領域での基礎研究への種類のボトムアップアイデア生成に多くの余地を残しています。しかし、私たちは常に、これらのアイデアが最終的にどのように一緒になるかについて考えています。
私たちは、例えば、推論モデルがはるかに進むと信じており、推論モデルに直接ではない多くの探索を持っていますが、それらが最終的にどのように組み合わされるか、そして非常に困難な問題について数ヶ月間考えているものを手に入れた時に、このイノベーションがどのように見えるかについて多く考えています。
長期目標のこの明確さが重要だと思います。しかし、「ああ、ここにすべての小さなピースがある」のように規定的であることを意味するわけではありません。私たちは確実にこれを探索と学習の問題として、これらの技術について見ています。
優先順位付けの課題
非常に粗いレベルでは意見を持ち規定的でありたいが、より細かいレベルでは多くのアイデアが湧き上がることができ、最近それらのことが緊張状態にあった瞬間はありましたか?
挑発的な例は、最近、Googleからnana bananaという新しい画像モデルが出たことです。日常の多くの人々が、これらのモデルが編集プロンプトを理解することが得意な時に、多くの創造性を解放できることに並外れた価値が示されました。
それが直接的に優先していない可能性がある研究プログラムにとって何らかの緊張を作り出すかもしれないと見ることができます。チームの才能ある誰かが来て、「みんな、これは世界でそんなに明らかに価値があるので、これにもっと努力、もっとエネルギーを費やすべきです」と言った場合、その質問についてどのように推論しますか?
これは確実に私たちがOpenAIでしばらく考えてきた質問です。GPT-3を見ると、言語モデルがどこに向かっているかを見た後、AIで行うことができる非常に多くの魔法的なことが明らかにあるだろうと多くの議論をしました。
科学のフロンティアを押し進めているこの非常にスマートなモデルを持つことができますが、この信じられないメディア生成とこの信じられないほど変革的なエンターテインメントアプリケーションも持つことができます。
そのため、これらすべての方向の間でどのように優先順位をつけるかは、確実にしばらく考えてきたことです。
実際の答えは、誰かがそれに本当に興奮することを思いとどまらせないということです。優先順位付けと製品戦略で一貫している場合、それは自然に適合するでしょう。
そのため、多くの人々にこのAI製品を構築すること、彼らが興奮するあらゆる種類の製品を構築することに興奮してもらうことを奨励します。
しかし、彼らの目標がアルゴリズムの進歩を作り出すことである別の人々のグループを保護することも重要だと思います。
リソース配分の実際
アンドレの質問に基づいて、リソース配分の具体的なフレームワークについて話すと、計算リソースのx%は長期的な、非常に重要だが少し絵に描いた餅的な探索に行き、明らかに現在の製品推論もありますが、短中期で達成可能なこの中間的なもの、そのようなことを考えますか?
それは私たち両方の仕事の大部分です。どのプロジェクトにどれだけの計算を与えるかというこのポートフォリオ管理の質問です。
歴史的に、私たちは製品研究対コアアルゴリズムの進歩に少し多く置いてきたと思います。しかし、それは時間をかけて感じ取らなければならないことです。それは動的です。月ごとに異なるニーズがある可能性があると思います。そのため、それについてかなり柔軟でいることが重要だと思います。
10%多くのリソースがあった場合、それを計算に向けるか、それともデータキュレーション、人々に向けるか?どこにその限界的なものを置きますか?
正直に言って、今日は計算が合理的な答えだと思います。
空間では、これらのことのいずれでも、優れて勝ちたいと思うでしょう。危険は、すべてで2位になり、何でも明確にリードしていないことです。
そのため、優先順位付けが重要で、これが勝つ必要があることについて明確な目を持つ必要があるいくつかのことがあることを確実にする必要があります。
計算制約の現実
計算が運命を決める意味で、OpenAIのような研究組織では計算がそれほど多くを設定します。数年前、「計算制約にはすぐにならないだろう」と言うのが非常にファッショナブルになったと思います。なぜなら、人々が発見している多くのCMSがあり、より効率的になり、すべてのアルゴリズムがより良くなり、最終的には本当にデータ制約体制にいるだろうからです。
そして、数年が過ぎて、私たちはまだこの非常に計算された環境にいるようです。これはすぐに変わると思いますか?
計算で何ができるかを十分長い間見てきたと思います。データ制約という主張をそれほど買ってこなかったし、それが変わるとは期待していません。
「私が必要とするすべての計算を持っている」と言う人はいません。
大学研究との融合
歴史的に、基礎研究を進歩させる仕事は、部分的にあなたが述べた計算理由で、主に大学が持っていた義務でした。それはフロンティアAIの場合ではありませんでした。皆さんは、科学を助けるためにフロンティアAI進歩の弧を導く信じられないほど素晴らしい仕事をしてきました。
基礎的な今日の大学研究の世界とフロンティアAIの世界が衝突する時、何が出てくるのでしょうか?
私は個人的にOpenAIでレジデントとして始まり、それは異なる分野の人々が来て、AIについて迅速に学び、研究者として生産的になるためのプログラムでした。
そのプログラムには多くの本当に強力な要素があると思います。アイデアは、PhDのように見えるものを可能な限り短時間で加速できるかということです。その多くは、多くの非常にコアな結果を実装することのように見えます。それを通じて間違いを犯すでしょう。「ああ、これを間違って設定すると、このようにネットワークが爆発する」のような直感を構築するでしょう。そのため、多くのその実践的な経験が必要です。
時間とともに、おそらくこれらの大きな研究所すべてで、最適化とアーキテクチャと強化学習でカリキュラムが開発されてきました。それらの多くを実装し、それらについて読み、それらについて批判的に考えることよりも良い方法はおそらくありません。
アカデミアで経験できるもう一つの良いことは、この持続力だと思います。数年あり、問題を解決しようとしており、それは困難な問題で、これまでそのような困難な問題を扱ったことがないということです。
現在、進歩のペースが非常に速く、おそらくアイデアも過去よりも少し頻繁にうまくいく傾向があります。深層学習は学習したがるからです。
もう少し困難な問題に手を置くこと、野心的な挑戦を攻撃するチームの一部であること、立ち往生している感覚と最終的に進歩している感覚がどのような感じかを得ることは、学ぶのに非常に有用なことだと思います。
外部認識と内部方向性
特定の製品ローンチの外部認識、受容が何かを優先する方法にどの程度影響しますか?明らかに結婚している場合、使用と認識において、おそらくそこには明確な指令があるでしょうが、彼らが少し離婚している場合、それはロードマップや資源を強調する場所についてどのように考えることに影響しますか?
私たちは一般的に未来について非常に強い確信を持っているので、製品の短期的な受容にそれほど密接に結びつけていません。もちろん、何が起こっているかに基づいて学習します。他の論文を読み、他の研究所が何に取り組んでいるかを見ますが、一般的に、かなり強い信念と私たちが構築しているものに対する確信を持った場所から行動します。
もちろん、製品に関しては、反復のサイクルははるかにはるかに速いです。
すべてのローンチで、製品側で大成功するものを目指そうとしていると思います。基礎研究の観点から、非常に豊かな体験と製品のセットを構築するために必要なすべての種類のコア能力を持つモデルを作成しようとしています。
構築できる特定のものの何らかのビジョンを持つ人々がいるでしょうし、それをローンチし、ローンチするすべてが大成功することを本当に望んでいます。そのフィードバックを得て、そうでなければ製品戦略を少し形作るでしょうが、確実に非常に有用で大成功する製品をローンチする事業にもいます。
変化の中での不変の原則
フロンティアAIが持参しようとしている変化を通じて、多くのことが次の数年で変わるように感じます。10年先を予測することは本当に困難で、10ヶ月先も言うまでもありません。
そのため、私の質問は、その変化を通じて、実際に一定であるべきだと思う何らかの事前知識はありますか?明らかに一つは、十分な計算を持っていないということです。一定として合理的に保持される事前知識として考えるべき他に何か変わらないものはありますか?
計算よりも広く、エネルギーの物理的制約がありますが、それほど遠くない時点でロボティクスが主要な焦点になるでしょう。そのため、物理的制約について考えることは重要であり続けると思います。
知能フロンティアでは、あまりにも多くの仮定をしないでしょう。
規模と速度の維持
皆さんの規模に到達できるスタートアップは非常に少ないです。従業員の観点からも収益数からも、おそらく7、8年前に皆さんが参加した時に持っていたその破竹の勢いを維持しています。それを行う秘密のソースは何ですか?トップにいる今でも、可能な限り迅速に出荷し続けるこの圧力をどのように維持し続けますか?
最も明確な指標の一つは、少なくとも私の心では、私たちが本当に良い研究文化を持っているということだと思います。以前異なる会社で働いたことがあり、学習高原という本当のことがあります。会社に行き、最初の1、2年で多くを学び、その後このフレームワークでかなり効率的になる方法を知っているだけで、学習が停止します。
OpenAIでその経験を本当に感じたことがありません。あなたが述べた本当にクールな結果がすべて湧き上がってくる経験のように、一週間で非常に多くを学んでいます。そのすべてについていくことがフルタイムの仕事であり、それは非常に充実しています。
多くの本当に高品質な研究を生成したいと思っています。かろうじてそれについていくことができるほど十分に生成している場合、それはほとんど良いことです。
技術の開発者は確実にここでの推進力だと思います。数年間与えられたパラダイムで働いた後で快適になるかもしれませんが、私たちは常にその新しいことの先端にいて、直面しようとしている新しい制約と新しい可能性の種類の周りで思考を再構成しようとしています。
そのため、それが常に変化し続ける感覚と常に新しいことを学ぶ考え方を作り出していると思います。
信頼とパートナーシップ
OpenAIで多くの変化を通じて変わっていないことについての私たちの研究で出てきたことの一つは、皆さん二人が互いに持っている信頼です。最近MIT Tech Reviewに皆さんについての記事やプロフィールがあったと思いますが、それも皆さんの化学、互いへの信頼、レポが多くのOpenAIの人々が定数として扱うようになったことの主要テーマの一つでした。
その裏話は何ですか?そこでどのように信頼を築いたのですか?それはどのように起こったのですか?
「恋人たちの会話」のような感じですね。『恋人たちの予感』を見たことはありますか?ソファにいて、今答えなければならない感じです。
私たちが推論に取り組む最初の種を持った時に、もう少し密接に協力し始めたと思います。当時、それはあまり人気のある研究方向ではありませんでしたが、私たち両方がそこに希望の兆しを見て、この方向に押し進めて、作業をどのように機能させるかを見つけ出していました。
時間とともに、非常に小さな努力をますます大きな努力に成長させ、そこで私はヤクブと深く働くことができました。
彼は本当に驚異的な研究者だと思います。これらのフランクリストのいずれでも、彼は1位であるべきです。非常に困難な技術的挑戦を取って、ほとんど個人的に2週間それについて考え、それを粉砕する能力です。
彼が持つ理解の観点での幅広い範囲と、行ってこれらの技術的挑戦の多くを個人的に解決できる種類の深さは信じられないものです。
ありがとう、マーク。私について何か良いことを言う必要はありません。
私たちが一緒に行った最初の大きなことは、このアルゴリズムが機能すると思うと見始めたことだったと思います。「このアルゴリズムが機能すると思うので、これに人々を向ける方法を考えよう」と私は考えていました。そして、マークと話して、「実際にこれを機能させるチームを確立すべきです」となりました。そして、マークは実際にそれを行いました。非常に異なることに取り組んでいる人々のグループを実際に集め、彼ら全員をまとめて、この第三のグループから信じられないほどの化学を持つチームを作成しました。それは私にとって非常に印象的なことでした。
マークと一緒に働き、それを経験できることに本当に感謝し、触発されています。研究自体の技術的事項を理解し、関与し、考える信じられない能力があります。
しかし、それに加えて、チームを導き、触発し、このカオスな方向の混乱の中で実際に一貫性があり、一緒に結合できる組織構造を作り出す素晴らしい能力があります。本当に触発されます。
科学における偉大な協力関係
素晴らしいメモです。科学、特に物理学における最も偉大な発見の一部は、しばしば協力者のペアから来ました。多くの場合、大学を超えて、分野を超えて。皆さんはその伝統に加わったようです。
今日お時間をいただいて話していただき、本当に感謝しています。お越しいただき、ありがとうございました。
ありがとうございました。一緒にいてくれてありがとう。お疲れ様でした。


コメント