
20,283 文字

さて、OpenAIのKevinとの会話を終えたところです。私はいつもの抜けた感じで、ほとんど理解しましたが、いくつか聞き逃した部分があると思います。Warunはもっと多くを理解したと思うのですが、Warun、どう思いましたか?特に印象に残ったことは?
KevinはOpenAIのCPOで、Deep Researchとほぼすべての製品を率いた人物です。私にとって印象的だったのは、Anthropicの人が「コーディングは2027年までに完全に自動化される」と言っていたのに対して、Kevinは「待って、それは今年か来年には実現するだろう」と言ったことです。
製品に対する彼らの考え方、コモディティ化の進行についても非常に興味深い洞察がありました。彼は実はコモディティ化に反論していて、確かにすべてがコモディティ化しているが、能力のギャップは存在し、そのギャップは時間とともに変化し続けると主張しています。
もしあなたがユーザーなら、来年、その次の年に何が起こるかに関するタイムラインや予測についても多くの収穫があるでしょう。ビジネスアイデアもたくさんありました。Kevinが「AIの世界でうまくいく」と考えるビジネスアイデアをいくつか発掘しました。とても魅力的な会話でした。ネタバレはしたくないので、ぜひご覧になって、そして登録してください。皆さんが視聴・登録してくださるからこそ、私たちはこのような楽しい会話ができるのです。さあ、イントロを流しましょう。
今日のエピソードは特別なものになりますよ。視聴者の皆さんは、毎週同じ二人の顔以外の誰かを見ることができます。OpenAIからKevin Wellが参加してくれています。Kevin、あなたのことを知らない人のために、OpenAIでの役割と、なぜあなたがそれほど特別なのかを教えていただけますか?
なぜ私が特別なのか。そうですね、私はOpenAIでチーフプロダクトオフィサーを務める特権を持っており、これは私がこれまで経験した中で最も楽しい仕事だと思います。私はキャリアの中でいろいろな場所で働く幸運に恵まれました。Twitterの初期、約40人の頃からエンジニアとして働き、4,000人ほどになるまでいました。そこではほとんどの時間をプロダクト責任者として過ごしました。Instagramのプロダクト責任者も務め、MetaのLibraという暗号プロジェクトの共同作成者でもありました。また、Planetという会社で数年間衛星の構築に取り組んだこともあり、これも素晴らしい経験でした。
でも、OpenAI以外のどこで働いていても、コンピュータができることについてある程度の基本的な感覚がありました。製品を作り、誰のために作っているのか、どんな問題を解決しようとしているのかを考えますが、技術は技術です。データベースは改良されますが、あまり速くはありません。今年のデータベースは去年のデータベースより5%速いかもしれませんが、基本的には同じことをしています。
OpenAIのクレイジーなところは、2ヶ月ごとにコンピュータに世界の歴史上コンピュータがこれまでできなかったことをさせているということです。技術が何をできるかという概念が変わり、2、3ヶ月ごとに製品をほぼ再考する必要があります。それは大変ですが、とても楽しいです。
なるほど。Kevinが特別な理由は、彼の履歴書が私のWikipediaページよりも大きいからです。それが主な理由です。Kevin、参加してくれてありがとう。Warun、質問がたくさんあるようなので、どうぞ始めてください。
Kevin、参加してくれてありがとう。OpenAIでの様子を教えていただけますか?特に製品開発についてはどうでしょうか?OpenAIは二つの会社とも言えますよね。研究会社であると同時に製品会社でもあります。多くの人が「モデルはどんどん良くなっていく」、「ここでもあそこでも素晴らしい研究が行われている」と話していますが、OpenAIは製品としても世界の想像力を捉えています。Chat GPTはもはや動詞になっていて、私も動詞として使っています。日々の仕事はどのような感じですか?
素晴らしいですね。OpenAIは今から約10年前に設立され、もともとは研究会社でした。当時はほんの一握りの、ある意味では「クレイジー」な人々によって始められ、彼らは「AGI(汎用人工知能)を構築できる」と言いました。その時は誰も本当には信じていませんでした。彼らは隅っこで変わり者と思われていましたが、彼らは正しかったのです。何かを発見し、素晴らしいデモを構築し始めました。ルービックキューブを解くロボットハンドのようなものです。
そして彼らは「スケーリング法則」に行き当たりました。これは、より多くの計算能力とデータをモデルに適用するほど、モデルが本当に優れたものになることを示しました。OpenAIはすぐに世界クラスの研究会社になりましたが、今では Chat GPT、Enterprise製品、API製品、その他の製品を持つ会社として、単なる世界クラスの研究会社だけでなく、世界クラスの製品会社でもあるべきです。
実際、私たちはこの二つを別々に運営することはできないと思います。一緒に本当にうまく協力する必要があります。なぜなら、先ほど言ったように、2ヶ月ごとにコンピュータが何をできるかという概念が変わるからです。もし二つの別々の会社として運営していたら、お互いに改良点を投げ合うことしかできず、それでは最高の製品は作れません。
最高の製品は、Deep Researchのように、製品、研究、エンジニアリング、デザインの統合されたチームがある場合に生まれます。人々が求めているものと解決しようとする問題の感覚を、モデルの能力における信じられないようなブレイクスルーと一緒に早い段階で組み合わせると、魔法が起こります。もし互いに物事を投げ合っているだけなら、確かにクールなものは作れますが、最高のものは作れないでしょう。市場は非常に競争が激しく、優れたモデルを構築している素晴らしい会社がたくさんあります。私たちが勝つ唯一の方法は、本当に一つのユニットとして運営することです。それが、私たちが自分たちを設定している方法です。
つまり、あなたの日々の仕事は、研究がどこに向かっているかを考え、製品がそれに追いつくためにどこを加速すべきか、そして6ヶ月後や1年後に全体がどのように見えるかを考えることですか?
そうですし、両方を行います。モデルについて興味深いことの一つは、今日のモデルは非常に素晴らしいものであり、本当には知能に制限されておらず、ある意味では「教え方」に制限されているということです。あなたはモデルに何でも教えることができますが、それにはデータ、強化学習、モデルに何か素晴らしいことを教える環境が必要です。
実際、製品の仕事はますますモデルの評価と教えることに関わるようになっています。そこには微妙さがあります。例えば、モデルをコンペティティブコーディングのコンテストでトレーニングすると、コンペティティブコーディングが非常に得意になりますが、コンペティティブコーディングは実生活でのフロントエンドアプリのコーディングとは正確には同じではありません。
本当に特定の問題が何であるかを理解し、モデルに正しいことを教えていることを確認する必要があります。これは製品が研究に向かう部分です。そして先ほど言ったように、新しい能力が出てきて「これで何か素晴らしいものを作れるだろうか?」と考える場合には、研究が製品に向かいます。両方のグループが一緒に働くことで、両方の世界の最高のものが得られ、素晴らしいものを構築できます。
研究と製品の間でとても多くの時間を費やすので、製品に名前をつける時間がほとんどなくなりますね。
コンテキストとして、Warunはトレーニングを受けたエンジニアであり、私はサイドでコメディアンもやっています。私は単にジョークを言うためにランダムに現れた人ではないことをお伝えしておきます。続けてください。
私たちのネーミングについては、皆さんから受けるすべての批判に値します。絶対にひどいです。しかし私たちはそれを知っており、それを受け入れています。
時々Redditでアマに参加していますが、私はSamと一緒に参加していた時、誰かが「ネーミングを改善できますか?」と質問しました。私たちは「これにどう答えよう?」と考えました。部屋で行ったり来たりして話し合い、最終的に私は「no」という二文字で返信しました。AGIを実現しようとしているのに、消費者からの最大のフィードバックが「名前がちょっと紛らわしい」というのは驚きでした。
しかし、Samが少し話していたように、モデルを再び統合することに興奮しています。歴史的には、GPTモデルシリーズがあり、GPT-3、3.5、4、そして今は4.5と、より大きな事前トレーニングによって支えられています。
そして昨年、推論において大きなブレイクスルーがありました。その結果、モデルは信じられないほど優れていて、o1 preview、o1、そして近日公開予定のo3は信じられないほどのことができます。ベンチマークはチャートを超えており、スケーリング法則によれば100,000倍の大きさのモデルを事前訓練する必要があったはずのことができます。
しかし当時、特にGPTモデルが持っていたすべての機能を持っていませんでした。ウェブ検索、ファイルアップロードの処理などはできず、ただ推論が非常に得意でした。そのため、私たちは新しい名前を付け、シリーズを分岐させました。組み合わせることができなかったからです。同じ機能セットを持っていませんでしたが、あるときには一方を使いたいと思い、別のときには他方を使いたいと思うことがありました。
それは混乱をもたらしましたが、これらのものを世界に出すのに役立ったという点で正しい決断だったと思います。今、人々はこれらのモデルで進歩を遂げ、コーディングやフロンティアサイエンスなど、素晴らしいことをしています。
多くの場合、私たちは速度を最適化し、これらの新しいツールを人々の手に渡して、より多くのことをより速く行えるようにすることを優先していますが、分岐させました。これらの推論モデルに慣れてきたところで、GPTシリーズができるすべてのツールを使うよう教えています。ファイルのアップロードを処理したり、ウェブを検索したり、推論しながらPythonを使用したりすることができます。これは本当にクレイジーです。問題を解決するための推論として、彼らはコードを書いて理解を深めることができます。それが起こるとすごくクールです。
つまり、Oシリーズと GPTシリーズが同じような機能を持ち始めており、それらを再び統合する機会が与えられています。それがGPT-5で計画していることです。
GPT-5の発売時期についてお尋ねするのは難しい質問ですが、お答えいただけますか?
私たちがそれについて話すほど近いと言えるでしょう。少し不確実性があるのは、これをする際に実際に簡素化したいと考えているからです。つまり、人々が慣れているすべてのツールと機能が本当にうまく機能する必要があります。そのため、推論モデルに多くの新しいスキルを教えなければならず、それは研究なので、いくつかのことにはエラーバーがあります。時期は言いませんが、私たちが話しており、非常に真剣に取り組んでいて、今この瞬間も人々がそれに取り組んでいるほど近いです。
Kevin、私はエンジニアではなく、製品のユーザーです。製品は素晴らしいと思います。皆さんは素晴らしい仕事をしていると思います。製品を作る立場として、時間が経つにつれて競合が台頭してきているのを見てきましたよね。人々はモデルがコモディティ化される可能性があり、実際の製品とユースケースがますます重要になると言っています。OpenAIが先導すれば、他のところも同様の製品を出してくることにも気づいていると思います。製品を作る立場として、競合が何をしているかを意識していますか?最初に動くアドバンテージとリードを維持するために、どのように考えていますか?
良い質問です。質問の枠組みに少し反対したいと思います。実際には、モデルがコモディティ化しているとは思いません。モデルは非常に速く動いており、速いペースで良くなっています。正直なところ、モデルが知能を獲得するペースは信じられないほどです。Samは数週間前に話していましたが、一定の知能レベルをベンチマークとして取ると、その知能のコストは毎年10倍のペースで下がっているそうです。
ムーアの法則を考えてみてください。これは過去60年間を定義してきたもので、基本的に18ヶ月ごとにチップ上のトランジスタ数が2倍になるというものです。つまり18ヶ月ごとに2倍ですが、こちらは12ヶ月ごとに10倍です。はるかに急な曲線です。もちろん、知能は一定ではなく、コストが下がると同時に劇的に増加しています。信じられないような一連のトレンドです。
これらのモデルはコモディティ化しているとは思いません。私たちがそのような急な軌道にいるため、人々はリードをすぐに追いかけますが、それはリードが価値がないという意味ではありません。3〜6ヶ月のリードでさえ非常に重要だと思います。それは新しい能力への最初のアクセスを意味し、それらの能力に合った新しい製品を最初に発売できることを意味します。
これらの能力は世界にとって新しいものなので、Deep Researchのようなこれらの製品はこれまで存在していませんでした。あなたがそれらを最初に行えば、道を先導し、他の人々はそれに続くことになります。それは価値のある場所だと思います。
私たちは持っているリードを維持するために最善を尽くします。他の人々も素晴らしい研究をしており、他の研究所がリードしている側面もあります。彼らにとってもよいことです。しかし、私たちは非常に競争的であり、他の人々が何をしているかを間違いなく見ています。でも、私たちは道を先導したいと思っています。
私たちのミッションはAGIが全人類に利益をもたらすことを確実にすることです。私たちはAGI、あるいはAIを誰もがアクセスできるようにすることでそれを実現します。Chat GPTや他のものを使った私たちのファーストパーティ製品でもありますし、300万人の開発者が定期的に使用しているAPIを提供することによっても実現します。それにより、AIがあらゆるツール、会社、製品に組み込まれます。私たちはできる限りのことをして、できるだけ多くの人々にAIをもたらすつもりです。
ここで質問があります。実際には個人的な観察なのですが、私はChat GPT購読をキャンセルしてClaudeに移ろうとしていました。これは少し前のことですが、そのときDeep Researchが出ました。私は通常のPlusプランを使っていて、Deep Researchはプロプランでしか使えないと聞きました。最初はそれほど良くないだろうと思いましたが、多くのツイートを見ました。まず「これは素晴らしい」というツイートを見て、次にまた別のツイート、さらに別のツイートを見ました。そこで「もういいや、o1 Proプランに変更しよう」と思いました。
正直言って、Deep Researchで感じたような「ホーリー」な瞬間は久しぶりでした。Deep Researchは素晴らしいです。Perplexityにも深い研究機能があり、Grokにもありますが、皆さんのDeep Researchには何も比較できません。どれくらいが基礎となるモデルの働きで、どれくらいが製品に対するあなたの仕事なのでしょうか?Deep Researchは素晴らしいです。毎日使っています。
ある時点でリソースに制約があり、一定数の検索しかできませんでした。私は別のアカウントを作成してアップグレードし、より多くの検索ができるようにしました。最も単純な検索にも使っています。なぜなら、Redditや世界中の誰も見たことがないようなブログ投稿をすべて巡回し、非常に少ない幻覚しか発生しないからです。
それは私の意見では素晴らしく、AGIのように感じます。なぜならAIはいつもコンテンツを出力していましたが、それは一般的な性質のものでした。しかしDeep Researchでは今や洞察の粒で満たされています。例えば、「AAAゲームを作るのに平均何人必要ですか?」と聞くと、AIの初期バージョンではかなり不安定な答えでしたが、今では特定の例を挙げて「このゲームはこれだけの人数、あのゲームはあれだけの人数」と答えてくれます。それはとても役立ちます。どれくらいがあなたの製品での仕事で、どれくらいが基礎的な研究なのでしょうか?
それは今までKevinが受けた最も長い褒め言葉ですね。でも続けていいですよ。Deep Researchについて話し続けて、素晴らしい仕事をしています。
正直に言うと、Deep Researchは Chat GPT自体以来、私たちが発売した最高の製品だと思います。それは本当に魔法のようです。社内では「AGIを感じる瞬間」と呼んでいるもので、鳥肌が立ち、AIや知能が増加するモデルのトレンドを知的に理解していても、実際にAGIが常に私たちの周りにあるとき、それがどのように感じるかを推論するのは難しいこともあります。
しかし、時々それについてのヒントを得ることがあり、Deep Researchはその一つでした。私がChat GPTに使うことの多くは5〜10分の時間を節約してくれます。それは素晴らしいことです。時間はすべて受け入れます。私には3人の子供と家族があり、多くのことが進行中です。多くの場合、Chat GPTなしでもできたことですが、Chat GPTがそれをより良く、より速くしてくれるだけです。
Deep Researchは、自分では絶対にできなかったことを実現してくれた最初のケースの一つでした。私は物理学オタクなので、ミューオンコライダーについて学ぼうとして、大きな調査をさせました。20分後に15ページのミューオンコライダーに関するレポートが返ってきました。私自身ではそのような調査をしなかったでしょう。
同様に、息子の医療研究をする場合も、私はそのような研究を行う能力がありません。しかしAIがそれを行い、私に多くの安心感を提供してくれました。少し時間を節約するだけでなく、根本的に私自身ではできなかったことを私のためにしてくれました。それは目からウロコの体験です。
質問に戻ると、信用はまず研究チームにあると思います。彼らは信じられないほどの仕事をしました。しかし、以前お話したように、研究チームと製品、エンジニアリング、デザインチームが最初から一緒に働き、人々のために解決しようとする問題とモデルの評価方法を一致させるという例の一つです。モデルが特定のスキルを向上させるためのトレーニングが、私たちが作ろうとしている製品に直接結びついています。それがこれらのチームを一緒に持ってくる魔法です。
私たちが別々に運営していたら、つまり研究チームがこちらにいて製品チームがあちらにいるという形では、作れなかったと思います。
興味深いですね。GPT-4.5について追加の質問があります。最近4.5を試してみましたが、非常に明確な大きなモデルの感触があります。説明するのは難しいですが、例えばo3 miniのような小さなモデルを使うと、私の言ったことを文字通りに受け取ってしまうような感じがします。説明が難しいのですが、モデルに対して感じるバイブの一つです。
しかし4.5は本当に優れた文章を書き、私が言ったニュアンスを拾ってくれます。私が言ったことのエッジケースも拾ってくれます。私の理解では、4.5には推論能力はなく、単に事前訓練のセットが大きいだけです。このレベルの新しい事前訓練を推論と組み合わせると、世界がこれまで見たことのない何か新しいものが生まれるのでしょうか?大きな能力のジャンプを期待していますか?それともモデルがすでにそれほど大きければ推論は重要ではないのでしょうか?
いいえ、推論は間違いなく重要です。ベンチマークを見ればわかります。より学術的な科学的ベンチマーク、例えばGPQAやフロンティア数学、RCGIなどを見ると、4.5はo1、ましてやo3や今後のフロンティア推論モデルには太刀打ちできません。
しかし、あなたが言ったように、よりソフトな評価、より人間的で柔らかいもの、非常に定量化が難しいものがあり、4.5はそれらに対して信じられないほど優れています。人間のフィードバックや、4.5と他のモデルを並べてどちらが好きかを尋ねるABテストでは、4.5に対する大きな好みが見られます。
これは、モデルの知能をスケールするには今日知られている二つの方法があることを示していると思います。一つはより大きな事前訓練を行うこと、もう一つはその上に推論を教えるためにより多くの強化学習を行うことです。最終的には、どちらか一方ではなく、両方を継続して行うことが答えです。
これらの大きな事前訓練はソフトスキルを獲得し、より良い世界知識を持ち、会話がより興味深くなります。何らかの形で人間的、あるいは生き生きとした感じがします。完全に正しい言葉ではありませんが、より現実的に感じられます。
なぜそうなるのか理論はありますか?
私は大きなモデルにはより多くの微妙さをエンコードできると思います。人間の世界は次元、微妙さ、ニュアンスに満ちています。反対方向を考えてみると、例えば4.0モデルを取り、それを4.0 miniに蒸留すると、あなたが気にする特定の次元での大部分のスキルを保持できるモデルが得られます。
例えば、本当に優れた小さなコーディングモデルを構築したい場合、それは完全に可能です。4.0を取って蒸留するか、o1を取って蒸留して、本当に優れたコーディングモデルを作ることができます。コーディングのベンチマークでは完全に同じではないかもしれませんが、それほど遠くないでしょう。それははるかに小さなモデルになります。しかし、それと会話しようとすると、あまり楽しいモデルではありません。ある意味で、その個性を失ってしまいました。
もしそれがコーディングモデルであれば、誰が気にするでしょうか?それを使う理由はそれではないからです。小さなモデルは多くの点で素晴らしいですが、次元性が低下すると微妙さやニュアンスを失うことがあります。それが会話をとても楽しいものにする何かを失わせているのです。
反対の方向に進み、拡大する場合も同じことが起こると思います。追加された次元性の中にはより多くのニュアンスをエンコードするためのスペースがあります。それは少しバイブ的ですが、そこには科学的な裏付けもあると思います。私たちが見るすべてのことで、それは真実のようです。
4.5は、特定の声を表現したり、関係のアドバイスを求めたり、より柔らかい人間的なことに使う場合、間違いなく最高のものです。それを試してみるまでわからないでしょうが、試してみると「ああ、完全に理解できる」と思うでしょう。
そうですね、書き手としての能力が優れています。4.5には何か特別なものがあり、とても人間らしく感じられます。2、3年前なら、より良い文章を書くには推論が良い方法だと思っていたかもしれません。論理的に「これが起こり、次にこれが起こり、そしてこれが起こった」と説明することが文章力向上に役立つと思っていたでしょう。しかし、あなたが言ったような「微妙さ」こそが文章能力の向上につながるようです。予想外でした。この点で頭の中で修正が必要でした。
ここで特定のスキルについて質問したいと思います。まずコーディングから始めましょう。3年前に「コーディングは自動化される」と言ったら、誰も信じなかったでしょう。「GPT-2はまだ有能ではない」と言われたでしょう。2年前、いや1年半前くらいにGPT-4が登場し始めたとき、それは日常的に使われるようになりました。今では非常に優れています。競技プログラミングも非常に優れていますし、例えば何かのフロントエンドを構築したり、バックエンドのインフラを構築したりする場合にも、はるかに優れた仕事をしてくれます。
数週間前にAnthropicの人と話していて、「コードが99%自動化される時期について、Anthropicにはタイムラインがありますか?フロントエンドとバックエンドに書く実際の機能的なコードについて話しています」と尋ねたところ、「はい、2027年です」と言われました。あなたはタイムラインを持っていますか?コードがどうなるかについての理論はありますか?毎日これを使っているでしょうし、研究チームと一緒に働いて製品を構築しているわけですから、タイムラインや、これがどのように展開されるかについての考えはありますか?
私たちが今進んでいるペースでは、2027年だと驚きます。もっと早くなると思います。
Anthropicは2027年と言いましたが、私たちは2026年と言いますか?
単に、GPT-4.0をリリースしたとき、あなたが言ったように非常に優れたコーディングモデルでした。GitHub Copilotのバックエンドなど、世界中の人々がそれを規模で使用しています。しかし、o1 previewをリリースしたときと比較すると、それははるかに優れたコーディングモデルでした。なぜなら、コードを書くときには推論が重要だからです。
クロスワードパズルやナンプレをしていても、コードを書いていても、ある程度の推論、問題をより小さな問題に分解し、仮説を立て、それらの仮説を検証または反証する能力が必要です。それが推論の役割です。
o1 previewは世界で100万番目に優れた競技プログラマーだったと思います。多くのプログラミングコンペを再現すると、約100万位になります。あまり良く聞こえませんが、世界には3、4千万人のプログラマーがいるので、上位2、3%ということになります。これはo1 previewでした。
o1が正式にリリースされたときの最初の本格的なコーディングモデルは、競技コーディングにおいて世界で約1000番目に優れたエンジニアでした。近日公開予定のo3は、同じベンチマークによると世界で175番目に優れた競技コーダーです。後継モデルのトレーニングを始めるにつれて、それらはすでに改良されています。
私は、少なくとも競技コーディングのベンチマークによれば、今年はAIが永遠に人間よりもコーディングで優れるようになる年だと思います。コンピュータが70年前に人間を乗算で追い越し、15年前にAIが人間をチェスで追い越したのと同じように、今年はAIがプログラミングで人間より永遠に優れるようになる年です。もう後戻りはありません。
私たちはこれに多くの焦点を当てており、Anthropicも多くの焦点を当て、Googleも多くの焦点を当てています。すべてのことの中で、これは本当に速く動くでしょう。私はこのために世界が変わると思います。ずっと良くなります。
エンジニアでなくてもソフトウェアを作れるようになることを想像してみてください。ソフトウェアがあれば、ほぼ何でも作れます。AIがソフトウェアで人間を追い越すことは、AIがチェスで人間を追い越すよりもはるかに重要です。なぜなら、ソフトウェアを使えば、ほぼ何でも作れるからです。もし誰もがソフトウェアを作れるようになれば、それは世界にどれほど民主化効果をもたらすでしょうか。
コロナの時代に、地元の都市のためにCOVIDデータに関連する様々なことを追跡するウェブサイトを作ろうとした人々の話を聞きました。エンジニアは誰も空いておらず、彼ら自身にもスキルがなかったため、それができませんでした。その結果、その情報を持つことができませんでした。今日ではそれは問題ありません。これらのモデルが任意の量の優れたソフトウェアを生成できるようになれば、なおさらです。この未来に私はワクワクしています。それはすぐに訪れるでしょう。
でもKevin、エンジニアがより多くの自由時間を持つことが世界にとって本当に良いことだと思いますか?多くのエンジニアの友人がいますが、私が好きなことに彼らの競争心が向けられるのは必要ありません。
私はわかりませんが、1日のかなりの部分を、やりたくないことに費やしています。仕事の忙しい作業や、子供のサッカーチームのためのフォーム記入など、自動化されればと思う部分が1日の大部分を占めています。それは自動化されるべきです。
同様に、私も長年エンジニアでしたが、ある問題は本当に難しく、長時間すべての時間と注意を向ける必要がありますが、他の時はすでにどのように機能するかがわかっていて、ただ多くのタイピングが待っているだけで、それほど差別化されていません。ただたくさんのタイピングがあるだけです。
(Warunは笑っています)それらのものは自動化されるべきであり、そうなるでしょう。
Kevin、コンテンツクリエイターとして、AIが生成するコンテンツがどれだけオンラインに登場するかについての継続的な議論がありますよね。Warunのインスタグラムは基本的に嘘です。彼のビデオの95%は彼ではなく、3つのボタンをクリックして彼のように見せているだけです。これはどこに向かっていると思いますか?真正性が急速に減少しているように感じます。OpenAIではこれは懸念事項ですか?すべてが自動的に生成できるようになったときのインターネットについて積極的に考えていますか?
私の個人的な見解をお伝えします。ほとんどの人間の創造物には、価値のある「作業の証明」の感覚があると思います。AI
ベースのコンテンツをたくさん作るのが超簡単になれば(そうなると思います)、画像ではすでにそれができますが、人々は多くの時間とエネルギーをかけて作られたと知っているものに価値を置きます。5秒で作れるものには必ずしも価値を置きません。
例えば、Soraを考えてみてください。Soraは私たちのビデオモデルですが、今日Soraに行って「Sora、映画を作って」と言うことはできません。そうは機能しません。しかし、本当に思慮深く詳細なプロンプトを与えれば、素晴らしいものを作らせることができます。社内には以前業界で働いていたクリエイターがいて、私には信じられないようなことをSoraで行うことができます。私たちは同じツールを持っていますが、彼はまだ素晴らしいことができます。
先日、Soraの使用を検討しているディレクターと話していました。彼はSFを扱っていて、例えば、宇宙空間に飛行機があり、惑星に向かってズームするシーンがあるとします。おそらくデス・スターのような惑星です。そして、その後、テクノロジカルな惑星の表面に沿って飛んでいくシーンに切り替える必要があります。一つのシーンから別のシーンへどうやって切り替えるか?いくつかの異なる方法があります。
彼が言っていたのは、今日であれば特殊効果スタジオに行き、10万ドルを渡して、異なる2つのバージョンのカットシーンを作ってもらい、それには1ヶ月かかり、そのうちの1つを選びます。それが本当に持っているすべてだからです。
Soraを使えば、午後の間に、同じカットシーンの40の異なるバージョンを作ることができます。さまざまな方向性を探求し、創造性を思いのままに走らせ、AIと協力してさらに多くのことを行うことができます。その日の終わりには、同じ特殊効果スタジオに行くかもしれませんが、彼は頭の中にさまざまなアイデアを持って行き、50のうちの1つを選んで、AIと協力した結果、はるかに気に入ったものを得ることができます。
そのような世界があると思います。それは指をパチンと鳴らすだけで誰もが素晴らしいものを作れるということではありません。素晴らしい仕事をするには膨大な量の作業が必要になります。優れた仕事をするためにどれだけの努力と専門知識が必要かというバーはおそらく同じままです。ただ、AIを使った出力はそれだけ良くなり、おそらく世界の残りの部分にとってより身近になり、より速くなるだけです。
結果を見ることができれば、他の誰かによって速度を制限されません。同じ量の人時を費やしていますが、VFXスタジオがこれを行うのに1ヶ月かかるとしても、すぐに出力を得ることができます。しかし、いずれにせよ私は作業をしていませんでした。なぜなら、それを彼らにアウトソーシングしていたからです。
業界の別の人と話したとき、彼らは「創造的な仕事やコーディングの未来は管理に変わるだろう」と言いました。なぜなら、AIで今持っている能力は、資本を持つ人々には常に利用可能だったからです。それは人を雇うということです。私は以前ほど多くのコードを書くことはありません。なぜなら、今では多くの人を雇って「このエクスペリメントを試したい」と言うことができるからです。彼らはAIを使っているので、それを試すのに1週間かかるかもしれません。
あなたがもしクリエイティブな人、つまりコーダーや、例えばコンテンツを書いたり広告スクリプトを作ったりする人だとしたら、この新しい世界にどのように適応しますか?インドや世界中には、すべてよりも知性に価値を置く人々がたくさんいます。「これを一から構築し、それはとても難しかった」と言うことが多いのです。そして時々人々と話すと「これを一から構築したかった、この絶対的な細部を知っている」などと言います。そして私たちは「良いでしょう、それは結果に反映されるべきです」と言いますが、彼らは「しかし今日の面接では、あなたが知っているか、一から構築できるかをテストします」と言います。
技術は抽象化のはしごをどんどん上っていくものだと思います。私たちが速く進めるのは、自分で回路を設計する必要がないからです。回路ができたら、機械語を書く必要はなくなります。機械語ではなくアセンブラを書き、そしてCを書き、Pythonを書きます。さらにウェブフレームワークが機能し、ブラウザで活動しているので基盤となるオペレーティングシステムについて心配する必要はありません。
世界は抽象化を一連の増加として進んでおり、それらの抽象化は速く進むのに役立ちます。AIもまた、速く進むのに役立つもう一つの抽象化です。もしAIを多用してコードを書き、最終的にコード自体にそれほど関心がなく、製品の出力に関心があるなら、コードの内部を自分でやった場合と同じくらい知っていますか?おそらくそうではないでしょう。
私の父はエンジニアで、かつてマイクロソフトでコンパイラの仕事をしていました。父が知っていた程度にコードをコンパイルするものの内部を知っていますか?確かにそうではありません。しかし、それは重要でしょうか?私はフォートランを書いているわけではなく、ウェブブラウザでPythonを書いてリアルタイムでデプロイしています。
これらのことはトレードオフです。少し失うかもしれませんが、速度を得て、これをコンパイラとフォートランを偶然知っているサブセットの人々だけでなく、Chat GPTを使える世界中の誰にでももたらす能力を得ます。それは素晴らしいことです。それはあなたが詳細に深く入ることを妨げるものではありません。チップを作る人々はまだいて、彼らは世界に素晴らしいサービスを提供していますが、大多数の人々はスタックのそのレベルを学ぶ必要はなく、その結果、より速く操作してより多くのことを行うことができます。
しかし短期的には、もしあなたが知性を中心にアイデンティティを構築し、例えばコーディングが知性の良いシンボルであり、それがコモディティ化されつつある場合、OpenAIではないエンジニア、おそらくキャリアをスタートさせたばかりのエンジニアとして、これから来る地位の低下にどう対応しますか?
Twitterではすでにこれに関する会話が毎日行われています。否定する人もいれば、悲しむ人もいて、すべての段階がありますし、「何も起こらない、なぜなら結果を作るために必要な努力は同じだから」と言う人もいます。その部分には同意しますが、誰もがアクセスできるようになると、競争することになります。それが地位の問題です。すべては競争についてです。今や、あなたと同じようにスタックの基礎を知らなくても英語を書ける多くの他の人と競争することになり、それでも今はあなたと同じ仕事やタイトルを争う市場に参入しています。この地位効果にどう対応しますか?
ジェフ・ディーンは私よりも優れたエンジニアであり、ジェフ・ディーン+AIは私+AIよりも優れたエンジニアであると賭けてもいいでしょう。専門知識と経験、単なる生の知性だけでなく、どの問題を解決すべきか、どこに仕事の焦点を当てるべきか、どこにレバレッジがあるかを理解することは、まだ重要です。
すべてが完全に均等化され、専門知識がもう重要でなくなるとは思いません。また、何が重要になるかを考え始めると、何でも作れるようになるなら、何を作るべきかを知ることが非常に重要になります。誰が最も重要な問題が何であり、それをどのように解決するかについての感覚を持っているでしょうか?もっと多くの人々がそれらの問題を解決する能力にアクセスできれば、世界はより良い場所になるでしょう。なぜならより多くの問題が解決され、社会として私たちは速く前進するからです。それに私はワクワクしています。
ほぼ「高い能力+AI」は引き続き優位性を持つでしょうという考え方と、AIは新しいタイプの仕事を生み出すだろうという考え方は、矛盾しているように思えます。既存の仕事は存在し続けるがAIがその一部になるという考えと。
Kevin、私はこれに対する素晴らしい答えを聞いたことがないと思いますが、どのような新しい仕事が存在すると思いますか?製品に取り組んでいて「ああ、これは間違いなく数年後には必要になるだろう」と思うような具体的なことはありますか?新しいタイプの仕事として。
言うのは難しいですね。ここであなたを満足させる答えがあるかどうかわかりません。ほとんどすべての仕事がAIによって補完されると思います。毎日それを使って仕事で自分を強化するか、Warunが言ったように、人々はこれらのAI従業員の管理者のようになり、彼らが多くの基本的な仕事を行い、人間に「それで何?」を残すようになるでしょう。彼らは多くの「何」を行い、人間はまだ「それで何?」に責任を持つでしょう。人々の管理者として同じようなことをすることが多いでしょう。
わかりませんが、一つ確信していることがあります。今後数年間で多くのことが変わるでしょう。私が確信していることは、私たち人間は本質的に、ほとんどの人が自分自身より大きな何かの一部でありたいと思っているということです。全員が普遍的な基本所得を得て、ソファで寝そべってアートをするような世界を本当に信じていません。人々は創造したい、人々を助けたい、世界をより良くしたいと思っています。AIは物事を変え、今はできないかもしれない方法でそれを行うのを助けるでしょうが、その根本的な欲求は人々にとって非常に生来のものだと思います。そのため、AIがすべての仕事をするので、私たち全員がリラックスして何もしないような世界は見えません。私たちはまだ努力し、世界をより良い場所にしようとするでしょう。ただ、それを行うための異なるツールを持つことになるだけです。
おそらくこれではありませんが、製品を構築している間に、これらの多くの優先事項があり、自分自身の製品を構築していますが、作業中に「ああ、それはスタートアップだ」と考えることがあるでしょう。あなたたちは知能を作り出していて、「それは間違いなく会社になるだろう」と思うこともあるでしょう。もちろん、他の優先事項があるのでその構築に時間は費やせませんが、頭の中にいくつかのアイデアがあり、「誰かがそれを作るべきだ、誰かが私たちが構築しているものを使って、それを作るべきだ」と考えることはありますか?
スタートアップのアイデアを探っているのですね。ポッドキャストの後に何か始めることを考えていますか?
英語はわかります。自動化されたらこれを構築できますし、何かする必要がありますよね。
いくつかのアイデアを紹介してください、Kevin。できれば10億ドルの価値があるものだと役立つでしょう。
一般的なものと具体的なものを1つずつ紹介します。一般的なことは、先ほど言ったように、これらのモデルは知能に制限されているわけではなく、教えることに制限されています。彼らは何でも学ぶことができ、何を教えるかが重要です。
私立データを活用した大企業が構築されるのを待っていると思います。モデルはインターネットと公開データから訓練されていますが、世界のデータの大部分は公開データではなく、企業、機関、政府などの壁の後ろにロックされている私立データです。それを使用してモデルを信じられないほど優れたものにし、特定の機能に特化させることができます。
すでに法律などの多くの場所でこれが見られ始めており、彼らは私立データを取り、それを使ってモデルを強化し、法的ワークフローを学習させて素晴らしいものにしています。これはさまざまな分野で行うことができると思います。
具体的なものとしては、これは世界全体、特にインドにとても関連性があることですが、私はすべての子供が個人化されたチューターと一緒に成長することを見たいと思っています。なぜそれがまだ存在しないのか分かりません。私の子供たちはそれを持っていませんし、あなたたちが知っている誰かがそれを持っているかどうかわかりませんが、これは世界での変化のペースと生活の質を実質的に向上させるために行える最も価値の高いことの一つのように感じます。
私が見たすべての結果、すべての研究によれば、通常の教育に加えて個人化されたチューターを持つ子供たちは、通常の教育だけを受ける子供たちよりも標準偏差上にいます。そして明らかに、世界中には私たちが基本的な教育と見なすものさえ受けていない子供たちがいますが、彼らはおそらく電話などにアクセスできますし、Chat GPTは無料です。
私は、すべての子供が個人化されたチューターと一緒に成長する世界を見たいと思います。そのチューターは彼らに知りたいことを何でも教え、彼らが望むだけ厳しく押し、彼らの生来の知性が許す限り速く成長させることができます。世界はより良い場所になるでしょう。AIは今日それを行うことができます。今から4年後のブレイクスルーを待っているわけではありません。AIは今日それに準備ができています。誰かがこれを構築し、地球上の30億人の子供たちに届けるのを見たいと思います。
それはAIが優しすぎるからです。Warun、インドの学生は本当に優しいチューターに慣れていません。私が成績が悪ければ先生に怒鳴られる必要があります。
制御不能モードを選ぶこともできますよ。Tomがあなたに怒鳴るモデルをトレーニングしますよ。
質問があります。例えば、子供が多くの「なぜ」という質問を持っていて、AIがあなたとその「なぜ」に答えることができるとします。しかし、最近誰かがツイートで「残念ながら、AIが答えられるすべての「なぜ」は、AIも自分で行うことができる」と言っていました。
子供が成長し、おそらく20〜25年後には、多くの教育が役に立たなくなる可能性があるという恐れはありませんか?しかし、おそらくその教育を内面化することで、より良い決断ができるようになるのではありませんか?3人の子供を持つあなたは、彼らがどのように教育されるか、10年、15年後の彼らの人生がどのようになるかについて、どう考えていますか?非常に長期的な展望を描くようにお願いしていることは分かっていますが、それはOpenAIのロードマップではないかもしれません。しかし一般的に、この能力を解き放った今、世界がどこに向かっていると思いますか?
教育は変わる必要があります。電卓があるようになったので、超長い割り算をスキルとして教える必要はもうありません。教育はAIとともに変化し、進化する必要があります。
教室にいて、社会的な環境にいて、指導してくれる先生がいることには価値があると思います。そして、あなたが望むペースで進むことができ、どんな質問もできて、愚かだと感じる必要がない、無限に辛抱強いAIとの一対一の経験にも価値があります。これらの2つのことが一緒になることで、今日の16歳と未来の16歳を想像できます。彼らは受けた家庭教師のおかげで5学年先を行くでしょう。それができれば、世界はよりよい場所になるでしょう。私たちは持っている教育システムよりもはるかに良いものを作ることができます。これは私の個人的なことですが、素晴らしいAIチューターで世界を席巻する誰かを見たいと思っています。私たちはOpenAIとして、これを規模で行う誰かをサポートするためにあらゆる努力をするでしょう。世界を向上させる最も具体的な方法の一つだと思います。
チューターはもっと良くなるかもしれませんが、ビデオゲームもそうです。問題はまだ存在するでしょう。
ボイスモードは普及していますか?映画「her」のような何かがあれば、ボイスモードをたくさん使い、AIと常に話すようになると思いましたが、そうしていません。AIとテキストでやり取りすることが多く、どのAIでもボイスモードは使っていません。これは奇妙です。いつも反対になると思っていたからです。製品をOpenAIで扱っているので、なぜ普及していないのか、または私のデータが間違っているのか推測はありますか?
そうなると思います。多くの人がそれを常に使っています。確かにパワーユーザーがたくさんいて、仕事から家に歩いて帰るとき、車や
バスにであれ何であれ、実際にChat GPTと話しながら歩いている人を知っています。その日を振り返り、参加したミーティングについて話し、やるべきことについて話し、その日の終わりには、彼らの一日全体を振り返ったChat GPTからやるべきことのリストを受け取ります。ボイスモードにはたくさんの素晴らしいユースケースがあります。
それは現在よりもはるかに良くなると思います。今日、会話でギャップを残すと、ボイスモードは話し終えたと思ってジャンプインします。人間はそうしません。AIが今日行わない方法でキューを取ります。そして、あなたが話し始めると、それは止まり、また始まるというようなことがまだあります。
人間として、私たちはお互いに少し話しかけることを学び、そして誰が続けるかについて少し引き下がるキューを学びます。今日のこのポッドキャストでずっとそうしてきました。そのようなキューや微妙なことが、これを本当に本物のように感じさせるのです。これについて私たちは非常に気にかけています。私たちはたくさんの改善を近いうちに見ることになると思います。
ボイスモードは私にとって素晴らしいものであり、同時にまだ必要なレベルに達していません。私たちはそこに到達すると確信しており、それがさらに多くのことを解放すると思います。あなたはChat GPTと、人間と交流するあらゆる方法で話したいと思うでしょう。時にはビデオ、時には音声、時にはタイピングですが、すべてを行うことができる必要があります。
Kevin、あなたが行っている仕事を見て、おそらく答えは物理的な製品かもしれないと考えることはありますか?
ロボット工学を見始めています。私たち自身が大きなロボット工学のことを行うか、あるいは単に十分なリアルワールドの経験を持つ必要があるかどうかはTBDです。素晴らしいビジョンモデルとリアルワールド理解モデルを構築するためです。どんな場合でも、ロボット工学が大きなことになることを私たちは知っており、ロボットで素晴らしいことをしている多くの他の企業のためにそれをパワーアップしたいと思っています。
私にとって、まず最初にデジタル世界を正しく理解し、デジタル世界で私たちを助けるAGIがあった後、次の明らかな場所はロボット工学とリアルワールドへの影響です。もし私たちが望む会社であるならば、両方でプレイできる必要があります。
Kevin、時間を割いてくれてありがとう。あなたには用事があるので、どうぞお願いします。これからもすばらしい仕事を続けてください。そしてDeep Researchをありがとう。
Deep Researchに感謝します。もっとたくさんのことが来ます。フィードバックをすべて聞かせてください。物事がうまくいっているときは教えてください。特に物事がうまくいっていないときは教えてください。なぜなら、誰かが「これをさせたかったのにできなかった」と言うことほど、私たちのチームを刺激するものはないからです。私たちは数週間後にそれを可能にするでしょう。
ありがとう、Kevin。
ありがとう、ありがとう。
素晴らしい、ありがとう、皆さん。さようなら、さようなら。


コメント