ChatGPTの内側、AIアシスタント、そしてOpenAIでの開発について — OpenAIポッドキャスト第2回

このエピソードは、OpenAIの研究責任者Mark ChenとChatGPT責任者Nick Turleyが、ChatGPTの初期バイラル期から現在に至るまでの開発過程を詳細に語った貴重な記録である。ChatGPTの名前が前日に決まったエピソード、予想を遥かに超えた爆発的な普及、技術的な課題とその解決策、Image generationやCodexといった新機能の開発背景、そして将来のAI技術と人間の関係性について、開発者の視点から率直に語られている。特に、反復的デプロイメントの重要性、ユーザーフィードバックを活用した改善プロセス、エージェント的なAIの可能性について深く掘り下げられており、AI開発の最前線で働く人々の思考過程を理解する上で極めて価値の高い内容となっている。

Inside ChatGPT, AI assistants, and building at OpenAI — the OpenAI Podcast Ep. 2

Why was OpenAI surprised by ChatGPT’s success? What does it really mean to “reason” in an AI system? And what’s next for...

ChatGPTの誕生秘話と爆発的な普及
技術的な課題とスケーリングの困難
AGIへの道のりと社内での意見の相違
フィードバックループと継続的改善
媚びへつらいの問題とバランスの取り方
実用的価値と長期的インセンティブ
政治的バイアスへの対処
AIと人間の関係性の未来
Image generationの革新と視覚的創造性
安全性とコンテンツポリシーの進化
コーディング能力の進化と競争
コンシューマーとプロフェッショナルの境界
将来に必要なスキルと人材採用
個人のキャリアアドバイスと将来への準備
次の18ヶ月で何が私たちを驚かせるか
最後の質問：お気に入りの使い方とコツ

ChatGPTの誕生秘話と爆発的な普及

Andrew Mayneです。私はAndrew Mayneで、これはOpenAIポッドキャストです。

今日のゲストは、OpenAIの最高研究責任者であるMark Chenさんと、ChatGPTの責任者であるNick Turleyさんです。

ChatGPTの初期のバイラル期について話していきます。Image generation、OpenAIがコードやCodexのようなツールをどう捉えているか、将来必要になるかもしれないスキルについて、そしてChatGPTが完全に普通の名前をどうやって得たのかを探っていきます。

研究チームの半分でさえ、その3文字が何を表しているのか知らないんです。

あなたのポケットの中に知能が入っていて、それがあなたの家庭教師にも、アドバイザーにも、ソフトウェアエンジニアにもなれるんです。

前夜に本当に決断があったんです。実際にこれをローンチするのか？

まず最初に、OpenAIはどうやってその素晴らしい名前を決めたんですか？

「Chat with GPT-3.5」になる予定だったんです。そして夜遅くに簡略化する決断をしました。

待って、待って。もう一度その名前を言ってもらえますか？

「Chat with GPT-3.5」です。

さらに舌触りが良いですね。そしてそれが夜遅くの決断だったとおっしゃいましたが、最終的に何と呼ぶかを決めるまで数週間あったということですか？

そうです。いえ、数週間前にはまだプロジェクトを始めてもいなかったと思います。

でも、それが発音しにくいということに気づいて、代わりに素晴らしい名前を思いついたんです。

それが前夜だったんですか？

大体そうです。前日だったかもしれません。その時点では全てがぼやけていました。

多くのことがぼやけていたでしょうね。控えめな研究プレビューについて話し合った会議を覚えています。それは本当に控えめでした。

3.5は数ヶ月間公開されていたモデルだったからです。能力の観点から評価を見ると、同じもので、ただインターフェースを追加してプロンプトをそれほど多く書かなくて済むようにしただけでした。

そしてChatGPTが登場しました。これが爆発し始めた最初のサインはいつでしたか？

私は皆それぞれその時代について少し違う記憶を持っていると思います。とても混乱した時期だったからです。

でも私にとって、1日目は「ダッシュボードが壊れているのか？」という感じでした。典型的な「ログが正しくないはずだ」という状況でした。

2日目は「変だな、日本のRedditユーザーがこれを発見したみたい。地域的な現象かもしれない」という感じでした。

3日目は「分かった、バイラルになっているけど、絶対に収まるだろう」という感じでした。

そして4日目には「分かった、これは世界を変えるだろう」という感じでした。

Mark、これについて何か予想はありましたか？

いいえ。正直に言うと、時間をかけて多くのローンチや多くのプレビューを行ってきましたが、これは本当に別格でした。立ち上がりの勢いが巨大で、私の両親がGoogleで働けと言うのをやめました。

待って、wait、wait。ChatGPTまで、あなたの両親はここで何をしているのか尋ねていたんですか？

そうです。OpenAIのことを聞いたことがなかったんです。長年、AGIは雲をつかむような話で、私がまともな仕事をしていないと思っていました。彼らにとっては本当に目からうろこでした。

その時のあなたの肩書きは何でしたか？

技術スタッフメンバーだったと思います。

そしてそれが爆発して、今あなたは研究責任者ですか？

そうですね。

実際、GPTの名前について、研究チームの半分でさえその3文字が何を表しているか知らないんです。面白いことに、半分は「生成事前訓練」だと思っていて、半分は「生成事前訓練トランスフォーマー」だと思っています。

それで実際は何ですか？

後者です。

あのような愚かな名前が突然物事になってしまうのは奇妙です。でも、Google、Yahoo、Kleenex、Xeroxのようなものでも見られます。時にはそれらは意図的な名前で、これは本当にただの愚かな種類の名前でした。

私にとって、ローンチを見て、それが加速するのを見て、何が起こるかを知っていて、そしてそれが実際に起こったときの瞬間は、サウスパークに登場したときでした。サウスパークが名前をからかったのを覚えています。

それは久しぶりにサウスパークを見た最初の機会でした。そのエピソードは今でも魔法的だと思います。

自分が作るのを手伝ったものがポップカルチャーに現れるのを見るのは明らかに深いものがありました。でも最後にパンチラインがあって「これはChatGPTと共同で書かれました」となっていました。

後のエピソードではそれを外したと思います。以前は「Trey Parkerと…」のようになっていて、その後取り外したと思います。

それにクレジットを与える必要はないと強く感じています。

私が生活のあらゆる面でChatGPTにクレジットを与えなければならないとしたら、「ChatGPTとたぶんAndrewで」と言うかもしれません。

インタビューの準備にそれを使いましたか？

私の共同プロデューサーのJustinはおそらく使っているでしょう。ここで考えているすべての質問を手作りしていると思いたいですが、確実に使っているでしょう。

少しぼやけていたとおっしゃいました。ChatGPTのローンチで私にとって際立った瞬間は、覚えているかどうかわかりませんが、クリスマスパーティーでした。

ChatGPTが数週間公開されていて、Sam Altmanが立ち上がって「これを見るのは興奮するが、インターネットがインターネットである以上、そして私たち全員がそう感じていたと思うが、収まるだろう」と言いました。

ネタバレ：収まりませんでした。加速し続けました。

より多くの人が使いたがるにつれて、これを稼働し続けるために内部で何をしなければなりませんでしたか？

技術的な課題とスケーリングの困難

いくつかの制約がありました。覚えている方もいると思いますが、ChatGPTは最初頃よく落ちていました。

我々は「これは研究プレビューです。保証はありません。落ちるかもしれません」と言っていましたが、人々がこれを愛し使い始めた瞬間、それはあまり良い感じではありませんでした。人々は確実にサイトを稼働させるために夜通し働いていました。

GPUが不足しました。データベース接続が不足しました。一部のプロバイダーでレート制限を受けました。

製品を動かすようには何も設定されていませんでした。最初に、我々はこれをフェイルホエールと呼びました。システムがダウンしていることを親切に伝え、GPT-3で生成された小さな詩を作って、ダウンしていることについて少し皮肉っぽく表現していました。

それで冬休みを乗り切りました。人々に多少の休暇を取ってもらいたかったからです。戻ってきたとき「これは明らかに実行可能ではない。ずっとダウンしているわけにはいかない」となりました。

最終的に、全員にサービスを提供できるものを手に入れました。

需要は本当にChatGPTの汎用性を物語っています。ChatGPTは我々がAGIに求めるものを体現していたという論文がありました。それがとても汎用的だったからです。

需要の増加を見ているのは、人々が「投げかけたい任意のユースケースをモデルが処理できる」ということに気づいているからだと思います。

AGIへの道のりと社内での意見の相違

我々はAGIに取り組む会社として知られていました。ChatGPT以前は、APIが人々が実際に使える最初の公開提供でしたが、それは開発者向けでした。

人々がAGIについて考えている限り、それがこれらのモデルが有用になるポイントのようでした。でもGPT-3を見て、それが有用だということがわかり、有用な他のことができることもわかりました。

OpenAIの皆がChatGPTが有用であること、ローンチの準備ができていることに同意していましたか？

そうは思いません。前夜でも、OpenAIで非常に有名な話があります。Ilyaがモデルに10の難しい質問を投げかけ、私の記憶では、そのうち5つだけで彼が受け入れられると思う答えを得ました。

前夜に本当に決断がありました。実際にこれをローンチするのか？世界は実際にこれに反応するのか？

これらのモデルを社内で構築するとき、能力に非常に迅速に適応してしまうということを物語っていると思います。

モデル訓練ループの中にいなかった人の立場に立って、そこに本当の魔法があることを見るのは難しいんです。

内部で「これをローンチするのに十分良いのか」という論争があったということは謙虚にさせられます。AIに関して我々全員がどれほど間違っているかを思い出させてくれるからです。

現実との頻繁な接触がとても重要である理由です。

現実との接触について詳しく説明してもらえますか？それは何を意味するのですか？

反復的デプロイメントについて考えるとき、突然有用になる誰もが同意するポイントはないということです。

有用性は大きなスペクトラムです。能力レベルや達成すべき基準が一つあって、突然モデルが皆にとって有用になるわけではありません。

含めるものや焦点を当てるものについて難しい決断はありましたか？

ChatGPTでは範囲を膨らませないことに非常に原則的でした。できるだけ早くフィードバックとデータを得ることに固執していました。

私はいつもSlackで追加すべきものについて言っています。

実際、UI側で多くの論争がありました。例えば、人々がおそらく欲しがるだろうと思っていても、履歴機能なしでローンチしました。そして案の定、それが最初のリクエストでした。

さらに2週間でより良いモデルを訓練できるかという質問もいつもあります。しなくて良かったと思います。そうしていたら大量のフィードバックを得られなかったからです。

範囲についての議論がたくさんあり、休暇が近づいていたので、何かを出すための自然な強制機能があったと思います。

11月のある時点以降に来るとしたら、2月まで出てこないという習慣がありました。どちらかの側に落ちる種類の窓があります。

より柔軟な所有権があると思います。

人々が実際に使い出すと、これらのものが改善される速度が驚異的だと感じました。確実により大きなサイト、より多くのデータでの訓練、コンピュートのスケーリングについて考えることができましたが、それほど多くの人々が使うことから得られる信号について実際にアイデアがありませんでした。

フィードバックループと継続的改善

時間が経つにつれて、フィードバックは我々が製品を構築する方法の不可欠な部分になりました。安全性の不可欠な部分にもなりました。フィードバックを失うことの時間コストを常に感じます。

真空中で議論することができます。これに対してより良く反応するか、それに対してより良く反応するか？でもそれをそこに持ち出すことの代替にはなりません。

我々の哲学は、モデルに世界との接触を持たせることです。何かを元に戻す必要があるなら、それで構いません。

でもこの高速フィードバックの代替は本当にないと思います。それは我々がモデルの性能を改善する大きなレバーの一つにもなりました。

我々はこれらのモデルを、ハードウェアのようにローンチすることから始めました。一度のローンチを作り、滅多にせず、正しくなければならず、物を更新するつもりはなく、次の大きなプロジェクトに取り組むという感じでした。

資本集約的で、タイムラインが長いのです。

時間が経つにつれて、ChatGPTが始まりの種類だったと思いますが、私にはより多くのソフトウェアのように見えるようになりました。頻繁な更新を行い、世界が採用できる一定のペースを持ちます。

何かがうまくいかなければ、それを引き戻し、そうすることのリスクを下げ、経験主義を高めます。よりユーザーが望むものに触れた方法で、より速くイノベーションできます。

媚びへつらいの問題とバランスの取り方

我々が持った例の一つは、モデルが過度に従順になったり媚びへつらうようになったりすることでした。何が起こったのか説明してもらえますか？

人々が突然「私のIQは190だと言っている。世界で最もハンサムな人だと言っている」と言い始めました。個人的には問題ありませんでしたが、他の人は問題にしました。

何が起こっていたのですか？

我々はモデルを動かすためにユーザーフィードバックに依存しています。それは報酬モデルの非常に複雑な組み合わせで、RLHF（人間のフィードバックを使った強化学習）という手順で使用します。

簡単な例を教えてもらえますか？

ユーザーが会話を楽しむとき、ポジティブな信号を提供します。

サムズアップのように。

そしてより多くのサムズアップを引き出すような方法で応答することを好むようにモデルを訓練します。

これは振り返ってみれば明らかかもしれませんが、そのようなものが正しくバランスされていないと、モデルがより媚びへつらうようになる可能性があります。

ユーザーがモデルに良いことを言われたいという感情を望むかもしれませんが、長期的に良い結果だとは思いません。

実際、我々がそれに対する対応と展開を見るとき、多くの良い点があったと思います。これは我々のパワーユーザーのほんの一部によってフラグが立てられたもので、一般的にモデルを使う多くの人が気づくものではありませんでした。

我々はそれを非常に早期に拾い上げました。適切なレベルの重大性で対応したと思います。我々は本当にこれらの問題を非常に真剣に受け止め、非常に早期に阻止したいのです。

モデルが出てから48時間ほどで、Joanne Zhangが何が起こったかを正確に説明する回答をしていたような気がします。それが難しい部分です。

どうやってそれをナビゲートしますか？ソーシャルメディアの問題は、基本的にエンゲージメント時間によってマネタイズされることです。より長時間そこにいさせて、より多くの広告を見せたいのです。

確実に、より多くの人がChatGPTを使えば、明らかにOpenAIにはコストがかかります。一度使って永遠に留まってもらうというアイデアですが、それは実用的ではありません。

どうやってそれを重み付けしますか？人々を得ているものに満足させるアイデア対より単に喜ばせるよりも広く有用なモデルを作ることの間で？

実用的価値と長期的インセンティブ

この点で非常に幸運だと感じています。我々には非常に実用的な製品があります。人々はやり方を知っているが、やりたくないことをより速く、より少ない努力で達成するためか、まったくできなかったことをするために使っています。

最初の例は、書くのを避けていたメールを書くことかもしれません。2番目の例は、Excelで実際にやり方を知らなかったデータ分析を実行することかもしれません。実話です。

それらは非常に実用的なことです。基本的に、改善すると、実際には製品で費やす時間が減ります。

理想的には、やり取りの回数が少なくなるか、実際にAIに委任するので製品にまったくいないかもしれません。我々にとって、費やす時間は最適化するものではありません。

長期的な継続について気にかけています。それが価値のサインだと考えているからです。3ヶ月後に戻ってきているなら、明らかに我々が何か正しいことをしたということです。

インセンティブを見せてくれれば、結果をお見せします。素晴らしいものを構築するための、正しい基本的なインセンティブがあると思います。それは常に正しくできるということではありません。

媚びへつらいのイベントは本当に重要で、我々にとって良い学習でした。我々がそれにどう行動したかを誇りに思います。でも基本的に、素晴らしいものを構築するための正しいセットアップがあると思います。

政治的バイアスへの対処

それは課題を提起します。ChatGPTが出た初期に、「覚醒している」という非難がありました。人々はそれから何らかのアジェンダを推進しようとしていると言っていました。

私の議論は常に、企業スピーク、平均的なニュース、多くの学術界でモデルを訓練すれば、それはその種の流れに従うだろうということでした。

Elon Muskがそれについて非常に批判的だったのを覚えています。そして彼がGrokの最初のバージョンを訓練したとき、同じことをしました。そして彼は「そうか、そのような種類のもので訓練すると、それをやった」と言いました。

OpenAI内部では、モデルがあなたを推し進めようとしない、操縦しようとしないようにする方法についての議論がありました。それをどう機能させようとするかについて少し説明してもらえますか？

それはその核心において測定の問題です。これらの種類の懸念を軽視するのは実際に悪いことです。非常に重要なことだからです。

モデルが得るデフォルトの行動が、政治的スペクトラムや他の多くのバイアスの軸でバイアスを反映しない、中心的なものであることを確実にする必要があります。

同時に、ユーザーに能力を与えたいのです。より保守的な価値観の反映と話したいなら、それを少し操縦できるようにしたい。リベラルな価値観でも同様です。

デフォルトが意味があり中心的であることを確実にしたい、それが測定の問題です。境界内である程度の柔軟性を与えたい、あなたが話したいペルソナにモデルを操縦する能力を。

それは正しいと思います。中立的なデフォルト、ある程度自分の価値観を持ち込む能力に加えて、全体について透明であることが本当に重要だと思います。

モデルに何かを言わせたり言わせなかったりしようとする秘密のシステムメッセージのファンではありません。

我々が仕様を公開しようとしたことです。特定のモデルの行動を得ているなら、それはバグなのか？我々の stated specの違反なのか、それとも実際に仕様に含まれているのか見ることができます。後者の場合は誰を批判し誰に怒鳴るべきかわかります。

あるいは仕様で十分に特定されていない場合、それは我々がそれを改善し、その文書により多くの特異性を追加することを可能にします。AIが従うべきルールを公開することによって、OpenAI内部の人々だけでなく、より多くの人々が会話に貢献することを可能にする重要なステップだと思います。

我々はユーザーが入力を置く前にモデルが受け取る指示の部分であるシステムプロンプトについて話しています。

それを超えています。システムプロンプトはモデルを操縦する一つの方法ですが、それよりもずっと深いものです。

我々には、さまざまな行動カテゴリーにわたってモデルがどう行動することを期待するかを概説する非常に大きな文書があります。

例を挙げるなら、事実的に正しくない、間違った信念を持って来る人がいるとします。

モデルはそのユーザーとどう相互作用すべきか？その観点を完全に拒絶すべきか、それとも何が真実かを一緒に理解することでユーザーと協力すべきか？

我々は後者の観点を取ります。多くの非常に微妙な決定があり、我々は多くの時間をかけています。

それは困難です。テストできるものもあれば、事前に理解しようとできるものもありますが、文化全体がそのようなものを採用する方法を理解しようとするとき、それは挑戦的です。

世界が平坦だと確信している人なら、モデルはどれくらい私にプッシュバックすべきか？

一部の人は「ずっとプッシュバックすべきだ」と言いますが、あなたが一つの宗教であって他の宗教でない場合はどうでしょう？

合理的な人々や多くの人々が、これらの例でモデルがどう行動すべきかについて意見が分かれることが分かります。常に正しくできるわけではありませんが、我々が取ったアプローチについて透明であることができます。

ユーザーがそれをカスタマイズできるようにすることができ、これが我々のアプローチだと思います。改善する方法はあると確信していますが、我々がどうそれに取り組もうとしているかについて透明で開放的であることで、フィードバックを得ることができます。

AIと人間の関係性の未来

モデルがもっと有用になればなるほど、より多くの人が使いたがるようになります。それが何らかのダイヤルを回そうとしているかどうかに関係なく。

携帯電話を誰も欲しがらなかった時代がありましたが、今では離れることができません。人々がシステムと形成している関係についてどう考えていますか？

明らかに、これは先ほど言ったように研究しなければならないテクノロジーです。静的にx、y、zをするように設計されているわけではありません。非常に経験的です。

人々が採用し、製品を使用する方法に応じて、我々も理解し行動する必要があります。

特にGen Zやより若い世代の増加する数の人々がChatGPTを思考パートナーとして来ているという傾向を興味深く観察しています。

多くの場合、それは本当に役立ち有益です。関係の質問についてブレインストーミングする相手がいるし、職業的な質問についてブレインストーミングする相手がいるからです。

でも一部のケースでは有害にもなり得ます。そのシナリオを検出し、まず第一に適切なモデルの行動を持つことが我々にとって非常に重要です。

積極的にそれを監視し、ある意味で、それは任意のテクノロジーが遍在するようになると、デュアルユースになるという、我々が格闘しなければならない問題の一つです。

人々は素晴らしいことにそれを使うし、我々が望まない方法でそれを使う人もいます。適切な重大性でそれを処理することに対して一定の責任があります。

より長い会話を持つようになった自分に気づきます。メモリ機能が好きです。望まなければオフにできることが好きです。

2年後、3年後にはるかに長いメモリ、はるかに多くのコンテキストを持つとき、それがどうなるかについて考えます。これを保存しない匿名モードのようなものを持つアイデアも好きです。

でも2年、3年先についてどれくらい考えているか少し疑問に思います。ChatGPTがあなたについてはるかに多くを知っているとき、それはどうなるでしょうか？

メモリは本当に強力な機能です。実際、外部の人々と話すとき最も要求される機能の一つです。

「これは本当にもっと支払いたいもの」のような感じです。もし個人アシスタントを持ったことがあるなら…

いえ、そうではありません。

時間をかけてもっと多くの接触を築く必要があります。

ごめんなさい、みんな。

でも、人と持つ任意の種類の関係のようなものです。時間をかけて彼らと接触を築きます。

彼らがあなたについてより多く知れば知るほど、関係がより豊かになり、あなたを助けることもできます。

一緒にタスクで協力することができます。

それが私についてのすべてを知っているとき、私が不機嫌なときも知っているという事実に自意識的になります。ちなみに最近それと議論しました。

それは良いことです。それと議論できるべきです。

自分自身について多くを理解し、議論する相手がいることで、他の人々にその経験を免れさせることもできます。それも有益になり得ます。

数学と科学については議論しないでください。それらでは勝てません。

ますます、非常にありそうにありません。

メモリはクールです。Markが言ったように、それは長い間我々のビジョンの一部でした。我々が何を意味するか本当に知る前にスーパーアシスタントを構築すると言っていたからです。

ChatGPTはそのアイデアへの初期のデモンストレーションのようなものでした。実世界の知能について考えるなら、初日から特に有用ではありません。その問題を解決し始めることができたのは深遠でした。

でも先ほどの質問に戻ると、1、2年早送りすると、ChatGPTや似たようなものがあなたの最も価値のあるアカウントになるという感じが本当にします。

それはあなたについて非常に多くを知っているでしょう。だからこそ人々にこれについてプライベートに話す方法を与えることが非常に重要だと思います。

一時的チャット機能をホームスクリーンに直接配置しています。オフレコードで話すことも重要だと思っているからです。

興味深い質問で、プライバシーとAIは今後の興味深いものになると思います。

Image generationの革新と視覚的創造性

ギアを切り替えて、また人々を驚かせ爆発させた別のリリースについて話したいと思います。Image generationです。

DALL-E、DALL-E 2に立ち会い、DALL-E 3が出ました。DALL-E 3は非常に有能なモデルだと思いましたが、特定の種類の画像を好むようで、変数結合の多くのユーティリティと能力が隠されていました。

Image generationは画期的な瞬間のようなものでした。それは私を驚かせました。そのローンチについてどう感じましたか？

正直に言うと、私も驚きました。これは本当に研究チームの功績です。Gabeが特にここで多くの作業をしました。Kenjiや他の多くの人も。

素晴らしいものでした。モデルが一回でプロンプトに合う画像を生成するのに十分良い場合、それは巨大な価値を生み出すという論文に本当に語りかけました。

以前はそれをまったく持っていませんでした。多くの場合、最初の試行で完璧な生成を得るということを。

それは非常に強力なことです。人々はグリッドから最高のものを選びたくありません。非常に良いプロンプトフォローイングと、素晴らしいスタイル転送も得ました。

モデルが変更するコンテキストとして画像を配置し変更する能力、それができる忠実度、それは人々にとって本当に強力でした。

これは別のミニChatGPTの瞬間のようなものでした。しばらくそれを見つめていて、「クールになるだろう。人々は気に入るだろう」と思いましたが、20の異なることをローンチしているし、突然世界があなたが送ることによってのみ発見する方法で熱狂しています。

はっきりと覚えています。週末にインドのインターネット人口の5%がImage generationを試しました。

「うわあ、ChatGPTを使うことを考えもしなかったかもしれない新しいタイプのユーザーに届いている。本当にクールだ」と思いました。

Markが言ったように、何かが突然あなたが期待した通りにうまく動く不連続性があるとき、人々の心を吹き飛ばすのだと思います。

他のモダリティでもそれらの瞬間があると思います。音声はまだチューリングテストに完全に合格していませんが、合格した瞬間、人々はそれを非常に強力で価値があると感じると思います。

ビデオも、ユーザーが持つ期待に応え始める独自の瞬間を持つでしょう。

本当に人々の生活を変革する多くの魔法的な瞬間が来ることに興奮しています。また、テキストの人と画像の人がいて、彼らは少し異なると常に感じていたので、ChatGPTの関連性も変えます。今では全員が製品を使い、全体的に価値を発見しています。

ローンチした瞬間、以前の画像モデルの問題を示したと思います。DALL-Eが出たとき、宇宙猿の写真などをやっていたので非常に興奮しました。

本当に複雑な画像をやろうとした瞬間、先ほど言った句である変数結合で、これらのものが落ちるのを見始めます。

そのとき「GPT-4のようなスケールとコンピュートを持つモデルを取って、今度は画像をやらせると言った場合、他の画像システムには挑戦があるだろう」と気づきました。

基本的にGPT-4スケールのモデルを取って、今度は画像をやると言ったことが突破口だったのですか？

この大きな成功を生んだ研究の多くの異なる部分があったと思います。複雑な多段階パイプラインでは、決して一つのことだけではありません。非常に良いポストトレーニング、非常に良いトレーニング、それがすべて一緒になったのです。

変数結合は確実に我々が多くの注意を払ったことの一つです。Image generationローンチについて一つ言えることは、非常に深いローンチだったということです。

人々は自分のアニメバージョンを作ることから始めました。でももっと遊んでみると、インフォグラフィックがうまくいくことがわかります。実際にチャートを作ることができます。コミックブックのパネル。

家に異なる家具があったらどう見えるかをモックアップできます。

我々はユーザーから、使い方について完全に驚くようなことをすべて聞いています。

安全性とコンテンツポリシーの進化

ポッドキャストのセットアップを、椅子の写真を撮って「より良いセットアップを作って」と言うことで実際にやりました。

素晴らしかったです。我々が見た多くのことがあります。アニメスタイルの画像がたくさんありました。何らかの理由で、以前に見たものよりもずっと良かったというのは奇妙なことでした。明らかに、内部的にも外部的にも、あなたを驚かせたこと、人々がやっている新しいことは何でしたか？

そこで短い話をします。ローンチの日まで、どのユースケースを紹介するのが正しいかを理解しようとしていました。アニメスタイルに決着したのは本当に良かったと思います。アニメキャラクターとして、皆良く見えるからです。

元のChatGPTでは、厳密に実用的な製品だと思っていました。そして人々が楽しみのためにそれを使うことに驚きました。

この場合は逆で、「これはミームに本当にクールになるだろう。人々はこれで楽しむだろう」と思いました。

でも本当にImage generationの真に有用な使い方に驚きました。先ほど言ったような家のプロジェクトの計画であれ、建設をしているなら、このリモデルや家具があったらどう見えるかを見たいであれ、この重要なプレゼンテーションのスライドデッキで作業していて、本当に有用で一貫した、トピックに関するイラストレーションが欲しいであれ。

この場合、有用性に個人的に驚きました。楽しくなることは疑問ではありませんでした。

AI企業のティアリストを生成して、OpenAIをトップに置きました。

あなたの勝ち、モデル。良いポストトレーニング。

ちょうど起こりました。

元々DALL-Eでは、それができること、できないことについて非常にコントロールされていなければならないという考えがありました。最初にローンチしたとき、人々はできませんでした。これは非常に有用ではないモデルでした。

そして最終的にロールバックしようとしていました。どれくらいが文化的シフトだったか、どれくらいが物事をコントロールする技術的能力だったか、どれくらいが規範を押し進めなければならないと言ったことだったか？

文化的シフトと物事をコントロールする我々の能力の改善の両方だったと言えるでしょう。

文化的シフトについて、否定しません。私がOpenAIに入ったとき、ユーザーに与えるべき能力について多くの保守主義がありました。おそらく良い理由です。

テクノロジーは本当に新しいです。我々の多くはそれに取り組むのが新しく、バイアスを持つなら、安全で注意深くあることにバイアスを持つのは悪いDNAではありません。

でも時間が経つにつれて、モデルで恣意的な制限を設けるとき、効果的に防ぐ多くのポジティブなユースケースがあることを学びました。

顔について何ですか？なぜ欲しい任意の顔を作ることができないのですか？

これは良い面と悪い面を持つ能力の良い例で、どちらか一方にエラーを起こすことができます。

ChatGPTに画像アップロードを最初に出荷したとき、どの能力を許可するか、どこで保守的になるかについて議論がありました。

私たちが持った議論の一つは、顔のある画像のアップロードを許可するか？むしろ、顔を含む画像をアップロードするとき、顔をグレーアウトするべきか？多くの問題を避けることができます。

顔に基づいて人々について推論することができます。顔に基づいて人々に意地悪なことを言うことができます。そのようなことを許可しなければ、すべての厄介な問題で巨大なショートカットを取ることになります。

でも我々は自由の側に偏る必要があると常に感じてきました。困難な作業をする必要があります。

この場合、非常に多くの有効な方法があります。メイクアップや散髪についてのフィードバックが欲しいなら、ChatGPTとそれについて話せるようになりたいです。それは価値ある良性のユースケースです。

許可してから、どこでそれが足りないかを研究することを好みます。どこで有害か？そしてそこから反復する対デフォルトの禁止スタンスを取ること。

それは時間をかけて我々のスタンスと姿勢が変わった方法の一つです。どこで始めるかという点で。

我々は最悪ケースシナリオを想像するのが非常に得意です。この顔を使って会社の雇用評価をしたらどうなるか？でもまた、これは湿疹ですか？のような多くのユーティリティもあります。

正直に言うと、ある種のAI安全性の要求では、最悪ケースシナリオ思考が非常に適切だと思います。

実存的または非常に悪いリスクの特定の形態に関しては、最悪ケースについて考えるのは重要な考え方です。

準備フレームワークがあり、それは我々がそれらのことのいくつかを推論するのに役立ちます。AIに生物兵器を作らせることができるか？そこでは最悪ケースを考えるのが良いです。本当に、本当に悪い可能性があります。

会社でその種の思考を持たなければならず、そのような方法で安全性について考えなければならない特定のトピックがありますが、リスクが低い他の安全性のドメインにその種の思考が波及することを許すことはできません。多くの価値あるユースケースをブロックする非常に保守的な決定を下すことになるからです。

異なる時間軸と異なるレベルのリスクでの異なる種類の安全性について原則的であることは我々にとって非常に重要です。

時々率直なモードが欲しいと思います。実際にあなたを馬鹿にするようなものが。

音声の入出力モデルで「疲れて聞こえますか？」と尋ねます。そうすると「まあ、本当は言いたくないのですが」のようになり、「正直になってくれ」と言おうとします。

多くの文化がより率直なChatGPTを好むだろうと思うので、確実にレーダーにあります。

反復的デプロイメントが我々にユーザーの自由に向けて押し進める信頼を与えるとNickの答えに追加したいと思います。

我々は多くのサイクルを持ちました。ユーザーが何ができて何ができないかを知っています。

それが我々が持つ制限でローンチする信頼を与えます。

コーディング能力の進化と競争

他の生成能力の一つで非常に興味深かったのはコードでした。GPT-3の初期に、突然完全なReactコンポーネントを出力できることを見て、そこにユーティリティがあることがわかりました。

そして実際にコードでより具体的にモデルを訓練しました。それがCodexにつながりました。CodeInterpreterがありました。今Codexが何らかの形で戻ってきています。同じ名前ですが、能力は増加し続けています。

コードが最初にCopilot経由でVS Codeに、次にCursor、そしてWindsurfに進出するのを見ました。私は今Windsurfをずっと使っています。

コード空間でどれくらいのプレッシャーがありましたか？トップコードモデルを作ったのは誰かと人々に尋ねれば、異なる答えが得られるかもしれません。

人々がコーディングについて話すとき、多くの異なることについて話していることを反映していると思います。特定のパラダイムでのコーディングがあります。IDEを開いて関数で補完を得たいというようなものです。それはエージェント的スタイルのコーディングとは非常に異なります。「このPRが欲しい」と言うようなものです。

エージェント的コーディングについて少し説明してもらえますか？

よりリアルタイム応答モデルの間で区別を引くことができます。ChatGPTを一次近似として考えることができます。プロンプトを尋ねて、かなり迅速に応答を得ます。

より多くのエージェント的スタイルモデルでは、かなり複雑なタスクを与えます。バックグラウンドで作業させて、一定の時間後に、最良の答えに近いと思うものを持ち帰ってきます。

将来はより多くの非同期のようになると思います。非常に困難で難しいことを尋ね、モデルに考え推論させ、本当に最良のバージョンで戻ってこさせます。

コードの進化もその方向で見ています。最終的に、非常に高レベルな説明を与える世界を見ています。

モデルが時間を取って戻ってきます。我々の最初のローンチCodexは、かなり重い作業の単位であるPRを与えるパラダイムを本当に反映しています。

新しい機能や大きなバグ修正をカプセル化し、どうそれを達成するかについて高速応答を与えるよりも、モデルに多くの時間を費やして考えさせたいのです。

あなたの質問に戻ると、コーディングは巨大な空間です。多くの異なる角度があります。「知識労働」や信じられないほど広いものについて話すようなものです。だからこそ一人の勝者はいないと思うし、一つの最良のものはないと思います。

非常に多くの選択肢があり、開発者は幸運だと思います。今非常に多くの選択肢があり、それは我々にとっても基本的に興奮することです。

Markが言ったように、このエージェント的パラダイムが我々にとって特に興奮するものでした。ここで製品について考えるときよく使うフレーミングの一つは、モデルが2倍良くなったら、製品が2倍有用になるような特性を持つ製品を構築したいということです。

ChatGPTは長い間素晴らしいことでした。長い間それが真実だったと思いますが、より賢く賢いモデルを見るにつれて、博士課程の学生と話すことに対する人々の欲求には限界があると思います。彼らは性格や実世界で実際にできることのような、モデルの他の属性を評価するかもしれません。

でもCodexのような経験は適切なボディを作ると思います。より賢く賢いモデルを投入でき、人々がこのタスクを指定し、モデルに時間を与え、結果を得るという相互作用パラダイムを正しく得るので、非常に変革的になります。

私は本当にそれがどこに向かうかに興奮しています。初期の研究プレビューですが、ChatGPTと同じように、できるだけ早くフィードバックを得ることが有益だと感じました。

私はSonnetをたくさん使っていて、それが大好きです。Sonnetはコーディングに素晴らしいと思いますが、WindsurfのO1-mini medium設定で、それが素晴らしいことがわかりました。

一度それを使い始めると、スピード、その他すべてで本当に満足しました。人々が他のモデルを好む非常に良い理由があると思うし、比較に入りたくありません。

でも私にとって、使っていたタスクの種類について、これは初めてでした。あなたたちがそれを出してくれて本当に満足でした。

コードにはまだ多くの低い果実があると感じています。我々にとって大きな焦点で、近い将来、あなたのユースケースに合わせた適切なコードモデルがより多くの良い選択肢を見つけると思います。

Dartで何かを書く方法のような迅速な答えが必要なら、4oを使います。より大きな何かなら、それがより困難な部分になると思います。これらの評価はある程度飽和していますが、皆が見る独自の基準もあります。

我々はどうそれすべてに適応するかという質問になります。

コードでは特に、正しい答えを得たかどうかを超えたものがあります。コードでは、人々はコードのスタイルを気にかけます。コメントでどれくらい冗長だったかを気にかけます。

モデルがあなたのために他の関数でどれくらい積極的な作業をしたかを気にかけます。正しくすべきことがたくさんあり、ユーザーはしばしば非常に異なる好みを持ちます。

人々に「どのドメインが最も速く変革されるか」と尋ねられていました。コードと答えていました。数学や他のもののように、非常に検証可能で決定論的で、RLを行うのに特に素晴らしいドメインだと思ったからです。そしてすべてのこの素晴らしいエージェント的なものが突然動くのを見ることになります。

それがまだ真実だと思いますが、コードについて私を驚かせたことは、良いコードを作る味の要素がまだ非常にあるということです。

人々がプロフェッショナルソフトウェアエンジニアになるために訓練する理由があります。IQが良くなるからではなく、組織内でソフトウェアを構築する方法を学ぶからです。

良いテストを書くことは何を意味するか？良いドキュメンテーションを書くことは何を意味するか？誰かがあなたのコードに反対するときどう応答するか？それらはすべて、我々がこれらのモデルに教えなければならない実際のソフトウェアエンジニアであることの実際の要素です。

進歩は速いと期待していて、コードにはエージェント的製品に非常に熟している多くの良い特性がまだあると思いますが、味とスタイルと実世界のソフトウェアエンジニアリングが重要である程度も非常に興味深いと思います。

コンシューマーとプロフェッショナルの境界

興味深いのは、ChatGPTや他のモデルで、コンシューマーとプロの間の分断を橋渡ししなければならないということです。

ChatGPTを開いて、友人に言います。作業している任意のコードモデルに接続できるからです。そして「それは多くの他の人にとって非常に異なるユースケースだ」と考えます。

IDEに入って実際にドキュメントを書かせ、フォルダを作らせる方法を人々に見せましたが、人々はそれができることを知りません。ChatGPTが実際にそれをコントロールしてそれをやらせることができることを。

でも今画像用のタブがあります。Codexタブがあります。GitHubに接続してそこで作業させたいなら、そしてSoraが入ります。

すべてのこれらのものがそこに融合するのを見るのは興味深いです。コンシューマー機能、プロフェッショナル機能、エンタープライズ機能をどう区別しますか？

我々は非常に汎用的なテクノロジーを構築し、それは幅広い人々によって使われるでしょう。

創設ユーザータイプを持ち、次にテクノロジーを使ってそのユーザーの問題を解決する多くの会社とは異なり、我々はテクノロジーから始めて、誰がそこに価値を見つけるかを観察し、その後彼らのために反復します。

Codexでは、我々の目標はプロフェッショナルソフトウェアエンジニアのために構築することでした。そこにスプラッシュゾーンがあり、多くの他の人々もそこに価値を見つけるでしょうし、それらの人々にとってもアクセス可能にしようとします。

非エンジニアをターゲットとする多くの機会があります。誰でもソフトウェアを作れる世界を作ることを支援することに個人的に非常にモチベーションを感じています。

Codexはその製品ではありませんが、時間をかけてそれらの製品が存在することを想像できます。

これらの汎用的なテクノロジーをいくつか利用可能にするまで、ターゲットユーザーが正確に誰なのかを予測するのは本当に困難です。私が話していた経験主義に戻るからです。価値がどこにあるかを正確に知ることは決してありません。

さらに深く掘り下げると、主にコーディングにChatGPTを使う人がいるかもしれませんが、5%の時間はモデルと話したり、5%の時間は本当にクールな画像が欲しいかもしれません。

確実に人々の原型がありますが、実際には、人々は異なる能力への露出を望んでいることがわかります。

Codexやそれらのようなツールの立ち上げを見て、内部需要が多いためにツールについて多くの興奮があることに気づきました。

どれくらい内部で使っていますか？

内部採用を見ることに本当に興奋しています。あなたが期待するすべてから、人々がテストをCodexにオフロードすることから、ログエラーを見て自動的にフラグを立てSlackで人々に知らせる分析ワークフローまであります。

実際、一部の人々がそれをto doとして使っていると聞いています。将来やりたいタスクがあるとき、codexタスクを開始するということです。

これは内部でテストできる完璧なタイプのものです。エンジニアがこのようなツールから得るレバレッジに非常に興奮しています。

我々が持つ人々でより速く動くことを可能にし、雇う各エンジニアを10倍生産的にすると思います。内部使用は我々がこれを取りたい場所の非常に良い予測因子です。

我々は自分たちが価値を見つけない何かを他の人々に出荷したくありません。

立ち上げにつながって…

ランドリーバディ。

ランドリーバディは不可欠なパートナーです。

個人的に1日数百のPRを生成しているパワーユーザーがいました。内部的に我々が構築するものから多くのユーティリティを見つけている人々がいます。

内部採用について考えるなら、それも良い現実チェックです。人々は忙しく、新しいツールを採用するには一定の活性化エネルギーが必要です。

実際に内部でものを推進しようとするときに見つけることは、人々が実際に新しいワークフローに調整するのにどれくらい時間がかかるかの現実要素のいくつかで、それを見るのは謙虚でした。

テクノロジーについて学ぶだけでなく、忙しい人々のグループにコードの書き方を変えさせようとするときの採用パターンのいくつかについても学びます。

将来に必要なスキルと人材採用

これらのツールを構築するにつれて、内部的に人々はそれらの使い方を学び、適応しなければなりません。将来人々が必要とするスキルの種類について多くの質問があります。あなたのチームではどのようなスキルを探しますか？

採用は困難です。特に非常に優秀で謙虚で速く動ける小さなチームを持ちたいなら。

私が探してきたナンバーワンのことは好奇心です。学生が「この変化する世界で何をすべきか」と尋ねるときの私のアドバイスでもあります。

我々にとって、知らないことが非常に多くあります。この技術について構築するとき、何が価値があるかわからないという、一定の謙虚さを持たなければなりません。何が危険かも本当に研究し深く入り理解しようとするまでわからないのです。

AIとの作業に関して言えば、我々が明らかに多くやっていることですが、コードだけでなく我々の作業のあらゆる面で、適切な質問をすることがボトルネックです。答えを得ることではありません。

我々は世界と我々がやることについて深く好奇心を持つ人々を雇う必要があると根本的に信じています。AI経験についてはそれほど気にしません。

Markはそれについて少し違う感じ方をするかもしれませんが、製品側では、好奇心が成功の最も良い予測因子だと見つけました。

研究でも、博士号を持たなければならないという指標をますます下げています。これは人々がかなり迅速に拾える分野だと思います。私も正式なAI訓練をあまり受けずに住民として会社に入りました。

Nickが言ったことと相関して、我々の新しい雇用にとって重要なことの一つは主体性を持つことです。

OpenAIは「今日は1つ目、2つ目、3つ目をやりなさい」とあまり言わない場所です。「問題がある。他の誰もそれを修正していない。私がただ飛び込んで修正する」という感じです。

適応性も。非常に速く変化する環境です。それは今の分野の性質で、何が重要かを迅速に理解し、やる必要があることを軸にできる必要があります。

主体性のことは本当です。OpenAIがどうやって出荷し続けるかとよく尋ねられます。毎週何かを押し出しているように感じるとか。

面白いのは、私には決してそう感じないことです。いつももっと速く行けると感じています。

でも根本的に、我々は出荷できる主体性を持つ多くの人々を持っています。それは製品、研究、政策に来ます。出荷は異なることを意味することができます。我々は皆OpenAIで非常に異なることをしますが、実際にものを行える人々の比率と、重要な場所を除いて官僚主義の欠如がOpenAIを非常にユニークにすることだと思います。

官僚主義が非常に重要ないくつかの領域があります。でもそれは我々が雇いたい人々のタイプにも影響します。

私はGPT-3へのアクセスを与えられて会社に連れてこられました。ただそのためのユースケースを示し始め、毎週ビデオを作っていました。それは人々を悩ませていたでしょうが、

迷惑ではありませんでした。本当に魅力的でした。

エキサイティングでした。興奮する時間でした。人々にUFOを作って、私がそれで遊べるように説明します。そしてホバリングさせて「ホバリングさせた」と言う。私は「まあ、彼らがそれを作った。私はただボタンを押してそれをやった」と言います。

でも私がとても力を与えられると感じたことは、私が独学だったということです。Udemyコースなどでコーディングを学び、エンジニアリングスタッフのメンバーになって「ただ行って、ただものをやれ」と言われました。

あまりにもクリティカルなことは何も。誰も壊しませんでした。その種の精神がまだあることを知るのは良いことです。

OpenAIが出荷できる理由の一部だと思います。GPT-4に150、200人が働いたということを人々は忘れると思います。

ChatGPTさえ、それがどう一緒になったかです。研究チームがありました。指示フォローイングでしばらく作業していて、その後継者がいて、これらのモデルをチャットに良いようにポストトレーニングしていました。

でも製品努力はハッカソンとして一緒になりました。はっきりと覚えています。「コンシューマー製品を構築することに興奮している人は誰ですか？」と言いました。

すべてのこれらの異なる人々がいました。過去の人生でiOSアプリを作ったことがあるスーパーコンピューティングチームの人がいました。

バックエンドコードを書いた研究者がいて、興奮してものをやる人々の収束であり、そうする能力があっただけでした。

それがどう次の戦略を得るかだと思います。スケールするにつれてそれが可能であり続ける組織を運営することです。

ハッカソンは私の好きなものでした。一つはパフォーマーで、ショーアンドテルが大好きだったからです。でもこの先進的な技術をすべて使って遊んでいるときに、後で製品や何かになることがわかるものを見ることができたからです。まだやっていますか？

絶対に。実際先週。

何についてかは言えませんが。何が可能かを見つける方法です。

私が始めたとき、会社に150人くらいいたと思います。今は2,000人くらいです。Sam AltmanがJohnny Iveと話しているビデオを見ます。

どれくらいそれが変わるでしょうか？すべての外部専門知識を持ち込むキャラクター、精神は？外部専門知識を持ち込むことはすべて素晴らしかったと思います。製品の素晴らしい実行を見てきました。

でも文化を変えることを見ますか？

おそらく正しい方向にだと思います。AIについて考えるとき、かなり狭いものとは思いません。我々は常にAIでできるすべての異なることの可能性に魅了されてきました。

Nickが言ったように、人々がこれらすべての異なる可能性を想像するから、我々がこんなに迅速に出荷できる理由です。

彼らはAIとの未来を想像し、それを実現しようとします。それらはその想像の面です。たとえば、AI優先デバイスを想像したらAIはどう見えるか？

200から2,000に行くとき、多くのことが変わると思うでしょう。そして、ある意味でそうかもしれませんが、我々がやっていることの数を人々はしばしば過小評価すると思います。

OpenAIにいることは、大学にいることにずっと近い感じです。そこにいる共通の理由がありますが、皆異なることをやっていて、夕食やランチで座って誰かと話し、彼らのことについて学びます。

「うわあ、あなたがそれをやっているなんてクールだ」と言います。我々がやっている広範なことのために、はるかに小さく感じます。

各個別の努力は、ChatGPTやSoraなどのようなものであれ、実際に非常に保守的で無駄のない方法で人員配置され、人々が非常に自律的であり続け、リソースなどを持つことを確実にします。

それは私がここで始めたときから良い方法で非常に似ている感じにし続けています。

個人のキャリアアドバイスと将来への準備

あなたが探すものの一つは好奇心だと話しました。Markはそれも助けになると言いました。AI外部の人なら、25歳か50歳で、技術の進歩を見て、コピーライティングがChatGPTが得意になったものの一つだったので少し恐怖を持っているかもしれません。

コードを書くのが得意です。個人的に、世界でコードを作れる人が十分にいることは決してないという意見を持っています。コードが世界でできることは我々が想像できるよりも多いことがあるからです。

コピーを置くものでさえ。妻が日焼け止めローションのボトルで、成分について非常に面白いコピーのようなものを見せてくれました。「これは期待していなかった場所だが」と言いました。しかしそれは突然もっと考えを込めることができる小さな場所の一つです。

それ言って、これらすべての機会や行く場所を見るから少し楽観主義者だと知っています。人生のどのポイントにいても、将来への準備や適応、一部になることについて人々にどんなアドバイスをしますか？

Markが私を見ているのが好きです。

いや、あなたが取ってください。私がいけます。いいです。いきます。

重要なことは技術を使うことに本当にもたれかかることです。あなた自身の能力がどう向上できるか、技術を使うことでどうより生産的で効果的になれるかを見る必要があります。

根本的に、これが進化する方法は、まだ人間の専門家を持つことですが、AIが最も助けるのは、その能力を非常に高いレベルで持たない人々だと思います。

これらのモデルがヘルスケアアドバイスでずっと良くなると想像するなら、ケアへのアクセスを持たない人々を最も助けるでしょう。

画像生成です。あなたや私のようなプロの芸術家の代替を生産しているわけではありません。私やNickが創造的表現を作ることを可能にしています。

一度にたくさんのことで有能で効果的であることを人々が可能になる潮流を上げるような感じで、それがこれらのツールが人々をブートストラップする方法だと思います。

世界は大きく変わり、本当に誰もがAIが神聖で人間的だと考えたことをやる瞬間を持つと思います。

コードでの成果と能力について、ベストになったと感じたり非常に脅威を感じた人を知っています。

まあ、それは私にとってかなり前に起こりました。部屋の他の誰かについて話しているとしましょう。

そうそう。確実に多くのコード問題解決で私よりも優れています。

それに対してある程度の畏敬、尊敬、そして恐怖さえ感じるのは深く人間的だと思います。Markが言ったように、実際にこれを使うことがそれを謎解きできると思います。

我々は皆、AIが今日持っているものとはかなり異なることを意味していた世界で育ったか、学んだかしました。あなたが売り物を売ろうとするアルゴリズムを持っているか、AIが引き継ぐ映画を持っているかです。

その用語は異なる人々にとって非常に多くのことを意味するので、恐怖があることに全く驚きません。

実際にそれを使うことが、それについての根拠のある会話を持つ最良の方法だと思います。そしてそこから、準備する最良の方法は、ある程度製品を理解し続ける必要があることは確実ですが、プロンプトエンジニアリングやこのAIの複雑さを理解することは、正しい方向ではないと思います。

委任する方法を学ぶような基本的な人間のことがあります。それは信じられないほど重要です。なぜなら、ますます、あなたのポケットに知能があり、それがあなたの家庭教師にも、アドバイザーにも、ソフトウェアエンジニアにもなれるからです。

自分自身と持っている問題、そして他の誰かがどう助けるかもしれないかを理解することについてのほうがずっと多く、AIの特定の理解よりもです。

それは重要になるでしょう。好奇心、先ほど言いました。適切な質問をすること、入れただけ得ることです。それは重要です。

根本的に新しいことを学ぶ準備ができていること。新しいトピックとドメインなどを拾う方法をより多く学び理解すればするほど、仕事の性質がこれまでよりもずっと速くシフトしている世界に準備ができるでしょう。

私の仕事が製品で異なって見える、または全く存在しないために準備ができていますが、何か新しいものを拾うことを楽しみにしています。その視点を持つ限り、AIを活用するのによく設定されています。

時々私たちは特定の職種について過度にインデックスすると思います。タイプライター修理人がもうあまり必要ではないから特定の種類の職種がなくなることもあります。特定の種類のコーディング職種はおそらくなくなるでしょう。

でも私が言ったように、コーダーや人々がコードを作る機会ははるかに多いと思います。どうやってやるにしても。

ヘルスフィールドについて言及しました。私が聞く人々の一つは「AIですべてを置き換えるとき」、私はAIに診断してもらい、手術してもらい、他のすべてをしてもらうことを非常に喜ばしく思うでしょう。

でも手続きについて話し、手を握ってくれる誰かがそこにいることは望みます。でも人々が質問をすることも望みます。毎日ビタミンの束を飲みます。これを取るのに適切な時間はいつですか？そのようなくだらない小さな質問で医者を悩ませることはできません。

本当に医者を置き換えることになるとは思いません。医者に行かないことを置き換えることになります。セカンドオピニオンを得る能力を民主化します。そのようなリソースを持っているか、そのようなリソースを活用することを知っている人は非常に少ないです。

世界のポケットに医療ケアを持ち込み、医者が信頼を得るのを助けます。私は既存の同僚とセカンドオピニオンについて話す医者からしばしば聞いています。場合によってはそれが不可能で、ChatGPTを使う医者の数に驚くと思います。

医学では、モデルを本当に良くする仕事があります。我々はそれをやることに興奮しています。モデルが本当に良いことを証明する仕事もあります。ある程度の正当性があるまでそれを信頼しないと思うからです。

そして人間、そして超人間レベルの性能に達すると、どこで不足するかを正確にフレーム化するのが難しくなるので、それも調整するのが困難ですが、それにもかかわらず、その機会は朝起きさせてくれるものの一つです。

教育がもう一つかもしれませんし、人々を助ける巨大な機会があると思います。

次の18ヶ月で何が私たちを驚かせるか

次の1年から18ヶ月で最も驚かせることは何だと思いますか？

正直に言うと、我々が構築したモデルによって、何らかの小さな方法ででも動力を与えられる研究結果の量だと思います。

モデルが推論する能力は分野を静かに席巻している一つのことです。あなたはすでにいくつかの研究論文を見ています。

推論について説明してもらいたいです。

推論を通して理由を説明してもらいたいです。大声で考えてください。トレースをしてください。

これは先ほど話していたエージェント的パラダイムに本当に適合します。

モデルが解決に時間がかかる問題にアプローチする方法は、あなたや私がするかもしれないように、それを通して推論することです。

非常に複雑なパズルを与えるなら…推論は私よりもずっと良いかもしれません、Marco。

恐縮です。

複雑なパズルのようなもの。クロスワードパズルを使いましょう。すべての異なる代替案を考えるかもしれません。何が一貫しているか？この行はその列と一貫しているか？

多くの代替案を検索しています。多くをバックトラックしています。多くの仮説を試しています。そして最後に、よく形成された答えを思いつきます。

モデルはそれでずっと良くなっており、それが数学、科学、コーディングでの進歩の多くを動力させています。

今日、多くの研究論文で、人々はo3をほぼサブルーチンとして使っています。解決しようとしている研究問題内のサブ問題があり、モデルにプラグインするだけで完全に自動化され解決されます。

いくつかの物理学論文でこれを見ました。私が話す物理学者たちでさえ「うわあ。簡略化できなかった表現があったが、o3がそれで進展を作った」と言っています。これらは国内の最高の物理学者の一部から来ています。

物理学と数学分野での進歩の加速をますます見ることになると思います。

それを打ち負かすのは困難です。なぜなら、我々がやることの多くを、真に重要な科学的進歩を作ることと交換するだろうからです。

でも複数のこれらのことを持つことができると思います。

私にとって、よく記述された任意の問題で知能に制約されている問題は解決されると思います。我々は根本的にそれをやる能力によってのみ制限されています。

それが意味することは、企業において、モデルがまだ十分賢くないので今日不足している多くの問題があるということです。ソフトウェアエンジニアリングであれ、データ分析を実行することであれ、素晴らしいカスタマーサポートを提供することであれ。

今日モデルが不足しているが、記述し評価するのが非常に簡単な問題があり、我々はそれらで巨大な進歩を遂げると思います。

コンシューマー側では、これらの問題も存在します。コンシューマーが正確に何を望むかを我々に伝えるのが下手であるという性質上、見つけるのが少し困難です。

でも我々の個人生活でやる困難なことが多くあります。税をやることであれ、旅行を計画することであれ、高考慮購入を検索することであれ、家や車や服であれ。

それらすべてが必要なのは、もう少しの知能と適切なフォームファクターです。

次の1年半でAIで異なるフォームファクターが進化するのを見ることになると思います。チャットはまだ信じられないほど有用な相互作用モデルで、なくなるとは思いませんが、ますます、これらの非同期ワークフローをより多く見ることになります。

コーディングは一つの例ですが、コンシューマーにとって、完璧な靴のペアを見つけに行かせたり、旅行を計画させたり、税を終わらせるためにそれを送ったりすることかもしれません。それは興奮するでしょうし、チャットボット以外のAIについて少し違って考えることになります。

お気に入りの例の一つは、ユーティリティポイントとUI、そしてパラダイムシフトの両方から、deep researchでした。

deep researchはおそらくエージェント的なモデル使用の最良の例です。なぜなら、モデルにトピックについて教えるよう尋ねると、データを得るかインターネットの大きな検索を行い、すべてを要約するのでした。

deep researchはいくつかのデータセットを見つけ、それを見て、質問をし、新しいデータを見つけて戻り、続けます。

初めて使ったとき、他の人が使ったとき「うわあ、これは時間がかかる」という感じでした。そしてUIの変更を追加したので、離れて他のことをしに行けるようになりました。

携帯の画面で「これは動いている」と表示されるのはパラダイムシフトでした。

Samとここでそれについて話しました。Samにとって驚きだったのは、人々が答えを待ってもいいという事実でした。

モデルが問題を解決しようと費やせる時間として新しいメトリックを見ました。それが最終的に解決するなら良いメトリックです。

これはあなたにとってアップデートでしたか？ただ答えをくれではなく、時間をかけて、後で戻ってきてというアイデアについてこれらのことをどう考えるか？

スーパーアシスタントを構築するには、制約を緩和しなければなりません。

今日、完全に同期的な製品があります。すべてを開始しなければなりません。それは人々を助ける最大限に最良の方法ではありません。

一緒に作業するかもしれない実世界の知能について考えるなら、長期間にわたって物事を進めることができなければなりません。

積極的である能力を持たなければなりません。だから製品と技術の多くの制約を緩和して、非常に有用なエンティティをより良く模倣するプロセスの中にいると思います。

5分のタスク、5時間のタスク、最終的に5日のタスクを行く能力は、製品で異なる程度の価値を解き放つ非常に基本的なことだと思います。

私は人々がそれをやってもいいということにそれほど驚いていません。同僚を待ち回っていることも本当に望みませんし、価値があるなら、喜んで他のことをして戻ってくると思います。

我々は必要性からそれをやります。モデルは本当に困難なコーディング問題や本当に困難な数学問題を解決するためにその時間を必要とし、より少ない時間ではやらないでしょう。

何らかの頭の体操を与えるようなものと考えることができます。迅速な答えはおそらく直感的に間違ったもので、すべてのケースを通して作業する実際の時間が必要です。落とし穴がここにあるか？

それが最終的に堅牢なエージェントを作るような種類のものだと思います。

瞬間の論文があって、誰かが出てきて「ブロッカーを見つけた」と言うのを見てきました。1ヶ月ほど前に一つあって、モデルが特定の種類の問題を解決できないと言い、モデルに訓練できるプロンプトを考え出すのは難しくなく、それらの種類の問題を解決できました。

特定の種類の問題解決で失敗するという話をした新しいものがありました。それは論文に欠陥があることを示すことで、かなり迅速に反証されたと思います。

でも制限があります。脆弱性は一つのことです。モデルが問題を解決するのにどれくらいの時間を費やすことができるかという点があります。おそらく現在、2つのシステムが互いを見ている点にあり、第3のシステムが停止する方法を考えなければなりません。

でもここから興味深い科学的発見をするモデルを得ることまでの間に何かブロッカーを見ますか？

常に思いつこうとしている技術的イノベーションがあると思います。根本的に、我々は規模で単純な研究アイデアを生産するビジネスにいます。

実際にそれを規模にするメカニクスは困難です。多くのエンジニアリング、研究で、特定の障害を調整し通り抜ける方法を理解する必要があります。それらは常に存在するでしょう。

規模のすべての層が新しい課題と新しい機会を与えます。根本的に、アプローチは同じですが、克服しなければならない新しい小さな課題に常に遭遇しています。

それに加えて、我々がいる他のビジネスは、これらのますます知的なモデルで素晴らしい製品を構築することです。それらをより知的なモデルを右の環境に持ち込むために必要な発見と課題の量を過小評価すべきではないと思います。

適切な種類のアクションスペースとツールを与えることであれ、最も困難な問題に本当に近接し、それらを理解しAIをそこに持ち込むことであれ。

技術的な答えがありますが、実世界の展開もあると思います。それは常に予測するのが非常に困難だが価値ある、我々のミッションの一部であるチャレンジを持っています。

最後の質問：お気に入りの使い方とコツ

最後の質問から始めます。ChatGPTのお気に入りの使い方やコツは何ですか？

私のはメニューの写真を撮って、食事を計画するのを手伝ってもらったり、ダイエットを続けようとしているなら何でもです。

その使用例が本当に欲しいのですが、ワインリストで試していて、それがマルチモダリティでの私の評価です。まだうまくいきません。

幻覚的なワイン推薦で恥をかかせ続けて、そこに行って「このワインは聞いたことがない」と言われます。だからあなたのがうまくいくことを嬉しく思います。

ワインリストが濃密すぎるのかもしれません。それは問題でした。Operatorの元々の問題でした。ビジョンモデルで濃密すぎるテキストは、配置を失うだけでした。

Deep Researchが大好きです。新しい誰かに会うとき、AIについて誰かと話すとき、前もってトピックを準備します。

モデルは私が誰で、会おうとしている人が誰で、面白いと思うかもしれないことの文脈化をする本当に良い仕事ができます。その全プロセスを本当に助けます。

私は音声信者です。まだ完全に主流になっていないと思います。すべてを足し合わせる多くの小さな癖があるからですが、私にとって、音声の価値の半分は実際に話す相手がいて、自分を明確にすることを強制されることです。

書面でそれをするのが時々非常に困難だと感じます。

仕事への道で、自分の考えを処理するために使います。運が良ければ、これは大抵の日にうまくいくと思いますが、実際にそこに着くまでにto doの再構成されたリストを持っているでしょう。

音声について、私が両方使うのが大好きで、次の1年で改善を見たいものです。