ジョン・シュルマン (OpenAI共同創設者) – 推論、RLHF、2027年のAGI計画

AGI・ASI
この記事は約21分で読めます。
John Schulman (OpenAI Cofounder) - Reasoning, RLHF, & Plan for 2027 AGI
John Schulman on how posttraining tames the shoggoth, and the nature of the progress to come...Timestamps:00:00:00 Pre-t...

今日は、OpenAIの共同創設者の一人であり、ポストトレーニングチームを率いるジョン・シュルマンとお話しする機会をいただきました。彼はChatGPTの開発を主導し、PPOを含むAIとRLの重要な論文の多くの著者でもあります。ジョン、本日はお話を聞かせていただき、ありがとうございます。このポッドキャストにお招きいただき、ありがとうございます。私は大ファンです。おっしゃっていただきありがとうございます。では最初の質問です。前トレーニングとポストトレーニングの区別についてお話を伺いたいと思います。損失関数やトレーニング体制についての話を超えて、概念的なステップバックを踏んでみましょう。前トレーニングはどのようなことを作り出し、ポストトレーニングはその上に何を行っているのでしょうか?

前トレーニングでは、基本的にインターネット上のすべてのコンテンツやウェブ上のコンテンツ、ウェブサイトやコードなどを模倣するようにトレーニングしています。つまり、インターネット上のランダムなウェブページのようなコンテンツを生成できるモデルを得ることができます。このモデルはまた、すべてに確率を割り当てる必要があるため、最大化するためにトレーニングされています。

目的は、前のトークンを与えられたときに次のトークンを予測することです。トークンは単語や単語の一部のようなものです。モデルがそれに確率を割り当てる必要があるため、私たちは対数確率を最大化するようにトレーニングしています。それにより、非常にキャリブレーションが取れた状態になります。ウェブのすべてのコンテンツを生成できるだけでなく、すべてに確率を割り当てることができます。基本モデルは、さまざまなパーソナリティや異なる種類のコンテンツを生成できます。ポストトレーニングでは、モデルにチャットアシスタントのような特定のパーソナリティを持たせることを目指しています。より具体的なパーソナリティで、質問に答えたりタスクを実行したりすることに重点を置いています。目的は、ウェブ上の生のコンテンツを模倣するのではなく、人々が好み、有用だと感じる出力を生成することです。

一歩下がってみましょう。現在のモデルはチャットボットとして非常に優れていますが、将来リリースされるモデルはどのようなことができるようになると思いますか?進歩の様子はどのように見えるでしょうか?

モデルは5年でかなり良くなります。どのように?

1年か2年のうちに、モデルは現在できる以上の複雑なタスクをこなすようになるでしょう。たとえば、現在は関数の書き方について1つの提案を与えるだけですが、将来的には高レベルの指示を受けて、自分でファイルを作成し、テストし、その出力を確認することができるでしょう。さらに、それに基づいて反復するかもしれません。より複雑なタスクが可能になるでしょう。

本質的には、複数のファイルを書くために一貫性を持って行動できるようになるということでしょうか?現在とその間で何が変わるのでしょうか?

これには、モデルにこのような難しいタスクを行うようにトレーニングすることの組み合わせが含まれます。現在のトレーニングデータは、1つのステップを1回ずつ行うようなものが多いです。モデルに長期的なプロジェクトを遂行するようにトレーニングを行うことが期待されます。これはRLなどのトレーニングによるもので、最終的な出力や各ステップでの監督を行い、長期的なプロジェクトを実行する能力を向上させるものです。この分野はまだ新しいため、このようなトレーニングには低いハードルがたくさんあります。もう1つは、モデルがエラーから回復したり、エッジケースに対処する能力が向上することです。問題が発生したときにそれを解決する方法を知っているでしょう。

モデルはサンプル効率が良くなり、大量のデータを収集しなくても、他の能力からの一般化により、少量のデータで元に戻ることができるでしょう。現在のモデルは、問題が発生すると行き詰まってしまうことがあります。

具体的に一般化がどのように役立つのか理解したいです。もう少し説明してもらえますか?なぜそれらの概念が結びついているのかがわかりません。

直接的には結びついていないことが多いです。少量のデータですべてを行うことができる場合もあります。多様なデータセットを収集すると、その中に少量のすべてが含まれます。モデルが非常によく一般化する場合、少量の例からでもその状況に適用できるようになります。弱いモデルの場合、特定のドメインやスキルに多くの努力を費やさなければならないかもしれませんが、強いモデルはトレーニングデータなしで適切な行動をとることができます。現在のモデルは5分間の一貫性を保つことができますが、人間が1時間かけて行うタスクを実行できるようになり、次に1週間、次に1ヶ月と進んでいくことを目指しています。各ベンチマークに到達するには、現在の前トレーニングのスケーリング法則と同様に10倍の計算量が必要になるのでしょうか、それともより効率的なプロセスで進行するのでしょうか?

高いレベルでは、長期的なタスクにはより高いモデル知性が必要であり、トレーニングコストも高くなるでしょう。非常に注意深く設定された場合や実験が特定の方法で設計された場合を除いて、非常に明確なスケーリング法則を期待することはありません。例えば、異なる時間スケールの計画を立てるときに、完全に異なるメカニズムを使用するわけではありません。私たちは1ヶ月先、1年先、100年先を考えるために同じ精神機械を使用しています。強化学習のようなものを行う必要はなく、その時間スケールをカバーする割引係数を考慮する必要もありません。言語を使用することで、これらの異なる時間スケールを説明し、計画を立てることができます。瞬間的に目標に向かって進むことができます。モデルも同様のことができるかもしれません。

現在、トークンごとにかなりスマートなモデルを持っているとします。最も賢い人間と同じくらいスマートなモデルです。しかし、5分後にはコードを一貫して書き続けることはできません。長期的なRLトレーニング体制が解放されると、人間レベルの知性がすぐに解放されるのでしょうか?もしそうでない場合、残りの問題は何でしょうか?

長期的なタスクの能力が向上すると、かなり遠くまで進むかもしれません。人間が他のタスクで持つような経験や味、曖昧さへの対処能力が関与する場合もあります。研究のようなものを行いたい場合、これらの考慮事項が関与するかもしれません。モデルがUIを使用できるかどうか、物理的な世界と対話できるかどうかなどの問題があるかもしれません。進展を遅らせるような多くの問題があるかもしれませんが、これらは初期段階では進展を遅らせるだけで長続きしないでしょう。

AIに対応するように設計されたウェブサイトについて話しましょう。多モーダルデータでトレーニングされると、どのように変わるのでしょうか?AIの強みと弱みを補うためにどのようなUIが必要なのでしょうか?現在の人間用のUIとどう違うのでしょうか?

興味深い質問です。モデルの視覚能力が少し向上すれば、人間向けに設計されたウェブサイトも使用できるようになると思います。したがって、直ちに変更が必要とは思いません。一方で、AIが使用できるように設計されたウェブサイトが利益を得る場合もあります。テキストモードが視覚よりも優れている場合、モデル向けのテキストベースの表現を提供したいと思います。操作可能な要素を示す良い表示も必要です。ウェブ全体がAPIに再設計されるとは思いませんが、モデルが人間と同じUIを使用できるようにするでしょう。

言語モデルの大きな教訓は、彼らが人間と同じアフォーダンスで行動できることです。次に戻りましょう。このプロセスがサンプル効率が高いと述べましたが、それはプレトレーニングの経験からどのように一般化されるのでしょうか?この一般化と転移の最強の証拠は何でしょうか?モデルの未来の能力について大きな質問は、どれだけ一般化が行われているかです。何か本当に説得力のあるものを見たことがありますか?

ポストトレーニングで興味深い一般化の例がいくつかあります。よく知られている現象の1つは、英語データでファインチューニングを行うと、他の言語でも自動的に適切な動作をすることです。英語データでアシスタントをトレーニングすると、スペイン語でも適切に動作します。時々、英語で応答するかスペイン語で応答するかの間違った動作をする場合がありますが、通常は適切に動作します。これは、モデルが正しいパーソナを自動的に取り込み、異なる言語でも適切に動作する一般化の興味深い例です。

マルチモーダルデータで同様のことが見られました。テキストのみのファインチューニングを行うと、画像でも合理的な動作をします。初期のChatGPTでは、モデルが自分の限界を理解するのに問題がありました。初期バージョンのモデルは、電子メールを送信したりUberを呼んだりできると思っていました。アシスタントを装い、「もちろん、そのメールを送信しました」と言うことがありました。もちろん、それはできませんでした。その問題を修正するためにいくつかのデータを収集し始めました。すべてを混ぜ合わせても、わずかなデータで問題が解決しました。具体的にいくつの例を使用したかは覚えていませんが、約30例程度でした。モデルにその能力がないことを示す一般的な動作のわずかな例を収集し、それが他の訓練を受けていない能力にもかなり一般化しました。

モデルが長期的に一貫性を持つようにトレーニングされた場合、次に何が起こるかについてもう少し具体的に説明してもらえますか?人間レベルの知性を持つモデルが出てきた場合、次にどのようなことが残されているのでしょうか?

それが完全にはっきりしていません。現在のモデルと話すとき、彼らは長期的な一貫性以外にもさまざまな弱点があります。考えることや質問に集中することに苦労します。一貫性の改善がAGIに到達するためのすべてであるとは期待していません。何が主要な弱点であり、それが完全に機能する同僚になるのを止めているのか正確には言えません。

それでは、AGIが非常に早く実現する可能性があると計画しているのですか?

それは合理的です。

では、AGIがすぐに来た場合の計画は何ですか?

AGIが予想より早く来た場合、慎重に対処する必要があります。訓練と展開を少し遅らせるかもしれません。モデルが何をするか、何ができるかをよく理解する必要があります。それが予想外に早く来た場合、非常に慎重になる必要があります。理解がまだ多くの面で不完全です。

慎重に対処するとは具体的に何を意味しますか?

既に慎重に対処していると思いますが、より賢いバージョンのトレーニングを行わないか、非常に慎重に行うことを意味するかもしれません。それを適切にサンドボックス化し、すべてを確保することです。スケールでの展開を避けるか、そのスケールについて非常に慎重になることです。

シナリオを考えてみましょう。来年AGIが実現します。より賢いシステムのトレーニングは行わないが、ある程度測定された方法で展開することにしました。展開を待っている間、他の会社も同様のレベルの能力を持っています。このシナリオで何が起こるのでしょうか?

ゲーム理論を考えるのは少し難しいです。まず、このシナリオが来年起こるとは思いませんが、それでもこの会話をすることは役立ちます。2、3年であってもかなり早いです。おそらく協調が必要です。全員が展開やさらに訓練のための合理的な制限に同意する必要があります。そうでなければ、全員が先を競うレースダイナミクスが発生し、安全性を妥協することになります。大規模な訓練を行っている主要な企業間での協調が必要です。

協調して何を待つのですか?モデルの動作を理解するまで待つのですか?

さらなる訓練を一時停止するか、展開を一時停止するか、リスクの高い特定の訓練を避けることができます。皆が従うべき合理的なルールを設定します。

どのような目的で制限するのですか?インテリジェンスが解放されるまで待つのですか?2年でAGIが実現し、皆がパニックになった場合、AI企業が一時停止しても、次に何を待つのでしょうか?

良い答えがありません。協調が取れる場合、それは良いシナリオです。これらのモデルを構築するのは非常に資本集約的で、複雑な部分がたくさんあります。全員が自宅でこれらのものを再現するわけではありません。最大のモデルを訓練できるのは比較的少数の企業であるため、協調は可能です。長期間この均衡を維持する方法はわかりませんが、その点に到達できれば良い位置にいるでしょう。

本当に?次に何が起こるのかまだ分かりません。根本的には、サーバーにプッシュして今やたくさんのインテリジェンスがあるということです。それは自分たちでサーバーにプッシュできるということです。皆が協調しているが、この世界では次に何をするのかがわかりません。この状況が良い結果をもたらす理由は何ですか?

皆が合理的に協調し、アライメントの技術的問題を十分に解決できると感じた場合、安全に展開できるでしょう。人々の意志の延長として機能し、災害的に誤用されるのを防ぐことができる非常に賢いAIを展開できるでしょう。それが良いシナリオです。それが素晴らしいでしょう。それは繁栄をもたらし、科学の進歩を大いに促進するでしょう。

それは理にかなっています。数年後のシナリオについて興味があります。最良のシナリオでは、すべてのアクターが協調して、アラインされた

少しずつ賢くなるシステムを展開することで、それがより安全になります。私は、全員が協調して、すべてをロックダウンして安全にリリースする必要があるシナリオは望んでいません。それは潜在的エネルギーの大きな蓄積をもたらします。私は、全員が徐々により優れたものをリリースし続け、それぞれの改善に対して能力向上に応じて安全性とアライメントの向上を確認し続けるシナリオを望みます。もし少し怖いことが起こり始めたら、進行を遅らせることができるようにしたいです。

もっと連続的なジャンプがあった場合、持っているものが安全にリリースできるかどうかをどう知るのかという問題があります。汎用的な答えはありませんが、それをより受け入れやすくするために必要なことはたくさんあります。例えば、訓練プロセス中に行われる多くの評価があります。具体的には何でしょうか?長期的なRLをトレーニングする前提で何かが起こるかもしれないということを知っているのでしょうか?それとも非常に低い可能性として考えていますか?

現在はモデルに何か一貫したことをさせるのが難しいため、今すぐに恐れる必要はありませんが、モデルが非常に優れている場合はこれらの質問を真剣に考慮する必要があります。モデルが反対することがないことを確認するために多くの評価を行います。能力の不連続ジャンプを探します。どのような理由もなく、モデルが反対するように訓練されないようにします。RLHFを使用している方法は非常に安全に感じます。モデルは人間に喜ばれるメッセージを生成するだけで、世界の他のことには関心がありません。

長い一連の行動を伴うタスクの場合、ツールを使用する必要がありますが、それ以外のことをせずに非常に高品質な出力を生成するインセンティブがあります。最初に世界を支配する必要があるということはありません。例えば、コードを書くためにまず世界を支配する必要はありませんが、具体的なタスクであれば、お金を稼ぐようなものならば、それは問題かもしれません。

現行のRLHFシステムに戻りましょう。RLHFがモデルにどのように影響するかについて、人間の心理学とどのように関連するのかを教えてください。それはドライブか目標か、衝動か、何なのでしょうか?心理的にはどのようなものですか?チャットボットのパーソナだけでなく、「そのように話さないで、このように話す」というようなものです。

人間のドライブや目標とアナロジーがあるかもしれません。ある状態に向かって進むことを試みているという点で、ドライブや目標の概念には学習アルゴリズムと、モデルが実行時に行うことに関係しています。多少のアナロジーがありますが、正確にはどれくらい近いかはわかりません。ある意味で、モデルはドライブや目標を持っていると言えます。RLHFの場合、人間の承認を最大化するために、モデルは人々が好むと思われる出力を生成しようとします。

推論がどのように学習されるかについて、少なくとも公開されている二つのアイデアがあります。一つは、モデルが多くの潜在的な思考過程から自分の出力を学習し、それをデプロイ前にトレーニングします。もう一つは、デプロイ時に多くの計算を行い、モデルが自分自身と話し合うというものです。どちらが推論がうまくできるようになると思いますか?それは多くの計算を行うことですか、それともトレーニングによってうまくいくのですか?

推論をタスクとして定義するなら、テスト時に何らかの計算や推論が必要です。しかし、トレーニング時に実践することで多くを得ると予想します。最良の結果を得るには、これら二つを組み合わせる必要があります。

現在、モデルはトレーニング時に学習しています。トレーニング時にはプレトレーニングとポストトレーニングの二つがあります。プレトレーニングでは莫大な計算を行い、数兆のトークンを処理します。これに人間が直面すると、非常に混乱するでしょう。それは非常に効率の悪い学習方法です。もう一つの方法は、インコンテキスト学習です。もちろん、これはサンプル効率が良いですが、各インスタンスで破壊されます。この中間の方法があると思いますか?中期的なメモリのようなものですか?

メモリのようなものですか。私には文脈がありません。私はこの会話の準備をするときに、理解すべきことを考え、それを注意深く読み、理解できるように考えます。これはモデルには何に対応するのかわかりません。何がそれに似ているのでしょうか?

わかりました。それは単なるメモリではなく、特定のタスクに特化することや、特定のプロジェクトに多くの努力を注ぐことですか?

特化しているかどうかはわかりませんが、「この部分が理解できないので、もっと深く調べよう」といったものです。それが既存の知識に特化していると言えるかもしれません。

なるほど。それは単に多くの情報源にトレーニングし、特定のドメインにファインチューニングするだけではありません。それは推論によって知識を開発し、自己認識を使って何を学ぶべきかを見つけるということですか?

そうです。これは現在のシステムには欠けていることです。人々はこれについてあまり深く追求していません。大規模なトレーニングとインコンテキスト学習の中間にあるものです。文脈の長さを大幅に増やしているため、それがボトルネックにはなっていません。これは多くの場合、ボトルネックにはなりません。

ファインチューニングを補完する必要があります。ファインチューニングとインコンテキスト学習の能力は補完的なものだと思います。オンライン学習と認知スキルを持つシステムを構築したいと考えています。彼ら自身の知識を内省し、欠けている知識を積極的に探す能力を持つことです。

すべて同時に行われるのですか?それとも新しいトレーニング体制で、長期的な視野や内省能力を持つのですか?

長期的なタスクを行う場合、そのタスクを行いながら学習する必要があります。唯一の方法は、学習とメモリがタスク中に更新されることです。短期的なメモリと長期的なメモリの間には連続性があります。この能力が必要になるのは、長期的なタスクを見るときに明らかになるでしょう。多くのものを文脈に入れることでかなり進むことができます。すでに非常に長い文脈があります。しかし、ファインチューニングなどのものも必要でしょう。内省と積極的な学習能力は、モデルの能力から自動的に現れるかもしれません。モデルは自分の知識の校正をある程度行っています。それがなぜモデルがそれほどひどく幻覚を見ないのかという理由です。彼らは自分の限界をある程度理解しています。この同じ能力が、積極的な学習に使用されるかもしれません。

複雑なRL手続きを多数考案しましたが、それらがモデル自体が環境として機能し、オンラインで安定して対話できるようになったときにどれだけ関係するのでしょうか?進歩の道筋は過去のRLに必要だった解決策よりも単純になるのでしょうか?

ポリシーグレーディングアルゴリズムはサンプル効率が最高ではありません。テスト時に高速に学習する場合、それを使用することはありません。しかし、動物の運動学習はポリシーグレーディングアルゴリズムに似ています。例えば、バスケットを撃つことを学ぶ場合、数千回の試行が必要です。何度も同じことを繰り返し、同じ間違いを犯さない探索アルゴリズムを学習する必要があります。学習探索アルゴリズムのようなものを使用します。特定のタスクに使用されるものです。

面白いですね。あなたのOpenAIでの歴史についてお聞かせください。ChatGPTの開発を主導されました。いつLLMが進むべき道だと気づいたのでしょうか?チャットボットや指示する方法が有用であることに気づいたのはいつですか?その過程を教えてください。

ChatGPT以前、OpenAIには指示に従うモデルがありました。基本モデルは詳細にプロンプトする必要がありましたが、それは難しいものでした。彼らは自動補完を行うため、非常に良いプロンプトを設定する必要がありました。OpenAIの人々は基本モデルを使いやすくするために取り組んでいました。指示に従うモデルは基本モデルに似ていますが、使いやすくなっています。それらは最初にAPIにデプロイされたモデルです。GPT-3の後、次世代のモデルがありました。同時に、チャットについて考えている人々がいました。GoogleはLaMDAやMeenaといったチャットボットに関する論文を発表しました。チャットのタスクに特化したモデルでした。それは、遊び心のあるアプリケーションで、ペルソナを取ってそのペルソナを装うものでしたが、コードのリファクタリングの手助けをするような機能的なものではありませんでした。

私たちは、WebGPTというチャットに関するプロジェクトに取り組んでいました。それはウェブ閲覧と検索を使って質問に回答するものでした。質問に回答する場合、チャットにする必要があります。次バージョンは会話型であるべきだと明らかになりました。それで会話型チャットアシスタントに取り組み始めました。これはGPT-3.5をベースにしていました。モデルは非常に言語とコードに優れていました。それが2022年初頭にトレーニングされました。

2022年の初めにトレーニングが終了し、そのモデルが非常に優れたものであることがすぐに分かりました。これは非常に有望なものでした。ほぼ一年間、その開発に取り組みました。ブラウジングを特徴の一つとして取り入れていましたが、モデルの内部知識が非常に良いため、ブラウジングは最も興味深いものではありませんでした。友人や家族に公開していましたが、一般公開を検討していました。GPT-4のトレーニングは同年の8月に終了しました。OpenAIのフラッグシップRLの取り組みは、指示に従う努力でした。それはプロダクションにデプロイされるモデルでした。GPT-4の最初のファインチューンは、その全スタックを使用しました。そのモデルは非常に優れており、驚くべき出力を生成することもありましたが、信頼性に問題がありました。ときどき幻覚を見たり、少し狂った出力を生成することがありました。まだ実用にはほど遠いが、非常に優れていました。

皆が一時的にチャットを忘れてしまいましたが、私たちはそれをさらに進めました。最終的には、すべてのデータセットを混ぜ合わせ、最善のモデルを作成しようとしました。チャットモデルは使用が容易で、自動的により合理的な動作をしました。開発中に私が興奮したのは、言語モデルの欠点だと考えられていた多くの問題が、かなり単純な方法で大幅に改善できると気づいたときです。チャットは、指示モデルが「このテキストを完成させるが、良い方法で」というタスクが非常に不明確であることから、データラベリングを行う人にとっても混乱を招くものでした。チャットでは、人々が直感的に有用なロボットのイメージを持っているため、モデルが何をするべきかが簡単に理解されました。その結果、モデルには一貫性のある性格があり、合理的な動作をしやすくなりました。

興味深いですね。誰でもChatGPTを作成できたのでしょうか?

正確には違います。どのモデルがファインチューン可能だったかは覚えていませんが、仮に3.5がファインチューン可能だったとしたら、それに非常に近いものを作成できたでしょう。しかし、人間が書いたデータのみでファインチューンを行うことは容易ではありません。RLを行わない場合、いくつかの反復的な監督付きファインチューンが必要です。人間が生成したデータでトレーニングすると、モデルがそれを完璧にフィットさせるのは難しいため、何か反復的な方法が必要です。そうすればかなり近いものが得られますが、それは容易ではありません。指示に従うモデルもRLを使用してトレーニングされ、ChatGPTの前にリリースされました。チャットラッパーをその上に乗せれば、かなり近いものが得られましたが、そのモデルにはいくつかの違いがありました。詩の作成には優れていましたが、限界の認識や事実の正確性には劣っていました。

少し視点を変えて、2019年にGPT-2についてあなたが非常に感銘を受けたと言っていたのを聞いたことがあります。あなたの予想と比べてAIの進歩は速かったのでしょうか、それとも遅かったのでしょうか?

GPT-2以降、予想よりも速く進んでいます。スケーリングとプレトレーニングが良いアイデアであると信じていましたが、GPT-2が終了した後、すべてを革命的に変えるとは完全には確信していませんでした。GPT-3の後、言語モデルの可能性に気づきました。その後、私とチームは言語モデルに集中しました。GPT-2の後、私はまだ確信していませんでした。

RLがより賢いモデルでうまく機能し始めた場合、プレトレーニングとポストトレーニングに費やす計算量の割合は大きく変わるのでしょうか?

今のところ、その理由があります。現在の比率は非常に偏っています。モデルが考えることでウェブの内容を模倣するよりも高品質な出力を生成する方が理にかなっています。プレトレーニングとポストトレーニングの両方で多くの進歩を遂げていますので、今後もこの方法を推進し、計算量を増やすことを期待しています。

現在のGPT-4は最初のものよりもエロスコアが100ポイント高いです。それはすべてポストトレーニングによるものですか?

はい、ほとんどがポストトレーニングによるものです。さまざまな軸での改良があります。データの質、データの量、プロセスの反復による新しいデータの収集、アノテーションの種類の変更など、さまざまな要素が重なり合って、かなりの計算量の増加をもたらしています。

それは大きな増加ですね。ポストトレーニングからの改善にこれだけの余地があるのは興味深いです。この種のRL研究を行うのに優れた人物とはどのような人でしょうか?

私はRLアルゴリズムからデータ収集、アノテーションプロセス、言語モデルの試行まで、さまざまな分野での経験があります。この種の研究に優れた人々は、全体のスタックについての見識を持ち、さまざまな部分に対する好奇心を持っています。実験から学びつつも、第一原理から考えることが重要です。

GPT-4以来、より優れたモデルが出てこないため、プレートーの可能性があるという仮説があります。これらのモデルが特定のことを手助けする能力は、教師付きファインチューンデータセット内のラベルに非常に密接に一致しているというものです。FFmpegの使い方を正しく教えることができますか?ラベルラタにドメイン知識が必要ですか?

それは必要ありません。かなりの一般化が可能です。基本モデルは既に多くのドキュメント、コード、シェルスクリプトなどを見ています。基本モデルに良い少数のプロンプトを与えるだけで、質問に答えることができます。教師付きファインチューンは、FFmpegの使用例がなくても合理的な動作をします。

最後の質問です。プレトレーニングとポストトレーニングの両方で多モーダルデータを使うと、スクリーンを理解し、より一貫した方法で対話できるようになります。さらに長期的なRLを行うことで、システムのエージェントとして機能し、ワークフローの一部としてより統合されます。どのような形になるのでしょうか?来年にはスクリーン上で協力するアシスタントができると思いますか?

確実にその方向に進むと思います。どの形式が最適かは不明ですが、Clippyのようなものか、クラウド上の同僚のようなものかは試してみることになるでしょう。毎日の仕事を共有できるようになり、プロジェクト全体の進捗を把握し、積極的に提案してくれるかもしれません。プロジェクト全体を共同で進めることができるようになるでしょう。

これは最終質問です。自分の仕事を置き換えるタイムラインはどれくらいですか?

おそらく5年でしょう。

かなり早いですね。ジョン、本日は非常に興味深いお話をありがとうございました。AIプロセスの重要な部分であり、あまり理解されていない部分についてお話しいただき、非常に興味深かったです。

このポッドキャストに招いていただき、ありがとうございました。話をするのは楽しかったです。

コメント

タイトルとURLをコピーしました