イリヤ・サツキーバーとジェンセン・ファンとの炉辺談話 – 現在のAIと未来のビジョン 2023年3月

AIに仕事を奪われたい
この記事は約23分で読めます。

13,626 文字

Fireside Chat With Ilya Sutskever and Jensen Huang AI Today and Vision of the Future March 2023
Fireside Chat With Ilya Sutskever and Jensen Huang AI Today and Vision of the Future March 2023

イリヤ: 信じられへんわ。今日はGPT-4の翌日やね。ここに来てもらえて嬉しいわ。長い間知っとるけど、あんたの旅路と、わしの頭の中にある記憶、そしてあんたがしてきた画期的な仕事、トロント大学から始まって。アレックス(クリジェフスキー)とジェフ・ヒントンとのAlexNetの共同発明。
それが現代の人工知能のビッグバンにつながったんや。あんたのキャリアはベイエリアに連れてきて。OpenAIの設立、GPT-1、2、3。そして当然、世界中で話題になったChatGPT。これが若いコンピューター科学者の信じられへんようなレジュメや。コミュニティ全体と業界があんたの業績に驚嘆しとるわ。
最初に戻って聞きたいんやけど – ディープラーニング。ディープラーニングについてどんな直感があったんや? なんでうまくいくって分かったんや? こんな成功につながるって直感はあったんか?
ほな、まず最初に、そんな優しい言葉をありがとう。ほんまに、ディープラーニングの信じられへんほどのパワーのおかげで、多くのことが変わったんや。
わしの個人的な出発点は – 人工知能に興味があったんや。いろんな理由があってな。直感的に影響力を理解し、評価することから始まって、意識とは何か、人間の経験とは何かについても好奇心があった。人工知能の進歩がそれに役立つと感じたんや。
次のステップは、2002年から2003年頃やったけど、学習というのは人間にはできるけど、コンピューターには全くできひんことやと思えたんや。2003年から2002年にかけて、コンピューターは何も学習できひんかったし、理論的に可能かどうかも明確やなかった。だから、学習、人工学習、機械学習の進歩が、AIの最大の進歩につながると思ったんや。
それで、何があるか探し始めたんやけど、あまり有望なものはなかった。でも、運良くジェフ・ヒントンが大学の教授やってな。彼を見つけられて、ニューラルネットワークの研究をしとった。すぐに納得がいったんや。
ニューラルネットワークには、学習しとる、並列コンピューターを自動的にプログラムしとるという性質があったからや。当時、並列コンピューターは小さかったけど、学習とニューラルネットワークの仕組みを何とか理解できれば、小さな並列コンピューターをデータからプログラムできるという約束があったんや。
脳にも似とったし、脳は機能しとる。だから、いくつかの要因が働いとったんや。
どうやってうまくいくかは明確やなかった。でも、存在するもののうち、長期的に最も有望やと思えたんや。
あんたがディープラーニングとニューラルネットワークの研究を始めた頃、ネットワークの規模はどれくらいやった? その時点でのコンピューティングの規模はどうやった?
面白いことに、当時はスケールの重要性が認識されてへんかったんや。
だから、ニューロンが50個、100個、数百個のニューラルネットワークを訓練するだけやった。100万パラメーターは非常に大きいと考えられとった。最適化されてへんCPUコードでモデルを実行しとった。研究者の集まりやったから、BLASのことは知らへんかったんや。
Matlabを使っとった。Matlabは最適化されとったけど、実験して、そもそもどんな質問をするのが正しいんかを探っとったんや。だから、面白い現象や観察を見つけようとしとった。これもできる、あれもできるって感じやな。
ジェフ・ヒントンは、小さな数字のニューラルネットを訓練することにすごく興奮しとった。分類だけやなく、生成することにも非常に興味があったんや。
だから、生成モデルの始まりはそこにあったんや。でも問題は、こういう面白いものが浮かんでくるけど、何が本当に注目を集めるんかってことや。
これが正しい質問やということは、当時は明らかやなかった。でも、振り返ってみると、それが正しい質問やったんや。
さて、AlexNetの年は2012年やったな?
そうや、2012年や。
あんたとアレックスはAlexNetの研究をそれ以前からしとったんやろ? どの時点で、コンピュータービジョン向けのニューラルネットワークを作りたいと思ったんや? ImageNetが正しいデータセットやと思って、コンピュータービジョンのコンテストに挑戦しようと思ったのはいつ頃や?
うん、そのコンテキストについて話せるわ。たぶん2年前くらいに、教師あり学習が牽引力を得るということが明確になったんや。直感やなくて、正確に説明できる反論の余地のない議論があったんや。
こんな感じや。ニューラルネットワークが深くて大きければ、難しいタスクを解決するように設定できる。キーワードは、深くて大きいってことや。人々は大きなニューラルネットワークを見てへんかった。ニューラルネットワークの深さを少し研究しとる人もおったけど、機械学習分野のほとんどはニューラルネットワークを全く見てへんかったんや。
ベイズモデルやカーネル法なんかを見とった。理論的には優雅な方法やけど、どう設定しても良い解を表現できひんという性質があるんや。一方で、大きくて深いニューラルネットワークは問題の良い解を表現できるんや。
良い解を見つけるには、それを必要とする大きなデータセットが必要や。そして、実際に作業をするための多くの計算力も必要や。最適化の研究もしたんや。最適化がボトルネックやということは明らかで、ジェフ・ヒントンの研究室の別の大学院生、ジェームズ・マーテンスがブレークスルーを起こしたんや。
今使っとるのとは違う最適化手法、二次の方法を考え出したんや。重要なのは、それによってニューロンを訓練できることが証明されたってことや。それまでは訓練できるかどうかさえ分からへんかったからな。
だから、訓練できるなら、大きくして、データを見つければ成功するんや。次の問題は、どんなデータかってことや。当時、ImageNetデータセットは信じられへんほど難しいデータセットに思えた。でも、大きな畳み込みニューラルネットワークをこのデータセットで訓練すれば、必ず成功すると明らかやった。
計算力さえあればな。
ちょうどその時、あんたとわしの歴史と道が交差して、GPUについて何らかの観察をしたんや。当時はCUDA GPUの2世代目くらいで、たしかGTX 580世代やったと思う。
あんたは、GPUがニューラルネットワークモデルの訓練に実際に役立つかもしれへんという洞察を持っとったんや。それはどんなもんやった? その日はどうやって始まったんや? 教えてくれへんか。あんたはその瞬間のことを今まで話してくれへんかったな。
うん。GPUはトロントの研究室に、ジェフのおかげで登場したんや。彼はこのGPUを試すべきやと言って、わしらは試して実験し始めた。すごく楽しかったけど、何に使うかは明確やなかったんや。
どこで本当の牽引力を得られるか、まさにどこで使えるかが分からへんかった。でも、ImageNetデータセットの存在と、畳み込みニューラルネットワークがGPUにぴったりやということが非常に明確やった。だから、信じられへんほど高速にできるはずやった。
そして、前例のない規模のものを訓練できるはずやった。そういう風に起こったんや。
そして、非常に幸運なことに、アレックス・クリジェフスキーはGPUのプログラミングが大好きやった。彼はそれができて、本当に高速な畳み込みカーネルをプログラムして、ImageNetデータセットでニューラルネットを訓練できたんや。それが結果につながった。
世界を驚かせたんや。コンピュータービジョンの記録を大幅に更新したんや。明らかな不連続性やった。
そうやな。わしはこう言いたいんや。記録を破ったって言うとき、重要な、別の言い方があると思う。そのデータセットがあまりにも明らかに難しくて、明らかに手の届かないものやったってことや。
古典的な技術でいくらか進歩を遂げとる人もおったし、実際に何かをしとった。でも、これはそのデータセットでずっと良かったんや。それは単なるコンペティションやなくて、当時は平均的なベンチマークやなかった。
明らかに難しくて、明らかに手の届かないもので、明らかに良い仕事をすれば素晴らしいものになるという性質があったんや。
AIのビッグバンや。
早送りして現在に戻ると、あんたは谷に来て、友人たちとOpenAIを始めた。今は最高科学責任者やな。OpenAIで最初にどんなことに取り組もうと思ったんや? いくつかのことに取り組んで、発明や仕事の軌跡がChatGPTの瞬間につながったのが見えるんやけど。
その瞬間から、どんな着想を得て、どうアプローチしようと思ったんや? ChatGPTにつながったんや。
そうやな。明らかに始めた時は、どう進めるか100%明確やなかった。分野も今とはかなり違っとったんや。
今はもう、これらの素晴らしいアーティファクト、素晴らしいニューラルネットが信じられへんことをしとるのに慣れてしもうて、みんなすごく興奮しとる。
でも2015年から2016年の初め、わしらが始めた頃は、全体的にかなりクレイジーに見えたんや。研究者の数も今よりずっと少なくて、たぶん今の100分の1から1000分の1くらいやった。当時は100人くらいやったな。
ほとんどがGoogleやDeepMindで働いとって、それだけやった。
それからスキルを身につけとる人もおったけど、まだめっちゃレアやった。
わしらには2つの大きな最初のアイデアがあった。OpenAIの開始時やな。それらは今日まで残っとる強い力を持っとって、今から説明するわ。
わしらが持っとった最初の大きなアイデアで、特に早い段階で興奮したのは、圧縮を通じた教師なし学習というアイデアや。
コンテキストを説明すると、今日では教師なし学習が簡単なことやと当たり前に思われとる。ただ全てに対して事前学習して、期待通りにうまくいくんや。
2016年には、教師なし学習は機械学習の未解決問題で、誰も洞察も手がかりも持っとらんかった。ヤン・ルカンが講演して回って、これが大きな課題やと言っとった。
わしは本当に、データの本当に良い圧縮が教師なし学習につながると信じとったんや。
圧縮という言葉は、最近まで実際に行われたことを説明するのによく使われへんかった。突然、多くの人にGPTが実際に訓練データを圧縮しとることが明らかになったんや。
テッド・チャンのニューヨーク・タイムズの記事もこれを示唆しとったのを覚えとるかもしれへん。
でも、これらの自己回帰生成モデルを訓練することでデータを圧縮するという本当の数学的な意味があるんや。
直感的に、なぜうまくいくかが分かるやろ。データを本当に良く圧縮すれば、その中に存在する隠れた秘密を全て抽出せなあかんのや。
だからそれが鍵なんや。これがわしらが本当に興奮した最初のアイデアで、OpenAIでのいくつかの研究につながったんや。感情ニューロンについて簡単に触れるけど、機械学習分野の外ではあまり知られてへんかもしれへんけど、特にわしらの考え方に大きな影響を与えたんや。
この研究の結果は、当時はトランスフォーマーやなくてトランスフォーマー以前やったけど、ニューラルネットワークを訓練すると、LSTMを覚えとる人向けに言うと小さな再帰型ニューラルネットワークLSTMをちょっと工夫して、Amazonのレビューの次のトークン、次の文字を予測するように訓練したんや。
そして、次の文字をうまく予測すれば、そのLSTMの中に感情に対応するニューロンが存在することが分かったんや。
これはめっちゃクールやった。教師なし学習の可能性を示したし、次の文字の予測、次の何かの予測がうまくいけば、データの秘密を発見するという考えを裏付けたんや。
これがGPTモデルで見とることやな。訓練して、ただの統計的な相関やと人々は言うけど、この時点で直感的に、教師なし学習のデータをどこから得るかという世界が開けたんや。
たくさんのデータがあって、次の文字を予測させて、正解が分かっとるなら、ニューラルネットワークモデルを訓練できるんや。その観察とマスキングやその他のアプローチで、世界がどこから教師なしのデータを得るかについて考えが開けたんや。
教師なし学習については、そうやな。ちょっと違う言い方をするわ。教師なし学習の難しい部分は、データをどこから得るかというよりも、特に今はそうやけど、そもそもなぜするべきなのかってことやったんや。
次のトークンを予測するためにこれらのニューラルネットを訓練することが、そもそも価値のある目標やということに気づくのが難しかったんや。
表現を学習して理解できるようになるってことや。
そうや、文法を使えるようになるけど、それが明らかやなかったんや。だからみんなやってへんかった。でも感情ニューロンの研究と、アレック・ラドフォードという人物が多くの進歩に責任を負っとることを強調したいんやけど、GPT-1の前身で、わしらの考え方に大きな影響を与えたんや。
それからトランスフォーマーが登場した。わしらはすぐに「ああ、これや」って思って、GPT-1を訓練したんや。
その過程で、あんたはずっと、スケーリングがこれらのモデルのパフォーマンスを向上させると信じとったんやな。より大きなネットワーク、より深いネットワーク、より多くの訓練データがスケールするって。OpenAIがスケーリング法則と、損失とモデルのサイズ、データセットの量の関係について非常に重要な論文を書いたんや。
トランスフォーマーが登場したとき、非常に大きなモデルを非常に合理的な時間で訓練する機会を与えてくれたんやけど、スケーリング法則やモデルとデータのサイズについての直感はどうやった?
GPT-1から3までの旅で、どっちが先やった? GPT-1から3の証拠を見たんか、それともスケーリング法則についての直感が先やった?
直感やな。こう言うわ。より大きいほど良いという強い信念があったんや。OpenAIでの目標の1つは、スケールを正しく使う方法を見つけることやった。
OpenAIでは、最初からスケールについての信念がたくさんあったんや。問題は、正確に何に使うかってことやった。今はGPTについて話しとるけど、もう1つの非常に重要な研究の流れがあって、まだ触れてへんのやけど、今が良いタイミングやと思うから寄り道するわ。それは強化学習や。
これも明らかに重要やけど、何に使うんや?
OpenAI内で行われた最初の本当に大きなプロジェクトは、リアルタイムストラテジーゲームを解決する取り組みやった。コンテキストとして、リアルタイムストラテジーゲームは競争的なスポーツみたいなもんや。
スマートである必要があって、より速くなる必要があって、素早い反応時間が必要で、チームワークもある。別のチームと競争しとって、かなり複雑や。そのゲームには競争リーグもあるんや。
ゲームはDota 2って言うんやけど、強化学習エージェントを訓練して自己対戦させたんや。世界最高のプレイヤーと競争できるレベルに達することを目標にな。これも大きな取り組みやった。かなり異なる流れで、強化学習やったな。
ジェンセン: そうや、あんたらがその研究を発表した日を覚えとる。ところで、さっき聞いたとき、OpenAIから出てきた大量の研究があって、一部は寄り道に見えたけど、実際には、今説明してくれたように、寄り道に見えただけで、今話しとる重要な研究につながったんやな。ChatGPTについてや。
イリヤ: そうやな、本当の収束があったんや。GPTが基礎を作り出して、Dotaの強化学習が人間からのフィードバックによる強化学習に変わった。その組み合わせがChatGPTを生み出したんや。
ChatGPTがただの1つの巨大な言語モデルやという誤解があるんやけど、その周りにはかなり複雑なシステムがあるんや。
ジェンセン: 簡単に説明してもらえへんか? ファインチューニングとか、強化学習とか、軌道に乗せたり知識を与えたりするための様々な周辺システムについて、聴衆のために。
イリヤ: うん、説明できるわ。考え方としては、インターネットのさまざまなテキストの次の単語を正確に予測するように大規模なニューラルネットワークを訓練すると、世界モデルを学習しとるんや。
表面的には、テキストの統計的な相関を学習しとるように見えるかもしれへんけど、実際にはテキストの統計的な相関を本当にうまく学習するために、テキストを本当によく圧縮するために、ニューラルネットワークが学習しとるのは、テキストを生成したプロセスの表現なんや。
このテキストは実際には世界の投影や。外の世界があって、それがこのテキストに投影されとるんや。だから、ニューラルネットワークが学習しとるのは、世界のより多くの側面、人々、人間の状態、希望や夢、動機、相互作用、わしらがおる状況や。ニューラルネットワークは圧縮された、抽象的な、使用可能な表現を学習するんや。
これが次の単語を正確に予測することから学習されとるんや。さらに、次の単語をより正確に予測するほど、このプロセスの解像度や忠実度が高くなるんや。
これが事前学習段階でやっとることや。でも、これはニューラルネットワークに望む行動を指定してへんのや。
言語モデルが本当にやろうとしとるのは、次の質問に答えることや。インターネット上のランダムなテキストの一部が、何かのプレフィックス、何かのプロンプトで始まっとったら、どう補完されるんやろか?ってことや。インターネットのテキストにランダムに行き着いたら、ってことやな。
でも、これは誠実で、役立つ、特定のルールに従って違反せんアシスタントが欲しいってのとは違うんや。それには追加の訓練が必要なんや。
ここでファインチューニングと人間の教師からの強化学習が登場するんや。そして他の形のAIアシスタンスも。人間の教師からの強化学習だけやなくて、人間とAIの協力からの強化学習もあるんや。
わしらの教師はAIと協力して、わしらのAIに行動を教えとるんや。でも、ここで新しい知識を教えとるわけやないんや。そうやなくて、コミュニケーションしとる。わしらが何を望んでいるかをコミュニケーションしとるんや。
この第二段階のプロセスも非常に重要や。第二段階をより良くすればするほど、このニューラルネットワークはより有用で、より信頼できるものになるんや。だから第二段階も非常に重要なんや。
最初の段階の「全てを学習する、できるだけ多くのことを学習する。テキストという世界の投影から世界について可能な限り多くを学習する」に加えてな。
ジェンセン: ファインチューニングして、特定のことを実行するように指示できるんやな? 特定のことをしないように指示することもできるんか? ある種の行動を避けるようにガードレールを与えることができるんか? 安全でないことやその他のことを実行しないように、ある種の境界ボックスを与えることができるんか?
イリヤ: そうや、この第二段階の訓練で、ニューラルネットワークに望むことを何でもコミュニケーションできるんや。境界ボックスも含めてな。この訓練をより良くすればするほど、この境界ボックスをコミュニケーションする忠実度が高くなるんや。
そして、継続的な研究と革新によってこの忠実度を改善すると、より信頼性が高く、より正確になって、意図した指示に非常に正確に従うようになるんや。不確かな場合は明確化を求めたり、知らないことは知らないと言えるようになるかもしれへん。それも非常に信頼性高くな。
だから、これらがいくつかのボトルネックやな。特定の能力を示すかどうかではなくて、むしろ程度の問題やな。
ジェンセン: 事実性や事実に関して言えば、ハルシネーションについて。ある動画で、GPT-4がWikipediaページへのリンクを含む検索機能が追加されたというデモを見たんやけど、事実の場所から情報を取得して、応答を補強する能力が含まれとるんか?
イリヤ: 現在リリースされとるGPT-4には、組み込みの検索機能はないんや。ただ本当に、本当に良い次の単語の予測器で、画像も処理できるんや。ついでに言うと、画像についてはまだ話してへんけど、後で聞いてほしいな。
それから、特定の方法で行動するようにデータと様々な強化学習の変種でファインチューニングされとるんや。
たぶん誰かがやるやろうけど、アクセス権を持っとる人がGPT-4にクエリを作成させて、結果をコンテキスト内に入れることを要求しても驚かへんな。GPT-4のコンテキスト長がかなり長くなったからな。
ジェンセン: そうやな。
イリヤ: 要するに、GPT-4には組み込みの検索機能はサポートしてへんけど、検索機能を付けたらより良くなることは間違いないな。
ジェンセン: マルチモダリティについてや。GPT-4はテキストと画像から学習し、テキストと画像の入力に応答する能力があるんやな。まず、マルチモダリティ学習の基礎について教えてほしい。トランスフォーマーによって、テキストと画像をトークン化してマルチモダリティから学習することが可能になったんやけど、基礎レベルで、マルチモダリティがテキスト単独を超えて世界の理解をどのように強化するのか教えてほしいんや。
わしの理解では、マルチモダリティ学習をすると、テキストプロンプトだけの場合でも、テキストの理解が実際に強化される可能性があるんやな。基礎的なレベルでのマルチモダリティについて、なぜそれがそんなに重要なのか、そして主要なブレークスルーと結果としての特徴的な違いは何やったんか教えてほしい。
イリヤ: マルチモダリティには2つの次元、2つの興味深い理由があるんや。
1つ目の理由はちょっと控えめやけど、マルチモダリティが有用やってことや。特にビジョンが神経ネットワークにとって有用なんや。世界は非常に視覚的で、人間は非常に視覚的な動物やからな。人間の大脳皮質の3分の1がビジョンに専念しとると思うんや。だから、ビジョンがなければ、わしらのニューラルネットワークの有用性は、まだかなりあるけど、あり得る限り大きくはないんや。だからこれは単純な有用性の議論や。単純に見ることが有用で、GPT-4はかなり良く見ることができるんや。
ビジョンには2つ目の理由があって、テキストから学習することに加えて画像から学習することで、世界についてより多くを学ぶってことや。これも強力な議論やけど、思うほど明確やないかもしれへん。例を挙げるわ。
あるいは例を挙げる前に、一般的なコメントをするわ。人間として、わしらは一生で約10億語しか聞かへんのや。たった10億語や。
ジェンセン: それは驚きやな。そんなに多くないな。
イリヤ: そうや、多くないんや。わしの頭の中の自分の言葉も含めるんか?
ジェンセン: 20億語にしとこか。
イリヤ: 分かるやろ? 10億秒は30年やからな。
だから、1秒に数語以上は聞けへんし、半分の時間は寝とるってことが分かるやろ。だから一生で数十億語が合計や。
だから、できるだけ多くの情報源から情報を得ることがめっちゃ重要になるんや。そしてわしらは視覚からずっと多くを学ぶんや。
同じ議論がわしらのニューラルネットワークにも当てはまるんやけど、ニューラルネットワークはものすごく多くの単語から学習できるという事実を除いてな。数十億語のテキストから世界について学ぶのが難しいことも、数兆語からなら簡単になるかもしれへんのや。
例を挙げるわ。色について考えてみ。確かに色を理解するには見る必要があるやろ。でも、一生で1つの光子も見たことがないテキストだけのニューラルネットワークに、どの色が互いにより似ているか聞いてみ。赤がオレンジに似ていて青には似ていないことを知っとるやろう。青が紫に似ていて黄色には似ていないことも知っとるやろう。
どうしてそうなるんや? 1つの答えは、世界に関する情報、視覚情報でさえ、ゆっくりとテキストを通じて漏れ出るんやけど、ゆっくりやな。でもテキストがたくさんあれば、まだ多くを学べるんや。もちろん、ビジョンを追加して視覚から世界について学ぶと、テキストに捉えられてへん追加のことを学ぶやろう。
でも、テキストだけから学ぶことが不可能なことがあるというバイナリではないと思う。これはより交換率の問題やと思う。特に、人間のように10億語や1億語から学びたいなら、他の情報源がはるかに重要になるんや。
ジェンセン: うん、そして画像から学ぶんやな。もし世界の構造も理解したいなら、例えば腕が肩につながっていて、肘がつながっているとか、これらのものがどう動くかとか。世界のアニメーション、世界の物理学を学びたいなら、ただ動画を見て学ぶことができるんか?
イリヤ: そうや。
ジェンセン: そして、もしそれを全て増強したいなら、例えば誰かが「great」という言葉の意味を言ったとする。「great!」か「great.」かもしれへん。1つは皮肉で、1つは熱狂的やな。そういう言葉はたくさんあるよな。「That’s sick!」とか「I’m sick!」とか「I’m sick.」とか。人々がどう言うかによって。音声もモデルの学習に貢献して、すぐに役立てることができるんやろうか?
イリヤ: そうやな、確かに音声については、有用で追加の情報源やと言えるんやけど、おそらく画像や動画ほどではないやろうな。でも音声の有用性にも理由があって、認識側と生成側の両方でな。
ジェンセン: わしが見たスコアのコンテキストで、本当に興味深かったのは、あんたらが公開したデータや。どのテストがGPT-3でうまくいって、どのテストがGPT-4で大幅に改善されたのか。マルチモダリティがそれらのテストにどう貢献したと思う?
イリヤ: ああ、かなり単純な方法やな。問題を理解するために図を見る必要があるテストがあったときに、例えば高校生向けのAMC 12という数学コンペがあって、おそらく多くの問題に図があるんや。
だからGPT-3.5はそのテストではかなり悪い成績を出すんや。テキストだけのGPT-4は – 正確には覚えてへんけど、たぶん2%から20%くらいの正確さや成功率やったと思う。でもビジョンを追加すると、40%の成功率にジャンプするんや。
だからビジョンが本当に多くの仕事をしとるんや。ビジョンは非常に優れていて、視覚的に推論したり、視覚的にコミュニケーションしたりする能力も非常に強力で素晴らしいと思う。世界について学べることを超えて、世界について視覚的に推論したり、視覚的にコミュニケーションしたりできるんや。
将来的には、おそらく将来のバージョンでは、ニューラルネットに「これを説明して」と頼むと、4つの段落を生成するんやなくて、あんたが知る必要があることを正確に伝える小さな図を生成するかもしれへんな。
ジェンセン: すごいな。あんたが先ほど言ってた、AIが別のAIを訓練するテストを生成することについてや。4兆から20兆くらいの有用な言語トークンが世界中にあって、ある期間にわたって訓練できるけど、訓練用のトークンが不足するという論文があったんやけど、完全に事実かどうかは分からへんのや。
まず、あんたもそう感じとるんか聞きたいんやけど、次に、AIが自身のデータを生成して自身を訓練するのに使えるんやろうか? ちょっと循環的やと言えるかもしれへんけど、わしらは生成されたデータで脳を常に訓練しとるよな。頭の中で問題を考えたり、自己反省したりしてな。
神経科学者が言うには、睡眠中にもかなりの量のニューロン発達をしとるらしいな。この合成データ生成の分野をどう見とる? AIの訓練とAIの自己学習の将来の重要な部分になるんやろうか?
イリヤ: うーん、データの量を過小評価せんほうがええと思うな。おそらく人々が気づいとるより多くのデータがあるんやないかな。
2つ目の質問については、確かに可能性はあるな。どうなるかはまだ分からへんけど。
ジェンセン: 本当に、いつかわしらのAIが使ってへんときに、自分で学習するための敵対的なコンテンツを生成したり、問題を解決することを想像して、それから自分を改善したりできそうやな。
今どこにおるのか、そしてあんたが最も興奮しとる分野で、この言語モデル分野がどこに向かうと思うか、教えてくれへんか? あんまり遠くない未来、1年か2年先を選んでくれ。
イリヤ: 予測は難しくて、具体的なことを言うのは少し難しいんやけどな。
進歩が続くと想定するのは安全やと思う。驚くべきことができるシステムを見続けるやろうし、現在のフロンティアは信頼性を中心に展開するやろう。システムを信頼できるようになって、本当に何かを理解してへんときは明確化を求めたり、知らないと言ったり、より多くの情報が必要やと言えるようになるんや。
たぶんそれが、改善が最大の影響を与える分野やと思う。今のところ、それが本当にこれらのシステムの有用性の妨げになっとるからな。
例えば、ニューラルネットワークに長い文書を要約させるアイデアがあるとするやろ。要約は得られるけど、重要な詳細が省略されてへんか確信できへんのや。まだ有用な要約やけど、全ての重要なポイントが網羅されとると分かっとるのとは話が違うんや。
ある時点で、特に曖昧さがあっても大丈夫やけど、誰かがそのポイントを見てこれは本当に重要やと言うような明らかに重要なポイントがあれば、ニューラルネットワークもそれを確実に認識するようになるんや。そうなったら、わかるやろ。
ガードレールも同じや。ユーザーや操作者の意図に明確に従う能力も同じや。
だから、次の2年間でそういうのをたくさん見ることになると思うな。
ジェンセン: それはすごいな。その2つの分野での進歩によって、この技術を信頼して使えるようになって、多くのことに応用できるようになるんやな。
これで最後の質問にしようと思っとったんやけど、もう1つあるんや。ごめんな。
ChatGPTからGPT-4へ。GPT-4を最初に使い始めたとき、あんたでさえ驚いたようなスキルがあったんか?
イリヤ: うーん、本当にクールで驚くべきことをたくさん示したんや。かなり優れとったな。2つ挙げるわ。
最良の方法を考えとるんやけど、簡単に言うと、信頼性のレベルが驚くべきものやったんや。以前のニューラルネットワークでは、質問をすると時々ちょっとバカな方法で何かを誤解することがあったんやけど、GPT-4ではそれがなくなったんや。
数学の問題を解く能力がずっと高くなった。本当に導出をして、長くて複雑な導出をして、単位を変換したりできるようになったんや。それは本当にクールやったな。
ジェンセン: 証明を進めていくんやな。すごいな。
イリヤ: 当然全ての証明ではないけど、かなりのものやな。
別の例を挙げると、多くの人が気づいたように、同じ文字で始まる言葉で詩を作る能力があるんや。全ての言葉が同じ文字で始まるとか、指示に本当に明確に従うんや。まだ完璧ではないけど、ずっと良くなったな。
ビジョンの面では、ジョークを説明したり、ミームを説明したりできるのが本当に好きやな。ミームを見せて、なぜ面白いのか聞くと、正確に教えてくれるんや。
ビジョンの部分は、本当に – 実際に見ることができるのが本当にクールやな。複雑な図のある複雑な画像について追加の質問をして、説明を得ることができるんや。それは本当にクールや。
でも全体的に言うと、一歩下がって考えると、わしはこの業界に結構長くおるんやけど、ほぼ正確に20年やな。一番驚いとるのは、実際にうまくいったってことなんや。
小さなものから始まって、もはや小さくなくなって、ずっと真剣で、ずっと激しくなったけど、同じニューラルネットワークやったんや。ただ大きくなって、たぶんより大きなデータセットで異なる方法で訓練されて、同じ基本的な訓練アルゴリズムを使っとるんや。
だからこれが一番驚いとるんや。一歩下がって考えると、「どうしてこんなことが可能なんや?」って思うんや。脳にはニューロンがあるから、人工ニューロンも同じくらい良いかもしれへん。だからただ何らかの学習アルゴリズムで訓練する必要があるかもしれへん、という概念的なアイデアが、こんなにも信じられへんほど正しかったってことや。
それが一番の驚きやな。
ジェンセン: わしらが知り合って10年の間に、あんたが訓練したモデルとデータ量は100万倍になったんや。コンピューターサイエンスの世界で、10年間で計算量が100万倍になると信じた人はおらへんやろうな。あんたはそれを実現するためにキャリアを捧げたんや。
あんたは2つ、いや、もっと多くの画期的な仕事をしたけど、特に2つの重要な仕事があるな。AlexNetの共同発明とその初期の仕事、そしてOpenAIでのGPTの仕事や。あんたが成し遂げたことは本当に驚くべきものや。
イリヤ、わしの良き友よ、また話せて良かったわ。これは本当に驚くべき瞬間やな。今日の話で、あんたが問題を分解して説明する方法は、大規模言語モデルの最先端についての、PHDを超えた説明の1つやったと思う。本当に感謝しとるよ。あんたに会えて良かったわ。おめでとう。
イリヤ: ありがとう。本当に楽しかったわ。ありがとう。

コメント

タイトルとURLをコピーしました