
16,285 文字

皆さん、おはようございます。今日はチャットGPTから完全に自律的なエージェントへの移行についてお話ししたいと思います。汎用AIに向かう様々な道筋とは何か、人間レベルの人工知能はいつ達成されるのか。これらの疑問について、シャルベル・ラファエル・セジェリーさんにお聞きしました。
セジェリーさんは、フランスで最も選抜の厳しいAI教育プログラムを修了された後、データサイエンティストやMLリサーチエンジニア、テクノロジーディレクターとして様々な企業で活躍されてきました。現在は、世界が直面する重要な課題に取り組む研究機関「エフィシエンス」のAI部門を率いておられます。そこで研究と教育を指揮し、パリのENSサクレー校の数学・ビジョン・学習修士課程でAIセキュリティの講義も担当されています。
それでは、シャルベル・ラファエル・セジェリーさんとの対話をお楽しみください。
はい、フューチャーログ・ポッドキャストへようこそ。未来の課題を理解するためのポッドキャストです。
まず文脈を説明させていただきますと、GPT-4やClaude 3のようなモデルにより、言語処理の面で大きな進歩が見られています。私が3年前にオムニサイエンスというスタートアップで言語処理の仕事をしていた頃は、Google Scholarのような学術検索エンジンの構築を目指していました。自動的に論文を検索し要約するというものでしたが、当時はGPT-2やGPT-3の初期の頃で、チャットGPTよりもずっと前でした。
学術論文を要約するのも大変な作業で、言語モデルを特定のタスク用にファインチューニングする必要がありました。事前に多くの例を与えて、それでもうまく機能するか期待するしかなかった。今のように、チャットGPTに論文の要約を依頼するだけで適切な要約が得られる若い研究者たちは、わずか1-3年前がどれほど大変だったか想像もできないでしょうね。
業界にいる我々は、この進歩を肌で感じています。毎日のようにTwitterで新しいイノベーションが発表され、科学論文も次々と発表されています。この加速は言語処理だけでなく、ゲームの分野でも見られます。
例えば「Diplomacy」というゲームでは、Ciceroと呼ばれるAIが訓練されました。これは戦略ゲームなのですが、チェスよりもずっと複雑です。なぜなら、チェスは単に駒を動かすだけですが、このゲームではプレイヤー同士の対話も必要だからです。そんな難しいゲームでも、AIは熟練したアマチュアレベルでプレイできるようになりました。
ロボット工学の分野でも大きな進展が見られ、ヒューマノイドロボットの開発も進んでいます。まだ完全とは言えませんが、着実に進歩しています。画像生成の分野でも、2年前には静止画の生成が話題でしたが、今ではSoraによる動画生成まで可能になっています。Soraは業界の多くの人々、私も含めて驚かされました。これほど美しいものが作れるとは思っていませんでした。
そこで質問なんですが、現在のTransformerベースのモデル、つまりチャットGPTのようなモデルの能力を単に向上させるだけで、人間レベルの汎用人工知能に到達できると思われますか?それとも、まったく新しいパラダイムが必要だと思われますか?
これは本当に良い質問ですね。今日の専門家の間でも意見が分かれている問題です。現在のモデルのパフォーマンスを見ると、何が足りないのか、何が不十分なのかを考える必要があります。
明らかなのは、AIの学習には膨大なデータが必要だということです。人間はそれほど多くのデータを必要とせず、もっと早く物事を理解できます。また、テキストベースのタスクはできても、より自律性が必要なタスク、長期的な計画や長期記憶が必要なタスクは、まだ完全には達成できていません。
例えば、Auto-GPTのようなフレームワークを使えば、言語モデルをほぼ自律的なエージェントに変換することはできます。AIに目標を与えると、その目標が分解されます。例えば、「このテーマについて文献レビューをしてください」という目標を与えると、AIはその目標をサブタスクに分解し、Google検索を行い、インターネット上を移動し、関連するページを要約し、結果をまとめます。
このように、大きなタスクがサブタスクに分解され、エージェントは短期から中期的な一連の行動を実行できます。現在、このような比較的単純なタスクではある程度機能していますが、より複雑で長期的なタスク、長期記憶の使用が必要なタスクではまだ十分に機能していません。
これが現在の課題です。有望な研究の方向性の一つは、長期記憶の構築です。Auto-GPTで使用されているのは、ベクトル記憶と呼ばれるものです。基本的に、一連の行動を実行する際、AIは「これは興味深い行動だった」と判断し、その情報を記憶し、どこかに書き込みます。
例えば、論文に関する情報であれば、その論文についての情報というタイトルを付けて保存します。これにより、要約された論文の情報を含むデータベースが作成されます。人間の脳の記憶とはかなり異なりますが、一種の長期記憶としては機能します。エレガントとは言えませんが、役には立つでしょう。
他にも、継続学習(Continuous Learning)と呼ばれる問題があります。現在のAIは非常に長時間訓練された後にデプロイされますが、世界についての知識の大部分は訓練時に固定されてしまいます。一方、人間には訓練期間とデプロイ期間の区別がありません。常に学習しながら行動しており、この2つのプロセスが一体となっています。これが継続学習であり、AIにとってはまだ課題となっています。
この継続学習の興味深い例として、Voyagerという名前のAIがあります。このAIはMinecraftで一度に異なるスキルを連続的に学習していきます。最初は何もできない状態で環境に置かれますが、敵が近づいてくると攻撃して倒し、その成功をメモリに記録します。
その後、木を見つけて切り倒し、「木を切れるようになった」とメモリに記録します。このように、タスクを一つずつ学んでいき、より複雑なタスクを習得していきます。以前に習得したタスクを活用しながら、新しいスキルを身につけていくんです。
ちなみに、このメモリも先ほど説明したベクトル記憶の原理を使用しています。Auto-GPTと同様に、目標をサブ目標に分解しながら機能します。このようにして、Voyagerはダイヤモンドの剣を作るような非常に複雑なスキルまで習得できます。
Minecraftをプレイしたことがある人ならわかると思いますが、初めてダイヤモンドの剣を作れたときは大喜びですよね。仲間と一緒にプレイしていて「よっしゃ、これでドラゴンと戦える!」って感じです。数年前と比べると、本当に印象的な進歩です。
このVoyagerの例は、特定のゲーム環境での継続学習が可能になっていることを示していますが、これはまだすべての認知タスクに一般化されているわけではありません。したがって、この問題はまだ未解決のままです。
つまり、Transformerを使って汎用人工知能に到達できる可能性はありますが、その場合、どのようなプロセスを経るのでしょうか。いわゆる「創発的性質」によって達成されるのでしょうか。この概念について説明していただけますか。また、現在のチャットGPTから、人間レベルのGPT-5のような汎用AIにどのように進化していくのでしょうか。
まず、あなたが使った2つの用語について整理しておく必要がありますね。「汎用人工知能」と「人間レベルのAI」です。似ているようで少し異なります。
人間レベルというのは比較的理解しやすいですね。人間には様々な能力があります。数学的能力、フランス語や英語を話す能力、歴史や地理の知識など。また、運動能力もあります。手を動かしたり、バック転をしたりする能力です。これらはすべて人間が得意とする能力です。
過去のAIは、特定のタスクのみを対象に訓練されていました。これは「narrow AI(狭いAI)」と呼ばれています。これに対して、汎用AIは様々な多様なタスクをこなすことができます。
過去には、特定のタスクだけのために設計された「エキスパートシステム」が使用されていました。しかし現在では、多様で広範なデータセットでAIを訓練することで、より多くのことを学習できることがわかってきました。
例えば、インターネット上で次の単語を予測するというタスクでAIを訓練する場合、そのタスクを満足に行うためには、様々なことを学ばなければなりません。複数の言語の習得、文法、綴りの習得が必要です。さらに、より高度な抽象的な概念も必要になってきます。
大規模言語モデル(LLM)の訓練初期では、低レベルの統計的なことから学び始めます。例えば、「バラク」の後には「オバマ」が来やすいといった、単語の組み合わせのパターンを覚えます。これは単純な暗記のようなものです。
次に、文法や綴りのような少し高度なことを習得していきます。例えば、複数形の単語の最後には「s」がつくことが多いといった規則です。これは比較的単純な規則ですね。
その後、AIはより高度な抽象化レベルに進み、文の一貫性を保つことを学びます。さらに段落の一貫性も学んでいきます。GPT-2では、時々文は一貫性がありましたが、段落レベルではまだ一貫性がありませんでした。
GPT-3になると、指示を与えると段落レベルでも一貫性が保てるようになりましたが、テキスト全体ではまだ不安定でした。GPT-4は、簡単に言えば、より多くのデータで訓練され、より大きなモデルで、より多くの計算能力を使用して訓練されたAIです。
これにより、テキスト全体の一貫性が保てるようになり、AIの誤りはより微妙なものになってきました。GPT-2からGPT-4までの途方もない進歩を見ると、GPT-4からGPT-6への飛躍も同じように大きなものになる可能性があります。GPT-2は10までの数を数えることすらできませんでしたからね。
これまで説明してきたのは、「創発的能力」と呼ばれるプロセスです。例を挙げてみましょう。OpenAIが開発したDALL-Eという画像生成AIがありました。テキストを入力すると画像を生成してくれる、とても美しい画像を作れるAIでしたが、画像にテキストを追加すると、そのテキストはでたらめにスペルが書かれてしまうという問題がありました。
当時、専門家たちは「ニューロン数を増やしたり、アーキテクチャを大きくしたり、訓練データを増やしたりすれば、正しいスペルで単語を書けるようになるだろうか」と議論していました。答えは「はい」でした。
Googleの類似したアーキテクチャを使用したモデルで、3億のニューロンでは機能しなかったものが、100億のニューロンでは機能するようになりました。これが創発的能力です。訓練プロセスは変えず、サイズだけを変更したのに、大きな違いが生まれたのです。
より一般的に言えば、現在では非常に強い規則性が観察されています。「スケーリング則」と呼ばれる法則です。ニューロン数や訓練データのサイズ、訓練に使用された計算量を2倍、4倍、8倍に増やした場合のエラー数を非常に正確に予測できます。対数スケールで見ると、完全な直線になります。
興味深いのは、現在の最大規模のAIでもこの直線性が保たれていることです。例えば、ある時点で直線的な関係が終わり、漸近的な状態に移行すると予想されましたが、GPT-4のような大規模モデルでもまだ漸近状態には達していません。
これは何を意味するのでしょうか。より大規模なAIをより大量のテキストで訓練すれば、性能はさらに向上するということです。そこで重要な問題は、コーパスの品質と規模を改善できるか、そしてより多くの計算能力を使用できるかということです。
計算能力に関しては、少なくとも今後5-6年は可能だと考えています。その先は不確実です。そこで、2030年以前に達成できるかという質問に対する答えと、コーパスのサイズと品質を向上できるかという第二の質問への答えは、私は「はい」だと考えています。
なぜなら、パラメータ数とニューロン数を増やすと、AIはより少ないデータでより質の高い学習ができるようになることがわかっているからです。また、コーパスのサイズを増やすことには確かに技術的な課題がありますが、「合成データ」の使用が将来の有望な方向性だと考えています。
インターネット上のデータをそのまま使うのではなく、品質の良いデータだけを選別し、それを基に学習させます。その後、バリエーションを作成して、このプロセスを繰り返すことができます。
例えば、「Textbook is all you need」という論文では、大学生向けの教科書のような高品質で、よく整理され、教育的な文書だけを使用してモデルを訓練しました。Reddit やTwitterではなく、最高品質のデータだけを使用したところ、わずか15億のパラメータで、500億のパラメータを使用する他のAIと同等の性能を達成しました。
これは印象的な結果です。このように合成データを使用する – つまり、低品質なデータを除去し、中程度の品質のデータを言語モデルで改善していく – といった様々な工夫があります。これらはアルゴリズムの改良と呼ばれ、同じ計算能力でもより良い結果を得ることができます。
このポッドキャストを楽しんでいただけましたら、説明欄のリンクから財政的なサポートをお願いします。複雑で知られていない話題をより多くの人々に届けるためです。皆様からのご支援は、より質の高いコンテンツを提供することを可能にします。ご支援、よろしくお願いいたします。
そうですね、GPT-4で達成できることの限界に達したと言う人も多いですが、新しいデータコーパスや合成データ、計算能力の向上により、次のバージョンではさらなる改善が期待できます。そして、その改善の中で、アルゴリズムを大きく向上させる新しい創発的能力が現れる可能性もありますね。
その通りです。今日のスケーリング則を見ると、最適なエラー率、つまり圧縮不可能なエラー率にかなり近づいているように見えます。対数的な関係なので、そのギャップを埋めるにはさらに多くの計算能力が必要になりそうです。
しかし、重要なのは、現在の性能と最適な性能との間のギャップには、非常に微細な能力が含まれているということです。例えば、メタ認知 – 自分の知識について考える能力 – などです。これは非常に興味深い能力です。
実際、人間が書いたすべての日記や学術論文を完璧に予測できるAIは、事実上、それらの人間をほぼ完璧にシミュレートできるということです。これは本当に超人的な能力です。例えば、NatureやScienceに掲載された論文のタイトルだけを与えられて、その論文を完璧に補完できるAIを想像してみてください。これは非常に超人的な能力ですね。
確かに、そう考えると想像できますね。このような改善と新しい創発的能力により、次のモデルでは徐々に人間レベルの能力に近づいていく可能性があるということですね?
まず重要なのは、「人間レベル」という言葉があまり意味をなさないということです。「汎用人工知能」という言葉も同様です。説明しましょう。
「インテリジェンス」という言葉を使う際、私は頭の中で「能力」という言葉に置き換えています。なぜなら、インテリジェンスは定義が曖昧で、何でも入れることができる言葉だからです。「汎用人工知能」と聞いたとき、私は「インテリジェンス」を「能力」に置き換えて考えます。
これはより明確に定義でき、ベンチマークで測定することができます。英語を話す能力、数学の問題を解く能力、特定のタスクを実行する能力など、数値で測定できます。
「汎用」という言葉も、あまりよく定義されていません。純粋で完璧な汎用性は実際には存在しません。人間でさえ、汎用的な能力を持っていると言えますが、例えばタンパク質の折りたたみを頭の中で計算するような能力はありません。
つまり、「汎用人工知能」と言うとき、実際には「人間レベルの広範な能力」を意味しているのです。そのため、「汎用人工知能(AGI)」は「人間レベルのAI」の良い同義語となっています。
重要なのは、AIが人間とまったく同じ能力を持つ必要はないということです。能力は非常に多様で、人間が能力レベル10、5、2を持っているとすれば、将来のAIは異なる2つの能力で、一方は20、もう一方は3というレベルかもしれません。
または完全に逆かもしれませんし、10の異なる能力を持つかもしれません。つまり、これはスペクトラムであり、それぞれの能力に異なるレベルがあるのです。将来のAIがすべての人間の能力で正確に人間レベルになる理由はありません。
人間の中でも能力は大きく異なります。数学が得意な人もいれば、そうでない人もいます。サーカスの曲芸が得意な人もいますが、私にはできません。
つまり、「汎用人工知能」はあまり意味をなさない言葉ですが、それでも何かを意味しています。私にとっては、「私、シャルベルが日常的にコンピュータでできることをすべてできるAI」を意味します。
メールを書く、メッセージに返信する、テキストを書く、会話をするなど、基本的なオフィス作業のすべてです。そのようなオフィス作業やソフトウェア開発、コーディングなどができるAIができれば、私はそれを汎用人工知能と呼びたいと思います。
ご説明ありがとうございます。タイムラインについてはどうでしょうか。このような人工知能の実現にどれくらいの時間がかかるとお考えですか。次世代のGPT-5でそのレベルに達するという意見もあれば、今世紀末までは無理だという意見もあります。中間的な意見は意外と少ないように思います。あなたのお考えと、また、開発の時間に影響を与える要因についてお聞かせください。
まず、専門家の間で意見が大きく分かれていることを指摘されたのは良いですね。今年1月に、AI Impactという機関のKatja Graceが論文を発表しました。NeurIPS(非常に権威のある会議)に参加した研究者たちを対象に調査を行ったものです。
調査結果では、人間レベルのAIの実現時期の中央値は2045年でした。2年前の調査では2050年だったので、研究者たちの予想は数年前倒しになっています。正確な数字は確認が必要ですが。
これは調査の結果ですが、他の方法論もあります。特に、この問題に関心を持つ人々の予測を集約しようとする試みがあります。「forecasters」や「superforecasters」と呼ばれる予測専門家たちです。
Metaculusというプラットフォームがあり、これらの予測者たちの予測を集約しています。これは予測市場と呼ばれるもので、過去の経験から、予測市場は良い予測を行うことが多いことがわかっています。
これは「calibration(較正)」能力と呼ばれます。例えば、あるイベントが10%の確率で起こると予測した場合、実際にそのイベントが10%の確率で起こるということです。頻度論的な意味での較正です。50%の確率と予測した場合、実際にその予測の半分が実現するということです。
Metaculusは非常に良く較正されており、優れた指標を示しています。現在、完璧な予測方法はありませんが、予測市場は未来を予測する最良の手段の一つです。
では、Metaculusは人間レベルのAIの実現時期についてどう予測しているでしょうか。現在の予測では、2031年に人間レベルのAIが実現するとしています。これは予測の中央値で、かなり広い確率分布を持っていますが、中央値は2031年です。
私個人の方法論としては、調査に回答した専門家全体よりもMetaculusを信頼する傾向にあります。なぜなら、Metaculusは多くの問題で良好な実績を持っているだけでなく、専門家たちが技術の進歩の速さを十分に認識していないように思えるからです。
例えば、報告書の図の一つでは、様々な能力についていつ実現するかという質問を専門家たちにしています。例えば、「中学生レベルのエッセイを書けるAI」や「音声の文字起こしができるAI」についてです。
専門家たちの回答は驚くべきものでした。例えば、音声からテキストへの変換について、2027年や2028年という予測をしていましたが、これは既に実現しています。OpenAIのWhisperという製品は、すでに超人的なレベルで音声をテキストに変換できます。
私自身、Whisperより良い性能を出そうと試みましたが、騒がしい環境で複数の人が同時に話している場合など、Whisperの方が優れているように感じました。さらに、Whisperはすべての言語で対応できますが、私はフランス語、英語、少しのレバノン語しか話せません。しかも、Whisperの方がずっと速いです。
しかし、専門家たちはこのAIの存在を知らず、4-5年先の予測をしているのです。なぜ彼らが十分に認識していないかというと、現状を把握するのが本当に難しいからです。毎日ニュースをチェックし、3日ごとに新しい驚きに直面する必要があります。
私にとってはAIセキュリティが専門分野で、そのためには emerging capabilities(新しく現れる能力)をすべて把握しておく必要があります。特定の分野に特化した研究者たちが、その分野だけに集中し、より深い専門知識を追求することは完全に理解できます。
しかし、私の仕事は能力の全体的なスペクトラムを見て、新たなリスクに備えて予測を行うことです。そのため、常にニュースをチェックしています。
そうですね。人間レベルのAIが非常に近い将来に実現すると考えるか、もっと遠い将来になると考えるかの大きな違いの一つは、現在のシステムの能力を向上させることで達成できると考えるか、新しいタイプのアルゴリズムが必要だと考えるかということですね。
前者であれば、パラダイムの革命的な変更は必要なく、比較的早く実現できる可能性があります。後者であれば、より多くの課題に直面することになり、時間がかかるでしょう。これがタイムラインに関する意見の違いの主な要因の一つだと考えてよろしいでしょうか。
もちろんです。「強いスケーリング仮説(strong scaling hypothesis)」に同意する人々がいます。これは、モデルを大規模化することで人間レベルのアルゴリズムを作れるという仮説です。
例えば、私なら強いスケーリング仮説に基づいて次のようにAIを作ります。現在のチャットGPTは次の単語を予測するように訓練されていますが、コンピュータを使用する一般的なタスクのためのAIを訓練したい場合、次の単語ではなく、次のキーボードの入力や次のマウスの動きを予測する方が良いかもしれません。オフィス作業を自動化するAIには、これが非常に有用だと考えています。
実際、これは既に実現されている例があります。StarCraftやDotaのような非常に複雑な戦略的マルチプレイヤーゲームで、プロレベルでプレイできるAIが訓練されています。これらのAIは、キーボードやマウスを使用して素早い操作を行う必要があります。
コンピュータの使用は、概念的には非常に複雑なゲームとして考えることができます。テキストの作成、インターネットの閲覧、科学的研究など、様々なサブゲームを含む大きなゲームです。例えば、研究論文の成功指標は、その論文が採択されるかどうかです。
現在のチャットGPTは、質問に正しく答えることを目標に訓練されていますが、同様のアプローチでオフィス作業のタスクを最適化することができます。キーボードで適切なメールを書く、良い科学的研究を行う、インターネットを上手に閲覧するなど、これらの異なる活動の成功指標を最大化するようにAIを訓練できます。
私にとって、これは大きな変更ではありません。信じて、強化学習でAIをこのように訓練するだけです。キーボード入力のためのAIなら、まずインターネット全体を読ませることから始められます。これにより、世界の仕組みについての豊富な知識を得ることができ、それがコンピュータの操作に役立ちます。
その後、チャットGPTが丁寧で有用な回答ができるようにファインチューニングされたように、キーボードを使用した長期的なタスクの操作のためにファインチューニングを行います。これを様々なオフィス作業に対して行います。
もしAIがこれらすべてを訓練され、現在のチャットGPTがテキスト生成に成功しているように、これらのオフィス作業のタスクに成功すれば…長期記憶の問題は別として、非常に印象的なものになると思います。
そうですね。ここまで人間レベルのAI、汎用人工知能について話してきましたが、スーパーAI、つまり人間の能力を何桁も上回る能力を持つAIについても議論されています。人間レベルのAIからスーパーAIまでにどれくらいの時間がかかると考えられているのでしょうか?
はい、これは「テイクオフ」の問題ですね。ほぼ汎用的なAIから、科学的タスクや認知的タスクのすべてを自動化できる汎用AI、さらにはスーパーインテリジェンスへの「離陸」の期間についての質問です。
テイクオフについては本当に多くの不確実性があります。そもそも、根本的に超人的な能力を持つものを作ることが可能だという前提自体を否定する人々もいます。
人間レベルの能力を持つだけでなく、それを超えることができるという前提を正当化する必要があります。まず、なぜ人間の能力が可能な能力の最大値ではないと考えるのか説明しましょう。
最初の例はチェスやGoです。特定のゲームでは、既に人間の脳をはるかに超えるソフトウェアが存在します。特に印象的な例は、チェス、将棋、囲碁を学習したAlphaZeroです。2017年か18年に、わずか4時間のサーバー上での訓練で、人類が何千年もかけて蓄積してきた以上のチェスの能力を獲得しました。
これは驚くべきことです。チェスのレーティングで見ると、世界チャンピオンのマグヌス・カールセンは3000点程度ですが、AlphaGo、AlphaZero、MuZeroなどのAIは5000点に達しています。人間のレベルとは比較にならないほどの差です。
では、これは他の認知タスクにも当てはまるのでしょうか。私の見方では、数学の問題を解く能力や工学的問題を解決する能力など、明確な成功指標がある分野では可能だと考えています。
フランス語で適切なメールを書くような、より主観的なタスクでも同様です。メールの良し悪しを判断するのは難しく、哲学の答案のように採点者によってばらつきがあります。しかし、そのような明確な指標を設定しにくいタスクでも、現在のチャットGPTは高い能力を示しています。
私の考えでは、ある程度明確な指標が設定できれば、その指標を最適化することができ、AIは徐々に人間レベルの能力を達成し、さらにそれを超えていくことができます。チェスで起きたことと同じです。他の分野でもこれが当てはまらない理由は見当たりません。
ただし、特定のタスクでこのように超人的な性能を達成できることと、すべてのタスクで広範に人間を超えるAIができることは別問題です。しかし、その可能性も小さくはありません。私は80%程度の確率でそれが可能だと考えています。
そうですね。人間レベルのAIが開発された場合、それは人工知能の開発においても人間レベルかそれ以上の能力を持つことになります。そうすると、そのAIが自分よりも少し優れたAIを作り、そのAIがさらに優れたAIを作るという連鎖が生まれ、インテリジェンスの爆発的な成長が起こり、スーパーAIにつながる可能性があるということですね。
はい、それは「recursive self-improvement(再帰的自己改善)」と呼ばれるものですね。AIが自分のコードを見直し、問題点を見つけて改善し、より良くなった結果、さらに微細な問題も発見できるようになり、徐々に非常に強力なAIになっていくという考え方です。
しかし、私はこれが超強力なAIを作る現実的なモデルだとは考えていません。チェスの例で見たように、より強力なAIを作るには、単により長い時間訓練するか、より良いアーキテクチャを使用するか、より良いデータを使用するだけです。
ディープラーニングのパラダイムの中では、AIが自分の重みを操作することは難しいと思います。ディープラーニングのAIとは何でしょうか。それは本質的に数字の集まりです。行列に格納された数字を他の行列と掛け合わせて結果を出します。
これらの行列の中の数字が何を表しているのかは解釈が難しく、通常のソフトウェアエンジニアリングのような明確なコードではありません。この巨大な数字の集まりを逐次的に改善していくのは困難です。
したがって、再帰的自己改善ではなく、より複雑なタスクでより長時間AIを訓練することで超知能は実現されると考えています。チェスや囲碁のように、また先ほど説明したような、科学研究やテキスト作成、詩の創作などができるキーボード操作AIのように。
このようなことをすべて非常に上手くできるAIができれば、それは既に汎用AIと言えるでしょう。その後、さらに根本的に異なる認知タスクを想像することもできます。現在の技術から見て、これが最も現実的な道筋だと考えています。
先ほどのテイクオフの時間についての質問ですが、ゆっくりしたテイクオフ(slow takeoff)と急速なテイクオフ(fast takeoff)の違いについて意見が分かれています。コミュニティでは、2年を境界線としています。2年以上かかるか、2年未満で実現するかで、遅いか速いかを判断しています。
テイクオフの時間については本当に大きな不確実性があります。先ほど述べたように、AlphaZeroは4時間で人間のレベルを超えましたが、これはとても短い時間です。一方で、チャットGPTの訓練には数ヶ月かかっています。GPT-2からGPT-4までには3-4年かかりました。
数時間か、数ヶ月か、数年か、本当にわかりません。現在、この問題について最も精密な経済モデルは、Tom Davidsonの「What Compute-Centric Framework Says About AI Takeoff」という大きなレポートです。
このレポートでは、中央値は2-3年程度だったと思います。彼はモンテカルロシミュレーションを行い、経済をモデル化し、AIの構築に必要な経済の部分を自動化した場合何が起こるかを検討しました。
特に、AIの訓練に使用されるGPUを製造する半導体のサプライチェーンなどを考慮しました。経済のこの部分をモデル化し、それを自動化するのにどれくらいの時間がかかるか、認知タスクの20%から100%の自動化にどれくらいの時間がかかるかを検討しました。
ここで20%は例えばGPT-5のようなレベルを指し、これが100%に達するまでの時間を推定しています。テイクオフ時間の推定値として、3年という結果が出ています。
そうですね。AIが自分のパラメータを操作して改善する可能性は低いとのことでしたが、十分な能力を持つようになれば、新しい人工知能のアーキテクチャや新しい方法を見つけ出したり、現在のシステムとは異なる方法で計算能力を向上させたりする可能性はありませんか。それによって、現在でも非常に速い進歩がさらに加速する可能性はないでしょうか。
そうですね、アルゴリズムの改良にAIを使用して、AIの訓練をより効率的に行う方法を見つけ出すということですね。しかし、私はそれにもあまり期待していません。
Richard Sutton の「bitter lesson(苦い教訓)」は今でも当てはまると思います。過去にもアルゴリズムの改良はありましたが、それは50倍程度の改善に留まっています。つまり、2010年頃と比べて、同じ能力を得るために必要な計算量が50分の1になったということです。
一方で、同じ10年間で、AIの訓練に使用される計算量は数百万倍、あるいは1億倍に増加しています。正確な数字は覚えていませんが、とにかく途方もない増加です。
つまり、計算量が最も重要なパラメータであり、それを活用できる十分にスケーラブルなアーキテクチャがあれば、おおよそ同じような結果が得られるということです。
例を挙げましょう。FacebookのResearchの論文では、CNNs(Transformerとは全く異なるアーキテクチャ)を、Transformerと同じ量の訓練を行うと、似たような結果が得られることを示しています。
これは驚くべきことです。Transformerが決定的な違いを生むのではなく、計算量が非常に重要だということを示しています。Transformerが重要でないと言っているわけではありません。この計算量を活用できるアーキテクチャであることが重要です。
例えば、コンテキストウィンドウ(チャットGPTに入力できるテキストの量)については、アルゴリズムの改良が本当に大きな違いを生みます。この種の改良は確かに存在し、重要です。
しかし、認知性能の大部分については、大量の計算を使用することを避けて通ることはできないと考えています。Transformerよりも新しいMambaのようなアーキテクチャでも、パラダイムの変更とまでは言えません。
以前より10倍、あるいは100倍良くなるかもしれませんが、100万倍という規模ではありません。一方で、この10年間で使用された計算量は劇的に増加し、それが大きな違いを生んでいます。
これまでの経緯を振り返ると、知的なアーキテクチャを見つけるために本当に多くの頭脳を使ってきました。言語モデルの訓練により知的な手順を作ろうとしてきました。例えば、カリキュラム学習という手法があります。
これは、最初に簡単なことを教え、徐々に難しいことを教えていくという方法です。一見とても魅力的なアイデアに思えます。なぜ試さないのか、と。私も最初はとても魅力的に感じましたが、実際にはうまく機能しません。
このように、より良い結果を得るためのアイデアを試してきましたが、結局のところ、単により多くの計算を行うことが支配的な要因であることがわかっています。
もしかしたら私は大きく間違っているかもしれません。将来、はるかに少ない計算で済む方法が見つかるかもしれません。しかし、今のところそれは疑わしいと考えています。
計算の重要性を示す最後の要素として、現在の言語モデルのニューロン数を見てみましょう。例えば、GPT-3は1,750億個のニューロンを持っていますが、これはマウスの脳のニューロン数とほぼ同じです。つまり、GPT-3はマウスほどの小さな哺乳類と同じくらいのニューロン数しか持っていないということです。
この比較には限界があります。生物学的なニューロンと人工的なニューロンは正確には同じものではありませんが、人間の脳で使用されているニューロン数からはまだまだ遠いということを考える必要があります。
先ほど人間レベルのAIの実現時期を予測するためのモデルについて話しましたが、その重要な要素の一つは、脳のサイズ、つまり脳のニューロン数と、現在の言語モデルのニューロン数を比較することです。
同様のニューロン数になれば、同様の能力が得られるだろうという考え方は、私には合理的に思えます。3個のニューロンで人間レベルの知能を実現することはできません。3個のニューロンでは線形回帰くらいしかできません。印象的なことを実現するには、ある程度の複雑さが必要です。
素晴らしいですね。最後の質問として、全ての招待者にお聞きしているのですが、もし人類全体を前にして、数分間メッセージを伝える機会があったとしたら、何を伝えたいですか?
とても良い質問ですね。私のパソコンには、Our World in Dataのステッカーを貼っています。3つの円が重なったベン図になっていて、とても気に入っています。
一つ目の円は、現在の世界は悲惨だということを示しています。人々が至る所で亡くなり、苦しみが存在し、毎年600万人の子どもたちが命を落としています。これは良いことではありません。
しかし同時に、世界は過去よりもずっと良くなっています。過去には、600万人や4%の子どもたちが亡くなるのではなく、生まれた子どもの50%が亡くなっていました。私たちは大きな進歩を遂げてきました。
しかし、4%の子どもたちが世界で亡くなっているという統計は、決して喜ばしいものではありません。欧州連合では、その10分の1の0.4%です。世界はもっと良くなる可能性があるのです。
この3つの円のベン図を、私はいつもパソコンと一緒に持ち歩いています。「世界は悲惨」「世界は過去よりも良くなっている」「世界は将来もっと良くなる可能性がある」。このベン図の美しいところは、これらの3つが同時に真実だということです。
これらは互いに排他的な命題ではありません。同時に真実なのです。そして、私が人類に伝えたいメッセージは、私たちは本当に素晴らしいことを成し遂げてきたということです。
何もないところから文明を築き、人類を月に送り、狂犬病のような病気に対するワクチンを開発し、それを人類の大部分が利用できるようにしてきました。私たちの文明は本当に素晴らしいことを成し遂げています。
子どもの頃、私はこれらすべてを当然のものとして受け止めていました。電車、家、学校に通えることなど、これらのサービスは空から降ってくるものだと考えていました。
しかし、成長するにつれて、世界に存在するものは、人々が集まって作り出した長い決定プロセスの結果だということに気づきました。ウェブサイト上の細かい部分一つ一つも、人々によって考え抜かれたものです。これには本当に多くの時間がかかります。消費者や子どもの頃はこのことに気づく必要があります。
私の気づきは、私たちもこの創造のプロセスに参加できるということです。美しいものを作り、この文明の一部となり、それを発展させ、繁栄させることができます。
過去に構築された素晴らしいものを、私たちは子どもの頃から受け継いできました。この美しい文明の構築に参加し、すべてを当然と考えず、存在するものすべてが人間によって作られたプロセスの結果であることを理解することが重要です。
私たちも人間です。この歴史の一部となり、参加することができます。確かに、この文明の中で自分はとても小さな存在で、行動の余地が少ないと感じることがあります。それは多くの場合事実です。
しかし、時には小さなニッチを見つけ、そのニッチの中で物事を変え、素敵な居場所や家、素晴らしいプロジェクトを作ることができます。これは私にとって非常に重要なことです。
可能性の空間は非常に広大です。世界で何ができるのか、私たちは過小評価しています。この文明の中で何か美しいものを生み出そうとすることは、本当に素晴らしい物語だと思います。
そうすることで、世界は過去よりも良くなり、現在よりもさらに良くなっていくでしょう。
素晴らしいメッセージですね。シャルベルさん、すべての質問にお答えいただき、ありがとうございました。
ありがとうございました。以上でフューチャーログ・ポッドキャスト、未来の課題を理解するためのポッドキャストを終了します。ご清聴ありがとうございました。


コメント