ノーベル物理学賞受賞者であり「AIの父」として知られるジェフリー・ヒントンが、AIの未来について包括的に語った対談である。医療診断、教育、科学研究といった分野でAIがもたらす変革の可能性を具体的に示しながら、放射線科医の代替や個別指導型教育の実現、数学的証明の自動化など、今後10年間で実現が期待される応用例を紹介している。また、シンボリックAIに対するニューラルネットワークの優位性、言語理解のメカニズム、スケーリング則の限界、そして人間の脳とAIシステムの本質的な違いについて、専門的な知見を交えながら詳しく解説している。ヒントン自身の予測の誤りも率直に認めつつ、AI技術の進化速度が予想を上回っていることを強調し、今後さらなるブレークスルーが訪れるであろうという見解を示している。

AIがもたらす医療革命
会場から大きな拍手をお願いします。ノーベル物理学賞受賞者、ジェフリー・ヒントン卿を温かくお迎えください。彼は私にとってヒーローなのです。本当にありがとうございます。あなたの研究に感謝します。そしてもちろん、インタビューを担当するのはエコノミスト誌のテクノロジー担当編集者です。ありがとうございます。それではお任せします。
どうもありがとうございます。ようこそお越しくださいました。私は長々とした紹介は必要ないと思いますが、ジェフをどう紹介すべきか考えていました。すでにお聞きのとおり、彼はノーベル賞受賞者です。それ以上に何を言えるでしょうか。では、科学について話しましょう。私はアレック・ジャー、エコノミスト誌の科学編集者です。ジェフリーとのこの対話を進行できることを嬉しく思います。
ジェフリーはイギリス系カナダ人のコンピューター科学者であり、認知心理学者で、人工ニューラルネットワークに関する研究で知られています。そしてお聞きのとおり、また彼に関する様々な資料が示すように、彼はAIの父の一人としても知られています。これについては後ほどお話しいただけるかもしれません。彼はトロント大学の名誉教授であり、2013年から10年間Googleで働き、2023年に退職されました。
ジェフリー、お会いできて本当に嬉しいです。ここにお越しいただき光栄です。まずはあなたのビジョンについてお聞きしたいと思います。ここにいる皆さんは、様々なAIから生まれる企業や技術について話していますが、私のマイクはまだ動いていますか。いいえ。
わかりました。戻りました。必要なら大声を出します。とにかく、皆さんは企業や実用的な用途について話していますが、私はあなたからのビジョンで始めたいと思います。では、できるだけ広い意味で、今後10年間でAIが行うであろう最も希望に満ちた2つか3つのことを教えていただけますか。あなたにとって最もエキサイティングなことは何でしょうか。そして、それぞれのケースについて、実際に起こると思われることの感覚を具体例で教えていただけますか。
はい。では、私が言うことに新しいことは何もありません。AIは医療分野で素晴らしい力を発揮すると思います。医療分野では、私は2016年に予測をしました。今後5年以内にAIが放射線科医に取って代わって医療スキャンを解釈するようになるだろうと。
それはどうなりましたか。
私は間違っていました。時間のスケールを誤っていたのです。それは今まさに起こり始めています。現在、医療スキャンの解釈にAIを使用することについて、FDAが承認したアプリケーションが250以上あります。主要ながんセンターで使用されています。放射線科医を完全に置き換えるにはまだ5年、あるいはそれ以上かかると思います。医療専門職はかなり保守的ですが、AIは医療スキャンからより多くの情報を引き出すことができるようになるでしょう。
私たちが知っているケースの一つは、網膜の眼底画像の解釈です。AIはこれらの画像から、眼科医が見られるとは気づかなかった様々なことを見ることができます。
放射線科医についてはどうでしょうか。彼らはどうなるのですか。より多くの患者を診ることができるようになるのか、それとも完全に不要になるのでしょうか。
放射線科医は患者を安心させるなど、他の多くのことを引き続き行います。もちろんAIもそれを行うようになりますが、治療計画を立てることもあります。しばらくの間は、放射線科医とAIの組み合わせとなり、それは放射線科医単独よりも効率的になるでしょう。医療について良いニュースは、非常に弾力性があるということです。医師をより効率的にできれば、私たち全員がはるかに多くの医療を受けられるようになります。だから失業は起こらず、ただより多くの医療が提供されるようになり、それは良いことです。
医療分野では、放射線学以外にも、診断、例えば非常に複雑な病気などで、AIによってより治療可能になる分野が他にもあると思いますか。
そこには2つのことがあります。診断は大幅に良くなるでしょう。1年以上前から私たちは知っていますが、診断が難しいケースをAIに任せると、AIは約50%正解し、医師は約40%しか正解しません。組み合わせると約60%正解し、これは多くの命を救うことになります。北米では、誤診で年間約20万人が亡くなっています。
ですから、そこで大きな効果があるでしょう。そしてそれは1年以上前のAIによるものです。だからそれはさらに良くなっていくでしょう。もちろん、薬の設計でも優れた能力を発揮します。だから、はるかに優れた治療法が得られるようになります。
AIによって設計された初期段階の薬のいくつかが臨床試験を経ているのをすでに見ています。これはそれにとってエキサイティングな時代であり、臨床試験のスピードアップにもなります。それが1つの分野です。医学と医療です。それだけでも十分ではないかのように。他に話したいことはありますか。
はい。次の分野は教育です。私の大学はこれについて私が話すのを好みませんが、AIは人々を指導することにおいてはるかに優れた能力を発揮するでしょう。
私たちはすでに知っています。子供に個人的な家庭教師をつけると、教室で学ぶよりも約2倍速く学びます。それは個人の家庭教師が子供が理解していないことを理解し、子供の理解度に合わせて説明を調整するからです。AIはさらに優れた能力を発揮するはずです。なぜなら、AIは何百万人もの子供たちとの経験から学習できるからです。
これは今後10年ほどで実現するでしょう。まだそこまで至っていませんが、実現しつつあります。そして、多くのレベルではるかに優れた教育を受けられるようになるでしょう。これが最後に起こるレベルは博士課程の学生を教育することだと思います。なぜなら、それはより徒弟制度に近いからです。事実を教えるというよりは、アプローチを教えることです。しかし、最終的にはそこでも実現するでしょう。
従業員を教育する企業ですでにそれを見ています。私はValanceという会社と仕事をしていますが、その会社にはNardiaというシステムがあり、従業員にリーダーシップスキルを教えています。そして、すべての企業で、従業員を教育するためにAIが使用されるようになると思います。私がGoogleにいたときは、礼儀正しくする方法などについての非常に退屈なトレーニングビデオを作らなければなりませんでした。
それは効果がありましたか。
ある程度は、はい。AIチューターと対話する方が実際にははるかに効率的で、退屈ではないと思います。この部屋にいる人々も、チャットボットなどを個人的に試して質問したことがあるでしょうから、それを証明できるでしょう。もちろん、何を信じるかには注意しなければなりませんが、良いスタートですよね。すでに、そしてそれがどこに向かっているかを見ることができます。
わかりました。もう一つ、希望に満ちたケースを教えてください。今後10年間でAIが行うであろう最も楽観的でビジョナリーなことの一つは何だと思いますか。
科学研究の加速
私はDeep Mindのリーダーであるデミス・ハサビスに同意します。彼は長年、AIが科学的進歩を遂げる上で非常に重要になると言ってきました。AIは科学的発見をするようになるでしょう。特に簡単な分野が一つあります。それは数学です。なぜなら、数学は閉じたシステムだからです。だから、数学をプレイするAIが登場するでしょう。つまり、これを証明できるかな、あれを証明できるかなと自問するのです。そして、これは閉じたシステムなので、ただいろいろ試してみて、証明できるかどうかを確認できます。
つまり、人間によってまだ証明されていない数学的予想について話しているのですね。はい。それに対応できる。
そして新しい予想も作るでしょう。AIは人間よりも数学がはるかに得意になると思います。おそらく今後10年ほどで。そして数学の中では、囲碁やチェスのようなもので、ルールのある閉じたシステムで、独自のトレーニングデータを生成できます。
最初に囲碁をAIに教えたとき、人間の専門家の手を模倣していました。もちろんそれには限界があります。人間の専門家の手が尽きてしまうからです。そして人間はそれほど優れているわけではありません。しかし、その後、モンテカルロロールアウトと呼ばれるものを手に入れました。もし私がここに行けば、彼はそこに行く。私がここに行けば、彼はそこに行く。ああ、それは私にとって悪い結果だ。そしてモンテカルロロールアウトから学ぶことができます。人間に良い手を教えてもらう必要はもうありません。それを自分で理解できるのです。数学でも同じことが起こるでしょう。そして人間よりもはるかに優れた数学システムが得られると信じています。
そして彼らは休憩も食事も必要ありません。人間が疲れる前よりもはるかに速く、継続的に解決策に到達できます。そうですね。
最終的にはそうです。
つまり、一般的に、数学はこれに適していると思われますが、科学全般、研究全般、つまり物理学、化学、分子生物学、これらすべてが将来のニューラルネットワークによって加速されると思いますか。
はい。私たちが見ることになるのは、これらの科学的事業の小さな部分が早い段階で加速され、時間が経つにつれてますます多くの側面が加速されるということだと思います。
AIが科学的進歩を加速させているとき、その世界はどのように感じられるでしょうか。科学的進歩は今でも速く進んでいるように感じられます。それがさらに指数関数的になったら、それは何を意味するのでしょうか。
生産性の向上による利益を分かち合えば、すべての人にとって人生がはるかに良くなる可能性があります。現在すでに例があります。毎年全身MRIスキャンを受けて、AIにそれを解釈させれば、基本的にもうがんで死ぬ必要はありません。ほとんどすべてのがんを非常に小さいうちに検出できます。そして第1段階で検出できれば、通常は単にそれを取り除くことができます。
人間のゲノム配列を解読した人の一人であるクレイグ・ベンターは、全身MRIを受けて、バイデンが今持っているかもしれないのと非常に似た2つの非常に攻撃的な前立腺がんを非常に早期に発見し、元気でした。
だから、AIが解釈を行い、人間ができるよりも優れた解釈をすることで、全身MRIを受ける余裕があれば、がんで死ぬことを基本的になくすようなものが得られるでしょう。
あなたの発言には「もし」という条件があり、公平性や一般的にこういったものがどのように展開されるかについては、後ほど戻ってきたいと思います。
モデルの能力の進化
では、AI自体について少し話しましょう。アプリケーションだけではなく。例えば5年後にモデルが今できないことができるようになることが見えますか。
私はそのような予測をすることには非常に慎重です。2016年に、今頃にはスキャンを読む通常の放射線科医をAI放射線科医が置き換えているだろうという誤った予測をしたからです。
5年先を見通すのは非常に難しいです。それがどれほど難しいかを理解する最良の方法は、5年前を振り返ることです。今から5年前を振り返ると、GPT-2のようなものが出始めたばかりでした。当時は驚異的に見えました。なぜなら、一貫性のあるテキストを生成できたからです。これまでそのようなものはありませんでした。一貫性のあるテキストはあまり良くなく、ナンセンスに満ちていましたが、一貫性はありました。今それを見ると、信じられないほど原始的に見えます。だから、私が言える最善のことは、今持っているものが5年後には信じられないほど原始的に見えるだろうということです。
だから驚かされるでしょう。例えば、はるかに優れた推論ができるようになり、幻覚がはるかに少なくなると思います。AIチャットボットは、自分が言ったことについて推論を行い、それが本当に意味をなしていないことや、それに対する十分な証拠がないことに気づくことができるようになるでしょう。そして彼らはその点で人間にはるかに近くなるでしょう。真実を伝えたい人々のようになり、幻覚を起こすことがはるかに少なくなるでしょう。
推論について話しましょう。これは最新世代のフロンティアモデルが、少なくとも公開されている範囲では、この半年ほど行ってきたことです。思考の連鎖などすべてのものが到来した時間スケールは、あなたが予想していたような速度で起こったのでしょうか、それとも驚きでしたか。
それは驚きでした。10年前に聞かれていたら、私たちが何についても話すことができるチャットボットを持つことはないと自信を持って予測していたでしょう。GPT-4やGemini 2.5のようなシステム、つまりすべてについてあまり優れていない専門家であるシステムを持つことはないだろうと。それは並外れたことに思えたでしょう。そんなものははるかに先のことだと言っていたでしょう。そして、複雑な推論ができるシステムを持つことも確実にないと言っていたでしょう。
そして今、推論が人間レベルに達しつつあるシステムを持っています。だから、私は思考の連鎖推論と、思考の連鎖推論を学ぶために強化学習を使うこと、人々に思考の連鎖推論を実演してもらう必要がないことに非常に感銘を受けました。そしてこれは推論とは何かについての私たちのモデルを完全に変えました。
長年にわたって、AIは記号的AIによって支配されていました。記号的AIは推論が知性の本質だと考えていましたが、推論を行う方法は論理のようなものでなければならないと完全に確信していました。英語の文章を取り、それを何らかの論理形式に変換し、そこに記号的規則を適用して新しい論理形式を導き出す必要があります。
それが推論の方法だろうと。そして彼らはそれについて非常に確信していたので、それが仮説だとは実際には考えていませんでした。彼らはそれがそうでなければならない方法だと、それがただの事実だと考えていました。はい。
そして、そのような人々は今、まあ、ハイブリッドシステムを持つつもりだと言うように引き下がっています。ハイブリッドシステムを持つまで推論ができるようにはならないだろうと。AIを使って現実をこれらの論理システムが扱える種類のものに変換します。混乱した現実を取り、それに変換し、そしてこれらの論理システムが推論を行います。だから、ハイブリッドなニューラルネット記号的AIが必要だという動きがまだあります。私はこれは完全にナンセンスだと思います。思考の連鎖推論は、推論がすべて英語で行われることを示しました。英語を理解するシステムによって。そして英語を理解することは、英語の文章を論理形式に変換することではありません。
私は何が起こっているのかのモデルを提示しようとします。では、これらの大きなチャットボットが英語、あるいはあなたの言語が何であれ、それを理解しているときに何が起こっているのかのモデルを提示しようと思います。
すべての言語で機能しますか、今からあなたが言おうとしていることは。
はい。そして、彼らは単語で動作すると仮定します。実際には単語の断片で動作しますが、単語で動作すると仮定する方が説明しやすいです。
だから、単語でできた文を取って、それを明確な論理形式に変換するのではなく、これらの単語記号を取って、単語記号をニューラル活動の大きなベクトル、つまり活性化された特徴の大きなセットに変換します。もちろん、単語に対してどの活性化された特徴のセットを使うかを常に決められるわけではありません。なぜなら、それは文脈に依存するからです。
もし私があなたにmayという単語を与えたら、それは月かもしれません。女性の名前かもしれませんし、wouldやshouldのような法助動詞かもしれません。だから、最初はそれを大きな特徴のセットにどのように変換するかわかりません。だから、ある種賭けをして、そして複数のニューラルネット層を使って、文脈の中の他の単語の特徴ベクトルと相互作用することで、徐々にそれを明確化し、クリーンアップします。
そして、これらの単語を正しい特徴ベクトルに変換したら、それが理解です。さて、正しい特徴ベクトルを作成する相互作用は非常に複雑です。だから、モデリングを理解する例を取りましょう。もし私が3D物質のどんな分布を取っても、一定の精度までレゴブロックを使ってそれをモデル化できます。
ポルシェの形を取ることができます。表面の形を気にしないなら、レゴブロックでその形をうまくモデル化できます。だから、レゴブロックは一定の解像度まで3D物質のどんな分布もモデル化できます。単語はレゴブロックのようなものですが、あらゆるものをモデル化するためのものです。だから、レゴブロックは3次元です。単語は多分1000次元の特徴ベクトルを持っています。
だから、はるかに複雑です。さらに、各レゴブロック、各単語には名前があります。それは単語の名前ですが、それが形を完全に決定するわけではありません。レゴでは、異なる形のレゴブロックがありますが、変形可能ではありません。単語では、変形可能で、文脈の中の他の単語と合うように変形します。
だから、意味の陰影が得られます。また、相互作用の方法はレゴブロックよりも複雑です。レゴブロックでは、小さなプラスチックの円筒が小さなプラスチックの穴に入り、それで終わりです。単語では、チャットボットで何が起こっているかのモデルが必要な場合、各単語を高次元のレゴブロックのようなものと考えてください。それはおおよその形を持っていますが、他の単語と合うように変形します。
そして、レゴブロックが小さな手で覆われていると考えてください。レゴブロックを変形させると、これらの手の形が変わります。そして彼らは他のレゴブロックと握手しなければなりません。そしてどの他のレゴブロックと握手するかを選ばなければなりません。それは注意と呼ばれます。マルチヘッド注意はこれらの複数の手です。だから、普通の人にとって、何が起こっているかの良いモデルは、単語の名前がどのレゴブロックを使うかを教えてくれるということです。
レゴブロックは変形可能で、文脈の中の他のレゴブロックと握手するために変形して、良い構造を作ります。それができたら、それが理解です。そしてそれはタンパク質の折り畳み問題にかなり似ていることがわかります。タンパク質では、アミノ酸の束があり、それらがすべてどんな形を作るか、どのアミノ酸がどのアミノ酸と握手するかを理解しなければなりません。
だから、理解は、各文を論理形式に変換することよりも、タンパク質の折り畳みにはるかに似ています。だから、言語学者や記号的AI研究者が持っていた理解の全モデルは単に間違っています。
あなたはニューラルネットワークが全てだと考えているのですね。
ニューラルネットワークが全てです。そして、ハイブリッドなニューロシンボリックシステムが必要だと言う人々は、記号的システムを信じていた古い世代の人々です。
その一部を保持したいのです。そして彼らはガソリンエンジンを作る人々に少し似ています。電気モーターの方が優れていると主張すると、彼らは、電気モーターは素晴らしいということには同意すると言うかもしれません。私たちがするつもりなのは、電気モーターを使ってガソリンをエンジンに注入することですと。
それがニューロシンボリックAIのようなものです。
なるほど。興味深いですね。あなたがどこに向かっていると考えているか、そしてシグナルとノイズがどこにあるかについて、あなたから感覚を得ていると思います。多くの人々は、ニューラルネットワークアーキテクチャを補強するために記号的AIが必要だとまだ話していますが、あなたが言ったように、そしてそれが実証されているように、ニューラルネットは、おそらく最初にあなたが考えていたよりもはるかに多くのことができるようです。
身体性と空間認識
そうです。だから、彼らがあなたを驚かせているなら、おそらく多くの人々も驚かせているのでしょう。モデルを現実世界でより自然な方法で動作させるための課題について話したいと思います。身体のようなもの、人間の心は脳だけにあるのではなく、私たちの身体の周りに知性があり、世界からフィードバックを得て、それに反応しています。空間認識、これらすべてのもの、明らかに脳によって制御されていますが、ある意味では私たちの周りに分散しています。今私たちが取り組んでいるモデルに関して、あなたの考えを聞きたいです。モデルは今、すべてシリコンの中にあります。それらはすべて、コンピュータの中の仮想的なものです。しかし、ある時点で、それらをより現実的にするために、それらをより有用にするために、身体、センサー、空間認識が必要になると思いますか。そしてもしそうなら、それをどのように取得するつもりですか。それはプログラムされるのでしょうか。それは学習されるのでしょうか。これについてどう考えていますか。
さて、ここには区別すべきことがあります。哲学的な問題と実践的な問題があります。哲学的には、もし子供がただラジオを聞いただけだったら、彼らは世界について学ぶことができるかと問うことができます。彼らがすることはラジオを聞くことだけです。そして哲学者はしばしば彼らはできないと言うでしょう。しかし実際には、チャットボットで起こったことは、彼らはただテキストの文字列を見ただけで、世界について学びました。
だから、単語の列に暗黙的に含まれている世界の構造について、驚くほど多くのことがあります。言語の意味です。
しかし、それは世界について学ぶ最も効率的な方法ではありません。これらのチャットボットは、その方法で世界について学ぶために膨大な量のテキストを見なければなりません。世界と相互作用できれば、世界について学ぶのははるかに効率的です。
だから、カメラとロボットアームを持つことで、空間的なことをはるかに効率的に学ぶことができます。しかし、それが唯一の学習方法だという意味ではありません。言語だけから空間について多くを学ぶことができるかもしれませんが、世界の中にいて世界で実験できれば、はるかに効率的に学ぶことができます。
世界について学ぶために実験ができる必要はありません。そうでなければならないと考える人もいますが、もしそれが本当なら、天体物理学者は困った立場になるでしょう。
つまり、ある意味では、以前のロボットはすべて、ルールをプログラムすることで訓練されていました。本質的に、これを検出したらこれをするという具合です。
それは非常に綿密で遅いプロセスでした。一方、私は、動作における大規模言語モデルに相当するものは、ロボットをさまざまな方向に動かすか、間違いを犯すことを許可することができることを示していると思います。危険なことをしていない限り、物事のやり方を学習します。まさに。アーキテクチャは、言葉ではなく、動作においても機能します。
ロボット工学では多くの進歩が遂げられています。触覚を持たせようとしています。Amazonは最近、Coariantという会社を買収したと思いますが、これはCoariantから来たものだと思われます。彼らは物理的な操作のために非常に優れたAIを持っており、触覚と組み合わせると、箱に入れるべき正しいAmazon製品を選び出すための非常に優れたものが得られます。
つまり、人が働いていない暗い倉庫というアイデアは、ただロボットだけです。それはもうSFではありません。そのようなものが存在します。ロボットが十分に優れていないため、人間が操作するにはまだ危険だと思いますが、ある時点で、ロボットが優れていれば、人間とロボットの相互作用が起こるでしょう。
そうです。
エージェントAIとハイプの現実
最近人々が話す誇大宣伝や流行語について聞いてもいいですか。2025年は常にエージェンティックAI、つまり世界で物事を行うことができるエージェントとなるAIの年になるはずでした。多くの企業が製品を販売しています。LLMを設定して休暇を予約できると聞かされています。まだ完全にはそうなっていませんが、もうすぐです。
これについてどう思いますか。これは実際に何か本当のものなのでしょうか、それともちょっとした誇大宣伝なのでしょうか。
私はそれが本物だと思います。私たちはそれを見ていると思います。エージェントが他のエージェントと相互作用しているのさえ見ています。それは少し怖いです。
彼らはどんな有用なことをしているのですか。
ええと、もし私がまだ研究をしていたら、おそらくこの詳細をすべて知っているでしょう。私はそれについて読んだだけです。エージェントはウェブで予約をするようなことができます。エージェントはかなりすぐにあなたのクレジットカード番号を持ち、あなたのためにただ物を買うことができるようになると思います。エージェントは他のエージェントと相互作用して、かなり洗練された計画を立てることができます。だから、私たちはエージェントを手に入れつつあります。
それは単なる誇大宣伝ではありません。そして一般的に、私は人々がAIの誇大宣伝について話すのを何年も経験してきました。80年代には、バックプロパゲーションを使い始めたとき、私たちは非常に熱心で、少し先走りしました。かなりすぐにしばらくできなかった多くのことができるようになると思いました。
だから当時は誇大宣伝がありましたが、私の全体的な意見は、ここ数年、どちらかといえばAIは誇大宣伝されていません。
なぜなら、それが進んでいる速度のためです。これが私の次の質問です。人々はスケーリング則について話します。より多くのコンピューティング、より多くのイノベーション、より多くのお金がこれらのものに投入され、より多くのコンピュータクラスタが構築され、より多くのチップが投入されます。
だから、ただもっとやり続ければ、さらに速く進み、さらに速く進むでしょう。これにはある時点で限界があると思いますか。
独自のトレーニングデータを生成できない限り、限界があります。言語モデルでは、世界のデータのほとんどが企業にサイロ化されています。自由に利用できるデータは大部分が使い尽くされました。
だから、彼らは限界に達し始めています。スケールアップによって得られる進歩の量が対数的であるという限界にも達しています。さらに1つの小さなパフォーマンスを得るには、データ量を2倍にし、計算量を2倍にする必要があります。次のビットではまた2倍にします。だから、それは限界に達しており、エネルギーの限界に達しています。
しかし、独自のデータを生成できるものについては、データの限界は得られません。そして、言語モデルのようなものでさえ、推論を使用することで独自のデータを生成できるようになると思います。彼らは、私はこれを信じ、あれを信じると言うことができるでしょう。推論を行って、だからこれを信じるべきだが、この他のことは信じないと言うことができます。
だから今、何かを修正する必要があります。前提の1つを修正するか、結論を修正するか、推論の方法を修正する必要がありますが、勾配を得て物事を変えることができます。そして、それがAlphaGoのようなものが人間よりもはるかに優れることを学んだ方法であり、言語モデルが人間よりもはるかに賢くなることを学ぶかもしれない方法です。
あなたがまだ話しているその1つの困難、つまりより良くなるためにはデータ量を2倍にし続けなければならないという限界を超えて推進するために、変更または開発する必要がある基礎的なアーキテクチャがあると思うかどうか知りたいです。もちろん、私たちはそれを続けることができます。しかし、あなたが考える、本当にこれを前進させるために起こる必要があると考える、今後数年または今後10年で来るか、アーキテクチャの変更によって解決される可能性のある問題が他にあるでしょうか。
ここには2つのことがあると思います。より良いエンジニアリングを行うことで、まだ多くの進歩を遂げられることはわかっています。DeepSeekはその素晴らしい例でした。
DeepSeekは古いNvidiaチップを活用するためにより良いエンジニアリングを行い、トレーニングでより良いエンジニアリングを行いました。彼らは、はるかに多くの計算能力で訓練された大きなチャットボットに便乗する種類のことをしました。だから、エンジニアリングの改善は起こり続け、同じことをより少ないエネルギーで行うことができるようになります。
しかし、必然的に科学的なブレークスルーが起こるでしょう。それらを予測することはほとんど不可能です。いつ起こるかわかりませんが、Googleが2017年に生み出したトランスフォーマーのようなもので、大きな違いを生んだようなものが、私たちが得る最後の大きなブレークスルーだとは信じていません。
アーキテクチャで他の大きなブレークスルーが得られるでしょうし、テスト時にはるかに多くの計算を行うべきだという最近のアイデアのように、これらのアーキテクチャの使い方での大きなブレークスルーもあるでしょう。だから、計算はすべてトレーニングにあるのではなく、テスト時に固定されたことを行うのでもありません。実際にテスト時に研究を行うことができます。
それは大きな違いを生んでいますが、私たちがまだ考えていないアーキテクチャでのさらなるブレークスルーが確実に起こるでしょう。
短期記憶とニューラルネットワーク
LLMが持つかもしれない短期記憶について教えてください。実際、私たちは以前これについて話しました。モデルが短期記憶を必要とする理由と、それで何ができるかについて、あなたがどう考えているか知りたいです。
わかりました。かなり長い間、ニューラルネットにおいて、人々のシーケンスの扱い方についての見方は、リカレントニューラルネットを持つというものでした。そして、リカレントニューラルネットは、シーケンスの過去に関するすべての情報を隠れニューロンの活性化状態に保存します。そして、これらの活性化状態は各単語とともに変化します。
だから、それらは急速に変化しているものです。そして、ゆっくり変化するものがあり、それは結合強度で、入力単語と現在の活性化強度が次の時間ステップの活性化強度につながる方法を決定します。それがリカレントニューラルネットです。そして長年、人々はそれが進む方法だと考えていました。
その後、トランスフォーマーが登場し、いや、見てください、私たちはすべての以前の活動状態を保持し、現在の単語がこれらすべての以前の活動状態を見ることを許可するつもりですと言いました。だから、私たちははるかに多くの文脈を保持しており、それははるかにうまく機能しました。さて、脳がどうやってそれをできるか尋ねるなら、脳は以前のニューロンの活性化をすべて保持することはできません。
同じニューロンしか持っていません。だから、どうやってそのような非常に豊かな文脈を得るのでしょうか。そしてそれができる唯一の方法は、短期的な結合強度にメモリを持つことであることは明らかです。だから、古典的なニューラルネットモデルは、データが入ってくると速く変化するニューラル活動があり、多くの多くのシーケンスを通じて非常にゆっくりと変化し学習する結合強度があり、それだけだと言います。
2つの時間スケールしかありません。しかし、そのような実際のニューラルネットでトランスフォーマーを行うことはできません。少なくとも3番目の時間スケールを持たなければなりません。それは、結合強度を取って、その結合強度にオーバーレイのようなものを持つことです。私たちが高速重みと呼ぶもので、急速に結合強度を変化させる方法で、急速に減衰し、ニューラル活動よりもはるかに多くの情報、ニューラル活動の何千倍もの情報を含むことができます。
そして、それがこれらのニューラルネットが動作している実際の文脈です。それは、トランスフォーマーが行っていることと同様のことを行うために、人間の脳で起こっているに違いないことです。それははるかに豊かな文脈を提供します。だから、それは、非常にニューラルではないように見えるAIの進歩が、実際には脳がシーケンスを扱う方法について人々が考える方法の進歩につながった良い例です。
大きな文脈にアクセスするために、結合強度の一時的な変化を持たなければなりません。
だから、高速重み、ここで初めて聞きました。それが今後数年で注目すべきものです。科学についてもう1つだけ聞かせてください。安全性の側面について話す前に。あなたは人間の脳を理解しようとしてキャリアを始め、シリコンでそれのバージョンを作成するこの場所に行き着きました。あなたは脳自体、人間の脳にまだ魅了されていますか。そして、LLMや最新世代のデュアルニューラルネットワークは、私たち自身の脳について何を教えてくれますか。
実際にはい、私は脳がどのように計算するかを理解するためにデザインされたキャリアを持っていました。そして私は失敗しました。しかし、その失敗の中で、脳をモデル化しようとする試みの中で、他のものを生み出しました。バックプロパゲーションを使って学習するものを生み出しました。
私は今、脳はおそらくバックプロパゲーションを使用していないと信じています。脳はこれらの大きなチャットボットとは幾分異なる問題を解決しています。大きなチャットボットでは、何兆ものトレーニング例があり、約1兆の接続しかありません。あなたの脳は非常に異なっています。
あなたの脳は100兆の接続を持っていますが、あなたは数十億秒しか生きません。もう少し多いですが、それは私にとって幸運ですが、数十億秒だけです。そして、あなたは多くのトレーニングデータを得られません。だから、脳は、非常に限られたトレーニングデータで、膨大な数の接続を使ってどのように学習するかという問題を解決しています。AIは依然として、膨大な量のトレーニングデータで、多くない接続を使ってどのように学習するかという問題を解決しています。多くないというのは今では1兆ですが。
バックプロパゲーション学習アルゴリズムは、これらすべてのシステムが使用するもので、その問題を解決するのに最適です。


コメント