機械学習の未来を形作るコネクショニズム | ペドロ・ドミンゴス

22,565 文字

How Connectionism Is Reshaping the Future of Machine Learning | Pedro Domingos

This episode is sponsored by Indeed. Stop struggling to get your job post seen on other job sites. Indeed's Sponsored Jo...

私はデータの集まりを見て、それらが何らかのプロセスによって生成されたと仮定し、そのプロセスが何であったかを特定しようとします。これが実際に生成的学習です。例えば、症状を持つ患者を生成するビジョンネットワークのようなモデルを考えます。まず患者がどの病気を持っているかを決定し、次にどの症状を持つかを決定します。COVID患者がどの程度の熱を出すかなどを決めて、データを生成します。これが生成モデルと呼ばれる理由です。
対照的に判別モデルがあります。これは機械学習の大部分を占めており、データから前進して患者が何の病気を持っているか、または画像が猫か犬かを判断しようとします。猫や犬をどのように生成するかというアプローチではないのです。機械学習では常に生成的アプローチと判別的アプローチの対立がありましたが、判別的アプローチが常に優勢でした。現在もそうです。なぜなら、それはシンプルに機能するからです。
人材が必要なときは、迅速に採用したいものです。待てば待つほど、市場も自社のニーズも変化します。例えば、昨日から誰かを雇う必要があると気付いたとしましょう。どうすれば迅速に適切な候補者を見つけられるでしょうか？Indeedを使いましょう。採用に関しては、Indeedがあれば十分です。他の求人サイトで求人を目立たせるのに苦労する必要はありません。Indeedのスポンサー求人は、目立ちながら迅速な採用を可能にします。
スポンサー求人を利用すると、あなたの求人がページの上位に表示され、関連する候補者にアピールできるため、望む人材により早くリーチできます。大きな違いを生み出します。Indeedのデータによると、Indeedに直接掲載されたスポンサー求人は、非スポンサー求人と比べて45%多くの応募を集めています。
Indeedの素晴らしい点は、採用プロセスを非常に迅速にできることです。以前は候補者を探すのに何ヶ月もかかりました。特に口コミだけに頼っていた時はそうでした。当時はIndeedがありませんでした。Indeedのスポンサー求人には月額料金も長期契約もなく、成果に対してのみ支払います。
Indeedはどれほど速いでしょうか？私がお話ししているこの1分間で、Indeedのデータによると世界中で23件の採用が行われています。これ以上待つ必要はありません。Indeedで今すぐ採用を加速させましょう。このショーのリスナーは、indeed.com/ionaiで$75のスポンサー求人クレジットを獲得して、求人の可視性を高めることができます。
just go to indeed.com/ionai、つまりindeed.com、I、O、N、A、Iです。今すぐアクセスして、Indeedについてこのポッドキャストで知ったとお伝えください。indeed.com/ionai。利用規約が適用されます。採用には、Indeedがあれば十分です。
ExIP（多分エクシップを指す）に関して私が最も驚いたのは、人々がどれほど驚いていたかです。彼らがやったことで特に驚くべきことは何もありませんでした。他の企業がやっていることも同様です。これは自然な進歩であり、正直なところ、多くは機能や改良、バリエーションを追加していくことですが、それらはすべて役立ち理解できるものの、あまり変わらない核の上に構築されています。
率直に言えば、私たちは局所的な最適解に収束していると思います。往々にしてそうなります。個人的には、局所的な最適解よりも大域的な最適解に興味がありますが、短期的には現状です。
そうですね。教師あり学習でも同じことが起きました。みんなが驚き、その後多くの人々が最適化や微調整に焦点を当て、それがどんどん強化されていきました。
教師あり学習というと、具体的にはどういう意味ですか？
ええ、つまり、生成AIの前にニューラルネットを支配していたラベル付きデータのパターン認識システムです。
なるほど。興味深いですね。短い話をしましょう。私が大学院生だった90年代初頭、同じ指導教官のもとにいた同僚の一人が、機械学習には未来がないと言って去りました。なぜなら、教師あり学習だけが機能し、もう新しいことは何も起きないと考えたからです。
その結果がどうなったかは明らかですね。あなたの言うことは理解できますが、教師あり学習は機械学習において非常に広範なパラダイムなので、教師あり学習内に確かに局所的な最適解が存在していました。現在の文脈では、データが不足しているとか、他のことをする必要があるという話がありますが、問題は彼らがデータを最大限に活用していないことです。教師あり学習アルゴリズムがそれほど優れていないのです。
実際、LLM（大規模言語モデル）の鍵となるアイデアの一つは、データの状態を活用することです。教師あり学習の問題は、現在も続いていますが、機械学習で本当に機能するのは教師あり学習だけだということです。強化学習や教師なし学習などもありますが、LLMにおける重要なイノベーションは、LLMに限ったことではありませんが、大量の教師なしデータを教師ありデータに変換する方法です。
つまり、この全ての背後には依然として教師あり学習が行われています。さらに、最近話題のDeepSeekに関連して、人々は常に「最新の強化学習」などと言っていますが、私は少し懐疑的になっています。詳しく調べてみると、実際には教師あり学習を行っているだけで、強化学習と呼ぶ方がセクシーなだけなのです。
コネクショニストについて話しましょう。一つ興味深いのは、あなたが「部族」と呼ぶ多くの戦略や学派が、進歩と継続的な研究に対して依然として有効であるということです。数週間前、セップ・ホッホライター（発音が難しいですが）をポッドキャストにお招きしました。彼は長短期記憶（LSTM）ネットワークを開発した人物で、研究を続け、現在は自分の研究を産業応用に使う会社を設立しています。とても興味深いですね。
では、コネクショニストについて、その起源、行き先、そして現在注目されているものによって無視されているコネクショニスト理論の学派があるかどうかについて話しましょう。
私はペドロ・ドミンゴスです。ワシントン大学のコンピュータサイエンスの教授です。90年代からAI研究者として活動しています。専門は機械学習です。AIの様々な分野で異なるパラダイムに取り組み、それらの統合にも力を入れてきました。おそらく、一般向けの機械学習入門書「マスターアルゴリズム」の著者として、また最近では「2040」というシリコンバレーの風刺作品（AIの誇大宣伝と恐怖、テック業界を風刺したもの）で知られています。
コネクショニズムはAIの最も古いパラダイムの一つです。シンボリックAIの次に古いと言えるでしょう。AIの歴史としては長い40年代に始まりました。実際にはシンボリックAIと並ぶ二大勢力の一つと言えます。時々、この二つの大きな対立するグループがあると考える人がいます。シンボリストとコネクショニストです。歴史的に、コネクショニストはシンボリストと対立する立場にあることが多かったです。
興味深いことに、コネクショニズムの考え方は非常に魅力的なものです。その魅力は重要だと思います。つまり、インテリジェントな機械を作りたいと考えたとき、私たちが知っているインテリジェントなものは人間、特に人間の脳です。優れたエンジニアとして、競争に遅れをとっている場合、リバースエンジニアリングをします。例えば、トヨタがGMやフォードの車を分解して「これはどう作られているのか」と調べ、まずはコピーし、最終的にはトヨタのように改良していくというアプローチです。
これが脳をリバースエンジニアリングするという考え方です。現代のコンピュータサイエンスの始まりから、この考えはありました。40年代にマカロック・ピッツによるニューロンモデルに関する論文が発表されました。これがニューラルネットワークの始まりと言えるでしょう。多くの人が知らないことですが、現在のAIに関係のないコンピュータハードウェアの多くも、実はこの論文から派生しています。ある意味では、50年代に言われていたように、すべてのコンピュータは「電子脳」なのです。
コンピュータ内のすべての回路はニューロンを模倣しています。AIが他のコンピュータサイエンスを飲み込み始めるにつれて覚えておくべき重要なポイントです。しかし、これらのニューロンと脳のニューロンの大きな違いは、これらのニューロンは学習しなかったことです。重みを持っていませんでした。実際には論理ゲートでした。これがコンピュータの構成要素です。それはマカロック・ピッツが使用した論理ゲートの一般化でした。
この話の中で重要な名前はフランク・ローゼンブラットで、50年代に「パーセプトロン」と呼ばれるものを作りました。これが最初の学習可能なニューラルネットワークでしたが、実際にはネットワークではなく、事前に計算された特徴が入力される単一のニューロンでした。当時、人々は非常に興奮し、ニューヨーク・タイムズは一面で「人間レベルの知能がまもなく登場」と報じました。今日も同じことが繰り返されているので笑わずにはいられません。いつか本当になるでしょうが、それまでは人々はこの歴史を知るべきです。
しばらくの間、これは非常に人気があり、AIへのアプローチとして最も人気があったと言えるかもしれません。興味深いことに、他のパラダイムの多くの人々も最初はニューラルネットワークから始めました。進化計算のジョン・ホランドやシンボリックAIのマービン・ミンスキーもそうです。ミンスキーの博士論文はニューラルネットワークに関するものだったというのは驚くべきことです。
しかし、その後、当初の魅力的なアイデアがうまく機能しなかったため、彼らは全員ニューラルネットワークから離れていきました。そして、1969年に有名なエピソードがあります。当時シンボリック学派のリーダーとなっていたマービン・ミンスキーとシーモア・パパートが「パーセプトロンズ」という本を書きました。
基本的に、パーセプトロンが素晴らしいものだという主張を打ち砕くものでした。彼らは数学的に、パーセプトロンができないことを示しました。その後、パーセプトロンやニューラルネットワークへの関心は急落しました。
その後15年間、ニューラルネットワークは死んだも同然でした。実際、70年代から80年代初頭にかけては、機械学習は機能しない、難しすぎるという共通認識がありました。プログラミングや知識工学が重要視され、機械学習は注目されていませんでした。
そして80年代に復活します。鍵となる開発はバックプロパゲーション（誤差逆伝播法）アルゴリズムでした。ミンスキーとパパートも、複数の層を持つネットワークを訓練できれば、それらの制限はすべて解決されると知っていましたが、誰もその方法を知らず、彼らの言葉を借りれば「それがどのように実現されるかは見えなかった」のです。
バックプロップ自体にも興味深い歴史がありますが、80年代に普及し始め、再び大きな興奮が起こりました。しかし、より深い層を構築すればすぐに脳のようになるという楽観論から、再び熱が冷めました。AIでは常に誰かが過度に楽観的になります。問題は誰かだけです。
しかし、バックプロップの問題は、1つの隠れ層でしか機能しなかったことです。それはあまり多くなく、人々はそれを諦めました。90年代末までに、ニューラルネットワークは完全に死んだわけではありませんが、完全に脇に追いやられていました。
そして2000年代初頭、ジェフ・ヒントン、ヤン・ルカン、ヨシュア・ベンジオらが取り組み始めました。実際には「始めた」のではなく、彼らは決して作業を止めなかったのです。彼らは死ぬまで頑張る人たちでした。より深いネットワークを学習する方法を考え始めました。実際、「ディープラーニング」という用語は部分的にはマーケティング用語です。「深い学習」というのは素晴らしい響きですが、技術的には多くの隠れ層を持つネットワークを指します。実際に学習できるようになると、驚くべきことができるようになります。そして現在に至ります。
バックプロップについて少し説明していただけますか？その起源と、ヒントンがどのように応用したのかについて。
まず、バックプロップが解決する難しさとは何かというと、それは機械学習における中心的な問題の一つです。「マスターアルゴリズム」では、5つの部族とそれぞれが主要な問題を解決するマスターアルゴリズムについて説明しています。私の主張はもちろん、すべての問題を解決する必要があるということです。つまり、どのアルゴリズムも十分ではありません。
バックプロップが解決する機械学習の中心的な問題は「クレジット割り当て」です。多くの層、多くのニューロン、接続の複雑な塊を持つ非常に大きなシステムがあります。それは画像を見て、それが猫か犬かを教えてくれるはずです。その画像は犬なのに、システムは猫だと言います。そこで問題は「誰を責めるべきか」です。「責任割り当て問題」と呼ぶべきかもしれません。誰が変わるべきか？
コネクショニズムでは、すべての知識はニューロン間の接続にあります。これは人間の脳からインスピレーションを得ています。私たちが学ぶ知識はすべてニューロン間の接続の強さにあると考えられています。どの接続を変更すべきでしょうか？考えてみると、これは全く明白ではありません。最終的な出力で誤りがあり、最初に画像があります。何が起きているのかを誰が知っているでしょうか？
しかし、バックプロップは技術的な詳細は別として、非常にシンプルな回答を提供します。機械学習では、シンプルな答えが最も遠くまで到達することがよくあります。その答えはこうです：概念的には（実際には非効率的なので実践ではありませんが）、各重みを順番に少しずつ調整します。すべての層のすべてのニューロンのすべての重みを取り、「少し増やしてみよう」と言います。
通常、出力関数は連続的で、例えば「猫である確率は何か」といったものを示します。この重みを上げると確率が少し上がる、それはいいことなので、それを維持します。別の重みを下げると確率が上がるので、それも調整します。これをすべてのニューロンに対して何度も行うと、時間の経過とともに驚くべきことが起こります。猫の画像を実際に猫の画像として分類することを学習するでしょう。
バックプロップは実際には計算効率の良い方法です。賢い方法ですが、無駄を避けるために知られているタイプのものです。重みを調整するたびに計算全体をやり直したくはありません。特に現代のネットワークでは、それは単に馬鹿げています。
バックプロップに起こったことは、AIの歴史に満ちた美味しい皮肉の一つです。1986年にデビッド・ルメルハート、ジェフ・ヒントン、クリス・ウィリアムス（または誰かウィリアムス、ロバート・ウィリアムスだったか、第三著者がいました）によって論文が発表されました。それはしばしば、バックプロップを発見したと最初に認められています。真実は、バックプロップはそれ以前に20回発見されていたということです。
私自身、バックプロップを発明した3〜4人の異なる人々を知っています。その一人はフランスの大学院生だったヤン・ルカンで、彼は独自にバックプロップを発明しました。例えば、私の指導教官であるE.C.アーバインのポスドクが80年代初頭か90年代後半に、バックプロップに関する論文をTOPIE会議に提出しましたが、論文は拒否され、査読者は「ミンスキーとパパートが示したように、それは機能しない」と言いました。
また、ハーバード大学の経済学者が70年代に論文または論文を発表していました。実は、60年代に制御理論家のブライソン・ホーによる論文があり、パーセプトロンズの本が出版される前に、バックプロップアルゴリズムはすでに存在していました。ヤン・ルカンは、バックプロップの功績は実際にはライプニッツに与えられるべきだと言っています。なぜなら、それは実際には微積分の連鎖律に過ぎないからです。
バックプロップについて質問があります。理論は理解しています。目標に近づくために、重みを調整していくというものですが、これは順番に行われるのでしょうか？各ニューラル経路が調整されてから出力が評価されるのか、それともすべてのニューロンを通して段階的に行われるのですか？
順番に行われますが、層を通して後ろに戻ります。実際、その名前はそこから来ています。バックプロップでの仕組みはこうです：まず猫の画像があり、最初にフォワードパス（推論パスとも呼ばれる）を行います。これは基本的に、まず画像の上にある層のニューロンの出力を計算し、次の層へと進み、最終的に猫か犬かという最終出力まで計算します。
次に誤差逆伝播フェーズが来ます。ここでエラーを測定します。例えば、出力が猫に対して0.7だったけれど、本当は0.1であるべきだった、あるいは0.9であるべきだったとします。そこで、最後の層のニューロン、特に最後のニューロンから始めて、「もし重みをすべて調整したら、それがどのように変化するか」を見ます。
しかし、キーポイントは、前の層に行くとき、ゼロから始めないことです。それは無駄です。出力まで戻る必要はありません。最後の層のニューロンの重みがどれだけ差を生むかがわかったので、それに基づいて前の層の各ニューロンがどれだけ差を生むかを見ます。
こうして、最初の層まで層を通して後ろに進みます。だから「バックプロパゲーション」と呼ばれるのです。エラーを後ろに伝播させ、そこから学習するからです。
では、バックプロップがあります。ジェフとイリヤとアレックスが2012年にAlexNetを作りました。これは、より大きなデータセットとより強力な計算能力を活用し、ImageNet競技で breakthrough を達成しました。これがディープラーニングの新たなブームの始まりですね。では、そこからどうなったのでしょうか？
少し戻りますが、ディープラーニングは一般の認識では当時爆発的に広まりましたが、すでにその前に最初の大きな進展がありました。人々が注目し始めたのは音声認識においてでした。ジェフ・ヒントンは主にビジョンに取り組んでいました。ヨシュア・ベンジオは言語の専門家でした（これについては後で話すでしょう）。ヤン・ルカンもビジョンに非常に力を入れていました。
しかし、あるとき、彼らができることだったので、ビジョンは非常にコストがかかるため、ジェフと彼の学生は音声に取り組み始めました。そして音声は本当にうまくいっていました。ジェフ・ヒントンには「30百万ドルのインターン」と呼ばれる学生（ナビート・ジャイトル）がいました。ジェフによれば、実際には「10億ドルのインターン」と呼ぶべきだそうです。
彼はGoogleで1夏インターンをし、そこで彼らが持っていた音声システムにディープラーニングを適用しました。それはすでに高度に洗練されたシステムでした。そして1夏で、何百人ものエンジニアが開発した最先端のシステムを超えました。音声はAIの長年の分野であり、数十年間停滞していました。そこに突如ディープラーニングが現れ、「ワオ」と思わせたのです。
そして、他の多くの分野でも見られるこの現象が、最初に音声で見られました。そして、AlexNet自体には興味深い歴史がありますが、あなたの言う通り、ビジョンコミュニティは常にニューラルネットワークに懐疑的でした。彼らはそれを真剣なビジョンとは考えていなかったからです。
笑顔を抑えるのが難しいですが、最初の50年間、彼らの取り組みは主に数字認識でした。「いかに数字をよりよく認識するか」というテーマでした。それはデータがあり、コストが高くなかったからです。ビジョンの研究者たちは「私たちはそれにはあまり興味がない。それはビジョンではない。去ってくれ」と言っていました。
ビジョンの権威はバークレーのジャティンドラ・マリクです。ジェフ・ヒントンは一度彼に電話して「ニューラルネットワークがビジョンに良いことをあなたに説得するには何が必要か」と聞きました。そしてジャティンドラは「Pascalというデータセットがある」と言いました。それは当時重要なデータセットでした。しかしヒントンは学生たちと話し合った後、「いや、Pascalは小さすぎる。もっと大きいものはないか」と言いました。
そしてジャティンドラは「スタンフォードのフェイ・フェイ・リーとその学生たちが開発したImageNetというデータセットがある。それはかなり大きい。100万の例がある」と言いました。今日では大きく聞こえませんが、当時のPascalなどのデータセットは数千でした。数千の例でビジョンを解決しようとするのは馬鹿げていると今では思えます。
AlexNetの鍵は、彼らがGPUを使用したことです。GPUなしでは実現できなかったでしょう。しかしGPUはすでに利用可能でした。彼らが機械学習のためにGPUを転用した最初の人々ではありませんでしたが、彼らは驚くべき成功を収めました。
あなたの質問に答えると、何が起こったかというと、最初ビジョンの専門家たちは懐疑的でした。機械学習の人々は非常に興奮していましたが、ビジョンの専門家たちは「彼らは何か間違ったことをしている。これは正しいはずがない」と言っていました。彼らは実験を繰り返し、「おお、結果は本物だ」と気づきました。
そして彼らはそれを他のビジョンの問題に適用し始めました。これは今日も続いている波及効果です。彼らはそれを単に猫と犬を識別するだけでなく（これはImageNetで最も頻繁に見られるものです）、ビジョンの他のタスクに適用し始め、それは非常にうまく機能し続けました。
数年のうちに、ビジョンはディープラーニングを使用する論文がほとんどない状態から、基本的にすべてがディープラーニングを使用する状態へと変わりました。そしてもちろん、これは一般の意識に浸透し、ディープラーニングの人々の態度は「よし、ビジョンを解決した。次は何だ？言語をやろう。機械翻訳をやろう」となりました。
2015年頃にヨシュア・ベンジオと話したとき、彼は「統計的機械翻訳の結果にまだ完全には追いついていない」と言っていました。統計的機械翻訳システムは当時、GoogleやOther場所ですでに非常に大きく、多くの面で非常にうまく機能していました。翻訳者の雇用の終焉が叫ばれましたが、もちろんそうはなりませんでした。そしてその現象は今日も続いています。しかし彼は「もうすぐそこまで来ている」と言いました。そして数年以内に、彼らはそこに近づいていただけでなく、はるかに超えていました。
現在、そのパターンは推論においても続いています。「ビジョンを解決した、言語を解決した、今度は推論を解決する必要がある」というわけです。問題は、彼らはビジョンも言語もそれらのことを本当に解決していないということです。多くの進歩を遂げましたが、その間にも多くの局所的な最適解に閉じ込められており、そこから抜け出す必要があります。
彼らの功績として、ヤン・ルカンのような人々（彼は長年ニューラルネットワークのビジョンの専門家です）は「いや、いや、これは解決されていない」と言います。そして実際に解決されていません。ビジョンにおける主要な問題である動画理解を見ると、それはまだ解決からはほど遠いです。誰も動画理解の方法を本当に知りません。
新世代のものやトランスフォーマーのようなものが、それに適用されていますが、それは改善にすぎず、すべてのそれらはまだ言語と同様に解決されておらず、推論はさらに解決されていません。もちろん、最新の世代はこの全てのChat GPTなどですが、ある意味ではそれは技術的なものよりも社会学的な現象です。
Chat GPTの大きな新しさは、みんながそれに驚き、使い始めたということです。研究内容に関しては、Chat GPTには新しいものはほとんどありません。「さらにスケールアップした」と言えるかもしれませんが、それさえも本当ではありません。Googleはすでに彼らのチャットボットをリリースしていませんでしたが、技術的な観点では、Chat GPTには当時のGoogleのチャットボット、例えばLambdaに比べて大きな技術的な新しさはありませんでした。
もちろん、それ以来多くの技術的なイノベーションが起こりましたが、ある意味で、ディープラーニング内でも非常に狭い正面に研究や産業の注目が集中しているのに対し、大きな飛躍が来るであろう他の多くのことが無視されているのは興味深いことです。
少し戻ってもいいですか？トランスフォーマーアルゴリズムというもう一つの転換点がありました。これはすべてコネクショニストの陣営内のことですね。トランスフォーマーの開発について話していただけますか？音声に関しては、テリー・セイノフスキーがNetTalkと呼ばれるものをやっていました。それはジェフがビジョンの研究を発表する前のことでした。NetTalkは音声へのニューラルネットワークの応用への一歩だったのですか？
はい、80年代後半から90年代初頭にかけて、誰かがニューラルネットワークの成功例を挙げる必要があったとき、それはNetTalkでした。NetTalkは音声認識ではなく音声合成でした。テキストを与えると、それを声に出して読み上げました。
人々を本当に興奮させたのは、YouTubeで今でも「NetTalk」と検索すれば聞けると思いますが、最初はノイズを出力し、そしてネットワークがバックプロップを通じて学習するにつれて、最初は赤ちゃんのようにぶつぶつ言い始めました。赤ちゃんのようにぶつぶつ言っていたという事実が人々の興味を引いたのだと思います。そしてそのぶつぶつ言葉はより一貫性を持ち始め、最終的には実際にかなり上手に音声を合成するようになりました。
今日ではそれが大したことと思えないかもしれませんが、当時は大きなことでした。NetTalkはニューラルネットワークの象徴的な例でしたが、実用的なアプリケーションとしては進展しませんでした。十分に良くも信頼性が高くもなかったのです。商業的には音声認識のほうがはるかに重要でした。
考えてみれば、テキストから音声を合成するのはそれほど難しくないのです。音素が何かを知っていて、それらを一緒につなげば、非常に不自然に聞こえるかもしれませんが、悪くはありません。音声認識は難しい問題です。ノイズの波が入ってきて、すべてがごちゃごちゃしていて、人々は音節を飲み込んだりして、それをテキストに変換する必要があります。それは本当に難しいです。
NetTalkは1990年頃に人々が話していたものでしたが、2005年から2010年頃、ジェフと彼の学生たちがやっていたことは、音声の専門家たちが真剣に受け止めなければならないものでした。
私は時々冗談を言います。機械学習会議の目的は、アプリケーション会議には良くない段階でアプリケーション論文を発表することだと。機械学習アルゴリズムのテストとして音声やビジョンの論文を発表し、それらが成熟すると自然言語などの本来の会議に移行します。
これはトランスフォーマーの話に戻ります。先ほど「次は言語をやろう」と言った時点から話を続けましょう。私が言及したように、常に言語に興味を持っていた非常に小さなグループの主要な人物がいましたが、彼は博士課程では確か音声に関する研究をしていて、その後しばらくはそれに取り組まなかったのです。理由は後で説明できますが、その後復帰し、彼のグループは機械翻訳を検討し始めました。
誰のことですか？
トランスフォーマーの鍵となるのはアテンション（注意機構）です。アテンションには興味深い話があります。ヨシュア・ベンジオは新しいポスドクのキュンヒュン・チョーとインターンだった人に言いました。これが最も面白い部分で、ほとんどの人が知らないことですが、トランスフォーマーはGoogleで発明されたわけではありません。名前とツールアーキテクチャはそうですが、トランスフォーマーの鍵となるアイデアはアテンションです。
トランスフォーマーの論文は「Attention is All You Need（アテンションがすべて）」と呼ばれています。実際に彼らがやったのは、他のものを取り除くことでしたが、それも立派な貢献です。しかし、アテンションはベンジオのグループのインターンによって発明されました。彼は優れた機械学習研究者ではなく、何も知らないインターンで、ただこの研究を始めてそのアイデアを思いついたのです。
問題は何だったのか、解決策は何だったのか？機械翻訳をするために、最初に彼らが試したのは、例えばフランス語から英語へ翻訳する場合、フランス語のテキストを再帰型ニューラルネットワーク（RNN）で処理するというものでした。RNNは時間的に順次処理するものです。そして、読み込んだテキストを捉えたニューラルネットワークの状態に到達します。
これはエンコーディング部分と呼ばれていました。フランス語をネットワークにエンコードするからです。そして、デコーディング部分がありました。ここでは、その内部状態（誰も理解していない、今でも理解していない一連の数字）を英語に変換します。これも順次行われ、一度に一つの単語を生成してテキストを生成します。
これはあまりうまくいきませんでした。ボトルネックがあり、情報の多くが失われ、最近のテキスト、つまりテキストの最後の部分は覚えているが、最初の部分は覚えていない傾向がありました。そこでヨシュアは「これについて何かしなければならない」と言いました。
アテンションのアイデアは、ある意味では、数十年間機械翻訳の統計的アプローチで人々がやってきたことをニューラルネットワークでやることです。常にアライメント（整列）フェーズと呼ばれるものがありました。これは現在の「アライメント」と呼ばれるものとは関係ありません。例えば、フランス語から英語に翻訳するとき、単語の順序がしばしば異なるという事実です。
例えば、形容詞が前に来たり後に来たりします。テキストを一度に一つずつ処理するだけでは十分ではありません。次の単語を生成するとき、例えば次の単語が形容詞だとします。「大きな猫を見た」というとき、「大きな」はどこから来るのでしょうか？前のテキストで「大きな」が翻訳している単語を見つける必要があります。「あ、シャ（フランス語のgrand）をすでに翻訳した」というわけです。
彼らがやったのは、同じプロセスのニューラルネットワークバージョンでした。これがアテンションがすることです。次の単語を生成するとき、「次の単語は何になるだろうか？それは何の翻訳だろうか？ああ、大きい、それは～の翻訳だ」ということで、これをバックプロップを使って学習できます。
これが彼らのイノベーションでした。非常に重要なものです。しかし、彼らはただ機械翻訳の問題を解決しようとしていただけでした。論文は機械翻訳だけに関するものでした。そしてトランスフォーマーのチームも同じでした。彼らは多くのものを改良し、基本的にもはや有用でなくなったものを取り除きました。
当時これらの論文を読んでいて、そのたびに「これは非常にクールなアイデアだ。翻訳以外にもたくさんのことができるに違いない」と思いました。そして次の論文、そして人々が発見したこと、これは部分的に機械学習の美しさですが、彼らは同じアーキテクチャを取り、それをさらに多くのことに使い始め、それはすごく働き続けました。そして今日に至ります。Chat GPTのGPTのTはトランスフォーマーです。
そしてGoogleの人々、チームがあって、あなたの言うように、すべてを取り除き、アテンションを中心にとてもシンプルなアーキテクチャを作りました。
私が笑っているのは、それがシンプルとは程遠いからです。また、それは一つのチームではなく、いくつかのチーム、おそらく3つのチームがあったので、論文には8人の著者がいます。3つの異なるグループの人々が、何らかの理由で「ええ、これを何かに使ってみよう」と言いました。彼らはみな、このアテンションという新しいメカニズムを使い始めましたが、進展がありませんでした。
鍵となる人物は実際にはノーム・シャゼアでした。彼は論文の8人の著者の一人ですが、アテンションを所与とすれば、彼こそがトランスフォーマーを発明した人です。これらの人々の何人かと話しましたが、彼らはただ何百万ものことをハックしました。そういうことはよくあります。大きな洞察はなかったのです。少なくとも彼らが言えることではないのかもしれませんが、私たちはまだそれが何か分かっていません。しかし、ノームが「どうやってそれを機能させるか」を理解した人でした。
私が微笑んでいるのは、再帰型ニューラルネットワークの問題の一つは、それらが順次動作することです。つまり、順次訓練する必要もあります。これによりそれらを並列化することが難しくなります。並列化は非常に重要です。スケールアップして物事を高速化できるようにするためです。
最初、ベンジオのグループからのモントリオールグループは、再帰型ニューラルネットワークの上にアテンションを追加していただけでした。そして、これらの人々が言ったのは、「いったんアテンションを持てば、再帰性を取り除くことができ、今は並列に訓練でき、そしてより大きなコーパスで訓練できる」ということでした。これがその論文で起こった本当に重要なことです。
彼らが最終的に持っているこのシステムは、今日ではさらに単純どころではなくなっています。それは様々な異なるものやハックの巨大な集合体です。これは実際に進歩を遅らせます。トランスフォーマーについて単純なことは何もありません。物事は時間の経過とともに、より良く理解されるにつれてシンプルになる傾向がありますが、トランスフォーマーの場合もそうだと思います。しかし、彼らにはすべてのこれらの異なる種類の層やメカニズムなどがあり、詳しく説明することもできますが、トランスフォーマーの完全なアーキテクチャは複雑さの巨大な集合体であり、それが私たちの足を引っ張っています。
話が飛び飛びになりますが、セップ・ホッホライターについて言及しました。彼はずっと前にLSTM（長短期記憶）を開発しました。それはどのようにアテンションと関連していますか？それは一定数のトークンを振り返り、メモリに保持するものであり、それは私にはアテンションのように聞こえます。
LSTMは一時期、言語の機械学習で非常に人気がありました。それは人々がすでに言語に焦点を当てていたが、アテンションがまだ発明されていなかった時期でした。
LSTMは再帰型ニューラルネットワークの一種です。再帰型ニューラルネットワークの問題は、ヨシュア・ベンジオが作業を停止させた「消失勾配問題」と呼ばれるものでした。バックプロパゲーションを行うとき、後ろに行けば行くほど、信号はより拡散します。出力層のニューロンは「あなたが悪い、明らかに間違っている」と責められます。しかし、100層後ろのニューロンに到達すると、そのニューロンに通じる経路は100万もあり、誰がそれを責められるかわかりません。
インクの一滴が水のグラスに拡散するようなものと考えてください。時間が経つにつれて、それはすべてに広がります。これがあなたが割り当てなければならないクレジットまたは責任であれば、再帰型ニューラルネットワークでは時間の経過とともに、たとえそれが一つの層であっても、それを何度も何度も使用するため、無限の層のネットワークになり、信号がただ拡散して、学ぶべきものがなくなります。みんな等しく責められるか、責められないかです。
LSTMはこの問題への解決策でした。当時、人々はニューラル・チューリング・マシンなど多くのことを試みていましたが、LSTMはずっと前にセップとその指導教官ユルゲン・シュミットフーバー（機械学習で様々な理由で有名）によって発明されていました。
彼らの解決策は、実際にはコンピュータのように少し動作するものを作ることでした。メモリセルがあり、実際にメモリセルに何かを書き込むことができ、セルにアクセスすることを決定するまでそれはそこに留まります。これは私たちが使用するフォン・ノイマンコンピュータの動作方法に似ています。
彼らはメモリへのアクセスを制御するゲートを持っていました。忘却ゲートなどです。それがしたのは、メモリに書き込むこと、メモリから読み込むことなどを許可または許可しないことでした。重要なのは、これがデジタルではなく、徐々に学ぶことができるものだったことです。これは後にアテンションも行うことです。単に「これに注意を払う」と言うだけでなく、文脈窓と呼ばれる過去のすべてに注意を払います。そしてバックプロップは「この人にもっと注意を払え」と言い、それからバックプロップは「この人にさらにもっと注意を払え」と言います。
LSTMは正直なところ、これを達成するためのより複雑で、よりハッカー的で、より扱いにくい方法でした。実際、アテンションは多くの面で誤解を招く用語です。心理学のバージョンの「注意」とは本当に何の関係もありません。皮肉なことに、それを発明したキュンヒュンとディミットリは、それをアテンションと呼びませんでした。ヨシュア・ベンジオが論文の最後に来て、あらゆるところに「アテンション」と入れ、彼らはそれをまた取り除いたと彼らは話します。ただし、多くの場所に残され、そして残りは歴史です。
では、トランスフォーマーがあります。これはすべてコネクショニストのストリームでのことですね。そして脇で何かが起こっています。次のエピソードで話すかもしれませんが、敵対的生成ネットワーク（GAN）などがあります。GANについて話しましょうか？それとも、それは進化的アルゴリズムの端に位置するものですか？
とても良い質問です。GANは数年間AIで非常に人気がありました。そして今はある程度下火になっています。進化学習との関連を指摘するのは鋭いですね。ほとんどの人はその関連を作りませんが、それは非常に重要な関連だと思います。
GANは実際に「生成的」という用語がどこから来たかを示しています。「生成的」という用語は最初から統計的機械学習の用語で、生成モデルのアイデアは、それはデータを生成するモデルだということです。サンプルを生成するプロセスが欲しいのです。
これを別の方法で考えると、これは実際にベイジアンな考え方全体です。「データの集まりを見て、それらが何らかのプロセスによって生成されたと仮定し、そのプロセスが何であったかを特定しようとします。」これが実際に生成的学習です。ビジョンネットワークのようなモデルを考え出し、「これは症状を持つ患者を生成する方法です。まず、彼らがどの病気を持っているかを決定し、次にどの症状を持つかを決定します。彼らがCOVIDを持っているという事実に基づいてどのような熱を持つか」などを決め、データを生成します。
これが生成モデルと呼ばれる理由です。対照的に判別モデルは、機械学習の大部分を占めており、ただデータから前進して「あなたは何の病気を持っているか」や「これは猫か犬か」を決定しようとします。「猫や犬をどうやって生成するか」ではなく。
機械学習では常に生成的と判別的の間にこの対立がありました。判別的なものが常に優勢でした。今でもそうです。なぜなら、それはシンプルに機能するからです。それはある意味では満足度が低いです。なぜなら「ここでの深い科学は何なのか？私はただ欲しい結果を得るためにハックしているだけだ。私は宇宙がどのように生成されたのかを知りたい」という感じだからです。例えば、物理学は生成モデルに関するものです。宇宙はこのように生成されるというものです。
ある種の人々は、最終的には生成モデルが勝つべきだと本当に思っています。さて、GANを発明したイアン・グッドフェローはヨシュア・ベンジオのグループの同時期の別の学生で、ベンジオは大きなグループを持っていたので、多くの人々がそこから出てきたのは完全な偶然ではありません。
彼らは実際には別の問題を解決しようとしていました。それはバックプロップによってトレーニングされない（そしてこれは生成モデルである）ニューラルネットワークの一種の問題でした。ちなみに、これらはジェフ・ヒントンが常に興味を持っていたものでした。ジェフ・ヒントンは論文の共著者ですが、バックプロップが好きではありませんでした。彼は実際に「バックプロップは未来ではない」と記録しています。彼は一度私に「この原始的なものに関する論文を発表する唯一の理由は、論文を発表するためだ」と言いました。なぜなら彼が興味を持っていたのは、実際にものを生成する生成的ニューラルネットワークだったからです。
しかし、それらのニューラルネットワークの問題は、推論が難解だったことです。そこで彼らはそれを扱いやすくする方法を考え出そうとしていました。これを行うには、ベイジアンを含む様々な象限で長い歴史があります。そして生成的敵対的ネットワークは実際にこれを行う方法でした。
歴史や詳細にあまり深入りせずに、そのアイデアは何かというと、敵対的ネットワークはデータを生成する生成ネットワークとそれを分類しようとする判別ネットワークの間のゲームです。実際に生成モデルと分類器が互いに対抗して働いているのです。これは素晴らしいアイデアです。なぜなら、分類器は実際のデータと生成ネットワークによって作成されたデータを区別しようとしており、それにより生成ネットワークはより良くなることを強制されるからです。
そうでなければ、最初は「ああ、あなたは猫には全く見えない」と偽と分類されますが、その後改善しますが、それが分類器も改善せざるを得なくします。彼らはこの進化的な軍拡競争に入ります。進化論では「共進化」と呼ばれるもので、捕食者と獲物、生成者と判別者のようなものです。
これはニューラルネットワークの文脈において本当に新しいアイデアでした。実際、当時ヤン・ルカンは「これは過去20年間のニューラルネットワークにおける最も重要なアイデアだ」と言っていました。しかし、それは衰退しました。なぜなら、それは非常に不安定で、多くのことが間違ってしまうことが分かったからです。
私の失望にも関わらず、人々は本当にそれを進化の領域全体に拡張しませんでした。なぜなら共進化は非常に強力だからです。おそらくそれが機械学習に必要なものかもしれませんが、それは難しすぎました。端的に言えば、それは衰退しましたが、そこからディープフェイクを生成するという全体的なことが始まりました。
彼の論文には生成された粒子の粗い画像がいくつかありました。当時、これは実際に非常に印象的でしたが、より多くの力をこれに適用することを考えると、画像はより大きくなり、より細かい解像度になり、画像から動画に移行し、ディープフェイク産業が生まれました。
現在では、拡散などの技術がこれらのものを生成するために使われていますが、これについても話すことができるでしょう。だからGANはもはや最先端ではありませんが、ニューラルネットワークの文脈での「生成的」という用語は本当にそこから発展し、このような「どうやってテキストや画像の生成であなたを驚かせることができるか」というAIの多くの考え方は本当にGANから始まりました。
ここからどこに行くべきでしょうか？あまり時間が残っていません。大きな時間ブロックが必要かどうかはわかりませんが、リッチ・サットンが強化学習に取り組んでいて、行動心理学者の側面からアプローチしています。私にとって、それはおそらく最も強力なアイデアで、確かに応用されましたが、現在の生成AIのお気に入りになっているようです。DeepSeekは純粋なRLでトレーニングしていますね。強化学習がこれらすべてにどのように適合するか話せますか？
強化学習は実際に教師あり学習と教師なし学習とは異なる種類の学習です。これも数十年前からあります。それは動物心理学からインスパイアされています。実際、その用語はパブロフの実験などから来ています。報酬を与えることで行動を強化するという考えです。
リッチ・サットンはその分野で長年のリーダーでした。強化学習の基本的なアイデアは何でしょうか？理解するために始めることが重要です。ちなみに、強化学習は教師あり学習と同様に、どのパラダイムでも適用できますが、常にニューラルネットワークで最も人気がありました。
教師あり学習では、教師がいます。教師は「あ、正解です」と言います。例えば「はい、これは猫です」または「いいえ、これは犬です」と物事にラベルを付けます。これは学習を容易にしますが、そのデータはどこから来るのでしょうか？そのようなデータを持たない多くの領域があります。
動物がどのように学ぶか、または私たちがどのように学ぶかを見ると、ストーブに触れると学習しないようになります。しかし、強化学習の興味深いことは、ストーブに触れるとやけどを感じますが、本当は手をそちらに動かすべきではなかったということです。そのシグナルをどこに戻す必要があります。教師あり学習では、最後の瞬間に「触れないで」というだけでしたが、それが教師あり学習です。強化学習の全体的なアイデアは、遅延報酬と呼ばれるものがあるということです。あなたは何かをし、後でのみ結果を見ます。そしてその結果を、行動をとるべきだった場所に戻して伝播させる必要があります。
これの有名な例はAlphaGoです。実際、強化学習は50年代にさかのぼり、「機械学習」という用語を作った論文には、チェッカーをプレイするための先駆的な強化学習がありました。それは人間レベルでチェッカーをプレイすることを学びました。
アイデアはこうです：私（コンピュータ）はあなた（人間）と一緒にチェッカーのゲーム全体をプレイします。私の手が良いか悪いかはわかりません。私が知っているのは、最終的に私が勝ったか負けたか、または引き分けたかだけです。これが報酬と呼ばれる非常に小さな部分です。報酬とは「あなたが勝った」ということです。あなたは報酬を得ます。
強化学習は、それらの報酬を取り、決断を下す必要がある場所に戻って伝播させ、ゲームに勝つための多くのステップにつながる正しい動きをする一連の技術、またはただの問題なのです。これがニューラルネットワークと組み合わさり、碁に適用されたものが、DeepMindがリー・セドルを破った理由です。
リッチ・サットンや他の人々による長年の強化学習は常に非常に理論的でした。彼らは小さな実験を行い、正直に言って誰も納得していませんでした。彼らは定理を証明しようとしました。DeepMindの人々がやったことは非常に重要で、「そういうことは全部忘れて、とにかくエンジニアリングし、勝利するようにする」というものでした。そして彼らはそれを実現しました。
しばらくの間、深層強化学習は非常に人気がありました。それに関する多くの論文がありました。彼らは実際にアタリのビデオゲームでこれを始め、その後碁やチェスなどに進みました。それは残念ながら衰退しました。なぜなら、DeepMindの当初のアジェンダは深層強化学習であり、彼らのアイデアは「これらのゲームから始めて、シミュレーションでのロボットに移り、最終的には実世界のロボットに移る。これがAIを解決する方法だ」というものでした。
彼らはもはやそうは言いません。今日、あなたが指摘したように、強化学習は再び人気がありますが、正直に言って、この歴史を知っている私たちは、ある程度の正当な懐疑心を持っています。なぜなら、何度も何度も同じことを見てきたからです。人々が出てきて「見てください、強化学習の大きな成功です」と言い、より注意深く見ると、大きな成功はなく、彼らが実際にやっていたのは効果的に教師あり学習だったか、教師あり学習でもできたことだったのです。
実際、OpenAIが人気にした人間からのフィードバックを用いた強化学習（RLHF）というものがあり、それが彼らのチャットボットなどをうまく機能させるために非常に重要だと彼らは言います。しかし、スタンフォードからの論文は基本的に効果的に教師あり学習をしているだけだと示しました。
DeepSeekについても、反対の証拠が見つかるまでは、私は同じことを言うでしょう。私が判断できる限り、証拠はその方向を示しています。本当の強化学習の魔法は起こっていません。
AIを本当に解決したいと思っている人々にとっての強化学習の魅力は、私たちが明らかにそのようなことをしており、ドーパミン回路などの神経科学との対応もあるということです。問題は、人々が多くの努力にもかかわらず、失望するほどそれを本当に機能させることに成功したことがないということです。
それは次のことに帰着します：報酬が遅延し、まばらであれば、報酬があまり遅延せず、まばらでなければ、教師あり学習を使用できます。それははるかに簡単です。しかし、報酬が本当に遅延し、まばらであれば、それは機能しません。これまでのところ、私たちはその問題を本当に解決していません。
しかし、その間にここ数年で、強化学習はただセクシーな用語になり、あなたのものを強化学習と呼ぶと、DeepSeekでも起こったように、自分自身にとってさえもより印象的に聞こえるようになりました。
残り数分しかありません。ここからどこに行くべきでしょうか？
その質問を次のように考えましょう：ニューラルネットワークコミュニティはここからどこに向かうべきでしょうか？より少ないことについてより多くの研究をする人々がますます増えているのが見られます。ここから本当に向かうべき場所は、範囲を広げることだと思います。
例として、今、LSTMや再帰ネットワークが悪いアイデアではないことを示す論文があります。機械学習やAIで死んだと思われていた多くのものが戻ってくる傾向があります。ニューラルネットワークもその一つです。
来年までにこれらのことの一つがトランスフォーマーを追い落とすとしても、私は全く驚きません。あるいは、10年間停滞するかもしれません。誰にもわかりません。しかし、多くの人々が多くのことをすべきだと思います。本当に千の花を咲かせるべきです。現在は基本的に一つの花が咲いているか、一つの花の一つの花びらが咲いているだけで、それはあまり健全ではありません。
その現象は、教師あり学習のビジョンフェーズでみんなが一つの狭い側面に集中し、ベイジアンなどを忘れていることについて話しましたが、それは資金の問題ですね？
資金は大きな部分です。実際、ミンスキーとパパートは公に認めています。彼らがニューラルネットワークを一時的に殺した本を書いた主な理由は、DARPAがAI研究の大きな資金提供者だったからです。歴史的に最大の資金提供者であり、AIが最終的に実現したとき、産業が引き継ぐまで支援し続けたDARPAには、誰よりも感謝すべきです。
彼らはニューラルネットワークがとてもセクシーで、すべてのDARPA資金を得ていることに嫉妬し、シンボリックAIが十分に得ていないと感じていました。「これらの人々を排除しなければならない」と彼らは言い、そして彼らはそうしました。資金は常に問題です。
特に研究や産業では、現象は少し異なります。DARPAは長い間その後、私が研究者になった時、DARPAは多くの機械学習研究に資金を提供していませんでした。なぜなら、分野内およびDARPAプログラム間の共通認識は「機械学習は時間の無駄だ」というものだったからです。その間に機械学習は普及し始め、DARPAはまだ目覚めていませんでした。最終的に彼らは2000年代に目覚め、機械学習に入り始めました。
資金提供者自身が、産業であれ学界であれ資金提供機関であれ、この種の群れ行動に非常に傾いています。それはベンチャーキャピタリスト（VC）のようなものです。VCは異なるものを探すべきですが、結局彼らは皆同じものを探しています。
そこには一種の勾配降下法があります。ニューラルネットワークがする最適値を探すものですが、シミュレーテッド・アニーリングと呼ばれる方法があり、実際にノイズを注入します。これは悪いことのように思えますが、ノイズは実際に局所的な最小値にまっすぐ行かず、より深いものを見つけるのに役立ちます。AI研究にはもっとシミュレーテッド・アニーリングが必要です。
人材が必要なときは、迅速に採用したいものです。待てば待つほど、市場も自社のニーズも変化します。例えば、昨日から誰かを雇う必要があると気付いたとしましょう。どうすれば迅速に適切な候補者を見つけられるでしょうか？Indeedを使いましょう。採用に関しては、Indeedがあれば十分です。
他の求人サイトで求人を目立たせるのに苦労する必要はありません。Indeedのスポンサー求人は、目立ちながら迅速な採用を可能にします。スポンサー求人を利用すると、あなたの求人がページの上位に表示され、関連する候補者にアピールできるため、望む人材により早くリーチできます。大きな違いを生み出します。
Indeedのデータによると、Indeedに直接掲載されたスポンサー求人は、非スポンサー求人と比べて45%多くの応募を集めています。Indeedの素晴らしい点は、採用プロセスを非常に迅速にできることです。以前は候補者を探すのに何ヶ月もかかりました。特に口コミだけに頼っていた時はそうでした。当時はIndeedがありませんでした。
Indeedのスポンサー求人には月額料金も長期契約もなく、成果に対してのみ支払います。Indeedはどれほど速いでしょうか？私がお話ししているこの1分間で、Indeedのデータによると世界中で23件の採用が行われています。これ以上待つ必要はありません。Indeedで今すぐ採用を加速させましょう。
このショーのリスナーは、indeed.com/ionaiで$75のスポンサー求人クレジットを獲得して、求人の可視性を高めることができます。just go to indeed.com/ionai、つまりindeed.com、I、O、N、A、Iです。今すぐアクセスして、Indeedについてこのポッドキャストで知ったとお伝えください。indeed.com/ionai。利用規約が適用されます。採用には、Indeedがあれば十分です。