ジェフリー・ヒントン教授による2025年マーティン記念講演 — ボルツマン・マシン

36,425 文字

The 2025 Martin Lecture featuring Geoffrey Hinton — Boltzmann Machines

Recorded February 25, 2025. In his talk “Boltzmann Machines: Statistical Physics meets Neural Networks,” 2024 Nobel Laur...

こんばんは、皆さん。今晩はお集まりいただきありがとうございます。私はメラニー・ウーディンと申しまして、ここトロント大学の芸術科学学部の学部長を務めさせていただいております。始める前に、トロント大学が位置するこの土地について触れさせてください。何千年もの間、この地はヒューロン＝ウェンダット族、セネカ族、そしてミシサガ族のクレジット・ファースト・ネーションの伝統的な土地でした。今日もなお、この集いの場所はタートル・アイランド全土から多くの先住民の人々の故郷であり、私たちはこの土地で仕事ができることに感謝しています。
物理学におけるマーティン記念講演2025年度へようこそ。このマーティン記念講演は、マーティン家とその芸術科学学部およびトロント大学への並外れた寛大さを称えるために創設されました。トロント大学とこれほど深く、広範なつながりを持つ家族は他にないと思います。1800年代後半から、マーティン家の親族約60名がここで学んでおり、メアリーとロン・マーティンの4人の子どもたちと6人の孫たちも全員が卒業生です。今日はマーティン家の多くの方々がここにいらっしゃっていることを大変嬉しく思います。卒業生の方々も含めて。
また、同僚のピーター・マーティン教授がここにいらっしゃるのも素晴らしいことです。カナダ理論天体物理学研究所の教授であり、長年にわたる公式・非公式のリーダーシップに感謝しています。メアリーとロナルド・マーティン大学院奨学金は、教育の力を強く信じていたメアリーとロン・マーティンからの寛大な遺贈によって設立されました。そのことに私たちは本当に感謝しています。
本当に様々な面で感銘を与えてくれる家族です。彼らが設立した奨学金は、カナダ全土と世界中から最も有望な大学院生を惹きつけるのに役立っています。これらの奨学金は毎年、物理学、天文学と天体物理学、生態学と進化生物学、そして公共政策という4つの分野のトップクラスの大学院生に授与されています。これらはメアリーとロンの4人の子どもたちの専門分野です。
それに伴い、毎年のマーティン記念講演はこの4つの学部に焦点を当てて順番に行われ、今日の最も関連性のある魅力的な問題を探求する説得力のある講演を提供するよう努めています。そして今夜も例外ではなく、ノーベル賞受賞者のジェフリー・ヒントン教授をお迎えしています。
ご存知の通り、ヒントン教授は最近、物理学を用いた人工ニューラルネットワークのトレーニングによって、一部ノーベル賞を受賞されました。今夜は本当に素晴らしい機会です。そして人工知能の初期の頃についての今夜の考察は、私たちがまだ垣間見ることしかできない将来の発見への道を開く新しい質問やアイデアを刺激するでしょう。
それでは、同僚の物理学部長ポール・クシュナー教授に講演者の紹介をお願いします。ポール、お願いします。
ウーディン学部長、ありがとうございます。今夜の基調講演者である名誉大学教授のジェフリー・ヒントン博士を紹介できることは本当に光栄です。ヒントン博士の人工知能と認知科学にわたるアイデアの豊かな探求は、英国王立協会とカナダ王立協会のフェロー、カナダ勲章の受章、ACMチューリング賞など、信じられないほど多くの称賛をもたらしました。
しかし、今夜のマーティン記念講演は、ヒントン教授の業績と物理学という学問分野とのつながりを、特に彼が物理学の分野における最高の栄誉である2024年ノーベル賞を受賞したという設定で祝い、探求する絶好の機会です。彼はこの栄誉を、認知科学のツールとして統計物理学を使用したことで、ジョン・ホップフィールド博士とともに受賞しました。ヒントン博士と同僚は統計物理学を使用して、人工ニューラルネットワークの多くの部分が体系的に組織化され接続されていれば、データセット内のパターンを認識して再現するために使用できることを発見しました。これは神経科学からの概念的枠組み、化学、そして数学、工学、コンピュータサイエンスの主要な進歩とともに、今日の人工知能の革命へとつながりました。
現在最先端では、素粒子や原子物理系、新しい材料、そして無数の生物学的、化学的、環境的なシステムの分析に使用される現代の統計物理学が、AI自体のより深い理解につながり、AIのさらなる進歩を促進しています。ウーディン教授が指摘したように、トロント大学の物理学における研究環境は、統計物理学とAIの間の多くのつながりについてさらに発見するのに絶好の位置にあります。
このことを念頭に置いて、ヒントン教授が物理学と機械学習の交差点について語ってくださるのを楽しみにしています。彼が始める前に、物理学部全体を代表して、ヒントン博士の功績を、非常に小さな方法ではありますが、物理学部の大学院教員への名誉職を提供することで認めたいと思います。
ヒントン博士はこの任命を優雅に受け入れてくださいました。これは管理業務が全くないことを保証しています。またかわいいフレームもお見せします。講演後、物理学部の新しい同僚であるヨナタン・ヨニ・カーン博士を招いて、ヒントン教授と暖炉の前での対談を行います。そこでボルツマン・マシン、物理学、AIの間のつながりをさらに探求する予定です。ヒントン博士の基調講演の後でカーン教授の紹介をします。
それでは、今年の物理学マーティン記念講演者、ジェフリー・ヒントンをご紹介します。
申し上げておくと、かつて統計学の兼任教授に任命されましたが、「統計学を知らない」という理由で断りました。一貫性があれば今回もお断りするべきですが、一貫していませんので。
1980年代、私は2つの異なる学習手順に取り組みました。そしてこの2つの手順については、少し恥ずかしい点があります。一つは非常に興味深いものでしたが、もう一つは実際に機能しました。
まずは実際に機能した方から話し始めます。それは微分の連鎖律を愚直に適用しただけのものですが、約20分ほどこれについて話します。なぜなら実際に機能し、現在のAI、現在のディープラーニングとAIの基礎となっているからです。そしてその分野で私たちが行ったいくつかのことについて話します。実際に何が機能したかを正直に伝えるためにそれをする必要があると感じています。
その後、もう一つの学習手順について話します。こちらの方がはるかに興味深く、統計物理学を使用しており、実際にはあまりうまく機能しませんでしたが、非常に興味深いものです。では始めましょう。
AIの歴史において、1950年代に遡る2つのアプローチがありました。一つは論理に触発されたアプローチで、その考え方は、知性の本質は推論であり、推論がどのように機能するかを研究する必要があるということ、そして推論は記号表現を操作することによって行われるというものでした。もう一つのアプローチはニューラルネットで、その考え方は、知性の本質はニューラルネットにおける接続強度の学習であり、脳がどのように学習するかを理解するまで推論については心配しなくてもよいというものでした。
チューリングとフォン・ノイマンは両方とも2番目のアプローチを信じていましたが、彼らは若くして亡くなりました。そのため、最初のアプローチが50年間支配的でした。ニューラルネットワークとは何かを、もしご存じない方のために簡単に説明します。ニューロンの層があり、それらは比較的単純なデバイスです。実際のニューロンは非常に複雑ですが、私たちは大幅な簡略化をしています。その意味では、私は物理学者のようなものです。細部をすべて無視します。物理学者は馬を球体として扱うのが好きです。
これらのニューロンの複数の層があり、ニューロン間に接続があり、接続強度を学習したいと考えています。それによって何かを入力すると、正しいものが出力されるようにします。通常、入力するのは画像のピクセルであり、画像内のオブジェクトのカテゴリ、つまり画像のラベルが出力されます。
ニューラルネットワークは次のような方法で学習できることは誰にでも理解できます。接続強度の一つを選んで少し変更し、全体がより良くなるか悪くなるかを確認します。それは一種の突然変異の方法です。確かにそれは機能しますが、膨大な時間がかかります。現在では、ニューラルネットワークは1兆の重みを持っています。ですから、1つの重みを選び、少し変更し、物事がより良くなるかどうかを確認するということを1兆回異なる時間に行わなければなりません。
そして物事がより良くなるかどうかを確認するためには、多くの例を与える必要があります。なぜなら、いくつかの例では良くなっても、他の例では悪くなる可能性があるからです。ですからこれはどうしようもなく遅いです。バックプロパゲーションは本質的に同じことを行いますが、すべての重みについて同時に、それを少し増やすか減らすかが性能を向上させるかどうかを計算します。
バックプロパゲーションでは、ネットワークを通じて信号を前方に送り、得られたものと望むものとの差を見て、そして信号を後方に送ります。これを行い、微分の連鎖律を使用することで、すべての接続について同時に、それを増やすべきか減らすべきかを少し判断でき、それが行うことです。
驚くべきことに、多くの人々の驚きに、それは非常にうまく機能します。多くのデータと非常に高速なコンピュータがあれば、非常にうまく機能します。2012年、私の研究室の2人の学生、イリヤ・サツケヴァーとアレックス・クリジェフスキーが、物体を認識できるシステムを作りました。サツケヴァーはご存知かもしれませんが、最近会社を立ち上げ、何も生産していないにもかかわらず、現在300億ドルの価値があります。学部長にコンタクトを取ることをお勧めします。
クリジェフスキーは素晴らしいプログラマーでした。彼らは標準的なコンピュータビジョンよりもはるかに優れた物体認識システムを作りました。標準的なコンピュータビジョンのエラー率のほぼ半分を実現しました。それがニューラルネットワークの門戸を開きました。人々はすでにそれを使用していました、特に音声において。しかし、このネットワークのパフォーマンスは、それらが実際に機能し、実際の画像で機能することを明確にしました。そしてコンピュータビジョンに携わるすべての人々が次の1年ほどでニューラルネットワークの使用に切り替えました。
数年前、ニューラルネットワークに関する論文はコンピュータビジョンの会議で日常的に拒否されていました。なぜならみんながすでにこの物が無意味だと知っていたからです。そして数年後、ほとんどすべての論文がニューラルネットワークに関するものになりました。それは大きな影響を与え、少なくとも私の研究室の学生によって行われたことです。だから私はそれに対して多くの功績を得ることになります。
実際、コンピュータ博物館から、AlexNetの展示があるのですが、彼らのために引用を提供できるかと尋ねられました。そこでアレックスとイリヤと一緒に同意した引用は…「それはイリヤのアイデアで、アレックスがそれを機能させ、私がノーベル賞を受賞した」というものでした。
では、言語についてはどうでしょうか？記号的AIの多くの人々はこのようなものは言語には決して機能しないと言いました。それはまったく異なるものだ、と。私のウェブページを見れば、彼らがそれは言語には決して機能しないと述べる引用を見つけることができます。また、GPT-4がこれらの人々に彼らの引用の何が間違っていたかを説明しているのも見ることができます。それは面白いです。
チョムスキーという言語学者がいましたが、ご存知かもしれません。彼はある種のカルト的存在です。彼は言語は学習されないと人々を説得することに成功しました。言語が学習されることは明らかです。オバマの集会のほうが大きかったことが明らかなのと同じように。しかし、もし言語が学習されないと人々を説得できれば、あなたは彼らを捕らえたことになります。そして数世代の言語学者が言語は学習されないと確信しています。
チョムスキーは意味の理論を持っていませんでした。彼の理論はすべて構文に関するものです。彼はもちろん、このすべての物事は完全なナンセンスだと考えています。たとえ現在それが彼と相当良い議論ができるとしても、それは本当に何も理解していないと彼はまだ思っています。だから言語学者たちは、単にデータを使用して構文と意味論を学習する大きなニューラルネットワークという考えは完全に馬鹿げていて、決して機能しないと考えていました。
そして長年の間、それは実際に機能しませんでした。しかし最終的に、大きなネットワークで、非常にうまく機能しました。そしてそれが大規模言語モデルで見ることができるものです。これらの大規模言語モデルの起源と意味が何であるかについて少し話したいと思います。
単語の意味に関する2つの非常に異なる理論があります。一つの理論は、単語の意味は他の単語とどのように関連しているかによって決まるというものです。複数の単語を含む文章のセットがあれば、他の単語とどのように分布しているかがその意味を決定します。これはデ・ソシュールからの理論で、100年以上前のものであり、基本的に記号的AIの人々が信じていることです。そして意味を捉えるためには、関係グラフのようなものが必要かもしれません。
もう一つの理論は心理学者からのもので、単語の意味は特徴の大きな集まりだというものです。火曜日には特徴の巨大な集まりがあり、水曜日にも特徴の巨大な集まりがあり、それらはかなり似ている特徴の集まりです。これら2つの理論は非常に異なるように聞こえます。しかし1985年に、バックプロパゲーションが実際に機能することを人々に納得させるために、私はこれら2つの理論を統一する小さな言語モデルを開発しました。
その考え方は、単語の特徴を使用して単語列の次の単語の特徴を予測し、次の単語の特徴からその単語を予測するというものです。しかしシステム内に実際に保存されるのは、単語を特徴に変換する方法と、コンテキスト内の単語の特徴が次の単語の特徴を予測するためにどのように相互作用すべきかだけです。実際には単語の文字列は保存しません。
記号的AIの人々は、あなたの頭の中に単語の文字列や記号の文字列を保存し、それらを規則で操作して他の記号の文字列を得ると考えていました。これは意味が何であるかについての完全に異なる考え方です。あなたは単語を特徴の集まりに変換します。あなたは特徴が他の単語の特徴とどのように相互作用して次の単語の特徴を予測するかを知っています。そして意味とは、単語の文字列を取り、それらの単語を適切な特徴に変換することです。そしてそれは難しいかもしれません。
「may」のような単語があるかもしれません。それは月、女性の名前、または法助動詞である可能性があり、mayのどの特徴を使用するかを決定するために隣接する単語との相互作用を使用する必要があります。しかし本質的に、現在ある大規模言語モデルの動作方法は、単語、実際には単語の断片を取り、それらを特徴ベクトルに変換することです。
その後、それらの特徴ベクトルを洗練するための多くの層があり、曖昧さを解消するために相互作用を行います。そして次の単語の特徴を予測します。それらの特徴から、次の単語を予測できます。そして、それらは小さな言語モデルと同じように機能しますが、はるかに大きく、特徴が相互作用する方法ははるかに洗練されています。
私が行ったことなので、何年も前の小さな言語モデルをお見せします。それは理解するのが非常に簡単だからです。大規模言語モデルでは、それらがどのように知識を表現しているかを理解するのは難しいです。小さな言語モデルでは、どのように知識を表現しているかを簡単に見ることができます。
私は関係知識、2つの家系図を取り、息子、娘、甥、姪などの関係を使用すれば、それらの家系図の情報を3つの単語の文字列、つまり3つ組の単語に変換できます。「コリンは父親としてジェームズを持っている」のような3つの単語の文字列を持つことができます。そしてそれらの文字列から、いくつかの文字列を学習すれば、他の文字列を予測できます。これを一般化と呼びます。
論理における人々のやり方は、このようなルールを持たなければならないということです。例えば、XがYを母親として持ち、YがZを夫として持っているならば、XはZを父親として持つ、またはその逆というルールが必要です。そして彼らは、それらのルールを検索すべきだと考えていました。
これは離散的なルールがあり、物事が常に非常に確実である場合には良いです。データにいくつかの例外や不確実性、エラーがあるとすぐに、離散的なルールを検索することははるかに難しくなります。そして考え方は、連続空間を検索することによって、ニューラルネットワークに同じルールを見つけさせるというものでした。
コンピュータサイエンスにおける連続と離散について興味深いことがあります。長い間、コンピュータサイエンティストは自分たちを実数に興味がないと定義していました。彼らはグラフのような離散的なものにしか興味がなかったのです。なぜなら彼らは本物のコンピュータサイエンティストだからです。そして数学者は彼らに、実際には離散的なことをしたいとしても、実数を使うこと、離散構造を理解するために大きな行列を使うことは良いアイデアだと説明しました。
ニューラルネットワークについてのポイントは、それらは実数を使用し、その空間で検索するということです。そしてその空間での検索ははるかに簡単です。私はこのようなネットワークを使用しました。二つの入力、人物と関係があります。それらを特徴に変換します。実際には各々に対してわずか6つの特徴だけです。なぜなら現在持っているコンピュータより数十億倍遅いコンピュータだったからです。これは1985年のことでした。
そして単語の特徴を取り、それらが相互作用し、次の単語の特徴を予測します。そして全体は出力からの誤差を単純にバックプロパゲートすることによってトレーニングされます。信号を後方に送り、それがシンボルを特徴ベクトルに変換し、これらの特徴ベクトルを相互作用させる接続強度をどのように変更すべきかを教えてくれます。
そして意味をなす興味深い特徴を学習しました。だからそれがどのように機能したかを見ることができました。例えば、人々について考えると、これら2つの家系図について考えると、これらは1950年代の家系図でした。離婚はなく、養子もなく、何も変わったことはなく、本当に非常に単純なアメリカの1950年代の家族でした。例えば、イタリア人はイタリア人としか結婚しませんでした。
だから入力の人物の国籍を知っていれば、回答の国籍がわかります。だからシンボルを特徴に変換するとき、国籍を特徴の一つとすることは非常に良いアイデアです。これはトレーニングデータに明示的ではありませんが、イタリア人はイタリア人としか結婚しないという強い規則性があります。
ですから国籍の特徴を学習します。また、世代のような特徴も学習します。関係については、例えば回答は入力よりも一世代上であるべきだというような特徴を学習します。誰かの叔父を探しているなら、それは彼らよりも一世代上であるべきです。そして関係について、いくつかの関係では一世代上である必要があり、入力の人物の世代を抽出することを学習したため、出力の人物の世代を予測することができます。
ですから正しい出力の人物に到達する方法は、出力の人物の特徴の束を予測することです。彼らの国籍や世代、そして家系図のどの枝に属しているかなど、そこからその人物を予測できます。ですから実際に機能しました。当時はあまり影響を与えませんでした。
私はこれが素晴らしいと思いました。なぜなら心理学者の意味の理論、つまり特徴の大きな束を、構造主義者の意味の理論と統一することに成功したからです。特徴を使って配列を生成し、配列を使って特徴を学習することで、配列から特徴へ、そして特徴から配列へと移動できるようになったのです。しかし記号的AI人々はあまり興味を示しませんでした。
しかし時間とともに、人々はますます興味を持つようになりました。そしてまだ腹を立てている評価を受けました。すべての科学者には本当に腹を立てている評価が何かしらあります。2007年に評価を受けましたが、単語を特徴に変換し、その特徴を相互作用させることについて話していて、その評価にはこのように書かれていました。「ヒントンは長年この物事をやっているが、誰も興味を持っていない。もう先に進む時だ」と。これは2007年のことで、すでに機能し始めていた頃です。
では、意味がどのように機能するか、単語がどのように意味を与えるかの類推を試みて、このバックプロパゲーションに関する話を終えたいと思います。チョムスキーが本当に理解していなかったのは、物事のモデルを持つ必要があるということです。そして単語はモデルを構築する特定の方法です。実際、それらは統計学者が持っているどのようなものよりもはるかに優れたモデル構築方法です。なぜならそれらで非常に洗練されたモデルを作ることができるからです。
次のように考えてみてください。3Dで物がどこにあるかを知りたいとします。例えばポルシェの形をモデル化したいとして、空気力学についてあまり心配していないので表面については気にしません。それをレゴブロックで作ることができます。レゴブロックでかなりよく近似できます。
単語はレゴブロックのようなものですが、いくつかの違いがあります。まず、約30,000種類の異なるタイプのレゴブロックがあります。それが一つの違いです。二つ目の違いは、それらは硬くなく、少し動くことができます。私が単語の名前を教えると、それは形を定義しますが、その形にはある程度の柔軟性があります。もちろん複数の代替形を定義するかもしれませんが、無限に変化するものではありません。単語は大まかな形を定義します。
単語はその後、他の単語と相互作用して個々の単語の形を決定し、それらは何らかの方法で一緒に適合する必要があると考えることができます。レゴブロックでは、小さなプラスチックの円筒が小さな円筒状の穴に入り、それらがカチッと一緒に組み合わさります。単語でそれを行う方法は、すべての単語に一連の手があり、単語の形を変えると、それらの手の形が変わり、単語は他の単語と握手しなければならず、どの単語と握手するかを決めなければなりません。そして、手の形が一致する他の単語と握手します。ですから、文の意味を得ることを考えると、これらの単語は多少柔軟な形を持ち、その形を変えると、握手する手の形もすべて変わります。あなたがしなければならないのは、それらがうまく組み合わさるようにどう変形するかを見つけることです。そしてそうすると、それらの形を変形してうまく組み合わさるとき、それが意味であり、それは物事をモデル化する方法です。
もう一つの違いがあります。これらの単語は3次元ではなく千次元のようなものですが、それについては大きく取り上げません。千次元空間について考える方法は、3次元空間を考えて「千」と言うだけです。物理学者もそうしていると思いますが、わかりません。4次元空間まではおそらく想像できるでしょう。11次元になると、彼らでも想像できないと思います。
これで講演の最初の部分は終わりです。バックプロパゲーションについて少し話しました。バックプロパゲーションで行った2つのことについて話しました。小さな言語モデルと画像内の物体の認識です。そしてそれらは両方ともバックプロパゲーションの使用の発展に非常に影響力がありました。それが今日あるニューラルネット、すべてを行うディープニューラルネットにつながりました。
バックプロパゲーションについての残念なことは、それを脳でどのように行うかを見るのが難しいということです。私は常に脳がそれをどのように行っているかに興味がありました。それはこれを行う目的の一つでした。では、脳がどのように学習するかのモデルとしてバックプロパゲーションはどうでしょうか？誰も神経学的に妥当なバックプロパゲーションを実装する良い方法を見つけていません。小さなシステムでは可能ですが、大きなシステムになるとすぐに、バックプロパゲーションと同じくらいうまく機能する脳のようなものを実装することができません。
皮質ニューロンは互いにバイナリ信号を送ります。バックプロパゲーションのように実数値を送りません。バックプロパゲーションの後方パスでは、画像を入力し、前進し、何かを認識します。それが何であるかを知っていれば、エラー信号を後方に送ることができます。しかし何があるかを知る必要があり、それはすでに問題です。
そしてこの信号を後方に送るとき、知覚のパイプラインを妨げています。私たちはリアルタイムで知覚を行います。物事は常に入ってきています。停止して物事を送り返したくはありません。それも問題です。ここ数年だけ知られるようになった問題ですが、バックプロパゲーションは脳よりもはるかに優れており、それが脳がものごとを行う方法ではないと考える理由です。
バックプロパゲーションは少数の接続に多くの情報を詰め込むのにはるかに優れています。これらの大規模言語モデルは約1兆の接続を持ち、最大のものは、あなたの脳は約100兆の接続を持っています。そのうち約10兆が知識に使用されていると仮定しましょう。それは不合理ではないように思えます。私たちは物理学者なので、桁単位で物事を処理します。だから少なくともその10分の1が物事を知るために使用されるでしょう。GPT-4のようなものは一人の人間よりも何千倍も多くのことを知っています。それらはあらゆることにおいてあまり優れていない専門家のようなものです。
ですから、バックプロパゲーションは実際に接続に多くの情報を詰め込むことにおいて、脳に存在するものよりもはるかに優れています。おそらく脳は非常に異なる問題を解決しているからです。私たちの問題は、100兆のような多くの接続を持っていますが、あまり長く生きていません。約20億秒しか生きていません。幸いにも20億よりも少し多いですが、約20億です。ですから多くの経験を得ませんが、多くの接続があります。
これらの大規模言語モデルでは、彼らは膨大な量の経験を持ち、あまり多くの接続を持っていません。ですからバックプロパゲーションは、多くのデータと少ない接続がある場合に良いです。私たちの脳がやっていることは何であれ、多くの接続と少ないデータがある場合に良いものであり、おそらくそれに最適化されています。
これは次の質問につながります。勾配を得るための完全に異なる方法があるかもしれません。システムをより良く機能させるためにどのように重みを変更すべきかの勾配、つまり重みに対するシステムが犯すエラーの勾配を得る方法で、バックプロパゲーションとはまったく異なるものがあるでしょうか？そうすれば、パイプラインを中断し続ける必要がなくなります。
実際にあります。そこで統計物理学が登場します。統計物理学からの少しの魔法を使って、非常に単純な学習手順があることを示します。それは実際に1949年頃の偉大なカナダの心理学者、ドナルド・ヘブが推奨した手順に非常に似ています。彼は「一緒に発火するニューロンは、一緒に配線する」と言いました。
ですから彼の学習アルゴリズムは、大まかに言って、2つのニューロンが一緒に活性化していれば、それらの接続の強度を増加させるというものでした。それは機能しません。ただそれだけを行うと、接続は強くなるだけです。彼は接続がどのように弱くなるかを言いませんでした。そして答えは、他のことも行う必要があり、そうするとそのアルゴリズムは機能します。
ホップフィールドネットと呼ばれるものの説明から始めます。想像できるように、ホップフィールドネットはジョン・ホップフィールドによって開発されました。それらはバイナリニューロンを使用します。ですから今度は実数値ではなく、オンまたはオフのいずれかのバイナリニューロンを持つことになります。ホップフィールドは実際には1と-1を使用しましたが、1と0を使用したかのように話します。
そしてそれは皮質ニューロンに合っています。皮質ニューロンは短い期間にスパイクを送るか送らないかのどちらかです。ですからこれらのバイナリニューロンがあり、それらの間に対称的な重みを持ちます。これは完全に非現実的です。しかし私たちは物理学者なので、それでいいのです。
対称的な重みとは何を意味するかというと、上にある2つのニューロンを取り上げると、左のニューロンが発火すると、右のニューロンにマイナス5の入力を送ります。同様に、右のニューロンが発火すると、左のニューロンにマイナス5の入力を送ります。
ですから重み付けされた接続があり、ホップフィールドネットでは重みは常に対称的です。ネットワークのグローバル状態、つまりネットワーク内のすべてのニューロンに1と0を割り当てて、それらが発火しているか発火していないかを示すものを、「構成」と呼びます。そして構成にはエネルギーがあります。
いくつかのマイナス記号を取り除くために、構成が良さを持っていると話しましょう。構成の良さは単純に、活性化されているすべてのニューロンペアについて、接続上の重みを合計するだけです。そこにある3つの活性化されたニューロンについて、重みを合計すると4になります。
ですからエネルギーはマイナス4、良さは4です。それは同じネットワークに異なる状態があり…そしてそれはローカルな最小値です。エネルギーを上げるか良さを下げずにニューロンを変更することはできません。しかしそのネットワークにはより大きな良さまたは低いエネルギーを持つ別の状態があります。もし同じネットワークでこれら3つのユニットをオンにすると、その段階のエネルギーはマイナス5、良さは5で、より良い最小値です。
ですからポイントは、このような小さなネットでさえ、2つの異なる最小値を持つことができることを示すことです。ホップフィールドはそれが記憶として使用できることを意味すると実現しました。
ですからこのようなネットに対する彼のモデルは、それを使用して記憶を保存し、そしてコンテンツアドレス可能な記憶を得るというものです。記憶の一部を与えると、このネットワークが落ち着くことでその残りを補完できます。記憶の一部を知るだけで記憶にアクセスできます。
彼がそれを行った80年代初めは、Googleの前でした。コンテンツアドレス可能なメモリは魔法のように思えるものでした。Googleが登場して大きな転置インデックスを作るとすぐに、コンテンツアドレス可能なメモリを簡単に行うことができるようになり、現在では私たちはそれに慣れています。しかしこれはニューラルネットワークでコンテンツアドレス可能なメモリを行う方法でした。
テリー・セイノフスキーと私はホップフィールドの講演に行き、ホップフィールドネットワークを完全に異なることに使用できることを理解しました。ホップフィールドネットワークを知覚的推論、つまり画像を見てその中にあるものを解釈するために使用できます。
その考え方は、2セットのニューロンを持つことです。画像内にあるものを表す入力ニューロンがあり、これらを目に見えるニューロンと呼びます。そして画像内にあるものの解釈を表す隠れたニューロンがあります。そしてシステム全体のエネルギーが解釈の悪さを表すようにしたいと考えています。
ですからこの全体のネットワークの低エネルギー状態を見つけることで、良い解釈を見つけています。ですから画像を見せると、目に見えるユニットの状態を固定しています。それがバイナリ画像だとしましょう。そうすると、いくつかのバイナリ画像を表すために目に見えるユニットの状態を固定し、その後、低エネルギー状態になるようにユニットの状態を繰り返し更新することで、ネットワークが落ち着くようにし、その入力の良い解釈を見つけたいと考えています。
それはいくつかの問題を提起します。例えばこちらです。あいまいな線画を与えるかもしれません。そしてネッカーキューブの2つの可能な解釈を説明しました。一つは他方とは異なる向きにあります。そして、まったく同じ入力画像が2つの非常に異なる解釈を持つことがあり、それらはほぼ同等に良いです。
左側のものは少し良いです。それは表面にうまく座ることができますが、もう一方は天井に接着する必要があります。しかしそれを除けば、ほぼ同様に良いです。そしてあなたの脳はこれらの両方を見ることができます。これは同じ画像に2つの異なる解釈を持つシステムの良い例です。
そして同じシステムの2つの異なるエネルギー最小値によってそれをモデル化することは良いように思えます。それでは、そのような画像の解釈を思いつくことができるシステムをどのように作ることができるでしょうか？まず第一に、画像は線から作られると考える必要があります。直線のある画像だけを使用します。そして直線が外界で何を描写しているのかを考える必要があります。
世界にオブジェクトのエッジがあり、あなととそのオブジェクトの間に窓があり、マーカーペンを使用してそのエッジを窓に描くと想像してください。そこで見ることができます。レーザーは機能しないと思います。窓にエッジを描き、引いた線のエッジの端を通る2つの視線があり、その線を与えたかもしれない多くの異なるエッジがあることがわかります。
そのエッジは2つの視線がその端を通過するため、画像にその線を与えたでしょう。しかしこのエッジ、またはこのエッジ、またはこのエッジもそうだったでしょう。そして、画像に同じ線を与える一連のエッジがあることがわかります。ですから情報を失っています。そして視覚的知覚のポイントは、その情報を取り戻すことであり、そのためにはいくつかの仮定を使用する必要があります。
これをニューラルネットに組み込むために、光学からただ知っているのは、一度に見ることができるのはこれらのエッジの一つだけだということです。そして画像内のその線はこれらのエッジの一つになることを知っていますが、どれかはわかりません。
あるネットワークを次のように配線できます。2次元の線を表すニューロンがあり、そのうちのいくつかを活性化して画像内の線を表すとします。そしてそれらの線のそれぞれについて、可能なエッジの一つだけが存在することを知っています。
そこで私たちがすることは、その線を与えた可能性のあるすべてのエッジを持ち、線はすべてのエッジを活性化しようとします。それらが緑の接続です。しかし同時に、それらのエッジはすべて互いに戦い合います。なぜならそれらはすべて同時に見ることができないエッジであり、互いに邪魔をするからです。
私たちが画像内のその線を見るときに本当に知っているのは、それらのエッジの一つが存在するということですが、どれかはわかりません。そして私たちのニューラルネットワークは、線がすべてのエッジを興奮させ、エッジがすべて互いに抑制し合うと言うことでそれを捉えようとします。抑制は非常に重要です。画像内の別のエッジについても同様です。
それで光学を取り入れました。しかし今、いくつかの仮定を取り入れましょう。コンピュータサイエンティストと物理学者を区別するために時々行うテストがあります。物理学者に次の問題を与えると、X + Y = 384、XとYは何ですか？物理学者は方程式についてあまり知らないと思い、その質問に答えることは不可能だと考えるでしょう。一方コンピュータサイエンティストは、XとYは256と128だと言いますが、どちらがXでどちらがYかはわからないと言います。
それはコンピュータサイエンティストの世界では、コンピュータの仕組みのために常に2のべき乗を扱っているからです。ですから384のような数値にとても馴染んでおり、384を見れば、それはおそらく128 + 256であると知っています。特にNVIDIA GPUをプログラムする場合はそうです。
ここでは同じトリックを使用します。画像内の線が表す3Dエッジを知ることは基本的に不可能ですが、世界が通常どのようになっているかについての仮定を使用でき、それは合理的な解釈を思いつくのに大いに役立ちます。私たちが行うことは、画像内で2つの線が画像内で結合している場合、それらはおそらく世界内の深さでも結合していると言うことです。
それである必要はありません。私の観点からすると、私の目がちょうど並んで見えるけれども実際には結合していない2つの線のようなものを持つことができますが、そのためには非常に特別な視点を持つ必要があります。したがって、画像内で2つの線が結合しているのを見た場合、それらは線が結合する点で深さで実際に結合しているエッジに対応するという非常に良い仮定です。
そこで、深さで結合する、つまり線が結合する点で深さで結合するが、異なる線に対応する3Dエッジを取り、それらが互いに支持し合うべきだと言うことができます。なぜならそれらは深さで結合するからです。
もしそれらが直角で深さで結合する場合、それらが互いにたくさん支持し合うと言うことができます。なぜなら私たちがいるこの小さな世界では、他のものよりも直角を見ることが多い傾向があります。実際これは心理学的にはとても悪い部分です。なぜ直角を好むという考えが正しくないかを説明するのは全く別の講義になるでしょう。私たちが実際に好むのは、物体に課した長方形の座標系に一致するエッジです。
もし二つのエッジのような、長方形の座標系がこのように、そして座標系がそのようなエッジに合わない場合、これが直角かどうかわかりません。あなたが興味を持っているのは座標フレームとの一致だけであり、実際は直角には興味がありません。でも、とにかく。間違った心理学を言いたくないのでこれを入れなければなりませんでした。
さて、解釈を行うためのすべての必要なものが揃いました。2次元の線があります。それらが私たちの入力、つまり目に見えるニューロンです。各2D線がどのようなエッジになる可能性があるかを知っており、エッジがどのように最も妥当に一緒に収まるべきかを知っています。
ですから今やるべきことは検索問題を解決することです。目に見えるニューロンの状態を取り、システムの低エネルギー状態の構成を検索したいのです。しかし問題があります。局所的な最小値に閉じ込められる可能性があり、単にエネルギーを下げていき、ニューロンを更新してエネルギーを下げ、局所的な最小値に到達するよりも良くできるでしょうか？
実際、それよりもずっと良くできることがわかっています。そしてそれはノイズのあるニューロンを使用することで行います。そして検索のためにノイズのあるニューロンを使用すると、魔法が起こり、非常に単純な学習手順が得られますが、それについてはまた後で説明します。
ホップフィールドネットでは、エネルギーは実際にはバイナリ物のハイパーキューブの角である構成のエネルギーです。しかし一次元のものであるかのように描きます。風景を想像し、ネットワークの状態はその風景上の小さなボールであり、ニューロンの状態を変更すると、その風景上を移動しています。ホップフィールドネットの更新ルールはエネルギーを下げる状態に移動することを示しています。
局所的な最小値に閉じ込められると、より深い最小値Bに入ることができなくなります。ホップフィールドの更新ルールは、ニューロンへの総入力が正の場合はオンにし、負の場合はオフにするというものです。それは上部の正方形関数です。
しかし、ニューロンにノイズを導入するとどうなるでしょうか？決定規則にジッターを導入するか、物理学者が温度と呼ぶものを導入すると、時には総入力が負の場合でもオンにし、時には総入力が正の場合でもオンにしないという決定規則を持つことができます。
もちろん一般的に入力が正の場合はオンにします。しかしそれが小さな正の入力の場合、おそらく半分以上の時間だけオンにします。それがその決定規則です。そしてそのグラフはニューロンがオンになる確率を示していることに注意してください。これらのニューロンはまだバイナリニューロンです。実数値を持っていませんが、オンになる確率はそのような決定規則によって支配されています。
そのようなニューロンを使用すると、高いエネルギー状態にジャンプできます。そのため、このエネルギー表面上のボールベアリングはその障壁を飛び越えて、より低いエネルギー状態に到達できます。また戻ってジャンプする可能性もありますが、そちら側からのエネルギー障壁が高いため、戻る可能性は低くなります。
バイナリ画像を解釈する方法は、バイナリ画像を目に見えるユニットに固定し、この確率的決定規則を使用してニューロンを更新することです。物理学者にとっては、温度1を使用します。隠れたニューロンを選び、それが受け取る総入力を計算し、それをオンにするかオフにするかを確率的に決定します。入力が正の場合はおそらくオンにしますが、時にはオフにします。
これを隠れたニューロンで続けます。それは単に下り坂に行くよりも優れた結果をもたらします。それは通常、より深いエネルギー最小値の一つに到達します。十分に長く続けると、熱平衡と呼ばれる状態に達します。
物理学者でない人は、熱平衡とは物事がある特定の状態に落ち着いたことを意味すると考えますが、それはまったくそういう意味ではありません。それは統計学者が定常分布と呼ぶものです。それは、ニューロンが状態を変更しているとしても、特定の状態でシステム全体を見つける確率が安定したことを意味します。
それを考える最良の方法は、すべて同一の無数のニューラルネットワークがあり、それらすべてが同一の入力を持ち、同じ状態から始めると想像することですが、その後、各ニューラルネットワークは隠れたユニットをオンにするかオフにするかについて独自の確率的決定を行います。
ネットワークのすべての可能なバイナリ状態を取ると、始めた時には全てのシステムが同じ状態にあると想像できます。もしこれらの異なるバイナリ状態がどれだけ占められているかのヒストグラムを作成すると、すべてのシステムは最初の状態にあり、他の状態にはありません。しかし、この決定規則を実行し続けると、徐々にシステムは他の構成を採用します。
しばらく実行した後、低エネルギー構成には多くのシステムがあり、高エネルギー構成にはより少ないシステムがあり、非常に高エネルギー構成には非常に少ないシステムがあるというヒストグラムができます。一つのシステムが構成間をジャンプしたとしても、十分なシステムがあれば、ヒストグラムは固定されたままです。
それが熱平衡です。個々のシステムがあちこちにジャンプしていても、ヒストグラムが固定された状態です。そしてその固定されたヒストグラムの素晴らしい点は、特定の構成にあるシステムの数、または特定の構成にある確率が、他の構成のエネルギーに対するその構成のエネルギーにのみ依存するという非常に良い特性を持っていることです。それは歴史にまったく依存しません。どこから始まったかを忘れるまで十分に長く実行する必要があり、その後、状態、構成にある確率が他のすべての構成のエネルギーに対するその構成のエネルギーにのみ依存するという素晴らしい保証が得られます。
これをどのように学習に使用するかについては後で説明します。それがボルツマン・マシンの素晴らしい点だからです。今は、この線画に戻りましょう。私たちが望むのは、これを手動で配線する必要がないことです。すべての接続強度を学習してほしいと思います。
線画を表す目に見えるユニットをいくつか与え、ランダムな接続を持つ隠れたユニットのプールを与え、それがすべてその構造を学習してほしいと思います。実際にはその構造を学習しません。そのような構造を入れましたが、それは理解しやすいからです。もっと洗練された構造を学習しますが、同じ仕事をします。線画を解釈できるようになります。
そこで質問は、多くの線画を見るだけで、どのようにしてすべてその構造を学習できるかということです。それは非常に信じられないように思えます。特に隠れたユニット間の重みを学習するのは非常に信じられないように思えます。3Dで結合するという接続があります。それはすべての接続を学習する必要があります。しかしデータを見るだけでそれらをすべて学習する方法は全く明らかではありません。
実は非常に非常に単純な学習ルールがあります。すでに熱平衡について説明しました。既に自分自身を追い越してしまったようですね、スライドが見えなかったので。
では考えてみましょう。システムがあり、すでに重みを入れています。手動で入れたとします。バイナリ画像を解釈して3Dエッジを表す隠れユニットの状態を選択するのではなく、別のことをさせます。
線画、つまり線の画像を生成させます。その方法は、システム全体をある無作為の状態から始め、ランダムにニューロンを選択して更新し、それを続け、しばらくすると熱平衡に達し、そして線のニューロンが何をしているかを確認します。
そこで、重みを学習する際の目標を考えることができます。四角形のオブジェクトの線画をたくさん見せたら、私の目標は、ネットワークをある無作為の状態から始め、一度に一つずつユニットを更新するだけで、熱平衡に達したときに目に見えるユニットを見ると、それが私が見せた線画の一つのように見えるような重みを見つけることです。
言い換えれば、それは線画がどのように見えるかのモデルを持つことになります。なぜなら、それを無作為の状態に置き、もっともらしいと思うものに落ち着くように言うと、線画を思いつくからです。もちろん、このネットワークにとって「もっともらしい」とは、低エネルギー状態を意味します。エネルギーが低いほど、物事はネットワークにとってよりもっともらしくなります。
ネットワークに正しい重みがあれば、データを生成する方法があり、データを解釈する方法もあります。データを生成するには、すべてのユニットを更新し、目に見えるユニットが何をしているかを確認するだけです。データを解釈するには、目に見えるユニットを固定し、隠れたユニットを更新し、隠れたユニットの解釈を見ます。
それが生成です。そして学習の目的は、ネットワークが生成するとき、実際のものに似たものを生成することです。このネットワークでの生成は夢見ることと考えることができます。実際、フランシス・クリックは、夢を見るときに起こっていることは、ニューラルネットワークが何かを生成していることだと推測しました。
彼はまた、その物を取り除くためにネットワークが何かを生成していると推測しました。見ていくと、この学習ルールは彼の推測に完全に合致します。このように学習する考え、見ているものと似た画像を生成する生成モデルで学習するという考えの目的は、画像を生成することではないかもしれません。
学習中に生成を行いますが、あなたの本当の目的は、画像で何が起こっているかを説明するこれらの隠れた変数を得ることかもしれません。知覚を行っている場合、画像内の2D線よりも、世界の3D辺の方により興味があります。この生成を行う意味は学習を行うためであり、学習の意味は入力にない変数、つまり入力を説明するために作り出したこれらの変数を得ることです。
非常に楽観的なアプローチですが、理論的には非常にうまく機能し、実際にはそれほど機能しません。ランダムな重みを持つ多くの隠れニューロンを持つニューラルネットから始め、目に見えるニューロンの状態であるデータがあり、これらの線画、これらの画像を見せ続け、ネットワーク自体が画像を解釈するすべての隠れた構造を学習するようにし、素晴らしい単純な学習モデルでそれを行いたいと考えています。
これが統計物理学とニューラルネットが出会う場所であり、そこには美しい相乗効果があります。2つのフェーズを持ちます。それらを覚醒フェーズと睡眠フェーズと呼びます。覚醒フェーズでは、画像を入れ、熱平衡に落ち着くまで隠れたユニットを更新し、そしてヘブのルールを使用します。
すべてのユニットのペア、すべての接続されたユニットのペアが同時にオンになっている場合、接続強度を少し増加させます。これはまさにドナルド・ヘブが提案したルールです。その時間的側面は無視しています。一緒に発火するものは一緒に配線します。それだけです。非常に単純なルールです。
バックプロパゲーションのようなものは何も起こっていません。そして睡眠フェーズでは、入力を与えません。入力をオフにして生成させます。今は画像を生成しています。そして2つのユニットが一緒にオンになるたびに、接続の強度を減少させます。それは反ヘブ学習ルールです。
それだけです。驚くべきことに、それら2つの単純なルールは正確に正しいことを行います。入力を与えているときに隠れたユニットを更新し、2つの隠れたユニット間、または目に見えるユニットと隠れたユニットの間の接続強度を、それらが一緒に発火するときに増加させます。そしてもう一つのルールは、眠りにつき、画像を生成し、熱平衡に達するまで隠れた目に見えるユニットを更新することによって画像を生成するというものです。
これら2つのルールは期待値においてまさに正しいことを行います。ノイズがあるため「期待値において」と言わなければなりませんが、平均してそれらは正しいことを行います。ここで少しの数学を示します。結局のところ物理学の講義ですから。この時点であなたは考えたかもしれません…一般の人が理解できるように、意図的に数学を排除しました。一般の人はここで次の3枚のスライドを聞くのをやめても構いません。
このプロセスが達成することは、最大尤度学習手順です。モデルの重みを変更して、モデルがあなたが見たデータのようなデータを生成する可能性を最大化します。これはまさに今言ったことです。
数式を紹介する前に、なぜこの学習ルールがとても驚くべきものなのかを言っておきたいと思います。私のデータがこのチェーンの両端、つまりこれら2つの目に見えるユニットの2ビットだけで構成されていて、トレーニングデータがただ、0,1か1,0のどちらかを取得するだけだとします。つまり、これら2つのビットは互いに嫌い合っています。
一方がオンの時、もう一方はオフであるべきであり、その逆も同様です。しかし彼らの唯一のコミュニケーションはこの隠れたユニットのチェーンを介して行われ、システムをより良く機能させるためにW1をどのように変更すべきか知りたいと思います。2つの目に見えるユニットが互いをオフにする必要があるため、それらのすべての重み、W1×W2×W3×W4×W5の積はマイナスでなければなりません。
その積がマイナスなら、彼らは互いに抑制します。つまり、物事をより良く機能させるためにW1をどのように変更すべきかを知るには、W3の値を知る必要があります。バックプロパゲーションのようなことを行うと、ネットワークを通じて信号を後方に送ることでそれらの値を見つけます。しかしボルツマン・マシンでは、W1はどのようにW3を知るのでしょうか？システムをより良く機能させるために増加または減少すべきかを知るためには、W3について何かを知る必要があるからです。
答えは、他の重みについて知る必要があるすべてのことは、これら2つのフェーズで熱平衡に落ち着かせることによって伝えられるということです。すべてのことを言いました。はい、W1はW3について知る必要があります。今言ったばかりです。
では方程式です。画像Vを与え、目に見えるベクトル、そして質問します。ネットワークがデータを生成しているとき、Vをより確率的にするにはどのように重みを変更すべきか？このボルツマン・マシンが画像を生成しているとき、画像Vをより確率的にするにはどうすればよいか？
あるいは、特定の重み、ニューロンIとニューロンJ間の重みを変更して、この画像をより確率的にするにはどうすればよいか？答えは、2つの相関の差を見ることで正確な勾配を得るということです。これはモデル内の特定のトレーニングベクトルの対数確率のモデル内の重みの一つに対する導関数であり、それは2つの相関の差です。
最初のものは、目に見えるユニットにベクトルを固定しているとき、この場合、Vを目に見えるユニットに固定しているときの、2つのニューロンIとJの状態の積の期待値です。2番目の項は、システムが自由に実行されているとき、つまり夢を見ているときの、2つのユニットの状態の積の期待値です。
しかしそれらは熱平衡における期待値でなければならず、そうすれば勾配が得られます。これはバックプロパゲーションよりもはるかに良い勾配の取得方法です。ネットワークを通じて異なる種類の信号を送り返す必要はありません。進行中の処理を中断する必要もありません。
なぜなら、目覚めているときに勾配の半分を得て、眠っているときにもう半分を得るからです。そして重みを、覚醒時に2つのユニット間で測定する相関と、睡眠時に測定する相関の差によって変更するだけです。
もちろん、覚醒時には前夜の相関を覚えておき、現在の相関と前夜に推定した相関の差によって重みを変更することができます。そして問題は、なぜその導関数がそれほど単純なのかということです。
ネットワークの状態のエネルギーは、2つの活動の積に重みをかけただけです。ですから重みに関して微分すると、2つの活動の積だけが得られます。よって、エネルギーの重みに対する導関数は単に2つの活動の積です。
熱平衡において、状態の対数確率はエネルギーの線形関数です。だから生成時に目に見えるベクトルVを生成する確率は何かと尋ねると、上の行はVを目に見えるベクトルとして含むすべての可能な構成についてe^(-エネルギー)です。ですから、すべての可能な隠れた構成にわたって合計します。それがVを見つける確率です。
ネットワークの完全な構成の確率を計算する方法を知っていれば、目に見えるベクトルとしてVを持つものをすべて合計し、それがVを生成する確率です。それが上の行です。そして下の行はすべての可能な目に見えるベクトルの合計です。だから今度はネットワークのすべての可能な構成にわたって合計しています。これが物理学者が分配関数と呼ぶものです。
それを微分することを考えると、PVを増加させたい場合、上の行を大きくして下の行を小さくしたいと考えます。上の行を大きくする方法は、覚醒相で、両方がオンになっている2つのユニット間の接続強度を増加させることです。
熱平衡に落ち着くからです。そうすれば、Vとそれによく合うHの一つが得られ、それをさらによくVと合うようにします。そして負の相は、その下の行を小さくすることであり、それがVを大きくする方法であり、それが負の相で非学習を行う理由です。
これで方程式は終わりです。再び聞き始めることができます。熱平衡の過程は、本質的に、この覚醒相と睡眠相における2つの相関の差の中に重みの勾配を得るために必要なすべての情報を取り込みます。これはすべて非常に美しいですが、ボルツマン・マシンにはいくつかの問題があります。
主な問題は、それらが機能しないということです。それは大きなシステムで熱平衡に達するのに非常に長い時間がかかるからです。それで17年間、ボルツマン・マシンはそれで終わりでした。エンジニアリング上の問題があります。落ち着くのに時間がかかります。そして学習信号はノイズが多いですが、それは小さな問題です。
しかし熱平衡に落ち着くのに長い時間がかかるということは、熱平衡で得られるこの美しい関係が、熱平衡に落ち着くのに時間がかかりすぎるため、計算するには高すぎるということを意味します。神経科学の観点からも問題があります。脳の理論があります。
実際のニューロン間の接続は対称的ではなく、人々は非常に粗いタイムスケールで覚醒と睡眠を交互に繰り返し、一度に一つずつニューロンを更新することはありません。実際、ランダムに更新する限り、最後のことはあまり問題ではありません。しかし明らかに脳の働き方ではありません。
つまり、彼らには2つの特性があります。エンジニアリングとして機能せず、脳の働き方でもありません。そして3つ目の特性があります。それでノーベル賞を獲得できます。
17年後、隠れたユニットの層が一つだけあり、それらが互いに話さないボルツマン・マシンの制限された形式を作ると気づきました。非常に制限されています。目に見えるユニットと互いに話さない隠れたユニットがあるだけです。それが制限されている理由です。その場合、非常に高速な学習手順を得ることができます。
目に見えるユニットを固定し、隠れたユニットが互いに話さないならば、一段階で熱平衡に落ち着きます。隠れた各ユニットを訪問するだけで、それを同時に行うことができ、目に見えるユニットから受け取っている入力に基づいてそれらを更新すれば、一段階で熱平衡に達します。これで覚醒相は解決しました。それは非常に効率的です。
しかし睡眠相はどうでしょう？目に見えるユニットの更新と隠れたユニットの更新の間の交互の操作が依然として必要であり、それは遅くなりそうです。それがどれだけ遅くなるかを見積もるのは非常に難しいです。数学的にそれを見積もるのは非常に難しいです。しかし試すことはできるので、私は試しました。
最初は、目に見えるユニットにデータを置き、隠れたユニットを更新し、その後再び目に見えるユニットを更新しました。これを再構築と呼びます。目に見えるユニットの情報を取り、隠れたユニットを活性化しました。隠れたユニットの情報から目に見えるユニットを活性化し、画像のような再構築が得られますが、完璧ではありません。
その後、隠れたユニットを再び活性化します。そして上下、上下、上下と長い間続け、熱平衡に達するまで待ち、学習をデータと、データがある時とI最初のステップで隠れたユニットに行くときのI間の相関を取り、この連鎖を非常に長い時間実行した後に同じ相関を取ることによって学習できます。それで正しい勾配が得られます。
しかし私は、どれくらいの時間実行する必要があるかに興味がありました。そこで一定時間実行したところ、学習は機能しました。その後、より短い時間実行しても学習は機能しました。さらに短い時間実行しても学習は機能しました。最終的には上下と再び上に行くだけで、学習はまだ機能しました。
それは本当に良いことです。なぜなら熱平衡で起こっているこのすべてのことがなくなったからです。私たちはただ上下と再び上に行くだけです。そして私は非常に素朴な論理的誤りを犯しました。それは、熱平衡に達すれば学習は機能するということです。しかし、それは学習が機能すれば熱平衡に達したことを意味するわけではありません。
学習は他の理由で機能する可能性があります。そこで、対照的発散と呼ばれるアルゴリズムがあり、ただ上下と再び上に行くだけで、IとJ間の接続に1と書かれている場所で相関、つまりそれらがどれくらい頻繁に一緒にオンになるかを測定します。そして2と書かれている場所で相関を測定します。
そして一つの相関から他方の相関を引くだけで、それはかなりうまく学習します。数学的にそれが正しいことをしていることを証明するのは非常に難しいです。なぜならそうではないからですが、実際にはかなりうまく機能します。そこで、これらの単純な簡略化されたボルツマン・マシン、制限ボルツマン・マシンを実際に実用的にすることができました。
それらは実際にNetflixで、どの映画が好きかを予測するために使用されました。彼らは、Netflixがどのくらいうまくどの映画を人々が好むかを予測するかより10%良くできれば100万ドルを提供するコンペティションを開催しました。そしてそのコンペティションは、私たちの制限ボルツマン・マシンと行列分解と呼ばれる別の方法を使用し、それらを組み合わせたチームによって勝利されました。
そのためRBMは実際に何かに役立ちましたが、最終的にはこの制限されたバージョンだけです。たぶんボルツマン・マシンは少し役立ちますが、制限されたバージョンはパワーの大部分を捨てています。なぜなら隠れたユニットが互いに話せないからです。
さて、何かできることがあります。複数の層を持つことができ、特徴検出器の階層を学習できます。アイデアは、RBMをトレーニングし、データを示し、隠れたユニットがあり、データと隠れたユニット間の重みをトレーニングするというものです。そうすると隠れたユニットはデータの特徴、例えばかなり頻繁に発生するピクセルの組み合わせや線の組み合わせを捉えています。
そのRBMを学習したら、これらの隠れたユニット、これらの隠れたニューロンを取り、そのバイナリ状態を取り、それが画像であるふりをして、もう一度それを行います。つまり、それらの状態をコピーし、2番目のRBMを学習します。そして2番目のRBMの隠れた状態を取り、再びコピーし、3番目のRBMを学習します。
これを正確に行えば、より多くのボルツマン・マシンを学習するにつれて、それらを積み上げて一つの大きなモデルを作成でき、別のボルツマン・マシンを追加するたびにモデルが良くなることを保証する非常に良い変分境界があります。あるいは、モデルがどれだけ良いかの変分境界が改善されます。
モデル自体は悪くなるかもしれませんが、変分境界は改善されます。しかしそれには入りませんが、これを行うことを正当化します。これで、効率的に学習したすべての制限ボルツマン・マシンを取り、それらをこのように積み上げることができ、画像を見て特徴を抽出し、特徴の特徴、そして特徴の特徴の特徴を抽出するマルチレイヤーネットワークの重みが得られました。その後、上にクラスラベルを置くことができます。
クラスラベルへの重み、これらの赤いものへの重みはわかりませんが、すでにすべての特徴を持っています。マルチレイヤーネットから特徴を得たのです。そして、それはオブジェクト分類や音声分類のようなことを行うためにトレーニングするディープニューラルネットワークを初期化する非常に良い方法であることがわかりました。
最終的に、ボルツマン・マシンの簡略化されたバージョンを積み上げると、バックプロパゲーションを初期化する良い方法であるという非常に薄い関連があります。実際に関連があり、それを酵素のように考えることができます。4、5年間、人々はこの方法でニューラルネットを初期化し、特に音声認識においてそれらをはるかに良く機能させました。
その後、ネットを初期化する他の方法を発見し、ボルツマン・マシンを捨て、それがボルツマン・マシンの終わりでした。それらを酵素と考えてください。それらはディープラーニングが生まれるのを助けた技術であり、ネットを上手く初期化することによってそれを実現しました。
ですから、ボルツマン・マシンと現在のニューラルネットの間には非常に薄い関連がありますが、それは薄いものです。要約すると、それらは酵素のようなものでした。現在のニューラルネットへの移行を助けました。
私はまだ睡眠中の非学習を使用するという考えが、脳の働き方を理解するために本当に役立つかもしれないと思っています。人々の非常に興味深い特性があります。それは、睡眠を奪われると完全に狂ってしまうということです。
ただ人々から1週間睡眠を奪うと、彼らは完全に精神病になり、一部の人々は決して回復しません。そして睡眠に関するほとんどの理論はなぜそうなのかを説明していません。しかし睡眠が非学習のためであるならば、それは説明します。ただポジティブなヘブ型のルールを使用し、この非学習を行わないなら、システム全体が狂ってしまうでしょう。
以上です。
ヒントン博士、ありがとうございます。このすばらしいプレゼンテーションに感謝します。私たちの脳が実際にどのように機能するかの一部の側面に、理想化された物理的セットアップやシステムがどのように光を当てることができるかについて、多くのことを学びました。しかし今、私は混乱しています。
私たちの脳が実際にどのように機能するかについてどれだけ学んだのかわかりません。実に多くの素晴らしい疑問を学びました。会話を続けるために、ヒントン博士の隣に立っているヨニ・カーン博士を紹介したいと思います。彼は物理学部の最新の教授であり、ベクター研究所とも共同教員の地位を持っています。
ヨニはイリノイ大学アーバナ・シャンペーン校の物理学部の助教授でした。彼は分子および凝縮物質系を使用したダークマターおよびダークセクターの直接検出実験の次世代を設計することに興味を持っています。彼はまた機械学習の理論と高エネルギー物理学と天文学への応用を研究しており、物理学教育にも強い関心を持っています。
実際、彼は物理学GRE大学院試験のための学生を準備するための教科書を出版しました。「物理学GREを征服する」というケンブリッジ大学出版社の本です。ヨニとジェフ、あなたがたの会話を楽しみにしています。その後、時間が許す限りいくつかの質問を受け付けます。暖炉の前での対談のために上がってきてください。
これで物理学を本当に知らないことが明らかになります。
そう言わないでください。反対を証明してみせます。素晴らしい講演をありがとうございます。質問のリストを考えていましたが、あなたが言ったことに基づいて即興で話したくなりました。とても興味深かったと思います。
まず一つのことから始めましょう。相関と相関関数が学習手順やあなたが起こっていることを理解するために役立つというこのアイデアについて繰り返し言及しました。物理学のほとんどの領域では、相関関数は私たちが宇宙を記述する方法です。大型加速器で行われる粒子衝突でさえ、量子場と呼ばれるこれらのものの相関関数と考えることができますし、クシュナー教授が気候科学で研究していることも同様です。
時系列データがあり、それがランダムな場合、そこから取得できる情報の一部は、この時点の天気とその時点の天気がどれだけ相関しているかということです。そして私は考えています。現在、私たちは巨大な1兆パラメータモデルを持っています。その中にはたくさんの数値があります。物理学に触発された相関関数のこの直感を使用して、それらの大きなネットワーク内で何が起こっているのかの意味や解釈性を引き出すことはできますか？
おそらくできますが、どうやるかはわかりません。つまり、多くの人々が言うには、これらの大きなニューラルネットワークがどのように機能しているかを理解するまでは、それらを信頼することはできないでしょう。私はおそらく、これらの大きなモデルがどのように機能しているかを詳細に理解することは決してないかもしれないと思います。
私たちはそれらをプログラムしたので、ネットのアーキテクチャについて大まかには知っています。しかしそれらがどのように機能するかはデータから学んだことに依存します。そして1兆の実数値パラメータを持つものが決定を下すとき、それがその決定をした理由の、それらの1兆のパラメータの値よりも単純な説明はないかもしれません。
言っておくと、この分野のほとんどの人々はそれよりも良いことができると考えていますが、私たちがそれよりもはるかに良いことができるとは確信していません。
もう一つ聞かせてください。制限ボルツマン・マシンはディープラーニングのある進歩を触媒した酵素のようなものだとおっしゃいました。私の理解では、物理学に触発されたいくつかの進歩があり、それらは何か素晴らしいことを成し遂げることができました。その一例は、ネットワークのサイズを大きくしたり、より多くの計算時間を与えたりすると、ますます良くなりますが、物理学者がべき乗則と呼ぶ特定の方法で良くなるというスケーリング則のアイデアだと思います。
そして特定の種類のグラフを作成すると、それは直線のように見えます。私の理解では、そのアイデアは物理系、凝縮系、高エネルギー系でこの種の振る舞いが常に現れることから触発されたものです。そしてこれが何度も起こったという事実は、私にはこれが偶然ではないことを示唆しています。
まあ、物理学者は物事についてたくさん考えてきました。そして彼らは非常に賢いです。多くの数学は物理学について考えていた人々から来ました。ニュートンの数学の一部は、なぜ月が地球に落ちないかなどを理解しようとすることから来たのかもしれません。
物理学者が洗練された数学的技術に最初に出会った人々の中にいることは驚くべきことではありません。
物理学の視点がディープラーニングを理解する上でどこで最も役立つと思いますか？そして心理学や生物学、伝統的なコンピュータサイエンスの視点と対比するとどうでしょう？
その答えができればいいのですが。スタンフォード大学のガンギュリは元物理学者で、モデルが学習するにつれて重みに何が起こるかを示す非常に素晴らしい研究をしています。私の信念は、物理学者からの洞察が役に立つだろうということです。しかし少し政治家のように話題を少し変えさせてください。本当に非常に役立つ物理学の一部についてお話します。
機械学習の人々は物理学から来る変分法を使用します。一般の人々に変分法をどのように使用するか、またはモデル間の効率的なコミュニケーションを得るためにどのように変分法から洞察を得るかを説明してみたいと思います。
まったく同じイベントを符号化する2つの異なる方法があり、これを伝えたいとします。送信者と受信者がいて、送信者は可能な限り少ないビットを使って、チャネルを通して可能な限り少ないビットを送信して、このイベントを受信者に伝えたいと考えています。
例えば、雨が降っていることを誰かに伝えたいとして、カナダ人として「it’s raining」または「il pleut」と言うことができます。フランス語は話せませんが、それが正しいと思います。私は本物のカナダ人ではありません。
普通の人なら、「it’s raining」と言うのに10ビット、「il pleut」と言うのに10ビットかかるなら、どちらか一つを選んでそれを行えば10ビットかかるだろうと言うでしょう。しかし物理学者なら、同じことを符号化する2つの異なる方法があるなら、これらの方法の一つを確率的に選ぶとどうなるかと考えるでしょう。
コインを投げて、一つの方法を選びます。そうすることで何も得られないように見えます。コインを投げて、「il pleut」か「it’s raining」のどちらかを言い、まだ10ビット送らなければなりません。しかしコインを投げる代わりに、ランダムビットを得るために小さなランダム数ジェネレータを実行し、受信者が同じランダム数ジェネレータを持っていると仮定してみましょう。
今度は、ランダム数ジェネレータを実行して「it’s raining」か「il pleut」のどちらを言うかを決めます。受信者もそのランダム数ジェネレータを実行して、どのランダムビットを使用したかを確認できます。そのため、実際には、これら2つのコードを選択するために使用したランダムビットを伝えることができます。
そして受信者は実際に11ビットの情報を得ることができます。雨が降っているかどうかを教える10ビットの情報と、ランダム数ジェネレータに関するもう1ビットの情報を得ることができます。しかしランダム数ジェネレータを使用する代わりに、伝えたかった他のメッセージを取ることもできました。
例えば、副業でコンサルティングをしていて、同時に他のことをしたいとします。「il pleut」と言うか「it’s raining」と言うかの選択によって、この他のメッセージを1ビットずつ伝えることができます。
実は確率的な選択が実際に正しいことなのです。フリーエネルギー関数を見ると、コードを送るのに必要なビット数はエネルギーのようなもので、コードに割り当てる確率はエントロピーのようなものです。最善のことはボルツマン分布を使用することです。
あるコードが別のコードよりも少し長い場合、それをあまり頻繁に使用しませんが、時々は使用します。そのため、代替コードがある場合、統計物理学の結果はこのようにコーディング理論に現れます。実際、最も安価なものを選ぶよりも、コードを確率的に使用する方が良いのです。
これは物理学が現れる少しの例です。分野の集結の良い例ですね。シャノンがエントロピーで行った仕事は現在、量子情報と物理系での情報の考え方に取り入れられています。協力とメッセージパッシングの主題について少し話したいと思います。
物理学には非常に長い巨大な世界的な共同プロジェクトの伝統があり、そのうちの一つが欧州原子核研究機構（CERN）です。その歴史は本当に驚くべきもので、第二次世界大戦後に協力を促進するために設立されましたが、ヒッグス粒子の発見など素晴らしいことを成し遂げ、それは数年前にノーベル賞を獲得しました。そして多くの非常に賢い人々を同様のタスクに配置することで、驚くべき進歩を遂げることができました。
現在では、AIのためのCERNのようなものが必要だと感じます。そのようなものはどのように見えるでしょうか？人々はどのように貢献できるでしょうか？どのように組織され、何をするでしょうか？
現在の政治状況を考えると、それは明らかにヨーロッパにあるでしょう。それには大きな問題があります。
現在、AIのためのCERNを持つべきだという請願を組織している人々がいて、私はそれに署名するかどうか決めようとしています。主な問題は、AIが致命的な自律型兵器に役立つだろうということです。そして武器を販売するすべての国、米国、ロシア、中国、イスラエル、イギリスのような国々はすべて、自分たち自身の致命的な自律型兵器を開発したいと考えるでしょう。そして彼らは協力したいとは思わないでしょう。
また、暗号攻撃やサイバー攻撃などにも良いです。そのため、国々が協力することは非常に難しくなると思います。例えば、原爆を手に入れた、水爆を手に入れた、そしてまだ完全に手に入れていない別の種類の爆弾があると人々が考えた時点でCERNを設立しようとしたと想像してみてください。
「それを探求するために皆で協力しましょう」というようにはうまくいかなかったでしょう。彼らは今、水爆を手に入れたと信じ、この高エネルギー物理学を行うことはおそらくそれよりも悪いものを与えないだろうから協力できると信じる必要がありました。それが実現できれば非常に良いアイデアだと思います。
しかし政府がそれをしたくない政治的理由がたくさんあると思います。
もう一つ質問して、会場からの質問に移りましょう。ディープラーニングと核爆弾のような世界を変える大きな武器の間の類似点には、本当に興味深い共鳴がたくさんあります。そしてその一つは、原爆の仕組みを支配する基礎的な物理学が、私が大学院の粒子物理学のクラスで教えているものだということだと思います。
なぜならそれは基本的なレベルで世界がどのように記述されるかの一部だからです。しかしもちろん、それをどこかで掘り出せる物質の量と組み合わせると、想像を絶するほど破壊的なものになります。このAIというツールを理解したいという欲求と安全性の必要性のバランスをどのようにとるべきだと思いますか？それは確かに良いことのために素晴らしいことを行うでしょう、世界を悪くする可能性のあるすべてのことに加えて。
私が強く思うことが一つあります。それは、核分裂性物質をウェブ上で購入できるようにはしないだろうということです。核兵器の場合、難しい部分は核分裂性物質を入手することです。すべてが難しいですが、それが最も難しい部分です。
それは非常に高価です。そして人々がそれを持つのを止めたいなら、核分裂性物質を作る施設を爆撃します。だから核分裂性物質を放出するのは狂気の沙汰でしょう。研究者は「爆弾で遊べるように核分裂性物質が欲しい」と言うかもしれませんが、「ではあげましょう」というのは…国々がそれを持っているときに研究者や大学にそれを与えないのは不公平だと思うかもしれませんが、それは狂気の沙汰でしょう。
Metaが始めましたが、彼らは今、これらの大規模な基盤モデルの重みをリリースしました。ポイントは、AIでできることの主な制約は、大規模な基盤モデルをトレーニングするのに多くのお金と多くのデータが必要だということです。一度モデルの重みを手に入れたら、その後、あまりトレーニングせずに他のさまざまなことにそのモデルを使用できます。
だから重みを公開するのは完全に狂っていると思います。人々はそれをオープンソースのようだと話しましたが、オープンソースとは全く違います。オープンソースでは、コードをリリースし、人々はそのコードを見て「ちょっと待って、この行は少し怪しい」と言います。
重みをオープンソースにすると、「あ、この重みは少し怪しい」と見るわけではありません。彼らはただその重みを取って、それを別のことをするためにトレーニングします。しかし彼らは非常に良い出発点から始めています。その船はすでに出航しています。しかし、これらの大きなモデルの重みをリリースするのは狂気でした。なぜなら、それは数十万ドルを手に入れることができるサイバー犯罪者が、それらの一つを再トレーニングできることを意味するからです。
申し訳ありませんが、これは悪いニュースです。
これらのものが既に世界に出回っていることを考えると、その後にトレーニングされるより大きなモデルから来る可能性のある何らかの大惨事を防ぐのに役立つことを学べると思いますか？
私はかなり悲観的です。Metaで働く私の友人ヤン・ルカンは非常に楽観的です。そしてあなたの性格が将来がどのようになるかの予測に大きな影響を与えることがわかりました。そして私が正しいことがわかりました。
心理学的研究によると、普通の健康な人々、普通の陽気で健康なアメリカ人に「今後5年間であなたまたはあなたの家族の直接のメンバーが自動車事故で重傷を負う可能性はどれくらいですか？」と尋ねると、数字は覚えていませんが、1%のようなことを言い、実際には10%のようなものです。
「今後5年間であなたまたはあなたの家族の直接のメンバーががんになる可能性はどれくらいですか？」と尋ねると、再び、彼らは低すぎます。彼らはただこれらの恐ろしいことが起こる確率を過小評価します。妄想的統合失調症の人々を調べると、彼らは過大評価します。軽度の鬱病の人々を調べると、彼らは正確に把握します。
会場からの質問で会話を続けるのは素晴らしいでしょう。どうぞ。
ヒントン博士、素晴らしい講演でした。専門家だけでなく一般の人々にも理解できるものでした。特に伺いたいのですが、私の名前は（聞き取れない）です。最近「ジェネシス」という本も出版されています。キッシンジャー氏もその著者の一人で、他の創設者もいます。
AIの将来開発について倫理に基づいたアプローチの言及がありました。彼らは規制の枠組みの一部として人間の倫理を構築することについて話し、あなたが言及したグローバルな協力の理解が、AGIが達成される、またはそれを超える前に、人工知能を追求するために必要だと述べています。新しい技術が登場すると、常に規制についての議論があり、その規制がいつ必要で、いつ早すぎるかについての議論があります。人工知能についてはすでに遅すぎるのでしょうか？あなたの答えをお聞かせください。
まず第一に、我々はそれを遅らせることはできないでしょう。なぜなら非常に多くの良い用途があるからです。ほぼすべての産業がAIを利用できます。医療では非常に役立ちます。教育では非常に役立ちます。気候変動のような問題に非常に役立つ可能性のある新しい材料の設計に非常に役立ちます。
だから我々はそれを遅らせることはできないでしょう。問題は、我々がそれを安全に開発できるかどうかです。そしてそれを行うための政治的意志はあまりないようです。人々は差別やバイアスのような理解できることについて話す意思はあります。しかしほとんどの人々はまだ、これらのものが実際に彼らの言っていることを理解していることを理解していません。
我々は宇宙人の知性を作り出しています。今のところ、我々はコントロールしています。しかし我々はそれらをエージェントにしています。だから世界で物事を行うことができ、彼らはすぐに、目標を達成するために良いことは、より多くのコントロールを得ることだと気づくでしょう。だから我々は、本当に強くて賢明な政府、知的で思慮深い人々が運営している政府が欲しい状況にありますが、それは我々が持っているものではありません。
ジェフ、こんにちは。どうですか？私の質問はべき乗則についてです。コンピュートとデータをより多くスケールするにつれてより多くのパフォーマンスモデルが得られるという理論やアイデアがありました。サム・アルトマンはそれがコンピュートとデータの対数と相関していると述べたと思います。
しかしGPT-4のリリース以来、LLMの更新はすべて少し物足りないものでした。たぶんGPT-3.5からGPT-4への大きなジャンプは見られなくなりました。最近のGROK3のリリースでも、イーロン・マスクとxAIについて多くの宣伝がありましたが、それもそれほど素晴らしいモデルではありませんでした。コンピュートとデータに関して我々はある種のプラトーに達したと思いますか？それとも異なるアプローチが必要だと思いますか？
このスケーリングから収穫逓減が得られていると考えるのはかなり合理的だと思います。基本的に、コンピュートの量を2倍にするたびに少し良くなります。それが対数です。だからこれらの小さな改善を得るのがますます高価になっています。
しかしスケーリングは我々を長い道のりを連れてきました。今では本当にかなり賢いものがあります。そして新しいアイデアも我々をさらに進ませるでしょう。そしてこれらをより効率的にするための新しいエンジニアリングのトリックも我々をさらに進ませるでしょう。
だから単にプラトーになると非常に驚くでしょう。人々は長い間、それがちょうどプラトーになると予測してきましたが、そうはなりませんでした。しかし、それが発展し続けるためにはより多くの良いアイデアが必要かもしれません。
例えばムーアの法則を見ると、私が生きている間ほぼずっと、人々はムーアの法則が終わりに近づいていると言ってきました。そしてコンピュータはそれらをより小さくより小さくするにつれて、より速くより速くなりました。
そしてギガフロップを行う点に達したとき、人々は「もうこれ以上速くならない、ムーアの法則の終わりだ」と言いました。そして彼らは直角に方向を変え、より並列にし始め、NVIDIA GPUなどが登場し、ムーアの法則はさらに加速さえしました。
私はそのようになると思います。スケーリングは我々をある程度まで連れてきました。そしてスケーリングはおそらくコンピュータをより速くより速くするようなものでした。しかし今、コンピュータをより並列にすることでムーアの法則をさらに10年ほど、おそらくそれ以上続けました。そして私は、物事をより良く機能させる新しいアイデアを得るだろうと思います。
今ではこれに取り組んでいる賢い人々がとても多いので、物事をより良く機能させる良い新しいアイデアがないとは信じられません。
最後の質問を1つだけ。背後の方、その後前の方で最後の質問を。
能動的推論の理論では、感覚ニューロンが運動ニューロンと並行して走り、それらは密接に結合しており、感覚ニューロンのエラー信号は何らかの修正を行うために運動ニューロンを活性化します。これは重みではなく活性化についてのものですが、ここで何かバックプロパゲーションのようなものが可能でしょうか？これらの実際の並列セットのニューロンが走っている場合、そのようなものはありますか？
はい、実際に脳でバックプロパゲーションのバージョンを機能させることはできますが、デジタルコンピュータほどうまく機能しません。小脳は人々がバックプロパゲーションのようなものがあるかもしれないと考えた一つの場所です。
視覚的なずれ信号が前庭装置をトレーニングするために使用でき、前庭装置ははるかに速いからです。だから視覚的なずれを使って前庭をトレーニングでき、それがバックプロパゲーションのためのエラー信号を得る場所であり、人々はそこで何かバックプロパゲーションのようなものが行われているかどうかについて推測してきました。
しかし時間的差異を使用することで、脳でバックプロパゲーションを行うこともできます。バックプロパゲーションは最初、非常に不合理に思えます。なぜなら前方パスでは神経活性化を送り、後方パスでは神経感度を送るからです。戻ってくる信号は、このニューロンの変化にエラーがどれだけ敏感かという導関数です。それは完全に異なる種類の情報です。
しかし時間的導関数を使用してエラー導関数の代わりとすることができます。2つのパスを持つシステムを持つことができ、それらの2つのパスでの活性化の差があなたのエラー導関数です。そして脳が時間的導関数をエラー導関数として使用している可能性があるという証拠がいくつかあります。
例えば、位置を検出するニューロンがあります。そして動きをどうやって検出するかと尋ねると、明らかな方法は時間の経過とともに位置の違いを見ることですが、それはまったくあなたがそれを行う方法ではありません。あなたは動きを表す別のニューロンを持っています。
では、なぜ位置ニューロンの差を使って動きを表すことができないのでしょうか？一つの可能な答えは、あなたがそれらの時間的差異をエラー導関数を表すために使用しているからです。
私とヨシュア・ベンジオと他の人々による論文があります。実際、ヨシュアはその著者ではなかったと思います。私と様々な人々による論文があり、時間的差異をエラー導関数として使用し、バックプロパゲーションのバージョンを脳に実装する方法を示しています。
しかしポイントは、少数の接続に多くの情報を詰め込もうとするときにはあまりうまく機能しないということです。情報をボトルネックに入れることはできません。余裕のある容量を持つ大きく寛大なニューラルネットワークがあれば、これらの技術は機能し、バックプロパゲーションのようなことを行うことができますが、デジタルコンピュータほど効率的ではありません。
脳は時間的差異を使用することでバックプロパゲーションのようなことを行う方法を持っているかもしれませんが、誰も本当には知らず、知覚学習において脳が何をしているかを理解しようとする試みはやや失望的でした。まだそこに到達していないと思います。
マーティン家からの質問。
素晴らしい講演をありがとうございます。非常に興味深かったです。質問がたくさんあって一つを選ぶのが難しいのですが、画像認識ではなく画像生成を見ていました。覚醒状態と睡眠状態の間に何らかの関係があるのか疑問に思いました。トレーニングされたシステムが覚醒状態で、学んだことに基づいて画像を生成しているのでしょうか？
強調しておきたいのは、ボルツマン・マシンは統計物理学における熱平衡で得られる単純な関係を使用して学習信号を得る方法についての素晴らしいアイデアでしたが、残念ながら実際にはそれが起こっていたとは思いませんし、それらは特に良いエンジニアリングではありません。
非学習のための睡眠のようなものが起こっているかもしれませんが、ボルツマン・マシンではないと思います。
素晴らしい。夕べの終わりに来ました。ヒントン博士、そしてカーン博士、素晴らしい暖炉前での対談、そして最初の1時間に聞いた素晴らしい講演に感謝します。もう一度彼らに感謝しましょう。