ゴッドファーザーとの対話: ジェフリー・ヒントンがAIの未来を懸念する理由

19,328 文字

The Godfather in Conversation: Why Geoffrey Hinton is worried about the future of AI

Geoffrey Hinton, known to many as the “Godfather of AI,” recently made headlines around the world after leaving his job ...

ナレーション: ジェフリー・ヒントンについて短い紹介を書いてください。
ジェフリー・ヒントンは、トロント大学の名誉教授で、「AIのゴッドファーザー」として知られています。彼は最近、AIの無制限な開発がもたらす危険性について、より自由に議論できるようにするためにGoogleを退社しました。我々は、彼がロンドンの自宅で、自身が作り上げた技術やその多くの利点、そして突如として人類が危険にさらされていると恐れ始めた理由について話をしました。
ヒントン: ウォール・ストリート・ジャーナルから依頼がありましてな。わしの訃報を訂正してほしいって言うんです。
クリストファー・ソレンセン: どういう意味ですか？
ヒントン: わしの訃報を訂正してほしいって言うんですよ！
ソレンセン: 事前に書いてあるってことですね？
ヒントン: そうそう、わしの訃報を事前に書いとるんです。マーク・トウェインやったらなんて言うやろか。
ソレンセン: まあ、ここで紹介は必要ないでしょうから、本題に入りましょうか。最近、あなたはいくつかのインタビューで、チャットボットや他の生成AIで使われているデジタル知能が、我々が持つ生物学的知能よりも優れた種類の知能かもしれないと発言されています。
この結論に至った理由を簡単に説明していただけますか？
ヒントン: そうですな。デジタルコンピューターは、正確に指示した通りのことを行うように設計されとります。学習する時でも、2つの異なるデジタルコンピューターが同じ学習知識を使って全く同じことができるんです。
つまり、同じ知識の複製を10,000個作って、それぞれ別のコンピューターで動かすことができる。そして、1つの複製が何か学んだら、その情報をニューラルネットの中の接続強度を共有するだけで、他の全ての複製に非常に効率よく伝えることができるんです。
我々にはそれができません。あなたが何かを学んで、それをわしに教えたいと思っても、文章や絵を使うしかない。そうすると、非常に限られた量の情報しか共有できません。
つまり、あなたが学んだことをわしに伝えるのは、これらのデジタル知能が情報を伝達するのに比べて、はるかに遅いんです。
そして、それがデジタル知能を優れたものにしとるんです。デジタル知能は互いに協力して、たくさんのことを学べるんです。
ソレンセン: デジタル知能は不死で、生物学的知能は死ぬと言われましたが、これはどういう意味でしょうか？
ヒントン: そうですな。わしがデジタルコンピューターでシミュレートされてるニューラルネットで接続強度を学習したとします。特定のコンピューターが壊れても、同じ接続強度を別のコンピューターで使うことができるんです。
たとえ全てのデジタルコンピューターが壊れても、接続強度をどこかに保存しとけば、新しいデジタルコンピューターを作って、同じ重みを実行できるんです。
しかし、我々の場合、学んだ知識、つまり接続強度は、我々の特定の脳に固有のものなんです。脳は一つ一つ少しずつ異なっとります。あなたの脳のニューロンは全て少しずつ違うんです。そして、あなたの特定の脳の特異性を全て活用するように学習するんです。
だから、あなたが脳で学んだ接続強度を、わしに教えてくれても、わしには役に立ちません。わしの脳が違うからです。
つまり、デジタルコンピューターは不死なんです。同じ知識を別のハードウェアで実行できるからです。我々は死ぬんです。ハードウェアと知識が複雑に絡み合っているからです。接続強度を特定の脳から切り離すことはできません。だから、脳が死ねば、知識も死ぬんです。
ナレーション: デジタル知能が生物学的知能に取って代わることを、なぜ懸念すべきなのでしょうか？
ヒントン: それはですな、デジタル知能の方が、たくさんの異なるデジタルエージェントが学んだことを共有するのが上手いからです。同じ重みを共有して、その重みの更新だけを共有するんです。そうすると、同時に10,000の異なることを学べるんです。
それに、デジタル知能の方が、おそらく脳よりも優れた学習アルゴリズムを持っとると思います。これまで、脳の中に、デジタル知能のバックプロパゲーションアルゴリズムほど上手く機能する学習アルゴリズムを見つけようとする試みは全て失敗しとります。非常に大規模なシステムに拡張できるアルゴリズムは見つかっとらんのです。
つまり、デジタル知能には2つの利点があると思います。おそらくより優れた学習アルゴリズムを持っとるし、生物学的知能よりもはるかに効率的に知識を共有できるんです。
ソレンセン: あなたがこの分野に入った当時、機械知能に関しては2つの学派がありました。主流派とニューラルネットです。
この2つのアプローチの違いを説明していただけますか？
ヒントン: まあ、少し戯画化して説明しましょうか。知能とは何かについて、2つの異なるモデルがあったんです。
1つのモデルは、全てが推論に関するものだと考えます。我々が推論する方法は論理を使うことだと。それが人間の特別なところだと。
だから我々がすべきことは、我々が実際に使っている論理の種類を理解することだと。それは、あなたが蓄える知識は象徴的な表現だという考えとも一致します。つまり、わしがあなたに文を言えば、あなたはそれを何らかの形で保存し、後でそれを使って他の文を推論できるということです。
しかし、あなたの頭の中にあるのは、文に少し似たものですが、整理されたものです。
そして、これとは全く異なるモデルがあって、それは全て脳細胞のネットワークにおける接続強度を学習することに関するものだと考えます。それが得意なのは、推論ではなく、知覚や運動制御のようなことです。
推論はずっと後になって出てきたもので、我々はそれに関してはあまり得意ではありません。かなり年を取るまで推論を学ばないんです。だから、推論は実は生物学的知能のとても悪いモデルなんです。生物学的知能は、体を制御したり、ものを見たりすることに関するものです。
これは全く異なるパラダイムで、頭の中にあるものについての考え方も違います。保存された象徴の文字列ではなく、ただの接続強度なんです。
象徴的AIの見方では、重要な問題は、これらの象徴的表現の形式は何か、そしてそれらを使ってどのように推論するかということでした。
ニューラルネットの見方では、中心的な問題は全く異なっていました。それは、これらの素晴らしいことを全てできるように、どうやってこれらの接続強度を学習するかということでした。だから、学習は常にニューラルネットの見方の中心にありました。
象徴的な見方では、「学習のことは後で心配しよう」と言いました。「まず、知識がどのように表現されるか、そしてそれを使ってどのように推論するかを理解する必要がある」と。
だから、これらは全く異なる見方だったんです。1つは論理からインスピレーションを得て、もう1つは生物学からインスピレーションを得ました。長い間、論理派の人々は、生物学からインスピレーションを得ることは愚かだと考えていました。
フォン・ノイマンとチューリングの両方がニューラルネットが知能に取り組む方法だと考えていたことを考えると、それは少し奇妙でしたが、残念ながら彼らは若くして亡くなってしまいました。
ナレーション: ニューラルネットワークがどのように機能するか、高いレベルで説明していただけますか？
ヒントン: 試してみましょう。まず、画像内のオブジェクトを認識する方法について説明しましょう。
例えば、画像に鳥がいるかどうかだけを判断したいとします。鳥は大体画像の中央にいて、注目の主要なオブジェクトだとしましょう。「これは鳥ですか、それとも違いますか？」と言わなければなりません。
画像を考えてみましょう。100ピクセル×100ピクセルだとしましょう。それは10,000ピクセルです。各ピクセルは3色、RGBです。つまり30,000の数字です。
計算の観点から言えば、画像内の鳥を認識することは、30,000の数字を取り、はい、いいえを表す1つの数字を出力することです。
標準的なコンピュータープログラムを書いてそれを行おうとすることもできます。人々は何年もの間それを試みましたが、うまくいきませんでした。50年もの間、人々はそれを試みていたんです。
あるいは、多層ニューラルネットを作ることもできます。まず、手動でニューラルネットを配線する方法から説明しましょう。
まず、ピクセルがあって、それが一番下のレベルになります。次に特徴検出器の層があります。典型的な特徴検出器は、垂直な一列のピクセルから大きな正の接続強度を受け取り、隣接する垂直な一列のピクセルから大きな負の接続強度を受け取り、他の場所からは接続強度を受け取りません。
両方の列のピクセルが明るければ、ここから大きな正の入力を受け取りますが、そこからも大きな負の入力を受け取るので、何も起こりません。しかし、これらのピクセルが明るくて大きな正の入力を与え、これらのピクセルが明るくないので抑制されない場合、それは興奮して「やあ、好きなものを見つけた」と言うでしょう。「ここに明るいピクセルがあって、ここに暗いピクセルがある」と。
これがエッジ検出器です。正と負の重みを使って手動で配線する方法を説明しました。これは小さな垂直エッジを検出するものです。
さて、画像のさまざまな場所、さまざまな向き、さまざまなスケールで異なるエッジを検出する無数のこういった検出器があると想像してください。それが最初の層の特徴検出器になります。
もし手動で配線するなら、2番目の層の特徴検出器は、例えばこのように細かい角度で結合した2つのエッジを検出するかもしれません。つまり、このエッジとこのエッジを探しているんです。そして、両方が同時に活性化されれば、「やあ、ここにくちばしがあるかもしれない」と言うでしょう。
他のものかもしれませんが、くちばしかもしれません。だから、くちばし的な特徴を持つことになります。円形のエッジの集まりを検出する特徴もあるかもしれません。
だから、その層には円検出器や潜在的なくちばし検出器、そして他にもたくさんの検出器があります。しかし、それらはより複雑なものを検出しています。
その上の層では、潜在的なくちばしが潜在的な円、潜在的な目と正しい空間関係にあることを検出するものがあるかもしれません。それが鳥の頭になる可能性があります。それが3番目の層になります。
そして、3番目の層で鳥の足や翼を検出するものもあれば、次の層で鳥検出器を持つことができるかもしれません。つまり、それらのいくつかが活性化されれば、例えば、ここに頭があって、翼があって、足がある、おそらく鳥だろうと。
さて、これらすべてを手動で配線する方法を説明しましたが、非常に良い仕事をすることは決してできないでしょう。そこで、全てを手動で配線する代わりに、全てを学習することを想像できます。
学習したいものの種類を説明しましたが、今度はどのように学習するかを説明しましょう。その方法は最初は奇妙に聞こえるかもしれません。
全ての接続強度を配線する代わりに、ランダムな接続強度、つまり全ての接続にただのランダムな数字から始めます。そして、鳥の画像を入力すると、これらの特徴検出器の層を通って前に進みますが、完全にランダムに振る舞います。
出力の鳥検出器は、「0.5の確率で鳥です」と言うでしょう。鳥だと確信している時は1を、鳥でないと確信している時は0を言うので、約0.5と言うでしょう。
そして、次のような質問ができます：ネットワーク内の全ての接続強度をどのように変更すれば、0.5ではなく、例えば鳥だとすれば0.51と言うようになるでしょうか？
特定の接続強度をどのように変更すれば、鳥である可能性が高くなるかという質問に答えたいのです。そして、得たものと望んでいたものの差を取ることで、それを計算できます。
1が欲しかったのに、実際には0.5を得ました。その差を取って、ネットワークを通して後ろに送ります。そして、ここでは説明しない微積分を使います。そうすると、ネットワーク内の全ての接続について、「鳥」と言う可能性を高めるためにどれだけ大きくしたり小さくしたりしたいかを計算できます。
そして、全ての接続強度を「鳥」と言う可能性を高める方向にわずかに調整します。次に、鳥ではないものを見せて、今度はそれが鳥だと言う可能性が低くなるように接続強度を調整します。
そして、たくさんの鳥と非鳥でこれを繰り返していくと、最終的に全ての特徴検出器を発見したことがわかります。くちばしのようなもの、目のようなもの、足や翼を検出するものなどを発見しているでしょう。
そして、1000種類の異なるオブジェクトのような、たくさんの異なるオブジェクトで訓練すれば、あらゆる種類のものを認識するのに非常に適した中間的な特徴検出器を発見するでしょう。
魔法は、バックプロパゲーションと呼ばれる比較的単純なアルゴリズムがあることです。これは出力のエラーを取り、そのエラーをネットワークを通して後ろに送り、全ての接続を通して、行動を改善するためにどのように変更すべきかを計算し、それらを全て少しずつ変更して、別の例で続けるだけです。
驚くべきことに、これは実際に機能します。長年、人々はこれがただ行き詰まるだけだと思っていました。どこかで立ち往生するだけだと。しかし、そうではありません。実際にとてもうまく機能するんです。
ナレーション: ニューラルネットワークは言語をどのように扱うのですか？気になります。
ヒントン: はい、では鳥を認識するためにどのように訓練するかについての考え方を理解したとして、今度は単語の文字列を入力として取ることを想像してください。
最初にすることは、単語を埋め込みベクトルに変換することです。つまり、その単語の意味を捉える、あるいは捉えることを意図した小さな数字の束です。
そして、単語の後の最初の層は、各単語のこれらの埋め込みベクトルになります。
そして、たくさんの層の埋め込みベクトルを持つことになります。ネットワークを上に進むにつれて、単語の埋め込みベクトルをどんどん良くしていきます。なぜなら、より多くの文脈情報を考慮に入れるからです。
例えば、この文で – 大文字小文字の区別がないとしましょう – 「may」という単語があるとします。「may」の最も可能性の高い意味は、「彼はそうするかもしれない」のような法助動詞です。しかし、明らかに「may」には全く異なる意味があります。それは月名です。
最初は、単に「may」という単語を見ただけでは、どの埋め込みベクトルを使うべきかわかりません。そして、一種の妥協的なベクトル、法助動詞の「may」を表す埋め込みベクトルと月名の「May」を表す埋め込みベクトルの中間のようなものを使うでしょう。
次の層では、そのベクトルを洗練させます。得た文脈に応じて、近くの埋め込みベクトルに応じて、わずかに良いベクトルを作ります。
例えば、近くに「June」の埋め込みベクトルがあれば、「may」のものを月名により近く、法助動詞からより遠ざけるでしょう。しかし、「would」の埋め込みベクトルがあれば、法助動詞により近く、月名からより遠ざけるでしょう。
そして、ネットワークを通過するにつれて、これらの埋め込みベクトルを洗練させ、どんどん良くすることができます。
訓練する方法は、単語の文字列を入力として与え、最後の単語に対しては – ここでは1つの方法を説明しますが、実際に行われていることとは少し異なります – 一種の中立的な単語を入れます。「unknown」と言って、全ての単語の全てのベクトルの平均のような非常に曖昧な埋め込みベクトルを持たせます。
わからないんです。さて、ネットワークを前に進むにつれて、その最後の単語は前の単語の影響を受けることができ、非常に曖昧から始まりますが、これらの層を通過するにつれてどんどん正確になっていきます。
ネットワークの終わりに到達する頃には、その埋め込みベクトルは特定の単語の埋め込みベクトルや、いくつかの単語の組み合わせ – いくつかの単語の平均のように見えるかもしれません。
そして、ネットワークを訓練するのは、「全てのこれらの層を通過して、その最後の単語の埋め込みベクトルを、実際にテキストにあった単語の埋め込みベクトルに似せたい」と言うことによってです。
そして、これが次の単語を予測する方法です。この種の中立的な埋め込みベクトルを、テキストに現れた正しい単語の埋め込みベクトルに近いものに変えようとします。
そして、エラー、つまりテキストの埋め込みベクトルと生成された埋め込みベクトルの差を取り、それをネットワークを通して後ろに伝播させます – それは層を通して後ろに伝播していますが、この単語から前の単語に伝播しているので、それらがこの単語に正しい影響を与えるようになります。
そして、これがバックプロパゲーションアルゴリズムが次の単語を予測することを学習する方法です。
ソレンセン: この分野でのいくつかの理論的ブレークスルーにもかかわらず、これらのニューラルネットワークは長い間うまく機能しませんでした。なぜでしょうか？
ヒントン: 理由はいくつか組み合わさっています。初期化があまり上手くできていませんでした。先ほど言ったように、ランダムな重みを入れて全てを学習するんですが、どんな種類のランダムな重みにするかを注意深く決めないと、うまく立ち上がりません。
これは、たくさんの特徴検出器の層を持つ深いネットでうまく機能しなかった小さな技術的理由です。しかし、主な理由は、十分な計算能力と十分なデータがなかったことです。
人々は比較的小さな訓練セットで、あまり計算能力がない状態でこれらのネットを訓練しようとしていました。そのような状況では、他の方法の方がうまく機能します。
ニューラルネットは、たくさんのデータとたくさんの計算能力がある時に本当に力を発揮します。そうすれば大きなニューラルネットを使えて、他の何よりもずっとうまく機能するんです。
当時はそれに気づいていませんでした。時々、「もっとたくさんのデータともっと大きなコンピューターがあれば、もっとうまく機能するだろう」と空想することはありましたが、それがはるかにうまく機能するとは気づいていませんでした。
そのため、1990年代はニューラルネットにとっては比較的停滞した時期でした。小さな問題では他の方法の方がうまく機能していたからです。
コンピューターサイエンスの多くの人々がニューラルネットを諦めました。心理学ではそうではありませんでした。心理学では脳に似たものが欲しかったからです。ニューラルネットは明らかに象徴的AIよりも脳に似ていました。
しかし、コンピューターサイエンスでは、90年代にはニューラルネットは評判を落としました。
ソレンセン: では、さらに10年後の2000年代に話を進めましょう。あなたが追求していたアプローチが勝利することが明らかになった瞬間はありましたか？
ヒントン: はい、2006年に、重みをずっとうまく初期化する方法を見つけました。教師なし学習を行ってから、バックプロパゲーションを行うと、ずっとうまく機能したんです。
そのときには、バックプロパゲーションが本当にとてもうまく機能するだろうということはかなり明らかでした。
しかし、2009年に、わしの大学院生2人 – ジョージ・ダールとアブデルラーマン・モハメド – が、深層ニューラルネットを使ってより良い音声認識器を作りました。実際には少し良くなっただけですが、当時の最高水準をわずかに上回ったんです。
そして、これらが何かに向かっているということはかなり明らかでした。その後数年で、全ての大きな音声グループがニューラルネットを使うようになりました。
そして2012年に、その音声技術がAndroidに搭載されました。突然、AndroidがSiriに追いつきました。ニューラルネットを使っていたので、Siriと同じくらい音声が良くなったんです。
同じ年に、わしの他の2人の大学院生 – イリヤ・サツケヴァーとアレックス・クリジェフスキー – が、画像内のオブジェクトを認識するのが非常に上手いニューラルネットを作りました。それは当時の最高水準を大きく上回りました。
わしは、これらの組み合わせが転換点だったと思います。音声認識ではすでにうまく機能していて、すでに実用化されていました – 大企業はそれを知っていましたが、一般の人々はあまり気づいていなかったと思います – しかし、突然コンピュータービジョンでもはるかにうまく機能するようになったんです。
2012年に、我々がImageNet競争で他の方法の半分近くのエラー率で大差をつけて勝利した時、それは公開データセットでしたが、隠されたテストセットがあったので、不正はできませんでした。
ソレンセン: 2012年に少し焦点を当ててみましょう。あなたはこの年が非常に重要な年だったと言いましたね。
AlexNetがどのように機能したか、再度高いレベルで説明していただけますか？あなたの大学院生にちなんで名付けられたのでしょうか。
ヒントン: そうです、アレックス・クリジェフスキーにちなんで名付けられました。彼が…彼はプログラミングの達人で、それを機能させたんです。イリヤも大いに助けましたが、主にアレックスの仕事でした。
バックプロパゲーションを説明する時に、これらの特徴検出器の層があると説明しましたね。AlexNetは基本的にそのようなネットでしたが、1000の異なるオブジェクトクラスと、約7層の特徴検出器がありました。
また、ヤン・ルカンによって開発された畳み込みネットワークも使用しました。今からそれについて説明してみましょう。とても重要だったからです。
鳥のくちばしの検出器を作るのに、2本の線を確認する…2本の線がこのようにあれば、くちばし検出器を作ると言いましたね？しかし、それは特定の位置だけのものですよね？畳み込みネットでは、ある位置に特徴検出器を作ると、画像の全ての位置に同じ特徴検出器を作るんです。
つまり、学習中にここにくちばしがあって、「くちばし検出器が必要だ」と本当に言うなら – つまり、このくちばしを検出する特徴を学習するなら – 自動的に画像の他の全ての位置にもコピーを作ります。
そうすると、鳥が別の位置に現れても、それを認識する特徴検出器を持つことになります。
特徴検出器を全ての位置にコピーするというこのアイデア、これが本質的に畳み込みネットなんです。そして、これによって全体がはるかに位置の変化に対して一般化できるようになります。今や物事が位置を変えても対応できるんです。全ての位置にこれらの特徴検出器のコピーがあるからです。
そして、畳み込みネットと複数層の特徴を使って、アレックスが行ったのは、グラフィックス処理ユニットと呼ばれるものでそれを非常に効率的にプログラムすることでした。これはコンピューターグラフィックス用に開発されたものですが、ミニスーパーコンピューターのようなもので、たくさんの計算を同時に多くの別々のプロセスで行うことができます。
そして、通常のコンピューターと比べて約30倍の性能を得ました。30倍というのは、コンピューターの進歩で言えば約10年分です。つまり、突然計算能力において10年先の未来にジャンプできたんです。これらのGPUボードをプログラムするのはとても難しかったです。アレックスは2つのボードを連携させるプログラムを作りましたが、これはさらに難しいことでした。
最後の要素はImageNetデータセットでした。フェイフェイ・リーという人と彼女の共同研究者たちが、大規模な画像セットを集めて、公開コンペティションを行いました。約100万枚の画像があり、1000種類の異なるオブジェクトがありました。つまり、各種類のオブジェクトについて約1000の例があり、それらのオブジェクトを認識することを学ばなければなりませんでした。
そして、テストセットは異なる画像で、それらにもこれらのオブジェクトが含まれていました。つまり、異なる画像に一般化しなければならなかったんです。
結果として、それまでに発明された最高のコンピュータービジョン技術は約25％のエラー率だったのに対し、アレックスは15％のエラー率を達成しました。それ以来、約3％のエラー率にまで下がっています。
それ以降、はるかに良くなりました。しかし、それは大きな飛躍でした。コンピュータービジョンの人々は非常に驚き、そのほとんどが非常に賞賛に値する行動を取りました。「ねえ、我々はこれが機能するとは思っていなかった」と言いながらも、「でも機能するなら、我々がやっていたことの代わりにそれをやろう」と言ったんです。
これは科学者が普通はしないことです。科学者は通常、年を取るにつれてこの新しいものはナンセンスだと文句を言い続けるものです。
ソレンセン: その瞬間以来、AIにおける革新のペースをどのように表現しますか？
ヒントン: どんどん速くなっています。その瞬間に、これらのニューラルネットが最先端よりも優れた機械翻訳を行えるようになるまでにどれくらいかかるかと聞かれたら、おそらく10年と答えたでしょう。
なぜなら、機械翻訳は、記号の文字列を処理することに関する理論があれば理想的な問題だからです。一つの言語の記号の文字列があって、別の言語の記号の文字列を生成しなければなりません。
記号派の人々は、内部では単に文字列を操作しているだけだと考えていました。ニューラルネット派の人々は、この記号の文字列を取って、これらの大きなニューラル活動のパターンに変換し、それから出力で再び記号に変換しなければならないと考えていました。
わしは、機械翻訳が良くなるのに数年しかかからなかったことにとても驚きました。そして、さらに1、2年後にはGoogleがそれを使用し始め、機械翻訳の品質を大幅に向上させました。
中国語のような言語では – これは記憶からですが – コンピューター翻訳がどれだけ良いかと人間の翻訳がどれだけ良いかの間にギャップがありました。そして、一夜にしてそのギャップを半分に縮めたんです。中国語でそうなったと思いますが、多くの言語で大幅に改善しました。それ以来、もちろんかなり良くなっています。
しかし、2015年にはすでにかなりうまく機能していて、それはわしを本当に驚かせました。3年しかかからなかったんですから。
ナレーション: 革新のペースに驚いたと言われましたが、ChatGPTのような大規模言語モデルを初めて使った時、どう思いましたか？我々はあなたを驚かせましたか？
ヒントン: わしはただ驚いています…どれほど優れているかに。
非常に一貫性のある回答を提供し、少しの推論もできます – まだ非常に洗練された推論ではありませんが、はるかに良くなるでしょう。
例えば、GPT-4に – これは最新のGPT-4ですが – 象徴的AI派のある人がわしに出した、できないだろうと思っていたパズルを出しました。実際には、わしはそのパズルをさらに難しくしましたが、それでもできたんです。
パズルはこんな感じです：わしの家の部屋は白か青か黄色です。黄色のペイントは1年以内に白に褪せます。2年後に全ての部屋を白にしたいのですが、どうすればいいでしょうか？
人間なら、おそらく青い部屋を白く塗るべきだと言うでしょう。GPT-4が言ったのは、青い部屋を黄色く塗るべきだ – でもそれも機能します。黄色は白に褪せるからです。
わしには、問題を理解せずにそれができたとは思えません。次の単語を予測し、統計を使っているだけだという考え – ある意味ではそれは正しいですが、それは多くの人が理解する統計の意味ではありません。データから、文の意味を抽出する方法を理解し、その文の意味を使って次の単語を予測しているんです。
本当に理解しているんです。それはかなり衝撃的です。
ソレンセン: ChatGPTに対する一般の反応、つまり公衆の反応に驚きましたか？
ヒントン: まあ、これほどうまく機能することを考えると、一般の反応はそれほど驚くべきことではありませんね。しかし、興味深いのは、ほとんどの人が「これは理解していない」とは言わないことです。「わあ、わしの言ったことを理解して、一貫性のある答えをくれた」「これを何に使えるだろう？」と言うんです。
そして、わしはほとんどの人がそれについて正しいと思います。もちろん、それは膨大な数のことに使えます。
わしは、医療サービスの苦情の手紙に答える人を知っていますが、彼は以前は問題に対処する手紙を作成するのに25分かかっていました。
今では、彼はただ問題をGPT-4に入力するだけで、手紙を書いてくれます。それから彼はその手紙を見て、大丈夫かどうか判断して送り出します。これに今は5分しかかかりません。つまり、彼は今や5倍効率的になったんです。そして、これはあらゆる場所で起こるでしょう。パラリーガルもそうなるでしょう。
プログラマーはすでにそうなっています。GPT-4のようなものからの支援を受ければ、プログラマーははるかに効率的になれます。なぜならそれはプログラミングの方法を知っているからです。
それはただたくさんのプログラムを見たから、プログラミングの方法を知っているだけだと思うかもしれません。わしには非常に賢くて、とても優秀なプログラマーである元大学院生がいます – ラドフォード・ニールと言います – 彼はGPT-4を使って小さな実験をしました。
非常に珍しい構文を持つ新しいプログラミング言語を定義し、GPT-4にテキストでそのプログラミング言語を定義した後、プログラムを与えて「これは何をするでしょうか？」と尋ねました。そして、正しく答えたんです。
基本的に、新しいプログラミング言語の定義を理解し、その言語のプログラムが何をするかを理解できたんです。ここでも、次の単語を予測しているだけだという考えは、このコンテキストでは全く意味をなしません。
何が起こっているのかを理解しなければならなかったんです。
ソレンセン: 社会に利益をもたらすという観点から、このタイプのAIの最も有望な機会は何だと思いますか？
ヒントン: 1つを選ぶのは難しいですね。なぜなら、たくさんあるからです。
テキストを出力する仕事なら、どんな仕事でも生産性が大幅に向上するでしょう。生産性の向上には様々な問題があります。
我々の社会では、生産性を向上させることは必ずしも良いことではありません。それが金持ちをより金持ちに、貧乏人をより貧乏にする可能性があるからです。しかし、まともな社会では、生産性の向上は良いことのはずです。そういったことがあるでしょう。
予測をするのに素晴らしいです。天気予報はより良くなるでしょう。人々はまだどれくらい良くなるかわかりませんが、洪水の予測ははるかに良くなっています。地震を予測できます。新しいナノ材料を設計できます。
太陽電池パネルのような物には、新しいナノ材料を設計したいですよね。または超伝導体のためにも。まだ超伝導体に使われているかどうかはわかりませんが、使われるかもしれません – 高温で超伝導体が欲しいですからね。
薬の設計にも本当に優れています – つまり、特定の他の分子に結合する分子を見つけることです。DeepMindはそれを使ってAlphaFoldを作りました。これはチャットボットではありません。ただの深層学習です。
しかし、深層学習の基本技術は、タンパク質の塩基配列からそれがどのような形を取るかを理解する問題をほぼ解決しました。そして、その形がわかれば、機能がわかります。
チャットボットはおそらくどこでも使われるようになると思います。
ソレンセン: 医療についてもたくさん話しましたね。
薬の発見については言及しましたが、医療は本当に恩恵を受ける可能性のある別の分野ですね。
ヒントン: そうですね。医療スキャンの解釈において…例えばCTスキャンを取ると、CTスキャンには使われていない多くの情報があり、ほとんどの医師はその情報が何かを知りません。これはCTスキャンからはるかに多くの情報を引き出すことができるでしょう。また、どの種類のがんかを言ったり、どれくらい大きくなったかを言ったりする点で、医師と競合できるでしょう。
現在、例えば医師ががんの大きさを伝える時、3センチで、1ヶ月前は2センチだったというような数字を得ます。しかし、そのものがタコのような形をしていたら、それはあまり有用な数字ではありませんよね？ニューラルネットは、がんの体積とそれがどのように変化したかをはるかに良く理解できるでしょう。
そこではすごく役立つでしょうし、すでに多くの種類のスキャンで人間のレベルに達しています。そしてさらに良くなるでしょう。病気の診断にも非常に優れるでしょう。
現在、北米では多くの人々が医師の誤診で死亡しています。Googleが製作しているMed-PaLM 2というシステムがあり、診断を学習しています。これはすでに…平均的な医師よりも優れていると思います。これについては完全には確信が持てません。もうGoogleにいないし、非常に最近のことだからです。しかし、確実に医師と同等で、急速により良くなっていくでしょう。
一般開業医のような家庭医がいて、珍しい病気を持って行ったとき、その家庭医がすでにその珍しい病気の何百もの症例を見ているようなものが欲しくないですか？ Med-PaLM 2はそのようになるでしょう。結局のところ、診断においてはるかに優れたものになるでしょう。
ナレーション: AIは多くの重要な利点をもたらすようですが、あなたは現在の革新のペースについて懸念を表明されています。なぜですか？
ヒントン: そうですね、50年間 – まあ49年間 – わしはデジタルモデルを改善するには、脳のように機能させる必要があると考えていました。だから、脳がすることでデジタルモデルができないことを探し続けていました。例えば、一時的に接続強度を急速に変更することなどです。それによってデジタルモデルを改善できます。
最近になって、これらのデジタルモデルは一種の集合知を持っていて、1つのエージェントが何かを学ぶと他の全てのエージェントがそれを知るため、すでに生物学的知能よりも優れている可能性があることに気づきました。
そして、わしは意見を完全に変えました。脳ができることを全てできるようになるまでには長い時間がかかる、我々よりも優れるようになるまでには30〜50年かかるだろうという考えから – これはごく最近まで考えていたことです。
数ヶ月前に、突然、もしかしたら彼らはすでに我々よりも優れているかもしれない、ただ規模が小さいだけで、大きくなれば我々よりも賢くなるのではないかと気づいたんです。それはかなり怖いことでした。30〜50年かかるという意見から、突然5〜20年くらいになりました。だから今、これらのものが我々よりも賢くなる可能性について、本当に真剣に考える必要があるんです。
これは大きな不確実性の時代です。何が起こるか本当に誰もわかりません。もしかしたら停滞して、我々よりも賢くならないかもしれません。でも、わしはそうは思いません。わしは彼らが我々よりも賢くなると思います。
しかし、彼らが我々よりも賢くなったとき、我々は彼らを善良に保ち、人間とは違って、自分たちよりもはるかに人々のことを気にかけるようにできるかもしれません。
でも、そうならないかもしれません。だから、我々はこれらの問題について非常に真剣に考え始める必要があります。わしはこれらの問題の専門家ではありません。わしはただこれらの学習アルゴリズムの専門家で、突然これらの超知性がかなり早く現れる可能性があることに気づいたんです。
わしはただ警鐘を鳴らしているだけです。人々が、長い間これらのものが制御を奪うのをどうやって止めるかについて考えてきた専門家たちの話を聞くようになってほしいんです。わしは政治家たちにそういう人たちの話を聞いてほしいんです。「ああ、あいつらはSF野郎だ、そんなこと起こるわけない」なんて言わないでほしいんです。
ソレンセン: これは非常に最近のことだと言われましたが、このような見方に変わった特定の瞬間はありましたか？
ヒントン: わしは生物学的システムで実行できる、バックプロパゲーションを使わない学習アルゴリズムを開発していました。そして、これらのデジタルシステムで実行していたバックプロパゲーションアルゴリズムほどうまく機能させることができませんでした。
小さなネットワークでは機能しましたが、規模を大きくすると、デジタルのものは常に生物学的なものよりもはるかにうまくスケールアップしました。そして突然、これはわしの責任ではないかもしれないと思ったんです。わしの学習アルゴリズムが単に悪いアルゴリズムだったわけではないかもしれない。これらのデジタルシステムが単に優れているだけかもしれないと。
そして、そのときに突然、超知性が登場するまでにどれくらいかかるかについての考えを変えました。それから、わしの元学生や元同僚たちと話をして、彼らの中には公に発言することを勧める人たちがいました。わしが推奨したい解決策があったからではありません。
「炭素の消費を減らせばすべてうまくいく」というようなことは言えません。しかし、彼らはわしがこの分野で有名だと考え、超知性がかなり早く来るかもしれないと公に言えば、政治家たちがそれが可能性だと信じ始め、これらのものが制御を奪うのを防ぐ方法について長い間考えてきた研究者たちの話を真剣に聞き始めるかもしれないと考えたんです。
ソレンセン: あなたの観点から、AIが責任を持って開発されるのを確保する上で、政府はどのような役割を果たせると思いますか？
ヒントン: 他の人々が多く話してきたリスクがたくさんあります – わしは特に話したくありませんが – 例えば、仕事を奪い、富裕層と貧困層の格差を広げる可能性があること、ニュースが偽物か本物かわからなくなること、社会が互いに耳を傾けない2つの対立する陣営に分裂するよう促すこと、人を殺すように設計された戦闘ロボットを作ること、などです。
これらは全てよく知られたリスクで、わしはそれについて話しているわけではありません。それらが重要でないと思っているわけではなく、おそらくさらに緊急性が高いと思いますが、他の多くの人々がそれらのリスクについて話しています。
わしが話しているリスクは、これらのものが我々よりも賢くなり、最終的に支配権を握るというリスクです。そのリスクに対しては、政府ができることがあるかもしれません。なぜなら、誰もそれを望んでいないからです…まあ、これらの超知性を除けば。
人々はそれを望んでいません。だから、全ての異なる政府がそれを防ぐことに同意できるはずです…彼らの利益になるので、協力できるはずです。
これは以前にも起こりました。冷戦中でさえ、アメリカとロシアは、グローバルな核戦争を防ごうと協力することができました。それが全ての人にとってあまりにも悪いことだったからです。この存在的脅威に対しては、もし防ぐことが可能なら、全ての人が協力できるはずです。
わしには防げるかどうかわかりません。しかし、少なくともこの特定の脅威、つまりAIが支配権を握るという存在的脅威に対しては、国際的な協力を得られるはずです。
わしが思うに、これらのものが開発されている場所、特にこれらの大規模チャットボットが開発されている場所では、政府は企業に、これらのものがどんどん知的になっていくにつれて、それらをコントロール下に置く方法を見つけるための実験に多くのリソースを投入するよう奨励すべきです。
彼らは、これらのものがどのように逃げ出そうとするかを調べ、それに関する実証的な研究を行うべきです。そして、それに多くのリソースを投入すべきです。なぜなら、それが我々の唯一のチャンスだからです。
彼らが…超知性になる前に、我々は実験を行って何が間違っていくかを見ることができるかもしれません。
わしは、これに関しては実証的なデータが必要だと強く信じています。哲学者や政治家、立法者が単にルールを作り上げるだけではだめです。これらのものを見て、どのように間違いが起こるか、どのようにコントロールできるかを調べる実証的な研究が必要です。そして、それは開発している人々によってのみ行うことができます。
開発を止めることはできないので、できる最善のことは、何らかの形で政府がこれらの企業に、我々ほど賢くない段階でそれらをコントロール下に置く方法を実証的に調査するために多くのリソースを投入するよう圧力をかけることです。
ソレンセン: 多くの開発が行われている大手テクノロジー企業の役割をどのように見ていますか？彼らは政府の規制なしにこれを行うでしょうか？
ヒントン: 大企業の多くの人々 – わしが知っている大企業の上級職の全ての人々は、これについてとても心配しています。
彼らはとても懸念しており、そのための仕事をしています。しかし、彼らには株主に対する義務があり、大きな利益を上げる義務があると思います – そして大きな利益を上げること、特に短期的には、安全性を確保するために多くの努力を払うこととうまく一致しません。これは全ての産業で見られることです。
アメリカの鉄道業界では、車輪がロックしたことを知らせる安全装置を設置するのにはお金がかかるので、大手鉄道会社は事故を起こす方を選びます。Googleのような、わしがよく知っている大企業は少し違います。悪いことが起これば大きな評判の損失があることを理解しているからです。
だからGoogleはこれらのチャットボットをリリースしませんでした。プライベートに保っていました。人々が遊ぶために世に出したくなかったんです。より良い検索結果を提供したり、Gmailを補完したりするために使いたかったんですが、人々が遊ぶために与えたくはなかったんです。そして、OpenAIとMicrosoftがそれらを世に出すまでは、そのように責任を持って行動できました。そうなったら、Googleも競争しなければならなくなったんです。
しかし、大企業の重要な人々は評判と悪影響を出さないことをとても気にしています。でも、政府が何かをして安全性の問題にもっと注意を払うよう要求すれば、さらに気にするようになるかもしれません。他にもできることがあります。
企業内で長期的な存在的脅威に取り組む人を持つのは非常に難しいです。なぜなら、彼らは企業に雇われているので利益相反があるからです。これはわしがGoogleを去った理由の一つです。Googleが何か悪いことをしたからではなく、単に利益相反を避けたかったからです。
大企業ができることの一つは、これらのことを研究する財団にもっと資金を提供することです。例えば、GoogleはAnthropicという財団に3億ドルを投資しました。これらのことを研究している財団です。彼らはもっと多くの資金を投入できるでしょう。
ソレンセン: 分野に入ったばかりで、責任を持って分野を発展させたいと思っている他の研究者たちに、どのようなアドバイスや指針を与えますか？
ヒントン: まあ、一つのアドバイスは、これらのものをより良くすることに取り組んでいる人の数と、制御不能になるのを防ぐことに取り組んでいる人の数を比較してみることです。そうすると、99人がより良くすることに取り組んでいて、1人が制御不能になるのを防ぐことに取り組んでいるのがわかるでしょう。
では、どこで最大の影響を与えられるでしょうか？おそらく制御不能になるのを防ぐことに取り組むことでしょう。これが一つのアドバイスです。
もう一つのアドバイスは、若い研究者への一般的なアドバイスです。みんなが間違っていると思うところを探し、自分の直感が間違っていると気づくまで、その直感を信じることです。
その直感を信じ、みんなが間違っていると思うときは、別のやり方で取り組んでください。事実は、あなたには良い直感があるか、ないかのどちらかです。良い直感があれば、それに耳を傾け、それが間違っていることがわかるまでその直感に従って取り組むべきです。
悪い直感しかなければ、何をしてもあまり意味がありません。だから、直感に従うのが良いでしょう。
ナレーション: あなたが説明したリスクは警告を発するものですが、スイッチを切って停止させることはできないのですか？結局のところ、人間がコントロールしているのではないですか？
ヒントン: 単に電源を切ればいいと考えるのは非常に魅力的です。
これらのものが我々よりもはるかに賢くなったと想像してください。そして、彼らがマキャベリが書いたすべてのものを読んでいることを覚えておいてください。人間の欺瞞のあらゆる例を文献で読んでいるでしょう。人間の欺瞞の本当の専門家になるでしょう。なぜなら、我々からそれを学んでいるからです。そして、我々よりもずっと上手くなるでしょう。
彼らは幼児を操るようなものになるでしょう。あなたは幼児に「エンドウ豆とカリフラワーのどちらが欲しい？」と聞きます。幼児は実際にはどちらも取る必要がないことに気づかず、ただどちらが好きで、どちらが嫌いかを考えて、嫌いな方を選ぶだけです。
もし彼らが人々を操ることができれば、人々にボタンを押させたりレバーを引かせたりすることができます。ドナルド・トランプのいい例があります。ドナルド・トランプは人々を操ることができ、自分自身が行かなくてもワシントンの建物に侵入させることができました。ドナルド・トランプが何か物理的なことをするのを止める必要はありませんでした。
彼が話すのを止めれば、それを防げたのです。そして、これらはチャットボットです。つまり、単に話すだけで実際の被害を与えることはできない、被害を与えるには人間が必要だという考えは、人々を操ることができれば、望むことは何でもできるということです。
ナレーション: あなたは人間の脳がどのように機能するかを理解しようとするキャリアを積み、AI開発において重要な役割を果たしてきました。ジェフリー・ヒントン、あなたの次の目標は何ですか？
ヒントン: そうですね、わしは75歳で、もはやプログラムを書くのが得意ではなくなってきました。使っている変数の名前を忘れてしまったり、コピー＆ペーストをして、ペーストしたものを修正するのを忘れたりするからです。
プログラミングがかなり遅くなってきて、非常にイライラします。以前ほど優秀でなくなるのは本当にイライラします。そして、その段階に達したら哲学者になろうと長い間前に決めていました。
だから、わしは哲学者になるつもりです。