この動画では、Meta副社長兼NYU教授のヤン・ルカンが現在のAIシステムの根本的な限界について詳しく解説している。言語操作に長けているために知的に見えるAIも、実際には物理世界の理解、持続的記憶、推論、計画といった知的行動の本質的特性を欠いているという。機械学習の三つのパラダイム(教師あり学習、強化学習、自己教師あり学習)の歴史と限界を説明し、なぜ言語理解では成功したAIが物理世界の理解で躓くのかをモラベックのパラドックスを交えて分析している。さらに情報量の測定における相対性の概念についても言及し、エントロピーや複雑性の定義に関する哲学的考察を展開している。

現在のAIシステムの根本的な限界
現在のAIシステムは多くの面で非常に愚かです。私たちは、これらのシステムが言語を非常に上手く操作できるために、賢いと思い込まされているのです。しかし、これらのシステムは物理世界を理解することができません。私たちが持っているような持続的記憶も本当は持っていませんし、本当に推論することもできませんし、計画を立てることもできません。そして、これらは知的行動の本質的特性なのです。
私と同僚たちがFAIRとNYUで取り組んでいることの一つは、まだ深層学習に基づいた新しいタイプのAIシステムを設計することです。このシステムは物理世界を理解し、持続的記憶を持ち、推論と計画ができるようになるでしょう。
私の意見では、この設計図に基づいてこれらのシステムを構築することに成功すれば、それらのシステムは感情を持つようになるでしょう。恐怖や興奮、高揚感のような感情を持つようになるのです。なぜなら、これらは結果の予期だからです。
これらのシステムは基本的に、私たちが設定した目標を達成するために働くことになります。私たちは彼らに達成すべき目標を与え、そうすると彼らは「この目標を達成するためにどのような行動を取ることができるだろうか」と考えるようになります。もし彼らがこの目標が達成されることを事前に予測できれば、それは言わば彼らを幸せにするでしょう。もし達成できないと予測すれば、それは彼らを幸せにしないでしょう。
ある程度、彼らは感情を持つことになるでしょう。なぜなら、彼らが取るかもしれない一連の行動の結果を予期することができるようになるからです。しかし、私たちは怒りや嫉妬のようなものを彼らに組み込むつもりはありません。
意識についての根本的な問題
意識も組み込むつもりはありませんが、意識は別の問題です。私たちは意識が何なのか本当は分からないのです。定義がありません。測定可能なもので、何かが意識を持っているかどうかを教えてくれるようなものは本当にないのです。
たとえば動物を観察しても同様です。私たちはおそらく皆、類人猿やサルは意識を持っていると同意するでしょうし、多分ゾウも、そしてそのような動物たちも意識を持っているでしょう。これはロジャー・ペンローズが私たちのインタビューで言ったことですが、しかし犬は意識を持っているのでしょうか。ネズミは意識を持っているのでしょうか。境界線はどこにあるのでしょうか。
良い定義がないため、私たちには本当に分からないのです。
機械学習の進化と三つのパラダイム
あなたは以前、機械学習はひどいと言っていましたが、何か変わったことはありますか。
私たちは、人間や動物と同じくらい効率的に学習できる機械学習システムを構築する新しい方法に向けて取り組んでいます。現在はそうではないからです。
過去数十年にわたって機械学習がどのように進歩してきたかの歴史を少しお話しできます。機械学習には実際に三つのパラダイムがあります。
一つ目は教師あり学習と呼ばれるもので、最も古典的なものです。教師あり学習システムを訓練する方法は、例えば画像認識を意図したシステムに、テーブルの写真を見せて「これはテーブルです」と教えることです。システムがテーブル以外の何かを答えた場合、求める出力に近づくように内部構造のパラメータを調整します。
テーブルや椅子、車、猫、犬の多くの例でこれを続けていると、最終的にシステムは訓練したすべての画像を認識する方法を見つけるだけでなく、訓練したものと似ている見たことのない画像も認識できるようになります。これは汎化能力と呼ばれます。
もう一つのパラダイムは強化学習と呼ばれるもので、動物や人間の学習方法により近いと考えられていました。強化学習では、システムに正しい答えが何かを教えません。答えが良かったか悪かったかだけを教えます。ある程度、これは人間や動物の学習の一部を説明できます。
自転車に乗ろうとして、自転車の乗り方を知らないとします。しばらくして転ぶので、何か悪いことをしたと分かり、戦略を少し変えるのです。最終的に乗れるようになります。
しかし、強化学習は極めて非効率であることが分かりました。チェスや囲碁、ポーカーなどをプレイするシステムを訓練したい場合にはとても良く機能します。システムに何百万回も自分自身と対戦させ、基本的に自分自身を微調整させることができるからです。
しかし、現実世界では本当には機能しません。車に自動運転を学習させたい場合、強化学習では行いません。何千回もクラッシュすることになるでしょう。ロボットに物を掴む方法を学習させたい場合、強化学習は解決策の一部にはなり得ますが、完全な答えではありません。十分ではないのです。
自己教師あり学習の革命
第三の学習形態があり、それは自己教師あり学習と呼ばれます。これが自然言語理解とチャットボットの最近の進歩を可能にしたものです。
自己教師あり学習では、システムに特定のタスクを達成するように訓練しません。基本的に入力の構造を捉えるように訓練するだけです。これがテキスト、つまり言語に使用される方法は、テキストの断片を取り、いくつかの単語を削除するなどして何らかの方法でそれを破損させ、次に欠けている単語を予測するように大きなニューラルネットワークを訓練することです。
これの特別なケースは、テキストの断片を取り、そのテキストの最後の単語が見えないようにして、システムにそのテキストの最後の単語を予測するように訓練することです。これが大規模言語モデルが訓練される方法であり、すべてのチャットボットがこの方法で訓練されています。技術的には少し異なりますが、それが基本原理です。
これは自己教師あり学習と呼ばれます。システムをタスクのために訓練するのではなく、入力の内部依存関係を学習するように訓練するのです。
この成功は驚異的でした。驚くほど良く機能し、最終的に言語を本当に理解し、教師あり学習や強化学習を使って適切に質問に答えるように微調整すれば、質問を理解できるように見えるシステムが得られます。これが業界の誰もが取り組んできたことです。
物理世界理解の根本的な困難
しかし、そのモデルはシステムに物理世界を理解させたい場合には機能しません。何かが欠けています。
はい、それは単に物理世界が言語よりもはるかに理解が困難だからです。私たちは言語を知性の象徴と考えています。人間だけが言語を操作できるからです。しかし、言語はシンプルであることが分かりました。離散的だからシンプルなのです。離散的なシンボルの列であり、辞書には有限の数の可能な単語しかありません。
次にどの単語が来るかを正確に予測するようにシステムを訓練することは決してできませんが、辞書のすべての単語に対するスコアのようなものや、その位置に現れる辞書のすべての単語に対する確率を生成するように訓練することはできます。このようにして予測の不確実性を処理することができます。
しかし、ビデオで何が起こるかを予測するようにシステムを訓練することはできません。人々はこれを試みてきました。私は20年間これを試みてきました。多くの人がこのアイデアを持っていました。ビデオで何が起こるかを予測するようにシステムを訓練できれば、そのシステムは暗黙的に世界の根本的な構造を理解するだろう、つまり直感的物理学、動物や私たち全員が赤ちゃんとして学ぶすべてのことを理解するだろうというアイデアです。
物理的直感ですね。もし私が物体を取って手を離せば、それは落ちるということを知っています。基本的に重力が物体を地面に向かって引きつけることを学んだのです。人間の赤ちゃんは大体9ヶ月でこれを学びます。学ぶのに約9ヶ月かかります。
今日のAI開発の限界は、現実についての私たちの知識なのかもしれません。私たちが知っている以上のものを置き換えることはできません。重力がどのように生まれたか分からないし、量子世界がどのように古典的世界に変換されるかも分からないのです。
はい、でもそれはより単純な問題です。あなたの猫や犬が数ヶ月で重力について学ぶことができるからです。猫は本当にこれが得意です。つまり、複雑な行動を計画でき、あらゆる種類のものに登ったり、ジャンプしたりできます。明らかに彼らは私たちが直感的物理学と呼ぶものの非常に良い直感的理解を持っています。
私たちはまだこれをコンピュータで再現する方法を知りません。その理由は、これがAI研究者がモラベックのパラドックスと呼んでいるものの別の例だからです。
ハンス・モラベックはロボット工学者で、彼はこの点を指摘しました。なぜコンピュータにチェスをさせたり数学的パズルを解かせたりすることはできるのに、動物ができるような物体の操作や、ジャンプのような物理的なことをさせることができないのか、という点です。
これは、離散的な物体とシンボルの空間はコンピュータによって簡単に操作されるが、現実世界はまだあまりにも複雑であり、一方のケースで機能する技術が他方のケースでは機能しないというパラドックスの別の例です。
これを視覚化する良い方法は、視覚や触覚などの感覚を通して私たちに届く情報量が、言語を通して得ることができる情報量と比較して絶対に巨大であることです。
これは、なぜ司法試験に合格したり数学的問題を解いたり、良い音で聞こえるテキストを書いたりできるLLMチャットボットがある一方で、まだ家庭用ロボットがないのか、猫や犬ができるタスクを達成できるロボットがまだないのか、完全に自律的なレベル5の自動運転車がまだないのか、そして確実に17歳の子供のように約20時間の練習で運転を学習できる自動運転車がないのかを説明するかもしれません。
明らかに私たちは大きな何かを見逃しているのです。私たちが見逃しているのは、視覚のような複雑な感覚入力を理解するようにシステムを訓練する方法です。
情報理論とエントロピーの相対性
あなたのLinkedInとFacebookで、AIとエントロピーを関連付けていますが、その関連性は何ですか。
これは私の少しの強迫観念でした。コンピュータサイエンス、物理学、情報理論、多くの異なる分野における多くの問題の根本にある大きな問題があります。それは情報をどのように定量化するかという問題です。メッセージにどれくらいの情報が含まれているかということです。
私が何度も指摘してきた点は、メッセージ内の情報量は絶対的な量ではないということです。なぜなら、それはこのメッセージを解釈する人に依存するからです。センサーから、メッセージから、誰かがあなたに言った言語から抽出できる情報量は、あなたがそれをどのように解釈できるかに依存します。
したがって、情報を絶対的な用語で測定できるというアイデアはおそらく間違っています。情報のすべての測定は、その情報を解釈する特定の方法に相対的です。これが私が主張していた点です。
これは非常に広範囲にわたる結果をもたらします。なぜなら、情報を測定する絶対的な方法がないとすれば、それは物理学における多くの概念が実際には客観的な定義を持たないことを意味するからです。エントロピーのように。
エントロピーは物理システムの状態についての私たちの無知の尺度であり、もちろんそれはあなたがそのシステムについてどれくらい知っているかに依存します。私はこの、相対的なエントロピー、複雑性、または情報内容を定義する良い方法を見つけるというアイデアにある種強迫的になってきました。


コメント