
12,426 文字

もう一つ皆さんを驚かせるかもしれないことをお伝えします。私はもうLLM(大規模言語モデル)にそれほど興味がなくなりました。
ヤン・ルカンがNVIDIAのカンファレンスで話し、驚くべきショッキングなニュースを明かしました。彼はLLMのファンではないのです。聴衆は笑いますが、これは彼がかなり前からずっと言っていることだからです。彼はAGI(汎用人工知能)への道筋はLLMを通じては実現しないと考えており、少なくともLLMは私たちをそこに導く最終的なアーキテクチャではないと考えています。そして彼はJEPAと呼ばれる新しいアーキテクチャについて話しています。これは世界モデルのアーキテクチャで、目標は現実世界で安全に計画し、推論し、行動できるような世界モデルを持つことです。
興味深いことに、デミス・ハサビスも最近同じようなことを言っており、AIのための世界モデルの構築について話しています。彼はまた、GoogleのプロジェクトAstraについても言及しました。これはAIがユーザーがメガネを着用して世界を見る目を通して世界を体験し、それについて話し、物理的な世界をより良く理解できるようにするものです。
これはメタとヤン・ルカンだけでなく、Google DeepMindのデミス・ハサビスなど他の人々も話している内容であることを覚えておいてください。おそらくLLMは私たちをここまで連れてきましたが、AGIに到達するためには、追加すべきいくつかの要素や、場合によっては完全に新しいアーキテクチャさえ必要かもしれません。
それでは、このインタビューのハイライトをいくつか見てみましょう。
「これらは、産業界の製品担当者の手にある最後のものです。端的に改良し、より多くのデータ、より多くの計算能力を得て、合成データを生成しようとしています。私はより興味深い問題があると思います。どうやって機械に物理的な世界を理解させるか、これはジェンセンが今朝の基調講演で話した内容です。どうやって持続的な記憶を持たせるか、あまり多くの人が話さないことですが。そして最後の2つは、どうやって推論と計画を可能にするかです。もちろんLLMに推論させる努力はされていますが、私の意見では、それは推論を見る非常に単純化された方法です。私はもっと良い方法があると思います。
だから私は、テクノロジーコミュニティの多くの人々が5年後には興奮するようなことに今興奮しています。しかし今はそれほど興奮して見えないかもしれません。なぜなら、それは何か難解な学術論文だからです。」
彼はかなり前からこのようなことを言っています。みなさんはこれが5年後どこに行くのか見えていない、と。5年後にはみなさんも理解するでしょう。みなさんもそれに興奮するでしょう。しかし今はその大きな絵が見えていないのです。そしてそれはトークンや大規模言語モデルにはないでしょう。
世界モデルとは何かについては少し議論がありました。ジム・ファン博士が話していますし、もちろんヤン・ルカンも話しています。最初に話し始めた人は誰だと思いますか?もはや冗談のようなものですが、そうユルゲン・シュミットフーバーです。彼は機械学習とAIに関するほぼすべてを発明したと主張していますが、それを証明する論文を持っています。ジム・ファン博士がSoraのようなAIビデオジェネレーターには一種の内部物理モデルがあると話していた時、多くの混乱が生じました。多くの人々が反論し、これらのAIビデオモデル内で何らかの重い物理数学シミュレーションが行われていると考えるのは愚かだと言いました。
彼が物理モデルや世界モデルを持つことで意味したのは、そういうことではありません。彼が説明したのは次のようなことです。例えば、子犬がいて、ボールを取りに行くように教えようとします。最初は子犬はそれが絶望的に下手です。あなたが手をこのように動かしたときにボールに何が起こるのかを理解していません。しかし時間とともに、子犬はボールと物理学、つまりボールが投げられたときにどのように振る舞うかについての心的モデルを構築します。別の言い方をすれば、その子犬は物理学がどのように機能するかについてある種の内部モデルを構築したということです。明らかに背後にある数学を理解しているわけではありません。ここでは必ずしも深い科学的理解について話しているわけではありません。実世界で起こることを予測する一種の心的モデルについて話しているのです。
ここでジム・ファン博士はヤン・ルカンに敬意を表しています。そこでヤンはこれらの世界モデルがなぜそれほど重要なのかを説明しています:「このような世界モデルを使用して、動物は非常に少ない試行で新しいスキルを学ぶことができます。彼らは自分の行動の結果を予測できます。彼らは推論し、計画し、探索し、問題に対する新しい解決策を想像することができます。重要なことに、彼らは未知の状況に直面したときに危険な間違いを避けることもできます。」
次に彼は世界モデルとは何か、そしてなぜLLMがこれらの世界モデルを構築する正しい方法ではないかもしれない理由についても言及しています。なぜなら、基本的にこれらのAIモデルがすべて構築されているトークンが、その中に入るデータだからです。トークンは大規模言語モデルの単語、画像、ビデオの一部、または例えばAlphaFoldのようなタンパク質の折りたたみ方などを指します。トークンは何でもいいのです。AIモデルが次のトークンを予測できるような小さなデータポイントです。
しかしヤンが言うように、トークンは離散的です。つまり、それらは個別のものです。それらはあるかないかのどちらかです。彼が私たちに必要かもしれないと言っているのは、離散的でないもの、もっと連続的なものです。例えば、私たちが世界を見るとき、色のスペクトルが見えます。それらは連続的です。単に決まった数ではありません。それに対して、同じ画像をコンピュータ画面で見ると、それはより離散的で、モニターが表示できる色の数は限られています。
これは彼が話していることを理解するために理解しなければならないことです。なぜなら、彼は次世代のAIモデルのアーキテクチャは基本的に少し異なる必要があると言っているからです。聞いてみましょう:
「しかし、もし物理的な世界について推論し、持続的な記憶を持ち、計画するのがLLMでないなら、それは何なのでしょうか?基礎となるモデルは何になるのでしょうか?」
「多くの人々が世界モデルに取り組んでいます。世界モデルとは何か?世界モデルは私たち全員が心の中に持っているものです。これは私たちが本質的に思考を操作することを可能にするものです。現在の世界のモデルを持っています。このボトルの上から押すと、おそらくひっくり返るでしょう。しかし底から押すと、滑るでしょう。そして強く押しすぎると、破裂するかもしれません。私たちは人生の最初の数ヶ月で獲得する物理的な世界のモデルを持っており、それが私たちが実世界に対処することを可能にしています。そして実世界に対処することは、言語に対処するよりもはるかに難しいのです。
だから、本当に実世界に対処できるシステムに必要なアーキテクチャのタイプは、今私たちが扱っているものとは全く異なると思います。LLMはトークンを予測します。しかしトークンは何でもありえます。私たちの自律走行車モデルはセンサーからのトークンを使用し、運転するためのトークンを生成します。ある意味では、それは物理的な世界について推論しています。少なくとも安全に運転できる場所や柱にぶつからない場所については。なぜトークンは物理的な世界を表現する正しい方法ではないのでしょうか?」
「トークンは離散的です。一般的にトークンについて話すとき、有限の可能性のセットについて話しています。典型的なLLMでは、可能なトークンの数は10万程度のオーダーです。システムをトークン予測のためにトレーニングするとき、テキストのシーケンスに続く正確なトークンを予測するようにトレーニングすることは決してできません。しかし、辞書内のすべての可能なトークンの確率分布を生成することはできます。それは0から1の間の10万の数字の長いベクトルです。これをどうするか私たちは知っています。
しかし、ビデオや高次元で連続的な自然データでこれをどうするかは知りません。ピクセルレベルでビデオを予測するようにトレーニングされたシステムで世界を理解したり、世界の心的モデルを構築したりしようとするあらゆる試みは基本的に失敗しています。画像の良い表現を学ぶようにニューラルネットをトレーニングするためのあらゆる技術、破損または変換されたバージョンから画像を再構築することで機能するすべての技術は基本的に失敗しています。完全に失敗したわけではありません。ある程度は機能しますが、私たちが共同埋め込み(joint embedding)と呼ぶ代替アーキテクチャほど上手く機能しません。
これらは基本的にピクセルレベルで再構築しようとはせず、トレーニングされている画像やビデオ、自然信号の抽象的な表現を学習しようとするものです。その抽象的な表現空間で予測を行うことができます。私がよく使う例は、この部屋のビデオを撮って、カメラをパンして、ここで止め、システムにそのビデオの続きを予測するよう求めると、それはおそらく「それは部屋で、人々が座っていて…」と予測するでしょう。しかし、あなた方一人一人がどのように見えるかを予測することはできません。それは最初のビデオセグメントからまったく予測できないことです。
したがって、世界には予測できないことがたくさんあります。システムをピクセルレベルで予測するようにトレーニングすると、発明することができない詳細を考え出そうとしてすべてのリソースを費やします。それは完全な資源の浪費です。私たちが試みた、そして私は20年間これに取り組んできましたが、自己教師あり学習を使用してビデオを予測することでシステムをトレーニングするあらゆる試みは機能しません。表現レベルで行う場合にのみ機能します。
これは、それらのアーキテクチャが生成的ではないことを意味します。基本的に、トランスフォーマーにはその能力がないと言っているのですが…」
「しかし人々はビジョントランスフォーマーを持っていて、良い結果を得ています。」
「それは私が言っていることではありません。それらのアーキテクチャにトランスフォーマーを使用することができます。私が話しているアーキテクチャのタイプはJEPA(Joint Embedding Predictive Architecture)と呼ばれます。ビデオの一部や画像、あるいは何でも、テキストでさえ取り、エンコーダを通して実行します。表現を得ます。そしてそのテキスト、ビデオ、または画像の変換バージョンの続きを取り、同様にエンコーダを通して実行します。そして入力空間ではなく、その表現空間で予測を行うのです。」
「つまり、同じトレーニング方法を使用して空白を埋めることができますが、生の表現ではなく、この潜在空間でそれを行っているということですね。」
「その通りです。そしてそこでの難しさは、注意深くしないと、スマートな技術を使用しないと、システムは崩壊するということです。基本的には入力を完全に無視して、入力についてあまり情報を提供しない一定の表現を生成するだけになります。だから、5〜6年前までは、これが起こるのを防ぐための技術はありませんでした。
さて、エージェントシステムや推論や計画ができるシステムにこれを使用したい場合、必要なのはこの予測器です。ビデオの一部を観察すると、世界の現在の状態についてのアイデアが得られます。そして必要なのは、私が取ろうと想像している行動を考慮して、世界の次の状態がどうなるかを予測できることです。つまり、世界の状態と想像する行動が与えられた予測器が必要で、それが世界の次の状態を予測します。そのようなシステムがあれば、特定の結果に到達するための一連の行動を計画することができます。
これが私たち全員が計画と推論を行う本当の方法です。トークン空間ではそれを行いません。」
「非常に単純な例を挙げましょう。今日、いわゆるエージェント推論システムがたくさんあります。それらがどのように機能するかというと、さまざまな方法で確率的に異なるトークンを生成するために、大量のトークンシーケンスを生成します。そして、生成されたすべてのシーケンスの中から最良のシーケンスを選択しようとする第二のニューラルネットがあります。それはプログラムの書き方を知らずにプログラムを書くようなものです。ランダムなプログラムを書いて、それらすべてをテストし、実際に正しい答えを与えるものを保持します。それは完全に絶望的です。」
「実際に、非常に短いプログラムに対してはスーパー最適化を行うことを示唆する論文がありますが…」
「短いプログラムなら可能です。しかし長さとともに指数関数的に増加します。だからある時点で完全に絶望的になります。」
興味深いことに、彼はある意味で怖いと言える予測をしています。それは歴史的に、私たちは時々新しいブレークスルーを得て、これで私たちをAGIに導くだろうと言いますが、歴史的にはそうなっていません。私たちは常にAIウィンターと呼ばれるものに遭遇し、前進を妨げる障壁にぶつかってきました。
数年前、ChatGPTが登場してイリヤ・サツケヴァーがポッドキャストで話していたとき、彼は基本的に「今回は違う」と言っていました。これはGPT-4の前、そして他の人々が行ってきたすべてのブレークスルーの前でした。もちろん、イリヤはOpenAIを離れてSSI(安全な超知能)を立ち上げました。彼は「いいえ、今回は本物です。今回のこの波は、少なくともしばらくの間、私たちにAIウィンターをもたらすことはないでしょう。これは私たちを非常に長い道のりを運んでくれるでしょう」と言っていました。
そして現在、それは主流の見解です。ダリオ・アモデイは「すぐにデータセンターに天才の国を持つことになるだろう」と言っています。ヤンがその予測についてどう考えているか聞いてみましょう。
理解すべき重要な点は、彼が言っていることは、私たちがどこに向かっているかについて他の多くの人々が言っていることに反していることです。彼は、この新しい波は私たちを何らかの偉大な超知能やAGIに運ぶことはないと言っています。しかし、彼には私たちをそこに連れていくかもしれない何か別のものがあります。ただしそれはより長い時間軸にあります。私たちはまだそこにはいません。その新しい波はまだ始まっていません。
しかし彼が正しければ、これはすべて多くのハイプであり、私たちは現在の位置からそれほど先に進むことはできず、最終的にこのブーム全体は行き詰まるということです。これが彼の見解です:
「歴史的にAIでは、新しいパラダイムを発見し、『それだ、10年以内に』、あるいは『5年以内に』、あるいは何年でも、『人間レベルの知能を持つことになるだろう、あらゆる領域で人間より賢い機械を持つことになるだろう』と主張するAI研究者の世代が次々と現れてきました。それは70年間そうでした。約10年ごとにそのような波がありました。現在の波も間違っています。
だから、LLMをただスケールアップするか、何千ものトークンシーケンスを生成させて良いものを選択し、人間レベルの知能を得るという考え、そして数年以内に、ある予測によれば2年以内に、『データセンターに天才の国を持つことになる』という、名前を言わない誰かの言葉を引用すると、それはナンセンスです。完全なナンセンスです。
もちろん、近い将来のシステムがPh.D.レベルになるような多くのアプリケーションがあるでしょう。しかし全体的な知能という点では、いいえ、まだ非常に遠いです。『非常に遠い』と言っても、10年程度で起こるかもしれないので、それほど遠くはありません。」
「AIは人間の状態を改善し、人々の生活をより簡単にするような多くの方法で適用されてきました。どのAIアプリケーションが最も魅力的で有利だと思いますか?」
「もちろん明らかなものがあります。科学や医学に対するAIの影響は、現在想像できるよりもはるかに大きいでしょう。すでにかなり大きいですが。タンパク質折りたたみや薬物設計のような研究だけでなく、生命のメカニズムを理解することにおいても。また短期的には、米国で医療イメージングプロセスを受ける場合、AIが関与していることが多いです。マンモグラムであれば、腫瘍を検出するためにディープラーニングシステムで事前スクリーニングされている可能性が高いです。MRIマシンに行くと、そのMRIマシンで過ごす時間は4分の1程度に削減されています。なぜなら、現在では少ないデータでMRI画像の高解像度バージョンを復元することができるからです。
また短期的な結果として、もちろん私たちの車のほとんど、NVIDIAはこの大きなサプライヤーの一つですが、今ほとんどの車は少なくとも運転支援システムや自動緊急ブレーキシステムを搭載しています。これらは数年前からヨーロッパでは必須装備になっています。これらのものは衝突を40%減少させます。それらは命を救います。これらは巨大なアプリケーションです。
これは生成AIではありません。これはLLMではありません。これは本質的に知覚であり、車の場合は少し制御です。もちろん、現在存在するLLMや数年以内に存在するLLMの多くのアプリケーションが産業やサービスなどにあります。しかし、その限界についても考えなければなりません。期待されるレベルの精度と信頼性を持つシステムを配備し展開することは、多くの人が思っていたよりも難しいです。」
「それは自律運転の場合も同様です。それはある種の後退する地平線のようなもので、いつレベル5の自律運転が得られるかという問題です。それは同じことになると思います。AIが失敗するのは通常、基本的な技術においてではなく、派手なデモにおいてでもありません。実際にそれを展開し適用しなければならないときです。」
今私たちがもう少し耳にするようになっている概念は、システム1とシステム2の思考という考え方です。私たち人間にとって、システム1はそのような速い、直感的で、労力のない反応です。それは自動操縦で行うことです。速く、直感的で、通常非常に認知的に要求されることはありません。システム2はもっと複雑で、認知的に要求される次に何をするかを考えるプロセスです。パズルを解くようなものです。
だからシステム1はあなたにボールを投げることで、システム2はあなたにパズルを解くよう頼むことです。彼が指摘する興味深い点は、何かをより上手に行うようになったとき何が起こるかです。物事はゆっくりと自動操縦になります。私たちはそれについてある種の熟練度を発達させます。それはほとんど私たちが学んだいくつかのことを内面化して、それらがより私たちのシステム1、つまりその種の反応的思考の一部になるようなものです。
「心理学者はシステム1とシステム2について話します。システム1は、あまり考えなくても達成できるタスクです。それらに慣れてきて、あまり考えずに達成できるようになります。経験豊富なドライバーであれば、運転支援なしでも運転できます。あまり考えずに運転できます。同時に誰かと話すこともできます。
しかし初めて運転する場合や最初の数時間ハンドルを握っている場合は、本当に何をしているかに集中しなければなりません。すべての種類の破滅的なシナリオを計画していて、そのようなことを想像しています。それがシステム2です。あなたは前頭前皮質全体を、あなたの世界モデル、あなたの内部世界モデルを活用して、何が起こるかを理解し、良いことが起こるように行動を計画します。
一方、これに慣れている場合、システム1を使ってこれを自動的に行うことができます。あなたは世界モデルを使って始めるという考え方があります。そして以前に遭遇したことがないタスクでも、タスクを達成することができます。ゼロショットです。そのタスクを解決するためにトレーニングする必要はありません。学ぶことなく、世界の理解と計画能力に基づいて、そのタスクを達成することができます。それが現在のシステムに欠けているものです。
しかし、そのタスクを複数回達成すると、最終的にそれは「ポリシー」と呼ばれるものにコンパイルされます。つまり、計画なしでそのタスクを達成することができる一種の反応システムです。最初のことは推論、これはシステム2です。一種の自動的な、潜在意識的な反応ポリシー、それがシステム1です。」
「システム1を行うことができ、システム2に向かって少しずつ進んでいますが、最終的にはシステム2には異なるアーキテクチャが必要だと思います。」
「それは新しいモデルになるのでしょうか?この抽象的な空間で推論することを可能にするモデルを期待すべきでしょうか?」
「私たちはそれをJEPA、またはJEPA世界モデルと呼んでいます。過去数年間、私の同僚と私はこれに向けた第一歩となるような論文をいくつか発表してきました。JEPAはジョイントエンベディング予測アーキテクチャを意味します。これらは抽象的な表現を学習する世界モデルで、それらの表現を操作し、おそらく推論して、特定の目標に到達するための一連の行動を生成する能力があります。私はこれが未来だと思います。約3年前にこれがどのように機能するかを説明する長い論文を書きました。
これは少し、例えば人間の赤ちゃんが直感的な物理学を学ぶのに時間がかかることに対応しています。支えられていない物体が落下するという事実、つまり重力の影響です。赤ちゃんはこれを生後9ヶ月頃に学びます。5〜6ヶ月の赤ちゃんに物体が空中に浮いているシナリオを見せても、彼らは驚きません。しかし9ヶ月や10ヶ月までには、彼らは大きな目でそれを見ます。心理学者はそれを測定する方法を持っていて、注意を測定することができます。
これは何を意味するかというと、幼児の内部世界モデル、世界の心的モデルが侵害されているということです。赤ちゃんは可能だと思わないことを見ています。」
「期待に合わない。」
「そうです。だから彼女は内部世界モデルを修正するためにそれを見なければなりません。『もしかしたらこれについて学ぶべきかもしれない』と。」
「あなたはこれを有望な方向だと見ていますか?」
「私はこれを有望な方向だと見ています。実際、生物学はこれを理解しています。私たちの網膜には約6000万の光センサーがあり、網膜の前には信号を処理して100万の視神経繊維に圧縮する4層の透明なニューロンがあります。圧縮、特徴抽出、視覚システムから有用な情報のほとんどを抽出するためのあらゆる種類のものがあります。」
「では、他の新興技術については?量子コンピューティングや超伝導ロジック、あるいはAI処理能力に大きな進歩をもたらす他の何かが地平線上にあると思いますか?」
「超伝導かもしれません。これについて十分に知っているわけではないので、本当に言えません。光学は非常に期待外れでした。世代があったと思います。1980年代にニューラルネットの光学実装についての講演に完全に驚いたことを覚えていますが、それらは実を結びませんでした。もちろん技術は進化しています。だから物事は変わるかもしれません。
そこでのコストの多くは、アナログのようなもので、デジタルシステムとのインターフェースのための変換で失われます。そして量子については、私は量子コンピューティングに対して非常に懐疑的です。私が見る量子コンピューティングの唯一の中期的なアプリケーションは、量子システムをシミュレーションするためのものです。量子化学のようなことをしたい場合には有用かもしれません。他の何かについては、私は非常に懐疑的です。」
「あなたは赤ちゃん動物のように観察から学ぶことができるAIの構築について話しました。それがハードウェアにどのような要求をすると思いますか?そしてそれを可能にするためにハードウェアをどのように成長させる必要があると思いますか?」
「それは買う意欲がどれだけあるかという問題です。より多く買えば買うほど、より多く節約できます。そして今日聞いたように、より多く作ることができます。安くはないでしょう。なぜなら、例えばビデオは…同僚が約1年前まで行った実験を教えましょう。
再構築を使用して画像表現を学習するための自己教師あり学習のための技術がありました。私が言ったように、これは機能しません。MAE(マスクドオートエンコーダー)と呼ばれるプロジェクトでした。基本的にはオートエンコーダー、デノイジングオートエンコーダーで、現在使用されているものと非常に似ています。画像を取り、その一部を取り除くことで破損させます。実際には大きな部分です。そして巨大なニューラルネットをトレーニングして、基本的にピクセルレベルでフル画像を再構築します。そして内部表現を下流タスクへの入力として使用し、オブジェクト認識などのために教師あり学習を行います。
それはある程度機能します。それらの液体冷却されたGPUクラスターを冷却するために小さな池を沸騰させなければなりません。それはジョイントエンベディングアーキテクチャほど上手く機能しません。DinoやDino V2、JEPAなどを聞いたことがあるかもしれません。これらはジョイントエンベディングアーキテクチャであり、より良く機能する傾向があり、実際にトレーニングするのも安価です。」
「では、ジョイントエンベディングでは、2つの入力クラスに対して2つの潜在空間を持つのではなく、すべてを1種類のトークンに変換するのですね。」
「画像と破損または変換されたバージョンを持ち、破損または変換されたバージョンからフル画像を再構築する代わりに、フル画像と破損した変換バージョンの両方を取り、両方をエンコーダを通して実行し、それらのエンコードを連携させようとします。部分的に見えるもの、破損したものの表現からフル画像の表現をトレーニングしようとします。」
「それがジョイントエンベディング予測アーキテクチャですね。それはより良く機能し、より安価ですか?」
「はい。さて、メタチームは『これは画像にはうまく機能するようだ、ビデオでやってみよう』と言いました。ここで基本的にビデオをトークン化する必要があります。ビデオを16×16パッチに変換します。これは短いビデオでも多くのパッチです。そして巨大なニューラルネットをトレーニングして、ビデオで不足しているパッチを再構築し、将来のビデオを予測します。それには小さな池ではなく小さな湖を沸騰させる必要がありました。そしてそれは基本的に失敗でした。そのプロジェクトは中止されました。
私たちが現在持っている代替案はVJEPAと呼ばれるプロジェクトで、バージョン2に近づいています。これは基本的にジョイントエンベディング予測アーキテクチャの一つです。表現レベルでビデオに対する予測を行い、非常にうまく機能しているようです。最初のバージョンは非常に短いビデオ、わずか16フレームでトレーニングされ、部分的にマスクされたバージョンからフルビデオの表現を予測するためにトレーニングされています。
そのシステムは、特定のビデオが物理的に可能かどうかを教えることができるようです。少なくとも制限されたケースでは。バイナリ出力を提供します。これは実現可能です。これはそうではありません。あるいはもっと単純に、システムが生成する予測誤差を測定します。ビデオ上のこれらの16フレームのスライディングウィンドウを取り、次の数フレームを予測できるかどうかを見て、予測誤差を測定します。そしてビデオで何か本当に奇妙なことが起こるとき、例えば物体が消えたり形が変わったりするとき、またはその他の物理法則に従わないときに、それを検出します。」
「それで、物理的に現実的かどうかを検出できる、ただビデオを観察するだけで?」
「そうです。自然のビデオでトレーニングし、何か本当に奇妙なことが起こる合成ビデオでテストします。本当に奇妙なことが起こるビデオでトレーニングすれば、それは正常になり、それらを奇妙なものとして検出しないでしょう。」
ヤンは何かに気づいているのでしょうか?彼はこれについて曲線の先を行っているのでしょうか?彼はこの分野の他の多くの人々が見逃しているかもしれないことを見ているのでしょうか?
私が見つけた興味深いことの一つは、あるとき誰かがTwitterで彼に内部対話があるかどうか尋ねたところ、彼は「いいえ、ありません」と答えたことです。このチャンネルで多くの視聴者に尋ねて小さな調査をしましたが、ほとんどの人は内部モノローグを持っています。私たちは自分自身と話すような感じです。物事を言葉で考えます。
これについてあまり詳しくは知りませんが、私たちのほとんどは常時または時々内部モノローグを持っているようです。時々脳内で言葉を聞きます。そして一部の人々にとって、それはまったく存在しません。これらの人々は画像、感情、より抽象的な概念で考える傾向があります。
これは私には非常に魅力的でした。なぜなら彼のアイデアが少なくとも部分的に彼自身の心がどのように機能するかという事実に基づいているのではないかと思ったからです。人々が言葉を使って何かを推論することについて話すとき、彼は「もちろんそれは機能しない、なぜならそれは私たちが考える方法ではないから」と言います。しかし私は、ほとんどの人にとって、それは少なくとも一種の内部モノローグを通じて物事について推論する方法の一部だと感じます。
時間が教えてくれるでしょう。このインタビューを楽しんでいただければ幸いです。最後にヤンはNVIDIAに価格を下げて、GPU等をもう少し安くしてくれるよう頼みますが、それは起こらないと思います。それでも良い試みでした。


コメント