
16,639 文字

オーガノイドって、生物学的な知能の形態やねんけど、これが未来になるかもしれへんな。めっちゃ期待してるわ。
シャーレの中のニューロンを使った計算は、間違いなく超有望で、まだあんまり探求されてへん分野やねん。
オーガノイドについて説明できる?
本質的に、オーガノイドは神経組織の塊みたいなもんやねん。小さな脳、超原始的な脳みたいなもんや。そのオーガノイドの中のニューロンの一部は自発的に電気活動を起こすんやけど、その活動が何を意味するんかっちゅうんは研究対象なんよ。
アルテム・キルサノフは神経科学と機械学習に焦点を当てたYouTuberで、PhD学生でもあるねん。彼と一緒に、人間と人工的なニューラルネットワーク、オーガノイドの大きな可能性、そしてニューラリンクがAIの未来にどんな影響を与えるかについて話すわ。
AIレボリューションの最前線に立ちたいんやったら、このポッドキャストは見逃せへんで。
人工ニューラルネットワークと生物学的なニューラルネットワークの一番重要な違いって何やと思う?
ええ質問やわ。一番重要な違いは、AIで言うところのニューラルネットワークが、生物学的なニューラルネットワークと直接関係してへんってことやと思うわ。生物学的なニューロンは、AIで言うところのニューロンよりずっと複雑なんよ。生物学的なニューロンはもっと複雑な計算ができるんや。
人間の脳の生物学的ニューロンをAIモデルのパラメータと比較する人をようけ見かけるけど、生物学的ニューロンそのものがほぼ完全なニューラルネットワークみたいなもんやねんな。
せやな、その通りや。めっちゃ美しい論文があってな、たぶん俺のどっかの動画でも話したと思うけど、著者らが単一の生物学的ニューロンに詰まってる計算能力を、ニューラルネットワークで近似しようとしたんや。
単一のニューロンが行う入力から出力への変換を近似するのに、ニューラルネットワークの層がどれくらい必要かを尋ねたんや。結果は6層か7層の畳み込みニューラルネットやったと思うわ。単一のニューロンの中にな。
だから、人々がそれを比較してるけど、全然近くもあらへんねん。
他にも、神経科学を研究してるからこそ、普通のAI/ML専門家が持ってへんような洞察ってあるんかな?
ちょっと考えなあかんけど、違いの話をしてたから、もう一つ重要な違いを言うとしたら、信じられへんほどの計算効率とエネルギー消費の違いやな。
現代の最先端の言語モデルについて話すと、そのシステムの一つを訓練するのに、ほぼ原子力発電所が必要なくらいやねん。
せやな、小さな都市に電力を供給できるくらいやけど、脳は電球くらいのエネルギーで機能するんや。
そこに何か洞察はある? 脳をそんなに効率的にしてる根本的な違いは何やと思う?
最近は、この種の計算効率は基本的にハードウェア、脳の場合はウェットウェアと呼ばれるものが、計算の性質をより効率的にサポートしてるからやと考えてるわ。
タンパク質の分子動力学を計算したいとしよう。クラスターでも数日かかるかもしれへん。でも、単一のタンパク質分子を考えてみ。瞬時に折りたたまれるやろ。
こんな風に考えへんけど、宇宙がその計算を俺らのためにしてくれてるみたいなもんやねん。その計算は熱力学によって自然に行われてるんや。
脳に話を戻すと、ニューロンは物理法則によってサポートされた計算を行うシステムやと感じるわ。
そういう意味では、オーガノイドみたいな生物学的な形態の知能が未来になるかもしれへんな。どう思う?
うん、めっちゃ楽観的に感じてるわ。なんとかして、シャーレの中のニューロンを使った計算をしてる人たちと協力する方法を見つけられへんかなって考えてるんや。生物学的計算は間違いなく超有望で、まだあんまり探求されてへん分野やと思うわ。
そこにはたくさんの可能性があるんやろうな。
じゃあ、知らん人のために、オーガノイドって何なんか説明できる? 俺よりずっとうまく説明できると思うわ。
そうやな、できるだけ説明してみるわ。
基本的に、オーガノイドは神経組織の塊みたいなもんやねん。ニューロンとそれをサポートする細胞の集まりや。グリアみたいな非神経細胞も含むかもしれへん。
つまり、小さな脳みたいなもんや。オーガノイドって言葉を見てみ。小さな器官って意味やろ? 脳みたいやけど、ほんまに小さくて原始的な脳なんや。
生物学的な特徴を全部持ってて、細胞も全部あって、細胞同士のつながり方も生物学的にそれなりに関連性があるんやけど、その神経組織の塊は大きな生物の一部じゃあらへんねん。筋肉にもつながってへんし、何にもつながってへんのや。
基本的に、ただの湿った組織の塊で、その中のニューロンの一部は自発的に活動電位を発生させるんや。自発的な電気活動を示すんやけど、その活動が何を意味するのかは研究対象なんよ。
実際の脳での自発的な活動について何か教えてくれるんかもしれへんけど、まだはっきりしてへんねん。
ざっとそんな感じやな。
めっちゃ面白いな。みんなが当然持つ疑問は、いつになったらそれを使うのが倫理的に問題になるんかってことやろうな。
今はまだ全然人間の脳に近くもあらへんけど、時間が経って5歳の子供くらいに近づいたらどうなるんやろ。ラボで数学の計算をさせるためにオーガノイドをたくさん置いてるだけってことになるんやろうか。
でも、実際にどうやって判断するんやろな。何か新しい特性が現れたとか、意識が生まれたとか、どうやって判断するんや。意識の話はしたくないけど、新しい特性が現れたかどうかを判断するのは難しいよな。
せやな、AIでもスケールによって予測困難な能力が現れるっていう話があるやろ。生物学にも同じようなことがあると思う? もしあるとしたら、人間の脳のニューロンの数を増やしたらどうなると思う?
間違いなくあると思うわ。単一の生物学的ニューロンは、AIのニューロンよりずっと複雑やけど、結局のところ単一の細胞やからな。
非自明な計算はできるかもしれへんけど、DNAの管理やタンパク質の合成、代謝のホメオスタシスの維持みたいな、全ての細胞生物学を考えると、それ自体が非常に複雑なシステムやと言えるかもしれへん。
でも、もっと抽象的な計算特性について話すなら、単一のニューロンでできることは限られてるわ。試してみることはできるけど、やっぱり非常に限られたシステムやねん。
でも、大量のニューロンを集めると、全ての特性が現れるんや。少なくとも俺は、ディープニューラルネットワークでの創発現象と非常によく似た現象やと考えてるわ。
個々の要素があって、それらを組み合わせると、個々の要素の単なる合計よりもずっと複雑な集団的な振る舞いが生まれるんや。
なるほどな。これは生物学とAIの類似点の一つやと言ったけど、人間の脳が進化し続けて大きくなったら、今は見えへんような新しい特性が現れると思う?
そうかもしれへんな。でも、脳を大きくするのはそんな簡単じゃあらへんねん。生物学的な制約がたくさんあるからや。
例えば、脳のサイズを大きくすると、体積は半径の3乗で増えるけど、表面積は半径の2乗でしか増えへんのや。脳をどんどん大きくすると、表面積と体積の比率が変わってくるんや。
正直なところ、なんでこの話を持ち出したんかよう分からんけど、表面積のことを考えてみ。例えば血管があるやろ。全てのニューロンに十分な栄養を供給しようと思ったら、脳の奥深くにあるニューロンに到達するのが難しくなるっていう事実に対処せなあかんのや。
それに、ニューロンは有限の速度で通信してるんやで。光速じゃなくて、軸索を流れるイオン電流の速度やねん。ニューロンの長い突起やな。その速度は約100メートル/秒くらいや。
軸索がめっちゃ長くなると、信号を伝えるのに無視できないくらいの時間がかかるようになるんや。それに、シナプスっていう化学的な接続を通じてニューロンからニューロンへ信号を伝えるときの遅延はもっと顕著になるんや。
つまり、ニューロンの数を増やすとどうなるかって考えるのはええ質問やけど、ニューロンの数を増やすのは、メモリーの制約だけで決まるビデオチップ上のディープネットのニューロンを増やすのと同じようには簡単じゃあらへんのや。
たくさんの生物学的な制約を考慮せなあかんし、単純に脳のサイズを大きくするのは進化的に可能じゃあらへんかもしれへん。例えば、脳のサイズを大きくしたら、産道のサイズも大きくせなあかんようになるかもしれへんからな。そうせんと、頭が大きすぎて人間が生まれられへんようになるかもしれへんのや。
なるほどな。そういう生物学的な制約が、象やクジラ、イルカみたいに人間より大きな脳を持つ動物が、人間ほど賢くない理由なんやろうか?
最初の直感では、脳が大きいほど賢いって思うかもしれへんけど、明らかに人間より大きな脳を持つ動物がたくさんいるのに、それらは人間ほど賢くないっていう事実があるよな。
これは本当に重要で、まだ分かってへん問題やと思うわ。なんで象は脳が大きくてニューロンの数も多いのに、少なくとも俺らが考える知能っていう意味では、あんまり賢くないんやろうか。
単一の細胞が何か根本的に違うんやろうか。明らかに類似点の方が違いよりずっと多いんやけどな。
いくつかの研究では、例えばヒトのアストロサイトについて言及してたな。アストロサイトはニューロンじゃなくて、通常は栄養を提供したり代謝waste物を除去したりして、ニューロンをサポートする役割を果たす脳内の他の細胞やと考えられてるんや。基本的にメンテナンスをしてるんやな。
でも、最近の研究では、アストロサイトが何らかの計算に参加できることが示されてるんや。これまで見えへんかったのは、アストロサイトの信号伝達がニューロンとは違うからなんや。
ニューロンが基本的に電気的活動のバーストで通信してて、それは電極で簡単に測定できるんやけど、アストロサイトは細胞内や細胞間でカルシウムを使って通信してるんや。これは基本的に目に見えへんし、最近まで上手く測定できへんかってんけど、最近になって蛍光センサーを導入して、カルシウムの量に応じて光るようにしたんや。顕微鏡の下に置いたら、細胞が光るのが見えるようになったんや。
そういうテクノロジーのおかげで、アストロサイトがめっちゃ面白いカルシウムシグナリングをしてるのが分かってきたんや。これが計算の特性にとって重要そうなんやけど、カルシウムシグナリングの特性や選択性がよくニューロンの活動に似てるんよ。
ニューロンが発火するからアストロサイトが反応してるだけなんか、それともこのシグナリングが独自の計算を積極的に駆動してるんか、まだはっきりしてへんけどな。
で、これらのアストロサイトやけど、ヒトの脳、あるいは少なくとも霊長類の脳では、形態がめっちゃ違うってことが示されてるんや。読んでからずいぶん経つから詳細は忘れたけど、他の種と比べてずっと複雑なんや。
ニューロンは同じやけど、何らかの計算をしてるかもしれへんし、してへんかもしれへんこれらの細胞が、はるかに複雑なパターンで形成されてるんや。分岐がもっと多くて、複雑なんよ。
実際にどんな役割があるのかまだはっきりしてへんけど、少なくともヒトのアストロサイトに関しては、これはめっちゃ顕著な違いなんや。
なるほどな。結局のところ、脳と脳を比較したり、脳とAIを比較したりするのは公平じゃないってことやな。表面上は明らかじゃない違いがめっちゃあるからな。生物学の中でさえ、人間と象や人間とイルカは全然違うもんなんや。
その通りや。もう一つの理由として、比較が難しくて公平じゃないのは、こういう比較をするときに、特にAIと脳を比較するときに、暗黙のうちに計算の観点から比べようとしてるからなんや。
計算特性がどう違うのか、どう生物学の違いで説明できるのかを理解しようとしてるわけや。でも、これは本質的に生物学的なシステムなんや。高度な計算や神経系全体は、この基本的な生物学よりずっと後に進化してきたんやで。
地球上の生命の歴史のほとんどの期間、知能も脳もなかったけど、それでも進化し続けてる細胞の集まりはあったんや。
言いたいのは、ニューロンを含む細胞で起こる多くの機能やプロセスの主な目的は、細胞の基本的な生物学をサポートすることなんや。DNA複製、DNAの修復、タンパク質合成、代謝とかな。これらは俺らが興味ある計算とは何の関係もないんや。
意味のある計算なのか、単に細胞を支えるための生物学的な荷物なのか、区別するのが難しいんやで。
なるほどな。つまり、知能の一部がDNA自体にあるってことかもしれへんな。AIに例えるなら、一部のパラメータがすでに微調整されていて、その上で小規模な計算をしてるだけかもしれへん。で、その小規模な計算をゼロから始めるAI全体と比較してるってわけか。
そうそう、そのとおりや。例えば、ゼロからモデルを訓練するのにどれだけのエネルギーがかかるか比較してみ。確かにハードウェアのエネルギー効率の問題はあるけど、それだけやないんや。
脳が一生を通じて学習するのは、完全にランダムな初期化から訓練するのとは全然違うって言えるかもしれへんな。ある程度事前に初期化されてるんや。
子供でさえ、視覚的にラフな画像の中でヘビに似たパターンを認識できるって面白い現象を見たことあるわ。人間の脳は、明らかじゃないものの中にヘビを見るようにプログラムされてるみたいで、他の画像よりもずっと反応が早かったんや。
そうやな、確かにそうや。だから、ハードワイヤされてるように見える計算がたくさんあるんや。もちろん、これは何百万年もの進化の結果やけどな。
進化全体が、システムを訓練するのに必要なものだって議論できるかもしれへんな。そうなると、エネルギーは比較できるかもしれへん。でも、直接比較するのはめっちゃ難しいわ。
ほんまに面白いな。まだ分かってへんことがめっちゃあるってことやな。人間の脳について、どれくらいの割合を完全に理解してると思う?
また数字を適当に言うことになるけど、誰も本当のところは分からへんからな。でも、俺の直感では、たぶん2、3%くらいかな。
うわ、それはクレイジーやな。
そうやな、多分もっと少ないかもしれへん。正直に言うとな。
科学やあらゆる分野で、どの世代もどの文明も、前の世代よりずっと賢いって思いがちやけど、ちょっと立ち止まって考えてみると、海洋のことでもそうやけど、まだ発見されてへんことがめっちゃあるんや。
なぜか科学のどのレベルでも、過去を振り返って「うわ、俺らめっちゃ賢くなったな」って思うけど、実際にはまだまだ発見することがたくさんあるんや。
もっと理解されてへん分野を探求する方が、「ああ、もう分かってるわ」とか「50年前はこれ分かってへんかったんや」って言うよりずっとワクワクするし、もっと発見できると思うわ。
もっと多くの子供たちに研究者になることを勧めるのもええかもしれへんな。医学でも、先進医療はめっちゃええって考えがあるけど、まだ治せへん病気がたくさんあるしな。
脳に関して言えば、もっと研究が必要な分野ってどこやと思う? もちろん全ての分野やけど、特に明らかなものとか、何か特定の分野はある?
たくさんの分野があるけど、俺の意見は明らかに偏ってるやろうな。でも言うとしたら、他の側面と比べて脳の中で俺が一番興味があるのは、学習の要素と学習のダイナミクスやな。
俺らは違う方法で学習してるように見えるからな。脳が事前に設定されてるって事実と関係があるのかもしれへんし、完全に任意のものを学ぼうとしたら、もっと時間がかかって違う戦略を使わなあかんのかもしれへん。
でも例えば、子供は数字を認識する能力を持って生まれてこーへんやろ? 数字が何かも分からへんのや。でも、数例を見せるだけで、手書きの数字を簡単に認識できるようになるんや。
MNISTでネットワークを訓練するみたいに、「これは1、これは2」って書かれた画像を何千、何百万ページもスクロールして見る必要はないんやで。
そうやな、俺の直感では、それは単に別の記号を通じた進化の結果かもしれへんな。もちろん、数字そのものや英語の文字じゃなくて、何万年もの間、人間はいろんな記号を認識してきたんや。洞窟絵画にもいろんなものが描かれてるやろ。だから、記号との関連付けが脳に強くハードワイヤされてるのかもしれへんな。
そうかもしれへんな。でも他にもたくさん例があるんや。例えば、車の運転を学ぶときのことを考えてみ。これは新しいことやろ。
そうやな、新しいだけじゃなくて、例えば崖が見えたら崖から運転して落ちたくないって分かるやろ。でも、それを何百回も試してみたからそう思うわけやないんや。
強化学習やったら、崖から落ちるのを何千回も試して、アルゴリズムが「OK、これは毎回悪い報酬、つまり罰につながるから、もうやめよう」って学習するやろ。でも人間は、結果を一度も見ずに、これが悪いアイデアやって理解せなあかんのや。
言い換えると、ワールドモデルを構築して、そのワールドモデルを使ってメンタルシミュレーションを実行して、適切な行動を選択せなあかんのや。
でも、この例えでは「あなた」って言うのは公平じゃないかもしれへんな。DNA全体から俺らを切り離すんじゃなくて、この例えでは、崖から落ちるのを試した全ての祖先や、誰かが崖から落ちるのを見た経験も含めて「あなた」って言う方が公平かもしれへん。
何百万年かけて、高いところは危険で、高所恐怖症があるべきってDNAに組み込まれたんかもしれへんな。「あなた」って言うのは、GPT-4.5とかの一つのスナップショットみたいなもんかもしれへん。すでにかなり微調整されてるんや。
運転に関しては、さっき言ったように、物理法則はもう理解してるけど、それはDNAの一部かもしれへんな。大きな高さは危険ってことは分かってるんや。
そうやな、高さとかそういう例に関しては確かにそうやな。もちろん、車を運転するために進化してきたわけやないから、その側面は新しいんやけどな。
でも、物理法則や物理的な直感的理解、崖から運転して落ちたらどうなるかっていうのは、何千年もの間に脳に刻み込まれてきたって議論はできるな。それは間違いないわ。
でも、俺が言いたいのはもっと一般的なことなんや。崖から落ちることに関係ない良い例を考えてみるわ…うーん、例えば原子力発電所で働いてるとして、「この矢印が赤いゾーンに入ったらダメだ」って言われたとするやろ。
そしたら、ある程度未来を予測して、自分の行動を評価できるはずなんや。強化学習の用語を使うなら、特定の状況で何をすべきかっていう方針を評価できるんや。
でも、あなた自身もあなたの祖先も、実際にその状況に遭遇したことはないんや。
だから、ワールドモデルを構築して、自分の行動の結果をシミュレーションしようとする仕組みは、確かに物理法則や因果関係を含んでるし、それは何百万年もの進化の中で洗練されてきたんやけど、評価する必要がある正確な状況や行動は、任意に新しいものかもしれへんのや。
学習セットに入ってる必要はないんやけど、それらを一般化できなあかんのや。
そのとおりや。もうちょっと一般化して、誰かが何かが危険やって言うたら、その人を信じるのがええっていうのがDNAに組み込まれてるのかもしれへんな。「やぶの中に虎がおるで、入ったらあかん」って言われたら、やぶに入らへんってのが、進化の結果かもしれへん。
だから、新しいことでも、もちろん原子力発電所の特定の例やないかもしれへんけど、「人間の仲間が、これをしたらあかんって言うてる、めっちゃ危険やって。せやから、やめとこ」って思うかもしれへんな。
そうそう、その通りや。一般化さえできれば、特定のことである必要はないんや。
手書きの数字やパターン認識の話に戻るけど、線や円、弧なんかの意味のあるパターンを認識する能力は、進化の中で磨かれてきたって議論もできるな。
せやな。でも、ディープネットワークを訓練したとして、0から8までの数字を認識するのにめっちゃ強くなったとしよう。でも、9の数字は一度も見たことがないんや。0から8まで全部簡単にできるんやけどな。
そこで、9の例を一つ見せて、「これが9っていう数字や。これをボキャブラリーに入れてくれへん?」って指示したいんや。もし本当にパターンを認識する能力を理解してたら、その能力を新しい例に一般化できるはずやろ。
でも、そうはならへんのや。ネットワークが9を扱えるようにしたいなら、さらに何千もの例で微調整せなあかんのや。ワンショットや数ショット学習みたいに、ちょっと見ただけではできへんのや。
これは実際、大規模言語モデルの最大の問題の一つやと思うわ。データセットにあるものがめっちゃ多くて、推論や一般化をしてるのか、それともデータセットにあるものを単に暗唱してるだけなのか、分からへんのや。
今、人々は汚染されてない部分を含むベンチマークを作ってて、客観的にテストできるようにしてるんや。AIの研究所がそれで訓練してないことを保証して、モデルを適切にテストできるようにしてるんや。
これは多分、人間と大規模言語モデルの実用面での最大の違いの一つやと思うわ。大規模言語モデルは本当に次のトークンを予測してるだけで、データセットにないものが出てきたら、めっちゃ苦戦し始めるんや。
そうやな、どうやってそれを保証できるんやろな。どんなベンチマークを作っても、訓練セットに入ってなかったことをどうやって保証するんや。問題は、訓練セットが基本的にインターネット全体やからな。
プライベートドライブに保存して、新しい質問を考え出して、オンラインに載せへんようにする必要があるな。
でも、あなたが考え出したものが以前に発明されてなかったことをどうやって保証するんや。10年前に誰かがRedditに投稿して、あなたが知らへんけど、あなたが考え出したベンチマークにめっちゃ似てるかもしれへんやろ。
大規模言語モデルがそれに失敗して、10歳の子供でもできるような単純な論理パズルやったら、たぶん新しいものやと言えるやろな。
そうやな。大規模言語モデルが失敗する例やな。完全に新しいパズルを発明するか、もっとええのは、めっちゃよく知られてるパズルを取り上げて、大規模言語モデルがそれにめっちゃ強くなってから、ちょっと変えてみるんや。
そしたら、大規模言語モデルは単に古い答えを暗唱し続けて、あなたが言い換えたのを無視するんや。
ああ、そういうのが多分一番重要なベンチマークになるやろうな。他のものは全部、何兆ものトークンがあるインターネットにめっちゃ含まれてるからな。
言うたように、誰も見たことないようなランダムなRedditのスレッドに何が書いてあるか、俺らには分からへんけど、明らかに企業がスクレイピングしてるやろうからな。
そうやな。
多分、6ヶ月前くらいまでは、言語モデルにほんまに面白い、些細やない量の知能があるんちゃうかって思ってたわ。特にOpenAIがSoraを発表したとき、そう思ったんや。
でも最近、時間をかけて使えば使うほど、今では非常に洗練されたチューリング完全なものやと考えるようになってきたわ。基本的に、インターネット全体を圧縮して、その圧縮された空間をめっちゃ速く検索して、例の間を補間する洗練された方法を作ったんやけど、基本的にはそれだけなんや。
6ヶ月前は、AGIまであと6ヶ月やって動画がいっぱいあったよな。でも今、少なくとも俺が知る限り、AGIはないわけや。理解が冷めてきて、人々は実際に次のトークン予測っていう技術的な部分を見始めてるんや。
で、現在のアーキテクチャを見てみると、スケールアップして人間の能力に達する、あるいはそれを超える可能性があると思う? それとも、次のレベルの知能に突破するには、完全にやないにしても、少なくともアーキテクチャレベルで大きな変更が必要やと思う?
アーキテクチャだけやなくて、訓練方法も変える必要があると思うわ。テキストだけで訓練して、巨大なデータベースの次のトークンを予測するっていう訓練パラダイムじゃ、そんなに遠くまで行けへんと思うんや。
俺は行動の重要性を強く主張する派やねん。モデルが環境に対して行動できるようにせなあかんのや。そして、その結果を観察せなあかん。
強化学習の方が脳がやってることに近いかもしれへんって考えられるけど、強化学習では報酬がめっちゃまばらやし、数万回も試行せなあかんのに対して、人間はいろんなことを学ぶのがもっと早いんや。たぶん純粋な強化学習やないんやろうな。
つまり、どんなパラダイムがええのかも、正直分かってへんのや。
ちなみに、大規模言語モデルを否定してるわけやないで。メールを書き直すのに使いたいんやったら、便利なツールやと思うわ。チューリング完全な便利なツールやねん。
でも、AGIの兆しみたいに見るべきやないと思うわ。例の「AGIが社内で実現された」みたいなやつな。
ええテクノロジーやけど、世界を乗っ取るとか、そういうのを怖がる必要はないと思うわ。
そうやな。そういう話は普通、技術的な部分を全く見てへん人から出てくるんや。そういうナラティブはだんだんなくなっていくといいな。
学習の部分についてもうちょっと話したいんやけど、さっきそれに興味があるって言うてたやろ。大規模言語モデルとの最大の違いの一つやと思うんや。
言うたように、大規模言語モデルはテキストトークンを受け取るだけやけど、赤ちゃんのことを考えてみ。受け取る入力の種類の多さは理解しがたいくらいやで。視覚、聴覚、言語、さっき言うたように、ボールを落としたり顔を打ったりするテストもあるしな。
人々は実際、赤ちゃんがどれだけ生産的かを理解してへんのや。毎日文字通り何千ものテストを実行して、めっちゃたくさんのことを学んでるんやけど、大人になると当たり前やと思ってしまうんや。最初の5年か10年の間に行われたテストや学習を全部ね。
じゃあ、質問やけど、そこから何を学んで、今のAIの学習方法を人間らしいものに変えるためにどう改善できると思う?
一つは、ワールドモデルを構築して、環境に対して行動を起こし、自分のワールドモデルの不確実性を最も解消するようなサンプルを集めたり、自分の訓練データを選んだりする能力やと思うわ。
例えば、あなたがAIで、何らかの方法で環境のメンタルシミュレーションを構築できるようになったとしよう。俺らがワールドモデルって呼んでるようなもんやな。今のAIの訓練方法やと、ただひたすら訓練データを浴びせかけるだけなんや。
パズルのピースが欠けてるような、特定の種類のデータが足りへん場合、完璧なワールドモデルを持ってるけど、何らかの理由で物体が下に落ちるんか上に落ちるんか分からへんとしよう。
現在の状況やと、訓練データを提供する人がその情報を明示的に提供するのを待つしかないんや。でも、それは永遠に起こらへんかもしれへん。
でも、行動を起こして自分でテストを実行する能力があれば、「これ分からへんな。物体を拾って離してみよう。あ、下に落ちるんやな。これで欠けてたピースが分かったわ」ってできるんや。
つまり、不完全なワールドモデルがあって、それをもっと最適にするために何かを明確にしたいときに、行動を起こして、自分で観察を選択できなあかんのや。
もう一つは、予測の要素やな。これは実際、大規模言語モデルがやってることやと思うわ。自己教師あり学習のアイデアを考え出した人たちがやったことやな。
計算問題を次に何が来るかを予測することだと考えるなら、すでに大量のデータがあるわけや。少なくともその側面は正しい方向に向かってると思うわ。
でも、脳の中では、脳が目指してる非常に重要な目標の一つが、今の理解では、感覚的な観察を予測することなんや。
それがワールドモデルが役立つことやからな。手を伸ばしてカップを掴むとき、どんな感覚、機械的な感覚や温度の感覚が手の受容器に伝わるかを予測したいんや。
この予測の側面、常に数ステップ先を見て、不確実性を解消しようとしたり、現在の状況で何の行動が最善かを評価しようとしたりすることは、次に考え出すモデルの大きな要素になるはずやと思うわ。
めっちゃ面白いな。大規模言語モデルが次のトークンを予測してて、人間の脳が本質的に次の行動の結果を予測してるって、そんな風に考えたことなかったわ。短期的な行動でも長期的な行動でも、ジムに行けば健康になるとか、これをしたらこうなるとかを常に予測してるんやな。
そう考えると、大規模言語モデルが次のトークンを予測するのと比べて、次の行動を予測するのはずっと複雑やな。テキストだけやなくて、いろんなモダリティからの入力が関わってくるからな。
だから、OptimusやAtlasみたいなヒューマノイドロボットを使ってこれらのテストを実行して、正確なワールドモデルを構築する必要があるかもしれへんな。デジタルなテキストや、動画でさえ十分やないかもしれへんし。
そうやな。予測の話に戻ると、もう一つの側面として、どの情報が予測するのに重要で、どれがどうでもいいかを知る能力が必要やと思うわ。
Yan Lecunがいつもポッドキャストで話す例がめっちゃ好きなんやけど、自己教師あり学習について話すとき、次の要素や動画の次のフレームを予測しようとする学習パラダイムの話をするんや。
例えば、道路を走る車の動画があって、背景に木があるとしよう。次のフレーム、つまり次に何が起こるかを予測するのが目標やとしたら、予測したい重要な情報は、車が動いてる方向に進むってことやろ。
でも、木の葉がどう動くかっていう正確なピクセルを予測することは、あんまり気にせんでええんや。
人間に木の葉だけの動画を見せて、「次に何が起こると思う? 次の数フレームを言葉で説明してみて」って聞いても、「明らかに車は動き続けるやろうし、木も動き続けるやろうけど、正確にどう動くかは言えへんわ」って答えるはずや。
めっちゃカオス的なプロセスやし、生存にはあんまり関係ないからな。
もし全てのことを、なんで行動を起こしたいのか、なんで環境に対して行動したいのかって観点から考えるなら、遺伝子を受け継ぐ確率を上げるための行動を選びたいわけやろ。
で、俺らが行う予測は、そういう行動をサポートするものでなきゃあかんのや。つまり、俺らが行う予測は、俺らの目的に関連したものでなきゃあかんのや。
この例で言うと、葉っぱの動きの軌跡を予測するのはあんまり関係ないけど、車の速度や方向は結構関係あるよな。
だから、たくさんの動画でネットワークを訓練しようとしても、生のピクセル空間での予測はたぶんあんまりええ目標やないんや。何が重要で何が捨てていい情報なのかを知る能力を持たせる必要があるんや。
これは、俺らがまだ全然解決方法が分からへん重要なパズルの一つやと思うわ。エネルギーの無駄になるしな。
そうそう、その通りや。単に計算能力の問題やけじゃなくて、無駄な労力の問題もあるんや。
でも、機械学習モデルでどうやってこの問題を解決するんやろな。何かを気にせんでええ能力を与えたら、全部を無視して全てを関係ないって判断してまうかもしれへんし。
どうやって、俺らにとって最適に見える方法で、その決定を適切に行う能力を与えられるんやろな。
それが、この分野の最大の問題の一つやと思うわ。
ちょっと話題を変えたいんやけど、ニューラリンクについてどう思う? 神経科学とAIの交差点で最も有望なプロジェクトの一つやと思うんやけど。
正直、ニューラリンクの最新の開発についてはあんまり詳しくないんや。最近どんなことしてるか、もうちょっと教えてくれへん?
人間の患者でインプラントをテストしてて、うまくいってるみたいやってことは知ってるけど、そのインプラントが実際に何なのか、患者に何をもたらすのかっていう詳細は、正直よう分からへんのや。
もちろん俺も専門家やないけど、知ってることを話すわ。
今年の初め、最初の人間がニューラリンクのインプラントを受けたんや。先月には2人目もやったみたいやけど、すごくうまくいってるみたいやな。
インプラントには2つの部分があって、一つは頭蓋骨の4分の1くらいの円を切り取って、そこに入れるんや。それで、携帯電話の無線充電と同じように、誘導的に充電されるんや。
ニューロンに向かって、細い糸みたいなのがあって、全部で1000個くらいの電極があるんやけど、それが18本の小さなワイヤーに分かれてるんや。各ワイヤーは2ミクロンくらいのめっちゃ細いもんで、ニューロンの近くに置こうとするんや。
で、保護組織ができるだけ少なくなることを期待してるんやけど、今回はうまくいったみたいやな。ニューロンが保護組織を作って監視を難しくするんじゃなくて、なんかニューロンがワイヤーに近づいてきて、信号がさらに強くなる小さな領域を作ったみたいなんや。
今のところ、1000個の電極しかないから、思考だけでカーソルを動かせる程度なんや。高度な遠隔テレパシーみたいなことはまだできへんけどな。
でも、これはどんどん改善されていくと思うわ。最初は麻痺した人や視力を失った人向けの応用から始まるやろうけど、一般的な情報処理速度の向上になってくると、人々が思ってるよりずっと速く進歩すると思うわ。
確かにそうやな。俺はこう考えてるんや。ハードウェアの面でも手術の面でも、めっちゃ印象的で面白い技術やと思うわ。ニューロンに到達して電極を安全に埋め込むのは、めっちゃ難しい問題やからな。彼らが達成したことは本当にすごいわ。
でも、もう一つの問題があるんや。脳の中で何が起こってるのか、まだよう分かってへんのやで。個々のニューロンが何をしてるのか、本当のところは分かってへんのや。
電極を埋め込んで大量のニューロンを記録して、患者がカーソルを動かせるように、気にしてる情報を抽出するための凝った
decoder)やニューラルネットを訓練することはできるかもしれへん。
でも、もし本当に次のレベルに持っていきたいなら、脳がどう機能してるのか、神経回路でどう情報が表現されてるのか、どのニューロンから記録せなあかんのか、どうデータを処理せなあかんのかっていう根本的な理解が足りてへんのやと思うわ。
基本的に、意味が分からへんシグナルを受け取ってて、デコーダーをくっつけて些細なことをするように訓練する以外に、どうしていいか分からへん状態なんや。
脳とコンピューターのインターフェースについて人々が普通持ってるビジョン、例えば脳でインターネットに接続するみたいなことを実現しようと思ったら、まずテクノロジーが足りへんのは確かやけど、その面では確実に開発が進んでるわ。
でも、ニューロンが何をしてるのかっていう基本的な理解も全然足りてへんのや。例えば、今すぐ魔法のように人間の脳の全てのニューロンを記録したり刺激したりする能力を与えられても、好きなニューロンを完全にコントロールできても、たぶん大したことはできへんと思うわ。
脳の中で何が起こってるのか、まだ全然分かってへんからや。全てのニューロンを一度に記録できても、その情報をどう使ったらええか分からへんのやで。
そうやな。解決策の一部は、もっと多くの電極、もっと多くの糸を使うことやと思うわ。でも、脳の異なる部分にニューラリンクを置く必要もあるかもしれへんな。
明らかに、脳はいろんな部分に分かれてて、それぞれが人間の体の異なる機能を担ってるからな。何かを記録したり信号を送ったりする必要があるなら、脳の異なる部分にニューラリンクが必要になるかもしれへん。
でも、脳の奥深くにアクセスする問題もあるな。頭蓋骨の一部を取り除いて数ミリの深さに電極を置くのは、相対的に簡単やけど、脳の中心部にアクセスするのはずっと難しいやろ。
そうやな、その通りや。でも、脳の深い部分の機能は、より古代的なものやって議論できるかもしれへんな。視床下部や脳幹みたいな、俺らが些細な機能やと考えるようなことを担当してる部分やな。
幸いなことに、俺らが興味のある知能は、全て表面にある大脳皮質にあるみたいやな。だからそこにアクセスできるわけや。
でも、さっき言うたように、ニューラリンクを使えば、はるかに高い解像度で記録できるようになるんや。これは確実に研究や、そのパズルを解き明かすのに役立つはずや。
もっと電極を埋め込めば、もっと多くのニューロンからデータを集められて、何が起こってるのか少しずつ理解が深まっていくはずや。技術を開発する面でも、データを集める面でも、確実に価値のある取り組みやと思うわ。
でも、人々は電極を埋め込んでカーソルを動かせるようになったら、インターネットに接続するのは1年後くらいやって思うかもしれへんけど、そうやないんや。
埋め込める電極の数の問題だけやなくて、脳をどれだけ理解してるか、その情報をどう使うか分かってるかっていう問題もあるんや。
ニューラリンクは両方の進歩を助けてるのは確かやけど、人々が想像してるようなものになるには、まだまだ時間がかかるんや。
じゃあ、ニューラリンクの最初の大きな使い道は、脳について学ぶことかもしれへんな。
目が見えへん人や麻痺した人にとっては、明らかなメリットがあるからな。リスクは最小限で、メリットは膨大や。世界中にこういう深刻な症状を持つ人が何百万人もいて、喜んでニューラリンクを受け入れるやろう。
そのデータから脳についてめっちゃたくさんのことを学べるはずや。それが、AIの知能を次のレベルに突破するのに必要になるかもしれへんな。
つまり、ニューラリンクは超人間になるためのものっていうより、むしろ研究装置なのかもしれへんな。
そうやな、確かにその分野の研究を進めることになるやろうな。
でも、彼らのポリシーがどうなってるか分からへんけど、プライバシーはマジで重視してると思うわ。例えば、人間の脳に電極を埋め込んでも、そのデータをオープンなデータリポジトリから簡単に取得することはできへんと思うわ。
人々が研究プログラムに参加することに同意せん限りな。研究者やからって、全てのニューラリンクのデータを簡単に取得できるわけやあらへん。
それでも実験を設計して、患者に医療情報にアクセスすることに同意してもらうための書類にサインしてもらう必要があるんやけどな。
でも、ニューラリンクを研究に使うことには、確実に大きな期待があると思うわ。
最後の質問や。人間の脳について今まで学んだ中で、一番面白いと思ったことは何?
一番面白いこと…うーん、学んだことかどうか分からへんけど、もう一度言うとしたら、まず当たり前の答えやけど、面白いのはそもそも脳が機能してるってことやな。
めっちゃ効率的に、そんなにエネルギーを使わずに機能してて、めっちゃ印象的な計算能力を持ってるんや。
まあ、これは今日話した脳とAIの比較の繰り返しになってまうけどな。
でも、もう一つめっちゃ面白いと思うのは、「意識」って言葉は使いたくないんやけど、人々がその議論に入りたくないときでも考えがちなことなんや。
脳にはこの自己内省的な側面があるのが、めっちゃ注目に値すると思うんや。少なくとも自分が主観的な自己感覚を持ってるって認識できるんやで。分かるやろ?
計算能力っていう意味だけやなくて、物理的にもほと�?創発的な能力なんや。
David Chalmersが意識のハードプロブレムって呼んでたと思うんやけど、なんで意識が存在するんやろうかってことなんや。
脳の主な機能が、行動を選択して、変化する環境で適応的に行動して、繁殖の確率を上げることやとしたら、それは全部できるはずなんや。
計算、メンタルシミュレーション、物理、パターン認識、全部できるはずやけど、全く主観的な感覚なしにできるはずなんや。意識はそのために必要ないんやで。
少なくとも俺らはそういう風には考えへんけど、環境で行動するのに必要な計算をするのに役立ってるようには見えへんのや。それは何か別のもんなんや。
なんで主観的な感覚を発達させたんやろう。なんで自己を認識できるようになったんやろう。脳の目標が適切な行動を選ぶことやったら、意識がなんで生まれたのか分からへんのや。
脳について2%しか分かってへんとしたら、意識については0.02%くらいしか分かってへんのかもしれへんな。
そうやな、それ以下かもしれへん。そもそも意識が何なのかも分かってへんからな。定義すらないんや。
アルテム、時間取ってくれてありがとうな。めっちゃ面白い会話やったわ。あんたのチャンネルとビデオのリンクを下に貼っとくわ。
俺も楽しかったわ。呼んでくれてありがとうな。


コメント