Tesla ロボットタクシーが業界全体を破壊!Dr. Know-it-all が実際に何が起こっているかを解説

イーロンマスク・テスラ・xAI
この記事は約37分で読めます。

この動画では、Dr. Know-it-allチャンネルのJohnがTeslaのロボットタクシーの実体験について詳しく語っている。実際にテキサス州オースティンでロボットタクシーを体験した数少ない人物として、その技術的な仕組みや将来性について解説する。また、GoogleのDeepMindが発表したばかりのAlphaGenomeについても言及し、DNA解析における革新的な進歩について議論している。さらに、自動運転技術の競合であるWaymoとの比較や、AIによる自己改善、教師モデルの概念、そして人型ロボットの未来についても幅広く論じられている。

TESLA Robotaxi Just DESTROYED the Entire Industry! Dr. Know-it-all explains what's ACTUALLY going on
PART 2 OF OUR INTERVIEW: OUT DR KNOW IT ALL'S CHANNEL: The l...

Tesla ロボットタクシー体験レポート

今日はDr. Know-it-all YouTubeチャンネルのJohnさんとお話しします。Johnさん、Dr. Know-it-allさん、お時間をいただきありがとうございます。ついにお話しする機会ができて嬉しいです。

最新のAIニュースや最近の出来事について少しお聞かせください。もちろん、Teslaのロボットタクシーのローンチがありましたね。あなたは地球上で初めて実際にそれを体験した人の一人だと思います。

まずはそこから始めましょう。体験はいかがでしたか。

この全体のストーリーをお話ししましょう。なぜなら、これはTeslaの話で、何事もスムーズには進まないからです。実は私はミシガン州で別のイベントに参加していて、何人かの人が「招待状をもらった」と言っていました。それは金曜日で、ローンチは日曜日でした。

たくさんの人が「招待状をもらった」と言っていて、私は妻に聞きました。彼女も一緒にいたので「これは本当に狂気だ」と言いました。彼女は前日に膝の手術を受けたんです。ACLの問題があって。「これはストレスが多すぎる。招待状ももらっていないし、行くのはやめよう」と思っていました。

ところが土曜日の午後4時半に「あなたにも招待状が届いています」と連絡がありました。「今更招待状をもらったら行かないわけにはいかない」ということになりました。

そこで慌てて飛行機の手配をして、彼女がミシガンから家に帰れるよう確認したりと、あらゆることをしなければなりませんでした。とにかく、正午にテキサスに到着して、ローンチが2時まで延期されました。幸い、私は最初の方にいることができました。

世界は本当に狭いですね。Herbert Angという別のコンテンツクリエイターがいて、Brighter with Herbertという番組をやっています。2時に始まる前に昼食を取ろうと思ってレストランに行ったところ、何とそこで彼がライブストリーミングをしていました。

そして突然、私たち全員の電話が鳴りました。みんな一斉にアプリをダウンロードして、ロボットタクシーに最初に乗るために急いでドアから出て行きました。

彼は確実に私より前にいました。私は彼の車と私の車の動画を撮ったのですが、彼は私の一台前にいました。ラテも残して、ドーナツも残して、文字通り昼食の半分を食べて残りを捨てなければなりませんでした。本当に残念でした。

結局、その日に10回乗車し、翌朝も少し体験してから家に帰らなければなりませんでした。参加者は15人程度だったと思いますが、もちろん一度に一人の乗客しか乗せられないので、できるだけ多くの人にお互い乗車体験をさせていました。とても楽しかったです。

ロボットタクシーの技術的仕組み

この車がどのように動作するかの内部構造や体験について詳しくお話しできます。これらは確実にロボットです。体験はとても素晴らしいものでした。

助手席にはセーフティモニターが座っていて、ハンドルに何かボタンがあって、必要に応じて停止できるようになっていました。しかし、私が体験した約90分間の運転中、彼らは一度もそのボタンに触れませんでした。

車は素晴らしい性能を発揮しました。オースティン周辺を運転し、川の下にある長方形のようなジオフェンスエリア内を走行できました。私は一か所を選んで、それから反対側の端を選ぶと、車が私たちを運転してくれました。そして迎えに来てもらって別の場所に行く、という感じでした。

オースティンについてたくさん学びました。小さなコーヒーショップなど、今まで行ったことのない素晴らしい場所をたくさん知ることができました。とても楽しかったです。

驚いたのは、それが完全に普通で問題ないと感じられたことです。それは本当に素晴らしいことでした。その直後、実際にWaymoにも乗りました。TeslaのCyber CabまたはロボットタクシーとWaymoを1分以内に連続で体験しました。一か所で停止して、実際にWaymoを呼んで別の場所に行きました。とても興味深い体験でした。

TeslaとWaymoの比較

この2つのうち、どちらがこの競争に勝つと思いますか。

何かを台無しにしない限り、Teslaがスケールで勝つと思います。この時点では、Teslaが失うゲームのようなものです。

Waymoが最近公開した興味深いブログ投稿があります。まだ動画にする機会がありませんが、車両のセンサー数を最小限にする必要があることについて書かれています。

Waymoを見たことがある人なら誰でも知っていると思いますが、上に回転する小さなパーティーハットのようなものが付いています。側面にも小さなものが付いていて、まるでたくさんのイボが付いているように見えます。

それは約15万ドルの車で、たくさんの異なるセンサーが付いています。LiDAR、レーダー、ソナー、ビジョンなど、これらすべてが高価です。しかし高価であることを超えて、多くの問題を引き起こす可能性があります。

Teslaは超音波やレーダーなどを車両に搭載するという経験を経なければなりませんでした。しかし時間が経つにつれて、確か2021年頃だったと思いますが、超音波とレーダーを取り除いてビジョンのみに移行することを決定しました。

今日まで、みんな「あなたたちは狂っている。そんなことはできない」と言っています。答えは常に「人間は2つのカメラとニューラルネットワークだけで運転している」ということでした。だから私たちにもできるのです。

もちろん、激しい雨や吹雪などの場合は車が運転できないという議論があります。見えないからです。しかし、それは人間も運転できない状況とほぼ同じです。

モンスーンの洪水のような状況で人間が運転できない場合に、車が運転する必要があるとは思いません。15分待って天候が回復してから続ければいいのです。

カリフォルニア出身の皆さんには分からないかもしれませんが、火災を想像してみてください。大きな火災があって煙がたくさん出て見えない場合、それも運転には安全ではありません。

このような状況があり、8つのカメラのみでレーダーやLiDARを使わないというTeslaのやり方には注意点がありますが、致命的なものではないと思います。

Waymoの制約とTeslaの優位性

Waymoの問題は、スケールが困難なことです。これらの車が運転するエリアを超詳細にマッピングしなければならず、常に更新し続ける必要があります。何かが変わった場合、車両はその変更を知る必要があります。これは少しローラーコースターのようなものです。楽しいローラーコースターではなく、軌道上にあるという考えです。

LiDARがあり、LiDARは「私はこの道路上のセンチメートル単位で正確にここにいて、これが状況です。だからこの道を運転できます」と言います。しかし、その状況から外れると失敗します。どこに行けばいいのか分からなくなります。

個人的に、私はTesla Model Yを持っています。これはロボットタクシーと同じ車両です。Model Yをダートロード、砂利道、一度は畑を横切って運転したことがあります。畑にいて、向こうに道路があることが分かっていたので、「この車がそれをできるか見てみよう」と思いました。フルセルフドライビングを作動させると、畑を横切って道路まで行き、そのまま運転を続けました。

これらはWaymoには絶対にできないことです。さらに、車両自体は15万ドルではなく4万から4万5千ドル程度で、Teslaは週に約5千台を製造しています。

もしこれが正しく機能し、効果的にロールアウトが続けば、スケールで勝利するでしょう。Waymoが年間500台や1000台を生産して喜んでいるような状況では勝負になりません。

将来の技術発展の可能性

これらのシステムには2つの異なる道筋があるように感じます。一つはビジネスとして、投入する資金を最小限にして市場シェアを獲得し、その後ゆっくりと他の機能を追加していく方法です。

遠い将来を考えると、将来のTeslaやWaymoは磁北、赤外線、音響など、あらゆる種類のセンサーを持つ可能性があります。超人的な能力、例えば隣の車から何かが落ちる音を聞いて、将来のTeslaの音響検出器がそれを使ってより安全な運転をするということも考えられます。

これらの2つをどのように調和させるか、長期的な将来についてどう思いますか。

AIの一般的な特徴でもありますが、運転においては特に、常に次の9を追求しているということです。100%完璧になることは不可能です。道路を運転していて隕石が空から落ちてきて車に衝突することもあるかもしれません。それについては何もできません。

定義上、100%の安全性に到達することはできません。Teslaにはマイクロフォンが搭載されており、オースティンのバージョンがまだ実装していないかもしれませんが、サイレンや外部環境の他の音を聞いて反応できるようになります。まだ実装されていなくても、すぐに実現されるでしょう。

常に9の行進について話しています。私は最近のロボットタクシーについての振り返り動画でこのことを考えていました。

安全性レベルの段階的向上

良いドライバーの10%から99%に到達するのは本当に簡単です。高校生でもできます。実際、私の子供が8年生の時にLego Mindstormsをやっていて、小さなロボットを運転できました。99%まで到達するのは問題ありません。

99%からさらに9を一つ追加するのは、非常に大きな作業です。人々は「99.9%なら簡単だろう」と思いますが、そうではありません。それは全く別の10倍の改善が必要です。

安全性と信頼性の観点で9を一つ追加するたびに、9%の効果的な運転から99%に向上するのと同じ努力が必要です。99%から99.99%に到達するのも同様に大変です。

プライバシーとモニタリング

ダッシュカムを通じて人間をモニタリングし、注意を払っているかどうかや心理的シグナルを考慮することについて賛成ですか、それとも分離しておきたいですか。

定義上、私は大丈夫だと思います。なぜなら、Teslaにそれを許可しているからです。運転中に目を見る機能があります。車から出ることはないとされていますが、目を見て、信号待ちで下を向いてテキストメッセージに答えようとする私の悪い癖を監視しています。

信号が青になると「道路に注意を払ってください」と言われます。プライバシーの懸念はありますが、あなたがもう車に責任を負わない完全なロボットタクシー体験を得るまで、それを避ける方法が分かりません。それかハンドルを常に揺らし続けるかのどちらかで、それは本当に迷惑です。

機械学習とデータの優位性

プライバシーについては、主に機械やAI、画像認識モデルなどによって読み取られる場合、人間によってよりもずっとリラックスして受け入れられます。

レーダー対ビジュアルセンサーについて簡単に質問です。私の理解では、その最大の理由の一つは、レーダーがどのように機能するかのデータよりもビデオデータがはるかに多いということです。Teslaが走行する1マイルごとに、ビジュアルを含む巨大なデータストアに1マイルが追加されます。

将来、音響やレーダーなど他のものを追加しようとする場合、ビデオを使った訓練のアイデアが大きな勝者になって雪だるま式に指数関数的に成長すると思いますか、それとも最終的にシミュレーションで他の感覚的なものも追加できるようになるでしょうか。

ビジョンベースアプローチとシミュレーション

センサーに関しては、ビジョンが絶対に基盤でなければならないことは間違いありません。道路と生活はそのために設計されているからです。

ビデオからの学習については、これは本当に良い話の流れです。なぜなら、これで人型ロボットの分野にも移行できるからです。

Teslaがこれを行う方法は、2022年の大きなオープンミーティングの時に詳しく説明されたものですが、本質的にUnreal Engineを使用しています。少なくともその時点では、人間のドライバーからこのデータを取り込んでいました。

例えば、UPSトラックとFedExトラックの間を通り抜けなければならない奇妙な状況があったとしましょう。そして犬を散歩させている人が現れたりする複雑なケースです。

世界はこのような奇妙なエッジケースでいっぱいです。彼らができることは、そのデータを取り込んで、Unreal Engine内でそれの100万のバリエーションを再現することでした。Unreal Engineは実際のビデオとまったく同じように見える偽造ができるほど優秀でした。

ほぼ逆向きです。車から実際のビデオを取り出し、ゲームエンジン内に入れて、再び実際のビデオの品質まで落とします。車は実際の入力だと思っているが実際は偽物の、事実上の生の入力を得ました。しかし、あらゆる種類の奇妙なエッジケースのバリエーションを生成できました。

数年前に教えてもらったことですが、なぜその方法論を変える必要があるのか分かりません。うまく機能しているからです。

第三者視点からの学習

YouTubeビデオのような実際のビデオ、例えば卵の適切なかき混ぜ方を見る場合を考えてみてください。人間として、座標変換のようなことができます。第三者視点で他の人を見ることができ、直接または動画で「私を見て。これがかき混ぜ方で、泡立て器を使って」などを見ることができます。

人間は「私の腕がその同じ動きをするとこうなる」というふうに理解できます。これは人工ニューラルネットワークにとって非常に困難ですが、その段階に到達しつつあります。

Teslaだけでなく、Figureもビデオからの学習に取り組んでいます。もしその種の座標変換学習がうまく機能すれば、インターネット全体が利用可能になります。YouTube、TikTokなど、XYZの方法についてのビデオがどれだけあるか考えてみてください。

また、はるかに簡単になります。現在の方法では、ロボットのようにヘルメット内にカメラを付けたボディスーツを着用する必要があります。これは人間にとって面倒で、スケーリングにも限界があります。

実際のビデオから学習できれば、本当に制御不能になります。

訓練データの内訳

その訓練データのうち、シミュレーション、インターネット上のビデオ、VRゴーグルを付けた人が物を動かすハードなもの、それぞれ何パーセントくらいだと思いますか。

実際の反復回数で考えると、シミュレーション世界が最も多いに違いありません。卵をかき混ぜたり泡立てたりする学習を1000のGPUに分散させて、1000倍の実時間で実行できるからです。明らかにそれが一番です。

NvidiaIsaac Gymのような基盤レイヤーを作成しています。これは物理シミュレーターで、ロボットだけでなく何千ものロボットをそこに配置して、何度も何度もやらせることができます。わずかに異なる環境を作成し、ロボットを少し変更することもできます。

多くの場合、これらのシミュレーション環境での強化学習を通じてそれが行われていると思います。現在でも、基本的な仕上げはゴーグルと手などを使って行われています。いくつかのロボット会社でそれをしている人を見たことがあり、操作してロボットがそれから学習できます。

YouTubeビデオなどの第三者ビデオからの学習はまだ始まったばかりです。それほど進歩していないと思いますが、それが本当に大きなブレークスルーになるでしょう。

経済モデルと保険

経済はどのようになると思いますか。現在、私はTeslaを持っていて保険スコアを得ています。運転が上手になるほど支払いが少なくなります。しかし、セルフドライビングモードにいるほどスコアが良くなります。私のように一時停止標識で完全停止しないようなことをしないからです。

基本的に、運転させるのが非常に安価で、手動で運転しようとすると保険料がより高くなり、人々がハンドルを完全に手放すようになると思いますか。そして、車がそこにいない時にTeslaがUPSやFedExのような荷物配送会社になるのでしょうか。これはどのように展開されると思いますか。

あなたの考え方が気に入っています。まず一つ目として、あなた自身がTeslaを持っているように、多くの人がTeslaを持っています。過去一年の政治的な問題でより複雑な状況になりましたが。

アメリカには任意に数百万人のTeslaオーナーがいます。これらすべてが現在のようなフルセルフドライビングを有効にできます。まだ完璧ではありません。時々介入する必要がありますが、かなり良くなってきています。

魔法の杖で一年後に、もう注意を払う必要のない完全なセルフドライビングが実際に十分良くなったとしましょう。

段階的な影響

レベル1の結果は、あなたと私の、仮に20分の通勤時間を取り戻せることです。これは20分です。今は睡眠、愚かなYouTubeビデオの視聴、仕事、メールの返信ができます。往復で実際は40分なので、人生の大きな部分を取り戻せます。道路をただ見つめて座っている必要がなくなります。

レベル2の結果は、まさにあなたが言っていることです。「運転していない間はTeslaのフリートで使ってください。一日のほとんどは私道や職場に駐車しているので、運転していない間に車を使って、あなたたちもお金を稼ぎ、私もお金を稼げます」というものです。

うまくいけばそれは素晴らしい結果です。これがTeslaが迅速にスケールできる方法です。専用の車を作る代わりに、現在アメリカ全体にTeslaがあります。もちろん世界中にもあります。

私はジョージア州アテネに住んでいますが、アテネが次の町だったとしましょう。実際はそうではありませんが、仮にそうだとすると、突然これらの車をすべてオンにして、すべての車が走り回って、オーナーとしても実際にお金を稼げるようになります。

レベル3はその先です。実際にOptimusロボット、人型ロボットを車の助手席や後部座席に乗せて、UPSやFedExなどの荷物をたくさん積み込むことができます。そして家まで運転して、ロボットが降りて荷物を取ってドアに置くのです。

未来の奇妙な光景

それは実に奇妙になるでしょう。いつか私が歩き回っている時があるでしょう。近所で犬を散歩させていると、ロボットが犬を散歩させているのを見るでしょう。そして次に、私の荷物を配達するロボットのUPS配達員がいるでしょう。

車に乗る時を想像してください。しかし助手席に座って、運転席にはOptimusが座っているのです。運転するためではなく、降りてお金を稼いで戻ってくるためです。何それ、という感じです。

私は特権的にも、オースティンにいた時にFour Seasonsの開発を見学する機会がありました。これは私の収入レベルをはるかに超えるもので、そんなことを考えることもできませんでした。しかし、特別だと分かったのは、着いた時に人がドアを開けてくれたからです。

しかし、プライベートシャッファーのOptimusがあなたのドアを開けて「さあ、食料品の買い物に行きましょう」と言うことを想像してみてください。

YouTubeで見るロシアの道路でのトラブル動画のように、Teslaにぶつかると3体のロボットが出てきて、屋根からドローンが離陸するような状況を想像してください。「分かった、分かった、後退します」となるでしょう。

オープンソースロボティクス

ロボットに関して、オープンソースのものがたくさん見られるようになり、とても興奮しています。開発者でない人々にもアクセスしやすくなっているようです。

例えば、YouTubeのSentexがUnit tree robotsのedu editionを入手しました。多くはC++でプログラムされており、Pythonよりもやや複雑で難しい言語です。彼はPythonは知っているがC++はそれほど知らないので、OpenAIのCodexを仲介役として使いました。

CodexがUnit treeロボットのコードベースとやり取りし、翻訳して必要なことをすべて行います。これは信じられないことです。なぜなら、必ずしも世界クラスの開発者でない人々に大きな可能性を開くからです。

ロボティクスのオープンソースチャンピオンとして非常に興奮している会社はありますか。

Stanford の貢献

ロボティクスについて具体的に話すなら、Stanfordが非常に素晴らしい貢献をしています。彼らのAlohaロボットです。あの奇妙な見た目のもので、中に立つことができるシェルのように見えるものです。

彼らにはとても興奮しているオープンソースロボティクスプロジェクトがたくさんあります。私が教育分野にいるからかもしれませんが。

実際、あなたが言ったことでスタートアップのレバレッジについて思い出しました。これらすべてが、行うことができるAIレバレッジのように感じられます。

個人的なAI活用体験

よろしければ、それについて話させてください。私はautomatic.ioという小さな会社を持っており、数人で作業しています。これは2020年の教室プロジェクトから始まりました。AIでクリエイティブな問題を解決できるかということをやっていました。

2020年を振り返ると、古代史のようです。Generative Adversarial Networksなどを使っていました。興味深いことに、AlphaGenomeも実際にそれを使用しています。

とにかく、これに取り組み始めましたが、数人だけではできることに限界がありました。リソースが非常に限られていました。そこで助成金を取りに行かなければならず、それは多くの追加作業でした。助成金を得て、助成金で作業し、何人か追加で雇い、お金が足りない、という具合でした。

2025年に早送りすると、私たちは数か月で新しい生成AIプロダクトの最小実行可能製品に取り組んでいます。数人の開発者だけで作成できます。AIが行えることを少なくとも10倍スケールアップしてくれるからです。

特に私のように世界最高のプログラマーでない場合、それはさらに私を助けてくれます。私のパートナーは実際に本当に素晴らしいプログラマーですが、私はちょうど適切な程度です。

「OpenAIやClaudeなど、これを書くのを助けて」と言えます。一つのバグがなぜ動かないのかを理解しようとして、コンピュータ画面に頭をぶつけながら夜更かししていた日々を覚えています。

今では「これはどうなっているの?」と聞くだけで、「ああ、これをするのを忘れています」と言われます。「ありがとう」という感じです。そのようなことで非常に多くの時間を節約できます。

AI開発の現状

現在少しレベルオフしているように感じますが、それは人為的かもしれません。有名な話ですが、2022年の夏に「AIは死んだ、別のAI冬に向かっている」という動画を作り、11月にChatGPTがリリースされました。「これ以上間違うことができただろうか」という感じでした。

しかし、次の1、2年で基礎的な変化がなくても、以前はスタートアップをやろうとも製品を作ろうとも思わなかった人々の拡大を見ることができると思います。

Codex、Windsurf、Cursor、Repletなどを使って、以前はこれができなかった人々にアクセスを提供しています。製品を作る能力を民主化しており、それは本当に素晴らしいことです。

実装段階への移行

このようなことを毎日カバーしている人として、同じレベルの知能を新しいフォームファクターに適用している人々も見つけられます。医学のすべて、CRISPRのすべて、その他すべてです。

私にとっては、AI冬に近いようには感じられません。むしろ実装段階であり、それは垂直的にではなく水平的に指数関数的に成長しています。

そうですね。探索対活用、つまり深さ優先対幅優先のようなものです。オタク的な言い方ですが、基本的に3年前にChatGPTで巨大なステップ変化を遂げ、「この素晴らしい新技術で今何ができるか」という水平空間をまだ探索しています。

同時に垂直的な進歩もたくさんありましたが、以前はできなかったことを理解するのは素晴らしいステップです。

AlphaGenome について

AlphaGenomeについて話しましょうか。今日出たばかりです。

いくつかメモもありますが、まだそれほど詳しく見る機会がありませんでした。ぜひ教えてください。

大きなポイントは、これは今日のホットニュースだということです。もちろん、この分野で化学のノーベル賞を受賞したDemisがAlphaFoldを作成したGoogle DeepMindからです。これはその別の進化版のようです。

これは100万塩基対のような巨大なDNAチャンクを入力すると、その中で何が起こっているかの情報が出力される有効化技術のようです。珍しい遺伝病などがある場合、それを見つけて「これらの塩基対が問題を引き起こしている」と言うことができます。

DNA解析の革新

本当に興味深いのは、医学は本当に難しく、それ自体が一つの分野なので私はそれほど詳しくありませんが、以前は選択しなければならなかったということです。

DNA配列全体の粗い解像度、つまり非常に低解像度の画像を得るか、ズームインして強化して小さな部分を見て、それを高解像度で見るか、つまり個々の塩基対を見るかのどちらかでした。

ここで彼らが行ったことは、両方を可能にしたということです。これは非常に素晴らしいことです。高解像度と大きな文字列の両方を入力できます。

本当に素晴らしい部分は、Convolutional Neural Networksを使用していることです。これはかなり古い学校のもので、2012年のAlexNetで画像認識の全体の新しい分野を開いたものです。

また、Transformersも使用しています。私の理解では、CNNまたは畳み込みニューラルネットワークを使って塩基対をフィルタリングし、何らかの問題を引き起こす可能性のある興味深い塩基対を探します。

その上に第二層としてTransformersを配置します。もちろんTransformersは注意メカニズムで、戻って見ることができます。文章で言えば「the cat in the」と言って、前の単語を振り返り、最も確率の高い次の単語は「hat」だと判断します。

これらのTransformersを使って、これら100万のものすべてを振り返り、「最も論理的な接続は何だろう」と言うことができます。これは私の経験外なので、何が興味深く見えるのか分かりませんが、明らかに医師は分かります。

遠距離相互作用の発見

彼らはそれをこれらのモデルに注入し、これらの巨大な配列全体を見て、「この物質は本当に遠く離れているが、おそらく相互作用がある」と言うことができます。

これは新しいことです。なぜなら、以前は本当に近い物同士だけを見なければならなかったからです。遠く離れた塩基対を見ることができませんでした。それは大きなブレークスルーです。本当に巨大です。

少し付け加えると、これは次の単語予測とは少し異なります。なぜなら、実際には突然変異が発現にどのような影響を与えるかを予測しているからです。

DNAが何であるかと、実際に体の外側で見る表現型との間には常に断絶がありました。今度は「ここからここまで予測できるか」ということです。なぜなら、それが私たちが本当に気にしていることだからです。

非コード領域の重要性

そうです、類推として使っていました。それが行っているのは潜在的な病気、問題などの予測です。興味深いことに、これで解除されたものの一つは非発現遺伝子ペアだということです。

私たちのDNA配列の塩基対の95%以上は何もしないと思います。コードしていません。「皮膚細胞を作れ」とは言っていません。しかし、実際はジャンクではないというのが興味深い部分です。

彼らが行うのは「皮膚細胞を作るという指示がある。ここに行って、これらの人たちを見てください。これが皮膚細胞を作るタンパク質の構築方法です」ということです。それが他のすべての人たちが行っていることだと思います。

これにより、DNA配列の非コーディング発現部分を見ることができます。これは非常に新しいことなので、間違っている可能性があります。

DNA の複雑性

Choose Your Own Adventureの本を読んだことがある年齢ですか。ページ3に行って、ページ7またはページ15を決めるような本です。それは本を無限に複雑にします。なぜなら、異なる順序で読むことができるからです。

DNAはそれでいっぱいで、そもそも非常に長いのです。素晴らしいブレークスルーです。

これは巨大になるでしょう。理解できる病気の数を考えてみてください。理解するだけでなく、「この特定の配列が問題を引き起こしている」ということができます。

明らかに、これは診断であり、問題を修正することはできません。しかし、DeepMindがこれを他の研究者、教職員、そのような人々に開いているので、人々は「遺伝子治療でこれを行い、CRISPRを使ってそれらの塩基対を修正できる。10万塩基対離れているが、それらが接続されていることが分かったので、何を調整すべきか分かる」と言うことを願っています。

これは医学における非常に印象的な進歩につながる可能性があります。

Google DeepMind の戦略

本当に人間の健康、長寿の改善を目的としたコレクションをまとめているようです。AlphaFold、そしてAlphaRodeoがあります。これは望む方法で他の細胞やタンパク質と相互作用するカスタム設計タンパク質を作成する能力のようなもので、大きなブレークスルーです。

AlphaFoldは素晴らしいものでした。タンパク質の形状を予測できるからです。そして、これはDNA用です。このようなもの、CRISPRのようなもの、そして薬物発見への応用の間で、薬物を発見する全く前例のない新しい方法を見ることができそうです。

新しいGoogle DeepMindのスピンオフ会社Isomorphic Labsの人々がまさにそれを行っていると思います。Sequoia Capitalのポッドキャストで話していました。

以前の薬物設計方法はある種の運任せだったと言っていました。ただ物を投げて、どのように作用するかを見ていました。これは完全に異なります。なぜなら、押し出す前に何が起こるかをシミュレートできるからです。

Google の復活

Google DeepMindについてどう思いますか。私にとって、Googleは検索エンジンとしては興奮する会社でしたが、今では古いニュースのようで、このGoogle DeepMindは次のレベルのもののようです。

Googleは本当に興味深いストーリーです。時計を巻き戻して一年前を考えると、みんな「彼らは競争から外れた。もう何も有用なことをしていない」と言っていました。

私はDeepMindで働いている何人かの人を知っていて、彼らは「私たちを見くびってはいけない。パイプラインに何かが来ていて、人々の心を吹き飛ばすだろう」と言っていました。「ああそう」という感じでしたが、今私たちはそれを見ています。

Gemini、Gemini Flash、Gemini Proでさえ、今では人々に本当に印象を与えています。以前は「犬だ。それほどうまく機能していない」という感じでしたが、今では非常にゲームに参加しており、いくつかの点では他の何よりも優れています。

もちろん、彼らはすべてのYouTubeにもアクセスできます。2012年か2013年にYouTubeを買収した時は「賢い買い物だ」と思いました。

Google の技術的優位性

私も彼らに賭けなければならないでしょう。時間を遡ると、特にDemisとDeepMindでは、Sam AltmanがYC on top of AI OpenAIシステムを行った時に必要な製品重視の会社ではなかったように感じました。

しかし確実に、AlphaFold 1と2はすべてのGPTモデルに先立っており、明らかにAtariゲームのすべて、そして唯一のCUDA競合を持っている必要があります。TPUで行うことは本当にNvidiaとGoogleの戦いです。Nvidia対他の企業ではありません。

彼らは依存できるインフラストラクチャーや、ただアヒルを整列させる必要があったあらゆる種類のものを持っています。しかし、今それらが整列し始めているのを見ています。

Attention Is All You Needを投げ出しましょう。これは2017年にTransformersを導入した論文で、Googleでした。それは彼らの研究者でした。だからこの全体がGoogleなしには存在しなかったでしょう。

OpenAIは小さなエージェントで素晴らしいことをしていました。RL系で、小さな人たちが小さなブロッカーを作って壁を飛び越える方法を理解するというものです。それは私のお気に入りの一つで、とても愛らしく、出てきた時は本当に心を打つものでした。

しかし、Attention Is All You NeedはGoogleで、OpenAIの研究者たちは「これは良いアイデアだ。これで走ろう」という感じでした。Googleはその勢いを続けることができたと思いますが、しばらく焦点を失いましたが、今では力強く戻ってきているようで、この種のものを製品化することについても考えています。研究の一部を捨てて考えないのではなく。

Google の変化

奇妙なことに、Googleは検索エンジン会社のようにも見えません。正直、多くのウェブサイト作成者、ウェブコンテンツ作成者にとって不利益になっています。今Googleに行くと、「ここにあなたの小さなAI生成回答があります」という感じで、それは通常私にとって機能します。「うん、分かった、それが私が必要だったものだ」となって、実際にウェブサイトに行く必要がなくなりました。

近いうちにDeep ResearchのようなAIが、科学で実際には殺されるべきではなかった行き止まりをすべて見つけることを期待しています。トリウム炉のことを知っています。中国が今再開していますが、これは70年代にアメリカの知識がただ放棄されたものです。

私たちがどれだけ近くにいたのに、ただ間違って導かれたものがどれだけあるでしょうか。

私はそれについてのビデオを見たばかりで、基本的に70年代にすべての研究があったが、アメリカは核兵器に欲しい核分裂物質を生産しなかったので放棄したということを実際には理解していませんでした。「それは欲しくない」という感じでした。

しかし今、中国はすべてのものを取って、実際にゴビ砂漠でトリウム炉を稼働させています。かなり素晴らしいです。

おそらく80歳の誰かがいて、「見ろ、私は電気の解決策を持っていた。君たちは信じてくれなかった」と言っているでしょう。

実際、論争の一つは、トリウム炉ならエネルギー問題がほぼ解決されていただろうということです。それは50年前のことです。5十年は長い開発時間で、これらは小さくできます。ウラン原子炉のような巨大なものである必要がありません。

自己改善AIについて

Sam Altmanの穏やかな特異点ブログ投稿で、再帰的自己改善の初期段階を見ていると言っていました。もちろん、Darwin Goal Machine、Alpha Evolveなど、たくさんのものを見てきました。

最近、Settlers of Katanをプレイする自己改善エージェントに同じようなことを適用した論文も見ました。より多くの例を見ています。NvidiaはGPT-4で自己改善できることを早期に示したVoyagerやEurekaのようなものを持っていました。

多くの人が知能爆発を見るかもしれない場所です。えっと、Aschenbrennerのような人が2027年にその種の垂直的な離陸を見ると言いました。それについてどう思いますか。まだサイエンスフィクションですか、それとも現実的になってきていますか。

ちなみに、あなたのSettlers of Katanのビデオを愛しました。それを見て「ありがとう」と思いました。

私が取り組んだことの一つは、2010年代半ばに戻ってAIの修士号を取得しました。ジョージア大学で教えていてPhDを取得していたのですが、子供たちが十分大きくなったので「退屈だから学校に行こう」と思いました。愚かなアイデアで、「年を取った。それは大変だった」という感じでした。

とにかく、その学位を取得しましたが、当時私を魅力したのは遺伝的進化で、基本的にAIとニューラルネットワーク内で人間の進化をモデル化するものでした。

当時は、これらを組み合わせるような種類の計算やアルゴリズムを持っていませんでした。遺伝的アルゴリズムという比較的単純なAIを進化させるか、ニューラルネットワークを行うかのどちらかでした。

私の修士論文はニューラルネットワークについてですが、常に遺伝的アルゴリズムなどを愛していました。「いつかこれら2つを組み合わせるだろう」と思っていて、今それが起こっています。「そうだ」という感じです。

進化的AIの課題

それは大量の作業です。なぜなら、もちろん異なる潜在的モデルの集団を作成できなければならず、それらが互いに競争しなければならず、どれが最も良いかを理解しなければならないからです。

誰もまだ完全に理解していない部分は有性生殖部分です。シミュレートされた有性生殖部分です。あるウェブサイトについて話しているのではなく、行わなければならないのは、2つの高度に有能なモデルを取って、両方の最良の部分を組み合わせた子モデル、または少なくとも潜在的にそうするものにどのように組み合わせるかということです。

それが進化の全体のポイントです。「それらを一緒に投げて何が起こるか見てみよう。時には機能し、時には機能しない」ということです。しかし、その種の生殖は、私の理解では興味深いオープンな問題です。

しかし、進化は素晴らしいです。それは非常に急速な離陸につながるでしょう。

モデル結合の解決策

それについて何を知っていますか。良い質問です。なぜなら、重みを単純に組み合わせることはできませんよね。同じ数のパラメータを持っている場合はできますか、それとも第3のモデルを開始して重みをランダム化し、他の2つにコンテンツを生成させてゼロから学習させるのですか。どのように組み合わせるか、どのような道筋がありますか。

Girdle Machineはそれを行いますが、実際には1つの集団から始まって、そこから子孫を作成します。しかし、複数のモデルを実際にブレンドするのではなく、1つを取って調整するだけです。

私の心では最も簡単なことは、学習率のようなハイパーパラメータを調整することでしょう。実際に使用する数字のスプレッドシート外にある、より良く訓練するのに役立つパラメータがたくさんあります。

時々、これらの数字の多くがあり、「学習率をこの時点で0.001に変更したらどうなるか。それはより良くまたはより悪く訓練するか」と言うことができます。そして訓練して、他のものより良いか悪いかを見ることができます。

その集団の最高のパフォーマンスメンバーを取ることができます。100の異なるハイパーパラメータでそれを行い、実際に何かを進化させ始めることができます。

もしかすると、遺伝子のように考えることです。Mixture of Expertsが良い可能性です。Mixture of Expertsでは、「これは数学の質問です。数学専門家、あなたがこれを処理してください」と言う指揮者またはオーケストレーターのようなものがあります。

100億パラメータモデルがある場合、数学専門家は10億パラメータだけかもしれません。できることは、数学の質問を与えて、この特定のバージョンで数学専門家のみを進化させることです。

それで、重みを取り出してランダムにシャッフルすることもできるかもしれません。それが効率的な方法でどのように行われるか分かりませんが、時間がかかり、計算集約的であることが大きな問題です。しかし、それが機能すれば、それは素晴らしいでしょう。

自己適応モデル

数週間前に非常に興味深い論文がいくつかありました。SVICポッドキャストのJoeと話しました。彼は元Googleのエンジニアリングディレクターです。彼がそれを送ってくれて、開くと期待よりもはるかに多くの数学があって、「わあ、これで私の一日が終わった。これを通らなければならない」という感じでした。

しかし、それは魅力的でした。彼が送ってくれたいくつかの異なるものの一つは、自己適応モデルのようなもので、基本的に自分の重みを変更しました。

論文の著者の一人がXで、この将来の応用は教師モデルを作成することだと言っていました。それらのモデルを作成し、その場で重みを調整し、ハイパーパラメータなどもすべて調整できるものです。

あなたが話していることとどのように組み合わさりますか。モデルの進化対、おそらく教師モデルがそれらのモデルを作成することです。それらは手を取り合って進むものですか、それとも一緒にできない2つの異なるアプローチですか。

計算コストと時間の問題

このすべての進化にそれほど時間がかかる理由は、これを本当に正しく行いたい場合、小さなモデルを取ってみましょう。訓練実行が100 GPUで10日かかる可能性があるとしましょう。ただ数字を投げているだけですが、数秒ではありません。長期間です。

今度は集団のために100個を生成し、すべての100を訓練し、次にテストしなければならないとしましょう。突然、100日プラスそれらすべてをテストするのにおそらく30日追加になります。そして次の世代を選びます。

現在、それは禁止的に高価です。すべてのお金を持っていても、時間的に禁止的に高価です。

あなたが話していることは、実際に非常に興味深いと思います。これは、学生モデルではなく教師モデルをより良くするためのフィードバックを与えることについて、今朝ジムで聞いていたあなたのビデオだったかもしれません。

教師モデルアプローチ

そのような可能性は非常に素晴らしいと思います。なぜなら、基本的な進化を行い、次に比較的単純なモデルを作成し、教師モデルがそのモデルを訓練し、うまくいけばより良くできるからです。教師モデルは学生がどれだけうまくやるかで評価できます。

あなたが教師だとしましょう。教室に30人の子供がいます。よく実行している子供と悪い実行している子供がいるでしょうが、ベルカーブを右に移動させ、すべての学生が一般的により良くなるようにする責任があります。

そうすると、おそらく比較的単純なモデルである学生の集団を使用でき、これらの他のモデルをより良くより良くより良くなるように教える1つの教師モデルを訓練し、より良い学生の次の世代を生産できます。

そのように、これらすべての考えを組み合わせることができ、それは本当に楽しくて興味深いものになります。

生物学的スケールとの比較

生物学が私たちすべての約37兆個の細胞で作動しているスケールについて考える時、それは驚きです。それぞれがゲノム全体のコピーで、80億人の人間と、生殖を通じて起こりうる混合の量です。現在想像できる計算を超えたそれほど多くのモデルを持つことは、最終的には可能ですが、まだ遠いです。

教師モデルの方が計算集約的でない可能性があると思う理由は、100万または10億の異なるバリエーションを行う代わりに、それらを訓練して、教師モデルへの強化学習フィードバックとして使用するからです。より良いモデルπ5を作成したら、そうでなければクビです。基本的な信号として使用するという意味です。

AI安全性とP-doom

しかし、それはアライメントとAI安全性について何を語るでしょうか。私たちはAI開発をますますAIにオフロードしており、あなたのP-doomは何ですか。

それが唯一重要なことです。誰ももうそれについて話しません。みんな「P-doomは何ですか」と言っていたのに、今ではそれさえも話題になりません。人々は奇妙に運命論的に受け入れたようです。

問題は、もしTransformersよりも1つ優れた建築的なものをもう一歩手に入れれば、人間より明らかに賢い知能をこれらのものに到達させることになるということです。

すでに聖なるたわごとです。AMAyとMMLUなどでこれらのものを見ると、私ができるよりも良いです。これらのテストで私はそれほどうまくできませんでした。それは狂気です。

すでに人間と同等に議論の余地がありますが、時々本当に愚かでもあります。しかし、ChatGPTがGPT-4だったようなステップ変化をもう1つ取得できれば、人間とシリコンのどちらが賢いかについて議論がなくなる地点に到達すると思います。

それについて考えてみてください。これは岩で、それが考えているのです。砂です。砂がそこに座って考えているのは奇妙です。私たちは炭素分子なので、まあいいでしょう。

サンプル効率性の問題

彼らが話すことの一つはサンプル効率性のアイデアです。理解する前にどれだけの例が必要かということです。ニューラルネットワークは人間よりもはるかに効率的でないようです。

Noam Brownを見ました。彼はMetaでCiceroに取り組み、現在はOpenAIでマルチエージェントフレームワークに取り組んでいます。彼は人間の専門家を破壊するTexas Hold’emポーカープレイロボットを設計できると言っています。

しかし、悪いプレイヤーに対しては、良いプレイヤーがするほどうまくやれません。良いプレイヤーは「それは下手な人だ、あまりうまくプレイしない人だ」と気づいて、それを悪用します。そのモデルはそれを早く理解しません。

この方法で超人的ですが、サンプル効率的でないため、人間のようにそのようなことを早く理解しません。なぜそうなのか、それをどのように解決するかについて何か直感がありますか。

これは私たちの会話の始まりに戻ります。ロボットタクシーと人型ロボットについてです。現実世界は非常に効率的な教師です。

個人として、頭をぶつけたり指を骨折したりしたことがあることを知っています。物事をしないことを本当に早く学びます。ストーブに手を置いたりもそうです。しかし、遺伝的集団にとっても同様です。「誰かの鼻を水が飲めないほど大きくするのは悪いアイデアだった」のようなものです。それで終わりです。

一般的に大規模言語モデルの問題は、単語と画像の小さな箱の中で生きているということです。一方、現実世界にいる実際のロボットです。車は一種の先駆者、前触れですが、すぐに人型のものも見るでしょう。

転んで腕が折れたりすると、それはかなり良い強化レッスンです。そのような場所で、Yann LeCunが言ったと思いますが、彼がこの研究をしたわけではありませんが、4歳までの子供は、書面で作成したすべての人間情報と同じだけの情報ビットを彼らのシステムに取得したと報告しています。

365日×4で、約12兆トークンのオーダーです。人間として取り込む情報の量を見てください。現実はただそれほど良いのです。

シミュレーションであれ実際の現実であれ、これらの機械が現実とより相互作用できれば、そこで本当に進歩を得ることができると思います。そこで知能の非常に高速な加速を実際に得ると思います。

知能の定義の拡大

おそらく付け加えられるのは、実際にWesが最初のインタビューで私に考えさせてくれたことですが、生物学的制約があったため、知能の定義を大幅に拡大しなければならないということです。

食べ物の種類、環境の種類、または生物学がすべて45億年前からの長い歴史を通じて接続されている方法です。シリコンチップ上で何かを構築する時、それは長い鎖で45億年前から来る進化を通じて発明されたものではありません。非常に異なる可能性があります。

他の種類の知能を想像して、「いくつかの方法で私を超えており、他の方法では私のようではないかもしれませんが、それはあなたが無能だという意味ではありません」と言わなければなりません。

AlphaFoldが何をしているかを理解し始めた時、私の心を本当に吹き飛ばしたことです。私たちが骨の折れる作業で構造を理解した15万のタンパク質のコレクションがありました。それをこのニューラルネットワークに入力します。

それらの計算は複雑すぎるため不可能です。だから、画像を見て、次に別の画像を見て、パターンが何かを理解するIQテストのようなものです。私たちの脳やコンピュータで始めることさえできないほど何かのパターンを見ました。

私たちを全く近づかないほど完全に異なる知能のようなものです。私たちが始めることさえできないことについて推論できるものが他にどれだけあるでしょうか。

ハエが窓に何度も何度もぶつかっているのを見て、「光がそのような材料をどのように通るかの全体的な概念があり、あなたはそれを欠いている」と思います。そして、AIが同じことを見て、「DNAの一部を見て、特定の形に折りたたまれるタンパク質をどのように作るかを見ることができないなんて、神様、それは悲しい」と考えなければならないと思います。

Dylan Curious Channelにはこのインタビューのパート2が利用可能です。チェックしてみてください。

コメント

タイトルとURLをコピーしました