
9,698 文字

以下はイーロン・マスクとの会話です。彼はテスラ、スペースX、ニューラリンクのCEOであり、その他いくつかの企業の共同創業者でもあります。この会話は「人工知能ポッドキャスト」の一環であり、自動車、ロボティクス、AI、テクノロジー企業のCEOやCTO、さらには学術界の主要研究者が参加しています。
この会話は、MITの私たちのグループがテスラのオートパイロット使用時における運転者の機能的注意力に関する論文を発表した後に行われました。テスラのチームからイーロン・マスク氏とのポッドキャスト会話のお誘いを受け、私は質問内容と公開内容を完全にコントロールした上で承諾しました。
実質的な内容は一切編集しておらず、今回の会話以前にイーロンとは公私ともに一度も話したことがありませんでした。彼も彼の企業も、私の意見やMITで実践している科学的方法の厳密さや誠実さに影響を与えることはありません。テスラは私の研究を一切金銭的に支援したことはなく、私はテスラ車もテスラ株も所有していません。
このポッドキャストは科学論文ではなく会話です。私は他の全てのリーダーやエンジニアと同様にイーロンを尊敬しています。我々はある点では意見が一致し、またある点では意見が分かれました。これらの会話の目的は、ゲストが世界をどのように捉えているかを理解することにあります。特に、この会話では、カメラベースの運転者モニタリングがどの程度結果を改善し、またどの期間にわたってAI支援運転にとって有効であり続けるかという点で意見が分かれました。
私自身は人間中心の人工知能に取り組み、その魅力に惹かれている者として、もし効果的に実装・統合されればカメラベースの運転者モニタリングは短期的にも長期的にも有益であると考えています。対して、イーロンおよびテスラは、オートパイロットの改良によって統計的な安全性の向上が人間の行動や心理に関する懸念を上回ることを重視しています。
イーロンと私はすべてで一致するわけではありませんが、彼が率いるエンジニアリングと革新の努力には深い尊敬の念を抱いています。ここでの私の目標は、業界と学界において、AI支援運転に関する厳密で微妙かつ客観的な議論を促進し、最終的にはより安全でより良い世界の実現に寄与することです。それでは、イーロン・マスクとの会話をお楽しみください。
レックス:オートパイロットの初期のビジョン、夢は何でしたか?2014年に最初に考案され、車に搭載が始まったときのシステム全体の大局像、ハードウェアの面も含め、どんなビジョンや夢を描いていたのでしょうか?
イーロン:それをビジョンや夢と表現するのは適切ではないと思います。ただ、自動車業界には明らかに二つの大きな革命があるというだけです。一つは電動化への移行、そしてもう一つは自律走行です。将来的に自律走行を持たない車は、ほぼ馬と同じくらい有用性が低くなると明らかだったのです。馬が全く無用というわけではありませんが、現代において馬を持つというのは稀であり、風変わりな存在になります。
レックス:つまり、車はやがて自律走行するようになり、もし自律走行革命に参加しなければ、我々の車は自律走行車と比べて人々にとってほとんど役に立たなくなるということですね。長期的には自律走行車は非自律走行車の5倍から10倍の価値があるということでしょうか?
イーロン:長期的というのは何をもって長期とするかにもよりますが、少なくとも今後5年、いや10年程度はそうなると考えています。
レックス:オートパイロット初期には、非常に興味深い設計の選択がいくつかありました。まず、計器クラスタやModel 3のセンタースタックディスプレイ上に、複数のセンサーが捉えた情報を合成して表示するというものです。その選択の背後にある考えは何でしたか?議論はあったのでしょうか?どのようなプロセスで決まったのですか?
イーロン:ディスプレイの目的は、車両が現実をどのように認識しているかを健康診断するためのものです。車は主にカメラをはじめ、レーダー、超音波センサー、GPSなど多数のセンサーから情報を収集します。その情報は、車線や信号、他の車両といった性質を持つオブジェクトとしてベクトル空間上にレンダリングされます。そして、そのベクトル空間上の情報をディスプレイに再レンダリングすることで、実際に窓の外を見ながら車が状況を把握しているかどうかを確認できるのです。
レックス:なるほど。これは、システムと一体となってその能力を理解する上で非常に強力な手段ですね。ところで、もっと多くの情報を表示することは検討されたのでしょうか?例えば、道路のセグメンテーション、車線検出、車両検出、物体検出など、システムの裏側にあるコンピュータビジョンのプロセスでは、エッジ部分に不確実性が存在します。その不確実性、例えば画像認識に伴う確率などを表示することは考えられたのですか?
イーロン:現状では、周囲の車両が非常に鮮明に表示され、前方に車があることをシステムも確認しています。しかし、コンピュータビジョンが何であるかという直感をユーザーに持ってもらうために、一部の不確実性を示すことは有用だと考えています。
レックス:私の車では常にデバッグビューを確認しています。デバッグビューには、認識されたオブジェクトにボックスとラベルを描画する「オーグメンテッド・ビジョン」と、全センサーの入力をまとめたベクトル空間表現である「ビジュアライザー」という二種類があります。ビジュアライザーは実際の画像は表示せず、車が世界をどのように捉えているかをベクトル空間で示しているのですが、一般の人には何を見ているのか分かりにくいのではないでしょうか?
イーロン:現在の表示は、システムの能力を一般の人々が理解できるように最適化されたHMIになっています。コンピュータビジョンの仕組みを全く知らなくても、画面を見れば車が何を認識しているかが把握できるのです。開発エンジニアや開発ビルドを使っている場合は、全てのデバッグ情報を確認できますが、ほとんどの人にとっては全く意味不明な情報になってしまいます。
レックス:努力の配分についてですが、オートパイロットには大きく分けて三つの技術的側面があると思います。すなわち、基盤となるアルゴリズム(例えばニューラルネットワークのアーキテクチャ)、学習に用いるデータ、そしてハードウェアの開発などです。資金や時間には限りがありますが、どこに最もリソースを割くべきだと考えますか?それとも、これら三つはほぼ均等に重要だとお考えですか?
イーロン:我々の車両はすべて、8台の外向きカメラ、レーダー、通常12個の超音波センサー、GPS、IMUなどを搭載しており、その結果、莫大な量のデータが自動的に収集されます。そして、現在約40万台の車両がこのセンサー群を搭載しています。実際、正確に管理していると思いますが。
レックス:つまり、他の車両でこのセンサー群を持っているのはごく僅かで、我々はデータの99%を保有しているということですね。
イーロン:全くその通りです。データの流入は膨大であり、その後約3年をかけて、現在の車両に搭載されているNVIDIAシステムの約10倍の処理能力を持つフルセルフドライビング用コンピュータを開発しました。これを使うには、NVIDIAコンピュータのプラグを抜き、テスラ製のコンピュータを接続するだけです。
実際、我々はまだその能力の限界を模索している段階です。カメラをフルフレームレート、フル解像度で動作させ、画像を切り取ることすらせずとも十分な余裕があり、フルセルフドライビング用コンピュータは、実質的に二つのシステムオンチップが完全に冗長な形で構成されています。どの部分に障害があっても、システムは動作し続けます。
レックス:その冗長性というのは、二つのシステムが完全に同一のコピーになっているということでしょうか?それとも、両者が独自に意思決定を行う「議論マシン」のようなアーキテクチャでしょうか?
イーロン:前者です。冗長性のために、ツインエンジンを搭載した旅客機のように構成されています。両方のシステムが動作しているのが理想ですが、一方だけでも安全に運用可能です。現状では性能の限界に達していないため、両SOCに機能を分散させる必要はなく、実際に各SOCに完全な複製を実装しています。
レックス:つまり、システムの限界にはまだ達していないということですね。
イーロン:その通りです。まだ限界には至っていません。
レックス:ディープラーニングの魔法は、データが増えれば増えるほど性能が向上する点にあります。膨大なデータがあるとおっしゃいましたが、運転において本当に学習価値のあるデータはエッジケースです。以前、オートパイロットの解除が重要な瞬間であるとおっしゃっていたのを聞いたことがあります。他にどのようなエッジケースがあり、そこからどのような価値が得られるかについて教えていただけますか?
イーロン:学習する要素は多岐にわたります。たとえば、オートパイロット中に誰かが制御を引き継いだ場合、それが単に便宜上の操作なのか、あるいはオートパイロットが適切に機能していなかったためなのか、システムが検知します。また、交差点を通過するための最適な曲線(スプライン)を求めるといったケースもあります。介入がないケースが正解であると判断され、それを基に最適なスプラインが得られるのです。
レックス:つまり、一般的なケースの大量サンプルと、便宜上ではなく何かがうまくいかなかったエッジケースの双方を収集しているということですね。
イーロン:そうです。基本的には、すべての入力をエラーと見なすべきです。もしユーザーが何らかの操作を行ったならば、それは何かしらのエラーを意味しているのです。
レックス:その考え方は非常に強力ですね。ただ、例えば高速道路から降りる、またはナビゲーション上でオートパイロットが対応していない場合など、ドライバーが介入するケースと、単なるエラーとをどのように区別するのでしょうか?
イーロン:その点については、最近リリースした「Navigate on Autopilot」によって大部分が解決されつつあります。ステアリング操作による確認なしに、レーン変更や高速道路の出口、ハイウェイのインターチェンジでの操作が可能になり、その多くのケースが解消されるでしょう。
レックス:なるほど。それは非常に大きな飛躍だと思います。実際、オートパイロットの歴史の中で大きな進歩を遂げたのは、確認不要のNavigate on Autopilotの実装ですし、遅い車を自動的に追い越す機能や、交通信号認識機能(最初は警告として導入されましたが、私が乗っている開発バージョンでは信号で完全に停止して再出発する機能もあります)も大きな進歩ですね。
レックス:これらはすべて、完全自律走行への一歩として捉えられます。では、完全自律走行に向けた最大の技術的障壁は何だとお考えですか?
イーロン:実際に、今生産中のフルセルフドライビング用コンピュータ、いわゆるFSDコンピュータがその鍵となります。Model S、Model X、あるいはフルセルフドライビングパッケージ付きのModel 3を注文すれば、このFSDコンピュータが搭載されるのです。十分な基盤計算能力を持つことが重要です。その後、ニューラルネットや制御ソフトウェアの洗練が進み、全てはOTAアップデートで提供されます。非常に重要なのは、現在生産されているハードウェアがすでにフルセルフドライビングに対応可能であるという点です。
レックス:「対応可能」というのは興味深い表現ですね。ハードウェアが十分であれば、通常はアップグレードが難しい部分ですから。
イーロン:その通りです。残るはソフトウェアの問題であり、ソフトウェアは実際、ほぼ追加費用なしで改良できます。
レックス:では、ソフトウェア側についてですが、安全性だけでなく、ユーザーが実際に楽しめる体験を提供するために、残されたステップはどの程度の難易度だとお考えですか?
イーロン:高速道路上では、テスラ・オートパイロットの利用は生活の質を劇的に向上させるゲームチェンジャーになると思います。あとは、その機能を市街地にまで拡張し、交通信号認識、複雑な交差点のナビゲーション、そして駐車場という、車が自ら駐車スペースから出てきてあなたのもとに向かい、また独自に駐車スペースを見つけるといった複雑な状況にも対応させる必要があります。
レックス:特に駐車場は、手動操作では非常に煩わしいので、そこで自動化の恩恵は大きいでしょうね。
イーロン:その通りです。駐車場は非常に面倒な作業ですから、自動化によって大きな利益が得られるでしょう。
レックス:さて、人間の側面にも話を戻しましょう。現在、ウェイモなどがテストしているレベル4の車両は、技術的には自律走行ですが、実際には常に安全運転者が付き添いシステムを監視しています。テスラのフルセルフドライビングも、しばらくの間は人間の監視が必要だとお考えですか?つまり、システム自体は強力な運転能力を持っていても、他の自律走行車と同様に安全運転者が必要とされるのでしょうか?
イーロン:少なくとも今後6か月程度は、ステアリングに手が置かれているかを検知する仕組みが必要だと思います。実際のところ、規制の観点から、オートパイロットがどれだけ人間よりも安全でなければ、車両の監視を省略できないのかという問題があります。統計的に非常に高い信頼性をもって、車が人間より劇的に安全であると証明しなければならず、そのためには人間の介入が安全性に大きく影響しないことを示す必要があります。場合によっては、車は人間の200~300%の安全性を持たなければならないかもしれません。
レックス:その安全性の高さは、走行距離あたりの事故件数や、事故や死亡事故の統計などで証明されるのでしょうか?
イーロン:そうです。クラッシュ件数や死亡事故など、各種指標で評価することになります。死亡事故も重要ですが、統計的に十分な数が集まらないため、クラッシュ件数、怪我の確率、恒久的な怪我や死亡の確率など、あらゆる面で人間より大幅に優れている必要があります。
レックス:その点について、規制当局と健全な議論ができるとお考えですか?
イーロン:規制当局は、メディアで大々的に報道される事象に対して過度に注目する傾向があります。アメリカでは年間約4万件の自動車による死亡事故が発生していますが、もしテスラでたった4件の事故があったとしても、他のどこよりも1000倍以上の報道がされるでしょう。
レックス:その心理的側面は非常に興味深いですね。さて、運転者の機能的注意力に関する話に戻ります。私自身とMITのチームは、最近、オートパイロット使用時の運転者の機能的注意力に関する論文を発表しました。これは、オートパイロットが初めて一般公開されて以来、3年以上にわたって運転者の顔や体の映像を収集して行ってきた研究です。あなたが論文の概要から引用したツイートを見たので、少なくとも目を通されたと思いますが。
イーロン:はい、読みました。
レックス:では、我々の発見について説明させてください。収集したデータによると、オートパイロット解除の1万8千件中、1万8千9百件について、運転者が適時に制御を引き継ぐことができたと注釈しています。つまり、運転者は実際に存在し、道路を見ながら適切に制御を引き継いでいるという結果です。
レックス:これは、従来の自動化に関する文献で予測されていた内容とは逆の結果です。しかし、これが広範なドライバー集団に当てはまるとお考えですか?私たちのサンプルはごく一部に過ぎません。一部では、非常に責任感の強い少数のドライバーがいて、彼らの場合はオートパイロット使用時に注意力が低下する可能性があるという批判もあります。
イーロン:システムは非常に急速に改善しているため、こういった議論はすぐに意味をなさなくなるでしょう。システムが人間よりもはるかに安全になれば、人間が介入すること自体が安全性に大きな影響を与えなくなります。実際、私は、近い将来、もしくは遅くとも来年には、人間の介入がむしろ安全性を低下させる結果になると考えています。
レックス:非常に興味深いですね。つまり、たとえ一部のドライバーが注意力の低下を示したとしても、全体としての安全性の統計には影響しないということでしょうか?
イーロン:その通りです。
レックス:かつてエレベーターにはオペレーターが必要でしたが、今では自動停止するエレベーターが安全であり、むしろオペレーターがいると危険だというのと同じですね。
イーロン:その通りです。実際、エレベーターをレバーで操作するような仕組みは、非常に危険だと思います。
レックス:非常に強い主張であり、興味深い見解です。ただ、ユーザーエクスペリエンスや安全性の観点から、アルゴリズム的にはカメラを用いて運転者の存在や視線、認知負荷、体の姿勢などを検出することは魅力的な問題です。業界の中には、カメラベースの運転者モニタリングが必要だと考える人も多いですが、その点についてはどうお考えですか?
イーロン:システムの信頼性が人間レベル以下の場合には、運転者モニタリングは有意義です。しかし、システムが人間よりもはるかに信頼性が高くなれば、運転者モニタリングはあまり効果を持たなくなるでしょう。エレベーターの例のように、操作レバーを持った人間よりも、単にボタンで操作する方が信頼性が高いのです。
レックス:フルセルフドライビング用コンピュータで見た限り、システムの改善速度には非常に楽観的な見通しをお持ちのようですね。
イーロン:改善の速度は指数関数的です。
レックス:さて、もう一つ非常に興味深い初期の設計選択があります。それはオートパイロットの運用設計領域(ODD)の考え方です。つまり、どの環境でオートパイロットをオンにできるかということです。たとえば、キャデラックのSuper Cruiseシステムは、非常に限定された、十分にマッピングされテストされた高速道路でしか動作しませんが、テスラのODDはそれよりもはるかに広いのです。
イーロン:まるで注意欠陥(ADD)のようですね。(二人とも笑う)
レックス:面白い表現ですね。広いODDの利点は、テスラのドライバーがシステムの限界をよりよく理解できる点にあります。一方で、欠点としては、システムが「認識できる」と判断すればどこでも使えるようになってしまうという点です。これは、設計上意図的に採用されたものだったのでしょうか?
イーロン:正直なところ、2トンの「死の機械」を人間が手動で運転させるのは非常に狂気じみています。将来的には、人々は「かつて人が好き勝手にこれらの2トンの車を運転していたなんて信じられない」と思うでしょう。まるで、かつてエレベーターをレバーで操作して好きな階に止められた時代のように。
レックス:人間の心理や行動に関して、さらに質問したいことがたくさんありますが……
イーロン:その点はすでに問題外です。私たちは、ハードウェアとディープラーニングによって、システムが人間よりもはるかに安全になると確信しています。
レックス:ところで、最近、いくつかのハッカーが対抗例(adversarial examples)を用いて、オートパイロットを予期せぬ動作に陥れる事例がありました。ニューラルネットワークシステムは、些細な摂動に敏感だと言われていますが、業界全体でこのような攻撃に対抗できると思われますか?
イーロン:もちろんです。(二人とも笑う)
レックス:その自信の背景について、もう少し詳しく教えていただけますか?
イーロン:ニューラルネットは基本的には単なる行列計算の集合体です。しかし、行列がどのように構築されるかを高度に理解し、逆解析する必要があり、その上で行列計算にわずかな誤差をもたらす小さな値を作り出す必要があります。しかし、システムがそのような行列のハックのようなものを検知した場合、簡単に排除する、いわば「ネガティブ認識」を導入すれば、防ぐのは非常に容易です。
レックス:つまり、有効なデータだけでなく、無効なデータ、つまり対抗例の両方から学習させることで、車が「これは車である」「これは決して車ではない」と区別できるようにする、ということですね。
イーロン:その通りです。基本的には「これは車だ、これは絶対に車ではない」という二種類の学習を行うのです。多くの人はニューラルネットについて全く理解しておらず、まるで釣り網でも使うのかと思っているかもしれません。(レックスが笑う)
レックス:テスラやオートパイロットを超えて、現行のディープラーニングのアプローチは、ある意味で汎用知能にはまだ遠いように思えます。現状のアプローチで汎用知能に到達できるとお考えですか?それとも、全く新しいアイディアを発明する必要があるのでしょうか?
イーロン:私は、汎用人工知能に必要な重要なアイディアがいくつか欠けていると思っています。しかし、それは非常に近い将来、私たちに降りかかるでしょうし、その時には「我々は何をすべきか」という問いに直面することになるでしょう。人々は、車が車線を認識し道路を走行するための狭いAIと、汎用知能を混同してしまうのが不思議なほどです。まるで、トースターとコンピュータはどちらも機械ですが、一方はずっと洗練されているのと同じです。
レックス:つまり、テスラなら世界最高のトースター――いや、世界最高の自動運転システムを作れるということですか?
イーロン:その通りです。正直なところ、現状ではテスラは他社を圧倒していると見ています。もちろん、慢心や過信はしたくありませんが、現状ではテスラが大きくリードしているように見えるのです。
レックス:映画『her』のように、私たちが愛し、かつ私たちを深く愛してくれるようなAIシステムを作ることは可能だと思いますか?
イーロン:AIは、あなたがそれに恋をするほど説得力を持つようになると思います。
レックス:それは、人間のそれとはどう違うのでしょうか?
イーロン:ここで感情や思考が物理的な領域とは別のものかどうかという形而上学的な問題に入ります。もしかしたらそうかもしれませんし、そうでないかもしれません。しかし、物理学の観点から言えば、私の訓練は物理学であり、物理学的な見地からは、もしあなたがそれを本物かどうか判別できないほど愛されるのであれば、それは本物だと言えるのです。
レックス:それは物理学的な「愛」の見解ですね。
イーロン:そうです。(笑う)もし、それが本物でないと判断するためのテストが存在しなければ、区別はつかないのです。
レックス:つまり、私たちの世界がシミュレーションであるかどうかを判断するテストが存在しないのと同じですね。
イーロン:その通りです。もちろん、シミュレーションを検出する方法が全くないわけではありませんが、もしシミュレーション内の存在がそれを検出した場合、シミュレーションを一時停止するか、新たなシミュレーションを開始するか、あるいはその他の方法でその誤差を修正することができるでしょう。
レックス:では、もしあなたや誰かがAGIシステムを作り、そのシステムに一つだけ質問できるとしたら、どんな質問をしますか?
イーロン:「シミュレーションの外には何があるのか?」です。
レックス:イーロン、本日は本当にありがとうございました。大変有意義な時間でした。
イーロン:ありがとうございました。


コメント