ダフネ・コラー:機械学習、創薬、Coursera、そしてAIの未来

レックス・フリードマン、LexFridman
この記事は約85分で読めます。

スタンフォード大学教授でCoursera共同創業者、insitro創業者兼CEOであるダフネ・コラーとの対話である。機械学習と生物医学の交差点から、創薬、疾患理解、幹細胞モデル、オンライン教育、AIの不確実性、AGI、安全性、そして人生の意味までを幅広く掘り下げる内容である。

Daphne Koller: Biomedicine and Machine Learning | Lex Fridman Podcast #93
Daphne Koller is a professor of computer science at Stanford University, a co-founder of Coursera with Andrew Ng and Fou...

機械学習と医療の交差点

これからお届けするのは、ダフネ・コラーとの対話です。彼女はスタンフォード大学のコンピューターサイエンス教授であり、アンドリュー・ングとともにCourseraを共同創業した人物で、現在は機械学習とバイオメディシンの交差点にある企業insitroの創業者兼CEOでもあります。

私たちは今、機械学習のデータ駆動型手法を使って、新しい薬や治療法を大規模に発見し、開発していく、非常に刺激的な初期段階にいます。ダフネとinsitroはその最前線を走っており、そのブレークスルーは、現在のコロナウイルスのパンデミックに対処するうえで最も重要な分野を含め、医学のあらゆる領域に波及する可能性があります。

この対話はCOVID-19の流行が始まる前に収録されたものです。この危機によって医療面、心理面、経済面で負担を感じているすべての人に、心からの思いを送ります。どうか強くいてください。私たちは一緒にいます。必ずこの状況を乗り越えます。

これはArtificial Intelligence Podcastです。楽しんでいただけたなら、登録して、Apple Podcastで5つ星のレビューをお願いします。Patreonで支援していただくか、Twitterで私につながってください。名前はLex Fridman、つづりはF R I D M A Nです。

いつものように、ここで数分だけ広告を入れます。会話の流れを壊さないように、途中に広告は一切入れません。それが皆さんにとって問題なく、リスニング体験を損なわないことを願っています。

この番組はCash Appの提供でお送りします。App Storeでナンバーワンの金融アプリです。入手したら、コードlex podcastを使ってください。Cash Appでは友人に送金したり、Bitcoinを購入したり、わずか1ドルから株式市場に投資したりできます。Cash Appではピアツーピアでデジタルに送金や受け取りができるので、すべてのデジタル取引においてセキュリティは非常に重要です。そして以前にも触れたように、Cash AppはPCIデータセキュリティ基準に準拠しています。

私は安全性とセキュリティのための標準がとても好きです。PCI DSSはそのよい例です。多くの競合企業が集まって、取引の安全性には世界的な標準が必要だと合意したわけです。今度は自動運転車や広告システム全般についても、同じことをする必要があります。

改めて、App StoreまたはGoogle PlayからCash Appを入手して、コードlex podcastを使うと、10ドル分の現金がもらえます。さらにCash Appは、世界中の若者のロボティクスとSTEM教育の発展を支援する団体FIRSTにも10ドルを寄付します。

それでは、ダフネ・コラーとの対話をどうぞ。

病気を治すことと寿命を延ばすこと

Courseraを共同創業されて、AIのグローバル教育に大きな影響を与えました。そして5年後の2016年8月、ブログ記事で退任を発表し、こう書かれていました。今こそ、もう一つの重要な課題、つまり機械学習の発展と、それを人間の健康の改善に応用することに向き合う時だ、と。

そこで、かなり遠くまで踏み込んだ哲学的な質問を2つさせてください。1つ目は、今日知られている主要な病気すべてに、いつか治療法を見つけられると思いますか。2つ目は、人間の寿命を延ばす方法、もしかすると不死に近いところまで延ばす方法を、いつか見つけられると思いますか。

いつかというのは、とても長い時間です。そして私は、私たちは決してXをできない、という種類の予測をするのは好きではありません。それはある種の傲慢さを感じさせるからです。人類の存在全体、つまり永遠とも言える時間の中で、私たちがその問題を解けることは絶対にない、と言っているようなものですから。

とはいえ、病気を治すことは非常に難しいです。多くの場合、病気が発見された時点では、すでに大きな損傷が起きています。その段階で病気を治せると仮定するには、人体の一部を丸ごと再生して、本当に元の状態に戻すような方法を私たちが生み出す必要がある、ということになります。それは非常に難しい問題です。

私たちは、治癒できた病気はごくわずかです。治療を提供できる病気の数は増えていますが、本当に治癒と定義できるものは、実際にはそれほど多くありません。ですから、すべての病気はもちろん、相当な数の病気を治癒できたと正当に言えるようになるまでにも、まだ多くの仕事が必要だと思います。

0から100の尺度で考えたとき、主要な病気すべての根本メカニズムを理解するという点で、私たちはどのあたりにいるのでしょうか。コンピューターサイエンスの視点から健康の世界に入ったあなたの感覚では、どれくらい進んでいるのでしょう。

病気によると思います。100に近いとまでは言えない病気もあります。生物学は本当に複雑で、人々が存在すら知らなかった新しいものが常に発見されますから。それでも、70台や80台にいるかもしれない病気はあります。一方で、病気の大多数については、かなり0に近いと言えると思います。

アルツハイマー病、統合失調症、2型糖尿病は、0に近いのでしょうか、それとも80に近いのでしょうか。

アルツハイマー病は、おそらく80より0に近いと思います。仮説はいくつかありますが、その仮説が真実だと信じられるほど十分に検証されているとは、まだ思えません。そして従来の仮説では実際に起きていることを説明できないのではないか、と考える人も増えています。

さらに言うと、アルツハイマー病、統合失調症、さらには2型糖尿病でさえ、実際には一つの病気ではありません。ほぼ間違いなく、臨床的には似た形で現れる、異質なメカニズムの集合です。乳がんが実は一つの病気ではないと現在では理解されているのと同じです。乳がんは多数の細胞メカニズムから成っていて、それらが最終的には制御不能な増殖という形に変換されますが、一つの病気ではありません。

他の病気についても、ほぼ間違いなく同じことが言えます。その理解があって初めて、それらの病気の具体的なメカニズムを理解することができます。統合失調症について言えば、ほぼ間違いなく0に近いでしょう。2型糖尿病は少し混ざっています。インスリン抵抗性などに関わる、検証済みだと思える明確なメカニズムがあります。ただ、それでも私たちがまだ理解していないメカニズムが数多くあることは、ほぼ間違いありません。

あなたは長寿の側面についても少し考え、取り組んできました。病気と長寿は、取り組みとして完全に重なっていると思いますか。一部重なっているのでしょうか。それともまったく別物でしょうか。

メカニズムは確かに重なっています。よく知られた現象として、小児疾患を除くほとんどの病気では、その病気にかかるリスクが40歳くらいから毎年、指数関数的に増えていきます。ですから、この2つの間には明らかにつながりがあります。

ただし、それらが同一だと言っているわけではありません。特定の病気と直接結びついていない老化も明らかにありますし、老化とは特に関係のない病気や病気のメカニズムもあります。ですから、重なりがある、というのが今の見方です。

少し残念ですよね。私たちは年を取り、病気の発生や、年を取るという事実との間に何らかの相関があるように見えます。どちらもかなり悲しいことです。

細胞が老化するにつれて起こる過程があり、それが病気に寄与していると思います。その一部は、細胞が分裂する際に蓄積するDNA損傷に関係しています。修復メカニズムがそれらを完全には修正しきれないのです。また、誤って折りたたまれ、凝集する可能性のあるタンパク質の蓄積もあります。それらも病気に寄与し、炎症にも寄与します。細胞レベルでの摩耗のような、多数のメカニズムが明らかになっており、それらが病気の過程に寄与しています。そして、私たちがまだ理解していないものも数多くあるはずです。

少し脱線して、哲学的な話かもしれませんが、ものが年を取り、ものが死ぬという事実は、新しいものが成長するうえで非常に強力な特徴でもあります。ある意味では学習であり、学習メカニズムのようなものです。だから悲劇的であると同時に美しくもあります。病気と闘い、老化と闘う中で、私たちが死すべき存在であることの有用性について考えますか。それとも、もし不死になれるなら、不死を選びますか。

繰り返しになりますが、不死というのはとても長い時間です。それを必ず目指したいものだとは、私にはわかりません。ただ、私たちは皆、健康寿命の延長を望んでいると思います。つまり、健康で活動的で、20歳の頃のように感じられる時間を長くすることです。私たちはそこにはまったく近づいていません。人は時間とともに身体的にも精神的にも衰えていきます。それはとても悲しい現象です。

ですから、もし私たち全員が、聖書的に言えば120歳まで、しかも完全に健康で、高い生活の質を保ちながら生きられるなら、それは素晴らしい目標だと思います。それが社会として達成できれば本当にすばらしいでしょう。適切な年齢が120歳なのか、100歳なのか、150歳なのかは議論の余地があります。でも、健康寿命を延ばすことは本当に価値ある目標だと思います。いずれにせよ、宇宙の年齢という壮大な時間から見れば、どれもかなり短いものです。

データと機械学習が創薬を変える

あなたは機械学習に関して、明らかに非常に多くの素晴らしい仕事をしてきました。この病気を理解し、病気を根絶しようとする目標において、データと機械学習はどのような役割を果たすと思いますか。

これまでは、それほど大きな役割を果たしてこなかったと思います。主な理由は、強力な機械学習手法を可能にするために本当に必要なデータセットが、ほとんど存在していなかったからです。断片的なものはあり、興味深い機械学習も適用されてきました。機械学習、あるいはデータサイエンスと言ってもいいでしょう。

でも、ここ数年で状況が変わり始めています。大規模なデータセットが増えているだけでなく、それと同じくらい重要なのは、大規模にデータを生成できる技術が増えていることです。ただし通常、人々が機械学習のためのデータを生成する目的で、意図的かつ能動的にそれらのツールを使ってきたわけではありません。それらの技術がデータ生成に使われてきた場合でも、科学的発見を進めるためのデータ生成として使われてきました。そして機械学習は、副産物のような第二段階として、こういう形でやってきたのです。データセットができたから、より単純なデータ解析手法ではなく、機械学習をやってみよう、というように。

しかしinsitroで私たちがやっているのは、その順序をひっくり返すことです。バイオエンジニアや細胞生物学者たちが生み出してきた素晴らしい手法のレパートリーがある。では、それらをまったく新しい形で組み合わせて、機械学習を本当に生産的に適用できるデータセットを作り、人間の健康に関する根本的な問題に取り組むのに役立つ強力な予測モデルを作れないか、と考えているのです。

つまり、データを主要な焦点、主要な目標にして、生物学や化学のメカニズムを使って、機械学習が最大限恩恵を受けられるようなデータセットを作る、ということでしょうか。

私はその言い方はしません。なぜなら、それだとデータが最終目標のように聞こえるからです。データは手段です。私たちにとっての最終目標は、人間の健康における課題に取り組むことです。そのために選んだ方法が、機械学習を適用して予測モデルを構築することです。そして私の考えでは、機械学習、とりわけより強力なモデルは、十分な規模と十分な品質のデータが与えられたときにのみ、本当にうまく適用できます。では、予測モデルを生成する能力を引き出し、その後に人間の健康を改善するためには、どのようにそうしたデータセットを作るべきか、ということです。

その詳細に入る前に、一歩引いて聞かせてください。あなたの人間の健康への関心は、いつ、どこで生まれたのでしょうか。もしお聞きしてよければ、あなた自身の人生における出来事や悲劇が、その情熱のきっかけになったのでしょうか。それとも、人類を助けたいというより広い願望だったのでしょうか。

両方だと思います。人間の健康への関心は、実は2000年代初頭にさかのぼります。当時、機械学習の分野にいた多くの同僚や私は、正直に言ってあまり刺激的とは言えないデータセットを使っていました。私たち古株の中には、いわゆる20 Newsgroupsデータセットをまだ覚えている人もいます。それは文字通り、20のニュースグループから集めたテキストの集まりでした。ニュースグループという概念自体、今ではほとんど存在しません。そして課題は、ある単語の袋がどのニュースグループから来たものかを分類できるか、というものでした。あまり面白くありませんでした。

当時、生物学側のデータセットは、技術的な観点からも、志の観点からも、はるかに興味深いものでした。まだ小規模ではありましたが、20 Newsgroupsよりは良かったのです。ですから私は、もっと社会的に有用で、技術的にも興味深いことをしたいという思いから始めたのだと思います。その後、時間とともに、生物学や人間の健康そのものへの関心がどんどん深まり、時には機械学習の要素が大きくない、生物学だけの論文にも取り組むようになりました。

創薬への関心は、12年ほど前に父が亡くなった出来事にも一部関係していると思います。父は自己免疫疾患を患い、それが肺に出ました。医師たちは基本的に、できることは一つしかない、プレドニゾンを投与することだと言いました。ある時、医師が来て、どの自己免疫疾患なのか調べるために肺生検をしましょうと言ったのを覚えています。私は、それは役に立ちますか、治療を変えますか、と聞きました。答えは、いいえ、プレドニゾンしかありません、それが唯一できることです、というものでした。

私にはリウマチ専門医の友人たちがいますが、彼らは、今日ならFDAはプレドニゾンを承認しないだろうと言います。副作用と利益の比率が、今日の基準ではおそらく十分ではないからです。今では、どの自己免疫疾患かにもよりますが、自己免疫疾患の人を助けられる薬が、おそらく4つか5つ、もしかするとそれ以上あります。その多くは12年前には存在しませんでした。

ある意味で、私たちは創薬の黄金期にいると思います。これまで可能だったものより、はるかに安全で、はるかに効果的な薬を作れる能力があります。足りないのは、生物学とメカニズムへの十分な理解、つまりそのエンジンをどこへ向けるべきかを知ることです。そして、そこに機械学習が役立つと思います。

皿の中の病気モデル

2018年にあなたはinsitroという会社を立ち上げ、現在率いています。先ほどおっしゃったように、焦点はおそらく創薬と、創薬のための機械学習の活用にあります。あなたは以前、私たちはいわゆる皿の中の病気モデルを作ることに強い関心がある、と話していました。皿の中の病気モデルとは、病気が複雑で、これまで良いモデルシステムがなかった領域、あるいはマウス試験を含め、何年も使われてきた典型的な動物モデルがあまり効果的でない領域に使われるものです。動物モデルとは何か、そして皿の中の病気モデルとは何か、説明していただけますか。

もちろんです。病気の動物モデルとは、基本的には名前の通りです。多くの場合マウスで、そこに外部から何らかの摂動を導入して病気を作り、それからその病気を治します。そして、それによって人間の同様の病気も治せることを期待するわけです。

問題は、多くの場合、その動物で病気を作る方法が、人間でその病気が実際に起こる仕組みとはまったく関係していないことです。それは表現型のコピー、つまり臨床的な結果のコピーだと考えられますが、メカニズムは大きく異なります。そのため、動物で病気を治しても、それが人間に翻訳されません。そもそも多くの場合、その病気は自然には動物に起こりません。マウスはアルツハイマー病にはなりません。糖尿病にもなりません。動脈硬化にもなりません。自閉症や統合失調症にもなりません。そうした治療法は、人間で起きていることには移行しないのです。そして、そこが多くの薬が失敗する場所です。マウスで得られた知見が、人間に翻訳されないからです。

皿の中の病気モデルは、かなり新しいアプローチです。これは、この5年から10年より前には存在しなかった技術によって可能になりました。たとえば、私たちが誰か、あなたや私から細胞を取り、それが皮膚細胞だとして、それを幹細胞状態と呼ばれる状態へ戻す能力です。それはいわゆる多能性細胞で、そこからさまざまな種類の細胞へ分化させることができます。その多能性細胞から、レックスのニューロン、レックスの心筋細胞、レックスの肝細胞のようなものを作れるわけです。それらはあなたの遺伝情報を持ちながら、その正しい細胞タイプになります。

もし特定の細胞タイプに現れるような遺伝的な疾患負荷があるなら、その細胞を観察することで、それを見ることができるかもしれません。健康な細胞と比べて、病気になりそうな細胞はこう見えるのか、と理解し、さらに、どのような介入が不健康に見える細胞を健康な細胞へ戻せるのかを探ることができます。

もちろん、細胞を治すことは人を治すことと同じではありません。ですから、まだ翻訳可能性のギャップはあり得ます。ただ、人間の遺伝に駆動される病気で、人間の遺伝が細胞表現型を駆動している場合には、その病気が始まる細胞、かつ病気が遺伝によって駆動されている細胞を健康な状態に戻せるなら、より全体的な臨床表現型にも役立つのではないかと期待する理由があります。それが私たちが本当にやろうとしていることです。

その後戻りするステップについて読んだことがあります。山中因子ですね。

そうです。

幹細胞に戻す逆方向のステップですね。魔法みたいに思えます。

本当にそうです。正直なところ、それが起こる前には、それが可能だと予測した人はほとんどいなかったと思います。驚くべきことです。

もう少し詳しく説明していただけますか。本当に可能なのでしょうか。この成果は、最初に示されたのがたぶん10年くらい前だったと思います。どれくらい難しいのでしょうか。この後戻りのステップにはどのくらいノイズがあるのでしょうか。とても信じがたく、そして面白いことに思えます。

信じがたく、面白いことです。発見された初期段階では、もっと扱いが難しく、個別対応的なものだったと思います。でも今では、ほぼ工業化されています。契約研究機関、いわゆるCROやベンダーがあり、人間からサンプルを取って、それを幹細胞状態へ戻してくれます。そして、かなり高い割合でうまくいきます。

ただし、この細胞は本当に完全な幹細胞なのか、遺伝以外に人間の中で起こった変化のある側面を覚えていないのか、という良い問いを投げかける人たちはいます。

皮膚細胞としての過去ですね。

そうです。皮膚細胞としての過去、あるいはさまざまな環境要因への曝露という過去です。ですから、現在のコンセンサスは、これらは常に完璧とは限らず、時には記憶の断片が少し残っている、というものだと思います。ただ、概して言えば、かなり良いものです。

機械学習にとって有用なことの一つは、データの大きさやスケールだと思います。違っていたら訂正してください。こうした幹細胞への巻き戻しや、その後の皿の中の病気モデルを大規模に行うのは、どれくらい簡単なのでしょうか。これは大きな課題なのでしょうか、それともそうではないのでしょうか。

現時点では、その巻き戻しは、数万や数十万という規模でできるものではありません。世界中に存在する幹細胞、あるいはiPS細胞、つまり人工多能性幹細胞の総数は、私が最後に見た時点では5,000から10,000の間くらいだったと思います。もちろん、あちらこちらの学術センターに存在するものを数えていない可能性があり、それらを合わせればもう少し増えるかもしれませんが、おおよそその範囲です。

ですから、現時点で100万人からiPS細胞を作れるわけではありません。でも、もしかするとそれは必要ないかもしれません。その背景が十分かもしれないからです。さらに、それらにさまざまな方法で摂動を与えることもできます。

非常に興味深い実験をしている人たちもいます。たとえば、健康な人から細胞を取り、この10年で生まれたもう一つの奇跡的技術であるCRISPR遺伝子編集を使って、病原性があることが知られている変異を導入します。すると、健康な細胞と不健康な細胞、つまり変異を持つ細胞を比較できます。他のすべてを一定に保った一対一の比較です。そうすることで、その変異が細胞レベルで具体的に何をするのかを理解し始めることができます。

ですから、iPS細胞は非常に優れた出発点です。もちろん、多様性は多いほど良いです。民族的背景を捉え、それが物事にどのように影響するかも見たいからです。ただ、すべての疾患タイプを持つすべての患者から一つずつ必要というわけではないのかもしれません。私たちには他のツールもありますから。

人々の間にはどれくらい違いがあるのでしょうか。iPS細胞に関して民族的背景に触れましたが、私たちは皆、何にでもなれる魔法のような細胞を持っているようにも見えます。集団の違い、人の違いの間で、幹細胞には大きなばらつきがあるのでしょうか。

まず、私たちは遺伝的に異なるという単純な事実によって生じるばらつきがあります。私の遺伝型から作られた幹細胞は、あなたの遺伝型から作られた幹細胞とは違います。また、何らかの理由で、ある人の幹細胞は別の人の幹細胞よりも分化しやすいという違いもあります。その理由は完全には理解されていません。ですから、そうした違いも確かにあります。

ただし根本的な違いであり、私たちが本当に注目している、そしてむしろ利点と考えているのは、遺伝が異なるという事実です。したがって、私の疾患負荷とあなたの疾患負荷を再現できるのです。

疾患負荷とは何ですか。

疾患負荷というのは、厳密に定義された数学用語ではありません。ただし、それに対する数学的な定式化はあります。考え方としては、私たちの中には、ある病気にかかりやすい人がいます。その理由は、その病気の原因となるゲノム上の変異をより多く持っていたり、その病気から保護する変異が少なかったりするからです。

人々はこれを、多遺伝子リスクスコアと呼ばれるもので定量化してきました。これは個人のゲノムにあるすべての変異を見て、それぞれが特定の病気に対してどれだけのリスクを与えるかを足し合わせるものです。そして人々を疾患リスクのスペクトラム上に配置します。

多くの小さな変異と疾患リスクの増加との関係を十分に理解できるだけの力がある疾患では、この多遺伝子リスクスコアの最上位10パーセントの人々と最下位10パーセントの人々との間で、リスクにかなり大きな差が見られることがあります。時にはその差が10倍や12倍になることもあります。ですから、たとえそれが決して完全な説明ではないとしても、私たちの遺伝が疾患リスクに大きく寄与していることは間違いありません。

機械学習の視点から見ると、そこにはシグナルがあるのでしょうか。

遺伝には確かにシグナルがあります。そして私たちは、異なる遺伝的背景から作られた細胞を見ることで、さらに大きなシグナルが得られると考えています。原理的には、シグナルはすべて遺伝レベルにあるのだから細胞を見る必要はない、と言うこともできます。しかし、現時点での私たちの生物学理解は非常に限られています。そのため、細胞レベルで実際に何が起きているかを見ることは、遺伝を直接見るよりも、人間の臨床的な結果にはるかに近いのです。だから、遺伝だけを見るよりも、そこから多くを学べます。

細胞をデジタルデータへ変える

それが十分に簡単にできると仮定して、この皿の中の病気モデルでは、どのようなデータが有用なのでしょうか。生のデータや情報の源は何なのでしょうか。また、外部の人間としての私の視点からは、生物学や細胞は柔らかくて、ぐにゃっとしたものに思えます。それをどうやって文字通りコンピューターにつなぐのでしょうか。どんな感知メカニズムを使うのでしょうか。

それもまた、この10年に起こった革命の一つです。細胞を非常に定量的に測定する私たちの能力も、劇的に向上しました。私が生物学を始めた1990年代後半から2000年代初頭は、生物学を本当に定量的な方法で測定し始めた初期の時代でした。マイクロアレイのようなものを使って、一つの実験で、サンプル内のゲノム上のすべての遺伝子について、その活動レベル、いわゆる発現レベルを測定していました。

その能力によって、がんのような疾患に分子的サブタイプがあることさえ理解できるようになりました。それまでは、あなたは乳がんです、というだけでした。しかし分子データを見ると、遺伝子活動のレベルではまったく異なる乳がんのサブタイプがあることが明らかになりました。それがこのプロセスの始まりでした。

今では、単一細胞RNAシーケンシングと呼ばれる方法を使って、個々の細胞の遺伝子活動を測定できます。これは基本的に、ゲノム上のすべての遺伝子について、その活動レベルであるRNAをシーケンスするものです。それを単一細胞レベルで行うことができます。ですから、これは細胞を測定する非常に強力な方法です。文字通り、転写産物の数を数えるのです。

本当にですか。

そうです。それによって、その柔らかいものがデジタルなものに変わります。

ここ数年で現れたもう一つの非常に大きなデータ源は顕微鏡です。特に超解像顕微鏡です。デジタル再構成を使うことで、細胞内構造を見ることができます。時には、光の回折限界を下回るようなものまで、洗練された再構成によって見ることができます。そしてこれもまた、細胞内レベルで膨大な情報を与えてくれます。

今では、素晴らしい科学者たちが、単一細胞からさえ新しい種類の情報を得るための方法を次々に開発しています。つまり、そうした柔らかいものをデジタルデータに、美しいデータセットに変える方法があるのです。

そのデータセットを機械学習ツールと組み合わせることで、特定の病気の発症メカニズムを理解できるかもしれないということですね。高いレベルで説明できるなら、それはどうやって薬の発見につながり、そのメカニズムを防いだり逆転させたりする薬につながるのでしょうか。

このデータを使う方法はいくつかあると思います。科学的発見のために使う人たちもいます。たとえば、細胞レベルでこの表現型が見える、では既知の生物学の理解を使って逆向きにたどり、どの遺伝子が、それを引き起こす経路に関わっているか考えてみよう、という方法です。これはかなり分析的な、既知の生物学理解を使って逆向きに作業する方法です。

別の人たちは、もう少し前向きに使います。先ほどが後ろ向きだとすれば、こちらは前向きです。たとえば、この遺伝子に摂動を与えたら、疾患患者で見られるものに似た表現型が出る。だとすると、その遺伝子は実際に病気の原因なのかもしれない、という考え方です。これも別の方法です。

そして私たちがやっているのは、その非常に大きなデータの集合を取り、機械学習を使ってそこから現れるパターンを明らかにすることです。たとえば、人間の臨床的な結果としては似ているかもしれないけれど、分子データを見るとかなり異なるサブタイプは何なのか、ということです。そして、そのようなサブタイプを特定できた場合、その病気のサブタイプに由来する細胞にある介入を適用すると、病気の状態が通常の幸せで健康な細胞に近いものへ戻るかどうかを見ます。その介入は薬でもよいですし、CRISPRによる遺伝子介入でもよいです。

もしそれが見られれば、その介入が人々に対しても意味のある臨床的利益をもたらすかもしれないという一定の希望が得られます。もちろん、その後に検証するべきことはたくさんあります。しかしこれは、新しい潜在的介入を明らかにする、非常に異なる、そして仮説駆動性がずっと低い方法です。そしてそれは、すでに誰もが見ているものとは違うものを生み出すかもしれません。

今の議論について、自分の気持ちを少し自己分析しているのですが、本当にワクワクします。機械学習の問題に変換された、本質的に重要な何かについて話していて、それが現実世界に大きな影響を持ち得るというのは、かなり興奮します。私は日々の大半を、20 Newsgroupsに近いデータセットで過ごしていますから。

これは話していて気持ちがいいです。実際、機械学習について話すよりも、ほとんどデータセットの根本について話したいくらいです。それが刺激的な場所です。

同感です。それが私を毎朝起き上がらせるものです。そしてそれは、insitroで働く多くの人たちを惹きつけているものでもあります。少なくとも私たちの機械学習チームの人たちは皆、非常に優秀で、オンライン広告を売る仕事や、コマース、自動運転車の仕事にも就けるはずです。

それでも彼らが私たちのところに来るのは、より志のある性質のものに取り組みたいからだと思います。本当に人類に利益をもたらせるものに取り組みたいのです。

こうしたアプローチで、どのような病気が助けられることを期待していますか。アルツハイマー病、統合失調症、2型糖尿病に触れました。このアプローチが役立つ可能性のある、さまざまな病気について説明していただけますか。

わかりません。そして私は、私たちはXを治します、というような約束をすることには非常に慎重でありたいと思っています。そういう約束をする人たちはいますが、私はそれについて、まず届けて、それから約束するようにしたいと思っています。その逆ではなく。

ただ、この種のアプローチが役立つ可能性を高める疾患の特徴はあります。たとえば、非常に強い遺伝的基盤を持つ病気は、幹細胞由来モデルで現れやすいものです。細胞モデルは、比較的再現性があり、頑健であってほしいです。十分な量の細胞を得られ、しかも非常にばらつきが大きくノイズの多いものではない形で得られる必要があります。

また、その病気は、皿の中のin vitro環境で実際に作れる一つ、あるいは少数の細胞タイプに比較的限定されていてほしいです。もしそれが非常に広範で全身性のもので、体の遠く離れた部分にある複数の細胞を含むなら、それをすべて皿の中に置くのは本当に難しいです。ですから私たちは、今日成功する可能性が最も高いものに焦点を当てたいと考えています。同時に、非常に賢いバイオエンジニアたちが、常により良いシステムを開発しているという希望もあります。今日扱えない病気も、3年後には扱えるようになるかもしれません。

たとえば5年前には、これらの幹細胞由来モデルは実際には存在していませんでした。人々はほとんどの作業をがん細胞で行っていました。がん細胞は、ほとんどの人間生物学のモデルとしては非常に、非常に不十分です。第一に、そもそもがんだったからです。第二に、それを継代し、皿の中で増殖させるにつれて、ゲノム不安定性のせいで、人間の生物学からさらにかけ離れていくからです。

今では、これらの幹細胞由来モデルがあります。また、完全に正しいスケールにはまだ到達していませんが、かなり頑健にオルガノイドと呼ばれるものを作る能力もあります。これは、器官システムの小さな多細胞の器官のようなものです。脳オルガノイド、肝臓オルガノイド、腎臓オルガノイドがあります。

脳オルガノイドは、おそらく私が見た中で一番クールなものです。

そして今、それらのオルガノイド同士をつなげるようなことも見え始めています。実際に、複数の器官システムのことを扱えるか、という問いを立てられるようになるわけです。それを始めているとても面白い論文もあります。課題はたくさんあります。決して簡単ではありません。それでも、人々はきっと解決すると思います。そして3年後や5年後には、今日作れない病気モデルを作れるようになっているでしょう。

そうなれば、この会話も、3年で達成され得るスケールを考えると、ほとんど時代遅れのように見えるかもしれませんね。それはとてもクールです。

CourseraとMOOC革命の始まり

あなたはアンドリュー・ングとCourseraを共同創業し、MOOC革命全体の一部でした。少し話題を変えて、MOOCとCourseraの起源、そしてAIという非常に影響力の大きなトピックを大規模な聴衆に教えることについて、その歴史や起源の物語を話していただけますか。

MOOCの起源は、2000年代後半ごろにスタンフォード大学で起こったいくつもの取り組みに由来すると思います。スタンフォード内のさまざまな人々、私自身も含めて、オンライン技術を使うことで、教育の質の向上とスケールの拡大の両方を実現できる可能性に非常にワクワクしていました。

たとえばアンドリューは、Stanford Engineering Everywhereを主導しました。これはスタンフォードの10の講座を、ビデオ講義としてオンラインに載せる試みのようなものでした。私はスタンフォード内で別の取り組みを率いていました。いくつかの講座を取り、それらを小さな単位に分割し、そこにインタラクションなどを埋め込んだ、非常に異なる教育モデルを作るというものです。

それは大学のリーダーたちから多くの支援を受けました。なぜなら、現在反転授業と呼ばれているモデルへ移行することで、スタンフォードの授業の質を改善する可能性があると感じられていたからです。やがて、それらの取り組みは互いに影響し始め、オンライン教育の可能性について、スタンフォードのコミュニティ内に非常に大きな興奮とエネルギーを生み出しました。そして2011年秋、最初のスタンフォードのMOOCの立ち上げにつながりました。

ちなみにMOOCは、おそらく知らない人はいないと思いますが、Massive Open Online Courses、大規模公開オンライン講座のことです。

その頭字語を作ったのは私たちではありません。私は特にこの略語が好きなわけではありませんが、そういうものです。

ビッグバンも宇宙の始まりを表す言葉としては素晴らしい用語ではありませんが、そういうものですね。

おそらくそうですね。ともかく、それらの講座は2011年秋に始まりました。そして本格的な広報キャンペーンはなく、バイラルになったニューヨーク・タイムズの記事があっただけでしたが、数週間のうちに、それぞれの講座に約10万人以上の学生が集まりました。

アンドリューと私が交わした会話を覚えています。これは本当に大きな需要がある、というものでした。私たちは2人とも、もちろん一定の成果を上げた研究者であり、元の生活に戻って、さらに論文を書くこともできました。でも、もしそうしていたら、これは起きなかったでしょう。そしてこれは、起きないままにしておくにはあまりに重要に思えました。

そこで私たちはかなりの時間をかけて議論しました。これを、私たちが始めたものを土台にしたスタンフォードの取り組みとしてやりたいのか。営利企業としてやりたいのか。非営利としてやりたいのか。最終的に、Courseraとして今の形でやることを決めました。そして2012年の初めから、実質的に会社として運営を始めました。

当時それは本当に驚きでしたか。当時、そして今、グローバル教育へのこの需要をどのように理解していましたか。人気の高さが、学びのグローバル化への渇望を示していると感じたとおっしゃいましたが。

学びへの渇望があるのだと思います。グローバル化はその一部ですが、基本的には学びへの渇望です。この50年で世界は変わりました。以前は、大学を卒業して仕事に就くと、概して大学で学んだスキルが、その後の職業人生をほぼ支えてくれました。もちろんいくらか新しいことは学びましたが、劇的な変化ではありませんでした。

今日、私たちは、多くの仕事に必要なスキルが、大学に通っていた頃には存在すらしていなかったような世界にいます。そして大学に通っていた頃に存在していた仕事の多くは、今日では存在しないか、消えつつあります。その一部はAIによるものですが、それだけではありません。人々が今日必要としているスキルにアクセスできるようにする方法を見つける必要があります。そこに、この渇望の多くを駆動しているものがあるのだと思います。

さらに一歩引いて考えると、あなたにとってはすべてが、新しい教え方を考えること、あるいは教材を整理し、提示する新しい方法を考え、教育プロセスをより良くすることから始まったのでしょうか。

そうです。

このプロセス、つまりさまざまなアイデアで実験する中で、効果的な教育について何を学びましたか。

私たちはいくつものことを学びました。その一部は、キャンパスでの教え方に戻して効果的に応用できるし、実際に応用されていると思います。一方で、オンラインで学ぶ人々、日常生活の一部として学ぶ人々により特化したものもあります。

たとえば、私たちは非常に早い段階で、短いほうが良いと学びました。特に働いている人々は、15週間の学期制のコースを受けることができません。生活の中に入りきらないのです。

短いというのは、何の短さでしょうか。全体ですか。それとも小さな講義一つ一つですか。講義が短い、コースが短い、両方ですか。

両方です。最初のオンライン教育の取り組みは、MITのOpenCourseWareイニシアチブでした。それは教室での講義の録画で、1時間半くらいのものでした。

ええ。

それはあまりうまく機能しませんでした。もちろん恩恵を受けた人はいました。でも、仕事があって、子どもが3人いて、用事もしなければならないような人にとって、それはあまり受け入れやすい体験ではありません。15週間を生活に組み込むことはできませんし、1時間半も本当に難しいです。

そこで私たちは非常に早く学び、短いビデオモジュールから始めました。そして時間が経つにつれて、それらをさらに短くしました。15分でもまだ長すぎると気づいたからです。子どもの医者の予約を待って列に並んでいる間に収めたいなら、5分から7分の方がよいのです。

15週間のコースは機能しないことも学びました。より短い単位に分割し、自然な完了点があるようにした方が良いです。そうすると、意味のある何かをもう少しで終えられるという感覚が得られます。必要なら、いつでも戻ってパート2、パート3を受けることもできます。

また、コンテンツを圧縮することもうまく機能すると学びました。そのペースが合う人もいれば、合わない人は巻き戻してもう一度見ることができます。人々は自分のペースで学ぶ能力を持てます。ですから、その柔軟性、短さ、そして柔軟性の両方が、非常に重要だとわかりました。

コンテンツ中のエンゲージメントも重要だと学びました。より早くフィードバックを与えるほど、人々は関与しやすくなります。そこで、講義の中に小さな簡単なマイクロクイズを入れるようなものを導入しました。これは私が最初から直感的に持っていた考えで、その後データによって検証されました。自己採点、または自動採点される評価も非常に役立ちます。フィードバックを与えてくれるからです。これらはすべて価値があります。

さらに、他にも2つほど学びました。たとえばジェンダーバイアスについて、とても興味深い実験をしました。特にSTEMコースにおいて、女性のロールモデルが講師としていることが、男性と女性の比率をどのように変えるかを調べたのです。オンラインではA/Bテストによってそれが可能ですが、キャンパスで同じことをするのは非常に難しいでしょう。

それは面白いですね。ただ、短さや圧縮についてですが、それはおそらくすべてに当てはまると思います。良い編集とは常に、コンテンツを圧縮し、短くすることです。そうすると、講師や教育コンテンツの作り手には大きな負担がかかります。おそらくMITやスタンフォードのほとんどの講義は、十分な準備があれば5分の1の長さにできるかもしれません。反対する人もいるでしょうが。Courseraが提供するような歯切れの良さ、明確さには、どれくらいの労力が必要なのでしょうか。

まず言っておきたいのは、その歯切れの良さが、対面環境で同じように効果的に機能するかは明らかではないということです。人々には教材を吸収する時間が必要だからです。ですから、少なくとも立ち止まり、人々に振り返る機会を与える必要があります。おそらく練習も必要です。そしてMOOCがやっているのは、コンテンツをまとまりで提供し、それを使って練習するよう求めることです。

そこが、対面教育で採用されている新しい教授法、インタラクティブな学習などが非常に役立つ部分だと思います。ただし、そのようなオンライン教育の方法論であれ、反転授業型のインタラクティブ教育であれ、どちらのアプローチも。

反転授業とは何ですか。

反転授業とは、オンラインコンテンツを対面教育の補助として使う方法です。学生は授業に来る前にビデオを見たり、いくつかの演習を行ったりします。そして授業に来た時には、より深い問題解決を行います。多くの場合、グループで行います。

ただ、教室の前に立って1時間15分しゃべり続けるだけではない、それらの教授法はどれも、はるかに多くの準備を必要とします。Courseraで教員に教えてもらうよう説得しようとした時に私たちが直面した課題の一つであり、キャンパスの教育専門家が教員に違う教え方をしてもらおうとする時の課題の一部でもあります。それは、そのやり方で教えるほうが、立ってしゃべり続けるより実際には難しいということです。

MOOCは対面教育に取って代わると思いますか。あるいは将来、人々が学ぶ方法の大部分になるのでしょうか。もちろん未来は非常に遠いかもしれませんが、傾向はどこへ向かっていると思いますか。

それは微妙で複雑な答えになると思います。MOOCが対面教育に取って代わるとは思いません。学びは多くの場合、社会的な体験です。Courseraでも、必要がなくても自然に勉強会を作る人たちがいました。ただ集まって話すためです。そして私たちは、それが非常に重要な形で学習に利益をもたらしていることを発見しました。そうした勉強会を持っていた学習者のほうが、持っていなかった学習者よりも成功していたのです。

ですから、私たち全員が突然コンピューターだけでオンライン学習し、他の誰も同じ場所にいなくなる、ということにはならないと思います。録音された音楽がライブコンサートを置き換えなかったのと同じです。

ただし、特に継続教育について考える場合、つまり人々が高校や大学などの伝統的な教育を終えた後、急速に変化する世界で専門性やスキルの水準を維持しなければならない場合には、人々はますますオンライン形式の教育コンテンツを利用するようになると思います。正式な教育を受けるために学校へ戻ることは、ほとんどの人にとって選択肢ではないからです。

AIを学ぶ人への助言

短くお聞きします。難しい質問かもしれませんが、人工知能や機械学習、特にディープラーニングに魅了されている人はたくさんいます。これからの1年、あるいは生涯にわたる旅として、それに興味を持つ人に何かおすすめはありますか。どう始めればよいのでしょうか。どうその学びの旅に入ればよいのでしょうか。

大事なのは、まず始めることです。数学、統計、プログラミングの核となる基礎、そしてそこから機械学習へ進むためのオンラインコンテンツはたくさんあります。私は、基礎をあまり早く飛ばさないことを勧めます。オンラインであれキャンパスであれ、基礎を持たずに機械学習を学ぶ人がたくさんいると感じるからです。そうした人たちは基本的に既存のモデルを回すだけになり、目の前の問題に対する革新や調整があまりできません。さらに時には、単に間違っていることもあります。そして、自分たちの適用が間違っていることに気づきません。十分に理解していないアーティファクトがあるからです。

ですから、機械学習の基礎は重要なステップです。そして実際に問題を解き始めることです。一緒に解く相手を見つけるようにしてください。特に最初の頃は、アイデアをぶつけ合い、自分の間違いを直してもらう相手がいると役立ちますし、自分も相手の間違いを直せます。そして、実践的な問題を見つけてください。職場で見つけてもいいですし、それがなければKaggleコンペティションなども興味深い問題を見つけるのに本当に良い場所です。そして練習、練習です。

少しロマンチックな質問かもしれませんが、ディープラーニングの中で、あるいはあなたの旅の中で最も美しい、驚くべき、興味深いと感じたアイデアは何ですか。ディープラーニングだけでなく、AI全般や統計でも構いません。

良い質問です。2つあります。1つはエンドツーエンド学習という基礎的な概念です。つまり、生データから始めて、単一の部品のようなものではなく、実際に目指しているゴールに向けて学習するということです。

生データから結果まで、間に何もないということですか。

何もないわけではありません。もちろん、別のタスクに向けて学習された構成要素を導入することはできます。実際、それが答えの後半につながります。ただ、真ん中が単一の巨大な塊である必要はありません。むしろ、それは理想的ではないと思います。重要なのは、最終的に、最初から最後まで進むものを実際に学習できるということです。

もう一つ、私が非常に魅力的だと思うのは、表現を学習するという概念です。その表現は、たとえ別のタスクのために学習されたものであっても、別のタスクを解くためのはるかに速い出発点として使える可能性があります。これは、人間が成功した学習者になる仕組みを思い起こさせるものです。機械学習の領域では比較的新しいものだと思いますし、今日の能力に照らしてもまだ十分に活用されていないと思います。でも、再利用可能な表現をどのように学ぶか、という方向へどんどん進んでいます。

つまりエンドツーエンドと転移学習ですね。

そうです。

ニューラルネットワークが多くの場合こうしたことをできるというのは、あなたにとって驚きですか。初めてニューラルネットワークに深く入っていった時に戻って考えても、あるいは今日でも、ニューラルネットワークがそもそも機能し、生データからの学習や転移学習を見事に行えることに驚きますか。

十分に大量のデータがあると、非常に高次元の空間の中で意味のある表現を見つけることが可能だという点には驚きました。そしてそれは本当に刺激的だと思います。人々はまだその数学を解明しようとしており、毎年そのような論文が増えています。それを解明できたら本当に素晴らしいと思います。

それが私にとって驚きだった理由は、私が機械学習を始めた初期の頃、データセットはかなり小さかったからです。当時、私たちは、あるいは少なくとも私は、意味のある答えにたどり着くには、もっと制約があり、知識が豊富に組み込まれた探索空間が必要だと信じていました。そして当時は、それは正しかったと思います。

今もまだ疑問として残っているのは、モデル構築に事前知識がまったく入らない、完全に知識なしのアプローチが解になるのかどうかです。今日の解は実際にはそうではありません。画像に使われる畳み込みニューラルネットワークのアーキテクチャは、言語に使われるネットワークとはかなり異なりますし、音声や生物学、その他の応用に使われるものともまた異なります。正しい性能を得るためには、まだネットワーク構造に何らかの洞察が入っています。

普遍的な学習機械を作れるのでしょうか。私にはわかりません。どこかで常に何らかの洞察を注入しなければならないのか、それとも収束できるのか、気になります。

不確実性とAIの信頼性

あなたは確率的グラフィカルモデル、一般にはベイズ的ディープラーニングなどについて、多くの興味深い仕事をしてきました。高いレベルで、学習システムは不確実性にどう対処できるのか話していただけますか。

多くの機械学習モデルの限界の一つは、答えを出しても、その答えをどれくらい信じられるのかがわからないことです。そしてしばしば、その答えは不確実性に対してかなりひどく較正されています。たとえば、ニューラルネットワークの最後に出てくる信頼度を見て、0.8の答えと0.9の答えでどれくらい信頼性が違うのかを問うても、それはネットワークの実際の信頼性や真実性と、いかなる形でも適切に較正されていません。

そして訓練データから離れれば離れるほど、そのネットワークはしばしばより間違いやすくなるだけでなく、間違った答えに対してより自信満々になります。これは多くの応用領域で深刻な問題です。

たとえば医療診断を考えると、この問題がどれほど厄介かを示す典型例かもしれません。ある特定の患者集団でネットワークを訓練したとします。そして外れ値となる患者がいる。その患者を見ている人間がいない。その患者がニューラルネットワークに入れられ、そのネットワークが完全に間違った診断を出すだけでなく、その間違った答えに極めて高い自信を持っている。人を死なせてしまう可能性があります。

ですから、不確実性に対して較正されたネットワークをどう作るか、また、この特定のデータ例については降参します、十分に似たものを見たことがないので何と言えばいいかわかりません、と言えるネットワークをどう作るかについて、理解を深めることは非常に重要になると思います。特に、人命がかかっているミッションクリティカルな応用では重要です。医療応用もそうですし、自動運転もそうです。道路の真ん中に見えているこの塊が何なのかまったくわからないから、とにかく止まります。認識できない歩行者を轢く可能性は避けたいです、というようにネットワークが言えることが望ましいからです。

学習システムが予測とともに不確実性を提供できるようにする、良いメカニズムやアイデアはありますか。

もちろん、人々はベイズ的ディープラーニングや、ガウス過程を伴うディープラーニングを含むメカニズムを考案してきました。さまざまなアプローチがあります。異なるデータのサブセットや異なるランダムな開始点で訓練したネットワークのアンサンブルを使う方法もあります。これらは時に驚くほど良く、自分の答えにどれくらい自信があるか、あるいはないかの分布のようなものを作るのに役立ちます。これはまさにオープンな研究領域です。

では慎重に哲学の世界へ戻りましょう。AIシステムが不確実性を提供することに関連して、スチュアート・ラッセルのような人は、私たちがますます知的なシステムを作るにつれて、それらが自己疑念に満ちていることが非常に重要だと考えています。もしそれらにより大きな力を与えるなら、人間の制御や人間の監督を維持する方法としてそうあってほしいわけです。これは、あなたが自動運転車について今言及したことにも当てはまります。車が確信を持てない時には人間の監督を得ることが本当に重要です。もし車が非常に自信満々なら、困った状況になる場合があり、それは非常に問題です。

そこで、AGI、人間レベルの知能に関する問いを聞かせてください。私たちは今、病気を治すことについて話してきました。それは今日影響を持てる根本的なものです。しかし人々は、知能を理解し作り出すことも夢見ています。あなたはそれについて考えますか。夢見ますか。コンピューターサイエンティストとして考える射程内にあると思いますか。

その質問の別々の部分を分けて考えさせてください。

そうですね。複数の部分があります。

まずAGIの実現可能性から始め、それから少しタイムラインについて話し、その後、AIの領域で保護について考える時にどのような制御が必要かを話します。AGIは明らかに、この分野の初期の先駆者たちでさえ抱いていた長年の夢です。チューリングテストなどは、その最も初期の議論です。私たちは70年ほど前よりは明らかに近づいていますが、それでもまだ非常に遠いと思います。

今日の機械学習アルゴリズムは、十分な訓練データを見た非常に特定の問題領域において、非常に優れたパターン認識器です。ある機械学習アルゴリズムを取り、同じ問題の少し違うバージョンに移すだけでも、ましてやまったく違う問題に移せば、完全に行き詰まります。

ですから、単一の知識ベース、単一の脳を使って文脈を切り替え、異なる問題を解くという点で、人間の幼児が持つ多用途性や柔軟性にさえ、私たちはまったく近づいていないと思います。機械が宇宙を乗っ取り、もっと力が欲しいから人々を殺し始めることを、私が必死に心配しているかといえば、そうではありません。

そこについて少し立ち止まりたいのですが、あなたはスーパーインテリジェンスを達成するのは非常に難しいと直感しているわけですね。知能、知的なスーパーインテリジェンス、いや私たちは知能にさえ近くない。現在のシステムの一般化能力の拡張でさえそうです。でもまだすべての部分に答えていません。2つ目に進みますか。

もちろんです。少し別の方向として、もっとずっと愚かなシステムでも問題を起こし得るのか、という話もできます。

はい。それこそ私が向かっていたところです。

ではAGIの脅威についてまとめると、人間レベル、あるいは超人間レベルの知能に対する防御策を今日考えるのは、少し早いように思えます。私たちはそれがどのようなものか、その骨格さえ見えていません。ですから、それに対してどう守るかは非常に推測的に思えます。

しかし、もっと愚かなシステムであっても、私たちは間違いなく問題を起こし得ますし、すでに起こしています。その多くは、私たちが構築しているシステムがますます複雑になり、ますます理解しにくくなっているという事実に関係しています。そして、小さな変更が結果に劇的な影響を与えるような、予測不能な波及効果があります。

ちなみに、これは人工知能に固有のものではありません。人工知能がそれを悪化させ、新しいレベルに引き上げるとは思います。でも、たとえば私たちの電力網は本当に複雑です。金融市場を動かしているソフトウェアも本当に複雑です。そして、予期していなかったフィードバックループによって金融クラッシュのような劇的に悪い結果が生じるのを見てきました。

ですから、それは多くの場所で慎重に考えるべき問題です。人工知能はその一つです。そして、システムの解釈可能性を高める方法、あるいは、たとえばある状況で訓練された機械学習システムが、まったく異なる状況でどれくらいうまく機能するのかを測定するためのより良いテストについて、人々が考えることは本当に重要だと思います。

たとえば、自動運転車を、あらゆる都市、村、天候条件などでテストすることはできない、と言うかもしれません。でも、この条件群で訓練し、訓練に使っていないかなり異なる50や100の条件でテストし、それでも機能したなら、次の未テストの50でもうまくいくかもしれないという信頼が得られます。つまり、一般化可能性を効果的にテストするということです。

ですから、私たちはシステムの頑健性を検証する方法を常に考えるべきだと思います。それは、ロボットが世界を乗っ取らないようにしよう、という話とは非常に違います。

そして、私たちが考えるべきもう一つの重要な脅威は、技術が悪用され得る範囲です。どんな非常に強力な技術とも同じように、機械学習も善のためだけでなく悪のためにも大いに使われ得ます。これはこれまでに生まれた多くの技術にも当てはまります。人々は投射兵器を発明し、それは銃になりました。人々は原子力を発明し、それは核爆弾になりました。正直に言えば、私にとっては、遺伝子編集やCRISPRは、悪用されれば機械学習と少なくとも同じくらい危険な技術だと思います。遺伝子編集を使えば、本当に厄介なウイルスなどを作ることができます。非常に注意しなければなりません。ですから、非常に強力な新技術を持つときにはいつでも、それについて本当に慎重に考える必要があります。

機械学習の場合には、敵対的機械学習があります。セキュリティ上の脅威に近い、さまざまな攻撃があります。機械学習アルゴリズムを使ったソーシャルエンジニアリングもありますし、ビッグブラザーが見ているという問題もあります。そして、別の国の人々を標的にして殺害することが潜在的に可能な殺人ドローンもあります。ミサイルなどが必ずしもそれよりずっと良いとは言いません。ただ、人は誰かを殺したいと思えば、その方法を見つけるでしょう。

一般的にデータの傾向を見ると、戦争は減り、暴力も減り、人権は増えています。人類として全体的にはかなりうまくやってきました。あなたは楽観的ですか。別の聞き方をすれば、ほとんどの人は善良であり、根本的には私たちはより良い世界へ向かう傾向があると思いますか。機械学習や遺伝子編集が最終的に私たちを良い場所へ連れていくのか、という問いの根底にある質問です。楽観的ですか。

概して私は楽観的です。ほとんどの人は善意を持っていると思います。それは、ほとんどの人が利他的な善行者だという意味ではありません。でも、ほとんどの人は善意を持っています。

ただし、社会として、善を行うことと仲間から良く見られることが正に相関するような社会規範を作ることも非常に重要です。機能不全の社会を作るのはとても簡単です。複数の心理学実験もありますし、残念ながら現実世界の出来事もあります。そこでは、人々は、仲間から良く見られることが、本当に残虐で、しばしば大量虐殺的な行動と相関する世界へと堕ちていきました。

ですから私たちは、社会の成功した一員であるためには善を行いたいと思うべきだと、人々が理解するような社会規範を維持しなければなりません。私が時々心配するのは、ある社会がその点で必ずしも前進していないように見えることです。良い人であることが仲間から良く見られる理由になるとは限らなくなっている場合があります。そしてそれは、社会として私たちが覚えておくべき本当に重要なことだと思います。本当にひどいことをしても、それでも仲間から素晴らしいと思われる宇宙へ戻ってしまうのは、とても簡単です。

人生の意味と世界に残す痕跡

世界的なコンピューターサイエンティストでありエンジニアに、人生の意味とは何かという、ばかばかしいほど哲学的な質問をするのは楽しいです。あなたの人生に意味を与えるものは何ですか。充足、幸福、喜び、目的の源は何でしょうか。

2011年秋にCourseraを始めていた頃、それはちょうどスティーブ・ジョブズが亡くなった時期でした。メディアには彼の有名な言葉がいろいろとあふれていました。その中で私の心に強く残ったものがあります。それは、私がその何年も前から感じていたことと響き合っていたからです。それは、人生の目標は宇宙にへこみを作ることだ、というものです。

ですから私にとって人生に意味を与えるものは、私が死の床に横たわり、自分の人生で何をしたかを振り返った時、自分がこの世界を、自分が生まれた時よりも良い場所にして去ったと言えるものを指し示せることを願う、ということです。

これは私がいつも子どもたちに話していることです。なぜなら、その責任は特権を持って生まれた私たちにとって、ずっと大きいとも思うからです。そしてある意味で、私はそうでした。裕福だったわけではありません。でも、私は教育を受けた家庭に育ち、両親は私を愛し、世話をしてくれました。素晴らしい教育を受ける機会がありました。そして、食べるものに困ったことはありませんでした。ですから私は、多くの点で、人類の大多数よりも特権を持って生まれました。そして私の子どもたちは、私が幸運にもそうであった以上に、さらに特権を持って生まれていると思います。

だからこそ、特にそのような機会を持つ私たちにとって、自分の人生を使って世界をより良い場所にすることは、本当に重要だと思います。

これ以上良い終わり方はないと思います。お話しできて光栄でした。本当にありがとうございました。

ありがとうございました。

結び

ダフネ・コラーとのこの対話を聴いていただき、ありがとうございました。そして、提供スポンサーであるCash Appにも感謝します。Cash Appをダウンロードし、コードlex podcastを使って、このポッドキャストの支援を検討してください。

このポッドキャストを楽しんでいただけたなら、YouTubeで登録し、Apple Podcastで5つ星のレビューをし、Patreonで支援していただくか、TwitterでLex Fridmanにつながってください。

最後に、医学の父とされる古代ギリシャの医師ヒポクラテスの言葉を残します。医学の技が愛されるところには、人間への愛もある。

お聴きいただきありがとうございました。また次回お会いできることを願っています。

機械学習と医療の交差点

これからお届けするのは、ダフネ・コラーとの対話です。彼女はスタンフォード大学のコンピューターサイエンス教授であり、アンドリュー・ングとともにCourseraを共同創業した人物で、現在は機械学習とバイオメディシンの交差点にある企業insitroの創業者兼CEOでもあります。

私たちは今、機械学習のデータ駆動型手法を使って、新しい薬や治療法を大規模に発見し、開発していく、非常に刺激的な初期段階にいます。ダフネとinsitroはその最前線を走っており、そのブレークスルーは、現在のコロナウイルスのパンデミックに対処するうえで最も重要な分野を含め、医学のあらゆる領域に波及する可能性があります。

この対話はCOVID-19の流行が始まる前に収録されたものです。この危機によって医療面、心理面、経済面で負担を感じているすべての人に、心からの思いを送ります。どうか強くいてください。私たちは一緒にいます。必ずこの状況を乗り越えます。

これはArtificial Intelligence Podcastです。楽しんでいただけたなら、登録して、Apple Podcastで5つ星のレビューをお願いします。Patreonで支援していただくか、Twitterで私につながってください。名前はLex Fridman、つづりはF R I D M A Nです。

いつものように、ここで数分だけ広告を入れます。会話の流れを壊さないように、途中に広告は一切入れません。それが皆さんにとって問題なく、リスニング体験を損なわないことを願っています。

この番組はCash Appの提供でお送りします。App Storeでナンバーワンの金融アプリです。入手したら、コードlex podcastを使ってください。Cash Appでは友人に送金したり、Bitcoinを購入したり、わずか1ドルから株式市場に投資したりできます。Cash Appではピアツーピアでデジタルに送金や受け取りができるので、すべてのデジタル取引においてセキュリティは非常に重要です。そして以前にも触れたように、Cash AppはPCIデータセキュリティ基準に準拠しています。

私は安全性とセキュリティのための標準がとても好きです。PCI DSSはそのよい例です。多くの競合企業が集まって、取引の安全性には世界的な標準が必要だと合意したわけです。今度は自動運転車や広告システム全般についても、同じことをする必要があります。

改めて、App StoreまたはGoogle PlayからCash Appを入手して、コードlex podcastを使うと、10ドル分の現金がもらえます。さらにCash Appは、世界中の若者のロボティクスとSTEM教育の発展を支援する団体FIRSTにも10ドルを寄付します。

それでは、ダフネ・コラーとの対話をどうぞ。

病気を治すことと寿命を延ばすこと

Courseraを共同創業されて、AIのグローバル教育に大きな影響を与えました。そして5年後の2016年8月、ブログ記事で退任を発表し、こう書かれていました。今こそ、もう一つの重要な課題、つまり機械学習の発展と、それを人間の健康の改善に応用することに向き合う時だ、と。

そこで、かなり遠くまで踏み込んだ哲学的な質問を2つさせてください。1つ目は、今日知られている主要な病気すべてに、いつか治療法を見つけられると思いますか。2つ目は、人間の寿命を延ばす方法、もしかすると不死に近いところまで延ばす方法を、いつか見つけられると思いますか。

いつかというのは、とても長い時間です。そして私は、私たちは決してXをできない、という種類の予測をするのは好きではありません。それはある種の傲慢さを感じさせるからです。人類の存在全体、つまり永遠とも言える時間の中で、私たちがその問題を解けることは絶対にない、と言っているようなものですから。

とはいえ、病気を治すことは非常に難しいです。多くの場合、病気が発見された時点では、すでに大きな損傷が起きています。その段階で病気を治せると仮定するには、人体の一部を丸ごと再生して、本当に元の状態に戻すような方法を私たちが生み出す必要がある、ということになります。それは非常に難しい問題です。

私たちは、治癒できた病気はごくわずかです。治療を提供できる病気の数は増えていますが、本当に治癒と定義できるものは、実際にはそれほど多くありません。ですから、すべての病気はもちろん、相当な数の病気を治癒できたと正当に言えるようになるまでにも、まだ多くの仕事が必要だと思います。

0から100の尺度で考えたとき、主要な病気すべての根本メカニズムを理解するという点で、私たちはどのあたりにいるのでしょうか。コンピューターサイエンスの視点から健康の世界に入ったあなたの感覚では、どれくらい進んでいるのでしょう。

病気によると思います。100に近いとまでは言えない病気もあります。生物学は本当に複雑で、人々が存在すら知らなかった新しいものが常に発見されますから。それでも、70台や80台にいるかもしれない病気はあります。一方で、病気の大多数については、かなり0に近いと言えると思います。

アルツハイマー病、統合失調症、2型糖尿病は、0に近いのでしょうか、それとも80に近いのでしょうか。

アルツハイマー病は、おそらく80より0に近いと思います。仮説はいくつかありますが、その仮説が真実だと信じられるほど十分に検証されているとは、まだ思えません。そして従来の仮説では実際に起きていることを説明できないのではないか、と考える人も増えています。

さらに言うと、アルツハイマー病、統合失調症、さらには2型糖尿病でさえ、実際には一つの病気ではありません。ほぼ間違いなく、臨床的には似た形で現れる、異質なメカニズムの集合です。乳がんが実は一つの病気ではないと現在では理解されているのと同じです。乳がんは多数の細胞メカニズムから成っていて、それらが最終的には制御不能な増殖という形に変換されますが、一つの病気ではありません。

他の病気についても、ほぼ間違いなく同じことが言えます。その理解があって初めて、それらの病気の具体的なメカニズムを理解することができます。統合失調症について言えば、ほぼ間違いなく0に近いでしょう。2型糖尿病は少し混ざっています。インスリン抵抗性などに関わる、検証済みだと思える明確なメカニズムがあります。ただ、それでも私たちがまだ理解していないメカニズムが数多くあることは、ほぼ間違いありません。

あなたは長寿の側面についても少し考え、取り組んできました。病気と長寿は、取り組みとして完全に重なっていると思いますか。一部重なっているのでしょうか。それともまったく別物でしょうか。

メカニズムは確かに重なっています。よく知られた現象として、小児疾患を除くほとんどの病気では、その病気にかかるリスクが40歳くらいから毎年、指数関数的に増えていきます。ですから、この2つの間には明らかにつながりがあります。

ただし、それらが同一だと言っているわけではありません。特定の病気と直接結びついていない老化も明らかにありますし、老化とは特に関係のない病気や病気のメカニズムもあります。ですから、重なりがある、というのが今の見方です。

少し残念ですよね。私たちは年を取り、病気の発生や、年を取るという事実との間に何らかの相関があるように見えます。どちらもかなり悲しいことです。

細胞が老化するにつれて起こる過程があり、それが病気に寄与していると思います。その一部は、細胞が分裂する際に蓄積するDNA損傷に関係しています。修復メカニズムがそれらを完全には修正しきれないのです。また、誤って折りたたまれ、凝集する可能性のあるタンパク質の蓄積もあります。それらも病気に寄与し、炎症にも寄与します。細胞レベルでの摩耗のような、多数のメカニズムが明らかになっており、それらが病気の過程に寄与しています。そして、私たちがまだ理解していないものも数多くあるはずです。

少し脱線して、哲学的な話かもしれませんが、ものが年を取り、ものが死ぬという事実は、新しいものが成長するうえで非常に強力な特徴でもあります。ある意味では学習であり、学習メカニズムのようなものです。だから悲劇的であると同時に美しくもあります。病気と闘い、老化と闘う中で、私たちが死すべき存在であることの有用性について考えますか。それとも、もし不死になれるなら、不死を選びますか。

繰り返しになりますが、不死というのはとても長い時間です。それを必ず目指したいものだとは、私にはわかりません。ただ、私たちは皆、健康寿命の延長を望んでいると思います。つまり、健康で活動的で、20歳の頃のように感じられる時間を長くすることです。私たちはそこにはまったく近づいていません。人は時間とともに身体的にも精神的にも衰えていきます。それはとても悲しい現象です。

ですから、もし私たち全員が、聖書的に言えば120歳まで、しかも完全に健康で、高い生活の質を保ちながら生きられるなら、それは素晴らしい目標だと思います。それが社会として達成できれば本当にすばらしいでしょう。適切な年齢が120歳なのか、100歳なのか、150歳なのかは議論の余地があります。でも、健康寿命を延ばすことは本当に価値ある目標だと思います。いずれにせよ、宇宙の年齢という壮大な時間から見れば、どれもかなり短いものです。

データと機械学習が創薬を変える

あなたは機械学習に関して、明らかに非常に多くの素晴らしい仕事をしてきました。この病気を理解し、病気を根絶しようとする目標において、データと機械学習はどのような役割を果たすと思いますか。

これまでは、それほど大きな役割を果たしてこなかったと思います。主な理由は、強力な機械学習手法を可能にするために本当に必要なデータセットが、ほとんど存在していなかったからです。断片的なものはあり、興味深い機械学習も適用されてきました。機械学習、あるいはデータサイエンスと言ってもいいでしょう。

でも、ここ数年で状況が変わり始めています。大規模なデータセットが増えているだけでなく、それと同じくらい重要なのは、大規模にデータを生成できる技術が増えていることです。ただし通常、人々が機械学習のためのデータを生成する目的で、意図的かつ能動的にそれらのツールを使ってきたわけではありません。それらの技術がデータ生成に使われてきた場合でも、科学的発見を進めるためのデータ生成として使われてきました。そして機械学習は、副産物のような第二段階として、こういう形でやってきたのです。データセットができたから、より単純なデータ解析手法ではなく、機械学習をやってみよう、というように。

しかしinsitroで私たちがやっているのは、その順序をひっくり返すことです。バイオエンジニアや細胞生物学者たちが生み出してきた素晴らしい手法のレパートリーがある。では、それらをまったく新しい形で組み合わせて、機械学習を本当に生産的に適用できるデータセットを作り、人間の健康に関する根本的な問題に取り組むのに役立つ強力な予測モデルを作れないか、と考えているのです。

つまり、データを主要な焦点、主要な目標にして、生物学や化学のメカニズムを使って、機械学習が最大限恩恵を受けられるようなデータセットを作る、ということでしょうか。

私はその言い方はしません。なぜなら、それだとデータが最終目標のように聞こえるからです。データは手段です。私たちにとっての最終目標は、人間の健康における課題に取り組むことです。そのために選んだ方法が、機械学習を適用して予測モデルを構築することです。そして私の考えでは、機械学習、とりわけより強力なモデルは、十分な規模と十分な品質のデータが与えられたときにのみ、本当にうまく適用できます。では、予測モデルを生成する能力を引き出し、その後に人間の健康を改善するためには、どのようにそうしたデータセットを作るべきか、ということです。

その詳細に入る前に、一歩引いて聞かせてください。あなたの人間の健康への関心は、いつ、どこで生まれたのでしょうか。もしお聞きしてよければ、あなた自身の人生における出来事や悲劇が、その情熱のきっかけになったのでしょうか。それとも、人類を助けたいというより広い願望だったのでしょうか。

両方だと思います。人間の健康への関心は、実は2000年代初頭にさかのぼります。当時、機械学習の分野にいた多くの同僚や私は、正直に言ってあまり刺激的とは言えないデータセットを使っていました。私たち古株の中には、いわゆる20 Newsgroupsデータセットをまだ覚えている人もいます。それは文字通り、20のニュースグループから集めたテキストの集まりでした。ニュースグループという概念自体、今ではほとんど存在しません。そして課題は、ある単語の袋がどのニュースグループから来たものかを分類できるか、というものでした。あまり面白くありませんでした。

当時、生物学側のデータセットは、技術的な観点からも、志の観点からも、はるかに興味深いものでした。まだ小規模ではありましたが、20 Newsgroupsよりは良かったのです。ですから私は、もっと社会的に有用で、技術的にも興味深いことをしたいという思いから始めたのだと思います。その後、時間とともに、生物学や人間の健康そのものへの関心がどんどん深まり、時には機械学習の要素が大きくない、生物学だけの論文にも取り組むようになりました。

創薬への関心は、12年ほど前に父が亡くなった出来事にも一部関係していると思います。父は自己免疫疾患を患い、それが肺に出ました。医師たちは基本的に、できることは一つしかない、プレドニゾンを投与することだと言いました。ある時、医師が来て、どの自己免疫疾患なのか調べるために肺生検をしましょうと言ったのを覚えています。私は、それは役に立ちますか、治療を変えますか、と聞きました。答えは、いいえ、プレドニゾンしかありません、それが唯一できることです、というものでした。

私にはリウマチ専門医の友人たちがいますが、彼らは、今日ならFDAはプレドニゾンを承認しないだろうと言います。副作用と利益の比率が、今日の基準ではおそらく十分ではないからです。今では、どの自己免疫疾患かにもよりますが、自己免疫疾患の人を助けられる薬が、おそらく4つか5つ、もしかするとそれ以上あります。その多くは12年前には存在しませんでした。

ある意味で、私たちは創薬の黄金期にいると思います。これまで可能だったものより、はるかに安全で、はるかに効果的な薬を作れる能力があります。足りないのは、生物学とメカニズムへの十分な理解、つまりそのエンジンをどこへ向けるべきかを知ることです。そして、そこに機械学習が役立つと思います。

皿の中の病気モデル

2018年にあなたはinsitroという会社を立ち上げ、現在率いています。先ほどおっしゃったように、焦点はおそらく創薬と、創薬のための機械学習の活用にあります。あなたは以前、私たちはいわゆる皿の中の病気モデルを作ることに強い関心がある、と話していました。皿の中の病気モデルとは、病気が複雑で、これまで良いモデルシステムがなかった領域、あるいはマウス試験を含め、何年も使われてきた典型的な動物モデルがあまり効果的でない領域に使われるものです。動物モデルとは何か、そして皿の中の病気モデルとは何か、説明していただけますか。

もちろんです。病気の動物モデルとは、基本的には名前の通りです。多くの場合マウスで、そこに外部から何らかの摂動を導入して病気を作り、それからその病気を治します。そして、それによって人間の同様の病気も治せることを期待するわけです。

問題は、多くの場合、その動物で病気を作る方法が、人間でその病気が実際に起こる仕組みとはまったく関係していないことです。それは表現型のコピー、つまり臨床的な結果のコピーだと考えられますが、メカニズムは大きく異なります。そのため、動物で病気を治しても、それが人間に翻訳されません。そもそも多くの場合、その病気は自然には動物に起こりません。マウスはアルツハイマー病にはなりません。糖尿病にもなりません。動脈硬化にもなりません。自閉症や統合失調症にもなりません。そうした治療法は、人間で起きていることには移行しないのです。そして、そこが多くの薬が失敗する場所です。マウスで得られた知見が、人間に翻訳されないからです。

皿の中の病気モデルは、かなり新しいアプローチです。これは、この5年から10年より前には存在しなかった技術によって可能になりました。たとえば、私たちが誰か、あなたや私から細胞を取り、それが皮膚細胞だとして、それを幹細胞状態と呼ばれる状態へ戻す能力です。それはいわゆる多能性細胞で、そこからさまざまな種類の細胞へ分化させることができます。その多能性細胞から、レックスのニューロン、レックスの心筋細胞、レックスの肝細胞のようなものを作れるわけです。それらはあなたの遺伝情報を持ちながら、その正しい細胞タイプになります。

もし特定の細胞タイプに現れるような遺伝的な疾患負荷があるなら、その細胞を観察することで、それを見ることができるかもしれません。健康な細胞と比べて、病気になりそうな細胞はこう見えるのか、と理解し、さらに、どのような介入が不健康に見える細胞を健康な細胞へ戻せるのかを探ることができます。

もちろん、細胞を治すことは人を治すことと同じではありません。ですから、まだ翻訳可能性のギャップはあり得ます。ただ、人間の遺伝に駆動される病気で、人間の遺伝が細胞表現型を駆動している場合には、その病気が始まる細胞、かつ病気が遺伝によって駆動されている細胞を健康な状態に戻せるなら、より全体的な臨床表現型にも役立つのではないかと期待する理由があります。それが私たちが本当にやろうとしていることです。

その後戻りするステップについて読んだことがあります。山中因子ですね。

そうです。

幹細胞に戻す逆方向のステップですね。魔法みたいに思えます。

本当にそうです。正直なところ、それが起こる前には、それが可能だと予測した人はほとんどいなかったと思います。驚くべきことです。

もう少し詳しく説明していただけますか。本当に可能なのでしょうか。この成果は、最初に示されたのがたぶん10年くらい前だったと思います。どれくらい難しいのでしょうか。この後戻りのステップにはどのくらいノイズがあるのでしょうか。とても信じがたく、そして面白いことに思えます。

信じがたく、面白いことです。発見された初期段階では、もっと扱いが難しく、個別対応的なものだったと思います。でも今では、ほぼ工業化されています。契約研究機関、いわゆるCROやベンダーがあり、人間からサンプルを取って、それを幹細胞状態へ戻してくれます。そして、かなり高い割合でうまくいきます。

ただし、この細胞は本当に完全な幹細胞なのか、遺伝以外に人間の中で起こった変化のある側面を覚えていないのか、という良い問いを投げかける人たちはいます。

皮膚細胞としての過去ですね。

そうです。皮膚細胞としての過去、あるいはさまざまな環境要因への曝露という過去です。ですから、現在のコンセンサスは、これらは常に完璧とは限らず、時には記憶の断片が少し残っている、というものだと思います。ただ、概して言えば、かなり良いものです。

機械学習にとって有用なことの一つは、データの大きさやスケールだと思います。違っていたら訂正してください。こうした幹細胞への巻き戻しや、その後の皿の中の病気モデルを大規模に行うのは、どれくらい簡単なのでしょうか。これは大きな課題なのでしょうか、それともそうではないのでしょうか。

現時点では、その巻き戻しは、数万や数十万という規模でできるものではありません。世界中に存在する幹細胞、あるいはiPS細胞、つまり人工多能性幹細胞の総数は、私が最後に見た時点では5,000から10,000の間くらいだったと思います。もちろん、あちらこちらの学術センターに存在するものを数えていない可能性があり、それらを合わせればもう少し増えるかもしれませんが、おおよそその範囲です。

ですから、現時点で100万人からiPS細胞を作れるわけではありません。でも、もしかするとそれは必要ないかもしれません。その背景が十分かもしれないからです。さらに、それらにさまざまな方法で摂動を与えることもできます。

非常に興味深い実験をしている人たちもいます。たとえば、健康な人から細胞を取り、この10年で生まれたもう一つの奇跡的技術であるCRISPR遺伝子編集を使って、病原性があることが知られている変異を導入します。すると、健康な細胞と不健康な細胞、つまり変異を持つ細胞を比較できます。他のすべてを一定に保った一対一の比較です。そうすることで、その変異が細胞レベルで具体的に何をするのかを理解し始めることができます。

ですから、iPS細胞は非常に優れた出発点です。もちろん、多様性は多いほど良いです。民族的背景を捉え、それが物事にどのように影響するかも見たいからです。ただ、すべての疾患タイプを持つすべての患者から一つずつ必要というわけではないのかもしれません。私たちには他のツールもありますから。

人々の間にはどれくらい違いがあるのでしょうか。iPS細胞に関して民族的背景に触れましたが、私たちは皆、何にでもなれる魔法のような細胞を持っているようにも見えます。集団の違い、人の違いの間で、幹細胞には大きなばらつきがあるのでしょうか。

まず、私たちは遺伝的に異なるという単純な事実によって生じるばらつきがあります。私の遺伝型から作られた幹細胞は、あなたの遺伝型から作られた幹細胞とは違います。また、何らかの理由で、ある人の幹細胞は別の人の幹細胞よりも分化しやすいという違いもあります。その理由は完全には理解されていません。ですから、そうした違いも確かにあります。

ただし根本的な違いであり、私たちが本当に注目している、そしてむしろ利点と考えているのは、遺伝が異なるという事実です。したがって、私の疾患負荷とあなたの疾患負荷を再現できるのです。

疾患負荷とは何ですか。

疾患負荷というのは、厳密に定義された数学用語ではありません。ただし、それに対する数学的な定式化はあります。考え方としては、私たちの中には、ある病気にかかりやすい人がいます。その理由は、その病気の原因となるゲノム上の変異をより多く持っていたり、その病気から保護する変異が少なかったりするからです。

人々はこれを、多遺伝子リスクスコアと呼ばれるもので定量化してきました。これは個人のゲノムにあるすべての変異を見て、それぞれが特定の病気に対してどれだけのリスクを与えるかを足し合わせるものです。そして人々を疾患リスクのスペクトラム上に配置します。

多くの小さな変異と疾患リスクの増加との関係を十分に理解できるだけの力がある疾患では、この多遺伝子リスクスコアの最上位10パーセントの人々と最下位10パーセントの人々との間で、リスクにかなり大きな差が見られることがあります。時にはその差が10倍や12倍になることもあります。ですから、たとえそれが決して完全な説明ではないとしても、私たちの遺伝が疾患リスクに大きく寄与していることは間違いありません。

機械学習の視点から見ると、そこにはシグナルがあるのでしょうか。

遺伝には確かにシグナルがあります。そして私たちは、異なる遺伝的背景から作られた細胞を見ることで、さらに大きなシグナルが得られると考えています。原理的には、シグナルはすべて遺伝レベルにあるのだから細胞を見る必要はない、と言うこともできます。しかし、現時点での私たちの生物学理解は非常に限られています。そのため、細胞レベルで実際に何が起きているかを見ることは、遺伝を直接見るよりも、人間の臨床的な結果にはるかに近いのです。だから、遺伝だけを見るよりも、そこから多くを学べます。

細胞をデジタルデータへ変える

それが十分に簡単にできると仮定して、この皿の中の病気モデルでは、どのようなデータが有用なのでしょうか。生のデータや情報の源は何なのでしょうか。また、外部の人間としての私の視点からは、生物学や細胞は柔らかくて、ぐにゃっとしたものに思えます。それをどうやって文字通りコンピューターにつなぐのでしょうか。どんな感知メカニズムを使うのでしょうか。

それもまた、この10年に起こった革命の一つです。細胞を非常に定量的に測定する私たちの能力も、劇的に向上しました。私が生物学を始めた1990年代後半から2000年代初頭は、生物学を本当に定量的な方法で測定し始めた初期の時代でした。マイクロアレイのようなものを使って、一つの実験で、サンプル内のゲノム上のすべての遺伝子について、その活動レベル、いわゆる発現レベルを測定していました。

その能力によって、がんのような疾患に分子的サブタイプがあることさえ理解できるようになりました。それまでは、あなたは乳がんです、というだけでした。しかし分子データを見ると、遺伝子活動のレベルではまったく異なる乳がんのサブタイプがあることが明らかになりました。それがこのプロセスの始まりでした。

今では、単一細胞RNAシーケンシングと呼ばれる方法を使って、個々の細胞の遺伝子活動を測定できます。これは基本的に、ゲノム上のすべての遺伝子について、その活動レベルであるRNAをシーケンスするものです。それを単一細胞レベルで行うことができます。ですから、これは細胞を測定する非常に強力な方法です。文字通り、転写産物の数を数えるのです。

本当にですか。

そうです。それによって、その柔らかいものがデジタルなものに変わります。

ここ数年で現れたもう一つの非常に大きなデータ源は顕微鏡です。特に超解像顕微鏡です。デジタル再構成を使うことで、細胞内構造を見ることができます。時には、光の回折限界を下回るようなものまで、洗練された再構成によって見ることができます。そしてこれもまた、細胞内レベルで膨大な情報を与えてくれます。

今では、素晴らしい科学者たちが、単一細胞からさえ新しい種類の情報を得るための方法を次々に開発しています。つまり、そうした柔らかいものをデジタルデータに、美しいデータセットに変える方法があるのです。

そのデータセットを機械学習ツールと組み合わせることで、特定の病気の発症メカニズムを理解できるかもしれないということですね。高いレベルで説明できるなら、それはどうやって薬の発見につながり、そのメカニズムを防いだり逆転させたりする薬につながるのでしょうか。

このデータを使う方法はいくつかあると思います。科学的発見のために使う人たちもいます。たとえば、細胞レベルでこの表現型が見える、では既知の生物学の理解を使って逆向きにたどり、どの遺伝子が、それを引き起こす経路に関わっているか考えてみよう、という方法です。これはかなり分析的な、既知の生物学理解を使って逆向きに作業する方法です。

別の人たちは、もう少し前向きに使います。先ほどが後ろ向きだとすれば、こちらは前向きです。たとえば、この遺伝子に摂動を与えたら、疾患患者で見られるものに似た表現型が出る。だとすると、その遺伝子は実際に病気の原因なのかもしれない、という考え方です。これも別の方法です。

そして私たちがやっているのは、その非常に大きなデータの集合を取り、機械学習を使ってそこから現れるパターンを明らかにすることです。たとえば、人間の臨床的な結果としては似ているかもしれないけれど、分子データを見るとかなり異なるサブタイプは何なのか、ということです。そして、そのようなサブタイプを特定できた場合、その病気のサブタイプに由来する細胞にある介入を適用すると、病気の状態が通常の幸せで健康な細胞に近いものへ戻るかどうかを見ます。その介入は薬でもよいですし、CRISPRによる遺伝子介入でもよいです。

もしそれが見られれば、その介入が人々に対しても意味のある臨床的利益をもたらすかもしれないという一定の希望が得られます。もちろん、その後に検証するべきことはたくさんあります。しかしこれは、新しい潜在的介入を明らかにする、非常に異なる、そして仮説駆動性がずっと低い方法です。そしてそれは、すでに誰もが見ているものとは違うものを生み出すかもしれません。

今の議論について、自分の気持ちを少し自己分析しているのですが、本当にワクワクします。機械学習の問題に変換された、本質的に重要な何かについて話していて、それが現実世界に大きな影響を持ち得るというのは、かなり興奮します。私は日々の大半を、20 Newsgroupsに近いデータセットで過ごしていますから。

これは話していて気持ちがいいです。実際、機械学習について話すよりも、ほとんどデータセットの根本について話したいくらいです。それが刺激的な場所です。

同感です。それが私を毎朝起き上がらせるものです。そしてそれは、insitroで働く多くの人たちを惹きつけているものでもあります。少なくとも私たちの機械学習チームの人たちは皆、非常に優秀で、オンライン広告を売る仕事や、コマース、自動運転車の仕事にも就けるはずです。

それでも彼らが私たちのところに来るのは、より志のある性質のものに取り組みたいからだと思います。本当に人類に利益をもたらせるものに取り組みたいのです。

こうしたアプローチで、どのような病気が助けられることを期待していますか。アルツハイマー病、統合失調症、2型糖尿病に触れました。このアプローチが役立つ可能性のある、さまざまな病気について説明していただけますか。

わかりません。そして私は、私たちはXを治します、というような約束をすることには非常に慎重でありたいと思っています。そういう約束をする人たちはいますが、私はそれについて、まず届けて、それから約束するようにしたいと思っています。その逆ではなく。

ただ、この種のアプローチが役立つ可能性を高める疾患の特徴はあります。たとえば、非常に強い遺伝的基盤を持つ病気は、幹細胞由来モデルで現れやすいものです。細胞モデルは、比較的再現性があり、頑健であってほしいです。十分な量の細胞を得られ、しかも非常にばらつきが大きくノイズの多いものではない形で得られる必要があります。

また、その病気は、皿の中のin vitro環境で実際に作れる一つ、あるいは少数の細胞タイプに比較的限定されていてほしいです。もしそれが非常に広範で全身性のもので、体の遠く離れた部分にある複数の細胞を含むなら、それをすべて皿の中に置くのは本当に難しいです。ですから私たちは、今日成功する可能性が最も高いものに焦点を当てたいと考えています。同時に、非常に賢いバイオエンジニアたちが、常により良いシステムを開発しているという希望もあります。今日扱えない病気も、3年後には扱えるようになるかもしれません。

たとえば5年前には、これらの幹細胞由来モデルは実際には存在していませんでした。人々はほとんどの作業をがん細胞で行っていました。がん細胞は、ほとんどの人間生物学のモデルとしては非常に、非常に不十分です。第一に、そもそもがんだったからです。第二に、それを継代し、皿の中で増殖させるにつれて、ゲノム不安定性のせいで、人間の生物学からさらにかけ離れていくからです。

今では、これらの幹細胞由来モデルがあります。また、完全に正しいスケールにはまだ到達していませんが、かなり頑健にオルガノイドと呼ばれるものを作る能力もあります。これは、器官システムの小さな多細胞の器官のようなものです。脳オルガノイド、肝臓オルガノイド、腎臓オルガノイドがあります。

脳オルガノイドは、おそらく私が見た中で一番クールなものです。

そして今、それらのオルガノイド同士をつなげるようなことも見え始めています。実際に、複数の器官システムのことを扱えるか、という問いを立てられるようになるわけです。それを始めているとても面白い論文もあります。課題はたくさんあります。決して簡単ではありません。それでも、人々はきっと解決すると思います。そして3年後や5年後には、今日作れない病気モデルを作れるようになっているでしょう。

そうなれば、この会話も、3年で達成され得るスケールを考えると、ほとんど時代遅れのように見えるかもしれませんね。それはとてもクールです。

CourseraとMOOC革命の始まり

あなたはアンドリュー・ングとCourseraを共同創業し、MOOC革命全体の一部でした。少し話題を変えて、MOOCとCourseraの起源、そしてAIという非常に影響力の大きなトピックを大規模な聴衆に教えることについて、その歴史や起源の物語を話していただけますか。

MOOCの起源は、2000年代後半ごろにスタンフォード大学で起こったいくつもの取り組みに由来すると思います。スタンフォード内のさまざまな人々、私自身も含めて、オンライン技術を使うことで、教育の質の向上とスケールの拡大の両方を実現できる可能性に非常にワクワクしていました。

たとえばアンドリューは、Stanford Engineering Everywhereを主導しました。これはスタンフォードの10の講座を、ビデオ講義としてオンラインに載せる試みのようなものでした。私はスタンフォード内で別の取り組みを率いていました。いくつかの講座を取り、それらを小さな単位に分割し、そこにインタラクションなどを埋め込んだ、非常に異なる教育モデルを作るというものです。

それは大学のリーダーたちから多くの支援を受けました。なぜなら、現在反転授業と呼ばれているモデルへ移行することで、スタンフォードの授業の質を改善する可能性があると感じられていたからです。やがて、それらの取り組みは互いに影響し始め、オンライン教育の可能性について、スタンフォードのコミュニティ内に非常に大きな興奮とエネルギーを生み出しました。そして2011年秋、最初のスタンフォードのMOOCの立ち上げにつながりました。

ちなみにMOOCは、おそらく知らない人はいないと思いますが、Massive Open Online Courses、大規模公開オンライン講座のことです。

その頭字語を作ったのは私たちではありません。私は特にこの略語が好きなわけではありませんが、そういうものです。

ビッグバンも宇宙の始まりを表す言葉としては素晴らしい用語ではありませんが、そういうものですね。

おそらくそうですね。ともかく、それらの講座は2011年秋に始まりました。そして本格的な広報キャンペーンはなく、バイラルになったニューヨーク・タイムズの記事があっただけでしたが、数週間のうちに、それぞれの講座に約10万人以上の学生が集まりました。

アンドリューと私が交わした会話を覚えています。これは本当に大きな需要がある、というものでした。私たちは2人とも、もちろん一定の成果を上げた研究者であり、元の生活に戻って、さらに論文を書くこともできました。でも、もしそうしていたら、これは起きなかったでしょう。そしてこれは、起きないままにしておくにはあまりに重要に思えました。

そこで私たちはかなりの時間をかけて議論しました。これを、私たちが始めたものを土台にしたスタンフォードの取り組みとしてやりたいのか。営利企業としてやりたいのか。非営利としてやりたいのか。最終的に、Courseraとして今の形でやることを決めました。そして2012年の初めから、実質的に会社として運営を始めました。

当時それは本当に驚きでしたか。当時、そして今、グローバル教育へのこの需要をどのように理解していましたか。人気の高さが、学びのグローバル化への渇望を示していると感じたとおっしゃいましたが。

学びへの渇望があるのだと思います。グローバル化はその一部ですが、基本的には学びへの渇望です。この50年で世界は変わりました。以前は、大学を卒業して仕事に就くと、概して大学で学んだスキルが、その後の職業人生をほぼ支えてくれました。もちろんいくらか新しいことは学びましたが、劇的な変化ではありませんでした。

今日、私たちは、多くの仕事に必要なスキルが、大学に通っていた頃には存在すらしていなかったような世界にいます。そして大学に通っていた頃に存在していた仕事の多くは、今日では存在しないか、消えつつあります。その一部はAIによるものですが、それだけではありません。人々が今日必要としているスキルにアクセスできるようにする方法を見つける必要があります。そこに、この渇望の多くを駆動しているものがあるのだと思います。

さらに一歩引いて考えると、あなたにとってはすべてが、新しい教え方を考えること、あるいは教材を整理し、提示する新しい方法を考え、教育プロセスをより良くすることから始まったのでしょうか。

そうです。

このプロセス、つまりさまざまなアイデアで実験する中で、効果的な教育について何を学びましたか。

私たちはいくつものことを学びました。その一部は、キャンパスでの教え方に戻して効果的に応用できるし、実際に応用されていると思います。一方で、オンラインで学ぶ人々、日常生活の一部として学ぶ人々により特化したものもあります。

たとえば、私たちは非常に早い段階で、短いほうが良いと学びました。特に働いている人々は、15週間の学期制のコースを受けることができません。生活の中に入りきらないのです。

短いというのは、何の短さでしょうか。全体ですか。それとも小さな講義一つ一つですか。講義が短い、コースが短い、両方ですか。

両方です。最初のオンライン教育の取り組みは、MITのOpenCourseWareイニシアチブでした。それは教室での講義の録画で、1時間半くらいのものでした。

ええ。

それはあまりうまく機能しませんでした。もちろん恩恵を受けた人はいました。でも、仕事があって、子どもが3人いて、用事もしなければならないような人にとって、それはあまり受け入れやすい体験ではありません。15週間を生活に組み込むことはできませんし、1時間半も本当に難しいです。

そこで私たちは非常に早く学び、短いビデオモジュールから始めました。そして時間が経つにつれて、それらをさらに短くしました。15分でもまだ長すぎると気づいたからです。子どもの医者の予約を待って列に並んでいる間に収めたいなら、5分から7分の方がよいのです。

15週間のコースは機能しないことも学びました。より短い単位に分割し、自然な完了点があるようにした方が良いです。そうすると、意味のある何かをもう少しで終えられるという感覚が得られます。必要なら、いつでも戻ってパート2、パート3を受けることもできます。

また、コンテンツを圧縮することもうまく機能すると学びました。そのペースが合う人もいれば、合わない人は巻き戻してもう一度見ることができます。人々は自分のペースで学ぶ能力を持てます。ですから、その柔軟性、短さ、そして柔軟性の両方が、非常に重要だとわかりました。

コンテンツ中のエンゲージメントも重要だと学びました。より早くフィードバックを与えるほど、人々は関与しやすくなります。そこで、講義の中に小さな簡単なマイクロクイズを入れるようなものを導入しました。これは私が最初から直感的に持っていた考えで、その後データによって検証されました。自己採点、または自動採点される評価も非常に役立ちます。フィードバックを与えてくれるからです。これらはすべて価値があります。

さらに、他にも2つほど学びました。たとえばジェンダーバイアスについて、とても興味深い実験をしました。特にSTEMコースにおいて、女性のロールモデルが講師としていることが、男性と女性の比率をどのように変えるかを調べたのです。オンラインではA/Bテストによってそれが可能ですが、キャンパスで同じことをするのは非常に難しいでしょう。

それは面白いですね。ただ、短さや圧縮についてですが、それはおそらくすべてに当てはまると思います。良い編集とは常に、コンテンツを圧縮し、短くすることです。そうすると、講師や教育コンテンツの作り手には大きな負担がかかります。おそらくMITやスタンフォードのほとんどの講義は、十分な準備があれば5分の1の長さにできるかもしれません。反対する人もいるでしょうが。Courseraが提供するような歯切れの良さ、明確さには、どれくらいの労力が必要なのでしょうか。

まず言っておきたいのは、その歯切れの良さが、対面環境で同じように効果的に機能するかは明らかではないということです。人々には教材を吸収する時間が必要だからです。ですから、少なくとも立ち止まり、人々に振り返る機会を与える必要があります。おそらく練習も必要です。そしてMOOCがやっているのは、コンテンツをまとまりで提供し、それを使って練習するよう求めることです。

そこが、対面教育で採用されている新しい教授法、インタラクティブな学習などが非常に役立つ部分だと思います。ただし、そのようなオンライン教育の方法論であれ、反転授業型のインタラクティブ教育であれ、どちらのアプローチも。

反転授業とは何ですか。

反転授業とは、オンラインコンテンツを対面教育の補助として使う方法です。学生は授業に来る前にビデオを見たり、いくつかの演習を行ったりします。そして授業に来た時には、より深い問題解決を行います。多くの場合、グループで行います。

ただ、教室の前に立って1時間15分しゃべり続けるだけではない、それらの教授法はどれも、はるかに多くの準備を必要とします。Courseraで教員に教えてもらうよう説得しようとした時に私たちが直面した課題の一つであり、キャンパスの教育専門家が教員に違う教え方をしてもらおうとする時の課題の一部でもあります。それは、そのやり方で教えるほうが、立ってしゃべり続けるより実際には難しいということです。

MOOCは対面教育に取って代わると思いますか。あるいは将来、人々が学ぶ方法の大部分になるのでしょうか。もちろん未来は非常に遠いかもしれませんが、傾向はどこへ向かっていると思いますか。

それは微妙で複雑な答えになると思います。MOOCが対面教育に取って代わるとは思いません。学びは多くの場合、社会的な体験です。Courseraでも、必要がなくても自然に勉強会を作る人たちがいました。ただ集まって話すためです。そして私たちは、それが非常に重要な形で学習に利益をもたらしていることを発見しました。そうした勉強会を持っていた学習者のほうが、持っていなかった学習者よりも成功していたのです。

ですから、私たち全員が突然コンピューターだけでオンライン学習し、他の誰も同じ場所にいなくなる、ということにはならないと思います。録音された音楽がライブコンサートを置き換えなかったのと同じです。

ただし、特に継続教育について考える場合、つまり人々が高校や大学などの伝統的な教育を終えた後、急速に変化する世界で専門性やスキルの水準を維持しなければならない場合には、人々はますますオンライン形式の教育コンテンツを利用するようになると思います。正式な教育を受けるために学校へ戻ることは、ほとんどの人にとって選択肢ではないからです。

AIを学ぶ人への助言

短くお聞きします。難しい質問かもしれませんが、人工知能や機械学習、特にディープラーニングに魅了されている人はたくさんいます。これからの1年、あるいは生涯にわたる旅として、それに興味を持つ人に何かおすすめはありますか。どう始めればよいのでしょうか。どうその学びの旅に入ればよいのでしょうか。

大事なのは、まず始めることです。数学、統計、プログラミングの核となる基礎、そしてそこから機械学習へ進むためのオンラインコンテンツはたくさんあります。私は、基礎をあまり早く飛ばさないことを勧めます。オンラインであれキャンパスであれ、基礎を持たずに機械学習を学ぶ人がたくさんいると感じるからです。そうした人たちは基本的に既存のモデルを回すだけになり、目の前の問題に対する革新や調整があまりできません。さらに時には、単に間違っていることもあります。そして、自分たちの適用が間違っていることに気づきません。十分に理解していないアーティファクトがあるからです。

ですから、機械学習の基礎は重要なステップです。そして実際に問題を解き始めることです。一緒に解く相手を見つけるようにしてください。特に最初の頃は、アイデアをぶつけ合い、自分の間違いを直してもらう相手がいると役立ちますし、自分も相手の間違いを直せます。そして、実践的な問題を見つけてください。職場で見つけてもいいですし、それがなければKaggleコンペティションなども興味深い問題を見つけるのに本当に良い場所です。そして練習、練習です。

少しロマンチックな質問かもしれませんが、ディープラーニングの中で、あるいはあなたの旅の中で最も美しい、驚くべき、興味深いと感じたアイデアは何ですか。ディープラーニングだけでなく、AI全般や統計でも構いません。

良い質問です。2つあります。1つはエンドツーエンド学習という基礎的な概念です。つまり、生データから始めて、単一の部品のようなものではなく、実際に目指しているゴールに向けて学習するということです。

生データから結果まで、間に何もないということですか。

何もないわけではありません。もちろん、別のタスクに向けて学習された構成要素を導入することはできます。実際、それが答えの後半につながります。ただ、真ん中が単一の巨大な塊である必要はありません。むしろ、それは理想的ではないと思います。重要なのは、最終的に、最初から最後まで進むものを実際に学習できるということです。

もう一つ、私が非常に魅力的だと思うのは、表現を学習するという概念です。その表現は、たとえ別のタスクのために学習されたものであっても、別のタスクを解くためのはるかに速い出発点として使える可能性があります。これは、人間が成功した学習者になる仕組みを思い起こさせるものです。機械学習の領域では比較的新しいものだと思いますし、今日の能力に照らしてもまだ十分に活用されていないと思います。でも、再利用可能な表現をどのように学ぶか、という方向へどんどん進んでいます。

つまりエンドツーエンドと転移学習ですね。

そうです。

ニューラルネットワークが多くの場合こうしたことをできるというのは、あなたにとって驚きですか。初めてニューラルネットワークに深く入っていった時に戻って考えても、あるいは今日でも、ニューラルネットワークがそもそも機能し、生データからの学習や転移学習を見事に行えることに驚きますか。

十分に大量のデータがあると、非常に高次元の空間の中で意味のある表現を見つけることが可能だという点には驚きました。そしてそれは本当に刺激的だと思います。人々はまだその数学を解明しようとしており、毎年そのような論文が増えています。それを解明できたら本当に素晴らしいと思います。

それが私にとって驚きだった理由は、私が機械学習を始めた初期の頃、データセットはかなり小さかったからです。当時、私たちは、あるいは少なくとも私は、意味のある答えにたどり着くには、もっと制約があり、知識が豊富に組み込まれた探索空間が必要だと信じていました。そして当時は、それは正しかったと思います。

今もまだ疑問として残っているのは、モデル構築に事前知識がまったく入らない、完全に知識なしのアプローチが解になるのかどうかです。今日の解は実際にはそうではありません。画像に使われる畳み込みニューラルネットワークのアーキテクチャは、言語に使われるネットワークとはかなり異なりますし、音声や生物学、その他の応用に使われるものともまた異なります。正しい性能を得るためには、まだネットワーク構造に何らかの洞察が入っています。

普遍的な学習機械を作れるのでしょうか。私にはわかりません。どこかで常に何らかの洞察を注入しなければならないのか、それとも収束できるのか、気になります。

不確実性とAIの信頼性

あなたは確率的グラフィカルモデル、一般にはベイズ的ディープラーニングなどについて、多くの興味深い仕事をしてきました。高いレベルで、学習システムは不確実性にどう対処できるのか話していただけますか。

多くの機械学習モデルの限界の一つは、答えを出しても、その答えをどれくらい信じられるのかがわからないことです。そしてしばしば、その答えは不確実性に対してかなりひどく較正されています。たとえば、ニューラルネットワークの最後に出てくる信頼度を見て、0.8の答えと0.9の答えでどれくらい信頼性が違うのかを問うても、それはネットワークの実際の信頼性や真実性と、いかなる形でも適切に較正されていません。

そして訓練データから離れれば離れるほど、そのネットワークはしばしばより間違いやすくなるだけでなく、間違った答えに対してより自信満々になります。これは多くの応用領域で深刻な問題です。

たとえば医療診断を考えると、この問題がどれほど厄介かを示す典型例かもしれません。ある特定の患者集団でネットワークを訓練したとします。そして外れ値となる患者がいる。その患者を見ている人間がいない。その患者がニューラルネットワークに入れられ、そのネットワークが完全に間違った診断を出すだけでなく、その間違った答えに極めて高い自信を持っている。人を死なせてしまう可能性があります。

ですから、不確実性に対して較正されたネットワークをどう作るか、また、この特定のデータ例については降参します、十分に似たものを見たことがないので何と言えばいいかわかりません、と言えるネットワークをどう作るかについて、理解を深めることは非常に重要になると思います。特に、人命がかかっているミッションクリティカルな応用では重要です。医療応用もそうですし、自動運転もそうです。道路の真ん中に見えているこの塊が何なのかまったくわからないから、とにかく止まります。認識できない歩行者を轢く可能性は避けたいです、というようにネットワークが言えることが望ましいからです。

学習システムが予測とともに不確実性を提供できるようにする、良いメカニズムやアイデアはありますか。

もちろん、人々はベイズ的ディープラーニングや、ガウス過程を伴うディープラーニングを含むメカニズムを考案してきました。さまざまなアプローチがあります。異なるデータのサブセットや異なるランダムな開始点で訓練したネットワークのアンサンブルを使う方法もあります。これらは時に驚くほど良く、自分の答えにどれくらい自信があるか、あるいはないかの分布のようなものを作るのに役立ちます。これはまさにオープンな研究領域です。

では慎重に哲学の世界へ戻りましょう。AIシステムが不確実性を提供することに関連して、スチュアート・ラッセルのような人は、私たちがますます知的なシステムを作るにつれて、それらが自己疑念に満ちていることが非常に重要だと考えています。もしそれらにより大きな力を与えるなら、人間の制御や人間の監督を維持する方法としてそうあってほしいわけです。これは、あなたが自動運転車について今言及したことにも当てはまります。車が確信を持てない時には人間の監督を得ることが本当に重要です。もし車が非常に自信満々なら、困った状況になる場合があり、それは非常に問題です。

そこで、AGI、人間レベルの知能に関する問いを聞かせてください。私たちは今、病気を治すことについて話してきました。それは今日影響を持てる根本的なものです。しかし人々は、知能を理解し作り出すことも夢見ています。あなたはそれについて考えますか。夢見ますか。コンピューターサイエンティストとして考える射程内にあると思いますか。

その質問の別々の部分を分けて考えさせてください。

そうですね。複数の部分があります。

まずAGIの実現可能性から始め、それから少しタイムラインについて話し、その後、AIの領域で保護について考える時にどのような制御が必要かを話します。AGIは明らかに、この分野の初期の先駆者たちでさえ抱いていた長年の夢です。チューリングテストなどは、その最も初期の議論です。私たちは70年ほど前よりは明らかに近づいていますが、それでもまだ非常に遠いと思います。

今日の機械学習アルゴリズムは、十分な訓練データを見た非常に特定の問題領域において、非常に優れたパターン認識器です。ある機械学習アルゴリズムを取り、同じ問題の少し違うバージョンに移すだけでも、ましてやまったく違う問題に移せば、完全に行き詰まります。

ですから、単一の知識ベース、単一の脳を使って文脈を切り替え、異なる問題を解くという点で、人間の幼児が持つ多用途性や柔軟性にさえ、私たちはまったく近づいていないと思います。機械が宇宙を乗っ取り、もっと力が欲しいから人々を殺し始めることを、私が必死に心配しているかといえば、そうではありません。

そこについて少し立ち止まりたいのですが、あなたはスーパーインテリジェンスを達成するのは非常に難しいと直感しているわけですね。知能、知的なスーパーインテリジェンス、いや私たちは知能にさえ近くない。現在のシステムの一般化能力の拡張でさえそうです。でもまだすべての部分に答えていません。2つ目に進みますか。

もちろんです。少し別の方向として、もっとずっと愚かなシステムでも問題を起こし得るのか、という話もできます。

はい。それこそ私が向かっていたところです。

ではAGIの脅威についてまとめると、人間レベル、あるいは超人間レベルの知能に対する防御策を今日考えるのは、少し早いように思えます。私たちはそれがどのようなものか、その骨格さえ見えていません。ですから、それに対してどう守るかは非常に推測的に思えます。

しかし、もっと愚かなシステムであっても、私たちは間違いなく問題を起こし得ますし、すでに起こしています。その多くは、私たちが構築しているシステムがますます複雑になり、ますます理解しにくくなっているという事実に関係しています。そして、小さな変更が結果に劇的な影響を与えるような、予測不能な波及効果があります。

ちなみに、これは人工知能に固有のものではありません。人工知能がそれを悪化させ、新しいレベルに引き上げるとは思います。でも、たとえば私たちの電力網は本当に複雑です。金融市場を動かしているソフトウェアも本当に複雑です。そして、予期していなかったフィードバックループによって金融クラッシュのような劇的に悪い結果が生じるのを見てきました。

ですから、それは多くの場所で慎重に考えるべき問題です。人工知能はその一つです。そして、システムの解釈可能性を高める方法、あるいは、たとえばある状況で訓練された機械学習システムが、まったく異なる状況でどれくらいうまく機能するのかを測定するためのより良いテストについて、人々が考えることは本当に重要だと思います。

たとえば、自動運転車を、あらゆる都市、村、天候条件などでテストすることはできない、と言うかもしれません。でも、この条件群で訓練し、訓練に使っていないかなり異なる50や100の条件でテストし、それでも機能したなら、次の未テストの50でもうまくいくかもしれないという信頼が得られます。つまり、一般化可能性を効果的にテストするということです。

ですから、私たちはシステムの頑健性を検証する方法を常に考えるべきだと思います。それは、ロボットが世界を乗っ取らないようにしよう、という話とは非常に違います。

そして、私たちが考えるべきもう一つの重要な脅威は、技術が悪用され得る範囲です。どんな非常に強力な技術とも同じように、機械学習も善のためだけでなく悪のためにも大いに使われ得ます。これはこれまでに生まれた多くの技術にも当てはまります。人々は投射兵器を発明し、それは銃になりました。人々は原子力を発明し、それは核爆弾になりました。正直に言えば、私にとっては、遺伝子編集やCRISPRは、悪用されれば機械学習と少なくとも同じくらい危険な技術だと思います。遺伝子編集を使えば、本当に厄介なウイルスなどを作ることができます。非常に注意しなければなりません。ですから、非常に強力な新技術を持つときにはいつでも、それについて本当に慎重に考える必要があります。

機械学習の場合には、敵対的機械学習があります。セキュリティ上の脅威に近い、さまざまな攻撃があります。機械学習アルゴリズムを使ったソーシャルエンジニアリングもありますし、ビッグブラザーが見ているという問題もあります。そして、別の国の人々を標的にして殺害することが潜在的に可能な殺人ドローンもあります。ミサイルなどが必ずしもそれよりずっと良いとは言いません。ただ、人は誰かを殺したいと思えば、その方法を見つけるでしょう。

一般的にデータの傾向を見ると、戦争は減り、暴力も減り、人権は増えています。人類として全体的にはかなりうまくやってきました。あなたは楽観的ですか。別の聞き方をすれば、ほとんどの人は善良であり、根本的には私たちはより良い世界へ向かう傾向があると思いますか。機械学習や遺伝子編集が最終的に私たちを良い場所へ連れていくのか、という問いの根底にある質問です。楽観的ですか。

概して私は楽観的です。ほとんどの人は善意を持っていると思います。それは、ほとんどの人が利他的な善行者だという意味ではありません。でも、ほとんどの人は善意を持っています。

ただし、社会として、善を行うことと仲間から良く見られることが正に相関するような社会規範を作ることも非常に重要です。機能不全の社会を作るのはとても簡単です。複数の心理学実験もありますし、残念ながら現実世界の出来事もあります。そこでは、人々は、仲間から良く見られることが、本当に残虐で、しばしば大量虐殺的な行動と相関する世界へと堕ちていきました。

ですから私たちは、社会の成功した一員であるためには善を行いたいと思うべきだと、人々が理解するような社会規範を維持しなければなりません。私が時々心配するのは、ある社会がその点で必ずしも前進していないように見えることです。良い人であることが仲間から良く見られる理由になるとは限らなくなっている場合があります。そしてそれは、社会として私たちが覚えておくべき本当に重要なことだと思います。本当にひどいことをしても、それでも仲間から素晴らしいと思われる宇宙へ戻ってしまうのは、とても簡単です。

人生の意味と世界に残す痕跡

世界的なコンピューターサイエンティストでありエンジニアに、人生の意味とは何かという、ばかばかしいほど哲学的な質問をするのは楽しいです。あなたの人生に意味を与えるものは何ですか。充足、幸福、喜び、目的の源は何でしょうか。

2011年秋にCourseraを始めていた頃、それはちょうどスティーブ・ジョブズが亡くなった時期でした。メディアには彼の有名な言葉がいろいろとあふれていました。その中で私の心に強く残ったものがあります。それは、私がその何年も前から感じていたことと響き合っていたからです。それは、人生の目標は宇宙にへこみを作ることだ、というものです。

ですから私にとって人生に意味を与えるものは、私が死の床に横たわり、自分の人生で何をしたかを振り返った時、自分がこの世界を、自分が生まれた時よりも良い場所にして去ったと言えるものを指し示せることを願う、ということです。

これは私がいつも子どもたちに話していることです。なぜなら、その責任は特権を持って生まれた私たちにとって、ずっと大きいとも思うからです。そしてある意味で、私はそうでした。裕福だったわけではありません。でも、私は教育を受けた家庭に育ち、両親は私を愛し、世話をしてくれました。素晴らしい教育を受ける機会がありました。そして、食べるものに困ったことはありませんでした。ですから私は、多くの点で、人類の大多数よりも特権を持って生まれました。そして私の子どもたちは、私が幸運にもそうであった以上に、さらに特権を持って生まれていると思います。

だからこそ、特にそのような機会を持つ私たちにとって、自分の人生を使って世界をより良い場所にすることは、本当に重要だと思います。

これ以上良い終わり方はないと思います。お話しできて光栄でした。本当にありがとうございました。

ありがとうございました。

結び

ダフネ・コラーとのこの対話を聴いていただき、ありがとうございました。そして、提供スポンサーであるCash Appにも感謝します。Cash Appをダウンロードし、コードlex podcastを使って、このポッドキャストの支援を検討してください。

このポッドキャストを楽しんでいただけたなら、YouTubeで登録し、Apple Podcastで5つ星のレビューをし、Patreonで支援していただくか、TwitterでLex Fridmanにつながってください。

最後に、医学の父とされる古代ギリシャの医師ヒポクラテスの言葉を残します。医学の技が愛されるところには、人間への愛もある。

お聴きいただきありがとうございました。また次回お会いできることを願っています。

コメント

タイトルとURLをコピーしました