Moonshot Podcast詳細解説:Andrew Ngが語る深層学習とGoogle Brainの軌跡

AI教育
この記事は約36分で読めます。

本動画は、Google Brainの共同創設者であるAndrew NgがX(旧Google X)での経験について語るインタビューである。スケールの重要性を説く彼の先見性、ニューラルネットワークへの信念、そしてGPUやトランスフォーマーといった技術革新について詳しく解説している。また、AI教育への情熱や今後のAI民主化の可能性についても言及している。

The Moonshot Podcast Deep Dive: Andrew Ng on Deep Learning and Google Brain
In the fourth installment of our Moonshot Podcast Deep Dive video interview series, X’s Captain of Moonshots Astro Telle...

AIの民主化がもたらす未来

アメリカ以外の国々、それも発展途上国にとって、AIはどんな影響を与えると思いますか?

俺はな、AIがめちゃくちゃ大きな民主化効果をもたらすと期待してるねん。なんでかって言うと、今の世の中で一番高いもんって知性やからな。めっちゃ優秀な専門医に診てもろうて何が起きてるか教えてもらうのに金かかるやろ?それか、子どもにマンツーマンで教えてくれる超優秀な家庭教師雇うのもえらい金かかる。

人間の知性を安くする方法なんて見えへんねん。優秀な人間を育てるのにはどうしても金がかかる。せやけど人工知能を安くする道筋は見えてるねん。これが何を意味するかって言うと、今は比較的裕福な人らだけが特定のスタッフを雇って特定のことをやってもらえるわけや。

でも将来は、全ての人が賢くて博識なスタッフの軍団を持てるようになったらええなって思ってるねん。あらゆることを手伝ってもらえる軍団をな。健康アドバイザーとか家庭教師とか、そういうやつらやな。

そうやな。そして俺は思うねん、今は比較的裕福な人らだけが利用できるスタッフの軍団をみんなが持てるようになったら、めちゃくちゃたくさんの人らが救われるやろうって。

Google Brainの始まり

Andrew、おかえり。また会えて嬉しいわ。

いつも会えて嬉しいで、Astro。

最高やな。いろんなことについて話したいけど、俺が懐かしく思い出すことから始めたいねん。俺らは大学院時代がだいたい同じ頃やったよな。

Xで何かを始めることについて君と話してた時、それが後にGoogle Brainと呼ばれるようになるんやけど、君は大学院の論文でめちゃくちゃ珍しくて記憶に残ることをやってたんや。聴衆に君の大学院論文が何やったか教えてもらえるか?技術的に面白かった部分を高次元で説明してもらうのと、何を実現させたかの両方をな。

俺のバークレーでのPhD論文では、小さなニューラルネットワークを作ってヘリコプターを飛ばしたんや。当時としては珍しかったと思うで、強化学習が今は注目されてるけど、あの頃は全然注目されてなかったからな。

友達何人かに頼み込んでヘリコプターを使わせてもらって、俺らが発明した小さなアルゴリズムで小さなニューラルネットワークを訓練して、空中でホバリングさせ続けるようにしたんや。めちゃくちゃ安定してたで。動画を見たら「これ本当に動画か?」って思うぐらい、写真を見ても同じように思うぐらい安定してた。それはかっこよかったと思うねん。

それが強化学習にめちゃくちゃ注目を集めさせたんや、当時よりもずっとな。それにヘリコプター飛ばすのは楽しかったし。

その通りやな。今これを聞いてる人らは覚えてへんかもしれんけど、今は垂直離着陸機とかをいっぱい見てるから、空中でめちゃくちゃ安定してるもんは簡単やと思うかもしれん。

でもあの頃は、そういう風に学習する何かがあったっていうのは、この分野にとってはエキサイティングな形でのショックやったんや。

楽しかったのを覚えてるわ。俺は幸運にも、いろんなことで王道から外れて変なことをやる機会に恵まれてきたと思うねん。時には上手くいかんこともある。それは王道から外れる時に起こることやけど、上手くいった時は、あのヘリコプターの結果はめちゃくちゃ注目を集めて、その時期の強化学習を前進させたと思うで。

スケールの重要性とニューラルネットワーク

俺が覚えてるのは、X の観点から最終的にGoogle Brainになるもの、ここXで後にGoogleで君が共同創設したものを始めることについて話してた時や。君がスタンフォードで若い教授として書いたこの歴史の断片を持ってきてくれたのを覚えてる。スタンフォードか後にXが何をすべきかについて君が思ってたことについてな。

俺の記憶では、まだざっと読んでへんからめちゃくちゃ興味があるねんけど、君の論文には2つのことがあったと思うねん。俺と当時のXの共同創設者で共同ディレクターやったSebastianが、そのうちの1つをめちゃくちゃ買ったんや。

1つ目はスケールが重要やってことやった。Yann LeCunとかがそれを学術的に示してたけど、実際にスケールを実現した人はまだおらんかったから、まだ証明されてへんかったんや。みんな強く疑ってたとは思うけどな。

実際、あの時点では人らは学術的に証明してへんかったし、俺はその頃NeurIPSに行ったのを覚えてるねん、当時はNIPSって新しい会議やったけど。人らと話してて「深層学習アルゴリズムをスケールアップせなあかん」って言うてたら、めちゃくちゃ先輩の人らから「なんで大きなニューラルネットワークを作ろうとしてるんや、新しいアルゴリズムを発明しろよ」ってアドバイスをもらったりしたで。

2010年やったな。Google brainになったものをLarry Pageに2010年にピッチしたのを覚えてるけど、2008年頃やったと思うねん。学術会議を回ってて、その時はスケールは実際に論争の的やった。

人らは信じてへんかったし、善意のめちゃくちゃ先輩の人ら、Yoshua Bengioが「Andrew、これは君のキャリアにとって良くない」って言うてたのを覚えてるわ。君がどれだけ正しかったか、特に君のキャリアにとってどれだけ良かったかを振り返ると、めちゃくちゃ皮肉やな。

俺が覚えてるもう1つの理論、間違ってたら訂正してくれ、君の論文の一部やったと思うねんけど、人間の脳や他の脳では、鼻からの信号、目からの信号、耳からの信号、味蕾からの信号でさえ、脳の似たような部分を通るってことやった。

それについて何か有用なことがあるんちゃうかって君は疑問に思ってたんや。システムをそういう風に過負荷にすることについて、システムにめちゃくちゃ違うことをたくさんやらせることで、より頑健で、より知的になるかもしれんってな。

君の当時の論文の一部として俺がそれを正しく覚えてるか?

そうやな、2つの部分があったんや。実際は1つの学習結果仮説やった。俺は神経再配線実験にインスピレーションを受けてたんや。それは、誰かが悲劇的に脳の一部にダメージを受けた場合、脳の他の部分、同じ物理的な脳組織が、以前は聞くことを学習してた部分が見ることを学習できるってことを示してるねん。

それで俺は本当に疑問に思うようになったんや、俺だけやなかったけど、見ることと聞くこととか、いろんな違うことをするのに全く違うソフトウェアやアルゴリズムが必要なんか、それとも1つの学習アルゴリズムがあって、どんなデータを与えるか(テキストか画像か音声か他の何か)によって、そのデータをどう扱うかを学習するのかってな。

振り返ってみると、この1つの学習アルゴリズム仮説は、俺が思うには間違いよりもずっと正しかったと思うで。でも振り返ると、俺は神経科学からのインスピレーションを過度に強調してたと思うねん。

神経科学からの具体的なことはほとんど役に立たんかったけど、人間の脳が1つのアルゴリズムでいろんなことをしてるかもしれんっていう高次の考え、やから俺らもコンピュータに1000個のアルゴリズムを1000人が発明するんやなくて、1つのアルゴリズムを小さなチームが発明して、めちゃくちゃ違うデータを食わせるっていう、それは本当に上手くいったんや。当時は異端やったけど、今はみんながやってることやな。

実際、National Science Foundationのワークショップで講演したのを覚えてるわ。1つの学習仮説について話してて、俺は当時若かったから、コンピュータビジョンの人らが手作業でエンジニアリングしてることをちょっとからかってたんや。めちゃくちゃ先輩のコンピュータビジョン研究者が公衆の面前で立ち上がって俺に怒鳴ったのを覚えてる。

若い教授としてはちょっとトラウマやったけど、何年か経って振り返ると笑えるし、実際上手くいったからオッケーやったんやって言えるわ。

分野を君みたいに変える人は、だいたい途中で怒鳴られるもんやからな。

Xへの参加とGoogle Brainの設立

Xに来ることになった時、君にはこのビジョンがあって、いろんな場所でいろんな方法で試すことができた。なんでXに来たん?俺とSebastian、LarryやSergeyとの初期の体験とか、どういう記憶があるか教えてくれるか?

当時Sebastian Thrunが君と一緒にXを運営してたのを覚えてるねん。Sebastian ThrunはGoogle Brainの開始について、これまで受けてるよりもずっと多くの評価を受けるべきやと思うで、正直なところ。

Sebastianと俺はスタンフォードで隣り合ったオフィスにいたんや。壁を共有してたから、俺が壁を叩いたら向こう側で聞こえるぐらいやった。俺のスタンフォードの学生、Adam Coatesとかが、ニューラルネットワークや学習システムを大きく作れば作るほど性能が良くなるってことを実証してたんや。

だから俺は、この秘密のデータを持ってるって感じやった。秘密やなかったけど、俺は話してたのに人らが信じてくれへんかったから、秘密みたいなもんやった。ニューラルネットワークを大きく作れば作るほど性能が良くなるってことを示すデータをな。

それで俺は人らに「これらのアルゴリズムをスケールアップすべきや」って話してたんや。Sebastianが俺に指摘したんは「Googleはめちゃくちゃたくさんコンピュータを持ってる。Googleにピッチして、Googleの巨大なコンピュータインフラを使って、他の誰よりもずっと大きなニューラルネットワークを作らせてもらったらどうや?」って。

それでSebastianが俺のためにLarry Pageにピッチする会議をセッティングしてくれたんや。覚えてるのは、ラップトップでスライドを準備して、スライド持参で準備万端で来たんやけど、日本料理屋で食事してたんや。

ラップトップを出すのに不便やったから、結局Sebastianもそこにいて、Larryと話すだけで終わったんや。幸い、Larryが俺の話したことを買ってくれて、俺がSebastianと君らXと一緒に、後にGoogle Brainになるプロジェクトを進めることを認可してくれたんや。

あの夕食のことを今でもはっきり覚えてるわ。俺にとってはめちゃくちゃハイステークスな会話やったし、当時はめちゃくちゃクレイジーなビジョンやったことをLarry Pageが買ってくれたことを今日まで感謝してるねん。

2012年までには状況が変わった。人らはニューラルネットワークにめちゃくちゃ興奮し始めてた。でも2010年、2010年でも、ニューラルネットワークはまだほとんど流行遅れで、人工知能の世界では長いこと流行遅れやったんや。

君の考えはどうやった?スケールは1つのことや。これらのものをスケールアップできるし、スケールが本当に重要かもしれん。別の質問として、何をスケールアップするか?表現としてのニューラルネットワークについて何か考えはあるか?それは今はみんなが当然として受け入れてることやけど。

2008年を振り返ると、ニューラルネットワークはみんながやってることやなかったし、それが人工知能のブレークスルーになるなんて全く当然やと思われてへんかった。

ニューラルネットワークは長いこと荒野にいて、AIの多くの人らに拒絶されてたんや。実際振り返ると、主要な会議でニューラルネットワークの論文を発表するのは難しかったんや。だから俺の初期の研究の多くは、その時のメイン会議やなくてワークショップで発表されたんや。

あの頃は、知的興奮の多くが、トップ会議で論文を発表する方法は、本当に巧妙な数学的作業をして、本当に賢いアイデアを持って、定理を証明することやったんや。

それが研究論文を発表する方法で、めちゃくちゃ賢いアイデアで同僚の尊敬を得る方法やった。そこに俺が現れて「たくさんのコンピュータを手に入れて、これをずっと大きくしよう」って言ったんや。それは「知的厳密性はどこにあるんや?ただ物を作ってるだけやろ。なんでそんなことをしたいんや?」って見られたんや。

それはめちゃくちゃ論争的やったし、正直言って、実際に深層学習のスケールアップが本当に離陸し始めた時に俺が見たのは、率直に言って20年間のキャリアをアルゴリズムの微調整に費やしてきた人らにとって、それは実際に感情的に辛いことやったんや。彼らが何十年ものキャリアをこれらのアルゴリズムをめちゃくちゃ賢い方法でいじることに費やしてきたからな。

そして俺みたいな連中が「本当に大きなコンピュータを作って、たくさんのデータを投げつけよう」って言って、それが彼らの何十年もの知的作業を上回り始めた時、それは実際に辛かったんや。

多くの人らは適応して、良い仕事を続けてやったけど、誰かが長い間取り組んできたことを時代遅れにする破壊的革新がやってくると、適応するのに時間がかかることもあるんや。

GPUとスケーリングの発見

結果的に、ニューラルネットワークをスケールアップするためにGPUを使うことを推進する俺らの最初の論文、これもまた論争的なアイデアやったんや。当時は会議のセットに入れへんかったから、ワークショップで発表したんや。今ではめちゃくちゃ明らかで、みんなGPUを使うべきやって知ってるのにな。

俺が当時見てたことの1つは、俺だけやなくて、カナダのCIFARミーティングでJeff Hintonとかもたむろってる場所で、俺らの小さなグループが実際の勢いを示すデータを生成してたってことやった。破壊的革新がある時によくあることやけど、それは既存の技術と本当に競合せえへんかったんや。

当時俺らが訓練してたニューラルネットワークは、従来のコンピュータビジョンアルゴリズム、従来のテキスト処理アルゴリズムよりも確実に劣ってたけど、俺らは何かを掴んでるってことを知ってた。まだ競争力はなかったけど、急速に良くなってたからな。

俺とスタンフォードの学生は、もしもっと大きなバージョンを作ることができれば、競争力を持つようになるってことを見てたんや。それが賭けるべきことやった。

スタンフォードの若い教授として、スケールが本当に重要かもしれんって考えに多くの反発を受けたって前に話してたな。君に同意しない人らだけやなくて、そう言うことに対して怒る人らがいた初期の頃、何が君にそれを推し続ける自信を与えたんや?

俺は秘密のデータを持ってた。本当に秘密やなかった、実際発表したけど、他の人らが信じてくれへんかったから秘密みたいなもんやった。俺の学生Adam Coatesが、横軸がモデルのサイズ、縦軸が性能のチャートを作ったんや。めちゃくちゃたくさんの違うモデルを試して、俺らが試した全ての単一のモデルで、その研究プロジェクトは右上に上がっていったんや。

だから俺はデータに基づいて、モデルを大きく作れば作るほど性能が良くなるってことを知ってたんや。科学者として、イノベーターとして、みんなが何を思うか聞いて平均を取るだけでは良い仕事はできへんのや。

もちろん人らが何を思うか聞くのは構へんけど、最終的には自分が信じることについて仮説を持たなあかん。俺のはスタンフォードで生成して発表したデータによって形作られたけど、なぜか俺はこれに注意を払ってもらうのに苦労したんや。だから実際、他のチームがそれにジャンプする前に、スケーリングで長いヘッドスタートを得たんや。

Jeff Deanとの協力

Google Brainが設立され始めた時、Jeff Deanが君の相棒になってGoogle Brainを構築することになったな。君ら2人はどうやって出会ったんや?どう上手くいったんや?作業をどう分担したんや?

Jeff Deanがプロジェクトに参加してくれて俺は本当に幸運やったと思うで。Sebastian Thrunと俺がLarry Pageの指示の下でプロジェクトを始めようと取り組んでる時、LarryがGoogleの多くの人らと話すように俺に求めたんや。Jeff Dean、Greg Corrado、Tom Dean、Jay Yagnikとか、めちゃくちゃたくさんの他の人らと話したのを覚えてる。

Jeffにもっと大きなニューラルネットワークを作ることができれば物事が良くなるってアイデアをピッチしたのを覚えてるわ。それがJeffを興奮させたアイデアやった。

プロジェクトが進むにつれて、その時プロジェクトに取り組んでた俺ら全員が、Jeffをもっともっとinvolveさせることができれば、彼がチームにとってものすごい付加価値、力の乗数になるってことを知ってたんや。俺らがJeffにこれを言ったことがあるかどうか分からんけど、実際にGreg Corradoと俺が「Jeffが興奮し続けて、engaged し続けるために何をすればいいか」って話し合ったりしてたんや。

俺らはいつも彼が興奮してて、もっともっとやりたがってるようにしたかったんや。幸い彼はそうしてくれた。彼が高度にinvolveされて、日々一緒に考えるようになった時、彼はシステムの人になって、俺は機械学習の人になったんや。

彼はGoogleのインフラの多くを構築してて、めちゃくちゃ深いレベルでスケーリングを理解してる。俺が機械学習の専門知識を持ち込んで、Jeffがコンピュータシステムの専門知識を持ち込むっていうパートナーシップが、俺らがGoogleのインフラを使って機械学習アルゴリズムをスケールアップして、他では実現できない結果を出すことを可能にしたんや。

当時の面白いアナロジーがあったんや。Jeffが Google と世界にもたらしたことの1つは、世界中の潜在的な検索情報すべてを見て、探してるものを見つけて、ミリ秒以内に返すっていうめちゃくちゃ難しい問題を解決することやった。つまり問題を分割しなあかんってことや。

その問題の分割と結果の再結合は、当時Googleが問題を解決する方法の中心やったんやけど、それが君らがより大きなニューラルネットワークを訓練する際に行った訓練作業にめちゃくちゃ似てたってことが分かったんやろ?

そうやな。Jeffは作業を取って、分割して、たくさんのコンピュータで実行して、それらをまとめて戻すMapReduceっていう技術を発明してたんや。それが俺らが訓練の一部を行った方法のバージョン1やった。

そして俺らがもっともっと多くのバージョンを構築するにつれて、それは最終的にTensorFlowみたいなものにつながったんやけど、技術スタックは進化し続けたと思うで。

俺が思うに、俺らがGoogleで遅かった1つのことはGPUを受け入れることやった。部分的には、Googleがめちゃくちゃ優秀なCPUコンピュートインフラを持ってたからや。

ハードウェアの進化:GPUからTPUへ

そこを少し掘り下げてみよう。Xでの俺らのコミットメントは、基本的に何らかのハードウェアコンポーネントを持つものに焦点を当てるってことやった。だから初期の頃、俺らがGoogle BrainがXにあることに興奮してたのは、特殊なソフトウェアと一緒に特殊なハードウェアが必要になるかもしれん、いわば心に対する脳が必要かもしれんって想像してたからや。

それで時が経って、君とチームがめちゃくちゃ成功を収めてたから、少なくともしばらくは特殊ハードウェアへの興味は消えたんやけど、その後Google brainは全TPUプロセスを開始することになった。ただしそれはXを離れた後やったけどな。

一時的にハードウェアをやらなくなって、その後ハードウェアに戻った経緯について何か記憶はあるか?

俺は思うねん、Google Brainはめちゃくちゃたくさんの素晴らしい決定を下したけど、もっと早くにしておけば良かったと思うのがGPU、もしくはTPUの決定やな。

Jeff と俺は実際にたくさんのデータセンターオペレーター、Googleのローンチクラスターを構築してる人らと話してたのを覚えてる。当時は正当な懸念があったんや。あちこちにいくつかのGPUを置き始めると、使いにくいめちゃくちゃ異種のコンピュート環境ができるってな。

GPUとTPUが何か、人らがその用語を理解できるように説明してもらえるか?

もちろんや。ほとんどのコンピュータはCPU、コンピュータプロセッシングユニットで動いてるんや。GPUはグラフィックスプロセッシングユニットで、元々はコンピュータグラフィックス用に設計されたけど、めちゃくちゃ大きなAIシステム、めちゃくちゃ大きなニューラルネットワークの訓練には素晴らしいってことが分かったんや。

TPUはGoogleの発明、Google brainチームの発明で、これらのめちゃくちゃ大きなテンソル処理、テンソルプロセッシングユニットを訓練するためのGoogleの特殊ハードウェアに対する取り組みやな。

俺らはGPUが上手く機能してるのを見てたし、実際Google brainの初期に音声認識に取り組んでて、GPUサーバーを1台、もしかしたら2台持ってたんや。まだ誰かのデスクの下に線の巣と一緒に座ってるのを想像できるわ。1台のコンピュータでGPUが有望やってことを実際に見たけど、Googleのデータインフラの観点からの懸念は、Googleは当時コンピュートインフラを持ってて、誰かがコードを書いてほぼどこでもシームレスに実行できるようになってたんや。でもGPUはめちゃくちゃ違うタイプのハードウェアやから、プログラマーが特殊化するためにせなあかん作業を変えることになるんや。

だから俺らは「大量のGPUを買った場合、これをYouTubeのトランスコーディングにも使えるか?AIモデルの訓練以外に何か良いことに使えるか?」って考えてたんや。そういうことのために、俺らは少し行き詰まって、Googleでは思ったほど積極的に追求しなかったんや。俺がもっと強くプッシュすべきやったかもしれんな。

結局、俺のスタンフォードのグループでGPUを使ったデモをすることになったんや。それはめちゃくちゃ散らかったインフラでも大丈夫で、オッケーやったごちゃごちゃしたチームやったからな。

でもそう言うても、俺らはCPUでかなり遠くまで行けたし、その後brainがもう少し後にGPUにもっと移行して、TPUを構築したのは明らかに上手くいったんや。

トランスフォーマーの革新

Google BrainがXを離れた後に、トランスフォーマーが正式に発明されて、論文が発表されたな。トランスフォーマーやトランスフォーマーのような作業の小さな断片を見たか?Google brainの初期の頃に君らがぶつかったいくつかの障害と、その時は探索的やったけど結果的にめちゃくちゃ重要やったことについて教えてくれるか?

トランスフォーマー論文の素晴らしいところは、今日でも一部の人らだけが理解してることやと思うけど、著者らがスケールのGoogle brain伝統の中で育ったってことやった。トランスフォーマーネットワークをどうアーキテクチャするかの決定の多くは、すべてGPU上で上手くスケールするニューラルネットワークの設計についてやったんや。

アテンション機構みたいなことの多くは、ニューラルネットワークが文のどの部分に注意を払うかを決める非常に賢い方法やねん。

アテンションに関するトランスフォーマーの革新が何やったか聴衆に説明してもらえるか?

トランスフォーマー論文以前は、英語からフランス語に文を翻訳したい場合、文全体を読んで文全体を記憶しようとして、それからフランス語の翻訳を吐き出そうとするアルゴリズムがあったんや。それはまあまあ上手くいってた。

でもそれはめちゃくちゃ難しいやろ?長い文やったらな。

トランスフォーマー論文には革新的なアーキテクチャがあって、英語の文を保持しておいて、フランス語の文を書こうとする時に、出力を生成する文の中のどこにいるかによって、翻訳してる英語の文の特定の部分に注意を払うことができたんや。

それにはめちゃくちゃたくさんの計算が必要やったんや。英語の文全体とフランス語の文全体を見て、何をする時に何を見るかを把握するためにな。でもそれが並列ハードウェア、GPUやTPUで本当に上手くスケールしたから、めちゃくちゃ上手く機能したんや。

これが後に、みんな知ってる通り、現代のファウンデーションモデルの基盤になったんや。英語からフランス語への翻訳やなくて、ユーザープロンプトからユーザーが求めてることへの答えに「翻訳」するんやけどな。

トランスフォーマー論文がめちゃくちゃ素晴らしく機能して、めちゃくちゃ注目を集めた大きな理由は、著者らがニューラルネットワークアーキテクチャを非常に賢くデザインして、すべてのステップが高度に並列化可能でGPU上で上手く動作するようにしたからやった。それが大量のデータで訓練するための素晴らしいコンピュート基盤を与えて、めちゃくちゃ上手く機能するようにしたんや。

Google Brainの初期プロジェクト選択

Google brainの初期、まだXにいた頃は、何にでも取り組むことができた。翻訳、音声をテキストに変換すること、画像認識に取り組むことができた。いくつかのことに焦点を当てるのをどうやって選んだんや?上手く機能してへんかったり、商業的にあまり有用やなかったりするからって捨てたものはあったか?

俺がXで働き始めた時に取り組んだ最初のことの1つは、実際にGoogle内でニューラルネットワークについてのクラスを教えることやった。Tom DeanとGreg Corradoと俺が緊密に連携したと思うけど、それは素晴らしいことやったと分かったんや。100人弱が来たんや。

でも俺らは毎週会ってて、ニューラルネットワークとスケールについての俺の変なアイデア、Google brainで俺らが何をしてるかを共有してたんや。幸いこれが俺らがGoogle全体でたくさんの友達を作って、たくさんの味方を見つける助けになったんや。

俺らが最初に一緒に働くことになったチームの1つは音声チームやった。2つの理由があった。まず、スケールが音声を改善する大きな可能性があると感じてたからや。

音声って、音声の音を聞いて、彼らが言ってる言葉を理解するってことか?つまり、その音声から来るテキストを文字通り書き起こすってことやな。

そう、音声認識や。当時、音声検索はまだ今ほど成熟してへんかったと思うで。

でもモバイルアプリに話しかけて、音声を使ってGoogleで検索するっていうアイデアは本当にエキサイティングやった。だから俺らは音声転写の精度を改善したかったんや。でも当時音声チームはすでにニューラルネットワークを少し見てて、俺らがスケールを手伝うことで、Google音声認識の改善を手伝えると感じたんや。

だからそれは、誰が俺らと一緒に働きたがってるか、俺らが一緒に働いてスケール仮説を推進できると思った人らに基づいて、少し日和見的になったんや。

それが君らと一緒に働くチームを与えてくれて、君らが十分上手になって有用になってるかどうかを理解する助けにもなったんやろ?彼らが何を困難と考えて、だから進歩の面で何を印象的と考えるかの非常に明確なベンチマークを持ってたからな。

そうや。俺らは深いテクノロジー革新に取り組む、ニューラルネットワークアーキテクチャを発明するって幸運やったけど、同時に比較的早く実際のビジネス結果を出すことについても責任を問われる種類やったんや。

音声の作業、Google Street Viewの作業を覚えてるわ。当時ストリートビュー画像を見てハウスナンバーを読むためにコンピュータビジョンを使って、Googleマップで家をより正確に位置特定してたんや。それは当時音声認識よりも大きなインパクトのあることやったと分かったんや。

広告を手伝う方法についての会話もあった。ウェブ検索について初期の懐疑論があったのを覚えてる。当時のウェブ検索チームを説得するのに苦労したんや。幸い広告チームはこれにずっとオープンやった。

YouTubeビデオを見て、不適切なコンテンツのフィルタリングをしてたってことも正しく覚えてるか?

そうや。当時Jay Yagnikのチームはyoutube上でAIを運営してて、コンテンツに基づいてyoutubeビデオをタグ付けすることと、モデレーション フィルタリングの一部について本当に良い仕事をしてたんや。

実際、俺が約100人のGooglerと一緒に指導したクラスのおかげで、いろんなアプリケーションチームからめちゃくちゃたくさんの関心があったんや。実際俺らは、初期の段階からでさえGoogle brainに参加したがってる人らがヘッドカウントよりもずっと多くて幸運やった。

でも時には誰かが俺らに参加したがってるけど、フルタイムで迎え入れることができない場合、「一緒に働こう」って言って、それがたくさんのコラボレーションを設定したんや。

XからGoogleへの移行

君がXで始めた日からGoogle BrainがXを卒業してGoogleに移るまで、2年弱やったと思うけど。その卒業についてどう思った?そろそろ時間やったか、それともエデンの園から追い出されてるような感じやったか、それとも中間の何かやったか?Googleに移る過程はどう感じた?それとも全部Googleやから関係ないって感じやったか?

正直言って、上記全部少しずつやった。Xは当時もそうやし、今もめちゃくちゃ特別な場所や。Xビルで働いてた当時のことを覚えてるけど、俺から10フィート離れたところに、当時はchauffeur、今はWaymoのチームがいて、それから風船に取り組んでるチームがいて、それからglassチームもいて、俺のデスクから数フィート離れたところで、こういうワイルドで探索的で狂気的にエキサイティングなことをやってるチームが全部いたんや。

だからXを卒業するのは卒業として提示されて、次のステップやったし、最終的には俺らがGoogleコアに移ってビジネスにより近くなって、より多くのリソースを得たのは悪いことやなかったと思うで。だから後悔は全くない。それが俺らの成功への準備を助けたと思うで。

でも俺が毎日座ってた場所から数フィート離れたところでクレイジーなことが起こってるワイルドでエキサイティングなXビルを後にするのは、少しほろ苦い思いもあったんや。

チームが移った後に何が変わった?君はそれが移った後にさらに1年半ほどGoogleに残ってたと思うけど。

そうやな。移った後は、1つのこと、つまりニューラルネットワークとスケーリングにより焦点を当てるようになったと思うで。より多くの人らとたむろして、当時のWaymoの初期プロトタイプで無料ライドをもらうのに費やす時間は減ったやろうな。

それから俺らはより、悪い意味で企業的やなくて、良い意味で企業的になったと思うで。brainチームにとって、俺らがGoogleのビジネスにずっと多く繋がったのは助けになったと思うねん。

当時俺が信じてたし、今でも信じてることの1つは、この技術はエキサイティングやし、深いテクノロジーに取り組むべきやけど、孤立してては完全に無用やってことや。価値があるのは、それに対するアプリケーションを見つけた時や。

だから俺らがメインのGoogleビルに移った時、俺らは物理的に重要なアプリケーションチームの多くにずっと近くなったんや。だから俺らが協力できる本当に重要なアプリケーションを構築してるいろんなチームと話すのに1分歩くだけやったんや。

俺は徐々にGoogle brainからCourseraをより日々運営することにシフトしていったんや。俺がスタンフォードで始めた機械学習コース全部、共同創設者のDaphneと俺が日々運営してて、部分的にはGoogle brainが上手くいってて、Jeff Deanに チームのリーダーシップを渡すことができるって俺がめちゃくちゃ自信を持ってたからや。彼は素晴らしいパートナーやった。

対照的にCourseraはめちゃくちゃ初期のもので、ずっと多くの日々のリーダーシップが必要やと感じたから、Jeffと話して、1年ぐらいかけて非常に徐々に俺が彼に手綱を渡していったんや。それも幸い上手くいったと思うで。

君はまだCourseraの取締役やってるんやろ?

そうや、まだ取締役会の議長や。

おめでとう。

ありがとう。

AIの現在と未来

AIと機械学習がどこに向かってるか、君がその後どこに行ったか、今何をしてるかについて少し聞かせてもらいたいわ。

最近は、Astroと君がXを運営するのを見て学んだ初期の教訓を含めて、AI Fundの運営に多くの時間を費やしてるんや。それはベンチャースタジオで、平均して月に約1つの新しいスタートアップを構築してる。

deep learning.aiやCourseraを通じてたくさんのAI教育のことも続けてやってるけど、AIはワイルドにエキサイティングやと思うで。

GoogleみたいなHumanity deserves good translationーファウンデーションモデルの訓練で素晴らしい仕事をしてるんや。最新バージョンのGeminiは本当に、チームが素晴らしい仕事をしたと思うで。これらのファウンデーションモデルの上に構築されるアプリケーションの数にワイルドに興奮してるねん。

毎日仕事に行くと、明確な市場需要があって、人らの生活をより良くする、でもまだ誰も作る時間がなかったクールなアプリケーションがめちゃくちゃたくさんあるって感じやねん。それがめちゃくちゃエキサイティングやと感じてるわ。

月に1つの新しいスタートアップって言ったな。それが君のパイプラインから出てくる率なんか?

そうや。

パイプラインではどのぐらい時間を費やすんや?

アイデアからスタートアップのローンチまで約6ヶ月や。でもその時間の約半分はCEOを雇うまでやねん。CEOを雇ったら、3ヶ月間俺らと一緒に過ごすんや。

3ヶ月後に約75%の卒業率で、25%は俺らか彼らが前に進まないことを決めるけど、基本的にCEOが俺らと3ヶ月間過ごして、俺らがスタートアップをローンチするんや。

AIで変わったことの1つは、プロトタイピングのコストが劇的に下がったってことや。アイデアがあれば、プロトタイプを作ってユーザーに持っていって検証したり反証したりするのがめちゃくちゃ安いねん。反証されても素晴らしい、2日と5000ドルぐらい無駄にしただけやからな。

これが特にアプリケーション層でのイノベーションのペースを本当に上げてるんや。AIを取ってアプリケーションを構築するのと反対に、まだ大規模な10億ドルの予算と大規模なデータセンタービルが必要なAIテクノロジーファウンデーションモデル層とは対照的やな。

俺はそれを、20世紀の終わりまでにコンピュータ産業、インターネット、インフラになったものの基盤層である電気、トランジスタの違いとして考えてるねん。それら全ては深く可能にするものやったけど、その価値を実現するために、その上に構築すべき何万ものことがあったんや。

同じ方法で、ファウンデーションモデル、機械学習、世界中のみんなが利用できるこれらの大きなモデルは電気のようなものや。トランジスタのようなものや。信じられないほどたくさんのことを可能にするけど、それを使って何かをせなあかんのや。

実際、アメリカや他の国の電化を見ると、発電所を作るのは大きな素晴らしいビジネスやった。たくさんの人らが発電所を作った。めちゃくちゃ上手くいった。でも電気を使って作られたものの消費者エレクトロニクス産業やいろんなものを見ると、それは発電所産業よりもずっと大きいんや。

AIでもそうなると思うねん。AIモデルを作るのは巨大になるし、大規模になるけど、その上にたくさんのアプリケーションを構築してやる集合的なもの全体ほど大規模にはならんやろうな。

教育への情熱

人工知能への君の情熱も好きやし、それについてはまた戻ってくるけど、君は教育への情熱も持ってるな。Courseraについて言及してたし、しばらく教授もやってたけど、教育への君の情熱は実際に教えることに費やした時間よりもずっと大きいと思ってるんや。

教育への君の情熱について教えてくれるか?

俺は両親とかに訓練されて育ったと思うねん。俺についてやなくて、いつも他の人らを成功に導くことについてやって実感してるんや。スタンフォードで機械学習を教えてた時、同じ部屋に入って年々同じ講義をして、同じジョークまで言ってたのを覚えてるわ。

しばらくして「これが学生を成功に導く観点から俺の時間の最良の使い方なんか?」って自問したんや。数年かけて、ビデオを録画して誰でもアクセスできるようにオンラインに無料で投稿することを試み始めたんや。

自動採点クイズみたいなものをプロトタイプしたり、Sal KhanのKhan Academyから短いビデオをやるべきやって学んだりした。Courseraの前には、君らが聞いたこともない5つの他のバージョンがあったってことが分かったんや。

20人のユーザーぐらいしかいなかったものもあったけど、それがスケーラブルなオンライン教育プラットフォームを構築する方法について重要な教訓を学ぶことを可能にしてくれたんや。それが上手くいった時、大きな聴衆に訓練を持っていく機会があると感じたんや。だからDaphne Kollerを招いて一緒にやることになって、そこから構築していったんや。

人工知能と機械学習について教えてくれるか。いつそれに情熱を持つようになったんや?そのバグは君にとっていつ、何歳で始まったんや?

高校の時やったのを覚えてるわ。オフィス事務としてインターンシップをしてて、めちゃくちゃたくさんのコピーを取ることをやったのを覚えてる。

俺の好みやなかったし、正直退屈やった。10代の頃に「このコピー取り全部を俺のためにやってくれる何らかの自動化があればなあ。もっと楽しいことができるのに」って考えてたのを覚えてるわ。

だからめちゃくちゃ若い頃から自動化と、それがどう人らの時間を自由にできるかについて本当に興奮してたんや。医者やった俺の父が、当時医療診断のためのめちゃくちゃ初歩的なAIアルゴリズムを実験してたっていう幸運もあった。

だからオフィス事務としてやらなあかんコピー取りの量への俺の嫌悪感と、10代の頃にニューラルネットワークについて学んだことで、それ以来俺はステロイド自動化の形としてのAIに情熱を持ってるんや。

AIの未来予測

君が持ってたビジョンについて話し始めた時から、当時は文字通り人らが立ち上がって君に怒鳴ってたけど、人工知能と機械学習に関して、人類にとって来るであろうもので、人らがまだはっきりと見えてないものについて君はどう思うか?

何らかの非生産的なAGI会話に君を引き込もうとしてるんやなくて、世界が10年後にどうなってるかについて、リスナーを驚かせるかもしれん君の考えを聞きたいんや。

俺が見たい1つのことがあるんや。みんながコーディングを学ぶか、このAIアシストされた新しいスタイルのコーディングを学ぶのを見たいねん。理由は、俺の職業人生では明らかにたくさんのコーディングをやるけど、個人的な人生では子どもらのためのアプリケーションを書くんや。数週間前、1週間前に娘が掛け算表を練習するためのフラッシュカードを印刷するアプリケーションを書いてたんや。

カスタムプロンプトを呼び出して、トピックについて俺と話してくれる新しいプロトタイプを作るのに1日もかからんかった。でも以前は作るのに何週間も何ヶ月もかかってたこれらのプロトタイプの多くが、今では数時間、もしかしたら1日もかからずに作れるようになったんや。AIが君のためにコードを書いてくれるから、そんなにたくさんのコードを書く必要がないんや。

ソフトウェアエンジニアリングへの需要は大規模やねん。俺らの多くがもっとたくさんのプログラムを書いてほしいと思ってるけど、ただ高すぎるんや。アメリカの50州のうち4州だけが、高校卒業証書を取るために何らかのコンピューティング教育を本当に要求してると思うねん。

いつか50州中50州になったらええなって願ってるわ。なぜなら、みんながコンピュータを使って物を作る方法を学ぶことができれば、コンピュータのただのユーザーやなくて、コンピュータと一緒に構築することができれば、すべての人間がずっと強力になれると思うからや。

今後の最も重要なスキルの1つは、コンピュータに君がやりたいことをやらせる能力になるってことが分かったんや。コンピュータはどんどん強力になってるし、俺らが全ての子どもらに新しい方法のコーディングを教える世界は、次の世代を現在よりもずっと強力にするって感じてるねん。

アメリカ以外、おそらく大きな先進国以外でも、AIは世界により一般的にどう影響すると思うか?

俺はAIがめちゃくちゃ大きな民主化効果を持つことを願ってるし期待してるねん。今の世の中で最も高価なもののひとつが知性やからな。

めちゃくちゃ熟練した専門医に何が起こってるかを教えてもらったり、君の子どもをマンツーマンで指導してもらうために高度に熟練した家庭教師を雇ったりするのにはめちゃくちゃお金がかかるんや。

人間の知性を安くする道筋は俺には見えへん。熟練した人間を訓練するのにはめちゃくちゃお金がかかる。でも人工知能を安くする道筋はあるんや。

これが意味するのは、今日は比較的裕福な人らだけが特定のタイプのスタッフを雇って特定のタイプのことをやってもらえるってことや。でも将来は、全ての人がめちゃくちゃたくさんのことを俺らのためにやってくれる賢くて博識なスタッフの軍団を持てるようになったらええなって思ってるねん。

彼らの健康アドバイザーとか家庭教師とか、そういうもんやな。

そうや。俺が思うに、今日は比較的裕福な人らだけが利用できるスタッフの軍団をみんなに与えることは、めちゃくちゃたくさんの人らを引き上げることになるやろうな。

AIの定義と哲学

これは少し皮肉も込めてるけど、長年の実践者として俺がずっと感じてきたことを聞きたいねん。君も明らかにそうやけど、AIは伝統的にこの種の後退する境界線やったんや。物事が機能し始めて俺らの日常生活の一部になると、俺らはそれを人工知能と呼ぶのをやめるねん。

だから俺の好きなAIの実用的定義は「コンピュータが映画でやること」やねん。ある意味では完全に不公平やけど、コンピュータが人よりもチェスが上手くなり始めた瞬間を覚えてるやろ。

突然それは定義上もう知性としてカウントされへんようになったんや。コンピュータが人より上手かったからな。俺は「それやったら知性のあまり有用やない定義やな」って思ったんや。

君やったら人工知能をどう定義するか?

AIの成功に貢献したことの1つは、一方では常に遠くにあるように感じることもあるけど、俺らの分野に入ってきてAIと呼びたい人は誰でも受け入れるってことやったと思うねん。

だから俺自身は、誰かがコンピュータに何らかの知性の兆候を示させる何かをやってて、それをAIと呼びたいなら俺は構へん、君に同意するよって感じやねん。俺らがかなり受け入れる態度を取ってることが分かるわ。君の仕事をAIと呼びたいなら、オッケー、「いや、それは本当のAIやない」って言い回る俺らが多すぎるんやなくてな。それが俺らの分野を成長させ続けることを可能にしてるんや。

それを基盤にして言うなら、人がそういうことをした場合、俺らがその行動を知的と呼ぶ程度に、俺らはそれをAIと呼ぶやろうな。

そうやな。

批判は、非常に単純なプログラムがif文を使って単純な決定を下すのは知性やし、それは本当に人工知能なんかっていうことやけど、もしそれが知的やと思うならAIと呼んでくれ、俺は完全にそれを支持するって言いたいねん。

分野が、俺らの仲間やない、俺らの仲間やないって言って過度に防御的になるんやなくて、効果的なものは何でも受け入れる時により成功する傾向があると思うで。AIはそれを避けてきたと思うねん。

同感や、同感やで。

Google Brainの猫論文

ある意味でのGoogle BrainのX時代の頂点は、猫と猫動画についてニューヨーク・タイムズでかなりのファンファーレと共に発表された論文やったな。それにつながったこと、具体的に何がハイライトされてたかについて少し教えてくれるか?これはGoogle Brainのカミングアウトモーメントやったからな。

Google Brainを発表したのは、その今ではちょっと悪名高いGoogle猫論文を通してやったんや。

学習するのに十分なデータを得るために、ラベルのないデータから学習したいっていうアイデアがあったんや。ラベル付きデータっていうのは、誰かが写真を見て「これは犬、これは猫、これは人」って言うってことや。それはめちゃくちゃ労働集約的なラベルやねん。

でも俺らはラベルのないデータから学習したかったんや。具体的には、めちゃくちゃ大きなニューラルネットワークを構築したんや。おそらく当時世界最大やったと思うけど、YouTubeに行ってめちゃくちゃたくさんのYouTube動画を見て、YouTubeの写真から何が学べるかを見るんや。

当時俺のスタンフォードのPhD学生でGoogle brainチームのインターンやったQuoc Leが、ある日俺を呼んで「Andrew、俺のコンピュータにあるものを見てくれ」って言ったのを覚えてるわ。

俺が歩いて行って、彼が俺に見せてくれたのは、YouTube動画を見ることでアルゴリズムが全部自分で発見した、少しぼやけた白黒の猫の幽霊のような写真やった。YouTubeには定型的にたくさんの猫動画があるからな。

でも人間の介入なしに、猫っていうものが存在するってことを伝えることもなしに、アルゴリズムがたくさんのデータを見るだけで猫の顔を「発見」したっていう事実。それは信じられないブレークスルーの瞬間やった。

AIと労働の未来

君の結構有名な引用があるんや。AIと仕事について、それを信じるに至った経緯と、人類が人工知能と最も良く協力していく方法について君がどう考えるかの引用をシェアしてもらいたいねん。

すべての知識労働者が今AIから大幅な生産性向上を得ることができると思うけど、AIはまだほとんどの人ができることのすべてを自動化するには程遠いねん。それが意味するのは、AIが人を置き換えるんやなくて、AIを使う人がAIを使わない人を置き換えるやろうってことや。

これは俺の友人Kurt Langlotzが最初に放射線科医について言ったことのパラフレーズやけど、より一般的に、今日ほとんどの役割で、Googleサーチの仕方を知らない従業員を雇うことは想像できへん。

知識経済でGoogleで検索する方法を知らないなんて、ただ奇妙やからな。将来は、ほとんどの役割で、AIを本当に効果的な方法で使う方法を知らない人は誰も雇わんやろうと思うねん。

完全にその通りやな。でもそう言うても、給料は時間をかけて生産性に調整されることが多いってことが分かってるんや。

だからAIは人らをずっと生産的にするし、だからたくさんの人らが実際にAIの使い手になることで経済的にずっと良くなって、ずっと多くの給料をもらうようになると思うねん。

そうやな、同感や。興奮して希望的になれることがたくさんあるな。

Xでの経験と教訓

Xでの時間からの楽しい話や、ムーンショットを成功裏に推進するために必要なことについての教訓はあるか?

君とSebastianのリーダーシップの下でのXの初期の頃に本当に貴重で珍しかったことの1つは、アイデアの相互受粉やったんや。ある日Waymoチームの誰かがやってきて「Andrew、ドライバーレスカーに乗ってみない?」って言って、「もちろん」って言ったのを覚えてるわ。

それで初期のWaymoプロトタイプの1つに飛び乗って、ドライバーレスカーでダウンタウンのMountain Viewを運転して回ったんや。そのオープンさとアイデア共有の度合い、ただ変なことをやりたがる意欲、その一部は本当に素晴らしく上手くいったんやけど、それは本当に珍しくて貴重やねん。

そうやな。ありがとう。それは確実に双方向に行ったと思うで。君はWaymo、その乗車からインスピレーションやアイデアを得たやろうけど、反対方向にも行ったことを保証するわ。

今日に早送りすると、Waymoは彼らがやることの多くに大きなファウンデーションモデルを使ってるからな。だからその相互受粉は文字通り相互やねん。双方向に行って、両方の当事者を助けるんや。

そうやな。みんなが当時も、今でも確実にそうやと思うけど、重要な仕事をやってるって感じてたのが本当に好きやった。退屈なことをやるために現れるんやなくてな。

実際Larryが回って、君がやってることが君の最もワイルドな夢を超えて成功したら、誰か気にするか?って人らに聞いて回ってたのを覚えてるわ。明らかな含意は、「はい」って答えられる何かに取り組めってことやった。

それは本当に良い感じやったで。当時でさえ、Xのあらゆるところで人らが上手くいかないかもしれんけど、上手くいったらめちゃくちゃたくさんの人らが気にかけるって感じてたことは。

そうや、その通りや。俺が個人的に強迫的になりがちなことを1つシェアしたいねん。それはスピードやねん。イノベーションしてる時は、定義上、君は本当に自分が何をやってるか分からんし、本当に素早く実行して、たくさんの違うことを試す能力が成功への重要な要素やと思うからな。

俺が見つけるのは、仕事のためのインタビューをする時はみんな速く動く方法を知ってるって言うけど、人らが実行するペースには劇的な違いがあるってことや。簡単に10倍、もしかしたら100倍の違いがあるねん。

15分の会話をして決定を下すリーダーと話したことがあるわ。似たような状況で「これを3ヶ月間研究しよう、3ヶ月後に再集合しよう」って言うリーダーとも話したことがある。そういう劇的な違いがあるんや。

イノベーションの鍵の一部は、大企業のGoogleにとって、1人のランダムなエンジニアがGoogleのウェブサイトをダウンさせるようなことをするのは受け入れられへんってことやと思うねん。でもXは大部分において安全な環境を作ることで、俺らはGoogle Brainで何でもやりたいことができたんや。

俺が間違ってGoogleウェブサーチをダウンさせるリスクはなかった。そうする権限がなかったからな。それが俺らを本当に素早く動かして、いろんなことを試すことを可能にしたんや。

母船をダウンさせるようなクレイジーなことを誰もできないようにするガードレールのサンドボックス化と、その組み合わせが作るのは難しいと思うで。Xはそれをやり遂げたと思うねん。

ありがとう、Andrew。同感や。俺の同じマントラのバージョンは、学習ループの緊密さやねん。俺らが偉大さに到達するのにどのぐらい時間がかかるか、間違った道にいることを理解するのにどのぐらい時間がかかるかは気にせえへん。

俺が気にするのは、仮説と俺らが評価できる結果の間の時間の長さやねん。それが1時間か1ヶ月かかるかで、後者の場合は前者に比べて違う宇宙にいるようなもんやからな。

よく言ったな。たくさんのイノベーションは学習についてやねん。もし知ってたら、全体を1週間で再構築できたやろうからな。だから何を構築するか、どう構築するかを理解することについてなんや。

その通りや。その通りや。よく言ったな。

素晴らしかった。俺と一緒にこれをやってくれてありがとう、Andrew。

ありがとう、Astro。

コメント

タイトルとURLをコピーしました