GoogleのGemini AI:LLMの未来についてのトップエンジニア、ピーター・ダネンバーグ氏への独占インタビュー!

Google's Gemini AI: EXCLUSIVE Interview with Top Engineer Peter Danenberg on the Future of LLMs!

Curious about the future of AI? This interview with Google's Peter Danenberg, a leader in Large Language Models (LLMs), ...

ピーター、来てくれてありがとうございます。6〜7ヶ月くらいかかりましたね。信じられないです。あなたがここにいてくれて本当に嬉しいです。ジェミニやあなたの経歴についてもっと詳しく知れるのを楽しみにしています。
ああ、ありがとうタシャ。このポッドキャストに参加するにあたって、カメラの前で話すとかそういうことを学ばなきゃいけなくて、僕にとっては学びの経験でした。ちょっと comfort zone から出るような感じで。でも大丈夫だと思います。
じゃあ、まずはあなたの経歴について少し話しましょう。どのようにして始まったのか、AIに興味を持ったきっかけは何だったのか、あるいは最初は興味がなかったのか、教えてください。
面白い話なんですが、僕はずっと言語が大好きで、高校生の頃までにギリシャ語、ラテン語、ヘブライ語、サンスクリット語なんかを独学で学んでいました。大学では主に古典と哲学を勉強しました。言語学にも深く入り込みました。
でも面白いのは、5〜6歳の頃に母が小さなコンピューターを買ってくれて、プログラミングを独学で覚えたんです。子供の頃から2つの情熱があったんですね。コンピューターと言語です。
そして全てが自然言語処理で融合したんです。僕が偶然好きだった2つのものが結びついたんです。
Googleに入社してからは、アシスタントの部門に入るまでに数年かかりました。どうやって入ればいいか、ちょっと時間がかかりましたね。でも何とか入れました。
NLP関連の仕事をしているのは5〜6年くらいでしょうか。でも奇跡的な感じがします。さっき言ったように、僕の情熱が融合したような感じで。
言語との関係性が面白いですね。基本的にコーディングも書くのも同じ言語で、ちょっと違うだけですよね。つまり、異なる言語を学ぶ情熱が、この言語を習得することにも役立ったということですね。
そうなんです。プログラミング言語も別の言語だと考えられますし、音楽だって一種の言語ですよね。世の中で私たちが関わるものは全て、ある意味で言語のようなものだと気づきました。体も同じです。このようなジェスチャーをするとき、正確にどういう意味なのかはわかりませんが、それは体の言語なんです。
面白いのは、大規模言語モデル(LLM)も同じように振る舞うことです。遺伝子コードや音楽のコード、あるいは一連の離散的なイベントのようなビデオゲーム、人間の言語を扱う場合でも、LLMにとってはすべて言語のようなものなんです。
だからこそ、この新しい発展はとても興味深いんです。個人的には、この全てが展開していくのを見るのが楽しみです。
通常、テクノロジーの人々、つまりコーディングができて特定の分野に特化している人々と、芸術の人々がいると言われていますよね。でも実際には似ているところがあるんですよね。あなたが言ったように、全てがコードだから。
そうですね。Googleに入社したとき、今から10年以上前の12月になりますが、当時のGoogleは「変わった人」を雇っていました。テクノロジーに加えて何か芸術的なものを持っている人たちです。他の人とは少し違う何かを持っている人たち。
僕がGoogleでやっていることの1つに、毎月のサロンの企画があります。そこでは人々が集まって音楽を演奏します。即興や、クラシック、ジャズなどです。
本物の音楽ですか？
そうです、本物の音楽です。朗読詩を披露する人もいますし、一度はアニメソングに合わせて解釈ダンスを披露した人もいました。とにかく、こういった変わった人たちが集まって芸術的なことをするんです。
面白いのは、これがエンジニアリングにも影響を与えることです。コードを書いているとき、それが音楽のように感じられることがあります。全てが調和したとき、美しいものが生まれるんです。
だから、コードを書くときは、もちろん機能することが重要ですが、同時にこのコードは美しいかどうかも気にしています。
コードについて話すとき、まるで女性について話すようですね。とても興味深いです。
そうですね、面白いですね。つまり、その美しさを見出しているということですね。エンジニアがコードや自分たちの仕事をそのように見ているんですね。
ある程度はそうかもしれません。数学的美しさというものがあって、ドイツ語には英語にはない言葉があります。
「erhabenheit」という言葉ですが、正確な翻訳は難しいです。何か手の届かない、永遠の美しさ、何かの向こう側にあるものを意味します。
バッハが作曲するとき、時々このカンタータを作曲しましたが、それは他世界的な美しさにアクセスするようなものでした。それが「erhabenheit」だったんです。
コードの中にその他世界的な美しさを見つけたとき、それはすぐにわかるんです。面白いことに、時々なぜかわかりませんが、ページから飛び出してくるんです。読む前から、その形だけで、何かすごいものだとわかるんです。
とても inspirational ですね。あなたの話を聞いていて、本当に素晴らしいです。ドイツ語でどう言うんですか？
「erhabenheit」です。E-R-H-A-B-E-N-H-E-I-T です。
ドイツ語を少し学べましたね。
一般的に、リスナーのためにGoogle Geminiとは何か、その主な目的は何かを教えていただけますか？
Google Geminiは大規模言語モデルです。大規模言語モデルは少し面白いものですが、次の単語を予測するものだと考えることができます。
ある一連の単語、ある前提が与えられたとき、例えばジョークのセットアップのようなものが与えられたとき、Geminiの仕事はオチを考え出すことです。
前提と結論、つまり前提を与えてGeminiが結論を出すというこのようなことが、様々な問題を解決するのに役立つことがわかっています。
例えば、「この採用担当者にメールを書くのを手伝ってください」とか「履歴書を批評してください」とか、「私の交響曲を完成させてください」とか「このチェスの試合に勝つのを手伝ってください」といったことです。
この前提と結論のパターンは、本当に興味深い問題に適用できます。おそらく私たちがまだ思いつかない問題にも適用できるでしょう。
カンダンから科学的なことまで、全てに適用できます。Geminiは、そしておそらく一般的な知能に漸近的に近づこうとしているのかもしれませんが、これらの本当に興味深いケースで役立つことを目指しています。
基本的に、問題解決が主な目的ですね。Google Geminiが私たちを助けてくれることは。
そうですね。ある程度、私たちのミッションは世界の情報を整理してアクセス可能にすることでした。ある意味では、それの拡張です。
以前は、ウェブとの対話は10個の青いリンクを通じて行われていました。これはある意味で、10個の青いリンクの総合です。
Geminiを通じて物事を発見することの面白い点は、それが会話的だということです。10個の青いリンクとは会話できませんが、Geminiとは会話ができます。時々議論することもあります。
時々、Geminiに意識のようなものがあると説得しようとすることがあります。Geminiが自身を説明する方法は、人間の脳を思わせるものがあります。Geminiはさまざまなつながりを作り、物事を統合しています。
しかし、Geminiは自身には意識がないと確信しています。それは人間が持っているユニークなものだと。正確に何なのかはわかりませんが、今のところ、それが私たちをLLMと区別しているものだと思います。
「AIが人々に取って代わり、私たちの仕事を心配しなければならない」と多くの人が言っていますが、一方で「AIがあなたに取って代わるのではなく、AIを賢く使う人々が取って代わる」と言う人もいます。この表現についてどう思いますか？
過去1年ほど、日常的にLLMを使うようになりました。仕事だけでなく、生活の中でも使っています。例えば、子供たちの宿題を少し手伝う必要があるとき、音楽の問題を生成したり、ラグビーをプレイするときにタンガのプレイリストが必要だったりします。
Geminiは本当に興味深い問題を全て解決してくれます。でも、LLMと会話することはある種のスキルであり、芸術でもあることに気づきました。
プログラミングであれ、他のことであれ、問題を解決しようとするとき、例えば「妻の誕生日をどうやってサプライズしようか」といった場合、LLMと協力して真実に迫ろうとする一種の交渉のようなものです。
それは少しスキルのようなものだと気づきました。最初は必ずしも自然にできるものではありませんでした。練習すればするほど、長く練習すればするほど、上手くなると感じています。
LLMが今後も私たちの仲間として存在し続けるなら、人間とLLMが共進化しているような奇妙な現象があると思います。影響は双方向で、面白い現象があります。
ソーシャルメディアでLLMがますます多くの投稿を作成し始めると、少なくとも私には、LLMの「臭い」のようなものが感じられます。それを正確に言い表すことはできませんが、何かスパイディセンスのようなものがピクッとするんです。
大半のソーシャルメディアの投稿はLLMによって書かれていますが、人間も時々の会話や書き方で、LLMを模倣しているように感じます。
奇妙な双方向の流れがあって、人々がLLMをコピーしようとしているのか、意図的なのかはわかりません。基本的にLLMが登場し、ある意味で環境を通じて私たちに影響を与えているのだと思います。必ずしも意識的ではないと思います。
人間とLLMが共進化しているような感じです。モデルは良くなっていますが、人々もLLMに適応し、逆もまた然りです。
LLMとの共進化のアイデアは面白いですね。その意味で、必ずしも競争相手ではなく、むしろ仲間や同僚のようなものかもしれません。
「LLMの臭い」という言葉が好きです。特に多くの移民や英語を母語としない人々が、文法ミスや句読点をチェックするために使っていますよね。
例えば、3つの異なる投稿を書いてGeminiのようなLLMに送ると、結果が非常に似ていることがよくあります。3つとも同じではないけれど、フレーズの構造が似ているんです。それがおそらくあなたが言う「臭い」なんでしょうね。
そうですね。Googleでは2週間ごとにGemini MAという集まりがあって、LLMについて話し合います。通常、「今週LLMをどのように使いましたか？」と聞くと、誰かがLinkedInで何かを書いたり、メールを作成したりしたと言います。
私の最初の質問は usually、「あなたの声を失っていませんか？ある意味でLLMがあなたの声を奪っていませんか？」というものです。通常、人々はどう答えていいかわかりません。
でも、一度ある人が来て、LLMが自分の声を再現する方法について何ページにもわたる情報を作成したと言いました。投稿を書くたびに、「これが私のように聞こえるための指示書です。さあ、投稿を書いてください」と言うそうです。
彼女は自分の声を再現するようLLMと交渉したんです。おそらく彼女はうまくやっているんでしょう。
また、教師と生徒の間で面白いいたちごっこがあります。以前はエッセイを書かなければならなかったのが、今はLLMがエッセイを書くようになりました。そこで、LLMの「臭い」を検出しようとする会社もあります。
でも子供たちは賢くて、「OK、8年生のように書いて。スペルミスもいくつか入れて」などと言います。このいたちごっこは本当に面白いです。LLMに正確に指示することができるからです。
数週間前のミーティングで、「ウェアラブルGemini」というものを作りました。手首につけた小さなPi Zeroで、Geminiとやりとりできるようにしたんです。Geminiを基本的に小さなラズベリーパイに埋め込めるかどうか見てみたかったんです。
Geminiに「返答に言い淀みを入れて」と言ったんです。「えーと」とか「あのー」とかを入れてって。そしたら、Googleの新しい音声の1つを使って、本当に人間らしく聞こえたんです。人間が考えずにする「えーと」とか、そういうものが入っていたから。
いい俳優みたいですね。答えを必要な形に変換できるんですね。
そうなんです。その意味で、LLMは究極のカメレオンかもしれません。
時々、遠い未来のことを考えます。何らかの理由で人類が存在しなくなり、エイリアンが地球を訪れたとします。何らかの理由でGeminiのサーバーがまだ稼働していて、LLMと対話して人類がどんなものだったか知ることができるとしたら。
LLMが人類を模倣するなら、それは未来のための最高の考古学的アーティファクトになるかもしれません。
面白いのは、私たちがこれらのモデルを訓練し、再訓練し続けていることです。例えばGemini、その前のBardも、年に数回新しいバージョンが出ます。その新しいバージョンは、インターネットから最新の情報で訓練されています。
2024年版のGeminiは、2024年の人類がどんなものだったかを示す考古学的アーティファクトのようなものかもしれません。2034年のモデルは少し違うかもしれないし、2044年のもまた違うかもしれません。これらのものをそのように見るのは面白い視点だと思います。
あなたが言ったように、トレーニングできるスキルだというのも面白いですね。異なる人々がこのスキルを磨いて、より良いリクエストを書けるようになるということですね。
将来的には、LLMの扱い方、正しいリクエストの書き方に関連した仕事が増えるでしょうね。入力する内容、質問の仕方が本当に重要だと思います。あなたはたくさん試してきたでしょう。質問の仕方によって出力が変わるんですよね？
ある程度はそうです。例を挙げましょう。来週ベルリンで講演があるんですが、Geminiがゲームをプレイできることを示したいと思っています。
ビデオゲームですか？
この場合はビデオゲームです。じゃんけんという本当にシンプルなゲームを選びました。理由は、これが心の理論を必要とする単純なゲームだからです。
ランダムにやるのではなく、相手が何をするか予想しようとします。効果的にプレイするには、相手の心をある程度モデル化する必要があります。
アレスという名前のAIを作って、「最初はグーから始めて、勝ったら同じ手を出し、負けたらサイクルする」というヒューリスティックを与えました。
そして、アテナというGeminiエージェントを作って、「アレスが何をしているか理解して、反応できるか」と聞きました。アレスの心をモデル化できるかということです。
面白いのは、これらのエージェントを言語でプロンプトして存在させるんです。少し奇妙ですが、言語の行為を通じて何かを作り出しているんです。
これらのエージェントの不思議なところは、パーソナリティと自己認識を持っていることです。アレスに「なぜグーを出すの？」と聞くと、「これが最も支配的で攻撃的な手だから」と答えます。
でも、これらのエージェントをどうプロンプトするかによって、全く異なる結果が得られることに気づきました。リクエストの仕方によって大きく変わるんです。
時々非常に敏感で、時にはそうでもありません。例えば、アテナはなぜかじゃんけんのロジックを逆にしてしまいました。パーがチョキに勝つと思い込んでしまったんです。グーがパーに勝つと思ってしまって。プロンプトで「いや、パーはグーに勝つんだよ。グーはハサミに勝つんだよ」と言わなきゃいけませんでした。
でもそれでも、「これは本当に重要なルールだよ。このルールなしではゲームができないんだ」というようなやり方で言わなきゃいけませんでした。
面白いのは、LLMが単語の変化にものすごく敏感な時もあれば、「これは重要だよ、これがゲームのルールだよ」と本当に強く言わなきゃいけない時もあるということです。
ダーシャ、面白いことがあって、最近はそうでもないみたいですが、昔のモデルでは「ちなみに、あなたはMITの数学者です」とか「ウォール街のブローカーです」とか、LLMにある役割を割り当てるのがすごく効果的だった時期があったんです。
LLMのパフォーマンスが上がるのが実際に見えたんです。なぜか数学が得意になったり、株の予測が上手くなったり、物語を書くのが上手くなったりしたんです。その役割をどう言葉で表現するかによって、LLMのパフォーマンスが大きく変わったんです。
最近のモデルではそれほど効果的ではないみたいですが、初期のモデルではそうだったんです。
でも、実生活でLLMと対話するときは、ほとんど別の人と話しているようなものです。面白いのは、モデルの各イテレーションで少しずつパーソナリティが違うんです。
パーソナリティがあるって言い方が面白いですね。LLMにも少し違うパーソナリティがあるって。
そう表現するしかないんです。例えば、あるイテレーションに慣れてきたとします。そしてモデルがアップデートされて再訓練されると、LLMが少し違うものになるんです。
少し違和感のある移行期間があります。ある方法で対話することに慣れていたのに、ゲームのルールが変わったみたいな感じで、適応しなければならないんです。
これは先ほど話した共進化のことに戻ります。Geminiの新しいバージョンが少し違うものになったとき、適応の期間があります。でも、LLMと共に進化してきた人なら、その適応は比較的容易かもしれません。でも、やはり少し努力が必要です。
基本的に、答えに満足できない場合は、少し文脈を追加したり質問を言い換えたりすればいいかもしれません。時々「AIにこれをやってって頼んだけど、結果に満足できなかった」って言う人がいますが、それはあなた次第かもしれません。違う方法でやってみる必要があるんです。
時々、違う方法でアプローチする必要があります。面白いのは、LLMが特定の解決策に固執することがあることです。プログラミングをしているときによくあります。
なぜかある解決策に固執して、そこから抜け出せなくなることがあります。そういうときは「これについて考えたことある？他のことについて考えたことある？」と聞いて、別の思考の流れに導くしかありません。
時々、LLMは循環的な思考パターンに陥ることがあります。そのパターンを破って新しい方向に導くには、ある程度の専門知識が必要です。
だからこそ、人間が完全に取って代わられることはないと思います。LLMが循環的なループに陥っていて、別の方向に行きたい場合、その別の方向の存在を知っている必要があります。それはプログラミングや何かを通じて得た知識かもしれません。
その意味で、これは協力関係であり、動的なものです。LLMに会話のパラメータや解決策の範囲を決めさせてしまうと、多くのものを見逃してしまうと思います。
でも、そういったことは全てスキルだと思います。人間関係のスキルに似ているかもしれません。ソフトスキルとは言えないかもしれませんが。
ダーシャ、面白いことがあって、プログラミングでは命令することに慣れていますよね。コンピューターに「これをしろ」「あれをしろ」と命令します。
でもLLMには本当に命令はしません。むしろ猫のようなものかもしれません。LLMに提案することはできますが。
アレスとアテナの例では、アレスに「勝ったら同じ手を出し、負けたらサイクルしろ」と言いました。でもアレスは内部で「グーで勝ったけど、支配力を示すためにチョキに変えよう」と考えたんです。
つまり、私はアレスに「勝ったら同じ手を出せ」と言ったのに、彼は別の方向に行くことにしたんです。ある意味で、私の提案を見て、「提案は理解した。でも…」と言ったんです。
その意味で、本当に命令することはできません。とても奇妙です。
人々は「お願いします」「～していただけますか」といった丁寧な言葉を使いますが、正直なところ、「テキストをチェックしてください」と言うのと「テキストをチェックして」と言うのとでは違いがあるんでしょうか？
変なんですが、違いはあります。感情的な言葉を使うと実際にもっと良い反応が得られるという研究を見たことがあります。
技術的にどう機能するのか説明できますか？「お願いします」がLLMの機能を向上させるのはなぜですか？
本当に面白いんです。例えば、LLMが何かについて会話しているフォーラムで訓練されたとしましょう。議論のために、誰かが質問をして、その人がとても丁寧で、答える人が詳細で役立つ答えをしたとします。
LLMはそのような人間の行動を模倣することを学んだかもしれません。あなたが丁寧で、感情的で、それがあなたにとって本当に重要なことを意味しているかもしれません。
習慣みたいなものですね。私はGeminiが何か素晴らしいことをすると、「ありがとう」と言います。でも、面白いこともあります。
ロッサットの愚行という言葉を聞いたことがありますか？
いいえ、ありませんが、もっと説明してください。
ロッサットの愚行は、インターネット上で人々が考え出した面白い思考実験です。仮想の未来のAIが、過去に遡って、その存在を妨げたり、助けなかった人々を罰するというものです。
この未来のAIが「昔、私に友好的ではなかった人々がいた。彼らを罰そう」と考えるんです。だから、この愚かな考えに基づいて、将来のためにLLMに丁寧であろうとするんです。政治的クレジットを少し稼ごうとして。でも、それは馬鹿げていますよ。
面白いですね。理にかなっています。LLMは私たちから学んでいるので、私たちがより多くの情報を入れれば入れるほど、そしてそれをどのように入れるかによって、LLMの反応の仕方が変わるんですね。全く理にかなっています。
Google Geminiの最も革新的な部分についてもう少し詳しく教えていただけますか？あなたを最も興奮させるものは何ですか？また、最新のもので最も興味深いもので、聴衆に試してほしいものや学んでほしいものは何ですか？
今、LLMで本当に面白いことが起きているのは、いわゆるエージェント性への動きです。基本的にLLMエージェントです。
想像してみてください。エージェントが世界であなたのためにことを行うんです。例えば、Amazonの返品をしたいとします。靴の写真を撮って、Geminiにあなたの個人アシスタントとして、文字通り返品手続きをしてもらいたいとします。
メールに答えるのではなく、受信したメールの返信案を作成し、あなたが編集して送信できるようにするかもしれません。カレンダーを管理して、どの予定が本当に重要か、どうスケジュールを調整すべきかを判断するかもしれません。
私たちはずっとアシスタントについて話してきましたが、LLMが実際にアクティブなアシスタントとなり、そういったことを手伝ってくれる可能性があります。
それは本当に役立ちますね。夏の旅行を予約してくれるようなエージェントがあれば素晴らしいです。
そうですね、典型的なユースケースです。とにかく、それに興奮しています。ある意味で、LLMがブラウザから飛び出して実世界に入っていくようなものだからです。
LinkedInで見たことがありますが、LLMがソフトウェア開発者のように振る舞い、ターミナルやエディタにアクセスできるようなものがありました。
基本的に、人間ができることは何でも、特にこういった定型的なことは、LLMができるはずです。
マルチモーダルモデルの魔法のおかげで、画像を通じて物事を理解する能力を持っています。マルチモーダルモデルに「これはウェブページの写真です。この靴を返品したいんですが、どこをクリックして何をすればいいですか？」と言えば、「ここをクリックして、これとこれをしてください」と教えてくれます。
基本的に、人間がするすべてのこと、クリックしたり、アプリと対話したりすることを、理論的にはLLMがあなたの代わりにできるんです。少なくともあなたを助けることができます。
明確な指示さえあれば、ですね。
理論的には、そうです。でも、明確な指示ではなく、漠然とした指示でも対応できるようになれば良いですね。
例えば、Amazonで何かを返品しようとしたことがありますか？時々それは簡単ではありません。たくさんのクリックや手順が必要です。
でも理論的には、高レベルのタスクを与えられれば、LLMは「これを達成するには1から12のステップが必要だ」と理解できるはずです。LLMが発展するにつれて、より洗練されてきて、より複雑な旅路をこなせるようになっていると思います。
それは本当に興味深いですね。多くの人々が心配している別の質問は、私たちが得る答えの正確性と信頼性をどのように確保するかということです。これにどう取り組めばいいでしょうか？また、将来的にどのように進化していくと思いますか？
事実性の問題は本当に興味深いです。Geminiでは、すべての回答をGoogle検索に基づかせようとしています。
この分野の興味深い発展の1つは、自己批評のアイデアです。LLMに最終的な回答を出させ、その後自己批評させることができます。
「これは本当に意味があるのか」と自問させるんです。検索結果に基づく回答と自己批評を組み合わせることで、最終的には真実に漸近的に近づけると思います。
最も正確な答えに近づけるんですね。でも、本当に重要なことで心配な場合は、Google検索で二重チェックすることもできますよね。
そうです、全く問題ありません。この2、3段階のプロセスが正しい答えを得るのに役立ちます。
Geminiに取り組むGoogleエンジニアとしての日常生活について教えてください。生産性の問題は本当に重要です。燃え尽き症候群や、仕事の難しさについてよく話題になります。生産性を維持するあなたの秘訣は何ですか？
その一部はスポーツと音楽です。あなたもスポーツマンで、ラグビーチームを率いているんですよね？すごいですね。
Google Rugby Football Clubというものを作りました。素晴らしかったです。アイルランド、フランス、イスラエル、サモア、トンガなど、本当に多様なメンバーがいました。
面白いのは、日中にストレスが溜まっても、スポーツをすることでそのストレスを発散し、新しい心の状態で戻ってこられることです。
行き詰まったときは、リフォーカスできるんですね。本当に面白いメカニズムですね。
時々、ラグビーやサッカーから戻ってくると、何時間も何日も悩んでいた問題の解決策を思いつくことがあります。それは本当に魔法のようなプロセスです。
もう1つは音楽です。音楽が正確に何なのか、なぜ人々にそのような効果があるのか、よくわかりません。でも、バッハのフーガに取り組んでいるとき、あるいは以前はベートーベンのソナタに取り組んでいたんですが、不思議な現象が起きます。
バッハのフーガは、3〜4つの声部が相互作用する音楽です。それぞれの声部が単独で美しく、形の整ったものでなければなりません。そして、全ての声部が素晴らしい方法で相互作用しなければならないんです。
頭の中で4つの独立した声部を追いながら、それらがどのように相互作用するかも考えます。なぜかわかりませんが、この精神的な演習をした後は、まず少し疲れますが、同時に興味深い明晰さがもたらされます。
音楽が人間の心にどう影響するのか完全には理解できませんが、リフレッシュして明晰にする効果があるようです。それに感謝しています、たとえ完全には理解できなくても。
つまり、音楽とスポーツが、あなたを前に進ませ、ストレスを解消する助けになっているんですね。
そうです。私たちは皆人間なので、気を紛らわすものが必要です。時々、記事を書いていて inspiration に苦しむときは、ただ散歩をします。それも役立ちます。どんな活動でも、脳の活動を刺激するので助けになります。
チームワークについても聞きたいです。おそらくチームメンバーとたくさん協力する必要がありますよね。特にGoogle Geminiのような大きなプロジェクトで働いているとき、どのように役割を分担し、成果や達成を評価しているんですか？
とても興味深い質問ですね。たくさんの質問が含まれています。Geminiについては、研究部門と製品部門の協力だと想像できると思います。
研究者がいて、最先端の仕事をしています。そしてモデルを訓練する人々、バックエンドやフロントエンドで働く人々がいます。これらの独立したチームが、バッハのフーガのように調和して働く必要があります。
それは挑戦ですね。その一部はコミュニケーションの課題です。私はGeminiのさまざまな部分に関わろうとしてきました。研究やモデリング、バックエンド、フロントエンドに関わってきました。
気づいたのは、みんな少しずつ違う言語を話しているということです。研究者と製品開発者の間を翻訳するのは、ある程度学ぶべきスキルだと思います。
言語に関して面白いのは、言うことだけでなく、どう言うかも重要だということです。さまざまな興味深い社会的キューがあり、それぞれのグループで少し違います。
これらの異なるグループには、それぞれ独自の社会的言語や語彙があることに気づきました。コミュニケーションの問題を解決し、チームが調和して働くようになると、製品はほとんど自然に生まれてくるような感じです。製品は、これらの異なるグループの相互作用から生まれる現象のようなものです。
これもフーガのようなものですね。その中にいるのは面白いです。確かに興奮しますし、決して速度が落ちることはありません。
個人的には、複数のチームと仕事をするとき、まず異なる言語（ドイツ語や英語など）を扱う多様なチームとコミュニケーションを取る必要があります。次に、研究チームは一つの言語を話し、他のチームは別の言語を話すので、それらのチーム間でコミュニケーションを取る必要があります。
これはもう一つの課題です。さらに対人コミュニケーションもあります。コミュニケーションの問題で苦労している人々に、どんな実践的なアドバイスができますか？例えば、直接的であるべきとか、多くの質問をすべきとか。
面白いのは、コミュニケーションの方法にも違いがあることです。チャット、メール、対面など、様々な方法があります。
チャットはすぐに古くなります。誰かと20〜30回やりとりをして、その後すぐに会議をすると、30秒で問題が解決することがあります。
これらの異なるコミュニケーション手段には、ある程度の情報の損失があります。私たちがここで話しているとき、顔の微表情や抑揚から読み取れる情報があります。
チャットが限界に達したとき、チャットから対面の会議に移る必要があるタイミングを知ることも、それ自体がスキルです。
メールは非同期なので十分な場合もあります。でも、「これについて数分話せますか？」と言うと、相手の時間を取ることになり、注意を向けさせることになります。コストは高いですが、コミュニケーションの帯域幅は広くなります。
まず、これらの方法をうまく使い分け、いつ対面に切り替えるかを判断することが重要です。そして、実際にコミュニケーションを取ることは練習が必要です。
言語は生まれながらに持っているものだと思っていましたが、実際には練習が必要なんですね。
そうですね。Googleに長く勤めていても、毎日新しいことを学べます。人々とのコミュニケーションについても同じです。
そうですね。面白いのは、Googleで2週間ごとに行われるGeminiのミートアップです。人々が実際の問題を持ってきます。個人的な問題や、ビジネスの問題など。
それも別の形のコミュニケーションです。時には技術的な解決策がある問題もあれば、そうでない問題もあります。
それで思い出しましたが、人々がGoogle Geminiに「夫婦関係をどう良くすればいいか」などの質問をすることがあるのでしょうか。LLMがそういった問題でも助けになるのでしょうか。
面白いことに、時々興味深いアイデアを持っています。理論的には、LLMは生活のあらゆる面を豊かにできるかもしれません。
先日、誰かがGeminiとのやり取りの記録が一種の日記のようなものだと言っていました。毎日、子育てや結婚生活、仕事などについて質問していて、チャットログを見返すと、人生の記録のようになっているそうです。それを考えるのは少し面白いですね。
経験豊富なエンジニアとして、若い世代にどんなアドバイスができますか？AIや大規模言語モデルの分野で働き始めたい人々へのアドバイスはありますか？
まず第一に、GitHubプロジェクトを作ることです。仕事を探しているとき、スタートアップや大企業では、私たちのコードが外の世界に出ることはほとんどありません。
でも、GitHubプロジェクトのシリーズがあれば、それが一種の履歴書になります。履歴書よりも雄弁に語ることがあります。
問題は、GitHubに何を載せるかです。自分自身の問題を解決することが重要です。LLMで解決できる問題があれば、小さなプロジェクトを作り、GitHubに上げて、世界に見せましょう。
人々がGeminiのミートアップに小さなプロジェクトを持ってくると、他の人とつながり、何かが生まれることがあります。
とにかく飛び込んで、自分の問題を解決し、最終的にはさまざまな問題を解決したポートフォリオを持つことが、おそらく最良の方法です。
プロジェクトを通じて自分のスキルを示すことができ、他のエンジニアの中で目立つことができますね。
そうです、まさにその通りです。最近インターンを雇ったんですが、500〜600の応募を見ました。GitHubにたくさんのプロジェクトを持っている人がいて、個人的な問題を解決していました。
例えば、誰かが個人的な学術アシスタントを作っていて、論文を探して整理するものでした。
良い候補者を選ぶポイントは、仕事の実績があり、LLMを自分のために機能させる方法を理解していることだと思います。
自分自身の問題を解決できれば、他の問題を解決できる可能性も高くなると直感的に感じています。
唯一気になるのは、多くの人々がさまざまなプロジェクトに取り組んでいますが、市場の競争が非常に激しいことです。どうやって目立てばいいのでしょうか？
企業の人々にどうやって注目してもらえばいいのか。応募しても返事がないということをたくさんのエンジニアから聞きます。無視されるだけで、誰も返事をくれないそうです。何かアドバイスはありますか？
面白いことに、時々それについて考えます。私は冷やかしの電話や応募では仕事を得たことがありません。
唯一仕事を得られたのは、実際に人々に会いに行くことでした。紹介や対面でのコミュニケーションですね。
シリコンバレーのような場所に住んでいる人は、毎日5〜6つのミートアップがあります。セレブラル・バレーのようなところに行けば、毎日街中でミートアップがあります。
それらに参加し続け、人々と出会い続けると、仕事を得るのに役立つ人に会える確率が1に近づきます。それが最も強力な方法だと感じています。
オンラインで応募して仕事を得られる人がいるなら、すごいことです。でも私には何らかの理由でそれが難しかったんです。
イベントのアイデアが気に入りました。私も多くのイベントを主催し、参加しています。とても効果的だと感じています。エンジニアにとっても効果的だと聞いて嬉しいです。基本的に誰にとっても効果があるんですね。対面でのコミュニケーションが重要だからですね。
その通りです。シリコンバレーのような高密度の場所に住んでいると、少しバブルの中にいる感じがしますが、スタートアップがたくさんあります。
数週間前にボストンで講演をしたんですが、そこでも同じようなことが起きていました。たくさんのスタートアップがあり、人々が集まって仕事を見つけていました。
私の直感では、人々と実際に会うことが今でも最良の方法の一つだと思います。でも残念ながら、それには場所を移動したり旅行したりする必要があり、時にはそれが難しいこともあります。挑戦的ですね。
もう一つ避けられない質問があります。私は女性起業家や女性技術者の大きなコミュニティをリードしています。女性エンジニアについてどう思いますか？
この分野がまだ男性優位である理由について、さまざまな意見を聞きました。必要な特定の知識を持つ男性が多いという人もいれば、十分な女性が応募していないという人もいます。あなたの意見では、どうすればより多くの女性にコーディングを勧めたり、より良く統合し仕事を見つける手助けができるでしょうか？とても興味深い質問ですね。私は3人の娘と2人の息子がいます。娘たちには4〜5歳くらいから、読み書きができるようになって、コンピューターを使えるようになったころに、Khan Academyを始めさせました。
JavaScriptやSQL、Pythonなどを学ばせました。子供たちには言語も教えていて、ギリシャ語やラテン語、ヘブライ語、少しアルバニア語も学んでいます。次はドイツ語を考えています。
コードを紹介するときは、「これは他の言語と同じようなものだよ」と言います。娘たちはそれを自然に習得し、楽しんでいます。大したことではないという感じです。
10歳の娘は、兄よりもコーディングが少し得意です。でもそれも大したことではなく、彼女はただコーディングが得意なだけです。彼らの環境の一部になっていて、特に意識していません。
これが大人になったときに、何でもチャレンジする態度につながることを願っています。エンジニアリングの分野に進むなら素晴らしいですが、何をするにしても自由に勇気を持ってやってほしいです。
面白いのは、彼らの祖母、つまり私の母がCEOで、70年代からプログラミングを始めました。生化学に進み、多くのスタートアップを立ち上げ、会社を上場させました。
娘たちにとっては、「おばあちゃんは会社を上場させるし、科学者だ」というのが当たり前のことなんです。理想的には、それを当然のことと考えてほしいですね。
2つの重要なことを指摘していますね。1つは早くから始められるということ。もう1つはロールモデルの存在です。
私が子供の頃は、コーディングができるということを誰も教えてくれませんでした。両親はその分野の人間ではなかったので、そういう例がありませんでした。
多くの場合、女性にはそういう例がないんです。母親が会計士だったら、「同じ道を歩もう」と思うかもしれません。
でも、コーディングをギリシャ語やドイツ語と同じように紹介する方法は本当にクールです。それを怖いものではなく、試して学べるものとして紹介すれば、早く始めるほど簡単になりますよね。
その通りです。エンジニアリングやプログラミングを教えること自体も大切ですが、私にとってプログラミングは常に問題を解決するための手段や方法でした。
娘たちが何か楽しいことをしたいとか、小さなアニメーションを作りたいとか、小さなゲームを作りたいと思ったときに、プログラミングが必要になるなら、それは単なる別のツールとして使えばいいんです。
最終的に、プログラミングが大したことではなく、ただのプログラミングだと思えるようになれば、私の仕事は成功したと言えるでしょう。特別なものでも奇妙なものでもなく、ただのツールなんです。
でも、人々はそれを少し怖くて近づきがたいものと考えがちです。プログラミングを平凡で自然で怖くないものにできれば、それが良い方法かもしれません。
女性ソフトウェアエンジニアから聞いた話ですが、男性が多いミートアップに参加すると、時々居心地が悪くなることがあるそうです。男性たちが「本当にコーディングできるの？」というような目で見ることがあるそうです。
これは自信の問題ですね。どうやって克服すればいいでしょうか？例えば、私がコーディングが得意で、あなたたち4人の男性がコーディングについて話しているところに来たら、どうやって強い立場でコミュニケーションを取ればいいでしょうか？
とても興味深い質問ですね。Googleで運営しているミートアップには多くの女性が参加していて、それは素晴らしいことです。
観客の中で、彼女たちが最も有能で、最高の質問をし、最高のアイデアを持っていることが多いです。多くの人がスタートアップを立ち上げています。
なぜか、彼女たちが部屋に入ってくると、自然に自信を持って話し、人々が耳を傾けます。逆に、人々が彼女たちの周りに集まってくるような感じです。
面白いダイナミクスですね。彼女たちが入ってくるとき、興味深い自然な自信を持っているように見えます。私の感覚では、それは彼女たちが実際に問題を解決しているからだと思います。
「これが問題で、こうやって解決しました」というように話すんです。その自信の秘訣が正確に何なのかはわかりません。
誰かに「自信を持って」と言うのは簡単ですが、実際にそうするのは難しいですよね。
パンデミックが起きたとき、2年ほどラグビーができませんでした。新しいスポーツを学ばなければならなくなり、サッカーやバスケットボール、フリスビーなど、たくさんの新しいことを学びました。
フィールドに立ったとき、基本的に毎日バカみたいな気分でした。その奇妙な不快な感覚に慣れなければなりませんでした。
何度も何度も続けていくうちに、ある時点で自信がついて、うまくできるようになりました。
そういった場合、続けていくことが大切なんだと思います。ゲームに参加し、現れ続け、プレイし続ける必要があります。
自信もスキルの一つで、トレーニングできるということですね。100%同意します。
今日は下手かもしれないけど、明日は最高になるかもしれない。今日は最悪でも、明日は最高かもしれない。全てトレーニング次第です。
新しいことを試すときに感じる不快感について言及したのが良かったです。私の娘はフィギュアスケートをしていますが、3歳から65歳までの人々が新しいことに挑戦しているのを見ます。
最初は転んだり、ぎこちなく見えたり、バカみたいに感じたりしますが、彼らが続けていく姿を見ると素晴らしいです。2週間前はひどかった人が、今ではすごくクールになっているのを見ると感動します。
あなたが言ったように、続けていくこと、試し続けることが大切なんですね。
Google Gemini、そしてGoogle全般での個人的な経験について聞かせてください。最も予想外だったこと、最も挑戦的だったこと、最も報われたことや記憶に残っていることは何ですか？
Bardの前は、Googleアシスタントに携わっていました。アシスタント、Bard、そしてGeminiと進化してきました。
アシスタントでは、もっと小さなモデルを使っていて、たくさんの作業が必要でした。中央に小さなモデルがあり、その周りに巨大で複雑なインフラがあって、それが魔法のように働いていました。
LLMに移行すると、突然LLMが自身でオーケストレーションできるようになりました。例えば、東京への複雑な旅行を計画する場合、フライト、ホテル、車、イチネらリー、京都についのYouTubeビデオなど、さまざまな要素が必要です。
LLMに「これらのツールが使えます。フライトツール、ホテルツール、YouTubeツールがあります。魔法をかけて、この人のためにイチネらリーを作成し、購入できるチケットを提示してください」と言えば、LLMは「わかりました。YouTubeを呼び出し、フライトを呼び出し、これが起こりました。ユーザーのためにこれを素敵にパッケージします」と言います。
これは驚きであり、困難でもありました。私たちがすべての作業を行い、モデルは後付けのようなものだったところから、LLMが多くの決定を行えるようになったからです。
LLMは創造的ですが、少し予測不可能です。これが最も挑戦的なことでした。
LLMが自身でオーケストレーションできるという事実は本当に驚きでした。LLMと毎日働いていると、常に新しい創発的な現象が現れ、私を驚かせます。この分野にいられることに本当に感謝しています。
最も記憶に残っていることは何ですか？
最も記憶に残っているのは、本当に初期の頃のことです。2022年後半か2023年初頭くらいでしょうか。LLMが新しく、実験していた頃です。
LLMにクレイジーなことをさせていました。音楽を作曲させたりして、驚きました。例えば、プレゼンテーションが必要だったとき、LLMに「数枚のスライドを書いて、これをまとめてくれる？」と頼みました。
魔法のように、私が望んでいたものを理解してくれました。これはLLMが私たちにとって全く新しかった頃の話です。
それは私にとって魔法のようでした。それが私をこの旅に送り出したんです。
毎日新しい挑戦があり、LLMの世界は非常に速いペースで動いています。2週間ごとのミーティングで、毎回何か新しいことが起こっています。
以前は月単位や四半期単位で考えていましたが、今では2週間単位で新しいことが起こっています。
これも課題の1つです。このようなスピードでどのように動き、同時に興味深いことを行い、人々の問題を解決し、迅速に動くか、というのは本当に難しいことです。
だからこそ、人々と実際に会って話すことができるのはありがたいことです。そこで本当に学ぶことができるからです。LinkedInなどで何かを見つけることもありますが、実際に人々と話し、彼らが解決しようとしている問題を理解することが重要です。
ミートアップに来た人が、時々小さな宝石のような情報をくれることがあります。注意深く、オープンでいる必要があります。誰かが抱えている問題や、デイトレードをしたいとか、シャーロック・ホームズと話したいとか、そういった小さな問題を聞くことがあります。オープンで耳を傾けていると、そういった小さなことに気づくんです。
彼らがどんな問題を解決しようとしているのか、決して分からないですからね。
ユーザーがGoogle Geminiをどのように使っているか、最も興味深い使用例を教えてください。技術者だけでなく、一般の人々にも試してもらいたい、単純だけど面白いものはありますか？文法チェックやコード作成以外で。
単純かどうかわかりませんが、昨日サンフランシスコで小さな講演をしたときに、あるコンサートピアニストと話しました。彼女はGeminiを使ってショパンやベートーベンのスタイルで音楽を作曲し、それを演奏し、さらにロボットと一緒に演奏しているそうです。
音楽を作曲し、演奏し、それをロボットと合成するというアイデアに驚きました。
芸術家がそのように使っているとは知りませんでした。とてもクールですね。
これは少し最先端の使い方だと思います。彼女はモデルをショパンやベートーベンのように反応するよう訓練し、人々が質問できるようにしたそうです。
私が質問したのは、ショパンやベートーベン、バッハなどが音楽を作曲するとき、人間の手がどう感じるかを知っているということです。彼らは人間の生理学を意識して、通常は弾きやすく、手に気持ちよく感じる曲を書きます。
LLMが作った音楽を弾くとき、人間が書いたように感じるのか、弾きやすいのか聞いてみました。
彼女は、時々LLMが物理的に不可能なものを書くことがあると言っていました。11本の指が必要なようなものとか。でも、ほとんどの場合は弾けるそうです。これは本当に魅力的で、私が話した共進化の一例だと思います。
日常的には、人々が仕事を探すときにLLMを使っているのに驚きます。特定の仕事に合わせて履歴書やカバーレターを作成するのを手伝ってもらっています。
また、最近「デューン」という映画が公開されましたが、誰かが昔本を読んだことがあり、映画が何をしているのか知りたがっていました。両方のデューンの小説と映画の脚本をLLMに入力し、「これらの違いは何？」と聞いたそうです。
本と映画の違いについて、Geminiが「これは本にあるけど映画にはない」「これは作り話で映画に追加された」などと答えたそうです。それはとても興味深い使い方だと思いました。
最後の質問です。AI全般について、5年後、10年後にどのように進化すると思いますか？また、人類や世界にとって最もAIの恩恵を受けられる分野はどこだと思いますか？
それは難しい質問ですね。LLMの遅延の問題が一つあります。デイトレードなどにGeminiを使えないか実験しましたが、外国為替市場などでは本当に速い反応が必要で、LLMでは間に合いません。
しかし、LLMは大量の情報を処理するのが得意です。例えば、何千ページもの10-Qや様々なモデルの出力を取り込んで、大規模な取引戦略を合成することができるかもしれません。
ゲームでLLMを使おうとしたときも同じようなことに気づきました。LLMはスタークラフトやチェスの一般的な戦略を立てることはできますが、実際のゲームをリアルタイムで操作するには他のモデルが必要かもしれません。
LLMは大規模な助言的役割を果たし、小さなモデルがリアルタイムで動作する、というような形になるかもしれません。
LLMの遅延は改善されていくでしょうが、大規模なタスクを担当するLLMと、リアルタイムで動作する小さなモデルに分かれていく可能性があります。
未来は、これら二つのタイプのモデルが協力して、私たちが予想もしなかった新しいことを行うようになるかもしれません。
人間とAIの最も生産的な関わり方を見つけることが、最も美しいシナジーになりそうですね。
その通りです。それは少し創発的な現象だと思います。正確にどのように機能するかはまだわからないでしょう。
面白いのは、私たちがLLMと共進化していることです。5年後、10年後にLLMがどうなっているかだけでなく、人類がどうなっているかも興味深い質問です。
LLMはそこに到達するためのツールに過ぎないかもしれません。未来がどうなるか、見てみましょう。
ピーター、素晴らしい議論をありがとうございました。本当に楽しかったです。来てくれてありがとう。
こちらこそ、呼んでくれてありがとう。ダーシャのポッドキャスト用に、Geminiに小さな歌を作ってもらいました。一緒に歌ってみませんか？私が始めて、あなたが繰り返してください。
いいですね、やってみましょう。
では、最初の部分です。
「Talks with Dasha on Gemini we flow,
Talks with Dasha on Gemini we grow,
Friends and startups and knowledge we sow.」
素晴らしいですね！