Google Labsが0から1へAI製品を急速に構築している

19,447 文字

Josh Woodward: Google Labs is Rapidly Building AI Products from 0-to-1

As VP of Google Labs, Josh Woodward leads teams exploring the frontiers of AI applications. He shares insights on their ...

こんにちは。Josh Woodwardさんを迎えてお話を伺いたいと思います。彼はGoogle Labsの一員として、Notebook LMやコンピューター操作エージェントMarinerなどの興味深いGoogleのAIプロジェクトに関わっています。Google Labsは、数十年先の世界を見据えながら、テクノロジーとの新しい関わり方を開拓する、Googleの実験部門です。
Joshは、プロンプト入力がすでに時代遅れになりつつあるという刺激的な主張から、マルチモーダルAIがデフォルトのユーザー体験になるまで、人間とAIのインタラクションを再考しています。Google Labsでの急速なイノベーション文化についての見解や、生成型ビデオなど今後の展望についてもお話を伺います。
Joshさん、本日はお越しいただきありがとうございます。Google Labsで行っていることについてお聞きできることを楽しみにしています。まず最初に、あなたが言及した刺激的なトピックについてお聞きしたいと思います。「プロンプト入力は時代遅れになっている」とのことですが、それはどういう意味でしょうか？
「ありがとうございます。私はプロンプト入力が時代遅れになっていると本当に思っています。将来、私たちはこの時代を振り返り、『あの小さなボックスに段落レベルのプロンプトを書き込もうとしていたなんて信じられない』と思うでしょう。
現在、これが二つの方向に分かれていると感じています。一方では、開発者やAIエンジニアとして、Labsで書いているプロンプトは複数ページにわたる美しいものです。しかし一般ユーザーにはそんな時間はなく、モデルの能力を引き出すためには一種の「ウィスパラー」のようになる必要があります。
私たちは、業界の他の製品でも見られるように、プロンプトとして自分のアセットを持ち込む方法、PDFや画像をドラッグして組み合わせるなど、この大きな段落を書くことを省略する方法に、より多くの引力を感じています。エンジニアやAIエンジニアとしては長文を書き続けるでしょうが、世界のほとんどの人々にとって、これはすぐに消えていく段階だと思います。」
つまり、コンテキストの形が変わるということですね。モデルに何かを与える必要はありますが、それは写真や文書のセットを見るよう伝えるなど、違う方法でコミュニケーションできるようになるかもしれないということですね。
「そうです。あなたの声やビデオなど、何でも構いません。これらのモデルはコンテキストを好みます。コンテキストがなくなることはありませんが、コンテキストの種類や提供方法が今急速に変化していると思います。」
素晴らしいですね。プロンプトの未来やマルチモーダルモデルについてもっと詳しく話す前に、Google Labsとは何か、その使命は何か、そしてGoogle内でどのような位置づけなのかを教えていただけますか？
「Google Labsについて聞いたことがある人もいるかもしれませんが、以前にもLabsがありましたが、しばらく休眠していました。このLabsは約3年前に再スタートしました。これは本質的にビルダーの集まりで、人々が愛するような新しいAI製品を構築しようとしています。消費者向け製品、B2B製品、開発者向け製品など、すべて0から1への取り組みです。
Googleに長くいる人々だけでなく、多くのスタートアップの創業者や元創業者など、興味深い人材が集まる傾向があります。これらの人々を混ぜ合わせ、基本的に特定の分野の未来がどのようなものになるか、例えば創造性やソフトウェア開発、エンターテイメントの未来などを考え、小さなチームで構築・出荷します。
伝統的な大きなGoogleの製品部門の外に位置していますが、一緒に多くの仕事をしています。興味深い相互作用があり、それが楽しい部分でもあります。検索やChromeなどGoogle内の他の部門と協力することもできますが、探索や実験、さらには破壊的なことを試みるスペースもあります。それが私たちが取り組んでいることです。」
Labsの中で、どのような文化を作りたいと考えていますか？おそらく他の部門よりも失敗が多く、Googleの規模とは異なる成功の指標があるでしょう。どのような文化を作りたいと考え、それをどのように実現していますか？
「私たちは非常に迅速に動く文化であることを誇りにしています。アイデアからエンドユーザーの手元に届くまで50〜100日かかります。それを実現するためにあらゆる工夫をしています。特にAIプラットフォームのシフトの瞬間では、スピードが非常に重要です。
また、大きなことは小さく始まるという考えもあります。Googleにいると、何十億人もの人々が使用している製品に囲まれていますが、これらすべてのものは通常、一人のユーザーと一つの痛みポイントから始まったことを人々は忘れています。私たちは週間アクティブユーザーが1万人を獲得すると非常に興奮します。それは新しいプロジェクトを始めたときの大きな瞬間であり、お祝いします。Googleの他のグループの多くでは、ダッシュボードはそれほど低くカウントしません。
私たちが試みていることのサイズは非常に小さいです。正直なところ、皆さんが働いている会社に似ているでしょう。また、大きなGoogleのグループの外に位置しているため、外部世界に一つの足を持ち、スタートアップや他の人々と構築や共創をたくさん行っています。また、Google DeepMindの中にもう一つの足を持ち、研究のフロンティアがどこにあるか、さらに重要なことにはどこに向かっているかについての見方を持っています。
非常にクリエイティブで、自分自身をアンダードッグと見なし、ハッスル精神を持つ人々を見つけることに誇りを持っています。『labsを一言で言うと』というドキュメントがあり、私のお気に入りのセクションは『labsで誰が成功するか』というものです。16〜17の箇条書きがあり、それらをリストアップしています。それが文化を構築しようとしている方法ですが、失敗のようなことを正常化し、昇進や報酬など、会社でも行うような異なることを考える必要があります。」
DeepMindとのつながりについて言及されましたが、とても興味深いですね。Labsの中で理想的な製品ビルダーのペルソナはどのようなものだと思いますか？研究バックグラウンドを持つ人、成功した消費者製品の経験者、研究と製品の両方に優れた魔法のユニコーンなど、どのようなタイプの人材を求めていますか？
「私たちは見つけられるだけユニコーンを採用します。実際にいくつか見つけました。深いモデルの専門知識と消費者的感覚の両方を持つ人材を探しています。そのような人材は存在し、彼らは素晴らしいです。見つけることができれば採用します。
また、人材を育成する方法も見つけました。これは私たちが考えることの一つです。通常探すような人材ではないかもしれない人をどう連れてくるか。私たちは常に、誰が過小評価されているか、誰が紙の上では見えないかもしれないが、彼らと対話したりGitHubの履歴を見たりするとき、本当に興味深い人材であるかなど、様々な信号があります。」
次にどのようなプロジェクトに取り組むかはどのように決定しますか？ボトムアップなのかトップダウンなのか、そのプロセスはどのようなものですか？
「良い質問です。実際には少しミックスしています。トップダウンの側面では、Googleのミッションに合った、Googleにとって戦略的な領域を探しています。より広いコンテキストの中で自分たちを考えています。
例えば、ソフトウェア開発の未来がどのようなものになるかなどです。Googleには何万人ものソフトウェア開発者がおり、AIがこの分野に大きな変化をもたらすことは明らかです。他のGooglerのためだけでなく、外部的にもどのようなものを構築できるかを考えています。
私はオクラホマ出身で、夏には釣りをよくしますが、釣りをするのに適した池を見つけようとするようなものです。私たちは釣りをする池について多くの考えを巡らせますが、その後、多くの場合4〜5人のチームである多くのチームに、解決しようとする適切なユーザー問題を考え出させます。それが中間地点で出会う方法です。
他のチームから見ると、少し混沌としているかもしれません。複数四半期のロードマップはなく、次の1万ユーザーのマイルストーンまで生き残り、それから成長させようとしています。それが一種のブレンドです。」
現在興奮しているプロダクトは何ですか？
「Gemini APIやAI Studio、Notebook LM、VOなど、これらはLabsで取り組んできた製品です。よく知られているものと、これから登場するものについて話しましょう。
Notebook LMの行方に非常に興奮しています。自分のソースを持ち込むと、AIが本当にそれらを掘り下げることができる点で何かを見つけたと思います。そこから物事を作成できます。昨年出たポッドキャストを聞いたことがある人もいるかもしれませんが、このパターンに従うものがたくさん来ています。このスペースに注目してください。
このパターンでできることはたくさんあります。人々に多くのコントロールを与え、AIを操縦していると感じさせることが本当に興味深いと思います。チームの中では、マーケティングの人が言い出した「AIジョイスティック」という言葉があり、それを制御しているような感じです。
現在、多くのものが登場しており、VOというGoogleの画像モデルやビデオモデルに非常に興奮しています。この分野で本当に興味深い製品が登場しています。生成型ビデオは「ほぼ可能」から「可能」に移行したと思います。」
今すぐ生成型ビデオについて話しましょう！
「これらのモデルはまだ実行するのに巨大です。V2は何百台ものコンピューターを必要とするので、コストは非常に高いです。しかし、テキストベースのモデルのGeminiや、OpenAIやAnthropicのモデルでも見てきたように、コストは昨年で97倍も削減されました。そのようなコスト曲線を想定すると、VOモデルで見られるようになることは、V2で新しいのは本当に高品質と物理学の問題を解決したことです。
動き、シーン、多くのAI映像作家が話す「チェリーピック率」というもの、つまり良いものを選び出すために何回実行する必要があるかについて、VIのようなものでは一回で望むものが得られるほど下がっていることを見ています。したがって、指示に従う能力、モデルが望むものに従う能力は本当に素晴らしいです。それをツールに入れると、全く違う方法でアイデアを伝えることができます。」
AIビデオ生成において解決された問題と未解決の問題は何だと思いますか？昨年はAIがビデオで物理をシミュレートできるということが大きな話題でした。物理の問題は解決されたと思いますか？そして他に何が完成し、何がまだ解決すべき課題なのでしょうか？
「物理は永遠に解決するのが難しいことですが、近いと言えます。十分に近いです。6ヶ月前、1年前、数年前はウィル・スミスがパスタを食べるような災害があり、昨年でも指を切る刀のようなビデオがあり、6本の指があったりしました。それが当時の状況でした。
物理学に関しては大きな問題が解決され、写真のようなリアルな品質を実現する能力にも大きな進歩がありました。ジャンプシーンやジャンプカット、異なるカメラコントロールを行う能力も解決に近づいています。これらすべてを解決するための道はあります。
まだ効率とサービスコストを解決する必要があります。また、このビデオに関するアプリケーションレイヤーをもう少し考える必要があるでしょう。AIの他のモダリティでも見てきたように、モデルレイヤー、ツールレイヤーがあり、本当の価値はこのアプリケーションレイヤーにあると考えています。ビデオを中心としたワークフローを再考することは本当に興味深く、現在は非常に広く開かれています。」
モデルはアプリケーションレイヤーでビデオを操作できる能力を持っていると思いますか？例えば、シーン間でキャラクターの一貫性を持たせるなど、モデルはそれが可能でしょうか？アプリケーションレベルで魔法のようなことを行うためには、モデルの操縦性が必要だと思いますが、モデルの準備状況とアプリケーションで魔法のようなことを行うために必要なものは何でしょうか？
「今週、数人のAI映像作家と話したのですが、彼らが本当に興味を持っているのはまさにあなたが言ったことです。キャラクターの一貫性、シーンの一貫性、カメラコントロールです。AIカメラを構築する必要がある、という感じです。今私たちを撮影しているカメラを考えると、これは特定の入出力に対して完成された数十年の技術です。
私たちは新しいAIカメラを作成する瞬間に来ているのだと思います。それができれば、無限のシーンを生成することができ、「赤いセーターを着ていますね、青にしましょう」というのを、そのシーンだけでなく、2時間の映画全体でできるようになります。内部で取り組んでいるこれらのプロトタイプで、これが現実であり、来つつあることを見始めています。
以前は高価すぎたり、時間がかかりすぎたり、特定のスキルレベルを必要としたりしたものを、完全に再考しています。チーム内で「バーを下げ、天井を上げる」という話をよくします。製品を構築するとき、より多くの人がアクセスできるようにするか、プロがそれを使って品質を飛躍的に向上させるかを考えます。ビデオではまさにその時点に来ています。」
最近、Paul Grahamがこの進歩のペースに基づいて興味深い投稿をしていました。まだ完全には機能せず、非常に高価なものを構築したいということですね。なぜなら、それらはやがて機能するようになり、コストも大幅に下がるからです。それはあなたたちにも当てはまりますね、特にビデオに関して。
「まさにその通りです。現在、8秒間のビデオクリップを生成するのは法外に高価ですが、基本的に将来はこれが5つを一度に生成しても考えもしないような世界に向けて構築しています。
過去数年間でAIの仕事をしていて学んだ実際の原則の1つは、あなたの製品がよりスマートで安価で高速になるモデルに合わせていることを確認することです。あなたのコア製品の価値提案がこれらの追い風から恩恵を受けることができれば、良い位置にいます。これらのどれかが正しくなければ、存在を疑問視すべきです。それが私の要約です。」
ビデオ生成のコストが経済的に見合うようになるまで、どのくらいかかると思いますか？生成するものの経済的価値より少ないコストで生成できるようになるまでの期間は？
「これは難しい予測ですね。ただ、VOを自社のツールに組み込み始めたコスト計算で見ているのは、製品やアプリケーションレイヤーだけでなく、ビジネスモデル側でのイノベーションも必要になるだろうということです。
最初の考えは、サブスクリプションを作り、その上で使用量に応じて課金するというものでした。別の方法としては、ハリウッドやAI映像作家と話すと、「このような出力が欲しい、これだけ払う」という、出力ごとの支払いのようなものがあります。これは他のAI企業も始めていることですが、映画やビデオに関しては、プロデューサーならプロジェクトをどう考えるかに少し似ていますが、今は個々のクリエイティブレベルで想像しています。これはある種のオークションモデルのようなものかもしれません。
探求すべきことはたくさんありますが、物事の進み方を考えると、おそらく数四半期のスケールで興味深くなりはじめるでしょう。多くの年ではなく。」
進歩のペースについて何度か言及されましたが、それは加速していると思いますか？DeepMindへの独自の視点を持っていますが、私たちはどこにいるのでしょうか？加速しているのか、クレイジーな軌道にあるのか、それとも同じ軌道を維持しているのか、興味があります。
「過去3年間、減速するだろうと思ってきましたが、一度も減速しませんでした。事前トレーニングがプラトーに達しているかもしれないと思うと、推論時間の計算という全く新しい地平線が開かれます。
チームには、Steven Johnsonという著者を雇いました。彼はNotebook LMの共同創設者です。彼は「隣接可能性」という概念について話します。イノベーションの歴史に関する興味深い著書があります。現在は部屋に入ると、これらの隣接可能性へのドアがたくさん開いているような感じです。1つの部屋と1つのドアだけでなく、探検できる30のドアがあるような感じです。それが内部からの感覚です。」
部屋と隣接可能性のビジュアルが気に入りました。それを盗んで自分のものとして呼ぶかもしれません。VCのようですね。
消費者として、ビデオ消費の未来はどのようになると思いますか？まだハリウッドスタイルの長編映画を見ることになるのか、それともより効率的に作られるのか、あるいは私だけのために動的に生成されるコンテンツを見ることになるのか、ビデオ消費の未来はどのようなものだと思いますか？
「これはさまざまな方向に分岐する可能性があるものの一つです。私たちが興奮していることと見ているものをいくつか紹介します。
エンターテイメントの未来はより操縦可能だと思います。現在、ソファに座ってスクロールするか、TVに表示するかですが、もっと操縦可能になり、希望すれば介入して特定の方向に進めることができるようになるでしょう。
もうひとつは、あなたが言ったようなパーソナライゼーションです。YouTubeやTikTokなど、あなたが興味を持っていることを把握できるアルゴリズムを考えると、それが極端になり、あなたがモデルと共有したいことに合わせて調整される可能性があります。
また、多くのコンテンツがその場で生成されると思います。YouTubeなどを支えたクリエイタークラスの台頭があったように、キュレーターとして考えられる人々のシフトがあり、コンテンツをキュレートしモデルと連携して物事を作成するかもしれません。
エンターテイメントの未来のもう一つの大きな部分は、すべてをリミックスできることです。「これは気に入ったけど、もっとこのようにしたい」というようなことがあり、そのためのコスト、時間、必要なスキルが文字通りボタンを押すか説明するだけで、異なるバージョンが得られるようになると考えています。
現在、プラットフォームから消費するだけの人が90-95%で、クリエイターは非常に少ないことが分かっていますが、そのバランスが変わるかどうかは興味深いでしょう。例えば、今日のUIには再生、一時停止、保存、ブックマーク、スターなどがありますが、「参加」ボタンがあるUIを期待するようになるでしょうか。「やあSonia、Ry、何について話したい？」というような新しいものが出てくるでしょうか。それは完全に可能で、Notebook LMで現在構築しています。」
映画とゲームの境界がぼやけてくると思いますか？
「それは本当の可能性があると思います。映画やビデオコンテンツ、ゲーム、世界構築、3Dの間で興味深い交差点があり、それがどこに向かうのか現時点では不明確です。しかし、お互いから学んでいる分野が多くあり、トレーニング技術に至るまで、そのような発見をしています。」
生成型ビデオモデルを構築している会社を見ると、ピクセルストリームから直接進む人もいれば、3Dの観点から進む人もいますが、本当にビデオをうまく作るには3Dを理解する必要があるという考えがあります。これについての意見はありますか？
「実際には両方に賭けています。3D側では、スニーカーの写真を6枚撮って3Dスピンを作るプロジェクトを始めました。それを検索に載せると非常に効果的で、詳細を埋めるのが驚くほどでした。しかし、その道を進んでいると、V2のようなものが登場し、もはや6枚の写真は必要なく、2〜3枚で済むようになります。
基本的に、インデックスされたすべての製品カタログを一晩で作成できます。これで、任意の角度から、パン、傾き、ズーム、再照明できる、あらゆるオブジェクトの3Dオブジェクトが得られます。そして、それはどこにでも配置できるオブジェクトになります。それが3Dの観点です。
ビデオの観点から、または世界構築からは興味深いです。私たちは小さなプロトタイプを構築しました。「すべての教室で月面着陸を再現し、教師に子供たちを月着陸船に乗せるようなツールを提供できたら素晴らしいだろう」と考えました。そして、「あっ、後ろで何かが燃えている」というような問題を注入できる小さなサイドパネルも作りました。これは楽しかったのですが、モデルに「右を見て」と言うと、実際に詳細を埋めることができました。
だから、境界がぼやけているように感じる理由で、両方に賭けている理由です。私たちはまだ確信が持てません。」
2023年、皆がエージェント、コンピューターエージェントについて話しています。Google Marinerについて教えていただけますか？
「Marinerは昨年12月に発表したものです。モデル内にこの機能が開発され始めているのを見始め、これらのモデルにコンピューターやブラウザを制御させたら何が起こるのか、良いことも悪いことも理解しようとしていました。
これは、「この機能が登場し始めている、今はChromeの拡張機能として、素早く構築するためのアイデアを人々の手に届ける」というプロジェクトの良い例です。84日間で非常に速く、多くの思い出が作られました。
興味深いのは、Anthropic、OpenAI、明らかにGoogle、そして多くの他のスタートアップも、モデルが知識、情報、合成、執筆だけでなく、スクロール、タイプ、クリックなどの行動も可能で、それもひとつのブラウザ、ひとつのセッションだけでなく、無限にバックグラウンドでできるということに気付いていることです。
Marinerで本当に追求しているのは、ブラウザでタスクを完了できるという短期的なことだけでなく、より大きなことは、このようなものが一つだけでなく基本的に無限数あるとき、人間とコンピュータの相互作用の未来がどのようになるかということです。それがこのプロジェクトで追求していることです。」
Marinerの理想的なユースケースは何だと思いますか？特に近い将来において。私が見るすべてのデモビデオでは、エージェントに「フライトを予約して」や「ドアダッシュでピザを注文して」というようなものですが、それは素晴らしいですが、私はそれらのことを自分でするのが好きです。消費者向けのキラーユースケースは何だと思いますか？
「それが興味深いところで、消費者向けではなく企業向けかもしれません。Marinerのユーザー調査でわかっていることの一つは、「熱苦労」の多い活動です。「熱苦労」はあまり使われない古風な言葉ですが、人々が話すとき、「これは私をイライラさせるもので、これがそれを解決するのに役立っている」というものです。
興味深いのは、企業側でそれがより多く表れているということです。昨日のチームからの例をいくつか挙げると、基本的に共同ブラウザの使用事例があります。例えば、コールセンターで誰かが電話をかけてきた場合、現在はコールセンターのエージェントがあなたのマシンをリモートで引き継ぎ、ブラウズして何かを行うという非常に複雑な方法があります。彼らは「Marinerがこれをやってくれたらいいのに」と言っていました。
もう一つ聞いた興味深いケースは、営業チームの一員として、顧客からの電話を受けた後、次にやるべきことがたくさんあり、それらを展開したいということです。多くの場合、おそらく支払っているSaaSサブスクリプションなど、様々なシステムを更新することが含まれています。彼らは「UIが扱いにくく、時間がかかる。Marinerに全部やらせたい」と言います。
これらが自然に出てくる興味深いことです。消費者側ではどうでしょうか？あなたの心の中で好きなものはありますか？私たちにはいくつかありますが、好奇心があります。日常生活で私が抱える熱苦労は何かを考えています。」
「Ryと話すこと…冗談です。Ryと話すのは私の一日で最高の部分です。それを感謝しています。
しかし、たとえ正確なユースケースがなくても、フレームワークは気に入っています。一日を通して、楽しくなく時間を奪うもの、重労働は何かというフレームワークです。これは実際にDoorDashやInstacartのような物を生み出したのと同じ論理だと思います。」
「そうです。Instacartを入れないといけないことは確かです。」
企業側では、どのようにテストしていますか？既存の顧客やGoogle Cloudの顧客とテストしているのですか？実際にどのような企業とテストするのでしょうか？
「その場合、大小にわたって行います。クラウドの顧客もいて、最新の最高のものを常に求めるクラウドの顧客がたくさんいます。彼らの会社内にもLabsに相当するものがあるので、それらは素晴らしいテストベッドです。また、多くのスタートアップとも協力しています。
もし興味がある人がいれば、DMを送ってください。常に市場の異なる側面から学ぼうとしています。
長年製品を構築してきて分かったことは、誰もが製品市場フィットについて話し、それを見たら分かるというのは本当ですが、少なくとも私の場合、製品構築の最初の部分では製品に対して多くの反復を行いますが、市場についての反復を忘れがちです。右市場側を見つけることも、右製品と同じくらい重要で、この二つをつなげる必要があります。
Marinerのような初期段階のことでは、それが現状です。コンピューターをAIモデルが運転することは可能ですか？はい、それは巨大な新しい能力です。それは正確ですか？時々。それは速いですか？まだ全然です。それが能力や使用事例の点での現状です。そして正しい市場を見つけることが重要です。
この初期段階では、非常に速く多くのことを行います。チームのプロダクトマネージャーや他の人々に教えることは、ダッシュボードを見ないでください。今は数字が小さすぎます。顧客の目を見てください。何かを見せたとき、彼らの目が輝くかどうかを見てください。それがあなたが追いかけている信号です。この段階では科学よりもはるかに芸術的です。」
コンテキストポイントに少し戻りましょう。Googleで働いていて、「自分のものを持ち込む」ということを話しましたが、私についてGoogleが多くのことを知っている世界があるでしょうか？私の検索、Gmail、カレンダーなど。オプトインして「全部持ってきて、魔法を作って」という世界はあるでしょうか？Labsでそのようなことを試すことは可能ですか？
「私たちはチーム内部では、自分のデータについて多くのことをオプトインしています。「すべて取って、良いものを作ろう」という感じです。Geminiアプリでも異なるものをリンクできるようになると思いますが、実際に探索されている領域でもあります。どのタイプのデータが最も興味深く、最も有用であるか、そしてもちろん適切な制御も重要です。人々が「ただ与えるのではない」と感じられるように。
それは私たちが実験している領域ですが、現在、多くの実験は自分たちのものに対して行っています。私たちがあなたについてすべてを知っているので、あなたのために作れる魔法について、別途教えていただかなければなりません。」
「私自身のデータの中で、すぐに思いつく強力なものがいくつかあります。第二の頭脳を持っているような感じがします。第二の頭脳や思考のためのツールというビジョンが常にありましたが、それに非常に近づけると思います。特にGeminiモデルは長いコンテキストに非常に優れており、この印象的な短期記憶を持つ能力があります。それはMarinerで活用しようとしている領域です。」
VOについて聞いたのと同様の質問ですが、コンピューターの使用が、あなたが話したような使用事例を行うのに十分正確で速くなるのはいつだと思いますか？
「それも言うのが難しいですね。現在のペースでは、Googleだけでなく他のラボからも見られるように、約1〜2ヶ月ごとにレビューが行われています。今年だけでもこれらの各ものの4、5、6回のレビューが見られると想像できます。それは私たちが知っていることだけです。
現在、少し厄介であったり難しかったりする領域は、コンピューターが画面のXY座標をどのように精密にナビゲートするかです。画面の緯度経度のようなものが必要ですが、それはまだ非常に興味深い荒いエッジです。
もう一つの大きな領域は、人間をいつ関与させるか、または関与させないか、彼らがいつ関与したいか、または関与したくないかという、より人間的なことです。「何かを買おうとしています」「ああ、それについて知りたい」または「5ドルまでなら大丈夫だけど、それ以上はだめ」というような適切な構成を作ることです。
そこには、ハードコアなHCI研究のような、それらの制御をどのように設定するかについての共感に深く入り込むような研究があります。Googleのマリナーを含め、今のところどれもそれを持っていません。「何も買わない」「どのTOSにも同意しない」など、ある種の鈍い制御はありますが、現在はかなり粗いものです。
人々はより細かい方法を求めるでしょう。これらが私にとってより未解決と考えられることの一部です。再度、モデルがよりスマートに、より速く、より安価になるという原則に基づいており、今年には4、5、6、7回のレビューが行われるでしょう。」
メタな質問があります。なぜすべての研究ラボが、私が知る限り、全く同じ時点でコンピューター使用に集中したのでしょうか？それは偶然でしたか、それとも技術がたまたま同時に収束したのでしょうか？
「良い質問です。他のラボそれぞれの詳細は分かりませんが、イノベーションの歴史を読むと、同時期に発見が行われることは珍しくありません。これらのモデルには新しいパラダイムがあり、多くの人々が特定の方法での可能性を見ているのだと思います。
また、ラボ間で人材が移動するなど、これらのアイデアが交差汚染されていることもあるでしょう。コーディングでも同様です。エージェントの事も多くのことが沸き上がっています。これは非常に楽しいですが、常に緊張感も保ちます。」
他の著者を雇う予定はありますか？Matt Ridleyは隣接するイノベーションについて書いている人で、Stephen Johnsonを雇ったのはなぜですか？そしてLabsに連れてくるような明白な背景を持たない他の人について考えていますか？
「Stephenに関する簡単な話ですが、Google Labsを再開した人はClay Baerという人で、彼と私は大ファンで、Stephenが書いたものをほぼすべて読んでいました。
Stephenは非常に興味深い人で、何十年もの間、思考のための完璧なツールを追求してきました。Clayが彼にコールドメールを送り、私たちは二人とも彼のサブスタックの購読者でした。彼にメッセージを送り、「あなたが好きです、一緒に働きませんか？あなたが作りたかったツールを作りましょう」と言いました。そこから始まりました。
これは2022年の夏頃で、ChatGPTの瞬間などの前でした。Stephenは電話に出て「やりましょう」と言いました。彼は客員研究員として来ました。ジョブラダーは存在しませんでした。HRの人と一緒に彼が就ける役割を作る方法を考えなければなりませんでした。その意味で非常に型破りでした。
Matt Ridleyの本もたくさん読みました。Mattは知りませんが、素晴らしいでしょう。もし聞いているなら来てください。私たちはこれをかなり行っています。実際にミュージシャンを連れてきました。今、客員映画製作者を考えています。
Stephenは先駆者で、最初のものでした。Labsの大きな価値の一つは、共創することです。ただ物を作って投げ出すのではなく、実際に業界の人々と一緒に作りたいのです。そうすると、「ああ、それはクールなAI機能」というだけでなく、ワークフローに入り込むことができます。
Stephenのような、12冊以上の本を書いた人と働くと、彼が考える特定の方法や、ソースや引用に対する尊敬がすべてNotebook LMに反映されます。音楽やビデオ、他のものでも同様のことをしています。」
目標は、ゼロから100億までスタンドアロンで持っていける新しい製品を作ることですか？それとも、Notebook LMのような製品市場フィットを見つけ、それをGoogleの本体に組み込むことですか？
「最初に始めたとき、それはすべて「何かを構築し卒業させる」というような伝統的なインキュベーターモデルでした。それが進むにつれて、いくつかのケースでそれを行ってきました。AI StudioやGemini APIのように、卒業してDeepMindに入り、彼らがそれを引き継いでいます。
Notebook LMのようなものは、今後しばらくLabsに残しておくつもりです。なぜなら、それは異なる生き物だからです。AIでのみ可能なものであり、現在取り組んでいる多くのものも同様です。これらのうちいくつが実際に脱出速度を得られるかを見なければなりませんが、それらをビジネスに変え、持続可能にすることに本当に興味を持っています。
それが実際に焦点となっています。大きな賭けをして、それはあなたの指摘に戻りますが、これらの多くはうまくいかないでしょう。なぜなら、すべてがうまくいっているなら、十分に大きな賭けをしていないからです。
そのバランスを見つけようとしていますが、間違いなく「これをビジネスにできるか」から始め、もしそれを卒業させることになっても、それでも私たちにとっては良い結果です。別の良い結果は、それを停止し、損失を切り捨て、100日のスプリントを行い、次のことに移ることです。」
エピソードの最初に、最も興味深いプールが何かについてトップダウンの考え方をしていると言いましたが、2025年に構築する最も興味深いプールについての予測は何ですか？どこで人材を採用していますか？どこを嗅ぎ回っていますか？DeepMindの人々と何を共創していますか？
「エージェント、ビデオ、コンピューター使用など、私たちが話したことで多くのことが起こっています。しかし、それらのプールを少し異なる方法で考えています。
「Labsは未来のコレクションです」というドキュメントがあり、未来に関する82の予測があります。これは一つの予測をするだけでも危険なのに、82もするのは危険ですが、チームの思考実験はこうでした。
あなたがこのような部屋にいて、天井が開き、小さなカプセルが降りてきて、私たちはみんなそれに飛び込み、未来に飛ばされます。それは2028年で、あなたは出て5分間見回し、すべてを書き留め、現在に戻されます。そして見たことを書くというものです。
そのようなものがこのドキュメントです。知識の未来はどのようなものか、プロンプトは古風であっても、それはチームに与えた非常に良いプロンプトです。
私たちはそのレベル、かなり高いレベルでそれについて考えています。例えば、知識の未来がどのようなものになるかについて、その予測の一つ、82のうちの一つは、それが無限にリミックス可能で、入ってくるものはすべて変換され、出て行くときに何にでもなれるということです。
それを信じるなら、特定の賭けをし、その未来を念頭に置いて製品を構築します。それがそのうちの一つかもしれません。
しかし、多くの人が聞いている、または構築しているかもしれないものに戻ると、私たちはビデオの瞬間、思考と推論モデルによる非常に興味深いエージェントの瞬間にいると思います。また、まだ少しレーダーの下にあるかもしれませんが、コーディングは今年、大きな飛躍を見せると思います。それらが私たちにとって最も重要なものです。」
Labsでもコーディングに関する仕事をしていますか？
「はい、しています。現在、Googleですべてのコードの25%がAIによって書かれています。これは、進歩の速さという意味で大きく上昇しています。
ここには二つのアプローチがあると思います。再び「バーを下げ、天井を上げる」と考えてください。以前はコードを書けなかった人々がコードを利用できるようにする方法は、巨大な機会です。
私は一生コーディングをしてきましたが、ここで起こっている最も興味深いことの一部は、例えばRepet’sのエージェント機能で遊んだことがあるでしょうか？非常に興味深いです。数週間前、4年生の息子と一緒に、家庭内で家事を実施するのに苦労していました。28分、45セントで家事追跡アプリを作りました。完了し、毎日アクティブユーザーです。
それはソフトウェアと、ある種のソフトウェア豊富な世界に入る方法です。それは本当に興味深いです。その領域でもいくつかのものを持っています。
また、プロのトレーニングを受けたプログラマーをどのように10倍から100倍にするかにも興味があり、その両側に興味深い賭けがあると思います。」
現在のAIで過大評価されていると思うものは何ですか？
「チャットボットインターフェースを少し越えたいと思います。それは一つの領域で、多くの場所でそれを再利用しています、Googleも含めて。また、AIをものに詰め込むような人々がまだ多くいます。AIそれ自体が少し過大評価されています。どれほど破壊的か、または適用する場所について、もう少し正確であれば良いと思います。
既存の製品を取ってAIをボルトオンするのではなく、ワークフローについて多く考えようとしています。それは少し過大評価されているかもしれません。AIの第一世代を見ていて、それを入れるレースがあります。
それは私がGoogleに初めて入った頃、iPhoneの瞬間が起こり始めていた頃を思い出させます。スティーブが2007年に舞台に上がり、「これがiPhoneです」と言いました。3年後のApp Storeを見ると、これはAI革命の現在の位置に近いですが、2009年のApp Storeは調べてみたところ、電話に縮小されたウェブサイト、フラッシュライトアプリ、おならアプリなどでした。これらは最もダウンロードされたものでした。
私たちは、本当のものが今年、来年、再来年に出始める段階にあると思います。それはUber、Airbnb、Instacart、物事の行い方を本当に変えるものが見え始める時です。それが私の考えです。」
Soniaはあなたに過大評価の質問をしましたが、私はレーダー下の過小評価の質問をします。AIの中でもっと注目に値する領域は何ですか？コーディングについて少し話しましたが。
「コードを書き、自己修正し、自己治癒し、移行し、これらすべてを行うことができるコードモデルを手に入れることができれば、それはペースは今でも速いですが、曲線を完全に変えます。それは巨大なものであり、まだ過小評価されていると思います。過大評価されていますが、それでも過小評価されていると思います。それが一つです。
長いコンテキストまたは無限のコンテキストが何を意味するかという概念を完全に内面化していないと思います。それはあなたのパーソナライゼーションの質問の一部にもなりますが、マリナーのようなものが文字通り継続できるようにする方法にもなります。
長いコンテキストの全体的な概念、Googleからたくさん見ることになりますが、私たちはそれに多くを投資しています。それが戦略的なレバーだと思うからです。特にエージェンティックなワークフローを連鎖させるようになるとき、それは重要です。
もう一つは、味覚についての話が十分でないと思います。価値がアプリケーションレイヤーにあると信じれば、AIのスロップがある程度あると信じれば、これらのトレンドのいくつかを見ることができれば、良い味覚と良いデザインに価値があると思います。それは必ずしも人間が作ったものである必要はありませんが、人間が作ったコンテンツが職人的になるにつれて、それにも高い価値があると思います。
それをもう一つ言いたいです。おそらく関連して、真実性と真実、そして何が実際なのかということです。これらは今日既に重要である以上に、もっと重要になると思います。」
コンテキストポイントについて、強く同意します。無限のコンテキストで何が起こり得るかについて。あなたが人生で最も共有コンテキストを持つ関係を考えると、それはおそらくあなたの配偶者でしょう。そして、その結果何が起こるかというと、あなたは文字通り目の動きだけで配偶者とコミュニケーションすることができ、彼らはあなたが何を意味しているか、パーティーを去る時間だというようなことを正確に知っています。
「その通りです。」
これが無限の共有コンテキストで起こり得ることの願望であり、それが上限であることを知っています。現在の状態からどれだけ離れているかを考えてみてください。あなたが何かについて入力していて、あなたのポイントとして、「待って、コミュニケーションの方法はたくさんある」というところです。もしそれがメモリを持ち、あなたをより良く知ることができれば。
「そうですね、継続できることには本当に多くの価値があります。正しいコンテキストと必要なものを与えることです。あなたがバックしている会社やGoogleなどを考えると、最も痛ましいことの一つは長期従業員が去るときです。そのすべてのコンテキストがドアを通って歩いていきます。それは個人的な関係であれ仕事の関係であれ、まさにその通りです。」
では、早いラウンドで締めくくりましょう。準備はできていますか？
「はい、大丈夫です。」
お気に入りの新しいAIアプリは？
「前に言及しましたが、Repetで多くの楽しみを持っています。新しいエージェント機能と電話での機能が非常に興味深いと思います。私たちのパートナーの一人であるAndrew Reedは、素晴らしいミームを作成して送ることで知られています。今や、アプリを作るのがとても簡単になり、彼は常にこれらを作成して私に送ってきます。それらは本当に良いです。」
「私たちには使い捨てソフトウェアという概念があります。一度使って、終わったら捨てるようなものです。」
今年本当にブレイクすると思うアプリケーションやアプリケーションカテゴリは何ですか？
「ビデオです。」
AIの人々向けにお勧めのコンテンツや読み物はありますか？
「これは従来のAIの選択ではありませんが、おそらく多くのリスナーがいるでしょう。休憩中に多くを読み、一つの本を手に取りました。それは実際にレゴの物語で、レゴの歴史です。それは家族所有の3代目になっています。その一つをお勧めします。本当に興味深いです。
なぜかというと、会社の歴史の中で決定的な瞬間があり、彼らは260の製品を持っていて、おそらく多くの創業者が聞いているなら、あなたの会社はすべての異なる方法で行く可能性があり、それを把握しようとしています。そして、祖父である当時のCEOは基本的に小さな積み木を特定し、「これだ」と言って、会社の賭けをし、これらの信じられないほど高価な機械を買いました。
多くの伝記を読むのが好きで、これは本当に際立っていました。」
「Joshは信じられないほど本の好みが良く、彼は素晴らしい読書リストを持っていて、私と共有してくれました。」
「そうなんですか？」
「それは本当によく精選されており、いつ本当に読むべきかそうでないかについての非常に良いフォーマットを持っています。すべてのリスナーに言いたいのは、Joshの提案を真剣に受け止めるべきだということです。」
「実際に私が本当に欲しいのは、素晴らしいAI読書アプリです。それが私のウィッシュリストアプリです。一部には私の記憶が恐ろしく悪いからですが、私が今まで読んだり聞いたりしたもののすべて、それは地球上のすべての本とは異なるセットだと思いますが、舌先にあるような考えやアイデア、つながりがたくさんあります。しかし、それらはすべて一種の深淵にあり、すべて私にとってかなりアクセスできません。
それらの考えやアイデア、私が読んだものを浮上させる何か、私が持っていた思考の次のレイヤー、私が読んだ二つの異なるものについて反省し、それらの間のつながりを浮上させるようなものです。」
「それは良いアイデアです。その中でも、単に紙のバージョン、Kindleバージョン、オーディオブックバージョンがシームレスに絡み合っているような、最も基本的なレベルでも、あなたが好きな何かに継続的に注意を払うことができ、それからあなたが言ったバージョンに到達できるようなものです。」
「スタートアップへのリクエストですね。」
事前トレーニングが壁に当たっていると思いますか？同意または不同意。
「おそらく同意に傾いています。まだ搾り出すべきものはありますが、多くの焦点はシフトしていると思います。」
NVIDIAについては長期保有または空売りのどちらですか？
「私は株のアドバイスはしません。インデックスファンド。」
Demisと一緒に座って、「私たちの間にはノーベル賞を受賞した人がいる」と言ったことはありますか？二人の間にはノーベル賞が一つあるというのは事実のように感じますね。
「それはすべて一方通行です。DemisでもなくJohn Jumperでもなく、それらの人々がノーベル賞を受賞したのであって、Josh Woodwardではありません。」
AIに関するその他の対立的な見解はありますか？
「私はこう思います。生きていて構築するのにどんな時かと考えると、これほど多くの隣接可能性が開かれている窓のような感じです。
二つ目は、聞いている人々に、もちろんモデルと誰が勝っているか、行ったり来たりすることもありますが、あなたの会社に構築している価値は何かを本当に考えることを勧めます。これは、後続の世代を形作るツールが作られる瞬間の一つだと思います。
これは本当に重要で、人々はそれについて考えるべきです。あなたは人々を置き換え、排除しようとしているのか、それとも人間の創造性を増幅しようとしているのか。例えばビデオについて考えるとき、私は人間の創造性を増幅する側にいたいと思います。私たちのバレーではこのような瞬間が起こり、それが世代を超えて変化することがあります。良い方向にも悪い方向にも変わることができます。
この信じられないテクノロジーを持ち、それがますますスマートに、より速く、より安価になるという立場にいる人々に、それを良い使い方をし、下流の結果について考えることを勧めたいと思います。」
「Josh、お越しいただきありがとうございました。この会話を楽しみました。」
「ありがとうございました。」