本動画は、Google DeepMindで働くブラジル人エンジニア、ガス・マルティンス氏への貴重なインタビューである。マルティンス氏は、Googleの人工知能部門で最前線のAI開発チームを率いる立場にあり、特にオープンソースAIモデル「Gemma」の開発において重要な役割を担っている。インタビューでは、彼のキャリア形成から現在の研究内容、そしてAI業界の最新動向まで、内部からの貴重な視点が語られている。
- Google DeepMindで活躍するブラジル人エンジニア、ガス・マルティンス氏との特別対談
- ガス・マルティンス氏の経歴と Google での10年間
- AI技術の進化と組織の変遷
- Gemma 3Nモデルの革新性
- ブラジル人エンジニアとしての軌跡と USP での学び
- エンジニアから研究者への道のり
- 人工知能学習の民主化
- 研究者への道のりと学歴の重要性
- 優秀な同僚たちとの環境が成長を促進
- 困難を乗り越えた学歴形成の道のり
- 大学教育の現代的意義
- Google DeepMindでの日常と著名研究者たちとの交流
- 特権的な環境での成長と学び
- ブラジル人の持つ自己制限的な思考の克服
- 国際競争力と企業家精神への応用
- Gemmaプロジェクトのリーダーシップと成功
- ブラジル発のAIモデル「Gaia」との協力
- 小型モデルの台頭と競争環境の変化
- Gemma 3Nの技術的特徴と可能性
- AIモデルの印象的な推論能力
- AI技術の急速な進歩と現実認識
- AI開発における研究と製品の統合
- AI技術に対する批判的視点と実用性の認識
- デジタル創造力の民主化
- 発見と最適化の段階
- 感謝とブラジル人としての誇り
- 英語コンテンツとリソースの紹介
- 連絡先と今後の展望
Google DeepMindで活躍するブラジル人エンジニア、ガス・マルティンス氏との特別対談
皆さん、こんにちは。今回は、ガス・マルティンスさんとのインタビューを収録しました。彼は、Google内で人工知能の開発に従事するブラジル人で、特にGoogle DeepMindという、Googleの高度な人工知能に特化した部門で働いています。ガスさんは、あらゆる障壁を打ち破り、個人的な偏見もブラジル人が自分自身に対して持つ偏見も乗り越えて、純粋さを武器に、世界中の人々が到達しようとしている人工知能プロジェクトのリーダーシップという地位に到達した、そんな人物の一人です。
今回の対談では、キャリアについて、人工知能について話し、機会を紹介し、変化を示し、AI界の最新動向について、Google内部で日々AI界の天才たちと共に働いている人物の視点から、皆さんを最新情報でアップデートします。これらの人々は、普段私たちがニュースでしか耳にしない存在です。
では、今日はGoogle DeepMind内で最も重要な人物の一人である、ポルトガル語を話すブラジル人のガス・マルティンスさんをお迎えしています。偶然発見した方です。では、ガスさん、自己紹介をお願いします。DeepMindで何をされているのか、どのようにしてそこに辿り着いたのか、視聴者の皆さんにあなたがどのような人物なのかを理解していただけるよう、自己紹介をお願いします。
ガス・マルティンス氏の経歴と Google での10年間
こんにちは、ボブさん、皆さん、こんにちは。私はガスです。Googleで10年間働いています。ロンドンで勤務しており、最初はAndroidのデベロッパーリレーションズとして始めました。当時Androidが全盛期で、皆がAndroid開発について話していた頃です。
2017年になって、私は機械学習の勉強を始めました。当時はまだAIとは呼ばず、機械学習と呼んでいました。これが将来性のある分野だと思ったからです。当時のことを思い出すと面白いのですが、上司に「この分野を勉強し始めるべきだと思います」と話したところ、それが部長まで上がり、返ってきた答えは「いえいえ、それは博士号を持つ人のためのもので、私たちが見る必要はありません」でした。
「わかりました」と答えましたが、勉強を続けました。ここには多くの学習リソースがあったので、その問題はありませんでした。TensorFlowをかなり使い込むようになったところで、「AI チームで働く方がずっと簡単だ」と思い、AIチームに移籍しました。
AI技術の進化と組織の変遷
この移籍について説明しますが、まだDeepMindではありませんでした。なぜこの話をするかというと、視聴者の皆さんに理解していただきたいのですが、私たちは人工知能の変革期を経験しており、DeepMindがますます重要になっていますが、進化がありました。
彼らがTensorFlowを作り、人工知能部門を作り始め、あなたはそのメールに参加していたのですね。まだ「PhD向けのマニアックなもの」という時代で、話からもわかりますが、一般の人々はその存在すら知らず、業界内の人だけが知っているが、外部の人にとってはまだ「変人のためのもの」という時代でした。
2019年に移籍した時は、TensorFlowに移りました。DeepMindはすでに存在していました。2015年頃に設立されたと思います。しかし、Googleには内部研究組織があり、TensorFlow、JAX、Transformersの論文も全てこのGoogle研究エリア内で作られました。一方でDeepMindは、AlphaZero、AlphaGo、AlphaStarなどを作っていました。これらは当時はエージェントと呼ばれておらず、囲碁やチェス、StarCraftを非常に上手にプレイするシステムと呼ばれていました。また、タンパク質をデコードできるAlphaFoldも作りました。
3、4年前に「なぜ2つの研究環境があるのか?全てを統合して一つのことに集中しよう」ということになり、そこからGemini、Gemmaが同じ組織統合から生まれました。
私がTensorFlowエリアにいた時は、まだGoogle側でした。そして最初にGemmaの開発を始めましたが、年末から今年の初めにかけて、私のチームがDeepMindに買収され、全員がDeepMindに移籍しました。現在はプロダクトマネージャーとして、Googleのオープンな言語モデルであるGemmaモデルと一緒に働いています。これらは、アクセラレーター、GPU一つあれば実行できるモデルで、超強力なマシンやハードウェアは必要ありません。そして、これらは非常に強力です。チームと彼らが生み出す結果をとても誇りに思っています。
Gemma 3Nモデルの革新性
実際に、私はここでチャンネルを運営している経験から、視聴者の皆さんのコメントを受け取ります。彼らが気に入らない時は気に入らず、気に入った時は気に入ります。Gemmaは逆で、Google I/Oでのあなたのインタビューが出た時、皆が「Ollamaでいつ出るのか?」と質問していました。皆がすでにそれが優秀なモデルだと知っていて、どうやって使い始められるかを知りたがっていたのです。
Gemma 3Nは私たちの最新モデルで、小さなデバイス向けに設計されており、最大サイズは4Bという比較的小さなサイズです。しかし、使ってみると「4Bモデルにしては驚くべき性能だ」と感じるでしょう。
3月にリリースしたGemma 3は、1B、4B、12B、27Bの4つのサイズで提供されており、4Bは本当に強力です。LM Arenaでのスコアを見ると、100倍大きなモデルを上回っています。4Bには限界がありますが、27Bは30GB程度のRAMがあるマシンがあれば実行でき、MacではRAMとGPUが混在しているので、Ollamaで量子化して実行すれば、あなたのマシンで動作します。
ブラジル人エンジニアとしての軌跡と USP での学び
これは本当に別次元の話です。天才児のような小さなモデルですが、すでに先を見据えた頭脳を持っています。
あなたの歴史に戻りましょう。Googleの興味深い歴史の一部を歩んできたからです。今日では、TensorFlowが何なのか知らない人もいます。なぜなら、GoogleのAIの名声は今、皆が見ているもので、ChatGPTが世界で人工知能を始めたという名声で、Googleは後から追いかけているように見えますが、実際はそうではありませんね。彼らはすでにやっていて、オープンプロジェクトのTensorFlowもすでに動いていました。
私が2019年にチャンネルでプログラミングを始めた時の動画には、TensorFlowとKerasを使った方法が紹介されています。他にも多くのことが起こっていて、ガスさんはその旅路を通り、歴史を作り、現在はDeepMindに入っており、まさにそのDeepMindが研究を行い、AlphaGoなどを作っていたのです。
あなたが言った面白いことは、人々はそれをエージェントとさえ呼んでいなかったということです。この名前は最近始まりました。
そうです。だからこそ、人々が「エージェントとは何か?」と聞くと、「AIを持つアプリケーションで、何かの目標を達成するもの」と答えますが、私たちはかなり前からこれをやっています。ただ、物事が新しい名前を得るのです。AI自体も、数年前まで私たちは常にML、機械学習と呼んでいました。これはAIのサブフィールドですが、マーケティングが来て、AIが今のAIになりました。
私はこの変化全体に参加しました。以前は画像分類モデルの作り方や、表の値予測モデルの作り方を教えていましたが、今日では、もうモデルの構築方法についてプレゼンテーションをすることはありません。LLMのファインチューニング方法についてプレゼンテーションをします。これは少し違いますし、実際にはかなり違います。
エンジニアから研究者への道のり
今は研究者がそれをやりますが、ツールを使用する人のプロフィールと彼らが知りたいことが大きく変わったと思います。私はこの道のりで想像できるすべてに参加しました。
この人工知能の変化は本当に信じられません。私が修士課程にいた時のことを思い出します。私の修士論文は知的エージェントについてでしたが、まだLLMはありませんでした。2019年のことで、舞台裏では人々がLLMについて話し始めていましたが、まだほとんどありませんでした。
例えば、今エージェントについて話すとき、私は以前からエージェントと働き、研究していたので、エージェントについてより深い理解を持っています。しかし今、私の視聴者、チャンネルの人々は皆、以前は技術的な人々、Pythonの人々、プログラミングの人々、オタクでしたが、今日では、マウスとコンピューター、携帯電話を使える人なら誰でも私の視聴者になっています。
今日では、オタクたちは「LLMはAPIで会話するだけだから、あまり好きではない」と言っています。彼らにとってはシンプルすぎるのです。これは興味深い変化で、実際にいくつかの用語を変更します。今日の開発者とは誰なのか?開発者とは何なのか?
同僚とポッドキャストをしていて、AI(人工知能)の人々とは誰かについて話していました。以前は研究者、フレームワークを作る人々でしたが、今日では、これらのモデルを使って何かを作る人なら誰でもAIの人になれるでしょう。
さらに進んで、GeminiなどのAPIを使うだけでなく、そのAPIを使ってアプリケーションを生成することもできます。すると、ポルトガル語しか話せない人でも、そこからアプリケーションを生成でき、5年前には考えられなかった小さなツールを作ることができます。
人工知能学習の民主化
皆がAIを学びたがっていた時、「AIを始めるには何を知る必要がありますか?」という質問がありました。答えは「Pythonと、当時はKerasかTensorFlowというAIフレームワーク、そして数学と英語を知る必要があります」でした。ほとんどのマニュアルが英語だったからです。今日では、ポルトガル語を知っていればそれで十分です。あるいは、モデルとコミュニケーションできる言語なら何でもです。
これは非常に興味深い効果でした。私のチャンネルでは、以前は技術的な質問、ライブラリのインストール方法、モジュールエラーなどがたくさんありましたが、これらの質問は消えました。今日では、これらの質問をCtrl+C、Ctrl+VでLLMに投げれば、あるいは統合されたアイデアを持つ人なら、非常に簡単に解決できます。彼らは何が起こったエラーさえ知らないまま、AIが解決してしまいます。
これは信じられないことです。私たちは皆が物を作ることにアクセスできるようにしているのです。この最終的な影響がわからないのですが、本当に興味深い変化です。
研究者への道のりと学歴の重要性
キャリア、研究、研究者の軌跡について質問ですが、何を勉強したのか、研究者の道のりはどのようなもので、いつかDeepMindに到達する人の道のりはどのようなものか。AIに興奮している人、アシスタントを作っている人もいれば、研究者になりたい人、あなたのレベルに到達したい人もいます。どのような道のりで、どうやってそこに到達したのでしょうか?
私はコンピューターサイエンスを専攻し、コンピューターサイエンスの修士号を持っています。常に開発者として働いており、常に非常に技術的でした。2019年にAIで働くためにチームに移った時、私はすでに勉強していたすべてを持っていました。数学の部分、コンピューターの部分、モデリングの部分を知っていました。
今日、誰かが研究者になりたい場合、本当の研究者、つまりこれらのモデルを作っているリサーチャーになりたい場合、彼らのプロフィールはより学術的に焦点を当てています。なぜなら、論文を書く方法、科学的研究プロセスを知る必要があり、物事をテストし、研究し、進歩しているかどうかを検証するためのテストをする必要があるからです。
これらのモデルは今日、「アーキテクチャを少し変更してテストしてみよう。改善されなかった?戻ってもう少しテストしよう」ということが多いです。理論をテストし、他の人の論文をテストするので、多くの研究があります。
私は研究にこれほど近くいたことがありません。人々が論文を読んで、翌日それを実装している。Androidで働いていた時や、何年も前に金融市場で働いていた時は、人々が論文を読むことが少しありましたが、今日は本当に興味深いです。先週の論文がすでに他のモデルに影響を与えていて、「おい、これを使うのはクールだ」と言えます。
研究者にとってはそういうことですが、DeepMindの観点から特に気づくのは、人々が技術的に非常に優秀だということです。Googleで働いていた時もすでに非常に賢い人々と働いていましたが、DeepMindではさらにレベルが高いと思います。開発者関係やサイエンティスト、研究者、プロダクトの人々、皆が自分が話していることをよく知っている必要があります。
今日でも、私はプロダクトマネージャーとして、理論的にはコードやそのようなもので評価されるのではなく、他のことで評価されますが、ノートブックをテストし、レポートを生成するためのテストをしていました。これは一般的なことです。技術分野が好きで、物事がどのように機能するかを理解したい、深く掘り下げたいなら、多くの可能性があると思います。
優秀な同僚たちとの環境が成長を促進
私が職業人生で学んだことは、自分より優秀な人々と働いている時、人は大きく成長するということです。そこにいて、コーヒーを飲みながら話すだけで学び、違った見方ができるようになります。これは大きく助けになります。
確かに、環境が人を押し上げます。彼らはあなたに疑問を持たせ、そうでなければ疑問に思わなかったであろうことを考えさせます。答えられない質問をされて、「まずい、この人を答えなしに置いておくわけにはいかない。彼はとても優秀だから、追いかけなければ」と思い、同時に彼らもあなたに対して同じことを思います。「この人には良い答えをしなければ」と。
これは興味深いことです。あなたがUSPで勉強したことがわかりましたが、これは非常に重要なことです。私もUSPを卒業していて、心理学を専攻しました。あなたが話していることは、私がUSPで感じていたことと同じでした。そこにいる人々は、くだらない質問やくだらない会話をしません。人々は普通ですが、あなたが加速すると、人々も一緒に加速します。これは大きな違いを生みます。
私はチャンネルでこのことをよく強調しますが、ブラジルには少しの「オタク恐怖症」があり、人々は勉強したがらず、USPは金持ちのための場所だと思っています。USPに行ったのは、お金持ちだったからですか?それとも非常に優秀だったからですか?この話を説明してください。
困難を乗り越えた学歴形成の道のり
いえ、高校時代は無料のひどい技術学校に通っていました。誰かが私に聞いたら、「ほぼ3年間休んでいた」と言います。ほとんど何も学ばなかったからです。それはデータ処理のコースでしたが、公立学校にはリソースがなく、コンピューターもなく、夜間コースでした。なぜ夜間を選んだのかわかりませんが、何も学ばなかった3年間でした。
3年生の時、両親に「僕は大学入試に合格する条件がない。なぜなら技術コースだったので、化学、物理、高度な数学、高度なポルトガル語を学ばなかったから。技術的なことを学んで、卒業したらすぐ働くためのものだった。良い大学に行きたいので、予備校に通えますか?」と話しました。
そこで彼らは何とかお金を工面し、予備校に通いました。朝は予備校、午後は勉強、夜は学校に行って3年生を終了しました。その年は本当に頑張りましたが、合格しませんでした。翌年、両親は再び予備校の費用を払えませんでしたが、「大丈夫、問題ない」と言いました。そして一日中勉強し、すべての教材、すべてのテキストをやり直しました。
当時、私はもう少し年上で、インターネットが私の大学2年生の時に到来したので、年代を特定したくありませんが、「この研究をしよう」ということが簡単ではなかったことを想像してください。同じ道のりを歩んでいる多くの同僚もいませんでした。ほぼ一日中勉強していましたが、夜は両親を安心させるために別の大学を始めました。「大学なしで過ごすつもりか?」と言われ、「いえ、大丈夫、夜間の大学に行きます」と答えました。数学の大学でした。
次の年、頑張って頑張って合格しました。その数学の大学の1年間は比較的簡単で順調でしたが、USPに合格してから6か月で、1年間の大学で得たすべての知識が終わりました。すべてが終わり、「うわあ、もう終わった、彼らはもう先にいる」と思いました。それははるかに厳しいものでした。
しかし、そこで非常に異なる世界と向き合います。大学とは、異なる地域、異なる習慣を持つ多くの異なる場所の人々を集めることです。教育は非常に良いですが、異なる扱い方、異なる習慣を持つ人々を知ることで、人がより良い世界観を持てるようになります。今でも大学時代の友人が多くいて、話をしますが、それは異なる世界です。この経験を強く勧めます。
大学教育の現代的意義
「Geminiに何でも質問できる世界で、大学はまだ重要だと思いますか?」という質問をよく受けます。私は「はい」と信じています。勉強し、「この問題を解決しよう」「異なる人々と対処しよう」という習慣を身につけることを信じています。大学は、完全に異なる人々と対処することを教えてくれました。高校まではまだ子供で、少なくとも私の時代はそうでした。
私の場合も非常に似ていました。計算をしてみて、大学に行こうと思っていましたが、働き始めて大学のことを忘れていました。価格を見て「大学の費用を払えない、お金がない、もう働いている」と思いました。同じことをして、「予備校にすべてを投資し、何も払わない場所に入るためにすべてのチップを予備校に置こう」と言いました。3年間予備校に通って、ようやく入学できました。
興味深いことは、私の場合は逆効果がありました。心理学をする前に他の心理学コースの質量がわからなかったのですが、卒業後に他の大学を見て教えている時、「この人たちが5年かけることを、USPでは6か月で学ぶ」と思いました。卒業後にそれが外でどうなっているかに気づき、「神に感謝、あそこで正解だった」と思いました。私はとてもオタクで、そうしなければならなかったからです。
そこでの教育は非常に強いです。到達するために努力しましたが、価値がありました。私は後悔ゼロです。それは私が持った最良の選択でした。多くの扉を開き、後で私を助けてくれた多くの人々に出会いました。
最初のインターンシップ、最初の仕事を始めたのを覚えています。4月4日に始まりました。年は言いませんが、4月4日でした。4月3日に始まる予定でしたが、それは私の誕生日だったので、「誕生日に働く人はいないでしょう?」と言いました。翌日着いたら、「なぜ昨日来なかったのですか?」と聞かれ、「誕生日だったからです」と答えました。私は世界について全く無知でした。
大学の同僚のスタートアップで始めました。彼らはすでにスタートアップをやっていて、そこで働き始めましたが、残念ながらインターネットバブルがあり、多くの人々、多くの企業に打撃を与えました。その後、別の同僚が別の場所で私を推薦してくれ、そこでほぼ10年間続けました。友情を築き、助け合うネットワークを作ります。これは今日、開発コミュニティに参加すれば少し得られるものです。当時は知りませんでしたが、今日はもっとあります。例えば、Pythonについて話すなら、Pythonコミュニティがあり、講演をし、Pythonの良いことについて話すことができます。これは参加する価値のある別の素晴らしい世界です。
Google DeepMindでの日常と著名研究者たちとの交流
現在DeepMindにいて、Demis Hassabis、Geoffrey Hintonの側にいるのはどうですか?Geoffrey Hintonは論争の後に去りましたが、あなたが到着した後だと思います。
いえ、Jeff Hintonは私がそこにいた時はGoogleにいました。これらの人々とエレベーターに乗ることがあります。彼とも、Demisとも、Jeff Deanとも話したことがあります。Jeff Deanは私がインタビューした人で、話しかけたことがあります。もちろん彼は覚えていないでしょうが、話したことがあり、とても人当たりの良い人です。Kerasを作ったFrançois Cholletとも話したことがあります。
Demisは私と同じビルで働いていますが、まだ話したことはありません。
継続する前に、視聴者のためにDemisについて説明すると、彼は化学分野でノーベル賞を受賞しました。ここブラジルではノーベル賞受賞者がいないのに、彼はノーベル賞受賞者と働いています。彼はイギリスの「Sir」でもあり、イギリスの名前を高め、認識されることで得られる称号です。
彼は非常に知的な人です。彼が話すプレゼンテーションに行くと、彼が知っていることについて話しているのがわかります。彼は印象的です。François Cholletは今、Arc Prizeで有名です。100万ドルの賞金で、彼が作った知能テストに勝つというものです。
Kerasライブラリを作った人がArc Prizeをやり、もう一人はノーベル賞受賞者。この環境は違いを生み、あなたを押し上げます。
特権的な環境での成長と学び
ブラジル人として泡を破り、Gemmaで働いています。私は特権的な立場にあることを否定できず、文句を言うことはできません。優秀な人々と働いており、私の認識を大きく変えたことがあります。
金融市場で働いていた時は本当に頑張っていましたが、そのような場所で働けるなんて思ったことがありませんでした。そのような人々を知らなかったからです。ある会社で働いていた時、話していた同僚がいて、彼はずっと若かったのですが、後に入社しました。しかし、レイオフがあり、彼は解雇されました。しばらくして、彼はブラジルのGoogleで働いていました。
ある日彼が「ガス、昼食を食べに来ませんか?」と言いました。「わあ、あなたはGoogleで働いているんですね」と言いました。何かが変わる瞬間があります。「わあ、そこで働くことが存在するんですね。そこで働けるなんて素晴らしい。」
当時、彼らのオフィスで昼食を食べていました。無料の食事、良い食事で、「わあ、これが私が欲しいものです。ここが私が働きたい場所です。これらの人々と働きたいです」と思いました。そして全てのプロセスを経ました。しかし、私は同僚が私に見せてくれたからこそ、この選択肢があることに気づいたのです。実際にGustavoという同じ名前の人でした。「わあ、この選択肢が存在するんですね。これができるんですね。」
ブラジル人の持つ自己制限的な思考の克服
これは信じられないことです。私も同じような経験をしました。これはブラジル人が100%、北から南まで経験することです。彼らは自分にはできないと思い、外国人が持っていて自分たちが持っていない何かがあり、何らかの理由で彼らの方が優秀だと思いますが、これは全て私たちが頭の中で作った話です。
私の場合もそうでした。心理学者として、イノベーション研究所で働き始めた時、「どこにいるんだ?機械をいじり、ロボットをいじっている」と思いました。私はただの心理学者で、USPの心理学者でも誰も尊敬しません。ゼロです。しかし、突然そこで人々と共に生活し始めて、「これは私の頭の中、心の中のことだった。ただ履歴書を出して、うまくいくと信じる必要があっただけだ」と気づきました。もちろん、私も勉強し、能力を身につけ、技術コースを受け、大学院に行き、そこに到達するまで能力を身につけました。ただ人生を楽しむだけではありませんでした。
この話題を取り上げる理由は、視聴しているあなたが「自分にはできない」と思っているからです。あなたは世界の他の部分が話をするのを見慣れていて、ヨーロッパを見て「ヨーロッパは世界の最高だ」「アメリカ、中国、そしてブラジルはいつも遅れている」と言います。しかし、そうではありません。この考えを頭から取り除かなければ、「合格する」と信じて履歴書を送ることは決してないでしょう。
ブラジル人であることは欠点ではありません。あらゆる人と同じチャンスがあります。運については、運は準備された人にのみ有効だと思います。素晴らしい機会があっても、それを活用する準備ができていなければ、何の意味もありません。自分の部分をやれば、もちろんそれが何も保証しないのは明らかですが、勉強し、コミュニティに参加し、オープンソースプロジェクトで働き、この可視性を作っていけば良いのです。
国際競争力と企業家精神への応用
この進化は、働いている人だけでなく、「外国でOpenAIを開設できない」「何かを試すことができない」と思っている企業家にも当てはまります。彼らは外を見て、外国で作られた何かの製品のスタートアップになることに甘んじてしまいます。
私はHosエアロナバルの人々と働いたことを覚えています。彼らは農業監視システムを作りました。彼らは機械工学の授業で最悪の生徒でした。落第生でしたが、プロペラのない固定翼ロボットをやっていました。これは飛行する一種のドローンです。彼らは農業監視システムを作りました。なぜでしょうか?頭の中で、彼らはすでにドローンをいじっていて、ドローンの方が速かったからです。プロペラがなかったからです。彼らは純粋さのために、ブラジル国内外で基準となりました。
この純粋さは重要です。人はやり続け、やり続け、やり続けて、気づいた時にはもう到達しているのです。
Gemmaプロジェクトのリーダーシップと成功
困難は、成功する人の頭の中で異なる効果を持ちます。困難は「これを通り抜けなければならない、もう一つの挑戦だ」となります。頭の中で異なる効果を与えます。「どんなに困難でも良い。悪化した?今こそ行く時だ」と言います。
あなたがリーダーシップを取っているGemmaは、AIに焦点を当てた最も成功した製品の一つです。一般ユーザー向けで、家庭でAIを実行するものです。このGemmaの話にどう到達したか教えてください。
私は開発者関係者で、AIをやっていて、私たちは「自分たちのオープンモデルが必要だ」と言いました。当時はLlamaがあり、Mistralも出ていたと思います。日付を確認する必要がありますが、「皆さん、モデルをリリースしましょう。Gemma 1をリリースしようとしていました」と言いました。
戦略は研究者がこれをやり、研究者は「これをやって、論文を作って、最高のモデルになる」と考えますが、「論文、GitHubに置く」という感じでした。私は「絶対だめです。誰もこれをやりません。エンドユーザーにとって最高のモデルになる方法でやらなければなりません。会社も利益を得なければなりません」と言いました。
Gemma 1をリリースした時、市場の多くのツール、すべてではないかもしれませんが多くと互換性があり、Google製品自体とも互換性がありました。これは私が常に推し進めてきたことです。「モデルが出る時、それは出た時点で最高のモデルですが、その後も進化は続きます。しかし、すべてのオープンツール、Googleツール、内部統合とも互換性があります。」これは「モデルを作って終わり」ではありません。これは製品で、ユーザーへの配慮、それを使う開発者への配慮、コミュニティへの配慮が必要です。
これが違いを生むと思います。今年Gemma 3をリリースした時のブログには「今日、私たちは1億ダウンロードを持っています」と書かれていました。1年でゼロから始めて1億ダウンロードです。この週、プレゼンテーションをしていた時、数字はすでに1億7000万になっていました。4か月で70%の増加です。
ダウンロードだけが最良の指標ではありませんが、クラウド使用量、エンゲージメント、コミュニティなど、様々な場所でこの増加を見ています。続けて作業を続け、「最高のオープンモデルで最も使いやすい」という目標を続けていけば、うまくいっています。
I/Oでたくさんの素晴らしいものを見せました。あなたが感動したDelfin Gemmaもあります。私たちがやることは、コミュニティを考えて「これらの人々を助ける最高のモデルをどうやって作るか」と話すことです。デプロイしたい企業、モデルを制御したい企業もいるでしょう。最良の選択肢は常にGeminiを使うことではありません。医療分野にいる場合、患者のデータをクラウドに送ることさえできません。金融、法務にも様々なユースケースがあります。
ブラジル発のAIモデル「Gaia」との協力
今日知ったニュースですが、連邦ゴイアス大学(UFG)のGaiaという企業があります。このGaiaについて教えてください。
Gaiaについては、昨年からこの人たちと働いています。彼らは巨大なデータセットを持っており、それも近々リリースすると思います。私は「データセットをリリースするなら、同時にモデルもリリースする方が意味がある。『データセットがあります、私たちが作ったモデルがあります』と言えるから」と言いました。当然、私はGemmaベースのモデルを作るように誘導しました。
これらの人々と働き、現在も働いています。しばらく時間がかかりましたが、残念ながら彼らはGemma 2で作業していましたが、Gemma 3が出て、少し違います。ファインチューニングを手伝い、できる限り彼らを支援しましたが、功績は完全に彼ら、UFGの人々のものです。彼らは本当に頑張りました。
今週火曜日にGaiaがリリースされ、すでにHugging Faceにあります。ダウンロード可能で、ポルトガル語用にファインチューニングされたGemma 3 4Bモデルで、ポルトガル語で最高のモデルになることを目指しています。すでにゴイアス州会計裁判所などが使用していると思います。
「これは素晴らしい」と思いました。この影響は素晴らしいことです。あなたは「すごい、この影響は素晴らしい」と感じ、とても嬉しくなります。
小型モデルの台頭と競争環境の変化
これはまさにそうです。人々がモデルのファインチューニングを始めた時、人々が使っていたのはLlamaでした。PerplexityはLlamaを使い、いくつかの企業がLlamaを使いました。DeepSeek R1が出ると、人々はDeepSeek R1に移行し始めました。PerplexityもR1にアップデートし、MaritacaもLlamaを使っていました。Maritacaが R1にアップデートしたかどうかはわかりませんが、推測です。
しかし今起こっているのは、Gemmaが話題の中心になっていることです。Gemmaは単純に驚かせたからです。このニュースを見た時、コメントで人々が「このGemmaを見てください、ゴイアス州会計裁判所があるから」と言っていました。
まさにそうです。ゴイアス州会計裁判所とレシフェ先進システム研究センターです。これらの小さなモデルの利点は、ローカルで実行できる機密性とシステムの制御です。
4Bは、努力すれば電話でも動作します。電話での実行について、Gemma 3Nのリリースには、同僚が作ったビデオがあります。完全に電話で動作するAstraのようなものです。Astraは、歩きながらビデオに質問できるものですが、これは完全に電話で動作し、サーバーやテクノロジーの山は必要ありません。
このデモを初めて見た時、「すごい、でも待って、これは電話で動作するモデルなのか?」と言いました。「そうです」と彼女は答えました。非常に賢く、素晴らしい人と話すのが楽しい人でした。「これは信じられない、これを見せなければならない、これは信じられない」と言いました。
これは信じられないことで、例の一つに過ぎません。たくさんの素晴らしいデモがあります。急速に進歩しています。
Gemma 3Nの技術的特徴と可能性
Gemma 3について質問ですが、異なるアーキテクチャを持っているのでしょうか?単純にナノバージョンなのか、Ollamaで出るのか、人々が待っています。
3Nですね。3Nと通常の3との違いは、背後にあるアーキテクチャが異なるアーキテクチャで、まもなく論文を発表します。OllamaでもHugging Faceでも、すべてのプラットフォームで利用可能になります。私たちはAI StudioとEdgeで最初のリリースをしただけで、電話で直接実行できますが、他のすべてのGemmaと同様に、すべてのオープンプラットフォームに来ます。少し遅れましたが、まもなく来ます。日付は言えませんが、まもなくです。
もう一つの違いは、40億パラメータで、3N は3 4Bより優れており、さらにオーディオを処理できます。モデルと話すことができ、オーディオを送ることができ、同じプロンプトでオーディオ、テキスト、画像を送ることができます。オーディオ内の何かを画像に関連して注意するよう指示を与えることができます。完全にマルチモーダルで、3つの入力モダリティを持ち、テキストのみを出力します。
このモデルは、Pixelやその他のデバイスで動作するGemini Nanoの基盤となります。同じモデル、同じアーキテクチャです。
このモデルが出た時、私は本当に感動しました。長年この分野で働いていて、毎日やっていますが、感動しました。Gemma 3が出た時と同じように感動しました。
AIモデルの印象的な推論能力
Gemma 3について、私も感動しました。印象的なものでした。研究者が見せてくれた例があり、ビデオにも撮りました。彼女は自分の搭乗券を取って「この便に乗ります」と言い、画像だけを渡し、他に何も説明せず、搭乗券の画像、ロンドンの地下鉄地図の画像を置いて「King’s Cross(私たちのオフィスがある場所)から何時に出発する必要がありますか?」と聞きました。
モデルは「ヒースローに到着する必要があり、便は何時で、ここからそこまで何時間かかります」と逆算して計算を始めました。「便は何時なので2時間前に到着する必要があり、セキュリティのために30分、電車で1時間かかります」と全ての計算を逆算しました。
私は「すごい」と言い、ある時点で「ここが間違っていると思う」と思いましたが、「いえ、正しいです」と全体の逆算でした。「すごい、これは期待していませんでした。」
3Nでも同じような印象を受けました。Astraのデモと同じようなものでした。「これは別世界だ、毎日一緒に働いている人たちだ」と思いました。
私も全く同じ感覚でした。テストして「いえ、これは不可能です」と言いました。インターネットが接続されているか確認し、何か間違ったことをしたのではないかと思いました。信じられませんでした。
コメントでも確認されました。人々が「3Nが欲しい、Ollamaでいつ出るのか?」と不満を言っています。
まもなく、まもなく。安心してください、来ます。
AI技術の急速な進歩と現実認識
これは非常に奇妙です。私たちが話していることは、考えられないことでした。多くの人がAIはハイプだ、あれこれだと批判していますが、私たちがこの分野に長年いる者にとって、AIはハイプではありません。AIは70年以上前からそこにあり、進歩し続けているだけです。今起こっていることは、人々が不可能だと考えていたことで、誰ももう覚えていませんが、それが実現された今、もう不可能ではありません。
解決された後は、もう不可能ではありません。ハイプがあると思いますが、私は現実に非常に密着しています。懐疑的で、誰かが何かを言って、私が精神的にそれを想像できない場合、それは私にとって困難です。これは私の困難です。モデルが何かをしているのを見ると、「すごい」と本当に感動します。なぜなら、そこに行ってテストし、失敗させようとするからです。
これは多くのことを可能にし、私の推奨は、懐疑的になることはできますが、この技術を使わないことはできません。GPT-2や3が出た時、私はすでにAIの世界に長年いたので、多くのことに気づきませんでした。競合他社のChatGPTをテストしませんでした。「彼らはより良いオートコンプリートを作った」と思っただけでしたが、明らかにより良いオートコンプリートではありませんでした。それは進歩でした。
毎日テストし始めて初めて、物事が想像以上に良いことに気づきます。私たちのモデル、GeminiやPaLMが出た時、毎日テストしていました。限界まで押してみたかったのです。私と2人の同僚でチームを組んでいて、時間があるときはハッカソンに参加します。毎年、時間があるハッカソンにすべて参加しています。これにより、まだ誰もやったことのないことをテストすることを強制されます。
クレイジーなアイデアをたくさん試し、新機能があると、あなたが言った想像できないものをテストできるようになります。そして、そこまで行けることに気づきます。これはテストし、実験したからこそ発見できることです。
最も重要な推奨は、行ってテストすることです。Geminiでも良いので、AI Studioに座って、Gemini 2.5で遊んで、何ができるかを見てみてください。おそらく驚くでしょう。
AI開発における研究と製品の統合
まさにそうです。すべてのモデルを、直感的なレベルまで使用して、「このモデルはこれに耐えられる、あれに耐えられる、でもこれは無理だ、これはうまくいかない」とわかるようになる必要があります。すべてのモデルでこれをやっていくと、何が可能で何が不可能か、何が現実で何がフィクションかについての意見を持ち始めます。
この話で興味深いのは、以前は基礎研究をするオタクのAIチームがあり、彼らの機能は論文を発表することでしたが、今は製品と統合されたチームがあり、人々が使用できるようにそれを準備するということです。これがあなたが今生きている瞬間で、この仕事をしているのですね。オタクと洞窟に籠もった研究者と、「モデルが欲しい、モデルが欲しい」という人々の間の統合ですね。
これは大きく変わったと思います。以前は研究者がそこにいて、作って、リリースしていましたが、何度も私は「なぜこのリリースをしたのか、もっと良くできたのに」と批判しました。今日、私は監視していれば悪いリリースは起こらず、できる限り最良の方法で起こるという立場にいて、良かったです。
私は一人ではなく、誰がターゲットオーディエンスか、どこにいるべきかについて非常に似た視点を持つ他の人々に囲まれています。例えば、3NがOllamaにあるかと聞かれましたが、そこにある必要があることを知っています。Ollamaを使うのがいかに簡単かを知っているからです。「ollama run」と入力するだけで完了です。
成功するチームには、強力なモデルを理解し作ることができる人から、新しいテクニック、データの改善、トレーニングを理解する人まで必要です。これは非常に複雑な作業ですが、外にいる人が「このプロダクトをどうやって最良にするか」を知っている人も必要です。どのようなツール、援助、ドキュメント、例、ビデオなどを配布するかです。あなたが行って使って「素晴らしい、これはうまく機能する」と言えるようにです。
これは私たちが変化だと思うことで、プロダクト全体の道のりを取ることです。私たちはOKにやっていると思います。
AI技術に対する批判的視点と実用性の認識
あなたが強調した興味深い点もあります。GPT-2が出ていた時、それらのモデルを統計的な次の単語の予測器、古い技術のバイグラムのようなものとして見る技術分野の痕跡が確実にありました。注意モデル、Transformersの注意の概念、その高度な補完器を多言語の会話プログラマーに変えたいくつかのものがありませんでした。
今日、多くの人が「このAIは知的ではない」と批判しています。Nicolelisは「知的でも人工でもない」と言います。これは非常に公正で、人々は批判すべきです。ただ流行だからといって抱きしめる必要はありません。
しかし同時に、批判者の中には「知的ではないし、だから何の役にも立たない」という反対の否定主義に入る人もいます。これは完全に間違っています。プログラミングがどうやって問題を解決できるか、テキストを分析する方法について、これらのモデルができる方法は古典的プログラミングでは解決できない状況があります。
長年開発してきましたが、このようなものは存在しません。今、エージェントと共に、一つのモデルが別のモデルと話し、ツールを持ち、より大きなメモリを持つことで、これは他の多くのことを可能にします。これは始まったばかりです。
これは学ぶ絶好の瞬間だと思います。次の進歩はここから来ると思います。遊び、テストし、行って顔を突っ込んでテストする必要があります。
最近、私は通常Cursorのような開発ツールをあまり使いません。個人的には使わず、Colabを多く使います。習慣のためです。最近Firebase Studioをテストしていました。彼らにはプログラミングエージェントツールがあります。一つのプロンプトで、ジムのトラッキングアプリケーションを作りました。「運動、重量、反復回数をトラッキングするアプリが欲しく、プログラムを入れて、それが私を助けてくれる」と言いました。
一つのプロンプトで、小さなプロンプトで、最初からできました。「冗談でしょう?冗談ですか?」と言いました。そして機能しました。テストして「すごい」と言いました。自分のジム運動トラッキングアプリケーションを作りました。
「誰にこれを渡すのか?」と言うかもしれませんが、これは私のためです。自分のツール、自分のハンマーを作りました。欲しい通りのハンマーを作ることができます。これは新しいことです。
デジタル創造力の民主化
これは非常に新しく、私が作ったビデオの一つで、まさにこのことを話しています。今日、一般人、一般ユーザーはブラウザをインターネットを使う場所として見ていますが、今日、ブラウザ内で動作するコードを作成できるAIがあるため、一般ユーザーはブラウザを自分のアプリ、自分の小さなシステムを実行できる場所として見る必要があります。
HTMLや小さなWebコードを生成し、データベースと統合し、仕事を助ける小さなシステムを作れば、製品を作るつもりはないが、日常で使う小さなツールをたくさん作ることができます。
チャンネルで、2023年にPythonで動作するヘビゲームを作ろうとして壊れて動かなかったビデオから、モデルがヘビゲームを最初から作るようになり、テトリス、車のゲームに進歩し、今では「アプリケーションを作って」と一つのプロンプトでアプリケーションができ、「推奨付きのウェブサイト全体を作って」と言えば作ってくれる、エージェントと共に進歩しました。
私が毎日これと働いているにも関わらず、どこに向かっているかに驚きます。だからこそ、行ってテストし、これらのツールで遊ぶことを勧めます。あなたは驚くでしょう。
これは信じられません。私たちが多くの人が本当にGPT-2やそれらのモデルが、スケーリング法則が機能しないと信じていなかったのは興味深いことです。スケーリング法則の問題でした。皆が「この小さなGPT-2を見て、スケーリング法則を続けて、データベースを増やし、処理を増やし、モデルのサイズを増やすと、より知的になり、会話し始める」と言っていました。技術分野の多くの人々がこれがうまくいくとは信じていませんでした。多くの人が「いえ、そんなことは起こりません」と言っていました。
突然うまくいき、今私たちは非常にクレイジーな惑星にいます。
発見と最適化の段階
心理学の観点から興味深いのは、イノベーション分野には2つの非常に重要な瞬間があることです。発見の瞬間と最適化の瞬間です。発見の瞬間は、サントス・デュモンが「飛行機が飛ぶかどうか、この可能性が存在するかどうか」という瞬間です。そして第二の瞬間があり、14-bisが10cm飛んだとしても、「十分だ、もうできる」と言える瞬間で、この瞬間から最適化の瞬間に移ります。
今私たちが生きているのは、あのそこそこだったモデルを超知能に変える最適化の瞬間です。私の視点では、私たちは今、知能の作り方を理解しました。心理学の部分から、私はこのことについて本を書いています。心理学は正確科学だと話しています。今、私たちは完全に技術的なアプローチで、人の分析とは完全に異なるアプローチで、機械の行動分析を始めているからです。
私たちが初めて、コンピューターが動作する方法、背後の数学に限定されているとしても、何らかの行動を示すデジタルシステムを持っています。これは存在しませんでした。「すべては関連付け、すべては物事の間の接続のようだ」と言うクレイジーな人たちがいましたが、この人たちは常に馬鹿にされていました。「不可能だ」と言われていました。
しかし心理学の証拠は明確でした。「犬を取って、音と物を関連付け続けると、犬は学習し、関連付けを連鎖させ始め、これらが学習の連鎖になる」と。これは心理学では多少明らかでしたが、巨大なデータベースを取って、巨大な接続の連鎖を作り、それがテキストを生成し、信じられない会話が出てくるような応答になるとは誰も想像しませんでした。
これは理論でした。非常に馬鹿にされた人々の理論で、非常にクレイジーな人の理論でしたが、今では単純に接続の連鎖を作り、それがテキストや画像、ビデオ、説明になります。
Two Minute Papersの人々が言うように、生きているのに何という時代でしょう。
感謝とブラジル人としての誇り
まさにそうです。ガス、この参加を本当に嬉しく思います。あなたがブラジル人だと気づき、話し始めた時にざわめきが起こりました。何が起こっているのか理解していませんでしたが、後でかなりのブラジル人がそこにいたことがわかりました。ブラジル人は自分たちを明かします。すぐに「頑張れブラジル」と言い始めるからです。
あれは非常に特別な瞬間でした。実際、人々がそこにいて、とても嬉しかったです。これは、私が10年間、開発者関係から現在まで働いているGoogle I/Oのステージです。プレゼンテーションは決して難しくありませんでした。大勢の人の前でプレゼンテーションするのはそれほど問題ではありませんが、何百万人もの人々が見ていました。
入る前に、タイムキーパーがいて、「1分、ガス」と言いました。この時、すべての緊張が来たようで、皆が「緊張していますか?」と聞きますが、「いえ、大丈夫、すべて順調です」と答えていました。女性が「1分です」と言った時、すべての緊張が来て、「すべて忘れた、1分でスライドを見直そう」と思いました。
しかし、彼らは気を散らさないように電話を取り上げます。ステージに上がる時、私は多くの練習をしました。何時間も何時間もその文章、プレゼンテーションを練習しました。そこに到着すると、すべてを取り戻します。これをやった、勉強した、準備OK、すべてOKです。
あれは、開発者関係にとって、Google I/Oでプレゼンテーションすることは頂点の一つです。キーノートでプレゼンテーションすることはもう一つの頂点ですが、非常に少数の人々が招待されます。この招待をとても嬉しく思いました。
この招待の面白い好奇心として、マーケティングの同僚が「ガスがこの部分を話すべきだ」と言い、人々が「でも、ガスって誰?」と言いました。彼は今年3月に録画したビデオを見せ、人々が見て「この人、OK、決まり」と言い、それ以上話す必要がありませんでした。
そのビデオは、Gemma 3のリリースビデオだったので、熱があっても録画に行きました。「いえ、この仕事をすべてやったので、このビデオをやらなければならない」と言いました。イブプロフェンを飲んでオフィスに行き、ビデオを作り、熱で家に帰って気絶しました。すべてが連鎖してとても嬉しかったです。
キーノートを見ていない人は見てください。いいねを押すことをお勧めします。
英語コンテンツとリソースの紹介
あなたが言ったビデオもありますが、それらは英語ですか、ポルトガル語ですか?
英語で、Google for Developersチャンネルにあります。Gemmaについてのビデオシリーズ全体があり、機能、統合、ファインチューニングの方法、新機能の使い方を示しています。すべてのリンクを渡すことができ、リストがあります。
より簡単なビデオと、研究者が「Long Contextをこうやって作った」「画像をこうやって追加した」「ポストトレーニングをこうやった」という、研究をした人々による技術的なビデオがあります。優秀なコンテンツです。
私はコンテンツにかなりうるさく、このコンテンツは良いです。見て「すごい、10分間で何かを学んだ、ありがとう」と言えるタイプです。
素晴らしい。私はブラジル人が参加していることを見て、ブラジル人と話したいと思ったとき、驚きすぎました。Maritacaの人々とは話をしましたが、さらに前進している、ゴールラインにより近い誰かと話したいと思っていました。
あなたのプレゼンテーションで、「頑張れブラジル」と言われた時、あなたが微笑んで「ここにいて嬉しい」と言ったとき、すでに「あなたはブラジル人だ」と気づきました。
彼はすでに状況をうまく回避していました。ありがとうございます。あなたと話すのもとても楽しく、私の仕事を少し共有する機会をありがとうございました。
連絡先と今後の展望
質問したい人のためにLinkedInを置くことができます。そこで人々が通常質問を来ます。私たちは非常に良い時代にいると思います。学ぶことがたくさんあります。学習、Bobのチャンネルをフォローする機会を皆が持てるのは素晴らしいことです。この分野にはたくさんのコンテンツがあります。多くの機会があります。
完璧です。この参加に非常に感謝しています。私たちのオープンソース、ここでのGemmaのバージョンを作ることができるかどうか見てみましょう。ブラジルで物事を起こすことができるかどうか。私は、何も空から落ちてこない、やり続けなければならないと信じることに非常に熱心です。
まず第一に、誰にとっても困難です。中国のような巨大な国でも苦戦しています。ドイツは何もしていません。有名なドイツのモデルはありません。確実にあるでしょうが、惑星的に有名になったものは知りません。
だから誰にとっても困難で、頭を下げて泳ぎ始め、プール全体を渡りきるまで顔を上げない必要があります。途中で顔を上げたら到達しません。
この言葉が気に入りました。ガス、ありがとうございました。皆さん、いいねを押してください。この人は非常に珍しい宝石で、すべてがうまくいけば、将来もっと多くのことがあるでしょう。
プロダクトマネージャーとして、ロードマップ、パイプライン全体を知っています。来るものがたくさんあり、多くの素晴らしいものがあります。注意を払って、LinkedInで私をフォローし、Googleのチャンネルをフォローしてください。Gemmaについてまだたくさんのことがあります。
信じられません。何かを発表して、人々が喜ぶ時、「あなたはまだもっと来ることを知らない」と言いたくなります。今年は素晴らしく、とても楽しくなります。とても嬉しく、興奮しています。
完璧です。皆さん、いいねを押して、登録してください。以上です。


コメント