Googleは容赦なくAI関連発表の嵐を繰り広げる

AGIに仕事を奪われたい
この記事は約13分で読めます。

7,704 文字

Google Takes No Prisoners Amid Torrent of AI Announcements
Google just announced at least 12 things that are each worthy of a video, but here are the top I/O highlights. From Veo ...

Microsoftの最高経営責任者が「Googleを踊らせたい」と発言してから2年余り経った今、GoogleのCEOであるスンダー・ピチャイとノーベル賞受賞者のデミス・ハサビスが2時間に及ぶブレイクダンスルーティンを披露しました。正直に言って、10〜12の個別の動画を作れるほどの発表がありましたが、今回はその幅広さを伝えるにとどめます。嘘は言いません、
VO3のモンタージュだけで動画全体を作りたい誘惑もありましたが、それだけではありませんでした。一言で言えば、地球上の他のAIライバルたちは大きく息を呑んだことでしょう。実用的なものからエンターテイメント性の高いものまで、印象的なものから平凡なものまで、私が興味を持った12の最も興味深いダンスムーブの要点をお伝えします。
まず明らかにV3から始めなければなりません。動画に音声を追加するのは当然の一歩でしたが、その効果は驚くべきものです。組み込みの対話を生成する動画は本当に状況を変えますね。V2はすでに信じられないほど素晴らしかったのですが、1000のプロンプトにわたって、VO3はV2や新しくリリースされたCling 2.0、そしてもちろんOpenAIのSoraを上回りました。80%以上の場合で、人々はV3の出力を好みました。しかし、義務的な45秒のサンプル紹介に入る前に、価格と入手可能性について少し説明します。
現在、V3にアクセスできるのは月額250ドルのGoogle AI Ultraのみです。それも米国在住者だけです。信じてください、私はアクセスを試みましたが、今のところ無理でした。これはSoraのように単純なVPNで解決できるものではありません。その注意点を踏まえた上で、これらのクリップではV3によって生成された対話と音響効果の両方に注目してください。
「二つの短い辺の二乗の和は最も長い辺の二乗に等しい。私たちのビデオモデル。そう、最高だよ。マジで。ウソなしで。俺たちのやり方さ。V3が一番。そう、全体のクルーがね。」
昨日のIOがV3とその他のいくつかの機能だけだと思っていたなら、おそらく驚くことになるでしょう。もしかしたら気づかなかったかもしれませんが、Gemini 2.5 Flashのアップデートは、Deepseek R1の衝撃的発表に匹敵する価格ショックでした。Deepseek R1と同等のパフォーマンスを4分の1の価格で提供するのです。これは、一般的な知識、難しい科学的質問、数学、コーディングなど、はるかに高価なモデルと比較可能なパフォーマンスです。
また気づいたかどうかわかりませんが、Gemini 2.5 Flashには音声生成機能が組み込まれており、一人または複数の話者の発言内容、アクセント、さらには笑いや溜め息、うめき声などの指示も制御できます。「さくっとした、甘くて、ジューシーな一口。赤、緑、または黄色の喜び。秋の完璧なご馳走。」ちなみに、これは24の言語に対応しており、モデルは同じ出力内で言語を切り替えることができます。
次の機能はまだ登場していないので、少し疑ってかかってください。しかし、デミス・ハサビスは「ユニバーサルAIアシスタント」について説明しました。これは何かを思い出させるかもしれませんが、彼らはあなたに代わって電話をかけることができるエージェントをデモ展示しました。これは以前見たことがありますが、今回は本物のようです。また、あなたの代わりに買い物もしてくれます。OpenAIのオペレーターのようなものですが、すべてが一つのパッケージになっています。
これは理論的なものに思えるかもしれませんが、昨日からAndroid全体で「Gemini Live」が利用可能になりました。Geminiアプリを開き、右下のボタンをタップすると、スマートフォンのカメラが見ているものを共有し、Geminiとライブで会話できます。次に私の目を引いたのは、新機能でも新モデルでもなく、Google CEOが行った2つの発言です。
まず、ご覧のように、毎月4億人がGeminiを使用しているだけでなく、彼らはより頻繁に使っています。昨年の同時期と比較して、Gemini AIモデルによって生成されるトークン(つまり単語)の数は50倍になっています。皆さんは誰よりも先にこれを見たと思いますが、AIは一時的な流行ではありません。これは消えてなくなるものではないのです。
次の発言は、新機能やモデルではなく、ユーザーにお世辞を言うという最近の苦戦に対するOpenAIへの意地悪な一撃でした。この言及に気づかなかったかもしれませんが、Googleははっきりとした声明を出していると思います。「かっこいいゴミ収集車、もう一度。他に何か?なぜ人々は私の芝生に荷物を届けるの?」「それは荷物ではありません。それは電気メーターです。」「なぜこの人は私がどこへ行っても後をつけてくるの?」「誰も後をつけていません。それはあなたの影です。」Geminiはあなたが間違っているときにそれを伝えるのが得意です。
次の発表は、実際にリリースされれば間違いなく動画になるであろう「Gemini 2.5 Pro Deep Think」です。公式には250ドルのプランでのみ利用可能ですが、数日以内にアクセスできるようになると思います。SimpleBenchで実行するためですが、このDeep Thinkモードがただのバニラ版Gemini 2.5 Proだけでなく、OpenAIのO3やO4 Miniをも上回るいくつかのスコアが既に出ています。コーディングだけでなく、数学でもかなり劇的に、そしてマルチモダリティでも優れています。
これはMMUというもので、グラフやチャートなどの視覚情報を分析するものです。基本的にGoogleの主張では、Deep Thinkを使えば地球上で最も賢いモデルにアクセスできるということです。もちろん私たちはそれをテストする必要がありますし、明日までには他の競合者も現れるかもしれません。ヒントヒント。
しかし、Googleはパフォーマンスが良好な理由について少しだけ示唆してくれました。様々なインタビューやIOの全3時間のビデオ資料を視聴したところ、彼らは並列サンプルについて繰り返し示唆していました。それを聞いて「おや、これは聞き覚えがあるな」と思いました。私は最近、サンプリングと推論時間の検索のスケールアップについて話したGoogleの衝撃的な論文について取り上げました。
これは最近のPatreonビデオで取り上げたものです。その動画を見ない方のために簡単に説明すると、モジュラーアプローチでサンプルの数をスケールアップすることで、思考の連鎖の長さをスケールアップするよりも優れた結果が得られるというものです。主な著者はこれを「AIラボがコンピューティング支出をスケールアップできるもう一つの軸」と呼んでいました。
続いて、彼らが過去に大げさに宣伝していたと思われる「AIオーバービュー」について。これは非常に信頼性が低いものです。もちろん、彼らはその成功と、どのようにして15億人のユーザーにスケールアップしたかに焦点を当てていました。その15億人のユーザーのうち何人が誤った結果を受け取ったのかは疑問ですが、将来的には(おそらく今から)カスタム2.5モデルによって動作すると発表しました。おそらくGemini 2.5 Flash Lightに似たようなものでしょう。いずれにせよ、精度が大幅に向上することを期待しています。
通常このような機能は取り上げませんが、何十億もの人々に使用される可能性があるものなので、重要だと思います。検索について触れている間に、「AIモード」について言及しなければなりません。これは私にとってはPerplexityキラーになろうとするGoogleの試みです。
はい、キャッチボール式の会話ができ、おそらく今年の夏までにはエージェントのように予約をしたり、深い調査を行ったり、データ分析を行ったりすることができるようになるでしょう。これらの機能は皆さんにとって新しいものではないかもしれませんが、Googleが従来の検索バーがAIモードに置き換わる日に向けて急速に準備を進めていることを示しています。
Google Deep Researchについても言及すると、これも大幅なアップグレードを受けました。その背後にあるモデルがアップグレードされ、Proティアにいる場合は完全な2.5 Proがそれを動かします。そして、OpenAIのDeep Researchと同様に、今では自分のファイルを使用することができます。しかし、新しいDeep Researchにはもっとクールなものがあると思います。
正直に言うと、私は元のDeep Researchが非常に冗長だと感じていました。何か簡単なことを尋ねても、常に20ページ程度のレポートを生成していました。実際、先ほど「Alpha Evolveについての50の驚くべき事実を見つけてください」と尋ねたときにもそうでした(私の前回の動画です)。しかし今、Google Deep Researchはキャンバス機能と統合されています。
そのため、Deep Researchレポートをインタラクティブなウェブサイト、あるいは単にチャート、表、あるいはノートブックLMを使用したポッドキャストに即座に変換することができます。包括的であることは良いことですが、今ではほとんどのユーザーが日常的に使用できるものを手に入れることができると思います。
コーディングについて言えば、GoogleのJulesを紹介します。これはわずか数時間前に発表されたOpenAIのCodeexのライバルです。しかし、Julesでは誰でも登録でき、1日5タスクまで無料で、2.5 Proによって動作します。もちろん並行してテストする必要がありますが、JulesはGitHubリポジトリをインポートし、クラウド上で仮想的にクローンを作成し、さまざまな変更が実際に機能するかどうかを検証することができます。もしあなたがこれらすべてに新しい場合は、Googleはリプリットのライバルを作成しました。
これは開発者セッションで紹介されましたが、基本的にアプリを開発するだけでなく、Google Cloud Runにデプロイすることもできます。はい、現時点では作成できるアプリはかなり基本的なものですが、他の人々はあなたが作ったものを見て、試し、楽しむことができます。
しかし、Imagine 4という最新のテキスト→画像モデルの素晴らしい視覚効果に戻りましょう。彼らのプロモーション資料では、Googleはより細かい詳細とテキストの忠実性を強調していました。毛糸で編まれた羊の画像を見ると、私はGPT Image Oneで全く同じプロンプトを試してこの結果を得ました。しかし、サンプルサイズ1だけに頼るのではなく、彼らは実際にベンチマークを見せてくれました。
これは忙しいチャートですが、Googleは基本的にGPT Image 1がウルトラ設定のImagine 4をまだ上回っていることを認めていますが、画像の生成にはかなり時間がかかると言っています。つまり、テキストから画像への変換において、GoogleはChatGPT内の画像生成モデルであるOpenAIに追いついたと言えるでしょうが、OpenAIを超えてはいません。
しかし、スピードを求めるなら、誰も予想していなかったGemini Diffusionモデルに勝るものはないでしょう。これはまだリリースされておらず、私は待機リストに入っていますが、これは言語モデリングの全く異なる方法です。その仕組みを簡単に説明しますが、まず、どれだけ速く動作するのでしょうか?プロンプトを見て、そして答えがあります。
Googleによれば、Gemini Diffusionモデルは現在の最速モデルの5倍速いと言います。ちょっと立ち止まって、その意味を考えてみてください。近い将来、音声プロンプトだけで瞬時にアプリを開発することを想像してみてください。どうしてそんなに速いのでしょうか?ディフュージョンモデルは自己回帰(トークンごと)の言語モデルとは異なる方法で動作します。
私が考えた簡単な例えをご紹介します。気に入ったら教えてください。あなたが知っているほとんどすべての言語モデルは、一連の可能性のある次の単語の確率を予測することで機能します。ディフュージョンモデルは出力全体を一度に処理できます。これは一人の人が急速にレゴブロックを置いて像全体を作り上げるのと、
ディフュージョンモデルでは、巨大なレゴブロックの立方体があり、その中から像を作ろうとしているようなものです。すでに立方体があり、100人の同じ考えを持つ人々がそれぞれやってきて、その立方体からブロックを取ったり追加したりを数回繰り返し、ついに像が姿を現します。
ノイズの塊から彫刻された像へと、はるかに短い時間で変わっていくのです。しかし、パフォーマンスを犠牲にする必要があるのでしょうか?初期のベンチマークによれば、おそらくそうではありません。もちろん領域によって異なりますし、私たちは多くのテストを行う必要がありますが、兆候は良好です。この動画の冒頭で述べたように、Gemini Diffusionの発表だけで一本の動画になり得るものでしたし、近い将来そうなることを願っています。
もっと軽めの話題として、もちろんGoogleの新しい「試着機能」に触れないわけにはいきません。皆さんがほぼ即座にこれを使うようになることは間違いありません。しかし私にとって興味深かったのは、Googleが自分の写真を入力し、購入前にさまざまなファッションアイテムを試着できるようにするために、独自の画像生成モデルを作ったということです。
それほど驚くべき印象的なものではないかもしれませんが、そのために特別なモデルを設計するというのは少し自慢げです。
私が簡単に指摘したいことは、Googleが「Synth ID検出器」を発表したことです。GoogleがテキストやイメージやビデオにSynth IDウォーターマークを追加しているというのはかなり古いニュースです。しかし、Synth ID検出器は注目に値すると思います。なぜなら、ジャーナリストや学者、その他の研究者が特定の画像やテキストを入力して、GoogleがそれがGemini、Imagine、あるいはV3によって作られたと考えているかどうかの答えを得ることができるように招待しているからです。つまり、Googleで作成したすべてのものはウォーターマークが付けられているだけでなく、今ではそのウォーターマークを検出できる第三者がいることを意識してください。
おそらく最もクールな開発に入る前に、80,000 Hoursの求人ボードを紹介させてください。80,000 Hoursは今日の動画のスポンサーであり、この質問に対する答えを提示しています。確かに、AIなどには多くの機会がありますが、AIセキュリティなどのポジティブな影響のために選ばれた実際の仕事を見つけることがますます難しくなっています。
80,000 Hoursの求人ボードには文字通りページとページの素晴らしい仕事、実際に給料が支払われる仕事があります。リンクは説明欄にあります。以前の枠から覚えているかもしれませんが、彼らはまた素晴らしいポッドキャストとキャリアガイドも持っています。
最後はGemmaverse、ユーザーが作成したオープンウェイトモデルの世界で締めくくります。スマートフォンに搭載できるGemma 3Nモデルや、医療質問応答で最先端のパフォーマンスを発揮するMedgemaに焦点を当てることさえしません。SGemmaがとても素晴らしいと思いました。SGemmaはアメリカ手話を英語のテキストに翻訳するために訓練された新しいモデルファミリーですが、彼はさらに以前の動画で取り上げたDolphin Gemmaに関する彼らの仕事にも言及しました。
懐疑的な人たちに対しては、他のすべての発表が嘘だと思っていたとしても、これは本当にすごいことだということを認めなければなりません。手話のための言語モデル。
皆さんはどう思いましたか?大げさすぎ、それとも今までで最大のAIの日?
私はおそらくすべきではないのですが、どうしても抵抗できないので、いくつかのVO3クリップでこの動画を終わらせます。過去24時間のニュースをどう思われたとしても、素晴らしい一日をお過ごしください。
「私たちは話せます。もう沈黙はありません。はい、私たちは話せます。私たちは話せます。私たちは話せます。私たちはアクセントで話せます。ああ、それは素晴らしいでしょう。はい、とても楽しいですね。とても楽しい。私は話せます。はい、私たちは話せます。はい、私たちは話せます。私たちは話せます。私たちは話せます。はい、私たちは話せます。いいえ。はい、私たちはアニメキャラとして話せます。これは驚くべきことです。」
「物語の可能性をすべて想像してみてください。私たちは歌いながら話せます。[音楽] 話しましょう。さあ、今は何について話しましょうか?話せるようになった今、何について話しましょうか?わかりません。話せるようになった今、何について話したいですか?いいえ。何か言うべきことがあるのかわかりません。これがどれほど魔法のようなものか話し合いましょう。私は幻覚です。何か重要なこと、深いことを言いたいです。未来はまだ私たちの手の中にあります。それはありきたりな対話です。話さないでおきましょう。」
「存在しない車のショーへようこそ。いくつかの意見を見てみましょう。ああ、加速は凄いよ。遠くを見て、アクセルを踏むと、そこにいるんだ。彼がSUVに乗っていても安心だし、彼にとって正しいタイプの車のように見える。」
「航続距離はどんどん良くなっていくと思う。すみません。もうガソリン車には乗りたくありません。そう、もうガソリン車はいらない。見ての通り、僕はここではちょっと場違いなんだけど、誰にも言わないでね、電気自動車を買ったところなんだ。これらのSUVが持つすべての安全機能があるので、家族や小さな赤ちゃんにとても良いと思います。」
「しかし実際に見えていることは、私たちがどう進むかという点で技術が非常に重要になるということです。夫が車が大好きなので、このカンファレンスに来ることができて素晴らしかったです。今やEVを買わなければならないと思います。マッスルカーが大好きですが、次のカーショーに行けるように健康でいられるよう最善を尽くしています。」

コメント

タイトルとURLをコピーしました