Googleがすべてを支配した

AGIに仕事を奪われたい
この記事は約27分で読めます。

15,871 文字

Google just dominated everything in AI
Google I/O AI updates: Veo 3, Imagen 4, Flow, Jules, Stitch, Project Astra #ai #aivideo #veo3 #aitools #ainews Thanks to...

気を引き締めてください。これから信じられないAIツールの情報が大量に押し寄せてきます。Googleが先日IOイベントを開催し、大規模なAIアップデートを発表しました。早速始めましょう。
まず、GoogleはV3を発表しました。これは最新のビデオジェネレーターで、V2の後継モデルです。品質の向上、プロンプト遵守の改善、物理的理解の向上に加えて、V3の最も印象的な部分は、ネイティブオーディオ生成が含まれていることです。
つまり、効果音、背景音、そして音声を直接含む動画を作成できるのです。いくつかの驚くべき例をご覧ください。「私たちは話すことができます。もう静寂はありません。はい、私たちは話すことができます。話すことができます。話すことができます。話すことができます。アクセント付きで話すこともできます。ああ、それは素晴らしいことだと思います。はい、とても楽しいです。しかし、はい、とても楽しいです。とても楽しい。」
「私は話すことができます。はい、私たちは話すことができます。はい、私たちは話すことができます。話すことができます。話すことができます。はい、私たちは話すことができます。いいえ。はい。アニメキャラクターとして話すこともできます。これは素晴らしい。あらゆる物語の可能性を想像してみてください。歌うように話すこともできます。話しましょう。では、今度は何について話しましょうか?」
ここで、プロンプトが「小さな会場でスタンドアップコメディをする男性がジョークを言う、ダイアローグにジョークを含める」だった場合の結果をご覧ください。「先日動物園に行ったんですが、そこにいたのは犬一匹だけでした。シーズーでした。」念のため言っておきますが、この動画全体、音も含めて、V3を使って一度に生成されています。これがどれほど狂っているか分かるでしょう。
別の例もあります。「私のセラピストは間違いを受け入れろと言ったので、元恋人を抱きしめました。」さらに、人々が話している音声が含まれた偽のZoom通話の例もあります。
「すべてのニュアンスを完全には捉えきれていませんが、機械学習モデルとしては驚くほどリアルだと思います。」遠くから見ると、これは本物のZoom通話のように見えます。これがAI生成だと示す唯一の兆候は、名前が意味不明なことです。
別の例では、プロンプトが「忙しく貧しいアメリカのダウンタウンの通りで、AIが我々全員を破滅させることについて、長く、非常に速く、狂ったような暴言を吐く男性。交通騒音が多い」でした。「彼らはそれが我々全員に迫っていることを理解していない。彼らはこれらのものをより賢くしていて、制御できると思っているが、できない。より速く考えるものを制御することはできない。」これはどれほど狂っているでしょうか?
さらに馬鹿げた例があります。プロンプトは「ミュージックビデオの男性がV3での動画生成についてカメラに向かってラップする」でした。全く現実離れしています。V3を使えば、オーディオ付きのミュージックビデオを一つのプロンプトで生成できるのです。
別の例です。「薄暗い部屋にいるTwitchストリーマーのクローズアップ、ASMR風。彼女はカメラに向かってささやく。」組み込みダイアローグで動画を生成すると、本当に事情が変わりますね。プロンプトで言わせたい正確なダイアローグを指定することもできます。
どんな音かを聞いてみましょう。「組み込みダイアローグで動画を生成すると、本当に事情が変わりますね。」これはとてもリアルに聞こえ、最後に息をついてさえいます。他にも馬鹿げた例があります。「空を照らし上げるぞ。うわあ。」
ちょっと待ってください。このビデオが特に印象的だったのは、ドラムの音が動画と完全に同期していることに注目してください。もう一度再生してみましょう。ドラムの音が、その男性がドラムを叩く様子と完全に一致しています。V3は他の言語でもダイアローグを生成できます。
別の現実離れした例があります。明らかにTwitchライブストリームのようなものもできるようです。「よし、これが始め方だ。木を見つけて、こんな感じで殴り倒すんだ。」これは完全にAI生成です。Minecraftのゲームプレイも、話している男性も、音声も含めて。これは本当に心を奪われる出来です。
これで、AIビデオが非現実的だった時代は正式に過ぎ去ったことがお分かりいただけるでしょう。これらのほとんどについて、本物のビデオと区別することはほぼ不可能です。
振り返ってみると、AIコンテンツ生成の観点から、これらのステップを別々に行うのではなく、音声付きで直接動画を生成するのが最良の選択肢であることは、ある種当然でした。特に人が対話を話している場面を生成したい場合、プロセスがはるかにスムーズになります。実際、この機能を今まで見てこなかったことに少し驚いています。
とにかく、これでV3についてはおしまいです。この録画時点では、V3はアメリカのユーザーのみが利用可能で、さらにGoogle AI Ultraサブスクリプションに登録する必要があります。このサブスクリプションはかなり高額で、月額250ドルです。しかし、V3だけでなく、次に話す最高の画像ジェネレーターや、究極のビデオエディター、その他多くの便利なツールにもアクセスできます。
実際にこれらのツールを頻繁に使用する必要があるなら、それほど悪い取引ではありません。
V3に加えて、GoogleはImagine 4という最新の画像ジェネレーターもリリースしました。前バージョンのImagine 3と比較して、より高品質でより現実的な結果を提供します。また、最大2K解像度の画像生成をサポートしており、印刷やその他の高品質な視覚的ニーズに最適です。
サンプル画像をいくつかご覧ください。ここでのプロンプトは「霜に覆われた野花があふれる美しい野原のクローズアップショット、深いピンク、紫、黄色の色合い」などでした。これはとてもリアルで詳細に見えます。
別の例では、プロンプトが「35mmフィルム写真のオンカメラフラッシュライティングの率直で高エネルギーな美学を捉えたクローズアップポートレート。主な被写体は日焼けした肌の派手なパフォーマー」などでした。これらの例はすべてとてもリアルに見えます。
マクロ写真の処理も驚くほど得意です。虹色の蝶の羽の極端なクローズアップを見てください。なんて美しく詳細なのでしょう。闘魚のクローズアップの別の例もあります。
Imagine 4はテキストとタイポグラフィーのレンダリングもはるかに優秀です。このようなコミックを作成させることができます。これを使って、好きなテキストでプロダクト写真を作成することもできます。
さらに例があります。別のコミックです。Imagine 4を使えば、誰でも簡単に画像内の正しいテキスト付きのグリーティングカードやポスターを瞬時に作成できます。
Imagine 4は多様なアートスタイルも得意です。いくつかの例をご覧ください。ところで、この油絵がどれほど3Dに見えるかご覧ください。異なるアートスタイルの追加例もあります。
ちなみに、これは驚くほど高速です。ここで、生成時間がx軸です。左にいくほど生成時間が速くなります。y軸は画像品質です。OpenAIのGPT image generatorは依然として最高品質ですが、画像生成に長時間かかるのに対し、Imagine 4はここにあります。GPTより約6倍速く、同様の画像品質を持っています。
素晴らしいことに、今すぐ無料で試すことができます。ただし、正確にどこでこれを使用できるかは少し混乱を招きます。ImageFXに行くと、これはまだ前バージョンのImagine 3によって動作していることに注意してください。GoogleのAI Studioでも同様です。ここで画像を作成しようとすると、Imagine 3からしか選択できません。
Imagine 4を使用できる唯一の場所は、画像の作成と編集を行うGoogleの別のプラットフォームであるGoogle Whiskです。「ツールに入る」をクリックしましょう。ここで設定をクリックすると、Imagine 4によって動作していることがわかります。
プロンプトとして「学生の写真がグリッド状に配置された学校の卒業アルバムのページ」のようなものをやってみましょう。アスペクト比は横向きのままにして、生成を押します。
これが最初の生成で、これが2番目の生成です。とにかく、このWhiskページと公式のImagine 4ページの両方を説明欄にリンクしておきますので、さらに詳しく読んでいただけます。
最高のビデオおよび画像ジェネレーターと、最高のAIモデルであるGemini 2.5 Proがあり、これら3つをすべてグループ化すると、神レベルのクリエイティブスタジオを得ることができます。
まさにGoogleが作り上げたものがそれです。Flowという新しいツールも発表しました。これは本質的に、AI搭載の映画制作プラットフォームです。トランジション、効果音、音楽を完備した画像と動画を作成・編集できます。また、一貫したキャラクターやキーフレームを指定することもできます。
これは、AIで完全な動画を制作・編集する非常に効率的な方法です。先ほど簡単に述べたように、FlowはビデオジェネレーションにV3、画像ジェネレーションにImagine 4、そしてプロンプトの理解とオーケストレーションにGemini 2.5を使用しています。
Flowの最もクールな機能をいくつか紹介します。「ingredients to video」という機能があり、基本的にはreference to videoです。動画に挿入したいすべてのオブジェクトやキャラクターの参照画像をアップロードでき、V3がこれらのアセットを含む動画を生成します。このツールを使えば、もちろん一貫したキャラクターやオブジェクト、背景を含むシーンを生成できます。
別の非常に便利な機能があります。Google Flowには「frames to video」もあり、基本的に画像を動画の開始フレームまたは最終フレームとしてアップロードできます。その例がこちらです。また、ここではパン、ズーム、オービットなど、動画のカメラ動きも制御できることに注目してください。さらに、既存の動画を取って、さらに延長することもできます。
これにより、もちろんシーンからシーンへのシームレスなトランジションを作成できます。V3の最大持続時間は8秒だと思いますが、Flowを通してプラグインすることで、そのシーンをより長い動画にシームレスに延長できます。これらの機能すべてから、Google Flowが絶対的に怪物級のビデオエディターであることがお分かりいただけるでしょう。
しかし、怪物級の価格も伴います。現在、これはGoogle AI Ultraプランでのみアクセス可能で、現時点で月額250ドルでアメリカの人々のみが利用できます。とはいえ、映画スタジオであれば、映画を制作するコストはこの価格よりもはるかに高くなるでしょう。
この超強力なAIビデオ編集プラットフォームに月額250ドルを支払うのは、それでも絶対的な破格です。
まだ終わりには程遠いです。彼らがリリースした別の非常に強力なAIツールがあります。Stitchと呼ばれ、これは基本的に、アプリデザインやユーザーインターフェースの作成を支援するAI搭載のUIデザイナーです。
最も素晴らしいことに、現時点では完全に無料で使用できます。テキストプロンプトを入力するか、視覚的参照として使用する画像をアップロードできます。これには簡単なスケッチやワイヤーフレーム、スクリーンショットなどが含まれます。
例えば、「セマンティック画像認識を備えた写真ライブラリアプリ、UXはサイドバーライブラリの詳細ビュー」とプロンプトを入力し、デザインをどのように見せたいかの本当に醜いスケッチをアップロードしても、実際にこれをやってのけます。
これが私たちのデザインです。これが驚くほど高速であることに注目してください。さらに、レイアウトやコンポーネント、色付け、スタイルを簡単に調整したり変更したりするために、さらにプロンプトを出すことができます。ワークフロー全体は非常に会話的で反復的です。単純にAIとチャットすることで生成を洗練できます。
別の例があります。「手作りの陶器や陶芸品のマーケットプレイスのモバイルフレンドリーなホームページ」。これが得られるものです。なんて美しいのでしょう?素晴らしいことに、フロントエンドコードを瞬時にエクスポートでき、これは完全に機能します。または、ボタンを一度クリックするだけで、さらなる洗練のためにFigmaにエクスポートできます。
これはとても柔軟で、現在完全に無料で使用できます。また別の例があります。「屋内植物ケアのダッシュボード、水やりスケジュール、日光要件など」。これが得られるものです。
これをさらに編集したいとしましょう。「植物がどこにあるかを地図上に表示するために、ダッシュボードに位置情報を追加できますか?」と書くと、植物の位置を含む追加のコンポーネントを追加したこのようなものに変わります。
または「美学をもう少し緑で葉っぱらしくできますか?」と書くこともできます。これがビフォーで、これがアフターです。これは非常に強力なツールで、現時点では完全に無料で使用できます。UIやウェブデザインをしているなら、ぜひこれを活用してください。時間と労力を大幅に節約できるでしょう。
さらに詳しく確認できるよう、説明欄にこのページのリンクを貼っておきます。
別のアップデートがあります。ご存知かもしれませんが、Google検索は徐々に衰退しています。検索結果が優秀ではなく、上位結果は広告で埋め尽くされています。「ウォーターフィルター」と検索すると、上部にショッピング広告がすべて表示されます。
これはショッピングタブでさえありません。実際の検索結果を見るには、ずっと下にスクロールしなければなりません。これが有料広告なのかどうかさえ確信が持てません。Googleで検索して各サイトを手動でクリックして必要な情報を見つける必要があるのに、なぜAIに尋ねないのでしょうか?
彼らはGoogle検索にAIモードを発表しました。これを会話型チャットボットインターフェースに変え、ユーザーがより自然に対話し、AIが生成した回答を受け取ることができます。
例えば、「30ドル以下のウォーターフィルターを見つけて」と書くことができます。そうすると6つの検索を行い、これらすべてのウェブサイトを調べて、これらすべての商品を私のために見つけてくれました。これがインターネット検索の未来です。AIを使ってすべての手動作業を自動化し、指定したものに対する最終的な回答を提供するのです。
さらに、フォローアップの質問をして、研究をより深く掘り下げることもできます。「どれが最も多くの汚染物質をフィルタリングしますか?」と尋ねることができます。生成をクリックしましょう。そうすると10の検索を行っています。100以上のサイトを調べています。そして、フィルタリングするすべての汚染物質とこれが良い選択である理由についてこの回答をくれています。
これは、Googleの古い検索方法を使って各サイトをクリックして手動で物事を見つけるのと比較して、はるかに強力で効率的になるでしょう。ちなみに、このAIモードは彼らのフラッグシップモデルであるGemini 2.5 Proを使用しています。アメリカのユーザーに展開し、最終的に残りの国々にも間もなく展開すると言及しています。
少なくとも私にとっては、今すでにこれにアクセスできています。
まだ終わったと思いましたか?まだ全然終わりではありません。GoogleはJulesというさらに別の狂ったAIツールを発表しました。これは、コードベースを自律的に検査し、割り当てられたタスクを実行できるAIコーディングエージェントです。
これをソフトウェアエンジニアリングインターンのチームのように考えてください。現在これにアクセスできるはずです。jules.googleで、説明欄にリンクを貼っておきます。これは先週リリースされたOpenAIのCodeXに非常に似ていることに注目してください。しかし、少なくとも私には、Julesの方がはるかに直感的で、インターフェースも少し使いやすいように見えます。
仕組みは次のとおりです。無料アカウントにサインアップした後、JulesをGitHubリポジトリに接続します。すべてのリポジトリに接続するか、選択したもののみに接続するかを選択できます。その後、作業したいリポジトリとブランチを選択し、単純にタスクを割り当てます。
例えば、「何にも影響を与えずにコードを最適化したり短くしたりできる領域を見つけて」。エンターを押すと、まず計画を立てます。このファイルを最適化し、次にこのファイル、ナビゲーションの改善、アドレスエラーハンドリングなど。計画を承認した後、これらすべてのファイルを自律的に修正します。
この右側のウィンドウで、コード内で編集された場所を確認できます。例えば、これらの行を削除し、これらの行を追加しました。最終的に、すべてを編集した後、基本的にレビューしてメインブランチとマージするためのブランチを作成します。
別の例です。「サイトのSEOを改善して」と書いた場合。再び、SEOを改善するために必要なすべてのステップの計画を最初に作成します。計画を承認した後、SEOを改善するために私のコードベース内のこれらすべてのファイルを編集します。このファイルとこのファイルなどを編集したことがわかります。その後、再びレビューして公開し、メインブランチとマージできるブランチをくれます。
素晴らしいことに、このエージェントは並行して作業できます。同時に複数のタスクを割り当てることができます。新しいタスクは新しいブランチを作成するだけです。Googleは実際に非常に寛大です。1日5つのタスクまで無料でJulesを使用できます。各タスクについて、さらにプロンプトを出すことができることに注意してください。チャットボットのように、フォローアップの質問をしたり、より多くのことをさせたりできます。
すべてが非常に自然で会話的です。アプリやウェブサイトを持っていて、AIエージェントにサイト上の物事を自律的に修正したり改善したりしてもらいたい人にとって、これは非常に便利で無料のツールです。ぜひチェックしてみてください。説明欄にJulesのリンクを貼っておきます。
このビデオのスポンサーであるAbacus AIによるChat LLMとDeep Agentという素晴らしいAIツールについてお話しします。Chat LLMは、そこにある最高のAIモデルを使用するためのオールインワンプラットフォームです。異なるモデル間をシームレスに切り替えることができます。さらに、そこにある最高の画像ジェネレーターと最高のビデオジェネレーターをすべて1つの統合プラットフォームで使用できます。
何かをコーディングしている場合、生成をサイドバイサイドでプレビューできる非常に便利なアーティファクト機能があります。Deep Agentについては、これは本当に複雑なタスクをすべて自律的に実行できる神レベルのAIエージェントです。
例えば、コンテンツ、画像、チャート満載のPowerPointを作成させることができます。Deep Agentにウェブを閲覧して安い航空券を見つけさせる別の例もあります。夕食の予約を取らせることさえできます。Google Workspaceに接続してワークフローを自動化することも、Jiraに接続してインタラクティブダッシュボードを作成することもできます。
Deep Agentでできることがたくさんあり、非常に多くの異なるプラットフォームに接続できます。生産性を大幅に向上させるでしょう。説明欄にあるDeep Agent付きのChat LLMをぜひチェックしてみてください。
さらに別のアップデートがあります。GoogleはGemini Liveの重要なアップデートを発表しました。Gemini Liveに馴染みがない方のために説明すると、これは基本的に会話できるリアルタイムAI音声アシスタントです。それだけでなく、カメラや画面を共有してリアルタイムですべてを分析させることもできます。
実際、これが最初に出た時に完全なビデオを作成しました。そのビデオでは、数学の宿題を解くのを手伝ってもらったり、この中国語メニューを翻訳したり、この公共交通機関の標識について質問したりするなど、多くの使用例を示しました。
当時、音声は正直にいってかなりひどく聞こえました。「ラベルにはムコ多糖類ポリサルファートの組成と使用説明が記載されていますが」今ではもっと自然でリアルに聞こえる女性の声に置き換えられています。
実際に今これを試してみて、どんな音がするか聞いてもらいましょう。ちなみに、これはGoogleのAI StudioやGeminiアプリで無料で使用できます。ここのストリームをクリックします。ただ話すだけか、ウェブカメラを共有したり、分析のために画面を共有したりすることもできます。ただ話すをクリックします。
「こんにちは。こんにちは。2025年のGoogleのIOイベントからの主要な発表を要約できますか?」「Google IO 2025にはいくつかの大きな発表がありました。彼らはAIの進歩に重点を置き、AI搭載の製品に新機能を導入し、Android、クラウドプラットフォーム、ハードウェア革新のアップデートも披露しました。多くはAIを日常のユーザー体験により統合することに集中していました。」
「Gemini Liveに関する彼らのアップデートについて教えてください。」「Gemini Liveはいくつかの重要なアップデートを受けました。より自然なリアルタイム会話を行う能力を向上させ、流動的なやり取りのように感じられるようにしました。また、コンテキストの理解とリアルタイムでより複雑なクエリを処理する能力も向上させました。」
これがGemini Live機能の本当に簡単な例でした。すべてをタイプアウトする代わりに、リアルタイムでAIと会話したい場合に非常に便利です。
また、これらの自然に聞こえる音声を使用する、非常にリアルなテキスト音声生成器も追加されました。実際、簡単なデモをご覧ください。「これは、モデルがより表現豊かな方法で会話できることを意味します。私たちが話す方法の本当に微妙なニュアンスを捉えることができます。このようなささやき声にシームレスに切り替えることさえできます。モデルは英語で話し始めることができますが、その後同じ声で戻すことができます。」
GoogleのAI Studioで、ネイティブ音声生成をクリックすると、このようなものが表示されます。一人の話者から選択でき、ここで異なる声を選択できます。
選択できる声がこちらです。「今日何か素晴らしいものを作る準備はできていますか?頭に浮かんでいるプロジェクトはありますか?何を探求したいですか?何か素晴らしいものを作る準備はできていますか?」基本的に、彼らに言わせたいことをここに入力します。
オーディオで複数の話者を指定することもできます。再び、ここで異なる話者から選択し、ここで彼らに言わせるダイアローグを指定します。上部では、彼らの声のスタイルやトーンを指定します。実行をクリックして、何が得られるか見てみましょう。「こんにちは。私たちは、音声を指示し、リアルなダイアローグを作成し、その他多くのことができるネイティブ音声機能をお見せできることを嬉しく思います。始めるには、これらのプレースホルダーを編集してください。」
この機能は現在、GoogleのAI Studioで完全に無料で使用できます。これをチェックしたい場合は、説明欄にこのページのリンクを貼っておきます。
Gemini Liveはまともです。すでに人生の多くのことに本当に役立っています。しかし、Googleからのさらに狂ったプロジェクトがあります。Project Astraと呼ばれ、これは基本的にリアルタイムインタラクションと、デバイス上での自律的タスク実行が可能なAIエージェントです。
言い換えれば、リアルタイムで会話でき、例えばあなたの電話やラップトップを使ってウェブを閲覧して情報を検索したり、アプリを制御したりできるのです。
簡単なデモをご覧ください。「オンラインに行って、Huffyマウンテンバイクのユーザーマニュアルを探してください。」「ユーザーマニュアルを見つけました。何について知りたいですか?」「いいですね。今度はブレーキについてのセクションを見つけるまでスクロールしてください。」「もちろんです。そのページを探しています。」
「ネジを削ってしまったと思います。YouTubeに行って、それを修理する方法のビデオを見つけてもらえますか?」「もちろんです。今YouTubeを開いています。これは良いビデオのようです。ネジの頭にゴムバンドを置いてください。しっかりと押し下げてください。」
「自転車ショップとの私のメールを調べて、必要な六角ナットのサイズを見つけてもらえますか?」「もちろんです。Bicycle Habitatからのメールによると、スプロケット用に3/8インチの六角ナットが必要です。正しいビンをハイライトしました。」
「予備のテンションスクリューが必要なようです。最寄りの自転車ショップに電話して、在庫があるかどうか確認してもらえますか?」「はい、今電話しています。在庫について後で連絡します。」
「ブレーキパッドが摩耗してきていると思います。マニュアルをもう一度確認して、どこかに書いてあるかどうか見てもらえますか?」「マニュアルによると、24ページ、セクション2を見ると」「昼食を取りませんか?」「はい、5分ください。」
「何を言っていたか最後まで言ってもらえますか?」「私が言っていたように、24ページ、セクション2を見ると、ブレーキパッドの交換方法が分かります。」「その電話についてアップデートはありますか?」「はい。自転車ショップとの電話が終わりました。テンションスクリューの在庫があることを確認しました。受け取り注文をしますか?」
「自転車に付けられる犬用バスケットの例をいくつか見せてもらえますか?」「もちろん、お手伝いできます。少しお待ちください。こちらがいくつかの選択肢です。Zukaはこれらにとても似合うと思います。」
これは個人的に私が非常に興奮していることです。私は本当に怠け者で、指を動かして電話の異なるアプリやウィンドウをナビゲートすることさえしたくありません。音声でAIに指示して、複雑な複数ステップのタスクをすべて自律的に電話で実行してもらえるなら、それは素晴らしいでしょう。
彼らはこれについてまだ公開リリース日を指定していませんが、こちらで信頼できるテスターウェイトリストに参加できます。Astroは今年のうちに選ばれたAndroidユーザーに段階的に展開されると言及していますが、より正確なタイムラインは提供していません。
ビデオ生成、画像生成、リアルタイム音声、UIデザインなどの本当に素晴らしいクリエイティブ製品に加えて、AIモデルの面でも大きなアップデートがあります。その一つがGemma 3Nです。これは2GBのRAMという少ないメモリで動作できるAIモデルで、ほとんどのスマートフォンやその他の消費者デバイスでローカルかつオフラインで実行できることを意味します。
Gemma 3Nの動作例をご覧ください。これがデバイス上に存在し、ユーザーはAIモデルを使用するためにクラウドやオンラインサービスに接続していないことに注目してください。
「このレプリカについて教えてもらえますか?」「もちろんです。これはVirgin Galactic SpaceShipOneのレプリカ、サブオービタル宇宙船です。テストや実演飛行に使用された機体のモデルです。」
Gemma 3Nはモバイルファーストで設計されています。他のGeminiモデルと同様に、これもマルチモーダルです。つまり、テキストを理解するだけでなく、音声、画像、動画も処理できます。これは音声認識、翻訳、画像分析、動画要約など、幅広いアプリケーションに使用できることを意味します。
Gemma 3Nは140以上の言語のデータで訓練されました。そのため、翻訳などの多言語タスクに本当に優秀です。このパフォーマンスを見ると、信じられません。Gemma 3Nは非常に小さく、40億パラメータしかないことに注目してください。これはスマートフォンでオフラインで実行できますが、その知能はクローズドソースで非常に高価なAnthropic Claude 3.7とほぼ同じくらい優秀です。
さらに、これは少なくとも数千億のパラメータを持っています。これは間違いなく消費者デバイスで実行することはできません。ちなみに、Gemma 3Nが携帯電話やラップトップでこれほどスムーズに動作できる理由は、速度と低メモリ使用量に最適化された新しいアーキテクチャを持っているからです。
マットフォーマーアーキテクチャと呼ばれるものを使用しており、本当に簡単に言うと、基本的にはより大きなモデル内の入れ子になったモデルのようなものです。これを実行する際、モデルの特定の必要な部分のみが使用され、計算とエネルギー要件が削減されます。
また、per layer embeddingsやKVC sharingなどの他の革新も使用し、メモリ使用量を大幅に削減します。素晴らしいことに、これは実際にオープンソースです。Hugging Faceで今すぐダウンロードして、デバイスでローカルに使用したり、さらに調整したりできます。
現在、彼らは2つの異なるバージョンをリリースしています。一つは40億パラメータ、もう一つは20億パラメータです。現在のモデルはテキストと画像の入力のみをサポートしていますが、音声やビデオ理解などの追加のマルチモーダル機能を展開する予定であることに注意してください。
Gemma 3Nで、これで終わりです、皆さん。1年以内に、ローカルかつオフラインで使用できるAIモデルが内蔵された日常的な消費者デバイスを見始めることになると私は予測しています。AnthropicのフラッグシップClaude 3.7と同じくらい優秀な超小型モデルがすでにあります。
ちなみに、Gemma 3NはGoogleのAI Studioでも無料で使用できます。このモデルドロップダウンで、単純にGemmaを選択すると、40億パラメータバージョンの3Nがここに表示されます。Googleはこれらすべてのモデルで絶対的に素晴らしい成果を上げています。
Gemma 3Nに加えて、Googleはすでに素晴らしいGeminiモデルの大きなアップデートも発表しました。私のチャンネルをフォローしている場合、Gemini 2.5 Proが現在最高のモデルであることをご存知でしょう。このLM Arenaリーダーボードで全体的にトップに立つだけでなく、アートプロンプト、コーディング、数学、クリエイティブライティング、指示に従うこと、長いクエリなど、すべてのカテゴリでトップに立ち、他のAI企業を大きな差で引き離しています。
さて、何だと思いますか?彼らはこれをさらに良くしました。Gemini 2.5 Proをこのディープシンクモードでアップデートし、さらに長く、より深く考えることができるようにしました。これをオンにすると、数学やコーディングなどの複雑な推論タスクの処理において、さらに高いパフォーマンスを発揮します。
このディープシンクモードからのパフォーマンス向上を見てください。数学では、すでに他の主要AIモデルであるOpenAI O3や04 Miniよりもはるかに優秀な通常のGemini 2.5 Proよりも約15%の向上です。コーディングやマルチモーダル推論でも同様です。全体的に、GoogleはAIモデルの面で他のすべての企業を圧倒しています。
現在、ディープシンクにはまだアクセスできません。ここでは、Gemini API経由で信頼できるテスターのみが利用可能だと述べています。
2.5 Proに加えて、Gemini 2.5 Flashと呼ばれるGeminiの軽量バリアントもアップデートされました。この新バージョンも、混乱を招くことに単に2.5 Flashと呼ばれていますが、これははるかに効率的です。約20〜30%少ないトークンを使用しますが、推論、マルチモダリティ、コーディング、長いコンテキストを含む複数のベンチマークでより良いスコアを達成しています。
実際、このGemini 2.5 Flashの新バージョンを今すぐGoogleのAI Studioで無料で試すことができます。再び、このモデルドロップダウンで、単純にGemini 2.5を選択すると、この最新のGemini 2.5 Flash0520がここに表示されるはずです。
これらのGemini 2.5モデルの新しいアップデートについてさらに読みたい場合は、このページのリンクを説明欄に貼っておきます。
彼らの狂ったAIモデルに加えて、GoogleはProject Marinerという実験的AIエージェントも発表しました。これは私のチャンネルをフォローしている場合、ManisやGensparkのようなものです。これは、プロンプトを満たすために自律的に複数ステップのタスクを実行できるAIエージェントのチームです。
例えば、ウェブを検索し、アプリやウェブサイトと対話し、フォームに記入し、レポートを編集できます。さらに、チケットの購入やオンラインショッピング、夕食テーブルの予約などのより複雑なワークフローも処理できます。
これはAIエージェントのチームであり、一つだけではないため、同時に多くのタスクを並行して実行できます。これにより、人間が同じタスクを手動で実行するよりもはるかに効率的で高速になります。そして、Project MarinerがGeminiアプリの新しいエージェントモード機能に統合されると発表されました。
さらに、このAIエージェントモードは今年後半にChromeとGoogle検索にも導入される予定です。しかし、今すぐこれを使いたい場合、Project Marinerは月額250ドルのAI Ultraプランに登録すればアメリカの人々が利用できることに注意してください。
前述したように、これは彼らの究極プランで、V3、Imagine 4、Flowなど、他の多くの素晴らしいツールを提供します。これらのツールを定期的に使用する必要がある場合、それほど悪い価格ではありません。
最後に、IOイベントでGoogleはAndroid XRも発表しました。これは、ヘッドセットとスマートグラスのために設計された新しいAI搭載オペレーティングシステムです。スマートフォン用のAndroidに似ていますが、これはヘッドセットとスマートグラス用です。没入的なハンズフリー体験を提供するように設計されています。
これはもちろん、オペレーティングシステムに統合されたGoogleのGeminiモデルを使用し、コンテキスト認識アシスタントとユーザーとの自然な会話を可能にします。このアシスタントとチャットするだけで、デバイス上で物事を実行するのを手伝ってくれます。
例えば、これをライブ翻訳に使用できます。グラスに字幕がポップアップするようなものだと考えてください。ナビゲーションの手助けもできます。画面上の道順のようなものだと考えてください。そしてもちろん、チャットボットで周囲について質問に答えることもできます。
これは電話にもシームレスに接続できるため、すべてのアプリやデータにもアクセスできます。写真を撮ったり、音楽を再生したり、メッセージに返信したりすることもできます。そして、これらすべてがハンズフリーです。
実際、彼らはすでにSamsungと提携して没入型ヘッドセットを作成しています。これはProject Muhanと呼ばれ、Apple Vision Proのような完全に没入的な体験を提供しますが、非常にかさばって長時間使用できないAppleよりもはるかに良いものになると確信しています。
Googleはまた、カメラ、マイクロフォン、スピーカー、およびディスプレイを搭載したこれらのスマートグラスを開発するために他のブランドとも提携しています。Googleは何十年もスマートグラスに取り組んできましたが、それは実際には定着しませんでした。ついに、これが実現可能で軽量になるための技術が整ったと思います。
これらの消費者デバイスでオフラインで実行できるGemma 3Nやその他の小さな言語モデルがすでにあります。さらに、ハードウェアが大幅に改善され、普通に見える眼鏡に統合できる本当にコンパクトなカメラ、スピーカー、ディスプレイが手に入るようになりました。
これらのGoogle XRグラスを試してみることを本当に楽しみにしています。これが未来だと思いますし、スマートフォンと同じくらい普及するでしょう。
これで、Googleの最新IOイベントでの主要なAIアップデートをまとめました。ご覧のとおり、彼らは非常に多くの狂ったAI製品を開発しています。他のAI企業は全く近づくことさえできません。GoogleはAI競争を完全に支配しています。
これらすべてについてどう思うか、どのツールを最も試してみたいか、コメントで教えてください。いつものように、皆さんと共有するトップのAIニュースとツールを探し続けます。このビデオを楽しんでいただけた場合は、いいね、シェア、チャンネル登録をお忘れなく、さらなるコンテンツをお楽しみに。
また、AI業界では毎週あまりにも多くのことが起こっています。私のYouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっていることを本当に最新の状態に保つために、私の無料週刊ニュースレターに必ずサブスクライブしてください。そのリンクは説明欄にあります。ご視聴ありがとうございました。次回お会いしましょう。

コメント

タイトルとURLをコピーしました