Googleの新しいGeminiアップデートがMicrosoftを驚かせる強力な新AI

Google・DeepMind・Alphabet
この記事は約12分で読めます。

GoogleがGeminiをGoogle Workspaceに深く統合する大型アップデートを発表し、Docs・Sheets・Slides・DriveをAIネイティブな生産性ツールへと進化させた。同時に開発者向けの新モデルGemini Embedding 2も公開され、テキスト・画像・動画・音声・PDFを同一のベクトル空間で扱うAIインフラを実現した。MicrosoftによるOfficeのAI統合と並行して、オフィスソフトそのものをAI中心の作業環境へ変える競争が激化している状況を解説する内容である。

Google’s New Gemini Update Shocks Microsoft With Powerful New AI
👉 Check out Higgsfield Audio: just rolled out a major Gemini update that could reshape the AI race with Microsoft....

GoogleがAI競争で大きな一手を打つ

さて、GoogleがAI競争の中でかなり大きな動きを見せました。しかも今回のターゲットは、ほとんどの人が毎日使っているもの、つまりオフィスソフトです。

GoogleはGoogle Workspaceの大規模アップグレードを発表しました。これによってGeminiがDocs、Sheets、Slides、そしてGoogle Driveに深く統合され、これらのツールは完全にAIネイティブな生産性ツールへと変わります。

同時にGoogleは、Gemini Embedding 2という新しいAIモデルも公開しました。このモデルは現代のAIシステムの基盤インフラを支えることを目的として設計されています。テキスト、画像、動画、音声、そしてドキュメントを、すべて同じ埋め込み空間の中に存在させることができるのです。

この発表は、MicrosoftがOfficeスイートにClaudeを統合するアップデートを発表した直後に起こりました。

つまり両社は明確に、生産性ソフトをAI駆動の環境へと変える競争をしているわけです。

Googleの戦略は非常にシンプルです。ユーザーに別のAIツールを開かせるのではなく、すでに仕事をしているアプリの中にGeminiを直接登場させるのです。

Workspaceの規模を考えると、これがなぜ重要なのかがよく分かります。

Google Workspaceは約3億人がアクティブに利用しています。さらにGoogleのエコシステム全体では、世界でおよそ30億人にリーチしています。

つまりGoogleがこれらのツールの使い方を変えると、影響を受けるのは一部のニッチなユーザーではありません。世界中のオフィスワークのあり方そのものを変える可能性があるのです。

現在、新しいGemini機能はGoogle AI ProおよびUltraプランのユーザー向けに順次展開されています。

しかし方向性は明確です。WorkspaceはGoogleが呼ぶところのAIネイティブなオフィススイートへと変わりつつあります。

今回のアップデートでは、すでに興味深いベンチマーク結果も公開されています。

Spreadsheet Benchと呼ばれる実際のスプレッドシート編集ベンチマークにおいて、Sheets内で動作するGeminiは成功率70.48%を記録しました。

これは他のAIシステムを上回り、しかも驚くべきことに、人間のスプレッドシート専門家のレベルにもかなり近い数値です。

しかし、ここで本当に重要なのはベンチマークではありません。仕事のやり方そのものが変わる点です。

これまでのように毎回ゼロから作り始める必要はなくなります。たった一つの指示で、ドキュメント、スプレッドシート、プレゼンテーションを丸ごと生成できるようになります。

しかもAIは適当な内容をでっち上げるわけではありません。メール、ファイル、さらにはウェブから実際の文脈を取得して内容を作るのです。

Google DocsでのAI体験

まずはGoogle Docsから見ていきましょう。ここではAI体験が非常に分かりやすく現れます。

新しいシステムでは、例えば次のように入力できます。

私のHOA会議の議事録と1月のイベントリストを使って、コミュニティニュースレターを書いてください。

すると数秒で、Geminiが完全なドラフトを生成します。

裏側ではかなり強力な処理が行われています。システムはGoogle Driveのファイル、Gmailのメッセージ、そして関連するウェブ情報をスキャンします。

そしてあなたのアカウントに紐づいた実データを使ってドキュメントを構築するのです。

ドラフトが生成された後は、自然な指示で調整できます。

例えば、特定のセクションを短くしてください、詳細を追加してください、構造を整理してください、といった指示を出せます。

GoogleはさらにMatch Writing Styleという機能も導入しました。

AI文章に対するよくある不満は、ロボットっぽい文章になったり、普段の書き方と一致しないことです。

この機能では、あなたの過去のドキュメントを分析し、生成された文章をあなたの個人的な文章スタイルに近づけて調整します。

もう一つの追加機能はMatch Doc Formatです。

例えば、普段使っている旅行日程のテンプレートがあるとします。

Geminiはメールをスキャンし、航空券の予約、ホテル予約、レンタカーなどの情報を抽出し、それらをテンプレートの中に自動的に配置できます。

つまり、さまざまな場所から情報をコピーして貼り付ける作業をする代わりに、AIがドキュメント構造そのものを組み立ててくれるのです。

Google SheetsのAI化

次にGoogle Sheetsです。正直なところ、ここで多くの人が苦労しています。

スプレッドシートは非常に強力なツールですが、設計が難しいのです。

多くの人は、どんな表構造にすればいいのか、どんな列が必要なのか、どんな数式を入れるべきなのか分かりません。

Geminiは今やスプレッドシートの構造そのものを設計できます。

例えば次のように入力できます。

シカゴへの引っ越しのための旅程を整理してください。部屋ごとの荷造りリストを作ってください。水道・電気・ガスなどの公共サービスの連絡先を追加してください。そして受信箱にある引っ越し業者の見積もりを追跡してください。

Geminiは関連するメールやファイルを読み取り、スプレッドシートを自動で構築します。

そこには表構造、カテゴリ分け、場合によっては進捗を追跡するダッシュボードまで含まれます。

Higsfield Audioの紹介

さて、Googleが生産性ツールにAIを深く統合する一方で、音声もAIワークフローの一部になりつつあります。

本日の動画のスポンサーはHigsfieldです。彼らはHigsfield Audioという新しい機能をリリースしました。これは音声生成、ボイススワップ、そして多言語動画翻訳を同じプラットフォームの中で実現します。

テキストから自然なAI音声を生成できます。複数の音声モデルから選ぶこともできますし、短い録音をアップロードして自分の声をクローンすることもできます。

私はRomanです。あなたのストーリーの鼓動だと思ってください。

声が作成されると、それを動画に適用したり、既存の音声を置き換えたり、新しいコンテンツのナレーションを生成したりできます。

AI Revolutionチャンネルに登録してください。

特に面白い機能の一つが動画のボイススワップです。

動画クリップをアップロードして別の声を選択すると、動画のタイミングや口の動きを保ったまま音声を置き換えることができます。

さらに動画翻訳にも対応しています。

つまり、ある言語の動画を、ドイツ語、フランス語、中国語など別の言語のバージョンに変換し、しかも音声を映像と同期させることができます。

Higsfieldプラットフォームの一部なので、ワークフロー全体がつながっています。

ビジュアルを生成し、Clingのようなモデルで動画を作り、さらに同じ場所で音声を生成または置き換えることができます。

興味がある方はHigsfield Audioを試してみてください。リンクは説明欄にあります。

では動画に戻りましょう。

Sheetsの自動入力機能

次にFill with Geminiという機能があります。これは自動化をさらに推し進めます。

AIがスプレッドシートを自動で埋めてくれるのです。

これまでのように、行や列に手作業でデータを入力する必要はありません。

Geminiは情報を分類し、要約し、さらにはGoogle検索からリアルタイムデータを取得することもできます。

例えば大学出願を管理するスプレッドシートを作るとします。

通常なら、各大学の締め切り、授業料、出願条件などを自分で調べて入力する必要があります。

しかしこのシステムでは、列を下にドラッグするだけでGeminiがインターネットから情報を集め、自動で入力してくれます。

つまり、情報の検索、整理、そしてスプレッドシートへの入力まで、すべて自動で行われるのです。

Google Slidesの進化

Slidesも大きなアップグレードを受けました。

多くの人にとって、プレゼンテーション作成はオフィス作業の中で最も苦痛な部分です。

スライド構成、文章作成、レイアウト調整、色選びなど、簡単に数時間かかってしまいます。

今では作りたいプレゼンテーションを説明するだけで済みます。

例えば次のように入力できます。

東京への旅行について5ページのプレゼンテーションを作ってください。

するとGeminiがスライドデッキ全体を生成します。

メール、ファイル、オンライン情報から文脈を取得し、スライドを構築します。

もし結果に満足できなければ、AIに調整を依頼できます。

例えばブランドに合う色に変更してください、文章を短くしてください、全体のレイアウトを変更してください、といった具合です。

手動でプレゼンを作るのではなく、AIをクリエイティブアシスタントとして指示していく感覚になります。

Google DriveのAI検索

今回のアップデートで最も興味深い部分は、実はGoogle Driveかもしれません。

Driveはこれまでファイルやフォルダを保存するストレージでした。

問題は、多くの人がストレージをうまく整理していないことです。

数年もすると、クラウドドライブは何百、何千ものファイルが混ざったカオスになります。

ドキュメントの内容は覚えているのに、ファイル名や保存場所が思い出せないことがあります。

例えば監査委員会に見せたプレゼンとか、去年の売上数字が書かれている資料などです。

従来のキーワード検索では、このような状況ではうまく機能しません。特定の単語にしか一致しないからです。

GoogleはAI Overviews in Driveという機能を導入しました。

キーワードではなく、意図を理解する検索です。

普通の言葉で探しているドキュメントを説明すると、AIが意味を解釈します。

そしてファイルをスキャンして、最も関連性の高い結果を抽出します。

つまりDriveは単なるストレージではなく、個人のナレッジベースに近い存在へと変わっていきます。

さらにDriveの中にはAsk Geminiという機能もあります。

これは複数のソースを横断して質問できる機能です。

ドキュメント、メール、カレンダーイベント、そしてウェブ情報がすべて回答に使われます。

例えば税務関連のファイルを選択して次のように質問できます。

今年の確定申告を提出する前に、税理士にどんな質問をするべきですか。

Geminiはドキュメントを分析し、それらのファイルに含まれている実際の情報に基づいて回答を生成します。

Gemini Embedding 2の登場

GoogleがWorkspaceにGeminiを統合して生産性ツールを変革する一方で、AIシステムを構築する開発者向けの新技術も発表しました。

それがGemini Embedding 2です。

Embeddingモデルは、実は現代AIインフラの核心部分です。

情報を数学的ベクトルに変換し、コンテンツ同士の意味的な近さを機械が比較できるようにします。

AIシステムがデータベースから関連情報を検索するとき、ユーザーの質問と意味的に近い内容を見つけるためにEmbeddingが使われます。

従来のGemini Embeddingモデルはテキストのみを対象としていました。

Gemini Embedding 2はこの概念を大幅に拡張します。

5種類のメディアを同一のベクトル空間にマッピングできます。

テキスト、画像、動画、音声、PDFです。

これまではコンテンツの種類ごとに別のモデルが必要でした。

例えば画像にはCLIP系モデル、テキストにはBERT系モデルなどです。

Gemini Embedding 2ではすべてを統一表現に埋め込むことができます。

さらにinterleaved入力にも対応しています。

つまり一つのリクエストの中で複数メディアを組み合わせることができます。

各入力タイプには制限があります。

テキスト入力は最大8192トークンです。

画像は1リクエストにつき最大6枚処理できます。PNG、JPEG、WEBP、HEICなどの形式に対応しています。

動画は最大120秒までです。

音声入力は最大80秒で、MP3やWaveなどのネイティブ音声形式に対応しています。

興味深い点として、このシステムは音声を処理する際に別途文字起こしを必要としません。

PDFは1リクエストにつき最大6ページまで処理できます。

これらの入力が同時に処理されると、モデルは異なるコンテンツ同士の関係を理解します。

例えば動画の映像フレームが音声の会話内容と結びつき、さらにそれらがテキスト検索とcosine similarityのような指標で比較されます。

MRLによる効率化

Embeddingモデルの課題の一つは効率です。

ベクトルは数千次元に及ぶことがあり、保存や検索に大きな計算コストがかかります。

この問題を解決するため、Gemini Embedding 2はMatryoshka Representation Learning、略してMRLを採用しています。

従来のEmbeddingでは意味情報がベクトルのすべての次元に分散しています。

そのためベクトルを短くすると精度が大きく低下してしまいます。

MRLでは構造が変わります。

最も重要な意味情報がベクトルの初期の次元に集中して格納されます。

デフォルトの埋め込みサイズは3072次元です。

しかしベクトルを1536次元、あるいは768次元に短縮しても高い精度を維持できます。

これによって二段階検索が可能になります。

まず短いベクトルを使って数百万件のデータから高速検索を行います。

その後、上位結果をフルサイズの3072次元ベクトルで再ランキングします。

この方法によって、最終的な検索精度を維持したまま計算コストを大幅に削減できます。

ベンチマークとドメイン適応

GoogleはこのモデルをMTBと呼ばれる大規模テキスト埋め込みベンチマークでも評価しました。

結果は、従来のEmbeddingモデルよりも検索精度が向上していることを示しました。

もう一つの改善点はDomain Driftへの対処です。

多くのEmbeddingモデルはWikipediaのような一般データではうまく機能しますが、企業独自のコードベースや技術文書のような専門領域では精度が低下します。

Gemini Embedding 2は多段階トレーニングと多様なデータセットを使うことで、専門領域でも高い性能を維持できるように設計されています。

テキストEmbeddingでは大きなコンテキストウィンドウもサポートされています。

最大8192トークンを一度に埋め込めるため、ドキュメントの大きな部分をまとめて処理できます。

これによって長距離コンテキストが保持され、Context Fragmentationと呼ばれる問題、つまり取得されたテキストが周囲の文脈不足で意味のある回答を作れない問題を減らします。

さらに開発者は、Embedding生成時にタスク固有のヒントを与えることもできます。

例えばretrieval query、retrieval document、classificationといったパラメータです。

これらのヒントによってベクトルの最適化方法が変わり、検索性能が向上します。

GeminiがAIエコシステム全体へ広がる

つまり一方では、Googleは数億人が使う生産性ツールをGeminiで変革しています。

そしてもう一方では、開発者がAIシステムを構築するためのインフラも強化しています。

これら二つのアップデートが同時に発表されたことを見ると、GoogleがGeminiをAIエコシステム全体へどれだけ積極的に展開しているかがよく分かります。

今回はここまでです。

このアップデートについてどう思うか、ぜひコメントで教えてください。

ご視聴ありがとうございました。また次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました