Googleが新たにリリースしたGemini APIのファイル検索機能は、従来の複雑なRAG(検索拡張生成)システム構築の常識を覆す革新的なソリューションである。わずか数行のコードでフルマネージド型のRAGシステムを実装でき、埋め込み計算にのみ課金され、ストレージと検索時の埋め込みは無料という破格の料金体系を実現している。本動画では、この新APIを活用した完全な文書検索システムの構築方法を実演し、Firebase連携、Clerk認証、マルチテナント対応など、実用的な機能を網羅したプラットフォームの実装例を紹介する。段階的なファイル追加・削除機能、メタデータ管理、ハイブリッド検索オプションなど、エンタープライズ利用にも対応可能な拡張性を備えており、シンプルなRAGシステムを迅速に構築したい開発者にとって理想的な選択肢となっている。

Googleの新ファイル検索機能がRAGに革命をもたらす
さて、GoogleがGemini APIの新しいファイル検索機能でRAGを終わらせてしまいました。これは単一のAPI呼び出しで完結するフルマネージド型の検索拡張生成システムです。もう複雑なRAGシステムを構築する必要はありません。必要なのはわずか数行のコードだけです。ファイルをアップロードして、それをGemini API呼び出しの中で検索ツールとして使用するだけなんです。
実際に私はこの上に完全なシステムを構築しました。ファイルをアップロードして、ナレッジベースを作成するボタンをクリックするだけで、完全な引用付きで文書とチャットを始められます。すべてがシンプルなAPI呼び出しの背後で動作しています。このシステムにはデータベース用のFirebaseとユーザー認証用のClerkが組み込まれています。この動画の後半で、これにアクセスして自分のプロジェクトで使い始める方法をお見せします。
完全なマネージドソリューションです。文書をアップロードするだけで、APIが残りのすべてを処理してくれます。でも、最も素晴らしいのは料金体系だと思います。選択した埋め込みモデルに応じて埋め込みの料金だけを支払えばいいんです。ストレージは完全に無料で、これは通常マネージド型の検索拡張生成システムではかなり高額になる部分です。
さらに、クエリ時の埋め込みも無料です。LLMのコンテキストに含まれるトークンの料金を支払うだけでいいんです。だからこそ、みなさんが自分で試せるように、このソリューション全体を構築したんです。では、まずコードを説明してから、実際に動作する例をお見せしましょう。私が構築したアプリケーションへのリンクは動画の説明欄にあります。
ファイル検索APIの実装方法
これは新しいGemini APIの一部です。最新バージョンのGemini SDKをインストールする必要があります。ファイルを提供する方法は2つあります。ファイル検索ストアを作成して、検索ストアの名前を指定するだけです。これが基本的にナレッジベースやベクトルインデックスになります。次に、アップロードしたい文書のリストを提供する必要があります。
素晴らしいのは、ファイルを段階的に追加できることです。インデックスを作成したら、そこにファイルを追加したり削除したりできます。これは本当に素晴らしい機能です。そして、ファイルがアップロードされたことを確認する必要があります。これがベクトルストアになります。GeminiモデルへのAPI呼び出しを行う際には、そのファイルストアをツールとして提供するだけで、生成時にGeminiモデルがそれをベクトルインデックスとして使用し、応答を生成するためのコンテキストを取得します。
つまり、これは基本的にRAGのセットアップ全体ですが、彼らはこれをシンプルなAPI呼び出しにラップして、極めて使いやすくしているんです。設定できる最小限の構成が提供されています。できることはチャンクサイズを定義することだけです。再帰的なチャンキングが行われます。デフォルトでは200トークンのチャンクで、20トークンのオーバーラップがあります。
システムの仕組みと料金体系
システム全体の仕組みはこうです。文書をファイルストレージにアップロードすると、埋め込みが計算されます。ここが実際に埋め込みの計算費用を支払う必要がある部分です。でも、Googleの埋め込みモデルの料金はかなり素晴らしいです。その後、それらがデータベースに書き込まれます。
検索時には、まずGeminiモデルへの呼び出しを行うと、モデルが外部知識が必要かどうか、つまり本質的にツールを使用したいかどうかを判断します。より自律的な性質を持っているんです。ツールを使用すると判断した場合、埋め込みにクエリを送ります。そして、クエリ時の埋め込みには料金がかかりません。最終的な応答を得るためにGeminiモデルのコンテキストに送られる取得されたコンテキストの料金だけを支払えばいいんです。コスト面でも非常に優れた取引です。
唯一の欠点は、すべてが抽象化されているため、異なるコンポーネントを制御する柔軟性があまりないことです。でも、RAG全般とこれらのRAGシステムがどのように機能するかについてもっと学びたい場合、11月19日にIBMと無料のウェビナーを行います。詳細は動画の説明欄にあります。基本原理から検索拡張生成システムの構築について考える方法を教え、その無料ウェビナーでかなり複雑なシステムを構築する予定です。
Watson Xで300,000トークンも提供されます。詳細については動画の説明欄をチェックしてください。次に、この新しいファイル検索APIを実際に使用できるプラットフォームをどのように構築したかを説明します。2つの異なるコンポーネントがあります。1つ目はナレッジベースの作成です。ナレッジベース設定をカスタマイズする機能が提供され、特定のナレッジベースを選択してチャットを開始できます。
プラットフォームのアーキテクチャ
高レベルでは、簡単な概要はこうなります。現在VercelでホストされているフロントエンドのUIがあります。サインアップして使い始めることができます。認証はClerkを通じて行われます。データベースとユーザーデータ管理はFirebase Firestoreを通じて行われます。そしてRAGの実装はGemini APIを通じて行われます。
ClerkとFirebaseは互いに補完的です。ただし、ユーザー認証にFirebaseを使用することも可能です。でもClerkはより多くの機能を提供しています。その1つが、組織レベルのインデックスとナレッジベースを作成し、人々に権限を与えることができるマルチテナントシステムの構築です。これは非常に優れた機能で、だからこそ彼らがこの動画のスポンサーになってくれていることをとても嬉しく思っています。
この動画の後半でその例をお見せします。このシステムを試したい場合、リンクは動画の説明欄にあります。Gmailアカウントを使ってサインインするだけです。ここでカスタムナレッジベースを作成するか、既存のナレッジベースでチャットを開始できます。自分のAPIキーを持参する必要があります。
実際の使用例とデモンストレーション
最初に新しいナレッジベースを作成しに行くとします。文書をアップロードしてみましょう。DeepSeekと呼びましょう。初めてクリックしようとすると、自分のAPIキーを提供するよう求められます。AI Studioに行って、APIキーを取得してください。課金アカウントに接続されていることを確認してください。デフォルトでGemini Embedding 001を使用しているため、有料アカウントが必要ですが、この埋め込みモデルの料金は本当に良いです。
続けるをクリックします。これでこのセッションのためにAPIキーが記録されます。実際に文書をアップロードする必要があります。この動画を公開する際に修正する小さなバグがあります。これをクリックしましょう。すべてが埋め込まれます。複数の異なるインデックスがある場合、それらが表示されます。すべてのインデックスが自分のAPIキーに接続されているからです。
私はあなたのファイル検索インデックスやナレッジベースにアクセスできません。次に、作成した特定のインデックスをクリックすると、質問できます。例えば、DeepSeekモデルの総トレーニングコストはいくらでしたか?転写には満足しています。異なるGeminiモデルを選択する機能もあります。
今はGemini 2.5 Flashを使用します。これでリクエストが送信されます。ツール呼び出しを行い、実際に使用されたチャンクやページも表示されます。ページ番号と、チャンクの実際のテキストがあります。場合によっては、一部のチャンクにページ番号が表示されないことに気づくでしょう。
これは、チャンクがページのちょうど真ん中にある場合に起こります。Gemini APIはページの途中にあるテキストを追跡しないからです。でも、実際には正確な応答が得られます。これは非常に優れていて、所属しているティアに応じて、本当に速いです。プロジェクトファイルの総サイズには異なる制限があります。
例えば、無料ティアでは1GBが得られます。ティア1、つまり有料ティアでは最大10GBまで可能です。ティア2は100GB、そしてティア3は1TBです。ストレージコストを支払う必要がないことを覚えておいてください。これも本当に素晴らしいことです。実際に、ここにあるもう1つの機能をお見せしましょう。
高度な機能とメタデータ管理
DeepSeekの論文といくつかの請求書をアップロードします。詳細設定に行くと、埋め込みベースの検索であるセマンティック検索、BM25のようなキーワードベースの検索、またはハイブリッドアプローチを有効にできます。複数の異なる埋め込みを選択する機能もあり、必要であれば独自のチャンクサイズも定義できます。
これを再作成しましょう。これが新しいインデックスです。請求書をクリックして、合計請求額を教えてもらえますか、というような質問ができます。送信しましょう。2つの異なる請求書があります。1つは3,000ドル、もう1つは9,000ドルです。これらは正確だとお伝えできます。
1つ注意点があります。サインアウトして再度サインインすると、チャートにはまだアクセスできます。ただし、APIキーを再度提供する必要があり、以前のすべてのナレッジベースがこのリストに表示されます。理由は、サインアウトすると、私はあなたのAPIキーにアクセスできなくなり、すべての検索ベクトルストアが実際にあなたのAPIキーに紐付いているからです。
もう1つの優れた機能をお見せしましょう。これは特にビジネスや組織にとって有用で、それはClerkがサポートするマルチテナントアーキテクチャです。例として、これが私の個人アカウントですが、組織を作成することもできます。素晴らしいのは、この組織に人々を招待できるだけでなく、異なる権限を与えることもできることです。
例えば、複数の異なるナレッジベースやインデックスがある場合、それらの一部へのアクセスを許可できます。これを構築するには、Clerkアカウントを作成する際に、このプロンプトをコピーしてCursorのようなものに持っていくだけで、Cursorがこの情報を使用してマルチテナントアプリケーションを作成できます。
例えば、これをプロンプトと呼びましょう。組織を作成します。人々を招待できます。例えば、招待を送ります。そして、個人アカウントとこの組織アカウントを切り替えることができます。ここで03というインデックスを作成しました。これは組織レベルです。
別のアカウントにログインしました。実際に招待がすでにあることがわかります。参加しましょう。そして、この組織内で03インデックスが見えます。バックエンドでは、この組織に2人いることがわかります。これは特にビジネスや組織にとって極めて強力です。
ファイル検索APIの特徴と推奨事項
最も良い点は、無料で始められることです。現在使用しているホストされたアプリケーションでも、月間最大10,000人のアクティブユーザーを提供する無料アカウントを使用しています。これは非常に優れています。Clerkをチェックしてください。詳細は動画の説明欄にあります。このファイル検索APIについていくつか注意点があります。特に比較的シンプルなRAGシステムを構築している場合は素晴らしいです。
強力なモデルを使用しています。ランキングも行ってくれます。ただし、より自律的なソリューションを構築しようとしている場合は、これをツールとしてエージェントに渡す必要があります。ここでは可能です。現在もツールとして使用されているからです。より複雑なシステムの場合は、おそらくもっと多くのカスタマイズが必要になるでしょう。
いくつかのメタデータを含める機能も提供されています。個人的に本当に気に入っている非常に優れた機能の1つは、段階的にファイルを追加できることです。例えば、ファイルを選択するだけです。ここにメタデータを含めることができます。シンプルな金額を設定しましょう。この場合、金額は9,000だとしましょう。個々のファイルにもメタデータを追加できます。そして、ファイルをアップロードをクリックすると、既存のナレッジベースに追加されます。
ナレッジベースからのファイルの段階的な追加や削除は見たことがありません。だから、これは非常に優れた機能です。例えば、これを削除すると、ナレッジベースから削除されるだけで、そのデータだけが残ります。DeepSeek関連の情報は消えます。でも、特定の場合には、検索生成だけでなく検証部分においても、より多くのコントロールが必要になります。
そのような場合は、間違いなくよりカスタマイズされたソリューションを構築したいでしょう。でも一般的には、まずこれから始めて、どこまで推し進められるか見てみることを強くお勧めします。私のファイル検索実装をチェックして、これが役に立つと思ったら教えてください。興味があれば、これを構築し続けて、より自律的なものにしていきます。
もしかしたら、これをソリューションとして提供するかもしれません。この動画が役に立ったことを願っています。視聴ありがとうございました。いつものように、次回またお会いしましょう。


コメント