Deep Research、でも無料で

8,950 文字

Google Gemini vs. OpenAI: A Deep Dive into Advanced AI Research ToolsGoogle is making its premium AI features free, incl...

グーグルが次々とプレミアム機能を無料で提供する中、今日は彼らがGeminiに追加する新機能について発表しました。その一つが「Deep Research（深い調査）」で、これが誰でも無料で利用できるようになります。これまではGemini Advancedパッケージの一部で、月額約20ドルかかっていましたが、今からは無料アカウントでも使えるようになります。AIスタジオと同様に、GoogleアプリとGeminiの間にさまざまな連携機能も発表されました。
さらに、OpenAIのGPTsのようなGoogleバージョンである「Gems」も誰でも無料で利用できるようになりましたが、実際に使う人がいるかどうかはわかりません。この動画では特に、Gemini 2.0 Flash Thinking Experimentalによって強化されたDeep Researchに焦点を当て、OpenAIのDeep Researchと直接比較していきます。
個人的には、誰が提供しているかに関わらず、Deep Researchは生成AIとRAG（検索拡張生成）の企業における最も優れた応用の一つだと感じています。
まずはGeminiの新機能を見てみましょう。モデルを選択しようとすると、新しいモデルである「2.0 Flash Thinking Experimental」が表示されます。また、Deep Researchが無料ユーザーにも利用可能になっていて、月に5つのリサーチレポートが生成できます。少ないと思うかもしれませんが、OpenAIの有料Plusアカウントでも月に10のDeep Researchレポート生成しかできません。
また、パーソナライゼーション機能もあり、Geminiはあなたについての情報を記憶します。GPTsのように、自分自身のGemsを作ることもできます。これは基本的にGoogleバージョンのGPTsで、すぐに使い始められる事前作成されたGPTsもあります。
GeminiのDeep Researchにアクセスするには、クエリを送信するときに「Deep Research」をクリックするだけです。私はすでにレポートを作成しました。「RAG（検索拡張生成）の最先端技術の詳細なレポートを作成し、企業向けRAGシステムの最も重要なコンポーネントは何か」と尋ねました。同じプロンプトをOpenAIのDeep Researchにも送りました。
両方の体験は非常に異なります。OpenAIは実際にいくつかのフォローアップ質問をして、調査計画を絞り込むのに役立ちます。Geminiのものは少し違って、クエリに基づいて研究計画を立て、すぐに検索を開始するか、計画を編集するよう頼むことができます。
計画を編集したい場合は、この計画に変更を加えるだけです。私の場合は「良さそうです」と言っただけで、それから「調査を開始します」と言われ、20〜25分後に調査が完了しました。
GeminiのDeep Researchは内部思考プロセスも表示します。まずRAGの進歩を理解し、次に主要な領域を探索し、その基づいて次のステージを決定しています。各ステージでは、使用しているすべてのリソースも一覧表示します。
最初はこれらのリソースを調べ、次に主要な構造コンポーネントを含む状況を調査しています。生成された詳細なレポートを見ていきますが、各ステージでこれまでに収集した情報に基づいて計画を修正し、調査を続けているようです。
合計で約126の異なるウェブサイトや参考資料を使用しており、調査中にどのリソースを使っているかを示してくれるこの実装が本当に気に入っています。OpenAIも非常に似た実装を持っていますが、思考の連鎖はGoogleほど詳細ではありません。基本的にはユーザーリクエストから始まり、計画を立て、調査を行い、その結果に基づいて調査を改善し、さらに多くの情報を追加していきます。この場合、約40のソースを使用しています。
ソースの質に関しては、両方とも非常に似たソースを使用していると思います。Geminiの結果でもWikipediaやMediumの記事を見ました。ここでGeminiが使用しているものと非常に似たソースが見られます。Geminiはより多くのソースやウェブサイトを使用しており、その一部はLlamaIndexのようなRAGパイプライン構築に優れた仕事をしているソリューションプロバイダーに特に焦点を当てています。
実際のレポートを見てみましょう。一般的にはOpenAIのDeep Researchの方が良いレポートを提供します。より多くのコンテンツと構造化されたアウトプットが必ずしも高品質を意味するわけではありませんが、検索拡張生成について理解があるので、これは興味深いトピックだと思い、両方のモデルからの結果を実際に比較してみました。
Geminiはまず、LLMの既存の制限のためにRAGが必要な理由から始めます。次のステップでは、RAGのアーキテクチャとワークフローの基本を見ています。例えばユーザークエリがあり、それに基づいて検索を行い、ベクトルストアから情報を抽出し、それをプロンプトの一部として、LLMを使用して応答を生成するといった基本的なコンポーネントがあります。基本はここでかなりよくカバーされています。
またプロンプトエンジニアリングとファインチューニングの重要性についても言及しています。RAGは大きな利点を提供しますが、プロンプトエンジニアリングやファインチューニングなど他の知識統合技術との関係を理解することが重要だと述べ、プロンプトエンジニアリングとは正確に何か、ファインチューニングや類似技術が情報検索にどのように役立つかを説明しています。これらのほとんどは正確です。ここまでは非常によく構造化されたレポートだと思います。
次にRAGの進化、主要な進歩とパラダイムについて話しています。最初は4つのコンポーネントを持つ標準的なRAGシステムがありましたが、いくつかの欠点があります。例えば、通常のRAGは低い精度と検索のリコール、複雑で微妙なクエリの処理の難しさ、潜在的に長い検索されたドキュメントとLLMのコンテキストウィンドウの管理の課題などに苦しんでいます。これは、LLMの初期バージョンがかなり小さなコンテキストウィンドウを持っていたため、大きな問題でした。
次に、ハイブリッド検索のような戦略を含む高度なRAGテクニックについて話し始めます。高度なRAGについてもっと学びたい場合は、「RAG Beyond Basics」というタイトルの私のコースをチェックしてください。ここで言及されている多くのテクニックについて詳しく説明しています。
ここでは、検索前、検索中、検索後のステップでの最適化について説明しています。ここまでは、かなりよく整理されていて、多くの詳細があると思います。
次にグラフベースのRAGテクニックやRAGとナレッジグラフの統合について話しています。また、Self-RAG、Corrective RAGなどのより高度なテクニックについての情報もあり、さらに仮想的なドキュメント埋め込みについても触れています。これはRAGの精度向上に役立つもう一つのテクニックです。
次に、リトリーバー自体のさまざまなコンポーネントについてより詳しく説明し、ハイブリッドアプローチについても説明しています。例えば、密な埋め込みとスパースな埋め込みテクニックを組み合わせることができます。BM25、TF-IDFなどのスパース検索テクニックは、キーワード密なコーパスに関して非常に良い結果を示しており、非常に役立つことがあります。
また、他の戦略についても説明しています。例えば、ANNや階層的ナビゲーション可能小世界（HNSW）などです。RAGパイプラインを構築する際に遭遇するであろうすべてのテクニックを非常によくカバーしていると思います。
これはほとんどがリトリーバーテクニックの解剖ですが、その後、ジェネレーターの役割について話し始めます。これは基本的にあなたのLLMであり、LLMがリトリーバーによって検索されたチャンクやドキュメントの点で十分なコンテキストを持っていることを確認したいと思います。
生成部分を改善するためのRAG用のLLMのファインチューニングを含む、さまざまなテクニックについて説明しています。Cohere社などのLLMプロバイダーは、RAGを行うためにLLMを特別にファインチューニングしており、企業レベルの検索システムを検討している場合、Cohereは本当に良いプロバイダーです。
次に、RAGパフォーマンスの強化、拡張戦略、ファインチューニングについて話し始めます。RAGシステムを改善するために潜在的に行うことができる事柄の非常に良いリストがあり、シンプルなLLM、シンプルなRAG、主要な特性、ユースケース、利点、そして考慮すべき点について説明する素晴らしい表を作成しています。
次にメモリを持つシンプルなRAG、ブランチRAG（これは基本的にルーティング）、ハイ・アダプティブRAG、コレクティブRAG、セルフRAG、エージェンティックRAGなど、遭遇するさまざまなRAGテクニックが一覧表示されており、非常に素晴らしい比較表が作成されています。
私は企業向けのRAGシステムのさまざまなコンポーネントを教えてほしいと尋ねたので、ここではスケーラビリティ、セキュリティ、データガバナンス、インフラ統合について説明されており、これらの注力領域について説明する非常に詳細な表が提供されています。
さらに、これらの各トピックの詳細な説明も提供されているので、これは非常に役立ちます。また、RAGシステムの評価、メトリクス、ベンチマーク、ベストプラクティスもまとめています。これは多くの人が注意を払わない重要な領域の一つです。RAGシステムを評価するための内部ベンチマークを持つ必要があります。
なぜなら、RAGパイプラインに変更を加える場合、例えば埋め込みモデルを別のモデルに切り替えたり、チャンキング戦略を変更したりすると、この変更がRAGシステムにどのような影響を与えるかを測定するメカニズムが必要だからです。一般的に人々は数例を見て、結果が良さそうであれば、それで進めますが、それは災害のレシピです。何かを測定できなければ、それを改善することはできません。
最後に、RAGの新興トレンドと企業アプリケーションの未来についても説明しています。例えば、リアルタイムRAGについて言及しており、これによりAIシステムがデータフィードを統合することで最も関連性の高い情報を動的に取得できるようになります。これは、金融分析やニュースモニタリングなど、最新の分単位の精度を必要とするアプリケーションにとってますます重要になるでしょう。
プライバシーと分散化について言及しているかどうか見てみましょう。プライバシーは企業のRAGシステムに関して大きな懸念事項です。ほとんどの大企業は、自社のデータを外部APIプロバイダーと共有する準備ができていません。私の経験に基づくと、ほとんどの企業はRAGシステムをプライベートかつ安全に保ち、オープンウェイトモデルを使用したいと考えています。
Geminiの深い調査によって生成されたレポートは、本当に良いスタートだと言えます。非常に詳細で、すべての適切なことについて説明しており、提供されている詳細も、分野自体の本当に良い概要を与えるのに十分だと思います。
では、OpenAIのDeep Researchによって生成されたレポートはGeminiのものと比較してどうでしょうか。前述したように、経験は少し異なります。これらの明確化質問を尋ねるからです。これは非常に役立ちます。なぜなら、Deep Researchの背後にあるモデルやシステムに、ユーザーが探しているものの範囲をより良く理解させるからです。
私は非常に簡潔な回答を提供しました。例えば「特定の産業を考えていますか？」と尋ねられたとき、「一般的に保つ」と答え、「理論的進歩と実践的応用の両方を見るべきです」と言いました。これに基づいて計画を立て、ここに出力があります。
RAGとは何か、なぜRAGが作られたのかについて説明しています。Geminiの導入部分と非常に似ていますが、特にこの全RAGシステムを始めた研究論文を引用するなど、はるかに多くの背景情報があります。これはかなり良いテストです。
その後、企業向けRAGシステムの核となるコンポーネントについて説明しています。これには、ドキュメントの検索とインデックス作成メカニズムが含まれます。基本的に、ドキュメントをどのように処理するか（前処理コンポーネント）、そして埋め込みを計算してベクトルストアに配置することで、どのようにセマンティックインデックスを作成するかです。
次に埋め込みについて説明し、実際にさまざまなテクノロジーにも言及しています。ベクトルストアのさまざまなソリューションについても説明しています。Geminiもそのレポートで全く同じ情報を提供しました。さまざまなインデックス作成テクニックについても説明しています。
次に、言語モデルと生成について説明しています。これは基本的にRAGパイプラインの2番目の部分で、ユーザークエリと検索されたドキュメントに基づいて、応答を生成するためのLLMが必要です。基本はとてもよくカバーされています。
次に、効率性とレイテンシーのための最適化テクニックについて説明しています。これは良いことです。レイテンシーは企業向けRAGシステムを構築する場合の重要なコンポーネントです。また、ハイブリッドまたは多段階システムについても説明しています。例えば、BM25のようなキーワードベースの検索と埋め込みベースの検索を組み合わせることができます。
また、レイテンシーの点で非常に重要であり、パフォーマンスの高いRAGシステムに非常に役立つキャッシング戦略についても説明しています。OpenAIのDeep Researchは特に企業に焦点を当てているようで、セキュリティとコンプライアンスをまさに最上位に置いています。これにはアクセスコントロール、データの匿名化、個人を特定できる情報の削除などが含まれます。
ストレージをどのように暗号化するか、さまざまなテクニックがここで言及されています。次に、スケーラブルなインデックス作成と更新、パフォーマンスのモニタリングとチューニングを含むスケーラビリティとメンテナンス戦略に進みます。つまり、企業のRAGシステムで必要なすべてのものがここで言及されています。Geminiはまったく同じ情報を提供していたので、両方が同様の情報を提供しています。
オープンソースと独自のフレームワークに関するセクションがあります。これはそれが尋ねた質問の一つだと思います。RAGシステムを構築するためのいくつかのオープンソースフレームワークがここで言及されています。次に、GoogleのVertex AI Search、AzureのCognitive Searchなどの独自のRAGソリューションについて説明しています。また、Cohereのラックスタックにも言及しています。
これは、さまざまなAPIプロバイダーやRAGプロバイダーを比較する際に、より最新のものだと思います。次のセクションはパフォーマンスと効率性のベンチマークです。RAGの実装がパフォーマンスが高いことをどのように確認し、それを評価するためのベンチマークがあることをどのように確認するかです。Geminiでも見たものですが、これにはより多くの詳細があり、特に企業に焦点を当てていると感じます。
OpenAIのDeep Researchが言及している別の重要なコンポーネントは、企業システムとの統合能力です。企業は通常、既存のセットアップやシステムと統合できない限り、まったく新しいソリューションを導入することに非常に躊躇します。
これは多くの企業にとって重要な基準です。なぜなら、新しいインフラを持ちたくないからです。彼らは既存のシステムと接続できることを望んでいます。これは別の非常に重要な基準であり、OpenAIのDeep Researchがそれを捉えたことに実際に本当に満足しています。
また、企業の採用事例も含まれており、これらは実際の事例です。例えば、金融サービスではモルガン・スタンレー、法的領域ではHarveyAIが大きな名前であり、テレコムは別のチャートカンパニーです。提示されているユースケースや事例研究は実際のものであり、多くの価値を提供しています。
次に、実装の課題とベストプラクティスに関するセクションがあります。幻覚や誤情報の処理、ベストプラクティスは何かなどです。言及されている一つのベストプラクティスはプロンプトエンジニアリングです。例えば、LLMに「提供されたコンテキストからの情報だけで回答し、答えがコンテキストにない場合は分からないと言うように」と指示できます。
通常、RAGシステムを構築する場合、これは機能しません。プロンプトはより詳細である必要があります。通常、いくつかの短い例を含めることが非常に重要です。次に、検索メカニズムのファインチューニングについて説明し、その場合は埋め込みモデルをファインチューニングする必要があります。
言うは易く行うは難しです。多くの場合、人々は埋め込みモデルをファインチューニングするためのデータを持っていません。なぜなら、非常に特定のフォーマットでデータが必要であり、推論速度が非常に重要だからです。そしてそれには実際にいくつかの戦略があります。
例えば、ベクトルインデックスが高速セグメンテーションに最適化されていることを確認します。HNSWのような近似メソッドを使用するとレイテンシーが向上しますが、正確な検索を求めると時間がかかります。また、並列性を追加することもできます。検索と生成を順次行いますが、特定の部分を並列化することもできます。
例えば、2段階検索を使用している場合、順次実行するのではなく、並列に実行することができます。次に、特にアプリケーションに基づいたモデル最適化では、GPT-4のような巨大なモデルの代わりに小さなモデルを使用することができます。または、適切に最適化されたインフラを確実に持つために時間をかけることもできます。これは多くの人や企業が実際に無視するもう一つの重要なコンポーネントです。
次に、信頼性と堅牢性の確保について説明し、最後にRAGシステムの技術的分析に関するセクションを追加しています。RAGパイプラインのさまざまなコンポーネントは何か、質問またはクエリの処理、ドキュメントの検索、コンテキストの準備、LLMによる生成、そして後処理です。
Geminiによって生成されたレポートにはこれらのコンポーネントがすべて最初にありましたが、ここでDeep Researchはすべてを最後に置くことを決めました。また、埋め込みモデルと検索アルゴリズムの進歩についても説明しています。
具体的には、BERTやSentence-BERTから始まり、Dense Passage Retrieversという別のテクニックが提案され、現在では文脈的なクエリ依存の埋め込みがあります。ここでは、ほとんどの高度なテクニックを非常に詳細にカバーしています。また、ハイブリッド検索（キーワードプラス密な検索）についても説明しています。
新興トレンドと将来の方向性を見てみましょう。エンドツーエンドの微分可能なRAG、研究者はLLMとリトリーバーをエンドツーエンドでトレーニングすることを探求しており、これによりダウンストリームタスクのパフォーマンスに直接最適化された検索が可能になります。これにはREALなどのモデルも含まれます。実際にこれについては聞いたことがありませんが、比較的古いテクニックのようです。
次にメモリの拡張と継続的な学習についても触れています。これも実際に前に見たことがないものなので、おそらくこれを調べる必要があります。Model-RAGについては、Local GPT Visionというプロジェクトがあり、これによりビジョン言語モデルでエンドツーエンドのマルチモーダルRAGを行うことができます。ぜひチェックしてみてください。
より大きなコンテキストウィンドウと検索ツールの使用、エージェント、説明可能性、フェデレーテッドおよびプライバシー保護RAGです。OpenAIのDeep Researchによって生成されたレポートは、はるかに詳細であり、テキストの量だけでなく、情報密度も高いと思います。
最後の考えは何でしょうか？全体的には、GeminiのDeep Researchはそのようなシステムが何をできるかの良い味わいを与えてくれると思います。クエリに関してより多くの詳細を提供すれば、おそらくより詳細なレポートを生成できるでしょう。しかし、この特定のユースケースまたはこの特定のケーススタディでは、OpenAIのDeep Researchによって生成されたレポートにはより多くの実質があります。
これははるかに詳細であり、その詳細も実際にはるかに有用です。しかし、これには月額20ドルを支払っており、Googleのものは無料で手に入ります。このビデオでは簡単な並列比較を行いましたが、Googleが提供する他の機能についても見ていくつもりです。興味があれば、このチャンネルを購読して下さい。このビデオが役立つことを願っています。視聴していただきありがとうございます。いつものように、次回の動画でお会いしましょう。