
5,842 文字

ディープシークR1のリリースのおかげで、通常なら1年かかるようなOpenAIのリリースが、ここ数週間で前例のないペースで行われました。しかし、これには少し問題がありました。発表されたo3ミニ以外は、全てチャットGPTプロでしか利用できません。特に最新の話題となっているディープリサーチという新機能もそうです。
私のような、200ドルを手放したくない倹約家にとって、ディープリサーチが11,000語のビジネスレポートを書けるとか、年収15万ドルのプロフェッショナルよりも費用対効果が高いとか、あるいはウィキペディアの終わりになるといった主張を見ると、財布がこれまでにないほど誘惑されています。
ですが、ありがたいことに素晴らしい共有出力機能のおかげで、自分で応答を生成する代わりに、オンラインで共有されている人々の結果を見て情報をまとめることで、まだプロのサブスクリプションは必要ないと自分に言い聞かせることができそうです。
そこで今日は、ディープリサーチの応答品質について非常に詳細な分析を行い、本当にAIスラップなのかAIスローなのかを見極めていきたいと思います。
その前に、今回のスポンサーであるMonacoについてお話しさせてください。これは1回のクリックで、どこでもAIを使えるようにするブラウザ拡張機能です。読むのが面倒なニュース記事を要約したり、メールの返信を素早く行ったり、ウェブページを並べて比較しながら翻訳したり、あるいは生成コンテンツを作成したりする場合に、Monacoが対応してくれます。
ウェブコンテンツをチャットGPTにコピー&ペーストする手間を省くだけでなく、Monacoは数回のクリックで全ての主要なAIモデルにアクセスできます。チャットGPT、ディープシーク、クロー、ラマ、ジェミニなどの言語モデルから、イディオグラム・プレイグラウンド・リクラフトのような画像生成AI、さらにはクレアリング・ランウェイ・ハイといったトップクラスのAIビデオジェネレーターまで利用可能です。
拡張機能、モバイルアプリ、ウェブアプリを提供するこのオールインワンツールは、月額わずか10ドルからで、無料でお試しいただくこともできます。私の視聴者限定で10%オフ、さらにサインアップ後24時間以内に年間プランを購入すると25%オフという特別割引も実施中です。他の10個のサブスクリプションを解約したい方は、説明欄のリンクからMonacoをチェックしてみてください。Monacoには本動画のスポンサーとなっていただき、ありがとうございます。
さて、OpenAIによって再び不適切に名付けられたディープリサーチについて簡単に説明させていただきます。これは先に発表されたGoogleのディープリサーチと全く同じ名前ですが、複雑なタスクに対してマルチステップのインターネット検索を行うために設計されたエージェントです。数百のオンラインソースから情報を収集し、レポートにまとめる機能を持っています。
おそらくその仕組みは、チャットGPTがプロンプトからたくさんのキーワードを作成し、Googleで上位100件ほどの検索結果を取得し、それらの情報をコンテキストとしてOpenAIの新しいo3を使用して回答を生成するというものでしょう。例えば、RTX 490の価格を比較して、どの小売店が最安値を提供しているかをテーブルにまとめるように依頼すると、わずか10分で実行できます。つまり、超ハイパワーなウェブ検索といったところです。
しかし、1回のクエリにかかるコストが約50セントで、その価値は500ドルに相当すると主張する人もいる一方で、ジェミニのディープリサーチの方がRTX 490の価格比較をはるかに良く行い、アクセスに必要なサブスクリプション料金も10分の1で済むことを考えると、より難しい質問に対する回答を詳しく見てみる必要がありそうです。
私はOpenAIのディープリサーチの結果しか持っていませんが、オーディオさんが親切にも生成プロセスを記録してくれたので、皆さんと共有できます。最初にプロンプトを入力すると、通常はプロンプトについて明確にするための質問が続きます。医療に関する推奨事項を検索する場合は、他の症状がないかを尋ねます。私の場合、価格比較では場所が重要な情報であることを忘れていましたが、ディープリサーチがAIに特定するよう求めてきたのは、なかなか賢いですね。
その後、提供された限られた指示を10〜20分かけて読み込み、質問の難しさに応じて長文のレポートを作成します。しかし、ディープリサーチが本当に優れているのか、あるいはそもそも優れているのかを理解するためには、もっと複雑な内容について調査させる必要があります。
ディープシークについての詳細な説明を求めるAIクエリは、結果の品質を分析するには完璧な題材かもしれません。結局のところ、私の最近の動画で取り上げたディープシークのニュースほど皆さんにとって馴染み深いものはないでしょう。もし文脈が必要な方は、それらの動画をチェックしてみてください。
まず第一に、要約は本当によく処理できています。RLなしのSFT、コースタートデータ、蒸留の結果など、ディープシークR1の主要な革新のほとんどを指摘しています。しかし、彼らのRLアルゴリズムがGRPOであることには触れていません。これは実験成功の主要な要因なのですが。さらに、コースタートデータの起源について不正確な説明、あるいは誤った説明をしています。
思い出してほしいのですが、コアデータはディープゼロによって生成された推論データを手動でクリーンアップしたものです。完全に人間が書いたものではなく、RL後の追加データとして明確に定義されているわけでもありません。その後、ディープリサーチはこれをハイブリッドパイプラインと主張していますが、引用されているR1論文にはハイブリッドという言葉は一切出てきません。そしてもちろん、これはハイブリッドパイプラインでもありません。
さらに、蒸留に関する見解も少しずれています。小さなモデルがそのサイズを超えた能力を獲得するということではなく、ディープシークが提案した重要な洞察は、小さなモデルは自身でRLを行うよりも、蒸留された推論の方が良い性能を発揮するということです。
それに加えて、蒸留された小さなモデルの名前には触れておらず、他に5つの異なるサイズがあるにもかかわらず、1.5bのパラメータモデルにしか言及していません。さらに面白いのは、GPT 4oをOpenAIの最適化されたGPT4バリアントと説明していますが、GPT 4oの「o」は最適化を意味していないはずです。
まだまだ明確さと事実に関する問題を指摘できますが、これはイノベーションについての最初のセクションだけの話です。しかし、ディープリサーチには称賛すべき点もあります。正しく指摘した点は本当に洞察に富んでいたからです。
例えば、単に説明するだけでなく、ボードゲームと言語の探索空間を比較することで、なぜMCTSがディープシークのキーに効果がなかったのかを詳しく説明しています。また、プロセス報酬モデルが本質的に中間推論ステップを評価するモデルであるという、シンプルながら効果的な説明も提供しています。
これらの情報は、人間がこれほど短時間でまとめるのは難しいものであり、非常に価値があります。さらに、これまで参照してきた数値のほとんどが正確でした。しかし、ネタバレですが、より多くのソースが関与する場合、特にそれらのソースの質が高くない場合、その精度は低下します。
非革新的な議論のセクション(レポートの後半)では、品質が少し低下しています。まず、最初の段落で正しく言及していたにもかかわらず、専門家の数を誤って伝えています。次に、H800 GPUがA100より遅いと主張していますが、これは事実ではありません。スペックを見ると、H800はメモリ帯域幅のスピードが制限されているだけで、他の点ではH100とほぼ同じであり、A100よりもはるかに優れています。
第三に、引用されたソースがGPT4のコストについて言及していないにもかかわらず、1億ドル以上かかったという主張を誤って伝えています。最後に、GPT4がテストでCodeforce評価1,900〜2,000を獲得し、GPT4(ちなみに2023年3月版)がAMIで80〜85%のスコアを記録したと誤って述べていますが、これらは完全に誤りであり、明らかに誤った情報です。
おそらく、まずい命名戦略がOpenAIに跳ね返ってきているのでしょう。皮肉なことに、現在のAI検索の問題点は、バイアスや意見が欠如していることです。もしブログが何かを「革新的」と言えば、そのブログが客観的に間違っていたとしても、モデルは全く同じ言葉を繰り返します。
逆に、科学論文が他のすべてのソースの中で最も正当なソースである場合、モデルは他のソースよりもそれに依存すべきです。したがって、ディープリサーチを使って良い議論を展開することは、まだ不可能なようです。
さらに、参照している情報からの洞察にのみ依存しており、自分で新しい洞察を生み出すことができません。例えば、ディープシークがo1より96%安い価格を提供すると誇るIBMの記事を引用していたとしても、これを認識することはできなかったでしょう。おそらく、「価格差が大きいから指摘すべきだ」と考えるような、より良い推論プロセスがあれば解決するかもしれません。
現時点では、新しい洞察を提供しようとすると、GPT4の例のように誤った情報を生成してしまいます。これらの批判は本当に厳しいものですが、たとえ良いものであっても、使用を決める際に十分な準備ができるように、欠点を指摘したいと思います。
では、ディープリサーチは本当に優れているのでしょうか?あるいは、すでに安価に同じことができる他のものはあるのでしょうか?私はAI研究論文を検索するためのものを構築中です。パイプラインは良好ですが、まだ完成していません。ただし、これはAI研究論文に限定されています。
Googleのディープリサーチに関しては、同じプロンプトを使用すると、OpenAIのディープリサーチの包括的なレポートと比較して、詳細がはるかに浅いことがすぐにわかります。OpenAIのディープリサーチが言及しなかったGRPOには触れていますが、誤った情報の問題がさらに大きく、引用は実在するものの、生成された内容は完全に誤りです。
この場合、ソースはディープシークR1やGPT4に関するものではなく、ディープシークの画像生成モデルであるジェネシスプロに関するものです。コストについても誤った情報を生成しています。さらに、下部までスクロールすると、Googleのディープリサーチは主にYouTube動画、ブログ、ニュースサイトのみを引用しており、アーカイブや信頼できる科学研究をホストする他のウェブサイトからの引用は皆無です。
GoogleのSEOがGoogleのディープリサーチ内の検索ランキングに大きな影響を与えているようで、科学研究論文を優先すべきであることは明らかです。そのため、GoogleのディープリサーチはOpenAIのディープリサーチの10分の1の価格であっても、詳細な分析を行うのには適していません。特に、深く学びたいトピックについて、さらに多くの誤った情報を生成してしまう可能性があります。
公式のベンチマークについても、他のAI検索製品との比較がないため、実際のパフォーマンスを判断するのにあまり役立たないので、スキップします。
さて、OpenAIのディープリサーチは価値があるのでしょうか?私の意見は分かれています。一方で、一般的な要約は驚くほど役立ちます。また、いくつかのソースが良質でないために結果のレポートが欠陥を持つのは、AIの責任とは言えません。
しかし、事実の正確性に多くの不確実性がある場合、これを真剣に使用するのは難しくなります。また、新しい洞察を生み出そうとする際のモデルの誤った情報生成については、モデルのスキルの問題です。これが博士論文レベルだとすれば、一貫性の欠如のために即座に却下されるでしょう。
実際のプロのコンサルタントの方がはるかに洞察に富んでいるため、AIが重要な情報を見逃すリスクは取れないので、投資しようとしているビジネスについての財務レポートを作成するのに、現時点では完全には信頼できません。
しかし、人工的に猫耳を人間に生やすことがどれほど実用的かを調べるような、情報をまとめるのが本当に難しいニッチや珍しいトピックの研究には、学びたい様々な分野に飛び込むための完璧な入り口になるかもしれません。
では、200ドルの価値はあるのでしょうか?私はこの動画を、ディープリサーチの問題点について完全に理解できるという考えで作りました。これらの欠点を評価した後、受け入れられると感じるなら、それはあなたのお金の使い方です。私のものではありません。
しかし、価格比較や3段落以内で答えられるような、もっとシンプルなことを検索したいだけなら、それほどの価値はありません。ただし、o3ミニハイへの無制限アクセスがあり、それは完全に悪い取引とは言えません。一方、オペレーターはかなり役に立ちません。
ただし、o3ミニハイがどれだけ優れているかをもっと知りたい場合は、20ドルのチャットGPTプランでも週に数回のメッセージで試すことができます。
OpenAIのディープリサーチが生成した完全なレポートを読みたい方は、説明欄にリンクを載せておきます。最新の最先端の研究について知りたい方は、動画で取り上げる時間がない可能性のある最新のジーエス研究論文を共有しているニュースレターをチェックしてください。
視聴していただき、ありがとうございます。パトレオンやYouTubeを通じて支援してくださるアンドレアス・チェルス、クリス・リュー、ディーン・ムリム、ロバート・ザサ・デュイス・ムク、ベン・シャー、マルセロ・フェラリア、ゼイン・シープ、その他多くの方々に大きな感謝を。まだの方はTwitterでフォローしてください。また次回お会いしましょう。


コメント