DeepResearch：Google（無料）とOpenAI o3（$20）の実世界での比較

23,803 文字

Deep Research: Google (FREE) vs OpenAI o3 (): REAL-WORLD EX

Detailed real-world test of DEEP RESEARCH - as offered by OpenAI "o3-mini-high" vs the new Gemini 2.0 Thinking by Google...

こんにちは、皆さん。今日はDeepResearchについて、Gemini 2.0シンキングモデル、つまり最新のシンキングモデルを使って検証します。これは無料版で、Geminiアプリで誰でも利用できます。
特定のクエリを用意しました。ご存知の通り、このクエリには特殊な点があります。まず「教師あり微調整と強化学習の違いを理解したい。特に新しい未見データに対する詳細な推論を生成する効果の点で」というところから始めます。
これはすでに避けるべきことです。文が長すぎて複雑で指示が入り組みすぎており、AIが問題を抱える可能性があります。しかし、最高のシステムを求めているのでこれをベンチマークとします。
続いて、わざと間違いを入れます。ここでPPOは近位ポリシー最適化ですが、私は学生という設定なので、単に「勾配ベース報酬最適化」という意味不明な言葉を書きます。このシステムが、私が指定した領域で間違った略語や専門用語を使っていることを発見できるか見てみましょう。
さらに「PPOはポリシー最適化の略で、推論方法を学ぶという利点がある」と書いています。さらに詳細を提供します。「思考の連鎖やその先、グラフトポロジーや複雑な構造での新しい知識の統合などについて」。これも避けるべきことです。複雑すぎて入り組みすぎていますが、システムの限界をテストするためにこうしています。
また指示も含めています。「最近のAI論文やarXiv上のプレプリントに焦点を当て、商用ウェブサイト、Medium、LinkedIn、X（旧Twitter）のコンテンツは避けてください」と。
ではGemini 2.0に聞いてみましょう。無料版なので、皆さんも試せますよ。
Gemini 2.0は「研究計画をまとめました」と返答しています。これは良いですね。「こんな計画を考えていますが、どう思いますか？更新が必要であれば教えてください」と。
見てみましょう。「教師あり微調整と強化学習の違いを理解したい」と書いてありますね。しかし、私が使った非存在の用語について指摘していません。失敗です。
計画には8つのステップがあります。システムが「こうしたい」と言っています。
「教師あり微調整と強化学習を検索して比較する」「詳細な推論を生成するための効果について分析する論文を特定する」「AIの研究論文で強化学習が推論能力に大きな利点を提供するかを調査する」と。私の複雑な文を3〜4つのシンプルな要素に分解できていますね。
「思考の連鎖やより複雑な推論構造について議論する論文を探す」「強化学習がLLMに思考の連鎖やグラフトポロジーを含む推論をどう訓練するかを探る論文を検索する」「最近のAI論文を特定する」「複雑な情報と未見データについての研究を見つける」「包括的な概要を提供するために発見を統合する」。
8つのポイントに若干の重複がありますが、問題ないでしょう。では「オーケー」と言って分析を始めてもらいましょう。計画を編集することもできますが、そのまま進めましょう。結果を分析してレポートを作成してもらいます。
リアルタイムで見ていきましょう。システムが何か見つけられるか確認します。研究開始…活発に動いています…シンキングモードですね…シンキングが見られるのは良いですね。
「訓練の問題を理解する：教師あり微調整と強化学習の基本的な違いについて調査を始めます。各訓練方法がモデルの詳細な推論を生成する能力にどのように影響するか調査したいと思います」。
まだ間違った用語を指摘していませんね。「推論構造を調査する」「研究ウェブサイト」「初期の発見」。「いくつかの最近の論文を見つけました」と言っていますね。「思考の連鎖訓練に関する論文も特定しました」。すばらしい。
「知識統合の洞察：プロセス選好学習による自己訓練に関する論文が、これを強化することに触れているようです」「より完全な姿を得るには、検索クエリを絞る必要があります」「限られたデータでの推論に関する新しい研究」「訓練方法の組み合わせ」「OURLでの推論の課題、特定の論文で崩壊現象について」。私はこれをロボティクスと呼びましたが、ビデオへのリンクを残しておきます。
「さらなる説明、研究ウェブサイト、arXivで更に研究を発見、ガイダンス比較、推論におけるPPOの役割に関する論文」。素晴らしい。「新しいフィードバックからの強化学習、DPO」。探していた用語のうち二つを見つけました。
「次のステップ：これらの新しく発見した論文を読み、主要な比較を抽出する」「新しい論文、抽出、言語理解におけるパフォーマンス、新しい知識」。素晴らしい。23のウェブサイトを見つけたようです。無料でこれだけの情報が得られるなんて素晴らしいですね。
「チャットを離れてもいいですよ。終わり次第お知らせします」と言っています。これは良いですね。人間とのさらなるやり取りなしで考え続けています。シンキングモードをもう少し見てみましょう。
「思考の連鎖を超えた、より複雑な推論構造に強化学習がどのように使用できるかをさらに調査します。この話題に焦点を当てているように見える新しく特定された2つの論文を調べます」。
まるで人間の学生のようですね。全ての可能性を一歩一歩検討し、計画を立て、メタ思考があります。素晴らしい。
新しい論文はかなり複雑なようです。Gemini 2.0シンキングを待っています。一日前にリリースされたばかりの新しいシンキングモデルなので、多くの人が同時に試しているかもしれませんね。
「推論の進展：強化学習、特にPPOが言語理解においては教師あり微調整よりも優れていることに気づきました」「推論の基盤は基盤を確立する上で重要な役割を果たしています。教師あり微調整…」「強化学習が複雑な推論構造にどのように使用されるかについての洞察を提供する可能性のある論文へのアクセスに問題がありました。今までに収集した情報を合成して、最初の質問に対処します」
これは答えではなく、シンキングプロセスが終了したようです。ここで回答が生成されました。見てみましょう。
「教師あり微調整対強化学習による詳細な推論とLLM比較分析」。「顕著な進歩…両方のアプローチが大きな成功を示していますが、未見のデータに直面した時に堅牢な推論能力を示すモデルへの需要の高まりは、それぞれの強みと限界のより深い理解を必要としています」。質問を完璧に理解していますね。
「これらのモデルにおける真の知性は、複雑な問題をナビゲートし、学習したパターンを未知のシナリオに拡張する能力を必要としています」「ルートの記憶を超えて、基本原理と関係の真の理解に向かう」。
「LLMにおける推論のための教師あり微調整：思考の連鎖プロンプトの概念の発展…各例が問題と最終的な答えだけでなく、その解決策に至る中間的な推論ステップのシーケンスも含むデータセットでLLMを訓練することを含みます」。思考の連鎖とは何かを理解していますね。
「この推論ステップを生成する能力は、主に思考の連鎖の例をいくつか提供する慎重に作られたプロンプトによって引き出されました。研究者たちは、明示的にこの推論シーケンスを含むデータセットでモデルを微調整することで、この能力をより一貫性があり信頼性のあるものにできることを発見しました。本質的に、広範囲な文脈内学習の例を常に必要とせずに、モデルのパラメータ内に推論能力を埋め込むことができます」。
「プロンプティングに頼ることから微調整を組み込むことへのこの転換は、推論をモデルのより本質的な属性にするための努力を意味します」。ここにリンクがあります。
「しかし、アノテーションは特定のタイプの推論に効果的であることが証明されていますが、非常に複雑な問題や非線形推論構造を必要とするものを扱う場合には限界に直面します」。
「研究は、提供された思考の連鎖だけでモデルを訓練しても、十分に強い一般化にはつながらない可能性があることを示しています」。
「数学的問題解決では、訓練データには各問題に対して一つのアノテーション付き推論パスしか含まれていないことがよくあります。これにより、モデルは根本的な数学的原理のより深い理解を発展させることなく、特定のパスを作成することを学ぶ可能性があります」。
「わずかに異なるアプローチを必要とする新しい問題に直面すると、モデルは代替の推論戦略を探索するように訓練されていないため、苦戦する可能性があります」。
「訓練データ内の静的な事前定義された推論パスへの依存は、モデルが新しいシナリオに適応し、潜在的により効率的な問題解決方法を発見する能力を妨げる可能性があります」。
「中核的な問題は、SFT問題がモデルに訓練データで観察されたパターンを再現するように教えることにあるようです」。
「訓練データが解決策に到達する方法を一つしか示していない場合、可能な推論ステップのより広い空間を探索するモデルの能力は制約されたままです」。これは正しいですね。これが研究です。
「さらに、教師あり微調整のLLMが初期訓練フェーズ後に新しい知識を統合し活用する能力の効果は限られています。SFTは通常、固定のデータセットで訓練することを含みます。新しい情報を組み込むには、この新しい知識を含むデータで更なる微調整が必要です」。
「これは計算上高価で、「破滅的忘却」という現象につながる可能性もあります」「モデルが新しい情報を学ぶ際に、以前に獲得した知識を失うこと」。
「コード生成に関する研究は、教師あり微調整が進むにつれて、モデルが元のプロンプトとその解決策を一緒に記憶する傾向があり、わずかに修正された問題にさえ一般化することが難しくなる可能性があることを示唆しています」。
「この傾向は、SFTが柔軟な推論を可能にする方法で、新しい情報を真に理解し統合する上での潜在的な課題を強調しています。文脈内学習がモデルにプロンプトで提供されたいくつかの新しい情報を活用することを可能にする場合がありますが、これは新しい事実や概念を一貫した方法で真に組み込み、推論するための堅牢でスケーラブルなソリューションではありません」。
「強化学習、特に人間からのフィードバックによる強化学習とAIフィードバックによる強化学習は、詳細な推論を育成する上での教師あり微調整の限界のいくつかに対処することを目的としたLLMを訓練するための代替アプローチを提供します」。
「推論プロセスの明示的なアノテーションに頼るのではなく、詳細で正確な推論の生成といった望ましい行動を奨励する報酬信号に基づいてモデルを訓練します」。
「提供された資料では、私の間違った技術用語である「勾配ベース報酬最適化」を明示的に言及していませんが、一般的な強化学習の原則には、受け取った報酬に基づいてモデルのポリシーを最大化することが含まれます」。
「これには、報酬を受け取った行動に基づいてモデルのパラメータを調整するためのポリシー勾配法の使用がよく含まれます。私の最後のビデオでは数学的公式を取り上げました」。
「また、単純な線形チェーンを超えた推論の学習を促進する可能性を示し、ツリーやグラフなどのより複雑な構造の探索を可能にします」。
「例えば、ビジョン言語モデルエージェント訓練における「思考崩壊」と呼ばれる現象に対処するための「ガイド付き思考強化」（GTR）に関する研究は、エージェントが推論の多様性を急速に失うことを強調し、モデルが健全な推論を発展させることを保証するために強化学習中にプロセス指導を提供する必要性を強調しています」。
「別の論文は、タスクの複雑さに基づいて推論時に計算リソースを動的に割り当てることによって、言語モデルが効果的に推論するように訓練するためのRLの使用に焦点を当てています。最小の計算オーバーヘッドで精度を達成することでモデルに報酬を与えることで、より効率的な推論パターンを促進できます」。
「ReasonFlux（私はReasonFluxに関するビデオがあります）は、数学的推論能力を大幅に向上させるために強化学習と思考テンプレートのライブラリを活用する階層的推論アプローチを提示しています」。
「これは、RL枠組み内で推論プロセスを構造化することが、複雑な問題に取り組むために非常に効果的である可能性があることを示唆しています」。
「推論言語モデルの包括的なブループリントは、RLがチェーン、ツリー、グラフを含む多様な推論構造をサポートするように設計されたアーキテクチャの中核要素であることを強調しています」。
「訓練は集合的に、RLが成功した結果と推論プロセスに報酬を与えることによって、モデルをより良い推論に導くフレームワークを提供することを示唆しています」。
「このアプローチは、教師あり微調整データセットで明示的に提供されるものと比較して、より効果的で複雑な推論戦略の発見を可能にする潜在性を持っています」。
「GTRと階層的RLのような技術は進歩を表しています」。
「特定のスニペットが新しい知識を統合するための強化学習の使用を直接取り上げていませんが、モデルが環境と相互作用する強化学習の動的な性質は、教師あり微調整の静的な性質に比べて潜在的な利点を示唆しています」。
「RLの設定では、モデルは学習プロセス中に新しい情報にさらされ、この情報を使用して推論と問題解決を改善する能力に基づいて報酬を受け取る可能性があります」。
「この対話型学習のパラダイムは、通常教師あり微調整に関連する個別のトレーニングフェーズと比較して、継続的な学習と知識統合により適している可能性があります」。
「環境内の新しい情報との相互作用と適応を通じて学習する強化学習エージェントの能力は、潜在的にLLMが教師あり微調整よりも効果的に新しい知識を組み込むことを可能にするために活用できる可能性があります」。
「第4章：線形チェーンを超えた推論の探索」。
「思考テンプレートに関する階層的強化学習を採用するReasonFluxフレームワークもまた、より構造化され、潜在的に非線形の推論プロセスへの移行を示しています」。
「この発展は、強化学習が開発において重要な役割を果たす、従来の線形思考チェーンを超えたより洗練された推論構造に向けた傾向を示しています」。
「思考のグラフなどのより洗練された構造に関する研究は、LLMをこの種の複雑な情報統合を形成する能力を備えることを目的としています。強化学習の使用は、この移行の鍵となる可能性があります」。
「私たちはここに新しい論文、複数の論文、ReasonFlux論文、推論言語モデルのブループリントなどの論文があります」。
「提供されたスニペットは、非線形構造で推論を実行するためにLLMを訓練するための教師あり微調整アプローチを明示的に詳しく説明していませんが、研究者たちがこれらの複雑な推論パスを表現するために教師あり微調整データを構造化する方法を探求していることは妥当です」。
「ここでGeminiは「妥当です」と言っていますが、注意が必要です」。
「非順次的な方法で異なる情報がどのように接続され処理されるかを示す訓練例で、アノテーション付きの推論グラフやツリーを持つデータセットを作成すること」。
「課題は、可能な複雑な推論パターンの広大な空間を効果的に捉えることができる、そのような包括的で多様なデータセットを作成することにあります」。
「試行錯誤を通じて学習し、動的環境で望ましい結果を最適化するRLの能力は、これらのより複雑な推論能力を獲得するためのより柔軟でスケーラブルなアプローチを提供する可能性があります」。
「第5章：新しい知識の統合。コード生成の研究が示唆するように、教師あり微調整は計算上高価です。教師あり微調整は記憶よりも一般化を導く可能性があり、新しい少し異なる情報の効果的な統合を妨げる可能性があります」。
「SFTは、新しい情報を含むデータで明示的に再訓練することなく、シームレスな知識統合に課題に直面する可能性があります」。
「対照的に、強化学習はその対話的な性質により、LLMが動的に新しい情報を統合し、それで推論する能力を強化する潜在的な利点を持っています」。
「強化学習フレームワークでは、モデルは新しい情報が導入される環境と相互作用するように設計できます。報酬関数は、モデルが新しい情報を利用して推論を改善し、より良い結果を達成するように奨励するように作成できます」。
「この動的学習プロセスは、教師あり微調整のバッチベースのトレーニングと比較して、進化する知識を扱うためのより自然な方法を提供します」。
「特定のスニペットが直接これを確認していませんが、強化学習エージェントが経験から学び、新しい入力に基づいてポリシーを適応させる固有の能力は、継続的な知識統合を必要とするシナリオにおける教師あり微調整よりも潜在的な優位性を示唆しています」。
「第6章：これは本当に興味深いです、主要なポイントを理解しています。教師あり微調整は、思考の連鎖の例などの高品質のアノテーション付きデータを使用する際の相対的な単純さと効果を提供します。望ましい推論プロセスの直接的なデモンストレーションからの学習を呼びかけます」。
「SFTの訓練データへの依存も重要な制限となる可能性があります」。
「潜在的に新規の問題に一般化する能力や代替の推論パスを探索する能力を制限する可能性があります。新しい知識はしばしば相当な再訓練を必要とし、ベストケースでは事前訓練を必要とします」。
「一方、強化学習は報酬に基づいてLLMを訓練するためのフレームワークを提供し、より複雑で細かい推論行動を奨励できます」。
「研究は、RLが特に小さなモデルやデータが限られたシナリオで効果的である可能性があることを示唆しています」。
「推論を強化するには、特に長い思考の連鎖プロセスにおいて、また教師あり微調整で初期訓練されたモデルをさらに改善するために、より高い潜在性を持っているように見えます」。
「最初に教師あり微調整を行い、その後強化学習を適用するというのは良いアイデアです。特定のシステムに有効かどうか確認してください」。
「しかし、近位ポリシー最適化（PPO）などのRLベースの微調整は、自然言語理解において大幅な改善を示しています。RLにおける人間のフィードバックは、洗練された推論行動の出現にさえつながっています」。
「RLは欠点がないわけではありません。実装がより複雑で、効果的な報酬関数の設計やハイパーパラメータの調整に多大な努力を必要とする場合があります」。
「トレーニングも不安定になる可能性があり、潜在的に望ましくない結果につながる可能性があります」。
「DPO（直接選好最適化）などのより効率的な選好ベースの学習手法の出現は、従来の強化学習アプローチに関連する計算上および安定性の問題の一部に対処するための継続的な努力を示しています」。
「教師あり微調整対強化学習の適合性は、特定の推論タスクによって異なります。SFTは、推論プロセスが明確に定義され、訓練データで効果的に捉えられるタスクには十分かもしれませんが、探索を必要とするより複雑なタスクでは、RLがより有望なアプローチを提供するように見えます」。
「表：LLMにおける推論のための教師あり微調整と強化学習の比較」。
「結論に移りましょう。ここまですべてが完璧だったので、この結論も正確だと思います」。
「訓練データ：アノテーション付きの例、質問-回答のペア、思考のパス、環境との相互作用、結果や推論の質に基づく報酬信号」。
「提供された例の模倣、つまりパターンを学習しSFTデータセットで遭遇したパターンを模倣します。RLは累積報酬を最大化するためにポリシーを最適化します」。
「有効性：十分な高品質の思考連鎖データがあれば効果的です。特に適切に設計された報酬関数があれば効果的ですが、これは時々本当に複雑になることがあります、特にPPOを使用し価値関数があるとき」。
「複雑な推論：訓練データの多様性と構造によって制限されます。これは、訓練データの質にすべて依存します。RLは新しいテスト時計算スケーリング、階層的、グラフベースの推論で有望です」。
「一般化：訓練データを超えた新しい問題で苦戦する可能性があります。ロボティクスにおける強化学習のように、探索と報酬ベースの自己学習を通じてより良い一般化の可能性があります。これは、エージェントが環境と相互作用するためです」。
「新しい知識の統合：新しい知識を含むデータでの再訓練が必要です。相互作用によるポリシーの動的統合と適応の可能性」。
「トレーニングの安定性：より安定しています。不安定になる可能性があり、慎重なハイパーパラメータ調整が必要です」。
「計算コスト：通常は低いです。これは非常に一般的な記述なので、これが本当かどうかわかりません。より高くなる可能性があります、はい、絶対に」。
「データ効率：小さなモデルはデータが限られたシナリオで苦戦する可能性があります。より効果的である可能性があります」。
「長い思考連鎖：強化学習よりも潜在的に低い上限。より高い上限で、思考連鎖が長くなる教師あり微調整で初期化されたモデルをさらに改善できます」。
「ゼロまたは少数ショットよりも改善しますが、RLによって追い越される可能性があります」。
「創発的行動：教師あり微調整では新しい推論戦略を示す可能性が低いです。理論的には、最良の状況下で創発的推論行動につながる可能性があります。理想的なシステムでは、システムにノイズがなく、美しいセンサー信号が返ってきて、その他すべてが整っている場合」。
「ハイパーパラメータ調整：不要。しばしば広範なパラメータ調整が必要です」。
「代替アプローチ：プロンプトエンジニアリング、DPO」。
「すべて正確です。信じられません」。
「結論と将来の方向性：最近の研究に基づく現在の理解は、教師あり微調整と強化学習の両方がLLMの推論能力を高める上で重要な役割を果たすことを示唆しています」。
「教師あり微調整は、特に望ましい推論プロセスを示す高品質のアノテーション付きデータが利用可能な場合に、堅固な基盤を提供します」。
「しかし、新規のシナリオへの一般化、複雑な推論構造の扱い、新しい知識のシームレスな統合における限界は、補完的または代替的なアプローチの必要性を強調しています。
強化学習は、これらの限界の一部を克服するための強力な技術として浮上しています。報酬信号に基づいてモデルを訓練する能力により、より広範囲の推論戦略の探索が可能になり、線形チェーンを超えた構造を含むより洗練された推論を可能にする可能性を秘めています。
RLは新しい知識のより動的な統合の可能性も提供しています。強化学習に関連する実践的な課題、例えば報酬設計の複雑さやトレーニングの不安定性などは、さらなる研究と開発を必要としています。
これが、私たちがこの研究チャンネルを持つ理由です。新しい傾向は、複雑な推論タスクのためのRLの活用と、DPOのようなより効率的で安定した代替手法の開発への関心の高まりを示しています。
複雑な推論プロセスを導くための最適な報酬関数の設計、極めて大規模なモデルに対するRLのスケーラビリティ、継続的学習と知識統合のための堅牢なモデルの作成に関する未解決の問題が残っています。継続的学習は来週のテーマになるかもしれません。
さらなる研究では、教師あり微調整と強化学習の強みを戦略的に組み合わせるハイブリッドアプローチを探索することが考えられます。教師あり微調整は基本的な推論スキルでモデルを初期化するために使用でき、その後RLを使用して特に複雑なタスクに対してこれらの能力をさらに洗練し強化することができます。
洗練された推論戦略の開発を効果的に導くことができる革新的な報酬メカニズムを調査することも重要です。新しい知識や複雑な構造での推論を評価するために特別に設計されたベンチマークの開発は、この分野の進歩を促進するために不可欠になるでしょう。
自己監視の潜在的な役割と、さらなる推論能力の強化、おそらく教師あり微調整やRLと組み合わせた役割もまた、将来の調査において大きな注目に値します。
レポートで使用されたソース：1、2、3、4…何でもソースを読みましたが、レポートでは使用されていません：2ソース
再びシンキングプロセスが始まりました。この特定のトピックに関して、深いリサーチのために2～3分かかりましたが、指定した通りにarXiv.orgのAI論文のみを参照しています。素晴らしいですね！
新しいドキュメントがエキスパートtodocsとして作成されました。ここでコピーして閉じることができます。この回答が気に入りました。トピックに初めて触れる方には、各文を詳細に調べた後でも、単一の間違いを見つけることができませんでした。本当に素晴らしいです。情報は正確で、良い概要を提供しています。
Gemini 2.0シンキングのDeepリサーチの性能に感銘を受けました。
次に、OpenAIのGPT-3 Mini Highでディープリサーチを試してみましょう。このトピックで8回の利用が残っています。Geminiで使ったのと全く同じトピックを貼り付けます。ここでも、正しい略語PPOに対して間違った専門用語を意図的に使用しています。
ディープリサーチを有効化しましょう…何を調査しているのでしょうか…リアルタイムで見ていきます。
「最近のプレプリントを調査します。検索を絞るために、特定のドメイン（科学的推論、プログラミング、一般的な推論）に興味があるのか、特定のモデルサイズ範囲に焦点を当てるべきか、比較だけを優先するか両方か、最近の論文だけに興味があるのか、少し古いが影響力のある研究にも興味があるのかを明確にしていただけますか？それに応じて調査します」
私の回答を定義します：「科学的推論と数学的証明に焦点を当ててください。モデルサイズの完全なスペクトルを見てください。パフォーマンスデータがある理論的分析を優先し、最新のAI論文とプレプリントに焦点を当ててください」
「承知しました。最近の論文を調査します…勾配ベース報酬最適化（まだこれが間違った用語だと理解していません）…モデルサイズ範囲にわたる経験的パフォーマンス分析…チェーンオブソート、グラフベースの推論、構造化された知識統合…調査を開始します」
活動状況に注目…シンキング中…
「PPOはグループ相対ポリシー最適化（group relative policy optimization）を意味している可能性があり、勾配ベース報酬最適化（gradient based reward optimization）ではないようです」
良いですね、この略語が正しい用語ではないことを理解しました。学生として気づかなかったかもしれません。
「チェーンオブソート推論のためのPPOなどのRL手法を調べています…DeepSeek Math Instruction 7B…情報収集中…RL、ポリシー最適化、DeepSeek R1とCPU参照…OpenAIのO1シリーズモデルの使用について考えています」
OpenAIが自社のモデルと製品とオファリングについて考えているとは、なんという偶然でしょうか。
「グループサンプリングを使用して批評モデルを練習するPPO手法に取り組んでいます…構造化比較を作成中…EILFインストラクトFEフィードバックからの強化学習を検討中…」
「ここまではarchive.orgでしたが、今はopen review.netを見ています…PPOは単純化されたポリシー勾配…分散を削減するためのグループスコアをベースラインとして…PPOよりも単純です…推論プロセスに何かを与えることを探る論文を調べています…ARIMA永続プロットをチェックし、白色ノイズ成分が定常であることを発見…ARIMAが何を意味するのか分かりません…」
「チェーンオブソート推論に対する微調整の効果を文書化している、CPU（おそらくPPOの間違い）などの強化学習手法を示唆しています…選好アライメントのための監視付き微調整と検索手法（ソートのツリーなど）を組み合わせることに興味があります…オープンR Uネットのテーブルをチェックし、データを理解しています…」
「なぜオープンRユーネットに行くのでしょう…Oリンクが機能していないことに気づきました…LLMでのチェーンオブソート推論を改善するための検索…抽象がハイライトしている教師あり微調整の課題とRL手法（CPO、GPO、OROなど）の影響…」
「これが抽象だけを読んでいないことを願います…」
「最新のWizard Mathの進歩を調べ、PDFを取り出してパフォーマンスマトリックスを取得しています…Wizard Matrixが他のOpenAI商用モデルやさまざまなベンチマークよりどのように優れているかを見ています…GPT-4とはまだギャップがあります…知識グラフを使用したLLMの微調整によって推論を強化…19のソース…DeepSeek R1を小さなモーデルにどう蒸留するか…」
「大きなモデルからの直接蒸留は有望な進展を示しています…それは本当です…まだ読んでいます…興味深い…まだ読んでいます…9つのソース…」
本当に見つけると思っていた論文よりも少ないですね。インターネット上での検索プロセスや見つけられる論文については分かりません。DeepSeek論文R1は良い情報源ですが、PPOはDeepSeek Math論文に直接あり、R1論文にはないです。DeepSeekがMath論文を見つけるか見てみましょう。
「まだ待っています…まだ読んでいます…スキップすることもできますが、シンキングプロセス自体がGeminiより優れているかを理解するためにリアルタイムでここにいます…」
「これはplus版を使っています…月額$20のアカウントです…ディープリサーチも無料だと思います…あとで確認します…」
「PPOの可能性をマッピングしています…新しいデータを統合してモデル機能を強化することで、広範な学習目標を最適化します」
「1分間ずっとPPOの可能性を見ていただけですか？人間ならこれだけの時間はかからないでしょう…まだシンキング中…」
「月額$20のアカウントを持っている場合、これが得られるものです…より大きな強化学習で訓練されたモデルから小さなモデルに知識を蒸留することの利点を考慮して、既存の知識をどのように洗練できるかを考えています…これは良いアイデアです…」
「オフライン学習におけるEX…AL世界…Oreoのマルチステップ推論がオフライン手法よりも優れている方法に取り組んでいます…チェーンオブソート推論を維持するための微調整の影響を考慮しています…」
「再び、教師あり微調整で始めることがいかに重要か、そして強化学習で続けることを見ています…あるいは教師あり微調整は強化学習の微調整の前に必要ではないのか…」
「微調整タスクはチェーンオブソート忠実度を低下させ、論理的一貫性を損なう可能性があります…2023年のプロセスレベルフィードバックに関する研究…2年以上前…現実に戻りましょう…」
「プロセス監視はモデルトレーニングにおける結果監視よりも優れています…2023年の研究を見ていることに満足していません…これは最新ではありません…」
「新しい知識は厄介です…既存の洞察と新鮮なデータを混ぜると幻覚を引き起こす可能性があります…言語モデルは新鮮なデータを「噛む」わけではありません…これはナンセンスです…これについて何のアイデアもありません…代わりに予測のニュアンスに焦点を当てています…予測のニュアンスの意味は詳細に欠けています…」
「あまり感心していません…25のソースがあるとのことですが、これまで見てきたものには、この分野の大きな研究が欠けています…2024年以降を見ているとのことですが、何も見つからないか、Googleのように高度な検索機能がないのかもしれません…理解できます、Googleは何年も何十年も先を行っています…」
「何を読んでいるのでしょうか…25のソース…約70%完了しました…archive.org…これは良いですね…GRAPRM…プロセス報酬モデルはモノルリサーチを使用してステップレベルのデータを生成します…今は正しい軌道にいます…CPOは複雑な強化学習トレーニング、特に価値関数を回避するためにこの選好で微調整するために使用されます…」
「クレジット割り当ての最新の強化を探索しています…報酬割り当てまたは能力…チェーンオブソートを生成し外部知識を統合する能力は特に有望です…arXiveを読んでいます…27のソース…約75%完了しました…」
「感覚的には、Googleのものよりも時間がかかっているように思いますが、誰にも分かりません…ビデオで前後にスクロールして録画時間を比較できますが、私はここでリアルタイムなので、今感じていることだけをお伝えできます…OpenAIが特定の論文を読み終えるのを待っています…archive.orgを想定…」
「今すぐal.orgをクリックしたくありませんが、ここで完全な推論プロセスを見て、これがより優れたディープリサーチモデルかどうかをお伝えしたいと思います…まだ待っています…小さいもの、あなたはこれができます…信じています…27のソース…約80%…まだ待っています…」
「完了しました…参照を削除しています…8分で調査完了…27のソース…これです…思考プロセスが完了しました…左側に論文があります…」
「8分で調査完了しました…科学的なものについての教師あり微調整対強化学習…これはかなり詳細な研究のようですが、最新の研究と最新の研究アイデアを把握しているかどうかに興味があります…これが興味のすべてです…画面で見ることができるか4Kで録画できるでしょうから問題ありません…」
「勾配ベース報酬最適化…この略語が間違った用語であることを理解したにもかかわらず、私の入力である間違った入力を使っています…この2つの用語が一緒に使えないことを理解したと思っていましたが、まあいいでしょう…」
「構造化推論…教師あり微調整またはRL…微調整と詳細なチェーンオブソートアノテーション、正式な証明、マルチステップソリューション…SFTはドメイン知識と構造化パターンをモデルの動作に注入するのに効果的ですが、提供されるデータによって制約されます…データの質によって…」
「モデルはそのトレーニング例の創造性や範囲を簡単に超えることはできず、推論も正しいです…これが可能だとは決して想定していなかったでしょう…特定のソリューションスタイルへの過剰適合のリスクもあります…狭いタスクに微調整された場合、一般的な能力の破滅的忘却も正しいです…」
「最近の研究では、タスク特定の微調整がタスクに対するモデル自身のチェーンオブソート推論の忠実度を低下させる可能性さえあることがわかり、内部推論メカニズムの変化を示唆しています…」
「教師あり微調整は模倣を通じて推論特性を導入します…豊富な正しいソリューションが利用可能な場合に輝きますが、トレーニング分布を超えて一般化するのに苦労する可能性があります…」
「対照的に、強化学習はRL設定でモデルの行動を報酬関数に向けて最適化します…LLMは推論ステップを生成し、ソリューションを完成させ、ソリューションの最後に（結果ベースの報酬）または各ステップ（プロセスベースの報酬）でフィードバックを受け取ります…」
「RLは、証明が正しいか答えが正しいかどうかといった結果の質を直接ターゲットにし、単に参照ソリューションを模倣するだけではありません…理論的には、これによりRLは高い報酬をもたらす推論戦略を探索して発見することができ、初期訓練データの限界を潜在的に超えることができます…環境からのフィードバックが高い場合…」
「また、完全なステップバイステップの人間からの監視を必要とする代わりに、正確性チェックや選好などの暗黙的な信号から学ぶことも可能にします…」
「主要な理論的利点は、マルチステップ推論のクレジット割り当てにあります…RLアルゴリズムはクレジットを割り当てることができます…最近の研究では、推論軌道の正確さは多くの場合、いくつかの重要なトークンに依存するため、細かいクレジット割り当てが特に重要であることを強調しています…」
「価値関数を訓練するか、ステップバイステップの報酬を使用することで、RLはこれらの重要なステップを強化できます…各推論ステップでフィードバックを提供するプロセス監視は、結果レベルのフィードバックだけよりも大幅に優れていることが示されています…より信頼性の高い問題解決をもたらします…この研究は知っています…」
「理論的には、RL訓練されたモデルは、単にトレーニング例を模倣するのではなく、より意図的で最適化された推論ポリシーを学ぶことができます…とはいえ、RLはフリーランチではありません…適切な報酬信号の設計は困難です…過度に単純化された報酬は、報酬ハッキングにつながる可能性があります…モデルが抜け穴を見つけ、採点モデルを騙すが実際には正しくない回答を書くことができます…」
「トレーニングの安定性の確保も別の懸念です…RLアップデートは、慎重に制約されていなければ言語の一貫性を不安定にする可能性があります…PPOは、更新ポリシーを事前訓練モデルの動作に近づけるためのクールなリーブル発散ペナルティを導入し、安定性と探索のバランスを取ります…」
「最近のイノベーション、勾配ベース報酬最適化…これは間違っています…GPOは勾配ベース報酬最適化ではなく、グループ相対ポリシー最適化です…RLがPPOをさらに改善するために修正することを示しています…これは略語については正しいですが、ここでの技術用語は間違っています…」
「ここではグループ相対ポリシー最適化を導入しました…これは興味深いです…私の入力である間違った入力をまだ使用しています…私はタイプミスをしたり報酬とポリシーを混同したりする可能性がありますが、これは問題です…」
「GPOはモデルと同じくらい大きいLLM用の別の価値批評ネットワークの必要性を排除し、モデル出力のグループをサンプリングしてベースライン報酬を推定し、アドバンテージを参照として取ります…グループ相対ポリシー最適化について正確です…」
「グループアドバンテージアプローチは、メモリCPUオーバーヘッドを大幅に削減し、トレーニングを安定させます…効果的に、より大きなモデルでもRLを実現可能にします…」
「要約すると、強化学習は推論の質を直接最適化し、モデルが知識を効果的に使用することを奨励する原則的な方法を提供しますが、慎重なアルゴリズム設計が必要です…」
「経験的パフォーマンス：2024年から2025年にかけて、この理論的期待が確認されています…強化学習とLLMトレーニングを組み合わせることで、いくつかの科学的領域で最先端の推論パフォーマンスが達成され、多くの場合、純粋な教師あり微調整だけでできることを超えています…」
「DeepSeek Mathプロジェクト…これです…PPO…新しい教師あり微調整データを追加せずに大幅な飛躍…論文14のMath Instructモデルを読んでください…Wizard Math Microsoft…Wizard Mathはマイクロソフトから来ていたのですね…」
「チェーンオブソート推論…チェーンオブソートデータに対する微調整により、モデルはステップバイステップのソリューションを生成できますが、RLはさらに正確性を向上させることができます…OpenAIの最近のO1シリーズモデルは、精度を向上させるために推論チェーンを複数サンプリングする推論時チェーンオブソートスケーリングを繰り返し使用しています…これはテスト時計算スケーリングです…DeepSeek R1…」
「しかし、DeepMind、OpenAIからの研究では、ステップごとの報酬を明示的に訓練することで、さらに良い結果が得られることがわかりました…プロセス監視またはステップバイステップのフィードバックにより、モデルはテストセットの問題の78%を解決でき、結果監視訓練だけでは達成できなかった結果を大幅に上回りました…プロセス報酬モデルは各中間ステップを評価し…複雑な推論において例外的なパフォーマンスを示しています…」
「グラフベースの推論、構造化された知識…パス検索や知識グラフ内のネットワーク分析などのグラフ構造の問題に関する推論は別のフロンティアです…最近の研究では、ここでもRL形式の監視が適用されています…グラフプロセス報酬モデルはグラフ推論モデルの各ステップをスコアリングします…グラフ問題には明確に定義されたアルゴリズムがあるため、手動の労力なしでステップレベルの正確/不正確なラベルを自動的に生成し、プロセス報酬モデルを訓練できました…」
「次に、LLMを微調整するためにPPOアプローチを使用しました…PMの評価は良いステップ対悪いステップの選好ペアを作成し、モデルはそれを満たすように最適化されました…これにより、グラフタスクをより確実に解決し、興味深いことにこれらの利益をグラフを超えた他の推論ドメインに一般化するモデルが生まれました…非常に限られた視点からは、これは真実かもしれません…」
「グラフ推論プロセスに報酬を与えることで、LLMはグラフ問題解決を後押しし、他の複雑な推論タスクでのパフォーマンスを向上させることができます…この研究は、グラフ問題に対する報酬ベースのトレーニングが、LLMのグラフ問題解決を後押しし、他の複雑な推論タスクでのパフォーマンスを向上させることができると結論付けています…」
「新しい構造化知識の統合に関しては、微調整は依然として主要なツールです…2024年のタイトルは古いものを統合…制御された研究では、新しい事実的な記述を単に微調整することは遅く、幻覚傾向を増加させる可能性があることがわかりました…これはこれですね…」
「大規模モデルは主に事前トレーニング中に知識を獲得します…これは事後的な微調整です…比較的新しい事実に関する事後的な微調整は非効率的です…絶対に正しいです…慎重に行わなければ、根拠のない回答を生成するようにモデルに教える可能性があります…絶対にその通りです…」
「実際には、新しい知識の統合が目標の場合、教師あり微調整と構造化知識はより安全かもしれませんが、強化学習は幻覚を罰したり情報源の引用を奨励するために使用できます…しかし、新しい知識を挿入するための直接的なRLは一般的ではありません…通常はモデルが持っている知識での推論を改善することに関するものです…もちろん、タスクが複数の情報を組み合わせる必要がある場合…マルチホップ科学的質問…人間のフィードバックスタイルのトレーニングは、報酬が古い効果を使用する一貫した正しい推論に対して高くなるため、マルチを実行することを奨励できます…」
「数学とグラフを超えた一般的な科学的推論…教師あり微調整と強化学習の組み合わせが、科学的質問と回答、論理的推論パズル、コーディングに適用されています…OpenAIの内部実験、、、純粋なRLアプローチが一般的な推論ベンチマークで強く監視されたものに追いつき始めていることを示しています…」
「これはとても興味深い情報です…絶対に正しいです…DeepSeek R1…これでは、どのタスクでも最新の最大の商用モデルにまだ匹敵していません…DeepSeek Z1…知っています…RLのみのモデルは依然として初期に教師あり微調整がなされたモデルよりやや遅れていますが…そのギャップは縮まっています…」
「もう一つの経験的傾向は、オンラインサンプリングの代わりに、報酬を伴うモデル軌道の固定データセットで訓練するオフライン強化学習アルゴリズムを使用することです…ARAアルゴリズムはそのような例です…異なるベンチマークでの直接選好最適化（DPO）は5%の精度を達成しました…」
「チェーンオブソート、知識統合、推論スタイルへの影響…教師あり微調整と強化学習の両方が、チェーンオブソートを通じて明示的に推論するモデルを生成できますが、それらのチェーンの質への影響は異なります…」
「チェーンオブソートの質：教師あり微調整は、人間の書いたソリューションやトレーニングデータのソリューションを模倣するため、正しく見える推論チェーンを生成するようにモデルを訓練します。しかし、これらのチェーンは実際に有用または最小限であることは保証されていません。モデルは、トレーニング例のように見える限り、正当化できないステップを含めたり飛躍したりする可能性があります」
「残念ながら、AIにおける真の推論はここにはありません。教師あり微調整は単なるパターン認識とパターン繰り返しマシンです。それだけです」
「RL、特にプロセス監視により、各ステップの正確さを直接最適化します…一定の限界まで理論的にはそうです…報酬モデルは間違った中間推論にペナルティを課し、モデルが将来の出力でそのステップを立ち上げることを強制します…結果として、強化学習で調整されたモデルは、より論理的に健全で最終的な回答にしっかりとリンクされたチェーンを持つ傾向があります。ここでキーワードは「傾向がある」です。それらは論理的により健全なチェーンオブソートを持つ傾向があります」
「経験的には、プロセスレベルのRLにより、エラーが早い段階で見つかるチェーンが生まれます…時々、そうでない場合もあります…プロセス報酬モデルは、中間結果が間違っていれば最終的な答えも間違っている可能性が高いと学習します…したがって、モデルはこの時点で報酬を得るのをやめます…彼らは常に同じ論文を参照しています…独立した論文はあまり多くないようです、興味深いですね…」
「人間の学生が数学の問題でステップをダブルチェックすることを学ぶのに似て、RL訓練モデルは論理的な飛躍が少なく、解決ステップが形式的な推論と一致しています…いくつかの著者によって指摘されているように、モデルはファクタリングなどのサブプロセスを呼び出すことさえ学習しています…一方で、最近の分析は、微調整がモデルの推論の忠実性を低下させる可能性があると警告しています…」
「グラフベースおよび構造化推論」
「SFTは、知識の線形化されたグラフ、科学的テーブル、コードの表現を訓練することで、構造化知識を組み込むことができます…これは簡単ですが、RLが構造を一般化する必要があります…RLは構造化情報の正しい使用に報酬を与えることでこれを補完できます…」
「知識グラフが与えられた場合、モデルの回答がグラフと一致しているかどうかをチェックする報酬を持つことができます…グラフPRM研究は両方を組み合わせています…チェーンオブソートソリューションを持つグラフ問題のコーパスでモデルを微調整し、その後強化学習（ステップ微調整ステップDPO）を使用して推論をさらに洗練させました…」
「常に同じ論文を使っています…グラフタスクで優れ、他の推論タスクでも改善したモデルを示しています…知識集約型ドメインでのアライメントと洗練のための教師あり微調整と強化学習間のシナジーを示しています…」
「一つの懸念は幻覚（事実の作り話）です…新しい知識に対する純粋な教師あり微調整は、もともと知らなかった事実を出力するようにモデルが強制された場合、不注意に幻覚を奨励する可能性があります…この論文をもう一度引用しています…」
「強化学習は、真実性の報酬または罰則を組み込むことでこれを軽減できます…論文では、人間のソースからのフィードバックを使用して、LLMをより事実的に正確にするための報酬モデルをトレーニングしたことを示しています…結果は、作り話をするよりも無知を認め、提供された知識を参照する可能性が高いモデルです…」
「つまり、教師あり微調整はモデルに知識を統合し、強化学習はその知識の使用方法を導き、推論ステップが一貫して事実に基づいていることを保証できます…」
「ある程度まで、はい…」
「推論スタイルと深さ：強化学習微調整の注目すべき特徴は、モデルがしばしばより構造化された自己反映的な推論スタイルを採用することです…解決空間を探索することが奨励されるため、RL訓練モデルは内部的に複数のアプローチを試みる可能性があります…」
「これは知っています…構造化知識：全体的に、RLは「報酬が依存するので慎重にステップバイステップで推論させてください」という意図的なスタイルを奨励し、教師あり微調整は「例がそうしたからこの推論をしています」という説明的なスタイルを奨励します…」
「モデルサイズの考慮…なんということでしょう…小型および中型モデル（13B未満の自由にトレーニング可能なパラメータ）…DeepSeek R1、DeepSeek R…常に同じスタイルを使用しています…DeepSeek R1、DeepSeek R1、DeepSeek R1、DeepSeek R1…大型モデル（70B以上）…GPT-4のトレーニング詳細は公開されていません…GPT-4の古いものは気にしないでください…」
「PPOはオーバーヘッドデータの削減に役立ちます…70 LLaMAと33B DeepSeek…PPOのセットアップ…小型モデルは推論を獲得するためにより積極的なトレーニングを必要とし、強化学習は確かに小型モデルの能力を変革できますが、しばしば大型モデルの仲介または慎重な蒸留を通じてです…」
「一般的にはこれは正しいかもしれません…要約すると、大型モデルはより高い絶対的なパフォーマンス上限を提供し…強化学習は構造化推論の質の最後のビットを絞り出すことができます…」
「利点、制限、および新たな傾向：教師あり微調整の利点…最後のものに進みましょう…教師あり微調整の制限は、データの質と多様性によって制約されることです…複雑な科学的推論には、慎重にキュレーションされた多くの例が必要であり、特にステップバイステップのアノテーション構造を持つものを作成することは、労働集約的になる可能性があります…」
「教師あり微調整はトレーニングドメインを超えて大きく一般化しない可能性もあります…絶対に正しいです…一方、理論的には強化学習アプローチは、教師あり微調整より広い行動を探索できます…」
「強化学習の利点：強化学習はモデルの自己反省と検索アプローチ（思考のツリーや自己一貫性など）も奨励します…トレーニングに統合されると、モデルが内部で熟考することを学ぶのに役立ちます…」
「PPOは、エージェントのようにLLMをトレーニングするための扉を開きます…プレイし、試し、アプローチを洗練する能力は、複雑な推論の鍵です…」
「裏を返せば、強化学習は正しく実行するのが難しいです…その制限には、報酬設計への感度が含まれます…絶対にその通りです…モデルが報酬に過度に特化し、一般性や言語的豊かさを失う可能性があるという過度最適化のリスクがあります…そのため、人間言語からあまり離れないようにクールバックリーバーペナルティが通常追加されます…」
「RLは計算量が多いです…特にPPOを使用する場合…はい…」
「進行中のDPOやQラーニングの変種など…」
「新たな傾向：教師あり微調整と強化学習技術の両方の良い面を得るために、両者のブレンドが見られます…一つの傾向はプロセス監視で、強化学習を導くためにステップレベルのフィードバックを提供します…これは非常に効果的であることが証明されています…」
「もう一つの傾向はオフライン強化学習とDPOです…2023年からのDPO…GPOは価値ネットワークの削除とグループベースラインの使用で、LLMトレーニングの実践的な制約に合わせた強化学習の一例です…」
「同じ小さなアーカイブを使っています…ビーマン方程式、トレーニング時の検索と推論の使用…テスト時計算、推論時計算…研究者はより良い推論トレースを生成するために、思考のツリー検索、モンテカルロ研究、最良のNサンプリングなどの技術を使用しています…」
「最後に、LLMのための強化ループにマルチコル研究を組み込む…DeepSeek R1は、アクターのためのQ&Aを生成する推論ステップの拡張を導く、マルチコル研究ガイド付きトレーニングを実験しました…これをスケールアップすると、問題は検索ベースが巨大で、モンテカルロ研究が時々局所的最適解に陥ることです…分野は検索のナイーブな適用が洗練が必要だと学んでいますが、検索と学習のハイブリッドアプローチが複雑な推論の将来のためのものでしょう…」
「最後に、知識統合技術が進歩しています…ゼロからモデルを事前トレーニングする代わりに、人々は外部知識ソースを使用するためにモデルを微調整またはAトレーニングします…R wre…」
「知識グラフと自分自身の推論のどちらを信頼するかを決定するために強化クローニングが使用される可能性があります…一種のメタ推論…う〜ん、強化学習は知識ソースを信頼することに問題があるのですね…これは興味深いです…」
「図やフォーミュラを使用したマルチモーダル推論…数学的導出…」
「これらすべての強みは、LLM推論をより構造化され、信頼性があり、事実的または論理的な地上の真実に沿ったものにするという共通の目標に向かっています…教師あり微調整と強化学習は、この追求における補完的なツールです…」
「要約：ついに終わりました…」
「教師あり微調整はLLM推論の基本的な基盤と知識を提供し、強化学習技術はモデルの推論プロセス自体を微調整し、複雑な科学的タスクでしばしば優れたパフォーマンスをもたらします…」
「教師あり微調整はより単純であり、新しい情報を注入するために重要ですが、DPOとGPOによる強化クローニングは、特にチェーンオブソートの一貫性、ステップごとの正確性、戦略的問題解決において、構造化された推論能力を研ぎ澄ますのに非常に効果的です…」
「2024年以降の最良の結果は、両方を組み合わせることから得られることが多く、教師あり微調整を使用して基本的なスキルを教え、その後強化学習を使用して推論を洗練しアライメントを取ります…」
「LLM研究が進むにつれて、報酬設計、ハイブリッド検索トレーニング方法論、知識統合におけるさらなるイノベーションが期待でき、科学的領域におけるAI推論のフロンティアを押し広げ続けるでしょう…」
「DeepSeek Math論文、ステップバイステップ2023、OpenAIからのDPU監視ブロック、DeepSeek R1、知識グラフでの思考…追加の参考文献…」
「最近の研究論文の非常に限られたセットを持っています。最近の研究論文の主要な部分を見逃していると思います。その点で、AIペーパーの非常に限られたセットに焦点を当てて良い説明を提供していますが、残念ながらAI研究と推論における最新の技術開発を見逃しています。」
「この点で、インターネット検索をするGemini 2.0によって提供された回答は、Googleが間違いなく多くの利点を持っています。Googleの歴史から理解できますが、Googleによる回答は単により良く、最新で、最新のAI研究論文を含んでいます。」
「したがって、最新の研究を探している場合、明らかにGoogle 2.0、Geminiのシンキングモデル、無料ディープリサーチの勝利だと言えます。私はplusモデルを持っていて、3月28日までに7回利用可能です。個人的には今、Google Gemini 2.0シンキングディープリサーチを選びます。」
「楽しんでいただけたら嬉しいです。特定のタスク、特定のドメイン知識、回答の提示方法について何らかの洞察を提供できたことを願います。自分のクエリとタスクを持って両方のモデルを試してみれば、得られるものが正確に分かるでしょう。情報が役立ったことを願います。好きなモデルを選んでください。もし登録していただければ、次のビデオでお会いしましょう。」