AIの中核が爆発的発展中 – 新たな10の研究論文

AI研究
この記事は約23分で読めます。

この動画では、AI分野の中核技術が急速に発展していることを受けて、最新の10本の研究論文について詳細に解説している。深層研究、RAGシステムの進化、マルチモーダルAI、知識グラフ、API統合、そして社会学習モデルまで、幅広いトピックを網羅し、各技術の革新的な側面と実用的な応用可能性について論じている。

CORE of AI is EXPLODING - 10 New Papers
CORE of AI currently explodes: we'll discover a specific selection of 10 new ArXiv CS pre-prints, as a subset from more ...

AIの中核技術が爆発的に発展中

こんにちは、コミュニティの皆さん。AIの中核が現在爆発的に発展しており、これは素晴らしいことです。なぜなら新しい研究があるからです。それでは見ていきましょう。

深層研究から始めましょう。これは素晴らしいことでしょう。いえ、我々には複雑な研究課題があります。例えば「計算創薬におけるトランスフォーマーアーキテクチャの影響を分析し、上位3つの新興課題をまとめる」といったもので、どんなエージェントでも単純に答えを提供するでしょう。

しかし残念ながら、現在のLLMや視覚言語モデルは今日、単純な事実に関する問い合わせには答えられますが、深層研究に内在する曖昧性や多段階推論、戦略的計画が必要な場面では完全に躓いてしまいます。

「でも待って、今あるじゃないか」と言うかもしれませんね。2025年9月3日、Nvidiaのユニバーサル深層研究「独自モデル持参・独自戦略持参」。いえいえ、最初の文を見てください。「これまでに導入された各深層研究エージェントは、固定されたツール選択を使用して特定の研究戦略を実行するようハードコード化されている」。これは間違った記述です。正しい記述ではありません。

より興味深い第2の論文 – オープンデータ合成

しかし第2の論文を見てみましょう。これはNvidiaのアイデアよりもはるかに興味深いものです。深層研究のためのオープンデータ合成について見ていきます。

ここで興味深いことに、LLMが単純な事実の問い合わせを超えて、質問を複数のサブ問題に分解し、多段階推論シーケンスを調整し、最終的に多様なソースからの証拠を合成する深層研究タスクに取り組むことが分かります。これこそが我々が関心を持っているものであり、複雑性を求めているからこそNvidiaのものではないのです。

残念ながら、多くの視聴者から「Nvidiaについて説明してほしい」という要望があるので、Nvidiaについて1分で説明しましょう。UDRは彼らが呼ぶところの2つのフェーズを導入しています。まず戦略処理が戦略実行から分離され、独自のLLMを持参するというアイデアです。そして最も重要なことは、LLMが深層研究クエリに答えるために何をすべきかを正確に知るために、独自の戦略を書かなければならないということです。

「ああ、それは素晴らしい」と言いました。ユーザーは自然言語での単純な番号付きリストとして研究戦略を提供します。ここに素晴らしい例があります。「ユーザープロンプトを取り、3つの検索クエリを生成する」と言わなければなりません。小さなAI。そして「それらの各クエリについて、ウェブを検索し、上位2つの結果を収集する」。これは私なら絶対に言いませんが、これで進めましょう。「すべての結果をRACのための単一のコンテキスト文書に統合する。そしてコンテキストを使用して、元のプロンプトに答える要約を書く」。

これは単純な100年前のRACシステムであり、これが機能しないことは分かっています。忘れてください。Nvidiaが主張するアイデアは、この美しさが自然言語戦略にあるということです。

「わかった、それで何が起こるのか」と言うかもしれません。さて、LLMが来て、もしよろしければ私の人間が作成した戦略を取り、メタプロンプトを使って呼び出し可能なPython関数をコーディングします。「それだけか」と言うかもしれませんね。はい、それだけです。

しかし第2フェーズの戦略実行に移ります。「待って、推測させて」と言うでしょう。このPython関数を手に入れたら、これが戦略計画です。そう、それはサンドボックス環境で実行されます。Python関数を実行するからです。その通りです。なぜならLLMは呼び出し可能なツールであり、オーケストレーターではないからです。戦略を定義し、Python環境でコーディングされることになる自然言語でハードコーディングするのは人間だからです。

それでは利点は何でしょうか?なぜ彼らはコスト削減、時間短縮、計算リソース削減のためにこれを行うのでしょうか?戦略のステップが明示的に人工知能を必要とする場合のみLLMが呼び出されるからです。「このテキストを要約する」というように。これにより効率が劇的に改善され、Nvidiaはモデルの実行コストを削減できます。

メモリエージェントは絶えず拡大するコンテキストウィンドウではありません。より小さなコンテキストウィンドウを持つモデルを使用できるため、実行コストが安くなり、すべての中間結果は標準的なPython変数に保存され、単純にPythonプログラムを持つことになります。おめでとう、Nvidia。

北京人工知能科学院の興味深い研究

それでは、お話しした通り第2の論文を見てみましょう。これははるかに興味深いものです。2025年8月末の北京人工知能科学院からのものです。なんと美しい論文でしょう。これを見てみましょう。

古典的な問題とは何でしょうか?グローバル戦略計画と専用の詳細なローカルタスク実行を混合する困難があります。1つのエージェントがこれを行う場合、そのエージェントは十分にインテリジェントではありません。GPT-5でさえ、同時に2つの別々のことを行うこの単純なタスクで失敗します。

そこで彼らが言った次善策は、単純な2エージェントソリューションであり、これをinfo seekと呼び、2つの関心事を2つの専門エージェントに分離することでこれを解決しました。マルチエージェントシステムでいつものように、プランナーまたはアーキテクトと呼びましょう、そして実際にインターネットの閲覧やデータベースへの接続を行うビルダーがあります。

本当に興味深いのは、既に知っていることを行っているということではなく、我々の新しい訓練データとなる真に複雑な深層研究問題に焦点を当てていることです。この種の訓練データは現在利用できません。

制約満足問題から始まり、マルチホップ問題を統合し、最終的に階層制約満足問題に到達します。これは、ユニークで検証可能な答えを持つ深層研究問題の訓練データセットを持つために彼らが定式化したコアです。

2つのエージェントの動作メカニズム

非常に特定の方法論を使用します。比較的簡単です。親ノードを特定のオブジェクトの完璧な名前や識別子ではなく、その説明でぼかすだけです。それだけです。

この2つのエージェントがどのように動作するかを見てみましょう。これがワークフローです。プランナーが来てエージェントに「この研究ツリーとその複雑性を分析しなさい」と言い、「例えば、アラン・チューリングノードをあまり明白にしないようにする必要がある。そうしないと我々のテスト例として簡単すぎるから」と決定します。

プランナーはブラウザエージェントに「聞いて、君はブラウザを持っている。アラン・チューリングのWikipediaページなどに行き、2つの教育的事実を見つけなさい。アラン・チューリングという名前を書く必要はないが、この人に特有でユニークな事実を持つが、名前を与えることで簡単すぎるようにはしない」と言います。

ブラウザがコマンドを実行し、例えば「彼はケンブリッジのキングスカレッジを卒業し、プリンストン大学で博士号を取得した」というような事実を見つけます。少し複雑になってきますね。我々にはまさにこの訓練データセット、隠された複雑性が必要なのです。これが次世代AIを訓練するために必要なものです。

ブラウザが戻ってきて「これらの2つの事実を研究ツリーの新しい葉ノードとして追加する」と言い、これはもちろんアラン・チューリングノードに接続されます。プランナーはこの更新されたツリーを見て、プランナーエージェントが「そう、これでいい、素晴らしい」と言うか、「いや、あまり満足していない、別の戦略ステップを行おう」と言います。美しいループの中にいることが分かります。

InfoSeekフレームワークの利点

InfoSeekフレームワークを素晴らしくするのは、制御可能でスケーラブルな複雑性を達成することです。ベンチマーク用のデータセット作成に最適です。結果を見てみましょう。論文自体を見てください。本当に興味深いものです。

異なるベンチマークについて、シングルホップとマルチホップの質問応答があります。本当に興味深いのは、3つのグループ間のパフォーマンスです。まずRACベースモデルがあり、次にエージェント検索モデル、そしてこの新しいInfoSeek、これは単純にこの特定の訓練データセットで訓練されたLLMです。

見てください。ほぼすべての太字のパフォーマンスデータが新しいInfo 3 billionモデルの最後の行にあります。RACベースモデルを上回り、エージェント検索モデルを上回っています。

RAGシステムの深掘り

この機会に、新規の方のためにRACベースモデルについて少し深く掘り下げてみましょう。最も単純なケースでは「取得・コマンド・生成」があります。質問をします。システムはまず、ベクトル検索アルゴリズムのような単純な検索アルゴリズムをベクトル空間で使用して、クエリに最も関連性があると思われるデータベースからのいくつかのテキストチャンクを見つけます。

そしてLLMは新しいプロンプトを受け取ります。元の質問と取得されたテキストチャンクを再ランキングありまたはなしで組み合わせます。これは本質的に、本のページが事前選択されてLLMのプロンプトに提供されたオープンブック試験のようなものです。LLMのための拡張コンテキストがあることが分かります。

もちろんこれはワンショット取得であり、ステートレスで非適応的です。この単純なRACに基づいて、すべての問題を見て改善する次のステップは何だったでしょうか。エージェント検索モデルに到達しました。エージェント検索と言い、前回のビデオのようなエージェント検索・合成モデルとは言わないことに注意してください。

我々はまだReActモデルループの中にいます。エージェント検索モデルはLLMを推論エンジンとして扱い、決定を下し、Googleのような検索エンジンをループで使用して問題を解決できます。

典型的なReActの推論です。思考エージェントはまずユーザーのキャリアについて考え、計画を立てます。もちろん、このLLMが訓練されたデータに依存します。したがって、このLLMの問題解決能力を事前訓練で定義された複雑性に制限します。

そして行動があります。検索は計画に基づいてアクションを実行し、Google検索を生成し、これを検索エンジンに送信することを提案します。お好きな検索エンジンを使ってください。そして観察します。戻ってきたものを読むだけです。そしてループがあり、再び推論します。マルチターン相互作用、ステートフル、適応的です。エージェントにはスクラッチパッド、少しのメモリがあります。素晴らしい。

第3世代の新しいアプローチ

そして第3世代の新しいもの。これが興味深いのは、階層分解があるからです。無関係な接線で迷子になることなく、研究ツリーで真に効率的な反転があります。

そして今度は検索だけでなく、ついに前回のビデオで欠けていた要素、制約合成があります。複数の異なる情報や知識の断片、マルチ制約が因果的に組み合わされて、階層の次の高複雑性問題やタスクに移る前にサブ問題を解決する方法を理解するために、LLMはこのデータセットで特に訓練されなければなりません。

ついに北京アカデミーのInfoSeekで、検索と合成があります。ついに誰かがこれに取り組んでいます。パフォーマンスデータを見てください。太字、太字、太字。これは本当に他のすべてよりも良く機能しています。

InfoSeekの素晴らしい点は何でしょうか?一方では、ベンチマークを提供します。LLMに深層研究を学習させる、複雑な階層推論を学習させる、あなたのドメインでの高品質なドメイン固有訓練データを作成するスケーラブルで自動化された方法を提供します。これにより、真に有能なエージェントを訓練するための燃料が得られます。訓練データセットがあります。素晴らしい。

Deep Research Arena – 競争の場

何が欠けているでしょうか?すべての深層研究LLMが戦い、「誰が最高か」と言う競技場が欠けています。競争が必要であり、ここにあります。2025年9月1日の論文で、上海人工知能研究所、清華大学、香港科学技術大学、オックスフォード大学、香港大学、武漢大学からのものです。

彼らは今、もちろんベンチマーク用の深層研究競技場を提案していますが、構築方法としてマルチエージェント階層タスク生成を採用しており、これがなぜそれほど魅力的なのかすぐに分かります。ついに新世代のベンチマークがあるからです。

彼らは大学セミナーの記録、主にアカデミックセミナーを使用し、この競技場で1万以上の高品質研究タスクを抽出しました。セミナーから講義から何からでも、アイデアが分かりますね。

これを視覚化で見たい場合、素晴らしいです。GPT-1 miniとGPT-4 OmniとGPT-4.1とGrok 4とGemini 2.5 ProとO4 miniのすべてのパフォーマンスタスクがあります。好きなモデルがどれだけ良いかを見たい場合、ゲーム、金融、教育、デザイン、科学、ソフトウェア、文学、芸術、工業で見ることができます。素晴らしいですが、これは深層研究の始まりに過ぎないことを知っています。

外部データアクセスの重要性 – RAGの復活

次のステップに進むためには、何をするにも外部データが必要です。インターネットの複雑性で隠れたパターンを本当に見つけるために、多様なソースへのアクセスが必要です。何を見ることになるか分かりますね。そう、RAGが再び戻ってきました、ベイビー。

まずこちらから行きます。これも2025年9月1日に発行されました。北京理工大学とシンガポール経営大学。彼らには単純な質問があります。取得拡張言語モールは、何かを知らない時や、これはもっと興味深いかもしれないことを知っているでしょうか。

これは私が2025年9月1日に初めて見る出版物で、2025年9月2日に録画しているからです。Metaがあり、スーパーインテリジェンスラボがあります。Markの美しいFacebookスーパーインテリジェントラボからの最初の出版物を見なければならないと思いました。

ここから行きましょう。Ref RAG、RAGベースデコーディングの再合成があります。スーパーインテリジェントがRAGを再合成しており、この研究を見ることに完全に興奮し、この研究を見て「わかった、これはRAGだから何が起こっているのか」と言いました。

それを読むと「これはRef RAGのメイン設計で、入力コンテキストはjunkだ」とあります。「わかった」と言い、軽量エンコーダーで処理されます。「わかった」junk埋め込みを生成するために。「わかった」事前計算可能です。「わかった」効率的な再利用のために事前計算されたチャンクがあります。おめでとう。事前計算されたチャンクを持つRECがあります。

結論です。これは新しいRAGアプリケーション向けに調整された美しく新規で効率的なデコーディングフレームワークであり、他のすべてと同じくらい良いものです。特定のドメイン固有知識に対してすべてが事前計算されているため、複雑性や下流精度に追加の損失はありません。

より興味深い多モーダルRAG研究

別の年の出版物を見てみましょう。これは本当にはるかに興味深いものです。韓国の学際的プログラムと人工知能、韓国SE国立大学、韓国サムスンからで、2025年8月31日の新しいRAGがあります。知識視覚質問応答のためのマルチモーダル反復RAGがあり、これは本当に見るべき研究です。

彼らは「RAGは外部知識をモデルに提供する有望なソリューションでしたが、従来のシングルパルスフレームワークは十分な知識を収集することに失敗することが多く、特にマルチモーダル操作モードがある場合」と言っています。

この制限を克服するため、SEの彼らはMiRAG、マルチモーダル対話RAGフレームワークを提案し、ついにマルチモーダルRAGシステムがあります。これを見ると「興味深く見える」と言うでしょう。これは概要です。従来のマルチモーダルRAGの取得・読み取りプロセスとは異なり、MiRAGは異種知識ベースでのマルチクエリ検索を使用して、推論と取得を反復的に洗練します。

著者による結論で見ることができるように、本当に美しいものです。知識集約的な質問応答での現在の課題に対処する新規マルチモーダル反復RAGフレームワークです。反復プロセスでの構成推論と合成をついに促進します。視覚エンティティと対応するテキスト知識を段階的に合成します。とても素晴らしい。論文を見てください。

オープンワールドRAGの革新

もちろん、私たちは続けています。今度はencore RAGを見ます。1日後の2025年9月1日、中国科学院があり、オープンワールドに向けた事前定義されたアンカーエンティティなしでのオープンワールドRAG用の新規マルチエージェント協力フレームワークがあります。

オープンワールド取得拡張生成の意味を知識グラフで説明できますか?ついに。オープンワールドモデルでアンカーを持つ知識グラフでのマルチエージェントがあります。

複数のエージェントがあります。予測エージェントがユーザークエリ用語を知識グラフノードと整合させることで候補アンカーエンティティを特定し、並列マルチホップ探索を持つ独立した取得エージェントを初期化します。しかし、恐れることはありません。それほど簡単ではありません。もう少し詳しく説明しましょう。

私たちが話していることの味を得てください。ここを見てください。QANまたはGI4 Omni Miniでこの方法論を使用すると、太字の顔を見てください。これは他のすべてを上回ります。

知識グラフ実装の詳細

現在開発され、今後数日で実装される新しいRAGシステムのフロンティアでは、2つの重要な質問があります。知識が知識グラフのような構造化されたグラフにあり、どこから始めればよいか分からない場合、1万のノードがあるとして、曖昧で複数の用語を持つ混乱したユーザークエリでオープンワールド問題がある場合、どこから始めるのか、クエリが画像と質問のような複数のモダリティを含む場合はどうなるでしょうか。

もちろん、我々は再び、これを解決しなければならないマルチモーダル宇宙にいます。単一ラウンドの取得では答えを見つけるのにほぼ十分ではありません。古典的なRAGソリューションのどれも、もちろんマルチモーダルです。

このアンカーRAGとミラーRAGという2つの新規ソリューションを見てください。美しいもので、RAGを単純なワンショット検索ツールからより洗練された動的でエージェント的推論プロセスに移動させます。私はこれをRAG 3.0と呼んでいます。

マルチモデルを既に見たので、知識グラフ実装にもう少し焦点を当てましょう。知識グラフを相互接続されたエンティティと関係の巨大なマップとして想像してください。都市とそれを結ぶ道路、都市内の道路と考えることができます。どこから始めるでしょうか?

オープンワールド問題では、「ロムニーはどの大学を卒業したか?」という例を作ってみましょう。単純な検索やキーワード検索、セマンティック検索を行うと、異なる結果が返されます。ミット・ロムニー、ジョージ・W・ロムニー、あるいはウェストバージニアのロムニー市まで。もう少し非特定的な名前があると、10、12の異なるオプションが得られます。どこから始めるのでしょうか?

我々の例で間違った出発都市を選ぶと、完全に間違った道に送られ、そこから回復するのは困難です。

Anchor RAGの3エージェント協力システム

知識グラフに焦点を当てたアンカーRAGは、専門エージェントのチームでこれを解決し、協力パイプラインを持つ3つのエージェントがあります。恐れることはありません。特別なことはありません。美しいエージェントのシーケンスです。

まず予測エージェントがあります。エージェントの唯一の役割は重要なアンカー識別問題を解決することです。ネットワークのどこから、どのノードを選択して開始するかです。単純なキーワード検索は行いません。2段階のプロセスを使用します。

候補生成があります。知識グラフからミッテン・ロムニー、ジョージ・ロムニー、レオノール・ロムニーなどの結果を得ます。そして彼らがここで適用する秘密のソース、秘密と呼びましょう。知識グラフのノードのイプシロン環境の近隣、出て行く関係を調べ、1段階または2段階のソリューションを行います。

そして異なるリンクに分かれ、配偶者の家や宗教、卒業した場所の属性があります。そしてセマンティック類似性モデル、エキスパートモデル、文章変換器モデルを使用します。元の質問に対するそれらの関係の関連性をスコア化するためのトランスフォーマーのエンコーダー専用部分を覚えています。

次に、並列で動作する複数の取得エージェントがあります。並列検索アルゴリズムがあります。これは堅牢性の鍵です。予測者が上位2つまたは3つの候補アンカーを特定すると、すぐに3つの独立した取得エージェントを生成します。探索があります。

各取得者は割り当てられたアンカーポイントノードから開始し、その複雑性を考慮して質問に関連する知識パスを検索し、知識グラフの横断を開始します。1つのアンカーが偽のP3、偽のリードである場合、より良いアンカーから開始する別の取得者が成功できます。

リスクを減らし、上位3つまたは5つの結果に従います。それから何が必要でしょうか?全体の操作を管理し、すべての結果を集約・評価し、特定の集約や検索プロセスを続行するか停止するかを決定するスーパーバイザーが必要です。

集約された情報と知識が質問に答えるのに十分かどうか、そうであればGPT-5であることを願うこのエージェント、このLLMが最終回答を合成する責任があります。十分であれば素晴らしい、得られました。

これら3つのインタラクティブエージェントすべては、知識グラフのハイパープレーンで間違った経路を選択するリスクを軽減するためのものです。

RAGの運用レベルでの詳細分析

それでは続けて、RAGの運用についてもう少し深く掘り下げてみましょう。特定のツールエージェント向けのパラメータレベルAPIグラフデータセットについて話しましょう。再び、ここでは旧国立研究所を見ています。

我々の旅路における次の論理的ステップは何でしょうか?簡単です。エージェントはどのツールを使用し、どのような順序で使用するかをどのように知るのでしょうか?そしてLLMによって最適なツール使用シーケンスが保証されるのでしょうか?

MCPは素晴らしいプロトコルだということを知っています。しかし、LLMがどのツールシーケンスを呼び出すかを決定する際には何も役に立ちません。どのツールが素晴らしいかについてのLLMの一般的な情報はありますが、ツール使用における最適化を見つける方法についての事前計算されたヘルプやガイドライン、チュートリアルはありません。

ここで、MCPプロトコル層の上に、グラフ層があるという新しい出版物があります。この自動コード化APIグラフの内外で、MCPコールが行われる前に、より高い抽象レベルで動作するグラフがあります。

これは、ツール間で可能なセマンティック関係とデータフローについて、特定のデータと情報フローのためにツールがどのように設計されているかについての事前コンパイルされた知識ベースです。

すべての異なるツール間での最適可能パス間の最良のマッピングがこのグラフにあります。API Aからの出力がある質問があった場合、API Bのどの入力にそれを接続できるでしょうか?現在MCPクライアント・サーバーアーキテクチャが使用するツール説明のフラットリストから欠けている構造的で重要なセマンティックコンテキストを提供する事前計算されたAPIグラフを見るだけです。

このAPIグラフという新しい要素を比較したい場合、これはすべての異なるタスク、すべての異なるドメインのためのすべての異なるツールをトレーニングするためのすべてのレシピを含むクックブックです。

具体例による説明

例を見てみましょう。例はいつも素晴らしいです。「Spotifyで特定のジャンルから少なくとも1,000人のフォロワーを持つ古いXYZアーティストをフォローする」としましょう。これをどのように行うでしょうか?例を示しましょう。

エージェントはまず人間のクエリを受け取ります。これがクエリです。ツールボックスがあることを知っており、このツールボックスにはログイン、アーティスト検索、アーティストフォローAPIがあります。

この3つのツール説明をモデルに送信し、LLMが「何かを試してみよう」と言って最善を期待する代わりに、エージェントはまずインテリジェンスを参照し、これが我々のAPIグラフです。

このグラフを横断することで、LLMは「私の特定のタスクのために、グラフに埋め込まれた有効な実行パスを見つけた」と発見します。本当に重要なのは、このAPIグラフが提供する詳細情報です。ログインについての一般的な情報だけではなく、必要な正確な情報があります。

グラフ表現のノード・エッジ構成を考えると、ログイン出力アクセストークンはアーティストフォローへの強いエッジを持っています。入力アクセストークン、そしてアーティスト検索出力アーティストIDは強いエッジ、中程度のエッジ、または弱いエッジを持ちます。ツールについて後でもっと詳しく説明しますが、アーティストIDへの差別化ツールがあります。

エージェントは高い信頼度の計画を持ち、どのように進めるべきかを知っています。まずログインを呼び出し、次にアーティスト検索を呼び出さなければなりません。最後に、両方からの出力を使用してアーティストフォローを呼び出し、このグラフで何をすべきかを正確に知っています。

エージェントはグラフからの堅実な計画を持ち、MCPのような標準化通信プロトコルを使用して計画の実行を開始します。

MCP呼び出しの詳細プロセス

コール1では、エージェントがLLMシステムプロンプトまたはユーザーマネージャーにMCP呼び出しを行い、「計画の最初のステップはログインすることです。ログインツールを呼び出してください。ツールパラメータにはログインAPIのスキーマが含まれています」と言います。ツール呼び出しオブジェクトがあります。了解です。

エージェントアプリケーションコードがこれを解析し、ログイン関数を実行し、アクセストークンを取得します。コール2の準備ができました。エージェントは新しいアクセストークンをツール結果として送信して新しいMCP呼び出しを行います。

次の目標でログインが成功したことも述べます。「今度はアーティストを見つける必要があります。新しいジャンルと最低フォロワー数1,000でアーティスト検索ツールを呼び出してください」。アイデアが分かりますね。素晴らしい。

エージェントループの計画部分において欠けているインテリジェンスに対処するため、このAPIグラフは基礎的です。可能な限り複雑性を減らさなければなりません。

MCPプロトコルは配管と実際のネットワーク接続のみに対処します。最適化されたパスシーケンスはAPIグラフに外注されています。良い配管なしではシステムは漏れますが、良い計画なしではシステムは配管で何をすべきかさえ分かりません。

出版物自体による視覚化で見たい場合、これがあなたのためのものです。毎ステップですべての500の利用可能なAPIを考慮させる代わりに、グラフが計画を提供します。グラフによりエージェントは前のステップの出力に合理的に接続できるもののみにオプションを削減できます。

これにより速度、精度が向上し、成功のための実証された方法です。ここで興味深く、この論文の著者がドキュメント改良に使用するプロンプトテンプレートを見つけました。あるいはAPIグラフ構築自体により関心があるかもしれません。これは本論文の付録からのスクリーンショットです。本当に素晴らしい。これに対する完全なプロンプトがあります。

研究結果と今後の展望

最後に、いつも著者に最後の言葉を与え、彼らは結論で「API間の現実的な入出力依存性を捕捉し、より複雑なマルチターン推論のためにAPIがどのように構成できるかを推論するパラメータレベルAPIグラフデータセットを導入する」と述べています。素晴らしい。

私の言葉では、APIグラフはより良い計画を可能にし、解決空間をさらに制約し、計画を検証し、知識グラフで最適化された計画が利用できることを本当に確信できます。APIグラフはまさにそれです。特定のタスクに対して強いエッジと大きなエッジを持つ特定のツールシーケンスの作成を可能にし、検証し、最適化するように設計されたツール間のすべての依存関係の事前計算された知識グラフです。

別のインテリジェンスのAPIグラフへの外注が見られ、MCPプロトコル層があるだけです。

ソーシャル学習における新展開

論文9を見てみましょう。これは特別な論文です。MIT、スタンフォード大学、Google DeepMindから2025年8月末のもので、複雑なタスクにおけるソーシャル学習についてです。

これは構造化された実行可能ワールドモデルに対する結合確率推論という、LLMのソーシャル学習のための全く新しい計算フレームワークです。ワールドモデルでのソーシャル学習に戻ってきました。数学、化学、理論物理学だけでなく、人間とAIの相互作用についてもです。

ここで大きな問題があり、ソーシャル学習における問題があります。「これは1つの論文だけだ」と思うなら、論文10を見てください。論文10はソーシャルワールドモデルについてです。イェーイ。

今年のカーネギーメロン大学とNvidiaで、AIシステムがその奇妙な人間の社会力学についてより効果的に推論できるよう設計された完全に新規な構造化ソーシャルワールド表現を導入しています。

しかし、これら最新の2つの論文についてはもっと詳しく、私の次のビデオの1つでお話しするかもしれません。これは本当に重要なので、ソーシャルワールドモデルに特化したビデオを捧げたいと思います。

楽しんでいただけたことを願います。少し楽しんでいただけたことを願います。チャンネル登録をして、次のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました