この研究は、データサイエンス作業の80%を占める煩雑な前処理作業を自動化するため、特定ドメイン向けに事前訓練されたデータエージェントシステムを提案している。生物学者や経済学者などの専門家が、プログラミング知識なしに高度なデータ分析を実行できるよう、AIエージェントがインターネットやデータベースから適切なデータを自動収集・処理・可視化する仕組みである。理論的には教師ありファインチューニングと強化学習による訓練が想定されているが、実際の実験では訓練なしの簡略化されたアプローチで検証を行っている。

データエージェントの革新的アプローチ
みなさん、またお会いできて嬉しいわ!今日はめっちゃ具体的なタイプのエージェント、つまりデータエージェントについて話すで。これらは研究チームのメンバーやねん。見てもらったら分かると思うけど、AIにとってデータが全てやろ?
もしデータサイエンスをやってるとしたら、その80%は退屈で骨の折れる作業、つまりデータの準備やらなんやらの地道な作業やねん。
で、この新しいアイデアっていうのは、「AIを使って全部自動化しようや!」っていうことなんよ。適切なデータを見つけて、完全な分析推論プロセスを持って、正しいタイプのデータを理解して、全部を正しい方法で可視化するってことやな。
メインアイデアは、データタスクは単純な操作やなくて、特にステート管理っていうロジックが必要やねん。データ自体がシステムの状態になって、エージェントツールから知ってることを全部追加するんや。複雑なツール統合はあらへん。
どのエージェントも頑健で信頼性があるAIエージェントやねん。これは知っとるやろ。で、もし成功したら、論文の著者たちが言うには、これらのデータエージェントは本当にデータサイエンスを民主化できるねん。なぜなら、生物学者や経済学者みたいなドメインエキスパートが、データを集めてくれる人間のエキスパートコーダーを必要とせずに、洗練された分析を実行できるようになるからや。
だから、このドメインエキスパートがアイデアを持ったら、データAIエージェントのところに行って「この特定のタスクのために、インターネット上のSQLサーバーやNoSQLやら、とにかく世界中のあらゆるデータを見つけてくれ。新しいアイデアがデータで証明できるかどうか見たいねん」って言えばいいんや。そしたらデータエージェントがそのためのデータを提供してくれるっちゅうわけや。
製品としてのデータサイエンスエージェント
プロダクトは何かって?プロダクトはもうはっきりしてるねん。データサイエンスエージェントや。例えば、ゲノミクスみたいな特定のドメイン知識用に買えるんや。
このデータサイエンスエージェントは、そのタスクのために特別に事前訓練されてて、教師あり微調整と強化学習が施されてるねん。これはすぐに見せるで。あるいは、金融リスク評価専用に事前訓練されたデータサイエンスAIエージェントっていうプロダクトを買うこともできる。このタスクだけのために訓練されたエージェントで、インターネット上のどこに行けばいいか、どのソースを見つければいいか、どのデータフォーマットを探せばいいか、何が利用可能でどう変換するかを正確に知ってるんや。
そして人間のタスクの複雑さは何かっていうと、タスク固有のデータを見つけることは、思ってるほど簡単やないっちゅうことやねん。
なぜかっていうと、このエージェントは人間のタスク、つまり人間が何を望んでるかを理解せなあかんねん。そして、インターネットやどこかに存在することを知ってるどんなデータを収集して、統合して、修正して、SQLやNoSQLやらで一緒にまとめるべきかを判断せなあかんのや。で、このエージェントはそうするために訓練されてて、そのタスクのための本当に特別なエージェントやねん。
だから、これは標準的な何かよう分からんデータエージェントやなくて、誰でも実験できるようにして、データがどこから来るかを気にせんでええデータエージェントやねん。特別なコーダーやデータジェネレーターは要らんねん。著者たちが言うには、これは誰もが体験できるもんやそうや。
自律データエージェントの理論的枠組み
はい、ここにあるで。これが美しい研究や。2025年9月23日の自律データエージェント。彼らは「AIにはデータが必要やけど、ボトルネックがある」って言うてるねん。ゲノミクス、リスク管理、金融、医療、何でもええ。ドメインスペシャリストやったら気にせんでええ。あんたらのためのエージェントがあるねん。そしたらデータが手に入って、そのデータで実験ができる。賢いデータの新しい機会や。
そして彼らが開発したのは、データを動的な状態そのものとして扱う形式的フレームワークや。
彼らが言うには、アクション生成があって、LLMベースの関数で表現される責任エージェントがあるねん。これがデータの現在状態、スキーマ、サンプル行、メタデータを観察して、短期記憶には過去のアクションのログを全部持ってる。そして単純に次のアクションを生成するんや。
「あ、これは馴染みがあるな」って言うやろ。もちろんやで。で、次のステップが状態遷移やって言うたら、「あ、これも知ってるわ」って言うやろな。もちろん知ってるはずや。
だから、生成されたアクションAが特定のデータ環境、Pythonランタイム、Pandas、SQLデータベース、何でもええけど、そこで実行されて、データ状態をS1からS2に、あるいは次の時間間隔に更新するねん。
「ちょっと待って、フローチャートを見せて」って言うやろ。なぜなら、これがそうやとしたら、ここにExcelシートがあって、データエージェントがなかったら手動でやるだけやろ。SQLがあって、SELECT、GROUP BY、ORDER BYがあって、それから可視化の処理をせなあかん。PandasやMatplotlibやらを使って、それで終わりや。
「でもちょっと待って、これはコードできるやん。GPT-4oやら何でも好きなもんで行けるやん」って言うかもしれへん。もちろんコードできるで。でも、ここには特定のドメイン固有知識のために特別に訓練されたデータエージェントがあるねん。
エージェントのタスク分解プロセス
彼らが言うには、最初に知覚、計画、分解があって、それから1、2、3、4、5、6があるねん。この6つのタスク、このサブタスクのために我らのエージェントを訓練したって言うてる。
ここにまたある。1、2、3、4、5、6。見てみい。データソースを特定して、SQLコマンドを生成して、SQLコマンドを実行して、結果をGPT-4oやらで検証して、可視化をして、要約をする。これだけや。
素晴らしいのは、このエージェント、このデータエージェントを買えることやねん。どうやってデータを生成するかを気にせんでええ。データはどこかで利用可能やから、実験だけやったらええ。データは提供される。データベース、SQL、NoSQL、API、ウェブサービス、ファイル、CSV、JSON、科学者としてなんでファイル変換を気にせなあかんねん?AIにやらせりゃええやん。
データタスクで、特徴量エンジニアリング、シンボリック方程式抽出、テキストからSQL、自動データ修復、これをAIに任せりゃええんや。
エージェントの核心機能
自律データエージェントの核心で何をしてるかって?めっちゃ簡単やで。知覚がある。データを理解するねん。最初にタスクを理解せなあかんくて、それからどんなデータが必要かを考えるねん。
それから計画と複雑さの分解をして、アクション推論をするねん。アクションシーケンスを決めるんや。最初にデータをクリーニングせなあかん。それからデータを連結せなあかん。それからデータをフィルタリングせなあかん。それからもちろんグラウンディング、つまり検証のためのAPI呼び出しをして、それから実行やねん。
そして、もちろんここで改善、フィードバックがあって、データエージェントのループに入るねん。
もちろん、特に私のチャンネルの購読者なら「これはめっちゃ馴染みがある」って言うかもしれへん。そうや、AIではいつも同じことやねん。でも、今を想像してみい。
現実世界のデータセットがあるとして、ギガバイトやテラバイト、あるいはもっと巨大なデータセットがどこかにあったとしよう。エージェントはコンテキストウィンドウに全データセットを収めることができへん。だから、真の状態の部分的な観察しか持てへんねん。「あ、何が来るか分かるわ」って感じやろ。
そうや、もちろんや。だから、エージェントが実際に見るのは、データベーススキーマ、テーブルの最初の5行、統計的要約、カラム名、データ品質レポートやねん。
エージェントは今、これらの限定的な観察を使って、インターネット上の全データソースをスキャンして、過去のアクションの記憶、観察で学んだこと、信念状態と一緒に使わなあかんねん。そして「よし、これは部分観測可能マルコフ決定プロセスの正確な定義や」って言うて、AIで知ってることに戻るねん。これがすべての大規模言語モデル、視覚言語モデルの中で動いてるコアやねん。これや。
だから基本に戻ってるねん。エージェントはSQLデータベースについての不完全な情報に基づいて、不確実性の下で行動せなあかんねん。これは完全観測可能な市場決定プロセスよりもはるかに困難な問題やねん。隠れ状態があって、すべて知ってるはずや。
問題の複雑さと規模
この時点で「ちょっと待って、待ってや」って言いたなる。この研究を読んで「でも聞いて、これが部分観測可能マルコフ決定プロセスなだけなら、この論文の何が新しいねん?これは標準的な応用なだけやろ。カーソル使ってコードしたらええやん」って言う人もおるかもしれへん。
でも、それは複雑さにあるねん。私が発見したのは、問題空間の絶対的に目を見張るような規模やねん。部分観測可能マルコフ決定プロセスで扱わなあかんもので、従来の強化学習手法をすべて絶対的な計算限界まで押し上げるねん。
考えてみい。無限の状態空間がある。あらゆる可能なデータセットとその状態数は、ほぼ無限やねん。少なくとも計算上無限やと思う。そして、高組み合わせアクション空間というアクション空間がある。単純に上下とかやなくて、構造化された合成的な、天文学的に巨大な、構文的に正しいアクションのための空間やねん。
もちろん、複雑な報酬関数が必要な報酬関数について考えてみい。20のアクションがあるとして、どれが重要な報酬やったか戻ってくる。複雑さはここでこれをやると狂ったように上がるねん。でも原則的に、理論的観点から見ると「ちょっと待って」って言うやろ。
そうや。基本的なアイデアは同じや。エージェントがあって、エージェントの目標はポリシーπデータを学習して、LLMやエージェントを微調整することやねん。これが累積将来報酬を最大化するためにより良いアクションの系列を生成するんや。
これは定義上、まだ我らの古い友達、強化学習問題やねん。もちろん、現在AIには他に何もあらへん。いつも同じや。
データエージェントの5つの柱
でも、もちろん論文を書くために、この美しい研究の著者たちによって定義されたデータエージェントの5つの柱があるねん。
第一は、めっちゃ簡単にするで、知覚、つまりデータを見ることや。だから、トークンとしてのデータ、シリアライズされたテーブル、またはデータの可視化として、チャートを解釈したり、プロットを読んだりする必要がある、あるいは統一されたJSON構造を持ってるだけや。
それから、まったく行動する前の思考プロセスがある。思考で何をするかというと、LLMは思考が得意やないねん。だから細かく刻むんや。「複雑さを非常に複雑さの低いサブタスクの山に減らす」って言うねん。だから、データクリーニング、それから特徴量エンジニアリング、それから集約、それからグルーピング、それから可視化と予測に、すべてを分解するんや。すべてを分解する。素晴らしいやろ。
それから適切なツールを選ばなあかん。ツール呼び出し、PandasでもSQLでも何でも好きなもん、シンボリック表現、すべてについての洞察の直接生成や。
そしてもちろん、グラウンディングアクション、グラウンディングと実行。だから、実際のデータスキーマ、入ってくるデータフロー、すべてのAPIシグネチャと互換性のある、美しく一貫した構造で動く実行可能なコードを本当に持たなあかんねん。
そして、フィードバックからの学習、改善や。SQL構文エラーがあったら、コーディングLLMの知能が十分高ければ、自己修正システムがあるねん。
彼らが言うには、我らのタスクはデータ処理、特徴量エンジニアリング、データ拡張、データ可視化、テキストからSQL、データから方程式、ツール呼び出し、すべてやねん。美しいやろ。
訓練プロセスの詳細
彼らが言うには、これらについて我らのエージェントを訓練するねん。データ処理、データエージェントが本当に賢くて自律的になることを望んでる。だから、「座ってコースでコードして、コードシーケンスして、それからエージェントを持つ」っていうのやなくて、訓練プロセスやねん。
彼らは「聞いて、我らのエージェントはデータタスク、データサイエンスタスクの極端な複雑さのために特別に訓練されてる」って言うねん。
どうやってやるかって?AIでは、いつも同じや。教師あり微調整から始めて、それから強化学習に行くねん。何だと思う?教師あり微調整から始めて、それからこの論文でも強化学習に行くねん。
だから、タスク分解、スキル呼び出し、ツール使用の基本スキルを教師ありの方法でエージェントに教えるねん。教師あり微調整データセットを提供して、これができるねん。
もちろん、エージェントが多すぎると複雑さが高すぎるから、この論文では大学やから、2つのアーキテクチャバリアントだけを紹介してる。シングルエージェントとデュアルエージェントや。「うわー、そうや、知ってる、うわー」って言うかもしれへん。
シングルエージェントは何だと思う?シングルモノリシックLLMが計画から実行まですべての機能を実行することを学ぶ。または、プランナーエージェントとアクターエージェントがあって、フィードバックループがある。基本的なもんや。複雑なことは何もあらへん。訓練データの量だけや。
強化学習とシステム簡略化
美しい部分、強化学習が来るで。ポリシー最適化のために可能な最も単純なアプローチをするねん。PPO、つまり近接ポリシー最適化コードで行くねん。1000のバリアントで利用可能やから、全然問題あらへん。訓練用のデータ、データセットが必要なだけや。これがこの研究の美しさやねん。
もちろん、報酬関数を持たなあかんから、報酬モデルが必要やねん。何だと思う?バイナリ報酬構造でも行けるねん。実行成功、解決の正しさ、この線形計画の完全実行における論理的一貫性に注意せなあかんねん。
それだけや。ここに見えるで。シングルアクターと、プランナーと一緒のやつ。それだけや。派手なもんは何もあらへん。特別なもんは何もあらへん。ゲノミクス、化学、理論物理学、医学のような特定のドメイン知識に対してめっちゃ賢い、知的やと言わんまでも、事前訓練、教師あり微調整、強化学習されたデータエージェントを持つために適用されただけやねん。
そして、ショートカットが起こるねん。気をつけや。これは論文を最初に読んだ時に理解できんかったもんやねん。
著者たちが今言うのは、これが素晴らしい理論的プロセスやったけど、もっとシンプルな仮説で行くっていうことやねん。だから「我らは大学やから、もっとずっとシンプルなことをせなあかん」って言うねん。
「我らの5ステップアーキテクチャモデル、クリーニング、ルーティング、計画、グラウンディング、実行が、それ自体で本当に十分強力かどうか」って言うて行くねん。だから、「教師あり微調整はせん、強化学習もせん、シンプルな仮説をシミュレートするだけや」って言うねん。
彼らが言うには、「コンテキスト内学習とプロンプティングだけで、エージェントに順次タスクを伝えるだけや」。美しいのは、彼らが言うショートカット、こう呼ぼうか、これにはタスク固有の微調整がゼロ必要やねん。教師あり微調整も強化学習についても何も要らん。
だから、「聞いて、微調整での調整手続きに時間もお金も投資したくない。だから我らの場合、訓練時間はゼロや。実際に微調整なしで方法論が動くことを証明したいだけや」って言うねん。これは奇妙やと思って、「なんでやろ」って思ったけど、オーケー、彼らの分析で行こう。
はっきりさせるために、今から彼らはこれらの実験に対して教師あり調整も強化学習微調整も実行してへん。だから、「任意のLLMを取って、線形シーケンスを持つだけや」って言うねん。
簡略化されたパイプライン設計
彼らが今提示するデータエージェンシー、データでも、私がショートカット、削減と呼ぶもんは、計画を利用しながら未見のデータセットに対する訓練フリーの適応、シリアルショットやねん。
どうやってやるか?「これが我らの線形パイプラインや。このシンプルなケースで、順次モジュール1、2、3、4、5をシミュレートする」って言うねん。美しいやろ。だから、これは異なるコンポーネントを調整するプログラムやねん。
最初のステップは、クリーニング、前処理ステップや。これは我らの簡略化されたケースでは、LLMやなくて小さなルールベースコントローラーによって処理されるねん。だから、決定論的なコードがあるねん。
第二ステップは見えるようにルーティングや。ルーティングはGPT-4oの美しいLLMによって行われて、1つから3つの解決モード、クラシカルリニア、スパースモデル、ニューラルモデル強化学習訓練またはLLMベースシーケンスジェネレータがあるねん。
どこにルートするかに応じて、ステップ3で計画とツール呼び出しがあるねん。クラシカルは赤いボックスで見えるようにあって、ニューラルは固定ツールチェーンを呼び出すねん。だから推論はあらへん、議論もあらへん。これは固定ツールチェーンでより良い特徴セットを形作るねん。終わりや。
あるいは、LLMモードで行くなら、操作のシーケンスを生成するねん。シーケンスとしての計画で、LLM定義ツールをシーケンスで適切に呼び出すねん。
何をしてるか見えるやろ。彼らはショートカットで簡略化された訓練シナリオをシミュレートしてるけど、全然訓練してへんねん。訓練データセットを収集したくないし、訓練プロセス自体のコストも負担したくないねん。
彼らが言うには、「我らの訓練フリーデータエージェントが勝ったら、我らが示した5ステップアーキテクチャ自体の優位性によって勝利が達成されたと自信を持って主張できる。より良い微調整データセットがあったからでも、訓練プロセスがあったからでも、長い訓練プロセスがあったからでも、より良い訓練プロセスがあったからでもない。訓練なしで5ステッププロセスをシミュレートしただけや」。これは残念やし、オーケーやけど、でも彼らはパフォーマンスを得て、ショートカットのパフォーマンスからこれが最高のモデルやって論じるねん。
実験結果と性能評価
オーケー、だからこれを少し追ってみよう。彼らが「テーブル3を見て、すべての異なる美しいベンチマークがある。最後の行を見てみい」って言うねん。純粋LLM、Llama 3.1、GPT-4システムで行くとしよう。気にせんでええ。第二列で行くとしよう。純粋LLMは85%の精度がある。
そして、シーケンスをシミュレートしてるだけのこのシミュレートされたショートカットデータエージェントが86%や。だから、「Llama やGPT-4システムみたいなオフザシェルフLLMを使っても、純粋LLMでやるよりも我らの5ステップシーケンス操作の方が1パーセントポイント良い」って言うねん。
「そりゃそうやろ、複雑なエージェント構造を構築してシミュレートしたんやから」って言いたくなるけど、それで1%しか良くないんかい。あるいは、ここの3番目を見ると78%、78%や。
だから、このグループが報告する成功は非常に特別やねん。彼らは「素晴らしいアイデアがある。何をすべきか知ってる。でもやらない。ショートカットを作る。簡略化を作る。訓練フリーの方法論がある。訓練コストなし、訓練データ蓄積なしで、作業証明を与えたいだけや」って言うねん。
そして、「それは悪くない。少なくとも純粋LLMと同じや」って言うねん。これについて、オーケー、まだ本当の成功を見てないかもしれんけど、オーケー、将来の課題について話そうや。
将来の課題と限界
これはデータエージェントのほんの始まりやったと思うねん。めっちゃ正確に言うで申し訳ないけど、もしゲノミクス用の本物のもの、本物のデータエージェントに行くなら、本当に訓練して、ドメイン知識に最適化された美しいLLMを本当に持ってるなら、気をつけや。
なぜなら、人間のクエリ、人間のタスクには複雑で深い専門ドメイン知識が含まれるからやねん。このデータエージェントは単純なデータエージェントやなくて、ゲノミクスタスクのために特別に構築されてるねん。ゲノミクスを扱えても、通常はゲノミクスをさまざまなサブカテゴリーに細分化せなあかんから、これはすでに奇跡やろう。ゲノミクス自体だけでも複雑さが高すぎるかもしれへんからな。
だから、データエージェントはもっとずっと多くのもんやねん。どのデータを収集するか、どの複雑さのデータ構造を収集するか、どうクリーンするか、どうフィルタリングするか、どう拡張するか、ゲノミクスの特定のタスクのために人間のクエリに対してデータをどう連結するかを理解せなあかんねん。だから、与えられたタスクに対して正しいデータを見つけて収集するだけのために、この特定のエージェントに入る知能は大量にあるねん。
特に、巨大なインターネットデータベースや大規模データセットに行く場合、これは本当に高くつく可能性があるねん。エージェントがデータを見つけるために試行せなあかんし、過度の試行錯誤は計算上本当に高価で、単純に実用的やないからや。
だから、将来の作業では、後のビデオでこれについてもっと焦点を当てるけど、計算オーバーヘッドを最小化することにもっと焦点を当てなあかんねん。でも、これがどうやって行われるかは、興味深いストーリーが待ってるねん。
それでも、ブラックボックスジレンマがあるねん。我らのエージェントと多数のエージェントが通信せなあかんし、今は分離されてて、本当に専門エージェントだけやねん。彼らがより自律的で自己学習で他のエージェントに自己依存するようになると、何が起こるか想像できるやろ。
でも、商用システムを使う場合、彼らの推論パスも本当に透明やない。だから、商用データエージェントによって生成されたデータを受け取った時、最終分析が信頼できるデータであることをどうやって確認するねん?これらのデータが仕事に適したデータであることをどうやって確認するねん?
支払ったデータが証明可能で解釈可能で正しい、適切なデータであることをどうやって確認するねん?これは、データエージェントの採用にとって最重要やねん。医療に関連するものや金融のような重要な分野を考えてみい。
だから、将来には多くの課題があるけど、ちっちゃなちっちゃな課題ごとにデータを構築するのを見るのは興味深いねん。これが正しい進歩の道やろか?そして極端な訓練量。そして、これらすべてのエージェントが互いに話し合って、私の最後のビデオの一つで見せたように、どのプロトコルを使っても、互いにコミュニケーションするのに問題があるねん。
だから、我らの前には多くの研究があると思うねん。何らかの解決策を見つけたなんて思う勇気を出したらあかんで。我らは将来解決せなあかん複雑さを理解しようとしてるだけやねん。現在のシステムは解釈可能でも信頼できるものでもまったくあらへんからな。
ビデオを楽しんでもらえたら嬉しいわ。また次のビデオで会おうな。


コメント