時系列予測AIエージェント:MILKYWAY

AI研究
この記事は約21分で読めます。

本動画は、LLMを用いて未確定の未来を予測する新手法「MilkyWay」に関する論文の解説である。AIモデル自体の重みを更新するのではなく、外部のテキストベースの「ハーネス(制御枠)」を用いて推論プロセスを動的に自己進化させる仕組みを紹介している。特に、AIが不確実性に直面した際のハルシネーション(幻覚)を防ぐため、決定論的な指示によって確率論的な状態(複数の仮説の重ね合わせ)を維持させるアプローチの重要性について考察しており、次世代のAI推論システムのあり方を提示している。

Temporal Predictive AI Agents: MILKYWAY
If your current agent "predicts" the future by simply extrapolating a confidence score from its frozen latent space, you...

AIによる未来予測の幕開けと次世代推論システム

コミュニティの皆さん、こんにちは。戻ってきてくれて本当に嬉しいです。さて、そろそろ時間ですね。AIが未来を予測し、未来を形作り、私たちの未来を構築することについて話しましょう。今こそ、これについて話す時です。前回の動画では、人間の脳による少しの超知能を用いて、公開された推論プロセスにアクセスできれば、AIモデルを積極的に操縦できることについてお話ししました。これにより、私の30億パラメータのモデルでさえ、非常に複雑なタスクを解決できるようになりました。

そして、その解決策を覚えているでしょうか。中央に私たちのLLMがあり、その周囲にハーネスを配置するというものでした。LLMの内部的な推論を観察し、その推論と小さな30億モデルが直面している問題を理解することで、推論プロセスを最適化するための追加の指示をリアルタイムで提供でき、その結果、30億モデルは素晴らしい解決策を見つけ出しました。

注目すべき3つの最新論文と「MilkyWay」の発見

それでは、次世代のAI推論システムに向けた究極の設計図について話しましょう。今日、4月17日に発表された2つの素晴らしい新しい論文を発見したので、皆さんに紹介しようと思いました。香港城市大学、清華大学、そして中国科学技術大学による、絶対に驚くべき論文です。さらに、最後の100件ほどの論文をチェックしている中で、この3つ目の論文を見つけました。

そして、この3つ目の論文が本当に素晴らしいのです。これこそが私の持つ魅力の源です。複数の論文を読んでいると、これら3つの論文が関連しているという感覚を得ることがあります。最初はこれら3つの論文をまとめて紹介しようと思いました。しかし、タイトルや技術的な要約を読むだけでなく、実際にこれら3つの論文を詳細に読み込んでいくと、そのうちの1つが際立っており、他の2つとは異なっていることがわかりました。

そうです、その通りです。それこそがまさに、世界は未来を漏らす、未来予測AIエージェントのハーネス進化という論文です。ですから、今日はこの1つの論文に絞って解説し、明日、残りの2つの論文を一緒に見ていくことにしましょう。他の2つははるかに複雑で、方向性も異なりますが、今日の論文は非常にシンプルで分かりやすい内容になっています。

従来モデルとの比較:MilkyWayはいかにして未来を予測するのか

ただ全体を俯瞰して学ぶことができます。では、どうやって未来を予測するのでしょうか。この研究の著者たちは、AIシステムによって多くの重大な決定が下される際、AIにとって関連する結果や出来事が判明する前にそれを行わなければならないと述べています。したがって、AIは何が起こるかを単に推測しなければなりません。科学者として皆さんは、これは受け入れられないシステムだと言うでしょう。

そこで、私たちが未来予測システムと呼ぶものを構築してみましょう。このシステムでは、LLMエージェントが、特定の予測時点(例えば「今」)において、インターネット上で利用可能な公開情報のみを使用して、未解決の疑問に対する予測を実行しなければなりません。では、これをどのように行うのでしょうか。深く掘り下げる前に、このシステムが他のすべての既存システムよりも本当に優れていることをお見せしたいと思います。

ここには、Future XスコアとFuture Worldスコアという2つのベンチマークがあります。ウェブ検索を有効にしたGPT-5.4を使用したとしても、新しいMilkyWayという手法がそれを上回り、他のすべてのものを凌駕していることがわかります。これは素晴らしいことです。では、著者たちはどのようにしてこれを達成したのでしょうか。ウェブ検索付きのGPT-5.4の成功率がわずか44%であるのに対し、彼らはどのようにして61%のパフォーマンス率を叩き出したのでしょうか。見てみましょう。

また、イベントが実際に解決する5日前、4日前、3日前、2日前、そして1日前の時間経過を見てください。このグラフの緑色で示されているのがGPT-5.4のパフォーマンスの変動です。そしてもちろん、青色で示されているのがフルハーネスを実装したMilkyWayです。イベントが実際に起こる5日前であっても、MilkyWayの予測パフォーマンスは70%に近く、ウェブ検索付きのGPT-5.4の予測パフォーマンスは57%です。その違いがわかるでしょう。これは非常に興味深いシステムであり、彼らはこの時間的近接性の比較において、当然ながらハーネスを使用しています。

結果ベースの最適化が抱える課題とプロセスベースの監視

私がなぜ最初の動画でこの特定のプレプリントを紹介したいのか、これでわかっていただけたと思います。通常のAI推論タスクと、予測の科学や未来予測との間には根本的な違いがないことを理解しなければなりません。なぜなら、私たちはまだ発生していないターゲットとなる結果を予測しなければならないからです。

つまり、確率と統計です。今後3ヶ月以内に中央銀行が利下げを行うかどうかを予測しようとするAIエージェントは、進化し続ける状況に直面します。一部の重要なデータは、今日、明日、あるいは来週といった具合に徐々に公開されますし、政治的環境も変化するでしょう。アメリカの大統領のことを考えてみてください。そして、決定的な証拠の一部は最後まで隠されたままになります。では、体系的、統計的なアプローチからこれにどう対処すればよいのでしょうか。

現在私たちが持っているのは、過去を振り返り、結果ベースの最適化に依存した予測を見ることだけです。過去において、イベントは3ヶ月後に発生しました。そして、強化学習のためにモデルの重みを更新する報酬関数を構築することができました。予測が正しかったか間違っていたかのどちらかですが、完全なタイムラインを把握することは決してありません。3ヶ月後の最終結果がわかるだけです。この監視は絶望的に遅く、しかも断片的であるため、これが問題となります。

では、私たちのAIモデルはどのような早期警戒のサインを見逃したのでしょうか。例えば、ちょうど2ヶ月前を考えてみてください。私たちは完全な時間軸の発展を把握したいと考えています。そして、それがMilkyWayです。MilkyWayは、時間的な内部フィードバックから3ヶ月間継続的に学習する自己進化型のエージェントシステムを作成することを目指しています。エージェントの過去の予測と、同じ未解決の質問に対する現在のより情報に基づいた予測とを対比させることで生成される診断シグナルを私たちは持っています。

自己進化する外部ハーネスアーキテクチャ

ここで起こっていること、あるいは著者たちがGPT-5.4を使用して行ったことは、モデルの重みを凍結させたままにしたということです。彼らはモデルのトレーニングを一切行いませんでした。その代わり、LLMの内部での学習を外部のハーネス領域へと移行させ、編集可能な認知アーキテクチャ、つまりテキストの成果物を構築しました。

どうなったと思いますか。この予測ロジック、あるいは手続き的なステップを別のモデルへと外部化することで、システムはLLMモデル自体の計算コストのかかる微調整を行うことなく、異なる時間的ダイナミクスにリアルタイムで動的に適応できるようになりました。私たちはただ、すべてのタイムステップを、例えば skill.md のようなファイルに書き出しているだけです。

簡単な例を挙げましょう。月曜日にエージェントがウェブを検索し、明確な証拠を見つけられず、中央銀行は利下げを行わない政策をとるだろうと予測します。しかし水曜日に、インターネット上で主要な労働報告書が発表されます。エージェントは再度検索を行い、新しい報告書を確認し、労働市場が冷え込んでいることを認識します。これはFRBによる意思決定に影響を与える可能性のある要因であり、そのため私たちのAIエージェントは予測を更新し、利下げの可能性が高いかもしれないと判断します。

何が起きているかお分かりでしょうか。月曜日に何が起こり、水曜日に何が起こったかの差分を正確に分析し、月曜日のエージェントは何を見落としたのかと問いかける2つ目のエージェントが必要なのです。現在では、月曜日のエージェントがインフレデータだけを確認し、労働市場の先行指標を完全に無視していたことがわかっています。

このように、私たちが決定論的なスキルMDファイルに実装したいと考えているのは、このような自己学習のプロセスなのです。そして、より長い時間軸での例がこちらになります。先ほどと同じく、FRBはいつ利下げを行うかという問題です。初期の予測では証拠が少なく、その後労働市場のデータが発表され、次にFRB自身からのメッセージが出されます。矛盾するメッセージがあるかもしれないので、両方の可能性を視野に入れておきます。

そして、他の出来事から生じる不確実性が絡んできます。政治的な出来事が起こるかもしれません。タウ1、タウ2、タウ3といった異なるチェックポイントにおいて、証拠はますます構築されていきますが、同時に破壊されていく様子がわかります。そしてついに金利決定の時が来ます。2026年3月18日です。イベントが発生し、最終的な結果が出たことで、私たちは最終的な報酬を知ることになります。

ここで振り返りのチェックを行います。私たちの予測ハーネスにおいて、彼らは主に3つの事実に基づいて学習を進めます。第一に、労働市場をより早い段階で追跡すべきだったと学びます。そのため、追跡すべき要因が必要だと判断します。公式の情報源が重要であり、彼らは証拠となる統計情報を探します。どこで検索すべきか。公式のファクトチェックのみです。元の文書をどのように検索すべきか。そして、不確実性に関連するあらゆる事柄を処理します。いつ慎重になり、時期尚早な確実性を避けるべきか、あるいは陥りがちな初期の局所的最小値を避けるべきか。

彼らは労働データをより早く追跡すべきだったことに気づき、これを時間的内部フィードバックの一例と呼んでいます。さて、皆さんはシステムがスキルを学習する場合とそんなに違うのかと思うかもしれません。見てみましょう。この内部フィードバックを運用するために、MilkyWayはシステムの中核となるアーキテクチャコンポーネントを導入しています。これが未来予測ハーネスです。

ハーネスの3つの手続きベクトルと2つのタイムスケール

先ほどお話ししたように、著者たちによって実装されたこのハーネスは、LLMの外部にある、明示的で編集可能なテキストベースの指示書です。そして常に、このハーネスはF、E、Tという3つの特定の手続きベクトルによって定義されます。これこそが、要因、証拠、不確実性です。もう少し詳しく言うなら、要因の追跡、証拠の収集と解釈、そして不確実性の処理となります。

本当に興味深いのは、エージェントがいつ、どこでデータを探し、それをどのように読むべきかということです。ここでの著者からの洞察は、二次的なニュースブログは一切信用してはならないということです。明示的にPythonスクリプトを実行して、連邦準備制度理事会の公式プレスリリースのみをスクレイピングし、それ以外は何も見ないようにします。二次文献は一切使いません。二次文献には常に解釈などが含まれています。常に一次ソースの文書に当たらなければなりません。二次的なニュースやブログなどには決して頼ってはいけません。

アーキテクチャは本当にシンプルですよね。予測を行うベースエージェントがあり、学習を行うハーネスエディターがあります。学習がLLMの外部で行われていることがすぐにわかるはずです。はい。しかし同時に、システムは主に2つのタイムスケールで動作しています。解決前、つまり私たちが常に持っている暫定的な更新の段階と、イベントが発生した後の解決後、つまり振り返りのチェックを行う段階です。これについて見てみましょう。

解決前の段階では、ベースエージェントがタウ1、タウ2、タウ3と時間経過とともに予測を行う際、チェックポイントのノートを生成します。これは、たとえばClaudeのコードからすでに知っているものと何も変わりません。どのような証拠が見つかり、どのような論理、どのような方法論、どのようなコードが使用されたかに関するコンパクトな要約です。そして2つ目のエージェントであるハーネスエディターが、特定のタイミングでそれらの一連のノートを読み、時間的内部フィードバックを抽出し、時間TからT+1へとハーネスを動的に書き換えます。

したがって、ベースエージェントが明日、まったく同じ未解決のイベント、つまり3ヶ月後にFRBで何が起こるかを予測する際、新しく最適化された指示書に導かれることになります。そこには、例えば水曜日に得られた洞察がすでに統合されています。文字通り、過去の過ちからリアルタイムで学習したと言えるでしょう。

次に解決後の段階です。ここでイベントが解決し、実際の正しい結果が得られます。何が正解か正確にわかったので、ハーネスに対する主要な振り返りチェックを実行することができます。もし運が良ければ、そのハーネスが実際に正しい答えを導き出したことになります。その場合、過去3ヶ月間で開発された完全に最適化されたハーネスを取り出し、少し最適化してコンパクトにするかもしれませんが、このハーネスは未来の正確な予測を行う方法を示しているため、このシステムに永久にコミットされると結論づけることができます。

もちろん、これは予測のためにさまざまな要因をどのように解釈し、どのように統合するかという点、つまりFRBが金利を引き上げるかどうかという点に大きく制限されています。非常に狭い範囲であり、この焦点でさえ、次の2分でお見せするように完全に不十分である可能性があります。

論文から得られた3つの科学的洞察とLLMの「不確実性への恐怖」

では、主要な3つの科学的洞察とは何だったのでしょうか。第一に、オープンワールドにおいては、プロセスに対する監視が結果に対する監視よりも絶対に優れているということです。予測の軌跡が存在するからです。これは言ってみれば、毎日得られる進化し続ける証拠の連続であり、ここには3ヶ月後の最終結果だけよりも指数関数的に多くのLLM向けの診断情報が含まれています。

第二に、この足場作りがGPT-5.4のパラメータ更新の代わりになるということです。つまり、私たちのGPT-5.4は、進化し続ける構造化された足場、たとえば skill.md ファイルやあなたが名付けたいその他のファイルが提供されれば、非常に有能な継続的学習者として機能することができるのです。このファイルは、FRBが金利を引き上げるかどうかの決定を段階的に予測する方法を正確に提供します。

これを10年間という期間で行い、歴史を振り返ってみると、当時の政治的風土や環境全体に特有の要因が何であったか、良いアイデアが得られます。非常に特化していますよね。ちょっと待ってください。はい、先ほど言ったように3つ目があります。著者たちは、時期尚早な不確実性の崩壊という危険性について語っています。

著者たちは、MilkyWayのログから得られた行動に関する洞察を見ると、標準的なLLMはほとんど心理的な欠陥のようなものに苦しんでいると述べています。彼らは不確実であることを嫌うのです。従来のシステムプロンプトを思い出してください。AIよ、あなたは役立つAIです。ユーザーに美しく、短く、正確な回答を提供してくださいというものです。もしこのAIが、3ヶ月後に何が起こるか全く分からないために回答を提供できない場合、どうなると思いますか。AIは非常に初期の部分的な証拠に基づいて自信を幻覚として作り出し、それからひたすら幻覚を生み出し続けるということが分かりました。

驚くべきことではありませんか。未来を予測するための十分な情報を持たないAIは、単に未来の特定の部分を幻覚として生み出すのです。未来の予測とは何の関係もありません。

MilkyWayシステムの根本的な限界

では、このシステム全般の限界は何でしょうか。すでにお話ししたように、外部ハーネスは私たちが書くテキストファイルです。それはワークフローの指示セットであり、skill.mdであれ何であれ、外部のテキスト成果物です。過去10年間、過去20年間のすべての政治的詳細、すべての財政的詳細、国家の財政的詳細など、無限のルールをそこに追加していくと、どうなるでしょうか。LLMのコンテキストウィンドウをパンクさせてしまうでしょう。

変動するウィンドウへの依存性があります。考えてみてください。これは、時間的なウィンドウ、つまり過去10年間の中に、証拠がゆっくりと進化するのに十分な幅のウィンドウが存在する場合にのみ機能します。しかし、米国FRBの政策において、過去10年間には起こらなかったような出来事が起きたとしたらどうでしょう。確率における単一のピークに過ぎないような出来事です。誰も予想していなかった何かが起こったとします。それが何なのかは分かりません。ただ何かクレイジーな出来事だとしましょう。

統計的な予測に解釈して統合するための、過去からの時間的な証拠も、時間的な知識も、時間的な連続性も何もありません。自己進化のループ全体が完全に無用になってしまいます。したがって、これはすべてが整っていて、環境も政策も財政もすべてが安定し、予測可能で、きれいな層流のようになっている場合にのみ機能します。過去10年間で対処されていない、予測不可能な乱れや障害、突発的な出来事が何一つないという前提です。

そして私が本当に心苦しく思うのは、だからこそ私がこの論文を3つの中から最初に紹介することに選んだのですが、この論文がまさにその問題を提示してくれているからです。LLM自体、つまりコアとなる人工知能の内部的な学習は一切ありません。学習は何も起きていないのです。GPT-5.4は凍結されています。何も学びません。

完全に外部のテキストハーネスに依存しています。LLM内の確率分布を実際に変更することはありません。背後にあるニューラルネットワークは何も学習していないのです。もしハーネスが削除され、リンクが壊れ、その瞬間ハーネスが利用できず、テキスト文書が存在しない場合、AIシステムは未来の特定の統計的予測において、絶対的に無能なベースレベルに戻ってしまいます。それに関するデータを持たないからです。絶対に魅力的ですね。

したがって、ハーネスとは何でしょうか。予測を行う方法、FRBが金利を引き上げるかどうかを解釈する方法のすべてのレシピが書かれた本だと考えてください。過去10年間の公式なFRB機関のメンバーによる議論はどのようなものだったか。彼らはどのように議論したか。意思決定においてどのような要素を考慮に入れたか。それをただ本に書き留めるだけです。

これがどういうことか分かりますか。私たちは今、本を書くAIを手に入れたわけですが、その本の内容や知識をニューラルネットワークの構造やテンソルの重みに統合することは許可されていないのです。LLMの外部にある単なる本です。これは本当にクレイジーなことです。もしエラーが発生したらどうなるでしょう。AIを扱っていれば、エラーは常に日常的に発生します。

ハーネスエディターが、たとえばデータの誤った教訓や誤った解釈をエンコードしてしまうかもしれません。事実データが非常に複雑で、3層、4層、5層の相互依存関係があったとします。そして私たちの小さなAIシステムであるハーネスエディターが、4層や5層ではなく2層しか見えていなかったとしたらどうでしょう。その結果、システムの論理の最初の最初、たとえば最初の水曜日に、誤った教訓として解釈をエンコードしてしまいます。

どうなると思いますか。これはシステムにほぼ永遠に留まり、システムロジックの最初の方で発生した場合、その後の論理全体を毒することになります。3ヶ月経って、解決後の振り返りチェックを行う時になって初めて、ああ、見てみろ、3日目にシステムにエラーがあったから、すべてが無駄だったんだと気づくことになります。

決定論的スキルファイルに確率論的状態を組み込む

しかし、もう一つあります。これで論文の解説は終わりですが、素晴らしい動画の締めくくりです。私はこの論文についていくつかの追加の疑問を持ちました。MilkyWayは巨大な認知アーキテクチャにおける真のマスタークラスを示しています。これはAIを、3ヶ月後にFRBで何が起こるかという最終的な答えを出力する神託として扱うのをやめるべきだと教えてくれています。

それはAIにできることではありません。これをAIの出力として期待するのは絶対にナンセンスです。しかし、時間とともに進化し続ける調査システムとしてのAIであればどうでしょうか。毎日、おそらくあなたと一緒に学習します。政治情勢が少し変わった、金融の緊張が高まった、新しい政治的な流れが出てきた、金が違う動きをしている、だから未来の予測が少し変わった、といった具合です。

時間が経過するにつれて、AIを継続的な調査システムとして機能させなければなりません。時間的発展を統合しなければならないのです。そうしなければ、単に失敗するだけです。そしてもう一つの部分ですが、私たちは決定論的なスキルマークダウンファイルについて話していたのを覚えているでしょう。現在私たちが持っているのは決定論的なスキルマークダウンファイルだけです。なぜなら、エージェントのコアがLLMだからです。

LLMは決定論的ではなく確率論的です。システムを信頼できるものにするために、私たちは確率論的なコアの周りに、AIハーネスと呼ぶフェンスを構築し、完全なAIシステムを通した後に決定論的で解釈可能な結果を得る必要があります。しかし今、私たちは確率論的なスキルMDファイルを必要としているのかもしれません。これは可能でしょうか。どう思いますか。

これはつまり、LLMの境界で見られるすべてのスキルMDファイルが、AIハーネスに組み込まれる際に、決定論的システムから確率論的システムへとステータスを変更したらどうなるかということです。システム全体のダイナミクスに何が起こるか考えてみてください。彼らは、手続的な更新をステージディレクトリに書き込むためにハーネスエディターを実装したと述べています。それが何だと思いますか、アクティブなエージェントのルートに昇格させる前のスキルMDファイルなのです。

素晴らしいですね。では、確率論的なスキルMDファイルを持つハーネスを構築することはできるのでしょうか。私のアプローチでは、そして聞いてください、私は間違っているかもしれませんので、もっと良いアイデアがあればぜひコメントしてください。それは、確率論的な推論状態を強制する決定論的なファイルです。

私は次世代のAIモデルにおいて、スキルMDファイルを構築する相乗効果を見つけようとしています。もちろんそれは明確な指示を持つ決定論的なファイルですが、ワークフローの中で確率論的な状態を強制するのです。説明させてください。研究者たち自身が、不確実性の処理は、要求される確率論的な出力スキーマを通じてではなく、証拠の管理、競合する解釈、そして時期尚早な崩壊の抑制を通じて、手続き的に実現されると述べています。

したがって、これは弱いアプローチだと主張することもできますが、スキルMDファイル自体には決定論的なテキスト、言ってみればヒューリスティクスが含まれており、内部の不確実性をどのように管理するか、未来に何が起こるかに関する知識の欠如をどのように管理するかをエージェントに指示しているのだと私は考えています。なぜなら、未来は誰にも分からず、AIがそれを知る術はないからです。

AIは確率を計算することはできます。素晴らしいですね。つまり、決定論的なテキストがあり、それをシステムに内在する完全な不確実性をどうにかして管理し、確率論的なLLMがそれに対処できるようにしなければならないのです。それはどのようなものになるでしょうか。この不確実性を処理するルールはどのように見えるでしょうか。そこで彼らはそれが何であったかを尋ねています。

疑念の定式化とAIの未来

私がいくつかのシナリオを試した後のGeminiシステムの反応がこれでした。連邦準備制度理事会の公式ドットプロットがまだ発表されていない場合、AIの予測を単一の二項対立の結果に崩壊させてはならない。小さなAIよ、スクラッチパッド内で2つの並行する仮説を同時にインスタンス化しなければならないというものです。

したがって、AIは仮説A(利下げがある)と仮説B(利下げがない)の2つの仮説を保持しなければなりません。AIは両方の可能性を視野に入れ続け、連邦準備制度理事会(FederalReserve.gov)のような一次ソースが決定に関する決定的な証拠を提供するまで、結果は未解決であり、より公式なデータを待っていると人間のユーザーである私に明示的に出力しなければなりません。

何が起きているかお分かりでしょうか。システムはテーゼとアンチテーゼを絡み合った状態(エンタングルメント状態)に保たなければならないのです。まさにここで私たちは再び確率論的な干渉の世界に入っています。私はこれが大好きです。お分かりのように、これは次のスキルMDファイルにおける明確な決定論的指示です。

しかし、それに従うことで、少し量子もつれについて考えてみてください。もしこの場の量子論的な側面が好きならですが、LLMは私のテキストによって確率論的な内部状態を維持するように人工的に強制されます。なぜなら、先ほど言ったように、仮説Aと仮説Bを同時に保持しなければならないからです。これはAIシステムが計算しなければならない複数の可能性の重ね合わせであり、現在のLLMで起きているような、自己回帰的な傾向による時期尚早で自信に満ちた単一の回答の幻覚の犠牲になることを防ぎます。

私たちが幻覚に遭遇するときはいつでも、それはAIが確率論的な解釈のための十分な有意なデータを持っていないためであると考えると、これは本当に魅力的なことだと思います。しかし、私たちが通常のLLM、つまり量子LLMではなく、古典的なLLM、TransformerレイヤーのLLMに対して、統計的マニホールド上での複数の可能性の重ね合わせを心に留めるように強制した瞬間、つまり推論におけるすべての重ね合わせを時間軸上で前進させ、3ヶ月後に何が起こるかについての解釈を導き出すようにした瞬間、AIは本当に興味深いものになります。

なぜなら、私たちには統計的な公式があり、量子もつれから何が起こるかのアイデアがあるからです。通常のコンピューターから量子コンピューターへの移行について本当に考えれば、その美しさがすぐに分かるでしょう。複数の可能性の重ね合わせは全く問題ないと言えるようになります。それが量子コンピューターの働き方なのです。

AIの未来は本当に素晴らしいですね。決定論的なスキルファイルが正しい道なのか、確率論的なスキルMDファイルなのか、皆さんはどちらを試してみたいですか。私はこれから、理論物理学や数学のユースケースで、確率論的なワークフロースキルをもう少し試してみようと思います。もちろん、それはAIが活動する環境のトポロジー、つまりあなたのドメインにも依存します。科学の分野では、料理の新しいレシピを考える場合とは異なるかもしれません。

いずれにせよ、たとえばハイブリッドアプローチを選択することができると思います。決定論的な実行を行いつつ、確率論的な論理を用いるのです。あるいは別の一言で言えば、スキルMDファイルまたは一般的なワークフローが確率論的戦略を指示し、ツールが決定論的な検証を実行するということです。

驚くべき事実として、疑念をスキルMDファイルに定式化し、この疑念をスキルMDファイルに挿入することで、絶対的な証拠や予測に必要な統計データがない場合でも、LLMが自信を持って幻覚を作り出すのを防ぐことができるのです。データがない場合、LLMは自信満々に幻覚を見ます。私はこの表現が大好きです。しかし、スキルMDファイルに疑念を組み込めば、今度は別の行動が浮かび上がってきます。これについては、今後の動画で詳しく説明します。

はい、先ほどお見せしたように、他の2つの論文も見ていかなければなりません。明日までに何も起こらなければ、ブラック・スワンのような突発的な出来事が起きなければ、明日の動画で他の2つの論文について紹介します。そこでは、LLMの外部にあるAIハーネスに知識を置くのではなく、LLM自体がワークフロー管理のやり方を最終的に学習できるようにします。私たちはこれを防ぐのではなく、新たな学習能力をLLMに付与するのです。

今後たくさんの新しい動画を予定しています。先ほども言ったように、AIは本当に素晴らしいものです。皆さんに少しでも楽しんでいただき、新しい洞察や読むべき新しい論文が見つかったなら幸いです。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました