プリンストン大学が発表した革新的なAI研究について解説する動画である。従来の大規模汎用モデルとは異なり、医学などの特定領域に特化したAIシステムを構築する新しいアプローチを紹介している。知識グラフを基盤とした論理的な推論能力を持つ専門AIが、OpenAIのo3やGoogleのGemini 2.5 Proといった大規模モデルを上回る性能を示した画期的な研究成果を詳しく分析している。

AI超知能への新たなアプローチ
やあコミュニティのみんな!会えて嬉しいわ。今日はAIと超知能について話すで。そうや、プリンストン大学から今日発表されたんや。ほんま、すまんな。
さあ見てみよか。今はDeepSeekモデルが6710億個の学習可能パラメータを持ってて、K2が1兆個の学習可能パラメータを持つ専門家の混合モデルで32個がアクティブやってのが古典的やな。
でもな、もう一方はどうや?もし1万個のGPUを持ってへんかったらどうする?単独の人間やと想像してみ。何を使う?LM studioを使うやろ、ローカル要素があって、ここにはOlamaもあるし、C++実装もある。そしてハードウェアのサイズが重要やねん。運が良ければ、GPUに16GBのVRAMがあるくらいや。ほら、これが極端に広がってるのが分かるやろ。
そして今、プリンストン大学から超知能AIに関する美しくて賢いアイデアが出てきたんや。これを調べてみよか。
ほら、とてもシンプルなLM Studioコミュニティやな。小さなモデルMistra 3.224Bを取ってみよか。Macを持ってるならちょっとマシやけどな。選択肢としては、約1万ユーロ払って96GBのワークステーション、Pro 6000を買うか、Appleが好きならApple M3 Ultraで96GB、ヨーロッパでは約6900ユーロで安いけど、実際はそんなに素晴らしくない。
スケーリング仮説の限界
今あるのは支配的なパラダイムや。AI業界はここでスケーリング仮説によって定義されてる。より大きく、より大きく、GPT-4やGeminiみたいなさらに大きなモデルがここで大量のテキストコーパスでトップダウンで訓練されてる。いつも言うてるけど、インターネットをコピーしてるんや。
でも知ってるか?これは博学なモデルを作って、ほぼどんなトピックについても会話できる驚異的な知識の幅を持ってるんや。でも現れるべき知能は、スケールの、そしてスケールだけの創発的特性なんや。これは疑問やない。
汎化では正しいけど、この博学者の決定的な弱点でもあるんや。知識は広いけど非常に浅いからな。検証可能な根拠が欠けてる。だから医学、工学、科学みたいな領域で作業してる時は、現在のAIシステムの信頼性に問題があるんや。
今、もし望むなら選択に直面できる。この地球上のすべての人々のために汎用主義者モデル、絶対的汎用主義者、絶対的に巨大なGPT-5に向かってスケールするんか?それとも「これは馬鹿げてる、やめよう」って言うんか?特化したAI、もっと小さな特化したAIを構築して、でももっと知能的にするってのはどうや?
だから、どうやってここで教えることができるんや?そしてここで、ドメインの論理的構成論理を、完全なインターネットをただ投入するんやなくて、これらのモデルを構築する時により知能的になることができるんや?
プリンストン大学の革新的研究
そしてここで、プリンストン大学電気・コンピュータ工学部から美しい新しい研究がある。2025年7月18日、プリンストンによるボトムアップドメイン特化超知能や。
信頼できる知識グラフが必要なんや。どうやってこれが可能なんかって?非常に興味深い論文やで。彼らは特定の知識グラフ上の構造化されたパスを横断して推論タスクを生成するnullタスク合成フレームワークを導入したんや。でも普通の方法やない。
推論タスクは直接、訓練のためのいくつかの抽象的なドメイン特化プリミティブを生成するんや。そして彼らは今、新しい基本的な主張を持ってる。ドメイン特化超知能って言うてるんや。
だから全員のためのすべてやなくて、本当に医学のため、物理学のため、材料科学のためのドメイン特化超知能は、モデルのスケールの創発的特性やなくて、ドメインの公理的プリミティブから得られた数学的証明のカリキュラムでLLMを明示的に訓練することから派生する誘導可能な特性なんや。
誰かが「そうや、もちろんこれは意味がある」って言うかもしれんけど、あんたは迷子やで。最後の2つのビデオはまさにDSPPLについてか、leanについて話したか、DSP3について話したんや。でも今、これらのドメイン特化公理的プリミティブは信頼できる知識グラフに符号化されてる、あるいはそこから来てるんや。
だから「簡単にしよう、シンプルにしよう、知識グラフで行こう」って言うてるんや。彼らは今「知識はインターネットをコピーしたテラバイトのデータの中には見つからない。知識は今、ドメイン特化で、さらにはタスク特化の使用例のために構築されるんや」って言うてる。だから構築しよう。
新旧のアプローチの違い
古い方法は、トップダウンの知能やな。ここでモデルに人間の知識の全図書館を見せて、統計的パターンを学習させる。そしてモデルが何を学習してるかは全く分からん。
新しい方法は今、「知能を構築して、実際に知能を設計しよう。LLMに基本的な公理、言うならアルファベットと構成のルールを教えて、それから自分自身の段落を書くように訓練する」ってことや。見てみ、これは完全にひっくり返ってるで。次世代のLLMをどう訓練すべきかを今言うてるんや。
「知識グラフがある、何が特別なんや?」って言うかもしれんな。まあ、知ってるかもしれん古い知識グラフやないからや。この新しい論文の核心的抽象化では、知識グラフは今、数学の形式システムなんやって言えるんや。
知識グラフはもはやファクトのデータベースやベクトル表現やベクトル空間やテンソル構造だけやない。今は学習の形式システムになってるんや。
知ってるトリプル、頭部関係と尾部は今、公理なんや。基本的な証明不可能な真実や。そして知識グラフ上のパスは今、証明を持つ定理なんや。パスは公理を一緒に連鎖させることによって高次関係を証明するんや。
だから例えばこの特定のパスはAからZへの定理の証明やないんや。何をしてるか分かるやろ。
通常のグラフラックシステムには行かん。MITから見せた知識グラフをLLMが操作して横断するっていう「はいそうや」にも行かん。今は全く新しいアイデアがあるんや。論理を基礎から構築するんや。
医学知識グラフの具体例
ここで彼らは例を出して、「オーケー、ここに医学データベースの上位200ノードがある」って言うてる。そして「素晴らしいけど、興味があるのはもちろん知識グラフのエッジタイプの分布や」って言うてる。そしてここに上位200のがあるんや。
ここで医学データベースで見つける最も顕著なエッジタイプは、多分何かを引き起こすとか、何かを治療するかもしれんの分類に属するとか、何かの薬物ファミリーに属するとか、何かの危険因子やとか、何かのサブタイプやとか、何かと相互作用するとか、何かを禁忌にするかもしれんとかやな。
だからこれがエッジタイプで、今はただ論理を新しいAIシステムのための学習可能なレッスンに翻訳するだけや。簡単やって言うやろ。
カリキュラム・ファウンドリーの仕組み
どうやって多かれ少なかれ裸のニューラルネットワークを教えるんや?どうやって形式論理システムを今マスターするこの特定の種類の例から学習できるんや?
著者は「カリキュラム・ファウンドリーのアイデアがある」って言うた。ファウンドリーのタスクは、いくつかの抽象的な知識グラフ証明を豊富で検証可能な訓練データセットに正確に翻訳することや。
訓練データセットで「検証可能」という言葉を見てみ。だから今これは興味深くなってきた。
このカリキュラム・ファウンドリーをもっと詳しく見てみよか。これがプリンストン大学によってここで指名された新しい超知能専門家モデルの創造を駆動するエンジンや。
ファウンドリーは多かれ少なかれ4段階のプロセスや。このパス横断、質問と回答生成を見てみよか。まだトレース生成で行って、それからただフィルタリングするだけや。
「これは簡単や、これは全部知られてるプロセスや、特別なことは何もない」って思うやろ。まあ、もっと詳しく見てみよか。
ここでプリンストンの公式出版物から完全な視点を見てもらえるで。データがあって、ここで多様性サンプリング、複雑性サンプリングを行う。すぐに説明するわ。それからQ&A生成がある。品質フィルタリングがある。ここでLLMがトレース、同期トレース生成を生成する。
さらに、ここで証明リーダーになる2つの追加のLLMがあって、「2つのLLMが同時に同意した場合のみ、これがここでフィルタリングプロセスを通過することを確実にする」って言うんや。そして訓練データがあって、次世代のAIを訓練できる。簡単やろ?いや、そんなに簡単やない。
4段階のプロセス詳細
ステージ1:普遍医学知識グラフからの証明の調達。専門家によってキュレーションされた統一医学言語システムから論理チェーンを体系的にサンプリングするんや。
素晴らしい。強力な長さnがある。これをここで、n個の接続された公理のシーケンスとして定義できる。素晴らしい。これで今、カリキュラムのための生の記号的材料が得られるんや。
定理のセットと開始できる明示的な証明や。ここで初期ノート選択とパス反転で見てもらえるで。素晴らしい。サンプルパスは今マップされてる。次のステップは、それを推測で促すことによって自然言語Q&Aタスクに。別の非常に知能的なLLMが必要なんや。
だから最もシンプルなケースの抽象的パス、ただABCを取るだけでは有用な訓練例やない。大規模言語モデルを使うから、大規模論理モデルやなくて、自然言語で根拠づけられなければならん。だからまだ言語を使うなら、ちょっと円を描いて行かなあかん。
今、強力なLLMが必要や。そしてこれが問題設定者や。プロンプトは「パスを教えて。臨床症例と、H0とHNの関係をテストする多肢選択問題を作成して」や。
だからこの質問を解くのに必要な推論は、提供されたパスの論理を正確に反映しなければならん。ここに証明の例があるで。
今、ここで医学試験問題を作成してる。そしてこれが情報で、ここに質問とオプションがあって、これが今、生成されたQ&Aペアの生成例や。緑でハイライトされたテキストは質問で明らかにされたエンティティで、青いハイライトは潜在エンティティを示してる。
ああ、もちろんや。ここで巨大なLLM、例えばGeminiのパラメトリック知識を使うからな。だからこれについて多くのコンテキストを知ってる。そして今、LLMを使ってここでこの言語シーケンスを構築し、金開始思考トレースを生成するから、すべてを統合するんや。
推論トレースの生成
今、モデルは完璧な推論がどんなものか見る必要がある。各質問回答出現に対して最先端の推理Gemini 2.5 Proを使った。彼らはここで最新のを使って、段階的同期トレースを生成するように今促されてる。
ここで自然言語での論理同期が必要なんや。だからプロンプトは今、検証可能な事実でそれによって推論を固定するコンテキストとして基本的真実知識グラフパスを含んでる。事実、すべては知識グラフに関連してる。
そして結果は、教師あり微調整のターゲットにならない原始的で人間が読める証明や。だからここで、この構造化された合理的推論がどんなものか感覚を掴んでもらうために、作成された訓練カリキュラムの同期トレースの具体例を見せるで。
だからこの特定の知識パスに対して、生成された質問とオプションがあって、今ここでGemini 2.5 proの同期トレースがあるんや。これを見てみ、これは今、大規模言語モデルの訓練を開始できる本当に極端に詳細な訓練データなんや。
でもこの全ての背後にある論理は、トレースやなくて、知識グラフ上の横断されたパスで、それが後でLLMによって人間言語の推論トレースに翻訳されただけなんや。そして今これが次の言語モデルの微調整のための訓練データセットなんや。
そして彼らは「検証が必要や、最後に。ただ出てきたものを受け入れることはできない」って言うてる。だから二重キー検証器を持ってるんや。
品質管理メカニズム
これが最も重要な品質管理メカニズムや。完全なデータセットトリプレット、質問からトレースと答えまでが今、2つの独立したLLMに提示されるんや。
そして今、Gemini 2.5 Proで行った後、今度はGemini flashとQNシステムで行くか、多分オープンソースシステム、DeepSeekやGPT-5で行く。このビデオを見てる時にもうそれを持ってるなら、アイデアは分かるやろ。
だから今見せたこのトレースのすべての主張が論理的かつ事実的にソース知識グラフパスによってサポートされてるかどうか、答えが与えられてるかを判断するんや。これらのトレースの生成中にハルシネーションが起こったなら、この2つの追加LLMの一つによって検出されることを願うで。
だから今3つのLLMが協調して働いてるのが分かるやろ。そしてここでのデータポイント、このトリプレットは、両方の採点者、両方のLLMがその正確性に100%同意した場合のみ、事前訓練のための最終カリキュラムに受け入れられるんや。
そうやなければ、フィードバックループがある。アイデアは分かるやろ。だからハルシネーションがないことを確実にしたい。いや、剣の連鎖が不完全やった何かの残り物やない。いや、両方のシステムが同意した場合のみや。素晴らしいアイデアやな。
だからこれがまさにここでフローチャートの今いる場所や。フローチャートの始めでの多様性と複雑性サンプリングは簡単や。公式はたくさんあるけど、ただ1、2文を教えるで。
ここで特定のノードiをサンプリングする確率は、その選択頻度に反比例するんや。だから欲しいのは、知識グラフ全体の幅が今サンプリングされることや。
だから知識グラフをベクトル空間に転送する場合、この空間の小さな角っこで操作するだけやなくて、全体の空間が完全に今取られて調査されて検査されることを望むんや。
だからここで一般的な医学的状態だけに過度に焦点を当てることを望まん。データのすべてがここでサンプリングされることを望む。何も取り残されん。
さらに複雑性サンプリングも望む。だからこれは簡単に始めるという意味や。1ホップ、2ホップ、3ホップやな。今、ちょっと複雑になってきた。5ホップ、7ホップ。人間の学習を反映したいんや。簡単に始める。
最も複雑な関係から始めるんやない。シンプルに始める。そしてここで複雑性1、2、3、4、5、6、7ハブがそれぞれ表現されることを望む。
ここでカリキュラムエンティティ分布を見てもらえるで。ここですべての医学専門分野があって、これを見てみ。多かれ少なかれ、すべてが本当に均等に分布してるわけやないけど、でもオーケー、それは良く見えるな。
少なくともこの医学サブシステムの各要素に対して何千、何千、何千ものサンプルがここにあるんや。そして下の3つを見てみ。
ここでホップ1同期トレーストークン分布がある。美しい。ホップ2、ホップ3。素晴らしい、完璧に見える。だから設定したことを達成したんや。カリキュラム構造は各医学サブ要素、あるいは欲しいならサブ知識に対して本当に代表的で、1ホップ、2ホップ、3ホップなどの美しい分布があるんや。
実装と評価
そして今、準備ができたってプリンストン大学が言うてて、今できるんや。今ここで任意のモデルを取って、オープンソースのQWQで行こう。プリンストンがオープンソースモデルに依存してるのが分かるやろ。そして今、訓練データセットがあって、教師あり微調整をしよう。
だから今、MAT3 LLMがあるんや。美しい微調整が起こった。微調整プロセスのすべてのパラメータが見えるで。素晴らしい。そして今それがある。
そして彼らは3つのモデルで行くことにした。Matt 1、Matt 2、Matt 3や。1ハブ公理。だからとても近いんや。これがM1や。2ホップ証明が統合されてるなら、Matt 2。
そして3ホップまでの完全な深いカリキュラムに行くなら、Matt 3、4、5、6、知ってるやろ、でももっとコストがかかる。そして彼らは「オーケー、これは素晴らしいけど、新しいベンチマークが必要や。新しい未見Q&Aタスクの評価スイートが必要や。すべてはインターネットで知られてる。いや、これが本当に未見評価であることを確実にしたい。これは新しい独立した評価や」って決めた。
15の異なる医学専門分野から、2〜5ホップの長い複雑なパスを今抽出して、これを特に評価のために取っておいたんや。だから訓練データで利用できない、汚染されてない本当のテストデータセットがあるんや。素晴らしい。
ICDベンチを見たいなら、これがここでのトップカテゴリで、それからここでサンプルQ&Aアイテムが見えるで。神経系の疾患や目の疾患、精神行動および神経発達障害に興味があるなら、この文献を楽しむやろう。でもAIトピックに戻ろう。超知能に戻ろう。
なぜ超知能なのか
なぜプリンストンが超知能について話してるんや?まあ、ここで注意を引くためにちょっとあるんやな。でも彼らが本当に強調したいのは、ドメイン特化の高知能AIシステムの出現や。
そして彼らは、彼らが訓練したこの新しいLLMは、Geminiの他のすべてのベースライン、他のすべてのモデルに対して重要な性能優位性を持ってるって言うてる。そしてこの訓練はここで深いドメイン専門知識を作成するのに優れてるんや。
だから完全なインターネットをコピーして1兆個の学習可能パラメータを持つモデルを構築するだけやなかったんや。シンプルなQWQモデルで行ったんや。
素晴らしい。ドメイン知識で小さなオープンソースモデルを訓練する新しいアイデアを見つけたんや。彼らはここで医学知識グラフをやって、多様な医学プリミティブを抽象化するために24,000のタスクを生成したんや。そして結果は何や?性能データは何やって、ここで矢印で示されてるのが見えるで。
性能比較結果
だから異なる医学サブセクターすべてに対して何があるか、ああ、全体的に欲しいなら。だから4つのLLMがある。緑の最初のはOpenAIのo3や。それからGoogleのGemini 2.5 Proがここにある。それからQWQ、ベースモデル、32Bベースモデルがここにある。
32Bをo3と比較するなんて想像してみ。o3のモデルサイズは知らんけど、32は本当に小さいと推測するで。そしてプリンストンがここで作成したこの新しいモデル、MAT3は全体的な性能で16%近く向上してる。
これは今日にしては多いで。ドメイン特化タスクでの16%改善は素晴らしい。32ベースモデルをただ微調整しただけでo3を上回るって考えてみ。
悪くない。o3はインターネットで無料で利用できる完全な医学図書館で訓練されたと推測するで。もちろん、すべての知的財産権などを尊重してやけど、論理プリミティブ、未見訓練からの本当に素晴らしい性能や。
プレッシャー下でどれくらい堅牢なんや?そして彼らは「タスクの複雑性が増加するにつれて、より多くの推論ステップで、より複雑になると、汎用主義者モデルは崩壊する」って言うた。
私のチャンネルで独立したテストをいくつかしてるから言えるけど、そうや、特定の複雑性まではそこで正確に見えるけど、その後は崖があって、この後は何も残らんのや。
そして彼らは「この新しいmattの性能劣化ははるかに軽微や。最も困難な問題でベースラインに対する優位性が広がる」って言うてる。
そして彼らは、このモデルが知識グラフ、このドメインをコントロールする論理プリミティブ、このドメインを設計する、このドメイン知識を構築する論理プリミティブの理解を内在化したからやって論じてる。だから構造的論理基盤があって、それから複雑な未見論理チェーンをここで付加したり対処したりするのに問題がない。基盤があるからや。素晴らしいアイデアやな。
そしてもちろん、これを見なあかん。だから左側を見てみ、y軸に精度があって、x軸に難易度がある。ああ、そうや。だから非常に簡単なタスクから始めて、みんな。すべてのLLMが100%や。
でもそれから難しくなるにつれて、ああ、性能精度は0%まで下がる。ここで見える3つの非常にカラフルなLLMだけが他のみんなより上に留まってる。彼らがここで最高や。そしてそれらの実行者が新しいMatt 1、Matt 2、Matt 3や。そして正確に、Matt 3が最高や。絶対に魅力的や。
これがOpenAIのo3とGoogleの実際のGemini 2.5 proに対してベンチマークされてるって考えてみ。そしてDeepSeek R1の蒸留Q132Bもあるんや。だからこれがここで蒸留されたQ132Bやとしたら、これはかなりの性能ジャンプや。
もちろん、マルチステップ推論がより困難になるほど、性能は下がるけど、他のモデルと比較して何でもない。今、医学でo3を上回ってる。だから美しい。
推論能力の可視化
オーケー。そうや、彼らは推論ギャップを可視化する別のアイデアを持ってる。事実を思い出す能力と事実での推論を分離する強力な診断があるって言うてるんや。
そして、詳細に見たいなら、ここで論文で見せてくれるで。最初のはQW32ベースモデルや。それからQWQ MET 1、MED 2、MD 3がある。そしてホップ2、ホップ3、ホップ4、ホップ5の質問に対してこれがあるんや。
重要なのは色や。ここを見てみ、タスク推論精度60%が青で、100%赤熱が赤や。今、青、濃いオレンジが見えて、ホップが多いほど推論チェーンで困難になるほど、性能が良くなるんや。
だからこれを比較すると本当に素晴らしいで。今、ドットのサイズがリコールで、色の彩度が推論精度や。2つの概念を視覚的に分離して、ベースモデルが大きな薄いドットを持ってることを示してる。だからリコールはあるけど推論なし。一方、MT3は推論高精度で大きな飽和したドットを持ってるんや。本当に興味深い。
そして彼らは「でも見つけたことに注意せよ」って言うて、データを見せてくれる。M3が最高や。だから最高の訓練データセットを持つ最も複雑なものが最高の性能を持ってるんや。
だからこれは、学習データでのマルチホップを持つ深いカリキュラムが推論能力で最高の解決策を持ってるってことを意味するんや。もちろん、これはまさに予想してたことで、彼らが教えてくれてる。
だから医学の理論的公理をここで学習するだけでは不十分なんや。テストでは習得しなければならない実際のマルチステップ推論タスクがあるから、段階的により深くより複雑な証明での明示的な訓練データが必要なんや。
だからカリキュラムの深い構造が重要なんや。ここでMatt 1は8,000タスクのシングルホップ、M2は16,000タスクの2ホップパス、そしてM3はここで3ホップパスを含む24,000タスクすべてがある。これが違いや。
ここで推論時間スケーリングを持つことができるけど、最後の2つ、下部のモデル間での並列スケーリング、モデル間での改良を見てみよう。結果だけ教えるわ。
より深いカリキュラムモデル、より構造化されより多様な知識グラフプリミティブを獲得したものは、並列で複数の推論パスを探索することからより多くの利益を得ることが判明したんや。ここで並列でコンピュータ最適化をすると、完全な24,000訓練データと3ホップを持つ完全なモデルがある方が良いんや。
彼らは複数推論パス実現のためのより良い並列化を持ってる。予想通りやった。
だから見ることができる非常にシンプルな例や。これがパスや。これが質問や。そして今、回答は単純にこれや。だから魔法的なことは何もない。システムがここで基本的論理構造を学習しただけや。
今、これをここで実際の例でやると、今見せた単純化されたものやなくて。ここは研究からのスクリーンショットで、ここで呼吸器系疾患から知識パスがあって、質問、オプション、そしてここでmats 3の回答があるんや。
シンプルなパスからここで実際の例での正しい答えを正確にどう生成できるかが見えるで。
科学への意味
これは科学にとって何を意味するんや?ゲノミクスや法律や材料科学、科学がついてる何でも、金融、数学のような固有の論理を持つ構造化知識グラフを持つ任意のドメインが、プリンストン大学からのこの特定のパイプラインを採用して本当に専門AIモデルを構築できるってことを意味するんや。
そしてOpenAIやMicrosoftや何でもみたいなグローバル企業に巨大な汎用主義者モデルのためにここで支払う必要がないんや。非常に狭いドメインに対しては、専門家が汎用主義者モデルよりもずっと良い性能と推論性能を持ってることが判明したからや。汎用主義者モデルはこの惑星にあるすべてを学習しただけやからな。
だからここで専門AIの創造を、スケールに依存するアートから、論理原理から始まるより決定論的な工学分野に移すんや。これは論理システムの論理的厳密さとニューラルネットワークの力を融合することによって成功するニューロシンボリックAIの長年の目標のようなもんや。
そしてプリンストンのこの出版物は、これの美しい例やと思うで。でも注意深く、制限があるんや。制限について話そう。
制限事項
ソース、知識グラフが支配的要因や。知識グラフが間違ってるか、トレースが欠けてるか、複雑性が欠けてるか、グラフ上のオブジェクト間の関係が欠けてるなら、結果として得られるLLMはこの公理的基盤を超えて推論できないんや。
だから少なくとも最もシンプルな論理基盤のために、知識グラフは完全でなければならん。そして美しい例があって、もう見せたで。パス長や。
今、1万を取って、プリンストンが見たこの特定の医学知識グラフでの最短パス長の分布を見ると、パス長が見えるで。だからエッジの数、4ホップ論理チェーンのマルチホップは、欲しいなら支配的なものやった。そして7ホップではたった31しかなかった。
だからこれが訓練データセットや。これが学習の本質や。だから今、例えば8の複雑性があるとしよう。AIがどうやってそれについて知るべきなんや?訓練は7で止まったんやで。
突然バックグラウンドから何かの知能が現れる奇跡はないんや。これは存在せん。だからここを見ると、これは美しい例や。知識グラフの構造が、新しいAIモデルが訓練できる推論の最大複雑性を決定するんや。
パイプラインが知識グラフ上のそれらのpを横断することによってここで訓練例を生成するからや。そして知識グラフで利用可能な最も長い最も複雑な証明がここでたった31の7ステップなら、AIが10ステップ論理推論のための訓練例、ここで10ステップを含む推論パスを作成することは不可能なんや。
そして背景でここから空から降りてきて、今アイが10ステップ論理推論を行う能力を持つ創発の何かは何もない。これは起こらん。これはそのAIが扱える複雑性のハードカットオフなんや。
積極的な部分は、グラフ分析で非常に簡単に見ることができることや。知識グラフを見ると、知識グラフがどれだけ複雑な複雑性を含んでるかが分かって、これがあなたのタスク、あなたのドメイン、このシステムで達成したいことに十分かどうかが分かるんや。
次のステップ
次のステップは何や?これをより生成的なタスクに拡張することについてはどうや?プリンストンは「そうや、考えてる」って言うてる。
次の質問やからな。そして私の次のビデオでこれを見るで。今、論理上に構築された完璧な推論である専門AIシステムを構築したんや。自己回帰的次トークン予想やなくて。どうやってこれを、知ってるグラフラックのような事実検証と組み合わせることができるんや?
内在化された論理を使って仮説を形成し、多分もっと頻繁に更新される外部知識グラフでリアルタイムでこれを検証する自己修正推論エージェントを今構築できるんや?これは興味深くなる。絶対に。
でもオーケー、これで終わりやと思う。要約しよう。
まとめ
何を達成したか?新しいクラスのAI、プリンストン大学によってここで発表されたドメイン特化超知能専門家を構築したんや。
だから完全なAIシステムの焦点を、「インターネットのコピーである訓練セットに基づいて次のトークンを予想したい」って言う統計的模倣から、構成論理の明示的構築に今シフトしてるんや。
そしてここでただより強力なだけでなく、より信頼でき、より監査可能で、最も重要な分野で今私たちの信頼に値するAIシステムへの道を提供してるんや。論理上に構築して、統計パターンだけに構築するんやないからな。
非常に良いアイデアや。もちろん、正しい訓練データセットを生成する間に複数のLLMがあって、何かが起こる可能性がある。いつものようにハルシネーションが起こる可能性がある。
でも基盤が正しければ、これはここで良い最初のステップや。ここですべてを持ちたいなら、ステップ1、ステップ2、ステップ3、ステップ4。すべてを通り抜けた。楽しんでもらえたと願うで。気に入ったら、購読して次回会おう。


コメント