AI科学研究、ついに実現?最新の洞察

AI研究
この記事は約13分で読めます。

この動画は、現在のAI技術、特に大規模言語モデル(LLM)の科学的帰納的推論能力に関する最新研究を批判的に検証している。AIが科学的発見を行えるという誇大宣伝に対し、実際の研究データを基に現実的な評価を提示し、現在のLLMが真の科学的推論よりも訓練データからの記憶に依存していることを明らかにする。合成データを用いた実験により、AIの真の推論能力と記憶による性能の違いを明確に示し、科学における人工知能の現在の限界と将来への課題を論じている。

AI 4 Science FINALLY?! Latest Insights
All rights w/ authors:"On LLM-Based Scientific Inductive Reasoning Beyond Equations"Brian S. Lin 1 Jiaxin Yuan 2 Zihan Z...

AI科学研究の現実:記憶と推論の狭間で

みなさん、コミュニティの皆さん、お帰りなさい。今日は科学をやりましょう、そして科学のためのAIをやりましょう。はい、その通りですな。

今日9月23日の最初の論文は、AIモデルが撤回された科学論文の資料を使用しているという話やで。私は「はい、そうですか」と言いました。そしてMITがこれをテストしたんや。

普段みんなが使ってるPerplexityとかも同じやで。撤回された科学論文の答えを使っててな、ユーザーに「おい、これらの論文は撤回されてるで」って教えてくれへんのや。もはや科学的知識の本体にないような科学情報を売りつけてるわけや。

でも、これを気にする人おるか?いや、AI科学やりましょう。これは表面的な問題に過ぎへんで。もっと深く行きたいんや。ここで人間の科学者のように考えるAIを本当に持ちたいんや。

われわれが夢見てるのは「あっ、ここに新しいパターンが見えるで」っちゅうことなんや。何千、何万もの研究データを見た後で「誰も今まで気づかへんかった新しい法則や。IDIシステムや。見えるで」と。これが全ての科学者の夢やで。実験データを提供するだけで、AIがこの思考をやってくれて「おい、このデータで見つけたパターン全部や」と見せてくれるんや。

特定の例から一般的な法則を推論するこの能力を帰納的推論と呼んでるんや。これが科学的手法の核心にあって、AIに科学でこれをやってもらいたいんや。データの背後にある法則を見つける。パターンを見つけるんや。

LLM推論の二つの陣営

LLM推論の陣営は今分かれてるんや。方程式探索者と呼ばれる人たちがおるで。これらの人々は、記号的数学方程式で記述できる物理法則を発見するLLMの能力をテストしてるんや。これは記号回帰の一形態やで。

でも抽象パズルの人たちもおる。合成パズルを使ってこの帰納をテストしてるんや。これは素晴らしい。でも知ってるか?その間に何かあるんや。

今日、全く新しい研究があって、著者たちは「これ以上のものがある」と言ってるんや。大きなデルタがあるって教えてくれてるで。大規模言語モデルが科学的帰納的推論を実行できるかっちゅう話や。ルールが数学的公式を必要とせず、大量のデータに隠れてる時にな。

「もちろんやろ」と言うかもしれへんな。私のチャンネルでも10日前にAI科学者についてのビデオがあったし、7ヶ月前にはGoogleとStanfordの共同科学者の話、2ヶ月前にはAIが科学を破るとかAIの真実とかあったで。

これはAIと科学のハイプトピックやから、この分野に現実的な見方が必要になってきてるんや。だから全く新しい研究を見せたいんや。

現実への修正:新しい研究の登場

この新しいアーカイブ論文は、LLMが自律的な科学的発見者になる寸前やという物語への修正やで。美しい人工超知能によるものや。すごく良さそうに聞こえるやろ?

でも現実は全く違うんや。Deep Scholarとかについてのビデオもあるけど、今日はDeep Scholarの知識じゃなくて、帰納的推論プロセスに行くんや。Reasoning Gymみたいなベンチマークもあるけど、これは本当に限定的やで。

9月22日、推論コアについての全く新しい研究がある。「記号推論のためのスケーラブル強化学習環境」やで。新しい論文で、実世界の問題に転用可能なコア認知能力を探索できるんや。制約ルールベースの賢さやな。

でも一歩進んでみよう。この推論コアは記号帰納的推論、ベイジアンネットワークによる因果推論、システム方程式解決に素晴らしいで。外部ソルバーがあれば全て素晴らしい。でも内部能力はどうや?美しい指標を与えてくれてるで。

オレンジでGPT-5、GPT-5 mini、GPT-5 nanoがあって、異なるタスクセットの0から100%の性能と比較してるんや。方程式システムを見てみよう。GPT-5 nanoで50%以下、GPT-5 miniで50%、完全なGPT-5で50%以上や。良さそうに聞こえるやろ?

でも推論を見てみい。nanoで25%以下、miniで50%以上、GPT-5で75%や。この広がりを見てみい。何が起こってるんや?本当にスケーリングだけなのか、それともスケーリングは間違った指標なのか?このデータの背後に何か他のものが隠れてるのか?

メイン研究:方程式を超えた科学的帰納推論

だから全く新しい研究や。これがビデオのメイン研究やで。これは2025年9月12日からのもので、今日発表されたんや。「方程式を超えたLLMベースの科学的帰納推論」やで。

シンプルな質問が美しく示されてる。文脈内学習の限定された例から基礎となるパターンを学習するLLMを可能にできるか?「はい、絶対に」と言うやろな。全く新しい環境で効果的に適用することができるか?

LLMやエージェントの記憶からは何もなし。本当に新しい環境で知識を押し込まれて、SNEI推論をしなければならない。他の環境から知ってるパターンに頼ることはできへん。

これで抽象推論は存在するんか?自分のコードについて考えてみい。何千何万もの他のコーダーによって以前書かれたコードを再表面化してるだけか、それとも何か新しいものがあるんか?AIコーディングLLMで使える新しい素晴らしいコードラインがあるんか?

実験設計と評価方法

今日の研究の著者たちは、科学的設定でLLMの帰納的推論能力を評価しようと言ったんや。数学方程式発見を超えて抽象推論に行こうやと。化学反応、分子構造について生物学と化学の7710のインスタンスのベンチマークを構築したんや。これらのテストを見せるで。

本当にシンプルなテストで、文脈内学習から非数学的ルールを推論することを含むタスクを求めてるんや。LLMのパラメトリック知識(固有の知識)と推論のための文脈内学習、どちらがより支配的なんか?帰納的推論でこれをやるんや。

美しい数字の7があるで。7つのタスクが2つの科学領域にわたって、シンプルな数学的公式では解けないように特別に設計されてるんや。推論しなあかん。

DNA翻訳、DNA表干渉、DNA変換、分子設計、分子キャプション、反応予測についての美しい例があるで。人間には非常にシンプルなタスクを解決するために、複雑な化学反応メカニズムの暗黙の理解が必要や。名前予測でさえ簡単やないで。

SMILES記法は見るやろ。生物学タスクと化学タスクがある。間違いなく科学タスクや。推論のためにLLMに文脈内例を提供するとどうなるか見てみよう。

4つのプロンプト戦略

美しい数字の4がもう一つある。4つの異なるプロンプト戦略があるからや。「このプロンプトはプロフェッショナルじゃない。GPT-5プロンプト最適化で行かなあかん」と言うかもしれへんな。

だから各モデルに4つの異なるプロンプト戦略を使って、LLM推論アルゴリズムを本当に理解しようと言ったんや。ReActのような最良のLLM推論実装は何か、どのメカニズムが帰納的科学推論に役立つかテストできるんや。

帰納推論の暗黙部分と帰納推論の明示部分があるで。暗黙は最もシンプルなものや。シンプルなアプローチで、プロンプトには文脈内例が少し含まれてる。3、4、5の例の後にテスト質問が続く。モデルがデータから新しいパターンを暗黙的に推論して、直接答えを提供することが期待されてるんや。

明示も非常にシンプルで、AIの仮説やAIがデータで発見したと思うルールを明示的に書き下すよう促される。ICLで与えられた例から推論したことを見るためや。そして、その仮説をテスト質問に適用するよう求められるんや。

複雑さを減らして、赤ちゃんでも簡単にするために分離したんや。推論プロセスの帰納ステップから演繹ステップを分離してるんや。

もちろん、もう少し高度な推論にも興味がある。自己一貫性や。これは頑健性を改善するで。同じモデルを複数回実行して、次トークン予測の確率で異なる明示的仮説をいくつか生成して、AI内で多数決投票で最良の答えを選ぶんや。

でも本当に興味深い部分は仮説洗練や。最も洗練された戦略で、反復的な科学進歩プロセスのために著者が教えてくれるもんや。最初に生成して、選択して、洗練して、繰り返すんや。

このシステムが見つけられる最良の洗練された仮説を求めてるんや。実行を重ねて、システムに沈下させて、システムに時間を与えるなら問題なしや。最良の仮説がアイシステムによって見つけられることを願ってるで。これが美しい数字の4やで。

実験結果:驚きの発見

この論文からの主要な発見は何や?何を検出したんや?また出てきたで。モデルがあるけど、最新のモデルじゃない。Claude 3.5があって、なんで最新モデルがないか知ってるか?

大学の誰かが「グローバル企業の商用モデルはマーケティングパンフレットが教えてくれるような性能やない」と言うと想像してみい。だから責任ある科学者は誰でも、法的トラブルに巻き込まれないように旧世代モデルを取るんや。そして今、このグローバル企業から大学への資金提供が欲しいかもしれへん。

だから本当に最新のものに行くのは愚かやろな。でも傾向は再び見えるで。生物学化学テスト3、4、7があって、4つの1、2、3、4がある。結果を見てみよう。これは絶対に興味深い。平均だけ見てみよう。後で深く掘り下げるで。

平均を見て、Gemini 2.5 Flashで何が起こってるか見てみい。暗黙で平均43%、明示で38%や。なんで自分の仮説を内部的に書き出すだけで性能が下がるんか不思議やな。

でも見てみい。本当に時間をかける仮説洗練では、実行して自分自身を最適化する。38.6から39.0に移動しただけや。何やと思うか?

つまり、ボトルネックは思考チェーンの洗練、ソートプロセスにあるわけやない。時間をかけなあかん。考えさせなあかん。この飛躍は無視できるもんや。まず正しい仮説、正しいものを形成することや。推論の力を持たなあかん。ただやりたいだけ試すことやない。

このシンプルな結果からこれを推論できるのは絶対に魅力的やで。でもこれを見てみい。デルタで持ってる美しいアイデアがもう一つあるんや。

パフォーマンスギャップ:記憶vs推論

これについて話した。パフォーマンスギャップがあるんや。合成タスクのスコアから本物の真正タスクのスコアを引いたものとして計算されてる。これはベンチマークやから、帰納的推論部分の一部だけに焦点を当てたいんや。

著者たちは、LLMのパラメトリック知識からの純粋な想起から真の推論を分離する診断ツールを構築したと教えてくれてる。

LLMが事前訓練データセットでタスクの一部を偶然見たことがあるなら、解決法を知ってるんや。科学領域内やけど、この世界から外れてるから少し狂ってる合成タスクで確実にしたいんや。まだ発表されてないか見つけられてない新しい合成遺伝コードを作るんや。

著者たちは、AIシステム、LLMやVLMが記憶された知識の膨大な貯蔵、AIシステム内のパラメトリック知識に頼る可能性を取り除いた。今、合成コードや合成科学データの文脈内例から本当に学習してるかを見たいんや。推論プロセスのために提供された文脈内例から本当に真の帰納を実行してるかを見たいんや。

GPTファミリーのGPT-4.1指標を見てみい。これをやると、真の推論部分だけを見ると、突然81%から12%に落ちるんや。性能の70%近く、70パーセントポイントを失うんや。Gemini 2.5 Flashでは87%から32%に落ちる。固有の推論能力についてはこんなもんや。

提供する特定の合成タスクとテストで見ると、システムが事前訓練データセットでどこか似たようなタスクを見つけてるように突然見えるんや。

だから、どこかメモリに事前訓練データからの解決法を既に持ってるんや。自分で推論してるわけやない。完全なインターネットと聴衆で調べてるだけやと言える。

これはもう少し公式や。著者たちは、この結果は、LLMが今までの昔ながらのベンチマークで科学的タスクでうまく実行する時、第一原理から推論してることが多くないことを強く示唆してると言ってる。代わりに事前訓練、ファインチューニング、強化学習、訓練、何であれの間に見た情報の高忠実度記憶にアクセスしてるんや。

記憶化が推論を上回る現実

でも実験を特定の方法で設計して、合成遺伝コードのルールを変更することで、LLMの記憶を我々の設定によって単純に無用にすると、真のはるかに弱い帰納能力が露出するんや。

だから著者たちは、記憶化対推論が現在のLLMの話題やと言ってる。推論してへん。訓練データから記憶した事実を想起してるだけや。

4つを思い出そう。4はもう一つの数字で、3と4の自己一貫性プロンプト方法論を使うことからの性能向上について言ってる。仮説洗練反復ループ洗練や。

それらからの向上は最小で一貫してないと言ってる。データを見ると、場合によっては性能を傷つけることさえある。Gemini 2.2 Flashでは平均スコアが43%から39%に下がったからや。

モデルに文脈内学習で明示的に推論することを強制すると、時々その脆弱な帰納プロセスを脱線させて、文脈内学習で少ない短い学習例でやる時にモデルが性能を失うことを示唆してる。

LLMに新しい知識を学ばせたいのに、LLMは既存の知識をもっと忘れてしまって、新しく提示されたデータセットさえ学ばへんのや。

文脈長の挑戦

「文脈長についてはどうや?2025年でもまだ話題なんか?」と彼らは言ってる。200万から500万トークンの文脈長を持つモデルを見たことあるで。

「うわー。100万まで行く必要はない」と言ってる。DNA変換のようなタスクで、DNA配列の長さが増加するにつれて、我々の特定の実験でモデル性能が著しく低下したんや。大量のデータでそれらのDNAパターンを見つける、パターンを帰納する能力が長い文脈で弱くなることを示してる。

そう、100万文脈トークンよりもはるかに短い文脈長が今日のAIにとってまだ挑戦やで。このテストが大好きや。現実に引き戻してくれるからや。インターネットやグローバル企業のマーケティングで読むのは「ああ、人工超知能」だけで、現実に根ざしてない。

結論:知識と実践の違い

だから我々のLLMは、ここで提示された証拠から推論を実行する代わりに、訓練中に記憶したものにしばしば立ち戻るんや。

この論文を見てほしい。この新しいアーカイブ論文は、科学を知ってるAIと誤解しないでほしいんやけど、現在のLLMは司書のようなもんやということを見事に照らしてると思うんや。

極端な受動的知識を持ってる。でも知ってるか?積極的に科学を行えるAIとは全く関係ないんや。これらは二つの異なる世界やで。我々のLLMはまさにこの境界で失敗するんや。

だから科学について何かを知ってるAIを見ても、自動的に科学を行えることを意味するわけやない。これはAIシステムにとって異なるクラスのパターンなんや。

著者たちは、我々の現在のAIシステムの帰納的推論は根本的な弱点やと結論してる。現在の最先端のLMSは、外部ソルバーやエージェント的システムで参照できるシンプルな数学的公式を持ってない複雑な非数学的領域で真の科学的帰納を実行する能力が根本的に制限されてるんや。

だからエージェントのコア、LLMは真の科学的帰納を実行する能力が根本的に制限されてる。複雑さで推論できへん。学んだものを貼り付けてコピーできるけど、科学的帰納はできへんのや。

前向きな視点:制限は可能性

だからこの論文は良いと思うんや。ポジティブな論文やからや。制限があることを示してくれる。AIは次の月と年で魅力的になるで。うまく動いてないからや。つまり、もっと良いAIを構築しなあかん。考えなあかん。もっと良いAIシステムを設計しなあかん。このプロセスのためのもっと良い解決策を考え出さなあかん。

既存のモデルを単純にスケールアップしたり、さらに複雑なプロンプトスキームやDSP squared やったりするのは思ってるような方法やないで。これは前進の道やない。少しの性能向上は得られるかもしれへんけど、本質的に体系的に制限されてるんや。

代わりに必要なのは、科学で必要な抽象化、因果推論、真の仮説生成のために次世代モデルをより良く装備する根本的に新しいアーキテクチャと訓練パラダイムを探求することかもしれへん。

帰納的推論のためや。これがまさにやりたいことやからや。研究作業に必要なもんや。この帰納的推論能力を持てるAIコンパニオンが必要なんや。そうでなければ、人間が美しい自分たち自身でいるだけや。

このビデオを楽しんでもらえたことを願ってる。なんで購読しないんや?次の動画で会おう。

コメント

タイトルとURLをコピーしました