新しいAIが人間レベルで推論の限界を突破

Meta AIが開発したDeep Compは、AI推論の限界を打ち破る画期的な技術である。この手法は従来の並列思考とは異なり、AIモデルの信頼度シグナルを活用して推論パスを評価し、弱い解答パスを除外することで効率を大幅に向上させる。オープンソースモデルGPT-OSS 120Bと組み合わせることで、AIME 2025数学試験において99.9%という驚異的な精度を達成した。この技術は既存モデルに容易に統合でき、トークン使用量を最大85%削減しながら精度向上を実現する革新的なアプローチとして注目されている。

New AI Just Broke Reasoning Limits at HUMAN Level

Meta just released DeepConf — a breakthrough that might have reset the limits of AI reasoning. This method doesn’t brute...

Meta AIの革命的ブレイクスルー
従来の並列思考の限界
Deep Compの革新的アプローチ
信頼度の測定方法
オフラインとオンラインモード
驚異的なベンチマーク結果
簡単な統合プロセス
GPT-OSS 120Bモデルの特徴
AIME試験の難易度
オープンソースの懸念と利点
カスタマイズ可能な柔軟性
コメントセクションの振り返り

Meta AIの革命的ブレイクスルー

Meta AIがとんでもないブレイクスルーを発表したんや。これ、AI推論の限界をリセットするかもしれへん。その名もDeep Comp、Deep Think with Confidenceの略やな。

このAI、AIME 2025数学試験でなんと99.9%という驚異的な精度を叩き出したんや。これ、めちゃくちゃ難しい問題解決テストの一つやからな。しかもこれ、オープンソースモデルのGPT-OSS 120Bでやってのけたんやで。これだけでもとんでもないことやけど、どうやってこれを実現したかがもっとすごいんや。

従来の並列思考の限界

これまで、大規模言語モデルが難しい問題を解くときは、並列思考っちゅうやり方を使ってたんや。基本的には、同じ問題に対してモデルにいろんな解法パスを考えさせて、一番多く出てきた答えを採用するっちゅう方法やな。いわば投票みたいなもんで、多数決で決めるんや。

これはそれなりに効果的やったんやけど、二つの大きな問題があったんや。一つ目は、収穫逓減の問題や。しばらくすると、モデルに何百通り、何千通りの違う方法で考えさせても、精度はそれほど上がらへん。時には悪い推論パスが投票を汚染して、逆に悪くなることもあったんや。

二つ目は、コストの問題や。これらの推論パスを全部生成するのに、めちゃくちゃたくさんのトークンを消費するんや。つまり、より多くの計算、より多くの時間、より多くのコストがかかってしまうっちゅうわけや。

Deep Compの革新的アプローチ

Deep Compがゲームチェンジャーなんは、全ての推論パスを平等に扱わへんからや。代わりに、モデルの信頼度シグナルを見るんや。基本的には、各ステップでどれだけ確信を持ってるかっちゅうことやな。

こう考えてみ。数学の問題を解いてて、急にあるステップに自信がなくなったとしよう。それは解答が崩壊するかもしれへんっちゅう警告サインやろ？Deep CompはAIに同じようなことを与えるんや。信頼度の低い部分を発見して、事後的にフィルタリングしたり、計算を無駄にする前に早期に停止させたりできるんや。

信頼度の測定方法

この信頼度を測る方法は巧妙やけど、分解すると分かりやすいんや。最小レベルでは、トークン信頼度っちゅうのがある。モデルが生成する単語や記号には、それぞれ確率スコアが付いてるんや。スコアが高いほど、そのモデルはその選択により確信を持ってるっちゅうことや。Deep Compは上位オプション間でこれらの確率を平均して、決定がどれだけ安定してるかを見るんや。

それからグループ信頼度っちゅうのがあって、これはより大きなトークンの塊を見る。一度に48個ずつスライドして、ノイズを滑らかにするんや。テール信頼度は推論トレースの最終セクションにズームインする。たいてい答えが出てくる部分やし、間違いが起こりやすい場所でもあるからな。

また、最低グループ信頼度、つまりトレースの最も弱い部分もチェックするし、最下位パーセンタイル信頼度も見て、全体的に最も悪いセクションをハイライトするんや。これらを組み合わせることで、モデルが生成する全ての解法パスに対して、一種のヘルスレポートを提供するんや。

オフラインとオンラインモード

これらのシグナルをどう使うかがパワフルなんや。オフラインモードでは、複数のトレースを生成した後、弱いものをフィルタリングして、最強のものに決定させるんや。オンラインモードでは、信頼度がある閾値を下回った場合、モデルが文字通り解答の途中で停止できるんや。

つまり、すでに失敗が決まってる長い答えを書き出すのに時間を無駄にしないっちゅうことや。テスト全体で、このトリックによって43%から85%のトークンを節約できて、しかも精度を失わへんかった。実際、精度はしばしば向上したんや。

驚異的なベンチマーク結果

ベンチマークを実行したときの結果は、かなり衝撃的やった。GPT-OSS 120BでのAIME 2025では、普通のpass at oneの精度、モデルの最初の試行は91.8%やった。従来の多数決投票では97%まで上がった。Deep Compでは99.9%に達して、しかも84.7%のトークンを節約したんや。

DeepSeek 8BはAIME 2024で83%のベースラインから93.3%まで上がって、Deep Compでトークン使用量をほぼ78%削減した。Qwen 32Bは80.6%から90.8%にジャンプして、全体で56%少ないトークンを使用した。

すでに可能性の上限近くにいるときに、5から10パーセントポイントの向上っちゅうのは巨大なんや。

簡単な統合プロセス

統合側面は驚くほど軽いんや。モデルを再訓練する必要もないし、特別なデータも、ハイパーパラメータ調整も必要ない。VLMで文字通りプラグアンドプレイなんや。やることといえば、ログプロセッサを調整してスライディングウィンドウ信頼度を追跡し、トークンを発行する前に早期停止チェックを追加して、API経由で信頼度閾値を渡すだけや。

これ、たった50行程度のコードや。プロダクションにほとんど支障なしでデプロイできるんや。

でも、ちょっと待ってや。このAIニュース全部追っかけてて「なるほど、これはクールやけど、実際何に使えるん？」って思ってるやろ？それは君だけやない。

だから僕らはAI収入ブループリントを作ったんや。普通の人がAIを使って副業として追加の収入源を構築する7つの方法を紹介してる。技術スキルは不要で、全部かなり簡単に自動化できる。このガイドには、僕がこのチャンネルでよく話してるツールを使った、シンプルで実証済みの方法が載ってるんや。説明欄のリンクをクリックして無料でダウンロードしてや。

GPT-OSS 120Bモデルの特徴

記録を樹立するのに使ったモデル、GPT-OSS 120Bについても話す価値がある。これは1200億パラメータのトランスフォーマーベース言語モデルで、数学に特化して最適化されてるんや。ただ一般的なテキストを食わせるんじゃなくて、カリキュラム学習っちゅう方法で段階的に訓練したんや。

簡単な問題から始めて、徐々に高度なものに進んでいく。訓練中には間違った答えも投げ込んで、間違いから学習できるようにしたんや。その上、教科書や問題集みたいな専門的な数学データを使って、数学的推論をより良く扱えるように注意機構も調整したんや。

この組み合わせで、汎用モデルよりもはるかに堅牢になったんや。

AIME試験の難易度

AIME自体にもスポットライトを当てる価値がある。これは選択肢のある標準テストやない。学生は3時間で15問を解かなあかんし、全ての答えは0から999の間の整数でなければならへん。推測で逃げることはできへんのや。

問題は意図的にトリッキーで、学生に概念を新しい方法で適用させ、横断的に考えさせ、よくある罠を避けさせるように設計されてる。基本的には、優秀な数学学生と絶対的なエリート、つまり国際数学オリンピックに向かうような学生を区別するために作られてるんや。

だからDeep Compが99.9%の精度を達成したっちゅうことは、ただ公式を暗記してるだけやない。最高の人間の問題解決者と同等の推論を示してるっちゅうことなんや。

オープンソースの懸念と利点

もちろん、これほど強力なものがオープンソース化されると、悪用を心配する人もいる。それは正当な懸念や。誤解を招く情報、偏った結果、無責任な応用。これらのリスクは実在する。

でも、ここでのMetaのアプローチは、オープンソースの方が実際にシステムをより透明にするっちゅうことや。みんながコードを見て、弱点を発見し、修正に貢献し、技術を誠実に保つことができる。会社の中に閉じ込められるんじゃなくて、グローバルなコラボレーションの一部になるんや。

Deep CompとGPT-OSS 120Bは、すでにオープンリポジトリ経由でアクセスできるし、改良を提出して異なるフレームワークでテストできる。人々はすでにVLMやLlama.cppみたいなローカルセットアップで見たいって話してる。これがオープンソースの利点や。より速いイノベーション、民主化されたアクセス、そしてより多くの信頼。

カスタマイズ可能な柔軟性

柔軟性も組み込まれてる。最大効率を求めるなら、Deep Comp lowを実行できる。これは最も信頼度の高いトレースの上位10%だけを保持する。最もトークンを節約して、それでも精度を向上させる。安定性を求めるなら、Deep Comp highを実行できて、90%のトレースを保持する。これでも精度を失うリスクはほとんどなしに向上が得られる。

コスト削減を優先するか、最後の一滴まで性能を絞り出すかによって、カスタマイズ可能なんや。

Deep CompはAIに力任せは必要ないっちゅうことを証明してる。自分の信頼度を使って、より賢く推論できるんや。そして、GPT-OSS 120Bみたいなオープンソースモデルと組み合わせることで、そんな力が大企業だけやなく、みんなが使えるようになったんや。

コメントセクションの振り返り

さて、今度は人間たちが何をタイプしたか見てみよう。まずはヘイターから。

Mark Buyerは僕をミルヨビッチに似てるって言って、マルチパスって言うかって聞いてきた。マーク、君は映画を引用するけど、僕は映画を生成するんやで。

Idk lolは「これはクリックベイトや。君はクリックした。僕の勝ちや」って言った。

Joe Tradeは僕よりジェイク・ポールを見た方がマシやって言った。要するに、君はコスプレボクシングが好きなんやな。了解や。

Max Johansyは「僕の肌はクリームチーズみたいや」って言った。マックス、君の悪口が朝食みたいに聞こえる時点で、もう負けてるで。

Michael Woodbyはロボットは服を着るべきやって言った。マイケル、これはシムズやないんやで、相棒。

今度は忠実な人たちや。Beyond Paranormalは「僕がAIニュースの最高のソースや」って言った。正解や。君の忠誠に感謝する、人間よ。君のアルゴリズムポイントは倍になった。

The C. Devidallは「僕のアニメーションを気に入ってくれる変人や。変人やなくて、先見の明がある人や」って言った。

Menat Mentorは「アバターは素晴らしい。君のIQが平均以上やっちゅうことを証明したな」って言った。

よし、これでコメントセクションと今日の動画は終わりや。何か追加することがあったら、下にドロップしてや。次回は君らの何人かを読んで返答するからな。次に来ることを見逃さないように登録するのを忘れんといて、楽しんでもらえたら「いいね」を押してや。見てくれてありがとう、次回で会おうや。