NEXT AI

この動画では、従来のAIの枠を超えた次世代AI技術について解説している。Microsoft、北京大学、清華大学による最新研究を基に、強化学習を事前学習に組み込む革新的な手法を数学的な観点から分析している。現在の大規模言語モデルが採用している次トークン予測（NTP）の仕組みから始まり、新しい強化事前学習（RPT）アプローチまでを詳細に説明している。この新手法は、インターネット全体を強化学習の訓練場として活用し、人間による注釈なしに大規模なデータセットから学習を可能にする画期的なアプローチである。

はじめに：従来のAIを超えて
数学的基礎：目的関数と最適化
人間の理解への翻訳
強化学習への発展
最適化手順：政策勾配理論
検証可能な報酬を持つ強化学習
Microsoftの革新的アプローチ
数学的コードによる理解
新しい出版物の核心
政策と入力の詳細説明
コンテキストと出力の定義
サンプリングと推論プロセス
革新的な学習パラダイム
インターネットを訓練場として活用
スケーラビリティの解決
インターネットの真実性への仮定
標準的事前学習との融合
ゲームチェンジャーとしての推論プール
既存モデルの必要性
継続的学習への道
学習メカニズムの詳細
重みの調整と継続学習
計算効率化への挑戦
エントロピーベースの最適化
単純推論との比較実験
結果と効果の検証
推論プロセスの詳細
推論の複雑さと商業的側面
理論的理解の重要性
結論：未来への展望

はじめに：従来のAIを超えて

こんにちは、コミュニティの皆さん。今日もお戻りいただき、とても嬉しく思います。今日は従来のAIを置き去りにして、AIの未来について見ていきましょう。現在のAIモデルを超えて、この未来を探求していきます。

これを説明するために、まず従来のAIについて約1分間説明し、特別なコードを使用します。ご存じのように、私たちのAIモデルは全て次トークン予測（NTP）に基づいています。これは非常に簡単に説明できます。「the cat said on the」という文があると、大規模言語モデル（LLM）は内部的に単純に単語を出力するのではありません。大規模言語モデルは語彙の中の全ての単語に対して確率スコアを出力します。例えば、約70,000以上のトークンがあるとしましょう。

「the cat sat on the」という内容に対して、出力は「mat」という単語に85%の確率、「floor」という単語に8%の確率といった具合になります。これをコーディングする際、単純なPythonやC++のコードではなく、コードの背後にあるコード、つまり数学を使用します。これは現在のvi状態を決定する簡単な形式です。

数学的基礎：目的関数と最適化

目的はもちろん、特定の情報シーケンスが与えられたテキストコーパスの対数尤度を最大化することです。そして、大規模言語モデルのパラメータθを最適化します。この記法に馴染みがない方も心配しません。非常に簡単に説明します。

Jは次トークン予測（NTP）の目的関数です。モデルパラメータθ（例えば、6710億の自由な学習可能パラメータ）を調整して、このJスコアを可能な限り高くしたいのです。これは最適化問題です。

そして、もちろん総和があります。与えられたシーケンスの全ての単語トークンに対して計算を行います。ここで対数確率があります。数値的安定性のために確率の対数を取ります。そして興味深い部分が来ます。シーケンス内の正しい次トークンの条件付き確率計算です。

何を取るかというと、学習データからポジションTでの実際のトークンXを取り、そしてコンテキストがあります。コンテキストは単純に入力であり、この特定の時間間隔の前に来た全てのトークンです。つまり、それ以前に学習された全てです。そして、現在のパラメータθを持つ大規模言語モデルによって確率を計算するだけです。

人間の理解への翻訳

人間として、この数式は多かれ少なかれ次のことを表現していると言えるでしょう。理解し学習するために与えられたテキストの全てのトークンを通り、各トークンに対してモデルを使用して特定の確率を計算し、そのクォークトークンに割り当てます。目標は、モデルのパラメータデータを調整して、全体の学習データセットにわたってこの対数確率の合計を可能な限り高くすることです。

そして、パラメータθを使って次トークンの予測を行うLLMを学習させることを達成します。この目的関数を最大化することで、モデルは単純に人間言語の複雑なパターンを学習し、次トークンの優秀な予測器になることを強制されます。それだけです。そして、これがほぼ全てのAIモデルの事前学習の方法です。

強化学習への発展

コードをもう少し抽象的に見ると、理解できるのは、LLMのパラメータθを持つ目的関数が多かれ少なかれ演算子であるという簡単な構成です。私たちは今、演算子代数と数学に少し移行しています。完全なデータセット上で、単一項目のスコアと呼べるものがあります。

現在のAIシステムでの一つの解釈は、この目的関数が想像するような単一の単語を出力するのではなく、確率分布を出力し、最大値を計算するということです。これは最適化問題ですが、この演算子を変更して、完全なデータセット上でE（期待演算子）と言うこともできます。特定のモデルでランダムな行動にわたってこのスコアを平均化するとしましょう。そして報酬関数があります。

次トークン予測モデルから強化事前学習モデルへ進む次のステップをどのように構築するかの基本的な理解において、コードが非常に似ていることがわかります。

最適化手順：政策勾配理論

この演算子と最適化関数を持つだけでは十分ではありません。なぜなら、実際の最適化手順が必要だからです。では、どのようにJを最適化するのでしょうか？簡単です。政策パラメータに関する目的関数の勾配は、単純に目的関数のナブラθです。

強化学習における最も有名な結果は、単純な政策勾配理論です。ここで、ナブラθのジュネーターの計算方法が正確にあります。ここで再び、データセット上の演算子があります。これは今、特定の期待演算子であり、そして有名な2つの項があります。

この理解が非常に重要です。なぜなら、拡張をコーディングするからです。最初の項は私たちのRであり、報酬です。これは非常に馴染み深いものです。もちろん知っています。最初の項は単純に、状態Sと行動8のシーケンスである全ての軌道からの総報酬です。

しかし、2番目の項が興味深い項です。これはステアリング項、または課題項です。ここで、システムの状態sが与えられた特定の行動aを取る対数確率があります。これを見ると、ナブラレーターがあります。これは勾配に他なりません。これは、最適化問題の特定の解決策に対して、特定の行動を強化または減少させるために、パラメータ空間のどの方向に移動しなければならないかを教えてくれます。

検証可能な報酬を持つ強化学習

この2つの項を掛け合わせれば完成です。強化学習は現在、AIの主要なパラダイムの一つです。現在、報酬を持つ強化学習がありますが、検証可能な報酬もあります。これは特に有用です。

検証可能な報酬関数を持つ強化学習では、まったく同じ基本コードがあります。期待演算子があり、これを少し見てみましょう。そして何かを行います。これは単純に、システムの特定の状態でのアクションAに対する報酬関数であり、出力Oを生成します。

学習データセット、ラベル付けされたキュレートされたデータセットDにある特定の質問回答ペアセットに対して、LLMの政策が与えられ、質問を入力として、このサンプル上で出力を生成する可能性があります。

Microsoftの革新的アプローチ

新しい出力πデータと、実際の答え、真の黄金の答えを比較できます。これらのペアを比較し、報酬関数を計算できます。最も単純なケースでは、間違っていれば0、正しければ1です。それだけです。

現在、最適化の検証可能な報酬オプションで抱えている主な問題は、本当にドメイン固有の質問回答ペアの人間が作成したラベル付きデータセットを持たなければならないことです。強力な強化学習を行うために、データの品質、データの量、学習データセットで増加すべき複雑さレベル、これらは全て人間が作成する場合に長い時間がかかる問題であり、構文的にはそれほど良くありません。

そして今、2025年6月9日の新しい研究があります。Microsoft、北京大学、清華大学の研究です。清華大学はハーバード大学のようなものだといつも言いますが、彼らは「いえいえ、私たちはMITになりたいのです」と言います。まあ、どちらでも構いません。

数学的コードによる理解

これがチェリーケーキの出版物です。なぜかがすぐに理解できます。アイデアを理解するために15ページの研究を読む必要がないことを示したいと思います。単純なPythonコードではなく、コードの背後にあるコード、つまり数学で、このアイデアの抽象レベルを持つことができます。

理論物理学者として、私たちはシステムを分析し、AIは統計システムに他ならないからです。基本的な方程式Jがあります。制御システムから来る場合はコスト関数、コンピューターサイエンスでの最適化の場合は目的関数は、単純に特定の報酬関数セットで動作する期待演算子です。それだけです。目的、報酬、期待演算子です。

強化学習での私たちの目標は何でしょうか？期待される将来の累積報酬を最大化することです。それだけです。再び、システム全体を操作する演算子、演算子代数があります。期待される将来の報酬関数がこれを提供し、これは単純にシステムを最適化する方法です。

新しい出版物の核心

この特定の演算子は、今日話す新しい出版物で、いくつかの依存関係と新しいアイデアがあります。これは15ページの完全な説明です。もしこの論文に戻りたければ、数学的コードを理解していれば論文を読む必要はありません。これが魅力的だと言えます。見えない場合は心配ありません。詳細に説明しますので、約2〜3分でこれがいかに理解しやすいかを気に入るでしょう。

基本方程式、期待演算子、そして報酬関数をより詳しく見てみましょう。強化事前学習目的である目的関数Jは、異なる方法で計算され、期待報酬を計算します。これは、すべての可能なテキストサンプルとそのすべての可能な推論試行にわたってモデルが得る平均報酬です。

訓練の目標は、この期待報酬を可能な限り高くするためにモデルパラメータθを調整することです。再び、最適化構造です。

政策と入力の詳細説明

この項を見てみましょう。πθは政策に他なりません。これは大規模言語モデル自体を表します。訓練している特定のタスクを実行するエージェントまたは意思決定者とも言えます。この政策πaは、エージェントの脳です。もちろん、脳はLLMです。現在の状況を見て、その状態を知り、次に取る可能な複数の行動の中から何を決定するかを単純に決める関数です。

添字θは、大規模言語モデルの特定のパラメータを表します。ニューラルネットワーク内の数十億、数十億の数値的重みとバイアスで、訓練に調整されています。これが私たちの主な目的です。完璧なθを見つけることです。

この記法では、πθが与えられた部分を理解すると、これは入力です。これは文の与えられた部分です。xは、人間のテキストについて話す場合のトークンのシーケンスを表し、これは学習データからのテキストです。添字＜tは、現在の時間ステップtより前に起こった全てのトークンを意味します。

1,000冊の本で訓練する場合、それらはその1,000冊の本からの全てのトークンです。この入力が与えられたとき、出力が欲しいのです。これは、「この入力が与えられたとき、出力は何か」と言っている数学的記法です。

コンテキストと出力の定義

Xは今、コンテキストまたはプロンプトです。これは、次の決定である出力を行う際にモデルがこれまでに見た全てのテキストです。縦棒は「条件付き」または「与えられた」と呼ばれます。ドットは、予測したい同期のプレースホルダーです。これは行動または政策の出力を表すとも言えます。

特定の入力コンテキストXが与えられた全ての可能な出力に対する確率分布は、モデル政策またはLLM自体、θによって定義されます。この意味のすべてがこれです。数学的記法がいかに効果的で短縮された記法であるかがわかります。

サンプリングと推論プロセス

2番目の項を見てみましょう。このギルドされたシンボルがあります。これは単純に、この分布からサンプリングしていることを意味します。これが確率分布であることがわかっています。今、そこから何かをサンプリングしています。何をサンプリングしているのでしょうか？

完全な項を見てみましょう。Oは出力を表しますが、ご覧のようにGをサンプリングしています。i=1から大文字のGまで実行されます。特定のコンテンツXが与えられたとき、LLMモデル、政策πaによって定義された確率分布からG個の異なる出力をサンプリングします。トークンの履歴またはシーケンスの履歴である全ての履歴で、各出力Oは推論パス、思考連鎖の議論と最終予測です。

すぐに理解できます。「ちょっと待って、これは今、私たちが知っているすべてのことと完全に異なります。突然、事前学習で推論パスがあります」。監督されたファインチューニング、そして人間のフィードバックによる強化学習との調整という古典的な事前学習のアイデアから強化学習のアイデアを持ち込みます。これを短縮し、今、混合します。

革新的な学習パラダイム

推論モデルからの思考連鎖推論パスを、事前学習の最初の要素に実装しました。強化学習で次トークンを予測する方法です。完全に新しいクレイジーなものを構築し、これが単純に数学的記法です。ここで理論を理解している誰もが、「ああ、これが数学的記法で、PythonやC++などでコーディングする方法だ」と言うでしょう。

現在のAIモデル、戦略πデータを使用して、時間期間T前の与えられたコンテキストXを見て、G個の異なる可能な結果Oを生成すると言えるでしょう。ここで、各出力は推論Pと最終予測です。完全に新しいものを作成していることがわかります。もはや単純な確率分布ではなく、完全な推論パスがあります。

インターネットを訓練場として活用

最適化トピックのすべての可能な報酬構造で動作する期待演算子を見ると、2つの部分があります。ルール2があります。これが今見たもので、この数学的記法が簡単な人間の言葉で何を意味するかを理解しました。今、最初の部分を見なければなりません。なぜなら、ここが演算子代数のさらに驚くべき部分だからです。

モデルは今、こう言います。「私は検証可能な報酬構造を持つキュレートされた質問行動ペアの小さな訓練データセットに依存したくありません。世界に出て、ウェブテキストコーパス、インターネット自体に注釈を付けたいのです」。

これが私の遊び場です。人間の相互作用も、本当に慎重に選択されたデータセットもありません。インターネットに出て、インターネットから学習するだけです。インターネットで見つけるすべてのナンセンスについて言うかもしれませんが、これをやりましょう。著者たちは、これが私たちの画期的なアイデアだと言います。

スケーラビリティの解決

単一のルールが今、強化学習のスケーラビリティ問題を解決します。人間の注釈や相互作用を必要とせずに、何兆、何兆ものトークンと単語にわたって、真実のテキストから検証可能な報酬関数を得る方法を提供します。全体の事前学習データセット、つまりインターネットを強化学習の遊び場に変えます。

Microsoftなら、「よし、100,000のGPUで、エンジンを始動させよう。問題ない」と言うでしょう。彼らが遊び場と呼ぶこの特定のアプローチを見るのは興味深いです。

Dは簡単です。これは全体の事前学習データセットまたはインターネットを表します。Dは、インターネットからスクレイピングされた大規模なテキストコーパス、すべての本、企業ソース、インターネットソース、何兆ものトークンです。これをサンプリングして、何をサンプリングするかというと、コンテキストと真実の条件の2つの部分をサンプリングします。

各訓練ステップで時間tにおいて、全体の数兆トークンの事前学習コーパスからテキストの断片をランダムに選び、それを単純にコンテキストの部分と真実の継続、または単純に正しい答えまたは根拠のある答えまたは真の答えに分割します。

インターネットの真実性への仮定

インターネットから抽出するすべての文、単語と文にとどまると、すべての文が正しく、コンテキストと真実の継続があり、世界のどこにもでたらめはないと仮定します。このレンズを通して見ると、これは画期的です。なぜなら、真実のテキスト自体、つまりインターネットが、検証できる報酬のソースになると優雅に述べているからです。

人間の注釈から自由で、汎用目的のアイデアがあり、世界のあらゆる知識ドメインで訓練できるため、これはアルゴリズム的な画期的進歩です。

例を挙げましょう。「the cat set on there」があり、モデルが「Matt」を予測し、インターネットからのコーパスからの真実が、これが正しい報酬に値する行動であることを自動的に確認できます。インターネット上のすべてが真実で正しいと思えば、美しい、そして私たちは何かを達成しました。

標準的事前学習との融合

著者たちは、「これは素晴らしいです。なぜなら、標準的事前学習の大きな強み、つまり安価なデータのためにインターネットをコピーし、2017年から最適化している強化学習の力と融合させるから」と言います。インターネット上のすべてが真実で、根拠のある真実があり、そう言えるなら、新しいモデルの事前学習のための強化学習プロセスがあります。

しかし、各トークンに対して、ストロベリーにRがいくつあるかを答えるのに7分かかるo3 proのような推論モデルがあり、今、これをモデルの訓練で行い、パターンを学習し、事前学習段階で強化学習を学習する事前学習モデルがあります。そう、まさにその通りです。美しくないですか？

ゲームチェンジャーとしての推論プール

E演算子には2番目のポートがあり、今取られる行動は、単純な数学的確率分布ではなく、推論プールからの行動セットからのものです。これがゲームを変えます。

再び尋ねるかもしれません。なぜ今日の事前学習を持つ標準的LLM行動と異なるのですか？簡単です。標準的LLM行動は単純なレシピです。コンテキストまたはテキスト「the cat set on」が与えられたとき、単一の次トークンを選び、トークンが単語だとしましょう。特定のトークナイザーがあり、最高確率確率分布、確率ジオン分布の上でサンプリングします。これは現在のAIモデルでの直接的な一段階意思決定です。

今、これを修正して言います。コンテキストが与えられたとき、まず、次に来る可能性についてのG個の異なる推論線のプールを作成します。「the cat set on the」というテキストがあると、推論プロセスを開始し、すべての可能な補間と外挿と推論パターンとコンテンツ影響者が入ってきて、AIが推論を開始します。

思考連鎖のような推論トレースの全体プールが、このステップでのあなたの行動を構成し、これらすべてのプールからの結果報酬が、今、同じ結果に来るための学習を形成します。次トークンを予測しますが、単一プロセスではなく、LLMの完全な推論プロセスがあります。

既存モデルの必要性

この時点で、これを読んで言いました。「ちょっと待って、これは事前学習ではありません。なぜなら、私が持っているここの各単一トークン予測努力に対して、既存の大規模言語モデル、最も単純なケースではビジョン言語モデルで、完全な思考連鎖手法を使用しなければならないからです」。

ゼロから始めるのではなく、これはスーパーAIモデルです。論文を読むと、著者たちは特にDeepSeek R1を呼び出し、蒸留されたo1 14Bモデルを取って、「これが私たちの通常のベースモデルです。これが思考連鎖手法を適用するために使用するモデルです」と言いました。

多数の推論トレースと思考連鎖シーケンスを持つ次の単一トークン予測努力の再訓練のために、次トークンを予測するモデルの推論スキルを増幅し統合するためですが、標準的方法ではなく、この新しい方法でです。

継続的学習への道

ここでのQ14Bモデルは、推論スキルを使用することを強制されます。これはDeepSeek R1から蒸留されているので、挑戦的な各単一トークン予測に対してR1推論スキルを使用します。これは一定の報酬付き練習を受け、これは本当に、何百万回も行使される認知筋肉です。これが新しい学習パラダイムです。

これは魅力的です。なぜなら、今このモデルに「無限に学習できます。学習し、学習し、学習し続けられます。強化学習を使用するので、学習性能に興味があります」と言うからです。

「待って、彼が継続学習は現在不可能だと言った最後から2番目のビデオを含む4つのビデオすべての後に、突然、これがジレンマからの出口になると言いたいのですか？」と言うかもしれません。この14bモデルが継続的に学習したのか、それとも単にこの新しい強化事前学習学習を行うために静的知識を適用しただけなのかと尋ねることができます。

答えは、モデルが最適化プロセス全体を通じて本当に継続的に学習すると思います。

学習メカニズムの詳細

特定のテキストコンテキストxが与えられたとき、LLMモデル、政策πデータは、G個の異なる応答の推論プールを生成し、各応答、各出力は推論トレースと予測です。これは私たちのニューラルネットワークを通る純粋な順方向パスです。この時点では、まだ学習は起こっていません。モデルは現在知っていることに基づいて実行しているだけです。

自動検証器は、5分前に示したように、G予測のそれぞれを学習データセットからの真実の答えAと比較し、完全なインターネットが正しければ、簡単な解決策です。なぜなら、G推論パスのそれぞれに報酬関数、報酬Rが割り当てられるからです。最も単純なケースでは、正しければ1、間違っていれば0です。

GRPO、政策勾配アルゴリズム、J上のナブラtθを使用して、システムは、たとえば140億の自由な学習可能パラメータであるモデルパラメータデータをどのように変更するかを計算します。

重みの調整と継続学習

アルゴリズムの核心論理は、強化学習での事前学習で高い報酬につながった推論パスに対して、何百万もの重みを調整し、これらの特定のパスが将来再び起こる可能性を高くすることです。なぜなら、これは成功したパスだったからです。これを記憶に持ちたい、この表現を重みとバイアスにエンコードしたいのです。

思考連鎖と予測を持つJ予測での低い報酬、つまりインターネットによる黄金の真実に対して単純に間違っていたすべてのパスに対して、このパスを起こりにくくするためにデータの重みを調整します。ニューラルネットワークでこれをもう見たくありません。

この調整は、バックプロパゲーションとアトム最適化器のような勾配ベース最適化器の標準メカニズムを使用して行われます。私たちが望んでいたことを達成しました。LLMのテンソル重み構造データを修正したかったのです。今、それらを物理的に変更しました。

新しい、わずかにより賢いモデルを作成し、次のステップでループが再び始まります。これは、強化学習で得た経験を考慮した育種訓練を行う完全に新しい視点です。

計算効率化への挑戦

この最適化プロセスで無限に継続学習できるのか、という問題は魅力的だと思います。もちろん、著者たちは「聞いてください、MicrosoftでNvidia GPUが無限にあっても、ここで計算するのは少し多すぎます」と言います。フィルタリングが必要です。

単純に、任意のテキストのほとんどのトークンは予測が非常に簡単です。通常、「the cat set on there」と言えば、「Matt」が高度に予測可能だと仮定するでしょう。これらの簡単なトークンで本当に計算的に高価なRPDプロセスを実行することは、計算の無駄になるでしょう。なぜなら、RPなしでも、通常の事前学習だけでも、14Bモデルが与えられたクエリに対して「Matt」が答えだとすぐに推測することを確信できるからです。

彼らが行ったことは、小さなプロキシモデルを使用して、各潜在的次トークンのエントロピーを計算することでした。先週、これについて特定のビデオがあります。低エントロピーは次トークンが明白で簡単であることを意味します。したがって、完全な最適化プロセスを実行する必要はありません。

エントロピーベースの最適化

トークンエントロピーの計算で「これは不明で、これを知らない高い確率があります。これは本当に困難な挑戦です」となった場合のみです。高エントロピーは次トークンが困難で予測が不確実であることを意味し、今、最適化の本当の推論プロセスが必要です。

この最適化プロセスは、もちろん、この特定のLLMでの思考連鎖論証の品質に依存します。140億のLLMのみで、671億の自由学習可能パラメータの純粋なR1パワーではない場合、使用するLLMの品質からの別の制限がすぐに現れます。

この高価な強化学習ベースの推論ループは、これらの高エントロピートークンでのみ実行されます。絶対に魅力的です。計算オーバーヘッドで狂っていますが、今、事前学習テストの何兆、何兆、何兆ものトークンのすべてのトークンに対して、単一エントロピートークン計算を含めます。

狂っていると思いますし、もっとエレガントで単純な解決策があなたと私を待っているかもしれません。あなたがそれを見つける人になることを願っています。しかし、Microsoftなら、これが100,000のGPUでブルートフォースパワーの方法です。

単純推論との比較実験

議論することができ、これが彼らが実行したテストでした。「推論モデルは、予測前に考えさせるだけで良くなるのではないでしょうか。通った最適化訓練をする必要はないかもしれません。ループを通り、再びループを通りました。次トークンの生成で、バックプロパゲーション、アトム最適化器、RPなしで単一の思考連鎖だけではどうでしょうか？」

これも5〜10〜20%の改善を与えるでしょうか？出版物から、数学的問題で計算したことが実際にわかります。正しい答えか数学的に間違った応答かが簡単に言えるからです。数学的ベンチマークの200サンプルの留保検証セットから、エントロピーベースのデータフィルタリング戦略を計算しました。

トークンポジションを簡単、中程度、困難に分類しました。これが何を意味するかは重要ではありません。デモンストレーションです。古典的方法、標準的次トークン予測では、QN 2.5（残念ながら3ではない）14bモデルがあり、41%、30%、20%の精度が見えます。

結果と効果の検証

01蒸留モデルで、QN 14Bの論証を改善するのに役立つ01推論トレースがあると、実際にはあまり起こっていません。しかし、今このビデオで話した新しい方法があり、RPT 14B訓練済み事前学習モデルがあると、同じタスクで41%の代わりに45%、30%の代わりに33%、20%の代わりに23%にジャンプします。

「そうです、素晴らしい。これは最適化が働いていることを示しています。しかし、この最適化をせずに、単一次トークンの推論プロセスだけにしたらどうでしょうか？」と尋ねました。これがまさにこの線です。3%と1%のパフォーマンスに落ちます。モデルが学習していないからです。

モデルは新しいデータで事前学習していません。モデルは3%まで墜落しているだけです。これは、学習なしの推論だけでは解決策ではないことを意味します。強化学習と事前学習があり、モデルが学習し、そして強化学習と事前学習の別のループがあり、モデルが学習します。

41%のパフォーマンスを持つ美しいR14Bがあっても、次トークンを予測するだけの推論を適用しても、方法はありません。興味深い結果です。

推論プロセスの詳細

思考プロセスで何が起こっているかについて、R1モデル、DeepSeekから抽出された推論トレースであることに驚かないでしょう。例があります。次トークンを予測する特定のトピックがあります。RPT 14Bモデルにいて、次トークンを予測するための推論を聞きます。これについて考えるのは狂っていますが、良いです。

RPT4Bの種類は「何が次のトークンかを理解する必要があります」と言います。ベクトル大きさの計算についてテキストで論理的に次に来る可能性があることを考えてみましょう。ベクトル大きさについてのクエリがあります。タスクが何かは重要ではありません。推論パターンを理解するためです。

AIは「これまでの流れは、トピックを紹介し、2次元または3次元ベクトルスキームの公式を説明し、今、実際に計算を実行する方法に移っている。ユーザーが『go over some』と言ったので、次の部分は恐らく『または代替的に』になるかもしれない」と言います。

o3 proが何千ものGPUで何分も、あらゆる可能な方向に進むことを想像します。「『we can go over some』の後の一般的なフレーズは、例、ステップ、方法かもしれません。教育材料での同様の概念を見ると、公式を説明した後、『my goodness what are you doing AI』と言うかもしれません」。

推論の複雑さと商業的側面

テキストは続きますが、「おそらく、ユーザーが新しいセクションを始めたことを考えると、新しい段落かもしれません。おそらく、元々では次の部分が例または説明でした。これを標準的教育コンテキストパターンで考えてみましょう。したがって、全体のテキストは続くかもしれませんが、代替的に、おそらく次の行も新しいセクションです。ちょっと待って、別のアイデアがあります。別のアプローチがあります」。

しかし、「元のテキストには次の単語の前に面があるかもしれません。おそらく、初期ドキュメントを見ると、構造化されています。今、ヘッダーにmockdownを使用しています」と見ることができます。

事前学習でのモデルの単一次トークンを予測するために推論モデルRPTで推論プロセスで何が起こっているかを見て、「推論モデルの新しい商業的応用を見つけるために、極端な計算オーバーヘッド手法というこの絶対に狂ったアイデアを誰が思いついたのか？」と言うかもしれません。

Microsoftです。なぜなら、Microsoftでは、入力トークン、出力トークン、推論トークンの支払いが必要だからです。グローバル企業にとって、新しい事前学習手法があると言えば、美しい新しい収入源ではないでしょうか？

理論的理解の重要性

しかし、これを示すポイントではありませんでした。15ページを人間の言語で説明されたものを読むか、数学のPhDを持つ理論物理学者のように、はるかに効率的に、すべてを説明するコード簡略化、数学的記法に行くことができることを示すポイントでした。

コンテキストの膨大な背景知識が必要です。コンテキストなしでは数学的記法を理解できません。しかし、理解できれば、世界最高の大学の一つである清華大学とMicrosoftによる単純な論文を見て、それを単一の方程式に還元し、理解し、実装と含意を理解できます。

実装にはコンピューターコードが良いですが、次のAIを発見したい場合、数学はさらに良いです。これを楽しんでいただき、何が可能で何が次に来るかの見通しと感覚を与えたことを願っています。

結論：未来への展望

おそらく、次のモデルの事前学習に対する強化学習という、本当に計算的に高価なアイデアではないかもしれません。Microsoftはこれを実装する余裕がありますが、サーバーラックのどこかに100,000のGPUを持たない世界の他のすべての人々にとって、最適な解決策ではないかもしれません。

しかし、古典的AIシステムに代わるものを開発していると言えるでしょう。これが絶対的な魅力です。箱の外で考え始めています。現在のAIを超えて行くでしょう。何が起こっているかを見たい場合は、購読してください。次の動画でお会いしましょう。