
7,101 文字

こんにちは皆さん、お帰りなさい。今日は一つの単純な質問から始めます。「私たちは十分に速く学んでいるのだろうか?」説明しましょう。以前の動画で、ここでの独立した前提条件の順序をシャッフルしても、論理学では可換法則があるため、最小限の影響しかないはずだということを発見しました。しかし、実際には大きな影響があることが判明しました。LLM(大規模言語モデル)は多段階推論プロセスにおいて順序依存のパターンを学習していることが分かったのです。特に多段階推論を見ると、私たちのLLMには知性の創発のようなものは存在しません。
そして、この動画の29分のところで、Chain of Thought(思考の連鎖)ではなく、構造化された推論プロセスと有向非循環グラフを使ってこの問題を克服するという素晴らしいアイデアがありました。Chain of Thoughtが単なる線形のステップの連続ではなく、依存関係を持つ構造化されたプロセスになれば、この特定の問題を解決できるのではないかと考えました。さあ、勇気を出して新しい世界を発見しましょう。
従来の長い非構造化されたChain of Thoughtの最適化トレーニングの代わりに、構造化されたChain of Thoughtでこれらのモデルをトレーニングすることを考えてみましょう。昨日、Chain of Thoughtの正確な数学的定式化を見たとき、それが一種のブラックボックスであり、有効な数学的シンボルがないことを発見しました。しかし、構造化されたChain of Thoughtを実験してみるのはどうでしょうか。
アイデアショップを開いて、構造化されたChain of Thoughtを構築しましょう。もちろん、単純なものではなく良いものを作りたいので、構造化されたCSに複雑さの勾配を組み込みます。最終的には自己反省的で自己学習システムを目指しているので、データセットモデルを全体的に作ります。そして強化学習を行います。「今日はすべてが強化学習だ」と言うかもしれませんが、モジュール性と複雑さの勾配があるため、階層的強化学習を採用します。
報酬システム、報酬モデル、LLMの確実性、ロボティクス用のビジョン言語モデルなど、これらすべてについての動画があります。星印からQへ、そしてQ星へと移行したとき、マルチステップAI推論のためにすでに多くの強化学習方法論を開発したことを覚えているでしょう。これを取り上げましょう。
構造化されたChain of Thoughtを使い、適応型のものを構築すれば、これは特別なものになります。これで定義できるようになり、LLMに物理学や化学、数学のための構造化された推論パスを合成データで定義してもらう必要はありません。限られた数しかない場合、推論パスの表現と複雑さをコントロールできます。これが興味深いのは、物理学では物理学の法則が約100必要で、数理物理学の実装にはそれらが必要だからです。LLMを信頼する必要はなく、多段階推論に論理構造を定義し、刻印することができます。
もちろん、線形のチェーンではなく、グラフにして自己学習させましょう。自己学習システムの作り方について知りたい新人の方には、GAN理論とGoアルゴリズム、自己学習システムの設計図についての動画があります。必要なものはすべて揃っているので、アイデアを持ち、コーディングするだけです。この動画で必要な天才の閃きを探しましょう。
まず、構造化されたChain of Thought(思考の連鎖)ライブラリを構築または定義します。人間によって評価された(私が確実に行います)、50〜500の領域知識に特化した理論物理学、数学、化学、生物学、金融、医学など様々な分野の非線形な思考の連鎖を作ります。複雑さの強い勾配を持つ構造化されたテンプレートをモデル形式で構築し、これを単純に非線形思考の連鎖と呼びましょう。美しいですね。
今やAIの推論構造と複雑さの勾配を持つ推論の一貫性をコントロールできるようになり、これはまさにAIが私たちの特定領域の知識に関する思考プロセスで実装してほしいものです。金融の仕事、理論物理学、数学の仕事に特化した推論に深く入り込み、87億人のためのClaude 3.7深い思考のような単一モデルではなく、本当に特化した専門家システムを目指します。
強化学習と階層的強化学習があります。これは高レベルの連続であり、非線形思考の連鎖テンプレートがあり、古典的な方法で、複数のテンプレートの最適なトラジェクトリを学習するベースLLMがあり、このベースLLMは二次的な知性と推論LLMによって導かれ、より単純なサブ問題のシリーズを解決します。高い複雑さを複数のステップの低い複雑さの問題に分解します。
POから知られている古典的な強化学習ポリシーと報酬モデルアーキテクチャがあります。以前の動画で強化学習からDPO、POからDPOへのジャンプを示しましたが、特定の理由で元に戻ります。推論加速のために開発したQ-notを覚えているでしょう。テキスト読み上げ合成(TTS)でこれを行うことができ、モノ・カル研究構造のために開発した新しいポリシー報酬構造を実装できます。ただし、5時間前にYouTubeチャンネルに投稿した内容を忘れないでください。強化学習におけるPO方法論には、特に長いChain of Thought構造では崩壊が起きています。
この2024年3月4日の素晴らしい論文を読んだなら、古典的な学習目標と古典的なPPUがOpenAIによって開発され、二つの解決策が提案されていることを知っているでしょう。まず問題を特定し、それに寄与する二つの要因があり、最初の解決策は一般化された利点推定です。これは簡単な修正ですが、特に長いChain of Thoughtのパフォーマンスを最適化します。是非この論文を見てください、本当に素晴らしいです。
3月4日の新しい知見を考慮に入れましょう。B・ダンに感謝します。そして、Sonnet Sing ModelやO1、O3などのテスト時計算スケーリング(TTS)を行いましょう。これらの推論モデルは全て知られています。正しい答えであれば、2、3、4、10分待っても問題ありません。適応的なスケーリングとランタイムを持つ新しい推論スケーリングシステムを開発する必要があります。
非線形思考の連鎖テンプレートは、特定のクエリが入ってきたときにリアルタイムで集約され、階層的な推論パラダイムがあるため、推論パスの検索が簡素化され、正しいテンプレートを選択することで複雑な問題の推論能力が向上します。それらのテンプレートには、より低い複雑さを持つ子テンプレートがあり、すべてが論理レベルで事前定義されています。理論物理学でAIシステムがどのように議論し、特定の論理を適用し、数理物理学の特定の数学公式を適用するかを正確に知っているからです。これをコントロールでき、それが好きです。
さて、今日の新しいアイデアですが…いや、プリンストン大学がすでに実現しています。私たちは3週間遅れました。彼らは2025年2月10日にこれを発表しました。私たちが思いついたこの3つのステップをそのまま実装しました。この研究の背景と彼らが行ったことを正確に理解したので、プリンストン大学と北京大学の研究を読む必要はありません。これは彼らが実装したものと一対一で同じです。
時々、PhD学生たちは素晴らしいPhDトピックを探しています。今回は彼らがYouTubeチャンネルよりも速かったのです。プリンストン、今回はあなたの勝ちです。パフォーマンスを見てみましょう。これは本当に興味深いです。GPT-4 O1システム(巨大なシステム)とオープンソースLLM、あるいはRstarの数学やDeep Seekのバージョン3を見てください。もし330億のフリーパラメータシステムを使用し、この方法論を適用すれば(私たちはこれをReasonFLUXと呼んでいます、素晴らしい)、このシステムはすべてのオープンソース推論LLMを上回り、O1 miniも少し上回ります。専用の320億トレーニング可能なパラメータシステムで推論LLMを上回ることができるのは素晴らしいことです。
しかし、私たちはもっと欲しいのです。世界支配を目指しています。なぜ100%ではないのかと疑問に思わざるを得ません。私たちが何を間違えたのでしょうか?論理について考えれば、これは完璧なシステムのはずです。すべての数学的ルール、すべての数学的論理実装を実装しているはずです。トレーニングが完璧で、強化学習が完璧であれば、これは91.2%ではなく99.9%であるべきです。まだ改善の余地があります。新しいPhDトピックを探しているなら、いくつかのアイデアがあります。
今日のビデオの事実を見てみましょう。従来の退屈な方法でLLMに長い非構造化の線形Chain of Thoughtを生成させる代わりに…あ、プリンストンは線形のChain of Thoughtテンプレートを使ったのですね。なるほど、これでプリンストンが91%のパフォーマンスしか達成できなかった理由がわかりました。私たちのアイデアの方が良かったのです。この線形テンプレートは推論のための基本的な構成要素として機能し、テンプレートの最適なシーケンスを計画するために階層的強化学習を実装しました。
マスターテンプレート、通常テンプレート、子テンプレートの複数のステップ内でトラジェクトリがあり、コール研究モデルはどのテンプレートを使用し、どの特定の順序で使用するかを学習します。報酬モデルがシステム全体をガイドし、効率的な解決策へと導きます。これはトレーニングプロセスであり、完全な強化学習プロセスであり、含めたい複雑さを考えるとかなり複雑になる可能性があります。
また、内部の推論プロセスを最適化し、テンプレートごとに複雑な問題を処理し、効率性と堅牢性を向上させます。ただし、非構造化フォームによる潜在的な長期トークン生成に依存するのではなく、線形の高レベル戦略を見つけることが容易です。見ての通り、プリンストンは私たちの美しいアイデアに完全には追いついていませんでした。彼らはいくつかの単純化を行いましたが、それでも素晴らしく、Apache 2ライセンスで公開されています。
完全なコードとデータがあるので、GitHubリポジトリを見てみましょう。素晴らしい、データの10,000行があり、テンプレートには説明、適用、推論フローがあります。数学については後で少し教えます。もちろん実装もあり、ReasonFLUXのPythonクラス定義、コントローラー定義、依存関係、構造化された推論など、すべてが利用可能です。オープンソースなので、楽しんで自分のアイデアに実装してください。
そして彼らはこの美しいチャートを提供しています。数学的問題があり、彼らはO1 miniによる推論アプローチをステップ1、ステップ2、ステップ3と見て、それが4ステップであることを確認しました。O1の推論プロセスを調べ、正しい解決策を見つけるための正しいアプローチには完璧ではないことがわかりました。もちろん、彼ら自身のReasonFLUXシステムでは成功しました。異なるステップが見えます。彼らは正しい解決策を見つけました。
しかし、この情報自体が興味深いと思います。なぜOpenAIのO1モデルが失敗したのか考えてみてください。O1は世界中の数学の教科書をすべて持っていなかったのでしょうか?インターネット全体をコピーできなかったのでしょうか?私はそれに成功したと思います。だから問題ありません。そのため、線形および非線形のChain of Thought構造を構築したすべての情報、すべての例を持っているはずです。あるいは、O1は世界中のGPUクラスタにアクセスできなかったのでしょうか?その時点でMicrosoftは必要なすべてのクラスタにアクセスできました。
数学的推論は、理論物理学と比較すると単純です。数学はその複雑さの構造において簡単で、特定の構造を解決するための明確な経路があります。なぜOpenAIは失敗し、ReasonFLUXの方が優れているのでしょうか?これは、世界中の教科書と数学でトレーニングされたすべての推論モデルもまだ失敗していることを意味するのでしょうか?そしてなぜでしょうか?発見すべき多くの研究トピックがあります。
北京大学とプリンストン大学によるこのReasonFLUXの実装について、一般的な制限についてお話しましょう。そのChain of Thoughtテンプレート、ライブラリ、彼らが導き出した数学の推論パスの質に成功は依存します。合成的なものに対しては素晴らしいかもしれませんが、限られた数のChain of Thoughtテンプレート、それも非線形のテンプレートがある場合、人間に投資して、私は理論物理学のための自分自身のChain of Thoughtテンプレートを書くことが良いと思います。なぜなら、私のシステムがどのように考え、操作したいかを知っているからです。
品質が一つのトピックです。これは本当に最も単純なケースの一つである数学的推論、数学だけに焦点を当てています。通常の人間の言語について考えてみてください。どれだけ多くのバリエーション、変更、置換があるのか、生物学や医学について考えてみてください。医学では、微分積分のための数学的公式はありませんし、理論物理学についても考えてみてください。これをより高い複雑さに持っていくことが課題になるでしょう。そして、あなたのPhDが待っています。
階層的強化学習トレーニングの方法論の複雑さについても考えてみてください。100%のパフォーマンスにはまだ達していないようです。もちろん、トレーニングに複雑さの追加レイヤーが加わり、時間がかかり、より多くの費用がかかりますが、最適化の余地もあるようです。これらの制限は、未来への道筋を示しています。
さて、結論に移りましょう。プリンストンと北京大学が公開したテンプレートを見てみました。これらは彼らの指針、彼らの最高の完璧なシステムでした。知識タグ、説明、適用シナリオ、推論フロー、そして明示的な解決策が計算された推論フローに基づく例があります。これは悪くないと思いますが、これは私が始めたときのように、古い教科書とまったく同じです。私たちが人間として行ったことであり、今では愚かなAIマシンが学ぶために、増加する複雑さでこれを特定のテンプレートで定式化する必要があります。何かがおかしいです。
古い教科書にあったものであり、OpenAIのLLMが100%を達成できなかったことは理解できません。別のトピックを見てみましょう。推論フロー、例、問題、そして実際に段階的な解決策がありますが、もちろん線形の順序ですが、まあプリンストン大学ですからね。段階的な説明がすべてあり、それでもO1はパフォーマンスに失敗しました。
O1がトレーニングされた非構造化の線形Chain of Thoughtトレーニングには何が欠けているのでしょうか?次世代のAIは異なる論理でトレーニングされる必要があるでしょう。なぜLLMは教科書から直接理解できなかったのでしょうか?この公式の適用シナリオ、推論フロー、単純な三角関数、簡単な例、すべての解決策を見てください。これは教科書にあるものであり、それでも最高の推論システムは100%に達していません。なぜこれが起こるのでしょうか?何が欠けているのでしょうか?これは魅力的です。
もちろん、このチャンネルの登録者であれば、「あなたはChain of Thoughtで作業しているが、8ヶ月前の動画では、Graph of Thought(思考のグラフ)がChain of Thoughtよりも推論パフォーマンスがはるかに優れていることを示した」と言うかもしれません。登録者としてのあなたがいることは素晴らしいことです。そしてはい、あなたは正しいです。Graph of Thoughtはこの複雑さでは探求されておらず、モノローグ研究やより高い複雑さレベルでの適応型モノローグトレインと比較すれば、グラフ構造の実装はほぼ100%に達するのに本当に役立つかもしれません。
テスト時計算スケーリング、推論実行についても話しました。プリンストンのTTSが最適なシステムではなかったのかもしれません。あるいは、7分間実行していたのが、27分間の推論実行時間が必要だったのかもしれません。わかりませんが、探索できる、試すことができる、発表できる、取り組むことができる新しい研究、新しいトピックがたくさんあることがわかります。私たちはただ美しい刺激的な時代に生きています。
今日はこれで終わりです。プリンストン大学、素晴らしいReasonFLUX、北京大学との素晴らしい協力、これは素晴らしいことです。世界で最も権威のある大学の研究に数週間遅れているだけです。より近づき、学習を加速し、学習速度を上げる必要があります。もし私に参加したいのであれば、ぜひチャンネル登録をお願いします。次の動画は明日公開される予定です。


コメント