オフポリシー「ゼロRL」をシンプルに説明

AGIに仕事を奪われたい
この記事は約20分で読めます。

11,509 文字

Off-Policy "zero RL" Explained in simple Terms
Latest Ai research on Off-Policy RL vs SFT for AI Complex Reasoning - LUFFY (on-policy and off-policy zero RL integratio...

こんにちは、コミュニティの皆さん。お帰りなさい。最新のAI研究を見ていきましょう。Luffyという2つの論文について話します。この2つの論文は約1ヶ月の間隔があります。こちらは3月21日、そしてこちらは昨日の2025年4月21日のものです。
ここでは強化学習について話します。特にこの論文では、ベースモデルの推論能力がどれほど優れているか、そしてオフポリシーガイダンスのもとでの推論学習をどのように最適化できるかを見ていきます。これを読んで、「オフポリシーガイダンスとは何か?」と思いましたので、このトピックに入っていきましょう。
最初の論文では、推論モデルの推論トレースで「あっ、今わかった!」「ちょっとこれを試してみよう」というような「アハ体験」を見つけたと言っています。彼らはDeepSeek バージョン3のベースモデルにすでにこれが備わっていることを発見しました。つまり、プリトレーニング済みのベースモデルにすでに強力な推論能力があり、プロンプトテンプレートも必要ないと言っています。Q1 2.5のベースモデルも強力な推論能力を示しているとのことです。
素晴らしいですね。これは私が以前から言っていることにぴったり合っています。推論能力はLLMのプリトレーニングと継続的プリトレーニングに組み込まれているのです。彼らはGRPOも調査し、より最適化されたGRPOを発見しました。これは素晴らしいことです。
彼らは「oat」という新しいGRPO実装を持つ新しいモデルを開発したと言っています。彼らのベンチマークを見てみましょう。AIM24のベンチマークで、新しい07Bモデルのパフォーマンスが43.3%と素晴らしい性能を示しています。
興味深いことに、1ヶ月後の論文(シンガポール国立大学、シンガポール経営大学、上海AI研究所、西湖大学、香港中文大学による)でも同じくAIM24を使っていますが、同じ07Bモデルのパフォーマンスが突然31.7%に下がっています。これは彼ら自身のモデルがAIM24でそれほど良くないからです。1ヶ月で比較すると、元の論文のデータと1ヶ月後のデータで大きな差があるのは興味深いですね。なぜこうなったのかはわかりませんが、ともかくAIM24の数値を覚えておいてください。
他のベンチマークを見ると、AMCテストでは62.7%と61.6%なので、わずかな違いです。30.1%と29.8%も小さな差です。AIM24に大きな違いがあることを覚えておいてください。新しいLuffy 07Bのパフォーマンスは29.5%で、元のAIM24の43%と比較すると何かが起きているようです。
気にせず、理論的なアプローチに興味を持ちましょう。このビデオを始めて、何が起きているかを見ていきます。
私たちはゼロ強化学習の領域にいます。これは非常に具体的な技術用語で、何を意味するのでしょうか?ベースモデルに直接強化学習を適用するということです。間に教師あり微調整はありません。モデル自身のロールアウトを使って推論能力を引き出すのです。
根本的な制限として注目すべきなのは、これが本質的に「オンポリシー」であるということ、つまり学習は反復試行とフィードバックを通じてモデルの自己生成出力のみに制限されるということです。
ゼロRLはベースモデルに直接適用されるRL(強化学習)であり、オンポリシーとはモデル自身の自己生成出力を用いることです。良好な結果を示していますが、ゼロRLはベース言語モデル自体に制限されています。特に複雑な推論においてはそうです。
ハーバード大学の論文では「エコーチェンバー強化学習」と呼ばれる現象について説明しています。ポストトレーニングはプリトレーニングで学習した行動を増幅するだけであり、それ以外の何も生まれないということです。暗闇から知能が湧き出すことはありません。ゼロRLはベースモデル、プリトレーニングモデルのパフォーマンスと訓練にのみ制限されています。以上。
もちろん、AI研究者として私たちは「どうすればLLMがプリトレーニングの初期認知境界を超える推論行動を獲得できるか?」と問います。これが失敗するなら、別の解決策があるはずです。
私は以前から、より強力なAIからの推論トレースを弱いLLMに教師あり微調整によって蒸留する方法について多く話してきました。つまり、推論トレースの知能を教師あり微調整によって転送するのです。DeepSeekはオープンソースで素晴らしいことにDeepSeek R1とR1 distilled Q132Bモデルを提供しています。
しかし、OpenAIのO3のような非公開モデルでこれをしたい場合、UC Berkeleyの手法を使ってローカルで実行できる小さなモデルを取得できるかどうか疑問に思いました。
ここで用語を少し正確にする必要があります。このプロセスは「模倣学習」と呼ばれ、「転移学習」、特に「知識蒸留」の傘下に入ります。しかし重要なのは、これはオフポリシー強化学習ではないということです。これはすぐに重要になってきます。
なぜ違うのかと疑問に思うかもしれませんので、定義から始めましょう。
模倣学習: 小さなLLMが強力なAI(専門家)の行動、推論ステップ、トークンを模倣することを目標とします。教師あり微調整を使用し、通常はシステムのクロスエントロピーに関連する損失関数があります。
転移学習: 一つのモデル(強力な教師AI)で得られた知識を別のモデル(生徒LLM)に転送します。
教師モデルによって生成された推論トレースから大きなモデルから小さなモデルへ推論能力を蒸留します。教師あり微調整プロセスがこれを実現するメカニズムです。
では、なぜこれがオフポリシー強化学習ではないのでしょうか?考えてみてください。報酬信号が欠けています。オフポリシー強化学習は、状態、行動、その発展という経験タプルから学習に依存しています。特定の環境フィードバックやタスクの成功によって定義された累積報酬を最大化することが目標です。
対照的に、教師あり微調整プロセスには明示的な報酬信号がありません。教師あり微調整では損失関数だけがあり、それは専門家の出力トークンとの一致、尤度最大化のみに基づいており、環境からのフィードバックに基づくタスク完了による高い報酬を達成することではありません。
ハードウェアの例で考えてみましょう。生産プロセスチェーンが100%従われることを望んでいるとします。「新しい製造方法を思いついた」とは言ってほしくありません。これは時間が決まっており、コストを正確に把握しており、信頼性のあるプロセスです。テスト済みで品質保証がされています。だから私は教師あり微調整を使って、生産ラインで厳格なタスク追従を求めるのです。
強化学習は別物です。学習アルゴリズムでは、教師あり微調整はクロスエントロピー損失に対する標準的な教師あり学習最適化、勾配降下法を使用します。オフライン方針RLはQ学習やアクティブクリティーク法などの特定の技術を使用し、潜在的に異なる方針によって生成されたデータを使用して環境からの報酬信号から最適な行動を学習するように設計されています。数学的観点から見ると、これは方針最適化問題です。
つまり、オフポリシー強化学習の目標は、定義した報酬関数に従った最適性であり、教師あり微調整の目標は専門家のトレースへの忠実性、特にその正確な専門家のトレースへの忠実性です。
ハードウェアの例に戻ると、生産ラインが突然「よりよい方法を思いついたので、まったく別のことをやります」とは言ってほしくありません。教師あり微調整ではプロセスルールに厳密に従うことを望みます。素晴らしい。
小さな言語モデルをより大きな言語モデルの推論トレースで教師あり微調整すると、それは模倣学習であり、転移学習です。データ自体はオフポリシーであっても(モデル自身のオンポリシーデータではなく、クラウドベースや巨大なLLMからのオフポリシーデータを使用するため)、学習パラダイムは教師あり模倣であり、強化学習ではありません。データの特性ではなく、学習パラダイムが定義特性です。時々人々はこれを混同します。
教師あり尤度最大化について尋ねられるかもしれませんが、これは生成AIモデルの教師あり微調整の目標を達成するために使用する数学的目標に過ぎません。教師あり微調整の目標は、微調整データセットに提供された望ましい出力に非常に類似した出力を生成するようにモデルの行動を適応させることです。
教師あり微調整は特定のダウンストリームタスク向けに微調整することを忘れないでください。ハードウェア生産施設では、このダウンストリームタスクが正確に従われることを望みます。医薬品を製造する場合、プロセスは100%従われなければなりません。つまり厳格なトレースが必要です。
厳格なトレースについて不満を持つ人がいるとすれば、彼らは基本的な間違いをしています。なぜなら彼らが求めているのは全く異なるもの、新しい知識や新しい知識に基づく新しい推論であり、これを教師あり微調整で達成しようとしているからです。私たちはこれが適切な方法論ではないことを知っています。
これはタスク固有のものです。新しい知識を生成し、統合したい場合、プリトレーニングと継続的プリトレーニングが必要であることを私たちは知っています。
では、ゼロRLの場合はどうするのでしょうか?「LLMに初期モデル固有の境界を超える推論行動を獲得させるにはどうすればよいか?」という質問に対して、模倣学習ではDeepSeek R1の大きなモデルからトレースを取得し、小さな32Bモデルに学習させますが、これは特定のタスクに対するDeepSeekからの厳格な推論モデルに小さなLLMを閉じ込めることになり、さらなる自由な学習を妨げます。
または、今日の主要な新しいアイデアとして、オンポリシー(モデルの自己生成出力)に加えてオフポリシーの知識を取り入れるというものがあります。オンポリシーの自己生成出力とオフポリシーの推論トレース(小さな32Bモデル用のR1から)を組み合わせることができます。これが新しい方法論であり、「オフポリシーガイダンスのもとでの推論学習(Luffy)」と呼ばれ、統一されたゼロRL(強化学習)パラダイムです。
つまり、ゼロRL(ベースモデルに直接適用されるRL)の中にとどまりながら、オンポリシーとオフポリシーを統合します。これはGPOなどの従来のゼロ強化学習法に基づいて、LuffyがR1からのオフポリシー推論トレースを導入し、Q1自身のオンポリシーロールアウトと計算前に組み合わせるというものです。
小さな問題として、一つの解決策へのエントロピー崩壊が即座に起こってしまいます。オフポリシートレースを単純に組み合わせると、過度に急速な収束と完全なエントロピー崩壊が起こり、モデルが真の推論能力を獲得するのではなく、表面的なパターンに固執してしまう可能性があります。
Luffyの論文の最後では、彼らは解決策を見つけたと述べています。それは言語モデルに高品質な推論トレースをR1から模倣させつつ、モデル自身の推論トレースに制限された独自のサンプル空間の探索を維持することを奨励するものです。
これはどのように可能だったのでしょうか?著者たちは正規化された重要度サンプリングによる方針形成を導入しました。この新しい方法論の効果は、オフポリシーガイダンスの下での大きな製品からの低確率だが重要な行動に対する学習信号を増幅することです。
つまり、数学的最適化問題である方針最適化問題に新しい正規化された重要度サンプリングがあり、方針に何らかの形成が行われているということです。この形成によって達成される最良の結果は何でしょうか?
Luffyは以前のRL0手法と比較して平均で7ポイントの明確な改善を達成しています。7ポイントはそれほど多くありませんが、2ポイントよりは良いですね。
古き良きGRPO公式(クリッピングなど)を思い出してください。もしこれに詳しくなければ、「AI数学を簡単に説明」という私のビデオをご覧ください。
私たちは混合方針GRPOを持っています。オフポリシー目標とオンポリシー目標の部分があります。ここにR1トレースからの知能を導入し、ここにオンポリシー目標、モデル自身が環境からのフィードバックを持つ推論能力から生成できる知能があります。すでに正規化因子があります。
彼らは定理を見つけ、境界によってクリップされる重要度の重みを導入しました。混合方針は重要度サンプリングによってオフポリシーロールアウトを正常に組み込みますが、新しい実用的な課題、新しい問題が生じます。重要度サンプリングは収束を加速するが、探索を大幅に減少させます。
私たちは探索を望んでいます。暗い部屋の中を懐中電灯で探索し、特定のオブジェクトを見つけたら、そのオブジェクトをさらに調査したいのです。AIには新しい推論パターンを見つける能力だけでなく、推論パターンを見つけたらそれをより深く掘り下げ、推論パターンの解決策も見つけてほしいのです。同時に両方を行いたいのです。
しかし、オンポリシー強化学習よりもさらに速くエントロピー崩壊が起こることがわかりました。これはロールアウトがますます決定論的になり、多様な推論軌道を探索する能力が低下することを示しています。AIには可能なすべての解決策、解決策空間の中のすべての解決策を探索してほしいのです。一つの解決策にミリ秒単位で収束するのではなく、問題がいくつあり、自分の問題に対する異なる視点がいくつあるのかを理解しようとし、その後一つの解決策を選ぶことを望みます。多様な推論軌道の探索が必要です。
この特定の問題に対処するために、著者たちは方針形成を導入しました。形成パラメータγを持つ正規化された重要度サンプリング技術で、R1推論トレースとオフポリシー分布からの低確率トークンからの学習を強化するためにオフポリシー分布の勾配を再重み付けします。低確率トークンに焦点を当てる必要があります。計算からただ除外されないよう、より強く取り入れる必要があります。
方針形成を持つ損失関数について、数学的な形式にさらに興味があれば、これが実装のための新しいコードベースになります。両方の論文についてGitHubリポジトリがあり、そこでコードを見つけることができます。私はここで基本的なアイデアを説明したいだけです。
この方針形成は、オフポリシー目標の勾配を導出し、重要度サンプリングとなるこの項を解くことができます。いくつかの数学的な計算を行うと、形成関数が勾配を再重み付けする形式で書き直すことができます。これは私たちが始めたいことでした。形成関数が勾配を再重み付けすることを望み、この数学的な公式でその戦略的な目標を達成しました。
数学は単に私たちのニューラルネットワーク計算に入れるコードの一部を見つけるために使用したツールでした。私たちはR1のオフポリシートレースからの未知だが効果的な決定からの学習を改善し、R1の推論を小さな32Bの知識体に統合したいのです。勾配を再重み付けするこの形成関数によって、これを達成します。
数学は単に私たちのアイデアを追求するためのものです。形成関数は低確率のアクションにより重要性を割り当てるために勾配を再重み付けし、それによってオフポリシートレースからの未知だが効果的な決定からの学習を改善します。簡単ですね。
残念ながら、次の問題がありますが、解決策を見つけることができます。私たちは研究者です。Luffyはオンポリシー強化学習と比較してより頻繁なクリッピングを経験し、これは高品質のオフポリシートレースからの学習を抑制する可能性があります。
数学をより深く見ると、クリッピングが非常に強力であるという問題があることがわかります。論文の著者たちは、より大きな柔軟性を可能にするために、オンポリシークリッピングの数学的な項を削除することを提案しました。これは勇敢な動きです。問題を引き起こしているのがわかっていますが、オフポリシートレースを持ちたいので、この特定の項を削除するというものです。
事実を見てみましょう。これは美しい論文で、完全な論文です。通常、1ページ目に美しい抽象と、コア要素、新しいもの、新しい洞察を示す視覚的なガイドがあります。しかし、この論文を際立たせるのは2ページ目です。ここで著者たちはAIの世界をどのように見ているか、彼らの原則的な理解、遭遇する問題、取り組んでいる問題、アプローチ、解決策、そしてその解決策の限界について説明しています。
私個人としては、2ページ目の質を見て、論文を読むかどうかを判断する決定要因とします。著者たちが本当に1週間前に出たばかりの論文への参照を持っているのを見たとき、「先週論文が出て、これに参照できると思う」と言い、この真新しいデータも統合しようとしているのを見ると、AIリサーチの最先端を行く人々がいることがわかります。それをページ2で示してくれるのが好きです。この論文が私の好きな点です。
この論文の最後のページを見てみましょう。ここで結果を示しています。ベンチャーキャピタルのミーティングを想像してみてください。「さて、紳士淑女の皆様、このスタートアップ企業に投資すべき最も説得力のある議論をお見せします」と言って、これが出てくるのです。
これは興味深いチャートです。少し時間をかけて見てみましょう。まず、彼らは温度をつけたLLMを提供しています。温度が高いほどLLMの創造性が高くなりますが、我々は数学的に訓練されたQ1 2.5 70億のパラメータモデルについて話しています。通常、数学モデルでは高い創造性ではなく、堅固な非創造的な数学モデルを望むはずです。興味深いことに彼らは温度を示しています。なぜでしょうか?
そして特定のベンチマークの精度があります。彼らのデータは1つのベンチマークではなく、ベンチマークのセットから2つのベンチマーク、AIM24(このビデオの始めから覚えていますか?)とAMCを選択しています。彼らは当然、自分たちを最良の光の中で見せたいので、これらを選んでいます。彼らは巧みにポジット1ではなくポジット8(k=8)を使用しています。先週の論文を読み、何をすべきかを正確に理解しています。
黄色の線がオンポリシー強化学習の古典的なもの、青い線が教師あり微調整で何か全く違うもの、そして赤い線が彼らの新しいLuffyモデルです。もちろん、それは残りよりも優れています。
温度があるため、これを温度0から0.6までは赤と青(または青緑)の線がほぼ並行で、ほとんど同じレベルにあると解釈します。これはあなたが望むものではありません。モデルが優れていることを示したいからです。
巧みに、温度0.6から1、つまり数学モデルがより創造的である高い創造性の領域で、違いが見えると言っています。温度0.6以上では、それらは非常に近く、単純な方法では私にはこれらのモデル間に違いはありません。彼らのモデルがどれだけ優れているかを指摘するために、温度スケールを導入しています。これは標準的ではありませんが、良いアイデアです。彼らの利点は創造的な数学(それ自体が矛盾していますが)にある場合です。
教師あり微調整は温度が高くなると減少しますが、私の特定のユースケースでは、数学モデルは低温で使用します。なぜなら私は堅固な数学的演繹を望んでおり、数学AIが「新しいアイデアを探索し、少し狂ったことをして、どこに行くか見てみよう」とは言ってほしくないからです。私はどちらかというと保守的です。
だからこそ温度付きのこのチャートが重要なのです。そうでなければ、私のユースケースでは教師あり微調整とこの新しい方法論(複雑なもので、数学的に深く掘り下げたいなら、異なる書き直し最適化問題で人間によって導入された特定の用語の最適化がある)はほぼ同じパフォーマンスだと言うでしょう。
結論として、Luffyはオンポリシー強化学習と教師あり微調整の両方を上回ると述べていますが、これは強い主張です。データを見せてください。古典的な解決策が欠けていることに気づきましたか?オンポリシーRLと教師あり微調整を示す曲線はありますが、古典的な教師あり微調整を行った後に強化学習を行う曲線はどこにあるのでしょうか?
オンポリシー強化学習がすでに70%以上、教師あり微調整が70%だとすると、これらを組み合わせることでさらなるパフォーマンスが得られるかもしれませんが、データがないので分かりません。彼らはデータを持っていたが、教師あり微調整と強化学習で実行することを決めなかったのは、理論的にはそのパフォーマンスが彼らの赤いモデルを上回っていたからかもしれません。
最終結果を見るときは少し注意し、より詳しく見ると、弱い解釈や特定の視覚化がベンチャーキャピタリスト向けにあることがすぐに理解できます。あなたはユーザーとして、この方法論を実装するかどうかを決定します。これは7Bモデルに関するものであり、これは素晴らしいことで正しい方向だと思います。32Bモデルに上げることもできますが、オープンソースコミュニティはモデルをローカルインフラで実行したいと言っています。そのため、7Bはすでにかなり多いかもしれません。
この動画を見る特別な価値として、何かをお伝えしたいと思います。まず、これは正確な引用です。教師あり微調整と比較して、Luffy(著者たちの方法)は平均して2ポイントの注目すべき改善を達成し、より強力な言語推論モデルから知識を蒸留するためのより堅牢で効果的な代替手段を提供します。
2ポイントはそれほど多くないと言わなければなりません。最初に話したAIM24データの不一致を覚えていますか?7BモデルでAIM24のパフォーマンスが大きく異なっていました。データをよく見ると、教師あり微調整と比較してこの方法は注目すべき改善を達成し、より強力なLLMから知識を蒸留するためのより良い、より効果的でより堅牢な代替手段であるという結果が得られるでしょう。
しかし、これは本当に真実なのか、それとも特定の構成の解釈に過ぎないのでしょうか?彼らは透明性があり、15億のパラメータモデルにもデータを提供しています。これはスタンダードであるべきです。
Q1 2.5 math 1.5のベースモデルとインストラクトモデルについてデータを提供しています。ここにAIM24、AIM25、AMCのデータがあります。主な結果はAIM24とAMCを組み合わせたものでした。純粋な教師あり微調整(SFT)がここにあり、次に古典的な標準オンポリシー強化学習があります。これはモデルが自身で生成する解決策であり、R1トレースの注入なしですが、報酬関数があります。報酬は環境からのフィードバックで、強化学習モデルとしての行動が良かったか悪かったかを教えてくれます。その行動が成功したかどうかによって、正または負の報酬を得ます。そして最後の行に新しい挑戦者Luffyがあります。
彼らが発表で行ったように、AIM24とAMCを組み合わせると、彼らのデータによるとAIM24ではSFTとLuffyは同一で15.2対15.2ですが、AMCではLuffyの方が優れており43.5対46.8です。これら2つを組み合わせると、Luffyは教師あり微調整より良いことがわかります。
しかし、悪魔の代弁者として、より高度なAIMであるAIM25とManeuver(別のベンチマークデータセット)を選ぶと、状況は変わります。ここでは教師あり微調整の方が優れており、MinervaでもLuffyよりも優れています。最終結果が特定のベンチマークの集合である場合、なぜなのかがわかりますね。
視聴者により多くの価値を提供するために、ロジックを示します。推論トレースには知識が必要です。つまり、ベースモデル(プリトレーニング済みモデル)が最新の知識を持っていない場合(例えば医療分野で)、その特定のドメインの知識を更新するために継続的なプリトレーニングを行う必要があります。
推論トレースは特定のタスクのための推論を実装します。これが教師あり微調整であり、完全にタスク固有です。タスクが正確に100%従われることを望んでいます。生産ラインの会社の例を挙げました。創造性の自由ではなく、厳格な学習を望みます。コスト最適化されています。
つまり、教師あり微調整を行うのは、会社や自分自身のために非常に特定のタスクを定義し、そのタスクが正確に従われることを望む場合です。多くのトレーニングデータがあり、ドメイン内の知識が存在することを確認する必要があります。知識がなければ、特定のタスク指示、推論は単に失敗します。
これが教師あり微調整であり、推論トレースは達成したい特定のモデル動作のために調整または強制することができます。これが古典的なものです。OpenAIのPO、GRPOなどがあります。これはモデルの動作を修正したい場合のものです。
例を挙げます。私はヨーロッパにいますが、Llama 4について聞いた最新の情報によると、Llama 4は確かに良いモデルだが、大規模なトレーニングが必要だということです。これは単なる噂で事実ではありませんが、理由はLlama 4がMetaのソーシャルプラットフォーム全体をサポートしているからかもしれません。
マーク・ザッカーバーグの経営陣がLlama 4の方向性をアメリカの現在の地政学的方向性、支配的な政治的ドクトリンに合わせようという考えがあったとします。モデルはこれを反映すべきだと。
思考実験を想像してみてください。プリトレーニングデータ、継続的プリトレーニングデータ、教師あり微調整データがインターネットやソーシャルプラットフォームに基づいている場合、意見の美しい混合があるかもしれません。そして経営陣が、ソーシャルメディアのアルゴリズムと設定を管理する新しいLlama 4モデルが特定の政治的イデオロギーに従うことを望んだとします。
トレーニングの最後に、モデル全体を曲げようとします。もちろん、多くのことが間違う可能性があります。新しい強化学習データがプリトレーニングの知識や教師あり微調整の知識と言語的・意味的に互換性がない場合を想像してみてください。モデルを、データによってサポートされていない方向に曲げようとしているのです。
Llama 4の大規模な再トレーニングで($1,000を大幅に超える金額)、Llama 4を「良い」推論を持つ平均的なパフォーマンスのモデルにできるという兆候があれば、Llama 4のトレーニングプロセスの最後に何かが起きたことを示唆します。科学的な同僚たちがLlama 4を大規模に再トレーニングして修正する必要があると言い、それが良いモデルになるという考えがあるなら、これはステップバイステッププロセスがいかに敏感であるかの美しい例でしょう。
モデルをデータによってサポートされていない方向に曲げようとすると、モデル全体が大幅にパフォーマンスを失う可能性があり、これがLlama 4で起きた可能性があります。米国の状況に詳しく、この話題についてもっと知っているなら、このビデオの説明にコメントを残してください。
素晴らしい新しい出版物です。もちろんGitHubもあり、39分前に更新されたREADMEファイルがあります。すべてそこにあります。彼らはモデルの構築方法、モデルの実行に使用したもの、matt verifyや数学的推論評価、オープンソースコミュニティ、numina matt、open、matt 220kなどのデータセットを含むバックボーンを認めています。これらのデータセットはHugging Faceで利用可能です。
これは引用元であり、美しい論文です。ぜひ見てみることをお勧めします。このようなビデオにもっと興味があれば、ぜひ登録して、次のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました