中国がついに究極のLLMプロジェクトを発表！

6,711 文字

La Chine dévoile son projet de LLM ultime !

Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! la newsletter vis...

非常に新しいAIモデルが公開されました。DeepSeek R1と同等の性能を持ちながら、サイズがはるかに小さく、実際にあなたのコンピューターで実行できるものです。非常に類似した結果を提供し、驚異的な速度で動作する思考モデルです。最も素晴らしいことは、このモデルが完全にオープンソースであることです。
皆さん、こんにちは。これはアリババのQueen 2モデルで、Queenモデルシリーズの一部であり、彼らはちょうどそれをリリースしました。DeepSeekは今や王座から降ろされ、OpenAIは多くの心配をする必要があるでしょう。実際、中国企業アリババ（中国のeコマース大手）がAI分野の真の基準になりつつあることをご存知ください。彼らは最近、One 2.1というビデオモデルをリリースしました。これはAIによるビデオ生成モデルで、テキストだけでビデオを生成でき、他のすべてのモデルよりも完全に優れています。しかも完全にオープンソースで、あなたのコンピューターで実行することもできます。私は実際にComfy UIというソフトウェアを使ってローカルでテストする機会がありました。つまり、彼らは本当に基準として位置づけようとしており、今日それを見ていきます。
まだご登録いただいていない方で、ご興味がある方は、私たちの魅力的な時代の技術革新をお見逃しなく、チャンネルにご登録ください。私たちは毎日1本の動画を配信しています。また、動画の下の説明欄に私のニュースレターのリンクがありますので、毎週1回、その週の最高の技術ニュースをまとめたメールをお送りします。
それでは、AIに行わせたベンチマーク（テスト）を見てみましょう。ここでは明らかにDeepSeek R1と同等であることがわかります。DeepSeek R1は6710億パラメータを持つ完全なAIバージョンですが、この新しいQueen 2モデルはわずか320億パラメータしかありません。つまり、あなたのコンピューターで簡単に実行できるということです。実際には非常に小さなAIモデルで、ほとんど容量を取らず、パラメータも非常に少なく、ローカルで非常に簡単に使用できます。
MMLU 2024ベンチマークでは79.5点を達成し、DeepSeekは79.8点です。Live Code Benchを見ると、確かに数ポイント下ですが、それでも非常に同等です。Live Benchではデプシークよりも優れており、BFCLでは6ポイント上回っています。このように続けることができますが、実際、このモデルはわずか320億パラメータでDeepSeekよりも優れています。
アリババのブログを見ると、もちろん強化学習から始めています。これはOpenAIや他のすべての企業が思考モデル、つまりO1、O3、最新のClaude、Grok 3などを訓練するために使用しているのと同じ技術です。そして、DeepSeek R1が達成したことを達成するために使用したのと同じ技術です。私はすでにこのチャンネルで長く話し、コンセプトを説明するためにいくつかの専用動画を作りましたが、少し復習しておきましょう。あまり時間をかけずに説明します。
実際、強化学習（RL）は、AlphaGoが世界最高の囲碁プレイヤーになり、有名な「37手目」のような人間が想像したことのなかった囲碁の戦略を発見することを可能にした同じ方法です。大まかに言えば、人工知能が自分自身を訓練する方法と考えることができます。AIはさまざまなことを試み、自分自身に対して多くのゲームをプレイし、毎回改善します。正解を見つけると報酬を受け取り、間違えると何も受け取りません。例えば、動物を訓練してトリックを教えるのと少し似ています。もちろん、これは実際のプロセスの簡略化ですが、基本的にはそのような感じです。
囲碁の例に戻りましょう。囲碁で互いに対戦する2つのAIを想像してください。（チェスでも同様です）。最良の戦略で勝利したAIには、その勝利に対して報酬を与えることができます。そして、その勝利した戦略を別の戦略と対戦させます。これを何十回、何百回、何千回、さらには何百万回も行うことを想像してください。最終的には、何百万もの対戦を行い、あらゆる状況で最適な戦略を見つけたAIが、囲碁をプレイするための最適な戦略を学習します。
これは基盤モデルに思考行動を生み出すのに本当にうまく機能します。基本的に基盤モデルとは、ChatGPT-4のような思考を行わない基本モデルのことです。この小型または中型のモデルを取り、DeepSeekによって普及したこの新しい強化学習技術を適用すると、突然、素晴らしい思考モデルになります。例えば、O3の訓練方法はこのようなものだと思います。ChatGPTの基盤モデルを取り、RLを通過させ、O3を訓練することに成功しました。
これが大まかな強化学習の説明です。この新しいAI、Queen 2に戻ると、彼らはエージェント関連の能力に特化して訓練したと言っています。批判的思考やツールの使用に非常に優れています。これは後でエージェントについて話すときに重要になります。
まず、彼らはどのように行ったのでしょうか？分析後、彼らはコールドスタートモデル（チェックポイント）から始め、結果に基づく報酬の新しいスケーリングアプローチで先ほど見た強化学習（RL）を実装しました。これは専門用語で複雑に聞こえるかもしれませんが、非常に簡単に説明し、すべてを理解していただけるようにします。これが非常に興味深い点です。
大まかに言えば、子供に自転車の乗り方を教えるところを想像してください。それを奨励する方法は2つあります。1つ目の方法は、例えば公園を転ばずに一周できた場合にのみ「よくやった」と言うことです。自転車を与え、「公園を5周しなさい」と言い、戻ってきたら報酬（おもちゃやお菓子など、子供が喜ぶもの）を与えます。これが「結果に基づく報酬」と呼ばれるものです。完全に成功するか失敗するかの二者択一です。
2つ目の方法は、私がはるかに良いと思う方法ですが、小さな勝利ごとに褒めることです。例えば、自転車を与え、子供が自転車に乗れたら「素晴らしい、自転車に乗れたね」と言い、3メートル漕げたら「素晴らしい、3メートル漕げたね」と言って、例えば小さなタップをします。たとえその直後に転んでも。これが「過程に基づく報酬」と呼ばれるものです。
これが強化学習の2つの大きな家族です。私たちのAIの場合、最初の方法を使用すると、与えられた問題の10段階のうち9段階を正しく解決しても、最後のステップで間違えた場合、失敗のメッセージ、つまり罰を受けることになります。これは自転車に乗る練習生に「コースの99％を完了したけど、最後に転んだから失敗だよ、報酬なし」と言うようなものです。
社会学の話をしているわけではなく、どちらが良いとか悪いとか、どちらの方法が優れているとか言っているわけではありません。AIを訓練する2つの方法について話しています。
これら2つの側面を理解したところで、Queen 2の訓練を開始するために、特に数学とコードについてはこの「すべてか無か」のアプローチを使用したと述べています。これらの分野では、最終的な答えが正しいかどうかを確認するのが簡単だからです。これも二者択一です。正解か不正解かのどちらかです。テトリスゲームのコードを書くよう頼んで、最終的にSnakeゲームになったら、それは正しい結果ではありません。基本的には多肢選択式の試験のようなもので、正解か間違いかのどちらかです。
この方法がモデルにこのようなモデルすべてに求められるステップバイステップの思考能力を開発することを可能にしました。彼らのアプローチの天才的なところは、まず検証が簡単な分野から始め、その後他のスキルに拡大したことです。正しいか間違っているかがわかり、モデルにとって強い報酬シグナルを作成します。
伝統的な報酬モデルに頼るのではなく、最高の正確さを保証するために数学的問題には精度チェッカーを使用し、生成されたコードが事前定義されたテストケースに合格するかどうかを評価するためにコード実行サーバーを使用しています。これは興味深いアプローチで、数学には別のモデル（チェッカー）を使用して、回答の精度を地上の真実と比較して評価し、コードについては、コードが正しいかどうかをチェックするテストを書いたサーバーを使用し、それを報酬シグナルとして使用しました。
簡単にまとめると、数学とコーディングの分野に強化学習を適用し、継続的に改善してきました。さらに一歩進んで、最初のステップの後、知識と一般的な能力のための別の強化学習フェーズを追加しました。これをハイブリッドアプローチと考えてください：数学とコーディングには検証可能な報酬による強化学習、そしてより広い能力には一般的な報酬モデルも使用しています。彼らは数学とコーディングを使用して訓練を開始し、非常に高いレベルに達した後、別の技術を使用してこれを一般化します。これは今までテストされていなかった興味深いレシピです。
もし、ChatGPT、現在のQueen、そして間もなく登場するDeepSeek R2などのモデルが進化する指数関数的な速度を観察して、取り残されたくないなら、あなたのために特別なものを開発しました。AIを教えています！はい、私はAIエコシステムに直接飛び込むことができる非常にアクセスしやすいトレーニングを作成しました。実用的で効果的、そして何よりも手頃な価格です。先ほどQueen 2で見たように、複雑なタスクを自動化するために推論モデルをどのように活用するかを正確にお見せします。
この件に関して、「なぜこんなに価格が低いのか」という質問をたくさん受けます。疑問を持つ人もいるかもしれませんが、よく言っているので、ここでも繰り返します。それは、あなたが何百、何千ユーロも費やすことなくAIのトレーニングを受けられるようにしたいからです。AIに関するトレーニングの多くは高すぎますが、この知識はすべての人にとって手頃であるべきです。私たちのコミュニティにはすでに800人以上のメンバーがおり、フィードバックは本当に驚くべきものです。これが手頃な価格を維持したい理由です。学習者が増えるほど、フィードバックが良いことがわかるので、この方針を続けたいと思います。
もしあなたが常にAIをマスターしてプロセスを自動化し、追加収入を生み出し、あるいは単にこの到来する技術革命の最前線に立ちたいと思っていたなら、今がそのチャンスです。正直に言って、数ヶ月後にはこのようなモデルを活用できる人々が他のすべての人に対して決定的な競争上の優位性を持つことでしょう。すべてのリンクはこの動画の下にピン留めされたコメントにあります。覗いてみて、このチャンスを逃さないでください。これは一度だけ訪れるような重要な瞬間です。
さて、分析に戻りましょう。彼らの記事を読んでみましょう：「より強力な基盤モデルと大規模な計算リソースによる強化学習を組み合わせることで、人工一般知能（AGI）、つまり人工知能の次の段階、人類を超える能力を持つほど賢い人工知能にさらに近づくことができると確信しています。」
ここで少し立ち止まって、このポイントを非常に短く強調したいと思います。最新のChatGPT 4.5について多くの人々が否定的なことを言っていました。はい、皆さんに同意します。それは大きな改善ではなく、非常にコストがかかり、モデルの実行には高額な費用がかかるようです。しかし、何が重要かというと、最近、私たちが思っていたよりも良いかもしれないということですが、私が注目したいのはそれではありません。私たちがChatGPT 4.5で新しい基盤モデル、つまり基本モデルを持っているということです。これを今度はRLを使って訓練し、O3よりも優れた新しい思考モデルを得ることができるでしょう。
先ほど見たように、基盤モデル（この場合は新しいChatGPT 4.5モデル）を取り、RLで訓練すると、彼らがここで説明しているものが得られます：より強力な基盤モデルと強化学習を組み合わせることです。基本的に、最初からより良いモデルのシードから始めれば、より良い結果も得られるということです。そのため、たとえモデル自体はそれほど素晴らしくなくても、ChatGPT 4.5のリリースに期待しています。彼らが今後何をするかを見るのが楽しみです。なぜなら、ChatGPT 4.5は依然として基盤モデルであり、彼らが何を作り出すかを見る必要があるからです。
彼らは記事を非常に刺激的なことで締めくくっています。彼らは次のように述べています：「さらに、より大きな知能を解き放つために、推論時のスケーリングによって長期的な推論を可能にするエージェントと強化学習の統合を積極的に探求しています」。つまり、テスト時により多くの計算を行うということです。彼らがこのモデルを開発した際にエージェントを考えていたことは明らかです。
私はエージェントについて非常に楽観的です。これは明らかに私たちが向かっている未来であり、AIの進化の次の段階はエージェンティックコーディング、エージェンティック開発です。これが本当に興味深いものになるでしょう。この分野の進歩について常に最新情報をお届けします。
全体として、これは非常に印象的なモデルであり、このような小さなサイズと効率性のモデルで何ができるかを本当に見ることができます。もちろんいくつかの批判もあります。コンテキストウィンドウが132k（132,000）であり、それほど大きくありません。これは今日の標準的な範囲の下限です。改善すべき点があるとすれば、コンテキストウィンドウの大きさでしょう。
また、DeepSeek R1、O1、Claude 3.7よりもはるかに考え込むことに気づきました。この思考はより多くのトークンを消費します。このモデルに今必要なのは、ドラフトチェーンを適用することかもしれません。これは、より低コストでモデルを思考させるための革新的な技術で、彼らの思考のトークンコストを削減します。このチャンネルをフォローしている方なら知っていると思いますが、この件に関する動画を作りました。興味があれば、リンクを説明に残します。リンクを入れるのを忘れた場合は、コメントで教えてください。基本的には、モデルに思考プロセスを簡略化させ、思考中にかなりのトークンを節約するためのプロンプト作成の新しい技術です。
このモデルでできることはたくさんあります。オープンソースで、さまざまな場所でホストできます。少し知識がある方は、試してみて、遊んでみて、あなたの意見を教えてください。私自身、RTX 4090を持っているPCですでに試す機会がありました。正直に言って、標準モデルとしてはかなり良く動作します。ローカルで実行できるChatGPTレベルのものが得られます。状況はかなり変わりつつあります。
私はこれをエージェントのシリーズに実装して、何が可能か、またこれらのモデルのトークンコストを削減できるかどうかを確認する予定です。
最後まで視聴いただきありがとうございます。まだ登録していない方は、チャンネルをサポートするために登録して、これらの革新をお見逃しなく。ここでは毎日このような動画を配信しています。
また、AIを学びたい方にとって、今がその時です。AIがより複雑になる前に基礎を学ぶべき時です。これは産業革命以来最も革命的な技術であり、私たちに迫っているのは次の産業革命です。先を見越して今すぐ教育を受けることをためらわないでください。すべてのリンクは動画の下のピン留めされたコメントにあります。
以上です。この動画をご覧いただきありがとうございます。次回の動画でお会いしましょう。
この分析が興味深く、現在の地政学的課題の理解をさらに深めたい場合は、私の新しいチャンネル「Vision Actu」をご覧ください。そこでは、この話題や私たちの現在と未来を形作る他のトピックについての詳細な分析を見つけることができます。両方のチャンネルにご登録いただき、何も見逃さないようにしてください。すぐにまた新しい分析でお会いしましょう。