新GSIラボがスーパーインテリジェンスについて大胆な主張

4,696 文字

NEW GSI Lab claims BIG on Super Intelligence 😳

releasing the strongest LLMs of sizes 3B, 8B, 14B, 32B and 70B under open license. Each model outperforms the best avail...

全く新しい研究ラボが、DeepSeek R1の蒸留モデルよりも優れた蒸留モデルを作成したと主張しています。これは大きな偉業であり、実際、最も興味深い点の一つは、AlphaZeroにインスパイアされた新しい技術を導入していることです。この新しい会社はKogitoと呼ばれています。これはDeep Kogitoと呼ばれています。
ご覧の通り、このベンチマークでは、Kogito 14ビリオンパラメータモデルが、同等サイズのDeepSeek R1蒸留モデル（14ビリオンパラメータモデル）よりも、MMLU、MMLU Pro、GSM8Kなどの異なるベンチマークで優れています。このモデルは推論面でも非推論面でも優れていることがわかります。基本的に、Quenモデル、Llamaモデル、DeepSeek蒸留モデルなど、他の多くのオープンモデルよりも推論タスクと非推論タスクの両方で優れています。
このモデルは5つの異なるサイズで提供されています。3ビリオンパラメータ、8ビリオンパラメータ、14ビリオンパラメータ、32ビリオンパラメータ、70ビリオンパラメータモデルです。最も良いことは、すでにHugging Faceでモデルをリリースしており、初日からOlamaのサポートがあることです。あなたがすべきことは、Olamaに行き、モデルを取得すれば、モデルのダウンロードが始まります。
では、このモデルについてもう少し注目してみましょう。これは、彼らが反復蒸留と増幅（iterated distillation and amplification）と呼んでいる新しい技術を使用して訓練されたモデルです。このブログ投稿ではその詳細についてあまり情報を提供していませんが、簡単に言及されています。
私が奇妙だと思うのは、このブログ投稿が「一般的スーパーインテリジェンス」と「スーパーインテリジェンス」という言葉を複数回使用していることです。ここで「スーパーインテリジェンス」を検索すると、少なくとも5カ所で「スーパーインテリジェンス」と言及されています。オープンモデルをリリースした人が最近、「一般的スーパーインテリジェンス」を何度も繰り返し言及するブログ投稿を読んだことがあるかどうか分かりません。彼らの野望は本当に大きく、これはモデルが訓練された方法にも表れています。
反復蒸留と増幅（IDA）に戻りましょう。彼らによれば、これは監督者の知能によって上限が設定されないアラインメント戦略です。どういう意味かというと、人間のアラインメントにモデルを合わせようとするとき、それは基本的にモデルの知能に上限を設けることになります。これは以前、LLMの世界で「ロボトミー」と呼ばれていたものです。人々は「HF（Human Feedback）を行うことでモデルにロボトミーを施している」と言っていましたが、彼らが言っているのは、「我々にはその上限がない」ということです。
具体的には、2つの異なるステップがあります。ステップ1は増幅と呼ばれ、ステップ2は蒸留と呼ばれます。増幅は、通常より多くの計算を含むサブルーチンを通じて、より高い知能能力を作り出すプロセスです。これは非常に華々しい言葉ですが、基本的には、モデルの思考プロセスを向上させようとしていることを意味します。これらは思考の連鎖（chain of thought）、回答検証、複数の応答のサンプリングなどの技術に似ています。言葉は非常に異なりますが、まるでベンチャーキャピタリストに売り込むようなものですが、それが実際の意味です。
蒸留は、それをより低いレベルに落とすことです。興味深いことに、彼らは論文を引用しています。私が非常に興味深いと思ったのは、ここで2つのものを引用していることです。1つは明らかにブログ投稿で、そのブログ投稿はAJ Kotraという人によって書かれたものです。このブログ投稿は別の論文を要約しており、かなり良い仕事をしています。
主なことは、エキスパート反復（expert iteration）と呼ばれる技術を使用していることです。これは主にこの特定の論文で言及されており、この論文はOpenAIによって発表されました。実際、ここにはAnthropicのCEOという非常に興味深い名前があります。この論文は2018年10月19日に公開されたもので、新しい論文ではありません。
Deep Kitoと呼ばれるこの新しい会社が古い論文を掘り起こし、古いブログ投稿を掘り起こして、技術を考案し、その技術が実際に機能すると言っているのを見るのは非常に興味深いことです。実際、彼らはもう一つ大胆な主張をしています。
このブログ投稿には多くの大胆な主張があります。彼らがしようとしているもう一つの大胆な主張は、「ここに示されているベンチマークは業界標準であり、IDAの有効性を示している」というものですが、注釈があります。その注釈には「これらのベンチマークは有用な信号を提供しますが、実世界のパフォーマンスを完全に捉えるものではありません。実際には、ベンチマークスコアはモデルがユーザーのニーズにどれだけ役立つかと緩やかな相関関係しかありません。とはいえ、私たちのモデルは複数の有名な評価にわたってテストされ、一貫して良好なパフォーマンスを示しています」と書かれています。
彼らはベンチマークが特にLLamaなどでは「ダメなもの」であることを認めています。「結局のところ、最良の評価はユーザーのニーズに近いものであり、私たちは自信を持って、モデルがそのような実世界の評価に耐え、実際に優れた結果を提供すると確信しています」と述べています。
これは正直に言って、非常に大胆な主張だと思います。このモデルが実世界でどのようにパフォーマンスを発揮するのか見てみたいです。この特定のビデオでテスト部分の詳細には触れませんが、このモデルの使い方はお伝えします。ただ、このモデルをテストし、どれだけうまく機能しているかを別のビデオで取り上げる必要があると思います。
彼らはより大きなサイズのモデルをリリースする計画も持っていますが、オープンソースにはしないと思います。これは私の推測ですが、興味深いビジネス戦略だと思います。小さなモデルをいくつかリリースして十分な注目を集め、その後、制限付きオープンライセンスか、全くオープンライセンスではないより大きなモデルをリリースするという戦略です。
彼らはLlamaとQuinnから事前訓練された3ビリオン、8ビリオン、14ビリオン、32ビリオン、72ビリオンモデルを持っており、DeepSeek R1蒸留コンセプトと比較して、彼らのアプローチがはるかに優れていると述べています。
モデルはコーディング、関数呼び出し、エージェント的ユースケース向けに最適化されています。各モデルは標準モードと推論モードの両方で機能できます。「ほとんどの推論モデルとは異なり、長い推論チェーンのために最適化していません」と述べています。これは彼らが言うには、学術界や業界のベンチマーク以外の実世界のタスクにおける複数の要因によるものです。
私が思うに、これはほとんどのユーザーが実際の回答の前に大量のトークンを待ちたくないということです。第二に、小さな推論チェーンは最後のステップでモデルパラメータに簡単に蒸留できます。最後に、IDA後の思考プロセスは従来の推論よりも強力なので、より多くのトークンを必要としないはずです。
この論文には多くの興味深いことがありますが、ベンチマークだけで退屈させたくありません。すべてのベンチマークを見ると、70ビリオンサイズのモデルがDeepSeek R1よりも推論と非推論の両方で優れていることがわかります。このモデルはLlamaよりも優れています。すべてのベンチマークにわたって、このモデルは他のモデルよりも優れています。たとえ同等だとしても、これは新しいアラインメント技術であり、モデルが良好に機能していますが、実際に優れているという事実は、これが有望な方向性であることを示しており、より多くの企業がこれを試すことを強く勧めます。
このモデルを使用したい場合、モデルはすでにHugging Faceのモデルで利用可能です。ここに行って、使用したいモデルを選択できます。彼らはすでにコードを共有しています。必要であれば別のビデオを作ることができます。
他のことといえば、このモデルには拡張思考モードがあり、拡張思考モードを使用したい場合は、調整する必要のある特定のハイパーパラメータがあります。
モデルを使用するもう一つの方法は、Olamaに行き、「run」と入力し、使用したいバージョンを指定することです。私の場合、Kito 3ビリオンパラメータモデルと言いました。それによってモデルが取得されました。Olamaを使って、「すべての最初の文字がAで、すべての最後の文字がNの短いツイートを書いて、何か良いことについて書いてください」と依頼してみましょう。
短いツイートを書くように指示しました。一定の条件を与えました。それができるかどうか見てみましょう。「Amazing…」と言っていますが、最後の文字はN…？「bringing our day…」まあ、最後はNではありませんね。小さなモデルに求めるには難しすぎるかもしれませんが、同じ質問をChat GPTにして貼り付けてみましょう。
「amazingly all around…」Chat GPTも上手くやっていませんね。これはGPT-4 Miniですが、GPT-4に行って同じことをやってみましょう。「amazing artisan alienation fiction or aspiration again and again」GPT-4はかなり良い仕事をしていますが、GPT-4 Miniはそれほど良くありませんでした。3ビリオンパラメータモデルをGPT-4やGPT-4 Miniと比較するのはかなり不公平だと思いますが、何かを試みていました。これが私が期待していた最高の答えだとは言えませんが、私たちが知っているように、何かを試みていました。
モデルの使用方法については別のビデオを作りますが、モデルを使用するにはOlamaが必要です。「olama run cogito 3 billion」とするか、もう一つの選択肢はLM Studioで使用することです。私はモデルをダウンロードしました。LM Studioのモデル検索に行き、Kitoを検索できます。私は3ビリオンパラメータモデルを入手しました。思考モードで使用したい場合は、特に有効にする必要のある特定のものがあります。特定のシステムプロンプトを追加します。最初のものは「thinking subroutineを有効にする」と言うことができます。そう言えば、これは拡張思考を行う必要があることを知るでしょう。
私にとって主な興味深いことは、このモデルが新しいアラインメント技術、トレーニング後の技術を提供していることです。人々がこれに革新をもたらしているのを見るのは嬉しいです。中国のラボだけでなく、この会社は米国に拠点を置いていると思います。唯一奇妙なのは、常に「一般的スーパーインテリジェンス」と言っていることです。おそらくGSIが彼らの望むものなのでしょう。
動画でお会いしましょう、ハッピング