IBMが発表!オープンソースの小規模モデルファミリー Granite 3.0

AIに仕事を奪われたい
この記事は約10分で読めます。

5,585 文字

IBM Unveils Granite 3.0 - Open Source Family of Small Models!
Try Granite 3.0 free here: My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 Subscribe:

先週ニューヨークでIBMを訪問してきましてん。IBMから招待を受けて、彼らの新しいAIプロジェクトを見せてもらったんですわ。今日はその中でも特に興味深かった2つについてお話ししたいと思います。
まず、ニューヨークに招待してくれはって、素晴らしい新オフィスを案内してくれたIBMに感謝したいと思います。また、このビデオでパートナーシップを組んでくれたことにも感謝しています。特に嬉しいのは、これからお話しする2つのプロジェクトが、どちらもIBMによってオープンソース化されてることですわ。
まずはGraniteモデルについてお話ししましょう。Granite 3.0が今日リリースされました。これはIBMが開発したオープンソースのモデルファミリーで、Apache 2.0ライセンスの下で提供されています。mixture of expertsを含む様々なサイズのモデルがあります。
このモデルについてお話しした後で、instruct labについても説明させていただきます。これもめっちゃ面白いんですわ。生のモデルに追加の知識を与えることができるんですが、RAGでもファインチューニングでもない、IBMが開発した新しい手法なんです。
Granite 3.0は、IBMのフラッグシップオープンソース大規模言語モデルの第3バージョンです。これらは比較的小規模なモデルで、ローカルで実行できます。デバイス上で実行可能な非常に小さなモデルもあって、パフォーマンスも優れてます。
これらは企業向けのユースケースを想定した汎用モデルですが、どんな用途にも使えます。特徴的なのは、外部知識で補完できる生の知能を持ってるということです。
IBMの考え方はこうです。そして私も完全に同意するんですが、インターネット上の公開データのほとんどは、すでにフロンティアモデルに組み込まれてしまってます。本質的に、まだ使われていないインターネット上のデータはもうないんです。
そうなると、どうするかっていうと、いくつか選択肢があります。一つは合成データを作ることです。ただ、合成データを使用したフロンティアモデルの強力な例はまだ見たことがありません。もう一つは、既存のデータをもっと活用することです。これは01モデルがテスト時の計算でとったアプローチに近いです。モデルに考えさせるということですね。
そして3つ目は、認証の背後にあるデータ、有料のデータ、あるいは企業内に分散しているデータです。IBMはGraniteモデルとinstruct labで、まさにこの3つ目のデータを狙ってるんです。
これが実際にどういう意味を持つのか説明しましょう。まず、認証や有料の壁の背後にあるデータがあります。Redditにもデータがあれば、Xにもデータがあり、MetaにはFacebookのデータがある。これらのデータは全て、ログインが必要で、それぞれの企業が所有しています。
次に企業が保有するデータがあります。例えば保険会社なら、公開されていない膨大な価値あるデータを持ってます。そういうデータを使って独自のモデルを訓練したいわけです。それを可能にするのが、GraniteとInstructラボの組み合わせなんです。
生のGranite 3.0モデルを取って、企業の非公開データを全部入れ込むと、突然、その特定の分野で非常に有能なモデルができあがるわけです。
Graniteモデルについてもう少し詳しく見ていきましょう。Graniteモデルには2つのタイプがあります。一つは汎用モデル、もう一つはmixture of expertsです。
具体的には、Granite 3.0 8B instructとbase、それからGranite 3.0 2B instructとbaseがあります。特に2Bパラメータモデルは、どんなラップトップやスマートフォンでも簡単に動作させることができ、それでいて素晴らしいパフォーマンスを発揮します。IBMのエッジコンピューティング戦略について、もっと詳しく聞けるのが楽しみです。
それから小規模なmixture of expertsモデルもあります。まず、アクティブパラメータが8億の3Bパラメータバージョン、そしてアクティブパラメータが4億の1Bパラメータバージョンがあります。サイズの割に非常に高性能です。
これらのモデルはIBMによって、特に企業のユースケースを念頭に置いて訓練されています。新しいGranite 3.0 8Bと2Bの言語モデルは、企業向けAIのワーホースモデルとして設計されており、検索拡張生成(RAG)、分類、要約、エンティティ抽出、ツール使用などのタスクで優れたパフォーマンスを発揮します。
これらのコンパクトで汎用性の高いモデルは、企業データでファインチューニングでき、様々なビジネス環境やワークフローにシームレスに統合できるように設計されています。ただし、これらは生のモデルなので、好きな用途に使用できます。
もちろんIBMは企業向けにモデルやツールを作っていますが、個人的な用途にも簡単に使えます。
次にinstruct labについて触れていますが、これは革新的なアライメント技術として説明されています。完全なファインチューニングではありませんが、Graniteモデルに元々訓練された中核的な知識を上書きすることなく、追加の知識を与えることができます。
もう一つのリリースは、Guardianモデルファミリーです。これは基本的にアライメントモデルで、MetaがLlamaとLlama Guardを持っているように、GraniteにはGraniteとGranite Guardianがあります。個人的な用途には必要ないかもしれませんが、ビジネス環境では、これらのモデルをベストプラクティスやガイドラインに合わせることが重要です。
ベンチマークを見てみましょう。これはHugging Faceのopen LLMリーダーボードV2です。同じサイズのモデルと比較すると、Gran 3.0 8B instruct、Llama 3.1 8B instruct、MRAW 7B instructの中で、Granite 3.0がトップを走っています。
RAGの性能を示すベンチマークでも、先ほど言及した2つの他のモデルと比較して、忠実性と正確性の両方でトップに立っています。
サイバーセキュリティのベンチマークもあります。もちろん、企業でGraniteモデルを使用する場合、これらのベンチマークが重要になってきます。公開ベンチマークでもGraniteが勝っています。テストされているベンチマークには、SEC MML U、Cyber Metric 80、Cyber Metric 500、LinkedIn SECT Trust Assessmentなどがあります。
企業環境で重要なのはツール呼び出しの性能です。他のモデルと比較してどうかみてみましょう。同じ3つのモデル、Granite、Llama、Mistraを比較すると、Graniteがほぼ全面的に他の2つのモデルを上回っています。
先ほど言及したmixture of expertsモデルについても少しお話ししたいと思います。mixture of expertsモデルが好きな理由は、より大きなモデルを持てる一方で、実際に推論時に使用されるアクティブパラメータが少なくて済むため、低スペックのコンピュータでも大きなモデルを実行しやすいんです。
Granite 3.0 3B A800mについて説明させてください。この名前の読み方を説明すると、Granite 3.0がモデル名、3Bが全パラメータ数、そしてA800mは mixture of expertsで使用される8億のアクティブパラメータを示します。
Granite 3.0 1B A400mもあり、パフォーマンスをほとんど損なうことなく、高い推論効率を実現します。10兆以上のトークンのデータで訓練された新しいGranite MoEモデルは、デバイス上のアプリケーション、CPUサーバー、極めて低いレイテンシーが必要な状況での展開に理想的です。
これらのmixture of expertsモデルは全てオープンソースで、重みも公開されており、ベースバージョンまたは命令調整版をダウンロードできます。Hugging Faceのページやこれらの記事へのリンクは説明欄に載せておきます。
instruct labの話に移る前に、IBMが自社のコーディングアシスタントをGraniteモデルで開発していることも言及しておきたいです。彼らは本当にコーディングアシスタンスの分野をどんどん深めていっています。
数年前のRed Hatの買収でも明らかなように、オープンソースへの取り組みは素晴らしいものです。Red Hatをご存知ない方のために説明すると、企業向けオープンソースソフトウェアソリューションを提供する会社です。
企業環境向けのLinuxディストリビューション、アプリケーションの構築と展開のためのKubernetesベースのコンテナプラットフォームであるOpenShift、Ansible自動化プラットフォーム、クラウドコンピューティング環境の構築と管理のためのOpenStackプラットフォーム、そしてミドルウェアを持っています。これら全てがオープンソースです。
今日まで知らなかった発表もありました。私の大好きなエージェンティックフレームワークのクルーAAIが、Watson Xプラットフォームに統合されました。これで、エージェンティックワークフローを構築し、IBMのサービス上の企業環境に展開できるようになりました。
次にinstruct labについてお話ししましょう。実際、イベントで説明を受けるまで理解できていなかったんです。先ほど言及したように、例えば企業がGraniteモデルを取得し、生の知能は持っているものの、自社の企業データや非公開データを入れ込みたい場合、どうすればいいでしょうか?
従来は2つの方法がありました。一つはRAGで、RAGは素晴らしいですが、必ずしも最も効果的とは限りません。もう一つはファインチューニングですが、私の理解では、ファインチューニングは主にトーンを導き、モデルの応答の仕方を変更するためのものであり、追加情報を与えるためのものではありませんでした。
そして今、IBMのinstruct labがその中間的な存在として登場しました。外部知識をモデル自体に組み込むのですが、完全なファインチューニングではなく、アライメントに近いものです。元のデータを置き換えることなく、大量の追加データを与えることができます。
IBMとRed Hatの新しいオープンソースプロジェクトは、人々が共同で新しい知識とスキルをモデルに追加できるようにすることで、大規模言語モデルのファインチューニングのコストを下げるように設計されています。これはGraniteだけでなく、どのモデルにも適用できます。そしてinstruct lab自体もオープンソースです。
説明によると、コミュニティに、モデルをゼロから再訓練することなく、LLMsに変更を加えてマージするツールを提供します。instruct labは、人間がキュレーションしたデータをLLMが生成した高品質な例で補強することで機能し、データ作成のコストを下げます。
生成されたデータは、ベースモデルを再訓練することなく、カスタマイズや改善に使用できます。これはコマンドラインインターフェースで、GitHubワークフローを通じて、ラップトップ上でターゲットモデルに新しいアライメントデータを追加・マージできます。
labの独自の訓練法により、モデルが以前学習したことを上書きすることなく、アライメント中に新しい情報を取り込むことができます。基本的に、生のモデルに新しいデータを与えたい場合、通常はRAGを使用することになりますが、今や、モデルをゼロから再訓練することなくデータを追加できる新しい手法があります。これがinstruct labの独自性です。これもオープンソースで、誰でも貢献できます。
最後に量子コンピューティングについて触れておきたいと思います。量子コンピューティングについて詳しくはないんですが、IBMは深く関わっています。独自の量子コンピュータを持っており、まだ初期段階ではありますが、すでに商用化しています。
何年も前から取り組んでいて、実際、量子チームの主任研究者の一人がAIイベントで講演し、AIと量子コンピューティングの組み合わせについて話始めました。これは少なくとも興味深い話題ですわ。彼とのインタビューを取り付けようとしているので、うまくいけばと思います。コメント欄で教えてください。量子コンピューターについて話してほしいですか?私は魅力的やと思うんですが、まだあまり詳しくないんです。
今日はここまでです。新しいGraniteモデルをチェックしてみてください。コメント欄で、私のベンチマークで実行してほしいかどうか教えてください。instruct labもチェックしてみてください。全てオープンソースです。リンクは説明欄に載せておきます。
最後に、AIイベントに招待してくれて、開発中の素晴らしいものを見せてくれて、このビデオでパートナーシップを組んでくれたIBMに改めて感謝したいと思います。
この動画が良かったと思われた方は、ぜひ「いいね」を押して、チャンネル登録もよろしくお願いします。次回の動画でまたお会いしましょう。

コメント

タイトルとURLをコピーしました