OpenAIがついにオープンソース化：120Bと20Bモデル

OpenAIが遂にオープンウェイトモデルをリリースした。120億パラメータと20億パラメータの2つのモデルが公開され、どちらもApache 2.0ライセンスの下で提供される。これらはエージェンティックタスクに特化した推論モデルで、低・中・高の推論レベルを設定可能である。小さいモデルは一般的なハードウェアで実行可能で、大きいモデルはH100のような高性能GPUが必要となる。性能面では120億パラメータモデルがGPT-4 miniに匹敵する結果を示している。

OpenAI Finally Goes Open-Source: 120B & 20B Models

LINKS:

OpenAIのオープンウェイトモデルがついに登場
性能比較とベンチマーク結果
モデルの詳細とアクセス方法
モデルのアーキテクチャと特徴
トレーニングプロセスと性能評価
テスト時間スケーリングとチェーン・オブ・ソート
安全性とレッドチーミングの取り組み
モデルの実装と展開
オープンモデルの意義と今後の展望
実際のテスト開始

OpenAIのオープンウェイトモデルがついに登場

よっしゃ、長いこと待たれとったOpenAIのオープンウェイトモデルがついに出てきたで！これがめっちゃすごいねん。今回の動画は、この2つのモデルについて全部話していくで。

1つ目は1200億パラメータのやつ、2つ目は200億パラメータのやつや。ええところは、小さい方のモデルやったら、ノートパソコンとかデスクトップの一般的なハードウェアで動かせるっちゅうことやな。

大きい方のやつは、多分H100みたいなハイエンドGPUが要るやろな。この動画では、このモデルたちのこと、みんなが何て言うてるか、そして俺の最初の印象について話していくで。

どっちもApache 2.0の下で提供されとる。エージェンティックタスクに特化して設計されとるねん。コーディングツールの使用が得意そうやな。

そして推論モデル、つまり思考モデルなんや。低・中・高の推論レベルを選べるコントロールもあるで。これはOpenAIのO4とかO3シリーズで見たんと似てるな。

これらがオープンウェイトモデルやから、ローカルで実行できるねん。思考の連鎖に完全にアクセスできるんや。

だから、これらのモデルが実際にどう考えるかを見れるのは、ほんまに素晴らしいことやと思うで。デモを試すことができる。これから見ていくで。もうOlamaでも利用可能やから、俺はもう重みをダウンロードした。この動画でそれらもテストしていくで。

メインのブログポストには、めっちゃ興味深いベンチマークがあるねん。

性能比較とベンチマーク結果

性能の面で言うたら、GPTオープンソース、というかオープンウェイトの1200億パラメータのやつは、多くの重要な分野でGPT-4 miniにめっちゃ近いで。後で動画でいくつか例を見せたるわ。

それから、オープンウェイトモデルの安全基準について話してるな。安全性はOpenAIのオープンソースモデル、いや実際にはオープンウェイトモデルの基盤なんやって。

俺、オープンソースって言い続けてるけど、これが最初のモデルリリースを遅らせた理由の一つやと思うねん。少なくとも彼らはそう言うてたからな。

ほんまに素晴らしいところは、OpenAIを祝福せなあかんと思うねんけど、彼らがオープンソース分野の主要プレーヤー全部と密接に協力したっちゅうことや。だから、このモデルは初日からOlama、Llama、CPP、LM Studioで使えるねん。

多くの異なるAPIプロバイダーを通じて利用可能やから、これはめっちゃ素晴らしいことやろ？そして、ローカルマシンでこれを実行する方法を見せたるわ。もうtransformersでのサポートもある。OAMAを見ていくで。VLMで実行したかったら、そこでも利用可能や。

実際、彼らは多くの異なるクックブックをリリースしてるねん。

例えば、このモデルをどうファインチューニングするか？生の思考の連鎖をどう扱うか？そんな感じで、彼らがリリースした本当に役立つブログポストとクックブックがいっぱいあるねん。

OpenAIからの信じられへん仕事やな。closed AIからついにopen AIになっていくみたいやで。モデルの重みはもうHugging Faceに出てるねん。

モデルの詳細とアクセス方法

両方ともアクセスできるで。例えば、ここを見たら実行できるはずや。1200億パラメータのやつは、俺が言うたように単一のH100で実行できるで。200億パラメータのやつは、16GBのVRAMがあるコンピューターで実行できるねん。

モデルをどうトレーニングしたかについて、興味深いことがいくつかあるで。4ビット浮動小数点精度を使ったんや。

つまり、新しいGPUの一部がモデルを処理できるようになるっちゅうことや。古いやつやと、小さな性能劣化を見るかもしれへんけどな。

これはもっと詳しいブログポストで、基本的にもっと詳細に踏み込んでるねん。だから、いくつかのポイントをさっと強調するで。

前に言うたように、大きいモデルを実行するには80GBのVRAMが必要で、小さいモデルを実行するには16GBが必要やねん。

どちらも推論モデルやから、生の思考の連鎖にアクセスできるで。レスポンスAPIのフォーマットに従ってるから、エージェンティックツールの使用が得意やろうな。ええことに、O3と似た機能も持ってると思うねん。思考の連鎖中にこれらのツールを使えるっちゅうのは、めっちゃ素晴らしいことやで。

モデルのアーキテクチャと特徴

事前トレーニングについては、より高度な独占モデルを事前トレーニングする方法と非常に似たセットアップを使ってるねん。これは見てて結構ええことやな。

実際のパラメータについては、これらはMixture of Expertsやねん。だから、モデルが例えば1200億パラメータやとしても、トークンあたり約50億パラメータしかアクティブじゃないねん。つまり、スパースなんや。

200億パラメータモデルでは、約36億パラメータだけがアクティブや。つまり、密なモデルと比べて、はるかに小さなメモリフットプリントで実行できるっちゅうことやな。

みんなにとって興味深いもう一つのことは、コンテキスト長やな。現在、最大228,000トークンのコンテキストウィンドウをサポートしてるけど、既にrotary positional embeddingsを使ってるから、それを押し上げることができる人がいるかもしれへんな。

見てみなわからんけど、128,000トークンは始めるのにほんまにええコンテキスト長やで。

言うたように、これらはスパースムービーやねん。大きい1200億パラメータのやつには128のエキスパートがある。小さいやつには32のエキスパートがあるねん。主に英語のテキストデータセットでトレーニングされてる。だから、マルチモーダルじゃないねん。でも、彼らの焦点はSTEM、コーディング、一般知識やった。

もう一つ、GPT-4 miniとGPT-4oと同じトークナイザーを使ってるねん。O200K harmonyって呼んでる。だから、トークン化プロセスとモデルに入るプロンプトフォーマットについて、めっちゃ注意せなあかんで。それを正しく設定せんかったら、問題が起き始めるからな。

トレーニングプロセスと性能評価

強制トレーニングについては、GPT-4 miniで使用されたのと似たプロセスに従ったって言うてるねん。教師ありファインチューニング段階と高計算量でのRL段階を含むやつやな。

OpenAIでこれらの独占モデルをトレーニングしてる同じチームが、同じモデルをトレーニングしたみたいやな。だから、能力と、このモデルが提供する機能の両方で類似性を見ることになるやろな。

だから彼らは言うてるねん：「我々の最先端独占推論モデルと同じ技術を使うことで、モデルはポストトレーニング後に例外的な能力を示す」って。

もう3つの異なる推論レベルについて話したけど、システムメッセージ内で推論レベルを設定できるねん。これはめっちゃ信じられへんことや。モデルにどのレベルの推論を使うかを単純に伝えることができるからな。

多くの異なるベンチマークを提供してるねん。興味深いやつ、特にコード関連のやつをさっと見ていくで。

気づくことの一つは、1200億パラメータモデルのツール使用が、通常GPT-4 miniにめっちゃ近いっちゅうことやな。

これについては、GPT-4 miniがO3より性能がええと思うねん。でも他のやつを見たら、この2つのモデル間で性能が非常に一貫してるのがわかるで。これはGPT-4 miniモデルの潜在的なサイズも示してるな。

俺の推測やと、多分130から140億パラメータくらいで、GPT-4 miniもそうみたいやな。O3は多分もっと大きくて、200から250億パラメータの規模やろな。でも、これは俺の推測にすぎへんけどな。

言うたように、1200億パラメータのやつがGPT-4 miniと同等か、時には better やっちゅうのを一貫して見るで。

数学計算、数学について、これらのモデル全部がめっちゃ一貫して、お互いに近い性能を示してるねん。これはめっちゃ興味深いことやで。

PhD レベルの科学質問、MMLU。これらのベンチマークは素早い比較を見るのにはええけど、本当のテストは自分のテストベンチに置いて、自分のアプリケーションでテストする時やろな。

でも、彼らが強調してる一つのことは、エージェンティック能力やねん。やっぱり1200億パラメータモデルがGPT-4 miniにめっちゃ近いねん。

テスト時間スケーリングとチェーン・オブ・ソート

もう一つ、テスト時間スケーリングもこれらのモデルで機能するねん。ここにAMCの例があるで。推論レベルとテスト時に生成されるトークン数を増やしたら、まだ一貫した性能向上を見るねん。これはめっちゃ信じられへんことや。

GPQAでも同じことやな。ええことに、両方のモデルでこの動作を見るねん。

それから思考の連鎖について話してるな。最近の研究では、推論モデルの思考の連鎖を監視することが、思考の連鎖を整合させるための直接的な監督でモデルがトレーニングされてない限り、不正行為を検出するのに役立つ可能性があることを示してるって言うてるねん。

この視点は業界の他の人たちも共有してるねん。我々の原則に沿って、OpenAI previewを開始して以来、オープンソースモデルやオープンウェイトモデルのどちらについても、思考の連鎖に直接的な監督を行わなかったって。我々は、モデルの不正行為、欺瞞、悪用を監視するためにこれが重要やと信じてるねん。

だから、実際に思考の連鎖を見ることができるんや。これは、モデルが不正行為をしてるかどうかを把握するのに役立つで。OpenAIがオープンモデルの思考の連鎖をオープンに保ってるのは、ほんまにええことやな。

安全性とレッドチーミングの取り組み

それから、安全性と最悪ケースのファインチューニング努力作業について話してるな。準備フレームワークについて話してるねん。これは実際に重要やな。安全性は重要やからな。

世界中の研究者、開発者、愛好家が新しい安全性問題を特定するのを助けるために、レッドチーミングチャレンジを主催してるねん。チャレンジには50万ドルの賞金基金があって、OpenAIと他の主要ラボの専門家パネルからのレビューに基づいて授与されるねん。

主なことは、この場合のようにモデルが出た時、OpenAIが重みに対して持つコントロールはないっちゅうことやな。だから、これらの実際の能力を把握するためと、新しい安全性問題を把握するための、このレッドチーミング努力を見るのはええことやで。

俺は実際にOpenAIがモデルをリリースするだけでなく、コミュニティが貢献するためのこのレッドチーミングコンテストを持ってることを、ほんまに評価してるねん。

モデルの実装と展開

モデルの重みはもう利用可能で、MX 4ビット浮動小数点精度でネイティブに量子化されてるねん。

やっぱり、言うたように、このharmonyプロンプトフォーマットに従ってるねん。これは確実にせなあかんことやな。他のパートナーと協力してる時、彼らが実際にデフォルトでそれに従ってることを願うで。

PyTorchとApple Metalプラットフォームでの推論実行のための実装もいくつかリリースしてるねん。これはええことやろ？

パートナーには、Hugging Face、VLM、Olama、Llama CPP、LM Studio、AWS、Fireworks、Together AI、Bastian、B10、Databricks、Vercel、Cloudflareが含まれてるねん。ハードウェアの面では、Nvidia、AMD、Cerebras、Crocを含む業界リーダーと協力して、さまざまなシステムでの最適化されたパフォーマンスを確保してるねん。

実際、このリストに載ってるほとんど全員が初日レポートを持ってるのを見てるで。これはめっちゃ信じられへんことやな。だから、これはオープンウェイトモデルにとって非常によく組織されたリリースやったねん。

オープンモデルの意義と今後の展望

最後に、なぜオープンモデルが重要かについて話してるな。GPT OSSモデルのリリースは、そのサイズでのオープンウェイトモデルにとって重要な前進を示すって。これらのモデルは、推論能力と安全性の両方で意味のある進歩を提供するねん。

オープンウェイトまたはオープンモデルは、ホストされたモデルを補完して、開発者に先端研究を加速し、イノベーションを促進し、より安全で透明なAI開発を可能にする幅広いツールを提供するねん。

それから、新興市場、リソース制約のあるセクター、独占モデルを採用する予算や柔軟性を欠く可能性がある小規模組織にとって、これらが低い障壁になることについて話してるな。

中国企業にクレジットを与えなあかんで。DeepSeek V2とQuinからの信じられへんリリースの後、みんな、特にアメリカのフロンティアラボを本当に押し上げたと思うねん。

OpenAIだけでなく、Googleも本当にええ仕事をしてるで。Anthropicも参加して、いくつかのオープンウェイトモデルをリリースしてくれることを願うで。だから、オープンウェイトモデルの未来はめっちゃ明るいと思うねん。

実際のテスト開始

よっしゃ、もう十分話したな。モデルをテストしてみよか。UI内でもこれを実行できると思うで。

これはOlamaの新しいUIやな。200億パラメータモデルを選択したで。Local GPTでもこのサポートが来るはずや。

「hi」って言うてみよか。俺は96GBのVRAMを持つM2 Maxで実行してる。つまり、モデルをロードして、レスポンスを生成するのに時間がかかるやろうな。

数秒、実際には1秒未満で考えたな。見てみよか。「tell me about yourself」って聞いてみるわ。

「私はChat GPT、OpenAIのGPT-4アーキテクチャで構築された会話AIです。言語を理解し生成するように設計されています。だから、幅広いタスクであなたを助けることができます。質問に答えたり、アイデアをブレインストーミングしたり」って感じやな。めっちゃええやん。

このモデルをテストするもっと詳しい動画を作るつもりやで。でも、この動画では、今日リリースされたものの簡単な概要と、どうやって始めるかを伝えたかっただけやねん。

このオープンウェイトモデルでのLocal GPTリリースに注目しといてや。OpenAIとNvidiaからのブログポストもあって、どうやってモデルをトレーニングしたかについてもあるし、多くの人がそれについて投稿してるから、モデルをテストするもっと詳しい動画を作るで。

もうGrok、Open Routerでも利用可能やで。Grokでは200億パラメータモデルが信じられへん1秒間に1200トークン、1200億パラメータモデルが1秒間に500トークンを取得してるねん。

一つ気になることは、これが4ビット浮動小数点精度でリリースされてるから、性能についてよくわからへんっちゅうことやな。実際のコーディングタスクでどれだけええかをテストして見る必要があるな。だから、すぐに出るその動画に注目しといてや。

とにかく、この動画が役に立ったことを願うで。見てくれてありがとう。いつものように、次の動画で会おうな。