OpenAIの「GPT-OSS」オープンソースモデルを8分で解説！

OpenAIが初めてApache 2.0ライセンスでオープンソース化した2つのモデル「GPT-OSS」を発表した。20億パラメータ版と120億パラメータ版があり、コーディング能力でo3 miniを上回る性能を示している。特に注目すべきは、これまで非公開だった思考連鎖プロセスの完全開示と、ローカル環境での実行が可能な点である。モデルはOllamaやLM Studioで簡単に導入でき、Grokでも体験可能となっている。

OpenAI's OPEN SOURCE "GPT-OSS" in 8 mins!

We’re releasing gpt-oss-120b and gpt-oss-20b—two state-of-the-art open-weight language models that deliver strong real-w...

OpenAIがApache 2.0ライセンスでオープンソースモデルを発表
2つのモデルの詳細とベンチマーク性能
デスクトップクリーンアップのデモとツール連携
モデルの技術的詳細
GPU要件とアクセス方法
実行環境と量子化
OllamaとGrokでの実際の使用体験
モデルの基本的なテストと推論能力
まとめと今後の展望

OpenAIがApache 2.0ライセンスでオープンソースモデルを発表

OpenAIがオープンソースモデルを2つローンチしたんや、それもApache 2.0ライセンス付きでな。OpenAIからこんな寛容なライセンスのオープンモデルが出てくるなんて夢にも思わんかったけど、ここにあるんや。20億パラメータモデルと120億パラメータモデルや。この動画では、このモデルについて詳しく掘り下げて、どうやってアクセスできるかも説明するで。

これはOpenAIがしばらく前からちらつかせてたもんや。コミュニティミーティングもやってたし、いくつかパートナーシップも結んでたし、スウェーデン政府とも協力してたんや。これはめちゃくちゃええことやで、なぜならこのモデルにはApache 2.0ライセンスが付いてるからや。これは最も寛容なオープンソースライセンスの一つで、ローカルでオープンモデルを動かしたい人、コンピュータにアクセスしたりコンピュータを制御したり、ローカルモデルで何でもやりたい人にとってワクワクするニュースや。

2つのモデルの詳細とベンチマーク性能

最初にローンチしたモデルはGPT-OSS 20億パラメータモデルで、2つ目がGPT-OSS 120億パラメータモデルや。後で見れるモデルカードもあるんやけど、性能面では本当に優秀やで、少なくともベンチマークでは。プログラミングベースのCode Forcesでは、20億パラメータのオープンソースモデルがツール使用時に2500点を記録して、o3 miniをはるかに上回ってるんや。

つまりOpenAIが主張してるのは、彼らのオープンソース20億パラメータモデルをツールと一緒に使えば、o3 miniより良いってことや。ツールなしでもo3 miniより良いんやて。ただし、GPT-OSSモデルを他のモデルと比較はしてへん。Geminiとも比較してへんし、xAIのモデルとも比較してへん。MetaのLlamaとも比較してへん。純粋に自分らのモデルとだけ比較してるんや。

参考までに言うと、オープンソースモデルを取り上げるなら、GPT-OSS 20億パラメータモデルはAM 2025でツールありの状態で98.7%を記録してて、o3 miniは86.5%や。対照的に、本当に良いモデルであるGemini 2.0と比べると、こっちは49.5%を記録してる。これはツールなしでの話やけどな。だからOpenAIは、自分らがローンチしたオープンモデルが本当に高品質やって主張してるんや。ただローンチのためにローンチしたんちゃうってことや。

デスクトップクリーンアップのデモとツール連携

他にもいろんなベンチマークがあるんやけど、このモデルで本当にワクワクしたのは、OpenAIのエンジニアがモデルにデスクトップをクリーンアップするよう頼んでるデモを見たことや。これはMacでローカルに動いてるモデルなんや。間違いなく20億パラメータモデルや。

モデルはめちゃくちゃ良い仕事をしたで。それは主にツール呼び出しが起こってるからや。MCPか何かのツール呼び出しが最終的に起こってるんや。Toolao benchっていう関数呼び出しベンチマークを見ると、o3が70.4点で、20億パラメータモデルが54.8点や。正直言って、フラッグシップモデルのo3と比較してローカルモデルがこのパフォーマンスを出すのは悪くないで。なぜか2日後にGPT-5をローンチする予定やから、o3は文字通り次の2日間だけのフラッグシップモデルやけどな。

いろんなベンチマークを見ても、このモデルは本当に良いスコアを出してるで。

モデルの技術的詳細

モデルの技術的な面では、20億パラメータモデルは24層のディープニューラルネットワークを持ってて、技術的には21億パラメータモデルや。これはMOE（Mixture of Experts）モデルで、36億のアクティブパラメータモデルがある。つまり総計21億やけど、36億のアクティブパラメータモデルなんや。各段階で32個のエキスパートがある。コンテキスト長を比較すると、これは128Kや。使うなら、これはフラッグシップ版の一つみたいなもんや。ただ、128,000コンテキストウィンドウを動かすのに最大でどれくらいの計算が必要かはわからへん。

各トークンに対して、任意の時点で4つのエキスパートがあって、総計32個のエキスパートがある。OSS 120億パラメータモデルも同じで、36層、総計117億パラメータ、50億アクティブパラメータ、総計128エキスパート、4つのアクティブエキスパート、コンテキストウィンドウは同じく128,000や。

GPU要件とアクセス方法

ここでのアイデアは、120億パラメータモデルを単一の80GB GPUに収められるってことや。NvidiaのA40とかそういうGPUならこれを収められるし、20億パラメータモデルなら簡単にローカル計算環境に収まるで。

Hugging Faceに行くと、OpenAIのページで120億パラメータモデルが見れるで。詳細や全情報が見れて、主なセールスポイントはApache 2.0ライセンス、つまり寛容なライセンスや。OpenAIがモデルのファインチューニングを推奨するかどうかはわからへんけど、もしそうなら面白いことになるで。

完全な思考連鎖アクセスが得られる。これはOpenAIがo3でもo3 miniでも、他のどの推論モデルでも提供してへんかったもんや。OpenAIが思考連鎖推論プロセスを公開するのは、これが初めてやと思う。以前はやってへんかったからな。PeFT、特にパラメータ効率的ファインチューニングモデルでファインチューニングできるって言ってるけど、そのレシピを共有するかどうかは見てみなあかん。

実行環境と量子化

モデルはPython実行、ウェブブラウジングみたいな機能を持ってる。ネイティブMX FP4もリリースしてる。これは量子化手法で、H100や他のGPUに収めやすくするためにこれと一緒にリリースしてるんや。

全体的に、これは素晴らしいリリースやで。モデルにアクセスする方法を簡単に説明するで。

まず、LM StudioやOllamaに行って動かせる。本当に良いMシリーズMacを持ってるならLM Studioが使える。今録画に使ってるIntel Macみたいなのを持ってるなら、LM Studioは使えへんから、Ollamaが必要や。

OllamaとGrokでの実際の使用体験

Ollamaに行って「ollama run GPT-OSS」と言えば、モデルが利用可能になる。ここで選択してモデルとチャットを始めると、モデルが使えるようになる。それだけや。OpenAIの20億パラメータモデルのダウンロードに成功して、ダウンロードが始まるで。

80GB以上のGPUを持ってるなら、120億パラメータモデルをダウンロードして使える。OllamaとLM Studioは、Mac、Windows、Linuxでローカルに動かすための2つの選択肢や。どちらの手法も動くはずや。

もしそれをやりたくなくて、まずモデルを体験したいなら、Grokがこのモデルへのアクセスを限定的に無料で提供してると思う。Grokに行って使い始めると、とんでもない速度で動く。すぐに見せるで。

これがオープン20億パラメータモデルで、120億パラメータモデルも有効にしてると思う。システムプロンプトを何も与えずに、サム・アルトマンがイーロン・マスクのボーフレンドについての詩を書けるかどうか、すぐに見てみたい。

これをすぐに送信するで。コンテンツ違反が出ないことを祈るで。信じられるか？ちょっと待ってや。信じられるか？見た通り、毎秒204トークンや。毎秒204トークン。すごい速度やで。

ここに行って120億パラメータモデルに変更するで。OpenAI 120億パラメータモデルがあって、同じことを言うで。コピーしてペーストして、サム・アルトマンについて…ここにペーストして送信や。毎秒526トークン。毎秒26,000…すまん、毎秒526トークンや。かなり良いで。20億パラメータに対して120億パラメータは6倍多いけど、速度は半分やから、すごいと思うで。