OpenAIのオープンソースOSS 120Bと20B（完全テスト済み）

OpenAIが初のオープンソースモデルファミリー「OpenAI OSS」を発表した。120億パラメータと20億パラメータの2つのバリアントが提供され、Apache 2.0ライセンスの下で商用利用も可能である。推論能力とツール使用に特化して設計されており、既存のプロプライエタリモデルと競合する性能を示している。ただし、実際のテスト結果では期待されたHorizon Alphaモデルの性能には及ばず、コード生成やデザイン面では他のオープンソースモデルに劣る部分も見られる。

OpenAI's Opensource OSS 120B & 20B (Fully Tested)

🚨 OpenAI Just Went Open-Weight!In this video, we dive deep into OpenAI’s brand-new OSS model family – GPT‑OSS 120B and G...

OpenAIの衝撃的なオープンソース展開
期待と現実のギャップ
モデルの技術仕様と特徴
ベンチマーク性能の詳細分析
災害時対応とローカル実行の重要性
アクセス方法と料金体系
実際のテスト結果
推論能力の評価
総合評価と今後の展望

OpenAIの衝撃的なオープンソース展開

Hugging Faceでこんなもん見るなんて、もうビックリやで。なんとOpenAIから1つやなくて2つものオープンソースモデルが出てきたんや。そう、いつも閉鎖的やって批判されてたOpenAIが、ついに自分らのオープンソースモデルファミリー「OpenAI OSS」をリリースしたんやで。

OSSっていうんは「オープンソースシリーズ」の略で、オープンウェイト推論機能を持った先進的なモデルシリーズなんや。ほぼどんな用途にでもカスタマイズできるように作られとって、何よりもどこでも動かせるっていうのが最高やねん。

2つのバリアントが出てるんやけど、まずGPT OSS 120億パラメータモデルっていう大規模モデルがあって、これはデータセンターやハイエンドのデスクトップ、ラップトップで動くように設計されとる。企業利用や重いローカル利用にはピッタリやな。

それからGPT OSS 20億パラメータモデルっていう中規模モデルもあって、これは大抵のデスクトップやラップトップで動くように最適化されとる。パワフルやけど手軽にローカルAI体験ができるっていう感じやね。

期待と現実のギャップ

これはOpenAIのアプローチが真新しく変わったっていう証拠で、開発者や研究者、それに俺らみたいな一般ユーザーにとっても全く新しい時代の幕開けやねん。

ただ、一つ残念なことがあるんや。覚えてるか、Open RouterでHorizon Alphaっていうステルスモデルを見たやろ？あれは性能が抜群やったんやけど、実はそれがこのOSSモデルやないってことが分かったんや。同じプロンプトをOSSモデルで試してみたら、この120億パラメータモデルの結果がHorizonモデルで出された結果よりもかなり悪かったんや。これはホンマに残念やった。

でもそれでも、OSSは素晴らしいベンチマークを持つ優秀なオープンソースモデルやから、後でビデオの中で詳しく見せるで。

始める前に、World of AIニュースレターを絶対に購読してもらいたいねん。毎週いろんなニュースレターを投稿しとるから、AI分野で何が起こってるか簡単に最新情報をゲットできるで。完全無料やから、ぜひ購読してや。

モデルの技術仕様と特徴

この2つのモデルはApache 2.0ライセンスの下にあって、自由に構築できるし、実験、カスタマイズ、商用展開のためにこれらのオープンソースモデルにアクセスできるんや。

これらのツールモデルは実世界の推論タスク用に設計されとる。両方のモデルとも強力なツール使用、思考の連鎖推論、効率的なパフォーマンスを特徴としとるねん。

120億パラメータモデルはベンチマークでO1 Miniと競合するレベルで、単一の80GB GPUで動くっていうのがヤバいねん。20億パラメータモデルは16GBのメモリだけでエッジユースケース用に最適化されとる。

混合専門家アーキテクチャで構築されてて、OpenAIの内部モデルからの先進技術を使って訓練されとるんや。つまり、O3みたいなOpenAIの以前のプロプライエタリモデルからの訓練を使って、これらの個別のOSSモデルを訓練したってことやねん。

両方とも128kのコンテキスト長を持ってて、これはちょっと物足りないけど、現時点では基本的に標準やな。

総パラメータ数で言うと、120億パラメータモデルは117億で、トークンあたり51億のアクティブパラメータを持っとる。20億パラメータモデルは総計21億で、36億がアクティブやねん。

ベンチマーク性能の詳細分析

両方のモデルはコーディング、数学、科学、エージェント的ツール使用など複数の学術ベンチマークで評価されとる。この2つのモデルはO3 with toolsやO1 mini、O3 miniみたいな多くのプロプライエタリモデルに対してかなり評判がええねん。基本的に同等か、実際にこれらの他のモデルを上回っとるのが分かるで。

人類最後の試験に関しては、この2つのモデルは明らかにO3よりはちょっと低いねん。でもO1 miniやO3 miniと比べると、この性能面では素晴らしい仕事をしとる。健康ベンチマークや数学、GPQAでも同じで、これらのベンチマーク全てでこの2つのオープンソースモデルが素晴らしい仕事をしてるってことを示しとる。

ローカルでアクセスできる知的なモデルがあるっていうのは本当に素晴らしいことやと思うで。

災害時対応とローカル実行の重要性

俺が本当に推奨するのは、これらのOSSモデルをインストールしておくことや。これらは2つの超知的なモデルで、インターネットがない場合や世界的な災害みたいなときにローカルでアクセスできるねん。PhD学生と同等かそれに匹敵する知能にアクセスする能力があるんや。

緊急時や単にインターネットがないときの通常の使用例で、本当に有益やと思うで。だから間違いなくこれらのモデルをローカルにインストールすることを推奨するで。何が起こるか分からんからな。

最後に言っておきたいのは、これがオープンソースモデルやとはいえ、これらのモデルは悪意のある目的のコンテンツが生成されるのを止めるように訓練されてるってことや。そのことを念頭に置いといてや。

明らかに、オープンソースモデルをいろんな用途で使う人たちがおるからな。何かエッジケースを引き出そうとしても、これらのモデルでは無理やで。OpenAIのポリシーで制限されてる悪意のあるコンテンツや制限されたコンテンツをブロックするようにファインチューンされてるからな。

アクセス方法と料金体系

これらのモデルにアクセスしたいなら、今すぐインストールできるで。これらはOpenAIのオープンソースモデルでオープンウェイトやから、OllamaやLM Studioを通じてアクセスできるねん。だからこれらのモデルをインストールして、すぐに作業を始められるで。

OpenAI プラットフォームを通じてAPI経由でアクセスする方法もあって、この2つのモデルにアクセスできるねん。

もう一つの選択肢はOpen Routerを通じてアクセスすることや。現在、OSS 120億パラメータモデルは入力トークン100万あたり15セント、出力トークン100万あたり60セントで価格設定されとる。20億パラメータモデルは入力トークン100万あたり5セント、出力トークン100万あたり20セントやねん。

実際のテスト結果

さあ、テストを始めよか。120億パラメータモデルを数学、推論、コーディングの全ての面でテストするで。

まず最初に、「strawberry」っていう単語にRがいくつあるかテストしてみた。0.5秒以内で3つのRが含まれてるって分かったで。思考の連鎖が見えて、これで正しい答えを研究して推論できるねん。

両方のモデルで推論のオンオフを切り替える能力があるねん。だからどんなプロンプトでも、推論を調整したり有効にしたりする良い柔軟性があるで。

次にフロントエンド機能をテストするで。このモデルのスピードは例外的やねん。すぐにAI SaaSランディングページの生成を手伝い始めたで。ここでは、このモデルが異なるテックスタックでのコーディングでどれだけ優秀か、UIやUXコンポーネントの生成でどれだけ優秀かを見ようとしとるねん。これは俺が大抵のモデルで最初にテストするプロンプトで、コーディングパフォーマンスでどれだけ優秀かを見るためやねん。

実際に何を生成するか見てみよか。はい、これが出力やねん。プレースホルダーがあるAI SaaSランディングページを得たけど、本当に時代遅れに見えるねん。コンポーネントは正しく取得したけど、生成に関してはデザイン面で非常に物足りないねん。

見た目があまり良くないし魅力的やない。AI SaaSランディングページを生成するテストには合格したけど、Qwen2.5やGLM 4.5みたいなオープンソースモデルが例外的に優秀で、Sonnetみたいなモデルよりも良い結果を出してるのを見てるからな。だからこれはちょっと期待外れやねん。

次に、SVGコードでバタフライを生成することでどれだけ優秀かを見るで。これは、モデルがコード生成と出力の品質でどれだけ優秀かを評価するために使うベンチマークやねん。オンラインSVGビューアーでこれを視覚化してみるで。

はい、どうぞ。残念ながら、このタスクでも失敗したねん。だから一つは物足りないデザインが生成されて、二つ目は機能するSVGコードさえ出力されなかったっていう、本当に残念な結果やで。

推論能力の評価

推論に関しては、思慮深い答えを与えるのに本当に良い仕事をするねん。この場合、年収約6万5千ドルのトラック運転手で30歳までに退職することを目指してるっていうプロンプトを出して、ポートフォリオ管理提案を作成してもらった。その生成から、推論しながら迅速にこの答えを生成できたのが分かるで。

これがこのモデルの良い点やと思うねん。かなり素早く推論して、コア投資戦略、税金で何をすべきか、さまざまな税制優遇口座への年間拠出目標みたいな30歳までに退職するための複数の戦略に焦点を当てた良い知的な答えをくれるねん。

リスク管理保険やプロバイダーの選択もあるで。だから全体的に、この種の答えではかなり良い仕事をするねん。

今度は具体的に推論するように言ってみた。今回の生成ではより良い仕事をしたのが見えたで。この場合、株式投資を管理できる金融アプリを作成するために推論するように言った。そしてモダンに見えるようにしてくれって言ったねん。

だから、これは期待するものよりもかなり良く見えるねん。でも推論を除いて、単に金融アプリを作成してくれって言ってみたい。適切に推論する能力がなかったら、どんな品質が得られるかを見たいからな。

実際に推論しないように言ったときに大きな劇的な効果があるのが見えるで。品質は確実に違うけど、全体的に生成は、俺らが見たばかりの新しいオープンソースモデルやClaudeみたいなもので生成できるものからは、まだ物足りないねん。

これは解読するように言ったプロンプトやねん。本当に素早く考えられるのが見えるで。だからそれがこのモデルの主な利点の一つやと思うねん。素早く推論して正しい答えをくれるから、これらの単語を並び替えて正しい単語「astronomer」を得ることができたんや。

この動画が気に入って、チャンネルをサポートしたいなら、下のスーパーサンクスオプションを通じて俺のチャンネルに寄付することを検討してもらえるかな。それか、俺らのプライベートDiscordに参加することを検討してもらえるで。そこでは毎月ベースで異なるAIツールへの複数のサブスクリプションを無料でアクセスできるし、毎日のAIニュースや限定コンテンツ、その他たくさんのものがあるねん。

総合評価と今後の展望

全体的に、この2つのモデルは間違いなくオープンソースコミュニティにとって素晴らしいものやけど、俺はもっと多くを期待してたねん。Lobster Horizon Alpha Betaや実際にステルスローンチされた他の多くのリークから本当に興奮してたんや。それらのモデルがオープンソースモデルになるって期待してたんやけど、それらのリークから見たアルファの品質は狂気的やったからな。

でも、それらはGPT-5のバリアントになるみたいやねん。でもOpenAIを知ってる限り、こいつらは本当にケチで、それらのモデルの価格を例外的に高く設定するやろうな。だから今OpenAIについて実際にどう感じるべきか分からんねん。こいつらは単に自分らをより大きな穴に掘り下げてるみたいに感じるで。でもそれは俺の意見やけどな。

このモデルが実際に役に立つと思うか、そうでないか、みんなの意見を聞かせてや。でもその考えで、みんな本当に見てくれてありがとう。セカンドチャンネルを絶対に購読して、ニュースレターに参加して、Discordに参加して、Twitterでフォローしてや。最後に、絶対に購読して、通知ベルをオンにして、この動画にいいねをして、俺らの以前の動画もぜひ見てくれ。本当に役に立つコンテンツがたくさんあるからな。

でもその考えで、みんな本当に見てくれてありがとう。素晴らしい一日を過ごして、ポジティブを広めて、本当にすぐにまた会おうな。