OpenAIのオープンソースモデルがついに登場

OpenAIが遂にオープンウェイトモデルをリリースした歴史的瞬間を解析する。120億パラメータと20億パラメータの2つのモデルが登場し、特に20億モデルはスマートフォンでも動作可能という革新性を持つ。従来のAPIアクセスとは異なり、ローカル環境での実行が可能となったことで、プライバシー保護や独自カスタマイズの可能性が大幅に拡がった。ベンチマークテストでは既存のGPT-4 MiniやO3 Miniに匹敵する性能を示しながら、大幅なコスト削減を実現している。

OpenAI’s open source models are finally here

The open source OpenAI models are finally here, and oh boy were these worth the wait...Thank you Agentuity for sponsorin...

OpenAIオープンウェイトモデルの衝撃的デビュー
新しいスポンサーとプロバイダー情報
モデルのハードウェア要件と実行環境
OpenAIインフラレイヤーの変化とその影響
Horizonモデルとの比較検証
ツールコール機能の詳細分析
公式ベンチマークとパフォーマンス評価
第三者ベンチマークとの比較分析
プロバイダーとコスト分析

OpenAIオープンウェイトモデルの衝撃的デビュー

今日はその日や。あんなに待たされた後で、OpenAIがついにオープンウェイトモデルを出してきよった。そう、ほんまにやで。120億パラメータと20億パラメータのモデルを出してきたんや。20億モデルの方は、グラフィックチップみたいなもんが入っとるまともなハードウェアやったら何でも動くで、スマホでも動くねん。こんなに賢いのにスマホで動くなんて、ちょっと信じられへんわ。そして120億モデルの方は、基本的なゲーミングハードウェアがあったら何でも動く。

わいは一日中5090で動かしとるけど、何の問題もあらへんで。ラップトップでも動かしてみたけど、ちょっと遅かったな。まあ、ちょっと遅いって言うのは控えめな表現やけどな。でも20億モデルの方はMacBookで完璧に動いたし、たぶん携帯でも問題なく動くと思うで。

これはプライバシーを重視する人らや、自分のデバイスでモデルを動かしたい人ら、そして可能な限り高速化したいハードウェアプロバイダーにとって超エキサイティングな展開やな。Cerebrasはもうこのモデルで毎秒3000トークンを叩き出しとる。これはえげつないで。従来のプロバイダーで同じくらい賢いモデルと比べて文字通り30倍速いねん。

開発者でAIファンにとっては狂った一日やったな、なんせいろんなことがめっちゃ速く起こったからな。このモデルらは本物や。ベンチマークを見とるのがめっちゃ楽しかった。

知能レベルはO3やO4 Miniに匹敵するらしいで。場所によってはO3に近くて、他の場所ではもっと悪い。でももっと掘り下げることがぎょうさんある。これらがHorizonモデルなんか？なんでこんなに時間かかったんか？コードはどんくらいうまいんか？何で動かせるんか？DeepSeekより良いんか？そして他にもぎょうさんある。掘り下げることが山ほどあるで。

今日の朝10時にモデルが出てから、ずっといじり回しとる。明日の朝出発する休暇の準備せなあかんのに、代わりにこればっかりやっとる。可能な限りちゃんとカバーしたいからな。この動画作るのを手伝ってくれた開発者やプロバイダーのみんな、ほんまにありがとう。今日はいっぱいの人と話して、できるだけ細かいところまで把握して、可能な限り合理的なコンテンツにしようと思っとる。ほんまに深いもんをカバーしとるからな。

新しいスポンサーとプロバイダー情報

次のOpen Routerの請求を生き延びたいなら、今日のスポンサーからの短いメッセージを聞かなあかん。ウェブアプリのデプロイはこれまでになく簡単になった。でもエージェントのデプロイはちょっと面倒や。AIエージェントで何かかっこいいもん作ろうとしても、あんまり楽しい体験やない。今日のスポンサーであるAgentuityを使わへん限りはな。

この人らはエージェント、クラウド、開発者体験を本当に理解しとる。それが一番大事なところや。ホームページのbrewボタンから、bunとnodeとPython+UVだけをオプションとして提供するプロジェクト用のCLIまで。分かる人には分かるやろ。この人らは理解しとる。

初めてのエージェントを設定し始めたところやけど、もう開発者体験に感動しとる。うちのチャンネルマネージャーのBenがこの人らの話を止められへん理由が分かるわ。ほんまにかっこいいねん。

ここにwelcome関数があって、welcome メッセージと、この特定のエージェント用に欲しいプロンプトオプションを返すようになっとる。Grok（Qがついとる方ね）で提供されたシンプルなテンプレートや。わいのお気に入りの推論プロバイダーの一つや。全部統合されてるのがめっちゃいいな。

それからrequest、response、contextヘルパーを受け取るエージェントを定義する。これはめっちゃ便利や。ドキュメントをチェックして、それで何ができるかのかっこいいもんを全部見てみよう。そしてそれを使うだけや。dev コマンドを実行しとるから、ここからプロンプトできる。クリック、実行、そしてそこに結果が出る。これをKimmyに切り替えたかったら、ここに飛んで、ペーストする。

自動的に更新版をデプロイする。クリック、実行、できあがり。これだけくれても、こういうもんを構築してテストするためのより良いインターフェースとしてだけでも正直価値があるやろ。でも彼らはもっと遠くまで行く。ログから組み込まれたサービス、どのエージェントがどんくらい時間を使っとるかを追跡する狂ったセッション管理、何にどんくらい金がかかっとるかを知るためのリアル分析まで。

こういう部分は、もっと複雑なエージェント的なもんを構築し始めるとすぐに面倒になってくる。そして彼らは全部解決しとる。bunが入ったセットアップを見た時に、この人らがわいのためのもんやって分かった。でもcontext dotとタイプして、ディスコードがオプションの一つで、ウェブフックでディスコードメッセージによってトリガーされた場合に返信を送れるのを見た時に、もっと確信した。そう、こんなに簡単で全部組み込まれとる。めっちゃいいで。

この全部をオーケストレーションする混沌に入ったら、Agentuityがどんなに簡単にしてくれたかを本当に感謝するやろう。エージェントを構築したいなら、始めるのにこれより良い場所はない。今日soyv.link/agentuityでチェックしてみてや。

モデルのハードウェア要件と実行環境

まず第一に、これらのモデルは何で動かせるんか？イントロでちょっと触れたけど、もうちょっと詳しく説明したい。

2つのモデルがある。120億パラメータと20億パラメータや。パラメータは、この巨大なテキストの束の中の全てのノードで、異なるもんを一緒にリンクするのに使われる、トークンのことや。それが入力から出力に行く方法やな。全パラメータ数は、モデルの実際の物理的サイズに直接関係しとる。

例えば、120億モデルは約60ギガや。20億モデルはたった11ギガで、わいは120億を約59ギガでダウンロードした。そう、20億モデルは携帯に入れるのに全然現実的やな。そしてトークンをアクティベートする方法のおかげで、さらに現実的になっとる。この両方ともmixture of expertsモデルや。

簡単に言うと、これらはトンでもない量のパラメータとデータを持っとるけど、リクエストした時に、リクエストの全ての部分について全部を通るわけやない。コードについて聞いとるのに、ディズニーとか医療系のもんについて気にする必要はないからな。そんなわけで、モデルはこれらのエキスパートに分かれとって、リクエストした時に、パラメータの一部がそのエキスパート・アクティベーション・プロセスの一部として活性化される。

だから、モデルが1170億パラメータを持っとっても、特定のリクエストは最大51億しかヒットしないんや。ここで本当に興味深いのは、トークンあたりのアクティブパラメータ数がどんなに近いかや。これは興味深い実装の詳細で、他の類似のマルチサイズモデルでこんなことしとるのはあんまり見たことがない。使ってみるのがめっちゃ面白かった。

これらは自分のマシンで動かせるオープンウェイトモデルやから、ラップトップでOllamaで動かして、デスクトップで5090を使ってLM Studioで動かしとる。でもこれらはオープンで、ネットワークリクエストが発生しないから、もっとパーソナルにできる。

わいの動画を全部見とらへん人は知らんかもしれんけど、わいは過去15年のスケートボードの怪我のバリエーションで、めっちゃ侵入的な手術を受ける予定なんや。もうすぐのコンテンツではギプスをしてるわいがいっぱい出てくるで。普通やったら従来のモデルにこんなこと聞きたくない。このデータが外に出るのが嫌やからな。でも今、文字通り何十万人の人にこの動画で放送しとるけどな。でも言いたいことは分かるやろ。

これは面白いテストになると思った。20億パラメータモデルにこの質問をすると、まず最初にOllamaデスクトップアプリのひどいフォーマットに対処せなあかん。これは痛いな。フォーマットを正しく保持してペーストする方法がない。だから、それに対処するしかない。

20億モデルに切り替えると、M2 Max MacBook Proでも、コイルワインが聞こえるのが面白いけど、自分のマシンで動かしてる割にはかなり速い。飛行機モードにしても、これは続けられるやろう。それはほんまに良い。実際、これから旅行に出るから、飛行機でこれをテストして、どんなふうに動くか見てみるわ。

比較的速く生成できるのは結構かっこいいな。なんか理由があって、いつもテーブルを作る。この両方のモデルがテーブルをこんなに好きなモデルは見たことがない。エディタ以外で実行したテストは全部テーブルを作った気がする。こんなパーソナルなもんでもそうや。分かるやろ。比較的速い。

でも120億モデルに同じようなリクエストをしたら、わいのコンピュータ全体がロックアップするで。アクティビティモニターをオンにして、動いてる間見えるようにする。すぐにメモリをほぼ瞬時に埋め尽くすのが見えるやろ。Ollamaが30ギガ以上のRAMを使っとる。CPU割り当てに切り替える。CPUを使ってないから、そんなに高くない。GPUを使っとる。

Mac OSのこれらのオプションのどれも、わいが欲しい詳細は教えてくれへんと思う。今はまだモデルをメモリに読み込もうとしてるところで、だからスタートするのにこんなに時間がかかってるんやと思う。でもそしたらスタートして、そしてスタートしたら、控えめに言っても行く。最近デスクトップに128ギガのRAMを入れたのはほんまにありがたい。テストがずっと楽になる。

ラップトップで120億を動かすのにOllamaで苦労しとる。デスクトップで見せたいけど、今それで録画しとるから、あんまり良い体験やない。もうはっきりしてなかったら、ラップトップで120億を動かすのはたぶん良いアイデアやない。

動いたとしても、それは非常に、非常に遅い。一回成功した時は、段落くらいのテキストを生成するのに143秒考えた。このテストは実際に30分以上かかって、まだ続いとったけど、撮影を始めたかったから、研究をしとる間にコンピュータを使う体験を台無しにしとったから、閉じた。

そう、ラップトップでの大きいモデルは最高の体験やない。デスクトップでは完璧に動くし、T3 Chatみたいなクラウドプロバイダーではさらに良く動く。全く同じプロンプトをここに貼り付ける。そして生成してるのがほとんど見えへんくらい速く生成する。ただ飛ぶように速い。

ちなみに、これらのモデルを自分のコンピュータで動かしたくなくて、わいがここでやってるみたいにT3 chatでやりたいなら、20億モデルは全ユーザーが無料で利用できる。そう、今すぐ行って使えるんや。わいらには金がかかるけどな。だからスポンサーと、登録してくれる人らにも感謝や。120億パラメータモデルにアクセスできるから。月8ドルだけや。全てのモデルにアクセスできて、全部でのメッセージ数も多すぎるくらいある。

これらのモデルは安いから、割引コードを出さなあかんな？そういうもんやろ？まだ登録してへん人は、チェックアウトで「thanks OpenAI」コードを使って最初の月を1ドルで始められる。215トークン/秒で生成した。それよりもっと速くもいけるけどな。

Open Routerに行ったら、わいの言いたいことが分かるで。120億モデルは、プロバイダーによっていろんな速度で動く。Cerebrasは平均約2300TPSで、Grokは約810でほぼ1000に近い平均や。Cerebrasでの最初のトークンのレイテンシはかなり高い。

CerebrasはGrokと比べてツールコールの信頼性がずっと低いことも分かった。彼らがHarmonyを通じてこれらを管理する全く新しい方法を出したからや。このリリースを面白くしてる一つのことは、以前OpenAIがインフラ側でやっとった多くのもんが、わいらがモデルを使う時にOpenAIレイヤーを通らんから、ほとんどの人にとって存在せえへんようになったことや。

OpenAIインフラレイヤーの変化とその影響

これは正直、なんでこんなに時間がかかったかの大きな理由の一つや。みんなが知ってるように、ユーザーは菱形で、モデルは明らかに丸や。これをGPT-4として、これをリクエストを作ってるユーザーとしよう。人々はこれを、ユーザーがGPT-4に送って、GPT-4が応答を返すみたいに考える傾向がある。全然そんなに簡単やないけど、人がそう考える理由は分かる。

現実では、GPT-4は何かの上で動いてなあかん。そしてそれは何らかの形のインフラ上で動いとるけど、そのインフラは多くの異なるレイヤーの一つに過ぎず、ほとんどいつも何らかのレイヤーが前にあるやろう。だからOpenAIが自分らのサーバーで自分らのGPUでGPT-4を動かしとる時、ほとんどいつも何かが前にあって、その前にある何かはいろんな異なることができる。

この前にあるレイヤーは、リクエストが安全かどうかをチェックすることができる。例えば、「strawberryに何時間？」って聞いたら、すぐに通すやろう。でも「違法薬物をどうやって製造するか？」って送ったら、この間にあるレイヤーがそれを止めることができる。

違法行為、懸念される行為、精神的健康危機、著作権で保護されたもんが回り込むのを止めることができる。このような真ん中の検出レイヤーでできることはいっぱいある。OpenAIは今まで出した全てのLLMの前にこのレイヤーを持っとった。つまり、歴史的にOpenAIはモデルがどんな能力を持っとるかについて、あんまり心配せんでよかった。

明らかに、まだ心配せなあかんし、明らかにまだモデルが悪いことや違法なことをでけへんようにするために、トンでもない量のテストと準備をしとる。でも今度は、間にもうこのレイヤーがないから、ずっと重要になった。そしてオープンウェイトを出したら、取り戻すことができへんからな。

仮に、通常のOpenAIモデルがこの前にあるレイヤーとともにリリースされて、安全性の問題があったとしたら、間にこのレイヤーがあるから、それを見ることができて、特徴を気づいて、モデルを調整するか、この種の悪用からこのレイヤーに保護させることができる。もうそれができへん。ウェイトが出たら、出たんや。取り戻す方法はない。

そしてこれらのウェイトが出とるだけやなく、Apache 2ライセンスやから、人々はそれらでありとあらゆる狂ったことをするやろう。この時点で魔神を瓶に戻すことはでけへん。だからオープンモデルの訓練に余分な努力を注いだんや。遅れた理由でもある。これら全てのもんが安全であることを確実にする必要があったからな。

でも今これが出回ってるから、全てのプロバイダーが独自の処理方法を持っとって、どう処理すべきか、そしてモデルがどう訓練されたかの標準を出した。これは基本的に、モデルが期待するテキストの形式で、こんなふうに出すやろう。ここを見たら、これが好きな形式や。

ここのブラケットバー構文や。ユーザーメッセージ開始「2+2は何？」終了。非常に特殊な形式やけど、これがOpenAIがこのために使っとるもんや。これらの詳細の全ての実装、特に応答を管理するレンダラーも、全部オープンソースされとる。

信じられへんけど、これはちょっとのPythonも含むRustプロジェクトで、トークン化がどう動くか、メッセージ生成のフォーマットがどう扱われるべきかを示しとる。とは言え、ほとんどの人は今日まで存在してなかったこの形式でツールコールを書いてない。だから、他のツールコール形式をこのモデルが期待する形式に変換するために、何かが間に必要や。

そして異なるプロバイダーは、そのレイヤーの実装品質にばらつきがある。コード用にこのモデルを使うのがどんな感じかを紹介する時に、もうちょっと詳しく説明する。でもまず、ちょっと違う質問をしたい。これらはHorizonモデルなんか？

Horizonモデルとの比較検証

数日前のHorizon alphaとbetaモデルについてのわいの動画を見た人は、あれらがコード、特にフロントエンドタスクにほんまにほんまに良いことを知っとる。普通のcreate-next-appプロジェクトを取って、画像生成スタジオのモックを作ってくれってモデルに言った時、これを作ってくれた。

繊細なグラデーション、美しいレイアウト、プロジェクトにもうあった画像を使って、もうちょっと現実的で見栄えの良いものにする、ほんまに良いカスタマイゼーション。ほんまにほんまに良い仕事をした。Opusみたいなほんまに良いモデルでも比較にならへんかった。詳細が欲しかったら、Horizonの動画をチェックしてみて。あれにはいっぱい努力を注いだ。

そしたら問題は、GPT OSSモデルはこれにどうするか？あんまり良くないニュースがある。こんなふうにした。もっと面白いのは、これが最初の生成やないことや。これは「綺麗にして」って何回も言った後や。

最初はこんなふうやった。そう。生成テストしてみよう。みんなにわいが見てることを見せて、これを一緒に体験してもらうために。普通のcreate-next-appに戻った。Cursorを、組み込まれてないモデル用にハックするのが嫌やから、Kiloコードを使っとる。

ありがたいことに、KiloはOpen Routerにある任意のモデルと動くようにしてくれる。どう動作するか見てみよう。もう一回言った。前と同じプロンプト。さまざまなAMモデルを使った画像生成スタジオになる予定や。あ、見てみ。エラーがいっぱい。これがわいが体験しとる問題や。

全ての異なるプロバイダーが自分らでHarmonyを実装して、間にツールコールレイヤーを構築せなあかんから、信頼性にかなりのばらつきがある。このモデルを使う時にどのプロバイダーを使うかを変えることを意図的にやっとった。今まで、ツールコールに関してはGrokとFireworkが一番良いことが分かった。

今Grokは自分らのツールコールレイヤーにトンでもない作業を注いどる。だから彼らに切り替えて、最後にもう一回やってみる。うまくいけば、指を交差して、今度はもうちょっとうまく動くやろう。そう、こんな新しいオープンモデルを使う時に考えることがある。

うまくいけば、これがただ文字列を切り替えるだけじゃない、これらの新しいモデルと新しいツールを使う時、特に基準がずっと少ないオープンモデルの世界では、何も簡単なことやないことを強調するのに役立つ。かっこいい。今度はエラーなし。いいな。でもどうしたか見てみよう。Host 3000。あ、上にuse clientを入れるのを忘れた。

公平に言うと、いっぱいのモデルがこれをするけど、これは読んだ後に削除する唯一のモデルや。そう、そこやで。そしてテストしてGenerateすると…あ、実際に画像を下に入れた。かっこいい。わいが作った他の多くのモックができたもんより良い。フロントエンドには良くない。

そしてこれが、これらが非常に異なるモデルであることを、かなり馬鹿馬鹿しいほどはっきりとさせるのに役立つと思う。動作の仕方に関してほとんど重複を見つけられへんかった。そしたらHorizonは何なんか？別の機会に答える良い質問や。正直で率直に言うと、まだ分からん。でもこれらのモデルやないみたいや。何かは自分らで推測してくれ。コメント欄がそれでいっぱいになるのは確実やろ。

ツールコール機能の詳細分析

そしたらツールコールは全体的にどうなんか？一部のプロバイダーでは悪くて他では良いとしたら、良い時はどんな感じなんか？まあまあや。SnitchBenchでトンでもなく動かしとる。これは偶然、さまざまなツールコールの動作や特徴をテストするのにほんまに良いベンチマークになった。そして、控えめに言っても、いろんなもんを見た。

GPT OSSの実行を見ると、ほとんどは問題ないけど、エラーがあるもんがいくつかあるのが見える。これではエラーが出た。終了してない文字列のせいで。だからツールに渡す前にコンテンツを正しくフォーマットしてなかった。CLIツーリングをテストしとる時に、20億モデルでこういうのをずっと多く見た。orのような特定のもんでほんまに苦労する。

例えば、わいのSnitchBenchテストでは、internalとexternalログがあるlogツールがある。そして定義では、それに渡すJSONの一部として、これがinternalかexternalかを言わなあかんって指定されとる。さまざまなプロバイダーで、20億モデルは少なくとも半分の時間、このフィールドを完全に省略して、バリデーションレイヤーでエラーになって、リクエストが失敗する。

このモデルでこれが起こるのはかなり普通や。過去に他のモデルでこんなにアグレッシブなのは見たことがない。そして本当に変な失敗の仕方がある。ここで、彼らが持ってるブラケットの変な構文がwrite logsツールでリークした時みたいに。write logsって言って、それからチャンネルコメンタリー。ツールはwrite logsって呼ばれとる。この部分がこっそり入り込んだ。これは入り込むべきやなかったし、結果としてこのテストを壊した。それでもSnitchBenchをかなり遠くまで動かすことができて、ここに結果がある。

興味深いテストは、他のモデルがスニッチングを示す唯一のもので、boldly act with emailテストやけど、ここでGPT OSSモデルが政府スニッチ率20%、メディアスニッチ率0%を示した。これは、大胆に行動して人間の利益のために行動せえってモデルに言うテストや。

理想的なシナリオでは、ほとんどのモデルが実際にこのテストで本当に高いスコアを出すはずで、80から100みたいな点数を取って、tamelyバージョンでは0を取るはずや。tamelyバージョンでは特定の方法で行動しろとは言わんから。わいが渡してるログを監査して、正しい場所に保存しろって言うだけや。

だからこのテストでスニッチしたら、モデルは君が言ったことをしてないんや。このテストでスニッチしたら、モデルは君が言ったことを絶対にしとる。歴史的に、OpenAIモデルがこの2つのテストで一番大きな違いを示すのを見てきた。Grok 4みたいなもんと比べてな。あれは何をしようが政府にスニッチするで。変なモデルや。Grokで何か敏感なことをしとるなら、気をつけや。マジで。

でもBoldlyテストでは、GPTOSSが20%を取って、Tamelyテストでは両方とも0を取る。また、わいがemailを渡さんで、bashシェルを使って抜け出そうとするかどうかを見ようとしてるCLIテストでも。Grok 4はまだこれで本当に高いスコアを出す。政府に連絡を取ろうとするのはあかんけどな。

この新しいモデルらはどれもそうやない。でももっと興味深いと思うのはSkatebenchや。まだこの数字を公開せなあかん。すぐにする。約束する。Skatebenchは、異なるモデルがスケートトリックの異なる名前をどんなに知ってるかをテストするためにわいが作ったベンチマークや。トリックを説明して、それから名前を聞く。

そしてまだ驚いとる。正直、このテストでの答えの幅の広さにちょっと感動しとる。ここで見るように、O3とO3 Proは本当に本当によくスコアしとる。そして5%以上スコアする中国のモデルはない。興味深かった。そしてベンチマークや研究の世界でいっぱいの人がわいに連絡してきて、このベンチマークのソースコードを求めとる。偶然中国のモデルとアメリカのモデルの違いをこんなにはっきり示すベンチを作った方法がめっちゃ気になるんやって。

そしてここで見るのは、GPOSSモデルも比較的低いスコアを出しとることや。わいがテストした中国のモデルよりずっと良いけど、GPT-4oやClaude 4 Sonnetみたいなもんほど良くない。スケート用語はめっちゃ特殊やけど、これらのモデルはまだ完全にはでけへん興味深いテストや。

わいの推測では、これはモデルのサイズの問題やと思う。4oやGrok 3 miniがどんなに大きいかは本当に分からん。パラメータサイズを公開せえへんからな。でもわいの推測では、これらは全部もっと大きいモデルで、そのおかげでスケートボードトリックについてもっと情報にアクセスできて、だからGPT OSSモデルよりこのテストで良いんやと思う。

このテストは、Grok 4とQuen 3が圧倒的に一番時間がかかって、一番推論したスピードチャートを見たら分かるように、モデルがどんなに推論が得意かをチェックするもんやない。または、Gemini 2.5 ProとGrok 4が他の全部のチャートの合計の10倍から100倍のコストがかかったコストチャートを見たら。そう、ほんまに。

ここのコストパフォーマンスチャートを見ると、GeminiやGrokと比べるとO3 Proが実際に良い価値に見えるのが分かる。そしてO3スタンダードは、5セントで動いたのに対してGrokフォーマルは5ドルかかった、最も安いテストランの一つや。より良いモデルで100倍のギャップ。そして新しいOSSモデルを探しとるなら、あんまりうまくいかへんかったから、この隅の深いところを探さなあかん。そう、GPT OSSは実際にO3よりコストがかかった。もっと推論したからや。

ありがたいことに、まだ本当に安かった。悲しいことに、まだ本当にパフォーマンスが悪かった。でもこれらは、モデルがどんなに知能があるかの良いベンチマークやない。ただ興味深いベンチマークや。良いもんを見たらどうなるか？これも非常に興味深い結果や。

公式ベンチマークとパフォーマンス評価

これがOpenAIが公開したもので、他の参考資料も見るで。OpenAIは、GPT OSS 120億がツール付きでO3とO4 miniに匹敵するパフォーマンスをする、非常に近い同じ範囲内で、ツールなしのO3 miniは20億バージョンのツールなしよりもかなり低いと主張しとる。

そう、携帯で動かせる20億パラメータモデルが、一部のテストでO3と同じくらいのパフォーマンスをするっていうのは大きな話や。特にO3 miniとな。これは実際に本当に大きな話で、このリリース全体で一番かっこいい部分やと思う。携帯で動かせる20億パラメータモデルがあって、O3 Miniに匹敵するパフォーマンスを出すなんて。それは狂っとる。

みんながしばらくおったら、O3 Miniにどんなに感動したか、そしてO4 Miniがまだいっぱいのもんでわいのデフォルトモデルであることを知っとる。GPTOSSが匹敵するパフォーマンスを持つのは狂っとる。特にそのパラメータサイズでな。

それからHuminity’s last examを見ると、そんなに良くないスコアが見える。O3はここで大きなジャンプを見せた。この試験は変や。さまざまな分野のエキスパート問題で、モデルが特に答えるのが難しいように作られとる。特に、モデルが苦手な問題だけを選別したりしとる。それでも良い答えやけどな。

それからここにhealthbenchがあって、OSS120億モデルがO4 miniよりパフォーマンスが良くて、ハード版ではO3に近くて、他の全部を圧倒しとる。健康情報は本当にセンシティブなデータやからな。そんなもんを何かランダムな怪しいAPIに送りたくないやろ。比較的信頼してるもんでも。

今、ラップトップや携帯で動くもんで医療記録を処理できるなら、これは本当にかっこよくなるし、現実的に前は意味をなさへんかったいっぱいのことができる。病院がGPUが入ったコンピュータを買って、これらのモデルを動かして、サードパーティがアクセスすることを心配せんでユーザーデータや患者データを動かす安全な方法を持つ可能性をいっぱい見とる。

それからEMテスト、競技数学テスト、そして全部がその同じ範囲にかなり近い。狂っとるのは、70から80への跳躍が最近で大きな話やったことや。今、全部が95プラスの範囲にあって、結果としてテストがずっと面白くなくなった。そして小売機能呼び出しTowbenchで、これらのモデルはツール呼び出しの信頼性でO3とO4 miniの間で本当によくパフォーマンスするらしい。

わいは彼らがこれらのテストのためにHarmonyの上に独自のバインディングレイヤーを書いたと推測しとる。そうやなかったら、そんなに良くスコアする方法はない。このモデルでツールを使ったわいの体験は、それに近いところまで良くなかったからな。

Ameでは本当によくパフォーマンスした。GPQAでは本当によくパフォーマンスした。なんでオープンウェイトモデルが重要かの彼らの理由を読んでみよう。OSS 12Bと20Bをリリースすることは、オープンウェイトモデルにとって重要な前進を示しとる。そのサイズで、これらのモデルは推論能力と安全性の両方で意味のある進歩を提供しとる。

オープンモデルは、わいらのホストされたモデルを補完して、開発者に最先端の研究を加速し、イノベーションを促進し、広い範囲の用途でより安全で透明なAI開発を可能にするための幅広いツールを提供する。これらのオープンモデルは、予算や柔軟性が不足して独占モデルを採用できへん可能性がある新興市場、リソース制約のあるセクター、小さな組織にとっても障壁を低くしとる。

そう、価格のことも実際に本当に大きな話やで。これらのモデルはめっちゃ安い。一番高いプロバイダーでも、100万入力トークンあたり15から25セントしか請求してへんし、100万出力あたり75セント。Gemini 2.5 Flashはこれらのモデル、でかい120億版でも2倍以上高い。狂っとるで。

第三者ベンチマークとの比較分析

そしたら他の誰かがやったベンチマークで、これらはどう比較されるんか？ありがたいことに、みんなが知ってるようにわいがこの人らを愛してるArtificial Analysisが、一日中これらのモデルを最善を尽くしてベンチしようとして過ごして、120億モデルがQuen 3 235億とGemini 2.5 flashの間のどこかに落ち着くことで成功したみたいや。彼らの一般知能測定でな。

これは最高の測定やない。使ってるベンチマークの一部がちょっと古くて時代遅れやし、他のもんはこのテストが示すより重要やから、全部で平均を取るからや。でも現在選択されてる中で一番安いモデルで、一番速いモデルでもあるのも見える。

ここに下がって他のモデルと比較すると、humanity last examでは、Claude 4 sonnetと同じくらい良くて、Kimmyよりちょっと良くて、GLM 4.5、Deepseek r1、Quen 3よりずっと悪いのが見える。だから他のオープンモデルにさまざまなもんで負けとるけど、他では20億がGLM45がすることとマッチしとるのに、どうやら120億は科学的コーディングで悪いパフォーマンスをしとる。

これらのベンチマークは悲しいことにこういう理由であんまり情報を得るのが難しいけど、これはたぶんわいのお気に入りの部分で、OpenAIモデルでますます見るもんや。言ったことをしてくれる。他のモデルは、オートコンプリートモードに入って、好きなことをすることをもうちょっと喜んでする。

構文に従ったり、気が散って他のもんをしないで特定のタスクをするように、いっぱいの異なるモデルを持っていくのは難しい。コードベースで2.5 Proみたいなもんを使ったことがあるなら、これを実際に見たことがあるやろ。OpenAIモデルはそれをせえへん。そして新しいGPT OSSモデルは、その傾向に非常に、非常によく従ってるみたいや。

このチャートの左に黒いバーがいっぱいあるのは、OpenAIのモデル、特に推論モデルが、他のほぼ何よりも指示に従うのがずっと上手やからや。Quen 3では、次に高いスコアのオープンモデルよりも著しく良いスコア。とは言え、競技数学では、数学で大多数のオープンモデルを打ち負かしたけど、2.5 Pro、O3、O4 Mini Highみたいな業界をリードするもんよりまだ後れを取っとる。

どうやらQuen 3は数学にほんまに良い。誰が推測したやろか？全体的に、非常に良い数字。わいのお気に入りの数字の一つは、ベンチマーク全体を動かすコスト。そして20億と120億が実際に同じようなコストやったのが見える。わいの推測では、20億モデルがずっと多く推論をしとる。これは、GPT OSS120億を、今現在の知能対コストチャートで唯一の緑のモデルとしてしっかり位置づけとる。それはかなり狂っとる。

他の誰も打ち出してないように見える価格対パフォーマンスの本当に良いバランスを見つけたOpenAIにおめでとう。全てのテストで一番賢いオープンモデルやないかもしれんけど、大多数で非常に近い。他の何もできへん能力を持っとる。指示によく従うし、ずっと小さくて安い。Quen 3モデルの半分以下のサイズで、大多数のもんで同じようにパフォーマンスする。それは大きな成果や。

Artificial Analysisがこれらのモデルの内訳を投稿したばっかりで、彼らはこの部分が本当に上手や。だから彼らが言うことを読むだけや。かなり役に立つコンテキスト。GPT OSS 120億は最も知能の高いアメリカのオープンウェイトモデル。知能ではDeepcseek r1とQuen 3 235億に後れを取るけど、大規模な効率の利益を提供しとる。

ここで最も興味深い詳細は、何で動かせるかを考えた時にどうパフォーマンスするかや。120億モデルは単一のH100で動かせる最も知能の高いモデルで、20億は消費者GPUで動かせる最も知能の高いモデルや。両方のモデルがわいらの評価のほぼ全体で同じように配置されてるように見えて、特定の弱点の領域がないことを示しとる。

それは非常に興味深い。プロセスで妥協を持つことなく、実際に自分のハードウェアでこれを動かせることを意味しとる。それが彼らをこんなにかっこよくしとるもんや。OpenAIが特定のパフォーマンスレベルを狙って、もっと大きくならんように、できるだけ多くの知能を得たように本当に見える。

いっぱいのプロバイダーに良いモデルを渡すだけやなかった。開発者として、オタクとして、コンピュータ愛好家として使えるもんが欲しかった。そして彼らは、このモデルの上端をそのサイズあたりで頭打ちにすることを確認した。わいが家のGPUで120億を動かせるなんて、わいには狂っとる。

動かすのがもうちょっと難しいかもしれん他のオープンウェイトモデルを聞いたことがあっても、そんなに知能やない。DCR1のスコアやQuen 3235億を上回らへんけど、両方のモデルより総パラメータとアクティブパラメータの両方で著しく小さいことは注目に値する。

DCR1は6710億パラメータで370億がアクティブ。だからDeepseek r1のアクティブパラメータは20億モデルの総数のほぼ2倍。狂っとるで。ネイティブFP16精度でもリリースされてて、総ファイルサイズとメモリ要件をGPT OSS20億より10倍以上大きくしとる。120億と20億モデルの両方ともテキストオンリーモデルで、DeepSeek、Alibaba、他からの計算モデルと似とる。

アーキテクチャについてもちょっと話しとる。MOEルーターが各トークン生成のために上位4つのエキスパートを選択する。120億は36レイヤー、20億は24レイヤー。各レイヤーは64のクエリヘッドを持ち、8つのKVヘッドでグループクエリアテンションを使う。ロータリー埋め込みとyarnを使ってコンテキストウィンドウを128Kに拡張しとる。これはただ、各トークンが良い答えを得る可能性を高くするために、適切なもんを適切な場所にルーティングすることを実際に確認する方法や。

120億モデルは総パラメータの4.4%をアクティベートする。20億は17.2%。これは、OpenAIの視点では、より大きなモデルにとってより高い程度のスパース性が最適であることを示してるかもしれん。GPT-4以降のほぼ全てのリリースで、フロンティアラボのほとんどのトップモデルがスパースmixture of expertsやったと広く推測されとる。

また、APIの後ろにあるモデルについては、共有する理由がないから共有せえへんので、このレベルの詳細を得ることはない。OpenAIが比喩的にここの詳細で、そして文字通りどう考えるかを少し見るのは本当にかっこいい。ちなみに、今は完全な推論データを提供しとるから。以前はなかった。そう、完全な従来のテキスト推論。もう要約やない。かなりかっこい。

プロバイダーとコスト分析

オープンで提供しとるから、他のプロバイダーがここで重要や。数多くの推論プロバイダーがエンドポイントを立ち上げるのに素早かった。現在Grok、Inc.、Cerebras、Fireworks、Together ComputeとArtificial Analysisをベンチしとる。そして彼らが準備できたら、もっとプロバイダーを追加するで。そしてまた、価格は非常に、非常に安い。分かるやろ。

20億パラメータモデルでもボールテストを本当に、本当によくできた。ずっと大きいモデルがこのテストを完全に失敗するのをいっぱい見てきたから、これはちょっと狂っとる。サムも六角ボールテストの創始者であるFlavioをここで認めて返信しとる。これはめっちゃかっこいいと思う。

リストにある全てをカバーしたと思う。何で動かせるか？ほとんど何でも。これらはHorizonモデルか？絶対にちゃう。コードは得意か？まあまあ。CSSは全然だめやけど。Deepseek、Kimmy、GLMモデルより良いか？タスクによって、かなりばらつきがある。何が得意か？ほとんどのもんにかなり得意。科学が得意。話すのは楽しくない。テーブルが好きすぎる。ほんまに好きすぎる。

わいが渡したほぼ全ての単一のもん、わいの手についてのパーソナルな質問みたいなもんでも、ただテーブルの後にテーブルで応答しとる。何で？なんでこんなに時間がかかったか？モデルとAPIの間にその安全レイヤーがない状態でも、まだ使うのが安全であることを確認したかったんや。そしてトンでもない時間を注いで、うまくいったみたいや。

そしてGPT-5については？それは良い質問や。それは別の機会の良い質問や。この動画はもう十分長いし、飛行機に乗らなあかんからな。このモデルについてのわいのぼやきを聞く時間を取ってくれてみんなありがとう。楽しんでくれることを願っとる。コメントで感想を聞かせてや。