OpenAI GPT-oss-120B: LIVE TEST

OpenAI・サムアルトマン
この記事は約6分で読めます。

この動画はOpenAIが公開したオープンソースの推論モデルGPT-oss-120Bのライブテストである。モデルを実際に実行し、因果推論タスクで性能を評価する内容である。ベンチマーク比較や実用性についての考察が含まれる。

OpenAI GPT-oss-120B: LIVE TEST
My causal reasoning test performed on the newly release GPT-OSS-120B from OpenAI. The open-weight reasoning models 120B ...

オープンモデルのテスト開始やで

こんにちは、みんな。よう戻ってきてくれたな。ほんまええわ。ようやくOpenAIからオープンモデルが出てきたで。信じられへんやろけど、ここでテストしてみよか。今ここにSam Altmanの短いツイートがあるんやけど、ほら、GPT-ossは大したもんやで。最先端のオープンウェイト推論モデルで、強い実世界性能があって、GPT-4o miniに匹敵するんやけど、自分のコンピューターやスマホでローカルに動かせるし、サイズも小さいで。

見てみよか。これ、数億ドルの研究の成果やって言うてるわ。で、AIをできるだけ多くの人の手に届けたいんやって。美しいマーケティングやな。これできるんか? ああ、できるで。ほら、ベンチマークのLM Arena見てみい。Claude 3がここでGemini 1.5 Proと首位を分け合ってるんや。次にJet GPT-4 Omni GPT-4 4.5や。

ほんで、優秀なモデル、推論モデル作れるんや。ほんなら、オープンウェイトの推論モデルをオープンソースで作って、ほんまにやりたいんか? ほんまにやる気あるんか? チェックしてみよか。まずはHugging Faceや。ここやで。GPT-oss 120億。全部あるで。ダウンロードゼロや。

ちょっと早すぎたわ。ほんま今起こってるんや。もちろん、ちょっと待ったら、もうUnslaughtで16分前に出てきてるで。oss 20億の無料訓練可能パラメータGGUFがあるわ。LM Studio Communityの20B GGUFや。もう量子化されたモデルが利用可能やで。ここにOpenAIの完全なモデルカード、2025年8月5日や。

ここにOpenAIが比較して、やって、提示して、OpenAIのマーケティング部門が選んだ美しいデータ全部あるわ。で、知ってるやろけど、無視しよか。いくつか美しいAM25ベンチマークあるで。最後の二つのモデルがここ、120Bと20Bや。見てみい、03 miniよりちょっとええくらいやけど、GPT-4o miniほどええわけちゃうわ。

ほんで、ここにオープンソースモデルとして位置づけてるん明らかやけど、無料モデルやで。つまり、訓練せなあかん、ファインチューニングせなあかんわ。ここに強化学習あるし、すべての可能性あるで。PhDサイエンスの質問行ったら、20Bはそんなええわけちゃうわ。

ほんで、120Bに焦点当てるわ。ええで。さらなるコンポーネント、アクティブパラメータ見たいんやったら、総パラメータ、想像してみい、120Bは116で、20Bは20.9や、誰が想像したやろな。で、ここに最初のフィードバック、5090について、20億の小さい方でLM Studioの縮小版で160トークン毎秒、これええわ。ここで3,000トークン毎秒でいくで、プロフェッショナル版で行くわ、ほんまにこのシステムの性能見たいし、ファインチューニングと最適化に投資すべきか、作るべきか、もっとええ機会あるんか。

知ってるやろけど、俺のテストあるで。ここにベストのGemini 1.5 Proが今8ステップで一番の performer や。ここにOpenAI Claude 3 Sonnet 4が11ステップ、Mistral Smallは24億でも10ステップのソリューションや。ほんで、正確に10ステップ以内に最高のモデルがあるわ。で、今これで同じテストするで。俺の動画Grok 4ライブ見てみい、ここにGemini 1.5 procing fun、全部録画してるわ。今OpenAIの新しいモデルでライブテストや、始めよか。

ライブテストの実行や

こんにちは、みんな。ここCerebrasパーソナルシステムメッセージ、温度なし、全部デフォルトでいくで。新しいGPTオープンソースの120億無料訓練可能パラメータ見てみよか。

俺の標準テスト入れて、ラン言うたで。他は何もせえへん。Cerebrasがシンクしてるわ。雷みたいに速いはずや。シンクモードアクティブや。美しいわ。ほんなら、ソリューション見てみよか。1,000トークン毎秒。まあまあええわ。4秒でソリューション出たで。15プレスソリューションや。美しいわ。ほんで、これがリドルやで。

フロア48 50や。ショートカット見つけてへんわ。違うコードカードや。アイテムランや。15回プレスしたわ。エネルギー十分や。コードカード集めたわ。トラップヒットなし。全部のフラグオフや。グリーンきっかけや。オッケー。全部ゴー制約や。これパレート最適ちゃうわ、絶対。

15プレスはかなり低い性能や。下限のプレス数や。美しいわ。ハード下限ちゃうで。確かにハード下限ちゃうわ。ええ、始まるわ。ランダムドロップや。結論。13プレスが絶対理論的最小や。絶対ちゃうわ。これ絶対間違ってるわ。で、これがプレスのシーケンス、エレベーターをフロア0から15へ。

15ムーブ、すべてのルール尊重してるかもやけど、ソリューションはひどいわ。すべての制約同時に満たす最小の可能なプレスや。ほんで、15プレスソリューションはほんま悪いわ。特にこれが新しいGPT、オープンソースモデル120億無料訓練可能パラメータやったら。俺思うに、これちゃうわ、俺らが探してたもんちゃうで。

オッケー、検証ランやって、これで終わりやと思うわ。ほんなら、結果検証せえよ。お前俺とライブやで。雷みたいに速く考えてるわ、きっと。4秒ソートや。15プレス最適ラン、総プレスや。オッケー。オッケー。必要なもん見つけてへんわ。13プレスが絶対最小や。5から始まるわ。

14プレスソリューションが存在して、ちょっとしたことするわ。提示されたソリューションはパレート最適や。他の合法的なもんは15プレスより少ない使えへんわ。ほんで、これ間違ってるわ。すべてのゴールと上記の推論で最適や。これ間違ってるわ。ほんで、もしこのGPTオープンシステムの120億使ったら、絶対ちゃうわ、このオープンソースモデル因果推論で何にも使わへんわ、ほら、見ての通り、もっと小さいモデルとかの方がええ性能やで。ほんで、これ因果推論ちゃうわ。

結果のまとめや

ほんなら、結果はなんや? 新しいGPTオープンシステムの120億無料訓練可能パラメータの最初の印象は、ほら、他の性能見てみい、俺らこれGPT-oss 12B今14か15ステップやけど、見てみい、ほんまにこれに投資する価値あるんか、それとも他のシステム行くか、QNシステム行って、そこで投資するか、見てみい、継続事前訓練あるし、監督ファインチューニングに投資するか、大量に強化学習や。

分かるわ、ベースモデルがオープンソース欲しいんやったら、けど因果推論で、強調したいんやけど、これ因果推論のロジックテストだけやで。シンプルなゴール、エレベーターでフロアゼロから50へ最短パス見つけるんや。このエレベーターの特定のボタンの関数定義したわ。

対称性反対称性関係定義してるわ。ほんで、簡単なタスクちゃうわ、絶対。めっちゃシンプルなタスク行ったら、テストせなあかんわ。自分の問題見つけるわ。けど、俺ほんまにハードテスト提供してるわ。で、ここに俺の因果推論テストの結果や。どんなモデルでも馴染みないんやったら決める前に、ネットのどんなリソースも信じたらあかんわ。ここLM Arena行け。

俺いつもここ役立つ思うわ。見てみい、サイドバイサイドGPT-oss 120Bや。ここで20Bとライブ比較できるわ。思い出すで、これフルフレッジド版や。2ビットや4ビット量子化されてさらに減らされてへんわ。ほんなら、自分のタスク、自分のドメイン、自分の必要な複雑さ入れて見てみい。

120B行くべきか? 20B行くべきか、オープンソースやったら、それから他のオープンソースモデルと比較して、自分の特定のタスク、自分のドメイン、自分の複雑さでこれがベストモデルか見てみい、けどオープンソース120Bの因果推論タスクで、俺注意するわ、詳細にテストしてからこのモデル決めるわ、TBD5でまたな。

コメント

タイトルとURLをコピーしました