OpenAIの新しいオープンモデルがすべてを変えた…(gpt-ossの解説)

OpenAI・サムアルトマン
この記事は約11分で読めます。

OpenAIが初めてリリースしたオープンソースモデル「GPT-OSS 120B」と「GPT-20B」について詳しく解説している動画である。これらのモデルは従来のクローズドソースモデルと同等の性能を持ちながら、ローカル環境で実行可能という画期的な特徴を持つ。ベンチマークテストでは既存の最先端モデルに匹敵する結果を示している一方で、幻覚問題や創作分野での課題も指摘されている。この動画では技術的な性能評価に加えて、オープンソース化がAI業界の競争構造に与える影響についても言及している。

OpenAIs New Open Models Just Changed Everything... (gpt-oss explained)
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

OpenAIのオープンソースモデルがもたらす衝撃

OpenAIがついにオープンソースモデルを2つリリースして、インターネット界隈が大騒ぎになってるわ。この動画では、なんでこれが思ってるより遥かにデカい出来事なんかを詳しく説明したるで。

OpenAIがリリースした最初のモデルは、1200億パラメータの最大モデルや。これがGPTオープンソース120Bっちゅうやつで、データセンターとハイエンドのデスクトップやノートパソコンで動かすように設計されてる。もちろん、ほとんどの人は動かされへんやろうけど、H100 GPU1台に収まって、1170億パラメータに51億のアクティブパラメータを持ってるんや。

でも実際に2つ目のモデルを見てみると、これが小さいモデルで、大半の人が使うことになりそうなやつや。デスクトップやノートパソコン用のモデルやねん。

これがGPT 20Bで、大半のデスクトップやノートパソコンで動く中サイズのモデルや。うちも自分のノートパソコンとデスクトップで試してみたけど、結構うまく動いたで。これは200億パラメータだけで、低レイテンシーのローカルや特化した用途向けのやつや。

オープンソース化はみんなにとって驚きやった。だってOpenAIやで、文字通りその名前やのに。大半の人がこの会社はもうオープンソースになってると思ってたやろうけど、それがみんなを驚かせた主な理由やなかった。

ベンチマーク性能の驚異的な結果

重要なんは、これらのベンチマークが実際にOpenAIがリリースした最先端システムと互角やっちゅうことが分かるんや。この動画では少しベンチマークについて話すで。普段はベンチマークについてあんまり話さんようにしてるねん。大して面白くないし、大抵は数字を見てるだけやからな。

でも今回注目してる唯一の理由は、OpenAIが何年かぶりに実際にオープンソースをリリースして、コミュニティがモデルの生の能力がどの辺にあるかを正確に見られるようになったからや。

ここで本当に分かるんは、1200億パラメータモデルと200億パラメータモデルでさえ、o3 miniレベルでo3周辺レベルの性能を示してるっちゅうことや。サイズが遥かに小さいのに、これは本当に本当に驚異的やで。後で動画で話すその影響について考えたら分かるやろ。

これはもちろんコードベンチマークで、競技プログラミングのCodeForcesという挑戦的なコードベンチマークや。これは再び驚くほど印象的やな。人類最後の試験っちゅうやつで、これは基本的に記憶とかその他の従来のベンチマーク飽和で起こる問題に本当に強く抵抗するように設計されたベンチマークの1つや。

これでも、GPTオープンソースモデルがo3モデルの一部と同レベルか似たような性能を示してるのが分かるで。これは本当に本当に驚異的や。正直、OpenAIでここまで到達するとは思わんかった。第一に、これをするのは結構難しいからや。第二に、OpenAIがそもそもそれをリリースしたいとは思わんかったからや。

数学ベンチマークの完全飽和

他の従来のベンチマークを見てみると、数学に関してはこれらのベンチマークが完全に飽和してるって言うても安全やと思う。将来のモデル動画や他の論文リリースでは、これらのベンチマークはもう使われへんやろうな。98%、96%、場合によっては99%とかになってるからや。

そういう小さなパーセンテージの一部は人為的ミスかもしれんと思ってる。だからこれらのベンチマークは完全に飽和してるんや。数学に関しては、オープンソースモデルは文字通り同等やねん。

実用的なベンチマークでの性能

日常的にこれらのモデルを実際に使う予定やったら、もっと向いてるのはGPQAとMMLU PhD科学レベルの質問、それから標準的な質問用のMMLUやろうな。

GPTシリーズモデル、オープンソース版が、o3とo4 miniレベルの性能を全面的にほぼ示してるのが分かるで。あちこち見回してみたら、後で詳しく話すちょっとした質的違いがあるけど、現在これらを見る限り、OpenAIからの本当に本当に有望な内容やと言わざるを得へん。

注目したいベンチマークが1つあるねん。これはよく忘れられるやつや。大半の人はこのベンチマークについてあんまり話さへんけど、これがTAWL Benchの小売機能呼び出しや。大半の人はこのベンチマークのことを知らんけど、うちは気に入ってるねん。現実に基づいたベンチマークやからやと思う。

このベンチマークは、注文キャンセル、住所変更、返品、交換、注文状況確認といった現実的な小売カスタマーサービスタスクを処理するAIエージェントの性能を評価するように設計されてるんや。基本的にシミュレートされたユーザーとAIエージェントの間の動的なマルチターン会話をエミュレートして、AIエージェントに提供されたAPIツールと相互作用して、ドメイン固有のポリシーを遵守することを要求してるねん。

エージェント性能と実用的な応用

これは色んなツールを持ったカスタマーサービスエージェントの役割を果たすやつで、将来多くのエージェントが使われることになるから期待してるものや。この場合、200億パラメータモデルがo3とo4 miniからそれほど遅れてへんし、1200億パラメータモデルは本当に非常にうまくやってるのが分かるで。

もちろん、この動画の大部分でモデルについて褒めちぎってばっかりやけど、ただ良い面だけを伝えたいわけやない。バランスの取れた見方も示したいねん。前に言ったように、これらのモデルに問題がある特定の分野を見かけてるからや。

モデルの課題と制限事項

だから、モデルのいくつかの問題に飛び込んでみよう。これはそのモデルを使わへんっちゅう意味やない。確実にこのモデルを結構よく使うつもりや。ただ、知っておく必要がある問題がいくつかあるっちゅうことや。特定の用途でLLMを選ぶときには、これをどこに位置づけるかを理解せなあかん。

主要な問題の1つは、これらのモデルがかなり幻覚を起こしがちやっちゅうことや。ここを実際に見てみると、これは基本的に幻覚ベンチマークやねん。数字を伝える前にパニクらんといてや。これらのベンチマークは幻覚を引き出すように設計されてるからな。

パニクる前に、これらのベンチマークはモデルがどこにあるかを本当に見るように設計されてるっちゅうことを理解してや。でも再び、これらのモデルには本当に高い幻覚率があるのが分かるで。20Bモデルは、この特定のベンチマークで91%の時間幻覚を起こしてる。これでは53%の時間、これでは49%や。

もちろん、より大きなモデルはそのベンチマークで78%の時間それをやってる。もちろん、推論シリーズのモデルは、考えへんモデルより実際に多く幻覚を起こしがちや。これは前に話したことがあるやつや。まだ調査中やねん。だから、これらのモデルを使う前に走り出さんで、幻覚があることを覚えといてや。

幻覚は起こるんや。だから、もちろん、これらの出力は常に事実確認してや。重要な文書に盲目的にコピペしたらあかん。二重チェックが必要や。これはうちの頭に刷り込まれてることやねん。LLMが正しく聞こえる出力を生成するけど、その分野のある程度の専門家でない限り、騙されたり不意を突かれたりする可能性が高いからや。特に、これらのモデルが幻覚を起こす可能性があるし、うちにも何回か起こったように、あんたにも起こるやろうからな。

だから、これらのモデルは絶対確実やないっちゅうことを知っといてや。そう、良いで。そう、素晴らしいオープンソースや。そう、デバイス上で動かせる。でも問題も持ってるんや。

感情知能と創作分野での限界

EQBenchっちゅうのもあったで。これはSamからTwitterで見たやつで、基本的にEQBenchは少し注目が必要やと思うねん。モデルの感情面、感情知能が様々なユースケースにとって重要やからや。

もちろん、量的ベンチマークがある程度飽和してるって言えるやろうな。だから質的ベンチマークを見ることが重要やねん。そうする中で、EQBench 3を見てみることができる。すごく見づらいけど、GPTオープンソースモデルが基本的にトップにないっちゅうことを示すで。

ここで追加したいんは、これは多分ある程度不公平な比較やっちゅうことや。リリースされたばかりのオープンソースモデルと、何百万何千万ドルもかけた基本的にクローズドソースの最先端モデルを比較してるからな。でもここで、GPTオープンソース1200億パラメータモデルがDeepSeek V3より下にあるのが分かるで。

DeepSeek R1より下やし、GLM 4.5とKimi K2 Instructより下や。だから、最近リリースされたモデルがあるねん。一部は、DeepSeekのようにしばらくあったやつもある。もちろん20Bモデルは実際に、Grok 3 beta、Gemma 3、Grok 3 Mini、GPT-4.1 Nanoみたいな他のモデルの全然下にあるねん。

だから、創作やそういったユースケースで使う予定やったら、違うモデルにアクセスできへんことを確認してや。そうでなかったら、そういうユースケースでは他のモデルを使う方がええで。さらに、創作では、ここで絶対最高をやってるようには見えへんねん。

オープンソース化が業界に与える影響

他のモデルの全然下にあるねん。色々違うやつがあるで。動画を止めて、携帯で拡大してや。本当に詳細な画像やからな。あんまり時間をかけたくないねん。それから、もちろん長編創作もあって、モデルが抜きん出てるようには見えへんねん。

覚えといてや、言ったように、これはオープンソースモデルや。オープンソースモデルだけやったら、多分かなり順位が上がるやろうけど、Kimi K2、DeepSeek R1みたいに、これらの分野でこれより良い性能を示すオープンソースモデルがあるねん。だから、特にこれらのベンチマークで、それを見るのは面白いで。

さらに、もちろん、これらのモデルをファインチューニングできるから、それが大きな問題の缶を開けて、うまくいけば色々違ったユースケースのバリエーションを開くことになるやろう。

でも話したいことの1つは、これは多分誰も話してない最大のことの1つやと思うんやけど、これは大体競争の終わりやねん。もちろん、まだ他のモデルを使う人もいるやろうけど、言いたいんは、DeepSeekの大騒動、株式市場から1兆ドル暴落させたDeepSeekの全体的なやつとか、あの大騒動全体、それ全部がOpenAIのモデルがクローズドソースでオープンソースやないから起こったんやねん。つまり、人々がそれらを使うのにお金を払わなあかんっちゅうことや。

あの全体的なことが起こったんは、DeepSeekがモデルをリリースして、当時のChatGPTより良くて無料やったからや。今OpenAIがこれをやったから、OpenAIのモデルがクローズドソースやっちゅう理由だけで単純に繁栄してた他の多くの会社があったっちゅうことを理解せなあかん。

でも今、彼らがそのプレイングカードを取り上げたから、Metaみたいな会社は何をするんやろう?Quenみたいな会社は何をするんやろう?DeepSeekみたいな会社は何をするんやろう?今、OpenAIが彼らのレベルか、それ以上のオープンソース提供があるなら、さらに懸命にイノベーションを迫られることになるからや。

開発者サポートと市場支配の可能性

OpenAIはより多くのユーザーを維持するやろう。OpenAIがこのオープンソースモデルをリリースする方法を多分保証できるからや。開発者に対するサポートの量が、他のどのモデルよりもこれらのモデルで構築するのが大幅に簡単になることを意味するからや。だから、それを理解することが重要やねん。

これは多くを変えると思うで。OpenAIがこの分野でも支配することになったら、他のオープンソース会社からはるかに少なくなるのを見ることになるやろう。つまり、うちが本当に使うのを気に入ってたシリーズの1つはQuen 3シリーズやった。でも今見てみると、OpenAIが良い、もしくはそれ以上のオープンソースモデルを持ってるなら、Quenシリーズを使う意味がないやろう。このバージョンが実際に無料で、気に入らへんかもしれん特定のバイアスがかかってへんっちゅう感覚がないからや。

だから、DeepSeek R2でも今、それがGPT-5キラーになる予定やった。現在、DeepSeek のエンジニアは過去数カ月間懸命に働いてて、2人によると、新しいモデルの性能に満足してへんらしいねん。

だから、これはもちろんOpenAIのオープンソースモデルに関係してへんけど、考えてみてや。DeepSeekが本当に再び世界を驚かせて、GPT-5や他のシリーズの輝きを奪うなら、OpenAIがそのプレイングカードを取り上げたから、本当に多くのことをせなあかんことになるねん。

だから、うちにとってはこれは巨大な巨大な動きや。これがAIでの構築に巨大な巨大な巨大な分野を開くとも思うで。AIでビジネスを構築したい人にとってはすごいことになるやろう。

規制遵守と新市場の開拓

Greg Eisenbergがツイートしたやつを見てみると、この文書全体、言ったように全てのリンクは説明に入れるけど、HIPAA準拠アプリが必要な特定の業界があることを意味してるねん。多くの人がAIオートメーションとかを構築してたんは知ってるけど、データプライバシー法や他のことのせいで、特定の分野で実際に準拠させるのは本当に頭痛の種やった。

でも、このような岩のように固いオープンソースモデルがあると、準拠させるのが本当に簡単になるから、市場シェアの全分野が開かれたことを意味するねん。

だから、再びAIが今まで見たことのない方法で経済を食べることになるねん。これを止めて読むことができる。あんまり長く読みたくないけど、文字通りAPIコストがもうない。文字通り一回のハードウェア投資やねん。データがデバイスから出て行かへん。デフォルトでプライベートや。

オフラインで動く。インターネットも必要ない。覚えといてや、これらは自分で修正できるモデルやねん。だから、会社向けにモデルをファインチューニングするビジネスをしてるなら、これはあんたにとって巨大なことになるやろう。本当に本当にクレイジーや。政府もこれらを使えるんや。ユースケースが本当に世界を超越してるねん。

だから、これについてみんながどう思うか教えてや。これはかなりクレイジーやと思う。これは間違いなく多くを変えるやろう。

コメント

タイトルとURLをコピーしました