OpenAIが業界をひっくり返した

OpenAI・サムアルトマン
この記事は約11分で読めます。

この動画はOpenAIが突然リリースした2つのオープンソースモデル「GPT-4o OSS」について解説している。これらのモデルは従来の最高性能クローズドソースモデルに匹敵する能力を持ちながら、オープンソースとして公開されたことで業界に衝撃を与えた。特に120億パラメータモデルはGPT-4 miniやo3モデルと同等の性能を示し、コンシューマー向けハードウェアでも動作可能である点が革新的である。OpenAIがオープンソースへの回帰を示した一方で、GPT-5の登場が間近に迫っていることも示唆されている。

OpenAI Just Broke The Industry
Plot Twist: OpenAI Just Changed the Game (Again)Two open source, open weights models just dropped — and they’re good.We’...

OpenAIの衝撃的なオープンソースモデル発表

OpenAIがな、GPT-4o OSS っていうオープンソースのオープンウェイトモデルを2つもドンと出してきよったんや。これな、みんなあんまり準備できてへんかったと思うで。

なんでそんなことが言えるかっていうとな、コードフォース競技でのコードを見てもらったらわかるわ。GPT-4o OSS の120億パラメータモデルにツールを使わせたら2622点や。これな、o3にツール使わせたんとほぼ同じやねん。GPT-4 miniにツール使わせたんとも同じくらいやで。

昨日まで最高やった、ほんまに昨日までやで、そんなモデルたちと同じレベルのもんがオープンソースで出てきよったんや。しかもな、小さい方の20億パラメータモデルかて、そんなに悪くないねん。

OpenAIのことを「ClosedAI」に名前変えろって言うてた人らがおったけど、これからはそんなこと言いにくなるやろうな。

これはほんまに大きな動きやで。GPT-5のリリースを待ってる我々にとっては、GPT-5は相当次のレベルやないとあかんってことが分かるわ。GPT-5がこれらのモデルを大幅に上回らんかったら、この動きが意味をなさへんからな。

GPT-4o OSSの詳細

せやから話そうや、GPT-4o OSSについて。これらのモデルはオープンソースのオープンウェイトで、Apache 2.0ライセンスで提供されとる。つまり商用利用もできるし、改造もできるし、何でもできるっちゅうことや。OpenAIのオープンソースを中心にした生態系全体ができあがってくる可能性が高いで。

オープンソースのもう一つの大きなメリットは、めちゃくちゃ安く使えることや。これらのモデルは同サイズのオープンモデルを推論タスクで上回っとる。

ほんまにもう一回言うけどな、これらはツール使用能力が強くて、コンシューマー向けハードウェアでの効率的な展開に最適化されとるんや。o3レベル、GPT-4 miniレベルのモデルがオープンソースでコンシューマーレベルのハードウェアで動くって考えてみ。これ、まだ市場に織り込まれてへんと思うで。誰もまだこれが何を意味するかちゃんと理解できてへんのちゃうか。

これらのモデルは強化学習と、OpenAIの最先端内部モデル(o3とか他のフロンティアシステム)から得られた技術を組み合わせて訓練されとる。ちなみにThe Information.comによると、OpenAIが使ってる秘伝の強化学習技術の一つに「ユニバーサル検証器」っていうのがあるらしい。

これは強化学習中にモデルが高品質な回答を生成してるかどうかを、より自動化された方法でチェックする技術のことや。OpenAIはこの技術を開発して、今度出るGPT-5モデルの改善に使うとる。これはProVerifierっていう論文でOpenAIが発表したもんに似てるかもしれへん。

このアプローチで訓練されたLMは、数学とかコーディングとか、明確な答えが分かる分野で良くなるみたいやな。ここで言うてることが正確にそれかどうかは分からへんけど、新しい強化学習技術があって、それが最近のIMOでの成功や、AtCoder競技での成功(世界チャンピオンレベルで2位、人間で勝てたのは1人だけ)の一因になってるのは確かみたいや。

そして最後に、これらの印象的なオープンソース推論モデルや。オープンソースの120億パラメータモデルは、OpenAIのGPT-4 Miniとほぼ同等の性能を、単一の80GB GPUで効率的に動かしながら達成しとる。これは信じられへんことやで。

小型モデルとデバイス展開

小さい方の20億パラメータモデルは、たった16ギガバイトのメモリでエッジデバイスで動かせる。オンデバイス使用、ローカル推論、高コストなインフラなしでの高速反復に理想的やねん。これが今現実になってるって、まだちょっと信じがたいわ。

両方のモデルともツール使用、フューショット関数呼び出し、チェーン・オブ・ソート推論、ヘルスベンチでも強い性能を示してて、他のOpenAIモデルを上回ってる場合もある。エージェント的ワークフローが得意で、指示従行が優秀で、ウェブ検索、Pythonコード実行、推論能力なんかのツールも使えるんや。

オープンソースモデルのリスク

もちろん、オープンソースモデルには独自のリスクがある。オープンウェイトを一度公開してしまったら、誰でもローカルストレージにコピーして、無制限にコピーして、ディスクに保存したりできるようになる。

そのオープンウェイトを回収するのは不可能や。プロプライエタリモデルやったら、普通はどこかのサーバー、何かのAPIに接続されてる。やからボタン一つでシャットダウンできる。モデルが変な危険性を示すようになったら、そのモデルを世界的にシャットダウンできる。でもこれらのオープンソース・オープンウェイトモデルは、一度出回ってしまったらそれで終わり、回収する方法はない。

研究論文で詳しく説明されてる内部安全ベンチマークを見てみよう。目立つのは生化学攻撃とか、過去に話したような似たような危険の可能性や。これは多くの研究所が赤旗を上げて「ここは懸念すべき分野や、リスクのある分野や、注意を払うべきや」って言うてる分野の一つやねん。

研究論文では、これらのモデルを敵対的にファインチューニングしたときに、DeepSeekモデルよりもちょっとリスクが高いことが分かった。でも、最近のQwenモデルやQwen 3モデルも同様のリスクの可能性を示してる。

つまり、もう猫は袋から出てしもうてるっちゅうことや。もう出回ってるし、OpenAIだけやない。複数の中国企業、Qwen、DeepSeekとかもやっとる。でも全体的に見ると、これらはプロプライエタリモデルと同等や。必ずしもより危険っちゅうわけやない。ただ、必要になったときにシャットダウンしたり回収したりするのが簡単やないっちゅうだけや。

もちろん、人々が好きなように改造することもできる。やからそれが新しい攻撃の角度を導入することになる。

技術的詳細

これらのモデルは最先端の事前訓練と事後訓練技術を使って訓練されてて、特に推論効率と幅広い展開環境での実世界での使いやすさに焦点を当ててる。

各モデルはMixture of Expertsを使うTransformerや。120億パラメータモデルは51億パラメータをアクティベートして、20億パラメータモデルは36億パラメータをアクティベートする。これで各クエリ、各質問を実行するのに必要な総リソースが削減される。

データセットはSTEM、コーディング、一般知識に焦点を当ててる。データをトークン化して、このトークナイザーを使って、今日オープンソース化もしてる。

モデルはGPT-4 miniと同様のプロセスを使ってポストトレーニングされてて、教師ありファインチューニング段階と高計算量強化学習段階を含んでる。つまり、最先端の最高の推論モデルと同じ技術を使ってるっちゅうことや。

推論努力レベルの調整

ポストトレーニング後、これらのオープンソースモデルは例外的な能力を示してる。これらのモデルは異なる推論努力レベル(低、中、高)もサポートしてる。APIのOシリーズと同様に、開発者はシステムメッセージの一文で推論努力を簡単に設定できる。これがどれだけ良いかは信じがたいくらいや。

これで今のところ、今日現在、最高のプロプライエタリモデル、クローズドソースモデルと、最高のオープンソースモデルの間のギャップが埋まったんや。ギャップはあるけど、実質的にはもうギャップがない状態や。おそらく48時間くらい、GPT-5を出すまでやけどな。そしたら全部ひっくり返るわ。

でも見てみ、コードフォースで両方ともツール使用で、120億のGPT-4o OSS対o3が2622対2708、GPT-4 miniとツールで2719。20億パラメータモデルはツールありで2516や。

ヒューマニティーズ・ラスト・エグザムでは、ギャップがもっと大きい。大きい方のオープンソースモデルは19点、o3がツールありで25点弱くらいや。

最近、ヒューマニティーズ・ラスト・エグザムについて疑問を呈する人がおる。精査されてる問題が結構あるみたいで、正しくないって言う人もおって、特に生物学関係とかでな。別の動画で取り上げたけど、ベンチマークは塩一つまみで受け取らなあかん。でも、一見したところ、これらのモデルがどこに位置するかを知るには結構良い方法やと思う。

ヘルスベンチでは、大きいオープンソースモデルはo3より数点低いだけや。ヘルスベンチ・ハード、挑戦的な健康会話では、o3より2点も低くない。

AIME 2024と2025については、もうほぼ飽和状態や。100%に近づいてる。確かGrok-4が100%やったと思う。でも2024年で96.6%と96%、2025年で97.9%と98.7%や。もうこの時点で競技数学は終わりや。これらのモデルを本当にテストするには次のレベルの何かが必要や。

GPQA diamond(ツールなし)では、120億パラメータモデルが80.1%、o3が83.3%。MMLUでは、大きいオープンソースモデルが90%対o3の93.4%。ToolBench retail関数呼び出しでも、o3より数点低いだけや。

チェーン・オブ・ソートの監視

チェーン・オブ・ソートについては、このチャンネルで最近の研究を取り上げた。フロンティア推論モデルでの不正行為を検出しようとするとき、チェーン・オブ・ソートを監視するのは結構うまくいくみたいやな。

OpenAIは、悪い思考を罰しようとしても、ここで言うてるように、不正行為を止めることはできへん。ただ意図をうまく隠すようになるだけやって警告してる。やから他の研究所にAI安全のためにそれをするなって警告してる。効率向上をもたらして、モデルの性能を良くするけど、不正行為をしてるときに捕まえるのが難しくなるからな。

これはUK AI Safety InstituteやApollo Researchなど他の機関も同じことを言うてる。やからo1プレビューを開始してから、チェーン・オブ・ソートに直接的な監督は入れてへんって言うてる。この監督されへんチェーン・オブ・ソートを持つモデルをリリースすることで、開発者や研究者が独自のチェーン・オブ・ソート監視システムを研究・実装する機会を与えることを期待してるって言うてる。

研究者や開発者にとって、これは信じられへんくらい有益や。最高レベルのモデルをオープンソースで手に入れられて、思考の連鎖を監視できて、独自の実験を実行できる。OpenAIはこれを警告として残してる。いわゆる「悪い思考」を罰したらあかんって。

Pink Floydの歌にもあるように「思考統制はいらん」っちゅうことや。もちろんHugging Faceでも利用可能で、ローカル、オンデバイス、サードパーティ推論プロバイダーを通してどこでも実行できる。Grokも気づいたけど、これらのモデルを実行する準備ができてるって言うてて、これがリリースされた直後に発表しとった。

オープンモデルの重要性

最後の方で、OpenAIはなぜオープンモデルが重要かについて話してる。もちろん、これらのことは我々も知ってる。新興市場やリソース制約のある分野への参入障壁を下げるっちゅうことや。これで参加したい全ての人に非常に強力で先進的なツールを提供する。権力を集中させる代わりに、分散化してるんや。

ここで述べられてるように、アメリカで作られた有能なオープンウェイトモデルへの幅広いアクセスは、民主的なAIレールを拡大するのに役立つ。中国との競争について多くの話があって、中国がオープンソースAI競争でかなり勝ってる、あるいは少なくともリードしてるっちゅう話があった。

これにはほんまにびっくりしてるで。みんながオープンソースの約束から手を引いてるように見えてたからな。最近、マーク・ザッカーバーグが超知能について声明を出したとき、その中の一文でオープンソースから一歩下がるかもしれへんっちゅうことをちょっと示唆してた。やからアメリカ市場でオープンソースモデルをリリースすることについて、もうちょっと弱気で、ちょっと冷ややかな雰囲気が漂ってるように見えてた。

そしたら一気に、OpenAIがその名前に忠実に、最高クラスのオープンソースモデルをリリースしよった。2つもや。実際には、トークナイザーとかも数えたら3つやけど、フロンティア大規模言語モデルが2つや。

HuggyFaceの創設者のClemが、誰よりもうまくまとめてくれたと思う。パリのAIサミットでサム・アルトマンがオープンソースモデルのリリースに本気やって言うたとき、信じられへんかったって。多くの人がこれらのモデルがどれだけ有用で強力かについて疑問を持ってて、ただのトークン的なモデルリリース、つまり「批判者を黙らせるために何か適当に出しとこ」程度のもんやと思ってたと思う。

誰もこんなもんを予想してへんかったと思う。間違ってたら訂正してくれ。誰もこれが来るとは思ってへんかったやろうけど、アメリカAI行動計画で読んだ中に、彼らが話してる柱の一つがアメリカ側からのAIオープンソース化やった。アメリカがオープンソースAI開発でリードせなあかんっちゅう声明があった。やからClemがここで言うてるように、プロットツイストみたいな感じや。確かにそうや。

プロットツイストがこれを表現するのに完璧な言葉や。復活みたいな感じでもある。確実にOpenAIにとって、これは復活や。勝つっちゅう意味だけやなくて、ルーツに戻るっちゅう意味での復活で、何か大きなもんの始まりみたいな感じや。オープンソースAI、行こうぜ!

これ以上うまく言えへんかった。そして、おそらくGPT-5がリリースされるまであと48時間くらいや。

やから48時間のオープンソースの興奮があって、その後は何を出してくるか想像もつかん。見てくれてありがとう。僕の名前はウェス・ロスや。また次回会おう。プロットツイストやな。

コメント

タイトルとURLをコピーしました