オープンモデルを活用した開発

本動画は、OpenAIが2025年8月にリリースした最新のオープンソースモデルシリーズ「GPTOSS」について、その特徴と活用方法を詳細に解説するものである。GPTOSSは12Bと20Bの2つのモデルで構成され、MacBookなどの高性能な消費者向けハードウェア上で完全にローカル実行が可能な推論モデルとして設計されている。Apache 2ライセンスの下で提供され、商用利用やファインチューニングが可能である点が特徴だ。モデルはチェーン・オブ・ソートを活用した可変推論機能を備え、ツール呼び出し、ウェブブラウジング、Python実行などの高度な機能を統合している。デモンストレーションでは、完全にオフラインで動作する財務管理エージェントの構築や、強化学習によるファインチューニングの実例が示される。OpenAIのGPT-5などのプロプライエタリモデルとシームレスに連携できる点も重要であり、オンプレミスでの安全性やプライバシー保護が求められるユースケースに最適なソリューションとして位置づけられている。

Building with Open Models

Go beyond out-of-the-box models with gpt-oss, OpenAI's newest open model series. Discover how gpt-oss lets you adapt, ex...

GPTOSSの紹介
GPTOSSの特徴と性能
デモンストレーション:ローカルファイナンスエージェント
ウェブブラウジングとGPT-5の統合
ファインチューニング:2048ゲームの例
特別なハードウェア:DGX Spark
まとめ

GPTOSSの紹介

皆さん、こんにちは。私の名前はドミニク・クンダルと申しまして、OpenAIで開発者体験に関する仕事をしております。始める前に、簡単に挙手をお願いします。オープンモデルとプロプライエタリモデルの両方を組み合わせて使用している方はどれくらいいらっしゃいますか?なるほど、かなり多いですね。GPTOSSを使用している、または使用したことがある方はいらっしゃいますか?わかりました。予想よりも多いですが、このトークの終わりまでには100%にできればと思います。

それでは、これから25分間かけて、今年の8月初めにリリースした最新のオープンモデルシリーズであるGPTOSSについてお話しします。なぜこれを使いたいと思うのか、そして、より広範なOpenAIエコシステムにどのように適合するのかについて説明します。

まず、GPTOSSとは何でしょうか?GPTOSSは、2つのモデルで構成されるモデルファミリーです。GPTOSS 20Bは、少なくとも16GBのVRAMを搭載したハイエンドの消費者向けハードウェアで実行できる中型サイズのモデルです。つまり、最高級の消費者向けグラフィックスカードや最近のミッドティアのMacBookで動作します。そして、GPTOSS 12Bは、Nvidia H100やAMD Mi300Xのような単一の80GB GPUや、この128GB MacBook Proのような最高級のMacBookでも実行できる大型モデルです。

しかし、なぜこれらのモデルを構築したのでしょうか?まず第一に、皆さんが私たちにずっと求めてきたからです。冗談はさておき、プロプライエタリなホスティングモデルが常に選択肢になるわけではないことを私たちは理解しています。安全性やプライバシー上の理由でデータをオンプレミスに保持する必要があるデータ要件がある場合や、特定のハードウェア要件やレイテンシー要件がある場合、あるいは、不安定な、または存在しないインターネット接続のために、ユースケースが完全にオフラインで実行されなければならない場合などです。

オープンモデルを選択したい理由は幅広く存在しますし、皆さんの多くがすでにユースケースのためにプロプライエタリモデルとオープンモデルの混在に対処しなければならないことを私たちは知っています。そのため、私たちは皆さんに可能な限り最高の体験を提供したいと考えました。

GPTOSSの特徴と性能

どちらのオープンモデルも、可変レベルの推論と生のチェーン・オブ・ソートへのアクセスを備えた推論モデルです。そして、これらはチェーン・オブ・ソートの一部としてツール呼び出しを実行できる唯一のオープンモデルであり、ウェブブラウジングやPythonのツール呼び出しを含みます。つまり、モデルは一連のツール呼び出しを組み合わせ、それらの間で推論を行い、複雑なタスクをより効果的に達成できるということです。そして、両方のモデルはApache 2ライセンスの下で寛容にライセンスされており、お住まいの地域の地方法に従う限り、商業アプリケーションで使用したり、ファインチューニングして自分のものにしたりすることができます。

これらのモデルは、OpenAIのO3、O4 miniやGPT-5など、他の推論モデルを使用したことがある方にとっては、すぐに馴染みのあるものに感じられるはずです。これらのモデルは、同じ可変推論、チェーン・オブ・ソート、関数呼び出し、ブラウジング、Python機能を導入しています。実際、GPTOSS 12Bと20Bは、O3やO4 miniと比較しても全く引けを取りません。

例えば、人類最後の試験(Humanity’s Last Exam)では、人間の知識の最前線でAIをテストするために設計されたベンチマークですが、GPTOSS 20Bと12Bの両方がO4 Miniと同等の性能を発揮します。ただし、私たちの場合、GPTOSS 20Bは完全にあなたのラップトップ上でローカルに実行できます。そして、AMC 2025のような複雑な数学問題でも、モデルはO3レベルの性能に追いついています。

繰り返しますが、これは現在あなたのコンピューター上でローカルに実行できる、真の最先端レベルのインテリジェンスです。そして、これらのモデルはエージェント的なユースケースで使用されるように設計されています。

したがって、関数呼び出しの性能は非常に重要です。例えば、Towbench Retailでは、複数のターンにわたる小売カスタマーサービスの問題を解決するためにツールを使用するモデルの能力をテストします。両方のモデルは、特にそのサイズを考慮すると、非常に優れた性能を発揮しています。

全体として、モデルは私たちのOpenAIエコシステムに非常によく適合しています。エージェントSDKやcodec CLIで使用でき、Grok、Hugging Face、NVIDIA、そして今日からはLM Studioなど、ますます多くのプロバイダーが独自のResponses APIを提供し始めています。

そのため、既存のプロジェクト内で直接機能し、他のオープンモデルと組み合わせて使用できるようになります。そして、これらのモデルを構築する際、私たちはコミュニティのフィードバックに真剣に耳を傾けようとしました。コミュニティから聞いた最大の要望の2つは、1つは、特にエージェント的なユースケースに関して能力を出し惜しみしないこと、そして効率的なモデルを持つことでした。

私たちはこの2つのバランスを取ろうと努力し、全体的なオープンモデル市場スペースにおいて、パフォーマンスとサイズの間で優れたバランスを実現できたことに非常に満足しています。コミュニティとパートナーからのフィードバックはこれまでのところ素晴らしいものです。合計で、私たちのHugging Face組織だけで2,300万回以上ダウンロードされています。

人々は、ローカルユースケース、そのツール呼び出し機能、そしてモデル全体のコスト効率の良さに対してこのモデルを使うことを気に入っています。私がこれまでに見たGPTOSSのお気に入りのユースケースのいくつかは、数週間前に終了した6週間にわたるハッカソンから生まれました。いくつかの例は、後ほど開発者状況報告(Developer State of the Union)でご覧いただけますが、ロボットの制御、個人の日記での機密トピックの議論、高度に専門化されたトピックの専門家になるためのファインチューニング、あるいは単により良いストーリーテラーになるためなど、人々がGPTOSSを使用しているのを見てきました。

オフラインコーディング支援に使用したり、そのコーディング能力を使用して、機密データを開示することなくシステムを保護するための完全なオンプレミスサイバーセキュリティオペレーションセンターを作成したりするなど、いくつか例を挙げるだけでも多岐にわたります。だからこそ、私たちはGPTOSSに投資して、開発者が最も得意とする方法でモデルを構築し、どこでも実行できる柔軟性とコントロールを提供しているのです。

デモンストレーション:ローカルファイナンスエージェント

十分話しました。いくつかの例で、実際にGPTOSSが動作しているところを見てみましょう。GPTOSSはオープンモデルなので、サーバー上で実行してホストする方法は幅広くあります。VLMやTransformersのようなフレームワークを使用できますし、ローカル推論には、Llama CPP、LM Studio、またはLlamaのようなプロジェクトを使用できます。

このデモでは、実際に、私の個人的な金融データを明らかにすることなく、完全にローカルに保ちながら、私の財務を追跡するのに役立つチャットエージェントを構築します。エージェントに電力を供給するために、GPTOSS 12Bを実行します。つまり、Llamaを使用して、私のMacBook上で完全にローカルに大型モデルを実行しますが、同じことは他の推論ソリューションでも機能するはずです。

会議のWi-Fiで70GBをダウンロードするのを皆さんに見てもらいたくなかったので、私のラップトップにはすでにモデルをダウンロードしてあります。そのため、実際にここでWi-Fiをオフにすることができます。モデルは完全にローカルなので。

さて、Wi-Fiをオフにしました。これで、私たちは完全にモデルとデモの神々の意志に委ねられています。幸運を祈ってください。モデルが実行されているかどうかは、ここでLlama CLIを使用して、モデルにフレンドリーな挨拶を送ることで確認できます。そして、モデルがその推論プロセスを経て、それに応じて応答しているのがわかります。

さて。モデルが実行されていることがわかったので、アプリに統合するためにローカルAPIを使用する必要があります。Llamaとほとんどの推論プロバイダーは、すでにChat Completions APIを提供していますが、私たちの場合、モデルの全力を活用したいと考えています。そのため、代わりに、GPTOSSの一部として出荷した独自のResponses APIプロキシを実行します。これはGitHubで利用可能です。

ここから抜け出しましょう。わかりました。こんにちは。そこです。私たちは、この場合このデバイス上で実行されている推論プロバイダーにトークン生成を送信することに加えて、組み込みのPythonツールとブラウジングツールを公開する独自のResponses APIプロキシを実行します。

さて、実際にエージェントを構築しましょう。このために、TypeScript用のエージェントSDKを使用して、右側に見えるチャットインターフェースを動かす財務エージェントを構築します。ここには既に非常に基本的なセットアップがあり、チャットインターフェースが左側のエージェントに接続され、ローカルで実行されているResponses APIを使用し、Python Code Interpreterをツールとして使用するようにエージェントを設定しています。

現時点では、このエージェントはかなり汎用的です。しかし、何らかのランダムな数の平方根は何ですか?のような質問をすることで、それが何ができるかを確認できます。そして、先ほど述べたように、モデルがチェーン・オブ・ソートの一部としてツール呼び出しを実行できることがわかるはずです。

ここで見ることができるように、必要な手順を考え始めています。Python Code Interpreterを使用しようとして、実際には持っていなかった依存関係を使用しようとしていたことに気づき、自動的に修正しています。これは、GPT-5、O3、またはO4 miniのようなモデルで見られるのと同じ種類の動作ですが、この場合は完全にオフラインです。

つまり、オンプレミスに留まる必要がある機密データに対して、これらのモデルで慣れているのと同じ方法でエージェントを構築できるということです。例えば、私の財務エージェントでは、ディレクトリに多数の財務ファイルが散らばっていますが、システムから離れたくないファイルがいくつかあるので、この状況をおそらく整理すべきです。

しかし、モデルをローカルで実行しているので、実際にはこれを心配する必要はありません。GPTOSSを使用すると、データを完全にローカルに保ちながら、機密データを処理するために必要なツールをエージェントに装備させることができます。ファイルシステムに接続するために、実際には、エージェントがファイルをブラウズして開くために必要なツールを公開するMCPサーバーを使用します。

MCPサーバーを追加して、再び完全にローカルでMCPサーバーに接続し、ここでエージェントに提供しましょう。トップレベルにはいくつのファイルがありますか?と尋ねることで、今度は機能するかどうかを確認できます。そして、再び推論ステップを経て、異なるMCPツールを使用してシステムをブラウズし、情報を取得しているのがわかります。

答えが得られました。それでは、2024年の全体的なポートフォリオの成長をパーセンテージで要約してください、というようなより複雑な質問を試してみましょう。これは、チェーン・オブ・ソートの一部としてツールを使用している場合に、GPTOSSの真の力が発揮されるところです。ファイルシステムに対して複数のリクエストを実行し、Pythonコードを書いてそれを解釈し、ユーザーと行ったり来たりすることなく、直接答えを提供します。

さて、これらすべては完全にオフラインで実行されており、データは完全にオンプレミスに保たれています。しかし、特に小型のGPTOSS 20Bモデルを使用している場合、モデルにもっと知識が必要な瞬間があったり、他の能力の限界に達したりする可能性があります。そのために、実際にインターネットに再接続します。

そして、さらに2つのことをお見せします。1つは、モデルにウェブブラウジングを行う能力を提供したいということです。そして2つ目は、いくつかの追加タスクのためにGPT-5へのアクセスを与えたいということです。

ウェブブラウジングとGPT-5の統合

ブラウジングについて、モデルは汎用ブラウジングツールでトレーニングされています。つまり、独自のプロプライエタリ検索プロバイダー上で完全に独自のブラウザツールを構築したり、コンテンツフィルターを適用したい場合は独自のプロキシを通じてブラウジングを実行したり、完全にオフラインまたはオンプレミスの検索インデックスを持つこともできます。

しかし、私たちの場合、サンプル検索プロバイダーを使用します。GitHubには2つあります。1つはExaで、もう1つはYou.comです。私たちの場合、Exa APIを使用します。これは、先ほど設定したResponses APIプロキシを使用して、すでに設定されています。したがって、有効にするだけで済みます。

ただし、ウェブ検索を有効にする方法は、推論プロバイダーによって異なります。Pythonについても同様です。したがって、一部の推論プロバイダーは、まだこれをサポートしていない可能性があります。

また、作業しているデータに飛び込むことができる小さなインターフェースを作成できるようにしたいと考えています。モデルはコーディングが得意ですが、コーディングに関しては最高のモデルではありません。そのために、実際にはツールとして使用できるエージェントとしてGPT-5を与えたいと思います。

この場合、すでにここにGPT-5を使用しているHTMLエージェントがあり、HTMLでインターフェースコードを書くことに特化しており、それ以外は何もしません。また、社会保障番号のように見えるものをチェックする入力ガードレールもここにあり、リモートのGPT-5モデルに機密データを誤って渡すのを避けます。

オンプレミスに留まらせたい他の機密データについても、同じタイプのチェックを行うことができます。さて、まだここにこれを追加する必要があります。したがって、これを渡して、generateVisualizationというツール名を付けます。そして、それで、2024年の個々の株式の利益の棒グラフを作成してください、というようなタスクを尋ねることができます。

ここにコンマを入れる必要があります。さて。これで、モデルが再び同じステップを経るのが見られるはずです。必要なファイルを読み、Pythonを使用して必要な数値を処理し、データを取得したらGPT-5を使用します。

ほら、ここでCode Interpreterを呼び出して、実際にそのファイルを処理しているのがわかります。何かを間違えたようで、これがチェーン・オブ・ソート推論の利点であり、実際に回復できます。したがって、時々これらの状況に遭遇する可能性があります。そこです。データを取得しました。

ああ、そこです。今度は、generate visualizationツールを呼び出しています。そして、実際にここで見ることができるのは、私の社会保障番号チェックが比較的初歩的なため、時々その正規表現がトリガーされる可能性があることです。

この場合、モデルはそれに気づき、再び自己修正を行い、ここでモデルへの別のツール呼び出しを実行しました。そして、すぐに結果が返ってくるはずです。ほら?さあ、インターネット。さて。それを待っている間に、次に進みましょう。ご覧のように、GPTOSS…そこです。さて。ありがとうございます。

ご覧のように、GPTOSSはより広範なOpenAIエコシステムにシームレスに適合します。すでに使い慣れているエージェントSDKツールを使用して同じ方法でエージェントを書くことができ、完全にオフラインで実行でき、モデルは他の推論モデルと同じように動作します。そして、十分に装備されていないタスクのためにGPT-5を活用することができます。

ファインチューニング:2048ゲームの例

GPTOSSでできるもう1つのことは、ファインチューニングによって自分のものにすることです。特定のトピックやタスクに関するGPTOSSの性能に完全には満足していないかもしれません。あるいは、特定の分野や内部データに関する専門家になるモデルが欲しいかもしれません。

従来、これは教師あり学習(Supervised Fine-Tuning)と呼ばれる技術を使用することを意味しました。高レベルでは、モデルに大量の入力と出力の例を与え、類似した入力でより良くなるようにそれらでモデルをトレーニングします。

しかし、GPTOSSの推論能力を考えると、GPTOSSをファインチューニングしてパーソナライズするより興味深い方法は、追加の強化ファインチューニングを行うことです。ここでは、モデルに入力と、出力がどれだけ良かったかをモデルに伝える報酬関数を与えます。

ファインチューニングの例を示すために、実際に動作しているのを簡単に見ていきますが、何時間もモデルがファインチューニングされるのを見ることは、今日できる最も興味深いことではないかもしれないので、事前にモデルをファインチューニングしておきました。

それで、何をしたかを説明する前に、2048というゲームを知っている方はどれくらいいますか?なるほど、いいですね。このゲームでは、知らない方のために説明すると、プレイヤーとして、上、下、左、右にスワイプして隣り合う同じ数字の異なるタイルを組み合わせ、これらのタイルをマージして最終的に2048に到達しようとします。

私たちは、GPTOSS 20Bが、実際にゲームをプレイするための戦略をエンコードするPython関数を書くことによって、同じゲームをプレイすることを望みました。そして、おそらくここでご覧になるように、ベースモデルはそれをプレイするのにまあまあ大丈夫ですが、時々、間違った、または非常に基本的なコードを書き、特に低推論では、ゲームであまり遠くまで進めません。

それで、これをここでテストしてみると、これは大丈夫だったようですが、ボード上であまり遠くまで進めませんでした。代わりに、ボード戦略を取り、その上にボードを配置する報酬関数を与えることで、専用モデルをファインチューニングしました。そして、どこまで進むかを確認し、その後、GPOと呼ばれる強化ファインチューニング技術とUnsLLOと呼ばれるツールを使用して、実際にモデルをファインチューニングしました。

これは簡単なコードではありません。このノートブック全体をスクロールすると。したがって、これをチェックアウトしたい場合は、GPTOSSのGitHubページで利用可能で、そこでチェックアウトして自分で再試行できます。

それでは、実際にこれが動作しているところを見てみましょう。GPTOSSとファインチューニングされたバージョンに、ここでそれぞれ5つの異なる戦略を生成させます。

モデルがこれらすべての異なるPython戦略を開始しているのがわかります。まだ生成中なので、2番目の読みにくいですが、時々、両方のモデルがより初歩的な技術、初歩的な戦略を返すことがあります。しかし、それらを区別し、どちらが優れているかを判断することも非常に困難です。

したがって、モデルが実際により良い仕事をしたかどうかを把握するために、これら5つの戦略を持つ2つのモデルを100ボードで互いに対戦させ、どちらがより良い成績を収めるかを確認します。それで、ほぼ完了です。いくつかはまだ生成中です。いくつあるか見てみましょう。1つです。さて。ここで完了したようです。

それでは、これを実行しましょう。そして、デモの神々よ。さあ。はい。モデルBは、実際にはモデルのファインチューニングされたバージョンですが、互いに対戦する異なるゲームでかなり大幅に勝利し、全体的により高いスコアを獲得したことがわかります。

特別なハードウェア:DGX Spark

さて、1つ告白があります。先ほど、GPTOSSを完全にローカルで実行していると述べました。そして、最初のデモではそうでしたが、これら2つのモデルは実際には私のデバイスで実行されていませんでした。しかし、それらはまだ完全にローカルで実行されており、クラウド内のGPUで実行されているわけではありません。

代わりに、実際には非常に特別なハードウェア上で実行することができました。数年前、ジェンセンがOpenAIに最初のDGX-1を届けました。そして、画面上でそれを見ることができます。それはコンピューティングにおけるマイルストーンでした。DGX-1でこれら2つのモデルを実行するのは楽しいでしょうが、演台には収まりません。そして、皆さんはおそらく今頃これに気づいているでしょう。

代わりに、素晴らしい代替案があります。これはNvidiaのDGX Sparkです。そして、この小さな獣はDGX-1と同じ量のコンピューティングを含んでおり、実際に現在これら両方のモデルを実行していますが、私の机の上に立っている間にモデルをファインチューニングもしました。

皆さんは、実際にこれを研究室の外でライブで見る最初の人々の一部です。Nvidiaはこのデモのためにこれをくださるほど親切でした。実際、これはまだ全く入手できません。これは、Nvidiaがシステムを皆さんのような開発者向けに準備するために私たちに提供した、プレプロダクションシステムです。

そして、まだプレプロダクションのハードウェアとソフトウェアであるため、最終的な能力とパフォーマンスを完全に代表するものではない可能性がありますが、作業するのは非常に楽しかったです。DGX Sparkをまだ持っていなくても、ファインチューニングのコードをチェックアウトして詳しく学び、自分で試してみたい場合は、GitHubで見つけることができます。

まとめ

さて、これまでに見てきたことをまとめますと、GPTOSSは、例えば安全性、プライバシー、または低レイテンシーのユースケースのために、モデルをローカルまたはオンプレミスで実行する必要がある場合に素晴らしい選択肢です。そして、GPTOSSは、エージェントSDKやcodec CLIを含む、すでに使用しているOpenAIツールとシームレスに統合されます。

したがって、ローカルで実行しなければならないエージェントを構築している場合でも、オフラインでコーディングしようとしている場合でも、GPTOSSは有用です。そして、GPTOSSとGPT-5は連携して機能し、最先端のパフォーマンスとオープンモデルの利点の両方を得るために、モデルのブレンドを実行する必要があるユースケースを可能にします。

最後に、GPTOSSは独自のユースケースのためにファインチューニングすることができ、OpenAIの推論モデルと同じインテリジェンスと能力を活用しながら、ユースケースに関する独自の専門家モデルを持つ能力を提供し、すべて選択したハードウェア上で完全に実行されます。

詳しく知りたい場合は、openai.com/openmodelsですべてのリソースをチェックアウトできます。それでは、どうもありがとうございました。