OpenAIがGPT-5.1を発表(アップデート)

本動画ではOpenAIが発表したGPT-5.1の主要なアップデート内容を解説している。GPT-5.1には即答型の「instant」と思考型の「thinking」の2バージョンがあり、前者はより温かみのあるパーソナリティと会話性を獲得し、後者は質問の難易度に応じて思考時間を適切に調整する能力が向上した。特筆すべきは指示追従性の大幅な改善、エンタープライズユースケースにおけるレイテンシの劇的な削減、そしてフロントエンドコーディングを中心としたコーディング性能の向上である。Boxが実施したベンチマークでは、ドキュメント処理タスクにおいて最大84%のレイテンシ削減と、データ抽出精度の顕著な改善が確認されている。

OpenAI Unveils GPT-5.1 (UPDATE)

GPT-5.1 is available in Box AI right now! The Subtle Art of Not Being Replaced 👇🏼 Humanities La...

GPT-5.1の登場
パーソナリティの改善例
指示追従性の向上
思考時間の最適化
エンタープライズでの性能向上
リリーススケジュールと新機能
実際の使用テスト
API向けのアップデート
コーディング性能の向上

GPT-5.1の登場

GPT-5.1が登場しました。より高速で、より正確で、より会話的になっています。そして、どうやらパーソナリティも向上しているようです。詳しく解説していきましょう。

アップデートされる主要なバージョンは2つあります。5.1 instantと5.1 thinkingです。instantは質問への回答や会話的なユースケースなど、即座に答えを提供することを目的としたバージョンです。

そして今回、引用符付きで言うなれば「より良いパーソナリティ」を獲得しました。より温かく、より知的で、指示に従うのが上手になっています。GPT-5 thinkingの最大の問題の一つは、それほど思考を必要としない問題に対しても、膨大な時間をかけて考え込んでしまうことでした。そして彼らはこの問題を解決したようです。

GPT-5のローンチ時に寄せられた大きなフィードバックの一つは、会話するのが基本的にかなり退屈だというもので、人々はGPT-4oを懐かしんでいました。覚えていらっしゃるかもしれませんが、GPT-4oを廃止したことに対して反発がありました。人々は本当にあのモデルを気に入っていたのです。パーソナリティが好きだったんですね。それで彼らは気づいたわけです。ああ、人々は実際にトーンや抑揚、モデルがどのように話しかけてくるかを気にしているんだと。

そして次のバージョンのGPT-5、GPT-5.1には、もっとパーソナリティを組み込む必要があるという結論に至りました。彼らはまた、ChatGPTのパーソナリティを形作ることをより簡単にしています。そして私は、彼らがエムダッシュを取り除けるようにしてくれることを本当に願っています。なぜなら、システム指示で「エムダッシュを使わないで」と言おうが、ChatGPTのメモリに追加しようが、何をしても、まだエムダッシュを使い続けるからです。

このビデオの後半で、まだそうなのか見てみましょう。それでは、5.0と5.1の違いをいくつかお見せしましょう。

パーソナリティの改善例

では始めます。ストレスを感じているので、リラックスのためのヒントが欲しいです。これはより会話的なプロンプトなので、より会話的なモデルの応答が期待されます。GPT-5の場合、ここにストレス解消に役立つシンプルで効果的な方法がいくつかあります。

エムダッシュ、あなたの気分と時間に応じて組み合わせることができます。非常にフォーマルな応答で、非常に当たり障りのない応答です。極めて正確で良い答えではありますが、時にはモデルにもっと求めたくなります。知り合いのように話しかけてほしいと思うこともあるでしょう。それでは、こちらです。任せて、ロン。

それは完全に普通のことだよ、特に最近君が抱えているすべてのことを考えるとね。つまり、メモリを参照しているわけです。友人や家族からのテキストメッセージのような、より会話的な話し方をしてくれます。まだエムダッシュは使っていますが、まあ、今はそれは脇に置いておきましょう。そしてこちらが指示追従の例です。

指示追従性の向上

これは本当に、エムダッシュを使わないことについて聞いてくれることを期待しています。では、常に6語で応答してください。了解です。すべての応答は6語になります。1、2、3、4、5、6。今年の夏はどこに旅行すべきですか。そしてGPT-5は、日本を探索するのはどうですか。2025年夏の目的地としてトレンドになっていますと答えます。明らかに6語よりはるかに多いですね。

では5.1 instantです。了解しました。6語で応答します。日本、イタリア、ギリシャ、カナダ、アイスランドを検討してください。1、2、3、4、5、6。なぜそこなのか。景色、文化、料理、気候、フレンドリー、地元民。見事です。また6語です。つまり、指示に従うのがはるかに上手になっているのです。

さて、5.1への興味深い変更点がこちらです。初めて、GPT-5.1 Instantは適応的推論を使用して、より困難な質問に応答する前に考えるべきタイミングを判断できるようになり、その結果、迅速に応答しながらも、より徹底的で正確な答えを提供できるようになりました。これはAME 2025やCode Forcesのような数学コーディング評価における大幅な改善に反映されています。では、ベンチマークを見てみましょう。

思考時間の最適化

GPT-5.1は、質問に基づいて思考時間をより適切に調整できるようになりました。覚えておいてください、GPT-5は最も基本的なものから最も複雑なプロンプトまで処理できる、ある種の単一のモデルを持つことがすべてなのです。そしてそれは、どのモデルに送信すべきかを判断することで実現しています。つまり、あなたのプロンプトを適切なタイプのモデル、instantかthinkingにルーティングすることで実現しているのです。

さて、これは本当に興味深いチャートです。この下部のx軸を質問の難易度だと考えてみてください。つまり、下部の10パーセンタイルには簡単な質問があり、上部の90パーセンタイルには難しい質問があります。淡いピンクがGPT-5スタンダードで、濃いピンクは、なぜこの2色を選んだのかわかりませんが、GPT-5.1スタンダードです。

そしてご覧のとおり、簡単な質問に対しては、素早い答えのための思考時間がはるかに少なくなっています。50パーセンタイルの平均的な質問についても同様で、ほぼ同じくらい考えています。そうあるべきですよね。しかし、より難しい質問になると、はるかに長く考えています。つまり、必要とされることに対して思考時間をより正確に調整できているということです。

そしてBoxは、開発者向けの真新しいGPT-5.1に対して独自のベンチマークを実施し、エンタープライズユースケースにおいて大幅な改善を確認しました。このビデオのスポンサーになってくれた彼らに感謝します。その結果をいくつかお見せしましょう。

エンタープライズでの性能向上

GPT-5.1は、すべてのエンタープライズドキュメントタスクにおいて、大幅に低いレイテンシを達成しています。具体的には、短いドキュメントの場合、GPT-5.1は最初のトークンまでの時間TTFTを27.7秒から4.4秒に削減しました。これは84%という大幅な改善です。

長いドキュメントでシンプルなクエリの場合は45.6秒から16.7秒に、より難しいクエリでは19.3秒から9.1秒に、長いドキュメントでのマルチターンクエリでは10.2秒から5.4秒になりました。

そして5.1は、ドキュメント抽出シナリオにおいて優れた精度を示しています。表形式データ、つまりExcelやCSVでは44%から71%に、マルチフィールド抽出では70%から83%に、手書き認識では38%から42%と小さいながらも目立つ改善、そして長いドキュメントでは83%から84%への小さな向上を見せています。

つまり、5から5.1へのこれらの改善は、エンタープライズユースケースにとって極めて意味のあるものなのです。もしまだBoxを使っていないなら、試してみてください。Box.comを使用している100,000の他の顧客、Fortune 500の3分の2に加わってください。

リリーススケジュールと新機能

GPT-5.1 InstantとThinkingは今日からロールアウトを開始し、まず有料ユーザー、Pro、Plus、Go、Businessから始まり、その後無料ユーザーとログアウトユーザーへと展開されます。EnterpriseとEduプランは7日間の早期アクセスを取得しますが、デフォルトではオフになっています。その期間の後、GPT-5.1が唯一のデフォルトモデルになります。

さて、どうやらモデルはコーディングにおいてもはるかに優れているようですが、それについてはもう少し後で触れます。5.1で得られる追加機能をいくつか終わらせましょう。

今年の初め、OpenAIはChatGPTのスタイルとトーンをカスタマイズする機能をリリースしました。そして今回、人々が実際に求め、使用するものをより正確に表現するよう、それらを洗練させました。デフォルト、フレンドリー、効率的が既存のもので、新しくプロフェッショナル、率直、風変わりが追加されました。彼らはまた、パーソナライゼーション設定から直接ChatGPTの特性を調整する機能を実験しています。

実際の使用テスト

さて、ChatGPTを開いてみました。そしてそこにあります、ChatGPT-5.1です。エムダッシュを使わないように言っても、まだ書くのか見てみましょう。エムダッシュを絶対に使わないことを覚えておいてくださいと伝えます。これはメモリとして保存されるはずです。エンターを押します。そこにあります。更新されたメモリが保存されました、了解です。

では、プロジェクトへのフィードバックを求めるメールを書いてくださいと言います。オーケー、かなり良いですね。エムダッシュはありません。それでは、ChatGPT-5.1のリリースの要約を書いてください。投稿できるツイートにしてくださいと依頼します。そして残念ながら、エムダッシュがあります。私にはそれらのエムダッシュを取り除く方法がありません。そしてそれは本当にイライラします。

ところで、GPT-5.1を最大限に活用する方法を知りたい場合は、「The Subtle Art of Not Getting Replaced」の電子ブックをチェックしてください。完全に無料で、私のチームによって作成されました。今すぐダウンロードしてください。今すぐAIに使える100以上のユースケースが掲載されています。下のリンクからニュースレターを購読してダウンロードしてください。

API向けのアップデート

彼らはまた、APIプラットフォームで5.1をリリースしました。覚えておいてください、これらすべてのアップデート、スピードアップデート、精度アップデートを入手でき、手元のタスクに応じてより効率的なトークンの使用が可能になります。

これらすべてが開発者向けに今利用可能です。彼らはまた、プロンプトキャッシングを最大24時間まで延長しています。そして、推論努力をnoneに設定することで、モデルにまったく考えさせないようにすることもできます。

彼らはまた、ブログ投稿で、GPT-5.1はコーディング、特にフロントエンドコーディングに優れていると述べています。もちろん、私たちは皆、バックエンドコーディングが良くなることを望んでいますが、フロントエンドコーディング、つまり構築しているものの実際の見た目と使用感も非常に重要です。

コーディング性能の向上

このベンチマークを見てください。Swebench verifiedがあります。GPT-5は、高い思考トークン10,000で精度73%に達します。そして5.1は思考を18,000トークンまで拡張でき、76%に達します。つまり、より多くの思考で、より高い結果が得られるということです。

開発者の方は、ぜひ試してみて、その上に構築してください。というわけで以上です。試してみて、感想を教えてください。このビデオを楽しんでいただけたら、いいねとチャンネル登録を検討してください。