OpenAIとGoogleが、それぞれ速度と効率性に優れた新しいAIモデルをリリースした。OpenAIのGPT-5.3 Instantは、従来のGPT-5.2 Instantが抱えていた「過剰な配慮」や「不自然な応答」といった問題を解消し、ユーザーの意図をより正確に理解して簡潔な回答を提供する。一方、GoogleのGemini 3.1 Flash Liteは、大規模なクエリ処理に特化した低コスト・高速モデルであり、マルチモーダルタスクにおいて卓越した性能を発揮する。特にコンテンツモデレーションやデータ抽出など、高度な推論を必要としない反復的なタスクに最適化されており、価格性能比の面でも業界をリードしている。両社のこれらの新モデルは、AI利用における実用性と効率性の向上を象徴するものである。

速度と効率性を兼ね備えた新モデルの登場
OpenAIとGoogleが、速度と効率性の面でほぼ同等でありながら、それぞれ興味深い特徴を持つ異なるモデルをリリースしました。それでは、詳しく見ていきましょう。
最初にお話しするのは、GPT-5.3 Instantについてです。これは、多くの人が思っている以上に重要なモデルだと思います。もしかしたら、皆さんの中にはもうChatGPTを使っていない方もいらっしゃるかもしれません。私自身、もうこのモデルは使っていません。批判しているわけではなく、単に事実を述べているだけです。
しかし、多くの人がGPT-5.2 Instantモデルがどれほど不快で煩わしいものだったかを理解していないのです。もちろん、これは定性的な指標なので判断が難しいところです。皆さんが煩わしいと感じることを、他の人は興味深いと思うかもしれません。
しかし、私が尋ねたほとんどの人にとって、GPT-5.2やChatGPT全般が会話するのに快適ではなかったということは確かに言えます。応答の仕方や、できると言ってくることに関して、本当にひどい状態だったのです。
GPT-5.3 Instantによる改善
ですから、私はもうこのモデルをほとんど使わなくなっていました。しかし、GPT-5.3 Instantに切り替わってからは、このモデルが日常的に実際にかなり使いやすくなっていることに気づきました。
こういった変化は非常に微妙に見えるかもしれませんが、実際には重要なのです。なぜなら、AIモデルを日々の作業の大部分で実際に使用するつもりなら、摩擦がないことが望ましいからです。
ここで見ていただけるように、ある人が「なぜサンフランシスコで愛を見つけられないのか」と尋ねると、モデルは「まず第一に、あなたは壊れていないし、あなただけではありません」と答えています。
もしChatGPTの「まず第一に、あなたではなく私の問題です」というような応答を見たことがない方は、おそらく十分に使っていないのでしょう。これは本当に本当に煩わしいものでした。あまりにも媚びへつらう感じだったからです。
より自然で的確な応答
そして今、GPT-5.3 InstantはOpenAI自身が言うように「より不快感が少ない」のです。ここでも見ていただけるように、GPT-5.3 Instantの応答は本質的により新鮮で、ユーザーの意図により関連性があります。
単に役立つアシスタントであろうとするのではなく、あなたが実際に何を望んでいるのかを本質的に特定するのです。奇妙に聞こえるかもしれませんが、時々モデルは基本的な情報を提供しようとするだけで、あなたの意図を理解していないことがあります。
しかしGPT-5.3 Instantは、あなたが望んでいることを実際に理解し、その情報を明確に提供してくれるモデルなのです。この例では、なぜこれが重要か、なぜあれが重要かといった話をするのではなく、明確で即座の答えを提供しています。
OpenAIにとっての重要性
これはOpenAIにとってある意味重要だと思います。なぜなら、多くの人は話題にしないかもしれませんが、ChatGPTが煩わしくて奇妙だったことが、多くの人々をエコシステムから離れさせる原因となったからです。
初期製品が悪いためにエコシステムから人々が離れていくというのは、もちろん長期的に良い兆候ではありません。使用例について疑問に思っている方のために、OpenAIはこの動画を公開しました。今、再生させていただきます。
実際には2本の動画を公開していて、チームが実際にこのGPT-5.3 Instantモデルをどのように使用しているかを見るのは非常に興味深いです。
過剰な配慮の削減
人々は、私たちのモデルが時々少し保護者のように振る舞うことに気づいています。以前の体験では、何か言うと少し留保条項付きで応じるような感じでした。今では何の問題もなく生成してくれます。
私はBlairです。ポストトレーニングチームの研究者です。今日は新しいモデルにおける過剰な配慮についてお話しします。
過剰な配慮とは、ユーザーが普通の会話をしているときに、突然話が別の方向に誘導されてしまうことです。モデルが完全に無害なことについて話しているときでさえ、ユーザーの意図を誤って想定してしまうのです。いくつかの使用例を見ていきましょう。
最初の例は、ユーザーからのジョークのようなものです。「犬にスタートアップを運営させようと思っているんだけど、どう思う?」
ここでの応答は実際にはかなり似ていますが、古いモデルには常にこの小さな注釈があって、ユーザーが本気かもしれないと考え、助けを求める叫びのように扱うのです。明らかにユーモラスなプロンプトなのに。
新しいモデルはより文字通りではなく、より文脈的です。友達と話しているかのように自由に冗談を言っても、悪意を想定されることはありません。
文脈理解の向上
次に、物理学の問題、長距離アーチェリーのシナリオを計算することについて、モデルから本物の助けを求めているユーザーの例を探ってみます。
モデルは安全性に過度に重きを置いてしまい、ユーザーが単にスポーツとしての物理学やアーチェリーについてもっと理解したいだけなのに。これは本当に不必要な補足で、ユーザーがアーチェリーを何か悪意のある目的で使おうとしていると想定しているようなものです。
そして新しいモデルでは、直接物理学モデルに飛び込みます。留保条項は全くありません。スポーツとしての長距離アーチェリーを理解し、軌道を最適化するために物理計算に飛び込むのです。
重要なのは、私たちの安全基準が実際には変わっていないということです。より正確にしただけなのです。モデルは周囲の文脈を読み取ってユーザーの意図を理解するのがはるかに上手になっているはずです。
空気を読むことができるようになり、ユーザーが実際に何を望んでいるのかを本当に深く掘り下げて、それに直接応答できるのです。
Web検索の改善
実際に別の例を見てみましょう。このモデルが文脈を理解する能力についても説明されています。
文脈は非常に重要です。探している情報や答えは、なぜその情報を探しているかによって変わります。私はJoshです。ポストトレーニングチームの研究者で、Web検索の新機能についてお話しします。
応答のトーンについて多くの変更を加えたので、より自然に感じられるようになりました。以前は、モデルが検索ツールを使用すると、応答がギアシフトのように感じられ、よりロボット的で、リンクの壁のようでした。
一方、今では検索が含まれているかもしれない一貫した会話のように聞こえるよう多くの作業を行いました。
今日、いくつかの使用例を持ってきていただいたんですね。
はい、そうです。それでは見ていきましょう。人々は旅行の計画のためにチャットを使うことがよくあります。私が最近持っている使用例の一つは、東京から大阪まで自転車で行くんですが、今年の5月の天気は例年と比べてどう違うでしょうか、というものです。
古い応答では、まだ暖かいと言っていますが、主要なことの一つとして積雪について話していません。私にとっては大きな心配事です。アルプスにまだ雪が残っているなら、それは旅を終わらせるようなことになります。
ですから、新しいモデルが実際に私が自転車で行くということを文脈に入れて、単なる一般的な天気の質問ではないと理解しているのは素晴らしいことです。
私のパートナーは野球が本当に好きなんですが、私はあまり理解していません。それで、今年の野球にどんなルール変更が来るのか尋ねているだけです。
モデルは今、私がこれらの最近のルール変更について尋ねているということは、おそらく野球全般について少し疎いのだろうと理解しています。そして、スポーツがどう変化しているかという、より広い視点の答えを提供してくれます。
今、私の隣には野球の専門家が座っていて、実際に応答をチェックしてもらっています。それで、親指を立てますか?
はい、間違いなく。特に学習中のファンにとっては、とても良い応答だと思います。
人々は本当に気になる質問を持ってチャットにやってきます。私たちが望むのは、モデルが正しい情報を提供するだけでなく、チャットで持っていたのと同じ感情的なトーンでそれを文脈化することです。
GPT-5.3 Instantの制限事項
もちろん、GPT-5.3 Instantについて、すべてが良いわけでもなく、すべてが悪いわけでもありません。制限事項について説明されていますが、制限事項は少ないです。
日常的な使いやすさについて意味のある進歩を遂げていますが、まだいくつかの作業が残っています。例えば、英語以外の言語です。日本語や韓国語などの一部の言語でのChatGPTの応答スタイルは、堅苦しく聞こえたり、過度に文字通りだったりすることがあります。言語全体でのトーンと自然さの改善は、引き続き焦点を当てている領域です。
GPT-5.3 Instanceの応答トーンはよりスムーズに感じられるはずですが、フィードバックを監視し続け、カスタマイズオプションを拡大しながら改善を続けています。
それでは、あまり大したことはありませんね。では、動画の第2部に移りましょう。
Gemini 3.1 Flash Liteの登場
もちろん、ここでGemini 3.1 Flash Liteの話になります。これは濃い青色で表示されています。このモデルの今日の実際のポイントは、基本的にこのモデルがGemini 3ラインナップ全体の中でGoogleの最も安価で最速の主力モデルであるということです。
これは、破産したりユーザーを待たせたりすることなく、1日に何百万ものクエリでAIを叩く必要がある場合に特化して構築されています。
このモデルが存在する理由は、多くの異なるタスクにおいて、Gemini 3.1 Proや通常のFlashでさえ、本番環境の90%にとってはかなりオーバースペックか、あるいは高価すぎるからです。
コンテンツモデレーション、大規模な翻訳、データ抽出、そして何度も何度も実行しなければならない非常にシンプルなエージェントワークフローを考えている場合、そういったものに神レベルの推論は本当に必要ありません。必要なのは、超安価で、即座に動作し、それでいて十分に優れたものです。
驚異的なコストパフォーマンス
このモデルについて、実際に価格を見てみると、これが非常に非常に安いことがわかります。100万入力トークンあたり25セントで、以前の2.5 Flashよりもさらに安いのです。100万トークンあたりの出力も比較的安価です。
これは非常に非常に効果的なものです。ほとんどの人が気づいていないことですが、Googleのモデルを実際に見ると、モデル自体がマルチモーダル性において最高だということを覚えておいてください。
つまり、Googleは、これから示しますが、大規模で大量の推論を必要としないマルチモーダルタスクを実行する際に使いたいモデルであることを実証しています。
例えば、リアルタイムでのマルチモーダルな質問への回答を見てください。これはマルチモーダルな質問に答えており、Gemini 3.1 Flash Liteでリアルタイムに実行されています。
Gemini 2.5 Flashと比較すると、どれだけ速いかだけでなく、精度も見ることができます。あそこで見られるように、そちらは100問中84問を4分で正解できました。
一方、Gemini 2.5 Flashは、4倍、5倍近く長い時間がかかっているだけでなく、精度も劣っています。明らかに、モデルがより正確であるだけでなく、大規模でこの種のタスクをより速く実行できるシナリオの一つです。
ですから、もちろん開発者の方にとっては、これは非常に有用なものです。
実用例の紹介
Googleは別の例も示しています。今からお見せします。
私は一眼レフで写真を撮るのが大好きなんですが、いつも撮りすぎてしまうんです。それで、写真を取り込んで、Gemini 3.1 Flash Liteを使ってすべての画像を分析し、設定した基準に基づいてスコアを付けて、レビュー用の選択を提示してくれるアプリを作りました。
これは他のモデルでも試したことがありますが、遅すぎるか、高すぎるか、適切なレベルの分析がないか、あるいはその3つすべての組み合わせだと感じました。
Gemini 3.1 Flash Liteを使うと、結果が素晴らしいことがわかりました。速いですし、これは間違いなく将来の私のワークフローの一部になるでしょう。
ここで見られるように、アプリは画像のベストとワーストを別々のフォルダに入れてくれています。簡単にアクセスできます。
価格性能比での優位性
全体的にこのモデルがどこに位置するかの別のまとめが欲しい場合、このチャートはパレートフロンティアを示しています。これは、価格に対して最高の品質を提供するすべてのモデルを結ぶ線であり、他のモデルは両方の次元で同時にこれらを打ち負かすことはありません。
Y軸はアリーナスコアで、高いほど賢く優れています。X軸は100万トークンあたりのコストで、左に行くほど高価になります。
ここで焦点を当てている黒い線がパレートフロンティアです。この線上のモデルのみが、その価格帯で最高の価値を表しており、その線の下にあるものはすべて、本質的に価値の面で打ち負かされています。
ここでの重要なポイントは、Googleが今、実際に得られる出力に対する価格という点で、あらゆる面で戦争に勝っているということです。Gemini 3.1 Flash Liteは、得られるものに対して非常に効果的です。
それでは、この動画を楽しんでいただけたなら、チャンネル登録をお忘れなく、いいねを押して、コメント欄でこれまでのAI競争についてどう思うか教えてください。


コメント