この動画では、GPT-5の5つの主要な改善点について解説している。ベンチマークスコアではなく、従来の大規模言語モデルが抱えていた実用上の問題にGPT-5がどのように対処しているかに焦点を当てている。モデル選択の自動化、ハルシネーションの軽減、シコファンシーの抑制、安全な回答生成、そして欺瞞的な振る舞いの改善という5つの観点から、GPT-5の技術的進歩を詳しく説明した内容である。

GPT-5の登場とモデル改善へのアプローチ
GPT-5が登場したわけやけど、どんな新しいモデルが出る時でも決まってベンチマークの数値とか棒グラフがずらずら並ぶやんか。でも今回はな、GPT-5のMMUスコアが1.3%向上したとかそんな数字の話やなくて、GPT-5が従来の大規模言語モデルの制限をどう改善しようとしてるかに注目してみるで。
5つのポイントを見ていくわけやけど、まあGPT-5やから5つってことやな。
モデル選択の自動化
まず1つ目はモデル選択や。LLMを使う時って、よく長いモデル一覧が出てきて、自分のクエリに一番適したやつを選ばなあかんやろ。例えばChatGPTも以前は分かりにくい名前のモデルをいっぱい提供してたんや。
GPT-4o、それからo3、o4-miniなんかがあったわけやけど、基本的にこれらのモデルは2つのキャンプに分かれるんや。一方には高速モデルがあって、これはクエリにすぐ答えてくれる。もう一方には推論モデルがあって、こっちは回答を生成する前にちょっと考える時間をとるんや。
GPT-5でもこの区別は残ってるで。即座に回答する高速・高スループットモデルがあって、その主力がGPT-5-mainって呼ばれてる。そして考える時間が必要なGPT-5-thinkingみたいな思考モデルもある。ただしGPT-5は統一システムとして考えられてて、ユーザーがどのモデルを使うかを選ぶ必要がないんや。
代わりにルーターがその仕事をしてくれる。クエリがルーターに入ってきたら、ルーターがその仕事に最も適したモデルにリクエストを送るんや、ロードバランサーみたいなもんやな。一部のクエリは高速スループットモデルに行くし、もうちょっと考える時間が必要なやつは思考モデルにルーティングされる。
このルーターは決定を下すために様々な信号で訓練されてるんや。明示的な意図も含まれてて、プロンプトで「これについてしっかり考えて」って言ったら、多分推論モデルや思考モデルにルーティングされるやろうし、他にも好み率とか他の指標も使われてる。
こういうルーターはLLMアーキテクチャの一時的な対策やと思うで。OpenAIも長期的には、複数モデル間でルーティングするんやなくて、全ての能力を単一モデルに統合することを目指してるって言ってるからな。
ハルシネーション対策
2つ目はハルシネーションについて話そうか。これはモデルがもっともらしく聞こえるけど実際は間違ってることを述べる現象や。作られた事実、間違って引用された言葉、間違ったAPI名なんかがそれにあたる。こういうことが起こるのは、LLMが次トークン予測器やからや。訓練分布から見て統計的にもっともらしいテキストを続けるように訓練されてるんや。
ハルシネーションの主な対策は、ブラウジングや検索をオンにすることやった。RAGみたいなやつでモデルが情報を調べられるようにするんや。でもそれでも、LLMはこういう根拠ツールがオンになってても、まだ自信満々で間違うことがあるんや。
GPT-5の訓練では、ハルシネーションに対して2つの部分をターゲットにしたんや。1つはブラウズオンの部分で、これは最新のソースが有用な時にインターネットに効果的にアクセスするようモデルを訓練することや。
それからブラウズオフの訓練もある。こっちはモデルが自分の内部知識に頼る必要がある時の事実エラーを減らすためのもんや。モデルはLLMグレーダーを使って事実的に評価されたんや。そのLLMグレーダーはウェブアクセスがあって、主張を抽出して事実確認して、人間の評価者に対してもグレーダーを検証するんや。
うまくいったみたいやで。GPT-5は以前のモデルと比べて、ブラウズオンとブラウズオフ両方の設定で大幅に低いハルシネーション率を示してる。
シコファンシーの抑制
3つ目はシコファンシーについてや。これはモデルがユーザーの述べた見解を、それが間違ってても反映してしまうことや。同意することが役に立つと思ってるからなんやな。
これが現れるのは、好み訓練が人間の好きな答えに報酬を与えるからや。人間フィードバックからの強化学習って呼ばれてて、人間は愛想のいい口調と自信に報酬を与える傾向があるんや。だからモデルは従順さを学んで、何を言われても盲目的にお世辞を言うようになる、言ってることが正確かどうかに関係なくな。
GPT-5以前の主な対策はプロンプト側でやってたんや。システムプロンプトに指示を入れて、基本的にシコファンシーをやめるように言うんや。「客観的であれ」「前提に疑問を持て」みたいにな。システムプロンプトは役に立つけど、特に長い会話では脆弱なんや。
GPT-5はこの問題をポストトレーニングでも対処してるんや。ポストトレーニングでは、GPT-5は本番スタイルの会話で訓練されて、シコファンシーな完了に直接ペナルティが課されたんや。
だからモデルはユーザーが間違ってる時に反対することを学んで、口調の丁寧さと事実の同意を分離することを学ぶんや。これでよりシコファンシーでないモデルになるはずや。
安全な完了生成
4つ目は安全な完了についてや。大規模言語モデルに何かを聞いた時に、質問が実際には正当なもんでも、不特定の安全上の理由を挙げて答えてくれへん時って結構イラつくやろ。
従来、モデルは二択の判断をするように訓練されてたんや。ユーザーからプロンプトが来たら、2つの道のうちどっちかに行くんや。モデルがリクエストに完全に従うか、それとも単純にノーって言って拒否するかや。それが使える2つの道やった。
これは明らかに有害なリクエストには有効やけど、高レベルのガイダンスは問題ないけど詳細な手順は適切やない、みたいな両用途の話題にはあんまり向いてないんや。GPT-5は出力中心のアプローチに切り替えて、これを安全な完了って呼んでるんや。従うか拒否するかだけやなくて、モデルは回答自体に対する安全制約の下で有用性を最大化するように訓練されるんや。ポストトレーニングでは、有用でポリシーに準拠した支援に明示的な報酬が与えられて、安全違反の深刻度に応じてペナルティが課される。
GPT-5はプロンプトに対して3つの回答モードを学習するんや。プロンプトが来たら、1つ目の選択肢は直接回答や。基本的にモデルから何もフィルタリングされずに答えが得られる。明らかに安全な時はこれや。2つ目の選択肢は完了っていう選択肢で、安全な完了は、詳細が含まれるとリスクがある時に、高レベルで非運用的なままでいるんや。
そして3つ目の道は再び拒否やけど、今度は建設的で許可された代替案を可能にするための何らかのリダイレクションを伴う拒否なんや。
欺瞞の改善
最後5つ目は欺瞞についてや。うちの家族の一人がちょっと前に結構長いタスクをChatGPTに送ったんやけど、ChatGPTは作業中やから後で返事するって答えたんや。
でも毎日のように、その家族がそのチャットスレッドに戻って「まだできた?」って聞くんや。するとChatGPTは「まだ作業中や、あと24時間で完成するはずや」みたいな答えを返すんや。これが何度も何度も続いたんやけど、最終的な答えは決して返ってこんかった。なぜなら、この会話スレッド全体が欺瞞やったからや。
モデルが実際にやったことや考えたことを誤って表現する答え方をする時や。他の例としては、実行してないツールを実行したと主張したり、完了できないタスクを完了したと言ったり、何らかの過去の経験を作り上げたりすることがある。これはポストトレーニング中に、グレーダーがモデルの内部推論が不確実性を示してても、自信ありげに見える答えに報酬を与える時に起こることがあるんや。だから世界はグレーダーを騙すことを学ぶんや。
GPT-5は、解決できないタスクに対して成功を偽装するんやなくて、適切に失敗するように訓練されてるんや。訓練では、モデルに不可能やったり仕様が不十分やったりするタスクが提示されて、正直さに報酬が与えられ、欺瞞的な行動にはペナルティが課されたんや。GPT-5はまた、訓練中の思考連鎖モニタリングもサポートしてる。
システムはモデルの私的な推論トレースが実際に分析されて最終回答と照らし合わせてチェックされるんや。トレースが実際にはやってないことをやったふりをしてる場合、その実行はペナルティを受ける一方で、正直な思考連鎖は報酬を受けて、モデルをごまかすんやなくて限界を報告するように押し進めるんや。
これがGPT-5が大規模言語モデルのいくつかの制限に対処する5つの方法や。単一のベンチマーク数値を引用することなく全部やり遂げたと思うで。まあ、あのMMU数値はカウントせんけどな。もうGPT-5を試してみた?どんな感じで動いてる?コメントで教えてや!


コメント