
5,853 文字

こんにちはインターネットの皆さん。今日はOpenAIの新モデルである4.1について、そしてこのモデルが明らかにするプロンプティングの未来についてお話ししたいと思います。モデルがリリースされただけでなく、彼らはガイドも公開しました。このガイドでは、このモデルを効果的に使うためのベストプラクティスについて詳しく説明しています。このビデオでは、ブログ記事からのベストプラクティスだけでなく、このブログ記事が以前のプロンプティングのベストプラクティスにどのような意味を持つのか、そしてモデルが向上するにつれてプロンプティングという実践自体がどのように進化しているかについてお話ししたいと思います。
ではさっそく始めましょう。これはOpenAIからの素晴らしいアニメです。ありがとうGPT、おそらく4.0かな。ブログ記事から紹介したいポイントがいくつかあります。これから上から順に見ていきましょう。ここで言及するリソースはすべて共有します。
まず最初に「指示に従う能力」についてです。これは彼らの投稿で主に取り上げられている点の一つで、指示に従う重要性はあらゆる種類のことに不可欠です。ここで指摘したい主なことは、過去にモデルに望む動作をさせるためのベストプラクティスとして、大文字で叫んだり、「もしこれができなければ誰かが死ぬ」というような複雑なシナリオを作ったり、「これをやれば100万ドルあげる」というような賄賂を提示したりするような奇妙な手法をよく使っていたことです。これらの手法の中には実際に効果があるものもあり、こうしたプロンプティング戦術についての研究も発表されていました。
しかし今や4.1、Gemini 2.5 Pro、Claude 3.7などの新しいモデル群は、指示に従う能力が格段に向上しています。特定のタスクを実行させるために複雑な手法を駆使する必要がなくなりました。モデルに叫ぶ必要がなくなったのは素晴らしいことです。
次に「コンテキストウィンドウ」についてです。これはOpenAIがリリースした初めての100万トークンという大きなコンテキストウィンドウを持つモデルです。これが特に素晴らしいのは、AIを使用して開発している人たち、特にCursorやWindsurfのようなAI中心のIDEを使用している人たちにとってです。
これらのツールでは、各プロジェクトにプロジェクトルールがあり、さらにグローバルルールという上位のルールセットも設定できます。グローバルルールは、すべてのプロジェクトでAIが従うべきルールで、プロジェクトルールは特定のプロジェクトに固有のルールです。私の経験では、多くのモデルはグローバルルールに従うのが苦手でした。その理由は、例えばプロジェクト3に取り組んでいる場合、コンテキストが大きすぎるとスレッドを見失い、そもそもグローバルルールが存在することを忘れてしまうからです。
私の経験では、Gemini 2.5 Proは、私がCursorのサブセットに設定したグローバルルールを一貫して参照できる最初のモデルでした。これはAI開発者にとって大きなブレークスルーです。なぜなら、グローバルルールを参照でき、アプリケーションの異なる部分を一度で構築する能力を向上させることができるからです。これは大きなプラスなので、この機能向上のためにGemini 2.5 ProやGPT-4.1を使うことをお勧めします。
次に「否定用語」についてです。過去のベストプラクティスでは、多くの人が否定用語の使用を避けていました。否定用語とは「これをしないでください」や「Xを絶対にしないでください」などの表現です。システムプロンプトにこのような表現を使わなかった理由は、AIが誤ってその避けたいことを実行してしまうことがあったからです。
しかし今は、これらの否定用語を使っても問題ありません。4.1や2.5 Proのようなモデルでは、指示に従う能力が向上したため、「何かをしないでください」や「何かを避けてください」と言えるようになりました。
最後に「区切り文字」についてです。プロンプト内で、AIにプロンプトの特定のセクションを識別させたい場合、各セクションには異なる目的があるため、区切り文字を使用します。これはマークダウン(通常はハッシュタグなど)やXML(小さな括弧のようなもの)などです。OpenAIのプロンプティングに関するブログ記事では、コンテキストが多く複雑なシステムプロンプトでは、XMLが最も効果的だったと述べています。
これは興味深いことに、Claude(Anthropicが開発)は以前からXMLを使用していたので、そのモデルは常にXMLが得意でした。OpenAI、Anthropic、おそらく他のモデルプロバイダーもシステムプロンプトでのXML使用に収束しつつあるようです。これは指示に従い、効果的にセグメント化する上での効果があるためです。これが永遠に続くわけではありませんが、特定の種類の区切り文字の使用に収束しているのは興味深いことです。
次に主要なブログ記事からのスクリーンショットについて見ていきましょう。「フォーマットに従う」「否定」についてはすでに話しました。「順序のある指示」と「再ランク付け」は興味深いポイントです。これらは似たようなものですが、順序のある指示は「最初にXをして、次にYをして、そしてZをする」という指示をシステムプロンプトで出すことができることを意味します。これは歴史的に見ると、モデルが連続して効果的に実行するのは難しかったのですが、今は特にエージェントにとって重要な指示に従う能力が向上しています。
再ランク付けは、基本的に後で何かを並べ替えることであり、順序付けと概念的には似ています。「コンテンツ要件」は、大文字での叫びに戻りますが、「常にXをしてください」と大声で叫ぶ必要がなく、普通の人のように言えば、それを常に参照してくれます。
「過信」は、エージェントや特にRAG(Retrieval-Augmented Generation)の使用例にとって重要です。RAGでは、AIが質問を受けると、データベースを参照して情報を取得します。ロボットがデータベースにない情報を誤って述べた場合、これは「幻覚」と見なされます。RAGを使用するエージェントのシステムプロンプトでは、答えがわからない場合は「わかりません」と言うように指示することがあります。これは「グラウンディング」の形式で、古いプロンプティングのベストプラクティスでした。
しかし現在、指示に従う能力が向上しているため、単に「わからない場合はそう言ってください」と言うだけで、モデルは効果的にそれを実行する可能性が高くなります。これはRAGセットアップとエージェント全般にとってプラスです。
次にOpenAIが共有したプロンプトガイドから、初心者向けの基本的なシステムプロンプト構造を見てみましょう。これは多くの人が以前から言及していることで新しいものではありませんが、簡単に触れておきたいと思います。
プロンプトの一番上には「役割」があります。これはAIに与えるペルソナで「あなたはプロの作家です」「あなたはコーダーです」などと指定します。次に「タスク」または「目的」があります。これは達成したいことです。次に「指示」があり、これは非常に従いやすくなっています。Xやy、zを行うための指示だけでなく、サブカテゴリも与えることができ、それらの指示を実行する方法についてより具体的な詳細を提供できます。
また、「推論ステップ」を与えることもできます。GPT-4.1は推論モデルではなく生成モデルであるため、推論をシステムプロンプトに組み込む必要があることを覚えておくことが重要です。プロンプトの最後に「ステップバイステップで考えてください」と言うだけでなく、各ステップで考えるべき具体的なことやその順序も指定できます。
次に「出力フォーマット」があり、これは前述のXMLのことです。そして「例」があります。これはfew-shot学習と呼ばれるもので、AIが応答する際にどのような形になるべきかの例を提供します。これにより効果的に応答する可能性が高まります。
最後に「コンテキスト」です。システムプロンプト内で一行だけですが、プロポーショナルに見ると重要です。上部に指示があり、例も含めてすべてがそこに収まります。下部でそれらの指示を繰り返しますが、その間にすべての情報が入ります。これがコンテキストセクションになります。ユースケースによってはこれほど多くのコンテキストがない場合もありますが、一部のユースケースではあります。
指示を上部と下部の両方に配置することが重要です。プロンプトガイドのベストプラクティスでは、指示を上部と下部の両方に繰り返すことが重要だと述べています。これはコンテキストウィンドウが非常に大きいため、モデルが指示を理解し記憶する可能性が高まるからです。すべての指示をコピーペーストする必要はなく、重要な指示とステップバイステップの考え方の部分を下部で再強調するだけで十分です。
また、上部と下部の両方を使用したくない場合、上部を選択する方が下部よりも効果的であると述べています。興味深いことに、過去にOpenAIは「キャッシング」について言及していました。これはこれらのツールを使用している人々のコスト節約のためです。OpenAIが以前勧めていたキャッシング方法では、静的な情報(時間とともに変化しない指示やコンテキスト)をすべてプロンプトの最上部に配置することを推奨していました。
これにより情報がキャッシュされ、モデルはこれらの情報をすべて再考する必要がなくなり、推論コストを大幅に節約できます。しかし、指示を上部と下部の両方に配置するという新しいベストプラクティスはこのキャッシングポイントを否定しています。OpenAIが戦術や視点を変えているのか、モデルによって違うのかはわかりませんが、過去に言われていたことと現在言われていることを比較するのは興味深いです。
これがプロンプティングについて話したかった主なポイントです。プロンプティングがどのように変化し進化しているか、そして以前行っていた多くのことが新しいモデルでは時代遅れになりつつあるという点について説明しました。
次に少し脱線して、ベンチマークについて話したいと思います。モデルプロバイダーは自社のモデルをできるだけ良く見せたいと考えるのは当然です。彼らは過去の自社モデルと比較したり、特定のベンチマークを通じて他のモデルプロバイダーと比較したりします。今日の市場で最高のモデルを見ると、Gemini 2.5 Proはコーディングや長いコンテキストに依存する他の多くのユースケースで依然として最高のモデルだと思います。これをいくつかのユースケースとベンチマークで示したいと思います。
まず、あまり言及されていないベンチマークである「fiction.livebench」を見てみましょう。このベンチマークはフィクションストーリーに基づいており、モデルが物語全体を把握し、物語の特定の部分だけでなく、相互に関連する多くの部分についての質問に答えられるかどうかをテストします。例えば、特定の物語についての質問に答えるために、モデルは第2章から事実を引き出し、第18章からその事実への参照を引き出し、それらをすべて方法論的にまとめて良い回答にする必要があります。
これは多くのモデルプロバイダーが長いコンテキストウィンドウについて言及する「needle in the haystack(干し草の山の中の針)」とは異なります。これはモデルが大量のデータの中から特定の事実を参照する能力を指します。例えば、ベーキングについての大きな本の中に量子物理学に関する事実を入れた場合、モデルが本全体からその事実を取り出せれば、それは完璧または良いと見なされます。
しかし、これは必ずしも有用ではありません。なぜなら、私たちがモデルを使用する場合、データセット内の特定の事実を見つけるだけでなく、データセットを理解し、その複雑さと相互接続された部分を理解し、AIがその頭の中でデータセットを使って問題を解決できることが重要だからです。
このベンチマークを見ると、数日前に行われたものですが、Gemini 2.5 Proが他のすべてのモデルよりもはるかに高いスコアを持っていることがわかります。これは120kトークンのみのスコアですが、これほど高いマークであれば、より多くのトークンでも他よりも優れているだろうと思います。GPT-4.1は62とまだかなり良いスコアですが、Grock Miniの方が良いスコアを出しています。奇妙なことにGemini 4.0はGemini 4.1よりも良く、Claude 3.7は53です。しかし、Gemini 2.5 Proは依然として断然トップです。
もう一つ共有したいのはツールコーリングに関するベンチマークで、ここでもGemini 2.5 Proが最高と評価されています。興味深いことにClaude 3.5 SonnetはClaude 3.7 Sonnetよりも優れています。Cursorを使う場合、戦略(何をするか)にはGemini 2.5 ProとClaude 3.7 Thinkingを使い、実行には下の方にあるモデルの一つを使うことがあります。ツールコーリングでは4.1は他と比べてそれほど良くありません。
要するに、GPT-4.1は進歩を遂げ、それは称賛に値しますが、依然として最高のモデルではありません。コーディングなど異なるユースケースがある場合は、Claude 3.5やGemini 2.5 Pro、あるいは思考側にはClaude 3.7を使うことをお勧めします。
以上です。もし良かったらこの動画を友人と共有してください。また、私と仕事をしたい方は、Gradient Labsという会社を運営しています。私たちは生産性向上のために社内にAIを実装するお手伝いをしています。興味があれば、以下のリンクから無料30分通話を予約して、お互いに良い関係が築けるかどうか確認できます。それでは、また次回。


コメント