実践的な評価手法:フロンティア研究から本番アプリケーションまで

本動画では、OpenAIにおけるフロンティアモデルの評価手法と、実用的なAIアプリケーション開発のための評価ツールについて解説している。従来の学術的ベンチマークから、実世界の経済的価値を持つタスクを測定するGDP valへの移行が紹介され、GPT-4oからClaude 4に至るまでのモデル性能の進化が示される。また、エージェント開発者向けに、データセット構築、トレース分析、自動プロンプト最適化などの機能を備えた新しい評価プロダクトが発表される。Carlyle投資ファンドの事例を通じて、マルチエージェントシステムの評価プロセスが実演され、開発初期段階からの継続的な評価の重要性が強調されている。

Evals in Action: From Frontier Research to Production Applications

How do you measure progress when you're operating at the frontier? Step inside the evolving world of AI evaluation, wher...

OpenAIにおける評価の重要性
新しい評価指標の必要性
GDP valの開発
GDP valの具体例
モデル性能の評価方法
GDP valの構築目的
評価プロダクトの重要性
新しい評価機能の紹介
デモンストレーション
評価ツールの選択基準
評価のベストプラクティス

OpenAIにおける評価の重要性

皆さん、こんにちは。私はテルと申します。OpenAIの強化学習チームの研究者で、フロンティア評価の取り組みを率いています。間もなく、評価プロダクトを率いるヘンリーも加わります。最後に質疑応答の時間を設けていますので、ぜひDiscordに質問を投稿してください。お越しいただきありがとうございます。

OpenAIでは、世界で最も強力なAIモデルのいくつかをトレーニングしています。これらのモデルが何をできるのかを理解するために、私たちは評価を行う必要があります。評価はモデルの能力を測定し、良い結果に向けてモデルのトレーニングを導くことができます。

本日は皆さんと共有できることを大変嬉しく思います。まず第一に、OpenAIでフロンティア能力の進歩をどのように評価しているか、そして第二に、皆さん自身のアプリケーションやエージェントで独自の評価を実行するための実用的なツールをどのように活用できるかについてです。

では、なぜ評価が重要なのでしょうか。OpenAIでは、トレーニング実行は計算コストと研究者の時間の面で非常に高額です。そのため、進捗を測定するシグナルが必要で、実行がどのように進んでいるかを知り、適切に介入してトレーニングを導くことができます。

歴史的には、SATやLSAT、あるいは高校数学コンペティションであるAIMEのような古典的な学術ベンチマークを使用して、推論能力を前進させてきました。しかし、これらの評価では測定できる範囲に限界があります。

新しい評価指標の必要性

たとえば、o3のトレーニングを開始したとき、これらすべてのベンチマークでほぼ100%に近いスコアを獲得していたため、進捗しているかどうかわかりませんでした。それでも、私たちのモデルはまだ実世界の仕事をすることができませんでした。ですから、進捗を測定する新しい方法が必要であることは明らかでした。

これらの古典的なベンチマークは、高校から優等生を採用することを考えるのと同じように捉えることができます。確かに、彼らは勉強やテストに合格することは得意ですが、実世界での仕事という点では未経験です。そして、それが困難な移行期であることは私たち全員が知っています。

これは私の最初のインターンシップ時代の写真で、仕事が非常に遅れていたため、チームの飲み会でコーディングをしていて、チームから大いにからかわれたものです。だからこそ私たちは、テストから、実際の代替可能な同僚が実際に行うような仕事の測定へと移行しています。これは、モデルが人々の日常業務をどのようにサポートできるかを理解するためです。

GDP valの開発

これを実現するために、私たちはGDP valを構築しました。GDP valという名前は、GDPつまり国内総生産に関連するタスクをカバーしているためです。これは、私たちのモデルが経済的に価値のある実世界のタスクでどのように機能するかを測定します。OpenAIのウェブサイトとHugging Faceで利用可能です。

9月にGDP valをローンチしたとき、本当に大きな反響がありました。コミュニティの多くの人々がそれについて話し、使用していました。しかし、その理由を理解するために、この評価が実際に何を測定しているのか、いくつかの例をお見せしたいと思います。

GDP val上のすべてのタスクは、その分野で平均14年の経験を持つ専門家によって作成されました。彼らは最高の中の最高です。そして私たちは、これらの専門家に対して、実世界の仕事においてモデルがどこまで対抗できるかを測定したかったのです。

GDP valの具体例

こちらが一例です。不動産エージェントが、見せたい物件の写真を何枚か撮影し、その物件について調査を行い、それをアピールするためのパンフレットを作成したいと考えています。そして私たちは、このエージェントと比較して、私たちのモデルがどれだけできるかに興味があります。

GDP valのタスクは非常に長期的であることに気づくでしょう。完了するのに数日、あるいは数週間かかることもよくあります。そして非常にマルチモーダルです。多くのコンピューター使用、画像、ツールを伴うことが多いのです。

別の例を挙げましょう。製造エンジニアがケーブルリールスタンドの3Dモデルを作成しています。これも非常にマルチモーダルで、誰かが実際に行わなければならなかった実世界の作業を伴います。

最後の例として、映画・ビデオ編集者が、オーディオとビデオを使ったハイエナジーなイントロリールを作成しています。

これらはほんの数例です。実際にはもっと多くをカバーしています。連邦準備制度によると、米国のGDPに貢献する上位9つのセクターから始めました。ですから、ここに含まれるすべての産業は、米国のGDPに5%以上貢献しています。

そして各セクター内で、労働統計局によると、全体の賃金に最も貢献する上位5つの知識労働職業を選択しました。そして最後に、各職業内で、政府は実際にその仕事で誰かが行う主なタスクを追跡しています。

たとえば、会計士であれば、外部情報を調べるかもしれませんし、予算を作成するかもしれませんし、クライアントと話すかもしれません。そして各職業について、その職業における大部分の作業タスクをカバーしています。

全体として、これにより不動産、CAD設計、小売など、1000以上の実世界のタスクが生まれ、モデルが実世界の仕事をどのように行えるかを本当に理解しようとしています。

モデル性能の評価方法

それでは、テストするタスクのいくつかの例でした。自然な疑問は、私たちはこれらにどれだけ優れているかということです。まず、モデルをどのように採点するかを説明させてください。

ペアワイズ専門家評価を使用しています。モデルの出力を人間の専門家の成果物と比較し、その分野の評価者は盲検化されているため、どちらがどちらかわからず、好みのものを選択します。そして、これらの判断を全体的な勝率、つまりモデルの出力が好まれる割合にまとめます。これにより、時間の経過とともに追跡できる実世界の作業における能力の明確で偏りのない測定が得られます。

こちらが私のお気に入りのグラフです。Y軸には業界プロフェッショナルに対する勝率があります。2024年春に遡ると、私はGPT-4oモデルの作業を手伝いましたが、当時はこれまでにリリースした中で最高のフロンティアモデルだと思っていました。

しかし、実際にはGDP valでは、勝率が20%未満のスコアを記録しました。つまり、専門家の大多数の場合、GPT-4oを使用するよりも、彼ら自身が直接作業を行う方を望むということです。

しかし、すでにこの18ヶ月間でGPT-o1により、これらのタスクで40%近い勝率に近づいています。これは、ほぼ半分のケースで、専門家がモデルの出力を好むか、人間ができることと同じくらい良いと考えることを意味します。

そしてこの軌跡が続けば、1年か2年後にはどうなっているか想像できるでしょう。おそらく実際に同等になっているでしょう。実際、Claude 4のようにすでに本当に近づいているモデルも業界にはいくつかあります。ですから、これらのモデルは、皆さんが関心を持っているようなアプリケーションを非常に迅速に実行できるようになるでしょう。

少し説明をしたいと思います。これは非常に簡略化されたタスクで、高血圧について説明するデッキを作成する看護師がいます。そして、皆さん全員がどちらがモデルでどちらが人間かを推測するのを見てみたいと思います。

では、左側の例が人間の専門家だと思う方は手を挙げてください。数人が手を挙げています、おそらく10%くらいでしょうか。右側が専門家だと思う方は手を挙げてください。

左側が好きなら、それがモデルであることがわかります。右側が実際には専門家ですが、かなり似ていることに気づくかもしれません。本当に違いがわかりません。どちらも仕事をこなしているようです。

この種の出力を得るための時間とコストを見ると、モデルは人間よりも大幅に速くて安いです。論文で詳しく説明していますが、これらのタスクを完了する際にモデルをループに入れると、支援なしでタスクを行うのに比べて多くの時間とお金を節約できます。

GDP valの構築目的

では、なぜGDP valを構築したのでしょうか。第一の理由は、AIが労働にどのように影響するかを理解することは非常によく聞かれる質問だからです。経済学者が使用する現在の方法には、使用データの調査が含まれることがよくあります。つまり、人々が本番環境でこれらのモデルをどのように使用しているかということです。

しかし、これの問題点は、それが非常に遅行指標であるということです。ほとんどの大規模な技術的変化において、実際の使用がGDPに現れるまでには数年または数十年かかる可能性があります。

たとえば、飛行機、電気、インターネットなど、飛行機を発明してからほとんどの人が仕事のために移動するためにそれを使用するようになるまでには数十年かかりました。そして、規制上の理由、文化的理由、手続き上の理由により、AIも同じだと思われます。

したがって、評価は、実世界の仕事において私たちのモデルがどのように機能しているかを積極的に追跡し、コミュニケーションするのに役立ちます。また、研究チーム内部では、これをノーススターとして使用してモデルの進捗を導き、追跡しています。

この評価に興味がある方は、eval.openai.comで独自のモデルを評価できます。また、Hugging Faceで評価をオープンソース化しており、すでにナンバーワンに達しており、そこにあるデータセットを使用できます。そして最後に、独自の結果を反復できるように、公開グレーダーサービスを提供しています。

多くの制限事項について注意したいと思います。Twitterで、OpenAIがすべての仕事を自動化したというような議論を見かけました。それはこの評価が言っていることではありません。明確な入力と出力を持つ、明確に定義されたタスクのセットでモデルがどのように機能するかを測定しているのです。

実際の仕事では、ご想像のとおり、それ以上のことがたくさんあります。何に取り組むべきかを把握する必要があります。タスクに優先順位を付ける必要があります。マネージャーがフィードバックを与えるかもしれませんし、反復するかもしれません。

ですから、これを組み込んだGDP valの将来のバージョンを作成することに取り組んでいます。しかし、その間、GDP valがこれらの学術テストよりもはるかに多くの進歩を遂げ、多くの皆さんが構築しているのと同じ種類のタスクで私たちのモデルがどのように機能するかを理解することに非常に興奮しています。

これが、私たちがOpenAIでフロンティアモデルを内部で構築する際にどのように評価しているかです。しかし、OpenAI APIで構築している場合、独自のカスタムユースケースについて同じ厳密さでモデルを評価する方法も必要かもしれません。そのために、プロダクト担当のヘンリーがその方法をお見せします。

評価プロダクトの重要性

ありがとうございます。評価に投資するチームは、一貫してより良い製品を構築します。そして私たちはOpenAIでほぼ毎日これを目にしています。フロンティアモデルを構築する際だけでなく、世界最大級の企業、世界で最も洗練されたスタートアップのいくつかとの仕事からもです。

私たちはこれらの企業が毎日AIを本番環境に展開するのを支援するために協力しています。そしてその作業から、評価がいかに重要で、正しく行うことがいかに重要であるかを見てきました。本日は、この作業から学んだことと、私たちの製品を通じてこれらの教訓をすべての人が利用できるようにする方法を共有します。

では、なぜ評価は構築者、つまりOpenAIのようなフロンティアモデルを作成する人々だけでなく、エージェントやアプリケーションを構築する人々にとって重要なのでしょうか。それは、高性能なAIアプリケーションを構築することが依然として非常に困難だからです。簡単ではありません。

LLMは苛立たしいほど非決定論的です。新しいモデルが次々と登場し続けます。チャットでは、エッジケースは事実上無限です。エージェントを構築する場合はさらに困難になり、エラー率は呼び出しごとに複合化します。

これにユーザーの期待を組み合わせると、彼らの期待は非常に高く、時間とともにどんどん高くなっています。そしてエラーは本当にコストがかかる可能性があります。人々は現在、規制されたドメインでエージェントを構築しています。金融、法律、健康を考えてみてください。これらのユースケースを正しく実行することは極めて重要です。ユーザーの期待は非常に高く、失敗の許容範囲はありません。

だから評価に同意できると思います。しかし今日、それらを正しく実行するのは本当に困難です。代表的なデータセットの入力をコンパイルするのに永遠のように思える時間を費やさなければなりません。

ビジネスの好みを本当に捉える評価者を作成し、調整する必要があります。そして非常に時間がかかるため、一部の人々はそれを完全にスキップし、バイブに基づいて本番環境に直接出荷します。

私たちはOpenAIでこれを改善するために懸命に取り組んでいます。評価製品があり、本日、それに対して多数の新機能を出荷しました。この製品は、評価の定義と実行をはるかに簡単にし、ますます自動化することを目指しています。

新しい評価機能の紹介

本日、評価を構築し、実行し、特にエージェントの評価を実行しやすくするための一連の新機能を導入しました。

まず、データセット。これが私たちのビジュアル評価ビルダーです。これまで以上に簡単に最初の評価の構築を開始でき、1つの簡単な画面で完全な人間の注釈を完成させることができます。

次はトレースです。トレースは、エージェントやマルチエージェントシステムを構築する際に非常に強力なツールですが、多くの実行を完了したときに、それらの障害を見つけるために大規模に解釈するのは困難です。トレース評価により、これらの完了したトレースに対して評価者を実行し、問題を特定し、デバッグの取り組みを失敗したトレースと問題のあるスパンに直接向けることができます。

そして、評価実行を完了したら何をしますか。プロンプト、多数の評価者出力、そしておそらく人間の注釈からも大量の関連情報があります。今日、そのすべてのデータを読み、パターンを見つけ、おそらくプロンプトエンジニアリングを行う必要があります。

しかし、より良い方法は自動プロンプト最適化です。これは、これらすべての入力、注釈、評価者出力、元のプロンプトを取得し、それを自動的に書き直して、反復時間を大幅に加速するものです。

次に、製品のライフスパン全体を通じて非常に一般的なリクエストであるサードパーティモデルのサポートです。評価フレームワークを使用する場合、ありがとうございます。評価フレームワークを使用する場合、OpenAIモデルだけに限定されなくなりました。エコシステム全体で評価できます。

これはOpen Routerとのパートナーシップによって実装されており、自分のキーを持参することで、任意のカスタムエンドポイントをサポートできます。そして最後に、私たちの製品はエンタープライズ対応です。データ保持がゼロで有効な組織が利用でき、エンタープライズキー管理もサポートしています。

デモンストレーション

それでは、十分に話しました。デモに入りましょう。Carlyle、世界有数のグローバル投資ファンドがAgent Kitを使用して構築した例についてお話ししたいと思います。これは大幅に簡略化されたユースケースですが、ここでは詳しく説明しませんが、シンプルで簡単に視覚化できるものを作りたかったのです。

この目標は、企業を取り上げ、さまざまな視点から分析を提供し、それらの視点を批判し、その後、プロフェッショナルな投資家がワークフローに情報を提供するために使用できる最終レポートを作成することです。

ここで、先ほどステージでデモされたビジュアルエージェントビルダーを見ることができます。入力を取得し、さまざまなエージェントを通過させ、その後、ユーザーに返されるレポートを作成するのがわかります。

マルチエージェントシステムの構築は複雑で困難です。エージェントは、これらの特定のコンポーネントのいずれか1つの最も弱いリンクと同じくらい優れているだけです。したがって、最初に各コンポーネントを評価したいと思います。

これらのノードの1つをクリックすると、エージェントが表示されます。これは、提供された企業に対して財務分析を実施するファンダメンタルアナリストです。

このノードで実行することもできますが、より良い方法は、それに対してシンプルな評価を構築することです。評価をクリックすると、ビジュアルエージェントビルダーで定義されたエージェントが開き、新しいデータセット製品でそれが開きます。これまで以上に簡単にその評価を作成できます。

ここで、使用したモデルを確認できます。変数を確認でき、ツール呼び出しが渡されているのがわかります。初期プロンプトを確認し、その後、本当に基本的な数行のサンプルデータセットをアップロードできます。

これで、このアプリケーションをテストするために使用できる基本的なデータセットになりました。このプロンプトに入力するいくつかの企業があり、Webサーチツールがウェブ上から正しいコンテキストを取得していることを確認できるように、いくつかのグラウンドトゥルース値の列があります。

これで実行され、ここで生成が完了します。これらの生成が完了すると、クリックして、実際の生成が何であったかを読むことができ、いくつかのことを行うことができます。

まず、注釈列を追加できます。これは、主観的な専門家の注釈を実施するための非常に強力なツールです。では、評価列を追加させてください。さらに、自由記述のフィードバック列を追加して、そのような自由記述の注釈を添付できるようにします。

最初にできることは、これらを読むことです。いくつかの課題を見つけることができます。たとえば、それは良いかもしれませんし、それは悪いかもしれません。自由記述のフィードバックを追加できます。たとえば、これは長すぎるかもしれません。これを使用してその生成を書き直し、ゴールデンレスポンスを作成することもできます。

主観的なランナーの専門家注釈は、評価を実行する際の非常に強力な技術であり、実際にそれらに傾倒することは非常に重要ですが、非常に高価でスケーラビリティに欠けます。したがって、より良いソリューションは、評価者も使用することです。

ここで、最初のLLMジャッジを作成します。これは、これらの生成に対して実行されるシンプルな評価者です。この例では、財務分析を評価し、上昇と下降の議論、競合他社との比較、明確な買い、売り、保持の評価を確認するように、ジャッジに依頼します。

さらに、取得した四半期収益と収入の数値が、参照データセットにあるこれらのグラウンドトゥルース値と一致していることを確認します。

これで評価者を保存でき、これらの生成を取得し、そのLLMジャッジに渡し、その後、ここで確認できる応答を作成します。

評価の実行には、推論が完了するまで1分ほどかかる場合がありますが、優れたテレビシェフのように、私は以前に作成した例を用意しています。したがって、ここで完了したこの評価者を見ることができ、このルーブリックを読んで、失敗が発生した理由を理解できます。

ここで、たとえば、応答が指定された企業をその競合他社のいずれとも比較していないことがわかります。他にもいくつかの失敗があります。

では、ここで何ができるでしょうか。いくつかのことがあります。まず、これらの失敗をすべて読み、その後、手動でプロンプトの反復を行い、それを手動で反復しようとすることができます。より良い方法は、このプロンプトを自動的に最適化することです。

ここで最適化ボタンをクリックしましたが、新しいタブが開き、エージェントでプロンプトを書き直しています。これは、そのデータ、注釈、評価者出力を取得し、改善されたプロンプトを提案します。

繰り返しになりますが、これには時間がかかります。したがって、以前に作成したものにクリックして進みます。ここで差分ビューが表示されます。使用していた元のプロンプトは、かなりシンプルな数行で、実際には生成に考慮してほしいすべての基準を捉えていませんでした。

ここで、自動的に書き直されたこのプロンプトを見ることができます。これは、その手動注釈にカプセル化されている私の好みと大幅により徹底的で調整されています。

それが最初のステップでした。それが、私がそのマルチエージェントシステムを取り、単一のノードを取得して評価した方法です。エンドツーエンドも見たいと思います。このシステム全体が意図したとおりに機能していることを確認したいのです。

そのために、トレースは素晴らしいツールです。ここで、このエージェントから作成された一連のトレースを見ることができます。その後、評価者を添付できます。実際、以前に作成したこれらを削除します。

評価者を添付して、これらのトレースをスクロールしていると、いくつかの問題が見つかると言うことができます。引用されたソースが、ニュースアグリゲーターではなく、権威あるファーストパーティソースであることを確認したいとしましょう。

さらにスクロールして、生成の最後に到達し、別の問題が見つかったとしましょう。最終的な出力には、明確な買い、売りの評価が必要です。

ここでのワークフローは、これらのトレースに対して大規模に実行したいルーブリック、一連のテストを構築することです。多くのこれらのトレースをタブで切り替えているときに、ここで作成します。テストしたい数だけスコープを設定できます。そして、そのルーブリックを構築したら、すべてを評価するをクリックでき、これにより多くのトレースに対して大規模にこれらの評価者が実行され、掘り下げるべき問題のある例を見つけることができます。

それでは、実際にエージェントを取得する方法の非常に簡単な概要でした。実行時の様子をお見せしましょう。明らかに、これらの評価の1つを実行するには少し時間がかかります。トレースは非常に大きいためです。

ここで、これが進行しているのがわかり、評価者がいます。しかし、それが完了したら、以前に作成したものにもう一度行き、このようなビューが得られます。ここで、大規模にこれらの評価者出力を確認できます。

そして、これらのトレースのいずれかをクリックして、問題が発生した場所を理解できるため、一度に数十のトレースを読むのではなく、そのトレースレビュープロセスを加速できます。

これが、Carlyleがエージェントビルダーを使用してエージェントを構築し、その後、単一のノードと、エンドツーエンドのマルチエージェントシステム全体を評価する方法の非常に簡単な概要でした。これにより、パフォーマンスに敏感なドメインにいる場合に明らかに非常に重要なパフォーマンスに自信を持つことができます。

評価ツールの選択基準

評価をどのように実行するか、どのツールを使用するかを決定する際に、本当に検討する価値があると私たちが考えるいくつかのことがあります。

1つ目は、1つの場所で必要なすべてを含む水平方向のツールセットとの統合です。私たちは製品からAgent Kitでそれを構築しています。これにより、ビルダーでのエージェント構築とエージェントSDKからの緊密な統合が提供されます。簡単なデプロイメントツールと、現在は簡単な最適化ツールにより、その反復ループを1つの場所ですべて完了できます。

次は自動化です。本日、プロンプト最適化が高性能エージェントを構築する過程をどのように加速できるかをお見せしました。私たちはさらに進んで、代表的なユーザー入力に基づいて評価者を生成および調整し、データセットを生成できるようにしたいと考えています。近日公開予定ですので、ご期待ください。

そして最後に、使いやすさに本当に傾倒しようとしています。主題の専門家がツールに入り、1つの場所で専門家の好みデータを取得することを簡単にし、今日では困難でやや威圧的である可能性がある評価実行への参入障壁を減らします。

評価のベストプラクティス

過去数年間にわたって多くの顧客と協力してきた結果、私たちが得た最終的な教訓は、シンプルに始めて、開発プロセスの開始時に評価を構築することです。最後まで待ってアドホックなテストを行うのではありません。開始時にシンプルなセットを定義し、アプリケーションを構築するにつれてそれを進化させます。

次に、実際の人間のデータを使用します。実際のユーザーを代表すると期待して仮想的な例を考え出すのではありません。代わりに、過去の実際のユーザー入力をサンプリングし、それらを評価セットの基礎として使用します。

そして最後に、主題の専門家と注釈を付け、評価に費やす時間を、その好みデータが評価者やプロンプトによって確実に取得されるようにすることに費やし、プロンプト最適化、評価者の調整のような手動の反復作業の一部を自動化できるようにして、重要なタスクに集中できるようにします。

私たちは、厳格な評価により誰もが高性能な製品を構築できるようになり、それらが開発の過程の重要な部分であると本当に考えています。そして本日、OpenAIでフロンティアモデルをどのように評価しているか、そして私たちの新しい製品を通じて同じ厳密さでアプリケーションをどのように評価できるかをご覧いただきました。