AIエージェントのための最先端プロンプティング

この動画は、AI エージェントの最先端プロンプティング技術について解説したものである。AI スタートアップがどのようにプロンプトエンジニアリングを実践しているかを調査し、Parahelp 社の実際のプロンプト例を公開している。メタプロンプティングの重要性、評価システムの構築、Palantir の前方配備エンジニア概念がスタートアップ創業者にとっていかに重要かを説明している。また、異なる AI モデルの個性や特徴についても触れ、実際のビジネス現場での応用例を通じて、プロンプトエンジニアリングが如何に企業の競争優位性に直結するかを示している。
13,600 文字

State-Of-The-Art Prompting For AI Agents

At first, prompting seemed to be a temporary workaround for getting the most out of large language models. But over time...

メタプロンプティングは今や誰もが使用している非常に強力なツールになってきています。これは実際のところ、1995年頃のコーディングのような感じがします。ツールがまだ完全に整っていないような状況です。私たちは新しいフロンティアにいるのです。しかし個人的には、人をマネジメントすることを学ぶような感覚でもあります。つまり、良い判断をするために必要な情報を、どのように実際に伝えるかということなのです。

Light Coneの別のエピソードへようこそ。今日は、プロンプトエンジニアリングに関して、最高のAIスタートアップの内部で実際に何が起こっているのかを明かしていきます。12社以上の企業を調査し、実際にこれらのものを構築している最前線からの実践的なヒントを得ました。

Jared、あなたが担当している最高のAIスタートアップの一つから例を挙げてもらえますか？

Parahelpという会社から例を得ることができました。ParahelpはAIカスタマーサポートを行っています。これを行っている会社はたくさんありますが、Parahelpは本当に本当によくやっています。彼らは実際にPerplexity、Replet、Bolt、そしてその他の多くのトップAI企業のカスタマーサポートを支えています。

つまり、Perplexityにカスタマーサポートチケットをメールで送ると、実際に応答しているのは彼らのAIエージェントなのです。素晴らしいことに、Parahelpの皆さんは、このエージェントを動かしている実際のプロンプトを私たちに見せることに非常に親切に同意してくれました。そして、それをYouTubeの画面上で全世界に公開することにも同意してくれたのです。

垂直AIエージェントのプロンプトを入手するのは比較的困難です。なぜなら、それらは企業のIPの王冠の宝石のようなものだからです。ですから、基本的にこのプロンプトをオープンソース化することに同意してくれたParahelpの皆さんには非常に感謝しています。Diana、この非常に詳細なプロンプトについて説明してもらえますか？

非常に興味深く、これを実際に見る機会は非常に珍しいものです。このプロンプトについて興味深いのは、まず本当に長いということです。この文書を見ると分かる通り、スクロールしていくと6ページの長さがあり、非常に詳細です。最高のプロンプトの多くが始める重要なことは、LLMの役割を設定するという概念です。あなたはカスタマーサービスエージェントのマネージャーですと設定し、それが行う必要があることを箇条書きで分解しています。

そして重要なことは、他のすべてのエージェント呼び出しを調整しているため、ツール呼び出しを承認または拒否するというタスクを伝えることです。そして、高レベルの計画を少し提供します。ステップ1、2、3、4、5というように段階的に分解しています。そして、異なる種類のツールを呼び出すという奇妙な方向に行かないよう、心に留めておくべき重要なことをいくつか示しています。

エージェントでは他のエージェントと統合する必要があることが多いため、出力の構造化方法を伝えています。API呼び出しを接着するようなものです。そのため、受け入れまたは拒否という特定の出力を、この形式で提供することを指定することが重要です。これは高レベルのセクションの一種で、最高のプロンプトが行うことの一つは、このマークダウンタイプのスタイル形式で分解することです。

ここに見出しがあり、後でプランニングの方法についてより詳細に入り、これはその一部の下位項目であることが分かります。プランの一部として、実際に3つの大きなセクションがあります。プランニング方法、プランの各ステップの作成方法、そしてプランの高レベル例です。

最高のプロンプトの重要な点は、タスクについてどのように推論するかを概説し、そして重要なのは例を提供することです。これがそれを行っていることです。これについて興味深いのは、英語を書くというよりもプログラミングのように見えることです。プランを指定するためにこのXMLタグのような形式を持っているからです。

LLMの多くがXMLタイプの入力でLHFでポストトレーニングされたため、LLMにとって従うことがはるかに簡単になり、より良い結果を生み出すことが判明しました。

ここにないこと、または多分これは彼らがリリースしたバージョンだけかもしれませんが、私がほぼ期待することの一つは、特定のシナリオを説明し、実際にそのシナリオの例の出力を提供するセクションがあることです。

それはパイプラインの次の段階にあります。本当ですか？はい。なぜなら、それは顧客固有だからです。すべての顧客には、これらのサポートチケットに応答する独自の方法があるからです。そして、多くのエージェント企業のような彼らの課題は、すべての顧客が少し異なるワークフローと好みを持っているときに、どのように汎用目的の製品を構築するかということです。

これは私が垂直AIエージェント企業が多く話している非常に興味深いことです。コンサルティング企業になることなく、すべての顧客のために新しいプロンプトを構築するような特別目的のロジックに十分な柔軟性をどのように持つかということです。実際、私は顧客間でプロンプトをフォークし、マージするという概念、そしてプロンプトのどの部分が顧客固有で、どの部分が会社全体であるかという、世界がまだ探求し始めたばかりの本当に興味深いことだと思います。それは非常に良い点ですね、Jared。

これはシステムプロンプトでプロンプトを定義し、次に開発者プロンプト、そしてユーザープロンプトがあるという概念です。これが意味することは、システムプロンプトは基本的に会社がどのように運営されるかの高レベルAPIを定義するようなものです。この場合のParahelpの例は非常にシステムプロンプト的です。顧客について特定のことは何もありません。

そして、そのAPIの特定のインスタンスを追加し、それを呼び出すとき、彼らはそれをすべて開発者プロンプトに詰め込みます。これはここには示されていませんが、それがPerplexityでの作業のすべてのコンテキストを追加します。RAQ質問を処理する特定の方法があり、Boldでの作業とは非常に異なります。そして、Parahelpにはユーザープロンプトがないと思います。なぜなら、彼らの製品はエンドユーザーによって直接消費されないからです。しかし、エンドユーザープロンプトは、Repletやゼロのようなもので、ユーザーがこれらのボタンを持つサイトを生成してくださいと入力する必要があり、それがすべてユーザープロンプトに入ります。それが現在浮上しているアーキテクチャの一種です。

コンサルティング企業になることを避けるという点について、このすべての周りのツールの構築には非常に多くのスタートアップの機会があると思います。例えば、プロンプトエンジニアリングを行った人なら誰でも知っているように、例や実用例は出力の品質を改善するために本当に重要です。

そして、Powerを例に取ると、彼らは各企業に特化した良い実用例を本当に欲しています。そして、彼らがスケールするにつれて、それを自動的に行いたいと想像できます。理想の世界では、顧客データセットから最良の例を取り出すことができるエージェント自体と、パイプラインのどこに属すべきかに直接それを取り込むソフトウェアが欲しいのです。手動でそれをすべて取り出し、すべてを自分で取り込む必要なしに。

それはメタプロンプティングへの素晴らしい導入です。これは私たちが話したいことの一つで、AI スタートアップと話すときに継続的に出てくるテーマだからです。

Tropierは現在のYCバッチで私が取り組んでいるスタートアップの一つで、YC企業のDuckyのような人々が多段階ワークフローからのプロンプトと戻り値の本当に深い理解とデバッグを行うのを本当に助けました。

そして彼らが発見したことの一つはプロンプトフォールディングです。基本的に一つのプロンプトが動的により良いバージョンの自分自身を生成できるのです。その良い例は、前のクエリに基づいて特化したプロンプトを生成する分類器プロンプトです。そして、実際に既存のプロンプトを取り、それがうまくいかなかったり、期待通りにならなかった例をもっと与えることができ、プロンプトを書き直すのではなく、生のLLMに入れて、このプロンプトをより良くするのを手伝ってくださいと言うことができます。そして、LLMが自分自身をとてもよく知っているため、奇妙なことにメタプロンプティングは今や誰もが使用している非常に非常に強力なツールになっています。

プロンプトフォールディングを行った後の次のステップは、タスクが非常に複雑な場合、例を使用するという概念があります。これは私がこのバッチで取り組んでいる企業の一つであるJasberryが行っていることです。彼らは基本的にコードの自動バグ発見を構築しており、これはもっと困難です。彼らがそれを行う方法は、専門プログラマーだけができるような本当に困難な例をたくさん与えることです。例えば、N+1クエリを見つけたい場合、今日の最高のLLMでもそれらを見つけるのは実際に困難です。それらを行う方法は、コードの部分を見つけ、それらをプロンプトに追加し、「これはN+1タイプのエラーの例です」というメタプロンプトに入れ、それから動作するようになります。

実際にそれについて散文を書くことが困難すぎる場合、例を提供するだけというこのパターンは、LLMが複雑なタスクについて推論し、より良く導くのに役立つため、本当にうまく機能することが判明しています。正確なパラメータを設定できないときでも、プログラミングにおけるユニットテストのようなものです。テスト駆動開発がLLMバージョンのようなものです。

Tropeがまた話していることの一つは、モデルは実際にあなたを助けたがっているため、特定の形式で出力を返すように指示すれば、必要な情報がなくても、あなたが聞きたいと思うことを実際に教えてくれます。そして、それは文字通り幻覚です。そこで彼らが発見したことの一つは、実際にLLMに本当の脱出口を与える必要があるということです。イエスかノーかを言ったり、決定を下すのに十分な情報がない場合は、でっち上げないでください。停止して私に聞いてください、と伝える必要があります。それは考え方として非常に異なります。

それは実際にYCでエージェントと行った内部作業で学んだことで、JaredがLLMに脱出口を与える本当に発明的な方法を思いついたのです。それについて話してもらえますか？

Tropeのアプローチは、LLMに脱出口を与える一つの方法です。私たちは異なる方法を思いつきました。それは、応答形式で、応答の一部が基本的にあなたという開発者への苦情になる能力を与えることです。つまり、混乱した、または不十分に指定された情報を与えられて、何をすべきか分からないということです。そして、それの良い点は、実際のユーザーデータでプロダクションでLLMを実行し、その出力パラメータで与えられた出力を見返すことができることです。私たちは内部的にデバッグ情報と呼んでいます。つまり、修正する必要があることを基本的に報告してくれるこのデバッグ情報パラメータがあり、それは文字通りエージェント開発者であるあなたが行う必要があるTo-Doリストになります。

本当に驚くべきことです。趣味やパーソナルプロジェクトで遊んでみたい人々にとっても、メタプロンプティングを始める非常にシンプルな方法は、プロンプトの同じ構造に従うことです。役割を与え、その役割を本当に詳細で素晴らしい批評とプロンプトを改善する方法についてのアドバイスを与える専門プロンプトエンジニアのようにします。心に描いたプロンプトを与えると、はるかに拡張された、より良いプロンプトを返してくれます。そして、しばらくその循環を続けることができます。驚くほどうまく機能します。

企業が製品でエレメントからより迅速に応答を得る必要があるときの一般的なパターンだと思います。数千億パラメータ以上のモデル、例えばClaude 3.5やGPT-o3のような、より大きく強力なモデルでメタプロンプティングを行います。そして、このメタプロンプティングを行って本当に良い動作するものを得て、それから蒸留モデルに使用します。例えば、FROで使用し、特に音声AIエージェント企業では、チューリングテストに合格するためにレイテンシが非常に重要だからです。エージェントが応答する前に長い間があると、人間は何かがおかしいと検出できるからです。

そこで、より大きなモデルから洗練されたより大きく良いプロンプトで、より速いモデルを使用します。それも一般的なパターンです。

また、あまり洗練されていないかもしれませんが、プロンプトがどんどん長くなり、大きな作業文書になるにつれて、使用しているときに、出力が望む通りでない方法や改善方法について考えられることをGoogleドキュメントにメモしておくことが有用だと分かりました。それらをメモ形式で書き、Gemini Proにメモと元のプロンプトを与えて、それらをうまく組み込むためのプロンプトへの多くの編集を提案するよう求めることができます。それは非常にうまく機能します。

もう一つのトリックは、Gemini 2.5 Proで思考トレースを見ると、評価を解析している間に、すべてのミスについても多くを学ぶことができます。私たちも内部的にそれを行いましたね？これは重要です。なぜなら、最近まで、API経由でGeminiを使用している場合、思考トレースを得られず、思考トレースはプロンプトの何が間違っているかを理解するための重要なデバッグ情報だからです。

彼らはAPIにそれを追加したばかりです。そのため、今では実際にそれを開発者ツールとワークフローにパイプバックできます。Gemini Proが非常に長いコンテキストウィンドウを持っていることの過小評価されている結果だと思うのは、効果的にそれをリプルのように使用できることです。プロンプトを一つの例に置いて、文字通りリアルタイムで推論トレースを見て、望む方向にどのように導くかを把握することができます。

JaredとYCのソフトウェアチームは実際に、デバッグなどを行うことを可能にする様々な形のワークベンチを構築しました。しかし、あなたの指摘通り、時にはgemini.google.comを直接使用し、文字通りJSONファイルをドラッグアンドドロップする方が良い場合もあります。特別なコンテナで行う必要はなく、ChatGPT自体でも完全に機能するように思えます。

これらすべては、YCのデータ責任者であるEric Baconに敬意を表したいことです。彼は私たち全員がこのメタプロンプティングやGemini Pro 2.5を効果的にリプルとして使用することを多く助けてくれました。

評価についてはどうでしょうか？私たちは1年間評価について話してきました。創業者たちが発見していることは何でしょうか？

私たちが1年以上これを言い続けているにも関わらず、Gary、評価は依然としてこれらすべての企業にとって真の王冠の宝石のようなデータ資産だというのが現状だと思います。Parahelpがプロンプトをオープンソース化することを喜んだ一つの理由は、彼らが実際にプロンプトを王冠の宝石とは考えていないと私に言ったからです。評価が王冠の宝石なのです。評価なしには、なぜプロンプトがそのように書かれたのか分からないからです。そして、それを改善することは非常に困難です。

抽象的には、YCは特に垂直AIとSaaSで多くの企業に資金提供していると考えることができ、XYZの知識労働を行っている人々の文字通り隣に座らない限り評価を得ることはできません。ネブラスカのトラクター販売地域マネージャーの隣に座って、この人が何を気にかけているか、これがその人の昇進方法、これがその人の気にかけていること、これがその人の報酬関数を理解する必要があります。

そして、あなたが行っているのは、ネブラスカの誰かの隣に座ったこれらの対面での相互作用を取って、コンピューターに戻り、それを非常に特定の評価に成文化することです。例えば、この特定のユーザーは、請求書が来た後にこの結果を望み、このトラクターの保証を尊重するかどうかを決定する必要があります。

一つの例を取るだけでも、それが真の価値です。みんな本当に心配しているのは、私たちは単なるラッパーなのか、スタートアップに何が起こるのかということです。そして、これは文字通りゴムが道路に出会う場所であり、あなたが特定の場所でそのユーザーを他の誰よりもよく理解し、それらの人々のために実際に動作するソフトウェアを持っている場合、それが堀なのです。これは、今日の創業者に必要な核心的な能力の完璧な描写のようなものです。文字通りあなたが言ったことは、このような企業の創業者としてのあなたの仕事であり、地域トラクター販売マネージャーのワークフローの詳細に狂信的に取り憑かれて、それを本当に得意になることです。

そして、ワイルドなことは、それを行うのが非常に困難だということです。あなたはネブラスカに行ったことがありますか？古典的な見解は、世界で最高の創業者は本当に素晴らしいクラックエンジニアで技術者であり、ただ本当に優秀であり、同時に非常に少数の人が理解している世界の一部を理解しなければならないということです。そして、数十億ドルのスタートアップの創業者という小さなスライバーがあります。

私はFlexportのRyan Petersonを考えています。本当に素晴らしい人で、ソフトウェアがどのように構築されるかを理解していますが、同時に彼は10年前に1年間で医療用ホットタブの3番目に大きな輸入業者だったと思います。

だから、それが奇妙であればあるほど、技術者である他の誰も見たことのない世界をより多く見ているほど、実際に機会はより大きくなります。以前にGaryが本当に興味深い方法でこれを表現したと思います。すべての創業者が前方配備エンジニアになったと言っているようなものです。それはPalantirまで遡る用語で、あなたはPalantirの初期にいたので、前方配備エンジニアがPalantirでどのようなものになったか、そして創業者が今それから何を学ぶことができるかを少し教えてもらえますか？

Palantirの全体的な論理は、当時Facebookと呼ばれていたMetaやGoogle、または当時誰もが知っていたトップソフトウェアスタートアップを見ると、Peter Thiel、Alex Karp、Stefan Cohen、Joe Lansdale、Nathan Gettingsなど、Palantirの元の創業者たちが持っていた重要な認識の一つは、Fortune 500のどこにでも、世界のどの政府機関にでも、アメリカ合衆国を含めて行くと、コンピューターサイエンスとテクノロジーを最高レベルで理解している人は、その部屋には決していないということでした。

そして、Palantirの本当に大きなアイデアは、彼らが非常に早期に発見したことは、それらの場所が直面する問題は実際に数十億ドル、時には数兆ドルの問題であるにもかかわらず、AIが話題になるずっと前でした。当時、人々は機械学習について少し話していましたが、当時は彼らはそれをデータマイニングと呼んでいました。世界はデータに溢れており、人々や物事や取引の巨大なデータベースがあり、それをどうすべきか全く分からないのです。

それがPalantirが今でもそうですし、そうでした。世界で最高の技術者を見つけて、実際に世界を理解するソフトウェアを書く方法を知っている人たちです。ペタバイトのデータがあり、干し草の山で針をどう見つけるかが分からないのです。

ワイルドなことは、約20年から22年後の今、私たちがますます多くのデータを持ち、何が起こっているかについてますます理解が少なくなっているということが、より真実になっただけだということです。そして、今LLMがあることは間違いではありません。実際にそれがはるかに扱いやすくなってきています。そして、前方配備エンジニアのタイトルは、具体的に国内テロを調査しているFBIエージェントの文字通り隣に座る方法でした。

彼らの実際のオフィスで彼らのすぐ隣に座って、入ってくるケースがどのように見えるかを見るのです。すべてのステップは何か？実際に連邦検察官に行く必要があるとき、彼らが送っているものは何か？面白いことに、文字通りWordドキュメントとExcelスプレッドシートですよね？そして、前方配備エンジニアとしてあなたが行うことは、人々が行わなければならないこれらのファイルキャビネットとファックス機械のようなものを取って、それを本当にきれいなソフトウェアに変換することです。古典的な見解は、三文字機関での調査を実際に行うことが、あなたの昼食の写真を撮ってInstagramに投稿し、すべての友達に投稿するのと同じくらい簡単であるべきだということです。それがある意味で最も面白い部分です。

そして、Palantirのそのシステムを通じて上がってきた前方配備エンジニアが、今実際にYCの最高の創業者の一部になっていることは間違いではないと思います。

Palantirは信じられないほど多くのスタートアップ創業者を輩出しました。前方配備エンジニアになるトレーニングが、これらの企業の創業者になるための正確に正しいトレーニングだからです。Palantirについてのもう一つの興味深いことは、他の企業はFBIエージェントと座るために営業担当者を送っていたのに対し、Palantirはそれを行うためにエンジニアを送ったということです。

Palantirは恐らくそれを本当に制度化し、プロセスとしてスケールした最初の企業だったと思います。そこで起こったことは、彼らがこれらの7桁、8桁、そして今では9桁の契約を非常に一貫して得ることができた理由は、髪と歯があって、そこに入って、ステーキハウスに行きましょうというような人を送る代わりに。それはすべて関係性で、1回の会議があり、営業担当者を本当に好きになり、純粋な人格の力を通じて7桁の契約をもらおうとする時間スケールは6週間、10週間、12週間、5年、分からないけれど、ソフトウェアは決して動作しませんでした。

一方、そこにエンジニアを置き、Palantir Foundryという彼らが今コアデータビズとデータマイニングスイートと呼んでいるものを与えると、次の会議は50ページの営業ドキュメントや契約や仕様などのレビューではなく、文字通り「よし、私たちはそれを構築した」ということです。そして、数日以内に実際のライブフィードバックを得ています。

そして、それは正直に言って、スタートアップ創業者にとって最大の機会です。スタートアップ創業者がそれを行うことができ、それが前方配備エンジニアが慣れていることであり、それがSalesforceやOracle、Booze Allenや大きなオフィスと大きな派手な営業担当者を持つ文字通り他のあらゆる企業を打ち負かすことができる方法です。弱い握手を持つ本当に良いエンジニアがそこに入って彼らを打ち負かすのはどうやってか？実際に、彼らが今まで見たことのないものを見せ、彼らを非常に聞かれていると感じさせるのです。それについて非常に共感的でなければなりません。実際に素晴らしいデザイナーで製品担当者でなければなりません。そして戻ってきて、ただ彼らを驚かせることができます。ソフトウェアは非常に強力で、あなたが見られていると感じさせるものを見た瞬間、その場でそれを買いたくなります。

創業者は自分自身を自分の会社の前方配備エンジニアとして考えるべきだというのが良い考え方でしょうか？

絶対にです。これを外注することは絶対にできません。文字通り創業者自身が技術的でなければならず、優れた製品担当者でなければならず、民族誌学者でなければならず、デザイナーでなければならないのです。2回目の会議で、あなたが聞いたことに基づいて作成したデモを見せる人が欲しいのです。

そして、彼らに「ワオ、こんなものは見たことがない」と言わせたいのです。そして私のお金を取ってください。

このモデルの信じられないことは、これが多くの垂直AIエージェントが離陸している理由です。正確にこれが理由です。なぜなら、これらの大企業のエンドバイヤーとチャンピオンと会議を持つことができるからです。彼らはそのコンテキストを取り、それを基本的にプロンプトに詰め込み、Palantirではもう少し時間がかかったかもしれず、エンジニアのチームがここにいたであろうが、わずか翌日にも戻ってくることができます。2人の創業者だけが入って、これまでに行われたことのない6桁、7桁の大企業との取引を成立させることができ、前方配備エンジニアプラスAIのこの新しいモデルで単に加速しているのです。

私が以前にポッドキャストで言及した企業のGiger MLを思い出します。彼らは顧客サポート、特に多くの音声サポートを行う別の企業で、2人の非常に才能のあるソフトウェアエンジニアの典型的なケースで、自然な営業担当者ではありませんが、本質的に前方配備エンジニアになることを自分たちに強制し、Zeptoとの巨大な取引を成立させました。そして、まだ発表できない他のいくつかの企業との取引も成立させました。彼らはPalantirモデルのように物理的に現地に行くのですか？

はい。そうです。彼らは取引を成立させた後、現地に行き、すべてのカスタマーサポートの人々と座って、ソフトウェアまたはLLMがさらに良く動作するように調整し続ける方法を見つけています。しかし、その前に、取引を勝ち取るために、彼らが発見したのは、最も印象的なデモを持つことで勝つことができるということです。

彼らの場合、RAGパイプラインで少し革新して、音声応答を正確かつ非常に低レイテンシの両方にすることができました。これは技術的に挑戦的なことですが、現在のLLMの台頭以前には、営業のデモ段階で既存企業を打ち負かすのに十分に差別化することは必ずしもできませんでした。

少し良いUIを持つ少し良いCRMを持つことでSalesforceを打ち負かすことはできません。しかし、今はテクノロジーが非常に速く進化し、この最後の5から10パーセントを正しくするのが非常に困難なため、前方配備エンジニアであれば、実際に最初の会議を行い、その顧客のために本当にうまく動作するように調整し、デモを持って戻り、「ワオ、他の誰もこれを実現しているのを見たことがない」という体験を得て、巨大な取引を成立させることができます。

それは、世界の3大物流ブローカーに7桁の契約を販売したHappy Robotとまったく同じケースでした。彼らはそのためのAI音声エージェントを構築しています。彼らは前方配備エンジニアモデルを行い、これらの企業のCIOと話し、非常に迅速な製品出荷を行っている人たちです。非常に迅速なターンアラウンドです。

そして、それが今離陸するのを見るのは信じられないことでした。6桁の取引から始まって、今では7桁の取引を成立させており、それは狂気的です。これはわずか数か月後のことです。つまり、それは信じられないほど非常に非常にスマートなプロンプトエンジニアリングで実際に行うことができることなのです。

各モデルがそれぞれ独自の個性を持っているように見えることが興味深いことの一つです。そして、創業者たちが本当に理解していることの一つは、異なることのために異なる人々のところに行くということです。実際に多く知られていることの一つは、Claudeはより幸せで、より人間的に操縦可能なモデルの一種です。そして、もう一つはLlama 4はより多くの操縦が必要なモデルです。それは開発者と話しているようなもので、その一部はその上にあまりRLHFを行っていないことの結果かもしれません。

実際に作業するのは少し粗いですが、実際に多くのプロンプティングを行い、少しRLHFを行うのが得意であれば、実際に非常によく操縦できますが、実際に作業するのは少し困難です。

私たちが内部的にLLMを使用していることの一つは、実際に創業者が誰からお金を取るべきかを見つける手助けをすることです。そのような場合、時には非常に直接的なルーブリック、0から100が必要です。0は決して彼らのお金を取らない、100はすぐに彼らのお金を取るという意味です。彼らは実際にあなたを非常に助けてくれるため、彼らのお金を取らないのは狂気的です。Harj、私たちはプロンプトを使用したスコアリングルーブリックに取り組んできました。私たちが学んだことは何でしょうか？

LLM、特に出力として数値スコアを得たい場合には、ルーブリックを与えることが確実にベストプラクティスです。80対90のように、どのように考え抜くべきか、そして何がどうなのかを理解するのに役立つルーブリックを与えたいのです。しかし、これらのルーブリックは決して完璧ではありません。常に例外があり、あなたはo3対Gemini 2.5でそれを試しました。

これは私たちが本当に興味深いと思ったことで、同じルーブリックを2つの異なるモデルに与えることができ、私たちの特定のケースで発見したのは、o3は実際に非常に堅固だったということです。それは本当にルーブリックに固執し、あなたが与えたルーブリックに合わないものを重く罰します。一方、Gemini 2.5 Proは実際に柔軟性においてかなり良好でした。それはルーブリックを適用しますが、なぜ誰かが例外かもしれないか、またはルーブリックが示唆するよりもより肯定的または否定的に何かを押し上げたいかもしれない理由をほぼ推論することもできました。

人を訓練しているときのようなもので、ガイドとしてルーブリックを使用してもらいたいのですが、より深く考える必要がある種類のエッジケースが常にあります。そして、モデル自体がそれを異なって処理するということは興味深く、それは彼らが異なる個性を持っているという意味です。o3は少し兵士のような感じで、確実にチェック、チェック、チェック、チェック、チェックのような感じでした。そして、Gemini Pro 2.5は高い能力の従業員のような感じで、「ああ、わかった。これは理にかなっていると思うが、この場合はこれは例外かもしれない」というような感じでした。それを見るのは本当に興味深いことでした。

投資家にとってそれを見るのは面白いです。時にはBenchmarkやThriveのような投資家がいて、「ええ、すぐに彼らのお金を取ってください。彼らのプロセスは完璧です。彼らは誰も無視しません。ほとんどの創業者よりも速くメールに答えます。非常に印象的です」というような感じです。そして、ここでの一つの例は、ただ圧倒されていて、時間の管理があまり得意でない多くの投資家がいるかもしれません。そのため、彼らは本当に素晴らしい投資家で、彼らの実績がそれを物語っていますが、返答が遅く、いつも圧倒されているように見え、おそらく意図的ではなく、偶然に人々を無視してしまいます。

そして、これはまさにLLMが対象とするものです。これらのいくつかのデバッグ情報は見るのに非常に興味深く、91ではなく89のようなものかもしれません。見てみましょう。

私にとって本当に驚きだったことの一つは、私たち自身が遊んでいて、最前線にいる創業者たちと時間の80から90パーセントを過ごしているように、一方では、これを議論するのに使う類推でさえ、ある種のコーディングのようなものです。実際、1995年のコーディングのような感じがします。ツールが完全にはそこにない。多くのことが不特定です。私たちは新しいフロンティアにいます。

しかし、個人的には、それは人をマネジメントすることを学ぶような感じでもあります。良い決定をするために知る必要があることを、どのように実際に伝えるかということです。そして、私がどのように彼らを評価し、スコアするかを確実に知ってもらうにはどうすればよいか？それだけでなく、改善は実際にそれを行っている人々が最も得意だと言う製造技術である改善のこの側面があります。それが90年代に日本車が非常に良くなった理由です。

そして、それが私にとってのメタプロンプティングです。分からない。勇敢な新世界です。私たちはこの新しい瞬間にいます。そのため、時間切れです。しかし、あなた方がどのようなプロンプトを思いつくか見るのが待ちきれません。そして、次回お会いしましょう。