たった一つのAIプロンプトで20万ドルの給与交渉をリハーサルした方法（コーディング不要）

この動画は、コーディング不要でデジタルツインを活用した交渉シミュレーションを構築する方法を解説している。複雑な企業環境での給与交渉や製品承認プロセスを事前にシミュレーションできるプロンプト技術を紹介し、GPT-4oとo3の性能差についても実例を通じて分析している。デジタルツインを用いることで、現実の交渉前に様々なシナリオを練習し、戦略を練ることが可能になる革新的なアプローチである。

How I Rehearsed a 0K Salary Battle with One AI Prompt (No Coding)

My site: substack: 1. Digital-Twin Super Prompt: A single, system-level prompt collec...

デジタルツインプロンプトの構築
プロンプトの詳細解説
プロンプト構造の分析
実際の交渉シミュレーション例
給与交渉シミュレーション
GPT-4oとo3の比較
まとめ

デジタルツインプロンプトの構築

数日前にワイはデジタルツインの設定について詳しい記事を書いたんや。かなり大規模で、100ページを超えるガイドを書いたと思うわ。要は、人々がそれを見て「これめっちゃ難しそうやん。こんなにページ数書いて。もっとシンプルにやる方法教えてくれや」って言うてきたんや。

「企業レベルの設定なんて持ってへんし、倉庫でロボットに歩き方教えてるわけでもない。Fortune 500の会社でもないんや。コード書かんでもデジタルツイン使いたいねん」って。そんで、ワイはそれを個人的な挑戦として受け取ったんや。

今日やっていくのは、自分専用のデジタルツインシミュレーションを設定するための実際のプロンプトや。今日のプロンプトを通じて、いくつかの目標があるんや。まず、プロンプトがどう機能するかを理解したいねん。これもシステムレベルのプロンプトの一つなんや。つまり、全体のプロセスやフローを歩いていくんや。シナリオを作って、一つのプロンプトで全部直接導いてくれるんや。どう動くか見ていこうや。

二つ目にやりたいのは、そのプロンプトを使って実際にした会話の例を見せることや。給与交渉の会話も出てくるで。時々事前にゲーム感覚でやりたい人もおるからな。それに、オフィス政治がどうシミュレーションされるかがわかる、典型的な製品承認の会話も見せるわ。

異なるモデルがこのシミュレーションにどう影響するかを見るのも面白いで。もう一つのひねりとして、このプロンプトを扱う時のChatGPT-4oとChatGPT o3の比較も見せるわ。これは実際、この二つのモデル間の実用的な現実世界での違いを見せてくれる、ワイが見た中でも最もクリアな例の一つや。

プロンプトの詳細解説

ほな、プロンプトに入っていこうか。ここにワイが構築したデジタルツイン・ステークホルダープロンプトがあるで。V2って名前をつけて、わかりやすくしたんや。このプロンプトが動くようになるまで何回も繰り返したからな。どう機能するか説明していくわ。

前回と同じように、ワイはウェブブラウザのPerplexityで便利なアシスタントを立ち上げて実行してるんや。前回やった時にいくつか質問があったから、念のため言っとくけど、これはPerplexityのウェブブラウザで、Perplexityがブラウザと一緒に起動するAIアシスタントなんや。便利やと思ってるで。記事も書いたしな。

複雑なページで何が起こってるか理解しようとしてる時みたいな状況では、本当に役立つと思ってるんや。見ての通り、プロンプト全体はかなり大きいで。プロンプトの最後までスクロールしてみると、「うわ、めっちゃあるやん」って感じになるで。一つずつ見ていこうや。

まず、役割を設定するんや。これは驚くことやないで。前に話したことあると思うけど、役割を設定するのは特定のセマンティック空間を呼び出す方法なんや。次に、ミッションを定義するんや。この場合、4つの部分からなるミッションがあるんや。これが、後でこの動画で見ることになるけど、o3が4oより良いパフォーマンスを示す理由の一部なんや。

一つ目、ワイの状況に必要な現実的な多ステークホルダー交渉のために必要な情報をワイから引き出すことや。これは給与交渉専用のプロンプトやないからな。実際に動かしたいシミュレーションを設定するのを手伝ってくれるスーパープロンプトなんや。

二つ目、一度に一つの質問だけすることや。LLMがあまりにも多くの質問をしてくると圧倒されるからな。だからワイはそれを含める傾向があるんや。三つ目、答えを確認すること。そして四つ目、答えが集まったら、ここが核心部分なんやけど、確認された詳細を全て埋め込んだ実行可能なシミュレーションプロンプトを生成する必要があるんや。

ユーザーが外部ファイルを提供してない場合は、インラインデータテーブルを含めて、明確な出力ルールと開始区切り文字を含める必要があるんや。そして五つ目、プロンプトをプレーンテキストとして書き出して、すぐにシミュレーションモードに移行することや。

これが実際にV2に移行した理由の一つなんや。このプロンプトで遊んで作業してる時に、AIに「君について学んで情報を集めてる」から「よし、情報は集まった。今度は実際にシミュレーションを実行してデジタルツインになる時や」っていう風に確実に移行させるのが difficult やったんや。この場合は複数のデジタルツインやけどな。

ここまでは順調や。面白いのは、プロンプトの最後に到達すると、すぐにツインを呼び出すことや。下に行って、これが何を意味するか見ていこうや。でも、ツインに何を求めるかについて話してる五番目の部分と、各ツインの開始ステートメントについて話してるここの最後の部分との繋がりを見てほしいんや。

それが始め方やからな。これがLLMがこのプロンプトを読む時にトークンを結び付けて、「よし、キャラクターを維持せなあかん。全てのツインの開始ステートメントや。あっちで見たで」って感じで、「これやってる」って感じになるんや。これは大きなプロンプト全体でメモリ管理をやってる感じで、これがどう機能するかの素晴らしい例なんや。

この時点で、LLMはまだ実行に必要な全てを持ってないんや。質問スクリプトに入っていこうか。一度に一つずつ情報を引き出すものが必要やからな。明らかに最初のやつは「どんな状況を交渉してるんか？参加者をリストアップして」や。どれも特に驚くようなもんやないで。

成功指標や勝利をどう特徴づけるかをリストアップして。どのツインを演じるんか？ちなみに、これはツインを演じたくない場合でも動くで。だから、LLMにゲームをさせて台本を読みたいだけなら、「どのツインも演じへん。全部君が演じてくれ」って言えるんや。そしたらそうしてくれるで。

タイムアウトまで何ターンか？これは多ターンの会話としてフレーム化されてるんや。だから3って言ってもええし、6って言ってもええし、好きな数字を言えるで。取引や給与の重要な数字を提供するか、ファイルを添付してくれ。そうでなければ、大体の数字でええで。給与交渉やったら、明らかに給与やな。

でも、後で見せる製品サンプルをやった時は、給与の部分は無視して「取引」って言ったんや。だから取引データとか、パイプラインの状況とか、そういうのを入れたんや。これは全部作った数字やで。自分が欲しいデータを自由に追加できると感じたわ。

これはやや柔軟なユーザー応答プロンプトであることも指摘しとくわ。大量の情報を入れられる場所になるように設計されてて、サンプルチャットの一つで、300語の情報を詰め込んだのを見るで。それはプロンプトが受け取るようにデザインした以上の量やったけど、プロンプトはそれを処理できたんや。

制約とポリシー、これはどんな交渉でも常に重要や。それから出力の好み、記録スタイル、文字制限などや。その時点で、実際に確認フレーズを定義するんや。なんで確認フレーズを定義するんか？なんで「ユーザーが各質問に答えた後、これが君の言うべきことや」って言うんか？

まず第一に、確認フレーズを定義するのは、この世界構築を正しくするために、ユーザーが実際に何を言ったかを理解することが重要やからや。多くのプロンプトでは、プロンプトを書いて、二回目のターンで何とか理解できるし、改良しようとしてる場合は何とかなるんや。でも世界構築やデジタルツインのプロンプトでは、世界が最初から正しくないとあかんのや。だから理解してもらわなあかんのや。だから意図的に戻って来て積極的に聞いて要約させるんや。

積極的に聞いた。情報を全部集めた。これで実行可能なプロンプトテンプレートに入るで。全ての答えが確認されたら、プレースホルダーを埋めて出力してくれ。「君はデジタルツイン交渉アリーナのホストや」って。

ある意味、「なんでこれがここにあるんや？目的、モード、指示、参照。もう十分長く話してるやん？なんでこれが続くんや、ネイト？」って思うかもしれへんな。なんで続くか教えたるわ。続くのは、このプロンプトにある程度の一貫性を焼き込もうとしてるからや。目的、モード、努力レベルを与えてるんや。ちなみに、これは違う設定にできるで。ワイは高に設定してるけど、実行前にこのプロンプトを変更して低に設定したかったらできるで。

シナリオも設定できるし、ここにハードコードすることもできるし、君の答えに基づいてシナリオを埋めてくれるで。そしたら君の答えと参照に基づいて、残り全部を出力してくれるんや。そうしながら、会話の流れに、続けるのに必要な全てを文字通りエンコードしてるんや。

ここの小さな部分は、会話のアンカーとして機能するという重要な仕事をしてるんや。会話のアンカーとして機能して、残りの世界構築が動くようにしてくれるんや。デジタルツインのことをやったことがあるなら、パーソナリティが流れてしまうのが問題になることがあるって知ってるやろ。これはそれをコントロールする方法の一部なんや。

始める前にこの明確な反復を持つことによってな。最終的に、始める。区切り文字の直後に各ツインの開始ステートメントを挿入する。これがプロンプトや。これが実行するものや。これが見せるものや。

先に進む前に、実際に下に行って、これを原則として分解したんや。それと要点も分解したんや。だから要点と原則を見て、実際の例に行く前に、なんでワイがやったことをやったのか理解してもらいたいんや。

原則その一、アイデンティティロックイン。デジタルツインであることを確実にして、潜在空間のその角を呼び出したいんや。決定論的状態マシンや。これは入力を収集するパスで固定された番号付き質問スクリプトを意図的に作成してるっていう、かっこいい言い方なんや。

これはオープンエンドのチャットを、非常に繰り返し可能で、異なる未来のタイムラインについて学ぶために使いやすさのためにプロセスを意図的にシフトできるものに変えるんや。だから給与で210で始めるタイムラインをゲーム化したいとか、180で始めるタイムラインとか、150で始めるタイムラインとか、全部別々のチャットでできるんや。そしたらその会話がどう展開するかの本当にタイトで制御されたシミュレーションが得られるんや。

同様に、就職面接をやってる場合（これにも使える）、複数の異なるチャットで「もしこう答えたらどうなるか？」をゲーム化できて、他のステークホルダーがどう反応するかを見て、実際にそれをゲーム化して、もっと簡単に考え抜くことができるんや。人間は複数のステークホルダーがいる全体のデジタルシナリオを高い忠実度で頭の中でシミュレートするのが得意やないんや。これがこのプロンプトが設計されてることなんや。

段階的開示。一度に一つの質問をすることについて話したな。エコー確認ループ。言い換え。積極的に聞く。積極的に聞くって言った方が良かったかもしれん。明示的出力契約。これがここで説明した契約で、議論の条件を設定するんや。「これが君の目的、これが君のモード、これが君の努力、これが君の指示、これが君の参照、これが君の出力」って言うんや。デジタルツインの作業をする時は、それについて明確で明示的であることが本当に重要なんや。

そしてハンドオフに辿り着く。必要なデータを全て実行可能ブロックの中に埋め込む。これがワイが抱えてた課題の一つで、これがV2と名付けた理由なんや。実行可能ブロックの中に全てのデータを入れて、全部集めて、同じプロンプト内で実行させるのは難しいんや。それをやらせるための鍵の一つは、契約のその反復について非常に明示的であることと、何を集めてるかについて質問で明示的であることなんや。

だからここを振り返って見ると、ここの質問設定で、これら9つの質問で何が欲しいかについて非常に明示的になってるんや。そして実行可能である必要があることを指定してて、今始める必要があることを指定してるんや。モデルに選択肢を与えてないんや。「これが全ての情報で、今すぐ始めなあかん」って言ってるんや。それは非常に意図的やったんや。

コンテキストスイッチングはモデルの開始手順を非常に意図的に呼び出して、最初の手順に何を期待するかを定義するんや。これがモデルがその空間に入るのを助けるんや。ここの上で「開始ステートメントを作る必要がある」って言ってるんや。いろんな方法で始められるからやけど、開始ステートメントって言うことで、モデルが予測可能な方法でシミュレーション空間に入れるんや。

それを空白にしたら、モデルに好きなように開始する白紙委任状を与えることになるんや。そんなんは予測可能なシミュレーションビルダーには要らんのや。実際に少し予測可能性が欲しいんや。そしたら変数を挿入して学べるからな。

そこから視覚的解析と境界変数に入るんや。ユーザーはラウンドを設定できるし、文字制限を設定できるし、区切り文字みたいな非同期ガーターを使ってるから、実際に何が起こってるかを簡単に見ることができるんや。これらが素晴らしい原則やって言うつもりはないで。特別な非同期ガーターを使った「今すぐ始める」が、ただの「今すぐ始める」よりもなんか魔法的やって言うつもりはないんや。そうやないで。

でも確実に読みやすいで。ワイが説明してきたみたいな大きなプロンプトを読んでる時は、きれいなガーターと箇条書きリストがあるのは時々いいもんや。最後に、失敗モードのためのエラールールがあるんや。エラールールの一部は既に指摘したで。ここを振り返ると、隠れたエラールールの一つは確認フレーズなんや。

問題があったら見えるで。ユーザーの答えの言い換えが正しいから、戻って来て教えてくれるんや。でも他のもあるで。実行可能プロンプトが提出された後は、それ以上のセットアップ質問をするなとか。永遠に続かないようにスコープを絞ってるんや。キャラクターを維持することを要求してるんや。

詳細を保持することを確実にしたいんや。一度に一つの質問だけすることを要求してるんや。たくさんの制約を与えてるんや。

プロンプト構造の分析

構造について話して、システム役割宣言から始めるのは古典的なやり方や。ミッションに移るのが正しい次のステップや。ちなみに、これらは他のプロンプトでも使える大きなプロンプト構造なんや。このスーパーマクロプロンプトだけやなくてな。

「ほら、これがワイのシステム役割で、君を潜在空間に移動させる。これがワイが君に持ってるミッション。そしてこれが君に関わってほしいコンテンツ」って感じで始めたら、この場合はスクリプトやけど、多くの異なるプロンプトでいい場所にいることになるで。

応答がどう機能してほしいかをフレーム化したら、ワイの場合は確認フレーズテンプレートやけど、君のプロンプトでは全然違うものになるかもしれん、それは本当に本当に役立つで。

最後に、こんなスーパープロンプトをやろうとしてて、契約と始め方を指定したら、最後に実行可能プロンプト契約を指定して、モデルにどう始めてほしいかも指定したら、プロンプトが実際に成功裏に実行される確率が上がるんや。

細かい部分で喜びを追加することはスキップするで。非同期について話したし、マークダウンについても話した。ワイが物事を綺麗にできるのを嬉しく思ってくれるやろ？これらの部分がどう互いを強化するかについて簡単に話すで。

固定質問順序が決定論的状態マシンを強化するんや。ビルダーがスクリプトから逸脱することは決してなくて、常に同じ方法で質問を受け取るんや。その点でオートマトンのように扱えるんや。唯一の違いは、その背後にあるLLMの力で、それは本当に面白いんや。例でo3対4oがどう違うかを見るからな。

これを教える場合（ワイの動画を見てる人の中にはワイの作品を他の人に教える人もいて、それは素晴らしいことや）、段階的開示の原則とテンプレート整合性の重要性を人々に思い出させたいんや。プレースホルダーに注意深くしてくれ。ワイがプロンプトで見せたようなチェックアンドバランスなしに、一度にモデルに多くを求めすぎることに注意してくれ。

契約を反復するように求めることなしに、君に戻って来る時に要約で具体的であるように求めることなしに。成功するためにプロンプトが必要とするトークン足場を与えてるんや。

最後に、潜在的な落とし穴。制限を与えてることを確実にしたいんや。だからそれは、ワイらが見るように、実際にはモデルが実践的に到達する傾向があることの一つで、ここでは明示的にはやってへんのや。配信できない応答にモデルを過度にコミットさせたくないんや。

もしもっとファイルを追加する場合に使いたいかもしれんこのプロンプトをより強化した別の例は、モデルがファイルコンテンツをただスキップしないように、ファイルについて2〜3行で重要な数字を要約するようにモデルに強制することや。だから本質的に、達成しようとしてることに応じて行える調整として考えてもらえるような小さなことがあるんや。

もう十分長くやったで。o3を使ったデジタルツイン交渉ビルダーv2に移って、会話がどう進んだか見ていこうや。

実際の交渉シミュレーション例

ここにいるで。説明した通りにプロンプトを実行するんや。交渉してる状況は製品ピッチ、LLMからSQLプロジェクトや。理解してくれた。戻って来てくれた。「これがワイがピッチしてる相手や。CEO、CTO、CFO、ディレクター、ワイとCROがここにいる」って。ワイは製品を構築して立ち上げる承認が欲しいんや。それがワイの目標や。ワイはこういう状況にいたことがあるんや。質を評価できるように、よく知ってることを選んでるんや。

次の質問。どのツインを演じるんか？ワイがワイ自身を演じて、製品ディレクターになるわ。素晴らしい。タイムアウトまで何ターン？3ラウンドにしよう。ほとんどのCEOはそれ以上は我慢せんからな。

そんでワイはカーブボールを投げたんや。これはプロンプトで計画されてなかったんや。ワイの製品について300語投げて、「これがワイが彼らにピッチしたことや」って言ったんや。この想像上の製品がどんなに素晴らしいかについて全部やで。これが例やし、数字が作り物でもワイは大丈夫やった。これがワイのQ3ロールアウト要求や。

了解。次の質問。重要な数字を提供してくれって。基本的にワイは、ここの数字に拘ってもいいって言えたけど、この場合は取引について考えたかったんや。それがシミュレーションにとって重要やと思ったからな。B2B SaaSでのほとんどのスイート会話は、ある程度取引に関係してるからな。

ワイは「企業クライアントとの100万ドルの取引を追ってる。過去6ヶ月でパイプラインが鈍化した」って言った。よし、素晴らしい。追ってる重要なデータはこれや。反復してくれた。異なるキャラクターについて話すように求められた。

だからこれは基本的に欲しいキャラクターを作り上げるんや。わからん場合は、推測して当てなあかん。これらを作るのは楽しかったで。フィクションやけど、もっともらしいやろ？CTOはスケジュールを守ることを心配してる。エンジニアリング部門のディレクターはやや敵対的や。コア製品で失敗してると思ってるからな。

CFO、彼女はクローズ率とパイプラインを心配してる。CEO、彼はビジネスマンや。企業を信じてるしAIも大好きやけど、どう動くかはわからん。これらは全部非常にもっともらしくて、ワイは昇進が必要なんや。確実にそんな立場にいたことがあるからな。

そんでそれは「オープンな法的または承認の問題は何か？」って聞いてくる。めっちゃシンプル。LLMとデータプライバシーの周りにオープンな法的問題がある。それに使用量の価格設定に関するオープンな質問もある。それはもっと広い意味で大きな問題や。別の動画やけどな。

反復してくれて、ワイは「スクリプトスタイルの記録を生成してくれ。デブリーフの制限を500語に設定して。話す余地を残しといて」って言った。今度は契約を反復するで。これは契約や。書いてる、全部書いてて、開始ステートメントから始まる。第1ラウンドを今すぐ始める。そしてそうしてくれる。

だからCEOが条件を設定する。CTOは彼のキャラクターに沿って「実行可能やけど、心配や」って言う。企業の見込み客が尋ねる。アイデアは伝わったやろ。今度はワイの番や。

ワイは答える。「聞いて、市場で負けてるから、これをやらなあかん。強いAI機能は魅力を追加できるし、CROのSOC 2への懸念と組み合わせたら、いくつかの取引の行き詰まりを解消できるはずや」って。そんで前に進む。詳細は全部読まへんで、心配せんといて。

第2ラウンドに入って、役割を正しく演じてるのが見えるで。そんでワイは交渉し始める。「聞いて、新規顧客だけをRetry

fdEdit

見るべきやない。既存の拡張収益を見るべきや」って言い始めるんや。前に進んでる。これは第3ラウンドや。終わらせなあかん。

CROは基本的に「よし、拡張収益について話してるなら、ワイも乗れるかもしれん」って言う。お金を心配してたCFOは「よし、それがワイにとってそれを解除してくれる」って言う。

最後に、スコアカードをくれるんや。「部分的な承認を得た」って言う。ツインのリアリズムについて自分自身にスコアカードを与えて、デブリーフをくれるんや。何にかかってたんか？どこで緊張が表面化したんか？どう機能したんか？

これがこの全体の演習の最も有用な部分やと思うんや。就職面接みたいな異なるシナリオをゲーム化したい場合、こんな感じでパフォーマンスについてのデブリーフを得られるからな。めっちゃクールやと思うで。

給与交渉シミュレーション

次に、実際に就職活動のアリーナに入って、給与交渉の実例を見ていこうや。就職活動の最終段階やからな。

よし、戻って来たで。このプロンプトをもっと詳しく再実行するつもりはないで。アイデアは伝わったやろ。異なる状況を通過した。今度は給与交渉や。

より小さいグループ、人事部長、CPO、そしてワイや。勝利は金額や。もっと欲しいんや。6ラウンドある。そしてワイの現在のオファーを与える。完全に作った数字やけど、全く非現実的やないで。

そして「了解した」って言う。パーソナリティを与える。CPOは苦労して鍛えられた男や。人事はポリシーに従いたがる。セントラルキャスティングから出て来たみたいに聞こえるのはわかるけど、楽しんでるんや。

そして指示を与える。これも全部、デジタルツインの世界の忠実度を設定するのに必要なんや。そんで今まで使ってきたものを全部印刷し始める。知ってる全てのもの、これまでの全てのものを印刷する。第1ラウンド開始。

ワイが言ったこと、CPOが言ったこと、人事が言ったことに基づいて開始ステートメントを与えて、そんでここから進むように求める。基本的に、彼らはノーって言う。だからワイは「ほら、これは市場平均を反映してる。これは正当や」って言う。

そんで彼らは少しシフトし始める。財務と承認を問題として持ち出す。人事は本当に心配してる。ワイの番や。だからワイは「よし、エクイティとボーナスで少し遊びたい。給与を下げたらどうや？」って言うんや。

これは実際に多くの給与交渉がどう進むかなんや。でも実際にやり抜く機会は得られへん。デジタルツインを持つ正確な理由は、管理された環境でこういうことができることなんや。異なる数字でこの全体をもう一度シミュレートして、物語がどう進んだかについて異なる感覚を持って歩き出すことができるからな。

よし、だから製品ディレクター、CPOと人事部長が戻って来て、近づいてることについて話し合う。譲歩台帳を保持してるのが大好きや。実際にどう進んでるかが見えるからな。現実でそれが真実やったらええのになあ。これがこのシミュレーション環境で簡単になる一つの方法や。

エクイティの条項について議論してるんや。「雇用期間に依存するより多くのエクイティの条項なら一緒に生きられるけど、CPOのエクイティが同様に結び付けられてないのに、製品収益目標に依存させるのは合理的やないと思う」ってワイは言う。

そんでCPOは本物のCPOがする傾向があるように質問を避けて、そんで先に進んで「いいや、それはせんわ」って言う。今、合意に近づいてる。見ての通りや。

結局、唯一の問題は「財務が押し返したらどうするか？」ってことや。そんでワイは財務がどう押し返すかについて賢いアプローチを提供する。どうするんか？どう扱うんか？

そんで彼らが戻って来て「よし、基本的に取引ができた」って言う。ワイは「取引を成立させよう」って言う。そんでスコアカードをくれる。給与をくれる。どう進んだかについてのデブリーフをくれて、ワイがやるであろう作り物の次のステップみたいなのをくれる。

これが最も有用な部分やと思うんや。財務抵抗をどう扱ったかについて話し合う。地域市場データでアンカーして、役員インセンティブとの同等性を主張したのが本当に賢かったって感じで話し合う。

フィードバックをくれるだけやし、その時点で「もっと批判的なフィードバックをくれ。もっと強く押してくれ」って聞けるし、そうしてくれるで。

GPT-4oとo3の比較

最後に見せたいのは、この全く同じシナリオをトークン単位で実行したらどうなるかや。同じような、最後まで同じ答えやけど、異なるモデルを使ったんや。だからChatGPT-4oを使いに行くで。

よし、ここにいるで。ChatGPT-4oが上にある。再実行するつもりはないで。これらは全部全く同じや。全く同じ。全く同じように設定した。うん。素晴らしい。行こう。

そんで契約全体を印刷して開始する。4oで即座に気づくのは、4oの方がパーソナリティがあることや。CPOの話し方を見てみい。「ワイはこのゲームを長くやってて、率直に言うわ。君が適切な人やと思うけど、ファンタジー野球の給料は払わへん」って。

それは4oの言語や。それはo3は絶対にやらへん。だからパーソナリティの違いがすぐに飛び出すんや。できるだけ戻る。可能な限りトークン単位で同じことを使ってるんや。だからモデルの違いに焦点を当てるんや。

CPOはパーソナリティを持ち続ける。人事部長は非常に当たり障りのないままや。前に進んで、ワイは「よし、交渉できる。調整できる」って言う。また、o3の例でやったのと全く同じに保ってるんや。

そんでCPOがワイを褒め始めるんや。それは現実では起こらんし、モデルがo3ほど賢くないっていう最初の兆候の一つなんや。これはCPOにとって少しキャラクターから外れてるけど、非常に非常におしゃべりを続ける。

そんで同じ返答をするんや。面白いのは、テストを可能な限りクリーンに保つために同じ返答をすることに決めたことや。でも条項について話してた時にその返答をしたのに気づくやろうけど、4oはここで条項について話してないんや。

だからこれはワイが文字通り、モデルのテストを可能な限りクリーンに保つために全く同じトークンストリームを保つためのちょっとしたカーブボールを投げてるんや。

CPOが戻って来る。人事は理解する。面白いことに、これはモデルが本当に分岐し始める場所なんや。彼らはただ同意するんや。それはo3では起こらんかった。

この例を見てのワイのトップの要点の一つは、4oはデジタルツインシナリオであまりにも同意的すぎることで愚かさを示すってことや。4oでこれをシミュレートしてたら、これらの交渉がどれだけタフになりうるかについて間違ったアイデアを持って歩き去ることを心配するで。

o3は給与交渉が時々どれだけ深い雑草に入るかをシミュレートするのに、はるかに良い仕事をしたと思うんや。そしてここでワイはただ「取引を成立させられる」って言うんや。彼らは基本的にワイが欲しがってたものをくれたからな。

歩き出すと、ワイがより多くの現金を得たのが見えるで。オファーは190やったけど、194やなくて200で歩き出したんや。基本的に、モデルの愚かさを文字通りドルで測ることができるんや。4oはo3がワイのために留保できた6000ドルをくれたんや。o3の方がより鋭い交渉者やったからで、シミュレートしようとしてる時には実際により良いんや。