AI Models about to BREAK the markets(市場を破壊寸前のAIモデル)

AIベンチマーク
この記事は約18分で読めます。

この動画は、AI安全性の専門家ダン・ヘンドリックスが紹介したProfit Arenaベンチマークについて解説している。同ベンチマークは、AIモデルの予測能力を実世界のイベント予測で測定し、GPT-5やo3といったOpenAIモデルが予測市場を上回る成果を示していることを報告している。動画では、AI予測能力の向上が金融市場に与える潜在的影響と、強化学習を通じた更なる能力向上の可能性について考察している。

AI Models about to BREAK the markets
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

AIが市場を破壊する寸前

今朝、AI安全性ミームがこんなこと言うてたんや。AIは記憶して反芻するだけやって。ほな、相棒よ、どないして俺が人間より文字通り未来を予測できるんか説明してみいや。これはProfit Arenaの投稿をダン・ヘンドリックスがリツイートしたもんを、俺がこのYouTube動画でリツイートしとるみたいなもんやな。

でも待って、待って、待って。これからええとこや。これ重要やねん。ただのリツイートの連鎖やないで、約束するわ。ダン・ヘンドリックス、この人はAI安全性センターの所長で、xAIとScale AIのアドバイザー、AI分野の博士号持ちやねん。つまり、ダン・ヘンドリックスはAI安全性の人らの一人なんや。彼はAI安全性センターの専務理事をやってて、彼らは「人類最後の試験」の背後にある主要グループやった。確か、カリフォルニア州でAIに関する法案を制定しようとしてた時の推進で大きな役割果たしてたと思うわ。最終的にその法案は否決されたけどな。

でも彼が言うてるのは、新しいベンチマークでAIが箱から出してそのままで、予測市場と同等かそれ以上に未来の世界の出来事を予測できることを示してるっちゅうことや。彼はProfit Arenaベンチマーク・リーダーボードについて話してるんや。

Profit Arenaは、俺が調べた限りやとAI安全性コミュニティとは何の関係もない。独立したスタンドアローンなもんや。予測知能のライブベンチマークなんや。知っての通り、最近俺はいくつか違うタイプのAIベンチマークを取り上げてるんやけど、古いやつはもう役に立たんか、簡単にゲーミングできるようになってしもてるからな。

実際、俺らが探してるもんを本当に見せてくれへんのや。AIの能力を真に示してくれへん。AIが多肢選択問題で点数取ったり、質問に正しく答えたりするんが、真の知能の証なんか、それとも単に訓練データから答えを引っ張り出してるだけなんか。最近出てきてる新しいベンチマークはほんまに現象的や。これらのモデルが実際に何ができるかを真に示してくれるっちゅう点で非常に興味深いねん。

ベンチマークと呼ぶんが最適な言葉やないかもしれんな。例えば、AI villageは信じられへんと思うわ。ベンチマークと呼ぶかどうかわからんけど、非常に重要や。AIの能力がどれだけ速く成長してるかを示してくれる。

ClaudeがポケモンをプレイしたりGeminiがポケモンをプレイしたり、今度はGPT-5もポケモンをプレイするっちゅうのも、ええベンチマークやと思うわ。ただし問題もあるねん。これらのモデルがポケモンと相互作用できるように人間が周りに作る足場に本当に依存するからな。でもそれらは大規模言語モデルの能力の成長を示す非常に興味深いベンチマークや。どれも完璧やないけど、知性、機械知性を測定するアプローチの創造性の爆発を見るのは面白いわ。

AIの予測能力と市場への影響

で、AIはどれくらい未来を予測できるんや?ちなみに、GPT-5とo3がモデルの1位と2位になってることに注目してや。すぐにそこに戻るからな。

みんなも知ってると思うけど、未来に何が起こるかを知ることができるっちゅうのは、株式やその他いろんなもんに非常に効果的に投資できるっちゅうことや。実際、悪名高いナンシー・ペロシトラッカーっちゅうのがあるねん。ナンシー・ペロシは合衆国の議員で、信じられへんような投資成績を持ってるんや。まるで未来に何が起こるかを知ってるみたいやねん。これは冗談やけどな。実際に知ってるんや。どんな法案が議会にかかってて、どんな法律が通るかを知ってるからな。

で、疑惑やけど、疑惑って言わなあかんねん。訴えんといてや。未来の出来事の知識に基づいて投資してるっぽいねん。これが合法なんかって思うやろ?合法や。なんで合法なんかって思うやろ?誰も知らんねん。ちなみに、これは政治的なことやないで。彼女は政治の他の皆と同じくらいええか悪いかや。好きに解釈してや。

これは単に、出来事の事前知識を持って、特定の出来事を正しく予測できることが超能力やっちゅうことを示すためやねん。この場合で言うたら、ほぼ全てのヘッジファンドを上回ることができたんや。めちゃくちゃ賢い人らがお金を取引して、ニュースを追いかけてるのに、特定のことをより良く予測できる人に負けて、完全にやられてしまうんや。

見ての通り、彼女のリターンは100%を超えてるのに対して、同期間のS&P 500、つまり投資できる大手企業のほとんどをカバーする大きなインデックスは18%に座ってる。完全に圧倒してるわけや。ちなみに、これは左対右やないで。どちら側もこの種の取引を違法にしようとしてるようには見えへんからな。

俺らにはPoly Marketみたいなもんもあって、世界中のさまざまな結果に賭けることができる。世界的な紛争、選挙結果、Fed決定、スーパーボウル結果、ビットコイン価格のパフォーマンス、イーロン・マスクのツイート数なんかにもな。正しく当てたら金儲けできるんや。

で、それがProfit Arenaに戻ってくるんや。これは単にクールで特定のことを予測できるっちゅうもんやないっちゅうことを明確にしたかったんや。これは巨大なことで、残念ながら俺らの資本市場の多くが何らかの形でこの上に築かれてるんや。つまり、結構大きな問題やねん。

もし何かが人間を超える予測能力を持てるなら、それは結構大きな問題や。俺らが慣れ親しんだ多くのもんを壊してしまうかもしれへん。例えば、ここにはさまざまなモデルの特定の出来事に対する予測があるねん。何カ国が暗号資産準備を作るか?これもProfit Arena、俺らが話してるベンチマークやで。

見ての通り、GPT-5、Grok、Geminiが全て確率でこのことが起こる可能性を予測してるんや。ハリケーンウェンディのカテゴリー、シンシナティプロフットボールの正確な勝利数、様々な政治候補者、MTV Video Music Awardで誰がパフォーマンスするか。DeepSeekはマイリー・サイラスやと確信してるみたいや。めちゃくちゃ確信してるねん。変やな。

見ての通り、それがその予測が締め切られる日付や。結果を見せるためにダークモードから切り替えなあかんけど、これがProfit Arenaのリーダーボードや。誰が最高の予測者か?ブライアスコアを使ってるねん。

ブライアスコアは予測と実証的結果分布の間の平均二乗差を計算することで、確率的予測の統計的精度を測定するねん。重要なことは、これは単に間違いか正しいかやないっちゅうことや。何かが起こる確率を与えて、そのスコアがどう測定されるかやねん。

それがブライアスコアや。でも、後でもっとドル基準のROI基準、リターン基準のスコアもあるねん。ちょっと待ってや。それを見る方がもっと興味深いと思うからな。

見ての通り、GPT-5とo3は非常に正確や。1位と2位にいるねん。3位はGemini 2.5 Pro、続いてGPT-4.1や。基本的に、緑色のがOpenAIモデルや。見ての通り、みんな非常にええ成績や。Gemini 2.5 Proが3位で、最初の2つのOpenAIモデルにわずかに遅れてるねん。これが最高のGemini、つまりGoogle DeepMindモデルや。

他のは低いけど、それは当然や。実際、他のは見えへんけど、FL、いや実際にはGemini 2.5 Flashがあるな。つまり、Gemini 2.5 Flashや。でも、やっぱり俺らはGemini 2.5 Proを見てるんや。Anthropicのモデルはここにないみたいやな。

でもGrok 3 MiniとGrok 4が非常に高いことに注目してや。80.81と80.26で非常に立派な成績やねん。興味深いことに、中国のモデルは少し低いけど、オープンソースの中国モデル、Kimmy K2、DeepSeek Chat V3、Qwen 3、これらは全てGemini、Grok、最高のOpenAIモデルの直後にいるねん。

驚くことに、DeepSeek Car 1は他のみんなと比べて非常に悪い成績やけど、オープンソースモデルがこんなにええ成績やっちゅうのは興味深いわ。

ここが平均リターンの期待値や。確率的予測に基づく最適な賭け戦略の期待利益をシミュレートすることで、確率的予測の決定価値を測定するねん。つまり、現実世界でこれらの大規模言語モデルを使って決定を下し、これらのAIモデルの予測に従って市場に賭けてたら、これがあんたの期待平均リターンになるっちゅうことや。リスク回避レベルも設定できるねん。

ちなみに、これらをどう測定するかについての詳細な文書がたくさんあるで。平均リターンについては、それぞれに1ドルを賭けることを想定して、ROIがどんなもんかを見てるんや。でも数学と背景の理論について詳細に説明してるねん。

残念ながら、数学と予測や市場との交点みたいなのは、俺の専門分野からちょっと外れるねん。どんなバックグラウンドの人にもこれを非常にうまく説明できる人を知ってるなら、もう少し理解したいと思うわ。

でも俺の理解が正しいなら、要するに、まず各イベントに1ドル賭けてるんや。Kalshiっちゅうもんを使ってるねん。Kalshiはもう一つの市場プラットフォームで、Poly Marketと似たようなとこに賭けることができるねん。

政治的なもんもあれば、例えばMr. Beastの動画が特定の視聴回数を超えるかとか。映画予測、2025年の今年の人、Cardi Bが今年ナンバーワンアルバムを出すかなどがあるねん。どう思う?あんたの予想は?この人知ってるか?まあ、どうでもええわ。俺のCardi Bの知識は、Plenny the Elderが音声モデルをジェイルブレイクしてた頃から来てるねん。

彼がジェイルブレイクに成功したことを実証するお気に入りの方法の一つが、それらのモデルにCardi Bのもっと悪名高い曲を歌わせることやったんや。俺がそのうちの一つを再生しようとして、95%をピー音で消さなあかん動画を覚えてるやろ。そういうことや。

でも17,000ドル、ほぼ18,000ドルが彼女がナンバーワンアルバムを出すかどうかに賭けられてることに注目してや。ニュージャージー州知事731ドル、民主党候補1500万ドルやて。

Profit Arenaがこれらのモデルをどうランク付けするか戻るで。Kalshiを使ってる。各イベントに1ドル賭けることを想定してる。このCardi Bのやつやと、イエスと思うなら46セント賭けるか、ノーと思うなら61セント賭けることができる。46と61がその分布の機能の仕方や。

市場が可能性が低いと思うなら、少し賭けて多く勝つことができるし、その逆もできる。でもここでは1ドルの賭けを想定してて、それらが暗示確率で、オールオアナッシングコントラクトを使ってる。結果が起こったら1ドル払う1ドルで、そうでなければゼロや。

説明がひどくて全部めちゃくちゃにしてしもたと思うわ。でも要点は、モデルが人間より特定の出来事をより良く予測できるなら、これは一種の裁定機会を作り出すっちゅうことや。これらのモデルを使って結果を予測してるなら、市場が追いつくまでこれらの市場から金を稼ぐことができるんや。

そしてみんながモデルを使って予測を立てるようになる。そしたらAIモデル同士がより良い予測をするために戦い合うだけになるんや。これを実践に移すことができる人によって何百万、何十億ドルが稼がれる可能性があるように思えるねん。その後、これらの市場でお金を稼ぐ機会全体が閉じるかもしれへん。あまりにも完璧になりすぎるかもしれへんからな。

他の全てのモデルよりずっと良いモデルを一つ持ってない限りはな。それが俺の推測やけど、この辺りはあんまり詳しくないねん。何か見落としてるなら教えてや。でもこれらのモデルが人間より予測でずっとずっと良くなったときに何が起こるかが気になるねん。短期的と長期的な影響は?俺には激しい移行があって、その後全部が完全に自動化されるように思えるねん。

何か見落としてるなら教えてや。ここに全ての異なるモデルによる過去の平均リターンがある。見ての通り、最初の頃、これが始まったのは約1ヶ月前みたいやから、非常に最近のことやっちゅうことを心に留めといてや。どこに向かうかを見るのは興味深いやろな。

これがこれらのベンチマークの要点や。俺らがどこに向かってるかを見ることやねん。これを見て「まだ人間より良くない、まだそこには到達してへん」って言う人もいるかもしれん。でも1年、5年、10年追跡したらどうなる?それがこの要点やねん。

俺らは彼らが現実世界のタスクでどれだけ良くなってるかを追跡しようとしてるんや。彼らが人間を超えるようになったとき、何が起こるかわからへん。それがこれらのベンチマークの要点やねん。最初からGPT-5が金を5倍にしてることに注目してや。リターン、ROIが5.352、o3 miniが5やて。めちゃくちゃええ成績やけど、時間が経つと期待値に収束するみたいや。

時間が経つにつれて、ここで見るように、みんな1に近づいてる。しばらくして、まだ1ヶ月しか経ってへんけど、全員が1をわずかに下回ってるように見えるねん。o3 miniとGPT-5が0.93と0.73でまだトップにいる。これは少し見にくいかもしれんけど、カーソルを動かさずには指し示せへんけど、市場ベースラインスコアが0.844にあるねん。

o3 mini、GPT-5、Gemini 2.5 Proは全て市場ベースラインよりかなり高いねん。もう少しデータポイント示してから、この全てを完成させる大きなポイントに移るわ。このベンチマークがどんなにええもんでも、あんまり話されへんことが一つあるからな。すぐにそれに戻るで。

見ての通り、o3 Miniが最高や。LMSは市場より優位に立つために新しい情報源について推論できるねん。考慮すべき一つのことは、確信してるときに強く賭けることと、全ての賭けに同じ金額を賭けることでは、全く異なる結果が得られるっちゅうことや。

1回につき1ドルしか賭けられへんなら、全体的な精度が重要になる。一方、大きな賭けをする場合、市場に対するその確信、その優位性がより大きな勝利を意味するかもしれん。ここで彼らはo3 Miniの強いパフォーマンスをより良く理解するために言ってる。o3 Miniはもちろん新しいOpenAIモデルの一つや。

興味深いことに、o4 mini highがあるねん。これがどんなパフォーマンスを見せるか気になるわ。リーダーボードにはないねん。Anthropicがまだ含まれてへんことに気づいたわ。含まれるようになっても、過去のイベントのリーダーボードには表示されへんやろな。それは汚染されたデータやからな。それらはもう起こったことやから。

でも新しいのがオンラインになったら、今後そういうもんのデータ収集を始めるやろな。これは素晴らしいベンチマークやと言わなあかん。全部が気に入ったわ。o3 miniのこの例では、サンディエゴとトロントの間のメジャーリーグサッカーのイベントに賭けてたんや。頑張れサンディエゴ。1ドルの賭けで9ドルのリターンを得たんや。つまり巨大なROI、その一つの賭けで巨大なリターンやねん。

市場データと新しいソースに基づいて、o3 Miniはトロントが勝つ確率を30%と予測したが、市場は11%の確率しか示してへんかった。トロントがアンダードッグやったにも関わらず、o3 Miniは正の期待値を特定し、最大の優位性のためにトロントFCの勝利に賭けたんや。結果として、トロントが最終的に勝利し、o3 Miniに大きな実現利益をもたらしたんや。

ここで注目する価値があるのは、推論のトレースを概説してることや。例えばGPT-4o、GPT-4.1のいくつかを概説してるねん。これを覚えといてや。これらのモデルが結論に到達するための推論を見ることができて、その後実際に何が起こったかがわかるんや。

俺らが強化学習をどうやるかを考えてみいや。正しい答えを得たらサムズアップを与えてこんな風に考えるように教えることができるし、間違った答えを得たらサムズダウンして「ダメや、そんな風に考えたらあかん」って言うことができる。そして時間をかけて特定の問題にどうアプローチするかをゆっくりと調整していくんや。

長期間にわたってそのデータを収集することは、強化学習をやってるAI企業にとって信じられへんほど価値があるやろな。俺の予測はこうや。これらの人ら、このベンチマークメーカー、背後にいる人ら、この会社は大金で買収されるやろな。

それが俺の予測や。高い確率を与えるで。ライブイベントのために時間をかけてそのデータを収集するっちゅうアイデアやからな。イベントが起こる前にモデルに尋ねて、その結果の成果を追跡する。これは金やで。自分のAIスタートアップやこの分野の何かを立ち上げることを考えてるなら、これは勝つための多くの異なる可能性があるもんを作ることができる素晴らしい例やねん。

このデータを集約するっちゅうアイデアだけで信じられへんほど価値があるねん。データをオープンソースにするかどうか気になるわ。しないと推測するけど、見てみようや。

これが大きなグラフ、チャートで、いつ勝つか、いつ負けるか、いつ引き分けるかを示してるねん。市場は何が起こりそうかについて何らかのアイデアを持ってる。これらのモデル、もし彼らが何が起こりそうかについて異なるアイデアを持ってるかもしれん。ここの灰色は、彼らが同意するとき、つまり市場が賭けるように賭けて、全部チェックアウトする。同意する、それが起こることやねん。

負けは市場に反して賭けて間違いやったとき、勝ちは市場に反して賭けて正しかったときや。これで正しいと思うわ。違ってたら、みんなが教えてくれるやろ。見ての通り、ほとんどの場合負けてるけど、引き分けと勝ちの間、これは金を失ってへんところや。全体としてこれが負けより多い限り、時間をかけて金を失い続けることはないやろな。

比較するのは難しいねん。賭けのサイズ、どう賭けるかによって本当に依存するからな。平均リターンリーダーボードで高いランキングを持つモデルが必ずしも市場ベースラインに対してより勝つわけやないって言ってる。これらの観察は、平均リターンが勝利頻度だけやなく、勝利の大きさ、優位性、またはモデルが正しいときの1ドルの資本当たりの平均リターンにも依存するっちゅう事実によるもんやねん。

強化学習と市場予測の未来

Jimmy Applesがこんなこと言うてる。何が来るかのアイデアが欲しいなら、OpenAIの戦略展開チーム、Thinking Machines、Mechanizeなどに注目しときや。Thinking MachinesはMira Muratiのことやろな。Anthropicもこの分野で一生懸命やってるはずや。

これはTechnews Researchが言うてることで、未来は10億の強化学習環境みたいになるかもしれへんって。OpenAIのこの求人投稿について話してるんや。これはサンフランシスコのOpenAIの賭けに焦点を当てた研究エンジニアの求人や。この分野で何かやってて、この条件に合うなら、これは興味深い仕事やろな。サイニングボーナスは何十億ドルか、今人らに払ってる額になるやろ。おめでとう。みんな完全に喜んでるで。全然嫉妬してへんわ。

でも要点は、特定のドメインへの研究とプロトタイピングスプリントをドメインエキスパートとの協力で推進することやねん。つまり、これらの機械学習博士号、AI研究やってる人らなどを、ドメインエキスパートと組み合わせて、何を思いつけるかを見るんや。

Google DeepMindのAlphaFoldを追ってるなら、彼らはそれをIsomorphic Labsとしてスピンオフしたけど、それが彼らがやってることやねん。機械学習の人らとそのドメインのドメインエキスパートがいて、製薬、生物学などの人らや。彼らを一つの部屋に放り込んで「よし、一緒に働いて、誰も見たことのない全く新しいもんを作ってや」って言うんや。

それがその2つの組み合わせやねん。その2つの交点やねん。以前は生物学と機械学習の間に重複がなかったからな。今はある。生物学を勉強してる人らは機械学習についてもっと学ばなあかんようになるし、機械学習をする人らには生物学に向かうみたいな異なる専門分野があるかもしれん。

具体的には、これらのRL gym、強化学習環境を作ることのように聞こえるねん。特定の分野でもっと良くやりたいタスクをモデルに教えるためのな。ここでは特定の分野を説明してへん。具体的なアイデアがあるかどうかわからん。多分ないやろ。言いたくないだけかもしれん。

でも理解することが重要なのは、Profit Arenaベンチマークでのこの歴史的パフォーマンスは、これらは箱から出したままのモデルやっちゅうことや。あんたがチャットしてる、俺がチャットしてる同じモデルやねん。彼らはそれらを取り出してこれらの予測をさせようとして、予測を立てた後、例えばProfit Arenaは、どのモデルが正しかったか、どのモデルが間違ってたかのデータを持ってる。彼らの推論トレース、モデルがどう考えたか、どんな情報を見たかのデータを持ってるんや。

つまり、その予測をどうアプローチしたかについての全データ、そして潜在的に仕事について、そうやろ?この手のエンジニア、市場投資の専門家、経済学の学位を持った人、分析者って呼ぶんか知らんけど、そういう人とペアになって、ギャップを埋めようとして、そのデータを使ってモデルにフィードバックを与えようとするかもしれん。

こんな風に考えるとき、正しい賭けをするんや、わかるか?こんな風に考えるんや。うまくやったときはサムズアップ、悪くやったときはサムズダウン。そして最終的に時間をかけて、どこかの誰かがモデルを思いつく可能性が非常に高いと思うわ。そしてそれはただのモデル以上のもんかもしれん。例えば、Twitter/Xで様々な企業についてのセンチメントや何が起こりそうかをチェックしに行くAIエージェントかもしれん。

ニュースを集めるエージェントもあるねん。そういったデータを全部集約するんや。GPT-5はもうデフォルトでそれをやってる。o3 Proもそうや。データを集めに行って、データを読み通して、学んだことに基づいてあんたに答えるんや。もうその機能を持ってるんや。

でもその系統がこういうデータに基づく強化学習と組み合わされて、時間をかけてこれらの予測をもっともっと良くなることを想像してみいや。俺が次に言うことは俺の予測に過ぎへんけど、物事がどこに向かってるかを見てる多くの人の予測でもあると思うわ。違う風に思うなら教えてや。

でも、非常に間もなく、これらのAIモデルがこれらのイベントを予測して市場から金を稼ぐことで、専門家や少なくとも市場より良くなる時代にもう入りつつあるかもしれへんって感じやねん。モデルを使って決定を下し、様々な結果に賭けるなら、その種の裁定は非常に利益が出るやろな。

心に留めといてや。これは違うんや。過去に強化学習で訓練されて市場で賭けをするモデルはあった。でもそれは違ったんや。これやなかった。市場で賭けをするために特別に微調整された一般推論大規模言語モデルやなかった。わかるか?それらはもっと昔ながらのAlpha Goみたいなもんで、計算して動きを作るだけやった。

でも一般推論モデル、LMSがそういうことをするんやない。これは違うし、どれだけ良くなるかわからん。でもどこかの誰かがこれを理解して大金を稼ぐと思うわ。その人があんたなら、俺を忘れんといてや。あんたの友達、ウェス・ロスを覚えといてや。みんな購読してるか確認してや。

これは速くやって来てる。この件についてどう思うか教えてや。俺は投資についてのバックグラウンドがないねん。非常に興味深いと思うけど、俺はただVanguardファンドに金を入れるだけや。個別株を選んだり、デリバティブ取引やその他のことはせえへん。やってる人を知ってるし、非常に興味深くて魅力的に見えるけど、俺の専門やないんや。

これについてインタビューしたら興味深いやろうっちゅう人を知ってるなら、俺がAI側について話せて、彼らがこの投資側を説明してくれるかもしれん。こういうもんで何ができるか?そういう人とチャットできたらええなと思うわ。

名前があるなら、コメントに書いてや。見てくれてありがとう。俺の名前はウェス・ロスや。次回会おうな。

コメント

タイトルとURLをコピーしました