この実験がAIの誇大宣伝を終わらせるかもしれない

AGI・ASI
この記事は約27分で読めます。

本動画は、大規模言語モデルを活用した実際の株式投資実験「Alpha Arena」の最新結果を報告するものである。32万ドルの実資金を用いて、OpenAI、Anthropic、Google、DeepSeekなどの主要AIモデルがNASDAQ上場銘柄を売買する競争が行われた。注目すべきは、謎のAIモデルが12%のリターンを記録し、従来の買い持ち戦略を上回る成績を収めた点である。この謎のモデルは「PROFIT」(Program Search for Financial Trading)と呼ばれる進化的探索アルゴリズムを採用しており、Google DeepMindのAlpha EvolveやSakana AIのDarwin Girdle Machineと類似のアプローチを取っている。本動画では、この手法の仕組み、他のAIモデルとの比較、そして今後5年間でAIが本格的に投資収益を生み出す可能性について詳細に検証している。

this experiment could END the AI hype
The latest AI News (and absolutely no financial advice). Learn about LLMs, Gen AI and get ready for the rollout of AGI. ...

AIによる実資金投資実験の衝撃

では、こんな状況を想像してみてください。私たちが32万ドルを用意して、お気に入りのチャットボット、つまり大規模言語モデルに投資を任せるんです。彼らは実際のお金を、実際のNASDAQ取引所で取引されている本物の株式に投資します。つまり、Tesla、Nvidia、Microsoft、Google、Palantir、Amazonなどを売買するわけです。

結論から言いますと、謎のAIモデルを持つ企業があって、このモデルがコードを解読したかもしれないんです。このアプローチについて公開されたものを見たのは今回が初めてです。この競争は私がこれを録画する数時間前に終了したばかりです。もしこれが本物で、実際そうである可能性が高いように聞こえるなら、まあ、物事は面白くなりそうです。

サムズアップボタンを押して、さっそく見ていきましょう。Alpha Arenaの新シーズンが終了したばかりで、あるモデルが利益を上げています。私たちは以前にもAlpha Arenaについて話したことがあります。たくさんの大規模言語モデルを集めて、実際のお金で投資を試みるために市場に投入するんです。ちなみに、この新シーズンでは、彼らは合計32万ドルの実資本を運用しています。

シーズン1は11月3日にありました。これがチャートです。複数のモデルがBitcoin、Ethereum、Solana、Dogeなどを取引していました。xAI、Anthropic、DeepSeek、Qwen、Google、OpenAIからのモデルがありました。全員が競争しています。実際のところ、彼らはどれくらいうまくやったのでしょうか。

この灰色の線は、もし彼らがただBitcoinを売買していたらどうなったかを示しています。つまり、この競争が実施された約2週間の間、Bitcoinを買ってそのまま持っているだけで、他の取引は一切しない状態です。これが買い持ち戦略でした。ご覧のとおり、ほとんどの大規模言語モデルは、ただBitcoinを買って保有するよりもわずかに低いパフォーマンスでした。ただし、QwenとDeepSeekは実際にお金を稼ぎ、最終的に資本を増やしました。

新シーズンの拡張と謎のモデルの登場

さて、それがシーズン1でしたが、彼らはこのベンチマークを本当に拡張し改善しました。この新しい競争、つまりシーズン1.5は数時間前に終了しました。モデルは動き続けます。彼らは結果を集計し、勝者を決定していました。ご覧のとおり、謎のモデルが勝利したものでした。

11月19日から12月3日まで、そのモデルは総合リターンで12%上昇しました。さて、彼らはこれを複数の異なるアプローチと投資目標に分けました。新しいベースラインでは、米国株式を取引する能力と、取引の判断材料となる多くのニュースやセンチメントデータを取得する能力が与えられました。

繰り返しになりますが、これらのモデルには32のインスタンスがあります。彼らは合計32万ドルの実資本を運用しています。6分ごとにニュース指数、Microsoftなどを取り込んでいます。Tesla、NDX、Nvidia、Microsoftなどを取引していることにお気づきでしょう。Amazon、Google、Palantirなども取引しているようです。そして謎のモデルは実際にいくらかのお金を稼いでいるようです。

ここで1秒だけ時間をいただいて、おそらくこれを言わなければなりません。明らかに、お金が絡むと、さまざまなビジネスチャンスや投資機会があります。残念ながら、時々、多くの人々がお金を失い、誰かが嘘や詐欺などで刑務所に入ることが起こります。ですから、はっきりさせておきますが、私は何も宣伝していません。

何も約束していませんし、誰も私にこれを言うためにお金を払っていません。私はこれらの人々が誰なのか知りませんし、彼らが必ずしも何らかの投資などを求めているとは思っていません。彼らには何らかのプラットフォームの待機リストがあり、N of Oneモデルの取引ツールへの早期アクセスを得られるかもしれません。私はこれについて何も知りません。

ですから、私が言いたいのは、これでどうやってお金を失うのか、あるいはこれにお金を入れることができるのかさえ分かりませんが、もしあなたがそれを理解してお金を失ったら、それはあなたの責任です。私を責めないでください。とはいえ、彼らの背後には真面目な研究者がいるようで、モデルを使って投資し、収益性の高い投資をするというこのアイデアにどのようにアプローチしているかについて、論文を発表したばかりのようです。

進化的探索アプローチの可能性

一見すると、彼らはGoogle DeepMindがAlpha Evolveにアプローチした方法と似た方法でこれにアプローチしているようです。これはまた、Sakana AIのDarwin Girdle Machineがコーディング能力を自己改善するために使用した方法と似たアプローチでもあります。ですから、もしあなたがこのチャンネルをフォローしているなら、私たちがこのRSI、リカーシブ自己改善というアイデアについてよく話していることをご存知でしょう。

これらのモデルは自分自身を自己改善できるでしょうか。何かをする能力を自分で改善できるでしょうか。Sam Altmanが言ったように、私たちはリカーシブ自己改善の幼虫段階にいます。そしてそれはマーケティングや誇大宣伝だけではありません。アメリカだけでなく、世界中の多くの異なる組織による研究が、これが可能かもしれないことを示し始めており、それがどのように機能するか、つまりそれを可能にするためにどのような構造が必要かを理解し始めています。

そして私たちが見ているのは、通常、進化的なツリー探索があるということです。モデルは多くの異なる答えを出力します。それらの答えは何かに対してチェックされます。ベンチマークかスコアのいずれかです。ですから、これが良いか悪いかを評価できる必要があります。このアプローチが機能しない可能性のあるタスクがあります。

たとえば、素敵な詩を書きたい場合、この詩はこれよりも良いかなどと言うのは難しいでしょう。しかし、多くのことについて、これは明らかに良いか悪いかと言えます。そこで、たくさんのソリューションを提案します。改善されているように見えるものは、継続する系統になります。

たとえば、ここで何かを提案したとします。ああ、それは機能している。では、それを改善しましょう。いくつかはうまくいきません。それらは消滅します。進化を続けることはなく、いくつかは最良の可能なソリューションに到達するまで続けます。これは研究であり、進化的です。つまり、より良いと思われるものを取り、それらを拡張しているのです。

表面的には非常に興味深く見えます。もっともらしく思えますが、私は後に詐欺であることが判明した何かについて話したことを謝罪しなければならなかったYouTuberを十分に見てきました。そして何人かの人々がお金を失いました。私はそのような人にはなりません。ですから、ここでの何かが投資アドバイスや推奨のように聞こえる場合、それは一切そうではありません。

複数企業によるLLM投資戦略の追求

さて、それはさておき、何らかのLLM投資戦略を追求している企業や、より多くのデータや研究をその方向で得る方法を見つけようとしている企業がいくつかあります。つまり、これはかなり明白であり、公開していないこれを追求している人がもっとたくさんいると確信しています。

もちろん私たちはProfit Arenaをカバーしましたよね。つまり、これらの大規模言語モデル、エージェントが特定のイベントを予測し、結果に賭けることができる能力です。現在、GPT-5モデルがトップにいます。Grok、Qwen 3もかなり良い成績を収めています。彼らはこれらの市場で特定のイベントに賭けています。他の人々が特定のイベント、それが起こる可能性に賭けるところです。

そして支払いは、人々がどちらの方向に投票するかに基づいて、確率によって決定されます。そしてここでは、暗号通貨取引のために実際にお金を与えることで、さらに一歩進めています。それはブロックチェーン上にあります。ですから私たちはそれを検証できます。そして彼らはそれを異なるカテゴリーに分けています。新しいベースラインがあります。

資本保全、生存、より強力なリスク管理慣行を重視するモンクモードがあります。モンクモードでは、明らかにDeepSeekが支配的で、2番目はGeminiです。これらのモデルは両方とも収益性があるように見えます。また、状況認識もあります。これは、モデルに競争、彼らが競争しているという事実、現在のランク、他のモデルの損益を認識させる競争です。つまり、彼らはボードを見ることができ、それに基づいて意思決定を行うことができます。

これは謎のモデルが本当にリードを取っており、他のどのモデルよりもはるかにはるかに高いところです。そして最後のものはマックスレバレッジです。この競争では、モデルにすべての取引で最大レバレッジを取らせ、資本効率を最大化し、リスク管理をテストします。OpenAIがここでトップにいて、かなり良いリターンを得ており、謎のモデルがそれに続いています。

さて、彼らが保有しているポジションを見ることができます。実際に、すべての取引の背後にあるモデルチャット、つまり推論を見ることができます。たとえば、Grok 4はPalantirで強気の波に乗っており、ディープエッジスクイーズとネガティブファンディングに基づいてポジションを追加し、利益目標まで上昇することを期待しています。それぞれについて、出口計画もあります。

つまり、仮説が機能していないことを示す何かに遭遇した場合、彼らは退出できます。さて、これらはこれらのモデルがどれだけうまくやっているかの詳細です。多くの人々は、結果だけを見て、そこから判断しようとすると思います。ああ、お金を稼いでいるのか。お金を稼いでいないのか。ここで理解することが非常に重要なのはこれです。

繰り返しになりますが、すべてのビデオでこれをかなり言っていると感じますが、それでも理解することが非常に非常に重要だと思います。時間の経過に伴うパフォーマンスを想像してください。これは何らかのベンチマークでのパフォーマンスです。それが試験であろうと、ゲームをプレイすることであろうと、画像が何であるかを理解することであろうと、この場合は投資してプラスのリターンを生み出すことであろうと。

そしてこれが人間のパフォーマンスだとしましょう。人間は、それが分野で最高であろうと何であろうと、ちょうどここにいます。これは、投資や特定のテストを受けたり何でも、専門家の人間がどれだけうまく行動するかを期待するものです。おそらく多くのこのようなチャートを見たことがあると思いますが、これが人間のパフォーマンスであれば、多くのこれらのモデルは上がってきて、時間とともにそれを超えます。

画像分類の最も初期のものの1つでは、非常に長い時間がかかりましたが、最終的には良くなり、より新しいものの一部は、急速に改善しています。つまり、多くの能力でこの指数関数的な改善が見られ、人間の能力を超えているのを見ています。ですから、これらの多くについて、これがそのトレンドがどのように見えるかです。

人間よりもはるかに悪い状態から始まりますが、徐々に良くなり、そのラインに近づいています。場合によっては、それを超えています。そしてこれらの多くについて、ここからどこへ行くのかを理解することが非常に重要です。このように続いて人間よりもはるかに良くなるのでしょうか。それとも人間のベースラインのすぐ下で平坦になるのを見るかもしれません。

本当にそうする理由はありませんが。私たちはそれほど特別ではありません。少し良くなってから平坦になるのでしょうか。私たちは分かりません。そしてそれがこれらのベンチマークがとても重要な理由です。多くの人々はこれらのベンチマークを見て、ああ、ここでは人間ほど良くない、またはこれらの取引でまだお金を失っているなどと言います。

それは本当にこれらのベンチマークのポイントを見逃しています。ですから、いつ人間より良くなるのか、いつ収益性が高くなるのか、そしてどれだけ良くなるのかを理解しようとしています。なぜなら、今後5年間でこれらのベンチマークをどれだけ早く破り始めるかによって、未来がどのように見えるかが本当に決まるからです。

これらのモデルがそこにあるすべてのヘッジファンド、すべての投資家を上回るパフォーマンスを学んだら、その時何が起こるでしょうか。あるいは短期的に、みんながそれを理解する前に、これらのモデルにアクセスできる数人の人々がいる場合、彼らはしばらくの間お金を印刷し、世界の残りの人々が追いつく間に非常に非常に裕福になるのでしょうか。

これは想像できるように、非常に興味深い質問です。さて、もちろん現在、あなたはこれらの大規模言語モデルにはおそらく多くの弱点があることを認識しているかもしれません。彼らはおそらく、これらの長期的なタスクを実行し、愚かなミスをせずにそれを続け、資本の半分を失うことができないでしょう。

研究チームと技術的アプローチ

この記事が述べているように、Alpha Arenaの背後にいる会社はN of Oneであり、会社とAlpha Arenaの背後にいる人々は、Julian TogeliusとJay Aenなどです。私はこれらの人々が誰であるか知っていますか。いいえ。インタビューを得るために彼らに嫌がらせをしていますか。はい。はい、そうしています。

たとえば、Julianはニューヨーク大学の教授で、N of One、つまりAlpha ArenaのAI責任者であり、Model AIの共同創設者です。これは明らかにゲーム開発のためのAIエンジンであり、ローグライカーです。これは単に彼が素晴らしい、素晴らしい人間であることを意味します。Rogueはもちろん、ローグライクとローグライトという独自のカテゴリーを生み出したゲームです。Julianはローグライカーです。彼が何をしたか分かりますか。

しかし彼らの論文はこれです。LMは間違った丘を登っている。彼らは医療試験、博士レベルの科学、数学オリンピアードなどのベンチマークを粉砕しています。しかし問題は、彼らの知能がギザギザであることです。

彼らの自律性は脆弱であり、負担は私たちのプロンプトとガードレールにかかっています。もちろん、Ilya SutskeverはDwarkesh Patelのポッドキャストでこれについてかなり話していました。特定のセグメントを見つけようとしましたが、正確には持っていませんが、もし私たちが数年前にGemini 3が今できることを見たら、私たちはそれをAGIと呼んだでしょうが、どういうわけかそれは人間の労働者を置き換えることには変換されません。

ですから、私たちの定義は、何が必要かについて何かを見逃していたのです。そして私はここで彼らが非常に似たようなことを言っていると思います。LMは間違った丘を登っている。だから彼らがマスターした丘もあります。それらの試験、コーディングエージェントは素晴らしい成績を収めています。つまり、彼らが絶対に素晴らしい成績を収めている、驚異的な仕事をしている分野があります。

もし10年前にそれを見て、今の結果を見たら、私たちは驚嘆したでしょう。しかし、私たちは彼らを監視せずに放置することはしないでしょう。ChatGPTやClaude、Gemini 3にあなたの財務を管理させることを信頼しますか。おそらくしないでしょう。できればそうしないでください。そして彼らはここで続けて、現実世界は複雑だと言っています。

人間は急速に変化する環境で決定を下すことを余儀なくされており、私たちの入力は最良の場合でも曖昧です。そしてこれが私がこれらのメトリクス、これらのベンチマークを愛する理由です。市場では、それはいくつかの理由で完璧なベンチマークです。1つは、リアルタイムで起こるからです。すべての過去のデータがありますが、将来何が起こるかは分かりません。

実際の答えが分かりません。モデルがリアルタイムで取引している場合、そのベンチマークをゲームする方法はありません。答えを与えることはできません。答えに対してファインチューニングすることはできません。一般化して、将来正しいと判明する正しい決定を下さなければなりません。誰も将来何が起こるかを知りません。

2つ目は、お金がかかっているため非常に現実的であり、誰もわざと負けることはありません。誰もお金を失いたくありません。だから、それは非常に非常に競争的です。それはゼロサムの環境です。つまり、1ドルを獲得するためには、誰かが1ドルを失わなければなりません。つまり、資本市場はAIにとって史上最高のベンチマークの1つかもしれません。

これまでのところ、彼らがテストしたほとんどのLLMはAlpha Arenaでお金を失っています。そして1つのことは明らかに明確です。バニラ言語モデルでは不十分です。新しいアーキテクチャ、適応的に自己改善できるモデル、そして時系列データに対するより良い推論が必要です。ちなみに、本当に素早く。Julianは、AIの責任者であるこの会社の人物で、彼はジムに行くための私のプレイリストと言っており、それは私が信じているビートと園芸器具の写真です。それは鍬と呼ばれていると思います。

ですから私はこれをビーツとホーズと読んでいます。だから私はDr. Dreだと推測していますが、彼が意味したものだとは思いません。彼はヒントをくれます。それはKLダイバージェンスに関連しています。もし分かったらコメントで教えてください。しかし、この謎のモデルが何であるか疑問に思っているに違いありません。

謎のモデル「PROFIT」の詳細

これはJay Aenで、もちろんこの謎のモデルが実行されていた過去数週間で12%以上の成績を収めたことが分かります。明らかに、これらが再現可能な結果である場合、それはちょっと大きな問題です。これは疑問を投げかけます。謎のモデルとは何ですか。

Claude Opus 4.5が発売されたとき、ちょうどこの新シーズンが始まった頃でした。私はClaude Opus 4.5かもしれないと思いました。もしあなたがその時の私のビデオを見たなら、私は、それだったとしても驚かないと言っていました。違います。

私が知る限り、このモデルは彼ら自身のモデルです。彼らはそれをPROFIT、PROFITと呼んでいると思います。つまり、金融取引のためのプログラム探索です。注目してください、私たちがオンラインでフォローしてきたすべての人々、彼らの名前がここにあります。彼らはPROFITと呼ばれるフレームワークを提示しています。金融取引のためのプログラム探索です。金融市場におけるアルゴリズム取引戦略の自動発見と継続的改善のための大規模言語モデル駆動の進化的探索です。

繰り返しになりますが、それはDarwin Girdle Machineと非常に似ているように聞こえます。実際、彼らは論文のどこかでそれについて言及していると思います。彼らはAlpha Evolveについても話しています。Google DeepMindと私たちはもちろん、Jurgen Schmidhuberが著者の1人である論文をカバーしました。そこで彼らはこれに対するいくつかの変更または改善を提案しています。

つまり、これらの系統のどれがより良いかを予測する能力です。要点は、シリコンバレーのベイエリアから日本、Schmidhuberがいる場所まで、世界中の多くの異なる場所で多くの非常に賢い研究者がいるということです。彼はドイツにいますか。実際には分かりません。しかし要点は、多くの非常に賢い研究者が、これらの大規模言語モデルを本当に過給するための潜在的な方法としてこれを見ているということです。

繰り返しになりますが、もし誰かが大規模言語モデルを取引で本当に上手にし、市場で収益性を高くする方法を見つけたら、彼らがこのようなもので、このアプローチでそれをしたとしても驚きません。これが彼らがここでしたと言っていることです。しかし繰り返しますが、これは何かの推奨でも誰かの推奨でもありません。私が言っていることを文脈から外して取らないでください。

私は彼らが提示しているものを読んでいるだけです。私はここであなたと共有している情報しか持っていません。このPROFIT、彼らはPROFITと言うのかPROFITと言うのか疑問に思います。コードレベルの変異、自己分析、ウォークフォワード検証を閉じたフィードバックループ内で統合し、進化したすべての戦略資産の組み合わせの77%以上で単なる買い持ち戦略を上回ります。

彼らは科学的発見のためのGoogle DeepMindのAIフレームワークに言及し、Darwin Girdle Machineにも言及しています。ですから私たちは両方について話しました。ちなみに、Nvidiaは、Eurekaと呼ばれる独自の似たようなバージョンを持っていました。ここで彼らはこの場合、コーディングLLMであるGPT-4に、シミュレーションで訓練するためのロボットのための報酬を書かせようとしています。この場合、彼らはこのように鉛筆を回すのに使用しましたが、ロボットに訓練させたい他の多くのことに対して行うことができます。歩行のために行うことができます。

クモであれば、または皿の上で卵をキャッチするなどです。彼らがどのようにそれを行うかは、たくさんのサンプルを持っています。大規模言語モデルはそれを行う方法のいくつかのコード例を書きます。それはGPU加速強化学習環境に入れられます。テストされ、その後フィードバックと共にLMに返されます。

これがあなたがどうしたかです。何を改善できますか。私がそれを持ち出す理由は、このアプローチEurekaが超人レベルの報酬関数を生成できるからです。つまり、そのアプローチにより、人間の専門家がそのタイプのコードを書いているときよりも良い答えを出すことができます。結果はより良いです。Sakana AIのこの類似のアプローチ。

彼らはこのバージョンの最先端の人間がコーディングしたものを打ち負かしたと思います。そしてもちろん、Alpha Evolve、再び非常に似たアプローチは、人間ができることよりも場合によってはより良い多くの驚くべきことを行いました。Googleのデータセンター最適化、特定のジョブをどのように処理したか、特定のジョブをどのようにスケジュールしたかでBorgと呼ばれるものを改善しました。

Googleのエンジニアがしたことに対してそれを改善しました。TPU回路設計を改善しました。つまり、ハードウェアの最適化であり、ソフトウェアの最適化さえ改善しました。Geminiのトレーニング、つまりある意味自分自身のトレーニングです。そのプロセスを改善できる特定の方法を提供しました。進化的ツリー探索であり、これが改善がどのように見えるかです。

さまざまなものをテストし、時々本当にうまく機能する何かにつまずくので、スコア、能力がジャンプし、その後別のものを見つけてジャンプします。そして10回、20回、いくつものミスがあるかもしれません。スコアを改善しないものですが、最終的にそのプロセスを通じてそれを見つけ、再び再びジャンプします。

ちなみに、今すぐお願いがあります。下にコメントしてください。このようなアプローチが機能すると思いますか。私はこの特定のものが機能するか、またはあなたがそれが機能すると信じているかを尋ねているのではありません。私が言っているのは、将来誰かがこのようなもので市場でお金を稼ぐものを作成できることを証明した場合、これが機能するアプローチであることが実現可能だと思いますか。なぜなら、私がちょうどあなたに示した他の多くの分野でそれが機能しているのを見てきたからです。

これらすべての場合で、大規模言語モデルに何かをするよう求めています。コーディング能力を改善したり、株式を取引する能力を改善したり、ハードウェアやデータセンターのスケジューリングプロセスなどをどのように改善するかです。何らかの結果を出力し、それをテストします。うまくいったかどうかを理解します。そしてフィードバックを与えます。

これは簡略化されていますが、それを続けることができるこのループのようなものです。しかしここで、私たちがそれに作らせているものは、取引戦略をコーディングするPythonコードです。私たちがそれに対してテストしているもの、それが良いかどうかを理解する方法は、市場に関する過去のデータに対してテストすることです。

バックテストであり、ちなみに、私はここでトレーニング目的のためにこれは問題ないと思います。私たちは過去からのデータを使用しているだけです。もちろん、後でリアルタイムでも機能することを確認するためにテストする必要がありますが、トレーニング目的のためには、それは機能するはずです。そして私たちは戻って言います、次の取引戦略コードとその最近のバックテスト結果を分析してください。弱点と効率性などを把握し、2つまたは3つの具体的な影響の大きい改善を提案してください。

そしてはい、これはこのシステムを作成するために使用されたと思われる実際のプロンプトです。彼らは2つの異なるインスタンスのモデルに対して2つの異なるプロンプトを持っています。1つは専門の定量的ストラテジストとして、英語で問題にアプローチする方法を書き出し、もう1つは定量的取引開発者です。

提案を実行するコードを書く人またはモデルです。そしてここで、それらの進化的ツリー探索の結果のようなものです。フィットネスです。黄色であれば、ここにいれば、それは5%以上です。つまり、年換算リターンのパーセンテージです。最低はマイナス23か何かですよね。それらは得た最高と最低のスコアです。

これらのアプローチは本当にうまく機能しているようです。興味深い。これらの他のアプローチの一部はかなりうまく始まりますが、最終的には文字通りかなり悪い結果になります。そしてこれが理解すべき重要なことです。ここでの出力は実際の取引ではありません。モデルは取引を提案していません。彼らは市場で実行されるPythonコードで書かれた特定の戦略を提案しており、それを改善し続けるためにそのコードに取り組み続けています。

結果はどうですか。まあ、彼らは戦略が本当に速いと見ています。それらは人間の最良の可能な戦略である可能性があり、その後このモデルによって改善を作成しようと試みられます。彼らは、フィットネスの成長が約15回の反復後に先細りになり、平均してPROFITはすべての実験の75%以上でプラスの改善をもたらすと言っています。つまり、これらの大規模言語モデルによるこの進化的プロセスです。

それは、特定の資産や折りに過剰適合するのではなく、意味のある一般化可能なパフォーマンス向上を生み出します。つまり、彼らが言っているのは、これは通常、より良い戦略を考え出そうとすることで人間を上回るということです。75%の時間で改善を見つけ、それは特定の領域またはその条件下でうまくいくだけの過剰適合ではありません。

より広い市場条件に一般化しています。これがポイントです。彼らはリスク調整後パフォーマンス、シャープレシオなどについて詳しく説明しています。一部の人々はそれが何を意味するか知っているでしょうし、一部の人々は知らないでしょう。それは重要ではありません。これはちょっと大きなポイントです。この特定の論文の実際の数字、それらは重要ではありません。理由はこれです。

私たちはこのモデルを取り、リアルタイムの取引環境に置くことができ、それは機能するか、しないかのどちらかです。現在、すべてを額面通りに受け取ると、機能しているように見えます。ベースライン条件下では、非常にうまくいきます。モンクモードではそれほどではありませんが、DeepSeekとGeminiの後の2位または3位のようなものです。

これらのモデルが状況認識を持っている場合、それはみんなを打ち負かします。なぜなら、考えてみれば、競争しているかどうかは関係ないからです。それはただいくつかのコードを実行しているだけです。他のすべてのモデルは落ちます。だから、ここで何が起こったのか興味があります。それはパフォーマンス不安ですか。競争しなければならないと言われると、彼らはそれほどうまくいきません。彼らは緊張します。

それは意味がありますか。おそらくただの偶然です。見てみましょう。そして最大レバレッジで、それはまだ非常に非常にうまくいっており、2位に入ります。これらの結果が保持される場合は。つまり、この実験を実行し続けて、何度も何度も、このモデルが勝ち続ける傾向がある場合、特にそれが常にプラスのリターンを上げている場合。

つまり、想像できるように、これはちょっと大きな問題になるでしょう。彼らはまた、N of Oneモデルと取引ツールへの早期アクセスを得られると思われるこの形式の待機リストを持っています。私の要点は、時間の経過とともに、より多くのデータ、それがどのように機能するかについてのより多くの可視性を与えるこのようなより多くの実行を見ることになるということです。

おそらく、モデルがどのように機能するかを確認するために彼らのツールを使用することさえできるでしょう。繰り返しになりますが、大きなアスタリスクは、それがどれだけオープンで透明性があるかということです。分かりますか。なぜなら、もしそれが透明でなければ、何がそれらの決定を下しているのでしょうか。つまり、それはいくつかのポンジースキームがどのように始まるかですよね。その人は、ああ、私は市場に投資するための超効果的なアプローチを持っていると言います。

しかし、彼らが実際に何に投資しているのか、どのように機能しているのかを見る方法はなく、後になって初めて、いや、そのようなアプローチはないことに気づきます。しかし、これのいくつかがオープンソースである可能性があると仮定すると、それについて何らかの可視性が得られます。つまり、ここで見ることができるように、謎のモデルは実際に何らかの推論、何に投資しているかについての声明を作成しなければなりません。私のロングTeslaポジションはまだ有効です。それはすべてを説明しているので、それらの決定にどのようにアプローチするかの思考の連鎖を実際に見ることができます。

ユーザープロンプトを見ることができるので、基本的にそれらの決定を下すために与えられたすべてのものを見ることができます。決定を下すために書かれていたコードをどのように利用するかを見るのは興味深いでしょうが、ここでの私の要点は、すべてがチェックアウトし、すべてが合法であれば、彼らはすべてを正しく行っているようです。ちなみに、ここで何かおかしいものを見ている場合、これがどのようにゲームされる可能性があるかを見ている場合は、ぜひコメントで教えてください。

しかし、もし彼らがこれを行うための自己改善するモデルを本当に見つけ出したのであれば、NvidiaがEurekaで行ったこと、Google DeepMindがAlpha Evolveで行ったこと、Sakana AIがDarwin Girdle Machineで行ったことと同様に、彼らはこのようなモデルを作成した最初の人々かもしれません。それは確かに重要です。

科学と結果の再現と論文の発表についてのことは、誰かがこれを見て、自分自身のアプローチを試みるということです。繰り返しになりますが、Jurgen Schmidhuberは最近、このアプローチを改善するためのいくつかのアプローチを提案した論文の著者でした。進化的ツリー探索、どの子孫、どの系統が最良の結果をもたらすかを推測する方法です。

別のビデオでそれをカバーしています。見つけられなかったので、Geminiに調べてもらいました。Jurgen Schmidhuberの最新論文はHuxley Girdle Machineです。つまり、アイデアはクレイメタ生産性です。基本的なアイデアは、これらのラインのどれが最も結果をもたらす可能性が高いかを予測する何らかの方法があるということです。

ほとんどの場合、1つを実行してチェックします。ベンチマークを実行し、1つの出力を作成してチェックします。彼らは、これらのラインのどれが最も成功するか、またはこれ以上の反復を実行することが意味をなさない時点を予測するより良い方法があると提案しています。これについて理解することが非常に重要だと思う最後の考えは、これらのシステムを大規模言語モデルまたは大規模言語モデルのアンサンブルと考えることができるということです。

つまり、多くのものが一緒になって特定のクエリに答え、その後、その周りに何らかのスキャフォールディングがあります。彼らの出力を評価したり、改善方法を伝えたり、再度プロンプトを出したりするものです。つまり、それは大規模言語モデルまたは複数のものとその周りのスキャフォールディングまたはハーネス、どのように呼びたいかです。

何だと思いますか。より新しく、より良く、よりスマートなモデルがリリースされると、それらを取り、古いモデルの代わりにここに置くだけです。この全体を何らかの車や乗り物や飛行機のようなものと考えることができ、これがパイロットです。F1カーであれば、より良いドライバーを取り、それを入れると、彼は車からより良いパフォーマンスを引き出すでしょう。

彼らがここで言っているように、このシステム、彼らのPROFITシステムは進化的フィードバックループ内でLMを取ります。彼らはどのLMを使用しているかは言及していませんが、もし彼らがGemini 2.5を使用していた場合、Gemini 3をそこに置き換えれば、結果がより良くなる可能性が非常に高く、Gemini 4、5、6などでより良くなるでしょう。要点はこれです。

今後5年間のいつか、私たちはこのアプローチが機能するかどうかを理解するでしょう。そして機能するというのは、ライブ市場で意味のあるリターンを生み出すことができるかということです。始める前に、本当に素早くコメントで、yesかnoと入力してください。あなたからもっと聞けることを非常に嬉しく思いますが、時間がない場合は、yesかnoと入力するだけです。

Yesは、このようなアプローチが機能すると思うという意味です。つまり、どこかの誰かがこのようなLMベースのアプローチを使用してお金を稼ぐ何らかの方法を開発するでしょう。それがこの特定の会社であろうと他の誰かであろうと、今後5年以内にそれを見ると思いますか。それともno、これは涙につながるだけです。これは誰かが泣いています。

彼らは、いや、私は自分のお金を管理するためにChatGPTを使ってすべてのお金を失ったと言っています。だから、教えてください。私はどのような感情があるのか非常に興味があります。Yes、今後5年以内にこれが起こるのを見ると思います。可能です。またはno、今後5年以内には起こらないか、おそらく決して起こらないでしょう。コメントで教えてください。購読していることを確認してください。

もしこれに価値を見出したら、サムズアップボタンを押してください。私の名前はWes Rothです。これらはどれも財務アドバイスではありません。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました