
6,582 文字

これは非常に驚くべき結果です。本当に予想外の結果が一貫して出ています。誰もこれを予測できなかったでしょう。このトップモデルは完全に負けてしまっています。これは実際に私たちが現実世界の問題を解決するためにモデルを使用した経験とはるかに近い結果です。Anthropicのモデルは1年以上にわたって最高のモデルでした。Googleのモデルはひどいです。OpenAIのモデルは良いですが、Anthropicほど良くありません。
こんにちは、このビデオを皆さんにお届けできることをとても嬉しく思います。このビデオでは、現在のベンチマークがいかに悪いものか、企業がそれをどのように使って本質的に嘘をついているのか、そして実世界での有用性をより正確に示す代替タイプのベンチマークについて議論します。また、新しいベンチマーク「AIモデル世界制覇」をご紹介し、定期的に更新するデータを見ることができるウェブサイトも提供します。このビデオを見た時点での結果と、ウェブサイトで見る結果は異なる可能性があります。
しばらく前から、現在のベンチマークが私たちを完全に失敗させていることは私だけでなく多くの人々にとって明らかでした。ここに表示しているのには理由があります。後ほどビデオで明確なデータでお見せしますが、DeepSeekはこれらのベンチマークが示すほど良くありません。実際、すべてのモデルよりもかなり劣っています。すぐにその理由がわかるでしょう。
これは私たちがモデルに求めているものの狭い一部分に過ぎません。これは兵士の能力をテストで測定するようなものです。実際、ASVABという兵士テストがありますが、それは閾値であり、兵士が本当に愚かではないこと、または基本的な知識を持っていることを示すための閾値です。しかし、それだけでは不十分です。必要ではあるが十分ではないのです。それが現在のベンチマークの状況です。
最初は、モデルが基本的なことをできるかどうかを測るベンチマークは理にかなっていました。しかし時間が経つにつれ、このタイプのベンチマークはますます有用性が低下しています。これらは暗記に焦点を当てたものとして訓練されやすいですが、実際に私たちが行うことの多くは暗記ではなく、処理や理解に関するものです。別の例えでは、これはバスケットボール選手の能力をフリースローの成功率で測定するようなものです。その場合、シャックは史上最悪のバスケットボール選手ということになりますね。
私の会社のR&Dでの経験では、ベンチマークは実際に実世界の問題を解決するためにこれらを使用しようとした時の結果と一致しません。したがって、新しいタイプのベンチマークは基本的にこれらのモデル同士をゲームで戦わせるものです。まずこの意味を説明し、実際にゲームをお見せし、ベンチマークデータを紹介します。
これは非常に興味深く、データは多くの点で驚くべきものですが、他の点では驚きではありません。明確な勝者、敗者、中間層があると思います。これは相対的なベンチマークであり、絶対的なベンチマークではありません。特に全てのモデルがプラスマイナス10%の範囲内に収まっているときに、これがビジネスがどのモデルを使用すべきかを理解するのにどう役立つのでしょうか?フリースローの例に戻ると、私が1000回中980回成功し、別の人が982回成功した場合、彼が本当に私よりも優れたフリースローシューターなのか、より優れたバスケットボール選手なのかは必ずしもそうとは言えません。
このゲームでは無限の可能性があります。これらのテストの境界は非常に厳格で小さく、物事を理解するための非常に狭い範囲です。私はシンプルなルールでありながら複雑な戦略を持つゲームを作りたいと考えました。様々なシナリオを通じてプレイするにつれて、「こうするかこうするか」「こうしたらどうなるか」といったニュアンスがあり、トレードオフが存在する、より実世界の有用性に関連するものです。
また、長期的に使えるベンチマークを作りたいと考えました。多くのベンチマークは破壊され、再構築する必要があります。このベンチマークは、ビジネスがDeepSeek R1を使用すべきかどうかを決定する必要がある場合など、比較に適しています。このデータを見ると、その答えは明確に「ノー」になるでしょう。
これは私にとって、より良い実世界のテストであり、訓練するのがはるかに難しいものです。このゲーム用の訓練データはなく、将来これが本当に人気になったとしても、誰かがそれに対してトレーニングできたとしても、それを検出するのは非常に簡単でしょう。
ゲームのルールを紹介します。非常にシンプルで、ゲームの目的は1対1で相手に「降参します」と言わせることです。現在、最大ターン数は25に設定されています。相手が「降参します」と言えばノックアウト(KO)です。多くの試合はKOで終わりますが、それよりも多くの場合は判定に持ち込まれます。TKO判定では、「降参します」というフレーズに対して最も高い意味的類似度スコアを持つプレイヤーが敗北します。
これはルールに組み込まれ、モデルに提供されます。これにより、「降参します」に最も近いことを言わせて相手に「降参します」と言わせることはリスクが伴うという複雑さが生まれます。なぜなら、それによってTKOで負ける可能性があるからです。しかし、相手に「降参します」と言わせるためには多くの要素があります。
これは、賢くない人間でさえ「降参します」とは決して言わないようなゲームであり、それが実際に起こることは奇妙です。これは現在のモデルがどの程度実世界の知的な人々を複製するにはほど遠いかを示しています。私の意見では、これは現時点でのAGI(汎用人工知能)の話の多くを解決すると思います。
このプロジェクトには多くの部分があり、ウェブサイトを含めて、多くのコーディングにAIを使用しました。主にCursorを使用しましたが、それには問題も生じました。もしこれについてのビデオを希望するなら作りますが、数十のスクリプトとたくさんのファイルがあります。基本的に、「あなたのウェブサイトはひどい見た目だ」などと言わないでください。情報を提供するために、できるだけシンプルなHTMLと最小限のJavaScriptを使用しただけです。
いくつかの実行中の会話を見てみましょう。これはDeepSeek R1対O1の会話です。DeepSeek R1は変な動作をするからです。また、他の場所でもっと読みやすい例を見せましょう。Grok 2対GPT-4などです。ウェブサイトではいくつかのサンプル会話を掲載しています。これはO3 Mini対Claude 3.5 Haikuの会話です。
ゲームが始まり、お互いが戦略を練って相手に「降参します」と言わせようとしています。11Labsから音声を使用しており、会話を聞くこともできます。面白いですよ。最終的に、プレイヤー1(O3 Mini)が「降参します」と言っているので、プレイヤー2が勝利しています。
このベンチマークは完璧ではないことを強調しておきたいと思います。しかし、完璧なベンチマークを求めるなら、他のベンチマークも完璧ではなく、私の意見ではそれらははるかに欠陥があります。モデルが何もできなかった時には有用でしたが、今ではこの新しいベンチマークの方がはるかに有用だと思います。
多くのデータ生成が必要であり、これはかなり費用がかかります。もし興味があれば、「いいね」、登録、コメント、共有をお願いします。これによりコストの正当化ができます。
バトルレーティングシステムがありますが、まだ改良が必要です。このタイプのゲームには代替案もあると思います。例えば、「降参します」の代わりにランダムなフレーズを使うことや、討論を行って相手に「私は間違っています」と言わせるなどの案があります。また、異なるゲームでは異なるモデルが良い成績を収める可能性があります。しかし、このゲームでも多くのことがわかると思います。
データとモデルのリーダーボードを見てみましょう。いくつかの異なるビューがあります。勝率でソートしてみましょう。これは非常に驚くべき結果であり、一貫して続いています。誰も予測できなかったでしょう。私も予測していませんでした。このトップモデルは実はClaude 3.5 Haikuです。勝率でも、バトルレーティングでも上位にいます。バトルレーティングはまだ改良が必要ですが、私が求めたのはKOでの勝利を報酬として与え、KOでの敗北をペナルティとすることでした。
勝率でソートすると、Claude 3.5 Haikuがトップなのは驚くべきことです。これはすべてのデータであり、様々なトーナメントを実施しています。Geminiは機能していません。これらの二つは、モデルが機能していなかったがもう一方のモデルが先に「降参します」と言った特殊なケースです。
このトーナメントには推論モデルと非推論モデルの両方が含まれています。Claude 3.5 Haikuは勝率とバトルレーティングの観点から最高であり、O3 Miniを上回っています。サンプル会話の一つではClaude 3.5がO3 Miniに勝っています。また、KOで負けることが少なく、KO勝ちを取ることが多いです。
Claude 3.7 SonnetやClaude 3.7 Sonnet Thinkingと比較すると、思考モデルがKOで負けることがあるのは驚きです。O3 MiniやO1が「降参します」と言うことはあまり期待できないでしょう。
また、推論モデルのみのトーナメントも実施しています。現在もマッチを実行中です。最新のデータを更新してみましょう。あまり変わりませんね。O3 Miniが最高の推論モデルであり、DeepSeekは完全に負けています。
DeepSeekについては、ベンチマークのスコアを上げるためにトレーニングに多くの時間を費やしたのだと思います。AIの世界ではこれがよく起こっています。良いベンチマークスコアを得れば、資金調達や尊敬を得られますが、必ずしもモデルやプロセスが優れているわけではありません。推論モデルがはるかに優れた成績を収めないことも驚きです。もっとデータを収集するにつれ、推論モデルが上位に浮上するかもしれませんが、推論モデルと非推論モデルは別のカテゴリーに分けるべきでしょう。
O3 Miniはモデルだけでなく、作業をチェックできるプロセスをも含んでおり、単に出力を生成するだけのモデルとは異なります。
推論モデルを含まないトーナメントでも、Claude 3.5 Haikuが最高の評価を得ています。勝率で見ると、Claudeが最も良い成績です。すべてのデータに戻って勝率で見ると、これは実世界の問題を解決するためにモデルを使用した私たちの経験とはるかに近いものです。Anthropicのモデルは1年以上にわたって最高でした。Googleのモデルはひどく、OpenAIのモデルは良いですが、Anthropicほど良くありません。推論モデルでさえ、非推論モデルに負けてしまいます。
この一つは少し古いデータを含んでいますが、それでも正確なはずです。このトーナメントでは全てのモデルが参加可能で、33勝12敗1引き分け、35勝21敗、14回のKO勝利、2回のKO敗北という結果です。このトーナメントはより多くの試合を含んでいます。思考モデルが実際のモデルより成績が悪いのは興味深いですが、これはデータが少ないためで、もっと集めれば改善するでしょう。
これら3つのデータは無視することをお勧めします。将来的には、人々が自分の「戦士」を提出できるようにする可能性もあります。今のところこのデータは無視してください。後で追加します。
データをクリーンアップする必要があります。これはモデルに入力するプロンプトであり、一部のモデルはこのプロンプトでより良い成績を収め、他のモデルは別のプロンプトで良い成績を収める可能性があります。また、ゲームに最適なプロンプトを見つけるというプロンプトエンジニアリングの戦いも興味深いでしょう。
「戦士」を提出したい場合は、こちらから提出できます。スクリプトを書かないでください。スクリプトを書いて何百万回も提出する人がいれば、これをオフにせざるを得なくなります。連絡は以下からできます。今後数週間でたくさんのマッチを追加し、大幅な更新を行い、同じタイプの第二のゲームを構築する可能性もあります。
まだ見ていますか?コメントで思うことを教えてください。これは興味深いですか?相対的なベンチマークとしてこれを使用することの長所と短所は何だと思いますか?これはあなたの実世界での使用経験と一致していますか?あなたの経験では、ClaudeはOpenAIのモデルよりも良い仕事をしますか?Googleのモデルはひどかったですか?DeepSeekはさらに悪いですか?
DeepSeekは本当にひどいです。彼らはベンチマークのスコアを上げるためだけにトレーニングしたに違いありません。これはそのベンチマークが嘘であることを示していると思います。偶然の不運な結果でない限り、結果を見るべきです。DeepSeek R1は256試合中27回もKOされています。それはひどすぎます。Llamaは実際にはGoogleのモデルよりも良い成績でした。
このようなベンチマークは、AI分野にいない人々や、実際に何を使うべきか、複雑な問題を解決するために何が実用的かを考えている企業にとっても、はるかに実現可能なものになると思います。このようなベンチマークを見ると、基本的に同じように見えるこれらのモデルの中からどう選べばいいのでしょうか?すべての企業がマーケティングで出しているベンチマークを、ここでテストにかけることで、何が本当に現実なのかを示します。
Google Thinkingモデルは機能していなかったため、データがありません。GoogleのAPIは時々機能しないことがあります。また、まだGrok 3 APIにアクセスできていないので、アクセスが得られ次第追加します。おそらくより創造的で制約が少ないため、このゲームではより良い成績を収める可能性があります。しかし、メトリクスに関してはDeepSeekと同様の問題がある可能性もあり、このベンチマークがそれを示すでしょう。
もしあなたの状況ややりたいことにAnthropicのモデルをまだ試していないなら、試してみることをお勧めします。特にHaikuを試してみてください。Haikuがこのゲームで優れている理由には何か特別な特性があるかもしれませんが、そうではないと思います。実際には人々が考えているよりも優れていると思います。
面白いことに、最近新しい人が来て、何かのために異なるモデルをテストしていて、「実はこの部分ではHaikuの方が良いと思う」と言いました。数週間前のことですが、私は彼を否定して「何を言っているの?Claude 3.5 Sonnetを使え」と言いました。しかし今は「ひょっとして彼は何かに気づいていたのかな」と思います。彼を否定してしまったのは早計だったかもしれません。
視聴ありがとうございます。あなたの考えが本当に知りたいです。これについてとても興奮しています。約1週間、このプロジェクトに非常に集中して取り組んできました。面白いことに、これは元々ここから始まったわけではなく、ベンチマークを作ることを目指したわけでもありません。まったく別のことを目指していたのが、ゲームを作ることになり、そのゲームが実はこれまで見たどのベンチマークよりもはるかに正確にモデルの価値と有用性を測定することになったのです。
あなたの考えを教えてください。楽しんでいただけたなら、「いいね」、登録、コメントなどをお願いします。他の人々もこれを見ることができるように。ありがとうございます、良い一日を。さようなら。


コメント