
6,933 文字

o1は史上最悪のモデルです。これを見てください。GPT 4oにも勝てないなんて。なぜ彼らは物事を悪化させているのでしょうか。o1プレビューの方が良い、o1プレビューの方が良い、o1プレビューはほぼ同じか若干良い、コーディングではClaudeの方が良い。これを見てください、o1プレビューの方が良いのに、なぜこんなにひどいのでしょう。
o1は明らかに最高のモデルです。これらの指標を見てください。数学やコーディング、科学においてものすごく良くなっています。なぜ誰もが疑問を持たないのでしょうか。この指標を見てください。言語でも優れています。つまり言語も数学も優れており、Sam Altmanは間違いなくこれが最高のモデルだと言っています。そして彼は常にバイアスなく真実を語っています。
こんにちは。この動画はo1とベンチマーク、そしてAIの真実についてです。ここでの目的は、一歩下がって評価とベンチマークを解読し、数字の背後にある意味を理解することです。序文でお分かりの通り、見方によってはAIを嫌う人々の餌食となり、来年にはAGIの神になると主張する人々の餌食にもなります。
私はこれらの評価が実際に何を意味するのかについての議論があまり見られないと思います。私たち人間は単一の答えを求めたがります。37は37で42は42だから、42の方が37より優れているという単一の基準が欲しいのです。残念ながら、物事はそのように機能しません。
実際に評価とその意味を見てみましょう。まず、評価は無意味ではありません。評価が何も意味しないと言うのは正しくありません。ここでリンクしている記事で、各評価が意味することの詳細を見ていくことができますが、それらは完全な意味を持つわけでもありません。AIの真実や現状、その進展について知る必要のあることすべてを教えてくれるような評価やベンチマークのセットは存在しないのです。
繰り返しになりますが、私たち人間は単純な数字を求める欲求があり、これは政治などの多くの場面で人々が利用する部分です。しかし、それは現実の仕組みではありません。私は個人的にも職業的にもデータから意味を引き出すことに多くの時間を費やしてきました。
これは評価やベンチマークだけでなく、政治やその他のあらゆるデータにも当てはまります。人間として私たちは単純な数字に落とし込みたがりますが、それが有用な場合もありますが、特定の人々がベンチマークを自分たちに都合の良い方法で使用し、都合の悪いベンチマークを無視する場合には、非常に誤解を招く可能性があります。
o1に関して、何が重要で何が重要でないのか、そしてそれらをより広く解読する方法について、本質に迫りたいと思います。ChatbotArenaは恐らく私のお気に入りで、全体的に最も優れたベンチマークの一つだと思いますが、それでさえも全てを説明しているわけではありません。
実際にそれを使用したいと考える人々はごく一部の人口に限られており、AIが前進したすべての異なる方法を完全に表現しているわけではありません。特にチャットという枠組みの中で行われており、LLMができることのすべてではありません。
また、数字と分布については、これは私が見る最も一般的な問題の一つです。これは人生の多くの分野で表れます。人々は数字が右上に向かって(あるいはあなたにとっては左上に向かって)いくのを見て、それが直線的であることを期待します。しかし、現実にはほとんどすべての分布は非線形で、直線ではありません。
短期間では直線に見えることもありますが、一般的には曲線を描きます。応用物理学や機械工学、あるいは実世界の実際の数学を含む何かを学ぶとき、これを何度も何度も目にします。直線は存在せず、これはLLMの評価においても、実世界の他の多くの事柄と同様に真実です。
各評価は意味の非常に薄いスライスを測定しています。その前に、最近書かれた非常に良い記事があります。ありがとう、アニータ。これは異なるベンチマークについて議論する良い記事です。各ベンチマークについて深く掘り下げることはしませんが、全体について話しましょう。
ここで人々は傾向としてこれらを集計します。繰り返しになりますが、これらの各々は小さなスライスであり、それ自体に大きな問題があります。MLUはマルチタスク精度です。これはGP、QA推論能力、Pythonコーディングタスク、数学の問題、モデルが関数やツールを呼び出す能力です。
私はそれについて全ビデオを撮るべきです。なぜなら、私はそれがこれらを使用する方法だとは思わないからです。カスタムを書くとき、私たちがそれを行う方法では、モデルのツール使用に依存するのではなく、より良い結果を得られると思います。
多言語能力について。そして、考え方としては、これらを測定し、何かを意味するということです。これらすべてで非常に良いスコアを取り、これを集計すれば、素晴らしいモデルだということになります。
LLMリーダーボードを見てみましょう。ここにはさまざまな異なるタスクがあります。これは素晴らしいですね。OpenAI o1はベストコーディングでかなり良い成績を収めています。Claude Opus 3.5 Opusはまもなくリリースされると思います。数学では間違いなく素晴らしい成績を収めています。
Chatbot Arenaを見てみましょう。GP4oにはo1は含まれていません。これらはかなり僅差の差であり、すぐに話しますが、これらの各々について、私は別の比喩を用いました。そして、さらにいくつかの比喩を用いるつもりです。
これが本当に意味することをより深く掘り下げていく中で、これらを理解するのに役立つと思います。これらの各々は、象の足の裏を見るようなものです。これは象です。これは象について説明されなければならないすべてのことを説明していますか?全く違います。
これが象について見た唯一のものだとして、誰かが「これが象です」と言ったら、象を理解できるでしょうか?答えは「いいえ」です。そして実際にはこれよりもはるかに悪い状況です。なぜなら、私は本当に10,000以上の異なる次元があると考えているからです。
ここで私たちは6つの異なる次元を見ています。3つの異なる次元を見ています。たとえこれらのベンチマークが非常に優れていて、完全に正確で欠陥がないと仮定したとしても、これらのモデルがどのように機能し、何ができるかについての非常に小さなスライスしか見ていないのです。
私は10,000以上の次元があると考えており、私たちはほんの一握りしか収集していません。その一握りには意味がありますが、どうか、このモデルが大きくなったり、数字が高くなったり、PhD数学でより優れているからといって、人間より優れているとは考えないでください。測定の非常に小さなスライスに過ぎません。
特に暗記に関して、私はもっと多くのことがあります。後で触れますが、問題の一つは暗記です。ファインマンのブラジルでの経験について。リチャード・ファインマンを知らない人のために言うと、彼には「ご冗談でしょう、ファインマンさん」という素晴らしい本があります。さまざまな角度から見て非常に面白い本です。
その中で彼がブラジルで経験したことがあります。彼が2年ほど訪れた当時のブラジルの人々は、彼が講演を依頼されたとき、彼らは彼が何を言うか知りませんでした。これは非常にファインマンらしいことです。彼は「ここでは科学が教えられていない」と言います。
基本的に、彼らは実際に理解したり考えたりすることなく事実を暗記しているということです。私はこれが、これらのテストが示すことの多くだと考えています。つまり、実際に理解することなく事実を再現しているのです。
これは現在のこれらのモデルに起こっていることの非常に的確な例だと思います。そして、実際にこれはテストが測定することの多くです。これは学校で起こることと似ています。ブラジルだけでなく、世界中で起こっています。
その後、彼が正しかったことに気付き始めたため、かなり改善されたと思います。つまり、可能な物理の問題をすべて暗記することができます。特に教師が注意深くない場合や、テストの種類を事前に知っている場合には、実際に考えることなく機械的に問題に答えることができます。
しかし、ファインマンが示したのは、わずかなカーブボールを投げても、それが実際には理解していないことを示すということでした。これは現在の大規模言語モデルにとても当てはまります。ほんのわずかなカーブボールを投げるだけで、完全にゲームを狂わせてしまう例がたくさんあります。
例えば、文章題を与えて、無関係な追加情報を入れると、ほとんどすべての場合、非常に悪い結果になります。これは嫌い派とファンボーイの両方に餌を与えています。私の最近の動画を見ると、私が嫌い派だと思うかもしれません。私は嫌い派ではありません。
私は実践主義者だと思います。AIには現実世界での価値が確実にあると考えています。それはチャットやAIエージェントを超えて広がっており、今後5〜10年の間に、たとえモデルが完全に現状で停滞したとしても、ほぼすべてのビジネスのあらゆる部分がAIによって変革されると思います。
しかし、一部の人々があまりにも先走っていると思います。AIやAGIの神についての未来像を描くことについて、私はそれを示す証拠が現時点であまりないと思います。変わる可能性はありますが、私たちが考えているよりもかなり遠い道のりかもしれないことを示す証拠が多くあると思います。
以前に政治について言及しましたが、これは政治家が常に「70%の人々がこう考えている」といった投稿で人々を欺くことができる理由です。しかし、質問はどのように尋ねられたのでしょうか?誰に尋ねたのでしょうか?
これには多くの異なるニュアンスがあり、データはその意味を理解するのに役立ちます。これらの評価についても同じことが言えます。これらはどのように実施されたのでしょうか?どのように分析されたのでしょうか?OpenAIやGoogle、Anthropicがテストセットで単に訓練しただけではないことをどのように知ることができるのでしょうか?
彼らはそれを行うことができたはずです。あるいは、意図的にそうしなかったとしても、訓練セットの95%に実際のテストが含まれているかもしれません。そして、その上に、Chatbot Arenaで示したように、僅差の差があります。
これらはすべて1300以上で、みな同じような範囲にあります。誰かが「OpenAIは次の…Geminiを打ち負かした」と言います。Geminiが一時期トップにいた時期があったと思います。「新しい最高のモデル」と。しかし、基本的に同じです。これは多くのこれらのモデルの誤差の範囲内です。
これらのテスト、これらのベンチマーク、これらの評価には大きな誤差の余地があると言えます。これらの問題のいくつかについては既に触れましたが、もう少し詳しく見ていきましょう。すべての角度を確実に押さえるようにします。
評価データでの訓練は、意図的にも無意図的にも確実に起こっています。基本的に、ベンチマークが一定期間存在すると、訓練セットに入り込んでしまうため、無用になるという考え方があります。
これは資金調達の良い方法です。オープンソースモデルを取り、訓練できると思うベンチマークを見つけ、そのベンチマークで徹底的に訓練し、Twitterに投稿します。「私はファインチューニングを作成した」あるいは「このベンチマークで訓練した、これは新しい最高のモデルだ」と投稿して、5億ドルを要求します。それは常に機能するわけではありませんが、これまで機能してきましたし、今後も機能し続けるでしょう。
これを偽装する方法は多くあります。以前も述べましたが、Chatbot Arenaの参加者は一般的な人々ではありません。そして繰り返しになりますが、これはユースケースの狭いスライスに過ぎません。
以前にも述べましたが、暗記は学習や理解ではありません。テストには、数学でさえ、非常に論理的なものでさえ、ある程度の暗記が含まれています。これはファインマンの例で、これは大学でしたが、これらの人々の中には大学まで暗記で乗り切り、実際には何も理解していない人々がいました。
これらの人々を批判しているわけではありません。彼らが悪いと言っているわけではありません。これは成績を取得し、次のレベルに進むための戦略になり得ると言っているだけです。しかし、実際には理解への本当の方法ではなく、実世界のシナリオに置かれたとき、生産的な方法で問題について考えることができないのです。
ファインマンが本当に人々に望んだのは、私が基本原則と考えるもの、他の人々が第一原理と呼ぶものを実際に理解することでした。これはほとんどのテストが実際に測定することです。つまり、暗記とその再現です。そしてそれが、なぜそれがそれほど多くのデータで訓練されるのかの理由です。
私がまだ非常に正確だと考えている別の言い方をすると、それは新しいレシピを作ることはできますが、新しい材料を作ることはできません。時々、AlphaFoldのように、それは材料を独特の方法でリミックスすることができ、それは有用です。しかし、実際には新しい材料を作っているわけではありません。
これらの評価の非常に大きな部分は、知識の再現のみを示しています。実際に一歩下がって考えてみると、これは本当に重要です。スマートフォンを置いてください。これは実際に、AIに関して最も価値のある事柄の一つであり、ほとんど誰も話題にしていません。
それはAIの仕組みの基本的な部分であり、技術がどこに向かい、何が可能かを理解するのに役立つと思います。これらのモデルで彼らが行ったことは、大きな言語モデルの外にも存在しますが、単語の意味を、小さな塊であれ大きな塊であれ、数学に変換することができたということです。
これらは本質的にベクトルであり、数値のリストとして考えることができます。これがどれほど関連しているか、あれがどれほど関連しているかを測定する、かなり長いリストです。私の大学院時代の線形計画法とその応用に関する古い本がここにあります。とても良い本です。また読み返す必要があります。
基本的に彼らができることは、これらのベクトルを2つ取って掛け合わせることです。これらを組み合わせるさまざまな方法があります。コサイン類似度やその他の類似度の種類があり、若干異なる答えを与えますが、一般的にこれは2つのテキストの塊が意味的にどれほど近いかを教えてくれます。
これはLLMの仕組みの基本であり、問題を与えられたときに、それがデータセットの最も関連性の高い部分を使用して質問に答えることができる理由を理解するのに役立ちます。データセットのこの部分、この部分、そしてこの部分に属する何かを与えると、通常はそれらが接続されていなくても、それらの点を結びつけることができ、一見新しい答えのように見えることを生み出すことができます。
しかし、実際には基本的に知識を再現しているか、もう少し良い言い方をすれば、既存の材料を新しい式に再結合しているのです。これは私にとって、すべてのベンチマークの最大の課題の一つです。それらは実際の理解ではない暗記を大きく表現しているからです。
素晴らしいファインマンの本に戻りましょう。とにかく、これが私がこれについて持っている考えです。o1はとても素晴らしく、多くの面で正しい方向への動きだと思います。
これはモデルだけでなくプロセスでもあることを覚えておいてください。基本的に彼らは4oバージョンのモデルを推論で微調整し、それを思考の連鎖のループに入れています。それが彼らが行っていることの核心です。
そのため、これは単なるモデル同士の比較ではなく、モデルとプロセスの比較です。りんごとイチゴを比較するようなものです。これも重要な要因です。少しずるいところがあり、公平な比較ではありません。
AnthropicとClaudeがすぐにキャッチアップし、同様のものを近々持つことを期待しています。なぜなら、思考の連鎖については2年以上前から知られているからです。
ありがとうございました。この動画が気に入ったら、いいねとチャンネル登録をお願いします。より素晴らしいコンテンツをお届けします。皆さんの考えをお聞きしたいと思います。私と意見が合わない場合でも、あなたの考えをお聞かせください。
また、同意いただける場合は、私のバイアスを確認するのを嬉しく思います。コメントには全員に返信するよう努めます。ありがとうございました。そして、あなたの実験や、o1についてのあなたの経験をお聞かせください。良い一日を。さようなら。


コメント