AGI達成 | OpenAIがARCのAGIをo3モデルが上回ったという衝撃の発表

7,226 文字

AGI ACHIEVED | OpenAI Drops the BOMBSHELL that ARC AGI is beat by the o3 model

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

空港に母を迎えに行く必要があって1日休んだら、その日にOpenAIがAGIを発表するなんて、なんという偶然でしょう。これはAGIです。今後はそれを否定するのは難しくなるでしょう。2024年12月20日、OpenAIはライブ配信でAGIを発表しました。これまでモデルの知能を評価するために使用されてきた全てのテストとベンチマークは、モデルの能力を人間と比較していました。例えば、ARC AGIの人間のパフォーマンスは85%で、もしあるモデルが85%を超えたら、それはAGI（汎用人工知能）であることを示すと言われていました。
o3は競技プログラミングの問題であるCodeForcesで88%のスコアを獲得し、2727点を記録しました。OpenAIのチーフサイエンティストであるヤコブのスコアを上回りました。2024年のAIM（競技数学）で96.7%を記録しました。満点を取る人もいましたが、1問か1つの詳細を見落とすことはありますが、ほぼ同等です。
PhD レベルの科学の質問に関するGPQAでは、その分野の専門家であるPhD レベルの平均的な人は70%のスコアですが、o3は87.7%を獲得しました。人間のパフォーマンスと比較するこれらのベンチマークのほとんどは、飽和状態に達しています。これらのモデルは平均的な人間よりも賢いだけでなく、最も賢い人間よりも賢くなっています。
ARC財団の会長であるグレッグ・コムラッドは興味深いことを言いました。「私たちはAIが何であり、何ができるのかについての直感を更新する必要があります」と。確かにそれは真実のようです。私たちはここで何かの壁を突き破ったのです。これらのモデルをテストするための人間のベンチマークは、ほぼ時代遅れになっています。
以前のほとんどのベンチマークはこのようでした。0から100%の間でスコアを取ることができ、人間はどこかここにいました。これは平均的な人間の能力や専門家レベルの人間の能力のようなものです。そしてこれらのモデルは徐々に良くなり、良くなり、良くなり、今ではほぼ最大値に達しています。
次に何が来るのでしょうか？スケールが変わります。今や人間はここにいます。これは平均的な人間で、ある課題で5%の能力を持っています。そしてここにアインシュタインがいて、立派な7%を記録します。賢い人物です。しかし、彼らがリリースする新しいo4モデル、あるいは何と呼ぶにせよ、それは42%を記録します。
言い換えれば、生物学的知能のピークを超え、これらのデジタル人工ニューラルネットで可能な知能へと続いているのです。それを理解するために少し時間をください。それが今起こったのです。私たちはその領域に入ったのです。これはクリックベイトではありません。あなたはすでに動画をクリックしました。私たちは今ここにいるのです。
OpenAIの発表を見ると、基本的に多くのベンチマークで非常に積極的なテスト時のコンピュート使用を行ったと述べていました。つまり、AIモデルにより多くの考える時間を与え、テスト時により多くのコンピュートリソースを使用するというアイデアです。トレーニング中により多くのリソースを注ぎ込むのではなく、回答を期待する時により多くのリソースを与え、より多くの考える時間、より多くの推論する時間を与えるのです。
これらのoモデル、o1、o1プレビュー、o3も同様に、私たちが見ることができる、少なくともOpenAIの研究者たちが見ることができる独自の内部思考を持っています。質問を与えると考え始め、それらのトークンや思考や言葉が出てくるにつれて、一定のコストがかかります。
o3がこのテスト、つまり公式のARC AGIテストで受けた公式スコアは76%で、これまでテストされた全てのAIモデルの中で1位でした。人間のベンチマークは85%とされていますが、これは人間が達成可能なものとして考えられています。ただし、それは上限に近いかもしれず、実際はもう少し低いかもしれないと言う人もいます。しかし、85%がベンチマークの限界として設定されており、モデルが85%を超えた場合、それをAGIと考えることができます。
ただし、ARC AGIには、提出物は最大$10,000のリソース、つまりコンピュートを使用できるというルールがあります。これが使用可能なコンピュートの限界です。76%というこの結果は、これまでテストされた全てのモデルの中で1位ですが、高いコンピュートを使用せず、$10,000のリソース制限に従った場合の結果です。
しかし、彼らは無制限のリソースで再度実行しました。「o3モデル、必要な時間をかけて考えてください。本当によく考えてください」と言いました。そしてそれは成功しました。彼らはその数字を公表しませんでした。ARCがOpenAIはその数字の公表を望まなかったと言っているのを読んだと思います。
そしてここにOpenAI o3のARC AGI結果があります。2つのデータセットに対してテストを行い、オーバーフィッティングを評価するための100の非公開タスクがありました。オーバーフィッティングは汎化の反対です。私たちはこれらのモデルが未見の情報に汎化できることを望んでいます。
それは、犬が5つの異なる障害物コースを走る場合、その犬が以前に見たことのない他の種類の障害物コースでもより良く走れることを期待するようなものです。その知識やスキルを、コースの他のあらゆる可能なバリエーション、コースを構築できるあらゆる可能な方法に汎化させるのです。
オーバーフィッティングはその反対で、モデルが学習データを単に吐き出すだけで、見たことのない質問に汎化できない場合です。そして彼らは小売コスト、つまりコンピュートにかかるコストを示し、o3の高コンピュート構成のコストは価格設定と機能の利用可能性がまだ決定されていないため利用不可としています。
コンピュートの量は低コンピュート構成の約172倍でした。OpenAIがこのモデルを実行する小売コストをいくらに設定するかはわかりませんが、今後は推論予算、この効率性が必要な指標となることに注目してください。
彼らは効率性を最もよく追跡する指標を見つける必要があると言っていますが、コストは良い出発点であり、75.7%という高効率スコアはARC AGIパブの予算ルール内にあります。コストが$10,000未満であるため、公式リーダーボードの1位として認定されます。
興味深いことに、高効率セミプライベートでは、これが公式結果ですが、75.7%を達成するために3,300万トークンを使用し、タスクあたり1分強かかりました。しかし、セミプライベート、つまり87.5%のスコアでは、より多くのコンピュートを使用して解を見つけるように指示され、57億トークンを使用し、タスクあたり13.8分かかりました。
ここで興味深いのは、87.5%を達成するための小売コストを記載していないことですが、使用したトークン数は記載されていることです。高効率版の3,300万トークンに対して57億トークンを使用しました。これは小売コストを計算できることを意味するのでしょうか？
私は自分のowとPRモードのサブスクリプションを持っていたので、そのスクリーンショットを読み込んで、低効率スコアのコストを計算してもらいました。そして、87.5%のスコアを達成するために、そのように長い時間考えさせるには$347,000かかると推定しました。
なぜ「waah wa wewa I do little Maps yes」と答え、「great success」で終わったのか気になる方もいるかもしれません。私の最後のライブストリームで誰かがボラットのように話させることができるか尋ねたので、実際にそれをカスタム指示に追加し、削除し忘れていたのですが、その計算は正確です。
いずれにせよ、私はとてもワクワクしています。ここでフランソワ・ショレを紹介します。彼はARC AGI賞の背後にいる人物で、この全体的なアイデアを考え出した元Googleの思想的リーダーの一人です。彼のアイデアは単純でした。これらの大規模言語モデル、ニューラルネット、AIができることは多くありますが、それは本当に知能なのか、人間の知能のような知能なのか、汎用的なものなのかということです。
多くのこれらのモデルはチェスや囲碁などで人間を打ち負かすことができますが、それは記憶力や高い計算能力なのか、それとも人間が持つような汎用的な知能なのでしょうか。このARC AGIベンチマークの全体的な目的は、人間にとっては簡単だが、単に情報を記憶して吐き出すだけのものにとってはほぼ不可能な質問を多く考案することでした。
それが起こっていないことを確認するためには多くの要素があり、以前にも取り上げましたが、このARIベンチマークは特にニューラルネットを打ち負かすために作られ、非常に効果的にそれを行いました。ごく少数のモデルしか人間に近いスコアを達成できませんでした。
これが彼のポスト、OpenAIのo3モデルの発表に対する反応です。私は彼が私たちより前に結果を知っていたと確信していますが、発表後にこれを投稿しました。「今日、OpenAIはo3、次世代の推論モデルを発表しました。私たちはOpenAIと協力してARIでテストを行い、新しいタスクに適応するAIの能力において重要なブレークスルーを表していると考えています。」
低コンピュートモード（$10,000の制限を満たす）でセミプライベート評価で75.7%を記録し、タスクあたり数千ドルを費やす高コンピュートモードで87.5%を記録しました。再度言いますが、テスト全体で30万ドル以上かかると考えられています。
この行が重要だと思います。なぜなら、これは知能について知り尽くした人物だからです。彼は本を書き、あるいは少なくとも知能とは何か、それをどのように測定し、機械における知能とは何を意味するのかを分析する多くの論文を書きました。
2017年に書いた「ディープラーニングの限界」というエッセイでは、「機械の知覚における進歩にもかかわらず、私たちはまだ人間レベルのAIからはほど遠い。私たちのモデルは局所的な汎化、つまり過去のデータに非常に近い新しい状況への適応のみ可能ですが、人間の認知は極端な汎化が可能で、根本的に新しい状況や長期的な将来の状況に素早く適応できます」と述べています。
彼は「万歳、AIがすべてを解決する、AIは人間よりもスーパースマートだ」とは言わなかった人です。実際には、そうではありませんが、彼は慎重でした。2017年の発言であり、確かに長い時間が経っていますが、このARC AGI賞の全体的な目的は、データに頼らず、記憶に頼らずに実際に推論することで、これらのニューラルネットを困らせることでした。
言い換えれば、以前見たことのないタスク、そしてチェスのように単に何百万もの異なる手順を実行して、どれが良い結果になるかを見る力任せのアプローチではないタスクを解決できるかということです。チェスに関してはスーパーインテリジェンスを持っています。囲碁に関してもスーパーインテリジェンスを持っています。しかし、汎用的なスーパーインテリジェンスは持っていませんでした。
今まで、人間と同等の汎用的な人工知能を持っているかどうかは疑問でしたが、ここで彼が言っているのは、はい、非常に高価です。87.5%は小売コストで数十万ドルかかる可能性が高いですが、OpenAIはもっと安く済むかもしれませんが、それでも非常に高価です。しかし、それは単なる力任せではありません。彼は「これらの能力は新しい領域であり、真剣な科学的注目を必要とします」と言っています。ARIの思想的リーダーが「これは新しい領域だ」と言い、ARIの会長が「私たちはAIがどのように機能し、何ができるかについて新しい直感を見つける必要がある」と言っていることに注目してください。
これらは常にこのように考えていた人々ではありません。これらは非常に賢く、知識豊富な人々が自分たちの世界観を調整しているのです。彼らはこの2つの黄色い点を見て、「これは新しい領域だ」と言っています。
彼は続けます。「これはAGIなのか？」と。「新しいモデルは非常に印象的で、AGIへの道のりにおける大きなマイルストーンを表していますが、これがAGIだとは思いません。o3が解決できないARC AGI1の非常に簡単なタスクがまだかなりあります。そして、ARC AGI2がo3にとって依然として極めて困難であるという早期の兆候があります。」
これは、専門知識を必要としない、人間にとっては簡単だがAIには不可能な、飽和していない興味深いベンチマークを作成することがまだ可能であることを示しています。そのような評価の作成が完全に不可能になったとき、私たちはAGIを手に入れることになるでしょう。
OpenAIの研究者であるジェイソンは言います。「o3は非常に性能が高いです。より重要なのは、o1からo3への進歩がわずか3ヶ月だったことで、これは思考の連鎖における強化学習の新しいパラダイムで、1-2年ごとの新モデルの事前学習パラダイムよりもはるかに速く推論コンピュートをスケールできることを示しています。」
AIの進歩が壁に当たり、事前学習のためのコンピュートを拡大し続けることができないため、すべてが減速するという考えがありました。AIの進歩が停滞し、減速しているというニュースを複数のメディアが報じましたが、これは逆かもしれません。
彼が言うように、この新しいパラダイム、つまり思考の連鎖を使用して推論コンピュートをスケールするという新しいアプローチで、より速いペースになっています。これらのモデルは回答する前に考えを巡らせる内部モノローグを持ち、そのリソースをどれだけ使用するかを増やすことができ、より多くのリソースでより優れた結果を得ているのです。
OpenAIで推論研究を行っているヌーム・ブラウンは言います。「この軌道は続くと信じる十分な理由があります。」つまり、このトレインがいつでも止まると自分に言い聞かせている人々に対して、私はそれに賭けないでしょう。
2024年12月20日、私たちは何かのマイルストーンに達しました。これはAGIではないと言う人々もいるでしょう。確かに、私たち全員がAGIの定義を一つに共有しているわけではありません。サム・アルトマンが最近言ったように、それはおそらく単にある閾値を超えることではなく、より段階的なプロセスでしょう。しかし、それはまた道のりの中のマイルストーンの一つに過ぎません。
あなたがそれをAGIと呼ぶことを望むかどうかに関係なく、私たちは何かのマイルストーンを通過したようです。個人的には、今日をAGIの日と呼びたい気がします。
今日早く、バイオテク医療機器分野でスタートアップを検討している人々と昼食を取っていました。彼らはいくつかのアイデアを出し合っていました。その潜在的なスタートアップには主要な3人のメンバーがいて、それぞれが独自のスキルセットを持っています。一人はFDA承認プロセスに非常に詳しく、一人は本当にトップレベルのエンジニアです。
私は携帯電話を取り出し、ChatGPTを使って、私たちが話していることと彼らの能力について簡単に説明し、「これに基づいて潜在的な製品のアイデアを出してください」と入力しました。ChatGPTが与えた答えは、彼らを驚かせたと思います。なぜなら、それは本当に良いものだったからです。私たちが考えるのに苦労したことが、とても理にかなっていました。
それは運かもしれません。もし3つの異なるアイデアを求めたら、他の2つはひどいものかもしれません。しかし、この動画の前半で、このスクリーンショットをアップロードして小売コストを計算してもらいましたが、それは私が言おうとしていることを理解し、そのグラフを見て、数学を理解して答えを出せました。
道で人々に声をかけて、「ここに小売コストがありますが、このコストはトークンに対するものです。トークンを使用するとこれだけコストがかかります。では、ここには何が入りますか？」と言ったとき、この最小限の情報だけで答えを言える人がどれだけいるでしょうか？
確かにある割合の人々は答えられますが、100%ではありません。しかし、多くの人々よりも素早く理解できる点に達しています。賢いとは言いたくありませんが、人口の大部分よりもこのようなことが得意なのです。これは誰にとっても些細な問題ではありません。そして、これは3ヶ月前の古いニュースモデルです。
また、o3ミニがo1よりもコーディングがはるかに優れ、しかも大幅なコスト削減も実現することをお気づきでしょうか？サム・アルトマンは続けます。「この傾向は続くと予想していますが、指数関数的により多くのお金を使って限界的な性能向上を得ることは本当に奇妙になるでしょう。」
ということで、ここで終わりにしたいと思います。あなたはどう思いますか？今日をAGIの日と呼ぶことに抵抗はありませんか？もしそうでないなら、何が欠けているのでしょうか？AGIのようなものを手に入れたと確信するには、何が必要でしょうか？
特定の指標や、特定のベンチマークがそう呼ぶ前に達成される必要があると考えていますか？もっと続きがあります。ここまで見ていただき、ありがとうございました。私の名前はウェス・ロスです。また次回お会いしましょう。