このテストはAIをブロックするために作られた — GPT-5がついに突破した

GPT-5
この記事は約11分で読めます。

GPT-5がARC AGI 2という最難関ベンチマークで人間レベルに到達した。このベンチマークは抽象推論と流動性知能を測定するもので、人間の平均スコアは約60%であるのに対し、ポエティック社の最新GPT-5バージョンは約75%を達成した。この躍進の鍵は「アンホブリング」と呼ばれる手法である。アンホブリングとは、AIモデルに制約を課していた様々な制限を取り除き、既存のモデルから最大限の性能を引き出す技術的アプローチを指す。ポエティックは大規模で高価なモデルを使うのではなく、マネージャーAI層を追加してタスクを分解し、コード生成を活用し、自己チェック機能を実装することで、効率的に人間レベルの推論能力を実現した。Leopold Aschenbrennerが2024年に発表した論文「Situational Awareness」で予測されていた通り、アンホブリングはAI進化の重要な推進力となっており、今後さらに劇的な性能向上をもたらすと考えられる。ARC AGI 2の創設者フランソワ・ショレは、このベンチマークをクリアしたことは「非ゼロの流動性知能」を示すものの、真のAGIにはまだ遠く、2026年3月に予定されているARC AGI 3ではインタラクティブ推論と自律的目標設定能力が試される予定である。

This Test Was Built to Block AI — GPT-5 Finally Passed It
Checkout my newsletter : - 🐤 Follow Me on Twitter 🌐 Learn AI With Me :

GPT-5が最難関ベンチマークで人間レベルに到達

GPT-5が最も難しいベンチマークの1つで人間レベルに到達しましたが、それは皆さんが想像している方法ではありません。このことについて詳しく見ていく必要があります。

今ご覧いただいているのは、ARC AGI 2と呼ばれるグラフです。これは抽象推論をテストするために設計されたベンチマークで、だからこそARC AGIベンチマークと呼ばれているわけです。

ARC AGIという名前を聞けば、明らかにこれは何らかのAGI関連のベンチマークだと思うでしょうし、実際その通りです。これは通常LLMが直面する標準的なテストとはかなり異なります。このベンチマークには、より厳選された複雑なタスクがあり、タスクごとの効率性など明確に異なる指標が設定されています。つまり、特定の結果を得るためにタスクごとに実際にどれだけのコストがかかったかを把握する必要があるのです。

このベンチマークの詳細すべてには立ち入りませんが、このベンチマークは流動性知能テストとして位置づけられており、記憶された知識やデータセットへの精通度ではなく、一般化、パターン発見、構成的推論を対象としています。そして、平均的な人間の受験者は約60%のスコアを取ることがわかっています。

長い間、ARC AGI 2ベンチマークにおいても、現在の大規模言語モデルでこの閾値を超えるには、おそらく次世代のモデルまで待たなければならないだろうと多くの人が考えていました。しかし明らかにそうではなく、現在、このベンチマークにおいて人間を上回るGPT-5のバージョンが存在しています。

アンホブリングという革新的手法

そして、私が実際にこのことについて話している理由は、これがどのように達成されたかということです。それは、ほとんどの人がまだ気づいていない方法で達成されました。そして、この動画は、AI加速が実際に私たちが思っているよりも速く進んでいる理由と、AI開発のいくつかの分野における進歩がいかに急速に訪れるかを、ほとんどの人が理解していない理由を皆さんにお見せすることになると思います。

さて、この動画が実際に扱っているのは、私が「アンホブリング」と呼ぶものです。このGPT-5バージョンの背後にある企業であるポエティックが、平均的な人間の受験者と比較して約76〜75%を達成したことがわかります。

ほとんどの人は、2024年中頃に出回ったこの論文を覚えていないかもしれません。元OpenAIの研究者であるLeopold Aschenbrennerが「Situational Awareness: The Decade Ahead」という論文を作成しました。

基本的に、Aschenbrennerがこの論文でやろうとしたことは、戦略的状況とAIの進歩が実際にどれほど速く進むかについて、誰もが明確に認識できるようにすることでした。そしてこの論文の中で、彼が実際に話しているのはアンホブリングと呼ばれるものです。

このグラフでは、AIモデルの知能を向上させるさまざまな要素をすべて見ることができます。そしてもちろん、赤で強調表示されているのは、アルゴリズムの進歩であるアンホブリングと呼ばれるものです。では、このアンホブリングが何であるか実際に見てみましょう。皆さんが理解を解読できるようにです。

アンホブリングの本質とは

彼はこう言っています。まず、定量化するのは最も難しいが同様に重要な改善のカテゴリーは、私がアンホブリングと呼ぶものです。難しい数学の問題を解くように求められたとき、心に浮かんだ最初のことで即座に答えなければならなかったと想像してください。最も単純な問題を除いて、苦労するのは明らかです。しかし最近まで、それがLLMに数学の問題を解かせる方法でした。

その代わりに、私たちのほとんどは、スクラッチパッドで段階的に問題を解き、その方法ではるかに難しい問題を解くことができます。Chain of Thoughtプロンプティングは、LLMにそれを可能にしました。優れた生の能力にもかかわらず、彼らは以前の方法で制約されていたため、本来できるよりもはるかに性能が悪かったのです。そして、より大きな能力を引き出すには、その小さなアルゴリズムの調整が必要でした。

基本的に、私たちはチャットボットから思考できるチャットボットへと移行し、膨大な範囲の能力を解き放ったと言っているのです。

そして、進歩を分解すると、進歩の推進力において、アンホブリングがAIの進歩を実際に推進するものの大部分を占めることになることがわかります。

そして今、ポエティックの新しいARC AIベンチマークに戻ると、平均的な人間の受験者が取るものを、約60%を獲得した標準モデルから、75%まで押し上げました。これは信じられないことです。なぜなら、これは私たちがアンホブリングと呼ぶものの明確な実証だからです。

アンホブリングの具体的効果

さて、私がこれについて動画を作っている理由は、これがアンホブリングのたった1つの方法に過ぎないからです。ポエティックのメタシステムについて、彼らが実際に何をしたのかについては後で話しますが、非常に興味深いと思います。なぜなら、彼はアンホブリングがこれらのモデルを有用にしたものだと述べているからです。

そして私は、今日多くの商用アプリケーションを妨げているものの多くは、この種のさらなるアンホブリングの必要性だと主張します。実際、今日のモデルは依然として信じられないほど制約されています。たとえば、長期記憶がありません。コンピューターを使えません。ほとんどの場合、話す前に考えることはまだありません。そして、ほとんどの場合、短いやり取りの対話にしか関与しません。

そして彼は、ここでの可能性は膨大だと言っています。私たちは低く垂れ下がった果実を摘んでいるのです。継続的なアンホブリングの進歩を伴うGPT-6を想像するだけでは完全に間違っています。改善は、GPT-6プラスRLHFと比較して段階的な変化になるでしょう。2027年までに、単なるチャットボットではなく、エージェントや同僚のように見えるものを手に入れることになります。

そして、彼らがGrok 4 fastに対して何ができたかを見てください。彼らのメタシステムを使用することで、推論レベルを約56〜57%から約72%まで引き上げることができました。そして、これはクレイジーだと思います。

アンホブリングは、ツール、フレームワーク、エージェントシステム、組織、プロンプトのいずれであっても、LLMを足場化する方法にすぎません。基本的に、生のベースモデルからより多くのものを得ることができるということです。

そして、これは彼らがGemini 3でできたことでもあります。ここでGemini 3 Proが約30%未満のスコアを獲得したことがわかりますが、その後Gemini 3Aを作成し、いくつかの調整を行って38%を達成しました。

その後、さらに調整を行い、約44%を達成し、さらに調整を行って人間の受験者のレベルまで到達しました。そして再び、さらなるアンホブリングにより、そのレベルを上回ることができました。

ポエティックのメタシステムの仕組み

では、彼らは正確に何をしているのでしょうか。基本的に、これは、ポエティックがより大きく、より高価なモデルを使用せずに他のAIを打ち負かす理由を本質的に示しています。

覚えておいてください、彼らがやっているのは、より良い答えに到達するLLMの周りにシステムを作ることだけです。左側には、通常のAIが質問に答える方法があります。つまり、1つの大きなモデルに尋ね、1つの大きな推測をし、たとえ間違っていても全額を支払います。

そしてそれは時々うまくいきますが、覚えておいてください、それは高価です。信頼性が低く、難しい推論タスクには無駄が多いのです。本質的に、ワンショット、1つの答え、セーフティネットなしです。

そして真ん中にあるのは、マネージャーAIがあるところです。これがポエティックです。これが重要なアイデアです。ポエティックは、モデルの上にマネージャー層を追加します。

そして、このマネージャーは、どのモデルを使用するかを決定し、問題をステップに分解する方法を決定し、いつコードを書くかを決定します。そして、自分自身の進捗をチェックします。そして、解決策が十分に良い場合は早期に停止します。知能はモデルだけにあるのではありません。システム全体がどのように考えるかにあります。

アンホブリングの今後の展望

そして、ポエティックのようなシステムが自己チェックして早期に停止できる場合、計算の無駄を避けることができ、乱雑な推論を制御されたプロセスに変えることができます。そして、ほとんどの人がこれを見逃すと思います。なぜなら、ほとんどの人はベンチマークを見て、額面通りに受け取るだけだからです。

しかし、他の企業がそれらのベースモデルを取得し、その後、そのベースモデルを使用して、自分たちが持つ可能性のある目的のためにモデルからさらに多くのものを得ることができるというのは興味深いと思います。

ここで、誰かが、これは平均してタスクごとにどのくらい時間がかかったのか、平均的なテストでは人間1人あたり平均5分だったと言ったのを見ることができます。そして彼らは、現時点では明示的にそれらの統計を収集していないが、最も簡単な問題は最初から最後まで8分か10分後に始まるのを見たことを覚えていると言いました。あるいは最も難しい問題については、制限内に収まるために12時間前に終了しなければなりませんでした。

したがって、間違いなく改善の余地があります。特定のタスクにはまだ改善の余地があります。なぜなら、これらのAIは効率的に推論しないからです。しかし、ARC AGI 2が本質的に人間レベルにあるところまで打ち破られたということは依然として非常に興味深いことです。なぜなら、これが最初に出てきたとき、人々は、AIシステムはしばらくの間このベンチマークに抵抗するだろうと言っていたのを覚えているからです。

ARC AGI創設者の見解

ここで、フランソワ・ショレが、ARC AGI 1または2を飽和させることが今AGIを持っていることを意味するかどうか疑問に思っている場合、昨年ARC AGI 2を立ち上げたときに言ったことを参照してくださいと言っているのを見ることができます。

フランソワ・ショレは、基本的にベンチマークをチームと一緒に作成した人物です。そして彼は、ARC AGI 1または2を飽和させることが今AGIを持っていることを意味するかどうか疑問に思っている場合、昨年ARC AGI 2を立ち上げたときに言ったことを参照します、そしてそれはARC AGI 2が来ると発表したときに言ったのと同じことだと言っています。

ARC AIは流動性知能の最小限のテストであり、そのテストに合格するには、非ゼロの流動性知能を示す必要があり、これにはAIが事前トレーニングとスケーリング、静的な推論モデルという古典的なディープラーニング/LMパラダイムを超えて、テスト時適応に向かう必要がありました。

さて、基本的に彼がここで非ゼロの流動性知能が意味することは、トレーニングデータからパターンマッチングするだけでなく、文字通り一度も見たことのないものを推論できることを証明する必要があるということです。古いパラダイムが失敗したのは、大規模なデータセットで事前トレーニングし、モデルをより大きくスケーリングし、静的システムとしてデプロイすると、記憶したパターンを取得するだけになることが多く、それは実際にはARC AGI 1でゼロを獲得したからです。だからこそARC AGI 2が存在するのです。

さて、彼はARC AGI 2は基本的に同じだが、特に概念構成に関して、より深いレベルの推論の複雑さを探るタスクもあると言っています。

それでも、これらは外部ツールなしで通常の人々が数分で解決可能なタスクです。どうやら、彼らは街頭でテスト受験者を雇うだけのようです。したがって、人間の流動性知能ができることの上限を表しているわけではありません。たとえば、ミレニアム問題を解くことです。

そして彼は基本的に、ミレニアム懸賞問題は、歴史上ほんの一握りの人間だけが潜在的に解決できるほど困難な数学的課題であり、何年もの深い推論が必要だと言っています。

さて、基本的に彼はここで、たとえモデルがこれらで高得点を達成していたとしても、それはまだ人間の知能が本当にできることの上限を表していないと言っています。

もちろん、彼は2026年3月に立ち上げ予定のARC AI 3に取り組んでいると述べており、これはインタラクティブな推論を探ることになります。

ARC AGI 3への進化

したがって、彼らは、システムがどのように未知の環境を探索し、モデル化し、独自の目標を設定し、指示なしで自律的にこれらに向かって計画し実行するかを評価することになります。

つまり、これは、未知の空間を探索して情報を収集し、メンタルモデルを構築し、独自の目標を設定し、それらの目標に向かって複数ステップの戦略を計画しなければならない、ゲームのような環境になるのではないかと推測しています。

もちろん、ARC AGI 2を突破した現在のAIシステムでさえ、問題構造が与えられることに依存しています。そして、その足場を取り除くと、残念ながら崩壊します。

したがって、もちろん、ここでの静的な問題はこれら3つの例です。さて、この4番目のものを解決してください。しかし、新しいテストは、あなたは新しい世界にいます。ルールを理解し、何をすべきか決定し、それから先に進んでそれを実行してください。

それは知能の完全に新しいテストとなり、完全に新しい環境でどれだけ効率的に学習できるか、初めて同じゲームをプレイする人間と比較されることになります。それが真のエージェンシーであり、パターンマッチングと真の知能を分ける欠けている部分です。

そして、ARC AGI 4とARC AI 5がどのようになるかを見るのは非常に興味深いと思います。なぜなら、彼はそれにも取り組んでいるからです。

したがって、はい、私たちは人間レベルに到達しましたが、これほど早くここに到達できたのは驚くべきことだと言えるでしょう。また、論文がアンホブリングが起こると述べており、実際に起こっているのも非常に興味深いことです。

それらのアンホブリングの利益は本当に真実です。

コメント

タイトルとURLをコピーしました