ARC AGI 3がついに登場、それがAGIにとって意味するもの

本動画は、AIの汎化能力を測定するベンチマーク「ARC AGI」の最新版である「ARC AGI 3」について解説したものである。人間にとって容易だがAIには困難なこのテストのこれまでのバージョンを振り返りつつ、新たに導入されたインタラクティブな要素を持つARC AGI 3の仕組みを実際のプレイ画面を交えて紹介している。現状の最先端AIモデルがいかにこのテストに苦戦しているかを示し、完全なAGIへの道のりがまだ遠いことを浮き彫りにしている。

ARC AGI 3 just dropped, what it means for AGI

Microsoft 365 Copilot Business – ROI of AI Guide: out the Short:

ARC AGI 3の登場とベンチマークの概要
ARC AGI 2の難易度とリーダーボード
スポンサーメッセージ：Microsoft 365 Copilotの紹介
ARC AGI 3のインタラクティブな挑戦
AIモデルの苦戦と将来の展望

ARC AGI 3の登場とベンチマークの概要

Arc AGIは、人工知能によってまだ完全に攻略されていない唯一のベンチマークです。そして今回、彼らは新しいインタラクティブなAGIベンチマークであるARC AGI 3を発表しました。人間はこれを100%解くことができますが、AIは1%未満しか解けません。私の意見では、これは世の中で最もクールなベンチマークであり、今日はこれについてすべてお話しします。

これまでARC AGIベンチマークについてはかなり話してきましたが、今回で3回目のイテレーションになります。まずは最初の2つがどのようなものだったかをお見せしましょう。ARC AGIベンチマークの本来の目的はAGIをテストすることですが、より具体的には、AGI、つまり汎用人工知能の頭文字にもある汎化能力をテストすることです。

これは、少しの学習から複数の応用へと汎化する能力を持つAIを意味します。もしピンとこないようでしたら、今からすべて説明します。これがARC AGI 1です。基本的には、人間またはAIとしていくつかの例を与えられ、パターンを見つけてそれを別の例に適用するというものです。

これを見てください。ここでは、3つのピンクの四角形が2つあります。そして、パズルを完成させるには、これら3つの四角形のそれぞれの塊の欠けている部分に黄色の四角形を1つ追加して、正方形を作る必要があることがわかります。なるほど、これはかなり簡単に思えますね。しかし、2つ目の例を見て、私たちの直感が正しいか確認してみましょう。見てください。

今回はそれが3つあります。そして、2×2の正方形を完成させるために、黄色の単一の四角形を追加します。これで3つすべてが2×2の正方形になりました。では、3つ目はどのようになるでしょうか。まあ、特に人間にとってはかなり明白に思えます。これを見て、どうやって完成させるでしょうか。ここに、ここに、ここに、そしてここに黄色の四角形を追加するでしょう。

そして、それが正解となります。さて、これがとても簡単に思えるなら、人間にとってはそうあるべきなのです。一方で、AIはこの手のベンチマークに苦戦します。

ARC AGI 2の難易度とリーダーボード

そして、Arc AGI 2では、彼らはこれをはるかに難しくしました。同じようなパターン、同じようなアプローチですが、はるかに困難です。そして、このベンチマークはまだ完全には攻略されていません。これを見てください。

ここに例があります。これが解答です。そして次の例です。解答はどうなるでしょうか。ここにキーがあります。これがキーだと私は推測していますが、実際には何も教えてくれません。黄色については、欠けている四角形はありません。なので、これは黄色になると思います。これも黄色になります。そして、はい、ここでそれが確認できますね。

次に緑についてですが、真ん中に単一の空の四角形があります。見てみると、どれも単一の空の四角形を持っていません。では、どう機能するのでしょうか。もしかしたら、図形の真ん中にある空の四角形が繋がっているということかもしれません。そういうことですね。1と2です。最後のこれらは、真ん中に2つの隙間があることがわかります。

したがって、これは青になります。そして3つ隙間があるのが赤です。これで、ここの下のものが何になるかがなんとなくわかります。このように、単にはるかに難しくなっているのです。ARC AGI 1のリーダーボードを見てみると、ほぼ完全に攻略されていることがわかります。最高のモデルたちがここで約93%から94%の正答率を出しています。

繰り返しますが、人間はこれを100%こなすことができます。ですから、これすらまだ完全に攻略されてはいませんが、非常に近づいています。X軸はタスクあたりのコストを示し、Y軸はスコアの割合を示しています。では、ARC AGI 2を見てみましょう。こんな感じです。トップモデルであるGPT-5.4 Pro Extra Highは、タスクあたりのコスト39ドルで72%のスコアを出しています。非常に高額です。

そして繰り返しますが、人間はこれを非常に簡単に100%解くことができます。ここではGemini 3.1 Proが69%を記録しているのが見えます。そしてClaude Opus 4.6 mediumが68%です。依然として非常に良い結果を出していますが、100%には程遠いです。

スポンサーメッセージ：Microsoft 365 Copilotの紹介

このセグメントはMicrosoftの提供でお送りします。私はこれまでに十数社の会社を立ち上げ、最後に作った会社は売却しました。ですから、人工知能が登場する前に自分がどのように会社を経営していたか、そして人工知能が登場した今の経営を振り返るのはとても不思議な感じです。

法務書類の確認から、さまざまなワークフローの自動化、コードの記述、リサーチのやり方、アイデアの出し方まで、本当にすべてが変わりました。AIが登場する前は、それらすべてがはるかに遅く、手作業が多く、とても時間がかかっていました。今ではすべてがすっかり変わり、私は毎日AIを使っています。膨大な時間を節約でき、そのおかげで私のチームは単調な作業の代わりに、センスや創造性、楽しさが求められることに時間を割けるようになりました。

Microsoft 365 Copilot Businessのおかげで、私のビジネスのやり方は完全に変わり、小さなチームでも大企業のように機能し、ずっと早く事業を拡大できるようになりました。私はCopilotを契約書の確認などに使えます。WordやExcelに統合されているので、文書の作成や財務分析を簡単に任せることができます。

実際に私の独自のプロンプトと出力を使ってどのように利用しているかをお見せします。私が今日どのようにAIを活用しているかについて、さらに詳しく解説したYouTubeショート動画を作成しました。下の説明欄にそのリンクを貼っておきます。あなたが起業家なら、私の働き方が今や全く異なるものになっているので、この動画をチェックすることを本当にお勧めします。

もしAIが難しそうに見えても大丈夫です。節約できる時間と仕事の質の向上という形での見返りは莫大なので、絶対に学ぶ価値があります。それでは、動画本編に戻りましょう。

ARC AGI 3のインタラクティブな挑戦

さて、完全に異なり、非常にユニークで興味深いArc AGI 3をお見せする前に、ARC AGIをベンチマークとして特別なものにしているいくつかの点についてお話ししたいと思います。

第一に、タスクあたりのコストに非常に焦点を当てている点です。単にすべてのトークンを使い切ればいいというわけではありません。学習をいかに効率的に行うかが本当に重要なのです。そして先ほども述べたように、人間にとってこれらの問題を解くのは非常に簡単ですが、人工知能にとっては非常に困難です。これは他のすべてのベンチマークと比較して非常にユニークな点です。

コーディングのベンチマーク、数学のベンチマーク、科学のベンチマークのいくつかを見てみると、それらで最高のスコアを出す人間は、世界で最も賢い人々、世界最高のプログラマー、最高の科学者、最高の数学者です。そして、AIが彼らを打ち負かします。つまり、最高対最高の戦いなのです。

しかし、平均的な人間でもARC AGIのベンチマークを解くことはできますが、AIにはできません。近づくことすらできないのです。あ、ちなみに、このベンチマークを完全攻略できたら200万ドルの賞金が出ます。ですから、挑戦するインセンティブは確実にあります。そして、それがARC AGIの初のインタラクティブ版であるARC AGI 3へと繋がります。

彼らは、例を見て別の例に汎化できる能力のテストから、完全にインタラクティブなベンチマークへと移行しました。私は実際にこれをプレイしてみました。こんな感じです。基本的にはビデオゲームの中に放り込まれます。そのビデオゲームで何をすべきかについての情報はゼロです。解決しようとする、あるいはビデオゲームをクリアしようとするためのターン数は限られています。

もう私が長々と話すより、ただお見せしましょう。上手くいくといいのですが。では、スタートを押してプレイしてみましょう。ここにある矢印を使うことができます。リセット、ヘルプ、選択があるようです。繰り返しますが、私は何が起きているのかについての情報を一切得ていません。AIも何が起きているのかについての情報を一切得ていません。でも、何かをする前に、とりあえず周りを見てみましょう。

ここには3つの点があります。この黄色いバーもあります。体力メーターかもしれませんし、ターンメーターかもしれません。左下には、ミニマップのようにも見える何かがありますが、どちらかというとこれと一致しているように見えます。ですから、おそらくこれが私の到達すべき目的地なのでしょう。

小さな迷路のようなものもあります。おそらくこれが私たちのキャラクターです。このプラスマークです。多分、ここにあるこれでしょう。これが私たちのキャラクターかもしれません。そして、あそこに行かなければならないようです。移動してみましょう。上矢印を1回押してみます。よし。これでもうたくさんの情報を得ましたね。一つ目に、私が上を押すと、この人が動きました。これは明らかに私たちのキャラクターです。

また、この小さなバーが下がったことにも気づきました。これはおそらく移動メーターではないかと思わせます。では、見てみましょう。もしかしたら、ここまで行くだけでいいのかもしれません。続けてみましょう。はい。もう一度移動すると、黄色のバーが下がりました。そして、一番上まで行ってみましょう。それは上手くいきませんでした。点滅しましたね。

ここで何かが点滅しました。そして明らかに、終わったと告げられていないので、まだ終わっていません。さて、私が気づいたことの一つは、これがこことは違う向きになっているということです。ですから、もしかしたらゲームの一部として、そこに到達する前に、この向きを変えるためにこのプラスマークにぶつからなければならないのかもしれません。

AIモデルの苦戦と将来の展望

では、リセットしてプレイしてみましょう。今度はこっちに行ってみます。あのプラスにぶつかってみます。よし、いけました。プラスにぶつかりました。これで、目標の向きが同じになったようです。では、残りの道のりを進みましょう。よし、いきましたね。そういうことです。ご覧の通り、私は直感を大いに働かせました。何をすべきかを見つけ出すために、論理的な推論をたくさん使いました。

そして、それを行うためのターン数は限られていましたが、私はやり遂げることができました。どれくらい時間がかかったでしょうか。理解するのに3分くらいでしょうか。いや、そこまでもかかっていません。実際には進めながら説明していたので、解くのに1分ほどかかったと思います。しかし、AIはどうでしょうか。良くありません。彼らは実際にすべての最先端モデルに対してこれをテストしましたが、基本的にすべて失敗に終わりました。

GPT-5.4は0%。Gemini 3.1 Proプレビューは0%。Grok 4.2、Claude Opus 4.6も0%。人間は100%です。総アクション数は546です。GPT-5.4がプレイするとどうなるか見てみましょう。ほら。さて、私のように最初の一歩を踏み出しましたが、何度もそこに戻ろうとしていて、うまくいっていません。プラスマークに行くとは考えていないようで、私にはただただ信じられません。

なぜそうしようと考えないのでしょうか。とても明白に思えますし、とても直感的に思えますが、それは私に何十年ものビデオゲームのプレイ経験があるからでしょうね。そしてほら、結局できませんでした。そしてここに見えるように、トップモデルは0.3%のスコアを出しています。それはGPT-5.4 Pro Highで、そのスコアを出すのに5000ドル以上かかっています。まったく信じられません。

彼らは論文を発表しました。勝者には200万ドルの賞金が用意されています。もし自分で試してみたいなら、間違いなくできますよ。ちなみに、ここにあるのはプレイできるさまざまなゲームのすべてです。どれ一つとして同じものはありません。情報は一切与えられません。ただ放り込まれて、挑戦するのです。