Google DeepMindが2026年3月に発表した論文は、AGIに向けた進捗を測定する新たな認知フレームワークを提案している。従来のベンチマークではなく、人間の認知科学研究に基づいた10の認知能力次元でAIシステムを評価し、実際の人間のパフォーマンスと直接比較する手法である。知覚、生成、注意、学習、記憶、推論、メタ認知、実行機能、問題解決、社会的認知という構成要素ごとにAIを測定し、レーダーチャートで可視化することで、AIの強みと弱みを明確に把握できる。この取り組みには20万ドルのKaggleハッカソンも付随しており、評価手法の実装を世界中の研究コミュニティに呼びかけている。AGIの定義が曖昧なままレースが進む中、Googleは「雰囲気」ではなく科学的測定によってAGI到達を判断しようとしている。

GoogleがAGIをテストする新しい方法を開発
Googleが、AGIをテストする新しい方法を開発しました。では、それについて話していきましょう。
2026年3月16日、Google DeepMindは静かに一つの論文を発表しました。この論文は、AI界における最大の論争の一つに終止符を打つかもしれないものです。タイトルは「AGIに向けた進捗の測定:認知フレームワーク」となっています。
この論文が提案しているのは、本質的にはIQテストです。人間のためのものではなく、AIシステムのためのものですね。機械が人間レベルの知能に近づいているかどうかを、10の認知次元にわたって測定する方法です。雰囲気でもなく、攻略できるベンチマークでもありません。実際の人間のパフォーマンスと直接比較した、完全な認知プロファイルなんです。
AGI定義の問題点
さて、ここに実際の問題があります。皆さんのほとんどはもうお分かりだと思いますが、主要なAI研究所、つまりOpenAI、Google、Anthropicは、全てAGIの構築を目指していると言っていますが、実際には誰もその意味について合意していないんです。
覚えていらっしゃると思いますが、OpenAIはAGIを「経済的に価値のある仕事のほとんどで人間を上回る、高度に自律的なシステム」と定義しています。Google DeepMindの共同創設者であるShane Leggは、「少なくとも人々が通常できる種類の認知的なことができる人工エージェント」と定義しています。そしてARCベンチマークの生みの親であるFrançois Cholletは、知能を完全にスキル習得効率の観点から捉えています。つまり、どれだけ速く新しいことを学べるか、ということですね。
つまり、みんなゴールラインに向かって競争しているのに、ゴールラインがどこにあるのか誰も合意できていないんです。定義すらできないものに向けて、どうやって進捗を測定するんでしょうか?
Google DeepMindの解決策
Google DeepMindの答えは、AGIを単一のスコアで測定しようとするのをやめましょう、というものです。代わりに、知能をその構成要素に分解するんです。認知科学者が何十年もの間、人間の心を研究してきたのと同じ方法で、AIをそれぞれの要素についてテストし、実際の人々と直接対決させるわけです。
論文を見てみたんですが、認知分類学と呼ばれるものについて語っています。心理学、神経科学、認知科学における数十年の研究から導き出された10の認知能力を特定しています。これらは勝手に考え出されたカテゴリーではありません。研究者たちが人間の脳を研究してきた方法に直接対応しているんです。
認知の構成要素
最初の8つは、認知の構成要素と呼ばれるものです。
まず一つ目は知覚です。システムは見ることができるか、聞くことができるか、読むことができるか?単にピクセルを検出するだけでなく、実際にシーンを理解し、音声を認識し、テキストを解釈できるかということです。
二つ目は生成です。有用なアウトプット、つまりテキスト、音声、動作の動き、コンピュータのアクションを生成できるでしょうか?
三つ目は注意です。重要なことに集中し、重要でないことを無視できるでしょうか?ここから興味深くなってきます。なぜなら、現在のAIモデルは全てを一度に処理していて、皆さんが注意を払うようには実際には注意を払っていないからです。
四つ目は学習です。デプロイ後に新しい知識を習得できるでしょうか?トレーニング中だけでなく、リアルタイムで。皆さんが新しいカードゲームを学んだり、新しい仕事に適応したりするようにです。これを継続学習と呼ぶ人もいるかもしれません。多くのAI研究所が現在取り組んでいることですね。
五つ目は記憶です。時間をかけて情報を保存し、取り出すことができるでしょうか?そして同じくらい重要なのは、古くなった情報を忘れることができるかということです。
六つ目は推論です。論理を通じて妥当な結論を導き出せるでしょうか?演繹的、帰納的、類推的、数学的、これら全ての形式の推論です。
七つ目は本当に興味深いものです。その兆候が見え始めていますが、メタ認知です。自分が何を知っているか分かっているでしょうか?不確実なときにそう伝えられるでしょうか?これが今日のAIにおける最大のギャップかもしれません。ご存知のように、ほとんどのモデルは阿諛追従的で、自信を持って間違った答えを出してきます。自分自身の限界に対する認識がないからです。ただ、Claudeを見れば、ある形のメタ認知を持っていると言えるかもしれませんね。
八つ目は実行機能です。計画を立て、衝動を抑制し、戦略を切り替えることができるでしょうか?これらは、目標を設定して実際にそれをやり遂げることを可能にする能力です。
九つ目は問題解決です。知覚、推論、計画、学習を組み合わせて、実際の、新しい世界の問題を解決できるでしょうか?
十つ目は社会的認知です。社会的な合図を理解し、他の人が何を考えているかを推測し、協力し、交渉し、社会的状況で適切に反応できるでしょうか?
論文はここで重要な区別をしています。この分類学は、システムが何を達成できるかに焦点を当てており、どのようにそれを行うかではありません。システムがTransformer、拡散モデル、あるいは全く新しい何かを使っているかは気にしません。結果だけを気にするんです。
評価プロトコル
さて、10のカテゴリー全てが揃いました。では、実際にどうやってAIをそれらに対してテストするんでしょうか?
論文は実際に3段階の評価プロトコルを提案しています。
第1段階は認知評価です。基本的にAIを幅広いタスクのスイートで実行します。各能力に対して1つずつです。これらのタスクは、一つの特定の能力を分離するという意味でターゲット指向である必要があります。また、保留され、非公開に保たれる必要があります。そうすることで、AIがトレーニング中に答えを記憶しただけということがないようにするんです。そして第三者によって独立して検証される必要があります。
もちろん、皆さんが気づいていないかもしれませんが、これは皆さんが思っている以上に重要なんです。現在のAIベンチマークの最大の問題の一つは、データ汚染です。モデルがトレーニング中にすでにテスト問題を見ていた場合、スコアは実際の知能について何も教えてくれません。推論に見せかけた単なる暗記なんです。
第2段階は人間のベースラインを収集することです。ここでは、まったく同じタスクを、少なくとも高校レベルの教育を受けた成人の代表的なサンプルの大規模な人口統計に与えます。同じ指示、同じ形式、同じ条件で。これにより、比較するための人間のパフォーマンスの実際の分布が得られます。
第3段階は認知プロファイルの構築です。ここで視覚的になってきます。基本的にAIの10の能力それぞれでのパフォーマンスを、人間の分布に対してプロットするんです。
結果は基本的にレーダーチャートになります。ここに見えますね。実際に3つ見ることができます。これはAIシステムがどこで強くて、どこで少し劣っているかを正確に示しています。
ここのプロファイルAは、いくつかの領域で人間の中央値を下回っているシステムを示しています。プロファイルBは、10全てで中央値を上回っているシステムを示しています。つまり、全てのカテゴリーで少なくとも50%の人間に匹敵できるということです。そしてプロファイルCは、全体にわたって99パーセンタイルにあるシステムを示しています。基本的に、全ての認知タスクで、サンプル内のほぼ全ての人間に匹敵するか、それを上回っているということです。
論文は、プロファイルCでさえAGIを決定的に証明するものではないと慎重に述べています。どんなサンプルも人間の能力の全範囲を捉えることはできませんが、それでも驚くべきマイルストーンになるでしょう。
限界と課題
さて、ここで考えなければならないのは、これら全てがあるけれど、実際に何が欠けていて、次に何が来るのかということです。論文は限界について正直です。もちろん、全てのものには限界がありますからね。
まず、この分類学は認知能力のみをカバーしています。応答速度を測定していません。そして速度は非常に重要です。例えば、危険を識別できる自動運転車を考えてみてください。でも反応するのに6秒かかるとしたら、現実世界では基本的に役に立ちません。バグを修正するのに6時間かかるコーディングアシスタントは、実用的ではありません。
二つ目は、論文がシステム傾向と呼ぶものを実際には測定していません。AIシステムが何ができるかではなく、何をする傾向があるかです。リスク回避的ですか、それとも無謀ですか?Claudeの憲法のような人間の価値観と一致していますか?これらの行動傾向は、デプロイメントの決定とガバナンスにとって重要になるでしょう。
三つ目は、もちろん創造性の問題があります。論文は、創造性を客観的に定義し、測定することは非常に難しいと認めています。それを分離しようとするのではなく、創造性の背後にある認知プロセス、つまり認知的柔軟性、世界知識、問題解決は、すでに分類学の中に捉えられていると主張しています。
そしてもちろん、厄介な問題があります。モデル対システムの評価です。今日のAIシステムは単なるモデルではありません。通常、システムプロンプトがあり、ツールにアクセスでき、他のAIシステムを呼び出すこともできます。モデルを孤立させてテストしても、実際にデプロイされたときのパフォーマンスを反映しません。でも、テスト中に全てのツールを使わせたら、知能を測定しているのでしょうか、それとも単にGoogleを使う能力を測定しているのでしょうか?
論文はこれを、IQテスト中に人間に電卓を与えることに例えています。その人が本当に賢くなったわけではありません。単により良いツールを持っているだけです。
Googleの結論は、システム全体、ツール込みで評価する必要があるということです。でも、ツールが結果を変えないように認知テストを慎重に設計する必要があります。
Kaggleハッカソン
さて、これについて驚くべきことは、このフレームワークが単なる理論ではないということです。単に発表した学術論文ではないんです。Googleは実際にこれにお金を投じているんです。
論文と並行して、彼らは20万ドルのKaggleハッカソンを立ち上げました。グローバルな研究コミュニティに、今話した実際の評価を構築するよう求めているんです。
ハッカソンは、評価ギャップが最も大きい5つの領域をターゲットにしています。学習、メタ認知、注意、実行機能、そして社会的認知です。賞金プールには、各トラックでのトップ2の提出に対して1万ドル、そして最高の総合提出に対して4つの2万5千ドルのグランプライズが含まれています。4月16日まで受け付けているので、挑戦したい方は始めた方がいいですよ。そして結果は6月1日に発表されます。
AGI到達の時間軸
今の会話全体を見てみると、かなり壊れていますよね。Google DeepMindを共同創設し、AGIという用語を作り出したShane Leggは、2025年12月に、最小限のAGIが早ければ2027年か2028年に到達する可能性があると述べました。つまりあと1、2年しかないんです。AIがどれだけ速く動いているかを見ると、時間枠としてはそれほど長くありません。
一方、ARCプライズを見てみると、今週ARC AGI 3をリリースしたばかりです。これは新しい推論のさらに難しいテストですが、いくつかのツール使用を伴う最良のシステムでもスコアは約24%です。でもほとんどのシステムは約0.6%のスコアです。これはかなりクレイジーですよね。
ここでFrançois Cholletが言っているのが見えます。「現時点で、ARC AGI 3は唯一の飽和していないエージェント型AIベンチマークです。プライベートテストセットでのフロントエンドモデルからのスコアは1%未満です。」
もしAGIレベルのブレイクスルーが起こったときに最初に知りたいなら、ARC AGI 3のリーダーボードを監視してください。スコアの突然のジャンプは、AI能力について何か重要なことが変わったことを意味するでしょう。
どうやらARC AGI 3が早期警告信号になるようです。
結論
でももちろん、AIが2年先なのか20年先なのかについては、誰もが意見を持っています。測定のための共有されたフレームワークなしでは、それらの主張は単なる雰囲気でしかありません。Googleは基本的に、その雰囲気を本当の科学に変えようとしているんです。
ここで全てについて考えると、Googleは基本的にこう言っています。私たちは何十年もかけて人間の心がどのように機能するかを学ぼうとしてきました。構成要素をマッピングしました。知覚、記憶、推論、注意、全てです。人間をこれらの能力についてテストする方法はすでに分かっています。だから、AIも同じ方法でテストしましょう。
単一のリーダーボードスコアではなく、厳選されたデモでもなく、完全で実際の認知プロファイルで。システムがどこで優れていて、どこで崩れるかを正確に示すレーダーチャートです。
なぜなら、今日のAIについての真実は、それがギザギザだということです。ギザギザのフロンティアと呼ばれています。150の言語を話すことができて、ニュージーランドの小さな町についての曖昧な事実を知っていて、言葉をつなぎ合わせるのに、子供ができるようにグラフの線を数えることすらできないんです。
その全体像を明確に見ることができるまで、人類史上最も重大なマイルストーンの一つに向かって、私たちは盲目的に飛んでいるんです。問題は、AGIを構築できるかどうかだけではありませんでした。それは常に、どのようにして知るか、ということだったんです。


コメント