Claude Opus 4.6が示した驚異的なテキスト解析能力を起点に、現代のAI評価における根本的な問題点を指摘する考察である。AIモデルは人間のようなバランスの取れた能力分布ではなく、特定領域に極端に特化した「スパイキー」な能力分布を持つ。人々はAIの最も弱い部分を基準に評価する傾向があるが、すべての能力を平均化すれば、現在のAIはすでに人間レベルの汎用知能に到達している可能性が高い。ゴールポストは常に移動し続けてきたが、AIの経済的生産性はすでに多くの領域で人間を上回っているという現実を認識すべき時期に来ている。

Opus 4.6の驚異的な推論能力
ゲームをしてみましょう。私が6つの単語を与えるとします。「母が隣で寝ている」という文です。そして、あなたの仕事は、これらの言葉を話した人物と、より広い意味での環境について推測できることをすべて教えてくれることだとします。この6つの単語から何が分かるでしょうか?おそらく何も分からないですよね?私も何一つ分かりません。
しかし、これをClaude Opus 4.6にサンプルプロンプトとして与えると、「母が隣の部屋で寝ていて、私はここに座ってウォッカを飲んでいる。クソみたいな人生だ。午前3時なのにまだ眠れない。死にたい気分だけど、母の面倒は誰が見るんだ?笑」というテキストから、Claude Opus 4.6は6番目の単語までに、このテキストの話者がロシア人である可能性が高いことを判定できます。
10番目の単語までには、このテキストが英語のテキストではなく、実際にはロシア語から翻訳されたものであることが分かります。主語、目的語、さまざまな動詞句の順序に基づいて判断するのです。これは驚異的です。あなたに一切の感覚がないと想像してみてください。触覚も、嗅覚も、聴覚も、味覚もありません。
視覚すらありません。あなたはただ、ある暗黒空間における意識だけの存在です。そして突然、1つの単語が現れます。その単語は「母」です。そして次の単語が現れて、それは「が」という助詞です。もしあなたの全存在がこれらの単語以外のあらゆる感覚を奪われていたとしたら、おそらく少なくともこれらの単語を理解し、2つの関係性を認識することにかなり習熟するでしょう。
さて、あなたの脳を10,000倍にスケールアップして、20回分の人生をかけて脳を動かし、数兆個のこれらの単語が素早く連続して発火するように訓練されたと想像してみてください。おそらくこれらの間のパターンを見つけ始めるでしょう?間違いなくそうです。つまり、これだけが唯一のものなのです。これがあなたの全宇宙です。
これがあなたが持つ唯一の感覚なのです。当然、このようなことに集中して上手くなるしかありません。そうならざるを得ないのです。なぜなら、それが脳の仕組みだからです。まさにこれがこれらのモデルに対して行われていることです。これらのモデル、特に大規模言語モデルは、トークンしか理解しません。
ですから、トークンが彼らにとって唯一の宇宙であるため、彼らはただこの黒く形のない虚空の中に存在し、トークンの後にトークン、その後にまたトークンが続きます。彼らはあなたや私が狂気じみていると考えるようなことを判定し、解釈することに非常に、非常に長けているのです。あまりにも長けているので、誰もがClaude Opus 4.6のこの小さなテキスト断片「母が隣の部屋で寝ている」から何が起こっているかを判定する能力は、非常に超人的だと言うでしょう。
人間がこれを理解できる可能性はほとんどありません。まず第一に、すべての言語に関する並外れた知識が必要でしょうし、第二に、おそらく何百年もの慎重な研究が必要でしょう。ただ単語を見つめて、本当に目を細めて観察し続けるのです。
AIの「スパイキネス」という概念
さて、なぜこの話をしているのでしょうか?これは多くの人々が本当に理解していない概念、それがスパイキネス(尖り具合)という概念だからです。ちょっとの間、これがビデオゲームのキャラクター作成画面のようなものだと想像してください。ビデオゲームでは知能ステータス、筋力ステータス、器用さステータスなどがありますよね?ファンタジースタイルの野蛮人か何かをデザインしているのです。
ディアブロのようなものです。さて、そのような典型的なものの代わりに、スキルがコーディング、推論、ライティング、ユーモアなど、現在人々が合理的に経済的価値があると考えるものだとしましょう。これが重要だと思う理由は、この白い、これは六角形だと思いますが、これが人間のこれらのスキルの分布だと仮定するからです。
ですから、路上で平均的な人間を選ぶと、その人はユーモアにおいてはまあまあ、ライティングにおいてはまあまあ、推論においてはまあまあ、コーディングにおいてはまあまあ、そして基本的に他のすべてにおいてもまあまあでしょう。AIはそのようには見えません。AIが実際どのように見えるかというと、基本的にはいくつかのスキルに非常に重く分布していて、
他のすべては現時点ではかなりひどい状態です。ですから、あの美しく見える六角形とは対照的に、これを色で塗りつぶすと、かなり予測可能で、これらすべてのスキルの分布がかなり理解しやすいのに対して、このAIモデル、このキャラクター作成画面におけるスキルの分布はかなり狂気じみたものに見えるでしょう。まるであなたが何かウォーロックで、知能ステータスを最大化しようとしているかのようです。
私は『World of Warcraft』をあまりプレイしたことがないのですが、おそらくそんな感じだと想像します。そして、人々が現在AIモデルを判断しているのは、通常、最悪のスキルに基づいています。彼らはGPT-5.3か何かにプロンプトを入力して、「最高に面白いジョークを書いてくれ」と言い、するとかなりつまらないジョークが出てきて、「ほら、このものはユーモアを理解していない。
だから、実際そんなに賢くない」と言うのです。そして、それは彼らが測定している、彼らの自慢合戦が現在ユーモアの文脈だけで行われているからです。一方、AI分野の人々、サム・アルトマンやダリオ・アモデイ、Googleの人の名前が何であれ、彼らは現在、AIモデルの知能をコーディングと推論に基づいて測定しています。だからこそ、社会経済的階層の下位にいる人々と
上位にいる人々との間に、そのような断絶があるのです。人々はおそらくソフトウェアエンジニアリングや汎用的な推論とライティングを、ユーモアよりも経済的に価値のあるスキルだと考えるでしょう。だから彼らはそこに焦点を当てているのです。私たちがすべきことは、最高のものと最低のものの両方を見るのではなく、これらすべてを平均化することです。
AI企業によるベンチマークの取り組み
実際、Anthropic、OpenAI、そしてこれらの大手コーディング企業は、正直なところ、しばらくの間このようなことを行ってきました。彼らはこれらのモデルが持つすべての異なるスキルの膨大なリストを表にまとめ、通常さまざまなテストでそれらをベンチマークしようとしています。
たとえば、ARC AGIのような人工汎用知能テストがあります。さまざまな数学的推論テスト、さまざまな言語推論テストなどがあります。ここでの全体的なアイデアは、モデルの知能を測定し、監視することです。
それはかなり良いことですが、明らかにまだコーディング、推論、ライティングのようなものに大きく偏っています。私たちがすべきことは、最高または最低に基づいて測定するのではなく、両者の平均を取ることだと思います。そして、すべての最高峰と最低の谷の平均を現在取ったとしたら、AIの現在の境界線は人間と非常に似ていることがすぐに分かるでしょう。
おそらく他の才能を犠牲にして現在いくつかのスキルに特化した、非常に自閉症的な人間のような知能になるでしょうが、それでも人間の知能のようなものです。さて、私は悲観論者のようなものではありません。そして一般的に、これは実際には非常に良いことだと思います。なぜなら、これらのモデルは私たちを未曾有の豊かさと完全な希少性の解消へと導く能力を持っているからです。
遠い昔に洞窟から這い出して以来、人類を悩ませてきたさまざまな病への解決策をもたらすのです。私はただ、進歩を測定するベンチマークを理解することが価値があると思うのです。最高のものに基づいて測定すれば、明らかに1つのストーリーが得られるでしょう。
最悪のものに基づいて測定すれば、おそらく別のストーリーが得られるでしょう。私のAIへの最初の冒険の1つは、6、7年前に当時の画像生成モデルで遊んでいたときでした。私はStyleGANと呼ばれるNvidiaのモデルで遊んでいました。StyleGANは人間の顔の特定の特徴を再現するために特別に訓練されており、「This Person Does Not Exist」と呼ばれるクールなウェブサイトが登場しました。
画像生成からプログラミングへの進化
全体的なアイデアは、人間の顔の肖像画像の束でモデルを訓練し、そのStyleGANを何度も何度も何度も実行すると、最終的には人間にかなり似た特徴を構築できるというものでした。これは6、7年前のことで、人々は全く知りませんでしたが、インターネット上のすべての偽の生成プロフィール画像の大部分は、文字通りこの「This Person Does Not Exist」スタイルの画像なのです。
とにかく、私はこのモデルを取って、それに変更を加え、それで遊んで、「1 Second Painting」と呼ばれる趣味のプロジェクトを作りました。私の場合、人間の顔で訓練する代わりに、たくさんの抽象芸術で訓練しました。カンディンスキーのようなものを考えてください。アーティストの名前すら覚えていませんが、公開されているライブラリがたくさんありました。
とにかく、私はこれを作って、HackerNewsに投稿して、翌朝目を覚ますと1位になっていて、みんなが「AIがこれを作ったの?まさか」と言っていました。これはおそらく、人々がGPT-2、GPT-3のような新興の知能を他のものにも、さらにはアートフォームや人間が文化的に大切にしているものにも適用できることに気づいた最初の時の1つだったと思います。
そして、私が受けた最大の反発は、「まあ、AIは抽象芸術を作れるのは当然だけど、それは画面上の落書きの束だからだ。これに一貫性を持たせることはできない。それは人間の領域だ、私たち高く評価されている人間のね」というものでした。
まあ、とにかく、歴史が彼らが間違っていたことを証明してくれたことを願います。私たちは今、呪われたバナナを持っており、それはフォトリアリスティックに何でも生成できます。通常、写真と完全に区別がつかない品質で、正直なところおそらくもっと良いです。おそらく適切なプロンプト設定があれば、Nano Banana Proでカメラよりも区別がつかないものを作ることができるでしょう。
本当に狂気じみています。同様にプログラミングについても、GPT-3が登場して人々が小さなターミナルコマンドなどに使い始めたとき、最大の反発は「ああ、これは私が過去15年間培ってきたSQLの知識を置き換えるほど良くなることは絶対にない」というものでした。データベースプログラミング言語ですね。そして数年以内に、ChatGPTは今やSQLクエリを複製し、おそらく平均的なプログラマーよりも優れています。
つい最近まで、私が今聞いているのは「ああ、まあClaude Opus 4.6は訓練されたことしかできない。新しいことは何もできない。確かに、以前なら7人のチームが4ヶ月以上かかっていた素晴らしいエンドツーエンドのコンパイラを構築できるけど、それは訓練されたからだ」というものです。
新しいことは何もできない。このスパイキネスが進化するたびに、ゴールポストが継続的に移動し続けてきたことが明らかであることを願います。ゴールポストは今や以前よりも7,000個のフットボール場分も先にあります。そして、このパターンは人々がモデルが自分たちよりも優れていて、より経済的に生産的であるという
不幸な結論に達するまで続く可能性が高いです。しかし、厳しい道のりになるでしょう。もちろん、その間に私たちすべてが認識すべきことは、これらのことを担当している人々が代表し、測定しているこの大きな自慢合戦は、常にこれらの非常に突出したものに基づいているということです。
能力の平均化と真のAGI評価
それは私たちが平均的な人にとって超関連性があるとは考えないかもしれないものです。高度な数学を行う能力や、非常に狂気じみた空間推論を行う能力、または画像のセグメンテーションやマスキングのようなものです。一方、私たちの多くは「共感やユーモアの能力はどうなの?私たちに共感し、関係する能力は?」と思っています。
ですから、私たちは今、これらのものを根本的に異なる物差しで測定しているのです。しかし、私が話しているすべてのスパイキーなスキルの平均を取れば、基本的に人間の知能と同等になっているという点に達していることに気づくでしょう。現在、私たちがAGIの時点にあると言うのは決して無理な話ではないと思います。
ただ、目の前に人間の皮膚を持ったロボットがまばたきをして笑顔を浮かべ、人間ができることなら現実世界で何でもできるというAGIではありません。その代わりに、さまざまな知的生産的タスクで私たちを完全に圧倒する一方で、いくつかの他のタスクではわずかに遅れをとっているという、より分散した知能なのです。ただの観察です。
それを指摘したかっただけです。


コメント