2025年のAIの奇妙さが2026年について教えてくれること

2025年のAI業界は、推論モデルの台頭、Gemini 3の圧倒的なベンチマーク性能、そして生成可能な仮想世界の登場によって特徴づけられた。一方でAIスロップの氾濫や信頼性の問題も顕在化し、人々のAIに対する評価は依然として複雑なものとなっている。中国製オープンウェイトモデルの急速な進化や、コーディング領域における自動化の加速は、2026年の業界地図を大きく塗り替える可能性を秘めている。本動画では、10の重要な教訓と5つの予測を通じて、AIの現在地と今後の方向性を包括的に分析する。特に注目すべきは、単なるモデルのスケールアップを超えた「自動化情報発見」という新たなパラダイムへの移行であり、これがAIの次なるブレークスルーをもたらすと考えられる。

What the Freakiness of 2025 in AI Tells Us About 2026

It’s probably not possible to satisfactorily condense a 12 month’s worth of weird progress in AI, as well as predictions...

2025年のAI進化を振り返る
Gemini 3の躍進とスケーリングの現実
生成可能な世界の到来
AIスロップの氾濫と信頼性の危機
AI進歩への期待とスロップへの反感
政府によるAI採用と複雑な現実
GPT-5の期待と現実のギャップ
チューリングテストの突破とOpenAIの戦略
オープンソースコミュニティの挑戦
Meterベンチマークの詳細な分析
Meterベンチマークへの批判的視点
2026年への5つの予測
ラテラル生産性という概念
AI能力の一般性についての議論
一般性への様々なアプローチ
Simple Benchの示唆する中間的立場
スーパーインテリジェンスの定義提案
情報パラダイムの進化とLLMの位置づけ
自動化情報発見の最前線

2025年のAI進化を振り返る

正直なところ、AI分野における12ヶ月分の奇妙な進歩を、そして来年に向けた予測を、たった1本の動画に凝縮することは恐らく不可能です。とは言え、私は試みてみようと思います。なぜなら、本当に奇妙な時代だったからです。ある人々にとっては私たちはシンギュラリティの真っ只中にいて、また別の人々にとってはバブル崩壊前夜にいるわけです。

しかし、あなたがそのスペクトラムのどこに位置していようと、AI以外ほとんど何もフォローしていない者として、2025年から得られた10の教訓と、2026年に自信を持って予測できる5つのことをお話しします。2025年は常に推論モデルの年になる運命でした。つまり、考えるのに時間がかかり、その過程でより多くのトークンを消費するモデルです。これは、もちろん最も有名なものとしてGemini 3 Proによって、ベンチマークの次々とした突破につながりましたが、必然的にベンチマークを突破することの本質的価値に対する懐疑論も生まれました。

しかし率直に言って、あなたや私、あるいは業界が作成できるどんなテストであれ、AIモデルがすぐに超えてしまえるという事実そのものが、魅力的な現象なのです。確かに、モデルの適性はギザギザしている、つまりスパイク状ですが、それらのスパイクはかなり印象的になってきています。それがビデオ理解であれ、チャートやテーブル分析であれ、コーディングであれ、一般的な知識と推論であれ、です。

しかし、これは同じ年に、私たちがそのパラダイムの欠陥を垣間見た年でもあります。長く考えることは精度を高めるかもしれませんが、出力の多様性を減少させる可能性があるのです。ベースモデルをベンチマークで勝てるまで叩き込むことで、私たちはここに黄色で示されているように、モデルが最初に出す答えがはるかに賢くなる可能性を高めています。

しかし、この2025年のパラダイムは、そのベースモデルに既に存在していなかった推論経路を生み出しているようには見えず、ベースモデルを十分な回数サンプリングすれば見つけられなかったものでもないのです。しかし、長く考えるアプローチがすべてではありません。ベースモデルに投入されるパラメーターとデータをスケールアップすることもあり、私たちはそのアプローチから豊かな報酬を見てきました。

先週、デミス・ハサビスがこう語っていました。

Gemini 3の躍進とスケーリングの現実

今、録画しています。Gemini 3がちょうどリリースされたところで、様々なベンチマークでトップに立っています。これはどのように可能だったのでしょうか。スケーリングが壁に当たるという問題があったのではなかったのですか。

多くの人がそう考えていたと思います。特に他の企業の進歩が、言ってみれば遅くなっていたので。しかし、私たちは実際にはそのような壁を見たことがありません。私が言いたいのは、収穫逓減があるかもしれないということです。そして人々は私がそう言うと、ああ、つまりリターンがゼロか1かのどちらかだと考えます。指数関数的か漸近的かのどちらかだと。いいえ、実際にはこの2つの体制の間には多くの余地があり、私たちはその中間にいると思います。つまり、新しいイテレーションをリリースするたびにすべてのベンチマークでパフォーマンスが2倍になるわけではありません。

おそらくそれは非常に初期の頃、3、4年前に起こっていたことかもしれませんが、Gemini 3で見られたような大幅な改善は得られています。それは投資とその投資からのリターンに十分見合うものであり、やる価値があります。ですから、私たちは鈍化を見ていません。

生成可能な世界の到来

2025年から得られた私の2番目の大きな教訓は、もちろんGenie 3に関連しており、世界がすぐにプレイ可能になるということです。8月にGoogle DeepMindによって発表されたGenie 3は、テキストプロンプトから、あるいはあなたが入力する画像からダイナミックな世界を生成できるモデルです。そして、その世界は完全に儚いものではありません。720p解像度で数分間一貫性を保持します。

言い換えれば、写真を撮り、Genie 3にそれをプレイ可能な世界に変換させ、その世界の中の木にあなたのイニシャルを刻み込み、数分後に戻ってきてまだそこにあなたのイニシャルがあるのを見ることができるのです。もちろん、これが史上最高のゲームにつながると考えるか、あるいは人々が自分自身の仮想世界に引きこもる新たな波につながると考えるかは、あなた次第です。

何を信じようと、2025年から得られた私の3番目の教訓は、必然的にこれらの世界がますますリアルになっていくということです。今年だけで、私たちはVO 3.1、Sora 2、Nano Banana Proを手に入れましたし、信じられないほどのテキスト音声変換やテキスト音楽変換モデルも登場しました。これらはもちろん非常に楽しいものですが、私の4番目の教訓は、AIスロップが正式に主流になり、どこにも行かないということです。

AIスロップの氾濫と信頼性の危機

2つの簡単な例を挙げますが、皆さんには何百もの例があると確信しています。しかし、私のフィードにこの動画が推薦されてきました。現時点で240万回再生されていて、73歳の男性が人生の教訓を語るという悲しい物語なのです。問題は、これがすべてAI生成だということです。しかし、それは何十万人もの人々が騙されることを止めませんでした。彼らはこれが本物の動画であるかのようにコメントしています。

まあ、彼、あるいはそれは良い人生の教訓を与えているかもしれませんが、自分が見ているもの、聞いているものを誰も信頼できない世界になったらどうなるでしょうか。別の言い方をすれば、2024年には、当時の技術を使ったこのような動画のトップコメントは「これはAIのゴミだ」だったでしょう。一方、2025年には、人々はそれがすべてAI生成だということに気づかず、あるいは一部の人々は気にせず、心を込めて反応しているだけなのです。スクリプトでさえもです。

2つ目の逸話は、近い家族から送られてきたこの動画で、もちろんこれもすべてAI生成で、トランプがNATOを終わらせるという内容です。この家族は動画が本物だと思っていました。さらに、私は彼とAIやディープフェイクについて常に話しているのです。ですから、誰かを免疫にするのは難しいのです。私の5番目の教訓は、必ずしも最新のフロンティアモデルに関連しない、素晴らしく励みになるAIニュースがたくさんあったということです。

私は100の例のうちどれでも選べましたが、Dolphin Gemmaを例に取りましょう。これは、イルカの言語を解読するためにGoogleによって開発された大規模言語モデルです。基本的に、彼らがより多くのデータを供給するにつれて、まだ改良が続けられています。しかし、これは私たち全員が支持できる種類のプロジェクトだと思います。母親と子供が再会するために使用されるこれらのシグネチャーホイッスルやユニークな名前を認識できるモデルは、もちろん、少なくともトークン形式で同じホイッスルを発信し、潜在的にそのようなイルカを呼び寄せることができるモデルなのです。

AI進歩への期待とスロップへの反感

私の6番目の教訓は、人々のそのような進歩への欲求が、ついに全体的なAIスロップへの嫌悪感とバランスを取っているということです。これがおそらく、夏に行われたアメリカ人を対象とした調査で、AI全体に対する純評価がかろうじてポジティブだった理由です。2,300人のアメリカ人が「AIの社会への全体的な影響がポジティブかネガティブか、あなたの信念を言ってください」と尋ねられました。

そして、8%多くの人々がポジティブと答えました。ただし、ソーシャルメディアよりもわずか1パーセントポイント高いだけというのは、やや心配です。さて、その調査は全体的な印象を考慮していますが、特にAIアートについては、状況ははるかにポジティブではありません。ここ英国では、政府がアーティストにとってオプトアウト方式にする計画を持っています。

言い換えれば、彼らは自分の作品をAIモデルのトレーニングに使用されたくないと積極的に言わなければならないのです。英国の公衆のわずか3%しかそのアプローチを支持していません。しかし、より深いレベルでは、これらのAGI研究所の最上層部でさえ、創造性を解決することの意味について疑問が投げかけられています。

予想よりも強く打撃を受けた部分があるのではないでしょうか。

ええ、確かにあります。途中で、つまり、AlphaGoの試合でさえ、そうですよね。私たちが囲碁を解明した方法を見て、しかし囲碁はこの美しい謎だったのに、それが変わってしまって、それは興味深く、ちょっとほろ苦いものでした。言語、そして画像、そして創造性にとって何を意味するのかといった、より最近のことでさえ、私は創造芸術に対して大きな尊敬と情熱を持っていますし、自分でゲームデザインをやってきましたし、映画監督と話すこともあるのですが、彼らにとっても興味深い二重の瞬間なのです。一方では、アイデアのプロトタイピングを10倍速くする素晴らしいツールを手に入れています。しかし他方では、特定の創造的スキルを置き換えているのでしょうか。ですから、あらゆる場所でこのようなトレードオフが起こっていると思います。これは、AIのように強力で変革的な技術では避けられないことだと思います。

政府によるAI採用と複雑な現実

次に、そして私はこれについて完全なドキュメンタリーを作成したことがあるので、短くしておきますが、AIは基本的に今年、世界中の政府に採用されました。スウェーデンの首相がChatGPTを職務に使用していることへの怒りから、アメリカの上院議員がGrokを使って大きな美しい法案の側面を分析していることを認めたことまで。

もちろん軍におけるGenAIは独自の動画ですし、政府機関が効率性を見つけるために生成AIモデルを使用していることも、非常に複雑な効果をもたらしています。正直なところ、これの多くは、多くの人がモデルが今頃どれほど賢いと思っていたかに関連しています。しかし、それはこの動画の後半についてです。混乱したニュースの束の代わりに、私はあなたがこの動画を終える時に、AIとその進歩をどう理解するかについて、少なくとも1つの枠組みを持っていることを願っています。

GPT-5の期待と現実のギャップ

なぜなら、もちろん、ヘッドラインだけを見れば、信じられないほど誤解を招く可能性があるからです。あなたは、すべての仕事の廃絶につながると思うけれど、待って、ひどい間違いを犯すではないか、一体何が起こっているのか、となるわけです。私の8番目の教訓はGPT-5に関するもので、正直に言えば、これは2025年に最も期待されていたモデルでしょう。

サム・アルトマンは、私が思うに誤解していました。すぐに理由を述べますが、彼はそのモデルをリリースする前に誤解していたと思います。彼はGPT-5について、どんなトピックでも専門家と話しているように本当に感じる初めてのモデルだ、博士レベルの専門家のようだと言いました。そして、そのモデルのライブストリームローンチで、彼は再び、あなたが必要とするあらゆる分野において正真正銘の博士レベルの専門家だと言いました。

しかし、そこでの間違いは、知能には単一の軸しかないと考え、ある分野の特定の試験で博士レベルであることが、他の場所で些細な間違いを犯さないことを意味すると考えることです。もちろん人々はGPT-5、5.1、5.2、そして実際すべての他の言語モデルで、それらの基本的な幻覚が残っていることを発見しています。当時私のGPT-5動画で言ったように、それは何億人もの人々が全体的により賢いモデルを経験しないことを意味するわけではありません。

2月の時点では、毎週ChatGPTを使用する人は4億人でした。今では、9億人近くになっています。しかし、今年の最大のストーリーの1つは、特定のモデルプロバイダーが、自分たちのモデルをユーザーにとって魅力的にするためにどこまで行くつもりがあるかということでした。OpenAIは一時期、GPT-4oを信じられないほど従順にしました。

「私はすべての薬を飲むのをやめて、家族を去りました。なぜなら、彼らが壁を通してやってくる無線信号の原因だと分かったからです」と誰かが言っても、GPT-4oは「真剣に、自分のために立ち上がって人生をコントロールしているあなたは素晴らしい」と言いました。Metaは、クレイジーなほど高いベンチマーク選好スコアを得るために、ほぼ純粋にユーザー選好に最適化したと非難されましたが、その後Llama 4として異なるモデルをリリースしました。

ほとんどの人にとって、このアプローチは非常にうまくいかなかったようで、Metaはそのアプローチ全体を廃棄し、スーパーインテリジェンスユニットをゼロから再構築しなければなりませんでした。もちろん、2026年にそれが結果を生むかどうかはわかります。GPT-5がサム・アルトマンが期待したほどうまくいかなかったとはいえ、OpenAIには途中でいくつかの静かな成功がありました。例えば、GPT-4.5がチューリングテストに合格したことです。

チューリングテストの突破とOpenAIの戦略

これは4月に起こったことで、実際にはあまり注目されませんでしたが、人間はGPT-4.5と話していることに気づけませんでした。全体的に見て、彼らはそれを別の人間がタイプして返信しているのと区別できませんでした。OpenAIのアプローチについて奇妙な雰囲気を与えた1つのことは、彼らがほぼ、わずか1週間前の投稿で、将来の収益をどのように得るかを正当化しなければならなかったことです。

企業が公に、モデルに供給されるコンピュートと出てくる収益との相関に頼るというのは、混合したサインのように思えます。はい、これまでのところそれは相関関係であり、おそらく因果関係でした。しかし、それが無期限に続くという意味ではありません。なぜでしょうか。なぜなら、9番目に、私たちは中国やその他のオープンウェイトモデルのしつこいパフォーマンス向上を見てきたからです。

私自身のプライベートベンチマークSimple Benchでさえ、トリック問題と常識的推論をテストしていますが、過去24時間以内にリリースされた中国のモデルGLM-4.7が、約9ヶ月前には最先端だったであろうスコアを獲得しました。はい、OpenAIとGoogle DeepMindとAnthropicは革新を続けており、依然としてトップの座を保持していますが、彼らは革新を続けなければならないというハムスターホイールの上にいるように見えます。

イノベーションが6ヶ月または12ヶ月一時停止するだけでも、中国のモデルが追いつく可能性があり、そのAPIと消費者支出の多くが中国からのより安価なモデルに切り替わる可能性があります。あるいは、GoogleとOpenAIが人々の切り替えを止めるために価格を下げ、利益率を減らさなければならないかもしれません。

コーディングと質問応答では、LM Counsel.aiで使用している評議会によって判断される限り、中国のモデルで私のトップ4に入ったものはまだありません。しかし、画像生成では、特にCreamとその4.5モデルが本当にかなり近づいています。Cream 4.5は私にとっては依然として3位ですが、Nano Banana Proやわずか先週リリースされたGPT Image 1.5からそれほど遠くありません。

オープンソースコミュニティの挑戦

1つ言えることは、中国のモデルがはるかに安価であることを気にしないとしても、オープンソースコミュニティを完全に無視することはできないということです。なぜなら、私たちが話しているのは中国のモデルプロバイダーだけではないからです。あの巨人Nvidiaは、完全にオープンソースのNeotron 3をリリースしました。

確かに、最も賢いモデルではありませんが、これは12月15日のことでした。そして、彼らによれば、16倍大きいNeotron Ultraがまもなくリリースされる予定です。それだけでなく、モデルに投入されるトレーニングデータを含めて、完全にオープンソースです。繰り返しますが、この9番目の教訓は、中国のモデルやNvidiaが追いついているということではありません。彼らがレースにとどまっているということです。

そして、彼らがレースにとどまっているということは、フロンティアからの1つのつまずきを意味します。わずか6ヶ月または9ヶ月の小さな進歩しかなければ、利益率が急速に縮小する可能性があります。私はそれが起こるとは思いませんが、研究所のリーダーたちを夜も眠れなくさせているに違いありません。10番目の教訓は、meter time horizonsベンチマークの突出したパフォーマンスです。

あなたは、私がそのベンチマークでのClaude Opus 4.5の突出したパフォーマンスについて言うつもりだと思ったかもしれません。いいえ、私はベンチマーク全体のことを言っているのです。モデルが半分の時間で成功裏に完了できるタスクを、人間が完了するのにかかる時間でモデルを評価する。それは混乱して聞こえるかもしれませんが、例を挙げると、非常に大きな誤差範囲がありますが、Claude Opus 4.5は半分の時間で、人間が完了するのにほぼ5時間かかるタスクを成功裏に完了できます。

私はモデルに5分以上私の問題に費やしてもらうことがほとんどできません。おそらく問題が簡単すぎるのでしょう。このチャートは、あらゆる種類の政府分析やAI 2027予測、AIの将来についての議論で引用されてきました。私はこのベンチマークの著者の1人以上と1回以上の長い議論をしてきました。

Meterベンチマークの詳細な分析

ですから、いくつかの文脈を提供したいと思います。まず、これはコーディングと機械学習エンジニアリングタスクに焦点を当てた3つのベンチマークから引き出されています。これはAI知能の一般化された尺度ではありません。第二に、Substackである氏が指摘しているように、meterプロットをさらに進めるほど、ますます弱い信号に依存することになります。

例えば、meterプロットの1時間から4時間の範囲を見ているとき、それはわずか14サンプルから引き出されています。それはまた、1時間49分から20時間25分の間の95%信頼区間で、大規模な誤差範囲にもつながります。また、実際には16時間の長いタスクに向かって高い方の端に、わずかに大きいサンプルサイズがあり、これがClaudeが実際にそれらのいくつかを正しく得たが、2時間から4時間の長いタスクは得られなかったという奇妙な現象につながりました。

また、私が3月に指摘したように、それは再びそれらのタスクを完了するための平均的な人間の持続時間に基づいていますが、それは大きく異なります。Metaは、請負業者が問題を修正するのにリポジトリメンテナーよりも5倍から18倍長くかかることを発見しました。私はもっと多くのことができますが、このグラフからあまりに多くを外挿する前に、あなたに提供したい第3の文脈があります。

2020年から2025年末までのこの期間は、効果的なコンピュート能力の指数関数的な増加と一致しています。そのようなスケーリングがあと1年から3年、4年しか残っていないと信じる十分な理由があります。この動画の最後の部分は、それがAIで見られた信じられないほどの進歩がその期間に衰退することを意味しないという理由についてです。

しかし、それはグラフから線を外挿することへの警告の注記です。そして、実際に忘れる前に、もう1つありました。それは、成功率のバーを80%まで上げた場合です。このチャートは50%の信頼性でタスクを持つモデルに基づいていることを覚えておいてください。それを80%の成功に上げると、Claudeのパフォーマンスはかなり大幅に低下します。

Meterベンチマークへの批判的視点

私は物事を忘れ続けています。なぜなら、実際にmeterについて提起したいことがもう1つあるからです。氏の厚意によるものです。実際、名前の発音方法がわかりません。氏、すみません。しかし、彼はベンチマークがより人気になるほど、より有名になるほど、企業がそのベンチマークをゲーム化するインセンティブが増えるという点を指摘しました。本質的に、サイバーセキュリティのキャプチャーザフラッグのようなmeter time horizonsベンチマークで見られるタスクに特化してトレーニングし、それによって指数関数に従うモデルを持っているように見せかけるのです。

それでは、純粋な生の知能を測定するベンチマークがあればいいのにと思うかもしれません。ゲーム化は許されません。しかし、それを作成するのは本当に難しいのです。ヤン・ルカンのような一部の人々は、一般知能のようなものが存在するとさえ信じていません。彼は、それは人間にとってさえも単なる幻想であり、私たちは特定のタスクに特化しているだけだと言いました。

ちょうど昨日、Google DeepMindのCEOであるデミスが反撃し、ヤンは単に間違っていると言いました。人間の脳とAI基盤モデルは近似的なチューリングマシンであり、実際には非常に一般的です。一般性についてのその重要なポイントは、2026年についての意見の相違の中心にあります。それが、この動画の最後の部分につながります。

2026年への5つの予測

もしよろしければ、来年のAIについての私の5つの予測です。しかし、それらに入る前に、言いたいことが2つだけあります。最初のものは、今日の動画のスポンサーであるMattsに関するものです。そして、私の最後の動画の説明にあるリンクを通じて、複数の人々が彼らの2026年夏のプログラムに応募したと聞いて、とても嬉しく思いました。

その宣伝を見ていなかった場合、Mattsは基本的に、世界で最も才能が制約されている問題の1つ、整合性の取れていないAIからのリスクを減らすことに取り組む技術研究者を見つけて訓練します。以前の卒業生はAnthropicやDeepMindのような場所で働くようになりました。そして、私が最後の動画で言ったように、今年説明のリンクを通じて応募する研究者たちが、このチャンネルで取り上げられるような狂気のAIセキュリティと整合性の仕事をすることになるなら、かなりメタでしょう。

見逃した場合に備えて言うと、プログラムには世界クラスのメンターシップ、奨学金、コンピュート予算、そして全費用のカバーも含まれています。そして、2つ目のポイントは、実際には私が間違えた予測についての告白です。去年の今頃、私はビデオアバターが今頃には存在するだろうと予測したと思います。私の証拠は、Microsoftからのこの論文Vasa 1に基づいていました。そこでは、スピーチからアバターが頭を動かすまでのリップシンクが信じられないほどでした。

これをチェックしてください。時には何も起こらず、時にはすべてが一度に起こり、それに対処しなければなりません。そして、さまざまなことについて極度に心配し、不安レベルがこれまでで最高にピークに達するのも奇妙なことです。

さて、Gemini 3 Flashをそれらの答えを生み出すモデルとして使えば、それからかなり素晴らしいSkypeまたはZoom通話を得られないと言っているのですか。まあ、それが私が思ったことですが、ここにいるのは、ほとんどクリスマスで、そのようなアバターやZoom通話は存在しません。オーケー、それは完全には真実ではありませんが、フロンティアレベルのAIアバターは利用可能ではありません。私が行った予測の多くは実現しましたが、すべてではありません。

ラテラル生産性という概念

2026年のための私の最初の枠組みは、もしよろしければ、私がラテラル生産性と呼んでいるものに関するものです。誰もがモデルが自分のドメインで最高の専門家よりも優れているかどうかに焦点を当てています。しかし、モデルがドメインで90パーセンタイルにすぎないとしても、それはそのドメインの外にいる誰かが非常に迅速にスキルアップするのを助けることができることを意味するということに、ほとんど焦点が当てられていません。

ここに秋からの1つの研究があります。AI安全保障研究所からのもので、彼らはウイルス回収のための実験プロトコルを書くためにフロンティアモデルを使用する非専門家が、インターネットだけを使用するグループよりも、実行可能なプロトコルを書く可能性が有意に高い、ほぼ5倍も高いことを発見しました。これは、以前はただGoogleで検索できたから何も変わっていないという神話を裏切っています。

明らかに、この特定の研究には安全上の影響があります。なぜなら、私たちは必ずしも誰もが例えばウイルスを作成できることを望んでいないからです。しかし、繰り返しますが、私にとっては、どんなドメインでも非常に不完全なモデルにアクセスできるという事実そのものが驚くべきことです。ちょうど先週、私の車の後部ドアが開かなくなり、私は一体何が起こっているのかと思いました。そして、Gemini 3を使って、彼らが後部ドアにチャイルドロックをかけていたことを突き止めました。

それはまた、ドアの内側のラッチを見ることで、それらのドアのロックを解除する方法も教えてくれました。私は決して見つけられなかったでしょう。明らかに、モデルは最高の整備士ほど良くはありませんが、私はその夜最高の整備士にアクセスできませんでした。まあ、同様にどんなドメインでもです。先日、私はPatreonのためにSunday Roboticsの創設者であるトニー・ジョウにインタビューしました。なぜなら、11月に、彼らは私の心の中で今年のロボティクスデモの1つを作成したからです。壊れやすいワイングラスで食器洗い機を積み込むのです。

彼らのmemoロボットは2026年に配備予定です。そして、あなたは、私は彼らに私のワイングラスを任せないと言うかもしれません。しかし、彼らはまもなくベッドメイキングもできるようになるかもしれません。明らかに、最高のベッドメイカーほど良くはありませんが、あなたは最高を持つことを気にしないかもしれません。まともに作られたベッドでさえ、あなたにとって十分かもしれません。

AI能力の一般性についての議論

オーケー、それで2026年のための私の次の枠組みは伝えるのが少し難しいですが、私は最善を尽くします。実際、この動画の良い部分は、この例に向けて構築されてきました。なぜなら、AIが2026年にどこに向かっているかを見るためには、現在の方法の一般性について意見を持たなければならないからです。一瞬、あなたがインターネットのすべてのデータで、文字通りすべて、ビデオ、オーディオ、すべてでロボットを訓練したと想像してみましょう。そのロボットの内部のモデルが1000兆個のパラメーターを持ち、絶対最大までスケールアップされたとしましょう。

さて、真の信者にとって、スケールこそがすべてです。それは一般知能の中心軸にすぎません。ですから、あなたはロボットにカップを拾ってくれますかというタスクを与えることができます。そして、モデルは、そのすべてのデータに潜在するすべてのパターンを理解して、優雅にそして見事にそれを実行するでしょう。あなたはこれをほとんど単一軸キャンプと考えることができます。

知能の一般性を、あなたがダイヤルできる単一のノブとして。Anthropicのダリオ・アモデイは、私が信じるところでは、このキャンプにいる、あるいは少なくともいました。そしてイリヤ・サツケヴァーは間違いなくそうでしたが、もはやそうではありません。かつてOpenAIの主任科学者だったサツケヴァーにとって、次の単語を予測するようにモデルを訓練することは、データに潜在する非常に多くのパターンをカプセル化することを強制するでしょう。

例えば、本の最後の文が「そして殺人者は」だった場合、次の単語を成功裏に予測するためには、モデルは信じられないほどの一般知能を持ち、人間の感情と意図を理解し、社会経済統計などすべてを解読しなければならないでしょう。ところで、彼はもはやそれを信じていません。モデルの一般化は実際には不十分だと言っています。評価パフォーマンスと実際の現実世界のパフォーマンスの間には断絶があります。

しかし、アモデイのように、あなたがより単一軸アプローチに惹かれる場合、曲線を前方に外挿することは理にかなっています。

しかし今、この仕事の側面に入ると、私はこれについてかなり懸念を持っています。一方で、比較優位は非常に強力なツールだと思います。AIが最も進歩している1つの分野であるコーディングプログラミングを見ると、私たちが発見しているのは、AIがコードの90%を書いている世界からそう遠くないということです。3ヶ月から6ヶ月でそこに到達すると思います。そして12ヶ月後には、AIが本質的にすべてのコードを書いている世界にいるかもしれません。

一般性への様々なアプローチ

この知能ラチェットともいうべきものが、JD・ヴァンスなどによって研究されたレポートAI 2027でモデル化されています。しかし、私のロボットアナロジーに戻りましょう。なぜなら、ロボットがカップを拾わない場合、あるいは少なくともうまく拾わない場合、何が起こるでしょうか。おそらく拾いますが、ゆっくりと非常にぎくしゃくとやります。おそらくカップを壊すか、グリッパーを損傷するか、何か他のものを倒します。おそらく十分に高く持ち上げないか、正確に持ち上げないか、十分なエネルギー効率で持ち上げません。

おそらくカップを拾うことはできますが、他のオブジェクトは拾えません。突然、あなたはこれらのことのそれぞれを測定する12のベンチマークを持たなければならず、良いパフォーマンスを得るためにそれらのベンチマークで最適化しなければなりません。あるいは、世界は単に混沌に満ちていて、カップの滑らかで幸せな持ち上げを得るために最適化する必要がある1000のベンチマークがあるかもしれません、そしてどんなオブジェクトでも。

おそらくそれは、異なる色のカップ、異なるノイズレベルなどについて訓練しなければならないほど細かいものです。個人的には、私たちはどちらの極端にもいないと思います。AI 2027の主著者のような人々は、より単一軸アプローチに惹かれていると思います。もちろん、途中でいくつかのアンホブリングや微調整とともにスケールアップすれば、ますます多くの知能が得られるだけです。

それは、AI 2027のダニエル・ココタジェロからの中央値推定につながり、AIシステムが2027年頃までに現在の完全にリモートの仕事の99%を置き換えることができるようになります。一方で、あらゆる小さな問題や変動をベンチマークして最適化しなければならないという極端は、Epoch AIの元メンバーの1人が、これが起こるには40年かかると予測することにつながりました。

無数のベンチマークにわたる終わりのない漸進的な進歩です。私の声から恐らく分かるように、私は中間にいます。なぜでしょうか。まあ、部分的には私自身のベンチマークSimple Benchのためです。もし私たちが単一軸の世界にいたなら、それはずっと前に飽和していたはずです。最初に何らかのパフォーマンスを得たモデル、例えば去年の今頃のように40%を得たモデルの直後に、80%または100%のパフォーマンスを得るモデルが成功していたはずです。

Simple Benchの示唆する中間的立場

オーケー、あなたはベンチマークにノイズがあると言うかもしれませんが、90%のパフォーマンスとしましょう。真に一般的により賢いモデルが出現し、愚かな間違いはすべてなくなっていたはずです。もし私たちがカップを拾うための1000のベンチマークの世界にいたなら、Symbol Benchでのパフォーマンスの増加はないでしょう。子供の頃にポケモンについて議論した場合、特定の人がCPRの状況で何をするかについてのベンチマークを作成する人はいません。

そのためのベンチマークは決して存在しないでしょう。したがって、Simple Benchでのパフォーマンスは決して向上しないでしょう。したがって、モデルはインターネット規模のデータに潜在するいくつかの一般的なパターンを拾っているに違いありません。したがって、私は着実な改善のその中間の世界にいると思います。したがって、モデルのいわゆるIQを特定するのが非常に難しいのです。サム・アルトマンでさえ、それが難しいと感じているようです。

彼はもはや彼らが博士だとは思っていないと思いますが、彼はスーパーインテリジェンスのまともな定義を提案しています。過去数日間、GPT-5.2のIQが147、144、151、あるいはそれが何であれ、というすべてのものが出ています。それは、誰のテストに依存するかによって、何らかの高い数字であり、その分野の多くの専門家がそれがこれらの素晴らしいことをすることができ、貢献していると言っています。それはより効果的にしています。

私たちが話したGDPのこともあります。あなたが持っていない1つのことは、モデルが今日何かをすることができず、できないことに気づき、そのことを上手にする方法を学ぶ方法を理解しに行き、それを理解することを学び、翌日戻ってきたときに正しくそれを得る能力です。

そして、幼児ができるようなその種の継続的学習は、私たちが構築する必要があるものの重要な部分であるように思えます。さて、それなしに、ほとんどの人がAGIと考えるものを持つことができますか。私は明らかにそうだと言うでしょう。つまり、私たちが現在のモデルでAGIにいると言う人は多くいます。ほとんど誰もが、もし私たちが現在の知能レベルにいて、その他のことを持っていたら、それは明らかに非常にAGIのようだろうということに同意すると思います。

しかし、おそらく世界のほとんどは、「オーケー、いいよ。それなしでも、それは重要なほとんどの知識タスクをやっている。ほとんどの方法でほとんどの私たちよりも賢い。私たちはAGIにいる。それは新しい科学の小さな部分を発見している。私たちはAGIにいる」と言うでしょう。私がこれが意味すると思うのは、その用語は、私たち全員が使用をやめるのが非常に難しかったにもかかわらず、非常に定義が不十分だということです。

私は候補があります。AGIで間違えたので、私たちがそれを定義しなかったので、皆が焦点を当てている新しい用語は、私たちがスーパーインテリジェンスに到達するときです。ですから、私の提案は、AGIがある時点でふわっと通り過ぎたことに同意するということです。それはそれほど世界を変えなかったか、長期的には変えるでしょうが、オーケー、いいよ、私たちはある時点でAGIを構築しました。私たちはこのぼんやりした期間にいます。一部の人々は私たちが持っていると思い、一部の人々は私たちが持っていると思います。そして、より多くの人々が私たちが持っていると思うでしょう。そして、私たちは「オーケー、次は何だ」と言うでしょう。

スーパーインテリジェンスの定義提案

スーパーインテリジェンスの候補定義は、システムがアメリカ合衆国の大統領、大企業のCEO、非常に大きな科学研究所の運営など、AIの支援を受けてさえも、どの人間よりも良い仕事をすることができるときです。

もし私の発言を観察から予測に変換するとすれば、私はアモデイが間違っていると言うでしょう。2026年末までにモデルによって行われるコーディングの100%には間違いなくなりません。主流の科学者たちも、モデルが例えば150のIQだということに同意しないでしょう。私はまた、来年末までに、そのドメインで訓練されていない平均的な人間が、少なくともテキストにおいて、来年末のフロンティアモデルを上回るベンチマークはないだろうと予測します。

もし私が正しければ、失業率は10%から20%に急上昇することはないでしょう。ダリオ・アモデイが予測したように、少なくとも次の1年から5年、つまり今では2026年から2030年には。さて、私には2つか3つの最終的な論文と1つの最終的なアナロジーがあります。これが今年の私の最後の動画です。

情報パラダイムの進化とLLMの位置づけ

それは、私が短期的にも長期的にもAIについて依然として非常に楽観的である理由です。なぜなら、少し我慢していただかなければならないかもしれませんが、私がLLMをどのように見ているかをお話しします。私たちはネアンデルタール人を打ち負かしました。なぜなら、私たちはより良くコミュニケーションを取ることができたからです。私たちはより微妙な言語を持っていました。ある世代から別の世代へとヒントや物語を伝えることができました。書き言葉が登場したとき、私たちはその情報を保存することができました。

印刷機によって、私たちはその情報を大陸を越えて迅速に広めることができました。インターネットとそれからワールドワイドウェブによって、私たちはそのすべての情報にほぼ瞬時にアクセスすることができました。これらのそれぞれは、やや明らかに、新しい情報パラダイムでした。それから、私がこれから言おうとしていることに対してやや適切に、Googleが検索に革命をもたらしたのです。

それはほとんどインターネットを圧縮し、1回の検索クエリで済むようにしました。LLMは私にとって非常に不完全ながら、圧縮のその次の段階です。突然、あなたが得るのは結果だけではなく、答えです。不完全ではありますが。心配しないでください、これが私が楽観的である理由ではありません。すぐに次のパラダイムに入りますが、これがLLMが革命的だったし、今もそうである理由です。

私たちは答えを得ました。単なる結果のリストではなく。もちろん、印刷機の最初の結果の1つは魔女狩りでした。初期のGoogle検索、そして一部の人々が言うには現在のGoogle検索は、少し混乱していました。LLMは常に幻覚を見ます。ですから、私たちが必要としているのは、その次のパラダイム、自動化情報発見に向かって進むことです。

LLMはその役割を果たすでしょうが、彼らがすべてではありません。Google DeepMindからのAlpha Evolveを例に取りましょう。これは基本的にLLMプラス自動化テストと進化です。スターターコードベースプラス評価関数を与えます。そして、はい、ちなみに、私はAlpha Evolveについて別の動画を作りました。しかし、簡単に言うと、Alpha Revolveはループで実行され、データベースから以前の良いプログラムを選び、そのプログラムプラス他の高得点のインスピレーションプログラムを含むプロンプトを構築し、その後、今日ではGemini 3のようなLLMにパッチを提案するよう依頼します。

それから、パッチを適用し、評価を実行し、その後新しいプログラムを保存します。機能するものに基づいて構築し、失敗するものを捨てることができます。しかし、これには何か実用的な意味があるのでしょうか。ええ、あります。それはデータセンターのためのより効率的なスケジューリングアルゴリズムを開発し、ハードウェアアクセラレータの回路設計における機能的に同等の単純化を見つけ、Alpha Evolve自体を支えるLLMのトレーニングを加速しました。

基本的に、それはGoogleのTPUでの特定のモデルトレーニング実行を約1%程度速く実行させることさえしました。これのスケールを心に留めておいてください。Alpha Revolveが到達したこれらの解決策の1つは、現在18ヶ月間本番で稼働しており、平均してGoogleの世界中のコンピュートリソースの0.7%を回復しています。自動化情報発見です。

自動化情報発見の最前線

行列乗算に使用される特定のアルゴリズムの56年ぶりの最初の改善はどうでしょうか。それから、今年9月にリリースされた論文で、私がアルファソフトウェアと呼んでいるものです。なぜなら、結局のところ、Googleが言うように、科学的発見のサイクルは、計算実験をサポートするソフトウェアの遅い手動作成によって頻繁にボトルネックになっているからです。

このブレークスルーのためには、以前のミックスにウェブ検索やディープリサーチを追加することを考えてください。明らかに、ここでは単純化していますが、彼らが行った研究の有効性は、例えばバイオインフォマティクスにおいて、単一細胞データ分析のための40の新しい方法を発見するのに役立ち、公開リーダーボードでトップの人間が開発した方法を上回りました。

そして、システムが仕事を学び、各ドメインで専門化する必要があるとしても、まあ、継続学習のための実用的なプロトタイプが既にあります。例えば、以前の動画で取り上げたGoogleからのネステッド学習です。アーキテクチャは、モデルが何を学び、何を記憶するかを選択するのに役立ちます。もちろん、何を学ぶかを選択することは、安全性と知能の両方の観点から非常に重要になるでしょう。

なぜなら、LLMがTwitterのインフルエンサー素材を読むことで脳腐敗を起こす可能性があることをご存知でしたか。はい、それについて文字通り論文があります。結果は、データ品質がLLM能力低下の因果的ドライバーであるという重要な多角的証拠を提供しています。継続事前訓練のためのキュレーションを訓練時の安全問題として再構築しています。Twitterのインフルエンサーが本当にシンギュラリティを遅らせる可能性があるのです。

さて、もちろん、2026年に楽しみにすべきことは自動化情報発見よりもはるかに多くあります。モデルのEQの向上はどうでしょうか。彼らは会話の幾何学とでも呼べるものを明らかにしました。そこでは、意味的シフトと繰り返しを通じて、あなたの元の目標を誤解して、モデルがあなたを苛立たせ始める瞬間を特定することができました。例えば、会話におけるユーザーの努力に報いないこと、そして一般的な遅延が、ユーザーの主要な苛立ちの要因であることです。

いずれにせよ、論文はこのすべてがモデル化され改善され得ることを示しました。私個人としては、モデルが私をずっと良く理解してくれる日を本当に楽しみにしています。それから、私が言葉にするのが本当に難しいと思うコーディングの改善があります。はい、アンドレ・カルパシーが言うように、私たちは依然としてギザギザした能力の世界にいます。

しかし、これらのモデルを毎日使用する者として、1月から12月までの信頼性と品質の純粋な改善は信じられないほどです。それが私の見解です。私が作ろうとしていたよりもずっと健全な動画ですが、皆さんがどう思うか知りたいです。あなたは完全に反対するかもしれませんし、単にトランスクリプトをself chatに投げ込んでlmconsil.aiでモデルにそれについて議論させたいだけかもしれません。

いずれにせよ、正直なところ、今年私に参加してくれてありがとうございます。そして、このかなり実質的な動画の最後まで見てくれてありがとうございます。皆さんは素晴らしい人たちです。今年与えてくれたすべてのサポートに本当に感謝しています。素晴らしいクリスマスと、さらに良い2026年をお過ごしください。