ついにやった、AGIアーキテクチャがついに機能した！

この動画では、世界で最も尊敬されるAI科学者の一人であるYann LeCunが開発したJoint Embedding Predictive Architecture（JEPA）について解説している。現在のAIパラダイムではAGIに到達できないと考えるLeCunが、過去3〜4年間取り組んできたこの新しいアーキテクチャが、ついにAGI実現への道筋を示す成果を発表した。また、MITが開発した自己改善手法により10億パラメータという小規模なモデルがOpenAI o3に迫る性能を実現したこと、Sam AltmanのAI未来予測、そしてAIによるコーディング自動化の現状についても詳しく分析している。

AGIへの新たなアプローチ – JEPA
ヤン・ルカンの革新的なビジョン
ワールドモデルの革命的な影響
JEPAの革新的な原理
MITの画期的な自己改善手法
サム・アルトマンの「穏やかな特異点」
経済への影響と新しい時代の到来
プログラミングの未来と変革

AGIへの新たなアプローチ – JEPA

世界で最も尊敬されるAI科学者の一人であるヤン・ルカンは、現在のAIパラダイムではAGIに到達することは不可能だと考えています。そして過去3〜4年間、彼はAGIのためのアーキテクチャとなる可能性が高いJoint Embedding Predictive Architecture（JEPA）に取り組んできました。そして今回、この新しいアプローチで何が実際に可能なのかを垣間見せてくれるモデルを発表したのです。

MITは、10億パラメータのモデルがOpenAIのo3にARC AGIベンチマークでほぼ匹敵する性能を達成可能にする新しい自己改善手法を導入しました。10億パラメータは小さくないでしょうか？いえ、現代のAIモデルと比較すると極めて小さいのです。この手法がいかにインパクトのあるものかをお伝えすると、自己改善手法を使用する前、このモデルはARC AGIで一貫してゼロ点を記録していました。

サム・アルトマンは再び話題を盛り上げ、「穏やかな特異点」というブログ記事を書きました。私たちは事象の地平線を越えている。人類はデジタル超知能の構築に近づいています。このブログ記事は、彼の未来へのビジョンとOpenAIが今後向かう方向について非常に示唆に富んでいます。

そして最後に、コーダーたちにとって厳しい年となっており、状況はさらに悪化しているようです。9歳の子供たちがウェブサイトをコーディングしている今、私たちには多くの新しい顔がいます。ようこそ、そして何も壊さないでくださいね。

ヤン・ルカンの革新的なビジョン

ヤン・ルカンはVJ-JEPA 2を紹介しました。これは、AGI達成のための最も有望なアーキテクチャの一つであるJoint Embedding Predictive Architectureに基づく新しいビデオモデルです。

最近、言語モデルに対してワールドモデルについてよく耳にするでしょう。Google、NVIDIA、Metaなど、みんながワールドモデルに切り替える、というよりもアップグレードしています。JEPAはその主要な候補の一つです。

ヤン・ルカン自身が最もよく説明してくれると思います。

AIは技術的な挑戦であると同時に科学的な挑戦でもあります。なぜなら、私たちはまだ真に知的なシステムをどう構築するかを知らないからです。これは現代の大きな科学的問題の一つです。宇宙は何でできているのか、人生とは何なのか、脳はどう働くのか、あるいは知性とは実際のところ何なのか。

皆さん、こんにちは。私の名前はヤン・ルカンです。MetaのチーフAI科学者です。人間として、私たちは言語が知性にとって非常に重要だと思っていますが、実際にはそうではありません。

あなたの前の空中に浮かぶキューブを想像してみてください。そして、そのキューブを90度回転させることを想像してみてください。これを心の中で描くことができるでしょう。そしてこれは言語とは全く関係ありません。

人間と動物は、現実の心的モデルを構築することによって世界をナビゲートします。AIがこの種の常識、つまり何らかの抽象的な表現空間で何が起こるかを予測する能力を開発できるとしたらどうでしょうか。私たちはこの概念をワールドモデルと呼んでいます。

機械が物理的世界を理解できるようにすることは、言語を理解できるようにすることとは大きく異なります。ワールドモデルは、AIが世界を理解し、その行動の結果を予測するために参照できる現実の抽象的なデジタルツインのようなものです。したがって、与えられたタスクを達成するための行動計画を立てることができるでしょう。

何か新しいことを学ぶのに何百万回もの試行を必要としません。なぜなら、ワールドモデルが世界がどう機能するかの根本的な理解を提供するからです。

ワールドモデルの革命的な影響

ワールドモデルを使って推論し計画できるAIの影響は計り知れないでしょう。視覚障害のある人々を支援する補助技術を想像してみてください。複合現実におけるAIエージェントが複雑なタスクを通じてガイダンスを提供し、教育をより個人化することができます。

新しいコード行がプログラムの変数の状態をどう変更するか、既存のコードのコンテキストにおける外部世界への影響を実際に理解できるAIコーディングエージェントを想像してみてください。

そしてもちろん、ワールドモデルは自動運転車やロボットのような自律システムには不可欠です。実際、私たちはワールドモデルがロボティクスの新時代を切り開くと信じています。天文学的な量のロボット訓練データを必要とすることなく、雑用や物理的タスクを手伝ってくれる現実世界のAIエージェントを可能にするのです。

これはAI研究にとって非常にエキサイティングな時代であり、私たちの前には魅力的な科学的問題群があります。私たちは知性そのものを理解したいのです。学習、推論、物理世界の理解を通じて、日常生活で何十億もの人々を助けることができるシステムを構築できるように。

私たちはvideo JEPA バージョン2のリリースを発表できることを嬉しく思います。この旅路における次のステップです。ワールドモデルの可能性を探求し続け、AI研究の境界を押し広げていく中で、私たちとともにお付き合いください。

JEPAの革新的な原理

JEPAはビデオモデルではありません。それは異なるモダリティに適用できる広範な原理です。JEPAの背後にある主要なアイデアはこうです。今日のほぼすべてのAIモデルは、それが単語であれ、ピクセルであれ、ロボットのアクションであれ、トークンを予測するように訓練されています。

これは、私たちが主に汎化を気にかけているにもかかわらず、訓練プロセスの結果として、AIが一般的なパターンよりも特定の詳細を予測することに焦点を当てることを意味します。

例えば、画像モデルは正確なピクセルを予測しようとし、言語モデルはインターネット全体を一字一句記憶します。これは、モデルの容量の多くが詳細に無駄遣いされることを意味し、その容量はより良い抽象化とヒューリスティックに使用できるはずです。これが最終的に汎用人工知能につながるでしょう。少なくとも、それが現在の最良の推測です。

JEPAは、詳細を予測することを避けながら抽象的表現を開発するように一から設計されています。VJ-JEPA 2は、この概念の最新の実装です。12億パラメータのモデルで、これは非常に小さいですが、最先端の視覚理解と予測を達成し、新しい環境でのゼロショットロボット制御を可能にしています。

すでにロボットで見たことのあるクレイジーな動作もあるでしょうが、それらのほとんどは、その一つのタスクのために仮想環境で特別に強化されたものです。これがそれらを特に印象的にしているのですが、しかし汎用的ではありません。

しかし、JEPAは物理学と物事がどう動くかの一般的な理解を持っているため、ゼロ練習で新しい環境でタスクを実行できます。これは、モダリティに関係なく、AIが私たちと同じようにすべてを概念とパターンとして理解する未来への一瞥です。

MITの画期的な自己改善手法

エキサイティングで革新的なアイデアは多くの反復を経る必要があり、複数の規模で自分自身を証明しなければなりません。明らかに、まず非常に小さなモデルでテストされるべきです。

小さなモデルでの革新的なアイデアといえば、MITは極小モデルで信じられないほどの可能性を示す自己改善手法に関する論文を発表したばかりです。

Self-Adapting Model（SEAL）は、LLMがテスト時に独自のファインチューニングデータと更新指令を生成することで自己適応できるようにするフレームワークです。このフレームワークにより、通常ARC AGIでゼロ点を取る10億パラメータのモデルが72.5%のスコアを達成しました。

これを視野に入れると、推論能力を持つ簡単に1000倍大きなモデルであるo1 highは、ARCで約30%しかスコアしませんでした。OpenAIの最新モデルであるo3だけが70%以上のスコアを取ることができます。

これが達成された方法は非常に巧妙で、おそらくより大きなモデルでもそのまま機能するでしょう。モデルは、重みを更新する方法に関する候補自己編集指令を生成し、更新を適用し、下流タスクでのパフォーマンスを評価し、結果として得られる報酬を使用して自己編集生成ポリシーを改善します。

これは基本的に合成データ生成とファインチューニングが強化学習を使って大幅に拡大・強化されたものであり、手元のタスクのためにAI自身によって特別に指示されています。

サム・アルトマンの「穏やかな特異点」

最近、自己改善AIをあまりにも多く見ており、それがサム・アルトマンがすでに事象の地平線を越えたと言っている理由かもしれません。

事象の地平線は、重力が非常に強く、光さえも逃げることができないブラックホール周辺の境界で、すべてが特異点に向かって動きます。AIにとって、その境界は真の自己改善の点として知られています。AIが表面的にではなく、真に根本的に自分自身をより良くすることを再帰的にできるようになるときです。

ここから、私たちがすでに構築したツールが、さらなる科学的洞察を見つけ、より良いAIシステムの作成を支援してくれるでしょう。これは、AIシステムが自分自身のコードを完全に自律的に更新することとは同じではありませんが、それでもこれは再帰的自己改善の横方向のバージョンです。

私は、これをAIの事象の地平線を越えたとは思いません。特異点という言葉は、AI支援研究にとってあまりにも強烈すぎると思います。しかし、はい、AIはすでに自分自身の進歩を加速させるループの中にいます。

この部分は非常に興味深いです。他の自己強化ループも作用しています。経済価値創造が複合インフラ構築の弾み車を開始し、他のロボットを構築できるロボット、そしてある意味で他のデータセンターを構築できるデータセンターが生まれています。

経済への影響と新しい時代の到来

経済の点で、StripeのCEOがAIについて驚くべき統計をツイートしました。因果関係を明確に帰属させるのは難しいですが、AIがStripeのマクロ数値に影響を与え始めているようです。2025年にStripeにサインアップした顧客からの支払いボリュームは、過去の年を大きく上回っており、ロックダウンが大きなサインアップ急増を引き起こした2020年さえも上回っています。先週は昨年の同週より116%上回っていました。

そう、AIは確実により多くの投資を正当化する経済ループの中にあり、投資によってより良くなり、さらに多くのお金を引き寄せています。

サム・アルトマンはこの部分についてこう言っています。職業の丸ごとのクラスが消失するなど、非常に困難な部分がありますが、一方で世界はこれほど急速に豊かになるため、これまで決して考えられなかった新しい政策アイデアを真剣に検討できるようになるでしょう。

私たちはおそらく新しい社会契約を一度に採用することはないでしょうが、数十年後に振り返ると、漸進的な変化が大きなものに積み重なっているでしょう。

私たち全員が同意できると思うのは、数十年後、惑星規模の破滅的な出来事がないなら、私たちはある種の新しい種族になっているということです。AI、ロボティクス、遺伝子編集、脳インターフェースなどを組み合わせると何が起こるかは想像もつきません。

それは遠すぎる話ですが、今年2025年に起こっているクレイジーなことがあります。実際の認知作業ができるエージェントの到来です。コンピューターコードを書くことは二度と同じではないでしょう。

2026年には、新しい洞察を理解できるシステムの到来が見られる可能性があります。2027年には、現実世界でタスクを実行できるロボットの到来が見られるかもしれません。

2027年がロボティクスの年だとは思いませんが、コンピューターコードの側面では、これをもっと真剣に受け止め始める必要があると思います。

プログラミングの未来と変革

基本的にすべての主要なラボ、OpenAI、Anthropic、Google、Meta、すべてがコーディングが今年自動化されるか、少なくともAIによって完全に刷新されると述べています。そして、9歳の子供たちがウェブサイトをコーディングしているこの出来事によって、その一端を見ることができます。

かなり技術的な人間としての私の個人的な見解は、コーディングが今年や来年に完全に自動化されることはないということです。複雑なプロジェクトについては、私たちが見る可能性がはるかに高いのは、1つ目により生産的なソフトウェアエンジニア、2つ目に大幅により野心的なソフトウェアプロジェクト、そして3つ目に基本的なソフトウェアニーズの豊富化です。ランディングページやシンプルなウェブサイトが豊富になったように。

CursorのCEOからソフトウェア制作がどのように進歩するかをお聞きしました。Cursorは現在世界最大のAIコーディングプラットフォームです。

私たちは、今後5〜10年間で、より高レベルでより生産的なソフトウェア構築の新しい方法を発明することが可能になると考えています。それは、ソフトウェアがどう動作し、どう見えるかを定義することに凝縮されます。

一部の人々は、それが今日私たちが持っているものだと言うでしょう。望むものを説明すると、それが出てきます。私は、より小さなコードベースで、ソフトウェアの一部に取り組む人々のより小さなグループでは、そこで最も変化を感じると思います。

すでにそこでは、人々がコードの上のより高い抽象化レベルに上がり、基本的にエージェントやAIに彼らのためにすべての変更を行うよう求めているのを見ています。

専門的な世界では、まだやるべきことがあると思います。バイブコーディングスタイルのものは、コードが本当に長い間残る場合には確実に推奨しないものです。

エージェントが人間レベルになるまでには多くのボトルネックがあると思います。一つはコンテキストウィンドウの側面です。1000万行のコードがある場合、それは多分1億トークンになり、それを実際に取り込めるモデルを持つこと、コスト効率的であること、そしてそれを重みに物理的に取り込めるモデルを持つだけでなく、そのコンテキストウィンドウに効果的に注意を払うものを持つことが確実に問題です。

そしてそれはコードベースのことだけではありません。それは組織のコンテキストを知ること、過去に試されたこと、同僚が誰であるかを知るという継続的学習問題でもあります。モデルが本当に継続的に何かを学習するという問題は、この分野がまだ本当に優れた解決策を持っていないものの一種です。

コードを実行できること、Data Dogログを見て、人間が使用するそれらのツールとインターフェースできることがあります。私たちが立ち向かわなければならない多くの既知の悪魔と、コーディングエージェントを超人的にするタスクで立ち向かわなければならない多くの未知の悪魔があります。

将来のソフトウェアエンジニアにとって不可欠な部分について何が置き換えられないと思いますか？

私たちが置き換えられないと思うものの一つはセンスです。実際に何を構築したいかを定義することです。人々は通常、ソフトウェアの視覚的側面を考えるときにこれについて考えますが、ソフトウェアの非視覚的側面にもセンスの要素があると思います。ロジックがどう動作するかについてです。

現在、プログラミングの多くは、あなたが行っている一種の人間のコンパイレーションです。何が欲しいかを知っていて、他の人間に伝えることはできますが、コンピューターのために本当にそれを詳しく説明する必要があります。

私たちは物事を実現し、構築したいものを構築するのを手助けするツールなので、実際に何が有用で、何を構築したいかに対するそのセンスは決してなくならないと思います。

この動画は以上です。ご視聴ありがとうございました。次回でお会いしましょう。