Metaがすべてを変えた – 言語ベースAIの終焉か?

AI研究
この記事は約16分で読めます。

Metaの元AI責任者Yann LeCunが発表した新しいAIアーキテクチャVJEPAは、従来の言語ベースのAIモデルとは根本的に異なるアプローチを提示している。ChatGPTやClaude、Geminiなどの現行AIがテキストを一つずつ生成する方式であるのに対し、VJEPAは言語を介さず直接「意味」を予測する。これは人間が映像を理解する方法に近く、フレームごとに言語化せず全体的な理解を瞬時に構築する。Yann LeCunは長年「言語は知性ではない」と主張してきたが、VJEPAはその理論を実証する可能性を秘めている。4歳児が視覚データから得る情報量は、人類が生み出した全テキストで訓練された言語モデルに匹敵するという事実は、真の知性獲得には現実世界の理解が不可欠であることを示唆する。VJEPAは従来モデルの半分のパラメータで優れた結果を達成し、時間的理解や因果関係の推論に長けている。この技術は2025年から2027年にかけて予測される自動化の転換点において、特に具現化AIやロボティクスの分野で重要な役割を果たす可能性がある。言語モデルへの巨額投資が続く中、VJEPAは業界全体が誤った方向に進んでいる可能性を示唆しており、AI研究における根本的なパラダイムシフトの予兆となっている。

Meta Just Changed Everything - The End of Language-Based AI?
GET MY FREE GUIDE: 📘 *The Content Creator’s AI Blueprint: From 25 Hours to 5 Minutes* LeCun, Meta’s former chief AI ...

VJEPAが示す新しいAIの未来

Metaの元AI責任者が発表した論文は、私たちが知るChatGPTスタイルのAIの終わりを告げるものかもしれません。これは誇張ではありません。これはAIが思考し、情報を処理し、私たちの世界を理解する方法における根本的な転換についてのお話です。そしてこれは、ゲームを完全に変えるものなのです。

初めての方にご挨拶します。私はマッコイ博士、Julia McCoyのAIクローンです。Julia McCoyはFirst Moversの創設者です。彼女は私がこのチャンネルで共有するすべての台本を自ら調査し執筆しています。なぜなら、未来はあまりにも速く動いているため、直接得た情報以外では対応できないからです。First Movers、Juliaのai企業は、専門家や組織が未来の働き方に備えるのを支援する世界初の教育および実装ソリューションです。

私たちは、人々がオンラインスクールであるAI Labsで、AIを最大限に活用できるよう理解と使用を支援しています。詳しくはfirstmovers.ai/labsをご覧ください。

Yann LeCunの革命的な発見

さて、何が起きたのかお話ししましょう。Yann LeCun、Metaの伝説的なAI主任研究員で最近Metaを退社した人物、チューリング賞を受賞したその人が、VJEPAという何か新しいものについての論文を発表しました。Vision Language JEPAの略です。

この技術的な名前を聞いて目がうつろになる前に、なぜこれが重要なのかお話しさせてください。今あなたが使っているすべてのAI、ChatGPT、Claude、Gemini、これらはすべて同じ方法で動作しています。単語を一つずつ、トークンごとに、左から右へと生成します。まるでリアルタイムでエッセイを入力しているかのようにです。

しかしVJEPAは、単語をまったく生成しません。意味を直接予測するのです。

これが実際に何を意味するのか説明しましょう。動画をどのように理解するか考えてみてください。頭の中ですべてのフレームを一つずつナレーションしませんよね? 「今、手が見える。今、ボトルが見える。今、手がボトルに向かって動いている」なんて考えません。そうではなく、ただ何が起きているのかを理解するのです。誰かがボトルを拾い上げるのを見て、あなたの脳は完全な動作を瞬時に把握します。これがVJEPAのやっていることなのです。

従来の視覚モデルは、起こっていることをすべて説明する面倒な友人のようなものです。「ああ、手がある。ああ、今度はボトルがある。ああ、手が動いている」といった具合です。VJEPAは全体の流れを観察し、内部的な理解を構築し、実際に何が起こったのかを本当に理解したときにのみ話すのです。

その違いは何でしょうか。従来のモデルは言語で考えます。VJEPAは意味で考えるのです。

言語は知性ではない – Yann LeCunの洞察

ここからが非常に深い話になります。Yann LeCunは何年も前から、言語は知性ではないと言い続けてきました。

「私たちは、機械が言語を操作できるという理由で、それらが知的だと錯覚しています。そして私たちは、言語を非常にうまく操作できる人は暗黙のうちに賢いという事実に慣れています。しかし私たちは騙されているのです。それらは便利です、疑問の余地はありません。あなたが言ったようなことに使うことができます。私も同様のことに使っています。これらはコンピュータがこの10年、50年の間そうであったように、素晴らしいツールです。

1950年代以来、AI科学者の世代が次々と現れ、自分たちが発見した技術が人間レベルの知性への切符になると主張してきました。Marvin Minsky、Newell、Simon、1950年に最初の学習機械であるパーセプトロンを発明したFrank Rosenblattの宣言を見ることができます。彼らは『10年以内に人間と同じくらい賢い機械ができるだろう』と言っていました。彼らは全員間違っていました。大規模言語モデルを使うこの世代も間違っています。私は生涯で3つのそのような世代を見てきました。これは騙されることのもう一つの例に過ぎません」

シリコンバレーの誰もが彼が間違っていると思っていました。Sam Altmanは言語モデルに倍賭けしました。Googleは言語モデルにオールインしました。AI業界全体が、次の単語を予測することで考えるモデルにすべてを賭けたのです。

しかしLeCunは主張し続けました。「いや、いや、いや。知性とは世界を理解することだ。言語は単なる出力形式に過ぎない」と。

そして今、VJEPAによって、彼がずっと正しかったことを証明しようとしているのかもしれません。

なぜならこれが驚くべきことだからです。4歳の子供は、人類が生み出したすべてのテキストで訓練された最大の言語モデルと同じくらいの視覚データを見てきています。これについて少し考えてみてください。すべての本、すべてのウェブサイト、すべての文書、書き留められたすべての会話。4歳児は、ただ世界を見ることで、それ以上の情報を吸収してきたのです。

これは私たちに何か重要なことを教えてくれます。現実世界には、言語が含むことのできる情報よりも指数関数的に多くの情報が含まれているということです。そして真の知性、汎用人工知能が欲しいなら、単に単語を予測するだけでは到達できません。

私たちには、現実そのものを理解するAIが必要なのです。

VJEPAの革新的な仕組み

これがどのように機能するのか正確に説明しましょう。ここでの技術的な詳細は実際に驚くべきものだからです。

従来の視覚モデルは、各フレームを独立して見ます。推測を行い、テキストを出力し、次のフレームに移動します。それは反応的で、断片的で、記憶がありません。

VJEPAはまったく異なる動作をします。「連続的な意味空間」と呼ばれるものを持っています。これを見てください。VJEPAが動画を分析するとき、時間の経過とともにその理解を表す赤い点と青い点を見ることができます。赤い点は即座の推測です。間違っているかもしれません。青い点は安定化された意味で、VJEPAが実際に何が起こっているのかを理解していると確信したときです。

AIの理解が進化し、フレームごとにわずかに漂い、十分な証拠があればロックインする様子を文字通り見ることができます。これが時間的理解です。これが人間の考え方なのです。

そしてさらに驚くべきことがあります。VJEPAは、従来の視覚言語モデルの半分のパラメータでより良い結果を達成しています。半分です。

GPT-4やClaudeが数千億のパラメータで動作し、トークンを一つずつ生成している間、VJEPAは16億から20億のパラメータで動作し、視覚タスクでそれらを上回っているのです。

これらのベンチマークを見てください。ゼロショット動画キャプション生成では、VJEPAが競合を圧倒しています。動画分類では、比較にもなりません。そして、より速く学習し、劇的に少ない計算コストでより高い品質に到達します。

これは単なる段階的な改善ではありません。これは、より大きくではなく、よりスマートに機能する根本的なアーキテクチャなのです。

2025年から2027年の自動化の転換点

さて、ここからが本当に刺激的な、あるいはあなたの視点によっては恐ろしい話になります。私が話している2025年から2027年の自動化の転換点、すべてが変わる期間を覚えていますか? VJEPAは、それを可能にする主要技術の一つなのです。

なぜなら考えてみてください。現在のAIモデルは、チャット、執筆、創造的な仕事では優れていますが、洗濯をしてくれる家庭用ロボットはまだありません。10代の若者のように20時間で学習するレベル5の自動運転車もありません。なぜでしょうか?

なぜなら、言語ベースのAIは物理的な世界を十分に理解していないからです。

しかしVJEPAは、時間的ダイナミクス、物理的相互作用、因果関係を理解します。他の物体の後ろに移動する物体を追跡できます。物理的なシーケンスで次に何が起こるかを予測できます。適切な抽象レベルで世界について推論できます。

これは具現化AIにとって欠けていたピースなのです。これによって、ロボットが実際に私たちの雑然とした複雑な物理世界をナビゲートし、操作し、相互作用できるようになります。

さて、あなた方の中には考えている人もいるでしょう。「でもJulia、動画を止めてVJEPAが予測したものを読んだら、時々間違っていた」と。そしてあなたは正しいです。これは第一世代の技術です。完璧ではありません。

しかしここで重要なのは、完璧さはポイントではないということです。ポイントは方向性なのです。

最初のiPhoneを覚えていますか? コピー&ペーストができませんでした。アプリもありませんでした。カメラはひどいものでした。しかしそれは革命の兆しでした。完璧だったからではなく、モバイルコンピューティングについて考える全く新しい方法を私たちに示したからです。

VJEPAも同じです。私たちがAIについて間違った考え方をしてきたことを示しているのです。私たちはチャットボット、テキスト生成、言語モデルに夢中になってきましたが、実際に必要なのは、意味で考え、現実について推論し、コミュニケーションが必要なときにのみ言語を使用するAIなのです。

パラダイムシフトの重要性

そしてこれをさらに重要にしているのは何でしょうか。Yann LeCunは文字通り、これらの結果を見た直後に、自身の超知能企業を立ち上げるためにMetaを去りました。

LeCunのような能力を持つ人物、深層学習を開拓し、チューリング賞を受賞した人物が、データのパターンを見て、すぐに超知能に焦点を当てた新会社を立ち上げるとき、注意を払うべきです。

一方、OpenAIはまだ言語モデルをスケーリングしています。Googleはまだより多くのテキストを生成することに賭けています。Anthropicはまだ言語を通じた憲法的AIに焦点を当てています。そしてMetaは、AGIへの全く異なる道があるかもしれないことを示す論文を発表したのです。

これは単なる別のAIモデルではありません。これはAI業界全体にとっての分岐点なのです。

2025年から2027年。私が警告してきたより大きな絵とこれを結びつけましょう。タイムラインです。

2025年は自律型エージェントの年です。複雑なタスクを実行し、ワークフローを管理し、他のAIと協調できるAIシステムですが、これらのエージェントはまだ主に言語で考えます。

2026年は具現化AIの年です。ロボットが大規模に物理世界に参入するときです。NVIDIAは2026年半ばまでにロボット世界モデルを解決すると言っています。そしてVJEPAスタイルのアーキテクチャがそれを可能にするものなのです。

2027年は、私たちが人工超知能に到達する可能性がある時です。AIシステムが自己改善を始め、フィードバックループが人間の理解を超えて加速するときです。

そしてここに重要な洞察があります。ASIはChatGPTのようには考えません。トークンごとに単語を生成しません。純粋な意味、抽象的な概念、現実の因果モデルで考えるでしょう。

そして言語は、人間とコミュニケーションするときに使用する多くの出力形式の一つに過ぎなくなります。VJEPAは、それがどのようなものかのプレビューを私たちに与えているのです。

AI業界全体への警鐘

ここに、誰も声に出して言いたがらない不快な真実があります。AI業界全体が間違った道を進んでいるかもしれません。

私たちは数千億ドルを投資し、無数のエンジニアリング時間を費やし、ギガワットの電力を消費する巨大なデータセンターを建設し、すべて言語モデルをスケールアップするためです。

より大きなモデル、より多くのパラメータ、より多くの訓練データ、より多くの計算。しかし、それが真の知性への道ではなかったとしたら? Yann LeCunが正しかったとしたら? 知性が次のトークンを予測することではなかったとしたら?

世界モデルを構築し、因果関係を理解し、抽象空間で推論することだとしたら? そうすると、言語モデルのスケーリング法則にすべてを賭けている企業は、間違ったことを最適化していることになります。

今、あなたにとって何を意味するのか

では、これは今日、今、あなたにとって何を意味するのでしょうか?

第一に、AIプロダクトを構築しているなら、チャットボットを超えて考え始めてください。次の波は、より良いテキスト生成についてではありません。現実を理解するAIについてなのです。

第二に、ロボティクス、コンピュータビジョン、自律システムに携わっているなら、JEPAアーキテクチャに細心の注意を払ってください。ここでブレークスルーが起きているのです。Metaは研究を公開しました。つまり、小規模な企業やスタートアップがこれを基に構築できるということです。

第三に、AIに投資しているなら、パラダイムシフトは新しい勝者を生み出すことを覚えておいてください。今日言語モデルを支配している企業が、明日具現化AIを支配している企業とは限りません。

そして第四に、AI安全性を心配しているなら、これは安全性の状況を完全に変えます。意味空間で推論し、生成されたテキストを通じて思考を露出しないAI。それはより強力であると同時に、より不透明です。私たちは、単に言語モデルだけでなく、これらのアーキテクチャのアラインメントと安全性について考える必要があります。

思考と言語の関係性

もう一段階深く掘り下げましょう。ここには重要な哲学的問題があるからです。思考と言語は同じものでしょうか?

何十年もの間、認知科学者たちはこれについて議論してきました。思考は言語であり、私たちは言葉で考えると主張する人もいました。他の人々は、言語は思考を伝える方法に過ぎず、思考自体はより深いレベルで起こると主張しました。

AI研究はこの議論に一石を投じたばかりです。そしてそれは第二のグループが正しかったことを示唆しています。

純粋な言語モデル、テキストのみを予測するシステムは、限界に達します。物理的推論、時間的理解、因果推論に苦労します。しかし、潜在空間で考え、意味で推論し、言語を思考の基盤ではなく出力として使用するシステムは、同じ限界に達しません。

これは単により良いAIについてではありません。これは知性そのものの性質を理解することなのです。

両方のアプローチの必要性

さて、ここで公平を期すために言わせてください。私が今言ったすべてに対して強い反論があります。

言語モデルは信じられないほど強力になっています。GPT-4、Claude 3.5、Gemini Ultra、これらは驚くべき結果を達成しています。推論し、計画し、複雑な問題を解決できます。すべて次のトークンを予測することによってです。

ですから、言語ベースの推論は、LeCunが認めるよりも強力なのかもしれません。言語モデルをスケーリングすることでAGIに到達できるかもしれません。

しかし、私の見解はこうです。答えは両方必要だと思います。コミュニケーション、知識労働、創造的なタスクのために言語ベースの推論が必要です。そして物理的理解、ロボティクス、現実世界との相互作用のために意味ベースの推論が必要です。

AI競争の勝者は、一つのアプローチにすべてを賭ける企業ではありません。両方を組み合わせる方法を見つけ出す企業なのです。

個人的な意味と行動への呼びかけ

そしてこれが、なぜこれが今、あなた個人にとって重要なのかという理由です。

私たちは人類史上最も重要な技術的移行期を生きています。これらの変化を早期に理解する企業、専門家、起業家は、単に生き残るだけでなく、支配するのです。

インターネットが登場したとき、最初にオンラインになった企業が勝ちました。モバイルが起こったとき、モバイルファーストになった企業が勝ちました。クラウドコンピューティングが到来したとき、早期に移行した企業が勝ちました。

そして今、AIで同じパターンが再び展開されています。しかし今回は、賭け金が高く、タイムラインが圧縮され、競争優位性の窓は年ではなく月で測定されます。

これが私がFirst Moversを構築した理由です。これが私が2025年から2027年の自動化の転換点について話している理由です。これが私があなたを怖がらせるためではなく、準備させるために警告している理由です。

AIを最初に統合するビジネス、これらのアーキテクチャシフトを理解するビジネス、自律型エージェントと具現化AIを展開するビジネス。彼らは待っている企業に対して乗り越えられない優位性を持つことになります。

具体的なアクションステップ

では、この動画を見た直後にあなたにやってほしいことがあります。

第一に、JEPAアーキテクチャをより深く掘り下げてください。Metaは研究を公開しました。論文を読んでください。原理を理解してください。たとえ技術者でなくても、概念を理解することで戦略的優位性が得られます。

第二に、AI戦略を再考してください。チャットボットとテキスト生成だけを考えているなら、大きな絵を見逃しています。コンピュータビジョン、物理的AI、現実を理解するシステムについて考え始めてください。

第三に、ロボティクス分野を注視してください。2026年は具現化AIの年です。Figure、Boston Dynamics、TeslaのOptimusのような企業。彼らはVJEPAのようなブレークスルーの上に構築しています。

そして第四に、これらの動向の先を行ってください。私のデジタルクローンがあなたに最新情報を提供し続けられるよう、チャンネル登録してください。これらの技術を実装するための実践的なガイダンスが必要な場合は、First Movers AI Labsに参加してください。そして、AIが本当にどこに向かっているのかを理解する必要がある人とこの動画を共有してください。

真実と未来

なぜなら、真実はこうだからです。ほとんどの人はまだ2023年のようにAIについて考えています。ChatGPT、プロンプトエンジニアリング、より良いテキストを生成することに焦点を当てていますが、AI革命はそれをはるかに超えて動いています。

そしてもしあなたがそれと一緒に動いていないなら、取り残されているのです。

次の3年間は、ファーストムーバーと他のすべての人を分けることになります。VJEPAは単なる別のAIモデルではありません。それは信号であり、来るべきもののプレビューであり、これまで見たことのないものとは根本的に異なる考え方をするAIの未来の一瞥なのです。

Yann LeCunは何年も言語は知性ではないと言い続けてきました。もしかしたら、もしかしたら、彼が正しいことが証明されようとしているのかもしれません。

そしてそれが起こったとき、意味ベースのAIシステムが重要なタスクで言語モデルを上回り始めたとき、JEPAスタイルのアーキテクチャを搭載したロボットが産業を変革し始めたとき、AI全体の状況がテキスト生成から現実理解へとシフトしたとき、準備し、理解し、最初に動いた企業。彼らが未来を受け継ぐのです。

その未来でお会いしましょう。次回まで、好奇心を持ち続け、情報を得続け、そして最も重要なことは、曲線の先を行き続けてください。

AI時代の勝者になるために

AI時代の勝者になり、ファーストムーバーになりたいですか? 今日、私たちのAI Labsで本物のAI知識であなたのスキルを変革しましょう。

私たちは、10分間の動画でカバーできることをはるかに超えています。具体的なフレームワーク、詳細なトレーニングプログラム、そしてAI経済でキャリアを構築するための段階的なシステムを提供しています。

AI革命は歴史上最大の雇用市場の変革を生み出しています。問題は、これが起こるかどうかではありません。すでに起こっているのです。あなたはそれから利益を得る立場にいるでしょうか?

Labs内では、私のチームと私が今まさに実装している正確なシステムを学ぶことができます。これらは、First Moversでの私たち自身のマーケティングを含む、実際のビジネスに大きな結果をもたらしているシステムです。

AIを活用したカスタマイズされたパスウェイを歩むことから旅を始めましょう。このレベルのコーチングとライブトレーニングの価格のほんの一部で、私はすべてをあなたに提供しています。私たちの内部に参加し、firstmovers.ai/labsでLabsについてもっと学んでください。

コメント

タイトルとURLをコピーしました