AIの革命は難解な研究に隠れている

3,064 文字

The AI Revolution Hiding in Obscure Research

Learn more about how neural networks and large language models work using Brilliant! First 30 days are free and 20% off ...

最近のAIモデルのアップデートは、やや段階的なものだと思いませんか？今日の動画では、これは人間レベルの知能に到達する前の一時的な減速期であることを納得していただきたいと思います。
2月にOpenAIはGPT-4.5をリリースしました。Sam Altmanはこれを「私にとって思慮深い人と話しているように感じる最初のモデル」と表現しましたが、最初のユーザーたちは「同じ古い車に塗られた新しいペイント」、「たいしたことのないもの」、「がっかり」、「物足りない」と評しています。
私たちはついにo3を使うことができましたが、これは4.5よりも幻覚が多く、依然として「strawberry」のrの数を数えることができず、LLMが創成期から陥ってきた同じなぞなぞに引っかかり、同様に「がっかり」と評されています。AnthropicのClaude 3.7やGeminiの2.0についても同じような話です。そしてMetaのLlamaの最新バージョンは実際には前のバージョンより悪くなっているようです。これはある意味では成果といえるでしょうか。
現在の幻滅期はDean Valentineの最近のエッセイでよく表現されています。彼はこう書いています：「ここ数ヶ月、AIアプリケーションのスタートアップを行っている他のYCの創業者たちと話をしましたが、彼らのほとんどが同じような経験談を持っています：1. o99-pro-ultraが発表される、2. ベンチマークは良好に見える、3. 評価されたパフォーマンスは平凡…これらの企業が一般に報告している進歩は、経済的有用性や汎用性を反映していません…私は[モデル]が8月以降あまり改善されていないと思います。」
それは私の印象と一致します。しかし、その理由は、現在利用可能なタイプのモデル、大規模言語モデル（LLM）が収穫逓減の段階に達したからだと思います。本当に新しいものが利用可能になったときにのみ、顕著な進歩が見られるでしょう。そしてAIは再び巨大な一歩を踏み出し、おそらく人間レベルの知能に到達するでしょう。ソフトウェアの思春期のようなものですね。
業界の何人かの人もそう考えているようです。以前OpenAIで働いていたIlya SutskeverはReutersのインタビューで「2010年代はスケーリングの時代でしたが、今は再び驚きと発見の時代に戻っています。誰もが次なるものを探しています」と言いました。GoogleのCEOであるSundar Pichaiも2025年のAIは緩慢な年になると予測しています。MetaのYann LeCunも、次の大きな一歩が来るまでに数年かかると考えています：「私はもうLLMにそれほど興味がありません。今のこのコミュニティ、テクノロジーコミュニティの多くの人々が5年後に興奮するかもしれないものに興奮していますが、現時点では、それらはあまり刺激的には見えません。なぜならそれらはいくつかの難解な学術論文だからです。」
難解な学術論文？ええ、それこそが本物の科学だとわかる理由です：理解できず、誰も読まない雑誌に掲載され、著者の以前の作品をすべて引用しています。
当面、企業は現在のモデルの「制約を取り除く」作業をしています。より多くの考える時間を与え、より良いメモリを提供し、数学や図表のための他のソフトウェアを使用させることによってです。
Metaは12月に、彼らが「大規模概念モデル」と呼ぶものに取り組んでいると発表しました。これは基本的に、同じ論理関係の異なる言語表現を一つの項目にまとめるものです。現在のモデルへのもう一つの改良は「メタ思考連鎖」で、モデルが異なる推論の道筋を評価できるようにするものです。そして、はい、これらの改良は大規模言語モデルが論理関係をより速く、より良く把握するのに役立つはずですが、最終的には私たちが待っている新しいパラダイムではありません。
新しいパラダイムは、世界とのインタラクションによって学習し、トレーニング後も学習を続けることができるモデルからやってくるでしょう。これらはいわゆる「世界モデル」です。
それらの良いものへの一歩はDeepMindのGenie 2であり、彼らは12月に発表しました。Genieは大規模なビデオデータセットでトレーニングされ、インタラクティブな3D環境を生成します。彼らはそれからAIエージェントをこれらの仮想世界に配置して、学習することを学ぶことができるようにします。
DeepMindは世界モデルで進歩を発表した唯一の企業ではありません。1月にNVIDIAはCosmosプラットフォームを紹介しました。これも物理法則を内蔵した3次元モデルを生成します。一つには、そのようなモデルはオブジェクトが突然出現せず、パースペクティブが一貫している動画を生成するのに使用できます。しかし、より重要なのは、それらが現実がどのように機能するかを学ぶために他のモデルをトレーニングするのに使用できることです。
これは私にとって理にかなっています。なぜなら、それは人間の知能がどのように進化したかだからです。私たちは物理的な世界と相互作用し、それについて自分自身の精神的モデルを作り出しています。
Deepmindはこれを基盤世界モデルと呼んでおり、このような世界モデルは次の大きなAI革命で確実に重要な役割を果たすでしょう。
次の大きなステップは、単により多くのトレーニングではなく、推論能力の体系的なアップグレードになるでしょう。そして彼らはそれに取り組んでいます。
基本的に、未来はすでにここにありますが、難解な学術雑誌に閉じ込められているだけなのです。
人工知能は本当に今日どこにでもあります。ニューラルネットワークや大規模言語モデルがどのように機能するかについてより詳しく知りたい場合は、Brilliantのコースをチェックすることをお勧めします。
Brilliantのすべてのコースにはインタラクティブな視覚化があり、フォローアップの質問が付いています。ここで見ているのは、彼らがちょうどリリースしたデータサイエンスコースからのものです。それらはすべて、Xでバイラルになるとはどういう意味かなどの実世界の例を使用しています。Brilliantは科学、コンピュータサイエンス、数学の幅広いトピックをカバーしています。
一般的な科学的思考から、代数や大規模言語モデルに特化したコースまで。まさに私が興味を持っているものです。そして彼らは毎月新しいコースを追加しています。私はBrilliantで自分のコースも持っており、それは量子力学の入門です。それは波動関数とは何か、重ね合わせともつれの違いは何かを理解するのに役立ちます。また、干渉、不確定性原理、ベルの定理もカバーしています。
そしてその後、たとえば量子コンピューティングや微分方程式のコースに進むことができます。良さそうですか？そうであることを願っています！もし私のリンクbrilliant.org/sabineを使用するか、QRコードをスキャンすれば、無料でBrilliantを試すことができます。そうすることで、Brilliantが提供するすべてを30日間完全に試すことができ、年間プレミアムサブスクリプションが20％オフになります。
行って試してみてください。後悔しないと確信しています。視聴いただきありがとうございます。また明日お会いしましょう。