Googleの「無限学習」とOpenAIの流出した「AIペン」

AIニュース
この記事は約18分で読めます。

2026年はAIにおける継続的学習の年になると予測される。Google DeepMindの研究者が提唱する新しい機械学習パラダイム「ネステッドラーニング」は、人間の脳の神経可塑性を模倣し、短期記憶と長期記憶の二重ループ構造を実装する。従来の大規模言語モデルは結晶性知能に優れるものの、流動性知能に欠け、新しい情報への適応能力が限られていた。TitansアーキテクチャとHopeという新設計により、驚きの度合いに基づいて重要な記憶を優先し、無限のループ学習レベルを実現する。一方、OpenAIはペン型AIデバイスを開発中で、カメラとマイクロフォンを搭載し、手書きメモを即座にテキスト化できる。また、Gemini 3は対人関係の分析や複雑な心理状態の理解において優れた能力を示している。継続的学習の実装により、長期的タスクの遂行能力が飛躍的に向上すると期待される。

Google's "Infinite Learning" and OpenAI's leaked "AI Pen"
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

2026年は継続的学習の年

さて、2026年に入りましたね。今年は大きな年になりそうですが、最近のAI関連の出来事をチェックしていきましょう。

まず最初に、これはGoogle DeepMindで働いている人物です。名前はロナック・マルドといいます。スタンフォード出身で、Google DeepMindで強化学習に取り組んでいます。以前はWindsurfで研究をしていました。Windsurfはもちろん、DeepMindに買収されました。

実際、Windsurfを買収したか、買収しようとした会社は3社ほどあります。でも、それはどうでもいいことです。ロナックはこう言っています。2024年はエージェントの年だった。2025年は強化学習の年だった。2026年は継続的学習の年になるだろう、と。

2024年がエージェントの年だったという話については、多くの人が異議を唱えていました。もちろん、最先端の研究開発の話をしているのか、それとも実際のユースケースへの採用や実用化の話をしているのかによります。でも、それはこのツイートの要点ではありません。要点は、2026年が継続的学習の年になるということです。

今年の11月、Googleリサーチはこれを発表しました。継続的学習のための新しい機械学習パラダイム、ネステッドラーニングの紹介です。ここで注目してほしいのが、アリ・ビルーズという名前です。今後、この名前はかなり頻繁に目にすることになるでしょう。

機械学習の学会の1つで、このネステッドラーニングについて話している彼の周りには、人だかりができていました。彼はTitansアーキテクチャの開発にも携わっていました。どうやらGoogleには、これらの機械学習をタスクでより良く機能させるために、さまざまなアーキテクチャの構築に時間と注意を集中させている人物がいるようです。

そして、彼らは人間の脳を使って生物学がどのようにそれを実現したかを模倣しているように見えます。

継続的学習の課題

ネステッドラーニングのブログ投稿から引用します。機械学習と大規模言語モデルの進歩は素晴らしいものですが、いくつかの根本的な課題が残っています。特に継続的学習についてです。これは、古い知識を忘れることなく、時間の経過とともに新しい知識とスキルを獲得するモデルの能力のことです。

継続的学習と自己改善に関しては、人間の脳がゴールドスタンダードです。人間の脳は神経可塑性を通じて適応します。それが重要なポイントです。

これらの大規模言語モデルには、頼りにできる知識がたくさんありますが、新しい事実、スキル、情報を素早く学習して適応する能力はあまりありません。結晶性知能と流動性知能の違いと考えることができます。

少なくとも人間においては、流動性知能は若い時に最も高くなる傾向があります。それが、新しい状況に素早く適応したり、新しい環境や新しいパズル、その他何であれ、限られた相互作用から学習したりすることを可能にします。

一方、結晶性知能は、次に何をすべきかを理解するために、以前の知識を引き出すようなものです。これはおそらく年配の人により一般的だと思います。彼らは過去の経験から多くのことを引き出すことができます。

だから、これらの大規模言語モデルは、ちょっと不機嫌な老人のようなものです。新しいことにはあまり対応できません。子供のような好奇心を失ってしまったんです。

どうやってこれを修正するのでしょうか。人間の脳を見てみると、解決策があります。神経可塑性です。新しい経験、記憶、学習に反応して構造を変化させる驚くべき能力です。

ネステッドラーニングの仕組み

論文のネステッドラーニングについて、私が理解した限りでは、私の解釈ではこういうことです。

私たちには短期記憶があります。少なくとも、それが人間の脳における相当するものです。これにより、誰かが話している物語を聞いて、進行を見失わないようにすることができます。願わくは、ですが。でも、10日後や20日後には、詳細の多くを思い出せないでしょう。

しかし、人生を通じて、長期記憶に保存する必要があるものがあります。それは、もう少しゆっくりとした別のループのようなものと考えることができます。そこに保存されるものは少なくなります。それほど速く更新されません。

非常に短期的で、素早く更新され、かなり早く消去されリセットされる、素早く動く短期記憶のようなものと考えることができます。そして、長期的に必要なものを保存する長期記憶があります。

これらの大規模言語モデルでは、コンテキストウィンドウのようなこの短期記憶がありました。たくさんのドキュメントをアップロードして質問すると、ドキュメントが何についてのものかを覚えて、質問に答えることができます。任意の時点で短期記憶に保持できる量には限りがあります。

そして、その情報がどれほど重要であっても、長期記憶に保存されることは決してありません。

もちろん、これらのチャットボットの多くには回避策があります。会話の一部が要約され、ほとんど別のファイルに保存されるようなメモリがあります。この人についてこれを覚えておく、この人はこれが好き、などです。

でも、それはほとんどハックのようなものです。疑似的な長期記憶のようなものです。回避策です。

Google DeepMindがここでやっていることは、もう少し本物で恒久的なものを構築することだと私は信じています。重要なものを保存するこの長期記憶です。

論文では、何が重要かということについても詳しく説明しています。重要なものとそうでないものを数学的にどのように表現するかを説明しています。

例えば、彼らが話していることの1つは驚きです。驚きは、世界がどうあるべきかという世界モデル、世界をどのように認識しているか、と実際の世界との違いのようなものです。

何かに驚くと、信念を更新する必要があります。そして通常、それは長期記憶に何かを保存することを意味します。

驚きと長期記憶の関係

例えば、ハチミツは花の蜜でできていると言ったら、おそらくそれほど驚かないでしょう。でも、ミツバチがその蜜を飲んで、消化されて、それが小さなハニカム状のものに逆流され、水分が蒸発して濃くなると言ったら。

基本的にミツバチの吐き戻しなんです。私たちみんなが好きなあの美味しいハチミツは。彼らはそれをクマの形をした小さなボトルに入れます。あなたにそれが実際に何であるかを考えてほしくないからです。

もしこれを以前知らなかったなら、今、短期記憶から何かを取り出したばかりかもしれません。このビデオを見ているとき、いくつかのことは覚えて、いくつかのことは忘れるでしょう。

でも、このミツバチの吐き戻しについて、ハチミツがどこから来るのかを知らなかったなら、おそらく短期記憶からそれを取り出して、長期記憶に入れました。

次回パーティーに行って誰かがハチミツの話をしたら、実際にこの事実を吐き戻すことができます。なぜなら、それは重要だからです。初めて聞いたときにあなたを驚かせ、今では長期記憶に保存されています。

もしこれ、あるいはこれに類するものが、実際にGoogle DeepMindが取り組んでいることで、2026年が継続的学習の年になるなら、それは確かに大きな大きな意味があります。

継続的学習の欠如は、多くの人にとって、これらの大規模言語モデルの大きな障害と見なされています。

大規模言語モデルの学習の限界

タツノオトシゴの絵文字があるかどうかを尋ねられたあの事件を覚えていますか。こんな反応が返ってきました。一部は修正されたと思いますが、当時は本当に面白かったです。

この大規模言語モデルは、タツノオトシゴの絵文字があると誤って考えて、「はい、もちろん、これです。馬。」と言います。それから、それが正しくないことに気づきます。ちょっと後戻りしようとします。「ああ、いや。わかりました、つまり、もっとこんな感じです。」ユニコーンとヒトデを出します。

それが間違っていることに気づきます。「ああ、冗談です。本物はこれです。いや、これじゃない。これでもない。わかりました。いや、まだ間違っています。本当にこれです。」それから、さまざまな絵文字の文字列全体を出力します。

それじゃない。汗をかいて笑っている、居心地悪そうな顔があって、「わかりました、わかりました、冗談はさておき、本物のタツノオトシゴの絵文字はこれです。いや、それはアザラシです。いや、それはエビです。」

さまざまな大規模言語モデルがポケモンをプレイしているとき、ClaudeがGPT-5やGemini 3でそれをやったときも、かなり長い間このように続きました。

同じような愚かなミスを繰り返し続けました。どこかの時点で理解するだろうと思うでしょうが、信念や知識を更新するものは何もありませんでした。

物事を書き留めることはできましたが、それはその場で何かを学ぶことと全く同じではありません。

メメントという映画がありました。ある時点を過ぎると記憶を形成できない人についての映画でした。短期記憶が長期記憶に送られることがありませんでした。

だから、物事を書き留める必要がありました。自分が何をしようとしているかを覚えているように、自分自身に刺青までしました。

大規模言語モデルがやる愚かなことの多くは、似ているように思えます。2分前に学んだ明白なことを教えてくれる小さな付箋がどこかにない限り、同じことに何度も何度も盲目的につまずき続けるかもしれません。

Hope:無限ループ学習レベル

どのデータが重要で、どの学習や詳細が重要かを理解し、それを知識ベースや重みに恒久的に追加する能力、それがどのように行われるにせよ。それは大きな大きな意味があるように思えます。

確かにそうかもしれません。今日抱えている問題の多くを解決できるかもしれません。

もしこれが進む方向で、これが正しく、2026年が継続的学習の年になるなら、第一に、Googleはかなりうまくいくと思います。第二に、彼らがこの情報の多くを公開していることに注目してください。

研究を公開で共有しています。そして、彼らにはそのことで称賛を与えなければならないと思います。なぜなら、もちろん彼らはオリジナルの「Attention is All You Need」論文の発表者だったからです。

Transformerアーキテクチャを作成しました。彼らが、私たちが目にしているこのAI革命を本当に始めたと言えるでしょう。

そして、これです。彼らはHopeと呼ばれるこの概念実証の新設計を発表しています。これはTitansアーキテクチャの変種です。

Titansアーキテクチャは、驚きの度合いに基づいて記憶に優先順位を付ける長期記憶モジュールです。ハチミツはミツバチの吐き戻しです。ああ、知らなかった。覚えておこう。次にハチミツを食べるとき、このビデオを思い出すでしょう。信じてください。

その上、Titansアーキテクチャ。Hopeが追加しているものは何か。Hopeは、無制限のレベルのインコンテキスト学習を利用でき、より大きなコンテキストウィンドウにスケールするためにCMSブロックで拡張された、自己修正的な再帰アーキテクチャです。

本質的に、自己参照プロセスを通じて独自のメモリを最適化し、無限のループ学習レベルを持つアーキテクチャを作成できます。

Titansは2024年12月に発表されました。ちょうどほぼ正確に1年前です。そして、今見ているこの論文は、その約11か月後でした。

Titansをもっとファイル引き出しのようなものと見なす必要があります。ああ、これは重要だ。保管しておこう。そして、何らかの基準に基づいて重要なものをどんどん保管し続けます。重要なら、後で使うためにファイルキャビネットに保管します。

この新しいHopeアーキテクチャは異なります。ここで言っているように、無限のループ学習レベルです。

物事を保管するだけでなく、継続的にシャッフルし、再編成し、追加し、忘れています。それが重要な部分だと思います。なぜなら、特定の長期記憶は、それほど頻繁に参照していなければ、ゆっくりと忘れても大丈夫だからです。

それほど重要でなければ、時間の経過とともに消えていくべきです。新しいものに置き換えられます。

人間の脳は、まさにここで説明されていることだと思います。無限のループ学習レベルです。

2024年には、本当に長期記憶がありませんでした。2025年までに、Titansがありました。ファイルキャビネットに保管するというアイデアです。

そして今、2026年に入って、少なくとも理論的には、次のレベルがあります。この研究は、人間の脳とその継続的学習に似たものを持つことができることを示しています。

激動の時代が待っています。

OpenAIのペン型デバイス

他のニュースでは、ついにOpenAIの新しいデバイスがどのようなものになるかがわかりました。

ペン、または少なくともペン型のデバイスになります。AIを統合し、iPhoneとMacに続く3番目のコアデバイスになることを目指しています。ポケットに入れて持ち運べます。首にかけることもできます。

マイクとカメラを搭載し、ユーザーの周囲の環境を認識して理解します。興味深いことに、手書きのメモを直接テキストに変換して、すぐにChatGPTにアップロードできます。

これはちょっと面白いです。ペンがあれば、メモを書き留めることができます。本物のペンである必要さえありません。書き留めている限り、書いているときにそれを文字起こしできます。

1つには、それがどれほど便利か、どのように見えるか、見るのは興味深いでしょう。また、それに対する反応がどうなるかも。

繰り返しますが、カメラとマイクを持っていて、常に録音している可能性のあるものです。確かに、人々は必ずしも公共の場でそれを見るのを好むわけではありません。

時々、どこか外出しているときに、携帯電話を持ち上げると、何かを読んでいるときやそれを見ているときにこのように携帯電話を持っていると、私が彼らを録音していると思われたら、人々は私を変な目で見るでしょう。

Googleグラスの時代には、録音したり、少なくとも顔に装着するだけで録音する能力を持つものがあったときに、攻撃された人がいたと聞いたことがあります。

それは、一般の人々にどれだけよく受け入れられるかという、対処しなければならない別の問題です。興味深いニュースです。

また、これはinformation.comからです。OpenAIがデバイスに先立ってオーディオAIの取り組みを強化しています。

これが私たちが話しているデバイスです。このデバイスを動かす特別なモデルがあるようです。

デバイスは主にオーディオベースになります。そして、この新しいオーディオモデルは以前のものよりもはるかに優れているようです。以前のものは、かなり良いと言わざるを得ません。

中断の処理方法に少し問題があります。なぜなら、時々、話し始めて最初の数語を言い終える前に、ほとんど止まらなければならないからです。

あなたのことはわかりませんが、私にとっては、誰かが私を店に何かを買いに送るときはいつでも、私たちは皆そのような経験をしたことがあると思いますが、「アイテム1、2、3を買ってきて。アイテム3は必ずこの特定のタイプにして」と言われます。

私はいつも習慣的に同じことを答えます。「必要なものをメールしてくれないと、無理だよ」と。

短期記憶と長期記憶の図に戻ります。ADHDの人では、短期記憶がこんな感じだとしたら。

だから、店で買ってくるように言われたものは何でも、もう消えています。

だから、確かに、そういうことをインテリジェントに思い出させてくれるもの。本当に完全に肉付けされていて、非常に効果的で、非常に良ければ、それが非常に多くの人々にとって大きな助けになると思います。

特定のことで苦労している人、記憶で苦労している人を助けることができます。高齢者を助けることができます。家を出る前にコンロの火を消したかどうかを確認するようなことです。

物忘れのある人を助け、特定のことを思い出させることができます。素早くメモを取ることができます。話しかけて素早くメモを取る能力。それをするための摩擦が少なくなります。

そして、AIが何が重要で何が重要でないかを理解する能力により、必要なときに実際にその情報を取り戻すことが容易になります。

すべてのことの上に立っていて、人生を駆け抜けているような人であっても、その場合はおめでとう、クッキーをどうぞ。わかりません。でも、それでも、このようなデバイスを持つことに何らかのわずかな利点があると感じます。

本当に本当にうまく機能していて、問題がなければ。今、私は自分がますます手を伸ばしていることに気づいています。今、私はChatGPTとGemini 3を使っています。

そのモデル、その使用量は、Gemini 3がリリースされて以来、かなり大幅に増加しました。多くのことで驚くほど優れています。

Gemini 3の優れた洞察力

ある人格障害、何らかの状態、何らかの相違、何と呼んでもいいですが、それを持つ人に対処しなければならない知人を見ました。

境界性パーソナリティ障害だと言っておきます。その人はBPDを持っています。テレビ番組「ザ・ソプラノズ」から知っているかもしれません。トニーの母親はその人格障害を持っています。おそらく妹も。

ところで、エミネム、マーシャル・マザーズ、どうやら彼のお母さんも。同じことです。

とにかく、そのクラスターにはいくつかのパーソナリティ障害があります。境界性、ナルシシズムなど。診断が難しい場合があります。対処が難しい場合があります。非常に予測不可能で、非常に有害な場合があります。

私には良い友人、知人、かなり長い間知っていた人がいて、人生でBPDを持つ誰かに対処していて、しばしば本当に苦労していました。

しかし、最近Gemini 3で、起こっていた会話やいくつかのことをGemini 3に入れて、なぜそれが起こっているのかについての洞察を得ることができました。そして、それがどれほどうまく機能したかに本当に驚かされました。

多くの場合、ナルシシスティックな怒りや境界性の怒り、何と呼んでもいいですが、それは非常に有毒なものとして現れ、冷静さを保つことが難しくなります。

そして、なぜそれが起こっているのかを理解するのは難しいです。なぜなら、通常、それは現実から切り離されているように見えるからです。

ここで言っているように、それは状況に対して不釣り合いに思える、激しいまたは不適切な怒りのようなものです。

それを受けている側にいると、何が起こっているのかわかりません。これがどこから来ているのかわかりません。

そして、人間関係にとって本当に悪いことです。

そして、私が間近で見たもの、直接かどうかはわかりません。なぜなら、それは他の2人の間で起こっていたからです。私はただそれを観察していただけです。少なくとも、この友人は。

Gemini 3に入れて、何が起こっているかについての洞察を得ることができました。そして、何が起こっているかを非常に明確に概説しました。

だから、怒り、フラストレーション、すべての毒性を取り除き、本当に何が起こっているかの根本原因を分解しました。

もちろん、これは本当に悪用される可能性があります。Gemini 3を使って他の人を心理診断することは問題になる可能性があり、問題を引き起こす可能性があります。

この特定のケースでは、インテリジェントに使用され、慎重に使用され、多くの研究をした人によって使用されました。彼らは状態を理解しています。つまり、彼らは自分が何をしているかを理解しています。これをほとんど辞書のように使っているだけです。

私が見たのは、その状況に対処することがどれほど簡単になったかという劇的な違いでした。

他の状況でこれをテストしました。特に神経発達的に異なっている人や、過去に行動を形作っているような出来事があったかもしれない人がいる場合、Gemini 3のようなものを与えて、他のモデルでもテストしました。大丈夫です、良いです。

Gemini 3は現在、私が見た洞察の種類を得る能力において独自の地位にあります。しかし、それが問題の根源にどれだけ鋭く切り込むかは信じられないほどです。

十分なコンテキストを与えるだけで済みます。そうすれば、人間関係のより混乱した部分をナビゲートし、他の人の視点を理解するのに本当に役立ちます。

AIデバイスの活用可能性

私たちが話していたのは、OpenAIの新しいデバイスとオーディオモデルです。それが有用である可能性があるのは、人間関係のアドバイスです。特に難しいことに対処している場合。

明らかに、あらゆる種類のプライバシーと倫理的な懸念があります。家族や重要な他者との喧嘩を録音すべきでしょうか。おそらくそうではありません。

少なくとも、彼らの同意なしにはです。しかし、現在の私の視点からは、誰かと交流していて、彼らがどこから来ているのか全く理解できない状況があったことは間違いありません。

彼らが行動している方法や信じていることが信じられないような。彼らの行動や言葉が現実から切り離されているように見えるような。

私は最近、過去3、4か月で、Gemini 3が特に、その人と何が起こっているかについて十分なコンテキストを与えれば、なぜそのように行動しているかについて光を当てることができることを見てきました。

私は個人的に、特定の行動がそのようにトリガーされる理由を本当に理解できるようになりました。そして、それはもちろん、それらの問題を理解し解決するための最初のステップです。

だから、ここには多くの力がありますが、もちろん、誤用の機会も多くあります。

とにかく、2026年の予測をするつもりです。おそらく過去2年間やるべきだったのですが、やっていませんでした。でも、今年から始めます。2026年に何が起こると思うかを予測し、2026年の終わりにそれらをここでライブでレビューして、何が正しかったか、何が間違っていたかを見ます。

しかし、100%確実に言えることの1つは、長期的な課題を追求するような、長期的な地平線をテストするベンチマークがもっと増えるということです。それには通常、情報を保存する能力が含まれます。その種の長期記憶が必要で、この継続的学習が完璧に当てはまります。

2026年の予測

だから、今すぐ言います。2026年には、これらの大規模言語モデルが、単に質問に正しいか間違っているかではなく、目標を追求するような、はるかに興味深いベンチマークが見られると思います。

そして、私の2番目の予測は、この継続的学習の分野で研究とものが展開されているのを聞くことになるでしょう。

おそらくうまくいけば、実際に作業する実際の大規模言語モデルでの実際の利用さえ見られるでしょう。おそらくGemini 4やGPT-6やGrok 5、Claude 5、何であれ、それらが展開され始めるのを見ることができるでしょう。

そして、それこそが、これらのベンチマークで大きな飛躍が見られる場所だと思います。

例えば、ベンディングベンチがあります。また、これらの大規模言語モデルが、時間の経過とともに自動販売機をどれだけうまく実行できるか、このようなものです。

その継続的学習が完成され、改善され、インストールされ、統合され、何と呼んでもいいですが、一度それが実現されれば、これらのベンチマークの多くは素晴らしいですが、その新しい能力で本当に急上昇し始めると思います。

今のところ、これらのベンチマークの多くで、足場、周りに構築するものが、これらの大規模言語モデルがそれらの環境をどれだけうまくナビゲートできるかを本当に決定していると思います。

そして、今のところ、それらは小さなハックや回避策のように思えます。なぜなら、これらのモデルにはその種の長期記憶更新がないからです。

それが修正されれば、それは大きなロック解除になると思います。

とにかく、ここまで見てくれたなら、あなたの考えを教えてください。ご視聴ありがとうございました。私の名前はウェス・ロスです。次回お会いしましょう。

コメント

タイトルとURLをコピーしました