見逃していませんか?この2つのAIニュース:LLMが生み出した「本物の」ブレークスルーと継続学習の壁

AGI・ASI
この記事は約13分で読めます。

本動画では、AI企業が現在、フロンティア性能向上よりも収益化に計算リソースを集中させている現状を指摘しつつ、現行の言語モデルによる重要な科学的進展を紹介している。特に注目すべきは、Google Gemma 2ベースの小型LLMが生物学の言語を学習し、がん治療に役立つ新規薬剤候補を生成した事例である。また、OpenAIの研究者による継続学習に関する重要な発言や、AGIの定義を試みる新たな論文についても取り上げている。動画は、AI進歩の停滞感が語られる一方で、実際には現行技術による具体的なブレークスルーが着実に進んでいることを示している。

Did you miss these 2 AI stories? A *Real* LLM-crafted Breakthrough + Continual Learning Blocked?
While compute-spend focuses on cash over cleverness, it can seem like the AI IQ plateau will last forever. But here’s a ...

AIの進歩は停滞しているのか

正直に言いますと、AI企業には決まった量の計算能力があります。そして現時点では、フロンティア性能やIQポイントを引き上げることよりも、ブラウザや短編動画といった収益を生む製品のスケールアップに、より多くの計算能力を費やしています。それゆえに、一部の人々の間では進歩の鈍化という感覚があるわけです。悪気はありませんよ。投資家に利益をもたらさなければならないのですから。

しかし、そうした収益化が最大化されるにつれて、話はすぐにフロンティアインテリジェンスの強化に戻ってくることを願っています。例えば、Google DeepMindからGemini 3が登場する時です。今後2か月以内に予定されています。

ただし、私が今言ったことは、現在の言語モデルの馬力で魅力的なことが何も起きていないという意味ではありません。

小型LLMが生み出した科学的ブレークスルー

まずは、小さなLLMが生み出した新しいものから始めましょう。それから、OpenAIのトップ研究者による示唆に富む発言に触れ、今週見つけた興味深い点で締めくくります。

幻覚で頻繁に批判される言語モデルから始めますが、これは実際に生物学の言語を学ぶことで科学を前進させているものです。

はい、このモデルは怪しい名前を持っています。C2S scaleと言いますが、がん治療を助けるための薬剤に関する新しい仮説を生成することができました。この29ページの論文の簡略版を、さらに簡単にしようと思います。では始めましょう。

がん治療を助けるための薬剤に関する新しい仮説を生成した言語モデルがあると言うとき、私が意味しているのは、それがこのような助けになることについて文献にはなかった薬剤候補だということです。

ちなみにこのモデルは、主にGoogleが1年以上前にリリースしたオープンウェイトのGemma 2アーキテクチャに基づいています。その後Gemma 3が登場しました。Gemma 4もいつでも出る予定です。ですから、決して最新のGemmaではありません。

とにかく、この言語モデルには特別な訓練が施されました。強化学習による報酬で、細胞が薬剤にどう反応するかを正確に予測することに対して、特にインターフェロンに関して報酬が与えられました。

何を考えているか分かります。でも、なぜそんなことをするのでしょうか。それは、冷たいがん腫瘍を熱くするためです。言い換えれば、免疫系が検出できるようにするためです。

待ってください。つまり、これは生物学を話せるLLMということですか。はい、そうです。そして英語も話せます。おそらくこのモデルにサッカーについてチャットすることもできるでしょう。

とにかく、C2S scaleは各細胞の遺伝子活動を短い文章のようなものに変換します。したがって、大規模言語モデルはテキストを読むように生物学を読むことができます。

もう少し技術的に言うと、インターフェロンがすでに存在しているものの十分ではない場合に、その効果を確実に増幅する薬剤を見つけることができます。言い換えれば、免疫系が薬剤にどう反応するかを予測することを学習します。著者が文章をどう続けるかを学習するのと少し似ています。

名前について少し触れますと、C2S scaleと呼ばれています。著者たちは、モデルを270億パラメータにスケールすると一貫した改善が得られると述べています。ご存じないかもしれませんが、それでも私たちの多くが毎日使うモデルより5倍から10倍は小さいです。

観客の中には懐疑的な人もいると思いますが、これはGPT-5が既存のブレークスルーを表面化させたというような話ではありません。その論争をご存じなければ、詳しくは話しませんが、これはかなり異なります。

私が発音を間違えそうな薬剤候補、Siltimertibは、この能力を持つことについて文献のどこにも関連付けられていませんでした。著者たちが書いているように、これはモデルが新しい検証可能な仮説を生成していたのであって、既知の事実を繰り返していただけではないことを強調しています。

さらに良いことに、おそらく気になっているでしょうが、シャーレの中の人間の細胞で機能しました。つまり、モデルのインシリコ予測が実験室でインビトロで複数回確認されたのです。

もちろん、この時点で明確にしなければならないのは、実際の人間では確認されていないということです。残念ながら、医学の世界ではそれには何年もの試験が必要です。

量子コンピューティングとの比較

しかし、この話を離れる前に、ちょっと想像してみてください。この薬剤が数年後により効果的ながん治療のために他の薬剤と組み合わせて使用され、言語モデルによって直接インスピレーションを得たものだとしたら。それはすごいことです。

論文の著者たちが言うように、この結果は新しい種類の生物学的発見の青写真も提供しています。

ちょうどこのビデオを撮影しているときに、Googleが量子コンピューティングに関するこの話をNatureに発表したことに気づきました。ビデオのタイトルがそれについてだと思った方もいるかもしれません。しかし、注目してください。彼らは創薬における潜在的な将来の用途への道を開いていると言っています。それは素晴らしいことで、今後数十年で世界を変えるでしょう。

しかし、このC2Sは今まさに非常に注目に値します。LLMが科学を加速しないと人々が言うとき、これらの話を思い出してください。

OpenAIの現在地

さて、OpenAIがさらに遅れを取っているという物語を書くのは非常に怠慢でしょう。特に、Gemini 2.5 Deep ThinkがFrontier Mathで記録的な性能を達成したという報告があるときにはなおさらです。それは数学に関してほぼ最も難しいベンチマークです。

しかし実際のところ、純粋な知能という点では、OpenAIがそれほど遅れているとは思いません。例えば、私自身のベンチマークであるSimple Benchのことだけを言っているわけではありません。そこでようやくGPT-5 Proをテストしたところ、Gemini 2.5 Proのすぐ下に滑り込みました。

分かっています、皆さんは私がDeep Thinkをテストすることを望んでいるでしょうが、そのAPIがないんです。なので今のところこの比較があります。Simple Benchを知らない方のために説明すると、質問の背後にある質問をテストするようなものです。トリッククエスチョンのようなもので、時空間的な質問がいくつか含まれています。

いや、私はCodeXでGPT-5を100時間以上テストしてきましたが、率直に言って他のどの選択肢よりも優れています。間違いなくGoogleのものと比較してそうですし、はい、真新しいClaude Codeと比較してもです。

Claude Codeをモバイルで使えるのは本当に素晴らしいと思います。それは最高です。ありがとう、Anthropic。しかし、Claude Codeへの最初のクエリの1つで、完全にランダムにコードの重要なセクションを削除しようとしました。

もちろんこれは逸話的なものです。Claude Codeからの出力を取得してGPT-5 CodeXで尋ねることもできますし、その逆もできます。そして非常に頻繁にClaude Codeは「ああ、はい、私が間違っています。すみません、CodeXが正しいです」と言うでしょう。これはテストでも裏付けられています。

コーディングはAnthropicの専門分野であることを覚えておいてください。だからOpenAIはCodeXで本当に素晴らしいことをしているのです。OpenAIが現在、計算能力をSoraのような収益を生む活動に費やすことを選択している獣だと私が呼ぶとき、それがどういう意味かということです。

Soraについては後で戻ってきますが、過去数日間で本当に興味深いと思った2番目の話をする時間です。多くの人が見逃したと思います。

AGIの定義に関する新しい論文

話というのは、有名なAI著者たちの集団がAGIの最終的で決定的な定義を提案する論文を得たということだけではありません。私は上昇調で言いますが、実際には決定的なAGIの定義ではないと思うからです。

しかし、いや、それは話の全容ではありません。一部ではありますが。話は、この論文からOpenAIのトップ研究者が最近明らかにしたものへのリンクとともにあります。

しかし、まず、この論文とは何でしょうか。基本的には、多くの方が長い間求めてきたもの、つまりAGIの定義を与えることへの答えです。

論文が提案する大きなアンカーは、この認知能力の理論、Cattell-Horn-Carroll理論です。人間の認知の最も実証的に検証されたモデルと呼ばれています。基本的に、人間の認知を評価することが証明されているものを取り、それをモデルに適用します。

大きな見出しの1つは、結果として得られるAGIスコアがGPT-4で27%、GPT-5で58%だということです。同じアーキテクチャでGPT-6や7に上げればAGIに到達するように聞こえますが、論文はそうは言っていません。

この理論は、認知を1世紀以上の研究で認知の要素として生き残ってきた10の個別カテゴリーに分解しています。ちなみに、身体的器用さは含まれていません。ですからそれは1つの大きな注意点です。

各カテゴリーには、100点満点のAGIスコアで等しく10%の重みが与えられています。例えば、反応時間は一般知識と同じくらい重要として扱われています。

一般知識があり、モデルが以前よりもずっと多くのことを知っているのは間違いなく事実です。読解能力、モデルが大きく進歩してきたのはかなり公平だと思います。数学能力。

さて、Gemini Deep ThinkがFrontier数学ベンチマークで記録を破っているのを見ました。即座の推論はもう少し曖昧です。Simple Benchと伝統的なIQテスト、そして少しの心の理論が混ざったようなもので、彼らはそれに7%を与えています。それについてはよく分かりません。

私が言いたいのは、帰納法をテストする方法が非常に多くあるということです。GPT-5で素晴らしいスコアを生み出すARC AGI 1のようなもの、そして性能が著しく悪いARC AGI 3。

モデルがそれらのテストで満点を取る伝統的な心の理論がありますが、数語を変えるだけで転落してしまう摂動があります。

それから作業記憶と長期記憶のストレージがあります。そしてここで物事が本当に奇妙になります。言語モデルは物事を覚えられません。少なくとも会話の文脈内であれば覚えられますが、それを超えてはできません。

仕事をしながら継続的に物事を学ぶことはしません。そしてそれが、OpenAIからの引用で戻ってくる重要なポイントです。

それから幻覚に関する指標があり、これも特定するのが非常に難しく、最近のDeepSeek論文で見られるように急速に改善している視覚処理があります。

まとめると、聞く能力と反応時間、本質的にはスピードがあります。皆さんは分かりませんが、モデルは一般的に私よりもはるかに速く物事を行うことができます。

継続学習の欠如という問題

しかし、際立っているのは記憶の欠如です。著者たちは言います。「継続的に学習する能力がなければ、AIシステムは記憶喪失に苦しみ、その有用性が制限され、AIはすべてのインタラクションで文脈を再学習することを余儀なくされます。」

私がそれに付け加えたいのは、すべての文脈がモデルへの呼び出しのコストに加算されるため、これらのプロバイダーは意図的にモデルが取り込む文脈の量を制限しているということです。

ですから、状況を理解していないため、しばしば大きな失敗をします。より多くの文脈にお金を使えば、状況をより理解するでしょうが、繰り返しますが、次回は覚えていないでしょう。

1つは根本的な制限です。1つはコストの問題です。しかし、まもなく根本的な制限の解決策が得られるのでしょうか。継続学習です。

さて、それが私が到達したい引用です。その厄介なクリフハンガーの前に、今日のスポンサー、チャンネルの長年のスポンサーであるAssembly AIと、特に彼らのユニバーサルストリーミングツールを紹介します。かなり素晴らしいと思うからです。

これらのツールがどれほど正確になったか知っていますか。例えば、特定のライバルツールが私がGPT-5 Proのようなことを言ったときに理解できなかったのは最近のことです。特に私のアクセントでは、それらの文字を正しく認識しませんでした。今はご覧の通り、完璧に処理しています。素晴らしいと思います。

ちなみに、これへのリンクは説明欄にあります。私はAIを執拗に追いかけ、もちろん登場するほぼすべてのものをテストしています。そして、これらのツールがここまで良くなっていたとは知りませんでした。正直なところ。

それもとても速かったです。気づいたかどうか分かりませんが、とにかく説明欄にリンクがあります。

OpenAI研究者の重要な発言

さて、引用についてです。これはOpenAIの研究担当副社長、Jerry Tuarです。彼の最初のインタビューだと思いますが、58分頃に非常に重要なことに言及しました。

しかし、まず、彼から聞く前にいくつかの背景を説明します。継続学習の明白な制限は何でしょうか。

まず、モデルプロバイダーはモデルが何を学習しているかをコントロールできなくなります。例えば、GPT-6があなたのアプリを根本から真に理解する、あるいはあなたの試験を根本から理解することを想像してください。

そして、仕事をしながらそれを重みに焼き込むので、二度と伝える必要がありません。それは素晴らしいですよね。しかし、それを素朴にやってしまうと、人々がモデルに学習させるあらゆる種類の病的なものが想像できます。

エージェントが何かをして実世界から学ぶときに起こる、いわゆるオンライン強化学習の概念はありますか。強化学習がリアルタイムで起こるのでしょうか。

一般的に、言語モデルに聞く強化学習のほとんどはオンラインで行われていますが、それでも訓練実行であるような方法でオンラインで行われています。ユーザーから切り離されたような形で訓練されています。

世界にはいくつかのモデルがあり、最近知ったのですが、Cursorがユーザーをループに入れてオンラインでモデルを訓練しようとしていると思います。そして、GPTや他のすべての製品でモデルを訓練することは理論的には可能です。ユーザーに応答し、そこで得られるどんな報酬を通じても強化するだけです。

しかし、これは少なくとも私が知る限り、OpenAIが現時点で行っていることではありません。それは素晴らしいかもしれませんが、危険でもあります。なぜなら、そのループで何を強化しているのか、何が起こり得るのかを実際にはあまりコントロールしていないからです。

ですから、はい、少なくとも本当に良い保護措置が整うまでは、GPTのように複雑で大規模なもので試みるべきではないと思います。

その制限を回避する明白な方法が見えるかどうか、コメントで教えてください。AIに関しては、私たちがかなり奇妙で予測不可能な時代に生きていることを、少なくとも納得させられたと思います。

Sora 2の驚くべき能力

そして、この注意点で終わりたいと思います。Sora 2がビデオジェネレーターとしてベンチマークレベルの質問に答えられることを知っていましたか。複雑な多肢選択式の数学やコーディングの質問をすることができ、ビデオで答えてくれて、本当に良いスコアを取ります。

はい、専門のモデルほどではありませんが、すごいと思います。これらのビデオジェネレーターがその場で行っている物理計算を示していませんか。

とにかく、私からは以上です。ChatGPTの新しいブラウザを気に入っているかどうか教えてください。ビデオできちんと言及する価値があるかどうかを確認するために、もう少し時間をかけるつもりです。もちろん、初期の感想も教えてください。

しかし、何よりも最後まで見ていただきありがとうございます。

ビデオの間が空いてしまったことは分かっています。11月にペースを上げることを本当に願っています。

コメント

タイトルとURLをコピーしました