GoogleのAIが数学の常識を破った…独自のアルゴリズムを発明

Google・DeepMind・Alphabet
この記事は約10分で読めます。

Google DeepMindが開発したAlpha Evolveが数十年にわたり解決されなかったラムゼー理論の数学記録を複数同時に更新した。このシステムは問題を直接解くのではなく、問題を解くためのアルゴリズム自体を進化させるという革新的なアプローチを採用している。同時期に、Moonshot AIは従来のトランスフォーマーアーキテクチャを改良したattention residualsを発表し、計算効率を大幅に向上させた。また、Jepu AIは小型ながら高性能なドキュメント読取モデルGLM OCRをリリースし、Open VikingはAIエージェントのメモリ管理システムを刷新、IBMは多言語対応の音声モデルGranite 4.01B speechを発表するなど、AI分野において複数の重要な技術革新が同時進行している。

Google’s New AI Just Broke Math… (Invented Its Own Algorithms)
Google DeepMind’s AlphaEvolve just broke long-standing mathematical records by evolving algorithms that improved several...

Alpha Evolveが数学記録を更新

ここ数日間で、Google DeepMindのAlpha Evolveが長年破られなかった数学記録を更新しました。Moonshot AIはattention residualsと呼ばれる新しいトランスフォーマーアーキテクチャを発表しました。Jepu AIはGLM OCRという小型のドキュメント読取モデルを公開しました。Volt engineはOpen Vikingという名前のAIメモリシステムをリリースしました。そしてIBMは新しい音声モデルGranite 4.01B speechを発表しました。かなり多くのことが起きていますので、それぞれについて詳しく見ていきましょう。

Google DeepMindは、何年も停滞していた数学記録を破ることに成功したAIシステムを構築しました。このシステムはAlpha Evolveと呼ばれています。単一の数学パズルを解くのではなく、5つの異なる問題を同時に前進させることに成功しました。

これらの問題はラムゼー理論と呼ばれる分野から来ており、非常に困難なことで有名です。世界で最も優秀な数学者たちが何十年もかけてこれらの数値に取り組んできました。実際、伝説的な数学者ポール・エルデシュの有名なジョークがあります。彼はかつて、もし宇宙人が特定のラムゼー数を計算しない限り地球を破壊すると脅してきたら、人類の最善の選択肢は降伏することかもしれないと言いました。それほどこれらの問題は困難なのです。

ラムゼー数の背後にある考え方は、実は極めてシンプルなところから始まります。部屋に6人がいると想像してください。彼らの関係性がどうであれ、必ず3人全員がお互いを知っているか、3人全員が完全に見知らぬ者同士であるという組み合わせが見つかります。そのパターンは常に現れます。避けることはできません。

数学者たちはこの考えをはるかに大きなパズルに変えました。彼らはネットワーク内で特定のパターンが避けられなくなる正確なポイントを見つけ出そうとしています。問題は、関連する数値が狂ったように速く大きくなり、それらを計算することが信じられないほど困難になることです。

これらのラムゼー数の多くについて、数学者たちは正確な答えすら知りません。彼らが知っているのは大まかな範囲だけです。その範囲をわずかに改善するだけでも何年もの作業が必要になることがあります。

Alpha Evolveの革新的アプローチ

ここでAlpha Evolveの登場です。このシステムは、5つの有名なラムゼー数の下限を同時に前進させることに成功しました。各数値が1つずつしか増えなかったため、最初は劇的に聞こえないかもしれませんが、この分野では境界を1つでも動かすことは大きな成果なのです。

ある記録は20年間破られていませんでしたが、Alpha Evolveがそれを更新しました。他の記録も10年以上続いていました。本当に興味深いのは、AIがそれをどのように成し遂げたかです。

答えを直接探すのではなく、システムは答えを探すためのアルゴリズムを探しました。こう考えてください。パズル自体を解こうとするのではなく、AIはパズルをより良く解けるような新しいツールを発明するのです。

Alpha Evolveはシンプルなアルゴリズムの束から始まります。そして、GoogleのGeminiモデルという大規模言語モデルがそれらを修正し始めます。戦略を変更し、コードの一部を書き換え、新しいアイデアを追加します。新しいバージョンはそれぞれ、より良いパフォーマンスを発揮するかテストされます。アルゴリズムがより良い解決策を見つけることに成功すれば、生き残ってさらに進化します。失敗すれば破棄されます。

時間が経つにつれて、システムは独自の検索戦略を改善し続けます。最終的に、数学記録を破るのに十分なほど優れたアルゴリズムを生成します。

研究者たちがAlpha Evolveが発明したアルゴリズムを調べたとき、彼らは魅力的な何かに気づきました。AIは数学者たちが以前手作業で開発したいくつかの技術を独自に再発見していたのです。つまり、システムは単にランダムに推測していたわけではありません。実際に本物の数学的戦略を学習していたのです。

結果が発表されたとき、DeepMind CEOのデミス・ハサビスはこの画期的な成果を祝い、チューリング賞受賞者のヤン・ルカンでさえチームに祝福の言葉を送りました。

Moonshot AIのアテンション残差

さて、これが数学で起きている間、別の研究グループはさらに根本的な何かを見ていました。彼らは、現代のAIモデルの背後にある核となる考え方の1つが実際には欠陥があるかもしれないと問いかけていました。

Moonshot AIのチームはattention residualsと呼ばれる新しい概念を導入しました。これは技術的に聞こえるかもしれませんが、その背後にある考え方は実際にはかなりシンプルです。

現代のAIモデルは、互いに積み重ねられた多くの層から構築されています。各層は情報を処理して前方に渡します。すべてを安定に保つために、これらの層は残差接続と呼ばれるものを使用して出力を混ぜ合わせます。このシステムは何年も非常にうまく機能してきました。

しかし、研究者たちは奇妙な問題に気づき始めました。モデルが深くなるにつれて、すべての層の出力が等しい重みで混ぜ合わされます。時間が経つと、初期の層が巨大な情報の山の中で希釈されてしまいます。

Moonshot の研究者たちは興味深いことに気づきました。アテンションが単語のシーケンスを読むのに非常にうまく機能するなら、ネットワークのどの層が最も重要かを決定するためにアテンションを使ってみてはどうでしょうか。

つまり、すべてを盲目的に混ぜ合わせるのではなく、各層は初期の層にどれだけアテンションを払うかを選択できるようになりました。これは基本的に、AIに自分自身の思考プロセスのよりスマートなメモリを与えるようなものです。

最初、システムは通常のトランスフォーマーモデルと同じように動作しますが、トレーニングが進むにつれて、どの層が実際に有用で、どの層を無視できるかを学習します。

結果は印象的です。研究者たちが複数のAIベンチマークでシステムをテストしたところ、モデルは一貫してより良いパフォーマンスを発揮しました。いくつかのケースでは、約25%多い計算能力を必要とするモデルのパフォーマンスと一致しました。これは大きな意味を持ちます。なぜなら、大規模AIモデルのトレーニングは非常に高価だからです。

Moonshot はまた、この考えを、合計480億パラメータを持つKimmy linearと呼ばれる大規模な混合専門家モデルの1つでテストしました。1.4兆トークンでトレーニングした後、新しいアーキテクチャは推論テスト、コーディングタスク、知識ベンチマークで結果を改善しました。

つまり、比較的小さなアーキテクチャの変更が、将来のAIシステムをより効率的にする可能性があるのです。

GLM OCRによるドキュメント読取の進化

では、もう少し実用的に感じられるものに移りましょう。Jiu AIとSingha大学の研究者たちは、複雑なドキュメントを読むために設計された新しいAIモデルをリリースしました。GLM OCRと呼ばれています。興味深いのはそのサイズの小ささです。

システム全体はわずか9億パラメータしかありません。これは多くの現代のAIモデルと比較して非常に小さいです。そのサイズにもかかわらず、表、数式、スタンプ、構造化されたフィールド、乱雑なレイアウトを含むドキュメントを読むことができます。

従来のOCRシステムは平文テキストを読むのはかなり得意ですが、ドキュメントに表や数式が含まれると、状況が崩れ始めます。GLM OCRは問題に異なるアプローチで取り組むことでこれに対処しています。

ページ全体を一度に読もうとするのではなく、まずドキュメントを意味のある領域に分割します。表、段落、図などのページのセクションを識別します。その後、各領域を個別に処理します。このシンプルなアイデアにより、システムははるかに効率的になります。

モデルはまた、テキストを単語ごとに生成するのではなく、一度に複数の単語を予測します。これにより処理速度が劇的に向上します。テストでは、システムは複数のドキュメントベンチマークで強力なスコアを達成し、従来のアプローチと比較して約50%高速な処理を実現しました。

さらに興味深いことに、システムはJSONやMarkdownのような構造化されたデータを直接出力できます。つまり、フォーム、請求書、レポートから情報を自動的に抽出できるということです。そして、モデルが比較的小さいため、実際の製品に展開するのがはるかに簡単です。

Open VikingによるAIメモリ管理の刷新

では、AI開発者が常に直面している別の課題、メモリについて話しましょう。

今日のAIエージェントは、多くの場合、ベクトルデータベースと呼ばれるものに依存しています。基本的に、テキストを断片に分割し、類似性スコアを使用してそれらを検索します。このアプローチは機能しますが、乱雑になることもあります。

Open Vikingと呼ばれる新しいオープンソースシステムは、AIメモリをコンピュータのファイルシステムのように整理することで、この問題を解決しようとしています。

ランダムなテキストチャンクとして情報を保存するのではなく、Open Vikingはすべてをフォルダとディレクトリに整理します。エージェントは、コンピュータターミナルで使用するようなコマンドを使用して、この構造を閲覧できます。

つまり、何千ものテキストの断片を盲目的に検索するのではなく、AIはメモリをより論理的にナビゲートできるのです。

システムはまた、階層化されたコンテキスト読み込みと呼ばれるものを使用します。すべての情報は自動的に3つのバージョンを取得します。短い1文の要約、中程度の概要、そして完全なコンテンツです。AIが情報を必要とするとき、最初に要約を読みます。必要な場合にのみ、完全なファイルを開きます。これにより、モデルが処理する必要があるトークンの数が劇的に減少します。

Open Vikingは、AIが情報をどのように取得したかも追跡します。開発者は、システムがメモリを検索する際に辿った正確なパスを見ることができます。これにより、AIエージェントが間違った答えを出したときのデバッグがはるかに簡単になります。

長い会話データセットを使用したテストでは、Open Vikingを追加することで、はるかに少ないトークンを使用しながら、タスク完了率が約35%から52%以上に向上しました。

IBM Granite 4.01B speechの効率性

最後に、IBMが音声AIに焦点を当てたものをリリースしました。モデルはGranite 4.01B speechと呼ばれています。ここでの目標は効率性です。巨大な音声モデルを構築するのではなく、IBMはコンパクトでありながら優れたパフォーマンスを発揮するものの作成に焦点を当てました。

モデルは、英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語を含む複数の言語をサポートしています。英語との間で音声を翻訳することもでき、英語からイタリア語、または英語から中国語への翻訳シナリオさえ処理できます。

興味深い設計上の選択の1つは、システムが2つのステップで動作することです。まず、音声をテキストに変換します。次に、言語モデルがそのテキストを処理して翻訳や応答を生成します。このモジュール設計により、開発者がシステムを実際のアプリケーションに統合しやすくなります。

小さいサイズにもかかわらず、モデルはオープンASRリーダーボードで平均単語誤り率5.52%という強力な結果を達成しました。特にLibra speechやSPGI speechなどのデータセットで優れたパフォーマンスを発揮しました。

そして、モデルはApache 2.0ライセンスの下でリリースされているため、企業は厳格な商業的制限なしにより自由に使用できます。

AI技術の急速な進展

つまり、わずか数日間で、数学問題を解くためのアルゴリズムを発明するAI、トランスフォーマーアーキテクチャの一部を再設計するAI、小型でありながら有能なマルチモーダルモデルの構築、AIエージェントがメモリを管理する方法の再考、そして実世界での展開のために設計された音声認識システムの改善を見てきました。

今、物事は急速に動いています。これらの開発のうち、どれが最もエキサイティングだと思うか、コメントで教えてください。そして、このようなアップデートをもっと見たい場合は、必ず購読してください。ご視聴ありがとうございました。次回またお会いしましょう。

コメント

タイトルとURLをコピーしました