マインドエボリューション: 推論時のより深い思考(by Google)

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,588 文字

Mind Evolution: Deeper Thinking at Inference (by Google)
The latest AI research by Google regarding AI deep reasoning (Jan 20, 2025). Called Mind Evolution, evolving deeper LLM ...

皆さん、こんにちは。Googleによる最新の研究「マインドエボリューション」について見ていきましょう。外は吹雪で、私はオーストリアアルプスにいます。美しい雪に覆われ、気温は氷点下。暖炉のそばで過ごすのがちょうどいいですね。
前回の動画が少し複雑すぎたという指摘を受けたので、今日はストーリータイムです。リラックスして、あなたも暖炉のそばでくつろいでください。
私はインターネットを検索する複数のLLMを持っており、AI生成の要約を取得しています。これは私が使用しているLLMの一つからの結果です。「マインドエボリューション:遺伝的アルゴリズムとクリティカルな対話による洗練を通じた画期的な知的問題解決のイノベーション。比類のないベンチマーク結果をもたらす問題解決を変革する」といったものですが、これはなんという nonsenseでしょう。
最高のLLMを使用しても、「添付PDFの技術的要約を書いて」というシンプルなコマンドでこのようなナンセンスが生成されることに気付きました。今日の状況を探っていきましょう。
例えば、私はGPT-4に「Googleの最新のAI研究における遺伝的オペレータを科学的な用語で説明してください」と尋ねました。バイオテクノロジーや遺伝学の分野で働く私にとって、遺伝的オペレータは、この論文で選ばれたものとは全く異なるものを意味します。
興味深いことに、GPT-4は私のシステムプロンプトと例に従って、この論文の表記と説明の範囲内にとどまり、要約ではなく、PDFから抜き出した文章だけを提供しました。
少し苛立って、「では、プロンプト最適化のための遺伝的オペレータを非技術的な用語で説明してください」と言いました。すると、システムは「選択とは、複数のプロンプトバージョンから最良のものを選ぶことです」と返答しました。続いて「クロスオーバーは、2つの異なるプロンプトの最良の部分を組み合わせて新しいプロンプトを作成します」と説明し、私は驚きました。「突然変異は、より良い結果が得られるかどうかを確認するために、プロンプトに小さな変更を加えます」
ここでGoogleが科学論文にマーケティング的な努力を注いでいることに驚かされました。科学的な用語で説明を求めても、LLMはますますマーケティング的な表現に関連付けられており、このマーケティングのような表現を避けるための多くのロードブロックを設定しているにもかかわらず、これらの要素がますます透けて見えてきており、科学的な説明はほとんどありません。
さて、科学的な観点から何が起きているのか話しましょう。ここでは訓練ではなく、明らかに推論時の話です。GoogleはOpenAIのo1やo3モデルのように、1分、2分、3分、5分、場合によっては30分や1時間待つことで、進化的マーケティング検索戦略を実装することにより、LLMの推論時の計算をスケールさせてテスト時のパフォーマンスを最適化しようとしています。
主な疑問は「LLMがどのように複雑な問題についてより深く考え、推論時の計算能力を活用して問題解決能力を向上させることができるか」でした。アイデアはシンプルで、検索プロセスのための解決評価者があれば、より多くの推論時間の計算能力を提供することで、LLMはより良い解決策を提供できるというものです。
そして今、Googleは次のステップに進みます。彼らは自由な確率的探索と大規模な反復的改良プロセスを組み合わせた進化的検索戦略を提案しています。彼らはこれを「マインドエボリューション」とマーケティング用語で呼んでいます。
このマインドエボリューション手法のアイデアは、形式的な空間(ベクトル空間や埋め込み、その他の数学的空間)での検索に限定されないということです。代わりに、自然言語の空間で解決策を最適化することによって、これら全てを行います。
メモリを持ち、ツールへの関数呼び出しを持つエージェントを構築しました。計算機、Python環境、あらゆるコンピュータシミュレーションなど、必要なツールを全て利用できます。そして今、深い思考推論プロセスのために自然言語の空間に戻るのです。
論文のタイトルは「Evolving Deeper LLM Thinking」で、私がこれを録画している2025年1月20日に公開されました。いくつかの驚きが隠されているので、見る価値があります。
彼らは遺伝的検索戦略だと言います。私の単純な思考はまだ遺伝子バイオテクノロジーに縛られていました。そこでも遺伝的検索戦略がありますが、全く異なるトピックスです。AIの出版物で科学の異なる分野から用語を使用する場合は注意が必要です。なぜなら、特定の技術用語にはそれぞれ固有の環境があるからです。
彼らは遺伝的戦略と言い、評価者からのフィードバックについて語り、発散的思考と収束的思考が知的問題解決行動の特徴だと述べています。これらの科学的出版物に何が忍び込んでいるのか見えてきます。
タスクを見れば明確になります。タスクは「あなたは16日間で5つのヨーロッパの都市を訪れる計画を立てています。都市間の移動は飛行機のみを使用し、マドリッドには3日目から7日目まで5日間滞在します」というものです。彼らは異なる方法論を収集し、best-of-n方法論による1パスを示し、最終的に彼らの解決策がこの特定の問題を解決するための最良の方法論であることを示しています。
もちろん、これは手作りの問題ですが、この特定のタスクに対して、これが最良の方法論であることは理解できます。Googleによるマインドエボリューションの公式発表を遺伝的ベースの進化的検索戦略として見ると、少し混乱します。なぜならこれは非常にシンプルだからです。
サンプル解決策は美しいものです。LLMに1日目、2日目の異なる計画を立てるよう依頼し、評価者からフィードバックを得ます。評価者が何であれ、フィードバックは戻され、評価が行われ、いくつかの要素は良く、いくつかは悪くなります。
選択、クロスオーバー、突然変異という遺伝的オペレータ(私はこれを単にプロンプトエンジニアリングと呼びますが)による改良または改善の前の解決策のフィードバックループがあります。そして、最大計算時間予算または財務予算が制限されている中で、最良の解決策、あるいは最良の解決策の1つが得られます。
これを見て、イノベーションはどこにあるのかと疑問に思うかもしれません。これは私がある程度馴染みのあるものです。おそらく評価関数にあるのかもしれません。原則として、Googleによれば、LLM自身による純粋なLLM評価を含む、解決策の品質を評価できるあらゆる関数を使用できます。
マインドエボリューションスキームでは、これをフィットネス関数と呼んでいます。最適化目的の測定や、与えられた制約を満たしているかどうかを検証し、対応するテキストフィードバックを提供することで解決策をスコアリングします。
シンプルなフィードバックループがあり、このマインドエボリューション全体が自然言語計画演習に過ぎないことに気付きました。推論についても少し触れていますが、私の単純な説明では自然言語計画に焦点を当てています。
もちろん、マインドエボリューションでは集団初期化から始まります。集団動態や遺伝学から取り入れ、これを今AIの用語に適用しています。彼らは、ターゲット問題が与えられると、問題の説明、問題解決に必要な情報、関連する指示でLLMにプロンプトを与えることで、初期解を独立にサンプリングすると言います。
これは単に、与えられた問題でLLMを5回か10回サンプリングするだけのプロンプトです。集団初期化は必要ありませんが、それはそれとして。そして、これらの初期解はそれぞれ評価され、クリティカルな会話プロセスを通じた追加のターンで改良されます。
このプロセスが何なのか疑問に思い、例を見てみました。クリティカルな会話を通じた改良、つまりRCC(Refinement through Critical Conversation)ですが、LLMの要約では説明なしにこれらのバズワードが出てきました。
実際には、タスクがあり、最初の初期解があり、その返答を評価し、おそらく批評LLMが「東京では最初の初期解で与えられた3日間ではなく5日間であるべきだ」と言い、それを改良する必要があるというフィードバックループに過ぎません。これが今RCC方法論と呼ばれています。
Google、私たちはRCC方法論を理解していますが、私たちが何について話しているのかは理解しています。しかし、この特定の表を詳しく見ると、用語に隠されていた何かを理解できなかったことに気付きました。
解決策を探索するための最大世代数、進化させる独立した集団の数、島ごとの会話数、会話あたりのターン数があります。このとき、ここでの「島」が正確に何なのか自問し、検索を始めました。
2000年、25年前にイリノイ大学の遺伝的アルゴリズム研究所から並列遺伝的アルゴリズムの調査があったことを発見しました。申し訳ありませんが、25年前のITで何が起きていたのか、この用語に馴染みがありませんでした。
これらの遺伝的アルゴリズムは何かすごいものでした。そしてこれを読んで、この島モデルは基本的に全体の集団が複数の部分集団に分割され、これらの部分集団を島と呼ぶ戦略であることを理解しました。
各島は独立して進化し、自身の部分集団内で選択、クロスオーバー、突然変異などの遺伝的操作を適用し、定期的に個体が島間を移動して新しい遺伝的材料を生成します。これはダーウィンから来ているのだと思います。旧千年紀に戻ります。
これが現在使用されている専門用語であることを理解しましたが、全く異なる印象、全く異なる視覚的環境を与えられました。2025年の今日、確かに遺伝的アルゴリズムは存在しますが、それらは明らかに異なるものです。
Googleは異なる部分集団に様々な理由を探索させることを許可しています。今日では、異なるプロンプトがあり、LLMから異なる応答を得て、これらの応答をテーマ別のトピックス、テーマ別のクラスターに分類できます。それらが島です。
そして、クラスターの焦点を見つけ、別のクラスターへのエッジ機能を持つかもしれません。クラスターは解決策に適用する最も重要な事実や最も重要な方法論について情報を交換することができます。
異なる種類の言語を使用すると、全く異なるものを見つけることができるのは興味深いことです。マインドエボリューションのコンテキストで、Googleは島モデルを採用し、これによって複数のプロンプトグループが作成されます。
これらのプロンプトグループは別の島であり、一つの島(クラスター)のプロンプトは他のクラスターと共有され、これが全てのマーケティング的な言葉の最終的な解決策となります。この論文についてLLMが私に与える要約を見ると、全く異なる方向に導かれてしまいます。
このトピックに関するLLMの現在のパフォーマンスは恐ろしいものです。メインのトピックに戻りましょう。私たちはエージェント、ツール、複雑なコンピュータシミュレーションに必要な全てを持っていると言いました。そして今、実世界の自然言語に戻り、コンピュータモジュレーション、数値計算、解析的関数なしで、人間の言語だけで全ての解決策を見つけることができると考えています。
そして、Googleが2024年6月の自然言語計画のベンチマークに使用した独自の自然言語計画ベンチマークが見つかりました。レファレンスを全て追っていくと、Crystal Clearになります。彼らが行っているのは、自然言語計画演習という非常に小さなスペクトルだけを見ているのです。
私の理解では、この自然言語計画演習だけに対して、フィードバック機構を持つ新しい方法論を提供し、これを遺伝的オペレータと呼んでいます。
残念ながら時間がかかりますが、出版物は単純に他の出版物と同じではありません。ここ数週間、数ヶ月で気付いたのですが、コミュニティの注目を集めるためにこれらの出版物は科学用語を発明し始め、何らかの理由で完全な表記法を発明しています。
私たちはこれをどのように伝えるか知っていますが、今や全てが真新しく、新しい名前を持ち、信じられないようなマーケティング方法論の命名法を持たなければなりません。これらの論文、これらの新しい研究は全て、ツールを使用しない自然言語計画演習のためのもので、特定の遺伝的オペレータ、フィードバックループを持つプロンプトエンジニアリングがあり、これがGoogleによるこの論文の内容です。
外は吹雪で、私はここの小さなキャビンから出られず、冬を楽しんでいます。地球の南半球に住んでいる人々、オーストラリアのボンダイビーチでサーフィンを楽しんでいる人々を考えると、うらやましいです。私は吹雪の中でGoogleの出版物を読んでいます。
このような論文からも洞察が得られ、皆さんと共有したかったのは、LLMによる自動要約を信頼しないよう注意することです。おそらく別のLLMによって生成されたマーケティングスローガンに感銘を受けて、ひどく間違えたり、明確な焦点を持って完全に書き直すことができる論文で終わってしまう可能性があるからです。
これが私たちが生きている時代なのです。吹雪があれば楽しみ、暖炉を楽しんでください。今日の動画は単なるストーリーテリングでしたが、もし購読して次の動画の通知を受け取りたい場合は、より科学的なトピックに焦点を当てていきます。

コメント

タイトルとURLをコピーしました