革命：認知AIツール（IBM、Google）

この動画では、人工知能の知能を向上させるために複雑性を削減するという逆説的なアプローチについて解説している。Anthropicの新しいマルチエージェントシステムを例に、中央オーケストレーションエージェントと複数のワーカーエージェントが連携する仕組みを詳述する。さらにIBMが開発した4つの認知ツール（質問理解、関連知識想起、回答検証、バックトラッキング）や、Googleが発表した長文コンテキスト処理能力の向上について論じる。最終的には、超人的AIシステムの監視における計算複雑性理論とゲーム理論の応用まで言及し、AI研究の最前線における理論的課題を提示している。

Revolution: Cognitive AI TOOLS (IBM, Google)

Cognitive Decomposition in functional AI Complexities for advanced reasoning capabilities of multi-agent reasoning Syste...

AI知能向上のパラドックス

こんにちは、コミュニティの皆さん。人工知能における知能を向上させるためには、その複雑性を削減する必要があります。そして皆さんは言うかもしれません。本当にそれで間違いないのですかと。はい、Anthropicの最新技術を見てください。

Anthropicのクックブックパターンであるエージェントオーケストレーターとワーカーの相互作用を見ると、マルチエージェントシステムが明確に理解できます。想像してみてください。「友人たちのための小さなカジュアルな週末バーベキューを計画する」という人間の入力があったとします。そしてここでAnthropicのクックブックからマルチエージェント構造、このコード構造を使用します。

簡単です。中央オーケストレーションエージェントがあります。このエージェント、中央エージェントの主要な仕事は考えることと計画することだけです。他に何もしません。ここで黄色で示されたこのシンプルな人間のタスクを取り、オーケストレーションプロンプトにそれを挿入し、LLMに対して一回のコールを行います。

この特定のLLMの事前学習データセットの複雑性を考えると、LLMは単なるパターンマッチングマシン以外の何物でもありません。そしてここにコードがあります。コードはシンプルです。このシンプルなフォーマットで応答を返してください。分析を行い、タスクに分解してください。

Pythonノートブックでの実行例

このシンプルな人間の文章が、まさにこれを実行します。Pythonノートブックを見てください。これがまさに起こることです。分析とタスクがあり、これに従うだけです。これが実際に行った場合の応答です。

分析では、ユーザーがカジュアルなバーベキューを計画したいと考えていることが分かります。これにはいくつかの異なる種類の思考が必要です。まず、食事を決定するための創造的な部分、次にゲストを招待するための社会的およびコミュニケーション部分、そして買い物リストを作成するための論理的組織部分です。この分解により、各側面がスペシャリストによって適切に処理されることを保証します。

タスクについては、LLM（Anthropic LLM）が3つのエージェントを定義します。シンプルで群衆に喜ばれるメニューを作成する料理プランナー、友人に送るソーシャルテキストメッセージのソーシャルコーディネーター、ハンバーガーやポテトサラダなどに必要なものを把握する物流エキスパートです。

ワーカーエージェントの応答

そして、大規模言語モデルの構造化テキスト出力を、Pythonコードで処理できる辞書のPythonリストに変換します。シンプルです。そしてこれがワーカー1の応答です。

ワーカー1に対して新しい別のLLM呼び出しを行い、ワーカー1がこの情報を与えられて戻ってきます。素晴らしい、私の仕事はバーベキューメニューを考案することで、あなたが望む要素を正確に教えてくれました。メインメニューはクラシックビーフバーガーとブリオッシュバン、サイドはクリーミーポテトサラド、飲み物は手作りレモネードです。これは美しくないでしょうか。

すべてのループが終了し、プロセスメソッドがすべての分析とすべてのワーカーからの構造化結果のリストを含む単一の辞書を返すと、すべてがオーケストレーションエージェントに報告されます。そしてオーケストレーションエージェントは、すべての情報が揃っているか、何か矛盾があるか、問題があるかを決定する必要があります。

研究リードエージェントの分析

私の前回のビデオで見たように、特にここの研究リードエージェントで研究エージェントを行う場合、ユーザープロンプトを分析しました。これは、私の人間のプロンプトが修正されることを意味します。なぜならAnthropicは言うからです。聞いてください、あなたが私たちにプロンプトとして与えたものは適切ではありません。良いソリューションを提供するために、人間ユーザープロンプトをより詳細に分析し、分解する必要があります。

これが私たちが見たものです。Anthropicは言います。ユーザーが私に求めているタスクの主要概念、キーエンティティ、関係を特定してください。質問に答えるために必要な特定の事実やデータポイントをリストアップしてください。質問の時間的またはコンテキストの制約を注記してください。プロンプトの最も重要な特徴を分析してください。ユーザーが最も気にかけていることは何でしょうか。

これは興味深い質問です。回答がユーザータスクを完全に達成するためにどのような形である必要があるかを決定してください。詳細なレポート、エンティティのリスト、異なる視点の分析、ビジュアルレポートが必要でしょうか。どのような構成要素が必要でしょうか。

AIシステム設計の中核原理

ここにはハードコーディングされた構造があります。これが処理しなければならない構造です。とても美しいです。この惑星で最高のLLM、Claude 4のようなものがあります。彼らは知能向上のためのシンプルな計画を持っています。私たちのユーザーからの人間のプロンプトを取り、複雑性を削減します。多くの低複雑性タスク、最大15の異なるエージェントを生成することによってです。各エージェントは単一の低複雑性タスクを受け取るだけです。そうでなければ複雑性を解決できないからです。

次世代AIのパフォーマンスを向上させるために、すべてをより低い複雑性のタスクに分解する必要があります。複雑性削減による分解のプロセスは、次の超知能AIのための中央設計パターンです。

少し失望するかもしれません。これは興味深いです。完全な還元主義で、すべてを再び構築しなければなりません。そしてこれを行うエージェントは1つだけです。私もこれが失敗するという感覚を持っていました。

実験例：ノートパソコン設計タスク

実験をすることができます。「プロフェッショナルなビデオ編集タスクに十分強力で、終日バッテリー駆動で、超軽量な新しいノートパソコンを設計してください」と言ってください。

オーケストレーターエージェント、メインボスエージェントは、これを私たちの人間クエリにあるような専門タスクに分解します。ワーカーAのパフォーマンスチーム、最も強力なCPUを選択する。ワーカーBのバッテリーチーム、最大容量のバッテリーを選択する。ワーカーCのシャーシチーム、マグネシウム合金などの材料を使用して最も軽量なシャーシを設計する。

これは分かりやすいですが、複雑性は単純に3つの要素に分解できる複雑性ではないことを理解する必要があります。なぜならワーカーは分離して進行し、一見正しい結果を提供するからです。この実験を行うことができます。コードは無料で利用できます。

ワーカーAは強力で電力消費の大きいIntel Coreプロセッサと最高級のRTX 1590 GPU 8GBか何かを選択します。ワーカーBは大規模な100Whバッテリー、飛行機で法的に許可された最大容量の重くて大きくて熱いバッテリーを指定します。ワーカーCは信じられないほど薄くて軽量なシャーシを設計しますが、冷却やより大きなバッテリーのための余地がほとんどありません。

そして3つの解決策すべてがオーケストレーターエージェントに送り返されます。このオーケストレーターエージェントは不可能なタスクを抱えています。これは、Anthropicがここで定義した特定の研究マルチエージェントシステムが、このようなハブアンドスポークシステムであるためです。すべてがボス、中央オーケストレーションエージェントに戻らなければなりません。エージェント間のコミュニケーション、調整タスクはありません。このアーキテクチャは確実に失敗します。

LLMの専門性による分析の違い

別の例を見てみましょう。「App Store向けのAI搭載個人アシスタントアプリの包括的なローンチ戦略を開発する」と言ったとします。

特定のLLMを決定するときは、このLLMが何に特化しているかを知る必要があります。教科書、市場調査レポート、財務諸表、企業戦略文書で大量に訓練されたLLMは、学習データパターンで収益性、競争的ポジショニング、厳格で測定可能な投資収益率を優先するパターンを見つけました。このLLMの分析は、この特定の方法で行われます。マネタイゼーション、ユニークバリュープロポジション、長期生存性を確保するための財務モデリング。すぐに収益ストリームが理解できます。

そして、Anthropicが言うように、これを3つのサブプロンプトに分解します。3つのエージェントに分解する必要があります。競合分析エージェント、マネタイゼーション戦略エージェント、フェーズ1マーケティングキャンペーンのInstagramエージェントなど、顧客獲得コストなどに関するものです。

しかし、これは他の何かで訓練された他のLLMと完全に異なることが分かります。複雑な人間のタスクが何であれ、より正確であるほど、より多くの情報を提供するほど、システムが動作すべき環境について期待することのより多くの背景、より多くの情報があるほど良いです。しかし、すべてのAI企業、グローバル企業は私たちに言います。どのようにソリューションに到達すべきかを教えないでください。それは私たちのマルチエージェントシステムにハードコーディングされているからです。達成したいことだけを教えてください。

異なるLLMによる分析の変化

デザイン思考ブログ、記事、AIマニフェスト、人間コンピューターインタラクションの心理学研究で訓練された別のLLMがあったとします。今度は感情、信頼、コミュニティ構築、楽しい体験について話しています。

Anthropicの全く同じコードで、LLMを交換するだけで、分析は完全に異なります。透明性を中心とした戦略、楽しいオンボーディング体験、最初からコミュニティ感を育成する必要があります。人間関係に焦点を当てることが分かります。特定のLLMの事前訓練構造にあるものは何でも、本当にハードコーディングされた効果と分析が見られます。

そして、このLLMは3つの完全に異なるエージェントを持ちます。Anthropicがここでプロンプトで定義しているように、最大15エージェント、最小5エージェント、最小3エージェントを取る必要があります。戻ってくるエージェントは、倫理ガイドレールとオンボーディングエージェント、コミュニティとフィードバックループエージェント、ユーザージャーニーコンテンツ戦略エージェントで、これらの特定のトピック、特定のタスクがマルチエージェントシステムによってさらに詳細に分析されます。

LLM選択の重要性と実験結果

選択するLLMによって、人間の複雑性、LLMにとってシンプルなタスクを分解する際に、極度の自由度と冗長性があることが分かります。LLMにとって全く簡単なタスクではありません。すべての情報が欠けているからです。達成したいことをより正確にできるほど、AIにとってより有用です。

このオーケストレーターエージェントは中立的なタスク分割器ではないことに注意してください。すべてその事前訓練に依存するからです。事前訓練から訓練バイアスや認知パターンがあった場合、これがプロジェクト全体の根本的な哲学として作用します。

実験を行いました。左側でClaude Sonnet 4とQwen 32 processを選択し、最大74を使用しました。特定のクエリで、いくつのタスクのブループリントを提供するかを尋ねました。Claude Sonnet 4は戻ってきて、190個の個別タスクと包括的なタスクリスト、プロジェクト管理チーム割り当て、時間計画を提供できると言いました。

Gemini 2.5 Flash（proではなく、通常のflash、古いもの）からの全く同じプロンプトで、詳細な分解で55個の単独タスクが戻ってきました。同じプロンプト、同じ構造ですが、使用するLLMに注意してください。LLMが小さく、量子化レベルが低いほど、アイデア生成の複雑性を多く失います。

プロンプト書き換えの現象

実験的なAmazon Nova experimental jut 0514（以前に聞いたことのないモデル）を使って、Amazonは私の人間プロンプトを1つ、2つ、または3つのオプションに書き換えました。十分な情報を提供しなかったと満足しなかったからです。Amazonが私の人間プロンプトを受け入れるために、プロンプトを異なるオプションに書き換えました。

書き換えはここで止まりません。複雑な人間タスクがあり、LLMまたは専門家システムの混合に行くと、ほぼすべての場合でこれらのLLMまたはMOAが私の人間タスクを書き換えることに決めます。システムは言います。「あなたのクエリの定式化の仕方が気に入りません。私の事前訓練データセットと事前訓練パターン認識システム、訓練された例を考えると、AIシステムとしての私にとってずっと良いプロンプトにあなたのプロンプトを書き換えたいと思います」。

楽しさはここで終わりません。プライムエージェント、オーケストレーションエージェントに行くと、プライムエージェントには2つのタスクがあります。ボスとして、マルチエージェントMAシステムの深い研究や深い思考プロセスの実行のためのソリューションの計画フェーズを設計します。

タスクと分析と背景知識とコンテキストと知っている例を設計することを考えると、これは既にソリューション空間に置く本当に重い構造です。さらに良いことに、プライムエージェントは計画フェーズの内容を考えて、各エージェントの特定のプロンプトを書きます。すべてのサブエージェント、サブタスクが私たちの単一のプライムエージェントによって定義され、プロンプトされ、プロンプトエンジニアリングされます。

ここで、このハブアンドスポークマルチエージェントシステムが本当に最良の答えを提供しない理由が分かります。コーディングが簡単で、実装が簡単で、実行が簡単ですが、すべてが1つのエージェントの知能に依存し、他のすべてのエージェントは単純にこの1つのエージェントに依存しているからです。

IBMの認知ツール研究

IBMからの新しい研究があります。こんにちは、スイス。私たちは「認知ツールによる大規模言語モデルの推論の引き出し」に取り組んでいます。ここで続けることができます。OpenAIがほぼ常に私の人間クエリをPythonコードに書き換えて、ソルバーを使って私のタスクを解決しようとすることを推論プロセスで話しました。数学ソルバーやPythonやC++などのソルバーがあります。人間言語で推論しようとはしません。多くのことが間違って起こる可能性があるからです。

一般的なツール使用、特に今美しいMCPがあります。適切なツールを使用してください。LLMは思考しようとするな、これは絶対に魅力的です。IBMは2025年6月13日に、推論のための4つの認知ツールを開発したと教えてくれます。これはコードではありません。コード用の複数のツールも含まれますが、これらは推論のための認知ツールです。

これを愛しています。AI研究の最先端で人間の推論のためのツールを設計している場所が示されているからです。最初の2つのツールは、人間の質問を理解するツールです。認知アーキテクチャ文献は、目標管理の重要性と人間の推論の複製を強調しています。手元の問題を分解してその主要構成要素を特定することによって単純に動作します。再び、より高い複雑性を複数のより低い複雑性に分解します。

IBMは「質問理解ツール」だと言います。次に「関連想起ツール」、認知ツールがあります。これは、モデルに以前の知識を思い出して自分の推論を導くように求めるプロンプト技術を使用します。特定のタスクの事前訓練で、特定の数学方程式セットで訓練されたことを覚えていますか。今それらの方程式を積極的に思い出し、それらの方程式を印刷してください。それらがこの特定の新しい人間タスクの回答の基礎を形成します。

自己反省と検証ツール

私が愛するのは「LLMによって内部的に与えられた答えを検証する」ことです。AIによる自己反省ステップがあります。AIは最初の答えを取って言います。ちょっと待ってください、この答えをユーザーに見せる前に、自己反省を行い、現在の推論トレースに可能な欠陥があるかチェックします。すべて本当に完璧ですか。間違った仮定はありませんか。誤計算はありませんか。考慮しなかった境界条件や制約はありませんか。これは今やツールです。絶対に素晴らしいです。

そして「バックトラッキング」があります。これはマルチカラー研究から知っています。これはツールでのモノカラー研究実装です。より小さなステップに分解し、それらのより小さなステップで研究と呼びたいものを行います。

今、4つの新しいブランド新しい認知ツールとコードツール、その他のツールがあります。なぜかというと、AIの推論パフォーマンスを向上させたいからです。シンプルなステップです。AIは私たちの質問をもっとよく理解すべきです。コンテキスト、既に持っているAIのパラメトリック知識を考えて、再び自己反省し、内部的にマルチカラー研究を行います。

IBMの出版物から、これがプロンプトです。「認知ツールを使用すべきです」とあります。あなたは問題解決の専門アシスタントです。ツールのリストにアクセスできます。意味があるとき、より簡単で明確でより堅牢なときにツールを使用することを奨励されています。ツールを呼び出すタイミングを決定するために最善の判断を使用してください。

「いや」と言いたくなります。これはAnthropicが使用する表現と同じです。「最善の判断を使用してください」とAIに伝えます。これはまさに朝バスルームで鏡の前に立って「今日あなたは美しくなるでしょう」と言うのと同じです。これは異なるプロセスです。

数学問題解決の例

AIに「推論プロセスのどの時点でもツールを呼び出すことができます。以下にリストされたツールのみ」と伝え、4つのツールを与えます。例を見せましょう。タスクは「数学問題を解く。3つの数の最大公約数を見つける」です。

「人間の質問を理解する」プロンプトで定義されたツールがあります。AIまたはエージェントに、ツールまたはMCPを設計し、あなたは数学推論アシスタントで、複雑な数学問題を分析し、構造化されたステップに分解して、システムが実際に問題を解決するのを助けるように設計されていると伝えます。複雑性を削減します。常に同じパターンです。AIシステムの知能を向上させるために、複雑性をより小さな部分、より低い複雑性のより小さなピースに削減する必要があります。そうでなければAIシステムは失敗します。

実行結果の詳細

これらのステップを実行すると、この特定の数学問題に対してこれが得られます。問題分析：コア数学概念は3つの数の最大公約数を見つけることを含み、これは数論の基本概念です。関連するシンボルを抽出して分類する。問題を言い換える：数の素因数分解を見つけ、3つの数の間の共通素因数を特定し、共通素因数を一緒に掛けて最大公約数を見つけます。

既知の定理と技術：ユークリッドアルゴリズムが使用できます。素因数分解のステップバイステップ指示。これが行わなければならないことです。LLMが計画、戦略を実行している様子が分かります。どのように解決するかです。単一のステップを操作的に実行しませんでした。どのように解決するのが最良かを考えていただけです。そのため思考モデルは美しいのです。

学習例の生成

「想起関連プロンプト」では、これは自己反省ですが、AIがそのパラメトリック知識から文脈内学習例、少数ショットICL例を生成することが分かります。AIに伝えます。私たちが同じページにいることを確認したいだけです。出力フォーマットで、本当に似ている3つの例を見せてください。人間の監督者として、あなたが問題を理解し、本当に能力があり、訓練されており、この特定の問題を解く方法を知っていることを理解できるように。あなたの文脈内学習例を見せてください。絶対に魅力的です。

IBMはここで、LLMが人間のクエリを理解し、文脈と特定の詳細で理解することを確認することによって、最初から推論プロセスを定義し、推論プロセスを最適化しようとしています。これは視覚言語モデル、視覚言語行動モデル、ロボットモデルではありません。推論を行う大規模言語モデルのコア核に常に帰着し、この特定のLLMまたは私の最後のビデオで見たように、推論エージェンティックRAGシステムを活性化したい場合、この特定のLLMの特定の事前訓練ドメイン知識を考えて、人間のクエリを理解することを確認したいのです。

プロンプトとツール使用の違い

LLMが外部知識が必要だと決定した場合、外部データベースや外部GitHubリポジトリ、外部物理数値シミュレーションエージェントなどに接続する必要があります。すべてが一緒になります。RAG、巨大な推論。推論は現在のAIにおける最も重要なトピックです。

なぜプロンプトで十分ではないのか、なぜ認知ツールに行かなければならないのか、美しいMCPとエージェント間通信プロトコルがあっても、プロンプトとツール使用の違いは何か、特に大規模推論モデルについて疑問に思うかもしれません。

著者たちは言います。私たちの作業は認知心理学と理論神経科学からの洞察を補完する認知プロンプトのアイデアに基づいており、モジュラリティが重要で根本的である可能性があるアイデアを持っています。モジュラーアプローチには、プロンプトエンジニアリングの観点からモノリシックプロンプトアプローチと比較して複数の利点があります。モジュラリティは、LLMが、これまで提供されたコンテキストウィンドウの残りから分離して、手元の特定の認知操作の実装に集中するのに役立ちます。

IBMは言います。私たちはエージェント、LLMの認知負荷を削減したいので、ツールアプローチを採用し、これをモノリシックプロンプトのコンテキストウィンドウに統合しません。第二に、柔軟性を奨励します。強制はしませんが、モデルがクエリを解決するためにツール呼び出しの事前定義された順序を使用することを強制しません。AIが何をしたいか、いつどの特定のツールを呼び出したいかは、AIにとって絶対に自由です。

これは、直接解決する必要がある問題に対してステップの順序を提供する認知プロンプトとは対照的です。昨日のビデオからまさにこれを認識できます。RAGシステムのためのエージェンティック推論があり、2種類のソリューションがあると言いました。プロンプトベースのハードコーディングされたソリューション、これがAnthropicで、LLMが強化学習手順を考えて自分で決定する純粋な訓練ベースのソリューションがあります。

認知ツールの性能評価

IBMは基本的に同じ日に公開し、プロンプトベースのエージェンティック推論と訓練ベースのエージェンティック推論の同じ基本理解を与えてくれます。

結果に利益があるでしょうか。Qwen 2.5 over 32B、Llama 3.1またはLlama 3.3を使用したベースラインは、これらの数値です。認知プロンプトを行うと、パフォーマンスが下がり、興味深いことに上がったり下がったりします。しかし興味深いのは、認知プロンプトとIBMによる認知ツール使用の間のデルタです。IBMは言います。これが最良、これが最良、これが最良、これが最良です。認知ツールは認知プロンプトエンジニアリング、認知プロンプトより好まれます。一般的に興味深い洞察です。今日これを学びました。

専門家システムの混合に関する研究

専門家システムの混合についてすでに話しました。2025年6月13日、大学から美しい質問があります。とても無邪気に尋ねます。専門家システムの混合は、密なLLMよりもAIエージェントのより良いコアではないでしょうか。計算的にまたはエネルギー的に、密なLLMを持つよりも専門家システムの混合を持つ方が良いのではないでしょうか。これは美しい研究で、強く推奨します。この研究であなたの答えを見つけるでしょう。

2025年6月14日のGoogle DeepMindによる新しい研究もあります。この推論例を調査し、Googleは言います。より長いコンテキスト、200万コンテキスト長が、今より多くの例を収容できることを実証します。特に文脈内学習について話している場合、2分前にこれについて話しました。ICLデモンストレーションの数を増加させることができます。

しかし、コーダーとして間違いを犯さないでください。プロンプトに1,000、2,000、3,000のICL少数ショット例を入れれば、パフォーマンスの向上が保証されるとは思わないでください。なぜなら、あなたがしているのは、これらの2,000の例の中に高複雑性トピック、高複雑性ソリューションもあることを願っているだけで、それがシステムが引用符付きで超知能になるのに役立つからです。

しかし、一般的にインターネットやGitHubから、多かれ少なかれ全体的に非常に低い複雑性を持つICLデモンストレーションを見つけます。100の低複雑性や1,000の低複雑性の少数ショットデモンストレーション例があっても、より高い複雑性タスクでのパフォーマンスは向上しません。

彼らはここでRe-frAcT文脈内学習を開発し、私たちが特にここで持っているのは、LLMの注意を困難な例、より高い複雑性の例に集中させるように設計されたアルゴリズムです。本当にシンプルで些細なソリューションをフィルターアウトする必要があります。ICLを行う場合、私たちは本当に困難な例の下でそれを行いたいのです。

RAGシステムの発展

もちろんRAGについて話さなければなりません。これはタイ、バンコク、タイの組織からの最初の研究で、こんにちは、ようこそ、いくつかの出版物があることは素晴らしいです。彼らはここで動的ソート集約RAGシステムを紹介しますが、なぜこれを見せたいかというと、彼らもクエリ書き換えを行うからです。人間のクエリをそのまま受け入れず、RAGシステムがパフォーマンスを向上させなければならないため、RAGシステムが知っていることに従って人間のクエリを書き換えると言います。

楽しんでください。システムにチェックしてください。私のクエリ、私のタスク記述をどのように書き換えましたか。私の人間クエリの内部表現は今何ですか。彼らは問題があると言い、今定義する3段階パイプラインの1つは、最初のステップが人間クエリを書き換えることです。

超人的AI概念の学習

皆さんが次のステップ、この超人的知能を待っていることを知っています。もちろんです。2025年6月13日のGoogle DeepMindからこれを見るのが大好きです。LLMが人間にLLMの潜在的に超人的な概念を学習させる新しい方法があります。LLMの超人的概念を読むとき、マーケティングについて全く考えません。これは科学だからです。

これを見せたいのは、2025年6月16日のGoogle Deep Mindによる研究で、これは完全に異なるレベルです。これが今日の論文です。ここで私たちのAIシステムがより複雑になり、より複雑なタスクを解決できるようになったとき、これに限界があるかどうかについて話しています。

彼らは言います。望ましい行動を示すように強力なAIシステムを訓練することは、ますます複雑なタスクで正確な人間の監督を提供する能力にかかっています。AIに自分でやれ、現在のレベルを超えて複雑性を増加させ、より高い複雑性レベルにある新しい人間データを与えないと言った場合、現在の複雑性レベルによって制限された新しい訓練データを合成しろ、現在のパターン認識能力を超えて行け、ただやれと言うだけなら、システムは失敗します。

人間の監督と人間の指導が必要です。彼らは言います。この問題への有望なアプローチは、ゲーム理論によって人間の判断を増幅することです。数学に興味があるなら、これは美しい論文です。スケーラブルな監督には重要な問題があると言います。より高い複雑性の可能性を持つLLMの事前訓練において、正確な訓練監督をどのように提供するかです。これらの強力でありながら不透明なAIシステムが、タスクが直接的な人間の理解と検証には複雑すぎる場合でも、意図された通りに動作するようにします。

彼らは言います。私たちのシステムは訓練手順で非常に複雑になりますが、プロセスの人間の監視、人間の理解、AIシステムが人間として私たちが望むことを本当に行っているかの人間の検証が必要であることを理解しています。AIが人間の理解には複雑すぎるようになるという問題に直面します。

計算複雑性理論とゲーム理論の解決策

彼らは美しい解決策を見つけました。解決策は計算複雑性理論からです。数学でPhDを持ち、計算複雑性理論の専門家なら、この論文を愛するでしょう。私の小さな脳のような計算的に制限された人間の脳が、より大きな計算複雑性の問題の正しい解決策を突然判断できることを証明します。新しいAIシステムのように、より計算的に強力な2つのAIの間の構造化された議論を観察することによってです。

主なアイデアは、システムが極めて強力になったとしても、人間がループにいることです。人間が2つのAIシステム間の議論を見る、何かについて賛成と反対の立場を取る人間で、今彼らは複雑な問題を再帰的に分解し、より高い複雑性を再び同じパターンで、より低い複雑性のより単純なサブ問題に分解します。これがAIで知能を向上させる主なパターンです。複雑性を削減し、より単純なサブ問題と複数の問題に分解し、AIがすべてのサブ問題と解決策を一緒に戻すことができることを期待します。

私たちは小さな脳を持つ人間として2つのAIシステムの議論を見て、最終的に私の小さな脳、計算的に制限された人間に十分単純なサブ問題で終了します。それは私です。これら2つの圧倒的に計算的に強力なAIを直接判断することができます。私は計算的に制限された脳を持つ人間として、2つのAIのどちらが真実を告げているかを決定できます。

計算複雑性理論がゲーム理論と出会います。これが詳細を理解したい場合の少しの説明です。2つのシステムがあり、1つはコードレビューアーシステムとして機能する議論システムです。彼らの議論を見たり聞いたりするだけで、Googleは言います。人間として、これらの優秀なシステムのうちどれがあなたに嘘をついているか、どれが真実を告げているかを決定できます。

アイデアは、彼らが話しているのを見て、複雑性を削減し、複雑性を削減し、複雑性を削減して、突然通常の人間の知能、これは私ですが、どのシステムを信頼するかを決定できるレベルに到達することです。それとも私を信頼させるようにプレイしているだけで、その後私に背くのでしょうか。

Googleが現在探求していることは絶対に魅力的です。将来設計するシステムをどのように判断するかですが、Googleで働く通常の人間の知能で、3つのPhDしか持たない場合、この人間がどちらの超人的AIが人間に嘘をついているかを判断できるでしょうか。

現在のAI研究のトピックとして絶対に魅力的だと思います。認知科学からゲーム理論、計算理論、複雑性理論、数値理論、コンピューターサイエンスに至るまで素晴らしいです。彼らは完全性の定理を提供し、これは正直な証明者と、解決可能なサブ問題への安定した分解を正しく提供する優秀なAI知能に関するものです。再び、より高い複雑性がより低い複雑性に削減されます。この正直な証明者は、不正な見積もりを持つ悪い他のAIとの議論で常に勝つことができます。

彼らは戦略プロファイルでアルファ近似ラッキーバッグ均衡から始めます。このようなトピックが好きなら研究を読んでください。そうでなければ、私がするように言うかもしれません。彼らは、より高い複雑性をより低い複雑性の解決可能なサブ問題への安定した分解の存在を証明し、今日の時点で私はこれで満足です。週末にはディープダイブをしたいかもしれません。

未来への展望

超人的AIについて話していますが、本当に深い数学レベルで、人間が設計する新しいAIシステムとの間のコンテキストをどのように保つか、システムを制御するとは言いませんが、彼らが私たちに嘘をついているか、私たちを欺いているか、真実を告げているかを少なくとも少し理解できることをどのように確認するかを理解しようとしています。

私たちは、ただ解決するのが素晴らしい理論的問題に直面しています。Googleがここで先週発表したいくつかの素晴らしい論文、素晴らしいAI研究論文、特にこのトピックについて、ごく近い将来にどこに向かっているかが非常に明確に見えると思います。

AIで素晴らしい時代だと思います。購読すれば、この種のことをもっと見ることができると思います。