AI自己進化(メタハーネス)

再帰的自己改善・RSI
この記事は約23分で読めます。

すべてのソフトウェアが自己進化する時代が目前に迫っている。スタンフォード、MIT、Craftedのチームによる「Meta Harness」論文は、AIモデルを取り巻くハーネスコード自体が自己改善できることを実証した。従来は人間が手動で書いていたハーネスを、AIが自律的に最適化する手法である。テキスト分類、数学推論、ターミナル操作の各ベンチマークで既存手法を大幅に上回り、特にターミナルベンチマークではClaude Opus 4.6で76.4という最高スコアを記録した。これはアンドレ・カルパシーのauto researchプロジェクトに続く、AI自己改善の新たな展開であり、ソフトウェア開発の根本的な変革を予告するものである。

AI Self EVOLUTION (Meta Harness)
Automate your workload with the Claude Cowork Stack: The 25 OpenClaw Use Cases eBook 👇🏼

すべてのソフトウェアが自己進化する未来

すべてのソフトウェアは、ごく近い将来、自己進化するソフトウェアになるでしょう。これはスタンフォード、MIT、そしてCraftedのチームによる新しい論文で、Meta Harnessと呼ばれています。正式には「エンドツーエンドのモデルハーネス最適化」というタイトルです。

もし皆さんがAI業界を少しでもフォローしているなら、もしこのチャンネルを最近見ているなら、私がエージェント的なハーネスについて何度も何度も話しているのをご存知でしょう。

ハーネスとは何でしょうか。基本的には、Claudeのようなモデル、GPT-5.4のようなモデル、Geminiのようなモデルの周りに巻かれた従来型のコードのことです。そのコードがモデルにどう動作すべきかを指示し、メモリを保存したり、テキストを検索したり、コードを書いたり実行したりといった、その他多くのことを可能にします。これこそが、Claude CodeやCursor、Factoryなど、多くのエージェント的なハーネスを特別なものにしているのです。

Cursorでプロンプトを入力すると、何時間も動き続けることができます。それはすべてハーネスのおかげなんです。これについて詳しく説明しますが、今、ハーネス自体が実際に自己改善できると想像してみてください。通常、ハーネスは人間の手で書かれます。実行され、時間をかけて進化していきますが、自己進化ではありません。

アンドレ・カルパシーのauto researchプロジェクト

そこで一旦立ち止まって、アンドレ・カルパシーのauto researchプロジェクトについて話しましょう。このプロジェクトはこの数週間で爆発的に話題になり、すでに6万1000のスターを獲得しています。

基本的にこれが行うことは、Claudeのようなモデルに一連の実験を提案させ、一晩中実行させて、GPT-2レベルのモデルを訓練する能力を自己改善させるというものです。もしこれが全て異質に聞こえるなら、こう考えてください。AIが自分自身を訓練しているのです。何が機能したかを見て、それらをよりよく行う方法について新しい実験を提案し、それを一晩中継続的に行っているのです。

このプロジェクトが登場して以来、非常に似たようなプロジェクトがいくつも出てきました。基本的に、ソフトウェアのさまざまな部分を自己進化させ、自己改善しようとするものです。そして今、私たちは実際にハーネス自体が自己改善できるようになりました。とてもクールです。詳細に入っていきましょう。

Meta Harness論文の概要

こちらが論文です。彼らはすでに論文を公開し、コードをオープンソース化しているので、今すぐ使うことができます。これらすべてのリンクを下の説明欄にドロップしておきます。

さて、これから話すことの要点をお伝えしましょう。大規模言語モデルシステムのパフォーマンスは、モデルの重みだけでなく、そのハーネスにも依存します。ハーネスとは、どの情報を保存し、取得し、モデルに提示するかを決定するコードのことです。

ハーネスはモデルの重みと同じくらい重要なのです。もしこれが混乱するなら、簡単に説明させてください。モデル自体、GPT-5.4と聞いたとき、Opus 4.6と聞いたとき、私たちはただモデルの重みについて話しているだけです。

フロンティアラボがこれらの巨大な事前訓練を実行するとき、彼らは基本的に、最終的にモデルの重みとなるものを焼き付けています。モデルの重みは、一連の単語の中で次のトークン、つまり次の単語を予測することに非常に優れています。それが本当に彼らがやっていることのすべてです。

しかし、それらをハーネスで包むと、非常に特別なものになります。次の単語を予測するとき、こちらのメモリも見るべきかもしれないとか、あるいはコードを書いてそれをあちらで実行すべきかもしれないと言うわけです。そしてそのための環境を提供します。こちらにファイルを保存できます。エージェント的なハーネスでできることはたくさんあるんです。

モデル自体の能力とハーネスの重要性

そしてモデル自体、その重みは既に信じられないほど強力です。非常に知的です。私はこれをしばらく言い続けています。モデルは今日、AGIに到達するのに十分優れています。私たちがする必要があるのは、ハーネスを構築することだけです。以前は足場と呼んでいましたが、今は突然ハーネスと呼ばれるようになりました。それらを本当に優れたものにするためです。

そこで彼らはメタハーネスを導入しました。これは外側のループです。エージェント的なハーネスシステムの周りに、LLMアプリケーションのハーネスコードを検索するものです。

ハーネスの重要性を示す実験結果

さて、メタハーネスの詳細に入りましょう。固定された大規模言語モデル、つまり重みだけを変更せずにハーネスを変更すると、同じベンチマークで6倍のパフォーマンスギャップが生じる可能性があります。

ハーネスがすべてなのです。この時点でモデルは非常に優れていますが、それは生の知能に過ぎません。それは車のエンジンのようなものです。しかし車のエンジンだけでは、地点Aから地点Bに行くのに十分ではありません。座席が必要で、ハンドルが必要で、エンジンから出てくるすべてのパワーをタイヤに、そしてタイヤを道路に伝える方法が必要です。

つまり、ハーネス、つまりモデルに何を保存し、取得し、表示するかを決定するコードは、モデル自体と同じくらい重要なことが多いのです。そう、これはハーネスエンジニアリングと呼ばれます。そして最高のフロンティアラボは独自のハーネスを作っています。他にも独自のハーネスを作っている素晴らしい企業がたくさんあります。

今日はそのうちのいくつかについてお話ししますが、おそらく皆さんはそのほとんどを聞いたことがあるでしょう。しかし、その重要性にもかかわらず、ハーネスエンジニアリングは主に手動のままです。

スポンサー紹介

そして、自己進化する必要があるものが他にもあります。それは皆さんのスキルです。だからこそ、今日のビデオのスポンサー、HubSpotについてお話しできることを嬉しく思います。皆さんの多くがAIの動きの速さについていこうとしていて、これらのツールについて実際に学びたいと思っていることを知っています。ただ読むだけでなく。

Claude Co-workが登場したばかりで、作業負荷の大部分を自動化できます。ですから、Claude Co-work Stackをチェックすることをお勧めします。1週間分の仕事を置き換える12のプロンプトです。これはAIエージェントを理解するためのガイドであり、それらが実際にどのように機能するかについてのものです。

Claude Co-workを使用するさまざまな方法と、それを最大限に活用する方法についての具体的なウォークスルーをカバーしています。Claude Co-workエージェントに何百ものファイルへのアクセスを与え、深い分析、パターン認識を実行させ、バックグラウンドで自律的なタスクを実行させる方法を理解できます。すべて監視する必要がありません。

Claude Co-workからスプレッドシート、プレゼンテーション、レポートなど、単なるチャット応答ではなく、実際の成果物を得ることができます。個人的には、バックグラウンド処理と実際のファイル作成に関するセクションが特に役立つと感じました。なぜなら、バックグラウンド処理は2026年のAIエージェントがどのように見えるかを示しているからです。

この電子書籍はHubSpotによって作られました。彼らはそれを無料で提供しています。HubSpotに改めて感謝します。彼らは素晴らしいパートナーです。ですから、この電子書籍をダウンロードしてください。素晴らしいリソースです。さらに、彼らは素晴らしいスポンサーです。チャンネルを支援してくれます。では、ビデオに戻りましょう。

ハーネスエンジニアリングの自動化

論文の著者たちは問いました。ハーネスエンジニアリングは自動化できるのか、と。そして、できることが判明しました。これを見てください。

自然な出発点は、テキスト最適化に関する最近の研究です。出発点と言うとき、彼らが意味するのは、ある種の狭いユースケースのために作られたハーネスで実験する方法です。そしてこれがテキスト最適化です。

ハーネスエンジニアリングもまた、以前の試みからのフィードバックを使用して、テキストとコードの成果物を反復的に改善することを含みます。実際のハーネス自体がその学習パターンを実行していますが、ハーネスはそれ自体を行っていないのです。意味がわかるでしょうか。続けましょう。

これらの方法はハーネスエンジニアリングにあまり適していません。なぜなら、通常は短い期間で動作するか、大幅に圧縮されたフィードバックで動作するからです。一部は現在の候補のみに条件付けされます。他は主にスカラースコアに依存します。つまり、0から1のスコアのようなものを考えてください。

しかし、0から1のスコアは、彼らがここで説明していることには本当に良くありません。実際にはうまくいきません。問題は、ハーネスが信じられないほど複雑だということです。それらには多くの異なる要因、多くの異なる成功シグナルが含まれており、それらすべてを0.8のような単一のスコアに煮詰めると、そのスコアに基づいてどのように改善するか、またはハーネスのどの部分を改善すべきかを理解することが非常に難しくなります。

ハーネスは長い期間にわたって動作します。何を保存するか、いつそれを取得するか、またはどのように提示するかについての単一の選択が、多くの推論ステップ後の動作に影響を与える可能性があります。

圧縮されたフィードバック、つまり、何が起こったかを把握し、モデルを使用してそれを要約し、その要約を試みている実験ループに供給することを意味します。実際にはうまくいきません。

圧縮されたフィードバックは、タスク全体にわたって初期のハーネスの決定に下流の失敗を追跡するために必要な情報を削除することがよくあります。いくつかの代表的なテキストオプティマイザーによって研究されています。最適化ステップあたりの利用可能なコンテキストは、わずか100から3万トークンの範囲です。

基本的に、彼らはハーネスに含まれるすべてのもの、数百万、数百万、数百万のトークンになる可能性のあるものを、何が起こったかを把握するために数万のトークンに煮詰めようとしています。明らかに、そうすることで多くの品質を失います。多くのシグナルを失います。だから、それは良いアプローチではありません。

適応的なコンテキストアクセスの重要性

そしてここに重要な概念があります。この論文で何度か取り上げます。検索とメモリ拡張言語モデルに関する研究、つまり私たちはこの大量のメモリ、大量のデータを持っています。モデルに何を与えるべきでしょうか。それがすべての意味です。

有用なコンテキストは、単一のプロンプトに一体的にパックするのではなく、適応的にアクセスされるべきであることを示唆しています。そしてそれにはいくつかの理由があります。しかしまず、それはどういう意味でしょうか。

それは、モデルに必要なものを決めさせるということです。モデルが何を必要としているかを把握しようとしないでください。すべてを単一のプロンプトに前もって詰め込んでモデルに与えようとしないでください。ただ「ねえ、これが利用可能なものです。あなたが選んでください」と言うのです。そして、多くの場合、それが正しいアプローチのようです。

メタハーネスの動作メカニズム

さて、メタハーネスは実際にどのように機能するのでしょうか。それにはプロポーザーがあり、それはコーディングエージェント、つまり開発者ツールを呼び出してコードを変更できる言語モデルベースのシステムです。基本的には、モデルの周りのハーネスです。

生のLLMではなくコーディングエージェントを使用するという選択は意図的であり、非常に理にかなっています。お見せしましょう。

生のLLMではなくコーディングエージェントを選択することが重要です。なぜなら、経験の量がすぐにコンテキスト制限を超えるからです。つまり、ハーネスを書くために必要なすべてのコードのことです。先ほど申し上げたように、それをすべてコンテキストウィンドウに収めることはできません。

モデルと、モデルの周りのハーネスに、実験の一部としてハーネスのどの部分を読んで理解するかを選択する能力を与える必要があります。プロポーザーは、何を検査し、コードベースとの直接的な対話を通じて編集を検証するかを決定する必要があります。

これは、今エージェント的なコーディングを行っている方であれば、非常に似ています。おそらく、私が今話していることをどのように視覚化するかに精通しているでしょう。たとえば、これはCursorです。

私は「コードの問題、ユーザーの混乱などについて、コードベース全体をレビューしてください」と言いました。そしてそれが行ったことは、コードベース全体を読んだのですが、一度にすべてではありませんでした。コードベースの異なるファイルを見ました。異なるメソッドを見て、どこでより多くの情報を集めるべきかを決定しました。そしてそれがここで見ているものです。

そしてそれはまさに、メタハーネスのコーディングエージェント、プロポーザーがやっていることです。

履歴管理とファイルシステムアクセス

そして今、すべてのハーネスの完全な履歴を取得します。これを想像してください。ハーネスがあり、それをテストし、それに変更を加え、それから再びテストします。そして今、ハーネスの2つのバージョンがあります。そして今、それを10回異なる方法で行うと想像してください。

そして、すべてのハーネスが100万トークンで、それを10回行うと、1000万トークンについて推論する必要があります。これは現在のLLMコンテキストウィンドウに基づいて不可能です。

代わりに、すべてを与え、何が必要かを見て見つける方法を知るツールを与えます。そしてそれはまさにそのように機能します。以前の候補ハーネスについて、ファイルシステムはソースコード評価スコアと実行トレースを保存しており、プロポーザーは単一のプロンプトとしてそれらを取り込むのではなく、grepやcatなどの標準操作を介してそれらを取得します。

したがって、名前が示すように非常にメタです。そこで彼らは多くのテストを実行しました。メタハーネスをテキスト分類で評価します。検索拡張数学推論で素晴らしい結果を出しました。これについては後で説明します。そしてターミナルベンチ2で、これらのハーネスがターミナルをどのように操作するかをテストするベンチマークです。

関連研究と先行技術

しかし、メタハーネスは何もないところから出てきたわけではありません。彼らは現在AI業界で浮かんでいる多くのアイデアと概念の上に構築しました。それらを指摘しましょう。こちらが関連研究です。

まず、外部メモリと適応的アクセス、検索拡張生成、交互の検索と推論です。メモリベースのエージェントまたは再帰的言語モデルは、外部コンテキストへの適応的アクセスのメカニズムであり、彼らはメタハーネスでこれらの概念の多くを活用しました。

実行可能コード検索。メタハーネスは、プロンプト構築、検索、タスク間でリセットされる状態更新戦略を含む、ドメイン固有のハーネスを検索します。外側のループは意図的に最小限です。これは本当に好きです。最小限は良いことです。

固定された足場、以前の発見のアーカイブ、または永続的なメモリメカニズムに依存する代わりに、プロポーザーに以前の経験への無制限のファイルシステムアクセスを与えます。繰り返しますが、モデルに必要なものを選ばせるのです。

また、それ自体を改善する他のシステムからインスピレーションを得ています。指摘したいものの1つは、Googleによるアルファエボルブです。これはGoogleの独自のシステムアーキテクチャを最適化する方法を考え出し、実際に行列乗算を行うより速い方法を考え出しました。これは約50年ぶりに私たちがより速い方法を考え出した初めてのことでした。

したがって、この自己改善ループは非常に強力です。

実装の詳細

では、実際にどのように機能するのでしょうか。高レベルでは、新しいハーネスを繰り返し提案、評価、ログ記録します。カルパシーのauto researchがGPT-2モデルを構築するより速い方法を見つけようとした方法と非常に似ています。

目標はシンプルです。基礎となるモデルがターゲットタスク分布で最高のパフォーマンスを発揮するハーネスを見つけることです。

こちらがループです。メタハーネスは、フィードバックチャネルとして機能する成長するファイルシステムにアクセスできる単一のコーディングエージェントプロポーザーを使用します。ここでのコーディングエージェントは、開発者ツールを呼び出してコードを変更できる言語ベースのモデルシステムです。

メタハーネスは、診断と提案をコーディングエージェント自体に委任します。どの以前の成果物を検査するか、どの失敗モードに対処するか、局所的な編集を行うか、より実質的な書き直しを行うかを決定します。

なぜ彼らはこれを行ったのでしょうか。なぜ彼らは別のハーネスにハーネス自体を改善する方法を見つけさせようとしているのでしょうか。それはとてもメタで、とても再帰的です。

そしてそれがまさに、コアモデルが良くなるにつれて、LLM自体、ハーネスが良くなるにつれて、メタハーネスが良くなるにつれて、これらの複数の層の自己改善、再帰的に自己改善するとはっきり言うべきですが、要因が互いに積み重なり、成功率と成功への速度が劇的に急速に増加する理由です。

各評価されたハーネスは、そのソースコード、スコア、実行トレースを含むディレクトリを提供します。それはプロンプト、ツール呼び出し、モデル出力、状態更新のようなものです。

プロポーザーは、以前のハーネスを自由に検査できます。最高のパフォーマンスのものだけを検査するように指示されるのではありません。低いパフォーマンスのものでさえ、どれでも検査できます。なぜなら、そうすることで局所的な最大値を避けることができるからです。そして新しいものを提案している間です。

したがって、固定された数の反復を与え、パレート最前線で最終的なテストセット評価を実行します。このシンプルさは意図的です。これを聞いてください。

そのようなヒューリスティックをハードコーディングするのではなく、診断と編集の決定をプロポーザーに任せることで、メタハーネスはコーディングエージェントがより能力を持つようになるにつれて自動的に改善できます。

改善のターゲットが改善者を改善でき、それが改善のターゲットを改善し返すことができるのです。そして今、メタハーネスはすべてを読みます。コード、プロンプト、ツール呼び出し、出力、ターミナル出力、すべてを見て、何を変更すべきかを決定しています。小さな変更をすべきでしょうか。大きな変更をすべきでしょうか。

そして、新しいハーネスを提出し、それからそのハーネスに対してテストし、時間をかけて継続的にそれを行います。

興味深いことに、私はOpus 4.6の大ファンで、この論文の著者たちもそのようです。実験では、プロポーザーとしてClaude CodeとOpus 4.6を選択しました。個人的には、Opus 4.6でCursorを使用していますが、私が知っている多くの人々はClaude Codeを使用しています。

実験結果:テキスト分類

先ほど述べたように、彼らは実行している3つの実験があります。1つはテキスト分類、1つは数学推論、1つはエージェント的なコーディングについてです。そして彼らは2つの異なるものと競合します。

1つは人間が設計した戦略です。つまり、人間が自分でハーネスを書いた場合、そこにカウントされます。そしてプログラム検索方法。これらの方法は、フィードバックと報酬シグナルを使用して候補ハーネスを検索しますが、小規模な設定とハーネスエンジニアリング向けに設計されています。基本的には、一種の自己改善コードですが、このレベルの自己改善コードを意図したものではありません。

では、いくつかの初期結果を見てみましょう。まず、オンラインテキスト分類ベンチマークがあります。そしてそれが意図することは、テキストを取り、まさにそれが聞こえる通りに分類することです。そしてそれは単にモデル、生のLLMだけが行うのではありません。それの周りのハーネスも行います。

ゼロショットがあります。つまり、文字通りテキストをLLMに入れて、どのように分類しますかと尋ねることを意味します。ゼロのコンテキストを取り、まあまあやります。

USPTOについて、これは特許商標庁だと思いますが、12を取得します。症状から病気、これは医療テキストベンチマークで、63.2があります。それでも本当に良いです。そして法律ベンチマーク、7で、他の結果と比較すると非常に悪いです。

8つの例を持つフューショット、32の例を持つフューショット、そしてすべての例を持つフューショットがあります。そして時間とともに少し良くなるのが見えます。より多くの例を与えるほど、より良く行います。私たちは皆これを知っていました。これは初期のプロンプトエンジニアリングの学習です。

次に、MCEとACEと比較します。これは基本的にプロンプトエンジニアリングの次の進化のようなものです。MCEはメタコンテキストエンジニアリングで、モデルがタスクを支援するための自然言語スキルのライブラリを構築およびキュレーションできるようにします。

そしてACC、これはエージェント的コンテキストエンジニアリングで、基本的にモデルが時間とともに学んだことを振り返ることができるようにします。

USPTOについては、実際にACEが最も良い結果を出しましたが、ここの下のメタハーネスも14でかなり良い結果を出しました。S2Dについては、メタハーネスが本当に良い結果を出し、MCEの2位を4ポイント上回りました。

そして法律については、それは絶対的に支配しました。最高スコアはフューショットとACCで29、メタハーネスは45で入りました。大規模な大規模な改善です。そして平均全体では、それが最高です。48を記録しました。2位はACEで40.9です。

より良かっただけでなく、はるかに少ないトークンも使用しました。これを見てください。これはコンテキスト使用量です。ゼロショット、フューショット、フューショット、ずっと上まで。ACEとMCEは28.5と50.8のコンテキストです。メタハーネスは11.4です。

したがって、はるかに安価で、ほとんどの場合、同じくらい良いか、より良いのです。メタハーネスは、最高の以前のテキストオプティマイザーと一致します。オープンエボルブTTTディスカバーは10倍少ない完全評価で、その最終精度は彼らのものを10ポイント以上上回ります。

これらは、テキスト分類用に構築された文字通りのオプティマイザーであり、それでもそれを打ち負かしました。そしてメタハーネスについて良いことは、先入観なしで入ることです。ただ「OK、テストを始めて、何が機能するか見てみましょう」と言うだけです。

人間は実験をキュレーションしたり、将来の実験で何を変更するかを決定したりする必要がありません。すべて自動化されています。したがって、それは本当に、どれだけのトークンをそれに投入できるか、そしてそれらのトークンがどれだけ速いかによって制限されているだけです。

汎化性能の検証

もう1つ見てみましょう。これは非常に興味深いからです。他の最高クラスのハーネス、このタスクの最先端のハーネスに対するメタハーネスの中央値スコアは、39.1と比較して50を取得します。

他のすべてのものの最高スコアは45.6です。メタハーネスの中央値スコアは、他のすべてからの最高スコアよりも高いです。そしてもちろん、メタハーネスの最高スコアは56.7です。

これがただの運ではないことがわかります。メタハーネス、auto research、自己改善の方法が最高です。

それから彼らは考えました。過剰適合していますか。このタスクだけに非常に優れたハーネスを作成していて、おそらく他のほとんどのタスクにはあまり優れていないのではないでしょうか。

まあ、そうではないことが判明しました。彼らは実際に、これらの3つのタスクに基づいて構築したハーネスを取り、ハーネスが見たことがない他の9つのデータセットに一般化しました。そして、多くの場合、それは勝ちました。

そして平均では、それは3ポイント差で最高スコアでした。73.1対ACEでの2番目に高いスコア70.2。そしてそれは比較的安価でした。フューショットよりは確かに高価でしたが、ACEより安価でした。

数学推論への応用

それから彼らは考えました。これを数学的推論に適用したらどうなるでしょうか。メタハーネスを国際数学オリンピック、IMOに対抗させたらどうなるでしょうか。

それは昨年半ばのことです。すべてのフロンティアラボがIMOで競争していて、その周りに大量のハーネスを持つ彼らのモデルがその競争で信じられないほど良いパフォーマンスを発揮できることを示していました。それは数学のフロンティアであり、競争として与えられる最も難しい数学の問題です。

そして彼らが見つけたものは次のとおりです。発見されたメタハーネス検索戦略は、5つすべての保留されたモデルにわたってこれらのIMOレベルの問題での推論を改善し、検索なしと比較して平均4.7ポイントの利益をもたらします。

しかし、それはどうしても意味をなすのでしょうか。過去のメモリや過去のコンテキストを取得することが、新しい数学問題でなぜ役立つのでしょうか。まあ、彼らは説明します。

原則として検索が数学的推論を助けることを期待する十分な理由があります。なぜなら、解決策は再利用可能な証明パターンを共有することが多いからです。それだけです。彼らは「まあ、最後のものに何が機能したのか。おそらく現在の問題にその証明の一部を使用できるかもしれない」と言いました。非常に興味深いです。

ターミナルベンチマークでの成果

最後にそして私のお気に入り、ターミナルベンチです。これは、ターミナルを介して行われる長い期間の困難なタスクにわたってターミナルと対話するモデルまたはハーネスの能力をテストするベンチマークです。

ターミナルベンチ2は、複雑な依存関係と実質的なドメイン知識の下で、長い期間の完全に自律的な実行を必要とする89の挑戦的なタスクでLLMエージェントを評価します。

彼らはこのベンチマークを発見問題として使用します。目標は、ハードで公的に争われているベンチマークでパフォーマンスを向上させるハーネス構成を発見することです。

これらすべてを見てください。おそらくそのいくつかを聞いたことがあるでしょう。もちろんClaude Code。そしてDroid、私のお気に入りの1つ。では、結果は何でしょうか。

Claude Opus 4.6とClaude Haiku 4.5があります。これらは彼らがテストした2つのコアベースモデルです。そしてこれはターミナルベンチベンチマークに対するものであることを覚えておいてください。

Opus 4.6でのメタハーネス。これは今日市場に出ているフロンティアモデルです。76.4を記録し、Forge Codeを除いて手書きされた他のすべてのベンチマークよりも高いです。

メタハーネスは実際には全く書かれていなかったことを覚えておいてください。それはただメタハーネスフレームワークから進化しただけです。Haiku 4.5については、それはそれらすべてより良い結果を出しました。37.6対2位のGoose 35.5です。

したがって、モデルに独自のハーネスを構築する方法を見つけ出させるだけが方法のようです。

ビターレッスンとの関連

そしてこれはすべて、ビターレッスンと呼ばれるものに結びついているようです。直接的な類推ではないことは知っていますが、私には近く感じられます。ビターレッスンは、人間による手書きのヒューリスティック、基本的に人間が記述したパターンが、エンドツーエンドのニューラルネットワークに決して勝てないことを示しています。AI自体がその場でそれらのヒューリスティックを学習します。

ビターレッスンの最も顕著な例は、Teslaの完全自動運転です。長い間、それはニューラルネットとハンドライティングコードの組み合わせを使用していました。停止標識を見たら、絶対に停止しなければなりません。

しかし、ニューラルネットがどんどん大きくなるにつれて、彼らが発見したこと、そしてある日それをすべてエンドツーエンドのニューラルネットに交換したことは、それらのニューラルネットがそれらのヒューリスティックを自分で見つけ出すということです。そしてそれは常に最良の方法です。

AIが何をすべきかを見つけ出すことは、常に人間がそれに何をすべきかを伝えることよりも優れています。それを覚えておいてください。それは今後数年間で私たちの生活に何度も現れるでしょう。

未来への展望

そして今、ハーネスは人間によって書かれています。しかし、そうすべきでしょうか。明らかに違います。もしあなたがコードを書いているなら、自分で自動化を書いているなら、これを外挿して、すべてのコードが自己改善すべきだと言えないでしょうか。すべてのコードには独自のメタハーネスが必要です。

なぜだめなのでしょうか。私たちはすでに多くの例を見てきました。Shopifyの創設者が、何年も触られていなかったコードライブラリを大幅に改善するのを見ました。そしてカルパシーのauto researchにそれを反復させ、それを改善する方法を見つけ出させるだけです。そしてそれは、AIにそれを書かせ、書き直させ、書き直させるだけで、大きな利益を得ました。

したがって、将来のトークン使用量の多くは、トークンを燃やして、これらの問題についてできる限り反復することから来るでしょう。

私はこの論文が絶対に魅力的であると感じましたし、自己進化するソフトウェア、自己改善するソフトウェアが、今後数年間で人工知能において大きな存在になると本当に思います。

私たちはすでにそれを見ています。フロンティアラボが以前のモデルによって訓練されたモデルを出し始めているのを見始めています。そして、以前のハーネスによって構築されるハーネスを見始めるでしょう。そして、すべてのソフトウェアが以前のソフトウェアによって構築されるのを見るでしょう。

そしてそれを見るのはとても素晴らしいです。それはとても魅力的で、時には追いつくのが難しいです。しかし、もしあなたが私をここでフォローしてくれるなら、私はできる限り最善を尽くして追いつくのを手伝います。

もしこのビデオを楽しんでいただけたなら、ぜひいいねをして購読をご検討ください。

コメント

タイトルとURLをコピーしました