Codexで独自のエージェントループを構築する方法

本動画では、OpenClawやClaudeCodeのような高度なエージェントループを自作する方法を解説している。一見複雑に思えるエージェントハーネスだが、実際には初心者でも構築可能な「AIエージェントのHello World」レベルのシンプルな仕組みである。講師は、UI、モデル、ハーネス、環境という4つの基本コンポーネントを説明し、NanoCodeという250行のシンプルなPythonハーネスを参考に、GPT-5.3 CodexとRustを使って実際にデスクトップアプリケーションを構築していく。重要なのは、年内にはAIモデル自身がリアルタイムでハーネスを自己構築できるようになるという展望である。技術的なスキルよりも、コミュニティ、コンテキスト、データといった「モート(堀)」の構築が競争優位性を生み出すと強調し、従来の起業家的思考から資本配分者的思考へのパラダイムシフトを提唱している。

How to Build Your Own Agent Loop with Codex

How to Build Your Own Agent Loop with Codex me on X: ht...

エージェントハーネス構築の基礎
なぜOpenClawやMac Miniについて語らないのか
エージェントハーネスの4つの構成要素
実際のハーネス構築プロセス
結論

エージェントハーネス構築の基礎

やあ、みなさん!ニールです。チャンネルへようこそ。今回の動画では、OpenClawやClaudeCode、Codexのような独自のエージェントループ、つまりエージェントハーネスの構築方法をお見せしたいと思います。

特にAI分野に不慣れな方にとっては、かなり難しそうに聞こえるかもしれませんね。ClaudeCodeを使っているときなんかは、「うわあ、これは不可能なほど複雑だ。自分には構築できるわけがない」って思うでしょう。でも実際には、かなり簡単なんです。専門家である必要は全くありませんし、エンジニアである必要もありません。いわばAIエージェントの「Hello World」のようなものです。構築するのは全然難しくありません。

この動画では、正確にどうやってこれを構築できるか、段階を追ってお見せしたいと思います。実際、今年の終わりまでには、これらのモデルが自分自身のハーネスを自動構築するようになるとさえ言えるでしょう。

例えば、ビジネスで問題があって「ねえClaude、この問題を解決して」と言ったとします。するとモデルは問題を分析し、環境を分析して、「ああ、この問題を解決するためのツールがないな」と言います。そしてリアルタイムでジャストインタイムにツールを構築し、問題を解決するんです。そして戻ってきて、必要に応じてそれらのツールを破棄し、「完了しました。問題は解決しました。独自の足場、独自のエージェントハーネスを構築して解決し、戻ってきました」と言うわけです。

つまり、これらのハーネスはリアルタイムで自動構築されるようになるんです。

なぜOpenClawやMac Miniについて語らないのか

多くの人から「ニール、どうしてOpenClawについて話さないの? Mac Miniについては? Mac Miniを買わないの?」と質問されてきました。それはこういう理由なんです。これらのハーネスは今年の終わりまでに非常に速く汎用化されると思うんです。何十万ものエージェントハーネスが登場するでしょう。

しかもそれは、人々が構築して出荷するというレベルですらありません。それも確実に起こるでしょうが、非常に近い将来、これらのモデルに話しかけるだけで、ハーネスが裏側で動作し、あなたはそれに気づきさえしないでしょう。

そしてそれは実質的に、GPT-5.3 CodexやOpus 4.6ですでに実現しています。これらのモデルで、自分自身のエージェントハーネスを構築し、そのモデルを使って自身のハーネスを分析させ、構築を続けさせるような、いわばインセプション的なことを試したことがあれば分かるでしょう。構成要素、つまり還元不可能なハーネスが配置されていれば、他のことができるようになり、モデルは即座に独自のハーネスを構築できるんです。既にその能力があるんです。

ですから、完全に自律的なエージェントが即座にハーネスを構築できるようになるまで、あと数ヶ月、最大で1年しかかからないでしょう。これは多くの人が考慮していないことだと思います。

だからこそ私はいつも説いているんです。特定のコツやトリック、特定のツールを学ぶことで先を行けるわけではない、と。先を行くには「モート(堀)」を構築することです。モートとは何か? モートとはコミュニティのようなものです。自分の製品などの周りにコミュニティを構築しているなら、それは持続するモートになります。

人間の集合を自動化することは決してできません。他にモートとは何か? コンテキストです。構築した特定の製品に関する本当に良い構造化されたコンテキストがあり、それが顧客にとって非常にシームレスに機能していて、エージェントが作業を行うハイレベルなサービスがあり、単なる任意のソフトウェア製品ではないなら、それは少しモートを持っていると言えます。

それでもまだあまり良いモートではありません。その上にデータとコミュニティがあれば、そこにモートが生まれます。つまりモートはコンテキスト、データ、コミュニティへのアクセスから来るのであって、単なるエージェントハーネスからではないんです。エージェントハーネスは素晴らしいです。使ってください。個人的には私はMac Miniは買いませんし、OpenClawも全く使っていません。人々から聞かれたので、それが私の率直な意見です。

エージェントハーネスの4つの構成要素

さて、動画に入っていきましょう。まず、構成要素を簡単にお見せしたいと思います。エージェントハーネスとは何か? 非常にシンプルです。4つのコンポーネントがあり、これが最もシンプルな形です。

まずUI、つまりユーザーインターフェースがあります。これはAIエージェントを使用するときに見るものです。次にモデル、つまり頭脳があります。これはあなたが話しかける対象です。ChatGPTやClaudeのようなものです。ユーザーインターフェースとモデルについてはよくご存知でしょう。少なくともモデルが何かはご理解いただけると思います。

少し難解になる部分は、まだ比較的新しいため、ハーネスです。ハーネスが何をするかというと、こう考えてほしいんです。あなたの脳は、ハーネスとして五感を持っています。五感と、腕や脚のような身体の末端部分も持っています。それが事実上、あなたの脳のエージェントハーネスなんです。

あなたの脳は指をコントロールできます。身体をコントロールできます。物を見ることができます。音を聞くことができます。あなたはマルチモーダルです。実際、あなたこそがモデルなんです。事実上、あなたはモデルであり、エージェントハーネスを持っているんです。

このモデルもエージェントハーネスを持っています。このモデルには、環境と相互作用できる身体があります。そう考えてほしいんです。モデルのエージェントハーネスは、言語、情報、データの空間内にあります。

エージェントハーネスを構築する際にやりたいことは、自分がAIモデルだと想像することです。LLMだと想像してください。単語の空間で考えるんです。やりたいことは、基本的にモデルの立場に立って考えることです。そうすれば、モデルがオペレーティングシステム全体を操作するために、エージェントハーネスがどうあるべきかが非常に明確になります。

コードを読んだり、ディレクトリ内のものをリストアップしたり、コードを書いたり、それらをループで実行したりできるさまざまなツールが必要です。そうすれば、時間をかけて継続的に実行できます。そこからすべてがMDファイルになります。MDファイルとは何か? 基本的にはテキストです。モデルがプロンプトやコンテキストとして使用するテキストファイルです。

プロンプトとコンテキスト、そしてツールがあれば、ハーネスができます。エージェントループに到達するには、すぐにお見せする別のことをします。そして環境があります。あなたは宇宙で活動しています。モデルはコンピューター内で活動しています。コンピューターはこのmacOS環境です。多くの人が使用しているものです。

でも本質的にはこれだけなんです。環境内で活動する身体を持ったモデルです。あなたと同じように、環境内で活動するハーネスを持ったモデルです。それほど違いはありません。唯一の違いは問題空間です。あなたは物理的な宇宙で活動しています。モデルはコンピューター上で活動しています。

そう考えるべきです。非常にシンプルです。4つのコンポーネント。では、実際に構築していきましょう。

実際のハーネス構築プロセス

さて、AからZまで、どうやってこれを行うか説明したいと思います。これは非常にシンプルなステップバイステップになります。すでに上級者の方は、全部見る必要はないかもしれません。必要な部分だけスキップして見てください。

でも実際、最終的に構築するのはこのような製品です。これは私が構築したデスクトップアプリです。エージェントハーネスがあります。「ルートディレクトリのファイルをリストアップできる?」と聞くと、いくつかのツールを呼び出してファイルのリストアップを始めます。

ほら、ツールを呼び出しましたね。リストを実行してファイルをリストアップしました。非常にシンプルです。非常にシンプルなハーネスですが、これが基本的に構築するものです。超シンプルなものなので、基本を学んで、そこから好きなだけ発展させることができます。基本を理解して学べば、本当にできるんです。

別のAIモデルと対話して、ツールを入れ替えるだけで、好きなエージェントハーネスを構築できます。私は通常、Codexを使って構築します。GPT-5.3 Codexを超高推論モードで使います。個人的には、超高推論モード未満は絶対に使わないようにしています。

これが私のワークフローです。これを使ってこのようなハーネスを構築します。では、始めましょう。

私が通常やるのは、スタート地点から始めることです。GitHub上にはオープンソースのハーネスが無数にあります。私が好きなのはこのNanoCodeです。これは本当に良い、還元不可能なハーネスです。非常にシンプルです。文字通り250行のコードです。非常に小さく、非常に還元不可能で、非常にシンプルです。だからNanoCodeと呼ばれているんです。

でも、このように始めるのが好きな理由は、バイブコーディング、つまりエージェントエンジニアリングの秘密はコンテキストだからです。十分なコンテキストがあれば、文字通り何でも構築できます。

次にやることは、基本的にこれをコピーして、Codexにここに貼り付けます。そして、このPythonハーネスをRustのような別のものに適応させて、私たちのコンピューター上で動作できるようにします。正直言って、これらの初期設定をすべて正しく設定すれば、基本的にワンショットでこれを実現できると思います。

やってみましょう。このリポジトリを分析して、私たちのディレクトリ内のreferencesフォルダにクローンして、慣れ親しんでください。非常にシンプルです。250行のコードです。了解しました。

今、私が本質的にやっているのは、ハーネスのコンテキストを構築することです。これがどう機能するかのメンタルモデルができれば、それを私たちの望む形に適応させることができます。好きなように変更を始められます。そして、異なるツールを追加したり、異なるものを入れたりできます。ウェブを検索できるようにしたり、異なるMCPサーバーを呼び出したり、異なるスキルを使用したりできます。

コンピューターを操作したり、コンピューター使用を使ったり、ブラウザを操作したりできます。すべて、文字通りすべてです。これを使って編集できます。事実上、オペレーティングシステム全体を、私たちが構築しようとしているこのようなハーネスで実行できます。そして、先ほど言ったように、そこから適応させることができます。

私はGPT-5.3 Codexに、そのリポジトリをreferencesという別のフォルダにクローンさせました。そして今、メンタルモデルを構築させることができます。もう少しできています。bashコマンド、writeコマンド、editコマンドがあります。これらは事実上ツールです。実際のツールはこちらです。

read、write、edit、glob、grep、bash。これらがこのハーネスが持つツールです。適切なエージェントループを持つために必要なのは、文字通りこれだけです。これ以上のツールは必要ありません。

では、構築したい製品の最終状態を説明したいと思います。Rustで構築します。なぜなら、私たちのコンピューターとインターフェースできる、高速でキビキビしたデスクトップアプリケーションが欲しいからです。

素晴らしい。これが何で、何をするのか、メンタルモデルはできましたか? もしそうなら、大きく一歩下がって、還元不可能なコンポーネントについて考えて、これをデスクトップ上のRustコーディングハーネスにどう適応できるか計画しましょう。

ローカルデスクトップで動作し、ターミナルで動作します。同じツール実行をエージェントループで使用して、Rustでこれの適応バージョンを効果的に持ちたいんです。まだ何も変更しないでください。計画するだけです。

非常にシンプルなアプリが欲しいです。入力ボックスがある一枚岩の画面で、ChatGPTを使って自分のコンピューター上でコードを実行できるようにします。おそらくファイルエクスプローラー部分も必要でしょう。特定のプロジェクトを選択できるように。大きく一歩下がって、これを計画しましょう。

とてもシンプルです。ディクテーションボタンをクリックして話すだけです。タイピングは好きじゃないんです。怠け者なのかもしれません。いや、でも本当に、話している方が実効的なビットレートがタイピングよりもずっと速いんです。少なくとも私の場合は。継続的なストリームのように、非常にシームレスに出力できます。

とても速いです。AIの大きな点の一つは、ここで哲学的な議論全体に入ることもできますが、機械と融合しているとか、でも本当に、人間が技術に適応するのではなく、技術が人間に適応し始める技術があるとどうなるか。それがAIがすることです。あなたがAIに適応するよりも、AIがあなたに適応します。

異なる、より良いレイテンシーインターフェースでこれらの機械と通信する能力が得られるようになります。肉のピストンを使ってキーボードでタイピングする代わりに、話すだけで、ビットレートがずっと良くなります。

メンタルモデルは明確です。正直に言うと、このアプリは設計上リモートコード実行であり、厳格なガードレールがなければ、最終的に危険なコマンドを実行したり、秘密を漏らしたりします。

ワンショット可能な計画を立ててください。非常に深く考えて、このアプリ全体をワンショットで実行して構築できる計画を立ててください。それができますか? もしそうなら、計画してください。

これは実現可能だと言っています。ここに、ストリーム中に再設計することなく、最初から最後まで構築可能なワンショット計画があります。実装チェックリストに変換します。やりましょう。

繰り返しますが、ここで私たちが主にやろうとしているのは、還元不可能なハーネスをセットアップすることです。ハーネスと動作するエージェントループができれば、はるかに簡単に変更できます。私がやろうとしているのは、あなたにとっての参入障壁を下げることです。

NanoCodeからのコンテキストなしに、絶対的なゼロから何かを構築するのははるかに難しいですよね? でもNanoCodeからのコンテキストがあるときは、AIシステムとそれを共有すれば、はるかに簡単に物事を構築できます。なぜなら、目標とその機能のコンテキストがあるからです。

エージェントエンジニアリングは、すべてコンテキストの提供についてです。それがすべてです。そして非常に近いうちに、実際にはGPT-5.3 Codexのような超強力なモデルですでに実現していますが、十分なコンテキストがあれば、文字通り何でもエージェントエンジニアリングできます。

つまり、もう言い訳はないというのが最初の観察です。でも本当に、私たちは技術的スキルの価値が恣意的になる世界に入っています。技術があなたに適応するので、誰もが技術的になります。あなたが技術に適応するのではありません。

そして、繰り返しになりますが、今何がモートを作るのかに戻ります。何が製品を価値あるものにするのか? 何かを粘着性のあるものにするのは何か? 技術的なものではありません。つまり、物理的な世界では、ロケットを作るような技術的な偉業はまだあります。

でも、ソフトウェアの世界では、本当に技術的である必要はありません。もちろん、他の人の時間がこれらのツールの構築に割り当てられることには、まだメリットがあります。そして今、あなたはそのサービス、つまり他の人の時間がこれらのシステムを構築することを購入できます。それはまだ価値があります。

でも、単なる技術的能力を超える必要があります。今、技術的能力はもはや存在しないようなものです。今は、どうすればCTOとCMOのハイブリッド、フラクショナルCMOとフラクショナルCTOのハイブリッドとして自分をポジショニングできるかということです。

この技術をどう使えるか、ビジネスに行って、事実上そのビジネスのパートナーになり、レベニューシェアモデルを持ち、彼らの負担の80%を食べることができるか。彼らはハイレベルな意思決定を行い、あなたは事実上、数十または数百のAI従業員を構築する方法を知っている彼らのパートナーです。私たちは実質的にそこにいます。

それが今、私たちが向かっている世界です。世界は非常に速く変化するでしょう。そして、あなたの考え方は少し違うべきです。より多くの複雑さを食べ、通常焦点を当てるであろうものとは異なるタイプのモートに焦点を当てる。

まだ古いやり方で構築している人がたくさんいます。第一原理からゲームを再発明しなければなりません。古いやり方はもう終わっています。何が価値を生み出すのかの構成要素を見て、そこから積み上げなければなりません。

以前の動画でそれをやっているので、チェックすることをお勧めします。エージェントが完了しました。最初から最後まで構築されたと言っています。Rustデスクトップハーネスが実装され、実行可能になりました。もちろん、OpenAIキーを提供する必要があります。

これがアプリです。かなり醜いです。動作するか見てみましょう。プロジェクトを選択する必要があります。プロジェクトを開きます。少しインセプションアクションをやりましょう。現在、このreplicatorプロジェクト内にいます。

そこにハーネスを構築したばかりです。ここにファイルが表示されているのがわかります。かなりクールです。でもここにハーネスを構築したばかりです。これがreplicatorです。少しインセプションアクションが進行中です。

Replicatorデスクトップアプリ。試してみましょう。ディレクトリを見ていますか? システムエラーが送信されます。HTTPステータスが云々。これをコピーペーストします。チャットに入れます。パウ。

ここを見てみましょう。ファイルが開きました。「こんにちは」と言ってみましょう。モデルが今応答しているか見てみましょう。こんにちはアシスタント。こんにちは。Rustプロジェクトで何に取り組みたいですか? ファイルが見えますか? リストアップしてください。

非常にひどいUIです。ツールコールをしています。承認します。見てください。ツールを呼び出しました。見てください。すべてのファイルをリストアップしました。最初のエージェントツールコールを取得しました。

では、少しインセプションアクションができるか見てみましょう。モデルに私たちのハーネスを通じて自分自身をコーディングさせることができるか見てみましょう。ハーネスが自分自身を改善します。自己改善AIです。正式にここにあります。

これは嫌いです。タイピングしたり話したりします。ファイルを深く分析して、すぐに理解できるか見てください。コピー。ペースト。もうタイピングしません。怠け者ですみません。タイピングを拒否します。何が起こっているんですか?

スクロールIDの最初の使用です。現在検索中です。すべてのファイルを読んでいます。なんてこった、たくさんのツールコールが本当に速く起こっています。ほら、これがエージェントAIの素晴らしいところです。

ありました。クイックディープパスをやりました。アーキテクチャを理解しています。ハイレベルです。これはRustデスクトップエージェントハーネスです。プロジェクトフォルダを選択させ、OpenAI応答APIにプロンプトを送信します。

美しい。このUIは嫌いです。見てください。どれだけ醜いか。たくさんの炎の絵文字があります。何が起こっているんですか? でも、かなり速く動作します。たくさんの異なるツールコールをしたのがわかります。これらすべての異なるツールを呼び出して、たくさんの異なるものを読みました。いいですね。

ただ、絶対的に醜いです。とにかく、自分自身についてかなり良いメンタルモデルを得ました。インセプションアクションをやります。これはあなた自身があなたを見ています。

ここに画像を入れられるとは思いません。おそらくできないでしょう。入力テキストボックスを見て、画像を受け入れられるように計画しましょう。UIを改善するためにスクリーンショットをドラッグアンドドロップできるように。

コピー。ペースト。送信。入力ボックスを見てください。実行中です。これはとても醜い。すみません。それが気になってしまって。動作します。非常に醜いです。

計画はこちらです。素晴らしいアイデアです。コンポーザーに画像添付を追加する計画です。やってください。続けてください。送信。

つまり、今私たちがやったことは、事実上、独自のエージェントコーディングハーネスをすでに構築したということです。もう完了しています。まだ動作しています。下にスクロールさせてください。たくさんのツールコール、たくさんのツールコールです。

実装されました。入力フローに画像添付を追加しました。ドラッグアンドドロップ。本当にやったんですか? 確信が持てません。たくさんのreadは見えますが、writeは見えません。bashコマンド、bashが完了しました。それだけですか? 多分。試してみましょう。そうは思いません。いいえ。

Codexに戻りましょう。writeツールが動作しているか確信が持てません。コードを編集させようとしましたが、コード編集が見えません。システムプロンプトをすぐに見られますか? 今、コーディングエージェントのシステムプロンプトをどう設定していますか? おそらく改良が必要です。見て、考えて、計画しましょう。

ほら、今ここでやっていることは、問題にアプローチして解決方法がわからない場合、誰かがおそらく以前に解決しているということです。だから私が通常やるのは、AIエージェントにインターネットに行って、おそらく以前に解決した人を探させることです。

ディープリサーチをして、実際のChatGPTウェブサイトに行くことができます。ディープリサーチを使って、あなたのものと似たものを構築した人を見つけます。あなたのものと似たプロジェクトを見つけます。

誰かがおそらくあなたが解決しようとしている問題と似た問題を解決しているというのが基本的に言っていることです。研究をしていて、新しいことを発見しているのでなければ。おそらくそうではないでしょう。研究をしているのでなければ、人々はあなたがやろうとしていることを正直に解決しています。

だから、文字通りウェブ検索を使うことができます。今ここでウェブ検索をしているように。GitHubを検索して、GitHubを見ています。私が解決しようとしている問題を解決するのに役立つループ検出サービスを探しています。

オープンソースコードから直接具体的な実装例を引き出しています。美しい。そして文字通り、私が言ったのは、ツールループは動作していますが、globループにはまっています。ご覧のとおり、globツールを何度も何度も呼び出し続けています。

リサーチをして、これを修正する方法を見つけられるかもしれないと言いました。そして何だと思いますか? まさにそれをやっているんです。かなり驚異的です。何もする必要さえありません。思考をアウトソースするだけで、それが未来の展開の仕方です。

思考をアウトソースすると言うつもりはありません。より高い抽象化層で考え、問題解決をアウトソースすると言いたいです。もちろん問題解決には思考が含まれますが、少なくともまだ、すべての思考をアウトソースしているわけではありません。いつかそうなるかもしれませんが、今のところ、あなたがすべき思考のタイプはチェスです。

市場でハイレベルなチェスをプレイすべきです。ベンチャーキャピタリストや本当に良い投資家のように。本当に良い投資家は、本当にただのチェスプレイヤーです。角を見ようとしています。予測しようとしています。市場と市場のダイナミクスの二次、三次の結果を理解しようとしています。

今、私たち全員が資本として知性と労働を持っているので、私たちは起業家ではありません。資本配分者です。それが今多くの人が行っていない精神的シフトです。最高の起業家は、資本配分者として起業にアプローチします。チェスのゲームをプレイします。哲学とメンタルフレームワークに非常に優れています。チャーリー・マンガーのように。

チャーリー・マンガーは投資家ですが、AIがあれば10倍良くなるでしょう。AIがあれば、起業家的投資家になるでしょう。なぜなら、彼が正しいと考える方向に賭けるだけで、AIシステムがそれを物理世界で実現するからです。それはゲームを起業家から投資家へと完全にひっくり返します。

従業員も同じです。従業員も投資家になっています。これらのツールに物事をさせるために投資しているんです。それが本当に未来のあり方です。チェス盤としてゲームにアプローチします。詳細に入る必要はありません。つまり、もちろんあるレベルではそうです。ウォーレン・バフェットとチャーリー・マンガーはコカ・コーラの詳細に入りました。貸借対照表を知っていました。

POに何が入っているか知っていました。これらすべての異なることを知っていました。あるレベルでは詳細に入っていました。ウォーレン・バフェットは、所有する会社にマーケティングの提案さえしました。「この心理学をこのように見たらどうか?」と言って、マーケティングの提案をして、それがうまくいきました。

あるレベルでは詳細に入っていましたが、結局のところ、資本配分者、投資家としてアプローチしていました。それが今誰もが向かっているパラダイムシフトです。今、私たちは高次元チェスをプレイしています。4Dチェスです。それが私たちが向かっているところです。

今誰もが好んでプレイしているどんなガラクタでもありません。ツールを学びましょう、スキルを構築しましょう、Claudeスキルを構築しましょう、OpenClawに行ってMac Miniを買いましょう、というのではありません。違います。違うゲームをプレイしてください。異なる抽象化層に行っています。それはまだ古いパラダイムです。