この動画は、Hermes Agentの導入方法と活用方法を、実際にAIエージェントで構築した重力井戸シミュレーション型ベンチマークを通じて解説する内容である。大規模言語モデルが英語の指示を受け取り、コードを書き、何度も反復して性能を改善していく様子を、仮想宇宙船を操縦するゲームとして可視化している。さらに、GPT-5.5、Claude Opus、Gemini、DeepSeek、Grokなどのモデル比較、VPS上でのHermes Agentのセットアップ、安全な運用方法、CodexやClaude Codeとの連携まで扱い、AIエージェントが単なる補助ツールではなく、長時間の実験や開発を自動化する実用的な存在になりつつあることを示す動画である。

Hermes Agentとは何か
この動画では、Hermes Agentについて話していきます。インストール方法、使い方、そしてHermes Agentと新しくリリースされたGPT-5.5の助けを借りて私が作ったものも見ていきます。
なぜHermesを使ったのかも説明します。厳密に言えば必須ではありません。ただ、いくつか詰まった場面で私を助けてくれました。
今見ているものは、かなり面白いものです。ここには4つの重力井戸、つまり太陽があります。これは4つの太陽で、この青い点は、私たちのAIモデルが飛ばさなければならない船です。
AIは直接的な命令を出すわけではありません。実際に、どう飛ばすかについてコードを書かなければなりません。重力の引力は本物です。燃料の量には制限があるので、方向スラスターを使って、機体が正しい方向へ飛び続けるようにしなければなりません。
運動量保存があります。衝突もあります。そして太陽に近づきすぎると、落ちてしまうことさえあります。
ゲームの目標は、この小さな円の中にできるだけ長く留まることです。ですので、ゲームを少し速くすると、この円が動き回っているのがわかります。予測不可能だとは言いたくありません。これには非常に明確な移動パターンがあります。
しばらく見ていれば、もしかするとそれを見抜けるかもしれません。つまりランダムではありません。ただし、それがどんなパターンに従っているのかを理解するには、何回か反復実行してみる必要があるかもしれません。
このシミュレーション全体、Grav、あるいはGravity Wellは、すべてAIの大規模言語モデルによって作られました。ウェブサイト、すべての機能、何もかも、全部です。船を飛ばすために書かれたスクリプトも、すべて大規模言語モデルによって書かれています。
ですので、私が実際にやった作業は、方向付けをしてガイダンスを与えることくらいでした。
お気づきかもしれませんが、船がこの円の中に留まる1ティック、つまり時間単位ごとに1点が加算され、最後にスコアが出ます。この場合は38点です。そしてこれは、実際にはかなり印象的なスコアです。
では、これらの大規模言語モデルはどうやって高得点を取るのでしょうか。一発勝負ではありません。実際には20回の反復を与えます。
ゲームの説明を英語で与えます。すべてがどう機能するのか、重力がどう働くのか、スラスターがどう働くのか、シミュレーション全体がどう動くのかを、基本的な英語で、いくつかの数学と関数を交えて説明します。ここに見えているのが、LLMへのプロンプト全体です。
モデルはスクリプトを生成します。そのスクリプトがここに入ります。これが実際に使うbotコードです。そしてこのbotコードが、基本的にその3隻の船を制御します。各船にはそれぞれ独自のロジックがあります。
たとえば、これはClaude Opus 4.5です。この最後の2回の反復は実行されていません。そこは無視してください。ここでのポイントは、低いスコア、46点から始まっていることです。しかし、時間をかけて多くの試行と反復を重ねることで、最終的に276点という高得点に到達しています。
時間をかけて学習していく賢いモデルとは、こういう姿をしています。
こちらはClaude Sonnet 4.6です。つまり中規模モデルです。これも学習していることがわかります。学習曲線はあります。ただ、ここで頭打ちになっていて、およそ78点くらいです。そこを突破できません。
最初の試行は、だいたいこんな感じになるかもしれません。太陽に突っ込んでしまったり、プレイフィールドの外へ飛んでいってしまったり、戻ってくるときの速度が高すぎたりして、ほとんどが最終的に墜落して燃え尽きます。
これはSonnet 4.5でした。スコアは1点です。そしてその1点は完全に偶然でした。
こちらはClaude Sonnet 4.5です。これが学習率です。学習していることに注目してください。まだ頭打ちにはなりますが、悪くありません。それでもかなりうまくやっています。少し学習曲線があります。
ここにリーダーボードがあります。そして私は、全員が互いに対戦するようなPVPの仕組みを少しずつ作り込んでいるところです。今のところはこんな感じです。ここには4つのチームがあります。Claudeの複数の反復と、ほかのいくつかのモデルがあります。
あれは船同士が衝突して起きた爆発です。なかなか刺激的です。
AIエージェントは、この全体を私のために作ってくれました。そして昨夜、私が眠りについたとき、これらのさまざまなモデルを順番に実行し始め、20回以上の反復でどれくらいうまく実行できるかをテストしてくれました。
午前2時17分ごろに始まって、そのままずっと続いているのがわかります。GPT-5.4をテストしています。5.5 Proと5.5もテストしました。Grok 420もテストしました。最近出たDeepSeek V4 Proもテストしました。Gemini 3.1 Pro Previewもテストしましたし、ほかにもたくさんあります。
AnthropicのモデルはAPI経由でテストしています。そして午前5時32分までに、すべてのテストが完了しました。
これこそAIエージェントがあなたのためにできることです。
いえ、仮想の重力井戸の周りで小さな仮想宇宙船を操縦することを言っているのではありません。ここに見えているもののことです。
AIを扱う人間として、新しいモデルが出るたびに私は知りたいのです。それは優れているのか、と。いつも大量のベンチマークがあります。その中には、何が含まれているかを私が正確に把握しているものもありますし、そうではないものもあります。
そして一部の企業が、ベンチマークで可能な限り高いスコアを取り、とても順調に見えるようにするため、ベンチマークに直接合わせてモデルを訓練していることも知っています。
私はずっと、自分自身で実行できる一連のテストやベンチマークを持ちたいと思っていました。それによって、本当にどれだけ賢いのかを見たいのです。
このベンチマークが問うのはシンプルな質問です。このモデルは英語の指示を受け取れるのか。そして、その指示に基づいてかなり具体的なコードを書けるのか。そして、そのコードを自分ができる限り良くなるまで反復し続けられるのか。
私はモデルに20回の試行を反復させ、可能な限り最高のスコアを目指させます。その後、作成されたプログラムを100種類の異なるシードで実行します。
それぞれのシードは、重力井戸、つまり太陽の位置を少し変えたものです。また、追従すべき実際の円の動きも少し変化させます。
今、私はこれと同じようなテストをあと6つほど開発中で、キューに入れています。この1つを完成させるのに約40時間かかりました。繰り返しますが、基本的には私がエージェントにプロンプトを入力しただけで、コードにはほとんどまったく触っていません。
手動で入れる必要があったのは、おそらく3行だけでした。それは機密情報だったからです。これを実行するために必要なAPIキーでした。それ以外は何も触っていません。
つまり、私とAIエージェントは日中にこれを作ります。そして夜になると、私はすべてのシミュレーションを実行し、全部テストするように指示します。
要するに、力仕事、地道な作業については、私はこう言うのです。これを朝5時までやっておいて。起きたら結果を教えて、と。
いくつかの実行時刻が午後10時で、いくつかは午前3時のようになっていることに注目してください。日中は協働的なAI作業のための時間です。そして夜は、自動化されたAIエージェントが黙々と作業し、翌日に備えるための時間です。
このようなものは私にとって非常に価値がありますが、同時に私はこれを公開し、自分のウェブサイトでホストすることも考えています。
そしてコードをオープンソース化することも考えています。ただ、誰かにこれに対して訓練されるのは避けたいです。それでも、似たものを作ったり、その上に何かを構築したりしたい人が使えるようにはしたいと思っています。
そして願わくば、単なる情報としてであれ、再利用できるコードとしてであれ、これがほかの誰かにとっても役に立つものになればと思っています。
私がこれの素晴らしさ、価値の大きさ、ゲームチェンジャーぶりをうまく伝えられているなら、ぜひお願いがあります。下にコメントを残して、これはすごい、ワクワクする、自分でも何か作りたくなった、のように書いてください。感じたことを何でも構いません。
そして、もしこれらのAIエージェントは役に立たないと思うなら、私が説得できていないなら、それも教えてください。興味があります。なぜなら、世の中にはまだ、AIは何かを作れない、本当に役に立つものではないと思っている人がいることを知っているからです。
私自身は、この2日間、AIエージェントがこれを作るのを見てきて、これから起きることにワクワクしています。
Hermes Agentのチュートリアルへ
さて、ここでの作業の大半は、新しくリリースされたGPT-5.5で行われました。ただし、Claudeと比べるとかなり低いスコアだったことに注目してください。
そして私は、もう一度実行し直したいと思っています。なぜなら、私たちはOpenAIのAPIキーを直接通していたわけではなく、OpenRouterを使っていたからです。ですので、同一条件での比較ができれば、このスコアはかなり高くなるのではないかという気がしています。
この動画は、Hermes Agentの使い方についての簡単なチュートリアルになります。私自身が実際にインストールして使った方法を、そのまま案内していきます。
Hermes Agentはオープンソースです。無料です。ただし、OpenAIのCodexやAnthropicのClaude、あるいはオープンソースのOpenClawを使うこともできます。OpenClawは、比較的初期のエージェント、あるいはClawと呼ばれるようになり始めたものの1つでした。
私のベンチマーク作業の大半はCodexを使って行いました。ただ、いくつかの特定のタスクでは、Hermes Agentを使うことで本当に助かりました。
Hermes Agentをインストールして準備が整うと、このように見えます。インストール時点で利用可能な特定のスキルが含まれていることに注目してください。
コミュニティからインストールできるほかのスキルもたくさんありますが、最初からClaude CodeとCodexが入っています。ですので、Claude CodeとCodexはローカルにインストールされていますか、と尋ねると、そのスキルを使って調べようとします。
すると、はい、見つかりました。使えます、と返してきます。私はこのマシン上の仮想プライベートサーバーに両方ともインストールしていたので、すでにわかっていました。
これが少し面白い理由は、Hermes Agentからその両方の環境を呼び出せるからです。基本的にはClaude CodeやCodexのインスタンスを起動し、それぞれが独立して自分のインスタンス内で作業できるようにできます。Hermes Agentに制御されているというより、Hermes Agentがユーザーとして彼らにプロンプトを与えるような形です。
実演するために、CodexとClaude Codeを開いて、三目並べのゲームを案内し、誰が勝ったか教えて、と言ってみます。なぜ三目並べなのか。なぜではないでしょう。動くか見てみましょう。
どうやら彼らは三目並べをプレイして、引き分けになったようです。
では次に、Hermesとは何か、どうやって慣れていくのかに入りましょう。
実際のチュートリアルには興味がないけれど、私が構築しているベンチマークについてもっと知りたいという場合は、動画の最後の章で、Hermes Agentを使ってこれらのシミュレーションを多数実行し、より高度なモデル同士を対戦させ、PVP、つまりプレイヤー対プレイヤーの戦闘を少し行わせる方法をお見せします。
それでは始めましょう。
優れたアーティストはコピーする。
ちなみに、混乱しないように言っておくと、これがHermes Agentです。これが彼らが作ったものです。
私が最初のベンチマークを作っていたとき、試してみたいデザインやレイアウトがいくつかありました。そのうちの1つについて、私はこう言いました。Hermes Agentの見た目をそのままコピーして、と。
するとbotがこれを作りました。正直に言って、非常によくできています。
ですので、ここに見えているスクリーンショットを撮って、こんな感じにして、と言いました。そして、ほら、これです。見事に再現したと思います。私はこの見た目が大好きです。
Hermes Agentをゼロからインストールする
では、Hermes Agentをゼロからインストールしていきます。
これはデスクトップのようなローカルマシンでもできますし、家に転がっている古いノートパソコンでもできます。私はmini PCを使って、こうしたエージェントをいくつかインストールしたことがありますが、とてもよく動きます。
Mac miniが大好きな人もいます。それも1つの方法です。
Hermes Agentについての前回の動画では、VPS、つまり仮想プライベートサーバー上に、Docker内で、提供されていたワンクリックインストールのような形でインストールする方法を紹介しました。とても簡単で、とても速いです。
そちらのほうがよければ、その動画の該当部分の具体的なタイムスタンプ付きリンクを下に置いておきます。
ただ、この動画では、Nooseが意図したように、手動でやってみましょう。実際にそう意図していたかどうかは知りませんが、とにかく完全に手動のルートでやってみます。
信じてください。そんなに難しくありません。実際、本当に必要なのはこの数行だけです。
仮想プライベートサーバー、つまりVPSにエージェントをインストールすることには、多くの利点があります。AIエージェントが常に利用可能になるということです。ハードウェアのメンテナンスに対処する必要がありません。オンラインでインターネットに接続されていることを保証するのは、誰か別の人の仕事になります。
ここではHostingerにインストールする方法を紹介します。Hostingerは、私がしばらく一緒に仕事をしている会社です。この動画のこの部分のスポンサーでもあります。
スポンサー付き製品の話になると、少し疑い深くなる人がいるのはわかっています。重要なのはこういうことです。
まず1つ目に、Hostingerは私が個人的に使っている製品です。前回の動画でお見せしたように、私は彼らのアカウントを持っています。実際には、別々のVPSやほかのサービス用に複数のアカウントがあります。
私はKVM2サービスを使っていて、ほかの人にもおすすめしています。この時点でAIエージェントをオンラインでホストするとき、私はHostingerだけを使っています。
また、これは登録1件ごとに私に報酬が入るアフィリエイト契約ではありません。あなたに何かを買わせることで私が得をする仕組みではありません。
基本的には、Hostingerが動画の一部をスポンサーしてくれているので、私は実際のインストール手順を案内できます。私が彼らをスポンサーとして選んだのは、彼らを知っていて、好きで、信頼しているからです。
こういう会社がありますよね。何かお手伝いできますか、という小さなポップアップを出してきて、問題を教えてください、と言うのですが、定期請求をキャンセルしたいとなった瞬間に、ああ、もう英語もほかの言語もわかりません。あなたが何を言っているのかわかりません、みたいになる会社です。
そして、再請求されないようにする方法を見つけるのが、宝探しのイースターエッグ探しのようになるのです。そのボタンがどこに埋められているのか探さなければなりません。
いったんボタンをクリックすると、50ページ分くらいの、本当にいいですか、本当に本当にいいですか、でも本当に本当に本当にいいですか、という確認が出てきます。何のことを言っているかわかりますよね。
ここでは、どうあるべきかを見てください。これは私の個人アカウントです。見てください。驚きますよ。
Billingをクリックします。見てください。文字通り次のページです。自動更新。欲しいですか、欲しくないですか。では、この1つはもう要らないとします。本当にいいですか。はい。完了。
これが私が彼らを好きな理由です。これが私が彼らを信頼している理由です。彼らは私のADHDを武器化しません。
リンクは説明欄と固定コメントにあります。ページに到達すると、おそらくこのような画面になります。どのプランを選ぶか、いくつか選択肢があります。
私のアカウントで見たように、私はKVM2を使っています。vCPUコアが2つあります。AIエージェントでは、これによってフリーズしたりリソース問題にぶつかったりするのを防げます。RAMは8GBあり、これは1つのエージェントには十分すぎる量で、成長の余地もあります。
そして最後に、100GBのNVMeディスク容量があります。AIエージェントが成長し、あなたがやろうとしていることについてより多くの知識を持つようになると、より多くの情報がディスクに保存されます。これにより、そうしたディスクスキャンや検索がほぼ瞬時になります。
8.99ドルなら、迷う必要はありません。さらに、これについては割引も用意できると思います。
ちなみに、最初のページで私と同じ選択肢が見えていない場合は、VPS hostingが選択されていることを確認してください。エージェント用のKVM2で必要なのはそれです。これは、私が以前N8N用に使っていたものですが、いずれにせよ、この場所まで進んでください。
ここでKVM2を選択します。すると、このようなページに到達します。必要であれば選べるさまざまなオプションがあります。
下のほうで、最もレイテンシが良いサーバーロケーションを選びます。私の場合はUnited Statesです。それだけです。
そしてOSを選択します。私たちはプレーンなOS、Plain OSが欲しいです。これにより、余計なものが何も追加されていない、基本的で素のインストール環境が得られます。私はUbuntuにします。
Ubuntuが好きです。しばらく使っていますし、こうしたAIスタートアップ企業、最近Facebookに買収された企業でさえ、Ubuntu上で動かす傾向があることに気づいています。私はかなり満足しています。
Ubuntuが何を意味するのか気になるなら、だいたいナマステのような意味です。
とにかくクリックします。すると、どのバージョンを使いたいか聞かれます。基本的にこれは最新バージョンになります。そして下にスクロールすると、最初のLTSがあります。これはLong-Term Support、長期サポートです。
つまり、より安定した非実験的なバージョンです。一般的には、どれを選んでも大きな問題にはなりません。迷ったら、私が何と言うかおそらくわかりますよね。お気に入りのチャットボットに聞いてください。
ここではOpus 4.7を使っています。Claude OpusはLTS、つまり長期サポート版を使うことをすすめています。それがより安定したバージョンです。過去にも私の推奨はそうでした。
ただ、Claudeがさらに一歩踏み込んでこう言ってくれたのが気に入っています。ちなみにHermes Agentはそれに対してテストされています、と。つまり、新しいリリースを出すとき、彼らはLTSバージョンに対してテストしているということです。ということは、それを選べばかなり安全なはずです。
では24.04 LTSを選びます。あなたの場合は、その時点で最も新しいLTSを選んでください。LTSが後ろに付いている最も大きな番号を選ぶだけです。Confirmをクリックします。
次に、上に戻ります。クーポンコードがあります。クーポンコードWes Rothを使うと、年間プランに追加割引が入ります。Applyを押して、Continueをクリックします。
次に、アカウントを作成して登録します。Googleでログインしてもいいですし、すでにアカウントがあるならログインします。いちばん好きな支払い方法を入力し、Submit Paymentをクリックします。
おめでとうございます。あなたの旅が始まります。
次に、VPSへのアクセスを保護する必要があります。基本的にはrootパスワードを設定します。これはサーバーにログインするために使う管理者パスワード、メインパスワードのようなものです。
SSHキーを作ることもできます。それについては後で話します。VPSダッシュボードで後からいつでも追加できます。ひとまずはrootパスワードを作成します。
Generateを押します。そのパスワードは必ず保存してください。後でサーバー、自分のマシンにログインするために必要になります。そしてNextを押します。
Malware ScannerやDocker Managerのような機能があります。これらは無料です。Docker Managerは素晴らしいです。前回のインストールではこれを使いました。これは価値があるかもしれませんが、ひとまず私は何も選択しません。
Finish Setupを押すだけです。するとVPSがセットアップされます。
1、2分ほどで、すべてがセットアップされます。VPSダッシュボードがあり、SSHアクセスもあります。ですので、これをコピーします。
Windows PowerShellを開きます。OSによってこれの別バージョンがあります。これは基本的にはコマンドラインインターフェース、CLIです。シェルやコンソールと呼ばれることもあります。厳密にはターミナルという言葉が最も正確でしょう。
ですので、自分のOSにあるターミナルを開きます。そして、このコマンドSSHを入力します。これはSecure Shellです。インターネット上の別のマシンに安全に接続するための方法です。
その後にスペース、rootと入力します。rootは管理者のようなものです。つまり私たちは単なるユーザーではありません。ザ・ユーザーです。VIPです。赤いじゅうたんを敷いてもらう立場です。
root、アットマーク、そしてその数字です。その数字があなたの仮想プライベートサーバー、VPSのIPアドレスです。ここでは72.62.100.87です。
本当にいいですか、と聞かれるかもしれません。yesと言います。そしてパスワードを聞かれます。これは、1、2分前に設定したパスワードです。それを入力して実行します。
これでHostinger上の仮想プライベートサーバーにログインできました。
root atと表示されていることに注目してください。rootが私たち、スーパーユーザー、管理者です。svrと番号が、今いるサーバーです。
これが表示されていれば、そのマシン上にいて、そのマシンを操作しているという意味です。ここで入力するコマンドはすべて、Hostinger経由で先ほど作成したそのマシン上で実行されます。
そしていつものように、こうした作業をしているときは、自分のお気に入りのチャットボットも使うことをおすすめします。質問したり、説明や明確化を求めたりしてください。
今、私はこう尋ねます。ここに「またやってるのか、Wes?」と書いてありますよね。もちろんそうです。
新しいUbuntuインストールにHermes Agentをインストールする方法を尋ねます。
重要なのはこういうことです。すでにインストール方法を知っていて、以前やったことがあったとしても、これはまだ非常に役に立ちます。AIエージェントが、役に立つかもしれない追加の洞察や知識をくれることがあるからです。
また、時間が経つにつれて、AIがあなたについてどんどん学んでいくと、あなたが考えていなかった点をつなげてくれるかもしれません。そして、その能力はどんどん向上しています。
ここでは、ターミナルを開いて、このすべてをインストールするコマンドを実行するだけだと言っています。ちなみに、かなり速いです。
こういうものをすべてインストールする方法を、ステップごとに説明してくれる人は世の中にたくさんいます。彼らはとても賢そうに見えますし、何をしているのかわかっているように見えます。
私は、文字通りどうやるかを見せています。ですので、誰かにどうやるかを見せてもらう必要はありません。誰かが座って、技術的なことをステップごとに案内してくれる。そういうのは過去のものです。
これが未来です。これこそが、光速で学習できるようにしてくれるものです。
ここでいくつか注目してください。sudoを使わないように、と書いてあります。それが何かわからないなら、問題ありません。気にする必要はありません。知っていて使おうとしていたなら、これが先ほど話していた追加のちょっとした洞察です。
さて、以前にUbuntuのどのバージョンを使うべきか尋ねたことを覚えていますか。AIはそれを覚えていて、今そのことに触れながら、これは正しいOS上で正しいことをしています、よくできました、と言っています。
では、このコマンドをコピーして、ターミナルに貼り付け、Enterを押します。
ちなみに、どこからコピーして貼り付けるかによっては、問題が起きることがあります。ですので、前後にランダムな文字が付いていないか確認してください。すべてがおおむね正しく見えることを確認します。大丈夫そうです。Enterを押します。
これがHermes Agentのインストーラーです。必要なものをすべてインストールする作業を開始します。
その間に、次に何と書いてあるか見てみましょう。
インストール後に、このコマンドでシェルを再読み込みしてください、と書いてあります。そしてインストールが完了したら、このHermesモデルを実行してください、とあります。
OpenRouterを使うこともすすめています。ほかのいくつかの選択肢も見ていきます。
さらに、VPS固有の注意点まで出してくれていることに注目してください。基本的には、VPSではセットアップ後にターミナルのバックエンドをDockerに切り替えろと言っています。
これがすることは、このエージェントをサンドボックス化するようなものです。つまり、実際に動かしているシステム上でさまざまな悪ふざけをするのを防ぐようなものです。
今、Hermesをどのようにセットアップしたいか、クイックセットアップかフルセットアップかを聞かれています。
ただ重要なのは、この時点で仮想プライベートサーバー上で動かすためのインストールとセットアップは、ほぼ完了しているということです。
あとはフルセットアップを実行し、オプションを選び、さまざまなAPIキーを追加するなどの作業です。
ここではフルセットアップにします。
ここでプロバイダーを選択します。過去にOpenRouterについて話しました。OpenRouterは基本的に、すべてのモデル、すべての異なるAIプロバイダーを1か所に集めたようなものです。
APIキーを1つ取得し、それを入れると、あなたが聞いたことのあるほとんどのAIモデルを使えるようになります。300以上のモデルがあります。かなり多いです。
それ以降、Hermes Agentを作っているNoose Researchが、似たような独自サービスを作りました。Noose Portalと呼ばれています。
もちろん、これらのどれを使いたいかはあなた次第です。すべてをまとめているモデルアグリゲーターを使う必要すらありません。たとえばAnthropicやOpenAI Codexなど、好きなものを直接使うこともできます。
ただし、そうしたモデルはすべて上位2つのどちらかに含まれているということを覚えておいてください。これら2つのどちらかの一部として、それらのモデルを使えるようになります。
Noose Portalの本当に素晴らしい点は、これもかなり新しいサブスクリプションですが、Hermes Agentで使うことになる多くのものを、その1つのリンクの中にまとめていることです。
Web検索、画像生成、テキスト読み上げ、ブラウザ自動化などへのアクセスが得られます。
通常であれば、たとえばFirecrawlやBrowser Useなどに登録し、それらのAPIキーを取得して、セットアップ過程で設定する必要があります。
Noose Portalを経由すれば、そのすべてを迂回できます。全部含まれているのです。
前回の動画ではOpenRouterの設定方法を紹介しました。この動画では、Noose Portalの設定方法を見ていきましょう。
そして今、Noose Portalを選択します。すると、このウェブサイトを開き、求められたらこのコードを入力するように言われます。
するとこのページに移動します。Hermes Agentを接続するためのプランを選びます。基本的には、月額0ドルの無料プランを含め、いくつかの選択肢があります。
ここで理解しておくべき重要なことは、月10ドル、20ドル、100ドルなど、いくら払うとしても、その金額は利用分に対するクレジットとして受け取るということです。
その意味では、Noose Researchに支払う手数料のようなものではありません。利用に充てられるクレジットを受け取るだけです。
では、私は20ドルから始めて、どこまで行けるか見てみます。それから下にスクロールして、Subscribe and Connectを押します。
完了すると、これは自動的に更新されるはずです。
ここでは、使うモデルを選択します。どうやら35分前に、Noose Researchのメンバーの1人であるTekniumが、Kimi K2.6をHermes Agentで24時間無料で試せると言っています。
彼らはオープンソースモデルであるKimiと提携しています。そして、あらゆる話によれば、Hermes Agentでは非常にうまく動きます。
ですので、このようなものが表示されるかもしれませんし、表示されないかもしれません。私はもちろん、現在無料なのでKimi K2.6を試します。
そしてここでEnable Tool Gatewayをクリックします。これはWeb検索、画像生成などのさまざまなツールです。
ここが自動で事前入力されていることに注目してください。Nooseのサブスクリプション経由で有効になっているからです。これが、それを使いたくなる理由の1つです。
そうでなければ、これらのAPIキーのいくつか、あるいはおそらく各APIキーを個別に用意する必要があります。
同じプロバイダーのフォールバック用に別の認証情報を追加しますか。今はしません。
次に、どのターミナルバックエンドを使うか聞かれます。覚えているなら、ClaudeはLocalではなくDockerを使うことをすすめていました。Localは、そのマシン上で直接実行されるものです。Dockerはそれをサンドボックスの中に入れるようなものです。
ここで、私が苦労して学んだちょっとした秘密を教えます。今Dockerを選ぶと、全体がクラッシュします。新しいUbuntuインストールで、ほかには何も入っていないからです。Dockerもありませんし、ほかのソフトウェアもありません。
ですので、今はLocalを使ってください。ただし後でサンドボックスに入れたいならDockerを使います。そのために必要なものをすべてインストールしてから、そうしてください。
私はLocalにします。
次に、メッセージング用の作業ディレクトリを聞かれます。これは、Telegramのようなものからメッセージを送るときに特に関係します。
基本的には、作業エリアをHermesをインストールした場所にしたいのか、それとも別のワークスペースのようなものを作りたいのかということです。デフォルトを受け入れるためにEnterを押せば大丈夫です。
次に、sudoサポートを有効にしたいか聞かれます。sudoはsuper user doです。sudoは、使っているコマンドを最高権限に昇格させるようなものです。
つまり、私がやれと言っている。私はスーパーユーザーだ。これをやれ、という意味です。
これを説明しているXKCDの漫画があります。この人が、サンドイッチを作って、と言います。もう一人が、何だって? 自分で作れよ、と言います。
座っている人が、sudo、サンドイッチを作って、と言います。すると相手は、わかりました、と答えます。このコマンドはまさにそういう仕組みです。
私たちはrootで実行しているので、これは本当に必要ありません。余計なパスワードを省くだけです。
別のユーザーとして実行している場合、これをエージェントに与えると、さまざまなパッケージのインストールなど、特定の管理タスク、より重要なタスクを実行できるようになります。
ひとまず私はnoにします。
次に、最大反復回数を聞かれます。これは会話ごとの最大ツール呼び出し反復回数です。デフォルトでは60です。多くのタスクでは90を使うのがよいです。150は、オープンな探索やDeepResearch、あるいは本当に大量のツール呼び出しが必要なもの向けです。
ですので、60は開始地点としては良いです。私は90に上げてEnterを押します。
どれくらい話すべきか。新しいツール呼び出しをすべて表示するだけにするのか。つまり、すべてのツール呼び出しを表示するallか、すべてを詳しく説明するverboseかです。デフォルトのallのままにします。
圧縮しきい値です。これはコンテキストウィンドウが一定のサイズに達したとき、いつ圧縮して新しいコンテキストウィンドウを始めるかというものです。
0.9や0.95のようにしきい値が高いと、より多くのコンテキストウィンドウを使えます。いっぱいになるまで使うため、早くリセットしません。ただ、それには潜在的な問題があります。コンテキストウィンドウの外に出てしまう、つまり余裕がなくなる可能性があります。0.5がデフォルトです。0.5から始めましょう。
また、セッションをいつリセットするかも聞かれます。おすすめは、非アクティブ状態と毎日のリセットの組み合わせです。つまり、しばらく放置した場合か、1日のある時点に達した場合、そのどちらか早いほうでリセットするということです。それにします。
非アクティブタイムアウトは1440です。これも、何が自分にとって良いかわかってきたら変更できます。私はそのままにします。
毎日のリセット時刻です。おすすめは4となっています。おそらく、いつ一番起きていない可能性が高いか、ということなのでしょう。多くの人にとっては3時か4時が最有力候補だと思います。
そして、どうやって話しかけたいかです。私はTelegramを使います。
コマンドラインインターフェース用にツールをいくつか設定したいか、と聞かれます。ここに、すでに有効化されているツールがあります。Enterを押して確認し、Doneを押します。
これで最後まで来ました。今すぐHermes Agentとチャットを始めるならyesを押します。
これです。Kimi K2.6を31個のツールで使っています。テストとして、花の画像を頼んでみましょう。画像作成ツールを使って、その画像を作成しています。そして、そこにあります。
リンクを開くにはCtrlクリックを使います。そして、これです。
Telegramのセットアップについては前回の動画で案内しました。ですので、そちらを確認するか、Hermesやお気に入りのチャットボットに聞いてみてください。
この動画では、Hermesができる、より面白く高度なことをいくつかやっていきます。
GPT-5.5と画像生成をHermesに追加する
GPTをいくつか追加しましょう。
手早く言うと、こちらがHermes Agentです。これがGPT-5.5を有効にする方法です。そして、GPT Images 2.0を有効にする方法でもあります。
まず何より、Hermes updateを実行します。これで最新バージョンに更新されます。
そして、このようにプロバイダーとモデルを選べるようになります。現在、私はNoose Portalを使っています。これはNoose Researchのサブスクリプションで、その下にすべてのモデルがあります。
ただし、少なくともこの瞬間に5.5を使うには、実際にはOpenAI Codex経由でOAuthログインする必要があります。ブラウザでこのURLを開くように求められます。
ログインすると、コードを求められます。そしてサインインすると、私たち用にGPT-5.5モデルを選択できます。
それからHermesを実行します。はい、できました。Hermes上でGPT-5.5が動いています。
ここでCtrl Cを押して終了します。そして、もう1つ試します。Hermes toolsです。ここで、画像を作成するモデルを設定できます。
CLIを設定します。そして画像生成について、既存のツールプロバイダーを再設定します。Image generationを選びます。現在私が使っているNooseサブスクリプション、すべてのFluxモデルを持つfal.ai、Nano GPTがありますが、今回はOpenAI Codex Authを使います。
ここで、新しいGPT Image 2を、Hermes内やその他の場所で使えるようになります。APIキーは不要です。そしてMedium、Low、Highから選べます。まずはバランス型のMediumから始めましょう。これで完了です。
Hermesを実行します。さあ、始めましょう。
さて、本当に手短に、Hermes Agentとは何でしょうか。Hermes Agentは、Noose Researchの友人たちによって作られました。
Hermes Agentは、OpenClawが登場した少し後に出てきました。というのも、多くの人が、効果的で知的で、本当に役に立つAIエージェントに対する大きな需要があることに気づいたのだと思います。
少なくともこういったものは、それらのモデルの周りにある足場やラッパーのようなもので、かなり印象的なことを可能にします。
Hermes Agentにおける大きくて刺激的な主張は、動かし続けるほど成長するというものです。永続メモリと自動生成スキルによって、あなたのプロジェクトを学習し、問題の解き方を決して忘れません。
作成されるさまざまなスキルについて、時間をかけて使い続けると、それらをより良く、より効率的にしようとします。まるで科学実験のようにアプローチするのです。これを時間をかけて反復改善できるか、という形です。
ちなみに、それは私のベンチマークのポイントでもあります。
混乱しないように改めて言うと、これがHermes Agentです。これが彼らが作ったものです。
私が最初のベンチマークを作っていたとき、試してみたいデザインやレイアウトがいくつかありました。そのうちの1つについて、私はこう言いました。Hermes Agentの見た目をそのままコピーして、と。
するとbotがこれを作りました。正直、非常によくできています。ですので、ここに見えているスクリーンショットを撮って、こんな感じにして、と言いました。そして、ほら、これです。見事に再現したと思います。私はこの見た目が大好きです。
安全に使うための注意点
安全を保つための簡単な注意です。
ちなみに、Hermes、OpenClaw、Codex、Claude Codeのようなものを実行するとき、それらを起動する方法には、必要な承認レベルの違いがあります。
このようなプロジェクトでは、私はゼロから始めて、48時間動かし続けて完了させる必要があります。私は個人的に、5分おきに止まって、このフォルダを作ってもいいですか、このテキストファイルを作ってもいいですか、と聞かれるのは望みません。もうとにかくやってくれ、という感じです。
そのため、多くのエージェントやプログラムには、これに似たものがあります。起動時に、危険を承知で承認サンドボックスをバイパスする、と指定するものです。
つまり、すべての確認をスキップします。サンドボックスなしでコマンドを実行します。OpenAIがここで言っているように、非常に危険です。
ですので、これを一応伝えておきたかったのです。私は、フルオート、安全装置オフのような形で動かすほうを好みます。ただし、もし本当に物事が吹き飛んだ場合でも、その爆発範囲が封じ込められるような方法で実行することを確認しています。それが私のやり方です。
それに同意する人もいます。まったく正気ではないと思う人もいます。ですので、自分にとって正しいことを必ずしてください。
現時点で、私のAIエージェントはいくつかの異なる仮想プライベートサーバー上にあります。いくつかは、私の机の上にあるmini PCで動いていますが、それを見せるのは少し難しいでしょう。ある動画のインストール中に見せたことはあります。
また、どこかで見つけた古いノートパソコンもあります。Lenovoのノートパソコンです。ほこりを払いました。たぶん何年も使っていなかったものですが、そこにLinuxをインストールし、電源をつないで、たくさんのエージェントを入れました。
それらが、私がAIエージェントを動かしている3つの場所です。
私は、メインのコンピューターにこれをインストールして、このように確認プロンプトをバイパスした状態で実行することはしません。
もしあなたがこれを始めるなら、物事がうまくいかなくなったとき、自分とエージェントの間にどれだけ多くの安全層を置けるか、と考えてください。
Hermesには、たとえば1Passwordのスキルがあります。1Passwordはすべてのパスワードを管理する素晴らしい方法で、何かが露出した場合に、それを隔離し、切り離し、キャンセルできるようにするものです。
また、Dockerコンテナ内でこれらを実行する方法もあります。多くのエージェントでは、これによって損害の一部を隔離する助けになります。
私はこれらの多くにSSHで入ります。つまり、私は家で自分のコンピューターの前に座っています。Windowsならこのコマンドラインインターフェース、ターミナル、あるいはPowerShellを開きます。そして、このコマンドを使ってリモートマシンに接続し、コマンドを与えられます。
このようにHermesが動いています。これはどこかボストンにあります。余計に安全にするため見せたくはありませんが、そのマシンは国の反対側のどこかにあります。私はそこにSecure Shellで入り、制御できるようになります。
すべてはあちら側で起こります。もしそこで何らかの核メルトダウンを起こしたとしても、私はボストンに行ったことがありません。いい場所なのでしょうか。なくなったら寂しいのでしょうか。私には知るすべがありません。
ただ、私たち全員がこうしたものをより多く使い始めるにつれて、特にMythosのようなものも存在する中で、さらにGPT-5.5も潜在的には非常に優れたハッカー、少なくともサイバーセキュリティの悪用ポイントを見つけられる存在になり得ます。
これは、私たち全員がインターネット上に垂れ流しているあらゆるデータについて、ほんの少しだけ意識を高めておきましょう、という簡単なリマインダーです。
Hermesでゲーム機能を追加する
では、作っていきましょう。
Hermesを使ってゲームにどう追加し、ゲームをどうテストしたかをお見せしたかったのです。
このベンチマークがどのように見えるか、Gravellがここでどのように機能するかはすでに見ました。
私は新しい機能を実装しようとしています。Duelと呼びました。そしてHermesにその機能を追加するよう頼みました。ちなみに、これはGPT-5.5で動いています。
基本的には1対1です。これにより、2つのモデルを直接対戦させることができます。
以前のPVPアリーナでは、基本的に各モデルの最高の反復、つまりベストなコード出力を取りました。そして4つのモデルを取り、それぞれのコード出力をアリーナに投入し、4つ全部を戦わせて誰が勝つかを見ました。
Claude Opus 4.7の勝率が88.3%だったことに注目してください。また、それぞれにELOスコアも割り当てられ、どれだけ優れているかを確認できるようにしました。
ただし、これは少し違います。これは2つのモデルがそのコードをライブで実行し、互いに対してテストするものです。
それぞれが同時に診断レポートを返されるような形です。そしてコードの変更案を出します。必ずしも同時にというわけではありませんが、提出は同時に行われ、各反復ステップを一緒に進んでいきます。
Hermesはすべてが機能していることを確認しました。私も画面上にすべて正しく表示されていることを確認しました。そして今、私はこう伝えています。では、Claude CodeとCodexの新しいインスタンスを開きましょう、と。
基本的にHermes Agentは、それらの両方をほとんどツールのように呼び出せます。ですので、私たちがやるのと同じように、それらの実際のインスタンスを開き、必要な情報を与えていきます。
Hermesは彼らと一緒に作業します。
これが私たちです。そして私たちはHermesに何をするか伝えます。Hermesは私たちの親切なbotです。そしてHermesは2つのサブエージェントと話します。1つはCodexで、もう1つはClaudeです。
もちろん忘れてはいけないのは、Hermesはゲームからもコンテキストを得ているということです。それがGravです。この名前は私が考えたのではありません。気に入らないならClaudeを責めてください。
この矢印は消したほうがいいですね。混乱しそうです。でもClaudeを責めてください。Gravellという名前が好きなら、私がすべての手柄をもらいます。ただし批判はClaudeに向けてください。
HermesはGraphwellからすべてのデータを取得し、CodexとClaudeの両方に、まずステップ1として初期出力をください、と伝えます。
その場合、ゲームについて彼らに説明し、最初のスクリプトを作ってください、と言います。彼らはそうして、そのスクリプトをHermesに返します。
Hermesはそのスクリプトを取り、Gravellで実行します。繰り返しますが、Gravellではコードを貼り付けるだけです。それを実行し、診断結果を返してくれます。
そうです。スクリプトを与えると、Hermesに診断レポートが返ってきます。この場合、Codex用に1つ、Claude用に1つです。
その後、Hermesは再びCodexとClaudeにそのレポートを渡し、あなたの最初のアイデアはこういう結果でした、ここにすべての結果があります、これを踏まえてもっと良くできるか見てください、何を学びましたか、どう改善できますか、というように伝えます。
これが2回目です。つまり反復です。
スペルが書けません。この単語を書くことについてももう一度反復すべきですが、忘れましょう。
そしてこれは、設定した反復回数分だけ続きます。
私はまだ、学習がどこで落ち始めるのかを見極めようとしています。おそらく、ある種の頭打ちポイントがあり、その後はゲーム数を増やしてもあまり意味がなくなるはずです。
今のところ、それはおそらく20ゲーム前後だと思いますが、もっと多くのデータが得られればわかるでしょう。
ちなみに、次に試したいアイデアは、Sakana AIがDarwin Gödel Machineで行った方法です。さまざまな試行を生成し続け、より良い結果を出したものが、進化的な系譜のように継続していくというものです。
ですので、できればそれもこれから来ます。ひとまずはシンプル、あるいはシンプル風に保っています。
ポイントは、私がHermesに1つのコマンドを与えるだけで、その後は寝るなり何なりするということです。ですので、寝ることがステップ2です。
私はHermesに、Claude CodeとCodexの新しいインスタンスを開き、一歩ずつ案内してゲームをプレイさせるよう伝えています。
ちなみに、このインスタンスの冒頭で、まさにそれをして三目並べをプレイさせたことを覚えているかもしれません。Codexが行き、Claudeが行き、Codexが行き、Claudeが行く、あるいはどんな順番だったにせよ、そういう流れです。
つまり、それが可能であることはすでに見ました。そして、私たちが求めているものについての小さなサンプルも、コンテキストウィンドウ内に持っています。
また、もし彼らがミスをしてコードが正しく動かない場合、もしかすると全体を壊す奇妙な記号が入っているかもしれないので、その場合はエラーメッセージを伝え、もう一度試させるようにも知らせています。彼らはかなり賢いですから。
ちなみに気になる人のために言うと、Claude Code側ではOpus 4.7を実行していて、Codex側では高思考設定のGPT-5.5を実行しています。実際に念のため再確認させますが、動いているはずのものはそれです。
10回の反復でいったん止めてレポートしてください。ただし、レポート後に20回まで続ける準備はしておいてください、と言います。
つまり、途中のチェックポイントが欲しいだけです。何が起きているのかを知らせてもらい、小さなレポートをもらうような感じです。
Enterを押します。さあ始まりました。
APIキーを使うのではなく、これを行っている理由は、公平なベンチマークには向かないからです。ただ、トラブルシューティングやテストには非常に優れています。API呼び出しでクレジットを消費していないからです。
Claude CodeとCodexを使っています。つまり、その利用はそれぞれのプランに含まれているはずで、問題は起きないはずです。
リプレイを送って、リアルタイムで見られるようにして、と言うべきでしたね。でも、おそらく進行に合わせてスコアを報告してくれるでしょう。
では、しばらく動かして、後でどうなっているか見に戻りましょう。
かなり時間がかかりました。だいたい1時間弱くらいです。
そして、これを行うための専用スキルを作ったことに注目してください。Gravell GPT Agent Loopと名付けられています。このスキルを時間をかけて実行し続ければ、より良く、より効率的になるはずです。
この1回では、GPT-5.5 highが7ラウンド勝ち、Claude Code Opus 4.7が3ラウンド勝ちました。
また、シミュレートされたすべての戦闘一覧にリプレイ機能を追加するようにも頼みました。そうすれば、それらがリアルタイムでどのように展開したかを見ることができます。
これがそれです。記録されたすべての戦闘があります。たとえば最後のものを取り、Load Replayを押して再生してみましょう。
最初から最後まで全体が再生されているのが見えます。青がClaude Code Opus 4.7です。こちらの赤がCodex GPT-5.5 highです。
非常に面白いです。衝突があるか見てみましょう。
これは10回反復した時点です。ですので、彼らは自分たちのスキル、自分たちのスクリプトに取り組む時間が多少あったはずです。
今のところ素晴らしいです。誰も太陽に突っ込んでいません。全員が少しずつ燃料を使っています。これがここでのコツの1つです。マップ全体を飛び回ろうとしているわけではありません。行きたい場所へ向かうために、ごくわずかにアクセルを叩いているのです。
そして、円を追いかけているのではありません。円の前に出ようとしているのです。まったく素晴らしいゲームです。
Codex GPT-5.5 highは68点を取り、Claude Code Opus 4.7は43点でした。
ここまで、とても気に入っています。これは素晴らしいベンチマークになると思います。これは私たちがテストしていく複数のもののうちの1つにすぎません。この1つが、私としては最も視覚的に面白いと思っただけです。
以前いじっていたときに気づいた非常に面白いことが1つあります。時間をかけてこれらのスクリプトを書くのが本当にうまくなるモデルがあると、そのモデルは全体として優れたパイロットになります。
その時点で、シミュレーションの文脈内で望むことを何でも頼めます。そしてたいてい、かなりうまくやってくれます。
たとえば、船を1隻ずつ星の周りでスリングショットさせて、と言えば、それを非常にうまくやります。各船を星にできるだけ近づけて、その場でホバリングさせて、星の方向へスラストしながら同じ場所にとどまらせて、と言えば、それをやります。そして非常にうまくやります。
ですので、これを設計するのは本当に楽しかったです。
これが役に立っていればうれしいです。CodexでもClaudeでもOpenClawでも、ここで試したHermesでも、自分で試してみることをおすすめします。それぞれに独自の癖や能力があります。
ただ、今私の視点から見ると、GPT-5.5、特にhighは、Codexに入れたり、OAuthを使ったりしているとき、これはCodexとほぼ同じですが、それをHermesモデル内で使っているとき、このGPT-5.5モデルは信じられないほどよくやっています。
非常に長いホライズンを持つタスク、大きなプロジェクトを構築するのが驚くほど得意です。たまに少しおかしなことをして、行ったり来たりしながらトラブルシューティングしなければならないこともありますが、そうした場面はどんどん少なくなっています。
ちなみに、最初のラウンドと比べてみましょう。反復がどれほど大きな違いを生むかを確認できます。
では、最初から再生してみます。これは、彼らがこれらの船を操縦するスクリプトを書こうとした最初の試みです。
はい、この2隻はすでに衝突して爆発しました。つまりGPT-5.5 highが、開始直後に自分の船2隻をクラッシュさせたということです。
2隻目は速すぎる速度で通過しています。これは、これらのモデルが犯す初心者ミスの1つです。星に向かってできるだけ速く加速するために、推力をすべて使い果たしてしまい、その結果、宇宙の虚空へ飛び出してしまいます。そして大量の燃料を使って、ゆっくり戻ってこなければならなくなります。
今、これがどれほどひどい状態か見てわかるでしょう。そして時間をかけて、各反復ごとにどんどん良くなっていきます。必ずしも一直線ではありません。上がったり下がったりします。
しかし、最後のゲームがどれほど素晴らしかったかを考えてみてください。これは明らかに苦戦しているパイロットたちです。そして最後のものは、自分が何をしているのかを本当によく理解しているエースパイロットでした。
見ていてかなり面白いものです。
少しスピードを上げて、終わりまで進めましょう。さらにクラッシュがあるか気になります。
しかし、彼らがゲームをしている範囲の外でどれだけ多くの時間を過ごしているかに注目してください。中心へ戻るために大量の燃料を使わなければなりません。
この時点で、ゲームはほぼ終わっています。これは200ティック実行されます。つまり、その時間の大半を船はこの太陽系の外で過ごしたことになります。
はい、これです。
とにかく、ここまで見てくれたなら、本当にありがとうございました。Wes Rothでした。


コメント