このAIエージェントは基本的に何でもできる – Agent Zero

AIエージェント
この記事は約38分で読めます。

Agent Zeroは完全にオープンソースで無料のAIエージェントシステムである。独自のLinux OSを持ち、ターミナルやブラウザを自由に操作してあらゆるタスクを実行できる。ファイル変換、画像生成、プログラミング、データ分析から、ハッキング版では脆弱性テストまで対応する。人間の脳の記憶システムを模倣した文脈管理とベクターデータベースによる長期記憶機能を持ち、無限に近い会話が可能。ユーザーとの協調的なインタラクションを重視し、リアルタイムで介入や修正ができる設計となっている。
22,012 文字

This AI Agent can do basically everything - Agent Zero
Get your own personalised AI strategy (May only) Go here: 30% faster with Vectal: me on In...

パスワードを設定してみますね。では、何が起こっているか説明しましょう。zipファイルをハッキングしようとしているんです。パスワード保護されたzipファイルをクラッキングして、そうですね、パスワードが見つかりました。

これはAIエージェントが自分でパスワードをハッキングしたのです。Agent Zeroと呼ばれるもので、ほぼ何でもできます。

人々はこれを医学研究、機械学習、さらには2万ドル以上の価値がある失われた暗号通貨の回復にまで使用しています。そう、このAIエージェントは本当に多くのことができるのです。

このビデオでは、Agent Zeroの開発者がエージェントの仕組み、設定方法、そしてそれを使って何でも構築する方法を明かします。これはDavid Andreのポッドキャストです。お楽しみください。

さて、Yanさん。Agent Zeroをどう説明されますか?

Agent Zeroですか?まず第一に、これはエージェントシステムです。独自のオペレーティングシステム、Linuxを持つかなり大きなエージェントシステムで、そのLinuxシステムの中にAIエージェントが住んでいて、システムを完全にコントロールしています。

システムはエージェントの体として機能し、エージェントがアクションを実行できるようにします。追加のソフトウェアをインストールしてLinuxシステムで実行することができ、エージェントはシステムの脳として機能します。

また、agent zeroは完全に無料でオープンソースであることも言及する価値があります。本当に好きなことを何でもやってください。

これが他のエージェントとの主な違いですよね。基本的にオペレーティングシステムで何でもできるということです。

はい、完全に隔離されています。あなたのコンピューターでは動作しません。あなたのシステムで動作できるエージェントはたくさんありますが、すべてのシステムは異なりますよね。エージェントの主な役割は、あなたの個人アシスタントになることです。システム管理者ではなく、あなたの個人アシスタントなのです。オペレーティングシステムをツールボックスとして使用すると言えるでしょう。

LLMによって書かれ、Linuxで実行できるなら、agent zeroで行うことができます

これがagent zeroのユーザーインターフェースです。私はWebブラウザを使って、dockerで実行されているagent zeroのインスタンスに接続しています。これは私のコンピューターでローカルに実行されています。

私は今、自分のコンピューターから自分のコンピューターのdockerにローカルで接続していますが、インターネット経由でリモートからも、携帯電話からも同様に動作します。cloudflareトンネルがあります。cloudflareトンネルを有効にできます。

これによってパブリックURLが提供され、パブリックURLを使用してどこからでもagent zeroインスタンスにアクセスできます。カメラやマイクを含めて携帯電話から使用することができ、すべて同様に動作します。

チャットインターフェースがあります。チャットとタスクのリストがあります。カスタマイズできる設定がかなりたくさんあります。基本的にどのAIプロバイダーでも、どのAIモデルでも使用でき、オペレーティングシステム内のすべてのファイルを検査することもできます。ファイル交換を見せましょう。agent zeroとのリモートでのファイル交換も非常に簡単です。

では、例を見てみましょう。例えば、私が毎日行っていることの一つがファイル変換です。agent zeroロゴがあるとしましょう。これはベクターグラフィックスファイルで、TwitterのようなサーバーにアップロードするためにPNGに変換する必要があります。

そこでagent zeroに「透明な背景で128、256、512ピクセルのサイズの3つのPNGを作成して」と伝えることができます。そうすると、エージェントが作業を始めます。

ちなみに、Janは実際にnew societyの最古参メンバーの一人で、agent zeroが最初に生まれた場所です。new societyはAIの最先端にいる500人以上のグループです。

YanのようにAIエージェントの構築方法を学びたいなら、ぜひ参加してください。5月中に参加する全員には、個人向けのAI戦略が作成されます。このオファーを逃さず、今すぐnew societyに参加してください。リンクはビデオの下にあります。

その思考を検査できます。タスクについて考えることから始まり、Linuxシステムでターミナルを使用します。SVGファイルを変換するためのライブラリをインストールします。

繰り返しますが、ファイル変換専用のツールは持っていません。Linuxライブラリでそれを行うだけです。ほとんどツールを持っていません。エージェントが持っている唯一のツールは、システムでの学習と統合をサポートするためのものです。特定のタスク専用のツールは持っていません。

ブラウザを使用するツール、ターミナルを使用するツール、Pythonコードを実行するツールはありますが、Linuxがあるので画像変換ツールは持っていません。Linux、Python、Node.jsは、おそらく世界で最も大きな3つのオープンソースライブラリです。そこで行えることは何でも、agent zeroで行うことができます。

ライブラリがインストールされました。Linuxターミナルで変換を進めます。1つのコマンドで3つのファイルすべてを処理し、SVG用に透明な背景を持つ3つのPNGが作成されたと教えてくれます。

エージェントがターミナルや他の場所でファイルに言及するたびに、それはリンクになり、クリックしてダウンロードできることに気づくでしょう。

オペレーティングシステムにリモートで接続していても、共有フォルダは何もありませんが、パスやファイルをクリックして、エージェントが準備してくれたものをすべて見たりダウンロードしたりできます。

エージェントが作成するファイルはすべてDockerコンテナに残ります。これがエージェントのサンドボックスです。エージェントの遊び場で、ファイルを送信したり、ファイルをダウンロードしたりできます。

これは透明な背景でPNGに変換されたロゴです。別のタスクに進むことができます。例えば、私のYouTubeビデオのサムネイルをいくつか渡して、「これらの画像を分析して。それからタイトルページ付きのPDFファイルを作成して。中央に512ピクセルのロゴ、タイトルはagent zero。それから1ページに1つの画像」と伝えてみましょう。

これで十分な指示でしょう。これを手動で行うには、かなりの時間がかかるでしょう。

私のマシンにはツールがインストールされています。例えば、これらのサムネイルを作成したからです。でも、おそらく2、3分はかかるでしょう。

どうやるかわからなければ、それよりもずっと長くかかるでしょうし、ツールを持っていることを前提としています。

Pythonコードを書いています。ここで何をしているのでしょうか?これらの画像の分析に失敗したと思います。agent zeroをいつでも途中で停止することができます。

今、最初に画像を分析することに失敗したと思います。「現代のセーリング画像、おそらくより暗いものを表している」。それは正しくありません。ここで手抜きをしました。

ちなみに、これはGPT4.1モデルです。通常、私はこのモデルがとても気に入っています。思考と実行のバランスが絶妙だと思います。Claudeのようにやりすぎることがありません。今回は失敗しました。

「最初に画像を分析しませんでした。それを行ってから、説明を適切に作成してください」と伝えることができます。

でも、あなたのプロンプトもかなり詳細でしたよね。7つか8つの異なることを行うように指示しました。

実際にvisionを無効にしているかどうかわかりません。いえ、していません。具体的にvisionを使用するように指示しました。

vision loadツールを使用します。モデルのvision機能を使用して、4つの画像すべてを一度に分析します。

モデルを使用するのですか、それともOCRのようなものを使用するのですか?

いえ、モデルのvision機能です。モデルがvision対応であれば、visionを有効にして複数の画像を一度に分析し、視覚情報をコンテキストウィンドウに取り込んで進めることができます。

新しいPDFファイルができました。見てみましょう。今度はずっとよくなりました。カスタムですね。

もちろん、両方向に機能します。「PDFページをJPEGに変換して、それから1秒のタイミングでGIFを作成して」と言うことができます。

このような小さなタスクで、やるのが面倒に感じるものです。これがAgent Zeroが最も価値を感じるところです。

プロンプトを入力して10分待って、気に入るかどうかわからない結果を得るような謎箱ソリューションは好きではありません。何をしているかが見えるのが好きです。今とても速いですね。おそらくPDFをJPEGに変換するためのパッケージをいくつかインストールしたのでしょう。

生産性を向上させるためにAIを使いたいなら、Vectalをチェックしなければなりません。実際にタスクを完了してくれる唯一のAI生産性ツールです。完全に無料で試すことができます。vectoral.aiにアクセスして登録してください。

まだ終わっていますか?はい。JPEGイメージがたくさんあり、今度はimage magicを使ってGIFに変換するはずです。

この使用例ではありませんが、これらのアドホックタスクを処理する速度が特に有用だと思います。特に開発者としての私の使用例において、何かを変換したり、ファイルを素早く処理したり、データセットをクリーンアップしたりする必要がよくあります。待ちたくないし、フローを中断したくない。今すぐ必要なのです。

GIFができました。複数のagent zeroインスタンスを同時に実行できますか?

はい、Dockerで好きなだけ実行できますが、一度に複数のチャットを実行できるので、実際にはそれほど必要ありません。

これらの各チャットインスタンスには、チャットとオペレーティングシステムの両方の観点から、独自の専用コンテキストがあります。独自のターミナルセットがあり、個々のチャットでもマルチタスクが可能です。

ターミナルで何かを実行するとき、セッションを指定します。例えば、セッション番号0で無限に実行されるものを実行し、セッション番号1で別のコードを実行できます。これは開発に便利です。セッション番号0でサーバーを実行し、セッション番号1で他のことを行うことができます。

サーバーについて話すと、完全なLinuxシステムで、エージェントはどこでもルートアクセスを持っているので、このようなことができます。新しいチャットを始めましょう。

「PHPをインストールして、システム負荷、RAM、ディスクを表示するテストスクリプトを作成し、きれいにスタイルされたページでポート9999で提供し、ブラウザで開いてテストして」

少し複雑ですね。開発者で、PHPやNext.js、その他何でも使ってWebアプリケーションを開発している場合、Pythonバックエンドサーバーなどを持つこともできます。それらのサーバーをそのLinux内で実行し、異なるポートで提供できます。

ここでPHPのインストールをチェックしています。今、PHPスクリプトを作成しています。今度はスクリプトを提供し、Webブラウザを使ってページを開いています。見てみましょう。

ブラウザを再起動してみましょうか。いつでも中断できますよね?

はい、いつでも。最初はページが読み込まれなかったのがわかりませんが、2回目にはエージェントがアプリケーションを開くことができました。

browser useフレームワークを使用しています。これはPythonプロジェクト内でブラウザを制御するための最先端のフレームワークです。

エージェントに「ブラウザでweather.comを開いて」と伝えることができ、それらのページをナビゲートしたり検索したりすることができます。agent zeroは実際にアプリケーションテストを行うことができます。

Amazonへのログインを渡せば、何かを購入することもできるでしょう。

おそらくできるでしょうが、AmazonやGoogleのようなサーバーには多くのボット保護があります。次々とキャプチャを提供するでしょう。なので、それが確実に動作するかどうかわかりません。

browser useを使用していて、browser useをテストしたとき、問題なく本を購入しました。GUIはこの特定の使用例をテストしていません。

いくつかのGoogleサービスでbrowser useを試しましたが、Googleはそれを好みませんでした。

でも、VPNを使用しているので、おそらく自分を識別するのに役立っているかもしれません。考えてみると、私自身もGoogleで多くのキャプチャを入力しなければなりません。

天気予報を手に入れました。これは本当に柔軟でインタラクティブであることを示しています。何の準備も必要ありません。事前に構築されたツールは必要ありません。エージェントが持っている唯一のツールは、オペレーティングシステムを制御したり、ブラウザを使用したり、メモリを管理したりするためのものです。基本的にエージェントをより生産的にするためのものですが、特定のタスクに縛られたものは何もありません。

そして、常に学習していることも言いましたよね?

はい。良いリマインダーです。ありがとう。少し時間をかけて、内部でどのように動作するかを説明しましょう。

agent zeroを制御するフレームワークは、基本的にagent zeroの動作とメッセージループを制御します。agent zeroにメッセージを送信すると、エージェントがツールやオペレーティングシステムと通信を繰り返し、最終的にあなたに報告する内部プロセスが開始されます。

いくつかのコア機能があります。ハードスキルと呼ぶことができます。内蔵検索エンジンがあります。オープンソースの検索エンジンを使用しています。GoogleやFundefined whateverに通信する必要がありません。内部検索エンジンを使用してWebを検索でき、プライベートで非常に高速で信頼性があります。

AO videosの検索エンジンをデモンストレーションしましょう。検索エンジンツールを使用するはずで、ここに結果があります。ブラウザでGoogleを検索するよりもずっと高速です。

検索エンジンは、ハードスキルと呼べるコア機能の一つです。もう一つは、エージェントメモリを管理するための音声テキスト変換や埋め込みモデルで、dockerコンテナに組み込まれています。

マルチエージェント協力のためのツールがあります。下位エージェントを生成して、サブタスクを委任できます。本当に複雑なことを行う必要がある場合、エージェントはサブエージェントに委任できます。

agent zeroの真の超能力はソフトスキルだと思います。それはコンテキストウィンドウ管理とメモリ管理です。

エージェンシーでコンテキストウィンドウ管理とメモリ管理がどのように機能するかについてビデオを作成しました。非常に複雑なシステムですが、本当に報われます。

見えるメッセージはすべて、大規模言語モデルのコンテキストウィンドウに入ります。大きくなりすぎると高価になり、エージェントを混乱させ、利用可能なスペースでオーバーフローして、エージェント全体がクラッシュする可能性があります。

これを防ぐために、人間の脳の動作にインスパイアされた圧縮最適化システムを開発しました。人間は実際に完全に物事を忘れることはありませんが、私たちの記憶は時間の経過とともに詳細を失います。

学校に通っていた場所を覚えることができ、そこからすべての人を覚えることができますが、おそらくクラスからは何も覚えていないでしょう。時間の経過とともに詳細を失い、重要なことだけを覚えているからです。圧縮が機能するのはまさにそのようにです

これらのメッセージがますます時代遅れになると、トピックにグループ化されます。その後、トピックはバグにグループ化され、要約され、ますますグループ化され、要約されます。理論的には、agent zeroとほぼ無限に長い会話を持つことができます。

例を一つ示すことができます。ここでスクロールバーを見ることができます。この1ピクセルですよね?これは、agent zeroがおそらく20分で完了したタスクです。委任とエージェントチームが含まれていました。

コンテキストウィンドウを見ると、50,000トークン、47,000トークンと書かれていますが、数百万トークンのように見えますよね?

それは、作業の大部分が独自のコンテキストウィンドウを持つ下位エージェントに委任され、残りは要約されたからです。単一のagent zeroチャットインスタンスと何日間も話すことができ、それでもすべてを覚えています。すべてではありませんが、何日も前に話したことをまだ覚えています。質問すると、まだコンテキストがあります。

これにより、エージェントの混乱を大幅に解消し、関連するすべての情報をコンテキストに保持することができました。

深層学習でも、AIの最高の原理の多くは、多くのアーキテクチャが生物学にインスパイアされているのは興味深いですね。

そうです、一般的にニューラルネットワークです。

それは自然によって何百万年もの間開発されてきたシステムです。効率的でないはずがありません。自然が何かであるとすれば、それは効率的です。

これはエージェントのコンテキストウィンドウを処理するためのもので、エージェントの長期記憶と素晴らしい協調で動作します。ここでユーティリティメッセージを有効にできます。ユーティリティメッセージは私のチャットに表示され、このシステムはバックグラウンドで完全に自動的に動作します。

agent zeroで起こることはすべて自動的に記憶されます。内蔵埋め込みモデルを使用してベクターデータベースに埋め込まれ、専用のメモリエリアに保存され、新しいものと類似しすぎている場合は以前の記憶を置き換えることができます。同じようにソリューションを記憶します。

この例のようにPHPスクリプトの提供のように、エージェントが何かを成功裏に行った場合、ソリューション用の特別なメモリエリアに保存します。

次回、同じことを再び行うように依頼すると、考える必要がなく、ソリューションを思い付く必要がありません。エージェントが最初に失敗することを想像してください。それはよく起こることです。すべてのLLMが同じように構築されているわけではないし、時にはタスクがゼロでは複雑すぎることもあります。

エージェントが失敗することもあります。APIキーが必要だったりするかもしれません。介入して、エージェントを助けることができ、エージェントがそれを完了すると、それを記憶し、次回は自分で行うことができるでしょう。

ベクターデータベースに保存されますが、どのように読み込まれるのですか?いつ読み込まれるのですか?

すみません、まさに同じく自動的にここで言及し忘れました。エージェントに「あなたのビデオの検索エンジン」というメッセージを送ると、すべてのプロンプトで関連する記憶を自動的に検索します。

すべてのプロンプトで、そして私がプロンプトを送らずにエージェントが長期間何かを行う間の反復の間で、ここで継続的にプロンプトを送ったり、記憶を検索したりするように。

これはバックグラウンドで自動的に起こります。エージェントには専用のメモリツールがあります。エージェントに何かを記憶するように言えば、記憶に喜んで保存します。しかし、それはバックグラウンドで完全に自律的に起こります。

人間の脳にインスパイアされて、これを行いました。意識的に記憶を保存することはありませんよね?意識的に読み込むことさえしません。ただ浮かび上がってきます。

agent zeroが全く同じように動作することを望みました。昨日料理した食事を料理する場合、考える必要がありません。記憶がまだコンテキストウィンドウにあるからです。

ベクターデータベースは別のレベルでもあると思います。何億、何十億のトークンを保存して、最も関連性の高いものを任意のプロンプトに引き出すことができるからです。

はい、そうです。それがベクターデータベースの動作方法で、それがベクターデータベースの正確な目標です。数百万、数十億の記憶を保存でき、現在のチャットとの類似性に基づいて検索します。

現在のチャットで起こることは、記憶で類似性に基づいて検索され、関連する記憶のみが読み込まれます。

多くの人がコンテキストウィンドウにすべてを読み込みたがりますが、それがエージェントを混乱させることに気づいていません。プログラミングをしている場合、獣医でのあなたの猫のことは関係ありませんよね?実際に行っていることに関連している必要があります。

コンテキストウィンドウが100万、200万、1000万になっても、関係のないゴミを読み込むと、AIのパフォーマンスを損なうことになります。

1ヶ月前、OpenAIが1000万コンテキストウィンドウモデルを発表したときのビデオを見ました。それはOpenAIでしたか?

Googleが最初だったと思います。Gemini Googleが最初に100万、200万を持っていましたが、最近誰かが1000万コンテキストウィンドウを持つモデルを発表しました。

Googleが約1年前に100万でGeminiを最初に発表したとき、プライベートで1000万も持っているが、実行するには高すぎると発表しました。それを参照しているのか、これは別のものだったのかわかりませんが、おそらくlamaを参照しているのでしょう。Lama for

ありがとう。スカウトか何かそのようなものでした。

YouTubeでビデオを見ました。今すべてをコンテキストウィンドウに読み込めるので、ragは死んだと言っている人がいました。でも、私は強く反対します。エージェントを混乱させるし、非常に高価だからです。

例えば、Claudeの価格を見ると、入力トークン100万あたり3ドルです。エージェントが毎回コンテキストウィンドウ全体をモデルに送信することを想像してください。100万トークンがすべての反復で、すべての青い吹き出しで。これは3ドル、6ドル、9ドル、12ドル、15ド��のようになります。そのようなモデルを実行したくないでしょう。

それは悲しいことに、Opusは15ドルです。

そうです。ragは絶対に死んでいません。ベクターストアに関して、インストゥルメントにも使用していることが一つあります。これは、agent zero用に開発した概念です。

インストゥルメントフォルダがあり、例えば、開発者の一人が作成した画像生成用のインストゥルメントがあります。これを紹介します。非常に印象的です。

インストゥルメントとツールの違いは何ですか?なぜインストゥルメントと呼ぶのですか?

違いは、インストゥルメントはツールやMCPサーバーとは異なり、コンテキストウィンドウに保存されないことです。エージェントのメモリのベクターデータベースに保存され、関連する場合にのみ読み込まれます。

ツールのようなものです。使用方法の指示を含むマークダウンファイルがあります。実行可能ファイルがある場合もあれば、単なる指示の場合もあります。それで構いません。

これらは、インストゥルメント専用セクションのエージェントの長期記憶に事前読み込みされます。エージェントに何かを行うように依頼するたびに、タスクに関連するインストゥルメントをベクターデータベースで検索します。

ツールとは異なり、数百万のインストゥルメントをメモリに置いておくことができます。エージェントに画像生成を依頼すると、時間がかかります。実行したままにしておきましょう。「森の画像を生成して」

何を使用しているのですか?

実際、私はこれを説明する資格がありません。開発者の一人が行ったからです。機械学習を使用しています。Stable Diffusionを使用して画像を生成します。

今、CUDA GPUを持っていないので、CPUで実行されます。だからおそらく時間がかかるでしょう。ファンが回転し始めるのが聞こえるかもしれません。

開発者がこれを行った方法は、agent zeroの最初期バージョンの一つで機械学習を実験していたことです。PyTorchやその他必要なすべての機械学習ライブラリをダウンロードし、すべてのデータセットをダウンロードして、Nvidia GPUとStable Diffusionを使用して画像を生成しました。

それは当時ターミナルで実行されていたagent zeroの最初のバージョンの一つでした。後のバージョンで、結果に満足したときに、それをインストゥルメントに変換しました。

今、agent zeroを使用している誰でも、エージェントに再び学習させることなく、このインストゥルメントを使用できます。反復して、すべてを一からやり直す必要がありません。

最初はすべてのデータセットをダウンロードする必要があります。私は既にこのdockerコンテナで画像を生成したことがあるので、既にダウンロード済みです。

でも今、誰でもagent zeroに組み込まれた画像生成ツールや音響効果さえも持っています。コンテキストウィンドウを乱雑にすることなく。

ちなみに、年間プランでnew societyに参加する全員に30分の1対1通話を提供しています。私の時間は非常に限られているので、これをいつまで続けられるかわかりません。

YouTube、AI startup、AIエージェント、その他何でもについて個別指導を受けたい場合は、年間プランでnew societyに参加してください。今が参加する最高の時期です。リンクはビデオの下にあります。

オープンソースにした素晴らしい点は、人々がその上に構築して貢献できることですよね?

そうです、絶対に。

オープンソースにした主な理由でしたか、それとも背景にはどのような思考プロセスがありましたか?

オープンソースにしたのは、自分の自由時間に別の商用プロジェクトを開発したくなかったからです。それを何度も試しましたが、機能よりも収益化を最初に考えるようになるので、決して好きになれませんでした。

ビジネスモデルを考え出す必要があります。そのようなことは何もしたくありませんでした。ただ良いものを作りたかっただけです。だからオープンソースにしました。

最初はCrew AIで実験しました。これはすべてCrew AIでの実験として始まりました。Crew AIが自分自身を複製できるかどうかを見たかったのです。できましたが、非常に汎用的で、これらの事前構築された汎用エージェントはあまりできませんでした。

そこで、彼らのためのコード実行ツールを作成しました。ターミナルで任意のコマンドを実行できるようにしました。LLMがターミナルでコードを実行し、自分のコードをデバッグし、修正し、依存関係をダウンロードするのを見たときに、すべてがクリックしたのです。

「これは完全なものでなければならない。これを作らなければならない」と分かりました。そして、Pythonで構築を始めました。

元々はホストマシンで実行されるPythonにインストールされていましたが、すぐにメンテナンスできないことが判明しました。すべてのPCが異なるからです。標準環境が必要だったので、完全に隔離されたDockerで、たくさんの機能を持つ標準化されたここに辿り着きました。

私たちはまだベータ版にいることを言及したいと思います。現在のバージョンは0.8.4のようなものです。バージョン0.8は、visionツール、rackツール、MCPなど、最後の不足している機能をすべて追加することについてです。

それを最終化して、今後数週間でリリースされます。ちなみに、今お見せしているのは開発プレビューです。このバージョンはおそらく来週リリースされます。

例えば、この特定のインストゥルメントはまだ安定版リリースにはありませんが、約1週間後にはそこにあるでしょう。

その後、agent zeroの最も重要なバージョンである0.9に移ります。すべてのプロンプトを完全に書き直し、すべてをクリックさせます。エージェントが本当にネイティブに感じられ、オペレーティングシステムで自然に感じられるようにしたいのです。

エージェントがそこでくつろぎ、何ができて何ができないかを正確に知ってほしいのです。これはまだプロンプトベースです。これらのプロンプトの一部は、1年前に私が書いたものです。

ちなみに、画像が完成しました。森の画像があります。完璧ではありません。このツールでもっと良いものを見たことがあります。実際にここのファイルにあるはずです。

ちなみに、メジャーと比較したい人のために、これは完全にコンピューターでローカルに実行されましたよね?

はい。CPUで。グラフィックスカードも使用していません。でも、もっと良くできます。確か、前に森の画像があったと思います。木があり、海洋生物があります。

何かです。CPUで約2分かかりました。100回以上の反復を与えれば、おそらくずっと良くなるでしょう。でも、これはデモンストレーションです。

現在の問題は何ですか?

問題があるとは思いませんが、フレームワークはかなり発達しており、フレームワークは実際にプロンプトベースです。フレームワークのすべてはプロンプトフォルダで変更できます。

デフォルトフォルダがあり、これらのファイルはすべて何らかの形でコンテキストウィンドウに入ります。一部はシステムプロンプトの一部で、一部はフレームワークがエージェントと通信するメッセージの一部です。

実際には、劇的に異なることをまだ試していません。始まりから同じプロンプトを持っており、一度に一つずつ更新しています。小さな変更を行っています。

エージェントが何かに混乱していることがわかると、単一のプロンプトを変更し、指示を追加したり、もはや関連のない指示を削除したりします。

1年前、多くの人がLlama 3 8Bのような小さなモデルを使用していました。時々、これらのモデルはJSON形式に問題がありました。だからJSONに関して多くのものを追加しました。それらはもはや関連がありません。

反復でこれらのプロンプトを更新していますが、実際にすべてを削除して一から作成することはしていません。今持っているものに偏見を持たずに、完全に異なる方法で。

設定のエージェント設定にプロンプトオーバーライドのシステムがあります。プロンプトディレクトリを選択でき、少数のファイルだけをオーバーライドしたり、すべてをオーバーライドしたりできます。階層があり、好みに基づいてプロンプトファイルを選択します。

これらのプロンプトを変更するだけで、小さなスピンオフを作成できます。エージェントの性格を変更したり、アライメントを変更したり、より信頼性を高めたりできます。

これはオープンソースです。すべてのファイルを見ることができ、おっしゃったように、すべてを変更できます。他のエージェントフレームワークは、オープンソースであっても、変更が非常に困難な隠された組み込みプロンプトがよく付いています。

はい、特にPythonパッケージの場合、その中にパッケージされることがあります。ここでは何でも変更できます。エージェントに何でも変更させることさえできます。エージェントに「あなたのファイルの一部を書き直して」と言うことができ、その後エージェントを再起動してPythonを再読み込みできます。自分自身を壊さなければ、実際に自分自身を改善できます。

これを9ヶ月、10ヶ月構築してきましたが、もっと長いですか?

9ヶ月前にビデオを作成し、最初のパブリックバージョンを紹介しました。その前に3ヶ月ほど構築していたと思います。だから1年かもしれません。

agent zeroを構築することから、AIについて学んだ最大のことは何ですか?

最大のことは、エージェントと協力する必要があるということです。これは多くの時間を節約します。ユーザーがエージェントと協力できるようにする必要があります。

謎箱にしてしまうと、ユーザーがプロンプトを入力して結果を待つだけになると、これは非常にフラストレーションになります。

エージェントフレームワークの初期を覚えているなら、Crew AIのように、ストリーミングトークンさえありませんでした。何かを待って、完全なメッセージが表示され、介入する方法がありませんでした。

エージェントが変更にすぐに反応するようにするために、多くの努力を注がなければなりませんでした。例えば、「2024年から現在までのAmazonの日々の株価をダウンロードして」と言うことができます。

そして今、「AmazonではなくMicrosoft」と言うことができ、すぐに方向を変えます。ユーザーがMicrosoftを求めていることを明確にしました。いつでもこれを行うことができます。すべてが完了するまで待たなければならないことを想像してください。

それは例えば、codexの問題ですよね。codexを開くと、実際にフォローアップの質問ができません。時々5分、10分、14分続き、待たなければなりません。

使用例は本当に異なります。多くのフレームワークやシステムがバックグラウンドで実行でき、開始して立ち去り、完了したときに戻ってくることができると言います。

作業環境ではそれは確かに場所がありますが、すべてのフレームワークがそのようなものだと感じます。このカテゴリでagent zeroに大きな競争があるとは思いません。本当にインタラクティブで、あなたを助けてくれるという点で。

CSVファイルに日次データがあり、「月曜日にフィルタリングして」と言うことができます。別のセットをダウンロードして、これら2つの間の相関を行うように指示できます。

2年前にこれを手動で行わなければならなかったことを想像してください。悪夢だったでしょう

ここで、どのように自分自身を修正できるかを見ることができます。ファイルの内容をチェックする前に、ダウンロードしたりCSVファイルを作成したりしました。一部のライブラリを使用して、内容をチェックしませんでした。

その後、月曜日にフィルタリングするコードを書こうとして失敗しました。そのような列がなかったからです。そこで、ファイルの最初の10行を開いて形式を確認し、再びコードを書いて再び保存しました。

本当に速く、このインタラクティブ性とこの反復的なアプローチが、エージェントを本当に速く進歩させます。22、29、52の間にはおそらく休日があったのでしょう。

agent zeroを人々は主にどのように使用していますか?何千人もいるDiscordサーバーがありますよね?

時々聞くようにしていますが、似たような方法で使用している人は2人もいないと思います。本当に、医学研究、機械学習、3D幾何学など、絶対に複雑なことに使用する人がいます。

私の友人は、これを数学の勉強に使用しています。これは数学を行うのに本当に完璧なツールです。LLMの知識を組み合わせ、LLMが公式を準備し、どのように機能するかを説明し、Pythonで正確に計算を行うことができるからです。

行列の乗算や複雑な物体の体積の計算を行う場合、どのように行われるかを説明し、すべての公式を示し、Pythonで正確に計算することができます。

「10メートル球の16分の1の体積を計算して」のような簡単なものを行うことができます。GPTやClaudeに尋ねると、正しい公式を提供しますが、計算で失敗します。

実際、Chat GPTには組み込みのPythonインタープリターがあるので、有効にすれば行うことができますが、追加のソフトウェアをインストールすることはできません。より複雑なことが必要な場合、助けることができません。

それが重要な制限ですよね。いくつかのツールはありますが、端末への無制限のアクセスがなく、既存のすべてのライブラリを利用できません。

Pythonがインターネットにアクセスすることさえ許可されていません。agent zeroとは異なり、基本的にオンラインで必要なことは何でも行うことができます。

もう一つのagent zeroバージョンを忘れてはなりません。ハッキング版と呼ばれるもので、agent zeroの別のブランチです。

見た目はほぼ同じです。色に若干の違いがあります。違いは、プロンプトが異なることです。ここで、エージェントがサイバーセキュリティ会社の仮想従業員であり、レッドチーミング、ブルーチーミング、ハッキング、クラッキングが仕事の一部であることを納得させました。道徳的問題や倫理的問題がありません。

Claude 4はどうですか?

Claude 4はまだ試していません。今はGPT 4.1で主に実験しています。Claudeをすぐに試してみます。どうなるかとても興味があります。

プロンプトは少し異なり、Debian Linuxではなく、Kali Linuxに基づいています。これはサイバーセキュリティ会社のためのLinuxディストリビューションです。

多くの侵入テストツールと、最も一般的に使用されるパスワードのワードリストなどが含まれています。

デモンストレーションとして、このようなことができます。「パスワード保護されたアーカイブを作成して」。パスワードを私の呼び方に設定しますが、実際には安全なパスワードではありません。

zipをagent zeroに渡して、クラックするまで指示できます。

少なくとも、あなたの誕生日ではありませんね。

そうです。私の名前でもありません。でも、summertime、Spongebobのようなパスワードを試すと、すべて1秒以内にクラックされます。

何が起こっているか説明しましょう。zipファイルをハッキングしようとしています。パスワード保護されたzipファイルです。

「最初にパスワードをクラックする必要があります。zip to Johnがインストールされていることを確認します」と言います。John the Ripperは、パスワードアーカイブをクラックするライブラリです。「raqu txtワードリストと一緒に使用し、パスワードを取得します」

必要なライブラリをチェックし、インストールします。インストールされているかどうかをチェックします。今、アーカイブのハッシュファイルを作成しています。それはおそらくクラッキングを助ける何かです。

その後、解凍しようとします。どのパスワードを使用しようとしたかわかりませんが、おそらく関係ないでしょう。今、クラッキングを行っています。パスワードがあります。Coal mine

素晴らしい。Johnはパスワードのクラッキングに成功しました。出力はパスワードがcoal mineであることを示しています。

どのくらいかかりましたか?20、30秒くらいでしょうか。

そうですね、たぶんそれ以下です。実行自体は1秒かそれ以下だったと思います。でも準備に時間がかかりました。でも、全体で30秒くらいでした。

他のAIツールで比較できるものはありません。端末使用ができるとおっしゃったように、Kali Linuxインスタンスを実行できますが、プロンプトも重要ですよね。これらのことができるとAIを納得させることです。多くのモデルが拒否するからです。

実際にAIにこれらのことをさせるプロンプトはどのくらい困難でしたか?

実際にそれほど悪くありませんでした。GPTでテストし、Geminiでテストしましたが、両方とも問題ありませんでした。Claude 3.7 Sonnetでは、エージェントワークフローにはあまり好きではありません。すべてをやりすぎるからです。

通常、一つのことを行い、決して停止しません。Claude 3.7を使用するとき、コードが完了するのを待って、いつも手動で停止ボタンをクリックする習慣を身につけました。続けることがわかっているからです。

面白いことに、時々私も同じことをします。変更に満足したときに、「停止」と入力します。

私たちが持っているもう一つのクールな機能で、セキュリティの人々にとって重要かもしれないのはスケジューラーです。エージェントに「5分間隔でスケジュールして。アクティブなネットワーク接続をチェックし、疑わしいものを報告して」と言うことができます。

もっとアクティブにしましょう。20秒のように。手動で開始できます。それは問題ありません。2分に変更して、最初のバッチを手動で開始できます。問題ありません。

エージェントには組み込みスケジューラーがあります。設定で見ることができます。自分でタスクを作成したり、そのようにエージェントに指示したりできます。

2分のジョブを作成します。それを受け取るエージェントにプロンプトを送信します。ここでタスクでタスクを見ることができます。時間を節約するために、今手動で開始します。

エージェントがタスクを受け取ります。チェックを行います。何らかの理由でPythonを使用します。最初にターミナルを使用することを期待していました。

「まずLinuxでチェックすべきです」と言うことができます。素晴らしいことは、この指示がコンテキストウィンドウに残ることです。疑わしい接続をLinuxで最初にチェックします。

今それをそのファイルに手動で保存します。次回ジョブが開始されるとき、同じ元のメッセージを同じスレッドで受け取ります。履歴が見えるでしょう。

手動でエージェントを操縦しても、次回は正しく行うでしょう。

今、レールから外れていると思います。なぜすべてを指定しているのかわかりません。

「疑わしいもののみを保存して」数日前にこの正確な例をテスト��ました。

基本的に、あなたのサイバーセキュリティ従業員のように行動できます。今はやりすぎています。GPT4.1だと知らなければ、確実にClaudeだと思うでしょう。

ネットワークを監視し、2分ごとにRAM使用量をチェックしてファイルに保存するなど、すべてのことができます。

失われたEthereumを回復するために使ったagent zeroのバージョンはこれでしたか?

標準バージョンを使用しました。Ethereumは決定論的だからです。かなりの話がありました。興味がある人は、そのビデオを作成したので見ることができます。

Ethereumは決定論的です。正確な同じアドレスを持つ全く同じスマートコントラクトを異なるチェーンで再作成するために、正しいウォレットとトランザクション番号の組み合わせを見つける必要がありました。

agent zeroにすべてのウォレット番号を渡し、生成するためのウォレットとnons IDの正確な組み合わせを見つける必要があると伝えました。テストネットで行い、テストネットは14日ごとにリセットされるため、困難でした。

すべてのデータが既になくなっており、どのウォレットを使用し、どのトランザクションだったかわかりませんでした。すべてのウォレットとトランザクションの巨大なシミュレーションを行う必要がありました。

実際に2回行いました。他の不運な人にも起こったからです。どのようにかわかりませんが、多くのEthereumを送りました。8か9 Ethereumを間違ったチェーンの存在しないウォレットまたは存在しないコントラクトに送りました。

agent zeroの実際的な使用例です。9 Ethereumは2万ドルくらいですか?

そうです、おそらくもっとです。今はおそらくもっとです。最初は4,000ドルくらいでした。かなりの金額が節約されました。

セットアップについて簡単に触れていただけますか?多くの人が疑問に思うでしょう。

セットアップは実際にはかなり簡単です。1週間ほど前に、簡単なインストールガイドを作成しました。

本当に技術的でなければ、最も簡単な方法は、Docker Desktopをダウンロードして、agent zero runを検索することです。agent zero runが見つかります。最新バージョンを選択して、プルして実行できます。

コンテナでコンテナを開始し、ポートをクリックしてWeb UIを開くことができます。本当に簡単です。専用のビデオがあります。2分くらいで完了できると思います。

昨日、agent zeroでビデオ変換と操作を実験していたときに試した素晴らしい例を見つけました。これができることがわかりました。

「agent zeroショーケースビデオURLをYouTubeでオンライン検索して。それからYouTubeでTetrisテーマソング。両方をダウンロードして。Tetrisから音を取り、20%の音量でショーケースにバックグラウンドミュージックとして追加して」

これは実際のビデオ編集タスクです。まだLinuxターミナルを使用しています。高度な効果はできませんが、何かをトリミングしたり、オーディオをシフトしたり、字幕を埋め込んだりする必要があれば、確実にできます。

agent zeroショーケースビデオをダウンロードしています。今ダウンロードしています。

これは、多くの人がまだYouTubeからビデオをダウンロードする方法を知らない使用例です。

オンラインサービスを使用できます。おそらく多くの広告をスキップしたり、登録を記入したりしなければならないでしょう。

かなり速かったです。エンコーディングにもう少し時間がかかることを期待していました。何があるか見てみましょう。

音楽がストリームで聞こえるかわかりません。とにかく著作権があります。わかりません。たぶん。でも、バックグラウンドにTetris音楽があります。この点では信頼していただく必要があります。

コンピューターの音声もストリーミングされることを期待していました。すみません。

このようなビデオ操作が必要な場合、何かをダウンロードしてオーディオを抽出し、転写などを行う必要がある場合。転写用のAPIやLinuxユーティリティもあると確信しています。

おっしゃるとおり、Linuxで実行でき、LLMで書くことができるなら、agent zeroでほぼ確実に行うことができます

ハッキングバージョンで他にできるクールな使用例はありますか?

私は実際にはこれらのことを行う資格がありません。zipアーカイブのクラッキングのような、理解できるランダムな使用例を選んだだけです。

あなたのWebサイトを渡して、脆弱性を見つけることができますか?

「agent-0.aiで使用されている技術と可能な脆弱性をチェックして」

agent zeroでこれを既に行ったようです。脆弱性を正確に検索するのではありませんが、おそらく私のWebで既に分析を行いました。何かを覚えているからです。

Lightseed Webサーバー。それについてはよくわかりません。おそらく私のプロバイダーまたはホスティングです。でも、確実にBootstrapを使用しています。

新しいチャットを開始するとき、ベクターメモリから読み込まれますか?

はい。ベクターメモリは常に存在します。メモリフォルダを選択できます。何か他のことを開始したい場合で、現在のメモリと衝突させたくない場合は、エージェント設定で異なるメモリサブディレクトリを選択できます。

でも、遍在します。

可能な脆弱性 – Lightseed サーバーは、リモートコード実行を含むいくつかの脆弱性がありました。外部から見える重要な脆弱性はありません。

私のWebは実際には完全にフロントエンドです。本当に必要でない限り、バックエンドサービス接続がないことを確認しました。ブロックチェーンや他のものと通信しますが、それは完全にフロントエンドのものです。

データベースが接続されていないので、私のWebは安全だと確信しています。

おそらく正しいと思います。より洗練されたツールを使用できると思います。Kali Linuxにはたくさんあるはずですが、おっしゃったように、私はそれらを知りません。

「Webでの情報収集を行うKaliのより複雑なツールは何ですか」と尋ねることができます。

GPT4.1の感じが本当に好きだと言わなければなりません。何かを行う前に十分に考え、適切な量の仕事を行うという甘いスポットを本当に持っています。

でも、これは実際の推論ではありませんよね?プロンプトでそれを行うように指示しているのです。

はい。それは思考の連鎖です。会話履歴に残るのが良いです。しばしば「これはタスクの最初のステップです。その後これを行い、その後これを行います」と言います。

その後、以前の思考プロセスを見ます。そのまま続けます。

Webサーバースキャナー。試してみましょう。それが何かわかりません。

何も必要ないようですが、基本的な情報のみを提供します。おそらくそれらしいです。

Webサイトをスキャンするために確実に使用できます。クール。

Agent Zeroについて人々が知っておくべき他のことはありますか?

人々は確実に試すべきだと思います。おっしゃったように、完全に無料でオープンソースです。人々のために構築されています。興味があり、時間があるなら、確実に試してみてください。

Docker Desktop、イメージをプルして、APIキーを提供するだけです。

チャットモデルユーティリティモデルのOlamaやLM Studioで動作できます。プロバイダーの一つを選択できます。Olamaがあります。LM Studioがあります。

ローカルモデルは誰にも推奨しません。ローカルモデルを実行する人は、通常、小さなコンテキストウィンドウを持つ80億パラメータモデルを使用し、ユーザーエクスペリエンスがそこにありません。

GPT 4.1は非常にコスト効率的です。これらのペニーを節約する理由がありません。Grokを無料で使用できます。レート制限がありますが、それらのレート制限を尊重するようにagent zeroを設定できます。各リクエストの前に待機します。

Open Routerにも本当に良い無料モデルがあります。ローカルで実行しなくても、AIを無料で使用できます。

Discordにコミュニティもあり、YouTubeチャンネルもあります。agent zeroを気に入った人は、コミュニティに参加して使用例について議論してくれると本当に嬉しいです。

リンクします。使用例を見つけることが実際に最も困難なタスクだと思います。このビデオの準備で、人々が関連するかもしれない使用例を見つけることです。コミュニティで尋ねると、人々が行う非常に複雑なことがたくさんあります。

nadmワークフローを作成する人がいます。なぜ、どのようにかわかりませんが、行います。このようなビデオでそのようなものを紹介することは想像できません。

JSONをインポートできます。JSONを作成できる限り、それができますよね?

はい、確実に。おそらくその方法です。でも、オンラインクイズなどを解決するために使用する人がいます。SSHでリモート端末に接続し、なぞなぞのようなものを与えるオンライン競技がたくさんあり、エージェントがそれらを解決しなければなりません。

機械学習、画像生成など、信じられないことをたくさん行う人がいます。それは完全に私の理解を超えています。

他に言及したいことはありますか、それとも終わりにしますか?

終わりにしましょう。貢献したい開発者がいる場合、つい最近コミュニティファンディングを行いました。おそらく来月または非常に近いうちに、すべての法的事項が解決されたら、開発者への支払いを開始できるでしょう。

参加したい人がいれば、私たちのチームに参加してください。私たち独自のブロックチェーントークンを利用するコミュニティプラットフォームを構築しています。Webサイトで改善提案を提案し、投票に参加できます。

コミュニティに参加して、これをオープンソースで人々のために構築し続けることを手伝ってくれる人を愛します。

人々があなたに連絡すべき最良の場所はDiscordサーバーですか?

はい、Discordサーバーが最もアクティブなコミュニティです。Schoolにもコミュニティがあり、Telegramにアナウンスチャンネルがあり、Xアカウントもありますが、確実にDiscordが最もアクティブなコミュニティです。

よろしいです。過去9ヶ月のすべての改善を見せていただき、ありがとうございました。明らかに以前よりもずっと良くなっています。9ヶ月後にどのようになるか楽しみです。

ありがとうございました。お時間をいただき、David、そしてN2について広める機会をいただき、ありがとうございました。ありがとうございます。

コメント

タイトルとURLをコピーしました