
5,150 文字

OpenAIのAgent Building Blocks(エージェント構築ブロック)は大したものなのか、それとも大きな失敗なのか、それがこの動画で探究していくことです。さっそく本題に入りましょう。
まず最初の構築ブロックはウェブ検索です。これは本当に面白いことに、彼らは素晴らしく聞こえるベンチマークを持っています。それはベンチマークに聞こえますが、彼ら自身がそのベンチマークを作ったのです。正確性のためのものですが、彼ら自身のモデルだけを比較しているとはいえ、こういったベンチマークはすでに大部分がマーケティングツールとして使われています。実際の使用状況を反映しているというよりもマーケティングのためのものなのです。自分たちのベンチマークを使って自慢するというのは、ちょっとばかげているように思えます。
さらに、これは私の会社内で、そして私たちだけではなく、1年、2年、かなり長い間持っていた機能です。検索結果を見つけ出し、それをAIモデルへのリクエストのコンテキストウィンドウに入れる能力です。これは新しい問題を解決しているわけではありません。やっていることは、おそらく少し簡単にしているか、あるいはそうでもないかもしれません。
誰かがあなたのためにこの部分を構築するとき、内部でたくさんの決定がなされます。例えば、どのようにチャンクを分割するのか、どのように特定のものを見つけるのか、いくつの結果を取得するのか、結果のどれだけをコンテキストウィンドウに入れるのか、すべてを入れるのか、一部だけを入れるのか、スクレイピングしているものをクリーンアップしているのか、どのようにクリーンアップしているのか、など全てが戻ってくる結果の質に影響する可能性があります。
彼ら自身の内部ベンチマークが改善を示していることは良いことですが、全般的に見れば、これは私にとっては大いに期待外れです。これは私のビジネスに、そしておそらくほとんどのビジネスにも、実際には何の価値も加えていません。一つの例外は、もしあなたやあなたのビジネスがこれらのことを実際に何もしていなかった場合、これは初期の開発を簡略化するかもしれません。しかし同時に、これがどのように機能するかについて、彼らにあなたのビジネスの決定を委ねることになり、そのため実際には少し自分の足を撃つことになるかもしれません。
彼らが持つ2つ目のものはファイル検索で、これは本質的に異なるファイルやそれらのファイルの一部を参照するためにベクトルデータベースを使用することです。これに対しても、ウェブ検索と同じ批判があります。これは新しいものではなく、何年も使ってきたものであり、すでに解決可能で、解決済みです。また、これは彼らが内部でどのように機能するかについて、あなたのために多くの決定をしているところです。
ベクトルデータベースを使用するにはさまざまな方法があります。例えば、データをどのようにチャンクに分割するか、大きな文書があるとして、文ごとに分割するのか、段落ごとに分割するのか、ページごとに分割するのか。彼らはあなたのためにこれらの決定をしていますが、正しい答えは一つではありません。シナリオによっては、ページで分割したい場合もあれば、文で分割したい場合も、段落で分割したい場合も、両方を使いたい場合もあります。彼らがあなたのために行っている微妙な点がたくさんあり、繰り返しになりますが、彼らは新しい問題を解決しているわけではありません。新しいビジネスや新しい人が入ってきて物事を作りやすくしているのです。それには価値があるかもしれませんが、私の意見では限界的な価値です。
GPT-4のリリースやGPT-3.5のChatGPTなどと比較して一歩下がって見てみましょう。GPT-4は非常に記念碑的な瞬間でした。それと比較すると、これはかなり些細なものに思えます。
次にコンピュータ使用についてです。これが実際に役立つかもしれない最初のものです。まだテストしていないので、別の動画で試してどれほど良いかを見てみます。Claudeのコンピュータ使用機能はちょっと物足りないです。彼らのデモではあまり多くを示していません。ここで少し見せますが、彼らは多くの詳細を提供していないので、少し整形されている可能性があります。
彼らがあまり深く掘り下げない理由があるかもしれません。おそらくClaudeと非常に似ていて、それは機能するけれど非常に遅く、機能しない部分もあり、まちまちですが、はるかに有用な何かの始まりだからでしょう。これは今でもできることですが、ウェブ検索やファイル検索よりもはるかに難しいです。AIを使用した汎用コンピュータ使用のコードや構築ブロックを実際に作成するのは、私の意見では無限に難しいです。
私はそれを構築しようとしましたが、それははるかに難しく、最終的に私と私のビジネスにとっては、コンピュータ使用に多くのものを投入する必要があるため、自分たちで構築することは意味がありませんでした。一方、ウェブ検索とファイル検索は、自分たちで構築する方がはるかに理にかなっており、はるかに単純で解決しやすいです。しかし、コンピュータ使用については、本当に役立つ使用例がいくつか見えます。それが機能することを前提としていますが、最初はかなりぎこちないと予想しています。しかし、彼らがついにこれをAPIを通じて提供し始めたことは良いことであり、改善されることを期待しています。必ずしも安全な前提ではありませんが。
実際に彼らのデモをちょっと見てみましょう。まず彼らのベンチマークを見てみましょう。繰り返しになりますが、ベンチマークにはあまり好意的ではありませんが、とりあえず見てみましょう。ここにコンピュータ使用があります。以前の最先端、これはSOTAの略です。これは不明確で、おそらくこれはClaudeかもしれませんが、現在のものは、改善されています。繰り返しますが、ベンチマークはあまり意味がありませんが、少しは意味があると思います。おそらく少し良いですが、38.1%はほとんどの自動化ケースで実際のユースケースで使用するには十分良くないかもしれません。現時点では、実際にはカスタムスクリプトが最も理にかなっています。
別のソフトウェア、オープンソースライブラリでBrowser Useと呼ばれるものがあります。ブランディングの観点からは非常に名前が悪く、ここで意味することではないと思いますが、ウェブサイトの自動化をするだけで、本当に本当に悪いです。よく失敗し、多くのものを見逃すので、これも同様の品質であることを期待しています。
AIからの応答の構造を変更しています。これがベクトルストアを行う方法のようで、最初にプラットフォームで作成する必要があるようです。ここで実際にウェブ検索を行っています。ここでの入力を見ると、実際に何が起こるかを示すために追加しています。ウェブ検索ツールの呼び出しを発行し、Kevinが彼の場所に基づいて好きそうなものを見つけに行きます。モデルは1つのAPIコール内で、ケビンのために東京にあるたくさんのパタゴニアの店を見つけることができ、これはケビンの好みに対応しており、彼は多くのパタゴニアを着ています。それほど画期的ではありません。
コンピュータ使用のユースケースを見てみましょう。あなたに代わって購入することもできます。それを実証するために、コンピュータ使用ツールを追加しましょう。コンピュータ使用プレビューモデルとコンピュータ使用プレビューツールを使用して、「友人のKevinに新しいパタゴニアのジャケットを見つけるのを手伝って。好きな色は何?」「黒」「黒のパタゴニアジャケットは多すぎることはありません」と質問します。モデルがすることは、スクリーンショットを要求し、このコンピュータ上でローカルに実行されているDockerコンテナがあり、そのスクリーンショットをモデルに送信します。モデルはコンピュータの状態を見て、クリック、ドラッグ、移動、タイプなどの別のアクションを発行し、そのアクションを実行して別のスクリーンショットを取り、モデルに送り返します。そしてタスクが完了したと感じるまでこの方法で続け、最終的な答えを返します。
彼らはコンピュータにDockerコンテナを持っていて、Linuxコンピュータのようです。彼らがそれにリモート接続していたか、別に設定されていた可能性がありますが、それがどのように設定されているかを確認する必要があります。また別の動画で撮影しますが、彼らは自動化が比較的容易なウェブブラウザを使用していることに注目してください。デスクトップ環境で自動化する場合、ウェブブラウザで自動化しようとする場合よりも情報が少ないです。ブラウザ内のHTML要素は構造に関する多くの情報を提供し、自動化ベースで操作するのがはるかに簡単です。彼らがブラウザのユースケースだけを示したという事実は、私の意見ではあまり期待できないですが、テストして別の動画でお伝えします。
次に彼らはエージェントに移行しています。最初のスライドでは3つの新しいものがありましたが、実際には4つか5つのものがあります。彼らはオープンソースライブラリのSDKを持っており、基本的にエージェントアイテムを作成できます。これは非常にLangChainに似ています。彼らはかなりの程度それをコピーした可能性があります。OpenAIは他の人がうまくやったことをコピーするのが本当に上手です。だから私の意見ではこれはあまり変革的ではありません。彼らがしていることは、より早くなにかを立ち上げる代わりに、内部であなたのために決定を下していることです。
トレードオフがあり、必ずしも全て悪いとは言っていませんが、一般的に私個人的には非常に有用だとは思っていません。少し有用になり始める可能性があるのは、繰り返しになりますが、彼らは内部で決定を下しているので、裏目に出る可能性があります。このような依存度が高いほど、より型にはまったものを構築することになり、それはある種の「堀」を持たないことを意味します。しかし、それがあなたのビジネスのニーズではないかもしれません。おそらくあなたは何かを本当に早く出す必要があるだけかもしれません。
マルチエージェントフレームワークを持つことができ、スウォーム型のフレームワークがあり、エージェント間で受け渡しができるようになっています。そして振り分けエージェントがあり、もしあなたが彼らのエージェントフレームワークを使用するなら、おそらく最も有用なものの一つは、何が起こっているかのトレースです。コード内のあらゆるアクションを追跡し文書化する能力、何が実際に起こっているのかを見る能力は、これはかなり有用です。これはおそらく最も価値を加える部分だと考えられますが、繰り返しになりますが、LangChainは1年以上前からこのようなものを持っていました。だからこれは新しいものではありません。そして本当にこの全ての中で、他の会社がすでにやっていないものは何もありません。
全体的に見て、この発表は私にとっては大きな「メェー」です。コンピュータ使用が他の誰よりも優れているかどうかによります。最初の印象では、それは違います。それは単にLangChainの作り直しのようなものです。彼らのトレースシステムに他の誰よりも優れた点があるかどうか、再びそのようには見えません。だからおそらく何かがあるかもしれませんが、ここには新しいものはありません。ここにあるのは、「ああ、神様、他の誰も構築していない、どこからでも手に入れることができない」というようなものではありません。だから全体的に、これは大きな「メェー」だと言えるでしょう。
しかし同時に、エージェントを構築したことがなく、ウェブ検索を使用したことがなく、ベクトルデータベースを使用したことがなく、何かを素早く出したいと考えていて、PythonやJavaScriptなどの上位言語を知っているなら、これは実際にあなたにとって役立つかもしれません。
これが「メェー」だったという最大の手がかりは、ここにサム・アルトマンがいないことでしょう。しかし同時に、「ワオ、彼らはゲームを再び変えた」と主張する人たちを見ましたが、それは非常に正確な描写だとは思いません。
この動画が気に入ったなら、いいね、シェア、登録をお願いします。ありがとうございます、素晴らしい一日をお過ごしください。さようなら。


コメント