OpenAIが新たにAPIを通じてコンピュータ使用機能をリリース

5,930 文字

OpenAI Faz NOVO Lançamento do USO DO COMPUTADOR através da API

Aprenda Inteligência Artificial! ▸ Seja MEMBRO: ▸ ▸ Instagram:

皆さん、OpenAIはライバル企業に追い立てられ、今日エージェントツールをいくつかのAPI更新と素晴らしい新機能とともにリリースしました。彼らに私たちのために働いてもらいたい人には嬉しいニュースです。一緒に何が起きているのか見ていきましょう。
いつものように、いいねをくれた皆さん、チャンネル登録してくれた皆さん、そして特にこの人工知能チャンネルをスポンサーしてくれているメンバーの皆さんに感謝します。メンバーの方々は、エージェントについての詳細な解説を含む限定動画にアクセスできることをお忘れなく。
今日OpenAIで何が起きているのか見ていきましょう。基本的な考え方はこうです。OpenAIにはオペレーター、検索、ファイルアクセスなど、これまで非公開でリリースしてきた一連のツールがあり、今回それらをAPIを通じて私たちが利用できるようにし始めました。
彼らが最初に言及しているのはまさにこれ、APIを通じてウェブ検索を行う機能です。「でもBob、なぜOpenAIのAPIを使ってウェブ検索をしたいのか？インターネットで検索して任意のAIに利用させればいいじゃないか」と思うかもしれません。その通り、理にかなっています。しかし、サイトから十分なデータをスクレイピングする時間がなかったり、関連性のないデータをフィルタリングしたり、サイト内で本当に興味のあるコンテンツを見つけることができない場合、今あなたには選択肢があります。これはとても役立つかもしれません。
質問応答のベンチマークでは、検索モデルのGPT-4oとGPT-4o Miniは90%と88%の結果を出し、他のモデルよりはるかに高く、彼らの検索が素晴らしいことを示しています。
彼らがもたらしているもう一つの新機能は、APIを通じてファイル検索を行うFile Searchです。「でもBob、これの何が新しいの？RAGを使って検索したことがない人なんているの？」という声が聞こえてきそうですが、これはOpenAIのバージョンです。以前はアシスタントを作成し、そのアシスタントにファイルを添付して、それらのファイルを使うためにそのアシスタントに制限されていました。今では少し違います。ファイルIDを持ち、アシスタントを必要とせずにAPIで簡単に使用できるようになります。
最後に、Computer UseもまたAPIに追加されています。エージェントがコンピュータ画面を見て何が起きているかを識別し、ここをクリックしたり、そこをナビゲートしたり、サイトに入ったりする機能が、今やAPIでも利用可能になります。
実際にはどう変わるのか？実際には、APIがこれらの検索リクエストであるレスポンスを使用することになります。GPT-4oモデルを使用し、任意の質問をします（例えば「ジョークを言って」など）。これを行うと、チャットから通常の応答が返ってきます。
しかし、これらのレスポンスを使用して何が違うのかというと、彼らはここでベクトルストアを作成します。それはOpenAI内の場所で、例えばファイルでいっぱいのフォルダです。ここでは彼らは人々の名前とその人々の好みや趣味を説明する多くのファイルを持っています。このフォルダにはIDがあります（vs-67CF…という変な番号）。このベクトルストアのIDをレスポンスに渡し、キーとして「username」、値として「Willan」を設定します。
そして「Willanが着るのが好きなものを要約してくれますか？」と尋ねると、それらのファイルにアクセスし、Willanの好みを理解して、そのファイルで見つけたすべてのことに応答します。これは非常に興味深いことです。なぜなら今、インターネットでの検索とファイル内の検索をAPIを使って行い、エージェントがツールを使用できるように準備することができるからです。これが興味深いポイントです。エージェントはツールを使い始めるのです。
彼らはここでもデモを行っています。ウェブ検索を設定し、例えば東京など特定の場所を指定し、ショッピングアシスタントだという指示を変更しています。これは、人の好みについての質問をすると、特定の場所を指定して、アシスタントはその人のプロフィールに基づいて対象を絞った検索を行い、例えば購入を行うことができるということです。「私が好きそうなジャケットを近くで見つけて」と言うと、パラメータで指定した人の名前と都市を使用してファイルからその人の好みを検索し、東京の近くで買い物をするためのものを探します。画面に固定パラメータを表示していることを忘れないでください。会話に応じて変化する設定可能なものとして設定することもできます。検索結果は、この人の好みに基づいて一連の回答（パタゴニアのジャケットなど）をもたらします。
最後に彼らはコンピュータ使用プレビューを示しています。これもコンピュータにアクセスするモデルです。基本的なアイデアは、画面のスクリーンショットを撮り、何が起きているかを確認し、インターネットへのアクセス、ブラウザへのアクセス、コンピュータで何かを行うのを助けるというものです。重要なことは、これが特定のPC上の並行した場所であるサンドボックスでナビゲーションを行っているということです。これはビデオでは示されていない設定の詳細ですが、このコンピュータ使用機能を利用するためには必要です。私の経験では、コンピュータ使用ツールを使用するのは少し複雑です。単純に質問するだけでコンピュータを制御し始めるわけではありませんが、統合する準備はできています。
プレゼンテーションの最後に、彼らはエージェントツールについて話し始めます。これはオープンプロジェクトで、外部ツールであり、以前にSwarmと呼ばれていた古いプロジェクトの継続ですが、現在はOpenAI-Agentsと呼ばれるPythonパッケージで、間もなくJavaScriptでも利用可能になります。ここでの基本的なアイデアは非常にシンプルです。エージェントがあり、そのエージェントはウェブ検索を行うことができ、彼らが作成したばかりのAPIツールを使用しているファイル検索を利用することができます。
ここではエージェントのオーケストレーションを行います。スタイリストエージェントを作成し、スタイリストエージェントがどのように機能するかを説明し、アクセスすべきファイルを渡し、ウェブ検索ツールを有効にします。しかし、ここでの違いは、全システムがエージェントとしてそのツールを持って機能することです。例えば、ここで顧客サポートエージェントを作成します。このエージェントは製品の返品を処理し、返品を依頼されると、人の注文を検索する機能にアクセスします。返品する必要があるものがあれば、それらのファイルで見つけた情報に基づいて返品を行います。
彼は2つのエージェントを作成しました。1つは購入を行い、もう1つは返品を行います。これにより、企業の製品の購入と返品を管理するエージェントシステムを作成できます。見ての通り、トリアージエージェント（初期エージェント）を作成しました。このエージェントは顧客のリクエストを受け取り、スタイリストエージェントまたは返品エージェントのどちらに送るべきかを判断するためのトリアージを行います。
そして、「パタゴニアのジャケットを多く注文しすぎたと思います、1つ返品するのを手伝ってもらえますか？」と顧客が尋ねると、エージェントは検索を開始し、相互作用を始め、行われたジャケットの注文を見つけ、このエージェントオーケストレーションシステムを使用して1つを返品します。
素晴らしいですね、皆さんどう思いますか？価値がありますよね？そして興味深いのは、私たちの目の前で起こっているすべてがログに記録されていることです。バックグラウンドで一連のリクエストが行われています。例えば、トリアージエージェントが返品エージェントを呼び出し、その後返品エージェントが作業するか、またはトリアージエージェントがスタイリストエージェントを呼び出すなどです。これらのオーケストレーションは必要に応じて発生します。
人がクリックして、例えばこのトリアージエージェントで何が起こったのかについての詳細をもっと知りたい場合、クリックするとステップバイステップで正確に何が起こったかが表示されます。トリアージエージェントがメッセージを受け取り、サポートエージェントを呼び出すツールを呼び出します。そしてサポートエージェントが活動を開始し、メッセージを受け取り、以前の注文を知るための呼び出しを行い、応答を送信します。会話はこのように進みます。これらはすべて記録され、エージェントのアクションに登録されています。これにより、発生しているすべてを制御し、マルチエージェントシステムが行うすべてのトランザクションの各ステップを理解することができます。
プレゼンテーションでは言及されていない興味深いことがあります。今日から、コンピュータ使用ツールは、使用レベル3から5までの選択された開発者向けに、レスポンスAPIで検索プレビューとして利用可能になります。これは、OpenAIのコンソールに入り、制限を確認し、どのレベルかを確認する必要があるということです。例えば、私はTier 3でちょうど良い制限ですが、このレベルに到達するまでには一定の時間がかかります。企業の信頼を得るために支出を増やす必要があり、実際にこのレベルに達するまで時間がかかります。
彼らはここで、各レベルで物事がどのように機能するか、何をする必要があるかの説明を提供しています。例えば、Tier 3では最低$1を使用し、最後の支払いから少なくとも7日が経過している必要があります。つまり、使用を開始する前に企業の信頼を獲得する必要があるのです。ここでTier 3で与えられる最大使用制限は月額$1,000です。
コンピュータ使用の価格は、入力トークンあたり$3/100万トークン、出力トークンあたり$12/100万トークンです。この価格問題については既に議論しました。価格が$0.10を超えると高くなり始めます。$0.03はすでに$0.01の価格の3倍を超えており、出力の$0.12のトークンも高価です。しかし、この価格レベルは、数セントかかるモデルのように使うのではなく、適度に使用する必要がある価格です。
エージェントは通常非常に長いアクティビティチェーンを作成する傾向があり、これによりコストが大幅に増加する可能性があるため、使用時には価格に十分注意する必要があります。価格に注意を払わないと、月末に驚くことになるでしょう。
一方、レスポンスAPIの価格については、「レスポンスAPIには別の価格はない。トークンは選択された言語モデルの入出力レートで課金される」と述べています。つまり、GPT-4oまたはGPT-4o Miniでレスポンスを使用している場合、トークンの通常の価格になります。例えば、GPT-4oの入力は$3.75/100万トークン、出力は$15/100万トークン、Miniでは入力は$0.30/100万トークン、出力は$1.20/100万トークンです。
OpenAIのエージェントSDKを使用したい場合は、別途インストールする必要があります。しかし、非常に簡単です。いつものように「pip install openai-agents」を実行します。ここにはPythonで作成されたAPIを使用して最初の「hello world」を作成する方法について、非常に良い簡単な例があります。JavaScriptでも後で作られるとコメントしています。
コンピュータを使用するためにComputer Use Previewモデルを使用したい場合は、少し複雑です。いくつかのステップを実行する必要があり、最も重要なステップの1つは環境の設定です。ローカルナビゲーションを行うか、ローカル仮想マシンを設定することができます。ここに説明があります。展開するだけで、ローカルナビゲーションを行う方法の正確な説明があります。
例えば、ここでPythonを使用しています。PlaywrightまたはSeleniumを使用した自動化を利用しています。プログラミングに慣れている場合は、これらがリモートナビゲーション用に作られたインターフェースであることを理解しているでしょう。一方で、ローカル仮想マシンで行うこともできます。その場合、Dockerについてもう少し詳しく知る必要があり、少し複雑になりますが、少しの忍耐があれば誰でも達成できます。
彼らが示す基本的なワークフローは、リクエストを受け取るComputer Use Agentモデルがあり、Computer Use Callを行い、アプリケーションを呼び出し、アクションを実行します。そのアクションはコンピュータで実行され、コンピュータのスクリーンショットを撮ってComputer Useに送信し、正常に動作したかどうかを確認します。そして、あなたが依頼したタスクを実行しようとするこのループで続けます。
チャンネルのメンバー向けに、特にこのComputer Use部分は非常に複雑であるため、これらがどのように機能するかについてより詳細な動画を作成する予定です。単純に始めるだけではないので、これにより、より高度なことができるようになります。これは本当に素晴らしいことです。
Anthropicのツールを使用したComputer Useの動画を既に作成したことを覚えておいてください。また、自分で一歩ずつ作成した「Tabajara版」のComputer Useの別の動画も作成しました。これらのツールがどのように機能するのか、ステップや開発者の推論プロセスがどのようなものかについてのアイデアを得るために見る価値があります。
中国のDeepSeekからの競争があることは幸いです。彼らは既に皆を走らせ、今や彼らはOpenAIを再び走らせました。これは、中国が皆を突き動かし続け、皆を加速させ続ければ、年末までに多くの新機能が登場し、AI界はますます急速に成長し続けるでしょう。
このような動画を続けて見たいなら、チャンネルをサポートしてメンバーになってください。メンバーはWhatsAppグループへのアクセス、先行公開動画などの特典があります。いいねを忘れずに！