Anthropicの新しいエージェント型コンピューター操作機能を初めて使ってみた!

AIに仕事を奪われたい
この記事は約7分で読めます。

4,078 文字

https://www.youtube.com/watch?v=Oy6UNJ1BKOI

みなさん、こんにちは。今日は2024年10月22日です。OpenAIの主要な競合であるAnthropicが、Claude 3.5 SonetとClaude 3.5 Haikuをリリースしました。そして本日の最大のニュースは、computer useという新機能もリリースされたことです。
これはAnthropicのAPIで利用可能で、開発者はClaudeを使って画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりしてコンピューターを操作できます。
これはとても興味深いことです。というのも、AGIへの5段階のパスを考え出したのはOpenAIやと思うんですが、そのリストの中でエージェントは確か2番目か3番目やったと思います。もしかしたら3番目やったかもしれませんが、間違ってるかもしれません。
でも重要なのは、Anthropicが実験的なエージェントの開発で先手を打ったように見えることです。これはOpenAIからの反応を必要とすることになるでしょうが、とりあえず私はこの機能の使い方を実際に理解しようと思いました。
みなさん、今めっちゃ間抜けな気分です。AnthropicのComputer Useを使用してる様子を全部録画したんですが、マイクの電源を入れるのを忘れてしもて。完全に無音になってしもたんです。
最初から全部録り直そうとは思わんかったんです。だって、あれが正直な初めての試みやったし、一番素直な反応やと思ったからです。なので、そのまま使わせてもらいますが、後から解説を入れさせてもらいます。
最初から録り直すんじゃなくて、その時に考えてたことやタスクの内容について、より詳しいフィードバックができると思います。キーボードをカチャカチャ打ってる音とか、その場での思考プロセスの音声は無いんですが、できる限り説明させてもらいます。
まず最初に、このAPIの使用経験があんまりなかったんで、インストール方法を理解しようとしてました。Dockerを使う必要があることに気づいて、Claude Sonnet 3.5自体にComputer Useデモのセットアップ方法を教えてもらいました。
すごく助かったんです。実際にDockerでこれを動かすことができました。私のパソコンにはすでにDockerが入ってたんで、その部分は済んでました。
この動画でも言うてましたが、Claude Sonnet 3.5が手順を教えてくれて本当によかったです。でないと、この全プロセスを理解するのに24分以上かかってたと思います。
これは、Dockerコンテナがロードされるのを見てる場面です。ここでエラーが出たんで、このエラーメッセージについて「これどういうことですか?」って聞きました。ポートエラーで実行できへんかったんです。
追加の指示をもらって、最終的に「Computer Useデモの準備ができました」って表示が出ました。これが、Claude Sonnet 3.5のComputer Use機能を使い始められた最初の瞬間です。
ここに進むと、インターフェースがこんな感じになってます。「Claude Computer Useデモ」って書いてあって、何を指示しようか考えてました。
最初のタスクは、Wikipediaページにあるアルバート・アインシュタインの写真のスクリーンショットを撮ることでした。これが展開されていくのを見るのは結構面白かったです。
左側のステップを見ていくと、エージェントが動き始めます。Firefoxを開いて、Wikipediaに行って、アインシュタインのページを開きます。タイピング自体は見えないんですが…あ、今見えましたね。でもすごく速いんです。
今からアインシュタインの画像を右側でクリックして開こうとしています。もうすぐそうなるはずです。「より良い表示のために拡大して、フルサイズで開きます」って言ってます。
待ってる間、このきれいな実行中アイコンが見えますね。開きました。面白かったのは、写真を撮るだけじゃなくて、写真の設定や、アインシュタインが着てる服装、表情まで説明してくれたことです。
それを頼んだわけじゃないんですが、自分なりの視点を提供してくれました。これが最初のタスクでした。
次のタスクでは、WolframAlphaでln(x)の積分をしようと思いました。今ちょうどそれを考えてる場面です。「WolframAlphaでln(x)を積分して」って入力しようとしてます。
元の録音が残ってなくて残念です。というのも、不定積分がx ln x – x + C、もしくはx(ln x – 1) + Cってその場で言えたからです。
なんかこの関数を積分するのが好きなんです。テスト関数として使うのが好きなので、その瞬間に思いついたんです。
それから、Firefoxでエラーとは言いませんが、このページから出て、WolframAlphaに直接行かなあかんかったんです。関数の積分を始めようとしています。
待ってる間に使用してるツールが見えますね。また言いますが、タイピングがめっちゃ速いんです。一瞬で…戻って見てみましょうか。ほんまに一秒くらいで、反応する暇もないくらい速くて、すぐにエンターを押します。
答えはx ln x – 1 + Cでした。ここでエラーが出たか、それとも実行し続けてたんだと思います。スクリーンショットを撮るように言わなかったせいか、何をすればいいか分からなかったんでしょう。
もしくは、スクリーンショットを撮ろうとしてて時間がかかりすぎたんで、結局イライラして上の停止ボタンを押しました。
スクロールしていくと…そうですね、ここで停止ボタンを押しました。正しい答えがここに残ってます。
最後のタスクは、ちょっとオープンエンドなものでした。「統計物理学を勉強するのに役立つ、Googleの1ページ目にある最良の無料オンラインリソースを見つけて」って頼みました。
信頼できるウェブサイトだけをクリックして、そのリソースのホームページのスクリーンショットを撮るように言いました。これをお願いしたのは、かなりオープンエンドなタスクを与えたかったからです。
特定のページは指定せず、Googleのホームページには10個の選択肢があるわけですから、統計物理学の情報を得るのに最適なサイトをどう判断するか見てみたかったんです。
ちなみに、統計物理学は学部と大学院の両方で私が最も苦手とした物理学の科目でした。だから、どんな推奨をしてくれるのか純粋に気になったんです。
結果は全然disappointingじゃなかったです。MIT OpenCourseWareを選んでくれました。AIの概要を見て、ここで判断を下したようです。
Googleのホームページにいる間、かなり時間がかかりました。30秒くらいかかって次のプロンプトを出してきました。「MIT OpenCourseWareが統計物理学を学ぶための最良の無料リソースとして推奨されています。このリンクをクリックしてコースページのスクリーンショットを撮ります」
OpenCourseWareのページに行きました。ここで止まると思ってたんです。OpenCourseWareのページにはいるけど、統計力学のページじゃないから混乱するかなって思ったんです。
でも実際には、さらに一歩進んで統計力学自体を入力してくれました。ここでエラーが出たんですが、それは毎分のトークンリクエスト制限に達したからだと思います。
このエラーを見てから動画を終了しましたが、MIT OpenCourseWareのページに行くだけじゃなく、私が見たかった統計力学のページまで見つけ出そうとしたことには感心しました。
ここで終わりにして、感想を共有しました。ここでも同じように共有させてもらいます。
この体験はとても興味深かったです。AnthropicのAPIを使うのは初めてで、ちょっと躊躇してました。ちゃんと理解できるかなって。でもClaude Sonnet 3.5の助けを借りて、理解してComputer Useデモを動かすことができました。
まだ、これをどんな用途に使いたいか全部は考えついてません。他の人がどんな使い方を思いつくのか、すごく気になります。
他に考えてることは、もしAIエージェントが特定の、時には特定じゃない要求も上手く実行できるようになったら、どんな仕事が影響を受けるんやろ?経済にはどう影響するんやろ?人々にはどう影響するんやろ?人工知能エージェントがついに登場したという外部からの力に、すべてがどう反応するんやろ?ということです。
また、OpenAIは今後どうするんやろ?って考えてます。Anthropicが手の内を見せて、開発してきたエージェントを披露した今、どう出てくるんやろ?
最後に考えてたのは、AIエージェントがコンピューターを使えるようになるのは、ちょっと怖いということです。ちょっとディストピア的というか、ターミネーターっぽいというか、マーベルファンの人なら分かると思いますが、エイジ・オブ・ウルトロンっぽい感じがします。
ちょっと心配ですが、これらの企業がレッドチームを組んで、安全性レベルを評価して、ポジティブな使用例にのみ導入されることを保証してくれることを願ってます。
もちろん、それを保証したり、彼らが具体的に何をしてるのかを知ることはできませんが、とにかくこれがAnthropicのComputer Use機能を初めて使った後の感想です。
見てくれてありがとうございます。音声の件は申し訳ありません。普段はノートパソコンで撮影しないんですが、APIセットアップとDockerセットアップのためにMacを使いたかったんです。
音声を失敗してしまって申し訳ないですが、動画が参考になって、後からの解説も役立つものであったことを願ってます。
それでは、良い夜を。また次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました