OpenAIのCodexに新たに搭載されたコンピューター操作(Computer use)機能の解説動画である。従来のコード生成だけでなく、GUIを持つローカルアプリをAIが直接操作し、バックグラウンドで自律的にタスクを処理する仕組みを紹介している。簡単な初期設定、複数アプリの同時操作、アクセシビリティ技術とSparkモデルを組み合わせた高速化、そしてアプリごとのアクセス許可による安全設計について詳しく解説されている。

Codexが実現するローカルアプリの直接操作
両方のカメラを回しますね。素晴らしい、ありがとうございます。はい、皆さんこんにちは、ロマです。Codexはコーディングエージェントから本物のチームメイトへと急速に進化を遂げました。しかも、もう単なるコーディングのチームメイトにとどまりません。文字通りあらゆるタスクにCodexを活用できるようになり、今回のコンピューター操作機能はその変化の大きな部分を占めています。これによりCodexは、ツールやファイルの枠を超え、ローカルアプリを使った皆さんの実際の作業領域へと入り込んできます。今日は、この課題について長年考えてきたアリに参加してもらいました。さてアリ、なぜコンピューター操作なのでしょうか。その仕組みについて詳しく教えてください。
コンピューター操作については私も本当にワクワクしています。Codexはこれまでもコマンドを実行したりコードを書いたりできたので、皆さんのコンピューター上で本当に多くのことをこなす能力を備えていました。あらゆる種類の問題を解決できるわけです。今回新しくなったのは、コンピューター上にあるグラフィカルユーザーインターフェースを持ったソフトウェア全般を扱えるようになった点です。人間が目で見て、マウスを動かしてクリックし、タイピングして使うようなものですね。そして今や、Codexもそのすべてを皆さんの代わりに実行できるようになったんです。つまり、文字通りコンピューター上のあらゆるアプリケーションを使えるということであり、これは非常に強力です。こうして形になり、人々が本当にさまざまな用途に使えるものを作れたことをとても嬉しく思っています。
スムーズな初期設定とオンボーディング
私が非常に素晴らしいと感じたことの1つがオンボーディングです。この動画を見てCodexを始めたい、この驚くべき機能を試してみたいと思っている人にとって、一番最初のオンボーディング画面はとても簡単なんですよね。ぜひ見せてもらえませんか。
ええ、喜んで。これがコンピューター操作を使う最初の機会だとしましょう。まず私の許可を求めてきます。そこで許可すると、Codexのコンピューター操作を有効にするというウィンドウが表示されます。許可を押すと、パネルがそのまま設定ウィンドウへとアニメーションで移動し、どこを見ればいいのか、次に何をすべきかがすぐにわかるようになっています。ドラッグする方法や、リストをドラッグする方法も教えてくれます。システム設定に変更を加えるため、ここで承認が必要になります。そして今、たった2回のドラッグで全体の設定が完了しました。ほら、見ての通り、私の代わりにクリックしてタスクをこなし、もう終わってしまいました。
驚きですね。ええ、本当に。
バックグラウンドでの自律的なアプリ操作
素晴らしいですね。では、実際のコンピューター操作を見てみましょう。何かお見せできるタスクはパッと思いつきますか。
もちろんです。私がたまにやらなければならないことの1つに、古いMacのオペレーティングシステムでソフトウェアをテストするという作業があります。そのために仮想マシンを使っているんです。UTMというお気に入りのアプリがあるのですが、仮想マシンの作成は結構面倒なんですよ。いろいろな場所をクリックして、Mac OSの設定アシスタントを走らせないといけませんから。
まさにうってつけのユースケースに聞こえますね。
完璧なユースケースです。エージェントに代わりにやってもらえば、これからは大幅に時間を節約できます。では、Codexを開いて、UTMで新しいMacの仮想マシンを作って、と入力してみます。アットマークを打つと、私のコンピューターに入っているアプリのリストが表示されるので、クエリを実行すると、実際に選択したアプリを使い始めます。今回の場合はUTMを起動しますね。ここでお見せできるのは、アプリが起動してエージェントがアプリを使い始めると、カーソルが飛んでくる様子です。
それはすごいですね。
とてもかっこいいんですよ。さらに素晴らしいのは、それが私のカーソルとは別物だという点です。つまり、私がコンピューターでやっている作業を邪魔することなく、Codexがあちこちクリックできるんです。
Codexがバックグラウンドで作業している間も、自分のコンピューターを使い続けられるということですね。
はい、まさにその通りです。多くのコンピューター操作の実装、というより私がこれまで見てきたすべてのコンピューター操作の実装は、コンピューター全体を乗っ取ってしまうものでした。そのため、エージェントがアプリを使っている間は、自分のコンピューターを使うことができなかったんです。そうこうしているうちにもう終わりましたね。Mac OSをダウンロードしているようです。
Mac OSをダウンロードしているんですね。ええ、Mac OSのダウンロードが終われば、次のステップ、つまり実際にMac OSのセットアップを行うことも完了できます。
それだけでかなりの時間の節約になりますね。
マルチタスクとアクセシビリティ情報の活用
バックグラウンドで別のコンピューター操作のタスクも試してみましょうか。複数同時に実行できるのですか。
もちろんです。Spotifyで仕事用のいい音楽を流したいとしましょう。すると、エージェントがSpotifyを使い始めます。でもこれの本当に強力なところは、複数のアプリケーションをまたいでタスクをこなせることです。複数のアプリで同時に複数のカーソルを動かすことができるんです。だから、リマインダーアプリに今夜税金の書類に目を通すようにリマインダーを追加して、と頼んでみます。
音楽が流れてきましたね。
音楽がかかりました。Spotifyがリマインダーの追加も始めてくれています。こうして突然、私のMacがマルチタスク環境になり、一度に多くの作業をこなせるようになりました。自分が時間を割きたくないことはすべてエージェントに任せられるんです。
なるほど、それは本当にすごい。今、バックグラウンドでCodexが操作しているアプリが3つもあるのに、カーソルの動きもとても見ていて楽しいですね。これについてもう少し詳しく教えてもらえますか。
はい、使っていて楽しく、自然に感じられるものを作りたかったんです。アプリを操作している様子を見ているとき、カーソルの動きは重要ですよね。何をしているのか理解したいですから。そこで私たちは、自然に感じられ、少し遊び心のある動きの曲線を見つけることに力を注ぎました。矢印が動く方向に向きを変えるので、画面上を泳いでいるように見えるんです。これが使っていて楽しい理由です。
ええ、エージェントがそれぞれのアプリで実際に何をしているのかをよりよく感じ取り、理解できるという意味でも本当に素晴らしいですね。
私もとても気に入っています。もう1つ触れておきたいのが、Sparkのようなより高速なモデルでコンピューター操作を使用できるという点です。マルチモーダルとアクセシビリティの組み合わせについて、皆さんがどのように取り組まれたのか詳しく教えてください。
はい、モデルとの連携方法において、私たちは本当にエキサイティングなものをいくつか開発しました。そしてこれは、私たちができることのほんの始まりに過ぎません。歴史的に見ても、コンピューター操作はスクリーンショットでのみ機能するものでした。マルチモーダルモデルの能力を活用しているわけです。モデルはインターフェースを見て、座標を使ってクリックやタイピングを行います。それはそれで素晴らしいのですが、実はアクセシビリティフレームワークを通じて、アプリケーションのインターフェースに関する隠された情報を抽出できることがわかったんです。私たちは、モデルの能力を高める形でこれを活用する方法を解明するのに多くの時間を費やしました。インターフェースを説明するテキスト情報の束を抽出し、モデルはそれを使って画面外にスクロールされているものまで見ることができます。画面上にある各要素の役割をより深く理解できるんです。これにより、モデルはタスクを信じられないほど正確に実行できるようになります。そしてもう1つの利点、先ほどおっしゃっていたことですが、必ずしも画像を必要としないため、CodexのSparkのような超高速な非マルチモーダルモデルを使用できることです。そのため、これらのモデルのいずれかを使用すると、人間よりもさらに速くソフトウェアを操作できるという体験が突然可能になります。
それは驚異的ですね。これらのタスクの1つを実際に試してみましょうか。例えばモデルをSparkに切り替えるような感じで。
ええ、もちろんです。メッセージアプリでアプリのデバッグ用にコンピューター操作を試すよう頼んでみます。これからお見せしますが、以前のコンピューター操作もかなり高性能でしたが、現在のSparkモデルではまさに超人的です。文字通り人間よりも速くソフトウェアを操作します。ここで見ていると、テキストを開いて、私宛にメッセージを入力し、あっという間に送信してしまいました。
信じられませんね。
かなりヤバいですよね。これをバックグラウンドでやってのけたんです。私は同時にコンピューターで別のことができましたし、超高速です。
届きましたね。
はい、受け取りました。素晴らしい。アプリのデバッグにコンピューター操作を試すように言っていますね。すごいです。
コンピューター操作の未来と安全性
信じられません。Skyからの知識をCodexアプリに大いに注ぎ込んでくれたのですね。本当に素晴らしいです。現在OpenAIの研究チームと一緒に仕事をしているわけですが、コンピューター操作の未来はどのようなものになると見ていますか。
そうですね、OperatorやChatGPT agentのような以前の製品では、コンピューター操作専用のモデルを訓練していました。その後、研究チームが素晴らしい仕事をしてくれて、これらの機能をメインのGPTモデルに実際に組み込むことができました。現在私たちは、APIを通じて利用可能なものと同じモデルを使って、このCodex上にシステムを構築しています。誰でもこの素晴らしいコンピューター操作の機能を構築できるんです。これは本当に素晴らしいことですし、社内のワークフローを合理化する上でも大いに役立っています。メインラインのモデルやSparkを使って、これほど早く機能するようになったのは本当に驚くべきことだと思います。しかし私たちは、コンピューター操作が超人的なレベルに到達する場所を目指したいと考えています。コンピューター操作が人間の2倍、5倍、10倍の速さでコンピューターを操作できるようになる日が来ると信じています。そしてその時こそ、これが不可欠なものになるはずです。多くのコンピューティングタスク、つまり生活の中で行うありとあらゆることに対してこれを使いたくなるでしょう。膨大な時間を節約でき、本当に重要なことに集中できるようになります。そこに至るロードマップがどのようなものになるのか、本当にワクワクしていますよ。
1つ触れておきたいのですが、皆さんが気になっているかもしれないのが、これらすべてに対する安全面へのアプローチです。CodexがMac上のアプリを操作できるという驚くべき機能があるわけですが、皆さんは安全性についてどのように考えていますか。
それは非常に良い質問ですね。この種の技術は、ある意味で恐ろしいものになる可能性を秘めていると感じています。なぜなら、あなたがコンピューター上で行うであろう操作を実際に引き受けるわけですし、非常に多くのものへのアクセス権を持つからです。ですから、人々がこの技術を本当に安心して使えると感じることが非常に重要だと考えており、その実現方法について多くの時間を費やして考えてきました。ここで行ったことの1つは、コンピューター操作を、あなたが許可したアプリケーションにのみアクセスできるようにしたことです。Codexが初めてアプリを使用しようとするたびに、あなたの許可を求めます。そしてあなたがはいと答えると、Codexはそのアプリを見てタイピングすることはできますが、コンピューター上の他のどのアプリも見たり操作したりすることはできません。ですから、もしあなたのアプリケーションの1つに少し機密性の高い情報が入っていたとしても、Codexは開発用アプリケーションや生産性向上アプリケーションにはアクセスできても、より機密性の高いものにはアクセスできないとわかっているので、非常に安心できるはずです。これがユーザーにとって大きな信頼を築くことにつながると思います。
全くその通りですね。本当に素晴らしいです。デスクトップ全体をストリーミングしたり、すべてのファイルにアクセスしたりするわけではないですから。ケースバイケースで、アプリごとの対応なんですよね。生産性を上げようとする中で、Codexにそのための許可を与えていくわけです。もちろんこれはシンプルなタスクですが、コンピューター操作の力を見せてもらった今、ご自身ではコンピューター操作を何に使ってきたのか気になります。これを使って体験した魔法のような瞬間とはどんなものでしたか。
そうですね、財務管理などに使っているスプレッドシートがたくさんあるのですが、今ではCodexに頼んで更新してもらっています。もう自分でやる必要はないんです。本当に、本当に強力ですよ。
それはすごいですね。最近では、Codexなしでタスクを始めることすら想像しにくくなっています。
ええ、全くその通りです。最近は何か新しいことを始めようとするとき、それがプログラミングであれ、コンピューター上の別のことであれ、まずはCodexに頼りたくなります。ものすごい時間を節約してくれますからね。これまでファイルシステムがあり、オンラインのサービスにアクセスするためのプラグインもありましたが、最後に欠けていたピースが、ローカルアプリにアクセスするためのコンピューター操作だったように感じます。
間違いなくそう思います。特に私の場合は、本当に多種多様なアプリケーションを使っています。ウェブアプリケーションもたくさん使いますし、Appleネイティブのアプリもよく使います。実はスプレッドシートの管理はNumbersアプリで行っているんです。今回の機能によって、そういったものがすべてオンラインになり、Codexが端から端までアクセスできる場所に統合されました。
締めくくり
本当に素晴らしいですね。アリ、ありがとうございました。
コンピューター操作は、実際に試してみるまではその真価を完全に理解するのが難しい機能の1つです。突然、コンピューターが全く新しい方法で動き出します。そしてそれは、単にCodexがコンピューターの中を動き回っているだけではありません。あなたの思考を妨げることなく、バックグラウンドでCodexが実際にあなたの代わりに本物の仕事をしてくれるのです。ですから、皆さんの最も困難なタスクでぜひ試してみてください。もしかしたら、5つのアプリを行ったり来たりして、1日に何時間も奪われているようなタスクがあるかもしれません。皆さんがどう感じられるか、お聞きできるのが本当に楽しみです。
コンピューター操作は本日Mac向けに提供が開始され、Windowsユーザーの皆さんにも近日中にお届けできるのが待ちきれません。アリ、本当にありがとうございました。それでは次回またお会いしましょう。


コメント