本動画では、OpenAIの新しいWebブラウザ「ChatGPT Atlas」の開発チームであるBen GoodgerとDarin Fisherが、製品の背景、設計思想、技術的実装、そして将来のビジョンについて詳細に語っている。ChatGPT Atlasは、単なるブラウザ拡張機能ではなく、ChatGPTを中核に据えた全く新しい形態のブラウザであり、ユーザーが自然言語でコンピュータに指示を出せる時代の到来を示している。エージェントモードでは、ユーザーに代わってWebサイト上でタスクを実行し、サイドチャット機能では閲覧中のページについて質問したり要約を得たりできる。両氏は、Netscape、Firefox、Chromeといったブラウザ開発の豊富な経験を持ち、その知見を活かしてChromiumベースの新しいアーキテクチャを構築した。特筆すべきは、OWLと呼ばれるChromiumの独立プロセス実装により、軽量で高速なSwiftアプリケーションとしてAtlasを実現している点である。開発チームは、GPT-5やCodexといった最新のAIツールを活用することで、従来では考えられないスピードで製品開発を進めている。ブラウザメモリ機能によりユーザーの閲覧履歴から学習し、パーソナライズされた体験を提供する一方、センシティブモードなどのコントロール機能により、ユーザーが安心してエージェント機能を利用できる設計となっている。今後はWindows版やモバイル版の展開も予定されており、5年後にはエージェントがインターネットトラフィックの大部分を占める世界を見据えている。Atlasは単なる実験ではなく、長期的な投資として位置づけられ、人々がコンピュータとより自然に対話できる未来への重要な一歩となっている。

ChatGPT Atlasの登場
Andrew Mayneです。OpenAI Podcastへようこそ。最近OpenAIからはたくさんのエキサイティングなリリースがありました。GPT-5.1、Sora、そして私のお気に入りの新しいアプリケーションの一つであるChatGPT Atlasなどです。今日は、その背後にいるチーム、Ben GoodgerとDarin Fisherと話をして、OpenAIがなぜブラウザを作ることにしたのか、エージェント機能の未来が何を意味するのか、そしてすべてが次にどこへ向かうのかを探っていきます。
今がその時なんです。なぜなら、これこそが人々が旅を始めるべき方法だからです。
私たちは、コンピュータに欲しいものを伝えるだけでいい世界へと移行しています。
エージェントが独自のワークスペースを持つというこのアイデアは、かなり強力だと思います。
私のこれに対する見方は、常にこれは長期的な投資だということです。
それでは始めましょう。Atlasとは何か、そしてなぜ作られたのか。
Atlasは、人々が自然言語で新しい技術と対話するWeb時代のための新しい種類のブラウザです。次に買う服を見つけることから、本当に難しい問題を解決するのを助けることまで、欲しいものをただ伝えるだけでいいブラウザなんです。そして、Webを活用してたくさんのことを成し遂げる手助けをしてくれます。
この考えの中心にあるのは、ChatGPTをブラウザの心臓部にすることです。単なるアドオンではなく、Web上で見ているコンテンツを理解するのを実際に助けてくれるものです。Web上でアクションを起こすのを助けてくれるもの。あなたのブラウジングから学習して、数分で終わらないタスク、何日も何週間も何ヶ月もかかるかもしれないタスクであなたを助け、パーソナライズされた体験を提供してくれるもの。一般的に、より好奇心旺盛で、より効果的な人になるのを助けてくれるものなんです。
そして、しばらく取り組む機会がなかったタスクに戻るのを助けてくれます。なぜなら、あなたが何をしていたかを記憶していて、あなたがいた場所にすぐに戻る手助けをしてくれるからです。
なぜ今なのでしょうか。
技術の進歩、これらのAIモデルの進歩は、過去数年間見ていて本当に驚くべきものでした。そして、ChatGPTを支えてきたLLMだけでなく、コンピュータ使用という新しい領域や、その他の周辺技術の能力が、人々にとって本当に魅力的な体験を構築できる地点に達しているような甘美なスポットにいるように感じます。だから、私たちはそれに挑戦したかったんです。
Benが言ったように、モデルは非常に良くなっていて、これからも良くなり続けています。イノベーションの傾斜と改善のペースが見えるでしょう。例えば、年初にOperatorが最初に出てきたときを振り返ると、そのポテンシャルの一端を示唆していました。そして今、Atlasとエージェント機能がどこまで来たか、どれだけ速くなったか、どれだけ能力が高くなったかを見てください。
その傾斜を見て、予測し始めるんです。来年、5年後などはどうなるでしょうか。そして、その基礎を整えること、それが私たちがワクワクしていたことです。そして、適切な時期だと感じました。
個人的には、ChatGPTが私の生活にどれだけ意味を持つようになったか、どれだけそれを使っているか、そしてChatGPTをブラウザの中核に置くことがどれだけ理にかなっているかという移行をしたと感じました。単に行かなければならない別のタブではなく、中核にあり、そのフローの一部であること。今がその時なんです。なぜなら、これこそが人々が旅を始めるべき方法だからです。だから、それをとても自然で簡単にしたいんです。Atlasを立ち上げることができて本当に興奮していますし、より多くのプラットフォームに提供できることに興奮しています。
ブラウザの歴史と現在
お二人はブラウザでの作業において、Netscapeなどでかなりの歴史があります。FirefoxやChromeでも働いてきました。今ブラウザがどこにいると思いますか。30年以上の歴史があって、少しずつ変化しているように見えましたが、突然今AIを追加したりしています。ブラウザの状況をどう見ていますか。
私たちは、Webで本当にエキサイティングな時代に入ったと思います。大規模言語モデルという非常にハイタッチな形式のインタラクションを追加したんです。ソフトウェアに話しかけるだけで、あなたのために正しいことをしてくれる。これは、人々がオンラインで物事を成し遂げる方法を本当に変革することになると思います。
ウェブサイトのアドレスを覚えていなければならない世界、それらを検索しなければならない世界から、やりたいタスクを尋ねるだけで、それが実現されるのを見ることができる世界へと移行しました。
多くの人が、まだブラウザがあるのかと考えていました。それが疑問でした。ブラウザはまだあるのか。ブラウザはしばらくここに留まりそうですね。お二人ともそう感じていますか。
人々がよく手に取るツールです。Webで、ブラウザを使って多くのことを成し遂げます。それが人々がコンピュータを使う方法の大きな部分ではなくなることを想像するのは難しいです。
インターネットの多くのフェーズ、ブラウザ開発の多くのフェーズを経験してきました。モバイルが来るという時期があって、なぜ誰もがノートパソコンを使うのか、なぜ誰もがデスクトップコンピュータを使うのかと言われました。それでも人々はデスクトップコンピュータを使い続けています。おそらく非常に異なるものに手を伸ばしています。そして今、彼らは特定のことのために電話にも手を伸ばせます。
しかし、Webブラウザは、コンピュータで仕事を成し遂げる方法、リサーチタスクを行う方法、情報を探してその種の作業を行う方法として、非常に重要なツールであり続けています。実質的な作業がブラウザ内で、Web上で行われています。それが変わるとは本当に思いません。むしろ、それが成長すると思います。なぜなら、それは世界中のすべての情報への導管だからです。
人々が体験を提供し、誰もが利用できるようにするのがとても簡単なプラットフォームです。ブラウザがそれをとても簡単にしているんです。
すべての技術的進歩、過去25年、30年にわたるWebの進歩を見ても、何か耐久性のあるものがブラウザにはあります。この最新の生成AI の波を見ても、ChatGPTがローンチしたとき、Web上でローンチしました。このプラットフォームの能力の非常に強力な反映だと思います。
そしてプラットフォーム自体が素晴らしいんです。その素晴らしさをすべて列挙する必要はないと思いますが、それが本質的に開かれたプラットフォームであるという事実があります。コンテンツは開かれたプラットフォーム、開かれたインターネットに公開されており、誰でもそのコンテンツを消費するためのブラウザを立ち上げることができます。Webに関しては、本当のゲートキーパーがいないんです。これは本当に注目すべき側面です。
だから人々は自由に情報を公開でき、人々は自由にその情報を見つけに行けます。だから、それがさまざまな方法で花開き、成長し、進化することを可能にしているんです。そして、LLMのようなものを取ってそれに向けたいと思うのは非常に自然なことです。なぜなら、今それはあなたに代わって、それを理解しようとし、それをナビゲートするのを助けることができるからです。
エージェントがそれをすべて行えるという考えは、ユーザーとしてそこにあるすべての情報を活用しようとするとき、それをずっと簡単にするということです。ほら、ここにあります。あなたのためにそれを見つけたり、あなたのためにそれを理解したり、あなたに説明したりできます。
Webの進化を見るのは本当に興味深いと思います。ドットコムブームが終わった時代に始まりました。当時のブラウザのニーズは違っていました。人々がインターネットで行っていることの種類が違っていました。彼らは完全に探索していたわけではありませんでした。
そして時間が経つにつれて、ブラウザで働いてきた中で、人々がブラウザでやろうとすることの種類は本当にずっと多くなりました。2000年代初頭を振り返ると、これらのより高度なWebアプリケーションの進化がありました。Google Mapsが最初にローンチしたときのことを覚えています。マップを通してスクロールしてパンできるという事実が、とても楽にできることに驚嘆しました。
そこから続いていきます。人々が当たり前だと思っているさまざまな種類のWebアプリです。YouTubeのようなもの、Googleで働いていたのでたくさんのGoogleアプリを挙げますが、Gmail、Google Docsなど、これらすべてのことをブラウザでできるんです。かなり驚くべきことです。
それはあなたのラップトップ上の生活のためのこのオペレーティングシステムのようになるんです。
そして、それはブラウザができる必要があることを押し広げます。だから、Chromeを開発した時代は、人々がすでにブラウザ内でできることの境界を押し広げていた時代でした。しかし、Webがインターネット上に新しい体験を置くのがとても簡単なプラットフォームであるために、それを行う多くの動機があったので、彼らはそれを行う十分な理由を持っていました。
開発者はとても創造的で、ブラウザができることの境界をどのように押し広げられるかについて、非常に創造的でした。しかし、今日に早送りすると、それがこの基礎としてあります。そして今、世界はより複雑になっています。人々にとって圧倒的に感じる複数性の機会がたくさんあると思います。
Webの進化とアクセシビリティ
数年前を振り返ると、私が子供の頃、学校の友達と私はフロッピーディスクでお互いにシェアウェアを交換していました。当時はそうでした。そして、私の心は特定のタイプの情報を保持するようにはできていません。だから、unzipツールを実行するためのコマンドラインとか、それがどのように機能するかとか、そのようなものすべてが、私にとってまったく奇妙に感じられるものでした。
その意味で、Webは本当に新鮮なテイクでした。マシンの根底にある性質を理解することなく、ただ行ってクリックして探索できるものでした。そしてview sourceも。それは本当です。
しかし、技術の未来がどこへ向かっているかについて、これらのAIアシスタントがあなたのコンピュータに接続されているとき、必ずしも専門家ではない多くの人々にとって、そのコンピューティング能力をより利用しやすくすることがわかると思います。オペレーティングシステムがどのように機能するか、ブラウザがどのように機能するかだけでなく、個々のウェブサイトがどのように機能するかという点でも。
あなたの意図が何か、あなたの目標が何かについて、より自然に自分を表現できます。そして、システムがそれをあなたのためにどのように達成するのが最善かを理解できるんです。
Webが何であり得るかについて多くのアイデアがあったように思えますし、その一部は、多くの標準が事後的に決定されたものだったり、ここに行ってそれをしなければならなかったりすることでした。セマンティックWebのように、あったらいいなと思うものもありました。すべてが注釈付けされていることを確認すれば、しかし現実の世界や企業の世界では、それを行うのはしばしば難しいです。
LLMがこれを理解してそれを実現できる世界が見られるとは思っていましたか。
これらの現代のAIモデルの魔法のようなものだと思います。それらは実際に、私たちがそれらと対話する方法で、物事と対話できるんです。システムとです。もちろん、世界は眼球と口を持った人々のために設計されており、オンラインでは、物事をクリックするマウスを持った人々、あるいは物事をタップする指を持った人々のために設計されています。
セマンティックWebについて話すとき、もちろん人々がマシンによってより本質的に理解可能なウェブサイトを公開してくれたら本当に素晴らしいでしょうが、彼らの動機はユーザーがいる場所に行くことです。そして、私たちがより利用しやすいウェブサイトやスクリーンリーダーなどへのプッシュをどれだけ行っても、現実はもちろん、それが開発者がまず第一にエネルギーを費やす場所ではないということです。そして、すべてを極めて利用しやすくすることは通常後回しです。
だから、これらのAIモデルの美しさは、それらが技術をそれがある場所、ユーザーがいる場所で満たすことです。人々が消費するために設計された技術です。それが言語と相互作用し、言語を理解する方法を見てください。私たちが言語と相互作用する方法で、言語と相互作用できます。
自動運転車、それらは私たちがそれらと相互作用する方法で、道路と交通システムと相互作用できます。これらのAIモデルの美しさは、それらが人間のために設計されたこの世界のために開発できることだと思います。そしてそれは自然にブラウザにも拡張されます。
それが正確に100%どのように展開されるかを予測していたわけではありませんが、オリジナルのインターネットには非常に強力なアイデアがいくつかありました。マシンによって読み取られ解釈される構造化データがあり、その後何らかの形でユーザーに提示されるというアイデアがありました。
オリジナルのWebでは、ユーザーエージェント、つまりブラウザというアイデアがありました。そして、それがそのマシン読み取り可能なコンテンツを取り、いくつかのプレゼンテーション設定を適用します。読みやすくするために、フォントを少し大きくしたいかもしれません。特定のスタイルやウェイトやその他のものが好きかもしれません。
それがオリジナルのWebの考え方でした。だから、それは今日の時代に実際に非常に、非常にうまく引き継がれていると思います。そして、今日私たちがいる場所を、その旅の自然な終点、または継続として見ることができます。
ユーザーエージェントの進化ですよね。昔はNetscapeブラウザでも、カスタムスタイルシートやユーザーエージェントスタイルシートと呼ばれるものを書くことができました。どのウェブサイトの色でも上書きできて、より洗練された人々はそれを行う方法を知っていました。
後にブラウザ拡張機能がそれをより普遍的に利用可能な種類のものにしました。人々は拡張機能を書いて、それを他の人々とより簡単に共有できました。しかし、Benが言ったように、LLMにあなたに代わって行ってもらえるように力を与えることは、本当にそのユーザーエージェントを大幅に強化することになります。あなたに代わってより多くのことができるようにするためです。
ブラウザの複雑性と技術的挑戦
このすべての夜明けの頃には、多くの興味深いアイデアがあったと思います。GopherやWatsonやSherlockなどのツールの名前を見ても、それはよりプロアクティブな種類のものでした。これらは単なるドキュメントビューアーではないツールというアイデアです。
ブラウザをウェブサイトを表示するだけのものとして当たり前に考えていると思います。そして、お二人がブラウザの領域でキャリアの大半を費やしてきたことで、それを理解しようとしてきたことが、どこで役立つかが見えます。そして、見えないところに途方もない複雑さがあるように思えます。
何かを機能させる方法を理解しようとするときに対処しなければならないことの種類の例を教えていただけますか。
ああ、ブラウザはおそらく驚くほど複雑です。どこから始めればいいのかさえわかりません。ブラウザを構築するのにどれだけの作業があり、どれだけの技術が入っているのか、驚いています。
基本的には、デスクトップ上で実行されているアプリプラットフォームまたはミニオペレーティングシステムのようなものです。だから、コンピューティングのあらゆる分野が、ブラウザの何らかの側面に夢中になれるように感じます。
昼食時にチームのエンジニアの一人と、私たちのOWLがどのように機能するかについて説明する会話をしていました。OWLは、プロセス外で実行されるchromiumの埋め込みです。これのレンダリングモデルについて説明していて、それが最初に構築したときのChromeがどのように機能したか、そしてGPUアクセラレーテッドレンダリングの出現がどのように進化したか、そして今日すべてがどのように機能するか、そして私たちがOWLでやろうとしていることについての会話につながりました。
そこにある複雑さの深さと、延々と続けられると思います。
人々は、ブラウザ戦争がサーバー上で実際に物事を行うためにnodeを実行するような技術につながったことを見落としがちだと思います。これは誰も起こるとは思っていなかったことですが、これらのものをより効率的で速くしようとしただけです。そして、何かが機能することに驚嘆します。
ChatGPT Atlasでリリースした技術的なものをいくつか見ていて、それが単なるプラグインではなく、ChatGPTサイドバーを追加するだけのものではないことを理解しています。アーキテクチャについてもう少し説明していただけますか。
デザインの観点から言えば、ChatGPTをこの心臓部にして、体験全体を想像したかったんです。Chrome、例えばChromeにインストールできるChatGPT拡張機能もありますが、それができることにはいくつかの制限があります。
だから、デザインの観点からこれにアプローチしたとき、ブラウジング表面全体を見渡すことを本当に力強くできるようにしたかったんです。そして、今日そこにあるのは、私たちがやりたいことのおそらく2~5パーセントだと思います。しかし、このようにブラウザ体験全体を所有できることが、ChatGPTの魔法を全体に織り込む機会を与えてくれると考えています。
そして、それには例えば、任意のテキストフィールドでChatGPTを呼び出して、書くのを助けてもらうことができることなどが含まれます。そして、それがあなたが書くのを助けているとき、それはあなたのパーソナライズされたChatGPTです。あなたのメールにあなたとして署名できます。なぜなら、ChatGPTの他の使用からあなたを知っているからです。
だから、これらの非常にリッチに統合されたユースケースを可能にする方法でそれを構築できることが、既存のアプリのアドオンではなく、ブラウザを持つことが非常に重要だと感じました。
そして、それはいくつかの基礎的なものに関わってきます。ChatGPTがこの中核にあるとき、メモリー機能のようなものを有効にすると、「ねえ、また見ていたあれは何だったっけ?」と尋ねることができます。そしてそれは知っています。そしてそれはあなたを助けてくれます。
ビデオを見たことや何かを見たことを覚えている、という経験をしたことがない人がいるでしょうか。あれは何だったっけ?どうやってそれに戻ればいいの?誰かと共有したいんだ。伝統的には、ブラウザ履歴やYouTube履歴を遡って、それを見つけようとスクロールしたり、あのツイートは何だったっけと考えたりします。
週末に息子と一緒に見ていたレシピがあったんです。見つけた3番目のバッファローウィングのレシピで、作りたいと思っていたものは何だったっけ。どうやってまたそれを見つければいいの?簡単に思い出せること、なぜならこのものがそれをとても楽々とできるからです。それがただそこにあるという副産物です。
おそらく最大の利点は、これを行うことであり、特に私たちが行った方法では、このエージェント機能をどのように統合するかについて考えたことです。これは本当に、タブのコレクションが何を意味するかを含む、ブラウザの独自の概念を持つことの大きな利点です。
通常のブラウザウィンドウを考えてみてください。それはタブのコレクションです。そうすると、エージェントにもタブのコレクションがあると想像できます。あなたが選んだ、何かをするように頼んだエージェントの各インスタンス、異なる問題に取り組んでいる5つを持っているかもしれません。そして、それぞれが独自のタブのコレクションを持っています。
もちろん、それらはあなたの上部のタブに表示されていません。なぜなら、あなたがそれらを開いたわけではないからです。しかし、それでもそれらを持っていて、それらを通して作業し、それらから情報を取得し、処理し、あなたに代わってアクションを起こし、物事をクリックしたり、そのようなことをしたりしています。
これは、このようなシステムをエンドツーエンドで設計するときに持てる種類の機能です。これらすべての抽象化を発明できます。
そして、それは最初のバージョンにありました。私がBenに加わってこれに取り組んだとき、彼はすでにこのアイデア、ユーザーのタブであるタブとエージェントがあなたのために取り組んでいるタブの間でタブをセグメント化できるというこのアイデアを持っていたことを覚えています。
そして、それは今日、エージェントタスクを開始するときに製品に現れます。それはあなたが頼んだことに取り組むために出かけ、いくつかの追加のタブを開く必要があるかもしれません。そして、それらのタブがあなたのタブストリップにただ表示されて、おそらく少し混乱させる感じになる代わりに、すべてこれらのタブは何なんだという感じになる代わりに、
それはバックグラウンドで作業を蓄積しているだけで、完了したら、それをあなたに提示します。タブ形式で、あなたは行ってクリックして、それが実際に何をしたかを見ることができます。または、結果に満足していて、すべての中間ステップを見る必要が本当になかったというだけです。
だから、エージェントが独自のワークスペースを持つというこのアイデアはかなり強力だと思います。
エージェントモードとその機能
多くの人にとって、表面的にはこれを使うのはかなり理解しやすいように思えるでしょう。ブラウザがあって、ChatGPTがあって、しかしエージェントモードもあります。エージェントタスクとは何ですか。何がそうでないのですか。ChatGPTタスクとは何でしょうか。説明していただけますか。
エージェントモードは、基本的にあなたに代わってWeb上でアクションを起こすようにChatGPTを招待することです。ウェブサイトを見ていて、そのサイトで何かをしたいけれど、どうやってやるかがよくわからないとしましょう。ChatGPTに直接尋ねることができます。
例えば、スプレッドシートを見ていて、円グラフを合成したいけれど、どうやってやるかわからないとします。このデータで円グラフを作ってと言うだけでいいんです。そして、それは出かけて、そのソフトウェアの使い方を理解します。
使っているソフトウェアの中には、かなり複雑なものもあると考えてください。だから、欲しいものを自然言語で自分の言葉で尋ねることができるだけです。そして、座ってそれが引き継ぐのを見ることができます。マウスを動かし始め、あなたのためにそのようなことをします。かなり、かなり驚くべきことです。
そして、それがどのようにやるかを見ることができます。だから、実際にその円グラフを作る方法を学ぶことができます。それはかなりクールです。
私はそれがかなり便利だと思いました。記憶法のようなものを勉強するのが好きで、トランプのデッキのシステムを持たなければならなくて、カードの絵文字をたくさん貼り付けたくなかったんです。これを私のためにやってくれる?と言うと、魔法のようです。魔術のようです。
私がオフィスで人々が行うのを見た楽しいことの一つは、ドキュメントを書いて、それにレビューパスを取ってコメントを追加するように頼むことです。そうすると、実際にあなたのドキュメントに入って、使っているドキュメント編集システムの統合されたコメントツールを使って、まるで協力者であるかのようにコメントを追加します。本当に驚くべきことです。
もちろん私たちはソフトウェアエンジニアなので、モデルが私たちのコードを批評するのを経験しました。過去1年間で、それがどれだけ良くなったかを見るのは驚くべきことです。最初は、それが役立つものを見つけるのが常にそうだったわけではありませんでした。
しかし、最近では、これは重要な、素晴らしいナゲットを共有していて、バグを出荷することから私を救ってくれています。そして、私が持っているかもしれない任意のドキュメントをレビューするよう頼んで、スタイルのフィードバックや文法の提案、トーンの提案を得ることへの類似を見ることができます。
インターネットで使っている任意のツールについて、このエージェントを呼び出して、私がやるのと同じ方法、または他の誰かがやるのと同じ方法でそれと対話するように頼めるということは、非常にワクワクします。そして、それが何をするかを見るだけです。そしておそらくそれから学ぶか、または何かです。
OpenAI内のチームとの会話中に何度も出てきたことの一つは、彼らがツールをどれだけ使っているかということです。GPT-5、GPT-5 Codexを使ってそれを行っています。それはあなたにどのような影響を与えましたか。そして、それが加速された製品サイクルを生み出すと思いますか。
もちろんです。これについてのいくつかの逸話があります。会社でトップのCodexユーザーの一人が私たちのチームにいます。そして、このツールを使った結果として、PR出力の観点からの生の生産性はチャートから外れています。
良いPR出力で。
はい。だから、経験豊富なエンジニアがこれらのツールで何ができるかを見るのは本当にワクワクします。なぜなら、領域を探索し、その領域を探索するのを助け、何かがやる価値があるかどうかを決めることができるからです。そして、あなたの判断を適用し、それに何をしてほしいかを伝え、それが出かけてそれを行います。
そして、私のように以前ほどコーディングに時間を費やしていない人々にとっても、いくつかのものを証明するために出かけさせることもできます。だから、私たちのチーム全員が貢献できるんです。プロダクトマネージャーはPRを作成しています。デザイナーはPRを作成しています。これらのツールのおかげです。だから、私は真の信者です。
GAの前に、1週間のリファクタリングを行って、出荷しようとしていた特定の機能をアンロックしようとしました。そして、もう一つやることがありました。今回はCodexに頼んだら、プロジェクト全体が1時間以内に完了しました。そして、同じような規模でした。
そして、ねえ、私がやったようにこのもう一つをやってと言うことができました。だから、私は方法を示していて、ただそれに非常に似ている他のタスクをやるように頼んだだけです。そして、ほとんどワンショットでした。
本当に能力のあるコードツールの約束の一つは、複数の言語を書くことができ、ある言語から別の言語にコードを移植できることです。Soraで見ました。Androidのと言っていました。
Androidに持ち込みます。
そうです。そして人々は、ああ、すごい、それはいつ?ああ、いや、出荷されました。いや、いや。
実際、ChatGPTはかなり長い間、言語間翻訳を行うのが驚くべきものでした。プログラミング言語のことです。私たちは今この製品をWindowsに持ち込んでいて、実際にSwiftを使う予定です。なぜなら、私たち、チームの多くがSwiftの専門家でいっぱいで、共有された共通のコードベースを持つことにワクワクしているからです。
WindowsでSwift?
WindowsでSwiftです。だから、過去の経験では、数年前でさえ、ChatGPTがSwiftでコードを生成するのがどれだけ優れているかに驚嘆していました。それはインターネット上に存在しないSwiftのコードでした。だから、.NETで書かれたコードを取って、私のためにSwiftに翻訳できました。
そして、私はその能力に驚嘆していました。あるいは、通常は非常に面倒なC++コードである、たくさんのGUIDやあらゆる種類の非常に詳細なものがあるWinRTコードの束を生成することです。しかし、それはただこのコードを吐き出して、私たちの膨大な時間を節約してくれていました。
Codex CLIにSwiftアプリを起動させました。Xcodeに何かを貼り付けるために入る必要さえなく、箱から出してすぐに動作しました。本当に感心しました。
だから、それはこれらのモデルの強みの一つのようなものです。だから、正しい質問をすることができれば、正しいプロンプトを得ることができれば、それが何かを構築する方法の正しい道にいれば、どんな言語でもできます。それは本当に問題ではありません。
使用体験と安全機能
私はこれを使っていて、エージェントモードに切り替えて物事を行っています。そして、時々タブを残して他のことをしに行けることを知っています。そして時々、このタブを離れたら一時停止するよと言われます。そこで何が起こっているのですか。
時々、非常にセンシティブなことをするようにエージェントに頼むことがあります。例えば、あなたのメールを見ているとします。そして、いわば、道路に目を向けておいてほしいんです。
私は自動運転機能を持つ車を持っていて、それは私に道路に注意を払ってほしいと思っています。運転を助けてくれますが、携帯電話をチェックしたり、昼寝をしたりすることはさせてくれません。だから、私の目を見ている小さなカメラがあって、私が注意を払っているかを確認しています。
だから、エージェントモードでこのセンシティブモードをそのように見ることができます。完了するまでこのタブに注意を払ってほしいので、良いレベルのコントロールを持っていると感じられます。
実際、タブの下部を見ると、大きな赤い停止ボタンがある小さなバーがあります。機械工場に行ったことがあれば、そこの機械には大きな赤いボタンが付いていることを知っているでしょう。突然、やってほしくないことをし始めたら、そのボタンを叩くだけで止まります。
それがアイデアです。ただそれを見守って、動くのを見て、自分でやりたければいつでも引き継ぐことができます。
これらの機能が体験のコントロールを感じるのを助け、それらを使いたいときに持つかもしれない不確実性を取り除くことを確実にすることに、多くの考えを払いました。
例えば、Benが言及したことに加えて、エージェントを使用するサインアウト方法もあります。だから、認証されたセッションにいることなく開始したい場合、つまりメールにアクセスするのに必要なクッキーさえ持っていない場合は、それを行うことができます。そして、これはいくつかのことを試して、これがどのように実際に機能するのかを学ぶ素晴らしい方法だと思います。
そして、エージェントで次のステップを踏むためには、実際に認証されていると役立つポイントに到達するかもしれません。だから、実際にクッキーを持っていることから恩恵を受けるタスクを試してみるかもしれません。
おそらく、実際にエージェントを初めて実行したとき、それはスクリーンを表示し、これらすべてのものがどのように機能するかを説明していることを覚えていないかもしれません。だから、それを読み通せば、持っている選択肢を見ることができ、それらの使い方を学ぶことができます。
私は未読メールが約50万通あります。完全に自動で行く準備ができています。これまでの私よりも悪い仕事はできないでしょう。
すべて選択してアーカイブを押すだけかもしれません。
破産宣言。誰かのせいにできます。しかし、メールを表面化しようとしていて、キーワードがうまく機能しなかったり、結果が多すぎたりするときに、入って、あれについてのこれを見つけてと言えるだけで、非常に役立っています。何度も私を救ってくれました。
エージェントでも行った他のことの一つは、目を向けておきたいときがあるからです。そして、私が、チームがここで思いついたものをかなり誇りに思っているのは、それを視覚的に非常に魅力的にしたことです。
だから、それが動いているときに周りに現れるすべての小さなキラキラとピクシーダストなどがあります。かなりクールです。だから、より多くの人々にそれを試してもらうのを見たいです。
それを見るのは楽しいです。そして、ChatGPTでもエージェントモードで、これらのシステムが問題を解決するのを見るだけのライブストリームを見られるだろうと言いました。なぜなら、それは「How It’s Made」のようですが、コンピュータがそれをやっているのを見ているからです。
これが向かっている先を見るのはワクワクします。また、そこにたくさんの異なるAI搭載ブラウザがあるときにどうなるのか、また、私のタブのほとんどが私ではなくエージェントによって開かれ、誰かが私の注意を引こうとしているときに、エコシステムが何であるかについて考える必要があるのかと少し疑問に思います。
今のエージェントの動作方法は、あなたのリクエストに応答して実行されているだけです。だから、エージェントが何かをしているなら、それはあるレベルであなたがそれを頼んだからです。
それが開くページには実際にいくつかの制限があります。だから、Webを閲覧していて、あるページがポップアップウィンドウを表示して、通知許可を与えてと言い、更新でスパムできるようにすることに慣れているかもしれません。
誰もそれをクリックしたことはありません。
誰も意図的にそれをクリックしたことはありません。エージェントタブはそれができません。実際にそうするのをブロックされています。偶然その状態に陥るのを避けるためのシステムの設計に、たくさんのものがあります。
もちろん、あなたは自由です。ウェブサイトを閲覧していて、通知許可を求められたとき、そのサイトから更新を受け取りたいなら、それはあなたのカレンダーかもしれません。ユーザーとして、はい、これが欲しいと言うのは自由です。しかし、エージェントはあなたに代わってそれを決してしません。
初期のWebの美しさの一部がセレンディピティだったと考えるのは興味深い世界です。ああ、この他のものを見つけた。これらの他のリンクを見つけた。しかし、その後、それは基本的にユーザーに対して武器化されたような気がします。何かをしようとするけれど、何かをするのが難しいです。そして、あなたに尋ねなければならないと思います。
実際、それは本当に興味深いです。あなたがそこに行こうとしていたのかどうかわかりませんが、多くのウェブサイトはただあなたを自分のウェブサイトに留めておきたいんです。おそらく、あなたを連れ出す広告を実行するでしょう。しかし、そうでなければ、彼らはあなたをそのレーンに留めておきます。
サイドチャットやそこにいるモデルについての驚くべきことの一つは、そのサイトについて質問できることです。答えが別のサイトにある何かかもしれません。
そして、それがあなたのためにWebを大きくするんです。あなたがいた穴うさぎに閉じ込められているだけでなく、おそらくあなたにとってより有用な何か、より役立つ何かへの橋渡しを助けてくれます。
あなたはこれについていくつかの良い話を持っていることを知っています。
Webの美しいカオスと呼んでいる何かについて、素晴らしいものがあります。常に同じ場所に閉じ込められたくないんです。Webの多様性とそこにあるすべてのコンテンツを受け入れられるようになりたいです。だから、それが大好きです。
サイトを離れることなくそれができることが大好きです。横でそれができて、その後どこか他の場所に行くことを選べます。しかし、ある意味、Wikipediaでは、コンテンツを通して何時間もの旅をすることができることを知っています。それは本当にWikipediaの機能です。
一方、ChatGPTに尋ねるサイドバーは、Webをスケールでそれができる能力を与えてくれると感じます。だから、ランダムなサイトについて質問して、その後異なる方向に進むことができる能力を与えてくれます。
特定の種類の製品を探していて、ある会社の一つの製品ページにたどり着いた場合、これは非常に役立ちます。ある販売者やベンダーですが、今、他に何があるかと尋ねることができ、モデルは、まあ、これに関連するチェックすべき他のサイトがありますと言うことができます。そして、あなたの世界は大きくなりました。
YouTubeの検索エンジンやAmazonの検索エンジンでは見つけられなかったビデオや本で、より素晴らしい発見をしたことがあります。私が探していたもの、本当に見つけようとしていたものについて、ChatGPTがもう少し理解してくれたので、それらのサイトからより多くの有用性を得られました。
それは実際に、ChatGPT全体、パーソナライゼーション機能、使えば使うほどあなたについてより多くを学ぶという事実のような別のものです。ChatGPTの超人気機能でした。
Atlasでは、これがあなたのブラウジング活動、あなたのWeb履歴のようなものに拡張されます。だから、これによりブラウザはこれらのブラウザメモリを作成でき、Darrenが前に指摘したように、後でサイトに戻るのを助けるために使える種類のものです。
しかし、エージェントのような状況でも役立ちます。私はUnited Mileage Plusのメンバーなので、そのサイトでフライトを探す傾向があります。エージェントにそのようなことをするように頼むたびに、いつもUnited Airlinesを使うように伝えなければならないとしたら、非常に面倒でしょう。
しかし、私のブラウジング、ブラウザメモリから、私がUnitedの頻繁なユーザーであることを知っているので、ただそこに行きます。
それは将来のクエリであなたを助けます。なぜなら、この検索体験には、あなたにとって重要なことについてはるかに多くのコンテキストがあるからです。だから、結局ずっと効率的になります。何度も何度も伝える必要がないので、時間を節約してくれます。
だから、それは私を大いに助けてくれるものだと感じます。人々はこれらのことに関しても異なる好みを持っていると思います。だから、人々がどのメモリがパーソナライゼーションに使われているかを見てコントロールできるコントロールがあります。完全にオフにすることもできます。
検索機能とナビゲーション
また、私はこれらのタブにそれほど入っていませんでしたが、そこにあることに気づき、もっとそうするようになっています。画像に行けます、ニュースに行けます、そして検索エンジンのようなものがあります。
理解しようとしているのは、それはブラウザですが、OpenAIは独自の検索エンジンに向かっているのでしょうか。
その一部は、ブラウザを構築しているとき、人々は既存の意図、ナビゲーション意図、または画像を探したいというアイデアを持ってそのブラウザに来るという事実から来ています。または、特定の種類の情報のサブセットを見たいと思っています。
だから、人々にとって馴染みがあり、また慣れている方法で役立つように、これらのコントロールをchatgpt.comのランディングページに持ち込みました。人々が新しいことを学ぶ必要を感じないようにしたかったんです。この製品を使用して成功するために、あまりにも多くの新しいことを学ぶ必要を感じてほしくありませんでした。
たくさんの馴染みのあるツールと馴染みのある種類のものを持ってもらいたかったし、とにかくこれらはただ役立つものです。多くの人にとって、検索とブラウザは非常に結びついていて、ほとんど同じものです。この体験を構築する際に、それを内面化することは非常に重要です。
そして、人々が検索してブラウザを非常に通常の方法で使用するとき、そこに彼らに応答するモデルがあることを学んでいるということが非常に強力だと思います。だから、上部に一連のチップがあり、おそらく行こうとしていた場所への迅速なリンクのようなものです。
馴染みのある異なる種類の情報のサブセットを見るためにクリックできるこれらの異なるタブがありますが、このモデル応答も入ってきています。だから、製品を通常の方法で使い始めると、別の方法があること、またはこのものが提供しているスーパーパワーがあることを学び始めます。
その一部は、人々が慣れている通常のChatGPT体験です。しかし、誰もがChatGPTを最大限に使っているわけではありません。だから、それが中核で中心的な体験であるとき、通常の旅の一部として人々にそれを提示する機会があります。
それは本当にクールだと思います。サイドチャットと似ています。もちろん、それをアクティブにする必要がありますが、すぐそこにあります。ChatGPTに尋ねて、好奇心を持つかもしれず、今スーパーパワーをアンロックします。しかし、すぐそこにあります。
私にとって興味深い体験は、使い始めた最初の日でした。これを見て、これは基本的にブラウザとChatGPTがあるアプリなんだと理解しようとしています。それらをただ一緒に接着しただけではありません。彼らは両方ともそこにいて、ChatGPTへの深いつながりがあるような感じです。
Amazonのブックマークを追加してくれる?と尋ねました。そしてしばらくして、ブックマークが現れました。そして、それはLLMがシステムを深く理解していて、そのような変更を行えるときに何が起こるかを理解するための、本当に特別な瞬間でした。
これについて非常に興奮しています。単なる概念的な変革の観点から考えると、コンピュータに欲しいものをただ伝えるだけでいい世界に移行しています。伝えたいどんな方法でも。可能な限り最もシンプルな方法で。ただ伝えればいいんです。
そして、これがコンピューティングをより多くの人々がより利用しやすくすることにとって何を意味するかは、本当に深遠です。そして、それは会社のミッションのようなものです。AGIを全人類にとって有益なものにすることです。そして、私たちはそれを本当に真剣に受け止めています。
表面的には非常に小さく見えるかもしれないこのような方法でコンピューティングを変革できることが、はるかに深遠な何かに積み重なると思います。だから、そのようなことにワクワクしています。
ユーザーとしてのChatGPTでの私の最初の体験のいくつかは、本当にBenが話しているこのアイデアでした。Google検索を行うのに満足していましたが、時々どのGoogleクエリを入力すればいいのか全くわかりませんでした。
そして、ChatGPTに本当にひどく形成された質問を尋ねられることに気づいたとき、それが私が言ったことを理解して、おそらく今Googleで検索できる何かを返してくれるでしょう。それが私が最初にChatGPTを使い始めた方法です。
そして時間が経つにつれて、まあ、なぜ最初にそれに尋ねないんだと気づき始めました。そして、人々にとって、新しい技術との旅のようなものがあると思います。私たちは皆習慣の生き物です。物事のやり方、自分たちにとってうまくいくもの、慣れているものに慣れています。慣れているので、問題ではありません。
しかし、おそらく何か新しいものを探索すると、ああ、実際にはより良い方法があると見始めます。そして、誰にとってもその旅は少し異なります。
だから私にとって、Atlasで最もワクワクしていたことの一つは、アドレスバーに入力しているとき、デフォルトがChatGPTであるというこのアイデアでした。なぜなら、私にとって、それは私がやろうとしていることのほとんどに実際に意味があるからです。
そして、これは今、それにアクセスできないとき、摩擦の小さなビットのようなものがあると感じるものの一つです。そうすると、時間がかかるようになります。なぜなら、ああ、別のブラウザでChatGPTタブを見つけて、それにどうやってアクセスするかを理解しなければならないからです。
一方、Atlasでは、新しいタブを開いて入力を始めるだけです。
古い方法は、はるかに手動な方法でした。この方法は、私が尋ねることについてそれほど賢くなくてもいい方法です。いくつか、問題があります。ずっと簡単な方法でそれを言えます。
まだコンテキスト切り替えに苦労していて、それが単なるURL検索バーや空のキーワード検索、何であれ、文字通りそれに物事を尋ねられることを理解するのに苦労しています。そして、ネパールの首都は何ですかというだけではなく、それがGoogle検索ボックスにポップしないことです。
そして、それが今のことで、ああ、URLを入力すればURLが得られますが、クエリを入力することもできるようになったと気づきます。そしてそれをやりますが、それでも調整するのに時間がかかっています。
一般的なルールとして、モードは時々、その下にあるシステムのいくつかの制限の反映であり得ると感じます。人間は理解しません。だから、このようなもののすべてについての私たちの北極星は、正しい場所に到着するのを助けられるかということだと思います。
このモードに置くべきか、あのモードに置くべきか知る必要がなくても。それが闘いのようなものです。このツールをどのように使いたいかということになります。だから、このものを何かにしたいんです。Darrenが前に言っていたように、ただ入って、欲しいものを伝えるだけでいい、おそらくこの半ば形成された考えで、それは何か良いものをくれるでしょう。問題を理解するのを助けてくれるでしょう。
もちろん、システムの根底にある能力のいくつかを理解しているユーザーであれば、それらも呼び出すオプションを与えたいです。それらを引き下げてあなたを助けるために。そして、それは得られる効率の向上のようなものです。
しかし、確かにシステムは、それらすべての呪文を知っていることを要求すべきではありません。ただあなたがそれに言うことを取って、何か良いものをあなたに与えられるべきです。
それは、人々が検索エンジンのツールバーをインストールするような、ブラウザの初期の頃を思い出させます。そして、ブラウザに別のボックスがあることを意味していました。Firefoxには、Web検索を行うための専用の検索ボックスがありました。
しかし、当時、人々はそれに非常に慣れていて、非常に快適でしたが、URLを入力する一つのボックスと検索クエリを入力する一つのボックスがありました。Chromeで作業していたとき、なぜ二つのボックスがあるんだと考えました。人々がどのボックスに入力すべきか考えて立ち止まる必要があるのはなぜですか。一つのボックスを与えるだけです。
今Chromeを見ると、URLバーはそのように見えます。一つのボックスだけ、それが業界標準になりました。しかし、Chromeの新しいタブページでさえ、実際には二つのボックスがあります。上部にアドレスバー用の一つと、中央におそらく快適で馴染みのあるGoogleボックスがあります。
私たちがやりたかったこと、そして自分たちに課したことは、モデルと開始したい会話を持っているかもしれないし、ナビゲーションクエリに興味があるかもしれないが、入力を始めるまで意図を決めないかもしれないというこの全体のトピックのようなものです。
そして、一つのボックスだけがはるかにシンプルです。だから、Atlasを開くと、新しいタブページに一つのボックスだけがあります。そして、それはデザインの観点から、私たちが本当に達成しようとしたものでした。そして、できたと思います。そして、システム全体を人々にとって少しシンプルに保っています。
それは少し普通ではなく、人々が慣れているものではないかもしれませんが、時間が経つにつれて、彼らはそれを好きになると思います。
お気に入りの機能と設計の選択
お気に入りの機能、実装できて嬉しかったもののいくつかは何でしたか。
ああ、新しいブラウザを構築する機会を得るといつでも、かなりの数に取り組んできた経験があるので、特定のことをリセットして最初からやり直す機会を得ます。すべてではありません。なぜなら、中核的な緊張の一つは、人々が今のままのブラウザに慣れているということだからです。
しかし、いくつかのことを再考する機会はあります。だから、私が取り組んだ機能の一つは、スクロールタブ機能でした。それは、新しいタブがすべて左側に挿入されるか、ただ一方の側に挿入されれば、タブの生活が少し良くなるかもしれないという洞察から来ました。
ChromeやSafariや他のブラウザのタブストリップにタブをピン留めできることを知っている人は多くないかもしれませんが、タブをピン留めするユーザーであれば、それはかなり高度なユースケースです。しかし、それは一般的なことです。
タブをピン留めすると、左側にピン留めされます。そして、それがGmailタブのようだったとします。リンクをクリックすると、それらの新しいWebページはそのピン留めされたタブのすぐ隣に開きます。しかし、プラスボタンを押すと、新しいタブは右側に表示されます。
そして、一日を通して作業していると、何が起こるかというと、Gmailに行って、そこからURLを開いて、プラスボタンを押して、右側のタブを開いて、ボタンを開いて、中央に古いタブを蓄積していくような感じになります。
だから、右側のすべてのタブを中央から閉じるのは少し痛いことになります。それらのタブをクリーンアップするために、そして多くの雑然としたものを持つことになります。
だから、スクロールタブは、タブ管理をより良くするために取り組んだイノベーションの一つでした。そして、それはAI機能ではありませんが、ブラウザを再考する機会があるとき、これらのプリミティブのいくつかを再考して、異なることを試す機会なんです。
本当にワクワクします。
そして、後になって気づいて評価するようになったことの一つは、非常に多くのタブを持つことにより自然にスケールするブラウザを持っていると、特定の種類のことがアンロックされるということです。だから、誰もが、または多くの人々が、開いている可能性のある特定のタブを検索する能力に慣れているでしょう。
多くのブラウザには、コマンドシフトAまたはそのためのボタンがあります。スクロールタブを使った私たちのシステムでは、多くのタブが顔に出ることなく蓄積できるという事実があり、それでもそれらを検索して、これらの古いタブを見つけることができます。
ある意味、それはあなたがブラウザで行ったことのこの履歴が、非常に馴染みのある方法で検索できるようにそこにあるようなものです。なぜなら、それはコマンドシフトAで、すぐそこにあり、雑然としていなくてもその機能を持つことができるからです。
Darinはタブ検索について話しています。時々、タブを検索して、欲しいタブを見つけることができます。しかし、この機能について最も興味深いことは、タブを閉じる必要がないという事実だと思います。
だから、最終的には、私のブラウザでは、千以上のタブを開いていると思います。そして、それが可能だとは考えもしませんでした。
それが問題だと思うかもしれませんが、そうではありません。
いいえ。なぜなら、システムがメモリを管理してくれるからです。
さて、これはデフォルトではオンになっていないスクロールタブ機能です。そして、私たちがそれが魔法のようだと考えているにもかかわらず、私はこの私たちが構築したものの大ファンですが、デフォルトではオンになっていない理由の一部は、それが人々が慣れているものとは少し異なるからです。
そして、これらすべてのAI機能をもたらしているこのブラウザにアプローチするとき、人々が一度にあまりにも多くの新しいことを学ぶ必要がないようにしたかったんです。
しかし、何千ものタブを開けるようにすることの驚くべきことの一つは、タブ検索で再びアクセスできるだけでなく、モデルがそれらを見ることができるということです。モデルはこれらのタブを見ることができます。
作業セットが非常に大きくなり得ることを意味します。自然に頭の中に保持するよりも大きいです。しかし、そこに何かがあったことを知っているので、モデルに尋ねるつもりで、それはそれらのタブと再び対話できます。そして、それは実際にかなり驚くべきことだと思います。
この質問についても言及しないのは怠慢でしょう。Atlasの基本的な機能である、ChatGPTに尋ねるサイドバーです。これは私が毎日価値を得ているものです。ブラウザを使っているとき、それを開いて、ページが長すぎる場合や、記事を読んでいるときに、それが特に私にとってどのように本当に重要かを理解したい場合は、ページを要約するように頼みます。
または、世界で起こっていることについて質問があれば、私のために研究に出かけて、統計や事実や数字を持って戻ってくることができます。オンラインショッピングをしているとき、見ているものについて本当に最良の取引かどうかを確認するために使ったことがあります。
生産性ワークフローの一部を自動化するためにエージェントタスクを開始するのを助けるために使ったことがあります。Google Formsを構築してもらって、ブラウザの新しい機能を設計する最良の方法について同僚にクイズするのを助けてもらったこともあります。
その例が本当に好きです。なぜなら、正しく覚えていれば、あなたはサイドチャットに調査の概要を考え出すのを助けてもらうように頼んだと言っていたからです。そして、ねえ、それを私のためにGoogle Formに入れてくれる?と言って、それがやってくれました。本当にクールでした。
だから、これまで話してきた、Webのどこへ行ってもChatGPTの力を一緒に持っていくということです。そして、そのサイドバーは本当に、ChatGPTがあなたの肩に座っているようなもので、必要なときにアドバイスを与えてくれるために、すぐそこにいるんです。
そして、時々単純なことさえも。Slackにいて、誰かが別の言語のテキストを共有したので、それを選択しました。そして右クリックして、サイドチャットにそれについて尋ねると、それを翻訳してくれました。
そして、コピーペーストする必要がないので、ずっと簡単でした。
これまでのエージェントモードでの私のお気に入りの使い方です。クラウドプロバイダーの名前は挙げませんが、多くのサービスを実行していて、それらのサービスが何であるかを忘れることがよくある非常に大きな会社です。そして月末に請求書が来ます。
そして、これをシャットダウンしたと思っていたので、非常に混乱する請求書です。
それはすべてですか。
またはそうです。まあ、それらのいくつかは少し、またはおそらくより長く存在していて、それを解析しようとすることは、ソビエトのトラクターマニュアルを読むようなものです。そして私は入って行きました。
ねえ、この請求書を受け取りました。シャットダウンしたと思います。何が起こっているのかわかりません。助けてもらえますか。そして、ウェブサイトをナビゲートし、ページに行き、私がやっていた異なることを見つけ、サービスが何をしているのかを説明するのを見ました。
これをシャットダウンできる?と言いました。そうだと。シャットダウンして、それは月に100ドルの請求書でした。
すごい。それは素晴らしいです。私が持った別のものもあります。実際、最近いくつかの医療検査を受けました。そして時々、医師が戻ってきて、それらが何を意味するのかを説明するのに時間がかかることがあります。
その間、患者ポータルがあって、そこで医師の言語のようなものにアクセスできます。そして、私はそれを読むことができません。通常の英語で書かれていません。そして、それが何を意味するのか尋ねることができ、それがあなたにとって何を意味するのかを教えてくれます。
それが本当に役立つとわかりました。だから、お金を節約し、いくつかの答えを得る手助けをしてくれるこのものは、非常に、私は、これが人々が情報と対話する方法へとますますなっていくということを確信しています。
非常に人気があるが複雑なHRツールか何かのようなものです。そして、またあれはどこだったっけ?と言います。そして、もちろんそれはあなたのためにマニュアルを勉強していて、道を示してくれます。かなり注目すべきことです。
AIツールの習慣化と使い方の学習
iPhoneを持ってから、ポケットに常にカメラと懐中電灯があることに気づくのに長い時間がかかったように感じます。そして、ああ、店で見たこのものの名前は何だったっけという多くの状況があります。写真を撮れたのに、またはああ、暗いなという感じです。懐中電灯を持っているんです。
そして、これらのツールでは、そこに多くの能力があると感じます。検索でもそれを見ました。私たちの中には検索のパワーユーザーがいて、他の人々にとっては完全に謎でした。そして、ここではより速い加速が見られると思いますか。人々はこれの使い方を共有し、理解し始めるでしょうか。
私たちが今Atlasでいる段階は、これは本当に強力なツールだと考えていますが、人々がそれを使うすべての方法を知っているわけではありません。そして、それはある意味でインターネットのようなものです。
だから、これを出した理由の一つは、人々がそれをどのように使うかを見て、人々から、うまく機能する場所、ひどくて改善する必要がある場所を聞きたいからです。しかし、時間が経つにつれて、それについてより良い感触を得ると思います。
また、それを使う適切な時期がいつかをより多くのケースで説明する手助けをする必要があると思います。なぜなら、魔法のように感じるものを構築することの一部は、その魔法をより多くの人々により多くの状況で実現することだと思うからです。
そして、人々が常にこの時点でこの質問をすべきだと考えることに頼らなければならないようにしたくありません。
私たちは習慣の生き物です。ブラウザを使う方法でブラウザを使います。コンピュータを使う方法でコンピュータを使います。何かをするより良い方法やもっと効率的にできることがあるとき、常に気づくわけではありません。
そもそもChatGPTの使い方を学ぶプロセスについて、このように感じます。それは気づきのようなものです。ああ、モデルにそれを尋ねるべきだった。時間を節約してくれるでしょう。しかし、それには少し時間がかかり、人々がこれらのツールの使い方を学ぶ旅のある時点で、転換点のようなものがあります。
早期採用者である人々がいて、彼らは道を示して、物事を理解し、それらのアイデアを共有できるかもしれません。しかし、多くの人々はまだ、これらのツールを最良の方法で使用する方法にたどり着いていないと思います。
私はまだタブをシャットダウンしようとしている自分に気づきます。なぜなら、ブラウザタブが多すぎるというポップアップメッセージを受け取っていた時代にブラウザを使い始めたからです。
そして今、コンピュートと能力、これらのものの内部管理は非常に進んでいます。だから、多くの点で私はそれを使うように最適化されていないと考えます。
私たちのブラウザの非AI機能は、モバイルブラウザのプレイブックからページを取ったようなものです。ラップトップのコンピューティングリソースは実際には限られていないことを認識しています。気にするバッテリーがあります。
だから、実際にライブWebページに裏付けられるタブの数に制限を設けました。デスクトップブラウザが取る可能性のあるより伝統的なアプローチ、つまり永遠に使っていないバックグラウンドのWebページのコストを軽減しようとするのではなく、私たちはそれらを閉じます。
そして、そのタブに戻ると、再開されます。そして、そこに合理的な制限を保ち、気にするタブがメモリに保持されるようにするために、やや賢いキャッシングアルゴリズムを適用して、コンピュータの負担を軽減しようとします。
また、Atlasでは、再起動が非常に速いことに気づくかもしれません。Atlasを再起動するとき、それが構造化されている方法のために、OWLプロセスはAtlasプロセスとは別であり、OWLは私たちのchromiumの埋め込みです。だから、二つは並行して起動できます。
すべてのタブとそれらに関連するデータを使ってAtlasを非常に迅速に再起動できますが、Webページはまだロードされていません。そして、それらをクリックすると、それらのWebページを戻してくれます。
しかし、このようにして、システム全体を速く、軽量に保つことができます。そして、AtlasをOWLとは別のアプリケーションとして構築できたので、AtlasはOWLを制御しています。OWLはWebページのレンダリングにデータをAtlasに投影していますが、Atlas自体は比較的薄いSwiftアプリケーションのままでいられます。
なぜchromiumですか。
それは素晴らしい質問です。以前Twitterとして知られていたサイトでこの質問に答えたことがあります。Web互換性です。
残念ながら、または良くも悪くも、多くのウェブサイトは本当にchromiumで動作するように設計されているだけであることがわかります。名前を挙げませんが、主要なウェブサイトの機能で、chromiumベースのブラウザを使っていない場合は存在しないものがあります。
もう一つの理由は、chromium拡張機能です。chromium上に構築された拡張機能は非常に人気があります。そして、chromium上にブラウザを構築すると、それらの拡張機能が機能するということです。
だから、まず第一に、人々にとって機能するブラウザを構築していること、気にするすべてのウェブサイトがサポートされ、それらのウェブサイトのすべての機能がサポートされることを確実にしたかったんです。
そして、気にする拡張機能、ブラウザで使用することに慣れている拡張機能をインストールできることを確実にしたかったんです。
また、非技術的な人々は、ChromeとChromiumを聞きますが、さらに遡る本当に深い系統があることを理解していないようです。WebKitやKDEなどもあります。
言えることは、コミュニティの間で、新しいレンダリングエンジンが出てくるのを見ることへの多くの興奮があると思います。そして、それは長年にわたってWebのDNAの一部でもありました。
同時に、Darinが言ったように、新しいブラウザを構築するとき、まだそれほど多くの人々があなたの製品を使っていない場合、今日人々が知っているようにWebが機能することを望むだけです。
実際、Chromeでの作業を始めた当時、同じ懸念がありました。今日のchromiumは、Blinkを持っていて、それはその系統から分岐した独自のレンダリングエンジンのようなものです。
しかし、その時点では、そのようなリスクを取ることへの食欲はあまりありませんでした。そして、chromiumレンダリングエンジンはWebKitに基づいています。WebKitはSafariレンダリングエンジンで、オープンソースです。そして、それ自体がLinuxの世界からのKHTMLと呼ばれる初期のレンダリングエンジンに基づいていました。
だから、時間を遡るのは本当に興味深いです。これらのオープンソースプロジェクトがフォークして分岐するのを見ることができます。
chromiumには、Mozillaプロジェクトから来るコードもあります。1990年代に遡って、これを見つけることができます。これは本当です。系統です。
ブラウザは、時間をかけて構築されてきた技術のこの層状ケーキのようなものです。そして、本当に私たちがイノベーションを起こしたいと考えているのは、その次の層です。AIモデルが入ってきて、基礎層とどのように明確に対話するかです。
chromium上に構築することが、よく知られた基礎を与えてくれる限りにおいてです。私たちはchromium上に、通常ブラウザがやるのとは非常に異なる方法で構築しました。
ほとんどのブラウザは、chromiumを取ってUIをフォークしているだけです。またはchromiumの上に別のUIを重ねていますが、chromiumと同じプロセスで実行されています。それが意味することは、chromiumが作業をしているとき、アプリケーションは作業をしていないということです。
だから、OWLで設定した構造では、Atlasは、Webのレンダリングとウェブページの生成に関連するすべての活動の残りと並行して作業できるということです。これはかなりクールです。
だから、ブラウザ部分がクラッシュすると。
ええ、OWL部分がクラッシュすると、その部分で何か問題が起きると、AlはすみませんAtlasがOWLを再起動できます。
だから、それは実際に本当に興味深いことです。元々Chromeのデザインを行っていたときのことを覚えています。Webページがクラッシュするかもしれないので、ブラウザは周りにあるべきだという考えがありました。
そして、chromiumはWebページのための非常に洗練されたプラットフォームになったので、それ自体が非常に複雑になり、今ではAtlasがこの非常に軽量な外側のフレームで、本当にChatGPTを任意のページに持ち込めるツールとしてブラウザを使用するという中核的な生産性ユースケースについてです。そして、そこに本当にその焦点があります。
一方、chromium、つまりOWLの部分は、そのプラットフォームであることに焦点を当てることができます。そして、両方の部分は本当に、お互いの困難に対して回復力があります。彼らが遭遇するかもしれない。これは本当です。その意味で。
実際、OpenAIとこの利点についての別の楽しい事実です。OpenAIで始めるすべてのエンジニアは、初日にコードをマージします。そして、chromiumがプラットフォームとしてどれだけ巨大かを考えてみてください。本当に非常に強力ですが、たくさんのコードです。そのコードすべてをデバイスに乗せるのには時間がかかります。
少し複雑です。そして、それをすべてビルドするのには時間がかかります。
だから、私たちは新入社員を午後に迎える傾向があります。彼らがすべてのオンボーディングトレーニングを終えた後です。そして、彼らは変更をマージしなければなりません。だから、そのコードすべてをチェックアウトして、ビルドして、それから初日の午後にコードに変更を加えるのは、それをすべてやらなければならない場合、かなり大変なことになり得ます。
しかし、彼らがそれをする必要がないように構造化したので、Atlas側に変更を加えに行って、それを非常に、非常に迅速にチェックアウトしてビルドすることができます。私たちのエンジニアはすぐに生産的になることができます。初日にコードをマージし、初日に機能を出荷します。
これに関連して、新しいプロジェクトを始めるとき、常に新しい技術選択をする機会があります。Chromeを始めたとき、コードを構築する最新で最高の方法は何かと言うことができました。
Atlasを始めることに早送りすると、Mac OS上でネイティブアプリを構築する最新で最高の方法は何かということです。だから、もちろんSwiftを使うことになります。意味がある場所でSwift UIを使うことになります。そして、アプリはXcodeで構築されていて、非常に馴染みのある方法で行われています。
だから、Swift開発を行うことに慣れている人々、おそらくiOSアプリを構築しているので、入ってきて即座に生産的になれます。なぜなら、これは外国のコードベースではなく、外国のシステムではないからです。そして、それでも同時にchromiumの力を活用していて、それは非常に複雑です。
長期的なコミットメントと将来の展開
外側からこれを見ると、多くの人々が比較を描きます。まあ、Operatorがあって、今彼らはChatGPT Atlasをやっている、これは彼らにとって本当のものになるのか、それとも別の実験なのかという感じです。
ブラウザは、生産性のための非常に中核的なツールです。そして、それは頼れる必要があるものです。だから、私のこれに対する見方は、常にこれは長期的な投資のようなものだということです。だから、それが私たちがアプローチしている方法です。
ローンチした機能のセットがありますが、それは最初のフェーズのようなものです。ブラウザの歴史に戻ると、このWebブラウジングの新しい時代のNetscape 1.0のようなものだと言えます。だから、これからたくさんの将来の改善が来ます。人々が最初のフィードバックから私たちに伝えてくれた機能、研究とのパートナーシップを通して思いつく機能です。
時間の経過とともに出てくる新機能の全体があります。私たちが人々から聞く他のことは、異なるプラットフォームでこれを見たいということです。基本的に、このブラウザは私のWindowsデバイスや電話では利用できないというようなことです。
だから、これらは私たちが考えていて、取り組んでいることです。だから、強化の長いロードマップがあります。だから、人々には、これが時間の経過とともに良くなるという確信を持ってもらいたいです。
実際、アップデートをプッシュするたびに、毎週良くなっています。そして、彼らはますます多くの、彼らがいる表面でそれを見るようになるでしょう。だから、間違いなく私たちにとって長期的な投資です。
このアプリを、内部的にOpenAIのユーザーがこの製品を楽しんでいるのを見ていた地点まで持っていきました。そして、私たちが得ていたフィードバックの種類は、なぜまだ出荷していないんですか?まだ出荷していないんですか?
それはまさに私が考えていたことです。なぜなら、それは新しいフィードバックを得ていなかったからです。そして、これを出荷する準備ができていることに気づきました。これを世界と共有したいです。他の人々がそれをどのように経験しているかを聞きたいです。そして、このフィードバックはあらゆる種類の驚くべきものでした。
もちろん、欠けているペット機能を持っている人々や、Benが言ったように、なぜアクセスできないのか、WindowsはWindowsはいつ?というようなものがありました。しかし、この間、私の14歳の息子が戻ってきて、ああ、学校の友達がこのブラウザを大好きだって言っていました。
そして、本当に?何が好きなの?と尋ねていました。そして、彼らがチェックしていたさまざまなAI機能について話していました。人々からのその魅了の火花を見るのは本当に興味深いと思います。子供であれ、一緒に働く人々であれ、友達であれ、彼らがこのものについての経験を共有するときです。
妻が友人と家族のテストを行ったとき、Atlasを初めて試せたときにとても喜んでいました。そして、何かタスクを研究して、見ているものについてサイドチャットに尋ねられるようになることを探索できることができて、彼女はそれでとても楽しんでいました。
私の妻はそれが大好きです。これは嘘や誇張ではありません。それが出た夜、私たちはベッドに座っていて、私は読んでいて、見回すと、どうしてる?と聞きました。彼女は、誓って言いますが、私はChatGPT Atlasのことを考えずにいられないと言います。なぜなら、彼女にとって、それはこのようなエージェントシステムの最初の使用だったからです。
そして、これらのことをできるようになること、それは巨大なアンロックでした。今、彼女のお気に入りのツールは、ブラウザに接続されたChatGPTです。
そうです、まさに。なぜなら、ウェブサイトを見ているときや研究をしているときに、それが取り除いてくれる退屈さがあるからです。今、私が以前話していたことについて尋ねることができて、今これをコンテキストとして取ることができます。
そして、トピックが何であれ、研究を続けられます。モデルがすぐそこにあるとき、ずっと簡単になります。
多くの人々が、特定のウェブサイトで非常に複雑に見えるタスクをどうやって行うかに苦労していると思います。そのようなウェブサイトの一つは、Webベースのスプレッドシートプログラム、お気に入りのWebベースのスプレッドシートプログラムを選んでください。
このデータを特定の方法で視覚化するにはどうすればいいですか。非常に一貫した方法で尋ねられる、降りてきて助けてくれるツールがそこにあるだけなら、それは本当に興味深いと思います。
あなたの妻の反応に関連した他の部分は、これは世界の多くの人々にとって、たくさんの新しい能力だと思います。このツールについて本当に興奮していることは、私たちのモデル能力が常に進化しているということです。
だから、どの時点でも、それはその究極の状態のようなものではありません。しかし、このものがどのように機能するかを人々に示すことができます。そして、それによって、このテクノロジーがあなたに代わってどのように機能しているかについて、より多くの理解、より多くの信頼を築くことができると思います。
そして、明日、あなたが個人的に望んでいた方法で問題を完璧に解決する世界最高のモデルを思いついたとしても、おそらくそれが実際にどのように起こっているかを理解するために、一緒に来たいと思うでしょう。
ただ、あなた自身の教育のために。時間が経つにつれて、信頼レベルが構築されるにつれて、最終的には非常に複雑なタスクをこのテクノロジーに完全に委任することに快適さを感じるようになると思います。
しかし、まだその段階ではありません。だから、本当に幸せで興奮していることの一つは、人々がこのテクノロジーの次のステップを観察しに来て、それを見て、どうするかを見て、うまく機能しないときには黄色い埃を伝えるというようなことができることです。
しかし、それがどのように機能するかの感触を得られると思います。そしてその結果、それが何ができるかを知るでしょうし、コントロールが何か、何かをするのを止めてほしいところや、何か違うことをしてほしいところを知るでしょう。
ただそれに伝えることができます。
この製品でモデルをどれだけ使うか、どのように使うかを調整できると思いますが、それはすぐそこにあります。再度試すのは簡単です。
そして、私がChatGPTで感じた魔法は、それがとてもうまく機能したときです。ああ、それのために戻るつもりだと思います。それがどのように機能するかのために自分の習慣を変えるつもりだという魔法の瞬間があります。
そして、この場合、人々が馴染みのあるパターンを使うのは簡単だと思います。新しいタブページを開いて、検索をして、クリックできるリンクを含む体験に着地しますが、モデルの応答もあります。
だから、その私が探していたウェブサイトの代わりに、私の質問に答えるつもりだったものの代わりに、それがすぐそこにあることを学び始めます。そして、それを探索しに行って、別の質問をすることができます。馴染みのある通常の方法で製品を使うことによって、このモデルの力を学び始めます。
だから、私にとって、それは人々がモデルの能力が何であるかに気づき始めるドアを開くかもしれない方法を見るのがワクワクすることです。
モバイルと将来のビジョン
将来を見据えて、まず短期的に始めましょう。Windowsバージョンは、Mac版で今持っているものとほぼパリティを望むことが理解できます。しかし、モバイルについて話すとき、デスクトップスペースがたくさんあって、サイドバーを置いてチャットをそこに置けるときは一つのことですが、
モバイルブラウジングについて話すとき、あなた方が特に知っているように、それは非常にトリッキーなことで、検索タブを上から下に移動するか何かは、革命的な変化のように思えます。それについてどう考えていますか。モバイル体験、そしてまた、これらのものの使い方について、よりエージェント的に考えるようになるのでしょうか。
楽しい事実のように見えますが、私たちの初期の探索の一部は実際にモバイル上でした。そして、私たちが考えていた方法の一部は、本当にモデルをWebに持ち込むとはどういうことかでした。
そして、それはさまざまな形を取ることができます。もちろん、ChatGPTはあなたの電話でアプリとして存在します。Atlasを使用することによって生成されたメモリの種類をそれに共有する方法を想像できます。だから、モバイルが来るかもしれない、またはこれがモバイルでどのように現れるかについて、多くの異なるフレーバーと形式がありますが、基本的なレベルでは、
Webをモデルに持ち込む方法について、興味深いものを見ることになります。そして、モバイルで何が意味を持つかです。
UXは少し異なって見えるかもしれません。明らかに、あなたが指摘するように、そこには異なるフォームファクターがあります。しかし、非常に才能のあるデザイナーがいるので、彼らがこれらのもののいくつかを解決する良い方法を思いつくことは確信しています。
間違いなくモバイルでは、少なくとも自分の使用を通して気づいたことは、私のユースケースははるかに情報検索です。何かについて質問があります。実際、周りの何かについて質問があれば、ChatGPTアプリをたくさん使います。またはカメラをものに向けて、これは何ですか?というようなことです。
だから、Web内容がその旅の一部である状況の全体があると思います。そして、Atlasで持っているユーザーフロー、いくつかのWeb内容を見て、フォローアップの質問をして、それから戻って内容を再度見ることができるというものが、非常に良く感じられるようにしたいです。
それは今、私たちが理解しようとしているところです。だから、それについてあまり考えはありません。それが非常に良く感じられるようにしたいと思っているということ以外は。
人々からモバイルの重要性を聞いていると思います。なぜなら、彼らはラップトップで仕事をしていて、電話で何らかの形で続けたいからです。だから、そこでの可能性の空間の種類を想像し始めることができます。
5年後、Webの使い方とこのようなツールの使い方はどうなっているでしょうか。
使っているツールの詳細についてあまり考えず、システムに欲しいものをより表現するだけの場所にいたいです。そして、システムはそれに良い方法で応答する方法を理解するのに十分スマートです。
その意味で、私たちは人間として、最も高次の部分、つまり私にとって何が最も興味深いことかということに焦点を当てることができます。モデルは引き継ぐかもしれません、エージェントは駆動できます。おそらく、仕事のあまり食欲をそそらない部分、私がいくつかの労苦という言葉を使ってそのグラントワークの一部を説明します、たくさんの異なるソースから情報を引き出すこと。
それはあなたにとって非常に難しいように思えることの束をやるかもしれません。なぜなら、以前にそれらをやったことがないからです。それはそれらのことをやる方法を知っています。そして、あなたはやりたいことに焦点を当てることができます。
だから、将来、実際にエージェント的であるインターネットトラフィックがたくさんあるかもしれない世界を想像します。それが大部分のインターネットトラフィックであるかもしれません。人々もたくさんのトラフィックを生成しているのを今でも見ています。
しかし、それは効率的であるべきです。人々はやりたいことに焦点を当て、この仕事のより多くを委任すべきです。この労苦を本当にエージェントに委任すべきです。そして、プロジェクトについて決定を下さなければならない場合、おそらくエージェントが戻ってきていくつかの選択肢を与えてくれます。
休暇を取ろうとしているなら、このホテルに泊まりたいですか、それともあのホテルですか。それらの間で選ぶことができます。選択をすることができます。しかし、すべての厄介なクリックやこれらのもののためにインターネットを精査することのすべて、おそらくそれが最初のパスを取って、いくつかの選択肢を提示してくれました。
ユーザーとしてこのツールの開発者としてそれをどう見るかについて少し話しました。eコマースサイトを持っている誰かだったら、Webに情報を置くつもりだとしたら、そして知っているのは、一つには、LLMがWebを検索しに行くときに何が起こるかについてしばらく会話がありました。そして今、エージェントがこれを使っているとき、さらにLLM搭載ブラウザのエージェントの世界に入ります。
どんなアドバイス、どんな方向を人々に考えるように言いますか。
パブリッシャーのことですか。
そうです。
ある意味、Benが話していたこととは少し関連していると思います。最近のモデルを見ると、クエリに基づいて、ねえ、実際にあなたの質問に答えるためにインターネットを見るべきだと決定する方法を学んだんです。
だから、これらのモデルがパブリッシャーやWebアプリ、そこにあるコンテンツにあなたを接続するのをどのように助けられるかは本当に興味深いと思います。スニペットとそれへの引用を与えて、より深く行けるようにするか、またはあなたの意図がサイトにナビゲートすることだった場合、それがあなたをそこに連れて行く手助けをするだけでそこに接続するかです。
私たちがAtlasで探求してきたことの一つは、例えば、ナビゲーション意図をより良く処理し、より良く提供する方法です。時々、人々は、このサイトでこの製品を買いたいという意図を持ってブラウザに来ます。
そして、それは私たちの仕事で、できるだけ速くそこにあなたを連れて行くことです。だから、Atlasを構築する要素の一つは、そのような種類のクエリをうまく提供していることを確認することでした。
他の時は、モデルの知識を探求して、あなたのために何かを研究してもらいたいだけです。そして、時々それは、あなたに代わってそれを行うためにツールを呼び出す必要があることを含みます。だから、再びBenが話していたことに戻ります。
将来、モデルに使ってほしいツールについてそれほど規定的である必要がない世界を想像します。むしろ、それが引き出すことができる信じられないほどのツールのパレットを持っています。そして、それらのいくつかは、あなたのブラウザを作動させるようなことができます。
10年後にWebページを使っているでしょうか。
そう思います。
これは、人々がこのファブリックを通して公開しているような、この世界のこのファブリックのようなものです。それはコアプリミティブで、人々がそこにコンテンツを置く方法です。だから、インターネットスーパーハイウェイ、すべてのそのような比喩の類ですが、それは人々が公開できるこの開かれたファブリックのようなものです。それが変わるとは思いません。
それは世界最大の、あなたが前に言及したように、最もオープンなプラットフォームです。そして、そのオープン性の力の一部は、常に人々がコンテンツを置くのに魅力的にするつもりだと思います。
私の見方は、これらのツールは、はい、そのファブリック、そのインターネット、そこにあるコンテンツを理解できますが、そのコンテンツを人々に持ってきて、人々をそのコンテンツに接続することもできます。
それは非常に強力です。そして、再び、それはすべてそのユーザーの意図が何かに奉仕することです。それについて、私たちがより良い、より良い仕事をする方法についてどのように考えるかは、かなり興味深いと思います。本当にそれらのユーザーのニーズに応えることです。
そして最終的に、人々がそこに置いているコンテンツが人々のために意図されているとき、あなたがそれはギャラリーで、誰かがショッピングに行くためのものであるとか、このようなものであるとき、人々がそれを見つけるのを助けたい、人々がそれに接続するのを助けたい、人々が彼らが進んでいる旅を助けたいんです。
そして、それが何であれ。
これはワクワクします。これを共有してくれてありがとうございます。最後の提案、パワーユーザーのヒントはありますか。
間違いなく、スクロールタブ機能は私たち二人のお気に入りです。ただ、この時点では非常に初期段階ですが、訪れるページで、好奇心心で自分自身に挑戦してくださいと言いたいです。より多くのページで質問をしてください。そうすれば、何を思いつくか驚かされるかもしれません。
素晴らしい。
そして、製品をどのように経験しているかについて、皆さんから聞きたいです。だから、フィードバックを続けてください。
まさに。
Ben、Darren、どうもありがとうございました。
ありがとうございました。
ありがとう。


コメント