OpenAIが昨日リリースしたデータコネクタ機能についての詳細な分析である。この機能はGmail、カレンダー、GitHub、Linearなどの外部サービスとAIを接続し、パーソナルデータを横断検索できるが、現状では重大な制限があることが実際のテストから明らかになった。APIの結果が最大15件に制限されており、包括的な分析には不十分であることが判明している。
OpenAIは昨日データコネクタをリリースしました。データコネクタは基本的に、ClaudeがGmailに接続したり、Claudeがカレンダーに接続したりすることに対するOpenAIの回答です。OpenAIらしく、これまでClaudeが追加していなかった多くの機能を追加しました。もちろん、これは競争の激しい軍拡競争だからです。
そこで彼らはGitHub、Linear、Zapier、その他多くのものを追加しました。そしてもちろん、Gmail、Outlook、SharePoint、Google Calendarも含まれています。要するに、彼らはPlus、Teams、Proアカウントで、仕事をする際に作成する多くの個人情報を横断して検索できるようになったと言っているのです。そして彼らは評価すべきことに、これが完璧な検索メカニズムではないことを慎重に説明しています。
彼らは具体的に、例えばGoogle Driveでスプレッドシートの数学的な拡張作業を行う場合には使用すべきではないと述べています。つまり、スプレッドシート分析を行う場合、Deep Researchはおそらくそれに最適ではないということです。彼らの言うことは正しいでしょう。しかし、OpenAIが推奨していないテストをするために設計されていない複数のクエリをDeep Researchに投げかけても、それでもうまくいきませんでした。
言い換えれば、警告された箇所を避けようとしました。過去にオープンウェブでしか動作していなかった時にDeep Researchに与えたのと同様の難しいクエリを与えようとしましたが、ローカル情報においては本当にうまくいきませんでした。実際に、Deep Researchの思考の連鎖を見ることができるので、送信したクエリ中にその思考の連鎖を引き出し、Deep Researchが何をしていると言っているかのスクリーンショットを撮ることができました。
そして興味深いことを学びました。カレンダーから結果を得るため、Gmailから結果を得るために依存しているAPIの結果は、最大15件であることが判明しました。言い換えれば、まあ、例えば働き者の秘書にこう言いたい場合「先月の包括的な分析をしてください。先月のメールの量をコホート分析してください。私が注力すべき人物を教えてください。時間をより効率的に使う方法を教えてください。返信すべきメールの種類と返信不要なメールの種類を把握させてください」と。これはできません。アクセスはありますが、作業しているデータパイプの細さのせいで、絶対に不可能です。そして信じてください、私は試しました。過去100件のメールの分析を試しました。
過去100件のカレンダードキュメントの分析を試しました。これでも優しい方です。できるならば1000件と言いたかったのですが、予感がありました。私が作成した過去100件のGoogle Docsの分析を試しました。極めて限定的な検索しか行いません。100件のドキュメントのクエリで、3件しか呼び戻している証拠を見つけられませんでした。100件のメールのクエリでは、正確な数を出すことができませんでした。ただ手を振って空中で概算の数字を出しただけでした。毎日メールを受け取る人間として、カテゴリは正しく推測していましたが、数字は完全に間違って推測していました。私のメール全体のグループに対して推測していた数字は完全にずれており、データコネクタがあるにも関わらず、実際にメールをチェックするという基本的な作業をしませんでした。つまり、単純に失敗したのです。他に何と呼ぶ必要もありません。
では、どこで成功したのでしょうか?と思われるかもしれません。具体的なトピックを調べるように指示した場合は、はるかに良い結果を得られたと言えます。例えば、計画しているウェビナーや実施したいイベントなど、明確な時間的焦点を持つものを与えて「ウェブを調べてください。私のメール、カレンダーを調べて、このキーワードで明確に区切られた非常にタイトなトピックについて包括的なブリーフィングをしてください」と言えば、かなりうまくいきます。そのキーワードをGmail、カレンダー、オープンウェブ、Google Docs全体のガイドポストとして使用し、実際にかなり良い包括的なブリーフィングを返してくれます。
なぜそれほどうまくできるのでしょうか?個々のデータソースが大量の個別データ単位になることはないからです。多くの場合15を超えることはなく、o3が非常に得意としている、すべてを組み合わせて推論することで、本当に包括的なものに組み立てることができるのです。
そのイベントが公開されている場合も役立ちます。なぜなら、Deep Researchが最も得意とすること、つまりウェブ全体にわたって大規模に推論することができるからです。
私がこれを見て一歩下がって考えると、これは進行中の競争の文脈で捉えています。AnthropicとOpenAIの間のモデル作成者同士の競争、そして冒頭で説明した、モデル作成者と彼らが狙いたい特定の垂直市場との競争の両方です。
これが出た時に受けた質問の一つは「何か安全なものはあるのか?」というものでした。彼らはこれらの垂直市場を狙い続けています。次は誰か?Granolaは食われたのか?なぜなら、ここのデータソースの一つは、Teamsが通話を録音するというものだからです。
正直に言うと、AnthropicとOpenAIの両方による最近のこれらの動きに共通する理由は、すべてトークンとデータの取り込みに関するものだと思います。すべて訓練データに関するものです。誰もがそれに飢えています。そこで彼らは訓練データのためにGmailへの接続を構築し、訓練データのためにカレンダーへの接続を構築し、手に入るものは何でも構築しています。訓練データのために会議の書き起こし機能を構築しています。AnthropicはOpenAIに買収されたWindsurfでのモデルへのアクセスを切断し、OpenAIを訓練データから遮断しようとしています。
実際には、Windsurfは第一者アクセスの代わりに第三者アクセスを得ることができるので、あまり関係ありません。しかし、ポイントは意図です。意図は訓練データから彼らを遮断し、ライバルが訓練データを得ることを防ぐことです。
もしこの分野で構築している場合、自分に問うべき質問は、モデル作成者が高価値だと思う訓練データにアクセスするのがどれほど簡単か、そして彼らがそれを正しく理解できれば実際の報酬があるかということです。
そこで私の提案は、そのデータを得るのが困難な場所を探すことです。彼らがMCPサーバーを追加してデータを取得することができない場所を探すことです。なぜなら、それは基本的にOpenAIがやったことだからです。そして、問題は、できるなら彼らがMCPサーバーを追加してデータを取得するかどうかではないと思います。これを行うためのデータ収集が、彼らが会社に対して述べているより大きなビジョンに沿っているかどうかです。なぜなら、OpenAIとAnthropicの間の肘打ちは別として、これは私たちが期待することと完全に一致しているからです。
OpenAIは企業のデフォルトOSになるという計画について非常に明確にしています。仕事のデフォルトオペレーティングシステムになるつもりなら、会議をしなければなりません。誰も驚くべきではありませんでした。Gmail、カレンダー、Outlook、SharePointをしなければなりません。これはそれほど驚くことではありません。
では、企業レベルで現在私がそのすべてを彼らに任せるほど十分にうまくやっているでしょうか?いいえ、そうではありません。実際、これは1月のOperatorの初期リリースを非常に思い出させます。Operatorが出た時、率直に言ってひどいものでした。3、4回使いましたが、不正確でした。遅かったのです。永遠にかかりました。カートに追加などの簡単なことでフリーズしました。もう使いませんでした。
しかし、彼らがそれを改善するだろうという予感がありました。結局のところ、ベータ版だからです。そして先週、彼らはそうしました。Operatorの背後にある駆動モデルとしてo3モデルを追加しました。Operatorは約10倍速くなり、10倍正確になりました。今では実際に役立つツールです。それほど大きなファンファーレは作りませんでしたが、今では実際にそこに行って、十分に高速なので具体的な使用例を想像しています。今週、事前に計画していない実際のタスクにそれを使用しました。それは航空便の計画でした。はい、彼らが航空便の計画のために訓練したことは知っていますが、1月には航空便の計画にさえ使用できませんでした。
つまり、彼らがそのために訓練したということだけではなく、適切なモデルを手に入れたということです。時間をかけました。おそらく私たちユーザーの一部から使用中に匿名でデータを収集し、最終的にインターネットのブラウジングでモデルをより良くすることができました。同じことがこのコネクタの取り組みでも起こると期待しています。
これは長期的な取り組みです。今日は特に使用可能だとは考えていません。企業と職場のためのデータへの動きを、驚くべきことではなく、OpenAIが今後6か月でこれをはるかに上手になるものだと考えています。彼らは推論するためのより多くのデータが必要です。
これは、彼らがそのすべてのデータを処理する際に即座に10倍賢くなることを意味するわけではありません。人間によって作成された信じられないほど混乱した非常に大きなデータストリームを横断してこれらのモデルがうまく推論する能力については、実際の疑問があると思います。職場のNotionやwikiを見たことがありますか?おそらくかなり汚いでしょう。誰もが目を回して、そこに物を投げ込みます。そのような汚い非構造化テキストデータのリポジトリがある場合、AIに意味を作り始めるように頼むのは本質的に良い場所ではありません。しかし、それは私たちのテキストリポジトリの多くの場合によくあることです。
そこで私からの挑戦は、あなたのプロンプティングはどれほど良いか、そしてどれほど正確に作業を依頼しているかということです。2025年のAIについて学んでいることの特徴の一つは、非常に具体的なタスクを念頭に置いて、うまく、きれいに、明確にプロンプトすると、しばしば驚くほど良い結果を得られるということです。しかし、より曖昧で、より困難で、質問を完全に知らない非常にシニアな研究者に頼むようなことを求めると、しばしばかなり悪い結果を得ます。そして、それは今日のコネクタでの私の体験がどのように進んだかを本当に説明しています。
イベントやウェビナーについての具体的なクエリと、それらすべてがブリーフィングにどのように組み立てられるかを理解し、この特定のイベントのメール、カレンダー、アジェンダ、公開プロフィールの感覚を与えてもらうことができました。それはうまくいきました。非常に具体的なクエリでした。私のメールのパターンとカレンダーのパターンに関するより一般化された発見質問は、ひどくうまくいきませんでした。
全然うまくいかず、それを理解するのに必要なデータの量を引き出すことができませんでした。そこから学んだことは、2026年の仕事における挑戦の一部は、意図することを正確に尋ねるためにクエリをより効果的に構造化する方法だということです。それは多くの人間の作業を必要とします。簡単ではありませんが、私たち全員が上達できる大きな仕事のスキルだと思います。
明らかに、私も上達する必要があります。なぜなら、今日のテストクエリで3分の1、4分の1程度しか成功しなかったからです。このツールをチェーンソーのようではなく、メスのように使う方法を見つける必要があります。これはチェーンソーツールではありません。現在は非常に精密なツールです。コネクタの範囲を拡大するにつれて、より高い帯域幅を得るかもしれません。現在はそれほど高い帯域幅ではありません。
以上が、データコネクタで何が起こったかについての要点です。この簡単なレビューを楽しんでいただけたことを願っています。次の作品では、この動きの舞台裏にはもっと多くのことがあり、それをより深く掘り下げたいと思うので、AIと仕事についてもう少し詳しく説明していきます。それでは、乾杯。


コメント