OpenAI内部:Codexで全員がコードを書く時代へ―デザイナーまでもが(その実現方法)

OpenAIのCodexチームの中核メンバーが、AIコーディングエージェントがいかに組織全体の働き方を変革しているかを詳細に語る。エンジニアだけでなくデザイナーや非技術職まで全員がコードを書き、PRを提出する時代が到来している。Codexによる自動コードレビュー、長時間稼働するエージェントワーク、メモリ管理、そしてコード生成から展開・保守への課題シフトまで、AI統合企業の最前線における実践的な知見が明かされる。職種の境界が曖昧になり、問題解決能力と適応力が最重要スキルとなる未来の働き方についての考察である。

Inside Codex: Everyone At OpenAI Ships Code Now - Even The Designers (Here's How They Did It)

My site: Story w/ Prompts:

CodexがOpenAIの働き方を変えた
OpenAIへの参加と初期の経験
OpenAIのエンジニアはCodexをどう使っているか
デザイナーもコードを書く時代
組織全体への技術ツールの展開
コードレビューの革新
新しい働き方のパラダイム
非技術的な使用ケースでの驚き
デザイン、PM、エンジニアリングの境界の消失
問題解決能力の重要性
コードが勝つ時代
チームの形成と働き方の進化
ジュニアエンジニアの成功
重要な資質:適応性と学習意欲
興味深い問題を解決する好奇心
焦点の選択と問題の優先順位付け
ボトルネックの移動:展開と保守
安全性とアライメントの課題
エンジニアの流暢性の維持
モデルの創発的特性への驚き
ツールの組み合わせの力
メモリ管理のアプローチ
シンプルな原始要素の成功
キャリアと資格の変化
面接の進化
モデルの進化とインターフェース
直線的外挿の難しさ
コーディングエージェントの非技術的使用
有用な仕事の定義
未来のベンチマーク

CodexがOpenAIの働き方を変えた

数日前、私はCodexのエンジニアリングチームの2人のメンバーと座って話をする特権を得ました。Codexでエンジニアリングリードとしてよく知られているティボさん、そしてデザインエンジニアのエドさんとお話ししました。私たちの焦点は実はコードそのものではありません。ですから、もしあなたが開発者でなくても、これはとても興味深い内容になると思います。

その代わりに、私たちが焦点を当てたのは、Codexがどのようにして OpenAIの働き方を変えるのかということです。特に、エドさんのような非技術的なバックグラウンドの人とティボさんのような技術的なバックグラウンドの人と話をするとき、私たちのワークフローはどのように変化するのでしょうか。Codexを事実上チームメイトとして持つとき、私たちが構築するものはどう変わるのでしょうか。それは実際にはどのように見えるのでしょうか。

私たちはよくAIネイティブな組織について話しますが、今回は真にAIネイティブな組織であるOpenAIと座って、彼らが日々どのようにCodexを使っているのか、そしてそれが技術チームだけでなく全員のワークフローをどのように変えているのかを実際に学びたいと思いました。では、始めましょう。これは楽しいものになるはずです。

まず、あなた方について少し聞かせてください。誰なのか、どのようにしてOpenAIに来たのか。皆さんにはそれぞれ物語があると思いますし、少し聞かせていただきたいです。

エド: 素敵な話ですね。私はCodexのデザイナーです。OpenAIに入社して1年ちょっとです。Codexには約6ヶ月います。その前はリサーチチームで働いていました。私は常にデザイン、デザインエンジニアリング、研究の交差点で働いてきました。以前はGoogleでロボティクスに取り組んでいましたし、その前にもいくつかのことをしていました。

ティボ: 私もGoogleで働いていました。私たちがその歴史を共有していたとは知りませんでした。常に物事を解明しようとしています。Googleでは非常に短期間働き、その後DeepMindに移りました。そこで長年働きました。それから大きなジャンプをして、アメリカに行き、OpenAIで働くことにしました。それが約1年半前のことです。それはreasoningモデル以前でした。

OpenAIへの参加と初期の経験

エド: そうですね。

ティボ: 典型的なOpenAIのやり方で、その直前に参加しました。o1のスプリントの一部でした。私はできる限り役に立とうとしていました。その後、リサーチのためのツール作りに取り組み、昨年末にはモデルが改善し続け、その能力が私たちを感銘させ続けるだろうという考えに夢中になりました。そして、実際にそれらのモデルから本当に恩恵を受けるために、製品やインフラストラクチャについてもっと考えるべきだと思うようになりました。それからプロトタイピングを始めました。あなたも似たようなことをしていましたね。

エド: ええ、私たちは最初は一緒に働いていませんでしたが、今年の初めに力を合わせました。

ティボ: そして、それがCodexの始まり方でした。

エド: ええ。つまり、長い歴史がありますよね。コーディングエージェントはOpenAIに以前からありました。Codexという名前は、GPT-4以前のモデルへの懐古的な呼び方です。コーディングエージェントは以前からありましたが、今のCodexは4月にリリースされた製品です。

ティボ: そうです。

OpenAIのエンジニアはCodexをどう使っているか

素晴らしいですね。私がCodexについて聞かれることの一つ、これは私が最もよく聞かれる質問なのですが、OpenAIのエンジニアは日々どのようにCodexを使っているのでしょうか。

ティボ: 2つの異なるパターンがあります。1つは、皆が選択の余地がないというものです。コードはCodexによってレビューされます。望むかどうかに関わらず、レビューされるのです。問題を発見するのに非常に役立っているからです。

そして、非技術職のスタッフによる多くのカジュアルな使用があります。さらに、スペクトルの完全な反対側には、Codexのヘビーユーザーがいます。彼らは数ヶ月前に見たよりもはるかに多くの計算資源を展開しています。これは増加し続けています。ますます複雑なワークフローで、それらのいくつかはマルチエージェントで、何時間も実行されます。

ですから、これは非常に個人的なことであり、まだ進化していると感じています。

デザイナーもコードを書く時代

エド: そうですね。私が言ったように、私はチームのデザイナーなので、エンジニアと非常に密接に協力していますが、私自身もコードベースに多く関わっています。Codexやこの数ヶ月の最近のモデルの素晴らしい点は、本当にステップチェンジだったということです。

最新の製品スイートをローンチして以来、基本的にOpenAIの全員がそれを使っているのを見てきました。私が知っているあるエンジニアは、メモ取りを含めてすべてに使っています。基本的に彼のコンピューターへの主要なインターフェースです。

デザイナーとして、私たちのSlackの作業中チャンネルで、人々がこれらのデモを投稿しているのをますます見ています。誰かにDMを送ったら、「コードを書ける必要があると思っていなかった」と言われました。彼は「数ヶ月前まではできなかった」と答えました。

ですから、私のようなデザインエンジニアがもっと飛び込んで、もっと多くのPRを提出して、詳細に近づいています。さらに、新しい人々や非技術的な人々、ゴートゥーマーケットの人々まで、本当に飛び込んでいます。これは一種の力の倍増装置のようなものです。

組織全体への技術ツールの展開

それはまさに私が話したかったところです。多くの組織にとってそれは夢のままですが、コマンドラインやターミナルの恐ろしさのようなものがあるのかもしれません。しかし、何らかの理由で、人々はこれらの技術ツールの多くをエンジニアリングチームに厳しく制限していることに気づきます。時にはそれは文字通りIT方針のレベルです。私が所属していた組織では、IT方針がエンジニアにのみこのようなツールの使用を許可しており、非技術者としてこれを使っているのが見つかった場合、それは方針違反でした。これらの古い働き方や考え方の一部は進化しなければなりません。

ティボ: 私たちが見ているのは境界線が曖昧になっているということです。エド、つまりあなたはあらゆる場所にいますよね。未来について考えを巡らせていますが、同時に毎日Codexを使っています。

エド: そして、PRを引き上げたり小さな修正をしたりするのは正しく感じますか。

ティボ: それがどのように急速に進化したかわかりますよね。

エド: 完全にそうです。組織をどのように連れて行くかという半分があると思います。特にこれらの大規模な組織の一部には、より制度的な課題があるかもしれません。しかし、アクセスを得れば、可能な限り簡単になっていると感じます。

ターミナルに入るのは人々にとって少しステップアップに感じるかもしれないとおっしゃいました。最近の製品で素晴らしいのは、ターミナルだけでなくID拡張機能を出荷したことです。少し前からCLI製品がありましたが、人々がコードを書く場所で会えます。VS CodeやCursorなどのIDEかもしれませんし、ウェブ製品もあります。

企業のパズルのピースをすべてつなげば、ウェブ製品に入ってプロンプトを入力し、修正を作成できます。たとえば、UXのコピーを変更したいコピーライターの場合、コードを見る必要さえないかもしれません。文字列を変更したいだけなら、自分でできます。企業が設定されていればプロンプトを入力できます。人々が作業する表面の数が増え、関与することが簡単になっています。

コードレビューの革新

ティボ: アクセスのしやすさの部分は、この数ヶ月でうまく解決してきたと思います。もう一つ聞いた部分は、すべてのPRをCodexにレビューさせるという健全な制約があることです。重要ではない、レビューされる。それに関与しなければなりません。これも多くの組織にとって新しいことだと思います。

私たちが非常に注意してきたのは、シグナル対ノイズ比を最適化し、ヒット率が非常に良いことを確認することです。そうすれば、人々は実際に文句を言わず、オフにしたいと思いません。

全体として、組織として、時々のミスよりもはるかに多くの価値を得ています。そして、システムとモデルを時間をかけて改善し続けているので、より多くの厄介で微妙な問題を見つけることができるようになっています。人々は一般的に感銘を受けています。「これは超人的だ」とよく聞きます。「スタックの4層深く掘り下げる時間がないから、私が決してしなかったであろうレビューをしている」と。

常にオンで、考える必要がなく、そこにあるセーフティネットがあります。

エド: 非常に興味深いです。デザイナーとして、コードレビューのようなものを考えていたとき、ユーザー体験を考えていました。みんなに大量のメールが届くのではないか、と。実際には、私たちが出荷した中で最も愛されている機能の一つだとわかりました。

私にとって変わったことの一つは、OpenAI全体、私たちのチームだけでなく、トップのコントリビューターの何人かが、私たちのSlackでコメントしているのを見たことです。「これはおっしゃる通り超人的だ」と。「そのような通知を今は楽しみにしている。本当に多くの価値を追加してくれる」と。

新しい働き方のパラダイム

ティボ: 2つのことが浮かび上がっていると思います。このアンビエントインテリジェンスで、コードレビューはその一例です。発動する必要がなく、それについて考える必要がありません。そして、それが展開されているインテリジェンスから恩恵を受けるだけです。

もう一つは、人々がコンピューター内の小さなアシスタントとして使い始めていることです。コードに関するものではありません。CIS管理タスクを実行したり、コンテキストを引っ張ったり、最新のニュースを取得したり、新しいデザインや新しいアイデアを作成したりします。

そのために、私たちがCLIや拡張機能で行っている現在の方法は即座です。現在のインターフェースは、物事を少し抑制しているかもしれません。

エド: ある意味、両方の方向性があります。ターミナルへの回帰に懐かしさを感じる人々がいて、デザインの観点から、これは一種の芸当であり、一時的なフォームファクターであり、実際には私たちが推し進めている新しいインタラクションパラダイムがあるかもしれませんが、まだそこにはありません。

一方で、プロンプトボックスの制約、ターミナル、それもある意味完璧です。それはあなたがいる場所で会ってくれます。人々がその周りに構築したワークフローを見るのは非常にクールです。文字通り、ターミナルを起動して、おっしゃる通り、メモを書いたり、これらすべての異なることをこのようなシンプルなフォームファクターから行えます。

非技術的な使用ケースでの驚き

私が驚いたことの一つは、Codexの非技術的な使用ケースに戻ると、Codexは非常に論理的なモデルであるということです。非技術的な使用ケースで使用すると、特定の入力セットを評価する方法に鋭さと簡潔さがあります。コード用に設計されたモデルからこれを得るのは当然だと感じられますが、その創発的な特性には多くの他のことに役立つ拡張性があることがわかります。

ビジネスケース分析を行いましたが、それは技術的ではありませんでした。収益のようなビジネスインプットを分析し、売上数字などを分析します。しかし、同じ厳密さを適用し、本当に首尾一貫した応答が得られます。本当に明確です。筋が通っています。理にかなっています。読みやすいです。その結果、非常に有用です。

これらのモデルが、最初に設計されたものから派生した拡張可能な特性を持ち、多くの他のことを行うことができるという考えが大好きです。

ティボ: モデルが物事について正確で正しく、勤勉であるように訓練されている要素があります。時々自分の仕事を二重チェック、三重チェックし、すべての計算を頭の中やコンテキスト内で行わず、小さなPythonスクリプトを書いて自分を助けるかもしれません。

私は常にデータ分析に使用しています。もはやコードについてではありません。結果とステップを信頼することについてです。おっしゃったように、非常に筋の通った判読可能な説明です。段階的に、なぜそれを行っているのかを見ることができます。

そして、これらの種類のタスクについて、どの時点でまだコードを見る必要があるのかという疑問があります。コードは本当に気にしない単なるツールなのでしょうか。そして、それを足がかりとして使っています。コーディングエージェントがより一般的なアシスタントに進化していくかもしれません。それは考える価値のある興味深いことです。

エド: ええ。使用について話すと、異なる場所に現れるデザインについて言及しました。デザイナーの使用ケースについても同じように考えます。

一方では、スプレッドシートでの作業など、細かい問題を修正することがあります。私たちは一日中これらのツールにいます。文字通り一日8時間です。小さな問題でも、それを見てすぐに修正できます。PRを提出していますが、生成しているコードを見る必要があり、レビュープロセスを経る必要があります。

しかし、私が全く異なる考え方で、デザインやアイデア創出の考え方にいる場合、ターミナルを本当に小さくして、コードをあまり心配せず、ローカルホストを開いて、基本的に思考から製品へのギャップを狭めることができます。

インタラクションに本当に焦点を当てることができます。それを動かすことができ、レスポンシブ性について考えることができ、そのようなことがより重要になり、キャンバスのようになります。執筆の場合も、非常に異なる使用ケースですが、非常に異なるデザイン方法でもあります。

デザイン、PM、エンジニアリングの境界の消失

長い間、デザインはエンジニアリングから事実上仲介を解除されてきました。製品の観点から見ると、伝統的にその役割の多くは、デザインをエンジニアが構築できる要件を持つものに翻訳することでした。私が育った頃、PMとエンジニアとデザイナーの間には常にこの緊張がありました。皆が異なるインセンティブを持っています。実際、それはすべて仲介解除の関数です。ギャップを取り除き、皆にコードへのアクセスを与えれば、それは異なる世界です。

ティボ: 多くの場合、エド、あなたはチームのエンジニアのようです。PRを書いて物事を修正しているだけです。誰とも話す必要はありません。ただそれを行います。

エド: ええ。おっしゃる通り、これらの境界の一部は少し人為的です。それらは成長してきました。最初はターミナルがあり、Macで GUI について考え始め、新しい分野が出現しました。それらは時間とともに収束したり分岐したりしています。

ティボ: エンジニアであることは好きではないですか。

エド: いやいや、つまり、私は今自分を何と呼ぶべきかわかりません。それが素晴らしいことだと思います。

ティボ: アイデンティティの危機ですね。自分が何なのかという。

問題解決能力の重要性

私たちは、職種が重要性を失い、スキルセットがより重要になる世界に入っていると思います。人々がこれらの帽子を軽く被り、解決できる問題に焦点を当てることができるようになったときに何が起こるかを見るのは刺激的です。

ティボ: それは多くの明快さをもたらします。すべては問題についてです。どの問題を解決するかを見極め、自分にどんな質問をするかを見極めることです。はるかに多くのことが可能で、アイデアを出して構築するのがはるかに安価になり、「ワオ、自分が何をしたいのかについて本当に明確である必要がある」と気づくことになります。

それは刺激的ですが、同時に神経を使うことでもあります。

エド: 良いアイデアがより重要になります。

ティボ: そうです。そして、正しく狙いを定めたアイデアがより重要になると思います。

エド: スピードとベロシティですよね。どの方向に進んでいるか、どれだけ速く学習するか。OpenAIで成功しているチームとして浮かび上がってくるのは、学習と反復を超高速で行うように自分たちを設定している本当に小さなチームです。そして、「これに向かって構築している」という一般的な感覚がありますが、物事を変えることはより安価です。

コードが勝つ時代

エンジニアリングで長い間言われてきたフレーズがありますが、それは「コードが勝つ」というものです。いくらPDを書いても、製品を手にするまでわかりません。製品チーム全体で見た素晴らしいことは、ハッカソンの終わりには、以前のような使い捨てのReactデモではなく、完全に機能する製品があるということです。それは超刺激的だと思います。その後の難しい決断は、何を構築するか、どの会社を絞り込むかです。

ティボ: 多くの場合、新しいアイデアの機能、製品全体を思いつきますが、二度見する必要があります。静的なものではないからです。「このものは完全に機能している、ほぼ出荷可能だ。どうやってこれを作ったのか」と。

エド: ええ、素晴らしいことは、デザインエンジニアリングであまり探求されていない楽しい角度だと思います。古い世界では、デザイナーや製品マネージャーはドキュメントやファイルで作業します。それは使い捨てのピースで、それをエンジニアに投げて、エンジニアがそれをプロダクション化します。

しかし今では、ティボが言及したデモのいくつかでは、リポジトリのフォークを作成するだけです。それは単なるデモではありません。完全に機能するものです。明らかに速く動くためにいくつかの近道を取っており、少し荒削りな部分がありますが、到達できる忠実度は驚くべきものです。

チームの形成と働き方の進化

使った捨てセリフとして使ったものの一つを少し掘り下げたいと思います。アイデアを思いつき、そのアイデアを実現するためにチームがアイデアの周りに形成されるという考えについて話しました。それはCodexの物語だと感じますが、新しい働き方の物語でもあると思います。それが内側からどのように感じられるか、もう少し共有していただけますか。

ティボ: Codexと働き方を共進化させているように感じます。Codexが創造する新しい可能性に適応しなければならないのと同じくらい速く進化しています。それは大きな挑戦ですが、幸いなことに、一つ非常に明確になったことは、人間が物事に迅速に適応するのに依然として最高だということです。

今年の初めにはこれらのどれも本当に存在していなかったと考えるのは非常に狂気的です。

エド: そして今では、小さなエージェントを脇に置かずにコードを書く人を見つけることは非常に稀です。小さな機敏なチームが信じられないような結果を生み出す傾向があることは明らかで、それは引き続き真実であり続けると思います。

エド: ええ。同意します。私が見た本当に興味深い観察は、人々がこれらの新しいステップチェンジに慣れる速さに驚いたことです。ティボのポイントに戻りますが、私もreasoningモデルの直前に参加しました。当時、「このreasoningモデルを出荷する」と話していたことを覚えています。明らかに、これはすべての研究の上に位置し、会社にとって本当に大きな研究プロジェクトでした。しかし、それは控えめな研究プレビューでした。それは多くの分野で大きなステップチェンジでした。

今どこにいるかを考えると、過去6ヶ月間に私が働いてきた異なるチームを見るだけで、数週間ごと、またはモデルのリリースごとに、このフロンティアをさらに押し進めているように感じます。1週間後、あるエージェントループにいてバグが出て、「ああ、このモデル」とイライラします。そして、「これは狂気的だ」ということを忘れていることに気づきます。

画像生成やビデオにも同じことが言えます。Soraを出荷して、それは驚異的でした。そして、この小さな断片を見て、「ああ」となりますが、ズームアウトすることを忘れます。これらのことに非常に速く慣れてしまいます。

しかし、素晴らしい点は、小さなチームにとって非常にエンパワリングだということです。私たちが一緒に働いている若手エンジニアの何人かは、大学を卒業してまだ数年しか経っていませんが、彼らができる仕事の幅と取れる大きな振りは、過去数年でさえ本当に加速したと思います。

ジュニアエンジニアの成功

ティボ: チームにアフメドがいます。彼は新卒で入社しました。Rustを知りませんでしたが、非常に速く学びました。新しい言語をこれほど速く習得して生産的になるのを見たことがありません。彼がテクノロジーと可能性を受け入れ、エージェントの真の可能性を発見する方法は、チームのほとんどの人よりも速いと思います。

新しい働き方を試して採用する意欲がどれだけあるかというスーパーパワーのようなものです。業界で10年のベテランが、より伝統的な開発方法に固執しているのも見たことがあります。どちらがより効果的かわかりませんが、3ヶ月、6ヶ月後にはどちらがより効果的かは非常に明確になるでしょう。

率直に言って、OpenAIにジュニアエンジニアがいるということは多くの人にとって驚きだと思います。過去12ヶ月間、これらのツールは十分なビジネスコンテキストを知っていて、それらを活用する経験を持っている人々を劇的に加速できるという広範な認識があったからです。ジュニアが入ってきて、私は直接ジュニアから聞きます。「どこでも役割を得ることができない」と。経験がないからです。今では、その経験を持ち、AIでそれを活用する能力も必要で、さらに難しく、より高くなっています。

しかし、あなた方にはジュニアがいて、彼らは明らかに非常にうまくやっています。それはどのような感じでしたか。

ティボ: 素晴らしかったです。仕事に非常な喜びをもたらしてくれると思いますし、新鮮な視点を提供してくれます。私たちを地に足をつけさせてくれます。それがどれだけうまく機能しているかについて、うれしく驚いています。

重要なことについての私の認識も変わりました。この適応性です。アフメドを例に取りますが、申し訳ありません、アフメド。彼はこれとともにほぼ成長しました。それは完全には真実ではありませんが、ある時点で真実になるでしょう。コーディングエージェント以前の人生、バックグラウンドのアンビエントインテリジェンス、ターミナルに小さなアシスタントがいるようなこと、それは存在しなかったのです。だから、それは彼らにとって超自然的です。

一方、私や他の人にとっては、時々「Vimに戻ろう」という感じで、必ずしも適切な方法で使用しようとはしません。ある意味、自分を遅くしています。そして、彼らが今日AIを使っている方法を見て、インスパイアされます。彼らが紙の上ではより先輩であるチームの他のメンバーをどのようにレベルアップできたかは、実際に非常に興味深いことでした。

重要な資質:適応性と学習意欲

私たちがコードベースの一般的なアーキテクチャに多くの時間を費やす組み合わせがうまく機能するのを見てきました。ソフトウェアエンジニアリングの原則は依然として残っています。適切な足場があれば、走って非常に速く熟練することができます。エージェントゴールは一般的な足場と設定した境界を尊重するからです。

行間を少し読むと、これらのモデルとともに働き、ポイントをついて言えば進化したチームワークとともに働く際に、あなた方が現場で見ている最も重要な性格の質は、新しいことを経験し学習することへのオープンさと、迅速に適応する能力のようですね。それはジュニアであろうとシニアであろうと、技術的であろうとなかろうと、AI時代に持たなければならないものなのでしょうか、それとも他に何かありますか。

エド: 興味深いですね。私は多くのデザイナーを面接しますが、それらは間違いなく採用時に探している資質です。しかし、技術的に大きなステップチェンジを経験している最中で、それらの新しいアイデアにオープンであること、それらの新しいツールを使用することにオープンであることは、間違いなく役立ちます。

インターネット以前とインターネット以後に育った私を振り返ると、ソフトウェアエンジニア、クリエイティブ、デザイナーにとって、AI以前、AI以後の同じ地点にいるように感じます。懐疑的だったり、ティボが言うように、おそらく自分のやり方を設定しているかもしれない、ワークフローを持っている人々が、もっともっと足を踏み入れて、クレイジーなメリットを見て、そこから前進しているのを見ています。

ティボ: 好奇心と関与する意欲が今最も重要なことだと思います。私たちはモデルの能力が進化し続けることの本当に始まりにいることが明らかです。スローダウンの兆候は見られません。先ほど出たGPT-5.2は非常に強力なモデルですが、これからさらに多くのものが来ます。

OpenAIの多くのチームと残りの部分が興奮している非常に明確な研究ロードマップがあります。これがソフトウェアエンジニアリングのやり方を引き続き革命化することは現実です。それを受け入れる意思がなければ、厳しくなります。好奇心があり、問題解決に焦点を当てていて、世界に出て「どうやって人々の生活を助けられるか、どうやってこれをより速く行えるか」と言っている人々が、今素晴らしい時間を過ごしています。

興味深い問題を解決する好奇心

私が知っているポジティブで希望的で刺激的なストーリーは、興味深い問題への嗅覚を持ち、それらを解決する好奇心を持っている人々と本当に密接に相関しています。AIをこの本当にクールなスーパーツールとして見て、それらの問題を解決するために使用します。

大学で音楽専攻として始まった人を知っていますが、今では技術系創業者です。そうしたいと感じたからです。今ではそれができます。彼はただ顧客のために問題を解決しに行きました。

私たちが進んでいる軌道について最も興味深いと思うことの一つは、それらのストーリーがますます妥当になっていくということです。

エド: そうですね。過小評価されている部分かもしれませんが、人々が持っている多くの本当に妥当な懸念があると思いますが、人々があまり焦点を当てていないことは、それがイコライザーだということです。10代としてデザインに入った頃を考えると、多くのアニメーションをしていました。手で描いていました。多くのクリエイティブなことをしていました。友達とガレージで映画を作っていました。グリーンスクリーンを作らなければならず、高価なカメラを買わなければなりませんでした。

今では、Creative Cloudのサブスクリプション20ドルで、クリエイティブとして基本的に何でも作れます。Codexにアクセスでき、他のすべてのものにアクセスできます。多くの点でイコライザーですが、飛び込むことが必要です。おっしゃったように、好奇心を持ち、本当に飛び込んで、すべてを学ぶことが必要です。しかし、好奇心があれば、本当に多くのことがあります。

ティボ: 使用制限とレート制限が低すぎるという不満はまだありますが、考えてみてください。月20ドルで、仕事を終わらせるのを助けてくれる多作なソフトウェアエンジニアです。

エド: クレイジーです。

ティボ: このイコライザーの点では、以前は解決されなかった問題が非常に多くあり、今では解決されます。それが私を興奮させるものです。

焦点の選択と問題の優先順位付け

それは私が持っていた別の質問につながります。以前、ツールが非常に強力であるため、この世界で何に焦点を当てるかを選ぶことについて言及しました。それは間違いなく私が観察してきたことです。もう一つ見てきた大きな部分は、より良い言葉がないので、SE3やSE4タイプの問題である問題のホスト全体があり、それらは今ではアクセス可能で判読可能で解決可能になっているということです。それができるツールがあるからです。

一方で、より低緊急度の攻撃できるボリュームが増え、他方では全体的な方向を正しく選ぶことにはるかに多くの価値があります。実際に、あなた方にとって、それらのバランスはどのようなものですか。その規模の2つのポイントにどのように取り組んでいますか。

ティボ: 私たちにとって重要な2つのことは、モデルがこの一連の能力に沿って改善し続けるという情報に基づいた一般的な確信です。それに先んじて構築して、ユーザーに継続的にスケールして利益をもたらせるようにしましょう。

2つ目の部分は、人々が何を求めているかです。インテリジェンスの展開はそこでも役立ちます。先日Twitterにいて、スレッドを始めました。「何を構築すべきか、何があなたを妨げているか、今Codexで何が楽しくないか」というような。どこかで250くらい得ました。

エド: そのスレッドを見ました。良いスレッドでした。

ティボ: 600の独自のアイデアがありましたが、Codexがすべてをふるい分けて、私自身の優先順位と私自身のメモに基づいて戻してくれました。セクション化して、チームと議論できました。確信とフィードバックは、私たちがそれについて考える2つの良い方法です。他にありますか。

エド: いいえ、それは良いフレームワークだと思います。いくつかの他の領域について言及します。CLI製品、ウェブ製品、ID拡張機能があります。いくつかのクールな統合もあります。SlackにCodexを追加でき、LinearにCodexを追加できます。

これらの小さな問題の多くで、本当にクールなトレンドの一つを見てきました。年末やコース末に、チームがなかなか手が回らない小さなチケットがたくさんあります。それらは常にそこにあり、会議の終わりに出てきます。今では、これらの問題をトリアージした後、これらの統合の一つに入れられる小さなものがたくさんあるかもしれません。「Codex、これを修正して」と言えますし、Linearや他の製品で文字通り割り当てることができます。

小さなことのいくつかは、本当にエンドツーエンドのワークフローに到達し始めています。小さな問題を追跡し、文字通りそれを短い記述的な方法で書き留め、レビューしてマージするかどうかを選択できるPRを持つことです。その低レベルの作業に焦点を当てることから多くの時間を解放できることは、純粋なリソースと能力を解放して、それらの大きな問題のいくつかに焦点を当てることができます。それも素晴らしいトレンドでした。

常に物事を優先順位付けし、ノイズからシグナルをフィルタリングし、いくつかの難しい決定を下さなければなりませんが、多くの低レベルの作業をほぼ自動化できたので、チームはそれらの大きな問題に本当に焦点を当てることができます。

ボトルネックの移動:展開と保守

ティボ: ボトルネックも移動しますよね。コード生成をほぼ解決しているので、任意の機能をより速く実装できるようになり、突然サービスの展開と保守が残されます。ハードウェアが壊れたり、ネットワークに問題があったり、100万のことが起こる可能性があります。今では突然、少しページングされることが増え、展開できる自動化やインテリジェンスに先んじて構築しています。

インテリジェンスはまだこれらすべてのことを行うことができません。Codexにサービスを展開させてオンコールにすることはまだできません。これは現在、コード生成をほぼ解決したことからその負荷を感じている領域です。

それはまさに私が行こうと思っていたところなので、そう言ってくれて嬉しいです。コード生成を100倍にしたか、使いたい倍数は何でも構いませんが、今ではそれをすべてパイプラインの下流にシフトしただけです。

エド: ええ。いくつかのクールで興味深いインターフェースの可能性が開かれます。ChatGPTを考えてみてください。モデルと会話を前後しています。ある情報を求めていて、それが何かを提示してくれます。コーディングエージェントでは、世界で何かアクションを取っており、最も頻繁にコードベースに戻ってきます。それの成果物と結果は、何か有用なことをしたい場合にレビューしなければならないコードです。

今、私たちはこの移行期にいると思います。ミームは、多くのソフトウェアエンジニアリングがエージェントコードをレビューすることだというものです。インターフェースとして、解決すべき問題として、それは本当に興味深いものだと思います。私たちが考えているものであり、この業界の多くの人々が考えているものだと思います。おっしゃるように、コードを書くことからコードをレビューすることへ負担をシフトさせず、どうやってそれを可能な限りスムーズにできるか。コードレビューエージェントなどで素晴らしいことをしていると思いますが、それはすぐに解決しなければならない新たな問題の一つだと思います。

安全性とアライメントの課題

ティボ: コード生成について特別なことの一つは、安全にできることです。すべてのコードをサンドボックスで生成します。

エド: ええ。

ティボ: 副作用がないので、すべてのコンテキストがそこにあり、テキストです。コードには、gitがあり、rewardがあり、多くの自動化がすでに存在し、多くのツールがすでに存在します。主にこれらの理由の組み合わせで最初に解決されましたが、それが大きな理由です。

それを安全にできます。私たちがしている仕事の多くは、安全性とアライメントのレンズでコーディングエージェントを見ることです。アライメントは解決された問題ではありません。展開やオンコールの世界に入り、エージェントが世界でアクションを取ることの実際の結果を持つとき、それは全く別のゲームです。

まだ作れません。エージェントがサービスを削除したり、ユーザーログを覗き見たりしないことを保証できません。セキュリティの側面全体があります。安全な空間を通じてアクションのセットを制限する方法を見つけ出すか、アライメント問題を解決する必要があります。どちらが先に来るでしょうか。

それに向かって少しずつ進んでおり、エージェントが安全に世界で行動できるようにするより創造的な方法を見つけています。それを操縦し監督できるようにすることです。それが次のフロンティアだと思います。2026年に解放しようとしているものです。コード生成はほぼ解決されたと考えられ、コードレビューに多くの投資をしてきました。今ボトルネックはどこにあるのでしょうか。

エンジニアの流暢性の維持

来年を見据えて、それは私の頭が向かうところでもあります。人々が好奇心を持つ傾向があり、2026年により会話として出てくるであろうことの一つは、コード生成がポイントでほぼ解決された問題である世界で、エンジニアがどのように流暢さを維持し、展開しているものを理解できる意味のある方法でコード構造を読めるようにするかということです。フィンガーティップのスキル、つまり関連性のあるスキルをどのように維持するのでしょうか。

ティボ: コード理解と計画についても議論していない部分があります。システムが今日どのように機能しているかをどれだけ速く理解できるか。おそらくその知識を使用して変更を計画するでしょう。変更をした後、それらを実際に展開して、製品であれ他のものであれ、世界に影響を与えるにはどうするか。

それだけではありませんが、私はより生産的で、あなたはより生産的で、チーム全員がより生産的です。それすべてに追いつくことも含まれます。皆が何をしているのか。毎日新しい機能が生み出されています。私たちの周りの世界は非常に速く変化しています。小さなチームでさえ、それすべてに追いつくことは挑戦です。

あなたがそう言うと、皆が聞いてとても落胆するだろうことを明確にしたいです。なぜなら、私たちは皆追いつこうとしているからです。

エド: それに向かって構築しています。

ティボ: コードベースで何が起こっているかを理解する速い方法が欲しいです。物事を統合したいです。テキストが適切な方法ですか。毎日小さなレポートが欲しいですか。コードの状態を理解するのを助けるために、エージェントはどれだけ速くあるべきでしょうか。

エド: そして、プログラミングの上に留まることについてのポイントですが、すべてを委任せず、物事を深く理解し続けることです。内部で素晴らしい例をいくつか見ました。時々インターネットを切って、用語を忘れましたが、基本的に昔ながらのコーディングをしています。タブ補完もなく、エージェントもなく、Codexも横にいません。

人間の好奇心は消えません。人々はまだ学ぶ必要があります。チームのエンジニアはまだエンジニアリングの本を読んでいます。私もまだエンジニアリングの本を読んでいます。好奇心が消えていくとは思いませんし、それを引き渡してすべての知識を失うようなことにはならないと思います。

おっしゃるように、モデルも最新の状態を保つのに役立ちます。コードベースを知ろうとしている場合、モデルについて話すことができます。「バックエンドはここでどのように統合しているのか」「このコンポーネントはどこから来ているのか」「依存関係を説明してくれますか」とモデルに尋ねられます。モデル自体も素晴らしい機能です。それも素晴らしい角度だと思います。

モデルの創発的特性への驚き

最後にモデルの創発的特性に本当に驚いたのはいつですか。

ティボ: 今朝です。誰かがモデルの周りに足場を構築して、現在のモデルの能力の範囲外だと思っていた問題に取り組めるようにし、それを成功裏に解決するのを見ました。本当に驚きました。モデルを特別にトレーニングしてこれができるようにする必要があると思っていました。

しかし、かなりよく汎化し、この一つで約13時間働きました。ツールとその周りのセットアップについてより創造的になるだけで。これが以前に行われるのを見たことがありませんでした。それは本当に驚きでした。

エド: ええ、ほとんどの日、おそらく言えないことがいくつかありますが、実際にリリースした一つが際立っていました。ウェブ製品に入って、モデルに質問をすると、フロントエンドを送り返すことができます。その写真を撮って、それと一緒に送り返します。

最初にそれを見たとき、それは魔法のようだと思いました。いくつかのツールを使っていますが、コーディングエージェントについて考える際に何か非常に興味深いことがあります。コードを書けるが、見ることができ、これらのアセットを生成できることです。概念レベルで、クリエイティブとして、このモデルがこれほど多くのことができることは本当に興味深いと思いました。

ツールの組み合わせの力

2025年を振り返る際の最大の収穫の一つは、モデルのツール使用について私がどれだけ興奮していたか、そして私はそうでしたが、良いツールのセットをモデルに与え始めたときに解放される組み合わせの力を実際には理解していなかったと思います。

良いツールのセットとは何か、そしてCodexで取ったアプローチについて何かがあります。古き良きUnixツールを通じてコンピューターへのアクセスを与えるだけです。シェルを与えて、それでどこまで行けるか見てみましょう。これを安全に行うために、サンドボックスで実行させましょう。

エド: オーケー。

ティボ: そこから何が浮かび上がるかは、私たちにとって驚きです。モデルがどのようにしてタスクを達成できるかを必ずしも気にしないからです。そこには特定のバイアスは必ずしもありません。おそらくシェルを何度も使うべきだということ以外は。しかし、それ以外は非常に一般的なツールです。モデルの能力とともにスケールするため、最もスケーラブルな方法の一つだと信じているので、私たちは意識的にそれを行ってきました。非常に一般的です。

エド: クリエイティブ側での驚くべきことの一つは、ドキュメントを書くために使う人がいて、ドキュメントライティングツールを与える必要がないことがわかりました。reg xを使えます。

ティボ: bashコマンドを通じてドキュメントを編集したり、何でもできます。おそらく驚きではないかもしれませんが、驚くべき能力です。

ティボ: 先日、何かで遊んでいて、Codex SDKがあり、それについてCodexに話しました。そして、コードを書いてSDKを使ってTypeScriptをたくさん書き、基本的に自分自身を呼び出してもっと達成できました。

Codexにはネイティブのマルチエージェントはありませんが、これは完全に出現している形です。ドキュメントを読んで、「このツールに何かをしてもらえそうだ」と思い、そのコードを書いて呼び出しただけで、うまくいきました。Codexは問題を解決する方法を見つけるのが非常に得意です。

つまり、Codexは基本的にSDKドキュメントを読み、別のCodexインスタンスをインスタンス化し、それをツールとして使って仕事を完了させたということですか。

ティボ: そうです。実際にはたくさんです。

エド: ええ。

ティボ: 効果的に、考えることなく、マルチエージェントをブートストラップしました。

エド: 使い捨てコードは興味深いと考えることがあります。ツールとしてのコード。それは明らかに非常に強力です。しかし、エージェントがコードを書いているだけの全カテゴリーがあるかもしれません。人間としてレビューすべきコード片ではないか、必ずしも気にするものではありません。単に非常に一般的なツールです。

メモリ管理のアプローチ

コードは手段としてのコード、出力としてのコードではありません。ツールの部分から派生して、反対側に行きます。メモリ側を見て、長時間実行するエージェントタスクがメモリ問題をどのように処理するか、システム外のステートフルなメモリとコンテキスト内メモリ管理アプローチの両方を見ています。実行している20時間のタスクなどについて、メモリはどのように機能しますか。

ティボ: メモリはまだオープンな研究トピックです。6ヶ月前に取っていた短期的なアプローチよりも優れた何かが浮かび上がることは明らかです。メモリの形として、モデルにファイルに書き込ませ、Markdownファイルなどを通じて多くの状態を追跡させることができます。

私たちが行っている別のことは、非常に長時間実行するセッションのためです。コンテキストウィンドウを超えるモデルです。モデルはこれまでに達成したことを要約し、コンパクション化と呼ぶプロセスを通じて自分自身を再起動させられます。最終的にはコンテキストウィンドウのすべての内容を消去し、要約し、再起動し、再スタートします。これを何度も行うことができ、本質的にエージェントを永遠に働かせることができます。タスクが永遠に働くことを要求すれば、永遠に働くでしょう。

それに加えて、grepにアクセスでき、物事を検索できるため、常にコンテキストウィンドウに持つ必要のない追加のコンテキストをファイルにダンプすることもできます。それはメモリの一形態です。

スキルについても、どこかのファイルにスキルがあるかもしれず、それはユーザーとエージェントの間で共有されるメモリの形です。そこで何らかの共通の知識を共進化させており、エージェントが時間とともにうまくパフォームすることを願います。

そこには古さの問題があり、それはメモリの貧弱でハッキーなバージョンのようなもので、ある時点で破壊されるように感じますが、それが主にどのように取り組まれてきたかであり、それを達成する非常にシンプルな方法です。

シンプルな原始要素の成功

私たちがもう少し話す中で浮かび上がっているテーマの一つは、驚くほどシンプルな原始要素が、より大きな一般化された問題を解決するのに驚くほど成功しているということです。

ティボ: この分野の多くの人々が長い間学んできたことの一つで、一般的な知識のようには必ずしも内面化されていないと思いますが、月々能力が進化しているモデルでは物事をシンプルに保つことがおそらく正しいことです。そうでなければ、進化し続ける能力に適応し続けなければならない複雑さの山に行き着きます。だから、私たちも物事を非常にシンプルに保つことを考えています。

それは非常に理にかなっています。もう一つの大きな質問があります。技術的な人と非技術的な人がCodexを使うというアイデア全体に戻ります。私は多くの人に、キャリアについてどう考えるか、職種がますますオプションの帽子になり、脱いだり被ったりできる世界でキャリアの進歩についてどう考えるかと聞かれます。解決する問題についてです。

OpenAI内のキャリアの会話とはどのようなもので、モデルとの共進化がそれをどのように形作っていますか。

キャリアと資格の変化

エド: それは良い質問です。デザイナーやある程度エンジニアの間で見ている新たなトレンドの一つで、個人的にはポジティブな方向だと思いますが、イコライゼーションのアイデアで以前話したこととつながっています。資格や特定のルートを通って特定の資格のピークに登ることへの焦点が少なくなり、何をしたか、何を見せられるかへの焦点が増えています。コードが勝ちます。

特にデザインコミュニティで見ているのは、多くの人々が本当に刺激的なことを構築し、それを公開し、キャリアの観点から、プロフィールや自分がしたこと、示したことを通じて仕事を積み上げているということです。誰も彼らがどこの学校に行ったかなど気にしません。過去のそれらの他のことについても。

資格の観点から見ると、時には良く、時には悪いことです。実行を通じた学習、したことを通じた証明という傾向があると思います。クリエイターエコノミーの多くや、ポッドキャストやパーソナルメディアの台頭も似ていると思います。誰でもただ物事を行うことができます。内部のフレーズですが、ただ物事を行い、その方向を通じてスキルを示すことができます。

個人的に見ている一つのトレンドです。より広範なトレンドについては、そこまでの視点はないかもしれませんが。

ティボ: ええ。物事をただ行えるというのは非常にマントラです。私たちが持っている2つ目のマントラは、私もこれについて好奇心があります。

エド: ええ。

ティボ: OpenAIでのキャリアの進歩にはそれほど課題はありません。インパクトを見て、それがどのように進歩するかです。適切な人を見つけることについては課題でした。探している特性と成功の方法が広がったからです。

以前は「プログラミングはうまくできますか」という感じでした。一連のプログラミングタスクを与えて、非常に難しいものにして、そこで最高の才能を選びます。しかし、今はもうそんなに簡単ではありません。伝統的に難しいプログラミングタスクでトップパフォーマーにはならなくても、非常に成功できます。

才能を見つけてここでより創造的になることは私たちにとって課題でした。そこで私たちの考え方は進化していますが、非常に興味深いことです。

面接の進化

人々がチャットGPTを脇に立ち上げて、面接で応答を読み返すという、面接での持続的な問題に対する銀の弾丸はありますか。

ティボ: 私たちは多くの面接で人々をオンサイトに連れてきます。また、仕事では常にAIを使うという現実もあります。面接自体が進化する必要があり、人々が使えるツールを制限しない方がいいかもしれません。

エド: エンパワーする方法で考える方法と、ある制約を回避するためにどのようにAIを使っているかの一つの方法があると思います。特定のベースラインに到達する必要があり、特定のスキルを持っている必要がありますが、ツールを使うことにオープンで、それらがどのようにレバレッジを与えられるかを理解していますか。

ジェフ・ベゾスのお気に入りの面接質問の一つを少し思い出します。より速く行くより高品質の車が欲しいという、2つの明白な解決策がある問題をどう解決するかと人々に尋ねます。どちらを最適化するかを選ばなければなりません。トリックは、両方を発明しなければならないということです。箱の外で考えなければなりません。制約の周りで考えなければなりません。両方を押さなければなりません。その部分は、メンタルボックスを破る意欲を測定しているだけです。

エド: ええ。

そのポイントは、AIを脇で使っていたら、創造的なものを思いつかないということでしょうか。

それが必ずしもそうだとは思いません。

エド: 標準的な行動面接のスクリプトからかなり速く人々を外すことが最も効果的なツールだと思います。リモートを想定しましょう。オンサイトは重要だと思いますが、それは赤として取りましょう。リモート面接の場合、最も効果的なツールは、本当に正直な会話に人々を押し込むことだと思います。それは非常に高レベルのトレードオフ思考を要求し、リアルタイムでモデルにフィードして応答を得る時間が本当にありません。

彼らの頭の中にある思考ツールセットが何であるかをかなり速く見ることができ、それは彼らがAIと一緒に働き始めたときに、パートナーとして何をもたらすかについての感覚を与えてくれます。

ティボ: 今この問題がありますよね。右側の画面から質問を読み上げているかどうかわかりません。

実際には読んでいません。質問は何もありません。自分とあなた方を見つめているだけで、ただ即興しています。

エド: 私たちもです。申し訳ありません。

ティボ: 楽しくシンプルです。

その方がもっと楽しいと思います。会話を行きたいところに持っていけます。

チャットGPTで準備はしました。絶対に質問を用意して準備しましたが、「ああ、まあいいや」という感じで、ただ即興することにしました。

エド: ええ。

ティボ: 興味深い。もう一つ質問があります。ここで残り数分しかないことは知っています。まだ掘り下げていないことの一つで、これは半分デザイン質問、半分エンジニアリング質問かもしれません。

お二人一緒だと完璧です。特に新しいモデルについて話す動画を出すときに多く聞く話があります。ここでチャットGPT 5.2についてそれをするつもりです。人々は「違いは何ですか。同じチャットボットが見えます。

同じターミナルが見えます。異なるラベルが見えます。これが実際に良いとどうやってわかりますか」と言うでしょう。サムなどからのコメントもあったと思いますが、チャットは本質的に飽和した使用ケースだと言っています。私もそれにある程度同意します。ほぼ飽和したと思います。

6ヶ月または1年の期間にわたって能力の重要な、重要さは間違った言葉ですが、ステップチェンジを、同じUIを見ている人にどのように伝えますか。

モデルの進化とインターフェース

エド: 良い質問です。使用ケースによりますよね。デザイナーまたはデザインエンジニアとして、異なるモデルで作業し、一部のタスクでは一つが好きで、他のタスクでは他が好きです。他の多くの製品と同じように。

ChatGPTにいて、非常にコード的な質問をしている場合、autoにしておくか、何らかの低reasoningモデルにします。本当に考えたい場合は、proか何かを使うかもしれません。これは、テストして状況に依存する種類のことの一つだと思います。

そうは言っても、多くの研究評価もあります。使用できる特定のバロメーターがあると思いますが、この面接を通じて、異なるモデルステップが解放する異なる能力について話してきました。少なくともコーディングについては、モデルが今日、このチームに参加したときとは実質的に異なることを一貫して見てきました。

ですから、それはそれらを試すことだと思います。多くの異なるものを試してください。何が好きか見てください。異なる使用ケースに良いものがあります。しかし、ええ、おそらく人々が考えていない良いメンタルモデルの一つは、これらのことを考えるとき、現在どこにいるかのスナップショットで、よりクリーンなモデルとどのように相互作用するかで考えているということです。

5年後には非常に異なると思います。モデル、これらの新しい能力が解放できるものを考えると、異なる製品は非常に異なる体験を持つでしょう。チャットが常に最高のインターフェースとは限りません。モデルとまったく相互作用しないかもしれませんが、それでもバックグラウンドであなたのために仕事をしています。その場合、モデルの品質と使用しているモデルは非常に異なります。

ティボ: それに戻ると、コードレビューが再び例です。バックグラウンドで発生し、モデルが改善し、速くなったか、より多くのことを発見できることがわかります。無料でアップグレードを得ました。考える必要はありません。毎日それから恩恵を受けます。

Codex自体はチャットとは異なる製品です。エージェントは依然として、信頼性の多くの改善から恩恵を受けます。フロンティアインテリジェンス、どれだけ長く行けるか。しかし、ある時点で別の製品も必要になるように感じます。ターミナルで3日間Codexを実行しない場所です。

エド: そうするかもしれませんね。

ティボ: そうするかもしれません。しかし、どの時点で永遠に実行するエージェントを持つのでしょうか。時々テキストを送るかもしれません。電話をかけるかもしれません。それは非常に異なって感じられるでしょう。その周りの適切な製品を発明しなければなりません。モデルはまだそこにありませんが、そうなるでしょう。

それは「ワオ、GPT-7だ」という感じになります。明白になるでしょう。その間は、「オーケー、時々段階的に感じる」という感じです。しかし、6ヶ月前を振り返ると、「とんでもない、これらのどれも可能ではなかった」という感じです。

直線的外挿の難しさ

まさに。今朝、リアルタイムで直線的外挿を経験することが驚くほど難しいというアイデアについて動画を作りました。座っていて、人々は製品に非常に速く慣れ、製品に失望し、イライラします。

ChatGPT 5 thinkingで作業していたときにどれだけ興奮していたか、それがステップチェンジのように感じられたかを鮮明に覚えていますが、すぐに2日以内に、気に入らないことや修正したいことをたくさん見つけました。それがただそういうものです。人間が味覚をスケールする方法だと思います。

考えてきたことの一つは、静的な世界を想定しているように見える人間のデフォルトをどのように取り、急速な能力の獲得をデフォルトのベースケースとして考えなければならないS曲線の傾斜部分に住んでいる動的な世界を想定する人間のデフォルトに移行し始めるかということです。

最後の数分間、あなた方から私や聴衆への質問はありますか。あなた方は常に顧客の声に飢えていることを知っています。何かあなた方を悩ませていて、尋ねたいことはありますか。

コーディングエージェントの非技術的使用

エド: 何が、どのようにですか。コーディング以外でコーディングエージェントを人々がどのように使っているかについて常に好奇心があります。面接の準備にChatGPTを使ったと言いましたが、日々どのように使っていますか。

それは大好きです。私はAIモデルに関しては執拗な雑食性で、非常に速く飛び回る傾向がありますが、どこに置きたいかを決めたら、そこに置く傾向がある定着したタスクグループがあります。今はチャットGPTを使っています。5.1でしたが、今は5.2になります。

私が書く作品について考え始めるときに行う構造化、ブレインストーミング、研究、思考の多くに使います。ストーリーが何であるか、どのようにまとまるかのようなことです。

ハードシンキングモードと呼んでいるものが欲しいときにCodexを使います。ChatGPT 5.2 ProまたはGPT-5.1 Proのようにマーケティングされていると思いますし、人々はそれについて話していて、試してみて好きですが、時々私が必要とするものに対して過度に表現的だと思います。

だから、Codexで価値として評価する簡潔さについて言及しました。Codexは戻ってきて、1000トークンを与えません。本当に簡潔な答えで戻ってきます。その判読可能性が大好きで、それに少し中毒になります。非常に明確で簡潔な分析が必要なときに使います。金融分析、プロジェクト分析、M&A分析、本当に複雑なドキュメント分析でも、考え抜く必要がある何かへの応答でも、下書きを作成したいときです。

Codexはそれらすべてに素晴らしいです。本当にきれいに煮詰まるからです。それが煮詰まるものを正確に得て、そのように本当に信頼できます。今、ドキュメントツール作成から、またはドキュメントを作成するために使用されるツールから多くのマイレージを得ています。彼らは別の会社ですが、そこではよく出荷しています。OPUS 4.5は本当に本当に本当にそこでうまくいきます。

PowerPointが欲しいとき、Excelが欲しいとき、うまくいきます。Notebook LMとNano Banana 2を使ってPowerPointを出荷することに驚きとイライラの両方を感じてきました。本当にはGemini 3ですか、それとも2ですか、とにかく、編集可能性を得られないのが嫌いですが、Nano Bananaからすべてのこれらの素敵なグラフィックを得られて、それは素晴らしいです。

ツールの雑食性という場所にいると思います。特定のタスクに対して瞬間に最高のものを得ることに必死だからです。皆が紙切りのリストを持っている傾向があります。PowerPointの部分が好きではないと言ったように。Claude OPUS 4.5は良いツール使用を持っていると思いますが、同時に、装飾されたPowerPointを作成する能力は本当にそこにありません。

あなた方はPowerPoint作成で今道のりがあると思います。しかし、ChatGPT 5.2で初期の作業をしていて、見ている完全性のようなもの、それは非常に完全なドキュメントを吐き出します。完全に質問に答える完全な答えです。

私が多く説教することの一つは、実際に差別化された方法で問題を解決するためにそれらを使用できるように、モデルと本当にフィンガーティッピーになる必要があるということです。チャットボットに何かを入力するだけとは異なる方法でです。

長い方法で言うと、約半ダースのモデルがあり、多くのオープンアイズを含め、毎日それらをすべて使っています。

エド: ええ。

ティボ: そして、このモデルは何に良いか、このモデルは何に良いかというメンタルモデルを持っています。

エド: その通りです。

ティボ: まだすべてのニーズに答える完璧なモデルはありません。

エド: そしてニーズは変化しています。

ティボ: 変化し続けているからです。強調したことで本当に強く同意するのは、これをテーブルに煮詰めようとすると、間違って見えるということです。これらのモデルがどこで良くてどこで良くないかの進化する感覚マップを持っているからです。非常に細かいです。

手書きのタリーマークをどのモデルがよく読み、どのモデルが読まないかを学びました。

エド: そう。

ティボ: その思考、その知識をいつリフレッシュするか、いつ自分に許すか、「ちょっとこれを試してみよう」と言うとき。

常にです。それが人々が私のチャンネルに傾倒することの一つだと思います。新しいモデルと新しい体験が私の先入観を変えることに非常にオープンだからです。この進化する風景で人々に役立つためには、そうでなければならないと思います。

主要なモデルメーカーからの任意の新しいモデルリリースがワークフローの重要な部分をひっくり返す可能性があることを想定しなければなりません。ただより良いからです。そこに座って、「以前のChatGPTはこれをしなかったから、このツール使用能力に注意を払わない」と言うべきではありません。いや、モデルがあなたを驚かせる完全な能力があると想定し、注意深くテストすべきです。

有用な仕事の定義

考えてきたことの一つは、有用な仕事について話すときに何を意味するか、有用な仕事がどのように見えるかです。Codexについてたくさん話しましたし、明らかにCodexでは有用な仕事はポールレビュー、PRレビューです。コーディングです。モデルが出力するビットとバイトの観点から定義できる仕事です。

他のナレッジワークではもう少し複雑になります。Codexを超えて、GPT 5.2も見ているかもしれませんが、あなた方はそれについてどのように考えていますか。

ティボ: コーディングについてさえも難易度は似たような質問だと言います。Sweet Benchのような特定のベンチマークがあります。今では非常に飽和しています。日々の使用でモデルからどれだけ有用性を得ているかを本当に測定していますか。

コード生成だけを超えていることについて話しました。物事を理解するのを助けたり、レビューしたり、展開したり、CIS管理タスクをしたり、ますます多くのことをしたりします。デザインプロトタイプを構築するのを助けたりします。

それは作成できる経済的価値についてです。OpenAIはGDP valに本当に努力しました。5.2がGDP valでソーダにいると思います。本当に超特化した飽和評価から、これが実世界にどのように影響しているかのより良い理解に移行するのは興味深いと思います。

明らかに完璧な評価はありませんが、モデルが経済的価値を測定する何かに新しいソーダを置くときはいつでも、それを見る価値があります。

エド: ええ。

それを呼び出してくれてありがとうございます。報告されたときにベンチマークに疑念を抱くようになると思うからです。100%に近づきます。「でも、あと2%は何ですか」という感じです。一方、これらの経済的影響の尺度のいくつかに到達すると、ある種の暗黙的な汎化可能性の尺度を得られるように思います。

GDP valは良いものだと思います。自動販売機についてのものも別にありませんか。それもその筋の別のものです。

エド: ええ、それは楽しいものです。

ティボ: Vending Benchですか、それともVendor?

エド: ええ。

ティボ: でもGDP valでは明らかにまだ飽和していません。

エド: そして、それが評価で見る典型的なサイクルです。評価が公開され、牽引力を得て、飽和します。ある時点で何か有用なことを測定しましたが、数ヶ月または数年後には、すべてのモデルがそれについて多かれ少なかれ同じパフォーマンスをしているため、もはや本当に意味のあることを測定していません。

GDP のような新しいものが再び何かより興味深いことを測定しています。飽和していないことを考えると、それに注意を払うことは常に興味深いです。Vending Benchも楽しいものです。

ええ、この1時間を通じて語ってきたストーリーを少し強調しています。これらのモデルで進歩が執拗に起こり続けているというアイデアについて話してきました。壁はありません。人気のある報告とは逆に、壁はありません。進歩を見続けており、新しいベンチマークを公開し続けることができることです。古いものをノックダウンし続けているからです。

未来のベンチマーク

ティボ: そこで興味深いことは、未来のベンチマークのようなものです。

エド: ええ。

ティボ: 今持っていても無意味でしょう。すべてのモデルがゼロのようなスコアになるからです。たとえば、数十億ドル規模の企業のCEOになれることです。モデルに数十億ドル規模の企業を運営させることはまだ許可していますか。まだそこまで行っていません。

しかし、ある時点で、これらの種類のクレイジーなベンチを持つようになると確信しています。今はクレイジーに思えますが、数年後にはクレイジーではなくなるでしょう。

2026年と2027年の評価が価値の尺度として向かうものは何かというのは、本当に興味深い頭の体操です。

エド: ええ。

ネイト、ありがとうございました。

ええ、ありがとうございます。それは終わるのに良いものでした。これは多くの楽しみでした、皆さん。

エド: 本当にありがとうございました。

ティボ: 次回。