AIエンジニアWill KohによるGPT-5.5の第一印象

GPT-5
この記事は約4分で読めます。

OpenAIのRomainがAIエンジニアのWillにインタビューし、GPT-5.5の初期使用感を聞く内容である。Willは2年前のタブ補完から始まったAIコーディング支援の進化を振り返りつつ、GPT-5.5が従来モデルと異なり曖昧な指示でも意図を理解し、コードベースの適切な箇所を自律的に探索して複数の解決策を提示する点を高く評価している。Rampで独自に開発したテストハーネス「Inspect」を用いた評価では、データベースやテレメトリツールへのアクセスを与えると従来モデルでは見られなかった新しい問題解決手法を発見し、コンテキスト圧縮時にも目標と発見内容を正確に引き継いで作業を継続できることが確認された。顧客向け金融文書からの情報抽出タスクにおいては完全抽出率が最高水準に達し、ユーザー体験の大幅な向上が期待されている。

First impressions of GPT-5.5 from Will Koh
Romain Huet chats with Will Koh from Ramp. Will is a Senior Software Engineer who has been working with GPT-5.5. Find ou...

GPT-5.5の初期使用感

皆さんこんにちは、OpenAIのRomainです。本日はAIエンジニアのWillさんと一緒にお話しできることを大変嬉しく思っています。Willさん、あなたは長い間コーディングにAIモデルを使ってこられましたが、これまでの経験はいかがでしたか。

本当にワイルドな旅でしたね。2年前を振り返ると、タブ補完から始まって、今では私たちが与える曖昧なタスクをAIが積極的に受け取って、それを分割して完了させるところまで来ています。その最前線にいられることは本当に素晴らしい経験でした。もちろん、最新モデルへの早期アクセス権があることは幸運ですが、正直言って驚異的な時代を過ごしていると感じています。

意図を理解する新しいモデル

最新モデルといえば、GPT-5.5を試されたということで大変興味深いのですが、第一印象はいかがでしたか。

GPT-5.5の第一印象は、私が伝えようとしていることを実際に理解しているという点で従来とは異なるということです。以前は、プロンプトを非常に詳細にするか、かなり指示的にする必要がありました。「このコードベースのこの部分を見て、これをやってくれ」というように伝えていたんです。

ところがGPT-5.5では、時々手を抜いて非常に曖昧なタスクを与えることがあるのですが、それでもモデルが理解してくれるんです。実際にコードベースの適切な領域に調査と探索を向けて、どうやって実現できるかの複数の選択肢を考え出してから、私のために完了させてくれます。本当に印象的でした。

Rampでの独自テストハーネス

素晴らしいですね。Rampでのお仕事では独自のハーネスも構築されていますよね。このハーネスでGPT-5.5をどのように使用し、テストしてきたのか詳しく聞かせていただけますか。

そうですね、Rampでは「Inspect」という独自のハーネスを持っています。正直なところ、プラグアンドプレイのような感じでした。APIを開いてGPT-5.5に接続したら、他のモデルと同じように動作しました。

ただ印象的だったのは、データベースへのアクセスやテレメトリツールへのアクセスなど、私たちが与えたツールの使い方を発見して、それらを使って問題を解決する新しい方法を見つけ出していたことです。より新しい方法で問題を解決する様子を見るのは興味深い体験でした。

それは他のモデルでは見られなかった魔法のようなことだったのでしょうか。

他のモデルの場合は、ツールを使うように指示しなければならなかったり、時には間違ったツールを使ったりしていました。最終的には何らかの形で仕事は完了しましたが、かなりの介入が必要でした。しかしGPT-5.5では、自分自身で問題を解決する方法を発見しています。

コンテキスト圧縮での優れた継続性

これまで1週間ほどのテストで、モデルが正しく処理できて本当に驚いたことはありますか。

そうですね、大きなタスクを与える際には、コンテキストウィンドウを使い果たしてしまう可能性が高くなります。しかしそうした圧縮期間中に、同じコンテキスト上で動作しているかのように、その影響をほとんど感じなくなったことに気づきました。

適切な詳細、適切な発見、適切な目標を一つの圧縮から次の圧縮へと引き継ぐことができ、まるで圧縮が起こらなかったかのようにタスクを続行できるんです。これは素晴らしいことだと思います。

実用的なベンチマーク評価

これまで実行された評価について詳しく教えていただけますか。

Ramp内には、大規模な顧客金融文書から情報を抽出するといった私たちのユースケース向けのベンチマークがあります。どのくらいの頻度でゼロタッチ、つまり全て正しく取得できるかを測定していて、これを完全抽出率と呼んでいます。

GPT-5.5は実際にその最高レートで動作していることが確認できました。これは顧客にとって素晴らしいことです。彼らにとっては魔法のような体験であり、私たちはそれを彼らの手に届けることをとても楽しみにしています。

コメント

タイトルとURLをコピーしました