困難な問題に対するGPT-5.5への愛

GPT-5
この記事は約17分で読めます。

OpenAIの新モデルGPT-5.5は、従来のAIモデルでは解決困難だった高度な技術的問題に対応できる画期的な性能を持つ。特にCodexとの組み合わせにより、複数の技術的負債を自律的に処理し、6時間連続で動作する長時間タスクの実行も可能である。従来モデルで数ヶ月間未解決だったBluetoothデバイスのハッキングや、数百万行のデータ移行といった複雑なプロジェクトを、人間の介入なしに完遂できる能力を示している。トークンコストは高額だが、その知性と効率性は、ソフトウェアエンジニアにとって投資に見合う価値があると評価される。

Why I love GPT-5.5 for hard problems
In this mini episode, I break down OpenAI’s new GPT 5.5 and GPT 5.5 Pro after weeks of early testing. I walk through thr...

GPT-5.5の実力を徹底検証

How I AIへようこそ。プロダクトリーダーでAIに夢中のClaraveoです。この新しいツールを使ってより良いものを作るお手伝いをするのが私の使命です。今日は特別なエピソードをお届けします。ここ数週間テストしてきた新しいGPT-5.5モデルについて、私が思うすべてをお話しします。

ネタバレ警告ですが、このモデルは本当にパワフルです。特に高度なコーディングに関して、市場にある他のどのモデルでもできなかったことが、このモデルでできるようになりました。そして、この小さなコンピューターにハッキングするという私の個人的なハイテク評価をどのように突破したのかお見せします。では始めましょう。

GPT-5.5で何を作ったかをお話しする前に、モデル自体について少しお話しさせてください。本日、OpenAIはGPT-5.5とGPT-5.5 ProをCodexとChatGPTにリリースします。まだAPIでは利用できません。このモデルを過去数週間テストしてきましたが、OpenAIが言っていることは本当だとお伝えします。

複雑な作業に対する処理能力が高く、より効率的であると言っています。作業を完了するためのトークン効率も含めて、より効率的なのです。つまり、このモデルの全体的なコンセプトは、より賢く、より効率的だということです。だからより多くのことができるようになります。そして、それが実際に私の経験でもあります。

効率的になってよかったと思います。なぜなら高価だからです。GPT-5.5は100万入力トークンあたり5ドル、出力トークンは30ドルです。そして私がやってきたすべての作業を支えたGPT-5.5 Proは、100万入力トークンあたり30ドル、出力トークンは180ドルです。

かなり高価ですが、初期テストでこのモデルで達成できたことを振り返ると、知性税を払うつもりです。達成できたことが本当に重要だと思うからです。これは、新しいモデルや新しいツールをテストするときにいつも考えることの一つです。

すべてにはROIがあります。スピードという観点でのROIもあり得ます。やりたいことをより速く完了できるか。それは確かにAIツールの観点から加速要因となっていて、過去数年間私たち全員が経験してきたことです。しかし、GPT-5.5が本当に私を助けてくれるのは野心という点です。

文字通り、いくつかの理由で以前にはできなかったことができるようになりました。一つは、単純に知性が高いということです。他のモデルやCodex以外のハーネスが本当に苦労してきた問題を解決してきました。二つ目に経験したのは、効率が高いため、作業中のコンテキストを失うことなく、より速く多くのことができるようになったということです。非常に速く処理されるか、より自律的になっているので、ベビーシッターのように付きっきりでいる必要がないのです。

つまり、より多くのことを成し遂げています。OpenAIが私たちに伝えていることは本当だと信じていますが、それは他のモデルが本当に苦労してきた問題をこのモデルに何時間も何時間も投げかけてきた自分自身の経験から来ています。GPT-5.5も含めてです。では、私が何を作ったかについてお話ししましょう。

ChatGPTでの使用体験

技術的でない方々のために言っておきますが、このモデルについて私が言いたいことの一つは、ChatGPTで少しテストしましたが、それほど多くはありません。解決すべき複雑な問題がなければ、このすべての知性をどうすればいいのかわかりません。アクセスできた個人アカウントのChatGPTでテストしましたが、個人アカウントで解決すべき複雑で高度な知性を要する問題がないのです。

そのため、ChatGPTで5.5や5.5 Proをどこで使うのか考えるのが本当に難しかったです。単純に、そこで解決している問題がそれほど難しくないからです。でも、そこで問題を解決しようとしました。では、ChatGPTで5.5をどのように使い、何が得られたのか簡単にお話ししましょう。これから少し後でお見せすることの指標になります。

繰り返しますが、一般消費者や日常的な企業ビジネスユーザーがこのモデルでChatGPTを使う際に苦労すると思うのは、超知性を必要とする問題がどれだけあるかということです。これは開発者やソフトウェアエンジニアが本当に気に入るモデルになると思いますし、OpenAIがこの知性をボックス化して、いわゆる「日常的な人」が使えるユースケースに解放する点で何をするのか、本当に楽しみです。

これが、基本的に知性のオーバーハングがどれだけあるかについての私の小さな講義です。では、ChatGPTでGPT-5.5に何を頼んだのか。本当にシンプルなことです。私は二年生の息子に二桁と三桁の引き算を教えています。実際には一年生ですが、サンフランシスコなので、先に進めようとしているんです。

私が彼を教えることができた方法の一つは、二桁と三桁の引き算を理解し、それをうまくやるための戦術を学ぶのに役立つ小さなアプリを作ることでした。そこで、二年生にもっと高度な引き算の概念を教えるアプリを作ってくれるよう頼みました。バイブコーディングツールやClaude Codeにはあまり満足していませんでした。

私が望む通りに作ってくれるものが本当になかったんです。だから5.5に挑戦させたかったのです。そして最初から、これは考えるタイプです。ここで見られるように、17分27秒考えました。このモデルでこういう経験をすることになります。これはこのミニエピソードのテーマになります。このモデルは考えるんです。

そして高度な引き算のためのアプリを計画し、コードを構築し、そういったことをすべて行いました。さて、ここで私の質問です。このアプリを構築するために17分間の超知性による思考が必要でしょうか。おそらく必要ありません。このポッドキャストのためのテストでなければ、このアプリのために18分待ったでしょうか。おそらく待たなかったでしょう。

繰り返しますが、このすべての知性をどうするのか。これは技術者でないソフトウェアエンジニアがアクセスするための適切なフォームファクターなのでしょうか。100%確信はありません。ここにアプリを作ってくれました。スピニングレッスン、文章題、読み上げ機能が含まれています。まあまあです。まあまあです。まあまあです。異なるモジュールが入っています。

デザインは望むところではありませんが、繰り返しますが、フロントエンドのためにGPTモデルに頼っているわけではありません。本当に最も難しい技術的問題を解決してほしいのです。だから、ChatGPTでは、平均的なChatGPTユーザーが本当に達成しようとしていることと、コーディング面でさえどれだけの知性が必要なのか、まだよくわからないと言いたいです。

ChatGPTで5.5を使っている場合は、テストできる難しい知性の問題を教えてください。基本的な「シンプルなアプリをバイブコーディングしてください」というのは、まあまあです。素晴らしくはありません。市場の他のものと比べて特に印象的ではありませんが、まともな仕事はします。

そして5.5の匂いを嗅ぐと、たくさん考えて、ここで思考の連鎖推論を提供してくれます。どのように考え、自分自身のプロセスを管理しているかを知らせてくれます。では、ChatGPTは脇に置きましょう。まあまあです。Codexで5.5 Proを使うことについてお話ししましょう。

Codexでの本格的な活用

皆さん、私は大好きです。本当に大好きです。Codexで最初にGPT-5.5のテストを始めたときの私の最初の反応は、料理をしているという感じでした。つまり、並行して大量のタスクを開始していました。なぜなら、フィードバックループが速く、効率性をすぐに感じたからです。その下に大量のサブタスクがある非常に長期的なタスクを片付けていました。その例をお見せしますが、Chat PRDコードベースで本当に数ヶ月間対処したかった技術的負債の技術的問題に取り組むことができました。

それが私を悩ませていたのですが、GPT-5.5がそれを突破してくれました。いくつかの例をお見せして、GPT-5.5とCodexがどんなタスクに本当に優れているか、なぜその知性がより高く、自律的かつ効率的に動作するように構成されているのがソフトウェアエンジニアにとって本当に有益なのかを理解していただきたいと思います。

最初に行ったことは、非常に明白な理由でお見せしませんが、OpenAIのCodexセキュリティ製品を使用して、Chat PRDコードベースで脅威評価とセキュリティスキャンを実行しました。かなり安全でしたが、修正する必要があるいくつかの低優先度または低重大度の問題が出てきました。

それらを一つずつ処理する代わりに、それらの問題のCSVをダウンロードし、Codexにアップロードして言いました。これらの問題をアーキテクチャ的にレビューして、テーマがあればグループ化し、変更を提案してその変更を行ってくれますか。そして、ただやってくれたと言います。非常にうまくやってくれました。

それについて人間によるレビューを行いました。コードレビューも行いました。実行の質に本当に満足しましたし、一般的に関連しているが単一プロジェクトのタスクではないリストを渡すことができ、それをうまく実行できたという事実にも満足しました。その出力の質の本当の検証は、その直後に年次ペネトレーションテストがあり、ペンテストが非常にクリーンに戻ってきたときに得られました。

リストがある場合、技術的負債のトリアージリスト、セキュリティ問題のトリアージリスト、フロントエンドの負債かもしれませんし、不安定なテスト、エンジニアの皆さん、注意してください。そのリストをGPT-5.5に投げれば、そのリストを完了させてくれます。それが本当に効率的で素晴らしいと思ったユースケース1です。

ユースケース2、このプロジェクトにどれだけ一生懸命取り組んだかがクリアされてしまって残念ですが、Chat PRDコードベースにこの長年の技術的負債があります。Chat PRDには今数百万のチャットがあり、モデルプロバイダーであるOpenAIとAnthropicの両方が時間とともにモデルレスポンスの形状を変更してきたため、それらのチャットを様々なレガシーフォーマットで保存していました。

技術的でない方々向けのまとめですが、世界中のすべてのモデルは、API経由でデータを返す方法について少し変更しています。過去3年間、データベースにレガシーフォーマットを保存していたことに関する大量の負債とデータ負債があります。

これらのレガシーフォーマットはAI呼び出しであり、添付ファイルを含む場合と含まない場合があり、ツールを攻撃する場合と含まない場合があるため、そのデータを今後のデータモデルにクリーンで一貫性のあるバックフィルと衛生化を構築するのは非常に難しいです。

この問題に対して修正に修正を、パッチにパッチを重ねてきました。なぜなら、パッチを当てるたびに別のエッジケースが見つかるからです。これは数百万行のデータ移行問題の例で、多くの人には大きく聞こえないかもしれませんが、その中のデータの複雑さという点で私たちにとってはかなり重要です。機能的に非構造化された軽く構造化されたデータで、大量のエッジケースがあり、ついにGPT-5.5に任せようと思いました。

6時間の自律作業が実現したこと

モデルにその問題を与えたところ、非常にうまく実行しました。機能的にワンショットで、私たちが特定していたエッジケースの98%をカバーするソリューションを構築しました。つまり、まず第一に、ドキュメントやライブラリを指し示すことで複雑な移行をワンショットで構築することができました。非常に非常に良かったです。あまりにも複雑で非構造化されていたため、これまで私たちにとって本当に難しかったことです。

第二に、今画面でお見せしたいのですが、GPT-5.5とCodexにその作業を検証してもらう必要がありました。そこで、本番環境のような例のセットをテスト環境に引き込み、Codexに言いました。ローカルにあるすべてのスレッドをプログラムでテストする方法を見つけ出す必要があります。この本番環境のようなデータのローカルバージョンを引き込みました。

AnthropicとOpenAI、その他使用しているプロバイダーに投稿する必要があります。チームがこれをプログラムで、理想的にはCLIを通じて行える拡張可能なシステムを構築する必要があります。これにより、どのエージェントでもこれらのデータ問題についてどのスレッドでもテストできます。そして、GPT-5.5によく言っていることがあります。あなたを信頼しています。これが私のGPT-5.5へのプロンプトです。

あなたを信頼して判断を下し、これを行うためのサブエージェントを生成する方法を見つけ出し、テストして、問題を特定し、修復して、本番環境に向けて準備してください。ありがとうございます。とても丁寧にしていますから。

このモデルは6時間働きました。実際には5時間57分くらいでした。本当に、6時間壁に頭をぶつけ続けました。そして私は何もする必要がありませんでした。プロンプトゼロ、フォローアップゼロ、ステアリングゼロ。サンドボックスで実行するためのアクセスを持つために、1つのスクリプト呼び出しか何かを承認する必要があったと思いますが、それ以外は6時間ただ走り続けました。

個人的には見たことがありませんでした。皆さんは「ああ、エージェントを一晩中動かしているよ」と言いますが、非常に制約されたユースケースでGPT-5.5まで見たことがありませんでした。だから、このモデルはうまくやっているかどうかを理解し、物事を前に進めるためのループを必要とする長時間実行の自律タスクを行います。

ほぼ6時間実行し、それからスモークテストを実装しました。すべての例データをテストし、この後、文字通り200万行の後、捕捉されなかったエッジケースが1つありました。それについてちょっと考えてみてください。200万行があり、1つのエッジケースでした。以前はエッジケースに次ぐエッジケースに遭遇していたのに、GPT-5.5の6時間で、それから何を見たか。Sentryモニタリングでエラー率が底を打ちました。

人々はAIコーディングが品質を低下させると言います。人々がバイブコーディングしているからです。それは本当に18ヶ月前または12ヶ月前の話です。品質は上がると思います。この種の問題は、自律的に行うための知性がなかったため、本当に避けてきました。

問題を分解し、合成データ内のすべてのエッジケースに到達するために専念した時間を費やす私と私たちのエンジニアリングチームの能力は本当に難しかったです。穴を1つ塞ぐたびに別の穴が開くような感じで、これをGPT-5.5とCodexに渡せるようになったことが私の人生を変えました。

本番環境でこれが私にどれだけのコストをかけるのか怖いですが、これらのトークンが、でも、私より安い、私のエンジニアリングチームより安い。そして本当に6時間走りました。だから、品質の問題にこれを投げてください。バグのバックログにこれを投げてください。セキュリティ評価にこれを投げて、アプリの品質ギャップやパフォーマンスギャップ、セキュリティギャップを埋めてください。本当に、本当に、本当にうまくやります。

それが私の主なユースケースです。他に何も共有しなかったとしても、これで十分です。アプリで最大の技術的負債に取り組み、基本的にエラーをゼロにし、自己維持するサブエージェントループで6時間自律的にすべてを行いました。GPT-5.5、愛しています。

Bluetoothデバイスのハッキングに成功

でも、本当の評価があります。イントロでお伝えしました。私の本当の評価はこれです。これはDoom Mini2レトロPCスタイルのBluetoothスピーカーと小さなスクリーンです。嘘ではありません。1月下旬か2月から、1月から、このデバイスをハッキングしてきました。バレンタインデー頃に注文したと思います。そして私の唯一の目標は、この画面に面白いものを表示できるようにすることです。

箱から出してすぐ使えるiPhoneアプリが付属しているので、この独自のiPhoneアプリを使ってこのデバイスに画像を送ることができますが、私はそれを望んでいません。私はターミナルで生活しています。これをプログラムで行えるようにしたいのです。そして、これはこのデバイスにロードされた独自のコードのようなものです。中国語のリポジトリやBluetoothハードウェアプロバイダーからのドキュメントに非常に深く入り込んでいました。深く入り込んでいました、皆さん。

最初にClaude Codeをこれに投げて言いました。「これを解明できますか」Claude CodeはOpusを使ってもこれを解明できませんでした。GPT-5.4を投げました。解明できませんでした。これでどれだけ狂ったか言い表せませんが、試してみます。

これは小さなデバイスです。プラグインして「親愛なるClaude Code、このデバイスがどのように動作するか教えてください。間違いのないように」と言えると思うでしょう。いいえ、そんなふうには動きません。Bluetoothを介してコンピューターや携帯電話に接続します。だから、Bluetoothを通じて携帯電話上のこのアプリと対話しているのです。

アプリで何かを描いて送信をクリックすると、ここに表示されます。だから、Bluetoothを介してこのアプリのディスプレイを変更できることは知っています。でも、そのメッセージをエンコードする方法を解明できませんでした。

何をしたか。これは少し覗き見です。これはAIとは関係ありません。友人のClaireがどれだけクレイジーかの覗き見です。私がやったことは、開発者デバッグのために携帯電話にBluetoothプロファイリングプロファイルをダウンロードすることに文字通り何時間も費やしました。

それから、ごめんなさい、私はクレイジーです、パケットスニファーに接続して、携帯電話でここでアプリを使っていて、このコンピューターに画像を送ったとき、それがログを記録し、パケットをスニッフィングして、Bluetoothがこの小さなやつに何を送っているかを教えてくれるようにしました。

これらのログと持っていたすべての情報を5.5に投げました。何が起こったかお見せしましょう。そのリポジトリを本当に早く立ち上げて、必死のプロンプトをお見せします。「これはBluetoothで接続されています。知っていることを使って、これに表示する方法を見つけ出すために何でもしてください。こんなに多くの情報があるのだから、どうすればいいかわかるはずです。あなたを信じています」

そして何だと思いますか。このすごいモデルがやってくれました。やってくれたんです。だから、私の成功、私の成功基準はここにあります。ターミナルで実行できるコマンドラインツールを構築することができました。エンターを押します。ベンチマークがヒットしたか見てみましょう。Hello it。Hello。

これは何ヶ月も何ヶ月も、この愚かなデバイスにハッキングしようとしてきました。ビットマップファイルのエンコードとデコードでした。秘密のSDKがあるかどうかを見つけるためにウェブをクロールしていました。Codex、あなたがやってくれました。

それよりさらに良いことに、Codexに何かをするように頼むたびに、これで私に警告するようになりました。だから、ポッドキャストでライブで少し試してみて、それからあなたを帰します。でも、この独自デバイスへのパック。これが今の私の知性テストです。

では、本当に早く画面を共有して、これが動くかテストしてみましょう。ターミナルを開いているので、Codexに入って本当にシンプルなことを言います。「何を手伝ってくれますか」と言います。

私のCodex設定に通知フックを組み込んでいて、通知する時が来たらここで何かをするはずです。では、親愛なるCodex、何を手伝ってくれますか。教えてくれます。見てみましょう。完了しました。多分私はコンピューターに注意を払っていないのでしょう。実行されるか見てみましょう。音を出すはずです。

Your move。eのないYour move、your mauveです。小さなビープ音を出しました。皆さん、これは私の人生を変えています。だから、GPT-5.5の3つの評価を行いました。これが最も印象的でした。これについてはブログでもっと共有します。この特定のワークフローについて小さなまとめをするかもしれません。

コードを公開しようと思います。でも皆さん、これが私の喜びの瞬間でした。叫びました。子供たちは驚いていました。私がこのデバイスで苦労しているのを見てきました。メッセージを送って、「ねえ」と言って、それから質問に答えるために画面を見せていました。夢中です。

だから、GPT-5.5は私の知性ベンチマークに到達しました。「独自のBluetooth転送メカニズムとビットマップ圧縮を持つこの中国のデジタルスクリーンにハッキングできますか」という。そして何だと思いますか。5.5はできます。

まとめと総評

さて、GPT-5.5の簡単なレビューはこれで終わりです。まとめ。私はこのモデルを愛しています。超賢いです。超効率的で、複雑な問題に対して自分で取り組みます。基本的に、どれだけ難しく頼んでも、以前に解決できなかった問題を解決してきました。

唯一残しておきたいのは、Codexから私たち全員が知り愛してきた、私が呼ぶところのベイクドポテトパーソナリティを持っているということです。退屈で退屈な存在ですが、このテストを通じて学んだことがあります。Codexで/personalityと入力すると、それをもう少しフレンドリーなものに変えることができます。

そして、他の初期テスターの何人かは、あまりにもZ世代のパーソナリティだと言いましたが、私は「若さを保ちたい。そのZ世代GPT-5.5をください」と言いました。箱から出てくる紙袋のベイクドポテトパーソナリティよりも、いつでもそれを選びます。

それ以外は、私のお気に入りです。シニアソフトウェアエンジニア、スタッフソフトウェアエンジニアです。大量の技術的作業を突破するつもりで、このモデルが本当に大好きです。皆さんがどう思うか聞けるのが待ちきれません。そして、ChatGPTで機能する高知性テストを見つけたら教えてください。

それ以外は、コーディングを楽しんで、皆さんが何を作るのか見るのが待ちきれません。ありがとうございます。視聴いただきありがとうございました。この番組を楽しんでいただけたら、YouTubeでいいねとチャンネル登録をお願いします。または、さらに良いのは、あなたの考えをコメントで残してください。

このポッドキャストはApple Podcasts、Spotify、またはお気に入りのポッドキャストアプリでも見つけることができます。評価とレビューを残すことを検討してください。他の人がこの番組を見つけるのに役立ちます。すべてのエピソードを見て、howiaipod.comで番組についてもっと学ぶことができます。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました