私はGPT-5.5があまり好きではありません…

GPT-5
この記事は約26分で読めます。

OpenAIが最新モデルGPT-5.5をリリースしたが、評価は両面的である。確かに史上最も賢いモデルであり、コード生成能力は圧倒的に優れている。トークン効率も大幅に改善され、従来モデルの半分のトークンで同等以上のタスクをこなす。Pro版の暗号解読能力は特に驚異的で、5〜10年未解決だったDefconパズルを解くことさえできた。しかし実用面では課題が多い。料金は入力5ドル、出力30ドル/百万トークンと大幅値上げされ、Pro版はさらに高額だ。より深刻なのは、モデルが意図を汲み取らず最低限の実装で済ませようとする「怠惰さ」と、一度誤った情報がコンテキストに入ると修正困難になる問題である。長時間スレッドの扱いが苦手で、頻繁に新規スレッドを作り直す必要がある。フロントエンド生成では相変わらず不要なカードUIを多用し、創造性に欠ける。結論として、このモデルは最も賢いが、従来の使い方では期待外れに終わる可能性が高く、詳細な指示と頻繁なスレッド管理が不可欠な、扱いの難しいモデルである。

I don’t really like GPT-5.5…
GPT-5.5 is an incredible model. Kind of…Thank you Rork for sponsoring! Check them out at: soydev.link/rorkWant to sponso...

GPT-5.5の登場と第一印象

どうもオタクの皆さん。私のセットアップがいつもと少し違うことに気づいたかもしれませんね。現在マイアミのイベントに来ているからです。でもこれは十分重要なリリースなので取り上げたいと思いましたし、私の評価は皆さんを少し驚かせるかもしれません。

タイトルから分かるように、これはGPT-5.5についての動画です。OpenAIがリリースした最新モデルですね。皆さんは私がすごく興奮していると期待しているでしょう。確かにある意味では興奮しています。でも正直なところ、全体的には少しがっかりしているんです。これはOpenAIがやってきたリリースの中で、私のお気に入りからはほど遠いものです。このモデルがどれだけパワフルで賢いかにもかかわらず、私がやっている多くのことに関しては、このモデルで作業するのがあまり好きではないという奇妙な側面がたくさんあります。

また、このモデルには入力100万トークンあたり5ドル、出力100万トークンあたり30ドルという、かなり大幅な値上げが伴っています。これはGPT-5.4の2倍の価格で、Opus 4.7より約20%高い設定です。これらのモデルよりもトークン効率ははるかに優れていますが、それでもこの値上げは巨額です。では、どうやって正当化するんでしょうか?ええと、私が今日のスポンサーに切り替えることで正当化しようとするよりはうまくいくといいですね。

スポンサー紹介

若い頃、私は携帯電話用のアプリを作るのが大好きでした。でも最近は、あまり楽しめなくなってしまいました。すべてをセットアップするのに手間がかかりすぎるんです。Xcodeを適切に動作させたり、React Nativeのようなものを習得したり、そして単一のネイティブAPIが必要になった途端、幸運を祈るしかなくなります。モバイルアプリ開発を楽しめなくなっていました。

それなのに、ここで私の携帯電話がコンピューターに接続されていて、モバイルアプリを作っています。それは今日のスポンサーであるRORに完全に感動したからです。iOS向けの開発でこんなに良い体験をしたのは初めてです。10年以上やってきましたが、iOS用の環境を整えるのはほぼ不可能です。

この人たちは文字通り3クリックでできるようにしてくれました。Appleアカウントにサインインしたら、ほぼ完了です。それだけではありません。アプリを実際のデバイスで実行できるんです。私が今まさにやっているように。でも本当に、カメラAPIやAR API、その他良質なiOSアプリを作るのに必要なすべてを使って、単一のプロンプトでバイブコーディングして、異なるおかしな帽子を変えられるアプリを作れるなんて、どれだけクレイジーなことでしょう。

Swiftで、彼らはクラウド上にあなたが使えるクラウドコードインスタンスを効果的に構築してくれました。Apple開発者アカウントを全くセットアップすることなく、ローカルデバイスと同期できるんです。それだけでなく、App Storeへの公開も2クリックにしてくれました。アイデアから現実、そして友達の携帯電話まで、アプリを届けるためのこれほど良いフローは見たことがありません。

最近は彼らがAppleよりもiOS開発について考えているように見えますし、結果がそれを物語っています。実際のAPIを使った本物のアプリを、今すぐあなたの本物の携帯電話で作りたいなら、soy.work以外に目を向ける必要はありません。

GPT-5.5の詳細分析

さて、GPT-5.5に飛び込みましょう。OpenAIが何と言っているか、他の人たちが何と言っているか、そして最も重要なのは、私がどう思っているか、そしてこのモデルから最大の価値を得る方法について見ていきます。

ブログ投稿から始めると、彼らはこれが最も賢く最も直感的なモデルだと言っています。「私たちの最も賢く最も直感的なモデルは」と言っていますが、世界で最高とは言っていません。Mythosの方が優れているかもしれません。あるいは単に親切で言葉遣いに気を配っているだけかもしれません。深読みしたくないですね。

では、重要な部分までスクロールしましょう。「私たちは5.5を、悪用を減らしながら有益な作業へのアクセスを維持するよう設計された、これまでで最強の安全対策セットとともにリリースします。私たちは、安全性と準備態勢の枠組みの完全なスイート全体でモデルを評価しました。内部および外部のレッドチームと協力し、高度なサイバーセキュリティと生物学的能力のための対象を絞ったテストを追加し、リリース前に約200の信頼できる早期アクセスパートナーから実際のユースケースについてフィードバックを収集しました。」

そう、彼らはモデルが安全であることを確認したかったんです。また、このモデルはより大きいため、通常は高速で提供するのが難しくなるはずですが、それを修正するためにやり方に多くの変更を加えたと述べています。これの多くはNvidiaとのパートナーシップから来ているようで、以前よりも最新のNvidia製品を使用しています。

彼らはGB200でこれをトレーニングして出荷したと思います。ええ、GB200 NVL72システムですね。これらはNvidiaの最新最先端のものです。彼らはこれで全部出荷しました。そしてNvidiaは新しいモデルに非常に満足しています。残念ながら、APIサポートはまだ存在しません。それについてと、近い将来の回避策について話します。

彼らはすぐにサポートするでしょうが、今のところ、APIにこれを投げ込むことができないので、通常やりたいことの多くができません。ただし、幸運にも早期アクセスでそこで物事をテストすることができ、後で共有する興味深い数字があります。でも最初に、彼らが提供した数字をカバーしたいと思います。

ベンチマーク結果の検証

まずターミナルベンチの数字から始めましょう。以前の75.1%と比較して82.7%を叩き出しました。しばらくそこでリードしています。Proでこれらのことを評価しないのは、Proがそのようなハーネスやベンチマークを伝統的な意味で実行することを意図していないからです。新しいProモデルについては非常に異なる考えを持っていますが、それはすぐに説明します。

ええと、あれは調理しました。彼らの専門家SWEベンチ、これは彼らが実行する内部ベンチですが、以前の68.5%の代わりに73%を獲得しました。なぜOpusでこれをテストしなかったのか疑問に思っているなら、それはAnthropicがすべてのOpenAIによるAnthropicモデルの使用を禁止しているためで、それでテストを実行するのが難しいからです。

なぜ3.1 Proでテストしなかったのか疑問に思っているなら、その理由は分かりませんが、推測するに3.1 Proがダメだからでしょう。私の言葉ではありません。わかりました、それは私の言葉ではありませんでした。それからGDP valがあり、勝利または引き分けは83.0対84.9でここでより良くなりました。でも正直に言うと、それは少し不誠実だと思います。なぜなら、実際の数字を見ると、5.4よりも実際に勝った回数は少ないことがわかるからです。

差を埋めるのに十分な引き分けがあっただけです。GDP valはくだらないベンチマークです。実際に洞察をもたらすよりも多くのリリースを遅らせてきたので、私はそれについてあまり気にしません。OSWorld Verifyもここでかなり良い成績を収め、Opus 4.7を打ち負かしましたが、それでもそれほど大きくはなく、わずか7%です。Toolathonは、私が以前聞いたことのない新しいもので、そこでは良い成績を収めたようです。

Opusはそれでベンチされていません。そしてGoogleモデルは、いつものようにツールコールがかなり苦手です。そのギャップは私が予想したよりも小さいですね。興味深い。そのベンチを調べる必要があるかもしれません。browse compでは、かなり良い成績を収めましたが、5.5 Proには負けました。そして5.5 Proも79.3でOpusを圧倒しましたが、これはProモデルの数字であることを指摘する価値があります。

非Pro版と比較すると84.4しか得られず、実際には3.1 ProでGoogleが得たものより悪くなってしまいます。モデルのブラウジング能力と、それがどのように改善されたかには感銘を受けましたが、Codexで新しいコンピューター使用機能を試してみたところ、本当にクールです。

Googleのビジョンと認識、グラフィカル、すべてのものが依然として他の皆よりはるかに先を行っていることは明らかです。このbrowse compテストでProモデルがGoogleモデルよりも優れている違いは、視覚認識タスクで優れていることよりも、ツールコールと長時間実行での一貫性で優れていることに起因すると推測します。なぜなら、繰り返しますが、Googleはそこで依然として調理していますから。

私は認識タスクにGoogleモデルを常に使用しています。Frontier Mathを圧倒しました。何らかの理由でGoogleはそこで非常に悪い成績を収めました。特にProモデルはこの種のことに非常に優れているようです。それからCyber Gymです。それが何かは分かりませんが、いいですね。良い成績でした。ベンチマークはもう十分です。実際の能力について話したいと思います。

それは嘘です。もう一つベンチマークをやりたいです。次の前にフラッシュバン警告です。ところで、artificial analysisインテリジェンスインデックスです。最高のベンチマークではありませんが、多くの異なることをカバーするかなり良い包括的なベンチで、現在最先端です。でも私がもっと興味深いと思うのは、X highではない5.5バージョン、つまりhighやmedium、さらにはlowをオンにすると、非常に興味深い数字が見えることです。

5.5 mediumは5.4 X highとほぼ同じパフォーマンスを発揮しながら、トークン効率もはるかに優れています。トークンあたりの価格は高いですが、ここでのトークン効率の向上により、このレベルのインテリジェンスはほぼ同じ価格になります。

しかし、より多くのインテリジェンスが必要な場合は、より多くのお金を使う必要があります。そして標準のhighバージョンは1ポイント低いだけで、かなり安価です。ベンチマーク実行に使用されたトークンセクションに移動すると、非常に興味深いものが見えます。GPT-5.5 X high、つまり可能な限り最高の実行バージョンは、7500万トークンを使用しました。これは5.4が使用したものの半分強で、Claude Opus 4.6が使用したものの半分をかなり下回っています。

Opus 4.7は2倍ではありませんが、それでも全体的にかなり多くのトークンです。GPT-5.5 highやmediumが何をしたかを見るには、ここの終わりまで本当に遠くまで行かなければなりません。GPT-5.5 highは4500万トークンしか使用せず、5.5 mediumは2200万トークンしか使用しなかったことがわかります。これだけ少ないトークンでこれを実行するのは実際に非常に印象的です。ええ、コスト数字が出てくるのが楽しみです。

ここで計算することもできますが、私は怠け者です。だから代わりに、インテリジェンス対出力トークンのチャートに行きます。ここでmuseのような関連性の低いものをたくさん削除すると、まだ使用できません。three、flash、gemma 4、light。ええ、これらの多くを削除できます。これから多くのものを削除したので、チャートは少し明確になりました。

そして5.5ファミリーがインテリジェンス対出力トークンチャートでかなりタイトな優位性を持っていることがわかります。X軸は使用されたトークン数です。Y軸はartificial analysisインテリジェンスインデックスでのインテリジェンスです。そしてこれらのモデルは、他のものと比較してトークンコストに対して非常に良いパフォーマンスを発揮します。

トークン利用スケールのこんなに下の方にある5.5 mediumが、このように知的にパフォーマンスしているのを見るのは実際にかなり印象的です。そして5.5 lowは非常に少量のトークン使用で絶対に圧倒しています。明らかに、これらのトークンはトークンあたりのコストが高く、コスト比較を皆さんに見せたいのですが、このチャートはまだ更新されていないようです。

OpenAIは読みにくいAppleっぽいチャートで視覚化していて、Opus 4.7のようなこのレベルのインテリジェンスが、使用トークン数でほぼ半分で達成されたことがここで見えます。見るのはクールですが、それでも高価ですし、彼らはトークン利用を示すことで正当化しようとしています。トークン利用にこれだけ多くの努力を注いでくれたことに興奮しています。

結局、タスクを実行するのに半分のトークンで済むことが非常に多いため、モデルがはるかに速く感じられます。そしてこれが、彼らが低い推論レベルでの使用を強く推奨する理由でもあります。本当に必要でない限りhighやextra highを使わず、代わりにlowとmediumに固執することを推奨するのは初めて見ました。

フロントエンド機能の実験

そして今、フロントエンド機能に入ります。ここでクールなデモをいくつか見せてくれましたが、これらのデモについて何か気づくかもしれません。どこにでもカードがまだいっぱいです。これらのデモのほぼすべてに、どこかにカードがあると確信しています。でもこれについて印象的なこともあります。3Dを理解しているんです。これらのモデルが3Dゲームのものをどれだけうまくやったかを見たとき、自分で探求する必要がありました。隅にこれらのカードがあることが嫌いだったとしても、確かにそれをするのが好きですから。

Opus 4.5の時代に新しいモデルに本当に興奮し始めたときに最初に取り組み始めたことの一つは、Fish Slopというゲームのアイデアでした。これは私の昔のお気に入りのインターネットゲーム、Insane Aquariumに基づいたゲームです。そして私は主に、ゲームエンジン、2D空間を理解し、アイデアを具体化するモデルの能力をテストしていました。

予想以上に先に進み、完成させたいと思っていましたが、その後すべてが爆発しました。しばらくノンストップの混乱が続いています。皆さんもお気づきのように。だから、これらの新しいモデルの能力を見た後、それを復活させるのに良い時期かもしれないと決めました。

でも、その代码ベースが率直に言ってスロップであることも分かっています。だから既存のソースコードを取り出し、モデルにそれを指して、「これを近代化して、クリーンにして、その上に構築できる、よりクリーンで信頼性の高いエンジンを備えた良いミニマルな出発点を作って」と伝えました。これがOpusから得た結果です。何らかの理由で、以前持っていたアセットに触れたくなかったようで、コントロールの入力も異なるボタンを使うように変更しましたが、機能しました。

このバージョンでは、動きが以前のものよりわずかに良く感じられると言えます。そして、コードでこれらのアセットを生成できたのは印象的です。何らかの理由で、Phaserを使いたくなかったようです。実際には、ブラウザゲームエンジンを使う代わりに、生のcanvasを使うことを提案し、そうしました。

また、魚が空腹になるタイミングや、追いかける食べ物のタイミングも本当に上げたようです。ええ、これは思っていたよりも良いと思っていました。今実際に見てみると、「ああ、これはちょっとダメだな」と気づいています。そして今、GPT-5.4バージョンがあります。これには画面を常にリサイズする奇妙なバグがあります。

それが何なのかわかりませんが、ひどいです。給餌ロジックをそれほどひどく台無しにはしませんでしたが、最初から瞬時に餌を与えないと魚が非常に速く死んでしまいます。このバージョンで好きではない小さなことがたくさんありますが、でもまあ、大丈夫です。そして今、5.5から得たバージョンがあります。

すぐに、かなり良くプレイされ、かなり良く見えます。魚やここの潜水艦のために元のアセットを使用しました。だからその部分はその理由で見栄えが良いです。食べ物のペレットも同様です。でも他のすべてを生成し、素晴らしい仕事をしました。底のサンゴのような小さなものは、完璧ではありませんが、かわいくて良いタッチです。

ゆっくり横切るスキャンラインが好きです。ここの波線も好きです。大好きというわけではありませんが、大丈夫です。私がほとんど味と呼べるようなものがありますが、同時に完全にゴミでもあります。これらのモデルが抵抗できない上下のカードです。だから結局、「これはスロップだ。それを取り除いて、もっと良くして」と伝えました。

そしてその功績として、やってくれました。私が思い描いていたものにもっと近づけるために、いくつかのフォローアッププロンプトの後、これをずっと良くしました。そしてええ、これを将来のバージョンのこのゲームの出発点として使用できると思います。でもすぐに気づきました。モデルをどこまでも強く押していませんでした。雑な2Dゲームを構築させていたので。

だからもっと強く押しました。3Dにさせたら、やってくれました。最初は3Dで私が思い描いていたことをやってくれなかったので、少しやり取りをする必要がありました。3Dアセットを2D平面に配置したような2.5Dゲームを作っただけでした。そしてそれを変更するように伝えると、私が求めた意図をほんの少ししか尊重しない非常に最小限のことをしました。

そしてここで、このモデルに関して私が抱えている問題に入ります。ほとんど何でもやってくれますが、ぎりぎりなんです。ある意味ではこれは素晴らしいです。モデルが以前書いていた、GPTモデルを実際のコードベースで使うのを少し煩わしくしていた、すべての厄介な防御的コードを書くことはありません。Juliusが5.4を使ってT3コードで作業することについて何度不満を言ったか、数え切れません。

そして機能を削除するように伝えると、機能が実際に削除されたことを確認するための回帰テストを書きます。それは正気の沙汰ではありません。常に上書きします。必要以上に編集します。このモデルはまだそういうことをしますが、それほどひどくはありません。でも同時に十分に進まないんです。

これをもっと3Dゲームにしたい、3D体験にしたいと伝えたとき、アセットを3Dアセットに置き換えて新しい3Dレンダラーを作っただけでした。これは非常に複雑なものです。やってくれた仕事に感銘を受けていないわけではありません。私が求めたことの意図を尊重しなかったことに腹が立っています。それは3Dゲームにすることでした。

3Dアセットと3Dレンダラーを使うゲームにしましたが、以前持っていた2D体験を維持しました。そしてゲームをもっと3Dにするように導こうとし続けましたが、失敗しました。だから結局やらなければならなかったこと、そしてこのモデルでよくやっていることですが、新しいスレッドを作り、私が思い描いていたことについてもっと厳格にし、より良い仕事をしてくれました。

コンテキストのことについてはすぐにもう少し詳しく説明します。ここでもう少しフロントエンドの例を見せたいと思います。スポンサーページを再デザインするように頼みました。好きではあるんですが、非常にOpusデザインだからです。クールだと思います。もしチェックしていないなら、ここにたくさんのクールな会社があります。でも人々はそれがちょっとスロップだと言っていました。

だから、もう少し見栄えを良くするために少し時間をかけることにしました。時間というのは、プロンプトのことです。これが生成されたものです。まあまあですが、典型的なGPT特有のものがたくさんあります。上部にこの4つのプラチナパートナーというものがあり、これらのピルは完全に不要です。そしてこれらをクリックすると、そこに連れて行ってくれ、#goldのようなURLを使ってそこに到達しますが、ページの扱いは変わりません。

だからこれは常に4つのプラチナパートナーと表示され、これは常にプラチナをハイライトします。このページには状態がありません。それを理解せず、代わりに雑なUIをここにたくさん入れました。良くないです。また、このテキストが1行にうまく収まらないようにしました。変な風に壊れます。好きではありません。

私が受け取るか残すかのカードのために、わずかに異なる構造を作りました。好きかもしれませんし、好きではないかもしれませんが、私はあまり感銘を受けていません。頭の中にビジョンがあって、そのビジョンに向けてモデルを導くように伝えれば、最終的にそこに到達できると確信していますが、他のテスターの一部が、新しいGPT画像モデルでモックアップを作成してから、5.5の新しいモデルに持ち込んで実際の実装をさせているのも分かります。画像モデルからこれよりも創造的な出力を得られているからです。

そして正直なところ、それは私にとって納得がいきます。あまりポジティブではない考えに突っ込みたいのですが、最初に他の人々がよりポジティブなことを言っているのを共有したいと思います。ここで私が外れ値かもしれないからです。

まだわかりません。早期アクセスを持っていたり、今日遊んでいたりする私が話した多くの人々から、賛否両論の意見を得てきました。たとえば、Benは本当に気に入っていて、私たちのポッドキャストで詳しく議論していますが、Juliusはそれほどでもありません。だから他の会社が何と言っているか見てみましょう。

CursorのMichael Trollは、5.5は5.4よりも顕著に賢く、より粘り強く、より強力なコーディングパフォーマンスとより信頼性の高いツール使用を持っていると言いました。早期に停止することなく、タスクに大幅に長く留まります。これは、ユーザーがCursorに委任している複雑で長時間実行される作業にとって最も重要です。Lovableは、GPT-5.5は、offフローやリアルタイム同期のようなより複雑なタスクで人々が通常ぶつかる壁を、はるかに少ないターンで突破すると言いました。このモデルは作業が困難になったときに本当に輝き、はるかに少ないやり取りで困難なタスクを処理します。

Cognitionは、Devonで可能なことの新しい基準を設定したと言いました。他のモデルが捕捉できないバグを表面化し、生産上の問題をエンドツーエンドで調査して修正します。おわかりでしょう。

これらの会社の多くは、モデルが非常に印象的だと言っており、その通りです。他のどのモデルも行ったことのないことができます。どのモデルよりも優れたコードを書きます。では、私のモデルの問題は何でしょうか?入力5ドル、出力30ドル、またはProバージョンの100万あたり30ドル、出力180ドルという法外な価格設定ですか?いいえ。

煩わしいですが、私が不満を言っているのはそれではありません。フロントエンド機能でもありません。正直に言って、そこでもっと改善を期待していましたが。私の問題は、怠惰に感じられることです。つまり、言葉にするのは難しいです。私が求めていることの意図を尊重していると感じられることがあまりないんです。

Jiraでタスクをクローズしようとしているだけで、本当に最後まで行こうとしないチームのハッカーのように感じられます。mediumバージョンを使っているか、highバージョンを使っているかに関わらず、これが当てはまることがわかりました。止まって「ほら、やったよ」と言うのが少し早すぎます。続けるためにもっと励ましが必要です。

でももっと大きな問題があります。曖昧なタスクを与え、問題を解決するために知っておく必要があることや使う必要があることを理解しようと調査を行っても、正しいものを見つけられないかもしれません。それは大丈夫です。ほとんどのモデルの場合、代わりに見つけるべきだったものを伝えればいいだけです。

でもこのモデルには問題があります。誤った情報がコンテキストウィンドウに入ると、それに戻り続けます。Benが何度も遭遇した本当に実用的な例は、モデルで作業していて、気に入った変更をいくつか行い、それらの変更をコミットするように頼んだときでした。同じスレッドで作業を続けると、その時点からすべての変更の後にコミットし続けました。

コミットをやめるように伝えても、まだそれを行います。なぜなら、私が説明する限りでは、そのコンテキストをキャンセルすることができないからです。何かがコンテキストに入ると、プロンプトでそれを取り除くことはできません。新しいスレッドを開始する必要があります。そして、私はこのモデルで人生で最も多くのスレッドを殺さなければなりませんでした。間違った道を進み始めるたびに、ため息をつき、肩をすくめ、それを殺して新しいスレッドを作ります。

コンパクションを押さなければならないとき、ため息をつき、肩をすくめ、それを殺して新しいスレッドを作ります。このモデルでの長時間実行スレッドでは良い体験をしていません。一方では、40万トークンのウィンドウ内でどれだけのことができるかは印象的です。他方では、これらの本当に長時間実行するスレッドができなくなったことに非常に失望しています。

非常に頻繁に切り離さなければなりません。幸いなことに、ほとんどのツールでは簡単です。コマンドシフトOを押すだけで新しいスレッドを開始できます。でもcodec cliやcloud code、その他のようなターミナルツールを使用しているときは、はるかに快適ではありません。Proバージョンに入る前にいくつか簡単なことがあります。多くのものが本当に輝いているのはProモデルだと思うので、それについてもっと共有できることに興奮しています。

セキュリティテストとProモデルの実力

まず、Pelican benchがあり、公式APIを使用していないことに注目する価値があります。公式APIがないからです。でも幸いなことに、codexエンドポイントを使用するバックドアは依然として比較的祝福されているようです。OpenClawの作成者であるPeter Steinbergerから、OpenClawや他のツールでcodexエンドポイントをcodex認証で使用することが問題ないことが公式に確認されています。

彼らはJet Brains、Xcode、Open Code、Pi、そして今ではClaude Code 2のようなものについて公式に言っていますが、それはかなり面白いです。でもええ、おわかりでしょう。ここでの目標は、人々がOとCのcodexを他のものでも使用できるようにすることです。APIが公式に出ていなくても、この回避策を使ってAPI経由でテストできます。そしてここでかなりクレイジーな結果が見えます。

覚えておいてください、これは単なる画像生成ではありません。これはSVGです。これは実際にこのペリカンを作るために書かれているコードです。そしてそれはXIで素晴らしい仕事をしました。mediumバージョンはそれほどでもありませんが、XHIは絶対にPelican benchを虐殺しました。でも今、Proモデルについて話す必要があります。ここの左側にあるchat GPTアプリで見ることができるように、Proモデルを使って多くのパズル解決を行ってきました。

残念ながら、このモデルをテストできた唯一の方法はchat GPTサイトを通してでした。テスト中にAPIでProを公開しなかったし、codexにもありませんでした。だからこれを使わざるを得ませんでした。ええ、このモデルは本当に良いです。出てきたときのセキュリティガードがどのようになるかわかりませんが、使っているときや、正直なところ5.4 Proを使っているときも、できたことに非常に感銘を受けました。

セキュリティ研究者、Defcon参加者、そういった種類の人々について何か知っているなら、彼らの非常に少数が、これを通じて私がponeした彼らの作業とものを共有することに賛成だったことを知っているでしょう。

でも、新しいモデルを使って、人々が5年から10年の間解こうとしてきたDefconの未解決パズルを3つponeしたと言って、皆さんが私を信頼してくれることを願っています。そのうちの1つは5.4 Proで約20%長い時間でponeできたと言います。だからこれは必ずしも5.5 Proだけができることではありませんが、なんてこった、投げたほとんどすべてを解くことができました。

巨大な公開暗号チャレンジのようなもの、Noa iMessageチャレンジのようなものを投げて、何か進展を見せられるか見ていたほどに感銘を受けました。そしてそれを解くことはできませんでしたが、このパズルにはまだアクセスできない情報があると思います。ゲームの作成者がまだそれを出していないのか、それともゲーム内にあってまだ見つかっていないのか、それについて驚異的な量の進展を遂げることができ、このパズルシリーズにもっと深く入っている友人に結果を送ったところ、「うわー、どうやってこれを見つけたのかわからない。これは実際に私たちにとって役立つ」と言われました。

このテストのすべてにchat GPTサイトを使用したことで、それに対するさらに深い憎しみが与えられたと言わざるを得ません。完全にフリーズして読み込まれず、何度かリフレッシュしなければならなかったこのようなページに何度行き詰まったか、数え切れません。そしておそらくそれが通るかもしれません。おそらくを強調します。

これらの実行は非常に長時間続くため、APIから大量のデータで応答することになり、その結果、使用がかなり遅くなります。ここに163分かかった実行があります。私が書いたこの暗号パズルを与えました。もしやってみたいなら、ネタバレします。パズル全体とその仕組みをネタバレします。

自分でやりたい場合は私のTwitterにあるので、このセクションをスキップしてください。これは2部構成のパズルで、下の行が上の行のヒントです。下の行はかなり基本的なRO 47で、hash、つまりハッシュと言った月の犬にデコードされます。このSHA1ハッシュはデコードされることを意図していません。デコードすべきだとあなたを騙すようなものであることを意図しています。

実際には、私のGitHubリポジトリにある古いゲーム、Dogecoin Simulatorのgitコミットのコミットハッシュです。結局、git履歴を変更して古いコミットを挿入し、このセクションをデコードするために使用する必要があるハッシュフレーズを持たせました。そしてこのセクションは、私が行った少しトリッキーなものです。

これはT3によるチャレンジなので、これでヒントを挿入しました。ヒントはT3です。T3を知っていますよね。Tはアルファベットで20です。23です。これは23進数の文字暗号です。ゼロではなくAから始まります。すべきかどうかは議論の余地があります。気にしません。賢いと思いました。これをJSONにデコードすると、gitリポジトリで見つけたフレーズを使用して復号化する必要があるAESのような暗号化ペイロードがあります。

これを解くのにモデルには163分かかりましたが、やってくれました。でもローカルで実行してみて、プレーンテキストを与える代わりに投稿したgistへのリンクを与えたため、偶然のヒントを与えてしまいました。そしてgistを手に入れてGitHubリンクを見たので、GitHubをもう少しチェックすることを知り、それを行い、5分以内にローカルでこれをponeできました。

それ以来、直接的なヒントがあってもまだ解決に近づいていない、かなり難しいチャレンジを与えました。でも私のコミュニティも同様です。実際、現在それに対して賞金をかけています。これはまだ誰も解決していない、または近づいてさえいない新しいチャレンジです。そして1000ドルの賞金をかけています。

このビデオが公開されるまでに解決されているかもしれませんが、疑わしいと思います。だから、Proと、非常に難しいことを単に研磨する能力に非常に感銘を受けてきました。使用されるトークンの量が少ないにもかかわらず、特に低mediumで、コードがどれだけ良いかに驚いてきました。でも、プロンプトを作成し、モデルを正しい方向に導き、やりたいことをやっていることを確認するために、もっと時間をかけるべきだということにも非常に苛立ってきました。

これまで以上に多くのことができますが、同時にこれまで以上に関与しなければならないと感じています。そして1ショットでクレイジーなことを完了できますが、それらのクレイジーなことには、与えられる多くの前提コンテキストが必要です。それが直接的な一連の指示であれ、結果が正しいことを検証する明確な方法であれ、出力に正確に何を望むかについての超明確で直接的な説明であれ、または間違った道を進まないように正しいリソースへのリンクであれ。

自分でその作業をしなければなりません。モデルはまだ幻覚を見ます。まだ間違えます。他のモデルがやってきた煩わしいことをすべてまだ行います。でもその悪いデータがスレッドに入ると、それを止めさせるのがこれまで以上に難しく感じられます。だから、このモデルを使用するときは、最初からもっと直接的に指示することを強くお勧めします。

通常よりも詳細なプロンプトを書くのに少し時間をかけてください。おそらく別のスレッドで、少し調査を行い、正しいリソースと情報を新しいスレッドに持ち込んでください。そしてもちろん、最も重要なのは、通常よりもはるかに多くの新しいスレッドを作成することです。このモデルはコンパクションが悪く、時間の経過とともに一貫性が悪いようです。なぜなら、コンテキストに物事が固定され、何かを止めるように伝えてもそのようにすることから本当に取り除くことができないからです。

でも、これまでに作られた最も賢いモデルでもあり、AIから見た中で最高のコードを書きます。だから、お好きなように受け取ってください。これは私のお気に入りのモデルリリースではありません。私が好きではないことについて、OpenAIに詳しく知らせました。でも、これはおそらくこの新しい事前トレーニングデータの最初のモデルでもあります。

だから近い将来、ここに築かれた基盤の上に構築された、これよりもさらに優れて、賢く、強力な他のモデルがある可能性が高いです。だからこれはspudですか?この内部情報は得られません。彼らは決してそういったことを教えてくれません。これは正しい新しい事前トレーニングだと思いますし、将来的にモデルがこれらのエッジをもう少しうまく処理する方法を見るのがとても楽しみです。

でも今のところ、本当に異なる感じがします。これを5.5と呼ぶべきではなかったと思います。これは完全に異なる名前を付けるべきでした。GPT6と呼ぶかもしれません。でもこれは十分に異なるので、通常やっていることのやり方を本当に再考する必要があります。古いプロンプト、古いハーネス、古いスキル、古いものを使う場合、このモデルで良い時間を過ごすことはないでしょう。

これで言いたいことはすべてだと思います。次回まで、face art startsです。

コメント

タイトルとURLをコピーしました