GPT-4.1が登場し、デベロッパー向けに構築された

16,006 文字

GPT-4.1 is here, and it was built for developers

GPT-4.1 is a very interesting launch. It's great at code, great at tool calls, decently priced, but only in the API? Tha...

サプライズ！OpenAIが新しいモデルをリリースしましたが、おそらく予想とは違うものでしょう。特に名前を見ると「4.1」とあります。これは4.5より劣るのでしょうか？このモデルの役割は何なのでしょうか？とても興味深いローンチです。特にブログポストを見ると、APIでの提供が明記されていて、ウェブサイトには載せないようです。非常に奇妙に思えますが、聞いてください。このモデルは、最近話題になった他のモデルとは違い、ほぼ完全にデベロッパー向けなので、皆さんにとって非常に関連性が高いものです。
より大きなコンテキストサイズから、より良い価格設定、そして速度とベンチマークの両方で驚くほど良いパフォーマンスまで、興奮することがたくさんあります。ここでは多くのことを見ていきましょう。開発者の方は、ぜひ最後まで視聴してください。
とはいえ、誰かがこれらの推論費用を支払わなければなりません。今日のスポンサーから簡単なお知らせをして、それから本題に入りましょう。
エンジニアの採用は難しいです。優秀なエンジニアの採用はほぼ不可能で、小さな町の真ん中のどこかで見つけようとするなら、幸運を祈ります。でももし簡単だったらどうでしょう？候補者のビデオをスクロールして見て、欲しい人を選ぶだけで、それが1週間で完了するとしたら？不可能に聞こえますが、G2Iがその不可能を可能にします。
彼らは素晴らしいです。React Miamiのホストをしていて、これは私が言い続けている最高のReactカンファレンスです。ちなみに4月末に私もそこにいますので、会いたい方はぜひ。React Miamiの話ではなく、彼らが採用をどれだけ簡単にしてくれるかについてです。
あなたにとって重要な質問をいくつか書くと、彼らは8,000人以上の才能あるエンジニアにそれらの質問をして、あなたに合うと思われる少数の候補者からのビデオをスクロールして見ることができます。そして「採用」をクリックするだけで、好きなタイミングですぐに始めることができます。パートタイム、フルタイム、リモート、対面など。対面は、ニューヨークやサンフランシスコのような大都市にいない場合は難しいですが、最高のエンジニアはそれらの都市で働きたいとは思っていません。彼らはリモートを好みます。
最も重要なのはエンジニアの数と質であり、それが彼らが準備している8,000人のエンジニアです。業界全体での経験を持ち、迅速に行動する方法を知っています。彼らはあなたとSlackチャンネルを共有し、製品ベースのAI駆動でありながら人間的な要素も持つ、あなた自身の個人的な採用組織のように感じるでしょう。
自分でこれを立ち上げるために何十万ドルも費やしたとしても、実際の採用パイプラインを動かすまでに1年以上かかるでしょう。または、面接から最初のプルリクエストが完了するまで7日という彼らのクレイジーな数字を達成することもできます。優れたエンジニアが必要で、時間とお金を無駄にしたくないなら、今日、soyv.link/g2iで彼らに連絡してください。
GPT-4.1のAPIでの導入：コーディング、指示の実行、長いコンテキストに関する大幅な改善、そして初のナノモデルを特徴とする新しいGPTモデルシリーズです。これは彼らの非常に興味深い戦略です。GoogleのGeminiを見て、彼らが一部の地盤を失っていることに気づき、今懸命に戦っているように見えます。
3つの新しいモデルは4.1、4.1 Mini、4.1 Nanoです。信じられないかもしれませんが、すでに4.1を試したことがあるかもしれません。なぜなら、これらはOpen Routerでステルスリリースされていて、AlphaとOptimus Alphaモデルは両方とも4.1のバージョンだったからです。多くの人が試して、そのパフォーマンスに感銘を受けたモデルです。
私は正直、これらの匿名モデルがOpenAIの新しいオープンモデルになると思っていましたが、これらのモデルでも十分満足しています。なぜなら、本当にクールなものを見ているからです。4.1はSWE Benchで非常に良い成績を収めています。これは数ヶ月前に彼らが発表したベンチマークで、Claudeと比較すると彼らがあまり良く見えなくなり、私を混乱させました。しかしこれが彼らの戦略だったようです。
これは40のこのベンチマークでのスコアだと思います。23.2%で、これは昨年末のものです。比較として、Claude 3.5は49%でした。これは年初の以前の最先端技術でした。彼らは49%を達成しました。3.7がもっと良かったかどうかはわかりません。
興味深いことに、Sonnetはスキャフォールドなしで63.7%を達成しました。3.7との比較では、確かにはるかに低いスコアの4.1の54.6%ですが、みんなのお気に入りのClaude 3.5と比較すると、それらの数字は接近しています。
申し訳ありませんが、少し混乱しています。私はそれらの数字がもっとアクセスしやすいと思っていましたが、そうではありませんでした。私は個人的にArtificial Analysisの数字が公開されるのを待っています。これは私がこれらのすべてを追跡するために使用しているサイトで、私の生活を大幅に簡単にしてくれました。
4.1や他の新しいモデルがまだUIに存在しないときにこれらのビデオを撮影するのは常に難しいです。すべてが存在したら比較するのは本当に素晴らしいですが、代わりに自分のツールを構築しています。
見てわかるように、4.1は40よりもかなり安価で、3.5よりもかなり安価です。しかし正確な価格については後で触れます。まずこの投稿を終わらせる必要があります。
100万トークンのコンテキストウィンドウ、これはGeminiと同じサイズです。これが何を意味するかわからない場合、モデルに渡してレスポンスを生成できるデータの量です。RAGのようなもので、データ内で検索できます。これはチャット履歴にあるテキストの量で、自動補完されています。
LLMがファイルへのアクセスを要求し、メタデータを取得し、100万トークンで決定を下すための多くのクレイジーなソリューションがありました。各トークンは4〜8文字で、ほとんどのコードベースはそのウィンドウに快適に収まります。Geminiのようなモデルを使用して大量のデータをダンプし、何かを実行するよう依頼するのは楽しかったです。
OpenAIのモデルは歴史的に約10万トークンに制限されていたので、これは10倍のジャンプであり、巨大で、モデルでできることを根本的に変えます。また、これらがAPIでのみ提供される理由の一部でもあります。チャットUIに数百万トークンを貼り付けるべきではないからです。
これらのモデルはAPI専用なので、試してみたい場合はT3 Chatをチェックしてください。現在、有料サブスクリプションなしで4.1 MiniとNanoを無料で提供しており、4.1は月額8ドルの層の一部です。はい、月額8ドルでこれらすべてのモデルにアクセスでき、Claude、Gro 3以外のモデルなら月1,500メッセージ使えます。この2つは月150メッセージです。
T3 Chatを十分に宣伝しましたので、無料のT3 Chatを提供したいと思います。チェックアウト時にコード「4.1」（ダッシュ付きでスペルアウト、すべて大文字）を使用すると、1ヶ月無料になります。既にサブスクリプションを持っている場合は行わないでください。キャンセルして再サブすると機能せず、数字が悪くなるだけです。新規サブスクリプションのみです。気に入らなければキャンセルできます。無料だったので。これは最初の300人に限定されます。エラーが出たら、申し訳ありませんが300人があなたより先に使用しました。
4.1は他のチャレンジでも非常に良い成績を収めました。スケールマルチチャレンジでは約30%の改善があり、これはさまざまなことをチェックします。また、ビデオコンテキスト理解ベンチマークでも素晴らしい成績を収めました。長いビデオを解析して特定のものを見つける能力は、本当に有用なユースケースになります。
これは最も興味深いチャートで、最初に掲載したときにミスをしたからだけではありません。もともとは40 Miniと両方の場所にラベル付けしていました。かなりおかしいですね。彼らはそれを修正しましたが、今では常にそうあるべきだった40と表示されています。
これにより4.1は興味深い位置に置かれます。個人的には40 Miniを品質の下限と考えているので、40 Miniよりも劣るものは特に魅力的ではありません。しかし、安価なモデルがあることは、特にOpenAIからは非常に興味深いことです。
価格をすべて確認するために、コンテキストを理解するためにすべての価格をすばやく見てみましょう。4.1は入力が100万トークンあたり2ドル、出力が100万トークンあたり8ドルで、40よりも少し安くなっていますが、明らかにパフォーマンスは上回っています。本当に素晴らしいです。まだ画像や音声を生成できませんが、画像を取り込むことができ、それは非常に便利です。
ここで最も興味深いのは4.1の価格ではなく、4.1 Miniです。これは40 Miniよりも少し高価で、4.1 Nanoは、OpenAIがこれまでリリースした中で最も安価なモデルです。
モデル価格を確認するために作ったこの小さなサイト、modelprices.appを使用しています。ここで、これらの安価なモデルの価格がどのように比較されるかを見ることができます。4.1 Miniは40 Miniよりもかなり高価です。40 Miniが入力15セント、出力60セントだったのに対し、4.1 Miniは入力40セント、出力1.60ドルです。
ミニモデルとしてはかなり高価ですが、ミニモデルとは何かによります。O3 Miniは依然として市場で最高のモデルで、技術的にはミニモデルですが、多くのモデルと比較してそれほど高価ではなく、依然として本当に良いです。
しかし、Nanoの価格はGemini 20 Flashと同じです。非常に興味深いことです。ご存知の通り、Flashは私のお気に入りのモデルの一つで、そのパフォーマンスに対する価格は信じられないほどです。
OpenAIが自社のモデルと比較してパフォーマンス特性をどのように説明したかを信じるなら、4.1 Nanoについては非常に混乱しています。彼らが20 Flashと競合するモデルを作ろうとしていることは明らかですが、20 Flashは非常に賢いです。V3よりも賢いです。
一般的に、この任意の平均指数では、40はかなり賢いですが、Gemini 20 Flashと比較してもそれほど賢くはありません。Boroは50ポイント、Flashは48.09ポイントで、40が30倍以上の価格であるにもかかわらず、互いに近い数値です。
40 Miniはかなり愚かです。4.1 Nanoが40 Miniよりも賢ければ、Flashと競合するのは理にかなっています。しかし現時点では、私は新しいモデルのうち、触れる価値がないモデルだと思います。彼ら自身の図でも、ラベルのない洗練されたAppleスタイルのチャートで、4.1 Nanoは40 Miniよりも愚かいと言っています。
つまり、Flashと同じくらい高価ですが、40 Miniよりもはるかに愚かで、Gemini 20 Flashよりもはるかに愚かいです。私はNanoには現在のところ理論的なレイテンシー以外の使用例はないと思いますが、そこでも苦戦しています。
レイテンシー数値を比較するためにOpen Routerを使用しています。彼らは実際の本番トラフィックを使用して平均を取っているからです。Nanoのレイテンシーは約43秒で、トークンの受け取りが始まるまでにそれだけの時間がかかり、秒間136〜137トークンです。Gemini 20 Flashと比較すると、ライトバージョンではなく標準の20 Flashでも、レイテンシーは接近しており、スループットは高いです。私は混乱しています。このモデルの役割が何なのかわかりません。
これが私が混乱している理由です。私の価格チャートに戻ると、20 Flashは入力10セント、出力40セント、より愚かい4.1 Nanoも入力10セント、出力40セントです。Flashlightは依然としてその価格では最高ですが、20 Flashに非常に近いので、Lightに触れるのを正当化するのは難しいです。
これらのMiniとNanoモデルについては少し混乱しています。Miniは理解できますが、価格の上昇は少し奇妙に感じます。私が4.1 Miniを他のものの代わりに使う唯一の理由は、推論を望まず、OpenAIがより良く統合するツールや機能へのアクセスを持つ高速な応答を望む場合です。
これは実際に、これをカバーするときに話す必要がある重要なことの一つです。モデルは良くも悪くもさまざまなことに対して得手不得手があります。モデルを良くするものの一つは、その一般的な知能です。これを複数のカテゴリに分けることができると思います。
知識があります。どれだけのものをトレーニングしたか。これが4.5をとても賢くしたものです。膨大な量のデータでトレーニングされたので、以前のほぼどのモデルよりも世界についてより多くを知っています。しかしそれだけでは十分ではなく、知能はデータの量だけではなく、それをどれだけうまく適用できるかです。
データモデルをトレーニングしたら、モデルの能力があります。例えば、推論のようなものです。これにより、モデルは持っているデータに基づいてより賢い決定を下すことができますが、知らないことは知りません。
データのカットオフはいつだったのでしょうか？2024年のスーパーボウルの勝者を尋ねても、2023年までしかトレーニングされていなければ、推論がどれだけ優れていても意味がありません。より良い推測ができるかもしれませんが、より多くのデータを持つモデルの方が正しい答えを出す可能性が高くなります。特にデータがより最新であれば。データを持っていないことには勝てませんが、データを持っていたらどれだけ賢く扱えるかが問題です。
4.1は4.5ほど多くのデータを持っておらず、それに近いものもありません。カットオフはより最近で、推論もありません。彼らが一般的な知能の分野で行ったすべてのことは、推論層の改善、構築方法の改善、そして100万のコンテキストウィンドウが示すように、このモデルでは非常に異なることを行っていることです。
次に、ドメイン固有の知能があります。これは科学、数学、コードなどにどれだけ優れているかということです。4.1はいくつかの分野、特に数学と重要なことにコードで大きな飛躍を遂げています。OpenAIは歴史的にこれらのカテゴリの両方で苦戦してきました。
本当に難しい技術的な問題を解決する必要があるとき、O3 Miniはそれを手助けし、これらの難しいことを考え抜くことができますが、それらの難しい問題を超えると、特に素晴らしいわけではありません。推論の組み合わせにより、かなりの時間答えが得られないこと、コードの日常的な知識の欠如などがあります。
自動補完やタブ補完の経験としては良くないでしょう。UIの構築も素早くは行えません。しかし、奇妙なスクロールコンテナの問題や奇妙なデータベース管理などの手助けが必要な場合、または異なるアーキテクチャについて話しているだけの場合、O3 Miniは本当に良いと思いましたが、日常的なコードの解決には優れていませんでした。
コードで歴史的に勝利してきたのはClaudeです。Claude 3.5だけでなく、昨年末に再リリースされた3.5、つまり3.6と名付けられたものです。3.5は歴史的にここでの勝者でした。Anthropicはコードで勝つために超一生懸命に取り組んでおり、これまでのところ成功しています。これは彼らがプレミアムを請求できる理由の一つです。
しかし、彼らがプレミアムを請求できるもう一つの理由があります。これは私が強調したい最も重要な部分の一つです。ツールコールです。ツールコールは現時点でモデルが賢くなるために不可欠です。ツールは、AIにアクセスを提供するものの一般的な用語であり、処理して何かを行うことができる特定のテキストを吐き出すことで実現します。
例えば、天気をチェックすることがあります。ユーザーが「今日はどんな服装をすべきか？」と尋ねると、AIはあなたが構築したツールを呼び出し、あなたの地域の天気をチェックし、応答を取得し、その応答を使用して答えを生成することができます。
ツールコールは特に巨大なコードベースに対して非常に重要です。特定のファイルにアクセスする必要がある場合、この変数を参照するすべてのファイルを見つける必要があるかもしれません。Cursorのようなツールがあれば、AIは関連するすべてのファイルがどこにあるかを尋ねることができ、それらのファイルを提供し、それらに対して操作を行うことができます。ファイルの更新、変数の変更、タイプのチェック、エラーの読み取りなどのツールがあります。
これを取り上げる理由は、ツールコールで支配的なモデルが一つあったからです。Claudeは断然トップで、ツールコーリングの王者です。彼らがプレミアムを正当化できる理由だと言っても過言ではありません。ツールに関してClaudeがこれほど優れていなければ、彼らは価格を全く正当化できず、すでに負けていたでしょう。
しかしClaudeはツールに優れ、またコードでもうまくトレーニングされているため、Anthropicはこの開発者重視の方向に非常に力を入れています。Claude Codeはその良い例です。
4.1はOpenAIの反撃です。コードの知識、数学の知識、そして最も重要なツールコールなど、4.1は素晴らしい成績を収めています。
ツールコールに関するもう一つの注意点は、推論がここで害を与えることです。推論はモデルが正しい答えを生成する可能性を高めますが、推論には興味深い副作用があります。それは自分自身ともっと会話し、より多くの情報を作成し、真実でないかもしれないことを自分自身に納得させる可能性があります。
その結果、ツールコールで独走する可能性があり、3.7推論のような推論モデルが基本的なことに対して何十ものツールコールを行う例をたくさん見てきました。それらを持っているからです。常にすべてをチェックします。
そのため、推論モデルにツールへのアクセスを与えても、必ずしも良い答えが得られるわけではありません。そのため、Cursorのようなツールを使用する場合、多くの開発者（私を含む）は推論モデルよりも非推論モデルを使用する傾向があります。
Cursorでは、ファイル内の特定の難しい問題を解決する場合にのみO3 Miniを使用します。変数を更新したり、関数の使用方法を変更したりする場合は、3.5や他の同様のモデルを使用します。
最近ここで本当に勝っている別のモデルがあります。Gemini 2.5 Proです。2.5 Proは、コードに関するClaudeの支配が実際に打ち破られることを証明した最初のモデルだと言っても過言ではありません。
2.5は一般的なコードに関しては同等かそれ以上に優れており、Googleのツールコールにも意味のある改善が見られます。どのようなツールをいつ呼び出すか、戻ってくるデータの使用に関してはまだClaudeほど優れているわけではありませんが、大幅に改善しており、IDEでの実用的な選択肢となっています。
Geminiに移行した人をたくさん知っています。私自身もそうしようと計画していましたが、残念ながらコーディングに多くの時間を使えませんでした。次の数ヶ月の開発は、新しいモデルが出ない限り、2.5 ProとChat GPT 4.1で行う予定です。
もう一つの楽しい呼び出しは、4.1が40とほぼ同等でありながら83%安いことです。
こちらはコードセクションです。4.1はコードで大幅なジャンプを遂げており、O3 Miniよりも優れたパフォーマンスを示しています。その多くはおそらくツールコールによるものであり、自分自身を洗脳するための推論ではありませんが、これらのベンチマークで本当に良いパフォーマンスを示しています。以前はそうではありませんでした。今ではClaudeの最高に迫る勢いです。
大きなファイルを編集したいAPI開発者にとって、4.1はさまざまなフォーマットでのコード差分において非常に信頼性が高いです。これはエディタにこれを構築するための大きな取引です。すべてのAI IDEが4.1にすぐに飛びつきました。これが私が使い始めた理由の一部です。
彼らは特に4.1を差分フォーマットにより忠実に従うようにトレーニングしました。これにより、開発者は全体のファイルを書き直すのではなく、変更行のみを出力するようにモデルを設定することで、コストとレイテンシーの両方を節約できます。
独自のAI開発ツールや、GPT4.1を使用したアーティファクトのようなものを構築しようとしている場合、これは非常に重要です。ファイル全体を再生成してエディタに適用する必要はなく、差分を取得してgitの他の差分と同じように適用できます。これは非常にクールな機能です。
また、1回の呼び出しで出力できるトークン数の制限を2倍にしたこともあります。これも大きな変更です。面白いことに、差分を使用すると、実際に全体的な精度が向上しました。他のモデルではほとんどの場合、差分を使用するとパフォーマンスが低下します。
そのため、実際にこれが非常に優れていることが明らかです。結果として、生成するトークンがはるかに少なくなり、支出も大幅に減少します。これは大きな勝利です。
彼らは両方のモデルで同じアプリを作成した例を示しており、明らかにはるかに見栄えの良い体験を作り出しています。異なるフォントを完全に処理でき、周りを飛び回るときに本当に洗練されたアニメーションがあります。全体的に非常に良く見えます。
これが元のものですが、まだかなり洗練されたアニメーションがありますが、UIは大幅に劣っています。クリックゾーンが間違っており、サイドバーがなく、乱雑です。これが40でコーディングを試みたときの私の経験です。単に良くありませんでした。4.1は大幅に良くなっています。
また、マルチ言語リクエストもよりうまく処理しているようです。良いプロンプトです。このテストが好きですが、これらは単なる楽しいテストであり、もっと多くのテストがあります。
私の個人的なお気に入りは常に六角形テストです。それは素晴らしいテストではないかもしれませんが、楽しいです。4.1はそれをかなりうまく処理しました。印象的です。このテストを考案したFlavioは4.5の大ファンであることは興味深いです。
多くの人から聞いたことがないのが残念です。彼らは4.5について言及している点が特に残念です。彼らは4.5を廃止すると述べています。少なくとも発表中に言ったのは、GPUがもっと必要だからです。彼らは他のすべてのものへのアクセスを提供し、そのための十分な情報を持つために、4.5プレビューはまもなくAPIから削除されるでしょう。この移行を行うまで2025年7月までの期間があります。
4.5はとても高価なので、多くの人が使用していたとは思いません。彼らがこれを確実に追加しているのは、数字が逆を示しているからだと確信しています。
先ほど言ったように、これらはすべて楽しくて奇妙なベンチマークで、実際の使用状況を示しているわけではありません。何が実際の使用状況を示すかというと、エディタです。Windsurfと密接に協力しているようです。おそらくClaudeがCursorと密接に協力しているからでしょう。理解できます。企業のこうした政治的なやり取りがどのように機能するかわかります。
Windsurfは早期アクセスを得て、4.1がWindsurfの内部コードベンチマークで40よりも60%高いスコアを獲得したと述べています。これは、コードの変更が最初のレビューで実際に受け入れられる頻度と強く相関しています。ユーザーは、ツールコールで30%効率が良く、不必要な編集の繰り返しや狭すぎる増分ステップでコードを読む可能性が50%低いことに気づきました。これは大きな勝利であり、使用不可能なものから実際のClaudeとの競争に変わりました。
Quottoも同じプロンプトと条件で200の実際のPRに対してテストを実行しました。4.1は55%のケースでより良い提案を提供しました。3.7と比較して55%のケースでの勝利は面白いですね。つまり、ほぼ互角になりました。ここでClaude 3.5がどのように機能したか気になりますが、このベンチマークが含まれていて、ここでClaudeという言葉を言わずに、55%のケースでパフォーマンスを発揮していることは、彼らが明らかにAnthropicに応答しようとしていることを示しています。Anthropicという言葉を言わずに。彼らは非常に興味深い立場にいます。
それがコードのパフォーマンスです。ツール関連の部分についても説明したいと思います。これが全体的にはより大きな勝利だと思います。また、このモデルがAPIでのみ提供される理由の大きな部分でもあります。このモデルは、コードに関する会話を排他的に行っていない限り、チャットUIではそれほど有益ではないからです。
これはChat GPTのウェブサイトでのデフォルトモデルとしては意味をなしません。特にForoには画像生成、音声生成など、人々が求めているような多くの高度な機能があるときは。しかし、チャットアプリで扱う必要のない指示は、エディタでは必要になります。これはAPIを通じて利用可能であるため、T3 Chat、Windsurf、Cursorなどのツールに統合できます。
これもエディタだけでなく、インフラストラクチャを必要とするさまざまなことを行うAIアプリを構築する場合にも有用なツールコールの理由の一部です。
4.1はより信頼性高く指示に従い、さまざまな指示フォローの評価で大幅な改善を測定しました。指示フォローの内部評価を開発し、いくつかの次元と指示フォローのいくつかの主要カテゴリにわたるモデルパフォーマンスを追跡しました。
フォーマットフォローを含む：モデルの応答のカスタムフォーマット（XMLやYAML、Markdownなど）を指定する指示を提供します。AIからツールを操作するためのフォーマットとしてXMLを使用している場合、XMLのフォーマットにより忠実に従うようになりました。
もう一つの大きな変更は、ネガティブ指示です。これは、「サポートに連絡するよう依頼しない」「この機能を使わない」「ここからインポートしない」というような、モデルが避けるべき動作を指定できるようになりました。
正直なところ、モデルに何かをしないように言うと、それがコンテキストに入るので、より行う可能性が高くなるように感じることがありました。今はネガティブ指示にはるかに良く従います。また、「まず1を行い、次に2、そして3」と指示した場合の順序指示にもより良く従います。
コンテキスト要件も大きな変化です。例えば、「栄養プランを書く時は常にタンパク質の量を含める」というようなものです。これはモデルに出力すべきことを伝え、その情報が含まれる可能性が高くなると知ることが非常に有用です。
ランキングも大きな問題です。AIにリストを出力させたが順序が間違っていた、そして過度の自信がある、ということが何度あったか言えません。今はモデルが、要求された情報が利用できない場合や、リクエストが特定のカテゴリに当てはまらない場合には「わからない」などと言うよう指示されています。「答えがわからない場合はサポート連絡先メールを提供する」など、これは非常に重要です。
ウェブサイトにサポート質問を尋ねるためのボットを構築する場合など、AIで実際のソフトウェアを構築している場合、これらはすべて大きな勝利です。単なるチャットアプリではなく。とはいえ、私たちもチャットアプリを構築していますが、これにも非常に役立っています。
Advent of Code 2021の3日目をPythonで解くと、非常に高速です。パフォーマンスに驚いています。OpenAIのモデルは歴史的にそれほど高速ではなかったのですが、彼らはそれに侮辱を感じ、今修正しているようです。
フォーマットに関して特に変わったことはありません。他のOpenAIモデルよりも改行を好むことに気づきました。それらの一部はすでに強い好みを持っていました。良いことです。まだ十分に使用していないので、どんな感じなのかはまだ言えませんが、これまでに試したすべてのコード関連のことにはうまく対応しています。
彼らはこれらすべてのことでモデルを改善したと言っていますが、測定値はありますか？はい、ここに彼らの内部指示フォローの評価があります。面白いことに、O3 Miniは推論モデルであるにもかかわらず、指示に従うことに実際にかなり優れていました。
4.1は40と比較して大幅な改善を示しています。40は指示に従うことが得意ではありませんでした。4.1はいくつかの推論モデルと同様に高価なモデルと同等に優れています。4.1 NanoとMiniはそれほどではありませんが、Miniは予想していたよりも優れています。Nanoモデルは好きではありません。間違っているかもしれませんが、現時点では良い印象を受けていません。
マルチターンの指示フォローは多くの開発者にとって重要です。会話の深い部分で一貫性を維持し、ユーザーが以前に伝えたことを追跡することがモデルにとって重要です。
私たちは4.1が会話の過去のメッセージから情報をより上手く選び出せるようにトレーニングしました。これにより、より自然な会話が可能になります。Scaleのマルチチャレンジベンチマークはこの能力の有用な測定です。4.1は40よりも10.5%優れたパフォーマンスを示しています。
良い改善ですが、いくつかの場面で4.1がO3よりもはるかに優れていたことを考えると、革命的なものではありません。推論モデルではないモデルの改善を見るのは素晴らしいですが、まだそれほど大きくはありません。
こちらは実際の企業からの実際の例です。4.1は、税金AIであるBlue Jの内部ベンチマークで40よりも53%正確でした。素晴らしい仕事です。正確さはシステムのパフォーマンスとユーザー満足度の両方にとって重要です。
4.1の複雑な規制の理解の向上と、長いコンテキストにわたる微妙な指示に従う能力が強調されています。アメリカの税制を修正するためにこの時間をすべて費やす代わりに、それを理解するためのAIを構築することを想像してみてください。ここの税金はひどいです。ちなみに、ストリームの後に多くの書類を提出する必要があります。
PEXはSQLの何かです。エンドツーエンドでより迅速に。詳細な分析。SQLのワークスペースのようです。彼らは最も難しいSQL評価セットで2倍の改善を達成しました。これは指示フォローと意味的理解の大幅な向上を示しています。
再び言いますが、ツールコールを行い、指示に従うものを構築している場合、モデルははるかに優れています。
多くのことへのアクセスといえば、長いコンテキストは、ここで最大の変更です。OpenAIは以前にこのレベルまで意味のあるコンテキストウィンドウの拡大を行ったことはありません。128Kから100万への10倍の増加は非常に大きいです。
面白いことに、ここで初めて、100万トークンは完全なReactコードベース8つ分に相当します。長いコンテキストは大きなコードベースや多くの長いドキュメントの処理に適しています。
とはいえ、これらの大きなコンテキストウィンドウの問題は、すべてをサポートできるかどうかだけではありません。私が多く見てきた大きな問題は、すべてのコンテキストがあると、干し草の中の針のような問題になることです。データが多すぎて、特定の一つのものを見つけるのに苦労することがあります。
彼らは干し草の中の針の問題に対処できることを確認するために多くのテストを行い、その結果は有望です。これは面白いです。これは奇妙に見えるチャートですが、彼らが出したすべてのモデルは、コンテキストウィンドウに関係なく、干し草の中の針を見つけることができたからです。正確さの低下はなく、すべてにわたって100%です。かなり驚くべきことです。
しかし、彼らが言うように、現実世界のタスクは、多くのものの中から単一の明らかな針を見つけるほど簡単ではありません。ここでは、これをテストするためにさらに別の評価「マルチラウンドコリファレンス」をオープンソース化しました。興味深い名前です。
この評価の目標は、よく隠れたコンテキスト内の複数の針を見つけて区別するモデルの能力をテストすることです。つまり、巨大なテキストの山の奥深くにある多くの奇妙なものです。
例えば、「テーパーに関する詩を書いて」や「岩に関するブログ記事を書いて」など。コンテキスト全体に8つの同一のリクエストを挿入します。モデルはそれから「3番目のテーパーに関する詩を教えて」のような特定のインスタンスに対応する応答を取得する必要があります。
これは、リクエストの類似性のため特に難しいので、針は干し草のように見えるのです。結果は非常に驚くべきものです。他のモデルと比較して示していませんが、これがGeminiに対してどのように実行されるのか非常に興味があります。自分でベンチマークを実行して調べる機会がありませんでした。
ここで見られるのは、4.1ではコンテキストが巨大になっても、50%以上の正確さを維持していることです。明らかに、これでプログラミングシステムを構築する場合、100%未満は良くありませんが、この改善が重要であるという事実は大きいです。
まず、他のモデルが行える小さなコンテキスト内でも、すでにはるかに高価で高級なモデルよりもはるかに優れています。O1やO3などは、小さなコンテキストでもかなり劣っており、コンテキストが大きくなると実際には何もできないため、パフォーマンスが出ません。
100万トークンまでのこのような奇妙なチャレンジに対して50%以上の成功率を見るのは印象的ですが、再び見ると、4.1 Nanoは良いモデルではないようです。そのモデルについてはまだ非常に混乱しています。
ああ、彼らはこれらのものをトレーニングしテストするためのデータセットも公開しました。それはかなりクールです。幅優先探索テストも非常に良いスコアを獲得しました。4.5ほど良くはありませんが、驚くほど良いです。
また、実際の例として、ロイターが法的業務に使用しました。彼らは複数文書のレビューを17%改善することができました。興味深いですが、そこでは予想していたほど大きなジャンプではありません。
特に、モデルがソース間でコンテキストを非常に確実に維持し、対立する条項や追加の補足的なコンテキストなど、文書間の微妙な関係を正確に識別することがわかりました。これらは法的分析と意思決定に不可欠なタスクです。
Carileは4.1を使用して、複数の長いドキュメント全体から詳細な財務データを正確に抽出しています。彼らは密度の高いデータを持つ非常に大きなドキュメントの検索で50%改善されたと述べています。彼らが何と比較しているのか確認する必要があります。
両方のケースで何と比較しているのか確認すべきです。少なくともロイターの場合、3.7は40と同等のパフォーマンスを示しているようですが、Geminiとのテストはありません。非常に興味深いです。Carileにはソースすらなく、単にホームページへのリンクだけです。素晴らしいですね。Geminiとどのように比較されるのか見たかったのです。
ビジョンも非常に良いようです。OpenAIがそれに優れているのを見るのは素晴らしいことです。とはいえ、Geminiは画像関連のことに本当に優れています。おそらく単にGoogleがGoogle画像プラットフォームやGoogleフォトなどで多くの画像を持っているからでしょう。
GoogleフォトでPEIRSONを検索できると母に見せたときの彼女の表情をまだ覚えています。赤ちゃんの写真が表示されました。Googleはそれが得意です。
価格設定も興味深いです。同じコンテキストを繰り返し渡すクエリのプロンプトキャッシングをはるかに良くしたからです。これらの新しいモデルのプロンプトキャッシング割引を75%に増やしています。つまり、巨大なコードベースをロードして繰り返しプロンプトしている場合、コードの大部分をキャッシュして、それを再評価して高いコストを支払う必要がありません。そうです、キャッシュ入力は価格の4分の1です。これは大きな取引です。
4.1はAIの実用的な応用において重要な一歩前進です。コーディングから指示のフォロー、長いコンテキスト理解に至るまで、実際の開発者のニーズに密接に焦点を当てることで、これらのモデルは知的なシステムと洗練されたエージェンティックアプリケーションを構築するための新しい可能性を開きます。
これは公平であり、Chat GPTとOpenAIでの私の経験から言えば、彼らは開発者を非常に気にかけています。他の競合企業が開発者スペースで成功を収めていることが、彼らをさらに一生懸命働かせているようです。いくつかの本当に良いオープンモデルの構築に注力していることから、ここで彼らが行ったことまで、開発者への重視がわかります。それについては近日中にもっと情報があります。
OpenAIのようなメイン製品がアプリである会社が、画期的なLLMを排他的にAPIでリリースするのはどれほど驚くべきことでしょうか。それは私たちT3 Chatへの無料の贈り物を投げているように感じます。なぜなら、最新のモデルを試したい皆さんにとって、実際に最も簡単な方法はT3 Chatだからです。これはかなり驚くべきことです。
そのため、コードでこれを試してみたい場合は、ここで試してみてください。エディタでも試してみましょう。ほとんどすべてのエディタが、まだサポートしていない場合でも、すぐにサポートするでしょう。
皆さんの意見を教えてください。次回まで、プロンプトを続けてください！