OpenAI、ChatGPT 4.5を廃止!ChatGPT 4.1は全てを変える爆弾

AGIに仕事を奪われたい
この記事は約13分で読めます。

7,747 文字

OpenAI SUPPRIME ChatGPT 4.5 ! Le 4.1 est une BOMBE qui change TOUT
Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! la...

新しいChatGPTモデル、ChatGPT 4.1がリリースされました。このまったく新しいモデルはChatGPT 4.0または4と比較してほぼすべての面で優れており、はるかに低コストです。昨晩、X(旧Twitter)上のAI界隈は大騒ぎで、誰もがこの話題について語っていました。OpenAIは徐々に注目を集め、ライブ配信を予告し、サム・アルトマン自身も暗号めいたメッセージを投稿して新しいものが来ることを匂わせていました。
2日前には、OpenAIが超強力なモデルをリリースする準備をしているという情報が漏れていました。自律的に新しい科学的アイデアを開発できる、真のAIエージェントが研究を行うというものです。OpenAIはこれを月額2万ドルまで課金することも計画していると言われています。これは完全に常識外れですが、本当に研究を行うAIならば、月2万ドルも正当化されるかもしれません。しかし今回発表されたのはそのモデルではなく別のモデルです。今日紹介するものはOpenAIから今週発表される多くの発表の最初のものに過ぎません。
今日はChatGPT 4.1について見ていきます。これは現在APIを通じてのみ利用可能です。これには理由があり、後ほど説明します。一般ユーザー向けの従来のChatGPTインターフェースには数日または数週間以内にリリースされる予定です。また、このモデルの発表を受けて、ChatGPT 4.5は4.1に代わって廃止されつつあります。これは大きな問題で、後ほど詳しく説明します。
昨晩、私はOpenAIの発表動画を翻訳しました。その中で多くの発表がありましたが、それを今日レビューしていきます。彼らがライブで見せたデモ、ベンチマーク、公式発表を見て、私の見解をお伝えします。
まずはブログ記事「APIにおけるChatGPT 4.1の紹介」を見てみましょう。今日このモデルがAPIを通じてのみ利用可能であることは非常に特殊です。開発者でない方は「APIとは何か?」と思うかもしれません。簡単に言えば、ChatGPTを使用する別の方法です。ここに表示されているプレイグラウンドのようなものですが、皆さんが慣れているような従来のウェブサイトやチャットではありません。APIは開発者向けのインターフェースで、使用するにはコードを書き、OpenAIのサーバーにリクエストを送信し、自分がコーディングしたソフトウェアでAIの回答を受け取る必要があります。
もちろん誰でもアクセスできますが、より技術的で時間がかかり、設定が複雑です。開発者でないユーザーは面倒なことをしなくても大丈夫です。ChatGPT 4.1は今後数日または問題が見つかればもう少し時間をかけて、従来のアプリケーション(通常のChatGPT)にも統合される予定です。
ChatGPT 4.1は3つのモデルのファミリーです:ChatGPT 4.1、ChatGPT 4.1 Mini、そして4.1 Nanoです。これはOpenAIの歴史で初めて、非常に高速で経済的なNanoバージョンが登場し、100万トークンというコンテキストを持っています。これは膨大なものです。この分野に詳しい方なら、OpenAIの大きな弱点の一つが長い間コンテキストウィンドウのサイズが限られていたことをご存知でしょう。特に一部の先進的な競合他社と比較するとそうでした。しかし、この新しいモデルでOpenAIは明らかにコンテキストウィンドウの限界を突破しました。100万トークンのコンテキストウィンドウは膨大です。後ほどベンチマークで具体的に見ていきましょう。
「これらのモデルはChatGPT 4OとChatGPT 4Oを上回り、コーディングと指示の遵守において大きな改善があります」と彼らは言っています。拡張されたコンテキストウィンドウの効率的な使用に本当に取り組んできたようです。後ほど具体的に説明します。
もう一つ重要な詳細は、このモデルの知識ベースが2024年6月まで更新されていることです。これは偶然ではなく、トレーニングが停止した正確な期間を教えてくれます。このようなモデルで作業する場合、このような情報は大きな違いを生みます。
パフォーマンスに関して、ベンチマークは非常に明確です。こちらは開発者にとって非常に重要なベンチマークを見てみましょう。「コーディングにおいて、GPT 4.1はSWE-benchmarkで54.6%のスコアを獲得し、GPT 4と比較して21.4%、GPT 4.5と比較して26.6%の向上を示し、コーディングにおける新しいフロンティアモデルとなりました。」これは驚異的です。
皮肉なことに、4.1は現在4.5よりも優れていることになります。これはOpenAIの命名システムを非常に混乱させています。彼らがモデルにこのような名前を付ける理由を誰も理解していません。意味がありませんが、とにかく先に進みましょう。
ChatGPT 4.1はプログラミングにおける新しい標準になります。彼らは中途半端なことをせず、発表のライブストリーム中にWindsurf(ウェブコーディングを可能にするソフトウェア)のCEOであるVerumを招待しました。彼の介入についてはすぐ後で見ていきます。
MMLUベンチマーク(モデルに与えた指示に従う能力を評価するベンチマーク)では、ChatGPT 4.1は38.3%のスコアを獲得し、前バージョンから10.5%向上しています。OpenAIは独自の指示遵守ベンチマークも公開しており、後ほどそのスコアをお見せします。
長いコンテキストのための最後のベンチマークでは、この新バージョンが100万トークンのコンテキストを持つことが発表されています。これをベンチマークでテストすることは非常に重要です。長いコンテキストをテストするMMEベンチマーク(基本的にAIに多くのビデオを与えてそれらについて質問するベンチマーク)では、ChatGPT 4.1は字幕なしカテゴリで72%と、どのモデルよりも高いスコアを獲得し、ChatGPT 4と比較して6.7%向上しています。
これは非常に印象的ですが、Llama 4の発表と、その後の大失敗を覚えている方もいるでしょう。彼らは信じられないコンテキストを約束しましたが、最終的にユーザーがテストしてみると詐欺だったのです。そのため、このモデルが独立したベンチマークでどのように動作するかも実際に見てみたいと思います。最新情報を知りたい方は、私のXアカウントをフォローしてください。そこでは最新の分析を分単位で行っています。
彼らはレイテンシ(応答速度)に関するグラフも提供していますが、その前に、なぜOpenAIがChatGPT 4.5を撤回し、このモデルを4.1と名付けたのかについてお話しましょう。OpenAIのプロダクトディレクターであるKevin Will(昨晩このモデルを発表した人物)によると、彼らはより多くのGPU(グラフィックカード)、より多くの計算能力を必要としているからだそうです。
これは驚くべきことです。今までは4.5というマッシブで遅いモデルを動かすために大量のGPUを持つ巨大なデータセンターが必要でした。現在は、4.1モデルを少なくとも使用可能にするためにこれらのカードを必要としています。つまり、彼らは持っているチップの数に制限されており、すべてのモデルを同時に実行するのに十分なグラフィックカードがないのです。そのため、GPT 4.5はAPIからまもなく削除されます。
しかし、これがモデルの終わりとは思いません。4.5は本当にパワフルなモンスターで、非常に重く、実行コストが高く、現時点では遅すぎますが、非常に有望なモデルでもあります。彼らは裏でモデルの最適化、コスト削減、レイテンシの改善を続け、より洗練されたバージョンとして後で再リリースするか、より多くのグラフィックカードを入手したときに再リリースすると確信しています。
私の考えでは、彼らはXXL betaのように単に早すぎるタイミングでリリースしてしまいました。ペーパー上では印象的ですが、まだ大規模な日常使用に適していません。もう一つの見逃せない要因はGPUの不足です。生成AIブームから数年経った今でも、AIのための特殊なグラフィックカードを探しています。Nvidiaは依然として供給に追われており、より多くのカードを生産するために何十億ドルも投入しているにもかかわらず、十分な量を供給できていません。これは産業的な需要が、テック業界で長い間、というかこれまで見たことがないほど高いことを意味します。
ChatGPT 4.1に戻りましょう。興味深いのは、このモデルが非常に具体的な使用目的のために特別に訓練されたことです。前述したように、彼らは開発者コミュニティと連携し、Windsurfとも協力しました。Cursor、Replit、その他のコーディングツールを提供する企業とも協力したかどうかは分かりませんが、開発者コミュニティと協力して、このより優れたモデルを提案したことは確かです。
このグラフを見てください。まず、開発分野で非常に重要なデータであるレイテンシ(モデルが応答する速度)について話しましょう。Y軸には知能(ベンチマークスコア)があり、X軸にはレイテンシがあります。このグラフは単位がなく、単に「レイテンシ」とラベル付けされているだけなので、完璧ではありませんが、相対的に見て、ChatGPT 4.1 Nanoは他のすべてのモデルよりも知能は低いですが、はるかに高速であることがわかります。
次にChatGPT 4.1 Miniですが、これもレイテンシが非常に小さく、4 Miniと比較してはるかに知能が高いようです。実際、4に非常に近いレベルになっています。4 Miniと比較して大幅な改善があり、4 Miniとほぼ同じレイテンシでありながら、現在は4と同等のパフォーマンスを示しています。繰り返しますが、ここでの軸は目盛りが付いていないため、正確な比率が分かりませんが、応答速度に大きな改善があることは明らかです。
彼らはこのグラフについて、ChatGPT 4.1 Miniが知能面でChatGPT 4と同等かそれ以上であり、レイテンシを約半分に減らし、コストを83%削減していると説明しています。これは驚異的です。APIでプログラミングする場合、コストはスライドに載せる単なる数字ではなく、本当に重要な要素です。ここで話しているのは、時々質問を入力する単一のユーザーではなく、AIに継続的に何千もの質問を送信する大規模な自動化システムです。この文脈では、価格のわずかな変動でも請求書が文字通り爆発する可能性があります。OpenAIはここで非常に強力な一手を打っていると思います。
さらに、コストについて言えば、ファミリー内の各モデル(完全なモデル、Mini、Nano)は、追加料金なしで100万トークンのコンテキストに直接アクセスできます。これは重要です。なぜなら、ほとんどの競合他社では、より大きなコンテキストウィンドウで作業したい場合、プレミアム料金が発生するからです。しかしここOpenAIでは、発表によれば、消費したトークンの分だけ支払えば良いようです。
これは私が大好きな部分です。彼らが言うには、指示の遵守、コンテキストの長さ、理解などにおけるこれらの改善はすべて、これらのモデルをエージェント(ユーザーから独立してタスクを実行するAIシステム)を動かすのにはるかに効果的にしています。これを聞いて、すぐに思い浮かぶのは、Crew UIやJames Sparkなどのエージェントシステムの構築に関連するもの、または最近私が教えたVibe Coding(このようなモデルを取り、Windsurfなどを通じてエージェントソフトウェアでラップすること)です。このようなモデルをそのまま使うのではなく、Windsurfなどのツールと組み合わせるということです。他にもCursor、Replitなどがありますが、この分野の台頭を見るのは非常にエキサイティングです。
だからこそ、私はChatGPT 4.1に関して非常に楽観的です。Vibe Codingを大幅に改善すると思うので、それをテストするのが待ちきれません。もちろん、それをテストして、もしご興味があれば、ChatGPT 4.1を使用したVibe Codingの別のデモをお見せすることを約束します。
エージェント、Vibe Coding、超強力だがまだ完全に制御されていないモデルについて話すとき、今日このような技術を採用し、学び始める人々は、遠くから眺めている人々よりも大きなアドバンテージを持つことになります。だからこそ、私は人工知能に関する私の講座を作成しました。非常に具体的にAIを使用する方法を教えています。これは曖昧で空っぽのマスタークラスではなく、さまざまな分野向けのさまざまなAIツールで真の自律性を与えるために設計された100%実践的な講座です。
現在、講座には1000人以上のメンバーがいますので、サポートに感謝します。そのため、大きなアップデートを続けています。次のアップデートではさらに進んで、高度なビデオ生成、AIによるストーリーテリング、Vibe Codingなどが含まれます。すべてを実際のプロのワークフローに統合する方法も見ていきます。もしこのビデオで見たものがあなたの興味を引いたなら、今こそ遅すぎる前に学ぶ時です。リンクは説明欄またはビデオの下にピン留めされたコメントにあります。
さて、私があまり理解していないことがあります。彼らは「ChatGPT 4.1はAPIを通じてのみ利用可能になります。一方、ChatGPT(おそらく多くの方が使用しているインターフェース)では、これらの改善(指示の遵守、コーディング、全体的な知能)の多くが徐々にChatGPTの最新バージョンに組み込まれ、今後のリリースでさらに統合を続けます」と言っています。繰り返しますが、彼らは最も複雑な方法で物事に名前を付け、自分たちの仕事を本当に複雑にしていますが、とにかく進みましょう。
驚くべき部分を見てください:「また、ChatGPT 4.1が同様のパフォーマンスをより低コストで提供するため、APIで予定されていたChatGPT 4.5の廃止も開始します。ChatGPT 4.5プレビューは3ヶ月後の2025年7月14日に無効になり、開発者は移行に適応できるようになります。」これは大きな頭痛の種だと思います。
続けて、「ChatGPT 4.5はより広範な、より多くのリソースを消費するモデルでの実験と探索のための研究プレビューとして導入されました。開発者からのフィードバックから多くを学びました」と述べています。このモデルが完全に消えるとは思いません。これは巨大なモデルであり、おそらく小さなモデルを蒸留するために使用されるでしょう。実際、このモデル(4.1)を蒸留するためにも使われたかもしれません。4.5からさらに学ぶにつれて、将来的に再び見ることになると強く疑っています。これは固定されたものではないので、心配しないでください。
このバージョンは本当に価値がありますか?このベンチマークを見てください。4.1はここにあるO3 Mini High(思考型モデルの完全版で、最大限の思考を使用)を上回っています。これは完全に驚くべきことです。思考しないモデルが、はるかに高速で安価でありながら、思考型モデルを打ち負かしているのです。
個人的には、これは宣伝の一環ではないと思います。OpenAIはまだLlama 4のような詐欺的な行為はしていません。通常、このようなベンチマークを提供する場合、それらは非常に信頼性の高いものです。ここでは、4.1が思考型モデルでなくてもO3を上回っています。彼らがこのモデルを思考型モデルに変換したらどうなるでしょうか?それは今後見ていくことになるでしょう。
SWE benchを忘れた方のために説明すると、これは良いベンチマークです。モデルにGitHubリポジトリのコード、問題の説明を与え、モデルはそのコードの修正を生成する必要があります。これは存在する中で最も現実的なコーディングベンチマークです。
最後に、プレゼンテーション中のライブデモをお見せしましょう。彼らはこのChatGPTでアプリケーションをプログラミングします:
「フラッシュカードアプリケーションの小さな例があります。ヒンディー語を学んでいますか?はい、取り組んでいます。ここに指示があります。非常に具体的で、カードをクリックすると美しい3Dアニメーションが欲しいと指定しています。GPT 4.0にこの指示を与えると、一部の指示に従い、アプリケーションの一部は機能しますが、GPT 4.1はより良い性能を持つように訓練されています。このモデルは見た目が良く、色を発見し、3Dアニメーションも行えます。コードのフロントエンドにおけるこの改善を本当に評価していただけると思います。この指示だけで完全に機能するアプリケーションが得られるのは印象的です。」
どう思いますか?他にもたくさんのベンチマークや例があります。必要であればコメント欄にリンクを残しておきます。本質的な部分は理解していただけたと思うので、これ以上進む必要はないでしょう。このモデルをWindsurfでテストし、フィードバックをお伝えする予定です。このモデルを使用したチュートリアルビデオをYouTubeにアップロードしたいと思っているので、お見逃しなく。まだの方はぜひチャンネル登録をして、これを見逃さないようにしてください。
講座へのリンクはビデオ下のコメントにもあります。今がこのようなテクノロジーをマスターする理想的なタイミングです。講座では非常に具体的なことを学びます。基本から始めるので専門知識は必要なく、徐々により高度なツールを使用し始めます。Vibe Coding、AIエージェントの紹介、AIによる画像生成、AIとの会話など、多くのことを学ぶことができます。さらに、このフィールドは日々進化しているため、定期的に更新しています。例えば、AIエージェントに関するコースは最近変更があったため、完全に作り直しました。
ぜひ一度覗いてみてください。今が理想的なタイミングです。この動画をご覧いただきありがとうございます。次の動画でまたお会いしましょう。また明日お会いしましょう。
この人工知能に関する分析に興味を持ち、この魅力的な分野での進歩の理解を深めたい方は、人工知能に特化した私のx.comページをご覧ください。そこでは、私たちの日常を変え、未来を形作る人工知能の最新のイノベーションと具体的な応用に関する詳細な分析が見つかります。

コメント

タイトルとURLをコピーしました