
4,870 文字
信じられないことをお聞きください。GPT-4oに大規模なアップデートがありました。現在、画像生成能力が最高なだけでなく、推論機能なしのコーディングモデルとしても市場でナンバーワンになりました。これは独立したベンチマークで検証されています。Artificial Analysisによると、今日のGPT-4oアップデートは本当に大きなものです。インテリジェンスインデックスにおいて、Claude 3.7 Sonnet(推論機能なし)とGemini 2.0 Flashを追い抜き、現在推論機能なしのコーディングモデルとしてトップに立ちました。
これはコーディングインデックスではなく、インテリジェンスインデックスです。2024年11月のバージョンでは41だったスコアが、最新バージョンでは50まで跳ね上がり、最近登場したDeepSeek V3のすぐ後ろにつけています。なぜOpenAIはGPT-4oのような古いモデルにこれほど時間と労力を費やしているのでしょうか?実は明確な理由があります。
DeepSeek R1の現象を見て、皆がコンピューティングコストを削減するだろうと考えた人は、専門家が説明するジェボンズのパラドックスに耳を傾けるべきでした。物事が安くなるにつれて、私たちはそれをより多く求めるようになります。それが今起きていることです。彼らはGPT-4.5の微調整と改良に必要なGPUさえ十分に確保できていません。小さなスタートアップの話ではなく、Microsoftと提携し何十億ドルもの資金調達を行った大企業OpenAIですら、これらのチップを十分に確保できていないのです。
GPT-4oの改良点はこれだけではありません。詳細な指示、特に複数のリクエストを含むプロンプトに従う能力が向上し、複雑な技術的コーディング問題に取り組む能力が改善され、直感と創造性が向上し、絵文字が減少しました。更新されたGPT-4oは、有料ユーザー全員に既に提供されており、無料ユーザーには今後数週間以内に提供される予定です。
ところで、彼らは既にGPT-4oの画像生成能力にレート制限を導入しなければならなくなっています。その性能は彼ら自身の予想をはるかに上回ったからです。私は既に非常に遅いことに気づいています。数週間前から通常のクエリに対するGPT-4oは、ほとんど使用できないほど遅くなっています。彼らはこれを改善する必要があります。私が日常的に使うモデルを選ぶ際の重要な要素の一つは速度だからです。
今週のもう一つの大きなニュースは、Gemini 2.5 Proの登場です。コーディング能力が素晴らしく、完全な思考モデルでありながら信じられないほど高速です。既に詳細な動画を作成したので深く掘り下げませんが、これは私が今まで使った中で最高のコーディングモデルであり、再度強調しますが超高速です。特にエージェント型のユースケースやコーディングのユースケースにおいて、速度の重要性は過小評価されがちです。現在世界最高の新しいコーディングモデルが登場したわけです。私の自由時間はほとんどコーディングに費やしているので、当然これに興奮しています。
次のニュースとして、Gemini 2.5がWindsurfで利用可能になっただけでなく、Cursorでも利用できるようになりました。私は徹底的にテストする予定です。Gemini 2.5 Proの素晴らしい点は、100万トークンのコンテキストウィンドウを持っていることで、これはClaude 3.7の約10倍です。これがコードベース全体を理解する能力にどのように影響するか見てみたいと思います。私が現在取り組んでいるプロジェクトのコードは100万トークン未満なので、テストしてその結果を報告します。
今週は新しいモデルが登場する素晴らしい週でした。数日前にDeepSeek V3の新バージョンが登場しましたが、発表について大々的に宣伝されませんでした。V3シリーズの新しいチェックポイントであり、完全に新しいモデルではありませんが、コーディング、数学、ロジックに優れており、高速でオープンソースです。ダウンロードも可能ですが、巨大なモデルなのでローカルでの実行は難しいかもしれません。
スコアを見てみましょう。縞模様の濃い青がDeepSeek V3、前のDeepSeek V3、Qwen Max、GPT-4.5、Claude Sonnet 3.7と比較しています。これを新しいGPT-4oと比較するのも面白いでしょう。思考機能のないDeepSeek V3が、他のすべてのフロンティアモデルと比較して非常に優れたパフォーマンスを示しています。GPT-4.5とClaude 3.7は両方クローズドソースですが、特に数学においてDeepSeek V3は素晴らしいスコアを示しています。AMY 2024のスコアでは、比較対象の他のモデルを圧倒しています。しかもオープンウェイトで、非常に寛容なMITライセンスに切り替えたので、ダウンロードして楽しんでください。
Arc Prize社がARC AGI 2をリリースしました。これは彼らの新しいベンチマークで、モデルのAGI能力をテストするものです。スコアを見ると、現在O3 Lowが最高スコアを記録しています。ARC AGI 1では75.7%のスコアですが、ARC AGI 2ではわずか4%です。O3 Lowのタスク1つあたりのコストは$200です。ARC AGI 1では人間パネルが98%のスコアを獲得(完璧ではない)、ARC AGI 2では100%を獲得しています。人間が完璧なスコアを獲得できるのに、最高のモデルでもスコアが低いというのは、AGIをテストするための理想的なベンチマークです。人間のタスク1つあたりのコストは$17です。O1 Highは$445で、それ以下のモデルもあります。
ARC Prizeベンチマークに馴染みがない方のために説明すると、これは一つの理解を取り、それを他のものを理解するために外挿する能力を必要とするタスクです。例えば、30×30のグリッドがあり、区切り線があり、ここに色や四角があり、真ん中に灰色のブロブがあります。二つの例示入力と出力の間のパターンを探し、それを再現するのが目的です。試してみたい方は、下のリンクからどうぞ。これは人間には簡単だがAIには非常に難しいはずです。100万ドルの賞金があるので、Arc Prizeの新しいベンチマークおめでとうございます。
次に、ZapierがMCPを発表しました。これは基本的に10,000のツールを一度に使えるようになるものです。MCPに登録し、使いたいアプリを設定すれば、MCPサーバーURLが提供されます。私はZapierの大ファンで、長年使っています。自動化に最適で、エージェントやAIを直接接続できるようになったのは素晴らしいことです。
それだけではなく、OpenAIもMCPを採用しました。MCPはすぐに標準になりつつあり、現在はエージェントAPIの一部になっています。MCPを使用してエージェントにツールを提供できるようになりました。さらにMCPはMicrosoftにも採用され、Copilot StudioでModel Context Protocolが導入されました。エージェントがどこにあっても、MCPを使用できるようです。これはAnthropicにとって大きな勝利です。業界全体の標準とはいえ、標準を作った人が優位に立つことができます。
今週はテキストから画像への生成が話題を独占しました。GPT-4oがテキストから画像で話題をさらっただけでなく、RevAIもテキストから画像を発表し、非常に優れた結果を示しています。テキストはすべて正確で、さまざまなスタイルも素晴らしいです。塩ブロック上のステーキのリアルな画像や、自然、よりアーティスティックなものなどがあります。Artificial Analysisのランキングによると、Reev Image 1.0は100,000人のユーザー投票に基づく品質で高くランクされており、Half MoonはReevです。
そして今週はテキストから画像の週でもありました。Adioが3.0をローンチし、これも素晴らしい出来栄えです。もちろんAdiogramは彼らがELOレーティングで最高スコアを記録していると言っていますが、リミックス、アップスケール、スタイル設定などができるので、高度に制御可能で素晴らしいです。これらの画像を見てください。美しく超リアルで、多くのコントロールが可能です。今週はGPT-4oが多くのメディアの注目を集めましたが、他にも素晴らしい画像モデルが複数リリースされたので、ぜひチェックしてみてください。
OpenAIに話を戻すと、彼らは今やお金を印刷しています。まだ赤字ですが、CNBCによれば、OpenAIは今年の収益が3倍の127億ドルに達すると予想しています。AIは減速していません。たまに「これは一時的なブームだと思いますか?」「この投資は価値を生まないのでは?」と質問されますが、その可能性は全くありません。私は明らかに非常に偏っており、人生をこれに捧げていますが、個人的な一つのデータポイントとして、これらのAIツールから得られる価値は膨大です。私のチームは毎日これらのツールを使い、家族も私が紹介したので毎日使っています。実際の問題は教育の問題だと思います。人々は何が可能かを知らないのです。これが私が解決しようとしている問題です。世界中の誰もがこれらのAIツールの使い方と最大限活用する方法を理解できるようにしたい、それが私のミッションです。
OpenAIについて他にもいくつか注目点があります。今週初め、OpenAIは経営陣の重要な変更を発表しました。Sam Altmanは日常業務から離れ、研究と製品開発により注力し、最高執行責任者のBrad Lightcapの役割が拡大し、ビジネスと日常業務を監督することになります。先月、ソフトバンクはOpenAIに2,600億ドルの評価額で400億ドルを投資する予定であり、これにより同社は史上最も価値のある非公開企業の一つになります。
次に、QwenがQVQ Max Think with Evidenceをリリースしました。これはビジュアル推論モデルでオープンソースです。これらの中国企業がすべてをオープンソース化していることは、米国企業を本当に見劣りさせています。私はオープンソース化を本当に評価しています。自分でモデルを入手すれば、好きなようにAIを作ることができるからです。このモデルは画像や動画の内容を理解するだけでなく、この情報を分析し推論して、数学の問題から日常的な質問、プログラミングコードから芸術的創造まで、解決策を提供することができます。QVQ Maxは印象的な能力を示しています。
例として何ができるか見てみましょう。この2つの画像をアップロードして、「これら2つの写真に描かれているシーンの関係は何ですか?」と聞いてみます。これはビジョン機能を持つ思考モデルなので、現在考えていることがわかります。そして答えが得られます。唯一の問題は、Qwenが米国のユーザーに開放されていないことです。使用するには中国ベースの電話番号が必要です。しかし心配はいりません。このモデルは米国ユーザーが利用できるインファレンスプロバイダーに導入される予定ですし、自分でダウンロードすることもできます。これも比較的大きなモデルなので、ローカルでの実行は難しいかもしれませんが、量子化バージョンが出るかもしれませんし、優れたプロバイダーがすぐに対応してくれることを願っています。
今週のニュースは以上です。この動画が気に入ったらいいねとチャンネル登録をお願いします。


コメント