
4,796 文字

OpenAIは昨日APIでGPT-4.1をリリースしました。これはClaude 3.7、3.5、Gemini 2.5 Proと競合することを目指す新しいモデルです。少し野心的ですが、見てみましょう。彼らはコーディング、指示への対応、長文脈処理などに改善を加えようとしており、それは少なくとも非常に興味深いものです。また、2つの小型モデルも提供しています。
ここにはいくつかのベンチマークなどがありますが、基本的に彼らはSwedbench Verifiedで良い成績を収め、実際にO3 mini highを上回ったのは少し驚きでした。それ以外は詳しく説明しませんので、興味があれば自分で読んでみてください。
価格設定は入力2ドル、出力8ドルで、これは3.7やGemini 2.5より安いです。100万トークンのコンテキストウィンドウが提供されるのはOpenAIとしては初めてなので、これは良い兆候です。出力も非常に良く、先ほど言及した通り、miniとnanoという2つの小型モデルもあります。
今日は主にGPT-4.1に焦点を当て、後でnanoもテストするかもしれません。このモデルはマルチモーダルなので、テキストと画像の両方を処理できます。今日は画像も試してみるかもしれません。関数呼び出し、構造化出力もサポートしており、ストリーミングなども期待通りです。もちろん、レート制限などもありますが、これは新しいレスポンスAPIを使用しています。
私の計画では、Cursorでこれを試し、いくつかの異なるテストを行い、パフォーマンスを確認します。3.7や2.5との比較もするかもしれません。
まずは、重力と摩擦の影響を受けるボールと回転する六角形から始めましょう。これは何度も見てきたテストなので、ここでエージェントを使用します。4.1を選択して起動し、2.5と3.7との比較も簡単に行ってみましょう。
最初の印象として、かなり速いのが気に入りました。これは2.5 Proよりも速いはずです。なぜなら、これは推論モデルではないからです。いくつかの指示が表示され、NumPyをインストールするよう指示されました。GPT41.pyを作成して適用しましょう。
それでは実行してみましょう。悪くありません、ちゃんと動作しています。これは良い兆候です。これを残して、3.7と2.5との比較をしてみましょう。
3.7を試してみましょう。少し違いますが、かなり良いです。ほとんど同じように感じます。ダークモードではないので、この点では4.1の方が良いと思います。次にGemini 2.5 Proを試してみましょう。
基本的に同じですが、ボールの跳ね方が少し良いように思います。ここではNumPyを使用していませんが、どのモデルもこれをうまく処理しました。ダークモードがあったのでGPT-4.1の方が好みですが、それ以外はこのテストからはあまり区別できません。
次に画像機能を試してみましょう。私のホームページのスクリーンショットを撮り、これを再現してみましょう。Cursorに貼り付けて、プロンプトを作成します:「私のウェブサイトを画像としてアップロードしました。このランディングページを再現してください。適切なフレームワークを使用し、このページのコードを書いてください。」エージェント4.1で送信します。
どのテキストスタックを使用するか見てみましょう。NextJSとCSS、Google fontのPress Start 2Pを使用しているようです。これを実行して、私のホームページと並べて比較してみましょう。
何らかの理由でここで止まってしまいました。Cursorの問題かもしれませんが、待っている間に、プレイグラウンドで小型モデルを試してみましょう。miniを選び、速度を確認するために同じプロンプトを使用します。
Pythonでボールの跳ね返りプログラムを作るプロンプトを試してみましょう。miniの速度は悪くありません。4.1との大きな違いは感じませんが、かなり速いです。次にnanoモデルに切り替えて、さらに速いか確認してみましょう。
そうですね、これは速いです。はるかに速いですね。nanoモデルはよりシンプルなリアルタイム処理を意図しているようです。将来的には、このような非常に速い小型モデルを使ってリアルタイム処理を試してみたいと思います。それは楽しそうですね。
でもCursorに戻って、もう一度試してみましょう。うまくいかなければ、最初からやり直します。
エージェントが再び動き始めました。このページが私のホームページにどれだけ近くなるか見てみましょう。
完了しました。かなり速かったです。1分くらいでしょうか。これはかなり良いですね。私のページと比べると、フォントが少し違いますが、気に入っています。リンクもありますね、それは印象的です。これらのリンクは機能していませんが、スタイルは気に入りました。
簡単な修正を試して、それがどれだけ簡単かを確認してみましょう。本文のテキスト、より具体的には薄緑色のテキストを白にし、他の要素は緑のままにして、ページの背景にマトリックスの雨を追加してほしいと指示してみましょう。
いくつかのエラーが出ていますが、これをコピーして、どれだけ速くデバッグできるか見てみましょう。
すごいですね。白に変わりましたが、マトリックスの雨は少し気が散ります。白は良い感じになりました。マトリックスの雨は止めたいですが、全体的には悪くありません。フロントエンド部分は悪くないですね。
3.7との簡単な比較をしてみましょうか。同じプロンプトを使って、3.7エージェントでやってみましょう。同じセットアップを選ぶか見てみたいです。私たちはNextJSを使用していましたよね?そうですね、ReactとNext.jsを使用するとのことです。
ここで気づいたことの一つは、Claude 3.7が私が使用していた正確に同じフォントを探していることです。curlコマンドでダウンロードしようとしています。それは興味深いですね。
更新後、これは良い感じです。元のものと比べると、これは少し良いように思います。これの方が好きですが、見た目はそれほど悪くありません。同じ美学を持ち、ツールとリンクがあります。全体的に良いですね。わずかに3.7の方が良いと思いますが、4.1もここで良い仕事をしたと思います。
最後に試したかったのは、実際にコンテキストと、コンテキストからの指示にどれだけうまく従えるかということです。Cling AIを使用してテキスト入力から動画を作成するシンプルなMCPサーバーを作成してみましょう。
Cursorでコンテキストをタグ付けしたいと思います。私たちはcloud codeを持っていますので、Cling AIを使いましょう。MCPサーバーを作りましょう。基本的に、いくつかのドキュメントを集めました。
MCPサーバーを構築してcloud codeに対応させます。TypeScriptでMCPサーバーを作成したいと思います。これはcloud codeによって実行され、最終的にはreplicateAPIを引数として追加します。MCPサーバー自体は、ビデオを生成する引数として文字列を取る機能を持ち、ディレクトリフォルダ内の画像もプロンプトの一部になるはずです。基本的に、MCPサーバーはビデオを生成するツールを持つべきです。このMCPサーバーのコードを書いて、それが機能するかテストしてみましょう。
最高のプロンプトではなかったかもしれませんが、試してみましょう。エージェントGPT-4.1を使用しています。cloud codeのためにこのサーバーを作成できるか見てみましょう。
Gemini APIしか持っていないようですが、それでも大丈夫です。後でそれを確認しましょう。この画像を作成しました。これはボールを投げている人のようです。何ができるか見てみましょう。
すべてのビルドエラーが修正されました。今やるべきことは、これをcloud codeに追加することだと思います。ここでいくつかの指示を追加し、これをcloud codeにどのように追加すべきか尋ねてみましょう。
replicateAPIキーを引数としてcloud MCP addコマンドを実行して、MCPサーバーに接続したいです。試してみましょう。キーを取得して試してみます。
これを追加しました。cloud MCP listを実行すると、ビデオジェネレーターがあることがわかります。それに接続してみましょう。/mcpを実行します。
これは失敗しました。このような場合、mcp debugで実行することができます。cloud mcp debugを試してみましょう。何が起きたかを確認できます。接続に失敗し、接続が閉じられました。それを修正してみましょう。
ここで少し苦戦しています。デバッグしようとしていますが、いくつかの問題があるようです。もう一度チャンスを与えましょう。ログを表示しました。接続閉鎖の問題があります。それを修正しようとしています。これが最後の試みになります。
これは大混乱でした。まだ接続できません。もう一度チャンスを与えて、最初からやり直して、サーバーを構築してテストしてみましょう。それで変わるか見てみましょう。
今は動いています。これがこのサーバーを作成する最後の試みになります。Claude 2やGemini 2.5 Proでこれを行うことに問題はありませんでした。もう一度チャンスを与えて、今度はどうなるか見てみましょう。デバッグに時間をかける余裕はありませんが、参考として同じプロンプトでCloud 3.7を使ってみて、そのサーバーを作成できるか見てみます。
現在、クラウドモデルが実行中です。これが最終テストになります。Claudeがこのサーバーを作成できるか比較してみましょう。私からの指示が悪かったかもしれませんが、見てみましょう。
すでにサーバーが構築されており、ビルドエラーもありません。それは良さそうです。最後にやるべきことは、これをコードに追加することです。試してみて、どうなるか見てみましょう。コマンドまで提供されています。これまでのところ良い体験です。
試してみましょう。Claudeを実行します。エラーはなく、接続されました。ビデオを作ってみましょう。この画像がありますので、ビデオジェネレーターを試すためのプロンプトを作成しましょう。
Clingビデオジェネレーターを使用してビデオを作成します。「男が振り返って通りを走り下る」というプロンプトを使用したいです。
サーバーに接続できるか見てみましょう。これを送信して、画像も含まれているといいですね。これには時間がかかるので、結果が戻ってくるのを待ちましょう。
完了しました。それには3分近くかかりました。URLが表示されたので、コピーしてそこに移動しましょう。これが生成したビデオです。プロンプトは「男が振り返って通りを走り下る」でしたが、かなり良いですね。
それ以外では、Claude 3.7はとても滑らかで、ビルドエラーもなく何も問題ありませんでした。GPT-4.1は良さそうですが、個人的には実は最も興味があるのはnanoです。その速度があるので、nanoで何か構築することを楽しみにしています。非常に速いので、nanoでリアルタイムの何かを作ろうと思います。
現時点では4.1に切り替える予定はありませんが、いくつかのことについてもう少しチャンスを与えるつもりです。このGPT-4.1の簡単な第一印象を楽しんでいただけたなら幸いです。おそらくまたお会いしましょう。


コメント