
5,669 文字

GPT-4.1はコーディングに関して本当に印象的ですが、個人的にコーディングタスクにはこのモデルを使用しません。GPT-4oと比較すると、特に知性、レイテンシー、コストの面で大幅な向上がありますが、もっと良い選択肢があると思います。詳細は後ほど説明します。
このビデオでは、このモデルの使い方を紹介し、いくつかの予備的なコーディングテストを行います。モデルはChat GPTでは利用できないため、OpenAIの公式プレイグラウンドを使用します。ベンチマークや技術的詳細に興味がある方は、以前のビデオをご覧ください。リンクは動画説明欄にあります。公式プレイグラウンドの他に、このモデルはCursorとWind Serveでも無料で利用できます。
まず非常にシンプルに始め、モデルに創造的な自由を与えますが、後でより具体的な指示を出して、モデルが私たちのプロンプトに忠実に従えるかどうかを確認します。モデルリストからGPT-4.1を選択します。プレイグラウンドではデフォルトで出力が2,000トークンに制限されていますが、コーディングチャレンジをするので16,000トークンまで拡張します。またコーディングのために温度を0に制限します。
最初のプロンプトは「HTML、CSS、JSを使用してモダンなランディングページをコーディングし、すべてを1つのファイルにまとめてください」です。モデルのコーディング能力を確認したいだけで、特に具体的なことは求めていません。モデルがどのようなコードを生成するか見てみましょう。
生成速度はGPT-4oと比較して明らかに速く、多くのトークンを生成しているようです。約33秒で約3,000トークンを生成しました。そのコードが実際に機能するかどうか確認してみましょう。コピーしてオンラインHTMLエディタに貼り付けて実行すると、かなり見栄えの良いウェブサイトができました。
2つのリンクがあり、問い合わせフォームも追加されています。ヒーローセクションもあります。SaaSウェブサイトに通常期待するような要素が含まれています。
次に同じテーマで続けますが、今度は「クリックして」というボタンが1つあるウェブサイトの作成を依頼します。このボタンを押すとランダムなジョークを表示し、背景色を変更し、アニメーションも追加するようにします。ジョークに新規性を期待しているわけではありません。アダムのジョークについて言及しているのがすぐにわかります。トレーニングデータからこういったものを削除する方法があればいいのですが。
実行すると、「クリックして」というボタンが表示され、ランダムなアニメーションが追加されています。これは任意のLLMにとって比較的簡単なタスクです。
もう一つのウェブサイト作成に関連するコーディングテストを行います。「最初の25匹の伝説のポケモンとそのタイプを含む簡単な百科事典を作成し、スニペットと画像を読み込み、CSS、JS、HTMLを単一ファイルに作成する」というプロンプトです。このプロンプトは特に、トレーニングデータと非常に特定の知識を使用する能力をテストします。
この場合、画像を使用するよう依頼したので、いくつかの画像やURLを生成しました。これらは機能しないと思いますが、ポケモンは有名なのでトレーニングデータにこの情報があるでしょう。実際に試してみると、25匹のポケモンのリストが表示されましたが、ウェブリンクが機能していません。検索メカニズムはうまく機能しているようです。唯一の問題は、使用していた画像URLが機能していないことです。
良いことに、GPT-4.1はインターネットを使用できるので、そのエージェント機能をテストするために使用できるウェブ検索ツールを提供します。ここでウェブ検索ツールを追加しました。まったく同じことを尋ねますが、「必要に応じてウェブ検索ツールを使用して画像の機能するリンクを見つけてください」という追加をします。今回も、ウェブ検索を使用するかどうかを決定させます。
この場合、ウェブを検索したと言っていますが、実際にはウェブ検索を使用したようには見えません。新しいリンクで更新されたコードを生成しました。これらのリンクは機能しているようなので、試してみましょう。
この場合、コードを更新されたコードに置き換えると、そのリンクは完全に機能するようになりました。ただし、検索機能も削除されたかもしれません。しかし、これは画像URLがトレーニングデータに存在していたことを示しています。私たちがする必要があったのは、再度尋ねることだけで、情報を取得できました。
ツールの使用がどれだけ優れているかを確認したいので、「モデルコンテキストプロトコル(MCP)とは何か、エージェント間プロトコルとどう違うのか」というプロンプトを使用します。MCPは11月に発表され、エージェント間プロトコルは先週発表されたため、これらはトレーニングデータには存在しないはずです。ウェブ検索ツールを提供して、どのような応答が得られるか見てみましょう。
モデルコンテキストプロトコルについて、「AIとやり取りするためのインターフェースまたはAPI仕様で、コンテキストを維持および操作できる」と説明しています。これは妥当に聞こえますが、LLMが単に幻覚を見ている完璧な例です。実際には正しくありません。
エージェント間プロトコルについては、「2つ以上のエージェント間で通信するために特別に設計されている」と言っています。これは定義や名前に基づけば妥当ですが、「OpenAIのエージェント間メッセージングのためのプロトコル」と述べています。再び、単に幻覚を見て、内容を作り上げています。表まで含めています。
おそらく気づいたと思いますが、これらのLLMは応答を生成する際に、単に内容を作り上げていても非常に自信を持っています。この例では、このモデルの深刻な問題が見られます。ツールが利用可能であっても、使用しないことを決定しました。
今回は「必要に応じてウェブ検索ツールを使用する」よう指示し、再びツールを提供して、どうなるか見てみましょう。少なくともウェブ検索を開始し、ツールを使用しているように見えます。Anthropicの講演を参照しているからです。
今度は「MCPはAnthropicによって開発されたオープンスタンダードで、大規模言語モデルと外部データソース間のシームレスな統合を促進する」と言っています。これは素晴らしく、適切な情報を得ることができました。しかし、まだ問題があります。「エージェント間プロトコルに関しては、ソースに特定の情報が見つかりませんでした。この用語は、自律エージェント間の直接通信を促進するプロトコルを指す可能性があります」と述べています。
これは単一ターンの会話だったので、エージェント間プロトコルではなくMCPだけを検索したか、あるいはソースの一部がまだ適切にインデックス化されていない可能性があります。ご覧の通り、ツールを適切に使用できないという潜在的な問題があります。しかし、このモデルがツールや関数呼び出しをどれだけうまく使用できるかを把握するには、より徹底的なテストが必要でしょう。
次のプロンプトは、複数のことをテストするために設計されています。まずコーディング能力、次に創造性、そして指示に従う能力です。0から9までの数字キーを持つテレビチャンネルをコーディングするよう依頼します。クラシックなテレビチャンネルのジャンルからインスピレーションを得た各チャンネルのアイデアを考え出す必要があります。それぞれに興味深いアニメーションと画面上にクリエイティブな名前を表示する必要があります。すべてをp5.jsを使用して正方形のボックス内に収め、HTMLは使用せず、すべてテレビセットエリアにマスクされたままにして、すべてを単一ファイルに収めることを求めています。
約500行のコードを生成しました。Geminiはこれに対して約1000行のコードを作成しました。実行すると、特に最初のチャンネルのアニメーションと「レトロカートゥーン」という名前がかなり創造的に見えます。唯一の問題は、スケッチが正方形のスケッチではないことですが、これまで見たアニメーションの質は、このプロンプトでテストしたすべてのモデルの中でおそらく最高の一つです。
配置はもう少し中央に寄せるとよいかもしれませんが、名前はかなり創造的で、アニメーションも非常に興味深く、実際のテレビチャンネルのジャンルからインスピレーションを得ているようです。
次のテストも特定の要件セットがあります。最後にテストしたプロンプトは多くの問題を引き起こしたものなので、後でビデオでそれを見ていきます。ここでは、現実的な物理挙動を持つ落下する文字のJavaScriptアニメーションを作成するよう依頼しています。文字はさまざまなサイズでランダムに画面上部に表示され、地球の重力の下で落下し、文字の実際のサイズと形状に基づいた衝突検出を持ち、地面、文字、画面境界の間に相互作用が必要です。また、特定の密度特性を持ち、背景色がどのようになるかも指定しています。
コードを生成したので、実際に機能するか確認してみましょう。いくつかの文字が落下し始め、地面と他の文字とも相互作用しているようです。これはかなり素晴らしく、元の0.1リリースではこれができませんでした。4.1がこれを簡単に実現できるのは印象的です。画面サイズが変更されても、うまく対応しているようです。
指摘しておきたいのは、これらのテストはすべて一発のコード生成であるということです。通常、これらのLLMは一発のコード生成が得意ですが、本当のテストはコードの編集や修正です。既存のコードベースがあり、それを修正したり機能を追加したりするようLLMに依頼する場合、それが現実世界のアプリケーションの大部分であり、そのためのより良いテスト手法が必要です。
最後のテストはおそらく最も複雑なもので、Claude以外のLLMで成功したものを見たことがありません。20個のボールが七角形の中で跳ね回るHTMLプログラムを書くよう依頼しています。これはウイルス的に広まった六角形内のボールの跳ね返りの変形ですが、今回は20個の異なるボールが必要で、七角形内にある必要があります。すべてのボールは同じ半径で、1から20までの数字が付いており、七角形の中心から落下します。各ボールの色プロファイルを提供し、重力と摩擦の影響下にあり、他のボールや七角形の側面と現実的な衝突をする必要があります。他にもいくつかの要件があります。
これは非常に具体的な要件セットで、実際のプロジェクトの要件としてまとめるようなタイプのものです。モデルに創造的な自由をあまり与えていないので、これらの要件でどのようなことができるか見てみましょう。
生成したコードを実行してみると、中央から始まり、すべてのボールが並んでいるようですが、その後クレイジーなことが起こり、意味がわかりません。実際の衝突検出を追跡できていないようです。もう一度実行してみると、すべてのボールが並び、まったく同じ動きをしています。
このプロンプトを何度か実行しましたが、何らかの理由で毎回失敗しました。
全体的に、限られたテストに基づくと、かなり印象的なコーディングモデルのようですが、私が日常的に使用するかどうかという質問の答えはおそらく「いいえ」です。その理由を説明します。
ADERポリグロットコーディングベンチマークの公式結果によると、GPT-4.1のコーディングは約52%で、DeepSeek 3とGrok 3 Betaのすぐ後ろです。このモデルを実行する総コストは$9.86、約$10です。しかし、あなたが見ている最高のモデルはGemini 2.5 Proのプレビューバージョンで、このベンチマークではGPT-4.1の実行コストの約66%です。
理由は、Gemini 2.5 Proは出力トークン数に基づいて異なる価格設定を使用しているからです。200,000トークン未満を使用する場合、GPT-4.1よりも安価です。より多くのトークンを使用する場合、GPT-4.1と比較して約10%高価かもしれませんが、パフォーマンスの差とコストの差を考えると、Gemini 2.5 Proが利用可能な場合にGPT-4.1を使用することは意味がありません。
同様に、コストが主な基準であれば、小規模なミニやナノユースケースでも、DeepSeek 3やGemini Flashのようなより優れたオプションがあり、はるかに高性能ですがはるかに安価です。
ハーバード大学でRNAに取り組むAI科学者であるPier Bongardのツイートも関連しており、Gemini 2.5 ProやDeepSeek R1のようなモデルを使用した方が良いという良い考えを示しています。
コーディングに関してはかなり印象的なモデルですが、OpenAIはその価格ポイントとパフォーマンスを考えると、その使用について良いケースを作ることができなかったと思います。GPT-4.0と比較するとはるかに印象的ですが、すでにFlashのような非常に似たパフォーマンスでありながら、はるかに低い価格のモデルがありました。
あなたの考えを教えてください。このモデルを一部のエージェントタスクでテストし続けます。なぜなら、これらのベンチマークが全体像を捉えていないことがあるからです。GPT-4.1のようなものに特化したユースケースがあるかもしれません。ユースケースを見つけたり、どのモデルを好むかを教えてください。
このビデオが役立ったことを願っています。視聴していただきありがとうございます。次回もお会いしましょう。


コメント