
2,961 文字
私はClaudeを4つの異なるフロントエンドシミュレーションの課題でテストしました。このタスクがどれほど良いか、そしてクロード3.7ソネットがこのタスクにどれほど上手く対応したかを評価してもらいたいと思います。私はシンプルに保ち、HTMLを一つだけ使用することにしました。ClaudeはそれをClaudeアーティファクトとしてレンダリングできるので、どのように見えるかが簡単に確認できます。いくつかのタスクでは、O3ミニやo1と比較して、OpenAIが同じタスクをどう処理するかも見てみました。これらの比較結果には驚かれるかもしれません。
まず最初に、このアニメーション付き天気カードから始めましょう。これはClaudeが私のために作成したものです。プロンプトは「CSSとJavaScriptを含む単一のHTMLファイルを作成し」、そして詳細を説明するというものでした。これを見てください、素晴らしい細部まで作り込んでいます。私は全ての動きを止めることができます。これにより基本的に全てのアニメーションが停止します。風は吹かず、雨は降らず、太陽は輝かず、雪も降りません。しかし「全て開始」と言うと、風がゆっくりと動き始め、雨滴が落ち、太陽が輝きます。雪が降っているかどうかはわかりませんが、素晴らしいカードです。ここに全ての詳細が見られ、かなり素晴らしいです。
同じタスクをChat GPT o3ミニ・ハイに与えました。これはO3ミニの拡張思考バージョンです。そしてこれがO3ミニ・ハイが作ったものです。冗談ではなく、全く同じプロンプトです。O3ミニに与えただけで、ここで見られるように全く同じプロンプトなのに、O3ミニはこれを作ると決めたようです。比較してみるとかなり面白いです。これは幼稚園児に同じものを描かせたようなもので、もう一方は適切なフロントエンド開発者が設計したものです。比較結果を見るのはとても奇妙です。
もう一つ驚きがあります。天気カードの次に、既存のアーティファクトであるオンラインで見つけた数独ゲームをClaudeに与え、それをリミックス、つまり再作成するよう依頼しました。これがClaudeが作ったものです。Claud 3.7というのが見えます。ここをクリックして新しいゲームを始め、簡単、中級、難しいの3つの難易度があります。リセットしたり、元に戻したりできます。タイマーもあり、ヒントも得られます。この数独ゲーム全体がClaud 3.7ソネットによってゼロショットで作成されました。例えば、簡単を選んで新しいゲームを始め、ここで「たぶんこれは9かな」というように進めることができます。これが数独ゲームです。
次は簡単な信号機シミュレーターです。コンピュータサイエンスを学んだことがある方なら、これはエレベーターシミュレーターや信号機シミュレーターなど、人々が通常頼むことの一つです。これの背後には知的なアルゴリズムはありません。Claudeがそうしてくれたら良かったのですが、今のところ単純に私の指示に従い、「信号機システムをシミュレートするHTMLファイルを作成してください。赤、黄、緑の3つの状態があり、特徴的なアニメーションがあるべきで、自動サイクリングとダークモードを持つべき」と言いました。
ここで自動サイクリングが見られます。トグルはないようですが、ダークバックグラウンドがあり、次のスライドに行けて、シミュレーションができ、説明にあったような光彩もあります。また自動サイクルもできるので、黄色は緑に、緑は赤になります。唯一足りないのは、背後に知的アルゴリズムがないことです。これは面接でよく尋ねられる古典的なコンピュータサイエンスのアルゴリズム問題です。エレベーターシミュレーターも試したかったのですが、トークン数が足りなくなってしまいました。これもClaud 3.7ソネットが完璧にこなしました。
このリストの最後のものは、誰も今まで成功していないと聞いたもので、同じプロンプトをOpenAI o1にも与えました。これは旗艦モデルであり、o3ではなくo1、彼らの最高の思考モデルです。Claud 3.7ソネットもベンチマークと比較していますが、覚えておいてほしいのは、私は拡張思考モードなしでClaud 3.7ソネットを使用していて、ここのo1は思考できるということです。実際、ここで27秒間推論し、この美しい時計を作成することを決めました。
私の質問は何か?単一のHTMLファイルで、時針と分針があり、これを持って回転させる能力があり、回転すると時間が実際に変わるようにしたいというものです。ここで見たいのは、まず動きがあるか、次に時間が変わるか、第三に時間の物理法則に従うか、つまりアナログ時計で見るような正確な時間を持つかということです。そしてダークモードとライトモードのトグルボタンが欲しいと言いました。
OpenAIが完璧にこなしたのはトグルボタンです。トグルが完全に機能しているのが見えます。少し光彩があり、まるで日食のようですが、これ以外のすべては完全にダメです。時間が見えず、とても奇妙に見えます。
Claud 3.7ソネットに戻りますと、拡張思考を持たなくても、これをゼロショットで作成しました。「現在の時刻を表示するアナログ時計を表示する単一のHTMLファイルを開発し、マウスでドラッグして手動で時計を回し、対話的に遊べるようにしてください。ダークモードとライトモードを追加してください」というプロンプトでした。トグルについては言及さえしませんでした。
ここでダークモードとライトモードのトグルがあり、時計は絶対に素晴らしく見えます。個人的には、内側の小さな目盛りが常に好きでした。ここでは「9:10」と表示されています。回転させると「9:50」になります。正確な時間ではありませんが、現在の時間と比較して相対的に表示されていると思います。時間が正確に守られているわけではありませんが、時間を正確に守ること以外はすべて完璧にこなしています。
アナログ時計を動かすと、相対的にかなり良い仕事をしているのがわかります。これは「28:30」のようですが、15分動かすと、15分後には「45」になっているのが見えます。表示される時間に対して相対的に良い仕事をしています。アナログとデジタルの時間の間には断絶がありますが、それを一瞬無視すれば、かなり良い仕事をしています。100%完璧とは言えませんが、この特定の仕事ができる他の大規模言語モデルよりもはるかに優れています。
これらの実験についてどう思うか教えてください。クロード3.7ソネットや他のLLMでさらに実験を行いたいと思いますが、Anthropicの最新モデルとOpenAIの旗艦モデルを比較するのは非常に魅力的でした。OpenAIの旗艦モデルはo3だと主張するかもしれませんが、o3ミニ・ハイやo1は、今日発表されたばかりのモデルよりもはるかに高い基準を持つべきだと感じました。選んだタスクの違いを見るのはとても魅力的です。これらのモデルについてどう思うか教えてください。また別の動画でお会いしましょう。ハッピープロンプティング!


コメント