Claude 3.7は純粋な狂気

AGIに仕事を奪われたい
この記事は約34分で読めます。

19,749 文字

https://www.youtube.com/watch?v=afN8U7kAiLc

これは画像のテーブルを貼り付けて、「インタラクティブなインフォグラフィックを作成して」と書いてみましょう。なんてことだ、これは簡単すぎる!
試してみましょう。「フェロモン追跡と基本的なAIルールを使用して、餌を探すアリのコロニーを作成し、アリが探索して経路を最適化する様子を表示する」。すごい、これはとんでもないですね。
これはどうでしょう。「ユーザーが要素にカーソルを合わせると特性と原子構造のアニメーションを表示できるインタラクティブな周期表を作成する」。そして各要素にカーソルを合わせると、確かに特性と原子構造のアニメーションが表示されます。これはすごい!
これを試してみましょう。「高層ビルと高速道路のある複雑な未来都市の3Dシミュレーションを作成する」。そして、これのために拡張思考モードをオンにしてみましょう。冗談じゃない、これは狂気の沙汰です。
Anthropicは何ヶ月も沈黙していましたが、ついに今週、最新モデルであるClaude 3.5…1バージョン2思考実験的なハオウ…いや冗談です。実際はClaude 3.7 Sonnetと呼ばれています。3.6はどうなったのか、あるいはなぜClaude 4と呼ばないのか、誰にもわかりません。AIスタートアップの人たちは命名が本当に上手で、私たちを混乱させることはありません。とにかく、このビデオではClaude 3.7の使い方を説明し、驚くべき機能をお見せして、何ができて何ができないかを理解していただきます。また、他のAIモデルと比較したパフォーマンスとベンチマークについても説明します。さあ、始めましょう。
このビデオのスポンサーであるHubSpotに感謝します。
まず、Claude 3.7を実際に使用できる場所について説明しましょう。実際、多くのプラットフォームで利用可能です。もちろん一つの選択肢はClaudeの独自サイトであるclaude.aiです。これは下の説明欄にリンクしておきますが、アカウントを作成するには電話番号を提供する必要があることに注意してください。これはもちろん理想的ではありません。電話番号を公開したくない場合は、Monicaなど他の場所で使用することができます。これも説明欄にリンクしておきます。割引コードも用意しました。または、Appus AIやPoのChatLLMも利用できます。これらはすべて説明欄にリンクしておきます。これらのプラットフォームではアカウント作成に電話番号が必要ありません。また、Cursorでも利用可能なので、コードエディタで直接Claude 3.7を使用することができます。このビデオでは、ネイティブのClaudeインターフェースを使用します。
ここでは、デフォルトでClaude 3.7が既に選択されているのがわかります。Claude 3.7は「ハイブリッド推論機能」と呼ばれる機能を備えており、これによって問題解決と推論の能力が向上しています。これは特に科学、数学、コーディングなど多くの例で特に役立ちます。また、「拡張思考」機能も備えており、これによって長時間考えることができ、複雑な推論や問題解決タスクに適しています。ちなみに、この機能は基本的にDeepSeekの「Deep Think」機能やOpenAIの「Reason」機能、Grokの「Think」機能と同じです。
もちろん、要約や翻訳、チャット、文章作成などの通常のタスクもできますが、正直なところ、トップAIモデルはすべてこれらを非常にうまくこなすことができ、それらの間に大きな違いはありません。Claude 3.7が本当に輝くのは、コーディング、数学、データ、科学の理解においてです。このビデオでは、主にこれらの種類の例を取り上げて、Claude 3.7が実際にどれほど優れているかを見ていきます。
いくつかのデータ例から始めましょう。グラフやチャート、インフォグラフィックを作成するのがとても簡単です。画像をアップロードしたり、CSVファイルなどのドキュメントを添付したり、Googleドライブ内の任意のドキュメントにリンクすることもできます。テーブルの画像をアップロードしてみます。実際のテーブルではなく、単なる画像をアップロードします。そして「このテーブルをインタラクティブなインフォグラフィックに変換してください。視覚的に魅力的にしてください」と書きます。これはチュートリアル全体を通して頻繁に使用するキーフレーズです。「CSS、JS、HTMLを単一のHTMLファイルで使用してください」。これも、すべてを1つの単独ファイル内に保つために使用するキーフレーズです。エンターを押して、何が出てくるか見てみましょう。
これが結果です。どうですか?ブランド別、性別別に分類されています。Coca-Colaだけをクリックすると、コークのすべての統計データだけが表示されます。女性に最も人気のあるコーク、男性に最も人気のあるコーク、最大の性別格差まで表示されます。そしてペプシだけの表示も非常に良いですね。そして全ブランドのデータも。データテーブルの画像1つから、本当に素晴らしいインフォグラフィックが作成されました。レポートやプレゼンテーション用のチャートやインフォグラフィックを作成するのに非常に役立つことがわかります。
次に新しいチャットを開始します。ここで何をするかというと、さまざまな動物間の相関関係を示すExcelテーブルがあります。このデータをすべてClaudeに貼り付けて、グラフを作成してもらいましょう。プロンプトには「このテーブルをインタラクティブなネットワークグラフに変換してください。視覚的に魅力的にしてください」と書きます。これは好んで使用するキーフレーズで、デザインをより良く見せる傾向があります。「CSS、JS、HTMLを単一のHTMLファイルで使用してください」。シフト+エンターを押して新しい行を開始し、すべてのデータをコピーして貼り付けます。生成ボタンを押して、何が出てくるか見てみましょう。
Claudeの素晴らしい点は、コード出力とコード完了後のライブプレビューを表示する「アーティファクト」機能があることです。OpenAIやGemini、DeepSeekほど速くはないので、コーディングが完了するまで数秒かかります。
これが結果です。すごいですね!このウィンドウは少し狭いので、コピーボタンを押してこのコード全体をコピーし、コンピュータのどこかに新しいHTMLファイルを作成します。最初にテキストドキュメントを選択し、拡張子をHTMLに変更します。test.htmlと名付けて、拡張子を変更するために「はい」を押します。右クリックしてメモ帳で開きますが、他のコードエディタで開いても構いません。コードをすべてコピーして貼り付け、Ctrl+Sで保存します。このHTMLファイルをウェブブラウザで開くと、このアプリ全体を開くことができ、フルスクリーンになります。
どうですか?確かにすべてのものをネットワークグラフにしています。これらの設定をすべてテストしてみましょう。反発力を増やすと、それらは一緒に集まるようです。反発力を減らすと、より互いに反発し、データがより広がっています。これらの接続をクリックしてドラッグできますか?はい、できます。素晴らしいですね。リンク距離はどうでしょう?これを高くしてみましょう。リンクが長くなるようです。これを小さくドラッグすると、リンクが小さくなります。非常に興味深いですね。
関連性の閾値はどうでしょうか?このスライダーを上げると、閾値を上げるにつれていくつかの接続が切れます。これを1まで上げると、動物間の接続はなくなります。閾値を再び下げると、種間の結合が形成され始めます。これは、2つの種がどれだけ関連しているかを決定するように見えます。非常に興味深いです。これらのいずれかにカーソルを合わせると、接続が表示されます。
キツネの場合、2つの接続があります。クマとは75%、オオカミとは70%です。もちろん、これは作り話のデータですが、正しいかどうか確認してみましょう。キツネとクマは確かに75%、キツネとオオカミは確かに70%、これは完全に正しいです。タイガーの接続にカーソルを合わせてみましょう。ライオンとは95%、ヒョウとは80%、チーターとは70%の3つの接続があります。これを確認してみましょう。タイガーとライオンは95%、これは正しいです。ヒョウとは80%、これも正しいです。チーターとは70%、これも正しいです。非常に優れたツールです。
以上、調整可能な設定を備えた、すべての動物の完全に機能するネットワークグラフがあります。すべての設定を調整できる完全にインタラクティブなものです。これは信じられないほどすごいです。しかも、すべてを一度に得ることができました。
新しいチャットを始めます。今度はいくつかのクールなアプリをコーディングしてもらいましょう。プロンプトはこうです:「スタンドアロンのHTMLページを作成して、ビデオをアップロードすると白黒のドットに変換できるようにしてください。ドットサイズを調整するスライダーを含め、元のビデオと変換されたビデオを並べて表示できるようにしてください」。生成ボタンをクリックして、何が出てくるか見てみましょう。
これが結果です。このビューは少し狭いので、このコードを取得してコピーし、HTMLファイルに戻って前のコードを削除し、新しいコードを貼り付けて、Ctrl+Sで保存します。または、ここをクリックして保存することもできます。このHTMLファイルを更新すると、この新しいビデオからドットへのコンバーターが表示されます。
これが機能するか見てみましょう。ビデオをアップロードしてみましょう。アップロードは機能し、再生すると魔法のようにこれを白黒のドットに変換します。これはどれほど素晴らしいことでしょうか!このビデオをループさせ続けましょう。ここでドットサイズを調整できます。ここが1で、ドットサイズを大きくしています。非常に良いですね。ドット間隔を調整できます。ドットの間隔を増やしています。これはとても素晴らしいです。明るさの閾値は、どの領域が黒になり、どの領域が白になるかを決定します。ドットサイズを少し小さくし、間隔も少し狭くしましょう。そして再生と一時停止をクリックすると、確かにビデオが再生され、一時停止します。
これはどれほど素晴らしいことでしょうか!たった一つのプロンプトから、さらにプロンプトする必要なく、ビデオを白黒のドットに変換し、調整可能な設定を備えた完全に機能するページをコーディングしました。すべてが魔法のように機能します。
何か狂ったことを試してみましょう。プロンプトには「Three.jsを使用したスタンドアロンのHTMLページで」と書きます。これは好んで使用するキーフレーズの一つです。Three.jsは3Dアニメーションを作成するのに非常に便利なライブラリです。「高層ビルと高速道路のある複雑な未来都市の3Dシミュレーションを作成してください。デザインとビジュアルを驚くほど素晴らしく見せてください」。これは、Claudeのプロンプトに含めるのが好きな別のキーフレーズです。そうしないと、より退屈で単調な生成物を作成する可能性があります。「デザインを素晴らしくする」と言うと、実際にはより良く見せるために多くの努力を払ってくれます。「昼と夜のスライダーや他の効果を含めてください。創造的になってください。他の依存関係を使用しないでください」。これは、すべてを一つの機能的なファイルに保つために使用するキーフレーズです。
実際、これはかなり複雑なプロンプトなので、ここで「拡張思考」機能を選択します。これにより長時間考えることができ、理論的には応答がより良くなるはずです。生成ボタンをクリックして、何が出てくるか見てみましょう。
これが結果です。冗談じゃないですよね?都市に入る前に、実際に思考プロセスを見てみましょう。「拡張思考」モードをオンにしたので、展開してコードを出力する前にどのように考えるかを見ることができます。ここでは、すべての要件をリストアップしています。「これらすべてを含む完全なHTMLページを作成する必要があります。これらすべてを含むソリューションを設計しましょう。これらすべてのコードを含む完全なHTMLアーティファクトを作成します」。そして、ここにコードがあります。
マウスをドラッグして都市内を移動できます。このウィンドウは少し狭いので、このコードをクリックしてすべてをコピーし、テストHTMLファイルを使用してここにすべてのコードを貼り付け、Ctrl+Sで保存し、任意のウェブブラウザで開きます。
さあ、ここに私たちの都市があります。これはどれほど狂っていますか?マウスをスクロールすると、ズームインやズームアウトができます。非常に良いですね。カメラの高さを調整すると、確かにカメラの高さが調整されます。このフォグが何をするか見てみましょう。フォグを増やすと、より汚染されているように見え、ほとんど何も見えなくなります。フォグを減らすと、はっきりと見えるようになります。これはとても素晴らしいです。フォグをゼロに設定すると、空がずっと澄んでいます。このスライダーをもう一度調整して、何が起こるか見てみましょう。これはどれほど素晴らしいですか?
そして、時間帯があります。現在は昼間です。このスライダーを調整してみましょう。これはとてもすごいです。空がオレンジ色に変わり、夕日が沈み、そして今は実際に星のある夜空に変わっています。これは信じられないほど詳細です。
Claudeのプロンプトについて話すと、HubSpotによる無料で素晴らしいリソースがあります。Claudeや他のAIモデルを使用するとき、特定のキーフレーズやプロンプトを追加すると大きな違いが生まれることがわかります。そのため、あなたの作業全体を管理し、あなたの好みを学び、プロジェクト全体でコンテキストを維持する個人的なエグゼクティブアシスタントとしてClaudeをセットアップする方法を発見できる無料のリソースを共有したいと思います。また、ビジネスの進化に伴って自動的に更新されるアーティファクトを使用した生きたドキュメントの作成方法や、データサイエンスチームを必要とせずにデータを分析するインタラクティブなダッシュボードの構築方法も解説しています。
特に気に入っているのは、市場インテリジェンス、運用指標、財務分析などのリアルワールドアプリケーションに関するセクションです。コンテンツマーケティング革命の章では、異なる視聴者に合わせて文章スタイルを採用しながら、すべてのチャネルでブランドの声を維持する方法でClaudがコンテンツ戦略全体をどのように変革できるかを示しています。
最も良いことは、このバンドルが完全に無料であることです。説明欄のリンクをクリックするだけで、即座にアクセスできます。このバンドルは、このビデオのスポンサーであるHubSpotによって作成されています。
ちなみに、ここをドラッグして太陽が沈むと、高層ビルの影が見えます。実際に太陽が沈むことをシミュレーションしており、これらの建物の間の影や、空がオレンジ色に変わり、最終的に夜空になるのがわかります。反対方向にドラッグすると何が起こるか見てみましょう。これはおそらく日の出か何かでしょう。
ネオンの強度をテストしてみましょう。これを最高値までドラッグすると、建物がよりネオンに見えます。カメラの高さを少し調整し、これをゼロに設定すると、これらのネオンカラーがオフになります。これを1に戻すと、これらの建物に色があることに注目してください。
日中に戻し、少しズームインして、カメラの高さを下げましょう。この未来都市では浮遊する車が見えます。交通密度を上げるとどうなるでしょうか?確かに、至る所でより多くの空飛ぶ車が見えます。これは確かに未来都市で、すべてが非常に詳細に見えます。時間帯を変更でき、日の出や日没、夜空の星までシミュレーションします。これは非常に印象的で、たった一つのプロンプトですべてを得たことを覚えておいてください。
これはとても素晴らしいので、プロンプトとコードを見て遊べるように、あなたと共有したいと思います。この共有ボタンをクリックして「今すぐ共有」をクリックすると、誰でも見ることができる公開リンクが作成されます。このリンクをコピーして説明欄のどこかに貼り付けます。これはただの一つのプロンプト、拡張思考機能を使用して、完全な3D都市全体を作成できます。これは絶対に狂っています。
新しいチャットを始めます。次はウェブページを作成してもらいましょう。Hugging Faceのスクリーンショットを撮ります。ここまでのスクリーンショットを撮って、ここに貼り付けます。そして「このウェブページをスタンドアロンのHTMLファイルでクローンしてください」と書きます。生成ボタンをクリックして、何が出るか見てみましょう。
ちなみに、HTMLである必要はありません。デフォルトでは、すべてReactでコーディングしますが、プレーンHTMLやPython、他のフレームワークや言語でコーディングしてもらうこともできます。
ここにあるのは、実際のHugging Faceサイトにとてもよく似ています。フォントや、アクセスできないかもしれないロゴなどにいくつかの違いがあります。Claude 3.7を使用して、既存のウェブサイトを簡単にクローンしたり、ワイヤーフレームをデザインしたりできます。
新しいチャットを開きましょう。前述のように、Claude 3.7はSTEM(科学、コーディング、数学)に優れています。これを試してみましょう:「p5.jsスクリプトを書いてください」。これはプロンプトで好んで使用する別のキーフレーズです。これは基本的にアニメーション作成のためのJavaScriptライブラリを使用します。「餌を探すアリのコロニーをシミュレーションしてください。フェロモン追跡と基本的なAIルールを使用して、アリが探索して経路を最適化する様子を表示してください。ユーザーがリアルタイムで調整できるコントロールを含めてください」。これを理解できるか見てみましょう。
これが結果です。これは生のp5.jsスクリプトなので、ここではプレビューできないようですが、大丈夫です。このコードをコピーして、便利なオンラインP5エディタ(説明欄にリンクします)を使用して、ここにコードを貼り付け、再生ボタンを押します。これはどれほど狂っていますか?
ここでは、アリが周りを移動して食べ物を見つけている様子が見えます。これらの緑色のブロックが食べ物のようです。アリの数を増やすとどうなるか見てみましょう。今やたくさんのアリがいて、食べ物を見つけるとアリは緑色に変わり、食べ物をコロニーに持ち帰ります。アリの速度を上げると、彼らはずっと速く動きます。アリの速度を下げると、少し遅く動きます。速度は機能しています。
フェロモン強度は、彼らがお互いにどれだけ影響し合うかだと思います。アリが食べ物を見つけたら、周りのアリにどれだけ「ここに食べ物がある、この食べ物を集めに行こう」と伝えるかということです。この強度を上げれば、より多くのアリがこれらの食料源に向かうはずです。フェロモン強度を下げると、お互いの影響が少なくなるようです。
ランダムな動きについては、これを増やすと、より無作為に歩いているように見えます。障害物を追加するとどうなるか見てみましょう。ここに障害物を追加してみましょう。申し訳ありません、小さなアリさん、わざと障害物を追加するつもりはありませんでした。アリが立ち往生しているようです。「障害物をクリア」をクリックすると、確かに障害物がクリアされます。
次に、どこかにこちらに食料源を追加して、何が起こるか見てみましょう。いくつかのアリがこの食料源を検出して、コロニーに戻っています。アリの数を増やし、速度を上げ、ランダムな動きを減らしましょう。もう一つ試したいことは、このルートの真ん中に障害物を追加することです。アリが今この障害物を避けているのがわかります。もう一つここに追加すると、アリは今この障害物を回避する必要があります。
本当に素晴らしいデモです。ここには、より多くの食料アイテムを挿入したり障害物を挿入したりするオプションを備えた、完全に機能するアリコロニーのシミュレーションがあります。再び、たった一つのプロンプトですべてを得ることができました。これは非常に印象的です。もしそうでなくても、おそらくさらに何度かプロンプトを与えれば、問題を修正してくれるでしょう。
次は化学の例をやってみましょう。プロンプトは「p5.jsスクリプトを書いてください」。これは再びアニメーションと視覚化のための非常に便利なライブラリです。「ユーザーが要素にカーソルを合わせると特性と電子配置が表示され、原子構造のアニメーションが付いた動的な周期表をシミュレーションしてください」。生成ボタンをクリックして、何が出るか見てみましょう。
同じプロンプトをGrokで試しましたが、原子構造のアニメーションは得られませんでした。Claude 3.7はもっと良くできるでしょうか?
これが結果です。p5.jsを使用すると、何らかの理由でClaudでプレビューできないので、このコードをすべてコピーし、HTMLファイルに戻ってコードを貼り付け、Ctrl+Sで保存します。ページを更新するとこれが表示されます。
周期表のすべての要素が表示されていないことに注意してください。おそらくスペースが足りなかったのでしょう。しかし、これをテストしてみましょう。Hにカーソルを合わせると、原子番号、原子量、電子配置、さらに説明が表示され、下部には原子構造のアニメーションが表示されます。これはどれほど素晴らしいですか?
リチウムにカーソルを合わせると、再びすべての情報が表示され、それは私には正しく見えます。アニメーションも正しく見えます。3つの電子があり、内側の殻に2つの電子、外側の殻に1つの電子があります。そして、ここがナトリウムで、これも正しく見えます。最初の軌道に2つの電子、2番目の軌道に8つの電子、外側の軌道に1つの電子があるはずです。
マグネシウムに移ります。アニメーションも正しく見えます。とても素晴らしいですね。そしてカルシウムもあります。再び、すべてが正確に見えます。ホウ素は原子番号5、リンもあります。もう少しこれらのいくつかにカーソルを合わせてみましょう。確かに正確であることがわかります。そして、アルゴン、ネオン、ヘリウムなどの安定したガスもあり、すべてが正しく見えます。
この原子構造アニメーションには本当に感心しました。Grok 3ではこれを見ることができませんでした。Claude 3.7を使用すると、科学やその他の分野のための視覚化を簡単に作成できることがわかります。これは教育において画期的なものになる可能性があります。
新しいチャットを始めます。数学の視覚化を試してみましょう。プロンプトは「π近似のためのモンテカルロ法を視覚化するp5.jsスクリプトを書いてください。正方形内にランダムに点を配置し、時間の経過とともにπの値をどのように推定するかを見てください」。これについては後で説明します。「ユーザーがリアルタイムで調整できるコントロールを含めてください」。これは私が好んで使用する別のキーフレーズです。これを含めないと、アニメーションや視覚化がすぐに開始され、一時停止したり、ビューや他の設定を調整できないことがあるからです。生成ボタンをクリックして、何が出るか見てみましょう。
これが結果です。興味深いことに、今回はプレビューウィンドウに表示されています。「シミュレーションをリセット」を押してみましょう。
数学に詳しくない方のために、簡単に説明します。π(3.14…)は、生活のあらゆる場面で見られる非常に特別で重要な数字です。この値は円の面積を計算するなど、他にもたくさんのことに使われています。この値はどのように導き出されたのでしょうか?その方法の一つがこれです。
もう一度リセットを押してみましょう。円を正方形の中に描き、円が正方形の4辺すべてに触れるようにします。そして正方形内のどこにでもランダムに点を配置します。これらの点のいくつかは円の中にあり、いくつかは円の外にあるかもしれません。そして、円の中にある点の数を総点数で割り、それに4を掛けると、実際にπの値になります。もう一度リセットを押して、そのように計算します。
これらの設定を調整してみましょう。「1フレームあたりの点数」を調整すると、非常に速く埋まるのがわかります。これを1に調整して速度を落とし、「シミュレーションをリセット」を押します。そして「点のサイズ」を大きくしてみましょう。点が大きくなっているのがわかります。これを小さくすると、点は小さくなります。
ここでは、円の中にある点の数、合計点数、推定されたπの値、そして誤差率が表示されています。これを少し速くすると、より多くの点で埋まるにつれて、実際のπの値に近づき、誤差率が下がるのがわかります。これをもっと速くして、3.14の値に徐々に近づいていくのを見ることができます。そして誤差も減少しています。
これを1に戻して「シミュレーションをリセット」をクリックし、「密度プロット」が何をするか見てみましょう。非常に興味深いことに、これらの点が四角形に変わります。この密度プロットで何が起きているのかよくわかりませんが、それでもπの値を推定するための完全に機能するモンテカルロ・シミュレーションがあります。アニメーションは美しく、すべての設定が機能します。これもたった一つのプロンプトからすべてを実現しています。本当に印象的です。
これらが科学と数学の視覚化の例です。次に、ゲームのコーディングにこれがどれほど優れているかを見てみましょう。「Three.jsを使用してマインクラフト環境を作成してください。開始ボタンと一時停止ボタンを含め、速度スライダーを含めてください」。そして、これは私がプロンプトに含めることが多い別のフレーズです:「システムは自律的に非常に複雑で複雑な城の建設を開始します。視覚的な魅力に焦点を当て、素晴らしく見せてください」。生成ボタンをクリックして、何が出るか見てみましょう。
ここでは、メッセージの最大長に達し、一時停止する必要があったようです。まだコーディングが終わっていないことがわかります。「最後から続けてください」と入力して、ここから続けてもらいましょう。
これが結果です。まず、ズームアウトしてみましょう。「建設開始」をクリックしても、ここでは何も見えないようです。Three.jsがこのClaudプレビューと完全に互換性がないのかもしれません。コードをクリックして、ここですべてをコピーし、テストHTMLファイルに貼り付けます。Ctrl+Sで保存し、このHTMLファイルを開くと、地面が緑色になっているのがわかります。これは良いスタートです。「建設開始」を押すとどうなるか見てみましょう。
建設が始まりました。速度を少し上げて、より速く建設されるのを見てみましょう。非常に良いですね。Three.jsはClaudのアーティファクトでネイティブに動作しない可能性があることに注意してください。何らかの理由で空白が表示される場合は、コードをコピーして新しいHTMLファイルを開いて、動作するバージョンを表示する必要があります。
どうですか?城の壁を建設しているのがわかります。ズームインすると、これらの要素それぞれにラベルが付いているのが見えます。例えば、ここには「レンガ」と書かれ、ここには「石」と書かれています。マウスをドラッグして別の角度から見ることもできます。非常に良いですね。
城の建設が完了しました。「状態:完了」と表示されています。少しズームインすると、壁に沿って窓が作られているのがわかります。非常に良いですね。ここにはきれいなドアも作られています。これは入り口だと思います。そして、ここには素敵な木製の屋根があります。これが私たちの城です。どうですか?
たった一つのプロンプトで、マインクラフトを模倣するだけでなく、このような環境で自律的に城を建設するエージェントも得ることができました。このプロンプトをOpenAI O3やGrok 3で試しましたが、一発でできませんでした。これは非常に印象的です。
新しいチャットを始めます。私がこれらのAIモデルでテストするのが好きなゲームは、通常スネークゲームを作成することですが、それは簡単すぎます。トップモデルはすでに、互いに競い合う2つのヘビの自律的なスネークゲームを作ることができます。これはO3 MiniとGrok 3でも機能します。両方のモデルも非常に優れています。このビデオを楽しんでいただけたなら、ぜひこちらでGrok 3の完全レビューと、O3 Miniの完全レビューもチェックしてください。
少し難しくしてみましょう。「スネークゲームを作成してください」と書きます。そして2匹ではなく、「10匹のヘビが自律的に食べ物を食べるために競争するようにしてください。視覚的に魅力的にしてください」。これは見た目を良くするために使用するキーフレーズです。「p5.jsを使用してください」。エンターを押して、何が出るか見てみましょう。
これが結果です。すぐに開始することに注意してください。10匹のヘビがいるようで、各ヘビのスコアと、どのヘビが死んでいるか、どのヘビがまだ生きているかが表示されています。現在、残っているのは1匹のヘビだけで、そのヘビが自分自身に触れるとゲームオーバーになり、ヘビ1が19ポイントで勝ちます。
ここには開始ボタンや停止ボタンがないことに注意してください。だからこそ、通常は「開始停止ボタンを含めてください」というフレーズをプロンプトに追加するのが好きです。そうすれば、すぐに再生が開始されることはありません。とにかく、もう一度リフレッシュをクリックしてみましょう。
10匹のヘビで始まり、食べ物を巡って自律的に競争しているのがわかります。このビジュアルは、古いモデルで見られる従来のスネークゲームよりもはるかに良く見えることに注目してください。また、非常に美しいスコアボードがあり、どのヘビが死んだかなど、すべてを追跡しています。さらに、素敵なゲームオーバー画面もあります。非常に印象的です。
次にこれを試してみましょう:「Phaser.jsを使用して横スクロールのプラットフォーマーゲームを作成してください」。これはインタラクティブなビデオゲームを作成するための別の非常に便利なJavaScriptライブラリです。「ゲームプレイには矢印キーのみを使用してください」。生成ボタンをクリックして、何が出るか見てみましょう。
これが結果です。ここではいくつかのエラーメッセージが表示され、これは空白ですが、おそらくPhaserがこのClaudチャットインターフェースと互換性がないだけだと思います。このコードをコピーして、再びテストHTMLファイルに貼り付け、ファイルを開きます。
これが結果です。矢印キーで左右に移動すると、キャラクターは確かに左右に動きます。上を押すとジャンプします。これらのコインをすべて食べてみて、そのあとで実際に次のレベルに進むかどうか興味があります。ジャンプして…なんてこと、あそこまでどうやってジャンプするのでしょう?もう一度試してみましょう。できました、非常に良いですね。
すべてのコインを食べた後、次のレベルに進むことができるようです。そして、この黒い点は実際に敵だと思います。まず、これに触れないようにしてみましょう。すべてのコインを食べて、何が起こるか見てみましょう。とても素晴らしいです。すべてのコインを食べると、次のレベルに進み、追加の敵が加わります。そして敵に触れるとゲームオーバーになります。これはどれほど素晴らしいですか?
完全に機能するゲームをコーディングしただけでなく、敵も含め、難易度が上がる複数のレベルも含まれています。さらにプロンプトを与え、このゲームを洗練し続けると、Claudeを使用するだけで簡単に正式に公開可能なゲームを作成できると思います。
次に、その推論と思考能力をテストしたいと思います。私がDeepSeekの思考モードで特に使用するのが好きな非常に良い使用例は、医学的な病気を診断することです。ここで同様のプロンプトを試してみましょう:「高血圧と高脂血症の病歴がある55歳の男性が、胸痛と息切れで入院しました。薬物療法を守っているにもかかわらず、症状は過去1ヶ月間で徐々に悪化しています。診察では血圧の上昇と異常な脂質プロファイルが明らかになりました。問題は何でしょうか?」ここでは「拡張」機能を選択し、スタイルを「説明的」に設定します。これにより、学習のためのより教育的な応答が得られます。生成ボタンをクリックして、何が出るか見てみましょう。
拡張思考機能をオンにすると、その思考プロセスを見ることができ、これを展開してどのように見えるかを確認できます。ここでは、重要な情報を整理しています。患者情報、症状、身体検査所見などです。考えられる診断としては、彼のリスク因子を考えると冠動脈疾患が最も可能性が高いとしています。または心不全や、制御されていない高血圧に関連する大動脈解離である可能性もあります。肺塞栓症やその他の原因の可能性もあります。
年齢、リスク因子、症状パターンを考えると、冠動脈疾患が最も可能性の高い診断であり、次に可能性が高いのは高血圧の合併症としての心不全であるとしています。さらにいくつかの行動すべき項目も提供しています。
これはただの思考過程であり、ここが最終的な回答です。主な懸念は何かが示され、患者が経験している可能性のあることで緊急評価が必要なものも示されています。他の重要な考慮事項も示され、適切な評価のための推奨される次のステップも提供されています。これには、これらすべてを行うことが含まれています。
医学とヘルスケアにおいて、これがいかに便利であるかがわかります。これは私のかかりつけ医よりもはるかに優れていて、より徹底的です。
これがClaudeの回答です。チャットと思考に関して私の個人的なお気に入りモデルの一つであるDeepSeekで同じプロンプトを比較したいと思いました。これがDeepSeekが書いたものです:「考えられる状態は何か、ここで何が起きているのか…まず彼の病歴を考慮する必要があります。症状が悪化していることから、進行性の状態であることが示唆されています。これをすべて総合すると、進行性の胸痛と息切れは、悪化する冠動脈疾患によるものである可能性があります。別の可能性は…薬物の服用コンプライアンスに問題がないかチェックすることも重要ですが、質問では服薬を守っていると述べています。別の角度から、胸痛は大動脈弁狭窄症などの他のものによるものである可能性があります。あるいは、彼が経験しているのはこれかもしれません。心臓以外の問題も考慮する必要があります。例えば肺の問題や胃腸の問題などです。」
ざっと見ただけでも、DeepSeekの方がClaudeよりも少し徹底していることがわかります。DeepSeekは心臓以外の問題も考慮していますが、Claudeはそれを行っていません。
興味深いことに、DeepSeekの回答はClaudeの回答とは少し異なります。DeepSeekは不安定狭心症または急性冠症候群を示唆していますが、Claudeは冠動脈疾患を示唆しています。医師や心臓の専門家が視聴されている場合は、コメント欄でどちらの回答が好ましいか、どちらの分析がより正確かを教えてください。
ともかく、DeepSeekもいくつかの次のステップを推奨しています。DeepSeekについて気に入っているもう一つのことは、現在の管理方法についてもいくつかのステップを提供していることですが、Claudeはそれを行っていません。
次に、いくつかの難しい物理学の問題解決でテストしてみましょう。これを試してみましょう:「大学レベルの物理学の問題です。窒素56グラムを温度300Kで100kPaの圧力から500kPaの圧力まで等温圧縮するために、どれだけの熱を放出する必要がありますか?」
この問題のプロンプト全体をコピーします。解答はかなり複雑なので、この問題を選びました。プロンプトをここに貼り付け、タイプミスを修正し、ここでも「拡張」を選択します。これは推論と問題解決のためのより良いオプションです。生成ボタンを押して、これを解決できるか見てみましょう。
すべてを考え抜いて、答えは確かに8kJであることがわかります。思考ウィンドウを展開すると、この問題の解き方についてどのように推論しているかがわかります。「これを圧力の観点で表現できます…これは次のようになります…次に窒素のモル数を計算しましょう…今、放出された熱を計算できます…計算を続けています…」など、そして最後に「待って、符号の規約を再確認する必要があります」として、正しい答えを導き出しています。これは、かなり難しい大学レベルの物理学の問題の例です。
これでClaude 3.7でできる印象的なことをいくつか紹介しました。ただし、これは完璧ではなく、いくつかの深刻な制限があることに注意してください。一つの制限は、これから画像を生成することはできないことです。チャットインターフェースでネイティブにそれを行いたい場合は、Grok 3が最適なオプションです。非常に現実的なものや、このような野性的なものを生成でき、実生活の人物とまったく同じように見えます。
また、音声モードもありません。OpenAIには既に高度な音声機能があり、声を使ってAIとチャットするだけです。Geminiにもこの機能があり、Grokにもこの機能があります。
さらに、Claudeの問題点は、最も検閲されたモデルであることです。これは私が最も嫌うことです。薬物、武器、暴力、戦争について何か質問しても、何も答えてくれません。ちょっとした暴力や血が飛び散るようなビデオゲームを作るように頼んでも、それは行いません。より検閲されていない情報を求めるなら、Claudeは最良のオプションではありません。
さらにClaudeのもう一つの大きな問題は、ウェブを検索できないことです。最新の情報について調査する必要がある場合、これはあなたにとって大きな問題かもしれません。例えば、「今年リリースされたDeepSeek R1について教えてください」と書くと、次のような回答が返ってきます:「私の知識のカットオフは2024年10月であり、DeepSeekR1は2025年初頭にリリースされたため、信頼できる具体的な情報を持っていません。その日付以降にリリースされたAIモデルや製品の詳細を確認することはできません。DeepSeek R1について詳しく知りたい場合は、DeepSeekの公式ウェブサイトをチェックすることをお勧めします。」
ご覧のように、これは最新情報には適していません。そしてウェブを全く検索できません。また、ソーシャルメディアの投稿の作成やカジュアルなチャット、単純な問題解決などの単純なことや低知能なことについては、正直なところ、トップモデル間に大きな違いはないことを強調したいと思います。ChatGPT、GoogleのGemini、Grok、DeepSeek、Quenを含むすべてのモデルが仕事を非常によくこなせます。
次に、Claude 3.7の仕様とパフォーマンスについて見ていきましょう。このモデルは他のモデルと比較してどれほど優れているでしょうか?まず、この新しいClaude 3.7はハイブリッド推論モデルを搭載しており、これにより複雑な問題解決におけるパフォーマンスが向上し、このビデオで示したすべての例で見られるように、特に数学とコーディングに非常に役立ちます。
Claudeには標準または通常の思考モードがあり、これはあまり考えずにはるかに速く答えますが、この拡張思考機能もあります。これは回答する前に自己反省し、数学、物理学、指示に従うこと、コーディング、その他多くのタスクでのパフォーマンスを向上させます。より深い分析とステップバイステップの推論が可能になり、思考プロセスを見ることもできます。この拡張思考機能は無料プランでは利用できないことに注意してください。この機能にアクセスするには、有料プランのいずれかに加入する必要があります。
最後に、いくつかのベンチマークを見て、他のモデルと比較してこれが実際にどれほど優れているかを見てみましょう。彼ら自身が報告したベンチマークから始め、独立した評価者からのいくつかの比較も見ていきます。
ソフトウェアエンジニアリングを見ると、これはすべてを圧倒しています。OpenAIから入手可能な最高のバージョンであるO3 Mini Highでさえ、49.3%しか得ていません。DeepSeek R1も49.2%です。これらはすべて50%未満ですが、Claude 3.7 Sonnetは少なくとも62.3%のスコアを獲得しています。これは他の最先端モデルよりも大きなマージンです。これは非常に印象的で、3.7は現在コーディングには最適なオプションです。
エージェンティックツール使用を見ると、これは基本的に異なるコンピュータインターフェースを使用するエージェントとして機能する能力をテストしています。ここでもClaude 3.7はOpenAI O1よりも優れていることに注意してください。彼らはここでチェリーピッキングをしている可能性があり、例えばエージェンティック使用に非常に優れているQuenなどのモデルと比較していないかもしれません。それを念頭に置いておいてください。彼らはClaude 3.7が実際に打ち負かすことができるモデルのみを選択している可能性があります。
エージェンティック使用と言えば、これは完全に新しいベンチマークです。AIはポケモンをプレイするのにどれだけ優れていますか?こちらは彼らが示したチャートで、Claude 3.5はビディアンの森までしか到達できませんでしたが、Claude 3.7 Sonnetはこれらのレベルをすべて通過して、サージのバッジを獲得するところまで到達しました。これは、そのエージェンティック能力がいかに優れているかを示しています。基本的に、ゲームの画面を分析し、何をすべきかを決定しているだけです。ただし、彼らはClaudeの以前のバージョンとのみ3.7を比較しており、他の競合モデルを含めていないことに注意してください。3.7が例えばOpenAIやDeepSeekよりもポケモンのプレイにおいて実際に優れているかどうかを確認するのは非常に難しいです。
こちらは別の有用な表で、Claude 3.7が何に優れているかを示しています。大学院レベルの質問については、この拡張思考機能をオンにしないと、実際にはうまくいきません。OpenAI O1、DeepSeek R1、Grok 3よりも悪いです。この拡張思考機能をオンにすると初めて、Grok 3と同等のより高いパフォーマンスが得られます。
コーディングについては前述の通り、Claude 3.7は断然最高のモデルです。エージェンティックツール使用についても前述の通りです。多言語Q&Aについては、数ヶ月前にリリースされたOpenAI O1よりもまだ劣っています。視覚的推論、つまり分析のために画像をアップロードすることについては、良いですが最高ではなく、まだOpenAI O1とGrok 3に負けています。指示に従うことについては最高です。数学の問題解決については、深い思考モードでもOpenAI O1、O3 Mini、DeepSeekよりも若干劣っています。競争的数学についても同様で、最高のモデルではありません。
いくつかの独立したリーダーボードを見てみましょう。Abacus AIによるlivedbenchはその一つです。興味深いことに、ここではClaude 3.7 Thinkingがグローバル平均76で、O3 Mini Highをわずかに上回ってチャートのトップにいます。興味深いことに、ここではコーディング平均はO3 Mini Highよりもかなり低いですが、数学とデータ分析、言語の面ではO3 Miniを上回っています。
ユーザーが異なるAIモデルをブラインドテストできるLM Arenaと呼ばれる別のリーダーボードを見ると、このリスト上にはまだClaude 3.7が見当たりません。3.5の最新バージョンだけが19位にあります。少なくともこの記録の時点では、Claude 3.7がこのLM Arenaでどれだけよく機能するかはわかりません。
Artificial Analysisと呼ばれる別の独立した評価者があります。興味深いことに、Claude 3.7 SonnetはGeminiやDeepSeek、O1、O3 Miniよりも下の8位にあります。これは非思考モデルかもしれませんが、それでもこれは良い結果ではありません。他のより優れたモデルと比較して、100万トークンあたりのコストがどれほど高いかに注目してください。結果は混在しているので、モデルがどれだけ優れているかを客観的に理解するために、複数のリーダーボードを見ることが重要です。
最後に、「Humanity’s last exam(人類最後の試験)」と呼ばれるベンチマークがあります。これは非常に誤解を招く名前で、AGIを意味するものではなく、AIがこのテストに合格すると人間を破壊して世界を支配するという意味でもありません。これは基本的に、ほとんどの人が知らないような非常に専門的な科目からの非常に難しい質問のセットです。いくつかのサンプル質問があり、結果を見ると、Claude 3.7 Sonnetは8.9点を獲得し、DeepSeek R1とOpenAI O1をわずかに上回りましたが、O3 Miniの通常バージョンよりも下回っています。
これで仕様とパフォーマンスの概要は終わりです。これで最終的な質問に行き着きます。あなたはClaudeを使用すべきでしょうか?それは最高のモデルですか?確かにそうかもしれませんが、おそらく48時間だけです。その後、GPT 4.5がリリースされ、それを完全に破壊し、おそらくその次の週にはDeepSeek R2が登場して他のすべてを破壊するでしょう。それは決して終わりません。このペースでは、私は休暇に行く時間がないかもしれません。
このビデオを楽しんでいただけたら幸いです。コメント欄で、このモデルについてどう思うか教えてください。Claude 3.7を使用する機会があった場合は、これまでの経験を教えてください。どのような素晴らしいものやインスパイアされるものをこれで作成できましたか?いつものように、トップAIニュースやツールを探し続け、皆さんと共有していきます。このビデオを楽しんでいただけたなら、「いいね」、共有、登録をお忘れなく、そして今後のコンテンツにもご期待ください。
また、毎週AIの世界で起こっていることをすべて私のYouTubeチャンネルでカバーすることはできません。AIで起こっているすべてを本当に最新に保つために、私の無料の週刊ニュースレターにぜひ登録してください。そのリンクは説明欄にあります。
視聴いただきありがとうございます。次回またお会いしましょう。

コメント

タイトルとURLをコピーしました