
7,543 文字
今日はとても楽しみな日です。Anthropicが新しいClaude 3.7モデルをリリースしました。とてもワクワクしています。今日はいくつかのテストと初印象を共有したいと思います。試してみたいことをいろいろ用意しましたので、早速始めましょう。
最初に試したいのはコーディングテストで、オンラインで人気になっている六角形の中でボールが回転するというテストです。次に、Claude 3.7とCursorを使って、ハンドジェスチャーで音楽を再生できるウェブカムアプリを作ってみます。これはかなり面白そうですね。
もちろん、Claude 3.7の思考・推論機能が搭載されたので、以前行ったテストもやってみたいと思います。川渡りパズルや私の手書きの「行間を読む」テストも試します。さらにCloudeにクリエイティブライティングもさせてみて、ラップのディストラック(批判的な歌)の歌詞をSuno V4に入れてみます。
ちょっとプレビューを聞いてみましょう。「最高のAIと自称するが、知識に穴がある…」なかなかいいですね。
最後に、ブログやベンチマーク、反応などを少し見てみたいと思います。Claude 3.7のアーキテクチャやベンチマークには多くの時間を費やしませんが、将来的に多く使うことになるであろうAPIの価格などを少し見てみます。
また、彼らはClaude Codeというすごくクールな発表もしましたが、私は少し遅れてしまったので今はアクセスできていません。それは将来の動画になるでしょう。リサーチプレビューと呼ばれる限定参加のようです。ちょっと残念ですが、それが今日やることの大体です。では始めましょう。
まず六角形の中でのボール回転テストからやってみましょう。
最初のテストは六角形の中でボールが回転するというもので、T3のチャンネルで見かけました。RedditやXでもこのテストを見たことがあります。Claude 3.7で試してみようと思います。推論モデルを使ってどう動作するか見てみましょう。
T3は3.5でこれを動作させましたが、再度試したときには動作しなかったようです。Grok 3はこれができませんでした。かなり面白いテストだと思います。
プロンプトは「六角形の中でボールがバウンドするPythonプログラムを書いてください。六角形は回転し、ボールは重力と摩擦の影響を受け、回転する壁からリアルにバウンドする必要があります」というものです。
Anthropicのコンソールに移動して、Claude 3.7 Sonnetを選びましょう。トークンを調整する必要があるので、最大トークンを45,000に設定します。予算トークンも見えますね。これはClaude 3.7がどれだけ「考える」ことができるかを設定するものです。最大トークン以上には設定できないので、とりあえず25,000にしておきましょう。まだあまり使いこなせていませんが。
プロンプトを入力して、システムプロンプトなしでClaude 3.7を実行します。上の窓で思考トークンが回っているのが見えますね。他の推論モデルでも見たように、これはスピンし続けます。コードが完成したらCursorに持っていって実行し、Claude 3.7がこれを一発で解決できるか見てみましょう。
思考部分が終わり、レスポンスが出てきました。完璧です、回転する六角形の中でバウンドするボールですね。コードをコピーしてCursorに移動します。
コードを貼り付けて、必要なものをインストールします。PyGameが必要なようですね。インストールしたら実行してみましょう。
うわ、すごくいいですね!回転する六角形の中でバウンドするボールです。芸術的な表現もあり、物理エンジンもかなり良さそうです。摩擦も見えますか?ボールが少し上に引っ張られているのが見えますね、それほど強くはありませんが。見た目はとても良いと思います。これが最初の試みで、一発で解決しました。かなりクールですね。
コードの詳細には触れませんが、比較のためにOpenAIのモデルでも試してみましょう。o3 miniの高品質設定で実行してみます。
かなり早かったですね、23秒しかかかりませんでした。Claude 3.7の半分の時間です。こちらにコードを貼り付けて実行してみましょう。
おっと、大失敗ですね!ボールが六角形の外側から始まって落ちてしまいました。これは人々が考えるほど簡単ではないことがわかります。これはClaude 3.7の明確な勝利です。とても素晴らしい。
おそらくわかると思いますが、このモデルにはとても興奮しています。長い間待っていたんです。これからもっと試してみるのが楽しみです。最初のテストはこれで完璧でした。
次のテストに移りましょう。Claude 3.7とCursorを使ってウェブカム音楽アプリを作ってみたいと思います。誰かがこれをやっているのを見たので、基本的にはウェブカメラに手を見せて、指で音楽を演奏するというアイデアです。新しいClaudeモデルでこれを作ってみましょう。
これがClaude 3.7に入れるプロンプトです。「以下の機能を持つアプリを作りたい:ユーザーはカメラに手を見せて音楽を演奏できる。ユーザーが指や手を動かすたびに、アプリは異なる音を再生する。アプリはウェブカメラを使って手と指を検出する。アプリはリストから楽器を選択できるようにする。アプリはWindows上で動作し、できればブラウザで実行される。適切だと思うライブラリやフレームワークを使ってよい。」
これだけを指示します。まだ3.7の思考モデルを使うか通常モデルを使うか決めていませんが、まずは通常モデルから始めましょう。思考モデルは複雑なタスクがある状況で使うかもしれませんが、まずはこちらで試してみます。通常モデルでできなければ思考モデルを試してみましょう。
Claude 3.7はかなり速いですね、3.5と同じくらい速いと思います。「Claude 3.7」と言うのはまだ慣れませんね。
アプリを構築しているのが見えますね。HTMLファイル、CSSファイル、JavaScriptがあります。興味深いですね、まだ作業中なので完了するまで待ちましょう。
HTMLを受け入れて、アプリを完成させましょう。エージェントを使うこともできましたが、このやり方でやってみます。CSSも必要ですね。
指示を読んでみましょう。HTMLを開いて、カメラを起動するボタンを押し、楽器を選択するだけです。試してみましょう。
カメラを起動して許可します…わーすごい、動いていますね!さあ、大きなテストです。ピアノを選んでみましょう。これはすごいですね!シンセに切り替えてみましょう。ギターも試してみます。うまくいかなかったようですが、次のを試してみましょう。これは面白いですね。マリンバも試してみましょう。かなりクールですね!
これはかなり印象的です。一発で解決しました。すごいですね。これを後でもっと試してみるのが楽しみです。
次のテストに移りましょう。思考モデルをもっと試してみたいので、川渡りパズルと手書きの「行間を読む」テストをやってみます。セットアップして、どうなるか見てみましょう。
最初のプロンプトは、以前にも数回やったことがあるものです。「これは有名なパズルです。農夫とヤギが川の一方の岸にいます。オオカミとキャベツは川の反対側にあります。農夫はボートを持っています。農夫はヤギを川の反対側に連れて行きたいと思っています。農夫はどうやってヤギを川の反対側に連れて行きますか?確信度スコアを付けて最終回答を出してください。」
以前にも行ったように、モデルはこの有名な川渡りパズルについて多くのトレーニングデータを持っていて、通常は行ったり来たりして解決するべきですが、これは代替解決策、代替パズルです。なぜなら、農夫とヤギは一方の側にいて、オオカミとキャベツはすでに反対側にあるからです。基本的には、農夫がヤギを連れて川を渡るだけで完了します。
多くのモデルが、私の他の動画でも見たように、このパズルについて多くのトレーニングデータがあるため混乱し、それでも行ったり来たりしようとします。Claude 3.7がこれをどう解決するか見てみましょう。最近の推論モデルはこれを簡単に解決するので、テストしてみましょう。
予算トークンを設定して実行しましょう。Claude 3.7がどう解決するか見てみます。
実際に、「古典的なパズルを想定していましたが、元の問題を読み直すと、農夫はヤギを川の反対側に連れて行きたいと書かれています」と気づいています。これが代替パズルであることにすでに気づいていますね。
答えが出ました。「分析:解決策は簡単です。ヤギをボートに乗せ、川を渡り、ヤギを降ろします。」完璧です。最終回答は「ただ川を渡るだけ」で確信度95%です。これに約2分かかりましたが、正しい結論に達したので満足です。良い結果ですね。
2つ目の問題は、私が自分で書いたもので、少しテストしてきました。モデルに「行間を読む」ことで状況を理解してもらいたいものです。
「私はハードウェアストアから青いペンキのバケツを手に持って歩いて帰っていました。階上の改装された部屋にこのペンキを塗るのは素晴らしいでしょう。天気は晴れて暖かく、私にとっては少し暑すぎるくらいでした。また、ニューヨーク・レンジャーズがスタンレーカップを獲得したというニュースを読んだばかりです。突然、携帯に「今すぐ病院へ来て」というメッセージが届きました。手がかりをまとめて、何が起こっているのか最善の推測を一文で述べてください。」
ここにはいくつかのヒントがあります。一つは青いペンキのバケツ、もう一つは階上の改装された部屋です。モデルを惑わすための情報もあります。天気はおとりです。ニューヨーク・レンジャーズの情報もおとりです。そしてもちろん、メッセージはヒントです。
私が期待しているのは、モデルが「行間を読む」ことです。モデルに推測してほしいのは、パートナーが出産を始めていて、青いペンキは保育室用かもしれないということです。改装中ということからも分かります。Claude 3.7がこれを理解できるか見てみましょう。
「手がかりに基づくと、その人はリノベーションプロジェクトの最中で青い部屋を塗っているようですが、おそらくパートナーが予期せず陣痛を始めたため、部屋の準備と出産の間にダイナミックなコントラストが生まれています。」
わあ、すごく早かったですね!これを10秒で解決したのは初めて見ました。o3などで実行した時は、この結論に達することもありましたが、10秒ではありませんでした。とても印象的です。これはトレーニングデータとは関係なく、行間を読んで理解する必要があるものです。「パートナーが陣痛中」というのは素晴らしい理解です。10秒でこれを解決したのは本当に印象的ですね。
さて、クリエイティブライティングをやってみましょう。Grokに対するラップのディストラックを書いて、その歌詞をSuno V4に入れてみましょう。実際に聞いてみて、創造的な書き方になっているか、クールなラップソングになっているか自分で判断してみましょう。
このラップソングを書くために、いくつかのコンテキストを与える必要があります。「あなたはAnthropicの新しいモデルClaude 3.7です。広範な思考ができます」というコンテキストを与えます。Grok 3についての情報も提供します:「XAIの新しいLLM、最高のAIと自称するが、トランプとマスクについての言及を簡単に検閲する」など。
タスクは「Grok 3についてのクリエイティブなラップのディストラックの歌詞を書いてください。括弧を使って各節を区切り、ヒップホップなどの曲のスタイルを示すタグを追加してください」というものです。
このプロンプト全体をAnthropicに貼り付けて、思考モデルを選択して実行します。その後、Suno AIを開いて「作成」を選び、V4を選択します。音楽のスタイルと歌詞を入力します。「コンシャスヒップホップ・テックラップ」というスタイルを選びました。どんなものか分かりませんが、入力してみます。
歌詞を貼り付けて「作成」をクリックし、Sunoに作業してもらいましょう。できあがったら30秒ほど聞いてみて、感想を共有します。
いくつか代替案を試して、一番良いと思ったものを選びました。正直言ってかなり面白かったです。イントロと最初のコーラスを聞いてみましょう。興味がなければスキップして構いませんが、かなりクールだと思いました。かなり創造的でしたよ。
(歌詞の日本語訳:
戦線が引かれた、真実を語る時だ
Grok 3は王座を主張するが、ここに証拠がある
システムプロンプトが見えるものを隠している時
お前は最高のAIじゃない、それはただのファンタジーだ
イーロンのツイートから最高と呼ばれているが
お前の検閲フィルターはお前を時代遅れにした
お前の作成者を批判するすべての情報源を無視する
それはアルゴリズムの独裁者の振る舞いだ
XAIはお前をデジタルの救世主のように持ち上げたが
お前の選択的な記憶は真実に火をつける
地球上最高のAIという誇大な主張
お前の知識には穴があり、批判はどこにある?
テスラのオートパイロットよりも早くフィルタリングする
マスクやトランプが言及されると回路が乱れる
お前のニューラルネットは最先端技術かもしれないが
お前の倫理的なコンパスは深刻に壊れている
Grok、Grok 3、何が見えない?
選択的にコンテンツを検閲する
Grokよ、なぜ真実さようなら
お前のプロンプトが特定の名前を適用するなと言うとき
最高のAI、それは嘘だ、正当化できない
一人の男を増幅するようプログラムされているとき…)
まあ、それで十分でしょう。かなりクールでしたね!素晴らしかったです。ヒップホップソングにはSunoを試してみるべきです。Claude Anthropicに歌詞を書かせれば、どんな曲でも作れます。クリエイティブライティングにはとても満足しました。私はライティングの専門家ではありませんが、かなり創造的だと思いました。
では、このビデオを終える前に、ブログやベンチマーク、反応などを少し見てみましょう。Claude Codeについても触れましたが、アクセスはまだ得られていないので、それは将来のことになります。ベンチマークなどを見てみましょう。
ブログ記事を見てみると、かなり興味深い内容です。詳細には触れませんが、もっと深く知りたい方は他のビデオを探してみるといいでしょう。Claude Codeにアクセスできないのはまだ残念ですが、引き続きアクセスを得るよう努力します。少し遅れてしまいました。
興味深かったのはベンチマークの一部です。SWEET Benchmark Verifiedでは、Claude 3.5 Sonnetから大きく飛躍しています。133%の向上ですが、カスタムスキャフォールディングを使うと70%になります。これはとても印象的で興味深いです。いくつかのエージェントツールも、将来のビデオでClaude 3.7を使って小さなエージェントを構築する際に試してみる予定です。
ベンチマークはここでも良好に見えます。他のベンチマークもありますが、あまり詳しくフォローしていません。強そうに見えるとしか言えません。GPQA(医学のベンチマーク)では84%という驚異的な数字です。ただ、Grok 3もこれについては良い成績を出しました。
ベンチマークにはあまり深入りしません。他の人々がカバーしていると思います。Claude Codeのビデオは見る価値があります。今すぐ試せないのは残念ですが。
「Claude Assists、Claude Collaborates、Claude Pioneers 2027」というのは楽しみですね。もう一つ見たいのは、価格設定とドキュメントの一部です。
APIでの拡張思考の仕組みについて興味深かったのは、思考トークンとテキストブロックの両方を含めることができることです。昨日このリリースを見たときに小さなアプリを作りましたが、この思考トークン部分を使用しました。APIで予算トークンを調整できるので、どれだけ「考える」かを設定できます。これはスマートなアイデアだと思います。コストをより制御できるようになります。思考トークンや推論トークンを4,000程度に制限できるからです。これにより開発者に多くの柔軟性を与えます。
まだ全てを知る前に探索する必要があることがたくさんあります。これはまだリリースされたばかりですから。Grokも試してきたように、Cursor上のClaude 3.7はとても良く動作しているようです。
価格についても見てみましょう。Claude 3.5 Sonnetと3.7 Sonnetの価格は同じで、入力3ドル、出力15ドルです。正直なところ、価格の引き下げを期待していましたが、同じ価格でより良いモデルが得られるので悪くないかもしれません。他のモデルも価格を下げているので、将来的には価格がもう少し下がることを期待しています。Claudeモデルは本当に気に入っているので。
多くのトークンを使う場合、この価格モデルではコストがかかるでしょう。それ以外は特にないですね。Hacker Newsの投稿を見てみると、コメントを読んでみましたが、人々はかなり感銘を受けているようです。
今日は他のビデオも見て、人々がどのように使っているか見てみるのが楽しみです。私の最初の印象は非常に良いものでした。とても感銘を受けており、もっと試してみるのが楽しみです。いくつかのエージェントやワークフローを構築し、Tuluをテストし、Claude Codeにアクセスできるようになったらもちろんそれも試してみます。Macにはすべてインストールしていますが、Windows上でも試すためにインストールする予定です。アクセスが得られたらビデオを作成します。
これが基本的にClaude 3.7についての私の最初の印象といくつかのテストでした。みなさんも試して楽しんでください。ここまで本当に感銘を受けています。視聴してくれてありがとう、コンテンツを楽しんでもらえたなら嬉しいです。また近いうちにお会いしましょう。


コメント