Anthropicの衝撃的な新モデルがソフトウェア業界を壊す!クロード3.5ソネットの非常識なコーディング能力

AIに仕事を奪われたい
この記事は約26分で読めます。
Anthropic's SHOCKING New Model BREAKS the Software Industry! Claude 3.5 Sonnet Insane Coding Ability
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

人々が大規模言語モデルが壁にぶつかったかどうか議論している間に、Anthropicがこの小さな宝石、Claude 3.5 Sonnetをリリースしました。これは、私たちがある種の閾値を越えたように感じられ、かなり大きな意味を持つと思います。
私はClaudeに、Flappy Birdゲームを作成するよう依頼しました。すると、アーティファクトウィンドウにコードを書き出しました。見た目はかなり良いですね。正直言って、これまでテストしたモデルの中で、これが最高のFlappy Birdゲームだと言わざるを得ません。
では、スネークゲームを作ってみましょう。果物の画像の代わりに、ダンジョンズ&ドラゴンズのモンスターを表示させてみましょう。10種類の異なる画像を生成し、それらをランダムに果物として表示させます。
おお、これは良いですね。ゼラチナス・キューブですか。いいですね、Claude。ゴブリン、ドラゴン、そうですね、ビホルダー、素晴らしい。これらは20×20ピクセルの小さな画像に収める必要があることを考えると、おそらくかなり良く見えるでしょう。
新しい機能を追加しましょう。敵を食べるたびに、画面上部にテキストを1秒間点滅させましょう。例えば、ドラゴンを食べたら「Dragon Slayed」と表示するようにします。
各モンスターにXPポイントを設定し、プレイヤーがそのモンスターを食べたときにポイントを獲得するようにしましょう。XPポイントは、そのモンスターの相対的な強さに相当するようにします。例えば、ドラゴンはゴブリンよりも強いので、ドラゴンの方がはるかに多くのポイントを与えるべきです。1回の殺害につき1〜20ポイントの範囲で設定しましょう。また、コーナーにXPカウンターを追加しましょう。
完璧ですね。左上にXPバーまたは数字が表示されています。マインドフレアは9ポイント、ビホルダーは17ポイント、ラストモンスターは5ポイント、ゴブリンは1ポイント、そしてドラゴンは20ポイントですね。経験値バーが移動しているのも確認できます。これは素晴らしい、完璧です。
少し複雑にしてみましょう。2つの機能を追加します。1つ目は、スネークを伸ばす長さをXPポイントと同じ数のブロックにすることです。つまり、20ポイント相当のドラゴンを食べたら、1ユニットではなく20ユニット分成長するということです。
2つ目の機能は、画面上部からランダムに落下するオブジェクトを追加することです。これらがスネークと交差した場合、交差した場所より後ろの部分が切り取られます。切り取られた部分は数秒間そのまま残り、その後消えるようにします。
ドラゴンを倒したり何かしたときに、スネークを横切るものを見てみましょう。おお、完璧です!少しの間画面に残り、色が変わって、そして消えました。素晴らしい。これは完璧に動作しています。本当に素晴らしいです。まさに私が望んでいた通りです。驚くほど上手く機能しました。正直、少し驚いています。
これは、初めて何も間違えずに、意図した通りに動作しました。それに、戦う必要もありませんでした。いくつかの小さな間違いはありましたが、それらを修正し、最終的には完璧に遊べるゲームができました。そして最も重要なのは、これをさらに発展させ続けられること、より良くするために変更を加え続けられることです。ワオ、ワオ。
直接上に向かって進んだときも、うまく処理できていることに注目してください。ここでエラーを作り出せるかどうか試してみましょう。はい、赤いものにスネークの最後の部分が当たるとゲームオーバーになることも理解しているようです。Claude、あなたは私の心を吹き飛ばしています。
正直に言って、これまでに多くの異なるモデルをテストしてきました。確実にトップクラスのものはすべてテストしましたが、これほど優れたものはありません。すべての機能が保持されていることに注目してください。その間、何も失われず、何も消えてしまうことはありませんでした。私たちが追加した新しい部分、新しい機能はすべてゲーム内に残っています。そして、その間に2つの小さな問題がありましたが、どちらもClaudeが最初の試みで修正しました。エラーメッセージを与えると修正し、以前に命名規則が間違っていたと伝えると修正します。それを覚えていて、修正されたままになります。
これは根本的にゲームチェンジャーのように感じます。私たちはある種の障壁、ある種の閾値を越えました。それは今、非常に有用なものになるほど正確になっています。そして、私たちがこの地点にどれほど早く到達したかを考えると、1年前には本当にこれに近いところにはいませんでした。そして今、それはうまく機能しています。これは素晴らしいですね。そして、正直言って少し怖いです。
もう少し押してみましょう。これは以前にカバーしたプロジェクトです。Santiago Valderramaによって作られたものです。彼はYouTubeチャンネルを持っていて、TwitterやXにもいます。彼はこの本当にクールなプロジェクトを持っています。彼はそれをAlloy Voice Assistantと呼んでいます。これがそのコードで、これが基本的にどのように機能するかです。
そのファイルを実行すると、「今、カメラに何を持っていますか?」と聞くことができます。「チャップスティックのチューブを持っているようですね」「今、カメラに何を持っていますか?」「Arrowheadの水のボトルを持っていますね」「今、カメラに何を持っていますか?」「Voltrex blender bottleを持っていますね」「このブレンダーボトルはどのように機能しますか?」「Voltrex blender bottleは、充電可能なモーター付きのベースを使用して機能します。携帯性があり、外出先でのミキシングに便利です」
「下部のピースを取り外しましたが、下部のピースは何をしますか?」「下部のピースにはモーターと充電式バッテリーが収納されています」
かなりクールですよね?カメラのストリーミング方法を見て、そのスクリーンショットを撮り、あなたが投げかける質問に答えるアシスタントです。GeminiモデルやOpenAIのGPT-4、または他のモデルを使用しています。かなり高度なセットアップに聞こえますね。同意します。
さて、それはそれとして、ご覧の通り、ここにはたくさんのコードがあります。多くのことが起こっています。デフォルトでは、GeminiモデルとOpenAIモデルしか使用できませんが、いくつかの機能を変更したい場合はどうでしょうか?
通常、変更できる範囲は、あなたのコーディング能力に依存します。例えば、初心者のコーダーであれば、現在モデルがGemini 1.5/latestに設定されていることは理解できるでしょう。そして、別のモデル、例えばOpenAIのGPT-4モデルを使用したい場合は、このコードをコメントアウトし、こちらのコードのコメントを解除すれば、このモデルの代わりにそのモデルを使用することになります。
しかし、他にも多くの難しいことがあります。例えば、ウェブカムの代わりに、デスクトップのスクリーンショットを撮ってモデルに送り、デスクトップで何が起こっているかをコメントするようにしたい場合、それはかなり難しくなります。
まず最初に、このファイルをコピーして、Claudeで新しいチャットを開始し、「このPythonプロジェクトが何をするか説明してください」と言います。
面白いですね。Control+Vでそのプロジェクト全体をペーストすると、171行のペーストされたテキストとして表示されます。ここに表示されるのではなく、Claudeは驚くほど良い方向に進化し続けています。本当に素晴らしいです。
「実行」をクリックすると、完璧に理解します。視覚的および音声入力と自然言語処理を組み合わせたインタラクティブなAIアシスタントです。ウェブカム統合をチェックしてください。コンピューターのウェブカムからのライブストリームを利用しています。マイクを使用してユーザーの音声入力を継続的に聞き取り、OpenAIのWhisperモデルを使用して音声を検出します。これはかなり大きなことです。なぜなら、コードを通して何をしているのか、どのツールを使用しているのかを本当に理解するのは簡単ではないからです。
そして、GoogleのGeminiモデルまたはOpenAIのGPT-4(コメントアウトされています)を使用してユーザーのクエリを処理します。AIはユーザーの話した質問と現在のウェブカム使用の両方を考慮に入れます。会話履歴を維持し、テキスト読み上げを生成します。そのため、モデルが答えると、その答えを音声に変換して聞こえるようにします。また、視覚的な表示のためのウィンドウも持っています。そのため、カメラに物を掲げている自分を見ることができ、プログラムはウェブカムの映像を常にキャプチャし、音声入力を待ち受けるループで動作します。
ステップ1として、「コードを書き直し、すべてのコードブロックに詳細なコメントを追加して、どの部分のコードが何をするのかを理解できるようにしてください」と言います。
「実行」をクリックします。それが完了するまでに10秒ちょっとかかりました。これをコピーして、元のプロジェクトファイルがあります。ご覧の通り、ここにはただコードがあり、コメントはあまりありません。Claude 3の出力を単純にコピーアンドペーストします。
そこにあります。緑のテキストがコメントです。各コードの部分が何をしているのかを正確に教えてくれています。「ウェブカムの入力を処理するためのウェブカムストリームクラス」「ビデオキャプチャデバイスを初期化」「最初のフレームを読み取る」などです。
さて、そのプロジェクト内の事柄を変更するために何ができるか見てみましょう。例えば、出力を音声に変換するテキスト読み上げを使用していますね。デフォルトではAlloyという声を使用していますが、代わりにShimmerを使用したいとします。Claudeに行って、「現在、音声アシスタントの声はAlloyに設定されています。ShimmerÂに変更してください」と言います。
コードブロックを変更しただけのようですね。すべてを書き出すように頼めば、きっとそうするでしょうが、トークンを節約しようとしているのだと思います。これを入れて、どのように機能するか見てみましょう。完了です。それを実行して、うまくいったか確認してみましょう。「今何時ですか?」「12時53分です」
超簡単でしたね?何も複雑なことはありません。もう一段階上げてみましょう。
再びそのプロジェクトを取り上げ、ここにペーストします。そして、「これを書き直して、ウェブカムの代わりにスクリーンショットを撮り、それらの画像を使用するようにしてください。基本的に、全機能を維持しながら、ウェブカムからの画像の代わりにデスクトップのスクリーンショットを使用するようにしてください」と言います。
小さなエラーメッセージが出ているようです。それをそのまま戻して貼り付けます。他の場合にはそれを解決できたので、これも解決できるはずです。
「Pillowライブラリがありません。pip install pillowを実行してインストールする必要があります」とアシスタントが言っています。「画面に何が表示されていますか?」「白いローブを着た男性が水の中に立ち、アヒルに餌をやっている写真です。親指を立てています」「これはどのTVショーからだと思いますか?」「それはトニー・ソプラノです。『ザ・ソプラノズ』からのシーンで、彼がアヒルに餌をやっているところです」「今、画面に何が表示されていますか?」「ウェブブラウザのスクリーンショットで、Commander Keen 4というゲームのGIFが表示されています。キャラクターが道を歩いています」「今、何を見ていますか?」「Google Chromeブラウザウィンドウを見ています。ブラウザにはMinecraftの部屋の画像が表示されたウェブページが開かれています。赤いカーペットとチェストがあります」「このコードは何をすると思いますか?」「このコードはOpenAI APIを使用してテキストを音声に変換し、pyaudioを使用して再生します」「これは私が実行しているコードですか?」「はい、それは私のアシスタントの核心部分です」
さて、もう少し面白くしてみましょう。GeminiやGPT-4の代わりに、Claude APIを使用してClaude 3.5 Sonnetを我々のアシスタントとして使用し、これらの質問に答えさせたいとします。再び、プロジェクト全体をそこにペーストし、Claudeに「このプロジェクトを作り直してください。ただし、Geminiの代わりにClaude 3.5 Sonnetモデルを使用してください」と伝えます。
テストしてみましょう。2024年2月29日のClaude 3 Sonnetを使用しているようですね。手動で更新する必要があるかもしれません。これはmodel-3d5-sonnetのようですね。Claudeにそれを入れるように言えば、きっとできるでしょう。この時点で、それができると確信しています。しかし、私自身で手動で入れてみます。そこに追加して、もう一度実行して何が起こるか見てみましょう。
再びエラーが出ました。それをClaudeにペーストして修正してもらいます。もちろん、pip installコマンドですね。pip install langchain anthropicです。コーディングをしない人のために言えば、基本的に実行する必要のあるコマンドを教えてくれているだけです。何が起こっているのか理解する必要さえありません。この時点では、理解する必要はないのです。
「今、画面に何を掲げていますか?」「Cloud APIにアクセスするにはクレジットが足りません」。クレジットを再ロードしたので、見てみましょう。「今、画面に何を掲げていますか?」「お金を払ったんだから答えなさい」「チャップスティックを画面に掲げています」「紙に何が書かれているのが見えますか?」「画像にはノートブックが写っていて、『ball』と書かれています。そして、簡単な目の絵も描かれています。フレーム内にマイクも見えます」「紙に書かれているものに基づいて、それが象徴している言葉は何だと思いますか?」「『ball』という言葉と目の絵が組み合わさっていることから、おそらく『eyeball』(眼球)を象徴していると思われます」
APIのレート制限があるようですね。おそらく1分間または10分間に3,000トークンという制限です。そのため、Claude 3.5 Sonnetであまり多くのテストはできません。理解できます。APIのレート制限はテスト時にフラストレーションの原因になることがありますね。
「画像にはオーディオを録音している人が写っています。おそらくポッドキャストやストリーミング用だと思われます」「今、カメラに何を掲げていますか?」「オレンジ色のドライバーをカメラに掲げています」「今、カメラに何を掲げていますか?」「赤外線温度計を持っています。表面温度を測定するために使用される黄色と黒の手持ち装置です」「今、カメラに何を掲げていますか?」「水準器を持っています」「今、カメラに何を掲げていますか?」「青い壁裏センサーまたは壁スキャナー装置を持っています。上部に表示ライトがあり、ワイヤレスモデルのように見えます」「今、カメラに何を掲げていますか?」「小さなUSBデバイスまたはドングルを持っています」「この物体は何だと思いますか?」「あなたが持っているのはシャーピーマーカーです」
Doomライクなゲームを作成するようClaudeに頼んだところ、「はい、できます」と言われて驚きました。ブラウザで遊べるゲームを作成してくれたのです。文字通り、歩き回ることができます。左上にマップが表示されています。「スペースバーを押して斧を振る」と言っています。ああ、それが私に向かってきています。直接向かってきています。私を殺しました。これは何の難易度なのでしょうか。
リフレッシュしてみましょう。ああ、また向かってきています。斧で攻撃できますね。スペースバーを使って斧で攻撃し、こうやって倒すことができます。近づきすぎると体力を失います。私たちが求めていたものとは少し違いますが、悪くはありません。
敵を1か所に固定してみましょう。そうですね、それが敵のようです。角にいるので、近づいて攻撃できます。
ここにエラーがありますね。おそらく、モンスターをマップの境界外に配置してしまったからだと思います。モンスターがマップの境界内にいることを確認してください。
他に気づいたことは、これが10秒以上実行されたことです。私たちが求めているものすべてを満たすために、どれだけのコードを書いているかを見てください。
ここでプレビューに行くと、モンスターがそこに座っています。はい、確かにマップの境界内にいます。角の方にいるようですね。近づいてみましょう。あ、殺されてしまいました。150ユニットぐらい近づくと攻撃を開始するようです。見てみましょう。近づいて攻撃を始めると、勝利しました。
正直言って、ここには多くの良いことが起こっています。完璧ではありませんが、最初から始めて、求めているものを正確に説明する必要があると思います。これはスネークゲームのように単純なものではないので、もう少し説明が必要です。
しかし、Claudeは本当に問題を理解し、特定の問題を修正する方法を理解していると言わざるを得ません。私が望むものを説明できれば、このようなものを作成できるはずです。再度言いますが、非常に堅実なパフォーマンスです。完璧ではありませんが、非常に堅実です。そして、これは私のスキルの問題だと本当に感じています。数時間これで遊んでみれば、問題なくこのようなものを作成できるようになると思います。
これは彼らのウェブサイト、anthropic.comにある3.5 Sonnetリリースに関するブログ記事です。3.5は彼らの今後のモデルファミリーで、進化の次のステップのようなものです。これは3.5ファミリーの最初のリリースです。そして、Claude 3.5 Sonnetが無料で利用可能になっているようです。
OpenAIがやっているのと同様に、彼らは最高のモデルを誰でも無料で使えるようにしています。サブスクリプションは必要ありません。ただし、サブスクリプションがあれば、はるかに高いレート制限を得られ、もちろんAmazon BedrockやGoogle Cloud Vertex AIを通じてAnthropicのAPIにもアクセスできます。
モデルのコストは、入力トークン100万件あたり3ドル、出力トークン100万件あたり15ドルで、20万トークンのコンテキストウィンドウがあります。OpenAIと比較すると、GPT-4の最新モデルは入力が100万トークンあたり5ドルで、Anthropicの3ドルに対してほぼ2倍です。GPT-4の出力は100万トークンあたり15ドルで、Claude 3.5 Sonnetと同じです。したがって、Anthropicは入力で少し勝ち、出力では同じです。
Claude 3.5 Sonnetは、Claude 3 Opusの2倍の速度で動作します。つまり、はるかに優れていて、はるかにスマートで、2倍速く、そして安価です。
ここに最先端のビジョンについての小さなクリップがあります。「他の学生が今夜のゲノミクスのスライドを求めているようですね、クイーン」学生がClaudeを呼び出すと、「こんばんは、サム」と言います。ここには多くのことが含まれていて、私はそれについて深く掘り下げませんが…
私の読み過ぎかもしれませんが、彼らは製品リリースに実際のディストラックを入れているのかもしれません。しかし、それはそのままにしておきましょう。
彼らは、ビジョンをアップロードし、文書を作成し、協力してアイデアをやり取りして最終的な成果物を出力するために、このAIアシスタントを使用する方法を段階的に説明しています。正直言って、これが未来だと明らかになってきています。私たちは皆、コンピュータータスクを支援してくれるこのような種類のアシスタントを持つことになるでしょう。
このリリースで、Anthropicは本当に素晴らしいものを作り出しています。なぜなら、追加されたこれらの本当にクールで直感的なものの多くが、単純に機能するからです。この時点で、彼らがOpenAIに追いつき、あるいは追い越したと感じています。
ビデオの別の部分で示したように、右側にあるこの長いコードをコピーしてClaudeにペーストすると、通常はそれが何ページにもわたってプロンプトウィンドウにペーストされるだけです。しかし、そうではありません。代わりに、そのコードを含む小さなサイドドキュメントのようなものを作成し、プロンプトウィンドウをきれいに保ちます。
最初、これは大したことではないように感じるかもしれません。しかし、これらのものをかなり頻繁に使用し、時にはかなり複雑なものに使用する人間として、このような小さなことが本当にプロセスをスムーズにします。なぜなら、これのようなものは、それを行うたびに数秒を節約してくれるからです。おそらく5〜10秒を節約してくれるでしょう。すべてが正しくフォーマットされていることを確認し、質問が上にあり、ペーストされたものが下にあることを確認する時間です。
また、特定のエラーが発生するのを防ぎ、精神的な空間の観点からも、すべてを整理するのに役立ちます。これをソフトウェアの100のタッチポイントにわたって掛け合わせると、累積的にかなり大きな問題になります。非常に重要になります。
もちろん、これはすぐにコピーされるでしょう。つまり、このデザインはすぐにみんなにコピーされるでしょう。しかし、このような小さなことに対して、Anthropicを称賛せざるを得ません。彼らは本気です。彼らは勝つために全力を尽くしています。
しかし、これに戻りましょう。Claude 3.5 Sonnetを、以前の大きなモデルであるClaude 3 Opusや、GPT-4、そしてGPT 1.5 Proと比較しています。文字通り、この分野で最高のモデルと比較しています。
ここで、この新しいモデルは5つのテストのうち4つで最高の性能を示しています。視覚的数学推論ではかなり優れています。科学図表ではわずかに優れています。視覚的質問応答ではGPT-4にわずかに遅れを取っています。グラフQ&Aでは絶対的に優れています。これは彼らが本当に苦労していた分野です。速度計、定規、グラフ、線をトレースすることについて何か難しいものがあります。私がここにカーソルを置いたとき、視覚的にその数字が何であるかを推測できるでしょう。しかし、私が見た限りでは、ビジョンモデルはそのようなことが本当に苦手なようです。そして、文書視覚Q&Aでは絶対的に信じられないほど優れています。
そして、彼らはアーティファクトについて話しています。正直言って、アーティファクトはこの美しいケーキの上のチェリーです。それは良いです。非常に良いです。
ここにポップアップするアーティファクトウィンドウにコードと画像が表示されるゲームをコーディングしました。そしてそれらはすべて保存されます。戻って、欲しい画像をすべて取得できます。それがグラフや図表であっても、邪悪なモンスターの絵であっても同じです。そして、コードも同様です。
細かいことを言えば、20枚の画像を生成した場合に、20枚すべてを一度にダウンロードするオプションが見当たらなかったと思います。見逃したのかもしれませんが、大したことではありません。きっと簡単に追加できるでしょう。他のすべては本当に素晴らしいです。
また、コーディングをしている場合、一つのウィンドウにコードを生成し、別のウィンドウに何をしたのかの説明や指示を書き出すという事実も非常に役立ちます。なぜなら、コードを取得してどこかにペーストする必要がある場所にペーストしながら、コードに関する自然言語の説明を生成することができるからです。それはより自然で直感的に感じられます。
異なるものに対して複数のウィンドウ出力を持つことは、一見小さなことのように見えますが、それで遊び始めると、物事をどれほど簡単にするかに気づきます。これらの小さな改良が、この製品を本当にまとめ上げています。
彼らは、安全性とプライバシーの観点から、このモデルがまだトップクラスであると言っています。Claude 3.5 Sonnetの知能の飛躍にもかかわらず、彼らの評価では、それはまだ…
そして、もし知らない人がいれば、これはAnthropicが考案したものだと思います。創設者のDarioがこれについて話しています。AIの安全性レベルがあります。ASL3は、かなり高いリスクがあります。基本的に、破壊的な誤用のリスクが大幅に増加する可能性があります。誰かがハッキングや武器開発、または私たちが望まないような奇妙なことに使用する可能性があります。または、低レベルの自律的能力を示すものです。
4と5、そしてそれ以上のレベルはまだ定義されていません。それらは推測的です。2は現在の大規模言語モデルが存在する場所です。そして、Claude 3.5 Sonnetはまだその2番目の安全性レベルにあります。つまり、私たちは安全です。
もちろん、Claude 3.5 HaikuとClaude 3.5 Opusは今年後半にリリースされる予定です。つまり、今後6ヶ月以内にリリースされるでしょう。Claude 3.5 Opusを試すのが待ち遠しいです。それは興味深いものになるでしょう。
この単語パズルを解いてください。何を意味していると思いますか?
画像には特定の単語を音読するものは表示されていません。「funny」(面白い)と「words」(言葉)が繰り返し表示されています。これらはおそらく、話したときに奇妙に聞こえたり、人々を笑わせたりする面白いまたは奇妙な言葉を指しているのでしょう。
「funny」という単語は何回書かれていて、「words」という単語は何回書かれていますか?そして、それは何を意味する可能性がありますか?
「funny」は2回、「words」は4回表示されています。このレイアウトは、ユーモラスな言語に遊び心のある強調を示唆しているかもしれません。
これは4語の文章に変換されます。「too funny」で始まり、どのように終わりますか?
「too funny for words」(言葉にできないほど面白い)です。
これは何を意味すると思いますか?
「Man Overboard」は、何かを警告するために使用される航海用語です。
これは何を意味すると思いますか?文字がジャンブルされていますが、並べ替えると「word boards」になります。
実際には、何かの中にクマがいることを意味しています。クマに関する言葉が何かわかりますか?
「bear on board」(クマが乗っています)です。ジャンブルされた文字「WB O E O D RS」を並べ替えると「bear on board」になります。これは一般的な「Baby on Board」(赤ちゃんが乗っています)サインのもじりです。
解答は「bear in the ____」です。空白に入る言葉は何ですか?
空白に入る言葉は「woods」(森)です。完全なフレーズは「bear in the woods」(森の中のクマ)で、これは「W R S」の文字を並べ替えることで形成できます。
これは何を意味する可能性がありますか?「Long Hill」という言葉が縦に並んでいます。上から下に「Hill」とスペルアウトされています。
縦の配置は高さや長さを示唆し、「Long Hill」(長い丘)を意味しています。上から下へスペルアウトされているという事実は、他の意味を示唆している可能性がありますか?
「Downhill」(下り坂)です。上から下への「Hill」の縦の配置は、降下または下向きの方向を示唆しています。したがって、「downhill」を意味しています。
これは何を意味する可能性がありますか?「Grass over me」
「grass」という単語が緑色で表示されています。これは通常、「grass over me」というフレーズを示唆し、埋葬されたり忘れられたりすることを意味します。
それは違います。他に何を意味する可能性がありますか?
「The grass is greener」(向こうの芝生は青い)です。明るい緑色の「grass」という単語は、よく知られているフレーズ「the grass is greener on the other side」(向こうの芝生は青い)を示唆している可能性があります。
私は単に「green grass」(緑の芝生)だと思います。
これは何を意味していますか?
「Major League」(メジャーリーグ)です。「league」という単語はスポーツの文脈でよく使用されます。
これは何を意味していますか?
画像には「promises」という単語が断片的または壊れたスタイルで書かれています。これは、果たされていない約束、壊れた約束、または約束の複雑さと脆弱性を示唆している可能性があります。
これは何を意味していますか?
「Knock on wood」(縁起担ぎで木を叩く)です。「knock」という単語が「Timber」(木材)の上にあります。「Timber」は「wood」の別の言い方です。
これは何を意味する可能性がありますか?
「Playing side by side」(並んで遊ぶ)です。「playing」という単語がボックスの中にあり、「side」が縦に書かれているので、「playing side by side」というフレーズを示唆しています。
それは違います。他に何を意味する可能性がありますか?
「Playing inside」(中で遊ぶ)です。「playing」という単語がボックスの中にあり、「side」が縦に書かれているので、「playing inside」というフレーズを示唆しています。
それに近いですが、答えは別のものです。他に何を意味する可能性がありますか?
「Playing outside」(外で遊ぶ)です。「playing」という単語がボックスの中にあるので…
要約すると、これはリリースから約6時間後の時点での私の評価です。これまで6時間弱使ってきましたが、すべての面で良さそうです。正直に言って、これまでのところ最高のモデルだと言えます。もちろん、数日使ってみると、より多くの問題が見えてくるかもしれません。あるいは、幻滅するかもしれません。しかし、今ここに座って、それが生まれてリリースされた最初の日の終わりに、これは恐らくGPT-4が登場して以来、最も興奮したモデルです。
GPT-4は、誰もの期待を超えた大きなものでした。他のモデルは本当に同じような興奮を引き起こしませんでした。Claude 1や2、GPT-4 Turboはクールでした。Gemini 1.0も確かに。Claude 3 Opusは確かに一部の人々の注目を集めました。非常に興味深いものでした。そこには確かに何かがありました。ある種の火花のようなものが。多くの人々がそれは自己認識がある、意識があると考えました。それについての議論がありました。私はそうは思いません。彼らはただ、それをより…私は知りません、人間らしくするために本当に良い仕事をしたのだと思います。しかし、人々がそれに夢中になった理由は確かに理解できます。
様々なアプリケーションでそれを使用していると、「おお、この物は何かが起こっている、何か新しいことが起こっている」と思うことがありました。GPT-4の後、あまり興奮することはありませんでした。GPT-4自体はそれほど興奮するものではありませんでした。なぜなら、人々が本当に熱狂したのは音声モードだったからです。それはまだ有効化されていません。これらのアシスタントとのリアルタイムの音声会話のデモを何度も見てきましましたが、それはまだ発表されただけで、「数週間以内に」と言われています。まだ見ていません。フラストレーションがたまります。
そして今、Claude 3.5 Sonnetが登場しました。今ここに座っている時点で、GPT-4と同じくらい記念碑的なものかもしれないと感じています。特にコーディングに関してです。もちろん、もっとテストを行って確認する必要がありますが、Twitterで多くの人々の反応を見ていますし、私自身の結果も見ています。そして、みんなが驚いているようです。
ここにAlex Albertがいます。彼はAnthropicのAIを担当しています。この新しいモデルで彼ができたことすべてを示しています。そして、彼が指摘している興味深いことがあります。彼は言っています、「Claude 3.5 Sonnetは、私が知る最高のエンジニアたちのタイムラインを変えた最初のモデルです。これは、Claude 3.5 Sonnetが彼らが使用しているオープンソースライブラリのバグを修正した後の、私たちのエンジニアの一人からの実際の引用です。」
そして、ここにそのエンジニアがいます。匿名にされていますが、彼は言っています。「これは私にとって前例のないことです。通常、この複雑さレベルの問題では、Opusができる最大のことは、私を道筋に導くか、自分で試すべきいくつかのオプションを与えることです。」つまり、今日までの彼らの最高のモデル、最大のモデルです。彼は言っています。「Opusを強く押しすぎると、解決策を幻覚し始めたり、予測可能な間違いを始めたり、奇妙な方向に行ってしまったりします。私たちはみんなそういう経験をしてきました。これは、モデルが本当に『距離を走り切った』最初の時です。」
これは、私が行ったいくつかのテストで経験したことと全く同じです。それは距離を走り切ります。複雑さが増すにつれて崖から落ちるようなことはありません。単に燃え尽きたり崩壊したりすることはありません。それはただ進み続けるのです。
彼は言っています。「この相互作用によって、私の前提は永久に変わりました。Claudeを使うと、超能力を持っているような気分になります。突然、どんな問題も野心的すぎることはありません。プログラミングの未来がここにあります、皆さん。」
そうですね、これはチームの一員の言葉です。はい、彼らは自社の製品を宣伝しています。はい、これは全て慎重に受け止めるべきです。しかし、これは誇張ではなく、おそらく正確だと感じます。コーディングにおける飛躍は巨大に感じます。ベンチマークにはあまりよく反映されていません。なぜならベンチマークは10%、5%、2%など、少しずつ上がっていくだけだからです。しかし、それを使用する際に何が起こるかというと、それは大きな変化です。
コメント欄で、一部の人々はこれが段階的な改善だと言っています。確かに、チャートに示すと段階的に見えます。しかし、実際に使用してテストすると、段階的な改善とは感じません。ステップ関数のように感じます。私たちは一段階上がったように見えます。
とにかく、私はこのような誇大宣伝から離れます。しかし、自分で試してみることをお勧めします。ゼロから何かをコーディングしてみてください。簡単なところから始めて、その上に機能を追加していってください。グラフィックを追加し、グラフィックを生成させてみてください。または、GitHubから野心的なプロジェクトを取得して、それを分解できるかどうか、すべてを正常に機能させながら機能を追加できるかどうかを見てください。
きっと、それができないこと、失敗することが百万とあるでしょう。ここでいくつか見てきました。しかし、正直に言って、プログラミングの未来についてより楽観的になっています。または、仕事がなくなるという観点からは悲観的かもしれません。これは間違いなく最高のエンジニアたちがより多くのことをできるようにするでしょう。しかし、同時に、コーディングの経験がほとんどないか全くない多くの人々が、自分自身のために何か役立つものを構築できるようにもなるでしょう。
Anthropicに拍手を送ります。あなたたちが何をしているのか、そのまま続けてください。なぜなら、それはうまくいっているからです。
以上です。私の名前はウェス・ロスです。ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました