AIに対するバイブス評価ランキング

AGIに仕事を奪われたい
この記事は約38分で読めます。

22,255 文字

I ranked every AI based on vibes
There are a ton of models worth considering these days, so I thought I'd rank all the options...Thank you Fondo for spon...

私は今でも、1~2つのモデルから選んで仕事に取り掛かるだけだった昔を懐かしく思い出します。今日では、もっとずっと多くのモデルがあります。実際、これだけ多くのモデルがあるのです。あなたの仕事に考慮する価値のあるモデルがたくさんあります。
ほとんどすべてのこれらのモデルを公開しているチャットアプリを構築した者として、私はたくさんの考えを持っています。この1年間、私は常にモデル間を切り替え、それぞれの最良のものと最悪のものを見極めてきました。
また、私はT3チャットという非常に安価なチャットアプリをホストしているため、コストにも非常に敏感です。ちなみに、まだご存知なければ、T3チャットは月額8ドルです。そのため、これらのモデルについて多くの感情を持っています。
以前に短いツイートで、これらのモデルについての直感的なランキングを示しましたが、人々はもっと情報を求めていました。そこでビデオを作ることにし、考えれば考えるほど、単なる簡単な紹介ではなく、より伝統的なティアリストが必要だと思うようになりました。
幸い、私のコミュニティのLuratroidが素早くvzeroアプリを作ってくれて、様々なAIモデルをドラッグアンドドロップできるようになりました。これにより、これらすべてを皆さんと一緒に見ていくことができ、私がこれらのモデルをどのように考えているか、いつ使うか、いつ使わないか、そして最も重要なのは、それらがどのように互いに比較されるかについて感覚をつかんでもらえます。
これらのモデルのいくつかは、GPT-4.5や01、01 Proなど非常に高価です。これらの費用を支払うためには、ちょっと休憩が必要です。スポンサーの短い紹介をして、その後すぐに戻ります。
自分のビジネスを経営しているなら、これに注目したほうがいいでしょう。今日のスポンサーはあなたの最大の問題の一つを解決してくれるからです。私が長い間使ってきた会社なので、それがわかります。今日のスポンサーのFondoなしでどうやって自分のビジネスを運営するか想像できません。
彼らは簿記から税金まですべてを簡単にします。そして、もしある期限に備えていないなら、彼らに連絡するべきです。説明欄のリンクを使えば、今年の税金申告が50%オフになり、とても喜ぶことでしょう。
Fondoがどれほど素晴らしいか言えることはたくさんありますが、正直に言うと、彼らはあなたのチームの拡張のように感じるというのが最良の表現です。彼らと共有Slackに参加すると、そこから彼らが引き継ぎます。これまでこれほど多くのお金を節約できるスポンサーを紹介したことはないと思います。彼らは私のスタートアップのために何万ドルも節約してくれ、私たちの生活をはるかに簡単にしてくれました。
私だけがFondoを使っているなら、懐疑的な反応も理解できますが、私は何千もの企業の一つに過ぎず、その全てが非常に満足しています。おそらく私が過去に紹介した会社もあるでしょう。このページを見せるべきではないかもしれませんが、これらの小さなことがとても役立ちます。彼らは毎月あなたのビジネスのレポートを生成し、実際にいくらのお金を使い、実際にどれだけ稼いでいるかを追跡します。
銀行にある資金に基づいて残りの時間を計算してくれます。これらの数字を得るのはとても面倒で、それは彼らが請求する内容の一部でもありません。単に登録することで得られる小さな機能にすぎません。
ビジネスを運営することについて、これほど気分を良くしてくれた会社は他にないと思います。あなたが同じような立場にいて、税金や資金繰りや財務管理やコンプライアンスに関するこれらすべてのことがあなたを悩ませているなら、これはこれまでに使った中で最高のお金になると約束します。
これらの人たちがそれを理解していることを示すために、この広告が行われている唯一の理由は、私がFondoのCEOが主催するイベントに行ったからです。彼は私の良き友人であり、私が実際に価値があると思う数少ないスタートアップイベントを開催する人の一人です。少しおしゃべりした後、彼は私たちが協力できるかもしれないと気づき、私はそれにとても興奮しました。私は製品をとても気に入っているので、彼に割引さえ提供しました。
ビジネスを経営していて、財務担当者の全チームを雇いたくないなら、これが道です。私の言葉を信じてください。今日のビデオのスポンサーであるFondoに感謝します。今日soyb.link/fondoでチェックしてください。
さて、01とOne Proは新しくありません。新しいロゴは気にしません。ここにはたくさんの小さなことがあります。V0で素早く作りました。理解してください。皆さんはFigmaより洗練されたものを求めていました。これが得られるものです。
GPT-4.0から始めましょう。それは中間地点として完璧なモデルで、登場した時はそれほど印象的ではなく、価格も競争力がありませんでしたが、標準として中間点を設定しました。それが私がBティアに入れる理由です。
すみません、Figmaに戻ります。努力はしましたが、Figmaの方が機能します。Figmaでやります。誰かチャットでもっと良いFigmaを持っていますか?これはずっと良いです。Midnight Gerが私のFigmaテンプレートをはるかに良くしてくれて大感謝です。これはAI開発がどのようなものかの素晴らしいプレビューでした。適当に入れてください。
とにかく、ここに来ました。GPT-4.0が私の論理的な出発点として非常にドラッグ可能です。まさに中間の道。Bティアは4.0にとって非常に適切だと思います。ひどくはありません。物事をうまくこなしますが、他のものより優れたことは何もしません。当時はその価格に驚きましたが、標準のGPT-4よりもはるかに高速でした。
4に改良を加えた反復リリースで、主にパフォーマンス(スピード面)と価格を改善しました。デフォルトとしては問題ありません。特にOpenAIリストの他のモデル、例えば4.0 Miniと比較すると少し高価です。参考までに、ここに価格があります。
4.0は1百万入力トークンあたり2.50ドル、1百万出力トークンあたり10ドルです。4.0 Miniは1百万入力あたり15セント、1百万出力あたり60セントです。そして4.0 Miniははるかに高速で、特にAzureのようなプラットフォームでホストした場合はそうです。
結果として、4.0 Miniは非常に過小評価されていると思います。特に、安価で高速な小型モデルのカオスで始まった革命を考えると。もし4.0 Miniがこれらのものに価値があることを示さなければ、今日私たちが持っている小型モデルはなかったでしょう。
私はAティアに入れます。なぜなら、特にその時代としては本当に本当に良かったと考えるからです。その影響力のために別のティアがあればいいのにと思うほどです。現時点で4.0 Miniの使用を誰にも推奨していません。信頼してそれを推奨することはできません。しかし同時に、4.0 Miniは、例えばGemini 2.0 Flashのような私が推奨するモデルにつながった多くのことを開始しました。
参考までに、これが私たちの最初のSティアモデルになると思います。世界で最も賢いからではなく、4.0 Miniよりはるかに賢いからです。また、信じられないことに、2.0 Flashは4.0 Miniより安いです。2.0 Flashが4.0 Miniよりも安いだけでなく、4.0 Miniどころか4.0と同等かそれ以上に賢いというのは信じられません。
人工分析チャートを見てみると、2.0 FlashはSonnetと一般的な知能で競争し、4.0 Miniを圧倒しています。また、標準的な知能テストによると、4.0も相当な差で上回っています。
Flashはとても安いので、T3チャットではアプリを支払っていなくても無料で提供しています。T3に行けばすぐにプロンプトを開始でき、なぜなら無料だからです。サインインすればさらに多くのメッセージを得られ、支払えばさらに多くを得られます。
それを強調するために、Artificial Analysisの友人たちからのこのチャートを使いたいと思います。01が非常に高価すぎてチャート全体が歪んでいるので、今のチャートはゴミのように見えます。それをオフにしましょう。
これは、なぜGemini Flashが私にとってとても刺激的なのかを強調するのに役立ちます。この緑のセクションはチャートの垂直軸に知性、水平軸にコストがあるため理想的です。つまり、左に行くほど良く、上に行くほど良いです。
Geminiはここで革命的です。特に出たときは他に近いものがなかったからです。Deep Seek V3の半分以下の価格で、より良いパフォーマンス、つまりよりスマートなモデルでした。すごいことです。そして、例えばClaudeと比較すると、なぜGeminiがそんなにハイプなのかが分かります。
他のものと比較して信じられないほど安いです。そしてパフォーマンス面では、ここで緑にあるのは唯一のもので、パフォーマンスの中央点を超え、知性についても超えています。Llama 3.1より3倍も賢いにもかかわらず、それより速いです。
本当に良いモデルで、Flash程度の能力があれば解決できる問題が多いので、応答を待ちたくありません。デフォルトのモデルとして多くの人が手を伸ばす意味があると思います。なぜなら答えが速く得られるので、間違っていればすぐにわかるからです。
それはとても速いので、たとえGemini 2.0 Flashが半分の時間で間違っていたとしても、答えがとても速く得られて間違いに気づき、遅いモデルで再試行すれば、それでも時間の半分を節約することになります。絶対に価値があり、とても安いです。ほとんど無料に感じます。Flashを使ってください。本当に良いです。
Sティアの地位を獲得しました。今のところ、すべての特性によって私のお気に入りのモデルです。03 Miniも近いです。なぜなら価格も本当に良いからです。どれだけ安くて、どれだけ高いか見てください。このチャートで利用可能なモデルの中で最も高く、かなり側面にあります。安価なモデルより上ですが、高価なモデルよりはるかに下です。非常に便利なチャートです。Artificial Analysisは本当に便利です。
少しOpenAIモデルに戻りましょう。特に重要なものがいくつかあります。具体的には01です。01は革命的なことをしたモデルの一つです。思考、チェーンオブソートで非常に優れていた最初の広く知られたモデルでした。彼らは実際に何を考えているかのデータを示すことを拒否するほど優れていました。
そしてOpenAIと彼らの最大のパートナーであるMicrosoftの間でフレームウォーをもたらしました。Microsoftはどのように機能するかを理解したがっていました。01は誰もが予想したよりもはるかに優れていたため、AIが停滞したと言った私のビデオについて謝罪するようなビデオを作らざるを得ませんでした。
01は提供するものに対して素晴らしいですが、価格にそれが反映されています。01のAPI費用は1百万入力あたり15ドル、1百万出力あたり60ドルです。これは40よりも6倍高価で、40はすでにGemini Flashよりも25倍高価です。これは狂っています。
このモデルは単に不条理なほど高価です。そして、それは彼らが大量の利益を上げるために過剰に請求しているからではありません。このモデルに入っているデータや他のものの量が単に非常に多いため、処理には多くのコンピュートが必要です。
彼らは01でやっていることの多くで損失を出しています。特に月額200ドルのプロサブスクリプションではそうです。01は、どれほど実行するのが難しいかという点では高すぎるわけではありません。特にDeepsek時代では、出力の質に対して高すぎるのです。
考えれば考えるほど、最初に物事を少し高く置きすぎたかもしれません。40を下げます。40 miniも下げます。そして01を「革命的だが実際に使うべきではない」ティアに入れます。なぜなら現在知られている思考を開始したからです。しかし、どのようなコストで?信じられないほど高価です。
また、出力コストは直接比較できないことも注目に値します。なぜなら思考中に見ることさえできないトークンに対して料金を請求するからです。同じことを40と01に尋ねると、01ははるかに多くの出力トークンを生成します。
次に何を配置するか考えています。今はいいローティアが必要です。QWをFティアに入れます。これは議論を呼ぶかもしれませんが、気にしません。モデルを動作させるためにこれほど苦労したことはありません。技術的には高評価でしたが、それでも最悪です。
依然として動作させるのに非常に多くの作業が必要です。このモデルとそれを動作させる試みについて完全なビデオを持っています。「ウェイトウォッチャー」という独自の指標を発明しました。それは、質問するときに「待って」や「うーん」や「ふむ」と言う回数です。ただ永遠にループします。
QWQモデルから合理的な出力を得るのに非常に苦労しました。T3チャットでの自分の導入だけでなく、彼らの独自のウェブアプリでもそうでした。温度設定などをいじった後、ようやくほぼ使用可能な状態にしましたが、それは地獄でした。
実際、T3チャットでこれがどれだけ使われているか尋ねている人がいますね、それは良い質問です。私たちの分析を確認してみましょう。これが私たちのモデル使用状況の全時間です。QWQは10,000回使用されています。一方、例えば様々なR1デプロイメントは、提供者を変更したりしたため、夜と昼の差があります。
しかし、134万メッセージのFlashや100万以上の40 Miniのような大きなものと比較すると…明確にするために、40 MiniはGemini Flashをデフォルトにしてから横ばいになっていますが、それでも非常に良いです。しかし、文字通り10,000と100万以上の比較は面白いです。単に多くの人が使用するモデルではありません。試しに使ってみましたが、QWQには戻っていません。
幸いなことに、合理的な価格設定です。それが唯一の利点ですが、価格が適切なサンドイッチでもサンドイッチです。ここに2.5を入れることができます。標準的なQuenモデル、非思考バージョンをCティアに入れます。
そして、Llama 3.3も同じところに入れます。なぜこれらを並べて配置するのか?それは、それら自体では役に立たないからです。Quenやllamaに直接アクセスしている場合、おそらくあまり良くない答えを得るために必要以上のコンピュートを使用しています。
しかし、これらのモデルにはいくつかの強みがあります。強み1は、それらとほとんど関係がありません。それはGrock社です。Grockは独自のチップを構築してAI推論をはるかに高速化します。そしてはるかに高速というとき、それは100倍以上高速という意味です。Grock推論が行く速度は信じられないほどです。
T3チャットに行き、蒸留されたllamaモデルに移動して、「Pythonでアドベントオブコード2021の日3を解く」と尋ねてみましょう。これが出力される速度を見てください。追いつくのに十分速くスクロールすることさえできません。確実にそれほど速く読むこともできません。飛ぶように進みます。他のモデルが何分もかかることを数秒で行います。
これらのモデルは非常に効率的です。それはモデルが素晴らしいからではなく、Grockがそのタイプの推論を非常に高速に行うためだけにCPUを設計できたからです。LlamaとQuenが構築された方法は、Grockのチップとうまく機能し、その結果、少なくとも速度の面では信じられないようなパフォーマンスが得られます。
しかし、それらのモデルの品質は、一貫性が低く保証されていません。ありがたいことに、そこで友人のDeepseekが登場します。Deepseek R1標準モデルは革命的でした。Sティアに入れたい誘惑がありますが、唯一の理由は、実際にこのモデルを使用するべきではないと思うからです。
Deepseek R1はオープンソースの世界に推論モデルの力をもたらす画期的なものでした。魔法の瞬間です。しかし、このモデルの実行は最悪でした。本当に最悪でした。R1の公式APIはモデルが公開されてから1日以内にダウンし、2週間以上ダウンしたままでした。なぜなら、対処できるよりも多くのトラフィックを受けていたからです。
R1の他のプロバイダーはそれを非常に遅く実行していたため、まったく使用を推奨できませんでした。Artificial Analysisの友人たちのところに行って、さまざまなプロバイダーを見ると、これらのプロバイダーの大部分が1秒あたり10~20トークンの速度でモデルを実行していることがわかります。
ランダムな参照ポイントとして、私たちの40 miniデプロイメントは1秒あたり160~180トークンで実行されます。8倍遅いのは大きな違いであり、それを実感します。これは読書速度より遅いです。このプロンプトをオープンルーターを通じて標準のR1で再実行すると、違いがわかります。これはリアルタイムです。わかりますか?まったく比較になりません。
とはいえ、これは非常に賢いモデルです。ベンチマークとそのインテリジェンスランキングを見ると、はるかに高価なモデルよりも優れています。強力です。良いです。R1が行った素晴らしいことはたくさんあります。ただ実用的にするには遅すぎます。
ありがたいことに、彼らはそれを知っていました。そして、DeepSeekを使用して、Quenやllamaなど、実行が容易な他の小さなモデルにその知識を蒸留しました。R1が登場したとき、単一の巨大なモデルとしてだけでなく、実行が大幅に容易なこれらの小さなベース上に蒸留したモデルも一緒にリリースしました。
だからこそ、QuenとllamaはT3チャットで示したように、QuenやLlamaとしてではなく、Deepseek R1の蒸留バージョンとして驚くべきことができるのです。
最初にT3チャットでDeepseekのR1蒸留バージョンを公開したとき、多くの人々がそうではないのにR1と呼ぶ勇気があるとして炎上させました。彼らはそれをR1として公開しました。それが彼らが呼んだものです。
とはいえ、実際の適切な完全なR1ではありません。彼らは小さなものに元のDeepSseekモデルの学習を蒸留したため、実質的にR1のパフォーマンスを模倣しています。大きなモデルほど良くなることはありません。しかし、R1から得た結果は驚異的でした。
コーディングチャレンジのようなものでは、今日までR1 Llama蒸留が私が手を伸ばすものであることが多いです。このモデルから得られる応答の質に非常に感銘を受けており、標準R1にはほとんど手を伸ばしません。
とはいえ、R1蒸留はまだ十分に賢いとは言えず、信頼性も不十分なためSティアには入りません。しかし、これらを並べて配置します。標準R1は今日私たちがモデルに期待することの革命を開始し、現在私たちがいるこの新しいオープンモデルの世界を本当に始めました。
R1蒸留ははるかに良く機能し、蒸留の力を示していますが、それでもR1ほど賢くないため、特にOpenAIが反応している世界ではより難しい売り込みになります。
Sティアに入れる最初のOpenAIモデルは03 Miniです。このモデルには驚かされました。03 MiniはOpenAIが提供する他のすべてのものよりも安価で良いので、ほぼすべてに疑問を投げかけます。
40は1百万入力あたり2.50ドル、1百万出力あたり10ドルでした。01は1百万入力あたり15ドル、1百万出力あたり60ドルです。03 Miniは1百万入力あたり1.10ドル(40の半分以下の価格)、1百万出力あたり4.40ドル(40の半分以下の価格)です。それでも大きいですが、これらの数字は少し奇妙に見えます。
他の価格の完全な割合ではありません。理由は、R1と同じ価格に設定したからです(4.40対2.19、1.10対0.55)。03 Miniで彼らが達成した価格ポイントがDeepsek R1への対応として向けられたことは非常に明らかでした。
03 Miniはミニモデルでもあるため、非常に速いです。その出力速度は驚異的です。本当にうまく機能します。しかし、欠点もあります。その思考データにアクセスできません。DeepSeekで思考モデルで先ほど実行したのと同じクエリを実行すると、答える前に考えているこの推論データが得られます。それがとても賢い大きな理由です。
これを03 Miniに切り替えて、無駄にお金を使わないように低コンピュートに設定します。待ってから、答えが得られ始めます。印象的な速さで答えが得られ始めますが、その時点で思考をしているため、しばらくは何も得られません。そして、彼らはそのデータを私たちに送信していません。
彼らのウェブアプリでそれが少しありますが、それは思考していたことの要約です。出力を出す前に何をするかについて透明ではありません。そのため、ロード状態になり、高コンピュートを使用している場合は、しばらくそこに座って、それが機能しているかどうかわからないのが最悪です。
そしてOpenAIは、APIを通じて私たちのユーザーにより良い体験を提供する方法を与えていません。それによって降格したくなりますが、それは非常に良いモデルなので、そうすることはできません。
難しい問題のためのデフォルトです。おかしいほど安いです。Claudeと同じくらい使用されているにもかかわらず、1/5のコストしかかかっていません。素晴らしいモデルです。03 MiniはOpenAIが何ができるかを示し、将来の同様のものにとても興奮しています。
しかし、03 Miniがそれほど良くなった唯一の理由は、彼らがR1に恐れをなし、反応しなければならなかったからです。
お金がかかりすぎるものについて言えば、Claudeモデルについて話す必要があります。そのまま配置して、後で話しましょう。3.5をSティアに入れました。推論付きの3.7をAティアに入れました。標準3.7をBティアに入れました。
これらの決定にはいくつかの理由があります。Claude 3.5をSティアに入れたのは、それが良い価値だからではありません。率直に言って、価格を見ると、そうではありません。40より高価です。そして、ベンチマークを見ると、3.5はこのチャートにももう存在しません。
しかし、3.7は2.0 Flashと同等のパフォーマンスを発揮していますが、30倍以上高価です。それなのになぜSティアに入れるのか?それは、3.5が登場したとき、AIを使って開発者として何ができるかという質的な飛躍を表したからです。
それが幸運なロールだったのか、トレーニングデータだったのかはわかりません。3.7がそれほど優れていないので、トレーニングデータではないと思います。しかし、多くの異なる要素が一緒になって、3.5はコードに優れているだけでなく、素晴らしいと言える最初のモデルになりました。特にUI関連のものについては、攻撃的なインターンがすべてを書き換えるようなことがありません。
3.7 SonnetとSonnet推論(思考と呼ぶものでも何でも)も優れたUIを作ることができますが、それらがどう振る舞うかの最良の説明は、ほぼ手に入るものすべてを書き換えようとする熱心なインターンのように感じるというものでした。これは3.7で遊んでいて感じたものでもあり、カーソルでは3.5をデフォルトに戻しました。
3.5 Sonnetのもう一つの大きな利点は、ツールやエージェントなどの指示に従うことが異常なほど優れていることです。人々が構築している話題のクレイジーで強力なエージェントフロー、15のステップを持ち、他のすべてのものを使用するツールのほとんどで、3.5はツールを使用し、ツールコールで物事を行うのに優れた最初のモデルでした。
これは彼らがMCPのようなものを構築した大きな理由の一つでもあります。3.5がそれを行うのに十分優れていたので、その周りのツールを改善したいと思ったからです。3.5は基本的にエージェント革命の先駆けとなり、新しいUIを生成できるlovable vzeroやboltのようなAI開発ツールの波も生み出しました。これらのものはほとんど全て、バックグラウンドでClaude 3.5を中心に構築されています。
とはいえ、コストは不条理であり、3.7が常に3.5と同じ価格でありながら、私たちが3.5を使用する方法に関しては一貫して悪いパフォーマンスを示すという事実は侮辱的です。彼らが3.7が登場したときに3.5の価格を30%程度カットするか、より安い価格で違う名前の3.7を出していれば、すべてが非常に異なっていたでしょう。
しかし、3.5はそれが提供するものに対して高価です。そのため、T3チャットのようなツールではFlashや03 Miniに手を伸ばすことが多いです。両方とも速く、03 Miniの場合はより賢いからです。そして、答えに満足しない場合や結果に満足しない場合は、すぐに3.5に切り替えます。
とはいえ、Claudeのコストは非常に高額です。Claudeは私たちにとってあまりにも高価なので、T3チャットでクレジットの扱い方を根本的に変更する必要がありました。Claudeの法外な価格のため、現在他のすべてのモデルを含む標準メッセージングティアに含めることができません。
ちなみに、03 Mini500回、Gemini 1500回使用できます。私たちが提供するすべてのモデルは月額8ドルで月に1,500回使用できますが、Claudeは例外です。代わりに月に100回のClaudeメッセージを得られます。そうしなければ実際に破産していたでしょう。
8ドルの割り当てで400ドルから600ドルのコストがかかった個々のユーザーがいました。基本的に、この変更をしなければ倒産していたでしょう。他のモデルはこれを検討するほどコストが近くなかったのは、単にコストが低いからです。
だから、私たちに非常にコストがかかっているため、強い意見を持っています。話したいことは何でも話してください。次に高い請求書の5分の1の価格を考えると、これは不条理な数字です。そして、130万のGeminiメッセージのコストが1600ドルから1800ドルだったことを覚えておいてください。
これらのClaudeメッセージは過去3ヶ月で総額約4万ドルのコストでした。メッセージ数は半分程度ですが、40倍のお金がかかりました。それがそういうものです。
すべてのことを考慮すると、なぜ私が3.5をこれほど高く評価しているのか理解できると思います。たとえそれが私を破産させているとしても。革命を起こしました。開発者がこれまでになかった方法でAIを信頼するようになりました。そして、AIが何年も先にできると思っていなかった異なるユースケースが数ヶ月でできるようになりました。
私たちがここで使用しているこのツール、AIモデルティアリストでさえ、元々V0で生成されました。V0は私の知る限り3.5を使用しています。とても理にかなっています。
3.7、特に3.7推論には、軌道を外れて、おそらく触れるべきではないものに触れる習慣があります。特に推論バージョンは、ツールを与えると、それを呼び出し、そうするときに多くのお金がかかります。しかし賢いです。現実的である必要があります。そのほうが気分が良いです。
3.7推論をこれほど高く維持する理由は、大きな研究所が推論データを隠さなかった最初の例だからです。前に示したように、OpenAIはモデルを使用するときに推論データを非常に積極的かつ迅速に隠していました。そのため、03はその推論をまったく表示しませんでした。
Anthropicは逆の道を進みました。推論を示すだけでなく、実際になぜそれが機能するのかわからないことを認めました。これは愉快でした。彼らは自分たちの言葉で推論を共有しているため、コミュニティとして、なぜこれが良いのか、なぜこれがうまく機能するのかを理解するために最善を尽くすことができます。彼らはそれが予想以上にうまく機能することを見て、なぜかを理解したかったのです。
だから彼らはこのデータを隠しません。他の企業がそれを隠す理由は、競争相手がそれを使って自分たちのモデルをより良くトレーニングできないようにするためです。Googleは隠しています。OpenAIは隠しています。Anthropicはそうではありません。そして、彼らがそれをUIで隠さないだけでなく、APIを通じて公開していることに驚きました。もっと多くのモデルがそれをする勇気を持っていればいいのにと思います。
勇気のあるモデルといえば、Gemini 2.5 Proです。これは堅実なAティアだと思います。画面上のすべてのモデルの中で、2.5 Proは最も使用していないモデルです。このビデオが配信される頃にはおそらく長い間出ているでしょうが、昨日登場したばかりです。
2.5 Proはベンチマークを殺していますが、欠点があります。その欠点は、まだコストがいくらになるかわからないこと、そして推論データを提供していないことです。2.5 Proの面白いところは、推論がAI Studioにすべてあることです。それを見ることができ、難読化されていません。推論の完全なテキストがあります。彼らは単に何らかの理由でAPIを通じてそれを公開することを拒否しています。とても奇妙です。また、価格もまだわかりません。
ここでの配置のうち、2.5 Proの配置が最も推測的だと言えます。それが本当に安くなれば、ここに維持します。もしかしたら上げるかもしれません。しかし、40と同程度の価格になると少し下げるでしょう。本当に重要なのは、DeepSeekと比較してどのような価格になるかです。より安くなれば前に来ます。はるかに安くなればここに来ます。より高価になれば下がります。
3.5との価格と比較について言えば、DeepSeek V3について長いスピーチをする必要があると思います。ここで少し刺激的なことをします。DeepSeek V3はAIの新時代を開始しました。R1はDeepSeek V3上に構築され、V3はMで始まりで終わる特定の企業のようなライセンスや物を販売する明確な道を持たないオープンモデル企業が可能であることを証明しました。
V3は登場時に40 Miniより安く、そのパフォーマンスは3.5の隣にありました。それは狂っていました。昨年12月に登場したV3は非常に衝撃的だったので、私はほとんどすべてを放棄してそれを理解しようとしました。
私はVerscellオフィスに行き、このモデルがいかに狂っているかについて彼らと話し、彼らは私が正気ではないと言いました。私はサンフランシスコで知っている他のすべてのAI関係者と一緒に過ごし、このパフォーマンスがいかに素晴らしいかを示しました。ウェブアプリは最悪ですが、それは価格に対して非常に有能なモデルです。誰もが私が正気ではないと思いました。
V3が登場したもう一つの大きなことは、公式DeepSeek API上の推論の速度でした。それは一貫して1秒あたり100から150トークンの範囲でした。昨年後半のほとんどのモデルは速くありませんでした。高速モデルの概念は基本的にV3で始まりました。Thorominは速い可能性がありましたが、OpenAIを通じた公式デプロイメントはそうではありませんでした。V3ははるかに速かったです。
V3が基本的に私の人生を変えた理由は、そのUIがとても悪く、ClaudeのUIとchattGPTのUIへの不満をすべて持ち、V3がさらに悪いことに気づき、それを見つめるにはあまりにも苛立たしすぎたからです。そこでT3チャットの構築を始めました。
T3チャットは、私がより良いUIを望んでいたほど素晴らしいモデルであるDeepSeek V3がなければ存在していなかったでしょう。私は驚かされました。APIのパフォーマンスが公開の前日に落ちなければ、それが唯一のモデルだったでしょう。
チャートをどこかで見つけることはできますが、簡単ではないでしょう。V3の使用を開始したとき、それは1秒あたり120トークンという数字を達成していました。しかし、1、2週間後のローンチ準備ができたとき、それは1秒あたり20から30トークンに下がっていました。その時のT3チャットのブランディングは「史上最速のAIチャットアプリ」でした。私たちの推論がOpenAI上の40 Miniの半分の速度であれば、それは実用的ではありません。
探し回り、お気に入りのサイトArtificial Analysisで多くの時間を費やした後、当時のパフォーマンス対価格対速度対品質比率が最良のものは40 Miniだと結論付けましたが、OpenAI上でホストされている40 Miniではなく、Azure上でホストされている40 Miniでした。
私はこの情報を非常にプライベートに保っていました。なぜなら、これほど速く進む私たちの秘密を人々に知られたくなかったからです。もう気にしません。40 Miniはある種のモデルですから。Azureでホストすることで、公式APIからOpenAIが提供するものの2倍の速さを一貫して達成することができました。
当時、それは本当に画期的に感じました。人々が慣れ親しんでいるモデルでこのようなパフォーマンスを得ることは信じられませんでした。公式のチャットGPTサイトと私たちのサイトを開き、同じモデルに同じクエリを貼り付けると、他のサイトがまだ半分しか終わっていないときに私たちのサイトは完了していました。それはとても素晴らしかったです。
そして、それがV3がデフォルトモデルにならなかった唯一の理由です。はるかに賢く、40 Miniと同様の価格であったにもかかわらず、ホスティングが最悪だったのです。それ以来、ホスティングは改善されましたが、R1がドロップし、誰もがR1に注目していたため、R1が存在するための基礎となったV3に注目する人はいなくなりました。
これが、V3 0324エディションも非常に高く評価する理由です。このモデルを十分に使用していないのでSティアに自信を持って配置することはできませんが、結果を十分に見ているのでAティアのフロントラインに自信を持って配置します。
V3のアップデートは非常に静かに行われました。彼らは2日後まで発表さえしませんでした。しかし、パフォーマンス結果は狂っています。明らかに改良されたものです。根本的に新しいモデルではありませんが、GPT 4.5を上回る改良です。それはかなりクールです。
明らかに4.5は思考モデルほど良くありませんが、価格と比較するとこれがいかに本当に不条理であるかを理解するでしょう。V3は最初より安い価格でした。もともとV2の価格を尊重したかったので価格を上げました。
これがDeepSee APIを通じて公式にV3がかかるコストです。1百万入力あたり27セント、1百万出力あたり1.10ドル対1百万入力あたり75ドル、1百万出力あたり150ドル。それは278倍高価な入力トークンと約150倍高価な出力です。そして新しいV3は4.5よりも良いパフォーマンスを発揮します。
なぜこれがそれほど大きな問題なのかわかりますか?3月24日を表すV3 0324は、Deepseek R2を史上最高のモデルにするよう位置づけられています。DeepSeekがこのドロップについてとても静かだった理由は、ほとんどの人がRシリーズにしか注目せず、Vシリーズが信じられないほど過小評価されていて、Rシリーズモデルを一緒に保持する接着剤であることを知らないからだと思います。
V3 0324は今までで最高のモデルの力になるでしょう。少なくとも今までで最高のオープンソースモデルの力になるでしょう。そして、R2が先ほど言ったように今年初めのR1と同様に、私たちの期待を根本的に破壊すると予想します。
DeepSeekに感謝します。AIについての考え方を根本的に変え、自分のAIビジネスを始める動機を与えてくれました。ここにあるモデルの中で、私の人生を変えたと言えるのはこれだけです。
V3は素晴らしいモデル、非常に過小評価されていて、まだ本当に賢いです。ホスティングがもう少し良く、もっと速く確実に実行できれば、おそらく3.5やFlashの代わりに私のデフォルトとして使用するでしょう。単にホスティングのため十分に速くありません。V3をホストできるすべての人がR1をホストしてより多くのお金を稼ぎたいと考えるからです。それは理解できますが、V3は史上最高の非思考モデルの可能性があります。
最高の非思考モデルと言えば、GPT 4.5です。ここでバイアスがあることを認めます。4.5への早期アクセスに恵まれましたが、これまでで最も混乱したことはないと思います。何が得意なのかを理解しようと懸命に努力しましたが、できませんでした。
そこで、アクセスを与えてくれた人々に直接尋ねました。「コードに対して良い答えが得られていないのですが、皆さんはこれが何に優れていると思いますか?」と。彼らは「ああ、そうです、コードはあまり得意ではありません。実際、人々にそれを伝えるつもりです。これはもっとパーソナルなモデルです」と言いました。
私はそれを信じるのに苦労しました。そして、もし私だけならば、彼らの言葉を信じるでしょう。しかし、カーパシーが素晴らしい面白い投票をしました。40と4.5に同じ質問を創作プロンプトとして5つの異なる質問で尋ね、回答をツイッターに投稿し、人々に40と4.5のどちらが好きかを投票してもらいました。AとBのどちらかを選ぶだけで、どちらが40で4.5かは知らされていません。
いくつかは選ぶのが難しかったです。4.5のビデオでこれについて説明しましたが、結果はまだ出ていませんでした。結果は今出ています。4.5は5回中4回負けました。だから、それがより良く書くと言うとき、彼らが何を言っているのか分かりません。
彼らが価格設定する方法を見ると、何を言っているのか確実に分かりません。1百万入力あたり75ドル。それは不条理です。とても不条理なので、私たちの現在の価格帯でユーザーに提供できないので、T3チャットで自分のキーを持ち込むことで提供した最初のモデルです。それは不可能です。
なぜ彼らはこのモデルをリリースするのでしょうか?面白いことに、新しいV3が出た理由と同じだと思います。それは彼らが新しいものを構築している基盤だからです。R2が最新のV3上に構築されるのと同じように、04が最新の4.5上に構築されるでしょう。
なぜこんなに高い料金を請求しているのか?それが巨大なモデルで、それだけのコストがかかるからです。彼らは単に恣意的に超高価に価格設定しているわけではありません。そのコストがかかるからやっています。
それは巨大なモデルであり、そのため、ほぼ他のどのモデルよりも世界に関する知識が詰め込まれています。それは以前のOpenAIモデルよりも文章や書き方がかなり良いです。しかし、私はそれを3.5よりも個人的に感じることが少なく、ここにあるほぼどのモデルよりも楽しくないと感じます。
そして、正直に言って、それは03 Miniより賢くないと思います。03 Miniは推論モデルなので理にかなっていますが、75倍安いので理にかなっていません。だから4.5は私たちの最初のDティアになる必要があります。
Fにはしません。なぜなら、それは物事を行うことができ、それらをOKにできるからです。その世界知識は狂っていて、巨大なモデルとして、それだけのものを1つのモデルに詰め込んだことは印象的です。何兆のパラメータでトレーニングされたかなどの数字がもっと知りたいですが、オープンはもう長い間オープンを意味していません。
Fティアにしたいところですが、それではQWQ体験がいかに悪かったかを十分に強調できません。だからDティアに維持します。
不必要に高価なものといえば、01 Proは4.5よりも優れています。なぜなら他には答えられないことに答えることができるからです。01 Proはしばらく出ていますが、最近APIを通じて公開しました。そしてそうした時、価格の基準を上げました。1百万入力あたり150ドル、1百万出力あたり600ドルは単に狂っています。この価格で出したとは想像できません。
しかし、彼らはたくさんのお金を稼ぐためにそうしているわけではありません。人々がそれを求めているからです。彼らはすでにそれを持っています。それを公開する必要があります。それを公開して損をしないようにする必要があります。
私は彼らがこれに利益マージンを持っていると確信していますが、それは50%未満で、おそらく多くても10%から20%に近いでしょう。これらのモデルは実行するのに本当にそれほど高価です。
また、01 Proを使用するのは最悪です。なぜならば、それはチャットGPTサイト上のUIと全体的な体験を根本的に壊すからです。最初にドロップし、私が月額200ドルを支払って使用し始めたとき、サイトはほとんど機能していませんでした。
答えの生成を開始し、時間がかかるため焦れ、異なる安価で高速なモデルを使用して新しいスレッドを立ち上げると、バックグラウンドでできないため、01 Proの生成は停止して失敗していました。モバイル体験はさらに悪かったです。
01 Proでとても悪い時間を過ごしたため、モデルとウェブサイトと戦っているような気分でした。01 Proモデルがすでにそれを素早く破壊していたため、チャットGPTサイトを破壊するという潜在意識的な動機を確実に構築しました。
他のものが解決できないアドベントオブコードの問題に答えました。他では解決できない難しい問題を解決できます。多くはありませんが、パーセンテージの勝利です。本当に難しい問題を解決するのに、次に最良のものより5%から10%良いですが、5%から10%良いことが50倍から100倍高価であることを正当化しません。
OpenAIはこのチャートでかなりの範囲を持っています。印象的です。ここで終わらせるリジェクトのセットができました。それらを検討していきましょう。
Deepseek R1 Quen Distilledから始めます。Dティアのトップが適切だと思います。Quen蒸留が悪いからではなく、llama蒸留がはるかに奇妙でないので、Quen Distilledを正当化するのが難しいからです。
これらは同時に出ました。どちらも非常に良い性能を発揮し、クレイジーなベンチマークを達成しました。どちらもGrockで実行され、Grockでとても良く実行されます。そしてKではなくQのGrock。すぐにKのGrockに行きます。
全体的にQuendilは良いです。おそらくコスト、パフォーマンス、速度、ベンチマーク、何であれ、このティアで最良のモデルです。しかし、より賢く、より奇妙でないものと同時に登場するとき、それを正当化するのは難しいです。
だから私はQuendillの大ファンではありません。私にとってはそういうものです。
Gemini Flashlightは私にとって難しいです。Bティアにすると思います。聞いてください。Googleは2.0 Flashの価格設定で自分たちを困らせました。Flashlightは、合理的に何かに使用できる最も安価なモデルであるより小さく、より速く、より愚かなモデルです。1百万入力あたり7.5セント、1百万出力あたり30セント。信じられないほど安いです。
しかし、標準の2.0 flashは1百万出力あたり10セント、1百万入力あたり2.5セント多いだけです。ここでのギャップのサイズ、つまりflashからflashlightへの25%の割引の微小な性質は、それをはるかに売りにくくします。
その時点では、flashを使うでしょう。なぜならflashはすでに他のプロバイダーのほとんどのミニモデルよりも安いからです。Flashは以前の価格設定でもOpusより安く、40 Miniより安く、V3より安いです。それはとても安いので、より軽いバージョンがあることはそれほど価値があるとは感じません。
正当化するのが難しいです。もしこれが先に出ていたか、Gemini 2 Flashの価格がもっと高かったら、Flashlightははるかに良い取引だったでしょう。もしGemini 2.0標準Flashの半額だったら、簡単に売れたでしょう。
そして、もしUIから完全にこれを隠して、そこに置いたら、私が構築するすべてのものでデフォルトになるでしょう。しかし、ここととここのギャップがとても小さいので、気にするのが難しいです。
そして、私たちはもうどこでもflashlightを使用していないと確信しています。しばらくはタイトル生成に使用していました。確認してみましょう。いいえ、知っています。T3チャットでは現在、タイトル生成には標準の2.0 flashを使用しています。それはタイトル生成に本当に速いからです。
これも素晴らしいです。なぜなら、残りの応答の前にタイトル生成をストリームダウンし、常にflashをタイトル生成に使用しているため、選択したモデルが遅くても常に非常に速いからです。これはflashlightモデルに期待する種類のものです。
しかし、標準flashはすでにとても速く、とても安く、とても賢いので、気にする必要はありません。この2つの間のマージン、このギャップはflashlightの最大の問題です。
そして、2.0 flashが非常に安いという理由だけで低く配置するのは悪く感じますが、それがこのモデルが今日ほとんど意味をなさない唯一の理由です。
最後に、Grock 3は明らかに最高のSティアです。それは人種的なジョークを言い、声で性的に話しかけることができる唯一のものです。
本当のところ、Grockの配置方法がわかりません。単にAPIについて1ヶ月半前から嘘をついているからです。彼らはGro 3を最初に発表したとき、APIがすぐに来ると約束しました。APIを使用できるようになるのも時間がかからないと約束しました。1ヶ月半後、彼らはウェブサイトにフォームを設置し、入力できるようにしました。それはフォームですらなく、メールアドレスへのリンクで、アクセスを求めるメールを送ることができるものでした。私はそれが公開されてから2時間以内にそうしました。翌日、彼らはそれをフォームに置き換え、私はそれが公開されてから1時間以内に入力しました。
そして、私はまだ返事を聞いておらず、返事を聞いた人も知りません。彼らが何かを隠しているように感じます。彼らがこれほど長くAPIをリリースしないことに、怪しくない理由はほとんどありません。
私がTwitterで影響力を持ちすぎていて、T3チャットユーザーを引き寄せているのを恐れているのかもしれません。そうでもなかったかもしれませんが、私がどれだけ彼らを困らせてきたかを考えると、驚きません。彼らのインフラが巨大なブーストに対して十分に安定していないのかもしれません。
あるいは、Artificial Analysisにそれを表示したときに非常に悪く見えることを知っているのかもしれません。Artificial Analysisはベンチマークの方法なので、APIを通じてアクセスできるモデルだけをここに載せています。
私の正直な推測では、彼らはArtificial Analysisの人々を恐れており、それが理由で行っていないのだと思います。しかし、彼らがまだAPIをリリースしていないのは情けないです。次の2ヶ月以内に出てくれば驚くでしょう。なぜなら彼らは開発者が存在しないふりをしながら、そのパフォーマンスを自慢しているからです。
彼らはXAIの従業員の一人がGro 3が多くのことに非常に優れているが、必ずしもコードに優れているわけではないと公に投稿したために解雇されたので、開発者関連のことに一般的に敏感であるように見えます。
確かに面白い過激なジョークを言います。確かにそれはTwitterのサブスクリプションを販売するのに役立ちます。嘘のためにFティアにしています。モデルがどれほど良いかは気にしません。実際にどれほど良いのかを知るために必要なことをすべて行うために、使用やベンチマークができないのであれば。
コストがいくらかわかりません。どのようにパフォーマンスを発揮するかわかりません。どのように比較されるかわかりません。APIを入手できるかどうかもわかりません。ウェブサイトは素晴らしいです。Grockのユーザーインターフェースはクールです。それは認めます。
ストリーム再開も素晴らしいです。ウェブサイトに基づいてランキングするなら、おそらくT3チャットと競合します。それが他のサイトに組み込まれたくない理由かもしれません。彼らのサイトが本当にうまくいくことを望んでいるからです。
気にしません。彼らは物事を隠しています。彼らは行動しています。彼らは嘘をついています。APIが出たときに何が起こるか見てみましょう。それまでは、彼らを徹底的に批判するチームにいます。試したいです。本当に。とても興奮しています。
自分を証明しましょう。ここにXAIが機能しています。これは2月17日にT3チャットに開いたPRです。彼らがその時に新しいモデルをドロップすると思ったので、マージされていません。正直に言って、2つの変数を変更してGrock 3のサポートを持ち、初日に出荷できると思っていました。1ヶ月半経ちました。
気にしません。彼らは嘘をやめて実際に何かを出荷する必要があります。それが私からの尊敬を得たいのであれば。今のところ、QWQが使用不可能なのと同様に、Fティアにあるべきです。Gro 3は文字通り使用不可能です。彼らのウェブサイトやアプリが好きでない限り。
このティアリストは、私が実際にこれらの異なるモデルをどのように使用しているかを示していません。それはほぼ独自のビデオに値すると感じます。コメントでそれをすべきだと思うか教えてください。
しかし、簡単なTLDDRは、私のデフォルトモデルはGemini 2.0 flashだということです。それはT3チャットで私たちに多くのお金をかけたくないという組み合わせ、応答が本当に速い、モデルの機能、検索が組み込まれている、画像認識が組み込まれている、PDF解析、巨大なコンテキストウィンドウなどです。
Flashができないことはほとんどなく、それは本当に良いデフォルトモデルだと思います。満足のいく方法で答えない場合は、T3チャットの一番下にジャンプし、より賢いモデルをクリックします。通常、正直に言って03 Mini、物事がどれほど難しいか、どれだけ気にするかによっては推論を選びます。そして、上にスクロールして再ロールをヒットします。
そして正直に言って、03に切り替えると、Geminiができなかったときに答えが得られるかどうかは五分五分です。しかし、Geminiは90%の時間で十分に良いので、多くの問題を解決してくれました。
T3チャットで「コーギーの全種類をリストせよ!T3」のように検索すると、デフォルトをflashに設定しており、それは本当に素晴らしいです。一般的な質問やプロンプト、さらにはコード関連のことにGemini Flashを使用することがいかに便利かに驚かされました。
実際によく行うことの一つは「webmを720p MP4に変換するffmpegスクリプト!T3」です。そして今、これをクリックし、ターミナルに戻って、中断した場所に戻ることができます。とても素晴らしいです。そして他のモデルは質を損なうことなく答えを得るのがそれほど速くありません。
だから、ほとんどいつもGeminiから始めることをお勧めします。そして十分でなければ、問題が難しい場合は03 Mini、問題がCSSである場合はClaudeを使います。これらは私が毎日使用する3つです。
Llama Distillで遊ぶのはとても楽しいですが、03 Miniが答えるのを待っている間に、クローンされたスレッドでLlama Distillを開くことが多いです。一般的に言って、これはかなり良いと思います。そして明らかに、新しいモデルが出るにつれて、いつものようにこれは変わり始めるでしょう。
しかし、最初はflash、flashには難しすぎる場合は03、本当に見栄えよくする必要がある場合はClaudeです。手動で3.5に手を伸ばす傾向がありますが、最近はカーソルの最新バージョンで自動選択させています。それは楽しく、十分な仕事をしているからです。それに比較的感銘を受けています。
長期的にどう感じるかは分かりませんが、3.5は依然としてコードツール内の私のデフォルトモデルです。03は依然として難しい問題のためのデフォルトモデルであり、Flashは文字通り他のすべてのためのデフォルトです。
今のところこれが私の全てです。皆さんの考えを教えてください。私は完全に的外れですか、それともかなり的確ですか?あなたが好むように、コメントで私を批判してください。次回まで、プロンプトし続けてください。

コメント

タイトルとURLをコピーしました