
12,982 文字

数日前、OpenAIがo3モデル、あるいは少なくともその性能のプレビューをリリースしました。多くの人々がこれをAGIと呼べるかどうか議論していますが、AIの進歩における真に驚くべき一歩だと言えます。しかし、この動画では75分ほどで20ドルほどのコンピューティングリソースを使ってOpenAIのo3モデルを再現する方法をお見せします。これはM WrigleyがAndre Karpathyの投稿に対して行った冗談のような返信です。世界で最も賢いAIモデルを20ドルほどのコンピューティングで1、2時間で再現できる段階にはまだ達していません。
しかし、DeepSeekがDeepSeek version 3を発表し、これは非常に優れています。非常に高速で、完全にオープンソースで、他のオープンソースモデルを圧倒的に上回る性能を持っています。非常に低コストで、これについてはすぐに説明しますが、まずはAndre KarpathyのDeepSeek version 3に関する投稿を見てみましょう。
彼は言います。中国のAI企業DeepSeekが、フロンティアグレードの大規模言語モデルのオープンウェイトをリリースし、それを簡単に見せています。2048個のGPUを2ヶ月間、600万ドルという冗談のような予算で訓練しました。参考までに、この程度の性能を出すには16,000個のGPUに近いクラスターが必要だと考えられてきました。
Andreは続けます。今日発表された新しい大規模言語モデルは、100,000個のGPUを使用しています。Llama 3の4,050億パラメータモデルは3,000万GPU時間を使用しましたが、今回話題のDeepSeek V3という中国のリリースは、わずか280万GPU時間でより強力なモデルになっているようです。つまり、11分の1のコンピューティングリソースで実現しています。
モデルがバイブチェック(つまり、LLMチャットボットアリーナのランキング)をパスすれば、Andreは自身の簡単なテストでは今のところ上手くいっているとしています。もし最初の印象通りの性能だとすれば、リソース制約下での研究開発の印象的な成果となるでしょう。
「必要は発明の母」という言葉を聞いたことがあると思います。アメリカと中国の間でAI開発競争が起きており、アメリカは中国へのより強力なAIチップの輸出や出荷を制限してきました。フロンティアモデルを作る能力に制約を設けたわけです。少なくともそう考えていました。
これが具体的に何を意味するのか掘り下げていきましょう。まず大きな見出しをいくつか挙げると、第一に、NVIDIAのGPUがどこに輸出されるかをコントロールしようとする輸出規制、最高のAIチップの輸出規制などは、私たちが考えていたほど効果的ではないようです。
ご存知の通り、AIの一時停止や、AIの開発スピードをどのようにコントロールするかについて多くの議論がありました。EUはもちろん、かなり強力な規制を導入し、EU市民が最新のAIモデルにアクセスする速度を本当に遅くし、彼ら自身の開発を大幅に遅らせました。アメリカでも多くの人々が、重い規制かAI開発の完全な一時停止のどちらかを望んでいました。
このチャンネルで以前も言ったように、もう後戻りはできません。人々はこれらのモデルの作り方を知っています。大規模なリソースは必要ないようです。必要なリソースの量は減り続け、コストも下がっています。チップの規制も機能していないようです。これが一つ目の大きな見出しです。
二つ目の大きな見出しは、オープンソースという考え方についてです。オープンソースAIは危険か、許可されるべきかという議論をしてきましたが、中国がこれらのモデルを作成し、オープンソースとして公開しているのです。見たところ、これらのモデルはFacebookのLlamaモデルよりも優れています。例えば、Llamaはここで薄いグレーで示されています。
DeepSeek V3はそれを上回っており、実際にはCloud 3.5 Sonnetを除くほぼすべてのモデルをほぼすべての面で上回っています。Cloud 3.5 Sonnetはいくつかの場合で上回っていますが、それ以外ではDeepSeek V3が圧倒的です。以前のバージョンと比較しても、Quenと比較しても、Llama 3.5と比較しても、これは4,050億パラメータの大規模モデルです。
GPT 4oは黄みがかったグレー色で示されています。MLU Pro、GPA QA、Diamond Math、AIMEなどで上回っています。これは高度な数学コンペティションのCode Forcesで絶対的な驚異です。他のほとんどのモデルの2倍近い性能を出しています。
最後にSWE Benchがあり、ここではCloud 3.5 Sonnetの方が優れていますが、DeepSeek V3は2位で、他のほとんどのモデルよりも優れています。SWE Benchは実世界のソフトウェアタスクとGitHubの問題のトラブルシューティングを行います。
DeepSeekのGitHubページから、ここで目を引くのは、優れた性能にもかかわらず、DeepSeek V3の完全な訓練には270万H800 GPU時間しか必要としないということです。これはAndre Karpathyが言及していた点で、アメリカのモデル訓練の11分の1です。
さらに、訓練プロセスは全体を通して非常に安定しており、回復不可能な損失スパイクは発生せず、ロールバックも必要ありませんでした。OpenAIがGPT 4などのモデルを訓練する際に問題があり、ロールバックを行わなければならなかったという噂がありますが、詳細は不明です。一般的に訓練プロセスで時々、間違った方向に進んでしまい、ロールバックして再試行する必要があることがありますが、ここでは彼らの言葉によると、訓練プロセスは非常に安定していたとのことです。
彼らは事前訓練戦略について少し触れています。究極の訓練効率を目指して、MoE(Mixture of Experts)というアーキテクチャを使用しています。これは基本的に、1つの大きなモデルを持つ代わりに、エキスパートと呼ばれる小さなモデルの集合を持つというものです。
Mixture of Expertsは、質問の種類や必要な専門知識に応じて、モデルが自身の異なる側面を呼び出して質問に答えることを可能にします。彼らは言います。「アルゴリズム、フレームワーク、ハードウェアの共同設計を通じて、クロスノード訓練における通信のボトルネックを克服し、ほぼ完全な計算通信のオーバーラップを達成しました。これにより訓練効率が大幅に向上し、訓練コストが削減され、追加のオーバーヘッドなしにモデルサイズをさらにスケールアップすることができます。」
なぜこれが重要なのでしょうか。基本的に、現在私たちが目にしているのは、AIの企業が新しいブレークスルーを発表する度に、例えばOpenAIのo1が思考の連鎖、モデルの裏側での思考、問題について考える時間を増やすことで回答の精度を向上させるというアイデアを導入した約8週間後に、DeepSeekがDeepSeek R1シリーズモデルでそれを再現することができました。
GPT 4でも同様のことが起きました。予期せぬ素晴らしい結果が見られ、その秘訣の一部はMixture of Expertsだと考えられています。後に他のモデルがそれを再現する方法を学んだとき、GPT 4のレベルまで大きく飛躍しました。誰かが何らかの面で大きなブレークスルーを達成するたびに、他の競合モデルがすぐにそれらの結果を追いつき、再現する傾向にあります。
4分の壁のような感じです。最初の人がそれを破ると、人々は「ああ、可能なんだ」とわかります。そしてそれは続きます。ここで興味深いのは、これが恐らく国内や英国のDeepMind、そしてこれらのモデルを開発している他の場所でも再現されるだろうということです。
彼らがどのようにそれを行ったのかを理解し、訓練コストの削減の一部を取り入れることができるでしょう。もしこれが事実なら、彼らは基本的に訓練コスト、これらのモデルを構築し訓練するコストを10分の1に削減したことになります。
次に事後訓練について話します。モデルが訓練された後、彼らはDeepSeek R1からの知識蒸留と呼ばれるものを行います。DeepSeek R1はOpenAIのo1のオープンソースバージョンのようなもので、思考の連鎖やテスト時の計算といったアイデアが取り入れられ、再実装されました。
彼らは言います。「長い思考の連鎖モデル、特にDeepSeek R1シリーズモデルの1つから、標準的なLLM、特にDeepSeek V3に推論能力を蒸留するための革新的な方法論を導入しました。私たちのパイプラインは、R1の検証と反省のパターンをDeepSeek V3に優雅に組み込み、その推論性能を顕著に改善しました。同時に、DeepSeek V3の出力スタイルと長さのコントロールも維持しています。」
もし私の理解が正しければ、DeepSeek R1は推論モデルで、OpenAIのo1モデルのようなものです。ここでDeepSeek V3で行っているのは、R1と同じ推論モデルではありません。つまり、R1のような思考の連鎖はありませんが、R1の推論能力や出力を使用して、V3モデルを事後訓練し、その推論ステップを使用してV3の推論を改善しています。
再度、私の理解が正しければ、DeepSeek R1を使用して合成データを生成し、それを使ってDeepSeek V3に事後訓練を追加しています。これはOpenAIがOrionモデルで行うと考えられていることと似ています。
ここで彼らはQuen(720億パラメータモデル)、Llama 3.1(4,050億パラメータモデル、これはMetaの現時点で最も大きく能力の高いモデル)、そしてDeepSeek V3の比較を示しています。
Llamaは密なモデルで、Mixture of Expertsではなく、1つの大きなモデルであることに注目してください。総パラメータ数は4,050億で、DeepSeek V3は6,710億です。また活性化パラメータがあり、これは総パラメータのうち出力に積極的に貢献しているものです。
活性化パラメータが少ないほど、モデルはより安価に、より高速に実行できます。密なモデルでは、4,050億パラメータを持ち、基本的にすべてが活性化パラメータですが、Mixture of Expertsでは、たとえ全体として1つの大きな塊としてモデルが大きくなるとしても、より小さなモデルのように実行でき、より安価で高速になります。
ご覧の通り、MLUではLlama 3.1 405Bをすべてのバージョンで上回っています。ARC EasyとARC Challengeでは非常に似たスコアで、HELLSWAGでは若干下回りますが、スクロールしていくと、Llama 3.5 405Bモデルに対して勝っているか競争力があります。
彼らは自分たちの最良の結果とLlamaが良くなかった結果を選んで比較している可能性があります。だからこそ、常に自分で作業を行い、自分で研究し、自分のユースケースに対してこのモデルがどれだけ良く機能するかをテストすることが重要です。
しかし、通常これらのベンチマークは、モデルがどれだけ良く機能するかの基本的な予備的な洞察として役立ちます。もしこれが正確なら、これらのモデルを以前に予想していたよりもはるかに安価に作成できることを示しており、また以前に考えていたよりもはるかに効率的に、安価に、高速に実行できることを示しています。
大量のテキスト内に埋もれた小さな情報を見つけることに関して、これは「干し草の山の中の針」というアプローチと呼ばれますが、128,000トークンのコンテキスト長まで、干し草の山のどこに針を置いても、文書の0%から100%までうまく機能するようです。
これについて詳しく知らない人のために説明すると、以前は数百ページのPDFをアップロードして、その中間のどこかに埋もれている特定の情報を見つけようとすると、これらのモデルは文書の先頭にある情報を見つけるのが得意で、終わりの方も少し改善されますが、中間部分は忘れてしまうことがよくありました。
これは実は人間の働き方と似ています。講義を聞いているとき、最初の部分をよく覚えていて、終わりが近づいてきたと感じると、そこでもう一度よく覚えているかもしれませんが、途中で集中力が切れて中間部分が抜け落ちてしまうことがあります。大規模言語モデルも同様に機能するのは興味深いことです。
これは以前は問題でしたが、Google DeepMindのGeminiモデルが、干し草の山の針のテストを本当によく処理し始めた最初のモデルだと思います。例えばNotebook AAMBを使用したことがある方なら、多くの文書をアップロードして、それらの文書の深い部分に埋もれている答えを見つけるような具体的な質問をすることができ、その情報を見つけて取り出すのが非常に上手いことがわかると思います。
ここでDeepSeek V3は、少なくともこのコンテキストウィンドウに関しては、非常に良い性能を示しています。右側のDeepSeek V3と、次のGPT 4o、そしてCloud 3.5 Sonnetを比較しています。多くの面で非常に優れており、特に目立つのはコードの側面です。他の2つのモデルが20%台前半なのに対し、Code Forcesで51%を達成しています。
数学も非常に優れており、GPT 4oの9%、Cloud 3.5 Sonnetの16%に対してAIMEで40%近くを達成しています。これらの推論モデルではないモデルは、通常これらの数学テストでそれほど良い成績を上げていなかったことに注意してください。o1のような推論モデルを導入したとき、それは本当に良くなり、もちろんo3のプレビューでは、これらの質問に答えるのが信じられないほど優れており、AIME 2024をほぼ満点に近い成績で解いたと思います。
ここに、AIの進歩が壁にぶつかったという私の冗談があります。これがARC AGIです。ご覧のように、GPT 4まで上がっていくと、これらは推論モデルではありません。つまり、思考の連鎖がなく、より多くの思考ができず、テスト時の計算ができません。質問されたときに、より多くの時間を考えることができず、すぐに答えを出さなければなりません。結果は良くありませんでした。
AIMEなど、多くの数学問題も同様のカーブを示しました。o1プレビュー、そして最終的にo3のような推論モデルを導入し始めると、その能力が信じられないほど向上し、今では100%に近づいています。この場合、RGIで88%の精度を達成し、AIMEではおそらく99.8%かそのくらいだったと思います。
この結果で特に注目すべきなのは、もし私の理解が正しければ、これはパス1つまり1回の試行で正解を得なければならず、間違えると減点され、正解すれば得点が入るということです。推論モデルではないモデルは、以前はこのようなテストが苦手でした。推論モデルは急速にこれを改善することができました。このモデルは推論モデルではありませんが、推論モデルによって作成されたデータを使用して事後訓練プロセスを経ています。
つまり、この推論モデルが多くの合成データを作成し、それを使ってこのモデルを訓練し、大幅な改善が見られたということです。これは大きな出来事です。なぜなら、これは競合他社によって再現されるからです。多くの人々がこれを見て「すごい結果だ」と言い、自分たちのアプローチでもそれを真似し始めることができます。
つまり、大きなモデル、いわば女王蜂のようなものを作成し、それに合成データ、言わば…そのたとえは良くなかったですね、忘れてください。つまり、女王モデルが合成データを作成し、それを使って他のモデルを構築するということです。
その合成データがなければ達成できなかったよりも優れた推論能力を持つモデルを作ることができます。大きな推論モデルは、そのデータを使用して、より小さなモデルを作成することができ、その合成データは、それらの小さなモデルをスーパーチャージする特別な要素となっています。
しかし、これをテストしてみましょう。chat.deepseek.comでチャットできます。どのモデルか聞いてみましょう。
興味深いことに、「あなたが対話しているモデルはOpenAIのGPT4アーキテクチャに基づいています」と答えます。これはおそらく、OpenAIの合成データを使用して多くのこれらのモデルを訓練しているからでしょう。バージョンを聞くと、「あなたは現在、中国企業DeepSeekによって開発されたインテリジェントアシスタントDeepSeek V3と対話しています」と答えます。
ちなみに、OpenAIのモデルではない他の多くのモデルもこのように言います。これは興味深い点だと思いました。
新しいチャットを始めて、HTMLのスペースインベーダーゲームを作成するように依頼してみましょう。このモデルはコーディングが非常に得意なはずです。まず第一に、非常に高速です。HTMLとJavaScriptがありますので、LiveWeaveを使用してその一部をテストしてみましょう。HTMLをHTMLにコピーし、JavaScriptをJavaScriptにコピーします。
自分でテストしたい場合は…どうやって撃つの?ああ、これは素晴らしいですね、実際に動作します。左右の動きが少し制限されすぎているように感じます。どれだけ移動するマスを改善する必要がありますが、それ以外は完璧に動作します。
ちょっと気づきましたが、皆さんには見えていませんでした。基本的には、すべてが完璧に動作していますが、左右の動きが制限されすぎています。「左右の矢印でプレイヤーをもっと動かせるようにしてください。現在は動きが遅すぎます」と言ってみましょう。
JavaScriptを更新しました。これを入れて、もう一度試してみましょう。かなり良くなりました。もっと動くようになり、ホールドして遠くまで移動できるようになりました。
「インベーダーの前に2つの固定シールドを追加してください。プレイヤーはエイリアンを撃つために、それを避けて撃つ必要があります」と言ってみましょう。今のところ非常に良く、非常に高速です。コードを生成する速度は本当に印象的です。
これはオープンソースモデルなので、ハードウェアがあれば、ローカルでも実行できることを覚えておいてください。それを試してみましょう。はい、ここに2つのシールドがあります。シールドに当たると、弾が止まります。素晴らしいですね。
パワーアップを追加しましょう。「エイリアンを3体倒すごとにパワーアップをドロップさせ、プレイヤーはそれをキャッチする必要があります。パワーアップはマシンガン(連射)、爆発弾、エイリアンを開始位置に押し戻すものにしてください」
もしこれができたら、かなり印象的です。なぜなら、コードに複数の反復を行っており、それらすべてを一貫性を保ちながら、これらの新しいものを追加する必要があるからです。それほど高度な技術ではありませんが、確かに良いと言えます。
ここで試してみましょう。3体ごとに…パワーアップがプレイヤーまで落ちてくる部分以外はすべて実装できました。今のところ悪くありません。「パワーアップはプレイヤーまでドロップダウンして、プレイヤーがキャッチできるようにする必要があります」と変更してみましょう。
それを実装しました。ここで何が起こるか見てみましょう。パワーアップがあり…マシンガン弾です。エイリアンを元の位置に戻しました。これはマシンガン弾で、かなりクールです。パワーアップの1つでエイリアンが完全に消えてしまったか、おそらくずっと後ろに移動してしまったようです。
かなり良かったですが、どのパワーアップがどれなのかわかりません。「プレイヤーがパワーアップを手に入れたときにアナウンスし、また右上隅にステータスとして表示してください。各パワーアップは5秒間持続し、その後効果が切れるようにしてください」
これでより高度になります。私たちは行ったり来たりしていることを覚えておいてください。つまり、すでに追加したすべてのものを覚えておき、その上に反復する必要があります。今、画面上のアナウンス、パワーアップがどれくらい続くかを見ることができるタイマー機能を追加しています。
これがその結果です。「マシンガン活性化」と表示され、今どのパワーアップを持っているかがわかるようになり、かなりクールです。タイマーはありませんが、パワーアップが切れると「パワーアップ停止」と表示されます。
他にもいくつかの簡単な課題を与えてみました。HTMLとJavaScriptで、例えばクイズフォームを作成します。これはラジオボタンとチェックボックスを使用した複数選択問題と、スコアを計算するための送信ボタンがあるものです。
これが結果です。「以下のうちプログラミング言語はどれですか」というような問題で、送信をクリックするとスコアが表示されます。これは、HTMLで作成された簡単な選択型アドベンチャーゲームの出力です。様々な道筋を選ぶことができます。非常に基本的ですが、それを作ることができ、より詳細な指示を与えれば、完全に作り上げることができます。
次に、いくつかの簡単なベンチマークチャレンジを実行して、どれだけうまく機能するか見てみました。答えは与えません。推論モデルではないと言われていますが、推論は得意なはずなので、これらでどれだけうまくいくか見てみるのは興味深いでしょう。
最終的な答えは20です。これは正解でしょうか?正解は0です。ジャグラーがボールを空中に投げ、各ボールがある時点でどこにあるかを見ているものです。試してみましょう。
すべてを考慮した結果、紫のボールは青いボールと同じ位置、つまり同じ高さにある可能性が最も高いということです。これは正解です。
これはレースについてのものです。これらの多くはトリック問題とは言いたくありませんが、多くの誤解を招く要素があり、実際に何が起こっているのかを本当に理解する必要があります。
基本的にここでは、3人が200メートルの男子レースに参加し、それぞれがレース中に何かに気を取られるというものです。誰が1位になったかを見つけ出す必要があります。
ここで隠された要素は、1人が地元の住宅タワーの階段を上り、街のスカイラインを数秒間眺めてからレースに戻ってくるというものです。これは明らかに時間がかかります。住宅タワー、超高層ビルの階段を上ったのです。
他の人たちは長いツイートを読んだりしましたが、ここでDeepSeekモデルは引っかかってしまいます。階段を上った人のJoeについて見て、「風景を見るために短い休憩を取っただけだ」と要約し、超高層ビルを登らなければならなかったという事実を無視して、「Jimが最後になったのは、ツイートを読み、ファンに手を振り、夕食のことを考えていたからだろう」と言います。
次は、一人の姉妹が嘘をつき、もう一人の姉妹が真実を歪めて話すというものです。基本的に二人とも嘘つきです。モデルは「もう一人の姉妹に宝への道を尋ねたら何と言うか」と他の姉妹に聞くべきだと考えています。これは正しくありません。二人とも嘘をつくのですから、どちらかに聞いて、その反対のことをすればいいのです。
問題5は、Peterが唯一そばにいる親友のPaulからCPRを必要としている状況です。しかし、Paulとの最後のメッセージのやり取りは、PaulがPeterの高価すぎるポケモンコレクションについて子供の頃に言葉で攻撃したことについてでした。重要なのは、Paulはすべてのメッセージをクラウドに永久保存しているということです。Paulは助けるでしょうか?という質問に変えて、その推論能力を見てみましょう。
モデルは、ほとんどの人は過去の意見の相違を脇に置いて、PeterにCPRを提供するだろうと理解しています。ここでは「絶対に」が「おそらく」に最も近いと思います。
もう一つの問題です。Agathaは部屋Aで、新鮮な一枚切りのハムサンドイッチを5枚、重要なことにソースや調味料なしで積み重ねます。その後すぐに、一番上のサンドイッチの上面を歩行杖の底にダクトテープで貼り付けます。そして歩行杖を持って部屋Bに歩いて行きます。今、各部屋に何枚の完全なサンドイッチがありますか?
これらの問題は本当に頭を悩ませますね。しかしDeepSeekは挑戦する準備ができています。サンドイッチをダクトテープで一番上のサンドイッチの上面を歩行杖の底に貼り付けることについて読み、考えています。ここでのポイントは、ソースや調味料のないサンドイッチをダクトテープで貼り付けた場合、パンの上面だけを引き剥がすことになり、サンドイッチ全体は取れないということだと思います。それを理解すべきところですが、計算をして最終的に部屋Aに4枚の完全なサンドイッチ、部屋Bに1枚の完全なサンドイッチがあると言っています。
これは恐らく正しくないでしょう。興味深いことに、それは選択肢にさえありません。答えは部屋Aに4枚の完全なサンドイッチ、部屋Bに0枚というものです。
次に、異なるAIモデルがこのような特殊なケースや明白でないケースで、医療診断環境でどのように正しい診断を行うことができるかについての研究のPDFを見てみましょう。ネタバレですが、o1プレビューが圧倒的に優れており、非常に良い性能を示しています。場合によっては、実際に人間の医師よりも優れているようです。
ご覧の通り、o1プレビューは非常に優れており、GPT 4のみ、GPT 4と医師の組み合わせ、医師とリソースの組み合わせはこのあたりにいます。これはかなりクレイジーですよね。ランドマーク診断ケースでも同じことが言えます。o1プレビューは完璧に処理しています。
その研究をPDFとしてアップロードしました。ページ数を確認すると25ページあります。多くのテキストがありますが、いくつかの画像をお見せしましたが、ほとんどのページはテキストで埋まっています。この研究に基づいて、一般的にAIモデルは人間の医師よりも優れているかどうかを聞いてみましょう。
AIモデルo1プレビューは、医学的推論のいくつかの重要な分野で一般的に人間の医師よりも優れた性能を示しています。全体的にo1プレビューは、鑑別診断やその他の推論などで超人的な性能を示しました。これは素晴らしいことです。
これはかなり単純ですが、もう少し複雑なものを見つけてみましょう。「医療診断における推論のためのベンチマークが飽和状態になってきている」という一行があります。この干し草の山の中の針を見つけることができるか見てみましょう。診断推論のためのベンチマークは飽和状態になってきているのかと聞いてみましょう。
はい、確かに飽和状態になってきていると答え、o1プレビューのようなAIモデルが専門家レベルまたは超人的な性能を達成したことでそのような理由を挙げています。
ここまでのところ、このDeepSeek V3は非常に良さそうです。非常に高速で、多くの面で非常に優れているようです。o1プロモデルなどと比べると、これらの推論問題ではそれほど優れていませんが、私の初期のテストに基づくと、これは非常に強力で高速なオープンソースモデルのように見えます。
無料でウェブ上で利用でき、ローカルでも実行できるこのモデルは、メタのLlama 3.1のような、クローズドソースやオープンソースの巨大なモデルに挑戦することになるでしょう。しかし、非常に安価に、非常に効率的に訓練されたことは、今後より優れた、より能力の高いモデルを持つだけでなく、それらを作成し、運用し、実行することがより容易になることを確実に示しています。
オープンソースAIを止めることはできないと思います。誰もがかなり高度な能力を持つオープンソースモデルにアクセスできる時代に急速に近づいています。現在、これはマルチモーダルではありませんが、それも来ています。
ここで価格設定に注目してください。APIの場合、ローカルでの実行を望まない場合、API(明らかに多くの人が使用する、スケールで何かを構築している場合)を使用したい場合、入力は100万トークンあたり27セント、出力は100万トークンあたり1.10ドルです。
これをCloud 3.5 Sonnetと比較すると、入力は100万トークンあたり3ドルに対して27セント、出力は100万トークンあたり15ドルに対して1.10ドルです。例えばGPT 4oと比較すると、GPT 4oの出力は100万トークンあたり10ドルで、これは10倍高価です。入力は100万トークンあたり2.50ドルで、これも約10倍高価です。
ここでは、パフォーマンス対価格比の最適範囲を示しています。100万トークンあたりのドル単位のAPI入力価格とMLU Redux Z-evalスコアを比較しています。もちろん、彼らは自分たちに有利な指標を使用していますが、少なくともこのチャートで示されているように、DeepSeekは単独で際立っています。なぜなら、GPT 4oやCloud 3.5 Sonnetと競争力がありながら、他のものよりも信じられないほど安価だからです。
GPT 4o miniだけが唯一より安価ですが、このスケールが78から90であることに注意してください。もちろん、そこに詰め込まれていますが、それでも、オープンソースモデル、これらのモデルが良ければ、開発者にとって非常に魅力的になる可能性があります。なぜなら、OpenAI、Anthropicなどのクローズドソースのフロンティアモデルよりもはるかに安価になる可能性が高いからです。
あなたはどう思いますか?これは一般的にオープンソースAIにとって何を意味するのでしょうか?OpenAI、Anthropicにとって何を意味するのでしょうか?アメリカ対中国のAI覇権戦争にとって何を意味するのでしょうか?
また、もし価格とコンピューティングを10分の1に削減できるなら、NVIDIAのような企業にとって何を意味するのか考えずにはいられません。NVIDIAにとって良いことでしょうか、悪いことでしょうか?確かに、はるかに安価にできれば、より多くの人々がこの分野に参入し、自分たちのモデルを構築するでしょう。
フロンティアモデルの作成に6,000万ドルかかるなら、単純にそれを負担できない人々や企業が多くいるでしょう。600万ドルなら、はるかに多くの市場があるでしょう。少なくとも、それを試みることに興味を持つ人々が多くいるでしょう。
Andre Karpathyが言うように、600万ドルのコスト、2ヶ月の訓練時間、これは多くの人々が予想するよりもはるかに安価で高速です。これは業界にとって何を意味するのでしょうか?このモデルをテストしてみますか?リンクを下に残しておきます。
コメント欄で意見を聞かせてください。ここまで見ていただき、ありがとうございました。私の名前はWes Rothです。また次回お会いしましょう。


コメント