DeepSeekはいかにしてAIのブレークスルーを達成したか – Benchmarkパートナー、チェタン・プッタガンタが解説

AGIに仕事を奪われたい
この記事は約22分で読めます。

12,833 文字

How DeepSeek achieved its AI breakthrough, Benchmark partner Chetan Puttagunta explains
Chinese AI startup DeepSeek is sending tech stocks plunging as the market digests what its cheaper and more efficient mo...

ジョージ・ロサです。Tech Cheでは、ここ数日間、皆さんの声を明確に聞いてきました。皆さんはTech Cheの分析と、Perplexity CEOのアービン・ソヴァスとの詳細なインタビューをご覧になりました。そして、DeepSeekが公開市場で注目を集め、App Storeで消費者の間でトップに躍り出る中、私たちはAIラボとその影響についての調査から、さらなるコンテンツを公開しています。
ここでは、Benchmarkのパートナー、チャン・パガントとの詳細なインタビューをお届けします。これは1月7日に収録されたものですので、DeepSeekがR1推論モデルをリリースする前、そして今日のマルチモーダルモデルを発表する前のものです。しかし、アービンと同様、チャンの洞察は非常に直感的で、今日でも同様に価値があります。
それでは、AIに関する中国と米国の競争について、本当にシンプルな言葉で説明していただけますか?
これはおそらく、インターネット以来、最大の技術的変革であり、90年代初頭以来、シリコンバレーで見た中で間違いなく最も重要な技術的シフトです。これまで、シリコンバレーのLLM企業がこの分野のリーダーでした。彼らが最も重要な基盤的な仕事を行い、最も重要なフロンティア的な仕事を行ってきました。
最近まで、シリコンバレーでの進歩は、世界の他のどの地域と比べても大きな優位性があると考えられていました。しかし、DeepSeek V3のリリースにより、中国のAIで実際に何が起きているのかについて、多くの人々の目が開かれました。
DeepSeekチームがアルゴリズムの面で成し遂げた進歩、そして彼らの論文やテクノロジー、オープンソースモデルで示したものは、彼らが大きな飛躍を遂げているということです。特にアルゴリズムの面で、米国ではまだ試されていない手法を試みており、彼らが投じた少額の資本でこれほどの進歩を遂げたことは本当に驚くべきことです。
資本の蒸留について詳しく説明する前に、最も広い意味で何が賭けられているのか、AIレースで勝利または支配することは何を意味するのか、そして国の経済全体にとって何を意味するのかについて教えてください。
AIレースをリードすることで得られる効率性と経済的利益の量は本当に驚くべきものです。企業にもたらす効率性は大きく、日常生活にもたらす効率性も大きいものです。そして、モデルを所有し、データを所有し、コンプライアンスを所有し、保護を所有し、プライバシーを所有することになります。
米国を拠点とする投資家として、米国を拠点とする起業家として、私たちはテクノロジーを望み、最高のテクノロジーがここから生まれ、ここに拠点を置くことを望んでいます。それによって、シリコンバレーの価値観、アメリカ合衆国の価値観、そして私たちのシステムがどのように物事を進めたいかを反映させることができます。そういった理由で、AIがここを拠点とすることは本当に重要なのです。
ここ数年を振り返って、DeepSeekと彼らが成し遂げたことはどれほど大きな瞬間だったのでしょうか?中国のChatGPTモメントと呼べるでしょうか?
そう呼べるかもしれません。なぜなら、彼らは基本的にGPT-4クラスのモデルと呼ばれるものをリリースすることができたからです。これは、シリコンバレーで現在使用しているフロンティアモデルとまったく同じではありません。おそらく半世代ほど遅れていますが、彼らの研究論文とモデルに基づいて、基本的に1000万ドル未満の支出でそこまで到達できたのです。
これは、これまで他の誰も成し遂げたことのない、非常に効率的な成果です。また、これはDeepSeekが集めたチームが非常に才能に恵まれており、彼らがアクセスできるデータが本当に良質で、クリーンで、深いものでなければならないことを意味しています。そして、彼らが発表した研究論文に基づくと、アルゴリズムの面で本当に革新的なことを行っており、それは率直に言って、ある面で世界をリードするものです。
そして、より少ない金額で開発できたと言う場合、私たちは文字通りドルのペニーについて話しているのですよね?約10倍安いと考えられていたものより安かったということですね。
それについて少し歴史的な経緯を教えていただけますか?DeepSeekとは何なのでしょうか?中国の研究所ですよね?しかし、それはどこから来て、どのように資金提供されているのでしょうか?
その資金調達、基盤、創立については、メディアではほとんど報道されていません。フォーラムやRedditなどを通じて得られる情報はすべて二次情報です。その二次情報によると、非常に才能のあるメンバーがいるヘッジファンドがあり、そのヘッジファンドがAI研究所に移行したということです。
主に中国を拠点とする非常に優秀なAI研究者で構成されており、そこにいる研究者はすべて地元の人材です。それがDeepSeekの起源であり、より大きなAIコミュニティにとって有益だったのは、DeepSeekが彼らの研究論文とモデルをすべてオープンソースとして公開したことです。
そのため、私たちは全員がそれを見ることができ、それで遊び、消費し、どのような技術を使用しているのかを確認し、そして恐らく最も重要なことは、彼らの結果を評価し、他のすべてのモデルとベンチマークできることです。
しかし、彼らが実際にどのようにこの人材を集め、どのようにすべてのハードウェアを集め、どのようにデータを集めてこれらすべてを行ったのか、私たちには分かりません。それは公開されたことがなく、希望としては学ぶことができればと思います。私たちが知らないことが多いのですが、見えているのは、あなたが言ったように本当に競争力のある最終的な成果物であるモデルです。
まず、それが競争力があることをどのように知ることができるのでしょうか?ベンチマークを通してですか?オープンソースなので、ベンチマークを信頼できますか?最近、誰もが自分のベンチマークを多少粉飾していると言う人もいましたが。
ベンチマークは自分で実行できます。どの開発者でもモデルをダウンロードしてホストすることができます。DeepSeekのAPIを提供するプロバイダーが多数あるので、そのAPIを使用し、そのAPIの結果を他のすべてのモデルのAPIと比較評価することができます。
したがって、モデルの性能に疑問がある場合は、それが今日どこにいても自由に利用可能なので、自分でベンチマークを行うことができます。これらの大規模言語モデルが本当に得意としている一般化された意味での能力に疑問があるかもしれませんし、特定の分野では不足している可能性もあります。
しかし、DeepSeekが達成したことが非常に注目を集め、多くの研究者が魅了された理由は、フロンティアまたはフロンティアに近い場所まで、主張されているような少ない資本でどれほど早く到達できるかという点で、本当に興味深いステップだからです。それが恐らく最も重要な点です。
そして、オープンソースであるため、私たち全員がそれを見て、これらの主張を評価することができます。そして今日まで、その主張は検証されているように見えます。この1週間ほどで見てきたすべてのデータポイントは、このモデルが本当に優れており、驚くべき方法で飛躍したということを裏付けているように見えます。このモデルは新しく、非常に新しいものですが。
そして、開発コストは全く別のパラダイムシフトですよね。その通りです。彼らがどのようにして10倍も低いコストで開発できたのか、私たちのフロンティアモデルよりも説明してください。そして、なぜそれを信じられるのか、私たちはそれを信頼できるのでしょうか?
米国でオープンソースモデルを見てきた経験から、LLamaモデルや他の米国を拠点とするオープンソースモデルにおいて、フロンティア機能を持つ垂直特化型のユースケースを開発することは実際には非常に効率的であることが分かっています。少人数のチームが限られた予算でそれを行うことができます。
つまり、非常に大きなモデルを取り、蒸留と呼ばれるプロセスを使用することができます。蒸留とは基本的に、非常に大きなモデルを使用して、小さなモデルを特定のことに賢くなるように助けることです。これは実際にコスト効率が非常に良いのです。なぜなら、APIを通じて消費したり、本当に優れたオープンソースモデルをダウンロードして消費し、小さなモデルを非常に優れたものにすることができるからです。
したがって、非常に特定のユースケースについてフロンティアにジャンプすることは、シリコンバレーでは効率的であることが証明されており、私たちには多くのチームがあり、すでにそのような方向性を追求しているチームを多く見てきました。
DeepSeekが行ったのは、それを非常に一般化された方法で行ったことです。それが特異であり、アルゴリズムの進歩における大きな飛躍でした。彼らの研究プロセスに基づいて、彼らが行ったように見えることは、エキスパートの混合と呼ばれる新しいアーキテクチャを使用したことです。
本当に大きな大規模言語モデルを構築する一つの方法は、密なアーキテクチャを使用し、すべてのタスクを行う一つの大きなモデルを持つことです。もう一つのアプローチは、エキスパートの混合を使用することです。ここでは、モデルをサブエキスパートモデルに分解し、インテリジェントなルーティングシステムを作成し、インテリジェントな評価方法を作成し、このプロセスを繰り返します。これらのエキスパートモデルは素晴らしい回答を生成します。
DeepSeekが行った、または行ったように見えることは、このエキスパートの混合アーキテクチャを、他の人々が試みなかった、少なくとも試みて成功しなかった限界まで拡大したことです。そして彼らは成功しました。それがアルゴリズムのブレークスルーであり、それは非常にユニークです。そして、モデルは非常に性能が高く、その規模では崩壊し始めると考えられていた方法で一般化することができました。
つまり、専門家モデルをそれだけ多く実行していたということですか?
本質的に、DeepSeekは基本的にChatGPTの出力でモデルを訓練し、本質的にそれをコピーしたということですか?
それが彼らが行ったことかどうかは不明です。他のモデルを使用してこのモデルを訓練した可能性はありますが、それが彼らが行った主要なことだったかどうかは不明です。実際、彼らは本当に良いデータにアクセスし、自分たちのデータで多くの独自の訓練を行ったように見えます。
データはどこから?
私たちには彼らのデータソースが何だったのか、どのようにデータを入手したのか、データがどこから来たのか全く分かりません。
つまり、彼らは何かをコピーしただけではないほど十分に良質なデータだったということですね?
その通りです。しかし、AI研究者が既存のモデルを使用して新しいモデルを訓練し、考えることは全く合理的です。そのため、DeepSeekもおそらくそういったことの一部を行ったと思います。
モデルに「あなたは何のモデルですか?」と尋ねると、「私はChatGPT 4です」と答えますよね?
はい、はい。
それは私たちに何を示唆していますか?
多くのことを示唆している可能性があり、また、特定の英語出力を訓練するためにChatGPTの一部を使用したことを示唆している可能性もあります。また非常に興味深いのは、ベンチマークでDeepSeekモデルがChatGPTとは異なる振る舞いをすることが分かることです。そのため、純粋なChatGPTの蒸留だと考えるのは行き過ぎだと思います。彼らは何か独特なことを行ったと思います。なぜなら、いくつかのベンチマークではそれを上回っているからです。
そうですね。結局のところ、私たちが知らないのは、彼らのデータソースは何だったのか、そのデータをどのように使用したのか、そしてそのデータをどのように反復したのかということです。もしこれが米国のAIラボで行われていたら、私たちは単に彼らに尋ねればよく、彼らはおそらく私たちに教えてくれる論文を公開するでしょう。
誰がトレーニングしたのか、どのようにトレーニングされたのかについて、これほど多くの謎と疑問があることは重要なのでしょうか?それとも、生成AIのレースにとっては、実際に何が出てきて、何を生産できたかだけが重要なのでしょうか?
私はそれが本当に重要だと思います。なぜなら、このテクノロジーは非常に基盤的なものだからです。この技術の大部分がオープンソースであることは広く重要です。透明性が本当に重要だからです。これらのモデルがどのように異なる事柄を重み付けしているのかを理解する必要があります。
しかし、それはすべて公開されていますよね?
はい。そして、もう一つの重要な部分は、これまでこれらのモデルの背後にいる人々を理解し、これらのチームがどのように規制されているのか、これらのチームが米国のインターネットの運営方法に関するコンプライアンスの枠組みにどのように適合しているのか、何が許可され、何が許可されないのか、どのような出力を許可し、どのような出力を許可しないのか、どのような入力を許可し、どのような入力を許可しないのかを理解することでした。
そして、技術とインターネットに関する米国の規制の枠組み全体がAIに適用される中で、それは非常に効果的でした。そして、何を修正または改善する必要があるかについて多くの議論があり、それは本当に素晴らしい議論です。
しかし、テクノロジーの背後にいる人々を知らない場合、そして私たちは何を知らないのか、データが何に対してトレーニングされたのか、背後にいる人々について何も知らないとき、それが課題となります。そして、それがここでのレースの一部であり、世界の他の地域にあるこれらのラボが大きな進歩を遂げ始めるにつれて、私たちはそれらの進歩からも学び、それらの技術を探求する必要があります。
DeepSeekとその技術について目を見張らせたのは、それらの技術が機能したということです。AIで起こることは、実際にある技術の存在証明を確立すると、次世代のAI研究者たちがそれらの技術を追求するようになることです。なぜなら、それが機能することが分かったからです。そして、それは実際にキャッチアップをはるかに効率的にします。
したがって、今やDeepSeekの技術が機能することが分かったので、私が期待するのは、ここを拠点とする多くのオープンソース企業が同じ技術を実装し、非常に早くキャッチアップできるようになることです。
つまり、このように開発されているオープンソースでは、もはや保護できる優位性やモートはないということですね。
ただし、あなたの指摘に戻りますが、誰が開発しているのかを知ることがレースの一部であるという点は非常に重要だと思います。イーライアやイーロン・マスクなどが話す多くのリスクがありますが、今日ではあまり話題にならないように感じます。なぜそれが重要なのでしょうか?
結局のところ、米国でテクノロジーが機能してきた方法は、アーリーステージ企業の投資家として、私たちは大企業に多くのソフトウェアを販売し、米国政府に多くのソフトウェアを販売しているということです。そして、顧客とベンダー、起業家とこのソフトウェアを使用するチームの間に信頼関係が生まれます。
問題が発生したとき、説明がつかないことが起こったとき、あなたはソフトウェアの背後にいるチームがそこにいて、一連の核となる原則を代表し、そのベンダーと顧客の関係におけるビジネス目的にかなり沿っていることを望みます。
AIは、これらのシステムが予測不可能で、多くのシステム的なエラーを引き起こす可能性があるため、さらに別のレイヤーの複雑さを導入します。そして、これらの企業環境で適切にサポートされていない、または適切にインストールされていない方法で使用および実装された場合、多くの問題を引き起こす可能性があります。
エンタープライズレベルよりも大きな問題ですよね?人類レベルの問題が。
その通りです。そのため、これらのオープンソーステクノロジーの背後にいる商業的なVは誰なのか、背後にいる企業は誰なのか、ここでの商業的な野望は何なのかを知りたいのです。そして、今日の多くはまだ不明です。
純粋なオープンソースの研究プロジェクトは素晴らしいです。Apacheベースの、コミュニティベースの素晴らしいテクノロジーの先例がたくさんあり、その後、商業的なベンダーがそれらのオープンソースプロジェクトを取り上げ、パッケージ化し、それらの周りにセキュリティとコンプライアンスをインストールしてきました。
したがって、これらのDeepSeekモデルがオープンソースとして、米国を拠点とする企業が企業にサービスを提供するためにこれらのオープンソースモデルの周りにセキュリティとコンプライアンスを包み込むことは可能です。それは完全に合理的なプロセスであり、DeepSeekチームが追求することを決定する可能性のある道筋かもしれません。それは素晴らしいことですが、これがすべてどのように展開されるかはまだ未定です。
クローズドソースモデルにとってこれが何を意味するのかについて触れたいと思いますが、まず、H800とH100の違いをどのように説明しますか?
NVIDIAのGPUには多くの種類があります。米国では、NVIDIAから入手可能な最高のGPUにアクセスできます。規制に基づいて、中国では異なるGPUが利用可能であり、世界の特定の地域では異なるGPUが利用可能です。そしてもちろん、世界の一部の地域ではGPUにアクセスできません。
そして、明らかなのは、DeepSeekが利用可能なGPUとは異なるGPUセットでトレーニングを行ったということです。
これが性能の低いGPUでトレーニングされたことを知っていますか?なぜなら、AIの研究所が最も高度なものにアクセスできた可能性があることも知っていますし、輸出禁止前にそれらを蓄えていた可能性もありますが、ブラックリストに載っているH100でトレーニングされていなかったと確信できますか?
彼らが何でトレーニングしたのかについて、私は十分に知りません。しかし、エキスパートモデルのミクスチャーアーキテクチャに関して彼らが行ったことは、彼らが使用していたどのようなハードウェアでも、それをはるかに効率的に使用できたということだと思います。
メディアの報道が正しいと仮定して、より性能の低いバージョンのGPUでトレーニングされたとすれば、それは何を意味するのでしょうか?どのような影響があるのでしょうか?
私は、米国とシリコンバレーの研究者がDeepSeek V3で彼らが成し遂げたことを見たとき、はるかに少ない資本でより多くの進歩を遂げることができるということがより明確になったと思います。そして、それが今、すべての起業家とVCが話している話題です。
私は、過去2週間でAIの研究チームが本当に目を開き、より少ない資金で何が可能かについてはるかに野心的になったと言えます。以前は、フロンティアに到達するには数億ドルの投資、あるいは10億ドルの投資を考える必要がありました。
DeepSeek V3以前でも、蒸留のようなものを使用するオープンソースモデルで、数億ドルや10億ドルという巨額の数字よりも効率的にフロンティアに到達できることは明らかでした。そして、推論と推論に関して起こっているすべてのことも、フロンティアに到達するための資本効率的な方法になる可能性がある別の道筋です。
DeepSeekが今シリコンバレーで行ったことは、1000万ドル、1500万ドル、2000万ドル、3000万ドルで実際に何が達成できるのかについて、私たちの目を開かせたことです。そして、それは実際に古典的なシリコンバレーのベンチャーキャピタルモデルにとてもよく適合します。
つまり、非常に優れた人々のグループを集め、少額の資本を投入し、そしてドルの観点からではなく、アルゴリズムの観点からIPの差別化を持つイノベーションを追求するというモデルです。そして今、示されたのは、GPUを使用し、本当に優れたアルゴリズムを使用して、本当に能力の高い一般化されたモデルを作成することが可能だということです。
私たちはすでにこのことについて直感を持っていました。私たちはすでに小さなチームがこのようなことを行うのを見てきました。しかし今や、これはそれが可能であり、現実的に追求できることのはるかに野心的な証明点となっています。
これは投資パラダイムにおける大きな変化ですよね?過去数年間は、次の高度なモデルを開発するために最も多くのお金を持っている人が、そして各モデルがより大きく、より良くなっていくということでした。
そうすると、OpenAIに投資することは今でも良い投資なのでしょうか?
私はOpenAIと彼らが行っている仕事は素晴らしいと思います。彼らがO3で示したこと、そしてほんの数週間前に発表したベンチマーク、特にソフトウェアエンジニアリングに関するベンチマークで示したことは素晴らしいです。
私を含め、多くの人々が、それらのAPIにアクセスし、ChatGPTを通じてO3モデルにアクセスできることを非常に楽しみにしています。彼らは間違いなく、素晴らしい製品を開発するという点で非常に素晴らしい仕事をしています。
そして、明らかに彼らの財務状況は公開されておらず、すべて噂に過ぎませんが、数字は非常に驚くべきものに見えます。基礎となる利益率構造やそういったことは分かりませんが、希望としてはOpenAIがいずれそれらの数字を開示することです。なぜなら、それは素晴らしい製品だと思うからです。
確かに、そして彼らは先行し、最も技術的に進んでいますが、レースが少し変化したように感じられ、もし深くフロンティアに進んで、O3をリリースしたとき、DeepSeekや他の中国企業がそれを複製することを何が妨げるのでしょうか?
私が思うに、AIは2年前と比べても、数ヶ月前と比べても、今日ははるかに競争が激しくなっています。シリコンバレーを拠点とするラボだけを見ても、OpenAI、Anthropic、Google、Meta、そして彼らが出しているテクノロジーとAIモデルはすべて非常に素晴らしいものです。
GoogleがGeminiモデルとそのAPIでリリースしたものを見ると、それらのAPIのコスト効率は驚くべきものです。そして、それが開発者にとって何を意味するのか、本当にペニー単位でこれらのインテリジェントなAPIにアクセスでき、常に稼働している堅牢なGoogleのインフラストラクチャの上でアクセスできるということは、開発者にとって大きな解放です。
そうですね。そしてGoogleは、自社のTPUを開発し、配布するという全エコシステムを持っています。OpenAIはモデルだけ、クローズドソースのモデルだけを持っているように見えます。今後のモートはどうなるのでしょうか?
BloombergでたしかBつか2日前に報道があったと思いますが、OpenAIが独自のシリコン開発を検討していると。私はOpenAIがより垂直統合されていくと想像しています。
つまり、Googleやアマゾンと比べると遅いスタートですよね?でも、それはバランスの問題ですよね。すべてのプレイヤーを並べて比較すると、ある分野で有利な人もいれば、別の分野で有利な人もいます。
そして、このモデル全体が変化していて、より少ない資金でより多くのことができるなら、シリコン開発に数十億ドルを使用できると思います。大規模言語モデルの開発ではなく。
では、その減速は起こると思いますか?たとえそのトレードオフがあったとしても、投資家がそれを知っていて、ベンチャーキャピタルモデルがそのように機能しないなら。だからこそ、多くの大手メガキャップがフロンティアモデル企業に投資しているのを見たわけです。
では、OpenAIとAnthropicは2つの例として、Anthropicがさらに20億ドルを調達するというヘッドラインが出たばかりでしたが、クローズドソースモデルの開発が競争力のある優位性を失っているように見える中で、これまでのようなスピードで資金を調達し続けることができるのでしょうか?
私は、AIの進歩は減速していないと言えます。intelligence(知能)の飛躍を測定値として見た場合、単に機能性を見ても、Anthropic、OpenAI、Google、xAI、Metaがリリースしているものを見ると、進歩が減速していないことは明らかです。
また明らかなのは、進歩が新しい種類の定義を取り始めているということです。純粋なトレーニング側ではなく、推論と推論側です。このO3全体が、O1からO3まで、そしてClaudの中の思考連鎖モデルは、すべて事前トレーニングではなく、推論と推論時間とテスト時間に関するものです。これは資本効率も良く、開発者にとってもより良いものです。
これらの各ラボはフロンティアを押し進め、そこで優位性を得ていますが、明らかなのは、数ヶ月でフロンティアに追いつくことができるということです。フロンティアを定義し、1~2四半期でフロンティアに追いつきますが、これまで起こっていたのは、フロンティアに追いつく6ヶ月後に、フロンティアがさらに押し出されるということでした。
それを見るのは本当に素晴らしいことです。フロンティアが追いつけるように見えるたびに、フロンティアがもう少し押し出されるということです。そして、私たちはそれの減速を見ていません。これが、大手ラボの優位性が続く理由だと思います。フロンティアでの優位性を維持し続けているからです。それを見るのは本当に素晴らしく、彼らは本当に素晴らしい仕事をしています。
それは興味深いですね。では、より性能の低いチップを使用してこのモデルが登場したことを見て、NVIDIAにとってはどのような意味を持つのでしょうか?
ジェンセンは昨日CESで基調講演を行い、もちろん素晴らしい基調講演でした。あのワニ革のジャケットは素晴らしいですね。そして、彼らは今日市場で間違いなく最高のGPUテクノロジーを持っています。彼らが成し遂げた進歩は本当に素晴らしいものです。
エコシステム全体の誰もが、Blackwellが生産ラインから出てきて、これらのシステムを手に入れることを本当に楽しみにしています。エコシステムには少数のプレビューシステムが出回っており、人々はそれを試して、かなり印象的だと感じています。
しかし、私たちがまだ知らないのは、BlackwellがAI研究に何を可能にし、何を解放するのかということです。まだ分かりません。
つまり、あなたが言っているのは、Blackwellのおかげで、事前トレーニングの進歩が減速したり、プラトーに達したと考えていたこの時代全体が、もしBlackwellが本当に素晴らしければ、私たちが今は予測できないような進歩を遂げる可能性があるということですか?
その可能性はあります。現在、事前トレーニングのプラトー化は、データをある程度実行したからです。そして、次の仮説は、モデルを使用して合成データを生成し、その合成データが事前トレーニングに戻るということができるかどうかということです。
私たちはまだそれを超えるために必要な進歩を遂げていません。まだ取り組んでいる最中です。バレー全体で多くの優秀なチームがそれに取り組んでいます。そして、それに取り組んでいる人々の数と、その取り組みに対する資本の量を考えると、そこでブレークスルーを得られる可能性があります。
もしそこでブレークスルーを得られれば、これらのBlackwellシステムはすべて、事前トレーニングを再び押し上げることになります。現在、モデルで私たちがいる場所は、テスト時間と推論時間の推論です。
そこで、検証器と呼ばれるものを取り、解決策を何度も何度も繰り返し渡します。これは実際にコーディングにとって非常に強力です。コーディングに関して、推論モデルは知能能力の面で非常に素晴らしい解放を証明しています。
たとえば、ユースケースとしてのコーディングにおけるAIの進歩を見ると、事前トレーニングに対する推論や推論時間による減速は見られません。今、他のユースケースを解放できる可能性があり、この知能のパラダイムで物事が減速しない可能性がありますが、それはまだ未定です。
DeepSeekのアイデアに話を戻しましょう。あなたが言ったように、彼らがそれを成し遂げたことで、米国企業がそれを複製しようとするということについて。DeepSeekのおかげでレースが新しく始まったのでしょうか?過去2年間のAIにおける最大の瞬間という観点から説明してください。
ChatGPTは間違いなく最大の瞬間です。ChatGPTが登場したとき、これらの新しいTransformerモデルで本質的に何が可能かということを、誰もの目を開かせたと思います。
その時点まで、Transformerモデルは主に開発者によってAPIを通じて使用されていました。そして、2022年に早期のAI企業がOpenAIのAPIを使用し、本当に魔法のようなことを行っているのを見始めました。しかし、ChatGPTまでは、素晴らしい消費者向けアプリケーションが登場し始めるのを本当に見ることはできませんでした。
だから、それは間違いなく最近のAI開発における最大の瞬間だと言えます。その時以来、大きな解放があった重要な瞬間がありました。GPT-4の立ち上げは、知能とこれらのモデルが可能にすることにおいて大きなステップ関数でした。
そして、この推論パラダイムに入り始め、Oシリーズモデルが登場し、もちろんO3は本当に大きな出来事でした。Anthropicが彼らのモデルで行ってきたすべてのことは、かなり基礎的なものでした。彼らがコンピュータワークで行ったこと、たとえば、これらのモデルが実際にモデルの外部のツールと相互作用して、コーディングなどの変更を支援できることを示したことなど、そのすべてが本当に注目すべき瞬間でした。
そして、DeepSeek V3も、AIにおける重要な動きとして考えるリストの中に入ると思います。確かにその一つです。なぜなら、AIにおけるアルゴリズムとアルゴリズム技術が大量の効率性を解放できることを示したからです。
そして、AIでは、何かの存在証明を持つと、それは実際にすべての研究者に何かが可能であることを知らせ、その研究の道筋を追求することができます。なぜなら、正しい技術を見つければ成功できることが分かるからです。
実際、これはO3のベンチマークが非常に強力な理由の一部です。推論を使用してAIモデルが実際にコーディングに関して多くのことを達成できることが分かります。それが可能だと分かれば、その性能に匹敵するために多くの技術を追求することになります。
チャン、ありがとうございました。
はい、もちろんです。

コメント

タイトルとURLをコピーしました