NVIDIAのAIポッドキャスト第299回の内容を翻訳したものである。AIトークンの価値、供給、需要、マネタイズというトークノミクスの4つの柱について、NVIDIAのインファレンス担当のエキスパートが詳しく解説する内容である。性能指標をインプットではなくアウトプット(コスト・パー・トークン)で評価する重要性や、新世代アーキテクチャBlackwellがもたらす圧倒的なコスト削減効果、さらにソフトウェア最適化やエージェントAI時代における共同設計(コ・デザイン)の重要性について、ビジネスリーダー向けに分かりやすく語られている。

トークノミクスの4つの柱
すべてのトークンが同じように作られているわけではなく、トークンの価値を見極める方法が存在します。トークンの価値に影響を与える主な要因は2つあります。1つはトークンに組み込まれたインテリジェンス、つまりそのトークンがどれだけの知能を宿しているか。そしてもう1つは、それがどれだけ速く届くかです。
NVIDIAのAIポッドキャストへようこそ。お相手はノア・クラヴィッツです。今回はシュルティ・コパカーさんとともにお送りします。シュルティはNVIDIAのアクセラレーテッド・コンピューティング・チームの一員で、インファレンス、つまり推論処理を専門に担当しています。データセンターがAIファクトリーへと変貌を遂げ、新しい産業革命のためのインテリジェンスを生み出す中、今回はトークノミクスについてお話ししていきます。このトークノミクスという言葉があちこちで使われるようになりました。非常に便利な言葉ですが、ビジネスリーダーの方々が理解し、実践に移せるように、シュルティの力を借りて分かりやすく分解していきたいと思います。
ええ、もちろんです。まずはノア、番組に呼んでいただきありがとうございます。AIの経済学、すなわちトークノミクスについて深く掘り下げられることを非常に楽しみにしています。おっしゃる通り、この言葉は本当によく使われるようになりましたね。ですから、この場を借りてその定義を明確にできればと思っています。トークノミクスを考える上で重要なのは、トークンがどのように評価され、供給され、消費され、そしてマネタイズ、つまり収益化されるかということです。
これらは本質的に4つの要素に対応しています。まず、トークンの価値そのものであるトークンの有用性。次に、トークンの供給。ここがAIインフラの意思決定に関わる部分です。コストを抑えながらトークンの出力を最大化するために、どのようなインフラに投資すべきかを考えるエリアですね。そして、トークンの需要。ここでは、顧客や企業がユーザー数、ユースケースの数、そしてそのユースケースの種類を徹底的に考えます。つまり、必要となるトークンの量と速度を具体的に描き出すわけです。最後に、トークンのマネタイズ。これは手に入れたトークンをビジネス価値へと変換することです。これらがトークノミクスを支える4つの柱であり、AIの導入を成功させるためには、この4つすべてと、それらの相互関係を理解することが極めて重要になります。
トークンの価値を決める要素
それでは、最初の柱である有用性、つまり価値から始めてみましょう。トークンの価値とはどのように定義されるのでしょうか。すべてのトークンは同じ価値を持つのでしょうか、それとも異なる価値があるのでしょうか。より良い捉え方があれば、そのアプローチについて教えてください。
それはとても素晴らしい質問ですね。おっしゃる通り、すべてのトークンが均一に作られているわけではなく、トークンの価値を測る明確な基準があります。トークンの価値を左右する要因は大きく2つあります。1つはトークンに組み込まれたインテリジェンス、つまりそのトークンがどれほど高度な情報を持っているか。もう1つは、それがどれだけ速く到達するかという、いわばインタラクティブ性、双方向性の高さです。
もう少し詳しく説明しますと、トークンのインテリジェンスは、そのトークンを生成したモデルの性能に依存します。より複雑で賢いモデルが生成したトークンは、一般的に多くの価値を含んでいます。また、モデルが処理するコンテキストの長さ、つまり一度に読み込める文脈の長さにも左右されます。一般的には、モデルに与えるコンテキストが長ければ長いほど、精度が高まり、トークンのインテリジェンスも向上します。ここで一般的と言ったのは、コンテキストを長くしすぎると、モデルの品質や出力のクオリティが低下するケースもあるからです。ただ、その話の深掘りは避けますが、基本的にはコンテキストの長さはインテリジェンスの高さに比例すると考えてよいでしょう。
これが1つの側面です。そしてもう1つの、トークンが届く速さとは、トークンのインタラクティブ性のことで、基本的にはユーザーあたり1秒間に何トークン処理できるかという、トークン生成のスピードを意味します。
トークンの価値を1つのスペクトラム、つまり連続体として捉えると、片方の端には、短いコンテキストでそれほど速くないスピードでトークンを生成する基本的なモデルがあります。そしてもう片方の極端な端には、非常に大きなコンテキストを持ち、信じられないほどの超高速でトークンを生成する、より複雑で高度なモデルが存在します。このスペクトラムの間に、さまざまなユースケースが位置しており、それぞれのユースケースをトークンの価値にマッピングしていくことになります。もちろん、トークンの価値を絶対的な基準で捉える方法もありますが、ユースケースに応じた相対的な視点で捉えることも重要です。必要であれば、その点についても少し掘り下げてお話しできますよ。
なるほど。そうすると、トークンの価値というのは、そのトークンが処理しているタスクの内容とも結びついていると言っていいでしょうか。
ユースケースとトークン価値のマッピング
はい、まさにその通りです。私が先ほど、適切なユースケースをトークンの価値にマッピングする必要があると言ったのは、まさにそういう意味です。例えば、先ほど高度で複雑なモデルが生成したトークンのほうが絶対的な意味で価値が高いと言いましたが、相対的な視点に立つと、みなさんのユースケースにはそこまで複雑で賢いモデルが必要ない場合もあります。その場合、どれだけ付加価値が高くても、みなさんにとっては全く無意味なものになってしまいます。
この典型的な例が、特定のドメインに特化したアプリケーションです。非常に狭い限定的な文脈であれば、事後学習を施して微調整(ファインチューニング)した小型言語モデル、つまりはるかに小さなモデルのほうが、必要な価値をぴったり提供できることがあります。それどころか、特定のタスクにおいては、巨大なモデルよりも高い精度を叩き出すことすらあります。ですから、常に巨大なモデルが必要なわけではありません。相対的な観点から、自分たちのユースケースがトークン価値のスペクトラムのどこに位置するのかを見極める必要があります。
これはインタラクティブ性の部分でも同じことが言えます。自律的に動くエージェント型のアプリケーション(エージェントアプリケーション)では、極めてインタラクティブ性の高いトークンが不可欠ですが、チャット画面のインターフェースや企業内の検索システムのようなアプリケーションでは、そこまでの双方向のスピードは求められません。そのため、AIの導入を決定する際には、自分たちのユースケースをどのトークン価値にマッピングすべきかを深く考えることが非常に重要になります。
ビジネスリーダーが需要について考え、トークンをユースケースにマッピングしようとするとき、それぞれのユースケースには異なる価値が紐づいているわけですよね。自分の組織が何をしているか、各チームメンバーが何を必要としているかを見極める際、何から手を付ければいいのでしょうか。どれくらいのトークンが必要で、どの種類のトークンがどれだけ必要なのかを把握するための良いアプローチはありますか。
需要を考える上で、ユースケースは極めて重要です。これについては、予測の正確性を段階的に高めていくための3つのレイヤーで考えることができます。
まず、最も基本的な「紙の裏の落書き」レベルの単純計算としては、ユーザーが何人いるかを見ます。そして、各ユーザーが1日または1ヶ月に何回のプロジェクトやセッションを開始するか、さらに1回の処理につき何トークン必要なのかを確認します。この3つの数字を掛け合わせれば、1日あるいは1ヶ月といった分析期間におけるベースとなる需要が導き出せます。
ただ、これはあくまでベースであり、非常に単純化された見方です。実際には、考慮しなければならない「掛け算の要素(マルチプライヤー)」が存在します。これによって、必要なトークン量の見通しは劇的に変わってきます。
その要素の1つ目が、推論モデル(推論特化型モデル)を使用しているかどうかです。ご存じのように、推論モデルは思考トークンを使用しますが、これはエンドユーザーの画面には表示されません。多くの場合、AIを導入する際には、1回のやり取りで許可する思考トークンの数に上限を設定することができます。そのため、需要を予測する際には、推論モデルを使うのか、その上限値はどう設定するのか、そして実際の利用におけるピーク時と平均時の消費量はどれくらいになるかを想定する必要があります。これが1点目です。
2つ目はエージェント型(自律型AI)の要素です。エージェントは非常に大きな掛け算の要因になります。どのようなユースケースであっても、エージェントによるワークフローの文脈で導入すると、AIが内部で何度もやり取りを繰り返すループが発生するため、トークンの需要が跳ね上がることになります。
そして最後の要素が、キャッシュヒット率、いわゆるKVキャッシュのヒット率と呼ばれるものです。この言葉に馴染みのないリスナーの方のために説明すると、KVキャッシュとはモデルにとっての短期記憶のようなものです。入力リクエストがモデルに入ってくるたびに処理が行われますが、もしモデルが過去にその入力リクエストを処理したことがあれば、そのデータはキャッシュに保存されています。そのため、同じリクエストが再び来たときには、ゼロから再計算する必要はなく、キャッシュされた値をそのまま利用できます。需要をより高い精度で見極めるには、これらの重要な要素をチェックする必要があります。
さらに、もう1つの視点は需要の変動性です。1日の中で需要がどう変化するかですね。例えば、朝の時間帯には非常に多く使われるけれど、夜にはそれほど使われない製品、あるいはその逆もあります。季節による変動も同様です。小売業やECサイトの事業者は、多くの商品を売り出そうとするホリデーシーズンに需要の急増を経験しますよね。こうした要素も考慮に入れなければなりません。そして当然、ユーザーの成長性も重要です。最初はベースのユーザー数から始めますが、ビジネスとしては常にユーザーを増やそうとするわけですから、需要を考える際にはその成長予測も織り込む必要があります。
インプット指標からコスト・パー・トークンへ
需要の話が出ると、当然次は供給の話になりますね。供給についてはどのように考え始めればいいのでしょうか。先ほど説明してくれたベースラインや諸条件を整理した上で、それらをどのようにして、すべてのタスクをこなすために必要な供給体制へと落とし込んでいくのでしょうか。
トークンの供給というテーマになると、そこに多くのAIインフラの意思決定が集中します。この決断を下す際に目指すべきは、トークンのコストを最小限に抑えつつ、トークンの利用可能性や出力を最大化することです。
コスト、つまり総所有コスト(TCO)を考えるとき、企業や意思決定者は、目につきやすい指標に飛びついてしまいがちです。私はこれをインプット指標と呼んでいます。例えば、GPUの1時間あたりのレンタル費用や、1ドルあたりのフロップス(FLOPS)、つまり1ドルでどれだけの浮動小数点演算を行えるかといった数値です。これらがインプット指標と呼ばれるのは、実際にユーザーに届くトークンの出力については何も教えてくれないからです。実際の出力は、単なるフロップスやメモリの量だけでなく、極めて高度な「システム全体の共同設計(ハードとソフトの共設計)」によって決まります。
したがって、インプットとアウトプットの両方を正しく反映した指標こそが、コスト・パー・トークン(トークンあたりのコスト)なのです。これは非常にシンプルな指標で、1つのトークンを生成するためにいくらのコストを支払っているかを示してくれます。計算としては、GPUのコストをそのGPUが生成したトークン数で割るだけです。これによってインプットとアウトプットの両方が組み込まれ、AIインフラから得られる真の投資対効果(ROI)を把握することができます。
お話を聞いていると非常に腑に落ちます。とてもシンプルに聞こえますが、逆の視点、つまりGPUやサーバーラック、それらを繋ぐネットワークへの初期投資の額ばかりに目を奪われてコストを計算してしまう心理もよく分かります。しかし、あなたが言ったように、出口であるアウトプットのコストで見るというのは非常に理にかなっていますね。最終的に手に入れたいのはインテリジェンスであり、トークンなのですから、そこに価格を割り当てるというのは、非常に明快な思考法だと思います。このコスト・パー・トークンという指標は、先ほど話に出たユースケースによって変動したり、見方を変えたりする必要があるのでしょうか。
コスト・パー・トークンはあくまでベースとなる指標です。当然、モデルの種類やコンテキストの長さ、つまりインテリジェンスの高さや、インタラクティブ性といったあらゆる要素によって変動します。より複雑なモデルで生成されたトークンや、よりインタラクティブ性の高いトークンは、生成するためのコストが高くなります。これは物理的な法則として避けられません。ですから、モデルやコンテキスト、インタラクティブ性によって左右されるのは間違いありません。
ただ、先ほどノアが非常にうまく言ってくれたように、最終的にビジネスを動かすのはアウトプットであるトークンです。インプットに基づいてインフラを評価しているのに、ビジネス自体はアウトプットで回っているのだとしたら、そこには根本的なミスマッチが存在することになります。だからこそ、コスト・パー・トークンを見ることで、両方を網羅した真のROIが見えてくるのです。
Blackwellがもたらす圧倒的な進化
インプット指標からコスト・パー・トークンへの転換を考える上で、この考え方を鮮明にイメージできるような具体的な例はありますか。
ええ、まさにぴったりの例があります。NVIDIAのBlackwellを、前世代のNVIDIA Hopperと比較してみましょう。
仮に、GPUの1時間あたりの利用コストというインプット指標だけを見た場合、その差は2倍です。つまり、BlackwellはHopperよりも2倍ほど高価に見えるかもしれません。また、1ドルあたりのフロップスという指標だけを見ても、これも2倍です。確かにBlackwellは1ドルあたり2倍のフロップスを提供しますが、これらは大きな強みであるものの、Blackwellがもたらす真のメリットや価値の表面をなぞっているに過ぎません。
なぜなら、実際に提供されるアウトプットで比較すると、BlackwellはHopperに比べて、1ワットあたり50倍ものトークンを出力できるからです。
50倍ですか。
50倍です。素晴らしい進化ですよね。つまり、まったく同じインフラの設置面積でありながら、Blackwell NVL72システムはHopperよりも50倍多くのトークンを供給できるのです。そしてこれは、トークンあたりのコストが35倍も安くなることを意味します。
驚異的ですね。
ええ。ですから、インプットの指標だけを見るのではなく、支払うコストと実際に得られる成果の両方を表すコスト・パー・トークンという指標を見るべきだという理由が、これでお分かりいただけるかと思います。
エクストリーム・コ・デザイン(極限の共同設計)とは
先ほどおっしゃった「エクストリーム・コ・デザイン(極限の共同設計)」という言葉について、もう少し詳しくお聞きしたいと思っていました。この領域に詳しい人なら一度は耳にしたことがある言葉だと思いますが、特に今回の文脈において、それが具体的に何を意味するのかを少し掘り下げていただけますか。
エクストリーム・コ・デザインについてお話しできるのは嬉しいですね。私たちはこの質問を本当に頻繁に受けます。なぜ共同設計が必要なのか、共同設計とは単なる統合(インテグレーション)と何が違うのか、といった質問です。単なる言葉の綾や定義の問題だと思われるかもしれませんが、この違いは非常に重要です。
統合という言葉を使うとき、それは別々に作られた独立したパーツを、後から組み合わせて1つにすることを意味します。一方で共同設計(コ・デザイン)とは、最も低いトークンコストという同一のゴールに向けてすべてが最適化されることを前提に、システムの複数のパーツをゼロから同時に設計していくことを指します。だからこそ、共同設計という言葉を使うことが極めて重要なのです。
そして、NVIDIAが取り組んでいるものを、ただの共同設計ではなく「エクストリーム(極限の)」と呼ぶ理由は、そのアプローチの深さと広がりにあります。単にコンピューティング、つまり計算基盤だけの共同設計ではありません。計算、メモリ、ストレージ、そしてネットワーキングのすべてを含みます。例えば、Rubinプラットフォームには7つのチップが搭載されています。しかし、話はそれだけに留まりません。その上に載るソフトウェアもすべて含まれるのです。CUDAカーネルからランタイム、サーバー用ソフトウェアに至るまで、すべてです。
さらに、それはエコシステム全体にまで広がっています。私たちが連携している半導体パートナー、OEM、クラウドプロバイダー、そしてさまざまなオープンソースソフトウェア(OSS)のフレームワークに至るまで、共同設計の範囲は単に1つのシステムや1つのAIファクトリーの中だけに留まらず、エコシステム全体へと外側に広がっています。これが、私たちが「エクストリーム」と呼ぶ理由の1つです。
コスト・パー・トークンの削減に貢献している具体的な共同設計の例を挙げると、おそらく以前のポッドキャストでも議論されたかと思いますが、混合専門家(Mixture of Experts: MoE)モデルが良い例です。Blackwell NVL72は、GPU間の通信を劇的に加速できるため、このMoEモデルと抜群の相性を誇ります。さらにソフトウェア面では、Dynamoによる機能分散型のサーバー構築(ディサグリゲーテッド・サービング)に加え、TensorRT-LLMやSGLangといった私たちがサポートするランタイムを組み合わせることで、「ワイド・エキスパート・パラレル」と呼ばれる手法を実現しています。これにより推論性能が大幅に最適化され、MoEモデルのコスト・パー・トークンを劇的に引き下げることができるのです。これが素晴らしい一例ですね。
もう1つの非常に優れた例は、まさにVera Rubinプラットフォームそのものです。これはエージェントAIの時代を見据えて構築されたものです。なぜそこまで極限の共同設計が必要なのかを理解するために、エージェントのワークフローがどのようなものかを見てみましょう。
エージェントのワークフローを理解するために、従来の対話型のワークフローと比較してみます。対話型の場合、人間のユーザーが何かを入力すると、LLMが応答を返し、ユーザーがまた別の入力をすると、AIがさらに応答を返すというように、人間とAIが交互にキャッチボールを行います。
しかしエージェント型では、AIが別のAI、あるいはソフトウェアと交互にやり取りを行います。メインとなるエージェントが、ユーザーの入力を受けて「まずは推論を行おう」と判断し、次に「ツールを呼び出してソフトウェアを動かす必要がある」と決め、さらに「この処理には専門のエージェントが必要だ」と判断して、その専門エージェントにタスクを投げます。そして専門エージェントが計算を終えて結果を持ち帰ってくるまで待ち、このサイクルが何度も繰り返されます。私たちはこの自律的な動きを求めてエージェントを使っているわけです。
これは人間が介在しないマルチターン、つまり複数回のやり取りの連鎖です。ユーザーが「マイアミ行きの航空券を予約して」と1回指示を出しただけで、裏側でAI同士が何度もやり取りを重ね、最終的な成果物を作り出します。エージェント型で発生するやり取りの回数は、通常の対話型よりも遥かに多くなります。そのため、LLMが呼び出される回数も多くなり、結果としてトークンの需要も格段に高くなります。
だからこそ、エクストリーム・コ・デザインが決定的に重要になるのです。それほど大量のトークンを消費するわけですから、トークンあたりのコストを徹底的に下げなければなりません。また、遅延(レイテンシ)の短縮も死活問題です。1回のやり取りで数ミリ秒の遅れが生じるだけで、それが積み重なれば、最終的な結果が出るまでに数秒もの遅れになって跳ね返ってきます。
ここでVera Rubinプラットフォームの話に戻りますが、エージェントのワークフローがどのようなものかを踏まえると、LLMそのものの処理や推論を加速するために、なぜこれほど強固な共同設計が必要なのかがよく分かります。
超低遅延を実現するためには、Rubin GPUとUltra 3 LPXソリューションが必要です。また、コードの生成やテストのためのサンドボックス環境の構築、ツールの呼び出しをスムーズに行うためには、Vera CPUが必要になります。さらに以前話題にのぼったCX8プラットフォーム、つまりBlueField DPUとSpectrum-Xの組み合わせも不可欠です。これによって、先ほど説明した短期記憶であるKVキャッシュを必要に応じてオフロードし、新しいリクエストが来たときに瞬時に取り出してマッチングさせることが可能になります。このように、すべての要素をゼロから同時に開発できることが、非常に大きな強みを生み出しているのです。
ソフトウェアがもたらす現実の成果
エクストリーム・コ・デザインについて、そしてゼロから設計・構築されるさまざまなパーツについてお話しいただきました。ソフトウェアもその一部ですが、ソフトウェアが果たす役割やその重要性について、もう少し詳しく掘り下げていただけますか。
もちろんです。実のところ、ソフトウェアこそが、スペックシート上の数字と、みなさんが現実の世界で手にする実際のアウトプットやトークンコストとの間にある「差」を生み出す要素です。ソフトウェアがすべてを左右するのです。
スペックシートに書かれている内容やシステム設計は、それを使いこなして優れたアウトプットを生み出すソフトウェアがなければ、その真価を完全に発揮することはできません。そして、ソフトウェアにおいてもう1つ重要なのは、継ぎはぎの最適化では意味がないということです。あらゆる最適化機能を瞬時に有効化できる、堅牢なソフトウェアスタックが必要になります。
例えば、NVFP4の量子化、メドレー・テンソル・プロセッサ(MTP)や投機的デコーディング、機能分散型サービング、ワイド・エキスパート・パラレル、KVキャッシュのオフロード、KVキャパシティを考慮したルーティングなど、数え上げればキリがありません。こうした数々の最適化をすべて「重ね合わせる(スタックする)」ことができる能力こそが極めて重要なのです。なぜなら、それらが合わさることで初めて、Blackwellで見られる50倍のプロプット(処理能力)の向上と、35倍のコスト削減という結果が導き出されるからです。
ですから、ソフトウェアがこの物語において非常に大きな比重を占めているのは間違いありません。さらに、ソフトウェアの進化は決して止まりません。特にオープンソースソフトウェア(OSS)の世界は止まることがありません。これを構築しているのはNVIDIAのチームだけでなく、エコシステム全体です。すべてのOSSフレームワーク、パートナー、顧客、そして開発者コミュニティが関わっています。彼らが行う一つひとつの小さな最適化が、一滴の雫となって蓄積され、NVIDIAのエコシステムという巨大なアドバンテージの海を形作っています。
一例を挙げると、推論ランタイムであるVLLMとSGLangの両方において、わずか約6ヶ月の間に8倍の性能向上を達成しました。これはとてつもないことです。まったく同じインフラの規模から、これほど多くのトークン出力を得られるようになり、それがトークンコストをさらに押し下げているのです。ですから、ソフトウェアがパズルの最も重要なピースであることは間違いありません。
トークンのマネタイズ戦略
4つの柱のうち3つまでお話しいただきました。最後にしておそらく最大のテーマがマネタイズ(収益化)ですが、これについてはどのようにお考えですか。ビジネスリーダーは、エクストリーム・コ・デザインの重要性や、状況やタスクによってトークンの価値が異なること、そしてエージェントAIが素晴らしく、より多くのトークンを必要とすることなどを理解した上で、トークンの収益化をどのように捉えればよいでしょうか。
トークンのマネタイズに関しては、市場へのアプローチ方法は多種多様ですが、最も分かりやすい捉え方は、トークンを生成し、それを販売するというプロセスとして考えることです。
トークンを販売することを考える際、一体いくらで売るべきなのか。これは、価格設定における古典的なアプローチと同じです。まず、トークンを1つ製造するのにいくらかかるのか、という製造コストを把握する必要があります。これこそが、NVIDIAが削減を支援している「最小限のトークンコスト」の部分ですね。しかし、自分たちのトークンの有用性がどれほどあるのかを理解しなければなりません。トークンの有用性と価値を踏まえた上で、トークンの製造コストを把握し、当然それ以上の価格を設定したいと考えます。
これがコストベースの価格設定(原価基準の価格設定)です。そして当然、価値ベースの価格設定についても考える必要があります。これは本質的に、買い手がどれだけの金額を支払う意思があるか、つまり「顧客の支払許容額」を見極めることです。そのトークンの有用性が、お金を払う人々にとってどれほど価値があるのかを考慮しなければなりません。
さらに、最終的な価格を決定する前に、需要の分布がどうなっているかを考える必要があります。最終的には目指すべき売上目標や利益率のゴールがあるわけですからね。自分たちが望む着地点にたどり着くためには、大量の需要がどこに集まり、どのように需要が減衰していくのかを見極める必要があります。例えば、有用性があまり高くないトークンには、多くの買い手はつかないかもしれません。逆に、極めて価値の高いトークンであれば、プレミアムな価格を喜んで支払う人の数は少なくなります。こうした需要の分布を計算に入れる必要があります。
これら3つの要素を組み合わせることで、各トークンの適切な価格設定が見えて y、AIの導入を成功へと導くことができます。ただ、ここで重要なのは、トークンそのものに価格をつけるというのは、あくまで1つの側面に過ぎないということです。手に入れたトークンの上に、さらに付加価値の高いサービスを構築する顧客も当然います。AIネイティブなプロダクトを構築するような顧客がそうですね。その場合もプロセス自体は似ていますが、単にトークンを生成するだけでなく、その上にどのような追加価値を上乗せできているかを深く考える必要があります。
ジェボンズのパラドックスとインフラの未来
先ほどのエクストリーム・コ・デザインの話を聞きながら考えていたのですが、インフラが完璧に稼働し、トークンあたりのコストが極めて低くなる「スイートスポット(最適な状態)」に達したとき、それは最終的に、本当に必要なトークン量を生産するために必要なGPUの数が少なくて済むようになる、という意味なのでしょうか。それとも、そのようなシナリオでは何が起こるのですか。
それは非常に鋭い質問ですね。ここで起きるのが、古典的な「ジェボンズのパラドックス」です。効率が向上してGPUの生産性が飛躍的に高まり、より多くのトークンを生成できるようになれば、必要なGPUの数は減るのではないかと普通は思いますよね。しかし、答えは完全に「ノー」です。
なぜなら、効率が上がれば上がるほど、それによって新しいユースケースの扉が開かれるからです。世の中の活発な研究コミュニティ、データサイエンティスト、機械学習エンジニアたちは、その向上した効率をどのように使い切るか、どのように吸収して、さらに高度なことを成し遂げるかを即座に見つけ出します。人々はインテリジェンス(知能)から逃げ出すことはありません。それをもっと使いたいと思うものなのです。
私たちがこれまでに目にしてきたマクロなパターンを振り返ると、それは非常に雄弁に物語っています。生成AIが登場し、人々が要約を作ったり画像を生成したりし始めたとき、それは素晴らしい変化でした。その後、私たちがトークンあたりのコストを引き下げたとき、人々が必要とするGPUやトークンの数は減るどころか、むしろ増えました。なぜでしょうか。テスト時スケーリング(推論時計算量の拡大)や、より高度な推論が求められるようになったからです。
テストの段階、つまり推論を実行するタイミングで計算量をスケールさせることで、より正確でインテリジェンスの高い回答を生成できることに研究者たちが気づき、それが実際のユースケースにおいて極めて価値の高いものとなったのです。そして、こうした現象は一度きりでは終わりません。今、私たちはエージェントAIの登場によって、全く同じ現象を再び目の当たりにしています。
混合専門家(MoE)モデルや推論モデルを効率的にデプロイする方法を確立し、それらのコスト・パー・トークンを大幅に引き下げた今、まさに「トークンが大量に手に入るようになったのだから、もっと多くのことをさせよう」という新たな変曲点が訪れています。そして、これこそがエージェント革命が起きている背景なのです。マクロなレベルにおいて、まさにジェボンズのパラドックスが地で行く形で展開しています。私は、これが個別の顧客の現場でも起きているのを見てきました。ですから、非常に素晴らしい着眼点だと思います。
シュルティ、これをいくつかの具体的な事例に落とし込んで説明してもらえますか。あなたが一緒に仕事をしてきた企業や組織が、これらをどのように実践に移し、トークンから価値を引き出し、それを使ってビジネスを構築しているのかを教えてください。
ビジネス価値を生み出す4つのモデル
ええ、もちろんです。トークンを取り入れてビジネス価値へと変換するアプローチには、大きく分けて4つの主要なビジネスモデルが存在すると考えています。
1つ目は、先ほど議論した「トークンを直接販売する」モデルです。多くのNVIDIAの顧客やパートナーがこれを実践しています。具体的な企業名を挙げると、Fireworks、Together AI、DeepInfraなど、本当に数多くの企業があります。彼らは、自分たちが販売するトークンの上で、エンドユーザーが価値あるサービスを構築できるように支援しています。これが1つ目のモデルです。
2つ目は、最初からAIを組み込み、初日からAIが会社全体に行き渡っているような「AIネイティブ企業」です。Perplexityや、コーディングエンジンを提供しているCursorなどがその代表例ですね。他にも本当にたくさんの企業がこの領域にいます。これが2つ目のモデルです。
3つ目は、既存の製品にAIを注入し、既存のプロダクトの機能を強化するためにAIを活用するモデルです。これにも多様な事例があります。Shopify、Airbnb、そしてAdobeなどが挙げられます。実際、これらの企業の多くは、2つ目と3つ目の両方を実践しています。AIネイティブな機能をゼロから構築しつつ、同時に既存の製品のブラッシュアップにもAIを役立てているのです。例えばAdobeは、独自のモデルファミリーであるFireflyを構築し、そのモデルを使ってPhotoshopなどに全く新しい機能を吹き込んでいます。
そして最後の4つ目のバケットは、今日のほぼすべての企業が該当するもので、AIを導入することで社内のオペレーションや業務プロセスを改善し、従業員の生産性を向上させようという取り組みです。彼らは必ずしも、外部の顧客に向けた製品やサービスとしてAIを展開しているわけではありませんが、自社の社内業務のためにAIを活用しています。NVIDIAは、こうした領域でもあらゆる業界の企業と全面的に連携しています。
これらが4つの主要なアプローチです。もちろん、私が今見落としている、もっと細かなニュアンスを含んだ他のモデルもあるかと思いますが、トークンをビジネス価値へと変えるロードマップを考える上では、非常に有用なフレームワークになるはずです。
ビジネスリーダーへの提言
このポッドキャストを聴いて、トークノミクスの各柱のつながりや、トークンのコスト、価値の割り当て方について理解を深めたビジネスリーダーの方々に向けて、アドバイスをお願いします。自分たちの組織でこれを実践に移すには、何から始めればよいでしょうか。最後にメッセージをお願いします。
最も良い出発点は、まず「最終的に得たい成果は何であるか」を徹底的に考えることです。そして通常、その出発点はみなさんの顧客になります。それが外部の顧客であれ、社内の従業員や内部のプロセスであれ、本質は変わりません。顧客のニーズや、具体的なユースケースから逆算して考えを組み立てる必要があります。
なぜなら、私たちが議論してきたように、ユースケースこそがその後のすべての展開を決定づけるからです。ユーザーとユースケースが決まることで、どのような種類のモデルを使うべきかが決まります。サポートすべきコンテキストの長さも決まります。そして、どれほどのインタラクティブ性が必要かも見えてきます。つまり、インテリジェンスとインタラクティブ性の要求水準が決まり、それらの要素によって、最終的にどのようなインフラが必要とされるかが決まるのです。
そしてもちろん、インフラの選定を行う際には、私たちが先ほど確認したコスト・パー・トークンのような重要な指標を活用します。これが供給の側面の整理ですね。つまり、みなさんはトークンの有用性とトークンの需要から出発してそこから逆算し、トークンの供給体制を熟考し、この3つをしっかりと掌握した上で、最終的なマネタイズ戦略を組み立てて市場へと打って出るのです。そうすれば、ビジネスは力強く飛び立つことができるでしょう。顧客を第一に考え、そこから逆算していく。これに尽きます。
明快で素晴らしいアドバイスですね。シュルティ、今回はポッドキャストに参加していただき、リスナーや視聴者のみなさんが大きな価値を引き出せるような形で、トークノミクスを分かりやすく解き明かしてくれて本当にありがとうございました。非常に包括的でありながら、最初から最後までどのようにすべてが結びついているのかが本当にスムーズに理解できる内容でした。改めて感謝します。
はい、こちらこそ呼んでいただきありがとうございました。


コメント