AIの未来が分散型クラウドプラットフォームに依存する理由

AGIに仕事を奪われたい
この記事は約25分で読めます。

14,415 文字

Why the Future of AI Depends on Decentralized Cloud Platforms
This episode is sponsored by Indeed. Stop struggling to get your job post seen on other job sites. Indeed's Sponsored Jo...

AIトレーニングには二つの大きな課題がありました。一つはデータです。トレーニングに使えるデータには限界がありました。二つ目はエネルギーです。DeepSeekの事例で見られるように、合成データを使うことでデータの問題は実に見事に解決できます。合成データを使えば、データの問題は実際に解決できるのです。しかし解決できないのはエネルギーの問題です。だからこそ、トレーニングを行う場合は、トレーニング実行を従来の集中型メカニズムで行うのではなく、分散化することに焦点を当てることが非常に重要なのです。2年以内に限界に達し、解決策がなくなってしまうでしょう。
私の名前はグレッグ・オスーリです。Overclock Labsのファウンダー兼CEOであり、Akashネットワークのコア貢献者です。私はプログラマーとして生涯を過ごし、オープンソース開発者として15年以上の経験があります。キャリアの初期には、コンテナネイティブエコシステムへの貢献を手伝い、私の書いたソフトウェアの多くは今でもKubernetesやDockerなどのプロジェクトで使われています。
私たちはクラウドの大規模ユーザーとして、現在のクラウドが日常生活においてますます重要になっていることに気づきました。大半のワークロードが現在クラウド上でホストされていることを考えると、クラウドがより普及するにつれて、よりクローズドになっていることも感じました。そこで私たちは、リソースがどのように価格設定され、どのように配分されるかなど、透明でオープンなクラウドの必要性を感じました。
KubernetesやDocker、Linuxで見られたのと同様に、私たちも同様のクラウドを望み、そこからAkashの取り組みが始まりました。これはオープンソースプロジェクトとして始まり、現在も非常に成熟したオープンソースプロジェクトです。ちなみに、Akashはサンスクリット語で「空」を意味し、雲が形成される場所を表しています。
私たちは2015年にコーネル大学が提唱した「スーパークラウド」のコンセプトに影響を受けました。彼らは、リソース層(リソースが取得される層)とコントロール層(コントロールプレーン)を分離することで、誰でもリソースプロバイダーになれるメカニズムを効果的に作れると予言しました。そのリソースプロバイダーは必ずしもコントローラーである必要はありません。これがスーパークラウドの概念です。
私たちはAkashを作り、分散型メカニズムでコントロールプレーンを提供しました。ここでは誰一人としてコントロールプレーンを支配せず、コミュニティがコンセンサスに基づいて運営し、計算能力を持つ誰もがプラグインして市場に提供できるリソースプレーンを構築しました。現在、Akashはおそらく最も急成長しているクラウドであり、最もコスト効率の良いクラウドです。コンピュータリソースについては、Amazonのようなサービスと比較して10倍のコスト削減が可能で、GPUなどの高速リソースについては、従来のクラウドと比較して2〜3倍のコスト優位性があります。これが現在の信じられないほどの成長の一因となっています。
現状を理解するには、世界には約720万のデータセンターがあります。そのうち11,000が1メガワット以上の容量を持つプロフェッショナルデータセンターで、残りは小規模なデータセンターです。この11,000のうち約1,000がハイパースケーラーで、残りの10,000ほどが企業データセンターです。企業データセンターの稼働率は約15%程度なので、これらの10,000のプロフェッショナルデータセンターには膨大な未使用リソースがあります。
Akashでは、このようなコンピュートリソースを持つプロバイダーが参加し、テナント(コンピュートリソースのユーザー)にサービスを提供します。テナントは注文を出し、例えば「H200に対して1時間あたり2ドルを支払う用意がある」という形で設定し、プロバイダーがその注文に入札します。これにより逆オークションの仕組みが生まれます。
テナントが注文したら、プロバイダーが入札し、テナントがプロバイダーの入札を受け入れると、リースが作成されます。これがプロバイダーとテナントの間の契約とでも呼べるものです。テナントはエスクロー支払いを行う必要があり、その資金はエスクローに保持され、プロバイダーがサービスを提供するにつれて分配されます。
テナントが注文を作成する層は分散化されており、オープンです。プライベート情報を除くすべての情報が公開されています。これにより、誰がどのリソースにいくら支払っているかという豊富な公開データが生まれ、プロバイダーがリソースの価格設定に利用できます。
プロバイダーとテナントが合意すると、ブロックチェーンは退場し、関係はピアツーピアになります。直接プロバイダーと通信し、中間者はいません。ブロックチェーンは契約を執行し、分散方式で支払いを強制する役割を果たします。たとえば、エスクローアカウントの資金が尽きた場合、ワークロードは展開解除されます。これがコントロール層での執行です。
世界のコンピュートの分布について言えば、エネルギー消費量から推測すると、1,000の30メガワットデータセンターがあり、その半分は米国にあります。また、1メガワット以上の10,000のデータセンターがあります。高レベルの1メガワット以上の状況では、約60%がハイパースケーラーで、40%が非ハイパースケーラーです。この数字は成長していますが、ハイパースケーラーはエネルギーと真水という二つの主な要素によって制限されています。
米国の総グリッド容量は約1.2テラワット(1200ギガワット)です。しかし規制のためエネルギー生産の拡大は困難です。グリッドへの接続を希望する新しい供給のインターコネクト要求は約1.9ギガワット容量ですが、今後14年間で接続されるとみられています。しかし、グリッドへの接続は非常に遅いです。これには老朽化したグリッドインフラから規制まで、様々な問題があります。
最も効率的な電力源である原子炉は、800メガワットから1.2ギガワットの容量を生産できますが、米国で最後に建設されたものは14年かかり、約320億ドルかかりました。コストが非常に高く、新しい規制下では第3世代原子炉の1キロワット時あたりのコストは約10〜15セントで、天然ガスよりも禁止的に高価です。
ハイパースケーラーがデータセンターを増やすのは、どうやって継続できるか大きな疑問があります。実際、NVIDIAがハイパースケールデータセンターを建設しようとしましたが、20メガワット以上の容量を得ることができませんでした。容量を獲得するのは非常に難しいのです。
より良い選択肢は、10メガワット未満の非ハイパースケールなデータセンターを建設できるかどうかです。10メガワットであれば、密度の高い太陽光発電や風力など、再生可能エネルギーで賄うことができます。私は、ハイパースケーラー市場が望むスピードで進むことができるかどうか非常に懐疑的ですが、第二層の市場である1〜10メガワットでは大きなチャンスがあると思います。
さらに、100キロワットから1メガワットのデータセンターにも大きな機会があります。これらは小型のモジュラーデータセンターで、コンテナに収まります。マイクロソフトはこれらを実験しており、冷却や配置に関して様々な革新的なことができます。100キロワットから1メガワットのデータセンターの利点は、分散型グリッド、つまり至る所にある太陽エネルギーを活用できることです。
私たちは論文を書きました。AIが私たちの生活で非常に重要になり、家の中のすべてがエージェント駆動になったらどうなるかという分析です。この会話が記録され、処理され、洞察が得られるべきです。私には1歳の子供がいますが、私が働いている間に彼女が家で何をしているか知りたいです。エージェントがあれば、彼女が触れるべきでないものに触れていないか警告してくれます。家全体を自動化し、すべての会話を記録したいですが、その会話がクラウドに保存されるのは嫌です。家のネットワークから出るものは信頼できないからです。
家庭内にプライバシーを保証する主権AIを持つことはできるでしょうか?多くの人はプライバシーが保証されれば家にAIを持ちたいと思うでしょう。今DeepSeekの365Bモデルは、H200クラスターで非常にうまく動作します。約8つのH200クラスターが必要で、そのクラスターは約50万ドルかかります。
私たちは、家庭内の半プロフェッショナルデータセンターで主権AIを持つことが可能かどうかのフィージビリティ調査を行いました。30キロワットのエネルギーを使用し、コスト効率的なものです。答えはイエスでした。もし5つのH200 8×8チップクラスター(HGXクラスターと呼ばれ、基本的に40チップ)を取得し、最初の年に1時間あたり約2.3ドルで、80%の稼働率、冷却のための20%のオーバーヘッドで運用できれば、資本支出と運用支出は5年以内にAkash上に配置することで回収できます。
あなたは1つのHGXクラスターを家庭用に100%専用に割り当て、残りの4つのHGXクラスターを80%の稼働率で市場に提供します。すでに冷却とエネルギーインフラがあるので、さらにソーラーパネルを使用してコストを削減できます。
太陽光発電の大きな課題は明らかに蓄電です。太陽光は1日に最大8時間、運が良ければ6時間しか得られません。100キロワットの容量を10時間以上蓄えるには、300キロワットのバッテリーが必要で、これは約20万ドルと非常に高価です。しかし、余剰エネルギーをグリッドに売り戻すことができます。オースティンでは1キロワット時あたり約4セント(地域によって3〜4セント)で売ることができます。
グリッドは10セントで売り、あなたは4セントで売ることになりますが、それでも非常に実現可能です。このような調査をしたので、家庭ネットワーク、半プロフェッショナルな家庭ネットワークへのアクセスが重要なのです。AI収容に必要なラックは142Uで、クローゼットに収納できます。AIが本当に家庭に入ってくれば、これらのデータセンターの爆発的な増加が見られるでしょう。オフィスかもしれないし、誰でも装置を手に入れたい人かもしれません。大学のような場所かもしれません。
これらのデータセンターは約720万あります。2017年にピークの860万に達しましたが、クラウドの台頭により多くのデータセンターが淘汰されました。しかし、プライバシー、所有権、コスト面の理由から、データセンターの再興があると思います。それが分散型AIを持つという私たちの目標の一つです。エネルギー生産とエネルギー消費を分散化することで達成できます。
現時点では、主に世界中に散らばった小規模なデータセンターがあります。ワークロードがある場合、Akashにはワークロードを適切なデータセンターにルーティングするオーケストレーション層がありますか?それともそれはユーザー側の役割ですか?
デザイン上、データセンターの選択はユーザーが行います。ブロックチェーンはプライバシーの理由からアプリケーションを認識しません。ブロックチェーンはパブリックチェーンであり、ルーティングするにはアプリケーション固有の情報が必要です。各アプリケーションにはスケーリングの異なる方法があるからです。
デフォルトではマッチングエンジンではなく入札エンジンがあります。アプリケーション固有の情報が一つの理由であり、また多くの場合、必要なものよりも良いリソース、より良い価格性能の入札が返ってくることがあります。人々は実際に何が必要か分からないことが多いからです。妥協することもあります。必ずしも望むものが得られるわけではなく、同様に良いものがあれば購入すべきです。だから人間向けのマッチングエンジンを開発するのは非常に難しいのです。
Akashは自動ルーティングを持っていません。しかし、Akash上で複数のデータセンターをリースして、独自のルーティングメカニズムを持つことができます。これを「自前のルーター」と呼んでいます。これはアプリケーション固有のものです。あなたはインフラストラクチャプロバイダーよりもアプリケーションをはるかに理解しているからです。Akashは、アプリケーションをどこにでもルーティングする柔軟性を持つための主権とコントロールを提供します。
入札をチェーンに出すと、それはネットワークに接続されたすべてのプロバイダーに見られ、彼らがそれに入札し、あなたが望むものを選択することができます。または、ワークロードを複数のプロバイダーに分割することもできます。
ネットワークの成長に伴い、合理的に処理できるよりも多くの入札を受けることがあるかもしれません。これらを分類するためのチェーン外のアプリケーションはありますか?
「ビッドセレクター」と呼ばれるものがロードマップにあります。あなたに最適な入札選択戦略を選ぶことができます。これらは事前に作成された戦略であり、コスト優先、レイテンシー優先、またはコストとレイテンシーの組み合わせなど、さまざまなルールを持つことができます。
ルールエンジンベースのシステムを超えて、エージェントベースのメカニズムを検討しています。エージェントがあなたのアプリケーションを知り、コードを読んで理解し、適切な選択をすることができます。これは壊れやすいルールベースのシステムよりも優れています。
Akash上に構築されたアプリケーションがあります。Prime Intellect、NVIDIA(Brevという製品を持つ)、Veniceなど、独自の選択エンジンを持つ異なる製品があります。Akashの考え方は、プリミティブを提供することです。レゴブロックのように、クールなものをすべて提供し、プログラマーとしてそれらのブロックで何をするかを決めることができます。
多くの人がAkashを直接使用していますが、ほとんどの使用はディストリビューターを通じて行われています。NVIDIAやPrim Life、Veniceなどが独自のAkashのフレーバーを提供し、入札のための最良の勝利戦略と考えるものを提供しています。
入札選択エンジンがあるべきだと思います。Akashはそれを提供するでしょうか?おそらくオプションを提供し、作業を容易にするでしょう。あなたがパワーユーザーであり、これらの入札の仕組みを理解していると仮定していますが、誰と取引するかを完全に制御できるように、できるだけ明示的でありたいと思います。
入札が来るとき、それらはあなたがいる場所のレイテンシーを測定する何らかのメトリックと共に来ますか?
彼らはワークロードが配置される地域を提供します。あなたはその選択をする必要があります。あなたはレイテンシーチェッカーを書くことができ、ユーザーがどこにいるかに応じてレイテンシーをチェックします。典型的には、ユーザートラフィックを分析し、ユーザーアクティビティの95パーセンタイルが50ミリ秒のネットワークレイテンシー内で達成できるデータセンターを選択するメカニズムを選びます。
しかし、これらのコントロールはアプリケーションに基づいて書かれ、指定される必要があります。レイテンシーは非常に複雑なものです。Facebookのようなハイパースケールアプリケーションがある場合、異なる地域に異なるシャードがあります。カリフォルニアのユーザーはカリフォルニアに行き、ニューヨークのユーザーはニューヨークに行きます。そして、データはこれらのローカル地域で利用可能であるべきです。ニューヨークのユーザーがカリフォルニアにアクセスしようとしたり、ニューヨークからカリフォルニアに移動したりするとどうなるでしょうか?
レイテンシーベースの選択は思うほど簡単ではありません。アプリケーションが単純な場合は簡単ですが、複雑になるにつれて非常に難しくなります。アプリケーションに基づいて正しい情報を提供できない可能性があるため、単にレイテンシーエンジンを持つことはできません。
プライバシーの懸念からハイパースケーラーに特定の情報を置きたくないと述べましたが、Akashチェーン上のコンピュートリソースはどれだけ安全なのでしょうか?例えば、香港の小さなデータセンターにアクセスする場合、あなたはそこにいないし、彼らのセキュリティプロトコルを見ることもできません。どのようにセキュリティを確保しますか?
Akashが提供する二つの主なメカニズムがあります。一つは分散型監査人メカニズムです。プロバイダーがHIPAA準拠であるなど、何らかの基準に準拠していると主張する場合、これらの監査人が確認します。彼らはオフチェーンでアプリケーションを実行し、監査チェックを行い、物理的な証拠と書類による証拠を確認します。そして彼らの結果をチェーン上に投稿し、このプロバイダーが彼らが主張する通りであることを確認します。何か問題が起きた場合に備えて、彼らの身元を確認することも重要です。すべての情報は複数の監査人によって検証され、チェーン上に投稿されます。テナントとして、選択したい監査人を選ぶことができます。これらの監査人は公的な人物です。たとえば、Overclock Labsは監査人の一つです。
二つ目のメカニズムは、「TE」または「信頼実行環境」と呼ばれるものを提供しています。TEは、非保管的な方法でランタイムを暗号化します。通信(あなたとプロバイダーの間の通信)は暗号化されていますが、メモリ内にあるものは暗号化されていません。機械に物理的にアクセスできる人は、理論的には、十分に才能があれば、機械内部で何が実行されているかを見ることができます。それを防ぐためには、メモリ自体を暗号化したいです。
これは信頼実行環境によって達成されます。明らかなトレードオフは、暗号化のためにより多くのリソースが必要ということです。より多くの計算能力、より多くのGPUが必要です。AIを行う場合、NVIDIAは新しいチップH200、H100に素晴らしいTEメカニズムを持っています。チップ内のメモリを暗号化し、NVリンクを使用してチップ間の通送も暗号化します。NVリンクは3.2テラバイト/秒と非常に高速です。それは少し遅くなるかもしれませんが、現在約10%のオーバーヘッドが見られています。プライバシーが欲しいなら悪くないトレードオフです。
米国のEquinixのような専門データセンターに展開している場合は、その問題はありません。暗号化による信頼か、監査可能性による信頼のいずれかによって、信頼する必要がありますが、このようにして、データセンターに直接行くときには通常得られない多くのツールが実際にあります。
ハイパースケーラーに行くと、ブランドを信頼しています。Amazonが何かをしないと信頼していますが、この信頼がどのように損なわれる可能性があるかは分かりません。大企業がAmazonを使用している場合、彼らはあなたに箱を開けさせ、すべてを監査させます。国防総省であれば、彼らは文字通りすべてを監査させますが、一般人であればだれも気にしません。あなたのデータに誰かがアクセスしているかどうかさえ分からないでしょう。
ChatGPTでは有名な例があります。インタビューで一人のエンジニアが「はい、ユーザーのプロンプトを見ています」と言いました。私はプライバシーの侵害を感じました。私のプロンプトは良いものですが、いろいろなものがあります。そして私のプロンプトを見ている人によって判断されるのは、プライバシーの侵害のように感じます。クラウド上に何かがある場合、これらの人々があなたのものを見ないという保証はありませんが、彼らが特定の基準に従い、それに従わない場合、ある程度の補償があります。
究極のプライバシーが欲しいなら、家で実行する必要があります。他に方法はありません。次善の策はTEで、家で実行できない場合は少しオーバーヘッドがあります。三番目に良いのはおそらくプロバイダーへの究極の信頼ですが、Akashはクラウドよりもはるかに良いTEを提供します。
ワークロードを実行していて、データセンターがダウンした場合、または停電があり、バックアップが行われない場合はどうなりますか?
それは死にます。アプリケーションごとに冗長性を持つ方法を知る必要があります。これは大きな分野の一つです。今日のクラウドでも同じ問題があります。Amazonは昨年約200の障害がありました。Cloudstrikeで何が起こったかを私たちは皆見ました。誰かが悪いコードをプッシュし、米国の航空インフラ全体が停止しました。
集中型システムは一般的に多くの障害を持っていますが、それを明らかにしません。Akashを効果的に使用するための重要な設計パターンの一つは、最初から冗長性を持つことです。Akashはそれをより安く、より最適にします。しかし、万能薬はありません。これは常に起こります。
ISPを見ると、なぜTier 3またはTier 4データセンターを持ちたいかが分かります。それは理想的にはStarlink(スターリンク)バックアップを持つデュアルISPを意味します。私たちは最近、デュアルISP、スターリンクバックアップ、デュアルジェネレーター(自動スイッチオフ付きのディーゼルジェネレーターとガスジェネレーター)、および理想的にはソーラーパネルを備えた家庭用データセンターの設計方法についての記事を共有できます。
これらの側面はすべて検証されているので、障害の可能性は減少しますが、障害は発生します。障害を防ぐことはできませんが、より早く復帰することはできます。マイク・タイソンの言葉を借りれば、あなたがどれだけ計画していても、顔にパンチを食らったときにしか計画の良し悪しはわかりません。インフラストラクチャを実行するとき、顔にパンチを食らうでしょう。それがインフラストラクチャの現実です。
最終的には冗長性に行き着きます。例えば、データベースを実行する場合、単一のデータベースではなく、マスタースレーブ(今はリーダーフォロワースタイルと呼ぶべき)データベースを実行します。フォロワーがダウンした場合、リーダーは異なるリーダーを自己選出するか、常に生きている新しいフォロワーデータベースをスピンアップします。
Akashを使用するには少し専門的である必要があります。しかし、これらすべてを簡単にするAkash上のアプリケーションがあります。ボタンをクリックするだけで、すべてが処理されます。ただし、それは非常にアプリケーション固有です。Akashはデザイン上、これらの冗長性メカニズムを提供していません。それはアプリケーションによって異なるからです。
データベースをスケーリングするとき、一貫性についても考える必要があります。どのレベルの一貫性が必要ですか?即時の一貫性が必要な場合、世界中の異なる場所に複数のノードがあれば、レイテンシーがあるため同じ情報を提示することはありません。東西で300ミリ秒のレイテンシーがあります。したがって、即時一貫性を持つデータベースが欲しい場合、すべてのデータセットが複製されるまで約300ミリ秒かかることを確認する必要があります。書き込みを行った後、すぐに読み取ることはできず、300ミリ秒待つ必要があります。これが即時一貫性と呼ばれるものです。
即時一貫性が必要なく、最終的な一貫性で問題ない場合、つまりカリフォルニアでデータエントリを書き込み、読者がニューヨークではなくカリフォルニアから読み取っていると仮定するなら、それで構いません。ソーシャルメディアを構築している場合はそれで問題ありませんが、銀行アプリケーションを構築している場合、カリフォルニアのATMから現金を引き出した人が300ミリ秒以内にニューヨークで引き出せないようにする必要があります。そのため、スケーリングと冗長性計画は非常にアプリケーション固有のものです。
そのため、Akashはあなたに選択をさせず、あなたが望むように冗長性を設計する必要があります。
このネットワークは新しいもので、約4年間運営されています。AIが経済全体に広がるにつれて、コンピュータへの需要が急激に増加するでしょう。ネットワーク上にどれくらいの計算能力を持つための目標はありますか?
現在、毎年10倍のペースで成長しており、これは素晴らしいことです。この成長を継続したいと思っています。現在、年末までに約10,000個のGPUを獲得したいと考えており、来年末までに約100,000個のGPU、そして3年以内に100万個のGPUを目指しています。現在、月ごとに20%の成長を続けており、非常に順調です。
しかし、私たちにとって重要なのは、どれだけの計算能力を獲得するかではなく、ネットワーク上の計算能力がどれだけ使用されるかです。稼働率は非常に重要です。責任を持ってスケールしています。なぜなら、Akashに参加する新しいプロバイダーは在庫を売り切れることができるべきだからです。在庫が売れないなら、Akashに参加する意味がありません。プロバイダーが計算能力を販売する能力とテナントがワークロードをスケールする能力の間に良いバランスを確保することが非常に重要です。
プロバイダーがすべてを販売すれば、在庫がなくなり、テナントは不満を持つでしょう。だから、システムをスケールする方法には非常に注意する必要があります。現在の稼働率は70%で、非常に健全です。このスケールで稼働率が上がる可能性がありますが、プールにより多くのリソースが一般的にあるからです。したがって、私たちの制約は稼働率であり、それなしにスケールしません。現在、非常に順調に進んでいます。
次の大きな目標は、リソース市場からサービス市場へ、リソース経済からサービス経済への移行です。現在、Akashはリソースのマーケットプレイスと考えてください。商品取引所のように、金などの商品を作れますが、サービスのマーケットプレイスではありません。
AIシステムやその他のシステムを構築する際、データベース、ベクトルデータベース、推論サービス、エージェントホスティングプラットフォームなど、さまざまなリソースを使用します。クラウドプロバイダーを見ると、リソースはすべてオープンソースシステムです。例えば、AmazonのElastiCacheはRedisであり、Amazonが提供するデータベースサービスはMySQLやPostgreSQLです。これらはオープンソースプロトコルで、Amazonはそれらを取り、ホワイトラベルにして販売しています。
オープンソース開発者がAkash上でサービスを提供できるようにすれば、持続可能なオープンソースエコシステムを効果的に持つことができると感じています。現在、オープンソースソフトウェアの大きな課題は持続可能性です。例えばDockerは、最も広く使用されているオープンソースのコンテナインフラストラクチャシステムの一つですが、ビジネスモデルを見つけることができませんでした。10億ドルの評価で資金調達した後、Nutanixに売却され、もはやオープンソース企業ではありません。
Kubernetesは世界の80%が使用していますが、もはや貢献者を集めておくことができません。リナックスを除けば(非常に独特な創設者がいて特別ですが)、純粋にオープンソースのままで成功した例が野生の中にはありません。
これを変える必要があります。オープンソース貢献者が自分自身を維持し、オープンソースソフトウェアを構築できる経済を作る必要があります。これがAkashがサービス経済に移行しようとしているものであり、来年に登場します。
また、GPU当たりの収益も測定しています。現在、GPU当たりの収益は1日あたり20ドルで、これはかなり良いです。1年前は10ドルでした。GPUの収益を増やすことに成功しましたが、追加サービスで、GPUあたりの収益を50ドルから100ドルに改善できます。これはその上のプレミアムサービスから来るもので、その収益はオープンソース開発者に行きます。
純粋な容量だけでなく、提供するリソースごとの価値をどのように増やすか、また良い稼働率を維持しながらどのようにスケールするかも見ています。これはネットワークの健全性にとって非常に重要です。ネットワークが健全であればあるほど、将来成功する可能性が高くなります。
どのようにしてネットワークを使用しますか?
akash.networkに行き、「デプロイ」というボタンがあります。Console.akash.networkという名前のアプリケーションがあり、始めるには素晴らしい方法です。10ドルの無料トライアルがあり、試すことができます。サインアップは不要で、非常に簡単です。人々はそれを気に入っています。
もっと簡単なシステムが欲しい場合、SSHスタイルのアクセスを得るには、Prime Intellectに行くことができます。彼らはAkashを使用してリソースをデプロイし、そのパワーを見ることができます。
しかし、最もコスト優位性を得るには直接行くのが最も良い方法です。現時点では、H100やH200がネットワーク上に残っているかどうかわかりませんが、それらは非常に人気があります。H200は1時間あたり1.99ドルで、これはAmazonと比較して最も安いです。Amazonは1時間あたり6ドル程度で、3倍高いです。
なぜ安いのかというと、投資を適切な稼働率で償却できるからです。Amazonのマージンを支払う理由はありません。Amazonはあなたから記録的なマージンを得ています。すべてのマージンを取り除くと、リソースは実際にかなり安いです。それがAkashが提供するものです。だから、リソースは非常に安いです。
ただし、H100とH200は人気があり、すぐになくなります。最後に確認したときのH200の稼働率は98%でした。これが熱いチップの問題で、可用性がありません。できるだけ改善しようとしていますが、H100は1時間あたり1.20ドルで利用可能で、これもAmazonと比較してとても競争力があります。
価格設定を見るには、「Akash Network GPUs」と検索すると、GPU価格が表示され、それらが非常に競争力があることがわかります。また、ネットワーク上の可用性がどれくらいあるかも知ることができるので、計画を立てることができます。
特にH200でDeepSeekが非常にうまく動作するため、自動化すると非常に中毒性があることを警告します。ユーザーの多くは、GPUが見つかるとすぐに手に入れるために完全に自動化しています。
また、コンピュートを購入し、より高いレートで再販売する機能を構築している人もいます。実際に非常に魅力的な市場です。
最後に、あなたは唯一の分散型クラウドコンピューティングプラットフォームではありません。競合の中でどのように自分を位置づけていますか?
私たちは確かにリーダーであり、最初のものです。成功にはコピーキャットがつきものであり、それが現実です。唯一のものではありませんが、最初で最大のオープンソースクラウドです。新しいコピーキャットは実際にクローズドソースで、私たちのコードを取り、フォークしています。
競争を軽視するわけではありませんが、人々が私たちのモデルを見て、その成功を認識し、独自のフレーバーを持とうとしていることは良いことだと思います。彼らはコードをより速く出荷できるため、クローズドソースのままでいたいと考えています。
Akashは非常に分散化されています。価格設定の観点からも私たちの方が優れており、より良いSDK、より良いユーザーエクスペリエンス、そしていくつかの側面でより優れています。また、Discordに約30,000人の開発者がいて、問題があればDiscordに行くだけで、すぐに問題を解決するのを手伝ってくれます。
巨大なコミュニティと巨大な参加があります。約500人の貢献者がAkashの構築に参加しています。構築したい機能があれば、自分で提案を書くことができます。オープンソース開発者であれば、Akashはあなたのためのプラットフォームです。オープンソースシステムを使用するだけでなく、構築して報酬を得ることもできます。
Akashで実行できるアイデアがあれば、コミュニティプールに約2,500万ドルがあり、補助金を申請して、Akashを使用することができます。Akashを使用している大学生もたくさんいます。あなたが相手にしているのは会社ではなく、コミュニティです。これが、Akashを使用することと会社ベースの製品を使用することの大きな違いです。企業ではなく、コミュニティなのです。
このようなコミュニティが社会問題を解決できると信じるタイプの人であれば、Akashはあなたのためのものです。しかし、分散型スタックを活用できる会社に支払いたいと思う人であれば、オプションがあり、もちろん、Akashに似たものを提供している会社があります。
最後に、この分散型モデルがなぜ非常に重要になるかを強調したいと思います。AIトレーニングにおける二つの大きな課題は、データとエネルギーでした。データについては、DeepSeekのように合成データと専門家の混合メカニズムを使用してデータ問題を解決できます。しかし、解決できないのはエネルギー問題です。
だからこそ、トレーニングを行う場合、トレーニング実行を従来の集中型メカニズムで行うのではなく、分散化することに焦点を当てることが非常に重要です。2年以内に限界に達し、解決策がなくなるでしょう。5,000億ドルの投資が予定されており、その多くが電力インフラに向けられていますが、その投資の恩恵が実現するのは遅すぎるでしょう。
分散型の分散トレーニングをより真剣に考え、研究グループが採用しているメカニズムを検討することを強く勧めます。Newsはトップチームで、最近「Dist」と呼ばれるものを開発しました。Google DeepMindは「Dialo」という論文を発表しました。さまざまな会社がそれぞれのアプローチを持っており、その一部はノード間の通信量を減らしてより良いトレーニングを行うことを目指しています。また、一部はより良いトレーニングのためにローカルで使用される優れた検証メカニズムを持っています。
より多くの研究、より多くの異なるアプローチ、そしてこの分野でのより多くの実験が見られることを願っています。それが私たち全員に利益をもたらし、世界のOpenAIからパワーを奪うことになるでしょう。本当に彼らを混乱させたいなら、分散化を考える必要があります。

コメント

タイトルとURLをコピーしました