中国の新しいAIがGPT 4.5を全ての面で打ち負かす（AI戦争が激化）

4,354 文字

https://www.youtube.com/watch?v=oaGA5gFyo5U

BYUはAI軍拡競争において大胆な一手を打ちました。これは単なる新モデルの発表ではなく、中国のAI市場の基盤を揺るがす戦略的シフトです。4月25日、BYUは2つのアップグレードモデル「Ernie 4.5 Turbo」と「Ernie X1 Turbo」を正式に発表しました。これらのモデルが注目を集めているのは、その性能だけでなく価格設定もあります。
BYUのAIの歴史を追ってきた方なら、これが突然の方向転換ではないことをご存知でしょう。Ernieシリーズは2019年に始まり、最初のモデルはGlueベンチマークでGoogleやMicrosoftをも上回る成績を収めました。そのバージョンでは個々の単語ではなく文字列をマスキングするという巧妙な戦略を採用し、中国語理解において強力な性能を発揮しながら、英語でも十分な能力を維持していました。現在、BUのAIインフラは1日15億回以上のAPIコールを処理しています。これは使用量が7.5倍増加したことを意味し、これらのモデルが様々な産業にいかに深く浸透しているかを物語っています。
Ernie 4.5 TurboとX1 Turboの新機能は何でしょうか？まず、これらは高速で賢く、競合他社と比較して驚くほど安価です。Ernie 4.5 Turboは入力トークン100万個あたりわずか11セント、出力は44セントです。これは、これまで有力な競合と考えられていたDeep Seek V3の価格のおよそ40%に当たります。一方、X1 Turboモデルの価格はやや高めで、入力が14セント、出力が55セントですが、それでもDeepSeek R1より約25%安いのです。
しかし注目すべきは価格だけではありません。性能面でも、BUの新しいTurboモデルはあらゆる面で優れています。Ernie 4.5 Turboはマルチモーダルタスクのベンチマークテストで平均77.68点を獲得しました。比較すると、OpenAIの話題のマルチモーダルリリースであるGPT-4oの得点は72.76でした。つまり、BUのモデルはGPT-4oをこのカテゴリで実際に上回ったのです。
これらのモデルは本格的な作業向けに構築されており、マルチモーダル理解、論理的推論、創造的な文章作成、さらには画像分析もこなします。BUのKonfanプラットフォームを通じてツールやAPIとシームレスに統合されるため、開発者、企業、研究者にとって優れた選択肢となっています。
特にX1 Turboは深い推論に重点を置いています。これは本質的に4.5 Turboの上に構築された強化された頭脳であり、思考の連鎖能力とツール呼び出し機能を向上させています。
これが全体像にどう当てはまるのかというと、BUは中国の国家AI戦略に密接に連携しているのです。北京は2030年までに中国を世界のAIリーダーにすることを強く推進しており、BYUはその計画の中心的存在です。彼らは単なる技術企業ではなく、ディープラーニングの国家工学研究所をリードするように選ばれました。このような制度的支援は単にお金だけでなく、データへのアクセス、研究人材、長期的な政策支援も伴います。
中国における生成AIへの民間投資は2023年の6億5000万ドルから2024年には31億ドル以上へと爆発的に増加し、BYUはその中心にいます。中国全土で4,300以上のAI企業が活発に活動し、AI市場の評価額は700億ドルを超え、著しい勢いがあります。AlibabaやTencentのような技術大手がTencentのHunan T1のような高度なモデルの発表を競う中、競争は激しさを増しています。誰もが市場シェアを争奪しようとしており、BYUは短期戦略と長期戦略の両方を展開しています。現在は価格を下げて採用を促進しながら、将来的な支配を目指して次世代モデルに投資しています。
BUのCreate 2025開発者会議で、BU創業者のRobin Leeは、適切な基本モデルを選択し、それを実世界のアプリケーション向けに微調整することの重要性を強調しました。彼によると、マルチモーダルモデルが未来であり、純粋なテキストモデルはすでに廃れつつあるとのことです。そのため、両方のTurboモデルは現在、テキスト、画像、論理ベースの入力をサポートし、教育から金融、医療まで多様なシナリオ向けに調整されています。
しかしそれだけではありません。BUはまた、正直なところSF映画から飛び出してきたようなものを披露しました。彼らのWenshinモデルを搭載した超リアルなデジタルアンカーシステムです。「Hugh Boxing」と呼ばれるこのシステムでは、ライブ放送用に自分自身や他の人のクローンを作成できます。2分間のビデオを録画するだけで、顔の表情、感情、ジェスチャーを備えたAI駆動のバージョンがライブ配信の準備を整えます。そして、それはただそこに座っているだけではありません。考え、リアルタイムで反応し、トーンを変え、視覚資料を表示し、放送中に役割さえ切り替えます。1人で、AIアンカーの助けを借りて、マーケティングチーム全体を運営することができるようになりました。
美容製品のライブストリーム販売、教育チャンネルのホスティング、ゲームのプロモーション立ち上げなど、BYUのデジタルアンカー技術は、変換とユーザー維持率を最大化するように設計されています。そして繰り返しますが、これはすべて彼らのコア言語モデルを駆動しているのと同じ深いマルチモーダルアーキテクチャによって駆動されています。
少し視点を広げると、これは米国が中国のハイテク企業への輸出を取り締まる中で、BUが地政学的圧力の高まりに対する答えでもあります。このイベントでのBUのメッセージは明確でした。彼らは減速しておらず、自立しており、コスト最適化され、中国国内だけでなく、世界的にもペースを設定しています。
しかし、BUがアジアでの急速なモデルリリースとデジタルクローンで注目を集める一方、米国ではNVIDIAが大きな飛躍を遂げましたが、それは全く異なる方向性でした。汎用AIの群れを追いかける代わりに、NVIDIAは研究者たちを長年悩ませてきた問題に深く切り込みました。それは数学的推論です。大規模言語モデルはチャット、物語の生成、さらにはコーディング面接の合格には優れているかもしれませんが、複雑な数学の問題、特に多段階の問題を解くとなると、通常は崩れ始めます。
NVIDIAは「Open Math Neatron」シリーズという新しいモデルでこの課題に正面から取り組みました。彼らは「OpenMath Neatron 32B」と、より小さく効率的なバージョンである「14B Kaggleモデル」の2つを導入しました。どちらもQuinn 2.5アーキテクチャ上に構築され、「open math reasoning」と呼ばれるデータセットを使用して微調整されています。このデータセットには、AIM、ハーバードMA数学トーナメント、HLE数学シリーズなどの実際の数学コンペティションから引用された難しい問題が詰め込まれています。これらは基本的な方程式ではなく、複数の論理的ステップと高度な概念の確かな理解を必要とする種類の問題です。通常、最も能力の高いLLMでさえつまずくような内容です。
32Bモデルは強力で、328億のパラメータを持ち、メモリ使用を効率的に保ちながら性能を最大化するためにBF-16テンソル演算を使用して、NVIDIAの独自ハードウェア向けに特別に最適化されています。ツール統合推論モード、つまり推論プロセス中に外部ツールを使用できるモードでは、AIM24で78.4%のパス精度を記録しました。さらに印象的なのは、多数決技術を使用すると93.3%の精度に達したことです。これはこの分野での業界をリードする性能であり、これまでの他のすべてを上回っています。
しかし、誰もが高性能GPUを積んだデータセンターにアクセスできるわけではありません。そこで登場するのが14B Kaggleモデルです。これはより軽量で148億のパラメータを持ちますが、その重量をはるかに上回る性能を発揮するように最適化されています。具体的には、競争力のある性能のために設計され、実際に高度な数学的課題を解決することに焦点を当てたAimo2 Kaggleコンペティションで優勝しました。モデルが段階的に作業を示す思考の連鎖モードでは、AIME24で73.7%のスコアを記録しました。複数の回答を生成して最も一貫性のあるものを選択するGen Selectモードでは、それを86.7%まで押し上げました。これは比較的コンパクトなモデルから見れば真剣な性能です。
両バージョンの素晴らしい点は、完全な透明性を持っていることです。NVIDIAはNemoスキルフレームワークを通じてトレーニングパイプライン全体をオープンソース化しました。データ生成からトレーニングステップ、ベンチマークテスト、推論設定まですべてにアクセスできます。次世代の数学チューターを構築する開発者であれ、科学的ワークフローに形式的推論を統合する人であれ、NVIDIAがすでに行ったことの上に構築するために必要なすべてのツールを手に入れることができます。
インフラの観点からは、Ampearからより新しいHopper GPUまで、NVIDIAのハードウェアエコシステム全体で実行できるように最適化されています。また、Triton推論サーバー、CUDAライブラリ、TensorRT最適化のサポートも得られ、大きな遅延のトレードオフなしにこれらのモデルをリアルタイムシステムやバッチジョブにデプロイできることを意味します。
特に巧妙なのは、使用方法の柔軟性です。透明性と段階的な推論が必要な場合は思考の連鎖モード、外部の問題解決が必要な場合はツール統合推論、そして回答の精度を最大化したい場合はgen selectがあります。この適応性により、モデルは学術環境だけでなく、パフォーマンス、説明可能性、精度がすべて重要な場所でも有用になります。
NVIDIAがプロのように数学を解く一方、BUはライブストリーム用に人間をクローン化しています。もしあなたのお気に入りのストリーマーが実在せず、デジタルコピーだったと分かったら、視聴を続けますか？私たちは驚くべきか、それとも本当に懸念すべきなのでしょうか？コメントで考えをお聞かせください。ご視聴ありがとうございました。また次回お会いしましょう。