您的位置：首頁 > 行業(yè)資訊 > 正文

國產(chǎn)GPU邁向‘媲美’英偉達之路：當前差距與未來展望

時間：2024-08-16 15:20:52 瀏覽：54

2024年上海的7月是一個沉悶的雨季，但對國產(chǎn)AI 行業(yè)來說，卻迎來了堪比搖滾樂集會的WAIC(世界人工智能大會)。會上，阿里的通義千問、智譜AI基座大模型、商湯科技的Vimi可控人物視頻生成大模型等“鎮(zhèn)館之寶”通過展示強大的AGI能力起到了十足的吸睛效果。但除了在觀眾面前展示AI前端效果的大模型，國產(chǎn)AI的基座：國產(chǎn)算力，也進行了一次集中的亮相，數(shù)量繁多的國產(chǎn)AI芯片公司密集的展示了自己的產(chǎn)品線，這些產(chǎn)品線涵蓋了訓練到推理、包含了端側(cè)和云側(cè)、既有通用GPU、又配齊了各類場景的AI加速卡，可以說是要給英偉達一點：“小小的中國震撼”。

當觀眾游走在國產(chǎn)算力館，觀摩齊全的產(chǎn)品線和亮眼的單卡性能，直觀的感受就是這個行業(yè)“繁花錦簇”、“生機勃勃”，與大洋彼岸的相比并不遜色多少。但是每天打開新聞，看到對岸不斷收緊的制裁繩索，似乎又很難支持這個“國產(chǎn)AI芯片”處于行業(yè)爆發(fā)期的結(jié)論，那么今天我們必須直面的問題是：眼前的“繁華”，是否有堅實的基礎(chǔ)?

國產(chǎn)大模型的蓬勃發(fā)展遇上國外芯片制裁，如同切下一塊純納擲進水池，瞬間就引爆了國產(chǎn)GPU市場。

如果翻看中國芯片自主化的緊迫歷史，從早期龍芯、飛騰沖擊Wintel 聯(lián)盟，到麒麟芯片的松山湖戰(zhàn)役，行業(yè)的注意力都是放在設(shè)備的核心處理器上，因此CPU類型的核心無論是在政府還是投資人角度來看，都是更為核心的突破點，獲得了政府的信創(chuàng)訂單和大量資金投入，2023年底的麒麟歸來，更是國產(chǎn)芯片對于外部封鎖的一記有力回擊。

但在處理器戰(zhàn)線取得突破的同時，GPU作為一個曾經(jīng)的側(cè)翼戰(zhàn)場，卻忽然切換成了主戰(zhàn)場。隨著AI 大模型在2023年的橫空出世，作為大模型發(fā)動機的GPU需求猛烈增長，英偉達2023年收入增長125%，2024年一季報更是增長262%，以一種一騎絕塵的速度降其他芯片巨頭甩在身后。

作為對比，曾經(jīng)計算機時代的芯片王者英特爾和移動互聯(lián)網(wǎng)時代王者高通市值相加僅僅3000多億美金，不到英偉達的1/8，新王，被噴涌而出的AI訓練需求簇擁上了王位。

但令人尷尬的是，這場AI大潮，美國人并不計劃給中國留一張頭等艙的船票。在美國政府的要求下，英偉達、AMD只能對A100和H100等高端型號的GPU進行斷供，轉(zhuǎn)而向國內(nèi)提供H20等“中國特供版”產(chǎn)品。而“特供版本”比起“正版”來說，頗有些雞肋之感，在一些科技媒體的測評中，H20的綜合算力僅相當于H100的20%，且由于增加了其他硬件配置，使算力成本顯著提高。

在這種半卡脖子的情況下，國產(chǎn)大模型與國產(chǎn)AI芯片的協(xié)作，自然成了應有之意。此外，中國強大的算力中心需求，也給了國產(chǎn)GPU一個龐大的市場。要知道，截至2023年底，我國數(shù)據(jù)中心機架總規(guī)模突破810萬架，算力總規(guī)模達到驚人的230EFlops，是僅次于美國的算力大國。

因此我們也能看到一個個非常切實的國產(chǎn)芯片落地數(shù)據(jù)中心的案例：

壁仞科技，成為了中國電信的算力合作伙伴，同時搭載壁礪系列通用GPU算力產(chǎn)品的中國移動智算中心(呼和浩特)近日成功上線運營。這家智算中心屬于全國型N節(jié)點萬卡訓練場，單體算力達6.7EFLOPS(FP16)，也驗證了壁仞宣稱的產(chǎn)品可以用于千卡集群建設(shè)方案，并可擴展至萬卡規(guī)模的互聯(lián)技術(shù)的落地能力。

摩爾線程，也針對自己的AI旗艦產(chǎn)品夸娥(KUAE)，推出了一整套解決方案，其中包括夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務平臺(KUAE ModelStudio)。這針對的就是萬卡數(shù)據(jù)中心在如此多算力卡高速互聯(lián)的同時，如何保持穩(wěn)定運行以及高效的計算資源調(diào)配問題，同時也一口氣簽約了青海零碳產(chǎn)業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目。

除了云側(cè)，端側(cè)上AI大模型需求的匹配能力也是不少AI芯片公司的切入點。另一點不可忽視的是，國內(nèi)的資本市場也給GPU行業(yè)發(fā)展帶來了極大的支撐。

可以說，國產(chǎn)算力中心和國產(chǎn)大模型，正在從硬件匹配和軟件生態(tài)兩個方向支援國產(chǎn)，這一點是國產(chǎn)GPU玩家敢于應對國際巨頭的底氣所在。但，一切都這么順理成章嗎?

在新聞稿的喧囂背面，算力中心和大模型公司都有點“口嫌體正”地瘋搶英偉達GPU。僅僅在2023年，英偉達中國的收入就高達806億人民幣，而同期國產(chǎn)GPU的成績可謂寥寥。

A股的GPU第一股：景嘉微，在2024年第一季度實現(xiàn)了1.08億元營收，雖然同比增長66.27%。在新聞報道和券商研報里，算力第一股寒武紀，一季度收入2500萬。從人工智能應用側(cè)轉(zhuǎn)型開展人工智能芯片的云天勵飛，2023年全年的芯片收入2400萬。

一級市場的芯片公司收入則不透明，一些估值已經(jīng)奔著數(shù)十億乃至百億的公司，在每天發(fā)布合作和訂單協(xié)議的背景下，實際落地交付的收入，不過千萬級別。

可以說，熱鬧之下，大部分“戰(zhàn)略合作”、“戰(zhàn)略簽約”，更像是一種示范而非實質(zhì)落地。

不得不承認一個現(xiàn)實，單純的拿著紙面參數(shù)去PK英偉達意義并不大，千億參數(shù)大模型以及背后的萬卡數(shù)據(jù)中心要能穩(wěn)定持續(xù)高效的運行從來都不是一個單點維度的事，也從來不是可以短時間一蹴而就的事。

實際上，即使最簡單大模型評測維度，也包含至少5個方面：

單卡性能

卡間互聯(lián)

集群利用率

對大模型訓練的支持

對現(xiàn)有生態(tài)的兼容

對于各家國產(chǎn)GPU而言，也許可以單項有亮點，例如華為的單卡性能，未必弱于英偉達，百度的昆侖芯片在支持自家文心一言等大模型訓練效率上算是優(yōu)勢顯著，但做到五邊形戰(zhàn)士，只有英偉達，而其他人五邊形缺上一個角，就難以落地。

比如公認的英偉達的護城河之一的CUDA生態(tài)，可以說離開CUDA，大部分程序員都不知道如何在GPU的硬件平臺上進行開發(fā)，其軟件生態(tài)已經(jīng)滲透到了AI、科研等領(lǐng)域的方方面面。百度曾經(jīng)的首席科學家吳恩達就評價：CUDA出現(xiàn)之前，全球能用GPU編程的可能不超過100人，而目前全球的CUDA開發(fā)者已經(jīng)達到幾百萬。

這都歸功于英偉達早在 2006 年就大力支持CUDA 系統(tǒng)在 AI 領(lǐng)域的開發(fā)與推廣。當時英偉達每年投入 5 億美元的研發(fā)經(jīng)費，對 CUDA 進行不斷更新與維護，而同期營業(yè)額只有區(qū)區(qū)30 億美元。與其同時，英偉達還讓當時美國大學及科研機構(gòu)免費使用 CUDA 系統(tǒng)，使 CUDA 系統(tǒng)迅速在 AI 以及通用計算領(lǐng)域開花結(jié)果。

在支持大模型領(lǐng)域，英偉達更是早早的走在了所有人前列。少有人知道的是，英偉達在2016年斥巨資打造了全球第一臺AI超算DGX-1后，首先就將它捐給了還處于萌芽狀態(tài)的Open ai，也早早的與大模型生態(tài)結(jié)下了深厚淵源。

在大算力芯片互聯(lián)領(lǐng)域，NVlink 對于競爭對手也是一騎絕塵，連同為美國顯卡巨頭的AMD也不得不望洋興嘆。一個常識是，GPU的算力不會簡單疊加，單顆數(shù)據(jù)刷單再高，如果沒有好的連接技術(shù)，1+1開始就小于2， 10+10能不能到15都需要打一個問號。

在其他廠家還在局限于傳統(tǒng)的PCle時，英偉達也已進行了超過10年的布局。早在2014年，英偉達就發(fā)布了NVLink 1.0并在P100 GPU芯片之間實現(xiàn)，已經(jīng)是當時PCle 3的5倍傳輸速度;在2020年，英偉達完成了對Mellanox的收購，又獲取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯(lián)的能力，可謂是如虎添翼;到如今， NVlink已經(jīng)可以實現(xiàn)每個GPU之間高達每秒600GB的頻寬，比PCIe 4.0高出十倍。

因此，在一些評論家眼中，英偉達是一條“三頭巨龍”，強大的GPU算力、豐富的軟件生態(tài)、高速的寬度連接讓其構(gòu)建出一個攻守兼?zhèn)?、難以突破的產(chǎn)品防線。一旦試圖繞開它的生態(tài)，就可能面臨購買了萬卡只能跑出千卡算力數(shù)據(jù)堰塞的窘境，有可能遭遇編程開發(fā)到一半，沒有合適的應用開發(fā)工具的難題。這種損耗對投資巨大的AI 算力中心無疑是不可接受的，對于工程化工作極為龐大的、優(yōu)化工作繁重的大模型開發(fā)者也是不可承受之痛。

而更為顯著的差距在于，英偉達目前依然在為客戶降本的道路上狂奔不止。

黃仁勛有句對客戶對名言：“ 買的越多，省的越多。” 人稱黃氏數(shù)學。切換到目前AI大模型角度，就是如何在硬件層面實現(xiàn)大模型訓練和生成token的降本。在今年6月，基于Blackwell架構(gòu)的GB100芯片，相比于H100，將成本和能源消耗降至1/25，在參數(shù)為1750億的GPT-3 LLM基準測試中，GB200的性能達到了H100的7倍，而訓練速度則達到了H100的4倍，硬生生的讓7萬美金一枚的芯片賣出了性價比。

可以說，讓把一個千億參數(shù)大模型和萬卡數(shù)據(jù)中心建立在一個軟件生態(tài)和通信互聯(lián)都沒有經(jīng)歷時間和案例驗證的硬件上，就如同不勘探地基下面的地形地貌就一意孤行的搭建摩天大樓。而直接全面用國產(chǎn)GPU支撐國產(chǎn)大模型的token生成，也會把國產(chǎn)大模型公司的成本拉到不可承受之重。

因此雷聲大，落地少，也就成了業(yè)界的一種無奈之舉。

“速勝論”不可取，我們并不是就要滑向“速敗論”。即使強大如斯，英偉達并不是能夠取得每一場戰(zhàn)役的勝利。

剛剛過去的 7 月 30 日，蘋果公司發(fā)布了一篇研究論文，顯示蘋果使用了谷歌開發(fā)的 TPU 芯片人工智能系統(tǒng)“Apple Intelligence”中的 AI 模型 Apple Foundation Model(簡稱 AFM)，據(jù)報道，蘋果本次采購了超過1萬片谷歌的TPUv5p 和TPUv4 芯片來平替英偉達GPU。

蘋果和谷歌為何有這個底氣開始局部替換英偉達?

一方面還是谷歌產(chǎn)品能夠切合蘋果本地模型不需要過多的參數(shù)訓練，而谷歌的TPUv5e 在性價比上具有顯著優(yōu)勢，特別適合中小規(guī)模模型的訓練，從而在這個細分市場讓谷歌站住了腳跟?？梢杂鲆姷氖牵辛颂O果這個成功案例，谷歌會不斷的尋找新的側(cè)翼戰(zhàn)場來挑戰(zhàn)英偉達，而不是直接與這個“六邊形”戰(zhàn)士對決。

另一方面，蘋果作為全球消費電子一哥，采購個上萬塊TPU只是研發(fā)投入的九牛一毛，用來布局防卡脖子并不稀奇。

因此，耐心的先掌握終端市場，一方面利用龐大終端市場帶來的巨大現(xiàn)金流保持研發(fā)投入，一方面不斷的拿出有特殊需求的市場練兵和測試，才是面對先發(fā)優(yōu)勢過于明顯的對手的優(yōu)秀戰(zhàn)術(shù)。

這方面，華為的麒麟芯片就是一個很好的經(jīng)驗案例。在中國的PC時代，曾經(jīng)有過“貿(mào)工技”和“技工貿(mào)”的對立，最終單獨沖擊芯片的企業(yè)資金不足，單獨沖擊市場的企業(yè)后勁不足，也留下了柳傳志與倪光南的遺憾終生。

但華為卻沒有把這兩條路對立起來，該用高通的先用高通的，同時發(fā)揮中國在制造能力和軟件迭代上的優(yōu)勢，不斷的吃下市場，同時堅持對自家的芯片進行研發(fā)投入。當數(shù)千億級別的市場和上千家適配的供應商都掌握在手時，自家的芯片也開始接棒，這種兩條腿走路，最后實現(xiàn)雙向奔赴的戰(zhàn)略，才取得了切切實實的成功。

我們要意識到一點：一家成功的芯片公司，一定也是一家成功的企業(yè)，而一家成功的企業(yè)，必須要有源源不斷的現(xiàn)金流。

我們也要明白，芯片不是那小小一塊硅，而是無數(shù)軟件玩家、硬件適配玩家、無數(shù)供應商，這需要的是有資金作為號召力。

因此，在目前情況下，我們當務之急并不是立刻拳打英偉達，而是可以利用市場環(huán)境和中國習慣，先建立起大模型的市場，不能被對岸的Open AI、Anthropic、LLama甩開的出維度級別的差異，否則到那個時候，民眾想支持國產(chǎn)大模型都困難了。而當國產(chǎn)大模型穩(wěn)住13億人的市場，乃至可以隨著國產(chǎn)強大的消費電子硬件出海的時候，國產(chǎn)芯片也能有航母作為依托，而不得單獨對抗海外巨頭。

除此之外，在活下來的同時，國產(chǎn)芯片公司依然可以在時間維度上不斷蠶食英偉達的護城河，軟件生態(tài)不夠，可以依托國內(nèi)開發(fā)者和大廠不斷補齊，連接能力不夠可以與數(shù)據(jù)中心一道優(yōu)化。實際上，這正是國產(chǎn)芯片公司正在做的。

在連接方面，由于NVlink的是英偉達獨占，不僅國產(chǎn)GPU，連海外芯片廠商也開始試圖聯(lián)合沖擊這條護城河。2024年3月，AMD、博通、思科、Google、惠普、英特爾、Meta、微軟八家巨頭就一起宣布要為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定新的互聯(lián)技術(shù)UALink，行業(yè)共同解決鏈接問題也是大勢所趨。

可以說，填平英偉達的護城河并不是國產(chǎn)芯片一家之力，英特爾 CEO 基辛格曾公開抨放話說CUDA 護城河又淺又窄，整個行業(yè)都想消滅它，英偉達過去數(shù)十年構(gòu)建的生態(tài)固然可怕，但一家企業(yè)獨占整個行業(yè)利潤之時，時間就不在它一側(cè)。

毫無疑問，雖然WAIC上，國產(chǎn)芯片的產(chǎn)品側(cè)已然成勢，但從點亮芯片到客戶適配再到穩(wěn)定運行、生態(tài)構(gòu)建還有很長一條路需要走。如果我們光看到琳瑯滿目的介紹就認為已經(jīng)“優(yōu)勢在我”，要去“教訓教訓”英偉達，乃至主動脫鉤，無疑是魯莽之舉。但對國產(chǎn)芯片敬而遠之、不給試錯和驗證機會也是歧路。

產(chǎn)業(yè)的發(fā)展的難處正是在于如何平衡外力和內(nèi)力、平衡成本與創(chuàng)新、自主與全球，這是一條走起來需要時時審視策略、是走起來需要像獨木橋上時刻保持平衡的策略，但也是走到對岸唯一可行的路。

本文轉(zhuǎn)載自微信公眾號 | 邊碼故事

上一篇：中微公司就被列入中國軍事企業(yè)清單正式起訴美國國防部下一篇：英飛凌宣布馬來西亞碳化硅晶圓廠正式啟動，目標2025年達成量

國產(chǎn)GPU邁向‘媲美’英偉達之路：當前差距與未來展望

熱門文章