國產(chǎn)GPU邁向‘媲美’英偉達之路:當前差距與未來展望
2024年上海的7月是一個沉悶的雨季,但對國產(chǎn)AI 行業(yè)來說,卻迎來了堪比搖滾樂集會的WAIC(世界人工智能大會)。會上,阿里的通義千問、智譜AI基座大模型、商湯科技的Vimi可控人物視頻生成大模型等“鎮(zhèn)館之寶”通過展示強大的AGI能力起到了十足的吸睛效果。但除了在觀眾面前展示AI前端效果的大模型,國產(chǎn)AI的基座:國產(chǎn)算力,也進行了一次集中的亮相,數(shù)量繁多的國產(chǎn)AI芯片公司密集的展示了自己的產(chǎn)品線,這些產(chǎn)品線涵蓋了訓練到推理、包含了端側(cè)和云側(cè)、既有通用GPU、又配齊了各類場景的AI加速卡,可以說是要給英偉達一點:“小小的中國震撼”。
當觀眾游走在國產(chǎn)算力館,觀摩齊全的產(chǎn)品線和亮眼的單卡性能,直觀的感受就是這個行業(yè)“繁花錦簇”、“生機勃勃”,與大洋彼岸的相比并不遜色多少。但是每天打開新聞,看到對岸不斷收緊的制裁繩索,似乎又很難支持這個“國產(chǎn)AI芯片”處于行業(yè)爆發(fā)期的結(jié)論,那么今天我們必須直面的問題是:眼前的“繁華”,是否有堅實的基礎(chǔ)?
國產(chǎn)大模型的蓬勃發(fā)展遇上國外芯片制裁,如同切下一塊純納擲進水池,瞬間就引爆了國產(chǎn)GPU市場。
如果翻看中國芯片自主化的緊迫歷史,從早期龍芯、飛騰沖擊Wintel 聯(lián)盟,到麒麟芯片的松山湖戰(zhàn)役,行業(yè)的注意力都是放在設(shè)備的核心處理器上,因此CPU類型的核心無論是在政府還是投資人角度來看,都是更為核心的突破點,獲得了政府的信創(chuàng)訂單和大量資金投入,2023年底的麒麟歸來,更是國產(chǎn)芯片對于外部封鎖的一記有力回擊。
但在處理器戰(zhàn)線取得突破的同時,GPU作為一個曾經(jīng)的側(cè)翼戰(zhàn)場,卻忽然切換成了主戰(zhàn)場。隨著AI 大模型在2023年的橫空出世,作為大模型發(fā)動機的GPU需求猛烈增長,英偉達2023年收入增長125%,2024年一季報更是增長262%,以一種一騎絕塵的速度降其他芯片巨頭甩在身后。
作為對比,曾經(jīng)計算機時代的芯片王者英特爾和移動互聯(lián)網(wǎng)時代王者高通市值相加僅僅3000多億美金,不到英偉達的1/8,新王,被噴涌而出的AI訓練需求簇擁上了王位。
但令人尷尬的是,這場AI大潮,美國人并不計劃給中國留一張頭等艙的船票。在美國政府的要求下,英偉達、AMD只能對A100和H100等高端型號的GPU進行斷供,轉(zhuǎn)而向國內(nèi)提供H20等“中國特供版”產(chǎn)品。而“特供版本”比起“正版”來說,頗有些雞肋之感,在一些科技媒體的測評中,H20的綜合算力僅相當于H100的20%,且由于增加了其他硬件配置,使算力成本顯著提高。
在這種半卡脖子的情況下,國產(chǎn)大模型與國產(chǎn)AI芯片的協(xié)作,自然成了應有之意。此外,中國強大的算力中心需求,也給了國產(chǎn)GPU一個龐大的市場。要知道,截至2023年底,我國數(shù)據(jù)中心機架總規(guī)模突破810萬架,算力總規(guī)模達到驚人的230EFlops,是僅次于美國的算力大國。
因此我們也能看到一個個非常切實的國產(chǎn)芯片落地數(shù)據(jù)中心的案例:
壁仞科技,成為了中國電信的算力合作伙伴,同時搭載壁礪系列通用GPU算力產(chǎn)品的中國移動智算中心(呼和浩特)近日成功上線運營。這家智算中心屬于全國型N節(jié)點萬卡訓練場,單體算力達6.7EFLOPS(FP16),也驗證了壁仞宣稱的產(chǎn)品可以用于千卡集群建設(shè)方案,并可擴展至萬卡規(guī)模的互聯(lián)技術(shù)的落地能力。
摩爾線程,也針對自己的AI旗艦產(chǎn)品夸娥(KUAE),推出了一整套解決方案,其中包括夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務平臺(KUAE ModelStudio)。這針對的就是萬卡數(shù)據(jù)中心在如此多算力卡高速互聯(lián)的同時,如何保持穩(wěn)定運行以及高效的計算資源調(diào)配問題,同時也一口氣簽約了青海零碳產(chǎn)業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目。
除了云側(cè),端側(cè)上AI大模型需求的匹配能力也是不少AI芯片公司的切入點。另一點不可忽視的是,國內(nèi)的資本市場也給GPU行業(yè)發(fā)展帶來了極大的支撐。
可以說,國產(chǎn)算力中心和國產(chǎn)大模型,正在從硬件匹配和軟件生態(tài)兩個方向支援國產(chǎn),這一點是國產(chǎn)GPU玩家敢于應對國際巨頭的底氣所在。但,一切都這么順理成章嗎?
在新聞稿的喧囂背面,算力中心和大模型公司都有點“口嫌體正”地瘋搶英偉達GPU。僅僅在2023年,英偉達中國的收入就高達806億人民幣,而同期國產(chǎn)GPU的成績可謂寥寥。
A股的GPU第一股:景嘉微,在2024年第一季度實現(xiàn)了1.08億元營收,雖然同比增長66.27%。 在新聞報道和券商研報里,算力第一股寒武紀,一季度收入2500萬。從人工智能應用側(cè)轉(zhuǎn)型開展人工智能芯片的云天勵飛,2023年全年的芯片收入2400萬。
一級市場的芯片公司收入則不透明,一些估值已經(jīng)奔著數(shù)十億乃至百億的公司,在每天發(fā)布合作和訂單協(xié)議的背景下,實際落地交付的收入,不過千萬級別。
可以說,熱鬧之下,大部分“戰(zhàn)略合作”、“戰(zhàn)略簽約”,更像是一種示范而非實質(zhì)落地。
不得不承認一個現(xiàn)實,單純的拿著紙面參數(shù)去PK英偉達意義并不大,千億參數(shù)大模型以及背后的萬卡數(shù)據(jù)中心要能穩(wěn)定持續(xù)高效的運行從來都不是一個單點維度的事,也從來不是可以短時間一蹴而就的事。
實際上,即使最簡單大模型評測維度,也包含至少5個方面:
單卡性能
卡間互聯(lián)
集群利用率
對大模型訓練的支持
對現(xiàn)有生態(tài)的兼容
對于各家國產(chǎn)GPU而言,也許可以單項有亮點,例如華為的單卡性能,未必弱于英偉達,百度的昆侖芯片在支持自家文心一言等大模型訓練效率上算是優(yōu)勢顯著,但做到五邊形戰(zhàn)士,只有英偉達,而其他人五邊形缺上一個角,就難以落地。
比如公認的英偉達的護城河之一的CUDA生態(tài), 可以說離開CUDA,大部分程序員都不知道如何在GPU的硬件平臺上進行開發(fā),其軟件生態(tài)已經(jīng)滲透到了AI、科研等領(lǐng)域的方方面面。百度曾經(jīng)的首席科學家吳恩達就評價:CUDA出現(xiàn)之前,全球能用GPU編程的可能不超過100人,而目前全球的CUDA開發(fā)者已經(jīng)達到幾百萬。
這都歸功于英偉達早在 2006 年就大力支持CUDA 系統(tǒng)在 AI 領(lǐng)域的開發(fā)與推廣。當時英偉達每年投入 5 億美元的研發(fā)經(jīng)費,對 CUDA 進行不斷更新與維護,而同期營業(yè)額只有區(qū)區(qū)30 億美元。與其同時,英偉達還讓當時美國大學及科研機構(gòu)免費使用 CUDA 系統(tǒng),使 CUDA 系統(tǒng)迅速在 AI 以及通用計算領(lǐng)域開花結(jié)果。
在支持大模型領(lǐng)域,英偉達更是早早的走在了所有人前列。少有人知道的是,英偉達在2016年斥巨資打造了全球第一臺AI超算DGX-1后,首先就將它捐給了還處于萌芽狀態(tài)的Open ai,也早早的與大模型生態(tài)結(jié)下了深厚淵源。
在大算力芯片互聯(lián)領(lǐng)域,NVlink 對于競爭對手也是一騎絕塵,連同為美國顯卡巨頭的AMD也不得不望洋興嘆。一個常識是,GPU的算力不會簡單疊加,單顆數(shù)據(jù)刷單再高,如果沒有好的連接技術(shù),1+1開始就小于2, 10+10能不能到15都需要打一個問號。
在其他廠家還在局限于傳統(tǒng)的PCle時,英偉達也已進行了超過10年的布局。早在2014年,英偉達就發(fā)布了NVLink 1.0并在P100 GPU芯片之間實現(xiàn),已經(jīng)是當時PCle 3的5倍傳輸速度;在2020年,英偉達完成了對Mellanox的收購 ,又獲取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯(lián)的能力,可謂是如虎添翼;到如今, NVlink已經(jīng)可以實現(xiàn)每個GPU之間高達每秒600GB的頻寬,比PCIe 4.0高出十倍。
因此,在一些評論家眼中,英偉達是一條“三頭巨龍”,強大的GPU算力、豐富的軟件生態(tài)、高速的寬度連接讓其構(gòu)建出一個攻守兼?zhèn)?、難以突破的產(chǎn)品防線。一旦試圖繞開它的生態(tài),就可能面臨購買了萬卡只能跑出千卡算力數(shù)據(jù)堰塞的窘境,有可能遭遇編程開發(fā)到一半,沒有合適的應用開發(fā)工具的難題。這種損耗對投資巨大的AI 算力中心無疑是不可接受的,對于工程化工作極為龐大的、優(yōu)化工作繁重的大模型開發(fā)者也是不可承受之痛。
而更為顯著的差距在于,英偉達目前依然在為客戶降本的道路上狂奔不止。
黃仁勛有句對客戶對名言:“ 買的越多,省的越多。” 人稱黃氏數(shù)學。切換到目前AI大模型角度,就是如何在硬件層面實現(xiàn)大模型訓練和生成token的降本。在今年6月,基于Blackwell架構(gòu)的GB100芯片,相比于H100,將成本和能源消耗降至1/25,在參數(shù)為1750億的GPT-3 LLM基準測試中,GB200的性能達到了H100的7倍,而訓練速度則達到了H100的4倍,硬生生的讓7萬美金一枚的芯片賣出了性價比。
可以說,讓把一個千億參數(shù)大模型和萬卡數(shù)據(jù)中心建立在一個軟件生態(tài)和通信互聯(lián)都沒有經(jīng)歷時間和案例驗證的硬件上,就如同不勘探地基下面的地形地貌就一意孤行的搭建摩天大樓。而直接全面用國產(chǎn)GPU支撐國產(chǎn)大模型的token生成,也會把國產(chǎn)大模型公司的成本拉到不可承受之重。
因此雷聲大,落地少,也就成了業(yè)界的一種無奈之舉。
“速勝論”不可取,我們并不是就要滑向“速敗論”。即使強大如斯,英偉達并不是能夠取得每一場戰(zhàn)役的勝利。
剛剛過去的 7 月 30 日,蘋果公司發(fā)布了一篇研究論文,顯示蘋果使用了谷歌開發(fā)的 TPU 芯片人工智能系統(tǒng)“Apple Intelligence”中的 AI 模型 Apple Foundation Model(簡稱 AFM),據(jù)報道,蘋果本次采購了超過1萬片谷歌的TPUv5p 和TPUv4 芯片來平替英偉達GPU。
蘋果和谷歌為何有這個底氣開始局部替換英偉達?
一方面還是谷歌產(chǎn)品能夠切合蘋果本地模型不需要過多的參數(shù)訓練,而谷歌的TPUv5e 在性價比上具有顯著優(yōu)勢,特別適合中小規(guī)模模型的訓練,從而在這個細分市場讓谷歌站住了腳跟??梢杂鲆姷氖牵辛颂O果這個成功案例,谷歌會不斷的尋找新的側(cè)翼戰(zhàn)場來挑戰(zhàn)英偉達,而不是直接與這個“六邊形”戰(zhàn)士對決。
另一方面,蘋果作為全球消費電子一哥,采購個上萬塊TPU只是研發(fā)投入的九牛一毛,用來布局防卡脖子并不稀奇。
因此,耐心的先掌握終端市場,一方面利用龐大終端市場帶來的巨大現(xiàn)金流保持研發(fā)投入,一方面不斷的拿出有特殊需求的市場練兵和測試,才是面對先發(fā)優(yōu)勢過于明顯的對手的優(yōu)秀戰(zhàn)術(shù)。
這方面,華為的麒麟芯片就是一個很好的經(jīng)驗案例。在中國的PC時代,曾經(jīng)有過“貿(mào)工技”和“技工貿(mào)”的對立,最終單獨沖擊芯片的企業(yè)資金不足,單獨沖擊市場的企業(yè)后勁不足,也留下了柳傳志與倪光南的遺憾終生。
但華為卻沒有把這兩條路對立起來,該用高通的先用高通的,同時發(fā)揮中國在制造能力和軟件迭代上的優(yōu)勢,不斷的吃下市場,同時堅持對自家的芯片進行研發(fā)投入。當數(shù)千億級別的市場和上千家適配的供應商都掌握在手時,自家的芯片也開始接棒,這種兩條腿走路,最后實現(xiàn)雙向奔赴的戰(zhàn)略,才取得了切切實實的成功。
我們要意識到一點:一家成功的芯片公司,一定也是一家成功的企業(yè),而一家成功的企業(yè),必須要有源源不斷的現(xiàn)金流。
我們也要明白,芯片不是那小小一塊硅,而是無數(shù)軟件玩家、硬件適配玩家、無數(shù)供應商,這需要的是有資金作為號召力。
因此,在目前情況下,我們當務之急并不是立刻拳打英偉達,而是可以利用市場環(huán)境和中國習慣,先建立起大模型的市場,不能被對岸的Open AI、Anthropic、LLama甩開的出維度級別的差異,否則到那個時候,民眾想支持國產(chǎn)大模型都困難了。而當國產(chǎn)大模型穩(wěn)住13億人的市場,乃至可以隨著國產(chǎn)強大的消費電子硬件出海的時候,國產(chǎn)芯片也能有航母作為依托,而不得單獨對抗海外巨頭。
除此之外,在活下來的同時,國產(chǎn)芯片公司依然可以在時間維度上不斷蠶食英偉達的護城河,軟件生態(tài)不夠,可以依托國內(nèi)開發(fā)者和大廠不斷補齊,連接能力不夠可以與數(shù)據(jù)中心一道優(yōu)化。實際上,這正是國產(chǎn)芯片公司正在做的。
在連接方面,由于NVlink的是英偉達獨占,不僅國產(chǎn)GPU,連海外芯片廠商也開始試圖聯(lián)合沖擊這條護城河。2024年3月,AMD、博通、思科、Google、惠普、英特爾、Meta、微軟八家巨頭就一起宣布要為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定新的互聯(lián)技術(shù)UALink,行業(yè)共同解決鏈接問題也是大勢所趨。
可以說,填平英偉達的護城河并不是國產(chǎn)芯片一家之力,英特爾 CEO 基辛格曾公開抨放話說CUDA 護城河又淺又窄,整個行業(yè)都想消滅它,英偉達過去數(shù)十年構(gòu)建的生態(tài)固然可怕,但一家企業(yè)獨占整個行業(yè)利潤之時,時間就不在它一側(cè)。
毫無疑問,雖然WAIC上,國產(chǎn)芯片的產(chǎn)品側(cè)已然成勢,但從點亮芯片到客戶適配再到穩(wěn)定運行、生態(tài)構(gòu)建還有很長一條路需要走。如果我們光看到琳瑯滿目的介紹就認為已經(jīng)“優(yōu)勢在我”,要去“教訓教訓”英偉達,乃至主動脫鉤,無疑是魯莽之舉。但對國產(chǎn)芯片敬而遠之、不給試錯和驗證機會也是歧路。
產(chǎn)業(yè)的發(fā)展的難處正是在于如何平衡外力和內(nèi)力、平衡成本與創(chuàng)新、自主與全球,這是一條走起來需要時時審視策略、是走起來需要像獨木橋上時刻保持平衡的策略,但也是走到對岸唯一可行的路。
本文轉(zhuǎn)載自微信公眾號 | 邊碼故事
熱門文章
- 泰國將建首個Sic碳化硅晶圓工廠,總投資115億銖 2024-10-16
- 移為(Queclink )GV310LAU 4G全功能型車載智能終端 20230901 2024-09-12
- 華為申請固態(tài)電池專利:摻雜硫化物材料助力鋰離子電池壽命提升 2024-11-11
- 上海貝嶺(Belling)產(chǎn)品選型手冊(2021) 2024-09-13
- 德國舍弗勒集團宣布大規(guī)模裁員及工廠關(guān)閉計劃 2024-11-07
- BPS(BUSBOARD)產(chǎn)品選型手冊 2024-10-10
- 激光雷達公司Cepton或被Tier 1巨頭Koito收購 2024-08-09
- ASSMANN(阿斯曼)重點產(chǎn)品選型手冊 2024-09-29
- 松下(Panasonic)機器用傳感器[產(chǎn)品選型手冊(2024) 2024-09-14
- 松下(Panasonic) 導電性聚合物鋁固體電解電容器產(chǎn)品選型手冊(2024) 2024-09-14