禁令之下,黃仁勛再用閹割晶元搶奪中國市場

京港台:2025-6-20 11:24| 來源:騰訊科技 | 評論( 4 )  | 我來說幾句

禁令之下,黃仁勛再用閹割晶元搶奪中國市場

來源:倍可親(backchina.com)

  美國實施的晶元出口管制正在對英偉達造成持續衝擊。

  數據顯示,今年前兩個季度,英偉達在中國市場的損失預計達到 125 億美元,其市場佔有率也從巔峰時期的95%大幅下跌至目前的50%。

  英偉達CEO黃仁勛反覆強調中國市場的戰略價值,表面上是因為營收和市場份額的考量,深層原因則是其絕對市場主導地位正在受到挑戰——中國本土晶元廠商的快速成長正在打破原有格局。

  在H20出口許可遲遲無法兌現的情況下,英偉達計劃於7月份推出應對方案,通過減配、「閹割」的形式繞過出口管制,由B20、B40/B30來替代H20,試圖重新奪回市場份額,以扭轉在華業務的下滑趨勢。

  

  

  特朗普此前在社交平台上稱,會儘快向英偉達發許可證

  6月中旬,本營國際(AceCamp)公開了一份專家調研紀要,稱英偉達預計7月份針對中國市場推出 H20 繼任者 B20 和 B40/B30 晶元,單卡售價6500美元~8000美元,伺服器預計80000美元~100000美元之間。

  本營國際在該紀要中指出,新的B20、B40/B30基於GB202 GPU,該GPU曾用於消費級的RTX 5090和專業級的RTX Pro 6000保持一致。內存採用了GDDR7 ,分為 24GB、36GB、48GB 等版本。互聯方面,B20通過NVLink匯流排連接到CX-8晶元,形成一個相當於PCIe卡的離散模塊,以實現PCIe互聯,帶寬 800Gbps,即100GB/s,適合 8-16 卡小規模集群的推理和小模型后訓練;B40/B30 直接支持 NVLink 互聯,帶寬900GB/s,採用OAM 形態,可用於 NVL72 等高密度集群,但受計算性能和帶寬限制,集群性能不及 H20(~85%)。

  

  圖片由AI生成,提示詞:黃仁勛穿著標誌性黑色皮衣,站在一個明亮冷色調的現代手術室,面前是一張高科技手術台,台上放著一塊拆開的 GPU 晶元。黃仁勛神情專註,手裡握著一把手術刀,正小心切割 GPU 晶元內部,背景有微微散焦的高科技儀器和冷光源,整體畫面具有賽博朋克科技感,細節銳利,4K 寫實風格。

  01 第三代中國「特供」:大廠買B40、平價IDC選B20受美國出口管制動態調整的影響,英偉達過去幾年持續不斷地調整產品SKU,以應對禁令。

  如果B20按期上市,將成為第三代中國「特供產品」,前兩代分別是基於Hopper架構的H20、H800以及Ampere架構的A800。

  相比上一代的H20,這代產品取消了HBM高帶寬內存,內存帶寬從4.8TB/s(HBM3e版,HBM3版為4.0TB/s),下滑至1.5TB/s-1.7TB/s,直接影響就是支持的併發數減少。

  GDDR7替換HBM是出於合規需要,與美國商務部的出口管制條例更新有關。2024年,美國商務部將HBM內存定義為先進計算和人工智慧應用的存儲器進行特殊管控,其要求內存帶寬密度在每平方毫米 2GB/s 及以上的 HBM 產品,其出口、再出口均受管制,覆蓋HBM2、HBM2e及更先進的產品。

  儘管內存縮水屬於被動調整,但GDDR7應該是現階段避開管制線的最優選擇。千芯董事長陳巍指出,「GDDR7帶寬預期可以超過1.5TB/s,雖不如HBM3e,但一般比A100的HBM2e的表現更好,可視為4090的IDC版。」

  對於改配GGDR7的B20晶元,一位資深國產GPU從業者則給出相反的評價,「算力有點低,內存大小和帶寬都上不去,性能弱於國產頭部。」

  相比之下,英偉達B40/B30在國內市場可能更受關注,關鍵在於它保持了與H20相同的NVLink互聯功能,最大帶寬可達900GB/s。上述國產GPU從業者解釋:「通過NVLink可以實現Scale Up擴展,像NVL72、NVL144等,類似華為Cloudmatrix 384的架構。」

  作為特供中國的版本,每次在上市初期都會引發質疑,H20和H800都經歷過這個階段,但最終由於客戶可選擇的替代方案有限,隨著產品供應逐漸穩定,質疑聲逐漸消退,「真香定律」開始發揮作用——一些企業甚至通過大批量採購,躋身英偉達全球前五大客戶行列。

  2024年12月,金融時報援引市場機構Omdia的數據稱,微軟2024年總計採購了48.5萬張英偉達Hopper晶元,位元組跳動憑藉23萬張位列第二。今年4月份,路透社報道稱,包括位元組、阿里在內的中國科技公司於今年一季度總計採購了超過160億美元的H20晶元,摺合人民幣超過1160億元。

  一位大廠演演算法工程師表示,「B40(性能)應該不如H20,價格上也是這個定位,作為選擇不多可以買的卡,還是有需求的。」

  陳巍認為,基於目前的消息判斷,在B20、B40/B30的選擇上,不同客戶會存在不同的傾向,「B20組網的有效帶寬低於B40/B30,考慮到模型大小變大的趨勢,B40/B30會是有錢大廠的選擇,平價IDC廠可能傾向於B20。」

  02 英偉達的焦慮、國產的難題黃仁勛和整個矽谷都在焦慮,強調過度管制會影響美國晶元的競爭力,給來自中國本土的競爭對手創造機會,其市場份額從95%,下滑至50%是一個非常直觀的量化指標。

  受特供版晶元硬體晶元不斷縮水的影響,上述國產GPU從業者透露,一些大廠在綜合權衡之後,已經在加速陪跑國產生態,「如果考慮今後的供應安全和供應穩定,一定要儘早導入國產,但目前企業對英偉達的供應都還抱有一定僥倖。」

  在他看來,企業在國產生態門外徘徊,與切換國產生態所需要的額外成本、業務落地速度有關,「本來好好地採用英偉達方案,導入(國產)新方案可能帶來額外投入,還不見得有太多額外收益,就可能有顧慮。」

  英偉達的產品性能縮水給國產帶來機會,但國產也有自己的難題。

  上述大廠演演算法工程師表示,「國產卡算力還是可以的,就是生態和集群還有些地方需要進步。」

  英偉達的生態,核心關鍵詞即CUDA,它提供了統一的編程模型、豐富的代碼庫,對英偉達的硬體體系、主流的AI框架,都具有良好的兼容性,開發者容易對其形成依賴。目前,國產GPU基本都在推動對CUDA生態的兼容,幫助開發者遷移。

  「NV的生態壟斷還在,」陳巍說,但他認為國產中高端GPU的挑戰還包括先進工藝產能。

  根據公開資料,目前國產GPU的工藝製程的上限為7nm,受禁令的影響,自去年台積電自查事件開始,其已經無法為大陸客戶的7nm AI晶元提供代工服務。

  「中高端國產卡短期受限於工藝和產能,最近連EDA工具都有波動。」陳巍說。

  EDA工具的波動則與日前新思科技、楷登電子、西門子三大巨頭暫停對中國大陸供應的傳聞有關。作為「晶元之母」,EDA軟體不僅用於半導體設計,也廣泛用於晶圓製造、封裝測試的多個環節,包括良率預測、信號分析等,如果上述環節的EDA工具管制收緊,也會影響到國產GPU的產能。

  03 算力的A、B面:數字石油、吞金獸一台8卡B40/B30伺服器,單價預計在10萬美元左右(約合人民幣70萬元),由於支持NVL72拓展,構建一台B40 NVL72機櫃,硬體成本將超過人民幣600萬元。

  「B40的TCO(總擁有成本)跟H20差不多,吸引力不高了。」上述國產GPU從業者表示。

  H20作為特供中國的上一代晶元,今年初受DeepSeek熱潮的推動,一度受到網際網路公司、金融機構的瘋搶,「8卡H20伺服器價格,一路從88萬元漲到了105萬元,由於成本低、合規,大廠都是成千台的採購。」一位GPU分銷商此前透露。

  如果按伺服器運行狀態分,不管是B40的70萬元,還是H20的88萬元,都屬於靜態成本,一旦開機運行,伴隨巨大尖銳刺耳的轟鳴聲而來的,還有高昂的動態成本。

  一台B40 NVL72機櫃機的動態成本,按費用項目拆分涉及質保、運維、軟體授權、能耗等,預計在700萬元以上。僅電費一項,按單機櫃能耗50千瓦來預估(對標H20單卡400瓦+CPU+交換機等硬體功耗),每年的能耗就接近44萬度,按一度電1元的均價算,就達到44萬元。

  靜態成本+動態成本,按年合計接近1300萬元,平均到每天的成本超過3.6萬元,假設B40的算力能達到H20的85%,後者單卡FP16算力為0.148P,B40 NVL72的總算力大概在9P左右。

  年成本1300萬元對應的還僅僅是B40 NVL72這類算力受限的方案,如果更換成H100,靜態+動態成本將大幅飆升。

  按此前ServeTheHome披露的信息,馬斯克旗下Colossus AI超算集群採用超微基於HGX H100伺服器定製的機櫃,單個伺服器容納8張H100 GPU,每個機櫃可容納8個伺服器,總計64張H100 GPU,可以提供64P的FP16算力,其靜態的硬體成本即超過2000萬元。

  以此來算,矽谷巨頭們頻繁提及的萬卡H100集群,靜態成本就超過30億元,堪稱硅基時代的吞金獸。

  高昂的成本讓算力更趨向於科技巨頭們的遊戲,一些院校、科研機構和初創企業則很難構建大規模的自有算力體系。

  今年的智源大會上,智源研究院理事長黃鐵軍教授透露,「現在學校沒有那麼多算力,百卡可能都沒有,學生們沒有那麼多實踐的機會,智源雖然有一定的算力,但也只有1000P,千卡級別,這個資源和一個大模型公司比還差很多。」

  黃鐵軍說,「智算平台建設起來之後,給學校、給這些人才更多基礎資源條件,特別重要。這跟物理、化學、生命前沿研究一樣,沒有尖端的儀器,很多工作沒法開展。」

  04 誰會背著硬碟出海?中國市場上的智算中心建設如火如荼,但先進算力仍然面臨出口管制,企業開始嘗試在海外訓練大模型以提升效率。

  日前,華爾街日報報道稱,一家中企利用海外分部租賃當地服務商300台伺服器,安排工程師通過硬碟轉運4800TB的企業數據到海外進行模型訓練。

  

  

  利用子公司/海外分部/關聯公司等租賃當地算力訓練模型示意圖 來源:WSJ

  利用企業數據訓練自有模型技術上可行,但這種行為是否會觸及美國的出口管制條例?

  2024年早期,拜登政府曾討論過要評估實施限制,阻止中國企業獲取美國雲計算服務,但最終並未推行,而特朗普政府於今年5月份在廢除「AI擴散規則」時,在新聞稿中明確提及,如果IaaS(基礎設施即服務)提供商知曉客戶在AI模型訓練且用途敏感需要申請許可證。換句話說,只要訓練模型不用于敏感用途,即屬於合規範疇。

  「這個風險目前主要限制軍事相關的模型訓練,一般民用的不受限制。」一位合規領域從業者表示。

  租賃海外雲廠提供的先進算力需要合規支撐,而中國企業的數據出境也同樣需要做合規。

  北京豐禮律師事務所合伙人劉星認為,就華爾街日報報道的案例來看,企業攜帶自有數據出境行為並不違法,「特定數據出境需申報安全評估,如不涉及「重要數據」和個人信息,一般不會觸發評估要求。」上述合規領域從業者也認同這種說法,在他看來,企業按照法規要求做好脫敏即不構成隱私和敏感數據。

  「基因數據、測繪數據、出口管制的技術數據、安防數據等都屬於重要數據。」劉星補充道。

  利用海外算力訓練大模型這種路徑,雖然技術、法規上都存在可行性,但實際能匹配到的業務場景有限。

  「目前大模型訓練這波演進趨勢,都是主要的幾個大玩家在玩(沒有使用海外算力的需求),智駕演演算法訓練現在雖然在卷,但使用海外的CSP,像AWS、Azure這種,折騰的風險太大,即便是走合規路徑出海,操作上也不具備可行性。」上述國產GPU從業者表示。

  劉星認為,網際網路大廠很多都是「關鍵信息基礎設施運營者」,符合《數據出境安全評估辦法》規定的申報情形,「國家管理更嚴格,大廠做(出海訓練模型)這類事估計會更謹慎。」

  而在陳巍看來,攜帶數據出海做模型訓練,好處是可以接觸到更先進算力,數據不走網際網路,一般不需要擔心數據泄露的風險,更適合做行業大模型的中小廠。

  「原文寫得是300台,初步猜測是H100,大概2400卡的規模,」陳巍說,「DeepSeek就是用2048卡訓練的,而大廠可能會用萬卡集群做訓練。」              

        更多金融財經 文章    >>

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-9-12 03:51

返回頂部