AI加速器對電力需求日益增加。Nvidia H100的熱設(shè)計功率(TDP)為700瓦特(W),而全球最常安裝的數(shù)據(jù)中心CPU,Intel Skylake/Cascade Lake的TDP則低于200W。下一代芯片將需要更多功率來支持更高的計算密度。這將需要機(jī)架級別的功率超過200千瓦,而目前傳統(tǒng)CPU服務(wù)器機(jī)架的功率只有15-20千瓦。
隨著功率的增加,需要解決更多挑戰(zhàn)。特別是,更高的功率導(dǎo)致了不成比例的傳輸和轉(zhuǎn)換損耗,即被浪費的功率。由于電力成本是數(shù)據(jù)中心最大的費用之一,減少功率損耗對于提高總擁有成本(TCO)至關(guān)重要。因此,我們現(xiàn)在看到功率傳遞網(wǎng)絡(luò)從機(jī)架級別到芯片級別被重新設(shè)計,以解決AI訓(xùn)練和推理等高功率計算負(fù)載中的這個問題。
先進(jìn)的功率傳遞架構(gòu)的主要目的是提高效率。今天我們將深入探討這個主題的技術(shù)和競爭格局。功率傳遞公司Vicor在這一趨勢下受益最多。在過去的十年里,Vicor從供應(yīng)普通功率組件的供應(yīng)商發(fā)展為參與先進(jìn)數(shù)據(jù)中心電源應(yīng)用的公司,在各種超大規(guī)模數(shù)據(jù)中心機(jī)架級功率解決方案和Nvidia、谷歌、AMD、Cerebras、特斯拉和英特爾的AI加速器中獲得設(shè)計勝利。
然而,由于電力市場的動態(tài)性質(zhì),Vicor的命運近期迅速發(fā)生了變化。一年多前,我們獨家發(fā)現(xiàn)和披露,單片功率系統(tǒng)公司成功取代Vicor成為Nvidia H100 GPU的供應(yīng)商。此外,Vicor的第二大客戶的關(guān)系也變得動蕩不安。此外,超大規(guī)模數(shù)據(jù)中心機(jī)架功率解決方案也發(fā)生了許多變化,包括多個新競爭對手(MPS、Delta、Renesas、ADI)。
這個故事一直變化不定,Vicor的未來角色變成了一個戰(zhàn)場。最近的新聞,Vicor對競爭對手的訴訟,超大規(guī)模數(shù)據(jù)中心的部署,以及公司領(lǐng)導(dǎo)層的不可思議的聲明都給了雙方有力的支持。
今天我們將介紹一下功率傳遞的基礎(chǔ)知識,Vicor的技術(shù)領(lǐng)先地位,我們對Vicor的因式分解電源架構(gòu)和垂直電源傳遞技術(shù)的評估,重要的設(shè)計勝利,包括Vicor是否在H100或TPUv5中的細(xì)節(jié),Vicor在汽車行業(yè)的潛力,以及對他們的長期影響。我們還將分享我們對他們的4個主要競爭對手(MPS、Delta、Renesas和ADI)的看法,以及目前正在爆發(fā)的法律戰(zhàn)爭。
芯片的電源傳輸簡介
電力在交流(AC)網(wǎng)格中以高達(dá)數(shù)十萬的電壓產(chǎn)生和傳輸。計算和存儲芯片需要穩(wěn)定且干凈的低電壓直流(DC)電源。過多的電壓會使芯片的精密電路超負(fù)荷和損壞。電壓過低,芯片的電路將無法正確切換。變壓器、電源單元(PSU)和電壓調(diào)節(jié)模塊(VRM)的任務(wù)是將正確類型的電源傳遞給芯片。隨著功率需求的增加,高效的電源傳遞也變得更具挑戰(zhàn)性。

在像GPU或CPU這樣的電路中,有四個主要的值:功率、電流、電壓和電阻。功率(P)是每單位時間使用的能量的測量,通常用瓦特(W)表示。電流是電子流動的量的測量,或者換句話說,電子的流動速率。電流(I或A)通常用安培(A)表示。電壓(V)是兩點之間的電勢差。你可以把電壓想象成推動電子通過回路的壓力。
電壓通常以伏特(V)為單位給出。最后,我們有電阻(R),通常以歐姆(Ω)為單位給出,它表示電流在材料中流動的難度。為了使用這些值,我們需要歐姆定律,我們將重點討論歐姆定律的兩種不同形式。第一種形式是P = I * V,簡單地表示功率等于電流乘以電壓。第二種形式是P = R * I^2,意味著功率還等于電阻乘以電流的平方。
硅運行在約1V直流或更低的低電壓下。為追求功率效率,設(shè)計正在轉(zhuǎn)向較低的時鐘速度和較低的工作電壓,以在性能/功率曲線的更高效段運行。
然而,在低電壓和高電流下輸送電力會產(chǎn)生較大的功率損耗(I^2R)來自電力線的電阻。最小化功率損耗的關(guān)鍵是以更高的電壓和較低的電流來傳輸電力,然后盡可能靠近活動硅降低電壓。
什么構(gòu)成了電壓調(diào)節(jié)模塊(VRM)?
VRM是一個重要的部件組合,它將系統(tǒng)電源單元(PSU)的輸入電壓轉(zhuǎn)換為正確的電壓來供電SoC。通常情況下,我們會在包含芯片的PCB上看到VRM,雖然在一些罕見的情況下,這些組件可能位于芯片本身上,甚至集成在硅上?,F(xiàn)代VRM由三個主要部分組成:電容器、電感和功率級。電容器儲存電能,然后以恒定的速率釋放能量,平滑傳送給處理器的電力。電感用于抵抗電流變化,防止大量電流沖擊殺死處理器。

最后,而且可以說是VRM中最重要的部分是功率級,它將來自電源單元(PSU)的輸入電壓(例如12伏特)轉(zhuǎn)換為處理器所需的電壓。在CPU上,所需的電壓通常是傳統(tǒng)上的1.2至1.8伏特,而在GPU或大型FPGA、ASIC或AI加速器上,該電壓范圍為0.8至1.0伏特。
更高功率,更低效率
隨著未來架構(gòu)和工藝技術(shù)中用于供電SoC的電壓降低,為了保持相同的功率,電流需要按電壓降低的相同倍數(shù)增加。例如,讓我們來看一個功率為240瓦的AMD Genoa CPU,其工作電壓為1.2伏特。將輸入從12伏特降至1.2伏特(降低10倍)以供給芯片,這意味著電流需要從12伏特時的20安培增加到1.2伏特時的200安培(增加10倍)以保持相同的功率水平。
相比之下,一個功率為700瓦的GPU的工作電壓為0.8伏特。如果將輸入從12伏特降至0.8伏特(降低15倍)以供給芯片,那么電流需要從12伏特時的60安培增加到0.8伏特時的875安培(增加15倍)。與功耗較低的CPU相比,GPU的電流要高得多。較高的電流意味著較高的電阻損耗,這可以從P = R * I^2的公式中得知(損耗等于電阻乘以電流的平方)。
隨著電壓降至0.8伏特,電阻急劇惡化:電流增加了15倍,導(dǎo)致電阻損耗呈指數(shù)級增加,達(dá)到225倍。這說明效率損耗在最近幾代數(shù)據(jù)中心芯片中已成為一個重大問題。隨著電壓繼續(xù)隨著工藝縮小和封裝變得更大,對高級封裝需求更高,這個問題只會變得更嚴(yán)重。
48V的興起
為了解決這個問題,人們開始使用更高的輸入電壓。很長一段時間以來,12伏特直流(DC)電源一直是電子產(chǎn)品電源單元(PSU)提供的標(biāo)準(zhǔn)電壓。在過去,由于功率較低,12伏特工作得足夠好,因此導(dǎo)致的效率損失微不足道。隨著行業(yè)對功率較高、電壓較低的SoC需求增加,效率受到雙重打擊。這些效率損失超過了相對廉價且普遍存在的12伏特元件所帶來的好處。
從12伏特轉(zhuǎn)換到48伏特意味著只需要4分之1的電流,因此損失將降低16倍(4^2)。這就是為什么許多公司開始轉(zhuǎn)向48伏特電源傳輸網(wǎng)絡(luò)的原因。但如果你最終要降到1伏特,這有什么意義呢?
將48伏特電壓降至SoC電壓的距離更近,所以導(dǎo)線長度更短。較長的導(dǎo)線長度會導(dǎo)致更大的電阻損耗。因此,只將48伏特輸入電壓降至盡可能接近負(fù)載點,其結(jié)果是總體電阻損耗更低。
谷歌是第一個在2016年左右在其數(shù)據(jù)中心采用48伏特電源的超大規(guī)模云服務(wù)提供商,并推動將48伏特電源在OpenCompute聯(lián)盟中進(jìn)行標(biāo)準(zhǔn)化。
Vicor的崛起
作為回應(yīng),芯片公司和原始設(shè)備制造商(OEM)在其主板上放置了48伏特輸入的電壓調(diào)節(jié)模塊(VRM)。主要受益者是Vicor。雖然早前在電信設(shè)備中已有一個成熟的48伏特生態(tài)系統(tǒng),但那是負(fù)電壓,而數(shù)據(jù)中心需要正電壓。Vicor是為計算用例提供48伏特VRM的主要供應(yīng)商。
為了實現(xiàn)這種變化,電源單元將機(jī)架接收的380伏特交流電轉(zhuǎn)換為48伏特直流電。隨著數(shù)據(jù)中心在機(jī)架上提供48伏特電源,這也促使服務(wù)器主板開始采用48伏特輸入,以便能夠接受這個48伏特的輸入電壓并將其降壓?;蛘?,為了使傳統(tǒng)的12伏特主板工作,還需要一個中間組件將48伏特降壓為12伏特?;旧?,要么需要48伏特的輸出電壓,要么需要48伏特的輸入電壓,而Vicor是首家進(jìn)入市場的公司。
在2018年,Vicor首次在主流商用硅芯片上取得了勝利,其設(shè)計贏得了Nvidia的V100 SXM3刷新項目。該項目采用了Vicor的48伏特電壓調(diào)節(jié)模塊(VRM)組件。接著是A100,整個產(chǎn)品線都采用了Vicor的部件用于VRM。谷歌也在與V100類似的時間框架內(nèi)采用了Vicor的產(chǎn)品用于TPU(張量處理單元)。這進(jìn)一步鞏固了Vicor在48伏特領(lǐng)域的主導(dǎo)地位,并表明Vicor是高性能電源傳輸?shù)奈磥碇贰?/p>
然而,隨后Vicor在H100中被Monolithic Power Systems (MPS)替代,這打破了之前的局面,SemiAnalysis首先報道了這一消息。此獨家報道導(dǎo)致Vicor的股價在發(fā)布后的第二天下跌超過20%,在接下來的一年里又下跌了30%,這主要是因為Nvidia對Vicor收入的巨大貢獻(xiàn)。直至今日,Vicor仍未大量發(fā)貨給Nvidia的H100項目,該項目正在大規(guī)模推進(jìn)中。
上周,Vicor的首席執(zhí)行官在聲稱其產(chǎn)品重新進(jìn)入客戶的基礎(chǔ)平臺的同時,還對競爭對手提起訴訟,導(dǎo)致了一次巨大的空頭擠壓。需要明確的是,首席執(zhí)行官在一年多前向分析員表示他們會重新進(jìn)入客戶基礎(chǔ)平臺,但至今訂單仍未到來。
審核編輯:劉清
電子發(fā)燒友App

































評論