當今的數(shù)據(jù)中心正在迅速地發(fā)展,這就需要一種被稱為DPU(數(shù)據(jù)處理器)的新型處理器。新數(shù)據(jù)中心的一些應(yīng)用需要的是一種可卸載、加速和隔離的特定類型DPU架構(gòu)。8月23日,在Hot Chips 33大會上,NVIDIA芯片架構(gòu)師Idan Burstein探討了數(shù)據(jù)中心不斷變化的需求,以及這些需求如何推動NVIDIA BlueField DPU系列產(chǎn)品的架構(gòu)。
為何需要DPU?
以前的數(shù)據(jù)中心需在專用服務(wù)器集群上獨自運行應(yīng)用,現(xiàn)如今已不同從前?,F(xiàn)在,CPU計算、GPU計算和存儲等資源已被解聚,可以根據(jù)需求將資源組合(分配和組裝),還可以根據(jù)應(yīng)用和工作負載的變化對資源進行重新組合或重新分配。
GPU加速的AI正在成為主流,其增強了大量的商業(yè)應(yīng)用,而不僅僅是科學(xué)應(yīng)用。以虛擬化為主的服務(wù)器,現(xiàn)在很可能是在裸金屬服務(wù)器上的容器中運行,盡管這些服務(wù)器不再有管理程序或虛擬機,其仍然需要軟件定義的基礎(chǔ)設(shè)施。為支持保證信息安全的零信任方法,防火墻代理和反惡意軟件過濾器等網(wǎng)絡(luò)安全工具必須在每臺服務(wù)器上運行。這些變化對網(wǎng)絡(luò)、安全和管理所需的工作方式產(chǎn)生了巨大影響,進而推動了每臺服務(wù)器對DPU的需求。
DPU任務(wù)的最佳定義:卸載、加速和隔離基礎(chǔ)設(shè)施應(yīng)用。
卸載:從服務(wù)器CPU中接管基礎(chǔ)設(shè)施任務(wù),這樣就可以讓盡可能多的CPU計算能力來運行應(yīng)用。
加速:運用DPU芯片硬件中的加速,以比CPU更快的速度運行基礎(chǔ)設(shè)施功能。
隔離:將關(guān)鍵的數(shù)據(jù)面和控制面功能轉(zhuǎn)移到DPU上,這既減輕CPU的工作,同時還可以在CPU或其軟件被破壞時保護這些功能。
一個DPU需要具備完成以上三個任務(wù)的能力。

圖1:數(shù)據(jù)中心已發(fā)展成為軟件定義、容器化和可組合的特性。卸載基礎(chǔ)設(shè)施任務(wù)至DPU可提高服務(wù)器性能,效率與安全。
僅移動CPU核是不夠的
一些DPU廠商所嘗試的一種方法是,在DPU上放置大量的CPU核以用于卸載服務(wù)器CPU的應(yīng)用。無論是Arm、RISC、X86還是其他類型的CPU核,這種方法都具有根本缺陷,因為服務(wù)器的CPU或GPU對于CPU最優(yōu)或GPU最優(yōu)的應(yīng)用已是高效的。雖然DPU上的Arm(或RISC及其他)核確實可能比一般的服務(wù)器CPU更節(jié)能,但除非Arm核有一個用于該特定應(yīng)用的加速器,否則不值得為了節(jié)能而增加復(fù)雜性。
此外,目前市面上已出現(xiàn)基于Arm CPU的服務(wù)器,例如基于Amazon EC2 Graviton的實例、Oracle A1 實例,基于Ampere Computing 的Altra CPU,以及Fujitsu的 A64FX CPU的服務(wù)器。在Arm上高效運行的應(yīng)用,均可部署在Arm服務(wù)器上。只有在某些功能必須與服務(wù)器 CPU 隔離的情況下,例如控制平面或基礎(chǔ)設(shè)施應(yīng)用程序的一部分,才需要移動到DPU的Arm核上。
無論從技術(shù)角度出發(fā),還是從經(jīng)濟角度出發(fā),將一個標準應(yīng)用的工作負載從服務(wù)器的N個X86核卸載到N個或2N個DPU的Arm 核上都毫無意義。將AI或機器學(xué)習(xí)應(yīng)用從服務(wù)器GPU卸載到DPU的Arm核上亦是如此。將應(yīng)用從服務(wù)器的CPU和GPU轉(zhuǎn)移到DPU的CPU上,并且不進行任何類型的加速的舉動,充其量只是虛晃,最壞的情況還會降低服務(wù)器的性能和效率。

圖2:將應(yīng)用從服務(wù)器的CPU轉(zhuǎn)移到無加速DPU的CPU核上,除了滿足將這些應(yīng)用與CPU服務(wù)器域中隔離的需求外,其他場景都毫無益處。
DPU最適合的加速類型
很明顯,一個合適的DPU必須通過硬件加速來增加數(shù)據(jù)中心的最大效益。它應(yīng)該加速什么?卸載涉及數(shù)據(jù)移動和安全性的應(yīng)用,DPU是最佳選擇。 例如,網(wǎng)絡(luò)與遠程直接內(nèi)存訪問 (RDMA) 都最適合卸載到 DPU 芯片,RDMA常用于加速 AI、HPC、大數(shù)據(jù)和存儲應(yīng)用的服務(wù)器之間的數(shù)據(jù)移動。
對比CPU,如果DPU 具有針對特定任務(wù)的加速硬件,卸載和運行效率將會提高很多。 若應(yīng)用滿足于 DPU 的硬件加速能力時,一個設(shè)計合理的 DPU 可以執(zhí)行 30個、100個 甚至 是300 個 CPU 的工作。
DPU 的 CPU 核非常適合運行必須與服務(wù)器應(yīng)用程序,以及操作系統(tǒng)域隔離開的控制平面,或安全應(yīng)用。 例如,在裸金屬服務(wù)器中,租戶不希望在他們的服務(wù)器上運行管理程序,或虛擬機來進行遠程管理、遙測或安全,因為這會損害性能,或干擾到應(yīng)用程序。 然而,云運營商仍然需要能夠監(jiān)控服務(wù)器的性能并檢測、阻止或隔離入侵該服務(wù)器的安全威脅。
DPU 可以獨立于應(yīng)用程序域來運行此軟件,提供安全和控制,同時不干擾服務(wù)器的性能或操作。
關(guān)于作者
John Kim 是 NVIDIA 網(wǎng)絡(luò)事業(yè)部的存儲市場總監(jiān),致力于幫助客戶和供應(yīng)商從高性能網(wǎng)絡(luò)連接、智能網(wǎng)卡卸載和遠程直接數(shù)據(jù)存取 (RDMA) 中獲益,尤其是在存儲、大數(shù)據(jù)和人工智能領(lǐng)域。
審核編輯:郭婷
-
cpu
+關(guān)注
關(guān)注
68文章
11269瀏覽量
224734 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5582瀏覽量
109628 -
服務(wù)器
+關(guān)注
關(guān)注
14文章
10230瀏覽量
91416
發(fā)布評論請先 登錄
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
NVIDIA BlueField-4數(shù)據(jù)處理器重塑新型AI原生存儲基礎(chǔ)設(shè)施
德州儀器如何滿足AI數(shù)據(jù)中心日益增長的電力需求
Power Integrations高壓PowiGaN技術(shù)助力新興800VDC數(shù)據(jù)中心總線架構(gòu)發(fā)展
NVIDIA推出全新BlueField-4 DPU
基于NVIDIA BlueField DPU的5G UPF數(shù)據(jù)面加速方案
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
高性能開關(guān)在快速發(fā)展的數(shù)據(jù)中心的應(yīng)用
簡單認識安森美AI數(shù)據(jù)中心電源解決方案
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
第三屆NVIDIA DPU黑客松開啟報名
利用NVIDIA技術(shù)構(gòu)建從數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案
數(shù)據(jù)中心液冷技術(shù)和風(fēng)冷技術(shù)的比較
NVIDIA BlueField DPU助力數(shù)據(jù)中心不斷變化的需求
評論