GPU 加速計(jì)算在云計(jì)算、企業(yè)計(jì)算和邊緣計(jì)算領(lǐng)域的日益普及,越來(lái)越依賴于強(qiáng)健而強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。 NVIDIA ConnectX SmartNICs 和 NVIDIA BlueField DPU 提供了高吞吐量、低延遲的連接,使 GPU 資源能夠跨節(jié)點(diǎn)群擴(kuò)展。為了滿足對(duì)云本地 AI 工作負(fù)載的需求, NVIDIA 提供了 GPU 運(yùn)營(yíng)商,旨在簡(jiǎn)化 Kubernetes 上的橫向擴(kuò)展 GPU 部署和管理。
今天, NVIDIA 宣布了 NVIDIA 網(wǎng)絡(luò)運(yùn)營(yíng)商的 1.0 版本。作為 NVIDIA GPU 運(yùn)算符 的一個(gè)模擬,網(wǎng)絡(luò)運(yùn)營(yíng)商通過(guò)自動(dòng)化網(wǎng)絡(luò)部署和配置的各個(gè)方面簡(jiǎn)化了 Kubernetes 的擴(kuò)展網(wǎng)絡(luò)設(shè)計(jì),否則就需要手工操作。它在具有 NVIDIA 網(wǎng)絡(luò)接口的任何集群節(jié)點(diǎn)上加載所需的驅(qū)動(dòng)程序、庫(kù)、設(shè)備插件和 CNI 。
與 GPU 運(yùn)營(yíng)商配合,網(wǎng)絡(luò)運(yùn)營(yíng)商啟用了 GPU 直接 RDMA ,這是一項(xiàng)關(guān)鍵技術(shù),可將云本地 AI 工作負(fù)載加速幾個(gè)數(shù)量級(jí)。該技術(shù)在 NVIDIA GPU 之間提供了高效的零拷貝數(shù)據(jù)傳輸,同時(shí)利用了 SmartNICs 和 DPU 中的硬件引擎。圖 1 顯示了兩個(gè) GPU 節(jié)點(diǎn)之間的 GPU 直接 RDMA 技術(shù)。節(jié)點(diǎn) 1 上的 GPU 通過(guò)網(wǎng)絡(luò)直接與節(jié)點(diǎn) 2 上的 GPU 通信,繞過(guò) CPU 設(shè)備。

圖 1 。 GPU 兩個(gè) GPU 節(jié)點(diǎn)之間的直接 RDMA 技術(shù)
NGC 網(wǎng)絡(luò)運(yùn)營(yíng)商現(xiàn)在可在 NGC 和 NVIDIA 上使用 Kubernetes 自定義資源 ( CRD )和 操作員框架 來(lái)提供實(shí)現(xiàn)加速聯(lián)網(wǎng)所需的主機(jī)軟件。這篇文章討論了網(wǎng)絡(luò)運(yùn)營(yíng)商內(nèi)部的內(nèi)容,包括它的特性和功能。
易于部署和操作的 Kubernetes 網(wǎng)絡(luò)
網(wǎng)絡(luò)運(yùn)營(yíng)商致力于使 Kubernetes 網(wǎng)絡(luò)變得簡(jiǎn)單和輕松。它是 Apache2 。 0 許可下的一個(gè)開(kāi)源軟件項(xiàng)目。 1.0 版本針對(duì)運(yùn)行在裸機(jī)服務(wù)器基礎(chǔ)設(shè)施和 Linux 虛擬化環(huán)境中的 Kubernetes 進(jìn)行了驗(yàn)證。以下是 1.0 版的主要功能:
在裸機(jī) Kubernetes 環(huán)境中自動(dòng)部署主機(jī)軟件組件,以實(shí)現(xiàn)以下功能:
macvlan 輔助網(wǎng)絡(luò)
SR-IOV 二次網(wǎng)絡(luò)(分配給 pod 的 VF )
主機(jī)設(shè)備輔助網(wǎng)絡(luò)(分配給 pod 的 PF )
GPU 直接 RoCE (使用 NVIDIA GPU 運(yùn)算符)
在嵌套的 Kubernetes 環(huán)境(在 Linux VMs 中運(yùn)行的 Kubernetes Pods )中自動(dòng)部署主機(jī)軟件組件,以創(chuàng)建以下內(nèi)容:
SR-IOV 二級(jí)網(wǎng)絡(luò)(分配給 VM 的 VF 的#個(gè),并通過(guò)不同的 POD )
主機(jī)設(shè)備輔助網(wǎng)絡(luò)(分配給 Pod 的 PF )
GPU 直接 RoCE (使用 NVIDIA GPU 運(yùn)算符)
平臺(tái)支持:
Kubernetes v1 。 17 或更高版本
容器運(yùn)行時(shí): Containerd
裸機(jī)主機(jī)操作系統(tǒng)/ Linux 來(lái)賓操作系統(tǒng): Ubuntu 20 。 04
Linux KVM 虛擬化
舵圖安裝
雖然啟用了 GPU 的節(jié)點(diǎn)是一個(gè)主要用例,但是網(wǎng)絡(luò)運(yùn)營(yíng)商對(duì)于啟用獨(dú)立于 NVIDIA GPU 的加速 Kubernetes 網(wǎng)絡(luò)環(huán)境也很有用。一些示例包括設(shè)置 SR-IOV 網(wǎng)絡(luò)和 DPDK 以加速電信 NFV 應(yīng)用程序、建立 RDMA 連接以快速訪問(wèn) NVMe 存儲(chǔ)等等。
NVIDIA 網(wǎng)絡(luò)運(yùn)營(yíng)商內(nèi)部
網(wǎng)絡(luò)運(yùn)營(yíng)商被設(shè)計(jì)成一個(gè) Kubernetes 運(yùn)營(yíng)商,它利用多個(gè)定制資源為一個(gè)節(jié)點(diǎn)添加加速的網(wǎng)絡(luò)功能。 1 。 0 版本支持多種網(wǎng)絡(luò)模型,可適應(yīng)各種 Kubernetes 網(wǎng)絡(luò)環(huán)境和不同的應(yīng)用程序需求。如今,網(wǎng)絡(luò)運(yùn)營(yíng)商只為二級(jí)網(wǎng)絡(luò)配置 RoCE 。這意味著主吊艙網(wǎng)絡(luò)保持不變。將來(lái)的工作可能會(huì)允許為主網(wǎng)絡(luò)配置 RoCE 。
以下各節(jié)介紹網(wǎng)絡(luò)運(yùn)營(yíng)商打包和使用的不同組件。
節(jié)點(diǎn)功能發(fā)現(xiàn)
節(jié)點(diǎn)功能發(fā)現(xiàn) ( NFD )是一個(gè) Kubernetes 插件,用于檢測(cè)硬件特性和系統(tǒng)配置。網(wǎng)絡(luò)運(yùn)營(yíng)商使用 NFD 來(lái)檢測(cè)安裝了 NVIDIA SmartNICs 和 GPU 的節(jié)點(diǎn),并將它們標(biāo)記為這樣的節(jié)點(diǎn)?;谶@些標(biāo)簽,網(wǎng)絡(luò)運(yùn)營(yíng)商安排適當(dāng)?shù)能浖Y源。
CNI 木耳
Multus CNI 是 Kubernetes 的容器網(wǎng)絡(luò)接口( CNI )插件,支持將多個(gè)網(wǎng)絡(luò)接口連接到 pod 。通常在庫(kù)伯內(nèi)特斯,每個(gè)吊艙只有一個(gè)網(wǎng)絡(luò)接口。使用 Multus ,您可以創(chuàng)建具有多個(gè)接口的多宿主 Pod 。 Multus 充當(dāng)一個(gè) meta-plugin ,一個(gè)可以調(diào)用多個(gè)其他 CNI 插件的 CNI 插件。 NVIDIA 網(wǎng)絡(luò)運(yùn)營(yíng)商安裝 Multus ,將用于高速 GPU – GPU 通信的二級(jí)網(wǎng)絡(luò)添加到集裝箱吊艙中。
NVIDIA OFED 驅(qū)動(dòng)器
NVIDIA OpenFabrics 企業(yè)分銷( OFED ) 網(wǎng)絡(luò)庫(kù)和驅(qū)動(dòng)程序由 節(jié)點(diǎn)標(biāo)簽 網(wǎng)絡(luò)團(tuán)隊(duì)打包和測(cè)試。 NVIDIA OFED 通過(guò) Infiniband 和以太網(wǎng)互連支持 遠(yuǎn)程直接內(nèi)存訪問(wèn) ( RDMA )。網(wǎng)絡(luò)運(yùn)營(yíng)商使用 NVIDIA 將預(yù)編譯的 NVIDIA OFED 驅(qū)動(dòng)程序容器部署到每個(gè) Kubernetes 主機(jī)上。容器在啟動(dòng)或停止時(shí)加載和卸載 NVIDIA OFED 驅(qū)動(dòng)程序。
NVIDIA 對(duì)等內(nèi)存驅(qū)動(dòng)程序
NVIDIA 對(duì)等內(nèi)存驅(qū)動(dòng)程序 是一個(gè)客戶端,它與網(wǎng)絡(luò)驅(qū)動(dòng)程序交互,以在 GPU 和主機(jī)內(nèi)存之間提供 RDMA 。網(wǎng)絡(luò)運(yùn)營(yíng)商在同時(shí)具有 ConnectX 適配器和 NVIDIA GPU 的節(jié)點(diǎn)上安裝 NVIDIA 對(duì)等內(nèi)存驅(qū)動(dòng)程序。當(dāng)容器啟動(dòng)和停止時(shí),此驅(qū)動(dòng)程序也會(huì)自動(dòng)加載和卸載。
RDMA 共享設(shè)備插件
Kubernetes 設(shè)備插件框架 向 Kubernetes 節(jié)點(diǎn)上運(yùn)行的 Kubelet 代理播發(fā)系統(tǒng)硬件資源。網(wǎng)絡(luò)運(yùn)營(yíng)商部署 RDMA 共享設(shè)備插件 向 Kubelet 播發(fā) RDMA 資源,并向節(jié)點(diǎn)上運(yùn)行的 pod 公開(kāi) RDMA 設(shè)備。它允許吊艙執(zhí)行 RDMA 操作。節(jié)點(diǎn)上運(yùn)行的所有 pod 共享對(duì)相同 RDMA 設(shè)備文件的訪問(wèn)。
容器網(wǎng)絡(luò) CNI 插件
Macvlan CNI 公司 和 主機(jī)設(shè)備 CNI 是在 CNI 項(xiàng)目下托管的通用容器網(wǎng)絡(luò)插件。 macvlan CNI 創(chuàng)建一個(gè)新的 MAC 地址,并將所有通信轉(zhuǎn)發(fā)到容器。主機(jī)設(shè)備 CNI 將已經(jīng)存在的設(shè)備移動(dòng)到容器中。網(wǎng)絡(luò)運(yùn)營(yíng)商使用這些 CNI 插件創(chuàng)建 macvlan 網(wǎng)絡(luò),并將 NIC 物理功能分別分配給容器或虛擬機(jī)。
SR-IOV 設(shè)備插件和 CNI
SR-IOV 是一種在虛擬機(jī)或容器吊艙與 NIC 硬件之間提供直接接口的技術(shù)。它繞過(guò)了主機(jī) CPU 和操作系統(tǒng),從 I / O 任務(wù)中釋放出昂貴的 CPU 資源,并大大加快了連接速度。 SR-IOV 設(shè)備插件 和 CNI 插件 啟用 Kubernetes 節(jié)點(diǎn)上可用的 SR-IOV 虛擬功能( VF )。這兩者都是網(wǎng)絡(luò)運(yùn)營(yíng)商創(chuàng)建 SR-IOV VF 并將其分配給處理 GPU -to- GPU 通信的二級(jí)網(wǎng)絡(luò)所必需的。
SR-IOV 操作員
SR-IOV 操作符旨在幫助用戶在集群中提供和配置 SR-IOV 設(shè)備插件和 SR-IOV CNI 插件。網(wǎng)絡(luò)運(yùn)營(yíng)商使用 SR-IOV 操作員 在 Kubernetes 集群中部署和管理 SR-IOV 。
Whereabouts CNI
Whereabouts CNI 是一個(gè) IP 地址管理( IPAM ) CNI 插件,可以在 Kubernetes 集群中分配 IP 地址。網(wǎng)絡(luò)運(yùn)營(yíng)商使用此 CNI 為承載 GPU -to- GPU 通信的二級(jí)網(wǎng)絡(luò)分配 IP 地址。
更好的結(jié)合: NVIDIA 加速計(jì)算和網(wǎng)絡(luò)
圖 2 顯示了網(wǎng)絡(luò)運(yùn)營(yíng)商如何與 GPU 運(yùn)營(yíng)商協(xié)同工作來(lái)部署和管理主機(jī)網(wǎng)絡(luò)軟件。

圖 2 。網(wǎng)絡(luò)運(yùn)營(yíng)商與 NVIDIA GPU 運(yùn)營(yíng)商一起安裝,以在 EGX 堆棧上自動(dòng)化 GPU 直接 RDMA 配置
以下部分描述了支持的網(wǎng)絡(luò)模型和相應(yīng)的主機(jī)軟件組件。
RoCE 共享模式
共享模式意味著在節(jié)點(diǎn)上的多個(gè)容器 pod 之間共享單個(gè) IB 設(shè)備的方法。此網(wǎng)絡(luò)模型針對(duì)需要高性能網(wǎng)絡(luò)的企業(yè)和邊緣環(huán)境進(jìn)行了優(yōu)化,無(wú)需多租戶。網(wǎng)絡(luò)運(yùn)營(yíng)商安裝以下軟件組件:
Multus CNI
RoCE 共享模式設(shè)備插件
Macvlan CNI
Whereabouts IPAM CNI
網(wǎng)絡(luò)運(yùn)營(yíng)商還在 GPU 節(jié)點(diǎn)上安裝 NVIDIA OFED 驅(qū)動(dòng)程序和 NVIDIA 對(duì)等內(nèi)存。
SR-IOV 、 RoCE 和 DPDK 網(wǎng)絡(luò)
如前所述, SR-IOV 是一種提供對(duì) NIC 硬件的直接訪問(wèn)的加速技術(shù)。此網(wǎng)絡(luò)模型針對(duì)運(yùn)行在裸機(jī)上的多租戶 Kubernetes 環(huán)境進(jìn)行了優(yōu)化。網(wǎng)絡(luò)運(yùn)營(yíng)商安裝以下軟件組件:
Multus CNI
SR-IOV 設(shè)備插件
SR-IOV CN
Whereabouts IPAM CNI
網(wǎng)絡(luò)運(yùn)營(yíng)商還在 GPU 節(jié)點(diǎn)上安裝 NVIDIA OFED 驅(qū)動(dòng)程序和 NVIDIA 對(duì)等內(nèi)存。
NIC PF 直通
這種網(wǎng)絡(luò)模式適合要求極高的應(yīng)用。網(wǎng)絡(luò)運(yùn)營(yíng)商可以將 NIC 物理功能分配給 Pod ,以便 Pod 充分利用它。網(wǎng)絡(luò)運(yùn)營(yíng)商安裝以下主機(jī)軟件組件:
Multus CNI
SR-IOV 設(shè)備插件
主機(jī)開(kāi)發(fā) CNI
Whereabouts IPAM CNI
網(wǎng)絡(luò)運(yùn)營(yíng)商還在 GPU 節(jié)點(diǎn)上安裝 NVIDIA OFED 驅(qū)動(dòng)程序和 NVIDIA 對(duì)等內(nèi)存。
為橫向擴(kuò)展 GPU 集群優(yōu)化 Kubernetes 網(wǎng)絡(luò)
NVIDIA GPU 和網(wǎng)絡(luò)運(yùn)營(yíng)商都是 NVIDIA EGX 企業(yè)平臺(tái)的一部分,該平臺(tái)允許 GPU 加速計(jì)算與傳統(tǒng)企業(yè)應(yīng)用程序在同一 IT 基礎(chǔ)設(shè)施上協(xié)同工作??偠灾\(yùn)營(yíng)商使 NVIDIA GPU 成為庫(kù)伯內(nèi)特斯的一等公民。現(xiàn)在發(fā)布用于生產(chǎn)環(huán)境,網(wǎng)絡(luò)運(yùn)營(yíng)商簡(jiǎn)化了 Kubernetes 網(wǎng)絡(luò),帶來(lái)了必要的簡(jiǎn)單性和可擴(kuò)展性級(jí)別,以便在企業(yè)中實(shí)現(xiàn)擴(kuò)展培訓(xùn)和邊緣推斷。
關(guān)于作者
Itay Ozery 是 NVIDIA 網(wǎng)絡(luò)產(chǎn)品營(yíng)銷總監(jiān)。他為 Mellanox 的云網(wǎng)絡(luò)解決方案推動(dòng)戰(zhàn)略性產(chǎn)品營(yíng)銷和產(chǎn)品管理計(jì)劃。 Itay 在網(wǎng)絡(luò)安全領(lǐng)域領(lǐng)導(dǎo)了大規(guī)模的業(yè)務(wù)和項(xiàng)目,并與數(shù)據(jù)中心和電信服務(wù)提供商在 IT 系統(tǒng)和網(wǎng)絡(luò)工程領(lǐng)域擔(dān)任過(guò)多個(gè)職位。
審核編輯:郭婷
-
運(yùn)營(yíng)商
+關(guān)注
關(guān)注
4文章
2440瀏覽量
46650 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5682瀏覽量
110087 -
gpu
+關(guān)注
關(guān)注
28文章
5258瀏覽量
136037
發(fā)布評(píng)論請(qǐng)先 登錄
Nexthop AI推出顛覆性的行業(yè)領(lǐng)先橫向擴(kuò)展與跨域擴(kuò)展交換機(jī),專為Hyperscalers及NeoClouds設(shè)計(jì)
KubePi:開(kāi)源Kubernetes可視化管理面板,讓集群管理如此簡(jiǎn)單
NVIDIA Spectrum-X以太網(wǎng)硅光技術(shù)助力AI工廠網(wǎng)絡(luò)創(chuàng)新
為什么運(yùn)營(yíng)商項(xiàng)目要用ODF光纖配線架
愛(ài)立信為日本運(yùn)營(yíng)商NTT DOCOMO部署Massive MIMO無(wú)線設(shè)備
碎片化網(wǎng)絡(luò)安全監(jiān)管正增加移動(dòng)運(yùn)營(yíng)商成本與風(fēng)險(xiǎn)
華為全域安全園區(qū)網(wǎng)絡(luò)解決方案助力運(yùn)營(yíng)商開(kāi)辟toB市場(chǎng)
Omdia高級(jí)首席分析師暢談運(yùn)營(yíng)商面臨的網(wǎng)絡(luò)挑戰(zhàn)
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
烏干達(dá)運(yùn)營(yíng)商聯(lián)合華為全面升級(jí)綠色網(wǎng)絡(luò)基礎(chǔ)設(shè)施
NVIDIA Dynamo新增對(duì)亞馬遜云科技服務(wù)的支持
美國(guó)運(yùn)營(yíng)商5G RedCap部署進(jìn)入快車道
普強(qiáng)智能外呼系統(tǒng)助力大型運(yùn)營(yíng)商提升服務(wù)效率
華為榮登GlobalData運(yùn)營(yíng)商基礎(chǔ)設(shè)施管理服務(wù)排名報(bào)告Leader象限第一名
Kubernetes Helm入門指南
NVIDIA網(wǎng)絡(luò)運(yùn)營(yíng)商優(yōu)化Kubernetes橫向擴(kuò)展GPU部署和管理
評(píng)論