這項(xiàng)可選服務(wù)將幫助數(shù)據(jù)中心運(yùn)營(yíng)商監(jiān)測(cè)整個(gè) AI GPU 集群運(yùn)行狀況,從而最大限度地延長(zhǎng)正常運(yùn)行時(shí)間。
隨著 AI 基礎(chǔ)設(shè)施的規(guī)模和復(fù)雜性不斷增加,數(shù)據(jù)中心運(yùn)營(yíng)商需要持續(xù)了解性能、溫度和功耗等因素。這些洞察使數(shù)據(jù)中心運(yùn)營(yíng)商能夠主動(dòng)監(jiān)測(cè)和調(diào)整大規(guī)模分布式系統(tǒng)中的數(shù)據(jù)中心配置,從而確保這些系統(tǒng)以最高效率和可靠性運(yùn)行。
NVIDIA 正在開發(fā)用于可視化和監(jiān)測(cè) NVIDIA GPU 集群的軟件解決方案,為云合作伙伴和企業(yè)提供洞察儀表板,幫助他們提高整個(gè)計(jì)算基礎(chǔ)設(shè)施的 GPU 正常運(yùn)行時(shí)間。
該服務(wù)由客戶選擇、自行安裝和控制,用于監(jiān)測(cè) GPU 使用情況、配置和錯(cuò)誤。它將包含一個(gè)開源客戶端軟件智能體,這是 NVIDIA 持續(xù)支持開放、透明軟件的一部分,旨在幫助客戶最大限度的發(fā)揮其 GPU 系統(tǒng)的性能。
通過這項(xiàng)服務(wù),數(shù)據(jù)中心運(yùn)營(yíng)商將能夠:
追蹤功耗峰值,在不超出能耗預(yù)算的前提下最大化單位功耗性能。
監(jiān)測(cè)整個(gè)集群的利用率、內(nèi)存帶寬和互連運(yùn)行狀況。
及早發(fā)現(xiàn)熱點(diǎn)和氣流問題,以避免過熱降頻和組件過早老化。
確認(rèn)軟件配置和設(shè)置一致,以確保結(jié)果可復(fù)現(xiàn)以及運(yùn)行可靠。
發(fā)現(xiàn)錯(cuò)誤和異常情況,及早發(fā)現(xiàn)故障部件。
這些功能可以幫助企業(yè)和云提供商可視化其 GPU 集群、解決系統(tǒng)瓶頸并優(yōu)化生產(chǎn)力,從而提高投資回報(bào)。
此可選服務(wù)提供實(shí)時(shí)監(jiān)測(cè),讓每個(gè) GPU 系統(tǒng)與外部云服務(wù)通信和共享 GPU 指標(biāo)。NVIDIA GPU 沒有硬件跟蹤技術(shù)、終止開關(guān)和后門。
開源智能體為數(shù)據(jù)中心所有者提供洞察
該服務(wù)將配備客戶端軟件智能體,客戶可以安裝該智能體,將節(jié)點(diǎn)級(jí) GPU 遙測(cè)數(shù)據(jù)流式傳輸?shù)酵泄茉贜VIDIA NGC的門戶網(wǎng)站上??蛻艨梢栽趦x表板中可視化其 GPU 集群利用率,既可以全局查看,也可以按計(jì)算區(qū)域 (在同一物理或云位置注冊(cè)的節(jié)點(diǎn)組) 查看。

儀表盤可展示客戶全球 GPU 集群的整體狀態(tài)洞察。
該客戶端工具智能體也計(jì)劃開源,以提供透明度和可審計(jì)性。它將提供一個(gè)實(shí)際示例,展示客戶如何將 NVIDIA 工具整合到他們自己的 GPU 基礎(chǔ)設(shè)施監(jiān)測(cè)解決方案中,無論是用于關(guān)鍵計(jì)算集群,還是整個(gè) GPU 集群。
該軟件能夠幫助企業(yè)了解其 GPU 庫(kù)存情況,但無法修改 GPU 配置或底層運(yùn)行機(jī)制。它提供的是只讀遙測(cè)數(shù)據(jù),并由客戶自行管理及自定義。
該服務(wù)還支持客戶生成詳細(xì)介紹 GPU 集群信息的報(bào)告。
隨著 AI 應(yīng)用的數(shù)量和復(fù)雜性不斷增加,現(xiàn)代 AI 基礎(chǔ)設(shè)施管理也在不斷發(fā)展以適應(yīng)這一趨勢(shì)。AI 正在重塑各行各業(yè)以及各種應(yīng)用,因此確保 AI 數(shù)據(jù)中心保持最佳狀態(tài)運(yùn)行至關(guān)重要。這項(xiàng)軟件服務(wù)正是為此而生。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5581瀏覽量
109615 -
gpu
+關(guān)注
關(guān)注
28文章
5177瀏覽量
135269 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5623瀏覽量
74959
原文標(biāo)題:NVIDIA 軟件可選服務(wù)支持?jǐn)?shù)據(jù)中心集群管理
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
KubePi:開源Kubernetes可視化管理面板,讓集群管理如此簡(jiǎn)單
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
構(gòu)建高可靠的數(shù)據(jù)中心零配置帶外管理體系
數(shù)據(jù)中心發(fā)展的三大驅(qū)動(dòng)力
NVIDIA Omniverse基于Container的部署推流方案
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)
加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)
PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?
中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照
中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
利用NVIDIA技術(shù)構(gòu)建從數(shù)據(jù)中心到邊緣的智慧醫(yī)院解決方案
施耐德電氣發(fā)布數(shù)據(jù)中心高密度AI集群部署解決方案
NVIDIA軟件可選服務(wù)支持?jǐn)?shù)據(jù)中心集群管理
評(píng)論