chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA硅光技術(shù)助力邁向百萬GPU AI工廠

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-08-27 12:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在支撐萬億參數(shù)時代的 AI 工廠,為何網(wǎng)絡(luò)比以往更為重要。

在全球范圍內(nèi),AI 工廠正在崛起 —— 大量的這些新型數(shù)據(jù)中心并非為提供網(wǎng)頁或電子郵件服務(wù)而建,而是用于訓(xùn)練和部署智能本身?;ヂ?lián)網(wǎng)巨頭們已經(jīng)為其客戶在 AI 云基礎(chǔ)設(shè)施上投資了數(shù)十億美元,現(xiàn)在正在打造 AI 工廠上展開了激烈競爭,以迎接下一代的產(chǎn)品和服務(wù)。各國政府也紛紛加大投資,迫切希望借助 AI 實(shí)現(xiàn)為國民量身定制的個性化醫(yī)療及語言服務(wù)。

歡迎來到 AI 工廠時代 —— 在這個時代,規(guī)則正在被改寫,構(gòu)建方式與傳統(tǒng)的互聯(lián)網(wǎng)已截然不同。這些并非典型的超大規(guī)模數(shù)據(jù)中心,它們完全是另一番模樣。可以將它們視為由數(shù)萬個乃至數(shù)十萬個 GPU 拼接而成的高性能引擎——不僅僅是將他們搭建起來,還要將其作為一個整體進(jìn)行編排、運(yùn)營和操作。而這種編排能力,正是關(guān)鍵所在。

這個巨大的數(shù)據(jù)中心已成為新的計(jì)算單元,而這些 GPU 的連接方式定義了此計(jì)算單元的功能。單一的網(wǎng)絡(luò)架構(gòu)無法滿足需求,我們需要的是采用前沿技術(shù)進(jìn)行分層設(shè)計(jì),比如曾經(jīng)看起來像科幻小說一樣的光電一體化封裝(CPO)技術(shù)。

這種復(fù)雜性并非缺陷,而是其核心特征。AI 基礎(chǔ)設(shè)施與以往所有技術(shù)的差異化正在快速加大,若不重新思考各種路徑的連接方式,將無法進(jìn)行擴(kuò)展。網(wǎng)絡(luò)層設(shè)計(jì)失誤,整臺機(jī)器將陷入停滯;設(shè)計(jì)得當(dāng),則能獲得卓越性能。

伴隨這種轉(zhuǎn)變而來的是重量的顯著增加。十年前,芯片追求輕薄設(shè)計(jì)。如今,最前沿的技術(shù)卻轉(zhuǎn)向了服務(wù)器機(jī)柜內(nèi)數(shù)百公斤的銅背板,液冷通路的設(shè)計(jì)、定制的總線架以及銅背板的設(shè)計(jì)。AI 如今需要大規(guī)模、工業(yè)級的硬件支持,而且模型越復(fù)雜,越需要系統(tǒng)的縱向和橫向擴(kuò)展。

以NVIDIA NVLink總線背板為例,它需要連接 5000 多根同軸電纜——緊密纏繞且布線精準(zhǔn)。其每秒傳輸?shù)臄?shù)據(jù)量幾乎相當(dāng)于整個互聯(lián)網(wǎng)的流量,可在 GPU 到 GPU 之間實(shí)現(xiàn) 130 TB/s 全連接帶寬。

這不僅是速度快,而是整個系統(tǒng)的基礎(chǔ),在機(jī)架內(nèi)部的 AI “超級高速路”。

數(shù)據(jù)中心即計(jì)算機(jī)

訓(xùn)練現(xiàn)代大語言 AI 模型并非依賴單臺機(jī)器的運(yùn)算能力,而是要協(xié)調(diào)數(shù)萬顆乃至數(shù)十萬顆作為 AI 計(jì)算超級加速器的 GPU 協(xié)同工作。

這些系統(tǒng)依賴分布式計(jì)算,將海量計(jì)算任務(wù)分配到各個節(jié)點(diǎn)(單個服務(wù)器),每個節(jié)點(diǎn)處理一部分工作負(fù)載。在訓(xùn)練過程中,這些巨型數(shù)字矩陣的分片任務(wù)需要進(jìn)行定期合并和更新。這種合并通過集體操作實(shí)現(xiàn),例如“all-reduce”(聚合來自所有節(jié)點(diǎn)的數(shù)據(jù)并重新分發(fā)結(jié)果)和“all-to-all”(每個節(jié)點(diǎn)與所有其他節(jié)點(diǎn)交換數(shù)據(jù))。

這些過程極易受網(wǎng)絡(luò)速度和響應(yīng)能力的影響——工程師稱之為延遲(延遲時間)和帶寬(數(shù)據(jù)容量),這會導(dǎo)致訓(xùn)練中斷。

而在推理——即通過運(yùn)行訓(xùn)練好的模型來生成答案或預(yù)測,面對的挑戰(zhàn)則完全不同。如檢索增強(qiáng)生成系統(tǒng),將 LLM 與搜索結(jié)合,需要實(shí)時查詢和響應(yīng)。在云環(huán)境中,多租戶推理要求不同客戶的工作負(fù)載順暢運(yùn)行且互不干擾。這需要超高速度、高吞吐量的網(wǎng)絡(luò),既能應(yīng)對海量需求,又能確保用戶間的嚴(yán)格隔離。

傳統(tǒng)以太網(wǎng)專為單服務(wù)器工作負(fù)載設(shè)計(jì),無法滿足分布式 AI 的需求。過去,抖動和不穩(wěn)定傳輸尚可容忍,如今卻成了瓶頸。傳統(tǒng)以太網(wǎng)交換機(jī)架構(gòu)從未針對穩(wěn)定、可預(yù)測的性能進(jìn)行設(shè)計(jì),這種局限性仍影響著其最新一代產(chǎn)品。

分布式計(jì)算需要為零抖動運(yùn)行而構(gòu)建的橫向擴(kuò)展基礎(chǔ)設(shè)施——能夠應(yīng)對突發(fā)的極端吞吐量、提供低延遲、保持可預(yù)測且穩(wěn)定的 RDMA 性能,并隔離網(wǎng)絡(luò)上其他業(yè)務(wù)的干擾。這也是為什么 InfiniBand 網(wǎng)絡(luò)成為高性能計(jì)算超級計(jì)算機(jī)和 AI 工廠的黃金標(biāo)準(zhǔn)。

借助NVIDIA Quantum InfiniBand,集合運(yùn)算可通過 SHARP 協(xié)議(Scalable Hierarchical Aggregation and Reduction Protocol)直接運(yùn)行在網(wǎng)絡(luò)上,使歸約操作的數(shù)據(jù)帶寬翻倍。它采用動態(tài)路由和基于遙測的擁塞控制技術(shù),在多條路徑上分配流量,保證確定性帶寬并隔離噪聲。這些優(yōu)化使 InfiniBand 能精準(zhǔn)地?cái)U(kuò)展 AI 通信。這也是為何 NVIDIA Quantum 基礎(chǔ)設(shè)施連接了全球超級計(jì)算機(jī) TOP500 榜單中的大多數(shù)系統(tǒng),且僅兩年內(nèi)就實(shí)現(xiàn)了 35% 的增長。

對于跨數(shù)十個機(jī)架的集群,NVIDIA Quantum X800 InfiniBand 交換機(jī)將 InfiniBand 性能推向新高度。每臺交換機(jī)提供 144 個 800 Gbps 端口,支持基于硬件的 SHARPv4 技術(shù)、動態(tài)路由和基于遙測的擁塞控制技術(shù)。該平臺還通過集成了 CPO 技術(shù)來最大限度地縮短了電器件與光器件的距離,降低了功耗和延遲。搭配每 GPU 提供 800 Gb/s 的 NVIDIA ConnectX-8 SuperNIC,這種網(wǎng)絡(luò)架構(gòu)可連接萬億參數(shù)模型及利用網(wǎng)絡(luò)計(jì)算技術(shù)。

但超大規(guī)模數(shù)據(jù)中心用戶和企業(yè)級用戶已在以太網(wǎng)軟件基礎(chǔ)設(shè)施上投入數(shù)十億美元,他們需要一條能利用現(xiàn)有生態(tài)系統(tǒng)運(yùn)行 AI 工作負(fù)載的快捷路徑。NVIDIA Spectrum-X是專為分布式 AI 打造的新型以太網(wǎng)。

Spectrum-X 以太網(wǎng):將 AI 引入企業(yè)

Spectrum-X 為 AI 重塑以太網(wǎng)。2023 年推出的 Spectrum-X 可支持無損網(wǎng)絡(luò)、動態(tài)路由和性能隔離。基于 Spectrum-4 ASIC 的 SN5610 交換機(jī)支持高達(dá) 800 Gb/s 的端口速度,并通過 NVIDIA 的擁塞控制技術(shù),在規(guī)?;瘓鼍跋驴杀3?95% 的數(shù)據(jù)吞吐量。

Spectrum-X 完全基于標(biāo)準(zhǔn)以太網(wǎng)構(gòu)建。除支持 Cumulus Linux 外,它還兼容開源 SONiC 網(wǎng)絡(luò)操作系統(tǒng),為客戶提供靈活性。另一個核心組件是基于 NVIDIA BlueField-3 或 ConnectX-8 打造的 NVIDIA SuperNIC,可提供高達(dá) 800 Gb/s 的 RoCE 連接,并卸載數(shù)據(jù)包重排序和擁塞管理任務(wù)。

Spectrum-X 將 InfiniBand 的出色創(chuàng)新 —— 如遙測驅(qū)動的擁塞控制、動態(tài)負(fù)載均衡和直接數(shù)據(jù)放置等技術(shù)——引入以太網(wǎng),使企業(yè)能夠擴(kuò)展至數(shù)十萬顆 GPU。采用 Spectrum-X 的大型系統(tǒng)(包括全球最大的 AI 超級計(jì)算機(jī))實(shí)現(xiàn)了 95% 的數(shù)據(jù)吞吐量,且應(yīng)用延遲零衰減。而標(biāo)準(zhǔn)以太網(wǎng)架構(gòu)因流量沖突,吞吐量僅能達(dá)到約 60%。

適用于縱向擴(kuò)展和橫向擴(kuò)展的產(chǎn)品組合

沒有任何單一網(wǎng)絡(luò)能滿足 AI 工廠的所有層級需求。NVIDIA 為不同層級匹配合適的網(wǎng)絡(luò)架構(gòu),通過軟件和芯片將所有部分整合在一起。

NVLink:機(jī)架內(nèi)的縱向擴(kuò)展

在服務(wù)器機(jī)架內(nèi)部,GPU 之間的通信需如同同一芯片上的不同核之間的通信般高效。NVIDIA NVLink和 NVLink 交換機(jī)跨節(jié)點(diǎn)擴(kuò)展了 GPU 內(nèi)存和帶寬。在 NVIDIA Blackwell NVL72 系統(tǒng)中,36 顆 NVIDIA CPU 和 72 顆 NVIDIA GPU 連接在單一 NVLink 域中,總帶寬達(dá) 130 TB/s。NVLink 交換機(jī)技術(shù)進(jìn)一步擴(kuò)展該架構(gòu):單臺 NVIDIA Blackwell NVL72 系統(tǒng)可提供 130 TB/s 的 GPU 帶寬,使集群支持的 GPU 數(shù)量達(dá)到單臺 8-GPU 服務(wù)器的 9 倍。借助 NVLink,整個機(jī)架成為一個大型 GPU。

光子技術(shù):下一次飛躍

要實(shí)現(xiàn)百萬 GPU 規(guī)模的 AI 工廠,網(wǎng)絡(luò)必須突破可插拔光學(xué)器件的功率和密度限制。NVIDIA Quantum-X 和 Spectrum-X 硅光網(wǎng)絡(luò)交換機(jī)將硅光直接集成到交換機(jī)封裝中,可提供 128 至 512 個 800 Gb/s 端口,總帶寬介于 100 Tb/s 到 400 Tb/s 之間。與傳統(tǒng)光學(xué)器件相比,這些交換機(jī)的能效提升 3.5 倍,可靠性增強(qiáng) 10 倍,為十億瓦級 AI 工廠鋪平了道路。

兌現(xiàn)開放標(biāo)準(zhǔn)的承諾

Spectrum-X 和 NVIDIA Quantum InfiniBand 均基于開放標(biāo)準(zhǔn)構(gòu)建。Spectrum-X 是完全基于標(biāo)準(zhǔn)的以太網(wǎng),支持 SONiC 等開放以太網(wǎng)棧;而 NVIDIA Quantum InfiniBand 和 Spectrum-X 則符合IBTA 的 InfiniBand 和 RDMA over Converged Ethernet(RoCE)規(guī)范。NVIDIA 軟件棧的核心組件(包括 NCCL 和 DOCA 庫)可在多種硬件上運(yùn)行,思科(Cisco)、戴爾科技(DELL)、慧與(HPE) 和 超微(Supermicro) 等合作伙伴已將 Spectrum-X 集成到其系統(tǒng)中。

開放標(biāo)準(zhǔn)為互操作性奠定了基礎(chǔ),但實(shí)際 AI 集群需要進(jìn)行全棧(GPU、NIC、交換機(jī)、電纜和軟件)式深度優(yōu)化。投入端到端集成的供應(yīng)商能提供更優(yōu)的延遲和吞吐量。SONiC 作為在超大規(guī)模數(shù)據(jù)中心中得到強(qiáng)化的開源網(wǎng)絡(luò)操作系統(tǒng),消除了許可限制和供應(yīng)商鎖定,支持高度定制化,但操作人員仍會選擇專為 AI 性能需求設(shè)計(jì)的硬件和軟件捆綁方案。實(shí)際上,僅靠開放標(biāo)準(zhǔn)無法實(shí)現(xiàn)確定性性能,還需要通過創(chuàng)新來解決這些問題。

邁向百萬 GPU 的 AI 工廠

AI 工廠正迅速擴(kuò)張。歐洲多國正在建設(shè)七個國家級 AI 工廠,日本、印度和挪威的云服務(wù)商和企業(yè)也在部署 NVIDIA 驅(qū)動的 AI 基礎(chǔ)設(shè)施。下一個目標(biāo)是具備百萬 GPU 規(guī)模的十億瓦級設(shè)施。要實(shí)現(xiàn)這一目標(biāo),網(wǎng)絡(luò)必須從附屬品轉(zhuǎn)變?yōu)?AI 基礎(chǔ)設(shè)施的核心支柱。

十億瓦數(shù)據(jù)中心時代帶來的啟示很簡單:數(shù)據(jù)中心如今就是計(jì)算機(jī)。NVLink 將機(jī)架內(nèi)的 GPU 連接在一起;NVIDIA Quantum InfiniBand 實(shí)現(xiàn)跨機(jī)架擴(kuò)展;Spectrum-X 將這種性能推向更廣泛的市場;硅光技術(shù)確保其可持續(xù)性。在關(guān)鍵之處保持開放,在核心之處追求優(yōu)化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5682

    瀏覽量

    110090
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5751

    瀏覽量

    75193
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40908

    瀏覽量

    302496

原文標(biāo)題:迎接十億瓦數(shù)據(jù)中心時代

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【封裝技術(shù)】幾種常用芯片光纖耦合方案

    波導(dǎo)充當(dāng)單模光纖陣列和波導(dǎo)之間的橋梁。從單模光纖陣列耦合到聚合物波導(dǎo)中,然后聚合物波導(dǎo)耦合到波導(dǎo)中。 3.模場轉(zhuǎn)換方案 由于芯片上的波導(dǎo)模場較小,普通單模光纖耦合會因模場直徑
    發(fā)表于 03-04 16:42

    燒結(jié)銀膏在技術(shù)和EML技術(shù)的應(yīng)用

    燒結(jié)銀膏在技術(shù)和EML技術(shù)的應(yīng)用 燒結(jié)銀膏作為一種高導(dǎo)熱、低溫兼容、高可靠性的先進(jìn)電子封裝材料,在
    發(fā)表于 02-23 09:58

    NVIDIA Spectrum-X以太網(wǎng)技術(shù)助力AI工廠網(wǎng)絡(luò)創(chuàng)新

    NVIDIA 將率先為 AI 工廠引入采用光電一體封裝 (CPO) 的優(yōu)化以太網(wǎng)網(wǎng)絡(luò),通過 NVIDIA Spectrum-X 以太網(wǎng)
    的頭像 發(fā)表于 01-14 09:06 ?854次閱讀
    <b class='flag-5'>NVIDIA</b> Spectrum-X以太網(wǎng)<b class='flag-5'>硅</b><b class='flag-5'>光</b><b class='flag-5'>技術(shù)</b><b class='flag-5'>助力</b><b class='flag-5'>AI</b><b class='flag-5'>工廠</b>網(wǎng)絡(luò)創(chuàng)新

    NVIDIA擴(kuò)大與微軟合作推動AI超級工廠建設(shè)

    在 Microsoft Ignite 大會上,NVIDIA 擴(kuò)大與微軟的合作,包括在由 NVIDIA Blackwell 平臺驅(qū)動的全新 Microsoft Fairwater AI 超級工廠
    的頭像 發(fā)表于 12-01 09:52 ?954次閱讀

    NVIDIA CEO黃仁勛暢談AI時代最新藍(lán)圖

    在主題演講中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛勾勒出了 AI 時代的最新藍(lán)圖。從大規(guī)模 GPU 部署和量子技術(shù)突破,到 AI
    的頭像 發(fā)表于 11-03 14:45 ?924次閱讀

    三星攜手NVIDIA 以全新AI工廠引領(lǐng)全球智能制造轉(zhuǎn)型

    AI平臺推動制造與人形機(jī)器人技術(shù),邁向更高水平的智能化與自主化 ? ? 中國 ?– 2025年10月31日 – ?三星半導(dǎo)體今日宣布與NVIDIA攜手打造人工智能(
    的頭像 發(fā)表于 11-03 13:41 ?1945次閱讀

    OpenAI和NVIDIA宣布達(dá)成合作,部署10吉瓦NVIDIA系統(tǒng)

    此次合作將助力 OpenAI 構(gòu)建和部署至少 10 吉瓦(gigawatt)的 AI 數(shù)據(jù)中心,這些數(shù)據(jù)中心將采用 NVIDIA 系統(tǒng),包含數(shù)百萬
    的頭像 發(fā)表于 09-23 14:37 ?1552次閱讀
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布達(dá)成合作,部署10吉瓦<b class='flag-5'>NVIDIA</b>系統(tǒng)

    NVIDIA如何優(yōu)化AI工廠的網(wǎng)絡(luò)可靠性與功耗

    隨著 AI 重新定義計(jì)算格局,網(wǎng)絡(luò)已成為構(gòu)建未來數(shù)據(jù)中心發(fā)展的關(guān)鍵支柱。大語言模型的訓(xùn)練性能不僅取決于計(jì)算資源,更受到底層網(wǎng)絡(luò)敏捷性、容量和智能程度的影響。行業(yè)正從傳統(tǒng)以 CPU 為中心的基礎(chǔ)架構(gòu),邁向緊耦合的、GPU 驅(qū)動和網(wǎng)
    的頭像 發(fā)表于 09-04 11:23 ?1590次閱讀
    <b class='flag-5'>NVIDIA</b>如何優(yōu)化<b class='flag-5'>AI</b><b class='flag-5'>工廠</b>的網(wǎng)絡(luò)可靠性與功耗

    Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)

    Votee AI 利用 NVIDIAGPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工具,高效構(gòu)建
    的頭像 發(fā)表于 08-20 14:21 ?1005次閱讀

    睿海光電800G模塊助力全球AI基建升級

    領(lǐng)先的技術(shù)研發(fā)實(shí)力、行業(yè)領(lǐng)先的交付速度(較同行快2-3天)以及高度兼容的解決方案,迅速崛起為AI模塊領(lǐng)域的標(biāo)桿企業(yè)。目前,睿海光電已為全球1560余家客戶提供包括800G SR8在內(nèi)的多場景產(chǎn)品矩陣
    發(fā)表于 08-13 19:05

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G模塊升級

    400G/800G模塊已實(shí)現(xiàn)規(guī)模化量產(chǎn),并基于AI工廠AI云的核心需求進(jìn)行深度優(yōu)化: 速率突破:采用PAM4調(diào)制技術(shù),單通道速率達(dá)100
    發(fā)表于 08-13 19:01

    加速AI未來,睿海光電800G OSFP模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)

    實(shí)現(xiàn)樣品交付。我們將持續(xù)投入技術(shù)、CPO封裝等前沿領(lǐng)域,與客戶共同探索AI算力的無限可能。 選擇睿海光電,選擇值得信賴的AI光通信伙伴!
    發(fā)表于 08-13 16:38

    NVIDIA AI技術(shù)助力歐洲醫(yī)療健康行業(yè)發(fā)展

    從構(gòu)建全球規(guī)模最大的生物多樣性數(shù)據(jù)庫,到打造賦能罕見病研究的 AI 工廠NVIDIAAI 初創(chuàng)企業(yè)生態(tài)系統(tǒng)正持續(xù)為歐洲醫(yī)療健康領(lǐng)域注入創(chuàng)新動能。
    的頭像 發(fā)表于 06-19 14:40 ?3516次閱讀

    NVIDIA計(jì)劃打造全球首個工業(yè)AI云平臺

    NVIDIA 宣布,其正在為歐洲制造商構(gòu)建全球首個工業(yè) AI 云。這家總部位于德國的 AI 工廠將配備 1 萬個 GPU,包括通過
    的頭像 發(fā)表于 06-16 14:17 ?1590次閱讀

    NVIDIA擴(kuò)展適用于AI工廠數(shù)字孿生的Omniverse Blueprint

    NVIDIA 宣布大幅擴(kuò)展適用于 AI 工廠數(shù)字孿生的 Omniverse Blueprint,為工程團(tuán)隊(duì)提供更多 AI 工廠構(gòu)建工具,目前
    的頭像 發(fā)表于 05-22 09:48 ?1225次閱讀