chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用PCIe交換網(wǎng)結(jié)構(gòu)在多主機系統(tǒng)中優(yōu)化資源部署

李鴻洋 ? 來源:小嘛小二郎呀 ? 作者:小嘛小二郎呀 ? 2022-08-01 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

越來越多的數(shù)據(jù)中心和其他高性能計算環(huán)境開始使用GPU,因為GPU能夠快速處理深度學習機器學習應(yīng)用中生成的大量數(shù)據(jù)。不過,就像許多可提高應(yīng)用性能的新型數(shù)據(jù)中心創(chuàng)新一樣,這項創(chuàng)新也暴露出新的系統(tǒng)瓶頸。在這些應(yīng)用中,用于提高系統(tǒng)性能的新興架構(gòu)涉及通過一個PCIe?結(jié)構(gòu)在多個主機之間共享系統(tǒng)資源。

PCIe標準(特別是其基于樹的傳統(tǒng)層級)會限制資源共享的實現(xiàn)方式(和實現(xiàn)程度)。不過,可以實現(xiàn)一種低延時的高速結(jié)構(gòu)方法,這種方法允許在多個主機之間共享大量GPU和NVMe SSD,同時仍支持標準系統(tǒng)驅(qū)動程序。

PCIe結(jié)構(gòu)方法采用動態(tài)分區(qū)和多主機單根I/O虛擬化(SR-IOV)共享。各PCIe結(jié)構(gòu)之間可直接路由點對點傳輸。這樣便可為點對點傳輸提供最佳路由,減少根端口擁塞,并且更有效地平衡CPU資源的負載。

傳統(tǒng)上,GPU傳輸必須訪問CPU的系統(tǒng)存儲器,這會導(dǎo)致端點之間發(fā)生存儲器共享爭用。 當GPU使用其共享的存儲器映射資源而不是CPU存儲器時,它可以在本地提取數(shù)據(jù),無需先通過CPU傳遞數(shù)據(jù)。這消除了跳線和鏈路以及由此產(chǎn)生的延時,從而使GPU能夠更高效地處理數(shù)據(jù)。

PCIe的固有限制

PCIe主層級是一個樹形結(jié)構(gòu),其中的每個域都有一個根聯(lián)合體,從該點可擴展到“葉子”,這些“葉子”通過交換網(wǎng)和橋接器到達端點。鏈路的嚴格層級和方向性給多主機、多交換網(wǎng)系統(tǒng)帶來了成本高昂的設(shè)計要求。

圖1——多主機拓撲

以圖1所示的系統(tǒng)為例。要符合PCIe的層級,主機1必須在交換網(wǎng)1中有一個專用的下行端口,該端口連接到交換網(wǎng)2中的專用上行端口。它還需要在交換網(wǎng)2中有一個專用的下行端口,該端口連接到交換網(wǎng)3中的專用上行端口,依此類推。主機2和主機3也有類似的要求,如圖2所示。

圖2——每個主機的層級要求

即使是基于PCIe樹形結(jié)構(gòu)的最基本系統(tǒng),也需要各交換網(wǎng)之間有三個鏈路專用于每個主機的PCIe拓撲。而且,由于主機之間無法共享這些鏈路,因此系統(tǒng)會很快變得極為低效。

此外,符合PCIe的典型層級只有一個根端口,而且盡管“多根I/O虛擬化和共享”規(guī)范中支持多個根,但它會使設(shè)計更復(fù)雜,并且當前不受主流CPU支持。結(jié)果會造成未使用的PCIe設(shè)備(即端點)滯留在其分配到的主機中。不難想象,這在采用多個GPU、存儲設(shè)備及其控制器以及交換網(wǎng)的大型系統(tǒng)中會變得多么低效。

例如,如果第一個主機(主機1)已經(jīng)消耗了所有計算資源,而主機2和3未充分利用資源,則顯然希望主機1訪問這些資源。但主機1無法這樣做,因為這些資源在它的層級域之外,因此會發(fā)生滯留。非透明橋接(NTB)是這種問題的一個潛在解決方案,但由于每種類型的共享PCIe設(shè)備都需要非標準驅(qū)動程序和軟件,因此這同樣會使系統(tǒng)變得復(fù)雜。更好的方法是使用PCIe結(jié)構(gòu),這種結(jié)構(gòu)允許標準PCIe拓撲容納多個可訪問每個端點的主機。

實施方法

系統(tǒng)使用一個PCIe結(jié)構(gòu)交換網(wǎng)(本例中為Microchip Switchtec? PAX系列的成員)在兩個獨立但可透明互操作的域中實現(xiàn):即包含所有端點和結(jié)構(gòu)鏈路的結(jié)構(gòu)域以及每個主機專用的主機域(圖3)。主機通過在嵌入式CPU上運行的PAX交換網(wǎng)固件保留在單獨的虛擬域中,因此,交換網(wǎng)將始終顯示為具有直連端點的標準單層PCIe設(shè)備,而與這些端點出現(xiàn)在結(jié)構(gòu)中的位置無關(guān)。

圖3——每個結(jié)構(gòu)的獨立域

來自主機域的事務(wù)會在結(jié)構(gòu)域中轉(zhuǎn)換為ID和地址,反之,結(jié)構(gòu)域中通信的非分層路由也是如此。這樣,系統(tǒng)中的所有主機便可共享連接交換網(wǎng)和端點的結(jié)構(gòu)鏈路。交換網(wǎng)固件會攔截來自主機的所有配置平面通信(包括PCIe枚舉過程),并使用數(shù)量可配置的下行端口虛擬化一個符合PCIe規(guī)范的簡單交換網(wǎng)。

當所有控制平面通信都路由到交換網(wǎng)固件進行處理時,數(shù)據(jù)平面通信直接路由到端點。其他主機域中未使用的GPU不再滯留,因為它們可以根據(jù)每個主機的需求動態(tài)分配。結(jié)構(gòu)內(nèi)支持點對點通信,這使其能夠適應(yīng)機器學習應(yīng)用。當以符合PCIe規(guī)范的方式向每個主機提供功能時,可以使用標準驅(qū)動程序。

操作方法

為了解這種方法的工作原理,我們以圖4中的系統(tǒng)為例,該系統(tǒng)由兩個主機(主機1采用Windows?系統(tǒng),主機2采用Linux?系統(tǒng))、四個PAX PCIe結(jié)構(gòu)交換網(wǎng)、四個Nvidia M40 GPGPU和一個支持SR-IOV的Samsung NVMe SSD組成。在本實驗中,主機運行代表實際機器學習工作負載的通信,包括Nvidia的CUDA點對點通信基準測試實用程序和訓(xùn)練cifar10圖像分類的TensorFlow模型。嵌入式交換網(wǎng)固件處理交換網(wǎng)的低級配置和管理,系統(tǒng)由Microchip的ChipLink調(diào)試和診斷實用程序管理。

圖4:雙主機PCIe結(jié)構(gòu)引擎

四個GPU最初分配給主機1,PAX結(jié)構(gòu)管理器顯示在結(jié)構(gòu)中發(fā)現(xiàn)的所有設(shè)備,其中GPU綁定到Windows主機。但是,主機上的結(jié)構(gòu)不再復(fù)雜,所有GPU就像直接連接到虛擬交換網(wǎng)一樣。隨后,結(jié)構(gòu)管理器將綁定所有設(shè)備,Windows設(shè)備管理器將顯示GPU。主機將交換網(wǎng)視為下行端口數(shù)量可配置的簡單物理PCIe交換網(wǎng)。

一旦CUDA發(fā)現(xiàn)了四個GPU,點對點帶寬測試就會顯示單向傳輸速率為12.8 GBps,雙向傳輸速率為24.9 GBps。這些傳輸直接跨過PCIe結(jié)構(gòu),而無需通過主機。如果運行用于訓(xùn)練Cifar10圖像分類算法的TensorFlow模型并使工作負載分布在全部四個GPU上,則可以將兩個GPU釋放回結(jié)構(gòu)池中,將它們與主機解除綁定。這樣可以釋放其余兩個GPU來執(zhí)行其他工作負載。與Windows主機一樣,Linux主機也將交換網(wǎng)視為簡單的PCIe交換網(wǎng),無需自定義驅(qū)動程序,而CUDA也可以發(fā)現(xiàn)GPU,并在Linux主機上運行P2P傳輸。性能類似于使用Windows主機實現(xiàn)的性能,如表1所示。

表1:GPU點對點傳輸帶寬

下一步是將SR-IOV虛擬功能連接到Windows主機,PAX將此類功能以標準物理NVM設(shè)備的形式提供,以便主機可以使用標準NVMe驅(qū)動程序。此后,虛擬功能將與Linux主機結(jié)合,并且新的NVMe設(shè)備將出現(xiàn)在模塊設(shè)備列表中。本實驗的結(jié)果是,兩個主機現(xiàn)在都可以獨立使用其虛擬功能。

務(wù)必注意的是,虛擬PCIe交換網(wǎng)和所有動態(tài)分配操作都以完全符合PCIe規(guī)范的方式呈現(xiàn)給主機,以便主機能夠使用標準驅(qū)動程序。嵌入式交換網(wǎng)固件提供了一個簡單的管理接口,這樣便可通過成本低廉的外部處理器來配置和管理PCIe結(jié)構(gòu)。設(shè)備點對點事務(wù)默認情況下處于使能狀態(tài),不需要外部結(jié)構(gòu)管理器進行額外配置或管理。

總結(jié)

PCIe交換網(wǎng)結(jié)構(gòu)是一種能夠充分利用CPU巨大性能的絕佳方法,但PCIe標準本身存在一些障礙。不過,可以通過使用動態(tài)分區(qū)和多主機單根I/O虛擬化共享技術(shù)來解決這些難題,以便可以將GPU和NVMe資源實時動態(tài)分配給多主機系統(tǒng)中的任何主機,從而滿足機器學習工作負載不斷變化的需求。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5179

    瀏覽量

    135285
  • PCIe
    +關(guān)注

    關(guān)注

    16

    文章

    1455

    瀏覽量

    88285
  • 管理器
    +關(guān)注

    關(guān)注

    0

    文章

    265

    瀏覽量

    19507
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    IDT 89HPES32NT24BG2:高性能PCIe Gen2系統(tǒng)互連交換機深度解析

    高性能應(yīng)用的首選。IDT的89HPES32NT24BG2作為一款PCIe Gen2系統(tǒng)互連交換機,
    的頭像 發(fā)表于 02-09 16:05 ?133次閱讀

    探索 IDT 89HPES32NT24AG2 PCIe 交換機的卓越性能

    探索 IDT 89HPES32NT24AG2 PCIe 交換機的卓越性能 在當今高速發(fā)展的電子科技領(lǐng)域,高性能的 PCIe 交換機對于實現(xiàn)高效的數(shù)據(jù)傳輸和
    的頭像 發(fā)表于 02-05 16:10 ?118次閱讀

    ?PCI11010 PCIe交換機技術(shù)解析與應(yīng)用設(shè)計指南

    Microchip Technology PCI11010 PCIe交換機(帶以太網(wǎng)MAC和I/O)具有集成式以太網(wǎng)MAC和可編程I/O。 Microchip Technology
    的頭像 發(fā)表于 10-10 14:03 ?770次閱讀
    ?PCI11010 <b class='flag-5'>PCIe</b><b class='flag-5'>交換</b>機技術(shù)解析與應(yīng)用設(shè)計指南

    PCI11414 PCIe交換機技術(shù)解析與應(yīng)用設(shè)計指南

    Microchip Technology PCI11414 PCIe交換機(帶USB 3.2、MAC和I/O)將USB 3.2 Gen 2主機控制器、以太網(wǎng)MAC和可編程I/O相結(jié)合
    的頭像 發(fā)表于 10-10 13:56 ?878次閱讀
    PCI11414 <b class='flag-5'>PCIe</b><b class='flag-5'>交換</b>機技術(shù)解析與應(yīng)用設(shè)計指南

    PCI11101 PCIe交換機集成USB3.2主機控制器技術(shù)解析

    規(guī)性認證,可使用一個或多個通道實現(xiàn)PCIe上行,從而實現(xiàn)靈活的系統(tǒng)架構(gòu)。PCI11101可確保從外部接口到交換結(jié)構(gòu)和端點控制器的PCIe合規(guī)
    的頭像 發(fā)表于 10-10 13:51 ?907次閱讀
    PCI11101 <b class='flag-5'>PCIe</b><b class='flag-5'>交換</b>機集成USB3.2<b class='flag-5'>主機</b>控制器技術(shù)解析

    ?Microchip PCI11400 PCIe交換機技術(shù)解析與應(yīng)用指南

    修訂版4.x認證。該器件可通過單個或多個通道提供PCIe上行,以適應(yīng)系統(tǒng)架構(gòu),從外部接口到交換結(jié)構(gòu)和端點控制器的實施均與PCIe兼容。
    的頭像 發(fā)表于 10-10 11:48 ?754次閱讀
    ?Microchip PCI11400 <b class='flag-5'>PCIe</b><b class='flag-5'>交換</b>機技術(shù)解析與應(yīng)用指南

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    升數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應(yīng)用場景的詳細分析:一、性能優(yōu)化:突破帶寬瓶頸,提升計算效率 鏈路帶寬利用率分析 場景:AI訓(xùn)練集群,GPU通過PCIe與CPU
    發(fā)表于 07-29 15:02

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    場景:監(jiān)測GPU與主機之間的PCIe通信,分析數(shù)據(jù)傳輸效率、延遲和帶寬利用率。 應(yīng)用價值:優(yōu)化大規(guī)模AI訓(xùn)練任務(wù)的數(shù)據(jù)加載和模型參數(shù)同步,例如在GPU
    發(fā)表于 07-25 14:09

    如何利用RAKsmart服務(wù)器實現(xiàn)高效站點部署方案

    利用RAKsmart服務(wù)器實現(xiàn)高效站點部署方案,需結(jié)合其網(wǎng)絡(luò)優(yōu)勢、彈性資源管理和合理的架構(gòu)設(shè)計。以下是分步實施方案,涵蓋網(wǎng)絡(luò)優(yōu)化、資源分配
    的頭像 發(fā)表于 05-19 10:38 ?521次閱讀

    nvme IP開發(fā)之PCIe

    體系架構(gòu) RC是PCIe體系樹形結(jié)構(gòu)的根節(jié)點。RC主要負責配置PCIe總線上的所有設(shè)備,分配資源、處理傳輸請求,并管理數(shù)據(jù)流動。
    發(fā)表于 05-17 14:54

    fido5100/fido5200實時以太網(wǎng)協(xié)議(REM)交換機技術(shù)手冊

    幾乎任何第2層或第3層協(xié)議。交換機芯片通過從主機處理器下載的固件進行定制,以支持所需的協(xié)議。 固件包含在實時以太網(wǎng)協(xié)議(REM)交換
    的頭像 發(fā)表于 05-15 10:46 ?1397次閱讀
    fido5100/fido5200實時以太<b class='flag-5'>網(wǎng)</b><b class='flag-5'>多</b>協(xié)議(REM)<b class='flag-5'>交換</b>機技術(shù)手冊

    POE交換機接口詳解

    現(xiàn)代網(wǎng)絡(luò)設(shè)備,PoE(以太網(wǎng)供電)技術(shù)已成為不可或缺的一部分。PoE交換機接口不僅能傳輸數(shù)據(jù),還能通過同一條網(wǎng)線為終端設(shè)備供電,有效簡化布線,降低成本,并提升網(wǎng)絡(luò)
    發(fā)表于 03-27 17:17

    如何實現(xiàn)POE交換機串聯(lián)?

    現(xiàn)代網(wǎng)絡(luò)環(huán)境,POE(以太網(wǎng)交換機憑借其同時傳輸數(shù)據(jù)與電源的能力,廣泛應(yīng)用于無線接入點(AP)、IP攝像頭、VoIP電話等設(shè)備的部署。
    發(fā)表于 03-25 19:10

    PoE交換機如何助力智慧城市基礎(chǔ)設(shè)施建設(shè)?

    交換構(gòu)建這些網(wǎng)絡(luò)中發(fā)揮著至關(guān)重要的作用。本文將探討PoE交換機如何助力智慧城市發(fā)展,以及它們構(gòu)建強大城市網(wǎng)絡(luò)的重要性。 智慧城
    發(fā)表于 03-25 10:20

    PoE交換安防監(jiān)控系統(tǒng)的關(guān)鍵作用

    交換安防監(jiān)控系統(tǒng)的關(guān)鍵作用。 什么是PoE交換機? PoE交換機是一種通過單根以太網(wǎng)
    發(fā)表于 03-24 16:41