人工智能(AI),特別是大規(guī)模模型訓練和推理,正以前所未有的方式重塑數(shù)據(jù)中心網(wǎng)絡。傳統(tǒng)的“盡力而為”網(wǎng)絡架構,在處理海量、突發(fā)的AI數(shù)據(jù)洪流時捉襟見肘。AI模型對網(wǎng)絡性能的嚴苛要求——高帶寬、低延遲、零丟包——迫使網(wǎng)絡必須進行一場深刻的智能進化,從被動的基礎設施轉變?yōu)槔斫鈽I(yè)務、感知狀態(tài)、智能決策的“AI感知網(wǎng)絡”。
AI業(yè)務訴求:對傳統(tǒng)網(wǎng)絡架構的挑戰(zhàn)
AI集群(如GPU/TPU服務器)間的通信呈現(xiàn)出典型的“大象流”特征,流量總量巨大、并發(fā)連接少、單條流帶寬極高(可達數(shù)百Gbps)。這與傳統(tǒng)數(shù)據(jù)中心中“數(shù)量多、帶寬小”的“老鼠流”模式截然不同。傳統(tǒng)均衡技術失效,逐流ECMP依賴Hash算法在少量大流上極易導致嚴重負載不均,特定路徑擁塞而其他路徑閑置。Flowlet 對路徑時延差異敏感,配置參數(shù)(如Gap值)難以適應動態(tài)變化的網(wǎng)絡環(huán)境,全局信息缺失導致效果打折。逐包ECMP亂序問題嚴重,嚴重影響GPU計算效率。AI訓練任務(如AllReduce)具有全局同步特性。任何一條關鍵路徑上的擁塞、丟包或高延遲,都會導致整個計算集群“空等”,顯著拖慢任務完成時間(Job Completion Time, JCT),直接影響業(yè)務效率和資源成本。
RoCE交換機(SONiC-Based)選用的動態(tài)智能選路創(chuàng)新方案結合了逐流 ECMP 均衡和基于子流 flowlet 均衡提出動態(tài)WCMP(Weighted Cost Multipath)和基于flowlet 的 ALB(Auto Load Balancing),下面將介紹具體相關技術。
網(wǎng)絡智能進化:為AI而生的核心技術
網(wǎng)絡態(tài)勢實時感知:高精度測量的基石

- 帶內(nèi)網(wǎng)絡遙測INT(納秒級):? 采用HDC(高延遲捕獲)技術。當數(shù)據(jù)包在交換機內(nèi)部經(jīng)歷超過設定閾值的延遲時,該數(shù)據(jù)包的前150字節(jié)及關鍵元數(shù)據(jù)(入口/出口端口、精確時延)會被復制并發(fā)送給分析器(如交換機CPU)。這提供了前所未有的微突發(fā)流量和隊列擁塞的洞察能力。

動態(tài)智能選路技術在星融元交換機上開啟 HDC 功能,并將 CPU 作為 HDC 的收集分析器,通過分析 HDC 報文實現(xiàn)高精度測量交換機轉發(fā)時延,并將時延信息作為路徑質(zhì)量評價因子,提高路徑質(zhì)量評價精度。

命令行配置 HDC 功能控制INT進程運行,之后通過 socket 連接進行收包循環(huán),將收取到的報文進行解析并將關鍵信息(出入端口、轉發(fā)時延等)寫入數(shù)據(jù)庫。
全局路徑智能評估與同步
感知到的數(shù)據(jù)需要轉化為對整網(wǎng)路徑質(zhì)量的統(tǒng)一認知。
- BGP擴展社區(qū)屬性傳遞路徑質(zhì)量:? 創(chuàng)新性地擴展BGP協(xié)議(數(shù)據(jù)中心廣泛部署的底層路由協(xié)議),定義新的Path Bandwidth Extended Community屬性。該屬性攜帶一個綜合評估路徑質(zhì)量的浮點數(shù)值(單位GB/s),通過BGP Update報文在整網(wǎng)擴散。
路徑質(zhì)量同步算法邏輯如下圖所示:

動態(tài)智能選路技術將兩層 Leaf-Spine 組網(wǎng)中的交換機端口分為了三類:Leaf 上行口、Leaf 下行口和 Spine口,每種類型端口賦予不同的計算系數(shù),且每種端口的計算系數(shù)可配。
- 異常路徑主動剔除:? 設定質(zhì)量閾值。綜合質(zhì)量過低的路徑(如擁塞嚴重、時延過高)被判定為“異常路徑”并暫時剔除,避免其拖累整體性能,待其恢復后重新引入。

智能負載決策與執(zhí)行:動態(tài)WCMP + Flowlet ALB
基于實時感知的全局路徑視圖,執(zhí)行層實現(xiàn)精細化流量調(diào)度:
動態(tài)WCMP(加權多路徑):?
- 核心思想:? 不再是ECMP的“平均主義”,而是根據(jù)每條路徑的實時綜合質(zhì)量動態(tài)計算權重(如質(zhì)量比38:80對應權重比3:7)。
- 效果:? 將流量按比例引導到當前最優(yōu)的路徑上,最大化利用可用帶寬,避免擁塞熱點。權重隨網(wǎng)絡狀態(tài)變化而動態(tài)調(diào)整。

基于Flowlet的自動負載均衡(ALB):?
- 作為ECMP的智能增強器:? 在ECMP選定的下一跳組內(nèi),ASIC芯片實時監(jiān)測組內(nèi)各出端口的瞬時負載和隊列時延。
- 微秒級智能調(diào)度:? 當一個Flowlet(具有自然間隙的數(shù)據(jù)包子流)到達時,ALB將其動態(tài)分配到組內(nèi)當前負載最輕或時延最低的物理端口上。高負載/高時延端口會被臨時跳過。
- 故障自愈:? 支持端口級Fail-over,鏈路故障時自動觸發(fā)流量重分布。

多租戶支持:網(wǎng)絡虛擬化(VRF)
AI云平臺需要支持多租戶隔離。
- VRF隔離:? 為不同用戶/租戶分配獨立VRF路由表。
- 基于源IP的流量分類:? 利用ASIC的PRE-ACL能力,根據(jù)GPU網(wǎng)段源IP自動將流量劃入對應的租戶VRF進行查表轉發(fā),確保租戶間嚴格隔離。

智能網(wǎng)絡賦能AI業(yè)務場景
化解流量洪峰:動態(tài)WCMP的威力
- 場景:? 256 x 400G GPU集群,1:1收斂比Leaf-Spine架構。Server1 GPU1 -> Server17 GPU1的大象流。
- 傳統(tǒng)ECMP困境:? Hash沖突可能導致所有大象流涌向同一Spine,造成Leaf1上行口擁塞丟包,拖慢整個訓練任務

動態(tài)智能選路方案:?
- Server17 GPU1的BGP路由攜帶Leaf17->GPU1質(zhì)量宣告。
- Spine疊加自身->Leaf17質(zhì)量后宣告給Leaf1。
- Leaf1疊加自身->Spine質(zhì)量,匯總所有到GPU1路徑的質(zhì)量。
- Leaf1剔除劣質(zhì)路徑,基于剩余路徑質(zhì)量動態(tài)計算WCMP權重(如3:7)。
- 流量按最優(yōu)比例分發(fā)到多條Spine路徑,避免單點擁塞,保障大象流順暢。
業(yè)務價值:? 防止關鍵路徑擁塞,穩(wěn)定JCT,提升GPU集群整體利用率。
Flowlet ALB優(yōu)化ECMP
- 場景:? 在Leaf1到Spine的ECMP組內(nèi),某條鏈路突發(fā)微擁塞導致時延升高。

Flowlet ALB作用?
- ASIC實時檢測到該出端口負載/時延超標。
- 后續(xù)到達的Flowlet被自動引導至組內(nèi)其他負載正常/時延低的端口。
- 擁塞端口被暫時“規(guī)避”,待其負載/時延恢復正常后,F(xiàn)lowlet將再次被分配至此端口。
業(yè)務價值:? 消除微突發(fā)導致的局部擁塞和抖動,優(yōu)化端到端時延,提升GPU計算效率。
AI時代的網(wǎng)絡,已不再是簡單的連通管道。星融元CX-N系列RoCE交換機所代表的動態(tài)感知 + 智能決策(動態(tài)WCMP) + 精準執(zhí)行(Flowlet ALB) 架構,標志著網(wǎng)絡向“AI感知網(wǎng)絡”的深刻進化。這種進化以保障AI業(yè)務性能為核心目標,通過實時感知網(wǎng)絡狀態(tài)、智能評估路徑質(zhì)量、動態(tài)調(diào)整流量分布,有效化解了傳統(tǒng)網(wǎng)絡在AI負載下的性能瓶頸,為大規(guī)模AI訓練和推理提供了穩(wěn)定、高效、無損的網(wǎng)絡基石,釋放AI的真正潛力。
-
AI
+關注
關注
91文章
40908瀏覽量
302489 -
負載均衡
+關注
關注
0文章
135瀏覽量
12907
發(fā)布評論請先 登錄
九天菜菜大模型agent智能體開發(fā)實戰(zhàn)2026一月班
RPA低于Agent
具身智能交流會
國內(nèi)典型五大大模型驅(qū)動的星間鏈路動態(tài)組網(wǎng)分系統(tǒng)軟件介紹
大模型驅(qū)動的星間鏈路動態(tài)組網(wǎng)分系統(tǒng):功能特點與平臺架構解析
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
AI 邊緣計算網(wǎng)關:開啟智能新時代的鑰匙?—龍興物聯(lián)
ALVA技術重塑工業(yè)智能體感知與決策邊界
HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀
CES Asia 2025同期低空智能感知與空域管理技術論壇即將啟幕
CES Asia 2025聚焦低空智能感知與空域管理,論壇開啟行業(yè)新征程
Path Bandwidth Extended Community:藏在BGP屬性里的智能路由革命
智算網(wǎng)絡路徑質(zhì)量三要素:帶寬/隊列/時延在智能選路中的協(xié)同優(yōu)化
動態(tài)感知+智能決策,一文解讀 AI 場景組網(wǎng)下的動態(tài)智能選路技術
評論