chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

動態(tài)感知+智能決策,一文解讀 AI 場景組網(wǎng)下的動態(tài)智能選路技術

星融元Asterfusion ? 2025-06-20 15:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能AI),特別是大規(guī)模模型訓練和推理,正以前所未有的方式重塑數(shù)據(jù)中心網(wǎng)絡。傳統(tǒng)的“盡力而為”網(wǎng)絡架構,在處理海量、突發(fā)的AI數(shù)據(jù)洪流時捉襟見肘。AI模型對網(wǎng)絡性能的嚴苛要求——高帶寬、低延遲、零丟包——迫使網(wǎng)絡必須進行一場深刻的智能進化,從被動的基礎設施轉變?yōu)槔斫鈽I(yè)務、感知狀態(tài)、智能決策的“AI感知網(wǎng)絡”。

AI業(yè)務訴求:對傳統(tǒng)網(wǎng)絡架構的挑戰(zhàn)

AI集群(如GPU/TPU服務器)間的通信呈現(xiàn)出典型的“大象流”特征,流量總量巨大、并發(fā)連接少、單條流帶寬極高(可達數(shù)百Gbps)。這與傳統(tǒng)數(shù)據(jù)中心中“數(shù)量多、帶寬小”的“老鼠流”模式截然不同。傳統(tǒng)均衡技術失效,逐流ECMP依賴Hash算法在少量大流上極易導致嚴重負載不均,特定路徑擁塞而其他路徑閑置。Flowlet 對路徑時延差異敏感,配置參數(shù)(如Gap值)難以適應動態(tài)變化的網(wǎng)絡環(huán)境,全局信息缺失導致效果打折。逐包ECMP亂序問題嚴重,嚴重影響GPU計算效率。AI訓練任務(如AllReduce)具有全局同步特性。任何一條關鍵路徑上的擁塞、丟包或高延遲,都會導致整個計算集群“空等”,顯著拖慢任務完成時間(Job Completion Time, JCT),直接影響業(yè)務效率和資源成本。

RoCE交換機(SONiC-Based)選用的動態(tài)智能選路創(chuàng)新方案結合了逐流 ECMP 均衡和基于子流 flowlet 均衡提出動態(tài)WCMP(Weighted Cost Multipath)和基于flowlet 的 ALB(Auto Load Balancing),下面將介紹具體相關技術。

網(wǎng)絡智能進化:為AI而生的核心技術

網(wǎng)絡態(tài)勢實時感知:高精度測量的基石

  • ASIC硬件級統(tǒng)計(百毫秒級):? 直接讀取交換機芯片寄存器,獲取端口/隊列的帶寬利用率、緩存占用等關鍵指標,通過SONiC控制面以亞秒級精度匯聚分析。
wKgZPGhL1YWAdsMxAABivehbs5M780.png
  • 帶內(nèi)網(wǎng)絡遙測INT(納秒級):? 采用HDC(高延遲捕獲)技術。當數(shù)據(jù)包在交換機內(nèi)部經(jīng)歷超過設定閾值的延遲時,該數(shù)據(jù)包的前150字節(jié)及關鍵元數(shù)據(jù)(入口/出口端口、精確時延)會被復制并發(fā)送給分析器(如交換機CPU)。這提供了前所未有的微突發(fā)流量和隊列擁塞的洞察能力。
wKgZO2hL1hqAR6TSAAAtyi-_KRQ388.png

動態(tài)智能選路技術在星融元交換機上開啟 HDC 功能,并將 CPU 作為 HDC 的收集分析器,通過分析 HDC 報文實現(xiàn)高精度測量交換機轉發(fā)時延,并將時延信息作為路徑質(zhì)量評價因子,提高路徑質(zhì)量評價精度。

wKgZPGhL1nKAcNx4AABn9b6Zis0759.png

命令行配置 HDC 功能控制INT進程運行,之后通過 socket 連接進行收包循環(huán),將收取到的報文進行解析并將關鍵信息(出入端口、轉發(fā)時延等)寫入數(shù)據(jù)庫。

全局路徑智能評估與同步

感知到的數(shù)據(jù)需要轉化為對整網(wǎng)路徑質(zhì)量的統(tǒng)一認知。

  • BGP擴展社區(qū)屬性傳遞路徑質(zhì)量:? 創(chuàng)新性地擴展BGP協(xié)議(數(shù)據(jù)中心廣泛部署的底層路由協(xié)議),定義新的Path Bandwidth Extended Community屬性。該屬性攜帶一個綜合評估路徑質(zhì)量的浮點數(shù)值(單位GB/s),通過BGP Update報文在整網(wǎng)擴散。

路徑質(zhì)量同步算法邏輯如下圖所示:

wKgZPGhVBbmANW0nAABhhkxqwi8922.png

動態(tài)智能選路技術將兩層 Leaf-Spine 組網(wǎng)中的交換機端口分為了三類:Leaf 上行口、Leaf 下行口和 Spine口,每種類型端口賦予不同的計算系數(shù),且每種端口的計算系數(shù)可配。

  • 異常路徑主動剔除:? 設定質(zhì)量閾值。綜合質(zhì)量過低的路徑(如擁塞嚴重、時延過高)被判定為“異常路徑”并暫時剔除,避免其拖累整體性能,待其恢復后重新引入。
wKgZO2hVBdGAOq-kAABu32D086w993.png

智能負載決策與執(zhí)行:動態(tài)WCMP + Flowlet ALB

基于實時感知的全局路徑視圖,執(zhí)行層實現(xiàn)精細化流量調(diào)度:

動態(tài)WCMP(加權多路徑):?

  • 核心思想:? 不再是ECMP的“平均主義”,而是根據(jù)每條路徑的實時綜合質(zhì)量動態(tài)計算權重(如質(zhì)量比38:80對應權重比3:7)。
  • 效果:? 將流量按比例引導到當前最優(yōu)的路徑上,最大化利用可用帶寬,避免擁塞熱點。權重隨網(wǎng)絡狀態(tài)變化而動態(tài)調(diào)整。
wKgZO2hVBgKAXsAGAACAdxa2Oso511.png

基于Flowlet的自動負載均衡(ALB):?

  • 作為ECMP的智能增強器:? 在ECMP選定的下一跳組內(nèi),ASIC芯片實時監(jiān)測組內(nèi)各出端口的瞬時負載和隊列時延。
  • 微秒級智能調(diào)度:? 當一個Flowlet(具有自然間隙的數(shù)據(jù)包子流)到達時,ALB將其動態(tài)分配到組內(nèi)當前負載最輕或時延最低的物理端口上。高負載/高時延端口會被臨時跳過。
  • 故障自愈:? 支持端口級Fail-over,鏈路故障時自動觸發(fā)流量重分布。
wKgZPGhVBiSASY3eAAAxI2tEW_0441.png

多租戶支持:網(wǎng)絡虛擬化(VRF)

AI云平臺需要支持多租戶隔離。

  • VRF隔離:? 為不同用戶/租戶分配獨立VRF路由表。
  • 基于源IP的流量分類:? 利用ASIC的PRE-ACL能力,根據(jù)GPU網(wǎng)段源IP自動將流量劃入對應的租戶VRF進行查表轉發(fā),確保租戶間嚴格隔離。
wKgZO2hVBkiAIVbnAACBZTbez4M451.png

智能網(wǎng)絡賦能AI業(yè)務場景

化解流量洪峰:動態(tài)WCMP的威力

  • 場景:? 256 x 400G GPU集群,1:1收斂比Leaf-Spine架構。Server1 GPU1 -> Server17 GPU1的大象流。
  • 傳統(tǒng)ECMP困境:? Hash沖突可能導致所有大象流涌向同一Spine,造成Leaf1上行口擁塞丟包,拖慢整個訓練任務
wKgZPGhVBl6AC_tAAACvsFfQlc4650.png

動態(tài)智能選路方案:?

  1. Server17 GPU1的BGP路由攜帶Leaf17->GPU1質(zhì)量宣告。
  2. Spine疊加自身->Leaf17質(zhì)量后宣告給Leaf1。
  3. Leaf1疊加自身->Spine質(zhì)量,匯總所有到GPU1路徑的質(zhì)量。
  4. Leaf1剔除劣質(zhì)路徑,基于剩余路徑質(zhì)量動態(tài)計算WCMP權重(如3:7)。
  5. 流量按最優(yōu)比例分發(fā)到多條Spine路徑,避免單點擁塞,保障大象流順暢。

業(yè)務價值:? 防止關鍵路徑擁塞,穩(wěn)定JCT,提升GPU集群整體利用率。

Flowlet ALB優(yōu)化ECMP

  • 場景:? 在Leaf1到Spine的ECMP組內(nèi),某條鏈路突發(fā)微擁塞導致時延升高。
wKgZPGhVBrKAUtopAACy58Yo5oI449.png

Flowlet ALB作用?

  1. ASIC實時檢測到該出端口負載/時延超標。
  2. 后續(xù)到達的Flowlet被自動引導至組內(nèi)其他負載正常/時延低的端口。
  3. 擁塞端口被暫時“規(guī)避”,待其負載/時延恢復正常后,F(xiàn)lowlet將再次被分配至此端口。

業(yè)務價值:? 消除微突發(fā)導致的局部擁塞和抖動,優(yōu)化端到端時延,提升GPU計算效率。

AI時代的網(wǎng)絡,已不再是簡單的連通管道。星融元CX-N系列RoCE交換機所代表的動態(tài)感知 + 智能決策(動態(tài)WCMP) + 精準執(zhí)行(Flowlet ALB) 架構,標志著網(wǎng)絡向“AI感知網(wǎng)絡”的深刻進化。這種進化以保障AI業(yè)務性能為核心目標,通過實時感知網(wǎng)絡狀態(tài)、智能評估路徑質(zhì)量、動態(tài)調(diào)整流量分布,有效化解了傳統(tǒng)網(wǎng)絡在AI負載下的性能瓶頸,為大規(guī)模AI訓練和推理提供了穩(wěn)定、高效、無損的網(wǎng)絡基石,釋放AI的真正潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    40908

    瀏覽量

    302489
  • 負載均衡
    +關注

    關注

    0

    文章

    135

    瀏覽量

    12907
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    九天菜菜大模型agent智能體開發(fā)實戰(zhàn)2026月班

    復雜多變的現(xiàn)實場景。而大模型 Agent 則打破了這局限,它以大模型為核心大腦,具備感知環(huán)境、理解任務、制定規(guī)劃、調(diào)用工具并完成目標的完整能力鏈,宛如個擁有自主意識和行動能力的“數(shù)
    發(fā)表于 04-15 16:04

    RPA低于Agent

    → 能理解意圖、拆解任務、動態(tài)規(guī)劃、用工具、處理異常、自我反思。 像**“智能助理/數(shù)字員工主管”**。 二、關鍵區(qū)別(眼看懂) 1. 智能
    發(fā)表于 04-04 21:36

    具身智能交流會

    龍頭企業(yè)決策者,圍繞 “感知 / 決策 / 控制 / 交互” 核心技術、商業(yè)化路徑、政策支持等熱點展開深度對話,鍵嵌入產(chǎn)業(yè)生態(tài)。 二、展品
    發(fā)表于 01-22 09:55

    國內(nèi)典型五大大模型驅(qū)動的星間鏈動態(tài)組網(wǎng)分系統(tǒng)軟件介紹

    ? ? 大模型驅(qū)動星間鏈動態(tài)組網(wǎng)分系統(tǒng)典型技術方案解析 ? ?結合國際低軌星座、星間鏈智能
    的頭像 發(fā)表于 12-23 15:22 ?328次閱讀

    大模型驅(qū)動的星間鏈動態(tài)組網(wǎng)分系統(tǒng):功能特點與平臺架構解析

    大模型賦能的星間鏈動態(tài)組網(wǎng)分系統(tǒng)技術解析 ? ?北京華盛恒輝大模型驅(qū)動的星間鏈動態(tài)
    的頭像 發(fā)表于 12-23 14:52 ?325次閱讀

    安富利解析智能駕駛中的感知決策技術

    當汽車開始像人類感知世界、做出決策,場由AI驅(qū)動的交通革命已悄然發(fā)生。
    的頭像 發(fā)表于 10-31 10:37 ?981次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片

    可以被稱為第人稱視角。 第人稱視角:指個實體本身在觀察或經(jīng)歷事物時,所能夠看到或感知到的角度。 二、AI
    發(fā)表于 09-18 11:45

    AI 邊緣計算網(wǎng)關:開啟智能新時代的鑰匙?—龍興物聯(lián)

    順暢地通向云端,實現(xiàn)設備與云端之間高效的數(shù)據(jù)傳輸與交互。通過融合先進的邊緣計算和人工智能技術,AI 邊緣計算網(wǎng)關能夠在靠近數(shù)據(jù)源的網(wǎng)絡邊緣,對數(shù)據(jù)進行實時處理和精準分析,進而實現(xiàn)智能決策
    發(fā)表于 08-09 16:40

    AI智能體的技術應用與未來圖景

    AI智能技術正經(jīng)歷從感知智能向認知智能的范式躍遷。其技術
    的頭像 發(fā)表于 07-24 11:04 ?1098次閱讀

    ALVA技術重塑工業(yè)智能感知決策邊界

    無論是西門子構建的工業(yè) AI 交易中心,還是微軟推出的工廠運營智能體,其本質(zhì)都在驗證個趨勢——工業(yè)智能體的核心競爭力,正從單模型能力轉向
    的頭像 發(fā)表于 07-22 14:32 ?1595次閱讀

    HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀

    本功能從DevEco CodeGenie 5.1.0 Beta版本開始支持。 CodeGenie提供智能AI能力對框選的代碼片段進行逐條解釋,總結代碼段含義,幫助開發(fā)者提升閱讀代碼的速度和效率
    發(fā)表于 07-17 17:02

    CES Asia 2025同期低空智能感知與空域管理技術論壇即將啟幕

    的最新進展,探討如何打破系統(tǒng)間的壁壘,實現(xiàn)不同系統(tǒng)之間的信息共享與協(xié)同工作,為未來城市空中交通的大規(guī)模商業(yè)化運營奠定基礎。 人工智能技術的飛速發(fā)展,為空域動態(tài)管理帶來了新的機遇。在這議題下,與會者將深入探討
    發(fā)表于 07-10 10:16

    CES Asia 2025聚焦低空智能感知與空域管理,論壇開啟行業(yè)新征程

    ,為管制員提供決策支持。在本次論壇中,人工智能領域的專家和低空經(jīng)濟從業(yè)者將共同探討人工智能在空域動態(tài)管理中的應用場景、
    發(fā)表于 07-10 09:57

    Path Bandwidth Extended Community:藏在BGP屬性里的智能路由革命

    傳統(tǒng)BGP協(xié)議雖能實現(xiàn)路由可達性,但缺乏對路徑質(zhì)量的動態(tài)感知能力,導致流量分配不均、高延遲鏈未被規(guī)避等問題。為提升網(wǎng)絡資源利用率,動態(tài)智能
    的頭像 發(fā)表于 06-24 14:00 ?838次閱讀
    Path Bandwidth Extended Community:藏在BGP屬性里的<b class='flag-5'>智能</b>路由革命

    智算網(wǎng)絡路徑質(zhì)量三要素:帶寬/隊列/時延在智能中的協(xié)同優(yōu)化

    為了從根本上優(yōu)化AI流量的傳輸效率并最大化集群利用率,我們設計并實踐了基于多維度網(wǎng)絡狀態(tài)感知動態(tài)智能
    的頭像 發(fā)表于 06-13 15:44 ?808次閱讀
    智算網(wǎng)絡路徑質(zhì)量三要素:帶寬/隊列/時延在<b class='flag-5'>智能</b><b class='flag-5'>選</b><b class='flag-5'>路</b>中的協(xié)同優(yōu)化