什么是IPT(In-band Path Telemetry)?
IPT是 In-band Path Telemetry 的縮寫,中文譯為 “帶內(nèi)路徑遙測”。IPT是INT技術(shù)的標準方案之一,也是實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)平面可觀測性的一種核心技術(shù)。要理解“帶內(nèi)”,首先要對比“帶外”;
- 帶外遙測:網(wǎng)絡(luò)設(shè)備(如交換機、路由器)會定期、主動地收集自身的性能數(shù)據(jù)(如端口計數(shù)、CPU負載),并通過獨立的管理通道(如SNMP、gRPC)上報給控制平面或網(wǎng)管系統(tǒng)。數(shù)據(jù)流和業(yè)務報文是分離的。
- 帶內(nèi)遙測:業(yè)務報文本身在轉(zhuǎn)發(fā)過程中,會“攜帶”其流經(jīng)路徑的網(wǎng)絡(luò)狀態(tài)信息。這些信息被直接寫入數(shù)據(jù)包內(nèi)部,并隨數(shù)據(jù)包一同被傳送到目的地或指定的收集點。
所以,IPT的核心思想就是,將網(wǎng)絡(luò)測量任務從網(wǎng)管設(shè)備(帶外)下放到數(shù)據(jù)報文(帶內(nèi))本身。讓數(shù)據(jù)包在穿越網(wǎng)絡(luò)時,像“偵探”一樣,沿途自動收集每一跳設(shè)備的實時狀態(tài)信息,并將這些證據(jù)(遙測數(shù)據(jù))封裝在自己體內(nèi),最終送達分析端。
IPT的技術(shù)實現(xiàn)
在現(xiàn)有報文格式(如以太網(wǎng)幀、IPv4/IPv6包)中插入一個INT頭部和一系列INT指令,預留出空間來存放待收集的數(shù)據(jù)。需要支持INT的設(shè)備(稱為“INT節(jié)點”或“Telemetry Node”)在轉(zhuǎn)發(fā)該報文時,會識別INT指令,并根據(jù)指令要求,將本地的特定信息(如交換機ID、入口/出口端口、時間戳、隊列深度、鏈路利用率等)寫入報文預留的INT數(shù)據(jù)區(qū)。所有信息都在數(shù)據(jù)內(nèi)部添加和傳輸,不需要再為遙測單獨建立通道或額外發(fā)送探測報文。
IPT 報文格式
IPT報文由多層頭部構(gòu)成,包含L2/L3封裝、GRE頭部、IPT Shim頭部、探針標記及各節(jié)點統(tǒng)計信息等字段。
IPT工作流程
IPT通過入口節(jié)點生成探測包、傳輸節(jié)點收集信息、出口節(jié)點封裝報文發(fā)送的整理流程圖,實現(xiàn)端到端路徑信息采集。探測數(shù)據(jù)包為原始數(shù)據(jù)包的克?。╬ayload截斷),沿與原始包相同路徑傳輸,并在各個節(jié)點插入統(tǒng)計信息,最終發(fā)送至用戶配置的收集器。

IPT能做什么呢?
IPT提供了一種高實時性、與業(yè)務流完全同步的網(wǎng)絡(luò)路徑狀態(tài)的洞察能力。
精準的故障與性能問題定位
傳統(tǒng)定位故障問題的方法:網(wǎng)絡(luò)管理員收到告警(如“服務器A到B延遲高”),需要逐跳登錄設(shè)備、查看計數(shù)器、抓包分析,耗時長,難以定位到具體哪一跳、哪個端口、哪個隊列出了問題。
IPT可以直接從出問題的數(shù)據(jù)流本身的INT報告中,就能看到整條路徑上每一跳的詳細信息。舉個例子:通過報告可以發(fā)現(xiàn)“在交換機3的出口端口Ethernet1/1/1上,隊列2的排隊延遲突增了50ms”,這樣就實現(xiàn)秒級甚至亞秒級的根因定位。
網(wǎng)絡(luò)性能可視化與基線建立
持續(xù)收集關(guān)鍵業(yè)務流的路徑數(shù)據(jù),可以繪制出網(wǎng)絡(luò)性能的精細圖譜,實現(xiàn)端到端性能的可視化,包括逐跳的延遲、抖動、丟包、擁塞點等?;谶@些真實數(shù)據(jù)建立性能基線,任何偏離基線的異常都可以被快速檢測出來,輔助運維決策。
自動化與智能運維
為SDN控制器、網(wǎng)絡(luò)分析器或AIOps平臺提供高質(zhì)量、實時、關(guān)聯(lián)性極強的輸入數(shù)據(jù),可用于訓練AI模型。使得網(wǎng)絡(luò)能夠?qū)崿F(xiàn)基于真實流量狀態(tài)的動態(tài)優(yōu)化,如自動重路由(將受擁塞影響的流量切換到其他路徑)、主動緩存調(diào)整、容量規(guī)劃等。
服務等級協(xié)議保障與驗證
對于云服務商或企業(yè),可以針對VIP客戶或關(guān)鍵應用(如視頻會議、金融交易)的流量啟用IPT。直接驗證從源頭到目的地的SLA指標(如端到端延遲、丟包率)是否達標,并提供無法抵賴的、逐跳的證據(jù)。
典型應用場景 - 端到端路徑時延監(jiān)控
在某超千卡GPU集群的大規(guī)模訓練場景中,All-Reduce等集合通信操作對網(wǎng)絡(luò)時延極度敏感,其完成速度取決于最慢的路徑。傳統(tǒng)監(jiān)控手段難以精準定位網(wǎng)絡(luò)鏈路中的隱患。IPT技術(shù)通過實現(xiàn)納秒級精度的端到端路徑時延透視,為解決此問題提供了根本性方案。

訓練過程中,梯度數(shù)據(jù)需經(jīng)多臺Leaf/Spine交換機轉(zhuǎn)發(fā)。IPT通過探測數(shù)據(jù)包采集各節(jié)點轉(zhuǎn)發(fā)時延,結(jié)合入口到出口的總時延,定位高延遲節(jié)點(如某Spine交換機轉(zhuǎn)發(fā)時延異常升高),輔助調(diào)整流量轉(zhuǎn)發(fā)路徑,避免因單節(jié)點延遲導致整體訓練效率下降。
通過IPT實現(xiàn)的端到端路徑時延監(jiān)控,將網(wǎng)絡(luò)從“黑盒”變?yōu)椤鞍缀小保延柧毿实钠款i定位從“猜測GPU或軟件問題”精確到“證實并定位網(wǎng)絡(luò)硬件或微突發(fā)流量問題”,從而將小時級甚至天級的故障排查過程縮短至分鐘級,有效保障了萬卡集群的算力高效、穩(wěn)定輸出。
-
監(jiān)控
+關(guān)注
關(guān)注
6文章
2397瀏覽量
59582 -
IPT
+關(guān)注
關(guān)注
0文章
3瀏覽量
8813 -
Int
+關(guān)注
關(guān)注
0文章
27瀏覽量
16494
發(fā)布評論請先 登錄
INT技術(shù)眾多,為何IPT能成為路徑性能監(jiān)控的首選方案?
評論