通用芯?;ミB技術(UCIe)為半導體行業(yè)帶來了諸多可能性,在Multi-Die設計中實現了高帶寬、低功耗和低延遲的Die-to-Die連接。它支持定制HBM(cHBM)等創(chuàng)新應用,滿足了I/O裸片與HBM DRAM堆疊裸片之間對高帶寬連接的需求。本文將深入探討UCIe支持的不同接口,以實現片上網絡(NoC)互連。
UCIe標準層
UCIe定義了一套全面的協議層,用于標準化裸片(也稱為芯粒)之間的通信。該標準確保數據能夠高速傳輸,同時將延遲和功耗降至最低。如圖1所示,UCIe包括三層:
物理(PHY)層:管理UCIe鏈路的物理特性。該層由模擬前端構成,負責主鏈路訓練與初始化、邊帶初始化和訓練,以及通道修復、重新校準、時鐘轉發(fā)等功能。
Die-to-Die適配層:實現較低的鏈路層功能。它負責循環(huán)冗余校驗(CRC)的嵌入和檢查、FLIT重傳,以及與PHY層的鏈路狀態(tài)管理和參數協商。該層還包含用于連接到上層接口的協議仲裁邏輯。
協議層:通過可連接SoC片上網絡(NoC)的不同協議和接口(包括AXI、CXS、CHI C2C接口以及PCIe和CXL協議),與SoC應用進行通信。UCIe標準定義了用于連接SoC NoC的串流原生和串流FLIT接口。

▲圖1:UCIe規(guī)范層
串流FLIT是指通過Die-to-Die接口發(fā)送的數據被打包成FLIT,這些FLIT由PCIe和CXL協議定義。UCIe標準定義了六種FLIT格式:
格式1:64B原始數據,無CRC或重傳字節(jié)
格式2:68B FLIT,包含64B有效載荷、2B CRC,以及由Die-to-Die適配器填充的2B標頭數據
格式3:256B FLIT,包含240B數據有效載荷、16B CRC,以及由Die-to-Die適配器填充的標頭
格式4:256B FLIT,包含240B數據有效載荷、16B CRC,以及由Die-to-Die適配器填充的起始標頭
格式5:延遲優(yōu)化的256B FLIT,無可選字節(jié),包含236B有效載荷、20B CRC,以及由Die-to-Die適配器填充的標頭數據
格式6:延遲優(yōu)化的256B FLIT,含可選字節(jié),包含250B有效載荷、6B CRC,以及由Die-to-Die適配器填充的標頭數據
格式2到6允許為CRC重傳和標頭分配字節(jié),Die-to-Die適配器利用這些字節(jié)實現近乎無錯的鏈路。
在串流原生模式下,Die-to-Die適配器不會將應用數據轉換為FLIT。此模式在邏輯上將PHY RDI接口連接到應用層,提供了Die-to-Die互連的最低延遲路徑。
新思科技UCIe控制器IP在協議層中支持多種與SoC應用層的接口,例如CXS、AXI和CHI C2C。這些接口基于Die-to-Die適配器的串流FLIT模式實現,這意味著它們采用UCIe標準中定義的FLIT格式之一。
封閉式與非封閉式Multi-Die設計
根據具體的應用,系統(tǒng)可以采用上述任何一種Die-to-Die接口類型。
開發(fā)者必須明確Multi-Die設計是否為封閉式。封閉式Multi-Die設計是指來自同一供應商的裸片通過Die-to-Die IP進行互操作。在這種情況下,由同一供應商負責裸片之間的數據連接。這種應用場景在業(yè)界較為常見,許多公司在設計系統(tǒng)時會在自家的其他裸片中添加功能或進行擴展。
封閉式應用的例子包括將大型服務器裸片一分為二,使其作為單個處理單元運行。這類應用屬于功能分割,在裸片間建立透明的數據隧道,要求Die-to-Die接口具備每秒數太比特的超高帶寬。
另一個封閉式系統(tǒng)的例子是I/O芯粒連接到處理單元芯粒,或主計算裸片連接到AI加速器芯粒。在這種情況下,根據Die-to-Die適配器是否需要CRC或重傳功能,可以使用串流FLIT或串流原生協議。串流原生和FLIT接口允許通過Die-to-Die接口連接供應商專有NoC,為系統(tǒng)連接提供了便捷路徑,且無需在裸片間進行數據轉換,實現了低延遲。串流FLIT模式將數據打包成上述6種FLIT格式之一,然后Die-to-Die適配器會添加CRC和標頭字節(jié),這實現了一種重傳機制:數據在傳輸到Die-to-Die鏈路之前,先存儲在緩沖區(qū)中。如果Die-to-Die通信檢測到任何錯誤,則通過鏈路重新發(fā)送緩沖區(qū)中存儲的數據,以實現無錯通信。出于這些原因,系統(tǒng)可在不修改專有NoC的情況下利用Die-to-Die通信。
在非封閉式系統(tǒng)中,來自兩個不同供應商的裸片可以進行互操作。使用不同來源的現成芯粒的開放生態(tài)系統(tǒng)方法是UCIe標準的最終目標。非封閉式系統(tǒng)中的每個裸片實現特定功能,以優(yōu)化特定任務,通常需要低至中等的帶寬。
由于在非封閉式應用中,兩個裸片之間必須具備互操作性,因此使用PCIe和CXL等行業(yè)標準協議具有優(yōu)勢。這些標準協議具有軟件和生態(tài)系統(tǒng)支持,便于不同代產品間的使用。需要時,CXL等協議還可實現兩個裸片間的緩存一致性。例如,一個供應商的計算裸片可與另一個供應商的加速器裸片進行互操作。
還有其他一些應用也需要Die-to-Die連接。
圖2所示的第一種應用是服務器或計算裸片,Die-to-Die互連兩側均為同構裸片。這些芯粒需要低延遲的NoC到NoC接口。如果需要一致性,可使用CXS;如果不需要一致性,則可使用AXI。CXS接口以CXS信號格式(可以是CCIX 2.0或來自SoC應用的CHI)接收數據,并將其轉換為FLIT格式。例如,新思科技UCIe控制器的CXS接口使用68B FLIT格式2處理CCIX 2.0數據,使用256B延遲優(yōu)化的FLIT格式6處理CHI數據。類似地,AXI接口可以接收AXI4/AXI3接口信號,并將其轉換為FLIT。這些接口直接連接到SoC NoC,實現兩個裸片間的流量傳輸。該接口可以是用戶定義或專有的,此時開發(fā)者可以使用UCIe Die-to-Die適配器的串流原生或串流FLIT接口。

▲圖2:兩側具有同構裸片的服務器芯片示例
如圖3所示,第二種應用是將計算裸片連接到加速器芯粒。接口協議通常要求低延遲和一致性,有時還面向開放的芯粒市場。在此類應用中,開發(fā)者可以依賴CXL或PCIe等協議實現互操作性,若兩側裸片來自同一供應商,也可以利用UCIe串流接口。

▲圖3:兩側分別為服務器和加速器芯粒且利用CXL協議
圖4展示了裸片分割的應用場景,其中帶有以太網或PCIe的IO芯粒連接到計算芯粒。這些應用主要為封閉式,可使用串流原生或串流FLIT接口。如果服務器裸片上的NoC也使用AXI,還可以使用AXI接口。

▲圖4:IO芯粒與計算裸片通過串流接口進行互操作
如今,大多數Multi-Die設計采用封閉式裸片,高性能計算(HPC)和人工智能(AI)是此類Multi-Die設計的主要應用領域。
如圖5所示,AXI是當今大多數Multi-Die設計中主要的SoC NoC接口之一。CXS接口廣泛用于Arm NoC,可支持緩存一致性。新思科技UCIe控制器支持CXS接口,有助于通過互連傳輸CHI C2C數據。新思科技的控制器經過優(yōu)化,可與Arm NoC和Arteris IP NoC進行互操作。市場上的其他設計主要根據具體應用采用串流原生或FLIT接口,從而在裸片間提供最低延遲接口。在需要標準化的應用中,也會采用PCIe和CXL協議。

▲圖5:NoC接口的使用情況細分
AXI在主設備和從設備之間提供單一接口。如圖6所示,每個AXI通道僅能單向傳輸信息。該架構不要求通道之間存在固定關系,因此各通道可視為相互獨立。

▲圖6:AXI接口通道概述UCIe規(guī)范層
UCIe Die-to-Die適配器的接口只是一個隧道接口,可將數據從一個裸片中的AXI接口(主設備或從設備)傳輸到另一個裸片中的另一個AXI接口(從設備或主設備),而不會對數據進行任何形式的處理。實現AXI接口的UCIe串流FLIT采用UCIe標準定義的重傳機制。啟用重傳機制時,UCIe可提供點對點的無損數據通信通道。開發(fā)者可選擇使用任何一種已定義的FLIT格式來實現。
例如,新思科技的AXI實現使用FLIT格式2或6。如果需要較低延遲,可以使用串流FLIT格式2傳輸AXI信息,但與串流FLIT格式6相比,UCIe引入的帶寬開銷更高。如果需要更高帶寬,可以使用串流FLIT格式6來傳輸AXI信息(此時延遲更高)。將AXI數據打包成FLIT是一種專有實現方式,要求Die-to-Die互連兩側都具備該實現,以便以與初始打包相同的方式檢索另一裸片上的AXI數據。這導致在使用AXI接口進行Die-to-Die連接時存在局限性,不同供應商在基于UCIe的Die-to-Die互連上實現AXI時無法進行互操作。這一局限性在行業(yè)內所有基于UCIe實現AXI的供應商中普遍存在。
圖7展示了新思科技AXI實現的一個示例,來自不同地址的連續(xù)單獨讀寫(無突發(fā))映射到FLIT格式6。不同的讀寫請求通過讀地址、寫地址和寫數據通道從AXI主設備發(fā)送到從設備,并被打包成FLIT。圖7的下半部分展示了從設備對主設備讀寫請求的響應。

▲圖7:新思科技AXI實現的一個示例,來自不同地址的連續(xù)單獨讀寫映射到FLIT格式6
在有效載荷、標頭和CRC數據字節(jié)方面,對于68B串流FLIT格式2和256B串流FLIT格式6,UCIeFLIT打包效率分別為94.11%和97.65%。在AXI的每個通道中,寫數據通道包含多個信令數據。存在寫數據通道、寫有效信號、帶寫有效和寫就緒的寫結束信號等。總體而言,在AXI事務中,由于來自不同AXI通道的FLIT中包含額外數據,實際數據有效載荷的效率較低。
結語
新思科技提供包括PHY、控制器和驗證IP的完整UCIe IP解決方案。作為Multi-Die設計領域的領導者,新思科技推動合作以促進創(chuàng)新。新思科技UCIe PHY IP支持在最先進的工藝和封裝技術上實現16G、32G、40G和64G的數據速率。新思科技UCIe控制器支持串流原生、串流FLIT,以及AXI、CXS、CHI C2C等接口和PCIe、CXL等協議。新思科技與Arm和ArterisIP等行業(yè)標準NoC供應商合作,確保系統(tǒng)的互操作性和高性能,簡化了客戶的實現過程。
-
半導體
+關注
關注
339文章
31185瀏覽量
266261 -
接口
+關注
關注
33文章
9587瀏覽量
157584 -
soc
+關注
關注
40文章
4619瀏覽量
230065 -
UCIe
+關注
關注
0文章
53瀏覽量
2031
原文標題:如何通過UCIe IP實現行業(yè)NoC互連?
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
請問使用片上網絡來互連DSP48A會降低性能嗎?
什么是思科CleanAir解決方案?
基于FPGA的多時鐘片上網絡該怎么設計?
片上網絡有什么優(yōu)缺點?
片上網絡系統(tǒng)網絡層設計與研究
新思科技設計、驗證和IP解決方案助力Arm全面計算戰(zhàn)略
新思科技正式推出業(yè)界首個1.6T以太網IP整體解決方案
新思科技與英特爾在UCIe互操作性測試進展
新思科技發(fā)布全球領先的40G UCIe IP,助力多芯片系統(tǒng)設計全面提速
新思科技與英特爾攜手完成UCIe互操作性測試
Cadence UCIe IP在Samsung Foundry的5nm汽車工藝上實現流片成功
Cadence公司成功流片第三代UCIe IP解決方案
新思科技UCIe IP解決方案實現片上網絡互連
評論