TI 處理器與深度學(xué)習(xí)加速器
[TI]的AM6xA(如[AM68Ax]和[AM69Ax])邊緣AI處理器采用異構(gòu)架構(gòu),帶有用于深度學(xué)習(xí)計(jì)算的專(zhuān)用加速器。這個(gè)加速器被稱(chēng)為MMA -矩陣乘法加速器。該MMA與TI自己的C7x數(shù)字信號(hào)處理器一起,可以進(jìn)行高效的張量,矢量和標(biāo)量處理。加速器是獨(dú)立的深度學(xué)習(xí)處理,不依賴(lài)于主機(jī)ARM CPU。由于模型計(jì)算有大量的數(shù)據(jù)傳輸,加速器有自己的DMA引擎和內(nèi)存子系統(tǒng),與SoC的其余部分連接到相同的DDR。這與專(zhuān)有的Super-tiling技術(shù)一起,導(dǎo)致高達(dá)90%的加速器引擎利用率和DDR帶寬驅(qū)動(dòng)盡可能低的功耗,以實(shí)現(xiàn)節(jié)能計(jì)算。
*附件:am68a 數(shù)據(jù)手冊(cè).pdf
*附件:am69a數(shù)據(jù)手冊(cè).pdf
MMA架構(gòu)(來(lái)源:TI)
使用MMA作為AI功能的加速,整體SoC框圖如下圖所示。產(chǎn)品組合中的每個(gè)邊緣AI設(shè)備(如AM62A、AM68A等)的架構(gòu)都是相似的。
AM6xA處理器框圖(來(lái)源:TI)
基于異構(gòu)架構(gòu),片上系統(tǒng)(SoC)經(jīng)過(guò)優(yōu)化,可在多核Cortex-A微處理單元(mpu)上輕松編程,同時(shí)集成深度學(xué)習(xí)、成像、視覺(jué)、視頻和圖形處理等計(jì)算密集型任務(wù)。任務(wù)被卸載到專(zhuān)用硬件加速器和可編程核心上。使用高帶寬互連和智能存儲(chǔ)器架構(gòu)對(duì)這些核心進(jìn)行整體系統(tǒng)級(jí)集成,可實(shí)現(xiàn)高吞吐量和能源效率。通過(guò)系統(tǒng)組件的預(yù)集成實(shí)現(xiàn)優(yōu)化的系統(tǒng)BOM。請(qǐng)注意,像AM62A這樣的成本和功耗優(yōu)化的SoC并不包括所有硬件功能,例如GPU和DMPAC,或者可能包括性能降低的加速器變體以降低功耗。
深度學(xué)習(xí)效率
通常,TOPS(每秒tera次操作)用于衡量深度學(xué)習(xí)的性能比較。TOPS不能完全涵蓋深度學(xué)習(xí)性能的所有方面,因?yàn)樗€依賴(lài)于內(nèi)存(DDR)容量和神經(jīng)網(wǎng)絡(luò)架構(gòu)。
實(shí)際的推理時(shí)間取決于系統(tǒng)架構(gòu)利用系統(tǒng)中最優(yōu)數(shù)據(jù)流的效率。因此,更好的性能基準(zhǔn)是給定模型在給定輸入圖像分辨率下的推理時(shí)間。更快的推理時(shí)間允許處理更多的圖像,從而產(chǎn)生更高的每秒幀數(shù)(FPS)。因此,F(xiàn)PS除以TOPS (FPS/TOPS)顯示了建筑的效率。同樣,F(xiàn)PS/瓦特是嵌入式處理器能源效率的一個(gè)很好的基準(zhǔn)。
特性

處理器內(nèi)核:
- 高達(dá)雙 64 位 Arm Cortex-A72 微處理器子系統(tǒng),頻率高達(dá) 2GHz
- 每個(gè)雙核 Cortex-A72 群集 1MB 共享 L2 緩存
- 每個(gè) Cortex-A72 內(nèi)核 32KB L1 D-Cache 和 48KB L1 I-Cache
- 深度學(xué)習(xí)加速器:
- 高達(dá) 8 萬(wàn)億次每秒作 (TOPS)
- 帶有圖像信號(hào)處理器 (ISP) 和多個(gè)視覺(jué)輔助加速器的視覺(jué)處理加速器 (VPAC)
- 雙核 Arm Cortex-R5F MCU,在通用計(jì)算分區(qū)中高達(dá) 1.0GHz,帶 FFI
- 16KB L1 D-Cache、16KB L1 I-Cache 和 64KB L2 TCM
- 雙核 Arm? Cortex-R5F? MCU,頻率高達(dá) 1.0 GHz,支持設(shè)備管理
- 32K L1 D-Cache、32K I-Cache 和 64K L2 TCM,所有內(nèi)存均支持 SECDED ECC
- 帶有圖像信號(hào)處理器 (ISP) 和多個(gè)視覺(jué)輔助加速器的視覺(jué)處理加速器 (VPAC)
- 480 MPixel/s 圖像處理器
- 支持高達(dá) 16 位的輸入 RAW 格式
- 寬動(dòng)態(tài)范圍 (WDR)、鏡頭畸變校正 (LDC)、視覺(jué)成像子系統(tǒng) (VISS) 和多標(biāo)量 (MSC) 支持
- 輸出顏色格式 : 8 位、12 位和 YUV 4:2:2、YUV 4:2:0、RGB、HSV/HSL
多媒體:
- 顯示子系統(tǒng)支持:
- 3D 圖形處理單元
- IMG BXS-4-64,高達(dá) 800MHz
- 50GFLOPS,4GTexels/秒
500MTexels/s,>8GFLOPs
- 支持至少 2 個(gè)合成圖層
- 最高支持 2048x1080 @60fps
- 支持 ARGB32、RGB565 和 YUV 格式
- 支持 2D 圖形
- OpenGL ES 3.1、Vulkan 1.2
- 兩個(gè) CSI2.0 4L 攝像機(jī)串行接口 (CSI-Rx) 加上帶 DPHY 的 CSI2.- 4L Tx (CSI-Tx)
- 視頻編碼器/解碼器
- 支持 5.1 級(jí)高級(jí)的 HEVC (H.265) 主要配置文件
- 支持 5.2 級(jí) H.264 BaseLine/Main/High 配置文件
- 支持高達(dá) 4K UHD 分辨率 (3840 × 2160)
- 4K60 H.264/H.265 編碼/解碼(高達(dá) 480MP/s)
內(nèi)存子系統(tǒng):
- 高達(dá) 4MB 的片上 L3 RAM,具有 ECC 和一致性
- ECC 錯(cuò)誤保護(hù)
- 共享一致性緩存
- 支持內(nèi)部 DMA 引擎
- 最多兩個(gè)帶 ECC 的外部?jī)?nèi)存接口 (EMIF) 模塊
- 支持 LPDDR4 內(nèi)存類(lèi)型
- 支持高達(dá) 4266MT/s 的速度
- 多達(dá) 2 個(gè) 32 位數(shù)據(jù)總線,每個(gè) EMIF 具有高達(dá) 17GB/s 的內(nèi)聯(lián) ECC
- 通用內(nèi)存控制器 (GPMC)
- 在 MAIN 域中最多兩個(gè) 512KB 片上 SRAM,受 ECC 保護(hù)
設(shè)備安全性:
- 具有安全運(yùn)行時(shí)支持的安全啟動(dòng)
- 客戶可編程根密鑰,最高 RSA-4K 或 ECC-512
- 嵌入式硬件安全模塊
- 加密硬件加速器 – 具有 ECC、AES、SHA、RNG、DES 和 3DES 的 PKA
高速串行接口:
- 一個(gè) PCI-Express (PCIe) Gen3 控制器
- 每個(gè)控制器最多 4 個(gè)通道
- 第 1 代 (2.5GT/s)、第 2 代 (5.0GT/s) 和第 3 代 (8.0GT/s)作,具有自動(dòng)協(xié)商功能
- 一個(gè) USB 3.0 雙角色設(shè)備 (DRD) 子系統(tǒng)
- 兩個(gè) CSI2.0 4L 攝像機(jī)串行接口 RX (CSI-RX) 和兩個(gè)帶 DPHY 的 CSI2.0 4L TX (CSI-TX)
- 符合 MIPI CSI 1.3 標(biāo)準(zhǔn) + MIPI-DPHY 1.2
- CSI-RX 支持 1、2、3 或 4 數(shù)據(jù)通道模式,每通道高達(dá) 2.5Gbps
- CSI-TX 支持 1、2 或 4 數(shù)據(jù)通道模式,每通道高達(dá) 2.5Gbps
- 兩個(gè)以太網(wǎng) RMII/RGMII 接口
閃存接口:
- 嵌入式多媒體卡接口 (eMMC? 5.1)
- 1 個(gè)安全數(shù)字 3.0/安全數(shù)字輸入輸出 3.0 接口 (SD3.0/SDIO3.0)
- 兩個(gè)同步閃存接口配置為
- 一個(gè) OSPI 或 HyperBus? 或 QSPI,以及
- 一個(gè) QSPI
技術(shù)/封裝:
- 16nm FinFET 技術(shù)
- 23mm x 23mm、0.8mm 間距、770 引腳 FCBGA (ALZ)
技術(shù)文檔
=TI 選擇的此產(chǎn)品的熱門(mén)文檔
-
處理器
+關(guān)注
關(guān)注
68文章
20323瀏覽量
254638 -
加速器
+關(guān)注
關(guān)注
2文章
841瀏覽量
40231 -
AI
+關(guān)注
關(guān)注
91文章
40908瀏覽量
302491 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5603瀏覽量
124605
發(fā)布評(píng)論請(qǐng)先 登錄
使用NORDIC AI的好處
邊緣計(jì)算中的AI加速器類(lèi)型與應(yīng)用
TDA4VL-Q1處理器技術(shù)文檔總結(jié)
TDA4AL-Q1處理器的技術(shù)文檔摘要
?AM68A/AM68處理器技術(shù)文檔摘要
AM62A7-Q1處理器的技術(shù)文檔總結(jié)
?AM62Ax處理器技術(shù)文檔總結(jié)
AM62A3處理器技術(shù)文檔總結(jié)
AM67x處理器技術(shù)文檔總結(jié)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
德州儀器AM68x Jacinto 8處理器技術(shù)解析
英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持
Andes晶心科技推出新一代深度學(xué)習(xí)加速器
德州儀器AM62Ax Sitara?處理器技術(shù)解析
TPU處理器的特性和工作原理
TI Edge AI - AM6xA 處理器與深度學(xué)習(xí)加速器及其效率
image586×586 85.1 KB
image865×320 68.2 KB
評(píng)論