資料介紹
描述
該項(xiàng)目介紹了我們對基于稱為 AdderNet 的新型深度學(xué)習(xí)模型的硬件推理加速器設(shè)計(jì)和優(yōu)化的研究。通過用絕對和 (SAD) 內(nèi)核替換計(jì)算密集型卷積 (CONV) 操作,可以通過具有成本效益的加法器/減法器電路消除大量乘法器,這可以提高計(jì)算吞吐量,因?yàn)橛布拗啤?/font>我們在 FPGA 設(shè)備上展示了基線 ResNet-20 實(shí)現(xiàn) (CNN-ResNet-20) 和兩個 AdderNet 設(shè)計(jì)變體 (ADD-ResNet-20) 之間的比較研究。我們利用自動 HLS(高級綜合)和手動轉(zhuǎn)換將 SAD 操作映射到 Xilinx Zynq MPSoC 的 FPGA DSP 塊 (DSP48E2)。尤其是,當(dāng) DSP48 模塊配置為 SIMD(單指令多數(shù)據(jù))模式時,我們可以用一個 DSP 模塊和最少的 LUT 邏輯資源支持至少兩個 SAD 操作。在這個研究階段,我們選擇使用一個 DSP 來支持 2 個 SAD 操作,以增加 10% 的 LUT 和 5% 的推理時間開銷為代價,總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略,以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。我們選擇使用 1 個 DSP 支持 2 個 SAD 操作,以增加 10% 的 LUT 和 5% 的推理時間開銷為代價,總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略,以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。我們選擇使用 1 個 DSP 支持 2 個 SAD 操作,以增加 10% 的 LUT 和 5% 的推理時間開銷為代價,總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略,以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)已廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)領(lǐng)域。例如工業(yè)檢測、自主視覺和機(jī)器人檢測。然而,由于其大量的乘法運(yùn)算和參數(shù),很難將這些標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)部署到具有效率吞吐量和功耗的嵌入式設(shè)備中。作為一種解決方案,AdderNet 在深度神經(jīng)網(wǎng)絡(luò),尤其是卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中使用這些大規(guī)模乘法,以獲得更便宜的加法以降低計(jì)算成本。
?

?
Function.1 CNN

Function.2 人工神經(jīng)網(wǎng)絡(luò)
?

?
作為案例研究,我們選擇 ResNet-20-CIFAR10 作為基線設(shè)計(jì)。ResNet-20-CIFAR10的處理引擎如圖1所示。據(jù)我們所知,CNN 加速器有兩種通用方法:單個 PE 和多個 PE。在這項(xiàng)工作中,我們在應(yīng)用程序中使用了多個 PE 以獲得更好的吞吐量。
?

自動 HLS 和手動轉(zhuǎn)換
Xilinx Vitis HLS 上的自動綜合:
Xilinx Vitis HLS 可以從 C++ 代碼自動生成 FPGA 項(xiàng)目。
對于 CNN-ResNet-20,綜合報告顯示該項(xiàng)目的硬件符合我們的目的。
對于 ADD-ResNet-20,合成報告并沒有遵循我們之前的目的,因?yàn)?Vitis HLS 中的 C 合成不支持將 DSP48 配置為 SIMD 模式。
我們的解決方案:
將 SAD 操作設(shè)計(jì)為 C++ 中的獨(dú)立函數(shù)。
替換 Xilinx Vitis HLS 生成的 Verilog 源文件中的 SAD 代碼。
在 Xilinx Vivado 中重新綜合該項(xiàng)目。
此外,通過編輯 SAD 代碼,我們可以為 DSP48E2 配置更多選項(xiàng)。
?

Batch Normalization 融合可以減少計(jì)算量,并為模型量化提供更簡潔的結(jié)構(gòu)。
如 Function.3 和 4 所示,將細(xì)化權(quán)重應(yīng)用于卷積層作為原始推理。但是考慮左邊顯示的加法器層的功能,作為卷積添加到函數(shù)中的細(xì)化權(quán)重不能用作卷積層。
由于乘法和加法的開銷,這個函數(shù)不能提供 AdderNet 的硬件優(yōu)勢。
為了避免這種開銷,我們使用額外的 for 循環(huán)來處理乘法和加法的開銷,這將花費(fèi)更多的時鐘周期和硬件。
?
?

DSP配置方法
在本節(jié)中,將介紹兩種 DSP48E2 配置方法:
方法 a:利用與 CONV 相同數(shù)量的 DSP,但與方法 b 相比,LUT 更少。
方法 b:利用一半的 DSP 作為 CONV,但與方法 a 相比,LUT 更多。
?

?
該報告顯示,通過比較解決方案 a、解決方案 b 和 ResNet-20 基線的結(jié)果,我們的方法可以以增加 10% 的 LUT 和 5% 的推理時間開銷為代價,減少大約 45% 的 DSP 利用率。
?

?
- Rapanda流加速器-實(shí)時流式FPGA加速器解決方案
- 《醫(yī)用電子直線加速器》pdf 0次下載
- 基于FPGA的SIMD卷積神經(jīng)網(wǎng)絡(luò)加速器 24次下載
- 神經(jīng)網(wǎng)絡(luò)加速器簡述 13次下載
- 基于深度學(xué)習(xí)的矩陣乘法加速器設(shè)計(jì)方案 7次下載
- 3小時學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)課件下載 0次下載
- 深度模型中的優(yōu)化與學(xué)習(xí)課件下載 3次下載
- 一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型 34次下載
- 深度學(xué)習(xí)是什么?了解深度學(xué)習(xí)難嗎?讓你快速了解深度學(xué)習(xí)的視頻講解 16次下載
- 工具包和Eval板幫助加速加速器應(yīng)用 13次下載
- Green網(wǎng)絡(luò)加速器 24次下載
- 加速器控制技術(shù)
- 蘭州重離子加速器冷卻儲存環(huán)高頻加速系統(tǒng)
- 實(shí)時頻譜分析儀(RSA)在加速器中的應(yīng)用
- 基于Profibus和Ethernet的加速器高頻控制系統(tǒng)設(shè)
- TPU處理器的特性和工作原理 3.9k次閱讀
- Pytorch深度學(xué)習(xí)訓(xùn)練的方法 1.1k次閱讀
- 什么是神經(jīng)網(wǎng)絡(luò)加速器?它有哪些特點(diǎn)? 1.7k次閱讀
- 如何處理cache miss問題以提高加速器效率呢? 2.4k次閱讀
- 一個微型的粒子加速器 1.8k次閱讀
- 硬件加速器提升下一代SHARC處理器的性能 2.2k次閱讀
- OpenCV+CUDA編譯實(shí)現(xiàn)YOLOv5能加速 3.3k次閱讀
- 充分利用數(shù)字信號處理器上的片內(nèi)FIR和IIR硬件加速器 2.3k次閱讀
- 多智體深度強(qiáng)化學(xué)習(xí)研究中首次將概率遞歸推理引入AI的學(xué)習(xí)過程 5.7k次閱讀
- FPGA的深度學(xué)習(xí)加速器有怎樣的挑戰(zhàn)和機(jī)遇 6.8k次閱讀
- 有多快?華為云刷新深度學(xué)習(xí)加速紀(jì)錄 5.8k次閱讀
- 一種基于FPGA的高性能DNN加速器自動生成方案 6.5k次閱讀
- 斯坦福機(jī)器學(xué)習(xí)硬件加速器的課程學(xué)芯片技術(shù)機(jī)會來了 6.9k次閱讀
- Veloce仿真環(huán)境下的SoC端到端硬件加速器功能驗(yàn)證 4.5k次閱讀
- 優(yōu)化基于FPGA的深度卷積神經(jīng)網(wǎng)絡(luò)的加速器設(shè)計(jì) 8.8k次閱讀
下載排行
本周
- 1矽力杰 Silergy SY7215A 同步升壓調(diào)節(jié)器 規(guī)格書 Datasheet 佰祥電子
- 1.12 MB | 5次下載 | 免費(fèi)
- 2HT81696H 內(nèi)置升壓的30W立體聲D類音頻功放數(shù)據(jù)手冊
- 1.21 MB | 1次下載 | 免費(fèi)
- 3HTA6863 3W超低噪聲超低功耗單聲道D類音頻功率放大器數(shù)據(jù)手冊
- 0.87 MB | 次下載 | 免費(fèi)
- 4南芯 Southchip SC8802C 充電控制器 規(guī)格書 Datasheet 佰祥電子
- 88.16 KB | 次下載 | 免費(fèi)
- 5矽力杰 Silergy SY7065 同步升壓轉(zhuǎn)換器 規(guī)格書 Datasheet 佰祥電子
- 910.67 KB | 次下載 | 免費(fèi)
- 6矽力杰 Silergy SY7066 同步升壓轉(zhuǎn)換器 規(guī)格書 Datasheet 佰祥電子
- 989.14 KB | 次下載 | 免費(fèi)
- 7WD6208A產(chǎn)品規(guī)格書
- 631.24 KB | 次下載 | 免費(fèi)
- 8NB685 26 V,12 A,低靜態(tài)電流,大電流 同步降壓變換器數(shù)據(jù)手冊
- 1.64 MB | 次下載 | 2 積分
本月
- 1EMC PCB設(shè)計(jì)總結(jié)
- 0.33 MB | 12次下載 | 免費(fèi)
- 2PD取電芯片 ECP5702規(guī)格書
- 0.88 MB | 5次下載 | 免費(fèi)
- 3矽力杰 Silergy SY7215A 同步升壓調(diào)節(jié)器 規(guī)格書 Datasheet 佰祥電子
- 1.12 MB | 5次下載 | 免費(fèi)
- 4氮化鎵GaN FET/GaN HEMT 功率驅(qū)動電路選型表
- 0.10 MB | 3次下載 | 免費(fèi)
- 5PD取電芯片,可取5/9/12/15/20V電壓ECP5702數(shù)據(jù)手冊
- 0.88 MB | 3次下載 | 免費(fèi)
- 6SY50655 用于高輸入電壓應(yīng)用的偽固定頻率SSR反激式穩(wěn)壓器英文資料
- 1.01 MB | 3次下載 | 免費(fèi)
- 7怎么為半導(dǎo)體測試儀選擇精密放大器
- 0.65 MB | 2次下載 | 免費(fèi)
- 8SY52341 次級側(cè)同步整流英文手冊
- 0.94 MB | 2次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935137次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233095次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191469次下載 | 10 積分
- 5十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183360次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81606次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73832次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65991次下載 | 10 積分
電子發(fā)燒友App





創(chuàng)作
發(fā)文章
發(fā)帖
提問
發(fā)資料
發(fā)視頻
上傳資料賺積分
評論