chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

<form id="xa7e2"></form>

<pre id="xa7e2"><label id="xa7e2"><th id="xa7e2"></th></label></pre>

電子發(fā)燒友App

硬聲App

掃碼添加小助手

加入工程師交流群

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認(rèn)識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>基于AdderNet的深度學(xué)習(xí)推理加速器

基于AdderNet的深度學(xué)習(xí)推理加速器

2513674 2022-10-31 | zip | 0.19 MB | 次下載 | 免費

普通下載普通下載

資料介紹

描述

該項目介紹了我們對基于稱為 AdderNet 的新型深度學(xué)習(xí)模型的硬件推理加速器設(shè)計和優(yōu)化的研究。通過用絕對和 (SAD) 內(nèi)核替換計算密集型卷積 (CONV) 操作，可以通過具有成本效益的加法器/減法器電路消除大量乘法器，這可以提高計算吞吐量，因為硬件限制。我們在 FPGA 設(shè)備上展示了基線 ResNet-20 實現(xiàn) (CNN-ResNet-20) 和兩個 AdderNet 設(shè)計變體 (ADD-ResNet-20) 之間的比較研究。我們利用自動 HLS（高級綜合）和手動轉(zhuǎn)換將 SAD 操作映射到 Xilinx Zynq MPSoC 的 FPGA DSP 塊 (DSP48E2)。尤其是，當(dāng) DSP48 模塊配置為 SIMD（單指令多數(shù)據(jù)）模式時，我們可以用一個 DSP 模塊和最少的 LUT 邏輯資源支持至少兩個 SAD 操作。在這個研究階段，我們選擇使用一個 DSP 來支持 2 個 SAD 操作，以增加 10% 的 LUT 和 5% 的推理時間開銷為代價，總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計策略，以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。我們選擇使用 1 個 DSP 支持 2 個 SAD 操作，以增加 10% 的 LUT 和 5% 的推理時間開銷為代價，總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計策略，以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。我們選擇使用 1 個 DSP 支持 2 個 SAD 操作，以增加 10% 的 LUT 和 5% 的推理時間開銷為代價，總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵我們探索新的深度學(xué)習(xí)加速器設(shè)計策略，以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個 DSP ≥4 SAD 的積極 SIMD 配置來提高推理吞吐量。

卷積神經(jīng)網(wǎng)絡(luò)（CNN）已廣泛應(yīng)用于計算機視覺任務(wù)領(lǐng)域。例如工業(yè)檢測、自主視覺和機器人檢測。然而，由于其大量的乘法運算和參數(shù)，很難將這些標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)部署到具有效率吞吐量和功耗的嵌入式設(shè)備中。作為一種解決方案，AdderNet 在深度神經(jīng)網(wǎng)絡(luò)，尤其是卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中使用這些大規(guī)模乘法，以獲得更便宜的加法以降低計算成本。

?

?

?

Function.1 CNN

?

Function.2 人工神經(jīng)網(wǎng)絡(luò)

?

?

?

作為案例研究，我們選擇 ResNet-20-CIFAR10 作為基線設(shè)計。ResNet-20-CIFAR10的處理引擎如圖1所示。據(jù)我們所知，CNN 加速器有兩種通用方法：單個 PE 和多個 PE。在這項工作中，我們在應(yīng)用程序中使用了多個 PE 以獲得更好的吞吐量。

?

?

自動 HLS 和手動轉(zhuǎn)換

Xilinx Vitis HLS 上的自動綜合：

Xilinx Vitis HLS 可以從 C++ 代碼自動生成 FPGA 項目。

對于 CNN-ResNet-20，綜合報告顯示該項目的硬件符合我們的目的。

對于 ADD-ResNet-20，合成報告并沒有遵循我們之前的目的，因為 Vitis HLS 中的 C 合成不支持將 DSP48 配置為 SIMD 模式。

我們的解決方案：

將 SAD 操作設(shè)計為 C++ 中的獨立函數(shù)。

替換 Xilinx Vitis HLS 生成的 Verilog 源文件中的 SAD 代碼。

在 Xilinx Vivado 中重新綜合該項目。

此外，通過編輯 SAD 代碼，我們可以為 DSP48E2 配置更多選項。

?

?

Batch Normalization 融合可以減少計算量，并為模型量化提供更簡潔的結(jié)構(gòu)。

如 Function.3 和 4 所示，將細(xì)化權(quán)重應(yīng)用于卷積層作為原始推理。但是考慮左邊顯示的加法器層的功能，作為卷積添加到函數(shù)中的細(xì)化權(quán)重不能用作卷積層。

由于乘法和加法的開銷，這個函數(shù)不能提供 AdderNet 的硬件優(yōu)勢。

為了避免這種開銷，我們使用額外的 for 循環(huán)來處理乘法和加法的開銷，這將花費更多的時鐘周期和硬件。

?

?

?

DSP配置方法

在本節(jié)中，將介紹兩種 DSP48E2 配置方法：

方法 a：利用與 CONV 相同數(shù)量的 DSP，但與方法 b 相比，LUT 更少。

方法 b：利用一半的 DSP 作為 CONV，但與方法 a 相比，LUT 更多。

?

?

?

該報告顯示，通過比較解決方案 a、解決方案 b 和 ResNet-20 基線的結(jié)果，我們的方法可以以增加 10% 的 LUT 和 5% 的推理時間開銷為代價，減少大約 45% 的 DSP 利用率。

?

?

?

加速器深度學(xué)習(xí)

加入交流群

微信小助手二維碼

掃碼添加小助手

加入工程師交流群

下載該資料的人也在下載下載該資料的人還在閱讀

更多 >

TPU處理器的特性和工作原理 3.9k次閱讀
Pytorch深度學(xué)習(xí)訓(xùn)練的方法 1.1k次閱讀
什么是神經(jīng)網(wǎng)絡(luò)加速器？它有哪些特點？ 1.7k次閱讀
如何處理cache miss問題以提高加速器效率呢？ 2.4k次閱讀
一個微型的粒子加速器 1.8k次閱讀
硬件加速器提升下一代SHARC處理器的性能 2.2k次閱讀
OpenCV+CUDA編譯實現(xiàn)YOLOv5能加速 3.3k次閱讀
充分利用數(shù)字信號處理器上的片內(nèi)FIR和IIR硬件加速器 2.3k次閱讀
多智體深度強化學(xué)習(xí)研究中首次將概率遞歸推理引入AI的學(xué)習(xí)過程 5.7k次閱讀
FPGA的深度學(xué)習(xí)加速器有怎樣的挑戰(zhàn)和機遇 6.8k次閱讀
有多快？華為云刷新深度學(xué)習(xí)加速紀(jì)錄 5.8k次閱讀
一種基于FPGA的高性能DNN加速器自動生成方案 6.5k次閱讀
斯坦福機器學(xué)習(xí)硬件加速器的課程學(xué)芯片技術(shù)機會來了 6.9k次閱讀
Veloce仿真環(huán)境下的SoC端到端硬件加速器功能驗證 4.5k次閱讀
優(yōu)化基于FPGA的深度卷積神經(jīng)網(wǎng)絡(luò)的加速器設(shè)計 8.8k次閱讀

評論

查看更多

--

資料 -- | 積分 --

查看他上傳的所有資料

+關(guān)注個人主頁

上傳資料賺積分

下載排行

本周

1矽力杰 Silergy SY7215A 同步升壓調(diào)節(jié)器規(guī)格書 Datasheet 佰祥電子
1.12 MB | 5次下載 | 免費
2HT81696H 內(nèi)置升壓的30W立體聲D類音頻功放數(shù)據(jù)手冊
1.21 MB | 1次下載 | 免費
3HTA6863 3W超低噪聲超低功耗單聲道D類音頻功率放大器數(shù)據(jù)手冊
0.87 MB | 次下載 | 免費
4南芯 Southchip SC8802C 充電控制器規(guī)格書 Datasheet 佰祥電子
88.16 KB | 次下載 | 免費
5矽力杰 Silergy SY7065 同步升壓轉(zhuǎn)換器規(guī)格書 Datasheet 佰祥電子
910.67 KB | 次下載 | 免費
6矽力杰 Silergy SY7066 同步升壓轉(zhuǎn)換器規(guī)格書 Datasheet 佰祥電子
989.14 KB | 次下載 | 免費
7WD6208A產(chǎn)品規(guī)格書
631.24 KB | 次下載 | 免費
8NB685 26 V，12 A，低靜態(tài)電流，大電流同步降壓變換器數(shù)據(jù)手冊
1.64 MB | 次下載 | 2 積分

本月

1EMC PCB設(shè)計總結(jié)
0.33 MB | 12次下載 | 免費
2PD取電芯片 ECP5702規(guī)格書
0.88 MB | 5次下載 | 免費
3矽力杰 Silergy SY7215A 同步升壓調(diào)節(jié)器規(guī)格書 Datasheet 佰祥電子
1.12 MB | 5次下載 | 免費
4氮化鎵GaN FET/GaN HEMT 功率驅(qū)動電路選型表
0.10 MB | 3次下載 | 免費
5PD取電芯片，可取5/9/12/15/20V電壓ECP5702數(shù)據(jù)手冊
0.88 MB | 3次下載 | 免費
6SY50655 用于高輸入電壓應(yīng)用的偽固定頻率SSR反激式穩(wěn)壓器英文資料
1.01 MB | 3次下載 | 免費
7怎么為半導(dǎo)體測試儀選擇精密放大器
0.65 MB | 2次下載 | 免費
8SY52341 次級側(cè)同步整流英文手冊
0.94 MB | 2次下載 | 免費

總榜

1matlab軟件下載入口
未知 | 935137次下載 | 10 積分
2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計
1.48MB | 420064次下載 | 10 積分
3Altium DXP2002下載入口
未知 | 233095次下載 | 10 積分
4電路仿真軟件multisim 10.0免費下載
340992 | 191469次下載 | 10 積分
5十天學(xué)會AVR單片機與C語言視頻教程下載
158M | 183360次下載 | 10 積分
6labview8.5下載
未知 | 81606次下載 | 10 積分
7Keil工具M(jìn)DK-Arm免費下載
0.02 MB | 73832次下載 | 10 積分
8LabVIEW 8.6下載
未知 | 65991次下載 | 10 積分

<bdo id="levp2"><span id="levp2"><meter id="levp2"></meter></span></bdo>

<bdo id="levp2"><span id="levp2"><meter id="levp2"></meter></span></bdo>