chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

卷積神經(jīng)網(wǎng)絡(luò)能用INT4為啥要用INT8?

YCqV_FPGA_EETre ? 來源:FPGA開發(fā)圈 ? 2020-09-03 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1

性能挑戰(zhàn)

企業(yè)日益重視基于 AI 的系統(tǒng)在數(shù)據(jù)中心、汽車、工業(yè)和醫(yī)療等領(lǐng)域中的產(chǎn)品化。

這帶來了兩大挑戰(zhàn):

AI 推斷需要完成的計(jì)算量成數(shù)量級增加,同時還要保持價格、功耗、時延和尺寸大小不變。 AI 科學(xué)家繼續(xù)日復(fù)一日地在算法和模型上開展創(chuàng)新,需要各種不同的硬件架構(gòu)提供最佳性能。

2

方案概述

對于 AI 推斷,在提供與浮點(diǎn)媲美的精度的同時,int8 的性能優(yōu)于浮點(diǎn)。然而在資源有限的前提下,int8 不能滿足性能要求,int4 優(yōu)化是解決之道。通過 int4 優(yōu)化,與現(xiàn)有的 int8 解決方案相比,賽靈思在實(shí)際硬件上可實(shí)現(xiàn)高達(dá) 77% 的性能提升。賽靈思4 位激活和 4 位權(quán)重 (4A4W) 全流程硬件友好型量化解決方案可實(shí)現(xiàn)更優(yōu)異的精度/資源權(quán)衡取舍。

該白皮書介紹了在Zynq UltraScale+ MPSoC 和 Zynq-7000 SoC 系列(16nm和28nm)上面向CNN4位XDPU實(shí)現(xiàn)的低精度加速器。這種加速器通過高效地映射卷積計(jì)算,充分發(fā)揮其DSP功能。這種解決方案可提供優(yōu)于XDPU兩倍的解決方案級性能。在ADAS系統(tǒng)中執(zhí)行2D檢測任務(wù)時,這種實(shí)現(xiàn)方案能在ZynqUltraScale+MPSoCZCU102板上實(shí)現(xiàn)230fps的推斷速度,與8位XDPU相比性能提高1.52倍。

此外,在用于ADAS系統(tǒng)中的不同任務(wù)時,該解決方案可實(shí)現(xiàn)媲美全精度模型的結(jié)果。

3

技術(shù)導(dǎo)讀

對持續(xù)創(chuàng)新的強(qiáng)烈需求需要使用靈活應(yīng)變的領(lǐng)域?qū)S眉軜?gòu) (DSA)。優(yōu)化 AI 推斷性能和降低功耗的主要趨勢之一是使用較低精度和混合精度。為降低硬件設(shè)計(jì)復(fù)雜性,模型量化被當(dāng)作關(guān)鍵技術(shù)應(yīng)用于各類硬件平臺。大量工作被投入用于最大限度地降低 CNN 運(yùn)算量和存儲成本。這項(xiàng)研究充分地證明,對于大多數(shù)計(jì)算機(jī)視覺任務(wù),在不嚴(yán)重犧牲精度的情況下,權(quán)重和激活可以用 int8 表達(dá)。

然而對于某些邊緣應(yīng)用而言,硬件資源仍然不足。在對邊緣應(yīng)用使用較低的位寬(如 1 位、2 位)時,一些常見的硬件設(shè)計(jì)解決方案使用簡化的乘法器。盡管這些解決方案時延低、吞吐量大,但它們與全精度模型相比,仍然存在較大的精度差距。因此,在模型精度和硬件性能之間尋求平衡變得至關(guān)重要。

賽靈思運(yùn)用幾種常見的網(wǎng)絡(luò)結(jié)構(gòu)(ResNet50V1、ResNet50V2 、MobilenetV1和MobilenetV2),在 ImageNet 分類任務(wù)上通過使用幾種不同的量化算法進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示精度隨著位寬減少而下降。尤其是在位寬低于 4 時精度下降顯著。此外,賽靈思也使用 Williams 等介紹的 Roofline 模型,分析不同位寬下的硬件性能。

在ZCU102上以不同位寬運(yùn)行Roofline模型

如圖 1 所示,以賽靈思 ZCU102 評估板為例,隨著 MAC 的精度降低,硬件成本降低,性能得到提高。此外,實(shí)驗(yàn)結(jié)果還顯示,低比特量化可通過降低存儲器需求提高性能。這在 ResNet-50 神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算強(qiáng)度上得到證實(shí)。該網(wǎng)絡(luò)分別用 8 位精度和 4 位精度進(jìn)行了運(yùn)算。因此,int4 在模型精度和硬件性能之間實(shí)現(xiàn)了最佳權(quán)衡。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4830

    瀏覽量

    106935
  • AI
    AI
    +關(guān)注

    關(guān)注

    90

    文章

    38373

    瀏覽量

    297538
  • adas
    +關(guān)注

    關(guān)注

    311

    文章

    2303

    瀏覽量

    211588

原文標(biāo)題:卷積神經(jīng)網(wǎng)絡(luò)能用 INT4 為啥要用 INT8 ?- 最新白皮書下載

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)是個啥?

    在自動駕駛領(lǐng)域,經(jīng)常會聽到卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò),簡稱為CNN,是一種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學(xué)習(xí)模型。CNN在圖像處理中尤其常見,因?yàn)閳D像本身就可以看作是由像
    的頭像 發(fā)表于 11-19 18:15 ?1884次閱讀
    自動駕駛中常提的<b class='flag-5'>卷積</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是個啥?

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)原理及在MCU200T上仿真測試

    數(shù)的提出很大程度的解決了BP算法在優(yōu)化深層神經(jīng)網(wǎng)絡(luò)時的梯度耗散問題。當(dāng)x&gt;0 時,梯度恒為1,無梯度耗散問題,收斂快;當(dāng)x&lt;0 時,該層的輸出為0。 CNN
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    :   神經(jīng)網(wǎng)絡(luò)卷積函數(shù)   神經(jīng)網(wǎng)絡(luò)激活函數(shù)   全連接層函數(shù)   神經(jīng)網(wǎng)絡(luò)池化函數(shù)   Softmax 函數(shù)   神經(jīng)網(wǎng)絡(luò)支持功能
    發(fā)表于 10-29 06:08

    從零開始利用NMSIS庫搭建神經(jīng)網(wǎng)絡(luò)(一)

    環(huán)境:Vivado2021.1、NucleiStudio_IDE_202102-win64 內(nèi)容:從零開始利用NMSIS庫搭建神經(jīng)網(wǎng)絡(luò),這一節(jié)主講基本的NMSIS庫卷積函數(shù)的解讀。 一、自測檢查
    發(fā)表于 10-24 13:47

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型 model = models.Sequential()model.add(layers.Conv2D(input_shape=(28, 28, 1), filters=4
    發(fā)表于 10-22 07:03

    小白必讀:到底什么是FP32、FP16、INT8

    網(wǎng)上關(guān)于算力的文章,如果提到某個芯片或某個智算中心的算力,都會寫:在FP32精度下,英偉達(dá)H100的算力大約為0.9PFlops。在FP16精度下,某智算中心的算力是6.7EFlops。在INT8
    的頭像 發(fā)表于 10-20 14:34 ?748次閱讀
    小白必讀:到底什么是FP32、FP16、<b class='flag-5'>INT8</b>?

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    讀取。接下來需要使用擴(kuò)展指令,完成神經(jīng)網(wǎng)絡(luò)的部署,此處僅對第一層卷積+池化的部署進(jìn)行說明,其余層與之類似。 1.使用 Custom_Dtrans 指令,將權(quán)重?cái)?shù)據(jù)、輸入數(shù)據(jù)導(dǎo)入硬件加速器內(nèi)。對于權(quán)重
    發(fā)表于 10-20 08:00

    計(jì)算精度對比:FP64、FP32、FP16、TF32、BF16、int8

    、BF16、int8以及混合精度等。本文將淺顯易懂地介紹這些精度計(jì)算方式及其差別。什么是精度?精度,是數(shù)據(jù)表示的一個重要參數(shù),它決定了數(shù)據(jù)的準(zhǔn)確性。在計(jì)算機(jī)科學(xué)中,精
    的頭像 發(fā)表于 06-26 11:09 ?2216次閱讀
    計(jì)算精度對比:FP64、FP32、FP16、TF32、BF16、<b class='flag-5'>int8</b>

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進(jìn)行推理時出現(xiàn)“從 __Int64 轉(zhuǎn)換為無符號 int 的錯誤”,怎么解決?

    /Meta-Llama-3.1-8B --weight-format int4 --sym --group-size 128 --ratio 1.0 INT4-llama-3.1-8B 使用 NPU 插件
    發(fā)表于 06-25 07:20

    為什么無法在GPU上使用INT8INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4int8,并在 GPU 上使用 OpenVINO? 運(yùn)行推理。 沒有可用的
    發(fā)表于 06-23 07:11

    i.mx95的EIQ轉(zhuǎn)換器將int8更改為uint8后出現(xiàn)報(bào)錯怎么解決?

    我有一個大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。 我正在運(yùn)行 eIQ 模型工具版本 1.14.0 將模型轉(zhuǎn)換為 i.MX95
    發(fā)表于 04-14 07:15

    在OpenVINO?工具套件的深度學(xué)習(xí)工作臺中無法導(dǎo)出INT8模型怎么解決?

    無法在 OpenVINO? 工具套件的深度學(xué)習(xí) (DL) 工作臺中導(dǎo)出 INT8 模型
    發(fā)表于 03-06 07:54

    是否可以輸入隨機(jī)數(shù)據(jù)集來生成INT8訓(xùn)練后量化模型?

    無法確定是否可以輸入隨機(jī)數(shù)據(jù)集來生成 INT8 訓(xùn)練后量化模型。
    發(fā)表于 03-06 06:45

    BP神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)在多個方面存在顯著差異,以下是對兩者的比較: 一、結(jié)構(gòu)特點(diǎn) BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋
    的頭像 發(fā)表于 02-12 15:53 ?1387次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工神經(jīng)網(wǎng)絡(luò)模型之所
    的頭像 發(fā)表于 01-09 10:24 ?2309次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法