chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型壓縮技術,加速AI大模型在終端側的應用

Carol Li ? 來源:電子發(fā)燒友網 ? 作者:李彎彎 ? 2023-04-24 01:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網報道(文/李彎彎)當前,全球眾多科技企業(yè)都在積極研究AI大模型,然而因為參數(shù)規(guī)模太大,要想實現(xiàn)AI大模型在邊/端側部署,需要用到模型壓縮技術。當前谷歌、微軟、騰訊等廠商在該領域均有布局,加速AI技術與智能終端的融合。

為什么需要模型壓縮技術

模型壓縮是一種縮小訓練后的神經網絡的技術,目的是保證模型預測效果的前提下,盡可能地降低模型的大小。模型壓縮之后,所需要的計算資源變小,有利于在移動端部署。

有一個很形象的例子,深度學習變臉業(yè)務,假設在模型優(yōu)化前,原始模型處理每個視頻要30秒,那么一張GPU卡一分鐘只能處理2個視頻。假設APP的使用峰值是1000人同時使用,那么這家公司至少要有500張GPU卡才能滿足需求。

如果模型壓縮技術能讓模型變小許多,使得每個視頻處理只需要10秒,那么這個客戶可能只需要150張卡就能滿足業(yè)務需求。每年的成本可以從原來的3000萬控制在1000萬左右,省下的2000萬,就是模型壓縮技術的價值。

量化、網絡剪枝和知識蒸餾

模型壓縮的方法主要有量化、網絡剪枝、知識蒸餾。量化的意思是,將浮點計算轉成低比特定點計算,模型由大量的浮點型權重組成,如果能用float32替代原有的float64表示,模型就近乎減小一倍,量化也是最容易實現(xiàn)的一種壓縮方式。

傳統(tǒng)意義上的量化即為將連續(xù)信號轉換為離散信號,在神經網絡的量化中,即將浮點數(shù)float32→int8,int4,int2等,量化其本質就是低精度,常規(guī)精度一般使用FP32存儲模型權重,低精度則表示FP16,或INT8等數(shù)值格式,不過目前低精度往往指的是INT8。

模型壓縮,使得原本只能在云端運行大模型,也能夠部署在終端設備上。比如,近年來很流行的基礎模型 Stable Diffusion ,它是一個非常出色的從文本到圖像的生成式 AI 模型,能夠基于任何文本輸入,在數(shù)十秒內創(chuàng)作出逼真圖像。Stable Diffusion 的參數(shù)超過 10 億,此前主要限于在云端運行。

高通 AI Research 利用高通 AI 軟件棧(Qualcomm AI Stack)執(zhí)行全棧 AI 優(yōu)化,首次實現(xiàn)了在Android智能手機上部署 Stable Diffusion,其中就用到了模型壓縮技術量化的方法。

據介紹,高通的全棧 AI 研究指跨應用、神經網絡模型、算法、軟件和硬件進行優(yōu)化。針對 Stable Diffusion,他們從 Hugging Face 的 FP32 1-5 版本開源模型入手,通過量化、編譯和硬件加速進行優(yōu)化,使其能在搭載第二代驍龍 8 移動平臺的手機上運行。

為了把模型從 FP32 壓縮為 INT8,高通使用了其 AI 模型增效工具包 (AIMET) 的訓練后量化。自適應舍入 (AdaRound) 等先進的高通 AIMET 量化技術能夠在更低精度水平保持模型準確性,無需進行重新訓練。

這些技術能夠應用于構成 Stable Diffusion 的所有組件模型,即基于 Transformer 的文本編碼器、VAE 解碼器和 UNet。這對于讓模型適合于在終端上運行至關重要。

網絡剪枝,是指除神經網絡中冗余的通道、神經元節(jié)點等。深度學習模型可以看作是一個復雜樹狀結構,如果能減去一些對結果沒什么影響的旁枝,就可以實現(xiàn)模型的減小。

模型的構成是由許多浮點型的神經元相連接,每一層根據神經元的權重將信息向下傳遞。但是有一些神經元的權重非常小,這類神經元對整個模型加載的信息影響微乎其微。如果可以把這些權重較小的神經元刪減掉,既減少了模型大小,也不會對模型的效果帶來大的影響。

每一層把數(shù)值小的神經元去掉,但是剪枝粒度維持到多大也是有講究的,比如可以把每層最小的5個減掉,也可能只剪3個,或者每層有每層不同的策略。剪多了,模型精度影響會比較大,剪少了沒有效果。所以這里面需要大量的嘗試和迭代。

知識蒸餾,是指將大模型作為教師模型,用其輸出訓練性能接近、結構更簡的學生模型。一般而言,大模型往往是單個復雜網絡或者是若干網絡的集合,擁有良好的性能和泛化能力,而小模型因為網絡規(guī)模較小,表達能力有限。

因此,可以利用大模型學習到的知識去指導小模型訓練,使得小模型具有與大模型相當?shù)男阅?,但是參?shù)數(shù)量大幅降低,從而實現(xiàn)模型壓縮。

小結

當下,AI大模型發(fā)展如火如荼,然而因為參數(shù)規(guī)模太大,不僅僅是訓練,大模型的部署推理,也需要倚賴豐富的計算資源。如果想要大模型能夠在邊/終端側實現(xiàn)部署,這其中就需要用到模型壓縮技術,如高通使用量化的方法,讓Stable Diffusion能夠在手機上運行。




聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    40908

    瀏覽量

    302489
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI模型微調企業(yè)項目實戰(zhàn)課

    自主可控大模型:企業(yè)微調實戰(zhàn)課,筑牢未來 AI 底座 人工智能席卷全球商業(yè)版圖的今天,企業(yè)對大模型(LLM)的態(tài)度已經從“新奇觀望”轉變?yōu)椤叭鎿肀А薄H欢?,隨著應用層面的不斷深入
    發(fā)表于 04-16 18:48

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成 nRF54LM20B 等高端 SoC 中的專用 AI 加速器,對 TensorFlow Lite
    發(fā)表于 01-31 23:16

    利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據生成。借助 NVIDIA Omniverse 庫和 Co
    的頭像 發(fā)表于 12-01 09:25 ?1374次閱讀

    如何利用NPU與模型壓縮技術優(yōu)化邊緣AI

    AI 模型體積龐大,部署 NPU上常常面臨困難,這凸顯了模型壓縮技術的重要性。要實現(xiàn)高效的實
    的頭像 發(fā)表于 11-07 15:26 ?1389次閱讀
    如何利用NPU與<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b><b class='flag-5'>技術</b>優(yōu)化邊緣<b class='flag-5'>AI</b>

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    廣和通發(fā)布端情感對話大模型FiboEmo-LLM

    9月,廣和通正式發(fā)布自主研發(fā)的端情感對話大模型FiboEmo-LLM。該模型專注于情感計算與自然語言交互融合,致力于為AI玩具、智能陪伴設備等終端
    的頭像 發(fā)表于 09-26 13:37 ?2005次閱讀

    此芯科技發(fā)布“合一”AI加速計劃,賦能邊緣與端AI創(chuàng)新

    產品組合,覆蓋從1.5B至32B參數(shù)規(guī)模的端AI模型推理需求,滿足工業(yè)、消費電子、智能終端等多樣化場景的部署需求,推動AI
    的頭像 發(fā)表于 09-15 11:53 ?2011次閱讀
    此芯科技發(fā)布“合一”<b class='flag-5'>AI</b><b class='flag-5'>加速</b>計劃,賦能邊緣與端<b class='flag-5'>側</b><b class='flag-5'>AI</b>創(chuàng)新

    當主控SoC遇上AI模型,物奇智能藍牙芯片驅動端AI新場景

    隨著大模型等人工智能技術的飛速發(fā)展,終端AI作為大模型部署前沿,正引領交互形態(tài)從單一語言向多模態(tài)交互演進,催生出眾多創(chuàng)新場景。在這場新
    的頭像 發(fā)表于 08-27 11:29 ?1.5w次閱讀
    當主控SoC遇上<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,物奇智能藍牙芯片驅動端<b class='flag-5'>側</b><b class='flag-5'>AI</b>新場景

    華為CANN與智譜GLM端模型完成適配

    已于7月28日正式開源其新一代基座模型GLM-4.5,其GLM端模型已完成與CANN的適配。這標志著國產大模型與計算架構端云協(xié)同方向實現(xiàn)
    的頭像 發(fā)表于 08-11 11:00 ?2735次閱讀

    廣和通發(fā)布自研端語音識別大模型FiboASR

    7月,全球領先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別大模型FiboASR。該模型專為端設備上面臨的面對面實時對話及多人會議場景深度優(yōu)化,
    的頭像 發(fā)表于 08-04 11:43 ?1737次閱讀

    Cognizant加速AI模型企業(yè)級開發(fā)

    -Cognizant推出AI Training Data Services,助力企業(yè)級AI模型加速開發(fā) Cognizant是數(shù)據與AI
    的頭像 發(fā)表于 07-31 17:25 ?796次閱讀

    AI模型加速上車,聯(lián)手高通,阿里有哪些策略?

    (電子發(fā)燒友網報道 文/章鷹)2025年6月26日至27日,“2025高通汽車技術與合作峰會”蘇州舉行,阿里云副總裁徐棟帶來通義大模型發(fā)展方向的最新思考,以及汽車領域的端云
    的頭像 發(fā)表于 07-03 01:10 ?9253次閱讀
    <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b>上車,聯(lián)手高通,阿里有哪些策略?

    LLaVA、RWKV、Qwen3... 移遠端AI模型解決方案實現(xiàn)多維度躍遷

    AI以破竹之勢席卷千行百業(yè),大模型技術正以驚人的速度迭代演進,重塑著智能世界的底層邏輯。作為全球AIoT行業(yè)的引領者,移遠通信通過持續(xù)迭代和探索,
    的頭像 發(fā)表于 06-23 19:07 ?1044次閱讀
    LLaVA、RWKV、Qwen3... 移遠端<b class='flag-5'>側</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>解決方案實現(xiàn)多維度躍遷