繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會認可后,后摩智能再傳捷報——4篇論文成功入選國際頂級人工智能會議ICLR 2026(International Conference on Learning Representations),聚焦大模型低秩壓縮、非線性算子高效近似、矢量量化以及MOE專項量化等端側(cè)部署關(guān)鍵技術(shù),提出多項創(chuàng)新性解決方案,進一步夯實后摩智能在端側(cè)AI芯片與算法融合領(lǐng)域的技術(shù)壁壘,助力大模型在資源受限設(shè)備上實現(xiàn)高精度、高效率落地。
01【ICLR-2026】NLI:非均勻線性插值LUT
后摩智能芯片算法團隊和東南大學(xué)聯(lián)合提出非均勻線性插值方法NLI(Non-Uniform Interpolation LUT),并設(shè)計配套的NLI Engine硬件模塊,攻克了大語言模型中非線性算子(如EXP、Rsqrt)在端側(cè)部署時“精度與效率不可兼得”的難題,通過動態(tài)規(guī)劃優(yōu)化插值節(jié)點布局,實現(xiàn)非線性函數(shù)的高效近似,大幅降低硬件資源開銷,適配各類端側(cè)NPU平臺。相關(guān)研究成果已應(yīng)用于后摩智能端側(cè)AI芯片的非線性計算單元設(shè)計。
非線性算子是LLMs推理過程中的核心組件,直接影響模型精度,但這類算子計算復(fù)雜,在端側(cè)資源受限設(shè)備上難以高效部署。現(xiàn)有解決方案主要分為兩類:一是基于神經(jīng)網(wǎng)絡(luò)的LUT擬合(如NN-LUT),但泛化能力差,易出現(xiàn)精度驟降;二是均勻插值LUT方法,無法適配非線性函數(shù)的曲率差異,高曲率區(qū)域誤差過大,且硬件實現(xiàn)需大量比較器,資源開銷高。這些問題嚴重制約了LLMs在端側(cè)的實時推理性能。
NLI以“數(shù)據(jù)無關(guān)、全局最優(yōu)、硬件友好”為核心目標,通過兩大核心創(chuàng)新實現(xiàn)突破,同時配套硬件模塊優(yōu)化,形成“算法-硬件”協(xié)同解決方案:
核心創(chuàng)新一:動態(tài)規(guī)劃非均勻節(jié)點布局(DP-based Non-Uniform Cutpoint Placement)。將插值節(jié)點(cutpoints)選擇問題轉(zhuǎn)化為動態(tài)規(guī)劃問題,在固定節(jié)點預(yù)算下,基于FP16數(shù)值范圍的曲率特征,全局優(yōu)化節(jié)點分布,在高曲率區(qū)域密集布局節(jié)點,低曲率區(qū)域精簡節(jié)點,既保證近似精度,又減少節(jié)點數(shù)量,避免資源浪費;同時無需數(shù)據(jù)校準,適配各類非線性算子,泛化能力極強。
核心創(chuàng)新二:兩級地址翻譯計算策略(Two-Level Address Translation)。設(shè)計“宏區(qū)間-微區(qū)間”兩級布局,將全局節(jié)點劃分為10個宏區(qū)間,中間8個宏區(qū)間再細分為32個微區(qū)間,僅需10個比較器即可完成地址定位,相比傳統(tǒng)均勻插值方法(需259個比較器),大幅降低硬件開銷;同時預(yù)計算插值系數(shù),通過簡單乘加運算完成線性插值,兼顧效率與精度。
核心創(chuàng)新三:NLI Engine硬件模塊。NLI Engine采用四級流水線設(shè)計,適配1GHz時鐘頻率,集成LUT存儲、兩級地址翻譯、線性插值計算等功能,可直接作為 plug-and-play 模塊集成到端側(cè)NPU中。實驗表明,NLI在各項指標上全面超越現(xiàn)有SOTA方法:
軟件層面:在LLaMA3、Qwen2.5等系列大模型上,替換非線性算子后,零樣本精度、困惑度(PPL)與FP32浮點模型基本一致,最壞-case誤差低于1.2×10?3,超越NN-LUT等方法;硬件層面:NLI Engine相比NN-LUT、RI-LUT硬件模塊,面積分別節(jié)省68%、69%,功耗降低26%、29%,效率提升4.02×、4.29×,且吞吐量保持1GHz,完美適配端側(cè)資源受限場景,為LLMs端側(cè)實時推理提供核心計算支撐。
文章鏈接:https://arxiv.org/abs/2602.02988
02【ICLR-2026】SAES-SVD:自適應(yīng)誤差抑制SVD
后摩智能芯片算法團隊提出自適應(yīng)誤差抑制低秩壓縮框架SAES-SVD(Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression),創(chuàng)新性地將累積誤差補償與自適應(yīng)權(quán)重優(yōu)化融入SVD低秩分解,攻克了傳統(tǒng)低秩壓縮方法中“層間誤差累積、精度持續(xù)下降”的核心痛點,無需微調(diào)或混合秩策略,即可實現(xiàn)大模型高效壓縮與高精度保留,為端側(cè)大模型的參數(shù)壓縮部署提供全新解決方案。
低秩壓縮(基于SVD)是大模型端側(cè)部署的關(guān)鍵技術(shù)之一,具有硬件無關(guān)、兼容性強的優(yōu)勢,已被廣泛應(yīng)用于LLMs壓縮。但現(xiàn)有SVD-based方法(如ASVD、SVD-LLM)均采用“逐層獨立優(yōu)化”策略,僅關(guān)注單一層級的重構(gòu)誤差最小化,忽視了壓縮誤差的層間傳播與累積——上游層的微小重構(gòu)誤差,會隨著網(wǎng)絡(luò)深度增加不斷放大,導(dǎo)致下游層輸入分布偏移,最終使模型輸出與浮點基線偏差顯著,難以滿足端側(cè)部署的精度要求。
SAES-SVD通過兩大核心模塊協(xié)同工作,實現(xiàn)“局部誤差抑制+全局誤差補償”,徹底解決誤差累積問題:
核心模塊一:累積誤差感知層壓縮(CEALC)。打破逐層獨立優(yōu)化的局限,將壓縮目標定義為“局部重構(gòu)誤差+累積誤差補償”的加權(quán)組合,不僅最小化當(dāng)前層的輸出重構(gòu)誤差,還通過對齊當(dāng)前層與浮點模型的輸出,補償上游層傳播的累積誤差;基于二階激活統(tǒng)計量(輸入?yún)f(xié)方差、差分協(xié)方差)推導(dǎo)閉解,無需存儲海量原始激活數(shù)據(jù),大幅降低內(nèi)存開銷,同時保證優(yōu)化效率。
核心模塊二:自適應(yīng)協(xié)同誤差抑制(ACES)。針對不同層對累積誤差的敏感度差異,引入自適應(yīng)加權(quán)系數(shù),通過最大化低秩子空間的能量保留率(RER),動態(tài)調(diào)整累積誤差補償?shù)膹姸取獙Ω呙舾卸葘釉鰪娧a償,對低敏感度層精簡資源,確保在固定秩預(yù)算下,保留模型關(guān)鍵信息,提升壓縮效率,避免過度補償導(dǎo)致的資源浪費。
實驗表明,SAES-SVD在各類LLMs上表現(xiàn)優(yōu)異,優(yōu)勢顯著:在LLaMA-3-8B模型上,壓縮比為0.2時,相比傳統(tǒng)SVD-LLM,輸出與浮點模型的余弦相似度從0.79提升至0.95以上,有效抑制誤差累積;在LLaMA-7B模型上,0.2壓縮比下,零樣本精度下降僅0.02,遠低于現(xiàn)有方法。無需任何微調(diào)或混合秩策略,即可實現(xiàn)“高壓縮比、高精度、低開銷”,為端側(cè)大模型低秩壓縮提供全新范式。
文章鏈接:https://arxiv.org/abs/2602.03051
03【ICLR-2026】KBVQ-MoE:面向MoE大模型的KLT引導(dǎo)SVD與偏置校正矢量量化方法
后摩智能芯片算法團隊提出面向混合專家(MoE)大語言模型的矢量量化框架KBVQ-MoE(KLT-guided SVD with Bias-Corrected Vector Quantization for MoE LLMs),創(chuàng)新性地融合KLT變換、SVD低秩分解與偏置校正技術(shù),專門解決MoE架構(gòu)量化中“專家間冗余浪費碼本、量化誤差累積導(dǎo)致分布偏移”的核心痛點,實現(xiàn)MoE大模型超低比特量化下的高精度保留與高效部署,填補了現(xiàn)有MoE量化方法缺乏輸入驅(qū)動協(xié)同優(yōu)化機制的空白,相關(guān)成果可直接適配端側(cè)資源受限設(shè)備的MoE大模型部署需求。
MoE大模型憑借“專家分工、稀疏激活”的特性,在參數(shù)規(guī)模與推理效率間實現(xiàn)平衡,成為端側(cè)部署的重要選擇,但現(xiàn)有MoE量化方法存在明顯局限:多數(shù)方法未整合輸入激活的統(tǒng)計特征,既無法充分利用專家間共享的輸入相關(guān)共性模式,也未能針對性校正專家量化誤差導(dǎo)致的分布偏移,在高壓縮比場景下難以平衡模型精度與部署效率,無法適配端側(cè)設(shè)備的存儲與計算約束。
KBVQ-MoE以“輸入驅(qū)動去冗余、偏置校正穩(wěn)輸出”為核心,構(gòu)建兩大關(guān)鍵模塊協(xié)同工作的完整框架,形成“預(yù)處理-量化-后處理”的全流程優(yōu)化方案,同時兼顧算法創(chuàng)新性與端側(cè)硬件適配性:
核心模塊一:輸入驅(qū)動冗余消除(IDRE)?;谳斎爰せ畹慕y(tǒng)計特征,通過KLT變換構(gòu)建輸入相干空間,將所有專家的權(quán)重矩陣投影至該空間,實現(xiàn)權(quán)重結(jié)構(gòu)與輸入特征的精準對齊;隨后通過SVD分解提取專家間的共享主導(dǎo)分量并保留全精度,僅對專家專屬的非冗余分量進行量化,大幅降低冗余信息對碼本的占用,提升量化效率。該模塊通過三步實現(xiàn)冗余消除:一是對輸入激活進行KLT分解,構(gòu)建基于輸入能量排序的正交相干基;二是將專家權(quán)重投影至該相干空間,建立權(quán)重與輸入特征的直接關(guān)聯(lián);三是通過SVD分解分離共享分量與專家專屬分量,共享分量全精度保留,專屬分量用于后續(xù)量化。
核心模塊二:偏置校正輸出穩(wěn)定(BCOS)。針對專家專屬分量量化后產(chǎn)生的累積偏置,設(shè)計通道級仿射補償機制,通過對齊量化輸出與全精度輸出的均值和方差,抑制量化誤差導(dǎo)致的分布偏移,確保模型輸出穩(wěn)定性。具體而言,先對專家專屬分量進行矢量量化,再引入通道級縮放因子與偏置項,基于最小均方誤差(MMSE)準則優(yōu)化參數(shù),僅增加少量額外參數(shù)(每一層2倍輸出通道數(shù)),即可實現(xiàn)低開銷的偏置校正,避免誤差在專家聚合過程中被放大。
實驗表明,KBVQ-MoE在主流MoE大模型上表現(xiàn)遠超現(xiàn)有SOTA方法,適配端側(cè)超低比特部署場景:在Qwen3-30B-A3B、Mixtral-8x7B等模型上,2-3bit量化時,零樣本平均精度接近FP16全精度,其中Mixtral-8x7B在3bit量化下,WikiText2數(shù)據(jù)集上的困惑度(PPL)低至4.07,與全精度模型僅相差0.19;相比GPTQ、MoEQuant等現(xiàn)有方法,KBVQ-MoE在2bit量化時,Qwen3-30B-A3B的平均精度提升10個百分點以上,困惑度降低近6個點。同時,該框架可作為通用插件,與現(xiàn)有矢量量化方法(如GPTVQ、VPTQ)集成,進一步提升其性能,在Qwen1.5-MoE-A2.7B模型上,與GPTVQ集成后3bit量化的困惑度提升近30%。
在端側(cè)部署適配性上,KBVQ-MoE無需修改MoE模型的專家結(jié)構(gòu)與路由機制,量化后模型推理速度較全精度模型提升1.5-1.6倍,僅增加可忽略的計算與存儲開銷,完美適配后摩智能端側(cè)AI芯片架構(gòu),可廣泛應(yīng)用于車載、嵌入式、邊緣設(shè)備等資源受限場景,為MoE大模型的端側(cè)規(guī)?;渴鹛峁┖诵募夹g(shù)支撐。
文章鏈接:https://github.com/xuzukang/kbvq_moe/blob/main/VQMoe_iclr2026__camera_ready_.pdf
04【ICLR-2026】PCDVQ:基于極性聚類的矢量量化
后摩智能芯片算法團隊提出極性聚類矢量量化框架PCDVQ(Polar Clustering Vector Quantization),創(chuàng)新性地將極性聚類與矢量量化深度結(jié)合,攻克了大語言模型(LLMs)超低比特量化中碼本利用率低、精度損失顯著的核心痛點,為LLMs在邊緣設(shè)備、嵌入式終端的極致壓縮部署提供了高效解決方案。
隨著LLMs參數(shù)規(guī)模持續(xù)擴大,超低比特(2-bit及以下)量化成為實現(xiàn)端側(cè)部署的關(guān)鍵手段,但傳統(tǒng)矢量量化方法存在兩大核心瓶頸:一是碼本學(xué)習(xí)過程中易出現(xiàn)“碼本崩潰”,部分碼本長期閑置,導(dǎo)致量化精度下降;二是忽視權(quán)重極性特征,將正負權(quán)重混合量化,加劇誤差累積,難以在超低比特場景下保留模型性能。現(xiàn)有方法雖嘗試通過復(fù)雜碼本初始化緩解問題,但仍無法兼顧量化效率與精度,難以適配端側(cè)設(shè)備的資源約束。
PCDVQ以極性聚類為核心創(chuàng)新點,構(gòu)建“極性分離-聚類優(yōu)化-協(xié)同量化”的三級框架,通過三大核心設(shè)計實現(xiàn)突破:
核心設(shè)計一:極性分離編碼(Polar Separation Encoding)。首次將權(quán)重矢量按極性劃分為正、負兩個獨立子集,分別進行量化處理,避免正負權(quán)重混合量化帶來的誤差干擾,同時保留權(quán)重的極性特征,減少對模型損失函數(shù)的影響,為高精度量化奠定基礎(chǔ)。
核心設(shè)計二:動態(tài)極性聚類(Dynamic Polar Clustering)。基于K-means聚類算法優(yōu)化碼本生成,針對正負權(quán)重子集分別學(xué)習(xí)專屬碼本,通過動態(tài)調(diào)整聚類中心,提升碼本利用率,緩解“碼本崩潰”問題;同時結(jié)合率失真理論,在有限比特預(yù)算下實現(xiàn)量化誤差最小化。
核心設(shè)計三:跨極性協(xié)同優(yōu)化(Cross-Polar Cooperative Optimization)。引入?yún)f(xié)同正則化項,聯(lián)合優(yōu)化正負權(quán)重的量化參數(shù),確保量化后模型的權(quán)重分布與浮點模型保持一致,減少極性分離帶來的性能波動,進一步提升量化精度。
實驗表明,PCDVQ在主流LLMs上表現(xiàn)卓越,全面超越當(dāng)前SOTA方法:在LLaMA-3-70B模型上,2.25-bit量化時,零樣本平均精度達71.98%,接近FP16浮點精度;在LLaMA-3-8B模型上,2.25-bit量化的零樣本平均精度較VPTQ提升1.23%;在Mistral-7B模型上,2-bit量化時的QA平均精度達64.33%,顯著優(yōu)于GPTQ、AQLM等現(xiàn)有方法,真正實現(xiàn)“超低比特、高精度、高效率”的量化目標,為端側(cè)大模型部署提供核心技術(shù)支撐。
文章鏈接:https://arxiv.org/abs/2506.05432
-
人工智能
+關(guān)注
關(guān)注
1819文章
50284瀏覽量
266784 -
后摩智能
+關(guān)注
關(guān)注
0文章
53瀏覽量
1745 -
大模型
+關(guān)注
關(guān)注
2文章
3746瀏覽量
5266
原文標題:后摩前沿丨后摩智能4篇論文入選人工智能頂會ICLR 2026,持續(xù)突破大模型端側(cè)部署核心技術(shù)瓶頸
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
烽火通信AI大模型項目入選2026年湖北省人工智能典型應(yīng)用場景
奕行智能論文入選國際計算機體系結(jié)構(gòu)頂級會議 ISCA 2026
后摩智能全國總部正式落地北京經(jīng)開區(qū)
地平線11篇論文強勢入選CVPR 2026
西井科技攜手同濟大學(xué) 三篇AI研究成果入選頂會ICLR 2026
后摩智能斬獲多項人工智能行業(yè)大獎
小鵬汽車與北京大學(xué)研究論文成功入選AAAI 2026
維智科技入選2025中國科創(chuàng)好公司人工智能榜單
MediaTek多篇論文入選全球前沿國際學(xué)術(shù)會議
理想汽車12篇論文入選全球五大AI頂會
后摩智能4篇論文入選人工智能頂會ICLR 2026
評論