欧美日韩综合福利,亚洲熟妇Av网综合5月

繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會認可后，后摩智能再傳捷報——4篇論文成功入選國際頂級人工智能會議ICLR 2026（International Conference on Learning Representations），聚焦大模型低秩壓縮、非線性算子高效近似、矢量量化以及MOE專項量化等端側(cè)部署關(guān)鍵技術(shù)，提出多項創(chuàng)新性解決方案，進一步夯實后摩智能在端側(cè)AI芯片與算法融合領(lǐng)域的技術(shù)壁壘，助力大模型在資源受限設(shè)備上實現(xiàn)高精度、高效率落地。

01【ICLR-2026】NLI：非均勻線性插值LUT

后摩智能芯片算法團隊和東南大學(xué)聯(lián)合提出非均勻線性插值方法NLI（Non-Uniform Interpolation LUT），并設(shè)計配套的NLI Engine硬件模塊，攻克了大語言模型中非線性算子（如EXP、Rsqrt）在端側(cè)部署時“精度與效率不可兼得”的難題，通過動態(tài)規(guī)劃優(yōu)化插值節(jié)點布局，實現(xiàn)非線性函數(shù)的高效近似，大幅降低硬件資源開銷，適配各類端側(cè)NPU平臺。相關(guān)研究成果已應(yīng)用于后摩智能端側(cè)AI芯片的非線性計算單元設(shè)計。

非線性算子是LLMs推理過程中的核心組件，直接影響模型精度，但這類算子計算復(fù)雜，在端側(cè)資源受限設(shè)備上難以高效部署。現(xiàn)有解決方案主要分為兩類：一是基于神經(jīng)網(wǎng)絡(luò)的LUT擬合（如NN-LUT），但泛化能力差，易出現(xiàn)精度驟降；二是均勻插值LUT方法，無法適配非線性函數(shù)的曲率差異，高曲率區(qū)域誤差過大，且硬件實現(xiàn)需大量比較器，資源開銷高。這些問題嚴重制約了LLMs在端側(cè)的實時推理性能。

NLI以“數(shù)據(jù)無關(guān)、全局最優(yōu)、硬件友好”為核心目標，通過兩大核心創(chuàng)新實現(xiàn)突破，同時配套硬件模塊優(yōu)化，形成“算法-硬件”協(xié)同解決方案：

核心創(chuàng)新一：動態(tài)規(guī)劃非均勻節(jié)點布局（DP-based Non-Uniform Cutpoint Placement）。將插值節(jié)點（cutpoints）選擇問題轉(zhuǎn)化為動態(tài)規(guī)劃問題，在固定節(jié)點預(yù)算下，基于FP16數(shù)值范圍的曲率特征，全局優(yōu)化節(jié)點分布，在高曲率區(qū)域密集布局節(jié)點，低曲率區(qū)域精簡節(jié)點，既保證近似精度，又減少節(jié)點數(shù)量，避免資源浪費；同時無需數(shù)據(jù)校準，適配各類非線性算子，泛化能力極強。

核心創(chuàng)新二：兩級地址翻譯計算策略（Two-Level Address Translation）。設(shè)計“宏區(qū)間-微區(qū)間”兩級布局，將全局節(jié)點劃分為10個宏區(qū)間，中間8個宏區(qū)間再細分為32個微區(qū)間，僅需10個比較器即可完成地址定位，相比傳統(tǒng)均勻插值方法（需259個比較器），大幅降低硬件開銷；同時預(yù)計算插值系數(shù)，通過簡單乘加運算完成線性插值，兼顧效率與精度。

核心創(chuàng)新三：NLI Engine硬件模塊。NLI Engine采用四級流水線設(shè)計，適配1GHz時鐘頻率，集成LUT存儲、兩級地址翻譯、線性插值計算等功能，可直接作為 plug-and-play 模塊集成到端側(cè)NPU中。實驗表明，NLI在各項指標上全面超越現(xiàn)有SOTA方法：

軟件層面：在LLaMA3、Qwen2.5等系列大模型上，替換非線性算子后，零樣本精度、困惑度（PPL）與FP32浮點模型基本一致，最壞-case誤差低于1.2×10?3，超越NN-LUT等方法；硬件層面：NLI Engine相比NN-LUT、RI-LUT硬件模塊，面積分別節(jié)省68%、69%，功耗降低26%、29%，效率提升4.02×、4.29×，且吞吐量保持1GHz，完美適配端側(cè)資源受限場景，為LLMs端側(cè)實時推理提供核心計算支撐。

文章鏈接：https://arxiv.org/abs/2602.02988

02【ICLR-2026】SAES-SVD：自適應(yīng)誤差抑制SVD

后摩智能芯片算法團隊提出自適應(yīng)誤差抑制低秩壓縮框架SAES-SVD（Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression），創(chuàng)新性地將累積誤差補償與自適應(yīng)權(quán)重優(yōu)化融入SVD低秩分解，攻克了傳統(tǒng)低秩壓縮方法中“層間誤差累積、精度持續(xù)下降”的核心痛點，無需微調(diào)或混合秩策略，即可實現(xiàn)大模型高效壓縮與高精度保留，為端側(cè)大模型的參數(shù)壓縮部署提供全新解決方案。

低秩壓縮（基于SVD）是大模型端側(cè)部署的關(guān)鍵技術(shù)之一，具有硬件無關(guān)、兼容性強的優(yōu)勢，已被廣泛應(yīng)用于LLMs壓縮。但現(xiàn)有SVD-based方法（如ASVD、SVD-LLM）均采用“逐層獨立優(yōu)化”策略，僅關(guān)注單一層級的重構(gòu)誤差最小化，忽視了壓縮誤差的層間傳播與累積——上游層的微小重構(gòu)誤差，會隨著網(wǎng)絡(luò)深度增加不斷放大，導(dǎo)致下游層輸入分布偏移，最終使模型輸出與浮點基線偏差顯著，難以滿足端側(cè)部署的精度要求。

SAES-SVD通過兩大核心模塊協(xié)同工作，實現(xiàn)“局部誤差抑制+全局誤差補償”，徹底解決誤差累積問題：

核心模塊一：累積誤差感知層壓縮（CEALC）。打破逐層獨立優(yōu)化的局限，將壓縮目標定義為“局部重構(gòu)誤差+累積誤差補償”的加權(quán)組合，不僅最小化當(dāng)前層的輸出重構(gòu)誤差，還通過對齊當(dāng)前層與浮點模型的輸出，補償上游層傳播的累積誤差；基于二階激活統(tǒng)計量（輸入?yún)f(xié)方差、差分協(xié)方差）推導(dǎo)閉解，無需存儲海量原始激活數(shù)據(jù)，大幅降低內(nèi)存開銷，同時保證優(yōu)化效率。

核心模塊二：自適應(yīng)協(xié)同誤差抑制（ACES）。針對不同層對累積誤差的敏感度差異，引入自適應(yīng)加權(quán)系數(shù)，通過最大化低秩子空間的能量保留率（RER），動態(tài)調(diào)整累積誤差補償?shù)膹姸取獙Ω呙舾卸葘釉鰪娧a償，對低敏感度層精簡資源，確保在固定秩預(yù)算下，保留模型關(guān)鍵信息，提升壓縮效率，避免過度補償導(dǎo)致的資源浪費。

實驗表明，SAES-SVD在各類LLMs上表現(xiàn)優(yōu)異，優(yōu)勢顯著：在LLaMA-3-8B模型上，壓縮比為0.2時，相比傳統(tǒng)SVD-LLM，輸出與浮點模型的余弦相似度從0.79提升至0.95以上，有效抑制誤差累積；在LLaMA-7B模型上，0.2壓縮比下，零樣本精度下降僅0.02，遠低于現(xiàn)有方法。無需任何微調(diào)或混合秩策略，即可實現(xiàn)“高壓縮比、高精度、低開銷”，為端側(cè)大模型低秩壓縮提供全新范式。

文章鏈接：https://arxiv.org/abs/2602.03051

03【ICLR-2026】KBVQ-MoE：面向MoE大模型的KLT引導(dǎo)SVD與偏置校正矢量量化方法

后摩智能芯片算法團隊提出面向混合專家（MoE）大語言模型的矢量量化框架KBVQ-MoE（KLT-guided SVD with Bias-Corrected Vector Quantization for MoE LLMs），創(chuàng)新性地融合KLT變換、SVD低秩分解與偏置校正技術(shù)，專門解決MoE架構(gòu)量化中“專家間冗余浪費碼本、量化誤差累積導(dǎo)致分布偏移”的核心痛點，實現(xiàn)MoE大模型超低比特量化下的高精度保留與高效部署，填補了現(xiàn)有MoE量化方法缺乏輸入驅(qū)動協(xié)同優(yōu)化機制的空白，相關(guān)成果可直接適配端側(cè)資源受限設(shè)備的MoE大模型部署需求。

MoE大模型憑借“專家分工、稀疏激活”的特性，在參數(shù)規(guī)模與推理效率間實現(xiàn)平衡，成為端側(cè)部署的重要選擇，但現(xiàn)有MoE量化方法存在明顯局限：多數(shù)方法未整合輸入激活的統(tǒng)計特征，既無法充分利用專家間共享的輸入相關(guān)共性模式，也未能針對性校正專家量化誤差導(dǎo)致的分布偏移，在高壓縮比場景下難以平衡模型精度與部署效率，無法適配端側(cè)設(shè)備的存儲與計算約束。

KBVQ-MoE以“輸入驅(qū)動去冗余、偏置校正穩(wěn)輸出”為核心，構(gòu)建兩大關(guān)鍵模塊協(xié)同工作的完整框架，形成“預(yù)處理-量化-后處理”的全流程優(yōu)化方案，同時兼顧算法創(chuàng)新性與端側(cè)硬件適配性：

核心模塊一：輸入驅(qū)動冗余消除（IDRE）?；谳斎爰せ畹慕y(tǒng)計特征，通過KLT變換構(gòu)建輸入相干空間，將所有專家的權(quán)重矩陣投影至該空間，實現(xiàn)權(quán)重結(jié)構(gòu)與輸入特征的精準對齊；隨后通過SVD分解提取專家間的共享主導(dǎo)分量并保留全精度，僅對專家專屬的非冗余分量進行量化，大幅降低冗余信息對碼本的占用，提升量化效率。該模塊通過三步實現(xiàn)冗余消除：一是對輸入激活進行KLT分解，構(gòu)建基于輸入能量排序的正交相干基；二是將專家權(quán)重投影至該相干空間，建立權(quán)重與輸入特征的直接關(guān)聯(lián)；三是通過SVD分解分離共享分量與專家專屬分量，共享分量全精度保留，專屬分量用于后續(xù)量化。

核心模塊二：偏置校正輸出穩(wěn)定（BCOS）。針對專家專屬分量量化后產(chǎn)生的累積偏置，設(shè)計通道級仿射補償機制，通過對齊量化輸出與全精度輸出的均值和方差，抑制量化誤差導(dǎo)致的分布偏移，確保模型輸出穩(wěn)定性。具體而言，先對專家專屬分量進行矢量量化，再引入通道級縮放因子與偏置項，基于最小均方誤差（MMSE）準則優(yōu)化參數(shù)，僅增加少量額外參數(shù)（每一層2倍輸出通道數(shù)），即可實現(xiàn)低開銷的偏置校正，避免誤差在專家聚合過程中被放大。

實驗表明，KBVQ-MoE在主流MoE大模型上表現(xiàn)遠超現(xiàn)有SOTA方法，適配端側(cè)超低比特部署場景：在Qwen3-30B-A3B、Mixtral-8x7B等模型上，2-3bit量化時，零樣本平均精度接近FP16全精度，其中Mixtral-8x7B在3bit量化下，WikiText2數(shù)據(jù)集上的困惑度（PPL）低至4.07，與全精度模型僅相差0.19；相比GPTQ、MoEQuant等現(xiàn)有方法，KBVQ-MoE在2bit量化時，Qwen3-30B-A3B的平均精度提升10個百分點以上，困惑度降低近6個點。同時，該框架可作為通用插件，與現(xiàn)有矢量量化方法（如GPTVQ、VPTQ）集成，進一步提升其性能，在Qwen1.5-MoE-A2.7B模型上，與GPTVQ集成后3bit量化的困惑度提升近30%。

在端側(cè)部署適配性上，KBVQ-MoE無需修改MoE模型的專家結(jié)構(gòu)與路由機制，量化后模型推理速度較全精度模型提升1.5-1.6倍，僅增加可忽略的計算與存儲開銷，完美適配后摩智能端側(cè)AI芯片架構(gòu)，可廣泛應(yīng)用于車載、嵌入式、邊緣設(shè)備等資源受限場景，為MoE大模型的端側(cè)規(guī)?；渴鹛峁┖诵募夹g(shù)支撐。

文章鏈接：https://github.com/xuzukang/kbvq_moe/blob/main/VQMoe_iclr2026__camera_ready_.pdf

04【ICLR-2026】PCDVQ：基于極性聚類的矢量量化

后摩智能芯片算法團隊提出極性聚類矢量量化框架PCDVQ（Polar Clustering Vector Quantization），創(chuàng)新性地將極性聚類與矢量量化深度結(jié)合，攻克了大語言模型（LLMs）超低比特量化中碼本利用率低、精度損失顯著的核心痛點，為LLMs在邊緣設(shè)備、嵌入式終端的極致壓縮部署提供了高效解決方案。

隨著LLMs參數(shù)規(guī)模持續(xù)擴大，超低比特（2-bit及以下）量化成為實現(xiàn)端側(cè)部署的關(guān)鍵手段，但傳統(tǒng)矢量量化方法存在兩大核心瓶頸：一是碼本學(xué)習(xí)過程中易出現(xiàn)“碼本崩潰”，部分碼本長期閑置，導(dǎo)致量化精度下降；二是忽視權(quán)重極性特征，將正負權(quán)重混合量化，加劇誤差累積，難以在超低比特場景下保留模型性能。現(xiàn)有方法雖嘗試通過復(fù)雜碼本初始化緩解問題，但仍無法兼顧量化效率與精度，難以適配端側(cè)設(shè)備的資源約束。

PCDVQ以極性聚類為核心創(chuàng)新點，構(gòu)建“極性分離-聚類優(yōu)化-協(xié)同量化”的三級框架，通過三大核心設(shè)計實現(xiàn)突破：

核心設(shè)計一：極性分離編碼（Polar Separation Encoding）。首次將權(quán)重矢量按極性劃分為正、負兩個獨立子集，分別進行量化處理，避免正負權(quán)重混合量化帶來的誤差干擾，同時保留權(quán)重的極性特征，減少對模型損失函數(shù)的影響，為高精度量化奠定基礎(chǔ)。

核心設(shè)計二：動態(tài)極性聚類（Dynamic Polar Clustering）。基于K-means聚類算法優(yōu)化碼本生成，針對正負權(quán)重子集分別學(xué)習(xí)專屬碼本，通過動態(tài)調(diào)整聚類中心，提升碼本利用率，緩解“碼本崩潰”問題；同時結(jié)合率失真理論，在有限比特預(yù)算下實現(xiàn)量化誤差最小化。

核心設(shè)計三：跨極性協(xié)同優(yōu)化（Cross-Polar Cooperative Optimization）。引入?yún)f(xié)同正則化項，聯(lián)合優(yōu)化正負權(quán)重的量化參數(shù)，確保量化后模型的權(quán)重分布與浮點模型保持一致，減少極性分離帶來的性能波動，進一步提升量化精度。

實驗表明，PCDVQ在主流LLMs上表現(xiàn)卓越，全面超越當(dāng)前SOTA方法：在LLaMA-3-70B模型上，2.25-bit量化時，零樣本平均精度達71.98%，接近FP16浮點精度；在LLaMA-3-8B模型上，2.25-bit量化的零樣本平均精度較VPTQ提升1.23%；在Mistral-7B模型上，2-bit量化時的QA平均精度達64.33%，顯著優(yōu)于GPTQ、AQLM等現(xiàn)有方法，真正實現(xiàn)“超低比特、高精度、高效率”的量化目標，為端側(cè)大模型部署提供核心技術(shù)支撐。

文章鏈接：https://arxiv.org/abs/2506.05432

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴