人妻换着玩,福利无码免费午夜在线网址,某医院女厕美女如厕VOD视频

2025年以來，后摩智能在多項(xiàng)前沿研究領(lǐng)域取得突破性進(jìn)展，近期在NeurIPS、ICCV、AAAI、ACMMM四大國際頂會上有 6 篇論文入選。致力于大模型的推理優(yōu)化、微調(diào)、部署等關(guān)鍵技術(shù)難題，為大模型的性能優(yōu)化與跨場景應(yīng)用提供了系統(tǒng)化解決方案。

這四大會議涵蓋人工智能從基礎(chǔ)理論、核心技術(shù)與跨模態(tài)應(yīng)用的全景視圖，是全球?qū)W術(shù)界與產(chǎn)業(yè)界進(jìn)行深度交流與合作的關(guān)鍵平臺：

NeurIPS作為人工智能與機(jī)器學(xué)習(xí)領(lǐng)域的頂尖國際會議，尤為強(qiáng)調(diào)神經(jīng)信息處理系統(tǒng)的基礎(chǔ)理論、算法創(chuàng)新與前沿應(yīng)用；

ICCV作為計算機(jī)視覺領(lǐng)域三大頂級會議之一，專注于圖像、視頻的視覺理解與三維視覺等核心技術(shù)；

AAAI作為人工智能領(lǐng)域的綜合性頂會，覆蓋機(jī)器學(xué)習(xí)、自然語言處理、計算機(jī)視覺乃至AI倫理等多個核心方向，致力于推動人工智能的整體發(fā)展；

ACMMM則作為多媒體技術(shù)領(lǐng)域的權(quán)威國際會議，聚焦于跨模態(tài)分析、內(nèi)容生成與人機(jī)交互等融合技術(shù)。

本文將簡要概述近期被收錄的論文。

01【NuerIPS-2025】RSAVQ: 為LLM而生的黎曼敏感性感知矢量量化

后摩智能芯片算法團(tuán)隊(duì)提出了黎曼敏感度感知矢量量化框架 RSAVQ（Riemannian Sensitivity-Aware Vector Quantization），攻克了大語言模型（LLMs）在極低比特（如 2-bit）量化下的精度保持難題。該框架通過信息幾何與矢量量化的深度融合，首次在參數(shù)空間的黎曼流形視角下約束量化誤差，并結(jié)合通道敏感性動態(tài)分配比特資源，為大模型在移動終端、嵌入式設(shè)備等資源受限場景的高效部署提供了突破性解決方案。

研究背景

近年來，大語言模型在自然語言處理等任務(wù)中能力卓越，但參數(shù)規(guī)模指數(shù)級增長（如 LLaMA-3 70B 在 FP16 需約 140GB 內(nèi)存）制約其在邊端設(shè)備落地。模型壓縮尤其是權(quán)重量化被視為關(guān)鍵。低比特量化可降開銷，但 2-bit 及以下極低比特場景中，傳統(tǒng)方法有雙重瓶頸：忽視方向敏感性，現(xiàn)有量化假設(shè)誤差各向同性，實(shí)際不同方向誤差對模型損失影響差異大；忽視通道敏感性，均勻和傳統(tǒng)矢量量化默認(rèn)通道敏感性一致，實(shí)則不同通道相同擾動損失變化相差數(shù)倍。RSAVQ 以信息幾何為核心創(chuàng)新，將神經(jīng)網(wǎng)絡(luò)參數(shù)空間建模為帶 Fisher 信息度量的黎曼流形，通過兩大核心模塊實(shí)現(xiàn)極低比特下的精度保持與高效部署。

方法簡介

核心模塊一：EDSG（誤差方向敏感性引導(dǎo)）針對傳統(tǒng)量化誤差易積累于高敏感方向的問題，RSAVQ 提出測地誤差對齊策略。利用 Fisher 信息矩陣量化參數(shù)空間曲率，將量化誤差投影至負(fù)自然梯度方向，通過約束項(xiàng)強(qiáng)制誤差沿低敏感方向分布，減少對模型性能的影響。

核心模塊二：WCSG（通道敏感性引導(dǎo)）基于 Fisher 信息矩陣分析構(gòu)建通道敏感度量，量化各通道對損失的貢獻(xiàn)。結(jié)合率失真理論與拉格朗日優(yōu)化，在總比特預(yù)算下實(shí)現(xiàn)動態(tài)比特分配，高敏感通道獲更多比特，低敏感通道精簡資源。

研究結(jié)果和價值

實(shí)驗(yàn)表明，RSAVQ在LLaMA-2、LLaMA-3系列大模型上優(yōu)勢顯著：LLaMA-2 70B在2-bit量化下，困惑度僅比FP16高0.4，零樣本精度達(dá)58.66%，超越VPTQ、QuIP等當(dāng)前最優(yōu)方法；LLaMA-3 8B的2-bit量化PPL較VPTQ低0.4，零樣本精度提升1.5%；LLaMA-3 70B的2-bit量化零樣本精度達(dá)71.3%，創(chuàng)大語言模型極低比特量化的新紀(jì)錄，2-bit量化精度逼近浮點(diǎn)，全面超越SOTA。

論文鏈接：https://arxiv.org/abs/2510.01240

02【ACMMM-2025】MQuant: 面向多模態(tài)大語言模型的靜態(tài)全量化統(tǒng)一框架

后摩智能芯片算法團(tuán)隊(duì)提出了MQuant (Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization) ——首個面向多模態(tài)大語言模型（MLLMs）的全靜態(tài)量化框架，在多模態(tài)推理加速領(lǐng)域取得了重要突破。該工作系統(tǒng)性地分析了 MLLMs 在視覺與語言模態(tài)融合過程中存在的量化瓶頸：視覺 token 數(shù)量龐大、分布尺度差異顯著、Hadamard 旋轉(zhuǎn)引發(fā)的極端異常值等問題。針對這些難題，MQuant 提出了模態(tài)特異靜態(tài)量化（Modality-Specific Static Quantization, MSQ）與旋轉(zhuǎn)幅值抑制（Rotation Magnitude Suppression, RMS）等關(guān)鍵技術(shù)，從體系層面實(shí)現(xiàn)了多模態(tài)融合的量化統(tǒng)一。

研究背景

在當(dāng)前人工智能浪潮中，多模態(tài)大語言模型（MLLMs）憑借理解圖像、文本、視覺+語言等多種輸入形式的能力，正在迅速成為先進(jìn)智能系統(tǒng)的重要組成部分。然而，這類模型規(guī)模龐大、推理資源開銷極高，嚴(yán)重限制了其在邊緣設(shè)備、移動端、嵌入式場景中的落地部署。

方法簡介

MQuant 針對上述挑戰(zhàn)，提出了三大關(guān)鍵模塊：

Modality-Specific Static Quantization (MSQ)：為視覺 token 與文本 token 分別設(shè)定靜態(tài)量化尺度，避免“一個尺度套用所有模態(tài)”帶來的偏倚。

Attention-Invariant Flexible Switching (AIFS)：通過重排序 token，保持注意力機(jī)制對因果依賴的完整支持，同時避開每個 token 需要動態(tài) scale 計算的高昂代價。

Rotation Magnitude Suppression (RMS)：專門用于緩解因在線 Hadamard 旋轉(zhuǎn)所引入的權(quán)重 “極端異常值” 問題，從而在低比特量化下保留更高的模型穩(wěn)定性。

研究結(jié)果和價值

在五款主流多模態(tài)大語言模型（包括 Qwen?VL、MiniCPM?V、CogVLM2 等）上，MQuant 在 W4A8（4?位權(quán)重量化 / 8?位激活量化）設(shè)置下實(shí)現(xiàn)了如下表現(xiàn)：接近浮點(diǎn)（FP）精度：精度下降 < 1%；推理延遲最多降低約 30%‘’顯著超越現(xiàn)有 PTQ 基線方法。MQuant 的提出，為“多模態(tài)大語言模型 + 資源受限設(shè)備” 的組合場景帶來了關(guān)鍵突破：既能保精度、又能降延時。未來，我們預(yù)計該技術(shù)將加速 MLLMs 在移動終端、智能穿戴設(shè)備、邊緣側(cè) AI 應(yīng)用中的大規(guī)模部署。進(jìn)一步方向包括：更低比特率下的量化（如 2 位以下）、適配更多模態(tài)（視頻、音頻、多語言）以及自動化量化調(diào)優(yōu)流程。

論文鏈接：https://arxiv.org/abs/2502.00425

03【AAAI-2026】OTARo: 一次微調(diào)多種bit，打造端側(cè)大模型高效部署方案

后摩智能芯片算法團(tuán)隊(duì)提出了OTARo（Once Tuning for All Precisions toward Robust On-Device LLMs）。一種僅需一次微調(diào)即可支持多種精度切換的魯棒微調(diào)方法，大幅降低了微調(diào)與端側(cè)部署所需的計算資源，助力端側(cè)用戶穩(wěn)健適應(yīng)動態(tài)發(fā)展中的真實(shí)世界場景。

研究背景

近年來，邊緣設(shè)備在算力、帶寬和存儲等方面取得了顯著突破，使得LLMs的端側(cè)部署（LLMs On-Device Deployment）成為了當(dāng)前研究的前沿方向。當(dāng)資源受限的端側(cè)設(shè)備部署特定精度的大語言模型時，針對單一精度的微調(diào)技術(shù)雖然可以提升模型在特定精度上的效果，但是應(yīng)注意到，這種方式在其他精度下的性能被削弱，即使在相鄰精度之間也可能出現(xiàn)性能驟降的現(xiàn)象。多個精度分別進(jìn)行固定精度微調(diào)，得到多個模型部署到端側(cè)供用戶適時選擇是解決問題的一種思路，然而，為每種精度分別訓(xùn)練模型會顯著增加微調(diào)期間計算成本，并且，對于資源有限的邊緣設(shè)備而言，存儲多份權(quán)重會顯著增加存儲空間占用，易超出硬件容量限制，也意味著在模型版本更新時需要分別維護(hù)和同步多份權(quán)重，增加了管理復(fù)雜度。

方法簡介

OTARo基于SEFP（Shared Exponent Floating Point），聯(lián)合多位寬進(jìn)行感知微調(diào)，一次微調(diào)生成一個可切換為多種精度且保持性能魯棒性的模型，助力端側(cè)用戶穩(wěn)健適應(yīng)動態(tài)發(fā)展中的真實(shí)世界場景。在訓(xùn)練位寬采樣上，提出利用-探索位寬路徑搜索策略（BPS），保證了位寬路徑能夠探索到不同位寬的量化的誤差，且最終收斂于量化誤差較小的高位寬。進(jìn)一步，為了緩解低位寬區(qū)間上誤差的影響，在梯度更新上，提出延遲更新策略（LAA），利用梯度振蕩的周期性、對稱性，通過模型參數(shù)的延遲更新，平滑了低位寬下的梯度劇烈振蕩，減少了對模型向其他位寬最優(yōu)解靠攏的消極影響，進(jìn)而實(shí)現(xiàn)微調(diào)后模型的魯棒性。

研究結(jié)果和價值

實(shí)驗(yàn)在表明，OTARo在所有位寬下始終取得優(yōu)秀性能。在具有挑戰(zhàn)性的低比特設(shè)置（E5M4、E5M3）下，OTARo也能獲得較好的表現(xiàn)。OTARo的核心突破在于通過一次微調(diào)獲得一個統(tǒng)一模型，以支持多種精度。該方法大幅度降低多位寬模型微調(diào)以及存儲復(fù)雜度，為大模型移動端部署提供核心技術(shù)支撐，推動大模型技術(shù)朝著更靈活、更經(jīng)濟(jì)的方向高效落地。

論文鏈接：https://arxiv.org/abs/2511.13147

04【AAAI-2026】FQ-PETR：全量化位置嵌入變換框架，突破自動駕駛實(shí)時感知瓶頸

后摩智能芯片算法團(tuán)隊(duì)提出了FQ-PETR（Fully Quantized Position Embedding Transformation）——面向多視角 3D 檢測模型的全量化框架，在自動駕駛感知模型的高效推理與端側(cè)部署方向上取得重要突破。該研究針對 PETR 系列模型在量化部署中精度急劇下降的問題，系統(tǒng)揭示了導(dǎo)致性能崩塌的根源：多模態(tài)特征幅值差異過大與非線性算子量化誤差累積。為此，團(tuán)隊(duì)創(chuàng)新性地提出三項(xiàng)關(guān)鍵技術(shù)，實(shí)現(xiàn)了3D 檢測模型的端側(cè)全整型推理。

研究背景

在自動駕駛感知系統(tǒng)中，基于相機(jī)的多視角 3D 檢測因其高分辨率與低成本，正逐步取代純 LiDAR 方案。PETR 及其系列模型憑借將 2D 圖像特征映射至 3D 空間的“位置嵌入變換（Position Embedding Transformation）”設(shè)計，成為多攝像頭感知領(lǐng)域的主流框架。然而，這類 Transformer 結(jié)構(gòu)的計算與顯存開銷極大，阻礙了其在端側(cè)設(shè)備中的實(shí)時部署。現(xiàn)有量化技術(shù)雖能顯著壓縮模型，但直接應(yīng)用于 PETR 會導(dǎo)致性能崩塌（mAP 下降 20% 以上）。根源在于： 1. 多模態(tài)特征量級差異極大——圖像特征與相機(jī)射線位置嵌入（PE）數(shù)值范圍相差百倍；2. 非線性算子（如 Softmax、Sigmoid）量化后誤差劇增且硬件不友好。

方法簡介

FQ-PETR 面向上述瓶頸，提出了三項(xiàng)關(guān)鍵技術(shù)：

Quantization-Friendly LiDAR-ray Position Embedding (QFPE)：以 LiDAR 物理先驗(yàn)為指導(dǎo)，將原多點(diǎn)采樣改為單點(diǎn)射線采樣，替代 inverse-sigmoid 非線性，顯著減小 PE 幅值（約 4.4 × 降低）并保持幾何一致性。

Dual-Lookup Table (DULUT)：創(chuàng)新性地用“兩級線性 LUT 級聯(lián)”近似復(fù)雜非線性函數(shù)（如 SiLU、Softmax），以 32 + 32 表項(xiàng)實(shí)現(xiàn) < 0.1% 誤差，無需專用硬件，兼容各類 NPU / GPU 平臺。

Quantization After Numerical Stabilization (QANS)：在 Softmax 數(shù)值穩(wěn)定化（減去最大 logit）后再執(zhí)行整數(shù)量化，有效抑制注意力漂移問題，確保注意力分布與浮點(diǎn)結(jié)果一致。

研究結(jié)果和價值

實(shí)驗(yàn)表明，在 PETR、PETRv2、StreamPETR、MV2D 等主流系列上，F(xiàn)Q-PETR 在 W8A8 全整型量化下實(shí)現(xiàn) < 1% mAP/NDS 下降；延遲最高降低 75%，顯存占用減少 75%，整體 FPS 提升 3.9×。FQ-PETR是首個針對 Transformer范式3D檢測器的端側(cè)全量化解決方案，為高性能感知模型的車載與移動部署奠定技術(shù)基礎(chǔ)。

論文鏈接：https://arxiv.org/pdf/2502.15488

05【AAAI-2026】VAEVQ：基于變分建模的視覺離散表征新范式

后摩智能芯片算法團(tuán)隊(duì)提出了 VAEVQ（Variational Autoencoding Vector Quantization）：一種以變分建模驅(qū)動的離散視覺表征方法，在視覺離散化（Visual Tokenization）領(lǐng)域?qū)崿F(xiàn)了新的突破。該工作創(chuàng)新性地將變分自編碼思想（VAE）與矢量量化（VQ）深度融合，從概率建模角度重塑了視覺離散化過程，顯著提升了視覺 token 的表達(dá)能力與語義一致性。

研究背景

近年來，VQ-VAE、VQ-GAN 等離散視覺模型在多模態(tài)大模型中承擔(dān)關(guān)鍵角色，負(fù)責(zé)將連續(xù)視覺特征映射為離散 token，以支持圖像生成、理解與視覺語言對齊。然而，現(xiàn)有方法普遍面臨兩大瓶頸：過度離散化損失語義連續(xù)性和碼本利用率低、訓(xùn)練不穩(wěn)定。VAEVQ 框架從概率視角出發(fā)，引入變分推斷機(jī)制，以連續(xù)的潛在分布指導(dǎo)離散向量量化，形成統(tǒng)一的“變分–離散”表征學(xué)習(xí)框架。

方法簡介

核心模塊一：Variational Latent Regularization（變分潛空間約束）通過引入高斯分布的潛變量先驗(yàn)，VAEVQ 在編碼端學(xué)習(xí)潛空間分布q(z|x)，并通過 KL 散度約束潛變量與標(biāo)準(zhǔn)先驗(yàn)對齊，從而在量化前保持特征的可分性與連續(xù)性，為離散化提供概率平滑。

核心模塊二：Probabilistic Vector Quantization（概率化矢量量化）以潛變量的概率分布為權(quán)重計算期望量化誤差，實(shí)現(xiàn)“軟量化”與梯度可傳遞。該設(shè)計有效緩解了 codebook collapse，并顯著提升碼本利用率。

核心模塊三：Joint Variational Optimization（聯(lián)合變分優(yōu)化）通過聯(lián)合優(yōu)化編碼器、解碼器與碼本參數(shù)，VAEVQ 實(shí)現(xiàn)了端到端的穩(wěn)定收斂。模型在重建質(zhì)量與離散語義之間取得平衡，具備更強(qiáng)的生成能力與跨模態(tài)對齊能力。

研究結(jié)果和價值

在 ImageNet、MS-COCO、CC3M 等標(biāo)準(zhǔn)數(shù)據(jù)集上，VAEVQ 相比 VQ-VAE2 與 VQ-GAN 在重建 PSNR 與 FID 指標(biāo)上分別提升 1.3dB 與 7.2%，視覺 token 語義聚合度（Semantic Clustering Score）提升 18%。充分表明該框架在高保真重建、離散語義建模與跨模態(tài)表征對齊方面的綜合優(yōu)勢，為構(gòu)建更高效、更可擴(kuò)展的視覺離散表示與大規(guī)模生成模型奠定了堅(jiān)實(shí)的方法論基礎(chǔ)。

論文鏈接：https://arxiv.org/abs/2511.06863。

06【ICCV-2025】EA-Vit：基于彈性架構(gòu)的ViT多任務(wù)高效部署框架

后摩智能芯片算法團(tuán)隊(duì)與新加坡國立大學(xué)、西安電子科技大學(xué)合作研究提出了EA-Vit（Efficient Adaptation for Elastic Vision Transformer）。該框架攻克了 Vision Transformers（ViTs）在跨平臺部署中的核心痛點(diǎn) —— 無需重復(fù)訓(xùn)練即可生成適配不同資源約束的多尺寸模型，為AI視覺應(yīng)用的高效落地提供了全新解決方案。代碼已同步開源于 GitHub（https://github.com/zcxcf/EA-ViT）。

研究背景

在計算機(jī)視覺領(lǐng)域，ViTs 因出色的泛化能力和下游任務(wù)適配性，已成為圖像分類、語義分割、醫(yī)療影像分析等場景的核心模型。然而，傳統(tǒng)部署模式面臨顯著瓶頸：從資源受限的移動端到高性能 GPU 集群，不同平臺需對應(yīng)不同尺寸的 ViTs 模型，需重復(fù)訓(xùn)練、微調(diào)，不僅耗時耗能，還增加了模型版本管理復(fù)雜度；現(xiàn)有彈性 ViT 方法（如 DynaBERT、HydraViT）或僅支持 1-3 個維度調(diào)整，或需在預(yù)訓(xùn)練階段引入彈性，子模型數(shù)量有限（最多僅個），難以滿足多樣化部署需求。

方法簡介

第一階段：構(gòu)建Multi-Dimensional Elastic Architecture，首次實(shí)現(xiàn) ViT 在 MLP expansion ratio、number of attention heads、embedding dimension、network depth 四個核心維度的全彈性調(diào)整，同時采用Curriculum-based Elastic Adaptation策略：從最大預(yù)訓(xùn)練模型起步，按預(yù)設(shè)步驟（如訓(xùn)練 epoch 10、15、20）逐步擴(kuò)大子模型參數(shù)采樣范圍（最終實(shí)現(xiàn) R∈[0.5,4]、H∈[6,12]、E∈[384,768]），在保留預(yù)訓(xùn)練知識的同時，避免小模型訓(xùn)練對大模型性能的干擾。

第二階段：設(shè)計lightweight constraint-aware router，基于定制化 NSGA-II 算法篩選的 Pareto-optimal 配置初始化，再與 ViT 骨干網(wǎng)絡(luò)聯(lián)合優(yōu)化，可根據(jù)目標(biāo)平臺的計算預(yù)算（如 MACs、參數(shù)量、latency）動態(tài)輸出最優(yōu)子模型配置。

研究結(jié)果和價值

EA-Vit 的核心突破在于將 ViT 的彈性適配從預(yù)訓(xùn)練階段轉(zhuǎn)移至下游任務(wù)適配階段，真正實(shí)現(xiàn)“一次適配，多端可用”。該框架不僅大幅降低模型訓(xùn)練與存儲成本，還能通過 router 動態(tài)匹配不同任務(wù)與平臺需求，為工業(yè)質(zhì)檢、移動端 AI、醫(yī)療設(shè)備集成等場景提供關(guān)鍵技術(shù)支撐，有望推動 AI 視覺技術(shù)向更靈活、更經(jīng)濟(jì)的方向加速落地。

論文鏈接：https://arxiv.org/pdf/2507.19360

總結(jié)

上述研究成果聚焦大模型與視覺任務(wù)中的量化、表征、適配與部署等核心挑戰(zhàn)，從算法框架創(chuàng)新到軟硬件協(xié)同優(yōu)化，系統(tǒng)性地展現(xiàn)了后摩智能在人工智能領(lǐng)域的前瞻布局與深度突破。相關(guān)成果從模型壓縮、極低比特量化、推理效率、多平臺適配性等關(guān)鍵維度，為大語言模型端側(cè)推理、自動駕駛感知以及多模態(tài)大模型的高效部署，提供了具備實(shí)踐價值的全棧解決方案。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1819

文章
50290

瀏覽量
266833
后摩智能

后摩智能

+關(guān)注

關(guān)注
0

文章
53

瀏覽量
1746
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3750

瀏覽量
5268

原文標(biāo)題：后摩前沿 | 后摩智能6篇論文入選NeurIPS、ICCV、AAAI、ACMMM四大國際頂會，攻關(guān)大模型端邊側(cè)部署關(guān)鍵技術(shù)

文章出處：【微信號：后摩智能，微信公眾號：后摩智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

后摩智能六篇論文入選四大國際頂會

評論