一句話總結(jié)
通過應(yīng)用視覺專家進(jìn)行工業(yè)異常檢測(cè),以實(shí)現(xiàn)明確的異常檢測(cè)和高質(zhì)量的異常描述,還可進(jìn)行多輪對(duì)話,性能表現(xiàn)出色!優(yōu)于AnomalyGPT等網(wǎng)絡(luò),代碼即將開源!
Myriad

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection
單位:哈工大(左旺孟團(tuán)隊(duì)), 琶洲實(shí)驗(yàn)室
論文:https://arxiv.org/abs/2310.19070
代碼:https://github.com/tzjtatata/Myriad
現(xiàn)有的工業(yè)異常檢測(cè)(IAD)方法可以預(yù)測(cè)異常檢測(cè)和定位的異常分?jǐn)?shù)。然而,它們很難對(duì)異常區(qū)域進(jìn)行多輪對(duì)話和詳細(xì)描述,例如工業(yè)異常的顏色、形狀和類別。
最近,大型多模態(tài)(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力,使其成為更易于理解的異常檢測(cè)的有競(jìng)爭(zhēng)力的潛在選擇。然而,現(xiàn)有的通用 LMM 中缺乏有關(guān)異常檢測(cè)的知識(shí),而訓(xùn)練特定的 LMM 進(jìn)行異常檢測(cè)需要大量的注釋數(shù)據(jù)和大量的計(jì)算資源。
本文提出了一種新穎的大型多模態(tài)模型,通過應(yīng)用視覺專家進(jìn)行工業(yè)異常檢測(cè)(稱為Myriad),從而實(shí)現(xiàn)明確的異常檢測(cè)和高質(zhì)量的異常描述。

具體來說,采用 MiniGPT-4 作為基礎(chǔ) LMM,并設(shè)計(jì)一個(gè)專家感知模塊,將視覺專家的先驗(yàn)知識(shí)嵌入到大型語言模型(LLM)可以理解的標(biāo)記中。

為了彌補(bǔ)視覺專家的錯(cuò)誤和困惑,引入了域適配器來彌合通用圖像和工業(yè)圖像之間的視覺表示差距。此外,提出了一個(gè)視覺專家講師,它使 Q-Former 能夠根據(jù)視覺專家先驗(yàn)生成 IAD 領(lǐng)域視覺語言標(biāo)記。
實(shí)驗(yàn)結(jié)果
在MVTec-AD 和 VisA 基準(zhǔn)上的大量實(shí)驗(yàn)表明,本文提出的方法不僅在 1-class 和少樣本設(shè)置下比最先進(jìn)的方法表現(xiàn)更好,而且還提供了明確的異常預(yù)測(cè)以及 IAD 中的詳細(xì)描述領(lǐng)域。




-
模型
+關(guān)注
關(guān)注
1文章
3810瀏覽量
52251 -
視覺
+關(guān)注
關(guān)注
1文章
182瀏覽量
24861 -
大模型
+關(guān)注
關(guān)注
2文章
3746瀏覽量
5268
原文標(biāo)題:工業(yè)異常檢測(cè)大模型來了!哈工大提出Myriad:利用視覺專家進(jìn)行工業(yè)異常檢測(cè)的大型多模態(tài)模型
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
人工智能多模態(tài)與視覺大模型開發(fā)實(shí)戰(zhàn) - 2026必會(huì)
商湯科技日日新V6.5榮獲2025年多模態(tài)大模型全國第一
多模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來發(fā)展
商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO
格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)
亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型
工業(yè)視覺網(wǎng)關(guān):RK3576賦能多路檢測(cè)與邊緣AI
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片
米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM
如何利用AI算法進(jìn)行裝置數(shù)據(jù)的異常檢測(cè)?
淺析多模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例
基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評(píng)測(cè)
研華科技攜手創(chuàng)新奇智推出多模態(tài)大模型AI一體機(jī)
NVIDIA助力圖靈新訊美推出企業(yè)級(jí)多模態(tài)視覺大模型融合解決方案
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型
哈工大提出Myriad:利用視覺專家進(jìn)行工業(yè)異常檢測(cè)的大型多模態(tài)模型
評(píng)論