无码热无码色综合,欧亚三级束缚免无码,欧洲一级鲁丝片免费一区

近日，格靈深瞳靈感實驗室和華為倫敦研究所發(fā)布最新版視覺基礎模型——Glint-MVT v1.5（RICE）。

格靈深瞳此前有6篇論文亮相國際頂級學術舞臺ICCV 2025，涵蓋視覺基座模型、人臉3D重建等領域，其中最新版MVT的相關論文不僅入選，還被接收為Highlight論文。

先看升級后的核心要點：

1技術創(chuàng)新性方面：新版MVT提出了一種區(qū)域局部感知增強的視覺特征學習方法。

2下游任務表現(xiàn)方面：在OCR和分割等任務上效果優(yōu)于v1.1版和AIMv2、SigLIP2。

3此外，團隊還構建了共4億圖像、20億局部區(qū)域、4億文字區(qū)域的預訓練數(shù)據(jù)集。

概括來說，MVT v1.5的最大升級在于：強化了模型對圖像細節(jié)和文字特征的捕捉和表達能力，在精細任務上表現(xiàn)更優(yōu)。

以往的視覺-文本對比學習模型，如OpenAI的CLIP模型和谷歌的改進版SigLIP模型等，更側重全局圖像特征（對圖像內容的概括性描述），核心的訓練邏輯是 “全局對齊”，讓模型理解圖像的整體語義，并和文本的整體語義相對應。

但這類模型對圖像局部區(qū)域的細節(jié)信息表達較少，難以滿足需要精細處理圖像的任務，例如OCR和圖像分割等。

針對這一問題，新版MVT提出一種區(qū)域局部感知增強的視覺特征學習方法。

在技術方案上，格靈深瞳團隊利用專家分割模型和OCR模型，對無標注數(shù)據(jù)進行處理，產生十億級局部區(qū)域，并通過聚類產生偽標簽。也就是說，通過分割-OCR-聚類的技術流程，團隊將無標注數(shù)據(jù)轉化為帶偽標簽的大規(guī)模訓練集，節(jié)約了標注成本，提升了自主學習能力。

同時，團隊設計了區(qū)域Transformer層，用來提取局部區(qū)域特征和支持數(shù)據(jù)擴展的區(qū)域鑒別損失，使得團隊能在億級數(shù)據(jù)上進行預訓練，突破了在大規(guī)模樣本上進行高效訓練的技術挑戰(zhàn)。

基于以上技術攻關，MVT v1.5增強了局部特征和文字特征。相較于傳統(tǒng)的全局圖像特征模型，新版MVT在檢測分割、OCR等對應的下游任務表現(xiàn)上得到提升，有效性得到驗證。

以文字OCR任務為例，從下圖可以看出，MVT v1.5（RICE）的多項分數(shù)高于CLIP和SigLIP等模型。

文字OCR任務和全局理解任務：

引用分割：

檢測分割任務：

單目標跟蹤任務：

從技術創(chuàng)新到下游任務，格靈深瞳并非單純追求學術表現(xiàn)，而是注重技術成果轉化應用，通過提升任務表現(xiàn)推動AI在多元場景中真正落地。

MVT v1.5背后的技術團隊——格靈深瞳靈感實驗室，是國內計算機視覺領域的深耕者。靈感實驗室聚焦于視覺及相關模態(tài)特征表達與應用，主要研究方向包括：視覺基礎大模型、多模態(tài)大模型、圖文多模態(tài)表征、大規(guī)模分布式訓練等。下一步，團隊將錨定視頻理解領域，發(fā)布最新模型成果。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6257

瀏覽量
111939
模型

模型

+關注

關注
1

文章
3810

瀏覽量
52253
格靈深瞳

格靈深瞳

+關注

關注
1

文章
95

瀏覽量
6011

原文標題：請查收一份“高光”研究成果：格靈深瞳Glint-MVT升級，局部和文字特征再增強

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關注！文章轉載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

格靈深瞳視覺基礎模型Glint-MVT升級

評論