67194日韩成网站在线观看,2048亚洲精品国产,国产人成高清在线视频app

此前，8月28-30日，2025百度云智大會在北京舉辦。在算力平臺專題論壇上，格靈深瞳技術副總裁、算法研究院院長馮子勇分享了《視覺基座：通向世界模型之路——格靈深瞳Glint-MVT讓AI看懂世界》主題演講，從熱點話題“世界模型”引入，介紹格靈深瞳自研視覺基礎模型Glint-MVT的發(fā)展脈絡和技術亮點，講述視覺模型基座如何讓AI理解復雜世界。

此次分享的主角：Glint-MVT（Margin-based pretrained Vision Transformer），是格靈深瞳靈感實驗室自研的視覺基礎模型。自2023年發(fā)布MVT v1.0以來，模型逐步迭代，在今年7月發(fā)布了MVT v1.5，同時MVT v2.0也籌備中。

MVT的誕生：引入間隔Softmax函數(shù)

MVT最大的技術創(chuàng)新性在于，團隊應用基于間隔的Softmax損失函數(shù)進行模型訓練。Softmax損失函數(shù)主要應用于分類訓練，而基于間隔的Softmax（Margin-based Softmax），可以讓模型提取的特征更具區(qū)分度，提升視覺編碼器的能力。

靈感團隊將這一函數(shù)特性應用在視覺基礎模型訓練上，推出MVT v1.0，構(gòu)建起視覺理解的堅實基礎。

在MVT v1.0訓練過程中，團隊通過特征聚類的方法，為4億無標注圖片打上偽標簽，形成100萬個類別。為解決偽標簽類別太多和標簽噪聲的問題，團隊提出了標簽采樣的方法，不僅大量減少卡間通信時延，還降低了標簽噪聲對訓練精度的影響，帶來訓練效果和模型性能的雙重提升。

從MVT v1.0到 v1.1：突破單標簽限制

在圖像識別過程中，一幅圖像通常包含多個物體，對應著多個標簽。因此，格靈深瞳將單標簽升級為多標簽，提升圖像編碼器的表達能力，由此得到MVT v1.1。

MVT v1.1可識別圖像中的多個物體，這一能力提升源自損失函數(shù)的優(yōu)化。靈感團隊在1.0版softmax公式的基礎上進行簡單修改，讓多個正標簽參與計算；在工程上，由讀取一個正類別的中心特征變成讀取固定多個正類別的中心特征。

MVT v1.5：局部和文字特征再增強

隨著下游任務對預訓練模型能力的更高要求，靈感團隊增強了模型對局部特征和文字特征的表達能力，推出MVT v1.5。

RegionAttention技術方法示意圖

在實現(xiàn)方法上，團隊利用專家分割模型和OCR模型，生成局部數(shù)據(jù)偽標簽，得到20億局部區(qū)域和4億文字區(qū)域。同時，團隊提出了RegionAttention的方法——利用Mask Attention機制，更高效地提取局部區(qū)域特征。從檢測、分割等下游任務表現(xiàn)上看，MVT v1.5的多項分數(shù)高于SigLIP等模型。

MVT v1.5（RICE）在OCR任務上的表現(xiàn)

靈感團隊將MVT v1.5應用到VLM開源框架LLaVA-NeXT和LLaVA-OneVision中。對比其他視覺編碼器，如OpenAI的CLIP、谷歌的SigLIP、蘋果的DFN5B和AIMv2，MVT v1.5在OCR任務上表現(xiàn)更優(yōu)。這表明MVT v1.5在局部和文字特征上具有更好的表達能力。

MVT v2.x：圖片視頻統(tǒng)一支持

人類和環(huán)境的交互以及任務完成，不只是一張張離散的圖片，而是一個時空連續(xù)的視頻流。下一步，靈感團隊計劃對視頻進行高效編碼，推出統(tǒng)一支持圖片視頻的視覺編碼器MVT v2.x，提升視頻特征表達能力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
40908

瀏覽量
302504
百度

百度

+關注

關注
9

文章
2387

瀏覽量
95175
格靈深瞳

格靈深瞳

+關注

關注
1

文章
95

瀏覽量
6011

原文標題：格靈深瞳如何打造視覺模型基座？Glint-MVT成長記

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

格靈深瞳視覺基礎模型Glint-MVT的發(fā)展脈絡

評論