洞察AI變革,見(jiàn)證智能未來(lái)
2025中國(guó)技術(shù)力量年度榜單
AI開(kāi)源明星項(xiàng)目TOP10
LLaVA-OneVision-1.5多模態(tài)大模型
靈感實(shí)驗(yàn)室聯(lián)合LLaVA社區(qū)發(fā)布的多模態(tài)大模型LLaVA-OneVision-1.5,實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)、代碼和模型權(quán)重的全鏈路開(kāi)源,在多項(xiàng)公開(kāi)多模態(tài)基準(zhǔn)上表現(xiàn)優(yōu)于同等規(guī)模的Qwen2.5-VL。
在創(chuàng)新性上,技術(shù)團(tuán)隊(duì)對(duì)“視覺(jué)編碼器+投影層+大語(yǔ)言模型”的LLaVA架構(gòu)進(jìn)行模塊升級(jí):視覺(jué)編碼器從CLIP替換為格靈深瞳自研Glint-ViT v1.5(RICE),大語(yǔ)言模型從Qwen2替換為Qwen3。
在訓(xùn)練數(shù)據(jù)方面,團(tuán)隊(duì)推出完整開(kāi)放的85M預(yù)訓(xùn)練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩22M指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并且做到“概念均衡”——構(gòu)建一個(gè)50萬(wàn)的詞表,利用圖像特征與詞表特征碰撞,并控制每個(gè)詞碰到的圖片數(shù),制作出一個(gè)不同于隨機(jī)采樣的概念均衡訓(xùn)練集。
除了數(shù)據(jù)集以外,LLaVA-OneVision-1.5 技術(shù)報(bào)告、代碼、模型也已開(kāi)源:
LLaVA-OneVision-1.5
技術(shù)報(bào)告:
https://arxiv.org/abs/2509.23661
代碼:
https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
模型:
https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct
Demo:
https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5
數(shù)據(jù)集:
Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M
Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data
-
開(kāi)源
+關(guān)注
關(guān)注
3文章
4180瀏覽量
46032 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
90瀏覽量
5944 -
大模型
+關(guān)注
關(guān)注
2文章
3632瀏覽量
5156
原文標(biāo)題:LLaVA-OneVision-1.5多模態(tài)大模型入選InfoQ 2025中國(guó)技術(shù)力量年度榜單
文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
格靈深瞳入選多家媒體2025年度榜單
格靈深瞳聯(lián)合氪信科技推出多模態(tài)AI金融安全一體機(jī)
格靈深瞳受邀參加百度世界2025大會(huì)
格靈深瞳邀您相約百度世界2025大會(huì)
格靈深瞳視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)
宏景智駕榮登2025中國(guó)隱形獨(dú)角獸500強(qiáng)榜單
格靈深瞳智慧金融產(chǎn)品家族全新升級(jí)
格靈深瞳視覺(jué)基礎(chǔ)模型Glint-MVT升級(jí)
格靈深瞳多模態(tài)大模型榮登InfoQ 2025中國(guó)技術(shù)力量年度榜單
評(píng)論