chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

深度學(xué)習(xí)實(shí)戰(zhàn) ? 來源:CSDN技術(shù)社區(qū) ? 作者:Facebook Amusi ? 2021-03-25 09:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

隨著Transformer在視覺中的崛起,Transformer在多模態(tài)中應(yīng)用也是合情合理的事情,甚至以后可能會(huì)有更多的類似的paper。先來解釋一下什么多模態(tài),模態(tài)譯作modality,多模態(tài)譯作multimodel。多模態(tài)學(xué)習(xí)主要有一下幾個(gè)方向:表征、轉(zhuǎn)化、對(duì)齊、融合和協(xié)同學(xué)習(xí)。人就是生活在一個(gè)多模態(tài)的世界里面,文字、視覺、語言都是不同的模態(tài),當(dāng)我們能夠同時(shí)從視覺、聽覺、嗅覺等等來識(shí)別當(dāng)前發(fā)生的事情,實(shí)際上我們就是在做了多模態(tài)的融合。而Transformer is All You Need這篇論文(從Attention is All You Need開始大家都成了標(biāo)題黨,X is All You Need)是屬于協(xié)同學(xué)習(xí)(Co-learning)的范疇,將多個(gè)不同的tasks一起訓(xùn)練,共享模型參數(shù)。

689857c6-8d02-11eb-8b86-12bb97331649.png

68f430be-8d02-11eb-8b86-12bb97331649.png

背景介紹

這篇論文出自Facebook AI Research,文章提出了UniT,Unified Transformer model,用一個(gè)Transformer模型去同時(shí)學(xué)習(xí)多個(gè)不同的tasks,甚至這些tasks的領(lǐng)域都可能不同,從目標(biāo)檢測(cè)到語言理解,一共訓(xùn)練了7個(gè)tasks8個(gè)datasets,但是各個(gè)beachmark上都取得了不錯(cuò)的成績(jī)。Transformer在各種不同的領(lǐng)域中都取得了極大的成功,例如NLP、images、video和audio,不僅在以上領(lǐng)域表現(xiàn)出色,甚至在一些vision-and-language reasoning的tasks上,比如VQA(visual question answering)也有很強(qiáng)的表現(xiàn)。但是現(xiàn)有的一些多模態(tài)的模型基本都是關(guān)注某一個(gè)領(lǐng)域的不同task或者就是用將近N倍的參數(shù)去處理N個(gè)不同的領(lǐng)域問題。在17年谷歌提出的《One Model To Learn Them All》[1]中也使用了Transformer encoder-decoder的架構(gòu),但是不同的是,它對(duì)于每個(gè)task都需要一個(gè)與之對(duì)應(yīng)的decoder,如下圖。類似的還有MT-DNN[2]和VILBERT-MT[3]等等。

6b1f8bcc-8d02-11eb-8b86-12bb97331649.png

UniT: One transformer to learn them all

用單個(gè)模型去訓(xùn)練跨模態(tài)的任務(wù),UniT包括對(duì)于不同的task對(duì)于的encoder,因?yàn)椴煌B(tài)的數(shù)據(jù)需要經(jīng)過處理才能放到同一個(gè)網(wǎng)絡(luò),就和人獲得不同模態(tài)的信息需要不同的器官一樣。然后這些信息會(huì)經(jīng)過一個(gè)共享decoder,最后各個(gè)task會(huì)有對(duì)應(yīng)的簡(jiǎn)單的head進(jìn)行最后的輸出。UniT有兩種不同模態(tài)的輸入:圖像和文本。也就是說只需要兩個(gè)對(duì)應(yīng)的encoder就可以訓(xùn)練7種不同的任務(wù),可以形象地比喻這個(gè)網(wǎng)絡(luò)有兩個(gè)不同的器官(Image encoder和Text encoder)。

6b497054-8d02-11eb-8b86-12bb97331649.png

Image encoder一些視覺相關(guān)的task,比如目標(biāo)檢測(cè)、視覺問答等都需要處理圖像,在UniT中,圖像先經(jīng)過一個(gè)卷積的backbone,然后再用transformer對(duì)特征進(jìn)行編碼,進(jìn)一步得到編碼后的向量。圖像的處理與DETR[4]類似。xv=B(I),xv是經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)B得到的特征圖,B采用了ResNet-50,并在C5中使用了空洞卷積。再用encoder Ev得到圖像編碼的向量,這里使用encoder進(jìn)行編碼時(shí)為了區(qū)別不同的task加入了task embedding以進(jìn)行區(qū)分,和IPT中的作法類似,因?yàn)椴煌膖ask它可能關(guān)注的點(diǎn)不一樣。

Text encoder對(duì)于文本的輸入,采用BERT來進(jìn)行編碼,BERT是一個(gè)在大規(guī)模語料庫上預(yù)訓(xùn)練好的模型。給定輸入的文本,和BERT處理一樣,先將文本編碼成tokens的序列{w1, · · · , wS},和image encoder一樣,還需要加入一個(gè)wtask來區(qū)分不同的task。在實(shí)現(xiàn)中,采用了embedding維度是768,12層的BERT。

6c806e8c-8d02-11eb-8b86-12bb97331649.png

Domain-agnostic UniT decoder領(lǐng)域不可知的解碼器,和image和text encoder不一樣的是encoder是針對(duì)某一特定領(lǐng)域的,但是encoder的輸入可以是來自與image encoder或者是text encoder,所以是領(lǐng)域不可知。對(duì)于純視覺、純文本和視覺文本混合的task,encoder的輸入是不一樣的,純視覺和純文本的task的情況下,decoder的輸入就是它們各自encoder的輸出,但是對(duì)于視覺文本的task,decoder的輸入是兩個(gè)encoder輸出的拼接,這很好理解,因?yàn)樾枰猇QA這種同時(shí)會(huì)有image和text的輸入。

Task-specific output heads每個(gè)task可能最后的輸出差別很大,因此最后使用對(duì)應(yīng)的prediction head來進(jìn)行最后的預(yù)測(cè)。對(duì)于檢測(cè)任務(wù)來說,最后decoder產(chǎn)生的每個(gè)向量都會(huì)produce一個(gè)輸出,輸出包括類別和bounding box。當(dāng)然,對(duì)于不同的task,decoder輸入的query是不同的。

6cc738da-8d02-11eb-8b86-12bb97331649.png

Experiments

下圖是所用到的8個(gè)不同的數(shù)據(jù)集以及上面的測(cè)試結(jié)果,可以看到不同任務(wù)的區(qū)別還是很大的。

根據(jù)下圖的對(duì)比,其實(shí)UniT有些task離SOTA還是差的有點(diǎn)遠(yuǎn),所以這個(gè)領(lǐng)域還是有很大的挖掘的空間的。

6d69c3d4-8d02-11eb-8b86-12bb97331649.png

Conclusion

在這篇論文中,我們可以看到,Transformer確實(shí)是可以來處理不同的領(lǐng)域的,跨領(lǐng)域?qū)W習(xí)確實(shí)是個(gè)很大的難題,那么Transformer能否成為多模態(tài)領(lǐng)域發(fā)展的一個(gè)跳板呢?我們拭目以待。

Reference論文鏈接:https://arxiv.org/abs/2102.10772
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 視覺
    +關(guān)注

    關(guān)注

    1

    文章

    182

    瀏覽量

    24860
  • paper
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    3905
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6961

原文標(biāo)題:Facebook提出UniT:Transformer is All You Need

文章出處:【微信號(hào):gh_a204797f977b,微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    海光DCU完成Qwen3.5模態(tài)MoE模型全量適配

    近日,海光DCU完成Qwen3.5-397B MoE旗艦模態(tài)模型、Qwen3.5-35B-A3B MoE模態(tài)
    的頭像 發(fā)表于 03-26 09:35 ?609次閱讀

    商湯科技正式開源模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試中以 69.7
    的頭像 發(fā)表于 01-30 10:13 ?759次閱讀
    商湯科技正式開源<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>自主推理<b class='flag-5'>模型</b>SenseNova-MARS

    格靈深瞳模態(tài)模型榮登InfoQ 2025中國(guó)技術(shù)力量年度榜單

    靈感實(shí)驗(yàn)室聯(lián)合LLaVA社區(qū)發(fā)布的模態(tài)模型LLaVA-OneVision-1.5,實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)、代碼和模型權(quán)重的全鏈路開源,在多項(xiàng)公開
    的頭像 發(fā)表于 01-05 10:05 ?643次閱讀

    模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來發(fā)展

    ? ? 模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅(qū)動(dòng)的密閉
    的頭像 發(fā)表于 12-29 11:27 ?400次閱讀

    模態(tài)模型驅(qū)動(dòng)的復(fù)雜環(huán)境精準(zhǔn)導(dǎo)航避障系統(tǒng)平臺(tái)的應(yīng)用

    模態(tài)模型驅(qū)動(dòng)的復(fù)雜環(huán)境精準(zhǔn)導(dǎo)航避障系統(tǒng)平臺(tái)的應(yīng)用
    的頭像 發(fā)表于 12-22 13:15 ?382次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>驅(qū)動(dòng)的復(fù)雜環(huán)境精準(zhǔn)導(dǎo)航避障系統(tǒng)平臺(tái)的應(yīng)用

    商湯科技正式發(fā)布并開源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 模態(tài)
    的頭像 發(fā)表于 12-08 11:19 ?1136次閱讀
    商湯科技正式發(fā)布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>架構(gòu)NEO

    格靈深瞳模態(tài)模型Glint-ME讓圖文互搜更精準(zhǔn)

    在電商、安防等場(chǎng)景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時(shí)理解文本、圖像、音頻乃至視頻,實(shí)現(xiàn)跨
    的頭像 發(fā)表于 11-02 15:56 ?1833次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>Glint-ME讓圖文互搜更精準(zhǔn)

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?350次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    商湯日日新V6.5模態(tài)模型登頂全球權(quán)威榜單

    根據(jù)權(quán)威評(píng)測(cè)平臺(tái)OpenCompass模態(tài)模型學(xué)術(shù)榜單(Multi-modal Academic Leaderboard)最新數(shù)據(jù)顯示,商湯「日日新 V6.5」(SenseNova-V6.5
    的頭像 發(fā)表于 09-10 09:55 ?917次閱讀

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進(jìn)為能同時(shí)看、聽、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?2691次閱讀

    自動(dòng)駕駛中Transformer模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動(dòng)駕駛領(lǐng)域,部分廠商開始嘗試將模態(tài)模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算力成本、安全需求與
    的頭像 發(fā)表于 08-13 09:15 ?4346次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>會(huì)取代深度<b class='flag-5'>學(xué)習(xí)</b>嗎?

    “端云+模態(tài)”新范式:《移遠(yuǎn)通信AI大模型技術(shù)方案白皮書》正式發(fā)布

    7月28日,移遠(yuǎn)通信聯(lián)合智次方研究院正式發(fā)布《AI大模型技術(shù)方案白皮書》(以下簡(jiǎn)稱“白皮書”)。這份白皮書系統(tǒng)梳理了AI大模型的技術(shù)特點(diǎn)、產(chǎn)業(yè)發(fā)展態(tài)勢(shì)與多元應(yīng)用場(chǎng)景,以及移遠(yuǎn)通信“端云+模態(tài)
    的頭像 發(fā)表于 07-28 13:08 ?1382次閱讀
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>”新范式:《移遠(yuǎn)通信AI大<b class='flag-5'>模型</b>技術(shù)方案白皮書》正式發(fā)布

    模態(tài)感知+豆包大模型!家居端側(cè)智能升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)日前,在火山引擎2025春季FORCE原動(dòng)力大會(huì)上,星宸科技股份有限公司董事副總經(jīng)理陳立敬談到,在人工智能技術(shù)飛速發(fā)展的時(shí)代,模態(tài)感知與大模型的融合成為推動(dòng)各行業(yè)變革
    的頭像 發(fā)表于 06-21 00:06 ?7300次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>感知+豆包大<b class='flag-5'>模型</b>!家居端側(cè)智能升級(jí)

    商湯日日新SenseNova融合模態(tài)模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)完成可信AI模態(tài)模型首輪評(píng)估。 商湯日日新SenseNova融合模態(tài)模型在所有
    的頭像 發(fā)表于 06-11 11:57 ?1543次閱讀

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們?cè)诙藗?cè)模態(tài)模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國(guó)內(nèi)最早開源的模態(tài)大模MiniCP
    的頭像 發(fā)表于 04-21 10:56 ?3656次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>