chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用ImageNet訓(xùn)練了一個(gè)能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型

深度學(xué)習(xí)實(shí)戰(zhàn) ? 來(lái)源:深度學(xué)習(xí)實(shí)戰(zhàn) ? 作者:深度學(xué)習(xí)實(shí)戰(zhàn) ? 2021-03-03 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說(shuō)到Transformer,大家可能會(huì)想到BERT[1]、GPT-3[2]等等,這些都是利用無(wú)監(jiān)督訓(xùn)練的大型預(yù)訓(xùn)練模型。既然Transformer也能用在CV上,那么能不能做類(lèi)似的事情呢?這篇論文利用ImageNet訓(xùn)練了一個(gè)能降噪、超分和去雨的圖像預(yù)訓(xùn)練模型(IPT)。

Motivation

目前很多l(xiāng)ow-level的task其實(shí)都是有一定相關(guān)性的,就是在一個(gè)low-level task上預(yù)訓(xùn)練對(duì)另一個(gè)task是有幫助的,但是目前幾乎沒(méi)有人去做相關(guān)的工作。而且pre-training在某些數(shù)據(jù)稀缺的task上就很有必要,并且無(wú)論在CV還是NLP,使用pre-trained model是非常常見(jiàn)的事情。對(duì)于一些輸入和輸出都是image的low-level算法來(lái)說(shuō),目前的pre-trained model顯然是不適合的。

準(zhǔn)備數(shù)據(jù)集

因?yàn)門(mén)ransformer需要大量的數(shù)據(jù)去擬合,所以必須使用一個(gè)大型的數(shù)據(jù)集。在這篇論文中,作者用的是imagenet。對(duì)于imagenet的每一張圖片生成各種任務(wù)對(duì)應(yīng)的圖像對(duì),例如對(duì)于超分(super-resolution)來(lái)說(shuō),模型的輸入數(shù)據(jù)是imagenet經(jīng)過(guò)下采樣的數(shù)據(jù),而標(biāo)簽是原圖。

IPT

在上篇文章介紹過(guò)了,因?yàn)門(mén)ransformer本身是用于NLP領(lǐng)域的,輸入應(yīng)該是一個(gè)序列,因此這篇的論文做法和ViT[3]一樣,首先需要把feature map分塊,每個(gè)patch則視為一個(gè)word。但是不同的是,因?yàn)镮PT是同時(shí)訓(xùn)練多個(gè)task,因此模型定義了多個(gè)head和tail分別對(duì)應(yīng)不同的task。

整個(gè)模型架構(gòu)包含四個(gè)部分:用于提取特征的heads、Transformer Encoder、Transformer Decoder和把feature map還原成輸出的tails。

Heads

不同的head對(duì)應(yīng)于不同的task,由于IPT需要處理多個(gè)task,因此是一個(gè)multi-head的結(jié)構(gòu),每個(gè)head由3層卷積層組成。Heads要完成的任務(wù)可以描述為:fH = Hi(x),x是輸入圖像,f是第i個(gè)Head的輸出。

Transformer encoder

在輸入Transformer前,需要將Head輸出的feature map分成一個(gè)個(gè)patch,同樣還需要加入位置編碼信息,與ViT不同,這里是直接相加就可以作為T(mén)ransformer Encoder的輸入了,不需要做linear projection。

ef62fdc4-778b-11eb-8b86-12bb97331649.png

fpi是feature map的一個(gè)patch,Epi∈ RP*P×C是fpi的learnable position encoding。LN是layer normalization,MSA是多頭self-attention模塊,F(xiàn)FN是feed forward network。

Transformer decoder

Transformer decoder的輸入時(shí)encoder的輸出和task embedding。這些task embedding是可訓(xùn)練的,不同的task embedding代表處理不同的task。decoder的計(jì)算可以表示如下:

efacf5dc-778b-11eb-8b86-12bb97331649.png

fEi是指encoder的輸出,fDi是指decoder的輸出。

Tails

Tails與Heads是相對(duì)應(yīng)的,但是不同的tail的輸出的大小可能不一樣,例如超分,做超分時(shí)輸出比輸入的圖像大,因此與其它的tail輸出的大小可能不一樣。

Loss

loss由兩部分組成,分別是Lcontrastive和Lsupervised的加權(quán)和。

Lsupervised是指IPT的輸出與label的L1 loss。

加入Lcontrastive是為了最小化Transformer decoder對(duì)于來(lái)自同一張圖的不同patch的輸出的距離,最大化對(duì)于不同圖片的patch之間的輸出的距離。

實(shí)驗(yàn)與結(jié)果

作者用了32塊NVIDIA Tesla V100,以256的batch size訓(xùn)練了200個(gè)epoch。

Reference

[1]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: Pre-training of deep bidirectionaltransformers for language understanding. arXiv preprintarXiv:1810.04805, 2018.

[2]Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners. arXiv preprintarXiv:2005.14165, 2020.

[3]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3810

    瀏覽量

    52251
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26258
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23337

原文標(biāo)題:視覺(jué)新范式Transformer之IPT

文章出處:【微信號(hào):gh_a204797f977b,微信公眾號(hào):深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    人工智能多模態(tài)與視覺(jué)大模型開(kāi)發(fā)實(shí)戰(zhàn) - 2026必會(huì)

    提高數(shù)據(jù)的質(zhì)量和致性,為后續(xù)的模型訓(xùn)練做好準(zhǔn)備。 模型訓(xùn)練是核心環(huán)節(jié),學(xué)員們將使用預(yù)
    發(fā)表于 04-15 16:06

    AI模型訓(xùn)練與部署實(shí)戰(zhàn) | 線下免費(fèi)培訓(xùn)

    你是否想系統(tǒng)了解AI落地全鏈路,但缺少個(gè)完整的實(shí)戰(zhàn)項(xiàng)目練手?模型部署環(huán)節(jié)繁多,缺乏套清晰的實(shí)戰(zhàn)路徑?4月18日、4月25日、5月16日RT-Thread將分別在蘇州、成都、南京舉辦
    的頭像 發(fā)表于 04-07 13:08 ?588次閱讀
    AI<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>與部署實(shí)戰(zhàn) | 線下免費(fèi)培訓(xùn)

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。個(gè)萬(wàn)億參數(shù)大模型
    的頭像 發(fā)表于 02-05 16:07 ?998次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    SAM(通用圖像分割基礎(chǔ)模型)丨基于BM1684X模型部署指南

    前言SAM是Meta提出的個(gè)分割切的提示型模型,其在1100萬(wàn)張圖像訓(xùn)練了超過(guò)10億
    的頭像 發(fā)表于 01-12 16:17 ?472次閱讀
    SAM(通用<b class='flag-5'>圖像</b>分割基礎(chǔ)<b class='flag-5'>模型</b>)丨基于BM1684X<b class='flag-5'>模型</b>部署指南

    自動(dòng)駕駛大模型訓(xùn)練數(shù)據(jù)有什么具體要求?

    [首發(fā)于智駕最前沿微信公眾號(hào)]想訓(xùn)練個(gè)可以落地的自動(dòng)駕駛大模型,不是簡(jiǎn)單地給其提供幾張圖片,幾條規(guī)則就可以的,而是需要非常多的多樣的、真實(shí)的駕駛數(shù)據(jù),從而可以讓大
    的頭像 發(fā)表于 12-26 09:32 ?349次閱讀
    自動(dòng)駕駛大<b class='flag-5'>模型</b>的<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)有什么具體要求?

    如何將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型部署到蜂鳥(niǎo)e203開(kāi)發(fā)板上

    ;output_tensor(0);// 假設(shè)只有個(gè)輸出張量4. 將輸入圖像數(shù)據(jù)傳遞給輸入張量: // 假設(shè)input_image是您要進(jìn)行預(yù)測(cè)的輸入圖像數(shù)據(jù)uint8_t* in
    發(fā)表于 10-22 08:04

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫(xiě)數(shù)字識(shí)別。
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬(wàn)億參數(shù)級(jí)別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對(duì)研發(fā)和運(yùn)維團(tuán)隊(duì)都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓(xùn)練框架,提供了靈
    的頭像 發(fā)表于 10-21 10:55 ?1366次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架提高顯存使用效率

    文看懂AI訓(xùn)練、推理與訓(xùn)推體的底層關(guān)系

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持很多人聽(tīng)過(guò)“大模型”,但沒(méi)搞懂兩件事。我們總說(shuō)AI有多強(qiáng),但真正決定AI能否落地的,是它的兩個(gè)階段:訓(xùn)練(Training)和推理
    的頭像 發(fā)表于 09-19 11:58 ?2846次閱讀
    <b class='flag-5'>一</b>文看懂AI<b class='flag-5'>訓(xùn)練</b>、推理與訓(xùn)推<b class='flag-5'>一</b>體的底層關(guān)系

    基于大規(guī)模人類(lèi)操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來(lái),機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類(lèi)方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1205次閱讀
    基于大規(guī)模人類(lèi)操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒(méi)有中文 查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
    發(fā)表于 07-30 08:15

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò)怎么解決?

    我這運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò),所以沒(méi)法做kmodel模型好壞驗(yàn)證,不知道怎么解決這個(gè)問(wèn)題,重新訓(xùn)練
    發(fā)表于 06-10 08:02

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型模型升級(jí)AI攝像機(jī),進(jìn)行AI識(shí)別應(yīng)用。 AI訓(xùn)練模型是不斷迭
    發(fā)表于 04-28 11:11

    模型時(shí)代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類(lèi)顯卡 RTX-4090只需大約35~40個(gè)小時(shí) ,即可完成ResNet50模型預(yù)
    的頭像 發(fā)表于 04-25 11:43 ?953次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的深度學(xué)習(xí)框架