chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中提出的新方法,來(lái)探索未知環(huán)境

電子工程師 ? 來(lái)源:lp ? 2019-03-05 09:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CVPR 2019 接收論文編號(hào)公布以來(lái),AI科技大本營(yíng)開(kāi)始陸續(xù)為大家介紹一些優(yōu)秀論文。今天推薦的論文,將與大家一起探討一種在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中提出的新方法,來(lái)探索未知環(huán)境。

作者

這篇論文是 UC Santa Barbara 大學(xué)(加州大學(xué)圣巴巴拉分校)與微軟研究院、Duke 大學(xué)合作完成,第一作者系 UC Santa Barbara 大學(xué)的王鑫。

據(jù) UC Santa Barbara 計(jì)算機(jī)科學(xué)系助理教授王威廉在其個(gè)人微博上發(fā)表的喜訊,這篇論文的一作是其組內(nèi)的成員,獲得了 3 個(gè) Strong Accept,在 5165 篇投稿文章中審稿得分排名第一,并且這篇論文已經(jīng)確定將在 6 月的 CVPR 會(huì)議上進(jìn)行報(bào)告。

這篇論文解決的任務(wù) vision-language navigation(VLN)我們之前介紹的并不多,所以,這次營(yíng)長(zhǎng)會(huì)先給大家簡(jiǎn)單介紹 VLN,然后從這項(xiàng)任務(wù)存在的難點(diǎn)到解決方法、實(shí)驗(yàn)效果等方面為大家介紹,感興趣的小伙伴們可以從文末的地址下載論文,詳細(xì)閱讀。

什么是 VLN?

視覺(jué)語(yǔ)言導(dǎo)航(vision-language navigation, VLN)任務(wù)指的是引導(dǎo)智能體或機(jī)器人在真實(shí)三維場(chǎng)景中能理解自然語(yǔ)言命令并準(zhǔn)確執(zhí)行。結(jié)合下面這張圖再形象、通俗一點(diǎn)解釋:假如智能體接收到“向右轉(zhuǎn),徑直走向廚房,然后左轉(zhuǎn),經(jīng)過(guò)一張桌子后進(jìn)入走廊...”等一系列語(yǔ)言命令,它需要分析指令中的物體和動(dòng)作指令,在只能看到一部分場(chǎng)景內(nèi)容的情況下,腦補(bǔ)整個(gè)全局圖,并正確執(zhí)行命令。所以這是一個(gè)結(jié)合 NLP 和 CV 兩大領(lǐng)域,一項(xiàng)非常有挑戰(zhàn)性的任務(wù)。

難點(diǎn)

雖然我們理解這項(xiàng)任務(wù)好像不是很難,但是放到 AI 智能體上并不像我們理解起來(lái)那么容易。對(duì) AI 智能體來(lái)說(shuō),這項(xiàng)任務(wù)通常存在三大難點(diǎn):

難點(diǎn)一:跨模態(tài)的基標(biāo)對(duì)準(zhǔn)(cross-modal grounding);簡(jiǎn)單解釋就是將NLP 的指令與 CV 場(chǎng)景相對(duì)應(yīng)。

難點(diǎn)二:不適定反饋(ill-posed feedback);就是通常一句話里面包含多個(gè)指令,但并不是每個(gè)指令都會(huì)進(jìn)行反饋,只有最終完成任務(wù)才有反饋,所以難以判斷智能體是否完全按照指令完成任務(wù)。

難點(diǎn)三:泛化能力問(wèn)題;由于環(huán)境差異大,VLN 的模型難以泛化。

那這篇論文中,作者又做了哪些工作,獲得了評(píng)委們的一致青睞,獲得了 3 個(gè) Strong Accept 呢?方法來(lái)了~

方法

1、RCM(Reinforced Cross-Modal Matching)模型

針對(duì)第一和第二難點(diǎn),論文提出了一種全新的強(qiáng)化型跨模態(tài)匹配(RCM)方法,用強(qiáng)化學(xué)習(xí)方法將局部和全局的場(chǎng)景聯(lián)系起來(lái)。

RCM 模型主要由兩個(gè)模塊構(gòu)成:推理導(dǎo)航器和匹配度評(píng)估器。如圖所示,通過(guò)訓(xùn)練其中綠色的導(dǎo)航器,讓它學(xué)會(huì)理解局部的跨模態(tài)場(chǎng)景,推斷潛在的指令,并生成一系列動(dòng)作序列。另外,論文還設(shè)置了匹配度評(píng)估器(Matching Critic)和循環(huán)重建獎(jiǎng)勵(lì)機(jī)制,用于評(píng)價(jià)原始指令與導(dǎo)航器生成的軌跡之間的對(duì)齊情況,幫助智能體理解語(yǔ)言輸入,并且懲罰不符合語(yǔ)言指令的軌跡。

以上的方法僅僅是解決了第一個(gè)難點(diǎn),所以論文還提出了一個(gè)由環(huán)境驅(qū)動(dòng)的外部獎(jiǎng)勵(lì)函數(shù),用于度量每個(gè)動(dòng)作成功的信合和導(dǎo)航器之間的誤差。

2、SIL(Self-supervised Imitation Learning)方法

為了解決第三個(gè)難點(diǎn),論文提出了一種自監(jiān)督模仿學(xué)習(xí)(Self-supervised Imitation Learning, SIL),其目的是讓智能體能夠自主的探索未知的環(huán)境。其具體做法是,對(duì)于一個(gè)從未見(jiàn)過(guò)的語(yǔ)言指令和目標(biāo)位置,導(dǎo)航器會(huì)得到一組可能的軌跡并將其中最優(yōu)的軌跡(采用匹配度評(píng)估器)保存到緩沖區(qū)中,然后匹配度評(píng)估器會(huì)使用之前介紹的循環(huán)重建獎(jiǎng)勵(lì)機(jī)制來(lái)評(píng)估軌跡,SIL方法可以與多種學(xué)習(xí)方法想結(jié)合,通過(guò)模仿自己之前的最佳表現(xiàn)來(lái)得到更優(yōu)的策略。

測(cè)試結(jié)果

1、測(cè)試集:R2R(Room-to-Room)Dataset;視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中一個(gè)真實(shí) 3D環(huán)境的數(shù)據(jù)集,包含 7189 條路徑,捕捉了大部分的視覺(jué)多樣性,21567 條人工注釋指令,其平均長(zhǎng)度為 29 個(gè)單詞。

2、評(píng)價(jià)指標(biāo)

PL:路徑長(zhǎng)度(Path Length)

NE:導(dǎo)航誤差(Navigation Error)

OSR:Oracle 成功率(Oracle Success Rate

SR:成功率( Success Rate)

SPL:反向路徑長(zhǎng)度的加權(quán)成功率(Success rate weighted by inverse Path Length)

3、實(shí)驗(yàn)對(duì)比:與 SOTA 進(jìn)行對(duì)比,此前在 R2R 數(shù)據(jù)集上效果最優(yōu)的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

測(cè)試結(jié)果顯示,RCM 模型的效果在 SPL 指標(biāo)上明顯優(yōu)于當(dāng)前的最優(yōu)結(jié)果。

并且在 SIL 方法學(xué)習(xí)后,學(xué)習(xí)效率也有明顯的提高,在見(jiàn)過(guò)和未見(jiàn)過(guò)的場(chǎng)景驗(yàn)證集上,并可視化了其內(nèi)部獎(jiǎng)勵(lì)指標(biāo)。

論文地址:

https://arxiv.org/pdf/1811.10092.pdf

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    455

    瀏覽量

    11597
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13975
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23270

原文標(biāo)題:CVPR 2019審稿滿分論文:中國(guó)博士提出融合CV與NLP的視覺(jué)語(yǔ)言導(dǎo)航新方法

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用于窄帶匹配高速射頻ADC的全新方法

    本期,為大家?guī)?lái)的是《用于窄帶匹配高速射頻 ADC 的全新方法》,介紹了一種用于窄帶匹配高速射頻 ADC 的全新方法,以解決高中間頻率系統(tǒng)中 ADC 前端窄帶匹配的設(shè)計(jì)難題,可在 ADC 額定帶寬內(nèi)應(yīng)用,能提升 ADC 性能、減
    的頭像 發(fā)表于 01-04 15:56 ?6007次閱讀
    用于窄帶匹配高速射頻ADC的全<b class='flag-5'>新方法</b>

    奧松電子榮獲2025年中國(guó)創(chuàng)新方法大賽全國(guó)總決賽二等獎(jiǎng)

    2025年11月18日-21日,2025年中國(guó)創(chuàng)新方法大賽總決賽山東省泰安市成功舉辦。國(guó)內(nèi)MEMS智能傳感器與半導(dǎo)體關(guān)鍵零部件領(lǐng)域的國(guó)家級(jí)專精特新“小巨人”企業(yè)——廣州奧松電子股份有限公司,憑借
    的頭像 發(fā)表于 12-05 15:17 ?592次閱讀

    ??低晿s獲2025年中國(guó)創(chuàng)新方法大賽總決賽金獎(jiǎng)

    近日,2025年中國(guó)創(chuàng)新方法大賽圓滿落幕。??低晳{借《工業(yè)聽(tīng)診師——超長(zhǎng)距離皮帶運(yùn)輸機(jī)托輥聲紋監(jiān)測(cè)系統(tǒng)》項(xiàng)目脫穎而出,斬獲全國(guó)總決賽唯金獎(jiǎng)。
    的頭像 發(fā)表于 12-04 10:55 ?483次閱讀

    AGV視覺(jué)導(dǎo)航:智能物流的“智慧之眼”

    獲取移動(dòng)物體空間中所處的位置、方向和其他環(huán)境信息,并用定的算法對(duì)所獲信息進(jìn)行處理,建立環(huán)境模型,進(jìn)而尋找條最優(yōu)或近似最優(yōu)的無(wú)碰路徑,實(shí)
    的頭像 發(fā)表于 11-04 15:54 ?538次閱讀
    AGV<b class='flag-5'>視覺(jué)</b><b class='flag-5'>導(dǎo)航</b>:智能物流的“智慧之眼”

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    計(jì)算 閃存的新穎方法代表了一種多用途的管理模型權(quán)重的策略,它根據(jù)輸入的性質(zhì)提升性能,從而增強(qiáng)所提出的方案各種大模型場(chǎng)景中的有效性、可用性和實(shí)用性。 3、基于GPU的大模型計(jì)算 3.
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+內(nèi)容總覽

    ,其中第章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法和架構(gòu)。以及些新型的算法和思路。第四章是全面介紹半導(dǎo)體芯產(chǎn)業(yè)的前沿技術(shù),包括新型晶體管
    發(fā)表于 09-05 15:10

    基于直接反電動(dòng)勢(shì)法的無(wú)刷直流電機(jī)準(zhǔn)確換相新方法

    或滯后換相的情況,通過(guò)設(shè)置合理的延遲時(shí)間來(lái)實(shí)現(xiàn)最佳換相,針對(duì)實(shí)際電機(jī)存在反電動(dòng)勢(shì)過(guò)零點(diǎn)分布不均勻的情況,根據(jù)過(guò)零點(diǎn)間隔時(shí)間存在著周期性規(guī)律,提出一種新的延遲時(shí)間設(shè)置方法,使換相點(diǎn)位于相
    發(fā)表于 08-07 13:40

    基于硬件的無(wú)位置傳感器無(wú)刷直流電機(jī)啟動(dòng)新方法

    針對(duì)傳統(tǒng)的無(wú)位置傳感器無(wú)刷直流電機(jī)控制的起動(dòng)需采用復(fù)雜的軟件、成本高、定位不準(zhǔn)確、容易堵轉(zhuǎn)的缺陷,提出一種通過(guò)檢測(cè)線電壓差獲得轉(zhuǎn)子位置的方法提出
    發(fā)表于 08-07 13:30

    基于直接反電動(dòng)勢(shì)法的無(wú)刷直流電機(jī)準(zhǔn)確換相新方法

    運(yùn)行時(shí)存在超前換相或滯后換相的情況,通過(guò)設(shè)置合理的延遲時(shí)間來(lái)實(shí)現(xiàn)最佳換相,針對(duì)實(shí)際電機(jī)存在反電動(dòng)勢(shì)過(guò)零點(diǎn)分布不均勻的情況,根據(jù)過(guò)零點(diǎn)間隔時(shí)間存在著周期性規(guī)律,提出一種新的延遲時(shí)間設(shè)置方法
    發(fā)表于 07-30 16:00

    芯片制造中高精度膜厚測(cè)量與校準(zhǔn):基于紅外干涉技術(shù)的新方法

    、環(huán)境光干擾及薄膜傾斜等因素限制,測(cè)量精度難以滿足高精度工業(yè)需求。為此,本研究提出一種融合紅外干涉與激光校準(zhǔn)的薄膜厚度測(cè)量新方法,旨在突破傳統(tǒng)技術(shù)瓶頸,實(shí)現(xiàn)更精準(zhǔn)、
    的頭像 發(fā)表于 07-21 18:17 ?2870次閱讀
    芯片制造中高精度膜厚測(cè)量與校準(zhǔn):基于紅外干涉技術(shù)的<b class='flag-5'>新方法</b>

    無(wú)刷直流電機(jī)轉(zhuǎn)矩脈動(dòng)抑制新方法

    轉(zhuǎn)矩脈動(dòng)是影響無(wú)劇直流電機(jī)高精度伺服系統(tǒng)中應(yīng)用的主要原因。提出一種基于a-p變換和Lyapunov函數(shù)的轉(zhuǎn)矩脈動(dòng)抑制直接功率控制方法。該方法
    發(fā)表于 07-09 14:12

    Aux-Think打破視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的常規(guī)推理范式

    視覺(jué)語(yǔ)言導(dǎo)航(VLN)任務(wù)的核心挑戰(zhàn),是讓機(jī)器人在復(fù)雜環(huán)境中聽(tīng)懂指令、看懂世界,并果斷行動(dòng)。我們系統(tǒng)性地引入推理
    的頭像 發(fā)表于 07-08 10:00 ?616次閱讀
    Aux-Think打破<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>導(dǎo)航</b><b class='flag-5'>任務(wù)</b>的常規(guī)推理范式

    無(wú)刷直流電機(jī)滑模觀測(cè)器參數(shù)優(yōu)化設(shè)計(jì)方法

    摘要:滑模反電勢(shì)觀測(cè)器的增益參數(shù)會(huì)影響觀測(cè)器的收斂速度以及動(dòng)態(tài)響應(yīng)性能,常見(jiàn)的設(shè)計(jì)方法是基于觀測(cè)器穩(wěn)定性理論進(jìn)行設(shè)計(jì)。提出一種利用遺傳算法穩(wěn)定域內(nèi)搜索觀測(cè)誤差最小的增益參數(shù)的
    發(fā)表于 06-27 16:48

    無(wú)刷直流電機(jī)反電勢(shì)過(guò)零檢測(cè)新方法

    摘 要:無(wú)位置傳感器無(wú)刷直流電機(jī)高速段時(shí)反電勢(shì)信號(hào)過(guò)大,容易造成檢測(cè)電路無(wú)法正常工作其至損壞,而在較低速段時(shí),反電勢(shì)信號(hào)又難以有效檢測(cè)。針對(duì)反電勢(shì)過(guò)零檢測(cè)極端速段的問(wèn)題,提出一種
    發(fā)表于 06-26 13:50

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?8653次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b>模型)?詳細(xì)解析