chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用TRansformer進(jìn)行端到端的目標(biāo)檢測(cè)及跟蹤

3D視覺工坊 ? 來源:計(jì)算機(jī)視覺研究院 ? 2023-04-18 09:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

現(xiàn)存的用檢測(cè)跟蹤的方法采用簡(jiǎn)單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過于簡(jiǎn)單,不足以建模復(fù)雜的變化,如通過遮擋跟蹤。

1

簡(jiǎn)要

多目標(biāo)跟蹤(MOT)任務(wù)的關(guān)鍵挑戰(zhàn)是跟蹤目標(biāo)下的時(shí)間建模?,F(xiàn)存的用檢測(cè)跟蹤的方法采用簡(jiǎn)單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過于簡(jiǎn)單,不足以建模復(fù)雜的變化,如通過遮擋跟蹤。所以現(xiàn)有的方法缺乏從數(shù)據(jù)中學(xué)習(xí)時(shí)間變化的能力。

ddad6866-dd74-11ed-bfe3-dac502259ad0.png

在今天分享中,研究者提出了第一個(gè)完全端到端多目標(biāo)跟蹤框架MOTR。它學(xué)習(xí)了模擬目標(biāo)的長(zhǎng)距離時(shí)間變化。它隱式地執(zhí)行時(shí)間關(guān)聯(lián),并避免了以前的顯式啟發(fā)式方法。MOTR建立在TRansformer和DETR之上,引入了“跟蹤查詢”的概念。每個(gè)跟蹤查詢都會(huì)模擬一個(gè)目標(biāo)的整個(gè)跟蹤。逐幀傳輸和更新,以無縫地執(zhí)行目標(biāo)檢測(cè)和跟蹤。提出了時(shí)間聚合網(wǎng)絡(luò)(Temporal aggregation network)結(jié)合多框架訓(xùn)練來建模長(zhǎng)期時(shí)間關(guān)系。實(shí)驗(yàn)結(jié)果表明,MOTR達(dá)到了最先進(jìn)的性能。

2

簡(jiǎn)單背景

多目標(biāo)跟蹤(MOT)是一種視覺目標(biāo)檢測(cè),其任務(wù)不僅是定位每一幀中的所有目標(biāo),而且還可以預(yù)測(cè)這些目標(biāo)在整個(gè)視頻序列中的運(yùn)動(dòng)軌跡。這個(gè)問題具有挑戰(zhàn)性,因?yàn)槊恳粠械哪繕?biāo)可能會(huì)在pool environment中被遮擋,而開發(fā)的跟蹤器可能會(huì)受到長(zhǎng)期和低速率跟蹤的影響。這些復(fù)雜而多樣的跟蹤方案在設(shè)計(jì)MOT解決方案時(shí)帶來了重大挑戰(zhàn)。

ddb96274-dd74-11ed-bfe3-dac502259ad0.png

對(duì)于基于IoU的方法,計(jì)算從兩個(gè)相鄰幀檢測(cè)到的檢測(cè)框的IoU矩陣,重疊高于給定閾值的邊界框與相同的身份相關(guān)聯(lián)(見上圖(a))。類似地,基于Re-ID的方法計(jì)算相鄰幀的特征相似性,并將目標(biāo)對(duì)與高相似性相關(guān)起來。此外,最近的一些工作還嘗試了目標(biāo)檢測(cè)和重識(shí)別特征學(xué)習(xí)的聯(lián)合訓(xùn)練(見上圖(b))。

由于DETR的巨大成功,這項(xiàng)工作將“目標(biāo)查詢”的概念擴(kuò)展到目標(biāo)跟蹤模型,在新框架中被稱為跟蹤查詢。每個(gè)跟蹤查詢都負(fù)責(zé)預(yù)測(cè)一個(gè)目標(biāo)的整個(gè)跟蹤。如上圖(c),與分類和框回歸分支并行,MOTR預(yù)測(cè)每一幀的跟蹤查詢集。

3

新框架分析

最近,DETR通過采用TRansformer成功地進(jìn)行了目標(biāo)檢測(cè)。在DETR中,目標(biāo)查詢,一個(gè)固定數(shù)量的學(xué)習(xí)位置嵌入,表示一些可能的實(shí)例的建議。一個(gè)目標(biāo)查詢只對(duì)應(yīng)于一個(gè)使用bipartite matching的對(duì)象??紤]到DETR中存在的高復(fù)雜性和慢收斂問題,Deformable DETR用多尺度deformable attention取代了self-attention。為了展示目標(biāo)查詢?nèi)绾瓮ㄟ^解碼器與特征交互,研究者重新制定了Deformable DETR的解碼器。

ddbfda64-dd74-11ed-bfe3-dac502259ad0.png

MOTR

在MOTR中,研究者引入了跟蹤查詢和連續(xù)查詢傳遞,以完全端到端的方式執(zhí)行跟蹤預(yù)測(cè)。進(jìn)一步提出了時(shí)間聚合網(wǎng)絡(luò)來增強(qiáng)多幀的時(shí)間信息。

ddc6430e-dd74-11ed-bfe3-dac502259ad0.png

DETR中引入的目標(biāo)(檢測(cè))查詢不負(fù)責(zé)對(duì)特定目標(biāo)的預(yù)測(cè)。因此,一個(gè)目標(biāo)查詢可以隨著輸入圖像的變化而預(yù)測(cè)不同的目標(biāo)。當(dāng)在MOT數(shù)據(jù)集的示例上使用DETR檢測(cè)器時(shí),如上圖(a),相同檢測(cè)查詢(綠色目標(biāo)查詢)預(yù)測(cè)兩個(gè)不同幀預(yù)測(cè)兩個(gè)不同的目標(biāo)。因此,很難通過目標(biāo)查詢的身份來將檢測(cè)預(yù)測(cè)作為跟蹤值聯(lián)系起來。作為一種補(bǔ)救措施,研究者將目標(biāo)查詢擴(kuò)展到目標(biāo)跟蹤模型,即跟蹤查詢。在新的設(shè)計(jì)中,每個(gè)軌跡查詢都負(fù)責(zé)預(yù)測(cè)一個(gè)目標(biāo)的整個(gè)軌跡。一旦跟蹤查詢與幀中的一個(gè)目標(biāo)匹配,它總是預(yù)測(cè)目標(biāo),直到目標(biāo)消失(見上圖(b))。

ddd03396-dd74-11ed-bfe3-dac502259ad0.png

Overall architecture of the proposed MOTR

Query Interaction Module

在訓(xùn)練階段,可以基于對(duì)bipartite matching的GTs的監(jiān)督來實(shí)現(xiàn)跟蹤查詢的學(xué)習(xí)。而對(duì)于推斷,研究者使用預(yù)測(cè)的軌跡分?jǐn)?shù)來確定軌道何時(shí)出現(xiàn)和消失。

dddc4938-dd74-11ed-bfe3-dac502259ad0.png

Overall Optimization

我們?cè)敿?xì)描述下MOTR的訓(xùn)練過程。給定一個(gè)視頻序列作為輸入,訓(xùn)練損失,即track loss,是逐幀計(jì)算和逐幀生成的預(yù)測(cè)??倀rack loss是由訓(xùn)練樣本上的所有GT的數(shù)量歸一化的所有幀的track loss的總和:

dde3c58c-dd74-11ed-bfe3-dac502259ad0.png

單幀圖像Lt的track loss可表示為:

dde90a24-dd74-11ed-bfe3-dac502259ad0.png

4

實(shí)驗(yàn)

ddf1574c-dd74-11ed-bfe3-dac502259ad0.png

Implementation Details

All the experiments are conducted on PyTorch with 8Tesla V100 GPUs. We use the Deformable-DETR withResNet50 as our basic network. The basic network ispretrained on the COCO detection dataset.We trainour model with the AdamW optimizer for total 200 epochswith the initial learning rate of 2.0 · 10?4. The learning ratedecays to 2.0 · 10?5 at 150 epochs. The batch size is set to1 and each batch contains 5 frames.

ddfda3a8-dd74-11ed-bfe3-dac502259ad0.png

The effect of multi-frame continuous query passing on solving ID switch problem. When the length of video sequence is setto two (top), the objects that are occluded will miss and switch the identity. When improving the video sequence length from two to five(bottom), the track will not occur the ID switch problem with the help of enhanced temporal relation.

de2b7882-dd74-11ed-bfe3-dac502259ad0.png






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1218

    瀏覽量

    43257
  • 檢測(cè)器
    +關(guān)注

    關(guān)注

    1

    文章

    929

    瀏覽量

    49893
  • MOT
    MOT
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    7354

原文標(biāo)題:利用TRansformer進(jìn)行端到端的目標(biāo)檢測(cè)及跟蹤(附源代碼)

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    端下半場(chǎng),如何做好高保真虛擬數(shù)據(jù)集的構(gòu)建與感知?

    。然而模型對(duì)數(shù)據(jù)分布的廣度與深度均有著高要求,尤其是對(duì)缺乏歸納偏置的Transformer架構(gòu)而言,“數(shù)據(jù)規(guī)模”與“場(chǎng)景覆蓋度”可謂直接決定了模型上限?,F(xiàn)實(shí)
    的頭像 發(fā)表于 12-29 11:39 ?1775次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b>端下半場(chǎng),如何做好高保真虛擬數(shù)據(jù)集的構(gòu)建與感知?

    Nullmax感知規(guī)劃大模型進(jìn)化提速

    近日,2025年度浦東新區(qū)科技發(fā)展基金社會(huì)領(lǐng)域數(shù)字化轉(zhuǎn)型專項(xiàng)擬支持項(xiàng)目名單公布。經(jīng)評(píng)審,Nullmax申報(bào)的《面向城市高級(jí)別輔助駕駛的感知規(guī)劃大模型》項(xiàng)目入選。
    的頭像 發(fā)表于 12-22 16:39 ?482次閱讀

    如何訓(xùn)練好自動(dòng)駕駛模型?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近有位小伙伴在后臺(tái)留言提問:算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和離線強(qiáng)化學(xué)習(xí)這三類嗎?其實(shí)
    的頭像 發(fā)表于 12-08 16:31 ?1404次閱讀
    如何訓(xùn)練好自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?

    隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,車企和科技公司對(duì)于模擬測(cè)試平臺(tái)的需求越來越強(qiáng)。從L2/ADASL4/L5等級(jí)的自動(dòng)駕駛,虛擬模擬已經(jīng)成為其中的關(guān)鍵一環(huán)。特別是對(duì)于「對(duì)」智駕(
    的頭像 發(fā)表于 11-18 11:35 ?796次閱讀

    Nullmax軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會(huì) AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團(tuán)隊(duì)的軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗精的軌跡預(yù)測(cè)框架——DiffRefin
    的頭像 發(fā)表于 11-12 10:53 ?839次閱讀

    自動(dòng)駕駛中仿真與基于規(guī)則的仿真有什么區(qū)別?

    在自動(dòng)駕駛領(lǐng)域,“仿真”指的是將感知控制的整個(gè)決策鏈條視為一個(gè)整體,從而進(jìn)行訓(xùn)練和驗(yàn)證的思路。
    的頭像 發(fā)表于 11-02 11:33 ?1680次閱讀

    自動(dòng)駕駛中“一段式”和“二段式”有什么區(qū)別?

    攝像頭、毫米波雷達(dá)、激光雷達(dá)等信號(hào),便可以直接輸出轉(zhuǎn)向、油門、剎車或者軌跡指令。一段式就是用一個(gè)整體模型完成這個(gè)任務(wù),從傳感器控制,中間不拆成多個(gè)模塊,訓(xùn)練的
    的頭像 發(fā)表于 10-24 09:03 ?1120次閱讀
    自動(dòng)駕駛中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    廣和通發(fā)布側(cè)目標(biāo)檢測(cè)模型FiboDet

    為提升側(cè)設(shè)備視覺感知與決策能力,廣和通全自研側(cè)目標(biāo)檢測(cè)模型FiboDet應(yīng)運(yùn)而生。該模型基于廣和通在邊緣計(jì)算與人工智能領(lǐng)域的深度積累,面向工業(yè)、交通、零售等多個(gè)行業(yè)提供高性能、低功
    的頭像 發(fā)表于 09-26 13:39 ?1588次閱讀

    蔚來模型化架構(gòu)如何大幅提升安全上限

    2024年7月,蔚來將行業(yè)首個(gè)基于模型化架構(gòu)的「自動(dòng)緊急制動(dòng) AEB」推送上車,蔚來也成為了行業(yè)首家使用
    的頭像 發(fā)表于 08-15 15:35 ?907次閱讀

    Transformer自動(dòng)駕駛架構(gòu)中是何定位?

    狀態(tài)的主觀理解。隨后,該模型再將理解結(jié)果交由行為規(guī)劃子模塊去執(zhí)行,使得端過程具有一定結(jié)構(gòu)化邏輯,從而兼顧可解釋性與泛化能力。
    的頭像 發(fā)表于 08-03 11:03 ?1348次閱讀

    Nullmax自動(dòng)駕駛最新研究成果入選ICCV 2025

    近日,國(guó)際計(jì)算機(jī)視覺大會(huì) ICCV 2025 正式公布論文錄用結(jié)果,Nullmax 感知團(tuán)隊(duì)在自動(dòng)駕駛方向的最新研究成果《HiP-AD: Hierarchical
    的頭像 發(fā)表于 07-05 15:40 ?1786次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛最新研究成果入選ICCV 2025

    為什么自動(dòng)駕駛大模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)落地,(End-to-End)大模型也成為行業(yè)研究與應(yīng)用的熱門方向。相較于傳統(tǒng)自動(dòng)駕駛系統(tǒng)中的模塊化結(jié)構(gòu),
    的頭像 發(fā)表于 07-04 16:50 ?866次閱讀
    為什么自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    一文帶你厘清自動(dòng)駕駛架構(gòu)差異

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計(jì)思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感知、預(yù)測(cè)、規(guī)劃和控制等子任務(wù)拆分開,分別由不
    的頭像 發(fā)表于 05-08 09:07 ?1008次閱讀
    一文帶你厘清自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    小米汽車智駕技術(shù)介紹

    后起之秀,小米在宣布造車前被非常多的人質(zhì)疑,但在“真香”定律下,小米創(chuàng)下了很多友商所不能及的成就。作為科技企業(yè),小米也在智能駕駛領(lǐng)域也不斷研發(fā)及突破,并推送了自動(dòng)駕駛系統(tǒng)。 小米
    的頭像 發(fā)表于 03-31 18:17 ?5187次閱讀
    小米汽車<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>智駕技術(shù)介紹

    國(guó)產(chǎn)萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡(luò)解決方案

    國(guó)產(chǎn)萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡(luò)解決方案
    的頭像 發(fā)表于 02-28 10:01 ?1186次閱讀
    國(guó)產(chǎn)萬兆以太網(wǎng)通信芯片提供<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的車載網(wǎng)絡(luò)解決方案