chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種具有強記憶力的 E3D-LSTM網(wǎng)絡(luò),強化了LSTM的長時記憶能力

DPVg_AI_era ? 來源:lq ? 2019-09-01 07:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

清華大學(xué)、Google AI 和斯坦福大學(xué)李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網(wǎng)絡(luò),強化了 LSTM 的長時記憶能力,這為視頻預(yù)測、動作分類等相關(guān)問題提供了新思路,是一項非常具有啟發(fā)性的工作。 如何對時間序列進行時空建模及特征抽取,是 RGB 視頻預(yù)測分類,動作識別,姿態(tài)估計等相關(guān)領(lǐng)域的研究熱點。 清華大學(xué)、Google AI 和斯坦福大學(xué)李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網(wǎng)絡(luò),用 3D 卷積代替 2D 卷積作為 LSTM 網(wǎng)絡(luò)的基礎(chǔ)計算操作,并加入自注意力機制,使網(wǎng)絡(luò)能同時兼顧長時和短時信息依賴以及局部時空特征抽取。 這為視頻預(yù)測、動作分類等相關(guān)問題提供了新思路,是一項非常具有啟發(fā)性的工作。

時間序列的時空建模問題 現(xiàn)實生活中許多數(shù)據(jù)都同時具有時間特征和空間特征,例如人體的運動軌跡,連續(xù)幀的視頻等,每個時間點都對應(yīng)一組數(shù)據(jù),而數(shù)據(jù)往往又具有一定的空間特征。因此要在這樣的時間序列數(shù)據(jù)上開展分類,預(yù)測等工作,就必須在時間(temporal)和空間 (spatial) 上對其進行建模和特征抽取。常用的時間建模工具是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相關(guān)模型(LSTM 等),由于其特有的門結(jié)構(gòu)設(shè)計,對時間序列特征具有強大的抽取能力,因此被廣泛應(yīng)用于預(yù)測問題并取得了良好的成果,但是 RNN 并不能很好的學(xué)習(xí)到原始特征的高階表示,這不利于對空間信息的提取??臻g建模則當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò)(CNN),其具有強大的空間特征抽取能力,其中3D-CNN又能將卷積核可控范圍擴大到時域上,相對于 2D 卷積靈活性更高,能學(xué)習(xí)到更多的運動信息(motion 信息),相對于 RNN 則更有利于學(xué)習(xí)到信息的高級表示(層數(shù)越深,信息越高級),是目前動作識別領(lǐng)域的流行方法。當(dāng)然 3D 卷積的時間特征抽取能力并不能和 RNN 媲美。 得益于 3D 卷積和 RNN 在各自領(lǐng)域的成功,如何進一步將二者結(jié)合起來使用也成為了研究熱點,常見的簡單方法是將二者串聯(lián)堆疊或者并聯(lián)結(jié)合(在圖卷積網(wǎng)絡(luò)出現(xiàn)之前,動作識別領(lǐng)域的最優(yōu)方法就是將 CNN 和 RNN 并聯(lián)),但測試發(fā)現(xiàn)這么做并不能帶來太大的提升,這是因為二者的工作機制差距太大,簡單的結(jié)合并不能很好的實現(xiàn)優(yōu)勢互補。本文提出用 3D 卷積代替原始 LSTM 中的門更新操作,使 LSTM 不僅能在時間層面,也能在空間層面上進行短期依賴的表象特征和運動特征的抽取,從而在更深的機制層面實現(xiàn)兩種網(wǎng)絡(luò)的結(jié)合。此外,在 LSTM 中引入自注意力(self-attention)機制,進一步強化了 LSTM 的長時記憶能力,使其對長距離信息作用具有更好的感知力。作者將這種網(wǎng)絡(luò)稱為Eidetic 3D LSTM(E3D-LSTM),Eidetic 意思是具有逼真記憶,強調(diào)網(wǎng)絡(luò)的強記憶能力。 E3D-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)

圖 1:三種不同的 3D 卷積和 LSTM 的結(jié)合方法 圖中每個顏色的模塊都代表了多層相應(yīng)的網(wǎng)絡(luò)。圖(a)和圖(b)是兩種 3D 卷積和 LSTM 結(jié)合的基線方法,3D 卷積和 LSTM 線性疊加,主要起到了編碼(解碼器)的作用,并沒有和 RNN 有機制上的結(jié)合。圖(a)中 3D 卷積作為編碼器,輸入是一段視頻幀,圖(b)中作為解碼器,得到每個單元的最終輸出。這兩個方法中的綠色模塊使用的是時空長短時記憶網(wǎng)絡(luò)(ST-LSTM)[1],這種 LSTM 獨立的維護兩個記憶狀態(tài) M 和 C,但由于記憶狀態(tài) C 的遺忘門過于響應(yīng)具有短期依賴的特征,因此容易忽略長時依賴信息,因此 E3D-LSTM 在 ST-LSTM 的基礎(chǔ)添加了自注意力機制和 3D 卷積操作,在一定程度上解決了這個問題。具體單元結(jié)構(gòu)下一節(jié)介紹。 圖(c)是 E3D-LSTM 網(wǎng)絡(luò)的結(jié)構(gòu),3D 卷積作為編碼 - 解碼器(藍色模塊),同時和 LSTM 結(jié)合(橙色模塊)。E3D-LSTM 既可用于分類任務(wù),也可用于預(yù)測任務(wù)。分類時將所有 LSTM 單元的輸出結(jié)合,預(yù)測時則利用 3D 卷積解碼器的輸出作為預(yù)測值。 E3D-LSTM 單元結(jié)構(gòu)設(shè)計

圖 2:標(biāo)準(zhǔn) LSTM 單元結(jié)構(gòu) 首先簡要介紹一下標(biāo)準(zhǔn) LSTM 結(jié)構(gòu),和 RNN 相比 LSTM 增加了更復(fù)雜的門結(jié)構(gòu)(圖中黃色模塊),主要解決 RNN 中存在的梯度消失問題,從而提高網(wǎng)絡(luò)對長時依賴(long-term dependency)的記憶感知能力。LSTM 有兩個輸入門,一個輸出門和遺忘門。 ?

圖 2:ST-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)和單元結(jié)構(gòu) 和標(biāo)準(zhǔn) LSTM 相比,ST-LSTM 還增加了不同層間對應(yīng)位置的 cell 連接,如圖 2 左側(cè),水平灰色連接線表示標(biāo)準(zhǔn) LSTM 的單元連接,豎直黃色連接線表示層間同一時刻的單元連接,通過張量 M 傳播,注意當(dāng) l=1 時,(作者認為 t 時刻的頂層信息對 t+1 時刻的底層信息影響很大),這樣記憶信息就能同時在層內(nèi)和層間傳播。 ?

圖 3 E3D-LSTM 單元結(jié)構(gòu) 圖 3 是本文提出的 E3D-LSTM 模型的單元結(jié)構(gòu),是一個維度為的五維張量,代表之前個時間步的所有隱狀態(tài)。表示召回門(代替遺忘門),和 ST-LSTM 相比,主要有以下改進: ?

1、輸入數(shù)據(jù)是的四維張量,對應(yīng)時刻的連續(xù)幀序列,因此現(xiàn)在每個單元時間步都對應(yīng)一段視頻,而不是單幀視頻。?

2、針對幀序列數(shù)據(jù)額外添加了一個召回門(recall gate)以及相關(guān)結(jié)構(gòu),用于實現(xiàn)長時依賴學(xué)習(xí),也就是自注意力機制。這部分對應(yīng)網(wǎng)絡(luò)名稱中的 Eidetic。

3、由于輸入數(shù)據(jù)變成了四維張量,因此在更新公式中采用 3D 卷積操作而不是 2D 卷積。 大部分門結(jié)構(gòu)的更新公式和 ST-LSTM 相同,額外添加了召回門更新公式:

上面介紹的機制用于同一層不同時間步連接,作者將這種機制也用在了不同層同一時間步的連接,但效果并不好,這是因為不同層在同一時刻學(xué)習(xí)到的信息并沒有太好的依賴性。 基于 E3D-LSTM 的半監(jiān)督輔助學(xué)習(xí) 在許多監(jiān)督學(xué)習(xí)任務(wù),例如視頻動作識別中,沒有足夠的監(jiān)督信息和標(biāo)注信息來幫助訓(xùn)練一個令人滿意的 RNN,因此可以將視頻預(yù)測作為一個輔助的表征學(xué)習(xí)方法,來幫助網(wǎng)絡(luò)更好的理解視頻特征,并提高時間域上的監(jiān)督性。 具體的,讓視頻預(yù)測和動作識別任務(wù)共享相同的主干網(wǎng)絡(luò)(圖 1),只不過損失函數(shù)不同,在視頻預(yù)測任務(wù)中,目標(biāo)函數(shù)為:

帶上標(biāo)的 X 表示預(yù)測值,不帶上標(biāo)的表示真值,F(xiàn) 表示 Frobenius 歸一化。 在動作識別任務(wù)中,目標(biāo)函數(shù)為:

其中 Y 和是預(yù)測值和幀值,這樣通過將預(yù)測任務(wù)的損失函數(shù)嵌入到識別任務(wù)中,以及主干網(wǎng)絡(luò)的共享,能在一定程度上幫助識別任務(wù)學(xué)習(xí)到更多的時序信息。為了保證過渡平滑,額外添加了一個權(quán)重因子,會隨著迭代次數(shù)的增加而線性衰減: ? ? 作者將這種方法稱為半監(jiān)督輔助學(xué)習(xí)。 ? 實驗結(jié)果 ? 視頻預(yù)測任務(wù),在 Moving MINIST 數(shù)據(jù)集上的結(jié)果: ?

為了驗證 E3D-LSTM 中不同模塊對性能的影響,作者還在該數(shù)據(jù)集上進行了燒蝕研究:

可以看到不管是添加 3D 卷積還是自注意力機制,網(wǎng)絡(luò)性能相對于基線方法都有提升。 視頻預(yù)測任務(wù),在 KTH 人體動作數(shù)據(jù)集上的結(jié)果:

接下來在一個實際視頻預(yù)測任務(wù):交通流預(yù)測中,與其他方法進行了對比:

動作識別任務(wù),在 Something-Something 數(shù)據(jù)集上進行了測試:

同樣在該數(shù)據(jù)集上進行了燒蝕研究:

以及不同的半監(jiān)督輔助學(xué)習(xí)策略帶來的性能提升:

總結(jié) 本文對 ST-LSTM 進行了改進,將流行的 3D 卷積操作作為其基本張量操作,同時添加了自注意力模塊,進一步強化了網(wǎng)絡(luò)對長距離依賴信息的刻畫能力,不僅能用于預(yù)測任務(wù),還能通過輔助學(xué)習(xí)的方法拓展到其他任務(wù)上,是非常具有啟發(fā)性的工作。 [1] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms. In NIPS, 2017. (本文經(jīng)授權(quán)轉(zhuǎn)載自AI科技大本營,ID: rgznai100)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網(wǎng)絡(luò)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中國移動供應(yīng)鏈管理中心赴記憶科技總部參觀考察

    近日,中國移動通信集團供應(yīng)鏈管理中心總經(jīng)理朱國弟、副總經(jīng)理吳江,廣東移動副總經(jīng)理商亮行赴記憶科技總部考察調(diào)研。記憶科技董事胡道鑫、總經(jīng)理Mike,憶聯(lián)總經(jīng)理寇朋韜、憶芯總經(jīng)理甘金濤
    的頭像 發(fā)表于 03-30 15:47 ?335次閱讀

    Evermind AI 研發(fā)三階段 AI 記憶存儲提取架構(gòu)

    近日,由盛大集團全資孵化的AI技術(shù)團隊EverMind,正式對外系統(tǒng)性地展示AI記憶操作系統(tǒng)——EverMemOS,最新版本在四大記憶基準(zhǔn)上實現(xiàn)了最先進(SOTA)準(zhǔn)確率。 EverMemOS:打破
    的頭像 發(fā)表于 03-04 15:21 ?414次閱讀

    Evermem 突破大模型記憶瓶頸實現(xiàn)低耗高效

    測試的“花架子”,實際部署后效果照樣能打。而且團隊有底氣有信心,技術(shù)代碼全部開源。 為了方便開發(fā)者使用,他們剛剛還專門上線了云服務(wù)——現(xiàn)在只需個最簡單的API,就能直接將最前沿的大模型記憶能力裝進自己的應(yīng)用。 學(xué)習(xí)大腦
    的頭像 發(fā)表于 03-03 13:44 ?323次閱讀
    Evermem 突破大模型<b class='flag-5'>記憶</b>瓶頸實現(xiàn)低耗高效

    算法工程師需要具備哪些技能?

    算法工程師需要掌握系列跨學(xué)科的技能,涵蓋數(shù)學(xué)基礎(chǔ)、編程能力、算法理論、工程實踐以及業(yè)務(wù)理解等多個方面。 以下是具體技能及學(xué)習(xí)建議: 線性代數(shù)核心內(nèi)容:矩陣運算、特征值分解、向量空間等。應(yīng)用場
    發(fā)表于 02-27 10:53

    海洋生物實驗室利用AI和虛擬現(xiàn)實探索人類記憶

    位于馬薩諸塞州的實驗室正在利用 NVIDIA RTX GPU、HP Z 工作站和虛擬現(xiàn)實技術(shù)研究人類記憶功能的分子機制。
    的頭像 發(fā)表于 01-20 09:30 ?857次閱讀

    DeepSeek開源Engram:讓大模型擁有&quot;過目不忘&quot;的類腦記憶

    Transformer效率瓶頸的關(guān)鍵鑰匙。 傳統(tǒng)Transformer的"記憶困境" 當(dāng)前大語言模型面臨三大結(jié)構(gòu)性問題:注意計算的O(n2)復(fù)雜度在序列下成為瓶頸;所有知識隱式存儲在參數(shù)中,檢索常識需激活
    的頭像 發(fā)表于 01-14 16:07 ?445次閱讀
    DeepSeek開源Engram:讓大模型擁有&quot;過目不忘&quot;的類腦<b class='flag-5'>記憶</b>

    鍵開啟涂鴉OmniMem:打通跨設(shè)備記憶壁壘,實現(xiàn)毫秒級高精度召回

    “更多功能”,而是“次設(shè)定,處處懂我”。涂鴉智能深入千萬家庭場景,思考用戶切實體驗,推出AI記憶系統(tǒng)OmniMem,重構(gòu)AI記憶邏輯,融合短記憶高效總結(jié)與
    的頭像 發(fā)表于 12-17 18:11 ?462次閱讀
    <b class='flag-5'>一</b>鍵開啟涂鴉OmniMem:打通跨設(shè)備<b class='flag-5'>記憶</b>壁壘,實現(xiàn)毫秒級高精度召回

    文讀懂LSTM與RNN:從原理到實戰(zhàn),掌握序列建模核心技術(shù)

    在AI領(lǐng)域,文本翻譯、語音識別、股價預(yù)測等場景都離不開序列數(shù)據(jù)處理。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為最早的序列建模工具,開創(chuàng)了“記憶歷史信息”的先河;而長短期記憶網(wǎng)絡(luò)
    的頭像 發(fā)表于 12-09 13:56 ?1824次閱讀
    <b class='flag-5'>一</b>文讀懂<b class='flag-5'>LSTM</b>與RNN:從原理到實戰(zhàn),掌握序列建模核心技術(shù)

    “小達同學(xué)”上線:會思考、能記憶,終端AI設(shè)備從此“腦子”了!

    //在智能硬件與AI玩具領(lǐng)域,AI語音交互正逐漸成為產(chǎn)品差異化的核心。然而,很多客戶將AI能力落地時,普遍面臨網(wǎng)絡(luò)不穩(wěn)、對話卡頓、續(xù)航不足與成本過高等挑戰(zhàn),導(dǎo)致產(chǎn)品體驗差、難以量產(chǎn)。近日,利爾達推出
    的頭像 發(fā)表于 11-21 14:33 ?680次閱讀
    “小達同學(xué)”上線:會思考、能<b class='flag-5'>記憶</b>,終端AI設(shè)備從此“<b class='flag-5'>長</b>腦子”了!

    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    STMicroelectronics AEKD-AICAR1車用AI套件基于長短期記憶 (LSTM) 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)。該套件提供汽車狀態(tài)分類:汽車停車、普通道路行車、崎嶇道路行車、汽車打滑或轉(zhuǎn)彎。AEKD-AICAR1
    的頭像 發(fā)表于 10-28 14:40 ?751次閱讀
    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    記憶科技亮相2025云棲大會

    9月24日,以“云智體·碳硅共生”為主題的2025云棲大會在杭州云棲小鎮(zhèn)隆重開幕。記憶科技作為IT硬件領(lǐng)域國內(nèi)領(lǐng)先的品牌部件提供商,受邀出席本次盛會,并攜全棧產(chǎn)品矩陣亮相展區(qū),全面展示其在服務(wù)器主板及整機、內(nèi)存、固態(tài)存儲及智能卡等領(lǐng)域的創(chuàng)新成果,為云計算與AI應(yīng)用提供先
    的頭像 發(fā)表于 09-28 17:20 ?3252次閱讀

    焊接工的“肌肉記憶”訓(xùn)練:TNC插座標(biāo)準(zhǔn)化操作的神經(jīng)反應(yīng)培養(yǎng)?

    說到底,這種肌肉記憶就是讓標(biāo)準(zhǔn)化操作變成“條件反射”。德索的過人之處,是把抽象的工藝要求轉(zhuǎn)化成了能練出來的身體參數(shù)——從烙鐵角度到送錫力度,從反應(yīng)快慢到抗干擾能力,每個細節(jié)都有數(shù)據(jù)撐腰。就像老工程師
    的頭像 發(fā)表于 08-06 11:12 ?664次閱讀
    焊接工的“肌肉<b class='flag-5'>記憶</b>”訓(xùn)練:TNC插座標(biāo)準(zhǔn)化操作的神經(jīng)反應(yīng)培養(yǎng)?

    芯片方案:專業(yè)視頻信號轉(zhuǎn)換UVC轉(zhuǎn)HDMI解決方案,支持大疆Pocket3

    、核心功能與兼容設(shè)備炬 AM8271D 芯片方案專注于實現(xiàn) USB 信號到 HDMI 信號的高效轉(zhuǎn)換與投屏,兼容多款主流設(shè)備,包括: · 視頻創(chuàng)作設(shè)備:DJI Pocket3
    發(fā)表于 07-04 17:08

    【HarmonyOS next】ArkUI-X休閑益智記憶翻牌【進階】

    本文通過記憶翻牌游戲?qū)崿F(xiàn),揭秘網(wǎng)絡(luò)圖片在HarmonyOS與iOS設(shè)備上的渲染差異,并提供專業(yè)級優(yōu)化方案。基于ArkUI-X的Web組件技術(shù),我們實現(xiàn)了套代碼雙端運行的混合架構(gòu)。
    發(fā)表于 06-28 22:12

    提高IT運維效率,深度解讀京東云AIOps落地實踐(異常檢測篇)

    一種無閾值方法:基于 LSTM 網(wǎng)絡(luò)的基線(LSTM 框架輔助幾個優(yōu)化步驟)和無監(jiān)督檢測(神經(jīng)網(wǎng)
    的頭像 發(fā)表于 05-22 16:38 ?1135次閱讀
    提高IT運維效率,深度解讀京東云AIOps落地實踐(異常檢測篇)