chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將線性Transformer作為快速權(quán)重系統(tǒng)進(jìn)行分析和改進(jìn)

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:通信信號(hào)處理研究所 ? 作者:通信信號(hào)處理研究 ? 2021-03-31 15:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Transformer 在深度學(xué)習(xí)中占據(jù)主導(dǎo)地位,但二次存儲(chǔ)和計(jì)算需求使得 Transformer 的訓(xùn)練成本很高,而且很難使用。許多研究都嘗試線性化核心模塊:以 Performer 為例,使用帶核的注意力機(jī)制。然而,這種方法還存在很多缺點(diǎn),例如它們依賴于隨機(jī)特征。 本文中,來(lái)自瑞士人工智能實(shí)驗(yàn)室(IDSIA)、亞琛工業(yè)大學(xué)的研究者建立起了線性(核)注意力與 90 年代深度學(xué)習(xí)之父 Jürgen Schmidhuber 推廣的更古老的快速權(quán)重存儲(chǔ)系統(tǒng)之間的內(nèi)在聯(lián)系,不僅指出了這些算法的基本局限性,還提出了新的更新規(guī)則和新的核來(lái)解決這些問(wèn)題。在關(guān)鍵的綜合實(shí)驗(yàn)和實(shí)際任務(wù)中,所得到的模型優(yōu)于 Performers。

9f348e0a-8d23-11eb-8b86-12bb97331649.png

論文鏈接:https://arxiv.org/abs/2102.11174

代碼地址:https://github.com/ischlag/fast-weight-transformers

具體而言,該研究推測(cè)線性化的 softmax 注意力變量存在存儲(chǔ)容量限制。在有限存儲(chǔ)的情況下,快速權(quán)重存儲(chǔ)模型的一個(gè)理想行為是操縱存儲(chǔ)的內(nèi)容并與之動(dòng)態(tài)交互。 受過(guò)去對(duì)快速權(quán)重研究的啟發(fā),研究者建議用產(chǎn)生這種行為的替代規(guī)則替換更新規(guī)則。此外,該研究還提出了一個(gè)新的核函數(shù)來(lái)線性化注意力,平衡簡(jiǎn)單性和有效性。他們進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)內(nèi)容包括合成檢索問(wèn)題、標(biāo)準(zhǔn)機(jī)器翻譯以及語(yǔ)言建模。實(shí)驗(yàn)結(jié)果證明了該研究方法的益處。 將線性 Transformer 作為快速權(quán)重系統(tǒng)進(jìn)行分析和改進(jìn) 將線性 Transformer 變量視為快速權(quán)重系統(tǒng),研究者給出了兩個(gè)見(jiàn)解:作為關(guān)聯(lián)存儲(chǔ)容量的限制;無(wú)法編輯以前存儲(chǔ)的關(guān)聯(lián)內(nèi)容。 容量限制 不斷地將新的關(guān)聯(lián)添加到有限大小的存儲(chǔ)中,如下公式 17 所示,這樣不可避免地會(huì)達(dá)到極限。在線性注意力中,信息存儲(chǔ)在矩陣中,并使用矩陣乘法進(jìn)行檢索(如下公式 19)。因此,為了防止關(guān)聯(lián)在檢索時(shí)相互干擾,各個(gè)鍵(keys)需要正交。否則,點(diǎn)積將處理多個(gè)鍵并返回值的線性組合。對(duì)于嵌入在 d_dot 空間中的鍵,則不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是說(shuō),存儲(chǔ)多個(gè) d_dot 關(guān)聯(lián)將導(dǎo)致檢索誤差。在線性 Transformer 中,當(dāng)序列長(zhǎng)度大于 d_dot 時(shí),模型可能處于這樣一種容量過(guò)剩狀態(tài)。 改進(jìn)與更新 受快速權(quán)重存儲(chǔ)研究(Schlag 等人,2021 年)的啟發(fā),研究者提出了以下存儲(chǔ)更新規(guī)則。 給定新的輸入鍵 - 值對(duì) (k^ (i) , v ^(i) ),模型首先訪問(wèn)存儲(chǔ)的當(dāng)前狀態(tài) W^(i?1),并檢索當(dāng)前與鍵 k^(i) 配對(duì)的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,該模型存儲(chǔ)檢索值a020773e-8d23-11eb-8b86-12bb97331649.png和輸入 v^(i) 的凸組合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值權(quán)重 0≤β^(i)≤1 的輸入 v ^(i) 也由該模型生成。因此,該模型按順序?qū)⑤斎胄蛄?img src="https://file.elecfans.com/web1/M00/E8/98/pIYBAGBkIOCATKXpAAAY5ZSjWHA829.png" alt="a0ee1c16-8d23-11eb-8b86-12bb97331649.png" />轉(zhuǎn)化為輸出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示: ?

a171de98-8d23-11eb-8b86-12bb97331649.png

歸一化:在以上等式中,檢索的值沒(méi)有應(yīng)用歸一化。通過(guò)推導(dǎo)可以得到一個(gè)簡(jiǎn)單的歸一化,即通過(guò)引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

將公式 20、25 分別替換為:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,這種方法也有缺陷。首先,公式 26 中正值的累積總是隨著步數(shù)的增加而增加,并且可能導(dǎo)致不穩(wěn)定;其次,特別是對(duì)于該研究提出的更新規(guī)則,這種歸一化不足以平衡公式 23 中寫(xiě)入和刪除運(yùn)算之間的權(quán)重(參見(jiàn)附錄 A.2 中的推導(dǎo))。 在這里,研究者提出了一種基于簡(jiǎn)單歸一化的更好方法,將有效值和查詢向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,對(duì)于查詢:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

線性注意力函數(shù)Katharopoulos 線性注意力 Katharopoulos 等人提出使用簡(jiǎn)單的逐元素 ELU + 1 函數(shù)(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

選擇 ELU 而不是 ReLU 的動(dòng)機(jī)是因?yàn)樨?fù)數(shù)部分的非零梯度。重要的是,作為一個(gè)簡(jiǎn)單的函數(shù),這個(gè)Φ函數(shù)保留了輸入鍵向量(d_key=d_dot)的維數(shù),而不需要修改第 4.1 節(jié)中討論的存儲(chǔ)容量。 DPFP 前面兩小節(jié)強(qiáng)調(diào)了現(xiàn)有Φ函數(shù)的次優(yōu)性。采樣會(huì)給 FAVOR + 增加額外的復(fù)雜度,而線性 Transformer 缺乏投影點(diǎn)積維數(shù)的能力。因此,研究者提出了一種稱為確定性無(wú)參數(shù)投影(deterministic parameter-free projection, DPFP) 的替代方法。它是確定性的,并像線性 Transformer 一樣易于計(jì)算,同時(shí)增加點(diǎn)積維數(shù),而不需要 FAVOR + 的隨機(jī)特性。 下圖中四維空間的元素被顯示為四個(gè)彩色表面的 z 分量,以及 2d 平面中的每個(gè)向量如何在 4d 空間中具有單個(gè)非零分量,并將輸入空間平均分割為在投影空間中正交的四個(gè)區(qū)域。

實(shí)驗(yàn) 該研究從三個(gè)方面進(jìn)行了實(shí)驗(yàn):合成檢索問(wèn)題、機(jī)器翻譯和語(yǔ)言模型。 合成檢索問(wèn)題 所有模型都以最小批次 32 進(jìn)行訓(xùn)練,直到評(píng)估損失降到 0.001 以下,或者進(jìn)行了 1000 訓(xùn)練步。下圖 2 展示了模型的最佳驗(yàn)證集性能以及對(duì)不同 S 的顯示。唯一鍵的數(shù)量初始值 S=20,然后每次遞增 20,直到 S=600 為止。實(shí)驗(yàn)對(duì)以下模型進(jìn)行對(duì)比:Softmax、線性注意力、具有 64、128 和 512 個(gè)隨機(jī)特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下圖 3 展示了學(xué)習(xí)曲線。實(shí)驗(yàn)結(jié)果表明,該研究提出的更新規(guī)則優(yōu)于其他變體。正如預(yù)期的那樣,基線總和更新規(guī)則失敗。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

機(jī)器翻譯 下表 1 顯示了 BLEU 得分結(jié)果。當(dāng)樣本數(shù) m 足夠大時(shí)(當(dāng) d_dot=512,m=256),Performer 與基礎(chǔ) Transformer 性能相當(dāng)。實(shí)際上,當(dāng) d_key=64 時(shí),m 的推薦值是 d_dot log(d_dot)=266。當(dāng) d_dot 相對(duì)較小時(shí),該研究的 DPFP 模型優(yōu)于線性 Transformer 和 Performer;在簡(jiǎn)單性和性能之間提供了一個(gè)很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

語(yǔ)言模型 該研究使用標(biāo)準(zhǔn) WikiText-103(Merity 等,2017)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。WikiText-103 數(shù)據(jù)集由維基百科的長(zhǎng)文組成;訓(xùn)練集包含大約 28K 篇文章、總共 103M 個(gè)單詞。這將產(chǎn)生約 3600 個(gè)單詞的上下文文本塊。驗(yàn)證集和測(cè)試集也包含類似的長(zhǎng)依賴關(guān)系,分別有 218K 和 246K 個(gè)運(yùn)行單詞,對(duì)應(yīng) 60 篇文章,詞匯量約為 268K 個(gè)單詞。下表 2 展示了在該研究更新規(guī)則下,WikiText-103 語(yǔ)言模型的困惑度結(jié)果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用該研究更新規(guī)則下的 Transformer(medium 配置),在 WikiText-103 語(yǔ)言模型的困惑度結(jié)果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 語(yǔ)言模型在沒(méi)有截?cái)嗌舷挛牡那闆r下訓(xùn)練和評(píng)估模型的困惑度,這與上表 2 中上下文窗口受到限制的情況相反。medium 配置既不用于位置編碼,也不用于注意力標(biāo)準(zhǔn)化。

a4065152-8d23-11eb-8b86-12bb97331649.png

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1816

    文章

    50054

    瀏覽量

    264822
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5597

    瀏覽量

    124330
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6917

原文標(biāo)題:LSTM之父重提30年前的「快速權(quán)重存儲(chǔ)系統(tǒng)」:線性Transformer只是它的一種變體

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer 入門:從零理解 AI 大模型的核心原理

    Normalization) Transformer 使用的是層歸一化,它在每一層對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化: 計(jì)算步驟 ini 體驗(yàn)AI代碼助手 代碼解讀 復(fù)制代碼 輸入向量:x = [2, 4, 6, 8] Step 1
    發(fā)表于 02-10 16:33

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)可以
    的頭像 發(fā)表于 11-19 18:17 ?2230次閱讀

    改進(jìn)wallance樹(shù)乘法器優(yōu)化方法

    周期復(fù)用加法器的部分積加和算法,我們采用了改進(jìn)的wallance樹(shù)結(jié)構(gòu)進(jìn)行部分積的快速壓縮,實(shí)現(xiàn)了單周期的乘法計(jì)算。 經(jīng)過(guò)時(shí)序分析,我們的單周期乘法器時(shí)鐘頻率可以提高至140Hz,對(duì)比
    發(fā)表于 10-23 06:37

    了解SOLIDWORKS202仿真方面的改進(jìn)

    隨著SOLIDWORKS 2025版本的發(fā)布,這款三維CAD和仿真分析軟件的再次展現(xiàn)了其在技術(shù)創(chuàng)新上的強(qiáng)勁實(shí)力。SOLIDWORKS 2025在仿真方面進(jìn)行了多項(xiàng)重大改進(jìn),旨在提升仿真精度、可靠性
    的頭像 發(fā)表于 09-04 10:36 ?661次閱讀
    了解SOLIDWORKS202仿真方面的<b class='flag-5'>改進(jìn)</b>

    用拼多多 API 實(shí)現(xiàn)拼多多店鋪商品搜索權(quán)重提升

    分步講解如何利用 API 實(shí)現(xiàn)這一目標(biāo),確保內(nèi)容真實(shí)可靠。 1. 理解搜索權(quán)重及其重要性 搜索權(quán)重是平臺(tái)算法對(duì)商品排名的綜合評(píng)分,基于多個(gè)因素計(jì)算。例如: 關(guān)鍵詞相關(guān)性:商品標(biāo)題和描述與用戶搜索詞匹配度越高,
    的頭像 發(fā)表于 08-19 17:23 ?753次閱讀
    用拼多多 API 實(shí)現(xiàn)拼多多店鋪商品搜索<b class='flag-5'>權(quán)重</b>提升

    集成MT9103線性霍爾傳感器提升智能家居控制精度與系統(tǒng)智能化水平

    隨著智能家居市場(chǎng)的快速發(fā)展,用戶對(duì)控制精度和系統(tǒng)智能化的需求日益提升。在這一背景下,集成MT9103線性霍爾傳感器成為提升智能家居性能的關(guān)鍵技術(shù)之一。MT9103作為一款高精度、低功耗
    的頭像 發(fā)表于 08-15 17:20 ?956次閱讀
    集成MT9103<b class='flag-5'>線性</b>霍爾傳感器提升智能家居控制精度與<b class='flag-5'>系統(tǒng)</b>智能化水平

    亞馬遜云科技現(xiàn)已上線OpenAI開(kāi)放權(quán)重模型

    開(kāi)放權(quán)重模型,向數(shù)百萬(wàn)亞馬遜云科技客戶開(kāi)放。 客戶可利用這些全新開(kāi)放權(quán)重模型的先進(jìn)推理能力,支持Agentic工作流、代碼生成、科學(xué)分析和數(shù)學(xué)問(wèn)題求解等應(yīng)用。 開(kāi)放權(quán)重模型的推出擴(kuò)展了
    的頭像 發(fā)表于 08-06 19:29 ?828次閱讀

    基于改進(jìn)滑模觀測(cè)器的PMSM無(wú)位置傳感器控制

    為解決傳統(tǒng)基于滑模觀測(cè)器永磁同步電機(jī)無(wú)位置傳感器控制系統(tǒng)存在的抖振問(wèn)題,本文提出了一種基于非線性能量函數(shù)參考模型的新型改進(jìn)滑模觀測(cè)器。在分析線性
    發(fā)表于 08-06 14:38

    微電機(jī)關(guān)鍵零部件制造誤差對(duì)其質(zhì)量的影響權(quán)重分析

    獲取完整資料~~~*附件:微電機(jī)關(guān)鍵零部件制造誤差對(duì)其質(zhì)量的影響權(quán)重分析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問(wèn)題,請(qǐng)第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 06-23 07:16

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1051次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1268次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    如何在CentOS系統(tǒng)中部署ELK日志分析系統(tǒng)

    功能,使用戶能夠快速獲取關(guān)鍵業(yè)務(wù)洞察。本文詳細(xì)介紹如何在 CentOS 系統(tǒng)中部署 ELK 日志分析系統(tǒng),
    的頭像 發(fā)表于 05-08 11:47 ?1005次閱讀
    如何在CentOS<b class='flag-5'>系統(tǒng)</b>中部署ELK日志<b class='flag-5'>分析</b><b class='flag-5'>系統(tǒng)</b>

    電機(jī)控制系統(tǒng)低速區(qū)測(cè)速方法分析改進(jìn)

    純分享帖,需要者可點(diǎn)擊附件獲取完整資料~~~*附件:電機(jī)控制系統(tǒng)低速區(qū)測(cè)速方法分析改進(jìn).pdf 【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問(wèn)題,請(qǐng)第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 04-17 22:32

    安泰電壓放大器在全電光快速線性寬帶調(diào)頻實(shí)驗(yàn)中的應(yīng)用

    實(shí)驗(yàn)名稱: 全電光快速線性寬帶調(diào)頻實(shí)驗(yàn)系統(tǒng) 測(cè)試設(shè)備: 電壓放大器、波形發(fā)生器、示波器、高壓探測(cè)器等。 實(shí)驗(yàn)過(guò)程: 圖1:快速線性寬帶調(diào)頻N
    的頭像 發(fā)表于 03-26 10:54 ?849次閱讀
    安泰電壓放大器在全電光<b class='flag-5'>快速</b><b class='flag-5'>線性</b>寬帶調(diào)頻實(shí)驗(yàn)中的應(yīng)用

    智能電動(dòng)輪椅控制系統(tǒng)的研究與設(shè)計(jì)

    控制系統(tǒng),闡述了硬件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),完成了軟件系統(tǒng)軟件平臺(tái)的搭建,并針對(duì)電機(jī)速度不穩(wěn)定的問(wèn)題,提出了一種基于線性自抗擾和模糊PID 控制算法的雙閉環(huán)調(diào)速
    發(fā)表于 03-07 15:17