chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將線性Transformer作為快速權(quán)重系統(tǒng)進行分析和改進

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2021-03-31 15:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Transformer 在深度學(xué)習(xí)中占據(jù)主導(dǎo)地位,但二次存儲和計算需求使得 Transformer 的訓(xùn)練成本很高,而且很難使用。許多研究都嘗試線性化核心模塊:以 Performer 為例,使用帶核的注意力機制。然而,這種方法還存在很多缺點,例如它們依賴于隨機特征。 本文中,來自瑞士人工智能實驗室(IDSIA)、亞琛工業(yè)大學(xué)的研究者建立起了線性(核)注意力與 90 年代深度學(xué)習(xí)之父 Jürgen Schmidhuber 推廣的更古老的快速權(quán)重存儲系統(tǒng)之間的內(nèi)在聯(lián)系,不僅指出了這些算法的基本局限性,還提出了新的更新規(guī)則和新的核來解決這些問題。在關(guān)鍵的綜合實驗和實際任務(wù)中,所得到的模型優(yōu)于 Performers。

9f348e0a-8d23-11eb-8b86-12bb97331649.png

論文鏈接:https://arxiv.org/abs/2102.11174

代碼地址:https://github.com/ischlag/fast-weight-transformers

具體而言,該研究推測線性化的 softmax 注意力變量存在存儲容量限制。在有限存儲的情況下,快速權(quán)重存儲模型的一個理想行為是操縱存儲的內(nèi)容并與之動態(tài)交互。 受過去對快速權(quán)重研究的啟發(fā),研究者建議用產(chǎn)生這種行為的替代規(guī)則替換更新規(guī)則。此外,該研究還提出了一個新的核函數(shù)來線性化注意力,平衡簡單性和有效性。他們進行了大量的實驗,實驗內(nèi)容包括合成檢索問題、標(biāo)準(zhǔn)機器翻譯以及語言建模。實驗結(jié)果證明了該研究方法的益處。 將線性 Transformer 作為快速權(quán)重系統(tǒng)進行分析和改進 將線性 Transformer 變量視為快速權(quán)重系統(tǒng),研究者給出了兩個見解:作為關(guān)聯(lián)存儲容量的限制;無法編輯以前存儲的關(guān)聯(lián)內(nèi)容。 容量限制 不斷地將新的關(guān)聯(lián)添加到有限大小的存儲中,如下公式 17 所示,這樣不可避免地會達到極限。在線性注意力中,信息存儲在矩陣中,并使用矩陣乘法進行檢索(如下公式 19)。因此,為了防止關(guān)聯(lián)在檢索時相互干擾,各個鍵(keys)需要正交。否則,點積將處理多個鍵并返回值的線性組合。對于嵌入在 d_dot 空間中的鍵,則不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是說,存儲多個 d_dot 關(guān)聯(lián)將導(dǎo)致檢索誤差。在線性 Transformer 中,當(dāng)序列長度大于 d_dot 時,模型可能處于這樣一種容量過剩狀態(tài)。 改進與更新 受快速權(quán)重存儲研究(Schlag 等人,2021 年)的啟發(fā),研究者提出了以下存儲更新規(guī)則。 給定新的輸入鍵 - 值對 (k^ (i) , v ^(i) ),模型首先訪問存儲的當(dāng)前狀態(tài) W^(i?1),并檢索當(dāng)前與鍵 k^(i) 配對的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,該模型存儲檢索值a020773e-8d23-11eb-8b86-12bb97331649.png和輸入 v^(i) 的凸組合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值權(quán)重 0≤β^(i)≤1 的輸入 v ^(i) 也由該模型生成。因此,該模型按順序?qū)⑤斎胄蛄?img src="https://file.elecfans.com/web1/M00/E8/98/pIYBAGBkIOCATKXpAAAY5ZSjWHA829.png" alt="a0ee1c16-8d23-11eb-8b86-12bb97331649.png" />轉(zhuǎn)化為輸出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示: ?

a171de98-8d23-11eb-8b86-12bb97331649.png

歸一化:在以上等式中,檢索的值沒有應(yīng)用歸一化。通過推導(dǎo)可以得到一個簡單的歸一化,即通過引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

將公式 20、25 分別替換為:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,這種方法也有缺陷。首先,公式 26 中正值的累積總是隨著步數(shù)的增加而增加,并且可能導(dǎo)致不穩(wěn)定;其次,特別是對于該研究提出的更新規(guī)則,這種歸一化不足以平衡公式 23 中寫入和刪除運算之間的權(quán)重(參見附錄 A.2 中的推導(dǎo))。 在這里,研究者提出了一種基于簡單歸一化的更好方法,將有效值和查詢向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,對于查詢:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

線性注意力函數(shù)Katharopoulos 線性注意力 Katharopoulos 等人提出使用簡單的逐元素 ELU + 1 函數(shù)(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

選擇 ELU 而不是 ReLU 的動機是因為負(fù)數(shù)部分的非零梯度。重要的是,作為一個簡單的函數(shù),這個Φ函數(shù)保留了輸入鍵向量(d_key=d_dot)的維數(shù),而不需要修改第 4.1 節(jié)中討論的存儲容量。 DPFP 前面兩小節(jié)強調(diào)了現(xiàn)有Φ函數(shù)的次優(yōu)性。采樣會給 FAVOR + 增加額外的復(fù)雜度,而線性 Transformer 缺乏投影點積維數(shù)的能力。因此,研究者提出了一種稱為確定性無參數(shù)投影(deterministic parameter-free projection, DPFP) 的替代方法。它是確定性的,并像線性 Transformer 一樣易于計算,同時增加點積維數(shù),而不需要 FAVOR + 的隨機特性。 下圖中四維空間的元素被顯示為四個彩色表面的 z 分量,以及 2d 平面中的每個向量如何在 4d 空間中具有單個非零分量,并將輸入空間平均分割為在投影空間中正交的四個區(qū)域。

實驗 該研究從三個方面進行了實驗:合成檢索問題、機器翻譯和語言模型。 合成檢索問題 所有模型都以最小批次 32 進行訓(xùn)練,直到評估損失降到 0.001 以下,或者進行了 1000 訓(xùn)練步。下圖 2 展示了模型的最佳驗證集性能以及對不同 S 的顯示。唯一鍵的數(shù)量初始值 S=20,然后每次遞增 20,直到 S=600 為止。實驗對以下模型進行對比:Softmax、線性注意力、具有 64、128 和 512 個隨機特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下圖 3 展示了學(xué)習(xí)曲線。實驗結(jié)果表明,該研究提出的更新規(guī)則優(yōu)于其他變體。正如預(yù)期的那樣,基線總和更新規(guī)則失敗。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

機器翻譯 下表 1 顯示了 BLEU 得分結(jié)果。當(dāng)樣本數(shù) m 足夠大時(當(dāng) d_dot=512,m=256),Performer 與基礎(chǔ) Transformer 性能相當(dāng)。實際上,當(dāng) d_key=64 時,m 的推薦值是 d_dot log(d_dot)=266。當(dāng) d_dot 相對較小時,該研究的 DPFP 模型優(yōu)于線性 Transformer 和 Performer;在簡單性和性能之間提供了一個很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

語言模型 該研究使用標(biāo)準(zhǔn) WikiText-103(Merity 等,2017)數(shù)據(jù)集進行實驗。WikiText-103 數(shù)據(jù)集由維基百科的長文組成;訓(xùn)練集包含大約 28K 篇文章、總共 103M 個單詞。這將產(chǎn)生約 3600 個單詞的上下文文本塊。驗證集和測試集也包含類似的長依賴關(guān)系,分別有 218K 和 246K 個運行單詞,對應(yīng) 60 篇文章,詞匯量約為 268K 個單詞。下表 2 展示了在該研究更新規(guī)則下,WikiText-103 語言模型的困惑度結(jié)果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用該研究更新規(guī)則下的 Transformer(medium 配置),在 WikiText-103 語言模型的困惑度結(jié)果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 語言模型在沒有截斷上下文的情況下訓(xùn)練和評估模型的困惑度,這與上表 2 中上下文窗口受到限制的情況相反。medium 配置既不用于位置編碼,也不用于注意力標(biāo)準(zhǔn)化。

a4065152-8d23-11eb-8b86-12bb97331649.png

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50284

    瀏覽量

    266809
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5603

    瀏覽量

    124605
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6961

原文標(biāo)題:LSTM之父重提30年前的「快速權(quán)重存儲系統(tǒng)」:線性Transformer只是它的一種變體

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ASPICE 是什么?汽車系統(tǒng)過程改進和能力確定概念(一)

    在 “軟件定義汽車” 的產(chǎn)業(yè)浪潮下,車載電子系統(tǒng)的復(fù)雜度呈指數(shù)級提升,軟件與硬件的協(xié)同質(zhì)量直接決定了汽車的功能安全、用戶體驗與市場競爭力。ASPICE 作為全球汽車行業(yè)公認(rèn)的研發(fā)過程管理與能力評定
    發(fā)表于 04-02 13:53

    Transformer 入門:從零理解 AI 大模型的核心原理

    Normalization) Transformer 使用的是層歸一化,它在每一層對數(shù)據(jù)進行標(biāo)準(zhǔn)化: 計算步驟 ini 體驗AI代碼助手 代碼解讀 復(fù)制代碼 輸入向量:x = [2, 4, 6, 8] Step 1
    發(fā)表于 02-10 16:33

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4364次閱讀

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關(guān)鍵,同時可以
    的頭像 發(fā)表于 11-19 18:17 ?2438次閱讀

    改進wallance樹乘法器優(yōu)化方法

    周期復(fù)用加法器的部分積加和算法,我們采用了改進的wallance樹結(jié)構(gòu)進行部分積的快速壓縮,實現(xiàn)了單周期的乘法計算。 經(jīng)過時序分析,我們的單周期乘法器時鐘頻率可以提高至140Hz,對比
    發(fā)表于 10-23 06:37

    了解SOLIDWORKS202仿真方面的改進

    隨著SOLIDWORKS 2025版本的發(fā)布,這款三維CAD和仿真分析軟件的再次展現(xiàn)了其在技術(shù)創(chuàng)新上的強勁實力。SOLIDWORKS 2025在仿真方面進行了多項重大改進,旨在提升仿真精度、可靠性
    的頭像 發(fā)表于 09-04 10:36 ?810次閱讀
    了解SOLIDWORKS202仿真方面的<b class='flag-5'>改進</b>

    用拼多多 API 實現(xiàn)拼多多店鋪商品搜索權(quán)重提升

    分步講解如何利用 API 實現(xiàn)這一目標(biāo),確保內(nèi)容真實可靠。 1. 理解搜索權(quán)重及其重要性 搜索權(quán)重是平臺算法對商品排名的綜合評分,基于多個因素計算。例如: 關(guān)鍵詞相關(guān)性:商品標(biāo)題和描述與用戶搜索詞匹配度越高,
    的頭像 發(fā)表于 08-19 17:23 ?1017次閱讀
    用拼多多 API 實現(xiàn)拼多多店鋪商品搜索<b class='flag-5'>權(quán)重</b>提升

    集成MT9103線性霍爾傳感器提升智能家居控制精度與系統(tǒng)智能化水平

    隨著智能家居市場的快速發(fā)展,用戶對控制精度和系統(tǒng)智能化的需求日益提升。在這一背景下,集成MT9103線性霍爾傳感器成為提升智能家居性能的關(guān)鍵技術(shù)之一。MT9103作為一款高精度、低功耗
    的頭像 發(fā)表于 08-15 17:20 ?1208次閱讀
    集成MT9103<b class='flag-5'>線性</b>霍爾傳感器提升智能家居控制精度與<b class='flag-5'>系統(tǒng)</b>智能化水平

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動駕駛領(lǐng)域,部分廠商開始嘗試多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過時”的激烈爭論。然而,從技術(shù)原理、算力成本、安全需求與實際落地路徑等維度來看,Transformer
    的頭像 發(fā)表于 08-13 09:15 ?4347次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學(xué)習(xí)嗎?

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    開放權(quán)重模型,向數(shù)百萬亞馬遜云科技客戶開放。 客戶可利用這些全新開放權(quán)重模型的先進推理能力,支持Agentic工作流、代碼生成、科學(xué)分析和數(shù)學(xué)問題求解等應(yīng)用。 開放權(quán)重模型的推出擴展了
    的頭像 發(fā)表于 08-06 19:29 ?937次閱讀

    基于改進滑模觀測器的PMSM無位置傳感器控制

    為解決傳統(tǒng)基于滑模觀測器永磁同步電機無位置傳感器控制系統(tǒng)存在的抖振問題,本文提出了一種基于非線性能量函數(shù)參考模型的新型改進滑模觀測器。在分析線性
    發(fā)表于 08-06 14:38

    微電機關(guān)鍵零部件制造誤差對其質(zhì)量的影響權(quán)重分析

    獲取完整資料~~~*附件:微電機關(guān)鍵零部件制造誤差對其質(zhì)量的影響權(quán)重分析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 06-23 07:16

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1192次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1432次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    如何在CentOS系統(tǒng)中部署ELK日志分析系統(tǒng)

    功能,使用戶能夠快速獲取關(guān)鍵業(yè)務(wù)洞察。本文詳細(xì)介紹如何在 CentOS 系統(tǒng)中部署 ELK 日志分析系統(tǒng),
    的頭像 發(fā)表于 05-08 11:47 ?1145次閱讀
    如何在CentOS<b class='flag-5'>系統(tǒng)</b>中部署ELK日志<b class='flag-5'>分析</b><b class='flag-5'>系統(tǒng)</b>