chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:谷歌Transformer再升級(jí)

ss ? 來(lái)源:學(xué)術(shù)頭條 ? 作者:學(xué)術(shù)頭條 ? 2020-11-06 17:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)我們?cè)诜g軟件上輸入 “Transformer is a novel neural network architecture based on a self-attention mechanism” 后,計(jì)算機(jī)就可以迅速將它翻譯為 “Transformer 是一種基于自注意力機(jī)制的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)”,神奇的機(jī)器翻譯使得多語(yǔ)種互譯成為可能。

近年來(lái),得益于機(jī)器學(xué)習(xí)的快速發(fā)展,自然語(yǔ)言處理(NLP)技術(shù)不斷突破,在人機(jī)交互、在線翻譯工具等領(lǐng)域的應(yīng)用層出不窮,不同語(yǔ)種的人與人、人與機(jī)器之間的無(wú)障礙自由交流得以實(shí)現(xiàn)。

當(dāng)前的主流機(jī)器翻譯主要是基于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,這類方法是一個(gè) “編碼器-解碼器”(encoder-decoder)架構(gòu)的系統(tǒng),編碼器對(duì)源語(yǔ)言序列進(jìn)行編碼,并提取信息,然后通過(guò)解碼器把信息轉(zhuǎn)換為目標(biāo)語(yǔ)言,完成語(yǔ)言翻譯過(guò)程。

自 2017 年問(wèn)世以來(lái),基于“編碼器-解碼器”架構(gòu)設(shè)計(jì)的 Transformer 模型憑借其優(yōu)越的性能,已然成為機(jī)器翻譯領(lǐng)域的主流模型,在深度學(xué)習(xí)領(lǐng)域產(chǎn)生了巨大影響。

然而,Transformer 模型并非完美,模型引入self-attention機(jī)制雖實(shí)現(xiàn)了快速并行的訓(xùn)練,但在長(zhǎng)序列文本的處理問(wèn)題上,卻需要占據(jù)大量計(jì)算資源,導(dǎo)致模型訓(xùn)練成本提高。

近日,由 Google、劍橋大學(xué)、DeepMind 和艾倫·圖靈研究院(Alan Turing Institute)的研究人員組成的團(tuán)隊(duì)基于正交隨機(jī)特征的快速注意力(Fast Attention Via Positive Orthogonal Random Features,F(xiàn)AVOR+)機(jī)制,提出了一種新的 Transformer 模型——Performer。相比于 Transformer 模型,新模型無(wú)需做出過(guò)度調(diào)整就可以變得更加高效和節(jié)能。

Performer 模型的技術(shù)突破

2017 年,谷歌大腦(Google Brain)的 Ashish Vaswani 等人發(fā)表了一篇題為 “Attention Is All You Need” 的論文,首次提出一種基于自注意力機(jī)制的 Transformer 模型。

Transformer 模型顛覆了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的架構(gòu),彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)存在的不足,在語(yǔ)義特征提取、長(zhǎng)距離特征捕獲、任務(wù)綜合特征抽取等自然語(yǔ)言處理方面表現(xiàn)出了更優(yōu)的性能,在自然語(yǔ)言處理、人機(jī)對(duì)話、圖像處理等許多領(lǐng)域都達(dá)到了當(dāng)時(shí)最好的水平(SOTA)。

Transformer 架構(gòu)的核心模塊是自注意力模塊,模型在處理每個(gè)單詞(輸入序列中的每個(gè)位置)時(shí),自注意力模塊通過(guò)計(jì)算輸入序列中所有位置對(duì)的相似度分?jǐn)?shù),來(lái)尋找能夠幫助更好地編碼該單詞的線索。

然而,隨著輸入序列長(zhǎng)度的增加,模型需要二次方的計(jì)算時(shí)間來(lái)產(chǎn)生所有相似度分?jǐn)?shù),所需計(jì)算內(nèi)存也隨之增加,注意力機(jī)制面臨的效率問(wèn)題也越來(lái)越突出。

針對(duì)那些需要長(zhǎng)距離關(guān)注的應(yīng)用,在 Transformer 基礎(chǔ)上已經(jīng)有一些研究者提出了幾種快速的、空間利用率高的改進(jìn)方法,但是大部分常見方法都依賴于稀疏注意力機(jī)制。

然而,稀疏注意力機(jī)制仍存在一定的局限性。

(1)它們需要高效的稀疏矩陣乘法運(yùn)算,而這些運(yùn)算并不是在所有加速器上都能實(shí)現(xiàn)的;(2)它們通常不能為其表示能力提供嚴(yán)格的理論保證;(3)它們主要針對(duì) Transformer 模型和生成式預(yù)訓(xùn)練進(jìn)行優(yōu)化;(4)它們通常會(huì)疊加更多的注意力層來(lái)補(bǔ)償稀疏表示,這使得它們很難與其他預(yù)訓(xùn)練模型一起使用,因此需要重新訓(xùn)練并消耗大量能量。

此外,稀疏注意機(jī)制通常仍然不足以解決常規(guī)注意方法應(yīng)用的全部問(wèn)題,如指針網(wǎng)絡(luò)。還有一些運(yùn)算不能被稀疏化,如在工業(yè)級(jí)推薦系統(tǒng)中被大量應(yīng)用的 softmax 運(yùn)算。

Performer 使用了一個(gè)高效的(線性)廣義注意力框架,能夠?qū)ΤR?guī)(softmax)全階注意力進(jìn)行可證明的、準(zhǔn)確的、實(shí)用的估計(jì),不依賴于任何稀疏性或低階等先驗(yàn)條件,從而實(shí)現(xiàn)更快的訓(xùn)練速度,同時(shí)允許模型處理更長(zhǎng)的序列,這一特性恰恰滿足了 ImageNet64 圖像數(shù)據(jù)集和PG-19文本數(shù)據(jù)集的要求。

Performer 模型通過(guò)正交隨機(jī)特征(FAVOR+)算法實(shí)現(xiàn)快速注意力機(jī)制,并改用 Positive Orthogonal Random Features 估計(jì) softmax 和高斯核函數(shù),以實(shí)現(xiàn)在 FAVOR+ 機(jī)制中對(duì)常規(guī) softmax 注意力進(jìn)行魯棒且無(wú)偏的估計(jì)。

研究人員表示:“Performer 是第一個(gè)通過(guò)微調(diào)可以與常規(guī) Transformers 進(jìn)行完全兼容的線性架構(gòu)”。

左圖 | 原點(diǎn)對(duì)稱的通用函數(shù) r(定義為建立在:三角隨機(jī)特征和正隨機(jī)特征上的估計(jì)器的均方誤差(MSEs)的比值)是輸入特征向量與其長(zhǎng)度l之間的角度 φ(以弧度為單位)的函數(shù), 函數(shù)的數(shù)值越大表示正隨機(jī)特征性能越好的(φ,l)空間區(qū)域;

右圖 | 當(dāng)l為定值 1 時(shí),與變化的角度 φ 構(gòu)成的函數(shù) r 為正切函數(shù);右上角 | 比較低 softmax 內(nèi)核值區(qū)域中兩個(gè)估算器的 MSE。

作者通過(guò)比較發(fā)現(xiàn),對(duì)于 φ 足夠大的臨界區(qū)域,該方法所使用的正交隨機(jī)特征比任意的三角隨機(jī)特征更精確。

圖| 我們將原始的經(jīng)過(guò)預(yù)訓(xùn)練的 Transformer 的權(quán)重轉(zhuǎn)移到 Performer 中,Performer 產(chǎn)的精度達(dá)到 0.07 (橙色虛線),但在原來(lái)的梯度步數(shù)的一小部分中,很快就恢復(fù)了精度。然而在 PG-19 上,三角法(TRIG) softmax 逼近變得非常不穩(wěn)定,而正特征(POS)(不重繪)和 Linformer (也是逼近 softmax)即使在重繪投影的情況下,也會(huì)在同樣的復(fù)雜度中趨于平穩(wěn)。具有特征重繪的正 softmax 是匹配 Transformer 的必要條件,SMREG 可實(shí)現(xiàn)更快的收斂。

這篇論文利用詳細(xì)的數(shù)學(xué)定理,證明了與其單純依靠計(jì)算資源來(lái)提升性能,還不如開發(fā)出改進(jìn)的、高效的 Transformer 架構(gòu),來(lái)顯著降低能耗。同時(shí),由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù),也可以有效訓(xùn)練基于 softmax 的線性 Transformer。因此 FAVOR+ 機(jī)制可以作為一個(gè)簡(jiǎn)單的插件,而無(wú)需進(jìn)行過(guò)多的調(diào)整。

Performer 模型應(yīng)用前景廣泛

研究人員表示,Performer 模型的提出,顯著降低了常規(guī) Transformer 的空間和時(shí)間復(fù)雜度,并在 Transformer 的研究以及非稀疏注意機(jī)制的作用方面開辟了新的途徑。

該論文利用詳細(xì)的數(shù)學(xué)定理,證明了與其單純依靠計(jì)算資源來(lái)提升性能,還不如開發(fā)出改進(jìn)的、高效的 Transformer 架構(gòu),來(lái)顯著降低能耗。同時(shí),由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù),因此 FAVOR+ 機(jī)制可以作為一個(gè)簡(jiǎn)單的插件,而無(wú)需進(jìn)行過(guò)多的調(diào)整。

該團(tuán)隊(duì)在一系列豐富的場(chǎng)景下測(cè)試了 Performers 的性能,執(zhí)行的任務(wù)包括像素預(yù)測(cè)、蛋白質(zhì)序列建模。在實(shí)驗(yàn)設(shè)置中,一個(gè) Performer 只用 FAVOR+ 機(jī)制取代了常規(guī) Transformer 的注意力組件。

在使用蛋白質(zhì)序列訓(xùn)練一個(gè) 36 層模型的挑戰(zhàn)性任務(wù)上,基于 Performer 的模型(Performer-RELU)的性能優(yōu)于基線 Transformer 模型:Reformer 和 Linformer,后者的準(zhǔn)確率顯著下降。

在標(biāo)準(zhǔn)的 ImageNet64 基準(zhǔn)上,具有 6 層的 Performer 與具有 12 層的 Reformer 的準(zhǔn)確性相當(dāng)。優(yōu)化后,Performer 的速度達(dá)到了 Reformer 的兩倍。

研究人員表示,由于基于 Performer 的可擴(kuò)展 Transformer 架構(gòu)可以處理更長(zhǎng)的序列,而不受注意力機(jī)制結(jié)構(gòu)的限制,同時(shí)保持準(zhǔn)確和魯棒性,相信它們可以在生物信息學(xué)領(lǐng)域帶來(lái)新的突破,如蛋白質(zhì)的語(yǔ)言建模等技術(shù)已經(jīng)顯示出強(qiáng)大的潛力。

責(zé)任編輯:xj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6252

    瀏覽量

    111234
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6925
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13976
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23271
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer 入門:從零理解 AI 大模型的核心原理

    時(shí),Query 矩陣需要和 Key 矩陣的轉(zhuǎn)置相乘。 2. 矩陣乘法(Matrix Multiplication) 矩陣乘法是 Transformer 的核心運(yùn)算! 規(guī)則:行 × 列,逐個(gè)相乘相加
    發(fā)表于 02-10 16:33

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4105次閱讀

    自然語(yǔ)言處理NLP的概念和工作原理

    自然語(yǔ)言處理 (NLP) 是人工智能 (AI) 的一個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書面形式的人類語(yǔ)言。自然語(yǔ)言處理將計(jì)算語(yǔ)言學(xué)與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合來(lái)處理語(yǔ)音和文本數(shù)據(jù),這些數(shù)據(jù)也可以與其他類型的數(shù)據(jù)一起用于開發(fā)智能工程系統(tǒng)。
    的頭像 發(fā)表于 01-29 14:01 ?302次閱讀
    自然語(yǔ)言處理<b class='flag-5'>NLP</b>的概念和工作原理

    谷歌評(píng)論卡,碰一碰即可完成谷歌評(píng)論 #谷歌評(píng)論卡 #NFC標(biāo)簽 #nfc卡

    谷歌
    深圳市融智興科技有限公司
    發(fā)布于 :2026年01月15日 17:02:00

    每年10億美元,蘋果與谷歌官宣合作,Gemini大模型注入Siri

    電子發(fā)燒友網(wǎng)報(bào)道 當(dāng)?shù)貢r(shí)間1月12日,蘋果官宣將與谷歌聯(lián)手,為蘋果的人工智能功能提供支持,其中包括今年晚些時(shí)候?qū)iri的一次重大升級(jí)谷歌在其官方博客上表示,蘋果已與谷歌達(dá)成一項(xiàng)多年
    的頭像 發(fā)表于 01-13 14:59 ?1522次閱讀

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)可以將這些重要信息有效地關(guān)聯(lián)起來(lái)。
    的頭像 發(fā)表于 11-19 18:17 ?2244次閱讀

    項(xiàng)目效率翻倍!迅為RK3568?V2.0硬件接口升級(jí),開發(fā)流程提速

    項(xiàng)目效率翻倍!迅為RK3568?V2.0硬件接口升級(jí),開發(fā)流程提速
    的頭像 發(fā)表于 10-29 10:53 ?440次閱讀
    項(xiàng)目效率翻倍!迅為RK3568?V2.0硬件接口<b class='flag-5'>升級(jí)</b>,開發(fā)流程<b class='flag-5'>再</b>提速

    迅為iTOP-RK3576開發(fā)板升級(jí)全新金屬外殼

    迅為iTOP-RK3576開發(fā)板升級(jí)全新金屬外殼
    的頭像 發(fā)表于 10-22 15:48 ?1197次閱讀
    迅為iTOP-RK3576開發(fā)板<b class='flag-5'>再</b><b class='flag-5'>升級(jí)</b>全新金屬外殼

    AI賦能谷歌Chrome與Web工具全面升級(jí)

    2025 Google 谷歌開發(fā)者大會(huì)帶來(lái)了最新 Web 工具,包括全面升級(jí)的 Chrome 開發(fā)體驗(yàn)、極大簡(jiǎn)化的 UI 開發(fā),到云端兩側(cè)的 AI 部署。這些強(qiáng)大的工具為出海開發(fā)者提供了前所未有的加速,幫助他們更高效地打造面向全球用戶的 Web 應(yīng)用。
    的頭像 發(fā)表于 08-29 09:33 ?1136次閱讀

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4147次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1053次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1270次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    谷歌地圖GPS定位

    谷歌地圖GPS定位:精準(zhǔn)導(dǎo)航背后的技術(shù)解析 谷歌地圖作為全球最受歡迎的地圖服務(wù)之一,其精準(zhǔn)的GPS定位功能為用戶提供了極大便利。本文將深入探討谷歌地圖如何利用GPS技術(shù),實(shí)現(xiàn)高精度定位,并帶來(lái)革命性
    的頭像 發(fā)表于 05-29 16:54 ?1421次閱讀

    谷歌打造通用AI助手的愿景

    在過(guò)去的十年中,我們?yōu)楝F(xiàn)代 AI 時(shí)代奠定了許多基礎(chǔ),從率先提出所有大型語(yǔ)言模型賴以構(gòu)建的 Transformer 架構(gòu),到開發(fā) AlphaGo 和 AlphaZero 等可以學(xué)習(xí)和規(guī)劃的智能體系統(tǒng)。
    的頭像 發(fā)表于 05-23 14:48 ?975次閱讀

    谷歌I/O 2025大會(huì)前透露:Android 16接入Gemini,智能手機(jī)、XR設(shè)備升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)2025 Google Android I/O將5 月 20 日至 21 日舉行,在這場(chǎng)活動(dòng)之前,谷歌召開了“The Android Show: I/O Edition
    的頭像 發(fā)表于 05-18 00:03 ?7520次閱讀
    <b class='flag-5'>谷歌</b>I/O 2025大會(huì)前透露:Android 16接入Gemini,智能手機(jī)、XR設(shè)備<b class='flag-5'>升級(jí)</b>