chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升!

DPVg_AI_era ? 來(lái)源:YXQ ? 2019-06-16 11:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功,谷歌的研究團(tuán)隊(duì)在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,使用了翻譯作為一般的序列任務(wù)的代理,并找到了Evolved Transformer這一新的Transformer架構(gòu)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果,與原始的Transformer相比,它還展示了語(yǔ)言建模的改進(jìn)性能。

自幾年前推出以來(lái),Google的Transformer架構(gòu)已經(jīng)應(yīng)用于從制作奇幻小說到編寫音樂和聲的各種挑戰(zhàn)。重要的是,Transformer的高性能已經(jīng)證明,當(dāng)應(yīng)用于序列任務(wù)(例如語(yǔ)言建模和翻譯)時(shí),前饋神經(jīng)網(wǎng)絡(luò)可以與遞歸神經(jīng)網(wǎng)絡(luò)一樣有效。雖然用于序列問題的Transformer和其他前饋模型越來(lái)越受歡迎,但它們的架構(gòu)幾乎完全是手動(dòng)設(shè)計(jì)的,與計(jì)算機(jī)視覺領(lǐng)域形成鮮明對(duì)比。AutoML方法已經(jīng)找到了最先進(jìn)的模型,其性能優(yōu)于手工設(shè)計(jì)的模型。當(dāng)然,我們想知道AutoML在序列域中的應(yīng)用是否同樣成功。

在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,我們使用翻譯作為一般的序列任務(wù)的代理,我們找到了Evolved Transformer,這是一種新的Transformer架構(gòu),它展示了對(duì)各種自然語(yǔ)言處理(NLP)任務(wù)的有希望的改進(jìn)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果,而且與原始的Transformer相比,它還展示了語(yǔ)言建模的改進(jìn)性能。我們是將此新模型作為Tensor2Tensor的部分發(fā)布,它可用于任何序列問題。

開發(fā)技術(shù)

要開始進(jìn)化NAS,我們有必要開發(fā)新技術(shù),因?yàn)橛糜谠u(píng)估每個(gè)架構(gòu)的“適應(yīng)性”的任務(wù)——WMT'14英語(yǔ)-德語(yǔ)翻譯——計(jì)算量很大。這使得搜索比在視覺領(lǐng)域中執(zhí)行的類似搜索更加昂貴,這可以利用較小的數(shù)據(jù)集,如CIFAR-10。

這些技術(shù)中的第一種是溫啟動(dòng)——在初始進(jìn)化種群中播種Transformer架構(gòu)而不是隨機(jī)模型。這有助于在我們熟悉的搜索空間區(qū)域中進(jìn)行搜索,從而使其能夠更快地找到更好的模型。

第二種技術(shù)是我們開發(fā)的一種稱為漸進(jìn)動(dòng)態(tài)障礙(PDH)(Progressive Dynamic Hurdles)的新方法,這種算法增強(qiáng)了進(jìn)化搜索,以便為最強(qiáng)的候選者分配更多的資源,這與先前的工作相反,其中NAS的每個(gè)候選模型被分配相同的評(píng)估時(shí)的資源量。如果模型明顯不好,PDH允許我們提前終止對(duì)模型的評(píng)估,從而使有前途的架構(gòu)獲得更多資源。

Evolved Transformer簡(jiǎn)介

使用這些方法,我們?cè)诜g任務(wù)上進(jìn)行了大規(guī)模的NAS,并發(fā)現(xiàn)了Evolved Transformer(ET)。與大多數(shù)序列到序列(seq2seq)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)一樣,它有一個(gè)編碼器,將輸入序列編碼為嵌入,解碼器使用這些嵌入構(gòu)造輸出序列;在翻譯的情況下,輸入序列是要翻譯的句子,輸出序列是翻譯。

演化變壓器最有趣的特征是其編碼器和解碼器模塊底部的卷積層,在兩個(gè)地方都以類似的分支模式添加(即輸入在加到一起之前通過兩個(gè)單獨(dú)的卷積層)。

Evolved Transformer與原始Transformer編碼器架構(gòu)的比較。注意模塊底部的分支卷積結(jié)構(gòu),它獨(dú)立地在編碼器和解碼器中形成。

這一點(diǎn)特別有趣,因?yàn)樵贜AS期間編碼器和解碼器架構(gòu)不共享,因此獨(dú)立發(fā)現(xiàn)該架構(gòu)對(duì)編碼器和解碼器都很有用,這說明了該設(shè)計(jì)的優(yōu)勢(shì)。雖然最初的Transformer完全依賴于自我關(guān)注,但Evolved Transformer是一種混合體,利用了自我關(guān)注和廣泛卷積的優(yōu)勢(shì)。

對(duì)Evolved Transformer的評(píng)估

為了測(cè)試這種新架構(gòu)的有效性,我們首先將它與我們?cè)谒阉髌陂g使用的英語(yǔ)-德語(yǔ)翻譯任務(wù)的原始Transformer進(jìn)行了比較。我們發(fā)現(xiàn)在所有參數(shù)尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,擁有最大增益與移動(dòng)設(shè)備兼容(約700萬(wàn)個(gè)參數(shù)),證明了參數(shù)的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上達(dá)到了最先進(jìn)的性能,BLEU得分為29.8,SacreBLEU得分為29.2。

不同尺寸的WMT'14 En-DeEvolved Transformer與原Transformer的比較。性能的最大提高發(fā)生在較小的尺寸上,而ET在較大的尺寸上也顯示出強(qiáng)度,優(yōu)于最大的Transformer,參數(shù)減少37.6%(要比較的模型用綠色圈出)。

為了測(cè)試普遍性,我們還在其他NLP任務(wù)上將ET與Transformer進(jìn)行了比較。首先,我們研究了使用不同語(yǔ)言對(duì)的翻譯,發(fā)現(xiàn)ET表現(xiàn)提升,其邊緣與英語(yǔ)-德語(yǔ)相似;再次,由于其有效使用參數(shù),對(duì)于中型模型觀察到了最大的提升。我們還比較了使用LM1B進(jìn)行語(yǔ)言建模的兩種模型的解碼器,并且看到性能提升近2個(gè)perplexity。

未來(lái)工作

這些結(jié)果是探索體系結(jié)構(gòu)搜索在前饋序列模型中應(yīng)用的第一步。Evolved Transformer作為Tensor2Tensor的一部分已開源,在那里它可以用于任何序列問題。為了提高可重復(fù)性,我們還開源了我們用于搜索的搜索空間,以及實(shí)施漸進(jìn)動(dòng)態(tài)障礙的Colab。我們期待著看到研究團(tuán)體用新模型做了什么,并希望其他人能夠利用這些新的搜索技術(shù)!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6252

    瀏覽量

    111234
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4180

    瀏覽量

    46032

原文標(biāo)題:谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升,已開源!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    谷歌推出TranslateGemma全新開放翻譯模型系列

    我們已正式推出 TranslateGemma,這一全新的開放翻譯模型系列基于 Gemma 3 構(gòu)建,并提供 4B、12B 和 27B 三種參數(shù)規(guī)模。TranslateGemma 的問世標(biāo)志著開放翻譯領(lǐng)域邁出了重要一步,它可幫助人們跨越 55 種語(yǔ)言進(jìn)行交流,無(wú)論身在何處或
    的頭像 發(fā)表于 02-26 10:22 ?206次閱讀

    Transformer 入門:從零理解 AI 大模型的核心原理

    分:Transformer 架構(gòu)詳解 現(xiàn)在你已經(jīng)了解了數(shù)學(xué)基礎(chǔ)和語(yǔ)言模型概念,讓我們來(lái)看 Transformer 是如何工作的! Transformer 的目標(biāo)
    發(fā)表于 02-10 16:33

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4105次閱讀

    谷歌評(píng)論卡,碰一碰即可完成谷歌評(píng)論 #谷歌評(píng)論卡 #NFC標(biāo)簽 #nfc卡

    谷歌
    深圳市融智興科技有限公司
    發(fā)布于 :2026年01月15日 17:02:00

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)可以
    的頭像 發(fā)表于 11-19 18:17 ?2244次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    1.1RISC-VISA 擴(kuò)展 1.2 向量協(xié)處理器 1.3 與各級(jí)存儲(chǔ)耦合的NPU 1.4 針對(duì)Transformer 模型的架構(gòu)優(yōu)化 SwiftTron是一款專用的開源AI加速器,用于量化
    發(fā)表于 09-12 17:30

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4147次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    Transformer在端到端自動(dòng)駕駛架構(gòu)中是何定位?

    典型的Transformer架構(gòu)已被用于構(gòu)建“感知-規(guī)劃-控制統(tǒng)一建模”的方案。如Waymo和小馬智行正在研發(fā)的多模態(tài)大模型(MultimodalLargeModels,MLLMs),將來(lái)自攝像頭
    的頭像 發(fā)表于 08-03 11:03 ?1351次閱讀

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    一、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時(shí),我仿佛打開了一扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力
    發(fā)表于 07-20 15:07

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1053次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1270次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>概述

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計(jì)算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計(jì)算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行計(jì)算引擎,廣泛應(yīng)用于人工智能、科學(xué)計(jì)算
    的頭像 發(fā)表于 05-30 10:36 ?1829次閱讀
    GPU<b class='flag-5'>架構(gòu)</b>深度解析

    谷歌地圖GPS定位

    谷歌地圖GPS定位:精準(zhǔn)導(dǎo)航背后的技術(shù)解析 谷歌地圖作為全球最受歡迎的地圖服務(wù)之一,其精準(zhǔn)的GPS定位功能為用戶提供了極大便利。本文深入探討谷歌地圖如何利用GPS技術(shù),實(shí)現(xiàn)高精度定位
    的頭像 發(fā)表于 05-29 16:54 ?1421次閱讀

    谷歌打造通用AI助手的愿景

    在過去的十年中,我們?yōu)楝F(xiàn)代 AI 時(shí)代奠定了許多基礎(chǔ),從率先提出所有大型語(yǔ)言模型賴以構(gòu)建的 Transformer 架構(gòu),到開發(fā) AlphaGo 和 AlphaZero 等可以學(xué)習(xí)和規(guī)劃的智能體系統(tǒng)。
    的頭像 發(fā)表于 05-23 14:48 ?975次閱讀

    AI SoC # 愛芯元智AX650N詳細(xì)介紹:原生支持Transformer架構(gòu)模型 適用部署DeepSeek R1

    和 18TOPs@INT8 ,原生支持Transformer架構(gòu)模型,適用于CNN、LLM(如DeepSeek、Llama3、Qwen2.5)及多模態(tài)大模型(VLM)部署。 部署DeepS
    的頭像 發(fā)表于 03-04 11:15 ?8826次閱讀
    AI SoC # 愛芯元智AX650N詳細(xì)介紹:原生支持<b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>模型 適用部署DeepSeek R1