欧美裸体在线播放,情趣内衣的AV片免费

“Jeff Dean稱贊，TensorFlow官方推特支持，BERT目前工業(yè)界最耗時(shí)的應(yīng)用，計(jì)算量遠(yuǎn)高于ImageNet。我們將BERT的訓(xùn)練時(shí)間從三天縮短到了一小時(shí)多?！盪C Berkeley大學(xué)在讀博士尤洋如是說道。

近日，來自Google、UC Berkeley、UCLA研究團(tuán)隊(duì)再度合作，成功燃燒1024塊TPU，將BERT預(yù)訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)從3天縮減到了76分鐘。batch size技術(shù)是加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵，在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中，作者提出了LAMB優(yōu)化器，它支持自適應(yīng)元素更新和分層校正。

論文傳送門：https://arxiv.org/pdf/1904.00962.pdf

論文摘要：batch size增加到很大時(shí)的模型訓(xùn)練是加速大型分布式系統(tǒng)中深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵。但是，這種模型訓(xùn)練很難，因?yàn)樗鼤?huì)導(dǎo)致一種泛化差距。直接優(yōu)化通常會(huì)導(dǎo)致測(cè)試集上的準(zhǔn)確性下降。

BERT是一種先進(jìn)的深度學(xué)習(xí)模型，它建立在語義理解的深度雙向轉(zhuǎn)換器上。當(dāng)我們?cè)黾觔atch size的大?。ㄈ绯^8192）時(shí)，此前的模型訓(xùn)練技巧在BERT上表現(xiàn)得并不好。BERT預(yù)訓(xùn)練也需要很長(zhǎng)時(shí)間才能完成，如在16個(gè)TPUv3上大約需要三天。

為了解決這個(gè)問題，我們提出了LAMB優(yōu)化器，可將batch size擴(kuò)展到65536，且不會(huì)降低準(zhǔn)確率。LAMB是一個(gè)通用優(yōu)化器，batch size大小均使用，且除了學(xué)習(xí)率之外不需要?jiǎng)e的參數(shù)調(diào)整。

基線BERT-Large模型需要100萬次迭代才能完成預(yù)訓(xùn)練，而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進(jìn)行內(nèi)存限制，接近TPUv3 pod，結(jié)果可在76分鐘內(nèi)完成BERT訓(xùn)練。

據(jù)悉，該論文的一作是來自UC Berkeley計(jì)算機(jī)科學(xué)部的在讀博士尤洋，同時(shí)也是Google Brain的實(shí)習(xí)生。據(jù)公開信息顯示，尤洋的導(dǎo)師是美國(guó)科學(xué)院與工程院院士，ACM/IEEE fellow，伯克利計(jì)算機(jī)系主任，以及首批中關(guān)村海外顧問James Demmel教授。他當(dāng)前的研究重點(diǎn)是大規(guī)模深度學(xué)習(xí)訓(xùn)練算法的分布式優(yōu)化。2017年9月，尤洋等人的新算法以24分鐘完成ImageNet訓(xùn)練，刷新世界紀(jì)錄。

在此之前，他曾在英特爾實(shí)驗(yàn)室、微軟研究院、英偉達(dá)、IBM沃森研究中心等機(jī)構(gòu)實(shí)習(xí)。尤洋本科就讀于中國(guó)農(nóng)業(yè)大學(xué)計(jì)算機(jī)系，碩士保送清華大學(xué)計(jì)算機(jī)系，是一名杠杠的理工學(xué)霸！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4840

瀏覽量
108147
TPU

TPU

+關(guān)注

關(guān)注
0

文章
171

瀏覽量
21715
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5604

瀏覽量
124610
訓(xùn)練模型

訓(xùn)練模型

+關(guān)注

關(guān)注
1

文章
37

瀏覽量
4082

原文標(biāo)題：1024塊TPU在燃燒！BERT訓(xùn)練從3天縮短到76分鐘 | 技術(shù)頭條

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

1024塊TPU在燃燒！將BERT預(yù)訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)從3天縮減到了76分鐘

評(píng)論