chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

訊飛開(kāi)放平臺(tái) ? 來(lái)源:djl ? 2019-10-08 11:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作為國(guó)內(nèi)智能語(yǔ)音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者,科大訊飛在北京國(guó)家會(huì)議中心召開(kāi)了以“AI復(fù)始,萬(wàn)物更新”為主題的2015年年度發(fā)布會(huì)。在發(fā)布會(huì)上,科大訊飛介紹了訊飛超腦計(jì)劃的最新進(jìn)展,并發(fā)布了數(shù)款讓人印象深刻的創(chuàng)新型產(chǎn)品。特別值得一提的是,在發(fā)布會(huì)現(xiàn)場(chǎng),科大訊飛全球首次將演講人的演講,同步轉(zhuǎn)寫(xiě)成文字在大屏幕顯示,敢于接受現(xiàn)場(chǎng)數(shù)千參會(huì)者和數(shù)千萬(wàn)觀看視頻直播觀眾的檢驗(yàn),系統(tǒng)的轉(zhuǎn)寫(xiě)效果之好讓大家直呼驚艷。此次發(fā)布會(huì)轉(zhuǎn)寫(xiě)系統(tǒng)就是依托于訊飛全球領(lǐng)先的中文語(yǔ)音識(shí)別系統(tǒng)。今天,我們就為大家從技術(shù)上揭秘科大訊飛的新一代語(yǔ)音識(shí)別系統(tǒng)。


劉慶峰董事長(zhǎng)現(xiàn)場(chǎng)演講內(nèi)容同步轉(zhuǎn)寫(xiě)成文字顯示在屏幕上

眾所周知,自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在大規(guī)模語(yǔ)音識(shí)別任務(wù)上獲得顯著效果提升以來(lái),DNN在語(yǔ)音識(shí)別領(lǐng)域受到越來(lái)越多的關(guān)注,目前已經(jīng)成為主流語(yǔ)音識(shí)別系統(tǒng)的標(biāo)配。然而,更深入的研究成果表明,DNN結(jié)構(gòu)雖然具有很強(qiáng)的分類(lèi)能力,但是其針對(duì)上下文時(shí)序信息的捕捉能力是較弱的,因此并不適合處理具有長(zhǎng)時(shí)相關(guān)性的時(shí)序信號(hào)。而語(yǔ)音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào),這種相關(guān)性主要體現(xiàn)在說(shuō)話(huà)時(shí)的協(xié)同發(fā)音現(xiàn)象上,往往前后好幾個(gè)字對(duì)我們正要說(shuō)的字都有影響,也就是語(yǔ)音的各幀之間具有長(zhǎng)時(shí)相關(guān)性。

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖1:DNN和RNN示意圖

相比前饋型神經(jīng)網(wǎng)絡(luò)DNN,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)在隱層上增加了一個(gè)反饋連接,也就是說(shuō),RNN隱層當(dāng)前時(shí)刻的輸入有一部分是前一時(shí)刻的隱層輸出,這使得RNN可以通過(guò)循環(huán)反饋連接看到前面所有時(shí)刻的信息,這賦予了RNN記憶功能,如圖1所示。這些特點(diǎn)使得RNN非常適合用于對(duì)時(shí)序信號(hào)的建模,在語(yǔ)音識(shí)別領(lǐng)域,RNN是一個(gè)近年來(lái)替換DNN的新的深度學(xué)習(xí)框架,而長(zhǎng)短時(shí)記憶模塊(Long-Short Term Memory, LSTM)的引入解決了傳統(tǒng)簡(jiǎn)單RNN梯度消失等問(wèn)題,使得RNN框架可以在語(yǔ)音識(shí)別領(lǐng)域?qū)嵱没@得了超越DNN的效果,目前已經(jīng)在業(yè)界一些比較先進(jìn)的語(yǔ)音系統(tǒng)中使用。

除此之外,研究人員還在RNN的基礎(chǔ)上做了進(jìn)一步改進(jìn)工作,圖2是當(dāng)前語(yǔ)音識(shí)別中的主流RNN聲學(xué)模型框架,主要還包含兩部分:深層雙向LSTM RNN和CTC(Connectionist Temporal Classification)輸出層。其中雙向RNN對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷時(shí),不僅可以利用歷史的語(yǔ)音信息,還可以利用未來(lái)的語(yǔ)音信息,可以進(jìn)行更加準(zhǔn)確的決策;CTC使得訓(xùn)練過(guò)程無(wú)需幀級(jí)別的標(biāo)注,實(shí)現(xiàn)有效的“端對(duì)端”訓(xùn)練。

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖2:基于LSTM RNN的主流聲學(xué)模型框架

目前,國(guó)際國(guó)內(nèi)已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)掌握了RNN模型,并在上述某個(gè)或多個(gè)技術(shù)點(diǎn)進(jìn)行研究。然而,上述各個(gè)技術(shù)點(diǎn)單獨(dú)研究時(shí)一般可以獲得較好的結(jié)果,但是如果想將這些技術(shù)點(diǎn)融合在一起的時(shí)候,則會(huì)碰到一些問(wèn)題。例如,多個(gè)技術(shù)結(jié)合在一起的提升幅度會(huì)比各個(gè)技術(shù)點(diǎn)幅度的疊加要小。又例如,傳統(tǒng)的雙向RNN方案,理論上需要看到語(yǔ)音的結(jié)束(即所有的未來(lái)信息),才能成功的應(yīng)用未來(lái)信息來(lái)獲得提升,因此只適合處理離線(xiàn)任務(wù),而對(duì)于要求即時(shí)響應(yīng)的在線(xiàn)任務(wù)(例如語(yǔ)音輸入法)則往往會(huì)帶來(lái)3-5s的硬延遲,這對(duì)于在線(xiàn)任務(wù)是不可接受的。再者,RNN對(duì)上下文相關(guān)性的擬合較強(qiáng),相對(duì)于DNN更容易陷入過(guò)擬合的問(wèn)題,容易因?yàn)橛?xùn)練數(shù)據(jù)的局部不魯棒現(xiàn)象而帶來(lái)額外的異常識(shí)別錯(cuò)誤。最后,由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu),給海量數(shù)據(jù)下的RNN模型訓(xùn)練帶來(lái)了更大的挑戰(zhàn)。

鑒于上述問(wèn)題,科大訊飛發(fā)明了一種名為前饋型序列記憶網(wǎng)絡(luò)FSMN(Feed-forward Sequential Memory Network)的新框架。在這個(gè)框架中,可以把上述幾點(diǎn)很好的融合,同時(shí)各個(gè)技術(shù)點(diǎn)對(duì)效果的提升可以獲得疊加。值得一提的是,我們?cè)谶@個(gè)系統(tǒng)中創(chuàng)造性提出的FSMN結(jié)構(gòu),采用非循環(huán)的前饋結(jié)構(gòu),在只需要180ms延遲下,就達(dá)到了和雙向LSTM RNN相當(dāng)?shù)男Ч?。下面讓我們?lái)具體看下它的構(gòu)成。

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖3:FSMN結(jié)構(gòu)示意圖

關(guān)于科大訊飛對(duì)新一代語(yǔ)音識(shí)別系統(tǒng)技術(shù)原理的分析和介紹

圖4:FSMN中隱層記憶塊的時(shí)序展開(kāi)示意圖(左右各看一幀)

圖3即為FSMN的結(jié)構(gòu)示意圖,相比傳統(tǒng)的DNN,我們?cè)陔[層旁增加了一個(gè)稱(chēng)為“記憶塊”的模塊,用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來(lái)信息。圖4畫(huà)出了雙向FSMN中記憶塊左右各記憶一幀語(yǔ)音信息(在實(shí)際任務(wù)中,可根據(jù)任務(wù)需要,人工調(diào)整所需記憶的歷史和未來(lái)信息長(zhǎng)度)的時(shí)序展開(kāi)結(jié)構(gòu)。

從圖中我們可以看出,不同于傳統(tǒng)的基于循環(huán)反饋的RNN,F(xiàn)SMN記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的。這種前饋結(jié)構(gòu)有兩大好處:首先,雙向FSMN對(duì)未來(lái)信息進(jìn)行記憶時(shí),沒(méi)有傳統(tǒng)雙向RNN必須等待語(yǔ)音輸入結(jié)束才能對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷的限制,它只需要等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀即可,正如前文所說(shuō)的,我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果;其次,如前所述,傳統(tǒng)的簡(jiǎn)單RNN因?yàn)橛?xùn)練過(guò)程中的梯度是按時(shí)間逐次往前傳播的,因此會(huì)出現(xiàn)指數(shù)衰減的梯度消失現(xiàn)象,這導(dǎo)致理論上具有無(wú)限長(zhǎng)記憶的RNN實(shí)際上能記住的信息很有限,然而FSMN這種基于前饋時(shí)序展開(kāi)結(jié)構(gòu)的記憶網(wǎng)絡(luò),在訓(xùn)練過(guò)程中梯度沿著圖4中記憶塊與隱層的連接權(quán)重往回傳給各個(gè)時(shí)刻即可,這些連接權(quán)重決定了不同時(shí)刻輸入對(duì)判斷當(dāng)前語(yǔ)音幀的影響,而且這種梯度傳播在任何時(shí)刻的衰減都是常數(shù)的,也是可訓(xùn)練的,因此FSMN用一種更為簡(jiǎn)單的方式解決了RNN中的梯度消失問(wèn)題,使得其具有類(lèi)似LSTM的長(zhǎng)時(shí)記憶能力。

另外,在模型訓(xùn)練效率和穩(wěn)定性方面,由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò),所以不存在RNN訓(xùn)練中因mini-batch中句子長(zhǎng)短不一需要補(bǔ)零而導(dǎo)致浪費(fèi)運(yùn)算的情況,前饋結(jié)構(gòu)也使得它的并行度更高,可最大化利用GPU計(jì)算能力。從最終訓(xùn)練收斂的雙向FSMN模型記憶塊中各時(shí)刻的加權(quán)系數(shù)分布我們觀察到,權(quán)重值基本上在當(dāng)前時(shí)刻最大,往左右兩邊逐漸衰減,這也符合預(yù)期。進(jìn)一步,F(xiàn)SMN可和CTC準(zhǔn)則結(jié)合,實(shí)現(xiàn)語(yǔ)音識(shí)別中的“端到端”建模。

最后,和其他多個(gè)技術(shù)點(diǎn)結(jié)合后,訊飛基于FSMN的語(yǔ)音識(shí)別框架可獲得相比業(yè)界最好的語(yǔ)音識(shí)別系統(tǒng)40%的性能提升,同時(shí)結(jié)合我們的多GPU并行加速技術(shù),訓(xùn)練效率可達(dá)到一萬(wàn)小時(shí)訓(xùn)練數(shù)據(jù)一天可訓(xùn)練收斂。后續(xù)基于FSMN框架,我們還將展開(kāi)更多相關(guān)的研究工作,例如:DNN和記憶塊更深層次的組合方式,增加記憶塊部分復(fù)雜度強(qiáng)化記憶功能,F(xiàn)SMN結(jié)構(gòu)和CNN等其他結(jié)構(gòu)的更深度融合等。在這些核心技術(shù)持續(xù)進(jìn)步的基礎(chǔ)上,科大訊飛的語(yǔ)音識(shí)別系統(tǒng)將不斷挑戰(zhàn)新的高峰!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    科大設(shè)立子公司:加碼AI與集成電路業(yè)務(wù)布局

    ,經(jīng)營(yíng)范圍涵蓋人工智能公共服務(wù)平臺(tái)技術(shù)咨詢(xún)服務(wù)、集成電路設(shè)計(jì)、人工智能基礎(chǔ)軟件開(kāi)發(fā)等業(yè)務(wù),由科大全資持股。此次新設(shè)子公司是科大
    發(fā)表于 12-29 08:53 ?1889次閱讀

    科大蒞臨汽奔騰座談交流

    11月8日,科大股份有限公司總裁吳曉如行來(lái)訪(fǎng)汽奔騰。汽奔騰企業(yè)負(fù)責(zé)人等相關(guān)人員接待來(lái)賓
    的頭像 發(fā)表于 11-11 17:21 ?1391次閱讀

    2025科大全球1024開(kāi)發(fā)者節(jié)精彩回顧

    當(dāng)全球產(chǎn)業(yè)格局和競(jìng)爭(zhēng)形態(tài)重塑之時(shí),AI將如何發(fā)展?11月6日,在第八屆世界聲博會(huì)暨2025科大全球1024開(kāi)發(fā)者節(jié)發(fā)布會(huì)上,科大
    的頭像 發(fā)表于 11-10 11:51 ?1115次閱讀
    2025<b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>全球1024開(kāi)發(fā)者節(jié)精彩回顧

    科大發(fā)布星火X1.5及系列AI產(chǎn)品

    11月6日,第八屆世界聲博會(huì)暨2025科大全球1024開(kāi)發(fā)者節(jié)發(fā)布會(huì)上,科大以《更懂你的
    的頭像 發(fā)表于 11-10 11:49 ?1094次閱讀

    語(yǔ)音識(shí)別系統(tǒng)技術(shù)核心:從聲音到文字的智能轉(zhuǎn)換

    ? ? ? 語(yǔ)音識(shí)別技術(shù),也稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(ASR),其核心目標(biāo)是將人類(lèi)語(yǔ)音信號(hào)轉(zhuǎn)換為對(duì)應(yīng)的文
    的頭像 發(fā)表于 09-05 14:04 ?985次閱讀

    香港立法會(huì)與科大聯(lián)合打造智慧謄錄系統(tǒng)“智識(shí)聽(tīng)”

    香港立法會(huì)主席梁君彥在社交平臺(tái)發(fā)文點(diǎn)贊的“智識(shí)聽(tīng)”系統(tǒng),是香港立法會(huì)與科大聯(lián)合打造的智慧謄錄系統(tǒng)
    的頭像 發(fā)表于 08-11 14:45 ?1699次閱讀

    鐵路車(chē)號(hào)識(shí)別系統(tǒng)的基本原理與應(yīng)用

    鐵路車(chē)號(hào)識(shí)別系統(tǒng)是鐵路運(yùn)輸智能化管理的關(guān)鍵技術(shù),它通過(guò)自動(dòng)化手段實(shí)現(xiàn)對(duì)貨運(yùn)列車(chē)的高效精準(zhǔn)識(shí)別,為礦區(qū)及鐵路運(yùn)輸管理提供了重要的技術(shù)支撐。
    的頭像 發(fā)表于 07-07 10:30 ?1305次閱讀
    鐵路車(chē)號(hào)<b class='flag-5'>識(shí)別系統(tǒng)</b>的基本原理與應(yīng)用

    無(wú)人機(jī)AI視覺(jué)行為識(shí)別系統(tǒng)

    的需求。同時(shí),人工監(jiān)控存在效率低下、易疲勞、反應(yīng)滯后等問(wèn)題,無(wú)法應(yīng)對(duì)日益復(fù)雜的安全管理挑戰(zhàn)。 在這背景下,陜西廣合通結(jié)合無(wú)人機(jī)機(jī)動(dòng)性與人工智能分析能力的視覺(jué)行為識(shí)別系統(tǒng)為基礎(chǔ)研發(fā)了無(wú)人機(jī)AI視覺(jué)行為
    的頭像 發(fā)表于 07-04 16:53 ?1189次閱讀

    打破交互困局:科大這樣出手

    十年深耕,科大智能交互如何引領(lǐng)未來(lái)
    的頭像 發(fā)表于 06-17 11:50 ?1305次閱讀
    打破交互困局:<b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>這樣出手

    回顧科大26周年慶精彩瞬間

    近日,科大26周年司慶上,董事長(zhǎng)劉慶峰對(duì)這個(gè)作文題感觸很深:“從1999年創(chuàng)業(yè)時(shí)在“中國(guó)被人扼住了咽喉”背景下以語(yǔ)音合成系統(tǒng)破局,到這些
    的頭像 發(fā)表于 06-13 14:08 ?1119次閱讀

    工地AI行為識(shí)別系統(tǒng)作用

    工地AI行為識(shí)別系統(tǒng)作用 工地AI行為識(shí)別系統(tǒng)是什么? 工地AI行為識(shí)別系統(tǒng)種基于人工智能技術(shù)的智能監(jiān)控方案,通過(guò)攝像頭+AI算法,實(shí)時(shí)
    的頭像 發(fā)表于 05-08 12:00 ?1070次閱讀

    景區(qū)AI行為識(shí)別系統(tǒng)作用

    景區(qū)AI行為識(shí)別系統(tǒng)作用 景區(qū)AI行為識(shí)別系統(tǒng)是什么? 景區(qū)AI行為識(shí)別系統(tǒng)是利用人工智能技術(shù)(如視頻分析、人臉
    的頭像 發(fā)表于 05-07 15:32 ?1154次閱讀
    景區(qū)AI行為<b class='flag-5'>識(shí)別系統(tǒng)</b>作用

    深度學(xué)習(xí)賦能:正面吊車(chē)載箱號(hào)識(shí)別系統(tǒng)的核心技術(shù)

    支撐。 深度學(xué)習(xí)驅(qū)動(dòng)的智能識(shí)別 傳統(tǒng)OCR技術(shù)易受光線(xiàn)、污損或箱體圖案干擾,而新一代識(shí)別系統(tǒng)通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)和注意力機(jī)制,實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的高精度動(dòng)態(tài)
    的頭像 發(fā)表于 05-07 10:10 ?659次閱讀

    科大加速東南亞企業(yè)的人工智能應(yīng)用

    現(xiàn)場(chǎng),OceanDoc全球首發(fā),旨在用AIGC技術(shù)提升PPT制作效率。同時(shí),科大與生態(tài)合作伙伴還舉行了戰(zhàn)略簽約儀式,為進(jìn)步加速東南亞企
    的頭像 發(fā)表于 05-06 09:39 ?1021次閱讀