chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA NeMo進行文本規(guī)范化和反向文本規(guī)范化

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文本規(guī)范化( TN )將文本從書面形式轉換為口頭形式,是文本到語音( TTS )之前的一個重要預處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會跳過未知符號。例如,“ 123 美元”轉換為“一百二十三美元”

反向文本規(guī)范化( ITN )是自動語音識別( ASR )后處理管道的一部分。 ITN 將 ASR 模型輸出轉換為書面形式,以提高文本可讀性。例如, ITN 模塊將 ASR 模型轉錄的“ 123 美元”替換為“ 123 美元。”

ITN 不僅提高了可讀性,還提高了下游任務(如神經(jīng)機器翻譯或命名實體識別)的性能,因為這些任務在訓練期間使用書面文本。

pYYBAGNE5dmAPcpOAACvpftVosU813.png

圖 1.會話 AI 管道中的 TN 和 ITN

TN 和 ITN 任務面臨幾個挑戰(zhàn):

標記的數(shù)據(jù)稀缺且難以收集。

由于 TN 和 ITN 錯誤會級聯(lián)到后續(xù)模型,因此對不可恢復錯誤的容忍度較低。改變輸入語義的 TN 和 ITN 錯誤稱為不可恢復。

TN 和 ITN 系統(tǒng)支持多種 semiotic classes ,即口語形式不同于書面形式的單詞或標記,需要規(guī)范化。例如日期、小數(shù)、基數(shù)、度量等。

許多最先進的 TN systems in production 仍然使用 加權有限狀態(tài)傳感器 ( WFST )基于規(guī)則。 WFST 是 finite-state machines 的一種形式,用于繪制正則語言(或 regular expressions )之間的關系。對于這篇文章,它們可以由兩個主要屬性定義:

用于文本替換的已接受輸入和輸出表達式之間的映射

直接圖遍歷的路徑加權

如果存在歧義,則選擇權重總和最小的路徑。在圖 2 中,“二十三”被轉換為“ 23 ”而不是“ 203 ”

poYBAGNE5duAY_g6AACZe7ntwds780.jpg

圖 2.輸入“二十三”的 WFST 格子

目前, NVIDIA NeMo 為 TN 和 ITN 系統(tǒng)提供以下選項:

Context-independent WFST-based TN and ITN grammars

Context-aware WFST-based grammars + neural LM for TN

Audio-based TN for speech datasets creation

Neural TN and ITN

基于 WFST 的語法(系統(tǒng) 1 、 2 和 3 )

NeMo 文本處理包是一個 Python 框架,它依賴于 Python 包 Pynini 來編寫和編譯規(guī)范化語法。有關最新支持的語言的更多信息,請參閱 Language Support Matrix 。有關如何擴展或添加語言語法的更多信息,請參閱 語法定制 。

Pynini 是一個構建在 OpenFst 之上的工具包,它支持將語法導出到 OpenFST Archive File (FAR) 中(圖 3 )。 FAR 文件可以在基于 Sparrowhawk 的 C ++生產(chǎn)框架中使用。

pYYBAGNE5d6AdgDWAADcR5Wldv8789.png

圖 3. NeMo 反向文本規(guī)范化開發(fā)和部署示意圖

我們最初版本的 TN / ITN 系統(tǒng)# 1 沒有考慮上下文,因為這會使規(guī)則更加復雜,這需要廣泛的語言知識,并降低延遲。如果輸入不明確,例如,與“ 1 / 4 個杯子”相比,“火車在 1 / 4 上出發(fā)”中的“ 1 / 4 ”,則系統(tǒng)# 1 會在不考慮上下文的情況下確定地選擇歸一化。

該系統(tǒng)擴展了系統(tǒng)# 1 ,并在規(guī)范化期間合并了上下文。在上下文不明確的情況下,系統(tǒng)輸出多個規(guī)范化選項,使用預處理語言模型使用 Masked Language Model Scoring 重新搜索(圖 4 )。

poYBAGNE5d-Aeu8KAACE1FkLtwQ378.png

圖 4.WFST + LM 淺熔管線

WFST 生成所有可能的標準化表格,并為每個選項分配權重。

修剪權重高于閾值“ 401.2 ”的標準化選項。在本例中,我們刪除了“ 1 / 4 ”。它的權重更高,因為它沒有完全歸一化。

LM 重新排序在其余選項中選擇了最佳選項。

這種方法類似于 ASR 的淺層融合,并結合了基于規(guī)則和神經(jīng)系統(tǒng)的優(yōu)點。 WFST 仍然限制了不可恢復的錯誤,而神經(jīng)語言模型在不需要大量規(guī)則或難以獲取數(shù)據(jù)的情況下解決了上下文模糊性。有關詳細信息,請參閱 Text normalization 。

表 1 比較了 WFST + LM 方法在句子準確性方面與之前的系統(tǒng)# 1 ( DetWFST )和三個數(shù)據(jù)集上的純神經(jīng)系統(tǒng)( Duplex )。在本文后面,我們將提供有關系統(tǒng)# 4 的更多詳細信息。

總的來說, WFST + LM 模型是最有效的,特別是在 EngConf 上,這是一個具有模糊示例的自收集數(shù)據(jù)集。

圖 5 顯示了這三種方法對錯誤的敏感性。雖然神經(jīng)方法受不可恢復錯誤(如幻覺或遺漏)的影響最大,但 WFST + LM 受這些錯誤和類歧義的影響最小。

pYYBAGNE5d-AC4NHAAGl3a8ZE3A118.png

圖 5.上下文無關的 WFST 、 Duplex 和 WFST + LM 系統(tǒng)的錯誤模式

基于音頻的 TN (系統(tǒng) 3 )

在創(chuàng)建新的語音數(shù)據(jù)集時,文本規(guī)范化也很有用。例如,“六二七”和“六二十七”都是“ 627 ”的有效規(guī)范化選項。但是,您必須選擇最能反映相應音頻中實際內(nèi)容的選項。基于音頻的文本規(guī)范化提供了此類功能(圖 6 )。

poYBAGNE5eCAEQBtAAE-G9ySJZA471.png

圖 6.基于音頻的標準化分辨率示例

神經(jīng) TN 和 ITN 模型(系統(tǒng) 4 )

與基于規(guī)則的系統(tǒng)相比,神經(jīng)系統(tǒng)的一個顯著優(yōu)勢是,如果存在新語言的訓練數(shù)據(jù),那么它們很容易擴展?;谝?guī)則的系統(tǒng)需要花費大量精力來創(chuàng)建,并且由于組合爆發(fā),可能會在某些輸入上工作緩慢。

作為 WFST 解決方案的替代方案, NeMo 為 TN / ITN 提供了 seq2seq Duplex 模型,為 ITN 提供了基于標記器的神經(jīng)模型。

雙重 TN 和 ITN

Duplex TN and ITN 是一個基于神經(jīng)的系統(tǒng),可以同時進行 TN 和 ITN 。在較高的層次上,該系統(tǒng)由兩個組件組成:

DuplexTaggerModel: 基于 transformer 的標記器,用于識別輸入中的符號跨度(例如,關于時間、日期或貨幣金額的跨度)。

DuplexDecoderModel :基于變壓器的 seq2seq 模型,用于將符號跨度解碼為適當?shù)男问剑ɡ纾?TN 的口語形式和 ITN 的書面形式)。

術語“雙工”指的是這樣一個事實,即該系統(tǒng)可以訓練為同時執(zhí)行 TN 和 ITN 。但是,您也可以專門針對其中一項任務對系統(tǒng)進行培訓。

圖特莫斯塔格

雙工模型是一種順序到順序模型。不幸的是,這種神經(jīng)模型容易產(chǎn)生幻覺,從而導致無法恢復的錯誤。

Thutmose Tagger 模型將 ITN 視為一項標記任務,并緩解了幻覺問題(圖 7 和 8 )。 Thutmose 是一個單通道令牌分類器模型,它為每個輸入令牌分配一個替換片段,或?qū)⑵錁擞洖閯h除或復制而不做更改。

NeMo 提供了一種基于 ITN 示例粒度對齊的數(shù)據(jù)集準備方法。該模型在谷歌文本規(guī)范化數(shù)據(jù)集上進行訓練,并在英語和俄語測試集上實現(xiàn)了最先進的句子準確性。

表 2 和表 3 總結了兩個指標的評估結果:

Sentence accuracy :將每個預測與參考的多個可能變體相匹配的自動度量。所有錯誤分為兩組:數(shù)字錯誤和其他錯誤。當至少有一個數(shù)字與最接近的參考變量不同時,會發(fā)生數(shù)字錯誤。其他錯誤意味著預測中存在非數(shù)字錯誤,例如標點符號或字母不匹配。

Word error rate ( WER ): ASR 中常用的自動度量。

d- BERT 代表蒸餾 BERT 。
默認值是默認的 Google 文本規(guī)范化測試集。
Hard 是一個測試集,每個符號類至少有 1000 個樣本。

標簽和輸入詞之間的一對一對應提高了模型預測的可解釋性,簡化了調(diào)試,并支持后期處理更正。該模型比序列到序列模型更簡單,更容易在生產(chǎn)設置中進行優(yōu)化。

pYYBAGNE5eGAGMAiAAC8Zz7ko5c597.png

圖 7.ITN 作為標記:推理示例

輸入單詞的序列由基于 BERT 的標記分類器處理,給出輸出標記序列。簡單的確定性后處理提供最終輸出。

poYBAGNE5emANzzBAAR_57DglUg026.png

圖 8.錯誤示例:(左) Thutmose tagger ,(右) Duplex 模型

結論

文本規(guī)范化和反向文本規(guī)范化對于會話系統(tǒng)至關重要,并極大地影響用戶體驗。本文結合 WFST 和預處理語言模型的優(yōu)點,介紹了一種處理 TN 任務的新方法,以及一種處理 ITN 任務的基于神經(jīng)標記的新方法。

關于作者

Yang Zhang 是英偉達人工智能應用集團的一名深度學習軟件工程師。她目前的重點是自然語言處理、對話管理和文本(去規(guī)范化)。在過去,她一直致力于大型 ASR 模型和語言模型預培訓的可擴展培訓。她在卡內(nèi)基梅隆大學獲得機器學習碩士學位,在德國卡爾斯魯厄理工學院獲得計算機科學學士學位。

Evelina Bakhturina 是 Nvidia 的一個深學習應用科學家,專注于自然語言處理任務和英偉達 NeMo 框架。她畢業(yè)于紐約大學,獲得數(shù)據(jù)科學碩士學位

Alexandra Antonova 是 NVIDIA Conversational AI 團隊( NeMo )的高級研究科學家,致力于 ASR 模型。她在莫斯科國立大學學習理論和應用語言學,在莫斯科物理技術學院深造。在加入 NVIDIA 之前,她曾在幾家俄羅斯科技公司工作。在空閑時間,她喜歡讀書。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2577

    文章

    55436

    瀏覽量

    793665
  • NVIDIA
    +關注

    關注

    14

    文章

    5682

    瀏覽量

    110087
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    啟動屏幕的文本被模糊,怎么處理?

    誰能幫我解決這個問題嗎?啟動屏幕的文本被模糊。但在登錄頁面上,這是正常的。 誰能幫我嗎?
    發(fā)表于 03-30 07:46

    長安科技到訪磐時,共探汽車安全標準新路徑

    向,展開了深入探討?,F(xiàn)場合照邊俊在交流中指出,隨著汽車安全領域相關強標逐步落地,行業(yè)將進入更加規(guī)范化、系統(tǒng)的安全建設階段。尤其在功能安全領域,盡管當前標準在操作系統(tǒng)
    的頭像 發(fā)表于 02-02 12:02 ?534次閱讀
    長安科技到訪磐時,共探汽車安全標準<b class='flag-5'>化</b>新路徑

    詳解DBC的Signal與JSON文本結合

    為了優(yōu)化CAN數(shù)據(jù)發(fā)送與接收的操作流程,更改以前手動輸入狀態(tài)對應數(shù)據(jù)的模式,采用下拉列表選擇內(nèi)容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發(fā)表于 01-06 10:57 ?411次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結合

    廣凌標準考場整體解決方案解析:構建智慧考場新標桿

    在國家教育考試日益規(guī)范化的背景下,標準考點建設已成為保障考試公平、提升管理效率的關鍵舉措。廣凌科技(廣凌股份)深耕教育信息領域27年,憑借AI、5G、物聯(lián)網(wǎng)等前沿技術,推出標準
    的頭像 發(fā)表于 10-31 15:17 ?1234次閱讀
    廣凌標準<b class='flag-5'>化</b>考場整體解決方案解析:構建智慧考場新標桿

    《中國數(shù)字醫(yī)療發(fā)展藍皮書》在京發(fā)布

    凝聚行業(yè)共識,助力中國數(shù)字醫(yī)療生態(tài)體系規(guī)范化升級 北京2025年9月15日 /美通社/ -- 在2025年中國國際服務貿(mào)易交易會召開之際,以 "開放、合作、共建、共享" 為主題的首都國際醫(yī)學大會
    的頭像 發(fā)表于 09-15 17:48 ?843次閱讀
    《中國數(shù)字醫(yī)療發(fā)展藍皮書》在京發(fā)布

    云翎智能高精度巡檢執(zhí)法記錄儀:鐵路巡檢全流程數(shù)字管控實踐

    云翎智能高精度巡檢執(zhí)法記錄儀通過“事前-事中-事后”全流程數(shù)字管控,結合高精度定位、AI智能識別、多模態(tài)數(shù)據(jù)采集等技術,實現(xiàn)鐵路巡檢的規(guī)范化、智能與閉環(huán)管理。以下從全流程各階段拆解其管控邏輯:云
    的頭像 發(fā)表于 08-22 21:33 ?768次閱讀
    云翎智能高精度巡檢執(zhí)法記錄儀:鐵路巡檢全流程數(shù)字<b class='flag-5'>化</b>管控實踐

    農(nóng)村供水智慧管理平臺怎么建設?

    《鄉(xiāng)村全面振興規(guī)劃(2024—2027年)》提到:強化供水安全保障,因地制宜推進城鄉(xiāng)供水一體、集中供水規(guī)模發(fā)展,實施小型供水工程規(guī)范化建設和改造,加強中小型水源保障工程建設,實施水質(zhì)提升行動
    的頭像 發(fā)表于 08-14 15:35 ?597次閱讀
    農(nóng)村供水智慧<b class='flag-5'>化</b>管理平臺怎么建設?

    ESP32驅(qū)動SPIFFS進行文件操作

    本篇文章介紹如何在ESP32開發(fā)板上使用SPIFFS(SPI Flash File System)進行文件操作??聪氯绾纬跏?b class='flag-5'>化SPIFFS文件系統(tǒng)、讀取文件、列出文件、刪除文件,并查看存儲的剩余空間。
    的頭像 發(fā)表于 08-05 18:11 ?4473次閱讀
    ESP32驅(qū)動SPIFFS<b class='flag-5'>進行文</b>件操作

    linux系統(tǒng)awk特殊字符命令詳解

    在Linux系統(tǒng)中,awk?是一種非常強大的文本處理工具,能夠?qū)?b class='flag-5'>文本數(shù)據(jù)進行分析、格式和篩選。利用其內(nèi)置的特殊字符和操作符,用戶可以實現(xiàn)復雜的數(shù)據(jù)處理任務。以下對一些常見的awk特殊
    的頭像 發(fā)表于 07-28 16:38 ?727次閱讀

    飛書開源“RTV”富文本組件 重塑鴻蒙應用富文本渲染體驗

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?765次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應用富<b class='flag-5'>文本</b>渲染體驗

    Allegro Skill工藝輔助之導入疊層模板

    在PCB設計中,導入疊層模板能夠確保設計的標準規(guī)范化,避免因手動設置疊層參數(shù)而可能出現(xiàn)的錯誤或不一致情況。
    的頭像 發(fā)表于 07-10 17:10 ?3453次閱讀
    Allegro Skill工藝輔助之導入疊層模板

    鐳神智能深度參與兩項激光雷達國家標準制定 引領行業(yè)規(guī)范化發(fā)展新征程

    ,深圳市鐳神智能系統(tǒng)有限公司在董事長胡小波先生的帶領下,深度參與標準制定工作,為推動激光雷達技術規(guī)范化、產(chǎn)業(yè)發(fā)展貢獻了核心力量。國家標準《車載激光雷達性能要求及
    的頭像 發(fā)表于 05-09 18:57 ?1222次閱讀
    鐳神智能深度參與兩項激光雷達國家標準制定 引領行業(yè)<b class='flag-5'>規(guī)范化</b>發(fā)展新征程

    眾合云科林枚參編的人力資源AI領域團體標準正式發(fā)布,助推行業(yè)數(shù)字人才能力規(guī)范化建設

    專家組成員,參與該標準的起草、研討、修訂及技術審核工作,為人工智能與人力資源數(shù)字應用技能領域的人才能力規(guī)范化建設提供專業(yè)支持。 (眾合云科人力資源副總裁林枚受邀擔任《標準》編委) 本次《標準》共有9個章節(jié),規(guī)定AI+人力資源數(shù)字
    的頭像 發(fā)表于 05-09 15:05 ?507次閱讀
    眾合云科林枚參編的人力資源AI領域團體標準正式發(fā)布,助推行業(yè)數(shù)字<b class='flag-5'>化</b>人才能力<b class='flag-5'>規(guī)范化</b>建設

    企業(yè)使用NVIDIA NeMo微服務構建AI智能體平臺

    已發(fā)布的 NeMo 微服務可與合作伙伴平臺集成,作為創(chuàng)建 AI 智能體的構建模塊,使用商業(yè)智能與強大的邏輯推理模型 (包括 NVIDIA Llama Nemotron) 處理更多任務。
    的頭像 發(fā)表于 04-27 15:05 ?1460次閱讀

    共建標準,共享未來:狄耐克積極參與腦機產(chǎn)業(yè)規(guī)范化建設

    感化智能家居控制等突破性發(fā)展。作為人工智能與神經(jīng)科學的交叉前沿,腦機領域?qū)⑹侨蚩萍几偁幍闹聘唿c。 近年來,中國腦機市場仍處于快速發(fā)展期,技術路徑多元、應用場景分散、行業(yè)標準缺失等問題制約著產(chǎn)業(yè)進程。為應對這些挑戰(zhàn),國家層面也不斷推出政策,以
    的頭像 發(fā)表于 04-25 09:58 ?1094次閱讀
    共建標準,共享未來:狄耐克積極參與腦機產(chǎn)業(yè)<b class='flag-5'>規(guī)范化</b>建設