chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

能夠直接翻譯兩種語言間語音的模型

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-26 15:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音轉(zhuǎn)語音翻譯 (S2ST) 是打破世界各地人與人之間語言障礙的關(guān)鍵。自動 S2ST 系統(tǒng)通常由語音識別、機器翻譯和語音合成子系統(tǒng)級聯(lián)組成。然而,此類級聯(lián)系統(tǒng)可能會面臨較長的延遲、信息(尤其是副語言和非語言信息)丟失,以及各子系統(tǒng)之間的錯誤疊加等問題。

2019 年,我們推出了 Translatotron,這是首款能夠直接翻譯兩種語言間語音的模型。此款直接 S2ST 模型能夠有效地進行端到端訓(xùn)練,并擁有一個獨特功能——在生成的翻譯語音中保留源說話者聲音(非語言信息)。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不過,盡管該模型能夠生成聽起來自然的高保真翻譯語音,但與強大的基準(zhǔn)級聯(lián) S2ST 系統(tǒng)(例如,由語音轉(zhuǎn)文字直接翻譯模型[1、2]和 Tacotron 2 TTS 模型組成的系統(tǒng))相比,其表現(xiàn)仍然欠佳。

1

https://arxiv.org/abs/1703.08581

2

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2:穩(wěn)健的語音轉(zhuǎn)語音直接翻譯 (Translatotron 2:Robust direct speech-to-speech translation)” 一文中,我們介紹了 Translatotron 的一個改進版本。該版本的表現(xiàn)得到顯著提高,同時我們還應(yīng)用了一種新的方法來將源說話者的聲音轉(zhuǎn)換到翻譯的語音中。即使輸入語音中存在多位說話者輪流說話的情況,經(jīng)過修訂的語音轉(zhuǎn)換方法也能取得成功,同時還能減少濫用的可能性,并且更加符合我們的 AI 原則。使用三個不同語料庫進行的實驗一致表明,Translatotron 2 在翻譯質(zhì)量、語音自然度和語音穩(wěn)健性方面的表現(xiàn)明顯優(yōu)于原始版本 Translatotron。

Translatotron 2:穩(wěn)健的語音轉(zhuǎn)語音直接翻譯

https://arxiv.org/abs/2107.08661

AI 原則

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四個主要組件組成:語音編碼器、目標(biāo)音素 (Phoneme) 解碼器、目標(biāo)語音合成器,以及將它們連接起來的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的語音轉(zhuǎn)文字直接翻譯 (ST) 模型。合成器則使用編碼器和注意力模塊的輸出作為條件。

Translatotron 2 的模型架構(gòu)

(將西班牙語語音翻譯為英語語音)

相較于 Translatotron ,Translatotron 2 的更高表現(xiàn)主要源于以下三點新變化:

1. 盡管在原始版本 Translatotron 中,目標(biāo)音素解碼器的輸出僅用作輔助損失使用,但在 Translatotron 2 中,它是聲譜圖合成器的輸入之一。這一強大條件使 Translatotron 2 更易于訓(xùn)練,且表現(xiàn)更好。

2. 與 Tacotron 2 TTS 模型類似,原始版本 Translatotron 中的聲譜圖合成器基于注意力,因此其也存在類似 Tacotron 2 所表現(xiàn)出的穩(wěn)健性問題。相比之下,Translatotron 2 中使用的是基于持續(xù)時間的聲譜圖合成器(類似于 Non-Attentive Tacotron 使用的聲譜圖合成器),這能夠大大提高合成語音的穩(wěn)健性。

3. Translatotron 和 Translatotron 2,都使用基于注意力的連接到編碼的源語音。然而,在 Translatotron 2 中,這種基于注意力的連接由音素解碼器而非聲譜圖合成器驅(qū)動,這確保了聲譜圖合成器所獲取的聲學(xué)信息與其合成的翻譯內(nèi)容相一致,從而有助于在不同說話者輪流說話時保留每位說話者的聲音。

更強大、更負責(zé)任的聲音保留

原始版本 Translatotron 能夠在生成的翻譯語音中保留源說話者的聲音,方法是將其解碼器限定于由單獨訓(xùn)練的說話者編碼器生成的說話者嵌入向量之上。然而,如果使用目標(biāo)說話者的錄音片段作為說話者編碼器的參考音頻,或者目標(biāo)說話者的嵌入向量直接可用,則這種方法還能以不同說話者的聲音生成翻譯后的語音。雖然這一功能非常強大,但有可能遭到濫用,如使用任意內(nèi)容制作欺詐音頻,這會給生產(chǎn)部署帶來問題。

為解決這一問題,Translatotron 2 這樣設(shè)計:只使用一個語音編碼器,該編碼器同時負責(zé)語言理解和語音錄制。這樣,訓(xùn)練后的模型便無法用于重現(xiàn)非源語音。這種方法也可以應(yīng)用于原始版本 Translatotron。

為了在翻譯過程中保留說話者的聲音,研究人員通常傾向于使用兩端都是同一位說話者聲音的平行說話內(nèi)容來訓(xùn)練 S2ST 模型。這樣一個兩邊都有人類錄音的數(shù)據(jù)集很難收集,因為它需要大量流利的雙語使用者。為了避免這一難題,我們使用了 PnG NAT 的修改版本,這是一種能夠跨語言語音轉(zhuǎn)換來合成此類訓(xùn)練目標(biāo)的 TTS 模型。我們的修改版 PnG NAT 模型采用了與舊版 TTS 工作方式相同(即使用的策略與原始版本 Translatotron 相同)的單獨訓(xùn)練的說話者編碼器,因此能夠?qū)崿F(xiàn)零樣本語音傳輸。

舊版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 進行語音轉(zhuǎn)語音直接翻譯的示例,其中保留了源說話者的聲音:

輸入(西班牙語):

TTS 合成的參考音頻(英語):

Translatotron 2 預(yù)測(英語):

Translatotron 預(yù)測(英語):

當(dāng)輸入語音包含多個說話者輪流說話時,為了使 S2ST 模型能夠在翻譯后的語音中保留每個說話者的聲音,我們提出了一種簡單的基于串聯(lián)的數(shù)據(jù)增強技術(shù),稱為 ConcatAug。該方法會對成對的訓(xùn)練示例隨機采樣,并將源語音、目標(biāo)語音和目標(biāo)音素序列串聯(lián)成新的訓(xùn)練示例,以增強訓(xùn)練數(shù)據(jù)。由此得到的樣本在源語音和目標(biāo)語音中都包含兩位說話者的聲音,這使模型能夠根據(jù)不同說話者輪流說話的示例進行學(xué)習(xí)。以下來自 Translatotron 2 的音頻樣本展示了不同說話者輪流說話的場景:

輸入(西班牙語):

TTS 合成的參考音頻(英語):

Translatotron 2(采用 ConcatAug)預(yù)測(英語):

Translatotron 2(未采用 ConcatAug)預(yù)測(英語):

點擊此處獲取更多音頻樣本。

此處

https://google-research.github.io/lingvo-lab/translatotron2/

表現(xiàn)

在我們衡量的各個方面,Translatotron 2 的表現(xiàn)都大大優(yōu)于原始版本 Translatotron:更高的翻譯質(zhì)量(以 BLEU 衡量,數(shù)值越高越好),更好的語音自然度(以 MOS 衡量,數(shù)值越高越好),以及更強的語音穩(wěn)健性(以 UDR 衡量,數(shù)值越低越好)。它在難度更大的 Fisher 語料庫上表現(xiàn)尤為出色。Translatotron 2 在翻譯質(zhì)量和語音質(zhì)量方面的表現(xiàn)接近強大的基準(zhǔn)級聯(lián)系統(tǒng),并且在語音穩(wěn)健性方面優(yōu)于級聯(lián)基準(zhǔn)。

UDR

https://arxiv.org/abs/2010.04301

Fisher 語料庫

https://catalog.ldc.upenn.edu/LDC2014T23

使用兩個西班牙語-英語語料庫評估的翻譯質(zhì)量

(以 BLEU 衡量,數(shù)值越高越好)

使用兩個西班牙語-英語語料庫評估的語音自然度

(以 MOS 衡量,數(shù)值越高越好)

使用兩個西班牙語-英語語料庫評估的語音穩(wěn)健性

(以 UDR 衡量,數(shù)值越低越好)

多語言語音翻譯

除了西班牙語到英語的 S2ST,我們還評估了 Translatotron 2 在多語言情境中的表現(xiàn),該模型接收四種不同語言的語音輸入并將其翻譯為英語。由于事先未提供輸入語音的語言,這迫使模型需要自行檢測語言。

源語言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST(Wang

等人,2020)27.018.928.023.9

訓(xùn)練目標(biāo) 82.186.085.189.3

使用 CoVoST 2 語料庫評估的多語言 X=》En S2ST 表現(xiàn)

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任務(wù)中,Translatotron 2 的表現(xiàn)同樣明顯優(yōu)于原始版本 Translatotron。盡管 S2ST 和 ST 之間的結(jié)果沒有直接可比性,但接近的數(shù)字表明Translatotron 2的翻譯質(zhì)量與基準(zhǔn)語音轉(zhuǎn)文字翻譯模型相當(dāng)。這些結(jié)果表明,Translatotron 2 在多語言 S2ST 上也非常有效。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音
    +關(guān)注

    關(guān)注

    3

    文章

    405

    瀏覽量

    39737
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39531

    瀏覽量

    301055
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3735

    瀏覽量

    52066

原文標(biāo)題:Translatotron 2:高質(zhì)量、穩(wěn)健、負責(zé)任的語音轉(zhuǎn)語音直接翻譯

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    視美泰發(fā)布AI即時翻譯機解決方案,硬核配置+多語種覆蓋破解跨語言溝通難題

    、機器翻譯語音合成和大模型四項能力構(gòu)建高效同聲傳譯鏈路,實現(xiàn)70+語言全覆蓋的強大能力,為跨境商貿(mào)、文化交流、戶外出行等場景提供高效精準(zhǔn)
    的頭像 發(fā)表于 12-03 10:50 ?1054次閱讀
    視美泰發(fā)布AI即時<b class='flag-5'>翻譯</b>機解決方案,硬核配置+多語種覆蓋破解跨<b class='flag-5'>語言</b>溝通難題

    使用Firebase AI Logic生成圖像模型兩種新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個性化用戶體驗,有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩種新功能: 其一是 Imagen 專屬編輯功能預(yù)覽版;其二
    的頭像 發(fā)表于 11-30 09:28 ?411次閱讀

    兩種散熱路徑的工藝與應(yīng)用解析

    背景:兩種常見的散熱設(shè)計思路 在大電流或高功率器件應(yīng)用中,散熱和載流能力是PCB設(shè)計中必須解決的難題。常見的兩種思路分別是: 厚銅板方案:通過整體增加銅箔厚度(如3oz、6oz甚至更高),增強導(dǎo)熱
    的頭像 發(fā)表于 09-15 14:50 ?763次閱讀

    國慶出國游,時空壺新T1翻譯機,首個端側(cè)模型突破助力跨語言交流

    國慶將至,眾多游客計劃出國旅行,跨語言交流的順暢與否成為影響旅行體驗的重要因素。時空壺新T1翻譯機作為行業(yè)技術(shù)領(lǐng)先產(chǎn)品,憑借其獨特優(yōu)勢,為游客在海外的溝通交流保駕護航。新T1作為時空壺翻譯機品類中
    的頭像 發(fā)表于 09-12 12:20 ?1002次閱讀
    國慶出國游,時空壺新T1<b class='flag-5'>翻譯</b>機,首個端側(cè)<b class='flag-5'>模型</b>突破助力跨<b class='flag-5'>語言</b>交流

    當(dāng)翻譯失去網(wǎng)絡(luò),時空壺新T1翻譯機開創(chuàng)首個離線模型賦能全球溝通新體驗

    在全球化交流日益緊密的當(dāng)下,跨語言溝通工具的重要性愈發(fā)凸顯。近日,時空壺推出的T1翻譯機憑借其強大的離線模型與便捷應(yīng)用,成為市場焦點,為人們在跨國交流場景中帶來前所未有的便利。時空壺T1翻譯
    的頭像 發(fā)表于 09-08 16:52 ?1190次閱讀
    當(dāng)<b class='flag-5'>翻譯</b>失去網(wǎng)絡(luò),時空壺新T1<b class='flag-5'>翻譯</b>機開創(chuàng)首個離線<b class='flag-5'>模型</b>賦能全球溝通新體驗

    聲智科技出席2025年北京市多語種AI語音翻譯大賽

    8月20日,由北京市科委、中關(guān)村管委會主辦,北京語言大學(xué)、北京第二外國語學(xué)院、北京市翻譯協(xié)會、中國人工智能百人會共同承辦的“2025年北京市多語種AI語音翻譯大賽”在中關(guān)村展示中心順利
    的頭像 發(fā)表于 08-25 17:18 ?1221次閱讀

    廣和通發(fā)布自研端側(cè)語音識別大模型FiboASR

    7月,全球領(lǐng)先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別大模型FiboASR。該模型專為端側(cè)設(shè)備上面臨的面對面實時對話及多人會議場景深度優(yōu)化,在低延遲語音交互、
    的頭像 發(fā)表于 08-04 11:43 ?1569次閱讀

    EASY EAl Orin Nano(RK3576) whisper語音識別訓(xùn)練部署教程

    1Whisper簡介Whisper是OpenAI開源的,識別語音識別能力已達到人類水準(zhǔn)自動語音識別系統(tǒng)。Whisper作為一個通用的語音識別模型,它使用了大量的多
    的頭像 發(fā)表于 07-25 15:21 ?832次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語音</b>識別訓(xùn)練部署教程

    【BPI-CanMV-K230D-Zero開發(fā)板體驗】+兩種開發(fā)板的比較

    之所以產(chǎn)生出在兩種開發(fā)板進行比較的想法,是與當(dāng)初申請的一個想法相關(guān)的就是,就是利用該開發(fā)板來完成一個考生識別的作品。 但在后來的資料分析時才發(fā)現(xiàn),它可能并不具備這方面的基礎(chǔ)。這就有請我們的下一
    發(fā)表于 07-17 21:40

    貼片晶振中兩種常見封裝介紹

    貼片晶體振蕩器作為關(guān)鍵的時鐘頻率元件,其性能直接關(guān)系到系統(tǒng)運行的穩(wěn)定性。今天,凱擎小妹帶大家聊聊貼片晶振中兩種常見封裝——金屬面封裝與陶瓷面封裝。
    的頭像 發(fā)表于 07-04 11:29 ?1221次閱讀
    貼片晶振中<b class='flag-5'>兩種</b>常見封裝介紹

    兩種驅(qū)動方式下永磁直線開關(guān)磁鏈電機的研究

    摘要:永磁開關(guān)磁鏈電機數(shù)學(xué)模型可以等效為永磁無刷電機,普遍采用方波驅(qū)動方式。在有限元基礎(chǔ)上分析6/7極直線式磁鏈電機反電勢波形,采用方波和正弦波驅(qū)動方式,比較兩種方式下的電流、電壓、平均推力大小
    發(fā)表于 06-09 16:18

    兩種感應(yīng)電機磁鏈觀測器的參數(shù)敏感性研究

    模式和發(fā)電模式下對閉環(huán)電壓電流模型磁鏈觀測器和滑模磁鏈觀測器參數(shù)敏感性進行了研究,通過仿真和實驗比較了這兩種觀測器對定、轉(zhuǎn)子電阻及勵磁電感的敏感性。同時還研究了基于這兩種觀測器的模型
    發(fā)表于 06-09 16:16

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?1278次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    AD7701ARZ有沒有能夠直接替換,或者原設(shè)計線路商改動較少的型號?

    AD7701ARZ有沒有能夠直接替換,或者原設(shè)計線路商改動較少的型號
    發(fā)表于 04-15 07:32

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?8659次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析