熟女少妇AV综合网,日本三级漂亮大学生观看

語音轉(zhuǎn)語音翻譯（S2ST）是打破世界各地人與人之間語言障礙的關(guān)鍵。自動 S2ST 系統(tǒng)通常由語音識別、機器翻譯和語音合成子系統(tǒng)級聯(lián)組成。然而，此類級聯(lián)系統(tǒng)可能會面臨較長的延遲、信息（尤其是副語言和非語言信息）丟失，以及各子系統(tǒng)之間的錯誤疊加等問題。

2019 年，我們推出了 Translatotron，這是首款能夠直接翻譯兩種語言間語音的模型。此款直接 S2ST 模型能夠有效地進行端到端訓(xùn)練，并擁有一個獨特功能——在生成的翻譯語音中保留源說話者聲音（非語言信息）。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不過，盡管該模型能夠生成聽起來自然的高保真翻譯語音，但與強大的基準級聯(lián) S2ST 系統(tǒng)（例如，由語音轉(zhuǎn)文字直接翻譯模型［1、2］和 Tacotron 2 TTS 模型組成的系統(tǒng)）相比，其表現(xiàn)仍然欠佳。

https://arxiv.org/abs/1703.08581

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2：穩(wěn)健的語音轉(zhuǎn)語音直接翻譯（Translatotron 2:Robust direct speech-to-speech translation）” 一文中，我們介紹了 Translatotron 的一個改進版本。該版本的表現(xiàn)得到顯著提高，同時我們還應(yīng)用了一種新的方法來將源說話者的聲音轉(zhuǎn)換到翻譯的語音中。即使輸入語音中存在多位說話者輪流說話的情況，經(jīng)過修訂的語音轉(zhuǎn)換方法也能取得成功，同時還能減少濫用的可能性，并且更加符合我們的 AI 原則。使用三個不同語料庫進行的實驗一致表明，Translatotron 2 在翻譯質(zhì)量、語音自然度和語音穩(wěn)健性方面的表現(xiàn)明顯優(yōu)于原始版本 Translatotron。

Translatotron 2：穩(wěn)健的語音轉(zhuǎn)語音直接翻譯

https://arxiv.org/abs/2107.08661

AI 原則

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四個主要組件組成：語音編碼器、目標音素（Phoneme）解碼器、目標語音合成器，以及將它們連接起來的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的語音轉(zhuǎn)文字直接翻譯（ST）模型。合成器則使用編碼器和注意力模塊的輸出作為條件。

Translatotron 2 的模型架構(gòu)

（將西班牙語語音翻譯為英語語音）

相較于 Translatotron ，Translatotron 2 的更高表現(xiàn)主要源于以下三點新變化：

1. 盡管在原始版本 Translatotron 中，目標音素解碼器的輸出僅用作輔助損失使用，但在 Translatotron 2 中，它是聲譜圖合成器的輸入之一。這一強大條件使 Translatotron 2 更易于訓(xùn)練，且表現(xiàn)更好。

2. 與 Tacotron 2 TTS 模型類似，原始版本 Translatotron 中的聲譜圖合成器基于注意力，因此其也存在類似 Tacotron 2 所表現(xiàn)出的穩(wěn)健性問題。相比之下，Translatotron 2 中使用的是基于持續(xù)時間的聲譜圖合成器（類似于 Non-Attentive Tacotron 使用的聲譜圖合成器），這能夠大大提高合成語音的穩(wěn)健性。

3. Translatotron 和 Translatotron 2，都使用基于注意力的連接到編碼的源語音。然而，在 Translatotron 2 中，這種基于注意力的連接由音素解碼器而非聲譜圖合成器驅(qū)動，這確保了聲譜圖合成器所獲取的聲學(xué)信息與其合成的翻譯內(nèi)容相一致，從而有助于在不同說話者輪流說話時保留每位說話者的聲音。

更強大、更負責任的聲音保留

原始版本 Translatotron 能夠在生成的翻譯語音中保留源說話者的聲音，方法是將其解碼器限定于由單獨訓(xùn)練的說話者編碼器生成的說話者嵌入向量之上。然而，如果使用目標說話者的錄音片段作為說話者編碼器的參考音頻，或者目標說話者的嵌入向量直接可用，則這種方法還能以不同說話者的聲音生成翻譯后的語音。雖然這一功能非常強大，但有可能遭到濫用，如使用任意內(nèi)容制作欺詐音頻，這會給生產(chǎn)部署帶來問題。

為解決這一問題，Translatotron 2 這樣設(shè)計：只使用一個語音編碼器，該編碼器同時負責語言理解和語音錄制。這樣，訓(xùn)練后的模型便無法用于重現(xiàn)非源語音。這種方法也可以應(yīng)用于原始版本 Translatotron。

為了在翻譯過程中保留說話者的聲音，研究人員通常傾向于使用兩端都是同一位說話者聲音的平行說話內(nèi)容來訓(xùn)練 S2ST 模型。這樣一個兩邊都有人類錄音的數(shù)據(jù)集很難收集，因為它需要大量流利的雙語使用者。為了避免這一難題，我們使用了 PnG NAT 的修改版本，這是一種能夠跨語言語音轉(zhuǎn)換來合成此類訓(xùn)練目標的 TTS 模型。我們的修改版 PnG NAT 模型采用了與舊版 TTS 工作方式相同（即使用的策略與原始版本 Translatotron 相同）的單獨訓(xùn)練的說話者編碼器，因此能夠?qū)崿F(xiàn)零樣本語音傳輸。

舊版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 進行語音轉(zhuǎn)語音直接翻譯的示例，其中保留了源說話者的聲音：

輸入（西班牙語）：

TTS 合成的參考音頻（英語）：

Translatotron 2 預(yù)測（英語）：

Translatotron 預(yù)測（英語）：

當輸入語音包含多個說話者輪流說話時，為了使 S2ST 模型能夠在翻譯后的語音中保留每個說話者的聲音，我們提出了一種簡單的基于串聯(lián)的數(shù)據(jù)增強技術(shù)，稱為 ConcatAug。該方法會對成對的訓(xùn)練示例隨機采樣，并將源語音、目標語音和目標音素序列串聯(lián)成新的訓(xùn)練示例，以增強訓(xùn)練數(shù)據(jù)。由此得到的樣本在源語音和目標語音中都包含兩位說話者的聲音，這使模型能夠根據(jù)不同說話者輪流說話的示例進行學(xué)習。以下來自 Translatotron 2 的音頻樣本展示了不同說話者輪流說話的場景：

輸入（西班牙語）：

TTS 合成的參考音頻（英語）：

Translatotron 2（采用 ConcatAug）預(yù)測（英語）：

Translatotron 2（未采用 ConcatAug）預(yù)測（英語）：

點擊此處獲取更多音頻樣本。

此處

https://google-research.github.io/lingvo-lab/translatotron2/

表現(xiàn)

在我們衡量的各個方面，Translatotron 2 的表現(xiàn)都大大優(yōu)于原始版本 Translatotron：更高的翻譯質(zhì)量（以 BLEU 衡量，數(shù)值越高越好），更好的語音自然度（以 MOS 衡量，數(shù)值越高越好），以及更強的語音穩(wěn)健性（以 UDR 衡量，數(shù)值越低越好）。它在難度更大的 Fisher 語料庫上表現(xiàn)尤為出色。Translatotron 2 在翻譯質(zhì)量和語音質(zhì)量方面的表現(xiàn)接近強大的基準級聯(lián)系統(tǒng)，并且在語音穩(wěn)健性方面優(yōu)于級聯(lián)基準。

UDR

https://arxiv.org/abs/2010.04301

Fisher 語料庫

https://catalog.ldc.upenn.edu/LDC2014T23

使用兩個西班牙語-英語語料庫評估的翻譯質(zhì)量

（以 BLEU 衡量，數(shù)值越高越好）

使用兩個西班牙語-英語語料庫評估的語音自然度

（以 MOS 衡量，數(shù)值越高越好）

使用兩個西班牙語-英語語料庫評估的語音穩(wěn)健性

（以 UDR 衡量，數(shù)值越低越好）

多語言語音翻譯

除了西班牙語到英語的 S2ST，我們還評估了 Translatotron 2 在多語言情境中的表現(xiàn)，該模型接收四種不同語言的語音輸入并將其翻譯為英語。由于事先未提供輸入語音的語言，這迫使模型需要自行檢測語言。

源語言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST（Wang

等人，2020）27.018.928.023.9

訓(xùn)練目標 82.186.085.189.3

使用 CoVoST 2 語料庫評估的多語言 X=》En S2ST 表現(xiàn)

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任務(wù)中，Translatotron 2 的表現(xiàn)同樣明顯優(yōu)于原始版本 Translatotron。盡管 S2ST 和 ST 之間的結(jié)果沒有直接可比性，但接近的數(shù)字表明Translatotron 2的翻譯質(zhì)量與基準語音轉(zhuǎn)文字翻譯模型相當。這些結(jié)果表明，Translatotron 2 在多語言 S2ST 上也非常有效。

責任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語音

語音

+關(guān)注

關(guān)注
3

文章
406

瀏覽量
40068
AI

AI

+關(guān)注

關(guān)注
91

文章
40982

瀏覽量
302535
模型

模型

+關(guān)注

關(guān)注
1

文章
3811

瀏覽量
52257

原文標題：Translatotron 2：高質(zhì)量、穩(wěn)健、負責任的語音轉(zhuǎn)語音直接翻譯

文章出處：【微信號：tensorflowers，微信公眾號：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

能夠直接翻譯兩種語言間語音的模型

評論