天貓精靈智能引擎團隊、智能合成團隊與 NVIDIA 團隊合作,通過利用 NVIDIA TensorRT 加速流式語音合成(Text-to-Speech,以下簡稱 TTS)深度學習模型,并借助 NVIDIA Triton 推理服務器在 NVIDIA T4 GPU 上進行高效部署,幫助阿里巴巴天貓精靈流式 TTS 服務將吞吐提升 50%,首包延時降低 35%,大幅提升服務運行效率,提升資源利用率。
天貓精靈(Tmall Genie)是阿里巴巴消費者人工智能一級公司,于 2017 年 9 月發(fā)布第一代天貓精靈智能終端 X1。讓用戶以自然語言對話的交互方式,實現(xiàn)影音娛樂、購物、信息查詢、生活服務等功能操作,成為消費者的家庭助手。目前,天貓精靈已經(jīng)服務超過 3000 萬中國家庭,在三方權威統(tǒng)計中不僅智能音箱產(chǎn)品出貨量排名中國前列,其產(chǎn)品并已可連接 3 億以上的家庭 AIoT 生態(tài)設備。
除了智能音箱終端產(chǎn)品外,天貓精靈推出 AliGenie 開放平臺,旨在構建基于 AI 的多模態(tài)交互及服務系統(tǒng),為多種云應用提供跨系統(tǒng)服務能力,實現(xiàn)端云協(xié)同、跨平臺多終端快速接入。該開放平臺提供高性能且高質(zhì)量的語音 AI 能力,包括多種不同音色的高度擬人、高度流暢的語音合成算法等。
此外,天貓精靈基于 AliGenie 開放平臺,還提供基于芯片/模組的硬件解決方案,以及通用的熱門行業(yè)解決方案。專注生活多個領域,提供一站式解決方案。
本案例中負責實施的是天貓精靈智能引擎團隊以及天貓精靈智能合成團隊。天貓精靈智能合成團隊負責語音合成等生成式算法的研究及開發(fā);天貓精靈智能引擎團隊主要支撐天貓精靈業(yè)務線各項業(yè)務的工程化落地,如語音識別、語義理解、語音合成、圖像處理等 AI 核心場景。
流式 TTS 是天貓精靈工作流中最為重要的 AI 環(huán)節(jié)之一。在這一場景中,天貓精靈智能引擎團隊面臨著如下挑戰(zhàn):
首先流式 TTS 對于首包延時有著嚴格要求,否則用戶將會因為較長的反饋遲滯而感到不適,這就要求 TTS 工作管線的每個模塊的推理能夠高效地執(zhí)行。
另一方面,團隊希望 TTS 服務的吞吐能夠達到較高水平,這就需要在服務端對收到的多個流式合成請求進行 Batching 的處理。但流式 TTS 工作管線包含聲學模型和聲碼器等多個模塊,在 GPU 上進行 Batching 操作需要正確維護和切換每個合成請求所需的模型狀態(tài),因此需要特別設計工作管線和調(diào)度邏輯。
最后,如何盡可能提升 GPU 資源利用率是降本增效的關鍵。最直接的思路便是在一張 GPU 上部署多個模型來提升利用率。因此,如何在同一張 GPU 上對多個模型進行高效的調(diào)度和管理也成為了一個挑戰(zhàn)。
基于以上挑戰(zhàn),天貓精靈智能引擎團隊、智能合成團隊與 NVIDIA 解決方案架構團隊合作,采用NVIDIA TensorRT對模型進行推理加速,并利用NVIDIA Triton 推理服務器在 T4 GPU 上進行在線部署,形成了一套高效的流式 TTS 推理部署方案。在提升用戶體驗的同時,大幅降低了服務成本。
首先,該方案使用 TensorRT 對流式 TTS 工作管線中的每一個模型進行優(yōu)化加速。我們將訓練好的聲學模型和聲碼器,導出為 ONNX 模型格式,再使用 TensorRT 將 ONNX 模型轉換為最優(yōu)化的 TensorRT Engine。使用 TensorRT 加速的 TTS 模型,能顯著提升推理執(zhí)行的速度,從而盡可能壓縮首包延時。
另一方面,天貓精靈智能引擎團隊與 NVIDIA 團隊合作設計并實現(xiàn)了一種基于 Triton 的流式 TTS 推理部署管線。在該方案中,我們使用 Triton Custom Backend 實現(xiàn)串聯(lián) TTS 各個模型的調(diào)度管線。對于管線中的每一步推理處理,會調(diào)用部署在 Triton 上的 TTS TensorRT Engine。如此一來,Triton 便可將發(fā)送到服務端的 TTS 請求,有條不紊地調(diào)度到管線中的每個模塊進行推理執(zhí)行。并且,在該管線中,我們實現(xiàn)了適用于 GPU 平臺的流式 TTS 高效調(diào)度機制,通過在服務端 Custom Backend 中維護每個合成請求的狀態(tài),實時地將模型輸入和狀態(tài)動態(tài)聚合為對 GPU 友好的 Batch,交由管線中各個模塊的 TensorRT Engine 進行推理,從而大幅提升管線吞吐和 GPU 利用率,同時保證了對每個合成請求的快速響應。此外,流式 TTS 中一句話的合成請求會對應多個回包,每個回包承載一個音頻塊。針對這種一收多發(fā)的推理模式,我們利用 Triton 提供的 Decoupled Responses 機制,保證一個請求的多個回包能夠正確高效地發(fā)送給對應的客戶端,使用戶能聽到完整且流暢的音頻。
最后,為了進一步提升 GPU 資源利用率,該方案利用了 Triton 的 Concurrent Model Execution 特性。該特性將部署在 Triton 上的模型或模塊,以模型實例的方式管理:一個模型可以部署多個實例,不同模型的實例也可部署在同一GPU上。因此該方案開啟了 Concurrent Model Execution 后,同一個 T4 GPU 上可部署多個 TTS 發(fā)音模型,使得多個模型實例的推理在 GPU 算力資源充足時可以達到并行執(zhí)行。如此一來,GPU 算力資源可以被多個模型的并行執(zhí)行充分利用起來,達到降本增效的目的。
通過使用基于 NVIDIA TensorRT 和 Triton 推理服務器的流式 TTS 推理部署方案,天貓精靈 TTS 服務的吞吐提升約 50%,首包延時降低約 35% ,幫助天貓精靈節(jié)省了業(yè)務成本,提升了用戶體驗。
-
NVIDIA
+關注
關注
14文章
5682瀏覽量
110096 -
阿里巴巴
+關注
關注
7文章
1648瀏覽量
49321 -
TTS
+關注
關注
0文章
66瀏覽量
11585 -
天貓精靈
+關注
關注
5文章
96瀏覽量
12199
原文標題:NVIDIA TensorRT 和 Triton 助力阿里巴巴天貓精靈顯著提升流式語音合成服務運行效率
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
IAR榮獲阿里巴巴達摩院2026年度玄鐵優(yōu)選伙伴稱號
阿里巴巴達摩院發(fā)布新一代旗艦CPU產(chǎn)品玄鐵C950
阿里巴巴開源全新一代大模型千問Qwen3.5-Plus
海外電商平臺阿里巴巴國際站獲取商品詳情的API接口
萬豪國際集團與阿里巴巴達成AI時代戰(zhàn)略合作 升級賓客旅行體驗
【 藍牙模組】安信可模組TG-12F/TG-01M:AT指令入門教程 &接入阿里飛燕/天貓精靈平臺
阿里巴巴開放平臺關鍵字搜索商品接口實戰(zhàn)詳解:OAuth2.0 認證落地 + 檢索效率優(yōu)化(附避坑代碼)
博世與阿里巴巴集團深化戰(zhàn)略合作
中國電信與阿里簽署戰(zhàn)略合作協(xié)議 發(fā)力云和AI基礎設施
阿里巴巴達摩院劉志偉:QEMU RISC-V 的進展、特性與未來規(guī)劃
探訪阿里巴巴展廳合作的無人超市:如何讓結賬速度提升300%
阿里2025財年業(yè)績:凈利潤大漲77%,AI+云業(yè)務攬下千億收入
NVIDIA助力阿里巴巴天貓精靈大幅提升服務運行效率
評論