作者:Arm 首席解決方案架構(gòu)師 沈綸銘
基于云的人工智能 (AI) 占據(jù)了大多數(shù)關(guān)注焦點,但真正實現(xiàn)響應和隱私保護的交互則發(fā)生在邊緣側(cè)。本文將展示如何基于 Arm 架構(gòu)的 NVIDIA DGX Spark 平臺,構(gòu)建一個完全離線、實時運行的語音助手系統(tǒng)。該系統(tǒng)集成了諸如 faster-whisper 和 vLLM 等開源組件,在無需將數(shù)據(jù)發(fā)送到本地環(huán)境之外的情況下,實現(xiàn)低延遲、接近人類對話體驗的交互。
技術(shù)挑戰(zhàn)
對云的依賴困境
在許多企業(yè)環(huán)境中,技術(shù)人員需要快速訪問內(nèi)部文檔或獲得實時支持。然而,依賴云端 API 會帶來三個關(guān)鍵瓶頸:
延遲:與云端 API 的往返通信會打斷語音對話的自然節(jié)奏。
隱私:將敏感數(shù)據(jù)發(fā)送到外部服務器會帶來合規(guī)風險,尤其是在涉及專有內(nèi)容時。
成本與可控性:基于 API 的計費模式和使用限制,會限制系統(tǒng)的擴展能力以及針對特定行業(yè)需求的定制化能力。
解決方案
異構(gòu)的開源流水線
為了應對上述問題,我們在 DGX Spark 上設計了一套流水線,DGX Spark 基于 NVIDIA GB10 Grace Blackwell 構(gòu)建。在該方案中,CPU 被定位一個主動的、以低延遲為優(yōu)化目標的計算引擎。
軟件棧
為了實現(xiàn)最大的靈活性與性能,整個系統(tǒng)運行在以下開源工具上:

關(guān)鍵組件與系統(tǒng)設計
實時音頻與語音活動檢測
系統(tǒng)以 16kHz 單聲道音頻進行采集,并使用 WebRTC 的語音活動檢測 (VAD) 在 30 毫秒的幀級別上檢測語音信號。該方法能夠確保系統(tǒng)只處理有效的語音輸入,同時忽略背景噪聲和靜音間隔。
基于 Arm 架構(gòu) CPU 的高速語音轉(zhuǎn)寫
對于短時、對延遲敏感的任務,系統(tǒng)并未將其分流到 GPU 上,而是使用高性能的 Arm CPU 集群(Arm Cortex-X 和 Cortex-A 系列核心)來處理。
為什么選擇 Arm:Arm 架構(gòu)針對實時搜索、小批量推理任務等延遲關(guān)鍵型工作負載進行了優(yōu)化,
性能表現(xiàn):在 Arm CPU 上運行 faster-whisper 可以滿足低延遲需求,在交互式系統(tǒng)中,語音轉(zhuǎn)寫時間約為 70 至 90 毫秒。
基于 GPU 加速的推理 (vLLM)
在完成語音轉(zhuǎn)寫后,文本會被傳遞至 vLLM 進行處理。DGX Spark 采用統(tǒng)一內(nèi)存 (Unified Memory),使 CPU 與 GPU 共享同一內(nèi)存空間。該設計允許 GPU 直接訪問 CPU 的輸出數(shù)據(jù),從而無需顯式的數(shù)據(jù)傳輸或消除通過 PCIe 進行拷貝所帶來的額外開銷。
系統(tǒng)架構(gòu)流程圖
以下流程圖展示了在 DGX Spark 上構(gòu)建的一個高性能異構(gòu)流水線。系統(tǒng)將任務分配給最合適的計算單元,以降低整體延遲。

圖:DGX Spark 異構(gòu)流水線。Arm CPU 負責 STT 轉(zhuǎn)錄,
GPU 負責生成響應,從而顯著降低交互延遲。
在該流水線中,Cortex-X 和 Cortex-A CPU 核心用于處理對延遲敏感的任務,例如音頻采集和語音轉(zhuǎn)寫。這種方式可以實現(xiàn)低于 100 毫秒的響應時間。系統(tǒng)采用統(tǒng)一內(nèi)存,使 GPU 能夠直接訪問共享 DRAM 中的轉(zhuǎn)寫數(shù)據(jù),從而消除了傳統(tǒng) PCIe 數(shù)據(jù)傳輸帶來的開銷。整個流程的最后,由 NVIDIA GPU 運行 vLLM 引擎生成智能響應,從而實現(xiàn)高吞吐量且具備隱私保護的對話體驗。
演示:
本地語音交互與性能指標
我們通過一個多輪“訂閱取消”場景對系統(tǒng)進行了驗證。系統(tǒng)能夠生成經(jīng)過驗證、基于事實的回答,并且未出現(xiàn)幻覺 (hallucination) 問題。
性能指標:延遲拆解
以下數(shù)據(jù)記錄了從用戶語音結(jié)束到大語音模型開始生成響應之間的精確時間(即響應延遲)。

觀察結(jié)果:所有對話輪次的平均響應延遲約為四秒。該性能表現(xiàn)可與基于云的解決方案相媲美,同時在無需網(wǎng)絡連接的情況下提供了更強的隱私保護。
構(gòu)建你自己的系統(tǒng)?
理解 Arm 架構(gòu) AI 能力的最佳方式是親自實踐。為此,我們準備了一套完整的、循序漸進的 Learning Path,幫助你部署這一流水線??靵韯邮謱嵺`吧!
該 Learning Path 將指導以下內(nèi)容:
如何為邊緣設備配置專業(yè)級麥克風采集系統(tǒng);
如何針對 Arm Cortex-X 優(yōu)化 faster-whisper;
如何使用量化模型部署 vLLM,以最大化本地吞吐性能。
-
ARM
+關(guān)注
關(guān)注
135文章
9582瀏覽量
393429 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5682瀏覽量
110086 -
語音助手
+關(guān)注
關(guān)注
7文章
243瀏覽量
27642
原文標題:在邊緣側(cè)重新思考語音 AI:基于 Arm 架構(gòu)的 DGX Spark 的實用離線流水線
文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
在NVIDIA DGX Spark平臺上對NVIDIA ConnectX-7 200G網(wǎng)卡配置教程
NVIDIA DGX Spark系統(tǒng)恢復過程與步驟
NVIDIA DGX Spark快速入門指南
Microchip發(fā)布專為NVIDIA DGX Spark而設計的MEC1723嵌入式控制器定制固件
NVIDIA 宣布推出 DGX Spark 個人 AI 計算機
NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機
NVIDIA發(fā)布AI優(yōu)先DGX個人計算系統(tǒng)
NVIDIA DGX Spark桌面AI計算機開啟預訂
NVIDIA DGX Spark新一代AI超級計算機正式交付
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
基于Arm架構(gòu)的NVIDIA DGX Spark平臺構(gòu)建離線語音助手系統(tǒng)
評論