晚秋电影在线播放,中文字幕爆乳女教师,欧美日韩ooac

作者：Arm 首席解決方案架構(gòu)師沈綸銘

基于云的人工智能 (AI) 占據(jù)了大多數(shù)關(guān)注焦點，但真正實現(xiàn)響應和隱私保護的交互則發(fā)生在邊緣側(cè)。本文將展示如何基于 Arm 架構(gòu)的 NVIDIA DGX Spark 平臺，構(gòu)建一個完全離線、實時運行的語音助手系統(tǒng)。該系統(tǒng)集成了諸如 faster-whisper 和 vLLM 等開源組件，在無需將數(shù)據(jù)發(fā)送到本地環(huán)境之外的情況下，實現(xiàn)低延遲、接近人類對話體驗的交互。

技術(shù)挑戰(zhàn)

對云的依賴困境

在許多企業(yè)環(huán)境中，技術(shù)人員需要快速訪問內(nèi)部文檔或獲得實時支持。然而，依賴云端 API 會帶來三個關(guān)鍵瓶頸：

延遲：與云端 API 的往返通信會打斷語音對話的自然節(jié)奏。

隱私：將敏感數(shù)據(jù)發(fā)送到外部服務器會帶來合規(guī)風險，尤其是在涉及專有內(nèi)容時。

成本與可控性：基于 API 的計費模式和使用限制，會限制系統(tǒng)的擴展能力以及針對特定行業(yè)需求的定制化能力。

解決方案

異構(gòu)的開源流水線

為了應對上述問題，我們在 DGX Spark 上設計了一套流水線，DGX Spark 基于 NVIDIA GB10 Grace Blackwell 構(gòu)建。在該方案中，CPU 被定位一個主動的、以低延遲為優(yōu)化目標的計算引擎。

軟件棧

為了實現(xiàn)最大的靈活性與性能，整個系統(tǒng)運行在以下開源工具上：

關(guān)鍵組件與系統(tǒng)設計

實時音頻與語音活動檢測

系統(tǒng)以 16kHz 單聲道音頻進行采集，并使用 WebRTC 的語音活動檢測 (VAD) 在 30 毫秒的幀級別上檢測語音信號。該方法能夠確保系統(tǒng)只處理有效的語音輸入，同時忽略背景噪聲和靜音間隔。

基于 Arm 架構(gòu) CPU 的高速語音轉(zhuǎn)寫

對于短時、對延遲敏感的任務，系統(tǒng)并未將其分流到 GPU 上，而是使用高性能的 Arm CPU 集群（Arm Cortex-X 和 Cortex-A 系列核心）來處理。

為什么選擇 Arm：Arm 架構(gòu)針對實時搜索、小批量推理任務等延遲關(guān)鍵型工作負載進行了優(yōu)化，

性能表現(xiàn)：在 Arm CPU 上運行 faster-whisper 可以滿足低延遲需求，在交互式系統(tǒng)中，語音轉(zhuǎn)寫時間約為 70 至 90 毫秒。

基于 GPU 加速的推理 (vLLM)

在完成語音轉(zhuǎn)寫后，文本會被傳遞至 vLLM 進行處理。DGX Spark 采用統(tǒng)一內(nèi)存 (Unified Memory)，使 CPU 與 GPU 共享同一內(nèi)存空間。該設計允許 GPU 直接訪問 CPU 的輸出數(shù)據(jù)，從而無需顯式的數(shù)據(jù)傳輸或消除通過 PCIe 進行拷貝所帶來的額外開銷。

系統(tǒng)架構(gòu)流程圖

以下流程圖展示了在 DGX Spark 上構(gòu)建的一個高性能異構(gòu)流水線。系統(tǒng)將任務分配給最合適的計算單元，以降低整體延遲。

圖：DGX Spark 異構(gòu)流水線。Arm CPU 負責 STT 轉(zhuǎn)錄，

GPU 負責生成響應，從而顯著降低交互延遲。

在該流水線中，Cortex-X 和 Cortex-A CPU 核心用于處理對延遲敏感的任務，例如音頻采集和語音轉(zhuǎn)寫。這種方式可以實現(xiàn)低于 100 毫秒的響應時間。系統(tǒng)采用統(tǒng)一內(nèi)存，使 GPU 能夠直接訪問共享 DRAM 中的轉(zhuǎn)寫數(shù)據(jù)，從而消除了傳統(tǒng) PCIe 數(shù)據(jù)傳輸帶來的開銷。整個流程的最后，由 NVIDIA GPU 運行 vLLM 引擎生成智能響應，從而實現(xiàn)高吞吐量且具備隱私保護的對話體驗。

演示：

本地語音交互與性能指標

我們通過一個多輪“訂閱取消”場景對系統(tǒng)進行了驗證。系統(tǒng)能夠生成經(jīng)過驗證、基于事實的回答，并且未出現(xiàn)幻覺 (hallucination) 問題。

性能指標：延遲拆解

以下數(shù)據(jù)記錄了從用戶語音結(jié)束到大語音模型開始生成響應之間的精確時間（即響應延遲）。

觀察結(jié)果：所有對話輪次的平均響應延遲約為四秒。該性能表現(xiàn)可與基于云的解決方案相媲美，同時在無需網(wǎng)絡連接的情況下提供了更強的隱私保護。

構(gòu)建你自己的系統(tǒng)？

理解 Arm 架構(gòu) AI 能力的最佳方式是親自實踐。為此，我們準備了一套完整的、循序漸進的 Learning Path，幫助你部署這一流水線?？靵韯邮謱嵺`吧！

該 Learning Path 將指導以下內(nèi)容：

如何為邊緣設備配置專業(yè)級麥克風采集系統(tǒng)；

如何針對 Arm Cortex-X 優(yōu)化 faster-whisper；

如何使用量化模型部署 vLLM，以最大化本地吞吐性能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴