全球人工智能產(chǎn)業(yè)正經(jīng)歷人機交互范式升級。過去兩個月中,以O(shè)penAI、Meta為代表的行業(yè)領(lǐng)軍企業(yè)加速推進交互技術(shù)創(chuàng)新迭代,推動產(chǎn)業(yè)進入關(guān)鍵變革期。值得關(guān)注的是,a16z合伙人Olivia Moore與Anish Acharya在深度訪談中系統(tǒng)闡釋了"語音交互將成為AI應(yīng)用最具突破潛力的核心接口"這一戰(zhàn)略判斷,明確指出在消費級市場,語音交互極可能發(fā)展為用戶接觸AI系統(tǒng)的首要觸點,甚至演進為主導(dǎo)型交互模態(tài)。
作為聲學(xué)計算與人機交互領(lǐng)域的深耕者,聲智科技自創(chuàng)立以來始終致力于聲學(xué)計算與人機交互核心技術(shù)研發(fā)。在AIoT發(fā)展初期階段,公司即構(gòu)建起具備行業(yè)領(lǐng)先性的人機交互技術(shù)架構(gòu),成功賦能智能音箱、攝像頭等終端設(shè)備實現(xiàn)語音交互功能,形成"技術(shù)前瞻布局-產(chǎn)品快速迭代-市場精準適配"的良性發(fā)展模式。
在全球化AI技術(shù)競速背景下,聲智科技率先取得革命性突破。2025年5月正式發(fā)布了創(chuàng)新性論文《面向真實世界人機交互的非線性聲學(xué)計算與強化學(xué)習(xí)協(xié)同框架》。
論文題目:A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
代碼鏈接:?https://github.com/soundai2016/nonlinear-acoustic-rl-hri
論文鏈接:https://arxiv.org/abs/2505.01998
論文首次提出與國際標準接軌的新一代真實世界人機交互框架,并同步公布全棧算法的測試數(shù)據(jù),多項指標均處于業(yè)界領(lǐng)先水平。

以上數(shù)據(jù)來源于公開論文,對 Azero、MMS/Llama、Qwen、GPT-4o、Seed 和 Deepseek 六家公司的系列模型在八項關(guān)鍵指標(語音增強模型VEP、語音克隆模型TTS、語音識別中文模型ASR_ZH、語音識別英文模型ASR_EN、語言模型中文能力LLM_ZH、語言模型英文能力LLM_EN、聲音情感識別模型Emotion、聲學(xué)事件識別模型Event)上的統(tǒng)一測評,結(jié)果顯示 Azero 以信號藍粗實線突出其卓越表現(xiàn):在聲學(xué)語音增強(VEP 95)和語音克隆合成質(zhì)量(TTS 98.42)上穩(wěn)居榜首,中英文識別準確率分別達到 98.37% 和 94.88%,中文理解能力 87.2 分優(yōu)于多數(shù)競品;值得一提的是,Azero 兼具實時的聲音情感和聲學(xué)事件識別能力,充分證明了其在遠場聲學(xué)、語音克隆、多語交互及語言理解上的全棧算法與領(lǐng)先實力。
該研究突破傳統(tǒng)線性聲學(xué)模型限制,通過非線性計算與強化學(xué)習(xí)的協(xié)同優(yōu)化,成功實現(xiàn)復(fù)雜場景下的自適應(yīng)交互能力,為"AI融入真實世界(Real World Experience)"戰(zhàn)略目標提供了關(guān)鍵技術(shù)支撐。在持續(xù)深化技術(shù)布局的同時,聲智著力構(gòu)建基于聽覺感知的入口級技術(shù),致力于打造具備真實場景理解能力的人機交互架構(gòu),為下一代AI應(yīng)用產(chǎn)品落地提供底層技術(shù)架構(gòu)支持,推動人機交互從"被動接收"向"主動感知"的跨越式發(fā)展。

全場景語音識別:
暢通真實世界的"溝通橋梁"
聲智科技在聲學(xué)信號處理領(lǐng)域的突破,本質(zhì)上是對"復(fù)雜環(huán)境聽覺能力"的革命性重構(gòu)。
噪聲抑制:
從 "可聽" 到 "聽清" 的質(zhì)變跨越
在對聲音降噪算法進行深入分析時,通常會在多種信噪比(SNR)條件下進行系統(tǒng)測試——從極端低信噪比(如–5dB的強噪環(huán)境)到高信噪比(如20dB的低噪環(huán)境),并結(jié)合多種評測指標(如PESQ、MOS-LQO、STOI、SDR等)來全面量化算法在不同噪聲強度與類型(白噪、Babble噪聲、交通噪聲、街道噪聲等)下的性能表現(xiàn)。通過對比各個SNR點上的語音清晰度、可懂度和音質(zhì)恢復(fù)效果,可以直觀地評估算法的低信噪比魯棒性、高信噪比分辨力以及對多場景噪聲的普適適應(yīng)能力。
在極端噪聲環(huán)境下,聲智噪聲分離模型可實現(xiàn)信噪比提升,首次在超高頻噪聲場景中實現(xiàn)"噪聲隔離級"清晰語音還原。
以下是聲智Azero算法在本次測試中展現(xiàn)的兩大核心優(yōu)勢特性。
一是極低信噪比魯棒性,在-5dB極低信噪比噪聲環(huán)境下,僅有Azero算法能夠處理 ,并且性能表現(xiàn)良好,具有更好的魯棒性和實時性。
二是多場景普適性,在Babble Noise、 Car Noise、Street Noise 等真實場景中,降噪性能均大幅領(lǐng)先海外降噪技術(shù)評測結(jié)果(詳見下圖藍色線條),且對噪聲類型的識別范圍更寬泛、在極低信噪比的惡劣環(huán)境下仍能進行高清晰度的人聲增強,真正實現(xiàn)"地鐵喧嘩中聽清耳語,鬧市街頭精準拾音"。

聲音克?。?/p>
音色相似度與合成準確率評測雙登頂
在聲音克隆技術(shù)中,AzeroTTS的SIM-O音色相似度達0.73,詞錯率WER低至1.58%,MOS自然度評分4.01,等同于真實語音。對比LibriSpeech數(shù)據(jù)集,其內(nèi)容準確率超越VALL-E2、VoiceBox等國際頂尖模型,在低成本的真實環(huán)境下能夠?qū)崿F(xiàn)"音色復(fù)刻如臨其境,內(nèi)容還原分毫不差"。自創(chuàng)始以來,聲智科技十分注重面向真實場景的用戶服務(wù)落地,聲音克隆技術(shù)目前已在聲智APP上線,面向全球用戶不斷提升體驗感。

情感感知:
實時捕捉人類情緒的"第六感官"
在強噪聲環(huán)境下,可精準區(qū)分多種聲音情感及400+聲學(xué)環(huán)境事件(如爆竹聲、引擎轟鳴聲、嬰兒笑聲)。即使在車水馬龍的街頭,也能通過語音語調(diào)變化捕捉用戶的細微情緒,為智能設(shè)備賦予超強"共情力"。
毫秒級響應(yīng):
構(gòu)建低延遲交互基石
通過波束成形與殘差網(wǎng)絡(luò)優(yōu)化,在RTX6000Ada平臺上,平均RTF低至0.0375(A100為0.0487,RTX4090為0.0806),即使在30秒以上長音頻處理中,RTF僅0.0101,真正滿足實時通話、直播降噪等毫秒級延遲敏感場景需求。

全場景語音識別:
暢通真實世界的"溝通橋梁"
聲智的語音技術(shù)優(yōu)勢,不僅在于"聽得清",更在于"聽得準""聽得懂"。
復(fù)雜噪聲精準識別:
準確率超越OpenAI
中文場景:在AISHELL-1數(shù)據(jù)集上,WER指標優(yōu)于其他模型;AISHELL-2復(fù)雜場景下,領(lǐng)先行業(yè)平均水平。
英文場景:Fleurs數(shù)據(jù)集上WER指標測評表現(xiàn)優(yōu)異,且不依賴大型語言模型做后處理校正,純模型原始輸出即達行業(yè)頂尖水平。

多種語言混雜識別:
真實場景21種語言識別準確率90%+
在真實語言場景下,香港、新加坡、馬來西亞等具有典型多語系特征的區(qū)域,因其獨特的語言生態(tài)對智能系統(tǒng)的多語交互能力提出了更高要求。這些地區(qū)涉及不同語言變體的復(fù)雜轉(zhuǎn)換——香港的粵語夾雜英語詞匯的港式表達、新加坡融合福建方言的華語形態(tài)、馬來西亞帶有馬來語元素的華文語境,都要求語言識別技術(shù)具備深度文化適應(yīng)能力。
面向此種真實環(huán)境需求,聲智在Fleurs和CommonVoice兩個國際權(quán)威的多語種語音數(shù)據(jù)集上進行了全面測試,實驗結(jié)果表明,聲智的語音識別模型在不同語種下均表現(xiàn)出色,識別準確率穩(wěn)定保持在90%以上。從歐洲小語種到亞洲地方語言,實現(xiàn)"一套模型,全球通聽"的跨語言識別與翻譯。

"輕量""智答"語言模型:
讓機器學(xué)會"耳腦協(xié)同"的交互藝術(shù)
在新一代人機交互的技術(shù)架構(gòu)中,語言模型從"算力競賽"轉(zhuǎn)向"效能突圍"。基于聲學(xué)技術(shù)構(gòu)建的底層感知系統(tǒng),輕量級語言模型承擔著人機交互的"認知中樞"角色,通過精準的語義泛化、邏輯推理與意圖提煉,在低成本的算力條件下實現(xiàn)語音指令的高效解析與自然響應(yīng),構(gòu)建貼近真實場景的交互體驗。這種"小而精"的技術(shù)路徑,使語言模型真正成為連接用戶需求與設(shè)備功能的效能樞紐,推動人機交互從"技術(shù)堆砌"向"體驗優(yōu)先"轉(zhuǎn)型,為智能硬件和AI應(yīng)用服務(wù)落地提供可持續(xù)的技術(shù)底座。
"小而精"技術(shù)路徑:
評測位列第一梯隊
AzeroGPT:依托數(shù)億級參數(shù)量基底,在權(quán)威榜單中表現(xiàn)亮眼;
C-Eval:人文社科領(lǐng)域、STEM領(lǐng)域排名靠前,超越多數(shù)語言大模型;
Livebenchcode_v5:輕量化設(shè)計使其算力需求遠低于傳統(tǒng)大模型,性價比優(yōu)勢顯著。

從技術(shù)構(gòu)想走向場景落地:
開啟主動感知人機交互新紀元
“ 在人工智能技術(shù)高速迭代的今天,當行業(yè)目光逐漸從模型參數(shù)競賽轉(zhuǎn)向真實場景價值落地,聲智科發(fā)布的人機交互框架,正以"可落地、可驗證、可生長"的技術(shù)特質(zhì),打破"實驗室技術(shù)"與"現(xiàn)實應(yīng)用"的壁壘,讓"機器理解人類"不再停留在理論構(gòu)想,而是成為觸手可及的交互體驗。聲智的 "主動感知" 框架深度錨定三大核心體驗維度:"聞聲知意,懂你所需"、"聞聲辨境,知你所求"、"聽你所言,知你所想"。聲智的技術(shù)突圍,源于對"場景價值"的深度解構(gòu),通過非線性聲學(xué)計算技術(shù)穿透復(fù)雜環(huán)境噪聲,結(jié)合強化學(xué)習(xí)構(gòu)建場景化決策模型,形成"感知 - 理解 - 預(yù)測 - 優(yōu)化"的閉環(huán)能力。這種"輕量架構(gòu) + 重場景適配"的設(shè)計,在智能汽車、工業(yè)機器人、智慧醫(yī)療等領(lǐng)域?qū)崿F(xiàn)低成本快速部署,同時保持復(fù)雜環(huán)境指令解析準確率。
智慧生活:
設(shè)備從"聽見"到"聽懂"再到"預(yù)判需求"
在智慧生活場景下使設(shè)備具備"聽覺認知"能力,用戶可感知到設(shè)備從"被動接收指令"轉(zhuǎn)變?yōu)?主動適應(yīng)場景,核心技術(shù)閉環(huán)(聲學(xué)采樣→動態(tài)優(yōu)化→環(huán)境分析→精準輸出)能帶來核心生活場景革新,如通勤、辦公、居家等,從喧囂鬧市到靜謐空間,每一次聲音的處理都是"主動感知"技術(shù)的生動演繹,它正引領(lǐng)我們邁向面向真實世界的多場景自適應(yīng)人機交互新紀元,讓智慧感知深度融入生活,重塑每一個與聲音相伴的瞬間,為生活注入更智能、更貼心的體驗。
智慧醫(yī)療健康:
個性化監(jiān)測與關(guān)懷
智慧醫(yī)療健康場景正呈現(xiàn)"感知-解析-響應(yīng)"全鏈路的突破性革新 。例如AI助聽設(shè)備可精準處理環(huán)境音,濾除干擾,動態(tài)補償個體聽覺差異,讓用戶清晰感知聲音,實現(xiàn)更貼心的健康關(guān)懷。當用戶發(fā)現(xiàn)自己的咳嗽聲能被轉(zhuǎn)化為肺炎風(fēng)險指數(shù),當帕金森患者從語音震顫分析中獲得黃金干預(yù)期,當?shù)胤椒窖圆辉俪蔀獒t(yī)患溝通壁壘,語音交互已超越工具屬性,成為貫穿預(yù)防-診斷-治療-康復(fù)全流程的醫(yī)療新界面。這種變革不僅體現(xiàn)在參數(shù)提升,更讓每個生命個體感知到:醫(yī)療健康服務(wù)開始真正"聽懂"并"理解"人類最自然的表達方式。
AI機器人:
聽覺系統(tǒng)的場景化演進
AI機器人可通過聲學(xué)智能實現(xiàn)從物理執(zhí)行到環(huán)境共生的跨越式進化,通過AI聲學(xué)降噪算法與AI聲學(xué)分類算法的處理,AI機器人能夠精準捕捉真實世界的聲音信息,并對聲音事件與聲音情感進行深度解析,實時構(gòu)建環(huán)境模型,讓機器人能夠理解所處的聲學(xué)環(huán)境。家庭服務(wù)機器人能根據(jù)廚房環(huán)境底噪中的燃氣泄漏特征音提前2秒報警,當教育機器人從兒童斷續(xù)抽泣聲中識別焦慮指數(shù)并切換安撫模式,人類正見證機器人突破物理傳感器的局限,它們不僅能“聽見”聲音,更能理解聲波背后隱藏的機器狀態(tài)、生理特征與情感意圖,這種基于聲學(xué)全息感知的交互進化,讓人機協(xié)作從精準響應(yīng)升級為預(yù)見性共融。
聲智科技在人機交互框架領(lǐng)域取得的技術(shù)突破,不僅體現(xiàn)在評測體系性能指標的量化提升,更重要的是實現(xiàn)了從基礎(chǔ)功能實現(xiàn)到體驗價值創(chuàng)造的全鏈路技術(shù)升級。伴隨全球AI產(chǎn)業(yè)的高速演進,工業(yè)機器人、智能汽車、精準醫(yī)療及航天科技等戰(zhàn)略領(lǐng)域正面臨智能化升級的迫切需求。依托新一代人機交互框架的技術(shù)優(yōu)勢,聲智通過構(gòu)建智能聽覺感知系統(tǒng)與決策中樞系統(tǒng)的深度協(xié)同,以非線性聲學(xué)計算為技術(shù)底座,推動AI交互范式從被動響應(yīng)向主動認知演進。該系統(tǒng)不僅能實現(xiàn)毫秒級實時需求響應(yīng),更通過多模態(tài)行為建模與預(yù)測算法,在用戶需求顯性化前完成服務(wù)預(yù)判。
我們創(chuàng)新性地將非線性聲學(xué)計算與深度強化學(xué)習(xí)相結(jié)合,構(gòu)建出具備環(huán)境認知與意圖推理能力的智能交互系統(tǒng)。這種技術(shù)融合使機器系統(tǒng)突破傳統(tǒng)規(guī)則引擎的限制,形成場景自適應(yīng)的動態(tài)決策能力:通過實時聲場建模準確解析物理環(huán)境特征,結(jié)合強化學(xué)習(xí)算法持續(xù)優(yōu)化交互策略,最終實現(xiàn)"場景理解-用戶認知-行為預(yù)判"的三維智能閉環(huán)。這種進化將重新定義人機交互范式,使智能設(shè)備具備情境感知與自主決策能力,推動智能服務(wù)向認知智能階段演進。
值得強調(diào)的是,真實場景數(shù)據(jù)與用戶體驗指標的深度融合正成為技術(shù)迭代的核心驅(qū)動力。聲智建立的"數(shù)據(jù)-算法-體驗"協(xié)同進化機制,不僅加速非線性聲學(xué)模型的場景適應(yīng)能力,更通過強化學(xué)習(xí)框架實現(xiàn)交互策略的持續(xù)優(yōu)化。這種雙向賦能的技術(shù)路徑,正在重塑人機協(xié)作的底層邏輯,為各行業(yè)智能化轉(zhuǎn)型提供可進化的認知中樞系統(tǒng)。但我們需要清醒認識到,真正的真實世界體驗?zāi)P蜕形凑嬲涞?,特別是在物理規(guī)律約束建模、多模態(tài)感知融合等關(guān)鍵領(lǐng)域仍存在突破空間,AI時代才剛剛開始。
-
機器人
+關(guān)注
關(guān)注
213文章
31391瀏覽量
223545 -
AI
+關(guān)注
關(guān)注
91文章
40941瀏覽量
302517 -
聲智科技
+關(guān)注
關(guān)注
0文章
90瀏覽量
2374
原文標題:聲智全球首發(fā)新一代人機交互框架:非線性聲學(xué)與強化學(xué)習(xí)讓AI融入真實世界
文章出處:【微信號:聲智科技,微信公眾號:聲智科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
10寸人機交互裝置引領(lǐng)開關(guān)柜智能運維新時代
人機界面交互裝置:10KV開關(guān)柜的“智慧中樞”
從“人機交互”到“數(shù)字預(yù)演”:詳解 HMI、SCADA 與虛擬調(diào)試的閉環(huán)架構(gòu)
中科創(chuàng)達旗下Rightware攜手高通發(fā)布智能汽車人機交互解決方案
谷東智能PVG光波導(dǎo)驅(qū)動下一代人機交互
時識科技CES 2026趨勢看點前瞻
澎峰科技榮獲2025新一代人工智能創(chuàng)業(yè)大賽總決賽二等獎
聲智科技攜手英飛凌探討新一代聲學(xué)感知技術(shù)方案
CIE全國RISC-V創(chuàng)新應(yīng)用大賽 呼吸機人機交互系統(tǒng)
眼電EOG人機交互會是未來交互的一種主流嗎?
AI眼鏡或成為下一代手機?谷歌、蘋果等巨頭扎堆布局
重構(gòu)未來自適應(yīng)人機交互的創(chuàng)新技術(shù)
邊聊安全 | 人機交互對功能安全的影響
人機交互:連接人類與數(shù)字世界的橋梁
聲智科技全球首發(fā)新一代人機交互框架
評論