常言道:兼聽(tīng)則明,偏信則暗。對(duì)于決策依據(jù)的選擇來(lái)說(shuō)此言不假,但對(duì)于語(yǔ)音技術(shù)來(lái)說(shuō)則剛好相反。我們所處的環(huán)境中常常伴有大量背景噪音,如果一個(gè)電子系統(tǒng)把所有的音頻信號(hào)統(tǒng)統(tǒng)接受,那么我們期望得到的音頻信號(hào)就會(huì)被噪音淹沒(méi),系統(tǒng)的性能表現(xiàn)就會(huì)大打折扣。
實(shí)際上,人耳是一種有選擇的接收系統(tǒng)。當(dāng)我們?cè)卩须s的餐廳交談時(shí),我們也能盡力從背景噪音中撿拾對(duì)面那個(gè)人發(fā)出的語(yǔ)音信號(hào)。另一些動(dòng)物具有更強(qiáng)的聽(tīng)覺(jué)天賦。貓頭鷹可以在叢林中精確偵測(cè)出嚙齒類(lèi)動(dòng)物發(fā)出的細(xì)微聲響。
如果人類(lèi)或貓頭鷹只有一只耳朵,那么我們拾取有用音頻信息的能力就會(huì)大打折扣。沒(méi)有了聲音定位的能力,我們就會(huì)把噪音和信號(hào)全部納入,然后讓大腦去分析哪些是噪音,哪些是信號(hào)。其結(jié)果就是,不但我們的分辨能力大幅降低,而且這樣做還大大增加了我們大腦的負(fù)擔(dān)。
大多數(shù)電子系統(tǒng)的降噪原理屬于后者,也就是從包含噪音的音頻中通過(guò)DSP算法提取語(yǔ)音信號(hào)。這樣提取出的語(yǔ)音信號(hào)即使可用也會(huì)產(chǎn)生不同程度的失真。
Audience公司的降噪技術(shù)屬于前者。這是一家總部位于美國(guó)加州山景城的公司,成立于2000年。該總司號(hào)稱(chēng)是全球唯一一家將聽(tīng)覺(jué)神經(jīng)學(xué)產(chǎn)品化的公司。在公司成立后的前8年,Audience致力于完善產(chǎn)品技術(shù),所以它真正進(jìn)入市場(chǎng)的時(shí)間并不算長(zhǎng)。
Audience公司的earSmart技術(shù)是一種仿生學(xué)。在聲音到達(dá)麥克風(fēng)的那一刻,它就能根據(jù)算法判定哪些聲音是噪音而加以摒除,從而保證了進(jìn)入系統(tǒng)的音頻信號(hào)的純凈度。Audience公司的工程師向我們演示了earSmart的降噪效果。用一臺(tái)揚(yáng)聲器模擬餐廳背景噪音,然后用裝備earSmart技術(shù)的Nexus平板電腦進(jìn)行錄音和回放。在關(guān)閉該公司ASR Assist專(zhuān)利技術(shù)的情形下,所錄的語(yǔ)言幾乎被背景噪音淹沒(méi)而無(wú)法分辨。開(kāi)啟ASR Assist技術(shù)后重新錄音,我們聽(tīng)到播放出的語(yǔ)言清晰悅耳,而且?guī)缀鯖](méi)有任何失真。
earSmart技術(shù)針對(duì)三種情形下的應(yīng)用:實(shí)時(shí)通訊(在嘈雜環(huán)境下可實(shí)現(xiàn)清晰的手機(jī)通話(huà))、語(yǔ)音識(shí)別(在嘈雜環(huán)境下實(shí)現(xiàn)對(duì)錄入語(yǔ)音的文本轉(zhuǎn)換)和媒體捕捉(在嘈雜環(huán)境下實(shí)現(xiàn)與視頻同樣清晰的語(yǔ)音錄制)。
Audience公司最新產(chǎn)品有兩款:eS325高級(jí)語(yǔ)音處理器和eS515智能聲音處理器。eS325采用真正的三路麥克風(fēng)、移動(dòng)去回聲和超級(jí)寬帶噪音抑制語(yǔ)音技術(shù),專(zhuān)利的ASR Assist技術(shù)實(shí)現(xiàn)優(yōu)化的自動(dòng)語(yǔ)音識(shí)別,用于多媒體則可實(shí)現(xiàn)移動(dòng)音頻變焦和增強(qiáng)型高清立體式錄音。兩種處理器的框圖如下所示。欲了解詳情請(qǐng)點(diǎn)擊http://audience.com/products/our-processors/。
eS325高級(jí)語(yǔ)音處理器
eS515智能聲音處理器
目前,Audience公司的earSmart技術(shù)主要用于高端應(yīng)用。據(jù)介紹,市場(chǎng)價(jià)格高于2000元的多款最新智能手機(jī)采用了Audience公司的的產(chǎn)品,如三星Galaxy S4和華為Ascend D2、Mate。另外,Audience與產(chǎn)業(yè)生態(tài)系統(tǒng)的各方展開(kāi)積極合作,尤其是與科大訊飛的配合最醒目。在現(xiàn)場(chǎng)演示中,科大訊飛的語(yǔ)音識(shí)別軟件與Audience公司的earSmart技術(shù)相結(jié)合,移動(dòng)產(chǎn)品在嘈雜環(huán)境下的語(yǔ)音識(shí)別速度與精度的確令人贊嘆。