由于近來平板電腦、計算機、智能電視機和其它消費電子設(shè)備用的語音控制接口的興起,語音質(zhì)量成為了一個熱門話題。如果沒有可以理解的語音,自動語音識別功能就不能正確工作,無法用作可靠的輸入設(shè)備。這個問題還與噪聲環(huán)境糾纏在一起,而噪聲環(huán)境可能嚴重地降低語音的質(zhì)量,甚至會使語音控制功能完全不可工作。
傳統(tǒng)噪聲抵消技術(shù)需要折衷考慮噪聲抑制程度和語音質(zhì)量:噪聲抑制水平越高,語音失真的可能性也越大。為了盡量減少這種折衷,工程師開發(fā)出了噪聲抑制算法來減少噪聲電平,這種技術(shù)在固定噪聲場合具有很好的效果,但在街道噪聲和類似其它非固定噪聲的場合,性能并不理想。
隨著智能手機上引入第二個麥克風,噪聲抵消技術(shù)向前邁進了一大步。手機上的兩個麥克風工作在與人類聽覺系統(tǒng)相似的方式。然而,這個功能并不能提供足夠的噪聲抵消水平來消除語音呼叫或語音控制場合的所有背景噪聲,例如在開車或乘坐公共交通工具、甚至在音樂聲很大的家里時。
增加用于高級噪聲抵消的傳感器
除了標準的兩個音頻麥克風外,高級噪聲抵消技術(shù)使用了一個新增的傳感器,然后應(yīng)用3D-Vocal算法執(zhí)行多個語音處理任務(wù),包括回波和背景噪聲抵消、響度均衡和一般語音增強。消除背景噪聲可以顯著提高智能手機、平板電腦和其它移動設(shè)備中的自動語音識別(ASR)和語音呼叫應(yīng)用的準確率。
下圖1.0顯示了一個高級噪聲抵消技術(shù)如何影響有噪聲語音的例子。上面的波形代表有噪聲的語音,是語音和環(huán)境噪聲疊加的產(chǎn)物(S+N),而下面的波形是經(jīng)過3D語音處理后得到的干凈語音信號。
圖1.0:對語音和環(huán)境噪聲應(yīng)用典型的3D語音處理技術(shù)后的結(jié)果。
圖2.0顯示的是聲譜圖,上面的圖形代表有噪聲語音(S+N)的聲譜圖,下面的聲譜圖顯示的是經(jīng)過3D語音處理后的語音信號。
圖2.0:對語音和環(huán)境噪聲進行3D處理后的聲譜圖。
利用傳感器和兩個麥克風提供的擴展數(shù)據(jù)集,3D-Vocal算法可以提取出用于表征語音源的特征信號,并區(qū)分屬于感興趣語音的聲音分量與環(huán)境噪聲。圖3.0中的框圖顯示了高級噪聲抵消技術(shù)中的音頻處理路徑。
圖3.0:3D語音處理框圖。
3D語音處理框圖中的各個模塊說明如下:
3D-Vocal(頻譜-時間分析):接收來自麥克風陣列和VSensor的所有信號,并對組合信息執(zhí)行專門的頻譜-時間處理。3D-Vocal數(shù)據(jù)中的一些相關(guān)圖案與環(huán)境噪聲有關(guān),其它圖案則被識別為用戶語音。3D-Vocal頻譜-時間處理功能將用戶語音從預(yù)測的環(huán)境噪聲中分離出來,并為語音/噪聲特征提取模塊提供一些參考信息。
特征提?。喊伻肫渌K的語音/噪聲數(shù)據(jù)。提取出的特征包含了有關(guān)用戶語音和環(huán)境噪聲的頻譜-時間、實時信息。這些信息可以用來從用戶語音中濾除環(huán)境噪聲,實現(xiàn)回波抵消性能增強等功能。
環(huán)境噪聲抵消:抵消各種固定和非固定、相關(guān)和非相關(guān)的環(huán)境噪聲。環(huán)境噪聲抵消算法使用特征提取信息和3D-Vocal模塊的輸出信息。
均衡:均衡接收信號的頻譜分布,使其匹配ASR處理或語音呼叫的要求。