首頁 / 新聞
DNN降噪取得大突破 清微智能、清華合發論文被邀登語音旗艦會議ICASSP演講
Time:2020年5月22日 | Author:清微智能
近日,由清華大學和清微智能技術團隊合作的論文PAGAN: A Phase-Adapted Generative Adversarial Networks for Speech Enhancement(PAGAN:一種用于語音增強的自適應生成對抗網絡)被第45屆國際聲學、語音與信號處理會議(ICASSP 2020)錄用,并被邀請演講分享。ICASPP是語音領域等級的國際會議,在語音識別、語音合成等方向匯集了全球領先的理論研究與技術應用成果,能夠被其邀請分享的內容則代表著研究內容在國際語音領域處于尖端水平。
隨著人們生活水平的提升,電子設備的降噪問題已經成為一種剛需。論文《PAGAN:一種用于語音增強的自適應生成對抗網絡》對降噪問題中頻域處理過程中會導致相位不匹配的問題,提出一種全新的思路——用對抗網絡的方法,生成網絡使用頻譜信息,對抗網絡使用時域信息,以得到更好的頻域降噪中的相位匹配。
論文鏈接:https://ieeexplore.ieee.org/document/9054256
語音降噪是最常見的語音應用,但由于噪聲產生是隨機的,產生的原因和特性也相當復雜,因此只有適宜的語音增強技術才能達到較理想的降噪效果。
深度神經網絡(DNN)在語音增強方面效果明顯,因此也越來越受歡迎。但目前大多數基于DNN的語音增強方法都是從帶噪語音中估計干凈語音的頻譜,而忽略了嘈雜語音和干凈語音之間的相位失配,而且越低信噪比下的帶噪語音的相位和干凈語音的相位偏差會越大,這極大地限制了語音增強的性能。
本篇拋卻了依靠估算更準確的相位的思路,另辟蹊徑提出了一種通過時域鑒別器對抗傳統DNN解決相位失配問題的新方法,通過對DNN進行訓練,使其更適應于嘈雜語音的相位,將相位不匹配帶來的影響降至最低。
論文中還提出了一種新的評估標準,用來判斷對噪聲相位的適應程度。實驗結果表明,時域鑒別器的添加使得估計的去噪后的頻譜對于帶噪語音的相位更加友好,對語音增強性能的提高效果顯著。
實驗數據顯示:使用Griffin-Lim(GL)作為中間對比算法,使用之前的全頻域算法和GL算法作為后端處理的方法的PESQ的結果的差值為0.2左右,但是使用時域對抗網絡的結果和GL作為后端的結果之間的差值只為0.02,所以可以得到結論使用時域對抗網絡生成的頻譜圖對于帶噪聲的語音的相位更加友好。
團隊表示:他們還正在嘗試將這一理念拓展到其他深度學習降噪算法中去。
其實,在生活中的很多應用場景都有對于降噪的需求,特別是目前處于大爆發的耳機行業,市場在極度渴望降噪效果明顯的TWS耳機出現。
對于降噪方法的探索,從被動到主動,除了物理上、算法上的各種改進,將芯片與算法相結合,配合具體場景的解決方案,不啻為一種新的解題思路,且逐漸被大家認可。
深度神經網絡(DNN)憑借強大的數據驅動能力、計算模型的不斷更新迭代,且能夠適應不同的應用場景,為改善音頻體驗提供了更多可能性。清微智能的芯片因為采用可重構計算架構(CGRA)——一種可以根據算法和應用重構硬件資源的新型芯片架構技術,有著更強的靈活性和通用性,可以完美適配不斷變化的新的算法,去年公司量產的語音芯片TX210,就可以靈活支持多種語音處理算法,已經應用至耳機、智能開關等多個領域。
除此外,TX210還具有面積小、功耗低(工作功耗僅有2mW,VAD功耗100uW)、低延時、高能效比等特征,能夠大大節省相關解決方案的成本。
而目前處于研發階段的TX210進階版本的TX212,將在與降噪算法的適配上有進一步提升,芯片與領先的算法結合,將會帶來全新的使用體驗。
有人說,將芯片與算法結合的降噪方案將會作為一種基礎能力應用到更多的場景中,給我們帶來更好的生活品質,而技術的不斷創新發展讓一切進行的格外順利。