本技術涉及計算機信息處理領域,具體而言,涉及一種端到端基于多層信息融合的方言音頻識別方法、系統(tǒng)、電子設備、計算機可讀介質(zhì)及計算機程序產(chǎn)品。
背景技術:
1、語音識別技術在過去的幾十年中取得了顯著的進步,尤其是在大規(guī)模數(shù)據(jù)和深度學習模型的推動下。然而,由于發(fā)音受到個人生理結構、地域和母語等因素的影響,方言和口音的存在對語音識別系統(tǒng)提出了巨大挑戰(zhàn)。標準發(fā)音的偏離會導致發(fā)音單元(如音素)的建模出現(xiàn)偏差,進而嚴重影響識別的準確性。在實際應用中,如業(yè)務外呼場景中,大量客戶的發(fā)音帶有口音,普通話中的口音識別成為目前語音識別系統(tǒng)面臨的主要挑戰(zhàn)之一。
2、目前,對方言類音頻識別的主流的解決方案主要包括遷移學習和多任務學習。遷移學習是在一個預訓練好的通用語音識別模型的基礎上,對特定方言數(shù)據(jù)集進行微調(diào)。遷移學習的優(yōu)點是方法直接,對具有大量訓練數(shù)據(jù)的單一口音方言能取得較好的效果;缺點是對于多種語言混合且每種語言訓練資源較少的場景,遷移學習會對不同的語種存在較大的識別差異。多任務學習是在訓練過程中,同時進行語音識別和口音識別,通過共享特征表示,增強模型對多種任務的適應性,多任務學習的優(yōu)點是能夠更好地利用多種任務的互補信息,提高模型的泛化能力和魯棒性;缺點是需要設計復雜的多任務網(wǎng)絡架構,并進行同步優(yōu)化,訓練難度較高。
3、因此,需要一種新的端到端基于多層信息融合的方言音頻識別方法、系統(tǒng)、電子設備及計算機可讀介質(zhì)。
4、在所述背景技術部分公開的上述信息僅用于加強對本技術的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。
技術實現(xiàn)思路
1、有鑒于此,本技術提供一種端到端基于多層信息融合的方言音頻識別方法、系統(tǒng)、電子設備及計算機可讀介質(zhì),能夠?qū)碗s語音信號和多口音特征進行高效捕捉和處理、還能夠在線實時進行方言音頻的分類及解碼,提高了語音識別的準確性和魯棒性。
2、本技術的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本技術的實踐而習得。
3、根據(jù)本技術的一方面,提出一種端到端基于多層信息融合的方言音頻識別方法,該方法包括:將方言音頻進行音頻預處理,生成聲學特征;將所述聲學特征輸入到編碼器中,所述編碼器對其進行漸進式降采樣操作,生成多層細粒度聲學特征;通過層適應模塊對所述多層細粒度聲學特征進行多層信息融合,生成融合聲學特征;通過交叉注意力機制對所述融合聲學特征進行交叉融合,生成修正聲學特征;將所述修正聲學特征輸入到端到端方言識別模型中,生成方言音頻識別結果。
4、可選地,還包括:將帶有方言標簽的方言音頻進行訓練預處理,生成訓練融合聲學特征;通過交叉注意力機制對所述訓練融合聲學特征進行交叉融合,生成訓練修正聲學特征;提取所述訓練融合聲學特征的口音特征;通過多任務學習模式基于所述訓練修正聲學特征、所述口音特征對初始端到端方言識別模型進行訓練,以生成訓練完畢的端到端方言識別模型,所述端到端方言識別模型包括語音識別模型和口音識別模型。
5、可選地,將方言音頻進行音頻預處理,生成聲學特征,包括:對所述方言音頻進行特征提取,生成所述方言音頻的梅爾倒譜系數(shù)特征;對所述梅爾倒譜系數(shù)特征進行卷積降采樣操作,生成所述方言音頻的所述聲學特征。
6、可選地,將所述聲學特征輸入到編碼器中,所述編碼器對其進行漸進式降采樣操作,生成多層細粒度聲學特征,包括:將所述聲學特征輸入到編碼器中,所述編碼器包括多個conformer編碼器;多個conformer編碼器對所述聲學特征進行漸進式降采樣操作;通過漸進式降采樣操作逐層減少時間維度的冗余生成所述多層細粒度聲學特征。
7、可選地,通過層適應模塊對所述多層細粒度聲學特征進行多層信息融合,生成融合聲學特征,包括:所述層適應模塊提取所述多層細粒度聲學特征中每一層的細粒度聲學特征;將每一層細粒度聲學特征分別進行多層信息融合,生成所述融合聲學特征。
8、可選地,通過交叉注意力機制對所述融合聲學特征進行交叉融合,生成修正聲學特征,包括:將多層細粒度聲學特征作為鍵值向量,將所述融合聲學特征作為查詢向量;通過交叉注意力機制進行交叉融合,生成所述修正聲學特征。
9、可選地,將所述修正聲學特征輸入到端到端方言識別模型中,生成方言音頻識別結果,包括:將所述修正聲學特征輸入到端到端方言識別模型中;所述端到端方言識別模型中的語音識別模型和口音識別模型分別對所述修正聲學特征進行識別,生成文本識別結果和口音分類標簽。
10、可選地,將帶有方言標簽的方言音頻進行訓練預處理,生成訓練融合聲學特征,包括:將帶有方言標簽的方言音頻進行音頻預處理,生成訓練聲學特征;將所述訓練聲學特征輸入到編碼器中,所述編碼器對其進行漸進式降采樣操作,生成多層訓練細粒度聲學特征;通過層適應模塊對所述訓練多層細粒度聲學特征進行多層信息融合,生成所述訓練融合聲學特征。
11、可選地,通過多任務學習模式基于所述訓練修正聲學特征、所述口音特征對初始端到端方言識別模型進行訓練,以生成訓練完畢的端到端方言識別模型,所述端到端方言識別模型包括語音識別模型和口音識別模型,包括:確定多任務學習框架,所述多任務學習框架包括交叉信息融合機制、語音識別模型和口音識別模型的;基于所述多任務學習框架通過所述訓練修正聲學特征對語音識別模型進行訓練;基于所述多任務學習框架通過所述口音特征對口音識別模型進行訓練;在訓練過程中整體損失函數(shù)滿足設定指標時,生成訓練完畢的所述端到端方言識別模型。
12、可選地,基于所述多任務學習框架通過所述口音特征對口音識別模型進行訓練,包括:基于所述多任務學習框架將所述口音特征輸入口音識別模型中,所述口音識別模型包含兩層因果卷積結構和一個線性鑒別器。
13、可選地,在訓練過程中整體損失函數(shù)滿足設定指標時,生成訓練完畢的所述端到端方言識別模型,包括:通過語音識別分類損失、解碼器注意力損失和口音識別交叉熵損失生成整體損失函數(shù);在每次訓練中,均計算當前的語音識別分類損失、解碼器注意力損失和口音識別交叉熵損失;在所述語音識別分類損失、所述解碼器注意力損失和所述口音識別交叉熵損失分別滿足設定指標時,生成訓練完畢的所述端到端方言識別模型。
14、根據(jù)本技術的一方面,提出一種端到端基于多層信息融合的方言音頻識別系統(tǒng),該系統(tǒng)包括:處理模塊,用于將方言音頻進行音頻預處理,生成聲學特征;采樣模塊,用于將所述聲學特征輸入到編碼器中,所述編碼器對其進行漸進式降采樣操作,生成多層細粒度聲學特征;融合模塊,用于通過層適應模塊對所述多層細粒度聲學特征進行多層信息融合,生成融合聲學特征;修正模塊,用于通過交叉注意力機制對所述融合聲學特征進行交叉融合,生成修正聲學特征;識別模塊,用于將所述修正聲學特征輸入到端到端方言識別模型中,生成方言音頻識別結果。
15、可選地,還包括:預處理模塊,用于將帶有方言標簽的方言音頻進行訓練預處理,生成訓練融合聲學特征;交叉模塊,用于通過交叉注意力機制對所述訓練融合聲學特征進行交叉融合,生成訓練修正聲學特征;特征模塊,用于提取所述訓練融合聲學特征的口音特征;訓練模塊,用于通過多任務學習模式基于所述訓練修正聲學特征、所述口音特征對初始端到端方言識別模型進行訓練,以生成訓練完畢的端到端方言識別模型,所述端到端方言識別模型包括語音識別模型和口音識別模型。
16、根據(jù)本技術的一方面,提出一種電子設備,該電子設備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序;當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如上文的方法。
17、根據(jù)本技術的一方面,提出一種計算機可讀介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上文中的方法。
18、根據(jù)本技術的一方面,提出一種計算機程序產(chǎn)品,包括:計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)如上文中的方法。
19、根據(jù)本技術的端到端基于多層信息融合的方言音頻識別方法、系統(tǒng)、電子設備及計算機可讀介質(zhì),通過將方言音頻進行音頻預處理,生成聲學特征;將所述聲學特征輸入到編碼器中,所述編碼器對其進行漸進式降采樣操作,生成多層細粒度聲學特征;通過層適應模塊對所述多層細粒度聲學特征進行多層信息融合,生成融合聲學特征;通過交叉注意力機制對所述融合聲學特征進行交叉融合,生成修正聲學特征;將所述修正聲學特征輸入到端到端方言識別模型中,生成方言音頻識別結果的方式,能夠?qū)碗s語音信號和多口音特征進行高效捕捉和處理、還能夠在線實時進行方言音頻的分類及解碼,提高了語音識別的準確性和魯棒性。
20、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的,并不能限制本技術。