本發(fā)明涉及語音識別,特別涉及一種基于c-adapter適配器的多模型語音識別方法。
背景技術(shù):
1、語音識別是指通過模型將用戶輸入的語音進行內(nèi)容識別。隨著nlp大模型技術(shù)的發(fā)展,bert、gpt、llama等基于大規(guī)模文本預訓練的大型語言模型在自然語言處理技術(shù)領(lǐng)域取得了較好的性能。
2、在傳統(tǒng)技術(shù)中,語音識別主要通過編碼器提取用戶輸入語音的音頻特征,并通過聲學模型進行特征分析,將相鄰語音幀對應(yīng)的特征向量進行組合,匹配相應(yīng)的文字信息,來獲取語音識別結(jié)果,不僅使得語音識別準確率較低,并且識別速度也較為緩慢,難以滿足語音實時轉(zhuǎn)換文字的要求。
3、因此,提出一種基于c-adapter適配器的多模型語音識別方法。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供一種基于c-adapter適配器的多模型語音識別方法,用以解決傳統(tǒng)技術(shù)中語音識別準確率較低、識別速度緩慢的問題。
2、本發(fā)明實施例中提供了一種基于c-adapter適配器的多模型語音識別方法,包括:
3、獲取原始語音信號;
4、通過聲學編碼器對所述原始語音信號進行特征提取,獲取語音特征信息;
5、c-adapter適配器根據(jù)所述語音特征信息進行下采樣和一維卷積處理,獲取低維特征信息,并通過多頭注意力層對所述低維特征信息進行注意力機制調(diào)整,獲取加權(quán)特征信息,進行歸一化處理和特征增強,生成模態(tài)適應(yīng)特征信息映射到語音識別空間中;
6、設(shè)置語音識別任務(wù)字符,通過文本向量模型將所述語音識別任務(wù)字符映射到語音識別空間,構(gòu)建文本任務(wù)表征信息;
7、將所述語音識別空間中的模態(tài)適應(yīng)特征信息和文本任務(wù)表征信息拼接,構(gòu)建語音待識別信息;
8、通過大語言模型對所述語音待識別信息進行識別,獲取語音識別結(jié)果。
9、優(yōu)選的,本發(fā)明提供一種基于c-adapter適配器的多模型語音識別方法,所述步驟:通過聲學編碼器對所述原始語音信號進行特征提取,獲取語音特征信息;包括:
10、通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)層、掩碼層、transformer層、語音處理層和聚類分析層,來獲取預訓練聲學編碼器;
11、獲取訓練集中的自動語音識別數(shù)據(jù),對所述預訓練聲學編碼器進行訓練,構(gòu)建聲學編碼器;可選的,包括:
12、卷積神經(jīng)網(wǎng)絡(luò)層對所述自動語音識別數(shù)據(jù)進行特征提取,獲取樣本隱藏特征信息;
13、掩碼層根據(jù)預設(shè)掩碼率對所述樣本隱藏特征信息中的樣本子特征信息進行隨機掩碼,獲取樣本掩碼特征信息;
14、通過transformer層對所述樣本掩碼特征信息進行特征預測,獲取樣本恢復特征信息;
15、語音處理層通過對所述自動語音識別數(shù)據(jù)進行預處理,獲取預處理樣本語音信號,并通過傅里葉變換轉(zhuǎn)換到頻域進行分析,獲取樣本頻譜特征信息;mel濾波器對所述樣本頻譜特征信息進行能量疊加運算,求取梅爾對數(shù)特征信息,通過離散余弦變換,獲取梅爾倒譜參數(shù)信息進行動態(tài)特征提取,生成梅爾倒譜參數(shù)特征信息;
16、聚類分析層根據(jù)所述梅爾倒譜參數(shù)特征信息進行聚類分析,構(gòu)建樣本聚類碼本信息;
17、將所述樣本恢復特征信息中的未掩碼子信息與所述樣本聚類碼本信息中聚類子信息進行匹配,獲取所述樣本恢復特征信息中掩碼子信息對應(yīng)的掩碼聚類子信息,并計算相似度距離;
18、調(diào)整所述transformer層的參數(shù),優(yōu)化所述相似度距離,在滿足閾值條件時,將所述預訓練聲學編碼器作為聲學編碼器。
19、優(yōu)選的,本發(fā)明提供一種基于c-adapter適配器的多模型語音識別方法,所述步驟:通過聲學編碼器對所述原始語音信號進行特征提取,獲取語音特征信息;包括:
20、卷積神經(jīng)網(wǎng)絡(luò)層中的多層時序卷積網(wǎng)絡(luò)對所述原始語音信號進行膨脹卷積操作,時序卷積網(wǎng)絡(luò)之間殘差連接,獲取隱藏特征信息,通過歸一化函數(shù)對所述隱藏特征信息進行歸一化處理,并通過gelu激活函數(shù)對歸一化后的隱藏特征信息進行計算,獲取隱藏語音特征信息;
21、掩碼層根據(jù)預設(shè)掩碼率對所述隱藏語音特征信息中的子特征信息進行隨機掩碼,獲取掩碼特征信息;
22、通過transformer層中的編碼器根據(jù)所述掩碼特征信息和對應(yīng)的掩碼位置,分析所述掩碼特征信息的全局關(guān)系,并通過解碼器對掩碼的子特征信息進行預測,獲取語音特征信息。
23、優(yōu)選的,本發(fā)明提供一種基于c-adapter適配器的多模型語音識別方法,所述步驟:c-adapter適配器根據(jù)所述語音特征信息進行下采樣和一維卷積處理,獲取低維特征信息,并通過多頭注意力層對所述低維特征信息進行注意力機制調(diào)整,獲取加權(quán)特征信息,進行歸一化處理和特征增強,生成模態(tài)適應(yīng)特征信息映射到語音識別空間中;包括:
24、構(gòu)建預訓練適配器,將聲學編碼器、預訓練適配器、語音識別空間和大語言模型依次連接;
25、獲取訓練集中的自動語音識別數(shù)據(jù);
26、聲學編碼器對自動語音識別數(shù)據(jù)進行特征提取,獲取樣本語音特征信息;
27、預訓練適配器對所述樣本語音特征信息進行樣本特征增強,獲取樣本模態(tài)特征信息,映射到語音識別空間;
28、將語音識別空間中的所述樣本模態(tài)特征信息與樣本訓練標識信息拼接,構(gòu)建樣本語音識別信息;
29、大語言模型根據(jù)所述樣本語音識別信息進行識別預測,獲取樣本識別結(jié)果;
30、根據(jù)所述樣本識別結(jié)果與所述自動語音識別數(shù)據(jù)對應(yīng)的樣本標準識別結(jié)果,計算損失函數(shù),優(yōu)化所述預訓練適配器的控制參數(shù)。
31、優(yōu)選的,本發(fā)明提供一種c-adapter適配器的多模型語音識別方法,所述步驟:c-adapter適配器根據(jù)所述語音特征信息進行下采樣和一維卷積處理,獲取低維特征信息,并通過多頭注意力層對所述低維特征信息進行注意力機制調(diào)整,獲取加權(quán)特征信息,進行歸一化處理和特征增強,生成模態(tài)適應(yīng)特征信息映射到語音識別空間中;包括:
32、通過c-adapter適配器中的采樣層對所述語音特征信息進行下采樣處理,獲取語音特征采樣信號;
33、基于一維卷積神經(jīng)網(wǎng)絡(luò),對所述語音特征采樣信號進行特征壓縮,獲取低維特征信息;
34、通過多頭注意力層計算所述低維特征信息中子特征信息的注意力值,并進行加權(quán)計算,獲取加權(quán)特征信息;
35、根據(jù)所述加權(quán)特征信息和語音特征采樣信號進行殘差連接,并通過第一歸一化層進行處理,獲取歸一化特征信息;
36、通過前饋神經(jīng)網(wǎng)絡(luò)模型對所述歸一化特征信息進行全連接變換,獲取增強語音特征信息;
37、根據(jù)所述歸一化特征信息和所述增強語音特征信息進行殘差連接,并通過第二歸一化層進行處理,獲取模態(tài)適應(yīng)特征信息,映射到語音識別空間中。
38、優(yōu)選的,本發(fā)明提供一種c-adapter適配器的多模型語音識別方法,所述步驟:基于一維卷積神經(jīng)網(wǎng)絡(luò),對所述語音特征采樣信號進行特征壓縮,獲取低維特征信息;包括:
39、獲取所述語音特征采樣信號的查詢向量、關(guān)鍵向量和數(shù)值向量;
40、基于一維卷積神經(jīng)網(wǎng)絡(luò),設(shè)置卷積核的大小、步長和填充,來構(gòu)建共享池化層;
41、將所述查詢向量、關(guān)鍵向量和數(shù)值向量輸入到共享池化層進行特征壓縮,獲取低維特征信息,輸入到所述多頭注意力層;
42、
43、其中,l為獲取的低維特征信息的維度,n為根據(jù)所述查詢向量、關(guān)鍵向量和數(shù)值向量構(gòu)建的特征向量矩陣的維度,p表示填充值,f表示卷積核的大小,s表示步長值,為向下取整符號。
44、優(yōu)選的,本發(fā)明提供一種c-adapter適配器的多模型語音識別方法,,所述步驟:設(shè)置語音識別任務(wù)字符,通過文本向量模型將所述語音識別任務(wù)字符映射到語音識別空間,構(gòu)建文本任務(wù)表征信息;包括:
45、所述語音識別任務(wù)字符設(shè)置為“transcript”;
46、基于embedding層搭建文本向量模型,將所述語音識別任務(wù)字符映射到語音識別空間。
47、優(yōu)選的,本發(fā)明提供一種c-adapter適配器的多模型語音識別方法,所述步驟:通過大語言模型對所述語音待識別信息進行識別,獲取語音識別結(jié)果;包括:
48、大語言模型根據(jù)語音待識別信息進行特征向量提取,獲取語音查詢向量和語音鍵值對向量,并將所述語音鍵值對向量緩存到鍵值存儲磁盤中;
49、自解碼層通過自注意力滑動窗口對所述語音查詢向量和語音鍵值對向量進行自注意力值計算,并根據(jù)所述語音待識別信息和獲取的自注意力值進行加權(quán)計算,生成加權(quán)自注意力特征信息,第一深度前饋網(wǎng)絡(luò)進行非線性變換,獲取自解碼特征信息;
50、根據(jù)所述自解碼特征信息,提取解碼查詢向量;通過交叉解碼層中的交叉注意力機制單元根據(jù)所述解碼查詢向量和所述鍵值存儲磁盤中的語音鍵值對向量進行交叉注意力值計算,根據(jù)所述自解碼特征信息和獲取的交叉注意力值進行加權(quán)計算,生成加權(quán)交叉注意力特征信息,第二深度前饋網(wǎng)絡(luò)進行分類預測,獲取語音識別結(jié)果。
51、與傳統(tǒng)技術(shù)相比,本發(fā)明的有益效果在于:一種基于c-adapter適配器的多模型語音識別方法,通過聲學編碼器、c-adapter適配器和大語言模型,實現(xiàn)了對用戶語音的識別,解決了傳統(tǒng)技術(shù)中基于聲學模型進行特征分析來獲取語音識別結(jié)果的缺陷,通過聲學編碼器和c-adapter適配器進行語音特征提取,文本向量模型生成文本任務(wù)表征信息,并在語音識別空間進行模態(tài)融合,生成語音待識別信息基于大語言模型進行處理;上述方法實現(xiàn)了語音識別模型與大語言模型的結(jié)合,并且有效地提高了語音識別的準確率,提升了語音識別的速度,在改進語音識別效率的同時,滿足了語音實時轉(zhuǎn)換文字的要求。
52、本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
53、下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。