語音識(shí)別方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

文檔序號(hào)：39343106發(fā)布日期：2024-09-10 12:03閱讀：66來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識(shí)別方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

所屬的技術(shù)人員能夠理解，本技術(shù)的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此，本技術(shù)的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式，即：完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、微代碼等)，或硬件和軟件方面結(jié)合的實(shí)施方式，這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。示例性電子設(shè)備在介紹了本技術(shù)示例性實(shí)施方式的針對(duì)數(shù)據(jù)倉(cāng)庫取數(shù)接口的開發(fā)方法、介質(zhì)和裝置之后，接下來，參考圖13對(duì)本技術(shù)示例性實(shí)施方式的電子設(shè)備進(jìn)行說明。圖13顯示的電子設(shè)備1300僅僅是一個(gè)示例，不應(yīng)對(duì)本技術(shù)實(shí)施例的功能和適用范圍帶來任何限制。如圖13所示，電子設(shè)備1300以通用電子設(shè)備的形式表現(xiàn)。電子設(shè)備1300的組件可以包括但不限于：至少一個(gè)處理單元1310、至少一個(gè)存儲(chǔ)單元1320、連接不同系統(tǒng)組件(包括存儲(chǔ)單元1320和處理單元1310)的總線1330。其中，存儲(chǔ)單元存儲(chǔ)有程序代碼，程序代碼可以被處理單元1310執(zhí)行，使得處理單元1310執(zhí)行本技術(shù)上述“示例性方法”部分中描述的根據(jù)本技術(shù)各種示例性實(shí)施方式的步驟。在一些實(shí)施例中，處理單元1310可以執(zhí)行上述實(shí)施例。存儲(chǔ)單元1320可以包括易失性存儲(chǔ)單元形式的可讀介質(zhì)，例如隨機(jī)存取存儲(chǔ)單元(ram)1321和/或高速緩存存儲(chǔ)單元1322，還可以進(jìn)一步包括只讀存儲(chǔ)單元(rom)1323。存儲(chǔ)單元1320還可以包括具有一組(至少一個(gè))程序模塊1325的程序/實(shí)用工具1324，這樣的程序模塊1325包括但不限于：操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù)，這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。總線1330可以包括數(shù)據(jù)總線、地址總線和控制總線。電子設(shè)備1300也可以與一個(gè)或多個(gè)外部設(shè)備1340(例如鍵盤、指向設(shè)備、藍(lán)牙設(shè)備等)通信，這種通信可以通過輸入/輸出(i/o)接口1350進(jìn)行。并且，電子設(shè)備1300還可以通過網(wǎng)絡(luò)適配器1360與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan)，廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò)，例如因特網(wǎng))通信。如圖13所示，網(wǎng)絡(luò)適配器1360通過總線1330與電子設(shè)備1300的其它模塊通信。應(yīng)當(dāng)明白，盡管圖中未示出，可以結(jié)合電子設(shè)備1300使用其它硬件和/或軟件模塊，包括但不限于：微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。通過以上的實(shí)施方式的描述，本領(lǐng)域的技術(shù)人員易于理解，這里描述的示例實(shí)施方式可以通過軟件實(shí)現(xiàn)，也可以通過軟件結(jié)合必要的硬件的方式來實(shí)現(xiàn)。因此，根據(jù)本技術(shù)實(shí)施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來，該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易失性存儲(chǔ)介質(zhì)(可以是cd-rom，u盤，移動(dòng)硬盤等)中或網(wǎng)絡(luò)上，包括若干指令以使得一臺(tái)電子設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、終端裝置、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本技術(shù)實(shí)施例的方法。應(yīng)當(dāng)注意，盡管在上文詳細(xì)描述中提及了針對(duì)數(shù)據(jù)倉(cāng)庫取數(shù)接口的開發(fā)裝置的若干單元/模塊或子單元/模塊，但是這種劃分僅僅是示例性的并非強(qiáng)制性的。實(shí)際上，根據(jù)本技術(shù)實(shí)施例，上文描述的兩個(gè)或更多單元/模塊的特征和功能可以在一個(gè)單元/模塊中具體化。反之，上文描述的一個(gè)單元/模塊的特征和功能可以進(jìn)一步劃分為由多個(gè)單元/模塊來具體化。此外，盡管在附圖中以特定順序描述了本技術(shù)方法的操作，但是，這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作，或是必須執(zhí)行全部所示的操作才能實(shí)現(xiàn)期望的結(jié)果。附加地或備選地，可以省略某些步驟，將多個(gè)步驟合并為一個(gè)步驟執(zhí)行，和/或?qū)⒁粋€(gè)步驟分解為多個(gè)步驟執(zhí)行。雖然已經(jīng)參考若干具體實(shí)施方式描述了本技術(shù)的精神和原理，但是應(yīng)該理解，本技術(shù)并不限于所公開的具體實(shí)施方式，對(duì)各方面的劃分也不意味著這些方面中的特征不能組合以進(jìn)行受益，這種劃分僅是為了表述的方便。本技術(shù)旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)可讀代碼，或者承載有計(jì)算機(jī)可讀代碼的非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，當(dāng)計(jì)算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時(shí)，電子設(shè)備中的處理器上述任意實(shí)施方式的方法。

背景技術(shù)：

1、本部分旨在為權(quán)利要求書中陳述的本技術(shù)的實(shí)施方式提供背景或上下文。此處的描述不因?yàn)榘ㄔ诒静糠种芯统姓J(rèn)是現(xiàn)有技術(shù)。

2、在語音識(shí)別場(chǎng)景中，服務(wù)端通常在接收到客戶端發(fā)送的語音數(shù)據(jù)時(shí)，實(shí)時(shí)將接收的語音數(shù)據(jù)進(jìn)行語音識(shí)別，獲得語音識(shí)別結(jié)果。但是，采用這種方式進(jìn)行語音識(shí)別時(shí)，圖形處理器(graphics?processing?unit，gpu)的利用率以及語音識(shí)別速率較低。

技術(shù)實(shí)現(xiàn)思路

1、相關(guān)技術(shù)在語音識(shí)別時(shí)gpu利用率以及語音識(shí)別速率較低。為此，在本上下文中，本技術(shù)的實(shí)施方式期望提供一種語音識(shí)別方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。

2、一方面，本技術(shù)實(shí)施例中提供了一種語音識(shí)別方法，包括：

3、確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí)，緩存接收的音頻數(shù)據(jù)；

4、統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度；

5、若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度，則基于預(yù)先訓(xùn)練好的語音識(shí)別模型，對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別，獲得至少一個(gè)語音識(shí)別結(jié)果；

6、將至少一個(gè)語音識(shí)別結(jié)果，分別返回相應(yīng)的客戶端。

7、一種實(shí)施方式中，確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí)，緩存接收的音頻數(shù)據(jù)，包括：

8、通過第一線程，執(zhí)行以下步驟：

9、確定監(jiān)聽到客戶端發(fā)送的音頻數(shù)據(jù)時(shí)，對(duì)音頻數(shù)據(jù)進(jìn)行脈沖編碼調(diào)制編碼，獲得編碼后的音頻數(shù)據(jù)；

10、將編碼后的音頻數(shù)據(jù)，緩存至輸入隊(duì)列。

11、一種實(shí)施方式中，統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度，包括：

12、通過第二線程，執(zhí)行以下步驟：

13、對(duì)輸入隊(duì)列進(jìn)行監(jiān)聽；

14、確定監(jiān)聽到輸入隊(duì)列中添加新的音頻數(shù)據(jù)時(shí)，統(tǒng)計(jì)輸入隊(duì)列中的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度。

15、一種實(shí)施方式中，若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度，則基于預(yù)先訓(xùn)練好的語音識(shí)別模型，對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別，獲得至少一個(gè)語音識(shí)別結(jié)果，包括：

16、通過第二線程，執(zhí)行以下步驟：

17、若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度，則從輸入隊(duì)列中取出緩存的音頻數(shù)據(jù)；

18、從至少一個(gè)音頻數(shù)據(jù)中，篩選出包含語音片段的音頻數(shù)據(jù)；

19、采用批處理的方式，對(duì)篩選出的至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行預(yù)處理，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)以及掩碼矩陣；

20、將至少一個(gè)語音填充數(shù)據(jù)及其對(duì)應(yīng)的掩碼矩陣輸入語音識(shí)別模型，獲得至少一個(gè)語音識(shí)別結(jié)果。

21、一種實(shí)施方式中，對(duì)篩選出的至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行預(yù)處理，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)以及掩碼矩陣，包括：

22、分別針對(duì)每一音頻數(shù)據(jù)，執(zhí)行以下步驟：

23、對(duì)音頻數(shù)據(jù)進(jìn)行特征提取，獲得語音提取特征；

24、將語音提取特征，進(jìn)行數(shù)據(jù)填充，獲得音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)；

25、根據(jù)語音填充數(shù)據(jù)中分別包含的填充數(shù)據(jù)，生成音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣。

26、一種實(shí)施方式中，從至少一個(gè)音頻數(shù)據(jù)中，篩選出包含語音片段的音頻數(shù)據(jù)，包括：

27、對(duì)至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行語音活性檢測(cè)；語音活性檢測(cè)用于識(shí)別音頻數(shù)據(jù)是否為包含語音片段；

28、從至少一個(gè)音頻數(shù)據(jù)中，篩選出語音活性檢測(cè)結(jié)果為包含語音片段的音頻數(shù)據(jù)。

29、一種實(shí)施方式中，在將至少一個(gè)語音識(shí)別結(jié)果，分別返回相應(yīng)的客戶端之前，方法還包括：

30、根據(jù)語音活性檢測(cè)結(jié)果，將未包含語音片段的音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果，設(shè)置為指定識(shí)別結(jié)果。

31、一種實(shí)施方式中，語音識(shí)別模型包括聲學(xué)引擎、解碼器以及標(biāo)點(diǎn)模型；

32、將至少一個(gè)語音填充數(shù)據(jù)及其對(duì)應(yīng)的掩碼矩陣輸入語音識(shí)別模型，獲得至少一個(gè)語音識(shí)別結(jié)果，包括：

33、將至少一個(gè)語音填充數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣，輸入聲學(xué)引擎，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果；注意力分布結(jié)果用于表示音頻數(shù)據(jù)對(duì)應(yīng)的字符概率分布；

34、根據(jù)解碼器，對(duì)至少一個(gè)注意力分布結(jié)果分別進(jìn)行解碼，分別獲得每一注意力分布結(jié)果對(duì)應(yīng)的初始識(shí)別文本；

35、將至少一個(gè)初始識(shí)別文本，輸入標(biāo)點(diǎn)模型，分別獲得每一初始識(shí)別文本對(duì)應(yīng)的語音識(shí)別結(jié)果；語音識(shí)別結(jié)果用于表示相應(yīng)音頻數(shù)據(jù)對(duì)應(yīng)的包含標(biāo)點(diǎn)符號(hào)的文本。

36、一種實(shí)施方式中，將至少一個(gè)語音填充數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣，輸入聲學(xué)引擎，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果，包括：

37、對(duì)至少一個(gè)語音填充數(shù)據(jù)進(jìn)行下采樣，分別獲得每一語音填充數(shù)據(jù)的下采樣數(shù)據(jù)；

38、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣，進(jìn)行拼接處理，獲得二維輸入特征矩陣；

39、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣，分別確定每一音頻數(shù)據(jù)對(duì)應(yīng)的語音長(zhǎng)度；

40、根據(jù)至少一個(gè)語音長(zhǎng)度，生成長(zhǎng)度矩陣；

41、采用分類函數(shù)，根據(jù)二維輸入特征矩陣以及長(zhǎng)度矩陣，進(jìn)行注意力分布計(jì)算，獲得至少一個(gè)注意力分布結(jié)果。

42、一種實(shí)施方式中，采用分類函數(shù)，根據(jù)二維輸入特征矩陣以及長(zhǎng)度矩陣，進(jìn)行注意力分布計(jì)算，獲得至少一個(gè)注意力分布結(jié)果，包括：

43、根據(jù)長(zhǎng)度矩陣，將二維輸入特征矩陣中的各元素進(jìn)行劃分，獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的向量集合；

44、分別針對(duì)每一音頻數(shù)據(jù)的向量集合，執(zhí)行以下步驟：

45、確定向量集合中各元素的最大元素值；

46、采用分類函數(shù)，根據(jù)向量集合中各元素的元素值，以及最大元素值，分別確定每一元素對(duì)應(yīng)的字符分布值；

47、根據(jù)確定出的至少一個(gè)字符分布值，組成音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果。

48、一種實(shí)施方式中，根據(jù)解碼器，對(duì)至少一個(gè)注意力分布結(jié)果分別進(jìn)行解碼，分別獲得每一注意力分布結(jié)果對(duì)應(yīng)的初始識(shí)別文本，包括：

49、對(duì)至少一個(gè)音頻數(shù)據(jù)的注意力分布結(jié)果進(jìn)行填充，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布填充數(shù)據(jù)；

50、對(duì)至少一個(gè)注意力分布填充數(shù)據(jù)進(jìn)行解碼處理，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的解碼數(shù)據(jù)；

51、根據(jù)至少一個(gè)音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣，分別對(duì)每一解碼數(shù)據(jù)進(jìn)行反填充處理，獲得至少一個(gè)初始識(shí)別文本。

52、一種實(shí)施方式中，將至少一個(gè)初始識(shí)別文本，輸入標(biāo)點(diǎn)模型，分別獲得每一初始識(shí)別文本對(duì)應(yīng)的語音識(shí)別結(jié)果，包括：

53、采用分類函數(shù)，對(duì)至少一個(gè)初始識(shí)別文本進(jìn)行注意力分布計(jì)算，獲得語義分布結(jié)果；

54、根據(jù)至少一個(gè)初始識(shí)別文本分別對(duì)應(yīng)的語義分布結(jié)果，對(duì)至少一個(gè)初始識(shí)別文本分別添加標(biāo)點(diǎn)符號(hào)，獲得至少一個(gè)語音識(shí)別結(jié)果。

55、一種實(shí)施方式中，將至少一個(gè)語音識(shí)別結(jié)果，分別返回相應(yīng)的客戶端，包括：

56、通過第二線程，執(zhí)行以下步驟：

57、確定獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的語音識(shí)別結(jié)果時(shí)，將至少一個(gè)語音識(shí)別結(jié)果發(fā)送至輸出隊(duì)列；

58、監(jiān)聽到輸出隊(duì)列中存在語音識(shí)別結(jié)果時(shí)，將輸出隊(duì)列中的語音識(shí)別結(jié)果，分別發(fā)送至相應(yīng)的客戶端。

59、一方面，本技術(shù)實(shí)施例中提供了一種語音識(shí)別裝置，包括：

60、緩存單元，用于確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí)，緩存接收的音頻數(shù)據(jù)；

61、統(tǒng)計(jì)單元，用于統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度；

62、識(shí)別單元，用于若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度，則基于預(yù)先訓(xùn)練好的語音識(shí)別模型，對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別，獲得至少一個(gè)語音識(shí)別結(jié)果；

63、返回單元，用于將至少一個(gè)語音識(shí)別結(jié)果，分別返回相應(yīng)的客戶端。

64、一種實(shí)施方式中，緩存單元用于：

65、通過第一線程，執(zhí)行以下步驟：

66、確定監(jiān)聽到客戶端發(fā)送的音頻數(shù)據(jù)時(shí)，對(duì)音頻數(shù)據(jù)進(jìn)行脈沖編碼調(diào)制編碼，獲得編碼后的音頻數(shù)據(jù)；

67、將編碼后的音頻數(shù)據(jù)，緩存至輸入隊(duì)列。

68、一種實(shí)施方式中，統(tǒng)計(jì)單元用于：

69、通過第二線程，執(zhí)行以下步驟：

70、對(duì)輸入隊(duì)列進(jìn)行監(jiān)聽；

71、確定監(jiān)聽到輸入隊(duì)列中添加新的音頻數(shù)據(jù)時(shí)，統(tǒng)計(jì)輸入隊(duì)列中的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度。

72、一種實(shí)施方式中，識(shí)別單元用于：

73、通過第二線程，執(zhí)行以下步驟：

74、若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度，則從輸入隊(duì)列中取出緩存的音頻數(shù)據(jù)；

75、從至少一個(gè)音頻數(shù)據(jù)中，篩選出包含語音片段的音頻數(shù)據(jù)；

76、采用批處理的方式，對(duì)篩選出的至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行預(yù)處理，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)以及掩碼矩陣；

77、將至少一個(gè)語音填充數(shù)據(jù)及其對(duì)應(yīng)的掩碼矩陣輸入語音識(shí)別模型，獲得至少一個(gè)語音識(shí)別結(jié)果。

78、一種實(shí)施方式中，識(shí)別單元用于：

79、分別針對(duì)每一音頻數(shù)據(jù)，執(zhí)行以下步驟：

80、對(duì)音頻數(shù)據(jù)進(jìn)行特征提取，獲得語音提取特征；

81、將語音提取特征，進(jìn)行數(shù)據(jù)填充，獲得音頻數(shù)據(jù)對(duì)應(yīng)的語音填充數(shù)據(jù)；

82、根據(jù)語音填充數(shù)據(jù)中分別包含的填充數(shù)據(jù)，生成音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣。

83、一種實(shí)施方式中，識(shí)別單元用于：

84、對(duì)至少一個(gè)音頻數(shù)據(jù)分別進(jìn)行語音活性檢測(cè)；語音活性檢測(cè)用于識(shí)別音頻數(shù)據(jù)是否為包含語音片段；

85、從至少一個(gè)音頻數(shù)據(jù)中，篩選出語音活性檢測(cè)結(jié)果為包含語音片段的音頻數(shù)據(jù)。

86、一種實(shí)施方式中，返回單元還用于：

87、根據(jù)語音活性檢測(cè)結(jié)果，將未包含語音片段的音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果，設(shè)置為指定識(shí)別結(jié)果。

88、一種實(shí)施方式中，語音識(shí)別模型包括聲學(xué)引擎、解碼器以及標(biāo)點(diǎn)模型；

89、一種實(shí)施方式中，語音識(shí)別模型包括聲學(xué)引擎、解碼器以及標(biāo)點(diǎn)模型；

90、識(shí)別單元用于：

91、將至少一個(gè)語音填充數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣，輸入聲學(xué)引擎，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果；注意力分布結(jié)果用于表示音頻數(shù)據(jù)對(duì)應(yīng)的字符概率分布；

92、根據(jù)解碼器，對(duì)至少一個(gè)注意力分布結(jié)果分別進(jìn)行解碼，分別獲得每一注意力分布結(jié)果對(duì)應(yīng)的初始識(shí)別文本；

93、將至少一個(gè)初始識(shí)別文本，輸入標(biāo)點(diǎn)模型，分別獲得每一初始識(shí)別文本對(duì)應(yīng)的語音識(shí)別結(jié)果；語音識(shí)別結(jié)果用于表示相應(yīng)音頻數(shù)據(jù)對(duì)應(yīng)的包含標(biāo)點(diǎn)符號(hào)的文本。

94、一種實(shí)施方式中，識(shí)別單元用于：

95、對(duì)至少一個(gè)語音填充數(shù)據(jù)進(jìn)行下采樣，分別獲得每一語音填充數(shù)據(jù)的下采樣數(shù)據(jù)；

96、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣，進(jìn)行拼接處理，獲得二維輸入特征矩陣；

97、根據(jù)至少一個(gè)下采樣數(shù)據(jù)及其分別對(duì)應(yīng)的掩碼矩陣，分別確定每一音頻數(shù)據(jù)對(duì)應(yīng)的語音長(zhǎng)度；

98、根據(jù)至少一個(gè)語音長(zhǎng)度，生成長(zhǎng)度矩陣；

99、采用分類函數(shù)，根據(jù)二維輸入特征矩陣以及長(zhǎng)度矩陣，進(jìn)行注意力分布計(jì)算，獲得至少一個(gè)注意力分布結(jié)果。

100、一種實(shí)施方式中，識(shí)別單元用于：

101、根據(jù)長(zhǎng)度矩陣，將二維輸入特征矩陣中的各元素進(jìn)行劃分，獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的向量集合；

102、分別針對(duì)每一音頻數(shù)據(jù)的向量集合，執(zhí)行以下步驟：

103、確定向量集合中各元素的最大元素值；

104、采用分類函數(shù)，根據(jù)向量集合中各元素的元素值，以及最大元素值，分別確定每一元素對(duì)應(yīng)的字符分布值；

105、根據(jù)確定出的至少一個(gè)字符分布值，組成音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布結(jié)果。

106、一種實(shí)施方式中，識(shí)別單元用于：

107、對(duì)至少一個(gè)音頻數(shù)據(jù)的注意力分布結(jié)果進(jìn)行填充，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的注意力分布填充數(shù)據(jù)；

108、對(duì)至少一個(gè)注意力分布填充數(shù)據(jù)進(jìn)行解碼處理，分別獲得每一音頻數(shù)據(jù)對(duì)應(yīng)的解碼數(shù)據(jù)；

109、根據(jù)至少一個(gè)音頻數(shù)據(jù)對(duì)應(yīng)的掩碼矩陣，分別對(duì)每一解碼數(shù)據(jù)進(jìn)行反填充處理，獲得至少一個(gè)初始識(shí)別文本。

110、一種實(shí)施方式中，識(shí)別單元用于：

111、采用分類函數(shù)，對(duì)至少一個(gè)初始識(shí)別文本進(jìn)行注意力分布計(jì)算，獲得語義分布結(jié)果；

112、根據(jù)至少一個(gè)初始識(shí)別文本分別對(duì)應(yīng)的語義分布結(jié)果，對(duì)至少一個(gè)初始識(shí)別文本分別添加標(biāo)點(diǎn)符號(hào)，獲得至少一個(gè)語音識(shí)別結(jié)果。

113、一種實(shí)施方式中，返回單元用于：

114、通過第二線程，執(zhí)行以下步驟：

115、確定獲得至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的語音識(shí)別結(jié)果時(shí)，將至少一個(gè)語音識(shí)別結(jié)果發(fā)送至輸出隊(duì)列；

116、監(jiān)聽到輸出隊(duì)列中存在語音識(shí)別結(jié)果時(shí)，將輸出隊(duì)列中的語音識(shí)別結(jié)果，分別發(fā)送至相應(yīng)的客戶端。

117、一方面，本技術(shù)實(shí)施例中提供了一種電子設(shè)備，包括：

118、處理器；以及

119、存儲(chǔ)器，存儲(chǔ)有計(jì)算機(jī)指令，計(jì)算機(jī)指令用于使處理器執(zhí)行如上述任一種語音識(shí)別的各種可選實(shí)現(xiàn)方式中提供的方法的步驟。

120、一方面，本技術(shù)實(shí)施例中提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)指令，計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行如上述任一種語音識(shí)別的各種可選實(shí)現(xiàn)方式中提供的方法的步驟。

121、一方面，本技術(shù)實(shí)施例中提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)可讀代碼，或者承載有計(jì)算機(jī)可讀代碼的非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，當(dāng)計(jì)算機(jī)可讀代碼在電子設(shè)備的處理器中運(yùn)行時(shí)，電子設(shè)備中的處理器執(zhí)行如上述任一種語音識(shí)別的各種可選實(shí)現(xiàn)方式中提供的方法的步驟。

122、根據(jù)本技術(shù)實(shí)施例的方案，確定接收到客戶端發(fā)送的音頻數(shù)據(jù)時(shí)，緩存接收的音頻數(shù)據(jù)；統(tǒng)計(jì)當(dāng)前緩存的至少一個(gè)音頻數(shù)據(jù)分別對(duì)應(yīng)的數(shù)據(jù)長(zhǎng)度的總長(zhǎng)度；若總長(zhǎng)度達(dá)到設(shè)定音頻長(zhǎng)度，則基于預(yù)先訓(xùn)練好的語音識(shí)別模型，對(duì)至少一個(gè)音頻數(shù)據(jù)進(jìn)行語音識(shí)別，獲得至少一個(gè)語音識(shí)別結(jié)果；將至少一個(gè)語音識(shí)別結(jié)果，分別返回相應(yīng)的客戶端。這樣，將按照設(shè)定音頻長(zhǎng)度，對(duì)客戶端的各音頻數(shù)據(jù)進(jìn)行批處理并行運(yùn)算，提高了gpu的利用率以及語音識(shí)別速率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳敏,杜彬彬,張瀠心
技術(shù)所有人：杭州網(wǎng)易智企科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音識(shí)別方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

語音識(shí)別方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程