本申請(qǐng)涉及語(yǔ)音處理,具體涉及一種語(yǔ)種識(shí)別方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、語(yǔ)種識(shí)別(spoken?language?identification,lid)是指通過(guò)分析處理語(yǔ)音片段來(lái)判別該語(yǔ)音所屬語(yǔ)種的技術(shù)。不同語(yǔ)種中有些語(yǔ)種的相似性較高。例如,粵語(yǔ)和普通話中存在一定相同的元音、輔音和音調(diào)。因此,如何準(zhǔn)確地識(shí)別出語(yǔ)音所屬語(yǔ)種已成為一個(gè)亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例公開一種語(yǔ)種識(shí)別方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于通過(guò)基于相似性最大的語(yǔ)種對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)訓(xùn)練得到的語(yǔ)種識(shí)別模型進(jìn)行語(yǔ)種識(shí)別,可以準(zhǔn)確地識(shí)別出語(yǔ)音所屬語(yǔ)種。
2、第一方面,本申請(qǐng)實(shí)施例公開了一種語(yǔ)種識(shí)別方法,包括:
3、獲取第一語(yǔ)音數(shù)據(jù);
4、使用目標(biāo)語(yǔ)種識(shí)別模型對(duì)所述第一語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)種識(shí)別,得到所述第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,所述目標(biāo)語(yǔ)種識(shí)別模型基于相似性最大的語(yǔ)種對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)訓(xùn)練得到;
5、根據(jù)所述第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,確定所述第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的概率;
6、將所述概率中最大概率對(duì)應(yīng)的語(yǔ)種確定為所述第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)種。
7、第二方面,本申請(qǐng)實(shí)施例公開了一種語(yǔ)種識(shí)別裝置,包括:
8、獲取單元,用于獲取第一語(yǔ)音數(shù)據(jù);
9、識(shí)別單元,用于使用目標(biāo)語(yǔ)種識(shí)別模型對(duì)所述第一語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)種識(shí)別,得到所述第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,所述目標(biāo)語(yǔ)種識(shí)別模型基于相似性最大的語(yǔ)種對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)訓(xùn)練得到;
10、第一確定單元,用于根據(jù)所述第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,確定所述第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的概率;
11、第二確定單元,用于將所述概率中最大概率對(duì)應(yīng)的語(yǔ)種確定為所述第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)種。
12、作為一種可能的實(shí)施方式,所述獲取單元,還用于獲取訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括多個(gè)語(yǔ)音數(shù)據(jù)和所述多個(gè)語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的標(biāo)簽值;
13、所述裝置還包括:
14、第三確定單元,用于使用初始語(yǔ)種識(shí)別模型根據(jù)第二語(yǔ)音數(shù)據(jù),確定所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值以及所述第二語(yǔ)音數(shù)據(jù)的對(duì)抗特征,所述第二語(yǔ)音數(shù)據(jù)為所述多個(gè)語(yǔ)音數(shù)據(jù)中的任一語(yǔ)音數(shù)據(jù);
15、選取單元,用于根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,從所述多個(gè)語(yǔ)音數(shù)據(jù)中選取與所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)語(yǔ)種相似度最大的語(yǔ)種的語(yǔ)音數(shù)據(jù),得到第三語(yǔ)音數(shù)據(jù);
16、第四確定單元,用于使用所述初始語(yǔ)種識(shí)別模型根據(jù)所述第三語(yǔ)音數(shù)據(jù),確定所述第三語(yǔ)音數(shù)據(jù)的對(duì)抗特征;
17、第五確定單元,用于根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值、所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽值、所述第二語(yǔ)音數(shù)據(jù)的對(duì)抗特征以及所述第三語(yǔ)音數(shù)據(jù)的對(duì)抗特征,確定總損失值;
18、優(yōu)化單元,用于根據(jù)所述總損失值優(yōu)化所述初始語(yǔ)種識(shí)別模型的參數(shù),得到所述目標(biāo)語(yǔ)種識(shí)別模型。
19、作為一種可能的實(shí)施方式,所述初始語(yǔ)種識(shí)別模型包括初始共享網(wǎng)絡(luò)、初始語(yǔ)種分類網(wǎng)絡(luò)和初始語(yǔ)種對(duì)抗網(wǎng)絡(luò);
20、所述第三確定單元具體用于:
21、使用所述初始共享網(wǎng)絡(luò)對(duì)第二語(yǔ)音數(shù)據(jù)進(jìn)行特征提取,得到第一特征;
22、使用所述初始語(yǔ)種分類網(wǎng)絡(luò)根據(jù)所述第一特征,確定所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值;
23、使用所述初始語(yǔ)種對(duì)抗網(wǎng)絡(luò)根據(jù)所述第一特征,確定所述第二語(yǔ)音數(shù)據(jù)的對(duì)抗特征;
24、所述第四確定單元具體用于:
25、使用所述初始共享網(wǎng)絡(luò)對(duì)所述第三語(yǔ)音數(shù)據(jù)進(jìn)行特征提取,得到第二特征;
26、使用所述初始語(yǔ)種對(duì)抗網(wǎng)絡(luò)根據(jù)所述第二特征,確定所述第三語(yǔ)音數(shù)據(jù)的對(duì)抗特征。
27、作為一種可能的實(shí)施方式,所述選取單元具體用于:
28、根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值和所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽值,確定與所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)語(yǔ)種相似度最大的語(yǔ)種,得到第一語(yǔ)種;
29、從所述多個(gè)語(yǔ)音數(shù)據(jù)中選取語(yǔ)種為所述第一語(yǔ)種的一個(gè)語(yǔ)音數(shù)據(jù),得到第三語(yǔ)音數(shù)據(jù)。
30、作為一種可能的實(shí)施方式,所述選取單元根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值和所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽值,確定與所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)語(yǔ)種相似度最大的語(yǔ)種,得到第一語(yǔ)種包括:
31、根據(jù)所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽值,確定所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)種,得到第二語(yǔ)種;
32、剔除所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值中所述第二語(yǔ)音數(shù)據(jù)屬于所述第二語(yǔ)種的分類值,得到多個(gè)分類值;
33、將所述多個(gè)分類值中的最大分類值對(duì)應(yīng)的語(yǔ)種確定為第一語(yǔ)種。
34、作為一種可能的實(shí)施方式,所述第五確定單元具體用于:
35、根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值和所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽值,確定分類損失值;
36、根據(jù)所述第二語(yǔ)音數(shù)據(jù)的對(duì)抗特征以及所述第三語(yǔ)音數(shù)據(jù)的對(duì)抗特征,確定對(duì)抗損失值;
37、根據(jù)所述分類損失值和所述對(duì)抗損失值,確定總損失值。
38、作為一種可能的實(shí)施方式,所述目標(biāo)語(yǔ)種識(shí)別模型包括目標(biāo)共享網(wǎng)絡(luò)和目標(biāo)語(yǔ)種分類網(wǎng)絡(luò);
39、所述識(shí)別單元具體用于:
40、使用所述目標(biāo)共享網(wǎng)絡(luò)進(jìn)行特征提取,得到第三特征;
41、使用所述目標(biāo)語(yǔ)種分類網(wǎng)絡(luò)根據(jù)所述第三特征,確定所述第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值。
42、第三方面,本申請(qǐng)實(shí)施例公開了一種電子設(shè)備,包括處理器和存儲(chǔ)器,所述處理器調(diào)用所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序執(zhí)行第一方面公開的方法。
43、第四方面,本申請(qǐng)實(shí)施例公開了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序或計(jì)算機(jī)指令,當(dāng)該計(jì)算機(jī)程序或計(jì)算機(jī)指令被處理器運(yùn)行時(shí),實(shí)現(xiàn)如上述第一方面公開的方法。
44、第五方面,本申請(qǐng)實(shí)施例公開了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序代碼,當(dāng)該計(jì)算機(jī)程序代碼被處理器運(yùn)行時(shí),使得上述方法被執(zhí)行。
45、本申請(qǐng)實(shí)施例中,獲取第一語(yǔ)音數(shù)據(jù),使用基于相似性最大的語(yǔ)種對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)訓(xùn)練得到的目標(biāo)語(yǔ)種識(shí)別模型對(duì)第一語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)種識(shí)別,得到第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,根據(jù)第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,確定第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的概率,將第一語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的概率中最大概率對(duì)應(yīng)的語(yǔ)種確定為第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)種。由于目標(biāo)語(yǔ)種識(shí)別模型基于相似性最大的語(yǔ)種對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)訓(xùn)練得到,可見(jiàn),在進(jìn)行語(yǔ)種識(shí)別模型訓(xùn)練的時(shí)候已經(jīng)考慮了相似性最大的語(yǔ)種對(duì)語(yǔ)種識(shí)別的影響,因此,可以拉開相似性最大的語(yǔ)種之間的區(qū)分度,可以提高目標(biāo)語(yǔ)種識(shí)別模型的識(shí)別精度,從而可以準(zhǔn)確地識(shí)別出語(yǔ)音所屬語(yǔ)種。
1.一種語(yǔ)種識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述初始語(yǔ)種識(shí)別模型包括初始共享網(wǎng)絡(luò)、初始語(yǔ)種分類網(wǎng)絡(luò)和初始語(yǔ)種對(duì)抗網(wǎng)絡(luò);
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值,從所述多個(gè)語(yǔ)音數(shù)據(jù)中選取與所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)語(yǔ)種相似度最大的語(yǔ)種的語(yǔ)音數(shù)據(jù),得到第三語(yǔ)音數(shù)據(jù)包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值和所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽值,確定與所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)語(yǔ)種相似度最大的語(yǔ)種,得到第一語(yǔ)種包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第二語(yǔ)音數(shù)據(jù)屬于不同語(yǔ)種的分類值、所述第二語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽值、所述第二語(yǔ)音數(shù)據(jù)的對(duì)抗特征以及所述第三語(yǔ)音數(shù)據(jù)的對(duì)抗特征,確定總損失值包括:
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述目標(biāo)語(yǔ)種識(shí)別模型包括目標(biāo)共享網(wǎng)絡(luò)和目標(biāo)語(yǔ)種分類網(wǎng)絡(luò);
8.一種語(yǔ)種識(shí)別裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述處理器調(diào)用所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序?qū)崿F(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序或計(jì)算機(jī)指令,當(dāng)所述計(jì)算機(jī)程序或計(jì)算機(jī)指令被處理器運(yùn)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的方法。