本申請涉及人工智能,尤其涉及一種語音活性檢測方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、語音活性檢測(voiceactivity?detection,vad)系統(tǒng)用于對輸入語音信號進(jìn)行活性語音幀和非活性語音幀的判斷,其判斷出的活性語音幀將被送入后續(xù)的語音處理步驟。語音活性檢測系統(tǒng)是眾多語音相關(guān)應(yīng)用,如,語音喚醒、語音增強(qiáng)、語音編碼、語音識別、說話人識別中至關(guān)重要的前置步驟,這些應(yīng)用在很多場景當(dāng)中對實(shí)時性要求很高,如視頻會議場景。因此,語音活性檢測系統(tǒng)就需要盡可能快地將活性語音幀送給后續(xù)語音處理步驟。
2、因此,如何提高語音活性檢測準(zhǔn)確度,成為本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供了一種語音活性檢測方法、裝置、設(shè)備及介質(zhì),用于準(zhǔn)確有效地進(jìn)行語音幀的活性檢測。
2、第一方面,本申請實(shí)施例提供了一種語音活性檢測方法,所述方法包括:
3、根據(jù)待檢測語音信號的第一語音幀和至少一個第二語音幀,確定所述第一語音幀是否為活性語音幀;
4、其中,所述第一語音幀與所述第二語音幀的接收時間差小于或等于預(yù)設(shè)時長,所述第一語音幀與所述第二語音幀的相似度大于或等于目標(biāo)閾值。
5、第二方面,本申請實(shí)施例還提供了一種語音活性檢測裝置,所述裝置包括:
6、獲取模塊,用于獲取待檢測語音信號的第一語音幀和至少一個第二語音幀,其中,所述第一語音幀與所述第二語音幀的接收時間差小于或等于預(yù)設(shè)時長,所述第一語音幀與所述第二語音幀的相似度大于或等于目標(biāo)閾值;
7、處理模塊,用于根據(jù)待檢測語音信號的第一語音幀和至少一個第二語音幀,確定所述第一語音幀是否為活性語音幀。
8、第三方面,本申請實(shí)施例還提供了一種電子設(shè)備,所述電子設(shè)備至少包括處理器和存儲器,所述處理器用于執(zhí)行存儲器中存儲的計(jì)算機(jī)程序時實(shí)現(xiàn)上述任一項(xiàng)所述的語音活性檢測方法的步驟。
9、第四方面,本申請實(shí)施例還提供了一種計(jì)算機(jī)存儲介質(zhì),其存儲有可由電子設(shè)備執(zhí)行的計(jì)算機(jī)程序,當(dāng)所述程序在所述電子設(shè)備上運(yùn)行時,使得所述電子設(shè)備執(zhí)行上述任一項(xiàng)所述的語音活性檢測方法的步驟。
10、第五方面,本申請實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品被存儲在存儲介質(zhì)中,所述計(jì)算機(jī)程序產(chǎn)品被至少一個處理器執(zhí)行時實(shí)現(xiàn)上述的語音活性檢測方法的步驟。
11、可以看出,在本申請實(shí)施例中,在確定待檢測語音信號中的第一語音幀是否為活性語音幀時,除了考慮該第一語音幀自身,還考慮了待檢測語音信號中與第一語音幀接收時間比較接近且比較相似的至少一個第二語音幀,由于接收時間接近且比較相似的多個語音幀之間通常屬性相同,即通常均為活性語音幀,或者均為非活性語音幀,因此在確定該第一語音幀是否為活性語音幀時,還考慮至少一個第二語音幀,可以提高語音活性檢測的準(zhǔn)確性。
1.一種語音活性檢測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)待檢測語音信號的第一語音幀和至少一個第二語音幀,確定所述第一語音幀是否為活性語音幀,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定所述第一語音幀的第一評價值和每個所述第二語音幀的第二評價值,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一變換結(jié)果包括查詢向量和第一鍵向量;所述根據(jù)所述第一變換結(jié)果確定所述第一語音幀的第一評價值,包括:根據(jù)所述查詢向量和所述第一鍵向量,確定所述第一語音幀的第一評價值。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二變換結(jié)果包括第二鍵向量;針對每個所述第二語音幀,確定每個所述第二語音幀的第二評價值,包括:根據(jù)所述查詢向量與所述第二鍵向量,確定所述第二語音幀的第二評價值。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,確定所述第一語音幀的第一特征向量,包括:根據(jù)所述第一語音幀的值向量和所述第一評價值,確定所述第一語音幀的第一特征向量。
8.根據(jù)權(quán)利要求4所述的方法,其特征在于,針對每個所述第二語音幀,確定所述第二語音幀的第二特征向量,包括:根據(jù)所述第二語音幀的值向量和所述第二評價值,確定所述第二語音幀的第二特征向量。
9.一種語音活性檢測裝置,其特征在于,所述裝置包括:
10.一種電子設(shè)備,其特征在于,所述電子設(shè)備至少包括處理器和存儲器,所述處理器用于執(zhí)行存儲器中存儲的計(jì)算機(jī)程序時實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的語音活性檢測方法的步驟。
11.一種計(jì)算機(jī)存儲介質(zhì),其特征在于,其存儲有可由電子設(shè)備執(zhí)行的計(jì)算機(jī)程序,當(dāng)所述程序在所述電子設(shè)備上運(yùn)行時,使得所述電子設(shè)備執(zhí)行權(quán)利要求1-8任一項(xiàng)所述的語音活性檢測方法的步驟。
12.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品被存儲在存儲介質(zhì)中,所述計(jì)算機(jī)程序產(chǎn)品被至少一個處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音活性檢測方法的步驟。