L散度(KuUback-Leibler divergence)或者其他量度的方法來(lái)求解,反向HMM 的序列J = [jl,j2,…,jn]可W用動(dòng)態(tài)規(guī)劃來(lái)求解。
[0047] 步驟S403,用Viterbi算法將輸入語(yǔ)音和喚醒詞的反向HMM強(qiáng)制對(duì)齊,確定每一帖 中喚醒詞的反向HMM的每個(gè)狀態(tài)的對(duì)數(shù)似然值;W及
[0048] 步驟S404,根據(jù)每一帖中喚醒詞的反向HMM的每個(gè)狀態(tài)的對(duì)數(shù)似然值來(lái)確定輸入 語(yǔ)音與喚醒詞匹配的最優(yōu)路徑的分?jǐn)?shù)。
[0049] 由此,在該第S算法中,通過(guò)將喚醒詞的正向HMM的狀態(tài)按照序列S'重新排序來(lái) 構(gòu)建喚醒詞的反向HMM,在該喚醒詞的反向HMM的基礎(chǔ)上得到輸入語(yǔ)音與喚醒詞匹配的最 優(yōu)路徑的分?jǐn)?shù)。
[0050] 與第二算法相似地,可W通過(guò)對(duì)第=算法中喚醒詞的反向HMM的每個(gè)狀態(tài)進(jìn)行打 分來(lái)生成第四算法。圖5是本發(fā)明的實(shí)施方式提供的第四算法的步驟。如圖5所示,該第 四算法可W按照W下步驟執(zhí)行:
[0化1] 第S算法中的步驟S201-步驟S403。
[0化2] 步驟S504,將每一帖中喚醒詞的反向HMM的全部狀態(tài)的對(duì)數(shù)似然值按照大小順序 排成一序列,將每個(gè)狀態(tài)在該序列中的位置作為該狀態(tài)的分?jǐn)?shù)。
[0化3] 步驟S505,根據(jù)每一帖中喚醒詞的反向HMM的每個(gè)狀態(tài)的分?jǐn)?shù)來(lái)確定輸入語(yǔ)音與 喚醒詞匹配的最優(yōu)路徑的分?jǐn)?shù)。
[0054] W上構(gòu)建的喚醒詞的反向HMM是與喚醒詞的常規(guī)HMM(本發(fā)明中的正向HMM)具有 最大反差的模型。該喚醒詞的反向HMM具有該樣的特點(diǎn);當(dāng)輸入語(yǔ)音不是喚醒詞時(shí),用正向 HMM(第一算法或第二算法)和反向HMM(第=算法或第四算法)分別確定的最優(yōu)路徑的分 數(shù)的差異較小,而輸入語(yǔ)音為喚醒詞時(shí),該差異較大。利用該特點(diǎn),在本發(fā)明提供的喚醒詞 匹配方法中,對(duì)于上述提供的多種算法,可W在第一算法和第二算法中至少選擇其中之一 者,再在剩余算法中選擇一者或多者,將由所選算法得到的分?jǐn)?shù)輸入一分類(lèi)器,再根據(jù)該分 類(lèi)器的輸出來(lái)判斷輸入語(yǔ)音是否與喚醒詞匹配。本發(fā)明通過(guò)多種算法融合的判別方法,提 高了喚醒詞匹配的準(zhǔn)確率。
[0化5] 本發(fā)明還提供一種喚醒詞匹配裝置。該喚醒詞匹配裝置可W包括:
[0化6] 用于使用兩種或兩種W上算法分別對(duì)輸入語(yǔ)音與喚醒詞的匹配進(jìn)行打分,得到輸 入語(yǔ)音與喚醒詞匹配的對(duì)應(yīng)的分?jǐn)?shù)的打分裝置;W及
[0化7] 分類(lèi)器,用于根據(jù)由每種算法得到的分?jǐn)?shù)來(lái)判斷輸入語(yǔ)音是否與喚醒詞匹配。
[0化引同樣地,本發(fā)明提供的喚醒詞匹配裝置可W通過(guò)上述四種算法的組合方式進(jìn)行組 合來(lái)判斷輸入語(yǔ)音是否與喚醒詞匹配。
[0化9] 本發(fā)明還提供一種語(yǔ)音喚醒方法。圖6是本發(fā)明的實(shí)施方式提供的語(yǔ)音喚醒方法 的步驟。如圖6所示,該語(yǔ)音喚醒方法可W包括:
[0060] 步驟S601,采集輸入語(yǔ)音信號(hào)。例如,可W用麥克風(fēng)接收聲波,再通過(guò)模數(shù)轉(zhuǎn)換和 數(shù)字信號(hào)處理,將接收的聲波轉(zhuǎn)換成語(yǔ)音的數(shù)字信號(hào)。
[0061] 步驟S602,對(duì)輸入語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。
[0062] 步驟S603,用上述喚醒詞匹配方法來(lái)判斷輸入語(yǔ)音信號(hào)與喚醒詞是否匹配。
[0063] 步驟S604,在輸入語(yǔ)音信號(hào)與喚醒詞判斷為匹配的情況下,進(jìn)行喚醒。
[0064] 步驟S605,在輸入語(yǔ)音信號(hào)與喚醒詞判斷為不匹配的情況下,不進(jìn)行喚醒。
[00化]本發(fā)明提供的語(yǔ)音喚醒方法中,應(yīng)用上述語(yǔ)音喚醒方法,對(duì)喚醒詞的匹配準(zhǔn)確率 較高。
[0066] 本發(fā)明還提供一種語(yǔ)音喚醒裝置。圖7是本發(fā)明的實(shí)施方式提供的語(yǔ)音喚醒裝置 的結(jié)構(gòu)框圖。如圖7所示,該語(yǔ)音喚醒裝置700可W包括采集裝置701、語(yǔ)音端點(diǎn)檢測(cè)裝置 702、上述喚醒詞匹配裝置703和執(zhí)行裝置704。其中,采集裝置701可W用于采集輸入語(yǔ)音 信號(hào),并將輸入語(yǔ)音信號(hào)傳輸?shù)秸Z(yǔ)音端點(diǎn)檢測(cè)裝置702。語(yǔ)音端點(diǎn)檢測(cè)裝置702可W與采集 裝置701連接,用于對(duì)輸入語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。喚醒詞匹配裝置703可W用于從語(yǔ)音 端點(diǎn)檢測(cè)裝置702接收端點(diǎn)檢測(cè)后的輸入語(yǔ)音信號(hào),判斷端點(diǎn)檢測(cè)后的輸入語(yǔ)音信號(hào)是否 與喚醒詞匹配,并將判斷結(jié)果傳輸?shù)綀?zhí)行裝置704。執(zhí)行裝置704在端點(diǎn)檢測(cè)后的輸入語(yǔ)音 信號(hào)與喚醒詞判斷為匹配的情況下,進(jìn)行喚醒,并在端點(diǎn)檢測(cè)后的輸入語(yǔ)音信號(hào)與所述喚 醒詞判斷為不匹配的情況下,不進(jìn)行喚醒。
[0067] 通過(guò)上述技術(shù)方案,使用兩種或兩種W上算法分別對(duì)輸入語(yǔ)音和喚醒詞的匹配進(jìn) 行打分,得到對(duì)應(yīng)的分?jǐn)?shù),并將得到的分?jǐn)?shù)通過(guò)分類(lèi)器輸出匹配結(jié)果。在本發(fā)明的優(yōu)選實(shí)施 方式中,構(gòu)建了=種新的算法來(lái)對(duì)輸入語(yǔ)音與喚醒詞的匹配進(jìn)行打分。本發(fā)明提供的喚醒 詞匹配方法通過(guò)多種算法融合的判別方法來(lái)判斷輸入語(yǔ)音是否與喚醒詞匹配,提高了喚醒 詞匹配的準(zhǔn)確率。另外,在本發(fā)明的優(yōu)選實(shí)施方式中,從經(jīng)過(guò)訓(xùn)練的通用聲學(xué)模型中提取基 本聲學(xué)單元的HMM,按照喚醒詞中的順序拼接成喚醒詞的正向HMM。因此,不需要通過(guò)對(duì)喚 醒詞進(jìn)行錄音來(lái)訓(xùn)練喚醒詞模型,從而使得喚醒詞的定制比較簡(jiǎn)單。
[0068] W上結(jié)合附圖詳細(xì)描述了本發(fā)明的優(yōu)選實(shí)施方式,但是,本發(fā)明并不限于上述實(shí) 施方式中的具體細(xì)節(jié),在本發(fā)明的技術(shù)構(gòu)思范圍內(nèi),可W對(duì)本發(fā)明的技術(shù)方案進(jìn)行多種簡(jiǎn) 單變型,該些簡(jiǎn)單變型均屬于本發(fā)明的保護(hù)范圍。
[0069] 另外需要說(shuō)明的是,在上述【具體實(shí)施方式】中所描述的各個(gè)具體技術(shù)特征,在不矛 盾的情況下,可W通過(guò)任何合適的方式進(jìn)行組合。為了避免不必要的重復(fù),本發(fā)明對(duì)各種可 能的組合方式不再另行說(shuō)明。
[0070] 此外,本發(fā)明的各種不同的實(shí)施方式之間也可W進(jìn)行任意組合,只要其不違背本 發(fā)明的思想,其同樣應(yīng)當(dāng)視為本發(fā)明所公開(kāi)的內(nèi)容。
【主權(quán)項(xiàng)】
1. 一種喚醒詞匹配方法,該喚醒詞匹配方法包括: 使用兩種或兩種以上算法分別對(duì)輸入語(yǔ)音與所述喚醒詞的匹配進(jìn)行打分,得到所述輸 入語(yǔ)音與所述喚醒詞匹配的對(duì)應(yīng)的分?jǐn)?shù);以及 將由每種算法得到的分?jǐn)?shù)輸入分類(lèi)器,根據(jù)所述分類(lèi)器的輸出來(lái)判斷所述輸入語(yǔ)音是 否與所述喚醒詞匹配。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述算法包括第一算法和/或第二算法, 其中,所述第一算法按照以下步驟執(zhí)行: 生成所述喚醒詞的正向隱馬爾可夫模型,其中,所述喚醒詞的正向隱馬爾可夫模型的 狀態(tài)序列為S= [SpS2,…,Sn],n表示所述喚醒詞的正向隱馬爾可夫模型中的狀態(tài)的數(shù)目; 用維特比算法將輸入語(yǔ)音和所述喚醒詞的正向隱馬爾可夫模型強(qiáng)制對(duì)齊,確定每一幀 中所述喚醒詞的正向隱馬爾可夫模型的每個(gè)狀態(tài)的對(duì)數(shù)似然值;以及 根據(jù)每一幀中所述喚醒詞的正向隱馬爾可夫模型的每個(gè)狀態(tài)的對(duì)數(shù)似然值來(lái)確定所 述輸入語(yǔ)音與所述喚醒詞匹配的最優(yōu)路徑的分?jǐn)?shù), 所述第二算法按照以下步驟執(zhí)行: 生成所述喚醒詞的正向隱馬爾可夫模型,其中,所述喚醒詞的正向隱馬爾可夫模型的 狀態(tài)序列為S= [SpS2,…,Sn],n表示所述喚醒詞的正向隱馬爾可夫模型中的狀態(tài)的數(shù)目; 用維特比算法將輸入語(yǔ)音和所述喚醒詞的正向隱馬爾可夫模型強(qiáng)制對(duì)齊,確定每一幀 中所述喚醒詞的正向隱馬爾可夫模型的每個(gè)狀態(tài)的對(duì)數(shù)似然值; 將每一幀中所述喚醒詞的正向隱馬爾可夫模型的全部狀態(tài)的對(duì)數(shù)似然值按照大小順 序排成一序列,將每個(gè)狀態(tài)在該序列中的位置作為該狀態(tài)的分?jǐn)?shù);以及 根據(jù)每一幀中所述喚醒詞的正向隱馬爾可夫模型的每個(gè)狀態(tài)的分?jǐn)?shù)來(lái)確定所述輸入 語(yǔ)音與所述喚醒詞匹配的最優(yōu)路徑的分?jǐn)?shù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述算法還包括第三算法和/或第四算 法,其中,所述第三算法按照以下步驟執(zhí)行: 生成所述喚醒詞的正向隱馬爾可夫模型,其中,所述喚醒詞的正向隱馬爾可夫模型的 狀態(tài)序列為S= [SpS2,…,Sn],n表示所述喚醒詞的正向隱馬爾可夫模型中的狀態(tài)的數(shù)目; 生成所述喚醒詞的反向隱馬爾可夫模型,其中,對(duì)所述喚醒詞的正向隱馬爾可夫模型 中的狀態(tài)SpS2,…,5"重新排序,得到所述喚醒詞的反向隱馬爾可夫模型中的狀態(tài)序列S' n =[Sji,Sj2,…,Sjn],該序列Sw吏得2>//5/(W)的取值最大,其中,dist(Si,Sji)表示狀態(tài) i'=l 混合高斯模型和狀態(tài)S^的混合高斯模型之間的距離,i為1到