本申請(qǐng)涉及語音,尤其涉及一種語音處理方法及電子設(shè)備。
背景技術(shù):
1、電子設(shè)備可以支持人機(jī)交互功能,人機(jī)交互功能支持用戶喚醒語音助手,對(duì)電子設(shè)備發(fā)送語音指令,與電子設(shè)備進(jìn)行對(duì)話和問答等,從而使用戶快捷獲取知識(shí)和控制設(shè)備。
2、在一些復(fù)雜的人機(jī)交互場(chǎng)景中,例如用戶在客廳環(huán)境中與電子設(shè)備進(jìn)行遠(yuǎn)場(chǎng)語音交互時(shí),由于客廳是家庭中的公共區(qū)域,遠(yuǎn)場(chǎng)聲學(xué)環(huán)境復(fù)雜且干擾因素較多,導(dǎo)致語音信號(hào)可能混雜有噪聲、電子人聲、多個(gè)用戶人聲等。這樣,電子設(shè)備無法精準(zhǔn)識(shí)別和響應(yīng)語音指令,導(dǎo)致誤響應(yīng)和不響應(yīng)等問題,導(dǎo)致人機(jī)交互出錯(cuò)甚至失敗。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種語音處理方法及電子設(shè)備,以提高電子設(shè)備對(duì)語音指令識(shí)別和響應(yīng)的準(zhǔn)確性。
2、第一方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括:
3、聲音采集器,用于采集用戶輸入的語音信號(hào);
4、控制器,用于執(zhí)行:
5、對(duì)聲音采集器采集的語音信號(hào)進(jìn)行喚醒詞識(shí)別;
6、在從所述語音信號(hào)中識(shí)別到喚醒詞時(shí),對(duì)發(fā)出所述喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng);
7、對(duì)增強(qiáng)后的所述目標(biāo)人聲進(jìn)行聲紋識(shí)別,確定目標(biāo)發(fā)聲對(duì)象;
8、從所述語音信號(hào)中提取目標(biāo)發(fā)聲對(duì)象的語音指令,響應(yīng)所述語音指令。
9、在一些實(shí)施例中,所述控制器還用于執(zhí)行:獲取人機(jī)對(duì)話歷史,對(duì)所述人機(jī)對(duì)話歷史進(jìn)行分詞,得到歷史對(duì)話分詞;所述人機(jī)對(duì)話歷史包括用戶與所述電子設(shè)備的歷史對(duì)話內(nèi)容;根據(jù)所述電子設(shè)備的設(shè)備專用詞、所述歷史對(duì)話分詞和使用歷史,構(gòu)建用戶詞庫(kù);其中,所述設(shè)備專用詞是與所述電子設(shè)備軟硬件配置相關(guān)的詞匯,所述使用歷史包含用戶使用所述電子設(shè)備時(shí)產(chǎn)生的關(guān)聯(lián)詞;根據(jù)用戶詞庫(kù),構(gòu)建動(dòng)態(tài)語言模型;根據(jù)所述動(dòng)態(tài)語言模型和基礎(chǔ)語言模型,生成個(gè)性化語言模型。
10、在一些實(shí)施例中,在響應(yīng)所述語音指令之前,所述控制器還用于執(zhí)行:根據(jù)聲學(xué)模型和所述個(gè)性化語言模型,對(duì)所述語音指令進(jìn)行識(shí)別,以將所述語音指令轉(zhuǎn)換為目標(biāo)文本。
11、在一些實(shí)施例中,在響應(yīng)所述語音指令之前,所述控制器還用于執(zhí)行:調(diào)用尾點(diǎn)集合和非尾點(diǎn)集合;其中,所述尾點(diǎn)集合包括用戶歷史輸入的完整且無歧義的指令文本,所述非尾點(diǎn)集合包括所述電子設(shè)備在不同業(yè)務(wù)中產(chǎn)生的非完整指令文本;如果所述尾點(diǎn)集合包括所述目標(biāo)文本,確定所述語音信號(hào)達(dá)到尾點(diǎn),控制所述聲音采集器停止采集語音信號(hào);如果所述尾點(diǎn)集合不包括所述目標(biāo)文本,并且所述非尾點(diǎn)集合包括所述目標(biāo)文本,則確定所述語音信號(hào)未達(dá)到尾點(diǎn),控制所述聲音采集器繼續(xù)采集語音信號(hào)。
12、在一些實(shí)施例中,在響應(yīng)所述語音指令之前,所述控制器還用于執(zhí)行:如果所述非尾點(diǎn)集合不包括所述目標(biāo)文本,利用尾點(diǎn)判別模型提取所述語音指令的語音特征;利用所述尾點(diǎn)判別模型對(duì)所述對(duì)話歷史進(jìn)行編碼,并將所述編碼后的對(duì)話歷史和所述語音特征進(jìn)行拼接,得到上下文特征;根據(jù)所述上下文特征,如果確定所述語音信號(hào)達(dá)到尾點(diǎn),控制所述聲音采集器停止采集語音信號(hào);根據(jù)所述上下文特征,如果確定所述語音信號(hào)未達(dá)到尾點(diǎn),控制所述聲音采集器繼續(xù)采集語音信號(hào)。
13、在一些實(shí)施例中,在確定所述語音信號(hào)達(dá)到尾點(diǎn)之后,所述控制器還用于執(zhí)行:對(duì)所述目標(biāo)文本進(jìn)行通用拒識(shí)判別,以確定所述目標(biāo)文本是否通順;如果所述目標(biāo)文本不通順,拒絕響應(yīng)所述語音指令;如果所述目標(biāo)文本通順,對(duì)所述目標(biāo)文本進(jìn)行業(yè)務(wù)拒識(shí)判別,以確定所述語音指令是否包含明確的業(yè)務(wù)意圖;如果所述語音指令包括明確的業(yè)務(wù)意圖,允許響應(yīng)所述語音指令。
14、在一些實(shí)施例中,在控制所述聲音采集器停止采集語音信號(hào)之后,所述控制器還用于執(zhí)行:如果所述語音指令不包括明確的業(yè)務(wù)意圖,根據(jù)對(duì)話歷史的上下文關(guān)系,進(jìn)行非交互拒識(shí)判別,以確定所述語音指令是否包含非交互意圖;其中,所述非交互意圖是用戶向除電子設(shè)備以外的其他交互對(duì)象傳遞的意圖;如果所述語音指令不包含所述非交互意圖,允許響應(yīng)所述語音指令;如果所述語音指令包含所述非交互意圖,拒絕響應(yīng)所述語音指令。
15、在一些實(shí)施例中,所述電子設(shè)備還包括音頻輸出裝置,所述控制器響應(yīng)所述語音指令,包括:獲取機(jī)器的第一回復(fù)語句;根據(jù)對(duì)話歷史的上下文關(guān)系,在所述第一回復(fù)語句中添加插入語,得到第二回復(fù)語句;為所述第二回復(fù)語句設(shè)置韻律特征,所述韻律特征用于表征語句呈現(xiàn)的語氣、語調(diào)、語速和對(duì)話氛圍;根據(jù)所述第二回復(fù)語句和所述韻律特征進(jìn)行語音合成,以轉(zhuǎn)換為機(jī)器的回復(fù)音頻;控制所述音頻輸出裝置播報(bào)所述回復(fù)音頻。
16、在一些實(shí)施例中,所述電子設(shè)備還包括音頻輸出裝置,所述控制器還用于執(zhí)行:在確定所述語音信號(hào)未達(dá)到尾點(diǎn)時(shí),預(yù)測(cè)反饋語概率分布,所述反饋語概率分布包括至少一個(gè)待輸出反饋語以及所述待輸出反饋語的概率值;獲取最大概率值對(duì)應(yīng)的目標(biāo)反饋語;控制所述音頻輸出裝置播報(bào)所述目標(biāo)反饋語。
17、第二方面,本申請(qǐng)實(shí)施例還提供一種語音處理方法,包括:
18、對(duì)聲音采集器采集的語音信號(hào)進(jìn)行喚醒詞識(shí)別;
19、在從所述語音信號(hào)中識(shí)別到喚醒詞時(shí),對(duì)發(fā)出所述喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng);
20、對(duì)增強(qiáng)后的所述目標(biāo)人聲進(jìn)行聲紋識(shí)別,確定目標(biāo)發(fā)聲對(duì)象;
21、從所述語音信號(hào)中提取目標(biāo)發(fā)聲對(duì)象的語音指令,響應(yīng)所述語音指令。
22、第三方面,本申請(qǐng)一些實(shí)施例還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),該計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有程序指令,當(dāng)程序指令在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行以上各方面及其各個(gè)實(shí)現(xiàn)方式中涉及的方法。
23、本申請(qǐng)以上各方面實(shí)施例中,針對(duì)用戶輸入的語音信號(hào),識(shí)別喚醒詞,將發(fā)出喚醒詞的用戶鎖定為目標(biāo)發(fā)聲對(duì)象。由于在環(huán)境場(chǎng)景中可能存在噪聲、電子人聲和其他非目標(biāo)人聲等干擾,這些聲音混雜在語音信號(hào)中,極容易導(dǎo)致語音指令識(shí)別出錯(cuò)而出現(xiàn)誤響應(yīng)問題,因此在識(shí)別到喚醒詞時(shí),本申請(qǐng)將發(fā)出喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng),使目標(biāo)人聲在語音信號(hào)中更為突出顯著,從而抑制其他干擾聲音,通過對(duì)目標(biāo)人聲進(jìn)行聲紋識(shí)別,準(zhǔn)確鎖定目標(biāo)發(fā)聲對(duì)象的身份,這樣電子設(shè)備可以從語音信號(hào)中提取出該目標(biāo)發(fā)聲對(duì)象的語音指令并響應(yīng),通過喚醒詞識(shí)別和增強(qiáng),建立喚醒詞和語音指令的發(fā)聲對(duì)象的強(qiáng)關(guān)聯(lián)性,從而精準(zhǔn)識(shí)別和響應(yīng)語音指令,提升人機(jī)交互系統(tǒng)語音指令響應(yīng)的準(zhǔn)確性和性能。
1.一種電子設(shè)備,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的電子設(shè)備,其特征在于,所述控制器還用于執(zhí)行:
3.根據(jù)權(quán)利要求2所述的電子設(shè)備,其特征在于,在響應(yīng)所述語音指令之前,所述控制器還用于執(zhí)行:
4.根據(jù)權(quán)利要求3所述的電子設(shè)備,其特征在于,在響應(yīng)所述語音指令之前,所述控制器還用于執(zhí)行:
5.根據(jù)權(quán)利要求4所述的電子設(shè)備,其特征在于,在響應(yīng)所述語音指令之前,所述控制器還用于執(zhí)行:
6.根據(jù)權(quán)利要求4或5所述的電子設(shè)備,其特征在于,在確定所述語音信號(hào)達(dá)到尾點(diǎn)之后,所述控制器還用于執(zhí)行:
7.根據(jù)權(quán)利要求6所述的電子設(shè)備,其特征在于,在控制所述聲音采集器停止采集語音信號(hào)之后,所述控制器還用于執(zhí)行:
8.根據(jù)權(quán)利要求1所述的電子設(shè)備,其特征在于,所述電子設(shè)備還包括音頻輸出裝置,所述控制器響應(yīng)所述語音指令,包括:
9.根據(jù)權(quán)利要求4或5所述的電子設(shè)備,其特征在于,所述電子設(shè)備還包括音頻輸出裝置,所述控制器還用于執(zhí)行:
10.一種語音處理方法,其特征在于,包括: