一種語音處理方法及電子設(shè)備與流程

文檔序號(hào)：39621605發(fā)布日期：2024-10-11 13:41閱讀：65來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請(qǐng)涉及語音，尤其涉及一種語音處理方法及電子設(shè)備。

背景技術(shù)：

1、電子設(shè)備可以支持人機(jī)交互功能，人機(jī)交互功能支持用戶喚醒語音助手，對(duì)電子設(shè)備發(fā)送語音指令，與電子設(shè)備進(jìn)行對(duì)話和問答等，從而使用戶快捷獲取知識(shí)和控制設(shè)備。

2、在一些復(fù)雜的人機(jī)交互場(chǎng)景中，例如用戶在客廳環(huán)境中與電子設(shè)備進(jìn)行遠(yuǎn)場(chǎng)語音交互時(shí)，由于客廳是家庭中的公共區(qū)域，遠(yuǎn)場(chǎng)聲學(xué)環(huán)境復(fù)雜且干擾因素較多，導(dǎo)致語音信號(hào)可能混雜有噪聲、電子人聲、多個(gè)用戶人聲等。這樣，電子設(shè)備無法精準(zhǔn)識(shí)別和響應(yīng)語音指令，導(dǎo)致誤響應(yīng)和不響應(yīng)等問題，導(dǎo)致人機(jī)交互出錯(cuò)甚至失敗。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種語音處理方法及電子設(shè)備，以提高電子設(shè)備對(duì)語音指令識(shí)別和響應(yīng)的準(zhǔn)確性。

2、第一方面，本申請(qǐng)實(shí)施例提供一種電子設(shè)備，包括：

3、聲音采集器，用于采集用戶輸入的語音信號(hào)；

4、控制器，用于執(zhí)行：

5、對(duì)聲音采集器采集的語音信號(hào)進(jìn)行喚醒詞識(shí)別；

6、在從所述語音信號(hào)中識(shí)別到喚醒詞時(shí)，對(duì)發(fā)出所述喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng)；

7、對(duì)增強(qiáng)后的所述目標(biāo)人聲進(jìn)行聲紋識(shí)別，確定目標(biāo)發(fā)聲對(duì)象；

8、從所述語音信號(hào)中提取目標(biāo)發(fā)聲對(duì)象的語音指令，響應(yīng)所述語音指令。

9、在一些實(shí)施例中，所述控制器還用于執(zhí)行：獲取人機(jī)對(duì)話歷史，對(duì)所述人機(jī)對(duì)話歷史進(jìn)行分詞，得到歷史對(duì)話分詞；所述人機(jī)對(duì)話歷史包括用戶與所述電子設(shè)備的歷史對(duì)話內(nèi)容；根據(jù)所述電子設(shè)備的設(shè)備專用詞、所述歷史對(duì)話分詞和使用歷史，構(gòu)建用戶詞庫(kù)；其中，所述設(shè)備專用詞是與所述電子設(shè)備軟硬件配置相關(guān)的詞匯，所述使用歷史包含用戶使用所述電子設(shè)備時(shí)產(chǎn)生的關(guān)聯(lián)詞；根據(jù)用戶詞庫(kù)，構(gòu)建動(dòng)態(tài)語言模型；根據(jù)所述動(dòng)態(tài)語言模型和基礎(chǔ)語言模型，生成個(gè)性化語言模型。

10、在一些實(shí)施例中，在響應(yīng)所述語音指令之前，所述控制器還用于執(zhí)行：根據(jù)聲學(xué)模型和所述個(gè)性化語言模型，對(duì)所述語音指令進(jìn)行識(shí)別，以將所述語音指令轉(zhuǎn)換為目標(biāo)文本。

11、在一些實(shí)施例中，在響應(yīng)所述語音指令之前，所述控制器還用于執(zhí)行：調(diào)用尾點(diǎn)集合和非尾點(diǎn)集合；其中，所述尾點(diǎn)集合包括用戶歷史輸入的完整且無歧義的指令文本，所述非尾點(diǎn)集合包括所述電子設(shè)備在不同業(yè)務(wù)中產(chǎn)生的非完整指令文本；如果所述尾點(diǎn)集合包括所述目標(biāo)文本，確定所述語音信號(hào)達(dá)到尾點(diǎn)，控制所述聲音采集器停止采集語音信號(hào)；如果所述尾點(diǎn)集合不包括所述目標(biāo)文本，并且所述非尾點(diǎn)集合包括所述目標(biāo)文本，則確定所述語音信號(hào)未達(dá)到尾點(diǎn)，控制所述聲音采集器繼續(xù)采集語音信號(hào)。

12、在一些實(shí)施例中，在響應(yīng)所述語音指令之前，所述控制器還用于執(zhí)行：如果所述非尾點(diǎn)集合不包括所述目標(biāo)文本，利用尾點(diǎn)判別模型提取所述語音指令的語音特征；利用所述尾點(diǎn)判別模型對(duì)所述對(duì)話歷史進(jìn)行編碼，并將所述編碼后的對(duì)話歷史和所述語音特征進(jìn)行拼接，得到上下文特征；根據(jù)所述上下文特征，如果確定所述語音信號(hào)達(dá)到尾點(diǎn)，控制所述聲音采集器停止采集語音信號(hào)；根據(jù)所述上下文特征，如果確定所述語音信號(hào)未達(dá)到尾點(diǎn)，控制所述聲音采集器繼續(xù)采集語音信號(hào)。

13、在一些實(shí)施例中，在確定所述語音信號(hào)達(dá)到尾點(diǎn)之后，所述控制器還用于執(zhí)行：對(duì)所述目標(biāo)文本進(jìn)行通用拒識(shí)判別，以確定所述目標(biāo)文本是否通順；如果所述目標(biāo)文本不通順，拒絕響應(yīng)所述語音指令；如果所述目標(biāo)文本通順，對(duì)所述目標(biāo)文本進(jìn)行業(yè)務(wù)拒識(shí)判別，以確定所述語音指令是否包含明確的業(yè)務(wù)意圖；如果所述語音指令包括明確的業(yè)務(wù)意圖，允許響應(yīng)所述語音指令。

14、在一些實(shí)施例中，在控制所述聲音采集器停止采集語音信號(hào)之后，所述控制器還用于執(zhí)行：如果所述語音指令不包括明確的業(yè)務(wù)意圖，根據(jù)對(duì)話歷史的上下文關(guān)系，進(jìn)行非交互拒識(shí)判別，以確定所述語音指令是否包含非交互意圖；其中，所述非交互意圖是用戶向除電子設(shè)備以外的其他交互對(duì)象傳遞的意圖；如果所述語音指令不包含所述非交互意圖，允許響應(yīng)所述語音指令；如果所述語音指令包含所述非交互意圖，拒絕響應(yīng)所述語音指令。

15、在一些實(shí)施例中，所述電子設(shè)備還包括音頻輸出裝置，所述控制器響應(yīng)所述語音指令，包括：獲取機(jī)器的第一回復(fù)語句；根據(jù)對(duì)話歷史的上下文關(guān)系，在所述第一回復(fù)語句中添加插入語，得到第二回復(fù)語句；為所述第二回復(fù)語句設(shè)置韻律特征，所述韻律特征用于表征語句呈現(xiàn)的語氣、語調(diào)、語速和對(duì)話氛圍；根據(jù)所述第二回復(fù)語句和所述韻律特征進(jìn)行語音合成，以轉(zhuǎn)換為機(jī)器的回復(fù)音頻；控制所述音頻輸出裝置播報(bào)所述回復(fù)音頻。

16、在一些實(shí)施例中，所述電子設(shè)備還包括音頻輸出裝置，所述控制器還用于執(zhí)行：在確定所述語音信號(hào)未達(dá)到尾點(diǎn)時(shí)，預(yù)測(cè)反饋語概率分布，所述反饋語概率分布包括至少一個(gè)待輸出反饋語以及所述待輸出反饋語的概率值；獲取最大概率值對(duì)應(yīng)的目標(biāo)反饋語；控制所述音頻輸出裝置播報(bào)所述目標(biāo)反饋語。

17、第二方面，本申請(qǐng)實(shí)施例還提供一種語音處理方法，包括：

18、對(duì)聲音采集器采集的語音信號(hào)進(jìn)行喚醒詞識(shí)別；

19、在從所述語音信號(hào)中識(shí)別到喚醒詞時(shí)，對(duì)發(fā)出所述喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng)；

20、對(duì)增強(qiáng)后的所述目標(biāo)人聲進(jìn)行聲紋識(shí)別，確定目標(biāo)發(fā)聲對(duì)象；

21、從所述語音信號(hào)中提取目標(biāo)發(fā)聲對(duì)象的語音指令，響應(yīng)所述語音指令。

22、第三方面，本申請(qǐng)一些實(shí)施例還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，該計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有程序指令，當(dāng)程序指令在計(jì)算機(jī)上運(yùn)行時(shí)，使得計(jì)算機(jī)執(zhí)行以上各方面及其各個(gè)實(shí)現(xiàn)方式中涉及的方法。

23、本申請(qǐng)以上各方面實(shí)施例中，針對(duì)用戶輸入的語音信號(hào)，識(shí)別喚醒詞，將發(fā)出喚醒詞的用戶鎖定為目標(biāo)發(fā)聲對(duì)象。由于在環(huán)境場(chǎng)景中可能存在噪聲、電子人聲和其他非目標(biāo)人聲等干擾，這些聲音混雜在語音信號(hào)中，極容易導(dǎo)致語音指令識(shí)別出錯(cuò)而出現(xiàn)誤響應(yīng)問題，因此在識(shí)別到喚醒詞時(shí)，本申請(qǐng)將發(fā)出喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng)，使目標(biāo)人聲在語音信號(hào)中更為突出顯著，從而抑制其他干擾聲音，通過對(duì)目標(biāo)人聲進(jìn)行聲紋識(shí)別，準(zhǔn)確鎖定目標(biāo)發(fā)聲對(duì)象的身份，這樣電子設(shè)備可以從語音信號(hào)中提取出該目標(biāo)發(fā)聲對(duì)象的語音指令并響應(yīng)，通過喚醒詞識(shí)別和增強(qiáng)，建立喚醒詞和語音指令的發(fā)聲對(duì)象的強(qiáng)關(guān)聯(lián)性，從而精準(zhǔn)識(shí)別和響應(yīng)語音指令，提升人機(jī)交互系統(tǒng)語音指令響應(yīng)的準(zhǔn)確性和性能。

技術(shù)特征：

1.一種電子設(shè)備，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的電子設(shè)備，其特征在于，所述控制器還用于執(zhí)行：

3.根據(jù)權(quán)利要求2所述的電子設(shè)備，其特征在于，在響應(yīng)所述語音指令之前，所述控制器還用于執(zhí)行：

4.根據(jù)權(quán)利要求3所述的電子設(shè)備，其特征在于，在響應(yīng)所述語音指令之前，所述控制器還用于執(zhí)行：

5.根據(jù)權(quán)利要求4所述的電子設(shè)備，其特征在于，在響應(yīng)所述語音指令之前，所述控制器還用于執(zhí)行：

6.根據(jù)權(quán)利要求4或5所述的電子設(shè)備，其特征在于，在確定所述語音信號(hào)達(dá)到尾點(diǎn)之后，所述控制器還用于執(zhí)行：

7.根據(jù)權(quán)利要求6所述的電子設(shè)備，其特征在于，在控制所述聲音采集器停止采集語音信號(hào)之后，所述控制器還用于執(zhí)行：

8.根據(jù)權(quán)利要求1所述的電子設(shè)備，其特征在于，所述電子設(shè)備還包括音頻輸出裝置，所述控制器響應(yīng)所述語音指令，包括：

9.根據(jù)權(quán)利要求4或5所述的電子設(shè)備，其特征在于，所述電子設(shè)備還包括音頻輸出裝置，所述控制器還用于執(zhí)行：

10.一種語音處理方法，其特征在于，包括：

技術(shù)總結(jié)
本申請(qǐng)實(shí)施例公開一種語音處理方法及電子設(shè)備，該方法包括：對(duì)聲音采集器采集的語音信號(hào)進(jìn)行喚醒詞識(shí)別；在從所述語音信號(hào)中識(shí)別到喚醒詞時(shí)，對(duì)發(fā)出所述喚醒詞的目標(biāo)人聲進(jìn)行增強(qiáng)；對(duì)增強(qiáng)后的所述目標(biāo)人聲進(jìn)行聲紋識(shí)別，確定目標(biāo)發(fā)聲對(duì)象；從所述語音信號(hào)中提取目標(biāo)發(fā)聲對(duì)象的語音指令，響應(yīng)所述語音指令。這樣，電子設(shè)備通過對(duì)喚醒詞進(jìn)行識(shí)別和增強(qiáng)，鎖定目標(biāo)發(fā)聲對(duì)象，建立喚醒詞和語音指令的發(fā)聲對(duì)象的強(qiáng)關(guān)聯(lián)性，從而精準(zhǔn)識(shí)別和響應(yīng)語音指令，提升人機(jī)交互系統(tǒng)的性能。

技術(shù)研發(fā)人員：馬明
受保護(hù)的技術(shù)使用者：海信視像科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬明
技術(shù)所有人：海信視像科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種語音處理方法及電子設(shè)備與流程