基于集成式ASR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端與流程

文檔序號(hào)：40276119發(fā)布日期：2024-12-11 13:10閱讀：27來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于集成式ASR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端與流程

本申請(qǐng)涉及語音處理領(lǐng)域，特別是涉及一種基于集成式asr的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端。

背景技術(shù)：

1、在進(jìn)入新地區(qū)和語言環(huán)境市場(chǎng)時(shí)，當(dāng)企業(yè)自研的自動(dòng)語音識(shí)別(asr，automaticspeech?recognition)技術(shù)尚未成熟時(shí)，通常需要借助第三方asr服務(wù)來支持業(yè)務(wù)迅速展開和部署。舉例來說，在歐美英語市場(chǎng)，采用谷歌或微軟等第三方asr服務(wù)，以降低研發(fā)成本。然而，目前第三方asr在語音通話應(yīng)用方面大都采用語音活動(dòng)檢測(cè)(vad，voice?activitydetection)和asr結(jié)合的模式，存在著大量誤判識(shí)別的問題，可能引起一定語音識(shí)別延遲。此外，由于語音機(jī)器人的判定邏輯比較固定，當(dāng)用戶暫時(shí)不說話或需要補(bǔ)充信息時(shí)，機(jī)器人缺乏支持，導(dǎo)致交互效果不佳的情況。

2、因此，目前的技術(shù)存在以下缺陷和不足之處：缺乏良好的抗噪聲能力，難以有效區(qū)分說話聲音、噪音和背景音，導(dǎo)致影響對(duì)話質(zhì)量。同時(shí)，缺乏智能的打斷和動(dòng)態(tài)回退功能，無法靈活處理用戶中斷或誤操作的場(chǎng)景。這些問題表明機(jī)器人的語言產(chǎn)生邏輯相對(duì)僵化，導(dǎo)致對(duì)話流程顯得呆板，交互效果不佳。

技術(shù)實(shí)現(xiàn)思路

1、鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn)，本申請(qǐng)的目的在于提供一種基于集成式asr的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端，用于解決現(xiàn)有的語音機(jī)器人存在的缺乏良好的抗噪聲能力和智能的打斷回退功能，導(dǎo)致對(duì)話質(zhì)量受影響，且生產(chǎn)邏輯僵化，交互效果不佳的問題。

2、為實(shí)現(xiàn)上述目的及其他相關(guān)目的，本申請(qǐng)的第一方面提供一種方法，基于集成式asr的語音機(jī)器人交互方法，所述方法應(yīng)用于機(jī)器人管理平臺(tái)，所述方法包括：部署第三方asr引擎和語音事件模型；當(dāng)檢測(cè)到通話呼入時(shí)，接入通話并構(gòu)建會(huì)話任務(wù)；在所述會(huì)話任務(wù)持續(xù)過程中，調(diào)用所述第三方asr引擎執(zhí)行語音識(shí)別操作，以生成語音識(shí)別文本；同時(shí)，調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作，并響應(yīng)于語音事件的發(fā)生，生成相應(yīng)的語音事件信息；基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略，并基于所述動(dòng)態(tài)響應(yīng)策略執(zhí)行對(duì)應(yīng)的語音交互操作；當(dāng)檢測(cè)到通話結(jié)束時(shí)，自動(dòng)關(guān)閉會(huì)話任務(wù)。

3、于本申請(qǐng)的第一方面的一些實(shí)施例中，調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作，并響應(yīng)于語音事件的發(fā)生，生成相應(yīng)的語音事件信息的過程包括：持續(xù)監(jiān)測(cè)所述會(huì)話任務(wù)，從所述會(huì)話任務(wù)中獲取實(shí)時(shí)音頻流，并對(duì)所述實(shí)時(shí)音頻流執(zhí)行降噪操作；將降噪操作后的實(shí)時(shí)音頻流導(dǎo)入所述語音事件模型中；并判斷所述實(shí)時(shí)音頻流中是否包含有預(yù)設(shè)語音事件；響應(yīng)于預(yù)設(shè)語音事件，判斷所述語音事件的事件類型，并生成相應(yīng)的語音事件信息。

4、于本申請(qǐng)的第一方面的一些實(shí)施例中，所述語音事件信息包括以下的一種或多種信息：事件標(biāo)簽、時(shí)間戳、聲學(xué)特征數(shù)據(jù)以及上下文信息。

5、于本申請(qǐng)的第一方面的一些實(shí)施例中，所述事件類型包括以下的一種或多種類型：發(fā)聲開始、發(fā)聲結(jié)束、沉默、噪聲、關(guān)鍵詞、語音激活、語音輸入錯(cuò)誤、語音事件回滾、語音事件打算、語音事件暫停以及語音事件恢復(fù)。

6、于本申請(qǐng)的第一方面的一些實(shí)施例中，基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略的過程包括：基于時(shí)間戳對(duì)所述語音識(shí)別文本和所述語音事件信息進(jìn)行上下文拼接，并對(duì)拼接后的文本信息進(jìn)行自然語言處理，以生成意圖識(shí)別結(jié)果和槽位信息；根據(jù)所述意圖識(shí)別結(jié)果和所述槽位信息，對(duì)所述語音識(shí)別文本進(jìn)行上下文理解操作，以生成動(dòng)態(tài)響應(yīng)策略。

7、于本申請(qǐng)的第一方面的一些實(shí)施例中，當(dāng)檢測(cè)到通話結(jié)束時(shí)，自動(dòng)關(guān)閉會(huì)話任務(wù)后還執(zhí)行如下操作：對(duì)所述會(huì)話任務(wù)進(jìn)行信息打標(biāo)，并將打標(biāo)后的數(shù)據(jù)存儲(chǔ)至客戶端的管理系統(tǒng)數(shù)據(jù)庫中。

8、為實(shí)現(xiàn)上述目的及其他相關(guān)目的，本申請(qǐng)的第二方面提供一種基于集成式asr的語音機(jī)器人交互裝置，包括：會(huì)話初始化模塊：用于部署第三方asr引擎和語音事件模型；當(dāng)檢測(cè)到通話呼入時(shí)，接入通話并構(gòu)建會(huì)話任務(wù)；語音處理模塊：用于在所述會(huì)話任務(wù)持續(xù)過程中，調(diào)用所述第三方asr引擎執(zhí)行語音識(shí)別操作，以生成語音識(shí)別文本；同時(shí)，調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作，并響應(yīng)于語音事件的發(fā)生，生成相應(yīng)的語音事件信息；交互響應(yīng)模塊：用于基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略，并基于所述動(dòng)態(tài)響應(yīng)策略執(zhí)行對(duì)應(yīng)的語音交互操作；當(dāng)檢測(cè)到通話結(jié)束時(shí)，自動(dòng)關(guān)閉會(huì)話任務(wù)。

9、為實(shí)現(xiàn)上述目的及其他相關(guān)目的，本申請(qǐng)的第三方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述基于集成式asr的語音機(jī)器人交互方法。

10、為實(shí)現(xiàn)上述目的及其他相關(guān)目的，本申請(qǐng)的第四方面提供一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品中包括計(jì)算機(jī)程序代碼，當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí)，使得所述計(jì)算機(jī)實(shí)現(xiàn)所述基于集成式asr的語音機(jī)器人交互方法。

11、為實(shí)現(xiàn)上述目的及其他相關(guān)目的，本申請(qǐng)的第五方面提供一種電子終端，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序；所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)所述基于集成式asr的語音機(jī)器人交互方法。

12、如上所述，本申請(qǐng)的基于集成式asr的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端，具有以下有益效果：在進(jìn)入新地區(qū)和語言市場(chǎng)時(shí)，本發(fā)明可以通過較低的成本靈活整合成熟的第三方語音識(shí)別(asr)模型，以快速完成產(chǎn)品部署并投入使用。這不僅加強(qiáng)了依賴于第三方asr的識(shí)別能力，優(yōu)化了用戶交互體驗(yàn)，實(shí)現(xiàn)了更低延遲和更加流暢自然的互動(dòng)。通過集成了語音識(shí)別模型和語音事件模型的雙引擎模式，在自研模型尚不成熟時(shí)，本申請(qǐng)能夠根據(jù)不同的應(yīng)用場(chǎng)景靈活配置，展現(xiàn)出較高的復(fù)用價(jià)值。

技術(shù)特征：

1.一種基于集成式asr的語音機(jī)器人交互方法，其特征在于，所述方法應(yīng)用于機(jī)器人管理平臺(tái)，所述方法包括：

2.根據(jù)權(quán)利要求1所述的基于集成式asr的語音機(jī)器人交互方法，其特征在于，調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作，并響應(yīng)于語音事件的發(fā)生，生成相應(yīng)的語音事件信息的過程包括：

3.根據(jù)權(quán)利要求2所述的基于集成式asr的語音機(jī)器人交互方法，其特征在于，所述語音事件信息包括以下的一種或多種信息：事件標(biāo)簽、時(shí)間戳、聲學(xué)特征數(shù)據(jù)以及上下文信息。

4.根據(jù)權(quán)利要求2所述的基于集成式asr的語音機(jī)器人交互方法，其特征在于，所述事件類型包括以下的一種或多種類型：發(fā)聲開始、發(fā)聲結(jié)束、沉默、噪聲、關(guān)鍵詞、語音激活、語音輸入錯(cuò)誤、語音事件回滾、語音事件打算、語音事件暫停以及語音事件恢復(fù)。

5.根據(jù)權(quán)利要求1所述的基于集成式asr的語音機(jī)器人交互方法，其特征在于，基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略的過程包括：

6.根據(jù)權(quán)利要求1所述的基于集成式asr的語音機(jī)器人交互方法，其特征在于，當(dāng)檢測(cè)到通話結(jié)束時(shí)，自動(dòng)關(guān)閉會(huì)話任務(wù)后還執(zhí)行如下操作：對(duì)所述會(huì)話任務(wù)進(jìn)行信息打標(biāo)，并將打標(biāo)后的數(shù)據(jù)存儲(chǔ)至客戶端的管理系統(tǒng)數(shù)據(jù)庫中。

7.一種基于集成式asr的語音機(jī)器人交互裝置，其特征在于，包括：

8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述基于集成式asr的語音機(jī)器人交互方法。

9.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，所述計(jì)算機(jī)程序產(chǎn)品中包括計(jì)算機(jī)程序代碼，當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí)，使得所述計(jì)算機(jī)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述基于集成式asr的語音機(jī)器人交互方法。

10.一種電子終端，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述基于集成式asr的語音機(jī)器人交互方法。

技術(shù)總結(jié)
本申請(qǐng)?zhí)峁┗诩墒紸SR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端，通過集成成熟的第三方語音識(shí)別技術(shù)和自行開發(fā)的語音事件模型，來實(shí)現(xiàn)智能語音交互系統(tǒng)的快速部署和優(yōu)化，能夠在進(jìn)入新地區(qū)和語言市場(chǎng)時(shí)快速完成產(chǎn)品部署并投入使用，大大增強(qiáng)了識(shí)別能力，優(yōu)化了用戶交互體驗(yàn)，實(shí)現(xiàn)了低延遲和流暢自然的互動(dòng)，提高了產(chǎn)品的適應(yīng)性和競爭力。

技術(shù)研發(fā)人員：朱正翔,孫崇崇,任騰,馬雨楓
受保護(hù)的技術(shù)使用者：上海湃舵智能科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱正翔,孫崇崇,任騰,馬雨楓
技術(shù)所有人：上海湃舵智能科技有限公司
我是此專利的發(fā)明人

上一篇：一種旋風(fēng)固氣分離裝置的制作方法
上一篇：果酒發(fā)酵裝置和果酒生產(chǎn)系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于集成式ASR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端與流程

基于集成式ASR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端與流程