国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于集成式ASR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端與流程

      文檔序號(hào):40276119發(fā)布日期:2024-12-11 13:10閱讀:27來源:國知局
      基于集成式ASR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端與流程

      本申請(qǐng)涉及語音處理領(lǐng)域,特別是涉及一種基于集成式asr的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端。


      背景技術(shù):

      1、在進(jìn)入新地區(qū)和語言環(huán)境市場(chǎng)時(shí),當(dāng)企業(yè)自研的自動(dòng)語音識(shí)別(asr,automaticspeech?recognition)技術(shù)尚未成熟時(shí),通常需要借助第三方asr服務(wù)來支持業(yè)務(wù)迅速展開和部署。舉例來說,在歐美英語市場(chǎng),采用谷歌或微軟等第三方asr服務(wù),以降低研發(fā)成本。然而,目前第三方asr在語音通話應(yīng)用方面大都采用語音活動(dòng)檢測(cè)(vad,voice?activitydetection)和asr結(jié)合的模式,存在著大量誤判識(shí)別的問題,可能引起一定語音識(shí)別延遲。此外,由于語音機(jī)器人的判定邏輯比較固定,當(dāng)用戶暫時(shí)不說話或需要補(bǔ)充信息時(shí),機(jī)器人缺乏支持,導(dǎo)致交互效果不佳的情況。

      2、因此,目前的技術(shù)存在以下缺陷和不足之處:缺乏良好的抗噪聲能力,難以有效區(qū)分說話聲音、噪音和背景音,導(dǎo)致影響對(duì)話質(zhì)量。同時(shí),缺乏智能的打斷和動(dòng)態(tài)回退功能,無法靈活處理用戶中斷或誤操作的場(chǎng)景。這些問題表明機(jī)器人的語言產(chǎn)生邏輯相對(duì)僵化,導(dǎo)致對(duì)話流程顯得呆板,交互效果不佳。


      技術(shù)實(shí)現(xiàn)思路

      1、鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本申請(qǐng)的目的在于提供一種基于集成式asr的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端,用于解決現(xiàn)有的語音機(jī)器人存在的缺乏良好的抗噪聲能力和智能的打斷回退功能,導(dǎo)致對(duì)話質(zhì)量受影響,且生產(chǎn)邏輯僵化,交互效果不佳的問題。

      2、為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本申請(qǐng)的第一方面提供一種方法,基于集成式asr的語音機(jī)器人交互方法,所述方法應(yīng)用于機(jī)器人管理平臺(tái),所述方法包括:部署第三方asr引擎和語音事件模型;當(dāng)檢測(cè)到通話呼入時(shí),接入通話并構(gòu)建會(huì)話任務(wù);在所述會(huì)話任務(wù)持續(xù)過程中,調(diào)用所述第三方asr引擎執(zhí)行語音識(shí)別操作,以生成語音識(shí)別文本;同時(shí),調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作,并響應(yīng)于語音事件的發(fā)生,生成相應(yīng)的語音事件信息;基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略,并基于所述動(dòng)態(tài)響應(yīng)策略執(zhí)行對(duì)應(yīng)的語音交互操作;當(dāng)檢測(cè)到通話結(jié)束時(shí),自動(dòng)關(guān)閉會(huì)話任務(wù)。

      3、于本申請(qǐng)的第一方面的一些實(shí)施例中,調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作,并響應(yīng)于語音事件的發(fā)生,生成相應(yīng)的語音事件信息的過程包括:持續(xù)監(jiān)測(cè)所述會(huì)話任務(wù),從所述會(huì)話任務(wù)中獲取實(shí)時(shí)音頻流,并對(duì)所述實(shí)時(shí)音頻流執(zhí)行降噪操作;將降噪操作后的實(shí)時(shí)音頻流導(dǎo)入所述語音事件模型中;并判斷所述實(shí)時(shí)音頻流中是否包含有預(yù)設(shè)語音事件;響應(yīng)于預(yù)設(shè)語音事件,判斷所述語音事件的事件類型,并生成相應(yīng)的語音事件信息。

      4、于本申請(qǐng)的第一方面的一些實(shí)施例中,所述語音事件信息包括以下的一種或多種信息:事件標(biāo)簽、時(shí)間戳、聲學(xué)特征數(shù)據(jù)以及上下文信息。

      5、于本申請(qǐng)的第一方面的一些實(shí)施例中,所述事件類型包括以下的一種或多種類型:發(fā)聲開始、發(fā)聲結(jié)束、沉默、噪聲、關(guān)鍵詞、語音激活、語音輸入錯(cuò)誤、語音事件回滾、語音事件打算、語音事件暫停以及語音事件恢復(fù)。

      6、于本申請(qǐng)的第一方面的一些實(shí)施例中,基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略的過程包括:基于時(shí)間戳對(duì)所述語音識(shí)別文本和所述語音事件信息進(jìn)行上下文拼接,并對(duì)拼接后的文本信息進(jìn)行自然語言處理,以生成意圖識(shí)別結(jié)果和槽位信息;根據(jù)所述意圖識(shí)別結(jié)果和所述槽位信息,對(duì)所述語音識(shí)別文本進(jìn)行上下文理解操作,以生成動(dòng)態(tài)響應(yīng)策略。

      7、于本申請(qǐng)的第一方面的一些實(shí)施例中,當(dāng)檢測(cè)到通話結(jié)束時(shí),自動(dòng)關(guān)閉會(huì)話任務(wù)后還執(zhí)行如下操作:對(duì)所述會(huì)話任務(wù)進(jìn)行信息打標(biāo),并將打標(biāo)后的數(shù)據(jù)存儲(chǔ)至客戶端的管理系統(tǒng)數(shù)據(jù)庫中。

      8、為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本申請(qǐng)的第二方面提供一種基于集成式asr的語音機(jī)器人交互裝置,包括:會(huì)話初始化模塊:用于部署第三方asr引擎和語音事件模型;當(dāng)檢測(cè)到通話呼入時(shí),接入通話并構(gòu)建會(huì)話任務(wù);語音處理模塊:用于在所述會(huì)話任務(wù)持續(xù)過程中,調(diào)用所述第三方asr引擎執(zhí)行語音識(shí)別操作,以生成語音識(shí)別文本;同時(shí),調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作,并響應(yīng)于語音事件的發(fā)生,生成相應(yīng)的語音事件信息;交互響應(yīng)模塊:用于基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略,并基于所述動(dòng)態(tài)響應(yīng)策略執(zhí)行對(duì)應(yīng)的語音交互操作;當(dāng)檢測(cè)到通話結(jié)束時(shí),自動(dòng)關(guān)閉會(huì)話任務(wù)。

      9、為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本申請(qǐng)的第三方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述基于集成式asr的語音機(jī)器人交互方法。

      10、為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本申請(qǐng)的第四方面提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品中包括計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)實(shí)現(xiàn)所述基于集成式asr的語音機(jī)器人交互方法。

      11、為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本申請(qǐng)的第五方面提供一種電子終端,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序;所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)所述基于集成式asr的語音機(jī)器人交互方法。

      12、如上所述,本申請(qǐng)的基于集成式asr的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端,具有以下有益效果:在進(jìn)入新地區(qū)和語言市場(chǎng)時(shí),本發(fā)明可以通過較低的成本靈活整合成熟的第三方語音識(shí)別(asr)模型,以快速完成產(chǎn)品部署并投入使用。這不僅加強(qiáng)了依賴于第三方asr的識(shí)別能力,優(yōu)化了用戶交互體驗(yàn),實(shí)現(xiàn)了更低延遲和更加流暢自然的互動(dòng)。通過集成了語音識(shí)別模型和語音事件模型的雙引擎模式,在自研模型尚不成熟時(shí),本申請(qǐng)能夠根據(jù)不同的應(yīng)用場(chǎng)景靈活配置,展現(xiàn)出較高的復(fù)用價(jià)值。



      技術(shù)特征:

      1.一種基于集成式asr的語音機(jī)器人交互方法,其特征在于,所述方法應(yīng)用于機(jī)器人管理平臺(tái),所述方法包括:

      2.根據(jù)權(quán)利要求1所述的基于集成式asr的語音機(jī)器人交互方法,其特征在于,調(diào)用所述語音事件模型對(duì)所述會(huì)話任務(wù)進(jìn)行事件監(jiān)測(cè)操作,并響應(yīng)于語音事件的發(fā)生,生成相應(yīng)的語音事件信息的過程包括:

      3.根據(jù)權(quán)利要求2所述的基于集成式asr的語音機(jī)器人交互方法,其特征在于,所述語音事件信息包括以下的一種或多種信息:事件標(biāo)簽、時(shí)間戳、聲學(xué)特征數(shù)據(jù)以及上下文信息。

      4.根據(jù)權(quán)利要求2所述的基于集成式asr的語音機(jī)器人交互方法,其特征在于,所述事件類型包括以下的一種或多種類型:發(fā)聲開始、發(fā)聲結(jié)束、沉默、噪聲、關(guān)鍵詞、語音激活、語音輸入錯(cuò)誤、語音事件回滾、語音事件打算、語音事件暫停以及語音事件恢復(fù)。

      5.根據(jù)權(quán)利要求1所述的基于集成式asr的語音機(jī)器人交互方法,其特征在于,基于所述語音識(shí)別文本和所述語音事件信息生成動(dòng)態(tài)響應(yīng)策略的過程包括:

      6.根據(jù)權(quán)利要求1所述的基于集成式asr的語音機(jī)器人交互方法,其特征在于,當(dāng)檢測(cè)到通話結(jié)束時(shí),自動(dòng)關(guān)閉會(huì)話任務(wù)后還執(zhí)行如下操作:對(duì)所述會(huì)話任務(wù)進(jìn)行信息打標(biāo),并將打標(biāo)后的數(shù)據(jù)存儲(chǔ)至客戶端的管理系統(tǒng)數(shù)據(jù)庫中。

      7.一種基于集成式asr的語音機(jī)器人交互裝置,其特征在于,包括:

      8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述基于集成式asr的語音機(jī)器人交互方法。

      9.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品中包括計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述基于集成式asr的語音機(jī)器人交互方法。

      10.一種電子終端,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述基于集成式asr的語音機(jī)器人交互方法。


      技術(shù)總結(jié)
      本申請(qǐng)?zhí)峁┗诩墒紸SR的語音機(jī)器人交互方法、裝置、介質(zhì)、程序產(chǎn)品及終端,通過集成成熟的第三方語音識(shí)別技術(shù)和自行開發(fā)的語音事件模型,來實(shí)現(xiàn)智能語音交互系統(tǒng)的快速部署和優(yōu)化,能夠在進(jìn)入新地區(qū)和語言市場(chǎng)時(shí)快速完成產(chǎn)品部署并投入使用,大大增強(qiáng)了識(shí)別能力,優(yōu)化了用戶交互體驗(yàn),實(shí)現(xiàn)了低延遲和流暢自然的互動(dòng),提高了產(chǎn)品的適應(yīng)性和競爭力。

      技術(shù)研發(fā)人員:朱正翔,孫崇崇,任騰,馬雨楓
      受保護(hù)的技術(shù)使用者:上海湃舵智能科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1