国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種語(yǔ)音識(shí)別方法及系統(tǒng)的制作方法

      文檔序號(hào):2827450閱讀:283來(lái)源:國(guó)知局
      一種語(yǔ)音識(shí)別方法及系統(tǒng)的制作方法
      【專(zhuān)利摘要】本發(fā)明實(shí)施例提供了一種語(yǔ)音識(shí)別方法,包括:采集第一音頻數(shù)據(jù);利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果;其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù);本發(fā)明實(shí)施例還提供一種語(yǔ)音識(shí)別系統(tǒng)。根據(jù)本發(fā)明實(shí)施例提供的技術(shù)方案,可以實(shí)現(xiàn)提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。
      【專(zhuān)利說(shuō)明】一種語(yǔ)音識(shí)別方法及系統(tǒng)
      【【技術(shù)領(lǐng)域】】
      [0001]本發(fā)明涉及語(yǔ)音識(shí)別技術(shù),尤其涉及一種語(yǔ)音識(shí)別方法及系統(tǒng)。
      【【背景技術(shù)】】
      [0002]語(yǔ)音識(shí)別技術(shù)在近些年取得顯著進(jìn)步,語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。例如,語(yǔ)音識(shí)別技術(shù)常應(yīng)用于導(dǎo)航技術(shù)中,由于用戶在駕駛過(guò)程中不方便手動(dòng)操控導(dǎo)航客戶端,因此,語(yǔ)音輸入是一種很好的交互方式;導(dǎo)航客戶端在監(jiān)聽(tīng)狀態(tài)下,可以對(duì)用戶的語(yǔ)音指令進(jìn)行監(jiān)聽(tīng),并對(duì)語(yǔ)音指令進(jìn)行語(yǔ)音識(shí)別處理,以獲得語(yǔ)音識(shí)別結(jié)果,當(dāng)語(yǔ)音識(shí)別結(jié)果滿足喚醒條件時(shí),喚醒導(dǎo)航客戶端的語(yǔ)音導(dǎo)航功能,向用戶提供音頻形式的路況信息。
      [0003]然而,導(dǎo)航客戶端有時(shí)需要頻繁的播放路況信息,使得導(dǎo)航客戶端監(jiān)聽(tīng)到的用戶的語(yǔ)音指令中,往往摻雜有導(dǎo)航客戶端自身播放的音頻數(shù)據(jù),使得用戶的語(yǔ)音指令不能有效喚醒導(dǎo)航客戶端,導(dǎo)致喚醒導(dǎo)航客戶端的失敗概率較高。

      【發(fā)明內(nèi)容】

      [0004]有鑒于此,本發(fā)明實(shí)施例提供了一種語(yǔ)音識(shí)別方法及系統(tǒng),可以實(shí)現(xiàn)提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。
      [0005]本發(fā)明實(shí)施例提供了一種語(yǔ)音識(shí)別方法,包括:
      [0006]采集第一音頻數(shù)據(jù);
      [0007]利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果;
      [0008]其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      [0009] 上述方法中,所述利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果之前,所述方法還包括:
      [0010]獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息;
      [0011]對(duì)所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);
      [0012]對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);
      [0013]依據(jù)所述N個(gè)字符,獲得所述第一模型。
      [0014]上述方法中,所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令;所述第一模型為語(yǔ)音拒識(shí)模型,第二模型為語(yǔ)音喚醒模型。
      [0015]上述方法中,所述利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果,包括:[0016]對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;
      [0017]利用所述第一模型和所述第二模型,對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得所述語(yǔ)音識(shí)別結(jié)果。
      [0018]上述方法中,所述對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,包括:
      [0019]獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置;
      [0020]將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù);
      [0021]依據(jù)所述第二頻域數(shù)據(jù),對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
      [0022]本發(fā)明實(shí)施例還提供了一種語(yǔ)音識(shí)別系統(tǒng),包括:
      [0023]數(shù)據(jù)輸入單元,用于采集第一音頻數(shù)據(jù);
      [0024]數(shù)據(jù)識(shí)別單元,用于利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)另IJ,以獲得語(yǔ)音識(shí)別結(jié)果;
      [0025]其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      [0026]上述系統(tǒng)中,所述系統(tǒng)還包括:
      [0027]模型生成單元,用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息;對(duì)所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);依據(jù)所述N個(gè)字符,獲得所述第一模型。
      [0028]上述系統(tǒng)中,所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令;所述第一模型為語(yǔ)音拒識(shí)模型,第二模型為語(yǔ)音喚醒模型。
      [0029]上述系統(tǒng)中,所述數(shù)據(jù)識(shí)別單元具體用于:
      [0030]對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;
      [0031]利用所述第一模型和所述第二模型,對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得所述語(yǔ)音識(shí)別結(jié)果。
      [0032]上述系統(tǒng)中,所述數(shù)據(jù)識(shí)別單元對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,具體包括:
      [0033]獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置;
      [0034]將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù);
      [0035]依據(jù)所述第二頻域數(shù)據(jù),對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
      [0036]由以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下有益效果:
      [0037]客戶端將采集的音頻數(shù)據(jù)利用第一模型進(jìn)行識(shí)別,以識(shí)別出客戶端所播放的音頻數(shù)據(jù),因此,本發(fā)明實(shí)施例中能夠利用針對(duì)識(shí)別出客戶端所播放的音頻數(shù)據(jù)的模型來(lái)識(shí)別干擾的音頻數(shù)據(jù),從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果對(duì)最終的語(yǔ)音識(shí)別結(jié)果的干擾,從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果作為用于判別是否喚醒的語(yǔ)音識(shí)別結(jié)果的概率,提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。【【專(zhuān)利附圖】

      【附圖說(shuō)明】】
      [0038]為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
      [0039]圖1是本發(fā)明實(shí)施例所提供的技術(shù)方案使用的導(dǎo)航客戶端的示意圖;
      [0040]圖2是本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別方法的流程示意圖;
      [0041]圖3是本發(fā)明實(shí)施例所提供的第一模型的示意圖;
      [0042]圖4是本發(fā)明實(shí)施例所提供的客戶端利用第一模型和第二模型進(jìn)行語(yǔ)音識(shí)別的示例圖;
      [0043]圖5是本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別系統(tǒng)的功能方塊圖。
      【【具體實(shí)施方式】】
      [0044]為了更好的理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述。
      [0045]應(yīng)當(dāng)明確,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng) 域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
      [0046]在本發(fā)明實(shí)施例中使用的術(shù)語(yǔ)是僅僅出于描述特定實(shí)施例的目的,而非旨在限制本發(fā)明。在本發(fā)明實(shí)施例和所附權(quán)利要求書(shū)中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語(yǔ)“和/或”是指并包含一個(gè)或多個(gè)相關(guān)聯(lián)的列出項(xiàng)目的任何或所有可能組合。
      [0047]應(yīng)當(dāng)理解,盡管在本發(fā)明實(shí)施例中可能采用術(shù)語(yǔ)第一、第二、第三等來(lái)描述各種音頻數(shù)據(jù)和頻域數(shù)據(jù),但這些音頻數(shù)據(jù)和頻域數(shù)據(jù)不應(yīng)限于這些術(shù)語(yǔ)。這些術(shù)語(yǔ)僅用來(lái)將音頻數(shù)據(jù)和頻域數(shù)據(jù)彼此區(qū)分開(kāi)。
      [0048]取決于語(yǔ)境,如在此所使用的詞語(yǔ)“如果”或者“若”可以被解釋成為“在……時(shí)”或“當(dāng)……時(shí)”或“響應(yīng)于確定”或“響應(yīng)于檢測(cè)”。類(lèi)似地,取決于語(yǔ)境,短語(yǔ)“如果確定”或“如果檢測(cè)(陳述的條件或事件)”可以被解釋成為“當(dāng)確定時(shí)”或“響應(yīng)于確定”或“當(dāng)檢測(cè)(陳述的條件或事件)時(shí)”或“響應(yīng)于檢測(cè)(陳述的條件或事件)”。
      [0049]以客戶端為導(dǎo)航客戶端為例,本發(fā)明實(shí)施例所提供的技術(shù)方案使用的導(dǎo)航客戶端如圖1所示,主要由語(yǔ)音識(shí)別系統(tǒng)和語(yǔ)音導(dǎo)航系統(tǒng)組成,本發(fā)明實(shí)施例所提供的方法和系統(tǒng)在導(dǎo)航客戶端的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn),主要用于喚醒語(yǔ)音導(dǎo)航系統(tǒng),以使得語(yǔ)音導(dǎo)航系統(tǒng)向用戶提供語(yǔ)音導(dǎo)航服務(wù),實(shí)現(xiàn)客戶端的語(yǔ)音導(dǎo)航功能。
      [0050]本發(fā)明實(shí)施例中,所述客戶端除了可以是導(dǎo)航客戶端以外,還可以是利用語(yǔ)音交互方式向用戶提供音頻形式的信息的客戶端。所述客戶端可以位于導(dǎo)航終端、智能電視或者用戶設(shè)備上;所述用戶設(shè)備可以包括個(gè)人計(jì)算機(jī)(Personal Computer,PC)、筆記本電腦、手機(jī)或平板電腦等。
      [0051]本發(fā)明實(shí)施例給出一種語(yǔ)音識(shí)別方法,請(qǐng)參考圖2,其為本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別方法的流程示意圖,如圖所示,該方法包括以下步驟:[0052]S201,采集第一音頻數(shù)據(jù)。
      [0053]具體的,客戶端采集第一音頻數(shù)據(jù)。
      [0054]優(yōu)選的,第一音頻數(shù)據(jù)可以包含客戶端自身所播放的第二音頻數(shù)據(jù)以及除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      [0055]優(yōu)選的,若該客戶端為導(dǎo)航客戶端,則該客戶端自身所播放的第二音頻數(shù)據(jù)可以是基于文本到語(yǔ)音(Text to Speech, TTS)的音頻數(shù)據(jù),如客戶端播放的路況信息等。例如,客戶端所播放的“前方道路500米處有超速攝像頭”可以為上述第二音頻數(shù)據(jù)。再例如,除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)可以是當(dāng)用戶需要使用語(yǔ)音導(dǎo)航功能時(shí)所發(fā)出的語(yǔ)音指令,該語(yǔ)音指令用于喚醒客戶端的語(yǔ)音導(dǎo)航功能。
      [0056]優(yōu)選的,客戶端可以利用音頻采集裝置來(lái)采集上述第一音頻數(shù)據(jù)。例如,客戶端位于手機(jī)或者平板電腦上時(shí),客戶端可以利用麥克風(fēng)采集第一音頻數(shù)據(jù)。
      [0057]S202,利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果;其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      [0058]具體的,客戶端在采集到第一音頻數(shù)據(jù)后,客戶端需要利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果。其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      [0059]優(yōu)選的,所述客戶端利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)另IJ,以獲得語(yǔ)音識(shí)別結(jié)果之前,客戶端上需要預(yù)先設(shè)置第一模型和第二模型。其中,該第一模型可以包括語(yǔ)音拒識(shí)模型,該語(yǔ)音拒識(shí)模型為本發(fā)明實(shí)施例中需要預(yù)先設(shè)置在客戶端上的,第二模型可以包括語(yǔ)音喚醒模型,該語(yǔ)音喚醒模型為現(xiàn)有技術(shù)中客戶端中已經(jīng)設(shè)置好的。
      [0060]舉例說(shuō)明,若所述第一模型包括語(yǔ)音拒識(shí)模型,預(yù)先設(shè)置在客戶端上的第一模型的生成方法可以包括:
      [0061]首先,獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息。例如,若客戶端為導(dǎo)航客戶端,該導(dǎo)航客戶端播放第二音頻數(shù)據(jù)時(shí),是先依據(jù)預(yù)設(shè)的播報(bào)文本庫(kù),確定需要播報(bào)的第二音頻數(shù)據(jù)的文本信息,然后利用TTS技術(shù)將該文本信息轉(zhuǎn)換成對(duì)應(yīng)的第二音頻數(shù)據(jù),最后利用揚(yáng)聲器播放第二音頻數(shù)據(jù),如此,本發(fā)明實(shí)施例中的客戶端可以保存播放歷史記錄,從而可以依據(jù)客戶端的播放歷史記錄,統(tǒng)計(jì)每個(gè)第二音頻數(shù)據(jù)的播放次數(shù),然后獲得其中播放次數(shù)大于預(yù)設(shè)的播放次數(shù)閾值的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息。這里,不需要獲得播報(bào)文本庫(kù)中的所有文本信息,而是獲得其中播放次數(shù)較多的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息,可以減少生成第一模型時(shí)數(shù)據(jù)處理量。例如,“前方道路500米處有超速攝像頭”和“前方道路右拐”對(duì)應(yīng)的第二音頻數(shù)據(jù)的播放次數(shù)較多,則可以獲得這兩個(gè)第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息。
      [0062]然后,對(duì)獲得的文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù)。例如,在獲得客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息后,對(duì)每個(gè)文本信息分別進(jìn)行切分處理,這樣就可以將獲得的文本信息切分成R個(gè)字符,每個(gè)字符都是一個(gè)單獨(dú)的字;然后將這R個(gè)字符中的數(shù)字去除,并進(jìn)行去重處理,以獲得M個(gè)字符;去重處理用于合并R個(gè)字符中相同的字符;其中,R為大于或者等于2的整數(shù),M小于或者等于R,且M為大于或者等于2的整數(shù)。
      [0063]例如,對(duì)文本信息“前方道路500米處有超速攝像頭”和“前方道路右拐”分別進(jìn)行切分處理,獲得如下字符:前、方、道、路、500、米、處、有、超、速、攝、像、頭、前、方、道、路、右、拐。優(yōu)選的,還可以將上述字符中的數(shù)字“500”轉(zhuǎn)換為對(duì)應(yīng)的漢語(yǔ)字符,如將“500”轉(zhuǎn)換為對(duì)應(yīng)的“五百”,對(duì)于重復(fù)的字符只保留其中一個(gè),最終獲得的字符為:前、方、道、路、五、百、米、處、有、超、速、攝、像、頭、右、拐。
      [0064]接著,對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù)。優(yōu)選的,對(duì)M個(gè)字符進(jìn)行聚類(lèi)處理可以是:M個(gè)字符中每個(gè)單獨(dú)的字符都可以作為一個(gè)類(lèi)別,為了減少類(lèi)別的數(shù)目,需要對(duì)相似的類(lèi)別進(jìn)行合并。例如,可以依據(jù)M個(gè)字符,獲得每個(gè)字符對(duì)應(yīng)的拼音,依據(jù)每個(gè)字符對(duì)應(yīng)的拼音計(jì)算兩個(gè)字符的相似度;將相似度大于預(yù)設(shè)的相似度閾值的兩個(gè)字符合并為一個(gè)字符,如可以在相似度大于預(yù)設(shè)的相似度閾值的兩個(gè)字符中任意選出一個(gè)字符,保留選出的字符,去掉剩下的字符。優(yōu)選的,對(duì)所述M個(gè)字符進(jìn)行篩選處理可以是:對(duì)M個(gè)字符可以每隔一個(gè)字符進(jìn)行保留,其余的字符將被篩選掉;例如,M個(gè)字符為:前、方、道、路、五、百、米、處、有、超、速、攝、像、頭、右、拐,對(duì)該M個(gè)字符篩選后獲得:前、道、五、米、有、速、像、右。上述對(duì)M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理的目的是可以減少字符數(shù)目。
      [0065]最后,依據(jù)所述N個(gè)字符,獲得所述第一模型。可以理解的是,字符與字符之間都可以有關(guān)聯(lián)關(guān)系,也就是從一個(gè)字符可以轉(zhuǎn)移到另一個(gè)字符,每?jī)蓚€(gè)字符之間都有轉(zhuǎn)移概率,只不過(guò)每個(gè)字符轉(zhuǎn)移到另一個(gè)其他字符的轉(zhuǎn)移概率是不同的,因此依據(jù)N個(gè)字符的多種排列組合的轉(zhuǎn)移方式,可以獲得至少一個(gè)字符序列,每個(gè)字符序列中可以包括至少兩個(gè)字符。然后,依據(jù)至少一個(gè)字符序列可以獲得所述第一模型;其中,第一模型可以包括依據(jù)N個(gè)字符獲得的所有字符序列,也可以包括依據(jù)N個(gè)字符獲得的所有字符序列中權(quán)重值最大的若干字符序列。其中,字符序列的權(quán)重值可以等于字符序列中每?jī)蓚€(gè)字符之間的轉(zhuǎn)移概率的乘積,每?jī)蓚€(gè)字符之間的轉(zhuǎn)移概率的模型可以利用預(yù)設(shè)的聲學(xué)模型獲得,該聲學(xué)模型是一個(gè)概率模型,可以包括聲母與韻母同時(shí)出現(xiàn)的概率、字符與字符之間的轉(zhuǎn)移概率等。
      [0066]例如,請(qǐng)參考圖3,其為本發(fā)明實(shí)施例所提供的第一模型的示意圖,如圖所示,獲得的14個(gè)字符包括:前、方、面、道、路、有、左、右、直、行、攝、像、頭、轉(zhuǎn),依據(jù)這14個(gè)字符可以獲得圖3所示的4個(gè)字符序列,即前方道路直行、前方有攝像頭、前面左轉(zhuǎn)、前面右轉(zhuǎn)。
      [0067]優(yōu)選的,客戶端可以先對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;然后,客戶端利用所述第一模型和所述第二模型,對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得所述語(yǔ)音識(shí)別結(jié)果,這樣,客戶端在對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理之前,就可以利用回聲消除技術(shù)濾除掉部分的客戶端所播放的第二音頻數(shù)據(jù)。
      [0068]舉例說(shuō)明,所述客戶端對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理的方法可以包括:
      [0069]首先,客戶端獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置。這里,客戶端需要向用戶播放第二音頻數(shù)據(jù),因此客戶端可以獲得自身播放的第二音頻數(shù)據(jù)。例如,客戶端可以利用自相關(guān)算法,對(duì)客戶端采集的第一音頻數(shù)據(jù)與客戶端播放的第二音頻數(shù)據(jù)進(jìn)行自相關(guān)計(jì)算,以獲得第一音頻數(shù)據(jù)中所包含的第三音頻數(shù)據(jù)相對(duì)于第二音頻數(shù)據(jù)的起始位置。
      [0070]然后,客戶端依據(jù)獲得的起始位置,并利用回聲消除技術(shù)對(duì)采集的第一音頻數(shù)據(jù)進(jìn)行回聲消除處理。例如,客戶端將采集的第一音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),并將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)??蛻舳藢⒌谝活l域數(shù)據(jù)和第二頻域數(shù)據(jù)輸入濾波器,這樣濾波器可以依據(jù)所述第二頻域數(shù)據(jù),對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理,從而可以實(shí)現(xiàn)利用回聲消除技術(shù),在采集到的第一音頻數(shù)據(jù)中濾除第一音頻數(shù)據(jù)所包含的客戶端播放的第二音頻數(shù)據(jù)。
      [0071]需要說(shuō)明的是,客戶端對(duì)第一音頻數(shù)據(jù)進(jìn)行回聲消除處理只是一種優(yōu)選實(shí)施例,客戶端也可以不對(duì)第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,直接對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理。
      [0072]舉例說(shuō)明,客戶端利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果的方法可以包括:請(qǐng)參考圖4,其為本發(fā)明實(shí)施例所提供的客戶端利用第一模型和第二模型進(jìn)行語(yǔ)音識(shí)別的示例圖,如圖所示,客戶端利用第一模型對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得第一語(yǔ)音識(shí)別結(jié)果;這里,由于第一模型是依據(jù)客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息獲得的,因此第一模型在對(duì)包含第二音頻數(shù)據(jù)的第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理時(shí),能夠識(shí)別出第一音頻數(shù)據(jù)中所包含的客戶端播放的第二音頻數(shù)據(jù),如圖4所示,由于第一模型中的字符經(jīng)過(guò)了聚類(lèi)處理或者篩選處理,所以第一語(yǔ)音識(shí)別結(jié)果中只包含部分的第二音頻數(shù)據(jù)對(duì)應(yīng)的文本信息中的字符,使得識(shí)別率比較低,識(shí)別率等于識(shí)別結(jié)果中的字符數(shù)目與音頻數(shù)據(jù)中字符總數(shù)目的比值,第一語(yǔ)音識(shí)別結(jié)果的權(quán)重值與識(shí)別率呈成正比例關(guān)系,因此第一語(yǔ)音識(shí)別結(jié)果的權(quán)重值較低。同時(shí),利用第二模型對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理,以獲得第二語(yǔ)音識(shí)別結(jié)果;其中,由于第二模型是語(yǔ)音喚醒模型,語(yǔ)音喚醒模型中包括至少一個(gè)喚醒關(guān)鍵詞(如圖4中的百度導(dǎo)航),因此,利用第二模型對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理后,可以獲得第一音頻數(shù)據(jù)中包含的第三音頻數(shù)據(jù)(如用戶的語(yǔ)音指令)對(duì)應(yīng)的第二語(yǔ)音識(shí)別結(jié)果,將該第二語(yǔ)音識(shí)別結(jié)果的權(quán)重值與第一語(yǔ)音識(shí)別結(jié)果的權(quán)重值進(jìn)行比較,將其中權(quán)重值最大的語(yǔ)音識(shí)別結(jié)果作為最終的語(yǔ)音識(shí)別結(jié)果。
      [0073]可選的,在獲得最終的語(yǔ)音識(shí)別結(jié)果之后,客戶端可以判斷該最終的語(yǔ)音識(shí)別結(jié)果中是否包含預(yù)設(shè)的喚醒關(guān)鍵詞,如果包含喚醒關(guān)鍵詞,則客戶端可以喚醒客戶端的語(yǔ)音導(dǎo)航功能,以使得客戶端可以向用戶提供語(yǔ)音導(dǎo)航服務(wù),實(shí)現(xiàn)客戶端的語(yǔ)音導(dǎo)航功能。反之,如果不包含喚醒關(guān)鍵詞,則客戶端不喚醒語(yǔ)音導(dǎo)航功能。
      [0074]需要說(shuō)明的是,現(xiàn)有技術(shù)中,第一模型是通用的拒識(shí)模型,并不是針對(duì)客戶端所播放的第二音頻數(shù)據(jù)所設(shè)置的拒識(shí)模型,實(shí)際應(yīng)用中,當(dāng)客戶端對(duì)自身采集的第一音頻數(shù)據(jù),利用通用的拒識(shí)模型和語(yǔ)音喚醒模型分別進(jìn)行語(yǔ)音識(shí)別處理,分別獲得語(yǔ)音識(shí)別結(jié)果時(shí),大部分情況下拒識(shí)模型對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果的權(quán)重值會(huì)大于或者等于語(yǔ)音喚醒模型的權(quán)重值,這樣,客戶端就會(huì)將拒識(shí)模型所對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果作為最終的語(yǔ)音識(shí)別結(jié)果,并判斷拒識(shí)模型對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果是否包含預(yù)設(shè)的喚醒關(guān)鍵詞,由于拒識(shí)模型一般不會(huì)包含用戶預(yù)設(shè)的喚醒關(guān)鍵詞,因此導(dǎo)致喚醒語(yǔ)音導(dǎo)航功能失敗。本發(fā)明實(shí)施例利用上述方法,針對(duì)客戶端所播放的第二音頻數(shù)據(jù)對(duì)應(yīng)的文本信息來(lái)構(gòu)建第一模型,利用第一模型作為拒識(shí)模型,對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理,同時(shí)利用對(duì)字符的聚類(lèi)處理或篩選處理來(lái)降低第一模型對(duì)第一音頻數(shù)據(jù)中包含的第二音頻數(shù)據(jù)對(duì)應(yīng)的識(shí)別率,從而可以降低利用第一模型獲得的語(yǔ)音識(shí)別結(jié)果的權(quán)重值,使得客戶端能夠盡量將利用第二模型獲得的第二語(yǔ)音識(shí)別結(jié)果作為最終的語(yǔ)音識(shí)別結(jié)果輸出,這樣,利用第二語(yǔ)音識(shí)別結(jié)果判斷是否包含喚醒關(guān)鍵詞,第二語(yǔ)音識(shí)別結(jié)果由于是針對(duì)用戶的語(yǔ)音指令獲得的,因此一般會(huì)包含喚醒關(guān)鍵詞,從而可以成功喚醒語(yǔ)音導(dǎo)航功能,就可以提高在有客戶端播放的音頻數(shù)據(jù)的干擾情況下,語(yǔ)音喚醒的成功率。
      [0075]本發(fā)明實(shí)施例中,為了喚醒導(dǎo)航客戶端的語(yǔ)音導(dǎo)航功能,導(dǎo)航客戶端需要從采集的音頻數(shù)據(jù)中識(shí)別出預(yù)先設(shè)置的喚醒關(guān)鍵詞,用于識(shí)別出采集的音頻數(shù)據(jù)中的喚醒關(guān)鍵詞的模型就是上述語(yǔ)音喚醒模型,語(yǔ)音喚醒模型可以包含預(yù)先設(shè)置的至少一個(gè)喚醒關(guān)鍵詞,如果采集的音頻數(shù)據(jù)能夠命中語(yǔ)音喚醒模型中一個(gè)喚醒關(guān)鍵詞,就可以成功喚醒語(yǔ)音導(dǎo)航功能。對(duì)于用戶的語(yǔ)音指令以外的其他音頻數(shù)據(jù),可以定義一些非喚醒關(guān)鍵詞,用于識(shí)別出采集的音頻數(shù)據(jù)中的非喚醒關(guān)鍵詞的模型就是上述拒識(shí)模型,拒識(shí)模型可以包含預(yù)先設(shè)置的至少一個(gè)非喚醒關(guān)鍵詞,采集的音頻數(shù)據(jù)命中的非喚醒關(guān)鍵詞不能喚醒語(yǔ)音導(dǎo)航功能。
      [0076]本發(fā)明實(shí)施例進(jìn)一步給出實(shí)現(xiàn)上述方法實(shí)施例中各步驟及方法的裝置實(shí)施例。
      [0077]請(qǐng)參考圖5,其為本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別系統(tǒng)的功能方塊圖。如圖所示,該系統(tǒng)包括:
      [0078]數(shù)據(jù)輸入單元501,用于采集第一音頻數(shù)據(jù);
      [0079]數(shù)據(jù)識(shí)別單元502,用于利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果;
      [0080]其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      [0081]優(yōu)選的,所述系統(tǒng)還包括:
      [0082]模型生成單元503,用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息;對(duì)所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);依據(jù)所述N個(gè)字符,獲得所述第一模型。
      [0083]優(yōu)選的,所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令;所述第一模型為語(yǔ)音拒識(shí)模型,第二模型為語(yǔ)音喚醒模型。
      [0084]優(yōu)選的,所述數(shù)據(jù)識(shí)別單元502具體用于:對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;利用所述第一模型和所述第二模型,對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得所述語(yǔ)音識(shí)別結(jié)果。
      [0085]優(yōu)選的,所述數(shù)據(jù)識(shí)別單元502對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,具體包括:獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置;將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù);依據(jù)所述第二頻域數(shù)據(jù),對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
      [0086]由于本實(shí)施例中的各單元能夠執(zhí)行圖2所示的方法,本實(shí)施例未詳細(xì)描述的部分,可參考對(duì)圖2的相關(guān)說(shuō)明。[0087]本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
      [0088]客戶端將采集的音頻數(shù)據(jù)利用第一模型進(jìn)行識(shí)別,以識(shí)別出客戶端所播放的音頻數(shù)據(jù),因此,本發(fā)明實(shí)施例中能夠利用針對(duì)識(shí)別出客戶端所播放的音頻數(shù)據(jù)的模型來(lái)識(shí)別干擾的音頻數(shù)據(jù),從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果對(duì)最終的語(yǔ)音識(shí)別結(jié)果的干擾,從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果作為用于判別是否喚醒的語(yǔ)音識(shí)別結(jié)果的概率,提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。
      [0089]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
      【權(quán)利要求】
      1.一種語(yǔ)音識(shí)別方法,其特征在于,所述方法包括: 采集第一音頻數(shù)據(jù); 利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果; 其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果之前,所述方法還包括: 獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息; 對(duì)所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù); 依據(jù)所述N個(gè)字符,獲得所述第一模型。
      3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于, 所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令; 所述第一模型為語(yǔ)音拒識(shí)模型,第二模型為語(yǔ)音喚醒模型。
      4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果,包括: 對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理; 利用所述第一模型和所述第二模型,對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得所述語(yǔ)音識(shí)別結(jié)果。
      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,包括: 獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置; 將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù); 依據(jù)所述第二頻域數(shù)據(jù),對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
      6.一種語(yǔ)音識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括: 數(shù)據(jù)輸入單元,用于采集第一音頻數(shù)據(jù); 數(shù)據(jù)識(shí)別單元,用于利用第一模型和第二模型,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得語(yǔ)音識(shí)別結(jié)果; 其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
      7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 模型生成單元,用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息;對(duì)所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);依據(jù)所述N個(gè)字符,獲得所述第一模型。
      8.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于, 所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令; 所述第一模型為語(yǔ)音拒識(shí)模型,第二模型為語(yǔ)音喚醒模型。
      9.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于,所述數(shù)據(jù)識(shí)別單元具體用于: 對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理; 利用所述第一模型和所述第二模型,對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以獲得所述語(yǔ)音識(shí)別結(jié)果。
      10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述數(shù)據(jù)識(shí)別單元對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,具體包括: 獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置; 將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù); 依據(jù)所述第二頻域數(shù)據(jù),對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
      【文檔編號(hào)】G10L15/20GK103971681SQ201410168436
      【公開(kāi)日】2014年8月6日 申請(qǐng)日期:2014年4月24日 優(yōu)先權(quán)日:2014年4月24日
      【發(fā)明者】穆向禹, 彭守業(yè), 劉思成, 賈磊 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1