一種語(yǔ)音識(shí)別方法及系統(tǒng)的制作方法

文檔序號(hào)：2827450閱讀：283來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語(yǔ)音識(shí)別方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例提供了一種語(yǔ)音識(shí)別方法，包括：采集第一音頻數(shù)據(jù)；利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果；其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)；本發(fā)明實(shí)施例還提供一種語(yǔ)音識(shí)別系統(tǒng)。根據(jù)本發(fā)明實(shí)施例提供的技術(shù)方案，可以實(shí)現(xiàn)提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。
【專(zhuān)利說(shuō)明】一種語(yǔ)音識(shí)別方法及系統(tǒng)
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)，尤其涉及一種語(yǔ)音識(shí)別方法及系統(tǒng)。
【【背景技術(shù)】】
[0002]語(yǔ)音識(shí)別技術(shù)在近些年取得顯著進(jìn)步，語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。例如，語(yǔ)音識(shí)別技術(shù)常應(yīng)用于導(dǎo)航技術(shù)中，由于用戶在駕駛過(guò)程中不方便手動(dòng)操控導(dǎo)航客戶端，因此，語(yǔ)音輸入是一種很好的交互方式；導(dǎo)航客戶端在監(jiān)聽(tīng)狀態(tài)下，可以對(duì)用戶的語(yǔ)音指令進(jìn)行監(jiān)聽(tīng)，并對(duì)語(yǔ)音指令進(jìn)行語(yǔ)音識(shí)別處理，以獲得語(yǔ)音識(shí)別結(jié)果，當(dāng)語(yǔ)音識(shí)別結(jié)果滿足喚醒條件時(shí)，喚醒導(dǎo)航客戶端的語(yǔ)音導(dǎo)航功能，向用戶提供音頻形式的路況信息。
[0003]然而，導(dǎo)航客戶端有時(shí)需要頻繁的播放路況信息，使得導(dǎo)航客戶端監(jiān)聽(tīng)到的用戶的語(yǔ)音指令中，往往摻雜有導(dǎo)航客戶端自身播放的音頻數(shù)據(jù)，使得用戶的語(yǔ)音指令不能有效喚醒導(dǎo)航客戶端，導(dǎo)致喚醒導(dǎo)航客戶端的失敗概率較高。
【
【發(fā)明內(nèi)容】
】
[0004]有鑒于此，本發(fā)明實(shí)施例提供了一種語(yǔ)音識(shí)別方法及系統(tǒng)，可以實(shí)現(xiàn)提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。
[0005]本發(fā)明實(shí)施例提供了一種語(yǔ)音識(shí)別方法，包括:
[0006]采集第一音頻數(shù)據(jù)；
[0007]利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果;
[0008]其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0009] 上述方法中，所述利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果之前，所述方法還包括:
[0010]獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息；
[0011]對(duì)所述文本信息進(jìn)行切分處理，以獲得M個(gè)字符，所述M為大于或者等于2的整數(shù)；
[0012]對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理，以獲得N個(gè)字符，所述N為小于或者等于M的正整數(shù)；
[0013]依據(jù)所述N個(gè)字符，獲得所述第一模型。
[0014]上述方法中，所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令；所述第一模型為語(yǔ)音拒識(shí)模型，第二模型為語(yǔ)音喚醒模型。
[0015]上述方法中，所述利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果，包括:[0016]對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理；
[0017]利用所述第一模型和所述第二模型，對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得所述語(yǔ)音識(shí)別結(jié)果。
[0018]上述方法中，所述對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理，包括:
[0019]獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置；
[0020]將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù)，將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)；
[0021]依據(jù)所述第二頻域數(shù)據(jù)，對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
[0022]本發(fā)明實(shí)施例還提供了一種語(yǔ)音識(shí)別系統(tǒng)，包括:
[0023]數(shù)據(jù)輸入單元，用于采集第一音頻數(shù)據(jù)；
[0024]數(shù)據(jù)識(shí)別單元，用于利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)另IJ，以獲得語(yǔ)音識(shí)別結(jié)果；
[0025]其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0026]上述系統(tǒng)中，所述系統(tǒng)還包括:
[0027]模型生成單元，用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息；對(duì)所述文本信息進(jìn)行切分處理，以獲得M個(gè)字符，所述M為大于或者等于2的整數(shù)；對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理，以獲得N個(gè)字符，所述N為小于或者等于M的正整數(shù)；依據(jù)所述N個(gè)字符，獲得所述第一模型。
[0028]上述系統(tǒng)中，所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令；所述第一模型為語(yǔ)音拒識(shí)模型，第二模型為語(yǔ)音喚醒模型。
[0029]上述系統(tǒng)中，所述數(shù)據(jù)識(shí)別單元具體用于:
[0030]對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理；
[0031]利用所述第一模型和所述第二模型，對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得所述語(yǔ)音識(shí)別結(jié)果。
[0032]上述系統(tǒng)中，所述數(shù)據(jù)識(shí)別單元對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理，具體包括:
[0033]獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置；
[0034]將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù)，將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)；
[0035]依據(jù)所述第二頻域數(shù)據(jù)，對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
[0036]由以上技術(shù)方案可以看出，本發(fā)明實(shí)施例具有以下有益效果:
[0037]客戶端將采集的音頻數(shù)據(jù)利用第一模型進(jìn)行識(shí)別，以識(shí)別出客戶端所播放的音頻數(shù)據(jù)，因此，本發(fā)明實(shí)施例中能夠利用針對(duì)識(shí)別出客戶端所播放的音頻數(shù)據(jù)的模型來(lái)識(shí)別干擾的音頻數(shù)據(jù)，從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果對(duì)最終的語(yǔ)音識(shí)別結(jié)果的干擾，從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果作為用于判別是否喚醒的語(yǔ)音識(shí)別結(jié)果的概率，提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。【【專(zhuān)利附圖】

【附圖說(shuō)明】】
[0038]為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其它的附圖。
[0039]圖1是本發(fā)明實(shí)施例所提供的技術(shù)方案使用的導(dǎo)航客戶端的示意圖；
[0040]圖2是本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別方法的流程示意圖；
[0041]圖3是本發(fā)明實(shí)施例所提供的第一模型的示意圖；
[0042]圖4是本發(fā)明實(shí)施例所提供的客戶端利用第一模型和第二模型進(jìn)行語(yǔ)音識(shí)別的示例圖；
[0043]圖5是本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別系統(tǒng)的功能方塊圖。
【【具體實(shí)施方式】】
[0044]為了更好的理解本發(fā)明的技術(shù)方案，下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述。
[0045]應(yīng)當(dāng)明確，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng) 域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0046]在本發(fā)明實(shí)施例中使用的術(shù)語(yǔ)是僅僅出于描述特定實(shí)施例的目的，而非旨在限制本發(fā)明。在本發(fā)明實(shí)施例和所附權(quán)利要求書(shū)中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式，除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解，本文中使用的術(shù)語(yǔ)“和/或”是指并包含一個(gè)或多個(gè)相關(guān)聯(lián)的列出項(xiàng)目的任何或所有可能組合。
[0047]應(yīng)當(dāng)理解，盡管在本發(fā)明實(shí)施例中可能采用術(shù)語(yǔ)第一、第二、第三等來(lái)描述各種音頻數(shù)據(jù)和頻域數(shù)據(jù)，但這些音頻數(shù)據(jù)和頻域數(shù)據(jù)不應(yīng)限于這些術(shù)語(yǔ)。這些術(shù)語(yǔ)僅用來(lái)將音頻數(shù)據(jù)和頻域數(shù)據(jù)彼此區(qū)分開(kāi)。
[0048]取決于語(yǔ)境，如在此所使用的詞語(yǔ)“如果”或者“若”可以被解釋成為“在……時(shí)”或“當(dāng)……時(shí)”或“響應(yīng)于確定”或“響應(yīng)于檢測(cè)”。類(lèi)似地，取決于語(yǔ)境，短語(yǔ)“如果確定”或“如果檢測(cè)(陳述的條件或事件)”可以被解釋成為“當(dāng)確定時(shí)”或“響應(yīng)于確定”或“當(dāng)檢測(cè)(陳述的條件或事件)時(shí)”或“響應(yīng)于檢測(cè)(陳述的條件或事件)”。
[0049]以客戶端為導(dǎo)航客戶端為例，本發(fā)明實(shí)施例所提供的技術(shù)方案使用的導(dǎo)航客戶端如圖1所示，主要由語(yǔ)音識(shí)別系統(tǒng)和語(yǔ)音導(dǎo)航系統(tǒng)組成，本發(fā)明實(shí)施例所提供的方法和系統(tǒng)在導(dǎo)航客戶端的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)，主要用于喚醒語(yǔ)音導(dǎo)航系統(tǒng)，以使得語(yǔ)音導(dǎo)航系統(tǒng)向用戶提供語(yǔ)音導(dǎo)航服務(wù)，實(shí)現(xiàn)客戶端的語(yǔ)音導(dǎo)航功能。
[0050]本發(fā)明實(shí)施例中，所述客戶端除了可以是導(dǎo)航客戶端以外，還可以是利用語(yǔ)音交互方式向用戶提供音頻形式的信息的客戶端。所述客戶端可以位于導(dǎo)航終端、智能電視或者用戶設(shè)備上；所述用戶設(shè)備可以包括個(gè)人計(jì)算機(jī)(Personal Computer,PC)、筆記本電腦、手機(jī)或平板電腦等。
[0051]本發(fā)明實(shí)施例給出一種語(yǔ)音識(shí)別方法，請(qǐng)參考圖2，其為本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別方法的流程示意圖，如圖所示，該方法包括以下步驟:[0052]S201，采集第一音頻數(shù)據(jù)。
[0053]具體的，客戶端采集第一音頻數(shù)據(jù)。
[0054]優(yōu)選的，第一音頻數(shù)據(jù)可以包含客戶端自身所播放的第二音頻數(shù)據(jù)以及除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0055]優(yōu)選的，若該客戶端為導(dǎo)航客戶端，則該客戶端自身所播放的第二音頻數(shù)據(jù)可以是基于文本到語(yǔ)音(Text to Speech, TTS)的音頻數(shù)據(jù),如客戶端播放的路況信息等。例如，客戶端所播放的“前方道路500米處有超速攝像頭”可以為上述第二音頻數(shù)據(jù)。再例如，除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)可以是當(dāng)用戶需要使用語(yǔ)音導(dǎo)航功能時(shí)所發(fā)出的語(yǔ)音指令，該語(yǔ)音指令用于喚醒客戶端的語(yǔ)音導(dǎo)航功能。
[0056]優(yōu)選的，客戶端可以利用音頻采集裝置來(lái)采集上述第一音頻數(shù)據(jù)。例如，客戶端位于手機(jī)或者平板電腦上時(shí)，客戶端可以利用麥克風(fēng)采集第一音頻數(shù)據(jù)。
[0057]S202，利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果；其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0058]具體的，客戶端在采集到第一音頻數(shù)據(jù)后，客戶端需要利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果。其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0059]優(yōu)選的，所述客戶端利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)另IJ，以獲得語(yǔ)音識(shí)別結(jié)果之前，客戶端上需要預(yù)先設(shè)置第一模型和第二模型。其中，該第一模型可以包括語(yǔ)音拒識(shí)模型，該語(yǔ)音拒識(shí)模型為本發(fā)明實(shí)施例中需要預(yù)先設(shè)置在客戶端上的，第二模型可以包括語(yǔ)音喚醒模型，該語(yǔ)音喚醒模型為現(xiàn)有技術(shù)中客戶端中已經(jīng)設(shè)置好的。
[0060]舉例說(shuō)明，若所述第一模型包括語(yǔ)音拒識(shí)模型，預(yù)先設(shè)置在客戶端上的第一模型的生成方法可以包括:
[0061]首先，獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息。例如，若客戶端為導(dǎo)航客戶端，該導(dǎo)航客戶端播放第二音頻數(shù)據(jù)時(shí)，是先依據(jù)預(yù)設(shè)的播報(bào)文本庫(kù)，確定需要播報(bào)的第二音頻數(shù)據(jù)的文本信息，然后利用TTS技術(shù)將該文本信息轉(zhuǎn)換成對(duì)應(yīng)的第二音頻數(shù)據(jù)，最后利用揚(yáng)聲器播放第二音頻數(shù)據(jù)，如此，本發(fā)明實(shí)施例中的客戶端可以保存播放歷史記錄，從而可以依據(jù)客戶端的播放歷史記錄，統(tǒng)計(jì)每個(gè)第二音頻數(shù)據(jù)的播放次數(shù)，然后獲得其中播放次數(shù)大于預(yù)設(shè)的播放次數(shù)閾值的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息。這里，不需要獲得播報(bào)文本庫(kù)中的所有文本信息，而是獲得其中播放次數(shù)較多的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息，可以減少生成第一模型時(shí)數(shù)據(jù)處理量。例如，“前方道路500米處有超速攝像頭”和“前方道路右拐”對(duì)應(yīng)的第二音頻數(shù)據(jù)的播放次數(shù)較多，則可以獲得這兩個(gè)第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息。
[0062]然后，對(duì)獲得的文本信息進(jìn)行切分處理，以獲得M個(gè)字符，所述M為大于或者等于2的整數(shù)。例如，在獲得客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息后，對(duì)每個(gè)文本信息分別進(jìn)行切分處理，這樣就可以將獲得的文本信息切分成R個(gè)字符，每個(gè)字符都是一個(gè)單獨(dú)的字；然后將這R個(gè)字符中的數(shù)字去除，并進(jìn)行去重處理，以獲得M個(gè)字符；去重處理用于合并R個(gè)字符中相同的字符；其中，R為大于或者等于2的整數(shù)，M小于或者等于R，且M為大于或者等于2的整數(shù)。
[0063]例如，對(duì)文本信息“前方道路500米處有超速攝像頭”和“前方道路右拐”分別進(jìn)行切分處理，獲得如下字符:前、方、道、路、500、米、處、有、超、速、攝、像、頭、前、方、道、路、右、拐。優(yōu)選的，還可以將上述字符中的數(shù)字“500”轉(zhuǎn)換為對(duì)應(yīng)的漢語(yǔ)字符，如將“500”轉(zhuǎn)換為對(duì)應(yīng)的“五百”，對(duì)于重復(fù)的字符只保留其中一個(gè)，最終獲得的字符為:前、方、道、路、五、百、米、處、有、超、速、攝、像、頭、右、拐。
[0064]接著，對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理，以獲得N個(gè)字符，所述N為小于或者等于M的正整數(shù)。優(yōu)選的，對(duì)M個(gè)字符進(jìn)行聚類(lèi)處理可以是:M個(gè)字符中每個(gè)單獨(dú)的字符都可以作為一個(gè)類(lèi)別，為了減少類(lèi)別的數(shù)目，需要對(duì)相似的類(lèi)別進(jìn)行合并。例如，可以依據(jù)M個(gè)字符，獲得每個(gè)字符對(duì)應(yīng)的拼音，依據(jù)每個(gè)字符對(duì)應(yīng)的拼音計(jì)算兩個(gè)字符的相似度；將相似度大于預(yù)設(shè)的相似度閾值的兩個(gè)字符合并為一個(gè)字符，如可以在相似度大于預(yù)設(shè)的相似度閾值的兩個(gè)字符中任意選出一個(gè)字符，保留選出的字符，去掉剩下的字符。優(yōu)選的，對(duì)所述M個(gè)字符進(jìn)行篩選處理可以是:對(duì)M個(gè)字符可以每隔一個(gè)字符進(jìn)行保留，其余的字符將被篩選掉；例如，M個(gè)字符為:前、方、道、路、五、百、米、處、有、超、速、攝、像、頭、右、拐，對(duì)該M個(gè)字符篩選后獲得:前、道、五、米、有、速、像、右。上述對(duì)M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理的目的是可以減少字符數(shù)目。
[0065]最后，依據(jù)所述N個(gè)字符，獲得所述第一模型。可以理解的是，字符與字符之間都可以有關(guān)聯(lián)關(guān)系，也就是從一個(gè)字符可以轉(zhuǎn)移到另一個(gè)字符，每?jī)蓚€(gè)字符之間都有轉(zhuǎn)移概率，只不過(guò)每個(gè)字符轉(zhuǎn)移到另一個(gè)其他字符的轉(zhuǎn)移概率是不同的，因此依據(jù)N個(gè)字符的多種排列組合的轉(zhuǎn)移方式，可以獲得至少一個(gè)字符序列，每個(gè)字符序列中可以包括至少兩個(gè)字符。然后，依據(jù)至少一個(gè)字符序列可以獲得所述第一模型；其中，第一模型可以包括依據(jù)N個(gè)字符獲得的所有字符序列，也可以包括依據(jù)N個(gè)字符獲得的所有字符序列中權(quán)重值最大的若干字符序列。其中，字符序列的權(quán)重值可以等于字符序列中每?jī)蓚€(gè)字符之間的轉(zhuǎn)移概率的乘積，每?jī)蓚€(gè)字符之間的轉(zhuǎn)移概率的模型可以利用預(yù)設(shè)的聲學(xué)模型獲得，該聲學(xué)模型是一個(gè)概率模型，可以包括聲母與韻母同時(shí)出現(xiàn)的概率、字符與字符之間的轉(zhuǎn)移概率等。
[0066]例如，請(qǐng)參考圖3，其為本發(fā)明實(shí)施例所提供的第一模型的示意圖，如圖所示，獲得的14個(gè)字符包括:前、方、面、道、路、有、左、右、直、行、攝、像、頭、轉(zhuǎn)，依據(jù)這14個(gè)字符可以獲得圖3所示的4個(gè)字符序列，即前方道路直行、前方有攝像頭、前面左轉(zhuǎn)、前面右轉(zhuǎn)。
[0067]優(yōu)選的，客戶端可以先對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理；然后，客戶端利用所述第一模型和所述第二模型，對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得所述語(yǔ)音識(shí)別結(jié)果，這樣，客戶端在對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理之前，就可以利用回聲消除技術(shù)濾除掉部分的客戶端所播放的第二音頻數(shù)據(jù)。
[0068]舉例說(shuō)明，所述客戶端對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理的方法可以包括:
[0069]首先，客戶端獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置。這里，客戶端需要向用戶播放第二音頻數(shù)據(jù)，因此客戶端可以獲得自身播放的第二音頻數(shù)據(jù)。例如，客戶端可以利用自相關(guān)算法，對(duì)客戶端采集的第一音頻數(shù)據(jù)與客戶端播放的第二音頻數(shù)據(jù)進(jìn)行自相關(guān)計(jì)算，以獲得第一音頻數(shù)據(jù)中所包含的第三音頻數(shù)據(jù)相對(duì)于第二音頻數(shù)據(jù)的起始位置。
[0070]然后，客戶端依據(jù)獲得的起始位置，并利用回聲消除技術(shù)對(duì)采集的第一音頻數(shù)據(jù)進(jìn)行回聲消除處理。例如，客戶端將采集的第一音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù)，并將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)?？蛻舳藢⒌谝活l域數(shù)據(jù)和第二頻域數(shù)據(jù)輸入濾波器，這樣濾波器可以依據(jù)所述第二頻域數(shù)據(jù)，對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理，從而可以實(shí)現(xiàn)利用回聲消除技術(shù)，在采集到的第一音頻數(shù)據(jù)中濾除第一音頻數(shù)據(jù)所包含的客戶端播放的第二音頻數(shù)據(jù)。
[0071]需要說(shuō)明的是，客戶端對(duì)第一音頻數(shù)據(jù)進(jìn)行回聲消除處理只是一種優(yōu)選實(shí)施例，客戶端也可以不對(duì)第一音頻數(shù)據(jù)進(jìn)行回聲消除處理，直接對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理。
[0072]舉例說(shuō)明，客戶端利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果的方法可以包括:請(qǐng)參考圖4，其為本發(fā)明實(shí)施例所提供的客戶端利用第一模型和第二模型進(jìn)行語(yǔ)音識(shí)別的示例圖，如圖所示，客戶端利用第一模型對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得第一語(yǔ)音識(shí)別結(jié)果；這里，由于第一模型是依據(jù)客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息獲得的，因此第一模型在對(duì)包含第二音頻數(shù)據(jù)的第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理時(shí)，能夠識(shí)別出第一音頻數(shù)據(jù)中所包含的客戶端播放的第二音頻數(shù)據(jù)，如圖4所示，由于第一模型中的字符經(jīng)過(guò)了聚類(lèi)處理或者篩選處理，所以第一語(yǔ)音識(shí)別結(jié)果中只包含部分的第二音頻數(shù)據(jù)對(duì)應(yīng)的文本信息中的字符，使得識(shí)別率比較低，識(shí)別率等于識(shí)別結(jié)果中的字符數(shù)目與音頻數(shù)據(jù)中字符總數(shù)目的比值，第一語(yǔ)音識(shí)別結(jié)果的權(quán)重值與識(shí)別率呈成正比例關(guān)系，因此第一語(yǔ)音識(shí)別結(jié)果的權(quán)重值較低。同時(shí)，利用第二模型對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理，以獲得第二語(yǔ)音識(shí)別結(jié)果；其中，由于第二模型是語(yǔ)音喚醒模型，語(yǔ)音喚醒模型中包括至少一個(gè)喚醒關(guān)鍵詞(如圖4中的百度導(dǎo)航)，因此，利用第二模型對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理后，可以獲得第一音頻數(shù)據(jù)中包含的第三音頻數(shù)據(jù)(如用戶的語(yǔ)音指令)對(duì)應(yīng)的第二語(yǔ)音識(shí)別結(jié)果，將該第二語(yǔ)音識(shí)別結(jié)果的權(quán)重值與第一語(yǔ)音識(shí)別結(jié)果的權(quán)重值進(jìn)行比較，將其中權(quán)重值最大的語(yǔ)音識(shí)別結(jié)果作為最終的語(yǔ)音識(shí)別結(jié)果。
[0073]可選的，在獲得最終的語(yǔ)音識(shí)別結(jié)果之后，客戶端可以判斷該最終的語(yǔ)音識(shí)別結(jié)果中是否包含預(yù)設(shè)的喚醒關(guān)鍵詞，如果包含喚醒關(guān)鍵詞，則客戶端可以喚醒客戶端的語(yǔ)音導(dǎo)航功能，以使得客戶端可以向用戶提供語(yǔ)音導(dǎo)航服務(wù)，實(shí)現(xiàn)客戶端的語(yǔ)音導(dǎo)航功能。反之，如果不包含喚醒關(guān)鍵詞，則客戶端不喚醒語(yǔ)音導(dǎo)航功能。
[0074]需要說(shuō)明的是，現(xiàn)有技術(shù)中，第一模型是通用的拒識(shí)模型，并不是針對(duì)客戶端所播放的第二音頻數(shù)據(jù)所設(shè)置的拒識(shí)模型，實(shí)際應(yīng)用中，當(dāng)客戶端對(duì)自身采集的第一音頻數(shù)據(jù)，利用通用的拒識(shí)模型和語(yǔ)音喚醒模型分別進(jìn)行語(yǔ)音識(shí)別處理，分別獲得語(yǔ)音識(shí)別結(jié)果時(shí)，大部分情況下拒識(shí)模型對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果的權(quán)重值會(huì)大于或者等于語(yǔ)音喚醒模型的權(quán)重值，這樣，客戶端就會(huì)將拒識(shí)模型所對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果作為最終的語(yǔ)音識(shí)別結(jié)果，并判斷拒識(shí)模型對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果是否包含預(yù)設(shè)的喚醒關(guān)鍵詞，由于拒識(shí)模型一般不會(huì)包含用戶預(yù)設(shè)的喚醒關(guān)鍵詞，因此導(dǎo)致喚醒語(yǔ)音導(dǎo)航功能失敗。本發(fā)明實(shí)施例利用上述方法，針對(duì)客戶端所播放的第二音頻數(shù)據(jù)對(duì)應(yīng)的文本信息來(lái)構(gòu)建第一模型，利用第一模型作為拒識(shí)模型，對(duì)第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理，同時(shí)利用對(duì)字符的聚類(lèi)處理或篩選處理來(lái)降低第一模型對(duì)第一音頻數(shù)據(jù)中包含的第二音頻數(shù)據(jù)對(duì)應(yīng)的識(shí)別率，從而可以降低利用第一模型獲得的語(yǔ)音識(shí)別結(jié)果的權(quán)重值，使得客戶端能夠盡量將利用第二模型獲得的第二語(yǔ)音識(shí)別結(jié)果作為最終的語(yǔ)音識(shí)別結(jié)果輸出，這樣，利用第二語(yǔ)音識(shí)別結(jié)果判斷是否包含喚醒關(guān)鍵詞，第二語(yǔ)音識(shí)別結(jié)果由于是針對(duì)用戶的語(yǔ)音指令獲得的，因此一般會(huì)包含喚醒關(guān)鍵詞，從而可以成功喚醒語(yǔ)音導(dǎo)航功能，就可以提高在有客戶端播放的音頻數(shù)據(jù)的干擾情況下，語(yǔ)音喚醒的成功率。
[0075]本發(fā)明實(shí)施例中，為了喚醒導(dǎo)航客戶端的語(yǔ)音導(dǎo)航功能，導(dǎo)航客戶端需要從采集的音頻數(shù)據(jù)中識(shí)別出預(yù)先設(shè)置的喚醒關(guān)鍵詞，用于識(shí)別出采集的音頻數(shù)據(jù)中的喚醒關(guān)鍵詞的模型就是上述語(yǔ)音喚醒模型，語(yǔ)音喚醒模型可以包含預(yù)先設(shè)置的至少一個(gè)喚醒關(guān)鍵詞，如果采集的音頻數(shù)據(jù)能夠命中語(yǔ)音喚醒模型中一個(gè)喚醒關(guān)鍵詞，就可以成功喚醒語(yǔ)音導(dǎo)航功能。對(duì)于用戶的語(yǔ)音指令以外的其他音頻數(shù)據(jù)，可以定義一些非喚醒關(guān)鍵詞，用于識(shí)別出采集的音頻數(shù)據(jù)中的非喚醒關(guān)鍵詞的模型就是上述拒識(shí)模型，拒識(shí)模型可以包含預(yù)先設(shè)置的至少一個(gè)非喚醒關(guān)鍵詞，采集的音頻數(shù)據(jù)命中的非喚醒關(guān)鍵詞不能喚醒語(yǔ)音導(dǎo)航功能。
[0076]本發(fā)明實(shí)施例進(jìn)一步給出實(shí)現(xiàn)上述方法實(shí)施例中各步驟及方法的裝置實(shí)施例。
[0077]請(qǐng)參考圖5，其為本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別系統(tǒng)的功能方塊圖。如圖所示，該系統(tǒng)包括:
[0078]數(shù)據(jù)輸入單元501，用于采集第一音頻數(shù)據(jù)；
[0079]數(shù)據(jù)識(shí)別單元502，用于利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果；
[0080]其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0081]優(yōu)選的，所述系統(tǒng)還包括:
[0082]模型生成單元503，用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息；對(duì)所述文本信息進(jìn)行切分處理，以獲得M個(gè)字符，所述M為大于或者等于2的整數(shù)；對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理，以獲得N個(gè)字符，所述N為小于或者等于M的正整數(shù)；依據(jù)所述N個(gè)字符，獲得所述第一模型。
[0083]優(yōu)選的，所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令；所述第一模型為語(yǔ)音拒識(shí)模型，第二模型為語(yǔ)音喚醒模型。
[0084]優(yōu)選的，所述數(shù)據(jù)識(shí)別單元502具體用于:對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理；利用所述第一模型和所述第二模型，對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得所述語(yǔ)音識(shí)別結(jié)果。
[0085]優(yōu)選的，所述數(shù)據(jù)識(shí)別單元502對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理，具體包括:獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置；將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù)，將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)；依據(jù)所述第二頻域數(shù)據(jù)，對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
[0086]由于本實(shí)施例中的各單元能夠執(zhí)行圖2所示的方法，本實(shí)施例未詳細(xì)描述的部分，可參考對(duì)圖2的相關(guān)說(shuō)明。[0087]本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
[0088]客戶端將采集的音頻數(shù)據(jù)利用第一模型進(jìn)行識(shí)別，以識(shí)別出客戶端所播放的音頻數(shù)據(jù)，因此，本發(fā)明實(shí)施例中能夠利用針對(duì)識(shí)別出客戶端所播放的音頻數(shù)據(jù)的模型來(lái)識(shí)別干擾的音頻數(shù)據(jù)，從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果對(duì)最終的語(yǔ)音識(shí)別結(jié)果的干擾，從而可以降低客戶端所播放的音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果作為用于判別是否喚醒的語(yǔ)音識(shí)別結(jié)果的概率，提高語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音喚醒的成功率。
[0089]以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種語(yǔ)音識(shí)別方法，其特征在于，所述方法包括: 采集第一音頻數(shù)據(jù)；利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果; 其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果之前，所述方法還包括: 獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息；對(duì)所述文本信息進(jìn)行切分處理，以獲得M個(gè)字符，所述M為大于或者等于2的整數(shù)；對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理，以獲得N個(gè)字符，所述N為小于或者等于M的正整數(shù)；依據(jù)所述N個(gè)字符，獲得所述第一模型。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令；所述第一模型為語(yǔ)音拒識(shí)模型，第二模型為語(yǔ)音喚醒模型。
4.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果，包括: 對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理；利用所述第一模型和所述第二模型，對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得所述語(yǔ)音識(shí)別結(jié)果。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理，包括: 獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置；將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù)，將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)；依據(jù)所述第二頻域數(shù)據(jù)，對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
6.一種語(yǔ)音識(shí)別系統(tǒng)，其特征在于，所述系統(tǒng)包括: 數(shù)據(jù)輸入單元，用于采集第一音頻數(shù)據(jù)；數(shù)據(jù)識(shí)別單元，用于利用第一模型和第二模型，對(duì)所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得語(yǔ)音識(shí)別結(jié)果；其中，所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù)，所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括: 模型生成單元，用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對(duì)應(yīng)的文本信息；對(duì)所述文本信息進(jìn)行切分處理，以獲得M個(gè)字符，所述M為大于或者等于2的整數(shù)；對(duì)所述M個(gè)字符進(jìn)行聚類(lèi)處理或者篩選處理，以獲得N個(gè)字符，所述N為小于或者等于M的正整數(shù)；依據(jù)所述N個(gè)字符，獲得所述第一模型。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng)，其特征在于，所述第三音頻數(shù)據(jù)為用戶的語(yǔ)音指令；所述第一模型為語(yǔ)音拒識(shí)模型，第二模型為語(yǔ)音喚醒模型。
9.根據(jù)權(quán)利要求6或7所述的系統(tǒng)，其特征在于，所述數(shù)據(jù)識(shí)別單元具體用于: 對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理；利用所述第一模型和所述第二模型，對(duì)回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別，以獲得所述語(yǔ)音識(shí)別結(jié)果。
10.根據(jù)權(quán)利要求9所述的系統(tǒng)，其特征在于，所述數(shù)據(jù)識(shí)別單元對(duì)采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理，具體包括: 獲得所述第三音頻數(shù)據(jù)相對(duì)于所述第二音頻數(shù)據(jù)的起始位置；將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù)，將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)；依據(jù)所述第二頻域數(shù)據(jù)，對(duì)所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
【文檔編號(hào)】G10L15/20GK103971681SQ201410168436
【公開(kāi)日】2014年8月6日申請(qǐng)日期:2014年4月24日優(yōu)先權(quán)日:2014年4月24日
【發(fā)明者】穆向禹, 彭守業(yè), 劉思成, 賈磊申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：穆向禹;彭守業(yè);劉思成;賈磊
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
我是此專(zhuān)利的發(fā)明人