一種語音識別方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種語音識別方法及裝置,該媒體資源服務(wù)器包括:接收模塊,用于根據(jù)收到終端發(fā)送來的開始一次會話的識別請求;會話分類處理模塊,用于根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果;會話終止模塊,用于接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。本發(fā)明公開的方法和裝置通過設(shè)定的參數(shù)使終端和媒體資源服務(wù)器確定語音識別的場景,從而達(dá)到連續(xù)不斷的將多次語音識別結(jié)果作為中間識別結(jié)果進(jìn)行上報(bào),提高語音識別的連續(xù)性的效果。
【專利說明】一種語音識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別【技術(shù)領(lǐng)域】,尤其涉及一種語音識別方法及裝置。
【背景技術(shù)】
[0002]自動語音識別技術(shù)(Automatic Speech Recognit1n, ASR)是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。語音識別是一個多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計(jì)算機(jī)科學(xué)等眾多學(xué)科緊密相連。其廣泛應(yīng)用于語音通訊系統(tǒng)、聲控電話交換、數(shù)據(jù)查詢、訂票系統(tǒng)、電信銀行客服、計(jì)算機(jī)控制、工業(yè)控制等領(lǐng)域。
[0003]媒體資源服務(wù)器向終端提供各種語音服務(wù)時一般采用媒體資源控制協(xié)議(MediaResource Control Protocol, MRCP),該通訊協(xié)議由IETF在RFC4463中定義,目前已定義的功能有語音識別(Speech Recognize)、語音合成(Speech synthesis)、錄音(Record)、說話人鑒別和確認(rèn)(Speaker Verificat1n and Identificat1n)。MRCP 并不定義會話連接,不關(guān)心服務(wù)器與終端是如何連接的,MRCP消息使用實(shí)時流協(xié)議(Real-Time StreamingProtocol, RTSP)、初始會話協(xié)議(Sess1n Initiat1n Protocol, SIP)等作為控制協(xié)議等,目前MRCPv2版本,使用SIP控制協(xié)議。現(xiàn)有的MRCPv2的系統(tǒng)架構(gòu)主要包括MRCP終端和MRCP服務(wù)器,其中:
[0004]MRCP終端(MRCP Client)用于控制MRCP Server上的一種或者多種媒體資源。
[0005]MRCP服務(wù)器(MRCP Server)用于提供一種或者多種媒體資源,比如文語轉(zhuǎn)換、語音識別、語音身份辨認(rèn)、錄音。
[0006]MRCP終端和MRCP服務(wù)器在進(jìn)行數(shù)據(jù)交互時,可以通過以下協(xié)議實(shí)現(xiàn):
[0007]MRCP協(xié)議第二個大版本(MRCPv2)是基于TCP連接,用于控制MRCP Server的媒體資源,以完成MRCP Client的媒體資源使用任務(wù)。
[0008]初始會話協(xié)議(SIP),用于實(shí)現(xiàn)MRCP Server與MRCP Client間的會話建立和會話信令管理,交換終端與服務(wù)器的會話描述協(xié)議(Sess1n Descript1n Protocol, SDP),為語音數(shù)據(jù)流的建立打下基礎(chǔ)。
[0009]實(shí)時傳輸協(xié)議(RTP ),用于傳輸終端與服務(wù)器的語音數(shù)據(jù)流。
[0010]現(xiàn)有技術(shù)MRCPv2協(xié)議中規(guī)定了如何通過SIP、RTP、MRCP協(xié)議配合使得MRCPClient和MRCP Server完成語音識別功能。
[0011]現(xiàn)有技術(shù)中實(shí)現(xiàn)一次性語音識別典型的流程時序,具體包括一下步驟:
[0012]MRCP Client 發(fā)送 INVITE 消息給 MRCP Server 請求建立會話,攜帶 MRCP Client側(cè)的SDP ;
[0013]MRCP Server回復(fù)200表示請求已經(jīng)成功接受處理,攜帶MRCP Server側(cè)的SDP ;
[0014]MRCP Client隨后發(fā)送ACK消息證實(shí)200消息已經(jīng)收到,至此一個SIP會話成功建立;
[0015]MRCP Client發(fā)送RECOGNIZE消息給MRCP Server請求語音識別,按照MRCP協(xié)議規(guī)定的格式攜帶相關(guān)的語音識別控制參數(shù),并且指定語法文件路徑;
[0016]MRCP Server接收RECOGNIZE請求,編譯語法文件,回復(fù)200消息給MRCP Client ;
[0017]MRCP Client此時開始根據(jù)之前協(xié)商好的SDP,開始源源不斷的發(fā)送RTP語音流給MRCP Server ;
[0018]MRCP Server接收RTP語音流,當(dāng)檢測到用戶開始說話時,發(fā)送START-0F-1NPUT事件;
[0019]當(dāng)MRCP Server根據(jù)語法文件定義得到識別結(jié)果時,通過RECOGNIT1N-COMPLETE事件返回識別結(jié)果;
[0020]MRCP Client 發(fā)送 BYE 消息給 MRCP Server 結(jié)束會話;
[0021]MRCP Server 發(fā)送 200 消息給 MRCP Client 確認(rèn)結(jié)束;
[0022]MRCP Client通過上述流程獲得MRCP Server提供的一次完整語音識別能力。
[0023]通過上述現(xiàn)有技術(shù)的方案進(jìn)行語音識別的問題是:在RTP流不間斷的場景下,如果通過一次性識別的方式進(jìn)行語音流的識別和反饋,必然會導(dǎo)致在識別控制的間隔,有些RTP流被遺漏處理,從而就會影響到連續(xù)識別的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0024]本發(fā)明提供一種語音識別方法及裝置,本發(fā)明所提供的方法和裝置解決現(xiàn)有技術(shù)提供的語音識別方法在RTP流是不間斷的連續(xù)識別場景下,會導(dǎo)致在識別控制的間隔,有些RTP流被遺漏處理,從而就會影響到連續(xù)識別的準(zhǔn)確性問題。
[0025]第一方面,本發(fā)明提供一種媒體資源服務(wù)器,該媒體資源服務(wù)器包括:
[0026]接收模塊,用于根據(jù)收到終端發(fā)送來的開始一次會話的識別請求;
[0027]會話分類處理模塊,用于根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果;
[0028]會話終止模塊,用于接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。
[0029]結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,所述識別請求為所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值;則所述會話分類處理模塊還用于從接收到的識別RECOGNIZE消息中獲取語法文件;所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話。
[0030]結(jié)合第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,所述預(yù)設(shè)參數(shù)為模式Mode屬性;則所述會話分類處理模塊還用于從所述語法文件的語法元素grammar element中獲取模式Mode屬性對應(yīng)的第一參數(shù)值;所述媒體資源服務(wù)器在所述第一參數(shù)值與第一預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0031]結(jié)合第一種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述預(yù)設(shè)參數(shù)為root屬性;則所述會話分類處理模塊還用于獲取所述語法文件中的root屬性對應(yīng)的第二參數(shù)值;所述媒體資源服務(wù)器在所述第二參數(shù)值與第二預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0032]結(jié)合第一方面,在第四種可能的實(shí)現(xiàn)方式中,所述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;則所述會話分類處理模塊還用于獲取接收到的所述終端發(fā)送來的識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;所述媒體資源服務(wù)器在所述第三參數(shù)值與第三預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0033]結(jié)合第一方面至第一方面的第四種可能的實(shí)現(xiàn)方式,在第五種可能實(shí)現(xiàn)的方式中,所述媒體資源服務(wù)器持續(xù)接收所述終端連續(xù)發(fā)送的實(shí)時傳輸語音流,會話分類處理模塊還用于根據(jù)接收到實(shí)時傳輸語音流進(jìn)行識別,通過中間識別結(jié)果事件INTERMEDIATE-RESULT,向所述終端返回針對所述實(shí)時傳輸語音流的識別結(jié)果。
[0034]結(jié)合第一方面,在第六種可能的實(shí)現(xiàn)方式中,所述會話終止模塊還用于接收到所述停止識別請求后,檢測是否還有沒識別語音流,如果有,則識別所述沒有識別的語音流,并在識別完所述沒有識別的語音流后向用戶終端反饋針對所述停止識別請求的響應(yīng)信息,終止本次會話。
[0035]第二方面,本發(fā)明還提供一種語音識別方法,該方法包括:
[0036]媒體資源服務(wù)器根據(jù)收到終端發(fā)送來的開始一次會話的識別請求;
[0037]媒體資源服務(wù)器根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果;
[0038]媒體資源服務(wù)器接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。
[0039]結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述識別請求為所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值;則所述媒體資源服務(wù)器根據(jù)收到的終端發(fā)送來的識別請求,確定本次會話是否為連續(xù)語音識別會話,包括:
[0040]所述媒體資源服務(wù)器從接收到的識別RECOGNIZE消息中獲取語法文件;
[0041]所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話。
[0042]結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述預(yù)設(shè)參數(shù)為模式Mode屬性;
[0043]所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括:
[0044]所述媒體資源服務(wù)器從所述語法文件的語法元素grammar element中獲取模式Mode屬性對應(yīng)的第一參數(shù)值;
[0045]所述媒體資源服務(wù)器在所述第一參數(shù)值與第一預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0046]結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式中,所述預(yù)設(shè)參數(shù)為root屬性;
[0047]所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括:
[0048]所述媒體資源服務(wù)器獲取所述語法文件的語法元素grammar element中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括:
[0049]所述媒體資源服務(wù)器獲取所述語法文件中的root屬性對應(yīng)的第二參數(shù)值;
[0050]所述媒體資源服務(wù)器在所述第二參數(shù)值與第二預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0051]結(jié)合第二方面,在第二方面的第四種可能的實(shí)現(xiàn)方式中,所述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;則所述根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,包括:
[0052]所述媒體資源服務(wù)器獲取接收到的所述終端發(fā)送來的識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;
[0053]所述媒體資源服務(wù)器在所述第三參數(shù)值與第三預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0054]結(jié)合第二方面至第二方面的第四種可能的實(shí)現(xiàn)方式,在第五種可能實(shí)現(xiàn)的方式中,所述持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果,包括:
[0055]所述媒體資源服務(wù)器根據(jù)接收到實(shí)時傳輸語音流進(jìn)行識別,通過中間識別結(jié)果事件INTERMEDIATE-RESULT,向所述終端返回針對所述實(shí)時傳輸語音流的識別結(jié)果。
[0056]結(jié)合第二方面,在第六種可能的實(shí)現(xiàn)方式中,所述終止本次會話包括:
[0057]媒體資源服務(wù)器接收到所述停止識別請求后,檢測是否還有沒識別語音流,如果有,則識別所述沒有識別的語音流,并在識別完所述沒有識別的語音流后向用戶終端反饋針對所述停止識別請求的響應(yīng)信息,終止本次會話。
[0058]上述技術(shù)方案中的一個或兩個,至少具有如下技術(shù)效果:
[0059]本發(fā)明提供的方案通過設(shè)置連續(xù)語音識別會話,實(shí)現(xiàn)了對MRCPv2協(xié)議的補(bǔ)充,達(dá)到了采用一次MRCP控制,實(shí)現(xiàn)多次識別事件連續(xù)上報(bào)的效果,解決了語音連續(xù)識別的場景中出現(xiàn)的漏識別問題。所以本發(fā)明所提供的方法在連續(xù)語音識別會話下,能夠連續(xù)不斷的將多次語音識別結(jié)果作為中間識別結(jié)果進(jìn)行上報(bào),而不需要多次下發(fā)識別命令,從而提高了語音識別的連續(xù)性,同時也避免了語音漏識別的問題。
【專利附圖】
【附圖說明】
[0060]圖1為本發(fā)明實(shí)施例一種媒體資源服務(wù)器的結(jié)構(gòu)示意圖;
[0061]圖2為本發(fā)明實(shí)施例一種語音識別系統(tǒng)的結(jié)構(gòu)示意圖;
[0062]圖3為本發(fā)明實(shí)施例一種語音識別方法的流程圖;
[0063]圖4為本發(fā)明實(shí)施例中媒體資源服務(wù)器與終端交互實(shí)現(xiàn)語音識別的方法的流程圖。
【具體實(shí)施方式】
[0064]現(xiàn)有技術(shù)中提供的語音識別方式能夠很好的支持一次性語音識別場景,比如在電話定票語音導(dǎo)航應(yīng)用中,用戶說“我想去上海”,媒體資源服務(wù)器識別出語音內(nèi)容之后向終端返回識別結(jié)果,整個識別過程結(jié)束。但是有很多場景下,需要識別的語音內(nèi)容很密集。比如用戶和坐席通話中,需要將用戶和坐席交談的內(nèi)容連續(xù)不斷的實(shí)時顯示在屏幕上,此時用戶每說一句話都要能夠返回一次識別結(jié)果。業(yè)務(wù)需要根據(jù)用戶和坐席的語音全文實(shí)時顯示交談內(nèi)容、關(guān)鍵詞知識庫自動索引等,針對上述需要識別的語音內(nèi)容很密集的情況,現(xiàn)有的MRCPv2協(xié)議就無法很好的支持。
[0065]針對上述現(xiàn)有技術(shù)中的語音識別問題,本發(fā)明實(shí)施例提供一種媒體資源服務(wù)器,該服務(wù)器包括:
[0066]接收模塊,用于根據(jù)收到終端發(fā)送來的開始一次會話的識別請求;
[0067]會話分類處理模塊,用于根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果;
[0068]會話終止模塊,用于接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。
[0069]本發(fā)明提供的方案通過設(shè)置一種區(qū)別與現(xiàn)有技術(shù)的會話類型即連續(xù)語音識別會話,實(shí)現(xiàn)了對MRCPv2協(xié)議的補(bǔ)充,達(dá)到了采用一次MRCP控制,實(shí)現(xiàn)多次識別事件連續(xù)上報(bào)的效果,解決了語音連續(xù)識別的場景中出現(xiàn)的漏識別問題。
[0070]下面將參照下述細(xì)節(jié)對本發(fā)明的各種實(shí)施例和各個方面進(jìn)行說明,附圖將圖示各種實(shí)施例。下面的說明和附圖是對本發(fā)明的示例性說明,而不應(yīng)看作對本發(fā)明的限制。描述了大量具體細(xì)節(jié)以提供對本發(fā)明各種實(shí)施例的詳盡理解。但是在某些情況下,將不對公知的或傳統(tǒng)的細(xì)節(jié)進(jìn)行描述,以對本發(fā)明的實(shí)施例提供簡要的說明。
[0071]下文【具體實(shí)施方式】的某些部分是以算法的形式展現(xiàn)的,這些算法包括對于計(jì)算機(jī)存儲器內(nèi)儲存的數(shù)據(jù)進(jìn)行的操作。算法大體上是指造成所需結(jié)果的操作的自洽序列。這些操作通常需要或涉及到物理操縱或物理量。通常(但不是必然),這些量采取電信號或磁信號的形式,這些信號能夠被儲存、傳輸、合并、比較和以其他方式受到操縱。業(yè)已證明,有時(主要是為了通常使用的原因),將這些信號稱為位、值、元素、符號、字符、項(xiàng)、數(shù)等等是方便的。
[0072]但是應(yīng)當(dāng)牢記,這些以及類似的所有術(shù)語是與適當(dāng)?shù)奈锢砹肯嚓P(guān)聯(lián)的,并且僅僅是應(yīng)用于這些量的方便的標(biāo)號。除非下文中明顯地以其他形式另有說明外,整個說明書中使用諸如“處理”或“計(jì)算”或“判定”或“顯示”等術(shù)語所進(jìn)行的說明可以指數(shù)據(jù)處理系統(tǒng)或類似電子裝置進(jìn)行的動作和處理,所述動作和處理操縱計(jì)算機(jī)的寄存器和存儲器內(nèi)以物理(電子)量表示的數(shù)據(jù)并將其轉(zhuǎn)換成該系統(tǒng)的存儲器或寄存器(或其他這類信息存儲、傳輸或顯示的裝置)內(nèi)類似地以物理量的形式表示的其他數(shù)據(jù)。
[0073]本發(fā)明可以涉及用于執(zhí)行本申請中所述操作中的一項(xiàng)或多項(xiàng)操作的設(shè)備。該設(shè)備可以為所需的目的而專門構(gòu)造,或者也可以包括通用計(jì)算機(jī),所述通用計(jì)算機(jī)由儲存在該計(jì)算機(jī)中的計(jì)算機(jī)程序選擇性地激活(activate)或重構(gòu)(reconfigure)。這樣的計(jì)算機(jī)程序可以被儲存在機(jī)器(例如計(jì)算機(jī))可讀介質(zhì)中或者存儲在適于儲存電子指令并分別耦聯(lián)到總線的任何類型介質(zhì)中,所述計(jì)算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、光盤、CD-ROM、和磁光盤)、只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)、可擦除可編程ROM(EPROM)、電可擦除可編程ROM (EEPROM)、閃存、磁性卡片或光學(xué)卡片。
[0074]機(jī)器可讀介質(zhì)包括用于以由機(jī)器(例如計(jì)算機(jī))可讀的形式儲存或傳輸信息的任何機(jī)構(gòu)。例如,機(jī)器可讀介質(zhì)包括只讀存儲器(ROM);隨機(jī)存取存儲器(RAM)、磁盤儲存介質(zhì)、光學(xué)儲存介質(zhì)、閃存裝置、以電的、光的、聲的或其他的形式傳播的信號(例如載波、紅外信號、數(shù)字信號等)等。
[0075]如圖1所示,為了避免現(xiàn)有技術(shù)中利用一次語音識別方式進(jìn)行識別時造成的語音漏識別問題,本發(fā)明還提供一種媒體資源服務(wù)器,該媒體資源服務(wù)器包括:
[0076]接收模塊101,用于根據(jù)收到終端發(fā)送來的開始一次會話的識別請求;
[0077]會話分類處理模塊102,用于根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果;
[0078]會話終止模塊103,用于接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。
[0079]在本發(fā)明實(shí)施例中,因?yàn)槊襟w資源服務(wù)器的識別語音的速度一般是和終端上報(bào)語音同步的,所以一般情況下媒體資源服務(wù)器接收到終端發(fā)送的停止識別請求后則會立即終止這次的會話。
[0080]但是為了保證會話內(nèi)容的完整,本發(fā)明還提供實(shí)現(xiàn)方式中,媒體資源服務(wù)器接收到停止識別請求之后,還進(jìn)一步的確定媒體資源服務(wù)器是否還有本次會話沒識別完的語音流,所以本發(fā)明實(shí)施例所提供的所述會話終止模塊103還用于接收到所述停止識別請求后,檢測是否還有沒識別語音流,如果有,則識別所述沒有識別的語音流,并在識別完所述沒有識別的語音流后向用戶終端反饋針對所述停止識別請求的響應(yīng)信息,終止本次會話。
[0081]因?yàn)楸景l(fā)明實(shí)施例所提供的媒體資源服務(wù)器是針對連續(xù)識別會話適用的場景是存在大量且連續(xù)的語音需要識別的場景,所以本發(fā)明提供的服務(wù)器將會話過程中,每次接收到的語音都作為中間識別量,并且識別結(jié)果作為中間識別結(jié)果上報(bào),所以為了能夠在現(xiàn)有協(xié)議的基礎(chǔ)上實(shí)現(xiàn)中間結(jié)果的上報(bào),會話分類處理模塊102還用于根據(jù)接收到實(shí)時傳輸語音流進(jìn)行識別,通過中間識別結(jié)果事件INTERMEDIATE-RESULT,向所述終端返回針對所述實(shí)時傳輸語音流的識別結(jié)果。
[0082]在本發(fā)明實(shí)施例中,為了適應(yīng)連續(xù)語音識別會話,終端需要與服務(wù)器端交互確定本次語音識別的場景是怎樣的,所以本發(fā)明實(shí)施例所提供的媒體資源服務(wù)器中提供多種方式實(shí)現(xiàn)服務(wù)器端與終端的語音識別會話類型確定的信息交互。以下是針對最優(yōu)化幾種實(shí)現(xiàn)方式的具體模塊實(shí)現(xiàn),則所述會話分類處理模塊102可以包括:
[0083]方式一:所述識別請求為所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值;
[0084]則所述會話分類處理模塊102還用于從接收到的識別RECOGNIZE消息中獲取語法文件;所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話。
[0085]因?yàn)檎Z法文件中的多種參數(shù)都可以用來實(shí)現(xiàn)終端和服務(wù)器端的信息確認(rèn),本發(fā)明實(shí)施例中通過語法文件設(shè)置參數(shù)的方式下,最優(yōu)化的方案是所述預(yù)設(shè)參數(shù)可以是模式Mode屬性或者root屬性,:
[0086]A,所述預(yù)設(shè)參數(shù)為模式Mode屬性;則所述會話分類處理模塊102還用于從所述語法文件的語法元素grammar element中獲取模式Mode屬性對應(yīng)的第一參數(shù)值;所述媒體資源服務(wù)器在所述第一參數(shù)值與第一預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0087]B,所述預(yù)設(shè)參數(shù)為root屬性;則所述會話分類處理模塊102還用于獲取所述語法文件中的root屬性對應(yīng)的第二參數(shù)值;所述媒體資源服務(wù)器在所述第二參數(shù)值與第二預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0088]方式二、所述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;
[0089]所述會話分類處理模塊102還用于獲取接收到的所述終端發(fā)送來的識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;所述媒體資源服務(wù)器在所述第三參數(shù)值與第三預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0090]因?yàn)楸景l(fā)明實(shí)施例所提供的語音識別方法是終端與媒體資源服務(wù)器通過預(yù)設(shè)的參數(shù)約定語音識別的場景,所以以下通過媒體資源服務(wù)器和終端具體交互流程對本發(fā)明提供的一種語音識別系統(tǒng),該語音識別系統(tǒng)具體包括(如圖2所示):
[0091]終端201,向媒體資源服務(wù)器發(fā)送識別請求;并在結(jié)束會話時,向媒體資源服務(wù)器發(fā)送停止識別請求,結(jié)束本次會話;
[0092]媒體資源服務(wù)器202,根據(jù)收到的所述識別請求,確定本次會話是否為連續(xù)語音識別會話;在確定本次會話是連續(xù)識別場景后,持續(xù)接收所述終端連續(xù)發(fā)送的實(shí)時傳輸語音流,并向持續(xù)向終端返回所述實(shí)時傳輸語音流的中間識別結(jié)果。
[0093]上述內(nèi)容介紹了實(shí)現(xiàn)本發(fā)明實(shí)施例的裝置,在基于上述裝置的基礎(chǔ)上,以下詳細(xì)介紹本發(fā)明實(shí)施例所提供的方法:
[0094]實(shí)施例一,本發(fā)明實(shí)施例提供一種語音識別方法,下面結(jié)合說明書附圖對本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)說明(如圖3所示):
[0095]步驟301,媒體資源服務(wù)器根據(jù)收到終端發(fā)送來的開始一次會話的識別請求;
[0096]現(xiàn)有技術(shù)中每次MRCP控制包括多個信令的交互會浪費(fèi)大量的時間及資源,并且多次交互還會造成語音識別連續(xù)性不佳,同時也會造成一部分語音被漏識別。所以針對這種連續(xù)語音識別的情況,本發(fā)明實(shí)施例中的終端首先通過識別請求通知媒體資源服務(wù)器,從而媒體資源服務(wù)器可以進(jìn)入連續(xù)識別流程處理模式,這樣媒體資源服務(wù)器就可以在一次MRCP控制中實(shí)現(xiàn)連續(xù)多次的語音識別,并以中間結(jié)果事件的方式反饋語音識別的結(jié)果。
[0097]步驟302,媒體資源服務(wù)器根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果;
[0098]在該實(shí)施例中,媒體資源服務(wù)器接收到終端發(fā)送的識別請求后,若通過所述識別請求確定后續(xù)的識別場景是連續(xù)識別場景,則對應(yīng)的控制相關(guān)設(shè)備進(jìn)行連續(xù)識別。
[0099]步驟303,媒體資源服務(wù)器接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。
[0100]在本發(fā)明實(shí)施例中,因?yàn)槭沁B續(xù)識別,所以MRCP Server—般情況下不會主動上報(bào)識別結(jié)束事件RECOGNIT1N-COMPLETE (除非MRCP Server遇到識別無法繼續(xù)下去的嚴(yán)重錯誤,才允許上報(bào)),直到MRCP Client端要求停止識別,則結(jié)束識別流程。所以在本發(fā)明實(shí)施例中,媒體資源服務(wù)器需要通過終端的請求才能確定是否結(jié)束本次會話,所以本發(fā)明實(shí)施例所提供的方法中,結(jié)束本次會話的具體實(shí)現(xiàn)可以是:
[0101]A,所述媒體資源服務(wù)器在持續(xù)接收所述終端連續(xù)發(fā)送的實(shí)時傳輸語音流過程中無法識別所述實(shí)時傳輸語音流后(其中,所述無法識別所述實(shí)時傳輸語音流的情況可能是出現(xiàn)嚴(yán)重故障導(dǎo)致媒體資源服務(wù)器無法繼續(xù)后續(xù)的RTP流識別),向所述終端發(fā)送結(jié)束識別消息。或者
[0102]B,終端向所述服務(wù)器端發(fā)送結(jié)束本次會話的停止識別請求。
[0103]在該方式中,為了保證會話內(nèi)容識別的完整性,本發(fā)明的方法還提供實(shí)現(xiàn)方式確定媒體資源服務(wù)器在接收到停止識別請求之后,還進(jìn)一步的確定媒體資源服務(wù)器是否還有本次會話沒識別完的語音流,所以所述媒體資源服務(wù)器終止本次會話的具體實(shí)現(xiàn)還可以是:
[0104]媒體資源服務(wù)器接收到所述停止識別請求后,檢測是否還有沒識別語音流,如果有,則識別所述沒有識別的語音流,并在識別完所述沒有識別的語音流后向用戶終端反饋針對所述停止識別請求的響應(yīng)信息,終止本次會話。
[0105]在本發(fā)明實(shí)施例中,為了適應(yīng)連續(xù)語音識別會話,終端需要與服務(wù)器端交互確定本次語音識別的場景是怎樣的,所以本發(fā)明實(shí)施例所提供的方法中提供多種方法實(shí)現(xiàn)服務(wù)器端與終端的語音識別場景的信息交互。最優(yōu)化的方式為以下幾種:
[0106]方式一,所述識別請求為所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值;
[0107]所述媒體資源服務(wù)器根據(jù)收到的終端發(fā)送來的識別請求,確定本次會話是否為連續(xù)語音識別會話,包括:
[0108]所述媒體資源服務(wù)器從接收到的識別RECOGNIZE消息中獲取語法文件;
[0109]所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話。
[0110]在該方式下,最優(yōu)化的方案是所述預(yù)設(shè)參數(shù)為模式Mode屬性或者10t屬性,其中具體實(shí)現(xiàn)方式為:
[0111]方式一的第一分支:如果所述預(yù)設(shè)參數(shù)為模式Mode屬性,則所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括:
[0112]所述媒體資源服務(wù)器從所述語法文件的語法元素(grammar element)中獲取模式Mode屬性對應(yīng)的第一參數(shù)值;
[0113]所述媒體資源服務(wù)器在所述第一參數(shù)值與第一預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0114]在具體的應(yīng)用場景中,語法文件(在RECOGNIZE消息中攜帶)定義了語音識別的相關(guān)技術(shù)參數(shù)以及識別的具體內(nèi)容,為了區(qū)分單次識別和連續(xù)識別場景,本實(shí)施例借助grammar element已有Mode屬性,以便MRCP服務(wù)器可以區(qū)別處理。
[0115]在本發(fā)明實(shí)施例中擴(kuò)展一種新模式:continuousMode屬性標(biāo)示連續(xù)語音識別模式,即獲取到Mode屬性對應(yīng)的第一參數(shù)值與第一預(yù)設(shè)參數(shù)值continuous匹配,如果匹配成功則確定本次會話為連續(xù)語音識別會話。下面以XML格式的語法文件為例,說明本發(fā)明實(shí)施例提供的方法中,連續(xù)識別場景的語法文件如下:
[0116]<?xml vers1n=〃l.0〃encoding=〃utf_8〃?>/ 標(biāo)識此語法文件采用 XML 版本,使用的字符集編解碼格式/
[0117]<grammar xmlns=//http: //www.w3.0rg/2001/06/grammar^xml: lang=//en-US//vers1n=〃l.0〃mode=〃continuous〃root=〃service〃>/ 標(biāo)識語法相關(guān)的一些屬性,如版本、語種類型、模式、根語法規(guī)則等/
[0118]〈rule id="service">
[0119]<one~of>
[0120]〈itemXruleref uri=//#speech-to-text///></item>
[0121]</one~of>
[0122]〈/rule〉/描述根語法規(guī)則service的具體內(nèi)容,one_of表示“之一”,即有多個item的時候,任意一個規(guī)則滿足都可以;這個例子里面只有一個item, item引用了一個顯式的本地規(guī)則speech-to-text/
[0123]〈rule id="speech-to-text">
[0124]<one~of>
[0125]<item>telecom〈/item>
[0126]<item>banking</item>
[0127]</one-of>
[0128]〈/rule〉/這一段定義這個本地規(guī)則的具體內(nèi)容,其中有兩個item,一個是telecom, 一個是banking,代表其中的之一 /
[0129]</grammar)
[0130]上述語法文件定義了一個service的規(guī)則,該規(guī)則包含speech_to_text的本地規(guī)貝1J,這個規(guī)則包含telecom和banking兩個領(lǐng)域。識別引擎通過這個語法文件就可以確定本次通過怎樣的方式識別語音內(nèi)容,并且本次識別中都包括些什么樣的具體參數(shù)。當(dāng)MRCPServer在編譯上述語法文件時發(fā)現(xiàn)mode對應(yīng)的參數(shù)值為continuous就會自動進(jìn)入連續(xù)識別模式。
[0131]服務(wù)器端通過上述語法文件的內(nèi)容,確定本次語音識別的場景為連續(xù)識別場景,但是因?yàn)楝F(xiàn)有技術(shù)中都是一次識別場景,所以在連續(xù)識別場景中服務(wù)器端通過以下方式實(shí)現(xiàn)將連續(xù)識別的結(jié)果反饋給終端,具體實(shí)現(xiàn)為:所述媒體資源服務(wù)器根據(jù)接收到實(shí)時傳輸語音流進(jìn)行識別,通過中間識別結(jié)果事件INTERMEDIATE-RESULT,向所述終端返回針對所述實(shí)時傳輸語音流的識別結(jié)果。
[0132]在MRCPv2中,語音識別應(yīng)用只定義了三個事件(recognizer-eventhrecognizer-eventySTART-OF-1NPUT"、 〃REC0GNIT10N_C0MPLETE〃 或 〃INTERPRETAT10N-C0MPLETE〃,為了能夠不斷的上報(bào)識別結(jié)果,本發(fā)明實(shí)施還提供一個中間結(jié)果事件:INTERMEDIATE-RESULT,該中間結(jié)果事件能夠攜帶識別結(jié)果信息,通過這個中間結(jié)果事件媒體資源服務(wù)器則可以在一次MRCP控制中將多次識別的結(jié)果作為中間結(jié)果進(jìn)行上報(bào)。
[0133]為了能夠在現(xiàn)有協(xié)議的基礎(chǔ)上實(shí)現(xiàn)中間結(jié)果的上報(bào),所以本發(fā)明實(shí)施例中所提供的中間結(jié)果事件INTERMEDIATE-RESULT主要作用為上報(bào)識別結(jié)果,同時需要遵守MRCP協(xié)議規(guī)定,其中,所述INTERMEDIATE-RESULT事件的格式為:
[0134]event-1ine=mrcp-vers1n SP message—length SP event—name
[0135]SP request-1d SP request-state CRLF
[0136]其中,event-name可以是 INTERMEDIATE-RESULT ;request_state 可以是IN-PROGRESS ;事件頭包含的頭域和RECOGNIT1N-COMPLETE的格式保持一致,但是因?yàn)楸景l(fā)明實(shí)施例所提供的連續(xù)識別場景中,需要結(jié)束語音識別的時候終端需要發(fā)送特定的指令通知媒體資源服務(wù)器,所以在所述事件頭中不包含Complet1n-Cause和Complet1nReason兩個頭域。事件體主要是識別結(jié)果,遵循NLSML格式,和RECOGNIT1N-COMPLETE格式保持一致。
[0137]方式一的第二分支:如果所述預(yù)設(shè)參數(shù)為root屬性;所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括:
[0138]所述媒體資源服務(wù)器獲取所述語法文件中的root屬性對應(yīng)的第二參數(shù)值;
[0139]所述媒體資源服務(wù)器在所述第二參數(shù)值與第二預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0140]在具體的應(yīng)用環(huán)境中,除了實(shí)施例二中借助grammar element的mode屬性約定之夕卜,還可以通過Root rule實(shí)現(xiàn)終端與媒體資源服務(wù)器約定識別場景是否為連續(xù)語音識別會話。比如當(dāng)grammar element的root屬性為某一特定字符串時,認(rèn)為是連續(xù)識別。
[0141]其中,所述語法文件的具體實(shí)現(xiàn)格式可以是:
[0142]<?xml vers1n="l.0"encoding="utf_8"?>
[0143]<grammar xmlns=//http: //www.w3.0rg/2001/06/grammar^xml: lang=//en-US//vers1n=〃l.0〃mode=〃voice〃root=〃continuous〃>
[0144]〈rule id="continuous">
[0145]<one~of>
[0146]〈itemXruleref uri=//#speech-to-text///></item>
[0147]</one~of>
[0148]〈/rule〉
[0149]〈rule id="speech-to-text">
[0150]<one~of>
[0151]<item>telecom〈/item>
[0152]<item>banking</item>
[0153]</one~of>
[0154]〈/rule〉
[0155]</grammar)
[0156]上例就是通過定義root屬性對應(yīng)的第二預(yù)設(shè)參數(shù)值為continuous這個特定的字符串,如果所述媒體資源服務(wù)器從所述語法文件中獲取的root屬性對應(yīng)的第二參數(shù)值是continuous,則說明本次識別為連續(xù)識別。本發(fā)明實(shí)施例中對于中間識別事件的定義,也可以采用多種方式,只要事件名稱和已有的事件不沖突即可。
[0157]方式二,所述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;該實(shí)施例中的第三參數(shù)值并不限定該參數(shù)值所設(shè)定的位置以及順序,只表示該參數(shù)值是媒體資源服務(wù)器在識別RECOGNIZE消息時獲取到的新增頭域?qū)?yīng)的一個參數(shù)值。
[0158]則本發(fā)明實(shí)施例一所提供的步驟302中根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,包括:
[0159]所述媒體資源服務(wù)器獲取接收到的所述終端發(fā)送來的識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;
[0160]所述媒體資源服務(wù)器在所述第三參數(shù)值與第三預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0161]在具體的應(yīng)用環(huán)境中,上述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值確定當(dāng)前會話是否為連續(xù)語音識別會話的具體實(shí)現(xiàn)步驟包括:
[0162]除了通過語法文件約定連續(xù)識別還是一次性識別之外,還可以通過擴(kuò)展MRCPClient和MRCP Server之間MRCP請求消息RECOGNIZE頭域的方式來傳遞,比如新增一個頭域:work-mode,此頭域在語音識別中可選,不選擇時默認(rèn)一次性識別,定義如下:
[0163]work-mode="Work_Mode"":"Serve CRLF
[0164]Serve=//once/////continuous//
[0165]當(dāng)MRCP Server收到RECOGNIZE消息時,如果發(fā)現(xiàn)有Work-Mode頭域,并且值為continuous,即認(rèn)為MRCP Client要求啟動連續(xù)識別,如果為once,表明是一次性識別。
[0166]如下為利用該實(shí)施例三所提供的方法,在RECOGNIZE消息中新增頭域后標(biāo)示當(dāng)前識別為連續(xù)識別的RECOGNIZE消息實(shí)例:
[0167]MRCP/2.0290REC0GNIZE2
[0168]Channel-1dentifier:2ce5baab46401041ispeechrecog
[0169]Work-Mode: continuous
[0170]Content-Type:text/ur1-list
[0171]Cancel-1f-Queue:false50
[0172]No-1nput-Timeout:3600000
[0173]Recognit1n-Timeout:3600000
[0174]Start-1nput-T imers: true
[0175]Confidence-Threshold:0.0
[0176]Content-Length:33/上述代碼是MRCP消息的消息頭,定義了MRCP Client和MRCPServer之間的一些參數(shù)內(nèi)容,比如消息類型、通道號、相關(guān)超時時長等/
[0177]file://C: \tmp\analyticsl.grxml/這個MRCP消息的消息體,包含語法文件的地址。MRCP Server就是根據(jù)這個地址去獲取語法文件,然后進(jìn)行解析/
[0178]如圖4所示,因?yàn)楸景l(fā)明實(shí)施例所提供的語音識別方法是終端與媒體資源服務(wù)器通過預(yù)設(shè)的參數(shù)約定語音識別的場景,所以以下通過媒體資源服務(wù)器和終端具體交互流程對本發(fā)明提供的一種語音識別方法作進(jìn)一步的說明,該方法具體包括:
[0179]步驟401,終端向媒體資源服務(wù)器發(fā)送識別請求;
[0180]步驟402,媒體資源服務(wù)器根據(jù)收到的所述識別請求,確定本次會話是否為連續(xù)語音識別會話;
[0181]在本發(fā)明實(shí)施例中,所述識別請求可以是通過以下幾種方式與服務(wù)器端約定本次會話是否為連續(xù)識別場景:
[0182]方式一,所述識別請求為所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值;所述媒體資源服務(wù)器根據(jù)收到的終端發(fā)送來的識別請求,確定本次會話是否為連續(xù)語音識別會話,包括:
[0183]所述媒體資源服務(wù)器從接收到的識別RECOGNIZE消息中獲取語法文件;
[0184]所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話。
[0185]在該方式下,最優(yōu)化的方案是所述預(yù)設(shè)參數(shù)為模式Mode屬性或者root屬性,其中具體實(shí)現(xiàn)方式為:
[0186]A,當(dāng)所述預(yù)設(shè)參數(shù)為模式Mode屬性,則所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括:
[0187]所述媒體資源服務(wù)器從所述語法文件的語法元素(grammar element)中獲取模式Mode屬性對應(yīng)的第一參數(shù)值;
[0188]所述媒體資源服務(wù)器在所述第一參數(shù)值與第一預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0189]B,當(dāng)所述預(yù)設(shè)參數(shù)為root屬性;所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括:
[0190]所述媒體資源服務(wù)器獲取所述語法文件中的root屬性對應(yīng)的第二參數(shù)值;
[0191]所述媒體資源服務(wù)器在所述第二參數(shù)值與第二預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0192]方式二,所述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;該實(shí)施例中的第三參數(shù)值并不限定該參數(shù)值所設(shè)定的位置以及順序,只表示該參數(shù)值是媒體資源服務(wù)器在識別RECOGNIZE消息時獲取到的新增頭域?qū)?yīng)的一個參數(shù)值。
[0193]所述媒體資源服務(wù)器根據(jù)收到的終端發(fā)送來的識別請求,確定本次會話是否為連續(xù)語音識別會話,包括:
[0194]所述媒體資源服務(wù)器獲取接收到的所述終端發(fā)送來的識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;
[0195]所述媒體資源服務(wù)器在所述第三參數(shù)值與第三預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
[0196]步驟403,所述媒體資源服務(wù)器在確定本次會話是連續(xù)識別場景后,持續(xù)接收所述終端連續(xù)發(fā)送的實(shí)時傳輸語音流,并向持續(xù)向終端返回所述實(shí)時傳輸語音流的中間識別結(jié)果;
[0197]因?yàn)楸景l(fā)明實(shí)施例所提供的方法針對連續(xù)識別場景會,將每次識別結(jié)果作為中間識別結(jié)果上報(bào),所以為了能夠在現(xiàn)有協(xié)議的基礎(chǔ)上實(shí)現(xiàn)中間結(jié)果的上報(bào),本發(fā)明實(shí)施還提供一個中間結(jié)果事件:INTERMEDIATE-RESULT,該中間結(jié)果事件能夠攜帶識別結(jié)果信息,通過這個中間結(jié)果事件媒體資源服務(wù)器則可以在一次MRCP控制中將多次識別的結(jié)果作為中間結(jié)果進(jìn)行上報(bào)。
[0198]步驟404,終端向媒體資源服務(wù)器發(fā)送停止識別請求之后,結(jié)束本次會話。
[0199]本發(fā)明提供的方案通過設(shè)置連續(xù)語音識別會話,實(shí)現(xiàn)了對MRCPv2協(xié)議的補(bǔ)充,達(dá)到了采用一次MRCP控制,實(shí)現(xiàn)多次識別事件連續(xù)上報(bào)的效果,解決了語音連續(xù)識別的場景中出現(xiàn)的漏識別問題。
[0200]本申請實(shí)施例中的上述一個或多個技術(shù)方案,至少具有如下的技術(shù)效果:
[0201]本發(fā)明是在原有的一次性語音識別的基礎(chǔ)上,通過語法文件增加一種新mode類型,定義新root,定義新頭域等方式使得終端和媒體資源服務(wù)器之間建立一種新的識別模式,即連續(xù)語音識別會話,將現(xiàn)有技術(shù)中的一次性識別結(jié)果作為中間識別結(jié)果反饋。在這種連續(xù)語音識別會話下,MRCP Server創(chuàng)建一個RTP通道之后,就可以對源源不斷的實(shí)時傳輸語音流進(jìn)行處理,一旦匹配上語法文件中定義的識別結(jié)果,即反饋INTERMEDIATE-RESULT事件,通過多次反饋,完成對語音的連續(xù)識別。所以本發(fā)明所提供的方法在連續(xù)語音識別會話下,能夠連續(xù)不斷的將多次語音識別結(jié)果作為中間識別結(jié)果進(jìn)行上報(bào),而不需要多次下發(fā)識別命令,從而提高了語音識別的連續(xù)性,同時也避免了語音漏識別的問題。
[0202]本發(fā)明所述的方法并不限于【具體實(shí)施方式】中所述的實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其它的實(shí)施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
[0203]顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
【權(quán)利要求】
1.一種媒體資源服務(wù)器,其特征在于,該媒體資源服務(wù)器包括: 接收模塊,用于根據(jù)收到終端發(fā)送來的開始一次會話的識別請求; 會話分類處理模塊,用于根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果; 會話終止模塊,用于接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。
2.如權(quán)利要求1所述的媒體資源服務(wù)器,其特征在于,所述識別請求為所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值;則所述會話分類處理模塊還用于從接收到的識別RECOGNIZE消息中獲取語法文件;所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話。
3.如權(quán)利要求2所述的媒體資源服務(wù)器,其特征在于,所述預(yù)設(shè)參數(shù)為模式Mode屬性;則所述會話分類處理模塊還用于從所述語法文件的語法元素grammar element中獲取模式Mode屬性對應(yīng)的第一參數(shù)值;所述媒體資源服務(wù)器在所述第一參數(shù)值與第一預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
4.如權(quán)利要求2所述的媒體資源服務(wù)器,其特征在于,所述預(yù)設(shè)參數(shù)為root屬性;則所述會話分類處理模塊還用于獲取所述語法文件中的root屬性對應(yīng)的第二參數(shù)值;所述媒體資源服務(wù)器在所述第二參數(shù)值與第二預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
5.如權(quán)利要求1所述的媒體資源服務(wù)器,其特征在于,所述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;則所述會話分類處理模塊還用于獲取接收到的所述終端發(fā)送來的識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;所述媒體資源服務(wù)器在所述第三參數(shù)值與第三預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
6.如權(quán)利要求1?5任一所述的媒體資源服務(wù)器,其特征在于,所述媒體資源服務(wù)器持續(xù)接收所述終端連續(xù)發(fā)送的實(shí)時傳輸語音流,會話分類處理模塊還用于根據(jù)接收到實(shí)時傳輸語音流進(jìn)行識別,通過中間識別結(jié)果事件INTERMEDIATE-RESULT,向所述終端返回針對所述實(shí)時傳輸語音流的識別結(jié)果。
7.如權(quán)利要求1所述的媒體資源服務(wù)器,其特征在于,所述會話終止模塊還用于接收到所述停止識別請求后,檢測是否還有沒識別語音流,如果有,則識別所述沒有識別的語音流,并在識別完所述沒有識別的語音流后向用戶終端反饋針對所述停止識別請求的響應(yīng)信息,終止本次會話。
8.一種語音識別方法,其特征在于,該方法包括: 媒體資源服務(wù)器根據(jù)收到終端發(fā)送來的開始一次會話的識別請求; 媒體資源服務(wù)器根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果; 媒體資源服務(wù)器接收到所述終端發(fā)送的停止識別請求之后,終止本次會話。
9.如權(quán)利要求8所述的方法,其特征在于,所述識別請求為所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值;則所述媒體資源服務(wù)器根據(jù)收到的終端發(fā)送來的識別請求,確定本次會話是否為連續(xù)語音識別會話,包括: 所述媒體資源服務(wù)器從接收到的識別RECOGNIZE消息中獲取語法文件; 所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話。
10.如權(quán)利要求9所述的方法,其特征在于,所述預(yù)設(shè)參數(shù)為模式Mode屬性; 所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括: 所述媒體資源服務(wù)器從所述語法文件的語法元素gra_ar element中獲取模式Mode屬性對應(yīng)的第一參數(shù)值; 所述媒體資源服務(wù)器在所述第一參數(shù)值與第一預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
11.如權(quán)利要求9所述的方法,其特征在于,所述預(yù)設(shè)參數(shù)為root屬性; 所述媒體資源服務(wù)器獲取所述語法文件中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括: 所述媒體資源服務(wù)器獲取所述語法文件的語法元素grammar element中預(yù)設(shè)參數(shù)的參數(shù)值,根據(jù)所述參數(shù)值確定本次會話是否為連續(xù)語音識別會話,包括: 所述媒體資源服務(wù)器獲取所述語法文件中的root屬性對應(yīng)的第二參數(shù)值; 所述媒體資源服務(wù)器在所述第二參數(shù)值與第二預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
12.如權(quán)利要求8所述的方法,其特征在于,所述識別請求為識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值;則所述根據(jù)所述識別請求確定本次會話為連續(xù)語音識別會話,包括: 所述媒體資源服務(wù)器獲取接收到的所述終端發(fā)送來的識別RECOGNIZE消息的新增頭域?qū)?yīng)的第三參數(shù)值; 所述媒體資源服務(wù)器在所述第三參數(shù)值與第三預(yù)設(shè)參數(shù)值匹配后,確定本次會話為連續(xù)語音識別會話。
13.如權(quán)利要求8?12任一所述的方法,其特征在于,所述持續(xù)接收所述終端連續(xù)發(fā)送的語音流,并反饋所述語音流的識別結(jié)果,包括: 所述媒體資源服務(wù)器根據(jù)接收到實(shí)時傳輸語音流進(jìn)行識別,通過中間識別結(jié)果事件INTERMEDIATE-RESULT,向所述終端返回針對所述實(shí)時傳輸語音流的識別結(jié)果。
14.如權(quán)利要求8所述的方法,其特征在于,所述終止本次會話包括: 媒體資源服務(wù)器接收到所述停止識別請求后,檢測是否還有沒識別語音流,如果有,則識別所述沒有識別的語音流,并在識別完所述沒有識別的語音流后向用戶終端反饋針對所述停止識別請求的響應(yīng)信息,終止本次會話。
【文檔編號】G10L15/30GK104517609SQ201310451614
【公開日】2015年4月15日 申請日期:2013年9月27日 優(yōu)先權(quán)日:2013年9月27日
【發(fā)明者】陳茂國, 呂梁, 劉帥東 申請人:華為技術(shù)有限公司