專利名稱:使用自然語言的車載信息服務(wù)系統(tǒng)語音操作系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實用新型屬于通信技術(shù)領(lǐng)域,涉及一種車載信息服務(wù)系統(tǒng)的語音操作系統(tǒng),尤其涉及一種使用自然語言的車載信息服務(wù)系統(tǒng)的語音操作系統(tǒng)。
背景技術(shù):
遠程信息服務(wù)(Telematics)是通信(Telecommunication)和信息科學(Informatics)的合成詞,所謂Telematics系統(tǒng)即通過內(nèi)置在汽車上的計算機系統(tǒng)、無線通信設(shè)備、衛(wèi)星導航裝置、互聯(lián)網(wǎng)技術(shù)等,來提供文字、語音、圖像等信息傳送的服務(wù)系統(tǒng)。TSP平臺(Telematics Service Platform)為一種基于無線通信技術(shù)、衛(wèi)星定位(GPS)技術(shù)、地理信息系統(tǒng)技術(shù)、互聯(lián)網(wǎng)技術(shù)和呼叫中心平臺而為駕車者提供Telematics服務(wù)的軟件平臺。其中OnStar系統(tǒng)與G-BOOK系統(tǒng)是兩個主要成功的應(yīng)用Telematics系統(tǒng)的廠商,而國內(nèi)在Telematics正處于起步階段, 隨著語音合成技術(shù)在導航領(lǐng)域大量成功應(yīng)用,在部分導航系統(tǒng)中語音識別技的應(yīng)用也開始嶄露頭角。語音識別技術(shù)能減少用戶操作的次數(shù),提高用戶體驗。通過語音識別技術(shù)讓用戶體驗到“只需動口,不需要動手”的目標。尤其對于駕車者得用戶,在開車過程中,盡量減少操作動作,一方面方便用戶,一方面提供駕駛者的安全保障。如中國發(fā)明專利申請“車輛導航裝置語音控制系統(tǒng)”(公開號CN 1841312A)公開了一種車輛導航裝置控制系統(tǒng),包含一能識別出語音信息的語音識別模塊、判斷語音信息是控制指令還是地圖地名的指令判別模塊。語音識別模塊識別出結(jié)果后,在語音控制指令庫中查詢結(jié)果,看識別出的語音為控制指令還是地圖地名。如果在語音控制指令庫中查到結(jié)果,則為控制指令;如果在語音控制指令庫中未查到結(jié)果,則認為是地圖地名??梢钥闯?,該語音控制系統(tǒng)的語音輸入必須為控制指令或地圖地名;且控制指令限于地圖控制指令、導航控制指令和地圖查詢指令三種指令,無法滿足車載信息服務(wù)系統(tǒng)的需求。中國發(fā)明專利申請“可用于汽車的語音命令控制方法及系統(tǒng)”(公開號CN101217584A)公開的語音識別模塊使用非特定人中文語音識別技術(shù),利用麥克風輸入語音命令,通過EM220CN對語音命令進行識別。因此,該方法的語音輸入也限定在命令短語上。隨著車載信息服務(wù)系統(tǒng)的發(fā)展,目前語音識別在導航儀終端上的使用場景為先選定需要識別的類型,然后錄音按鈕,然后開始說話,之后系統(tǒng)自動識別并返回識別結(jié)果,如圖I所示。其中操作類型為查詢目的地、查詢周邊設(shè)施、查詢交叉路口等等。這種應(yīng)用雖然能為用戶帶來一定便利,但是其局限性也非常明顯。主要表現(xiàn)為I)用戶需要先限定待識別的操作類型。通過限定待識別的操作類型,對于語音識別的難度系數(shù)減少,增加了查詢命中率,但是帶來負面效果是,用戶多執(zhí)行了一步操作,降低了用戶體驗的便捷性。[0012]2)用戶交互內(nèi)容。用戶說的內(nèi)容需要為短語,而不是句子。如用戶選定查詢目的地的操作類型,用戶說的內(nèi)容為“北京火車站”,而不是“我要去北京火車站”,這樣的設(shè)計不符合用戶自然語言交互的要求。
實用新型內(nèi)容本實用新型的目的在于提供一種使用自然語言的車載信息服務(wù)系統(tǒng)的語音操作系統(tǒng)。本實用新型的使用自然語言的車載信息服務(wù)系統(tǒng)的語音操作系統(tǒng),包括一導航儀,設(shè)錄音鍵和語音輸入裝置,用以接收語音輸入并生成語音文件;一車載信息服務(wù)系統(tǒng)語音服務(wù)器,與導航儀無線通信,接收導航儀發(fā)送的語音文 件;一語音云服務(wù)器,與所述車載信息服務(wù)系統(tǒng)設(shè)語音云服務(wù)器網(wǎng)絡(luò)連接,接收語音文件并將其轉(zhuǎn)換為純文本文件并發(fā)送給車載信息服務(wù)系統(tǒng)語音服務(wù)器,通過車載信息服務(wù)系統(tǒng)語言服務(wù)器解析后將識別結(jié)果發(fā)送導航儀。所述車載信息服務(wù)系統(tǒng)語音服務(wù)器包括一語言處理模塊;所述語音處理模塊含中文詞典和操作模式庫,用以將純文本文件分詞,并識別操作類型及其操作關(guān)鍵詞和操作屬性,并將識別結(jié)果發(fā)送導航儀的操作執(zhí)行模塊,由其執(zhí)行相應(yīng)操作。所述語音處理模塊還含口語化詞詞庫,用以去除分詞后的文本中的口語化詞。所述操作類型包括目的地查詢;周邊設(shè)施查詢;交叉路口查詢;音樂下推;撥打電話。所述中文詞典采用樹狀結(jié)構(gòu),第一層以中文詞條的首字作為索引,采用哈希表存儲;第二層,采用線性順序表存儲詞條的第二個字,去除相同的字并形成一個有序的線性表,線性表結(jié)點以提取漢字的內(nèi)碼值排序,同時存儲以此漢字為首的單詞的剩余部分構(gòu)成的線性表的指針以及一個是否為詞的標志;在樹的其余層次的節(jié)點,采用按順序存儲詞條中的Iv子和指向它所有可能后繼子的線性表的指針。本實用新型還設(shè)一用戶行為習慣規(guī)則表,用以與未能完成識別的文本進行匹配以確定操作類型及其操作關(guān)鍵詞和操作屬性。所述語音文件經(jīng)過加密、壓縮、編碼處理,所述語音服務(wù)器對所述語音文件先進行解碼、解壓、解密處理。本實用新型還設(shè)一未識別知識庫,用以存儲未能識別的文本,解析后存入操作模式庫。本實用新型實現(xiàn)了使用自然語言的車載信息服務(wù)系統(tǒng)的語音操作,用戶只需要在導航儀上用口語化的交流方式說出自己想要進行的操作,而不需要先選定操作類型,再用短語的交互方式來對機器進行操作。本實用新型與現(xiàn)有技術(shù)相比具有如下優(yōu)勢I)是減少了用戶操作步驟。如圖2所示,本實用新型由原來三步操作,降低為二步操作;2)使用口語化的自然語言,代替原來的短語/詞組的交互方式。
圖I現(xiàn)有語音操作示意圖;圖2本實用新型語音操作示意圖;圖3本實用新型一實施例的語音操作示意圖;圖4本實用新型文本識別流程圖。
具體實施方式
本實用新型首先要研究了用戶使用自然語言識別技術(shù)的應(yīng)用環(huán)境、場景、流程。通過對導航用戶進行電話回訪、調(diào)查問卷、論壇收集信息等方式,同時利用Telematics平臺的服務(wù)錄音功能,統(tǒng)計分析用戶的真實需求,通過分析實際用戶使用情況的分析、研究,我 們利用歸納、分類方法,得出真實的應(yīng)用需求,確定了用戶操作的各種類型,其中主要的操作類型包括I)目的地查詢;2)周邊設(shè)施查詢;3)交叉路口查詢;4)音樂下推;5)撥打電話。當然,隨著信息服務(wù)的不斷拓展,還會有更多的操作類型,但都可采用本實用新型的方法和系統(tǒng)來實現(xiàn)語音操作。如圖3所示,本實用新型的語音操作系統(tǒng)包括三大部分導航儀、Telematics語音處理服務(wù)器、語音云。語音操作流程如下第一步用戶在導航儀上按下錄音按鈕后,啟動語音輸入,然后以自然語言的方式向?qū)Ш较到y(tǒng)發(fā)布操作信息。導航系統(tǒng)生成語音文件,將錄音文件進行加密、壓縮、編碼處理,通過無線通信方式,將處理后的錄音文件發(fā)送給Telematics語音服務(wù)器;第二步語音處理服務(wù)器收到語音文件,進行解碼、解壓、解密處理,然后調(diào)用語音云服務(wù)器的接口,將語音文件傳遞給語音云處理。第三步語音云服務(wù)器收到語音文件,對語音文件進行處理生成TXT文本(純文本)文件,并返回給語音處理服務(wù)器的自然語言處理模塊。第四步自然語言處理模塊收到TXT文本文件后,進行自然語言處理,解析出用戶欲達成的操作,如查詢POI目的地操作,將識別結(jié)果返回給導航儀的操作執(zhí)行模塊。第五步導航儀對收到的識別結(jié)果進行處理,執(zhí)行相應(yīng)操作。如果是查詢結(jié)果,則直接顯示。如果是撥打電話,則直接撥電話。下面詳細說明本實用新型的自然語言文本的識別過程。由于在車載服務(wù)系統(tǒng)中的自然語言處理是特定應(yīng)用領(lǐng)域,而且是口語化的自然語言交互處理流程,經(jīng)過對問題域的研究,得出該技術(shù)的應(yīng)用就具體應(yīng)用場景,能歸納總結(jié)出主要的應(yīng)用模式,使用自然語言模式匹配算法處理,能解決自然語言在車載系統(tǒng)的應(yīng)用問題。如圖4所示,識別過程主要包括文本分詞、去噪處理、操作關(guān)鍵詞識別、操作模式匹配、識別結(jié)果返回等幾部分。對于不能識別的文本內(nèi)容,本實用新型提供了系統(tǒng)自學習功能,能夠?qū)δJ綆旒捌潢P(guān)鍵詞庫、口語化詞詞庫進行不斷完善與豐富。一、文本分詞對交互的自然語言處理首先要進行分詞處理,目前常用的分詞技術(shù)有正向最大匹配分詞、逆向最大匹配分詞、基于TRIE索引樹的分詞詞典機制、基于逐字二分的分詞詞典機制等,這些分詞技術(shù)在效率、空間使用率都各有優(yōu)缺點。本實用新型的中文詞典采用樹狀結(jié)構(gòu)。詞典的第一層以中文詞條的首字作為索弓丨,采用哈希表存儲,以提高首字的查找速度。這樣,首字成為根節(jié)點,所有首字相同的詞成為一組,屬于同一棵樹。因為在漢語中二字詞較多,如果詞條的次字仍以哈希表存儲的話,雖然可以提高查找速度,但是這種詞典的大小和最為龐大的TRIE樹結(jié)構(gòu)比起來改進甚微,所以在森林的第二層,采用線性順序表來存儲詞條的第二個字,去除相同的字并形成一個有序的線性表,線性表結(jié)點以提取漢字的內(nèi)碼值排序,同時存儲以此漢字為首的單詞的剩 余部分構(gòu)成的線性表的指針以及一個是否為詞的標志。在樹的其余層次的節(jié)點,仍然采用按順序存儲詞條中的一個字和指向它所有可能后繼字的線性表的指針。為了使用二分查找來提高匹配速度,第二層以下都是線性表,但是邏輯結(jié)構(gòu)則是一棵漢字構(gòu)成的單詞數(shù),這樣構(gòu)成一個支持逐字查找的、在第一層首字以哈希表存儲,以下逐層依照線性有序表存儲的森林結(jié)構(gòu)。在分詞過程中利用上述數(shù)據(jù)結(jié)構(gòu)進行逐層分詞匹配查詢,來解決文本的分詞問題。二、去噪處理(去口語化詞)口語話的語言中經(jīng)常會夾雜著遲疑、綴語、重復等口頭語的詞匯,如“啊”、“呢”、“這個”等,去噪處理的作用是將口語自然語言中的口語化詞去掉。一) 口語化詞詞庫建立首先建立日??谡Z詞庫SI,然后對Telematics運營過程中積累的客戶錄音文件中的常用口語整理和統(tǒng)計,得到詞庫S2。在S2中按照每個詞的詞頻高低不同降序排列,將SI庫和S2做合并處理,得到新集合S3,即口語化詞詞庫,S3詞庫中的口語化詞是按照在日常生活中出現(xiàn)詞頻的從高到低進行排列的。二)去噪過程處理流程I)依次取出文本L中各個分詞Ql,Q2,。。。,Qn ;2)用Qi逐條和S3庫中每個詞Pi進行全字匹配;3)如果匹配成功,則Qi為口語詞,則去掉,如果匹配失敗,則繼續(xù)直到結(jié)尾;4)最后整理出新的分詞詞組為去噪后的分詞后的文本。三、操作類型、操作關(guān)鍵詞和操作屬性識別一)操作模式庫通過對Telematics平臺中用戶服務(wù)錄音文件的分析和日常生活中口語化語言分析,歸納總結(jié),本實用新型建立了用戶常見的自然語言操作模式庫,該模式庫存儲各類型下的操作模式,每一類型操作模式包含本模式的操作關(guān)鍵詞和操作屬性,如表I所示表I操作類增編0 操作類校式編4稅式內(nèi)容
Al打電話MAll{給}<人名>{打電話}
MA12.丨打丨{電話} {給丨<人名>
A2POI ft 淘 ΜΑ21J Jc}<f j·政KxPOI 名稱>
MA22{妃找丨< 』·政Κ>_<Ρ0!名稱>
ΜΑ23|到}<0'.政丨+式>< 01名稱>
A3周邊設(shè)輸作ΜΑ31丨.找丨<附近的><設(shè)施分炎名>
WΜΑ32邊的}<設(shè)施分炎>
ΜΑ33<Ρ0Ι 名稱>!附近! < &施 f,>
A4交義路I I ft ΜΑ41《路名〉1/·、'路f1>_i交義I U.
MA42;&雙:<路名丨路啪叫丨./糾丨|| ]丨>,/、<路名
!路/1 /1 丨I/ :/_·!}>
AS療視頻卜—推 MA51丨聽卜人名>的<歌_規(guī)頻名>
MA52{卜獲丨<人名>的<歌_ 頻名>其中,對于每一操作類型下的每條操作模式,都存在一條或者多條的操作關(guān)鍵詞和操作屬性,如編號為MA12的操作模式中“ {} ”內(nèi)為操作關(guān)鍵字,“O”內(nèi)為操作屬性。二)用戶習慣行為規(guī)則表用戶使用習慣行為的數(shù)據(jù)是通過車載終端設(shè)備中ΝΓ‘用戶習慣收集模塊”,收集所有用戶行為,如在一段時間內(nèi),用戶打電話的次數(shù)為10次、打電話的時間、聽本地存儲的歌曲次數(shù),歌曲名字,聽歌曲時間、地點等等,然后通過無線通信技術(shù),在一定條件下(如開機后的某個空閑時間)將“用戶習慣數(shù)據(jù)”在車機上傳輸?shù)絋elematics語音處理服務(wù)器中,由其N2 “用戶習慣處理”模塊處理,N2從用戶在后臺的服務(wù)記錄數(shù)據(jù)庫中(數(shù)據(jù)庫中記錄用戶請求服務(wù)相關(guān)信息,如請求目的地查詢的次數(shù)8次、給好友打電話轉(zhuǎn)接3次數(shù)等等)取出已有的類似的用戶習慣數(shù)據(jù),N2將二者按照操作類型進行數(shù)據(jù)融合統(tǒng)計形成用戶的“Ρ0Ι查詢使用習慣庫”、“打電話庫”、“查詢周邊數(shù)據(jù)庫”……等等,然后根據(jù)多個數(shù)據(jù)的數(shù)據(jù)按照某個用戶進行統(tǒng)計,得出用戶的某個操作的次數(shù)列表,然后對經(jīng)常性行為按照出現(xiàn)頻率分成從高到低進行排序,形成用戶習慣行為規(guī)則表。如表2所示表2
優(yōu)先級動作名稱比例
1A2PO!82%
2Al打電沾78%
3AS咅規(guī)頻下推63%
* 寒·m m m三)操作關(guān)鍵詞識別I)逐條取出自然語言文 本L中的每個分詞Qi,用Qi與每個模式規(guī)則MAj中的關(guān)鍵詞 MAKm (MAK1,MAK2, "'MAKn)進行匹配;2)計算每個關(guān)鍵詞的匹配率Rm=Qi/MAKm (Rl, R2, - ,Rn);[0075]3)然后計算平均匹配率Ri= (Rl+R2+...+Rn)/n,如果Ri大于約定的匹配率值,則認為該文本L的動作為Aj條動作。否則,繼續(xù)匹配下去;4)如果沒有任何規(guī)則滿足文本L,則使用“用戶習慣規(guī)則表”進行逐項匹配,返回給用戶多個選擇結(jié)果。如用戶的自然語言是“青花瓷”,當匹配不到具體規(guī)則時,按照用戶習慣規(guī)則表中該用戶使用習慣的高低,先選擇查詢是否有“青花瓷”的信息點,如果有,則保存起來;然后繼續(xù)查詢是否有好友叫“青花瓷”的人,如果有,保存起來表示要給這個人打電話等等,然后將保存的多個內(nèi)容和操作需要的相關(guān)數(shù)據(jù)(如信息點名稱、坐標、好友電話號碼等)發(fā)送給終端設(shè)備,并提示用戶選擇某項服務(wù)內(nèi)容,當用戶選擇后,終端車機執(zhí)行相應(yīng)的操作。四)操作類型及操作屬性識別如果確定文本L屬于某個操作類型Ai后,驗證每個操作類型Ai的操作模式庫中的每條操作模式MAj。每條MAj操作模式的屬性匹配率要達到一定閾值以上,即可以認為該 文本L符合該操作模式MAj,然后按照該操作模式進行后續(xù)處理。操作模式庫建立后,每條操作模式都包含有限的操作屬性信息。如POI查詢,模式模式表示為MA2i={Key},〈POINameXDistrName〉。POI查詢中基本包含兩類操作屬性,一個為POI名稱,一個為行政區(qū)名。系統(tǒng)對每個操作屬性建立一套屬性數(shù)據(jù)庫PDi和一套匹配規(guī)則PMi。例如,對于行政區(qū)名建立行政區(qū)屬性數(shù)據(jù)庫H)i,存儲全國所有的省、市、縣、鄉(xiāng)/鎮(zhèn)、村的行政區(qū)名稱,而匹配規(guī)則PMi為計算〈DistrName〉中所有漢字與PDi中各個詞的匹配度,當匹配度達到一定閾值以上,如90%,就可以認定這個屬性就是行政區(qū)的屬性,并且屬于中的PDi某一個項,標明文本L中含有該操作屬性信息。四、操作執(zhí)行對于匹配到操作的文本L,進行相應(yīng)操作執(zhí)行。如查詢P0I,導航儀依據(jù)行政區(qū)劃分可以進行查詢,并顯示查詢結(jié)果。對于沒有匹配到任何操作的文本L,則由語音處理服務(wù)系統(tǒng)會通知呼叫中心平臺的坐席員給用戶打電話,人工處理用戶的操作請求。然后將該操作文本L,加入未識別知識庫中,由人工進行分析,解析為某個操作的模式,如MAk= {keyl··· keyn},〈PropertyI>,<Property2>,…,<Propertym>0將該操作模式加入到操作模式庫中,系統(tǒng)在下次遇到類似自然語言后,會自動識別并解析出正確操作需求。其中未識別知識庫是用來保證閉環(huán)和系統(tǒng)自我完善、再學習的。本實用新型給出了在車載信息服務(wù)平臺下,利用自然語言的模式匹配算法解決用戶與導航儀自由交互的問題。利用本實用新型提出的自然語言語音操作方法,會極大提高用戶與導航儀進行人機交互的體驗度,增加用戶的粘性。
權(quán)利要求1.一種使用自然語言的車載信息服務(wù)系統(tǒng)語音操作系統(tǒng),包括 一導航儀,設(shè)錄音鍵和語音輸入裝置,用以接收語音輸入并生成語音文件; 一車載信息服務(wù)系統(tǒng)語音服務(wù)器,與導航儀無線通信,接收導航儀發(fā)送的語音文件; 一語音云服務(wù)器,與所述車載信息服務(wù)系統(tǒng)設(shè)語音云服務(wù)器網(wǎng)絡(luò)連接,接收語音文件并將其轉(zhuǎn)換為純文本文件并發(fā)送給車載信息服務(wù)系統(tǒng)語音服務(wù)器,通過車載信息服務(wù)系統(tǒng)語音服務(wù)器解析后將識別結(jié)果發(fā)送導航儀。
專利摘要本實用新型屬于通信技術(shù)領(lǐng)域,涉及一種使用自然語言的車載信息服務(wù)系統(tǒng)的語音操作系統(tǒng)。包括一導航儀,設(shè)錄音鍵和語音輸入裝置,用以接收語音輸入并生成語音文件;一車載信息服務(wù)系統(tǒng)語音服務(wù)器,與導航儀無線通信,接收導航儀發(fā)送的語音文件;一語音云服務(wù)器,與所述車載信息服務(wù)系統(tǒng)設(shè)語音云服務(wù)器網(wǎng)絡(luò)連接,接收語音文件并將其轉(zhuǎn)換為純文本文件并發(fā)送給車載信息服務(wù)系統(tǒng)語音服務(wù)器的語言處理模塊;所述語音處理模塊含中文詞典和操作模式庫,用以將純文本文件分詞,并識別操作類型及其操作關(guān)鍵詞和操作屬性,并將識別結(jié)果發(fā)送導航儀的操作執(zhí)行模塊,由其執(zhí)行相應(yīng)操作。本實用新型實現(xiàn)了使用自然語言的車載信息服務(wù)系統(tǒng)的語音操作。
文檔編號G10L15/26GK202534344SQ20122002616
公開日2012年11月14日 申請日期2012年1月19日 優(yōu)先權(quán)日2012年1月19日
發(fā)明者王剛 申請人:北京賽德斯汽車信息技術(shù)有限公司