專利名稱:操作聲音控制導(dǎo)航系統(tǒng)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種操作聲音控制導(dǎo)航系統(tǒng)的方法。另外,本發(fā)明涉及一種用于導(dǎo)航系統(tǒng)的聲音數(shù)據(jù)用戶接口、一種具有這種聲音數(shù)據(jù)用戶接口的導(dǎo)航系統(tǒng)、以及一種計算機程序,以在導(dǎo)航系統(tǒng)的聲音數(shù)據(jù)接口的處理器上執(zhí)行該方法。而且,本發(fā)明涉及一種產(chǎn)生在所述方法中使用的地理數(shù)據(jù)庫的方法,以操作聲音控制導(dǎo)航系統(tǒng)。
背景技術(shù):
使用導(dǎo)航系統(tǒng)的現(xiàn)代機動車輛逐漸增多。這種類型的導(dǎo)航系統(tǒng)使得用戶能夠計算出到達特定目的地的路線,并且在行程期間沿著該路線引導(dǎo)用戶。為了能夠提供這些功能,導(dǎo)航系統(tǒng)使用其中包含關(guān)于地理區(qū)域、城鎮(zhèn)、位置、建筑物、街道、交叉點、沿特定部分道路的偏愛行程時間、道路的速度限制等信息的地理數(shù)據(jù)。使用這種地理數(shù)據(jù),導(dǎo)航系統(tǒng)能夠找到最優(yōu)路線,即從起點至特定目的地最短和/或最快的一條路線??梢杂捎脩敉ㄟ^適當(dāng)?shù)挠脩艚涌谳斎朐撈瘘c和/或目的地??商鎿Q地,在某些導(dǎo)航系統(tǒng)中,也可以使用自動位置確定設(shè)備、例如使用GPS來確定起點,說是當(dāng)前的起點。
該用戶接口通常包括用于輸入位置數(shù)據(jù)的鍵盤。這里假定“位置數(shù)據(jù)”是關(guān)于任何位置、區(qū)域、建筑物、道路等的地理數(shù)據(jù)。更加便利的導(dǎo)航系統(tǒng)可替換地或另外配備有聲音數(shù)據(jù)用戶接口,用戶可以使用其以自然語言進行交流。由于聲音數(shù)據(jù)用戶接口使得能夠不動手就可以對特定的設(shè)備進行操作,從安全的角度考慮,優(yōu)選地需要使用這種方式來控制機動車輛中的導(dǎo)航系統(tǒng)。在行程期間,駕駛員可以操作該導(dǎo)航系統(tǒng),而不必為此將其手從方向盤上挪開。
在使用這種聲音數(shù)據(jù)用戶接口的情況下,通過麥克風(fēng)將用戶所發(fā)出的、例如指定位置或給出命令的口頭響應(yīng)檢測為聲音信號。然后將該口頭響應(yīng)發(fā)送到聲音識別裝置,從而可以識別該位置或命令,并將其以機器可讀的形式傳送到該導(dǎo)航系統(tǒng)的控制裝置。聲音識別系統(tǒng)通常以這種方式工作首先對該口頭響應(yīng)(下面也稱之為聲音信號)進行頻譜分析或按照時間分析,并然后將所分析的聲音信號逐部分地與具有已知聲音信息的不同模型的可能信號串進行比較。因此,該聲音識別系統(tǒng)通常配備有完整的不同可能信號串的庫。使用接收到的聲音信號與有效模型的比較,選擇與特定部分的聲音信號最匹配的模型,從而得到識別結(jié)果。由此,通常計算每一模型與相關(guān)部分的聲音信號匹配的概率。在分析和計算單個模型與相關(guān)部分的聲音信號匹配的概率期間,通常參考語法和/或語言規(guī)則。這樣就避免有可能單個部分的長聲音信號只是孤立地與特定的有效模型匹配完好,并且確??紤]了該部分聲音信號所存在于其中的該內(nèi)容,以全面得到有用的識別結(jié)果,從而減少錯誤率。然而,使用導(dǎo)航系統(tǒng)中的聲音識別系統(tǒng)所存在的一個問題就是,位置數(shù)據(jù)、即目的地城鎮(zhèn)、聯(lián)邦州、街道、建筑物等通常包含適當(dāng)?shù)拿Q、拼寫和發(fā)音,其可能是極其不常用的。通過使用該聲音識別系統(tǒng)的所有可能位置數(shù)據(jù)的完整模型作為限制的活動詞表,可以改進該識別結(jié)果。然而由于有大量的概率,該聲音識別系統(tǒng)的詞表對所有可能出現(xiàn)的所有位置數(shù)據(jù)做全局完整的限制實際上并不可行。另一方面,特別是在用于導(dǎo)航系統(tǒng)的聲音數(shù)據(jù)用戶接口的情況下存在的問題就是,通常必須在不理想的條件下輸入口頭響應(yīng),例如具有相對大量的背景噪聲。因此,用于改進在聲音識別期間的識別質(zhì)量的附加條件將極其有用。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種操作聲音控制導(dǎo)航系統(tǒng)的改進方法、以及一種相應(yīng)的用于導(dǎo)航系統(tǒng)的聲音數(shù)據(jù)用戶接口,其通過簡單的方式增加聲音識別的質(zhì)量。
該目的通過一種操作聲音控制導(dǎo)航系統(tǒng)的方法實現(xiàn),其中考慮地理標(biāo)準(zhǔn),在自動進行的對話中產(chǎn)生輸入請求,并輸出給用戶,檢測用戶所發(fā)出的響應(yīng)口語,并考慮地理標(biāo)準(zhǔn),分析該口頭響應(yīng),以使用自動聲音識別方法識別位置數(shù)據(jù)。
按照配備,通過用于導(dǎo)航系統(tǒng)的聲音數(shù)據(jù)用戶接口實現(xiàn)該目的,其具有用于向用戶輸出輸入請求的輸出裝置,用于檢測用戶所發(fā)出的口頭響應(yīng)的聲音輸入裝置,用于考慮地理標(biāo)準(zhǔn)、控制與該用戶的對話的對話控制裝置,用于考慮地理標(biāo)準(zhǔn)、產(chǎn)生輸入請求的提示產(chǎn)生單元,用于考慮地理標(biāo)準(zhǔn)、分析所檢測的口頭響應(yīng)以識別位置數(shù)據(jù)的聲音識別裝置和分析單元,以及地理數(shù)據(jù)庫和/或用于訪問地理數(shù)據(jù)庫的數(shù)據(jù)接口,其可以將地理標(biāo)準(zhǔn)和/或地理數(shù)據(jù)用于該對話控制裝置和/或該提示產(chǎn)生單元和/或該聲音識別裝置和/或該分析單元。
從而使用以特定的對話寫(dialog-writing)語言存儲在該系統(tǒng)中的對話寫系統(tǒng),通過該對話控制裝置對該對話順序進行控制。其可以是任何對話寫語言。常規(guī)語言的范例是面向方法的編程語言,諸如C或C++或所謂的混合語言,其是聲明性并且面向方法的,諸如Voice XML或PSPHDDL,這種語言具有的結(jié)構(gòu)類似于通常用來寫互聯(lián)網(wǎng)站的HTML。因此主要是通過向該用戶輸出對應(yīng)的輸入請求、也就是通常所熟知的提示來進行控制。
使用自動進行的對話,在多個查詢步驟中反復(fù)地確定所想要的目的地。由于是考慮地理標(biāo)準(zhǔn)在該自動對話中輸出各個提示,因此相應(yīng)地可以在該語音識別方法中使用這些地理標(biāo)準(zhǔn),用于識別特定提示之后的口頭響應(yīng),以限制該活動詞表或評估語言假設(shè)等。結(jié)果,相當(dāng)大的地改善了各個對話階段中的識別結(jié)果,這樣就從整體上得到了極其可靠的正確位置識別。
例如可以通過這樣一種方式來產(chǎn)生相應(yīng)的輸入請求從已經(jīng)指定的一組可能輸入請求中選擇一個特定的輸入請求。通過這種方式,該輸入請求也可以完全是作為該對話順序中特定位置的函數(shù)新產(chǎn)生的。
原則上可以由該提示產(chǎn)生單元通過任何方式產(chǎn)生這種提示,并將其例如以顯示器上的書寫形式等輸出給用戶。然而優(yōu)選地,以口頭形式進行輸出。這樣的優(yōu)點是,用戶可以記錄該提示,同時繼續(xù)觀察交通,這樣的結(jié)果就是操作該導(dǎo)航裝置變得更加安全。也可以同時進行口頭和視覺輸出。口頭輸出所使用的例如可以是聲音合成器(文本語音轉(zhuǎn)換器),以將提示輸出從文本形式轉(zhuǎn)換成為口頭形式。因為使用預(yù)備的提示,它們也可以存儲在音頻數(shù)據(jù)庫中。該提示產(chǎn)生單元也可以逐部分地根據(jù)預(yù)備的音頻數(shù)據(jù)來編譯提示,例如句子的特定部分,從而也通過聲音合成器在可以應(yīng)用的地方產(chǎn)生各個部分。
從屬權(quán)利要求包含本發(fā)明特別有利的實施例和進一步的實施例。從而可以通過類推與該方法相關(guān)的權(quán)利要求進一步開發(fā)根據(jù)本發(fā)明的聲音數(shù)據(jù)用戶接口。
當(dāng)識別了隨后的口頭響應(yīng)時,根據(jù)已經(jīng)產(chǎn)生的提示,有多種選擇來使用該地理標(biāo)準(zhǔn)。
在優(yōu)選實施例中,使用在產(chǎn)生該輸入請求中所考慮的該地理標(biāo)準(zhǔn)來編譯單詞列表,其用作在用戶隨后所發(fā)出的口頭響應(yīng)的語音識別期間的限制活動詞表。因此,例如在產(chǎn)生輸入請求“你的目的地位于哪一個聯(lián)邦州?”的時候(其中在該范例中,假定導(dǎo)航系統(tǒng)具有當(dāng)前所使用的覆蓋全部德國的地理數(shù)據(jù)庫),在對用戶隨后所發(fā)出的口頭響應(yīng)的聲音識別中將使用相對短的單詞列表,其只包括該國家中所有聯(lián)邦州的名稱。
可替換地或除此之外,當(dāng)前活動的詞語列表也可以被編譯為該對話內(nèi)用戶所發(fā)出的前一口頭響應(yīng)的識別結(jié)果的函數(shù)。這里有一個范例是,用戶已經(jīng)在前一對話階段中輸入了該目的地位于北萊茵河-威斯特伐利亞聯(lián)邦州中。對于用戶對隨后的輸入請求“你的目的地位于什么城鎮(zhèn)?”的口頭響應(yīng)的聲音識別,其然后足夠?qū)⒈比R茵河-威斯特伐利亞聯(lián)邦州中的所有城鎮(zhèn)的名稱都包括在該詞語列表中。
類似地,隨后該對話內(nèi)用戶的口頭響應(yīng)的識別結(jié)果也可以用來限制該活動詞表,用于更新對用戶已經(jīng)作出的口頭響應(yīng)的識別,以改進該識別或使其位于第一位置。這里的一個范例就是,首先輸出其中提示“你的目的地位于哪一城鎮(zhèn)?”的對話。因為該聲音識別然后不能夠提供可靠的識別結(jié)果,例如由于沒有一個識別假設(shè)具有足夠的置信級別,在該對話的下一階段可以輸出諸如“附近有什么大城市?”的提示。然后可以將具有大城市的限制詞語列表用于該第二提示之后的口頭響應(yīng)。該查詢的識別結(jié)果然后可以用于對只包括位于所識別的大城市附近的城鎮(zhèn)的詞語列表進行編譯,以進一步試圖識別對第一提示的口頭響應(yīng)。如果需要,對作為音頻數(shù)據(jù)被存儲的先前口頭響應(yīng)的這種重復(fù)識別也可以作為一種情況進行。
這種對活動詞表的限制就是所知道的“硬”限制,其結(jié)果是只允許特定的識別結(jié)果。
可替換地或除此之外,使用該地理數(shù)據(jù)庫,通過在產(chǎn)生前一提示中所考慮的地理標(biāo)準(zhǔn),可以評估在對該用戶所發(fā)出的口頭響應(yīng)進行聲音識別期間所確定的不同識別假設(shè)。這種類型的評估也可以作為對該用戶在該對話中之前和/或之后所發(fā)出的口頭響應(yīng)的識別結(jié)果的函數(shù)進行。
隨后的評估可以以“軟”形式進行,其中編譯“n-best列表”,包括特定數(shù)目“n”個以順序排列的最可能的識別假設(shè)。在評估編譯該n-best列表的該假設(shè)中,關(guān)于該地理標(biāo)準(zhǔn),需要確保該識別假設(shè)與之前和/或之后的識別結(jié)果和/或該輸入請求的地理標(biāo)準(zhǔn)一致。如果前面已經(jīng)限制了該活動詞表,也優(yōu)選地產(chǎn)生這種n-best列表。否則,也可以根據(jù)“硬”排除標(biāo)準(zhǔn)進行評估,從而隨后對該活動詞表進行準(zhǔn)限制。
尤其是如果該用戶在該對話內(nèi)所請求的數(shù)據(jù)并不明確涉及所定義的事情,諸如聯(lián)邦州的名稱、國家等,但是涉及“軟”標(biāo)準(zhǔn),諸如城鎮(zhèn)大小、或者如果其包含彼此不同的地理位置之間的關(guān)系,諸如與大城市附近之間的關(guān)系,那么以評估該識別假設(shè)的形式來考慮這些種類的地理標(biāo)準(zhǔn)比硬排除標(biāo)準(zhǔn)更加有用,諸如對活動詞表的限制。
優(yōu)選地也可以使用將一個并且相同的對話中的地理聲音識別標(biāo)準(zhǔn)的組合利用方法。例如,對于第一提示的口頭響應(yīng)的聲音識別,可以限制該活動詞表,并且對于第二提示的口頭響應(yīng)的聲音識別,可以使用該地理標(biāo)準(zhǔn)來評估該識別假設(shè)。對于特定口頭響應(yīng)的聲音識別,可以發(fā)生關(guān)于某個標(biāo)準(zhǔn)的活動詞表的限制以及根據(jù)其它各種標(biāo)準(zhǔn)來評估識別假設(shè)。
也存在選擇該對話順序本身的各種其它選項。
例如,原則上可以根據(jù)地理標(biāo)準(zhǔn)嚴(yán)格分層地構(gòu)建對話,即在該對話順序內(nèi)根據(jù)地理標(biāo)準(zhǔn)產(chǎn)生分層構(gòu)建的提示。這里一個典型的范例是,首先查詢該目的地位于哪一國家中,然后,例如如果是可以應(yīng)用的,就查詢聯(lián)邦州,再然后是區(qū)域,最后是城鎮(zhèn),接著是街道,其中在每一階段區(qū)域逐漸縮小,并且相應(yīng)地只將該區(qū)域中可能的響應(yīng)編譯成詞語列表。
在替換的過程中,在對話中產(chǎn)生關(guān)于地理標(biāo)準(zhǔn)的輸入請求,作為對用戶所發(fā)出的前一口頭響應(yīng)的識別結(jié)果的函數(shù)。例如,如果在第一步驟中查詢該目的地的響應(yīng)的識別結(jié)果不夠滿意,就可以對最近的大城市進行查詢。另一方面,例如如果在第一步驟中已經(jīng)明確地識別了目的地所位于的城鎮(zhèn),那么在該對話的緊接著的下一步驟中可以查詢街道。
當(dāng)根據(jù)分層構(gòu)建的地理標(biāo)準(zhǔn)構(gòu)建對話時,也可以另外使用前一口頭響應(yīng)的識別結(jié)果,以確定該對話順序內(nèi)的其它步驟。一個典型的范例情況是,響應(yīng)于查詢該目的地位于哪一聯(lián)邦州,指定聯(lián)邦州“柏林”。在隨后的輸入請求中,不是詢問該聯(lián)邦州中的城鎮(zhèn),例如查詢該目的地所位于的該城鎮(zhèn)的行政區(qū)域?qū)佑杏谩?br>
使用兩種方法,優(yōu)選地存在一種可能性,如果用戶不能回答該特定的問題,例如關(guān)于柏林城的行政區(qū)域或關(guān)于該聯(lián)邦州內(nèi)的特定區(qū)域的問題,該對話步驟可以通過適當(dāng)?shù)捻憫?yīng),諸如通過“未知”跳過,或者使用也對該區(qū)域進行縮小的不同查詢對其進行替換。
優(yōu)選地,根據(jù)前一輸入請求和/或?qū)δ承?shù)據(jù)項的口頭響應(yīng)的前一識別結(jié)果,盡可能地限制例如用于編譯詞語列表和/或用于評估識別假設(shè)的該對話中所使用的地理數(shù)據(jù)庫。通過在前一步驟中為隨后的步驟限制該數(shù)據(jù)庫,可以相當(dāng)快地提取適當(dāng)?shù)膯卧~列表,因為必須查找以編譯該詞語列表的數(shù)據(jù)項的數(shù)目相應(yīng)地更小。
進一步,特別優(yōu)選地使用具有數(shù)據(jù)項的地理數(shù)據(jù)庫,其分別具有分配給它們的表示一種所關(guān)心的數(shù)據(jù)項的一個或多個標(biāo)記。數(shù)據(jù)項的地理類型例如可以是該數(shù)據(jù)項是否關(guān)于國家、聯(lián)邦州、城鎮(zhèn)或大城市,或者是城鎮(zhèn)位于哪一聯(lián)邦州等。該標(biāo)記也可以表示地理級層。使用這些標(biāo)記,可以相當(dāng)快速地完成用于其它步驟的數(shù)據(jù)庫的限制,和/或可以更加快速地提取或更加高效地后處理詞語列表,這是由于查找被限制在具有特定標(biāo)記的項,其中定義有標(biāo)記的類型,例如當(dāng)前的級層或當(dāng)前所查詢的地理類型,用于識別或評估前一提示或?qū)υ掚A段所發(fā)出的特定口頭響應(yīng)。
對話控制裝置、提示產(chǎn)生裝置、聲音識別裝置和該分析單元分別可以是在適當(dāng)?shù)挠布?、例如在?dǎo)航系統(tǒng)的聲音數(shù)據(jù)用戶接口的處理器上實施的軟件組件。因而,聲音數(shù)據(jù)用戶接口其自己配備用于該目的的處理器不是絕對必要的,相反,該聲音數(shù)據(jù)用戶接口也可以共用用于該導(dǎo)航系統(tǒng)的其它功能的處理器。在該連接中需要特別指出的是,導(dǎo)航系統(tǒng)并非必須是結(jié)構(gòu)單元,但是其也可能在與其它設(shè)備連接的各種設(shè)備上實現(xiàn)該系統(tǒng)的各種組件。這特別適用于該聲音數(shù)據(jù)用戶接口本身,其組件也可以在空間分離的處理器上實施。于是例如聲音識別裝置可以使用互聯(lián)網(wǎng)上的特殊高容量服務(wù)器上的分析單元實施,并且可以通過數(shù)據(jù)連接與例如位于該用戶的機動車輛中的該導(dǎo)航系統(tǒng)的其它組件連接。
由于該對話控制裝置、提示產(chǎn)生裝置、聲音識別裝置以及該分析裝置分別可以采取軟件模塊的形式,因此有可能使用根據(jù)本發(fā)明的該聲音數(shù)據(jù)用戶接口對配備有適當(dāng)輸出裝置、諸如配備有揚聲器和/或顯示器的現(xiàn)存導(dǎo)航系統(tǒng)進行改進。該系統(tǒng)所需要的一切是配備聲音輸入單元,例如簡單的麥克風(fēng),并且需要存在有適當(dāng)?shù)母咝幚砥饕约芭c高效處理器的適當(dāng)連接。導(dǎo)航系統(tǒng)本身中存在對地理數(shù)據(jù)的訪問,由于這需要用于計算路徑的數(shù)據(jù)庫。該數(shù)據(jù)庫可以存儲在位于該導(dǎo)航系統(tǒng)中的大容量存儲器裝置中,諸如存儲在CD中。然而,其也可以通過網(wǎng)絡(luò),例如通過互聯(lián)網(wǎng)進行查詢。
該數(shù)據(jù)庫優(yōu)選地應(yīng)該提前作為部分預(yù)處理階段進行修改。例如,表示所涉及的該數(shù)據(jù)庫項的類型和/或地理級層和/或其它地理特征、例如河上位置的這些標(biāo)記由此可以分配給各個單獨的數(shù)據(jù)項。另外,也可以分層地存儲該數(shù)據(jù)庫和/或可以建立各個數(shù)據(jù)庫項之間的關(guān)系,并從而確定地理標(biāo)準(zhǔn)。這種類型的地理標(biāo)準(zhǔn)可以存儲在該數(shù)據(jù)庫中的分開位置中或直接包含在該數(shù)據(jù)庫項中。例如,數(shù)據(jù)庫項“Eilendorf near Aachen”同時也包含這兩個城鎮(zhèn)之間的關(guān)系。使用這種類型的數(shù)據(jù)庫,根據(jù)本發(fā)明進行準(zhǔn)備使用,那么根據(jù)本發(fā)明的導(dǎo)航系統(tǒng)將變得更加快速和高效。
下面將參照附圖中所示的實施例進一步描述本發(fā)明,然而本發(fā)明并不限與此,其中圖1所示為根據(jù)本發(fā)明的導(dǎo)航系統(tǒng)的一個示范實施例的系統(tǒng)結(jié)構(gòu)的示意圖;圖2所示的方框圖解釋了根據(jù)本發(fā)明在用戶與該系統(tǒng)之間的一個可能的對話順序。
具體實施例方式
原則上,圖1中所示的導(dǎo)航系統(tǒng)可以是配備有導(dǎo)航系統(tǒng)的所有組件的常規(guī)導(dǎo)航系統(tǒng),以確保所需要的功能。出于簡明的目的,該導(dǎo)航系統(tǒng)1的這些組件這里只是通過一個單獨的方框13表示。為了與用戶通信,該導(dǎo)航系統(tǒng)1配備有根據(jù)本發(fā)明的聲音數(shù)據(jù)用戶接口2,其組件在圖1中詳細地示出了。
該聲音數(shù)據(jù)用戶接口2的一個組件是輸入/輸出接口10,其連接在這里作為聲音輸入裝置11的麥克風(fēng)11以及在這里作為聲音輸出裝置12的揚聲器12。該聲音數(shù)據(jù)用戶接口2通過麥克風(fēng)11可以檢測用戶所發(fā)出的口頭響應(yīng)S。該聲音數(shù)據(jù)用戶接口2通過揚聲器12可以輸出提示P,例如用于引導(dǎo)該用戶做出口頭響應(yīng)S。
該用戶接口2進一步的一個重要組件是對輸入的口頭響應(yīng)S進行預(yù)處理的聲音識別裝置6,其對它們進行處理并在輸出端提供識別假設(shè)EH。然后在分析單元7中進一步處理這些識別假設(shè)EH,從而可以理解該口頭響應(yīng)的內(nèi)容,例如是命令或位置詳情。
該聲音數(shù)據(jù)用戶接口2進一步配備有提示產(chǎn)生單元5,通過其產(chǎn)生輸出給用戶的提示P。對話控制裝置3(下面也稱作為對話管理器3)通過該系統(tǒng)輸出的提示S、并考慮由該用戶作為響應(yīng)發(fā)出的口頭響應(yīng)S,負責(zé)控制該聲音數(shù)據(jù)用戶接口2與該用戶之間的對話,其根據(jù)預(yù)定的對話程序控制該對話。因此,該對話控制裝置3與該提示產(chǎn)生單元5、聲音識別裝置6、分析單元7和該輸入/輸出接口10連接。結(jié)果,該對話控制裝置3例如可以向該提示產(chǎn)生裝置5傳輸提示產(chǎn)生命令PB,從而引導(dǎo)其輸出具體的提示P。只要該麥克風(fēng)檢測到口頭響應(yīng)S,就通過該輸入/輸出接口10通知給該對話控制裝置3,并且向該聲音識別裝置6和分析單元7發(fā)送啟動命令A(yù)S。
該聲音數(shù)據(jù)用戶接口2的對于本發(fā)明很重要的另一個組件是地理數(shù)據(jù)庫8。該數(shù)據(jù)庫8這里表示為集成到該聲音數(shù)據(jù)用戶接口2的組件。然而其優(yōu)選地也可以是該導(dǎo)航系統(tǒng)1的普通地理數(shù)據(jù)庫,其中其只可能部分是該導(dǎo)航系統(tǒng)1的聲音數(shù)據(jù)用戶接口2所使用的。
下面參照圖2中所示的方框圖解釋通過這種方式構(gòu)建的聲音數(shù)據(jù)用戶接口2的操作模式。
通常由該對話管理器3在普通激活、例如通過聲音命名或通過手動操作設(shè)備之后開始對話,將提示輸出命令PB輸出到該提示產(chǎn)生器5,以將特定的提示P輸出給用戶。該提示P的產(chǎn)生考慮了在該對話程序中預(yù)定的,或者該對話管理器3可以從該地理數(shù)據(jù)庫8中檢索的特定地理標(biāo)準(zhǔn)GK。
位于該數(shù)據(jù)庫8中的是數(shù)據(jù)項DE,例如是名稱以及關(guān)于國家、區(qū)域、聯(lián)邦州、城鎮(zhèn)、街道、顯著標(biāo)志、完整地址等進一步的地理數(shù)據(jù)。該數(shù)據(jù)項DE由此可以通過不同的方式輸入到該數(shù)據(jù)庫8中。例如,該單個數(shù)據(jù)項DE可以分別包含標(biāo)記M,其表示該地理類或該數(shù)據(jù)項DE所分配的類型,諸如<國家>,<聯(lián)邦州>,<城鎮(zhèn)>,<城鎮(zhèn)的行政區(qū)域>等,或者<小城鎮(zhèn),<大城市,<1百萬居民的城鎮(zhèn)>等。作為替換或者除此之外,該數(shù)據(jù)庫也可以被分層組織和/或劃分成不同的部分。對于諸如德國的領(lǐng)土,可以有各個聯(lián)邦州的不同部分的數(shù)據(jù)庫,其中最終輸入的是城鎮(zhèn)。城鎮(zhèn)下的分層設(shè)置是城鎮(zhèn)的行政區(qū)域,并且然后在該城鎮(zhèn)的各個行政區(qū)域下是街道名稱等。
另外,可以在該數(shù)據(jù)庫8中存儲某些地理標(biāo)準(zhǔn),諸如各個數(shù)據(jù)項DE之間的關(guān)系,例如兩個城鎮(zhèn)相互之間的接近程度。特別地,該數(shù)據(jù)庫8可以具有記錄從該數(shù)據(jù)庫不需要努力可以確定哪一地理標(biāo)準(zhǔn)的區(qū)域,或者已經(jīng)準(zhǔn)備的數(shù)據(jù)記錄可以用于哪一地理標(biāo)準(zhǔn)的區(qū)域。
與該提示輸出命令PB同時地,該對話管理器3向詞語列表產(chǎn)生器9輸出列表編譯命令LB,其根據(jù)當(dāng)前所查找的地理標(biāo)準(zhǔn)從該地理數(shù)據(jù)庫8中檢索該數(shù)據(jù)項DE,并且根據(jù)這些編譯詞語列表WL,其包括用于對該用戶隨后所發(fā)出的口頭響應(yīng)S進行聲音識別的該活動詞表。另外,該對話管理器3將啟動命令A(yù)S傳送給該聲音識別裝置6和分析裝置7,其在這里顯示為一個方框。該詞語列表產(chǎn)生器9可以是單獨的模塊。然而,其也可以是該聲音識別裝置6的子程序,如圖1中的范例所示。
該聲音識別裝置6然后確定該提示P之后的該口頭響應(yīng)S的評估假設(shè),其中將每一口頭響應(yīng)與所存儲的包含在該詞語列表產(chǎn)生器9所編譯的詞語列表WL中的詞語的聲學(xué)模型進行比較。由于這是相對限制的詞語列表WL,其相比于所有地理屬性名稱的全部詞語列表可以具有更高的識別概率。
然后再次通過可以應(yīng)用的該分析裝置7檢查該最佳評估的識別結(jié)果EE或多個識別假設(shè)EH與該地理數(shù)據(jù)庫8中的數(shù)據(jù)項DE和/或與前面的識別結(jié)果以及與前面的提示的一致性。由此,可以應(yīng)用的該分析裝置7從該數(shù)據(jù)庫8中檢索一致性校驗數(shù)據(jù)KCD。如果識別結(jié)果EE是確定的,可應(yīng)用的該數(shù)據(jù)庫8例如如果可以被可靠地排除,根據(jù)該識別結(jié)果EE或該假設(shè)EH將其限制為進一步的對話情況,那么該數(shù)據(jù)庫8中的確定數(shù)據(jù)項DE就不再出現(xiàn)在隨后的口頭響應(yīng)中。因此,例如假定響應(yīng)于輸入請求“請輸入你的目的地所位于的聯(lián)邦州”的可靠識別詞語為“下薩克森”,那么在下面的對話步驟中可以分配其它聯(lián)邦州的所有位置數(shù)據(jù)。
將該識別結(jié)果EE也報告回給對話管理器3,并且也將其輸入“位置填充模塊”(slot filling module)4,其對該系統(tǒng)當(dāng)前全部州的知識進行歸檔。該對話管理器3的位置填充模塊4判決該信息何時足夠,即何時已經(jīng)闡明了所有的查詢點,以便例如可以精確地確定該目的地或起點。如果信息還不足夠,進行進一步的對話步驟,其中再次向該提示產(chǎn)生器5輸出提示輸出命令PB,向該詞語列表產(chǎn)生器9輸出列表編譯命令LB,以及向該聲音識別系統(tǒng)6輸出啟動信號AS,從而可以識別下一個口頭響應(yīng)。在該步驟中,然后只使用在前面限制的數(shù)據(jù)庫8,從而該整個系統(tǒng)在下面的對話步驟中可以相當(dāng)快速地進行操作。
如果位置填充模塊4確定所需要的全部信息都存在,就引導(dǎo)該提示產(chǎn)生器5發(fā)出對應(yīng)的確認所希望目的地的提示,并且將該目的地傳送給導(dǎo)航系統(tǒng)1的其它組件(這里再次顯示為方框13),用于進一步處理。
下面參照兩個范例更加具體地描述該順序在第一范例中,假定根據(jù)地理標(biāo)準(zhǔn)分層構(gòu)建該對話順序。在這種情況下,在第一步驟中通過該提示產(chǎn)生器5輸出提示,例如“你的目的地在哪個國家?”。由于預(yù)期只有不同國家的名稱才能為該輸入請求的口頭響應(yīng),通過該詞語列表產(chǎn)生器9根據(jù)該數(shù)據(jù)庫8產(chǎn)生具有可能國家的詞語列表。該詞語列表然后可以用于對隨后口頭響應(yīng)的聲音識別。這是該對話的第一級層。一旦已經(jīng)正確地識別了該匹配國家,例如如果已經(jīng)聲明國家“德國”,然后在第二級層中產(chǎn)生提示“你的目的地在哪個聯(lián)邦州?”。然后編譯詞語列表,列出德國的所有聯(lián)邦州。然后在進一步的級層中,查詢該城鎮(zhèn),或者如果可以,就在插入的級層步驟中查詢特定的區(qū)域。一旦已經(jīng)確定了城鎮(zhèn),那么在較大城鎮(zhèn)的情況下就可以查詢該行政區(qū)域,并且最終在下面的階段之一中,查詢該街道名稱和門牌號碼,或者特定的建筑物等。
在第二實施例的范例中,假定該數(shù)據(jù)庫8中的各個數(shù)據(jù)庫項設(shè)置有標(biāo)記,其表示數(shù)據(jù)庫項的特定類型或這些數(shù)據(jù)庫項之間的特定關(guān)系。使用該變量,該對話順序本身并不嚴(yán)格地以從大到小的地理單元進行分層構(gòu)建,而是可以相對靈活。在某些條件下,即在良好的識別條件下,這種類型的對話順序到達目的地的步驟比嚴(yán)格分層結(jié)構(gòu)的對話順序更少。在這種情況下,該對話控制單元3例如首先選擇提示“你想要去哪個城鎮(zhèn)旅游?”。然后,如果可以,就編譯具有該數(shù)據(jù)庫8中所有城鎮(zhèn)項的詞語列表。由于在前面沒有采取進一步的限制,其當(dāng)然會是相對較長的列表。換言之,該聲音識別系統(tǒng)的活動詞表極其寬廣,和在前面已經(jīng)通過在先查詢國家、聯(lián)邦州等進行限制的詞語列表相比,這就使得其聲音識別更加難以進行。如果該聲音識別系統(tǒng)產(chǎn)生可接受的識別結(jié)果,那么就可以使用一個查詢來闡明該目的地的城鎮(zhèn),并且然后可以在隨后的對話步驟中輸入進一步的地址數(shù)據(jù),諸如街道和門牌號碼。
然而,如果該系統(tǒng)還不能確信該結(jié)果,例如因為所計算的各種識別假設(shè)的置信度還不夠,可以將這種情況作為(初步)識別結(jié)果發(fā)送回到該對話控制裝置3。后者然后在隨后的對話步驟中輸出進一步的提示,例如輸出“附近有什么大城市?”。然后編譯限制為大城市的活動詞語列表。從該數(shù)據(jù)庫8中查找包含標(biāo)記<大城市>的所有數(shù)據(jù)項DE可能會相對較簡單。該詞語列表要相當(dāng)?shù)匦∮诘谝粚υ挷襟E中的詞語列表,從而由于該活動詞表更小,在第二種查詢情況下的識別結(jié)果EE比第一種更好。
使用該識別結(jié)果EE,然后可以提取該數(shù)據(jù)庫8中位于所查找的該大城市附近的所有數(shù)據(jù)項DE。如果可以應(yīng)用,在第一步驟中也可以對滿足位于所識別的該大城市附近的條件的所有數(shù)據(jù)項DE進行標(biāo)記。然后編譯包含滿足該條件的所有城鎮(zhèn)的新詞語列表。如果已經(jīng)存儲了該用戶對關(guān)于所希望的城鎮(zhèn)的前一查詢的口頭響應(yīng),現(xiàn)在就可以使用所限制的詞語列表再次對該第一口頭響應(yīng)進行聲音識別,以得到更好的識別結(jié)果。可替換地,該對話管理器3也可以再次引導(dǎo)該提示產(chǎn)生裝置5輸出第一提示“你想要到哪個城鎮(zhèn)?”,并然后使用所限制的詞語列表對隨后的口頭響應(yīng)進行聲音識別。
總之,需要再次要指出的是,本發(fā)明并不限于上述實施例范例,特別是該聲音用戶數(shù)據(jù)接口的精確結(jié)構(gòu)或所說明的對話的精確順序,而本領(lǐng)域的技術(shù)人員不超出本發(fā)明的范圍可以很大程度地對其進行變化。
特別地,也可以需要進一步的標(biāo)準(zhǔn)用于聲音識別,特別是補充的地理知識。例如,在評估識別假設(shè)和/或編譯詞語列表中也可以考慮距離當(dāng)前位置的距離。也可以考慮特定用戶至今已經(jīng)達到目的地的次數(shù),這是由于在許多情況下,用戶經(jīng)常旅游到某些相同的位置。也可以通過一個提示覆蓋多個查詢,例如“說明所想要的目的地和附近的大城鎮(zhèn)”。在隨后的聲音識別中,然后可以使用各個城鎮(zhèn)的地理關(guān)系,以更好地評估識別假設(shè)。而且例如可以將該位置填充模塊設(shè)置在該分析裝置中,而不是設(shè)置在該對話管理器中。
已經(jīng)參照其中必須確定目的地的范例廣泛地描述了本發(fā)明。然而通過相同的方式,也可以在該用戶與該系統(tǒng)之間的對話中確定該起點或其它位置數(shù)據(jù),諸如中間停止等。換言之,可以連續(xù)進行多個相似的對話。
為了完整,也要指出的是,不定冠詞“一個”的使用并不排除所討論的特征也可以存在多個的可能性,并且詞語“包含”的使用并不排除存在進一步的元件或步驟。
權(quán)利要求
1.一種在自動進行的對話中操作聲音控制的導(dǎo)航系統(tǒng)(1)的方法,其中考慮地理標(biāo)準(zhǔn)(GK),產(chǎn)生輸入請求(P),并將其輸出給用戶,檢測用戶所發(fā)出的口頭響應(yīng)(S),考慮該地理標(biāo)準(zhǔn)(GK),分析該口頭響應(yīng)(S),以使用自動聲音識別方法來識別位置數(shù)據(jù)。
2.如權(quán)利要求1中所要求的方法,其特征在于使用在產(chǎn)生該輸入請求(P)中所考慮的該地理標(biāo)準(zhǔn)(GK),和/或作為該對話中用戶所發(fā)出的前一和/或隨后的口頭響應(yīng)(S)的識別結(jié)果(EE)的函數(shù),根據(jù)地理數(shù)據(jù)庫8編譯詞語列表(WL),以用作在聲音識別用戶隨后所發(fā)出的口頭響應(yīng)期間的活動詞表。
3.如權(quán)利要求1或2中所要求的方法,其特征在于使用地理數(shù)據(jù)庫(8),通過在產(chǎn)生前一輸入請求(P)中所考慮的該地理標(biāo)準(zhǔn)(GK),和/或作為該對話中用戶所發(fā)出的前一和/或隨后的口頭響應(yīng)(S)的識別結(jié)果(EE)的函數(shù),評估在對該用戶所發(fā)出的口頭響應(yīng)(S)進行聲音識別期間所確定的識別假設(shè)(EH)。
4.如權(quán)利要求1至3的任一項中所要求的方法,其特征在于在對話中產(chǎn)生根據(jù)地理標(biāo)準(zhǔn)分層構(gòu)建的輸入請求(P)。
5.如權(quán)利要求1至4的任一項中所要求的方法,其特征在于在對話中作為用戶所發(fā)出的前一口頭響應(yīng)的識別結(jié)果的函數(shù)產(chǎn)生關(guān)于地理標(biāo)準(zhǔn)的輸入請求(P)。
6.如權(quán)利要求1至5的任一項中所要求的方法,其特征在于在對話中使用地理數(shù)據(jù)庫(8)來編譯詞語列表(WL)和/或評估識別假設(shè),其中該數(shù)據(jù)庫根據(jù)前一輸入請求(P)和/或?qū)δ承?shù)據(jù)項(DE)的口頭響應(yīng)的前一識別結(jié)果(EE)被已經(jīng)限制。
7.如權(quán)利要求2至6的任一項中所要求的方法,其特征在于為了編譯詞語列表(WL)和/或評估識別假設(shè)(EH),使用地理數(shù)據(jù)庫(8),其具有的數(shù)據(jù)項(DE)分別具有分配給它們的一個或多個表示所涉及的該數(shù)據(jù)項(DE)的類型和/或地理級層和/或與其它數(shù)據(jù)項(DE)的關(guān)系和/或其它地理特征的標(biāo)記(M)。
8.一種用于導(dǎo)航系統(tǒng)(1)的聲音數(shù)據(jù)用戶接口(2),具有輸出裝置(12),用于向用戶輸出輸入請求(P);聲音輸入裝置(11),用于檢測該用戶所發(fā)出的口頭響應(yīng)(S);對話控制裝置(3),用于考慮地理標(biāo)準(zhǔn)(GK)來控制與用戶的對話;提示產(chǎn)生單元(5),用于考慮地理標(biāo)準(zhǔn)(GK)來產(chǎn)生輸入請求(P);聲音識別裝置(6)和分析單元(7),用于考慮地理標(biāo)準(zhǔn)(GK)來分析所檢測的口頭響應(yīng)(S)以識別位置數(shù)據(jù);地理數(shù)據(jù)庫(8)和/或用于訪問地理數(shù)據(jù)庫的數(shù)據(jù)接口,其將地理標(biāo)準(zhǔn)(GK)和/或地理數(shù)據(jù)用于該對話控制裝置(3)和/或該提示產(chǎn)生單元(5)和/或該聲音識別裝置(6)和/或該分析單元(7)。
9.一種具有如權(quán)利要求8中所要求的聲音數(shù)據(jù)用戶接口(2)的導(dǎo)航系統(tǒng)(1)。
10.一種計算機程序,其具有程序編碼裝置,從而當(dāng)在導(dǎo)航系統(tǒng)的聲音數(shù)據(jù)用戶接口的處理器上執(zhí)行該程序時,執(zhí)行如權(quán)利要求1至7的任一項中所要求的方法的所有步驟。
11.一種產(chǎn)生用于在如權(quán)利要求1至7的任一項中所要求的方法中使用的地理數(shù)據(jù)庫(8)的方法,其中各個數(shù)據(jù)項(DE)分別具有分配給它們的一個或多個表示所涉及的該數(shù)據(jù)項(DE)的類型和/或與其它數(shù)據(jù)項(DE)的關(guān)系和/或地理級層和/或其它地理特征的標(biāo)記(M)。
全文摘要
本發(fā)明描述了一種在自動進行的對話中操作聲音控制的導(dǎo)航系統(tǒng)(1)的方法,其中考慮地理標(biāo)準(zhǔn)(GK),產(chǎn)生輸入請求(P)并將其輸出給用戶,并且檢測用戶所發(fā)出的口頭響應(yīng)(S)??紤]該地理標(biāo)準(zhǔn)(GK),分析該口頭響應(yīng)(S),以使用自動聲音識別方法來識別位置數(shù)據(jù)。另外,本發(fā)明描述了相應(yīng)的用于導(dǎo)航系統(tǒng)的聲音數(shù)據(jù)用戶接口。
文檔編號G10L15/22GK1795367SQ200480014386
公開日2006年6月28日 申請日期2004年5月14日 優(yōu)先權(quán)日2003年5月26日
發(fā)明者C·梅耶 申請人:皇家飛利浦電子股份有限公司