專利名稱:用于對話系統(tǒng)的語音輸入接口的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及操作具有語音輸入接口的對話系統(tǒng)的方法。它還涉及用于制造語音輸入接口的方法和系統(tǒng)、對應的語音輸入接口以及具有這類語音輸入接口的對話系統(tǒng)。
語音控制的對話系統(tǒng)具有廣闊的商業(yè)應用范圍。它們被用于所有類型的語音入口,例如電話銀行、語音控制的自動售貨機、車輛或家庭對話系統(tǒng)中的免提系統(tǒng)的語音控制。另外,在自動翻譯和聽寫系統(tǒng)中也有可能使用這個技術(shù)。
在語音對話系統(tǒng)的開發(fā)和制造中存在一個很普遍的問題,即可靠地識別對話系統(tǒng)用戶的語音輸入,對其進行有效率的處理題并將其轉(zhuǎn)換成用戶所希望的系統(tǒng)內(nèi)部反應。取決于系統(tǒng)的大小以及將被控制的對話的復雜程度,這里有許多相互連接的子問題語音識別通常分解為檢測有效語句的語法子步驟,和用其系統(tǒng)相關(guān)的意義來反映該有效語句的語義子步驟。語音識別通常用對話系統(tǒng)的專家語音處理接口來進行,其例如經(jīng)由麥克風來記錄用戶的語句,將其轉(zhuǎn)換成數(shù)字語音信號,然后執(zhí)行語音識別。
通過語音識別對數(shù)字語音信號的處理主要由軟件元件來執(zhí)行。因此,語音識別結(jié)果通常是數(shù)據(jù)和/或程序指令的形式的語義。這些程序指令或數(shù)據(jù)最終被執(zhí)行或者被使用,從而產(chǎn)生用戶所期望的對話系統(tǒng)反應。例如,這個反應可能包括電子或機械的動作(例如語音控制的自動取款機的鈔票交付),或者純粹與程序有關(guān)并由此對于用戶來說很清楚的數(shù)據(jù)處理(例如改變帳戶余額)。因此,語音表示意義的實際實現(xiàn),即″語義″程序指令的性能通過邏輯上與語音輸入接口分離的應用程序來執(zhí)行,例如控制程序。對話系統(tǒng)自身通常由對話管理器基于預先指定的確定性的對話說明來控制。
取決于用戶和對話系統(tǒng)之間的對話所處的階段,對話系統(tǒng)在特定時刻處于(由對話說明指定的)被定義的狀態(tài),并且取決于來自于用戶的有效指令,對話系統(tǒng)轉(zhuǎn)換成相應改變的狀態(tài)。對于每個狀態(tài)改變,語音輸入接口必須執(zhí)行單獨的語音識別,因為在每個狀態(tài)轉(zhuǎn)換期間,其它的語句被識別并且必須用正確的語義來明白地反映。因此,例如在一個狀態(tài)中期待只通過″是″來確認,而在另一種情況中,專用信息(例如帳號)必須從復雜的語句中提取。實際上,在每個狀態(tài)轉(zhuǎn)換期間,若干同義的語句用相同的語義含義來反映,例如指令″暫?!?、″停止″、″結(jié)束″以及″關(guān)閉″具有相同的指示,即方法的終止。
用于處理理解并進一步處理語音表示的復雜問題的方法是不同的。原則上,每個狀態(tài)改變的每個有效語句有可能都包括原型語音信號,而具體的表示必須用隨機或頻譜方法與原型語音信號比較音節(jié)或單詞。對語音表示的適當反應可以通過把術(shù)語編程為特殊語句的直接識別結(jié)果來完成。在某些情況下可能有必要傳輸詳細信息的復雜對話中,這個嚴格的方法導致必須首先給出語句的所有允許的同義變形,以便按需將其與用戶語句相比較,其次,通過專門的例行程序來處理更多的用戶專用信息。這使得這個解決方案不靈活并且讓對話系統(tǒng)操作員很難擴展和適配。
另一個策略采用更動態(tài)的語法方法,其對語音識別使用形式語法形式的語言學語法模型。形式語法具有包括置換規(guī)則、終結(jié)字、非終結(jié)字和開始字的代數(shù)結(jié)構(gòu)。這些置換規(guī)則根據(jù)哪些非終結(jié)字可以結(jié)構(gòu)上地被傳遞(導出)到包括非終結(jié)和終結(jié)字在內(nèi)的字鏈中,來規(guī)定規(guī)則。所有包括唯一的終結(jié)字并且通過使用置換規(guī)則從開始字中產(chǎn)生的句子表示形式語法指定語言的有效句子。
在語法方法中,在對話系統(tǒng)的每次狀態(tài)改變中,所允許的句子結(jié)構(gòu)由形式語法的置換規(guī)則屬類地規(guī)定,并且終結(jié)字指定語言的詞匯,其中所有的句子都作為用戶的有效語句被接受。從而,具體的語音表示通過檢查是否置換規(guī)則和詞匯的使用可以從對應形式語法的開始字中導出而被校驗。短語也是可能的,其中,只有接近置換規(guī)則給出的句子結(jié)構(gòu)的有意義的字才被檢查。
除了句子的這個語法校驗之外,語音識別必須向每個句子分派其語義,即可以被轉(zhuǎn)換成系統(tǒng)反應的含義。語義包括程序指令和/或?qū)υ捪到y(tǒng)的應用程序可以應用的數(shù)據(jù)。為了向?qū)恼Z法單元分配可執(zhí)行的程序指令,鏈接語義與屬性形式的相關(guān)終結(jié)/非終結(jié)字的語法被頻繁地使用。對于所謂的合成屬性,對于非終結(jié)字來說,屬性值從上一個終結(jié)字的屬性中被計算出來。對于所謂的繼承屬性,從上級的非終結(jié)來計算屬性信息也可以被使用。在此,語音表示的語義被含蓄地產(chǎn)生為句子從開始字派生的屬性或?qū)傩孕蛄?。因此,至少形式上直接用語義來敘述語法是可能的。
US 6,434,529 B1公開了使用面向?qū)ο蟮某绦蚣夹g(shù)并借助于形式語法來識別有效語音語句的系統(tǒng)。形式語法及其檢查在這個系統(tǒng)中借助于解釋語言被實現(xiàn)。因為對于語義轉(zhuǎn)換來說,用解釋(編譯)應用程序或其方法把句子元件識別為句法上正確的例示的面向?qū)ο蟮念悇e被執(zhí)行,在將由解釋器來執(zhí)行的語法分析和向可執(zhí)行的機器語言應用程序的語義轉(zhuǎn)換之間提供了一個接口。
這個接口被實現(xiàn)如下在語法或其置換規(guī)則的規(guī)范中,語義屬性以腳本語言程序段的形式被分配給終結(jié)字或非終結(jié)字。在根據(jù)置換規(guī)則的應用序列來導出(分析)語音語句的語法的時候,這些語義腳本段被轉(zhuǎn)換成表示語法結(jié)構(gòu)術(shù)語中說出句子的分級數(shù)據(jù)結(jié)構(gòu)。然后,分級數(shù)據(jù)結(jié)構(gòu)通過進一步分析被轉(zhuǎn)換成表格并最終構(gòu)成對應語句的語義的完全的、可線性地執(zhí)行的程序語言表示,包括在應用程序中用于對象實例化或方法執(zhí)行的腳本語言指令。因為對應的對象被直接放置在應用程序中并且憑此來執(zhí)行對應的方法,所以這個表示現(xiàn)在可以由分析器/解釋器來分析。
這個技術(shù)的缺點是甚至從它的說明中也顯得比較明顯。解釋語言(有時是專有的)用于語法分析以及翻譯程序語言用于應用程序,要求語音輸入接口和應用程序之間有復雜而且麻煩的接口,其表示兩個完全不同的編程技術(shù)。
如果沒有更多的方法,用戶也不可能擴展或改變語法語音規(guī)范和語義腳本,因為他首先必須學習專門的腳本語言。另外在特定環(huán)境下,語義的擴展或改變也必須在應用中通過對應語義程序段的適配而被實現(xiàn)并且被解釋(編譯)。因此,這個技術(shù)不能在對話系統(tǒng)運行期間改變或適配語言。因為把語法轉(zhuǎn)換成語義的時候(即對話系統(tǒng)運行時間)使用了分析器或解釋器,另外對不同的系統(tǒng)元件的額外維護構(gòu)成了增加的維修費。
本發(fā)明的目的是讓對話系統(tǒng)的語音輸入接口的操作和架設(shè)成為可能,因此將被識別的語音可以由簡單、迅速并特別容易變更的形式語法規(guī)范來定義,并且語音語句可以有效地用語義來反映。
這個目的通過用于操作具有語音輸入接口和與語音輸入接口合作的應用的對話系統(tǒng)來實現(xiàn),其中,語音輸入接口檢測用戶的音頻語音信號,把這些音頻語音信號直接轉(zhuǎn)換成二進制數(shù)據(jù)形式的識別結(jié)果,并且把這個結(jié)果呈現(xiàn)給應用程序以用于執(zhí)行。在此,二進制數(shù)據(jù)意味著無須進一步轉(zhuǎn)換或解釋就能被應用程序直接使用/執(zhí)行的數(shù)據(jù)和/或程序指令(或其引用或指針),其中,可直接執(zhí)行的數(shù)據(jù)由語音輸入接口的機器語言部件程序產(chǎn)生。這特別地意指這種情況,即一個或多個機器語言編程模塊被產(chǎn)生了識別結(jié)果并被給予應用程序以用于直接執(zhí)行。其次,該目的通過用于制造具有與語音輸入接口合作的應用程序的對話系統(tǒng)的語音輸入接口的方法來實現(xiàn),該方法包括下列步驟通過形式語法來規(guī)范有效的語音輸入信號,其中,語音輸入信號的有效詞匯被稱為語法的終結(jié)字,提供表示有效的音頻語音信號并包括一種數(shù)據(jù)結(jié)構(gòu)的二進制數(shù)據(jù),該數(shù)據(jù)結(jié)構(gòu)在系統(tǒng)運行時間可直接由應用程序所用并且由語音輸入接口的程序部分或應用程序直接可執(zhí)行的程序模塊產(chǎn)生,和/或提供產(chǎn)生二進制數(shù)據(jù)的程序部分;把二進制數(shù)據(jù)和/或程序部分分配給單獨的終結(jié)字或非終結(jié)字或其組合,以便用適當?shù)恼Z義來反映有效的音頻語音信號;把程序部分和/或程序模塊翻譯成機器語言,因此在操作對話系統(tǒng)的時候,被翻譯的程序部分產(chǎn)生應用程序直接可用的數(shù)據(jù)結(jié)構(gòu),或者被翻譯的程序模塊可以直接被應用程序執(zhí)行,其中,數(shù)據(jù)結(jié)構(gòu)/程序模塊構(gòu)成語音語句的語義。
根據(jù)本發(fā)明,被轉(zhuǎn)換成聲頻信號的用戶語音語句然后由對話系統(tǒng)的語音輸入接口直接變換成二進制數(shù)據(jù),其表示語音輸入的語義轉(zhuǎn)換并由此表示識別結(jié)果。這個識別結(jié)果可以直接被與語音輸入接口合作的應用程序使用。例如通過語音輸入接口被寫入翻譯程序語言并且識別結(jié)果的程序模塊也由翻譯程序語言來實現(xiàn),這些二進制數(shù)據(jù)特別可能包括一個或多個可以直接由應用程序執(zhí)行的機器語言程序模塊的事實被實現(xiàn),其中可應用程序不同的語言。優(yōu)選地,這些程序模塊被寫入其中實現(xiàn)了語音識別邏輯的相同語言。然而,它們也可以用工作在與語音輸入接口相同的平臺上的語言來寫入和編譯。取決于所使用的翻譯程序語言,作為直接執(zhí)行的識別結(jié)果,這可能把可執(zhí)行程序模塊或這些模塊的引用或指針給予應用程序。
使用面向?qū)ο蟮某绦蛘Z言是特別有利的,因為首先,這可以用對象或?qū)ο蠓椒ǖ男问浇o出應用的程序模塊,以用于直接執(zhí)行,其次,應用程序?qū)⒅苯邮褂玫臄?shù)據(jù)結(jié)構(gòu)可以被表示為面向?qū)ο蟮某绦蛟O(shè)計語言的對象。
本發(fā)明提供了許多優(yōu)點。通過實現(xiàn)語音輸入接口的語音識別,特別是語義合成,作為可直接由處理器執(zhí)行的機器程序(與只能經(jīng)由解釋器執(zhí)行的腳本程序相對比),可以直接產(chǎn)生可以直接被機器語言應用程序使用的識別結(jié)果。這在把語音語句轉(zhuǎn)換成對話系統(tǒng)的充足反應的過程中發(fā)揮了最大可能的效率。特別地,在機器語言表示中,這使得從形式語法由腳本語言分析器獲得的語義屬性或腳本程序段的復雜的和技術(shù)上麻煩的敘述變得多余。在服務(wù)供應商架設(shè)或規(guī)范語音輸入接口中或在它適配新事實(例如專門提供自動販賣機)的過程中,更多的優(yōu)點起因于能夠使用諸如C、C++,C#或Java之類的常規(guī)程序設(shè)計語言,來代替語音輸入接口廠商的專有腳本語言。這類語言至少為寬廣的用戶范圍十分普遍地已知,通常不用經(jīng)由對應的輸入接口做出很大的努力,將被系統(tǒng)或相關(guān)語義程序模塊所理解的語音語句的語法就可以容易地被適配或擴展。因此,為了重新配置或更新對話系統(tǒng)而學習專有語言不再是必需的。對于廠商來說,翻譯程序語言的使用也帶來了更簡單的優(yōu)點并由此使得系統(tǒng)的軟件維護更加廉價,因為傳統(tǒng)的標準編譯程序可以被使用并且不再需要維護或進一步開發(fā)具體的腳本語言和對應的分析器和解釋器。
在最簡單的情況下,把語音語句轉(zhuǎn)換成語義程序模塊可以通過直接并且清楚地把可能的語音語句分配給對應的程序模塊來進行。然而,通過把語音識別有秩序地分離成語法分析步驟和語義合成步驟,更加靈活的、可擴展的并且有效率的語音識別被獲得。通過借助于形式語法來定義將被語音輸入接口理解的語言,語法分析、即語音語句的檢查為了有效性而被形式化并且與語義轉(zhuǎn)換分離。語言的有效詞匯從語法的終結(jié)字中出現(xiàn),而句子結(jié)構(gòu)經(jīng)由置換規(guī)則和非終結(jié)字而被確定。因為語法分析和語義合成都由一個或多個機器程序來執(zhí)行,所以語音語句的識別結(jié)果直接以二進制數(shù)據(jù)的形式產(chǎn)生,尤其以可以直接被應用程序使用/執(zhí)行的程序模塊的形式產(chǎn)生。例如,程序模塊可以由處理器線性地處理并且通過屬性語法把語義機器語言程序段分配給每個終結(jié)和非終結(jié)字的時候,穿越有效語音語句的派生樹而被導出。另一個例子將是二進制數(shù)據(jù)結(jié)構(gòu),其描述時間并且從它的成分中被合成為時間語法的屬性。
多數(shù)情況下,語法在試運轉(zhuǎn)對話系統(tǒng)之前被完全地定義并且在操作期間保持不變。然而優(yōu)選地,語法可能在操作對話系統(tǒng)期間進行動態(tài)的改變,因為將被對話系統(tǒng)理解的語言的語法和語義以動態(tài)鏈接庫的形式被提供給應用程序。這在頻繁改變語音單元或改變語義的情況下是一個很大的優(yōu)點,例如在專門提供或改變信息的時候。
特別優(yōu)選地,語音識別用面向?qū)ο蟮姆g程序語言來實現(xiàn)。這提供了一個有效率的實現(xiàn),即由用戶容易地把形式語言通用的標準置換規(guī)則,例如終端規(guī)則、鏈式規(guī)則和替換規(guī)則,變更為面向?qū)ο蟮恼Z法類別。這些語法類別的共同性質(zhì)和功能、尤其是通用分析方法可以例如從一個或多個非具體的基本類別來繼承。類似地,可以通過繼承用虛擬方法傳遞到語法類別,其在有必要時被在實現(xiàn)諸如特殊分析方法之類的具體功能的時候被覆寫和再載入。利用在相關(guān)分類定義中提供的對應構(gòu)造器,具體語言的語法可以由通用語法類別的實例化來指定。在此通過定義終結(jié)和非終結(jié)字,具體的置換規(guī)則可以被產(chǎn)生為程序語言對象。然后,這些語法對象中的每個語法都具有單獨評估或分析方法,其檢查對應的規(guī)則是否可用于被檢測到的短語。置換規(guī)則的適當使用并由此全部語音信號的有效性檢查或?qū)陶Z的檢測,由語音識別的語法分析步驟來控制。
通過一貫地執(zhí)行本發(fā)明的系統(tǒng)化概念,在優(yōu)選實施例中,語法分析和語義分析之間的有秩序的分離被保持,而它們應用的暫時分離為了增加效率和縮短響應時間的目的而被至少部分地除去。當在從將被識別的語音信號的開始字派生期間使用屬性語法時,可應用的置換規(guī)則的對應的語義二進制數(shù)據(jù)(屬性)被直接產(chǎn)生。因此,例如在規(guī)則<從“quarter to”(″差一刻到″)<1到12的數(shù)字>>中,一旦數(shù)字被已知為規(guī)則結(jié)果<從1到12的數(shù)字>,對應的時間數(shù)據(jù)結(jié)構(gòu)就可以在值″11:45″的情況下被產(chǎn)生。然而,在進一步使用適當?shù)闹脫Q規(guī)則的時候,如果語義程序模塊的性能所必需的參數(shù)被已知,則這個程序模塊可以直接由語音輸入接口來執(zhí)行。因此,語義最初并沒有完全從語音信號中被提取,而是甚至在語法檢查期間被轉(zhuǎn)換而且被準并行地執(zhí)行。代替于參考可執(zhí)行程序段和對應的參數(shù),語音輸入接口在適合由應用程序來計算的情況下直接向應用程序提供結(jié)果。通過執(zhí)行對語音識別的語法檢查、語義程序模塊和作為機器語言程序的應用程序,這個特別有利的實施例是可能的,因為對話系統(tǒng)的程序單元因此可以經(jīng)由適當?shù)慕涌谟行实赝ㄐ藕徒粨Q數(shù)據(jù)。
在語音輸入接口的面向?qū)ο蟮慕Y(jié)構(gòu)中,語義程序模塊可以通過使用屬性語法而被實現(xiàn)為程序語言對象或?qū)ο蟮姆椒ā1景l(fā)明支持這個語義側(cè)的附加系統(tǒng)化,因為語法類別而非標準值可以被如此例示(例如已知的終結(jié)和非終結(jié)字的單項或列表),它們返回通過覆寫相關(guān)語法類別的虛擬方法而被定義的″語義″對象。因此,在應用對應的置換規(guī)則的時候(即分析語音信號的時候),在分析期間從返回值計算出來的語義對象被返回。
上述根據(jù)本發(fā)明的用于產(chǎn)生語音輸入接口的方法提供了簡單、迅速并且低故障地制造或架構(gòu)語音處理接口的可能性。為了指定將被識別的語言,首先,通過由終結(jié)字來確定語言的有效詞匯并且由置換規(guī)則或非終結(jié)字來確定語音語句的有效結(jié)構(gòu),形式語法被屬類地定義。在指明這個語法級之后,語義級通過提供被寫入翻譯程序語言的程序模塊而被指定,其機器語言翻譯在對話系統(tǒng)的運行時間中可以被適當?shù)亟Y(jié)合,以便用語音語句的對應語義來反映語法結(jié)構(gòu);此外,二進制數(shù)據(jù)和/或在運行時間中適當?shù)亟Y(jié)合二進制數(shù)據(jù)和/或程序模塊的程序部分可以被指定。語法和語義級之間清楚地定義了分配,因此每個終結(jié)和非終結(jié)字都被分配了描述其語義的程序模塊。因為語義程序模塊用翻譯程序語言(例如C、C++等等)來實現(xiàn),所以它們必須在定義之后用對應的編譯程序來解釋,因此它們可以被給出,以用于在操作對話系統(tǒng)時直接執(zhí)行。
這個方法具有幾個優(yōu)點。首先,它允許設(shè)計或配置用于特殊應用的語音輸入接口的服務(wù)供應商借助于已知的翻譯程序語言用很簡單的方式指定語法和語義。因此,他不需要學習有時廠商的很復雜的專有(腳本)語言。另外由于翻譯程序的檢查和機器程序的操作安全性,翻譯程序語言的使用更不容易出錯,并且可以更穩(wěn)定并且更快速地被執(zhí)行以用于終端用戶。
在規(guī)范語義之后,被翻譯的語義程序模塊可以例如作為動態(tài)或靜態(tài)庫被呈現(xiàn)給終端用戶的對話系統(tǒng)。在動態(tài)鏈接庫的情況下,對話系統(tǒng)的應用程序不需要在提供被變更的語義程序模塊之后被重譯,因為它可以經(jīng)由參照來聯(lián)系執(zhí)行中的程序模塊。這具有下列優(yōu)點,即語義可以在對話系統(tǒng)的操作期間被改變,例如,如果供貨或訂貨,則對話系統(tǒng)必須盡可能無中斷地定期更新,以頻繁改變供應。
在指定語法及其分配語義的這個方法的有利實施例中,面向?qū)ο蟮某绦蛘Z言被使用。將被識別的語音語句的形式語法可以被指定為語法類別的實例,其實現(xiàn)通用的標準置換規(guī)則并且從一個或多個語法基本類別中繼承它們的公共性質(zhì)和功能。例如,基本類別提供通用的分析程序方法,其在語法規(guī)范上必須適合于在語法類別級用終結(jié)和非終結(jié)字來實際例示的置換規(guī)則。對于有效率的語法規(guī)范來說,提供已經(jīng)定義許多可能的語法并且在需要時可以被用于參照的語法類別級別和/或語法類別庫是明智的。
類似地,基本類別可以提供虛擬方法,其在使用屬性語法時可以被產(chǎn)生對應的語義對象的方法覆寫。在這種情況下,在操作對話系統(tǒng)的過程中,語義轉(zhuǎn)換通過應用程序來執(zhí)行而不用暫時與語法檢查分離,語義在語法分析期間被直接執(zhí)行。
在用于產(chǎn)生具有根據(jù)上述方法開發(fā)的語音接口的對話系統(tǒng)的本發(fā)明方法中,用相同的,可能是面向?qū)ο蟮姆g程序語言或者用可以用相同的面向?qū)ο蟮钠脚_反映的翻譯程序語言,來寫程序輸入接口和應用程序是有利的。從而必要地,用對應的語義來反映語音語句的語法的形式語法和對應的程序模塊用這個語言實現(xiàn)。
為了制造根據(jù)所述方法的這類語音輸入接口,包括用于形式語法規(guī)范和適當語義的語法規(guī)范和語義定義工具的系統(tǒng)被提供給開發(fā)商或服務(wù)供應商。通過借助于上述方法來利用語法規(guī)范工具,形式語法可以借助于識別有效語音信號而被指定。語義定義工具支持開發(fā)商準備或編程語義程序模塊并且將它們清楚地分配給語法的單獨的終結(jié)或非終結(jié)字。被翻譯成機器語言的程序模塊可以直接被應用程序執(zhí)行。在產(chǎn)生可以直接被應用程序使用的數(shù)據(jù)結(jié)構(gòu)的情況下,這些由用機器語言給出的語音輸入接口的部件程序來產(chǎn)生。
在特別有利的實施例中,語法開發(fā)商已經(jīng)接入作為語法規(guī)范和/或語義定義工具前端的圖形開發(fā)接口,這些工具具有語法編輯器并且在其中可以應用程序語義編輯器。當語音輸入接口的語音識別被寫入面向?qū)ο蟮姆g程序語言時,語法編輯器提供擴展的類別瀏覽器,其允許簡單地選擇基本類別并且通過圖形方法(例如通過″拖放″)來繼承它們的功能。通過終結(jié)和非終結(jié)字和/或分析方法以及可用于定義語義對象的方法的標準置換規(guī)則可以經(jīng)由專門的圖形接口來執(zhí)行,圖形接口直接關(guān)聯(lián)這類數(shù)據(jù)與對應的語法類別并且通過編程自動將它轉(zhuǎn)換,即產(chǎn)生對應的源代碼。為了更好地區(qū)別基本類別、導出類別、它們的方法以及語義轉(zhuǎn)換,足夠的圖形符號被使用。
為了編程有時候復雜的語義程序模塊而提供了包括類別瀏覽器、編輯器、編譯程序、調(diào)試程序以及測試環(huán)境的開發(fā)環(huán)境,它允許集成的開發(fā)并且在某些情況下把對應的程序段編譯成語法類別或者產(chǎn)生獨立的動態(tài)或靜態(tài)庫。
本發(fā)明將參考附圖中所示的實施例來進一步地描述,然而本發(fā)明并不被限制于這些實施例。
圖1是對話系統(tǒng)的對話;圖2是形式語法的規(guī)范;圖3是根據(jù)本發(fā)明的具有語音輸入接口的對話系統(tǒng)實施例的結(jié)構(gòu)簡圖;圖4a是語法類別的定義;圖4b是語法類別實例的語法對象的定義圖5是語法對象的語義執(zhí)行;圖6是語法的圖形結(jié)構(gòu)。
形式上,對話系統(tǒng)可以被描述為無休止的自動機器。它的確定性特性可以借助于完全地描述所有的系統(tǒng)狀態(tài)和導致狀態(tài)改變、轉(zhuǎn)換的事件的狀態(tài)/轉(zhuǎn)換圖來描述。圖1示例地示出了簡單的對話系統(tǒng)1的狀態(tài)/轉(zhuǎn)換圖。這個系統(tǒng)可以假定兩個不同的狀態(tài)S1和S2,并且具有分別由對話步驟D1、D2、D3和D4啟動的四個轉(zhuǎn)換T1、T2、T3和T4,其中,轉(zhuǎn)換T1反映狀態(tài)S1本身,而T2、T3和T4引起狀態(tài)改變。狀態(tài)S1是對話系統(tǒng)的初始或開始狀態(tài),它在每個與用戶的對話的結(jié)尾被恢復。在這個狀態(tài)中,系統(tǒng)產(chǎn)生例如邀請用戶做出語句的開始表示″我能為你做什么?″?,F(xiàn)在,用戶有兩個語音表示的選擇,分別為″什么時間了?″,(對話步驟1)和″天氣預報如何?″(對話步驟2)。在對話步驟1中,系統(tǒng)回答正確時間,然后完成對應的轉(zhuǎn)換T1,回到起始狀態(tài)S1然后再次發(fā)出開始表示。在對話步驟D2中,通過用″明天或下周?″這個問題做出響應,系統(tǒng)讓用戶更準確地指出他的請求,然后經(jīng)由轉(zhuǎn)換T2轉(zhuǎn)換為新的狀態(tài)S2。在狀態(tài)S2中,用戶可以只用D3″明天″或D4″下周″來回答系統(tǒng)的問題;他不能選擇詢問時間。系統(tǒng)在對話步驟D3和D4中用天氣預報來回答用戶的說明,然后經(jīng)由對應的轉(zhuǎn)換T3和T4回到開始狀態(tài)S1。
為了能夠執(zhí)行單獨的對話步驟并且充分地回答用戶的語句,首先有必要正確地識別用戶的語音語句,然后把這個轉(zhuǎn)換成用戶所希望的反應,即理解該語句。自然地由于方便用戶和接受的原因,所希望的是對話系統(tǒng)在特殊狀態(tài)中能夠處理幾個同意義的用戶語句。例如圖1中描述的對話系統(tǒng)在轉(zhuǎn)換T1上將不僅僅理解具體的對話步驟D1,而且還能夠正確地回答諸如″什么時間了?″或″多晚了?″之類的同義詢問。另外,在一個狀態(tài)中的現(xiàn)實系統(tǒng)經(jīng)常提供大量可能的開始許多不同的轉(zhuǎn)換的對話步驟。除了把所有可能的對話步驟都存儲在系統(tǒng)中,以與相應的用戶詢問和對應的系統(tǒng)反應做出比較的平常和通常不可行解決方案之外,在此情況下通過形式語法GR來指定可能的用戶語句是明智的。
圖2示出用于機器的聲音命令的形式語法GR的例子。語法GR包括非終結(jié)字<命令>、<播放>、<停止>、<跳轉(zhuǎn)到>和<行號>,終結(jié)字″播放″、″跳轉(zhuǎn)″、″開始″、″停止″、″暫?!濉ⅰ逋顺觥?、″跳轉(zhuǎn)到行″、″1″、″2″和″3″,以及對于每個非終結(jié)字都通過非終結(jié)和/或終結(jié)字來規(guī)定置換的置換規(guī)則AR和KR。取決于它們的功能,置換規(guī)則被分成替換規(guī)則AR和鏈規(guī)則KR,其中,起始符號<命令>從替換規(guī)則中被導出。替換規(guī)則AR把非終結(jié)字替換成其中一個所述替換,而鏈規(guī)則KR把非終結(jié)字替換成一系列更多的終結(jié)或非終結(jié)字。從開始字<命令>的初始替換開始,所有的有效句子、即形式語法GR指定的語言的終結(jié)字行可以以派生或置換樹的形式被產(chǎn)生。因此,通過連續(xù)地置換非終結(jié)符號<命令>、<跳轉(zhuǎn)到>和<行號>,例如句子″跳轉(zhuǎn)到行2″被產(chǎn)生并且被解釋為有效的語音語句,而不是句子″進行到行4″。這個從開始字的具體句子的派生表示語法分析的步驟。
因為圖2中所示的語法GR是屬性語法,它允許直接用語義來反映語法,即反映成可以被應用程序3執(zhí)行/解釋的命令。這些已經(jīng)在語法GR中被指定用于圓括號中給出的每個單獨的終結(jié)字。用語法分析SA被識別為有效的語句″跳轉(zhuǎn)到行2″被語義地轉(zhuǎn)換成命令″跳轉(zhuǎn)到二″。通過用相同的語義來反映幾個語法構(gòu)造,同義的語句可以被考慮。例如語句″播放″、″到″和″開始″可以用相同的命令″播放″來反映并且導致了對話系統(tǒng)1的相同的反應。
根據(jù)本發(fā)明的具有語音輸入接口2的對話系統(tǒng)1的實施例和與語音輸入接口合作的應用程序3在圖3中示出。應用程序3包括根據(jù)狀態(tài)/轉(zhuǎn)換圖中建立的狀態(tài)、轉(zhuǎn)換和對話來控制對話系統(tǒng)1的對話控制8。
現(xiàn)在,輸入的語音語句首先照舊從語音輸入接口2的信號輸入單元4被轉(zhuǎn)換成數(shù)字聲頻語音信號AS。語音識別的實際方法通過起始信號ST由對話控制8開始。
集成到語音輸入接口2中的語音識別單元5包括用于語法分析SA特性的語法分析單元和用于后續(xù)的語義合成SS特性的語義合成單元。根據(jù)對話系統(tǒng)1的實際狀況和所期待的對話,在語法分析步驟中將被檢查的形式語法GR通過對話控制8被給予語法分析單元6(或者從其導出的數(shù)據(jù)結(jié)構(gòu)將由語法分析直接使用)。音頻語音信號AS根據(jù)這個語法GR被校驗由語義合成單元7用其語義反映是否有效。
存在兩個語義定義的變形。除非指定,否則可以在下面認為如果沒有本發(fā)明的限制,識別結(jié)果ER是一個或多個程序模塊。在此,語義直接從終結(jié)和非終結(jié)符號向機器語言程序模塊PM的直接分配中出現(xiàn),機器語言程序模塊PM可以由應用3的程序執(zhí)行單元9來執(zhí)行。完全導出的語音語句的所有終結(jié)和非終結(jié)字的機器語言程序模塊PM被語義合成單元7結(jié)合成機器語言識別結(jié)果ER并且提供給應用3的程序執(zhí)行單元9以執(zhí)行或者作為直接可執(zhí)行的機器程序給呈現(xiàn)給它。
為了完整描述本發(fā)明,還將被解釋的是,數(shù)據(jù)結(jié)構(gòu)還可以在第二變形中被分配給終結(jié)和非終結(jié)字,這些結(jié)構(gòu)直接從語音輸入接口2的機器語言程序部分被產(chǎn)生并且表示識別結(jié)果ER。這些數(shù)據(jù)結(jié)構(gòu)然后可以被應用3使用而不用進一步的內(nèi)部轉(zhuǎn)換、變形或解釋。也有可能結(jié)合兩個所述的變形,因此語義部分由機器語言程序模塊并且部分由應用程序可以直接使用的數(shù)據(jù)結(jié)構(gòu)來定義。
在這里,語音輸入接口2的語音識別單元5和應用程序3是用相同的面向?qū)ο蟮姆g程序語言或可以在相同的面向?qū)ο笃脚_上運行的語言寫出的。因此,識別結(jié)果ER可以很容易地通過參考或指針的傳遞來傳遞。尤其是在上述的語義程序模塊和數(shù)據(jù)結(jié)構(gòu)的結(jié)合中,面向?qū)ο蟮姆g程序語言的使用是特別有利的。面向?qū)ο蟮某绦蛟O(shè)計以程序語言對象的形式把語法GR和識別結(jié)果ER實現(xiàn)為語法類別GK的實例或這些類別的方法。圖4a、4b和5詳細地示出了這個方法。
從圖2中對形式語法GR的定義開始,圖4a示出適當?shù)恼Z法類別GK的執(zhí)行以把形式定義轉(zhuǎn)換成面向?qū)ο蟮某绦蛘Z言。在此,所有的語法類別GK都從抽象的語法基本類別BK中被導出,BK把它的方法傳遞給它的導數(shù)語法類別GK。在圖4a中所示的實施例中,有三個不同的被導出的語法類別GK,它們以終端規(guī)則TR、替換規(guī)則AR和鏈規(guī)則KR的形式被實現(xiàn)為可能的原型置換規(guī)則。
抽象基本類別BK要求方法GetPhaseGrid()、Value()和PartialParse(),其中,方法GetPhaseGrid()被用來用信號術(shù)語初始化語音識別方法并且不需要考慮對語法識別方法的理解。除了GetPhaseGrid()之外,將從外部聯(lián)系的唯一函數(shù)是方法Value(),其用增量″短語″來評價被給予它的句子,并且因此確保了對中央分析功能的接入。Value()把語義作為結(jié)果返回。在簡單的情況下,這個可以是分別示出句子被識別的語法單元的列表。根據(jù)來自于圖2的形式語法GR,例如對于短語″跳轉(zhuǎn)到行″,列表(″跳轉(zhuǎn)到行″,″2″)被產(chǎn)生。在其它情況下,數(shù)據(jù)可以用上述的時間語法的例子來進一步地處理。對于這個的機制在下面被更詳細地描述。語法分析SA的這個結(jié)果然后被語義地轉(zhuǎn)換成機器語言程序或數(shù)據(jù)結(jié)構(gòu),并且被提供給應用程序3,以用于直接執(zhí)行/使用。因為上級分析方法價值value()的工作方法取決于可應用的置換規(guī)則,所以Value()內(nèi)部地求助于抽象方法PartialParse()。然而,這不能用基本類別BK來實現(xiàn),而是只能經(jīng)由被導出的語法類別GK實現(xiàn)。
PartialParse()方法的基本類別BK中要求的分析功能因此用語法類別GK來實現(xiàn)。除了依靠規(guī)則的分析方法之外,被導出的語法類別GK具有具體的所謂構(gòu)造器(PhaseGrammar()、ChoiceGrammar()、ConcatenatedGrammar()),在語法分析SA的運行時間中,這些類別實例、即語法對象GO可以被產(chǎn)生。被導出的語法類別TR、AR和KR因此構(gòu)成了程序語言″構(gòu)架″,以用于實現(xiàn)特殊的形式語法GR的具體的置換規(guī)則。終端規(guī)則TR的構(gòu)造器PhaseGrammar只要求將由特殊的非終結(jié)字來替代的終結(jié)字。替換規(guī)則AR ChoiceGrammar的構(gòu)造器要求具有可能的替換置換的列表,而鏈規(guī)則KR ConcatenatedGrammar的構(gòu)造器要求終結(jié)和/或非終結(jié)字的列表按順序來安排。這三個語法類別GK中的每一個都用單獨的方法實現(xiàn)了基本類別BK的抽象的PartialParse()方法。
從圖4a中定義的語法類別GK開始,圖4b舉例示出了這些類別的使用,以通過產(chǎn)生(例示)語法對象GO來實現(xiàn)圖2中給出的語法GR。命令對象在運行時間通過實現(xiàn)替換規(guī)則AR的語法類別GK的實例化而產(chǎn)生。它的功能是用非終結(jié)字<播放>、<停止>或<跳轉(zhuǎn)到>來代替非終結(jié)開始字<命令>,這些非終結(jié)字被作為增量給予相應的替換規(guī)則AR的構(gòu)造器。
播放對象也通過調(diào)用替換規(guī)則AR的構(gòu)造器來產(chǎn)生。與命令對象的構(gòu)造器調(diào)用對比,播放對象的構(gòu)造器調(diào)用的增量不包括非終結(jié)字,而是只包括終結(jié)字。終結(jié)字由終端TR的構(gòu)造器的級聯(lián)調(diào)用給出并且實現(xiàn)了字″播放″、″到″和″開始″。類似地,非終結(jié)字<停止>和<行號>的置換規(guī)則通過對應地調(diào)用替換規(guī)則AR的構(gòu)造器而產(chǎn)生。跳轉(zhuǎn)到對象最終被產(chǎn)生為實現(xiàn)鏈規(guī)則KR的語法類別GK的實例。構(gòu)造器接收終結(jié)字″跳轉(zhuǎn)到行″和非終結(jié)字″行號″為增量。
對于由語法對象GO評價的語句的語義轉(zhuǎn)換,在圖2的形式語法GR中,只有終結(jié)字被轉(zhuǎn)換成程序模塊PM,被作為參照給予應用程序3并且直接由其來執(zhí)行。程序模塊PM或?qū)獏⒄胀ㄟ^語法GR定義直接與終結(jié)字關(guān)聯(lián)(參見圖2)。在具體的執(zhí)行情況中,這個例如出現(xiàn)如下每個<命令>規(guī)則產(chǎn)生命令對象,可以直接由應用程序3執(zhí)行的執(zhí)行()方法。跳轉(zhuǎn)規(guī)則將產(chǎn)生也包括對應行號的特殊的命令對象。
與語法分析SA、語義合成SA以及語義機器語言程序的執(zhí)行之間的精確分離相對比,圖5示出語義指令的直接合成以及語音輸入接口2使用實現(xiàn)鏈規(guī)則KR乘法的語法對象GO的例子來執(zhí)行它們。乘法對象被例示為三個元素的連續(xù)設(shè)置1和9之間的自然數(shù)字(例如,類別NumberGrammar可以通過繼承從類別ChoiceGrammar得出),終結(jié)字″times″以及來自于間隔1到9的一個新自然數(shù)。語義轉(zhuǎn)換列表(″3″、″乘以″、″5″),指令″3乘以5″可以直接在對象和返回的結(jié)果15中被執(zhí)行,而不是作為分析結(jié)果給出。本例子中的計算由特殊的合成事件處理程序SE來承擔,SE收集并鏈接本例子中的乘法對象的數(shù)據(jù)和乘法的兩個因子。
這類與語法分析SA相互鏈接的有效率的語義合成SS,只有通過根據(jù)本發(fā)明在翻譯程序語言中執(zhí)行語法構(gòu)造的語義并且將其翻譯成直接可執(zhí)行的機器語言程序模塊PM才是可能的,因為只有這樣才可以直接把語義合成SS結(jié)合在語法分析SA中。通過使用面向?qū)ο蟮某绦蛘Z言而非程序/命令式程序語言,所使用的數(shù)據(jù)結(jié)構(gòu)還可以被適當?shù)貥?gòu)造并壓縮,以用于服務(wù)供應商和終端用戶,而語法分析和語義合成之間的數(shù)據(jù)傳送可以被有效率地控制。
用于語法設(shè)計的設(shè)計工具的特殊功能用關(guān)于時間語法例子的圖6被解釋。對于特殊語法的設(shè)計,預先由語法類別GK指定的置換規(guī)則KR、AR和TR被圖形地結(jié)合并且通過使用對應的終結(jié)和非終結(jié)字(即所產(chǎn)生的對應語法對象GO)來例示。
因此,不同的置換規(guī)則在圖6中通過流程圖中各種形式的方框來區(qū)別。在特殊置換規(guī)則的圖形選擇之后,對于通過雙擊或任何其它的用戶操作的規(guī)范(即規(guī)則實例化),指定子語法的語法編輯器被打開,替換、序列或終結(jié)字可以根據(jù)選擇的規(guī)則被給出。在規(guī)范對應的子語法之后,子樹再次被關(guān)閉,并且指定的部分語法在較高方框中以形式記號出現(xiàn)。為了允許復雜的語法,更多的規(guī)則可以為了規(guī)范子語法而被插入。
在時間語法的例子中,設(shè)計從選擇替換規(guī)則AR開始,替換規(guī)則AR包括由橢圓框指出的形式為替換鏈規(guī)則KR的四個子語法。
對于第一和第四替換,子語法樹被關(guān)閉,但是可以通過雙擊對應的方框或者通過對應的動作來讓它們可見。在第四替換((1..20|quarter)(minutes to|to)1..12)中,通過雙擊等等鏈規(guī)則方框KR,一個兩個替換規(guī)則AR和一個終端規(guī)則TR的序列顯露出來。
對于第二和第三替換,子語法的樹部分可見。第二替換((1..12(1..59|))(AM|PM|)由鏈規(guī)則(1..12(1..5 9 1))和替換規(guī)則(AM|PM|)的序列組成。鏈規(guī)則KR再次包括終端規(guī)則TR和替換規(guī)則AR的序列,其包括兩個替換的終端規(guī)則TR。替換規(guī)則AR提供三個不同的終端規(guī)則TR作為使用終結(jié)字″AM″和″PM″的替換,并且第三個終結(jié)字還沒指定。通過在終端規(guī)則TR上雙擊或類似動作,最終將被使用的終結(jié)字、即形式語言的詞匯可以被給出。用這種方法,任何語法GR都可以用語法編輯器來指定并且用所期望的復雜性來圖形地示出。
用這種方法圖形地指定的形式語法現(xiàn)在被完全地轉(zhuǎn)換,并且自動地轉(zhuǎn)換成面向?qū)ο蠓g程序語言的程序設(shè)計語言語法類別GK,該類別在對話系統(tǒng)1的運行時間翻譯之后被例示,并且通過派生/分析被校驗為語言語句的正確性的置換規(guī)則。
通過激活語義編輯器的對應功能,事件處理程序SE可以被自動地產(chǎn)生以用于語義或?qū)傩院铣?。然后,編輯器窗戶自動地打開,其中,用于該事件的對應程序代碼可以在面向?qū)ο蟮姆g程序語言中被補充。在它的翻譯之后,應用程序的指定語法類別可以被給出,以用于以靜態(tài)或動態(tài)鏈接庫的形式來執(zhí)行。
最后,應當再次指出,在附圖中示出并且在說明中解釋的語音輸入接口和對話系統(tǒng)僅僅是實施例,它們可以在不脫離本發(fā)明范圍的前提下由本領(lǐng)域技術(shù)人員很大程度地改變。特別地,在所示出實施例中在面向?qū)ο蟮某绦蛘Z言C#中產(chǎn)生的程序段可以被寫入任何其它的面向?qū)ο蟮某绦蛘Z言或?qū)懭肫渌拿钍骄幊陶Z言。此外,為了完成起見,應當指出,不定冠詞″一個″的使用不排除相關(guān)特征也可以被成倍給出的可能性,并且術(shù)語″包括″的使用不排除更多的元件或步驟的存在。
權(quán)利要求
1.一個用于操作具有語音輸入接口(2)和與語音輸入接口(2)合作的應用程序(3)的對話系統(tǒng)的方法,其中,語音輸入接口(2)檢測來自于用戶的音頻語音信號(AS)并且將它們直接轉(zhuǎn)換成應用程序(3)可以直接使用的二進制數(shù)據(jù)形式的識別結(jié)果(ER)。
2.權(quán)利要求1中要求的方法,其特征在于二進制數(shù)據(jù)包括至少一個用機器語言呈現(xiàn)并且可直接被應用程序(3)執(zhí)行的程序模塊(PM),應用程序(3)的形式為面向?qū)ο蟮姆g程序語言的對象和/或面向?qū)ο蟮姆g程序語言的數(shù)據(jù)對象。
3.權(quán)利要求1或2中要求的方法,其特征在于在音頻語音信號(AS)被轉(zhuǎn)換成識別結(jié)果(ER)時,首先在語法分析步驟(SA)中,對應于音頻語音信號(AS)的短語基于形式語法(GR)被檢測,其中,音頻語音信號(AS)的有效詞匯對應于形式語法(GR)的終結(jié)字,并且然后識別結(jié)果(ER)在語義合成步驟(SS)中從以機器語言給出的可執(zhí)行程序模塊(PM)被產(chǎn)生并且被分配給終結(jié)字。
4.權(quán)利要求3中要求的方法,其特征在于語法(GR)在對話開始之前被完全地定義并且在對話期間不能被改變。
5.權(quán)利要求3中要求的方法,其特征在于語法(GR)在對話期間被動態(tài)地改變。
6.權(quán)利要求3到5中的任意一個要求的方法,其特征在于語法(GR)包括被實現(xiàn)為面向?qū)ο蟮恼Z法類別(GK)的置換規(guī)則(AR、KR),每個面向?qū)ο蟮恼Z法類別(GK)都把依從規(guī)則的分析功能作為方法。
7.權(quán)利要求3到6中任意一個所要求的方法,其特征在于語法(GR)以至少一個語法對象(GO)的形式被指定為,至少一個面向?qū)ο蟮恼Z法類別(GK)的實例,并且音頻語音信號(AS)在語法分析步驟(SA)中根據(jù)語法(GR)的置換規(guī)則(AR、KR)被檢查。
8.權(quán)利要求3到7中任意一個所要求的方法,其特征在于語法分析步驟(SA)、語義合成步驟(SS)和/或識別結(jié)果(ER)的使用/執(zhí)行至少暫時部分重疊地發(fā)生。
9.權(quán)利要求6到8中任意一個所要求的方法,其特征在于產(chǎn)生識別結(jié)果的語音輸入接口的程序部分,作為面向?qū)ο蟮念悇e的方法被鏈接,特別是作為語法對象(GO)的方法被鏈接。
10.權(quán)利要求6到8中任意一個所要求的方法,其特征在于識別結(jié)果(ER)通過語法類別(GR)的方法被定義并且通過這個被返回為對象。
11.一個用于具有與語音輸入接口(2)合作的應用程序(3)的對話系統(tǒng)(1)的制造語音輸入接口(2)的方法,并且該方法包括步驟通過形式語法(GR)規(guī)范有效的有效語音輸入信號(AS),其中,語音輸入信號的有效詞匯以語法(GR)終結(jié)字的形式被定義,提供表示有效音頻語音信號(AS)語義并且包括應用程序(3)在系統(tǒng)運行時間直接可用的數(shù)據(jù)結(jié)構(gòu)的二進制數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)由語音輸入接口(2)的程序部分和/或應用程序(3)可直接執(zhí)行的程序模塊(PM)產(chǎn)生,和/或提供產(chǎn)生二進制數(shù)據(jù)的程序部分,把二進制數(shù)據(jù)和/或程序部分分配給單獨的終結(jié)字或非終結(jié)字或其結(jié)合,以便用適當?shù)恼Z義反映有效音頻語音信號(AS),把程序部分和/或程序模塊(PM)翻譯成機器語言,以便被翻譯的程序部分在對話系統(tǒng)(1)的操作期間,產(chǎn)生應用程序(3)直接可用的數(shù)據(jù)結(jié)構(gòu),或者被翻譯的程序模塊(PM)在對話系統(tǒng)(1)的操作期間可以直接由應用程序(3)來執(zhí)行。
12.權(quán)利要求11中要求的方法,其特征在于形式語法(GR)由至少一個語法對象(GO)指定為至少一個面向?qū)ο蟮恼Z法類別(GK)的實例。
13.權(quán)利要求12中要求的方法,其特征在于至少一個語法類別(GK)通過繼承從語法類別級別和/或語法類別庫的一個或多個預先指定的類別中被導出。
14.權(quán)利要求11到13中任意一個所要求的方法,其特征在于程序模塊(PM)用面向?qū)ο蟮姆g程序語言來編程。
15.權(quán)利要求12到14中任意一個所要求的方法,其特征在于至少一個語法類別(GK)和/或程序模塊(PM)被翻譯成機器語言并且被提供為靜態(tài)和/或動態(tài)鏈接庫。
16.權(quán)利要求11到15中任意一個所要求的方法,其特征在于形式語法(GR)通過使用圖形語法編輯器來指定,而語義使用圖形語義編輯器來定義。
17.權(quán)利要求16中要求的方法,其特征在于形式語法(GR)通過從預先指定的語法類別(GK)和具有置換規(guī)則(AR、KR)和/或終結(jié)字和/或非終結(jié)字語法類別的占用的選擇和/或派生用圖形語法編輯器來指定,其中,圖形符號被分配給每個語法類別(GK)和/或每個置換規(guī)則(AR、KR)。
18.權(quán)利要求16或17中要求的方法,其特征在于形式語法(GR)的語義定義,對于每個程序模塊(PM),圖形語義編輯器提供編輯器窗口,以用于制造程序模塊(PM)并且關(guān)聯(lián)程序模塊與終結(jié)或非終結(jié)字。
19.一個產(chǎn)生具有語音輸入接口(2)和應用程序(3)的對話系統(tǒng)(1)的方法,其中,語音輸入接口(2)用權(quán)利要求10到17中任意一個所要求的方法來產(chǎn)生。
20.權(quán)利要求19中要求的方法,其特征在于語音輸入接口(2)、應用程序(3)和屬于識別結(jié)果(ER)的可應用的程序模塊(PM)分別至少被部分地寫入相同的面向?qū)ο蟮姆g程序語言或者可以在相同的面向?qū)ο蟮钠脚_上運行。
21.一個用于用戶音聲音控制裝置或方法的對話系統(tǒng)(1)的語音輸入接口(2),其與對話系統(tǒng)(1)的應用程序(3)合作并且檢測音頻語音信號(AS)并將其直接轉(zhuǎn)換成應用程序(3)可以直接使用的二進制數(shù)據(jù)形式的識別結(jié)果(ER)。
22.一個包括權(quán)利要求21中要求的語音輸入接口(2)的對話系統(tǒng)(1)。
23.一個用于制造包括語法規(guī)范工具的對話系統(tǒng)(1)的語音輸入接口(2)的系統(tǒng),對話系統(tǒng)(1)的有效音頻信號(AS)由形式語法(GR)指定,其中,音頻語音信號(AS)的有效詞匯用語法(GR)終結(jié)字的形式來定義,還包括用于提供程序模塊(PM)和把程序模塊(PM)分配給單獨的或組合終結(jié)字的語義定義工具,因此在翻譯成機器語言之后,被翻譯的程序模塊(PM)在對話系統(tǒng)(1)的操作期間,可以直接被應用程序(3)執(zhí)行。
24.權(quán)利要求23中要求的系統(tǒng),其特征為面向?qū)ο蟮恼Z法類別庫和/或面向?qū)ο蟮恼Z法類別級別,因此形式語法(GR)被指定為從語法類別庫中取得或從語法類別庫的類別中導出的語法類別(GK)的實例,和/或者被指定為從語法類別級別取得或者從語法類別級別的類別中導出的實例。
25.權(quán)利要求23或24中要求的系統(tǒng),其特征在于指定形式語法(GR)的圖形語法編輯器和/或定義語義的圖形語義編輯器。
全文摘要
一個用于操作具有語音輸入接口(2)和與語音輸入接口(2)合作的應用程序(3)的對話系統(tǒng)(1)的方法被描述。語音輸入接口(2)檢測用戶的音頻語音信號(AS)并將其轉(zhuǎn)換成應用程序可以直接使用的二進制數(shù)據(jù)形式的識別結(jié)果(ER)。這個識別結(jié)果(ER)由應用程序(3)來提供。此外,用于制造對應的語音輸入接口(2)的方法和系統(tǒng),語音輸入接口(2)以及具有這類語音輸入接口(2)的對話系統(tǒng)(1)也被描述。
文檔編號G10L15/193GK1836271SQ200480023180
公開日2006年9月20日 申請日期2004年8月9日 優(yōu)先權(quán)日2003年8月12日
發(fā)明者M·厄德爾 申請人:皇家飛利浦電子股份有限公司