專利名稱:語音識別系統(tǒng)、語音識別服務(wù)器、語音識別客戶機及其控制方法
技術(shù)領(lǐng)域:
本發(fā)明的領(lǐng)域本發(fā)明涉及用于識別由一個服務(wù)器在一個客戶機處輸入的語音的一種客戶機-服務(wù)器語音識別系統(tǒng),一種語音識別服務(wù)器,一種語音識別客戶機,它們的控制方法,以及一種計算機可讀取存儲器。
本發(fā)明的背景近年來,語音被用作了除了鍵盤、鼠標器等之外的一種輸入接口。
然而,隨著需要得到語音識別的識別詞的數(shù)目的增大,識別輸入語音的語音識別的識別速率降低并要求比較長的處理時間。因此,在一種實際方法中,準備了多個識別字典或詞典,它們寄存了將要受到語音識別的識別詞(例如發(fā)音和注釋),且這些字典或詞典有選擇地得到使用(多個識別字典可同時使用)。
另外,未寄存的詞不能得到識別。作為解決這一問題的一種方法,可采用一種用戶字典或詞典(由用戶準備以寄存要進行語音識別的詞)。
另一方面,一種客戶機-服務(wù)器語音識別系統(tǒng)已經(jīng)得到了研究,以在具有不足的資源的一個終端上實施語音識別。
這三種技術(shù)都是本領(lǐng)域的技術(shù)人員所已知的,但把這三種技術(shù)結(jié)合起來的系統(tǒng)還未被實現(xiàn)。
本發(fā)明的概述本發(fā)明就是要解決上述問題,且其目的是提供一種語音識別系統(tǒng)-該系統(tǒng)響應(yīng)于用戶在一個客戶機-服務(wù)器語音識別系統(tǒng)中的請求而采用一個用戶字典以改善語音輸入效率并減小在整個系統(tǒng)上的處理負荷,并提供一種語音識別服務(wù)器、一種語音識別客戶機、它們的控制方法、以及一種計算機可讀取存儲器。
根據(jù)本發(fā)明,前述目的是通過提供用于識別由一個服務(wù)器在一個客戶機處輸入的語音的一種客戶機-服務(wù)器語音識別系統(tǒng)而實現(xiàn)的,該客戶機包括語音輸入裝置,用于輸入語音;用戶字典保持裝置,用于保持通過寄存由一個用戶指定的目標識別詞而保持一個用戶字典;以及發(fā)送裝置,用于向該服務(wù)器發(fā)送所述語音輸入裝置輸入的語音數(shù)據(jù)、用于確定用來識別該語音數(shù)據(jù)的一個識別字段的字典管理信息、以及該用戶字典,且該服務(wù)器包括識別字典保持裝置,用于保持為各識別字段準備的多種識別字典;確定裝置,用于從該多種識別字典中確定與從客戶機接收的字典管理信息相應(yīng)的一或多個識別字典;以及識別裝置,用于至少利用由所述確定裝置確定的識別字典來識別語音數(shù)據(jù)。
從以下結(jié)合附圖進行的描述,本發(fā)明的其他特征和優(yōu)點將變得顯而易見。在附圖中相同的標號表示了相同或類似的部分。
附圖的簡要描述
圖1是顯示第一實施例的語音識別系統(tǒng)的硬件設(shè)置的框圖;圖2是顯示第一實施例的語音識別系統(tǒng)的功能設(shè)置的框圖;圖3顯示了第一實施例的用戶字典的配置;圖4顯示了第一實施例的一個語音輸入窗口;圖5顯示了第一實施例的一個標識符表;圖6是顯示第一實施例的語音識別系統(tǒng)所執(zhí)行的處理的流程圖;圖7顯示了根據(jù)第三實施例的附有輸入表標識符的一個用戶字典;且圖8顯示了根據(jù)第三實施例的附有識別字典標識符的一個用戶字典。
最佳實施例的描述以下結(jié)合附圖描述本發(fā)明的最佳實施例。(第一實施例)圖1顯示了第一實施例的一種語音識別系統(tǒng)的硬件設(shè)置。
一個CPU100對整個客戶機100進行系統(tǒng)控制。CPU101把存儲在一個ROM102中的程序裝載到一個RAM103中,并根據(jù)裝載的程序執(zhí)行各種處理。ROM102存儲將要由CPU101執(zhí)行的各種處理程序。RAM103提供了執(zhí)行存儲在ROM102中的各種程序所需的存儲區(qū)。
一個次級存儲設(shè)備104存儲有一種OS和各種程序。當客戶機100不是利用諸如個人計算機等的通用設(shè)備而是利用一種專用設(shè)備實現(xiàn)時,ROM102可存儲OS和各種程序。通過把存儲的程序裝載到RAM103上,CPU101能夠執(zhí)行處理。作為次級存儲設(shè)備104,可以采用硬盤設(shè)備、軟盤驅(qū)動器、CD-ROM等。即,存儲介質(zhì)不受具體的限制。
一種網(wǎng)絡(luò)I/F(接口)105與服務(wù)器200的一個網(wǎng)絡(luò)I/F205相連。
一個輸入裝置106包括鼠標器、鍵盤、麥克風(fēng)等,以便能夠向CPU101所執(zhí)行的處理輸入各種指令,并能夠被用來同時連接該多個裝置。一個輸出裝置107包括顯示器(CRT、LCD等),并顯示輸入裝置106輸入的信息,并包括受到CPU101執(zhí)行的各種處理所控制的窗口。一條總線108把客戶機100的各種組成部分相互連接。
一個CPU201對整個服務(wù)器200進行系統(tǒng)控制。CPU201把存儲在一個ROM202上的程序裝載到一個RAM203中,并根據(jù)裝載的程序執(zhí)行各種處理。ROM202存儲將要由CPU201執(zhí)行的處理的各種程序。RAM203提供了執(zhí)行存儲在ROM202中的各種程序所需的存儲區(qū)。
一個次級存儲設(shè)備204存儲一個OS和各種程序。當服務(wù)器200不是利用諸如一個個人計算機等的通用設(shè)備而是利用一個專用設(shè)備而實施時,ROM202可存儲該OS和各種程序。通過把存儲的程序裝載到RAM203上,CPU201能夠執(zhí)行處理。作為次級存儲設(shè)備204,可采用硬盤設(shè)備、軟盤驅(qū)動器、CD-ROM等。即存儲介質(zhì)不受具體的限制。
網(wǎng)絡(luò)I/F 205與客戶機100的網(wǎng)絡(luò)I/F 105相連。一條總線206把服務(wù)器200的各種組成部分相互連接。
以下結(jié)合圖2描述第一實施例的語音識別系統(tǒng)的功能設(shè)置。
圖2是顯示第一實施例的語音識別系統(tǒng)的功能設(shè)置的框圖。
在客戶機100中,一個語音輸入模塊121輸入用戶經(jīng)過一個麥克風(fēng)(輸入裝置106)而發(fā)出的語音,并對輸入的、將要受到語音識別的語音數(shù)據(jù)(語音識別數(shù)據(jù))進行A/D轉(zhuǎn)換一個通信模塊122把一個用戶字典124a、語音識別數(shù)據(jù)124b、字典管理信息124c等送到服務(wù)器200。另外,通信模塊122接收來自服務(wù)器200的發(fā)送語音識別數(shù)據(jù)124b的語音識別結(jié)果等。
一個顯示模塊123顯示從服務(wù)器200接收的語音識別結(jié)果,并同時將其存儲在例如一個輸入表中,該輸入表被由本實施例的語音識別系統(tǒng)所執(zhí)行的處理顯示在輸出裝置107上。
在服務(wù)器200中,一個通信模塊221接收來自客戶機100的用戶字典124a、語音識別數(shù)據(jù)124b、字典管理信息124c等。另外,通信模塊221把語音識別數(shù)據(jù)124b的語音識別結(jié)果等送到客戶機100。
一個字典管理模塊223切換并選擇為各識別字段(例如為名稱、地址、字母符號等)準備的多種識別字典225(識別字典1至識別字典N,N是一個正整數(shù)),且從客戶機100接收的用戶字典124a可同時利用多種字典。
注意,為從客戶機100送來的各種字典管理信息124c(輸入表標識符-將要在后面描述)準備了多種識別字典225。各識別字典225都附有表示該識別字典的識別字段的識別字典標識符。字典管理模塊223對存儲有彼此對應(yīng)的這些識別字典標識符和輸入表標識符的一種標識符表223a進行管理,如圖5所示。
一個語音識別模塊224,利用字典管理模塊223根據(jù)語音識別數(shù)據(jù)和從客戶機100接收的字典管理信息124c而為語音識別指定的識別字典225和用戶字典124a,執(zhí)行語音識別。
注意用戶字典124a是由用戶準備的,以寄存將要受到語音識別的識別詞,并存儲將要被識別的詞的彼此對應(yīng)的發(fā)音和注釋,如例如圖3所示。
語音識別數(shù)據(jù)124b可以是語音輸入模塊121所A/D轉(zhuǎn)換的語音數(shù)據(jù)或通過對該語音數(shù)據(jù)進行編碼所獲得的數(shù)據(jù)。
字典管理信息124c表明了一個輸入對象等。例如,當服務(wù)器200識別輸入語音并把與該語音識別結(jié)果對應(yīng)的文本數(shù)據(jù)輸入到各個輸入表(該各個輸入表定義了由第一實施例的語音識別系統(tǒng)所顯示的一個語音輸入窗口,如圖4所示)中時,字典管理信息124c是表示輸入表的類型的一個標識符(輸入表標識符)??蛻魴C100把這種輸入表標識符送到服務(wù)器200,作為字典管理信息124c。在服務(wù)器200中,字典管理模塊223對標識符表223a進行查詢,以獲得與該接收的輸入表標識符相應(yīng)的一個識別字典標識符,并確定在語音識別中將要采用的一個識別字典225。
以下利用圖6說明第一實施例的語音識別系統(tǒng)所執(zhí)行的處理。
圖6是顯示第一實施例的語音識別系統(tǒng)所執(zhí)行的處理的流程圖。
在步驟S101,客戶機100把用戶字典124a送到服務(wù)器200。
在步驟S201,服務(wù)器200從客戶機100接收用戶字典124a。
在步驟S102,當語音作為一種目標語音輸入而被輸入到一個輸入表時,客戶機100把該輸入表的輸入表標識符作為字典管理信息124c而送到服務(wù)器200。
在步驟S202,服務(wù)器200接收來自客戶機100的該輸入表標識符,作為字典管理信息124c。
在步驟S203,服務(wù)器200利用該字典管理信息124c對標識符表223a進行查詢,以獲得與所接收的輸入表標識符相應(yīng)的識別字典標識符,并確定將要在語音識別中采用的一個識別字典225。
在步驟S103,客戶機100把作為將要輸入到各個輸入表的文本數(shù)據(jù)而語音輸入的語音識別數(shù)據(jù)124b送到服務(wù)器200。
在步驟S204,服務(wù)器200接收來自客戶機100的彼此相應(yīng)的語音識別數(shù)據(jù)。
在步驟S205,服務(wù)器200,利用字典管理模塊223為語音識別指定的用戶字典124a和識別字典225,執(zhí)行語音識別模塊224中的語音識別數(shù)據(jù)124b的語音識別。
在該第一實施例中,包含在從客戶機100送到服務(wù)器200的用戶字典124a中的所有識別詞都被用于語音識別模塊224進行的語音識別中。
在步驟S206,服務(wù)器200把語音識別模塊224獲得的語音識別結(jié)果送到客戶機100。
在步驟S104,客戶機100接收來自服務(wù)器200的與各個輸入表相應(yīng)的語音識別結(jié)果,并把與該語音識別結(jié)果相應(yīng)的文本數(shù)據(jù)存儲在相應(yīng)的輸入表中。
客戶機100在步驟S105檢查該處理是否完成。如果該處理未結(jié)束(步驟S105為“否”),流程返回到步驟S102以重復(fù)該處理。另一方面,如果處理將要結(jié)束(步驟S105為“是”),客戶機100向服務(wù)器200通知處理的結(jié)束,并結(jié)束處理。
在步驟S207檢查是否探測到了來自客戶機100的一個處理結(jié)束指令。如果未探測到處理結(jié)束指令(步驟S207為“否”),流程返回到步驟S202以重復(fù)上述處理。另一方面,如果已經(jīng)探測到了處理結(jié)束指令(步驟S207為“是”),處理結(jié)束。
在上述處理中,當語音作為一種目標語音輸入而被輸入到一個輸入表時,與該輸入表對應(yīng)的字典管理信息124c被從客戶機100送到服務(wù)器200?;蛘?,當作為目標語音輸入的輸入表被來自輸入裝置106的一個指令所注意(作為一個目標語音輸入的該輸入表得到確定)時,該字典管理信息124c可得到發(fā)送。
在服務(wù)器200中,語音識別是在所有語音識別數(shù)據(jù)124b得到接收之后進行的?;蛘?,每當語音作為文本數(shù)據(jù)而被輸入到一個給定的輸入表時,語音識別數(shù)據(jù)124b的該部分可以一幀一幀地被送到服務(wù)器200(例如,一幀是10毫秒的語音數(shù)據(jù)),且語音識別能夠?qū)崟r進行。
如上所述,根據(jù)第一實施例,在該客戶機-服務(wù)器語音識別系統(tǒng)中,由于服務(wù)器200利用一個適當?shù)淖R別字典225和用戶字典124a而執(zhí)行語音識別數(shù)據(jù)124b的語音識別,服務(wù)器200中的語音識別精度能夠得到改善,同時減小了處理負荷和對客戶機100中與語音識別相關(guān)的存儲資源的使用。(第二實施例)在第一實施例中,如果沒有將要存儲到用戶字典124a中的識別詞得到產(chǎn)生,由于用戶字典124a不需要得到使用,只有當從客戶機100接收到用戶字典124a的一個使用請求時,服務(wù)器200在識別中可使用用戶字典124a中的所有識別詞。
在此情況下,表示用戶字典124a是否被使用的一個標記作為字典管理信息124c而被加上,從而通知服務(wù)器200用戶字典124a是否得到使用。(第三實施例)由于用戶字典124a中的某些目標識別詞根據(jù)輸入對象、情況等而不被使用,只有在用戶字典124a中的特定的識別詞可根據(jù)輸入對象和情況而在識別中得到使用。
在這樣的情況下,當用戶字典通過為相應(yīng)的識別詞指定輸入表標識符而得到管理時,如圖7所示,只有具有在語音輸入中得到使用的輸入表的輸入表標識符的識別詞能夠在識別中得到采用。或者,可以為一個給定的識別詞指定多個輸入表標識符。另外,用戶字典可通過指定代替輸入表標識符的識別字典標識符而得到管理,如圖8所示。(第四實施例)通過結(jié)合第二和第三實施例,語音識別模塊224的語音識別處理的效率能夠得到進一步的改善。(第五實施例)本發(fā)明的設(shè)備的多數(shù)處理可通過程序而得到實施。如上所述,由于該設(shè)備可采用諸如個人計算機的通用設(shè)備,本發(fā)明也可通過向一種系統(tǒng)或設(shè)備提供把能夠?qū)嵤┥鲜鰧嵤├墓δ艿囊环N軟件程序的程序碼并由該系統(tǒng)或設(shè)備的一個計算機讀出和執(zhí)行存儲在該存儲介質(zhì)中的該程序碼,而得到實現(xiàn)。在此情況下,從存儲介質(zhì)讀出的該程序碼本身實施了上述實施例的功能,且該存儲該程序碼的存儲介質(zhì)構(gòu)成了本發(fā)明。作為用于提供該程序碼的存儲介質(zhì),可采用例如一個軟盤、一個硬盤、光盤、磁-光盤、CD-ROM、磁帶、非易失存儲卡、ROM、等等。
本發(fā)明還可通過向一個計算機提供記錄該程序碼的該存儲介質(zhì)并執(zhí)行由在該計算機上運行的一種OS的某些或全部實際處理,而得到實現(xiàn)。進一步地,上述實施例的功能,可由設(shè)置在一種功能擴展板或一種功能擴展單元上的一個CPU等所執(zhí)行的某些或全部實際處理操作,來進行實施,該功能擴展板或功能擴展單元在從該存儲介質(zhì)讀出的程序碼被寫入到該功能擴展板或單元的一個存儲器中之后被插入或連接到該計算機。當本發(fā)明被應(yīng)用于該存儲介質(zhì)時,該存儲介質(zhì)存儲了與圖3所示的流程圖相應(yīng)的程序碼。
由于在不脫離本發(fā)明的精神和范圍的前提下可以實現(xiàn)很多非常不同實施例,因而應(yīng)該理解的是本發(fā)明不限于這些具體的實施例,而只由所附權(quán)利要求書來限定。
權(quán)利要求
1.一種客戶機-服務(wù)器語音識別系統(tǒng),用于識別一個服務(wù)器在一個客戶機的語音輸入,該客戶機包括語音輸入裝置,用于輸入語音;用戶字典保持裝置,用于保持通過寄存由用戶指定的目標識別詞而形成的一個用戶字典;以及發(fā)送裝置,用于把由所述語音輸入裝置輸入的語音數(shù)據(jù)、用于確定一個識別字典-該識別字典被用來識別該語音數(shù)據(jù)-的一個識別字段的字典管理信息、以及該用戶字典發(fā)送進行該服務(wù)器,且該服務(wù)器包括識別字典保持裝置,用于保持為各識別字段準備的多種識別字典;確定裝置,用于從該多種識別字典確定與從該客戶機接收的該字典管理信息相應(yīng)的一或多個識別字典;以及識別裝置,用于至少利用所述確定裝置確定的識別字典來識別該語音數(shù)據(jù)。
2.根據(jù)權(quán)利要求1的系統(tǒng),其中所述識別裝置利用所述確定裝置確定的識別字典和從客戶機接收的該用戶字典來識別該語音數(shù)據(jù)。
3.根據(jù)權(quán)利要求1的系統(tǒng),其中所述語音輸入裝置包括用于顯示作為目標語音輸入的一種輸入表的顯示裝置,且該字典管理信息是表示該輸入表的類型的一種輸入表標識符。
4.根據(jù)權(quán)利要求1的系統(tǒng),其中該字典管理信息包含表示該用戶字典是否被用在語音數(shù)據(jù)的識別中的信息。
5.根據(jù)權(quán)利要求1的系統(tǒng),其中該用戶字典是通過彼此對應(yīng)地存儲目標識別詞的發(fā)音和注釋而形成的。
6.根據(jù)權(quán)利要求3的系統(tǒng),其中該用戶字典是通過還彼此對應(yīng)地存儲至少一個輸入表標識符和目標識別詞而形成的。
7.根據(jù)權(quán)利要求1的系統(tǒng),其中該用戶字典是通過還存儲表示該多種識別字典的識別字段的至少一個識別字典標識符和該目標識別詞而形成的。
8.根據(jù)權(quán)利要求1的系統(tǒng),其中該語音數(shù)據(jù)是通過對那種語音數(shù)據(jù)進行編碼而獲得的數(shù)據(jù)
9.用于識別由一個服務(wù)器在一個客戶機輸入的語音的一種客戶機-服務(wù)器語音識別系統(tǒng)的控制方法,包括一個語音輸入步驟,用于輸入語音;一個用戶字典保持步驟,用于在該客戶機中保持一個用戶字典,該用戶字典是通過寄存由一個用戶指定的目標識別詞而形成的;以及一個發(fā)送步驟,用于把在該語音輸入步驟輸入的語音數(shù)據(jù)、字典管理信息-該信息用于確定用來識別語音數(shù)據(jù)的一個識別字典的一個識別字段、以及該用戶字典發(fā)送給該服務(wù)器;一個識別字典保持步驟,用于在該服務(wù)器中保持為各個識別字段準備的多種識別字典;一個確定步驟,用于從該多種識別字典確定與從客戶機接收的該字典管理信息相應(yīng)的一或多個識別字典;以及一個識別步驟,用于至少利用在該確定步驟中確定的識別字典來識別該語音數(shù)據(jù)。
10.根據(jù)權(quán)利要求9的方法,其中該識別步驟包括利用在確定步驟中確定的識別字典和從客戶機接收的該用戶字典來識別該語音數(shù)據(jù)的一個步驟。
11.根據(jù)權(quán)利要求9的方法,其中該語音輸入步驟包括用于顯示作為一種目標語音輸入的一種輸入表的一個顯示步驟,且該字典管理信息是表示輸入表的類型的一種輸入表標識符。
12.根據(jù)權(quán)利要求9的方法,其中該字典管理信息包含表示該用戶字典是否被用作語音數(shù)據(jù)的識別中的信息。
13.根據(jù)權(quán)利要求9的方法,其中該用戶字典是通過彼此對應(yīng)地存儲目標識別詞的發(fā)音和注釋而形成的。
14.根據(jù)權(quán)利要求11的方法,其中該用戶字典是通過還彼此對應(yīng)地存儲至少輸入表標識符和目標識別詞而形成的。
15.根據(jù)權(quán)利要求9的方法,其中該用戶字典是通過還存儲表示該多種識別字典的識別字段的至少一個識別字典標識符和該目標識別詞而形成的。
16.根據(jù)權(quán)利要求9的方法,其中該語音數(shù)據(jù)是通過對那種語音數(shù)據(jù)進行進行編碼而獲得的數(shù)據(jù)。
17.一種計算機可讀取存儲器,它存儲有一種程序碼,該程序碼用于控制用于識別一個服務(wù)器在一個客戶機輸入的語音的一種客戶機-服務(wù)器語音識別系統(tǒng),包括一個語音輸入步驟的程序碼,該語音輸入步驟用于輸入語音;一個用戶字典保持步驟的程序碼,該用戶字典保持步驟用于在該客戶機中保持一個用戶字典,該用戶字典是通過寄存由一個用戶指定的目標識別詞而形成的;以及一個發(fā)送步驟的程序碼,該發(fā)送步驟用于把在該語音輸入步驟輸入的語音數(shù)據(jù)、字典管理信息-該信息用于確定用來識別語音數(shù)據(jù)的一個識別字典的一個識別字段、以及該用戶字典發(fā)送給該服務(wù)器;一個識別字典保持步驟的程序碼,該識別字典保持步驟用于在該服務(wù)器中保持為各個識別字段準備的多種識別字典;一個確定步驟的程序碼,該確定步驟用于從該多種識別字典確定與從客戶機接收的該字典管理信息相應(yīng)的一或多個識別字典;以及一個識別步驟的程序碼,該識別步驟用于至少利用在該確定步驟中確定的識別字典來識別該語音數(shù)據(jù)。
18.一種語音識別服務(wù)器,用于識別在一個客戶機的語音輸入并把一種識別結(jié)果送到該客戶機,包括接收裝置,用于從該客戶機接收語音數(shù)據(jù)、用來確定一個識別字典的一個識別字段的字典管理信息-該識別字典用于識別該語音數(shù)據(jù)、以及通過寄存用戶指定的目標識別詞而形成的一個用戶字典;識別字典保持裝置,用于保持為各識別字段準備的多種識別字典;確定裝置,用于從該多種識別字典中確定與從該客戶機接收的該字典管理信息相應(yīng)的一或多個識別字典;以及識別裝置,用于至少利用所述確定裝置確定的該識別字典來識別該語音數(shù)據(jù)。
19.根據(jù)權(quán)利要求18的服務(wù)器,其中所述識別裝置利用所述確定裝置確定的識別字典和從客戶機接收的用戶字典對語音數(shù)據(jù)進行識別。
20.根據(jù)權(quán)利要求18的服務(wù)器,其中該語音數(shù)據(jù)是通過對那種語音數(shù)據(jù)進行編碼而獲得的數(shù)據(jù)。
21.一種語音識別客戶機,用于把輸入的所要識別的語音送到一個服務(wù)器,并接收那種語音的一個識別結(jié)果,包括語音輸入裝置,用于輸入語音;用戶字典保持裝置,用于保持通過對用戶指定的目標識別詞進行寄存而形成的一個用戶字典;以及發(fā)送裝置,用于把所述語音輸入裝置輸入的語音數(shù)據(jù)、用于確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及該用戶字典發(fā)送給該服務(wù)器。
22.根據(jù)權(quán)利要求21的客戶機,其中所述語音輸入裝置包括用于顯示作為一個目標語音輸入的一個輸入表的顯示裝置,且該字典管理信息是表示輸入表的一個類型的一種輸入表標識符。
23.根據(jù)權(quán)利要求21的客戶機,其中該字典管理信息包含表示該用戶字典是否被用在該語音數(shù)據(jù)的識別中的信息。
24.根據(jù)權(quán)利要求21的客戶機,其中該用戶字典是通過彼此對應(yīng)地存儲目標識別詞的發(fā)音和注釋而形成的。
25.根據(jù)權(quán)利要求22的客戶機,其中該用戶字典是通過還彼此對應(yīng)地存儲至少一個輸入表標識符和目標識別詞而形成的。
26.根據(jù)權(quán)利要求21的客戶機,其中該用戶字典是通過還存儲至少一個包括該多種識別字典的識別字典標識符和該目標識別詞而形成的。
27.根據(jù)權(quán)利要求21的客戶機,其中該語音數(shù)據(jù)是通過對那種語音數(shù)據(jù)進行編碼而獲得的數(shù)據(jù)。
28.用于識別在一個客戶機的語音輸入并把一個識別結(jié)果發(fā)送到一個客戶機的一種語音識別服務(wù)器的一種控制方法,包括一個接收步驟,用于從該客戶機接收語音數(shù)據(jù)、用于確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及通過寄存用戶指定的目標識別詞而形成的一個用戶字典;一個識別字典保持步驟,用于保持為各識別字段準備的多種識別字典;一個確定步驟,用于從該多種識別字典確定與從該客戶機接收的該字典管理信息相應(yīng)的一或多個識別字典;以及一個識別步驟,用于至少利用在該確定步驟中確定的識別字典來識別該語音數(shù)據(jù)。
29.根據(jù)權(quán)利要求28的方法,其中該識別步驟包括利用在該確定步驟中確定的該識別字典和從該客戶機接收的用戶字典對該語音數(shù)據(jù)進行識別的步驟。
30.根據(jù)權(quán)利要求1的方法,其中該語音數(shù)據(jù)是通過對那種語音數(shù)據(jù)進行編碼而獲得的數(shù)據(jù)。
31.用于把所要識別的輸入語音送到一個服務(wù)器并接收該語音的識別結(jié)果的一種語音識別客戶機的一種控制方法,包括一個語音輸入步驟,用于輸入語音;一個用戶字典保持步驟,用于保持通過對用戶指定的目標識別詞進行寄存而形成的一個用戶字典;以及一個發(fā)送步驟,用于把在該語音輸入步驟輸入的語音數(shù)據(jù)、用于確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及該用戶字典發(fā)送到該服務(wù)器。
32.根據(jù)權(quán)利要求31的方法,其中該語音輸入步驟包括顯示作為一個目標語音輸入的一個輸入表的一個顯示步驟,且該字典管理信息是表示輸入表的類型的一個輸入表標識符。
33.根據(jù)權(quán)利要求31的方法,其中該字典管理信息包含表示該用戶字典是否被用在該語音數(shù)據(jù)的識別中的信息。
34.根據(jù)權(quán)利要求31的方法,其中該用戶字典是通過彼此對應(yīng)地存儲目標識別詞的發(fā)音和注釋而形成的。
35.根據(jù)權(quán)利要求32的方法,其中該用戶字典是通過還彼此對應(yīng)地存儲至少一個輸入表標識符和目標識別詞而形成的。
36.根據(jù)權(quán)利要求31的方法,其中該用戶字典是通過還存儲表示該多種識別字典的識別字段的至少一個識別字典標識符和該目標識別詞而形成的。
37.根據(jù)權(quán)利要求31的方法,其中該語音數(shù)據(jù)是通過對那種語音數(shù)據(jù)進行編碼而獲得的數(shù)據(jù)。
38.一種計算機可讀取存儲器,它存儲用于識別在一個客戶機輸入的語音并把一個識別結(jié)果送到該客戶機的一個語音識別服務(wù)器的控制的程序碼,包括一種接收步驟的程序碼,該識別步驟用于從該客戶機接收語音數(shù)據(jù)、用于確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及通過寄存一個用戶指定的目標識別詞而形成的一個用戶字典;一個識別字典保持步驟的程序碼,該識別字典保持步驟用于保持為各識別字段而準備的多種識別字典;一個確定步驟的程序碼,該確定步驟用于從該多種識別字典確定與從該客戶機接收的字典管理信息相應(yīng)的一或多個識別字典;以及一個識別步驟的程序碼,該識別步驟用于至少利用在該確定步驟確定的識別字典來識別該語音數(shù)據(jù)。
39.一種計算機可讀取存儲器,它存儲一個語音識別客戶機的控制的程序碼,該語音識別客戶機用于把所要識別的輸入語音送到一個服務(wù)器并接收該速度的識別結(jié)果,包括一個語音輸入步驟的程序碼,該語音輸入步驟用于輸入語音;一個識別字典保持步驟的程序碼,該用戶字典保持步驟用于保持通過對用戶指定的目標識別詞進行寄存而形成的一個用戶字典;以及一個發(fā)送步驟的程序碼,該發(fā)送步驟用于把在語音輸入步驟輸入的語音數(shù)據(jù)、用于確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及該用戶字典發(fā)送到該服務(wù)器。
40.用于識別由一個服務(wù)器在一個客戶機輸入的語音的一種客戶機-服務(wù)器語音識別系統(tǒng),該客戶機包括一個語音輸入裝置,用于輸入語音;一個用戶字典保持裝置,用于保持通過對用戶指定的目標識別詞進行寄存而形成的一個用戶字典;以及一個發(fā)送器,用于把所述語音輸入裝置輸入的語音數(shù)據(jù)、用于確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及該用戶字典送到該服務(wù)器,以及一個服務(wù)器,包括一個識別字典保持單元,用于保持為各識別字段準備的多種識別字典;一個確定單元,用于從該多種識別字典中確定與從該客戶機接收的字典管理信息相應(yīng)的一或多個識別字典;以及一個識別單元,用于至少利用所述確定單元確定的識別字典來識別該語音數(shù)據(jù)。
41.用于識別在一個客戶機輸入的語音并把識別結(jié)果送到該客戶機的一種語音識別服務(wù)器,包括一個接收器,用于從該客戶機接收語音數(shù)據(jù)、用于確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及通過對用戶指定的目標識別詞進行寄存而形成的一個用戶字典;一個識別字典保持單元,用于保持為各個識別字段準備的多種識別字典;一個確定單元,用于從該多種識別字典確定與從該客戶機接收的字典管理信息相應(yīng)的一或多個識別字典;以及一個識別單元,用于至少利用所述確定單元確定的識別字典而識別該語音數(shù)據(jù)。
42.一種語音識別客戶機,用于把所要識別的輸入語音送到一個服務(wù)器并接收該語音的識別結(jié)果,包括一個語音輸入單元,用于輸入語音;一個用戶字典保持單元,用于保持通過對用戶指定的目標識別詞進行寄存而形成的一個用戶字典;以及一個發(fā)送器,用于把所述語音輸入裝置輸入的語音數(shù)據(jù)、用來確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音數(shù)據(jù)、以及該用戶字典發(fā)送到該服務(wù)器。
全文摘要
一種用戶字典-它通過彼此對應(yīng)地存儲用戶指定的目標識別詞的發(fā)音和注釋而形成、輸入語音識別數(shù)據(jù)、以及用來確定一個識別字典的一個識別字段的字典管理信息-該識別字典被用來識別該語音識別數(shù)據(jù),經(jīng)過一個通信模塊而被送到一個服務(wù)器。在該服務(wù)器中,一個字典管理單元查詢一個標識符表,以從多種識別字典中確定與從一個客戶機接收的字典管理信息相應(yīng)的識別字典。一個語音識別模塊至少利用該確定的識別字典來識別語音識別數(shù)據(jù)。識別結(jié)果經(jīng)一個通信模塊而被送到該客戶機。
文檔編號G10L15/22GK1356688SQ0113947
公開日2002年7月3日 申請日期2001年11月27日 優(yōu)先權(quán)日2000年11月27日
發(fā)明者櫛田晃弘, 小坂哲夫 申請人:佳能株式會社