專利名稱:表意語言的多模式輸入的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理系統(tǒng)。尤其是,本發(fā)明涉及將具有表意字的書面語言(例如,漢語和日語)輸入計(jì)算機(jī)系統(tǒng)。
但是,在日語單詞處理器(例如,以上所討論的IME系統(tǒng))中所使用的傳統(tǒng)文本處理系統(tǒng)中,經(jīng)常必須使用一種所謂的候選字顯示與選擇方法來為假名序列選擇或糾正合適的日本漢字相等物。尤其是,為一個(gè)序列的假名顯示許多日本漢字候選字,以便用戶可以選擇一個(gè)合適的。由于日語包括許多同音異義詞且沒有明確的詞界,這會(huì)不可避免地導(dǎo)致假名-日本漢字轉(zhuǎn)換錯(cuò)誤,因此,這種顯示與選擇方法是必要的。通過顯示日本漢字候選字,用戶可以觀看可能的候選字并選擇合適的日本漢字表示。
同樣,中文單詞處理器或其他漢語處理系統(tǒng)中所用的文本編輯模塊也要求IME轉(zhuǎn)換——從語音符號(hào)(拼音)轉(zhuǎn)換到書面漢字表示。拼音IME是最流行的語音中文IME,其操作類似于以上所討論的日語假名。一般通過使用“拼音”詞典和語言模型來將語音“拼音”字符串信息轉(zhuǎn)換為漢字。如果“拼音”IME中沒有音調(diào)標(biāo)記,則會(huì)產(chǎn)生比日語假名IME更多的同音異義詞。一些拼音序列的同音異義詞清單經(jīng)常會(huì)太長,以致可視顯示器的整個(gè)屏幕都裝不下。
最近,這些系統(tǒng)中已使用語音識(shí)別,這自然提供了以前通過鍵盤而被輸入的語音信息。但是,以上所討論的同音異義詞問題仍然存在。此外,在轉(zhuǎn)換期間也會(huì)產(chǎn)生語音識(shí)別錯(cuò)誤,這可能會(huì)要求更多地使用候選字顯示與選擇方法,以獲得準(zhǔn)確的表意字。
相應(yīng)地,目前正需要更有效且更有效率地執(zhí)行一種系統(tǒng),以獲得具有表意字的語言(例如,漢語和日語)的書面符號(hào)。
當(dāng)一定要糾正文本編輯系統(tǒng)或文字處理系統(tǒng)所自動(dòng)選擇的一個(gè)表意字時(shí),用這種方式輸入表意字特別有用,其中,語音信息由語音識(shí)別器提供。通常,該系統(tǒng)自動(dòng)選擇的表意字是在候選字清單中概率最高的表意字。通過使用筆畫信息,當(dāng)表意字不具備用戶所指出的所需的表意字或符號(hào)中的筆畫時(shí),從候選字清單中除去表意字。通過重復(fù)輸入所需的表意字的筆畫,用戶可以減小候選字清單。用這種方法,用戶不需要為所需的表意字輸入全部筆畫,而只須輸入一些筆畫,就足以從候選字清單中識(shí)別出所需的表意字。
如果當(dāng)將初始候選字清單減小到零時(shí)用戶還沒有找到所需的表意字或符號(hào),那么,可以將額外的表意字或符號(hào)加入候選字清單(作為迄今為止所接收到的筆畫信息的一項(xiàng)功能)。這是本發(fā)明的另一個(gè)方面。用這種方法,用戶不需要重新輸入筆畫信息來尋找所需的表意字,這樣,可以將基于語音信息的表意字或符號(hào)平穩(wěn)地轉(zhuǎn)變?yōu)閱螁位诠P畫信息的表意字和符號(hào)。
圖2是流程圖,展示了根據(jù)本發(fā)明的一種操作方法。
圖3是用于執(zhí)行本發(fā)明的一個(gè)示范環(huán)境的方框圖。
圖4是一種語音識(shí)別系統(tǒng)的方框圖。
圖5是一種筆跡識(shí)別系統(tǒng)的方框圖。
圖6是用于減小和呈遞作為筆畫信息的一項(xiàng)功能的候選字清單的模塊的方框圖。
圖7是流程圖,展示了根據(jù)本發(fā)明的一個(gè)選擇性實(shí)施例的一種操作方法。
圖8是一種示范處理系統(tǒng)的方框圖。
圖9是一個(gè)示范候選字清單。
參考圖2,提供筆畫信息和獲得所需的表意字可以包括重復(fù)步驟19~22。步驟19包括從用戶那里獲得筆畫信息(即所需的表意字中所包含的一個(gè)或多個(gè)筆畫)。利用從步驟19中獲得的筆畫信息(以及通過原先執(zhí)行步驟19而獲得的任何額外的筆畫信息),候選字清單在步驟20中可以被縮小到只包括具有從用戶那里獲得的筆畫信息的那些表意字。在步驟21中,將被縮小的候選字清單呈遞給用戶。如果用戶在步驟22中識(shí)別所需的表意字,則保存所選擇的表意字;否則,用戶可以在步驟19中提供額外的筆畫信息,重復(fù)該程序。
應(yīng)該注意,筆畫信息一般與語音信息無關(guān),這樣,可以容易地回顧(例如,減小)候選字清單,以獲得所需的表意字。在輸入所需單詞的字母以便獲得該單詞的一種系統(tǒng)中,字母與單詞中的字母所發(fā)出的語音之間存在強(qiáng)大的關(guān)聯(lián)。這樣,需要輸入許多字母(如果不是所有字母的話),以減小單詞的候選字清單,從而識(shí)別所需的單詞。對(duì)比而言,通過使用一般與表意字的語音關(guān)聯(lián)不大的筆畫信息,可以迅速從發(fā)音類似的候選字表意字清單中識(shí)別所需的表意字。
上述方法10可以在任何文本編輯模塊中加以執(zhí)行,這可以采取許多形式。例如,文本編輯模塊可以是以上背景部分中的所描述的IME系統(tǒng),它通過語音來接收語音信息,并將該語音信息轉(zhuǎn)換為一種書面語言(例如,日語、漢語等)。此外,文本編輯模塊可以是一種文字處理應(yīng)用程序,或者構(gòu)成通過話筒從用戶那里接收輸入語音并將該輸入語音轉(zhuǎn)換為文本的聽寫系統(tǒng)的一部分。
在對(duì)本發(fā)明進(jìn)一步進(jìn)行詳細(xì)的討論之前,縱覽一下一種操作環(huán)境可能會(huì)有幫助。圖3展示了其上可以執(zhí)行本發(fā)明的一種合適的計(jì)算系統(tǒng)環(huán)境50的一個(gè)例子。計(jì)算系統(tǒng)環(huán)境50只是合適的計(jì)算環(huán)境的一個(gè)例子,并非意在對(duì)本發(fā)明的使用或功能性的范圍作任何限制。不應(yīng)該認(rèn)為計(jì)算環(huán)境50具有涉及示范操作環(huán)境50中所示的部件之一或部件組合的任何從屬性或要求。
對(duì)于許多其他的通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置而言,本發(fā)明切實(shí)可行。眾所周知的可能適用于本發(fā)明的計(jì)算系統(tǒng)、環(huán)境和/或配置例子包括(但不局限于)個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或便攜式設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PCs、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境,以及類似物。
可以在正由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令(例如,程序模塊)的一般上下文中描述本發(fā)明。程序模塊通常包括例行程序、程序、對(duì)象、部件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特殊的任務(wù)或?qū)嵤┨厥獾某橄髷?shù)據(jù)類型。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在一種分布式計(jì)算環(huán)境中,可以將程序模塊定位在包括內(nèi)存存儲(chǔ)設(shè)備的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。以下將結(jié)合附圖來描述這些程序和模塊所執(zhí)行的任務(wù)。精通該技術(shù)領(lǐng)域的人可以按處理器可執(zhí)行指令(可以被寫在計(jì)算機(jī)可讀介質(zhì)的任何形式上)來執(zhí)行描述和附圖。
參考圖3,用于執(zhí)行本發(fā)明的一種示范系統(tǒng)包括采取計(jì)算機(jī)60的形式的一個(gè)通用計(jì)算設(shè)備。計(jì)算機(jī)60的部件可以包括(但不局限于)一個(gè)處理部件70、一個(gè)系統(tǒng)存儲(chǔ)器80和將包括該系統(tǒng)存儲(chǔ)器的各種系統(tǒng)部件耦合到處理部件70的一個(gè)系統(tǒng)總線71。系統(tǒng)總線71可以是包括一個(gè)存儲(chǔ)總線或存儲(chǔ)控制器、一個(gè)外圍總線和使用任何各種總線體系結(jié)構(gòu)的一個(gè)本地總線的幾種類型的總線結(jié)構(gòu)中的任何一種。舉例來講(不作限制),這類體系結(jié)構(gòu)包括“工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)”(ISA)總線、“微通道結(jié)構(gòu)”(MCA)總線、“增強(qiáng)ISA”(EISA)總線、“視頻電子標(biāo)準(zhǔn)協(xié)會(huì)”(VESA)本地總線,以及也被稱作“中層樓(Mezzanine)總線”的“外圍部件互連”(PCI)總線。
計(jì)算機(jī)60通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由計(jì)算機(jī)50進(jìn)行存取的任何可用的介質(zhì),它包括易失和非易失介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。舉例來講(不作限制),計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括用任何方法或技術(shù)加以執(zhí)行的、用于存儲(chǔ)信息(例如,計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))的易失和非易失介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括(但不局限于)RAM、ROM、EEPROM、快閃存儲(chǔ)器或其他存儲(chǔ)技術(shù)、CD-ROM、數(shù)字化通用光盤(DVD)或其他光盤存儲(chǔ)器、盒式磁帶、磁帶、磁盤存儲(chǔ)器或其他磁性存儲(chǔ)設(shè)備、或可以被用于存儲(chǔ)所需信息并可以由計(jì)算機(jī)50進(jìn)行存取的任何其他介質(zhì)。
通信介質(zhì)通常具體體現(xiàn)了計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、被調(diào)制的數(shù)據(jù)信號(hào)(例如,載體波或其他傳送機(jī)制)中的程序模塊或其他數(shù)據(jù),并且包括任何信息傳遞介質(zhì)。術(shù)語“被調(diào)制的數(shù)據(jù)信號(hào)”意味著一種信號(hào),其一個(gè)或多個(gè)特征按這樣一種方式被加以設(shè)置或更改,以便可以對(duì)該信號(hào)中的信息進(jìn)行編碼。舉例來講(不作限制),通信介質(zhì)包括有線介質(zhì)(例如,有線網(wǎng)絡(luò)或直線連接),和無線介質(zhì)(例如,聲音、FR、紅外線和其他無線介質(zhì))。以上任何介質(zhì)的組合也應(yīng)該被包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
系統(tǒng)存儲(chǔ)器80包括采取易失和/或非易失存儲(chǔ)器(例如,只讀存儲(chǔ)器(ROM)81和隨機(jī)存取存儲(chǔ)器(RAM)82)的形式的計(jì)算機(jī)存儲(chǔ)介質(zhì)。基本輸入/輸出系統(tǒng)83(BIOS)通常被存儲(chǔ)在ROM 81中,該基本輸入/輸出系統(tǒng)包含基本例行程序,這些基本例行程序有助于在計(jì)算機(jī)60內(nèi)的各個(gè)部件之間傳遞信息(例如,在啟動(dòng)期間)。RAM 82通常包含可立即進(jìn)行存取并且/或者目前正在由處理部件70進(jìn)行操作的數(shù)據(jù)和/或程序模塊。舉例來講(不作限制),圖3展示了操作系統(tǒng)84、應(yīng)用程序85、其他程序模塊86和程序數(shù)據(jù)87。
計(jì)算機(jī)60也可以包括其他可移動(dòng)/不可移動(dòng)的易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅僅通過舉例,圖3展示了從不可移動(dòng)的非易失磁性介質(zhì)進(jìn)行讀取或?qū)ζ溥M(jìn)行書寫的一個(gè)硬盤驅(qū)動(dòng)器91、從一個(gè)可移動(dòng)的非易失磁盤102進(jìn)行讀取或?qū)ζ溥M(jìn)行書寫的一個(gè)磁盤驅(qū)動(dòng)器101,以及從一個(gè)可移動(dòng)的非易失光盤106(例如,CD-ROM或其他光學(xué)介質(zhì))進(jìn)行讀取或?qū)ζ溥M(jìn)行書寫的一個(gè)光盤驅(qū)動(dòng)器105??捎糜谑痉兜牟僮鳝h(huán)境中的其他可移動(dòng)/不可移動(dòng)的易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)包括(但不局限于)盒式磁帶、快閃記憶卡、數(shù)字化通用光盤、數(shù)字錄象磁帶、固態(tài)RAM、固態(tài)ROM和類似物。硬盤驅(qū)動(dòng)器91通常通過一個(gè)不可移動(dòng)的存儲(chǔ)接口(例如,接口90)而被連接到系統(tǒng)總線71,磁盤驅(qū)動(dòng)器101和光盤驅(qū)動(dòng)器105通常通過一個(gè)可移動(dòng)的存儲(chǔ)接口(例如,接口100)而連接到系統(tǒng)總線71。
以上所討論的和圖3所展示的各種驅(qū)動(dòng)器及其有關(guān)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)60提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲(chǔ)。例如,在圖3中,硬盤驅(qū)動(dòng)器91被展示為存儲(chǔ)操作系統(tǒng)94、應(yīng)用程序95、其他程序模塊96和程序數(shù)據(jù)97。注意,這些部件可以等同于,也可以不同于操作系統(tǒng)84、應(yīng)用程序85、其他程序模塊86和程序數(shù)據(jù)87。操作系統(tǒng)84、應(yīng)用程序85、其他程序模塊86和程序數(shù)據(jù)87在這里被提供有不同的數(shù)字,以展示它們是最小限度的不同的副本。
用戶可以通過輸入設(shè)備(例如,鍵盤112、話筒113、書寫板114)和定點(diǎn)設(shè)備111(例如,鼠標(biāo)、跟蹤球或觸墊)來將命令和信息輸入計(jì)算機(jī)60。其他輸入設(shè)備(未示出)可以包括操縱桿、游戲墊、圓盤式衛(wèi)星電視天線、掃描儀或類似物。這些和其他的輸入設(shè)備經(jīng)常通過被耦合到系統(tǒng)總線的用戶輸入接口110而與處理部件70連接,但可以由其他接口和總線結(jié)構(gòu)(例如,并行端口、游戲端口或通用串行總線(USB))來加以連接。監(jiān)視器141或其他類型的顯示設(shè)備也經(jīng)由一個(gè)接口(例如,視頻接口140)而被連接到系統(tǒng)總線71。除監(jiān)視器以外,計(jì)算機(jī)也可以包括可通過輸出外圍接口145而被連接的其他外圍輸出設(shè)備(例如,揚(yáng)聲器147和打印機(jī)146)。
計(jì)算機(jī)60可以在使用與一臺(tái)或多臺(tái)遠(yuǎn)程計(jì)算機(jī)(例如,遠(yuǎn)程計(jì)算機(jī)130)的邏輯連接的聯(lián)網(wǎng)環(huán)境中進(jìn)行操作。遠(yuǎn)程計(jì)算機(jī)130可以是個(gè)人計(jì)算機(jī)、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、同等級(jí)設(shè)備或其他普通的網(wǎng)絡(luò)節(jié)點(diǎn),并且,通常包括有關(guān)計(jì)算機(jī)60的上述許多或所有部件。圖3中所描繪的邏輯連接包括一個(gè)局域網(wǎng)(LAN)121和一個(gè)廣域網(wǎng)(WAN)123,但也可以包括其他網(wǎng)絡(luò)。這種聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍的計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和互聯(lián)網(wǎng)中很普通。
當(dāng)被用于LAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)60通過一個(gè)網(wǎng)絡(luò)接口或適配器120而被連接到LAN 121。當(dāng)被用于WAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)60通常包括用于在WAN 123(例如,互聯(lián)網(wǎng))上建立通信的一個(gè)調(diào)制解調(diào)器122或其他裝置。調(diào)制解調(diào)器122(可能是內(nèi)置的,也可能是外置的)可以經(jīng)由用戶輸入接口110或其他合適的機(jī)制而被連接到系統(tǒng)總線71。在聯(lián)網(wǎng)環(huán)境中,與計(jì)算機(jī)60有關(guān)的所描繪的程序模塊或其部分可以被存儲(chǔ)在遠(yuǎn)程內(nèi)存存儲(chǔ)設(shè)備中。舉例來講(不作限制),圖3展示了駐留在遠(yuǎn)程計(jì)算機(jī)130上的遠(yuǎn)程應(yīng)用程序135。將會(huì)理解,所示的網(wǎng)絡(luò)連接是起示范作用,可以使用在各臺(tái)計(jì)算機(jī)之間建立一個(gè)通信鏈接的其他裝置。
在步驟12中所獲得的語音信息通常由語音識(shí)別系統(tǒng)來提供,在160處,圖4中展示了它的一個(gè)示范實(shí)施例。語音識(shí)別系統(tǒng)160通常從用戶那里接收輸入語音并將該輸入語音轉(zhuǎn)換為文本。通常,按這種方式使用的語音識(shí)別系統(tǒng)被稱作“聽寫系統(tǒng)”。雖然語音識(shí)別系統(tǒng)160可以建立文字處理應(yīng)用程序或文本編輯模塊的一個(gè)部分,但是,應(yīng)該理解,本發(fā)明也包括提供只作為輸出的一個(gè)文本文件的一種聽寫系統(tǒng)。換言之,聽寫系統(tǒng)的一種形式可以不包括編輯該文本文件(而不是按以上所討論的糾正表意字)的性能。
在示范實(shí)施例中,語音識(shí)別系統(tǒng)160包括話筒92、一個(gè)模擬-數(shù)字(A/D)轉(zhuǎn)換器164、一個(gè)培訓(xùn)模塊165、特點(diǎn)提取模塊166、一個(gè)辭典存儲(chǔ)模塊170、與senone樹徑一起的一個(gè)聲音模型172、一個(gè)樹徑搜索引擎174和一個(gè)語言模型175。應(yīng)該注意,可以在圖3所展示的環(huán)境中執(zhí)行整個(gè)系統(tǒng)160或語音識(shí)別系統(tǒng)160的一部分。例如,可以較佳地通過一個(gè)合適的接口并通過A/D轉(zhuǎn)換器164來為計(jì)算機(jī)50提供作為輸入設(shè)備的話筒92。培訓(xùn)模塊165和特點(diǎn)提取模塊166可以是計(jì)算機(jī)50中的硬件模塊,也可以是被存儲(chǔ)在圖3所示的任何信息存儲(chǔ)設(shè)備中的并且可以由處理部件51或另一個(gè)合適的處理器進(jìn)行存取的軟件模塊。此外,辭典存儲(chǔ)模塊170、聲音模型172和語言模型175也較佳地被存儲(chǔ)在圖3所示的任何存儲(chǔ)設(shè)備中。另外,樹徑搜索引擎174在處理部件51(可以包括一個(gè)或多個(gè)處理器)中加以執(zhí)行,也可以由個(gè)人計(jì)算機(jī)50所使用的一個(gè)專用語音識(shí)別處理器來加以執(zhí)行。
在所展示的實(shí)施例中,在語音識(shí)別期間,用戶將語音(作為到系統(tǒng)160中的、采取可聽語音信號(hào)形式的輸入)提供給話筒92。話筒92將可聽語音信號(hào)轉(zhuǎn)換為模擬電子信號(hào),它被提供給A/D轉(zhuǎn)換器164。A/D轉(zhuǎn)換器164將該模擬語音信號(hào)轉(zhuǎn)換為一個(gè)序列的數(shù)字信號(hào),它被提供給特點(diǎn)提取模塊166。在一個(gè)實(shí)施例中,特點(diǎn)提取模塊166是一種傳統(tǒng)的陣列處理器,該陣列處理器對(duì)數(shù)字信號(hào)執(zhí)行光譜分析并為一個(gè)頻譜的每個(gè)頻帶計(jì)算一個(gè)數(shù)量值。在一個(gè)說明性實(shí)施例中,這些信號(hào)由A/D轉(zhuǎn)換器164按近似16kHz的取樣率提供給特點(diǎn)提取模塊166。
特點(diǎn)提取模塊166將從A/D轉(zhuǎn)換器164接收的數(shù)字信號(hào)分成包括多個(gè)數(shù)字樣品的各個(gè)幀。每個(gè)幀的持續(xù)時(shí)間是近似10毫秒。然后,特點(diǎn)提取模塊166將這些幀編碼為反映多個(gè)頻帶的光譜特征的一個(gè)特點(diǎn)矢量。在離散和半連續(xù)的“隱藏的馬爾可夫建?!钡那闆r中,特點(diǎn)提取模塊166也使用各種矢量量化技術(shù)和從培訓(xùn)數(shù)據(jù)獲得的一個(gè)電報(bào)密碼本,將特點(diǎn)矢量編碼為一個(gè)或多個(gè)代碼單詞。這樣,特點(diǎn)提取模塊166在其輸出端處為每個(gè)說出的話語提供特點(diǎn)矢量(或代碼單詞)。特點(diǎn)提取模塊166按近似每10毫秒一個(gè)特點(diǎn)矢量或(代碼單詞)的速率來提供特點(diǎn)矢量(或代碼單詞)。
然后,使用正在被分析的特殊幀的特點(diǎn)矢量(或代碼單詞)來根據(jù)“隱藏的馬爾可夫模型”計(jì)算輸出概率分配。以后,在執(zhí)行Viterbi或類似類型的處理技術(shù)中使用這些概率分配。
一從特點(diǎn)提取模塊166接收到代碼單詞,樹徑搜索引擎174就存取被存儲(chǔ)在聲音模型172中的信息。模型172存儲(chǔ)各種聲音模型(例如,“隱藏的馬爾可夫模型”),這些聲音模型代表將要被語音識(shí)別系統(tǒng)160檢測的語音部件。在一個(gè)實(shí)施例中,聲音模型172包括與“隱藏的馬爾可夫模型”中的每個(gè)馬爾可夫狀態(tài)有關(guān)的一個(gè)senone樹徑。在一個(gè)說明性實(shí)施例中,這些“隱藏的馬爾可夫模型”代表音素。樹徑搜索引擎174根據(jù)聲音模型172中的senones來確定從特點(diǎn)提取模塊166接收的特點(diǎn)矢量(或代碼單詞)所代表的最有可能的音素,因此代表從系統(tǒng)的用戶那里所接收的話語。
樹徑搜索引擎174也存取被存儲(chǔ)在模塊170中的辭典。在搜索辭典存儲(chǔ)模塊170的過程中,使用樹徑搜索引擎174根據(jù)其對(duì)聲音模型172的存取而接收的信息,以確定最有可能代表從特點(diǎn)提取模塊166接收的代碼單詞或特點(diǎn)矢量的一個(gè)符號(hào)或表意字。此外,搜索引擎174存取語言模型175。語言模型175也被用于識(shí)別輸入語音所代表的最有可能的符號(hào)或表意字。可以將可能的符號(hào)或表意字組織在候選字清單中。提供作為輸出文本的、來自候選字清單的最有可能的符號(hào)或表意字。培訓(xùn)模塊165和鍵盤70被用來培訓(xùn)語音識(shí)別系統(tǒng)160。
雖然這里所描述的語音識(shí)別系統(tǒng)160使用HMM建模和senone樹徑,但是,應(yīng)該理解,語音識(shí)別系統(tǒng)160可以采用許多形式的硬件和軟件模塊,并且,所要求的是它較佳地通過使用候選字清單來提供作為輸出的文本。
在步驟16中所獲得的筆畫信息通常由筆跡識(shí)別模塊或系統(tǒng)來提供,在181處,圖5展示了它的一個(gè)示范實(shí)施例。筆跡識(shí)別模塊181通過書寫板114從用戶那里接收輸入。
一般而言,筆跡識(shí)別系統(tǒng)眾所周知。圖5展示了可以加以修改以便運(yùn)行于本發(fā)明中的一個(gè)示范實(shí)施例,被受讓給與本發(fā)明相同的受讓人的第5,729,629號(hào)美國專利中揭示了該示范實(shí)施例。簡而言之,筆跡識(shí)別系統(tǒng)185包括被耦合到書寫板114的筆跡識(shí)別模塊181,書寫板114從用戶那里接收用手寫的輸入符號(hào),并顯示筆跡識(shí)別模塊181所確定的參考符號(hào),以便對(duì)應(yīng)于用手寫的符號(hào)。筆跡識(shí)別模塊181被耦合到存儲(chǔ)部件189,該存儲(chǔ)部件臨時(shí)存儲(chǔ)表示從書寫板114接收的輸入筆畫的特點(diǎn)的坐標(biāo)信息。筆跡識(shí)別模塊181包括一個(gè)筆畫分析器191,該筆畫分析器從存儲(chǔ)部件189中檢索該坐標(biāo)信息,并將每個(gè)書面特點(diǎn)的坐標(biāo)信息翻譯成代表被存儲(chǔ)在存儲(chǔ)部件189中的預(yù)定數(shù)量的特點(diǎn)模型之一的一個(gè)特點(diǎn)代碼。出于本發(fā)明的目的,筆跡識(shí)別模塊181不需要識(shí)別整個(gè)表意字或符號(hào),而只須識(shí)別表意字或符號(hào)中所包含的一個(gè)或多個(gè)單獨(dú)的筆畫,筆畫信息被用于將具備該筆畫的表意字或符號(hào)與不具備該筆畫的表意字或符號(hào)分開。
單獨(dú)的筆畫特點(diǎn)評(píng)估由標(biāo)簽比較器193來實(shí)行,該標(biāo)簽比較器將所輸入的筆畫的特點(diǎn)代碼與被存儲(chǔ)在存儲(chǔ)部件189中的參考筆畫的特點(diǎn)代碼進(jìn)行比較,并識(shí)別具有最緊密地與輸入筆畫的特點(diǎn)代碼相匹配的特點(diǎn)代碼的一個(gè)或多個(gè)參考筆畫。按照標(biāo)簽比較器所確定的,最緊密地與用手寫的輸入筆畫相匹配的參考筆畫被用于將所需的表意字選作
圖1中的步驟18處的筆畫信息的一項(xiàng)功能,或者參考圖2在步驟20處減小候選字清單。
如上文所討論的,筆跡識(shí)別系統(tǒng)185可以在計(jì)算機(jī)50上加以執(zhí)行。存儲(chǔ)部件189可以包括以上所討論的任何存儲(chǔ)設(shè)備(例如,RAM 55、硬盤驅(qū)動(dòng)器57、可移動(dòng)磁盤59或用于光盤驅(qū)動(dòng)器60的CD),或者可以包括通過遠(yuǎn)程計(jì)算機(jī)130而進(jìn)行存取的任何存儲(chǔ)設(shè)備。筆畫分析器191、標(biāo)簽比較器193可以是用手布線的電路或模塊,但通常是軟件程序或模塊。書寫板114包括一個(gè)輸入設(shè)備(例如,傳統(tǒng)的數(shù)字轉(zhuǎn)換器書寫板和書寫筆或電子掃描儀)。通常,該輸入設(shè)備提供一系列X-Y坐標(biāo)點(diǎn),以便定義對(duì)應(yīng)于筆在數(shù)字化表格上的連續(xù)移動(dòng)或如電子掃描儀所檢測的符號(hào)的樣式的筆畫段。書寫板114將這些坐標(biāo)點(diǎn)發(fā)送給存儲(chǔ)部件189,它們被存儲(chǔ)在那里,同時(shí)正在識(shí)別筆畫。也應(yīng)該注意,在不脫離本發(fā)明的各個(gè)方面的前提下,通過使用其他技術(shù)來識(shí)別所輸入的筆畫,可以改變筆跡識(shí)別系統(tǒng)185的形式。在微軟公司的IMEPAD中可發(fā)現(xiàn)用于獲取筆畫信息并減少一系列潛在的表意字的另一種合適的系統(tǒng)或模塊。
可以按各種方法來使用筆畫信息,以減小圖2的步驟20中的候選字清單。例如,參考圖6,具有表示一種語言中所用的所有表意字或符號(hào)的數(shù)據(jù)以及(特別是)表示每個(gè)表意字或符號(hào)中的筆畫的數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)中可以保持一個(gè)中央或主要數(shù)據(jù)庫170。171處所指出的表示候選字清單中的表意字或符號(hào)的數(shù)據(jù)被提供給一個(gè)處理模塊173,該處理模塊使用數(shù)據(jù)庫170來識(shí)別對(duì)應(yīng)的表意字或符號(hào)或至少候選字清單171中的表意字或符號(hào)的筆畫。當(dāng)從用戶那里接收到筆畫信息時(shí),處理模塊173存取對(duì)應(yīng)于候選字清單171中的表意字的筆畫信息,以便排除不包括用戶所識(shí)別的筆畫的候選字清單171中的那些表意字或符號(hào)。候選字清單171中的表意字或符號(hào)通常通過一個(gè)合適的表現(xiàn)模塊177被呈遞(例如,圖9中所展示的)給用戶,因?yàn)楣P畫信息被用于減少符號(hào)的數(shù)目,以便一旦用戶識(shí)別出所需的表意字或符號(hào),他(或她)就可以迅速選擇所需的表意字或符號(hào)。用這種方法,要識(shí)別所需的符號(hào),用戶通常將不必輸入所需符號(hào)的所有筆畫。
在一些情況中,用戶所提供的筆畫信息將不對(duì)應(yīng)于候選字清單171中的任何表意字或符號(hào),通過使用以上所描述的技術(shù),這最終將導(dǎo)致不為用戶呈現(xiàn)供選擇的表意字或符號(hào)。本發(fā)明的另一個(gè)方面是不要求用戶手工提取所需的表意字或符號(hào),也不要求通過重新輸入筆畫信息并將其與數(shù)據(jù)庫170中所包含的所有筆畫信息進(jìn)行比較來從頭開始,而是處理模塊173可以保留用戶已經(jīng)提供的所有筆畫信息,并用其來識(shí)別具有迄今為止已被輸入的筆畫的(通常)多個(gè)表意字或符號(hào)中的至少一個(gè)表意字或符號(hào)。實(shí)際上,所識(shí)別的表意字或符號(hào)可以建立一份新的候選字清單171,利用用戶所提供的其他筆畫信息,該候選字清單又被進(jìn)一步減小,直到選擇所需的表意字或符號(hào)為止。
可以通過使用圖7中所示的方法240來實(shí)現(xiàn)這個(gè)方面。方法240的(說明性)操作類似于圖2中所描述的方法,類似的部件有類似的編號(hào)。在這種方法中,在步驟20之后增加步驟242,以檢查候選字清單是否是空的。如果候選字清單中有項(xiàng)目,則該方法如前所述進(jìn)行到步驟21。如果候選字清單是空的,則方法240進(jìn)行到步驟244。在步驟244中,將用戶以前輸入的筆畫信息應(yīng)用于完整的表意字清單。具有類似的筆畫信息的表意字構(gòu)成新的候選字清單171的一部分。然后,該清單在步驟21中被呈遞給用戶,該方法按有關(guān)圖2的描述進(jìn)行。如果需要的話,可以使用該方法的更多迭代(其中,向用戶要求額外的筆畫信息)來進(jìn)一步減小新的候選字清單171。
從用戶的觀點(diǎn)來看,雖然通常是顯而易見的,但從最初從語音信息中被識(shí)別的候選字清單到只基于筆畫信息的候選字清單的轉(zhuǎn)變是平穩(wěn)的,因?yàn)楫?dāng)輸入筆畫信息時(shí),候選字清單171將似乎在數(shù)目上有所減小,然后,當(dāng)已排除初始清單中的所有候選字時(shí),它又突然擴(kuò)大了。該技術(shù)的另一個(gè)好處是可以容易地糾正識(shí)別錯(cuò)誤(其中,候選字清單中的初始表意字或符號(hào)都不正確),因?yàn)槿绻枰脑?,可以根?jù)筆畫信息來存取數(shù)據(jù)庫170中的所有表意字或符號(hào)。
圖8是方框圖,展示了日語IME系統(tǒng)中所用的一種示范處理系統(tǒng)或文本編輯系統(tǒng)220。系統(tǒng)220包括一種輸入語音信息的語音識(shí)別系統(tǒng)(例如,以上所描述的語音識(shí)別系統(tǒng)160),以及一種用于輸入筆畫信息的系統(tǒng)(例如,以上所討論的筆跡識(shí)別系統(tǒng)185)。
語音識(shí)別系統(tǒng)160所提供的語音信息被存儲(chǔ)在輸入存儲(chǔ)器222中,并從輸入存儲(chǔ)器222被傳遞到轉(zhuǎn)換控制器224。如果羅馬字語音符號(hào)由語音識(shí)別系統(tǒng)160來提供,則首先使用轉(zhuǎn)換處理器226來處理這些符號(hào),以便將羅馬字語音符號(hào)轉(zhuǎn)換為假名字符。轉(zhuǎn)換處理器226存取被存儲(chǔ)在存儲(chǔ)器228(將羅馬字語音符號(hào)轉(zhuǎn)換為假名字符)中的詞典數(shù)據(jù)。
然后,在轉(zhuǎn)換處理器226的控制下,假名數(shù)據(jù)被分割成各個(gè)預(yù)定的處理單位(例如,被分割成單詞單位或從句單位)。隨后,所分割的數(shù)據(jù)經(jīng)歷假名-日本漢字轉(zhuǎn)換處理。轉(zhuǎn)換處理器226使用也被存儲(chǔ)在存儲(chǔ)器228中的詞典數(shù)據(jù),用于假名-日本漢字轉(zhuǎn)換。如果多個(gè)日本漢字形式對(duì)應(yīng)于一個(gè)序列的假名符號(hào),則轉(zhuǎn)換處理器226可以從候選字清單中選擇最有可能的一個(gè),作為被存儲(chǔ)在存儲(chǔ)器230中的語言模型(如同圖4中所展示的語音識(shí)別系統(tǒng)的示范實(shí)施例中的單詞三字母組語言模型175,通常由一個(gè)N字母組語言模型來執(zhí)行)所確定的一個(gè)轉(zhuǎn)換結(jié)果。如果所選擇的符號(hào)被用戶確定為不正確,則可以如以上所討論的使用筆跡識(shí)別系統(tǒng)185來輸入筆畫信息,以便最終選擇正確的表意字或符號(hào),其中,IME控制器224用作處理模塊172,輸出存儲(chǔ)器232和輸出設(shè)備77被用于呈遞候選字清單171。
還應(yīng)該注意,除筆跡識(shí)別系統(tǒng)185以外,也可以通過其他設(shè)備來輸入筆畫信息。例如,也可以使用具有表示表意字中的所有筆畫的鍵的鍵盤。這種類型的系統(tǒng)會(huì)是有益的,因?yàn)橥ㄟ^操縱表示一個(gè)特殊筆畫的鍵,可以不再需要根據(jù)用戶的筆跡來識(shí)別該筆畫。這種類型的輸入被用于漢語IME系統(tǒng)中,在漢語IME系統(tǒng)中,“五筆”是筆畫信息,語音信息包括“拼音”符號(hào)。
雖然已參考較佳實(shí)施例描述了本發(fā)明,但是,精通該技術(shù)領(lǐng)域的工作者將會(huì)認(rèn)識(shí)到在不脫離本發(fā)明的精神和范圍的前提下,可以在形式和細(xì)節(jié)方面進(jìn)行更改。
權(quán)利要求
1.一種用于將表意字輸入計(jì)算機(jī)系統(tǒng)的計(jì)算機(jī)執(zhí)行的方法,其特征在于,包括接收將要被輸入的、與所需的表意字有關(guān)的語音信息;建立可能的表意字的候選字清單,作為所接收的語音信息的一項(xiàng)功能;接收與所需的表意字有關(guān)的筆畫信息,其中,該筆畫信息包括所需的表意字中的至少一個(gè)筆畫;以及,使用筆畫信息來從候選字清單中獲得所需的表意字。
2.權(quán)利要求1的計(jì)算機(jī)執(zhí)行的方法,其特征在于,其中,使用筆畫信息包括從候選字清單中除去不具備對(duì)應(yīng)于筆畫信息的一個(gè)筆畫的表意字。
3.權(quán)利要求1或2的計(jì)算機(jī)執(zhí)行的方法,其特征在于,還包括將候選字清單中的表意字呈遞給用戶。
4.權(quán)利要求1或3的計(jì)算機(jī)執(zhí)行的方法,其特征在于,還包括接收與從候選字清單中選擇的一個(gè)表意字有關(guān)的輸入,該候選字清單作為被呈遞的表意字的一項(xiàng)功能。
5.權(quán)利要求2或4的計(jì)算機(jī)執(zhí)行的方法,其特征在于,重復(fù)接收與所需的表意字有關(guān)的筆畫信息、從候選字清單中除去不具備對(duì)應(yīng)于筆畫信息的一個(gè)筆畫的表意字以及將候選字清單中的表意字呈遞給用戶這個(gè)步驟序列,直到接收到與所選擇的表意字有關(guān)的輸入為止。
6.權(quán)利要求2或5的計(jì)算機(jī)執(zhí)行的方法,其特征在于,還包括如果通過重復(fù)執(zhí)行步驟序列而將候選字清單中的候選字?jǐn)?shù)目減小到零,則至少將一個(gè)新的表意字候選字加入候選字清單,其中,不獲得作為語音信息的一項(xiàng)功能的所述至少一個(gè)新的表意字候選字。
7.權(quán)利要求6的計(jì)算機(jī)執(zhí)行的方法,其特征在于,將至少一個(gè)新的表意字候選字加入候選字清單的操作包括將至少一個(gè)新的表意字候選字加入作為筆畫信息的一項(xiàng)功能的候選字清單。
8.權(quán)利要求2或5的計(jì)算機(jī)執(zhí)行的方法,其特征在于,還包括如果通過重復(fù)執(zhí)行步驟序列而將候選字清單中的候選字的數(shù)目減小到零,則將多個(gè)新的表意字候選字加入候選字清單,其中,不獲得作為語音信息的一項(xiàng)功能的每個(gè)新的表意字候選字。
9.權(quán)利要求8的計(jì)算機(jī)執(zhí)行的方法,其特征在于,將多個(gè)表意字候選字加入候選字清單的操作包括將每個(gè)表意字候選字加入作為筆畫信息的一項(xiàng)功能的候選字清單。
10.權(quán)利要求1-9的計(jì)算機(jī)執(zhí)行的方法,其特征在于,其中,接收語音信息包括識(shí)別用戶的可聽語音。
11.權(quán)利要求1-10的計(jì)算機(jī)執(zhí)行的方法,其特征在于,其中,接收筆畫信息包括識(shí)別用戶產(chǎn)生的單獨(dú)的筆畫。
12.權(quán)利要求1-10的計(jì)算機(jī)執(zhí)行的方法,其特征在于,其中,接收筆畫信息包括接收表示在鍵盤上被操縱的鍵的信號(hào),這些鍵表示表意字中所用的筆畫。
13.一種具有指令的計(jì)算機(jī)可讀介質(zhì),其特征在于,當(dāng)被計(jì)算機(jī)執(zhí)行時(shí),這些指令使計(jì)算機(jī)執(zhí)行以下步驟,包括建立作為語音信息的一項(xiàng)功能的、與表意字有關(guān)的候選字的候選字清單;減少作為筆畫信息的一項(xiàng)功能的候選字清單中的候選字的數(shù)目,直到選擇一個(gè)候選字為止;以及,如果候選字清單被減小到零,則將多個(gè)新的候選字加入候選字清單,多個(gè)新的候選字中的每個(gè)候選字被選作筆畫信息的一項(xiàng)功能。
14.權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括指令,當(dāng)被計(jì)算機(jī)執(zhí)行時(shí),這些指令使計(jì)算機(jī)執(zhí)行一個(gè)步驟,包括將候選字清單中的候選字呈遞給用戶。
15.權(quán)利要求13或14的計(jì)算機(jī)可讀介質(zhì),其特征在于,減少候選字清單中的候選字的數(shù)目包括從候選字清單中除去不具備對(duì)應(yīng)于筆畫信息的一個(gè)筆畫的表意字候選字。
16.一種具有指令的計(jì)算機(jī)可讀介質(zhì),其特征在于,當(dāng)被計(jì)算機(jī)執(zhí)行時(shí),這些指令包括一個(gè)語音識(shí)別模塊,用于接收輸入語音并提供將要被輸入的與所需的表意字有關(guān)的語音信息,該語音信息被用于建立多個(gè)候選字的候選字清單,每個(gè)候選字是對(duì)應(yīng)于語音信息的一個(gè)可能的表意字;一個(gè)處理模塊,用于接收表示所需的表意字中所包含的筆畫的筆畫信息,該處理模塊使用筆畫信息來減少候選字清單中的候選字的數(shù)目;以及,一個(gè)表現(xiàn)模塊,用于呈遞對(duì)應(yīng)于候選字清單中的候選字的表意字,并接收對(duì)應(yīng)于從候選字清單中選擇的一個(gè)候選字的一個(gè)輸入。
17.權(quán)利要求16的計(jì)算機(jī)可讀介質(zhì),其特征在于,處理模塊從候選字清單中除去對(duì)應(yīng)于表意字的候選字,這些表意字不具備對(duì)應(yīng)于筆畫信息的一個(gè)筆畫。
18.權(quán)利要求16或17的計(jì)算機(jī)可讀介質(zhì),其特征在于,當(dāng)接收到單獨(dú)的筆畫時(shí),處理模塊重復(fù)地從候選字清單中除去對(duì)應(yīng)于表意字的候選字,這些表意字不具備對(duì)應(yīng)于筆畫信息的單獨(dú)的筆畫。
19.權(quán)利要求16-18的計(jì)算機(jī)可讀介質(zhì),其特征在于,如果候選字清單被減小到零,則處理模塊將多個(gè)新的候選字加入候選字清單,多個(gè)新的候選字中的每個(gè)候選字被選作筆畫信息的一項(xiàng)功能。
20.權(quán)利要求16-18的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括指令,當(dāng)被計(jì)算機(jī)執(zhí)行時(shí),這些指令包括一個(gè)筆跡識(shí)別模塊,用于識(shí)別用戶手寫的筆畫。
21.權(quán)利要求16-18的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括指令,當(dāng)被計(jì)算機(jī)執(zhí)行時(shí),這些指令包括接收表示操縱對(duì)應(yīng)于表意字中的筆畫的鍵的數(shù)據(jù)。
全文摘要
一種將表意字輸入計(jì)算機(jī)系統(tǒng)的方法,包括接收將要被輸入的、與所需的表意字有關(guān)的語音信息,并建立作為所接收的語音信息的一項(xiàng)功能的可能的表意字的候選字清單。接收筆畫信息(包括所需的表意字中的一個(gè)或多個(gè)筆畫),以便從候選字清單中獲得所需的表意字。
文檔編號(hào)G06F3/033GK1457002SQ0313092
公開日2003年11月19日 申請(qǐng)日期2003年5月8日 優(yōu)先權(quán)日2002年5月8日
發(fā)明者朱允誠, 洪小文 申請(qǐng)人:微軟公司