專利名稱::多模式數(shù)據(jù)輸入設備的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種數(shù)據(jù)輸入方法和數(shù)據(jù)輸入設備。針對使用少至12個鍵的鍵盤這樣的小鍵盤輸入中文和其它表意字符的數(shù)據(jù)輸入設備已經(jīng)進行了大量的努力。其例子可以在未決的Balakrishnan的專利申請08/754,453和Guo的專利申請09/220,308中找到,這些專利已經(jīng)轉(zhuǎn)讓給本發(fā)明的受讓人?;谧址钠匆舯硎镜臄?shù)據(jù)輸入設備稍微有些不自然,在該設備中,他們要求用戶在輸入之前在內(nèi)心將字符翻譯成拼音?;诠P劃表示的數(shù)據(jù)輸入設備要自然得多,但是,單個中文或日文字符可包括許多筆劃,并且仍然需要按壓許多鍵用于唯一識別字符或用于字符字典的搜索,以限制到可管理的候選子組。一種可替代的數(shù)據(jù)輸入方法是語音識別。語音輸入是非常自然的,并且具有提供高速數(shù)據(jù)輸入的潛力,但不幸的是其處理方面的問題非常復雜。語音識別的問題包括識別模式要適應于許多不同的聲調(diào)和話音模式,或需要長期的訓練過程以唯一地適應于對目標用戶自己的話音和講話特征的識別處理。此外,語音識別要求高性能的處理器和非常大的存儲器,致使具有好的語音識別能力的設備非常昂貴,并且這種處理不太適用于具有低性能的處理器和有限的存儲器的小手持設備。在小平臺設備上的語音識別性能也將是很差的。語音識別在聽寫之后,一般要求臺式機的計算能力和相當數(shù)量的編輯。在大多數(shù)現(xiàn)有的小手持設備上具有的計算和編輯資源都有限,在其上配置流行的連續(xù)語音識別技術(shù)還是不現(xiàn)實的。然而,要求較小計算能力的單詞聽寫技術(shù)在小的手持設備上很快將變得可行。其在手持設備上將使文本輸入更容易和對用戶更友好,像我們已經(jīng)看見的在臺式平臺上的蜂窩電話或雙向?qū)ず羝髦惖氖殖衷O備,其對使用像中文和日文之類的表意語言來說是特別有用的。在手持設備上,文本輸入對某些以內(nèi)容為中心的功能的有效使用是非常重要的,例如在蜂窩電話上的SMS(短消息服務)和電話簿搜索以及在PDA上的記筆記。當操作像SMS和電話薄搜索之類的功能時,人名和像地名之類的專有名詞的輸入,在處理過程中將變得非常頻繁。不幸的是,由于所包含的詞匯的限制,當前的單詞聽寫系統(tǒng)一般不能處理大多數(shù)人名和專有名詞。結(jié)果,人名和專有名詞的輸入經(jīng)常要求單詞聽寫系統(tǒng)在單個字符的層次上執(zhí)行識別任務。首先,將一個字分成字符,并將它們中的每一個一個接一個地連續(xù)聽入系統(tǒng)以進行識別。在臺式平臺上采用單詞中文聽寫技術(shù)的經(jīng)驗已經(jīng)顯示,在字符層次的識別準確度比在單詞層次上要低得多,這主要是由于在中國語言中的嚴重的同音字現(xiàn)象。換句話說,雖然聽寫系統(tǒng)在處理單詞時一般能夠正確地發(fā)送相當滿意的結(jié)果,但當處理單個字符時其通常輸出非常差的結(jié)果?,F(xiàn)在,我們面臨這樣一個問題,一方面,我們需要采用語音識別技術(shù)的優(yōu)點,另一方面,單個字符的處理變成一大障礙。通過采用兩種不同的方案可以解決這個問題,首先是僅使用語音,第二是使用語音并借助于筆的幫助。在僅使用語音的方案中,讓我們首先回憶一下,當我們將我們的名字或目的城市通過電話告訴航空代理時,我們會經(jīng)常這樣說“John,J是日本,O是俄亥俄州,H是夏威夷,N是紐約”,以試圖減少可能的混淆。當以中文聽寫單個字符時,我們可以同樣做。例如,如果我們要聽寫意味著某些涉及醫(yī)藥或醫(yī)療處理的字符“yil”時,在我們發(fā)出話音“yil”之后,識別系統(tǒng)將通常產(chǎn)生一候選列表,一般包括數(shù)十個,具有相同的發(fā)音“yil”的侯選字。如果在發(fā)音中不考慮音調(diào),則候選列表將會更長。然而,如果我們借用上述的減少含糊的思想說“yilshenldeyil”,意思是“yil表示醫(yī)生(yilshenl)”,我們可以希望該聽寫系統(tǒng)能夠以非常高的準確度對“yil”產(chǎn)生正確的字符。這個方案具有幾個內(nèi)在的優(yōu)點,1)當人們用中文進行對話,試圖使他們自己表達得更為清楚時,這是非常常見的方式,即對于這種用法不需要學習曲線;2)其使用非常簡單和固定的語法結(jié)構(gòu),大多數(shù)聽寫系統(tǒng)能很容易地對嵌入的語法信息進行有效地使用;3)重復所需字符的相同發(fā)音兩次,這幫助該聽寫系統(tǒng)可靠地捕獲所講字符的正確聲學表示。在第二個方案中,如果想要一個特定的字符,首先形成包含該字符的共同單詞,然后聽寫入該系統(tǒng)。當產(chǎn)生和顯示候選單詞的列表時,從候選單詞列表中用筆挑選出想要的字符。這種方案的優(yōu)點是,1)用筆去點中和選擇是非常直觀和自然的,并且比采用話音也更容易和快捷;2)和用于點中和選擇單詞一樣,可以用幾乎相同的方法用筆去點中和選擇單個字符,使經(jīng)過兩種不同的情形(單詞和單個字符)時操作一致。因此,有必要改進數(shù)據(jù)輸入的方法。附圖的詳細說明參考圖1,顯示的數(shù)據(jù)輸入設備具有麥克風10,其通過模數(shù)轉(zhuǎn)換器11連接到微處理器12。另外還示出一數(shù)字化器15,其具有X和Y輸出16和17,通過接口單元18連接到微處理器12。存儲器20和顯示器22也連接到微處理器12。存儲器20優(yōu)選地包括字符字典,但可以含有如下所述的其它數(shù)據(jù)。微處理器12具有接收來自模數(shù)轉(zhuǎn)換器11的輸入的語音預處理器功能單元24、和接收來自接口單元18的輸入的筆劃預處理器功能單元26。分別將音節(jié)識別器25和筆劃識別器27連接到單元24和26。搜索引擎28接收來自音節(jié)識別器25和筆劃識別器27的輸入,并與存儲器20中的字符字典和顯示器22連接。在操作中,用戶通過對麥克風10講話和對所需字的音節(jié)元素的發(fā)音,來進行漢字之類的數(shù)據(jù)輸入元素的輸入。中文字符都是單音節(jié)的。漢語有一套已建立的語音元素以表示其音節(jié)(通常稱為“bo-po-mo-fo”)。用戶發(fā)出所需要的字的話音。預處理器功能24進行歸一化和濾波功能,并且音節(jié)識別器25通過將其解碼為bo-po-mo-fo的表示對所講音節(jié)提供識別結(jié)果。識別器25的輸出是一個分值或一組分值,表示在輸入的語音和由bo-po-mo-fo表示的不同的候選音節(jié)之間的相似的緊密度。在最小的時候,識別器25的輸出是具有最高分的音節(jié)的標識符,但是識別器25的輸出也可以是一組音節(jié),其每個都具有超過預定閾值的分數(shù)。搜索引擎28從識別器25接收音節(jié)的標識符或多個音節(jié)的多個標識符,并對具有標識的音節(jié)或多個音節(jié)的所有單詞搜索儲存在存儲器20中的字典。一般來說,在這個階段識別的字的數(shù)量是相當大的(一般超過幾十個),而且經(jīng)常因為太大而不能將該組在一選擇列表中呈現(xiàn)給用戶。為了更具體地識別所需字,使用數(shù)字化器15。用戶使用鐵筆14(或使用手指、或通過其它下面描述的裝置)輸入所需字的筆劃。由用戶輸入的筆劃可以是所需字的每個字符的第一筆劃,或其可以是所需字的第一字符。鐵筆14在數(shù)字轉(zhuǎn)換器15上的劃過運動產(chǎn)生了下筆輸入、X和Y坐標序列以及提筆事件。將X和Y坐標發(fā)送到執(zhí)行諸如平滑、人工產(chǎn)物(artifacts)移除和分段功能的筆劃預處理器26。這些步驟在美國專利5,740,273中已有說明,將其結(jié)合于此作為參考。筆劃識別器27識別想要的筆劃并將標識符發(fā)送到搜索引擎28,標識已識別的筆劃?,F(xiàn)在搜索引擎28能進一步限定其對存儲在存儲器20中的字典的搜索。如果,作為輸入到搜索引擎的音節(jié)和筆劃元素的組合的結(jié)果,搜索引擎可以發(fā)送唯一的結(jié)果,則將這個唯一的結(jié)果顯示在顯示器22上,而且用戶具有一機會以確認已識別的字或取消它并再輸入它,或者取消其筆劃輸入和不用取消音節(jié)輸入而再進行筆劃輸入。如果搜索引擎28沒有識別出跟隨音節(jié)輸入和字的所有字符的第一筆劃輸入的唯一結(jié)果,有許多可以替換的方法可以進行操作。如果作為音節(jié)輸入和筆劃輸入的結(jié)果,通過搜索引擎而識別了少量的字,可以將這些結(jié)果顯示在選擇列表上,并且可提供給用戶一個機會以敲一鍵、或提供筆輸入或話音輸入,選擇顯示在這個列表中的字的一個。用戶還可選擇輸入所需字的字符的下一個筆劃,允許筆劃識別器27將另一個筆劃發(fā)送到搜索引擎28,并且允許搜索引擎28進一步限定其已識別字的搜索。根據(jù)需要可要求任意數(shù)量的筆劃以限定對唯一結(jié)果或用于選擇的可管理的候選列表的搜索。參考圖2,顯示的是通過微處理器12進行的處理的基本單元。在步驟100字輸入開始,接收音節(jié)輸入(步驟101),緊接在這個步驟之后,在步驟102接收筆劃輸入。在步驟103,如果從輸入的音節(jié)和輸入的筆劃的組合中有唯一的結(jié)果,則在步驟104顯示這個結(jié)果并且在步驟105結(jié)束該處理。在步驟102之后,如果對應輸入的音節(jié)和輸入的筆劃的組合有一組結(jié)果,則該處理返回步驟102用于其它筆劃的輸入,并且步驟102可以重復需要的次數(shù)以提供唯一的結(jié)果。本領(lǐng)域的技術(shù)人員將可認識到圖2的處理可以有許多方法加以改進,而不是嚴格地限于本發(fā)明的構(gòu)成。例如,在輸入筆劃后,如果沒有發(fā)送結(jié)果,這表示該筆劃不是正確的類型。換句話說,在字典里沒有字對應于該輸入元素的組合。通過搜索引擎28進行的搜索自然會“不清楚”。例如,音節(jié)識別器25可以發(fā)送多于一個的語音結(jié)果以及對其發(fā)送的每個結(jié)果的置信等級,同樣地,筆劃識別器27可以發(fā)送多于一個的筆劃結(jié)果以及對其發(fā)送的每個筆劃的置信等級,這種搜索引擎28使用音節(jié)元素和筆劃元素的不同組合,累計它們各自的置信等級以提供跨越一置信等級譜的結(jié)果的范圍,并且發(fā)送所有那些超過某置信等級的結(jié)果,或發(fā)送結(jié)果的最上端的組(例如,最上端的5個),而不用考慮絕對等級。除中文、日文和表意語言外,所描述的設備還可以應用于其它語言。例如,可將其應用到英語,在英語的情況下,存儲在存儲器20中的數(shù)據(jù)元素不是字符,而是多音節(jié)字(或?qū)嶋H上可以包括單音節(jié)字)。在這個實施例中,用戶發(fā)出字的第一個音節(jié)話音,搜索引擎搜索這些字的字典,以搜索所有以該已識別音節(jié)開始的字或搜索所有以一組已標識的符號中的任何一個開始的字。為進一步限定搜索,用戶使用鐵筆14(或使用下面描述的小鍵盤)輸入單個字符。所輸入字符優(yōu)選是第二個音節(jié)的第一個字符。作為例子,下面是一個具有13個字的表達式(引述自WinstonChurchill先生的原話),其中有7個是多音節(jié)字“amonstroustyranny,neversurpassedinthedarklamentablecatalogueofhumancrime”??梢暂斎攵嘁艄?jié)字第一個音節(jié)的發(fā)音(mons,tyr,nev,sur,等),并且在音節(jié)之后馬上輸入字符(t,a,e,p,等),或者輸入該組多義字符的數(shù)字表示(2=a,b,c;3=d,e,f;4=g,h,i;5=j,k,l;6=m,n,o;7=p,q,r,s;8=s,t,u,v;9=w,x,y,z)。作為另一選擇,可輸入下一個音節(jié)的緊接著的字符,可以從多音節(jié)字的剩下的輸入中選擇不同的字符,例如下一個輔音(在這個例子中是t,n,r,p等)或最后一個輔音(s,y,r,d,等)。對每個字符來說與字符輸入相比,上述例子減少了按鍵,而與每個音節(jié)的語音處理相比,則減省了處理。這種減省在漢語上的效果更為顯著。不使用鐵筆和數(shù)字化器作為筆劃輸入設備,也可以使用機械輸入設備。例如,可以使用9個鍵(多于或少于這些鍵)的簡單小鍵盤。假如輸入的語言是中文,該鍵盤的每個鍵表示一筆劃或一類筆劃,正如未決的專利申請09/220,308所說明的那樣,該專利申請是由吳等人于1998年12月23提交的,并已轉(zhuǎn)讓給本發(fā)明的受讓人,將其結(jié)合于本文中作為參考。如果輸入的語言是基于羅馬字母表,則可以使用小鍵盤,正如未決的專利申請08/754,453所公開的那樣,在該小鍵盤上每個鍵表示多個字母表的字母。一種可替換的輸入設備是像操縱桿或鼠標按鍵之類的設備,正如上述未決的吳等人的專利申請所描述的一樣,其是手指操作的并允許用戶輸入指針點(compass-point)筆劃(或復雜的具有數(shù)個指針點段的筆劃)。另一種可能的輸入設備是如未決的專利申請09/032,123(1998年2月27日由Panagrossi提交的)所描述的一樣,其具有多個按鍵并檢測手指經(jīng)過按鍵的運動。權(quán)利要求1.一種數(shù)據(jù)輸入方法,其包括接收話音輸入步驟,接收表示數(shù)據(jù)元素的第一語音分量的話音輸入;接收機械輸入步驟,接收表示數(shù)據(jù)元素的至少一個書寫分量的機械輸入;識別步驟,從話音輸入和至少一個書寫分量中識別所要求的數(shù)據(jù)元素。2.如權(quán)利要求1所述的方法,其中接收話音輸入的步驟包括接收和識別bo-po-mo-fo語音的元素,該元素是中文字符的語音表示的開始元素。3.如權(quán)利要求2所述的方法,其中接收機械輸入的步驟包括從一組鍵中接收鍵的輸入。4.如權(quán)利要求3所述的方法,其中所述接收鍵的輸入的步驟包括從具有多個鍵的小鍵盤中接收鍵的輸入,其中每個鍵表示一類手寫筆劃。5.如權(quán)利要求1所述的方法,其中所述接收機械輸入的步驟包括接收字符的第一筆劃。6.如權(quán)利要求4所述的方法,其中所述接收機械輸入的步驟包括接收數(shù)據(jù)元素的第二分量的第一筆劃,這里第二分量跟隨著由語音分量識別第一分量。7.如權(quán)利要求1所述的方法,其中所述接收機械輸入的步驟包括接收和識別來自二維筆劃輸入設備(15)的筆劃輸入。8.如權(quán)利要求1所述的方法,其中所述識別步驟包括,根據(jù)第一語音分量和至少一個書寫分量搜索一組預存儲的數(shù)據(jù)元素。9.如權(quán)利要求8所述的方法,其進一步包括,當所述識別步驟沒有給出唯一的結(jié)果時,接收表示至少一個其它書寫分量的至少一個另外的機械輸入,以唯一地識別所要求的數(shù)據(jù)元素。10.一種數(shù)據(jù)輸入設備,其包括音頻輸入(10),用于接收數(shù)據(jù)元素的語音分量;機械輸入(14,15),用于接收數(shù)據(jù)元素的至少一個書寫分量;存儲單元(20),其中已存儲了多個數(shù)據(jù)元素的代表;以及搜索引擎(28),用于對至少一個由語音分量和書寫分量表示的數(shù)據(jù)元素搜索儲存元素。全文摘要通過音頻輸入(10)接收表示數(shù)據(jù)元素的第一語音分量的話音輸入。通過如數(shù)字轉(zhuǎn)換器、鍵盤、或其它裝置之類的機械輸入設備(15)接收如筆劃或字符之類的表示數(shù)據(jù)元素的至少一個書寫分量的機械輸入。從話音輸入和至少一個書寫分量中識別所要求的數(shù)據(jù)元素。文檔編號G06F3/00GK1359514SQ00809910公開日2002年7月17日申請日期2000年6月27日優(yōu)先權(quán)日1999年7月6日發(fā)明者郭進,查爾斯·-閩·吳申請人:摩托羅拉公司