国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      采用時序歧義編碼的解碼方法以及采用該方法的裝置的制作方法

      文檔序號:6477015閱讀:190來源:國知局

      專利名稱::采用時序歧義編碼的解碼方法以及采用該方法的裝置的制作方法
      技術領域
      :本發(fā)明涉及一種解碼方法及一種解碼裝置,尤其涉及一種使用含糊編碼的解碼方法以及一各使用該解碼方法的裝置。
      背景技術
      :當今,各種智能設備功能強大且可制作得很小以方便攜帶,例如行動電話、MP3播放機等等。由于尺寸受到限制,這些裝置的人機介面設計面臨巨大挑戰(zhàn)。以文字輸入為例,當前的解決手段包括傳統(tǒng)的多次擊鍵輸入法、預測式輸入法以及微型標準鍵盤。傳統(tǒng)的多次擊鍵輸入法(例如ABC輸入法)簡單,但是輸入效率低且很難使用。微型標準鍵盤的設計假定用戶都很熟悉傳統(tǒng)的標準鍵盤而且很容易適應微型鍵盤。然而第一個假定只適用于電腦用戶,許多未成年人在習慣標準鍵盤之前就已經(jīng)先習慣了手機輸入法。盡管這種設計相較于分散排布或按字母順序排布的方式來說可以幫助電腦用戶更容易找到字母,然而過小的尺寸使得微型鍵盤的易用性大為降低。另一方面,預測式輸入法可很大程度上減少輸入每個字母所需按鍵的次數(shù)。然而預測式輸入法同樣引入一些新的問題a)在用戶輸入時預測文字隨機變化;b)用戶在輸入時很難檢測其輸入的正確性而且誤輸入的回復處置讓用戶非常惱火;c)如果該輸入法預設的字典內(nèi)沒有所要輸入的詞則用戶需要切換至其他輸入法(例如多次擊鍵輸入法)重新輸入;以及d)總體來說,預測式輸入法就人的感知或其自身表現(xiàn)皆為不可預測且不可靠的。在一組映射(mapping)中,編碼序列與解碼序列被對應起來,且映射中的每個編碼序列為一個字串。如果一個字串對應于多個映射則稱為具有空間歧義。圖1A與圖1B示出空間歧義編碼的例子,其中圖1A所示為先前技術所使用的通用鍵盤,圖1B所示為該鍵盤的歧義編碼。鍵區(qū)100內(nèi)包括多個數(shù)字按鍵101及特殊功能鍵104,105。傳統(tǒng)的歧義編碼方式將數(shù)個解碼字串組成一個解碼字串集合并將該解碼字串集合指定給一個編碼字串集合。在對應至編碼字元集的域后,單純基于該域的知識即可將群組化的字元區(qū)分開來。此過程可看做是一種損失編碼過程。為回復丟失的資訊,可生成所有可能的組合而讓用戶去從中選擇一個正確的組合。多次擊鍵輸入法通過讓用戶在每次輸入時選擇所想要輸入的字元以在字元層級上解決歧義編碼的問題。而傳統(tǒng)的預測式輸入法則在單詞的層級上解決歧義編碼的問題。以圖1B中所示輸入"HOME"為例,輸入序列"4663"的一個編碼字元110代表一個集合103中的一個解碼字元112。交聯(lián)網(wǎng)絡lll顯示所有相鄰編碼字元的組合。由于輸入序列的組合有M'L種,其中M為字元集合的大小,L為輸入字串的長度,因此不可能一一列舉所有的組合(本例中組合僅為3~4=81種,然而一但L=IO,則組合數(shù)為3~10=59049種)?!阏f來,語言學知識能用來大幅度減少輸出的數(shù)量。最常用的作法就是提供一個字典用于與輸出進行匹配并輸出匹配結(jié)果供用戶選擇。然而,即使導入了語言學,輸入序列"4663"仍然可以多種方式去解釋,例如"HOME"、"GOOD"、"GONE"、"HOOD"、"HOOF"、"HONE"、"GOOF"、"I匪E"、"INNE"、"HOND"、"INOF"與"GOOE"。換句話說,傳統(tǒng)的輸入方法與裝置中,有太多可能結(jié)果使得用戶不能高效的輸入單詞。有鑒于此,有必要提供一種更好的編碼規(guī)則,以及一種可輕易實現(xiàn)并被用戶接受的解碼方法。
      發(fā)明內(nèi)容本發(fā)明的目的就是在提供一種可有效減少可選項的采用時序歧義的解碼方法。本發(fā)明的再一目的是提供一種可有效減少可選項的采用時序歧義的解碼裝置。為實現(xiàn)上述發(fā)明目的,本發(fā)明提供一種解碼方法,其用于將編碼序列映射至解碼序列,每個編碼序列包括至少一個選自編碼字元集的字元,每個解碼序列包括至少一個選自被非語標語言使用的解碼字元集的解碼字元,該解碼方法包括接收輸入的編碼字元,以及將輸入的編碼字元組合至一個輸入序列的末尾,其中該輸入序列為時序歧義的,從而該輸入序列可被解析成至少兩個不同的編碼序列組合,且每個編碼序列組合包括該編碼序列中的至少一個。本發(fā)明還提供一種解碼裝置,其包括一鍵盤,用于輸入一個包括至少一個選自一編碼字元集的字元的輸入序列;一輸出裝置,用于選擇性輸出一輸出序列,該輸出序列包括至少一選自一解碼字元集的解碼字元,其中該輸出序列是根據(jù)該輸入序列而生成;以及一解碼裝置,包括將編碼序列映射至解碼序列的映射,每個編碼序列包括至少一個選自該編碼字元集的編碼字元,每個解碼序列包括至少一個選自該解碼字元集的解碼字元,該映射是用于根據(jù)該輸入序列的至少一部分而將該輸入序列映射至該輸出序列,其中,當一個字元藉由該鍵盤輸入時,該解碼裝置將該輸入的編碼字元組合至該輸入序列的尾端,該輸入序列為時序歧義的,從而該輸入序列可被解析為至少兩個不同的編碼序列組合。本發(fā)明還提供一種解碼方法,其包括維持一將多個編碼序列映射至多個解碼序列的映射,每個編碼序列包括至少一個選自一編碼字元集的字元,每個解碼序列包括至少一個選自一被非語標語言使用的解碼字元集的字元;接收一或多個編碼字元到一輸入序列中;如果該輸入序列長度大于一則生成多個編碼序列組合;選擇該編碼序列組合中的一個;根據(jù)該映射將該選擇的編碼序列組合映射至一輸出序列;及輸出該輸出序列。本發(fā)明提供的解碼方法以及解碼裝置因采用時序歧義編碼,因此輸出的可選項目的數(shù)量將被大幅減少。為讓本發(fā)明的上述和其他目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附圖式,作詳細說明如下。圖1A為先前技術中通用的鍵盤示意圖。圖IB為空間歧義映射關系示意圖。圖2為本發(fā)明實施例提供的裝置的電路方框圖。圖3A為本發(fā)明實施例提供的部分編碼規(guī)則示意圖。圖3B演示本發(fā)明實施例中輸入"HOME"時的時序歧義。圖4為本發(fā)明實施例提供的編碼字元序列與解碼字元序列映射規(guī)則示意圖。圖5A為本發(fā)明實施例提供的語言學時序歧義消解流程圖。圖5B為本發(fā)明實施例提供的采用語言學二元統(tǒng)計模型計算語言學分值的流程圖。圖6為本發(fā)明實施例提供的具有中間形態(tài)的基于形狀的映射關系圖。圖7為本發(fā)明實施例提供的時序歧義消解的流程圖。圖8為本發(fā)明實施例提供的文字輸入系統(tǒng)結(jié)構(gòu)框圖。圖9A-9I為本發(fā)明實施例中輸入并采用字典檢索消除"WORK"的歧義示意圖。20:解碼裝置200:鍵盤230:解碼器232:映射250:輸出裝置320:序歹lJ"38"302:"E"303:"B"312:"3"313:"8"308:輸入序列309:片段序列317、318:字元316、320:片段600:鍵盤字母表601:英文字母表602:中間形狀604:破壞性操作402:解碼字元403、404、405:按鍵800:用戶801:顯示裝置802:鍵盤803:序列分割器804:時序歧義片段化模塊805:語言頻率模塊806:樂觀歧義消解模塊807:語言學時序歧義消解模塊808:字典模塊809:輸入控制模塊820:文字輸入821:時序片段化序列822:控制輸入823:預測查詢824:預測結(jié)果具體實施例方式圖2所示為本發(fā)明一實施例提供的解碼裝置電路方框圖。本實施例中,解碼裝置20包括一鍵盤200,一解碼器230及一輸出裝置250。鍵盤200用于輸入一個輸入序列,該輸入序列包括至少一個選自編碼字元集的編碼字元。解碼裝置230藉由第一通道耦合至鍵盤200使得由鍵盤200輸入的輸入序列可被解碼器230接收。另外,解碼器230包括一映射232使得其接收的輸入序列可依據(jù)該映射232轉(zhuǎn)換為輸出序列。輸出裝置250藉由第二通道耦合至解碼器230從而使得由映射232生成的輸出序列可顯示于其上。鍵盤200可為一個具有多個按鍵的輸入裝置,每個按鍵表示選自一個編碼字元集的一個編碼字元。為了減少按鍵的數(shù)量,需要于K〈N時將數(shù)量為K的鍵盤字母表(例如編碼字元集)與數(shù)量為N的字母表(例如解碼字元表)對應起來。為清楚說明,但應理解其并不限制本發(fā)明的范圍,圖2中所示的鍵盤200為當前行動電話中常用的普通鍵盤。鍵盤200包括分別表示數(shù)字0-9的按鍵202-220,以及分別表示特殊符號的按鍵222與224。本實施例中,編碼字元集包括10個數(shù)字字元以及兩個特殊字元。解碼字元集包括26個英文字母。假定映射232可將由選自編碼字元集的字元組成的多個編碼序列中的每個對應于相應的由選自解碼字元集的至少一個字元組成的解碼序列,其中每個編碼序列為一個字串,那么在每個字串對應于多個解碼序列時則稱此種情形為空間歧義(SpatiallyAmbiguous),而在每個用于產(chǎn)生字串的輸入序列具有多個解釋時則稱此種情形為時序歧義(TemporallyAmbiguous)??臻g歧義已經(jīng)于
      背景技術
      部分進行討論,而時序歧義則詳細說明如下。對于固定長度編碼,一個編碼序列中每個固定長度為M的編碼字元代表一個字串并對應于一個解碼字元的解碼序列。對于可變長度編碼,經(jīng)常使用無前綴編碼從而使解碼器能清楚識別每個字串。如果使用非無前綴編碼,則需要使用一個預定的超時或超時消除記號(劃界按鍵)以清楚地辯識出每個想要的字串。超時消除記號方法將導入額外的按鍵動作,因此并不實用。盡管超時法可避免額外的按鍵動作,惟,其因需要用戶等待而降低效率。當一個輸入序列對應于多個時序解釋時則存在時序歧義。為向傳統(tǒng)可變長度編碼規(guī)則中導入時序歧義,可忽略超時與超時消除訊號的要求。如圖3A、圖3B所示,其中圖3A所示為本發(fā)明實施例提供的部分編碼規(guī)則,圖3B演示輸入"H0ME"時產(chǎn)生的時序歧義。例如,序列"38"320可被解釋為代表'M'301的相連的字串"3_8"311或者兩個分別表示'E'302與'B,303的字串"3"312以及"8"313。對于一個輸入序列,可以根據(jù)時序歧義規(guī)則將其打斷成幾個片段以使兩個片段中相鄰的字元共同形成的字串(亦稱為編碼序列)在解碼規(guī)則中沒有對應的解碼序列。如果一個片段的長度大于一則其具有多個時序解釋。以圖3B中的為例,輸入序列308以虛線框為界被打斷成具有多個片段的時序片段化序列309,每個片段中具有多個字元。而圖3A所示的編碼規(guī)則中沒有對應于兩個相鄰字元317、318組成的字串"03"的解碼序列。因此兩個片段316、320能從時序上被區(qū)分開來。時序打斷的具體過程可以逐個檢查輸入序列中的每個字元看其與下一個字元的組合在編碼規(guī)則中是否具有對應的解碼序列,如果有,則當前字元被累積起來,如果沒有則把當前字元與先前累積的字元構(gòu)成一個時序歧義片段。歧義編碼的長度可定義為該時序歧義片段的長度。如果一個時序歧義片段長度為l則其不具有時序歧義。另外,部分輸入序列可以僅根據(jù)編碼規(guī)則而消除歧義。以圖4所示的編碼規(guī)則為例,由于字串"09"并沒有對應的解碼序列,因此輸入序列"09"可識別為"0:9"。亦即根據(jù)該編碼規(guī)則"09"直接對應于"OR"而無須語言學的手段去解決時序歧義,以下將詳細進行說明。較佳的實施例中,該編碼規(guī)則為可變長度編碼從而解碼字元可以為一個數(shù)字或兩個數(shù)字進行編碼。兩位數(shù)字具有10*10種組合,在大多數(shù)情形下已經(jīng)足夠?qū)λ薪獯a字元進行編碼。因此如果真需使用到三位數(shù)字,可以保持最少量使用并加以特殊處理。—個時序歧義片段的合法組合即代表一個可唯一解碼的無歧義的輸入序列。在編碼規(guī)則中為了枚舉一個時序歧義片段的所有合法組合,可以枚舉所有的組合使得該時序歧義片段的歧義長度為N,且每個字元可與前一個或下一個字元相連但不為同時相連。兩個相連的字元構(gòu)成一個兩位數(shù)字編碼,而一個不與其他字元相連的字元構(gòu)成一個一位編碼。如果一個字元同時與前一個字元及后一個字元相連則其屬于三位編碼,則其為不合法組合且需要特殊處理。例如,假定"l"表示字元,"-"表示不相連,而"+"表示相連。則一個序列1111可列舉出5種組合1-1-1-1、1-1-1+1、1-1+1-1、1+1-1-1、及1+1-1+1。對于長度為K的連接其所能列舉的數(shù)目如下O:C(N,O)l:C(N-l,l)2:C(N-2,2)...K:C(N-K,K)N/2如果N二IO,則組合數(shù)目為C(10,0)+C(9,l)+C(8,2)+C(7,3)+C(6,4)+C(5,5)=1+9+28+35+15+1=89。相較于傳統(tǒng)的空間歧義,對于長度為10的字串其組合數(shù)為3~10=59049,因此將其全部枚舉明顯不實際。對于一個給定的序列,如果其時序歧義長度為N(根據(jù)具有57,000個單詞的字典計算N不太可能大于8,因此可設定允許最大時序歧義長度為8,而對很少的例外采用查字典的方式解決),可以在2'(8-1)種可能的組合中忽略具有兩個連接的字元的非法組合而枚舉出所有可能合法的組合。很明顯相較于先前技術,從組合數(shù)量考量本發(fā)明所提出的時序歧義方法為更好的解決方案。在一個實施例中,時序歧義可以采用類似于傳統(tǒng)方法中解決空間歧義時查字典的方法解決。時序歧義比傳統(tǒng)的空間歧義更容易區(qū)分。本實施例中采用的字典包括約39000個單詞,而僅有50個編碼序列對應于兩個單詞,而且沒有對應于兩個以上單詞的情況。換句話說,該字典中99.87%的單詞可以被唯一識別。傳統(tǒng)的空間歧義編碼方法可提供有限的幾個選擇,而本發(fā)明只有一個可選項因此可大幅度降低考慮的腦力過程。例如,在傳統(tǒng)的空間歧義編碼方法中,想要輸入"HOME"需要檢查12個單詞,然而采用本發(fā)明的編碼方法則只有一個單詞"HOME"符合該編碼。即使在最壞的情形下,也只有一個可選單詞。從此角度考量,用戶可快速選擇所想輸入的單詞。對于少數(shù)幾個對應于兩個可選單詞的編碼而需要用戶去選擇其中的一個以無歧義的時候,其中一個解決方法是使用一個特殊功能鍵,例如'*'在各個可選單詞中進行滾動選擇以讓用戶選擇其中的一個。由于可選單詞數(shù)量很少,另一種可行的方法是同時顯示可選單詞。而單詞出現(xiàn)的順序則基于詞頻統(tǒng)計或語言學權值計算。理論上可以采用語言學的方法去解決空間歧義問題,然而由于可能組合以冪級數(shù)增長因此無法實現(xiàn)。與之相反,語言學可順利應用于時序歧義以減少檢索字典的動作。如圖5A與圖5B所示,其中圖5A為本發(fā)明一實例提供的采用語言學去解決時序歧義的流程圖,圖5B為本發(fā)明一實施例提供的采用二元統(tǒng)計模型(2-gramstatistics)計算語言學權值的流程圖。而具體的過程將詳細說明如下。參閱圖5A,采用語言學解決時序歧義編碼的方法包括取得一個時序歧義片段,并將該片段的前一個片段的最后一個字元作為"pre",將該片段后一個片段的第一個字元作為"post"(步驟511)。枚舉所有對應于該時序歧義片段的所有可能組合,而每個列舉項為一個無歧義的輸入序列(步驟513)。然后初始化一個臨時最大語言學分值SMAX及相應的無歧義的序列EnumMAX(步驟515)。每個列舉項在步驟517中開始處理。對于每個列舉項計算其語言學分值以得到一結(jié)果S0(步驟519)。如果S0>SMAX則值SMAX與E皿mMAX被更新(步驟521與523)。處理完所有的列舉項后,最大語言學分值SMAX為實際的最大值并將E皿mMAX返回(步驟525)。圖5B所示為采用語言學頻率模塊的語言學二元統(tǒng)計模型(2-gramstatistics)計算語言學分值的方法,其可用于計算接收的無歧義的輸入序列SD的語言學分值。在步驟540中進行初始化。初始化完成后對輸入序列進行解碼得到包括解碼字元的解碼字元序列(步驟542)。依次處理所有的解碼字元(步驟544與546)。對于每個解碼字元,將當前字元與下一個字元組合成一個二元字串(步驟548)。查找該二元字串的分值S1并累積(accumulate)在語言學分值SO中(步驟550與552),其中所謂的累積可以為相加、相乘或者其他標準。例如,對于解碼字元序列"H0ME",需要計算二元字串"H0"、"0M"及"ME"的分值。在該解碼字元序列中的第個解碼字元處理完成后返回累積的語言學分值SO(步驟554)。上述采用語言學解決時序歧義的方法返回的由編碼字元組成的無歧義的輸入序列E皿mMAX可以被解碼成唯一的解碼序列。要檢測一個單詞的預測(prediction)時,可以首先將其編碼成編碼字元序列然后進行語言時序歧義消除的相關操作。如果一個單詞的預測為其單詞本身,則稱其為命中而無須再查字典。命中率被定義為一個單詞集合中能直接命中的單詞的比率。為減少檢索字典的開銷,那些可以采用語言學解決的單詞可以從存儲的字典中去除,如此可大幅減少字典的大小。在一個實施例里,僅保存約3100個單詞的字典即可達到對一個具有57,000個單詞的字典中的36,000個低頻單詞的命中率為81.3%,且對其余的單詞命中率為100%的效果。進一步地,可通過目標語言知識去提高命中率。語言學分值可以用目標語言的知識去作補償。例如,英語中,三個連續(xù)的輔音(除了以"S"結(jié)束的復數(shù)形式)很少見。在此種情形下可減少其語言學分值以避免匹配錯誤的單詞。而具體減少多少分值則可以用心調(diào)整以提高總體的命中率。如果具有三個連續(xù)輔音的單詞被這種調(diào)整機制錯誤地忽略掉,那么還可以通過在字典中檢索的方式將其找尋回來。樂觀時序歧義消解方法是采用啟發(fā)式機制(heuristics)而不枚舉所有的組合的語言時序歧義消解方法。本發(fā)明應用貪婪法則來提供樂觀歧義消解,例如對于任何歧義情形可優(yōu)選最長的匹配序列。如按照圖4的編碼規(guī)則"10"可以為對應于"I0"的"1:0"或者對應于"10"的D,此種情形下根據(jù)貪婪法則應選擇"D"。當采用樂觀時序歧義消解時,應當首先按照樂觀歧義消解生成無歧義的輸入序列。而該無歧義的輸入序列的語言學分值則采用圖5B所示的方法求得。當累積的分值符合某特定標準時,例如累積的分值大于最小可接受值,則其解碼結(jié)果可輸出給用戶。一旦累積的語言學分值小于或等于最小可接受值,則啟動上述語言時序歧義消解過程以得到最好的猜詞結(jié)果。上述編碼規(guī)則中可使用多種將編碼字元集映射至解碼字元集的映射。其中的一種可為基于形狀的映射。很多先前技術,例如美國第4008793號、4877405號、5307267號、6837633號、6874960號、7098919號、4173753號、5305207號、5790055號、6362752號、6686907號、6766179號、5982303號、及6753794號專利均揭示基于形狀的映射關系。本發(fā)明提供一種新的基于形狀的映射方法。盡管對字元編碼具有大量的研究,然而并未有人于編碼規(guī)則中使用變形操作。根據(jù)本發(fā)明的一個實施例,一個編碼序列可包括至少兩個編碼字元,而該編碼序列中的一個正式字元的預定形狀改變類型是利用在其后并與其相鄰的字元表示。本發(fā)明提供的基于形狀的映射的操作可分為無操作、變換操作、建構(gòu)操作、破壞性操作以及變形操作。無操作于編碼字元與解碼字元基本相同時使用。變換操作包括旋轉(zhuǎn)、鏡像、縮小等等。建構(gòu)操作包括基于筆劃的操作或形狀的組合。破壞性操作包括筆劃移除、剪切(例如不按照筆劃建構(gòu)的分割動作)與開口(例如,打斷封閉的區(qū)域)。變形操作于編碼字元與對應的解碼字元可以采用中間形狀關聯(lián)起來的情形時使用。圖6示出本發(fā)明的一個較佳實施例。第一行為鍵盤字母表(編碼字元集的一個實例)600。第二行為正常英文字母表(解碼字元集的一個實例)601。第三行為英文字母(解碼字元)與數(shù)字(編碼字元)之間的中間形狀602。第四行為包括數(shù)字或數(shù)字組合的映射關系603。第三行中指向箭頭所指的'4'表示破壞性操作604。'C'列中的破壞性操作604為"剪切"操作而其余為"開口"動作。根據(jù)本發(fā)明提供的基于形狀的映射關系,可以很容易將解碼字元(第二行)翻譯成中間形態(tài)(第三行),最后得到相對應的一或多個編碼數(shù)字(第四行)。很容易看出還可進行相反的過程,即將一或多個編碼數(shù)字翻譯成解碼字元。圖4中所示的編碼規(guī)則可從圖6提供的基于形狀的映射衍生出來,以下將詳細說明。該編碼規(guī)則(或映射關系)401包括多個解碼字元402。而解碼字元402可能對應于由按鍵403產(chǎn)生的單字元字串或者由按鍵404、405產(chǎn)生的二字元字串。應注意的是,盡管'G'可以根據(jù)形狀的組合編碼為"67",但其同樣可以按照變形操作編碼為"6"。圖4中的結(jié)果編碼為"6"。一般來說,生成更有意義的編碼的規(guī)則是以包含更多形狀資訊的編碼為優(yōu)先。如此可使人們更加容易通過形狀來識別第一編碼與第二編碼。例如'Q'為'0'與'1'的組合,然而'0'包含更多的形狀資訊,因此'Q'的編碼應為"01"。根據(jù)本發(fā)明,用戶無須再看著鍵盤去輸入文字,而可以直接使用鍵盤上的數(shù)字按照記憶輸入。而由于無須使用任何特殊的標記,因此動電話或鍵盤的制造廠商無須對現(xiàn)有設計作任何變更即可直接應用本發(fā)明。在輸入時用戶可直觀地檢查想要的銨鈕是否真正的被選擇了。以'Q'的解碼為例,如果在輸入第一個編碼后不顯示'Q'而顯示相關的形狀例如'0'用戶即可意識到前一次按鍵是錯誤的需要更正。在正確的輸入'0'與'l'后,可以預期會被解碼成'Q',然而根據(jù)編碼規(guī)則同樣可能被解碼成序列"01"。在兩種情形下,顯示結(jié)果均與輸入序列"01"相關而不象傳統(tǒng)的預測式輸入法中的跳躍式選項。因此解碼結(jié)構(gòu)使得本發(fā)明的方法更加可靠并更具可預測性。對于每個解碼字元,會生成被設計決策接受的所有可能編碼序列(每個編碼序列皆由編碼字元所組成)。根據(jù)設計決策,每個選項具有一個相關的權重。一般來說,對于較佳的選項具有較高的權重?;谛螤畹淖执杜e意指具有基于形狀的設計決策的字串枚舉。多級字串枚舉意指不同設計決策的等級結(jié)構(gòu)。在一個多級字串枚舉的實施例中,每個解碼字元對應的編碼字元的所有可能編碼序列都被生成??赡艿木幋a序列可以分為幾個邏輯解釋,例如形狀關聯(lián)、文化關聯(lián)或者其他任何可以接受的關聯(lián)。在進行如上述的多級字串枚舉的字串枚舉之后,將做進一步分析以決定可以接受的分配。在一個實施例中,會從目標語言文獻中生成一個一元(LinguisticUnigram)語言表以及一個二元(2-gram)語言表,其中高頻字母根據(jù)該一元語言表指定單編碼字元。如果較佳的形狀分配的出現(xiàn)的頻率較低則將其重新指定至一個雙編碼字元,而該單編碼字元則可以被改為指定至另一個高頻率解碼字元。例如初始的分配中'Z'與'N'分別被指定為('Z',〃2〃)與('N',〃2@〃),但是由于'N'具有更高的頻率,因此'Z'可被重新指定為('Z',〃22〃),而N則被指定為('N',〃2〃)。該二元語言表可用于防止這種分配動作導入更多的歧義。例如,在下列的表l中,"12"為編碼"D"的一個選項。參考WilliamSoukoreffandScottMacKenzie,LinguisticDiagramFrequencyTables(http://dynamicnetservices.com/_wi11/academic/bit95.tables,html)中的bit95二元語言表,可以發(fā)現(xiàn)二元片段"IN"具有更高的頻率,可能的情況下應當盡量避免。如果"12"是根據(jù)某種設計決策選定的,語言學分值補償可用于減少此種指派所導入的歧義。如表1所示,編碼字元與解碼字元之間可能的映射關系可分成多種類別,其包括基本相同關系、變換關系、變形關系、組成關系與破壞性關系。進一步地,在下列表中"'"代表破壞性操作。符號"@"代表變換操作中的旋轉(zhuǎn),"%"代表變換操作中的鏡象,'7"代表"0R",而被"_"包圍則表示較不值得考慮的指派。表1<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table>可采用上述兩種映射方法來指派編碼是很重要的一件事,這兩種映射方法的其中一種是通過考量每個解碼字元的頻率而將編碼序列指派給一個解碼字元,而另一種映射方法則是通過考量由字串枚舉提供的可能映射而將編碼序列指派給一個解碼字元。這兩種映射方法可按任意順序進行。例如,表2中給出了編碼指派的結(jié)果以及由一階統(tǒng)計(First-OrderStatistics)提供的基于一元語言統(tǒng)計的沖突解決方法。關于一階統(tǒng)計可參考網(wǎng)址為http://www,data-compression,com/english.html的相關內(nèi)容(StatisticalDistributionsofEnglishText)。在此可以看到一些高頻率解碼字元例如"A"、"E"、"I"、"0"、"R"、"S"、及"T"被指派一元(或單字元)編碼序列。而一些基他字元,例如"B"與"G"由于其分別與編碼字元"8"與"6"非常相似而被指派一元編碼序列。解碼字元"Z"首先被指派一元編碼"2"。然而,由于一元編碼字元"2"可以作為解碼字元"N"的映射,而且根據(jù)語言學統(tǒng)計結(jié)果"N"的出現(xiàn)頻率比"Z"高很多,因此一元編碼字元"2"被重新指派給解碼字元"N",而解碼字元"Z"被重新指派成二元編碼字元"22"。表2<table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table>另一種可能的映射同樣可以考慮利用。在一個實施例中,指派按照基本相同、變換關系、變形關系、組成關系、及破壞性關系的順序進行。結(jié)果顯示在表3中。表3<table>tableseeoriginaldocumentpage16</column></row><table><table>tableseeoriginaldocumentpage17</column></row><table>由于解碼字元"C"、"D"、"H","K",及"X"的可能映射關系,表3中的編碼序列的組合提供72種選擇。用于表示對正式編碼字元進行的操作的操作符號可以任意選擇。例如,代表鏡象操作的操作符號可以選用8或O,代表旋轉(zhuǎn)操作的操作符號可選用6或9,代表破壞性操作的操作符號可選用其他任意數(shù)字。在一個實施例中,數(shù)字"8"因為看起來像是兩個互為鏡象的"o"而被選為代表鏡象操作的操作符號,數(shù)字"6"代表旋轉(zhuǎn)操作是因為數(shù)字"6"像一個漩渦。數(shù)字"4"代表催毀操作是因為數(shù)字"4"像剌。相應地,最終的映射關系如表4所示。表4<table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table>可以理解,編碼字元與解碼字元之間的映射關系還可包括表4所示以外的指派。然而該指派可以由以下各項來決定枚舉所有可接受的可能的映射、決定操作符號以及至少一種選自基于形狀的映射分值、為消除輸入序列歧義所需保存字典的大小、解碼序列的歧義長度分布、樂觀時序歧義消解的命中率、語言學時序歧義消解命中率、樂觀時序歧義消解與語言學時序歧義消解共同使用的命中率、根據(jù)解碼序列頻率的命中率分布、從一階統(tǒng)計計算得到的每字母所需要按鍵數(shù)、自然語言集的優(yōu)化以及時序歧義測量的標準。對于所有枚舉出的可接受組合,可以根據(jù)上述某個特定的標準計算得到權重分值以進行自動選擇,或者,只要其能滿足上述標準,亦可進行手動選擇?;谛螤畹挠成渑c時序歧義編碼規(guī)則在文字輸入系統(tǒng)中可獨立工作,亦可共同工作。圖7所示為本發(fā)明一實施例的時序歧義消解流程圖。圖8所示為本發(fā)明一實施例提供的文字輸入系統(tǒng)結(jié)構(gòu)方框圖。參閱圖7與圖8,用戶800通過啟動鍵盤802輸入一個輸入序列。輸入序列分割器803將輸入序列分為文字輸入820與控制輸入822。控制輸入822被輸出至輸入控制模塊809,而文字輸入820則被送往時序歧義片段化模塊804。時序歧義消除操作從步驟701開始,此時文字輸入820會被送往時序歧義片段化模塊804。文字輸入820經(jīng)過時序歧義片段化模塊804處理生成時序片段化序列821(步驟703)。在步驟705中,時序片段化序列821的每個片段利用"pre"字元(即前一個片段的最后一個字元)以及"post"字元(即后一個片段的第一個字元)來進行處理。步驟707中,如果還有片段需要處理,則利用保存于語言頻率模塊805中的統(tǒng)計結(jié)果,藉由樂觀歧義消解模塊806(步驟709)來處理當前片段。在步驟711中,如果根據(jù)步驟709的結(jié)果計算得到的語言學分值大于預定的值Q2,則無歧義的輸入序列被接受并在步驟720中解碼。否則,則啟動語言學時序歧義消解模塊807以選擇最佳的無歧義的輸入序列(步驟713)。所有從該時序歧義片段中生成的無歧義的輸入序列于步驟722中鏈接起來以生成預測結(jié)果824,并通過輸出控制模塊809輸出至顯示裝置801。如果所有的片段處理完成并且操作流程從步驟707分支到步驟715,則輸入序列的語言學分值在步驟715中計算。如果步驟715的結(jié)果小于另一個預定值Q1,則假定預測是不可接受的而需要從輸出控制模塊809向字典模塊808輸出預測查詢823進行字典檢索以尋找更好的預測結(jié)果(步驟719)。否則,在步驟717中,檢查用戶是否請求某個可選項。如果沒有這種請求,則暗示用戶接受當前預測結(jié)果,否則即啟動字典檢索(步驟719)。在字典檢索后,其中一個匹配結(jié)果被用來取代步驟724中的預測結(jié)果,而且用戶在步驟726中可以利用一個特殊功能鍵例如"*"選擇并確認所想要的單詞。在另一個實施例中,輸出控制模塊809可直接耦合至輸入序列分割器803甚至鍵盤802以直接接收文字輸入820以及控制輸入822。其接收的的文字輸入820以及控制輸入822可發(fā)送給字典模塊808以檢索匹配的編碼序列以輸出相應的解碼序列??梢岳斫猓景l(fā)明的組件可以設置成客戶端-服務器(C/S)模式,即通過一通訊管道以進行上述耦合或連接,并以預定的通訊協(xié)定來傳輸訊息。根據(jù)這些資料作為輸入的模塊是否需要存在,時序歧義片段化模塊可以同時被復制于客戶端以及服務器上。時序歧義片段化模塊的輸出可如較佳的實施例中描述的那樣被直接導引到消費模塊中或者亦可以瀑布(waterfall)方式輸出。本發(fā)明中采用的鍵盤包括多個響應于用戶觸動的按鍵。該按鍵響應于用戶引起的光、聽力、觸覺、味覺以及氣味中的一種物理量的變化。該鍵盤還可為任意鍵盤字元序列的輸出。另外,該顯示裝置可選自視覺、聽覺、觸覺、味覺、或者嗅覺顯示裝置。如圖7所示,盡管在較佳的實施例中所有的時序歧義消解方法都使用過,然而這些方法的各種組合同樣可用。在一個極端的情形下,通過重定向"NO"分支707至結(jié)束狀態(tài)可以完全忽略字典檢索動作。參閱圖gA-圖9G,其所示為根據(jù)本發(fā)明一實施例中顯示輸入并用字典檢索消除"WORK"的歧義的過程。本實施例中所使用的編碼規(guī)則(編碼序列與解碼序列之間的映射關系)如圖6所示。在圖9A中,用戶輸入該輸入序列的第一個編碼字元"3",根據(jù)圖6,輸出裝置顯示"E"的中間形態(tài)。然后如圖9B所示,用戶輸入該輸入序列的第二個編碼字元"6",而輸出裝置于原來顯示"E"的中間形態(tài)的地方顯示"W"的中間形態(tài)。根據(jù)圖4的編碼規(guī)則,輸入序列"36"可能被解碼成兩個解碼字元"EG"而不是"W"。然而本實施例中還進行樂觀時序歧義消解,因此在具有歧義時將優(yōu)先選擇最長的編碼序列。相應地,具有兩字元編碼序列"36"的解碼字元"W"相比于每個字元具有一元編碼序列的解碼字元"EG"為更佳的選擇。如圖9C所示,當使用者繼續(xù)輸入該編碼序列的第三個編碼字元"0"時,編碼字元"0"應為該輸入序列的另一個片段,因為沒有對應于輸入序列"60"的編碼序列。相應地,輸出設置進一步顯示"O"的中間形態(tài)。然后,用戶進一步輸入該輸入序列的第四個編碼字元"9",而因為沒有對應于輸入序列"09"的編碼序列,所以此編碼字元同樣被認為是一個片段。相應地,如圖9D所示,由于解碼字元R對應于由編碼字元"9"構(gòu)成的編碼序列,所以輸出裝置進一步顯示解碼字元"R"的中間形態(tài)。當使用者輸入第五個編碼字元"8",如圖9E所示,由于二元編碼序列"98"對應于解碼字元"P",而根據(jù)樂觀時序歧義消解,"P"是一個更好的選擇,因此原來顯示的"R"的中間形態(tài)變化為"P"的中間形態(tài)。然后,用戶進一步輸入第六個字元"4"時,如圖9F所示,由于解碼字元"R"先于輸入編碼字元"4"時決定的,因此編碼序列"984"被分割成"98:4",輸出設備進一步顯示解碼字元"A"的中間形態(tài)。此種情形下顯示失敗的預測結(jié)果"WOPA"。此時使用者可以通過輸入一個編碼字元"*"以調(diào)用字典檢索來糾正錯誤。字典檢索讓輸出裝置顯示對應于編碼序列"360984"的匹配解碼序列"WORK"的中間形態(tài)。連續(xù)輸入"*"會接著枚舉出其他所有匹配的結(jié)果。由于在此種情形下僅有一個可選單詞可用,因此可以很快確認所想要的單詞。然而,錯誤的預測結(jié)果還可用其他方式去糾正。例如,如圖9E、圖9H及圖9I所示的劃界控制。如上所述,輸出裝置于對使用者輸入由編碼字元組成的編碼序列"36098"進行時序歧義消解后顯示編碼序列"WOP"的中間形態(tài)?!┦褂谜甙l(fā)現(xiàn)錯誤的預測,可提供一特殊功能按鍵,例如"#"作為劃界控制符。本實施例中,使用者可輸入編碼序列"##"以啟動其作為劃界控制編碼序列。相應地,當用戶于輸入序列"36098"后輸入編碼序列"##"時,如圖8所示,劃界控制編碼序列"##"被分割為控制輸入。因此,輸出控制模塊809向樂觀時序歧義消解模塊806與/或語言學時序歧義消解模塊807發(fā)送請求以改變編碼片段"98"為新的解釋"9:8"。如圖9H所示,輸出裝置因此于顯示解碼字元"P"的中間形態(tài)的位置顯示解碼字元"R"的中間形態(tài)。編碼字元"4"于編碼字元"##"后輸入,因此其與編碼字元"8"組合到一起作為文字輸入"84"并最終解碼為"K"。因此如圖91所示,最終顯示的是解碼字元"K"的中間形態(tài)。傳統(tǒng)的預測式輸入法中,對于可選項的確認需要使用者去選擇,不然訊息具有多種歧義而難以閱讀。另外,在輸入過程中的打字錯誤不能回復并可能導致完全不可讀的短訊。簡言之,傳統(tǒng)方法在無反饋狀況下無法使用。本發(fā)明由于采用腦力記憶取代對照表,因此可以應用于無回饋打字。并且無須等待超時或者采用超時訊息去區(qū)分前后輸入字串。另外,可選單詞可通過視覺顯示的方式加以校正,因此輸入時可采用延遲回饋打字方式,使用者可先接受非預期的預測字詞然后事后手動去校正它。在極端情形下,所有的輸入并不需要預測以及后期確認的動作。雖然本發(fā)明已以較佳實施例揭露如上,然其并非用以限定本發(fā)明,任何熟習此技20藝者,在不脫離本發(fā)明的精神和范圍內(nèi),當可作些許的更動與潤飾,因此本發(fā)明的保護范圍當視后附的申請專利范圍所界定為準。權利要求一種解碼方法,其用于將多個編碼序列映射至多個解碼序列,每個編碼序列包括至少一個選自編碼字元集的字元,每個解碼序列包括至少一個選自被非語標語言使用的解碼字元集的解碼字元,其特征在于該解碼方法包括接收輸入的編碼字元;以及將該輸入的編碼字元組合至一輸入序列的末尾,其中該輸入序列為時序歧義的,從而該輸入序列具有被解析成至少兩個不同的編碼序列組合的可能性,每個編碼序列組合包括該編碼序列中的至少一個。2.如權利要求1所述的解碼方法,其特征在于其中解析該輸入序列時是通過匹配一字典來進行,該字典包括該編碼序列與該解碼序列之間的可接受關聯(lián)。3.如權利要求1所述的解碼方法,其特征在于其中解析該輸入序列時是采用語言學模型。4.如權利要求3所述的解碼方法,其特征在于其中該語言學模型對該編碼序列組合進行語言學分值計算。5.如權利要求1所述的解碼方法,其特征在于其中解析該輸入序列時采用啟發(fā)式語言學模型,從而使得該語言學分值計算可僅應用于一部分編碼序列。6.如權利要求5所述的解碼方法,其特征在于其中該啟發(fā)式語言學模型采用貪婪法則,以取該編碼序列組合中最長的匹配作為該編碼序列的映射。7.如權利要求1所述的解碼方法,其特征在于進一步包括一決定步驟當該輸入序列最后兩個字元于該映射中不為任何編碼序列的一部分時,將該輸入序列中位于輸入的編碼字元之前的編碼字元組成為一個片段序列。8.—種裝置,其特征在于包括一鍵盤,用于輸入包括選自一編碼字元集的至少一個字元的一輸入序列;一輸出裝置,用于選擇性輸出一輸出序列,該輸出序列包括選自一解碼字元集的至少一解碼字元,其中該輸出序列是依據(jù)該輸入序列生成;以及一解碼裝置,包括將多個編碼序列映射至多個解碼序列的一映射,每個編碼序列包括選自該編碼字元集的至少一個編碼字元,每個解碼序列包括選自該解碼字元集的至少一個解碼字元,該映射用于根據(jù)該輸入序列的至少一部分將該輸入序列映射至該輸出序列,其中,當一個編碼字元藉由該鍵盤輸入時,該解碼裝置將該輸入的編碼字元組合至該輸入序列的尾端,該輸入序列為時序歧義而使該輸入序列有被解析為至少兩個不同的編碼序列組合的可能性。9.如權利要求8所述的裝置,其特征在于,其中,該解碼裝置進一步包括耦合至該鍵盤的一輸入序列分割器,其用于接收該輸入序列并將該輸入序列分割成一個文字輸入及一個控制輸入。10.如權利要求9所述的裝置,其特征在于,其中,該映射包括一時序歧義片段化模塊,耦合至該輸入序列分割器以接收該文字輸入,并于該文字輸入最后兩個字元不構(gòu)成任一編碼序列的一部分時生成一時序片段化序列;一語言學頻率模塊,用以保存多個統(tǒng)計;以及一語言學時序歧義消解模塊,耦合于該時序歧義片段化模塊與該語言學頻率模塊,用于根據(jù)該些統(tǒng)計來計算該時序片段化序列中的每個片段的編碼序列組合的分值,該分值用于決定該解碼序列的預測結(jié)果。11.如權利要求io所述的裝置,其特征在于,其中,該解碼裝置進一步包括一輸出控制模塊,其耦合至該語言學時序歧義消除模塊以接收并向該輸出裝置輸出解碼序列,該輸出控制模塊更耦合至該時序歧義片段化模塊以接收該時序片段化序列。12.如權利要求11所述的裝置,其特征在于,其中,該映射進一包括一字典模塊,其耦合于該輸出控制模塊,用于接收該時序片段化序列并從一字典中尋找與該時序片段化序列對應的解碼序列。13.如權利要求IO所述的裝置,其特征在于,其中,該映射進一步包括一樂觀時序歧義消解模塊,其耦合至該時序歧義片段化模塊與該語言學頻率模塊,用于根據(jù)該些統(tǒng)計以計算該時序片段化序列中的每個片段的每個編碼序列組合的分值,該分值計算僅適用于一部分編碼序列組合。14.如權利要求9所述的裝置,其特征在于,其中,該映射包括一時序歧義片段化模塊,其耦合至該輸入序列分割器以接收該文字輸入,并當該輸入序列最后兩個字元不構(gòu)成任何編碼序列一部分時生成一時序片段化序列;一語言學模塊,用于保存多個統(tǒng)計;以及一樂觀時序歧義消解模塊,其耦合至該時序歧義片段化模塊及該語言學頻率模塊,用于計算該時序片段化序列中的每個片段的每個編碼序列組合的分值,并且該分值計算僅適用于一部分編碼序列組合。15.如權利要求9所述的裝置,其特征在于,其中,該映射包括一輸出裝置,其耦合于該輸入序列分割器,用于接收該文字輸入與控制輸入。16.如權利要求15所述的裝置,其特征在于,其中,該映射進一步包括一字典模塊,其耦合至該輸出控制模塊,用于接收該文字輸入并從一字典中檢索與該文字輸入對應的解碼序列。17.—種解碼方法,其特征在于包括維持將多個編碼序列映射至多個解碼序列的一映射,每個編碼序列包括選自一編碼字元集的至少一個編碼字元,每個解碼序列包括選自被非語標語言使用的一解碼字元集的至少一個解碼字元;接收一或多個編碼字元到一輸入序列中;如果該輸入序列長度大于一則生成多個編碼序列組合;選擇該編碼序列組合中的一個;根據(jù)該映射將該選擇的編碼序列組合映射至一輸出序列;以及輸出該輸出序列。18.如權利要求17所述的解碼方法,其特征在于其中該映射的一部分作為一字典,其中該字曲包括該編碼序列與該解碼序列之間的可能關聯(lián)。19.如權利要求17所述的解碼方法,其特征在于,其中,選擇該些編碼序列組合中的一個的步驟重復進行以選擇多個編碼序列,使得被選擇的該些編碼序列組合根據(jù)該映射對應于多個輸出序列。20.如權利要求19所述的解碼方法,其特征在于其中該輸出序列被選擇性輸出并按照從一給定文獻中出現(xiàn)的頻率順序排列。21.如權利要求19所述的解碼方法,其特征在于其中該輸出序列被選擇性輸出并且按照語言學分值高低順序排列。22.如權利要求17所述的解碼方法,其特征在于其中選擇其中一個編碼序列是由語言學模型決定。23.如權利要求22所述的解碼方法,其特征在于其中該語言學模型是對該編碼序列組合進行語言學分值計算。24.如權利要求17所述的解碼方法,其特征在于其中選擇其中一個編碼序列時由啟發(fā)式語言學模型決定,以使該語言學分值計算可僅應用于一部分編碼序列。25.如權利要求24所述的解碼方法,其特征在于其中該啟發(fā)式為語言學模型采用貪婪法則,以取該編碼序列組合中最長的匹配作為該編碼序列的映射。26.如權利要求17所述的解碼方法,其特征在于其中該映射的一部分作為編碼規(guī)則,該編碼規(guī)則將該編碼序列映射至該解碼序列。27.如權利要求26所述的解碼方法,其特征在于進一步包括于選擇其中一個編碼片段之前的一片段化步驟,該片段化步驟根據(jù)該編碼規(guī)則從該輸入序列生成至少一個片段化序列,且該些編碼序列組合之一是根據(jù)該片段化序列來進行選擇。28.如權利要求27所述的解碼方法,其特征在于其中該片段化步驟包括a.從該輸入序列的開頭開始;b.形成由當前字元與當前字元的下一個字元組成的長度為2的一字串;c.驗證該字串是否在該編碼規(guī)則中;d.如果該字串在該編碼規(guī)則中,累積當前字元并于下個字元上進行步驟b與c;以及e.如果該字串不存在于該編碼規(guī)則中,用累積的字元與當前字元鏈接以生成該片段化序列,并從下一個字元開始重新進行該片段化步驟。全文摘要一種解碼方法及解碼裝置,該解碼方法用于將多個編碼序列映射至多個被非語標語言使用的解碼序列。該解碼方法接收輸入的編碼字元并將其組合至一輸入序列的末尾,其中該輸入序列為時序歧義的,從而該輸入序列可被解析成至少兩個不同的編碼序列組合,每個編碼序列組合包括該編碼序列中的至少一個。文檔編號G06F3/023GK101720457SQ200880014020公開日2010年6月2日申請日期2008年4月30日優(yōu)先權日2007年4月30日發(fā)明者陳仁德申請人:陳仁德
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1