一種五筆的長句連打輸入方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及輸入法領(lǐng)域,特別涉及五筆輸入。
【背景技術(shù)】
[0002] 五筆鍵碼短、輸入快、多簡碼,適用于簡化字,但是長句用五筆無法輸入,需要分解 成詞組,再逐個詞組輸入;或者單字輸入;因為五筆一個字或一個詞組最多只有四個碼,每 一次選詞(或字)不會超過4碼,所以不支持長句連打,輸入句子時,必須一次一個字或一個 詞組地輸入,輸入非常不方便,特別是當輸入長句的時候,由于選字或選詞組,輸入效率非 常低,非常影響打字速度。
[0003] 另外五筆雖然單字的重碼率低,但詞組的重碼率高,因此五筆以避免過多重碼,普 遍不適用大詞庫,但詞庫太小時,打字反而不方便;由于開始設(shè)計五筆輸入時是針對簡體 字,雖然日后不斷改善,86、98五筆版都可以直接用繁體字編碼,但使用效果上還有待進一 步優(yōu)化。為了減少重碼,五筆中有大量的無理碼,這不符合還在的結(jié)構(gòu)和書寫規(guī)范;不適合 輸入只知道發(fā)音而忘記怎么寫的字;另外,五筆字型使用的是字根和碼元作為輸入時的助 記符,86版使用130個字根,98版需要使用245個字根,記憶量要比拼音大。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種五筆的長句連打輸入方法及其系統(tǒng),通過建立雙向隱 馬爾可夫BHMM模型,實現(xiàn)了五筆長句的準確連打,提高了輸入效率和打字速度,解決了大詞 庫重碼率高、打字員五筆字根記憶負擔量大的問題。
[0005] 為解決上述技術(shù)問題,本發(fā)明的實施方式提供了一種五筆的長句連打輸入方法, 包含以下步驟:
[0006] 預先建立雙向隱馬爾可夫BHMM模型;在所述BHMM模型中,長句中的每個漢字的出 現(xiàn)概率由該漢字及該漢字的前T個漢字在數(shù)據(jù)庫中同時出現(xiàn)的次數(shù)、該漢字出現(xiàn)的次數(shù)、輸 入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總次數(shù)、該漢字的前T個漢字同時出現(xiàn)的次 數(shù)、該漢字及該漢字的后T個漢字同時出現(xiàn)的次數(shù)決定;所述T為大于1的自然數(shù);
[0007] 持續(xù)接收用戶輸入的五筆碼;
[0008] 根據(jù)所述BHMM模型和所述持續(xù)接收到的五筆碼,獲取在該BHMM模型中出現(xiàn)概率最 大的各漢字所組成的長句;
[0009] 輸出所述獲取的在該BHMM模型中出現(xiàn)概率最大的各漢字所組成的長句。
[0010] 與此相應(yīng),本發(fā)明的另一個目的是提供五筆的長句連打輸入系統(tǒng),包含:客戶端與 云端服務(wù)器;
[0011] 云端服務(wù)器包含:
[0012] 模型建立模塊,用于預先建立雙向隱馬爾可夫BHMM模型;在所述BHMM模型中,長句 中的每個漢字的出現(xiàn)概率由該漢字及該漢字的前T個漢字在數(shù)據(jù)庫中同時出現(xiàn)的次數(shù)、該 漢字出現(xiàn)的次數(shù)、輸入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總次數(shù)、該漢字的前T個 漢字同時出現(xiàn)的次數(shù)、該漢字及該漢字的后T個漢字同時出現(xiàn)的次數(shù)決定;所述T為大于1的 自然數(shù);
[0013] 匹配模塊,用于根據(jù)所述ΒΗΜΜ模型和來自所述客戶端的持續(xù)接收到的五筆碼,獲 取在該ΒΗΜΜ模型中出現(xiàn)概率最大的各漢字所組成的長句;
[0014] 返回模塊,用于將所述匹配模塊獲取的長句返回至所述客戶端;
[0015] 所述客戶端包含:
[0016] 接收模塊,用于持續(xù)接收用戶輸入的五筆碼;
[0017] 發(fā)送模塊,用于將所述持續(xù)接收到的五筆碼發(fā)送至所述云端服務(wù)器;
[0018] 輸出模塊,用于輸出所述云端服務(wù)器返回的所述長句。
[0019] 本發(fā)明實施方式相對于現(xiàn)有技術(shù)而言,提供了一種五筆的長句輸入方法和長句輸 入系統(tǒng),通過建立雙向隱馬爾可夫ΒΗΜΜ模型,使得用戶通過五筆可以支持連打長句,不需要 嚴格按照五筆輸入法規(guī)則去鍵入,一方面輸出高準確度高,另一方面解決了上述五筆輸入 法缺點中大詞庫重碼率過多的問題。整體輸入效率和打字速度得到了提高,同時兩碼輸入 也降低了打字員對五筆字根記憶量的要求。
[0020] 另外,在所述持續(xù)接收用戶輸入的五筆碼的步驟中,持續(xù)接收到的是每個漢字的 前2個五筆碼,僅可通過兩碼完成對一個漢字的輸入,減少了鍵入的碼元,更加提高了打字 的整體速度。
[0021 ]另外,所述ΒΗΜΜ模型建立在云端服務(wù)器內(nèi);所述根據(jù)ΒΗΜΜ模型和所述持續(xù)接收到 的五筆碼,獲取在該ΒΗΜΜ模型中出現(xiàn)概率最大的各漢字所組成的長句的步驟中,包含以下 子步驟:客戶端將所述持續(xù)接收到的五筆碼實時發(fā)送至所述云端服務(wù)器,由所述云端服務(wù) 器根據(jù)ΒΗΜΜ模型和所述持續(xù)接收到的五筆碼,實時獲取所述長句,優(yōu)化了五筆轉(zhuǎn)化漢字的 效率。
[0022] 另外,定義該雙向隱馬爾可夫ΒΗΜΜ模型中所述Τ為3,即四元雙向隱馬爾科夫模型。 具體而言,就是在傳播過程中,當前狀態(tài)分別受其前和后三個狀態(tài)的影響,輸出的結(jié)果正確 率較高,且速度也較快。采用四元雙向隱馬爾科夫模型,其效率高于三元及三元以下的模型 精度,而采用比四元更高階的模型時,精度提升并非很明顯,消耗資源的速度非常迅速,且 算法復雜度不斷提升,因此,通過采用四元雙向隱馬爾科夫模型,可以在控制算法復雜度的 同時,保證算法的精度。
[0023] 另外,所述根據(jù)ΒΗΜΜ模型和所述持續(xù)接收到的五筆碼,獲取在該ΒΗΜΜ模型中出現(xiàn) 概率最大的各漢字所組成的長句的步驟中,根據(jù)以下公式獲取所述長句:
[0025] 其中,W1,W2,W3, . . .,WN表示獲取的所述長句中的各漢字,P(Zi |wi)表示在漢字Wi出 現(xiàn)的情況下字根Zi出現(xiàn)的概率,Wi+l,Wi+2,Wi+3表示漢字Wi的后3個漢字,Wi-l,Wi-2,Wi-3表示漢 字Wi的前3個漢字,1 < i <N,N為所述長句包含的漢字個數(shù)。
[0026] 另外,在所述持續(xù)接收用戶輸入的五筆碼后,根據(jù)所述ΒΗΜΜ模型和所述持續(xù)接收 到的五筆碼,獲取在該ΒΗΜΜ模型中出現(xiàn)概率次大的各漢字所組成的長句;輸出所述出現(xiàn)概 率次大的各漢字所組成的長句,方便用戶選擇。
【附圖說明】
[0027] 圖1是根據(jù)本發(fā)明第一實施方式的五筆的長句連打輸入方法的流程圖;
[0028] 圖2是根據(jù)本發(fā)明第二實施方式的五筆的長句連打輸入系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0029]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的各實 施方式進行詳細的闡述。然而,本領(lǐng)域的普通技術(shù)人員可以理解,在本發(fā)明各實施方式中, 為了使讀者更好地理解本申請而提出了許多技術(shù)細節(jié)。但是,即使沒有這些技術(shù)細節(jié)和基 于以下各實施方式的種種變化和修改,也可以實現(xiàn)本申請各權(quán)利要求所要求保護的技術(shù)方 案。
[0030] 本發(fā)明第一實施方式涉及一種五筆的長句輸入方法,具體實現(xiàn)流程如圖1所示,詳 述如下:
[0031] 在步驟S101中預先建立雙向隱馬爾可夫BHMM模型;在該BHMM模型中規(guī)定,長句中 的每個漢字的出現(xiàn)概率由該漢字及該漢字的前3個漢字同時在數(shù)據(jù)庫中出現(xiàn)的次數(shù)、該漢 字出現(xiàn)的次數(shù)、輸入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總次數(shù)、該漢字的前3個漢 字同時出現(xiàn)的次數(shù)、該漢字及該漢字的后3個漢字同時出現(xiàn)的次數(shù)決定。其中,需要說明的 是,本實施方式涉及的數(shù)據(jù)庫中存儲有各訓練語料及五筆碼元。
[0032]在步驟S102中,持續(xù)接收用戶輸入的五筆碼,在鍵盤上a至y的25個按鍵上按照五 筆輸入法既定的規(guī)則分布有字根,持續(xù)接收的五筆碼是每個單字的前2個五筆碼,即在輸入 長句或詞組時,每個字從五筆碼到漢字的轉(zhuǎn)化只用該字的其字的前2個五筆碼。
[0033]在步驟S103中,將持續(xù)接收到的五筆碼發(fā)送至云端服務(wù)器。
[0034]在步驟S104中,云端服務(wù)器根據(jù)BHMM模型和所述持續(xù)接收到的五筆碼,實時在該 BHMM模型中出現(xiàn)概率最大及次優(yōu)的各漢字所組成的長句。
[0035] 具體BHMM模型算法步驟如下所述:
[0036] 模型中,長句中的每個漢字的出現(xiàn)概率由該漢字及該漢字的前T個漢字在數(shù)據(jù)庫 中同時出現(xiàn)的次數(shù)、該漢字出現(xiàn)的次數(shù)、輸入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總 次數(shù)、該漢字的前T個漢字同時出現(xiàn)的次數(shù)、該漢字及該漢字的后T個漢字同時出現(xiàn)的次數(shù) 決定。在本實施方式中,以T為3為例進行說明;
[0037]假設(shè)…,心為漢字的字根,W1,W2,W3,…,w為輸出的漢字,在該模型的正 向傳播過程中,即該字的五筆轉(zhuǎn)化成漢字是由該漢字的前T個漢字時決定時,輸出的句子 為:
[0039]在本實施方式中采用四元雙向隱馬爾科夫模型(即T = 3),也即,在傳播過程中,當 前狀態(tài)受其前三個狀態(tài)的影響。所以最終,式(1)簡化為:
[0040]
[0041 ]其中,# ( Wi,Wi-1,Wi-2,Wi-3 )表示漢字Wi,Wi-1,Wi-2,Wi-3 同時出現(xiàn)的次數(shù),# ( Wi )表示漢 字^出現(xiàn)的總次數(shù);#(Z1,W1)表示字根21轉(zhuǎn)換為漢字^的次數(shù),#( Z1)表示字根21出現(xiàn)的總次 數(shù)。
[0042] 其實,正向傳播過程包括字根轉(zhuǎn)為漢字的過程和準確候選漢字,即通過式(1)計算 得到值最大的輸出的過程。在反向傳播過程中,即該字的2個五筆轉(zhuǎn)化成漢字是由該漢字的 后T個(