一種五筆的長句連打輸入方法及其系統(tǒng)的制作方法

文檔序號：9810054閱讀：2180來源：國知局

一種五筆的長句連打輸入方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及輸入法領(lǐng)域，特別涉及五筆輸入。
【背景技術(shù)】
[0002] 五筆鍵碼短、輸入快、多簡碼，適用于簡化字，但是長句用五筆無法輸入，需要分解成詞組，再逐個詞組輸入;或者單字輸入；因為五筆一個字或一個詞組最多只有四個碼，每一次選詞（或字)不會超過4碼，所以不支持長句連打，輸入句子時，必須一次一個字或一個詞組地輸入，輸入非常不方便，特別是當輸入長句的時候，由于選字或選詞組，輸入效率非常低，非常影響打字速度。
[0003] 另外五筆雖然單字的重碼率低，但詞組的重碼率高，因此五筆以避免過多重碼，普遍不適用大詞庫，但詞庫太小時，打字反而不方便；由于開始設(shè)計五筆輸入時是針對簡體字，雖然日后不斷改善，86、98五筆版都可以直接用繁體字編碼，但使用效果上還有待進一步優(yōu)化。為了減少重碼，五筆中有大量的無理碼，這不符合還在的結(jié)構(gòu)和書寫規(guī)范；不適合輸入只知道發(fā)音而忘記怎么寫的字；另外，五筆字型使用的是字根和碼元作為輸入時的助記符，86版使用130個字根，98版需要使用245個字根，記憶量要比拼音大。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提供一種五筆的長句連打輸入方法及其系統(tǒng)，通過建立雙向隱馬爾可夫BHMM模型，實現(xiàn)了五筆長句的準確連打，提高了輸入效率和打字速度，解決了大詞庫重碼率高、打字員五筆字根記憶負擔量大的問題。
[0005] 為解決上述技術(shù)問題，本發(fā)明的實施方式提供了一種五筆的長句連打輸入方法，包含以下步驟：
[0006] 預先建立雙向隱馬爾可夫BHMM模型；在所述BHMM模型中，長句中的每個漢字的出現(xiàn)概率由該漢字及該漢字的前T個漢字在數(shù)據(jù)庫中同時出現(xiàn)的次數(shù)、該漢字出現(xiàn)的次數(shù)、輸入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總次數(shù)、該漢字的前T個漢字同時出現(xiàn)的次數(shù)、該漢字及該漢字的后T個漢字同時出現(xiàn)的次數(shù)決定;所述T為大于1的自然數(shù)；
[0007] 持續(xù)接收用戶輸入的五筆碼；
[0008] 根據(jù)所述BHMM模型和所述持續(xù)接收到的五筆碼，獲取在該BHMM模型中出現(xiàn)概率最大的各漢字所組成的長句；
[0009] 輸出所述獲取的在該BHMM模型中出現(xiàn)概率最大的各漢字所組成的長句。
[0010] 與此相應(yīng)，本發(fā)明的另一個目的是提供五筆的長句連打輸入系統(tǒng)，包含:客戶端與云端服務(wù)器；
[0011] 云端服務(wù)器包含：
[0012] 模型建立模塊，用于預先建立雙向隱馬爾可夫BHMM模型;在所述BHMM模型中，長句中的每個漢字的出現(xiàn)概率由該漢字及該漢字的前T個漢字在數(shù)據(jù)庫中同時出現(xiàn)的次數(shù)、該漢字出現(xiàn)的次數(shù)、輸入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總次數(shù)、該漢字的前T個漢字同時出現(xiàn)的次數(shù)、該漢字及該漢字的后T個漢字同時出現(xiàn)的次數(shù)決定;所述T為大于1的自然數(shù)；
[0013] 匹配模塊，用于根據(jù)所述ΒΗΜΜ模型和來自所述客戶端的持續(xù)接收到的五筆碼，獲取在該ΒΗΜΜ模型中出現(xiàn)概率最大的各漢字所組成的長句；
[0014] 返回模塊，用于將所述匹配模塊獲取的長句返回至所述客戶端；
[0015] 所述客戶端包含：
[0016] 接收模塊，用于持續(xù)接收用戶輸入的五筆碼；
[0017] 發(fā)送模塊，用于將所述持續(xù)接收到的五筆碼發(fā)送至所述云端服務(wù)器；
[0018] 輸出模塊，用于輸出所述云端服務(wù)器返回的所述長句。
[0019] 本發(fā)明實施方式相對于現(xiàn)有技術(shù)而言，提供了一種五筆的長句輸入方法和長句輸入系統(tǒng)，通過建立雙向隱馬爾可夫ΒΗΜΜ模型，使得用戶通過五筆可以支持連打長句，不需要嚴格按照五筆輸入法規(guī)則去鍵入，一方面輸出高準確度高，另一方面解決了上述五筆輸入法缺點中大詞庫重碼率過多的問題。整體輸入效率和打字速度得到了提高，同時兩碼輸入也降低了打字員對五筆字根記憶量的要求。
[0020] 另外，在所述持續(xù)接收用戶輸入的五筆碼的步驟中，持續(xù)接收到的是每個漢字的前2個五筆碼，僅可通過兩碼完成對一個漢字的輸入，減少了鍵入的碼元，更加提高了打字的整體速度。
[0021 ]另外，所述ΒΗΜΜ模型建立在云端服務(wù)器內(nèi)；所述根據(jù)ΒΗΜΜ模型和所述持續(xù)接收到的五筆碼，獲取在該ΒΗΜΜ模型中出現(xiàn)概率最大的各漢字所組成的長句的步驟中，包含以下子步驟:客戶端將所述持續(xù)接收到的五筆碼實時發(fā)送至所述云端服務(wù)器，由所述云端服務(wù) 器根據(jù)ΒΗΜΜ模型和所述持續(xù)接收到的五筆碼，實時獲取所述長句，優(yōu)化了五筆轉(zhuǎn)化漢字的效率。
[0022] 另外，定義該雙向隱馬爾可夫ΒΗΜΜ模型中所述Τ為3,即四元雙向隱馬爾科夫模型。具體而言，就是在傳播過程中，當前狀態(tài)分別受其前和后三個狀態(tài)的影響，輸出的結(jié)果正確率較高，且速度也較快。采用四元雙向隱馬爾科夫模型，其效率高于三元及三元以下的模型精度，而采用比四元更高階的模型時，精度提升并非很明顯，消耗資源的速度非常迅速，且算法復雜度不斷提升，因此，通過采用四元雙向隱馬爾科夫模型，可以在控制算法復雜度的同時，保證算法的精度。
[0023] 另外，所述根據(jù)ΒΗΜΜ模型和所述持續(xù)接收到的五筆碼，獲取在該ΒΗΜΜ模型中出現(xiàn) 概率最大的各漢字所組成的長句的步驟中，根據(jù)以下公式獲取所述長句：
[0025] 其中，W1，W2，W3, . . .，WN表示獲取的所述長句中的各漢字，P(Zi |wi)表示在漢字Wi出現(xiàn)的情況下字根Zi出現(xiàn)的概率，Wi+l，Wi+2，Wi+3表示漢字Wi的后3個漢字，Wi-l，Wi-2，Wi-3表示漢字Wi的前3個漢字，1 < i <N，N為所述長句包含的漢字個數(shù)。
[0026] 另外，在所述持續(xù)接收用戶輸入的五筆碼后，根據(jù)所述ΒΗΜΜ模型和所述持續(xù)接收到的五筆碼，獲取在該ΒΗΜΜ模型中出現(xiàn)概率次大的各漢字所組成的長句;輸出所述出現(xiàn)概率次大的各漢字所組成的長句，方便用戶選擇。
【附圖說明】
[0027] 圖1是根據(jù)本發(fā)明第一實施方式的五筆的長句連打輸入方法的流程圖；
[0028] 圖2是根據(jù)本發(fā)明第二實施方式的五筆的長句連打輸入系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0029]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本發(fā)明的各實施方式進行詳細的闡述。然而，本領(lǐng)域的普通技術(shù)人員可以理解，在本發(fā)明各實施方式中，為了使讀者更好地理解本申請而提出了許多技術(shù)細節(jié)。但是，即使沒有這些技術(shù)細節(jié)和基于以下各實施方式的種種變化和修改，也可以實現(xiàn)本申請各權(quán)利要求所要求保護的技術(shù)方案。
[0030] 本發(fā)明第一實施方式涉及一種五筆的長句輸入方法，具體實現(xiàn)流程如圖1所示，詳述如下：
[0031] 在步驟S101中預先建立雙向隱馬爾可夫BHMM模型;在該BHMM模型中規(guī)定，長句中的每個漢字的出現(xiàn)概率由該漢字及該漢字的前3個漢字同時在數(shù)據(jù)庫中出現(xiàn)的次數(shù)、該漢字出現(xiàn)的次數(shù)、輸入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總次數(shù)、該漢字的前3個漢字同時出現(xiàn)的次數(shù)、該漢字及該漢字的后3個漢字同時出現(xiàn)的次數(shù)決定。其中，需要說明的是，本實施方式涉及的數(shù)據(jù)庫中存儲有各訓練語料及五筆碼元。
[0032]在步驟S102中，持續(xù)接收用戶輸入的五筆碼，在鍵盤上a至y的25個按鍵上按照五筆輸入法既定的規(guī)則分布有字根，持續(xù)接收的五筆碼是每個單字的前2個五筆碼，即在輸入長句或詞組時，每個字從五筆碼到漢字的轉(zhuǎn)化只用該字的其字的前2個五筆碼。
[0033]在步驟S103中，將持續(xù)接收到的五筆碼發(fā)送至云端服務(wù)器。
[0034]在步驟S104中，云端服務(wù)器根據(jù)BHMM模型和所述持續(xù)接收到的五筆碼，實時在該 BHMM模型中出現(xiàn)概率最大及次優(yōu)的各漢字所組成的長句。
[0035] 具體BHMM模型算法步驟如下所述：
[0036] 模型中，長句中的每個漢字的出現(xiàn)概率由該漢字及該漢字的前T個漢字在數(shù)據(jù)庫中同時出現(xiàn)的次數(shù)、該漢字出現(xiàn)的次數(shù)、輸入的字根轉(zhuǎn)換為該漢字的次數(shù)、該字根出現(xiàn)的總次數(shù)、該漢字的前T個漢字同時出現(xiàn)的次數(shù)、該漢字及該漢字的后T個漢字同時出現(xiàn)的次數(shù) 決定。在本實施方式中，以T為3為例進行說明；
[0037]假設(shè)…，心為漢字的字根，W1，W2，W3,…，w為輸出的漢字，在該模型的正向傳播過程中，即該字的五筆轉(zhuǎn)化成漢字是由該漢字的前T個漢字時決定時，輸出的句子為：
[0039]在本實施方式中采用四元雙向隱馬爾科夫模型（即T = 3)，也即，在傳播過程中，當前狀態(tài)受其前三個狀態(tài)的影響。所以最終，式(1)簡化為：
[0040]
[0041 ]其中，# ( Wi，Wi-1，Wi-2，Wi-3 )表示漢字Wi，Wi-1，Wi-2，Wi-3 同時出現(xiàn)的次數(shù)，# ( Wi )表示漢字^出現(xiàn)的總次數(shù);#(Z1，W1)表示字根21轉(zhuǎn)換為漢字^的次數(shù)，#( Z1)表示字根21出現(xiàn)的總次數(shù)。
[0042] 其實，正向傳播過程包括字根轉(zhuǎn)為漢字的過程和準確候選漢字，即通過式（1)計算得到值最大的輸出的過程。在反向傳播過程中，即該字的2個五筆轉(zhuǎn)化成漢字是由該漢字的后T個(

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周誠;趙世亭;
技術(shù)所有人：上海嵩恒網(wǎng)絡(luò)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)字五筆中文輸入系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種五筆的長句連打輸入方法及其系統(tǒng)的制作方法