中文文章偵錯(cuò)裝置、中文文章偵錯(cuò)方法以及儲存媒體的制作方法

文檔序號：6466595閱讀：149來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：中文文章偵錯(cuò)裝置、中文文章偵錯(cuò)方法以及儲存媒體的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明是有關(guān)于一種中文文章偵錯(cuò)裝置，特別是一種關(guān)于雙連字(bi-gram)切割機(jī)制的中文文章偵錯(cuò)裝置。
背景技術(shù)：
：有鑒于電腦的使用愈來愈普遍，人們大都依賴電腦來寫作文章。由于中文文字同一個(gè)音可能具有很多字，而同一個(gè)形也會有許多類似的同形字，因此導(dǎo)致了中文文字的繁瑣和復(fù)雜，使得寫作者極容易于文章中使用錯(cuò)別字。
發(fā)明內(nèi)容基于以上的考慮，需要一種可偵錯(cuò)中文文章的系統(tǒng)和方法，以解決因中文的繁瑣而導(dǎo)致的錯(cuò)別字問題。有鑒于此，本發(fā)明揭露一種中文文章偵錯(cuò)裝置，適用于處理一中文字串，其中中文字串包括位于第一位置的第一錯(cuò)誤字串。該裝置包括一文章切割模塊、一數(shù)據(jù)庫、一候選詞產(chǎn)生模塊、一候選句產(chǎn)生與評分模塊和一顯示裝置。文章切割模塊切割第一錯(cuò)誤字串為多個(gè)第一字組，其中第一字組為第一錯(cuò)誤字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。數(shù)據(jù)庫具有多個(gè)第一正確字串以及對應(yīng)于第一正確字串的多個(gè)第一索引，其中第一索引為第一正確字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。候選詞產(chǎn)生模塊根據(jù)第一字組取得對應(yīng)于第一字組的第一索引，并根據(jù)所取得的第一索引取得對應(yīng)的第一正確字串。候選句產(chǎn)生與評分模塊根據(jù)所取得的第一正確字串產(chǎn)生最佳候選句。顯示裝置顯示中文字串以及上述最佳候選句。本發(fā)明另外提供一種中文文章偵錯(cuò)方法，適用于處理一中文字串，其中中文字串包括位于第一位置的第一錯(cuò)誤字串。該方法包括切割第一錯(cuò)誤字串為多個(gè)第一字組，其中第一字組為第一錯(cuò)誤字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。提供一數(shù)據(jù)庫，其中數(shù)據(jù)庫具有多個(gè)第一正確字串，以及對應(yīng)于第一正確字串的多個(gè)第一索引，其中第一索引為第一正確字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。根據(jù)第一字組取得對應(yīng)于第一字組的第一索引，并根據(jù)所取得的第一索引取得對應(yīng)的第一正確字串。根據(jù)所取得的第一正確字串產(chǎn)生最佳候選句。最后于顯示裝置顯示中文字串以及最佳候選句。本發(fā)明另外揭露一種儲存媒體，用以儲存一中文文章偵錯(cuò)程序，中文文章偵錯(cuò)程序包括多個(gè)程序碼，其用以載入至一電腦系統(tǒng)中并且使得電腦系統(tǒng)執(zhí)行一種中文文章偵錯(cuò)方法，中文文章偵錯(cuò)方法適用于處理一中文字串，其中中文字串包括位于第一位置的第一錯(cuò)誤字串。切割第一錯(cuò)誤字串為多個(gè)第一字組，其中第一字組為第一錯(cuò)誤字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。儲存多個(gè)第一正確字串，以及對應(yīng)于第一正確字串的多個(gè)第一索引，其中第一索引為第一正確字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。根據(jù)第一字組取得對應(yīng)于第一字組的第一索引，并根據(jù)所取得的第一索引取得對應(yīng)的第一正確字串。根據(jù)所取得的第一正確字串產(chǎn)生一最佳候選句。最后，顯示中文字串以及最佳候選句。圖1顯示根據(jù)本發(fā)明所述的一中文文章偵錯(cuò)裝置100的實(shí)施例；圖2顯示根據(jù)本發(fā)明所述的中文文章偵錯(cuò)裝置100的動作流程圖；圖3顯示根據(jù)本發(fā)明一實(shí)施例所述的中文字串Str的結(jié)構(gòu)說明圖；圖4顯示根據(jù)本發(fā)明一實(shí)施例所述的多個(gè)候選句的產(chǎn)生機(jī)制；以及圖5顯示根據(jù)本發(fā)明一實(shí)施例所述的候選句評分機(jī)制的說明圖。附圖標(biāo)號110文章接收模塊120文章切割模塊130正確語言數(shù)據(jù)庫140錯(cuò)誤語言數(shù)據(jù)庫150候選詞產(chǎn)生模塊160候選句產(chǎn)生與評分模塊170相似字?jǐn)?shù)據(jù)庫180同音字?jǐn)?shù)據(jù)庫190語言模型數(shù)據(jù)庫200文章標(biāo)示模塊210顯示裝置Art中文文章Str中文字串具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉較佳實(shí)施例，并配合所附圖式，作詳細(xì)說明如下圖1顯示根據(jù)本發(fā)明所述的一中文文章偵錯(cuò)裝置100的實(shí)施例。中文文章偵錯(cuò)裝置100包括一文章接收模塊110、一文章切割模塊120、一正確語言數(shù)據(jù)庫130、一錯(cuò)誤語言數(shù)據(jù)庫140、一候選詞產(chǎn)生模塊150、一候選句產(chǎn)生與評分模塊160、一相似字?jǐn)?shù)據(jù)庫170、一同音字?jǐn)?shù)據(jù)庫180、一語言模型數(shù)據(jù)庫190、一文章標(biāo)示模塊200和一顯示裝置210。文章接收模塊IIO用以接收一中文文章Art，并將中文文章Art傳送給文章切割模塊120以進(jìn)行文章的切割。正確語言數(shù)據(jù)庫130用以儲存成語典故、俚語、專有名詞、詩詞(僅為舉例)的正確語言數(shù)據(jù)，并具有多個(gè)第一正確字串以及對應(yīng)于第一正確字串的多個(gè)第一索引。錯(cuò)誤語言數(shù)據(jù)庫140用以儲存常用的辭匯錯(cuò)誤和其正確的辭匯，并具有多個(gè)第二索引和第二索引所對應(yīng)的多個(gè)第二正確字串。候選詞產(chǎn)生模塊150用以取得第一正確字串，并設(shè)定第一正確字串為第一候選詞，以及取得第二正確字串，并設(shè)定第二正確字串為第二候選詞。候選句產(chǎn)生與評分模塊160用以根據(jù)第一候選詞和第二候選詞產(chǎn)生多個(gè)候選句，并使用一候選句評分機(jī)制，根據(jù)相似字?jǐn)?shù)據(jù)庫170、同音字?jǐn)?shù)據(jù)庫180和語言模型數(shù)據(jù)庫190的數(shù)據(jù)評分候選句以產(chǎn)生最佳候選句。8文章標(biāo)示模塊200用以標(biāo)示中文文章Art和最佳候選句于顯示裝置210之上。以上是中文文章偵錯(cuò)裝置100的簡單介紹，其所有元件的動作流程將于以下詳細(xì)說明。圖2顯示根據(jù)本發(fā)明所述的中文文章偵錯(cuò)裝置100的動作流程圖。在步驟S100中，文章接收模塊110接收中文文章Art。在步驟S110中，文章切割模塊120執(zhí)行文章Art的切割。文章切割模塊120首先將文章Art根據(jù)標(biāo)點(diǎn)符號切割成多個(gè)中文句子，每一句子代表一中文字串。舉例來說，假設(shè)中文文章Art的敘述如下"外面的世界充滿旌旗，令他忍不住躍躍浴室，也因此嘗扁各種酸甜苦臘。"，則文章切割模塊120根據(jù)標(biāo)點(diǎn)符號(在此情況中為逗點(diǎn)和句點(diǎn))將中文文章Art切割成三個(gè)中文字串"外面的世界充滿旌旗"、"令他忍不住躍躍浴室"，以及"也因此嘗扁各種酸甜苦臘"。將中文文章Art切割成多個(gè)中文字串之后，接著就是個(gè)別中文字串的切割處理。在進(jìn)行中文字串的切割之前，先說明其相關(guān)定義。以中文字串Str"也因此嘗扁各種酸甜苦臘"的例子來說，其具有位于第一位置的第一錯(cuò)誤字串"酸甜苦臘"和位于第二位置的第二錯(cuò)誤字串"嘗扁"。其中第一位置代表中文字串Str中第8至11個(gè)字元的位置，而第二位置代表中文字串Str中第4至5個(gè)字元的位置，如圖3所示。在此實(shí)施例中，文章切割模塊120采用跳躍式bi-gmm的機(jī)制切割，將中文字串Str中任兩個(gè)連續(xù)和不連續(xù)的字元切割成多個(gè)第一字組。中文字串Str中任兩個(gè)連續(xù)的字元代表下列的第一字組12、23、34...，其中12代表中文字串Str中第1和第2個(gè)字元所組成的第一字組，23代表中文字串Str中第2和第3個(gè)字元所組成的第一字組，依此類推。另外，中文字串Str中任兩個(gè)不連續(xù)的字元可代表下列的第一字組13、35、57...24、46、68…，其中13代表中文字串中第1和第3個(gè)字元所組成的第一字組，35代表中文字串中第3和第5個(gè)字元所組成的第一字組，亦即間隔一個(gè)字元。另外，中文字串Str中任兩個(gè)不連續(xù)的字元亦可代表下列的第一字組14、47...25、58...36、69...，其中14代表中文字串中第1和第4個(gè)字元所組成的第一字組，47代表中文字串中第4和第7個(gè)字元所組成的第一字組，亦即間隔二個(gè)字元。綜上所述，中文字串Str"也因此嘗扁各種酸甜苦臘"可切割成以下的第一字組表一中文字串Str的第一字組N第一字組0也因因此此嘗嘗扁扁各各種種酸酸甜甜苦苦臘1也此此扁扁種種甜甜臘因嘗嘗各各酸酸苦2也嘗嘗種種苦因扁扁酸酸臘此各各甜其中N代表在切割中文字串Str為第一字組時(shí)，第一字組的兩個(gè)字元于中文字串Str中所間隔的字元數(shù)目。N=0代表第一字組的兩個(gè)字元于中文字串Str中所間隔的字元數(shù)目為0，N=l代表第一字組的兩個(gè)字元于中文字串Str中所間隔的字元數(shù)目為1，N-2代表第一字組的兩個(gè)字元于中文字串Str中所間隔的字元數(shù)目為2。完成步驟S110中中文文章Art的切割之后，接著在步驟S120中提供正確語言數(shù)據(jù)庫130和錯(cuò)誤語言數(shù)據(jù)庫140。必須注意的是，在步驟S120中可以只提供一個(gè)數(shù)據(jù)庫，其中具有正確語言數(shù)據(jù)庫130和錯(cuò)誤語言數(shù)據(jù)庫140所儲存的相關(guān)數(shù)據(jù)，因此以上的第一和第二數(shù)據(jù)庫僅為方便說明之用，并非用以限定本發(fā)明。如上所述，正確語言數(shù)據(jù)庫130具有多個(gè)第一正確字串以及對應(yīng)于第一正確字串的多個(gè)第一索引，其中對應(yīng)于第一正確字串的多個(gè)第一索引是根據(jù)上述bi-gram的機(jī)制切割第一正確字串而得，如同文章切割模塊120切割中文字串Str而得表一所示的第一字組。舉例來說，假設(shè)正確語言數(shù)據(jù)庫130具有成語"酸甜苦辣"和專有名詞"以太網(wǎng)絡(luò)"的兩組第一正確字串(兩組僅為舉例說明之用，可為更多組)。在這情況下，正確語言數(shù)據(jù)庫130內(nèi)所儲存的數(shù)據(jù)可為表二所示表二正確語言數(shù)據(jù)庫130的數(shù)據(jù)格式第一索引第一正確字串酸甜甜苦苦辣酸苦甜辣酸辣酸甜苦辣以太太網(wǎng)網(wǎng)絡(luò)以網(wǎng)太絡(luò)以絡(luò)以太網(wǎng)絡(luò)在步驟S130中，候選詞產(chǎn)生模塊150根據(jù)第一字組取得對應(yīng)于第一字組的第一索引，并根據(jù)所取得的第一索引取得對應(yīng)的第一正確字串。更明確地說，候選詞產(chǎn)生模塊150根據(jù)表一所示的第一字組于表二中找尋是否有相同的第一索引，如果有的話就取得該第一索引，并接著取得該第一索引所對應(yīng)的第一正確字串。舉例來說，候選詞產(chǎn)生模塊150首先根據(jù)表一"也因"的第一字組于表二中找尋是否有相同的第一索引。由于表二中沒有"也因"的第一索引，因此候選詞產(chǎn)生模塊150繼續(xù)根據(jù)下一個(gè)第一字組"因此"于表二中找尋是否有相同的第一索引。同樣地，由于表二中沒有"因此"的第一索引，因此候選詞產(chǎn)生模塊150繼續(xù)根據(jù)下一個(gè)第一字組"此嘗"于表二中找尋是否有相同的第一索引等，重復(fù)上述的步驟直到所有的第一字組都找過為止。在這期間，當(dāng)處理到"酸甜"的第一字組時(shí)，候選詞產(chǎn)生模塊150可于表二中找到"酸甜"的第一索引，因此候選詞產(chǎn)生模塊150進(jìn)行取得該第一索引(亦即"酸甜")的動作。取得該第一索引之后，候選詞產(chǎn)生模塊150根據(jù)所取得的第一索引"酸甜"取得其所對應(yīng)的第一正確字串，也就是"酸甜苦辣"。同樣地，當(dāng)處理到"酸苦"的第一字組時(shí)，其同樣也可從表二中找到"酸苦"的第一索引，因此同樣取得"酸甜苦辣"的第一正確字串。取得對應(yīng)的第一正確字串"酸甜苦辣"后，接著在步驟S140中對所取得的第一正確字串進(jìn)行原詞相似度的過濾，并將過濾出的第一正確字串設(shè)定為第一候選詞。過濾的方式就是依照所取得的第一正確字串在中文字串Str中所出現(xiàn)的字?jǐn)?shù)來決定其原詞相似度，并判斷其原詞相似度是否大于經(jīng)驗(yàn)門檻值。以這個(gè)例子來說，所取得的四字第一正確字串"酸甜苦辣"在中文字串Str"也因此嘗扁各種酸甜苦臘"中出現(xiàn)了三個(gè)字"酸甜苦"，只有"辣"沒有出現(xiàn)，因此其原詞相似度是75%(四個(gè)字中出現(xiàn)三個(gè)字)，而預(yù)設(shè)的經(jīng)驗(yàn)門檻值是60%(非限定)，表示所取得的第一正確字串"酸甜苦辣"的原詞相似度有大于經(jīng)驗(yàn)門檻值，因此可將所取得的第一正確字串"酸甜苦辣"設(shè)定為第一候選詞，其中第一候選詞是對應(yīng)于圖3中的第一錯(cuò)誤字串和第一位置。該第一候選詞是用以決定一最佳候選句，此點(diǎn)將于以下詳細(xì)說明。以上所述的處理過程是針對中文字串Str中的第一錯(cuò)誤字串"酸甜苦臘"，以下將探討中文字串Str中第二錯(cuò)誤字串"嘗扁"的處理。如上所述，錯(cuò)誤語言數(shù)據(jù)庫140具有多個(gè)第二索引和第二索引所對應(yīng)的多個(gè)第二正確字串。在這情況下，假設(shè)錯(cuò)誤語言數(shù)據(jù)庫MO儲存五組的第二索引以及其所對應(yīng)的兩組第二正確字串(僅為舉例說明之用，實(shí)際情況可包括更多組)，如下表三所示-表三錯(cuò)誤語言數(shù)據(jù)庫140的數(shù)據(jù)格式二第二索引第二正確字串嘗扁嘗片嘗遍嘗遍棕子綜子粽子其中第二索引代表一般使用者時(shí)常寫錯(cuò)的辭匯，第二正確字串代表這些時(shí)常寫錯(cuò)的辭匯所對應(yīng)的正確詞匯。以表三來說，第二正確字串的"粽子"為正確用語，而使用者可能常常將"粽子"誤寫為"棕子"或"綜子"，造成這個(gè)錯(cuò)誤的原因主要是誤寫的"棕子"或"綜子"與正確詞匯"粽子"具有同形的特性。同樣地，使用者可能常常將"嘗遍"誤寫為"嘗扁"(由于同形特性)或"嘗片"(由于同音特性)。這時(shí)候，本發(fā)明是把常常寫錯(cuò)的辭匯"棕子"和"綜子"事先定義為第二索引儲存于錯(cuò)誤語言數(shù)據(jù)庫140中，然后再定義其所對應(yīng)的正確詞匯為第二正確字串儲存于錯(cuò)誤語言數(shù)據(jù)庫140中。說明了錯(cuò)誤語言數(shù)據(jù)庫140所儲存的數(shù)據(jù)格式之后，接著流程進(jìn)行至步驟S150。在步驟S150中，候選詞產(chǎn)生模塊150根據(jù)第二索引產(chǎn)生第二候選詞。第二候選詞產(chǎn)生的過程為首先候選詞產(chǎn)生模塊150判斷第二錯(cuò)誤字串是否與第二索引相同，當(dāng)?shù)诙e(cuò)誤字串與第二索引的其中一者相同時(shí)，取得與第二錯(cuò)誤字串相同的第二索引所對應(yīng)的第二正確字串，并將所取得的第二正確字串設(shè)定為第二候選詞。以上述的例子來說，候選詞產(chǎn)生模塊150首先判斷表一"也因"的第一字組是否與表三中的第二索引相同。由于表三的五組第二索引中沒有"也因"的相同字，因此候選詞產(chǎn)生模塊150繼續(xù)判斷下一個(gè)"因此"的第一字組是否與表三中的第二索引相同。同樣地，由于表三的五組第二索引中沒有"因此"的相同字，因此候選詞產(chǎn)生模塊150繼續(xù)判斷下一個(gè)"此嘗"的第一字組是否與表三中的第二索引相同等，重復(fù)上述步驟直到判斷完所有的第一字組為止。在這期間，當(dāng)處理到輪到"嘗扁"的第一字組時(shí)(亦即第二錯(cuò)誤字串)，候選詞產(chǎn)生模塊150判斷第二錯(cuò)誤字串(嘗扁)的確與第二索引的其中一者相同，因此取得與第二錯(cuò)誤字串相同的第二索引所對應(yīng)的第二正確字串，也就是取得"嘗遍"的第二正確字串。接著候選詞產(chǎn)生模塊150將所取得的第二正確字串"嘗遍"設(shè)定為第二候選詞，其中第二候選詞是對應(yīng)于圖3中的第二錯(cuò)誤字串和第二位置。產(chǎn)生第二候選詞之后，現(xiàn)在我們有第一候選詞和第二候選詞，因此接下來于步驟S160中要進(jìn)行第一候選詞和第二候選詞的處理。在步驟S160中，候選句產(chǎn)生與評分模塊160根據(jù)第一錯(cuò)誤字串、第二錯(cuò)誤字串、第一候選詞和第二候選詞產(chǎn)生多個(gè)候選句，并產(chǎn)生最佳候選句。候選句產(chǎn)生的過程是候選句產(chǎn)生與評分模塊160首先將第一錯(cuò)誤字串、第二錯(cuò)誤字串、第一候選詞和第二候選詞根據(jù)其分別對應(yīng)的位置取代至中文字串Str中的第一位置和第二位置，并產(chǎn)生各種可能組合的多個(gè)候選句，然后再根據(jù)一候選句評分機(jī)制評分多個(gè)候選句，并將評分最高的候選句設(shè)定為最佳候選句。圖4顯示根據(jù)本發(fā)明的一實(shí)施例所述的中文字串Str的所有可能的候選句組合。如圖4所示，候選句產(chǎn)生與評分模塊160可根據(jù)第一錯(cuò)誤字串、第二錯(cuò)誤字串、第一候選詞和第二候選詞產(chǎn)生如下的四組候選句"也因此嘗扁各種酸甜苦臘"、"也因此嘗扁各種酸甜苦辣"、"也因此嘗遍各種酸甜苦臘"和"也因此嘗遍各種酸甜苦辣"。圖5顯示根據(jù)本發(fā)明所述的候選句評分機(jī)制的實(shí)施例。根據(jù)所產(chǎn)生的四組候選句，候選句產(chǎn)生與評分模塊160可使用候選句的使用頻率(PPL)、候選句和中文字串Str(原句)之間的句相似度(SS)、音相似度(PS)和形相似度(WS)來評分四組候選句。其中，候選句的使用頻率是表示特定領(lǐng)域的語言模型，例如醫(yī)學(xué)、天文等各式各樣的知識領(lǐng)域等。候選句和原句之間句相似度的定義為候選句字?jǐn)?shù)與候選句與原句相異字?jǐn)?shù)之差與原句字?jǐn)?shù)的比例候選句字?jǐn)?shù)-候選句與原句相異字?jǐn)?shù)(原句字?jǐn)?shù))。候選句和原句之間音相似度的定義為候選句字?jǐn)?shù)與候選句與原句非同音字?jǐn)?shù)之差與原句字?jǐn)?shù)的比例候選句字?jǐn)?shù)-候選句中非同音字(原句字?jǐn)?shù))。候選句和原句之間形相似度的定義為候選句字?jǐn)?shù)與候選句與原句非同形字?jǐn)?shù)之差與原句字?jǐn)?shù)的比例候選句字?jǐn)?shù)-候選句中非相似字。綜上所述，根據(jù)以上的四個(gè)因素來對候選句評分，而得評分的SCORE計(jì)算公式如下SCOi五=wl*尸尸￡+w2*+w3*尸S+w4*將其中wl代表候選句的使用頻率的權(quán)重、w2代表候選句與原句的句相似度的權(quán)重、w3代表候選句與原句的音相似度的權(quán)重，以及w4代表候選句與原句的形相似度的權(quán)重。又，候選句的使用頻率可包括多個(gè)領(lǐng)域的語言模型，因此根據(jù)圖5，候選句的使用頻率PPL可根據(jù)以下公式計(jì)算<formula>formulaseeoriginaldocumentpage15</formula>其中PPLi代表第一種語言模型，PPL2代表第二種語言模型。根據(jù)以上的公式評分候選句，實(shí)驗(yàn)中所給定的參數(shù)如下<formula>formulaseeoriginaldocumentpage15</formula>則圖4的句子D"也因此嘗遍各種酸甜苦辣"得到最高的評分，因此接下來候選句產(chǎn)生與評分模塊160將該候選句設(shè)定為最佳候選句。最后，在步驟S170中，文章標(biāo)示模塊200于顯示裝置210之上顯示原句和最佳候選句之間所修改的部分。本發(fā)明的動作詳述如上，必須要注意的是，在不脫離本發(fā)明的精神下，以上所詳述的流程是可以變動的。舉例來說，不一定要先產(chǎn)生第一候選詞然后再產(chǎn)生第二候選詞，第一和第二候選詞的產(chǎn)生可以是相反于以上的步驟，或是同時(shí)產(chǎn)生的。此外，在上述的實(shí)施例中，第二錯(cuò)誤字串是"嘗扁"，其為兩個(gè)字元所構(gòu)成。但在另外一種情況中，其可能為更多的字元所構(gòu)成。舉例來說，考慮以下的中文字串"想用著美味的佳肴"。在這情況下，"想用"本身是正確的表達(dá)方式，而當(dāng)"想用"和"佳肴"同時(shí)出現(xiàn)在一句子中時(shí)，"想用"就可能是錯(cuò)的。因?yàn)檎_的用語是"享用著美味的佳肴"，而由于"享"和"想"的同音特性，使得使用者容易使用到同音但卻是錯(cuò)誤的字。為了解決這個(gè)問題，本發(fā)明以下的實(shí)施例將提供解決方案。在本實(shí)施例中，沿用錯(cuò)誤語言數(shù)據(jù)庫140中的表三并加入新的參數(shù)和內(nèi)容，如以下的表四所示<table>tableseeoriginaldocumentpage15</column></row><table><table>tableseeoriginaldocumentpage16</column></row><table>在錯(cuò)誤語言數(shù)據(jù)庫140中，第一和第二列是原本的內(nèi)容，第三和第四列是本實(shí)施例新增的內(nèi)容。因此，在第三和第四列中，第二索引除了對應(yīng)到第二正確字串之外，更對應(yīng)到內(nèi)文。當(dāng)然，以上的數(shù)據(jù)僅為說明之用，并非用以限定本發(fā)明。根據(jù)以上的中文字串"想用著美味的佳肴"，由于"佳佳"和"想用"本身單獨(dú)來看是正確的用語，不像"嘗扁"和"綜子"本身就是錯(cuò)誤的，因此可以立刻找到正確的用語"嘗遍"和"粽子"。在這情況下，雖然"佳佳"和"想用"本身是正確的用語，但當(dāng)句子中出現(xiàn)特定字串的時(shí)候，"佳佳"和"想用"就會變成錯(cuò)誤的用語。因此在本實(shí)施例中，本發(fā)明將這些特定的字串定義為內(nèi)文(如表四第三欄所示)，并事先儲存于錯(cuò)誤語言數(shù)據(jù)庫140中。以下將敘述本發(fā)明的偵錯(cuò)步驟。首先中文字串"想用著美味的佳肴"具有錯(cuò)誤字串"想用"，且同樣以bi-gmm切割成多個(gè)的字組，其切割的原理跟結(jié)果與表一相同，故在此不再重復(fù)敘述。首先候選詞產(chǎn)生模塊150判斷字組"想用"是否與表四的第二索引相同，由于表四中具有"想用"的第二索引，因此候選詞產(chǎn)生模塊150取得該第二索引所對應(yīng)的內(nèi)文，亦即取得"佳肴"的內(nèi)文。接著候選詞產(chǎn)生模塊150判斷中文字串中是否包括所取得的內(nèi)文(佳肴)，如果有的話，代表"想用"是錯(cuò)的字串，如果沒有則表示"想用"是正確的字串，因此繼續(xù)處理其他的字組。由于中文字串中的確包括"佳肴"的字串，因此候選詞產(chǎn)生模塊150接著取得相同于錯(cuò)誤字串(想用)的第二索引(想用)所對應(yīng)的第二正確字串(享用)，并將所取得的第二正確字串設(shè)定為第二候選詞。在本實(shí)施例中，中文字串"想用著美味的佳肴"只有一個(gè)錯(cuò)誤字串中文字串"想用"，因此只可以產(chǎn)生一個(gè)候選詞。雖然以上的步驟產(chǎn)生第二候選詞，但第二候選詞也是唯一的候選詞。熟悉本領(lǐng)域的人員必須要了解的是，若一中文字串有N個(gè)錯(cuò)誤字串，則本發(fā)明會產(chǎn)生N個(gè)候選詞，并根據(jù)N個(gè)候選詞產(chǎn)生2N個(gè)組合的候選句(包括原句)。另外，本發(fā)明的中文文章偵錯(cuò)方法是可用程序的形式記錄于儲存媒體(例如光盤片、磁盤片與抽取式硬盤等等)之中，以便執(zhí)行上述流程的動作。在此，中文文章偵錯(cuò)方法的程序基本上是由多數(shù)個(gè)程序碼片段所組成的，并且這些程序碼片段的功能是對應(yīng)到上述方法的步驟與上述系統(tǒng)的功能方塊圖。本發(fā)明雖以較佳實(shí)施例揭露如上，然其并非用以限定本發(fā)明的范圍，任何熟悉本領(lǐng)域的技術(shù)人員，在不脫離本發(fā)明的精神和范圍內(nèi)，當(dāng)可做些許的更動與潤飾，因此本發(fā)明的保護(hù)范圍當(dāng)視所附的權(quán)利要求所界定為準(zhǔn)。權(quán)利要求1、一種中文文章偵錯(cuò)方法，適用于處理一中文字串，其特征在于，上述中文字串包括位于一第一位置的一第一錯(cuò)誤字串，包括切割上述第一錯(cuò)誤字串為多個(gè)第一字組，其中上述第一字組為上述第一錯(cuò)誤字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成；提供一數(shù)據(jù)庫，其中上述數(shù)據(jù)庫具有多個(gè)第一正確字串，以及對應(yīng)于上述第一正確字串的多個(gè)第一索引，其中上述第一索引為上述第一正確字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成；根據(jù)上述第一字組取得對應(yīng)于上述第一字組的上述第一索引，并根據(jù)所取得的上述第一索引取得對應(yīng)的上述第一正確字串；根據(jù)所取得的上述第一正確字串產(chǎn)生一最佳候選句；以及于一顯示裝置顯示上述中文字串以及上述最佳候選句。2、如權(quán)利要求l所述的中文文章偵錯(cuò)方法，其特征在于，上述最佳候選句的產(chǎn)生是借著將上述中文字串中的上述第一錯(cuò)誤字串以所取得的上述第一正確字串取代。3、如權(quán)利要求1所述的中文文章偵錯(cuò)方法，其特征在于，上述中文字串更包括位于一第二位置的一第二錯(cuò)誤字串，上述數(shù)據(jù)庫更具有多個(gè)第二索引和上述第二索引所對應(yīng)的多個(gè)第二正確字串，并且上述方法更將所取得的上述第一正確字串設(shè)定為一第一候選詞，并根據(jù)上述第二索引產(chǎn)生一第二候選詞。4、如權(quán)利要求3所述的中文文章偵錯(cuò)方法，其特征在于，更包括判斷上述第二錯(cuò)誤字串是否與上述第二索引相同。5、如權(quán)利要求4所述的中文文章偵錯(cuò)方法，其特征在于，當(dāng)上述第二錯(cuò)誤字串與上述第二索引的其中一者相同時(shí)，取得與上述第二錯(cuò)誤字串相同的上述第二索引所對應(yīng)的上述第二正確字串，并將所取得的上述第二正確字串設(shè)定為上述第二候選詞。6、如權(quán)利要求5所述的中文文章偵錯(cuò)方法，其特征在于，更包括將上述第一錯(cuò)誤字串、上述第二錯(cuò)誤字串、上述第一候選詞和上述第二候選詞根據(jù)其分別對應(yīng)的位置取代至上述中文字串中的上述第一位置和上述第二位置，并產(chǎn)生各種可能組合的多個(gè)候選句。7、如權(quán)利要求6所述的中文文章偵錯(cuò)方法，其特征在于，更包括根據(jù)一候選句評分機(jī)制評分上述候選句以產(chǎn)生上述最佳候選句。8、如權(quán)利要求7所述的中文文章偵錯(cuò)方法，其特征在于，上述候選句評分機(jī)制是根據(jù)上述候選句的使用頻率、上述候選句和上述中文字串之間的句相似度、音相似度和形相似度來評分上述候選句，且上述使用頻率包括至少一語言模型。9、如權(quán)利要求4所述的中文文章偵錯(cuò)方法，其特征在于，上述數(shù)據(jù)庫更具有上述第二索引所對應(yīng)的多個(gè)內(nèi)文，當(dāng)上述第二錯(cuò)誤字串與上述第二索引的其中一者相同時(shí)，取得與上述第二錯(cuò)誤字串相同的上述第二索引所對應(yīng)的上述內(nèi)文，并判斷上述中文字串之中是否包括所取得的上述內(nèi)文。10、如權(quán)利要求9所述的中文文章偵錯(cuò)方法，其特征在于，更包括當(dāng)上述中文字串之中包括所取得的上述內(nèi)文時(shí)，取得相同于上述第二錯(cuò)誤字串的上述第二索引所對應(yīng)的上述第二正確字串，并將所取得的上述第二正確字串設(shè)定為上述第二候選詞。11、一種中文文章偵錯(cuò)裝置，適用于處理一中文字串，其特征在于，上述中文字串包括位于一第一位置的一第一錯(cuò)誤字串，包括一文章切割模塊，切割上述第一錯(cuò)誤字串為多個(gè)第一字組，其中上述第一字組為上述第一錯(cuò)誤字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成；一數(shù)據(jù)庫，具有多個(gè)第一正確字串以及對應(yīng)于上述第一正確字串的多個(gè)第一索引，其中上述第一索引為上述第一正確字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成；一候選詞產(chǎn)生模塊，根據(jù)上述第一字組取得對應(yīng)于上述第一字組的上述第一索引，并根據(jù)所取得的上述第一索引取得對應(yīng)的上述第一正確字串；一候選句產(chǎn)生與評分模塊，根據(jù)所取得的上述第一正確字串產(chǎn)生一最佳候選句；以及一顯示裝置，顯示上述中文字串以及上述最佳候選句。12、如權(quán)利要求11所述的中文文章偵錯(cuò)裝置，其特征在于，上述最佳候選句的產(chǎn)生是借著將上述中文字串中的上述第一錯(cuò)誤字串以所取得的上述第一正確字串取代。13、如權(quán)利要求ll所述的中文文章偵錯(cuò)裝置，其特征在于，上述中文字串更包括位于一第二位置的一第二錯(cuò)誤字串，上述數(shù)據(jù)庫更具有多個(gè)第二索引和上述第二索引所對應(yīng)的多個(gè)第二正確字串，上述候選詞產(chǎn)生模塊更將所取得的上述第一正確字串設(shè)定為一第一候選詞，并根據(jù)上述第二索引產(chǎn)生一第二候選詞。14、如權(quán)利要求13所述的中文文章偵錯(cuò)裝置，其特征在于，上述候選詞產(chǎn)生模塊更判斷上述第二錯(cuò)誤字串是否與上述第二索引相同。15、如權(quán)利要求14所述的中文文章偵錯(cuò)裝置，其特征在于，當(dāng)上述第二錯(cuò)誤字串與上述第二索引的其中一者相同時(shí)，上述候選詞產(chǎn)生模塊取得與上述第二錯(cuò)誤字串相同的上述第二索引所對應(yīng)的上述第二正確字串，并將所取得的上述第二正確字串設(shè)定為上述第二候選詞。16、如權(quán)利要求15所述的中文文章偵錯(cuò)裝置，其特征在于，上述候選句產(chǎn)生與評分模塊更將上述第一錯(cuò)誤字串、上述第二錯(cuò)誤字串、上述第一候選詞和上述第二候選詞根據(jù)其分別對應(yīng)的位置取代至上述中文字串中的上述第一位置和上述第二位置，并產(chǎn)生各種可能組合的多個(gè)候選句。17、如權(quán)利要求16所述的中文文章偵錯(cuò)裝置，其特征在于，上述候選句產(chǎn)生與評分模塊更根據(jù)一候選句評分機(jī)制評分上述候選句以產(chǎn)生上述最佳候選。18、如權(quán)利要求17所述的中文文章偵錯(cuò)裝置，其特征在于，更包括一相似字?jǐn)?shù)據(jù)庫、一同音字?jǐn)?shù)據(jù)庫以及至少一語言模型數(shù)據(jù)庫，其中上述候選句評分機(jī)制是根據(jù)上述候選句和上述中文字串之間的句相似度、上述相似字?jǐn)?shù)據(jù)庫、上述同音字?jǐn)?shù)據(jù)庫和至少上述語言模型數(shù)據(jù)庫的數(shù)據(jù)來評分上述候選句。19、如權(quán)利要求14所述的中文文章偵錯(cuò)裝置，其特征在于，上述數(shù)據(jù)庫更具有上述第二索引所對應(yīng)的多個(gè)內(nèi)文，當(dāng)上述第二錯(cuò)誤字串與上述第二索引的其中一者相同時(shí)，上述候選詞產(chǎn)生模塊取得與上述第二錯(cuò)誤字串相同的上述第二索引所對應(yīng)的上述內(nèi)文，并判斷上述中文字串之中是否包括所取得的上述內(nèi)文。20、如權(quán)利要求19所述的中文文章偵錯(cuò)裝置，其特征在于，當(dāng)上述中文字串之中包括所取得的上述內(nèi)文時(shí)，上述候選詞產(chǎn)生模塊取得相同于上述第二錯(cuò)誤字串的上述第二索引所對應(yīng)的上述第二正確字串，并將所取得的上述第二正確字串設(shè)定為上述第二候選詞。21、一種儲存媒體，其特征在于，用以儲存一中文文章偵錯(cuò)程序，上述中文文章偵錯(cuò)程序包括多個(gè)程序碼，其用以載入至一電腦系統(tǒng)中并且使得上述電腦系統(tǒng)執(zhí)行一種中文文章偵錯(cuò)方法，上述中文文章偵錯(cuò)方法適用于處理一中文字串，其中上述中文字串包括位于一第一位置的一第一錯(cuò)誤字串，包括切割上述第一錯(cuò)誤字串為多個(gè)第一字組，其中上述第一字組為上述第一錯(cuò)誤字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成；儲存多個(gè)第一正確字串，以及對應(yīng)于上述第一正確字串的多個(gè)第一索引，其中上述第一索引為上述第一正確字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成；根據(jù)上述第一字組取得對應(yīng)于上述第一字組的上述第一索引，并根據(jù)所取得的上述第一索引取得對應(yīng)的上述第一正確字串；根據(jù)所取得的上述第一正確字串產(chǎn)生一最佳候選句；以及顯示上述中文字串以及上述最佳候選句。全文摘要本發(fā)明揭露一種中文文章偵錯(cuò)裝置、中文文章偵錯(cuò)方法以及儲存媒體，其中，中文文章偵錯(cuò)裝置，適用于處理中文字串，中文字串包括第一錯(cuò)誤字串。包括文章切割模塊、數(shù)據(jù)庫、候選詞產(chǎn)生模塊、候選句產(chǎn)生與評分模塊和顯示裝置。文章切割模塊切割第一錯(cuò)誤字串為多個(gè)第一字組，第一字組為第一錯(cuò)誤字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。數(shù)據(jù)庫具有多個(gè)第一正確字串和多個(gè)第一索引，第一索引為第一正確字串中任兩個(gè)連續(xù)和不連續(xù)的字元所組成。候選詞產(chǎn)生模塊取得對應(yīng)于第一字組的第一索引，并取得對應(yīng)的第一正確字串。候選句產(chǎn)生與評分模塊產(chǎn)生最佳候選句。顯示裝置顯示中文字串以及上述最佳候選句。文檔編號G06F17/30GK101685438SQ20081014925公開日2010年3月31日申請日期2008年9月22日優(yōu)先權(quán)日2008年9月22日發(fā)明者吳世弘,洪大弘,王文男,謝文泰,圳谷申請人:財(cái)團(tuán)法人資訊工業(yè)策進(jìn)會

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：谷圳;吳世弘;王文男;謝文泰;洪大弘
技術(shù)所有人：財(cái)團(tuán)法人資訊工業(yè)策進(jìn)會
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>