一種改錯(cuò)模型訓(xùn)練方法、裝置和文本改錯(cuò)方法、裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種改錯(cuò)模型訓(xùn)練方法、裝置和文本改錯(cuò)方法、裝置。該方法包括:搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串;根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立改錯(cuò)模型。應(yīng)用本發(fā)明能夠提供一種利用其進(jìn)行文本改錯(cuò)時(shí)具備較高錯(cuò)誤召回率和改錯(cuò)準(zhǔn)確性的改錯(cuò)模型,提高文本改錯(cuò)的錯(cuò)誤召回率和改錯(cuò)的準(zhǔn)確性。
【專利說(shuō)明】一種改錯(cuò)模型訓(xùn)練方法、裝置和文本改錯(cuò)方法、裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種改錯(cuò)模型訓(xùn)練方法、裝置和文本改錯(cuò)方法、裝置。
【背景技術(shù)】
[0002]人們?nèi)粘9ぷ骱蜕钪杏玫降奈谋境3?huì)帶有錯(cuò)別字、拼寫錯(cuò)誤的詞等錯(cuò)誤字符串,如何識(shí)別并改正文本中的錯(cuò)誤字符串,是當(dāng)前信息處理【技術(shù)領(lǐng)域】需要解決的一個(gè)技術(shù)問(wèn)題。
[0003]目前,存在一種根據(jù)語(yǔ)言規(guī)則進(jìn)行文本改錯(cuò)的方案。
[0004]具體地,在該方案中,預(yù)先總結(jié)出目標(biāo)語(yǔ)言(即目標(biāo)文件所采用的語(yǔ)言)的詞語(yǔ)搭配規(guī)則、詞語(yǔ)拼寫規(guī)則等語(yǔ)言規(guī)則,例如,當(dāng)目標(biāo)語(yǔ)言為漢語(yǔ)時(shí),預(yù)先總結(jié)出漢語(yǔ)的詞語(yǔ)搭配規(guī)則等,然后根據(jù)預(yù)先總結(jié)出的語(yǔ)言規(guī)則對(duì)待處理文本進(jìn)行評(píng)測(cè),從而判斷待處理文本是否符合預(yù)先總結(jié)出的語(yǔ)言規(guī)則,當(dāng)評(píng)測(cè)結(jié)果顯示待處理文本與預(yù)先總結(jié)出的語(yǔ)言規(guī)則的符合程度不滿足預(yù)定要求時(shí),根據(jù)預(yù)先總結(jié)出的語(yǔ)言規(guī)則對(duì)待處理文本進(jìn)行改錯(cuò)處理。
[0005]可見(jiàn),目前基于語(yǔ)言規(guī)則進(jìn)行文本改錯(cuò)方案,不僅需要大量具備深厚語(yǔ)言背景的工作人員總結(jié)大量的語(yǔ)言規(guī)則,而且,由于語(yǔ)言本身結(jié)構(gòu)復(fù)雜,要總結(jié)出語(yǔ)言規(guī)則并非易事,并且總結(jié)出的不同的語(yǔ)言規(guī)則之間還常常會(huì)相互沖突,因此,基于語(yǔ)言規(guī)則進(jìn)行文本改錯(cuò)的方案的錯(cuò)誤召回率較低,改錯(cuò)的準(zhǔn)確性也較低。
【發(fā)明內(nèi)容】
[0006]本申請(qǐng)?zhí)峁┝艘环N改錯(cuò)模型訓(xùn)練方法、裝置和文本改錯(cuò)方法、裝置,能夠提供一種利用其進(jìn)行文本改錯(cuò)時(shí)具備較高錯(cuò)誤召回率和改錯(cuò)準(zhǔn)確性的改錯(cuò)模型,提高文本改錯(cuò)的錯(cuò)誤召回率和改錯(cuò)的準(zhǔn)確性。
[0007]一種改錯(cuò)模型的訓(xùn)練方法,該方法包括:
[0008]搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;
[0009]搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串;
[0010]根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立改錯(cuò)模型。
[0011]一種改錯(cuò)模型的訓(xùn)練裝置,該裝置包括有效上下文搜集模塊、相似串查找模塊和模型建立模塊;
[0012]所述有效上下文搜索模塊,用于搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;[0013]所述相似串查找模塊,用于搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串;
[0014]所述模型建立模塊,用于根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立改錯(cuò)模型。
[0015]一種文本改錯(cuò)方法,該方法包括:
[0016]根據(jù)改錯(cuò)模型中存儲(chǔ)的改錯(cuò)規(guī)則,從待處理文本中搜索錯(cuò)誤字符串,根據(jù)所述改錯(cuò)規(guī)則對(duì)所述錯(cuò)誤字符串進(jìn)行改錯(cuò)處理;
[0017]其中,所述改錯(cuò)模型通過(guò)如下步驟建立得到:
[0018]搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;
[0019]搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串;
[0020]根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立所述改錯(cuò)模型。
[0021]一種文本改錯(cuò)裝置,該裝置包括改錯(cuò)模型模塊和改錯(cuò)處理模塊;
[0022]所述改錯(cuò)模型模塊,用于存儲(chǔ)改錯(cuò)規(guī)則,且所述改錯(cuò)模型模塊通過(guò)如下步驟訓(xùn)練得到:搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串;根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立所述改錯(cuò)模型;
[0023]所述改錯(cuò)處理模塊,用于根據(jù)改錯(cuò)模型中存儲(chǔ)的改錯(cuò)規(guī)則,從待處理文本中搜索錯(cuò)誤字符串,根據(jù)所述改錯(cuò)規(guī)則對(duì)所述錯(cuò)誤字符串進(jìn)行改錯(cuò)處理。
[0024]一種文本改錯(cuò)方法,該方法包括:
[0025]預(yù)先以正確字符串的上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;
[0026]搜索待處理文本中具有所述有效上下文信息的待處理字符串,判斷所述待處理字符串與和所述待處理字符串具有相同有效上下文信息的正確字符串的相似性是否滿足預(yù)定要求;
[0027]在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串,或者將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息。
[0028]一種文本改錯(cuò)裝置,該裝置包括存儲(chǔ)模塊、相似串搜索模塊和改錯(cuò)模塊;
[0029]所述存儲(chǔ)模塊,用于預(yù)先以正確字符串的上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;
[0030]所述相似串搜索模塊,用于搜索待處理文本中具有所述有效上下文信息的待處理字符串,判斷所述待處理字符串與和所述待處理字符串具有相同有效上下文信息的正確字符串的相似性是否滿足預(yù)定要求;
[0031]所述改錯(cuò)模塊,用于在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串,或者將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息。
[0032]由上述技術(shù)方案可見(jiàn),本發(fā)明根據(jù)字符串的上下文信息進(jìn)行改錯(cuò)處理,通過(guò)對(duì)具有相同上下文信息的正確字符串和待處理字符串進(jìn)行相似性分析,可以識(shí)別出在某些上下文語(yǔ)境中容易出現(xiàn)的錯(cuò)誤字符串,從而能夠?qū)⒃谀承┥舷挛恼Z(yǔ)境下容易出現(xiàn)的錯(cuò)誤字符串替換為相應(yīng)的正確字符串。由于錯(cuò)別字、拼寫錯(cuò)誤等錯(cuò)誤字符串常常伴隨著一定的上下文語(yǔ)境共同出現(xiàn),因此,本發(fā)明具有較高的錯(cuò)誤召回率和改錯(cuò)準(zhǔn)確性。
【專利附圖】
【附圖說(shuō)明】
[0033]圖1是本發(fā)明提供的改錯(cuò)模型的訓(xùn)練方法第一流程圖。
[0034]圖2是本發(fā)明提供的改錯(cuò)模型的訓(xùn)練方法第二流程圖。
[0035]圖3是本發(fā)明提供的改錯(cuò)模型的訓(xùn)練裝置結(jié)構(gòu)圖。
[0036]圖4是本發(fā)明提供的利用改錯(cuò)模型進(jìn)行文本改錯(cuò)的方法流程圖。
[0037]圖5是本發(fā)明提供的利用改錯(cuò)模型進(jìn)行文本改錯(cuò)的文本改錯(cuò)裝置結(jié)構(gòu)圖。
[0038]圖6是本發(fā)明提供的另一文本改錯(cuò)方法的流程圖。
[0039]圖7是本發(fā)明提供的另一文本改錯(cuò)裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0040]本發(fā)明根據(jù)字符串的上下文信息進(jìn)行改錯(cuò)處理。具體通過(guò)對(duì)具有相同上下文信息的正確字符串和待處理字符串進(jìn)行相似性分析,識(shí)別在某些上下文語(yǔ)境中容易出現(xiàn)的錯(cuò)誤字符串,將在某些上下文語(yǔ)境下出現(xiàn)的錯(cuò)誤字符串替換為相應(yīng)的正確字符串。
[0041]在具體實(shí)現(xiàn)本發(fā)明時(shí),可以預(yù)先根據(jù)字符串的上下文信息以及字符串之間的相似性建立改錯(cuò)模型,在對(duì)待處理文本的實(shí)際改錯(cuò)過(guò)程中,直接根據(jù)改錯(cuò)模型中的改錯(cuò)規(guī)則進(jìn)行改錯(cuò)處理。也可以在對(duì)待處理文本的實(shí)際改錯(cuò)過(guò)程中,根據(jù)字符串的上下文信息以及字符串之間的相似性識(shí)別出錯(cuò)誤字符串,將所述錯(cuò)誤字符串替換為相應(yīng)的正確字符串。
[0042]圖1是本發(fā)明提供的改錯(cuò)模型的訓(xùn)練方法第一流程圖。
[0043]如圖1所示,該第一流程包括:
[0044]步驟101,搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串。
[0045]步驟102,搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串。
[0046]步驟103,根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)貝U,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立改錯(cuò)模型。
[0047]其中,所述的訓(xùn)練文本集可以包括第一文本集、第二文本集和第三文本集,圖1所示的訓(xùn)練方法還可以進(jìn)一步細(xì)化,具體請(qǐng)參加圖2所示流程。[0048]圖2是本發(fā)明提供的改錯(cuò)模型的訓(xùn)練方法第二流程圖。
[0049]如圖2所示,該方法包括:
[0050]步驟201,根據(jù)預(yù)定規(guī)則,搜索預(yù)設(shè)的正確字符串在第一文本集中的上下文信息。
[0051]本步驟中,一般以預(yù)設(shè)詞典中的詞作為正確字符串,當(dāng)然,本發(fā)明也不排除采用其他方法確定正確字符串。其中,預(yù)設(shè)詞典中的詞可以是由多個(gè)字組成的詞語(yǔ)或短語(yǔ),也可以
是單個(gè)字。
[0052]步驟202,以所述上下文信息為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串。
[0053]本步驟中,還可以存儲(chǔ)每個(gè)正確字符串對(duì)應(yīng)的所有有效上下文信息,從而便于在需要時(shí)查找指定的正確字符串對(duì)應(yīng)的所有有效上下文信息。
[0054]步驟203,從第二文本集搜索待處理字符串。
[0055]本步驟中,為了限定待處理字符串的范圍,從而提高改錯(cuò)模型的建立速度,可以根據(jù)所述預(yù)定詞典中的詞的長(zhǎng)度范圍,從訓(xùn)練文本集中搜索所述長(zhǎng)度范圍內(nèi)的待處理字符
串O
[0056]步驟204,確定待處理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息。
[0057]本步驟中,可以根據(jù)所述預(yù)定規(guī)則,從訓(xùn)練文本集搜索待處理字符串的上下文信息,根據(jù)待處理字符串的上下文與有效上下文相互之間的匹配效果判斷待處理字符串的上下文信息是否為所述有效上下文信息。
[0058]其中,本發(fā)明對(duì)匹配待處理字符串的上下文與有效上下文之間的具體方法不做限定,例如,可以利用字符匹配算法直接將待處理字符串的上下文和有效上下文進(jìn)行匹配,也可以將待處理字符串的上下文和有效上下文轉(zhuǎn)換成其他等效信息后再進(jìn)行匹配。
[0059]步驟205,當(dāng)待處理字符串在所述第二文本集中的上下文信息包括有效上下文信息時(shí),判斷所述待處理字符串與該有效上下文信息對(duì)應(yīng)的正確字符串的相似性是否滿足預(yù)定要求。
[0060]本步驟中,通過(guò)判斷具有相同的有效上下文信息的待處理字符串與正確字符串之間的相似性是否滿足預(yù)定要求來(lái)查找相似串,具有相同的有效上下文信息、且相互之間的相似性滿足預(yù)定要求的待處理字符串與正確字符串互為彼此的相似串。
[0061]在判斷具有相同的有效上下文信息的待處理字符串與正確字符串之間的相似性是否滿足預(yù)定要求時(shí),可以根據(jù)待處理字符串和正確字符串的讀音進(jìn)行判斷,也可以根據(jù)待處理字符串和正確字符串的字形來(lái)判斷,如果讀音相似、或者字形相似,則所述待處理字符串和所述正確字符串互為彼此的相似串。
[0062]具體地,對(duì)于具有相同有效上下文信息的待處理字符串和正確字符串,根據(jù)讀音詞典,判斷所述待處理字符串的讀音與所述正確字符串的讀音的相似性是否滿足預(yù)定要求,如果是,則所述待處理字符串和所述正確字符串互為相似串。
[0063]或者,對(duì)于具有相同有效上下文信息的待處理字符串和正確字符串,根據(jù)字形詞典,判斷所述待處理字符串的字形與所述正確字符串的字形的相似性是否滿足預(yù)定要求,如果是,則所述待處理字符串和所述正確字符串互為相似串。
[0064]步驟206,根據(jù)彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串、以及所述待處理字符串和所述正確字符串共同的有效上下文信息,生成待測(cè)試的改錯(cuò)規(guī)則。
[0065]其中,對(duì)于每一對(duì)具有相同有效上下文信息、且彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串,所述待測(cè)試的改錯(cuò)規(guī)則包括:用于將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串的第一改錯(cuò)規(guī)則,和/或,用于將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息的第二改錯(cuò)規(guī)則。
[0066]換言之,對(duì)于每一對(duì)具有相同有效上下文信息、且彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串,都具有一條第一改錯(cuò)規(guī)則和一條以上的第二改錯(cuò)規(guī)則,其中,當(dāng)所述待處理字符串和所述正確字符串具有兩個(gè)以上的相同有效上下文信息時(shí),所述待處理字符串和所述正確字符串及其各個(gè)共同具有的有效上下文信息分別組成不同的第二改錯(cuò)規(guī)則。
[0067]比如,正確字符串B在第一文本集中具有有效上下文C和D,待處理字符串A在第二文本集中也具有有效上下文C和D,且待處理字符串A和正確字符串B的相似性滿足預(yù)定要求,則待處理字符串A和正確字符串B對(duì)應(yīng)的改錯(cuò)規(guī)則包括:將待處理字符串A替換成正確字符串B ;將待處理字符串A連同其上下文C共同替換成正確字符串B連同其上下文C ;將待處理字符串A連同其上下文D共同替換成正確字符串B連同其上下文D。
[0068]步驟207,利用所述待測(cè)試的改錯(cuò)規(guī)則對(duì)第三文本集進(jìn)行改錯(cuò)處理,根據(jù)對(duì)改錯(cuò)處理結(jié)果的評(píng)估信息建立改錯(cuò)模型,所述改錯(cuò)模型包括其改錯(cuò)處理結(jié)果的評(píng)估信息滿足預(yù)定條件的改錯(cuò)規(guī)則。
[0069]本步驟中,對(duì)于步驟205中查找出的每一對(duì)具有相同的有效上下文信息、且彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串,可以先依據(jù)所述第一改錯(cuò)規(guī)則將訓(xùn)練文本集中的所述待處理字符串替換成所述正確字符串得到第一替換結(jié)果,判斷對(duì)第一替換結(jié)果的評(píng)估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第一改錯(cuò)規(guī)則予以通過(guò),如果否,丟棄所述第一改錯(cuò)規(guī)則,并依據(jù)所述第二改錯(cuò)規(guī)則,將第三文本集中的所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息,從而得到第二替換結(jié)果,判斷對(duì)第二替換結(jié)果的評(píng)估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第二改錯(cuò)規(guī)則予以通過(guò),否則,丟棄所述第二改錯(cuò)規(guī)則;所述改錯(cuò)模型包括所述予以通過(guò)的改錯(cuò)規(guī)則。所建立的改錯(cuò)模型包括所述予以通過(guò)的改錯(cuò)規(guī)則。其中,對(duì)于步驟205中查找出的每一對(duì)具有相同的有效上下文信息、且彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串,如果該對(duì)待處理字符串和正確字符串所對(duì)應(yīng)的第一改錯(cuò)規(guī)則能夠評(píng)估通過(guò),則一般不需要再評(píng)估該對(duì)待處理字符串和正確字符串對(duì)應(yīng)的其他改錯(cuò)規(guī)則。
[0070]其中,對(duì)替換結(jié)果進(jìn)行評(píng)估的具體方法本發(fā)明不做限定,例如可以根據(jù)語(yǔ)言規(guī)則、預(yù)先建立的語(yǔ)言模型等對(duì)替換結(jié)果進(jìn)行評(píng)估,也可以人工對(duì)替換結(jié)果進(jìn)行評(píng)估。
[0071]本發(fā)明中,字符串的上下文信息通常包括位于所述字符串之前的信息(簡(jiǎn)稱串前上下文信息)和位于所述字符串之后的信息(簡(jiǎn)稱串后上下文信息),也可以只包括串前上下文信息或只包括串后上下文信息。
[0072]對(duì)于任意目標(biāo)字符串(例如該目標(biāo)字符串是某一正確字符串,或者是某一待處理字符串),確定該目標(biāo)字符串的上下文信息的方法可以有多種。例如:可以將目標(biāo)字符串之前和/或之后預(yù)定長(zhǎng)度的字符串確定為所述目標(biāo)字符串的上下文信息;或者,根據(jù)詞典搜索目標(biāo)字符串之前和/或之后出現(xiàn)的預(yù)定數(shù)個(gè)詞,將所述預(yù)定數(shù)個(gè)詞確定為所述目標(biāo)字符串的上下文信息;或者,根據(jù)目標(biāo)字符串的語(yǔ)義特征,根據(jù)預(yù)定的語(yǔ)言規(guī)則為所述目標(biāo)字符串選取上下文信息。上述確定目標(biāo)字符串的上下文信息的各種方法可以分別單獨(dú)使用,也可以在不相互矛盾的前提下相互組合使用。
[0073]關(guān)于圖2所示方法所用到的文本集,所述第一文本集、所述第二文本集和所述第三文本集可以是同一個(gè)文本集,其中包含了一定比例的錯(cuò)誤字符串,但是大部分都是正確字符串;或者,所述第一文本集可以是與所述第二文本集和所述第三文本集不同的文本集,所述第一文本集中文本的正確率高于所述第二文本集中文本的正確率,也高于所述第三文本集中文本的正確率,所述第二文本集和所述第三文本集可以是相同或不同的文本集。圖2所示方法所用到的文本集的預(yù)料資源越豐富、涵蓋范圍越廣,則建立的改錯(cuò)模型的改錯(cuò)效果越好。
[0074]圖3是本發(fā)明提供的改錯(cuò)模型的訓(xùn)練裝置結(jié)構(gòu)圖。
[0075]如圖3所示,該裝置包括有效上下文搜集模塊301、相似串查找模塊302和模型建立模塊303。
[0076]有效上下文搜索模塊301,用于搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串。
[0077]相似串查找模塊302,用于搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串。
[0078]模型建立模塊303,用于根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立改錯(cuò)模型。
[0079]有效上下文搜集模塊301,可以用于根據(jù)預(yù)定規(guī)則,搜索預(yù)設(shè)的正確字符串在第一文本集中的上下文信息,以所述上下文信息為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串。
[0080]相似串查找模塊302,可以用于從第二文本集搜索待處理字符串,確定待處理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息,在包括有效上下文信息時(shí),判斷所述待處理字符串與該有效上下文信息對(duì)應(yīng)的正確字符串的相似性是否滿足預(yù)定要求。
[0081]模型建立模塊303,可以用于根據(jù)彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串、以及所述待處理字符串和所述正確字符串共同的有效上下文信息,生成待測(cè)試的改錯(cuò)規(guī)則,利用所述待測(cè)試的改錯(cuò)規(guī)則對(duì)第三文本集進(jìn)行改錯(cuò)處理,根據(jù)對(duì)改錯(cuò)處理結(jié)果的評(píng)估信息建立改錯(cuò)模型,所述改錯(cuò)模型包括其改錯(cuò)處理結(jié)果的評(píng)估信息滿足預(yù)定條件的改錯(cuò)規(guī)則。
[0082]所述待測(cè)試的改錯(cuò)規(guī)則包括:用于將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串的第一改錯(cuò)規(guī)則,和/或,用于將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息的第二改錯(cuò)規(guī)則。
[0083]其中,述預(yù)設(shè)的正確字符串可以包括預(yù)設(shè)詞典中的詞。[0084]相似串查找模塊302,可以用于根據(jù)所述預(yù)定詞典中的詞的長(zhǎng)度范圍,從訓(xùn)練文本集中搜索所述長(zhǎng)度范圍內(nèi)的待處理字符串。
[0085]相似串查找模塊302,可以用于根據(jù)所述預(yù)定規(guī)則,從訓(xùn)練文本集搜索待處理字符串的上下文信息,根據(jù)待處理字符串的上下文與有效上下文相互之間的匹配效果判斷待處理字符串的上下文信息是否為所述有效上下文信息。
[0086]所述上下文信息包括串前上下文信息和/或串后上下文信息。
[0087]用于搜索上下文信息的所述預(yù)定規(guī)則可以包括:將目標(biāo)字符串之前和/或之后預(yù)定長(zhǎng)度的字符串確定為所述目標(biāo)字符串的上下文信息;或者,根據(jù)詞典搜索目標(biāo)字符串之前和/或之后出現(xiàn)的預(yù)定數(shù)個(gè)詞,將所述預(yù)定數(shù)個(gè)詞確定為所述目標(biāo)字符串的上下文信息;或者,根據(jù)目標(biāo)字符串的語(yǔ)義特征,根據(jù)預(yù)定的語(yǔ)言規(guī)則為所述目標(biāo)字符串選取上下文信息。
[0088]相似串查找模塊302,可以用于根據(jù)讀音詞典,判斷所述待處理字符串的讀音與所述正確字符串的讀音的相似性是否滿足預(yù)定要求,或者,根據(jù)字形詞典,判斷所述待處理字符串的字形與所述正確字符串的字形的相似性是否滿足預(yù)定要求。
[0089]模型建立模塊303,可以用于根據(jù)彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串,依據(jù)所述第一改錯(cuò)規(guī)則將訓(xùn)練文本集中的所述待處理字符串替換成所述正確字符串得到第一替換結(jié)果,判斷對(duì)第一替換結(jié)果的評(píng)估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第一改錯(cuò)規(guī)則予以通過(guò),如果否,丟棄所述第一改錯(cuò)規(guī)則,并依據(jù)所述第二改錯(cuò)規(guī)則將訓(xùn)練文本集中的所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息,從而得到第二替換結(jié)果,判斷對(duì)第二替換結(jié)果的評(píng)估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第二改錯(cuò)規(guī)則予以通過(guò),否則,丟棄所述第二改錯(cuò)規(guī)則,建立的改錯(cuò)模型包括所述予以通過(guò)的改錯(cuò)規(guī)則。
[0090]其中,所述第一文本集、所述第二文本集和所述第三文本集是同一個(gè)文本集;或者,所述第一文本集中文本的正確率高于所述第二文本集中文本的正確率,也高于所述第三文本集中文本的正確率,所述第二文本集和所述第三文本集是相同或不同的文本集。
[0091 ] 基于本發(fā)明提供的上述訓(xùn)練改錯(cuò)模型的方法,本發(fā)明還提供了 一種文本改錯(cuò)方法,在該文本改錯(cuò)方法中,根據(jù)所述改錯(cuò)模型中存儲(chǔ)的改錯(cuò)規(guī)則,從待處理文本中搜索字符串,根據(jù)所述改錯(cuò)規(guī)則對(duì)搜索到的字符串進(jìn)行改錯(cuò)處理。
[0092]基于本發(fā)明提供的改錯(cuò)模型進(jìn)行文本改錯(cuò)的方法具體也可以參見(jiàn)圖4。
[0093]圖4是本發(fā)明提供的利用改錯(cuò)模型進(jìn)行文本改錯(cuò)的方法流程圖。
[0094]如圖4所示,該流程包括:
[0095]步驟401,根據(jù)改錯(cuò)模型中存儲(chǔ)的第一改錯(cuò)規(guī)則,從待處理文本中搜索待處理字符串,根據(jù)改錯(cuò)模型中存儲(chǔ)的第二改錯(cuò)規(guī)則,從待處理文本中搜索待處理字符串及其有效上下文信息。
[0096]步驟402,根據(jù)所述第一改錯(cuò)規(guī)則,將所述待處理字符串替換為正確字符串,根據(jù)所述第二改錯(cuò)規(guī)則,將所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信
肩、O[0097]其中,所述第一改錯(cuò)規(guī)則包括將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串,所述第二改錯(cuò)規(guī)則包括將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息;其中,所述有效上下文信息是所述正確字符串在訓(xùn)練文本集中的上下文信息,彼此的相似性滿足預(yù)定要求的所述待處理字符串和所述正確字符串在所述訓(xùn)練文本集中具有相同的有效上下文信息。所述訓(xùn)練文本集是用于訓(xùn)練所述改錯(cuò)模型的文本集。
[0098]基于本發(fā)明提供的改錯(cuò)模型進(jìn)行文本改錯(cuò)的裝置可以包括改錯(cuò)模型模塊和改錯(cuò)處理模塊。
[0099]所述改錯(cuò)模型模塊,用于存儲(chǔ)改錯(cuò)規(guī)則,且所述改錯(cuò)模型模塊通過(guò)如下步驟訓(xùn)練得到:搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串;根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立所述改錯(cuò)模型。
[0100]所述改錯(cuò)處理模塊,用于根據(jù)改錯(cuò)模型中存儲(chǔ)的改錯(cuò)規(guī)則,從待處理文本中搜索字符串,根據(jù)所述改錯(cuò)規(guī)則對(duì)搜索到的字符串進(jìn)行改錯(cuò)處理。
[0101]基于本發(fā)明提供的改錯(cuò)模型進(jìn)行文本改錯(cuò)的裝置的具體結(jié)構(gòu)也可以參見(jiàn)圖5。
[0102]圖5是本發(fā)明提供的利用改錯(cuò)模型進(jìn)行文本改錯(cuò)的文本改錯(cuò)裝置結(jié)構(gòu)圖。
[0103]如圖5所示,該文本改錯(cuò)裝置包括改錯(cuò)模型模塊501、搜索模塊502和替換模塊503。
[0104]改錯(cuò)模型模塊501,用于存儲(chǔ)改錯(cuò)規(guī)則,所述改錯(cuò)規(guī)則包括將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串的第一改錯(cuò)規(guī)則,或者,將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息的第二改錯(cuò)規(guī)則;其中,所述有效上下文信息是所述正確字符串在訓(xùn)練文本集中的上下文信息,彼此的相似性滿足預(yù)定要求的所述待處理字符串和所述正確字符串在所述訓(xùn)練文本集中具有相同的有效上下文信息,所述訓(xùn)練文本集是用于訓(xùn)練所述改錯(cuò)模型的文本集。
[0105]搜索模塊502,用于根據(jù)所述第一改錯(cuò)規(guī)則,從待處理文本中搜索所述待處理字符串,根據(jù)所述第二改錯(cuò)規(guī)則,從待處理文本中搜索所述待處理字符串及其有效上下文信息。
[0106]替換模塊503,用于根據(jù)所述第一改錯(cuò)規(guī)則,將所述待處理字符串替換為所述正確字符串,根據(jù)所述第二改錯(cuò)規(guī)則,將所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息。
[0107]通過(guò)對(duì)圖1-圖5的描述可見(jiàn),當(dāng)預(yù)先根據(jù)字符串的上下文信息以及字符串之間的相似性建立改錯(cuò)模型,在對(duì)待處理文本的實(shí)際改錯(cuò)過(guò)程中,直接根據(jù)改錯(cuò)模型中的改錯(cuò)規(guī)則進(jìn)行改錯(cuò)處理時(shí),由于字符串的上下文信息的查找與匹配、以及字符串之間相似性的判斷、改錯(cuò)規(guī)則的評(píng)估等工作都可以在改錯(cuò)模型的建立過(guò)程中進(jìn)行,因此可以大大加快對(duì)待處理文本的實(shí)際改錯(cuò)速度。[0108]本發(fā)明也可以在對(duì)待處理文本的實(shí)際改錯(cuò)過(guò)程中,根據(jù)字符串的上下文信息以及字符串之間的相似性識(shí)別出錯(cuò)誤字符串,將所述錯(cuò)誤字符串替換為相應(yīng)的正確字符串,具體請(qǐng)參加圖6-圖7。
[0109]圖6是本發(fā)明提供的另一文本改錯(cuò)方法的流程圖。
[0110]如圖6所示,該流程包括:
[0111]步驟601,預(yù)先以正確字符串的上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串。
[0112]其中,所述正確字符串一般為預(yù)定詞典中的詞,所述有效上下文信息為正確字符串在預(yù)定的訓(xùn)練文本集中的上下文信息。
[0113]步驟602,搜索待處理文本中具有所述有效上下文信息的待處理字符串,判斷所述待處理字符串與和所述待處理字符串具有相同有效上下文信息的正確字符串的相似性是否滿足預(yù)定要求。
[0114]本步驟中,可以根據(jù)讀音詞典,判斷所述待處理字符串的讀音與和所述待處理字符串具有相同有效上下文信息的正確字符串的讀音的相似性是否滿足預(yù)定要求,或者,根據(jù)字形詞典,判斷所述待處理字符串的字形與和所述待處理字符串具有相同有效上下文信息的正確字符串的字形的相似性是否滿足預(yù)定要求。
[0115]步驟603,在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串,或者將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息。
[0116]本步驟中,可以在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串得到第一替換結(jié)果,在對(duì)所述第一替換結(jié)果的評(píng)估結(jié)果滿足預(yù)定要求時(shí),將所述第一替換結(jié)果確定為最終的改錯(cuò)結(jié)果,在對(duì)所述第一替換結(jié)果的評(píng)估結(jié)果不滿足預(yù)定要求時(shí),將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息得到第二替換結(jié)果,在對(duì)所述第二替換結(jié)果的評(píng)估結(jié)果滿足預(yù)定要求時(shí),將所述第二替換結(jié)果確定為最終的改錯(cuò)結(jié)果,在對(duì)所述第二替換結(jié)果的評(píng)估結(jié)果不滿足預(yù)定要求時(shí),保持所述待處理字符串不變或者進(jìn)行其他改錯(cuò)處理。
[0117]圖7是本發(fā)明提供的另一文本改錯(cuò)裝置的結(jié)構(gòu)圖。
[0118]如圖7所示,該裝置包括存儲(chǔ)模塊701、相似串搜索模塊702和改錯(cuò)模塊703。
[0119]存儲(chǔ)模塊701,用于預(yù)先以正確字符串的上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串。
[0120]相似串搜索模塊702,用于搜索待處理文本中具有所述有效上下文信息的待處理字符串,判斷所述待處理字符串與和所述待處理字符串具有相同有效上下文信息的正確字符串的相似性是否滿足預(yù)定要求。
[0121]改錯(cuò)模塊703,用于在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串,或者將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息。
[0122]相似串搜索模塊702,可以用于根據(jù)讀音詞典,判斷所述待處理字符串的讀音與和所述待處理字符串具有相同有效上下文信息的正確字符串的讀音的相似性是否滿足預(yù)定要求,或者,根據(jù)字形詞典,判斷所述待處理字符串的字形與和所述待處理字符串具有相同有效上下文信息的正確字符串的字形的相似性是否滿足預(yù)定要求。
[0123]改錯(cuò)模塊703,可以用于在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串得到第一替換結(jié)果,在對(duì)所述第一替換結(jié)果的評(píng)估結(jié)果滿足預(yù)定要求時(shí),將所述第一替換結(jié)果確定為最終的改錯(cuò)結(jié)果,在對(duì)所述第一替換結(jié)果的評(píng)估結(jié)果不滿足預(yù)定要求時(shí),將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息得到第二替換結(jié)果,在對(duì)所述第二替換結(jié)果的評(píng)估結(jié)果滿足預(yù)定要求時(shí),將所述第二替換結(jié)果確定為最終的改錯(cuò)結(jié)果,在對(duì)所述第二替換結(jié)果的評(píng)估結(jié)果不滿足預(yù)定要求時(shí),保持所述待處理字符串不變或者進(jìn)行其他改錯(cuò)處理。
[0124]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種改錯(cuò)模型的訓(xùn)練方法,其特征在于,該方法包括: 搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串; 搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串; 根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立改錯(cuò)模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練文本集包括第一文本集、第二文本集和第三文本集; 根據(jù)預(yù)定規(guī)則,搜索預(yù)設(shè)的正確字符串在第一文本集中的上下文信息,以所述上下文信息為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串; 從第二文本集搜索待處理字符串,確定待處理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息,在包括有效上下文信息時(shí),判斷所述待處理字符串與該有效上下文信息對(duì)應(yīng)的正確字符串的相似性是否滿足預(yù)定要求; 根據(jù)彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串、以及所述待處理字符串和所述正確字符串共同的有效上下文信息,生成待測(cè)試的改錯(cuò)規(guī)則; 利用所述待測(cè)試的改錯(cuò)規(guī)則對(duì)第三文本集進(jìn)行改錯(cuò)處理,根據(jù)對(duì)改錯(cuò)處理結(jié)果的評(píng)估信息建立改錯(cuò)模型,所述改錯(cuò)模型包括其改錯(cuò)處理結(jié)果的評(píng)估信息滿足預(yù)定條件的改錯(cuò)規(guī)則; 其中,所述待測(cè)試的改錯(cuò)規(guī)則包括:用于將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串的第一改錯(cuò)規(guī)則,和/或,用于將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息的第二改錯(cuò)規(guī)則。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)的正確字符串包括預(yù)設(shè)詞典中的詞;所述從訓(xùn)練文本集搜索待處理字符串包括: 根據(jù)所述預(yù)定詞典中的詞的長(zhǎng)度范圍,從訓(xùn)練文本集中搜索所述長(zhǎng)度范圍內(nèi)的待處理字符串。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定待處理字符串在所述訓(xùn)練文本集中的上下文信息是否包括有效上下文信息包括: 根據(jù)所述預(yù)定規(guī)則,從訓(xùn)練文本集搜索待處理字符串的上下文信息,根據(jù)待處理字符串的上下文與有效上下文相互之間的匹配效果判斷待處理字符串的上下文信息是否為所述有效上下文信息。
5.根據(jù)權(quán)利要求2或4所述的方法,其特征在于,所述上下文信息包括串前上下文信息和/或串后上下文信息;所述預(yù)定規(guī)則包括: 將目標(biāo)字符串之前和/或之后預(yù)定長(zhǎng)度的字符串確定為所述目標(biāo)字符串的上下文信息; 或者,根據(jù)詞典搜索目標(biāo)字符串之前和/或之后出現(xiàn)的預(yù)定數(shù)個(gè)詞,將所述預(yù)定數(shù)個(gè)詞確定為所述目標(biāo)字符串的上下文信息;或者,根據(jù)目標(biāo)字符串的語(yǔ)義特征,根據(jù)預(yù)定的語(yǔ)言規(guī)則為所述目標(biāo)字符串選取上下文信息。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,判斷所述待處理字符串與該有效上下文信息對(duì)應(yīng)的正確字符串的相似性是否滿足預(yù)定要求包括: 根據(jù)讀音詞典,判斷所述待處理字符串的讀音與所述正確字符串的讀音的相似性是否滿足預(yù)定要求; 或者,根據(jù)字形詞典,判斷所述待處理字符串的字形與所述正確字符串的字形的相似性是否滿足預(yù)定要求。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,利用所述待測(cè)試的改錯(cuò)規(guī)則對(duì)訓(xùn)練文本集進(jìn)行改錯(cuò)處理,根據(jù)對(duì)改錯(cuò)處理結(jié)果的評(píng)估信息建立改錯(cuò)模型包括: 根據(jù)彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串,依據(jù)所述第一改錯(cuò)規(guī)則將第三文本集中的所述待處理字符串替換成所述正確字符串得到第一替換結(jié)果,判斷對(duì)第一替換結(jié)果的評(píng)估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第一改錯(cuò)規(guī)則予以通過(guò),如果否,丟棄所述第一改錯(cuò)規(guī)則,并依據(jù)所述第二改錯(cuò)規(guī)則將第三文本集中的所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息,從而得到第二替換結(jié)果,判斷對(duì)第二替換結(jié)果的評(píng) 估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第二改錯(cuò)規(guī)則予以通過(guò),否貝U,丟棄所述第二改錯(cuò)規(guī)則;所述改錯(cuò)模型包括所述予以通過(guò)的改錯(cuò)規(guī)則。
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一文本集、所述第二文本集和所述第三文本集是同一個(gè)文本集; 或者,所述第一文本集中文本的正確率高于所述第二文本集中文本的正確率,也高于所述第三文本集中文本的正確率,所述第二文本集和所述第三文本集是相同或不同的文本集。
9.一種改錯(cuò)模型的訓(xùn)練裝置,其特征在于,該裝置包括有效上下文搜集模塊、相似串查找模塊和模型建立模塊; 所述有效上下文搜索模塊,用于搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串; 所述相似串查找模塊,用于搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串; 所述模型建立模塊,用于根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立改錯(cuò)模型。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述訓(xùn)練文本集包括第一文本集、第二文本集和第三文本集; 所述有效上下文搜集模塊,用于根據(jù)預(yù)定規(guī)則,搜索預(yù)設(shè)的正確字符串在第一文本集中的上下文信息,以所述上下文信息為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串; 所述相似串查找模塊,用于從第二文本集搜索待處理字符串,確定待處理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息,在包括有效上下文信息時(shí),判斷所述待處理字符串與該有效上下文信息對(duì)應(yīng)的正確字符串的相似性是否滿足預(yù)定要求; 所述模型建立模塊,用于根據(jù)彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串、以及所述待處理字符串和所述正確字符串共同的有效上下文信息,生成待測(cè)試的改錯(cuò)規(guī)則,利用所述待測(cè)試的改錯(cuò)規(guī)則對(duì)第三文本集進(jìn)行改錯(cuò)處理,根據(jù)對(duì)改錯(cuò)處理結(jié)果的評(píng)估信息建立改錯(cuò)模型,所述改錯(cuò)模型包括其改錯(cuò)處理結(jié)果的評(píng)估信息滿足預(yù)定條件的改錯(cuò)規(guī)則; 所述待測(cè)試的改錯(cuò)規(guī)則包括:用于將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串的第一改錯(cuò)規(guī)則,和/或,用于將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息的第二改錯(cuò)規(guī)則。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述預(yù)設(shè)的正確字符串包括預(yù)設(shè)詞典中的詞; 所述相似串查找模塊,用于根據(jù)所述預(yù)定詞典中的詞的長(zhǎng)度范圍,從訓(xùn)練文本集中搜索所述長(zhǎng)度范圍內(nèi)的待處理字符串。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于, 所述相似串查找模塊,用于根據(jù)所述預(yù)定規(guī)則,從訓(xùn)練文本集搜索待處理字符串的上下文信息,根據(jù)待處理字符串的上下文與有效上下文相互之間的匹配效果判斷待處理字符串的上下文信息是否為所述有效上下文信息。
13.根據(jù)權(quán)利要求10或12所述的裝置,其特征在于,所述上下文信息包括串前上下文信息和/或串后上下文信息;所述預(yù)定規(guī)則包括: 將目標(biāo)字符串之前和/或之后預(yù)定長(zhǎng)度的字符串確定為所述目標(biāo)字符串的上下文信息; 或者,根據(jù)詞典搜索目標(biāo)字符串之前和/或之后出現(xiàn)的預(yù)定數(shù)個(gè)詞,將所述預(yù)定數(shù)個(gè)詞確定為所述目標(biāo)字符串的上下文信息; 或者,根據(jù)目標(biāo)字符串的語(yǔ)義特征,根據(jù)預(yù)定的語(yǔ)言規(guī)則為所述目標(biāo)字符串選取上下文信息。
14.根據(jù)權(quán)利要求10所述的裝置,其特征在于, 所述相似串查找模塊,用于根據(jù)讀音詞典,判斷所述待處理字符串的讀音與所述正確字符串的讀音的相似性是否滿足預(yù)定要求,或者,根據(jù)字形詞典,判斷所述待處理字符串的字形與所述正確字符串的字形的相似性是否滿足預(yù)定要求。
15.根據(jù)權(quán)利要求10所述的裝置,其特征在于, 所述模型建立模塊,用于根據(jù)彼此的相似性滿足預(yù)定要求的待處理字符串和正確字符串,依據(jù)所述第一改錯(cuò)規(guī)則將訓(xùn)練文本集中的所述待處理字符串替換成所述正確字符串得到第一替換結(jié)果,判斷對(duì)第一替換結(jié)果的評(píng)估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第一改錯(cuò)規(guī)則予以通過(guò),如果否,丟棄所述第一改錯(cuò)規(guī)則,并依據(jù)所述第二改錯(cuò)規(guī)則將訓(xùn)練文本集中的所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息,從而得到第二替換結(jié)果,判斷對(duì)第二替換結(jié)果的評(píng)估結(jié)果是否滿足預(yù)定條件,如果是,則對(duì)所述第二改錯(cuò)規(guī)則予以通過(guò),否則,丟棄所述第二改錯(cuò)規(guī)則,建立的改錯(cuò)模型包括所述予以通過(guò)的改錯(cuò)規(guī)則。
16.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第一文本集、所述第二文本集和所述第三文本集是同一個(gè)文本集; 或者,所述第一文本集中文本的正確率高于所述第二文本集中文本的正確率,也高于所述第三文本集中文本的正確率,所述第二文本集和所述第三文本集是相同或不同的文本集。
17.一種文本改錯(cuò)方法,其特征在于,該方法包括: 根據(jù)改錯(cuò)模型中存儲(chǔ)的改錯(cuò)規(guī)則,從待處理文本中搜索字符串,根據(jù)所述改錯(cuò)規(guī)則對(duì)搜索到的字符串進(jìn)行改錯(cuò)處理; 其中,所述改錯(cuò)模型通過(guò)如下步驟建立得到: 搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串; 搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串; 根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立所述改錯(cuò)模型。
18.根據(jù)權(quán)利要求17的方法,其特征在于, 根據(jù)改錯(cuò)模型中存儲(chǔ)的第一改錯(cuò)規(guī)則,從待處理文本中搜索待處理字符串,將所述待處理字符串替換為正確字符串; 根據(jù)改錯(cuò)模型中存儲(chǔ)的第二改錯(cuò)規(guī)則,從待處理文本中搜索待處理字符串及其有效上下文信息,將所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息; 其中,所述第一改錯(cuò)規(guī)則包括將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串,所述第二改錯(cuò)規(guī)則包括將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息。
19.一種文本改錯(cuò)裝置,其特征在于,該裝置包括改錯(cuò)模型模塊和改錯(cuò)處理模塊; 所述改錯(cuò)模型模塊,用于存儲(chǔ)改錯(cuò)規(guī)則,且所述改錯(cuò)模型模塊通過(guò)如下步驟訓(xùn)練得到:搜索正確字符串在訓(xùn)練文本集中的上下文信息,以所述上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串;搜索訓(xùn)練文本集中與所述正確字符串的相似性滿足預(yù)定要求、且具備所述有效上下文信息的待處理字符串;根據(jù)所述待處理字符串、與所述待處理字符串的相似性滿足預(yù)定要求的正確字符串以及所述待處理字符串和所述正確字符串共同的有效上下文信息生成改錯(cuò)規(guī)則,根據(jù)對(duì)改錯(cuò)規(guī)則的測(cè)試結(jié)果建立所述改錯(cuò)1吳型; 所述改錯(cuò)處理模塊,用于根據(jù)改錯(cuò)模型中存儲(chǔ)的改錯(cuò)規(guī)則,從待處理文本中搜索字符串,根據(jù)所述改錯(cuò)規(guī)則對(duì)搜索到的字符串進(jìn)行改錯(cuò)處理。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述改錯(cuò)處理模塊包括搜索模塊和替換模塊;所述改錯(cuò)模型模塊,用于存儲(chǔ)改錯(cuò)規(guī)則,所述改錯(cuò)規(guī)則包括將彼此的相似性滿足預(yù)定要求的待處理字符串替換成正確字符串的第一改錯(cuò)規(guī)則,或者,將待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息的第二改錯(cuò)規(guī)則; 所述搜索模塊,用于根據(jù)所述第一改錯(cuò)規(guī)則,從待處理文本中搜索所述待處理字符串,根據(jù)所述第二改錯(cuò)規(guī)則,從待處理文本中搜索所述待處理字符串及其有效上下文信息;所述替換模塊,用于根據(jù)所述第一改錯(cuò)規(guī)則,將所述待處理字符串替換為所述正確字符串,根據(jù)所述第二改錯(cuò)規(guī)則,將所述待處理字符串及其有效上下文信息,替換成與所述待處理字符串的相似性滿足預(yù)定要求且具有所述有效上下文信息的正確字符串和所述有效上下文信息。
21.一種文本改錯(cuò)方法,其特征在于,該方法包括: 預(yù)先以正確字符串的上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串; 搜索待處理文本中具有所述有效上下文信息的待處理字符串,判斷所述待處理字符串與和所述待處理字符串具有相同有效上下文信息的正確字符串的相似性是否滿足預(yù)定要求; 在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串,或者將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息。
22.—種文本改錯(cuò)裝置,其特征在于,該裝置包括存儲(chǔ)模塊、相似串搜索模塊和改錯(cuò)模塊; 所述存儲(chǔ)模塊,用于預(yù)先以正確字符串的上下文信息作為有效上下文信息,存儲(chǔ)每個(gè)有效上下文信息對(duì)應(yīng)的所有正確字符串; 所述相似串搜索模塊,用于搜索待處理文本中具有所述有效上下文信息的待處理字符串,判斷所述待處理字符串與和所述待處理字符串具有相同有效上下文信息的正確字符串的相似性是否滿足預(yù)定要求; 所述改錯(cuò)模塊,用于在所述相似性滿足預(yù)定要求時(shí),將所述待處理字符串替換成所述正確字符串,或者將所述待處理字符串和所述有效上下文信息一并替換為所述正確字符串和所述有效上下文信息。
【文檔編號(hào)】G06F17/30GK103970765SQ201310033697
【公開(kāi)日】2014年8月6日 申請(qǐng)日期:2013年1月29日 優(yōu)先權(quán)日:2013年1月29日
【發(fā)明者】李露, 程強(qiáng), 饒豐, 盧鯉, 張翔, 岳帥, 陳波, 陸讀羚 申請(qǐng)人:騰訊科技(深圳)有限公司