国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種對中文字串進(jìn)行匹配的方法及裝置與流程

      文檔序號:11677555閱讀:318來源:國知局
      一種對中文字串進(jìn)行匹配的方法及裝置與流程
      本申請涉及計算機(jī)
      技術(shù)領(lǐng)域
      ,尤其涉及一種對中文字串進(jìn)行匹配的方法及裝置。
      背景技術(shù)
      :目前,計算機(jī)或者其他電子設(shè)備對用戶輸入的文本內(nèi)容進(jìn)行匹配的應(yīng)用場景有很多,例如,用戶在網(wǎng)上檢索時,計算機(jī)會將用戶輸入的文本信息和存儲在數(shù)據(jù)庫中的信息進(jìn)行匹配,匹配成功后,計算機(jī)會將存儲在數(shù)據(jù)庫的信息向用戶展示;再例如,用戶可以利用計算機(jī)或其他電子設(shè)備的文本匹配功能對一些物品進(jìn)行分類,比如,圖書管理人員可以利用計算機(jī)對圖書進(jìn)行分類,即通過計算機(jī)對輸入的圖書信息進(jìn)行匹配,完成分類操作,例如,將圖書信息為“喜劇”的圖書歸為一類等。在上述應(yīng)用場景下,現(xiàn)有技術(shù)對文本內(nèi)容進(jìn)行匹配的方法通常是:計算待匹配文本內(nèi)容所對應(yīng)字串之間的相似度;這里計算相似度通常是計算一個字串變換到另一字串的編輯距離,并通過比較計算得到的編輯距離與預(yù)設(shè)的編輯距離閾值的大小,判斷這兩字串的相似度。雖然現(xiàn)有技術(shù)中通過計算字串之間的編輯距離來獲取字串之間的相似度,對于處理英文字串具有良好效果,但是卻沒有處理中文字串中的形似字和音似字的能力。具體的,現(xiàn)有技術(shù)在計算兩字串中的形似字或音似字之間的編輯距離時,通常如果計算機(jī)發(fā)現(xiàn)該形似字或音似字為不同字符時,將該形似字或音似字之間的編輯距離默認(rèn)為兩不同字符進(jìn)行變換所花費(fèi)的最大編輯距離,例如,假如規(guī)定字串中一個字符變換到另一個字符的最大編輯距離為100,則即使待 匹配地兩中文字串中有形似字或音似字時,計算機(jī)也會將該形似字或音似字之間的編輯距離定為100,在具體應(yīng)用場景下,通常計算機(jī)會判定這兩中文字串為不同的兩字串,即這兩字串匹配失敗。而通常用戶使用的文本輸入法為拼音輸入法或者五筆輸入法,這樣很容易由于用戶輸入失誤導(dǎo)致待匹配的中文字串中出現(xiàn)形似字或音似字,但因為現(xiàn)有技術(shù)計算機(jī)對中文字串進(jìn)行匹配時不具備處理形似字和音似字的能力,所以可能會導(dǎo)致兩字串匹配失敗。技術(shù)實現(xiàn)要素:本申請實施例提供一種對中文字串進(jìn)行匹配的方法,用于解決上述現(xiàn)有技術(shù)在對文本內(nèi)容進(jìn)行匹配時,無法處理中文字串中音似字和形似字的問題。本申請實施例提供了一種對中文字串進(jìn)行匹配的方法,該方法包括:獲取待匹配的第一字串和第二字串,并將所述第一字串轉(zhuǎn)換成表征所述第一字串筆畫或拼音信息的第一編碼串,以及將所述第二字串轉(zhuǎn)換成表征所述第二字串筆畫或拼音信息的第二編碼串;根據(jù)所述第一編碼串和第二編碼串判斷所述第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果所述相同位置上的字符是形似字或音似字,則根據(jù)預(yù)設(shè)的計算形似字或音似字的編輯距離規(guī)則獲取所述相同位置上的字符之間的編輯距離,所述編輯距離小于預(yù)設(shè)的不同字符之間的最大編輯距離;根據(jù)所述編輯距離對所述第一字串和第二字串進(jìn)行匹配。優(yōu)選地,所述根據(jù)所述第一編碼串和第二編碼串判斷所述第一字串和第二字串中相同位置上的字符是否是形似字具體包括:根據(jù)所述第一編碼串和第二編碼串所表征的筆畫信息,獲取所述第一字串中字符對應(yīng)的筆畫信息變換到第二字串相同位置上字符對應(yīng)的筆畫信息之間的變換次數(shù),或獲取第二字串中字符對應(yīng)的筆畫信息變換到第一字串相同位置上字符對應(yīng)的筆畫信息之間的變換次數(shù),并根據(jù)所述變換次數(shù)和相同位置上字符的最大筆畫長度判斷所述字符是否是形似字。優(yōu)選地,在根據(jù)所述變換次數(shù)和相同位置上字符中的最大筆畫長度判斷所述字符是否是形似字之前,所述方法還包括:將所述變換次數(shù)與預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù)進(jìn)行比較;如果所述變換次數(shù)大于所述預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù),則確定所述相同位置上的字符不是形似字;如果所述變換次數(shù)小于所述預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù),則根據(jù)所述變換次數(shù)和相同位置上字符中的最大筆畫長度判斷所述字符是否是形似字。優(yōu)選地,所述將所述第一字串轉(zhuǎn)換成表征所述第一字串筆畫信息的第一編碼串和將所述第二字串轉(zhuǎn)換成表征所述第二字串筆畫信息的第二編碼串包括:根據(jù)所述第一字串的筆畫順序?qū)λ龅谝蛔执墓P畫信息進(jìn)行表征,獲取第一編碼串,并根據(jù)所述第二字串的筆畫順序?qū)λ龅诙执墓P畫信息進(jìn)行表征,獲取第二編碼串。優(yōu)選地,所述將所述第一字串轉(zhuǎn)換成表征所述第一字串筆畫信息的第一編碼串和將所述第二字串轉(zhuǎn)換成表征所述第二字串筆畫信息的第二編碼串還包括:將漢字筆畫與數(shù)字建立對應(yīng)關(guān)系;根據(jù)所述對應(yīng)關(guān)系使用數(shù)字對所述第一字串的筆畫信息進(jìn)行表征,獲取第一編碼串,并根據(jù)所述對應(yīng)關(guān)系使用數(shù)字對所述第二字串的筆畫信息進(jìn)行表征,獲取第二編碼串。優(yōu)選地,所述根據(jù)所述第一編碼串和第二編碼串判斷所述第一字串和第二字串中相同位置上的字符是否是音似字具體包括:根據(jù)所述第一編碼串和第二編碼串所表征的拼音信息,判斷所述第一字串和第二字串中相同位置上的字符是否是音似字。優(yōu)選地,所述判斷所述第一字串和第二字串中相同位置上的字符是否是音 似字具體包括:如果所述第一字串和第二字串中相同位置上字符對應(yīng)的拼音信息中只有音調(diào)不同,則確定所述相同位置上的字符是音似字;和/或,如果所述第一字串和第二字串中相同位置上字符對應(yīng)的拼音信息中包含有聲母模糊音且韻母和聲調(diào)相同時,則確定所述相同位置上的字符是音似字;和/或,如果所述第一字串和第二字串中相同位置上字符對應(yīng)的拼音信息中包含有韻母模糊音且聲母和聲調(diào)相同時,則確定所述相同位置上的字符是音似字。本申請實施例還提供了一種對中文字串進(jìn)行匹配的裝置,該裝置包括獲取單元、判斷單元和匹配單元,其中:所述獲取單元,用于獲取待匹配的第一字串和第二字串,并將所述第一字串轉(zhuǎn)換成表征所述第一字串筆畫或拼音信息的第一編碼串,以及將所述第二字串轉(zhuǎn)換成表征所述第二字串筆畫或拼音信息的第二編碼串;所述判斷單元,用于根據(jù)所述第一編碼串和第二編碼串判斷所述第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果所述相同位置上的字符是形似字或音似字,則根據(jù)預(yù)設(shè)的計算形似字或音似字的編輯距離規(guī)則獲取所述相同位置上的字符之間的編輯距離,所述編輯距離小于預(yù)設(shè)的不同字符之間的最大編輯距離;所述匹配單元,用于根據(jù)所述編輯距離對所述第一字串和第二字串進(jìn)行匹配。優(yōu)選地,所述判斷單元包括獲取子單元和判斷子單元,其中:所述獲取子單元,用于獲取所述第一字串中字符對應(yīng)的筆畫信息變換到第二字串相同位置上字符對應(yīng)的筆畫信息之間的變換次數(shù),或獲取第二字串中字符對應(yīng)的筆畫信息變換到第一字串相同位置上字符對應(yīng)的筆畫信息之間的變換次數(shù);所述判斷子單元,用于根據(jù)所述變換次數(shù)和相同位置上字符的最大筆畫長 度判斷所述字符是否是形似字。優(yōu)選地,所述裝置還包括比較單元,所述比較單元用于在根據(jù)所述變換次數(shù)和相同位置上字符中的最大筆畫長度判斷所述字符是否是形似字之前,將所述變換次數(shù)與預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù)進(jìn)行比較;如果所述變換次數(shù)大于所述預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù),則確定所述相同位置上的字符不是形似字;如果所述變換次數(shù)小于所述預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù),則根據(jù)所述變換次數(shù)和相同位置上字符中的最大筆畫長度判斷所述字符是否是形似字。應(yīng)用本申請實施例提供的對中文字串進(jìn)行匹配的方法及裝置,在計算兩中文字串之間的編輯距離時,首先將這兩字串寫成編碼串的形式,該編碼串可以表征這兩字串對應(yīng)的拼音或筆畫信息,然后根據(jù)這兩編碼串所表征的這兩中文字串的筆畫或拼音信息,判斷這兩中文字串中相同位置上的字符是否是形似字或音似字,如果該相同位置上的字符是形似字或音似字,則根據(jù)預(yù)設(shè)的計算形似字或音似字的編輯距離的規(guī)則計算該相同位置上字符的編輯距離,獲得的該編輯距離小于除了預(yù)設(shè)的兩不同字符之間進(jìn)行變換的最大編輯距離,這樣提升了計算機(jī)處理中文字串中相似字和音似字的能力,即可以使得計算機(jī)對文本內(nèi)容的匹配更加準(zhǔn)確。附圖說明此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:圖1為本申請實施例1提供的一種對中文字串進(jìn)行匹配的方法的具體流程示意圖;圖2為本申請實施例1提供的具體編輯操作的框架示意圖;圖3為本申請實施例2提供的一種對中文字串進(jìn)行匹配的裝置的具體結(jié)構(gòu)示意圖。具體實施方式為使本申請的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請具體實施例及相應(yīng)的附圖對本申請技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護(hù)的范圍。為了更加清楚的說明本申請實施例,在說明本申請實施之前,有必有對現(xiàn)有技術(shù)中關(guān)于文本匹配的方法進(jìn)行說明,具體如下:在
      背景技術(shù)
      中已經(jīng)提到,計算機(jī)中關(guān)于文本內(nèi)容匹配的應(yīng)用場景有很多,例如,網(wǎng)上各個購物平臺中對商品的分類,或者圖書管中對于書籍的分類等,這些都會涉及到計算機(jī)對文本內(nèi)容進(jìn)行匹配的操作。通常計算機(jī)在對文本內(nèi)容進(jìn)行匹配的方法是計算文本內(nèi)容對應(yīng)的字串之間的相似度,而計算兩字串之間的相似度通常的方法是計算這兩字串之間的編輯距離,例如,計算機(jī)在判斷文本內(nèi)容a與文本內(nèi)容b之間的是否相互匹配時,通常會計算由文本內(nèi)容a轉(zhuǎn)換到文本內(nèi)容b需要的最少編輯操作次數(shù),即編輯距離,或者是計算由文本內(nèi)容b轉(zhuǎn)換到文本內(nèi)容a所需要的最少編輯操作次數(shù);如果得到文本內(nèi)容a與文本內(nèi)容b之間的編輯距離為0時,計算機(jī)就認(rèn)為文本內(nèi)容a和文本內(nèi)容b是相同的文本內(nèi)容,在一些實際的應(yīng)用場景中,計算機(jī)在對物品進(jìn)行分類時,會認(rèn)為文本內(nèi)容a和文本內(nèi)容b對應(yīng)的物品屬于同類等。在具體應(yīng)用場景中,計算機(jī)針對兩文本內(nèi)容進(jìn)行匹配的情況有很多種,例如:相關(guān)購物平臺的管理人員在對商品進(jìn)行分類時,當(dāng)涉及到兩商品信息對應(yīng)字串之間進(jìn)行匹配時,可以是管理人員同時對新進(jìn)的一批商品中任意兩件商品對應(yīng)的信息進(jìn)行匹配,從而完成商品的分類;或者也可以是新進(jìn)的商品中任意 一個商品對應(yīng)的信息與相關(guān)購物平臺中已經(jīng)存儲的任意一個商品信息進(jìn)行匹配,從而完成商品的分類,或者還有其他兩文本內(nèi)容進(jìn)行匹配的情況,這里不作具體限定。在現(xiàn)有技術(shù)中,通常計算中文字串和英文字串的編輯距離的規(guī)則是相同的,如表1為現(xiàn)有技術(shù)中利用建模軟件sas中的函數(shù)compged計算得到的兩英文字串之間的編輯距離,具體內(nèi)容如下:編輯操作可以是“替換”、“插入”、“刪除”、“空格”、“標(biāo)點(diǎn)”、“截斷”、“雙寫”和“首字母”等,具體的,在編輯操作為“替換”的一行中:將“manegementfacebook”變?yōu)椤癿anagementfacebook”,即將“manegement”中的中間字符“e”替換成“a”,獲得“management”,通過計算獲得由“manegementfacebook”變?yōu)椤癿anagementfacebook”需要花費(fèi)的編輯距離為100;在編輯操作為“插入&刪除”的一行中:將“mangementfacebook”變?yōu)椤癿anagementfacebook”,即將“mangement”中插入一個字符“a”,獲得“management”,通過計算獲得由“mangementfacebook”變?yōu)椤癿anagementfacebook”需要花費(fèi)的編輯距離為100,同理,將“management”中刪除一個字符“a”,獲得“mangement”,需要花費(fèi)的編輯距離同樣也為100;其他編輯操作所花費(fèi)的編輯距離如表1所示,這里不再贅述。表1編輯操作編輯距離舉例替換100manegementfacebook-->managementfacebook插入&刪除100mangementfacebook-->managementfacebook空格10managementfacebook-->managementfacebook標(biāo)點(diǎn)30management,facebook-->management!facebook截斷50managementfacebook-->managementfaceboo雙寫20managementfacebook-->managementfacebok首字母200managementfacebook-->nanagementfacebook上述編輯操作中的“刪除”與“截取”的區(qū)別是:“刪除”是刪除字串中間位置的字符,而“截取”是去掉字串中末尾的字符。另外,利用建模軟件sas計算兩中文字串之間的編輯距離,與計算英文字串之間的編輯距離的規(guī)則一致,例如,由“達(dá)夫妮”變換成“達(dá)芙妮”,需要將“夫”替換為“芙”,根據(jù)上述表1可以知道,編輯操作“替換”需要花費(fèi)的最低編輯距離為100。利用建模軟件sas獲得的兩字串之間的編輯距離對于英文字串,的確可以比較精確的計算出兩字串間的編輯距離,在實際應(yīng)用中,利用建模軟件sas獲得的兩英文字串的編輯距離也可以很精確的完成兩英文字串對應(yīng)文本內(nèi)容之間的匹配,而且有時計算機(jī)根據(jù)計算得到的兩英文字串之間的編輯距離,可以對人為輸入失誤導(dǎo)致的后果進(jìn)行及時的修正,例如,用戶在對物品進(jìn)行分類時,誤將“abc”輸成“ab”,這時計算機(jī)分別計算“ab”與其他的輸入物品信息對應(yīng)的字串之間的編輯距離,假設(shè)通過計算發(fā)現(xiàn)從“abc”變換到“ab”的編輯距離為50,假如預(yù)設(shè)的編輯距離的閾值為80,即該計算機(jī)認(rèn)為編輯距離小于80的為相同字串,這時計算機(jī)會將“ab”自動匹配為“abc”,即將“ab”對應(yīng)的物品歸類為“abc”的物品類別中。但建模軟件sas在計算中文字串之間的編輯距離時,有時無法得到很精確的編輯距離,例如,由字串“達(dá)夫妮”變換成字串“達(dá)芙妮”,需要將“夫”替換為“芙”,編輯操作“替換”需要花費(fèi)的最低編輯距離為100,但是在漢字中“夫”與“芙”的拼音相同,且筆畫相差也較小,得到的編輯距離卻相對較大,在通常沒有設(shè)定編輯距離閾值的情況下,計算機(jī)會認(rèn)為“夫”和“芙”為不同的字符,即認(rèn)為“達(dá)夫妮”和“達(dá)芙妮”為不同的兩字串;在實際應(yīng)用中,假如相關(guān)購物平臺管理人員在對商品分類時,因為“夫”和“芙”的拼音相同,管理人員在采用拼音輸入法時,很有可能誤將“達(dá)芙妮”輸成“達(dá)夫妮”,這時計算機(jī)根據(jù)這兩字串的編輯距離,可能不會將“達(dá)夫妮”對應(yīng)的商品歸類于“達(dá)芙妮”這類商品中,造成分類錯誤。因此建模軟件sas在計算兩字串的編輯距離時,沒有處理中文字串中形 似字和音似字的能力,而且該建模軟件在處理英文字串和中文字串的規(guī)則是相同的,例如,在表1中的編輯操作“雙寫”,該編輯操也用于中文字串,但是在實際應(yīng)用中“雙寫”這種編輯操作,對于中文字串中使用的情況很少,還有編輯操作“首字符”,同樣對于中文字串使用的情況也相對較少。因此建模軟件sas沒有考慮到中文字串和英文字串的差異性,導(dǎo)致在實際應(yīng)用中,有時會給用戶帶來不便。上述建模軟件sas只是示例性的說明,在實際應(yīng)用中,還有其他計算字串編輯距離的軟件,但是大部分計算編輯距離的軟件都會存在上述提到的問題,且為了更清楚的說明本申請實施例中對文本內(nèi)容匹配的方法,以下對于現(xiàn)有技術(shù)對于文本內(nèi)容匹配的方法均用建模軟件sas進(jìn)行舉例說明。在對現(xiàn)有技術(shù)中關(guān)于文本匹配的方法進(jìn)行說明之后,以下結(jié)合附圖,詳細(xì)說明本申請各實施例提供的技術(shù)方案。本申請實施例提供了一種對中文字串進(jìn)行匹配的方法,用于計算機(jī)在對文本內(nèi)容進(jìn)行匹配時,提高計算機(jī)處理文本內(nèi)容中形似字的能力。該方法的具體流程示意圖如圖1所示,包括下述步驟:步驟11:獲取待匹配的第一字串和第二字串,并將所述第一字串轉(zhuǎn)換成表征所述第一字串筆畫或拼音信息的第一編碼串,以及將所述第二字串轉(zhuǎn)換成表征所述第二字串筆畫或拼音信息的第二編碼串。在本步驟中,計算機(jī)在對文本內(nèi)容匹配之前,先要獲得待匹配的文本內(nèi)容對應(yīng)的字符串,且通常是兩文本內(nèi)容之間進(jìn)行匹配,即獲得兩文本內(nèi)容分別對應(yīng)的第一字串和第二字串,且該字串可以是英文字串或者是中文字串,同時這里的英文字串或者中文字串中可能夾雜標(biāo)點(diǎn)符號、空格、數(shù)字等,或者是中英文結(jié)合的字串形式。本申請實施例對于處理英文字串之間的編輯距離,與現(xiàn)有技術(shù)中處理英文字串的編輯距離的規(guī)則相似,詳細(xì)可以參考表1,且表1只是示例性的說明了幾個編輯操作,在實際應(yīng)用中,還有其他的編輯操作,這里不作具體的限定。下面重點(diǎn)說明應(yīng)用本申請實施例計算中文字串之間編輯距離的方法,本申請實施例中對于處于中文字串之間的編輯距離,提供了相應(yīng)的筆畫編碼規(guī)則,來增加現(xiàn)有技術(shù)中處理中文字串中形似字的能力,具體如下:這里的筆畫編碼規(guī)則是指將中文字串按照固定的筆畫規(guī)則寫成編碼形式的字串,該編碼形式的字串用來表征中文字串的筆畫信息,且該編碼形式的字串的表現(xiàn)形式有很多種,例如,該固定規(guī)則可以是:按照中文字串的筆畫順序,將該中文字串的筆畫表現(xiàn)出來,例如,中文字串“十”可以寫成“一丨”;但在實際應(yīng)用中,有些中文字串的筆畫相對較為復(fù)雜,這時就可以將該中文字串的筆畫用一些編碼進(jìn)行表示,例如,可以將常用的漢字筆畫與數(shù)字建立對應(yīng)關(guān)系。如表2就是將常用的漢字筆畫用數(shù)字進(jìn)行表示,具體如下:筆畫“一”用數(shù)字“1”表示,筆畫“丨”和“亅”用數(shù)字“2”表示,筆畫“丿”用數(shù)字“3”表示等;其中,有些筆畫采用相同數(shù)字表示的原因是:在實際的應(yīng)用場景下,由于在中文字串中的某些筆畫十分相近,如果用戶采用五筆等輸入法時,可能將一些筆畫輸錯,導(dǎo)致計算機(jī)不能將用戶輸入的文本進(jìn)行正確的匹配。表2漢字筆畫數(shù)字一1丨2亅2丿3丶4乁4乀4乛5乚5乙5表2中采用數(shù)字表示漢字筆畫只是示例性的說明,用戶可以根據(jù)實際的需 要進(jìn)行自行設(shè)定,例如,在具體應(yīng)用場景下,用戶可以統(tǒng)計經(jīng)常輸錯的漢字的筆畫,自行設(shè)定筆畫表碼表,最大限度的減小在該應(yīng)用場景下由于用戶人為的輸入錯誤產(chǎn)生的不良后果。類似的,本申請實施例還提供了相應(yīng)拼音編碼規(guī)則,來增加現(xiàn)有技術(shù)中處理中文字串中音似字的能力,具體如下:這里拼音編碼規(guī)則是指將中文字串按照固定的拼音規(guī)則寫成拼音編碼形式的字串,該拼音編碼形式的字串用來表征中文字串的拼音信息,且該編碼形式的字串的表現(xiàn)形式有很多種,例如,該固定規(guī)則可以是將中文字串中字符分別寫成“聲母+韻母+聲調(diào)”的形式,例如,對于中文字串“間”可以寫成“jian1”,即聲母為“j”,韻母為“ian”,拼音為一聲,即“1”;再例如“可以”,可以寫成“ke3yi3”,或者可以寫成“keyi33”,用戶根據(jù)需要自行設(shè)定,這里不作具體限定。步驟12:根據(jù)所述第一編碼串和第二編碼串判斷所述第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果所述相同位置上的字符是形似字或音似字,則根據(jù)預(yù)設(shè)的計算形似字或音似字的編輯距離規(guī)則獲取所述相同位置上的字符之間的編輯距離,所述編輯距離小于預(yù)設(shè)的不同字符之間的最大編輯距離。在步驟11中已經(jīng)獲得待匹配兩文本對應(yīng)的字串,且根據(jù)預(yù)設(shè)的筆畫編碼規(guī)則將第一字串和第二字串編寫成筆畫編碼形式的字串,該筆畫編碼形式的字串表征該第一字串和第二字串的筆畫信息,即獲得第一編碼串和第二編碼串。在獲得第一編碼串和第二編碼串后,要判斷這兩編碼字對應(yīng)的第一字串和第二字串中相同位置上的字符是是否是形似字;具體的判斷方法是:根據(jù)該第一編碼串和第二編碼串所表征第一字串和第二字串的筆畫信息,獲得該第一字串和第二字串中相同位置上字符的筆順編輯距離,這里的筆順編輯距離是指該第一字串和第二字串中相同位置上的字符所對應(yīng)的筆畫信息之間進(jìn)行變換的次數(shù)。例如,根據(jù)表2中的數(shù)字與漢字筆畫的對應(yīng)關(guān)系,將中文字串“回力”表示為“25251153”的編碼形式,字串“回匕”表示為“25251135”的編碼 形式,根據(jù)這兩編碼串所表征的筆畫信息中,只需將“53”進(jìn)行一次數(shù)字交換變?yōu)椤?5”,即從字符“力”和字符“匕”之間的筆順編輯距離為1。在獲取第一字串和第二字串中相同位置上字符的筆順編輯距離后,比較該第一編碼串和第二編碼串中相同位置上字符之間的筆順編輯距離與預(yù)設(shè)的相似字對應(yīng)筆畫信息之間的最大編輯距離,如果該筆順編輯距離比預(yù)設(shè)的相似字對應(yīng)筆畫信息之間的最大編輯距離大,則該相同位置上的字符不是形式字,如果該筆順編輯距離比預(yù)設(shè)的相似字對應(yīng)筆畫信息之間的最大編輯距離小,則再根據(jù)該筆順編輯距離和相同位置上字符中的最大筆畫長度判斷所述字符是否是形似字。具體的,可以根據(jù)上述兩字串中相同位置上字符之間的筆順編輯與這兩字符中的最大筆畫長度的比值,判斷這兩字符是否是形似字,并將該比值與設(shè)定的閾值進(jìn)行比較,從而確定這兩字符是否是形似字,即:當(dāng)計算得到的比值大于該設(shè)定的閾值時,則這兩字符不是形似字,反之,當(dāng)計算得到的比值小于該設(shè)定的閾值時,則這兩字符不是形似字。在實際應(yīng)用中,有很多種確定兩字符是否是形似字的方法,這里只是示例性的說明,不作具體限定。當(dāng)上述第一字串和第二字串中相同位置上的字符是相似字時,計算該形似字的編輯距離的規(guī)則可以是:采用公式進(jìn)行計算其中y代表的兩字串之間的編輯距離,a代表的是起始距離,b代表的是筆畫編輯距離,100代表的是字串中一個字符進(jìn)行變換的最大編輯距離,lmax代表的是兩字串中的最大長度,例如,“間”和“問”這兩字串的最大長度為7。這里筆畫編輯距離b是指:兩字串對應(yīng)的筆畫編碼串之間進(jìn)行變換時所需的編輯次數(shù),例如,字串“力”和“匕”對應(yīng)的筆畫編碼分別為“53”和“35”,即通過將數(shù)字“5”和“3”進(jìn)行一次交換,就可以使得兩筆畫編碼完全相同,則這兩字串的筆畫編輯距離b的取值為1;且這里的起始編輯距離可以自行設(shè)置,例如,如果規(guī)定字串中的一個字符進(jìn)行變換的最大編輯距離為100,即如果兩字串進(jìn)行變換時所要花費(fèi)的編輯距離為100,則這兩字串可以認(rèn)為完全不相同,即完全不匹配, 此時就可以將起始編輯距離設(shè)置為20,即這里設(shè)定的起始編輯距離要小于一個字符變換的最大編輯距離。需要說明的是,上述計算形似字的編輯距離的公式其中,該公式中設(shè)定初始距離a和因數(shù)100的原因是:確保計算獲得的兩字串之間的編輯距離的范圍是[0,100],因為現(xiàn)有技術(shù)中兩英文字符之間的編輯距離的范圍是[0,100],為了與其對應(yīng),對筆順編輯距離與第一編碼串和第二編碼串的最大長度的比值進(jìn)行可調(diào)整。具體的,通過實例來對本申請實施例提供的對于形似字的匹配方法進(jìn)行說明,如表3所示為:根據(jù)字串1和字串2之間的編輯距離獲得這兩字串間的匹配程度,在匹配之前,先將字串1和字串2根據(jù)表2中筆畫與數(shù)字之間的對應(yīng)關(guān)系進(jìn)行編寫,即:根據(jù)字串1和字串2的筆畫順序,且用相應(yīng)的數(shù)字對字串1和字串2的筆畫進(jìn)行表示,獲得編碼形式字串;具體如下:字串1始終為“回力”,相應(yīng)的編碼形式的字串為“25251153”,當(dāng)字串2也為“回力”時,對應(yīng)的筆畫編碼為“25251153”,通過計算得到這兩字串間的編輯距離為0,即這兩字串完全匹配;當(dāng)字串2為“耐克”時,對應(yīng)的筆畫編碼為“1325221241225135”,通過計算得到這兩字串間的編輯距離為200,即這兩字串完全不匹配;當(dāng)字串2為“回刀”時,對應(yīng)的筆畫編碼為“25251153”,通過計算得到這兩字串間的編輯距離為20,即這兩字串筆畫編碼相同,但因為“力”和“刀”為不同字串,根據(jù)上述公式,因為筆畫編碼相同,即筆畫編輯距離b為0,則這兩字串之間的編輯距離為20,即初始編碼距離設(shè)為20;當(dāng)字串2為“回匕”時,對應(yīng)的筆畫編碼為“25251135”,通過公式計算得到這兩字串間的編輯距離為70,具體計算過程是:a=20,由于這兩字串對應(yīng)的筆畫編碼分別為“25251153”和“25251135”,即只需將“5”和“3”進(jìn)行一次交換,就可以使得這兩字串的筆畫編碼完全相同,因此這兩字串的筆畫編輯距離為1,且這里字串對應(yīng)的最大長度為2,則,即這兩字串筆畫編碼相近;當(dāng)字串2為“回味”時,對應(yīng)的筆畫編碼為“25251125111234”,同理,通過計算得到這兩字串間的編 輯距離為100,即這兩字串筆畫編碼不同。假如在實際應(yīng)用場景中,規(guī)定編輯距離的閾值為50,則字串2中除了“回力”可以與字串1匹配以外,計算機(jī)也會將“回刀”認(rèn)為與字串1中的“回力”匹配,這樣可以增加計算機(jī)對于處理形似字的能力。表3字符串1字符串2筆畫1筆畫2編輯距離說明回力回力25251153252511530完全匹配回力耐克252511531325221241225135200完全不匹配回力回刀252511532525115320筆畫編碼相同回力回匕252511532525113570筆畫編碼相近回力回味2525115325251125111234100筆畫編碼不同上述計算機(jī)處理中文字字串中的形似字方法只是示例性的說明,在實際應(yīng)用中,可以自行的對編輯距離進(jìn)行設(shè)定,例如,在處理形似字時,計算編輯距離的公式中,其中,參數(shù)100是根據(jù)現(xiàn)有技術(shù)中常用的字串中的編輯距離范圍來確定的,用戶也可以將字串中一個字符記性變換的最大編輯距離規(guī)定為200,相應(yīng)的,a和b的值也可以進(jìn)行相應(yīng)的變化,或者采用其他公式計算編輯距離。同理,在步驟11根據(jù)預(yù)設(shè)的拼音編碼規(guī)則將第一字串和第二字串編寫成拼音編碼形式的字串,該拼音編碼形式的字串表征該第一字串和第二字串的拼音信息,即獲得第一編碼串和第二編碼串。計算第一編碼串和第二編碼串的編輯距離之前,先要判斷第一字串和第二字串中相同位置上的字符是否是音似字,判斷方法可以是根據(jù)該相同位置上的字符對應(yīng)的拼音信息進(jìn)行判斷:如果這兩字串中的拼音只有音調(diào)不同時,可以認(rèn)為這兩編碼串為音似字;如果這兩字串包含有聲母模糊音,且這兩字串的韻母和音調(diào)相同時,這里可以認(rèn)為該字串是音似字;或者這兩字串包含有韻母模糊音,且這兩字串的聲母和音調(diào)相同時,這里也可以認(rèn)為該字串是音似字。在確定上述第一編碼串和第二編碼串中相同位置上的字符為音似字后,要根據(jù)預(yù)設(shè)規(guī)則獲取該相同位置上的字符之間的編輯距離,該編輯距離小于預(yù)設(shè)編輯距離,且該預(yù)設(shè)編輯距離是指除了形似字和音似字以外的其他字符之間的最大編輯距離。具體的,通過舉例清楚的對上述計算音似字之間的編輯距離的規(guī)則進(jìn)行說明,例如,計算音似字的編輯距離的規(guī)則可以是:如果兩字串為不同字串,但是這兩字串對應(yīng)的拼音相同,這里拼音相同是指聲母、韻母和聲調(diào)均相同,這時如果設(shè)定字串之間進(jìn)行變換的最大編輯距離為100時,可以將這兩字串的編輯距離定為20,例如,lian2和lian2之間的編輯距離為20;如果兩字串只有聲調(diào)不同時,編輯距離可以定為30,例如,lian2與lian3之間的編輯距離為30;如果存在模糊音,且只有韻母模糊音或聲母模糊音而其他部分的拼音相同時,這兩字串的編輯距離可以定為50,例如,lian2和nian2之間的編輯距離為50;如果雖然存在模糊音,但拼音中其他兩部分任意一部分不同時,這兩字串間的編輯距離為100,則計算機(jī)認(rèn)為這兩字串完全不相同,即這兩字串完全不匹配,例如,lian2和nian4之間的編輯距離為100。下面再通過實例來對本申請實施例提供的對于音似字的匹配方法進(jìn)行說明,如表4所示為:根據(jù)字串1和字串2之間的編輯距離獲得這兩字串間的匹配程度,且表4中的字串1和字串2是根據(jù)字串1和字串2的拼音,將字串1和字串2寫成“聲母+韻母+聲調(diào)”的編碼形式的字串,具體如下:字串1始終為“達(dá)芙妮”,相應(yīng)的編碼形式的字串為“da2fu1ni2”,當(dāng)字串2也為“達(dá)芙妮”時,對應(yīng)的拼音編碼為“da2fu1ni2”,通過計算得到這兩字串間的編輯距離為0,即這兩字串完全匹配;當(dāng)字串2為“天美意”時,對應(yīng)的拼音編碼為“tian1mei3yi4”,通過計算得到這兩字串間的編輯距離為300,即這兩字串完全不匹配;當(dāng)字串2為“達(dá)夫妮”時,對應(yīng)的拼音編碼為“da2fu1ni2”,通過計算得到這兩字串間的編輯距離為20,即這兩字串拼音編碼相同,但因為“芙”和“夫”為不同字串,則這兩字串之間的編輯距離為20;當(dāng)字串2為“達(dá)付妮” 時,對應(yīng)的拼音編碼為“da2fu4ni2”,通過計算得到這兩字串間的編輯距離為30,即這兩字串只有音調(diào)不相同;當(dāng)字串2為“達(dá)芙離”時,對應(yīng)的拼音編碼為“da2fu1li2”,其中,“n”與“l(fā)”為模糊音,通過計算得到這兩字串間的編輯距離為50;當(dāng)字串2為“達(dá)達(dá)妮”時,對應(yīng)的拼音編碼為“da2da2ni2”,通過計算得到這兩字串間的編輯距離為100,即這兩字串存在讀音錯誤。假如在實際應(yīng)用場景中,規(guī)定編輯距離的閾值為50,則字串2中除了“達(dá)芙妮”可以與字串1匹配以外,計算機(jī)也會將“達(dá)夫妮”和“達(dá)付妮”認(rèn)為與字串1中的“達(dá)芙妮”匹配,這樣可以增加計算機(jī)對于處理音似字的能力。表4字符串1字符串2拼音1拼音1編輯距離說明達(dá)芙妮達(dá)芙妮da2fu1ni2da2fu1ni20完全匹配達(dá)芙妮天美意da2fu1ni2tian1mei3yi4300完全不匹配達(dá)芙妮達(dá)夫妮da2fu1ni2da2fu1ni220讀音完全相同達(dá)芙妮達(dá)付妮da2fu1ni2da2fu4ni230只有聲調(diào)不相同達(dá)芙妮達(dá)芙離da2fu1ni2da2fu1li250模糊音達(dá)芙妮達(dá)達(dá)妮da2fu1ni2da2da2ni2100讀音錯誤在實際應(yīng)用中,還需要考慮到用戶對有些中文字串的拼音不是很明確導(dǎo)致輸入字串錯誤的情況,例如,中文拼音里的平翹舌音,比如:s和sh,c和ch,z和zh,用戶很有可能在輸入字串時,因為無法確定平翹舌音,導(dǎo)致輸入的字串錯誤;還有些用戶因為地域上的差異,會將拼音里的l和n、f和h、r和l等混淆,這樣也可能導(dǎo)致用戶輸入的字串錯誤。針對這個問題,本申請實施例針對計算一些常見的模糊音對應(yīng)字串的編輯距離,采取預(yù)設(shè)的算法使得計算得到的模糊音對應(yīng)字串的編輯距離,相比現(xiàn)有技術(shù)中計算得到的編輯距離要小,例如,現(xiàn)有技術(shù)計算得到“can”和“chan”兩個字串之間的編輯距離為100(如表一所示),在本申請實施例中可以將“can”和“chan”這兩字串的編輯距離規(guī)定為50,因為“c”和“ch”是模糊音。在實際應(yīng)用中,利用本申請實施例提供的關(guān)于計算常見模糊音對應(yīng)字串的編輯距離,減少這些模糊音的編輯距離, 這樣可以考慮到用戶平時的語言習(xí)慣,提高了計算機(jī)在對用戶輸入的文本內(nèi)容進(jìn)行匹配時的正確率。如表5所示為本申請實施例提供的部分常見的模糊音,除了上述提到的幾個聲母模糊音外,還有一些韻母模糊音,例如,an和ang、en和eng、in和ing、ian和iang、uan和uang,這些都是用戶相對比較容易錯的韻母模糊音;且表5只是示例性的對模糊音進(jìn)行說明,在實際應(yīng)用中,還有其他很多用戶容易混淆的模糊音,這里不進(jìn)行具體限定。表5現(xiàn)有技術(shù)中計算字串間的編輯距離的方法,需要根據(jù)一定的計算規(guī)則進(jìn)行計算,例如,上述提到的建模軟件sas中的函數(shù)compged的計算規(guī)則如表1所示,即函數(shù)compged針對不同的編輯操作制定不同計算規(guī)則,從而獲得編輯距離;另外,compged(s1,s2)表示的是將字串s1變換到s2時的編輯距離,compged(s2,s1)表示的是將字串s2變換到s1時的編輯距離,且有時compged(s1,s2)計算得到的編輯距離與compged(s2,s1)計算得到的編輯距離不相同,即函數(shù)compged具有方向性。但在實際應(yīng)用中,有時需要避免由于函數(shù)compged的方向性導(dǎo)致獲得的兩字串間的編輯距離不同的情況,因此本申請實施例重新定義了計算字串編輯距離的函數(shù),假設(shè)新的計算編輯距離的函數(shù)為ged,這時可以定義ged(s1,s2)=ged(s2,s1),即由字串s1變換到s2的編輯距離與由字串 s2變換到s1的編輯距離相同。在前述內(nèi)容提到,在建模軟件sas中,如表1中的編輯操作“雙寫”,或者編輯操作“單寫”,對于英文、中文、數(shù)字和標(biāo)點(diǎn)都是有效的,但是在某些實際應(yīng)用場景中,“雙寫”或“單寫”這些操作步驟對于處理中文、數(shù)字和標(biāo)點(diǎn)等字串是沒有意義的,假如用戶在輸入中文字串時,用戶輸錯字串的可能性遠(yuǎn)遠(yuǎn)大于輸多字串或者輸少字串的可能性,例如,用戶很有可能將“達(dá)芙妮”輸成“達(dá)夫妮”,而在很少情況輸成“達(dá)芙芙妮”或者“達(dá)妮”,即使輸成“達(dá)芙芙妮”或者“達(dá)妮”,用戶通常比較容易發(fā)現(xiàn)這種錯誤并及時的進(jìn)行修正,因此在一些具體的應(yīng)用場景下,建模軟件sas中的“雙寫”或“單寫”對于中文字串是沒有意義的。本申請實施例針對這種情況,可以將“雙寫”或“單寫”定義為只適用于英文等字串,而對于中文、數(shù)字和標(biāo)點(diǎn)等字串不適用。這里所說的“雙寫”或“單寫”針對具體字串的適用性,只是示例性的說明,用戶可以根據(jù)具體的應(yīng)用場景進(jìn)行自行設(shè)定,例如,用戶可以設(shè)定“雙寫”或“單寫”對于英文、標(biāo)點(diǎn)字串適用,或者對于英文、數(shù)字字串適用等。在建模軟件sas計算兩字串之間的編輯距離時,當(dāng)這兩個字串的首字符不同時,計算得到的編輯距離與其他位置中的字符不同時得到的編輯距離不同,例如,表1中的編輯操作“首字符”中,當(dāng)兩字串中的首字符不同時,計算得到的編輯距離是200,而編輯操作中的“替換”,相當(dāng)于是兩字串中間位置的字符不相同時,編輯距離為100,顯然,首字符不同的情況下,通過建模軟件sas計算得到的兩字串之間的編輯距離較大,但是在計算中文字串間的編輯距離時,首字符不同與其他位置上的字符不同,對于中文字串的區(qū)別不大。因此本申請實施例在計算兩中文字串間的編輯距離時,這兩字串首字符不同與其他位置上的字符不同時所花費(fèi)的編輯距離相同。而且,在建模軟件sas中,當(dāng)兩字串中的首尾位置有空格時,對于計算兩字串的編輯距離也會有影響,但在實際應(yīng)用中,對于兩中文字串首尾位置上的空格通常是沒有意義的,因此本申請實施例定義的函數(shù)ged,在計算中文字 串的編輯距離時,可以先將首尾空格移除,再進(jìn)行計算,可以避免由于首尾空格導(dǎo)致計算的編輯距離出現(xiàn)較大的差異。現(xiàn)有技術(shù)在計算中文字串中的形似字或音似字時,通常直接將形似字或音似字之間的編輯距離默認(rèn)為設(shè)定的兩不同字符之間的最大編輯距離,而本步驟通過將待匹配的中文字串轉(zhuǎn)換成表征該中文字串的筆畫或拼音的編碼串,且通過相應(yīng)的計算形似字或音似字的規(guī)則,獲得的該編碼串之間的編輯距離要比設(shè)定的兩不同字符之間的最大編輯距離小。步驟13:根據(jù)所述編輯距離對所述第一字串和第二字串進(jìn)行匹配。在前面已經(jīng)提到關(guān)于文本內(nèi)容的匹配,可以通過某種算法計算待匹配文本內(nèi)容對應(yīng)字串之間的編輯距離,獲得該編輯距離后,還需要設(shè)定編輯距離閾值,該閾值用于判斷待匹配兩字串之間的是否匹配。例如,在某種應(yīng)用場景下,規(guī)定兩字串之間的編輯距離閾值為50,即:如果通過計算獲得兩字串之間的編輯距離在50以下,即兩字串之間的編輯距離小于或等于50時,則這兩字串之間相互匹配;如果通過計算獲得兩字串之間的編輯距離在50以上,即兩字串之間的編輯距離大于50時,則這兩字串之間不匹配。需要說明的是,在用戶輸入待匹配文本內(nèi)容對應(yīng)的字串時,通常計算機(jī)無法識別這兩字串是形似字還是音似字,所以在計算機(jī)對中文字串進(jìn)行匹配前,將同一字串分別按照拼音編碼規(guī)則和筆畫編碼規(guī)則進(jìn)行轉(zhuǎn)換,獲得拼音編碼串和筆畫編碼串,然后分別計算這兩個拼音編碼串和這兩筆畫編碼串的編輯距離,獲得編輯距離較小的為最終獲得的編輯距離。但是也存在有些應(yīng)用場景,只需將兩字串按照拼音編碼規(guī)則或筆畫編碼規(guī)則進(jìn)行轉(zhuǎn)換,從而能獲得拼音編碼串或筆畫編碼串,這里不作具體限定。另外,本申請實施例在處理有字串1變換到字串2的編輯操作有很多種,具體總結(jié)如圖2所示:對于英文字串的編輯操作有:增加:將字串1中增加一個字符,獲得字符2;刪除:將字串1中刪除一個字符,獲得字符2;交換:將字串1中其中兩字符進(jìn)行交換,獲得字符2;首字符:將字串1中的首字符 進(jìn)行改變,獲得字串2;修改:將字串1中的一個字符修改,獲得字串2;單雙寫:將字串1中的一個字符雙寫,獲得字串2,或者是將字串中兩個相鄰的雙寫的字符改成單寫,獲得字串2;添加或截取:將字串1中的末尾增加或刪除一個字符,獲得字串2;標(biāo)點(diǎn):將字串1中的標(biāo)點(diǎn)變換成另一種標(biāo)點(diǎn),獲得字串2;空格:將字串1中加入或刪除空格,獲得字串2。對于中文字串的編輯操作有:修改:對字串1中字符進(jìn)行修改,獲得字串2,這里的中文字串具體包括音似字和形似字兩種情形,當(dāng)字串1和字串2中具有音似字時,將這兩字串寫成拼音編碼形式的字串后,可能出現(xiàn)的情形有:1、拼音編碼完全相同;2、拼音編碼中只有音調(diào)不同;3、這兩字串中有模糊音;4、除了上述3中情形以外的其他情形;當(dāng)字串1和字串2中具有形似字時,將這兩字串寫成拼音編碼形式的字串后,可能出現(xiàn)的情況有:1、筆畫編碼完全相同;2、筆畫編碼相似;3、筆畫編碼不相似。上述內(nèi)容針對一種對中文字串進(jìn)行匹配的方法進(jìn)行了詳細(xì)的說明,相應(yīng)的,本申請實施例提供一種對文本內(nèi)容進(jìn)行匹配的裝置。該裝置的具體結(jié)構(gòu)示意圖如圖3所示,具體包括獲取單元31、判斷單元32和匹配單元33,其中:所述獲取單元31,可以用于獲取待匹配的第一字串和第二字串,并將所述第一字串轉(zhuǎn)換成表征所述第一字串筆畫或拼音信息的第一編碼串,以及將所述第二字串轉(zhuǎn)換成表征所述第二字串筆畫或拼音信息的第二編碼串;所述判斷單元32,可以用于根據(jù)所述第一編碼串和第二編碼串判斷所述第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果所述相同位置上的字符是形似字或音似字,則根據(jù)預(yù)設(shè)的計算形似字或音似字的編輯距離規(guī)則獲取所述相同位置上字符之間的編輯距離,所述編輯距離小于預(yù)設(shè)的不同字符之間的最大編輯距離;所述匹配單元33,可以用于根據(jù)所述編輯距離對所述第一字串和第二字串進(jìn)行匹配。上述裝置實施例的具體工作過程是:首先,獲取單元31獲取待匹配第一 字串和第二字串,然后判斷單元32根據(jù)該第一編碼串和第二編碼串判斷該第一字串和第二字串中相同位置上的字符是否是形似字或音似字,如果該相同位置上的字符是形似字或音似字,則根據(jù)預(yù)設(shè)的計算形似字或音似字的編輯距離規(guī)則獲取所述相同位置上字符之間的編輯距離,該編輯距離小于預(yù)設(shè)的不同字符之間的最大編輯距離,最后匹配單元33根據(jù)該編輯距離對該第一字串和第二字串進(jìn)行匹配。本申請實施例提供的裝置實施例的具體實施方式有很多種,在一種實施方式中,該判斷單元包括獲取子單元和判斷子單元,其中:所述獲取子單元,可以用于獲取所述第一字串中字符對應(yīng)的筆畫信息變換到第二字串相同位置上字符對應(yīng)的筆畫信息之間的變換次數(shù),或獲取第二字串中字符對應(yīng)的筆畫信息變換到第一字串相同位置上字符對應(yīng)的筆畫信息之間的變換次數(shù);所述判斷子單元,可以用于根據(jù)所述變換次數(shù)和相同位置上字符的最大筆畫長度判斷所述字符是否是形似字。在另一種實施方式中,所述裝置還包括比較單元,所述比較單元可以用于在根據(jù)所述變換次數(shù)和相同位置上字符中的最大筆畫長度判斷所述字符是否是形似字之前,將所述變換次數(shù)與預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù)進(jìn)行比較,如果所述變換次數(shù)大于所述預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù),則確定所述相同位置上的字符不是形似字;如果所述變換次數(shù)小于所述預(yù)設(shè)形似字對應(yīng)筆畫信息之間變換的最大次數(shù),則再根據(jù)所述變換次數(shù)和相同位置上字符中的最大筆畫長度判斷所述字符是否是形似字。應(yīng)用本申請實施例提供的對中文字串進(jìn)行匹配的方法及裝置,在計算兩中文字串之間的編輯距離時,首先將這兩字串寫成編碼串的形式,該編碼串可以表征這兩字串對應(yīng)的拼音或筆畫信息,然后根據(jù)這兩編碼串所表征的這兩中文字串的筆畫或拼音信息,判斷這兩中文字串中相同位置上的字符是否是形似字 或音似字,如果該相同位置上的字符是形似字或音似字,則根據(jù)預(yù)設(shè)的計算形似字或音似字的編輯距離的規(guī)則計算該相同位置上字符的編輯距離,獲得的該編輯距離小于除了預(yù)設(shè)的兩不同字符之間進(jìn)行變換的最大編輯距離,這樣提升了計算機(jī)處理中文字串中相似字和音似字的能力,即可以使得計算機(jī)對文本內(nèi)容的匹配更加準(zhǔn)確;在實際應(yīng)用場景中,本申請實施例可以降低由于用戶輸入失誤導(dǎo)致產(chǎn)生不良后果的幾率。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法或系統(tǒng)。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個 流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。在一個典型的配置中,計算設(shè)備包括一個或多個處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲器(rom)或閃存(flashram)。內(nèi)存是計算機(jī)可讀介質(zhì)的示例。計算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲器(sram)、動態(tài)隨機(jī)存取存儲器(dram)、其他類型的隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。還需要說明的是,術(shù)語“包括”、“包含”或其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或是還包括為這種過程、方法、商品或設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括要素的過程、方法、商品或設(shè)備中還存在另外的相同要素。本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)或計算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、 光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。以上僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變換。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。當(dāng)前第1頁12
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1