本申請涉及大數據處理技術,具體涉及一種文本相似度確定方法及裝置。
背景技術:
在現有技術中,文本相似度確定方法如下:將待進行相似度比較的文本分別向量化;分別計算文本向量的余弦相似度,并將兩個文本向量的余弦相似度作為兩個文本之間的相似度。
現有技術中的文本相似度確定方法,由于是通過兩個文本向量的余弦相似度來判斷文本相似度,因此,偏向于將文字上重合度較高的文本認為是更相似的地址,但是,在待比較的文本為地址時,可能出現不夠準確的情況,例如,采用現有技術中的方法,得到的結果可能是“XX省XX市淘寶城”與“淘寶城”的相似度要低于其與“XX省XX市”的相似度,準確性低。
技術實現要素:
本申請實施例中提供了一種文本相似度確定方法及裝置,用于解決現有技術中的文本相似度的確定方法準確性低的問題。
根據本申請實施例的一個方面,提供了一種文本相似度確定方法,包括:獲取第一文本與第二文本;確定第一文本與第二文本的相似字符串;確定相似字符串與第二文本的結構相似度;根據相似字符串與第二文本的結構相似度,確定第一文本與第二文本的相似度。
根據本申請實施例的另一個方面,提供了一種文本相似度確定裝置,包括:獲取模塊,用于獲取第一文本與第二文本;相似字符串確定模塊,用于確定第一文本與第二文本的相似字符串;字符串與文本相似度確定模塊,用于確定相似字符串與第二文本的結構相似度;文本相似度確定模塊,用于根據相似字符串與第二文本的結構相似度,確定第一文本與第二文本的相似度。
采用本申請實施例中的方案,先確定第一文本和第二文本之間的相似字符串,并根據相似字符串與所述第二文本的結構相似度來確定第一文本與第二文本的相似度,由于考慮兩個文本之間相似字符串與第二文本的結構相似度,與現有技術中根據兩個文本向量的余弦相似度來判斷文本相似度的方法相比,提高了確定結果的準確度。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
圖1為本申請實施例一所示的文本相似度確定方法的流程圖;
圖2為本申請實施例一中確定第一地址和第二地址的相似字符串的方法流程圖;
圖3為本申請實施例二所示的結構示意圖。
具體實施方式
為了使本申請實施例中的技術方案及優(yōu)點更加清楚明白,以下結合附圖對本申請的示例性實施例進行進一步詳細的說明,顯然,所描述的實施例僅是本申請的一部分實施例,而不是所有實施例的窮舉。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
在實現本申請的過程中,申請人發(fā)現,現有技術中的文本相似度確定方法,由于是通過兩個文本向量的余弦相似度來判斷文本相似度,因此,偏向于將文字上重合度較高的文本認為是更相似的地址,但是,在待比較的文本為地址時,可能出現不夠準確的情況,例如,采用現有技術中的方法,得到的結果可能是“XX省XX市淘寶城”與“淘寶城”的相似度要低于其與“XX省XX市”的相似度,不夠準確。
針對上述問題,本申請實施例中提供了一種文本相似度確定方法及裝置,先確定第一文本和第二文本之間的相似字符串,并根據相似字符串與第一文本或第二文本的結構相似度來確定第一文本與第二文本的相似度,由于考慮兩個文本之間相似字符串與第二文本的結構相似度,與現有技術中根據兩個文本向量的余弦相似度來判斷文本相似度的方法相比,提高了準確度。
本申請實施例中的方案可以應用于電商平臺的商品搜索中,也可以應用于車聯網的車主檔案搜索中,還可以應用于如高德地圖、百度地圖等的多種地圖產品的地址搜索中。
本申請實施例中的文本相似度確定方法可以使用如面向對象的程序設計語言java語言等的計算機語言實現。
圖1為本申請實施例一所示的文本相似度確定方法的流程圖。
如圖1所示,根據本申請實施例一所示的文本相似度確定方法包括以下步驟:
S102,獲取第一文本與第二文本;
S104,確定第一文本與第二文本的相似字符串;
S106,確定相似字符串與第一文本或第二文本的結構相似度;
S108,根據相似字符串與第二文本的結構相似度,確定第一文本與第二文本的相似度。
在具體實施時,該第一文本和第二文本可以是如地址、商品名稱的短文本,也可以是如車主檔案等的長文本,本申請對此不作限制。
在本申請實施例中,結構相似度可以是指字符串的內容結構與文本的相似程度,更具體地,可以是指字符串在文本中出現的條件概率。
采用本申請實施例中的文本相似度確定方法,先確定第一文本和第二文本之間的相似字符串,并根據相似字符串與所述第二文本的結構相似度來確定第一文本與第二文本的相似度,由于考慮兩個文本之間相似字符串與第二文本的結構相似度,與現有技術中根據兩個文本向量的余弦相似度來判斷文本相似度的方法相比,準確度較高。
后續(xù)實施例中,以第一文本和第二文本分別為待搜索地址和候選地址為例,對本申請實施例進行進一步描述。在具體實施時,可以是第一文本為待搜索地址,第二文本為候選地址;也可以是第一文本為候選地址,第二文本為待搜索地址,本申請對此不作限制。
在具體實施時,待搜索地址可以是用戶輸入的,想要搜索的地址。候選地址可以是地址庫中與用戶輸入的待搜索地址相關的地址。在用戶進行地址搜索時,有時會出現用戶輸入的地址和地址庫中的地址不能完全匹配的情況。比如用戶在搜索引擎中輸入:“XX市淘寶城”,但是地址庫中存儲的、與用戶輸入的地址相關的候選地址可能是:“XX省XX區(qū)XXX號XXX淘寶城”或者“XX區(qū)XXX號XXX淘寶城”。此時,需要確定待搜索地址和候選地址之間的相似度來找出與用戶輸入的待搜索地址相似度最大的幾個候選地址供用戶參考和選擇。
在現有技術中,確定參考地址的方法如下:從地址庫中查詢與用戶輸入的地址近似的多條候選地址;將用戶輸入的地址及該多條候選地址分別向量化;分別計算用戶輸入的地址向量和該多條地址向量的余弦相似度,并將兩個地址向量的余鉉相似度作為兩個地址之間的相似度;然后按計算得到的余弦相似度從大到小排序,然后根據策略,取與用戶輸入地址相似度大于預定閾值的前N個地址供用戶參考。
采用上述方法,由于是通過兩個地址向量的余弦相似度來判斷地址相似度,因此,偏向于將文字上重合度較高的地址認為是更相似的地址,例如,采用現有技術中的方法,得到的結果可能是“XX省XX市淘寶城”與“淘寶城”的相似度要低于其與“XX省XX市”的相似度,不夠準確。
而采用本申請實施例中的方案以后,由于是先確定待搜索地址與候選地址的相似字符串,再根據相似字符串與某一地址的結構相似度來確定地址之間的相似度,即,考慮兩個文本之間相似字符串與第二文本的結構相似度,與現有技術中根據兩個文本向量的余弦相似度來判斷文本相似度的方法相比,準確度較高。
優(yōu)選地,獲取第一文本與第二文本具體包括:接收用戶輸入的字符,其中,字符包括待搜索地址;從用戶輸入的字符中提取待搜索地址;獲取地址庫中與待搜索地址相關的候選地址。
在具體實施時,可以通過終端上的輸入模塊接收用戶輸入的字符;在包括待搜索地址之外,還可以包括用戶輸入的其他字符,例如,用戶輸入的字符為“我想去淘寶城”,則可以從該字符中提取待搜索地址為“淘寶城”。具體的地址提取方法可以采用現有技術中的常用方法,此處不贅述。
優(yōu)選地,獲取地址庫中與所述待搜索地址相關的候選地址具體包括:確定所述待搜索地址中的最小單元;在地址庫中查詢最小單元對應的節(jié)點,并將節(jié)點下的所有分支地址作為搜索結果;其中,地址庫中的地址按地址范圍從小到大以樹形結構存儲;將搜索結果作為候選地址。
在具體實施時,待搜索地址的最小單元可以是待搜索地址的最后一個詞語,例如,用戶輸入的待搜索地址為“XX市淘寶城”,則該待搜索地址的最小單元為“淘寶城”;或者用戶輸入的待搜索地址為“北京市長安街10號”,則該待搜索地址的最小單元為“長安街10號”。
在具體實施時,地址庫中的地址按地址范圍從小到大以樹形結構存儲可以采用以下形式:例如,將“淘寶城”作為父節(jié)點,“文一西路”作為子節(jié)點,“969號”也作為其子節(jié)點,同時“文一西路”也作為“969號”的子節(jié)點,從而,在地址庫中查詢“淘寶城”對應的節(jié)點時,將得到節(jié)點下的所有分支地址作為的搜索結果:“文一西路淘寶城”、“969號淘寶城”、“文一西路969號淘寶城”。
在具體實施時,還可以直接將最小單元作為關鍵詞在地址庫中進行搜索,例如,將地址庫中包含該最小單元的所有地址作為搜索結果;或者優(yōu)先將用戶所在地的、包含該最小單元的地址作為搜索結果;或者在地址庫中不存在包含該最小單元時,也可以將與該最小單元中的字符相匹配的地址作為搜索結果等,本申請對此不作限制。
采用本申請實施例中的文本相似度確定方法,由于將待搜索地址中的最小單元作為關鍵詞在地址庫中進行搜索,并將搜索結果作為候選地址,與相關技術中將與用戶輸入的所有字符相匹配的地址均作為候選地址相比,能夠縮小候選地址的數量,提高了地址相似度的確定速度,能夠快速的向用戶返回參考地址,提升了用戶體檢,節(jié)省了計算資源。
優(yōu)選地,確定第一文本與第二文本的相似字符串具體包括:獲取第一文本的字符串長度L第一文本與第二文本字符串長度L第二文本;判斷L第一文本與L第二文本的大??;根據所述L第一文本與L第二文本的大小確定第一地址和第二地址;確定第一地址和第二地址的相似字符串。
在具體實施時,第一文本的字符串長度和第二文本的字符串長度可以是第一文本的字符個數和第二文本的字符個數,例如,第一文本為待搜索地址“杭州市淘寶城”時,其長度L第一文本為6;第二文本為候選地址為“浙江省杭州市文一西路969號淘寶城”時,其長度L第二文本為17。
優(yōu)選地,根據L第一文本與L第二文本的大小確定第一地址和第二地址具體包括:當L第一文本>L第二文本時,將第一文本作為第一地址,第二文本作為第二地址;當L第一文本≤L第二文本時,將第一文本作為第二地址,第二文本作為第一地址。
在具體實施時,可以將較短的文本作為第二地址。
優(yōu)選地,確定第一地址和第二地址的相似字符串的具體流程如圖2所示,具體包括:對第二地址中的每個字符執(zhí)行以下步驟:
S201,判斷第二地址的第x個字符是否包含在第一地址中,其中,x=L第二地址;如果第二地址的第x個字符未包含在第一地址中,則執(zhí)行步驟S202;如果第二地址的第x個字符包含在第一地址中,則執(zhí)行步驟S204;
S202,令x=x-1,執(zhí)行步驟S203;
S203,判斷x是否等于0;如果等于,則結束;如果不等于,則執(zhí)行步驟S201;
S204,令循環(huán)計數i=1,其中,當i=1時,執(zhí)行步驟S205;
S205,判斷x是否等于1;如果等于,則結束;如果不等于,則執(zhí)行步驟S206;
S206,判斷第二地址的第x-1個字符是否包含在第一地址中;如果包含,則執(zhí)行步驟S207;如果未包含,則執(zhí)行步驟S208;
S207,令x=x-1,i=i+1,并執(zhí)行步驟S205;
S208,將第x個字符至第x-i+1個字符作為第二地址與第一地址的相似字符串;并執(zhí)行步驟S209;
S209,令x=x-i;執(zhí)行步驟205。
在具體實施時,也可以將第二地址倒排,然后從倒排的第一個字符開始向后遍歷,這與本申請實施例中從最后一個字符開始往前遍歷的方式是一致的。
在具體實施時,從第二地址的最后一個字符開始,判斷該字符是否存在于第一地址中,如果存在,均認為該字符成為相似字符串的起始字符,如果不存在,則繼續(xù)判斷下一字符是否存在,并將存在于第一地址中的第一個字符作為相似字符串的起始字符;如果第二地址的第x-n個字符包含在第一地址中,則繼續(xù)判斷該字符的下一字符是否包含在第一地址中,直到將第二地址中的所有字符遍歷完,或者某一字符不包含在第一地址中,則將該不包含在第一地址中的后一字符作為相似字符串的結束字符,從而得到第二地址與第一地址的一個相似字符串;然后再繼續(xù)判斷該不包含在第一地址中的字符的前一字符是否包含在第一地址中,直到將第二地址中的所有字符遍歷完;可以得到第二地址與第一地址之間的一個或多個相似字符串。
在實現本申請的過程中,申請人發(fā)現,在通常的搜索語句中,搜索語句中靠后的字符表達的信息更為重要,例如,對于地址來說,“浙江省杭州市文一西路969號”與“文一西路969號”的相似度要高于其與“浙江省杭州市文一西路”的相似度;或者對于商品名稱來說,“三星galaxy s3”與“galaxy s3”的相似度要高于其與“三星galaxy”的相似度;因此,相較于從第二地址的第一個字符向后遍歷的匹配,從第二地址的最后一個字符向前的匹配更能保留文本中的重要信息,使得相似度計算更加準確。
另外,現有技術中的方案需要將被比較的兩個文本都向量化,所以要對兩個文本都做一次循環(huán)比較,處理時間較長,而本申請實施例中的方案是將兩個文本中較短的文本進行循環(huán)比較,減少了處理時間,提升了效率。
在具體實施時,確定相似字符串與第一文本或第二文本的結構相似度可以包括以下步驟:確定相似字符串在所述第二地址中出現的條件概率;根據條件概率確定相似字符串與第二地址的相似度。
在具體實施時,可以根據下式得到相似字符串在第二地址中出現的條件概率:其中,posB為相似字符串的最后一個字符在第二地址中的位置;end_point為相似字符串的第一個字符在第二地址中的位置;L第二地址為第二地址的長度;posA為相似字符串的最后一個字符在第一地址中的位置;L第一地址為第一地址的長度,w依次取小于等于相似字符串個數的整數。
在具體實施時,針對第二地址與第一地址之間的一個或多個相似字符串,分別根據上述公式計算得到一個或多個結構相似度。
優(yōu)選地,根據相似字符串與第二文本的結構相似度,確定第一文本與第二文本的相似度具體包括:確定第一文本和第二文本的相似度為max{s1,s2,……sw},其中,s1,s2,……sw分別為第一文本與第二文本的多個相似字符串與第二地址的結構相似度。
在具體實施時,可以將第二地址中的多個相似字符串中,與第一地址結構相似度最大的相似字符串對應的相似度作為第一地址與第二地址的相似度。
在具體實施時,在根據上述的文本相似度確定方法確定待搜索地址與多個候選地址之間的相似度之后,還包括:判斷待搜索地址和候選地址的相似度是否大于預定閾值,如果大于則將判斷待搜索地址和候選地址相似;該預定閾值可以為0.5。
在具體實施時,還可以進一步對相似的候選地址進行排序,選出排序前N的候選地址作為參考地址,輸出給用戶供用戶參考。
采用本申請實施例中的方案,先確定第一文本與第二文本的相似字符串,再根據相似字符串與某一文本的結構相似度來確定文本之間的相似度,因此,兩個文本之間的相似度與彼此之間的相似字符串的長度相關,因此,與現有技術中僅考慮文字重合度的方法相比,準確度更高。
另外,現有技術中的方案需要將被比較的兩個文本都向量化,所以要對兩個文本都做一次循環(huán)比較,處理時間較長,而本申請實施例中的方案是將兩個文本中較短的文本進行循環(huán)比較,減少了處理時間,提升了效率。
下面,以一具體實例為例,對本申請實施例中的文本相似度確定方法進行介紹。
例如,用戶輸入的待搜索地址為“杭州市淘寶城A座”;在地址庫中搜索得到的候選地址有“浙江省杭州市文一西路9690號淘寶城”和“余杭區(qū)淘寶城”;設定相似度閾值為0.5,即,將相似度大于0.5的候選地址作為參考地址反饋給用戶。
第一,確定“杭州市淘寶城A座”和“浙江省杭州市文一西路9690號淘寶城”的相似度。
(1)確定“杭州市淘寶城A座”和“浙江省杭州市文一西路9690號淘寶城”的相似字符串?!昂贾菔刑詫毘茿座”的字符串長度為8;“浙江省杭州市文一西路9690號淘寶城”的字符串長度為18;將“杭州市淘寶城A座”作為第二地址,“浙江省杭州市文一西路9690號淘寶城”作為第一地址。判斷“杭州市淘寶城A座”中的第8個字符“座”未包含在第一地址中;則繼續(xù)判斷第7個字符“A”也未包含在第一地址中;繼續(xù)判斷第6個字符“城”包含在第一地址中;繼續(xù)判斷第5個字符“寶”也包含在第一地址中;繼續(xù)判斷第4個字符“淘”也包含在第一地址中,……最終判斷得到相似字符串為“杭州市淘寶城”。
(2)利用以下公式確定相似字符串與第二地址的相似度:
其中,posB為該相似字符串的最后一個字符在第二地址中的位置為6;end_point為該相似字符串的第一個字符在第二地址中的位置為1;L第二地址為第二地址的長度為8;posA為該相似字符串的最后一個字符在第一地址中的位置為18;L第一地址為第一地址的長度為18。因此得到:
(3)得到“杭州市淘寶城A座”和“浙江省杭州市文一西路9690號淘寶城”的相似度。max{s1}=s1=0.582。
即,“杭州市淘寶城A座”和“浙江省杭州市文一西路9690號淘寶城”的相似度為0.582。
第二,進一步判斷“杭州市淘寶城A座”和“余杭區(qū)淘寶城”的相似度。
(1)確定“杭州市淘寶城A座”和“余杭區(qū)淘寶城”的相似字符串?!昂贾菔刑詫毘茿座”的字符串長度為8;“余杭區(qū)淘寶城”的字符串長度為6;將“余杭區(qū)淘寶城”作為第二地址,“杭州市淘寶城A座”作為第一地址。判斷“余杭區(qū)淘寶城”中的第6個字符“城”包含在第一地址中;繼續(xù)判斷第5個字符“寶”也包含在第一地址中;繼續(xù)判斷第4個字符“城”也包含在第一地址中;繼續(xù)判斷第3個字符“區(qū)”未包含在第一地址中;則將第4-6個字符“淘寶城”作為第一個相似字符串;并繼續(xù)判斷第2個字符“杭”包含在第一地址中;繼續(xù)判斷第1個字符“余”未包含在第一地址中,則將第2個字符作為第二個相似字符串。
(2)利用以下公式確定第一個相似字符串和第二個相似字符串與第二地址的相似度:
對于第一個相似字符串“淘寶城”;posB為該相似字符串的最后一個字符在第二地址中的位置為6;end_point為該相似字符串的第一個字符在第二地址中的位置為4;L第二地址為第二地址的長度為6;posA為該相似字符串的最后一個字符在第一地址中的位置為6;L第一地址為第一地址的長度為8。因此得到:
對于第二個相似字符串“杭”;posB為該相似字符串的最后一個字符在第二地址中的位置為2;end_point為該相似字符串的第一個字符在第二地址中的位置為2;L第二地址為第二地址的長度為6;posA為該相似字符串的最后一個字符在第一地址中的位置為1;L第一地址為第一地址的長度為8。因此得到:
(3)得到“杭州市淘寶城A座”和“余杭區(qū)淘寶城”的相似度。max{s1,s2}=s1=0.319。
即,“杭州市淘寶城A座”和“余杭區(qū)淘寶城”的相似度為0.319。
由于“杭州市淘寶城A座”與“浙江省杭州市文一西路9690號淘寶城”的相似度大于0.5,而“杭州市淘寶城A座”與“余杭區(qū)淘寶城”的相似度小于0.5,因此將“浙江省杭州市文一西路9690號淘寶城”作為參考地址提供給用戶。
基于同一發(fā)明構思,本申請實施例中還提供了一種文本相似度確定裝置,由于該裝置解決問題的原理與本申請實施例所提供的方法相似,因此該裝置的實施可以參見方法的實施,重復之處不再贅述。
圖3為本申請實施例二所示文本相似度確定裝置的結構示意圖。
如圖3所示,根據本申請實施例二所示的文本相似度確定裝置300,包括:獲取模塊302,用于獲取第一文本與第二文本;相似字符串確定模塊304,用于確定第一文本與第二文本的相似字符串;結構相似度確定模塊306,用于確定相似字符串與第一文本或第二文本的結構相似度;文本相似度確定模塊308,用于根據結構相似度,確定第一文本與第二文本的相似度。
在具體實施時,該文本相似度確定裝置中的模塊可以部分位于終端,部分位于服務器;也可以全部位于服務器,本申請對此不作限制。
在具體實施時,第一文本和第二文本分別為待搜索地址和候選地址。
在具體實施時,獲取模塊可以包括:接收子模塊,用于接收用戶輸入的字符,其中,字符包括待搜索地址;提取子模塊,用于從用戶輸入的字符中提取待搜索地址;候選地址獲取子模塊,用于獲取地址庫中與待搜索地址相關的候選地址。
在具體實施時,候選地址獲取子模塊可以具體包括:最小單元確定單元,用于確定待搜索地址中的最小單元;搜索單元,用于在地址庫中查詢最小單元對應的節(jié)點,并將節(jié)點下的所有分支地址作為搜索結果;其中,地址庫中的地址按地址范圍從小到大以樹形結構存儲;候選地址確定單元,用于將搜索結果作為候選地址。
在具體實施時,相似字符串確定模塊可以包括:長度獲取單元,用于獲取第一文本的字符串長度L第一文本與第二文本字符串長度L第二文本;大小判斷單元,用于判斷L第一文本與L第二文本的大??;第一地址和第二地址確定單元,用于根據L第一文本與L第二文本的大小確定第一地址和第二地址;相似字符串確定單元,用于確定第一地址和第二地址的相似字符串。
在具體實施時,第一地址和第二地址確定單元具體可以用于在L第一文本>L第二文本時,將第一文本作為第一地址,第二文本作為第二地址;在L第一文本≤L第二文本時,將第一文本作為第二地址,第二文本作為第一地址。
在具體實施時,相似字符串確定單元具體可以用于對第二地址中的每個字符執(zhí)行以下步驟:S201,判斷第二地址的第x個字符是否包含在第一地址中,其中,x=L第二地址;如果第二地址的第x個字符未包含在第一地址中,則執(zhí)行步驟S202;如果第二地址的第x個字符包含在第一地址中,則執(zhí)行步驟S204;S202,令x=x-1,執(zhí)行步驟S203;S203,判斷x是否等于0;如果等于,則結束;如果不等于,則執(zhí)行步驟S201;S204,令循環(huán)計數i=1,其中,當i=1時,執(zhí)行步驟S205;205,判斷x是否等于1;如果等于,則結束;如果不等于,則執(zhí)行步驟S206;S206,判斷第二地址的第x-1個字符是否包含在第一地址中;如果包含,則執(zhí)行步驟S207;如果未包含,則執(zhí)行步驟S208;S207,令x=x-1,i=i+1,并執(zhí)行步驟S205;S208,將第x個字符至第x-i+1個字符作為第二地址與第一地址的相似字符串;并執(zhí)行步驟S209;S209,令x=x-i;執(zhí)行步驟205。
在具體實施時,結構相似度確定模塊具體可以包括:條件概率確定子模塊,用于確定相似字符串在第二地址中出現的條件概率;結構相似度確定子模塊,用于根據該條件概率確定相似字符串與第二地址的相似度。
在具體實施時,條件概率確定子模塊可以根據下式得到相似字符串在第二地址中出現的條件概率:其中,posB為該相似字符串的最后一個字符在第二地址中的位置;end_point為該相似字符串的第一個字符在第二地址中的位置;L第二地址為第二地址的長度;posA為該相似字符串的最后一個字符在第一地址中的位置;L第一地址為第一地址的長度,w依次取小于等于相似字符串個數的整數。
優(yōu)選地,文本相似度確定模塊具體用于確定第一文本和第二文本的相似度為max{s1,s2,……sw},其中,s1,s2,……sw分別為第一文本與第二文本的多個相似字符串與第二地址的結構相似度。
采用本申請實施例中的方案,先確定第一文本與第二文本的相似字符串,再根據相似字符串與某一文本的結構相似度來確定文本之間的相似度,因此,兩個文本之間的相似度與彼此之間的相似字符串的長度相關,因此,與現有技術中僅考慮文字重合度的方法相比,準確度更高。
另外,現有技術中的方案需要將被比較的兩個文本都向量化,所以要對兩個文本都做一次循環(huán)比較,處理時間較長,而本申請實施例中的方案是將兩個文本中較短的文本進行循環(huán)比較,減少了處理時間,提升了效率。
本領域內的技術人員應明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
本申請是參照根據本申請實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執(zhí)行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本申請的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。
顯然,本領域的技術人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權利要求及其等同技術的范圍之內,則本申請也意圖包含這些改動和變型在內。