本發(fā)明涉及計算機,特別涉及一種文本去重方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)發(fā)展,各種信息在互聯(lián)網(wǎng)上的傳播越來越方便。然而,在大量信息因互聯(lián)網(wǎng)得到傳播的同時,越來越多的重復(fù)信息也不斷在互聯(lián)網(wǎng)上出現(xiàn),影響用戶獲取信息的效率。
2、比如,同一份文本內(nèi)容經(jīng)常被互聯(lián)網(wǎng)上多個平臺多個公眾號通過修改部分內(nèi)容后,再進行轉(zhuǎn)載,導(dǎo)致我們獲取到的有效信息存在大量重復(fù)的問題。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實施例提供了一種文本去重方法、裝置、電子設(shè)備及存儲介質(zhì)。技術(shù)方案如下:
2、一方面,提供了一種文本去重方法,方法包括:
3、對原始文本進行文本切分,得到至少一個子文本;
4、基于預(yù)設(shè)文本屬性從至少一個子文本中確定目標子文本;目標子文本的文本屬性和預(yù)設(shè)文本屬性的關(guān)聯(lián)度滿足關(guān)聯(lián)條件;
5、將目標子文本進行拼接重組,得到目標文本;
6、若目標文本和待比較文本的相似度滿足相似條件,刪除原始文本;待比較文本為預(yù)設(shè)文本屬性對應(yīng)的文本。
7、另一方面,提供了一種文本去重裝置,裝置包括:
8、文本切分模塊,用于對原始文本進行文本切分,得到至少一個子文本;
9、文本確定模塊,用于基于預(yù)設(shè)文本屬性從至少一個子文本中確定目標子文本;目標子文本的文本屬性和預(yù)設(shè)文本屬性的關(guān)聯(lián)度滿足關(guān)聯(lián)條件;
10、文本拼接模塊,用于將目標子文本進行拼接重組,得到目標文本;
11、文本處理模塊,用于若目標文本和待比較文本的相似度滿足相似條件,刪除原始文本;待比較文本為預(yù)設(shè)文本屬性對應(yīng)的文本。
12、在一些可能的實施例中,文本確定模塊,用于:
13、對至少一個子文本中的每個子文本中的每個字符進行字符特征處理,得到每個子文本中的每個字符的字符特征信息;
14、基于每個子文本中的每個字符的字符特征信息確定每個子文本的文本特征信息;
15、基于每個子文本的文本特征信息確定每個子文本的文本屬性數(shù)據(jù);文本屬性數(shù)據(jù)為預(yù)設(shè)文本屬性對應(yīng)的數(shù)據(jù);
16、基于每個子文本的文本屬性數(shù)據(jù)和預(yù)設(shè)屬性數(shù)據(jù)從至少一個子文本中確定目標子文本。
17、在一些可能的實施例中,當目標子文本的數(shù)量為k,且k為大于等于二的整數(shù)時,文本拼接模塊,用于:
18、按照目標子文本在原始文本中的位置進行拼接重組,得到數(shù)量為一的目標文本;
19、或者;
20、基于全排列規(guī)則對目標子文本進行拼接重組,得到數(shù)量與k相關(guān)的多個目標文本。
21、在一些可能的實施例中,裝置還包括指紋向量確定模塊,用于:
22、對目標文本進行分詞處理,得到目標文本對應(yīng)的詞向量序列;
23、基于預(yù)設(shè)文本屬性確定詞向量序列中的每個詞向量的權(quán)重信息;
24、基于詞向量序列和每個詞向量的權(quán)重信息確定目標文本的文本向量;
25、對文本向量進行降維處理,得到目標文本的指紋向量。
26、在一些可能的實施例中,文本處理模塊,用于:
27、獲取待比較文本的指紋向量;待比較文本為預(yù)設(shè)文本屬性對應(yīng)的文本庫中的文本;
28、基于目標文本的指紋向量和待比較文本的指紋向量確定目標文本和待比較文本之間的距離數(shù)據(jù);
29、若距離數(shù)據(jù)小于等于距離閾值,確定目標文本為重復(fù)文本,并刪除原始文本。
30、在一些可能的實施例中,裝置還包括原始文本確定模型,用于:
31、獲取待處理文件;
32、對待處理文件中的內(nèi)容進行字符獲取處理,得到原始文本;
33、待處理文件中的內(nèi)容包括文本、表格、圖片中的至少一個。
34、在一些可能的實施例中,文本確定模塊,用于基于預(yù)設(shè)文本屬性和文本判別模型從至少一個子文本中確定目標子文本;文本判別模型由文本訓(xùn)練集訓(xùn)練得到;
35、裝置還包括訓(xùn)練集確定模塊,用于:
36、獲取多個正文本和多個負文本;正文本和預(yù)設(shè)文本屬性相關(guān);負文本和預(yù)設(shè)文本屬性無關(guān);
37、利用替換詞對正文本中的詞進行替換,得到第一文本;
38、基于多個正文本、多個負文本和第一文本確定文本訓(xùn)練集。
39、在一些可能的實施例中,訓(xùn)練集確定模塊,用于:
40、從正文本中確定插入詞;
41、將插入詞插入正文本,得到第二文本;
42、對正文本進行詞刪除處理,得到第三文本;
43、對正文本進行詞交換處理,得到第四文本;
44、基于第二文本、第三文本和第四文本中的一個或者多個,以及多個正文本和多個負文本確定文本訓(xùn)練集。
45、另一方面,提供了一種電子設(shè)備,包括處理器和存儲器,所述存儲器中存儲有至少一條指令或至少一段程序,所述至少一條指令或所述至少一段程序由所述處理器加載并執(zhí)行以實現(xiàn)上述的文本去重方法。
46、另一方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有至少一條指令或至少一段程序,所述至少一條指令或所述至少一段程序由處理器加載并執(zhí)行以實現(xiàn)如上述的文本去重方法。
47、另一方面,提供了一種計算機程序產(chǎn)品或計算機程序,該計算機程序產(chǎn)品或計算機程序包括計算機指令,該計算機指令存儲在計算機可讀存儲介質(zhì)中。計算機設(shè)備的處理器從計算機可讀存儲介質(zhì)讀取該計算機指令,處理器執(zhí)行該計算機指令,使得該計算機設(shè)備執(zhí)行上述的文本去重方法。
48、本發(fā)明實施例通過對原始文本進行文本切分,得到至少一個子文本,基于預(yù)設(shè)文本屬性從至少一個子文本中確定目標子文本,目標子文本的文本屬性和預(yù)設(shè)文本屬性的關(guān)聯(lián)度滿足關(guān)聯(lián)條件,將目標子文本進行拼接重組,得到目標文本,若目標文本和待比較文本的相似度滿足相似條件,刪除原始文本,待比較文本為預(yù)設(shè)文本屬性對應(yīng)的文本。本申請實施例通過對原始文本進行無效信息的去除,以減少無效信息在后續(xù)目標文本去重中的影響,并經(jīng)過和待比較文本的相似度的比較,可以有效地進行文本的去重,提高去除了無效信息后的文本的去重率。
1.一種文本去重方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的文本去重方法,其特征在于,所述基于預(yù)設(shè)文本屬性從所述至少一個子文本中確定目標子文本,包括:
3.根據(jù)權(quán)利要求1或者2所述的文本去重方法,其特征在于,當所述目標子文本的數(shù)量為k,且k為大于等于二的整數(shù)時,所述將所述目標子文本進行拼接重組,得到目標文本,包括:
4.根據(jù)權(quán)利要求1-3任一所述的文本去重方法,其特征在于,所述若所述目標文本和待比較文本的相似度滿足相似條件,刪除所述原始文本之前,還包括:
5.根據(jù)權(quán)利要求4所述的文本去重方法,其特征在于,所述若所述目標文本和待比較文本的相似度滿足相似條件,刪除所述原始文本,包括:
6.根據(jù)權(quán)利要求1所述的文本去重方法,其特征在于,所述對原始文本進行文本切分,得到至少一個子文本之前,還包括:
7.根據(jù)權(quán)利要求1-6任一所述的文本去重方法,其特征在于,所述基于預(yù)設(shè)文本屬性從所述至少一個子文本中確定目標子文本,包括:
8.根據(jù)權(quán)利要求7所述的文本去重方法,其特征在于,所述方法還包括:
9.一種文本去重裝置,其特征在于,所述裝置包括:
10.一種電子設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器中存儲有至少一條指令或至少一段程序,所述至少一條指令或所述至少一段程序由所述處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1~8中任一項所述的文本去重方法。
11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有至少一條指令或至少一段程序,所述至少一條指令或所述至少一段程序由處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1~8中任一項所述的文本去重方法。
12.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括至少一條指令或至少一段程序,所述至少一條指令或所述至少一段程序由處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1-8任一項所述的文本去重方法。