1.一種數(shù)據(jù)包稀缺性評估方法,其特征在于,包括:
S100:獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包;
S200:確定待評估數(shù)據(jù)包,并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包;
S300:利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性,具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性:
其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S200中利用文本相似度算法計算待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,具體包括:
S210:將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞,確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣;
S220:基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度:
其中,G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)G大于0.5時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性;當(dāng)G大于0.85時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在,非常稀缺。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。
6.一種數(shù)據(jù)包稀缺性評估系統(tǒng),其特征在于,包括:
數(shù)據(jù)獲取模塊,獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包;
相似度評估模塊,確定待評估數(shù)據(jù)包,并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包;
稀缺性評估模塊,利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性,具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性:
其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述相似度評估模塊包括:
詞條文檔矩陣建立單元,將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞,確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣;
相似度計算單元,基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度:
其中,G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,當(dāng)G大于0.5時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性;當(dāng)G大于0.85時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在,非常稀缺。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述數(shù)據(jù)獲取模塊通過通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。