一種數(shù)據(jù)包稀缺性評估方法及其系統(tǒng)與流程

文檔序號：12124652閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種數(shù)據(jù)包稀缺性評估方法及其系統(tǒng)與流程

技術(shù)特征：

1.一種數(shù)據(jù)包稀缺性評估方法，其特征在于，包括：

S100：獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包；

S200：確定待評估數(shù)據(jù)包，并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度，選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包；

S300：利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性，具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性：

$<mrow> <mi>f</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> </mfrac> </mrow>$

其中，f為待評估數(shù)據(jù)包的稀缺性得分，取值范圍為[0，1]；y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和；x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在步驟S200中利用文本相似度算法計算待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度，具體包括：

S210：將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中，通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞，確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻，并建立文檔詞條矩陣；

S220：基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度：

$<mrow> <mi>G</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>N</mi> <mn>1</mn> </msub> <mo>×</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>)</mo> <mo>+</mo> <mo>(</mo> <msub> <mi>N</mi> <mn>2</mn> </msub> <mo>×</mo> <msub> <mi>M</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>+</mo> <mn>...</mn> <mo>+</mo> <mo>(</mo> <msub> <mi>N</mi> <mi>m</mi> </msub> <mo>×</mo> <msub> <mi>M</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>N</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>N</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>N</mi> <mi>m</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>×</mo> <msqrt> <mrow> <msubsup> <mi>M</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>M</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>M</mi> <mi>m</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>$

其中，G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度，范圍為[0，1]；N₁，N₂…N_m和M₁，M₂…M_m分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)G大于0.5時，表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性；當(dāng)G大于0.85時，表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，當(dāng)f＝0時，表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺；當(dāng)f＝1時，表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在，非常稀缺。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。

6.一種數(shù)據(jù)包稀缺性評估系統(tǒng)，其特征在于，包括：

數(shù)據(jù)獲取模塊，獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包；

相似度評估模塊，確定待評估數(shù)據(jù)包，并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度，選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包；

稀缺性評估模塊，利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性，具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性：

7.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述相似度評估模塊包括：

詞條文檔矩陣建立單元，將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中，通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞，確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻，并建立文檔詞條矩陣；

相似度計算單元，基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度：

8.根據(jù)權(quán)利要求7所述的系統(tǒng)，其特征在于，當(dāng)G大于0.5時，表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性；當(dāng)G大于0.85時，表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。

9.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，當(dāng)f＝0時，表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺；當(dāng)f＝1時，表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在，非常稀缺。

10.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述數(shù)據(jù)獲取模塊通過通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

電力系統(tǒng)安全性評估相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種數(shù)據(jù)包稀缺性評估方法及其系統(tǒng)與流程