国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種數(shù)據(jù)包稀缺性評估方法及其系統(tǒng)與流程

      文檔序號:12124652閱讀:來源:國知局

      技術(shù)特征:

      1.一種數(shù)據(jù)包稀缺性評估方法,其特征在于,包括:

      S100:獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包;

      S200:確定待評估數(shù)據(jù)包,并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包;

      S300:利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性,具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性:

      <mrow> <mi>f</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> </mfrac> </mrow>

      其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S200中利用文本相似度算法計算待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,具體包括:

      S210:將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞,確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣;

      S220:基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度:

      <mrow> <mi>G</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>N</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>)</mo> <mo>+</mo> <mo>(</mo> <msub> <mi>N</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>M</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>+</mo> <mn>...</mn> <mo>+</mo> <mo>(</mo> <msub> <mi>N</mi> <mi>m</mi> </msub> <mo>&times;</mo> <msub> <mi>M</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>N</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>N</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>N</mi> <mi>m</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <msubsup> <mi>M</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>M</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>M</mi> <mi>m</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

      其中,G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)G大于0.5時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性;當(dāng)G大于0.85時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。

      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在,非常稀缺。

      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。

      6.一種數(shù)據(jù)包稀缺性評估系統(tǒng),其特征在于,包括:

      數(shù)據(jù)獲取模塊,獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包;

      相似度評估模塊,確定待評估數(shù)據(jù)包,并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包;

      稀缺性評估模塊,利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性,具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性:

      <mrow> <mi>f</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> </mfrac> </mrow>

      其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。

      7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述相似度評估模塊包括:

      詞條文檔矩陣建立單元,將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞,確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣;

      相似度計算單元,基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度:

      <mrow> <mi>G</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>N</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>)</mo> <mo>+</mo> <mo>(</mo> <msub> <mi>N</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>M</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>+</mo> <mn>...</mn> <mo>+</mo> <mo>(</mo> <msub> <mi>N</mi> <mi>m</mi> </msub> <mo>&times;</mo> <msub> <mi>M</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>N</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>N</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>N</mi> <mi>m</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <msubsup> <mi>M</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>M</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>M</mi> <mi>m</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

      其中,G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。

      8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,當(dāng)G大于0.5時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性;當(dāng)G大于0.85時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。

      9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在,非常稀缺。

      10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述數(shù)據(jù)獲取模塊通過通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。

      當(dāng)前第2頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1