国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于Spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法與流程

      文檔序號(hào):12863953閱讀:1308來源:國知局

      本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體地說是一種基于spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法。



      背景技術(shù):

      現(xiàn)有的數(shù)據(jù)去噪算法的主要應(yīng)用場景在單機(jī)或一上,目前的算法主要針對(duì)文本長度不滿足閾值的數(shù)據(jù)、廣告內(nèi)容和自動(dòng)回復(fù)數(shù)據(jù)等?,F(xiàn)有的數(shù)據(jù)去重算法由模塊根據(jù)分詞后的結(jié)果對(duì)文本進(jìn)行詞頻統(tǒng)計(jì),以將其轉(zhuǎn)換為維向量,并且對(duì)所述維向量進(jìn)行運(yùn)算,以便獲得位的二進(jìn)制簽名,由去重運(yùn)算模塊執(zhí)行以下操作:根據(jù)設(shè)定參數(shù)將所述位的二進(jìn)制簽名分段,并依據(jù)分段結(jié)果建立倒序索引,根據(jù)所建立的倒序索引來分段檢索第一分段下的簽名集合,并計(jì)算所述第一分段中的對(duì)應(yīng)的海明距離以及確定在所述第一分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。

      上述方法由于并不具備所提供的基于內(nèi)存的計(jì)算和對(duì)中間結(jié)果的內(nèi)存存儲(chǔ),導(dǎo)致整體時(shí)間過多的浪費(fèi)在工當(dāng)中,拖慢了整個(gè)應(yīng)用場景的速度。由語言不同而帶來的數(shù)據(jù)冗余也是去噪中的重點(diǎn)之一,基于此,本專利提供一種可解決上述問題的基于spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的技術(shù)任務(wù)是針對(duì)以上不足之處,提供一種基于spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法。

      一種基于spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法,其具體實(shí)現(xiàn)過程為,

      采集算子,即采集集團(tuán)新聞數(shù)據(jù);

      去噪算子,即將采集回來的集團(tuán)新聞數(shù)據(jù)進(jìn)行去噪處理,去噪算子基于spark平臺(tái)完成;

      去重算子,對(duì)去噪處理后的數(shù)據(jù)進(jìn)行去重處理;

      最后設(shè)定海明距離閾值,在去重處理中將海明距離小于設(shè)定的閾值的文本判定為近似文本。

      在采集算子步驟中,采集的數(shù)據(jù)存儲(chǔ)在hdfs,即分布式文件系統(tǒng)中。

      基于spark平臺(tái)對(duì)采集的數(shù)據(jù)進(jìn)行去噪處理的步驟為:

      在spark平臺(tái)中啟動(dòng)spark驅(qū)動(dòng),并按默認(rèn)分區(qū)數(shù)生成彈性分布式數(shù)據(jù)集rdd,對(duì)hdfs文件進(jìn)行讀取;

      對(duì)數(shù)據(jù)進(jìn)行去噪處理,完成數(shù)據(jù)過濾;

      將去噪處理后的數(shù)據(jù)以rdd的形式緩存在分布式內(nèi)存中。

      對(duì)數(shù)據(jù)進(jìn)行去噪處理的步驟中,通過以下三種方式完成數(shù)據(jù)過濾:長度過濾、語義過濾及關(guān)鍵詞過濾,其中:

      長度過濾是指將低于一定字符數(shù)的集團(tuán)新聞數(shù)據(jù)認(rèn)為無效數(shù)據(jù);

      語義過濾是指對(duì)集團(tuán)新聞數(shù)據(jù)這種短文本類型的數(shù)據(jù)進(jìn)行語義過濾;

      關(guān)鍵詞過濾是指集團(tuán)新聞數(shù)據(jù)中有關(guān)鍵詞出現(xiàn)時(shí),將其認(rèn)為是無效數(shù)據(jù)。

      所述去重算子的實(shí)現(xiàn)步驟為:

      獲取去噪算子生成的rdd;

      采用分詞器對(duì)存儲(chǔ)在rdd中的數(shù)據(jù)進(jìn)行分詞處理,并進(jìn)行停用詞過濾;

      計(jì)算進(jìn)行停用詞過濾后的每個(gè)分詞的hash值,并生成simhash指紋。

      在去重算子步驟中,計(jì)算停用詞過濾后的每個(gè)分詞的hash值后再進(jìn)行疊加,生成simhash指紋,然后封裝對(duì)象并生成新的rdd,該封裝的對(duì)象內(nèi)容包括文本內(nèi)容、simhash值屬性。

      所述計(jì)算分詞的值并生成simhash指紋的具體步驟為:首先計(jì)算每個(gè)分詞的64位加權(quán)hash值,然后按位疊加,每位如果大于1則記1,否則記0。

      判定為近似文本的過程為:將去重算子步驟中生成的simhash指紋與數(shù)據(jù)庫里已經(jīng)記錄的集團(tuán)新聞數(shù)據(jù)的simhash指紋比較其海明距離,將海明距離小于設(shè)定的閾值的文本認(rèn)定為近似文本。

      本發(fā)明的一種基于spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法和現(xiàn)有技術(shù)相比,具有以下有益效果:

      本發(fā)明的一種基于spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法,本發(fā)明采用spark平臺(tái)做為存儲(chǔ)及運(yùn)算的基礎(chǔ),采用內(nèi)存緩存來提高讀寫速度,相對(duì)于傳統(tǒng)的單機(jī)計(jì)算、并行計(jì)算或分布式計(jì)算,計(jì)算速度提高百倍以上,具有標(biāo)注內(nèi)容信息全、錯(cuò)誤率低等優(yōu)點(diǎn),計(jì)算節(jié)點(diǎn)由平臺(tái)調(diào)度,完成分布式計(jì)算,能夠?qū)崿F(xiàn)更準(zhǔn)確、高效的去噪、去重功能;本發(fā)明處理速度快,億級(jí)記錄去噪可在毫秒級(jí)內(nèi)完成,千萬級(jí)記錄去重可在分鐘級(jí)完成;準(zhǔn)確率高去噪處理準(zhǔn)確率可達(dá)到96.4%,去重處理準(zhǔn)確率期可達(dá)到90.3%,實(shí)用性強(qiáng),適用范圍廣泛,易于推廣。

      附圖說明

      附圖1為本發(fā)明系統(tǒng)的實(shí)現(xiàn)示意圖。

      具體實(shí)施方式

      為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明的方案,下面結(jié)合具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      如附圖1所示,一種基于spark平臺(tái)的集團(tuán)新聞數(shù)據(jù)預(yù)處理方法,能夠?qū)崿F(xiàn)更準(zhǔn)確、高效的去噪、去重功能。

      其具體實(shí)現(xiàn)過程為,

      采集算子,即采集集團(tuán)新聞數(shù)據(jù);

      去噪算子,即將采集回來的集團(tuán)新聞數(shù)據(jù)進(jìn)行去噪處理,去噪算子基于spark平臺(tái)完成;

      去重算子,對(duì)去噪處理后的數(shù)據(jù)進(jìn)行去重處理;

      最后設(shè)定海明距離閾值,在去重處理中將海明距離小于設(shè)定的閾值的文本判定為近似文本。

      在采集算子步驟中,采集算子用于采集集團(tuán)新聞數(shù)據(jù),可采用現(xiàn)有的采集方法、采集設(shè)備實(shí)現(xiàn)。采集的數(shù)據(jù)存儲(chǔ)在hdfs即分布式文件系統(tǒng)中。

      基于spark平臺(tái)對(duì)采集的數(shù)據(jù)進(jìn)行去噪處理的步驟為:

      在spark平臺(tái)中啟動(dòng)spark驅(qū)動(dòng),并按默認(rèn)分區(qū)數(shù)生成彈性分布式數(shù)據(jù)集rdd,對(duì)hdfs文件進(jìn)行讀?。?/p>

      對(duì)數(shù)據(jù)進(jìn)行去噪處理,完成數(shù)據(jù)過濾;

      將去噪處理后的數(shù)據(jù)以rdd的形式緩存在分布式內(nèi)存中。

      對(duì)數(shù)據(jù)進(jìn)行去噪處理的步驟中,通過以下三種方式完成數(shù)據(jù)過濾:長度過濾、語義過濾及關(guān)鍵詞過濾,其中:

      長度過濾是指將低于一定字符數(shù)的集團(tuán)新聞數(shù)據(jù)認(rèn)為是無意義的,比如取10個(gè)字符,10個(gè)字符以下認(rèn)為是垃圾。

      語義過濾:針對(duì)集團(tuán)新聞數(shù)據(jù)這種類型的數(shù)據(jù)進(jìn)行語義過濾,比如將非經(jīng)常出現(xiàn)的集團(tuán)新聞數(shù)據(jù)一般視為垃圾等。而且,對(duì)于后面的去重或者分析而言,無意義語義也是不考慮的。

      關(guān)鍵詞過濾是指集團(tuán)新聞數(shù)據(jù)中當(dāng)有些關(guān)鍵詞出現(xiàn)后,就認(rèn)為這條是垃圾,比如“天氣預(yù)報(bào)”。

      所述去重算子的實(shí)現(xiàn)步驟為:

      獲取去噪算子生成的rdd;

      采用分詞器對(duì)存儲(chǔ)在rdd中的集團(tuán)新聞數(shù)據(jù)進(jìn)行分詞處理,并采用通用停用詞表做停用詞過濾,通過分詞和過濾停用詞可有效的減小后續(xù)的計(jì)算量。所述分詞器可以采用ikanalyser分詞器,也可以采用其它分詞器,如中國科學(xué)院計(jì)算技術(shù)研究所的ictclas分詞器等。

      計(jì)算停用詞過濾后的每個(gè)分詞的hash值,然后疊加,生成simhash指紋然后封裝對(duì)象并生成新的rdd,其中對(duì)象內(nèi)容包括文本內(nèi)容、simhash值等屬性。

      將生成的simhash指紋與數(shù)據(jù)庫里已經(jīng)記錄的集團(tuán)新聞數(shù)據(jù)的simhash指紋比較海明距離,如果海明距離小于設(shè)定的閾值(例如該閾值為4),則將新采集的數(shù)據(jù)的文本認(rèn)定為近似文本(即認(rèn)定為重復(fù)記錄)。

      根據(jù)上面步驟,判斷一條記錄是否是重復(fù)記錄,先要得到上一個(gè)算子的運(yùn)算結(jié)果,即得到rdd,在從該rdd中進(jìn)行遍歷,也就是一條條的判斷是否重復(fù)。例如,現(xiàn)在庫里有10000條記錄,新來了100條記錄,判斷這條是否和庫里的重復(fù)(這100條就是1個(gè)rdd)。從rdd獲取到一條記錄后,對(duì)其進(jìn)行分詞,之后分詞中會(huì)有一些無意義的詞,例如“不止”、“僅僅”這些是無語義的,可以去掉,也就是停用詞過濾然后,把這些過濾后的分詞計(jì)算hash值,然后疊加,生成simhash指紋,該指紋與庫里記錄的指紋比較海明距離,如果小于設(shè)定的閾值則認(rèn)為是近似文本。這就是simhash算法的原理。

      上面步驟所述的計(jì)算分詞的值并生成simhash指紋,其具體方法是:首先計(jì)算每個(gè)分詞的64位加權(quán)hash值,然后按位疊加,每位如果大于1則記1,否則記0。

      通過上面具體實(shí)施方式,所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的具體實(shí)施方式。在公開的實(shí)施方式的基礎(chǔ)上,所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。

      除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1