本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法。
背景技術(shù):
隨著信息技術(shù)的快速發(fā)展,“大數(shù)據(jù)(big data,或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的資訊)”的概念已經(jīng)廣為熟知。伴隨著大數(shù)據(jù)產(chǎn)生的便是對(duì)大量數(shù)據(jù)進(jìn)行檢索與對(duì)比。對(duì)比大量數(shù)據(jù),或者對(duì)一定數(shù)量的數(shù)據(jù)檢索只能依靠電腦完成,人工檢索幾乎是不可能完成的。
在當(dāng)今這個(gè)信息爆炸的時(shí)代,我們會(huì)發(fā)現(xiàn)在互聯(lián)網(wǎng)上對(duì)于一個(gè)新聞事件的報(bào)道,在傳播的過(guò)程中可能由于轉(zhuǎn)載、修改或其他的原因。導(dǎo)致很多的新聞信息的文章存在一些差異,但是其主要表達(dá)的內(nèi)容相似。從而造成用戶在查看某個(gè)新聞信息數(shù)據(jù)時(shí),由于沒(méi)有對(duì)相似的新聞進(jìn)行歸類顯示,而出現(xiàn)大量的冗余信息,對(duì)用戶的閱讀造成很大的影響。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法,以解決上述背景技術(shù)中提出的問(wèn)題。
本發(fā)明所解決的技術(shù)問(wèn)題采用以下技術(shù)方案來(lái)實(shí)現(xiàn):本發(fā)明提供一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法,步驟如下:
第一步:每次文章入庫(kù)前,根據(jù)語(yǔ)義將文章內(nèi)容中的所有完整的句子分割出來(lái),
第二步:然后將句子按照由長(zhǎng)到短的順序排序,選取前十個(gè)句子,如果文章內(nèi)容中沒(méi)有十個(gè)句子,就選取所有的句子;
第三步:然后將選取的句子進(jìn)行取MD5數(shù)據(jù)指紋,并對(duì)句子的MD5數(shù)據(jù)指紋碼進(jìn)行自然排序,最后存入到數(shù)據(jù)庫(kù)中;
第四步:在比較兩個(gè)文章內(nèi)容的相似性時(shí),就比較兩個(gè)文章內(nèi)容的MD5數(shù)據(jù)指紋。
本發(fā)明的有益效果為:內(nèi)容相似定義方法就是在ElasticSearch搜索服務(wù)器的基礎(chǔ)上開(kāi)發(fā)的一個(gè)插件,文章數(shù)據(jù)在存入ElasticSearch時(shí)最多找出文章中10個(gè)最長(zhǎng)句子,然后進(jìn)行取MD5數(shù)據(jù)指紋存入ElasticSearch庫(kù)中。在對(duì)兩條文章內(nèi)容進(jìn)行相似比較時(shí),對(duì)比兩條數(shù)據(jù)的MD5數(shù)據(jù)指紋的相同比率,來(lái)判斷是否相似。
具體實(shí)施方式
以下對(duì)本發(fā)明做進(jìn)一步描述:一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法,消重的步驟如下:
第一步:每次文章入庫(kù)前,根據(jù)語(yǔ)義將文章內(nèi)容中的所有完整的句子分割出來(lái),
第二步:然后將句子按照由長(zhǎng)到短的順序排序,選取前十個(gè)句子,如果文章內(nèi)容中沒(méi)有十個(gè)句子,就選取所有的句子;
第三步:然后將選取的句子進(jìn)行取MD5數(shù)據(jù)指紋,并對(duì)句子的MD5數(shù)據(jù)指紋碼進(jìn)行自然排序,最后存入到數(shù)據(jù)庫(kù)中;
第四步:在比較兩個(gè)文章內(nèi)容的相似性時(shí),就比較兩個(gè)文章內(nèi)容的MD5數(shù)據(jù)指紋。
例如:A文章內(nèi)容有n個(gè)MD5數(shù)據(jù)指紋,B文章內(nèi)容有m個(gè)MD5數(shù)據(jù)指紋,他們比較后有y個(gè)相同的MD5數(shù)據(jù)指紋,最后判斷文章內(nèi)容是否相似,可以根據(jù)自適應(yīng)的閥值來(lái)判斷內(nèi)容資訊是否語(yǔ)義相同。
內(nèi)容相似定義方法就是在ElasticSearch搜索服務(wù)器的基礎(chǔ)上開(kāi)發(fā)的一個(gè)插件,文章數(shù)據(jù)在存入ElasticSearch時(shí)最多找出文章中10個(gè)最長(zhǎng)句子,然后進(jìn)行取MD5數(shù)據(jù)指紋存入ElasticSearch庫(kù)中。在對(duì)兩條文章內(nèi)容進(jìn)行相似比較時(shí),對(duì)比兩條數(shù)據(jù)的MD5數(shù)據(jù)指紋的相同比率,來(lái)判斷是否相似。
最后說(shuō)明的是,選取上述實(shí)施例并對(duì)其進(jìn)行了詳細(xì)的說(shuō)明和描述是為了更好的說(shuō)明本發(fā)明專利的技術(shù)方案,并不是想要局限于所示的細(xì)節(jié)。本領(lǐng)域的技術(shù)人員對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或同等替換,而不脫離本發(fā)明技術(shù)方案的宗旨和范圍的,均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。