国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      重復(fù)文本的檢測(cè)方法及裝置與流程

      文檔序號(hào):11154969閱讀:1401來(lái)源:國(guó)知局
      重復(fù)文本的檢測(cè)方法及裝置與制造工藝

      本發(fā)明實(shí)施例涉及大數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種重復(fù)文本的檢測(cè)方法及裝置。



      背景技術(shù):

      在互聯(lián)網(wǎng)大規(guī)模普及的今天,各種資源呈爆炸式增長(zhǎng),越來(lái)越龐大的互聯(lián)網(wǎng)促進(jìn)了搜索引擎技術(shù)的不斷發(fā)展,使它越來(lái)越成為人們從網(wǎng)絡(luò)上獲取信息的主要手段。但是,互聯(lián)網(wǎng)上有大量的重復(fù)網(wǎng)頁(yè)信息。為了提高搜索引擎提供的搜索結(jié)果的有效性,文本的重復(fù)檢測(cè)就成為了互聯(lián)網(wǎng)企業(yè)提高搜索引擎質(zhì)量的關(guān)鍵技術(shù)。

      在文本的重復(fù)檢測(cè)技術(shù)中,一種十分常用的技術(shù)就是基于哈希算法而完成的。這種技術(shù)已經(jīng)相當(dāng)成熟,運(yùn)行效率和魯棒性都是能夠滿足搜索引擎目前的需要。當(dāng)時(shí),利用哈希算法完成的文本重復(fù)檢測(cè)有一個(gè)缺點(diǎn),就是在面對(duì)短文本的重復(fù)檢測(cè)時(shí),會(huì)出現(xiàn)運(yùn)行效率不高的情況。



      技術(shù)實(shí)現(xiàn)要素:

      針對(duì)上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供了一種重復(fù)文本的檢測(cè)方法及裝置,以實(shí)現(xiàn)對(duì)短文本的有效的重復(fù)檢測(cè)處理。

      一方面,本發(fā)明實(shí)施例提供了一種重復(fù)文本的檢測(cè)方法,所述方法包括:

      獲取待檢測(cè)文本;

      將所述待檢測(cè)文本區(qū)分為短文本及長(zhǎng)文本;

      對(duì)所述短文本采用基于文本關(guān)聯(lián)的重復(fù)檢測(cè);

      對(duì)所述長(zhǎng)文本采用基于局部敏感哈希算法的重復(fù)檢測(cè)。

      另一方面,本發(fā)明實(shí)施例還提供了一種重復(fù)文本的檢測(cè)裝置,所述裝置包括:

      文本獲取模塊,用于獲取待檢測(cè)文本;

      文本區(qū)分模塊,用于將所述待檢測(cè)文本區(qū)分為短文本及長(zhǎng)文本;

      短文本檢測(cè)模塊,用于對(duì)所述短文本采用基于文本關(guān)聯(lián)的重復(fù)檢測(cè);

      長(zhǎng)文本檢測(cè)模塊,用于對(duì)所述長(zhǎng)文本采用基于局部敏感哈希算法的重復(fù)檢測(cè)。

      本發(fā)明實(shí)施例提供的重復(fù)文本的檢測(cè)方法及裝置,通過(guò)獲取待檢測(cè)文本,將所述待檢測(cè)文本區(qū)分為短文本及長(zhǎng)文本,對(duì)所述短文本采用基于文本關(guān)聯(lián)的重復(fù)檢測(cè),對(duì)所述長(zhǎng)文本采用基于局部敏感哈希算法的重復(fù)檢測(cè),實(shí)現(xiàn)了對(duì)短文本的有效的重復(fù)檢測(cè)處理。

      附圖說(shuō)明

      通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:

      圖1是本發(fā)明第一實(shí)施例提供的重復(fù)文本的檢測(cè)方法的流程圖;

      圖2是本發(fā)明第二實(shí)施例提供的重復(fù)文本的檢測(cè)裝置的結(jié)構(gòu)圖。

      具體實(shí)施方式

      下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

      第一實(shí)施例

      本實(shí)施例提供了重復(fù)文本的檢測(cè)方法的一種技術(shù)方案。

      參見(jiàn)圖1,重復(fù)文本的檢測(cè)方法包括:

      S11,獲取待檢測(cè)文本。

      上述對(duì)待檢測(cè)文本的獲取可以是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)程序由互聯(lián)網(wǎng)獲取,也可以是從指定的語(yǔ)料數(shù)據(jù)庫(kù)中獲取。

      如果通過(guò)上述獲取手段獲取到的待檢測(cè)文本的正確性難以判斷,則一般在獲取到原始的待檢測(cè)文本之后還需要對(duì)原始的文本進(jìn)行一次數(shù)據(jù)清洗的操作。經(jīng)過(guò)數(shù)據(jù)清洗之后,保留下來(lái)的待檢測(cè)文本就是進(jìn)行重復(fù)文本檢測(cè)的原始語(yǔ)料。

      S12,將所述待檢測(cè)文本區(qū)分為短文本及長(zhǎng)文本。

      優(yōu)選的,可以根據(jù)實(shí)際的檢測(cè)需要預(yù)先構(gòu)造對(duì)短文本及長(zhǎng)文本進(jìn)行區(qū)分的區(qū)分規(guī)則。在實(shí)際進(jìn)行短文本及長(zhǎng)文本區(qū)分時(shí),應(yīng)用上述規(guī)則。

      更為優(yōu)選的,可以預(yù)先設(shè)定一個(gè)區(qū)分短文本及長(zhǎng)文本的文本長(zhǎng)度閾值,當(dāng)待檢測(cè)文本的文本長(zhǎng)度大于這個(gè)長(zhǎng)度閾值時(shí),待檢測(cè)文本是長(zhǎng)文本,而當(dāng)待檢測(cè)文本的文本長(zhǎng)度小于或者這個(gè)等于這個(gè)長(zhǎng)度閾值時(shí),待檢測(cè)文本是短文本。

      需要理解的是,構(gòu)建的區(qū)分規(guī)則可以不僅僅以上述列舉的長(zhǎng)度參數(shù)作為判定要素,還可以引入除文本長(zhǎng)度以外的其他參數(shù)作為判定要素。比如,可以將文本內(nèi)容作為上述區(qū)分規(guī)則中的判定要素之一。

      另外,還可以以預(yù)先構(gòu)建的分類(lèi)器完成對(duì)短文本及長(zhǎng)文本的區(qū)分。如果以分類(lèi)器完成長(zhǎng)短文本的區(qū)分,則分類(lèi)器的輸入?yún)?shù)可以有多種。比如,分類(lèi)器的輸入?yún)?shù)可以包括:文本長(zhǎng)度、特征語(yǔ)段等。

      S13,對(duì)所述短文本采用基于文本關(guān)聯(lián)的重復(fù)檢測(cè)。

      由于對(duì)待檢測(cè)的短文本直接應(yīng)用哈希算法,會(huì)出現(xiàn)運(yùn)行效率不高的情況,在本實(shí)施例中,采用首先將待檢測(cè)的短文本關(guān)聯(lián)至一個(gè)長(zhǎng)文本,再根據(jù)對(duì)長(zhǎng)文本應(yīng)用哈希算法的重復(fù)檢測(cè)結(jié)果,判斷待檢測(cè)的短文本是否出現(xiàn)了重復(fù)。

      上述文本關(guān)聯(lián)是指對(duì)同一主題的文本進(jìn)行關(guān)聯(lián)。例如,微博的主帖和該主帖所有的回帖可以關(guān)聯(lián);或者論壇的主帖和該主帖所有的回帖可以關(guān)聯(lián)到一起。然后對(duì)同一主題的短文本,通過(guò)hash算法進(jìn)行重復(fù)性檢測(cè)。

      采用上述的方式實(shí)現(xiàn)對(duì)短文本的重復(fù)檢測(cè),不僅克服了在短文本上直接應(yīng)用哈希算法而造成的運(yùn)行效率問(wèn)題,而且重復(fù)檢測(cè)的準(zhǔn)確性也十分有保障。

      S14,對(duì)所述長(zhǎng)文本采用基于局部敏感哈希算法的重復(fù)檢測(cè)。

      遇到待檢測(cè)文本是長(zhǎng)文本的情況時(shí),采用局部敏感哈希(Local sensitive hash,LSH)算法對(duì)待檢測(cè)文本進(jìn)行重復(fù)檢測(cè)。上述局部敏感哈希算法包括:MinHash算法,或者SimHash算法。具體的,對(duì)長(zhǎng)文本的重復(fù)檢測(cè)可以是:基于MinHash算法,或者SIMHash算法生成長(zhǎng)文本的文件指紋,并基于所述文件指紋進(jìn)行重復(fù)檢測(cè)。

      本實(shí)施例通過(guò)獲取待檢測(cè)文本,將所述待檢測(cè)文本區(qū)分為短文本及長(zhǎng)文本,對(duì)所述短文本采用基于文本關(guān)聯(lián)的重復(fù)檢測(cè),以及對(duì)所述長(zhǎng)文本采用基于局部敏感哈希算法的重復(fù)檢測(cè),實(shí)現(xiàn)了對(duì)短文本的有效的重復(fù)檢測(cè)處理。

      第二實(shí)施例

      本實(shí)施例提供了重復(fù)文本的檢測(cè)裝置的一種技術(shù)方案。在該技術(shù)方案中,所述重復(fù)文本的檢測(cè)裝置包括:文本獲取模塊21、文本區(qū)分模塊22、短文本檢測(cè)模塊23,以及長(zhǎng)文本檢測(cè)模塊24。

      所述文本獲取模塊21用于獲取待檢測(cè)文本。

      所述文本區(qū)分模塊22用于將所述待檢測(cè)文本區(qū)分為短文本及長(zhǎng)文本。

      所述短文本檢測(cè)模塊23用于對(duì)所述短文本采用基于文本關(guān)聯(lián)的重復(fù)檢測(cè)。

      所述長(zhǎng)文本檢測(cè)模塊24用于對(duì)所述長(zhǎng)文本采用基于局部敏感哈希算法的重復(fù)檢測(cè)。

      進(jìn)一步的,所述文本區(qū)分模塊22具體用于:基于規(guī)則或者分類(lèi)器,將所述待檢測(cè)文本區(qū)分為短文本及長(zhǎng)文本。

      進(jìn)一步的,所述短文本檢測(cè)模塊23包括:文本關(guān)聯(lián)單元,以及檢測(cè)單元。

      所述文本關(guān)聯(lián)單元用于對(duì)所述短文本進(jìn)行短文本關(guān)聯(lián)。

      所述檢測(cè)單元用于對(duì)關(guān)聯(lián)后的文本進(jìn)行基于哈希算法的重復(fù)檢測(cè)。

      進(jìn)一步的,所述長(zhǎng)文本檢測(cè)模塊24具體用于:采用局部敏感哈希算法生成所述長(zhǎng)文本的文件指紋,并基于所述文件指紋進(jìn)行重復(fù)檢測(cè)。

      進(jìn)一步的,所述局部敏感哈希算法包括:MinHash算法,以及S imHash算法。

      本領(lǐng)域普通技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,他們可以用計(jì)算機(jī)裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。

      以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以有各種改動(dòng)和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1