專利名稱:內(nèi)容評(píng)估的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及軟件。更具體地,揭示了內(nèi)容評(píng)估。
背景技術(shù):
未經(jīng)請(qǐng)求的內(nèi)容,通常稱為“垃圾”,由于通過(guò)包括萬(wàn)維網(wǎng)(Web)的各種電子媒體向用戶發(fā)送和由用戶接收大量不需要的數(shù)據(jù)而造成問(wèn)題。可以使用電子郵件或其他電子內(nèi)容傳送機(jī)制,包括消息通信、因特網(wǎng)、Web或其他電子通信媒體來(lái)傳送垃圾。在搜索引擎、爬尋程序(crawler)、機(jī)器人程序(bot)及其他內(nèi)容過(guò)濾機(jī)制的上下文中,對(duì)Web上不需要的內(nèi)容(Web垃圾)的檢測(cè)成為日益嚴(yán)重的問(wèn)題。例如,當(dāng)執(zhí)行搜索時(shí),適合給定搜索的所有網(wǎng)頁(yè)可在結(jié)果頁(yè)面中列出。包含在搜索結(jié)果頁(yè)面中的網(wǎng)頁(yè)可以是為特別地增加特定網(wǎng)站的可見(jiàn)性而生成的網(wǎng)頁(yè)。Web垃圾會(huì)將不需要的內(nèi)容“推”向用戶,希望能誘使用戶訪問(wèn)特定的網(wǎng)站。Web垃圾還會(huì)生成大量對(duì)用戶不可用或令人厭煩的數(shù)據(jù),并且能減慢搜索引擎的執(zhí)行或阻礙其準(zhǔn)確性。有各種類型機(jī)制可以用于提升特定網(wǎng)頁(yè)在搜索清單或等級(jí)中的可見(jiàn)性。
在很多情況下,垃圾可通過(guò)Web和因特網(wǎng)為商業(yè)目的而出現(xiàn)。例如,為了增強(qiáng)特定網(wǎng)頁(yè)的期許程度或“可搜索性”,搜索引擎優(yōu)化器(SEO)自動(dòng)或手動(dòng)地生成垃圾網(wǎng)頁(yè)(Web垃圾)。SEO試圖提高網(wǎng)站在搜索清單中的分級(jí),并因此生成大量的垃圾網(wǎng)頁(yè)。目標(biāo)網(wǎng)站或網(wǎng)頁(yè)可能能夠增加它在特定搜索中的等級(jí)或優(yōu)先級(jí),從而在結(jié)果頁(yè)面上得到更顯著的位置和定位,導(dǎo)致來(lái)自用戶的通信量增加。因此,SEO能夠基于改進(jìn)客戶機(jī)網(wǎng)站對(duì)更大通信量和更多用戶的曝光度來(lái)產(chǎn)生收入。某些SEO可以使用關(guān)鍵詞填充來(lái)創(chuàng)建網(wǎng)頁(yè),這樣的網(wǎng)頁(yè)可包括多個(gè)關(guān)鍵詞卻不包含實(shí)際內(nèi)容。另一個(gè)問(wèn)題是鏈接垃圾,這會(huì)創(chuàng)建鏈接到特定網(wǎng)頁(yè)(商業(yè)客戶機(jī))的大量網(wǎng)頁(yè),從而誤導(dǎo)并導(dǎo)致搜索引擎提高特定網(wǎng)站或網(wǎng)頁(yè)在搜索結(jié)果內(nèi)的等級(jí)。在其他情況下,可以通過(guò)生成大量相互之間有些許區(qū)別的網(wǎng)頁(yè)來(lái)創(chuàng)建Web垃圾,目的在于使這些頁(yè)面中的一個(gè)能夠被搜索引擎賦予較高的等級(jí)。
因此,需要一種用于檢測(cè)未經(jīng)請(qǐng)求的在線內(nèi)容而沒(méi)有現(xiàn)有技術(shù)的限制的解決方案。
本發(fā)明的各種實(shí)施例在下面的詳細(xì)描述和附圖中揭示圖1示出了垃圾網(wǎng)頁(yè);圖2示出了用于評(píng)估內(nèi)容的示例性流程圖;圖3示出了用于評(píng)估內(nèi)容的另一示例性流程圖;圖4示出了通過(guò)評(píng)估主機(jī)名形成的示例性統(tǒng)計(jì)分布;圖5示出了通過(guò)對(duì)每個(gè)地址評(píng)估多個(gè)主機(jī)名形成的示例性統(tǒng)計(jì)分布;圖6示出了通過(guò)評(píng)估主機(jī)-機(jī)器比形成的示例性統(tǒng)計(jì)分布;圖7A示出了通過(guò)使用鏈入度(in-degree)評(píng)估鏈接結(jié)構(gòu)形成的示例性統(tǒng)計(jì)分布;圖7B示出了通過(guò)使用鏈出度(out-degree)評(píng)估鏈接結(jié)構(gòu)形成的示例性統(tǒng)計(jì)分布;圖8示出了通過(guò)評(píng)估Web服務(wù)器上頁(yè)面之間的字?jǐn)?shù)變化形成的示例性統(tǒng)計(jì)分布;圖9示出了通過(guò)評(píng)估頁(yè)面演化形成的示例性統(tǒng)計(jì)分布;圖10示出了通過(guò)評(píng)估近似重復(fù)的頁(yè)面的聚類形成的示例性統(tǒng)計(jì)分布;及圖11為框圖,示出適用于評(píng)估內(nèi)容的示例性計(jì)算機(jī)系統(tǒng)。
具體實(shí)施例方式
本發(fā)明可以用眾多方法來(lái)實(shí)現(xiàn),包括被實(shí)現(xiàn)為過(guò)程、裝置、系統(tǒng)、合成物、諸如計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或其中通過(guò)光或電通信鏈路發(fā)送程序指令的計(jì)算機(jī)網(wǎng)絡(luò)等計(jì)算機(jī)可讀介質(zhì)。在本說(shuō)明書(shū)中,這些實(shí)現(xiàn)或本發(fā)明可以采取的任何其他形式,都可以被稱為技術(shù)。一般而言,可以在本發(fā)明的范圍內(nèi)更改所揭示的過(guò)程的步驟的順序。
下面提供對(duì)本發(fā)明的一個(gè)或多個(gè)實(shí)施例的詳細(xì)描述,以及示出本發(fā)明原理的附圖。本發(fā)明是關(guān)于這樣的實(shí)施例描述的,但本發(fā)明并不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利要求限定,且本發(fā)明包括眾多替換、修改及等價(jià)物。在下面的描述中闡明眾多具體細(xì)節(jié),以提供對(duì)本發(fā)明的完整理解。這些細(xì)節(jié)是作為例子提供的,且本發(fā)明可以根據(jù)權(quán)利要求書(shū)來(lái)實(shí)現(xiàn)而不包括這些具體細(xì)節(jié)的部分或全部。為了簡(jiǎn)單起見(jiàn),未詳細(xì)描述與本發(fā)明有關(guān)的技術(shù)領(lǐng)域中已知的技術(shù)材料,從而不會(huì)不必要地使本發(fā)明含糊。
Web垃圾的檢測(cè)是減少和消除不需要的內(nèi)容的重要目標(biāo)。取決于用戶的偏好,某些內(nèi)容可能是不需要的,且可以執(zhí)行檢測(cè)來(lái)確定是否存在Web垃圾。使用通過(guò)使用與一組所爬尋的網(wǎng)頁(yè)相關(guān)聯(lián)的各種參數(shù)或?qū)傩孕纬傻慕y(tǒng)計(jì)分布,可以對(duì)搜索結(jié)果中的所有頁(yè)面開(kāi)發(fā)一個(gè)圖。在此,圖可以指圖表、圖形、或使用各種參數(shù)的數(shù)據(jù)圖。作為例子,可以開(kāi)發(fā)這樣的圖,其中可以對(duì)搜索引擎爬尋的每個(gè)頁(yè)面畫(huà)出一個(gè)點(diǎn),而使用這些頁(yè)面的一個(gè)或多個(gè)屬性來(lái)畫(huà)出該圖。在某些例子中,可以在創(chuàng)建搜索引擎索引期間執(zhí)行Web垃圾檢測(cè)技術(shù),而不是在執(zhí)行查詢時(shí)執(zhí)行,以免延遲向用戶發(fā)送搜索結(jié)果。在其他例子中,可以通過(guò)不同的方式執(zhí)行Web垃圾檢測(cè)。一旦標(biāo)識(shí)出離群值,就可以使用各種技術(shù)進(jìn)一步評(píng)估與該離群值相關(guān)聯(lián)的網(wǎng)頁(yè)。然而,一旦檢測(cè)到Web垃圾,就可以執(zhí)行刪除、過(guò)濾、降低搜索引擎的等級(jí)或其他動(dòng)作??梢允褂密浖蛴布?yīng)用程序(如,計(jì)算機(jī)程序、軟件、軟件系統(tǒng)及其他計(jì)算系統(tǒng))來(lái)實(shí)現(xiàn)用于評(píng)估內(nèi)容以便檢測(cè)Web垃圾的技術(shù)。
圖1示出了垃圾網(wǎng)頁(yè)。垃圾網(wǎng)頁(yè)(“Web垃圾”)也可以包括其他形式的垃圾,如鏈接垃圾、關(guān)鍵字填充、諸如統(tǒng)一資源定位符(URL)等合成地址,但通常不包括電子郵件垃圾。作為例子,垃圾網(wǎng)頁(yè)100包括關(guān)鍵詞、搜索項(xiàng)及鏈接,其每一個(gè)都可以由SEO生成來(lái)提高網(wǎng)站在來(lái)自搜索引擎等的搜索結(jié)果列表中的等級(jí)。在此例中,生成了關(guān)鍵詞、內(nèi)容、鏈接與合成URL,以便提供用于向目標(biāo)網(wǎng)站送去附加通信量的機(jī)制。在此,一個(gè)信用修復(fù)或貸款代理的網(wǎng)站可以是垃圾網(wǎng)頁(yè)100的目標(biāo)網(wǎng)站。可以檢測(cè)如這樣的SEO技術(shù),并使用該技術(shù)來(lái)指示搜索引擎發(fā)現(xiàn)的特定內(nèi)容或內(nèi)容結(jié)果是否包括Web垃圾。
圖2示出了用于評(píng)估內(nèi)容的示例性流程圖。在此,提供一總體過(guò)程,用于使用各種技術(shù)拉評(píng)估內(nèi)容以便檢測(cè)Web垃圾。在此例中,搜索引擎通過(guò)爬尋一組網(wǎng)頁(yè)來(lái)生成數(shù)據(jù)集(202)。評(píng)估爬尋過(guò)的網(wǎng)頁(yè)來(lái)形成統(tǒng)計(jì)分布(204)。將與統(tǒng)計(jì)分布中的離群值相關(guān)聯(lián)的頁(yè)面標(biāo)記為Web垃圾(206)。一旦檢測(cè)到并標(biāo)記了Web垃圾,就可以對(duì)所有爬尋過(guò)的頁(yè)面創(chuàng)建搜索索引,包括Web垃圾(208)。在某些例子中,檢測(cè)到的Web垃圾可以被排除在搜索引擎索引之外、得到較低的搜索等級(jí),或以使得用戶查詢不受影響或不被Web垃圾填充的方式來(lái)處理,從而響應(yīng)于查詢生成更加相關(guān)的搜索結(jié)果(210)。下面結(jié)合圖4-10更詳細(xì)地描述了可以使用的統(tǒng)計(jì)分布的某些例子。用于評(píng)估內(nèi)容的另一過(guò)程在圖3中示出。
圖3示出了用于評(píng)估內(nèi)容的另一示例性流程圖。在此例中,提出了一種用于確定是否存在Web垃圾的替換方法。在此,可以從一組爬尋過(guò)的網(wǎng)頁(yè)生成數(shù)據(jù)集(302)。這些網(wǎng)頁(yè)可以代表搜索引擎索引中的所有頁(yè)面。在其他例子中,可以從一組不同的網(wǎng)頁(yè)生成數(shù)據(jù)集。一旦生成,就可以使用統(tǒng)計(jì)分布來(lái)評(píng)估該數(shù)據(jù)集,以標(biāo)識(shí)一類統(tǒng)計(jì)離群值(304)。對(duì)照所標(biāo)識(shí)的這類統(tǒng)計(jì)離群值,可以分析各個(gè)網(wǎng)頁(yè)來(lái)確定這些頁(yè)面是否包括落在該類統(tǒng)計(jì)離群值中的參數(shù)(306)??梢孕纬筛鞣N類型的統(tǒng)計(jì)分布,從這些統(tǒng)計(jì)分布中可以確定各類統(tǒng)計(jì)離群值。這些統(tǒng)計(jì)離群值可以與如上所述的那些是Web垃圾的網(wǎng)頁(yè)相關(guān)聯(lián)。
作為例子,當(dāng)使用各種屬性或參數(shù),如統(tǒng)一資源定位符(URL)形成統(tǒng)計(jì)分布時(shí),可得到各種離群值。URL表示網(wǎng)頁(yè)的地址,可以將其用作用于確定由該URL定址的頁(yè)面是否是Web垃圾的參數(shù)。在某些例子中,合成URL可以用來(lái)定址頁(yè)面。合成URL是自動(dòng)生成的,而不是由開(kāi)發(fā)者、管理員或其他Web內(nèi)容提供者手動(dòng)生成的。這些URL可以看起來(lái)不一樣,例如,具有地址中所包含的數(shù)字、字符或其他項(xiàng)的隨機(jī)序列。合成URL可以由應(yīng)用程序、程序或機(jī)器自動(dòng)地生成。在圖4-10中示出了所形成的用于檢測(cè)Web垃圾的統(tǒng)計(jì)分布的一些例子。
圖4示出了通過(guò)評(píng)估包含在URL中的主機(jī)名形成的示例性統(tǒng)計(jì)分布。在此,統(tǒng)計(jì)分布是從包含在數(shù)據(jù)集中的所有主機(jī)名的屬性形成的。進(jìn)一步評(píng)估落在統(tǒng)計(jì)分布主體之外的離群值,例如組420,來(lái)確定位于這些主機(jī)上的頁(yè)面是否是Web垃圾。作為例子,對(duì)數(shù)據(jù)集中每一點(diǎn),可以畫(huà)出主機(jī)名數(shù)量和主機(jī)名長(zhǎng)度之間的關(guān)系。位于組420之內(nèi)的點(diǎn)表示可以使用上述過(guò)程來(lái)評(píng)估的統(tǒng)計(jì)離群值。在此,可以通過(guò)評(píng)估主機(jī)名的屬性來(lái)形成統(tǒng)計(jì)分布。
主機(jī)名可以與域名系統(tǒng)(DNS)一起使用,域名系統(tǒng)是將符號(hào)主機(jī)名映射到數(shù)字IP地址的全球的分布式系統(tǒng)。DNS由大量的獨(dú)立計(jì)算機(jī)(“DNS服務(wù)器”)來(lái)實(shí)現(xiàn)。每個(gè)DNS服務(wù)器都負(fù)責(zé)映射的某一部分,并可以由注冊(cè)了域名所有權(quán)的組織來(lái)操作。符號(hào)主機(jī)名可以由客戶機(jī)解析,客戶機(jī)將主機(jī)名發(fā)送到DNS服務(wù)器。主機(jī)名被直接或間接地轉(zhuǎn)發(fā)到負(fù)責(zé)(如,管轄)該主機(jī)所處的域的DNS服務(wù)器,該DNS服務(wù)器將返回相關(guān)聯(lián)的IP地址。作為例子,DNS服務(wù)器可以負(fù)責(zé)較小并且固定(或較慢演化)的主機(jī)名集。然而,可以將DNS服務(wù)器配置成將特定域內(nèi)的任何給定主機(jī)名解析成一IP地址。因此,Web服務(wù)器可以生成這樣的網(wǎng)頁(yè),其中包含超鏈接(如,URL),使得超鏈接中的主機(jī)部分看起來(lái)指向不同的主機(jī)(如,“belgium.sometravelagency.com”、“holland.sometravelagency.com”、“france.sometravelagency.com”),但其中所有主機(jī)名都解析到同一IP地址。這些不同主機(jī)中的每一個(gè)都可以被分類為機(jī)器生成的主機(jī)名或“合成主機(jī)名”。
可以動(dòng)態(tài)地創(chuàng)建合成主機(jī)名。合成主機(jī)名比起標(biāo)準(zhǔn)主機(jī)名來(lái)通常包括更多的點(diǎn)、劃、數(shù)字或其他字符。在某些例子中,合成主機(jī)名可以具有和標(biāo)準(zhǔn)主機(jī)名不同的樣子。合成主機(jī)名也可以被稱為域名系統(tǒng)(DNS)垃圾。如果存在合成主機(jī)名,則源于該主機(jī)名的所有網(wǎng)頁(yè)都可以被標(biāo)記或標(biāo)識(shí)為Web垃圾(408)。如果不存在合成主機(jī)名,則不采取行動(dòng)??梢詫?duì)搜索引擎爬尋過(guò)的每個(gè)主機(jī)名重復(fù)此過(guò)程。圖5示出了通過(guò)評(píng)估分配給一個(gè)地址的主機(jī)名數(shù)量來(lái)形成的另一示例性統(tǒng)計(jì)分布。
圖5示出了通過(guò)評(píng)估分配給一個(gè)地址的主機(jī)名數(shù)量形成的示例性統(tǒng)計(jì)分布。作為例子,可以使用地址(如IP地址)來(lái)評(píng)估網(wǎng)頁(yè),以確定是否存在Web垃圾。組520中的這一組點(diǎn)表示統(tǒng)計(jì)離群值。作為例子,統(tǒng)計(jì)離群值可以表示分配了上千或上百萬(wàn)個(gè)主機(jī)名的單個(gè)IP地址,這可表明是DNS垃圾,這進(jìn)而可以是機(jī)器或自動(dòng)生成的垃圾網(wǎng)頁(yè)的證據(jù)。然而,在其他例子中,這些統(tǒng)計(jì)離群值中的某一些也可以是有效的網(wǎng)站。這些有效網(wǎng)站的例子可包括在線社區(qū)網(wǎng)站、社交網(wǎng)絡(luò)網(wǎng)站、個(gè)人網(wǎng)頁(yè)社區(qū)及其他類似的站點(diǎn)。給定一個(gè)網(wǎng)頁(yè),相關(guān)聯(lián)的URL的主機(jī)名可以被解析到一個(gè)IP地址,且可以確定解析到同一IP地址的其他已知主機(jī)名。多個(gè)主機(jī)名可以解析到同一IP地址。對(duì)給定的頁(yè)面,如果解析到同一IP地址的已知主機(jī)名數(shù)量超過(guò)了一閾值,則將該頁(yè)面標(biāo)記或標(biāo)識(shí)為Web垃圾。如果解析到同一IP地址的主機(jī)名數(shù)量不超過(guò)閾值,則不將該頁(yè)面標(biāo)記為Web垃圾。在圖形表示中,可以對(duì)一數(shù)據(jù)集,畫(huà)出分配給一個(gè)地址的主機(jī)名數(shù)量和地址數(shù)量之間的關(guān)系。在其他例子中,可以使用主機(jī)-機(jī)器比來(lái)確定是否存在Web垃圾。
垃圾網(wǎng)頁(yè)可包含大量具有不同主機(jī)名的超鏈接,這些超鏈接看起來(lái)指向不同的無(wú)關(guān)Web服務(wù)器,但可能指向關(guān)聯(lián)的Web服務(wù)器。這造成網(wǎng)頁(yè)鏈接到并認(rèn)可其他網(wǎng)站的印象,從而造成公平的假象。為了降低與操作獨(dú)立Web服務(wù)器相關(guān)聯(lián)的成本,Web垃圾作者可如上所述那樣將DNS服務(wù)器配置成將不同的主機(jī)名解析到單個(gè)機(jī)器。Web垃圾作者可使用此技術(shù)來(lái)提供正常的網(wǎng)頁(yè)外觀,同時(shí)看起來(lái)是鏈接到其他不同的網(wǎng)站。此行為可以通過(guò)計(jì)算主機(jī)-機(jī)器比來(lái)檢測(cè)。主機(jī)名可以被映射到一個(gè)或多個(gè)物理機(jī)器,其中每個(gè)機(jī)器都由一個(gè)IP地址來(lái)標(biāo)識(shí)。作為例子,可以通過(guò)將給定網(wǎng)頁(yè)鏈接到并看起來(lái)認(rèn)可的網(wǎng)站或主機(jī)名數(shù)量除以實(shí)際認(rèn)可的機(jī)器數(shù)量來(lái)確定主機(jī)-機(jī)器比。認(rèn)可的網(wǎng)站比機(jī)器多得多的網(wǎng)頁(yè)具有較高的主機(jī)-機(jī)器比。隨后,可以檢測(cè)到這些網(wǎng)頁(yè)并將它們標(biāo)識(shí)為Web垃圾。如果高主機(jī)-機(jī)器比與一網(wǎng)頁(yè)相關(guān)聯(lián),則可以將該網(wǎng)頁(yè)標(biāo)記或標(biāo)識(shí)為Web垃圾。如果沒(méi)有高主機(jī)-機(jī)器比,則不將該網(wǎng)頁(yè)標(biāo)記或標(biāo)識(shí)為Web垃圾。主機(jī)-機(jī)器比可以具有閾值,高于閾值則標(biāo)識(shí)為垃圾??梢詫⒅鳈C(jī)-機(jī)器比閾值調(diào)得更高或更低。如果頁(yè)面具有高主機(jī)-機(jī)器比,則該頁(yè)面可能看起來(lái)鏈接到很多不同的網(wǎng)站,但實(shí)際上卻鏈接到并認(rèn)可更少的網(wǎng)站。在另一個(gè)例子中,平均主機(jī)-機(jī)器比是由一機(jī)器服務(wù)的頁(yè)面的主機(jī)-機(jī)器比的平均數(shù)。由具有高平均主機(jī)-機(jī)器比的機(jī)器服務(wù)的網(wǎng)頁(yè)將被標(biāo)記或標(biāo)識(shí)為Web垃圾。圖6示出使用主機(jī)名解析來(lái)確定是否存在Web垃圾的另一種技術(shù)。
圖6示出通過(guò)評(píng)估主機(jī)-機(jī)器比形成的示例性統(tǒng)計(jì)分布。組620表示一數(shù)據(jù)集(如網(wǎng)頁(yè))的一組統(tǒng)計(jì)分布離群值,該數(shù)據(jù)集是通過(guò)畫(huà)出機(jī)器上的網(wǎng)頁(yè)數(shù)量和機(jī)器上的平均主機(jī)-機(jī)器比之間的關(guān)系來(lái)圖示的。在此,可以將如組620中所示的那些離群值標(biāo)記或標(biāo)識(shí)為垃圾。圖7A-7B示出可以用于檢測(cè)Web垃圾的統(tǒng)計(jì)分布的另一例子。
圖7A示出通過(guò)使用鏈入度(in-degree)來(lái)評(píng)估鏈接結(jié)構(gòu)而形成的示例性統(tǒng)計(jì)分布。網(wǎng)頁(yè)的鏈入度指的是指向該網(wǎng)頁(yè)的超鏈接的數(shù)量。通過(guò)評(píng)估網(wǎng)頁(yè)的鏈入度,可以形成統(tǒng)計(jì)分布來(lái)發(fā)現(xiàn)可與Web垃圾相關(guān)聯(lián)的離群值。給定具有鏈入度d的網(wǎng)頁(yè),如果比給定觀察到的鏈入度統(tǒng)計(jì)分布時(shí)所期望的存在更多具有鏈入度d的頁(yè)面,則將這些網(wǎng)頁(yè)標(biāo)記或標(biāo)識(shí)為Web垃圾。作為例子,如果數(shù)據(jù)集包括369,457個(gè)具有鏈入度1001的頁(yè)面,但是根據(jù)圖7A所示的觀察到的統(tǒng)計(jì)分布只期望有2000個(gè)頁(yè)面,則將這些網(wǎng)頁(yè)標(biāo)記或標(biāo)識(shí)為Web垃圾。表示具有如上所述那樣的鏈入度的網(wǎng)頁(yè)的一組離群值的一個(gè)例子在組720中示出。如圖7B所示,也可以使用鏈出度(out-degree)來(lái)評(píng)估網(wǎng)頁(yè),如組740中的離群值所示。
圖7B示出通過(guò)評(píng)估鏈出度而形成的示例性統(tǒng)計(jì)分布。網(wǎng)頁(yè)的鏈出度指嵌入該網(wǎng)頁(yè)的超鏈接的數(shù)量。在此,通過(guò)使用與數(shù)據(jù)集中的每個(gè)網(wǎng)頁(yè)相關(guān)聯(lián)的鏈出度的數(shù)量來(lái)形成統(tǒng)計(jì)分布。離群值由組740指示。為了確定Web垃圾是否與數(shù)據(jù)集中的網(wǎng)頁(yè)相關(guān)聯(lián),使用鏈出度而不是鏈入度來(lái)形成統(tǒng)計(jì)分布,如上關(guān)于圖7A所述的。在此例中,網(wǎng)頁(yè)數(shù)量與頁(yè)面鏈入度或鏈出度的關(guān)系圖可以產(chǎn)生Zipfian分布,通過(guò)該分布可以選擇統(tǒng)計(jì)離群值(如,落在分布外部的點(diǎn))并進(jìn)一步評(píng)估這些離群值來(lái)確定具有該鏈出度的網(wǎng)頁(yè)事實(shí)上是否是Web垃圾。在圖7A和7B兩者的例子中,具有相同的鏈入度或鏈出度的相同網(wǎng)頁(yè)也可以是Web垃圾??梢孕纬捎糜跈z測(cè)Web垃圾的統(tǒng)計(jì)分布的又一個(gè)例子在圖8中示出。
圖8示出了通過(guò)評(píng)估句法內(nèi)容來(lái)檢測(cè)Web垃圾的示例性流程圖。作為例子,可以基于大小或字?jǐn)?shù)分布來(lái)評(píng)估句法內(nèi)容。在此,變化作為一系列數(shù)字的屬性來(lái)確定。計(jì)算給定網(wǎng)站(如,主機(jī)名、IP地址或其他參數(shù))上所有網(wǎng)頁(yè)的字?jǐn)?shù)或大小的變化。如果給定網(wǎng)站上的所有網(wǎng)頁(yè)在字?jǐn)?shù)上都具有接近零的變化(如組820所示),則這些網(wǎng)頁(yè)可能是基于模板的?;谀0屙?yè)面指示機(jī)器或自動(dòng)生成的內(nèi)容(如,完全由關(guān)鍵詞或短語(yǔ)組成的頁(yè)面)并可以被標(biāo)記或標(biāo)識(shí)為Web垃圾。接近零的變化表明為了創(chuàng)建可由搜索引擎、爬尋程序、機(jī)器人程序或其他搜索應(yīng)用分級(jí)較高的網(wǎng)頁(yè),在基于模板生成Web垃圾期間所做出的小的改動(dòng)。在其他例子中,可以使用不同的特征來(lái)評(píng)估句法內(nèi)容。圖9示出形成用于檢測(cè)Web垃圾的另一個(gè)示例性統(tǒng)計(jì)分布。
圖9示出通過(guò)評(píng)估頁(yè)面演化而形成的示例性統(tǒng)計(jì)分布。在某些例子中,頁(yè)面演化指網(wǎng)頁(yè)在下載之間經(jīng)受的改變。作為例子,SEO或Web垃圾生成器可在下載之間手動(dòng)或自動(dòng)地創(chuàng)建或改變網(wǎng)頁(yè)?;诰W(wǎng)頁(yè)的演化對(duì)網(wǎng)頁(yè)進(jìn)行評(píng)估。作為例子,可以確定網(wǎng)頁(yè)是否對(duì)每次下載顯著改變或“演化”。顯著改變可以是整個(gè)頁(yè)面布局修改、大部分內(nèi)容改變、或內(nèi)容類型改變(如,大部分的文本被換為圖像)。也可以使用其他類型的顯著改變來(lái)確定每個(gè)頁(yè)面是否對(duì)每次下載顯著改變。計(jì)算與給定網(wǎng)站上的網(wǎng)頁(yè)相關(guān)聯(lián)的平均改變量。如果與給定站點(diǎn)相關(guān)聯(lián)的網(wǎng)頁(yè)的平均改變量超過(guò)了特定閾值,則將這些網(wǎng)頁(yè)標(biāo)記或標(biāo)識(shí)為Web垃圾;否則,不標(biāo)記這些網(wǎng)頁(yè)。作為例子,帶920突出顯示了總數(shù)據(jù)集中顯示出從一周到下一周之間匹配特征平均數(shù)量較低的一部分。在其他例子中,對(duì)其形成統(tǒng)計(jì)分布的時(shí)間段可以被改為每天、每小時(shí)、每年、每月、或在其中確定頁(yè)面內(nèi)容已演化的任何其他時(shí)間段。在其他例子中,可以修改其他參數(shù)。圖10示出了形成用于檢測(cè)Web垃圾的另一個(gè)統(tǒng)計(jì)分布。
圖10示出了通過(guò)評(píng)估近似重復(fù)的頁(yè)面的聚類形成的示例性統(tǒng)計(jì)分布。在此,可以標(biāo)識(shí)近似重復(fù)的頁(yè)面。一旦被標(biāo)識(shí)出,近似重復(fù)的頁(yè)面就被聚類為例如一個(gè)等價(jià)類。在其他例子中,可以將近似重復(fù)的頁(yè)面分組為除等價(jià)類之外的其他數(shù)據(jù)結(jié)構(gòu)或構(gòu)造。一經(jīng)聚類,就評(píng)估每個(gè)聚類來(lái)確定其中是否包括較大數(shù)量的網(wǎng)頁(yè)。如果在所評(píng)估的聚類中包括了較大數(shù)量的網(wǎng)頁(yè),則可以確定Web垃圾存在。隨著聚類大小的增長(zhǎng),相關(guān)聯(lián)的網(wǎng)頁(yè)是Web垃圾的概率也增長(zhǎng)。在此,組1020示出了被示為較大聚類的一組統(tǒng)計(jì)離群值,這表明Web垃圾。在此例中,如果在給定的聚類中包括較大數(shù)量的網(wǎng)頁(yè),則將該聚類中的網(wǎng)頁(yè)標(biāo)記或標(biāo)識(shí)為Web垃圾。
在上述例子中,可以評(píng)估不同的屬性和特征來(lái)實(shí)現(xiàn)這些用于評(píng)估內(nèi)容以檢測(cè)Web垃圾的技術(shù)。在某些例子中,可以對(duì)數(shù)據(jù)集的不同特征作圖來(lái)形成統(tǒng)計(jì)分布,并可以通過(guò)統(tǒng)計(jì)分布來(lái)標(biāo)識(shí)和選取統(tǒng)計(jì)離群值。在其他例子中,可以在其他環(huán)境或特征系統(tǒng)中使用上述統(tǒng)計(jì)分布、分析和評(píng)估方法,來(lái)確定統(tǒng)計(jì)離群值和相關(guān)聯(lián)的項(xiàng)、屬性或關(guān)聯(lián)屬性,以評(píng)估數(shù)據(jù)集。
圖11為框圖,示出了適用于評(píng)估內(nèi)容的示例性計(jì)算機(jī)系統(tǒng)。在某些例子中,計(jì)算機(jī)系統(tǒng)1100可以用于實(shí)現(xiàn)上述技術(shù)。計(jì)算機(jī)系統(tǒng)1100包括總線1102或用于傳遞信息的其他通信機(jī)制,它們使各子系統(tǒng)和設(shè)備互連,如處理器1104、系統(tǒng)存儲(chǔ)器1106(如,RAM)、存儲(chǔ)設(shè)備1108(如,ROM)、盤(pán)驅(qū)動(dòng)器1110(如,磁盤(pán)或或光盤(pán))、通信接口1112(如,調(diào)制解調(diào)器或以太網(wǎng)卡)、顯示器114(如,CRT或LCD)、輸入設(shè)備1116(如,鍵盤(pán))、及光標(biāo)控制1118(如,鼠標(biāo)或跟蹤球)。
根據(jù)本發(fā)明的一實(shí)施例,計(jì)算機(jī)系統(tǒng)1110通過(guò)處理器1104執(zhí)行包含在系統(tǒng)存儲(chǔ)器1106中的一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列來(lái)執(zhí)行具體操作??梢詮牧硪挥?jì)算機(jī)可讀介質(zhì),如靜態(tài)存儲(chǔ)設(shè)備1108或盤(pán)驅(qū)動(dòng)器1110中將這樣的指令讀入系統(tǒng)存儲(chǔ)器110中。在替換實(shí)施例中,可以使用硬連線的電路來(lái)代替軟件指令或與之組合來(lái)實(shí)現(xiàn)本發(fā)明。
術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”指參與向處理器1104提供指令以便執(zhí)行的任何介質(zhì)。這樣的介質(zhì)可以采取多種形式,包括但不限于,非易失性介質(zhì)、易失性介質(zhì)及傳輸介質(zhì)。非易失性介質(zhì)包括例如光盤(pán)或磁盤(pán),如盤(pán)驅(qū)動(dòng)器1110。易失性介質(zhì)包括動(dòng)態(tài)存儲(chǔ)器,如系統(tǒng)存儲(chǔ)器1106。傳輸介質(zhì)包括同軸電纜、銅線和光纖,包括組成總線1102的電線。傳輸介質(zhì)也可以采取聲波或光波的形式,如在無(wú)線電波和紅外線數(shù)據(jù)通信中生成的那些。
計(jì)算機(jī)可讀介質(zhì)的常見(jiàn)形式包括,例如,軟盤(pán)、可移動(dòng)磁盤(pán)、硬盤(pán)、磁帶、任何其他磁介質(zhì)、CD-ROM、任何其他光學(xué)介質(zhì)、穿孔卡片、紙帶、具有孔圖案的任何其他物理介質(zhì)、RAM、PROM、EPROM、閃速EPROM、任何其他存儲(chǔ)器芯片或磁帶盒、載波、或計(jì)算機(jī)可以從中讀取內(nèi)容的任何其他介質(zhì)。
在本發(fā)明的一實(shí)施例中,實(shí)現(xiàn)本發(fā)明的指令序列的執(zhí)行是由單個(gè)計(jì)算機(jī)系統(tǒng)1100執(zhí)行的。根據(jù)本發(fā)明其他實(shí)施例,通過(guò)通信鏈路1120(如,LAN、PSTN或無(wú)線網(wǎng)絡(luò))連接的兩個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)1100可以執(zhí)行這些指令序列,以互相協(xié)作的方式來(lái)實(shí)現(xiàn)本發(fā)明。計(jì)算機(jī)系統(tǒng)1100可以通過(guò)通信鏈路1120和通信接口1112發(fā)送和接收消息、數(shù)據(jù)及指令,包括程序(即應(yīng)用程序代碼)。接收的程序代碼在接收之后可以由處理器1104執(zhí)行,和/或存儲(chǔ)在盤(pán)驅(qū)動(dòng)器1110或其他非易失性存儲(chǔ)中,以便在以后執(zhí)行。
雖然為了便于理解已對(duì)上述實(shí)施例進(jìn)行了詳細(xì)描述,但本發(fā)明并不限于所提供的細(xì)節(jié)。存在很多實(shí)現(xiàn)本發(fā)明的替換方式。所揭示的實(shí)施例只是說(shuō)明性的,而非限制性的。
權(quán)利要求
1.一種用于評(píng)估內(nèi)容的方法,包括使用與所述內(nèi)容相關(guān)聯(lián)的屬性生成數(shù)據(jù)集;使用統(tǒng)計(jì)分布評(píng)估所述數(shù)據(jù)集,來(lái)標(biāo)識(shí)一類統(tǒng)計(jì)離群值;以及分析網(wǎng)頁(yè),以確定該網(wǎng)頁(yè)是否是所述一類統(tǒng)計(jì)離群值的部分。
2.如權(quán)利要求1所述的方法,其特征在于,所述屬性是地址。
3.如權(quán)利要求1所述的方法,其特征在于,所述屬性是地址屬性。
4.如權(quán)利要求1所述的方法,其特征在于,所述屬性是統(tǒng)一資源定位符屬性。
5.如權(quán)利要求1所述的方法,其特征在于,所述屬性是主機(jī)名解析特征。
6.如權(quán)利要求5所述的方法,其特征在于,所述主機(jī)名解析特征表示分配給一個(gè)地址的多個(gè)名稱。
7.如權(quán)利要求5所述的方法,其特征在于,所述主機(jī)名解析特征是主機(jī)-機(jī)器比。
8.如權(quán)利要求1所述的方法,其特征在于,所述屬性是鏈接結(jié)構(gòu)。
9.如權(quán)利要求1所述的方法,其特征在于,所述屬性是句法內(nèi)容。
10.如權(quán)利要求1所述的方法,其特征在于,所述屬性是內(nèi)容演化。
11.如權(quán)利要求1所述的方法,其特征在于,所述屬性是相似網(wǎng)頁(yè)的聚類。
12.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)集是在選擇樣本總體之前生成的。
13.如權(quán)利要求1所述的方法,其特征在于,所述分析網(wǎng)頁(yè)還包括確定是否存在Web垃圾。
14.如權(quán)利要求13所述的方法,其特征在于,所述確定是否存在Web垃圾還包括評(píng)估多個(gè)網(wǎng)頁(yè);以及確定與每個(gè)網(wǎng)頁(yè)相關(guān)聯(lián)的主機(jī)名的長(zhǎng)度。
15.如權(quán)利要求13所述的方法,其特征在于,所述確定是否存在Web垃圾還包括評(píng)估所述網(wǎng)頁(yè),其中與所述網(wǎng)頁(yè)相關(guān)聯(lián)的主機(jī)名被解析到一個(gè)地址;以及確定其他網(wǎng)頁(yè)是否將其他主機(jī)名解析到所述地址。
16.如權(quán)利要求13所述的方法,其特征在于,所述確定是否存在Web垃圾還包括評(píng)估所述網(wǎng)頁(yè)來(lái)確定主機(jī)-機(jī)器比。
17.如權(quán)利要求16所述的方法,其特征在于,所述主機(jī)-機(jī)器比是通過(guò)將包含在所述網(wǎng)頁(yè)中的不同主機(jī)名的數(shù)量除以與所述不同主機(jī)名數(shù)量相關(guān)聯(lián)的不同地址的數(shù)量來(lái)確定的。
18.如權(quán)利要求1所述的方法,其特征在于,所述評(píng)估數(shù)據(jù)集還包括使用所述統(tǒng)計(jì)分布來(lái)標(biāo)識(shí)包括在所述一類統(tǒng)計(jì)離群值中的鏈入度值。
19.如權(quán)利要求1所述的方法,其特征在于,所述分析網(wǎng)頁(yè)還包括確定所述網(wǎng)頁(yè)的鏈入度值;以及確定所述網(wǎng)頁(yè)的鏈入度值是否包括在所述一類統(tǒng)計(jì)離群值中。
20.如權(quán)利要求1所述的方法,其特征在于,所述評(píng)估數(shù)據(jù)集還包括使用所述統(tǒng)計(jì)分布來(lái)標(biāo)識(shí)包括在所述一類統(tǒng)計(jì)離群值中的鏈出度值。
21.如權(quán)利要求1所述的方法,其特征在于,所述分析網(wǎng)頁(yè)還包括確定所述網(wǎng)頁(yè)的鏈出度值;以及確定所述網(wǎng)頁(yè)的鏈出度值是否包括在所述一類統(tǒng)計(jì)離群值中。
22.如權(quán)利要求1所述的方法,其特征在于,所述分析網(wǎng)頁(yè)還包括確定所述網(wǎng)頁(yè)是否具有接近零的字?jǐn)?shù)變化。
23.如權(quán)利要求1所述的方法,其特征在于,所述分析網(wǎng)頁(yè)還包括確定所述網(wǎng)頁(yè)是否具有接近零的大小變化。
24.如權(quán)利要求1所述的方法,其特征在于,所述分析網(wǎng)頁(yè)還包括確定相對(duì)于在一段時(shí)間內(nèi)從一個(gè)地址接連進(jìn)行的多次下載的匹配特征的平均數(shù)。
25.如權(quán)利要求1所述的方法,其特征在于,所述分析網(wǎng)頁(yè)還包括確定實(shí)質(zhì)上相同的網(wǎng)頁(yè)的聚類的大小。
26.如權(quán)利要求1所述的方法,其特征在于,所述一類統(tǒng)計(jì)離群值標(biāo)識(shí)出不需要的內(nèi)容。
27.一種用于評(píng)估內(nèi)容的方法,包括爬尋一組網(wǎng)頁(yè);評(píng)估所述一組網(wǎng)頁(yè)來(lái)計(jì)算統(tǒng)計(jì)分布;將所述統(tǒng)計(jì)分布中的離群值頁(yè)面標(biāo)記為Web垃圾;以及創(chuàng)建所述網(wǎng)頁(yè)和所述離群值頁(yè)面的索引來(lái)回答查詢。
28.一種用于評(píng)估內(nèi)容的系統(tǒng),包括存儲(chǔ)器,它被配置成存儲(chǔ)數(shù)據(jù);以及處理器,它被配置成使用與所述內(nèi)容相關(guān)聯(lián)的屬性來(lái)生成數(shù)據(jù)集、使用統(tǒng)計(jì)分布評(píng)估所述數(shù)據(jù)集來(lái)標(biāo)識(shí)一類統(tǒng)計(jì)離群值、以及分析網(wǎng)頁(yè)來(lái)確定所述網(wǎng)頁(yè)是否是所述一類統(tǒng)計(jì)離群值的部分。
29.一種用于評(píng)估內(nèi)容的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包含在計(jì)算機(jī)可讀介質(zhì)中,并包含計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使用與所述內(nèi)容相關(guān)聯(lián)的屬性來(lái)生成數(shù)據(jù)集;使用統(tǒng)計(jì)分布評(píng)估所述數(shù)據(jù)集來(lái)標(biāo)識(shí)一類統(tǒng)計(jì)離群值;以及分析網(wǎng)頁(yè)來(lái)確定所述網(wǎng)頁(yè)是否是所述一類統(tǒng)計(jì)離群值的部分。
全文摘要
本發(fā)明描述了內(nèi)容評(píng)估,包括使用與內(nèi)容相關(guān)聯(lián)的屬性來(lái)生成數(shù)據(jù)集、使用統(tǒng)計(jì)分布評(píng)估該數(shù)據(jù)集來(lái)標(biāo)識(shí)一類統(tǒng)計(jì)離群值、以及分析網(wǎng)頁(yè)以確定該網(wǎng)頁(yè)是否是該類統(tǒng)計(jì)離群值的部分。一種系統(tǒng)包括被配置成存儲(chǔ)數(shù)據(jù)的存儲(chǔ)器,以及處理器,它被配置成使用與內(nèi)容相關(guān)聯(lián)的屬性來(lái)生成數(shù)據(jù)集、使用統(tǒng)計(jì)分布評(píng)估該數(shù)據(jù)集來(lái)標(biāo)識(shí)一類統(tǒng)計(jì)離群值、并分析網(wǎng)頁(yè)以確定該網(wǎng)頁(yè)是否是該類統(tǒng)計(jì)離群值的部分。另一種方法包括爬尋一組網(wǎng)頁(yè)、評(píng)估該組網(wǎng)頁(yè)來(lái)計(jì)算統(tǒng)計(jì)分布、將統(tǒng)計(jì)分布中的離群值頁(yè)面標(biāo)記為Web垃圾、以及創(chuàng)建網(wǎng)頁(yè)和離群值頁(yè)面的索引來(lái)回答查詢。
文檔編號(hào)G06F17/30GK1770158SQ20051010897
公開(kāi)日2006年5月10日 申請(qǐng)日期2005年9月29日 優(yōu)先權(quán)日2004年9月30日
發(fā)明者D·C·菲特利, M·A·納約克, M·S·瑪納瑟 申請(qǐng)人:微軟公司