網(wǎng)頁標識確定方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種網(wǎng)頁標識確定方法和裝置,該方法包括聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本;對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡潔又能準確、客觀地概括網(wǎng)頁內(nèi)容的網(wǎng)頁標識。
【專利說明】網(wǎng)頁標識確定方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別是一種網(wǎng)頁標識確定方法和裝置。
【背景技術(shù)】
[0002]網(wǎng)頁標識(如網(wǎng)頁標題、網(wǎng)頁地址等)可以用于標識網(wǎng)頁,能夠體現(xiàn)網(wǎng)頁的核心內(nèi)容。搜索算法通常會對標識中的詞賦予更高權(quán)重,因而網(wǎng)頁標識在SEO(Search EngineOptimizat1n,搜索引擎優(yōu)化)中非常重要,站長會在網(wǎng)頁標識中加入很多關(guān)鍵詞,如一些重復或與網(wǎng)頁內(nèi)容不相關(guān)的關(guān)鍵詞,導致標識很長。比如下面這個標識,“Android(安卓)開發(fā)視頻教程-老羅Android開發(fā)視頻教程-視頻教程-移動開發(fā)門戶”,實質(zhì)上該標識中真正有價值的信息是“老羅Android開發(fā)視頻教程”。長標識不會對用戶的瀏覽產(chǎn)生實質(zhì)性影響,對于屏幕大小有限的終端(如手機)會導致明顯的屏幕顯示空間浪費。
[0003]相關(guān)技術(shù)中,搜索引擎對標識進行截斷處理,然而截斷固定長度效果顯然不好。因而,如何提供簡潔又能概括網(wǎng)頁內(nèi)容的網(wǎng)頁標識成為目前亟待解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁標識確定方法和相應的裝置。
[0005]依據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁標識確定方法,包括:聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本;對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
[0006]可選地,所述聚合相同URL的網(wǎng)頁之前,還包括:解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本。
[0007]可選地,所述聚合相同URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,包括:對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組;對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
[0008]可選地,對于各個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,包括:對該URL分組中的錨文本進行聚類,生成一個或多個錨文本分組;將所述一個或多個錨文本分組各自對應的錨文本作為各個網(wǎng)頁的一個或多個錨文本。
[0009]可選地,所述選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識,包括:確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級;選取指定等級的錨文本作為該網(wǎng)頁的標識。
[0010]可選地,所述確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級,包括:獲取該網(wǎng)頁的一個或多個錨文本中每個錨文本的參數(shù)值;根據(jù)獲取的所述每個錨文本的參數(shù)值,計算所述每個錨文本的等級。
[0011]可選地,所述每個錨文本的參數(shù)值包括下列至少之一:
[0012]每個錨文本對應的外部鏈接所在網(wǎng)頁的總數(shù);
[0013]每個錨文本對應的、與該網(wǎng)頁的URL同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0014]每個錨文本對應的、與該網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0015]每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級pagerank ;
[0016]每個錨文本對應的外部鏈接被點擊的次數(shù)。
[0017]依據(jù)本發(fā)明的另一個方面,還提供了一種網(wǎng)頁標識確定裝置,包括:
[0018]處理模塊,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本;
[0019]選取模塊,適于對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
[0020]可選地,在所述處理模塊聚合相同URL的網(wǎng)頁之前,還包括:
[0021]解析模塊,適于解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本。
[0022]可選地,所述處理模塊還適于:對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組;對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
[0023]可選地,所述處理模塊還適于:對該URL分組中的錨文本進行聚類,生成一個或多個錨文本分組;將所述一個或多個錨文本分組各自對應的錨文本作為各個網(wǎng)頁的一個或多個錨文本。
[0024]可選地,所述選取模塊還適于:確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級;選取指定等級的錨文本作為該網(wǎng)頁的標識。
[0025]可選地,所述選取模塊還適于:獲取該網(wǎng)頁的一個或多個錨文本中每個錨文本的參數(shù)值;根據(jù)獲取的所述每個錨文本的參數(shù)值,計算所述每個錨文本的等級。
[0026]可選地,所述每個錨文本的參數(shù)值包括下列至少之一:
[0027]每個錨文本對應的外部鏈接所在網(wǎng)頁的總數(shù);
[0028]每個錨文本對應的、與該網(wǎng)頁的URL同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0029]每個錨文本對應的、與該網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0030]每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級pagerank ;
[0031]每個錨文本對應的外部鏈接被點擊的次數(shù)。
[0032]依據(jù)本發(fā)明提供的技術(shù)方案,通過聚合的方式得到相同URL的網(wǎng)頁,解決了相關(guān)技術(shù)中通過人工或兩兩比較的方式得到相同URL的網(wǎng)頁導致處理效率較低的問題。隨后根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,進而對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。由于外部鏈接對應的錨文本是其他網(wǎng)頁對外部鏈接所指向網(wǎng)頁的一種描述,能夠準確描述所指向網(wǎng)頁的內(nèi)容。本發(fā)明選取網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識,其對該所指向網(wǎng)頁的描述在格式或字數(shù)上體現(xiàn)為更加簡潔,且不會被加入不相關(guān)的關(guān)鍵詞,使得對網(wǎng)頁的描述更為準確、客觀。綜上可知,本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡潔又能準確、客觀地概括網(wǎng)頁內(nèi)容的網(wǎng)頁標識。
[0033]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
[0034]根據(jù)下文結(jié)合附圖對本發(fā)明具體實施例的詳細描述,本領(lǐng)域技術(shù)人員將會更加明了本發(fā)明的上述以及其他目的、優(yōu)點和特征。
【專利附圖】
【附圖說明】
[0035]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0036]圖1示出了根據(jù)本發(fā)明一個實施例的網(wǎng)頁標識確定方法的流程圖;
[0037]圖2示出了根據(jù)本發(fā)明一個實施例的網(wǎng)頁標識確定裝置的一種結(jié)構(gòu)示意圖;以及
[0038]圖3示出了根據(jù)本發(fā)明一個實施例的網(wǎng)頁標識確定裝置的另一種結(jié)構(gòu)示意圖。
【具體實施方式】
[0039]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
[0040]為解決上述技術(shù)問題,本發(fā)明實施例提供了一種網(wǎng)頁標識確定方法,圖1示出了根據(jù)本發(fā)明一個實施例的網(wǎng)頁標識確定方法的流程圖。如圖1所示,該方法至少包括以下步驟S102至步驟S104。
[0041]步驟S102、聚合相同URL(統(tǒng)一資源定位符)的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
[0042]步驟S104、對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
[0043]依據(jù)本發(fā)明提供的技術(shù)方案,通過聚合的方式得到相同URL的網(wǎng)頁,解決了相關(guān)技術(shù)中通過人工或兩兩比較的方式得到相同URL的網(wǎng)頁導致處理效率較低的問題。隨后根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,進而對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。由于外部鏈接對應的錨文本是其他網(wǎng)頁對外部鏈接所指向網(wǎng)頁的一種描述,能夠準確描述所指向網(wǎng)頁的內(nèi)容。本發(fā)明選取網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識,其對該所指向網(wǎng)頁的描述在格式或字數(shù)上體現(xiàn)為更加簡潔,且不會被加入不相關(guān)的關(guān)鍵詞,使得對網(wǎng)頁的描述更為準確、客觀。綜上可知,本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡潔又能準確、客觀地概括網(wǎng)頁內(nèi)容的網(wǎng)頁標識。
[0044]在步驟S102聚合相同URL的網(wǎng)頁之前,本發(fā)明還可以解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本??梢酝ㄟ^網(wǎng)頁抓取器抓取的網(wǎng)頁之間的鏈接關(guān)系,進而確定指向各個網(wǎng)頁的外部鏈接,這里的網(wǎng)頁抓取器可以是網(wǎng)絡(luò)爬蟲、網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人等。進一步地,外部鏈接是指從別的網(wǎng)站導入到自己網(wǎng)站的鏈接,且該鏈接對應的錨文本能夠準確描述該鏈接所指向網(wǎng)頁的內(nèi)容,該錨文本的形式如文本或圖片的形式等。舉例來說,某個網(wǎng)頁為B網(wǎng)站的網(wǎng)頁b,從A網(wǎng)站的鏈接“網(wǎng)頁b”導入到B網(wǎng)站的網(wǎng)頁b,那么A網(wǎng)站的鏈接“網(wǎng)頁b”可以作為該網(wǎng)頁(即B網(wǎng)站的網(wǎng)頁b)的外部鏈接,這里鏈接對應的錨文本為“網(wǎng)頁b”,準確描述了 B網(wǎng)站的網(wǎng)頁b的內(nèi)容。錨文本“網(wǎng)頁b”的形式可以是以文本形式或圖片形式。
[0045]本發(fā)明提供了一種優(yōu)選的實施步驟S102的方案,在該方案中對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組,進而對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。進一步地,對于每個URL分組,對該URL分組中的錨文本進行聚類,生成一個或多個錨文本分組,進而將一個或多個錨文本分組各自對應的錨文本作為各個網(wǎng)頁的一個或多個錨文本。舉例來說,網(wǎng)頁抓取器抓取的多個網(wǎng)頁分別為網(wǎng)頁1、網(wǎng)頁2、網(wǎng)頁3、網(wǎng)頁4,它們的URL分別為URL1、URL2、URL3、URL1。此時對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組為{網(wǎng)頁IURLl、網(wǎng)頁4URL1}、{網(wǎng)頁2URL2}、{網(wǎng)頁3URL3}。對于每個URL分組,如{網(wǎng)頁IURLl、網(wǎng)頁4URL1},指向網(wǎng)頁IURLl的外部鏈接對應的錨文本為al、bl、cl,指向網(wǎng)頁4URL1的外部鏈接對應的錨文本為al、dl、el。此時對URL分組{網(wǎng)頁1URL1、網(wǎng)頁4URL1}中的錨文本進行聚類,生成錨文本分組為{al、al}、{bl}、{cl}、{dl}、{el},進而得到網(wǎng)頁IURLl的錨文本為al、bl、cl、dl、el,網(wǎng)頁4URL1的錨文本為al、bl、cl、dl、el。同理,對于URL分組{網(wǎng)頁2URL2},指向網(wǎng)頁2URL2外部鏈接對應的錨文本為a2、b2,此時可以得到網(wǎng)頁2URL2的錨文本為a2、b2。需要說明的是,這里列舉的網(wǎng)頁1、網(wǎng)頁2、網(wǎng)頁3以及網(wǎng)頁4僅僅是示意性的,并不用于限制本發(fā)明。
[0046]在步驟S102得到各個網(wǎng)頁的一個或多個錨文本之后,步驟S104中對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識,可以通過多種方式來實現(xiàn),如根據(jù)錨文本的文本長度或錨文本的等級,下面將詳細介紹這兩種方式。
[0047]方式一,根據(jù)錨文本的文本長度從一個或多個錨文本中選取一個錨文本的方式。在方式一中,可以確定一個或多個錨文本中每個錨文本的文本長度,隨后從文本長度小于或等于指定長度的錨文本中選取一個錨文本作為該網(wǎng)頁的標識。這里的指定長度可以根據(jù)實際情況或需求來確定,如根據(jù)呈現(xiàn)搜索結(jié)果的終端的尺寸來確定或者將多個錨文本長度的平均值作為指定長度等等。
[0048]方式二,根據(jù)錨文本的等級從一個或多個錨文本中選取一個錨文本的方式。在方式二中,可以確定一個或多個錨文本中每個錨文本的等級,隨后選取指定等級的錨文本作為該網(wǎng)頁的網(wǎng)頁標識。進一步地,本發(fā)明提供了一種優(yōu)選的確定一個或多個錨文本中每個錨文本的等級的方案,即可以獲取一個或多個錨文本中每個錨文本的參數(shù)值,進而根據(jù)獲取的每個錨文本的參數(shù)值,計算每個錨文本的等級。這里,每個錨文本的參數(shù)值可以是每個錨文本對應的外部鏈接的總數(shù),每個錨文本對應的、與網(wǎng)頁的URL同主域的外部鏈接所在網(wǎng)頁的總數(shù),每個錨文本對應的、與網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù),每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級PageRank,每個錨文本對應的外部鏈接被點擊的次數(shù),等等。
[0049]由每個錨文本的參數(shù)值計算每個錨文本的等級,可以優(yōu)選地實施為確定每個錨文本的參數(shù)值各自的權(quán)重,并對每個錨文本的參數(shù)值進行加權(quán)處理,計算每個錨文本的等級。舉例來說,獲取一個或多個錨文本中每個錨文本的參數(shù)值為P1、P2、P3、P4、P5,分別表示每個錨文本對應的外部鏈接的總數(shù),每個錨文本對應的、與網(wǎng)頁的統(tǒng)一資源定位符URL同主域的外部鏈接所在網(wǎng)頁的總數(shù),每個錨文本對應的、與網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù),每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級PageRank,每個錨文本對應的外部鏈接被點擊的次數(shù)。確定每個錨文本的參數(shù)值各自的權(quán)重分別為ql、q2、q3、q4、q5,根據(jù)每個錨文本的參數(shù)值PU P2、P3、P4、P5以及每個錨文本的參數(shù)值各自的權(quán)重ql、q2、q3、q4、q5,對每個錨文本的參數(shù)值中的一個或多個進行加權(quán)處理,得到每個錨文本的等級。
[0050]此外,可以對計算得到的每個錨文本的等級進行排序,選取排在最前面的等級(即最高等級)的錨文本作為指定等級的錨文本。
[0051]另外,還可以結(jié)合上述方式一和方式二來從一個或多個錨文本中選取一個錨文本。例如,首先確定出文本長度小于或等于指定長度的錨文本,然后計算確定出的錨文本的等級,進而選取指定等級的錨文本作為網(wǎng)頁的網(wǎng)頁標識。又例如,將文本長度作為每個錨文本的參數(shù)值,進而計算每個錨文本的等級,進而選取指定等級的錨文本作為網(wǎng)頁的網(wǎng)頁標識。當然,上述列舉僅是示意性的,還可以有其它結(jié)合的方式均適用于本發(fā)明。
[0052]下面通過一具體實施例來詳細介紹本發(fā)明提供的網(wǎng)頁標識確定方法。比如下面這個網(wǎng)頁標識為“Android(安卓)開發(fā)視頻教程-老羅Android開發(fā)視頻教程-視頻教程-移動開發(fā)門戶”,采用本發(fā)明提供的技術(shù)方案得到該網(wǎng)頁的多個錨文本分別為“老羅Android開發(fā)視頻教程”、“Android開發(fā)視頻教程”、“Android移動開發(fā)門戶”,從中選取錨文本“老羅Android開發(fā)視頻教程”作為該網(wǎng)頁的網(wǎng)頁標識,使得標識更加簡潔而不損失信息。若用于搜索結(jié)果中顯示的標題或搜索引擎收錄網(wǎng)頁時記錄的標題時,可以節(jié)省終端顯示界面的顯不空間,提聞?目息的展現(xiàn)力、完整性和時效性,提聞用戶的感受:體驗。
[0053]基于同一發(fā)明構(gòu)思,本發(fā)明實施例還提供了一種網(wǎng)頁標識確定裝置,以實現(xiàn)上述網(wǎng)頁標識確定方法。
[0054]圖2示出了根據(jù)本發(fā)明一個實施例的網(wǎng)頁標識確定裝置的一種結(jié)構(gòu)示意圖。參見圖2,該裝置至少包括:處理模塊210以及選取模塊220。
[0055]現(xiàn)介紹本發(fā)明實施例的網(wǎng)頁標識確定裝置的各組成或器件的功能以及各部分間的連接關(guān)系:
[0056]處理模塊210,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本;
[0057]選取模塊220,與處理模塊210相耦合,適于對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
[0058]在一個實施例中,圖3示出了根據(jù)本發(fā)明一個實施例的網(wǎng)頁標識確定裝置的另一種結(jié)構(gòu)示意圖。該裝置還包括解析模塊310,與處理模塊210相耦合,適于在處理模塊210聚合相同URL的網(wǎng)頁之前,解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本。
[0059]在一個實施例中,處理模塊210還適于:對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組;對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
[0060]在一個實施例中,處理模塊210還適于:對該URL分組中的錨文本進行聚類,生成一個或多個錨文本分組;將一個或多個錨文本分組各自對應的錨文本作為各個網(wǎng)頁的一個或多個錨文本。
[0061]在一個實施例中,選取模塊220還適于:確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級;選取指定等級的錨文本作為該網(wǎng)頁的標識。
[0062]在一個實施例中,選取模塊220還適于:獲取該網(wǎng)頁的一個或多個錨文本中每個錨文本的參數(shù)值;根據(jù)獲取的每個錨文本的參數(shù)值,計算每個錨文本的等級。
[0063]在一個實施例中,每個錨文本的參數(shù)值包括下列至少之一:
[0064]每個錨文本對應的外部鏈接所在網(wǎng)頁的總數(shù);
[0065]每個錨文本對應的、與該網(wǎng)頁的URL同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0066]每個錨文本對應的、與該網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0067]每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級pagerank ;
[0068]每個錨文本對應的外部鏈接被點擊的次數(shù)。
[0069]根據(jù)上述任意一個優(yōu)選實施例或多個優(yōu)選實施例的組合,本發(fā)明實施例能夠達到如下有益效果:
[0070]依據(jù)本發(fā)明提供的技術(shù)方案,通過聚合的方式得到相同URL的網(wǎng)頁,解決了相關(guān)技術(shù)中通過人工或兩兩比較的方式得到相同URL的網(wǎng)頁導致處理效率較低的問題。隨后根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,進而對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。由于外部鏈接對應的錨文本是其他網(wǎng)頁對外部鏈接所指向網(wǎng)頁的一種描述,能夠準確描述所指向網(wǎng)頁的內(nèi)容。本發(fā)明選取網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識,其對該所指向網(wǎng)頁的描述在格式或字數(shù)上體現(xiàn)為更加簡潔,且不會被加入不相關(guān)的關(guān)鍵詞,使得對網(wǎng)頁的描述更為準確、客觀。綜上可知,本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡潔又能準確、客觀地概括網(wǎng)頁內(nèi)容的網(wǎng)頁標識。
[0071]本發(fā)明還公開了:
[0072]Al、一種網(wǎng)頁標識確定方法,包括:
[0073]聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本;
[0074]對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
[0075]A2、根據(jù)Al所述的方法,其中,所述聚合相同URL的網(wǎng)頁之前,還包括:
[0076]解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本。
[0077]A3、根據(jù)Al或A2所述的方法,其中,所述聚合相同URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,包括:
[0078]對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組;
[0079]對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
[0080]A4、根據(jù)A1-A3任一項所述的方法,其中,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,包括:
[0081]對該URL分組中的錨文本進行聚類,生成一個或多個錨文本分組;
[0082]將所述一個或多個錨文本分組各自對應的錨文本作為各個網(wǎng)頁的一個或多個錨文本。
[0083]A5、根據(jù)A1-A4任一項所述的方法,其中,所述選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識,包括:
[0084]確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級;
[0085]選取指定等級的錨文本作為該網(wǎng)頁的標識。
[0086]A6、根據(jù)A1-A5任一項所述的方法,其中,所述確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級,包括:
[0087]獲取該網(wǎng)頁的一個或多個錨文本中每個錨文本的參數(shù)值;
[0088]根據(jù)獲取的所述每個錨文本的參數(shù)值,計算所述每個錨文本的等級。
[0089]A7、根據(jù)A1-A6任一項所述的方法,其中,所述每個錨文本的參數(shù)值包括下列至少之一:
[0090]每個錨文本對應的外部鏈接所在網(wǎng)頁的總數(shù);
[0091]每個錨文本對應的、與該網(wǎng)頁的URL同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0092]每個錨文本對應的、與該網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0093]每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級pagerank ;
[0094]每個錨文本對應的外部鏈接被點擊的次數(shù)。
[0095]B8、一種網(wǎng)頁標識確定裝置,包括:
[0096]處理模塊,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本;
[0097]選取模塊,適于對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
[0098]B9、根據(jù)B8所述的裝置,其中,在所述處理模塊聚合相同URL的網(wǎng)頁之前,還包括:
[0099]解析模塊,適于解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本。
[0100]B10、根據(jù)B8或B9所述的裝置,其中,所述處理模塊還適于:
[0101]對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組;
[0102]對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
[0103]B11、根據(jù)B8-B10任一項所述的裝置,其中,所述處理模塊還適于:
[0104]對該URL分組中的錨文本進行聚類,生成一個或多個錨文本分組;
[0105]將所述一個或多個錨文本分組各自對應的錨文本作為各個網(wǎng)頁的一個或多個錨文本。
[0106]B12、根據(jù)B8-B11任一項所述的裝置,其中,所述選取模塊還適于:
[0107]確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級;
[0108]選取指定等級的錨文本作為該網(wǎng)頁的標識。
[0109]B13、根據(jù)B8-B12任一項所述的裝置,其中,所述選取模塊還適于:
[0110]獲取該網(wǎng)頁的一個或多個錨文本中每個錨文本的參數(shù)值;
[0111]根據(jù)獲取的所述每個錨文本的參數(shù)值,計算所述每個錨文本的等級。
[0112]B14、根據(jù)B8-B13任一項所述的裝置,其中,所述每個錨文本的參數(shù)值包括下列至少之一:
[0113]每個錨文本對應的外部鏈接所在網(wǎng)頁的總數(shù);
[0114]每個錨文本對應的、與該網(wǎng)頁的URL同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0115]每個錨文本對應的、與該網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù);
[0116]每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級pagerank ;
[0117]每個錨文本對應的外部鏈接被點擊的次數(shù)。
[0118]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
[0119]類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
[0120]本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0121]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0122]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的網(wǎng)頁標識的確定裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0123]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0124]至此,本領(lǐng)域技術(shù)人員應認識到,雖然本文已詳盡示出和描述了本發(fā)明的多個示例性實施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開的內(nèi)容直接確定或推導出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應被理解和認定為覆蓋了所有這些其他變型或修改。
【權(quán)利要求】
1.一種網(wǎng)頁標識確定方法,包括: 聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本; 對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述聚合相同URL的網(wǎng)頁之前,還包括: 解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述聚合相同URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,包括: 對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組; 對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其中,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本,包括: 對該URL分組中的錨文本進行聚類,生成一個或多個錨文本分組; 將所述一個或多個錨文本分組各自對應的錨文本作為各個網(wǎng)頁的一個或多個錨文本。
5.根據(jù)權(quán)利要求1-4任一項所述的方法,其中,所述選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識,包括: 確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級; 選取指定等級的錨文本作為該網(wǎng)頁的標識。
6.根據(jù)權(quán)利要求1-5任一項所述的方法,其中,所述確定該網(wǎng)頁的一個或多個錨文本中每個錨文本的等級,包括: 獲取該網(wǎng)頁的一個或多個錨文本中每個錨文本的參數(shù)值; 根據(jù)獲取的所述每個錨文本的參數(shù)值,計算所述每個錨文本的等級。
7.根據(jù)權(quán)利要求1-6任一項所述的方法,其中,所述每個錨文本的參數(shù)值包括下列至少之一: 每個錨文本對應的外部鏈接所在網(wǎng)頁的總數(shù); 每個錨文本對應的、與該網(wǎng)頁的URL同主域的外部鏈接所在網(wǎng)頁的總數(shù); 每個錨文本對應的、與該網(wǎng)頁的URL不同主域的外部鏈接所在網(wǎng)頁的總數(shù); 每個錨文本對應的外部鏈接所在網(wǎng)頁的網(wǎng)頁等級pagerank ; 每個錨文本對應的外部鏈接被點擊的次數(shù)。
8.一種網(wǎng)頁標識確定裝置,包括: 處理模塊,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁,根據(jù)指向相同URL網(wǎng)頁的一個或多個外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本; 選取模塊,適于對于每個網(wǎng)頁,選取該網(wǎng)頁的一個或多個錨文本中的一個作為該網(wǎng)頁的標識。
9.根據(jù)權(quán)利要求8所述的裝置,其中,在所述處理模塊聚合相同URL的網(wǎng)頁之前,還包括: 解析模塊,適于解析網(wǎng)頁抓取器抓取的多個網(wǎng)頁,獲取各個網(wǎng)頁的URL、指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本。
10.根據(jù)權(quán)利要求8或9所述的裝置,其中,所述處理模塊還適于: 對具備相同URL的網(wǎng)頁進行聚類,生成多個URL分組; 對于每個URL分組,根據(jù)該URL分組中指向各個網(wǎng)頁的外部鏈接以及各個外部鏈接對應的錨文本,得到各個網(wǎng)頁的一個或多個錨文本。
【文檔編號】G06F17/30GK104317940SQ201410602741
【公開日】2015年1月28日 申請日期:2014年10月31日 優(yōu)先權(quán)日:2014年10月31日
【發(fā)明者】魏少俊 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司