專利名稱:確定站點(diǎn)的領(lǐng)域信息以及相關(guān)性判定方法、系統(tǒng)及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方法、系統(tǒng)及設(shè)備,以及對(duì)站點(diǎn)與站點(diǎn)之間、站點(diǎn)與頁面之間相關(guān)性進(jìn)行判定的方法、系統(tǒng)及設(shè)備。
背景技術(shù):
在信息搜索技術(shù)中,經(jīng)常需要對(duì)互聯(lián)網(wǎng)中各站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息進(jìn)行表示和劃分,根據(jù)各站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息來判定站點(diǎn)之間的相關(guān)性以及某一特定頁面與站點(diǎn)之間的相關(guān)性。同一站點(diǎn)可以對(duì)應(yīng)一個(gè)或多個(gè)領(lǐng)域,例如對(duì)于一個(gè)游戲站點(diǎn)而言,對(duì)應(yīng)的領(lǐng)域可以包括游戲下載領(lǐng)域以及游戲攻略領(lǐng)域等,領(lǐng)域信息的劃分方式不同,站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息也會(huì)有所不同。目前常用的確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方式有標(biāo)簽方式和分類樹方式。 標(biāo)簽方式是指針對(duì)每一個(gè)站點(diǎn),在該站點(diǎn)對(duì)外展示的列表中開辟指定的字段記錄該站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。分類樹方式是指利用分類樹的樹狀結(jié)構(gòu)來記錄有父子關(guān)系的站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。例如,在游戲領(lǐng)域的站點(diǎn)中,站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息有網(wǎng)絡(luò)游戲和單機(jī)游戲,而在網(wǎng)絡(luò)游戲的領(lǐng)域信息之下,又進(jìn)一步有游戲下載、游戲攻略等子領(lǐng)域信息,以及動(dòng)作游戲、策略游戲、角色扮演游戲等子領(lǐng)域信息。通過上述標(biāo)簽方式或分類樹方式確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方式,只能粗粒度地確定特定領(lǐng)域的站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,對(duì)于進(jìn)一步的細(xì)粒度的領(lǐng)域信息的劃分,其運(yùn)算量將會(huì)非常大。例如針對(duì)動(dòng)作游戲A下載和動(dòng)作游戲B下載的專題站點(diǎn)的區(qū)別較小,而互聯(lián)網(wǎng)中區(qū)別較小的站點(diǎn)非常多,若分類樹的葉子節(jié)點(diǎn)是細(xì)粒度的區(qū)別劃分,則游戲站點(diǎn)的分類樹將會(huì)非常龐大,難以實(shí)現(xiàn)。更何況面對(duì)互聯(lián)網(wǎng)中包羅萬象的各種站點(diǎn),類似于“游戲”這樣的領(lǐng)域不計(jì)其數(shù),若都按照標(biāo)簽方式或分類樹的方案來細(xì)粒度地區(qū)分站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,則運(yùn)算量過大很難實(shí)現(xiàn);若每個(gè)站點(diǎn)僅粗粒度地確定對(duì)應(yīng)的領(lǐng)域信息,則站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息區(qū)分能力不足,將會(huì)導(dǎo)致站點(diǎn)的相關(guān)性以及頁面與站點(diǎn)之間相關(guān)性判定不準(zhǔn)確。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種確定站點(diǎn)的領(lǐng)域信息以及相關(guān)性判定方法、系統(tǒng)及設(shè)備,用以解決現(xiàn)有技術(shù)中存在站點(diǎn)的領(lǐng)域信息確定不準(zhǔn)確,導(dǎo)致站點(diǎn)的相關(guān)性以及頁面與站點(diǎn)之間相關(guān)性判定不準(zhǔn)確的問題。一種確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方法,所述方法包括確定站點(diǎn)內(nèi)的多個(gè)頁面,針對(duì)每一頁面,確定該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度;根據(jù)每個(gè)頁面對(duì)于各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。一種確定站點(diǎn)之間相關(guān)性的方法,所述方法包括生成M個(gè)屬于第一站點(diǎn)的頁面,所述M個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù);確定生成的M個(gè)頁面中,每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度;根據(jù)每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)度;其中,第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息和第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是通過以下方式確定的針對(duì)屬于屬于同一站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的 各主題的似然度,確定頁面所屬站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。一種確定頁面與站點(diǎn)之間相關(guān)性的方法,所述方法包括確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題;確定待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度;根據(jù)待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點(diǎn)之間的相關(guān)度;其中,站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是通過以下方式確定的針對(duì)站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。一種確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的設(shè)備,包括頁面確定模塊,用于確定站點(diǎn)內(nèi)的多個(gè)頁面;第一似然度確定模塊,用于針對(duì)每一頁面,確定該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度;領(lǐng)域信息確定模塊,用于根據(jù)每個(gè)頁面對(duì)于各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。一種確定站點(diǎn)之間相關(guān)性的設(shè)備,包括頁面生成模塊,用于生成M個(gè)屬于第一站點(diǎn)的頁面,所述M個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù);第二似然度確定模塊,用于確定生成的M個(gè)頁面中,每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度;第一相關(guān)度確定模塊,用于根據(jù)每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表不的主題的似然度確定第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)度;領(lǐng)域信息確定模塊,用于針對(duì)屬于屬于同一站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定頁面所屬站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。一種確定頁面與站點(diǎn)之間相關(guān)性的設(shè)備,包括主題確定模塊,用于確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題;第三似然度確定模塊,用于確定待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度;第二相關(guān)度確定模塊,用于根據(jù)待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點(diǎn)之間的相關(guān)度;領(lǐng)域信息確定模塊,用于針對(duì)站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。本發(fā)明實(shí)施例針對(duì)站點(diǎn)內(nèi)的每一頁面,確定該頁面相對(duì)于預(yù)設(shè)的多個(gè)主題中每個(gè)主題的似然度,并根據(jù)每個(gè)頁面對(duì)于各主題的似然度來表示頁面所屬站點(diǎn)的主題分布,進(jìn)而來確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,由于預(yù)設(shè)的主題數(shù)量可以很高,因此,根據(jù)站點(diǎn)內(nèi)各頁面與每個(gè)預(yù)設(shè)的主題之間的似然度關(guān)系確定的頁面所表示的主題數(shù)量可以是海量的,使得最終確定的站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是細(xì)粒度、準(zhǔn)確的領(lǐng)域信息,進(jìn)而提高利用領(lǐng)域信息對(duì)站點(diǎn)之間、站點(diǎn)與頁面之間相關(guān)性判定的準(zhǔn)確性。
圖I為本發(fā)明實(shí)施例一確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方法示意圖; 圖2為本發(fā)明實(shí)施例二確定站點(diǎn)之間相關(guān)性的方法示意圖;圖3為本發(fā)明實(shí)施例三確定頁面與站點(diǎn)之間相關(guān)性的方法示意圖;圖4為本發(fā)明實(shí)施例四確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的設(shè)備結(jié)構(gòu)示意圖;圖5為本發(fā)明實(shí)施例五確定站點(diǎn)之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例六確定頁面與站點(diǎn)之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了確定互聯(lián)網(wǎng)中各類站點(diǎn)的領(lǐng)域信息,本發(fā)明實(shí)施例提出一種新的確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方案,針對(duì)站點(diǎn)內(nèi)的每一頁面,確定該頁面相對(duì)于預(yù)設(shè)的多個(gè)主題中每個(gè)主題的似然度,并根據(jù)每個(gè)頁面對(duì)于各主題的似然度來表示頁面所屬站點(diǎn)的主題分布,進(jìn)而來確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,由于預(yù)設(shè)的主題數(shù)量可以很高,因此,根據(jù)站點(diǎn)內(nèi)各頁面與每個(gè)預(yù)設(shè)的主題之間的似然度關(guān)系確定的頁面所表示的主題數(shù)量可以是海量的,使得最終確定的站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是細(xì)粒度、準(zhǔn)確的領(lǐng)域信息,進(jìn)而提高利用領(lǐng)域信息對(duì)站點(diǎn)之間、站點(diǎn)與頁面之間相關(guān)性判定的準(zhǔn)確性。本發(fā)明各實(shí)施例中涉及的站點(diǎn)是指互聯(lián)網(wǎng)中的各類型網(wǎng)站,包括大型的門戶網(wǎng)站、各種專題網(wǎng)站等。站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是指能夠表示該站點(diǎn)包括的主題的各種信息,同一站點(diǎn)可以包括至少一個(gè)主題。本發(fā)明各實(shí)施例中涉及的似然度是指頁面的內(nèi)容與某一主題相關(guān)的程度,是一個(gè)概率值,其取值大小為(0,1)。下面結(jié)合說明書附圖對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述。實(shí)施例一如圖I所示,為本發(fā)明實(shí)施例一中確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方法示意圖,所述方法包括以下步驟步驟101 :訓(xùn)練頁面內(nèi)容與預(yù)設(shè)數(shù)量的多個(gè)主題之間的似然度關(guān)系。本步驟是在為特定的站點(diǎn)確定對(duì)應(yīng)的領(lǐng)域信息之前的配置步驟,是本實(shí)施例的優(yōu)選步驟。在本步驟的方案中,利用搜索引擎從互聯(lián)網(wǎng)中抓取海量的網(wǎng)頁,如數(shù)以百萬計(jì)的網(wǎng)頁,并對(duì)這些網(wǎng)頁進(jìn)行模型訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個(gè)頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個(gè)主題之間似然度的關(guān)系,即頁面內(nèi)容與對(duì)于某一主題的似然度的概率模型。本實(shí)施例中涉及的預(yù)設(shè)的多個(gè)主題并不全然是預(yù)設(shè)的,其中,主題的個(gè)數(shù)是預(yù)設(shè)的,但各個(gè)主題的內(nèi)容是根據(jù)搜索引擎抓取的互聯(lián)網(wǎng)上的海量頁面后,使用設(shè)定的算法訓(xùn)練出來的。由于搜索引擎從互聯(lián)網(wǎng)中抓取的頁面預(yù)先不可知,因此,預(yù)設(shè)的多個(gè)主題的內(nèi)容也無法預(yù)先確定,只能預(yù)先確定所述多個(gè)主題的數(shù)量,在訓(xùn)練過程中自動(dòng)生成相應(yīng)數(shù)量的主題,以及頁面內(nèi)容與預(yù)設(shè)的多個(gè)主題之間的似然度關(guān)系。具體地,本步驟中可以采用潛層語義分析(PLSA)算法來對(duì)抓取的海量頁面進(jìn)行訓(xùn)練,進(jìn)而確定抓取的海量頁面中的內(nèi)容與預(yù)設(shè)的所述多個(gè)主題之間似然度的關(guān)系。PLSA算法可以分兩部分,一部分是通過大量頁面訓(xùn)練主題,以及識(shí)別頁面主題所使用的數(shù)學(xué)模型的參數(shù)(可簡化的認(rèn)為是word到主題之間的似然度關(guān)系,與頁面無關(guān));另外一部分是 應(yīng)用上一步中訓(xùn)練出的模型,識(shí)別具體頁面對(duì)應(yīng)每一主題的似然度。主要內(nèi)容為每個(gè)頁面都由若干主題構(gòu)成,每個(gè)主題在該頁面占有一定的比重p (z I d),或者每個(gè)頁面都以一定的概率P (z I d)屬于某一主題,并且假定在給定主題的條件下,每個(gè)詞都以一定的概率P(w|z)產(chǎn)生。這樣,頁面和頁面中的詞的共現(xiàn)的情況可以用以下公式⑴描述
t. -W^T 取稱I
C".............Iw;i = p(d'> / p(2|.|djp:;\'iz.r I
■-:=!( I )而PLSA分析的結(jié)果,就是得出p (z I d)、p (w I z)這些概率的值(評(píng)價(jià)標(biāo)準(zhǔn)是使得數(shù)據(jù)集合似然度最大)。具體來說,這些結(jié)果可以描述為主題分布的概率p (Z);頁面屬于某一主題的概率p (z |d);詞對(duì)某一主題的支撐程度p (w I z)。主題的數(shù)目在訓(xùn)練前已預(yù)先設(shè)定,而主題的真實(shí)含義在PISA分析完成之前無法確定,只能通過過其支撐詞來表現(xiàn),也就是對(duì)于某個(gè)主題Z,選擇p (w I z)最高的一些詞,可以估計(jì)該主題Z的含義。由于主題只是進(jìn)行語義關(guān)聯(lián)的一個(gè)橋梁,所以也無需知道其確切含義。但是一般來說,不同主題下支撐詞的區(qū)分性大,同一主題下的支撐詞相關(guān)性大,效果較為明顯,表明PLSA模型中的潛在主題的概念確實(shí)體現(xiàn)了頁面中的語義類別信息。當(dāng)確定了 p (w |z)體現(xiàn)的詞對(duì)某一主題的支撐程度,通過不同詞的P (w |z)分布就可以確定詞之間語義相關(guān)性的大小,進(jìn)而確定頁面中詞與主題之間的似然度。步驟102 :確定站點(diǎn)內(nèi)的多個(gè)頁面。在經(jīng)過步驟101的概率模型訓(xùn)練后,每當(dāng)需要對(duì)互聯(lián)網(wǎng)中某一特定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息進(jìn)行確定時(shí),將從本步驟開始執(zhí)行,利用搜索引擎抓取該站點(diǎn)內(nèi)的多個(gè)頁面。為了使抓取的站點(diǎn)內(nèi)的頁面能夠最優(yōu)地反映站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,本步驟可以抓取站點(diǎn)內(nèi)的所有頁面??紤]到某些站點(diǎn)內(nèi)的頁面數(shù)量非常多,本實(shí)施例也不限于從站點(diǎn)內(nèi)抓取部分頁面,但抓取的頁面數(shù)量也應(yīng)達(dá)到能夠反映站點(diǎn)主要頁面的程度。在執(zhí)行本步驟時(shí),可以根據(jù)站點(diǎn)內(nèi)包含的頁面總數(shù)量以及對(duì)站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的準(zhǔn)確性需求,確定抓取的站點(diǎn)內(nèi)頁面的數(shù)量。步驟103 :針對(duì)站點(diǎn)內(nèi)的每一頁面,確定該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度。利用步驟101中訓(xùn)練得到的概率模型,即利用確定的頁面中的內(nèi)容與所述多個(gè)主題之間似然度的關(guān)系,可以分別確定站點(diǎn)內(nèi)每一頁面對(duì)于預(yù)設(shè)的多個(gè)主題的似然度。假設(shè)預(yù)設(shè)的主題數(shù)量為100,則在本步驟中可以確定一個(gè)頁面對(duì)于每一主題的似然度,將得到的100個(gè)似然度結(jié)合在一起,可以得到該頁面對(duì)于100個(gè)主題的100維似然向量,這100維的似然向量中的每一向量參數(shù)是頁面對(duì)于某一主題的似然度的數(shù)值。預(yù)設(shè)的100個(gè)主題數(shù)量可以看作是100維的向量空間,每一主題可以看作是在這100維的向量空間內(nèi)的一個(gè)軸。向量空間中的任意一個(gè)區(qū)域都可以表示實(shí)際的主題,這是因 為根據(jù)向量空間中的任意一個(gè)區(qū)域與100個(gè)軸的距離可以表示該區(qū)域與這100個(gè)軸的相關(guān)性,與該區(qū)域與最相關(guān)的至少一個(gè)軸所表示的主題就可以看作是該區(qū)域所表示的主題。由于預(yù)設(shè)的主題數(shù)量較大(主題數(shù)量為100),向量空間中可以表示的主題可以是這100個(gè)主題的任意排列,因此,向量空間實(shí)際可以表示的主題數(shù)量是非常龐大的。根據(jù)本步驟中I確定頁面的100維似然向量,可以將該頁面映射為100維向量空間內(nèi)的一個(gè)點(diǎn),以此類推,確定的站點(diǎn)內(nèi)的每個(gè)頁面都可以映射為100維向量空間內(nèi)的一個(gè)點(diǎn)。步驟104 :根據(jù)每個(gè)頁面對(duì)于各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。在步驟103中,已經(jīng)將每個(gè)頁面映射至100維向量空間,從空間上來說,通過100維向量空間中的點(diǎn)來表不站點(diǎn)內(nèi)的各頁面。由于屬于同一站點(diǎn)的各頁面之間具有一定的相關(guān)性,因此,映射到向量空間內(nèi)的各點(diǎn)也可能具有某種特定的空間分布,如部分頁面映射的點(diǎn)比較集中,剩余部分頁面映射的點(diǎn)比較分散。從整體上來說,可以認(rèn)為站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題在向量空間內(nèi)的區(qū)域是映射點(diǎn)分布比較集中的區(qū)域,而在該區(qū)域之外映射點(diǎn)分布會(huì)比較分散甚至沒有分布。本步驟可以通過高斯分布的相應(yīng)算法來確定站點(diǎn)的領(lǐng)域信息,具體方式為首先,根據(jù)每個(gè)頁面的似然向量確定至少一個(gè)高斯分布。由于站點(diǎn)內(nèi)的各頁面映射在向量空間中的點(diǎn)可以通過至少一個(gè)高斯分布的中點(diǎn)和方差來表示,可逆的,根據(jù)每個(gè)頁面的似然向量已確定的頁面在向量空間中的點(diǎn)可以確定至少一個(gè)高斯分布。然后,利用EM算法確定每個(gè)高斯分布的最大似然參數(shù),包括高斯分布的中點(diǎn)、方差以及該高斯分布的權(quán)重,并將確定的最大似然參數(shù)作為站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,通過高斯分布的最大似然參數(shù)來表示該站點(diǎn)的主題。具體地,確定高斯分布的參數(shù)是通過以下方式實(shí)現(xiàn)的第一步為每個(gè)高斯分布指定一個(gè)隨機(jī)的參數(shù)。第二步對(duì)于頁面映射在向量空間中的每一個(gè)點(diǎn),計(jì)算點(diǎn)屬于每一個(gè)高斯分布的概率,按照概率,將點(diǎn)拆分并關(guān)聯(lián)到各個(gè)高斯分布上。舉例來講,如果某個(gè)點(diǎn)屬于3個(gè)高斯分布的概率分別是0. 3,0. 3,0. 4,那么每個(gè)高斯分布分別獲得0. 3,0. 3,0. 4個(gè)點(diǎn)。第三步對(duì)于每一個(gè)高斯分布,考察屬于它的所有點(diǎn),重新設(shè)定該高斯分布的參數(shù),具體為權(quán)重設(shè)置為屬于該高斯分布的點(diǎn)的數(shù)量除以點(diǎn)的總數(shù);中點(diǎn)值設(shè)置為屬于該高斯分布的點(diǎn)的均值;方差設(shè)置為屬于該高斯分布的點(diǎn)的平均方差。如果第三步確定的高斯分布的參數(shù)的變化幅度(相對(duì)于第三步之前)小于一定閾值,則認(rèn)為已經(jīng)確定了高斯分布的參數(shù),否則轉(zhuǎn)到第二步,直至最終確定高斯分布的參數(shù)。上述三步是在已知高斯分布的個(gè)數(shù)的情況下,確定高斯分布的參數(shù)方法,本實(shí)施例方案中,確定高斯分布個(gè)數(shù)的方法為第一步將屬于一個(gè)站點(diǎn)的頁面映射在向量空間中的點(diǎn)分割成兩個(gè)集合,使用第
一個(gè)集合中的點(diǎn),對(duì)于I個(gè)高斯分布、2個(gè)高斯分布、3個(gè)高斯分布、......、n個(gè)高斯分布的
情況,依次使用上面的方法確定高斯分布的參數(shù)。第二步使用第二個(gè)集合中的點(diǎn),以及上一步訓(xùn)練出來的I個(gè)高斯分布、2個(gè)高斯
分布、3個(gè)高斯分布、......、n個(gè)高斯分布這n種情況,分別計(jì)算第二個(gè)集合中的點(diǎn)對(duì)n種
情況的似然度。若計(jì)算結(jié)果為k個(gè)高斯分布的時(shí)候似然度最大,則該站點(diǎn)在向量空間中有k個(gè)高斯分布。步驟105 :存儲(chǔ)站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。在本步驟中,可以將站點(diǎn)的地址以及該站點(diǎn)在高斯分布中的參數(shù)分別作為key和value存儲(chǔ)在數(shù)據(jù)庫中,作為該站點(diǎn)的主題數(shù)據(jù)庫,后續(xù)在需要查詢某一站點(diǎn)的領(lǐng)域信息時(shí),可以根據(jù)該站點(diǎn)的地址作為關(guān)鍵字key查詢數(shù)據(jù)庫,找到該站點(diǎn)的key對(duì)應(yīng)的value。通過本發(fā)明實(shí)施例一的方案,可以在不依賴網(wǎng)絡(luò)管理員人工參與的情況下,可以自動(dòng)確定互聯(lián)網(wǎng)中任意站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,且由于預(yù)設(shè)的主題維度可以自由確定,因此,在主題維度較高時(shí),可以細(xì)粒度地表示站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,準(zhǔn)確地確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題;另外,本發(fā)明實(shí)施例從多維向量空間的角度來表征站點(diǎn)內(nèi)的頁面在多維向量空間中的位置,從空間上直觀地表示站點(diǎn)內(nèi)的頁面映射的點(diǎn)匯聚在一起的情況,直觀地表示站點(diǎn)在多維向量空間內(nèi)分布的區(qū)域,從整體上反映站點(diǎn)的主題。實(shí)施例二在利用實(shí)施例一的方案確定各站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息后,本發(fā)明實(shí)施例二提出一種確定站點(diǎn)之間相關(guān)性的方法,在本實(shí)施例二的方案中,所涉及的第一站點(diǎn)和第二站點(diǎn)是互聯(lián)網(wǎng)中的兩個(gè)站點(diǎn),這兩個(gè)站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息可以按照實(shí)施例一的方式確定。如圖2所示,所述方法包括以下步驟步驟201 :確定第一站點(diǎn)和第二站點(diǎn)的領(lǐng)域信息以及該領(lǐng)域信息所表示的主題。由于第一站點(diǎn)的主題數(shù)據(jù)庫中存儲(chǔ)了第一站點(diǎn)的key和value,因此,根據(jù)第一站點(diǎn)的地址key,可以從主題數(shù)據(jù)庫中查找出第一站點(diǎn)的value。同理,可以確定第二站點(diǎn)的value。由于在實(shí)施例一的方案中,將站點(diǎn)的高斯分布參數(shù)作為站點(diǎn)的value,因此,在本步驟中,第一站點(diǎn)的value是第一站點(diǎn)的高斯分布參數(shù),第二站點(diǎn)的value是第二站點(diǎn)的高斯分布參數(shù)。步驟202 :生成M個(gè)屬于第一站點(diǎn)的頁面tl、t2.、tM。由于生成的M個(gè)頁面是屬于第一站點(diǎn)的頁面,因此,所述M(正整數(shù))個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均較高,如大于第一閾值。在實(shí)施例一的步驟103和步驟104中,是根據(jù)站點(diǎn)內(nèi)的頁面對(duì)于設(shè)定的多個(gè)主題的似然度確定第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的,而本步驟是相反的過程,根據(jù)已知的第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,生成對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度較高的頁面。步驟203 :確定生成的M個(gè)頁面中,每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度。在本步驟中,分別計(jì)算頁面tl、t2. . .、tM屬于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的概率,即頁面tl、t2. . .、tM對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度pl、p2. . .、pM0步驟204 :根據(jù)每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)度。本步驟的具體算法為
確定pl、p2. .. 41的取值大小,將?1、?2...、PM分別與第二閾值進(jìn)行比較,存在以下三種情況情況I :似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,所述第一門限值大于第二門限值。由于一部分(不占主導(dǎo)部分)屬于第一站點(diǎn)的頁面與第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度較高,另一部分(也不占主導(dǎo)部分)屬于第一站點(diǎn)的頁面與第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度較低,因此,第一站點(diǎn)和第二站點(diǎn)的領(lǐng)域信息相關(guān),無從屬關(guān)系。例如若第一站點(diǎn)的領(lǐng)域信息所表示的主題為“動(dòng)作游戲下載”,第二站點(diǎn)的領(lǐng)域信息所表示的主題為“動(dòng)作游戲攻略”,這個(gè)兩個(gè)站點(diǎn)的主題有一定的相關(guān)性,因此,有一部分屬于第一站點(diǎn)的頁面與第二站點(diǎn)的“動(dòng)作游戲攻略”主題的相關(guān)度很高,另一部分屬于第一站點(diǎn)的頁面與第二站點(diǎn)的“動(dòng)作游戲攻略”主題的相關(guān)度較低,因此,第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息有一定的相關(guān)性。從多維向量空間上來說,第一站點(diǎn)的頁面映射在多維向量空間中的匯聚區(qū)域一部分與第二站點(diǎn)主題的區(qū)域重合。情況2 :似然度大于第二閾值的頁面數(shù)量不大于第二門限值。由于大部分屬于第一站點(diǎn)的頁面與第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度較低,因此,第一站點(diǎn)和第二站點(diǎn)的領(lǐng)域信息不相關(guān)。例如若第一站點(diǎn)的領(lǐng)域信息所表示的主題為“動(dòng)作游戲下載”,第二站點(diǎn)的領(lǐng)域信息所表示的主題為“某品牌手機(jī)銷售”,這個(gè)兩個(gè)站點(diǎn)的主題不相關(guān),因此,大部分屬于第一站點(diǎn)的頁面與第二站點(diǎn)的主題的相關(guān)度很低,因此,第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息沒有相關(guān)性。從多維向量空間上來說,第一站點(diǎn)的頁面映射在多維向量空間中的匯聚區(qū)域與第二站點(diǎn)主題的區(qū)域沒有重合之處。情況3 :似然度大于第二閾值的頁面數(shù)量大于第一門限值,由于大部分屬于第一站點(diǎn)的頁面與第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度較高,因此,第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息。例如若第一站點(diǎn)的領(lǐng)域信息所表示的主題為“動(dòng)作游戲下載”,第二站點(diǎn)的領(lǐng)域信息所表示的主題為“游戲下載”,則屬于第一站點(diǎn)的大部分頁面的主題都與“動(dòng)作游戲下載”相關(guān),這些頁面與第二站點(diǎn)的“游戲下載”主題的相關(guān)度很高,因此,可以確定第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息。從多維向量空間上來說,第一站點(diǎn)的頁面映射在多維向量空間中的匯聚區(qū)域被包含在第二站點(diǎn)主題的區(qū)域中。在上述情況3中,可能是第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息,特殊地,也可能是第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息重合的情況,為了進(jìn)一步判斷第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息的關(guān)系,還可以進(jìn)一步地執(zhí)行以下操作首先,生成N(正整數(shù))個(gè)屬于第二站點(diǎn)的頁面,所述N個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值。然后,確定生成的N個(gè)頁面中,每個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度,若對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,即大部分屬于第二站點(diǎn)的頁面與第一站點(diǎn)的主題相關(guān)性高,則第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息重合;否則,第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息。需要說明的是,本步驟中確定的第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)性是根據(jù)第一站 點(diǎn)內(nèi)頁面與第二站點(diǎn)的主題的似然度大小來定量描述的,各閾值的取值大小不同、各門限值的取值大小不同,都可能會(huì)影響兩個(gè)站點(diǎn)相關(guān)性的強(qiáng)弱。例如若第二閾值設(shè)定為Q時(shí),計(jì)算結(jié)果是“第一站點(diǎn)和第二站點(diǎn)相關(guān)”,第二閾值設(shè)定為q時(shí)(Q大于q),計(jì)算結(jié)果是“第三站點(diǎn)和第四站點(diǎn)相關(guān)”,則由于Q大于q,對(duì)于第三站點(diǎn)和第四站點(diǎn)相關(guān)性判定更加嚴(yán)格,因此,第三站點(diǎn)和第四站點(diǎn)的相關(guān)性大于第一站點(diǎn)和第二站點(diǎn)的相關(guān)性。上述步驟202中涉及的第一閾值和步驟204中涉及的第二閾值可以取值相同,也可以取值不同,可以根據(jù)實(shí)際對(duì)相關(guān)性要求高低的情況選取。實(shí)施例三與實(shí)施例二類似的,在利用實(shí)施例一的方案確定各站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息后,本發(fā)明實(shí)施例三提出一種確定頁面與站點(diǎn)之間相關(guān)性的方法,在本實(shí)施例三的方案中,所涉及的站點(diǎn)是互聯(lián)網(wǎng)中的一個(gè)站點(diǎn),這個(gè)站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息可以按照實(shí)施例一的方式確定。如圖3所示,所述方法包括以下步驟步驟301 :確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題。本步驟的實(shí)現(xiàn)方式與實(shí)施例二的步驟201相同,此處不再贅述。步驟302 :確定待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度。在本步驟中,計(jì)算待比較頁面屬于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的概率,SP待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度P。步驟303 :根據(jù)待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點(diǎn)之間的相關(guān)度。本步驟的具體實(shí)現(xiàn)方式為若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第三閾值,則所述待比較頁面從屬于所述站點(diǎn)。若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則所述待比較頁面和所述站點(diǎn)相關(guān)。若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則所述待比較頁面和所述站點(diǎn)不相關(guān),所述第三閾值大于第四閾值。
通過本發(fā)明實(shí)施例二和實(shí)施例三的方案,根據(jù)實(shí)施例一中已確定的站點(diǎn)的領(lǐng)域信息,可以判定站點(diǎn)之間的相關(guān)性以及頁面與站點(diǎn)之間的相關(guān)性,有效地提高了相關(guān)性判定的準(zhǔn)確性。實(shí)施例四如圖4所示,為本發(fā)明實(shí)施例四中確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的設(shè)備結(jié)構(gòu)示意圖,包括頁面確定模塊11、第一似然度確定模塊12和領(lǐng)域信息確定模塊13,其中頁面確定模塊11用于確定站點(diǎn)內(nèi)的多個(gè)頁面;第一似然度確定模塊12用于針對(duì)每一頁面,確定該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度;領(lǐng)域信息確定模塊13用于根據(jù)每個(gè)頁面對(duì)于各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。還包括訓(xùn)練模塊14,用于對(duì)預(yù)先確定的多個(gè)頁面進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個(gè)頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個(gè)主題之間似然度的關(guān)系,訓(xùn)練模塊14可以采用PLAS算法對(duì)頁面進(jìn)行訓(xùn)練。
所述第一似然度確定模塊12具體用于針對(duì)每一頁面,利用確定的多個(gè)頁面中的每一頁面內(nèi)容分別與所述多個(gè)主題之間似然度的關(guān)系,確定該頁面與所述多個(gè)主題中的各主題的似然度。所述領(lǐng)域信息確定模塊13具體用于根據(jù)每個(gè)頁面對(duì)于各主題的似然度,得到每個(gè)頁面的似然向量,所述似然向量的維度等于所述預(yù)設(shè)數(shù)量,根據(jù)得到的每個(gè)頁面的似然向量確定至少一個(gè)高斯分布,以及確定每個(gè)高斯分布的參數(shù),將確定的參數(shù)作為站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,確定高斯分布參數(shù)的方式包括但不限于EM算法。本發(fā)明實(shí)施例四中的確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的設(shè)備還具有能夠?qū)崿F(xiàn)實(shí)施例一中各步驟的功能模塊,此處不再贅述。實(shí)施例五如圖5所示,為本發(fā)明實(shí)施例五中確定站點(diǎn)之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖,包括頁面生成模塊21、第二似然度確定模塊22、第一相關(guān)度確定模塊23和領(lǐng)域信息確定模塊24,其中頁面生成模塊21用于生成M個(gè)屬于第一站點(diǎn)的頁面,所述M個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第一閾值,所述M為正整數(shù);第二似然度確定模塊22用于確定生成的M個(gè)頁面中,每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度;第一相關(guān)度確定模塊23用于根據(jù)每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)度;領(lǐng)域信息確定模塊24用于針對(duì)屬于屬于同一站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定頁面所屬站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。本實(shí)施例中的領(lǐng)域信息確定模塊24可以是具有實(shí)施例四中的確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的設(shè)備各項(xiàng)功能的功能模塊。所述第一相關(guān)度確定模塊23具體用于若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表不的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息;若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,則確定第一站點(diǎn)的領(lǐng)域信息和第二站點(diǎn)的領(lǐng)域信息相關(guān);若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第二門限值,則確定第一站點(diǎn)的領(lǐng)域信息和第二站點(diǎn)的領(lǐng)域信息不相關(guān),所述第一門限值大于第二門限值。所述頁面生成模塊21還用于在確定第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息時(shí),生成N個(gè)屬于第二站點(diǎn)的頁面,所述N個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第一閾值,N為正整數(shù);所述第二似然度確定模塊22還用于確定生成的N個(gè)頁面中,每個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度;所述第一相關(guān)度確定模塊23還用于若對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表不的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息重合。本發(fā)明實(shí)施例五中的確定站點(diǎn)之間相關(guān)性的設(shè)備還具有能夠?qū)崿F(xiàn)實(shí)施例二中各步驟的功能模塊,此處不再贅述。 實(shí)施例六如圖6所示,為本發(fā)明實(shí)施例六中確定頁面與站點(diǎn)之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖,包括主題確定模塊31、第三似然度確定模塊32、第二相關(guān)度確定模塊33和領(lǐng)域信息確定模塊34,其中主題確定模塊31用于確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題;第三似然度確定模塊32用于確定待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度;第二相關(guān)度確定模塊33用于根據(jù)待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點(diǎn)之間的相關(guān)度;領(lǐng)域信息確定模塊34用于針對(duì)站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。本實(shí)施例中的領(lǐng)域信息確定模塊34可以是具有實(shí)施例四中的確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的設(shè)備各項(xiàng)功能的功能模塊。第二相關(guān)度確定模塊33具體用于若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第三閾值,則確定所述待比較頁面從屬于所述站點(diǎn);若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則確定所述待比較頁面和所述站點(diǎn)相關(guān);若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則確定所述待比較頁面和所述站點(diǎn)不相關(guān),所述第三閾值大于第四閾值。本發(fā)明實(shí)施例六中的確定頁面與站點(diǎn)之間相關(guān)性的設(shè)備還具有能夠?qū)崿F(xiàn)實(shí)施例三中各步驟的功能模塊,此處不再贅述。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu) 選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的方法,其特征在于,所述方法包括 確定站點(diǎn)內(nèi)的多個(gè)頁面,針對(duì)每一頁面,確定該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度; 根據(jù)每個(gè)頁面對(duì)于各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。
2.如權(quán)利要求I所述的方法,其特征在于,確定站點(diǎn)內(nèi)的多個(gè)頁面之前,所述方法還包括 對(duì)預(yù)設(shè)的多個(gè)頁面進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個(gè)頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個(gè)主題之間似然度的關(guān)系; 針對(duì)每一頁面,確定該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,具體包括 針對(duì)每一頁面,利用確定的多個(gè)頁面中的每一頁面內(nèi)容分別與所述多個(gè)主題之間似然度的關(guān)系,確定該頁面與所述多個(gè)主題中的各主題的似然度。
3.如權(quán)利要求I所述的方法,其特征在于,根據(jù)每個(gè)頁面對(duì)于各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,具體包括 根據(jù)每個(gè)頁面對(duì)于各主題的似然度,得到每個(gè)頁面的似然向量,所述似然向量的維度等于所述預(yù)設(shè)數(shù)量; 根據(jù)得到的每個(gè)頁面的似然向量確定至少一個(gè)高斯分布; 確定每個(gè)高斯分布的參數(shù),并將確定的參數(shù)作為站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。
4.如權(quán)利要求3所述的方法,其特征在于,所述高斯分布的參數(shù)包括高斯分布的中點(diǎn)、方差以及該高斯分布的權(quán)重。
5.一種確定站點(diǎn)之間相關(guān)性的方法,其特征在于,所述方法包括 生成M個(gè)屬于第一站點(diǎn)的頁面,所述M個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù); 確定生成的M個(gè)頁面中,每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度; 根據(jù)每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)度; 其中,第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息和第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是通過以下方式確定的針對(duì)屬于屬于同一站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定頁面所屬站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。
6.如權(quán)利要求5所述的方法,其特征在于,確定第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)度,具體包括 若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息; 若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,則確定第一站點(diǎn)的領(lǐng)域信息和第二站點(diǎn)的領(lǐng)域信息相關(guān); 若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第二門限值,則確定第一站點(diǎn)的領(lǐng)域信息和第二站點(diǎn)的領(lǐng)域信息不相關(guān);所述第一門限值大于第二門限值。
7.如權(quán)利要求6所述的方法,其特征在于,在確定第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息時(shí),所述方法還包括 生成N個(gè)屬于第二站點(diǎn)的頁面,所述N個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,N為正整數(shù); 確定生成的N個(gè)頁面中,每個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度; 若對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息重合。
8.一種確定頁面與站點(diǎn)之間相關(guān)性的方法,其特征在于,所述方法包括 確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題; 確定待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度; 根據(jù)待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點(diǎn)之間的相關(guān)度; 其中,站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是通過以下方式確定的 針對(duì)站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。
9.如權(quán)利要求8所述的方法,其特征在于,根據(jù)待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點(diǎn)之間的相關(guān)度,具體包括 若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第三閾值,則所述待比較頁面從屬于所述站點(diǎn); 若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則確定所述待比較頁面和所述站點(diǎn)相關(guān); 若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則確定所述待比較頁面和所述站點(diǎn)不相關(guān); 所述第三閾值大于第四閾值。
10.一種確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息的設(shè)備,其特征在于,包括 頁面確定模塊,用于確定站點(diǎn)內(nèi)的多個(gè)頁面; 第一似然度確定模塊,用于針對(duì)每一頁面,確定該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度; 領(lǐng)域信息確定模塊,用于根據(jù)每個(gè)頁面對(duì)于各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信肩、O
11.如權(quán)利要求10所述的設(shè)備,其特征在于,還包括 訓(xùn)練模塊,用于對(duì)預(yù)先確定的多個(gè)頁面進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個(gè)頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個(gè)主題之間似然度的關(guān)系; 第一似然度確定模塊,具體用于針對(duì)每一頁面,利用確定的多個(gè)頁面中的每一頁面內(nèi)容分別與所述多個(gè)主題之間似然度的關(guān)系,確定該頁面與所述多個(gè)主題中的各主題的似然度。
12.如權(quán)利要求10所述的設(shè)備,其特征在于,領(lǐng)域信息確定模塊,具體用于根據(jù)每個(gè)頁面對(duì)于各主題的似然度,得到每個(gè)頁面的似然向量,所述似然向量的維度等于所述預(yù)設(shè)數(shù)量,根據(jù)得到的每個(gè)頁面的似然向量確定至少一個(gè)高斯分布,以及確定每個(gè)高斯分布的參數(shù),將確定的參數(shù)作為站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。
13.一種確定站點(diǎn)之間相關(guān)性的設(shè)備,其特征在于,確定站點(diǎn)之間相關(guān)性的設(shè)備包括 頁面生成模塊,用于生成M個(gè)屬于第一站點(diǎn)的頁面,所述M個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù); 第二似然度確定模塊,用于確定生成的M個(gè)頁面中,每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度; 第一相關(guān)度確定模塊,用于根據(jù)每個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點(diǎn)和第二站點(diǎn)之間的相關(guān)度; 領(lǐng)域信息確定模塊,用于針對(duì)屬于屬于同一站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定頁面所屬站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。
14.如權(quán)利要求13所述的確定站點(diǎn)之間相關(guān)性的設(shè)備,其特征在于, 第一相關(guān)度確定模塊,具體用于若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息;若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,則確定第一站點(diǎn)的領(lǐng)域信息和第二站點(diǎn)的領(lǐng)域信息相關(guān);若對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第二門限值,則確定第一站點(diǎn)的領(lǐng)域信息和第二站點(diǎn)的領(lǐng)域信息不相關(guān),所述第一門限值大于第二門限值。
15.如權(quán)利要求14所述的確定站點(diǎn)之間相關(guān)性的設(shè)備,其特征在于, 頁面生成模塊,還用于在確定第一站點(diǎn)的領(lǐng)域信息從屬于第二站點(diǎn)的領(lǐng)域信息時(shí),生成N個(gè)屬于第二站點(diǎn)的頁面,所述N個(gè)頁面對(duì)于第二站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,N為正整數(shù); 第二似然度確定模塊,還用于確定生成的N個(gè)頁面中,每個(gè)頁面對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度; 第一相關(guān)度確定模塊,還用于若對(duì)于第一站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點(diǎn)的領(lǐng)域信息與第二站點(diǎn)的領(lǐng)域信息重合。
16.—種確定頁面與站點(diǎn)之間相關(guān)性的設(shè)備,其特征在于,確定頁面與站點(diǎn)之間相關(guān)性的設(shè)備包括 主題確定模塊,用于確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題; 第三似然度確定模塊,用于確定待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度; 第二相關(guān)度確定模塊,用于根據(jù)待比較頁面對(duì)于所述站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點(diǎn)之間的相關(guān)度; 領(lǐng)域信息確定模塊,用于針對(duì)站點(diǎn)內(nèi)的每個(gè)頁面,根據(jù)該頁面對(duì)于預(yù)設(shè)數(shù)量的多個(gè)主題中的各主題的似然度,確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息。
17.如權(quán)利要求16所述的確定頁面與站點(diǎn)之間相關(guān)性的設(shè)備,其特征在于,第二相關(guān)度確定模塊,具體用于若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題 的似然度大于第三閾值,則確定所述待比較頁面從屬于所述站點(diǎn);若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則確定所述待比較頁面和所述站點(diǎn)相關(guān);若待比較頁面對(duì)于站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則確定所述待比較頁面和所述站點(diǎn)不相關(guān),所述第三閾值大于第四閾值。
全文摘要
本發(fā)明公開了一種確定站點(diǎn)的領(lǐng)域信息以及相關(guān)性判定方法、系統(tǒng)及設(shè)備,主要內(nèi)容包括針對(duì)站點(diǎn)內(nèi)的每一頁面,確定該頁面相對(duì)于預(yù)設(shè)的多個(gè)主題中每個(gè)主題的似然度,并根據(jù)每個(gè)頁面對(duì)于各主題的似然度來表示頁面所屬站點(diǎn)的主題分布,進(jìn)而來確定站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息,由于預(yù)設(shè)的主題數(shù)量可以很高,因此,根據(jù)站點(diǎn)內(nèi)各頁面與每個(gè)預(yù)設(shè)的主題之間的似然度關(guān)系確定的頁面所表示的主題數(shù)量可以是海量的,使得最終確定的站點(diǎn)對(duì)應(yīng)的領(lǐng)域信息是細(xì)粒度、準(zhǔn)確的領(lǐng)域信息,進(jìn)而提高利用領(lǐng)域信息對(duì)站點(diǎn)之間、站點(diǎn)與頁面之間相關(guān)性判定的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK102779120SQ20111011808
公開日2012年11月14日 申請(qǐng)日期2011年5月9日 優(yōu)先權(quán)日2011年5月9日
發(fā)明者張子云 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司