基于用戶訪問(wèn)內(nèi)容的實(shí)時(shí)個(gè)性化信息采集方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于用戶訪問(wèn)內(nèi)容的實(shí)時(shí)個(gè)性化信息采集方法。
【背景技術(shù)】
[0002] 隨著家庭環(huán)境中智能手機(jī)、平板電腦等終端產(chǎn)品的增加,各種多媒體數(shù)據(jù)的豐富, 用戶已逐漸建立起對(duì)智能終端設(shè)備的使用習(xí)慣。然而隨著終端產(chǎn)品的增加,網(wǎng)絡(luò)信息的增 長(zhǎng)也極為迅速,海量的信息可以為用戶提供豐富信息資源的同時(shí),也對(duì)用戶如何快速?gòu)男?息海洋中獲取所需信息提出了挑戰(zhàn)。根據(jù)用戶訪問(wèn)內(nèi)容進(jìn)行的實(shí)時(shí)個(gè)性化信息采集成為大 數(shù)據(jù)背景下一個(gè)重要課題,對(duì)后續(xù)的數(shù)據(jù)分析和挖掘具有至關(guān)重要的推動(dòng)意義。
[0003] 現(xiàn)今常用的根據(jù)主題定向抓取網(wǎng)頁(yè)資源的技術(shù)為聚焦爬蟲(chóng)技術(shù),通用聚焦爬蟲(chóng)的 目標(biāo)是根據(jù)事先選定的主題來(lái)人工設(shè)定主題關(guān)鍵字和種子鏈接,從而盡可能多地采集相關(guān) 頁(yè)面,這會(huì)消耗非常多的系統(tǒng)資源、網(wǎng)絡(luò)帶寬,處理速度慢。并且現(xiàn)今的聚焦爬蟲(chóng)技術(shù)主要 采用基于內(nèi)容評(píng)價(jià)的主題爬行策略,忽略了鏈接信息的作用,預(yù)測(cè)鏈接價(jià)值的能力較差。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的就是為了解決上述問(wèn)題,提供一種基于用戶訪問(wèn)內(nèi)容的實(shí)時(shí)個(gè)性化 信息采集方法,它通過(guò)分析用戶網(wǎng)絡(luò)請(qǐng)求實(shí)時(shí)獲取用戶訪問(wèn)鏈接,結(jié)合內(nèi)容評(píng)價(jià)和鏈接結(jié) 構(gòu)準(zhǔn)確快速爬取與主題相關(guān)的有效子鏈接,并建立鏈接主題分類庫(kù)對(duì)采集的鏈接進(jìn)行主題 分類、重要性排序和內(nèi)容存儲(chǔ)。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0006] -種基于用戶訪問(wèn)內(nèi)容的實(shí)時(shí)個(gè)性化信息采集方法,包括如下步驟:
[0007] 步驟(1):通過(guò)實(shí)時(shí)分析用戶網(wǎng)絡(luò)請(qǐng)求獲取當(dāng)前種子頁(yè)面,并提取網(wǎng)頁(yè)的結(jié)構(gòu)化 信息;
[0008] 步驟(2):根據(jù)網(wǎng)頁(yè)的結(jié)構(gòu)化信息從多角度提取主題關(guān)鍵詞;組成主題關(guān)鍵詞詞 條;
[0009] 步驟(3):提取當(dāng)前種子頁(yè)面的子鏈接的錨文本,依據(jù)主題關(guān)鍵詞詞條對(duì)錨文本 進(jìn)行分詞,并依據(jù)分詞后的結(jié)果建立向量空間模型,根據(jù)向量空間模型利用余弦定理計(jì)算 子鏈接與當(dāng)前種子頁(yè)面的主題相關(guān)性;并把主題相關(guān)性大于設(shè)定閾值的子鏈接判定為有效 子鏈接;
[0010] 步驟(4):建立鏈接主題分類庫(kù),進(jìn)行種子鏈接優(yōu)先級(jí)設(shè)定和當(dāng)前種子鏈接主題 分類;
[0011] 步驟(5):計(jì)算鏈接主題分類庫(kù)中所有子鏈接的重要性,并依據(jù)重要性對(duì)子鏈接 進(jìn)行排序,并進(jìn)行排序后所有子鏈接所對(duì)應(yīng)的頁(yè)面信息的下載和數(shù)據(jù)存儲(chǔ)。
[0012] 所述步驟(1):實(shí)時(shí)獲取用戶網(wǎng)絡(luò)請(qǐng)求,并從所述網(wǎng)絡(luò)請(qǐng)求中提取統(tǒng)一資源定位 符URL (Uniform Resource Locator,是互聯(lián)網(wǎng)標(biāo)準(zhǔn)資源的地址),根據(jù)URL下載對(duì)應(yīng)網(wǎng)頁(yè)作 為當(dāng)前種子頁(yè)面,并提取網(wǎng)頁(yè)的結(jié)構(gòu)化信息;
[0013] 所述步驟(2):對(duì)步驟(1)的網(wǎng)頁(yè)的結(jié)構(gòu)化信息進(jìn)行分詞操作,獲得所有候選關(guān)鍵 詞,從統(tǒng)計(jì)分析、結(jié)構(gòu)分析和語(yǔ)言分析三個(gè)方面分別計(jì)算每個(gè)候選關(guān)鍵詞的權(quán)值,并選取權(quán) 值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞;將選取出來(lái)的主題關(guān)鍵詞組成主題關(guān)鍵詞詞條, 將選取出來(lái)的主題關(guān)鍵詞相對(duì)應(yīng)的權(quán)值組成特征向量;
[0014] 所述步驟⑶:爬取種子頁(yè)面中所有子鏈接,提取每個(gè)子鏈接的錨文本,將步驟 (2)的主題關(guān)鍵詞詞條作為詞庫(kù)對(duì)錨文本進(jìn)行分詞,根據(jù)錨文本分詞后的詞對(duì)應(yīng)的詞頻獲 取相應(yīng)子鏈接的特征向量,組成向量空間模型,根據(jù)向量空間模型利用余弦定理計(jì)算子鏈 接與當(dāng)前種子頁(yè)面的主題相關(guān)性;并把主題相關(guān)性大于設(shè)定閾值的子鏈接判定為有效子鏈 接;
[0015] 所述步驟(4):建立鏈接主題分類庫(kù),進(jìn)行種子鏈接優(yōu)先級(jí)設(shè)定和當(dāng)前種子鏈接 主題分類:
[0016] 進(jìn)行種子鏈接優(yōu)先級(jí)設(shè)定,并利用當(dāng)前鏈接主題分類庫(kù)對(duì)當(dāng)前種子鏈接進(jìn)行匹 配,
[0017] 如果種子鏈接屬于當(dāng)前鏈接主題分類庫(kù),則將步驟(3)提取的有效子鏈接存入當(dāng) 前鏈接主題分類庫(kù)并跳轉(zhuǎn)執(zhí)行步驟(1);
[0018] 如果種子鏈接不屬于當(dāng)前鏈接主題分類庫(kù),則根據(jù)種子鏈接建立新的鏈接主題分 類庫(kù),并執(zhí)行步驟(5);
[0019] 所述步驟(5):根據(jù)步驟(3)的子鏈接與當(dāng)前種子頁(yè)面的主題相關(guān)性和步驟(4) 的當(dāng)前種子鏈接優(yōu)先級(jí),計(jì)算當(dāng)前鏈接主題分類庫(kù)中所有子鏈接的重要性,根據(jù)重要性對(duì) 鏈接主題分類庫(kù)中的所有URL進(jìn)行排序,并進(jìn)行排序后相應(yīng)頁(yè)面信息的下載和數(shù)據(jù)存儲(chǔ)。
[0020] 所述步驟⑴的網(wǎng)頁(yè)的結(jié)構(gòu)化信息包括:網(wǎng)頁(yè)的標(biāo)題、簡(jiǎn)介和正文。
[0021] 所述步驟(2)的步驟為:
[0022] 步驟(2-1):對(duì)標(biāo)題、簡(jiǎn)介和正文進(jìn)行分詞操作,去除干擾詞匯,最終獲得所有候 選關(guān)鍵詞;
[0023] 步驟(2-2):統(tǒng)計(jì)所有候選關(guān)鍵詞的屬性信息,并將所有候選關(guān)鍵詞的屬性信息 存儲(chǔ);所述屬性信息包括:包括詞頻、詞位置、詞跨度、詞長(zhǎng)和詞性;
[0024] 步驟(2-3):從統(tǒng)計(jì)分析、結(jié)構(gòu)分析和語(yǔ)言分析三個(gè)方面分別計(jì)算每個(gè)候選關(guān)鍵 詞的權(quán)重參數(shù),根據(jù)每個(gè)候選關(guān)鍵詞的權(quán)重參數(shù),確定每個(gè)候選關(guān)鍵詞的權(quán)值Score (X1), 并選取權(quán)值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞,將選取出來(lái)的主題關(guān)鍵詞組成主題關(guān)鍵 詞詞條,將選取出來(lái)的主題關(guān)鍵詞相對(duì)應(yīng)的權(quán)值組成特征向量。
[0025] 所述步驟(2-1)中干擾詞匯包括停用詞、合并數(shù)字和人名;
[0026] 所述步驟(2-2)的所有候選關(guān)鍵詞的屬性信息存儲(chǔ)到哈希表wordMap中,其中key 為候選關(guān)鍵詞,value為自定義的詞信息結(jié)構(gòu)對(duì)象,存儲(chǔ)每個(gè)候選關(guān)鍵詞的屬性信息。
[0027] 所述步驟(2-3)中,從統(tǒng)計(jì)分析方面計(jì)算每個(gè)候選關(guān)鍵詞的權(quán)重參數(shù):
[0028] 利用詞頻加權(quán)函數(shù)Tf (X1)計(jì)算當(dāng)前種子頁(yè)面中候選關(guān)鍵詞X1的詞頻權(quán)重T f (X1);
[0029] 計(jì)算公式為:
[0030]
LlN 丄UOldSOOS A I ^ ?V <
[0031] 其中Ii1是候選關(guān)鍵詞出現(xiàn)的次數(shù),而分母
是所有k個(gè)候選關(guān)鍵詞的出現(xiàn)次數(shù) 之和。
[0032] 所述步驟(2-3)中,從結(jié)構(gòu)分析方面計(jì)算每個(gè)候選關(guān)鍵詞的權(quán)重參數(shù):
[0033] a利用詞位置加權(quán)函數(shù)計(jì)算候選關(guān)鍵詞Xi的詞位置權(quán)重Loc (X ;);
[0034] 計(jì)算公式為:
[0035] Loc (Xi) = tloc;
[0036] t。。是詞位置加權(quán)函數(shù)Loc (X ;) = t。。的一個(gè)系數(shù),表示詞語(yǔ)出現(xiàn)的位置。
[0037] b利用詞跨度加權(quán)函數(shù)計(jì)算候選關(guān)鍵詞X1的詞跨度權(quán)重Spa(X J ;
[0038] 計(jì)算公式為:
[0039]
[0040] 其中,I1表示詞語(yǔ)出現(xiàn)的段落數(shù)量,L表示段落總數(shù)。
[0041] 所述步驟(2-3)中,從語(yǔ)言分析方面計(jì)算每個(gè)候選關(guān)鍵詞的權(quán)重參數(shù):
[0042] c利用詞長(zhǎng)加權(quán)函數(shù)計(jì)算候選關(guān)鍵詞的詞長(zhǎng)權(quán)重Len(X1);
[0043] 計(jì)算公式為:
[0044]
[0045] 其中,Ien (Xi)表示候選關(guān)鍵詞Xi的實(shí)際詞長(zhǎng),分母Max(len(X丨),Ien(X2),…,Ien(X k)) 表示k個(gè)候選關(guān)鍵詞中詞長(zhǎng)最長(zhǎng)的長(zhǎng)度;len (Xk)表示第k個(gè)候選關(guān)鍵詞中詞長(zhǎng)的長(zhǎng)度。
[0046] d利用詞性加權(quán)函數(shù)計(jì)算候選關(guān)鍵詞的詞性權(quán)重Pos (Xi);
[0047] 計(jì)算公式為:
[0048] Pos(X1) = tpos;
[0049] 其中,tp。^詞性加權(quán)函數(shù)Pos(x J = tpcis的一個(gè)系數(shù),表示詞性。
[0050] 所述步驟(2-3)中,根據(jù)每個(gè)候選關(guān)鍵詞的權(quán)重參數(shù),確定每個(gè)候選關(guān)鍵詞的權(quán) 值Score (Xi)的計(jì)算公式為:
[0051] Score (Xi) = Tf (Xi) X (1+Loc (Xi) +Spa (Xi) +Len (Xi) +Pos (Xi)) 〇
[0052] 選取權(quán)值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞,將選取出來(lái)的主題關(guān)鍵詞組成主 題關(guān)鍵詞詞條β = (XdX2,...,Xn),將選取出來(lái)的主題關(guān)鍵詞相對(duì)應(yīng)的權(quán)值組成特征向量 a = (Wl,W2,…,Wn)。Xr^示所有的主題關(guān)鍵詞,w η表示所有對(duì)應(yīng)