一種網(wǎng)頁(yè)評(píng)論內(nèi)容的抽取方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)?jiān)O(shè)及網(wǎng)頁(yè)信息分析處理技術(shù)領(lǐng)域,尤其是一種網(wǎng)頁(yè)評(píng)論內(nèi)容的抽取方法。
【背景技術(shù)】
[0002] 《2014年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)研究報(bào)告》顯示,我國(guó)網(wǎng)民使用網(wǎng)絡(luò)購(gòu)物的比例從 48.9%提升至55.7%??焖俜e累的海量產(chǎn)品評(píng)論信息是商家和消費(fèi)者進(jìn)行需求調(diào)研或購(gòu)物 決策的重要依據(jù),從大量的結(jié)構(gòu)迴異的網(wǎng)頁(yè)中快速準(zhǔn)確的抽取評(píng)論內(nèi)容已然成為一個(gè)亟待 解決的問(wèn)題。
[0003] 現(xiàn)有的網(wǎng)頁(yè)信息抽取的方法有很多種,大致可分為W下幾類:1、利用樹(shù)編輯距離 的方法來(lái)抽取信息,但此方法涵蓋大量的增、刪、改操作,計(jì)算冗余量大,抽取準(zhǔn)確率低。2、 基于視覺(jué)特征網(wǎng)頁(yè)分塊的方法抽取信息,但此方法局限性大,設(shè)定的數(shù)據(jù)區(qū)域塊面積闊值 過(guò)大的話,對(duì)于評(píng)論條數(shù)少的網(wǎng)頁(yè)不適用。3、基于最長(zhǎng)公共子串的方法,該方法在將D0M樹(shù) 轉(zhuǎn)化為標(biāo)簽串的過(guò)程中丟失了節(jié)點(diǎn)的位置信息,導(dǎo)致整體相似性偏高。4、基于簡(jiǎn)單樹(shù)匹配 的方法,該方法利用動(dòng)態(tài)規(guī)劃計(jì)算兩顆樹(shù)的最大匹配節(jié)點(diǎn)個(gè)數(shù)得到樹(shù)之間的相似度,過(guò)于 嚴(yán)苛要求子節(jié)點(diǎn)順序,導(dǎo)致評(píng)論節(jié)點(diǎn)對(duì)應(yīng)的子樹(shù)之間相似度偏低。
[0004] 現(xiàn)有的抽取方法:上海第二工業(yè)大學(xué)的申請(qǐng)?zhí)枮?00910198184.6,發(fā)明名稱為"一 種基于互聯(lián)網(wǎng)的模板抽取屬性和評(píng)論詞的方法"。該方法通過(guò)人工標(biāo)注獲取屬性模板,工作 量大且一旦網(wǎng)頁(yè)結(jié)構(gòu)改變,模板也需隨之改變,容易導(dǎo)致抽取效率低下。南京大學(xué)的申請(qǐng)?zhí)?為201310465730.4,發(fā)明名稱為"一種基于小樣本半監(jiān)督學(xué)習(xí)的網(wǎng)頁(yè)數(shù)據(jù)抽取方法"。該方 法需要大量的用戶手工選擇及標(biāo)注,過(guò)多的人為參與會(huì)導(dǎo)致成本的增加和時(shí)間花費(fèi)的增 加。大連靈動(dòng)科技發(fā)展有限公司的申請(qǐng)?zhí)枮?01210491471.8,發(fā)明名稱為"一種網(wǎng)頁(yè)結(jié)構(gòu)化 信息抽取方法"。該方法采用訓(xùn)練小部分網(wǎng)頁(yè)作為訓(xùn)練集,將其他網(wǎng)頁(yè)作為測(cè)試集,利用正 則表達(dá)式抽取其文本內(nèi)容。針對(duì)經(jīng)常變動(dòng)的網(wǎng)頁(yè)格式,正則表達(dá)式也需要隨之改變,給抽取 工作帶來(lái)了巨大的麻煩。
【發(fā)明內(nèi)容】
[0005] 為克服現(xiàn)有技術(shù)的缺陷,本申請(qǐng)?zhí)峁┮环N網(wǎng)頁(yè)評(píng)論內(nèi)容的抽取方法,降低時(shí)間復(fù) 雜度,提升抽取效率。
[0006] -種網(wǎng)頁(yè)評(píng)論內(nèi)容的抽取方法,包括W下步驟:獲取網(wǎng)頁(yè)源碼;將網(wǎng)頁(yè)源碼轉(zhuǎn)換成 D0M樹(shù)結(jié)構(gòu),基于位置、文本長(zhǎng)度和布局特征對(duì)D0M樹(shù)進(jìn)行剪枝預(yù)處理;通過(guò)深度加權(quán)子樹(shù)相 似度算法抽取最佳頻繁子樹(shù);通過(guò)樹(shù)的一致性對(duì)齊方法求出最小評(píng)論區(qū)域,然后通過(guò)路徑 文本長(zhǎng)度抽取最頻繁評(píng)論路徑并提取評(píng)論內(nèi)容。
[0007] 優(yōu)選的,通過(guò)深度加權(quán)子樹(shù)相似度算法抽取最佳頻繁子樹(shù),具體包括:建立深度加 權(quán)樹(shù),設(shè)定深度權(quán)重的葉子節(jié)點(diǎn)權(quán)值為1,逐層向上的父親節(jié)點(diǎn)深度依次加1; W樹(shù)節(jié)點(diǎn)的標(biāo) 簽作為關(guān)鍵詞,用相同標(biāo)簽的權(quán)值總和作為向量坐標(biāo),利用余弦向量算法構(gòu)建節(jié)點(diǎn)相似度 算法,計(jì)算節(jié)點(diǎn)相似度;從根節(jié)點(diǎn)層次遍歷整棵D0M樹(shù),計(jì)算當(dāng)前節(jié)點(diǎn)的相似度值sim(R),再 計(jì)算其所有孩子節(jié)點(diǎn)的相似度值;判斷根節(jié)點(diǎn)的相似度值是否同時(shí)滿足既大于預(yù)置的相似 度闊值又大于其所有孩子節(jié)點(diǎn)的相似度值;若滿足,停止遍歷,此時(shí)該根節(jié)點(diǎn)的所有孩子節(jié) 點(diǎn)構(gòu)成的孩子子樹(shù)即為最佳頻繁子樹(shù)。
[0008] 優(yōu)選的,當(dāng)前節(jié)點(diǎn)的相似度值sim(R)的計(jì)算式為:
[0009]
[0010] 其中,X康示子樹(shù)T1的節(jié)點(diǎn)標(biāo)簽向量,y康示子樹(shù)T2的節(jié)點(diǎn)標(biāo)簽向量,W和W分另懐 示XI和yi的權(quán)值,m表示根節(jié)點(diǎn)R的孩子節(jié)點(diǎn)個(gè)數(shù),Τι和T分別表示R的兩顆孩子子樹(shù),葉子節(jié) 點(diǎn)的相似度值為0,只有一個(gè)孩子節(jié)點(diǎn)滿足其父親節(jié)點(diǎn)的相似度值等于其孩子節(jié)點(diǎn)的相似 度值.
[0011] 優(yōu)選的,通過(guò)樹(shù)的一致性對(duì)齊方法求出最小評(píng)論區(qū)域,然后通過(guò)路徑文本長(zhǎng)度抽 取最頻繁評(píng)論路徑并提取評(píng)論內(nèi)容,具體包括:通過(guò)頻繁子樹(shù)對(duì)齊方法抽取最小評(píng)論區(qū)域, 計(jì)算子樹(shù)對(duì)齊值c(Ti),將子樹(shù)對(duì)齊值C(Ti)中最小值對(duì)應(yīng)的子樹(shù)作為最小評(píng)論區(qū)域;通過(guò) 路徑的文本長(zhǎng)度抽取最頻繁評(píng)論路徑,計(jì)算最小評(píng)論區(qū)域中每條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路 徑頻繁值L(pj),獲取最頻繁路徑并抽取評(píng)論內(nèi)容。
[0012] 優(yōu)選的,子樹(shù)對(duì)齊值C(Ti)的計(jì)算式為:
[0013]
[0014] 其中,Τι表示根節(jié)點(diǎn)下的第i棵子樹(shù),a表示第j個(gè)節(jié)點(diǎn)的對(duì)齊次數(shù),η表示該子樹(shù)的 節(jié)點(diǎn)總數(shù),t表示頻繁子樹(shù)的總棵樹(shù)。
[0015] 優(yōu)選的,葉子節(jié)點(diǎn)的路徑頻繁值L(pj)的計(jì)算式為:
[0016]
[0017]其中,P表示第j條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑,a表示該條路徑中葉子節(jié)點(diǎn)的對(duì)齊 次數(shù),t表示頻繁子樹(shù)的總棵樹(shù),len(Tk)表示第K棵子樹(shù)中該路徑包含的文本長(zhǎng)度,len(T) 表示所有頻繁子樹(shù)中該路徑包含的文本長(zhǎng)度總和。
[0018]本申請(qǐng)具有W下優(yōu)點(diǎn):(1)時(shí)間復(fù)雜度低,通過(guò)預(yù)剪枝處理能有效的剔除網(wǎng)頁(yè)中包 含的許多與評(píng)論內(nèi)容無(wú)關(guān)的噪音,如廣告、導(dǎo)航鏈接、版權(quán)信息等。降低時(shí)間復(fù)雜度,提高了 抽取效率;(2)抽取的準(zhǔn)確率高,通過(guò)深度加權(quán)子樹(shù)相似度度量方法能夠有效的抽取出最佳 頻繁子樹(shù),再結(jié)合后續(xù)的子樹(shù)一致性對(duì)齊算法和頻繁路徑抽取算法能精準(zhǔn)的定位評(píng)論路 徑,從而抽取評(píng)論內(nèi)容;(3)人工干預(yù)少,抽取過(guò)程全自動(dòng),不需要任何的人工標(biāo)注,減少了 人工標(biāo)注帶來(lái)的人力成本和時(shí)間花費(fèi);(4)適應(yīng)范圍廣,不用構(gòu)造抽取模板,無(wú)需考慮網(wǎng)頁(yè) 結(jié)構(gòu)變更帶來(lái)模板更新的麻煩。
【附圖說(shuō)明】
[0019]圖巧本申請(qǐng)的原理示意圖;
[0020]圖2為某一實(shí)施例中預(yù)剪枝處理示意圖;
[0021 ]圖3為某一實(shí)施例中抽取最佳頻繁子樹(shù)示意圖;
[0022] 圖4為某一實(shí)施例中抽取評(píng)論路徑示意圖;
[0023] 圖5為某一實(shí)施例中抽取評(píng)論內(nèi)容的結(jié)果示意圖。
【具體實(shí)施方式】
[0024] 下面通過(guò)【具體實(shí)施方式】結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0025] 如圖1所示,將來(lái)自不同平臺(tái)的網(wǎng)頁(yè),如京東、蘇寧等網(wǎng)頁(yè),通過(guò)ht化client工具包 模擬瀏覽器發(fā)送ht化協(xié)議,向網(wǎng)絡(luò)請(qǐng)求資源,最后獲取網(wǎng)頁(yè)源碼,再通過(guò)預(yù)處理模塊將一個(gè) 網(wǎng)頁(yè)解析成D0M樹(shù),通過(guò)節(jié)點(diǎn)位置、文本長(zhǎng)度、布局特征等視覺(jué)信息對(duì)D0M樹(shù)中的廣告、導(dǎo)航 欄、版權(quán)信息等噪聲進(jìn)行剪枝,從而降低樹(shù)操作的時(shí)間復(fù)雜度。通過(guò)解析模塊抽取最佳