一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)信息處理領(lǐng)域,具體是一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方 法。
【背景技術(shù)】
[0002] 由于互聯(lián)網(wǎng)傳播新聞信息上有著與生倶來(lái)的優(yōu)勢(shì),Web新聞日益成為人們獲取信 息的主要方式。由于Web新聞信息量過(guò)于龐大,并具有變化快的特點(diǎn),這使得獲得領(lǐng)域主 題相關(guān)的Web新聞變得困難,互聯(lián)網(wǎng)用戶(hù)和相關(guān)應(yīng)用迫切需要一種面向領(lǐng)域主題的Web新 聞動(dòng)態(tài)聚合方法。領(lǐng)域是指意識(shí)形態(tài)或社會(huì)活動(dòng)的范圍。如:思想領(lǐng)域、學(xué)術(shù)領(lǐng)域、生活領(lǐng) 域、科學(xué)領(lǐng)域。主題是指用戶(hù)在表達(dá)思想、說(shuō)明問(wèn)題或反映社會(huì)生活時(shí),通過(guò)關(guān)鍵詞的集合 所體現(xiàn)出來(lái)的基本思想和興趣傾向。Web新聞是指互聯(lián)網(wǎng)媒體所傳播的新近發(fā)生事實(shí)的報(bào) 道。動(dòng)態(tài)聚合是指由用戶(hù)或應(yīng)用提供領(lǐng)域主題,實(shí)時(shí)動(dòng)態(tài)獲取多源相關(guān)的信息集合,并根據(jù) 信息的受歡迎程度決定其排序的一種互動(dòng)機(jī)制,其目的在于提供一種方便、高效的互聯(lián)網(wǎng) 信息的獲取和共享方式。
[0003]目前,進(jìn)行Web新聞聚合的主要方法和技術(shù)手段有搜索引擎技術(shù)和RSS(Really SimpleSyndication)技術(shù)。
[0004] 搜索引擎能夠從互聯(lián)網(wǎng)上自動(dòng)收集信息,并提供查詢(xún)服務(wù),為用戶(hù)提供了一種檢 索領(lǐng)域主題相關(guān)新聞的手段。然而存在以下不足:(l)Web信息覆蓋率比較低。這主要是由 于網(wǎng)頁(yè)收集機(jī)制功能不夠強(qiáng)大,尚無(wú)法實(shí)現(xiàn)對(duì)所有網(wǎng)頁(yè)的信息收集。(2)信息查準(zhǔn)率不夠 高。這主要與各搜索引擎所采取的索引機(jī)制、相關(guān)度評(píng)價(jià)模型以及相關(guān)度評(píng)價(jià)標(biāo)準(zhǔn)有關(guān)。 (3)難以滿(mǎn)足面向領(lǐng)域主題的檢索需求。垂直搜索可針對(duì)某一特定領(lǐng)域、某一特定人群或某 一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。相對(duì)通用搜索引擎的信息量大、查詢(xún)不 準(zhǔn)確、深度不夠的服務(wù)模式,垂直搜索引擎一般都提供了比較精準(zhǔn)或者細(xì)化的搜索服務(wù)。其 特點(diǎn)就是"專(zhuān)、精、深",且具有行業(yè)特色,相比較通用搜索引擎的海量信息無(wú)序化,垂直搜索 引擎則更加專(zhuān)注、具體和深入。由于垂直搜索引擎本身的信息量小,它不可能取代通用搜索 引擎。但是,它是對(duì)通用搜索的很好的補(bǔ)充。元搜索引擎是一種Web上的信息檢索的軟件 系統(tǒng),其通過(guò)將自身的查詢(xún)請(qǐng)求轉(zhuǎn)發(fā)給其它搜索引擎,再通過(guò)必要的中間處理過(guò)程,將各搜 索引擎返回的結(jié)果集按一定的方案進(jìn)行融合并顯示給用戶(hù)。從理論上講。元搜索引擎可以 解決獨(dú)立搜索引擎本身幾乎不可能解決的查全率低的問(wèn)題,并且在個(gè)性化服務(wù)和靈活性等 方面都優(yōu)于獨(dú)立搜索引擎。但元搜索引擎在檢索原理和機(jī)制上也未解決有效滿(mǎn)足具體用戶(hù) 的領(lǐng)域主題檢索需求的問(wèn)題。
[0005] 另一類(lèi)解決該難題的途徑是以RSS技術(shù)為代表的"推"的技術(shù)。RSS是一種用于 共享新聞和其他Web內(nèi)容的數(shù)據(jù)交換規(guī)范。用戶(hù)通過(guò)專(zhuān)用的RSS終端(稱(chēng)為新聞聚合器, Aggregation)對(duì)感興趣的頻道進(jìn)行訂閱,從而實(shí)現(xiàn)有用信息的聚合。RSS在一定程度上為 用戶(hù)的信息獲取提供了便利,但仍存在一些不足。首先,這種基于RSS的新聞聚合,其實(shí)只 是簡(jiǎn)單地將訂閱的新聞放在一起,是一種簡(jiǎn)易的信息聚合技術(shù)。其次,因?yàn)橛嗛喌男侣効梢?來(lái)自不同的網(wǎng)站,它具有一定的內(nèi)容多樣性,但這種多樣性相對(duì)于海量Web新聞本身固有 的多樣性而言,有明顯的局限性。另外,RSS聚合技術(shù)面向用戶(hù)興趣有一定的針對(duì)性,但這 種針對(duì)性明顯不足,用戶(hù)需要某一特定內(nèi)容的新聞時(shí),需在聚合結(jié)果中手動(dòng)查找,這仍是一 項(xiàng)費(fèi)時(shí)費(fèi)力的工作。
[0006] 因此,Web新聞聚合,不能是簡(jiǎn)單地將新聞放在一起。為了更好地滿(mǎn)足各類(lèi)應(yīng)用系 統(tǒng)和用戶(hù)的需求,我們需要一種能聚合用戶(hù)領(lǐng)域主題的Web新聞的方法和系統(tǒng)。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是提供一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,依托垂直搜索 引擎、元搜索引擎、領(lǐng)域建模、信息抽取、內(nèi)容排序技術(shù),可以從海量Web新聞中為用戶(hù)和應(yīng) 用系統(tǒng)提供面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合服務(wù),解決了搜索引擎技術(shù)在處理Web新聞 動(dòng)態(tài)聚合問(wèn)題時(shí)信息覆蓋率低、信息查準(zhǔn)率低、難以滿(mǎn)足面向領(lǐng)域主題的檢索需求的問(wèn)題, 以及RSS技術(shù)在處理Web新聞動(dòng)態(tài)聚合問(wèn)題時(shí)信息多樣性不足、信息針對(duì)性不足的問(wèn)題。
[0008]為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案為:
[0009]一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:包括以下步驟:
[0010] (1)、用戶(hù)或應(yīng)用程序通過(guò)用戶(hù)終端將主題信息發(fā)送給服務(wù)器;
[0011] (2)、服務(wù)器接收用戶(hù)或應(yīng)用程序發(fā)送的主題信息,獲取基于垂直搜索引擎模塊得 到的搜索記錄列表;
[0012](3)、服務(wù)器獲取元搜索引擎的搜索結(jié)果頁(yè)面;
[0013](4)、服務(wù)器獲取搜索記錄列表:根據(jù)搜索記錄抽取方法,抽取元搜索引擎返回的 搜索結(jié)果頁(yè)面,抽取搜索結(jié)果頁(yè)面中的每條搜索記錄,合并垂直搜索引擎模塊得到的搜索 記錄列表,得到由垂直搜索引擎和元搜索引擎獲得的所有搜索記錄,形成搜索記錄列表;
[0014](5)、服務(wù)器獲取去重的搜索記錄列表:根據(jù)搜索記錄去重方法,對(duì)搜索記錄列表 進(jìn)行去重,得到去重后的搜索記錄列表;
[0015](6)、服務(wù)器獲取新聞網(wǎng)頁(yè)搜索記錄列表:根據(jù)Web新聞網(wǎng)頁(yè)識(shí)別方法,過(guò)濾搜索 記錄列表中的非新聞網(wǎng)頁(yè)搜索記錄,得到新聞網(wǎng)頁(yè)搜索記錄列表;
[0016](7)、服務(wù)器獲取結(jié)構(gòu)化新聞列表:根據(jù)結(jié)構(gòu)化新聞抽取方法,對(duì)新聞網(wǎng)頁(yè)搜索列 表進(jìn)行處理,獲得結(jié)構(gòu)化新聞列表;
[0017](8)、服務(wù)器獲取有序的結(jié)構(gòu)化新聞列表:根據(jù)指定領(lǐng)域的Web新聞?wù)Z料和領(lǐng)域建 模方法,建立領(lǐng)域模型,根據(jù)基于領(lǐng)域模型的排序方法對(duì)結(jié)構(gòu)化新聞列表進(jìn)行排序,得到有 序結(jié)構(gòu)化新聞列表;
[0018](9)、服務(wù)器將有序的結(jié)構(gòu)化新聞列表作為面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合結(jié) 果發(fā)送到用戶(hù)終端。
[0019]所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(1) 中,所述用戶(hù)終端為手機(jī)或個(gè)人電腦,所述主題信息為關(guān)鍵詞列表。
[0020] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(2) 中,垂直搜索引擎模塊為:面向用戶(hù)預(yù)定義的領(lǐng)域站點(diǎn)列表,對(duì)相關(guān)領(lǐng)域站點(diǎn)進(jìn)行持續(xù)爬 取,根據(jù)用戶(hù)提供的主題,面向爬取的頁(yè)面進(jìn)行檢索;所述搜索記錄包括URL、標(biāo)題、摘要信 息。
[0021] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(3) 中,元搜索引擎為:根據(jù)元搜索引擎配置文件和用戶(hù)提供的主題,生成多個(gè)通用搜索引擎的 請(qǐng)求URL,并獲取多個(gè)通用搜索引擎生成的搜索結(jié)果頁(yè)面;其中元搜索引擎配置文件包括 調(diào)用哪些搜索引擎及調(diào)用方法、檢索時(shí)間限制、結(jié)果數(shù)量限制信息。
[0022] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(4) 中,搜索記錄抽取方法為:通過(guò)配置搜索記錄中URL、標(biāo)題、摘要各要素定位所需的CSS選擇 器,來(lái)完成對(duì)不同搜索結(jié)果頁(yè)面的抽取。
[0023] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(5) 中,搜索記錄去重方法為:依次取出搜索記錄列表中的每條搜索記錄,與搜索記錄列表中余 下的記錄依次進(jìn)行比對(duì);若當(dāng)前比對(duì)的記錄與取出記錄的URL相同,貝lj從搜索記錄列表中 移除當(dāng)前記錄;若當(dāng)前比對(duì)的記錄與取出記錄標(biāo)題的杰卡德距離超過(guò)預(yù)設(shè)定閾值,則從搜 索記錄列表中移除當(dāng)前記錄;若當(dāng)前比對(duì)的記錄與取出記錄摘要的杰卡德距離超過(guò)預(yù)設(shè)定 閾值,則從搜索記錄列表中移除當(dāng)前記錄。
[0024] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(6) 中,Web新聞網(wǎng)頁(yè)識(shí)別方法為:收集Web網(wǎng)頁(yè)訓(xùn)練數(shù)據(jù)集,將頁(yè)面數(shù)據(jù)集中的每個(gè)頁(yè)面標(biāo)注 上新聞或非新聞標(biāo)簽,根據(jù)網(wǎng)頁(yè)特征提取方法和構(gòu)建分類(lèi)器方法,構(gòu)建Web新聞網(wǎng)頁(yè)識(shí)別 器;對(duì)未知類(lèi)別的網(wǎng)頁(yè),根據(jù)網(wǎng)頁(yè)特征提取方法和Web新聞網(wǎng)頁(yè)識(shí)別器,識(shí)別出是新聞網(wǎng)頁(yè) 或非新聞網(wǎng)頁(yè);其中網(wǎng)頁(yè)特征提取方法能提取Web新聞網(wǎng)頁(yè)的URL特征、結(jié)構(gòu)特征和內(nèi)容特 征;其中構(gòu)建分類(lèi)器方法能針對(duì)有標(biāo)簽列的二維表數(shù)據(jù)構(gòu)建二類(lèi)分類(lèi)器。
[0025] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(7) 中,結(jié)構(gòu)化新聞包括URL、標(biāo)題、發(fā)布時(shí)間、來(lái)源網(wǎng)站、摘要、正文信息;
[0026] 結(jié)構(gòu)化新聞抽取方法為:輸入搜索記錄,根據(jù)搜索記錄中的URL獲得Web頁(yè)面,根 據(jù)Web新聞內(nèi)容抽取方法抽取Web頁(yè)面的標(biāo)題、發(fā)布時(shí)間、來(lái)源網(wǎng)站和正文,結(jié)合搜索記錄 中的URL和摘要信息,得到URL、標(biāo)題、發(fā)布時(shí)間、來(lái)源網(wǎng)站、摘要、正文信息六個(gè)結(jié)構(gòu)化新聞 要素;其中Web新聞內(nèi)容抽取方法是一種無(wú)需學(xué)習(xí)的在線內(nèi)容抽取方法。
[0027] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法,其特征在于:所述步驟(8) 中,指定領(lǐng)域的Web新聞?wù)Z料為Web新聞數(shù)據(jù)集,數(shù)據(jù)集中的每篇Web新聞均為與指定領(lǐng)域 相關(guān)的Web新聞;
[0028] 領(lǐng)域建模方法為:提取指定領(lǐng)域的Web新聞?wù)Z料的新聞內(nèi)容,再對(duì)提取的內(nèi)容進(jìn) 行分詞處理和詞頻統(tǒng)計(jì),剔除其中的停用詞,選取前N個(gè)高頻詞組成N維詞向量做為領(lǐng)域模 型,其中參數(shù)N由領(lǐng)域建模方法預(yù)先設(shè)定;
[0029] 基于領(lǐng)域模型的排序方法為:輸入結(jié)構(gòu)化新聞列表,對(duì)結(jié)構(gòu)化新聞列表中的每條 結(jié)構(gòu)化新聞,根據(jù)領(lǐng)域模型中特征和結(jié)構(gòu)化新聞中的正文建立新聞特征向量,計(jì)算新聞特 征向量和領(lǐng)域特征向量的相似度,利用信息檢索模型計(jì)算用戶(hù)主題信息提供的關(guān)鍵詞列表 和網(wǎng)頁(yè)的信息檢索相似度;對(duì)結(jié)構(gòu)化新聞列表中所有記錄,以和領(lǐng)域模型的相似度為第一 關(guān)鍵字,以結(jié)構(gòu)化新聞?dòng)涗浿邪l(fā)布時(shí)間為第二關(guān)鍵字,以信息檢索相似度為第三關(guān)鍵字,進(jìn) 行降序排序,得到有序