一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法

文檔序號(hào)：9304632閱讀：344來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)信息處理領(lǐng)域，具體是一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法。
【背景技術(shù)】
[0002] 由于互聯(lián)網(wǎng)傳播新聞信息上有著與生倶來(lái)的優(yōu)勢(shì)，Web新聞日益成為人們獲取信息的主要方式。由于Web新聞信息量過(guò)于龐大，并具有變化快的特點(diǎn)，這使得獲得領(lǐng)域主題相關(guān)的Web新聞變得困難，互聯(lián)網(wǎng)用戶(hù)和相關(guān)應(yīng)用迫切需要一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法。領(lǐng)域是指意識(shí)形態(tài)或社會(huì)活動(dòng)的范圍。如：思想領(lǐng)域、學(xué)術(shù)領(lǐng)域、生活領(lǐng) 域、科學(xué)領(lǐng)域。主題是指用戶(hù)在表達(dá)思想、說(shuō)明問(wèn)題或反映社會(huì)生活時(shí)，通過(guò)關(guān)鍵詞的集合所體現(xiàn)出來(lái)的基本思想和興趣傾向。Web新聞是指互聯(lián)網(wǎng)媒體所傳播的新近發(fā)生事實(shí)的報(bào) 道。動(dòng)態(tài)聚合是指由用戶(hù)或應(yīng)用提供領(lǐng)域主題，實(shí)時(shí)動(dòng)態(tài)獲取多源相關(guān)的信息集合，并根據(jù) 信息的受歡迎程度決定其排序的一種互動(dòng)機(jī)制，其目的在于提供一種方便、高效的互聯(lián)網(wǎng) 信息的獲取和共享方式。
[0003]目前，進(jìn)行Web新聞聚合的主要方法和技術(shù)手段有搜索引擎技術(shù)和RSS(Really SimpleSyndication)技術(shù)。
[0004] 搜索引擎能夠從互聯(lián)網(wǎng)上自動(dòng)收集信息，并提供查詢(xún)服務(wù)，為用戶(hù)提供了一種檢索領(lǐng)域主題相關(guān)新聞的手段。然而存在以下不足：（l)Web信息覆蓋率比較低。這主要是由于網(wǎng)頁(yè)收集機(jī)制功能不夠強(qiáng)大，尚無(wú)法實(shí)現(xiàn)對(duì)所有網(wǎng)頁(yè)的信息收集。（2)信息查準(zhǔn)率不夠高。這主要與各搜索引擎所采取的索引機(jī)制、相關(guān)度評(píng)價(jià)模型以及相關(guān)度評(píng)價(jià)標(biāo)準(zhǔn)有關(guān)。 (3)難以滿(mǎn)足面向領(lǐng)域主題的檢索需求。垂直搜索可針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。相對(duì)通用搜索引擎的信息量大、查詢(xún)不準(zhǔn)確、深度不夠的服務(wù)模式，垂直搜索引擎一般都提供了比較精準(zhǔn)或者細(xì)化的搜索服務(wù)。其特點(diǎn)就是"專(zhuān)、精、深"，且具有行業(yè)特色，相比較通用搜索引擎的海量信息無(wú)序化，垂直搜索引擎則更加專(zhuān)注、具體和深入。由于垂直搜索引擎本身的信息量小，它不可能取代通用搜索引擎。但是，它是對(duì)通用搜索的很好的補(bǔ)充。元搜索引擎是一種Web上的信息檢索的軟件系統(tǒng)，其通過(guò)將自身的查詢(xún)請(qǐng)求轉(zhuǎn)發(fā)給其它搜索引擎，再通過(guò)必要的中間處理過(guò)程，將各搜索引擎返回的結(jié)果集按一定的方案進(jìn)行融合并顯示給用戶(hù)。從理論上講。元搜索引擎可以解決獨(dú)立搜索引擎本身幾乎不可能解決的查全率低的問(wèn)題，并且在個(gè)性化服務(wù)和靈活性等方面都優(yōu)于獨(dú)立搜索引擎。但元搜索引擎在檢索原理和機(jī)制上也未解決有效滿(mǎn)足具體用戶(hù) 的領(lǐng)域主題檢索需求的問(wèn)題。
[0005] 另一類(lèi)解決該難題的途徑是以RSS技術(shù)為代表的"推"的技術(shù)。RSS是一種用于共享新聞和其他Web內(nèi)容的數(shù)據(jù)交換規(guī)范。用戶(hù)通過(guò)專(zhuān)用的RSS終端（稱(chēng)為新聞聚合器， Aggregation)對(duì)感興趣的頻道進(jìn)行訂閱，從而實(shí)現(xiàn)有用信息的聚合。RSS在一定程度上為用戶(hù)的信息獲取提供了便利，但仍存在一些不足。首先，這種基于RSS的新聞聚合，其實(shí)只是簡(jiǎn)單地將訂閱的新聞放在一起，是一種簡(jiǎn)易的信息聚合技術(shù)。其次，因?yàn)橛嗛喌男侣効梢?來(lái)自不同的網(wǎng)站，它具有一定的內(nèi)容多樣性，但這種多樣性相對(duì)于海量Web新聞本身固有的多樣性而言，有明顯的局限性。另外，RSS聚合技術(shù)面向用戶(hù)興趣有一定的針對(duì)性，但這種針對(duì)性明顯不足，用戶(hù)需要某一特定內(nèi)容的新聞時(shí)，需在聚合結(jié)果中手動(dòng)查找，這仍是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作。
[0006] 因此，Web新聞聚合，不能是簡(jiǎn)單地將新聞放在一起。為了更好地滿(mǎn)足各類(lèi)應(yīng)用系統(tǒng)和用戶(hù)的需求，我們需要一種能聚合用戶(hù)領(lǐng)域主題的Web新聞的方法和系統(tǒng)。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的是提供一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，依托垂直搜索引擎、元搜索引擎、領(lǐng)域建模、信息抽取、內(nèi)容排序技術(shù)，可以從海量Web新聞中為用戶(hù)和應(yīng) 用系統(tǒng)提供面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合服務(wù)，解決了搜索引擎技術(shù)在處理Web新聞動(dòng)態(tài)聚合問(wèn)題時(shí)信息覆蓋率低、信息查準(zhǔn)率低、難以滿(mǎn)足面向領(lǐng)域主題的檢索需求的問(wèn)題，以及RSS技術(shù)在處理Web新聞動(dòng)態(tài)聚合問(wèn)題時(shí)信息多樣性不足、信息針對(duì)性不足的問(wèn)題。
[0008]為了達(dá)到上述目的，本發(fā)明所采用的技術(shù)方案為：
[0009]一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：包括以下步驟：
[0010] (1)、用戶(hù)或應(yīng)用程序通過(guò)用戶(hù)終端將主題信息發(fā)送給服務(wù)器；
[0011] (2)、服務(wù)器接收用戶(hù)或應(yīng)用程序發(fā)送的主題信息，獲取基于垂直搜索引擎模塊得到的搜索記錄列表；
[0012](3)、服務(wù)器獲取元搜索引擎的搜索結(jié)果頁(yè)面；
[0013](4)、服務(wù)器獲取搜索記錄列表：根據(jù)搜索記錄抽取方法，抽取元搜索引擎返回的搜索結(jié)果頁(yè)面，抽取搜索結(jié)果頁(yè)面中的每條搜索記錄，合并垂直搜索引擎模塊得到的搜索記錄列表，得到由垂直搜索引擎和元搜索引擎獲得的所有搜索記錄，形成搜索記錄列表；
[0014](5)、服務(wù)器獲取去重的搜索記錄列表：根據(jù)搜索記錄去重方法，對(duì)搜索記錄列表進(jìn)行去重，得到去重后的搜索記錄列表；
[0015](6)、服務(wù)器獲取新聞網(wǎng)頁(yè)搜索記錄列表：根據(jù)Web新聞網(wǎng)頁(yè)識(shí)別方法，過(guò)濾搜索記錄列表中的非新聞網(wǎng)頁(yè)搜索記錄，得到新聞網(wǎng)頁(yè)搜索記錄列表；
[0016](7)、服務(wù)器獲取結(jié)構(gòu)化新聞列表：根據(jù)結(jié)構(gòu)化新聞抽取方法，對(duì)新聞網(wǎng)頁(yè)搜索列表進(jìn)行處理，獲得結(jié)構(gòu)化新聞列表；
[0017](8)、服務(wù)器獲取有序的結(jié)構(gòu)化新聞列表：根據(jù)指定領(lǐng)域的Web新聞?wù)Z料和領(lǐng)域建模方法，建立領(lǐng)域模型，根據(jù)基于領(lǐng)域模型的排序方法對(duì)結(jié)構(gòu)化新聞列表進(jìn)行排序，得到有序結(jié)構(gòu)化新聞列表；
[0018](9)、服務(wù)器將有序的結(jié)構(gòu)化新聞列表作為面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合結(jié) 果發(fā)送到用戶(hù)終端。
[0019]所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（1) 中，所述用戶(hù)終端為手機(jī)或個(gè)人電腦，所述主題信息為關(guān)鍵詞列表。
[0020] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（2) 中，垂直搜索引擎模塊為：面向用戶(hù)預(yù)定義的領(lǐng)域站點(diǎn)列表，對(duì)相關(guān)領(lǐng)域站點(diǎn)進(jìn)行持續(xù)爬取，根據(jù)用戶(hù)提供的主題，面向爬取的頁(yè)面進(jìn)行檢索；所述搜索記錄包括URL、標(biāo)題、摘要信息。
[0021] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（3) 中，元搜索引擎為：根據(jù)元搜索引擎配置文件和用戶(hù)提供的主題，生成多個(gè)通用搜索引擎的請(qǐng)求URL，并獲取多個(gè)通用搜索引擎生成的搜索結(jié)果頁(yè)面；其中元搜索引擎配置文件包括調(diào)用哪些搜索引擎及調(diào)用方法、檢索時(shí)間限制、結(jié)果數(shù)量限制信息。
[0022] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（4) 中，搜索記錄抽取方法為：通過(guò)配置搜索記錄中URL、標(biāo)題、摘要各要素定位所需的CSS選擇器，來(lái)完成對(duì)不同搜索結(jié)果頁(yè)面的抽取。
[0023] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（5) 中，搜索記錄去重方法為：依次取出搜索記錄列表中的每條搜索記錄，與搜索記錄列表中余下的記錄依次進(jìn)行比對(duì)；若當(dāng)前比對(duì)的記錄與取出記錄的URL相同，貝lj從搜索記錄列表中移除當(dāng)前記錄；若當(dāng)前比對(duì)的記錄與取出記錄標(biāo)題的杰卡德距離超過(guò)預(yù)設(shè)定閾值，則從搜索記錄列表中移除當(dāng)前記錄；若當(dāng)前比對(duì)的記錄與取出記錄摘要的杰卡德距離超過(guò)預(yù)設(shè)定閾值，則從搜索記錄列表中移除當(dāng)前記錄。
[0024] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（6) 中，Web新聞網(wǎng)頁(yè)識(shí)別方法為：收集Web網(wǎng)頁(yè)訓(xùn)練數(shù)據(jù)集，將頁(yè)面數(shù)據(jù)集中的每個(gè)頁(yè)面標(biāo)注上新聞或非新聞標(biāo)簽，根據(jù)網(wǎng)頁(yè)特征提取方法和構(gòu)建分類(lèi)器方法，構(gòu)建Web新聞網(wǎng)頁(yè)識(shí)別器；對(duì)未知類(lèi)別的網(wǎng)頁(yè)，根據(jù)網(wǎng)頁(yè)特征提取方法和Web新聞網(wǎng)頁(yè)識(shí)別器，識(shí)別出是新聞網(wǎng)頁(yè) 或非新聞網(wǎng)頁(yè)；其中網(wǎng)頁(yè)特征提取方法能提取Web新聞網(wǎng)頁(yè)的URL特征、結(jié)構(gòu)特征和內(nèi)容特征；其中構(gòu)建分類(lèi)器方法能針對(duì)有標(biāo)簽列的二維表數(shù)據(jù)構(gòu)建二類(lèi)分類(lèi)器。
[0025] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（7) 中，結(jié)構(gòu)化新聞包括URL、標(biāo)題、發(fā)布時(shí)間、來(lái)源網(wǎng)站、摘要、正文信息；
[0026] 結(jié)構(gòu)化新聞抽取方法為：輸入搜索記錄，根據(jù)搜索記錄中的URL獲得Web頁(yè)面，根據(jù)Web新聞內(nèi)容抽取方法抽取Web頁(yè)面的標(biāo)題、發(fā)布時(shí)間、來(lái)源網(wǎng)站和正文，結(jié)合搜索記錄中的URL和摘要信息，得到URL、標(biāo)題、發(fā)布時(shí)間、來(lái)源網(wǎng)站、摘要、正文信息六個(gè)結(jié)構(gòu)化新聞要素；其中Web新聞內(nèi)容抽取方法是一種無(wú)需學(xué)習(xí)的在線內(nèi)容抽取方法。
[0027] 所述的一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法，其特征在于：所述步驟（8) 中，指定領(lǐng)域的Web新聞?wù)Z料為Web新聞數(shù)據(jù)集，數(shù)據(jù)集中的每篇Web新聞均為與指定領(lǐng)域相關(guān)的Web新聞；
[0028] 領(lǐng)域建模方法為：提取指定領(lǐng)域的Web新聞?wù)Z料的新聞內(nèi)容，再對(duì)提取的內(nèi)容進(jìn) 行分詞處理和詞頻統(tǒng)計(jì)，剔除其中的停用詞，選取前N個(gè)高頻詞組成N維詞向量做為領(lǐng)域模型，其中參數(shù)N由領(lǐng)域建模方法預(yù)先設(shè)定；
[0029] 基于領(lǐng)域模型的排序方法為：輸入結(jié)構(gòu)化新聞列表，對(duì)結(jié)構(gòu)化新聞列表中的每條結(jié)構(gòu)化新聞，根據(jù)領(lǐng)域模型中特征和結(jié)構(gòu)化新聞中的正文建立新聞特征向量，計(jì)算新聞特征向量和領(lǐng)域特征向量的相似度，利用信息檢索模型計(jì)算用戶(hù)主題信息提供的關(guān)鍵詞列表和網(wǎng)頁(yè)的信息檢索相似度；對(duì)結(jié)構(gòu)化新聞列表中所有記錄，以和領(lǐng)域模型的相似度為第一關(guān)鍵字，以結(jié)構(gòu)化新聞?dòng)涗浿邪l(fā)布時(shí)間為第二關(guān)鍵字，以信息檢索相似度為第三關(guān)鍵字，進(jìn) 行降序排序，得到有序

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳共慶;胡駿;劉鵬程;王釗;胡東輝;李磊;胡學(xué)鋼;吳信東;
技術(shù)所有人：合肥工業(yè)大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

面向領(lǐng)域編程相關(guān)技術(shù)

面向領(lǐng)域相關(guān)技術(shù)

面向領(lǐng)域設(shè)計(jì)相關(guān)技術(shù)

crm系統(tǒng)面向的領(lǐng)域相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種面向領(lǐng)域主題的Web新聞動(dòng)態(tài)聚合方法