專利名稱:一種網(wǎng)頁主題提取系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù),更具體地說,涉及一種網(wǎng)頁主題提取系統(tǒng)和方法。
背景技術(shù):
所謂網(wǎng)頁主題,就是網(wǎng)頁正文所描述事件的摘要內(nèi)容或者關(guān)鍵詞列表,標示了該網(wǎng)頁的主題內(nèi)容和中心思想?,F(xiàn)有的網(wǎng)頁主題提取方法主要有兩種。一種是是基于標題的網(wǎng)頁主題提取技術(shù)。其方法是采用Html(HyperText MarkupLanguage,超文件鏈接標記語言)文檔解析器,按照html協(xié)議分析html網(wǎng)頁,按照網(wǎng)頁源文件的tag標識建立html語法樹,以找出網(wǎng)頁的標題、正文等的內(nèi)容,然后將網(wǎng)頁中標題<title>標簽的值作為網(wǎng)頁的主題思想。該方法是早期比較常用的網(wǎng)頁主題提取方法。但是這種計算方法顯然過于簡單,實際應用中準確率、召回率均很低,并且不可避免的會出現(xiàn)正文部分信息丟失的情況。
另外一種是基于標題的網(wǎng)頁主題提取技術(shù)。隨著統(tǒng)計自然語言處理技術(shù)的發(fā)展,按照高詞頻關(guān)鍵詞來標示網(wǎng)頁主題的方法得到了廣泛的應用,具體做法是先將網(wǎng)頁源文件去tag標記,然后將文章內(nèi)容進行分詞統(tǒng)計詞頻,最后按詞頻對關(guān)鍵詞排序,給出前N個高詞頻作為文章主題。但是由于表義語言發(fā)展得很充分,一義多詞是普遍現(xiàn)象,再加上修辭法的運用使得詞匯稀疏現(xiàn)象客觀存在,特別是對于網(wǎng)頁類的短文章,該算法整體效果不是很理想。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)的缺陷,提供一種網(wǎng)頁主題提取系統(tǒng)和方法,其基于義元集語義分析技術(shù)、充分利用網(wǎng)頁預分類信息、顯示屬性信息來增加單純語義分析技術(shù)的準確度。
本發(fā)明的技術(shù)方案是一種網(wǎng)頁主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;還包括分詞模塊,其用于將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
進一步的,所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊;所述分詞模塊還具有對切分后的詞匯進行詞性標注的功能;所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對所述第二詞匯表中的詞匯進行處理。
具體的,所述義元處理模塊包括義元擴展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,表示為第一義元表;網(wǎng)頁主題義元計算模塊,其用于對所述第一義元表中的所有義元計算權(quán)重;義元復原關(guān)鍵詞模塊,其用于對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
本發(fā)明一種網(wǎng)頁主題提取系統(tǒng)還包括網(wǎng)頁主題輸出接口,其用于將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
本發(fā)明還提供了一種網(wǎng)頁主題提取方法,包括以下步驟(a),所述文檔解析器從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;(b),所述分詞模塊將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
其中,步驟(a)中,提取網(wǎng)頁標題和網(wǎng)頁正文的方法是所述文檔解析器對所述網(wǎng)頁的源文件進行解析,得到網(wǎng)頁的語法樹,然后從語法樹上獲得網(wǎng)頁標題、網(wǎng)頁正文中具有不同突出顯示屬性的正文內(nèi)容,并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
進一步的,步驟(b)中,所述分詞模塊還對切分后的詞匯進行詞性標注,得到第一詞匯表。步驟(b)之后進一步包括步驟(b1),所述分詞后處理模塊至少對所述第一詞匯表中的詞匯進行去停用詞、去虛詞,得到第二詞匯表。
具體的,步驟(c)包括步驟(c1),所述義元擴展模塊按照詞典與義元詞典的對應關(guān)系將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,組成第一義元表;(c2),所述網(wǎng)頁主題義元計算模塊對所述第一義元表中的所有義元計算權(quán)重,得到具有不同權(quán)重的第二義元表;(c3),所述義元復原關(guān)鍵詞模塊按照義元詞典對所述第二義元表中的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
本發(fā)明方法中,步驟(c)之后進一步包括步驟(d),所述網(wǎng)頁主題輸出接口將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
本發(fā)明的有益效果在于①采用基于義元集的語義分析技術(shù),避免了詞匯稀疏的難題,對短文章的分析效果良好。②充分考慮了網(wǎng)頁的預分類、標題信息和顯示屬性,能夠準確地提取出網(wǎng)頁的主題。③采用帶權(quán)重的詞匯排序表表示網(wǎng)頁的主題,避免了信息的丟失。
圖1是本發(fā)明一種網(wǎng)頁主題提取系統(tǒng)的結(jié)構(gòu)圖。
圖2是本發(fā)明一種網(wǎng)頁主題提取方法的流程圖。
具體實施例方式
下面根據(jù)附圖和具體實施例對本發(fā)明作進一步闡述。
如圖1所示,本發(fā)明一種網(wǎng)頁主題提取系統(tǒng)包括文檔解析器1、分詞模塊2、分詞后處理模塊3、義元處理模塊和網(wǎng)頁主題輸出接口7。義元處理模塊包括義元擴展模塊4、網(wǎng)頁主題義元計算模塊5和義元復原關(guān)鍵詞模塊6。網(wǎng)站或其它應用系統(tǒng)中與本發(fā)明系統(tǒng)相關(guān)的模塊可以包括網(wǎng)站網(wǎng)頁存儲中心8、網(wǎng)站導航樹生成系統(tǒng)9、網(wǎng)頁類別計算模塊10和網(wǎng)頁主題應用模塊11。本發(fā)明中文檔解析器1采用Html(HyperText Markup Language,超文件鏈接標記語言)文檔解析器。
其中,Html文檔解析器1能夠把html網(wǎng)頁按照Html協(xié)議解析成一棵語法樹,同時具有提取網(wǎng)頁標題、提取具有不同突出顯示屬性的網(wǎng)頁正文的能力。它與分詞模塊2相連,并與網(wǎng)站網(wǎng)頁存儲中心8(或其它可獲得相關(guān)網(wǎng)頁源文件的模塊)相連,以獲得網(wǎng)頁源文件。網(wǎng)頁源文件中的font tag標記指示了網(wǎng)頁的顯示屬性,一般來說顯示的突出程度(大字體、彩色)和內(nèi)容的重要程度成正比。本發(fā)明主要提取網(wǎng)頁正文中比較突出、容易得到用戶注意的正文(如大字體、彩色,及其后的正文),即具有突出顯示屬性的網(wǎng)頁正文。
分詞模塊2負責按照詞典將網(wǎng)頁的正文和標題、類別切分成詞匯。如將“我是一個學生”進行分詞,分為“我”、“是”、“一個”、“學生”四個詞。現(xiàn)有的分詞算法可分為三大類基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。本實施例中采用基于字符串匹配的分詞方法。該方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。
本發(fā)明中,分詞模塊2還具有對切分后的詞匯進行詞性標注的功能,以方便分詞后處理模塊3將詞匯中的停用詞和虛詞等去掉。它與文檔解析器1、詞典、分詞后處理模塊3相連,并與網(wǎng)頁類別計算模塊10(或其它可獲得相應網(wǎng)頁分類信息的模塊)相連,以獲得相應網(wǎng)頁的類別信息。
分詞后處理模塊3的功能包括但不限于對分詞模塊2的輸出去停用詞、去虛詞等功能,剔除對主題無關(guān)的信息。
義元擴展模塊4用于使用義元詞典完成詞匯到義元的正向轉(zhuǎn)換。它與分詞后處理模塊3、網(wǎng)頁主題義元計算模塊5和義元詞典相連。
本發(fā)明在網(wǎng)頁主題提取過程中并不是用詞匯作為計算單元的,而是使用義元詞典將詞匯轉(zhuǎn)換成義元表示,是一種基于義元集的語義分析技術(shù)。
所謂義元(semantic primitives)就是組義語言中最基本的元素。它可以解釋成一組意思的符號,它可以無需定義地被所有人理解,此外,所有的其它詞匯都能用它們來定義。自然語言處理所面臨的一個重大難題是詞匯稀疏,所以將關(guān)鍵詞轉(zhuǎn)換成義元詞表示能很大程度上避免詞匯稀疏現(xiàn)象,義元集是一個小規(guī)模詞匯或者義元序號集合,表征了自然界的所有概念,一個義元集元素唯一的、不重復的表示一個概念。
網(wǎng)頁主題義元計算模塊5用于利用統(tǒng)計語言學原理對網(wǎng)頁義元進行計算,計算的結(jié)果是對不同的義元賦予了不同的權(quán)重。計算的過程中對于網(wǎng)頁的分類信息、標題信息和不同顯示屬性的正文信息分別給予不同的統(tǒng)計權(quán)值。
義元復原關(guān)鍵詞模塊6用于按照義元詞典和網(wǎng)頁正文對義元進行反向還原,得到一組帶權(quán)重的主題詞匯集合。這些主題詞匯集合表征了網(wǎng)頁的主題。它與網(wǎng)頁主題義元計算模塊5、網(wǎng)頁主題輸出接口7和義元詞典相連。
網(wǎng)頁主題輸出接口7用于將上述帶權(quán)重的主題詞匯集合轉(zhuǎn)換為標準化的、帶不同權(quán)重的詞匯列表,以適合應用層的調(diào)用。故,其與網(wǎng)頁主題應用模塊11相連。
本實施例中,網(wǎng)站網(wǎng)頁存儲中心8與網(wǎng)站導航樹生成系統(tǒng)9、網(wǎng)頁類別計算模塊10相連,網(wǎng)站導航樹生成系統(tǒng)9與網(wǎng)頁類別計算模塊10相連。網(wǎng)站網(wǎng)頁存儲中心8內(nèi)存儲著網(wǎng)站中所有網(wǎng)頁的源文件。網(wǎng)站導航樹生成系統(tǒng)9用于生成網(wǎng)站導航樹。網(wǎng)頁類別計算模塊10用于根據(jù)網(wǎng)站導航樹生成系統(tǒng)9生成的網(wǎng)站導航樹對網(wǎng)頁源文件進行分析,以生成網(wǎng)頁分類信息。網(wǎng)頁主題應用模塊11用于從所述網(wǎng)頁主題輸出接口調(diào)用對應網(wǎng)頁的主題信息,然后根據(jù)業(yè)務(wù)相關(guān)性進行計算,為用戶提供個性化的服務(wù)。例如,用戶正在瀏覽一個關(guān)于手機的網(wǎng)站,本發(fā)明系統(tǒng)對其正在瀏覽的網(wǎng)頁進行主題提取,得出其正在觀看諾基亞3310款手機的資料,則網(wǎng)頁主題應用模塊立刻在其業(yè)務(wù)庫中搜索與諾基亞3310相關(guān)的廣告信息或服務(wù),并推送給用戶。
如圖2所示,本發(fā)明一種網(wǎng)頁主題提取方法包括步驟
S1,文檔解析器1從網(wǎng)站網(wǎng)頁存儲中心8獲取一個網(wǎng)頁的源文件,并從網(wǎng)頁類別計算模塊10上獲得將該網(wǎng)頁的分類信息。
多數(shù)網(wǎng)站導航條里面都指明了某個網(wǎng)頁的所屬類別信息,即網(wǎng)頁的分類信息。分類信息一般是從網(wǎng)站導航樹中獲得,網(wǎng)站導航樹可以是直接由網(wǎng)站中取得,也可以由網(wǎng)站目錄樹生成。
S2,文檔解析器1對網(wǎng)頁的源文件進行解析,得到網(wǎng)頁的html語法樹。
S3,文檔解析器1從網(wǎng)頁語法樹上面取得網(wǎng)頁的標題信息以及正文中具有不同突出顯示屬性的正文內(nèi)容,并按照正文中的突出顯示順序記為body1body2 body3...bodyN。
S4,分詞模塊2對網(wǎng)頁的類別、標題和正文body1 body2 body3...bodyN進行分詞,并對上述切分后的詞匯進行詞性標注,形成第一詞匯表。
S5,分詞后處理模塊3將第一詞匯表中的停用詞、虛詞等剔除,形成第二詞匯表。
S6,義元擴展模塊4按照詞典和義元詞典的對應關(guān)系將第二詞匯表中的詞匯用義元表示為第一義元表。
S7,網(wǎng)頁主題義元計算模塊5按照量空間模型的Tf-Idf(特征項賦權(quán)因子)等算法給第一義元表里的所有義元計算權(quán)重,得到帶權(quán)重的第二義元表。
本實施例中,采用Tf-Idf算法對第一義元表中的義元計算權(quán)重。當然也可以采用交叉熵等算法對第一義元表中的義元計算權(quán)重。Tf-Idf算法采用倒排索引技術(shù),其主要應用在全文檢索。該算法可以保證為中等頻率的義元賦以高的權(quán)重,并排除噪聲詞匯。在計算時候,根據(jù)先前的分類信息、標題信息、突出顯示信息(font)對關(guān)鍵詞表賦予不同權(quán)值擴展分類信息詞表為classwords,每個詞權(quán)重為m;標題擴展詞匯為titlewords,每個詞權(quán)重為n;font字體擴展詞匯為fontwords,每個詞權(quán)重隨字體突出程度遞增。
S8,義元復原關(guān)鍵詞模塊6按照義元詞典和網(wǎng)頁正文對第二義元表中的義元進行反向還原,得到表征了網(wǎng)頁主題的、帶權(quán)重的主題詞匯集合。主題詞匯集合即為考慮了預分類信息,標題信息,網(wǎng)頁突出顯示信息的網(wǎng)頁主題詞表。
S9,網(wǎng)頁主題輸出接口7將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,等待網(wǎng)頁主題應用模塊11調(diào)用。其中,列表中的詞匯按照語義密度分別被賦予不同的權(quán)重以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)頁主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;其特征在于,還包括分詞模塊,其用于將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁主題提取系統(tǒng),其特征在于所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊;所述分詞模塊還具有對切分后的詞匯進行詞性標注的功能;所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對所述第二詞匯表中的詞匯進行處理。
3.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁主題提取系統(tǒng),其特征在于,所述義元處理模塊包括義元擴展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,組成第一義元表;網(wǎng)頁主題義元計算模塊,其用于對所述第一義元表中的所有義元計算權(quán)重;義元復原關(guān)鍵詞模塊,其用于對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
4.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁主題提取系統(tǒng),其特征在于還包括網(wǎng)頁主題輸出接口,其用于將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
5.一種網(wǎng)頁主題提取方法,其特征在于,包括以下步驟(a),所述文檔解析器從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;(b),所述分詞模塊將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
6.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁主題提取方法,其特征在于,步驟(a)中,提取網(wǎng)頁標題和網(wǎng)頁正文的方法是所述文檔解析器對所述網(wǎng)頁的源文件進行解析,得到網(wǎng)頁的語法樹,然后從語法樹上獲得網(wǎng)頁標題、網(wǎng)頁正文中具有不同突出顯示屬性的正文內(nèi)容,并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
7.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁主題提取方法,其特征在于,進一步的步驟(b)中,所述分詞模塊還對切分后的詞匯進行詞性標注,得到第一詞匯表。
8.根據(jù)權(quán)利要求7所述的一種網(wǎng)頁主題提取方法,其特征在于步驟(b)之后進一步包括步驟(b1),所述分詞后處理模塊至少對所述第一詞匯表中的詞匯進行去停用詞、去虛詞,得到第二詞匯表。
9.根據(jù)權(quán)利要求8所述的一種網(wǎng)頁主題提取方法,其特征在于,具體的,步驟(c)包括步驟(c1),所述義元擴展模塊按照詞典與義元詞典的對應關(guān)系將所述W1中的詞匯轉(zhuǎn)換成義元,組成第一義元表;(c2),所述網(wǎng)頁主題義元計算模塊對所述第一義元表中的所有義元計算權(quán)重,得到具有不同權(quán)重的第二義元表;(c3),所述義元復原關(guān)鍵詞模塊按照義元詞典對所述第二義元表中的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
10.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁主題提取方法,其特征在于步驟(c)之后進一步包括步驟(d),所述網(wǎng)頁主題輸出接口將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
全文摘要
本發(fā)明提供了一種網(wǎng)頁主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;還包括分詞模塊,其用于將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。本發(fā)明還提供了一種網(wǎng)頁主題提取方法。本發(fā)明的有益效果在于采用基于義元集的語義分析技術(shù),避免了詞匯稀疏的難題,對短文章的分析效果良好。充分考慮了網(wǎng)頁的預分類、標題信息和顯示屬性,能夠準確地提取出網(wǎng)頁的主題。采用帶權(quán)重的詞匯排序表表示網(wǎng)頁的主題,避免了信息的丟失。
文檔編號G06F17/30GK101079031SQ20061003600
公開日2007年11月28日 申請日期2006年6月15日 優(yōu)先權(quán)日2006年6月15日
發(fā)明者丁江偉 申請人:騰訊科技(深圳)有限公司