專利名稱::網(wǎng)頁分類系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,具體涉及一種網(wǎng)頁分類系統(tǒng)及方法。
背景技術(shù):
:在搜索技術(shù)中,基本上分為兩大類。一類是以整個(gè)互聯(lián)網(wǎng)為對(duì)象,抓取全部網(wǎng)頁(目前在一個(gè)站點(diǎn)內(nèi)會(huì)限制抓取深度,且一般不處理js(Javascript),而且只是處理部分動(dòng)態(tài)頁面),并對(duì)網(wǎng)頁進(jìn)行處理和分析的網(wǎng)頁搜索,即全網(wǎng)搜索。另一類是只針對(duì)某類頁面進(jìn)行抓取和分析處理的垂直搜索,如圖片搜索、視頻搜索、博客搜索、論壇搜索、新聞搜索等。對(duì)于大部分垂直搜索來說,目前都是基于種子(也稱作列表頁)進(jìn)行處理。垂直搜索的處理可分為兩個(gè)部分其一是找種子;其二是從種子頁面上發(fā)現(xiàn)具體產(chǎn)品頁面,即不同類另IJ(圖片、視頻、新聞等)的頁面,然后對(duì)這些產(chǎn)品頁面進(jìn)行處理。現(xiàn)有的全網(wǎng)搜索,基本上不考慮垂直搜索的需求。對(duì)每一個(gè)頁面的處理原則基本·上是一致的。就是分析這個(gè)頁面后,獲取其上全部的鏈接。全網(wǎng)搜索系統(tǒng)不需要區(qū)別這些鏈接是本網(wǎng)站的鏈接,還是指向其他網(wǎng)站的鏈接。所有新發(fā)現(xiàn)的鏈接都會(huì)回饋給系統(tǒng)進(jìn)行新一輪的調(diào)度、下載和分析處理。在抽取頁面上的內(nèi)容時(shí),全網(wǎng)搜索基于單獨(dú)頁面進(jìn)行處理。如果使用通用算法,只能抽取粗略的內(nèi)容,無法仔細(xì)區(qū)分不同的數(shù)據(jù)項(xiàng)。如果采用定向模板的方式進(jìn)行抽取,雖然可以精確抽取各種數(shù)據(jù)內(nèi)容,卻存在人工工作量大,且無法適用網(wǎng)站改版的問題。而且,現(xiàn)有的全網(wǎng)搜索無法區(qū)分網(wǎng)頁類別,只能為垂直搜索輔助發(fā)掘一些有用的信息。如果既有垂直搜索,由于網(wǎng)頁搜索,兩者的分析處理方式不同。系統(tǒng)之間互相獨(dú)立,全網(wǎng)搜索下載、分析處理過的頁面,垂直搜索還會(huì)獨(dú)立的進(jìn)行下載和分析處理,無法共享資源。
發(fā)明內(nèi)容鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁分類系統(tǒng)及方法。依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁分類系統(tǒng),包括頁面框架ID計(jì)算模塊,適于抽取預(yù)先獲取的網(wǎng)頁的頁面框架,計(jì)算頁面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁面框架模式;網(wǎng)頁類別識(shí)別模塊,適于將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì),以識(shí)別出網(wǎng)頁所屬的類別??蛇x地,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于根據(jù)網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述網(wǎng)頁的頁面框架??蛇x地,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架??蛇x地,所述模式累計(jì)模塊進(jìn)一步包括閾值調(diào)節(jié)模塊,適于判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒有,則將該ID對(duì)應(yīng)的閾值以一定的步長遞減??蛇x地,所述模式累計(jì)模塊進(jìn)一步包括待定列表頁識(shí)別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式??蛇x地,所述產(chǎn)品知識(shí)庫存儲(chǔ)有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,所述網(wǎng)頁類別識(shí)別模塊進(jìn)一步包括特征匹配模塊,適于將所述頁面框架模式的各網(wǎng)頁特征與知識(shí)庫中已知類別的頁面框架模式的各網(wǎng)頁特征進(jìn)行匹配;特征評(píng)分模塊,適于對(duì)匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重;權(quán)重累計(jì)模塊,適于按類別累計(jì)所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對(duì)應(yīng)最高權(quán)重的類別??蛇x地,所述系統(tǒng)還包括列表頁處理模塊,適于若識(shí)別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進(jìn)一步獲取所述列表頁中列出的信息對(duì)應(yīng)的網(wǎng)頁??蛇x地,所述系統(tǒng)還包括網(wǎng)頁獲取模塊,適于通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點(diǎn)為單位獲取網(wǎng)頁,同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁存儲(chǔ)在相同的根目錄下。根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁分類方法,包括以下步驟抽取預(yù)先獲取的網(wǎng)頁的頁面框架,并計(jì)算頁面框架ID;累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁面框架模式;將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì),以識(shí)別出網(wǎng)頁所屬的類別??蛇x地,抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述網(wǎng)頁的頁面框架??蛇x地,抽取所述網(wǎng)頁的頁面框架的方式為按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架??蛇x地,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒有,則將該ID對(duì)應(yīng)的閾值以一定的步長遞減??蛇x地,所述列表頁框架模式的計(jì)算方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式??蛇x地,所述產(chǎn)品知識(shí)庫存儲(chǔ)有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì)的方式為將所述頁面框架模式的各網(wǎng)頁特征與知識(shí)庫中已知類別的頁面框架模式的各網(wǎng)頁特征進(jìn)行匹配;對(duì)匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重,按類別累計(jì)所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對(duì)應(yīng)最聞權(quán)重的類別??蛇x地,若識(shí)別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進(jìn)一步獲取所述列表頁中列出的信息對(duì)應(yīng)的網(wǎng)頁??蛇x地,通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點(diǎn)為單位獲取網(wǎng)頁,同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁存儲(chǔ)在相同的根目錄下。根據(jù)本發(fā)明的網(wǎng)頁分類系統(tǒng)及方法可以將全網(wǎng)搜索與垂直搜索結(jié)合在一起,對(duì)全網(wǎng)搜索的結(jié)果按網(wǎng)頁類別進(jìn)行分類,垂直搜索系統(tǒng)根據(jù)不同的類別采用不同的方式進(jìn)行抽取,由此解決了過去通用算法抽取粗略而定向方式抽取精細(xì)但人工工作量大且適應(yīng)性差的問題,能夠抽取更精確的數(shù)據(jù)內(nèi)容,同時(shí)解決了全網(wǎng)搜索和垂直搜索資源共享問題。不僅僅是提高了資源的利用效率,關(guān)鍵是能充分發(fā)揮網(wǎng)頁搜索覆蓋度全面的優(yōu)點(diǎn),明顯提升垂直搜索的覆蓋度。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中圖I示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)頁分類方法流程圖;圖2示出了圖I中步驟S130中識(shí)別網(wǎng)頁類別的具體流程圖;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)示意圖;圖4示出了圖3中網(wǎng)頁類別識(shí)別模塊的具體結(jié)構(gòu)示意圖。具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本實(shí)施例的網(wǎng)頁分類方法流程如圖I所示,包括步驟S110,抽取預(yù)先獲取的網(wǎng)頁的頁面框架,并計(jì)算頁面框架ID。預(yù)先獲取的網(wǎng)頁可以是全網(wǎng)搜索抓取的網(wǎng)頁。抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述網(wǎng)頁的頁面框架,抽取時(shí)只保留html語言標(biāo)簽中框架類的標(biāo)記,如frame、table等,同時(shí)保留id、name、class屬性,去掉其余屬性。還可以按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁正文,去除正文以得到網(wǎng)頁的頁面框架。抽取頁面框架后將頁面內(nèi)屬性根據(jù)哈希算法計(jì)算頁面框架的hash值,即為頁面框架ID,例如抽取頁面框架后利用MD5或FNV等哈希技術(shù)方法計(jì)算頁面框架的hash值,即將框架類的標(biāo)記,如frame、table及其id、name、class屬性等按哈希算法進(jìn)行計(jì)算,所得結(jié)果值即為頁面框架ID。由于采用相同的哈希函數(shù),相同的頁面框架計(jì)算出的頁面框架ID也相同。步驟S120,累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁面框架模式。計(jì)算時(shí)分標(biāo)題、時(shí)間、正文等分別計(jì)算,計(jì)算方法可以采用機(jī)器自動(dòng)學(xué)習(xí)機(jī)制,如采用支持向量機(jī)(supportvectormachine,SVM)計(jì)算頁面框架模式。學(xué)習(xí)時(shí)將網(wǎng)頁轉(zhuǎn)換成基于Html語言的源代碼,并抽取html語言標(biāo)簽關(guān)鍵標(biāo)記,得到頁面框架,這一步在步驟SI10中已經(jīng)實(shí)現(xiàn)。將頁面框架輸入SVM進(jìn)行學(xué)習(xí),即對(duì)頁面框架進(jìn)行html語言標(biāo)簽關(guān)鍵標(biāo)記的匹配,若干相同ID的頁面框架中的html語言標(biāo)簽關(guān)鍵標(biāo)記能夠完全匹配,因此,對(duì)于相同ID的頁面框架學(xué)習(xí)到上述閾值的數(shù)量后,SVM便輸出相應(yīng)頁面框架的頁面框架模式。在學(xué)習(xí)之前對(duì)于頁面框架還需要做如下操作將標(biāo)題與title或anchor(錨點(diǎn))里的可變內(nèi)容匹配;時(shí)間要按照時(shí)間的格式計(jì)算;正文有可變比率及長度要求,這樣可以剔除廣告等垃圾內(nèi)容。為了防止某些網(wǎng)頁長時(shí)間得不到處理,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁面框架數(shù)量是否累計(jì)達(dá)到該閾值,若沒有,則將該ID對(duì)應(yīng)的閾值以一定的步長遞減。其中該閾值優(yōu)選為23。步驟S130,將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì),以識(shí)別出網(wǎng)頁所屬的類別。其中產(chǎn)品知識(shí)庫存儲(chǔ)有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,網(wǎng)頁類別與其對(duì)應(yīng)的頁面框架模式下的網(wǎng)頁特征及權(quán)重可以以映射表的形式記錄在產(chǎn)品知識(shí)庫中,如下表I所示表I網(wǎng)頁類別與其對(duì)應(yīng)的頁面框架模式下的網(wǎng)頁特征及權(quán)重映射表權(quán)利要求1.一種網(wǎng)頁分類系統(tǒng),包括頁面框架ID計(jì)算模塊,適于抽取預(yù)先獲取的網(wǎng)頁的頁面框架,計(jì)算頁面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁面框架模式;網(wǎng)頁類別識(shí)別模塊,適于將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì),以識(shí)別出網(wǎng)頁所屬的類別。2.如權(quán)利要求I所述的網(wǎng)頁分類系統(tǒng),其特征在于,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于根據(jù)網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述網(wǎng)頁的頁面框架。3.如權(quán)利要求I或2所述的網(wǎng)頁分類系統(tǒng),其特征在于,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架。4.如權(quán)利要求廣3中任一項(xiàng)所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述模式累計(jì)模塊進(jìn)一步包括閾值調(diào)節(jié)模塊,適于判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒有,則將該ID對(duì)應(yīng)的閾值以一定的步長遞減。5.如權(quán)利要求廣4中任一項(xiàng)所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述模式累計(jì)模塊進(jìn)一步包括待定列表頁識(shí)別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。6.如權(quán)利要求廣5中任一項(xiàng)所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述產(chǎn)品知識(shí)庫存儲(chǔ)有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,所述網(wǎng)頁類別識(shí)別模塊進(jìn)一步包括特征匹配模塊,適于將所述頁面框架模式的各網(wǎng)頁特征與知識(shí)庫中已知類別的頁面框架模式的各網(wǎng)頁特征進(jìn)行匹配;特征評(píng)分模塊,適于對(duì)匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重;權(quán)重累計(jì)模塊,適于按類別累計(jì)所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對(duì)應(yīng)最高權(quán)重的類別。7.如權(quán)利要求廣6中任一項(xiàng)所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述系統(tǒng)還包括列表頁處理模塊,適于若識(shí)別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進(jìn)一步獲取所述列表頁中列出的信息對(duì)應(yīng)的網(wǎng)頁。8.如權(quán)利要求f7中任一項(xiàng)所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述系統(tǒng)還包括網(wǎng)頁獲取模塊,適于通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點(diǎn)為單位獲取網(wǎng)頁,同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁存儲(chǔ)在相同的根目錄下。9.一種網(wǎng)頁分類方法,包括以下步驟抽取預(yù)先獲取的網(wǎng)頁的頁面框架,并計(jì)算頁面框架ID;累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁面框架模式;將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì),以識(shí)別出網(wǎng)頁所屬的類別。10.如權(quán)利要求9所述的網(wǎng)頁分類方法,其特征在于,抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述網(wǎng)頁的頁面框架。11.如權(quán)利要求9或10所述的網(wǎng)頁分類方法,其特征在于,抽取所述網(wǎng)頁的頁面框架的方式為按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架。12.如權(quán)利要求iTll中任一項(xiàng)所述的網(wǎng)頁分類方法,其特征在于,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒有,則將該ID對(duì)應(yīng)的閾值以一定的步長遞減。13.如權(quán)利要求擴(kuò)12中任一項(xiàng)所述的網(wǎng)頁分類方法,其特征在于,所述列表頁框架模式的計(jì)算方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。14.如權(quán)利要求擴(kuò)13中任一項(xiàng)所述的網(wǎng)頁分類方法,其特征在于,所述產(chǎn)品知識(shí)庫存儲(chǔ)有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì)的方式為將所述頁面框架模式的各網(wǎng)頁特征與知識(shí)庫中已知類別的頁面框架模式的各網(wǎng)頁特征進(jìn)行匹配;對(duì)匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重,按類別累計(jì)所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對(duì)應(yīng)最聞權(quán)重的類別。15.如權(quán)利要求擴(kuò)14中任一項(xiàng)所述的網(wǎng)頁分類方法,其特征在于,若識(shí)別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進(jìn)一步獲取所述列表頁中列出的信息對(duì)應(yīng)的網(wǎng)頁。16.如權(quán)利要求擴(kuò)15中任一項(xiàng)所述的網(wǎng)頁分類方法,其特征在于,通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點(diǎn)為單位獲取網(wǎng)頁,同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁存儲(chǔ)在相同的根目錄下。全文摘要本發(fā)明公開了一種網(wǎng)頁分類系統(tǒng),涉及搜索引擎
技術(shù)領(lǐng)域:
,包括以下步驟頁面框架ID計(jì)算模塊,適于抽取預(yù)先獲取的網(wǎng)頁的頁面框架,并計(jì)算頁面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁面框架模式;網(wǎng)頁類別識(shí)別模塊,適于將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì),以識(shí)別出網(wǎng)頁所屬的類別。本發(fā)明還公開了一種網(wǎng)頁分類方法。根據(jù)本發(fā)明的網(wǎng)頁分類系統(tǒng)及方法可以將全網(wǎng)搜索與垂直搜索結(jié)合在一起,由此解決了過去通用算法抽取粗略而定向方式抽取精細(xì)但人工工作量大且適應(yīng)性差的問題,能夠抽取更精確的數(shù)據(jù)內(nèi)容,同時(shí)解決了全網(wǎng)搜索和垂直搜索資源共享問題。文檔編號(hào)G06F17/30GK102902790SQ20121037629公開日2013年1月30日申請(qǐng)日期2012年9月29日優(yōu)先權(quán)日2012年9月29日發(fā)明者盧宏林申請(qǐng)人:北京奇虎科技有限公司,奇智軟件(北京)有限公司