專(zhuān)利名稱(chēng)::網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于信息處理領(lǐng)域,尤其涉及網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng)。
背景技術(shù):
:隨著信息技術(shù)的發(fā)展,尤其是網(wǎng)絡(luò)應(yīng)用的普及,人們已經(jīng)從信息缺乏的時(shí)代過(guò)渡到信息極為豐富的時(shí)代。如何從大量信息中迅速有效地提取出所需信息以及如何對(duì)網(wǎng)絡(luò)信息進(jìn)行深層加工處理和信息提取已經(jīng)成為人們迫切解決的問(wèn)題。
發(fā)明內(nèi)容為解決上述問(wèn)題,本發(fā)明提供了一種網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng),該系統(tǒng)包括以下模塊信息抓取模塊,網(wǎng)頁(yè)內(nèi)容抽取模塊,預(yù)料庫(kù)維護(hù)模塊,詞典管理模塊,機(jī)器學(xué)習(xí)模塊以及文檔分類(lèi)模塊;所述的信息抓取模塊,其用于下載用戶(hù)選擇的網(wǎng)站或網(wǎng)頁(yè);所述的網(wǎng)頁(yè)內(nèi)容抽取模塊,其用于將上述網(wǎng)絡(luò)信息抓取模塊下載下來(lái)的網(wǎng)頁(yè)抽取成純文本;所述的語(yǔ)料庫(kù)維護(hù)模塊,其用于管理用于算法學(xué)習(xí)和特征提取的各個(gè)領(lǐng)域的訓(xùn)練文檔集;所述的詞典管理模塊,其用于維護(hù)用于詞條切分和詞頻統(tǒng)計(jì)的主詞典和同義詞典;所述的機(jī)器學(xué)習(xí)模塊,其用于對(duì)訓(xùn)練文檔進(jìn)行詞條切分和詞頻統(tǒng)計(jì),并根據(jù)詞頻分布提取出代表文檔類(lèi)的特征項(xiàng)集及相應(yīng)權(quán)值,生成相應(yīng)的類(lèi)模型;所述文檔分類(lèi)模塊,其用于根據(jù)詞頻分布,提取出待分類(lèi)文檔的代表向量,并計(jì)算各文檔類(lèi)特征向量的相似度,符合一定的閾值條件則將其歸屬到相應(yīng)的類(lèi)別中。本發(fā)明發(fā)明的網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng)能從大量信息中迅速有效地提取所需信息,并對(duì)其進(jìn)行分類(lèi),為人們搜索信息資源提供了更精確化和人性化的服務(wù)。圖I為本發(fā)明提供的網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng)的模塊示意圖。具體實(shí)施例方式本發(fā)明發(fā)明的網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng)的模塊示意圖如圖I所示,包括以下模塊信息抓取模塊,網(wǎng)頁(yè)內(nèi)容抽取模塊,預(yù)料庫(kù)維護(hù)模塊,詞典管理模塊,機(jī)器學(xué)習(xí)模塊以及文檔分類(lèi)模塊;所述的信息抓取模塊,其用于下載用戶(hù)選擇的網(wǎng)站或網(wǎng)頁(yè);還用于網(wǎng)站的下載深度、下載文件的存放路徑的基本設(shè)置以及文件過(guò)濾和服務(wù)器過(guò)濾的過(guò)濾設(shè)置,網(wǎng)頁(yè)下載后按照網(wǎng)頁(yè)的深度按層存放;所述的網(wǎng)頁(yè)內(nèi)容抽取模塊,其用于將上述網(wǎng)絡(luò)信息抓取模塊下載下來(lái)的網(wǎng)頁(yè)抽取成純文本;用于網(wǎng)頁(yè)抽取成文本后的存放目錄和要處理的網(wǎng)頁(yè)的目錄的目錄設(shè)置以及抽取網(wǎng)頁(yè)正文的P和T閾值的設(shè)置,所述P表示table節(jié)點(diǎn)中的中文字符數(shù)的最小值的一個(gè)取值標(biāo)準(zhǔn),所述T表示table節(jié)點(diǎn)中去掉HTML標(biāo)記所含的中文字符與全部中文字符的個(gè)數(shù)的比值的一個(gè)取值標(biāo)準(zhǔn)。所述的語(yǔ)料庫(kù)維護(hù)模塊,其用于管理用于算法學(xué)習(xí)和特征提取的各個(gè)領(lǐng)域的訓(xùn)練文檔集;還用于不同領(lǐng)域的訓(xùn)練文檔集的保存設(shè)置以及語(yǔ)料庫(kù)初始化和語(yǔ)料庫(kù)的維護(hù);詞典管理模塊,其用于維護(hù)用于詞條切分和詞頻統(tǒng)計(jì)的主詞典和同義詞典;還用于詞典的建立和詞條的添加、刪除和修改。機(jī)器學(xué)習(xí)模塊,其用于對(duì)訓(xùn)練文檔進(jìn)行詞條切分和詞頻統(tǒng)計(jì),并根據(jù)詞頻分布提取出代表文檔類(lèi)的特征項(xiàng)集及相應(yīng)權(quán)值,生成相應(yīng)的類(lèi)模型;文檔分類(lèi)模塊,其用于根據(jù)詞頻分布,提取出待分類(lèi)文檔的代表向量,并計(jì)算各文檔類(lèi)特征向量的相似度,符合一定的閾值條件則將其歸屬到相應(yīng)的類(lèi)別中;操作方式分為自動(dòng)執(zhí)行和手動(dòng)執(zhí)行兩種,所述的自動(dòng)執(zhí)行是指根據(jù)系統(tǒng)設(shè)置,定時(shí)對(duì)輸入目錄中的帶分類(lèi)文檔進(jìn)行批量分類(lèi)處理;所述的手動(dòng)執(zhí)行是指需要用戶(hù)選定待分類(lèi)文檔,逐一處理。權(quán)利要求1.網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng),其特征在于,包括以下模塊信息抓取模塊,網(wǎng)頁(yè)內(nèi)容抽取模塊,預(yù)料庫(kù)維護(hù)模塊,詞典管理模塊,機(jī)器學(xué)習(xí)模塊以及文檔分類(lèi)模塊;所述的信息抓取模塊,其用于下載用戶(hù)選擇的網(wǎng)站或網(wǎng)頁(yè);所述的網(wǎng)頁(yè)內(nèi)容抽取模塊,其用于將上述網(wǎng)絡(luò)信息抓取模塊下載下來(lái)的網(wǎng)頁(yè)抽取成純文本;所述的語(yǔ)料庫(kù)維護(hù)模塊,其用于管理用于算法學(xué)習(xí)和特征提取的各個(gè)領(lǐng)域的訓(xùn)練文檔集;所述的詞典管理模塊,其用于維護(hù)用于詞條切分和詞頻統(tǒng)計(jì)的主詞典和同義詞典;所述的機(jī)器學(xué)習(xí)模塊,其用于對(duì)訓(xùn)練文檔進(jìn)行詞條切分和詞頻統(tǒng)計(jì),并根據(jù)詞頻分布提取出代表文檔類(lèi)的特征項(xiàng)集及相應(yīng)權(quán)值,生成相應(yīng)的類(lèi)模型;所述的文檔分類(lèi)模塊,其用于根據(jù)詞頻分布,提取出待分類(lèi)文檔的代表向量,并計(jì)算各文檔類(lèi)特征向量的相似度,如符合上述的閾值條件則將其歸屬到相應(yīng)的類(lèi)別中。2.如權(quán)利要求I所述的網(wǎng)絡(luò)搜索與分類(lèi)服務(wù)系統(tǒng),所述的網(wǎng)絡(luò)信息抓取模塊其特征在于,還用于網(wǎng)站的下載深度、下載文件的存放路徑的基本設(shè)置以及文件過(guò)濾和服務(wù)器過(guò)濾的過(guò)濾設(shè)置,網(wǎng)頁(yè)下載后按照網(wǎng)頁(yè)的深度按層存放。3.如權(quán)利要求2所述的網(wǎng)絡(luò)搜索與分類(lèi)服務(wù)系統(tǒng),所述的網(wǎng)頁(yè)內(nèi)容抽取模塊,其特征在于,還用于網(wǎng)頁(yè)抽取成文本后的存放目錄和要處理的網(wǎng)頁(yè)的目錄的目錄設(shè)置以及抽取網(wǎng)頁(yè)正文的P和T閾值的設(shè)置,所述P表示table節(jié)點(diǎn)中的中文字符數(shù)的最小值的一個(gè)取值標(biāo)準(zhǔn),所述T表示table節(jié)點(diǎn)中去掉HTML標(biāo)記所含的中文字符與全部中文字符的個(gè)數(shù)的比值的一個(gè)取值標(biāo)準(zhǔn)。4.如權(quán)利要求3所述的網(wǎng)絡(luò)搜索與分類(lèi)服務(wù)系統(tǒng),所述的預(yù)語(yǔ)料庫(kù)維護(hù)模塊,其特征在于,還用于不同領(lǐng)域的訓(xùn)練文檔集的保存設(shè)置以及語(yǔ)料庫(kù)初始化和語(yǔ)料庫(kù)的維護(hù)。5.如權(quán)利要求4所述的網(wǎng)絡(luò)搜索與分類(lèi)服務(wù)系統(tǒng),所述的詞典管理模塊,其特征在于,用于詞典的建立和詞條的添加、刪除和修改。6.如權(quán)利要求5所述的網(wǎng)絡(luò)搜索與分類(lèi)服務(wù)系統(tǒng),所述的文檔分類(lèi)模塊,其特征在于,分為自動(dòng)執(zhí)行和手動(dòng)執(zhí)行兩種操作方式,所述的自動(dòng)執(zhí)行是指根據(jù)系統(tǒng)設(shè)置,定時(shí)對(duì)輸入目錄中的帶分類(lèi)文檔進(jìn)行批量分類(lèi)處理;所述的手動(dòng)執(zhí)行是指需要用戶(hù)選定待分類(lèi)文檔,逐一處理。全文摘要本發(fā)明屬于信息處理領(lǐng)域,尤其涉及網(wǎng)絡(luò)信息搜索與分類(lèi)服務(wù)系統(tǒng)。該系統(tǒng)包括用于下載用戶(hù)選擇的網(wǎng)站或網(wǎng)頁(yè)的網(wǎng)絡(luò)信息抓取模塊;用于將上述網(wǎng)絡(luò)信息抓取模塊下載下來(lái)的網(wǎng)頁(yè)抽取成純文本的網(wǎng)頁(yè)內(nèi)容抽取模塊;用于管理用于算法學(xué)習(xí)和特征提取的各個(gè)領(lǐng)域的訓(xùn)練文檔集的語(yǔ)料庫(kù)維護(hù)模塊;用于維護(hù)用于詞條切分和詞頻統(tǒng)計(jì)的主詞典和同義詞典的詞典管理模塊;用于對(duì)訓(xùn)練文檔進(jìn)行詞條切分和詞頻統(tǒng)計(jì),并根據(jù)詞頻分布提取出代表文檔類(lèi)的特征項(xiàng)集及相應(yīng)權(quán)值,生成相應(yīng)的類(lèi)模型的機(jī)器學(xué)習(xí)模塊;用于根據(jù)詞頻分布,提取出待分類(lèi)文檔的代表向量,并計(jì)算各文檔類(lèi)特征向量的相似度,符合一定的閾值條件則將其歸屬到相應(yīng)的類(lèi)別中的文檔分類(lèi)模塊。文檔編號(hào)G06F17/30GK102955791SQ20111024239公開(kāi)日2013年3月6日申請(qǐng)日期2011年8月23日優(yōu)先權(quán)日2011年8月23日發(fā)明者丁力申請(qǐng)人:句容今太科技園有限公司