一種基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法
【技術領域】
[0001]本發(fā)明涉及一種自動排版成書的方法,尤其是涉及一種基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法。
【背景技術】
[0002]當前,我們正處于一個信息爆炸的社會?;ヂ?lián)網(wǎng)上充斥著海量的、繁雜的信息,加重了獲取垂直細分信息的難度。從而催生出一些相關專利和著作的產(chǎn)生,試圖解決這一難題。一種互聯(lián)網(wǎng)信息搜索聚合呈現(xiàn)方法(中國專利ZL201410198228.6)通過抓取網(wǎng)頁內(nèi)容并計算內(nèi)容相似度,將同質(zhì)或內(nèi)容相似度大于設定閥值的頁面作為一組,對組內(nèi)每個頁面提取同質(zhì)和差異性內(nèi)容,最終融合成一個新的頁面。在計算相似度前,需要對文本分詞并需要量化每個詞的權重,一般采用TF/IDF值表示詞的權重,然而中文中多義詞和歧義詞過多容易產(chǎn)生較大的誤差。另外,通過相似度計算將文本分組的方式在某種程度上只能反映出文本間的相關程度,當樣本較小時,相關系數(shù)的波動較大,對有些樣本相關系數(shù)的絕對值易接近于最大值;當η較大時,相關系數(shù)的絕對值容易偏小。因此,最終合成的新頁面與用戶的期望值可能存在一定的誤差。生成的新內(nèi)容仍以網(wǎng)頁的方式保存,用戶無法在線對存在誤差的內(nèi)容進行二次編輯修改,更不能自動排版成書。
【發(fā)明內(nèi)容】
[0003]本發(fā)明設計了一種基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法,其解決的技術問題是互聯(lián)網(wǎng)上信息繁雜、分布比較分散,難以獲取系統(tǒng)性內(nèi)容,即使獲取到系統(tǒng)性內(nèi)容后,難以保存以便再次。
[0004]為了解決上述存在的技術問題,本發(fā)明采用了以下方案:
一種基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法,包括以下步驟:步驟1、內(nèi)容爬取并構建分類索引;步驟2、用戶根據(jù)步驟I的構建分類索引搜索成書。
[0005]進一步,所述內(nèi)容爬取并構建分類索引包括以下分步驟:步驟11、選取監(jiān)控目標網(wǎng)站;步驟12、爬取網(wǎng)站內(nèi)容;步驟13、解析爬取內(nèi)容,提取內(nèi)容主題和關鍵字,對內(nèi)容進行分類;步驟14、內(nèi)容噪聲過濾;步驟15、內(nèi)容本地化;步驟16、針對分類內(nèi)容構建分類索引。
[0006]進一步,用戶根據(jù)步驟I的構建分類索引搜索成書包括以下分步驟:步驟21、用戶選擇所需內(nèi)容類型;步驟22、用戶提供搜索關鍵詞;步驟23、針對用戶提交的內(nèi)容類型和關鍵詞在步驟16構建的分類索引下搜索內(nèi)容,返回搜索內(nèi)容;步驟24、對搜索結果聚類;步驟25、對聚類結果采用自動排版算法,自動成書。
[0007]該基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法具有以下有益效果:
(I)本發(fā)明根據(jù)用戶需求將分散在互聯(lián)網(wǎng)中的繁雜信息本地化并進行系統(tǒng)化整理,采用自行研發(fā)的一鍵排版功能一鍵成書,最終達到按需印刷的目的。
[0008](2)本發(fā)明通過構建分類索引能夠垂直細分獲取分散的互聯(lián)網(wǎng)數(shù)據(jù)。
[0009](3)本發(fā)明的用戶通過簡單的提交關鍵詞和內(nèi)容類型就可以獲得系統(tǒng)性的主題相關的數(shù)據(jù)。
【附圖說明】
[0010]圖1:本發(fā)明基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法的流程方框示意圖。
【具體實施方式】
[0011]下面結合圖1,對本發(fā)明做進一步說明:
1、內(nèi)容爬取技術模塊:
步驟11:監(jiān)控目標網(wǎng)站,主要監(jiān)控目標為公共資源網(wǎng)站。
[0012]步驟12:使用分布式爬蟲系統(tǒng)抓取目標網(wǎng)站內(nèi)容;該分布式爬蟲系統(tǒng)可以實現(xiàn)網(wǎng)頁配置參數(shù),例如,特定網(wǎng)站的鏈接,特定關鍵字,所需爬取的某個頁面中的特定內(nèi)容。
[0013]步驟13:網(wǎng)站內(nèi)容解析,主要解析HTML文件獲取網(wǎng)頁的文本和圖片數(shù)據(jù)。
[0014]步驟14:采用jieba分詞對文本分詞,獲取每個詞的權重。
[0015]步驟15:對抓取的內(nèi)容采用LDA算法提取文本的主題和關鍵詞,并使用kmeans對文本聚類。
[0016]步驟16:過濾文本,主要包括文本的去重和垃圾信息的過濾。去重主要通過皮爾遜和余弦定理理論或通過s i mh a s h+漢明距離的處理方式實現(xiàn),垃圾信息的過濾(主要為廣告信息)通過URL模式識別算法實現(xiàn)。
[0017]步驟17:數(shù)據(jù)本地化。需要本地化的數(shù)據(jù)有頁面源數(shù)據(jù)、頁面提取的文本、圖片、主題、關鍵詞和分類信息;各網(wǎng)站的數(shù)據(jù)格式區(qū)別較大,數(shù)據(jù)本地化是為了統(tǒng)一數(shù)據(jù)格式,以便后續(xù)的自動排版成書;另外,數(shù)據(jù)本地化后,可以對數(shù)據(jù)進行拆分和組合等二次操作。
[0018]步驟18:針對本地化數(shù)據(jù)構建分類索引。
[0019]2、用戶搜索成書模塊技術方案如下:
步驟21、用戶選擇所需內(nèi)容類型。
[0020]步驟22、用戶提供搜索關鍵詞。
[0021]步驟23:通過內(nèi)容類型和關鍵詞確定需要掃描的分類索引,通過分布式搜索系統(tǒng)獲取搜索結果,搜索結果按匹配得分降序依次返回。該分類索引為步驟18構建的分類索引。
[0022]步驟24:對搜索結果聚類。獲取搜索結果得分最高的前100或者N篇內(nèi)容,對著100篇或N篇內(nèi)容采用AP算法對文本聚類,每一個類別作為一個章節(jié)。計算每個章節(jié)的加權搜索得分,將章節(jié)按加權得分的降序排列。獲取章節(jié)內(nèi)部文本內(nèi)的時間或內(nèi)容原始的發(fā)布時間,章節(jié)內(nèi)按時間降序排列。
[0023]步驟25:將排序完成的內(nèi)容依次傳遞到自行開發(fā)的自動排版算法,自動成書。
[0024]上面結合附圖對本發(fā)明進行了示例性的描述,顯然本發(fā)明的實現(xiàn)并不受上述方式的限制,只要采用了本發(fā)明的方法構思和技術方案進行的各種改進,或未經(jīng)改進將本發(fā)明的構思和技術方案直接應用于其它場合的,均在本發(fā)明的保護范圍內(nèi)。
【主權項】
1.一種基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法,包括以下步驟:步驟1、內(nèi)容爬取并構建分類索引;步驟2、用戶根據(jù)步驟I的構建分類索引搜索成書。2.根據(jù)權利要求1所述基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法,其特征在于,所述內(nèi)容爬取并構建分類索引包括以下分步驟:步驟11、選取監(jiān)控目標網(wǎng)站;步驟12、爬取網(wǎng)站內(nèi)容;步驟13、解析爬取內(nèi)容,提取內(nèi)容主題和關鍵字,對內(nèi)容進行分類;步驟14、內(nèi)容噪聲過濾;步驟15、內(nèi)容本地化;步驟16、針對分類內(nèi)容構建分類索引。3.根據(jù)權利要求1或2所述基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法,其特征在于,用戶根據(jù)步驟I的構建分類索引搜索成書包括以下分步驟:步驟21、用戶選擇所需內(nèi)容類型;步驟22、用戶提供搜索關鍵詞;步驟23、針對用戶提交的內(nèi)容類型和關鍵詞在步驟16構建的分類索引下搜索內(nèi)容,返回搜索內(nèi)容;步驟24、對搜索結果聚類;步驟25、對聚類結果采用自動排版算法,自動成書。
【專利摘要】本發(fā)明涉及一種基于互聯(lián)網(wǎng)內(nèi)容挖掘的一搜成書方法,包括以下步驟:步驟1、內(nèi)容爬取并構建分類索引;步驟2、用戶根據(jù)步驟1的構建分類索引搜索成書。本發(fā)明根據(jù)用戶需求將分散在互聯(lián)網(wǎng)中的繁雜信息本地化并進行系統(tǒng)化整理,采用自行研發(fā)的一鍵排版功能一鍵成書,最終達到按需印刷的目的。
【IPC分類】G06F17/30
【公開號】CN104965934
【申請?zhí)枴緾N201510470165
【發(fā)明人】李鼎, 周彪, 葉營, 劉桂霞, 孫立, 張敏
【申請人】時代新媒體出版社有限責任公司
【公開日】2015年10月7日
【申請日】2015年8月4日