国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于文本分類和圖像深度挖掘的科技情報獲取與推送方法

      文檔序號:6549337閱讀:408來源:國知局
      一種基于文本分類和圖像深度挖掘的科技情報獲取與推送方法
      【專利摘要】本發(fā)明公開了一種基于文本分類和圖像深度挖掘的科技情報獲取與推送方法,其特征在于:根據(jù)用戶的定制,獲取用戶關(guān)注的科技領(lǐng)域的關(guān)鍵詞,利用Python語言編寫網(wǎng)絡(luò)爬蟲,通過HTTP協(xié)議獲取網(wǎng)頁中與用戶關(guān)注的科技領(lǐng)域的關(guān)鍵詞相關(guān)的論文、新聞、專利,利用支持向量機分類算法在Weka平臺上對獲取的網(wǎng)頁科技情報內(nèi)容進(jìn)行分類,并使用分割線算法對科技情報內(nèi)容文檔中圖像的信息進(jìn)行提取并保存,最終通過微信公眾號對獲取的科技情報內(nèi)容數(shù)據(jù)進(jìn)行推送。
      【專利說明】一種基于文本分類和圖像深度挖掘的科技情報獲取與推送方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于科技情報獲取與處理領(lǐng)域,特別涉及一種基于文本分類和圖像深度挖掘的科技情報獲取與推送方法,可應(yīng)用于新聞、論文、專利信息的獲取與推送。
      【背景技術(shù)】
      [0002]如今,隨著互聯(lián)網(wǎng)的高速發(fā)展,每天都有海量的數(shù)據(jù)在互聯(lián)網(wǎng)上發(fā)布、共享。海量的信息在為互聯(lián)網(wǎng)用戶提供更多信息的同時,也為互聯(lián)網(wǎng)用戶帶來了獲取有效信息價值的難度。在互聯(lián)網(wǎng)的海量數(shù)據(jù)中,不同的信息對于不同需求的用戶的價值有著很大的差距,大量的信息對于不同需求的用戶來說是沒有一點價值的,而往往只有少量的信息是互聯(lián)網(wǎng)用戶所關(guān)注的。所以如何快速的在海量的數(shù)據(jù)中為特定的互聯(lián)網(wǎng)用戶抓取所需的信息,對于更好的為互聯(lián)網(wǎng)用戶提供高效的有效信息獲取的服務(wù),方便互聯(lián)網(wǎng)用戶對信息的使用有很重要的研究和實用的意義和價值。
      [0003]在為不同需求的互聯(lián)網(wǎng)用戶成功的抓取特定信息后,盡管相對互聯(lián)網(wǎng)中的海量數(shù)據(jù),成功抓取到有效信息的數(shù)據(jù)量已經(jīng)很小,但對于用戶來說有效信息的數(shù)據(jù)量還是很大。不同信息在互聯(lián)網(wǎng)上不同的發(fā)布和呈現(xiàn)形式也影響了用戶進(jìn)一步從有效信息中獲取信息的價值,增加了用戶獲取有效信息的難度。如何使用戶快速、高效的獲取有效信息,并充分挖掘獲取有效信息中的價值,為用戶提供更高效有價值的信息推送服務(wù),成為了另一個亟待需要研究解決的問題。
      [0004]處于信息大爆炸時代和快節(jié)奏生活下的用戶人群,越來越傾向于查看可視化的信息,對于文本類的信息往往也只關(guān)注其摘要。所以,圖像類信息成為了廣大用戶的首選關(guān)注點,圖像的直觀化呈現(xiàn),在快餐式的知識獲取時代中,更加直觀生動的呈現(xiàn)了所要表述的信息,給了用戶更好的閱讀體驗,同時使得用戶更加快速、高效的獲取有效信息中的價值。因此,如何從文本信息中提取其中存在的圖像形式的信息,為用戶提供更靈活的信息閱讀分析方式,同樣成為了一個有著研究和實用意義的問題。
      [0005]在現(xiàn)有的信息獲取和推送方法中,往往都只解決了上述幾個問題中的部分問題。
      [0006]如中國專利文獻(xiàn)號CN201110393795.3,授權(quán)日2014-05-07,公開了一種應(yīng)用信息推送方法和系統(tǒng),通過綜合分析處理平臺接受服務(wù)器發(fā)送的終端用戶的多種信息,來獲取用戶的偏好特征,從而使得服務(wù)器根據(jù)判定的用戶不同的偏好特征推送不同的應(yīng)用信息。盡管該文獻(xiàn)中的方法和系統(tǒng)能夠針對不同用戶的偏好特征,推送個性化應(yīng)用信息,但通過用戶行為信息確定關(guān)鍵詞,相比用戶指定關(guān)鍵詞的信息推送,在精確推送上有著一定的差距,不能滿足用戶靈活的應(yīng)用需求。
      [0007]中國專利文獻(xiàn)號CN201110393795.3,授權(quán)日2014-05-07,公開了一種信息推送方法與裝置,通過收集多客戶端同一用戶輸入的關(guān)鍵詞,分析關(guān)鍵詞集中不同關(guān)鍵詞間的聯(lián)系,從而分析判斷用戶的行為屬性和關(guān)注熱點。用戶關(guān)鍵詞確定后,即可為用戶推送個性化的信息或個性化界面。盡管該文獻(xiàn)中的方法和裝置能夠針對不同用戶的行為屬性,推送個性化信息,但該文獻(xiàn)中的方法和裝置并未對推送的信息進(jìn)行分類組織,導(dǎo)致了在推送信息時個性化信息查詢獲取的低效,不能滿足快速、高效的信息推送需求。
      [0008]中國專利文獻(xiàn)號CN201010578685.X,授權(quán)日2013_10_09,公開了一種實時信息推送方法及設(shè)備,服務(wù)器獲取用戶輸入的關(guān)鍵詞后,進(jìn)行定時的信息收索獲取和推送。盡管該文獻(xiàn)中的方法及設(shè)備,能夠根據(jù)用戶指定的關(guān)鍵詞進(jìn)行信息的收索查詢,并將查詢后的信息返回給用戶,但該文獻(xiàn)中的方法和設(shè)備還局限于文本信息的推送,不能滿足當(dāng)今社會中,不同用戶對多種格式信息的獲取閱讀的需求。
      [0009]當(dāng)然,目前還存在很多的信息推送方法,很多基于現(xiàn)有的信息推送進(jìn)行改進(jìn)優(yōu)化的方法也在被不斷的提出。但現(xiàn)有的方法往往都只關(guān)注于信息推送問題中的某一點,很多方法通過分析用戶行為屬性確定用戶的關(guān)注關(guān)鍵詞,在關(guān)鍵詞的確定上缺乏了靈活性,導(dǎo)致不能滿足用戶可定制關(guān)注信息的需求;部分方法從互聯(lián)網(wǎng)中抓取到所需信息后,并沒有進(jìn)一步的對抓取到的信息進(jìn)行結(jié)構(gòu)化的分類組織,盡管減小了用戶查詢信息的數(shù)據(jù)量,但還是在一定程度上限制了用戶查詢所需信息的速度,不能滿足用戶高效獲取所需信息的需求;大多數(shù)的方法都只對文本信息進(jìn)行了抓取推送,忽視了直觀可視化的圖像形式的信息,不能滿足用戶快速、高效獲取信息中的有效信息的需求。
      [0010]綜上所述,研究發(fā)明一種能根據(jù)不同用戶的實際要求進(jìn)行關(guān)鍵詞的定制,能將從互聯(lián)網(wǎng)中抓取到的信息進(jìn)行分類組織,能提取文本信息中的圖像形式的信息的方法是十分必要的。
      [0011]而針對以上所訴的問題,朱全銀等給出了文本分類方法、圖像形式的信息提取方法和定制關(guān)鍵詞推送的方法(Fu Chen, Chengjie Xu, Quanyin Zhu.A Design of aSc1-tech Informat1n Retrieval Platform Based on Apache Solr and Web Mining.AppliedMechanics and Materials, Vols.530-531 (2014),pp.883-886 ;Yin Yong Hua, Jin Ying,Zhu Quan Yin,Yan Yun Yang.Extracting Images from Chinese PDF Documents.AppliedMechanics and Materials,2014,Vols.530-531,pp.887-890 ;Sun Pei Pei, Zhu Quan Yin,Zhou Lei,Zhang Yong Jun.Comparativeanalysis of Text Categorizer on Science andTechnology Intelligence.Applied Mechanics and Materials,2014,Vols.530—531,pp.502-505)。

      【發(fā)明內(nèi)容】

      [0012]本發(fā)明的目的是通過對Internet的信息進(jìn)行訪問,獲取用戶定制的特定的新聞、論文、專利內(nèi)容,并利用向量機分類算法將內(nèi)容進(jìn)行分類,同時利用分割線算法對內(nèi)容中圖像信息進(jìn)行提取并通過微信公眾號進(jìn)行推送。
      [0013]本發(fā)明的技術(shù)方案是根據(jù)用戶的定制,獲取用戶關(guān)注的科技領(lǐng)域的關(guān)鍵詞,利用Python語言編寫的網(wǎng)絡(luò)爬蟲,通過HTTP協(xié)議獲取網(wǎng)頁中與用戶關(guān)注方向相關(guān)的論文、新聞、專利,利用支持向量機分類算法在Weka平臺上對獲取的網(wǎng)頁科技情報內(nèi)容進(jìn)行分類,并使用分割線算法對科技情報內(nèi)容文檔中圖像的信息進(jìn)行提取并保存,最終通過微信公眾號對獲取的科技情報內(nèi)容數(shù)據(jù)進(jìn)行推送。
      [0014]具體的說,本發(fā)明方案通過如下各步驟實現(xiàn)對互聯(lián)網(wǎng)中新聞、論文、專利內(nèi)容的獲取、分類和圖像提取:[0015]步驟1、企業(yè)定制研究方向信息;
      [0016]步驟2、網(wǎng)絡(luò)爬蟲讀取步驟I中企業(yè)定制的研究方向信息;
      [0017]步驟3、網(wǎng)絡(luò)爬蟲根據(jù)步驟2中讀取的相關(guān)信息,基于廣度優(yōu)先搜索策略,使用HTTP協(xié)議訪問互聯(lián)網(wǎng)并獲取網(wǎng)頁信息;
      [0018]步驟4、讀取步驟3中的網(wǎng)頁信息文本,并將其轉(zhuǎn)換成ARFF格式文件text, arff ;
      [0019]步驟5、判斷訓(xùn)練完成的支持向量機分類器模型SM0.model是否存在,存在執(zhí)行步驟13,不存在執(zhí)行步驟6; [0020]步驟6、讀取訓(xùn)練集,并將其轉(zhuǎn)換成ARFF格式的文件train, arff ;
      [0021]步驟7、對文件train, arff進(jìn)行預(yù)處理,包括:文本格式轉(zhuǎn)換、分詞、停用詞去除;
      [0022]步驟8、將步驟7中預(yù)處理后的train, arff文件轉(zhuǎn)換成行為文本名,列為特征詞的向量空間模型,該模型表示特征詞在每個文本中出現(xiàn)的頻度,同時將轉(zhuǎn)換過程中得到的詞頻和文檔頻度加入集合wordset中;
      [0023]步驟9、根據(jù)公式 720
      【權(quán)利要求】
      1.一種基于文本分類和圖像深度挖掘的科技情報獲取與推送方法,其特征在于:根據(jù)用戶的定制,獲取用戶關(guān)注的科技領(lǐng)域的關(guān)鍵詞,利用Python語言編寫網(wǎng)絡(luò)爬蟲,通過HTTP協(xié)議獲取網(wǎng)頁中與用戶關(guān)注的科技領(lǐng)域的關(guān)鍵詞相關(guān)的論文、新聞、專利,利用支持向量機分類算法在Weka平臺上對獲取的網(wǎng)頁科技情報內(nèi)容進(jìn)行分類,并使用分割線算法對科技情報內(nèi)容文檔中圖像的信息進(jìn)行提取并保存,最終通過微信公眾號對獲取的科技情報內(nèi)容數(shù)據(jù)進(jìn)行推送,具體包括以下步驟: 步驟1、企業(yè)定制研究方向信息; 步驟2、網(wǎng)絡(luò)爬蟲讀取步驟I中企業(yè)定制的研究方向信息; 步驟3、網(wǎng)絡(luò)爬蟲根據(jù)步驟2中讀取的相關(guān)信息,基于廣度優(yōu)先搜索策略,使用HTTP協(xié)議訪問互聯(lián)網(wǎng)并獲取網(wǎng)頁信息; 步驟4、讀取步驟3中的網(wǎng)頁信息文本,并將其轉(zhuǎn)換成ARFF格式文件text, arff ; 步驟5、判斷訓(xùn)練完成的支持向量機分類器模型SM0.model是否存在,存在執(zhí)行步驟.13,不存在執(zhí)行步驟6 ; 步驟6、讀取訓(xùn)練集,并將其轉(zhuǎn)換成ARFF格式的文件train, arff ; 步驟7、對文件train, arff進(jìn)行預(yù)處理,包括:文本格式轉(zhuǎn)換、分詞、停用詞去除; 步驟8、將步驟7中預(yù)處理后的train, arff文件轉(zhuǎn)換成行為文本名,列為特征詞的向量空間模型,該模型表示特征詞在每個文本中出現(xiàn)的頻度,同時將轉(zhuǎn)換過程中得到的詞頻和文檔頻度加入集合wordset中; 步驟9、根據(jù)公式義20,
      2.根據(jù)權(quán)利要求1所述的一種基于文本分類和圖像深度挖掘的科技情報獲取與推送方法,其特征在于: 步驟I中所述抽取網(wǎng)頁中的內(nèi)容是指,利用任意Web數(shù)據(jù)抽取算法,抽取的網(wǎng)頁中包含的新聞、專利、論文信息; 步驟 4 中,ARFF 為 Attribute-Relat1n File Format 的縮寫; 步驟4到步驟23使用的是支持向量機對文本進(jìn)行訓(xùn)練并分類; 步驟6中所述訓(xùn)練集的內(nèi)容是指,通過網(wǎng)絡(luò)爬蟲在中國知網(wǎng)、新浪、科技部門網(wǎng)站所得新聞、論文,并由人工標(biāo)注確定所屬分類的語料庫;步驟23中所述類別標(biāo)簽包括A綜合;B農(nóng)業(yè)、林業(yè);C醫(yī)藥、衛(wèi)生、勞動保護;D礦業(yè);E石油;F能源、核技術(shù);G化工;H冶金J機械;K電工;L電子元器件與信息技術(shù);M通信、廣播;N儀器、儀表;P工程建設(shè);Q建材;R公路、水路運輸;S鐵路;T車輛;U船舶;V航空、航天;W紡織;X食品;Y輕工、文化與生活用品;Ζ環(huán)境保護,共24個分類; 步驟24到步驟32使用的是分割線算法對圖像進(jìn)行深度挖掘; 步驟34到步驟36中使用的推送方式為微信公眾號。
      【文檔編號】G06F17/30GK104035997SQ201410260379
      【公開日】2014年9月10日 申請日期:2014年6月13日 優(yōu)先權(quán)日:2014年6月13日
      【發(fā)明者】朱全銀, 嚴(yán)云洋, 李翔, 張永軍, 陳孚, 尹永華, 孫佩佩, 黃麗民, 費飛, 周泓 申請人:淮陰工學(xué)院
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1