国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      It資訊聚合閱讀個性化推薦方法

      文檔序號:9489449閱讀:411來源:國知局
      It資訊聚合閱讀個性化推薦方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明提供了一種基于文本挖掘的IT資訊聚合閱讀個性化推薦方法,涉及網(wǎng)絡(luò) 爬蟲,文本分類,文本挖掘以及文章推薦等核心技術(shù)與算法,高效地進行資訊梳理和個性化 推薦。
      [0002] 背景介紹
      [0003]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,海量信息時代已經(jīng)來臨,各類信息充斥于互聯(lián)網(wǎng),然而每 個人感興趣的信息只是其中很少的一部分,尋找感興趣的資訊變得越來越困難。
      [0004] 另一方面,互聯(lián)網(wǎng)資訊類網(wǎng)站眾多,很多信息都是重復(fù)的,一個熱點事件爆發(fā),各 家網(wǎng)站爭相報道討論,如果靠個人去區(qū)分一條資訊的好壞將會浪費很多時間。
      [0005] 互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)的興起,越來越多的人去關(guān)注IT資訊,同時關(guān)于IT的資訊 也大量增多,辨別與關(guān)注這些信息中的實時熱點話題越來越困難。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明的目的在于針對如今互聯(lián)網(wǎng)信息的繁雜,提供一種基于網(wǎng)絡(luò)爬蟲、文本挖 掘和推薦算法的IT資訊聚合閱讀個性化推薦方法。
      [0007] 本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種基于文本挖掘的IT資訊聚合 閱讀個性化推薦方法,通過網(wǎng)絡(luò)爬蟲定向爬取IT相關(guān)的資訊,通過SVM算法對爬取數(shù)據(jù)進 行分類。通過對用戶行為的分析,結(jié)合文章本身的屬性對用戶進行個性化推薦。具體包括 以下步驟:
      [0008] (1)采用網(wǎng)絡(luò)爬蟲的方式定向爬取IT相關(guān)資訊,根據(jù)當(dāng)前熱點網(wǎng)站,本發(fā)明選取 了"虎嗅"、"站長網(wǎng)"等十余個相關(guān)網(wǎng)站去爬取相關(guān)資訊,然后對爬取數(shù)據(jù)進行數(shù)據(jù)清洗、文 章分詞得到預(yù)處理后的文章,存儲到數(shù)據(jù)庫。
      [0009] (2)文章分類,在分類前,先由人工確定具體類別以及該類別對應(yīng)的關(guān)鍵字,分類 階段采用SVM算法對文章進行分類。分類過程分為以下兩個階段。
      [0010] 模型訓(xùn)練階段:人工在數(shù)據(jù)庫文章表中挑選各類別對應(yīng)的訓(xùn)練集,讀取數(shù)據(jù)庫中 文章的內(nèi)容信息,根據(jù)內(nèi)容信息創(chuàng)建語料庫,進行卡方檢驗,在卡方檢驗中設(shè)定閾值ε,挑 選結(jié)果值大于閾值ε的特征詞,ε可取3. 8。根據(jù)選好的特征詞創(chuàng)建文章VSM模型,將VSM 模型轉(zhuǎn)換為SVM模型所需的輸入?yún)?shù),調(diào)用SVM模型進行訓(xùn)練,所述SVM模型可選用來源于 臺灣大學(xué)林智仁教授的開發(fā)的R語言包el071。通過訓(xùn)練得到訓(xùn)練成功的SVM模型,將模型 保存為本地文件。
      [0011] 文章分類階段:讀取未分類文章,經(jīng)過分詞,去停止詞操作后將文章轉(zhuǎn)化為VSM模 型,然后調(diào)用已經(jīng)訓(xùn)練好的SVM模型進行訓(xùn)練,并將預(yù)測結(jié)果存入數(shù)據(jù)庫中。
      [0012] (3)文章分類質(zhì)量打分,在文章分類結(jié)束之后,對分類質(zhì)量進行打分,分類質(zhì)量在 一定程度上影響推薦結(jié)果。分類質(zhì)量打分需要考慮以下兩個因素:文章來源網(wǎng)站SITE_ WEIGHT,文章標(biāo)題關(guān)鍵字在其所對應(yīng)類別關(guān)鍵字列表中出現(xiàn)的次數(shù)NUM。根據(jù)文章來源網(wǎng)站 不同,SITE_WEIGHT取值在1到3之間,次數(shù)NUM對應(yīng)的權(quán)重NUM_WEIGHT為3,基于以上各 因素,文章分類質(zhì)量得分G計算公式如下:G=SITE_WEIGHT+3*NUM。
      [0013] (4)相似文章檢測,由于對于一個熱點新聞,很多文章都是相似的,識別方法如下: 根據(jù)步驟1的文章分詞結(jié)果,計算文章的simhash值,將更新的文章兩兩進行海明距離D計 算,同時和前一天文章的集合進行海明距離D計算,D= - 1表示題目相同,0 <D< 2表示 simHash值意義下的相似文章,3 <D表示一般文章。當(dāng)D〈3時,認(rèn)為兩篇文章相似,推薦時 是不會被同時推薦。
      [0014] (5)文章熱度打分,根據(jù)文章創(chuàng)作時間、閱讀次數(shù)、點贊次數(shù)三個因素,同時考慮全 體用戶對于該文章所屬類別及標(biāo)簽的偏好,對文章進行熱度打分,反映這篇文章在當(dāng)前階 段的受歡迎情況。具體各因素及權(quán)重如下:
      [0015]
      [0016]文章熱度得分Η=??ΜΕ*0· 3+READ*0. 2+APPRAISE*0. 2+SITE*0. 1
      [0017] +CATEG0RY*0. 1+TAG*0. 1
      [0018] (6)個性化文章推薦,分析用戶的行為,用戶的閱讀點贊記錄,分析用戶對于某類 網(wǎng)站,某類文章以及某些標(biāo)簽的偏好,同時結(jié)合文章本身的創(chuàng)作時間,文章被閱讀次數(shù),文 章被點贊次數(shù)信息按權(quán)重給推薦文章進行綜合打分。具體各因素及權(quán)重如下:
      [0021] 文章推薦得分SCORE=??ΜΕ*0· 3+READ*0. 2+APPRAISE*0. 2+SSITE*0. 1
      [0022] +SCATEG0RY*0. 1+STAG*0. 1
      [0023] 根據(jù)推薦的得分對文章進行排序,對得分大于1的文章進行推薦。
      [0024] (7)各類主題的個性化推薦,步驟2對爬取的文章進行了分類,當(dāng)用戶選取某一類 文章時,在推薦時,類別所占比重增大,具體比重如下:
      [0025]
      [0026]文章推薦得分Score=H*0. 3+G*0. 4+SSITE*0. 15+STAG*0. 15,根據(jù)推薦的得分對 文章進行排序,對得分大于1的文章進行推薦。
      [0027] 本發(fā)明的有益結(jié)果如下:
      [0028] (1)在海量數(shù)據(jù)中提取出關(guān)于IT的資訊,并對其進行精準(zhǔn)分類,解決了互聯(lián)網(wǎng)信 息雜亂的缺點;
      [0029] (2)通過分析用戶行為,針對用戶進行個性化文章推薦,大大節(jié)省了用戶的時間, 快速了解到自己想要的資訊。
      【附圖說明】
      [0030] 圖1是爬蟲采集原始文章示意圖;
      [0031] 圖2是文章分類過程示意圖;
      [0032] 圖3是文章分類質(zhì)量打分示意圖;
      [0033] 圖4是相似文章檢測示意圖;
      [0034] 圖5是文章推薦過程示意圖。
      【具體實施方式】
      [0035] 下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細(xì)說明。
      [0036] 本發(fā)明一種IT資訊聚合閱讀個性化推薦方法,包括以下步驟:
      [0037] (1)如圖1所示,以WebMagic爬蟲為基礎(chǔ),二次開發(fā)網(wǎng)絡(luò)爬蟲程序,爬蟲程序根據(jù) 任務(wù)分布式部署到多臺服務(wù)器上,定向爬取"虎嗅"、"站長網(wǎng)"、"51CT0"等十幾個知名網(wǎng)站 的文章,同時增加深度控制以免爬取到不相關(guān)數(shù)據(jù)。爬蟲程序定時運行,將采集的文章通過 網(wǎng)絡(luò)存入數(shù)據(jù)庫中,然后由ETL程序去處理原始文章,經(jīng)過文章去重、文章分詞操作得到預(yù) 處理后的文章,存儲到數(shù)據(jù)庫。
      [0038] (2)文章分類:如圖2所示,在分類前,先由人工確定具體類別以及該類別對應(yīng)的 關(guān)鍵字。分類階段采用了SVM算法對文章進行分類。分類過程分為以下兩個階段。
      [0039] 模型訓(xùn)練階段:人工在數(shù)據(jù)庫文章表中挑選各類別對應(yīng)的訓(xùn)練集,讀取數(shù)據(jù)庫中 文章的內(nèi)容
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1