国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法及裝置制造方法

      文檔序號:6523383閱讀:233來源:國知局
      一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法及裝置制造方法
      【專利摘要】本申請公開了一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法及裝置,包括:根據(jù)配置信息從選定的數(shù)據(jù)源中獲取宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息;對獲取的各網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離,以獲得相應(yīng)的標(biāo)題、正文、統(tǒng)計正文字?jǐn)?shù)信息;對所述獲得的各網(wǎng)頁信息中的標(biāo)題和正文進(jìn)行分詞處理且提取關(guān)鍵字,并分別計算宣傳監(jiān)測目標(biāo)的各網(wǎng)頁信息的信息量;根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息。通過本發(fā)明獲取選定的數(shù)據(jù)源的網(wǎng)頁信息,對宣傳監(jiān)測目標(biāo)網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離、分詞處理,實現(xiàn)通過處理獲得的信息,獲取宣傳力度信息,通過宣傳力度信息的分析可以為企業(yè)進(jìn)行文章投放提供有力的分析數(shù)據(jù)。
      【專利說明】一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本申請涉及互聯(lián)網(wǎng)領(lǐng)域,尤指一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法及裝置?!颈尘凹夹g(shù)】
      [0002]隨著商業(yè)活動節(jié)奏的不斷加快,企業(yè)生存和發(fā)展不僅需要最佳的決策,還需要決策制定的效率足夠迅速。充足的數(shù)據(jù)信息和對數(shù)據(jù)信息進(jìn)行有效的處理,對企業(yè)提出正確的決策有重要的作用。通過對網(wǎng)絡(luò)信息的分析了解,可以實現(xiàn)企業(yè)合理的利用網(wǎng)絡(luò)信息來為企業(yè)作合理推廣。通過數(shù)據(jù)信息的分析可以得到在成本最低、效果最好的網(wǎng)站上投放適合企業(yè)主題的文章,可以實現(xiàn)文章投放的最佳收益。
      [0003]伴隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,企業(yè)從網(wǎng)絡(luò)中獲得大量信息,以進(jìn)行決策分析,從網(wǎng)絡(luò)中獲得信息的方法相對于其它渠道具有免費(fèi)或廉價、易得、內(nèi)容豐富等優(yōu)勢,是當(dāng)前情報信息搜集的一個重要來源。但是,網(wǎng)絡(luò)信息存在以下問題:信息量過大、轉(zhuǎn)載源無法確定、重復(fù)鏈接、內(nèi)容重復(fù)、存在不包含正文信息的鏈接等。目前,對網(wǎng)絡(luò)信息的搜集和整理仍采用人工的方式,由于在數(shù)據(jù)采集過程中存在著大量重復(fù)的機(jī)械性的操作,利用人工實現(xiàn)存在著低效、缺乏周期性、主觀因素造成的操作失誤難以被發(fā)現(xiàn)而無法排除、重復(fù)信息過濾困難等。對于獲取的網(wǎng)頁信息如何進(jìn)行有效的效果分析,目前還沒有統(tǒng)一的可以使用的方法在市場上進(jìn)行推廣應(yīng)用,各企業(yè)根據(jù)他們獲得的大量數(shù)據(jù),采用各自認(rèn)為合理的方式,進(jìn)行相關(guān)的信息估算,對于估算獲得的信息,其效果如何也未曾有相關(guān)的數(shù)據(jù)和案例可以進(jìn)行分析。
      [0004]因此,目前采用網(wǎng)絡(luò)信息進(jìn)行數(shù)據(jù)整理的方法,采用人工的方式存在低效、缺乏周期性、存在操作失誤且無法排除等問題,另外,數(shù)據(jù)量過于龐大的網(wǎng)絡(luò)信息,存在一定的成本浪費(fèi),且采用全部網(wǎng)絡(luò)數(shù)據(jù)存在信息重點被淹沒、無效信息難以排除等問題;對于媒體宣傳效果分析,目前還沒有有效和系統(tǒng)的分析方法形成,因此,無法對獲取的網(wǎng)頁信息進(jìn)行有效處理。

      【發(fā)明內(nèi)容】

      [0005]為了解決上述問題,本發(fā)明提供一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法及裝置,能夠?qū)π麄鞅O(jiān)測目標(biāo)的網(wǎng)頁信息的進(jìn)行有效獲取,對網(wǎng)頁信息進(jìn)行數(shù)據(jù)處理和分析,提供企業(yè)在網(wǎng)絡(luò)上進(jìn)行文章投放的依據(jù)。
      [0006]為了達(dá)到本發(fā)明的目的,本發(fā)明提供一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法,包括:
      [0007]根據(jù)配置信息從選定的數(shù)據(jù)源中獲取宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息;
      [0008]對獲取的各網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離,以獲得相應(yīng)的標(biāo)題、正文、統(tǒng)計正文字?jǐn)?shù)信息;
      [0009]對所述獲得的各網(wǎng)頁信息中的標(biāo)題和正文進(jìn)行分詞處理且提取關(guān)鍵字,并分別計算宣傳監(jiān)測目標(biāo)的各網(wǎng)頁信息的信息量;[0010]根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息。
      [0011]進(jìn)一步地,信息量的計算為:網(wǎng)頁信息的中文字?jǐn)?shù)與相同網(wǎng)頁的個數(shù)的乘積;
      [0012]根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息包括:
      [0013]將所述各網(wǎng)頁信息的信息量與相應(yīng)的權(quán)重進(jìn)行乘積計算,并對所有網(wǎng)頁信息的乘積計算進(jìn)行積分,獲得宣傳監(jiān)測目標(biāo)的宣傳力度信息;其中,權(quán)重為:網(wǎng)頁信息中,若標(biāo)題中包含關(guān)鍵字,則賦值權(quán)重為P ;若正文包含關(guān)鍵字,則賦值權(quán)重為1 ;當(dāng)都包含關(guān)鍵字,則賦值為P+1;其中P大于1。
      [0014]進(jìn)一步地,選定的數(shù)據(jù)源為:新聞元搜索、和/或定點網(wǎng)站。
      [0015]進(jìn)一步地,在對所述網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離之前,該方法還包括:對所述獲取的網(wǎng)頁信息進(jìn)行鏈接去重。
      [0016]進(jìn)一步地,所述選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為未加密鏈接時,所述鏈接去重包括:
      [0017]采用布隆過濾器(Bloom Filter)算法過濾重復(fù)鏈接;過濾后,
      [0018]選擇任意所述新聞元搜索中的一個的網(wǎng)頁信息作為初始列表;
      [0019]采用simHash方法計算所述新聞元搜索中的其余新聞元搜索獲得的網(wǎng)頁信息的散列哈希(Hash)值,根據(jù)Hash值判斷是否發(fā)生碰撞;發(fā)生碰撞,則刪除鏈接;未發(fā)生碰撞,則更新初始列表。
      [0020]進(jìn)一步地,選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為加密鏈接時,所述鏈接去重包括:
      [0021]將加密鏈接和所述過濾后的未加密鏈接的原始網(wǎng)頁,通過網(wǎng)站特征字分離出標(biāo)題、正文、網(wǎng)站欄目、轉(zhuǎn)載來源、點擊率、評論率,統(tǒng)計正文字?jǐn)?shù)信息;
      [0022]對比加密鏈接的網(wǎng)頁與未加密鏈接的網(wǎng)頁,生成未加密鏈接的網(wǎng)站和欄目的Hash散列;
      [0023]采用simHash的方法計算加密鏈接的網(wǎng)站和欄目的Hash值,如果都產(chǎn)生碰撞,則對比從網(wǎng)頁中分離出的正文的字?jǐn)?shù),如果字?jǐn)?shù)也相同則視為相同鏈接,保留相同鏈接中的一個鏈接,其余刪除。
      [0024]進(jìn)一步地,選定的數(shù)據(jù)源為定點網(wǎng)站,所述鏈接去重包括:
      [0025]判斷所述獲得的網(wǎng)頁地址是否為列表鏈接地址,當(dāng)為列表鏈接地址時,刪除該網(wǎng)頁信息的鏈接地址;若不是,則繼續(xù)進(jìn)行網(wǎng)站特征字分離。
      [0026]進(jìn)一步地,在進(jìn)行網(wǎng)站特征字分離后,該方法還包括:將從定點網(wǎng)站獲取的網(wǎng)頁信息的正文進(jìn)行simHash算法分析,將判定為相似的新聞進(jìn)行合并。
      [0027]進(jìn)一步地,獲得所述鏈接去重信息后,該方法還包括:將所述鏈路去重后的鏈接進(jìn)行鏈接類型識別,將獲得的鏈接識別區(qū)分為:原文鏈接、列表鏈接和引用鏈接;刪除列表鏈接和引用鏈接。
      [0028]進(jìn)一步地,該方法還包括:對原文鏈接對應(yīng)的網(wǎng)頁信息的正文,進(jìn)行正確性判斷,刪除正文正確性判斷為無效的網(wǎng)頁信息;
      [0029]所述正確性判斷為:對網(wǎng)頁信息的正文進(jìn)行字?jǐn)?shù)統(tǒng)計,當(dāng)正文字?jǐn)?shù)不超過20字時,判斷為該正文對應(yīng)的網(wǎng)頁信息為無效。
      [0030]進(jìn)一步地,該方法還包括:周期性獲取宣傳監(jiān)測目標(biāo)的新增網(wǎng)頁信息。[0031]進(jìn)一步地,該方法還包括:對分詞處理后的網(wǎng)頁信息進(jìn)行類型詞識別,根據(jù)專家知識數(shù)據(jù)庫的類型詞,獲取網(wǎng)頁信息中在同一領(lǐng)域不同傾向上專家知識數(shù)據(jù)庫里存在的關(guān)鍵字,進(jìn)行企業(yè)不同類型詞對應(yīng)的宣傳力度信息計算,獲得企業(yè)在不同傾向的宣傳力度比對信息。
      [0032]進(jìn)一步地,類型詞識別為:將獲得的網(wǎng)頁信息,通過與類型特征詞數(shù)據(jù)庫進(jìn)行對比識別,獲得反映網(wǎng)頁信息內(nèi)容的類型的詞語;
      [0033]所述類型特征詞數(shù)據(jù)庫包含技術(shù)特征詞、財經(jīng)股市特征詞、招投標(biāo)特征詞,其它類型詞根據(jù)關(guān)注的企業(yè)類型進(jìn)行增減。
      [0034]進(jìn)一步地,網(wǎng)站特征字分離還獲得網(wǎng)站欄目信息;所述鏈接去重還獲得鏈接去重刪除的鏈接個數(shù)信息;該方法還包括:根據(jù)宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的網(wǎng)站欄目信息,確定宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息被元搜索引擎網(wǎng)站收錄的、包含鏈接去重刪除的鏈接在內(nèi)的鏈接個數(shù)信息,獲得文章發(fā)布效果信息;
      [0035]所述文章發(fā)布效果與元搜索引擎網(wǎng)站收錄個數(shù)成正比。
      [0036]進(jìn)一步地,網(wǎng)站特征字分離還獲得轉(zhuǎn)載信息;該方法還包括:
      [0037]對所述宣傳監(jiān)測目標(biāo)的初始發(fā)布的各網(wǎng)站的直接轉(zhuǎn)載、和被直接轉(zhuǎn)載后的各網(wǎng)站的間接轉(zhuǎn)載進(jìn)行記錄和統(tǒng)計;
      [0038]計算直接轉(zhuǎn)載統(tǒng)計數(shù)值與間接轉(zhuǎn)載統(tǒng)計數(shù)值之商、獲得轉(zhuǎn)載增益度信息;根據(jù)轉(zhuǎn)載增益度信息,獲得企業(yè)發(fā)布網(wǎng)頁信息的成本和宣傳效果信息;
      [0039]所述轉(zhuǎn)載增益度與宣傳監(jiān)測目標(biāo)發(fā)布網(wǎng)頁信息的成本成反比,與宣傳效果成正比。
      [0040]進(jìn)一步地,當(dāng)獲得的宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的轉(zhuǎn)載信息缺省轉(zhuǎn)載源時,該方法還包括:
      [0041]將所述獲取的網(wǎng)頁信息的來源網(wǎng)站按信息發(fā)表時間排序,對時間排序中包含的總的時間區(qū)間進(jìn)行分段,且每一時間段長度相同;其中,分段的數(shù)量與總的時間區(qū)間長度成正比;
      [0042]對缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段之前的全部時間段內(nèi)的網(wǎng)頁信息,設(shè)置同一時間段內(nèi)的各網(wǎng)頁信息具有相同的被轉(zhuǎn)載概率,且從與所述缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段相鄰的時間段開始至?xí)r間間隔最長的網(wǎng)頁信息被轉(zhuǎn)載概率依次變小,計算網(wǎng)頁信息采用各關(guān)鍵字作為檢索詞下的相應(yīng)的被轉(zhuǎn)載概率;
      [0043]累加所述各網(wǎng)頁信息的所有檢索詞下被轉(zhuǎn)載概率,將被轉(zhuǎn)載概率最大的網(wǎng)頁信息設(shè)定為缺省轉(zhuǎn)載源網(wǎng)頁信息的轉(zhuǎn)載源。
      [0044]進(jìn)一步地,分段的數(shù)量與總的時間區(qū)間長度成正比包括:
      [0045]當(dāng)總的時間區(qū)間長度大于10天時,分段的數(shù)量為5 ;當(dāng)總的時間區(qū)間長度小于10天時,分段的數(shù)量為2?5之間。
      [0046]進(jìn)一步地,網(wǎng)站特征字分離還獲得:元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)信息,該方法還包括:采用Τ0Ρ-Κ算法,以網(wǎng)頁鏈接作為元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)、直接轉(zhuǎn)載次數(shù)、間接轉(zhuǎn)載次數(shù)、轉(zhuǎn)載增益度作為元素的屬性參數(shù),獲得最適宜投放宣傳監(jiān)測目標(biāo)的文章的K個網(wǎng)站信息。
      [0047]另一方面,本發(fā)明還提供一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的裝置,包括:獲取單元、網(wǎng)站特征字分離單元、分詞單元及宣傳力度分析單元;其中,
      [0048]獲取單元,用于根據(jù)配置信息從選定的數(shù)據(jù)源中獲取宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息;
      [0049]網(wǎng)站特征字分離單元,用于分離獲取單元獲取的各網(wǎng)頁信息,以獲得相應(yīng)的標(biāo)題、正文、統(tǒng)計正文字?jǐn)?shù)信息;
      [0050]分詞單元,用于對網(wǎng)站特征字分離單元輸出的各網(wǎng)頁信息的標(biāo)題和正文進(jìn)行分詞處理且提取關(guān)鍵字;
      [0051]宣傳力度分析單元,用于根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息。
      [0052]進(jìn)一步地,信息量的計算為:網(wǎng)頁信息的中文字?jǐn)?shù)與相同網(wǎng)頁的個數(shù)的乘積;
      [0053]所述根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息包括:
      [0054]將所述各網(wǎng)頁信息的信息量與相應(yīng)的權(quán)重進(jìn)行乘積計算,并對所有網(wǎng)頁信息的乘積計算進(jìn)行積分,獲得宣傳監(jiān)測目標(biāo)的宣傳力度信息;其中,權(quán)重為:網(wǎng)頁信息中,若標(biāo)題中包含關(guān)鍵字,則賦值權(quán)重為P ;若正文包含關(guān)鍵字,則賦值權(quán)重為1 ;當(dāng)都包含關(guān)鍵字,則賦值為P+1;其中P大于1。
      [0055]進(jìn)一步地,選定的數(shù)據(jù)源為:
      [0056]新聞元搜索、和/或,定點網(wǎng)站。
      [0057]進(jìn)一步地,該裝置還包括鏈接去重單元,用于,對所述獲取單元獲得的網(wǎng)頁信息進(jìn)行鏈接去重。
      [0058]進(jìn)一步地,選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為未加密鏈接時,所述鏈接去重包括:
      [0059]采用布隆過濾器(Bloom Filter)算法過濾重復(fù)鏈接;過濾后,
      [0060]選擇任意所述新聞元搜索中的一個的網(wǎng)頁信息作為初始列表;
      [0061]采用simHash方法計算所述新聞元搜索中的其余新聞元搜索獲得的網(wǎng)頁信息的散列哈希(Hash)值,根據(jù)Hash值判斷是否發(fā)生碰撞;發(fā)生碰撞,則刪除鏈接;未發(fā)生碰撞,則更新初始列表。
      [0062]進(jìn)一步地,選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為加密鏈接時,所述鏈接去重包括:
      [0063]將加密鏈接和所述過濾后的未加密鏈接的原始網(wǎng)頁,通過網(wǎng)站特征字分離出標(biāo)題、正文、網(wǎng)站欄目、轉(zhuǎn)載來源、點擊率、評論率,統(tǒng)計正文字?jǐn)?shù)信息;
      [0064]對比加密鏈接的網(wǎng)頁與未加密鏈接的網(wǎng)頁,生成未加密鏈接的網(wǎng)站和欄目的Hash散列;
      [0065]采用simHash的方法計算加密鏈接的網(wǎng)站和欄目的Hash值,如果都產(chǎn)生碰撞,則對比從網(wǎng)頁中分離出的正文的字?jǐn)?shù),如果字?jǐn)?shù)也相同則視為相同鏈接,保留相同鏈接中的一個鏈接,其余刪除。
      [0066]進(jìn)一步地,選定的數(shù)據(jù)源為定點網(wǎng)站,所述鏈接去重包括:
      [0067]判斷所述獲得的網(wǎng)頁地址是否為列表鏈接地址,當(dāng)為列表鏈接地址時,刪除該網(wǎng)頁信息的鏈接地址;若不是,則繼續(xù)進(jìn)行網(wǎng)站特征字分離。
      [0068]進(jìn)一步地,該裝置還包括合并單元,用于將從定點網(wǎng)站獲取的網(wǎng)頁信息在進(jìn)行網(wǎng)站特征字分離后,對正文進(jìn)行simHash算法分析,將判定為相似的網(wǎng)頁信息進(jìn)行合并。[0069]進(jìn)一步地,該裝置還包括鏈接類別識別單元,連接于鏈接去重單元和分詞單元之間,用于將所述鏈接去重單元獲得的鏈接進(jìn)行鏈接類型識別,將獲得的鏈接識別區(qū)分為:原文鏈接、列表鏈接和引用鏈接;刪除列表鏈接和引用鏈接。
      [0070]進(jìn)一步地,該裝置還包括正確性判斷單元,用于對鏈接類型識別單元獲得的原文鏈接的網(wǎng)頁信息的正文,進(jìn)行正確性判斷,刪除正文正確性判斷為無效的網(wǎng)頁信息;
      [0071]所述正確性判斷為:對網(wǎng)頁信息的正文進(jìn)行字?jǐn)?shù)統(tǒng)計,當(dāng)正文字?jǐn)?shù)不超過20字時,判斷為該正文對應(yīng)的網(wǎng)頁信息為無效。
      [0072]進(jìn)一步地,該裝置還包括增量獲取單元:用于周期性獲取宣傳監(jiān)測目標(biāo)網(wǎng)頁的新增網(wǎng)頁信息。
      [0073]進(jìn)一步地,該裝置還包括宣傳力度比對單元,用于根據(jù)分詞處理后的網(wǎng)頁信息進(jìn)行類型詞識別,根據(jù)專家知識數(shù)據(jù)庫的類型詞,獲取網(wǎng)頁信息中在同一領(lǐng)域不同傾向上專家知識數(shù)據(jù)庫里存在的關(guān)鍵字,進(jìn)行企業(yè)不同類型詞對應(yīng)的宣傳力度信息計算,獲得企業(yè)在不同傾向的宣傳力度比對信息。
      [0074]進(jìn)一步地,類型詞識別為:將獲得的網(wǎng)頁信息,通過與類型特征詞數(shù)據(jù)庫進(jìn)行對比識別,獲得反映網(wǎng)頁信息內(nèi)容的類型的詞語;
      [0075]所述類型特征詞數(shù)據(jù)庫包含技術(shù)特征詞、財經(jīng)股市特征詞、招投標(biāo)特征詞,其它類型詞根據(jù)關(guān)注的企業(yè)類型進(jìn)行增減。
      [0076]進(jìn)一步地,網(wǎng)站特征字分離單元還獲得網(wǎng)站欄目信息;所述鏈接去重單元還獲得鏈接去重刪除的鏈接個數(shù)信息;該裝置還包括發(fā)布效果分析單元,用于根據(jù)宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的網(wǎng)站欄目信息,確定宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息被元搜索引擎網(wǎng)站收錄的、包含鏈接去重刪除的鏈接在內(nèi)的鏈接個數(shù)信息,獲得文章發(fā)布效果信息;
      [0077]所述文章發(fā)布效果與元搜索引擎網(wǎng)站收錄個數(shù)成正比。
      [0078]進(jìn)一步地,網(wǎng)站特征字分離單元還獲得轉(zhuǎn)載信息;該裝置還包括轉(zhuǎn)載增益度單元,用于對所述宣傳監(jiān)測目標(biāo)的初始發(fā)布的各網(wǎng)站的直接轉(zhuǎn)載、和被直接轉(zhuǎn)載后的各網(wǎng)站的間接轉(zhuǎn)載進(jìn)行記錄和統(tǒng)計;計算直接轉(zhuǎn)載統(tǒng)計數(shù)值與間接轉(zhuǎn)載統(tǒng)計數(shù)值之商、獲得轉(zhuǎn)載增益度信息;根據(jù)轉(zhuǎn)載增益度信息,獲得企業(yè)發(fā)布網(wǎng)頁信息的成本和宣傳效果信息;
      [0079]所述轉(zhuǎn)載增益度與宣傳監(jiān)測目標(biāo)發(fā)布網(wǎng)頁信息的成本成反比,與宣傳效果成正比。
      [0080]進(jìn)一步地,當(dāng)獲得的宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的轉(zhuǎn)載信息缺省轉(zhuǎn)載源時,該裝置還包括轉(zhuǎn)載源確定單元,用于將所述獲取的網(wǎng)頁信息的來源網(wǎng)站按信息發(fā)表時間排序,對時間排序中包含的總的時間區(qū)間進(jìn)行分段,且每一時間段長度相同;其中,分段的數(shù)量與總的時間區(qū)間長度成正比;
      [0081]對缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段之前的全部時間段內(nèi)的網(wǎng)頁信息,設(shè)置同一時間段內(nèi)的各網(wǎng)頁信息具有相同的被轉(zhuǎn)載概率,且從與所述缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段相鄰的時間段開始至?xí)r間間隔最長的網(wǎng)頁信息被轉(zhuǎn)載概率依次變小,計算網(wǎng)頁信息采用各關(guān)鍵字作為檢索詞下的相應(yīng)的被轉(zhuǎn)載概率;
      [0082]累加所述各網(wǎng)頁信息的所有檢索詞下被轉(zhuǎn)載概率,將被轉(zhuǎn)載概率最大的網(wǎng)頁信息設(shè)定為缺省轉(zhuǎn)載源網(wǎng)頁信息的轉(zhuǎn)載源。
      [0083]進(jìn)一步地,分段的數(shù)量與總的時間區(qū)間長度成正比;包括:[0084]當(dāng)總的時間區(qū)間長度大于10天時,分段的數(shù)量為5 ;當(dāng)總的時間區(qū)間長度小于10天時,分段的數(shù)量為2~5之間。
      [0085]進(jìn)一步地,網(wǎng)站特征字分離單元還獲得:元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)信息,該裝置還包括投放最優(yōu)單元,用于根據(jù)--Ρ-Κ算法,以網(wǎng)頁鏈接作為元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)、直接轉(zhuǎn)載次數(shù)、間接轉(zhuǎn)載次數(shù)、轉(zhuǎn)載增益度作為元素的屬性參數(shù),獲得最適宜投放宣傳監(jiān)測目標(biāo)的文章的K個網(wǎng)站信息。
      [0086]本發(fā)明提出一種技術(shù)方案,包括:根據(jù)配置信息從選定的數(shù)據(jù)源中獲取宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息;對獲取的各網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離,以獲得相應(yīng)的標(biāo)題、正文、統(tǒng)計正文字?jǐn)?shù)信息;對所述獲得的各網(wǎng)頁信息中的標(biāo)題和正文進(jìn)行分詞處理且提取關(guān)鍵字,并分別計算宣傳監(jiān)測目標(biāo)的各網(wǎng)頁信息的信息量;根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息。通過本發(fā)明獲取選定的數(shù)據(jù)源數(shù)據(jù),對宣傳監(jiān)測目標(biāo)網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離、分詞處理,實現(xiàn)通過處理獲得的信息,獲取宣傳力度信息,通過宣傳力度信息的分析可以為企業(yè)進(jìn)行文章投放提供有力的分析數(shù)據(jù)。
      [0087]另一方面,本發(fā)明還通過對不同的類型詞,計算宣傳監(jiān)測目標(biāo)在同一領(lǐng)域不同傾向的宣傳力度比較信息,通過網(wǎng)頁信息被元搜索網(wǎng)站的收錄情況,網(wǎng)頁信息的轉(zhuǎn)載增益度等信息對文章投放的效果和成本等進(jìn)行分析。
      [0088]再一方面,本發(fā)明通過Τ0Ρ-Κ算法,以鏈接作為元素標(biāo)識符,鏈接的點擊數(shù)、評論數(shù)、直接轉(zhuǎn)載次數(shù)、間接轉(zhuǎn)載次數(shù)、轉(zhuǎn)載增益度作為元素的屬性參數(shù),獲得最適宜投放宣傳監(jiān)測目標(biāo)發(fā)布的K個網(wǎng)站 信息。
      【專利附圖】

      【附圖說明】
      [0089]附圖用來提供對本申請技術(shù)方案的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本申請的實施例一起用于解釋本申請的技術(shù)方案,并不構(gòu)成對本申請技術(shù)方案的限制。
      [0090]圖1為本發(fā)明實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法的流程圖;
      [0091]圖2為本發(fā)明實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的裝置的結(jié)構(gòu)框圖。
      【具體實施方式】
      [0092]為使本申請的目的、技術(shù)方案和優(yōu)點更加清楚明白,下文中將結(jié)合附圖對本申請的實施例進(jìn)行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
      [0093]圖1為本發(fā)明實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法的流程圖,如圖1所示,包括:
      [0094]步驟100、根據(jù)配置信息從選定的數(shù)據(jù)源中獲取宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息。
      [0095]本步驟中,選定數(shù)據(jù)源為:新聞元搜索、和/或,定點網(wǎng)站。
      [0096]需要說明的是,配置信息為人為設(shè)定或者從現(xiàn)有的網(wǎng)頁信息獲取涉及的數(shù)據(jù)庫等獲得,只是為了用于限定獲取宣傳監(jiān)測目標(biāo)而設(shè)定,這里的宣傳監(jiān)測目標(biāo)為【背景技術(shù)】中涉及的需要企業(yè)進(jìn)行相關(guān)活動而投放在互聯(lián)網(wǎng)上的文章信息。雖然獲得網(wǎng)頁信息的方法很多,但是過多的數(shù)據(jù)和信息量小的數(shù)據(jù),對于企業(yè)對相關(guān)信息的分析獲取,并不存在實際意義。
      [0097]步驟101、對獲取的各網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離,以獲得相應(yīng)的標(biāo)題、正文、統(tǒng)計正文字?jǐn)?shù)信息。
      [0098]需要說明的是,網(wǎng)站特征字分離的方法,為現(xiàn)有的技術(shù),用于將獲取的網(wǎng)頁信息進(jìn)行分離整理,整理出來的信息內(nèi)容包括:標(biāo)題、正文、網(wǎng)站欄目、轉(zhuǎn)載來源、點擊率、評論率,統(tǒng)計正文字?jǐn)?shù)等信息等。在本發(fā)明后續(xù)的內(nèi)容中,涉及到網(wǎng)站特征字分離都是包括相同的內(nèi)容,只是在不同的權(quán)利要求項中,用到了其中的部分信息而已,之后的內(nèi)容將不再陳述。表1為網(wǎng)站特征字分離的一個實例列表,檢索關(guān)鍵字為配置信息的內(nèi)容。
      [0099]表1
      【權(quán)利要求】
      1.一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的方法,其特征在于,包括:根據(jù)配置信息從選定的數(shù)據(jù)源中獲取宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息;對獲取的各網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離,以獲得相應(yīng)的標(biāo)題、正文、統(tǒng)計正文字?jǐn)?shù)信息;對所述獲得的各網(wǎng)頁信息中的標(biāo)題和正文進(jìn)行分詞處理且提取關(guān)鍵字,并分別計算宣傳監(jiān)測目標(biāo)的各網(wǎng)頁信息的信息量;根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述信息量的計算為:網(wǎng)頁信息的中文字?jǐn)?shù)與相同網(wǎng)頁的個數(shù)的乘積;所述根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息包括:將所述各網(wǎng)頁信息的信息量與相應(yīng)的權(quán)重進(jìn)行乘積計算,并對所有網(wǎng)頁信息的乘積計算進(jìn)行積分,獲得宣傳監(jiān)測目標(biāo)的宣傳力度信息;其中,權(quán)重為:網(wǎng)頁信息中,若標(biāo)題中包含關(guān)鍵字,則賦值權(quán)重為P ;若正文包含關(guān)鍵字,則賦值權(quán)重為1 ;當(dāng)都包含關(guān)鍵字,則賦值為p +1;其中p大于1。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述選定的數(shù)據(jù)源為:新聞元搜索、和/或定點網(wǎng)站。
      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對所述網(wǎng)頁信息進(jìn)行網(wǎng)站特征字分離之前,該方法還包括:對所述獲取的網(wǎng)頁信息進(jìn)行鏈接去重。
      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為未加密鏈接時,所述鏈接去重包括:采用布隆過濾器Bloom Filter算法過濾重復(fù)鏈接;過濾后,選擇任意所述新聞元搜索中的一個的網(wǎng)頁信息作為初始列表;采用simHash方法計算所述新聞元搜索中的其余新聞元搜索獲得的網(wǎng)頁信息的散列哈希Hash值,根據(jù)Hash值判斷是否發(fā)生碰撞;發(fā)生碰撞,則刪除鏈接;未發(fā)生碰撞,則更新初始列表。
      6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為加密鏈接時,所述鏈接去重包括:將加密鏈接和所述過濾后的未加密鏈接的原始網(wǎng)頁,通過網(wǎng)站特征字分離出標(biāo)題、正文、網(wǎng)站欄目、轉(zhuǎn)載來源、點擊率、評論率,統(tǒng)計正文字?jǐn)?shù)信息;對比加密鏈接的網(wǎng)頁與未加密鏈接的網(wǎng)頁,生成未加密鏈接的網(wǎng)站和欄目的Hash散列;采用simHash的方法計算加密鏈接的網(wǎng)站和欄目的Hash值,如果都產(chǎn)生碰撞,則對比從網(wǎng)頁中分離出的正文的字?jǐn)?shù),如果字?jǐn)?shù)也相同則視為相同鏈接,保留相同鏈接中的一個鏈接,其余刪除。
      7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述選定的數(shù)據(jù)源為定點網(wǎng)站,所述鏈接去重包括:判斷所述獲得的網(wǎng)頁地址是否為列表鏈接地址,當(dāng)為列表鏈接地址時,刪除該網(wǎng)頁信息的鏈接地址;若不是,則繼續(xù)進(jìn)行網(wǎng)站特征字分離。
      8.根據(jù)權(quán)利要求7所述的方法,其特征在于,在進(jìn)行網(wǎng)站特征字分離后,該方法還包括:將從定點網(wǎng)站獲取的網(wǎng)頁信息的正文進(jìn)行simHash算法分析,將判定為相似的新聞進(jìn)行合并。
      9.根據(jù)權(quán)利要求4~8任一項所述的方法,其特征在于,獲得所述鏈接去重信息后,該方法還包括:將所述鏈路去重后的鏈接進(jìn)行鏈接類型識別,將獲得的鏈接識別區(qū)分為:原文鏈接、列表鏈接和引用鏈接;刪除列表鏈接和引用鏈接。
      10.根據(jù)權(quán)利要求9所述的方法,其特征在于,該方法還包括:對原文鏈接對應(yīng)的網(wǎng)頁信息的正文,進(jìn)行正確性判斷,刪除正文正確性判斷為無效的網(wǎng)頁信息;所述正確性判斷為:對網(wǎng)頁信息的正文進(jìn)行字?jǐn)?shù)統(tǒng)計,當(dāng)正文字?jǐn)?shù)不超過20字時,判斷為該正文對應(yīng)的網(wǎng)頁信息為無效。
      11.根據(jù)權(quán)利要求9所述的方法,其特征在于,該方法還包括:周期性獲取宣傳監(jiān)測目標(biāo)的新增網(wǎng)頁信息。
      12.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括:對分詞處理后的網(wǎng)頁信息進(jìn)行類型詞識別,根據(jù)專家知識數(shù)據(jù)庫的類型詞,獲取網(wǎng)頁信息中在同一領(lǐng)域不同傾向上專家知識數(shù)據(jù)庫里存在的關(guān)鍵字,進(jìn)行企業(yè)不同類型詞對應(yīng)的宣傳力度信息計算,獲得企業(yè)在不同傾向的宣傳力度比對信息。
      13.根據(jù)權(quán)利要求12所述的方法,其特征在于,所述類型詞識別為:將獲得的網(wǎng)頁信息,通過與類型特征詞數(shù)據(jù)庫進(jìn)行對比識別,獲得反映網(wǎng)頁信息內(nèi)容的類型的詞語;所述類型特征詞庫包含技術(shù)特征詞、財經(jīng)股市特征詞、招投標(biāo)特征詞,其它類型詞根據(jù)關(guān)注的企業(yè)類型進(jìn)行增減。
      14.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述網(wǎng)站特征字分離還獲得網(wǎng)站欄目信息;所述鏈接去重還獲得鏈接去重刪除的鏈接個數(shù)信息;該方法還包括:根據(jù)宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的網(wǎng)站欄目信息,確定宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息被元搜索引擎網(wǎng)站收錄的、包含鏈接去重刪除的鏈接在內(nèi)的鏈接個數(shù)信息,獲得文章發(fā)布效果信息;所述文章發(fā)布效果與元搜索引擎網(wǎng)站收錄個數(shù)成正比。
      15.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)站特征字分離還獲得轉(zhuǎn)載信息;該方法還包括:對所述宣傳監(jiān)測目標(biāo)的初始發(fā)布的各網(wǎng)站的直接轉(zhuǎn)載、和被直接轉(zhuǎn)載后的各網(wǎng)站的間接轉(zhuǎn)載進(jìn)行記錄和統(tǒng)計;計算直接轉(zhuǎn)載統(tǒng)計數(shù)值與間接轉(zhuǎn)載統(tǒng)計數(shù)值之商、獲得轉(zhuǎn)載增益度信息;根據(jù)轉(zhuǎn)載增益度信息,獲得企業(yè)發(fā)布網(wǎng)頁信息的成本和宣傳效果信息;所述轉(zhuǎn)載增益度與宣傳監(jiān)測目標(biāo)發(fā)布網(wǎng)頁信息的成本成反比,與宣傳效果成正比。
      16.根據(jù)權(quán)利要求15所述的方法,其特征在于,當(dāng)獲得的宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的轉(zhuǎn)載信息缺省轉(zhuǎn)載源時,該方法還包括:將所述獲取的網(wǎng)頁信息的來源網(wǎng)站按信息發(fā)表時間排序,對時間排序中包含的總的時間區(qū)間進(jìn)行分段,且每一時間段長度相同;其中,分段的數(shù)量與總的時間區(qū)間長度成正比;對缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段之前的全部時間段內(nèi)的網(wǎng)頁信息,設(shè)置同一時間段內(nèi)的各網(wǎng)頁信息具有相同的被轉(zhuǎn)載概率,且從與所述缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段相鄰的時間段開始至?xí)r間間隔最長的網(wǎng)頁信息被轉(zhuǎn)載概率依次變小,計算網(wǎng)頁信息采用各關(guān)鍵字作為檢索詞下的相應(yīng)的被轉(zhuǎn)載概率;累加所述各網(wǎng)頁信息的所有檢索詞下被轉(zhuǎn)載概率,將被轉(zhuǎn)載概率最大的網(wǎng)頁信息設(shè)定為缺省轉(zhuǎn)載源網(wǎng)頁信息的轉(zhuǎn)載源。
      17.根據(jù)權(quán)利要求16所述的方法,其特征在于,所述分段的數(shù)量與總的時間區(qū)間長度成正比包括:當(dāng)總的時間區(qū)間長度大于10天時,分段的數(shù)量為5 ;當(dāng)總的時間區(qū)間長度小于10天時,分段的數(shù)量為2~5之間。
      18.根據(jù)權(quán)利要求15所述的方法,其特征在于,所述網(wǎng)站特征字分離還獲得:元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)信息,該方法還包括:采用TOP-K算法,以網(wǎng)頁鏈接作為元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)、直接轉(zhuǎn)載次數(shù)、間接轉(zhuǎn)載次數(shù)、轉(zhuǎn)載增益度作為元素的屬性參數(shù),獲得最適宜投放宣傳監(jiān)測目標(biāo)的文章的K個網(wǎng)站信息。
      19.一種實現(xiàn)互聯(lián)網(wǎng)宣傳監(jiān)測目標(biāo)評估的裝置,其特征在于,包括:獲取單元、網(wǎng)站特征字分離單元、分詞單元及宣傳力度分析單元;其中,獲取單元,用于根據(jù)配置信息從選定的數(shù)據(jù)源中獲取宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息;網(wǎng)站特征字分離單元,用于分離獲取單元獲取的各網(wǎng)頁信息,以獲得相應(yīng)的標(biāo)題、正文、統(tǒng)計正文字?jǐn)?shù)信息;分詞單元,用于對網(wǎng)站特征字分離單元輸出的各網(wǎng)頁信息的標(biāo)題和正文進(jìn)行分詞處理且提取關(guān)鍵字;宣傳力度分析單元,用于根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信肩、Ο
      20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述信息量的計算為:網(wǎng)頁信息的中文字?jǐn)?shù)與相同網(wǎng)頁的個數(shù)的乘積;所述根據(jù)各網(wǎng)頁信息的信息量確定宣傳監(jiān)測目標(biāo)的宣傳力度信息包括:將所述各網(wǎng)頁信息的信息量與相應(yīng)的權(quán)重進(jìn)行乘積計算,并對所有網(wǎng)頁信息的乘積計算進(jìn)行積分,獲得宣傳監(jiān)測目標(biāo)的宣傳力度信息;其中,權(quán)重為:網(wǎng)頁信息中,若標(biāo)題中包含關(guān)鍵字,則賦值權(quán)重為Ρ ;若正文包含關(guān)鍵字,則賦值權(quán)重為1 ;當(dāng)都包含關(guān)鍵字,則賦值為ρ +1;其中ρ大于1。
      21.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述選定的數(shù)據(jù)源為:新聞元搜索、和/或,定點網(wǎng)站。
      22.根據(jù)權(quán)利要求19所述的裝置,其特征在于,該裝置還包括鏈接去重單元,用于,對所述獲取單元獲得的網(wǎng)頁信息進(jìn)行鏈接去重。
      23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為未加密鏈接時,所述鏈接去重包括:采用布隆過濾器Bloom F ilter算法過濾重復(fù)鏈接;過濾后,選擇任意所述新聞元搜索中的一個的網(wǎng)頁信息作為初始列表;采用simHash方法計算所述新聞元搜索中的其余新聞元搜索獲得的網(wǎng)頁信息的散列哈希Hash值,根據(jù)Hash值判斷是否發(fā)生碰撞;發(fā)生碰撞,則刪除鏈接;未發(fā)生碰撞,則更新初始列表。
      24.根據(jù)權(quán)利要求22所述的方法,其特征在于,所述選定的數(shù)據(jù)源為新聞元搜索,且所述鏈接為加密鏈接時,所述鏈接去重包括:將加密鏈接和所述過濾后的未加密鏈接的原始網(wǎng)頁,通過網(wǎng)站特征字分離出標(biāo)題、正文、網(wǎng)站欄目、轉(zhuǎn)載來源、點擊率、評論率,統(tǒng)計正文字?jǐn)?shù)信息;對比加密鏈接的網(wǎng)頁與未加密鏈接的網(wǎng)頁,生成未加密鏈接的網(wǎng)站和欄目的Hash散列;采用simHash的方法計算加密鏈接的網(wǎng)站和欄目的Hash值,如果都產(chǎn)生碰撞,則對比從網(wǎng)頁中分離出的正文的字?jǐn)?shù),如果字?jǐn)?shù)也相同則視為相同鏈接,保留相同鏈接中的一個鏈接,其余刪除。
      25.根據(jù)權(quán)利要求23所述的方法,其特征在于,所述選定的數(shù)據(jù)源為定點網(wǎng)站,所述鏈接去重包括:判斷所述獲得的網(wǎng)頁地址是否為列表鏈接地址,當(dāng)為列表鏈接地址時,刪除該網(wǎng)頁信息的鏈接地址;若不是,則繼續(xù)進(jìn)行網(wǎng)站特征字分離。
      26.根據(jù)權(quán)利要求25所述的方法,其特征在于,該裝置還包括合并單元,用于將從定點網(wǎng)站獲取的網(wǎng)頁信息在進(jìn)行網(wǎng)站特征字分離后,對正文進(jìn)行simHash算法分析,將判定為相似的網(wǎng)頁信息進(jìn)行合并。
      27.根據(jù)權(quán)利要求22~26任一項所述的裝置,其特征在于,該裝置還包括鏈接類別識別單元,連接于鏈接去重單元和分詞單元之間,用于將所述鏈接去重單元獲得的鏈接進(jìn)行鏈接類型識別,將獲得的鏈接識別區(qū)分為:原文鏈接、列表鏈接和引用鏈接;刪除列表鏈接和引用鏈接。
      28.根據(jù)權(quán)利要求27所述的裝置,其特征在于,該裝置還包括正確性判斷單元,用于對鏈接類型識別單元獲得的 原文鏈接的網(wǎng)頁信息的正文,進(jìn)行正確性判斷,刪除正文正確性判斷為無效的網(wǎng)頁信息;所述正確性判斷為:對網(wǎng)頁信息的正文進(jìn)行字?jǐn)?shù)統(tǒng)計,當(dāng)正文字?jǐn)?shù)不超過20字時,判斷為該正文對應(yīng)的網(wǎng)頁信息為無效。
      29.根據(jù)權(quán)利要求27所述的裝置,其特征在于,該裝置還包括增量獲取單元:用于周期性獲取宣傳監(jiān)測目標(biāo)網(wǎng)頁的新增網(wǎng)頁信息。
      30.根據(jù)權(quán)利要求19所述的裝置,其特征在于,該裝置還包括宣傳力度比對單元,用于根據(jù)分詞處理后的網(wǎng)頁信息進(jìn)行類型詞識別,根據(jù)專家知識數(shù)據(jù)庫的類型詞,獲取網(wǎng)頁信息中在同一領(lǐng)域不同傾向上專家知識數(shù)據(jù)庫里存在的關(guān)鍵字,進(jìn)行企業(yè)不同類型詞對應(yīng)的宣傳力度信息計算,獲得企業(yè)在不同傾向的宣傳力度比對信息。
      31.根據(jù)權(quán)利要求30所述的裝置,所述類型詞識別為:將獲得的網(wǎng)頁信息,通過與類型特征詞數(shù)據(jù)庫進(jìn)行對比識別,獲得反映網(wǎng)頁信息內(nèi)容的類型的詞語;所述類型特征詞數(shù)據(jù)庫包含技術(shù)特征詞、財經(jīng)股市特征詞、招投標(biāo)特征詞,其它類型詞根據(jù)關(guān)注的企業(yè)類型進(jìn)行增減。
      32.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述網(wǎng)站特征字分離單元還獲得網(wǎng)站欄目信息;所述鏈接去重單元還獲得鏈接去重刪除的鏈接個數(shù)信息;該裝置還包括發(fā)布效果分析單元,用于根據(jù)宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的網(wǎng)站欄目信息,確定宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息被元搜索引擎網(wǎng)站收錄的、包含鏈接去重刪除的鏈接在內(nèi)的鏈接個數(shù)信息,獲得文章發(fā)布效果信息;所述文章發(fā)布效果與元搜索引擎網(wǎng)站收錄個數(shù)成正比。
      33.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述網(wǎng)站特征字分離單元還獲得轉(zhuǎn)載信息;該裝置還包括轉(zhuǎn)載增益度單元,用于對所述宣傳監(jiān)測目標(biāo)的初始發(fā)布的各網(wǎng)站的直接轉(zhuǎn)載、和被直接轉(zhuǎn)載后的各網(wǎng)站的間接轉(zhuǎn)載進(jìn)行記錄和統(tǒng)計;計算直接轉(zhuǎn)載統(tǒng)計數(shù)值與間接轉(zhuǎn)載統(tǒng)計數(shù)值之商、獲得轉(zhuǎn)載增益度信息;根據(jù)轉(zhuǎn)載增益度信息,獲得企業(yè)發(fā)布網(wǎng)頁信息的成本和宣傳效果信息;所述轉(zhuǎn)載增益度與宣傳監(jiān)測目標(biāo)發(fā)布網(wǎng)頁信息的成本成反比,與宣傳效果成正比。
      34.根據(jù)權(quán)利要求33所述的裝置,其特征在于,當(dāng)獲得的宣傳監(jiān)測目標(biāo)的網(wǎng)頁信息的轉(zhuǎn)載信息缺省轉(zhuǎn)載源時,該裝置還包括轉(zhuǎn)載源確定單元,用于將所述獲取的網(wǎng)頁信息的來源網(wǎng)站按信息發(fā)表時間排序,對時間排序中包含的總的時間區(qū)間進(jìn)行分段,且每一時間段長度相同;其中,分段的數(shù)量與總的時間區(qū)間長度成正比;對缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段之前的全部時間段內(nèi)的網(wǎng)頁信息,設(shè)置同一時間段內(nèi)的各網(wǎng)頁信息具有相同的被轉(zhuǎn)載概率,且從與所述缺省轉(zhuǎn)載源的網(wǎng)頁信息所在時間段相鄰的時間段開始至?xí)r間間隔最長的網(wǎng)頁信息被轉(zhuǎn)載概率依次變小,計算網(wǎng)頁信息采用各關(guān)鍵字作為檢索詞下的相應(yīng)的被轉(zhuǎn)載概率;累加所述各網(wǎng)頁信息的所有檢索詞下被轉(zhuǎn)載概率,將被轉(zhuǎn)載概率最大的網(wǎng)頁信息設(shè)定為缺省轉(zhuǎn)載源網(wǎng)頁信息的轉(zhuǎn)載源。
      35.根據(jù)權(quán)利要求34所述的裝置,其特征在于,所述分段的數(shù)量與總的時間區(qū)間長度成正比;包括:當(dāng)總的時間區(qū)間長度大于10天時,分段的數(shù)量為5 ;當(dāng)總的時間區(qū)間長度小于10天時,分段的數(shù)量為2~5之間。
      36.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述網(wǎng)站特征字分離單元還獲得:元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)信息,該裝置還包括投放最優(yōu)單元,用于根據(jù)TOP-K算法,以網(wǎng)頁鏈接作為元素標(biāo)識符,網(wǎng)頁鏈接的點擊數(shù)、評論數(shù)、直接轉(zhuǎn)載次數(shù)、間接轉(zhuǎn)載次數(shù)、轉(zhuǎn)載增益度作為元素的屬性參數(shù),獲得最適宜投放宣傳監(jiān)測目標(biāo)的文章的K個網(wǎng)站信肩、Ο
      【文檔編號】G06F17/30GK103646078SQ201310676421
      【公開日】2014年3月19日 申請日期:2013年12月11日 優(yōu)先權(quán)日:2013年12月11日
      【發(fā)明者】王君鶴, 曲武 申請人:北京啟明星辰信息安全技術(shù)有限公司, 北京啟明星辰信息技術(shù)股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1