根據(jù)瀏覽網(wǎng)頁確定用戶感興趣的網(wǎng)頁文本的方法和系統(tǒng)的制作方法

文檔序號：6595956閱讀：280來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：根據(jù)瀏覽網(wǎng)頁確定用戶感興趣的網(wǎng)頁文本的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法和系統(tǒng)，用于針對用戶興趣偏好推送數(shù)據(jù)業(yè)務(wù)領(lǐng)域。
背景技術(shù)：
數(shù)據(jù)業(yè)務(wù)推送在2011年開始了全面的綻放，行業(yè)內(nèi)涌現(xiàn)出眾多機構(gòu)，數(shù)據(jù)業(yè)務(wù)推送也從第一階段的網(wǎng)站組合(媒體選擇很重要，根據(jù)媒體的受眾特點進行組合和選擇)，到第二階段上下文定向(內(nèi)容優(yōu)化很重要，根據(jù)內(nèi)容吸引受眾的類型進行組合)，再到現(xiàn)在第三個階段以人群定向技術(shù)為核心的人群定向推送方式轉(zhuǎn)變，更著重于對人群的識別。此外，基于位置的數(shù)據(jù)業(yè)務(wù)推送在另外一個維度上發(fā)展和成熟。本發(fā)明的目的在于根據(jù)瀏覽網(wǎng)頁URL準確確定用戶感興趣的相關(guān)網(wǎng)頁文本，進而能夠跟蹤每個用戶的行為習慣，并對其行為和瀏覽內(nèi)容進行分析，預(yù)測其興趣偏好，將接受信息的對象集中于感興趣且有需要的用戶，實現(xiàn)數(shù)據(jù)業(yè)務(wù)的定向推送，提高數(shù)據(jù)業(yè)務(wù)推送的可信度，提高用戶喜好度，能更好地降低數(shù)據(jù)噪聲。

發(fā)明內(nèi)容
本發(fā)明提供一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，包括步驟:對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理，去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁，對經(jīng)過篩選剩下的URL地址進行鏈接，獲得頁面的文本內(nèi)容，提取標題和文本信息；按照預(yù)先定義的主題類別，為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別；對每個類進行訪問頻度統(tǒng)計，訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁。其中，網(wǎng)頁分類步驟中需要構(gòu)建和訓(xùn)練網(wǎng)頁分類器，輸入訓(xùn)練文本集，通過文本表示和特征選擇，根據(jù)特征詞庫構(gòu)建分類器模型，輸出為類似于樹形結(jié)構(gòu)的分類規(guī)則集，網(wǎng)頁分類器的訓(xùn)練過程即是對訓(xùn)練樣本不斷分組，通過建立目標變量關(guān)于各個輸入變量的分類預(yù)測模型，全面實現(xiàn)輸入變量和目標變量不同取值下的數(shù)據(jù)分組，進而用于對新數(shù)據(jù)對象的分類和預(yù)測。網(wǎng)頁分類器使用決策樹分類方法，其步驟為: 將測試樣本表達成和訓(xùn)練樣本同樣的形式；t —決策樹根結(jié)點；取決策樹結(jié)點t的測試屬性和閾值，將待測試樣本對應(yīng)特征的值與之比較，然后根據(jù)t結(jié)點分裂的標準決定是t — t的左孩子or t — t的右孩子；遞歸到上一步執(zhí)行，直到t為葉子結(jié)點；測試樣本的類別為葉子t代表的類別。此外，網(wǎng)頁分類步驟中，輸入經(jīng)過文本預(yù)處理模塊處理過的待分類文本，通過文本表示，根據(jù)特征詞庫進行特征選擇，與訓(xùn)練所生成的分類器模型的分類規(guī)則進行文本分類，輸出為各文本所屬類別信息。另外，文本表示步驟中，采用特征向量空間表示文本特征，文檔i可以表示成如下公式的特征向量:Wij= (Wil, Wi2,..., WJ其中，Wij為詞條j在文檔i中出現(xiàn)頻率的函數(shù)，直接使用詞條在文檔的出現(xiàn)頻率作為特征值，計算公式為:還有，特征選擇步驟中，采用基于改進的X 2統(tǒng)計量和模式聚合的特征降維方法，步驟為:⑴根據(jù)公式
權(quán)利要求
1.一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，其特征在于:包括步驟: 對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理，去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁，對經(jīng)過篩選剩下的URL地址進行鏈接，獲得頁面的文本內(nèi)容，提取標題和文本信息；按照預(yù)先定義的主題類別，為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別；對每個類進行訪問頻度統(tǒng)計，訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁。
2.如權(quán)利要求1所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，其特征在于:網(wǎng)頁分類步驟中需要構(gòu)建和訓(xùn)練網(wǎng)頁分類器，輸入訓(xùn)練文本集，通過文本表示和特征選擇，根據(jù)特征詞庫構(gòu)建分類器模型，輸出為類似于樹形結(jié)構(gòu)的分類規(guī)則集，網(wǎng)頁分類器的訓(xùn)練過程即是對訓(xùn)練樣本不斷分組，通過建立目標變量關(guān)于各個輸入變量的分類預(yù)測模型，全面實現(xiàn)輸入變量和目標變量不同取值下的數(shù)據(jù)分組，進而用于對新數(shù)據(jù)對象的分類和預(yù)測。
3.如權(quán)利要求2所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，其特征在于:網(wǎng)頁分類器使用決策樹分類方法，其步驟為: ①將測試樣本表達成和訓(xùn)練樣本同樣的形式； ②t—決策樹根結(jié)點； ③取決策樹結(jié)點t的測試屬性和閾值，將待測試樣本對應(yīng)特征的值與之比較，然后根據(jù)t結(jié)點分裂的標準決定是 t — t的左孩子or t — t的右孩子； ④遞歸執(zhí)行⑶，直到t為葉子結(jié)點； ⑤測試樣本的類別為葉子t代表的類別。
4.如權(quán)利要求2所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，其特征在于:網(wǎng)頁分類步驟中，輸入經(jīng)過文本預(yù)處理模塊處理過的待分類文本，通過文本表示，根據(jù)特征詞庫進行特征選擇，與訓(xùn)練所生成的分類器模型的分類規(guī)則進行文本分類，輸出為各文本所屬類別信息。
5.如權(quán)利要求2或4所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，其特征在于:文本表示步驟中，采用特征向量空間表示文本特征，文檔i可以表示成如下公式的特征向量: Wi J= (ffn, Wi2,..., WJ 其中，Wij為詞條j在文檔i中出現(xiàn)頻率fu的函數(shù)，直接使用詞條在文檔的出現(xiàn)頻率作為特征值，計算公式為:
6.如權(quán)利要求2或4所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，其特征在于:特征選擇步驟中，采用基于改進的X 2統(tǒng)計量和模式聚合的特征降維方法，步驟為: (I)根據(jù)公式
7.一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的系統(tǒng)，其特征在于:包括網(wǎng)頁文本獲取子模塊、網(wǎng)頁文本分類子模塊、訪問頻度統(tǒng)計子模塊、以及用戶當前內(nèi)容興趣確定子模塊，網(wǎng)頁文本獲取子模塊對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理，去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁，對經(jīng)過篩選剩下的URL地址進行鏈接，獲得頁面的文本內(nèi)容，提取標題和文本信息；網(wǎng)頁文本分類子模塊按照預(yù)先定義的主題類別，為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別；訪問頻度統(tǒng)計子模塊對每個類進行訪問頻度統(tǒng)計，用戶當前內(nèi)容興趣確定子模塊將訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁。
8.如權(quán)利要求7所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的系統(tǒng)，其特征在于:網(wǎng)頁文本分類子模塊中需要構(gòu)建和訓(xùn)練網(wǎng)頁分類器，輸入訓(xùn)練文本集，通過文本表示和特征選擇，根據(jù)特征詞庫構(gòu)建分類器模型，輸出為類似于樹形結(jié)構(gòu)的分類規(guī)則集，網(wǎng)頁分類器的訓(xùn)練過程即是對訓(xùn)練樣本不斷分組，通過建立目標變量關(guān)于各個輸入變量的分類預(yù)測模型，全面實現(xiàn)輸入變量和目標變量不同取值下的數(shù)據(jù)分組，進而用于對新數(shù)據(jù)對象的分類和預(yù)測。
9.如權(quán)利要求7或8所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的系統(tǒng)，其特征在于:網(wǎng)頁文本分類子模塊輸入經(jīng)過文本預(yù)處理模塊處理過的待分類文本，通過文本表示，根據(jù)特征詞庫進行特征選擇，與訓(xùn)練所生成的分類器模型的分類規(guī)則進行文本分類，輸出為各文本所屬類別信息。
全文摘要
一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法，包括步驟對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理，去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁，對經(jīng)過篩選剩下的URL地址進行鏈接，獲得頁面的文本內(nèi)容，提取標題和文本信息；按照預(yù)先定義的主題類別，為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別；對每個類進行訪問頻度統(tǒng)計，訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁，作為分析數(shù)據(jù)，進而實現(xiàn)數(shù)據(jù)業(yè)務(wù)的定向推送，提高數(shù)據(jù)業(yè)務(wù)推送的可信度。
文檔編號G06F17/30GK103235824SQ201310163619
公開日2013年8月7日申請日期2013年5月6日優(yōu)先權(quán)日2013年5月6日
發(fā)明者劉臻, 呂琳媛, 肖思源, 劉潤然, 佘莉申請人:上海河廣信息科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉臻;呂琳媛;肖思源;劉潤然;佘莉
技術(shù)所有人：上海河廣信息科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

蘋果系統(tǒng)瀏覽器相關(guān)技術(shù)

xp系統(tǒng)谷歌瀏覽器相關(guān)技術(shù)

ie瀏覽器xp系統(tǒng)相關(guān)技術(shù)

xp系統(tǒng)安裝谷歌瀏覽器相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

根據(jù)瀏覽網(wǎng)頁確定用戶感興趣的網(wǎng)頁文本的方法和系統(tǒng)的制作方法