專利名稱:根據(jù)瀏覽網(wǎng)頁確定用戶感興趣的網(wǎng)頁文本的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法和系統(tǒng),用于針對用戶興趣偏好推送數(shù)據(jù)業(yè)務(wù)領(lǐng)域。
背景技術(shù):
數(shù)據(jù)業(yè)務(wù)推送在2011年開始了全面的綻放,行業(yè)內(nèi)涌現(xiàn)出眾多機構(gòu),數(shù)據(jù)業(yè)務(wù)推送也從第一階段的網(wǎng)站組合(媒體選擇很重要,根據(jù)媒體的受眾特點進行組合和選擇),到第二階段上下文定向(內(nèi)容優(yōu)化很重要,根據(jù)內(nèi)容吸引受眾的類型進行組合),再到現(xiàn)在第三個階段以人群定向技術(shù)為核心的人群定向推送方式轉(zhuǎn)變,更著重于對人群的識別。此外,基于位置的數(shù)據(jù)業(yè)務(wù)推送在另外一個維度上發(fā)展和成熟。本發(fā)明的目的在于根據(jù)瀏覽網(wǎng)頁URL準確確定用戶感興趣的相關(guān)網(wǎng)頁文本,進而能夠跟蹤每個用戶的行為習慣,并對其行為和瀏覽內(nèi)容進行分析,預(yù)測其興趣偏好,將接受信息的對象集中于感興趣且有需要的用戶,實現(xiàn)數(shù)據(jù)業(yè)務(wù)的定向推送,提高數(shù)據(jù)業(yè)務(wù)推送的可信度,提高用戶喜好度,能更好地降低數(shù)據(jù)噪聲。
發(fā)明內(nèi)容
本發(fā)明提供一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,包括步驟:對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理,去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁,對經(jīng)過篩選剩下的URL地址進行鏈接,獲得頁面的文本內(nèi)容,提取標題和文本信息;按照預(yù)先定義的主題類別,為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別;對每個類進行訪問頻度統(tǒng)計,訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁。其中,網(wǎng)頁分類步驟中需要構(gòu)建和訓(xùn)練網(wǎng)頁分類器,輸入訓(xùn)練文本集,通過文本表示和特征選擇,根據(jù)特征詞庫構(gòu)建分類器模型,輸出為類似于樹形結(jié)構(gòu)的分類規(guī)則集,網(wǎng)頁分類器的訓(xùn)練過程即是對訓(xùn)練樣本不斷分組,通過建立目標變量關(guān)于各個輸入變量的分類預(yù)測模型,全面實現(xiàn)輸入變量和目標變量不同取值下的數(shù)據(jù)分組,進而用于對新數(shù)據(jù)對象的分類和預(yù)測。網(wǎng)頁分類器使用決策樹分類方法,其步驟為: 將測試樣本表達成和訓(xùn)練樣本同樣的形式;t —決策樹根結(jié)點;取決策樹結(jié)點t的測試屬性和閾值,將待測試樣本對應(yīng)特征的值與之比較,然后根據(jù)t結(jié)點分裂的標準決定是t — t的左孩子or t — t的右孩子;遞歸到上一步執(zhí)行,直到t為葉子結(jié)點;測試樣本的類別為葉子t代表的類別。此外,網(wǎng)頁分類步驟中,輸入經(jīng)過文本預(yù)處理模塊處理過的待分類文本,通過文本表示,根據(jù)特征詞庫進行特征選擇,與訓(xùn)練所生成的分類器模型的分類規(guī)則進行文本分類,輸出為各文本所屬類別信息。另外,文本表示步驟中,采用特征向量空間表示文本特征,文檔i可以表示成如下公式的特征向量:Wij= (Wil, Wi2,..., WJ其中,Wij為詞條j在文檔i中出現(xiàn)頻率的函數(shù),直接使用詞條在文檔的出現(xiàn)頻率作為特征值,計算公式為:還有,特征選擇步驟中,采用基于改進的X 2統(tǒng)計量和模式聚合的特征降維方法,步驟為:⑴根據(jù)公式
權(quán)利要求
1.一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,其特征在于:包括步驟: 對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理,去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁,對經(jīng)過篩選剩下的URL地址進行鏈接,獲得頁面的文本內(nèi)容,提取標題和文本信息; 按照預(yù)先定義的主題類別,為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別; 對每個類進行訪問頻度統(tǒng)計, 訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁。
2.如權(quán)利要求1所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,其特征在于:網(wǎng)頁分類步驟中需要構(gòu)建和訓(xùn)練網(wǎng)頁分類器,輸入訓(xùn)練文本集,通過文本表示和特征選擇,根據(jù)特征詞庫構(gòu)建分類器模型,輸出為類似于樹形結(jié)構(gòu)的分類規(guī)則集, 網(wǎng)頁分類器的訓(xùn)練過程即是對訓(xùn)練樣本不斷分組,通過建立目標變量關(guān)于各個輸入變量的分類預(yù)測模型,全面實現(xiàn)輸入變量和目標變量不同取值下的數(shù)據(jù)分組,進而用于對新數(shù)據(jù)對象的分類和預(yù)測。
3.如權(quán)利要求2所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,其特征在于:網(wǎng)頁分類器使用決策樹分類方法,其步驟為: ①將測試樣本表達成和訓(xùn)練樣本同樣的形式; ②t—決策樹根結(jié)點; ③取決策樹結(jié)點t的測試屬性和閾值,將待測試樣本對應(yīng)特征的值與之比較, 然后根據(jù)t結(jié)點分裂的標準決定是 t — t的左孩子or t — t的右孩子; ④遞歸執(zhí)行⑶,直到t為葉子結(jié)點; ⑤測試樣本的類別為葉子t代表的類別。
4.如權(quán)利要求2所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,其特征在于:網(wǎng)頁分類步驟中,輸入經(jīng)過文本預(yù)處理模塊處理過的待分類文本,通過文本表示,根據(jù)特征詞庫進行特征選擇,與訓(xùn)練所生成的分類器模型的分類規(guī)則進行文本分類,輸出為各文本所屬類別信息。
5.如權(quán)利要求2或4所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,其特征在于:文本表示步驟中,采用特征向量空間表示文本特征,文檔i可以表示成如下公式的特征向量: Wi J= (ffn, Wi2,..., WJ 其中,Wij為詞條j在文檔i中出現(xiàn)頻率fu的函數(shù),直接使用詞條在文檔的出現(xiàn)頻率作為特征值,計算公式為:
6.如權(quán)利要求2或4所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,其特征在于:特征選擇步驟中,采用基于改進的X 2統(tǒng)計量和模式聚合的特征降維方法,步驟為: (I)根據(jù)公式
7.一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的系統(tǒng),其特征在于:包括網(wǎng)頁文本獲取子模塊、網(wǎng)頁文本分類子模塊、訪問頻度統(tǒng)計子模塊、以及用戶當前內(nèi)容興趣確定子模塊, 網(wǎng)頁文本獲取子模塊對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理,去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁,對經(jīng)過篩選剩下的URL地址進行鏈接,獲得頁面的文本內(nèi)容,提取標題和文本信息; 網(wǎng)頁文本分類子模塊按照預(yù)先定義的主題類別,為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別; 訪問頻度統(tǒng)計子模塊對每個類進行訪問頻度統(tǒng)計, 用戶當前內(nèi)容興趣確定子模塊將訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁。
8.如權(quán)利要求7所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的系統(tǒng),其特征在于:網(wǎng)頁文本分類子模塊中需要構(gòu)建和訓(xùn)練網(wǎng)頁分類器,輸入訓(xùn)練文本集,通過文本表示和特征選擇,根據(jù)特征詞庫構(gòu)建分類器模型,輸出為類似于樹形結(jié)構(gòu)的分類規(guī)則集, 網(wǎng)頁分類器的訓(xùn)練過程即是對訓(xùn)練樣本不斷分組,通過建立目標變量關(guān)于各個輸入變量的分類預(yù)測模型,全面實現(xiàn)輸入變量和目標變量不同取值下的數(shù)據(jù)分組,進而用于對新數(shù)據(jù)對象的分類和預(yù)測。
9.如權(quán)利要求7或8所述的一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的系統(tǒng),其特征在于:網(wǎng)頁文本分類子模塊輸入經(jīng)過文本預(yù)處理模塊處理過的待分類文本,通過文本表示,根據(jù)特征詞庫進行特征選擇,與訓(xùn)練所生成的分類器模型的分類規(guī)則進行文本分類,輸出為 各文本所屬類別信息。
全文摘要
一種根據(jù)瀏覽網(wǎng)頁URL確定用戶感興趣的相關(guān)網(wǎng)頁文本的方法,包括步驟對一定時段內(nèi)用戶瀏覽的網(wǎng)頁進行過濾處理,去除掉無用網(wǎng)頁和某些無法訪問的網(wǎng)頁,對經(jīng)過篩選剩下的URL地址進行鏈接,獲得頁面的文本內(nèi)容,提取標題和文本信息;按照預(yù)先定義的主題類別,為網(wǎng)頁文檔集合的每個網(wǎng)頁文檔確定一個類別;對每個類進行訪問頻度統(tǒng)計,訪問頻度值最高的網(wǎng)頁集作為用戶感興趣的相關(guān)網(wǎng)頁,作為分析數(shù)據(jù),進而實現(xiàn)數(shù)據(jù)業(yè)務(wù)的定向推送,提高數(shù)據(jù)業(yè)務(wù)推送的可信度。
文檔編號G06F17/30GK103235824SQ201310163619
公開日2013年8月7日 申請日期2013年5月6日 優(yōu)先權(quán)日2013年5月6日
發(fā)明者劉臻, 呂琳媛, 肖思源, 劉潤然, 佘莉 申請人:上海河廣信息科技有限公司