專利名稱:一種網(wǎng)頁標(biāo)題分析的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)分析領(lǐng)域,尤其涉及網(wǎng)站流量數(shù)據(jù)分析領(lǐng)域。
背景技術(shù):
HTTP referrer =HTTP協(xié)議表頭的一個字段,記錄該HTTP請求的來源網(wǎng)頁URL。當(dāng)用戶瀏覽網(wǎng)站時,用戶在網(wǎng)頁A通過點擊超鏈接要進入到下一個頁面B時,瀏覽器會發(fā)送一個HTTP請求給網(wǎng)站服務(wù)器,該請求中,包含了要訪問的網(wǎng)頁URL B,和referrer信息A。網(wǎng)頁標(biāo)題通常地,在網(wǎng)頁html代碼中“〈title〉”和“〈/title〉”中包含的文字即網(wǎng)頁標(biāo)題。更精確地,對于網(wǎng)頁內(nèi)容中包含有明顯的加粗或大號字體的文字,且這段文字概括了整個網(wǎng)頁內(nèi)容,也被定義為網(wǎng)頁標(biāo)題。例如電子商務(wù)網(wǎng)站中一個商品詳情頁面中商品的全名即為該網(wǎng)頁標(biāo)題;一篇新聞網(wǎng)頁中新聞的題目即為改網(wǎng)頁標(biāo)題。搜索引擎優(yōu)化搜索引擎是互聯(lián)網(wǎng)用戶獲取信息的重要入口,用戶在搜索引擎中輸入查詢詞找到需要的資料。為了提升網(wǎng)站中網(wǎng)頁被用戶找到的幾率,對網(wǎng)頁進行合理地搜索引擎優(yōu)化是必不可少的。當(dāng)用戶搜索與某網(wǎng)頁相關(guān)的查詢詞時,經(jīng)過優(yōu)化的網(wǎng)頁在搜索結(jié)果頁中展示并且更靠前,進而增加了該網(wǎng)頁的瀏覽量。其中,網(wǎng)頁的標(biāo)題是影響搜索引擎排名的重要因素,因此,對網(wǎng)頁標(biāo)題的優(yōu)化是搜索引擎優(yōu)化中的重要環(huán)節(jié)。這里提到的搜索引擎,包括但不限于網(wǎng)頁搜索引擎、商品搜索引擎、電子商務(wù)網(wǎng)站中站內(nèi)商品搜索引擎。分詞器可以自動識別句子或段落中詞的邊界的裝置,可以將句子或段落切分成一個一個的詞。目前,對網(wǎng)頁標(biāo)題的優(yōu)化方法主要是根據(jù)網(wǎng)頁的主體內(nèi)容,人為或輔助以詞表來判斷標(biāo)題中詞的保留或刪除,沒有方法能夠結(jié)合用戶的搜索行為,準(zhǔn)確且直觀地對網(wǎng)頁標(biāo)題進行分析。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)上存在的缺陷和不足,本發(fā)明提供了一種網(wǎng)頁標(biāo)題分析的方法,能夠根據(jù)該頁面搜索來源關(guān)鍵詞,對標(biāo)題中的每個詞進行分析并以可視化形式展示,以幫助網(wǎng)頁內(nèi)容提供者更好的對網(wǎng)頁進行搜索引擎優(yōu)化,從而提升了網(wǎng)頁被用戶找到的幾率。為了達到上述目的,本發(fā)明的方法,包括以下步驟1.記錄網(wǎng)頁的每一個用戶訪問,將referrer信息中包含有搜索引擎關(guān)鍵詞的部分進行提取并記錄;2.使用分詞器,對所有的搜索關(guān)鍵詞或指定時間區(qū)間內(nèi)的搜索關(guān)鍵詞與網(wǎng)頁標(biāo)題進行分詞;3.將每個網(wǎng)頁下對應(yīng)的指定時間區(qū)間內(nèi)的搜索關(guān)鍵詞進行歸并統(tǒng)計,得到標(biāo)題中每個詞對應(yīng)的搜索關(guān)鍵詞的次數(shù),并以直觀的形式展示;上述的方法中,步驟1進一步包括11.根據(jù)預(yù)先定義的規(guī)則庫,判斷referrer信息類型,如果是搜索引擎查詢類,則
3繼續(xù)執(zhí)行12,如果不是,則不記錄該條信息;12.根據(jù)referrer信息匹配到的規(guī)則,提取對應(yīng)的搜索關(guān)鍵詞信息并解碼、記錄;上述的方法中,步驟3進一步包括31.選取指定時間內(nèi)的搜索關(guān)鍵詞的分詞后的結(jié)果;32.對每個搜索關(guān)鍵詞分詞后的結(jié)果進行搜索次數(shù)歸并統(tǒng)計;33.根據(jù)32中的統(tǒng)計結(jié)果,對網(wǎng)頁標(biāo)題中的每個詞進行匹配,得到標(biāo)題中每個詞在特定時間段的搜索次數(shù),未匹配上的詞次數(shù)記作0 ;34.對33中的統(tǒng)計結(jié)果進行渲染,并以直觀的形式展示。
圖1為根據(jù)本發(fā)明的網(wǎng)頁標(biāo)題分析方法流程圖;圖2為根據(jù)本發(fā)明的網(wǎng)頁標(biāo)題分析系統(tǒng)實際效果截圖。
具體實施例方式下面結(jié)合附圖1對本發(fā)明做進一步詳細說明1.對網(wǎng)頁的每一個用戶訪問,記錄該商品的URL、referrer信息及訪問時間。根據(jù)預(yù)先設(shè)定一個referrer信息分類規(guī)則庫,將referrer信息與規(guī)則庫中規(guī)則進行匹配,如果匹配成功,將包含有搜索引擎關(guān)鍵詞的部分進行提取、URL編碼轉(zhuǎn)換并記錄。這里提及的 referrer信息分類規(guī)則庫,可以用來判斷referrer信息是否屬于搜索引擎查詢,如果是搜索引擎查詢,并提供查詢詞提取規(guī)則,以供提取搜索查詢詞。例如,referrer信息分類規(guī)則庫中包含如下規(guī)則 http//s. taobao. com/search ? q =水
http//search. 360buy. com/Search ? keyword =水
http//www. baidu. com/baidu ? word = *對于某個referrer 信息 “http //www, baidu. com/s ? wd = % CA % D6 % BB % ΕΔ”,首先將其在規(guī)則庫中進行匹配,成功匹配后,提取關(guān)鍵詞部分為“ % CA% D6% BB% FA”,進行URL編碼轉(zhuǎn)化,最終轉(zhuǎn)換為用戶實際的查詢詞“手機”。對于另一個referrer信息"http://www, sina. com, cn/,,,將其在規(guī)則庫中進行匹配,匹配失敗,說明該信息不是搜索引擎查詢,則不記錄。2.用分詞器切分網(wǎng)頁標(biāo)題與收集到的所有搜索關(guān)鍵詞或指定時間區(qū)間內(nèi)的搜索關(guān)鍵詞。3.將每個網(wǎng)頁下對應(yīng)的指定時間區(qū)間內(nèi)的每個搜索關(guān)鍵詞的分詞后的結(jié)果進行歸并統(tǒng)計,得到標(biāo)題中每個詞對應(yīng)的搜索次數(shù)。例如“飛利浦快速充電器SCB3055NB”這個商品網(wǎng)頁在2011年8月1日至2011年8月7日共有10個用戶訪問是來自搜索引擎的,對應(yīng)的查詢詞分別是-“philips充電器” 4次,“飛利浦充電器” 3次,“SCB3055NB,,2 次,“飛利浦快充” 1次,經(jīng)過步驟2分詞后的結(jié)果分別是“philips充電器”,“飛利浦充電器”,“SCB3055NB”,“飛利浦快充”。經(jīng)過歸并統(tǒng)計,得到結(jié)果“充電器”7次,“飛利浦”4次, “philips”4次,“SCB3055NB”2次,“快充” 1次。將該結(jié)果與網(wǎng)頁標(biāo)題進行匹配,得到標(biāo)題分析結(jié)果飛利浦W次]快速W次]充電器[7次]SCB3055NB[2次]。展示模塊根據(jù)標(biāo)題分析結(jié)果進行渲染和呈現(xiàn),渲染技術(shù)包括但不限于a.網(wǎng)頁 html 中的 ess 或 javascript 技術(shù);b. flash 技術(shù)。呈現(xiàn)方式包括但不限于a.根據(jù)標(biāo)題中每個詞的搜索次數(shù),次數(shù)多的詞用深顏色文字,次數(shù)少的詞用淺顏色文字;b.根據(jù)標(biāo)題中每個詞的搜索次數(shù),次數(shù)多的詞用深顏色背景,次數(shù)少的詞用淺顏色背景;c.當(dāng)鼠標(biāo)停留在某個詞上時,顯示浮動框,框里顯示該詞的搜索次數(shù)。下面結(jié)合圖2舉例說明。圖2是已實現(xiàn)系統(tǒng)中標(biāo)題分析的結(jié)果展現(xiàn)截圖。一個商品網(wǎng)頁標(biāo)題為“超漂亮2011麗嬰房彼得兔時尚衣袖針織棉長袖T恤上衣女童”,根據(jù)本發(fā)明的網(wǎng)頁標(biāo)題分析方法,選取2011年9月1日到2011年9月7日間搜索引擎流量來源數(shù)據(jù)進行分析,分析結(jié)果如圖2所示。該商品網(wǎng)頁標(biāo)題中的每個詞根據(jù)分析結(jié)果數(shù)字大小,以不同背景顏色深淺來直觀地表示該詞的重要度??梢钥吹?,本例中,“麗嬰房”是統(tǒng)計值最大的詞,背景顏色最深;而“超” “漂亮”是統(tǒng)計值最小的詞,背景顏色最淺。 當(dāng)用戶將鼠標(biāo)移到“麗嬰房”上時,呈現(xiàn)“麗嬰房”對應(yīng)統(tǒng)計值的浮動框,如圖2(a)所示;當(dāng)用戶將鼠標(biāo)移到“漂亮”上時,呈現(xiàn)“漂亮”對應(yīng)統(tǒng)計值的浮動框,如圖2(b)所示。
權(quán)利要求
1.一種網(wǎng)頁標(biāo)題分析的方法,其特征在于包含如下步驟(1)記錄網(wǎng)頁的每一個用戶訪問,將referrer信息中包含有搜索引擎關(guān)鍵詞的部分進行提取、解碼并記錄;(2)使用分詞器,對所有的搜索關(guān)鍵詞或指定時間區(qū)間內(nèi)的搜索關(guān)鍵詞與網(wǎng)頁標(biāo)題進行分詞;(3)將每個網(wǎng)頁下對應(yīng)的指定時間區(qū)間內(nèi)的搜索關(guān)鍵詞的分詞后的結(jié)果進行歸并統(tǒng)計,得到標(biāo)題中每個詞對應(yīng)的搜索次數(shù),并以直觀的形式展示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述“搜索引擎”是網(wǎng)頁搜索引擎、商品搜索引擎、電子商務(wù)網(wǎng)站中站內(nèi)商品搜索引擎中的一種或幾種。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)頁標(biāo)題是指網(wǎng)頁html代碼中 “〈title〉”和“〈/title〉”中包含的文字
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)頁標(biāo)題是指電子商務(wù)網(wǎng)站中商品詳情網(wǎng)頁中所描述商品的全稱
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(1)進一步包括(11)根據(jù)預(yù)先定義的規(guī)則庫,判斷referrer信息類型,如果是搜索引擎查詢類,則繼續(xù)執(zhí)行步驟(1 ;如果不是,則不記錄該條信息;(12)根據(jù)referrer信息匹配到的規(guī)則,將對應(yīng)的搜索關(guān)鍵詞信息提取、解碼并記錄。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟C3)進一步包括(31)選取指定時間內(nèi)的搜索關(guān)鍵詞的分詞后的結(jié)果;(32)對每個搜索關(guān)鍵詞分詞后的結(jié)果進行搜索次數(shù)歸并統(tǒng)計;(33)根據(jù)(32)中的統(tǒng)計結(jié)果,對網(wǎng)頁標(biāo)題中的每個詞進行匹配,得到標(biāo)題中每個詞在特定時間段的搜索次數(shù),未匹配上的詞次數(shù)記作0 ;(34)對(33)中的統(tǒng)計結(jié)果進行渲染,并以直觀的形式展示。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述“渲染”方法是通過網(wǎng)頁技術(shù)(ess、 javascipt)或flash技術(shù)生成分析結(jié)果,分析結(jié)果的形式是以下形式的一種或幾種 根據(jù)標(biāo)題中每個詞的搜索次數(shù),次數(shù)多的詞用深顏色文字,次數(shù)少的詞用淺顏色文字 根據(jù)標(biāo)題中每個詞的搜索次數(shù),次數(shù)多的詞用深顏色背景,次數(shù)少的詞用淺顏色背旦參當(dāng)鼠標(biāo)停留在某個詞上時,顯示浮動框,框里顯示該詞的搜索次數(shù)。
全文摘要
本發(fā)明公開了一種網(wǎng)頁標(biāo)題分析的方法,解決了針對網(wǎng)頁標(biāo)題的搜索引擎優(yōu)化中的直觀性和準(zhǔn)確性的問題。本發(fā)明包括以下步驟1.記錄網(wǎng)頁的每一個用戶訪問,將referrer信息中包含有搜索引擎關(guān)鍵詞的部分進行提取并記錄;2.使用分詞器,對所有的搜索關(guān)鍵詞或指定時間區(qū)間內(nèi)的搜索關(guān)鍵詞與網(wǎng)頁標(biāo)題進行分詞;3.將每個網(wǎng)頁下對應(yīng)的指定時間區(qū)間內(nèi)的搜索關(guān)鍵詞的分詞后的結(jié)果進行歸并統(tǒng)計,得到標(biāo)題中每個詞對應(yīng)的搜索次數(shù),并以直觀的形式展示。本發(fā)明提出了一種新的基于來源搜索關(guān)鍵詞的網(wǎng)頁標(biāo)題分析,為網(wǎng)頁做搜索引擎優(yōu)化,提供了更加直觀和準(zhǔn)確的依據(jù)。
文檔編號G06F17/30GK102306201SQ201110291388
公開日2012年1月4日 申請日期2011年9月30日 優(yōu)先權(quán)日2011年9月30日
發(fā)明者邢飛 申請人:邢飛