一種網(wǎng)頁頁面的預讀取方法、裝置及智能終端設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)頁瀏覽技術(shù)領(lǐng)域,具體而言,涉及一種網(wǎng)頁頁面的預讀取方法、裝置 及智能終端設(shè)備。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及、計算機作為家庭以及工作的必備產(chǎn)品之一,人們使用計算機 上的瀏覽器訪問互聯(lián)網(wǎng)日趨頻繁;尤其隨著例如智能手機和平板電腦的智能終端產(chǎn)品的 迅速普及,用戶使用終端瀏覽器訪問互聯(lián)網(wǎng)成為日常行為。在用戶使用瀏覽器打開網(wǎng)頁的 過程中,如果當前的網(wǎng)絡(luò)環(huán)境受限,或者終端設(shè)備的運行速度受限,就會影響網(wǎng)頁的打開速 度,造成用戶等待,用戶上網(wǎng)的體驗感很差。影響網(wǎng)頁打開速度的主要原因是下載網(wǎng)頁內(nèi)容 的時間過長。
[0003] 目前,一般采用對可能需要的網(wǎng)頁進行預讀取的方法來滿足用戶快速打開網(wǎng)頁的 需要。該方法主要是在用戶瀏覽當前網(wǎng)頁頁面的過程中,服務(wù)器端獲取用戶下一步可能需 要的網(wǎng)頁,在用戶未瀏覽這些網(wǎng)頁之前先將這些網(wǎng)頁的網(wǎng)址及其資源加載到本地緩存中; 當用戶訪問其中某個網(wǎng)頁時直接從本地緩存中讀取相關(guān)數(shù)據(jù)來展示給用戶閱覽,避免了等 待下載網(wǎng)頁的過程,縮短用戶進行網(wǎng)頁訪問操作后的網(wǎng)頁響應(yīng)時間。
[0004] 現(xiàn)有的網(wǎng)頁預讀取方法常見以下兩種:
[0005] 第一、在用戶瀏覽連續(xù)內(nèi)容的某一個網(wǎng)頁時預讀取該網(wǎng)頁上包含的鏈接到相鄰網(wǎng) 頁的一個或多個關(guān)鍵字,例如"下一頁"、"next page"等,然后依次取鏈接的網(wǎng)頁內(nèi)容并放 入本地緩存中。
[0006] 第二、從服務(wù)器端獲取網(wǎng)頁列表,然后依次讀取該網(wǎng)頁列表中各網(wǎng)頁內(nèi)容并放入 本地緩存中。
[0007] 由上可知,現(xiàn)有的第一種網(wǎng)頁預讀取方法只能適用于特定網(wǎng)頁,即只對一個較長 的內(nèi)容被拆分成用超鏈接鏈起來的多個網(wǎng)頁有效,而對于大量不存在頁碼順序的其它網(wǎng) 頁,如新聞網(wǎng)頁等,這種方法將無法預讀取到用戶后續(xù)可能訪問的網(wǎng)頁,因此并不能加快瀏 覽器網(wǎng)頁頁面的顯示。現(xiàn)有的第二種網(wǎng)頁預讀取方法則需要預讀取大量的數(shù)據(jù)并載入本地 緩存,嚴重占用緩存空間,甚至造成緩存空間不足的情況發(fā)生。
[0008] 另外,人們也提出一些新的預讀取方法來試圖改善用戶體驗。
[0009] 例如,提出了基于網(wǎng)頁上的熱點鏈接來"猜測"用戶可能訪問的網(wǎng)頁的思路,然后 對這些網(wǎng)頁進行有針對性的預讀取,以提高預讀取的有效性。例如,2012年9月12日公 開的申請?zhí)枮?01210074771. 6的中國專利文獻,名稱為"一種網(wǎng)頁預加載方法及系統(tǒng)", 該方法為:確定源網(wǎng)頁內(nèi)包含的熱點鏈接,對熱點鏈接對應(yīng)的目標網(wǎng)頁進行預加載;但是, 該專利文獻中公開的確定熱點鏈接的方式還是本領(lǐng)域技術(shù)人員容易想到的方法,例如根據(jù) 源網(wǎng)頁A中某鏈接被點擊的總次數(shù)來確定是否為熱點鏈接;以用戶對各個鏈接的點擊順 序來確定是否為熱點鏈接。這種方法確定熱點鏈接的準確率偏低。例如,所述申請?zhí)枮?201210074771.6的專利文獻的第0099段中就自述了"在實際應(yīng)用中,可能存在雖然用戶點 擊了某鏈接,但是用戶可能并不喜歡或者不是特別喜歡這個鏈接的情況,在這種情況下,如 果單純地通過點擊次數(shù)來區(qū)分一個鏈接是否為熱點鏈接,可能會使得結(jié)果不夠準確"。同 樣,以用戶對各個鏈接的點擊順序來確定熱點鏈接的準確率也是偏低的。例如,還存在用戶 對源網(wǎng)頁上包含的多個熱點鏈接都感興趣的情況,其不一定每天都是按照同一順序點擊, 當某個熱點鏈接出現(xiàn)熱點信息時,用戶也許先點擊該熱點鏈接。例如足球世界杯期間,用戶 會先點擊世界杯比賽新聞;在世界杯期間,某款非常著名品牌召開新品發(fā)布會,用戶會先點 擊關(guān)于該新品的熱點鏈接。因此,即便將這兩種方式組合,用該組合方式確定熱點鏈接的準 確率也將偏低;還可能存在用戶點擊一個新的沒有記錄過的網(wǎng)站時,無法進行預讀取。
[0010] 另外,所述申請?zhí)枮?01210074771. 6的專利文獻沒有考慮熱點鏈接還存在熱度 隨著時間衰減的問題。例如,美國籃球NBA總比賽結(jié)束后的一段時間,用戶關(guān)注NBA欄目的 熱度會顯著降低。還例如,熱點新聞或熱點頭條每天都在出現(xiàn),今天的熱點新聞或熱點頭條 到明天也許熱度就降低了,一星期之后也許就沒人關(guān)注了。
[0011] 再例如,還提出了一種基于用戶的瀏覽習慣來"猜測"用戶可能訪問的網(wǎng)頁的思 路,然后對這些網(wǎng)頁進行有針對性的預讀取,以提高預讀取的有效性。例如,2012年10月 17日公開的申請?zhí)枮?01110086435. 9的中國專利文獻,名稱為"一種網(wǎng)頁預讀取的方法、 裝置及一種瀏覽器",該方法為:讀取用戶的瀏覽習慣信息;在用戶瀏覽當前網(wǎng)頁的過程中, 根據(jù)所述用戶的瀏覽習慣信息分析出將要預讀取的網(wǎng)頁鏈接,從服務(wù)器端預讀取所述網(wǎng)頁 鏈接對應(yīng)的網(wǎng)頁數(shù)據(jù)并保存到本地緩存。但是,其公開的預讀取策略為:將用戶常常點擊網(wǎng) 頁上的那部分內(nèi)容的位置區(qū)域的一條或多條網(wǎng)頁鏈接預讀取出來,或者記錄在用戶點擊某 網(wǎng)頁A上的關(guān)鍵詞,當下次再打開該網(wǎng)頁A時,將匹配關(guān)鍵詞的前幾條或大部分網(wǎng)頁鏈接進 行預讀取。這種網(wǎng)頁預讀取方法的缺點是顯而易見的,其預讀取一條網(wǎng)頁鏈接或者匹配關(guān) 鍵詞的前幾條網(wǎng)頁鏈接,則給用戶預讀取出網(wǎng)頁數(shù)據(jù)的命中率很低,如果預讀取多條網(wǎng)頁 鏈接或者匹配關(guān)鍵詞的大部分網(wǎng)頁鏈接,則需要預讀取大量的數(shù)據(jù)并載入本地緩存,嚴重 占用緩存空間,甚至造成緩存空間不足的情況發(fā)生;還可能存在用戶點擊一個新的沒有記 錄過的網(wǎng)站時,無法進行預讀取。
[0012] 因此,目前需要一種新的網(wǎng)頁頁面的預讀取方法。
【發(fā)明內(nèi)容】
[0013] 本發(fā)明的目的在于提供一種網(wǎng)頁頁面的預讀取方法、裝置及智能終端設(shè)備,以改 善上述的問題。
[0014] 在本發(fā)明的實施例中提供了一種網(wǎng)頁頁面的預讀取方法,其特征在于,包括:
[0015] 獲取多個用戶中的每一個用戶在一個時間段內(nèi)對多個網(wǎng)頁的訪問信息;
[0016] 確定該多個用戶中兩兩用戶之間的相似度;
[0017] 按相似度的大小確定1個或多個最相似用戶;
[0018] 在用戶瀏覽當前網(wǎng)頁的過程中,按一定的預測策略分析出所述最相似用戶從當前 網(wǎng)頁將要點擊瀏覽的目標網(wǎng)頁,并預讀取出所分析出的目標網(wǎng)頁。
[0019] 優(yōu)選的,在獲取多個用戶中的每一個用戶在一個時間段內(nèi)對多個網(wǎng)頁頁面的訪問 信息的過程中對每個頁面的數(shù)據(jù)進行數(shù)據(jù)清洗的預處理的步驟。
[0020] 優(yōu)選的,在確定該多個用戶中兩兩用戶之間的相似度的步驟中,使用余弦相似度 的方法來確定相似度。
[0021] 優(yōu)選的,在確定兩兩用戶之間的相似度的過程中,先篩選掉訪問不同網(wǎng)頁的頁面 數(shù)低于頁面數(shù)訪問閾值的用戶。
[0022] 優(yōu)選的,以多個用戶訪問的相同網(wǎng)頁作為共同特征,建立倒排表,然后使用余弦相 似度的方法來確定倒排表中兩兩用戶之間的相似度。
[0023] 優(yōu)選的,當?shù)古疟碇械挠脩魯?shù)量超過用戶閾值時,篩選掉該倒排表。
[0024] 優(yōu)選的,利用威爾遜區(qū)間公式對網(wǎng)頁的訪問量做置信區(qū)間計算,取區(qū)間下限作為 網(wǎng)頁的訪問量的最終值。
[0025] 優(yōu)選的,在按相似度的大小確定1個或多個最相似用戶的步驟中,通過篩選掉相 似度低于相似度閾值的相似用戶,來確定1個或多個最相似用戶。
[0026] 本發(fā)明實施例還提供了一種網(wǎng)頁頁面的預讀取方法,其特征在于,包括:
[0027] 獲取多個用戶中的每一個用戶在一個時間段內(nèi)對多個網(wǎng)頁頁面的訪問信息;
[0028] 確定該多個用戶中兩兩用戶之間的相似度;
[0029] 按相似度的大小確定1個或多個最相似用戶;
[0030] 利用最相似用戶計算點擊路徑的推薦概率并且生成預讀取列表;
[0031] 從預讀取列表中查詢當前瀏覽的網(wǎng)頁頁面的點擊路徑,從而預讀取相應(yīng)待瀏覽的 目標網(wǎng)頁數(shù)據(jù)。
[0032] 優(yōu)選的,在獲取多個用戶中的每一個用戶在一個時間段內(nèi)對多個網(wǎng)頁頁面的訪問 信息的過程中對每個頁面的數(shù)據(jù)進行數(shù)據(jù)清洗的預處理的步驟。
[0033] 優(yōu)選的,在確定該多個用戶中兩兩用戶之間的相似度的步驟中,使用余弦相似度 的方法來確定相似度。
[0034] 優(yōu)選的,在確定兩兩用戶之間的相似度的過程中,先篩選掉訪問不同網(wǎng)頁的頁面 數(shù)低于頁面數(shù)訪問閾值的用戶。
[0035] 優(yōu)選的,以多個用戶訪問的相同網(wǎng)頁作為共同特征,建立倒排表,然后使用余弦相 似度的方法來確定倒排表中兩兩用戶之間的相似度。
[0036] 優(yōu)選的,當?shù)古疟碇械挠脩魯?shù)量超過用戶閾值時,篩選掉該倒排表。
[0037] 優(yōu)選的,利用威爾遜區(qū)間公式對網(wǎng)頁的訪問量做置信區(qū)間計算,取區(qū)間下限作為 網(wǎng)頁的訪問量的最終值。
[0038] 優(yōu)選的,在按相似度的大小確定1個或多個最相似用戶的步驟中,通過篩選掉相 似度低于相似度閾值的相似用戶,來確定1個或多個最相似用戶。
[0039] 優(yōu)選的,在利用最相似用戶計算點擊路徑的推薦概率的步驟中,統(tǒng)計1個最相似 用戶在所述時間段內(nèi)從第一網(wǎng)頁點擊進入第二網(wǎng)頁的次數(shù),并用該統(tǒng)計出的次數(shù)與該最相 似用戶的相似度的乘積作為該最相似用戶從第一網(wǎng)頁點擊進入第二網(wǎng)頁的點擊路徑的推 薦概率;在有多個最相似用戶時,以此方式計算其他多個最相似用戶從第一網(wǎng)頁點擊進入 第二網(wǎng)頁的點擊路徑的推薦概率;然后將計算出的多個最相似用戶的推薦概率相加求和, 從而得到從第一網(wǎng)頁點擊進入第二網(wǎng)頁的點擊路徑的最終推薦概率;以此方式,計算出1 個或多個最相似用戶在所述時間段內(nèi)訪問的多條點擊路徑的推薦概率。
[0040] 優(yōu)選的,