国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于Web挖掘的視頻推薦方法和系統(tǒng)的制作方法

      文檔序號:9327017閱讀:639來源:國知局
      一種基于Web挖掘的視頻推薦方法和系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明一種基于Web挖掘的視頻推薦方法和系統(tǒng),屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
      【背景技術(shù)】
      [0002] 如今已經(jīng)進入了一個數(shù)據(jù)爆炸的時代,Web2. 0的蓬勃發(fā)展使得內(nèi)容的創(chuàng)建和分 享變得越來越容易,互聯(lián)網(wǎng)用戶每天都有大量的圖片、博客、視頻發(fā)布到網(wǎng)上,人們逐漸從 信息匱乏的時代走入了信息過載的時代。在這個時代,無論是信息消費者還是信息生產(chǎn)者 都遇到了極大的挑戰(zhàn):對于信息消費者,信息的爆炸性增長使得人們找到他們需要的信息 將變得越來越難;而對于信息生產(chǎn)者,為了讓自己生產(chǎn)的信息脫穎而出,受到廣大用戶的關(guān) 注,也是一件棘手的事情,推薦系統(tǒng)就是為了解決這一矛盾的重要工具。
      [0003] 然而現(xiàn)有的推薦系統(tǒng)仍然面臨許多困難和挑戰(zhàn):主要包括:1、數(shù)據(jù)稀疏性是推薦 系統(tǒng)面臨的主要問題。協(xié)同過濾推薦算法基于用戶-項目評分矩陣,通過相似度計算找出 與目標用戶度較高的用戶進行推薦,評分數(shù)據(jù)的稀疏將導致推薦結(jié)果不準確;2、在大數(shù)據(jù) 環(huán)境下,當推薦系統(tǒng)的用戶數(shù)量達到千萬級別時,推薦算法將面臨嚴重的可擴展問題。許多 在線網(wǎng)站需要對用戶產(chǎn)生及時的推薦結(jié)果,而現(xiàn)有的推薦算法都不具有可擴展性;3、推薦 系統(tǒng)中特征提取問題。一方面互聯(lián)網(wǎng)的大量信息以多媒體形式存在,由于多媒體信息自動 特征提取技術(shù)的限制,多媒體信息推薦研究緩慢,另一方面對文本信息進行推薦時,面臨過 擬合的現(xiàn)象。
      [0004] Web挖掘是將數(shù)據(jù)挖掘應(yīng)用于Web以便從其文檔和服務(wù)中自動發(fā)現(xiàn)抽取信息。它 是一個跨學科的領(lǐng)域,涉及到人工智能、知識發(fā)現(xiàn)、數(shù)據(jù)挖掘、機器學習、統(tǒng)計學等學科的知 識。同時,Web挖掘也存在語義分析難、深層數(shù)據(jù)庫信息抽取復雜以及網(wǎng)站內(nèi)容時效性弱等 問題。而本發(fā)明能夠很好地解決上面的問題。

      【發(fā)明內(nèi)容】

      [0005] 為了克服傳統(tǒng)推薦系統(tǒng)中由于用戶評論信息少而帶來的數(shù)據(jù)稀疏性問題,緩解新 用戶或新項目無評分的推薦冷啟動問題,本發(fā)明提出了一種基于Web挖掘給用戶推薦視頻 的方法和系統(tǒng),該方法能夠主動給用戶推薦個性化的視頻,提高了用戶觀看視頻的滿意度, 并且推薦結(jié)果非常準確。
      [0006] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于Web挖掘的視頻推薦方 法,該方法包括如下步驟:
      [0007] 步驟1 :通過Web挖掘?qū)τ脩魹g覽日志進行分析,獲取用戶觀看視頻的行為和屬性 數(shù)據(jù)。該數(shù)據(jù)包括用戶的注冊信息、用戶搜索視頻的記錄、用戶觀看視頻記錄以及用戶對視 頻的評分;所述Web挖掘數(shù)據(jù)預處理包括四個步驟,即:數(shù)據(jù)凈化、用戶識別、會話識別和路 徑補充。
      [0008] 步驟2 :對采集后的用戶數(shù)據(jù)進行預處理后存儲在數(shù)據(jù)庫中,從該數(shù)據(jù)庫中獲取 每個視頻的屬性信息,并根據(jù)該屬性信息提取用戶的興趣標記,利用分類回歸樹建立個性 化興趣t吳型;
      [0009] 根據(jù)步驟2所述CART生成決策樹時用基尼(Gini)指數(shù)選擇最優(yōu)特征,Gini指數(shù) 計算公式為:
      式2
      [0011] 式中。1<是樣本點屬于第k類的概率。
      [0012] 步驟3 :采用協(xié)同過濾推薦算法對用戶生成推薦視頻;
      [0013] 步驟4 :對每個用戶的興趣喜好進行標記,把具有相同標記的用戶劃歸為一個類, 在同一個類中的用戶之間實現(xiàn)相互推薦。
      [0014] 本發(fā)明的上述方法應(yīng)用于Web挖掘的視頻推薦系統(tǒng)。
      [0015] 本發(fā)明還提供了一種基于Web挖掘的視頻推薦系統(tǒng),該系統(tǒng)包括:行為記錄模塊、 模型分析模塊、推薦算法模塊。
      [0016] 行為記錄模塊的功能是:采集用戶信息的行為記錄模塊是通過分析用戶搜索、觀 看視頻記錄獲取用戶喜好;
      [0017] 模型分析模塊的功能是:建立用戶興趣的模型分析模塊,采用分類回歸樹獲取用 戶興趣t吳型;
      [0018] 推薦算法模塊的功能是:利用協(xié)同過濾推薦算法,實時地從視頻庫中篩選出用戶 感興趣視頻進行推薦,同時把相同興趣的用戶推薦給目標用戶。協(xié)同過濾算法計算用戶A 與用戶B之間的相似度,其所采用的計算公式為:
      [0019]
      [0020] 其中A為用戶A,B為用戶B,sim(A,B)為用戶之間的興趣相似度,N㈧表示用戶 A曾經(jīng)有過正反饋的視頻個數(shù),N(B)表示用戶B曾經(jīng)有過正反饋的視頻個數(shù)。
      [0021] 本發(fā)明的系統(tǒng)采用相似度計算公式,用于懲罰用戶A、B共同興趣列表中,熱門視 頻對他們相似度的影響,推薦結(jié)果更準確,更高效。
      [0022] 有益效果:
      [0023] 1、本發(fā)明是基于Web挖掘的個性化推薦系統(tǒng)通過使用Web挖掘技術(shù)實現(xiàn)隱式的 數(shù)據(jù)采集方式,在不需要用戶的參與就能獲得用戶與項目之間潛在的喜好關(guān)系或者評分信 息,不僅僅提高了用戶體驗,還能有效減少惡意評論對系統(tǒng)準確性的干擾。
      [0024] 2、本發(fā)明是基于Web挖掘發(fā)現(xiàn)的用戶偏好信息,具有客觀性,比僅僅依靠用戶評 分數(shù)據(jù)相比更準確、更具說服力,還能在一定程度上降低由于用戶評分信息較少而帶來的 數(shù)據(jù)稀疏性問題,緩解推薦系統(tǒng)中由于新用戶或者新項目無評分而導致的推薦冷啟動問 題。
      [0025] 3、本發(fā)明能主動給用戶推薦個性化的視頻,避免用戶被動地搜索視頻,提高用戶 觀看視頻的滿意度。
      [0026] 4、本發(fā)明在視頻推薦系統(tǒng)中進行好友推薦,讓共同興趣的用戶能成為好友。
      【附圖說明】
      [0027] 圖1為本發(fā)明基于用戶的協(xié)同過濾推薦原理示意圖。
      [0028] 圖2為本發(fā)明基于項目的協(xié)同過濾推薦原理示意圖。
      [0029] 圖3為本發(fā)明的方法流程圖。
      [0030] 圖4為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖。
      【具體實施方式】
      [0031] 下面結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進一步的詳細說明。
      [0032] 本發(fā)明技術(shù)術(shù)語包括:
      [0033] 知識發(fā)現(xiàn):是指意為從數(shù)據(jù)庫中發(fā)現(xiàn)知識,它代表從低層次數(shù)據(jù)中提取高層次知 識的全過程,包括數(shù)據(jù)信息的收集,數(shù)據(jù)原型的確定,相關(guān)函數(shù)的分析,知識的抽取和數(shù)據(jù) 模式分析。
      [0034] 個性化視頻推薦系統(tǒng):是指通過建立用戶與視頻信息之間的二元關(guān)系,獲取用戶 的選擇、搜索以及觀看評分記錄,利用數(shù)據(jù)挖掘發(fā)現(xiàn)用戶的喜好并主動向用戶推薦用戶感 興趣的視頻。
      [0035] 冷啟動問題:是指新用戶或新項目無評分導致系統(tǒng)無法推薦。冷啟動主要分為三 類:
      [0036] 用戶冷啟動:是指當新用戶加入系統(tǒng)后,系統(tǒng)中沒有用戶的行為數(shù)據(jù),無法根據(jù)他 的歷史行為為其推薦感興趣的項目,從而無法實現(xiàn)個性化推薦。
      [0037] 項目冷啟動:是指主要解決如何將新的項目推薦給可能對它感興趣的用戶。
      [0038] 系統(tǒng)冷啟動:是指主要解決如何在一個新開發(fā)的網(wǎng)站上設(shè)計個性化推薦系統(tǒng),從 而在網(wǎng)站剛發(fā)布時就讓用戶體驗個性化服務(wù)。
      [0039] 本發(fā)明的推薦系統(tǒng)包括3個部分,即:搜集用戶信息的行為記錄模塊、分析用戶喜 好的模型分析模塊以及推薦算法模塊,其中推薦算法是最核心的部分。根據(jù)不同的推薦算 法,推薦系統(tǒng)可以分為協(xié)同過濾系統(tǒng)、基于內(nèi)容推薦系統(tǒng)、基于關(guān)聯(lián)規(guī)則推薦系統(tǒng)以及混合 推薦,各種推薦方法優(yōu)缺點比較如下表,包括:
      [0040] 主要推薦方法對比 [0041 ]
      [0042] 在本發(fā)明的實現(xiàn)方法中首先要獲取用戶數(shù)據(jù)。Web用戶訪問數(shù)據(jù)可以從三個方面 收集:服務(wù)器端(即:Server)、客戶端(即:Client)、代理端(即:Proxy)。Web挖掘最常 用的數(shù)據(jù)源是服務(wù)器端的數(shù)據(jù)。通常在使用Web日志文件中的數(shù)據(jù)作為數(shù)據(jù)源進行分析和 知識挖掘時,最初獲取的數(shù)據(jù)總是雜亂無章的、冗余且不完整的,不符合Web挖掘?qū)?shù)據(jù)源 的要求。因此,必須首先對Web日志數(shù)據(jù)進行數(shù)據(jù)預處理,才能使數(shù)據(jù)更好地應(yīng)用于Web挖 掘。
      [0043] 如圖1所示,本發(fā)明的數(shù)據(jù)預處理就是將Web服務(wù)器中日志數(shù)據(jù)整理成事務(wù)數(shù)據(jù) 庫,供挖掘階段使用,Web挖掘數(shù)據(jù)預處理主要分為以下四個步驟:數(shù)據(jù)凈化、用戶識別、會 話識別和路徑補充,包括:
      [0044] 步驟1 :數(shù)據(jù)凈化
      [0045] 數(shù)據(jù)凈化指刪除事務(wù)數(shù)據(jù)庫無關(guān)的數(shù)據(jù),主要包含以下內(nèi)容:
      [0046] 步驟1-1 :在網(wǎng)絡(luò)傳輸過程中產(chǎn)生的錯誤數(shù)據(jù);
      [0047] 步驟1-2 :由用戶發(fā)送請求以外的方式完成的服務(wù);
      [0048] 步驟1-3 :-些非HTML文件,如圖片文件,通??梢酝ㄟ^后綴(即:gif,jpeg,jpg 等)識別。
      [0049] 步驟2:用戶識別
      [0050] 用戶是一個獨立的個體,它通過一個瀏覽器訪問一個或多個Web站點。但在實際 操作中,由于本地Cache和代理服務(wù)器(即:Proxy)的存在,使得用戶的識別非常困難,比 如:不同的用戶可能使用同一個代理服務(wù)器,在日志文件中會形成相同的IP地址;同時由 于代理服務(wù)器中的緩存功能,使得同一個用戶的訪問請求被誤認為不同的用戶。用戶可以 用一個瀏覽器,也可以用多個瀏覽器;可以訪問一個服務(wù)器,也可以訪問
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1