視頻推薦系統(tǒng)及方法
【專利摘要】本發(fā)明提供的視頻推薦系統(tǒng)及方法,通過信息獲取模塊獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù),由數(shù)據(jù)預(yù)處理模塊對所述多源數(shù)據(jù)進行預(yù)處理,再經(jīng)數(shù)據(jù)存儲模塊構(gòu)建的用戶數(shù)據(jù)庫存儲經(jīng)預(yù)處理后的多源數(shù)據(jù),再通過用戶特點分析模塊根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒和社交網(wǎng)絡(luò)分析模塊對用戶的好友聚類分析,獲取所述用戶的好友圈,視頻推薦模塊根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻并通過前端顯示模塊向所述用戶顯示選取的視頻。
【專利說明】視頻推薦系統(tǒng)及方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】,尤其涉及一種視頻推薦系統(tǒng)及方法。
【背景技術(shù)】
[0002]當(dāng)前已有的視頻推薦方法和系統(tǒng)主要有兩種。一種是用戶主動選擇喜歡的視頻類另O,然后系統(tǒng)根據(jù)用戶選擇來推薦相同類別的視頻;另一種則是根據(jù)用戶的觀看歷史記錄,推薦與用戶觀看過的視頻相同類別的其他視頻。
[0003]這兩種方法的共同特征都是利用用戶的個人信息并且側(cè)重于只利用其觀看信息來進行視頻推薦,忽略了用戶性別、年齡、職業(yè)、國籍、地區(qū)等其他刻畫用戶特征的重要信息。這導(dǎo)致了其推薦結(jié)果過度集中于用戶觀看過的某一類電影,無法反映用戶的真實興趣,推薦的準(zhǔn)確度、全面度偏低。
[0004]而且用戶的親人、朋友等社交網(wǎng)絡(luò)的成員會直接影響用戶的觀看習(xí)慣,例如用戶的好友向其推薦了某一電影,或者是該用戶的多位好友都觀看了同一部電影,那么該用戶喜歡該電影的可能性極大。這些信息對于視頻推薦具有極大參考價值,上述提到的方法卻完全未使用這些社交信息。這導(dǎo)致了其推薦結(jié)果完全無法反應(yīng)用戶的社交特點,無法預(yù)測用戶可能喜歡的潛在的視頻類別,不具有適應(yīng)性,靈活性較差。
[0005]因此現(xiàn)有技術(shù)還存在缺陷,有待于改進和發(fā)展。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供一種視頻推薦系統(tǒng),該視頻推薦系統(tǒng)能夠提供給用戶推薦準(zhǔn)確、全面的視頻。
[0007]一種視頻推薦系統(tǒng),包括:
[0008]信息獲取模塊,用于獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù);
[0009]數(shù)據(jù)預(yù)處理模塊,用于對所述多源數(shù)據(jù)進行預(yù)處理;
[0010]數(shù)據(jù)存儲模塊,構(gòu)建用戶數(shù)據(jù)庫,并將經(jīng)預(yù)處理后的多源數(shù)據(jù)存儲于所述數(shù)據(jù)庫中;
[0011]用戶特點分析模塊,用于根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒;
[0012]社交網(wǎng)絡(luò)分析模塊,用于對用戶的好友聚類分析,獲取所述用戶的好友圈;
[0013]視頻推薦模塊,用于根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻;
[0014]前端顯示模塊,用于向所述用戶顯示選取的視頻。
[0015]進一步地,所述信息獲取模塊包括:
[0016]用戶個人信息獲取子模塊,通過網(wǎng)頁版的用戶注冊模塊,獲取用戶的個人信息,所述個人信息包括年齡、性別、職業(yè)、國籍、所在地區(qū)、喜歡的視頻類型、觀看過的視頻列表;
[0017]社交網(wǎng)絡(luò)信息獲取子模塊,通過交流平臺獲取用戶社交網(wǎng)絡(luò)信息,所述用戶社交網(wǎng)絡(luò)信息包括用戶的好友信息、用戶推送的微博內(nèi)容以及發(fā)送微博的時間和地點、用戶觀看過的視頻列表、用戶的視頻打分信息 '及
[0018]視頻類別信息獲取子模塊,通過視頻網(wǎng)站獲取視頻類別信息,所述視頻類別信息包括名稱、導(dǎo)演、年代、類型等,視頻評分、視頻標(biāo)簽。
[0019]進一步地,所述數(shù)據(jù)預(yù)處理模塊包括:
[0020]數(shù)據(jù)清洗子模塊,用于剔除所述多源數(shù)據(jù)中不完整的數(shù)據(jù);
[0021]數(shù)據(jù)規(guī)約子模塊,用于將來自不同平臺的多源數(shù)據(jù)的格式進行統(tǒng)一;及
[0022]數(shù)據(jù)集成子模塊,用于將規(guī)約后的來自不同數(shù)據(jù)庫的數(shù)據(jù)集成到相同的數(shù)據(jù)庫中。
[0023]進一步地,所述數(shù)據(jù)存儲模塊用于將所述用戶個人信息存儲到Sqiserver或Mysql的關(guān)系型數(shù)據(jù)庫中及將用戶社交網(wǎng)絡(luò)信息存儲MongoDB的圖關(guān)系數(shù)據(jù)庫中。
[0024]進一步地,所述用戶特點分析模塊包括:
[0025]用戶性格分析子模塊,用于根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的性格;及
[0026]用戶情緒分析子模塊, 用于根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的情緒。
[0027]進一步地,所述視頻推薦模塊包括:
[0028]用戶個人信息推薦模塊,用于根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影;及
[0029]社交網(wǎng)絡(luò)信息推薦模塊,用于根據(jù)用戶的好友圈選取用戶喜好的視頻電影。
[0030]進一步地,還包括用戶信息實時捕捉模塊,用于實時獲取用戶的社交網(wǎng)絡(luò)信息,并存入所述數(shù)據(jù)庫中。
[0031]進一步地,還包括結(jié)果優(yōu)化模塊,用于對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表。
[0032]進一步地,所述前端顯示模塊包括網(wǎng)頁形式、電視終端或手機終端。
[0033]另外,本發(fā)明還提供了一種的視頻推薦方法,包括下述步驟:
[0034]獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù);
[0035]對所述多源數(shù)據(jù)進行預(yù)處理;
[0036]構(gòu)建用戶數(shù)據(jù)庫,并將經(jīng)預(yù)處理后的多源數(shù)據(jù)存儲于所述數(shù)據(jù)庫中;
[0037]根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒;
[0038]對用戶的好友聚類分析,獲取所述用戶的好友圈,所述好友圈包括密友圈子、好友圈子及最大傳播影響力好友;
[0039]根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻;及
[0040]用于向所述用戶顯示選取的視頻。
[0041]進一步地,根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒,包括下述步驟:
[0042]數(shù)學(xué)抽象為一個N維的向量空間,并且每個向量對應(yīng)性格/情緒基本要素,其中性格基本要素為:內(nèi)傾、外傾、穩(wěn)定、不穩(wěn)定,情緒基本要素為:喜悅、憤怒、悲傷、恐懼、厭惡、驚奇,所述N維的向量空間為Ρ=[χι、χ2、……];
[0043]對所述微博數(shù)據(jù)進行分詞,獲取語義要素,定義為C=[c1、c2、……];
[0044]建立函數(shù)映射關(guān)系,P=f (C), 其中,P是性格/情緒基本和要素的集合,C是微博數(shù)據(jù)分詞后得到的語義要素集合,f是對應(yīng)的映射函數(shù);[0045]從所述微博上搜集微博數(shù)據(jù)C,判定每項基本要素的得分,從而得到性格/情緒基本要素P,構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0046]利用神經(jīng)網(wǎng)絡(luò)算法對于訓(xùn)練數(shù)據(jù)集進行學(xué)習(xí)得到擬合模型,然后根據(jù)得到的模型預(yù)測用戶性格/情緒。
[0047]進一步地,對用戶的好友聚類分析,獲取所述用戶的好友圈,包括下述步驟:
[0048]將用戶的好友表示為一系列特征向量的集合,所述集合包括區(qū)域、年齡、性別、職業(yè)、喜歡的視頻類型及觀看過的視頻列表;
[0049]計算好友向量之間的距離來表征好友與好友之間的相似度,并依據(jù)相似度采用聚類算法KMeans將用戶的好友自動聚類為若干類型;
[0050]選取相似度較高的前20位好友構(gòu)成其密友圈子;
[0051]依據(jù)用戶好友的微博發(fā)送數(shù)量和轉(zhuǎn)發(fā)數(shù)量來計算用戶好友的傳播影響力,所述計算公式為p=0.2S+0.8F,其中P是好友的傳播影響力,S是微博發(fā)送數(shù)量,F(xiàn)是微博被轉(zhuǎn)發(fā)的次數(shù)。
[0052]進一步地,根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻,包括下述步驟:
[0053]根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影;及
[0054]根據(jù)用戶的好友圈選取用戶喜好的視頻電影。
[0055]進一步地,根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影,包括下述步驟:
[0056]將每部電影用區(qū)域、年代、主演、類型四個屬性來描述;
[0057]根據(jù)用戶的性格和情緒獲取該用戶對于具有某個屬性的電影的偏好程度,并賦予權(quán)值;
[0058]對于任意一部電影,所述用戶對應(yīng)于所述電影屬性的偏好程度進行加和,得到所述用戶對所述電影的喜好程度;
[0059]對所有電影進行計算,并選取喜好程度最大的10部電影推薦給用戶。
[0060]進一步地,根據(jù)用戶的好友圈選取用戶喜好的視頻電影,包括下述步驟:
[0061]計算用戶好友圈中各位好友共同觀看較多的視頻,提取前10個電影作為推薦結(jié)果;
[0062]找到用戶的密友圈子中共同觀看較多的視頻,提取前10個電影作為推薦結(jié)果;
[0063]根據(jù)用戶好友的傳播影響力,提取出前10個電影作為推薦結(jié)果。
[0064]進一步地,還包括下述步驟:對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表。
[0065]進一步地,對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表,包括下述步驟:
[0066]分別對于密友圈子得出的推薦結(jié)果、傳播影響力最大的好友的推薦結(jié)果及普通圈子的推薦結(jié)果賦予權(quán)值;
[0067]計算所有出現(xiàn)在推薦結(jié)果中的電影的權(quán)值之和;
[0068]并根據(jù)所述權(quán)值進行排序生成推薦列表,作為最終推薦結(jié)果。
[0069]本發(fā)明提供的視頻推薦系統(tǒng)和方法,通過信息獲取模塊獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù),由數(shù)據(jù)預(yù)處理模塊對所述多源數(shù)據(jù)進行預(yù)處理,再經(jīng)數(shù)據(jù)存儲模塊構(gòu)建的用戶數(shù)據(jù)庫存儲經(jīng)預(yù)處理后的多源數(shù)據(jù),再通過用戶特點分析模塊根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒和社交網(wǎng)絡(luò)分析模塊對用戶的好友聚類分析,獲取所述用戶的好友圈,視頻推薦模塊根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻并通過前端顯示模塊向所述用戶顯示選取的視頻。
【專利附圖】
【附圖說明】
[0070]圖1為本發(fā)明提供的視頻推薦系統(tǒng)的組成示意圖;
[0071]圖2為本發(fā)明提供的信息獲取模塊的組成示意圖;
[0072]圖3為本發(fā)明提供的數(shù)據(jù)預(yù)處理模塊的組成示意圖;
[0073]圖4為本發(fā)明提供的用戶特點分析模塊的組成示意圖;
[0074]圖5為本發(fā)明提供的視頻推薦方法的步驟流程圖;
[0075]圖6為本發(fā)明提供的根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒的步驟流程圖;
[0076]圖7為本發(fā)明提供的對用戶的好友聚類分析,獲取所述用戶的好友圈的步驟流程圖;
[0077]圖8為本發(fā)明提供的根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影的步驟流程圖;
[0078]圖9為本發(fā)明提供的根據(jù)用戶的好友圈選取用戶喜好的視頻電影的步驟流程圖?!揪唧w實施方式】
[0079]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清晰,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0080]請參閱圖1,圖1為本發(fā)明提供的視頻推薦系統(tǒng)100的組成示意圖,包括:信息獲取模塊110、數(shù)據(jù)預(yù)處理模塊120、數(shù)據(jù)存儲模塊130、用戶特點分析模塊140、社交網(wǎng)絡(luò)分析模塊150、視頻推薦模塊160及前端顯示模塊170。
[0081]請參閱圖2,信息獲取模塊110用于獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù)。優(yōu)選地,信息獲取模塊110包括:用戶個人信息獲取子模塊111、社交網(wǎng)絡(luò)信息獲取子模塊112及視頻類別信息獲取子模塊113。用戶個人信息獲取子模塊111通過網(wǎng)頁版的用戶注冊模塊,獲取用戶的個人信息,其中,個人信息包括年齡、性別、職業(yè)、國籍、所在地區(qū)、喜歡的視頻類型、觀看過的視頻列表;社交網(wǎng)絡(luò)信息獲取子模塊112通過交流平臺獲取用戶社交網(wǎng)絡(luò)信息,例如,可以利用新浪微博、騰訊微博、騰訊QQ、優(yōu)酷網(wǎng)等平臺提供的開放API接口來獲取用戶信息,其中,用戶社交網(wǎng)絡(luò)信息包括用戶的好友信息、用戶推送的微博內(nèi)容以及發(fā)送微博的時間和地點、用戶觀看過的視頻列表、用戶的視頻打分信息;視頻類別信息獲取子模塊113通過視頻網(wǎng)站獲取視頻類別信息,例如可以從豆瓣、優(yōu)酷等主流視頻網(wǎng)站中提取出所需要的信息,其中,視頻類別信息包括名稱、導(dǎo)演、年代、類型、視頻評分、視頻標(biāo)簽等。
[0082]請參閱圖3,數(shù)據(jù)預(yù)處理模塊120用于對多源數(shù)據(jù)進行預(yù)處理。優(yōu)選地,數(shù)據(jù)預(yù)處理模塊120包括:數(shù)據(jù)清洗子模塊121、數(shù)據(jù)規(guī)約子模塊122及數(shù)據(jù)集成子模塊123。數(shù)據(jù)清洗子模塊121用于剔除所述多源數(shù)據(jù)中不完整的數(shù)據(jù),比如用戶除了姓名之外沒有填寫任何個人信息的數(shù)據(jù)記錄將不會被分析推薦模塊使用;數(shù)據(jù)規(guī)約子模塊122用于將來自不同平臺的多源數(shù)據(jù)的格式進行統(tǒng)一,例如,將用戶個人注冊信息以及從微博、QQ等網(wǎng)站提出來的個人信息統(tǒng)一為如下格式:用戶名、年齡、性別、職業(yè)、國籍、所在地區(qū)、喜歡的視頻類型、觀看過的視頻列表,用戶的視頻打分信息;將來自微博、QQ的社交網(wǎng)絡(luò)信息統(tǒng)一為如下格式:用戶名、用戶好友1,用戶好友2,用戶好友3等;將來自豆瓣、優(yōu)酷等網(wǎng)絡(luò)的視頻信息規(guī)約為如下格式:視頻名稱、視頻年代、導(dǎo)演、主演、區(qū)域、類型、評分、標(biāo)簽;數(shù)據(jù)集成子模塊123用于將規(guī)約后的來自不同數(shù)據(jù)庫的數(shù)據(jù)集成到相同的數(shù)據(jù)庫中。
[0083]數(shù)據(jù)存儲模塊130構(gòu)建用戶數(shù)據(jù)庫,并將經(jīng)預(yù)處理后的多源數(shù)據(jù)存儲于數(shù)據(jù)庫中。優(yōu)選地,數(shù)據(jù)存儲模塊130用于將用戶個人信息存儲到Sqiserver或Mysql的關(guān)系型數(shù)據(jù)庫中及將用戶社交網(wǎng)絡(luò)信息存儲MongoDB的圖關(guān)系數(shù)據(jù)庫中。可以理解,Sql server或Mysql或MongoDB數(shù)據(jù)庫只是其中的一種優(yōu)選方式,而實際中還可以采用其他的數(shù)據(jù)庫。
[0084]請參閱圖4,用戶特點分析模塊140用于根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒。優(yōu)選地,用戶特點分析模塊140包括用戶性格分析子模塊141和用戶情緒分析子模塊142,用戶性格分析子模塊141用于根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的性格,用戶情緒分析子模塊142用于根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的情緒。
[0085]具體地,用戶性格分析子模塊141用于根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的性格,具體采用下述步驟對用戶性格的分析:
[0086]數(shù)學(xué)抽象為一個N維的向量空間,并且每個向量對應(yīng)性格基本要素,N維的向量空間為 P=[x1 χ2、......];
[0087]對所述微博數(shù)據(jù)進行分詞,獲取語義要素,定義為C=[c1、c2、……];
[0088]建立函數(shù)映射關(guān)系,P=f (C),其中,P是性格基本和要素的集合,C是微博數(shù)據(jù)分詞后得到的語義要素集合,f是對應(yīng)的映射函數(shù);
[0089]從所述微博上搜集微博數(shù)據(jù)C,人工分析其性格/情緒特點,解析為性格基本要素P,通過人工標(biāo)注數(shù)據(jù)得到訓(xùn)練數(shù)據(jù)集;
[0090]利用神經(jīng)網(wǎng)絡(luò)算法對于訓(xùn)練數(shù)據(jù)集進行學(xué)習(xí)得到擬合模型,然后根據(jù)得到的模型預(yù)測用戶性格。
[0091]而采用用戶情緒分析子模塊142根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的情緒與上述用戶性格分析子模塊141實現(xiàn)對用戶性格分析完全一致,在此不再贅述。
[0092]社交網(wǎng)絡(luò)分析模塊150用于對用戶的好友聚類分析,獲取所述用戶的好友圈。社交網(wǎng)絡(luò)分析模塊150該模塊針對用戶社交網(wǎng)絡(luò)數(shù)據(jù)進行多種分析,主要包括下述分析:
[0093]其一、對用戶的好友進行聚類,將其好友按照特點分為若干類別。將用戶的好友表示為一系列特征向量的集合:區(qū)域,年齡,性別,職業(yè),喜歡的視頻類型,觀看過的視頻列表,并計算好友與好友之間的相似度,并且依據(jù)相似度將用戶的好友分為若干類型。
[0094]其二、計算用戶與其好友的親密程度,獲取其密友圈子。通過計算用戶與好友之間的相似度,選擇相似度最高的幾個好友進入用戶的密友圈子,在推薦時加大權(quán)重。
[0095]其三、計算其好友的傳播影響力,進而決定其對于該用戶的影響力大小。依據(jù)用戶好友的微博發(fā)送數(shù)量和轉(zhuǎn)發(fā)數(shù)量來計算用戶的傳播影響力:
[0096]P=0.2S+0.8F[0097]其中P是好友的傳播影響力,S是微博發(fā)送數(shù)量,F(xiàn)是微博被轉(zhuǎn)發(fā)的次數(shù)。
[0098]并且依據(jù)其好友的傳播影響力來決定其在分析推薦模塊中所占的比重,影響力越大的好友在分析推薦模塊中占的比重越大。
[0099]視頻推薦模塊160用于根據(jù)所述用戶的性格、情緒和好友圈,選取用戶喜好的視頻;該模塊依據(jù)以上所得到的各種數(shù)據(jù)給出初步的推薦結(jié)果,主要包括下述推薦結(jié)果:
[0100]其一,依據(jù)用戶個人信息得出推薦結(jié)果的算法如下:
[0101]a)將每部視頻用區(qū)域、年代、主演、類型四個屬性來描述。
[0102]b)從用戶的個人信息中獲取該用戶對于具有某個屬性的電影的偏好程度,也用一個權(quán)值表不。
[0103]c)對于某一部電影,將該用戶對應(yīng)于這部電影屬性的偏好值進行加和即可得到用戶對這部電影的喜好程度。
[0104]d)對所有電影進行計算,并選取喜好程度較大的10部電影推薦給用戶。
[0105]其二,依據(jù)用戶的社交網(wǎng)絡(luò)信息推薦視頻信息,其算法如下:
[0106]a)在(6)社交網(wǎng)絡(luò)分析模塊中將用戶的好友分為了若干類別,計算用戶的個人信息與好友類別之間的相似度,從而確定用戶更可能屬于哪一類。
[0107]b)計算該類別中各位好友共同觀看較多的視頻,提取前10個作為推薦結(jié)果。
[0108]c)找到用戶的密友圈子中共同觀看較多的視頻,提取前10個作為推薦結(jié)果。
[0109]d)找到更具有影響力的好友,提取出前10個作為推薦結(jié)果。
[0110]前端顯示模塊170用于向所述用戶顯示選取的視頻。前端顯示模塊包括網(wǎng)頁形式、電視終端或手機終端。
[0111]另外,上述視頻推薦系統(tǒng)100還包括用戶信息實時捕捉模塊180,用于實時獲取用戶的社交網(wǎng)絡(luò)信息,并存入所述數(shù)據(jù)庫中。可以理解,在用戶通過網(wǎng)頁等終端登錄后,系統(tǒng)在終端顯示該用戶的歷史觀看列表,并且記錄用戶實時觀看的視頻信息,進而更新數(shù)據(jù)庫。同時對于微博、QQ等用戶則通過數(shù)據(jù)獲取模塊追蹤用戶近一段時間內(nèi)的社交信息,如推送的微博、個人好友數(shù)據(jù)的更新等,并且存入數(shù)據(jù)庫。
[0112]另外,上述視頻推薦系統(tǒng)100還包括結(jié)果優(yōu)化模塊190,用于對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表。可以理解,對于視頻推薦模塊160得出的各個結(jié)果通過結(jié)果優(yōu)化模塊190優(yōu)化后得出最終結(jié)果,具體包括:
[0113]a)對于密友圈子得出的推薦結(jié)果賦予權(quán)值1,對于影響力較大的好友得出的推薦結(jié)果賦予權(quán)值1.5,對于普通圈子得出的推薦結(jié)果賦予權(quán)值0.8 ;
[0114]b)計算所有出現(xiàn)在推薦結(jié)果中的電影的權(quán)值之和;
[0115]c)排序后選擇出圈子最大的前20部視頻,作為最終推薦結(jié)果。
[0116]請參閱圖5,為本發(fā)明提供的視頻推薦方法200,包括下述步驟:
[0117]步驟S210:獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù);
[0118]可以理解,可以通過網(wǎng)頁版的用戶注冊模塊,獲取用戶的個人信息,個人信息包括年齡、性別、職業(yè)、國籍、所在地區(qū)、喜歡的視頻類型、觀看過的視頻列表;通過交流平臺獲取用戶社交網(wǎng)絡(luò)信息,例如,可以利用新浪微博、騰訊微博、騰訊QQ、優(yōu)酷網(wǎng)等平臺提供的開放API接口來獲取用戶信息,其中,用戶社交網(wǎng)絡(luò)信息包括用戶的好友信息、用戶推送的微博內(nèi)容以及發(fā)送微博的時間和地點、用戶觀看過的視頻列表、用戶的視頻打分信息;通過視頻網(wǎng)站獲取視頻類別信息,例如可以從豆瓣、優(yōu)酷等主流視頻網(wǎng)站中提取出所需要的信息,其中,視頻類別信息包括名稱、導(dǎo)演、年代、類型等,視頻評分、視頻標(biāo)簽。
[0119]步驟S220:對多源數(shù)據(jù)進行預(yù)處理;
[0120]具體包括:剔除所述多源數(shù)據(jù)中不完整的數(shù)據(jù),比如用戶除了姓名之外沒有填寫任何個人信息的數(shù)據(jù)記錄將不會被分析推薦模塊使用;將來自不同平臺的多源數(shù)據(jù)的格式進行統(tǒng)一,例如,將用戶個人注冊信息以及從微博、QQ等網(wǎng)站提出來的個人信息統(tǒng)一為如下格式:用戶名、年齡、性別、職業(yè)、國籍、所在地區(qū)、喜歡的視頻類型、觀看過的視頻列表,用戶的視頻打分信息;將來自微博、QQ的社交網(wǎng)絡(luò)信息統(tǒng)一為如下格式:用戶名、用戶好友1,用戶好友2,
[0121]用戶好友3等;將來自豆瓣、優(yōu)酷等網(wǎng)絡(luò)的視頻信息規(guī)約為如下格式:視頻名稱、視頻年代、導(dǎo)演、主演、區(qū)域、類型、評分、標(biāo)簽;及將規(guī)約后的來自不同數(shù)據(jù)庫的數(shù)據(jù)集成到相同的數(shù)據(jù)庫中。
[0122]步驟S230:構(gòu)建用戶數(shù)據(jù)庫,并將經(jīng)預(yù)處理后的多源數(shù)據(jù)存儲于所述數(shù)據(jù)庫中;
[0123]優(yōu)選地,將用戶個人信息存儲到Sqiserver或Mysql的關(guān)系型數(shù)據(jù)庫中及將用戶社交網(wǎng)絡(luò)信息存儲MongoDB的圖關(guān)系數(shù)據(jù)庫中。可以理解,Sqiserver或Mysql或MongoDB數(shù)據(jù)庫只是其中的一種優(yōu)選方式,而實際中還可以采用其他的數(shù)據(jù)庫。
[0124]步驟S240:根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒;
[0125]請參閱圖6,根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒,包括下述步驟:
[0126]步驟S241:數(shù)學(xué)抽象為一個N維的向量空間,并且每個向量對應(yīng)性格/情緒基本要素,其中性格基本要素為:內(nèi)傾、外傾、穩(wěn)定、不穩(wěn)定,情緒基本要素為:喜悅、憤怒、悲傷、恐懼、厭惡、驚奇,所述N維的向量空間為Ρ=[χι、χ2、……];
[0127]步驟S242:對所述微博數(shù)據(jù)進行分詞,獲取語義要素,定義為C=[c1、c2、……];
[0128]步驟S243:建立函數(shù)映射關(guān)系,P=f (C),其中,P是性格/情緒基本和要素的集合,C是微博數(shù)據(jù)分詞后得到的語義要素集合,f是對應(yīng)的映射函數(shù);
[0129]步驟S244:從所述微博上搜集微博數(shù)據(jù)C,邀請具有心理咨詢經(jīng)驗的專業(yè)人士閱讀微博,判定每項基本要素的得分,從而得到性格/情緒基本要素P,構(gòu)成訓(xùn)練數(shù)據(jù)集;
[0130]步驟S245:利用神經(jīng)網(wǎng)絡(luò)算法對于訓(xùn)練數(shù)據(jù)集進行學(xué)習(xí)得到擬合模型,然后根據(jù)得到的模型預(yù)測用戶性格/情緒。
[0131]步驟S250:對用戶的好友聚類分析,獲取所述用戶的好友圈,所述好友圈包括密友圈子、好友圈子及最大傳播影響力好友;
[0132]請參閱圖7,對用戶的好友聚類分析,獲取所述用戶的好友圈,包括下述步驟:
[0133]步驟S251:將用戶的好友表示為一系列特征向量的集合,所述集合包括區(qū)域、年齡、性別、職業(yè)、喜歡的視頻類型及觀看過的視頻列表;
[0134]步驟S252:計算好友向量之間的距離來表征好友與好友之間的相似度,并依據(jù)相似度采用聚類算法KMeans將用戶的好友自動聚類為若干類型;
[0135]步驟S253:選取相似度較高的前20位好友構(gòu)成其密友圈子;
[0136]步驟S254:依據(jù)用戶好友的微博發(fā)送數(shù)量和轉(zhuǎn)發(fā)數(shù)量來計算用戶好友的傳播影響力,所述計算公式為P=0.2S+0.8F,其中P是好友的傳播影響力,S是微博發(fā)送數(shù)量,F(xiàn)是微博被轉(zhuǎn)發(fā)的次數(shù)??梢岳斫猓罁?jù)其好友的傳播影響力來決定其在分析推薦模塊中所占的比重,影響力越大的好友在分析推薦模塊中占的比重越大。
[0137]步驟S260:根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻;
[0138]根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻的步驟流程圖,包括下述步驟:
[0139]步驟S261:根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影;:
[0140]請參閱圖8,根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影,包括下述步驟:
[0141]步驟S2611:將每部電影用區(qū)域、年代、主演、類型四個屬性來描述;
[0142]步驟S2612:根據(jù)用戶的性格和情緒獲取該用戶對于具有某個屬性的電影的偏好程度,并賦予權(quán)值;
[0143]步驟S2613:對于任意一部電影,所述用戶對應(yīng)于所述電影屬性的偏好程度進行加和,得到所述用戶對所述電影的喜好程度;
[0144]步驟S2614:對所有電影進行計算,并選取喜好程度最大的10部電影推薦給用戶。
[0145]可以理解,選取10部電影推薦給用戶只是其中優(yōu)選的一種方式,實際中還可以選取其他的電影數(shù)量給用戶。
[0146]步驟S262:根據(jù)用戶的好友圈選取用戶喜好的視頻電影。
[0147]請參閱圖9,根據(jù)用戶的好友圈選取用戶喜好的視頻電影,包括下述步驟:
[0148]步驟S2621:計算用戶好友圈中各位好友共同觀看較多的視頻,提取前10個電影作為推薦結(jié)果;
[0149]步驟S2622:找到用戶的密友圈子中共同觀看較多的視頻,提取前10個電影作為推薦結(jié)果;
[0150]步驟S2623:根據(jù)用戶好友的傳播影響力,提取出前10個電影作為推薦結(jié)果。
[0151]步驟S270:用于向用戶顯示選取的視頻。
[0152]可以理解,通過上述步驟S210?S270可以實現(xiàn)對用戶的視頻推薦。上述視頻推薦的方法還可以包括下述步驟:
[0153]對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表。具體地,分別對于密友圈子得出的推薦結(jié)果、傳播影響力最大的好友的推薦結(jié)果及普通圈子的推薦結(jié)果賦予權(quán)值;計算所有出現(xiàn)在推薦結(jié)果中的電影的權(quán)值之和;并根據(jù)所述權(quán)值進行排序生成推薦列表,作為最終推薦結(jié)果。a)對于密友圈子得出的推薦結(jié)果賦予權(quán)值1,對于影響力較大的好友得出的推薦結(jié)果賦予權(quán)值1.5,對于普通圈子得出的推薦結(jié)果賦予權(quán)值0.8 ;再計算所有出現(xiàn)在推薦結(jié)果中的電影的權(quán)值之和;排序后選擇出圈子最大的前20部視頻,作為最終推薦結(jié)果。
[0154]本發(fā)明提供的視頻推薦系統(tǒng)和方法,通過信息獲取模塊獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù),由數(shù)據(jù)預(yù)處理模塊對所述多源數(shù)據(jù)進行預(yù)處理,再經(jīng)數(shù)據(jù)存儲模塊構(gòu)建的用戶數(shù)據(jù)庫存儲經(jīng)預(yù)處理后的多源數(shù)據(jù),再通過用戶特點分析模塊根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒和社交網(wǎng)絡(luò)分析模塊對用戶的好友聚類分析,獲取所述用戶的好友圈,視頻推薦模塊根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻并通過前端顯示模塊向所述用戶顯示選取的視頻。[0155]可以理解的是,對于本領(lǐng)域的普通技術(shù)人員來說,可以根據(jù)本發(fā)明的技術(shù)構(gòu)思做出其他各種相應(yīng)的改變與變形,而所有這些改變與變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護范圍。
【權(quán)利要求】
1.一種視頻推薦系統(tǒng),其特征在于,包括: 信息獲取模塊,用于獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù); 數(shù)據(jù)預(yù)處理模塊,用于對所述多源數(shù)據(jù)進行預(yù)處理; 數(shù)據(jù)存儲模塊,構(gòu)建用戶數(shù)據(jù)庫,并將經(jīng)預(yù)處理后的多源數(shù)據(jù)存儲于所述數(shù)據(jù)庫中; 用戶特點分析模塊,用于根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒; 社交網(wǎng)絡(luò)分析模塊,用于對用戶的好友聚類分析,獲取所述用戶的好友圈; 視頻推薦模塊,用于根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻;及 前端顯示模塊,用于向所述用戶顯示選取的視頻。
2.根據(jù)權(quán)利要求1所述的視頻推薦系統(tǒng),其特征在于,所述信息獲取模塊包括: 用戶個人信息獲取子模塊,通過網(wǎng)頁版的用戶注冊模塊,獲取用戶的個人信息,所述個人信息包括年齡、性別、職業(yè)、國籍、所在地區(qū)、喜歡的視頻類型、觀看過的視頻列表; 社交網(wǎng)絡(luò)信息獲取子模 塊,通過交流平臺獲取用戶社交網(wǎng)絡(luò)信息,所述用戶社交網(wǎng)絡(luò)信息包括用戶的好友信息、用戶推送的微博內(nèi)容以及發(fā)送微博的時間和地點、用戶觀看過的視頻列表、用戶的視頻打分信息 '及 視頻類別信息獲取子模塊,通過視頻網(wǎng)站獲取視頻類別信息,所述視頻類別信息包括名稱、導(dǎo)演、年代、類型、視頻評分、視頻標(biāo)簽。
3.根據(jù)權(quán)利要求1所述的視頻推薦系統(tǒng),其特征在于,所述數(shù)據(jù)預(yù)處理模塊包括: 數(shù)據(jù)清洗子模塊,用于剔除所述多源數(shù)據(jù)中不完整的數(shù)據(jù); 數(shù)據(jù)規(guī)約子模塊,用于將來自不同平臺的多源數(shù)據(jù)的格式進行統(tǒng)一;及 數(shù)據(jù)集成子模塊,用于將規(guī)約后的來自不同數(shù)據(jù)庫的數(shù)據(jù)集成到相同的數(shù)據(jù)庫中。
4.根據(jù)權(quán)利要求1所述的視頻推薦系統(tǒng),其特征在于,所述數(shù)據(jù)存儲模塊用于將所述用戶個人信息存儲到Sqiserver或Mysql的關(guān)系型數(shù)據(jù)庫中及將用戶社交網(wǎng)絡(luò)信息存儲MongoDB的圖關(guān)系數(shù)據(jù)庫中。
5.根據(jù)權(quán)利要求1所述的視頻推薦系統(tǒng),其特征在于,所述用戶特點分析模塊包括: 用戶性格分析子模塊,用于根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的性格;及 用戶情緒分析子模塊,用于根據(jù)用戶以往發(fā)送的微博數(shù)據(jù)分析用戶的情緒。
6.根據(jù)權(quán)利要求1所述的視頻推薦系統(tǒng),其特征在于,所述視頻推薦模塊包括: 用戶個人信息推薦模塊,用于根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影;及 社交網(wǎng)絡(luò)信息推薦模塊,用于根據(jù)用戶的好友圈選取用戶喜好的視頻電影。
7.根據(jù)權(quán)利要求1所述的視頻推薦系統(tǒng),其特征在于,還包括用戶信息實時捕捉模塊,用于實時獲取用戶的社交網(wǎng)絡(luò)信息,并存入所述數(shù)據(jù)庫中。
8.根據(jù)權(quán)利要求1所述的視頻推薦系統(tǒng),其特征在于,還包括結(jié)果優(yōu)化模塊,用于對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表。
9.根據(jù)權(quán)利要求8所述的視頻推薦系統(tǒng),其特征在于,所述前端顯示模塊包括網(wǎng)頁形式、電視終端或手機終端。
10.一種視頻推薦方法,其特征在于,包括下述步驟:獲取包括用戶個人信息、用戶社交網(wǎng)絡(luò)信息及視頻類別信息的多源數(shù)據(jù); 對所述多源數(shù)據(jù)進行預(yù)處理; 構(gòu)建用戶數(shù)據(jù)庫,并將經(jīng)預(yù)處理后的多源數(shù)據(jù)存儲于所述數(shù)據(jù)庫中; 根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒; 對用戶的好友聚類分析,獲取所述用戶的好友圈,所述好友圈包括密友圈子、好友圈子及最大傳播影響力好友; 根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻;及 用于向所述用戶顯示選取的視頻。
11.根據(jù)權(quán)利要求10所述的視頻推薦方法,其特征在于,根據(jù)用戶發(fā)送的微博數(shù)據(jù)獲取用戶的性格和情緒,包括下述步驟: 數(shù)學(xué)抽象為一個N維的向量空間,并且每個向量對應(yīng)性格/情緒基本要素,其中性格基本要素為:內(nèi)傾、外傾、穩(wěn)定、不穩(wěn)定,情緒基本要素為:喜悅、憤怒、悲傷、恐懼、厭惡、驚奇,所述N維的向量空間記為P=Iixp x2、......]; 對所述微博數(shù)據(jù)進行分詞,獲取語義要素,定義為C=[c1、c2、……]; 建立函數(shù)映射關(guān)系,P=f (C),其中,P是性格/情緒基本要素的集合,C是微博數(shù)據(jù)分詞后得到的語義要素集合,f是對應(yīng)的映射函數(shù); 從所述微博上搜集微博數(shù)據(jù)C,判定每項基本要素的得分,從而得到性格/情緒基本要素P,構(gòu)成訓(xùn)練數(shù)據(jù)集; 利用神經(jīng)網(wǎng)絡(luò)算法對于訓(xùn)練數(shù)據(jù)集進行學(xué)習(xí)得到擬合模型,然后根據(jù)得到的模型預(yù)測用戶性格/情緒。
12.根據(jù)權(quán)利要求10所述的視頻推薦方法,其特征在于,對用戶的好友聚類分析,獲取所述用戶的好友圈,包括下述步驟: 將用戶的好友表示為一系列特征向量的集合,所述集合包括區(qū)域、年齡、性別、職業(yè)、喜歡的視頻類型及觀看過的視頻列表; 計算好友向量之間的距離來表征好友與好友之間的相似度,并依據(jù)相似度采用聚類算法KMeans將用戶的好友自動聚類為若干類型; 選取相似度較高的前20位好友構(gòu)成其密友圈子; 依據(jù)用戶好友的微博發(fā)送數(shù)量和轉(zhuǎn)發(fā)數(shù)量來計算用戶好友的傳播影響力,所述計算公式為p=0.2S+0.8F,其中P是好友的傳播影響力,S是微博發(fā)送數(shù)量,F(xiàn)是微博被轉(zhuǎn)發(fā)的次數(shù)。
13.根據(jù)權(quán)利要求10所述的視頻推薦方法,其特征在于,根據(jù)所述用戶的性格、情緒和好友圈,選取所述用戶喜好的視頻,包括下述步驟: 根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影;及 根據(jù)用戶的好友圈選取用戶喜好的視頻電影。
14.根據(jù)權(quán)利要求13所述的視頻推薦方法,其特征在于,根據(jù)用戶的性格和情緒選取用戶喜好的視頻電影,包括下述步驟: 將每部電影用區(qū)域、年代、主演、類型四個屬性來描述; 根據(jù)用戶的性格和情緒獲取該用戶對于具有某個屬性的電影的偏好程度,并賦予權(quán)值; 對于任意一部電影,所述用戶對應(yīng)于所述電影屬性的偏好程度進行加和,得到所述用戶對所述電影的喜好程度; 對所有電影進行計算,并選取喜好程度最大的10部電影推薦給用戶。
15.根據(jù)權(quán)利要求13所述的視頻推薦方法,其特征在于,根據(jù)用戶的好友圈選取用戶喜好的視頻電影,包括下述步驟: 計算用戶好友圈中各位好友共同觀看較多的視頻,提取前10個電影作為推薦結(jié)果; 找到用戶的密友圈子中共同觀看較多的視頻,提取前10個電影作為推薦結(jié)果; 根據(jù)用戶好友的傳播影響力,提取出前10個電影作為推薦結(jié)果。
16.根據(jù)權(quán)利要求12所述的視頻推薦方法,其特征在于,還包括下述步驟:對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表。
17.根據(jù)權(quán)利要求16所述的視頻推薦方法,其特征在于,對所述視頻推薦模塊根據(jù)好友圈選取的視頻賦予權(quán)值,并根據(jù)所述權(quán)值進行排序生成推薦列表,包括下述步驟: 分別對于密友圈子得出的推薦結(jié)果、傳播影響力最大的好友的推薦結(jié)果及普通圈子的推薦結(jié)果賦予權(quán)值; 計算所有出現(xiàn)在推薦結(jié)果中的電影的權(quán)值之和; 并根據(jù)所述權(quán)值進行排序生·成推薦列表,作為最終推薦結(jié)果。
【文檔編號】G06F17/30GK103714130SQ201310684807
【公開日】2014年4月9日 申請日期:2013年12月12日 優(yōu)先權(quán)日:2013年12月12日
【發(fā)明者】涂繼業(yè), 張涌, 寧立 申請人:深圳先進技術(shù)研究院