一種移動(dòng)社交網(wǎng)絡(luò)用戶興趣的建模方法
【專利摘要】本發(fā)明公開(kāi)了一種移動(dòng)社交網(wǎng)絡(luò)用戶興趣的建模方法,總體方案包括用戶興趣信息的選擇和獲取、用戶興趣模型的表示形式、用戶興趣度權(quán)重的計(jì)算、興趣模型的存儲(chǔ)以及與之相關(guān)的算法。本發(fā)明能夠更加準(zhǔn)確把握用戶興趣,提高用戶體驗(yàn),實(shí)現(xiàn)用戶的個(gè)性化服務(wù)和內(nèi)容的精準(zhǔn)推廣。采用的建模表示方法,一方面,該表示方法能直觀表示用戶的興趣項(xiàng)目和感興趣的程度;另一方面,該表示方法的優(yōu)點(diǎn)是用戶興趣表達(dá)的長(zhǎng)度是一樣的,有利于動(dòng)態(tài)模型的建立和用戶相似度的計(jì)算,該模型能為內(nèi)容提供商實(shí)施個(gè)性化內(nèi)容推薦提供依據(jù)。
【專利說(shuō)明】
一種移動(dòng)社交網(wǎng)絡(luò)用戶興趣的建模方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種移動(dòng)社交網(wǎng)絡(luò)用戶的興趣建模方法,屬于移動(dòng)信息技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著手機(jī)等移動(dòng)智能終端、無(wú)線技術(shù)和4G網(wǎng)絡(luò)的迅猛發(fā)展,人們之間越來(lái)越多的 通過(guò)手持移動(dòng)設(shè)備進(jìn)行相互通信,進(jìn)而逐步形成了移動(dòng)社交網(wǎng)絡(luò)(Mobile Social NetW〇rk,MSN)。許多基于社交網(wǎng)絡(luò)服務(wù)的應(yīng)用吸引了大量的用戶,例如現(xiàn)在的微博、微信 等。用戶可通過(guò)移動(dòng)社交網(wǎng)絡(luò)平臺(tái)瀏覽各渠道的信息,企業(yè)也可以營(yíng)銷產(chǎn)品和發(fā)布信息,移 動(dòng)社交網(wǎng)絡(luò)已經(jīng)深刻的滲入日常生活和商業(yè)活動(dòng)。
[0003]隨著移動(dòng)社交網(wǎng)絡(luò)用戶規(guī)模和信息量的爆炸式增長(zhǎng),一方面,日益增長(zhǎng)的信息使 得人們難以快速準(zhǔn)確的獲取真正所需要的內(nèi)容,另一方面,對(duì)內(nèi)容提供商而言,不加區(qū)分的 為所有用戶推送相同的商品活動(dòng)信息不僅花費(fèi)較高,而且容易引起用戶反感,帶來(lái)信息騷 擾。因此,對(duì)于商家和移動(dòng)平臺(tái)而言,基于用戶的興趣推送其喜愛(ài)的內(nèi)容,可以提升用戶體 驗(yàn),提高信息的接受程度,增加盈利。基于此,本文的目標(biāo)即建立移動(dòng)社交網(wǎng)絡(luò)用戶興趣模 型,從而準(zhǔn)確把握用戶興趣,提高用戶體驗(yàn),實(shí)現(xiàn)用戶的個(gè)性化服務(wù)和內(nèi)容的精準(zhǔn)推廣。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種能夠更加準(zhǔn)確把握用戶興趣,提高用戶體驗(yàn),實(shí)現(xiàn)用戶 的個(gè)性化服務(wù)和內(nèi)容的精準(zhǔn)推廣的移動(dòng)社交網(wǎng)絡(luò)用戶興趣的建模方法。
[0005] 本發(fā)明采用的技術(shù)方案為:
[0006] -種移動(dòng)社交網(wǎng)絡(luò)用戶興趣的建模方法,其創(chuàng)新點(diǎn)在于:總體方案包括用戶興趣 信息的選擇和獲取、用戶興趣模型的表示形式、用戶興趣度權(quán)重的計(jì)算、興趣模型的存儲(chǔ)以 及與之相關(guān)的算法,其具體步驟如下:
[0007] 1)興趣信息的選擇和獲取:通過(guò)挖掘用戶在使用移動(dòng)社交網(wǎng)絡(luò)過(guò)程中產(chǎn)生的行為 和資源來(lái)獲取和選擇信息,具體包括通過(guò)用戶自身發(fā)布的信息,這些信息是挖掘用戶興趣 信息的重要來(lái)源;通過(guò)用戶的個(gè)人標(biāo)簽,標(biāo)簽以關(guān)鍵詞描述了自己喜好和關(guān)注的領(lǐng)域,可直 接顯性獲得用戶興趣;通過(guò)用戶評(píng)論與轉(zhuǎn)發(fā)的其他用戶推送內(nèi)容;
[0008] 2)用戶興趣模型的表示形式:用戶興趣信息的來(lái)源文本集表示成文本D,建立用于 分詞和統(tǒng)計(jì)詞頻的Hash詞典,提取特征詞,用向量空間法表示用戶興趣構(gòu)成特征向量,將用 戶的興趣項(xiàng)和權(quán)重表示成向量空間中的向量;將用戶的興趣項(xiàng)按照一定的分類或聚類的原 則進(jìn)行區(qū)分,興趣項(xiàng)數(shù)目不宜龐大,以免在存儲(chǔ)時(shí)造成維度過(guò)高,引發(fā)矩陣的高維稀疏問(wèn) 題;
[0009] 3)用戶興趣度權(quán)重的計(jì)算:興趣度權(quán)重的計(jì)算采用改進(jìn)的TF-IDF算法,該算法通 常運(yùn)用在文本挖掘中用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件 的重要程度,改進(jìn)是基于考慮到移動(dòng)社交網(wǎng)絡(luò)的特性,某些事件客觀上在短時(shí)間內(nèi)被大量 的轉(zhuǎn)發(fā),造成網(wǎng)民的圍觀,該情形并不屬于用戶真實(shí)的興趣表露,在權(quán)重的算法設(shè)計(jì)上要 給與識(shí)別與糾正;
[0010]假設(shè)某用戶,其在某時(shí)間內(nèi)發(fā)布和轉(zhuǎn)發(fā)的信息集合為m,則該用戶的某興趣項(xiàng)權(quán)重 計(jì)算公式為:
[0012]其中,Msgj表示用戶發(fā)表的第j條信息,Countij(Msgj)是該條信息中提到興趣項(xiàng)i 的次數(shù),興趣項(xiàng)共有η項(xiàng);kall是用戶關(guān)注的好友總數(shù);h是轉(zhuǎn)發(fā)該信息的用戶數(shù);將該權(quán)重 歸一化處理就可以得到用隸屬度表示的該用戶對(duì)某興趣項(xiàng)的興趣度;
[0013] 4)興趣模型的存儲(chǔ)以及與之相關(guān)的算法:采用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)移動(dòng)網(wǎng)絡(luò)用戶及 其關(guān)注好友所發(fā)布和轉(zhuǎn)發(fā)的信息內(nèi)容,確定用戶的興趣項(xiàng)及其相關(guān)特征相,這關(guān)系到興趣 度的大小和興趣模型的大小,然后建立興趣項(xiàng)詞典和文本數(shù)據(jù)清理詞典,編寫(xiě)和存儲(chǔ)計(jì)算 興趣項(xiàng)詞頻和興趣度權(quán)重計(jì)算的算法,總體上,數(shù)據(jù)庫(kù)存儲(chǔ)表包括用戶信息表、用戶關(guān)系 表、興趣項(xiàng)信息表、興趣類別表、用戶興趣項(xiàng)詞頻表、用戶興趣度表;
[0014] 算法偽代碼為:
[0015] 輸入:信息文本集合(如微博)WB
[0016] 輸出:用戶的興趣度向量模型
[0017] (1)F0R j = lT0 m
[0018] (2)SW=Segment(WBj)//分詞處理
[0019] (3)END FOR
[0020] (4)T = Statistics(SWS)//抽取和統(tǒng)計(jì)得到特征項(xiàng)
[0021] (5)F0R ? = 1Τ0 η
[0022] (6)F0R j = lT0 m
[0023 ] (7) Countij = Stat istics(Ti,WBj)//統(tǒng)計(jì)各個(gè)微博中包含的特征項(xiàng)的詞頻
[0024] (8)wij=Weight (Countij,m,kaii,kj)//計(jì)算某條微博中包含的興趣項(xiàng)的權(quán)重
[0027] (ll)END FOR
[0028] (12)END FOR
[0029] ...,(Tn,Wn)}//得到用戶的興趣向量模型。
[0030] 本發(fā)明的有益效果如下:
[0031] 本發(fā)明能夠更加準(zhǔn)確把握用戶興趣,提高用戶體驗(yàn),實(shí)現(xiàn)用戶的個(gè)性化服務(wù)和內(nèi) 容的精準(zhǔn)推廣。采用的建模表示方法,一方面,該表示方法能直觀表示用戶的興趣項(xiàng)目和感 興趣的程度;另一方面,該表示方法的優(yōu)點(diǎn)是用戶興趣表達(dá)的長(zhǎng)度是一樣的,有利于動(dòng)態(tài)模 型的建立和用戶相似度的計(jì)算,該模型能為內(nèi)容提供商實(shí)施個(gè)性化內(nèi)容推薦提供依據(jù)。
【附圖說(shuō)明】
[0032] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。
[0033] 圖1為本發(fā)明移動(dòng)社交網(wǎng)絡(luò)用戶興趣建模的總體流程圖。
[0034]圖2為本發(fā)明移動(dòng)社交網(wǎng)絡(luò)用戶興趣建模的數(shù)據(jù)流程圖。
【具體實(shí)施方式】
[0035] 如圖1、圖2所述的一種移動(dòng)社交網(wǎng)絡(luò)用戶興趣,總體方案包括用戶興趣信息的選 擇和獲取、用戶興趣模型的表示形式、用戶興趣度權(quán)重的計(jì)算、興趣模型的存儲(chǔ)以及與之相 關(guān)的算法,其具體步驟如下:
[0036] 1)興趣信息的選擇和獲?。河脩舻男袨轶w現(xiàn)用戶的興趣,挖掘用戶在使用移動(dòng)社 交網(wǎng)絡(luò)過(guò)程中產(chǎn)生的行為和資源,以微博為例,用戶發(fā)表微博、關(guān)注用戶、轉(zhuǎn)發(fā)和評(píng)論微博 等行為是挖掘用戶興趣的來(lái)源。用戶自身發(fā)布的微博收集后會(huì)很大程度的涉及到自身興趣 領(lǐng)域,是挖掘用戶興趣信息的重要來(lái)源;如果用戶的個(gè)人標(biāo)簽以關(guān)鍵詞描述了自己喜好和 關(guān)注的領(lǐng)域,如旅行、汽車、攝影、美食等,則可直接顯性獲得用戶興趣;用戶關(guān)注其他的微 博用戶,則可瀏覽到其他用戶的微博推送內(nèi)容,還可以評(píng)論與轉(zhuǎn)發(fā)。轉(zhuǎn)發(fā)是最具社交網(wǎng)絡(luò)特 征的用戶行為,正因?yàn)橛脩絷P(guān)注微博文本信息才會(huì)轉(zhuǎn)發(fā);
[0037] 2)將用戶的興趣項(xiàng)按照一定的分類或聚類的原則進(jìn)行區(qū)分,興趣項(xiàng)數(shù)目不宜龐 大,以免在存儲(chǔ)時(shí)造成維度過(guò)高,引發(fā)矩陣的高維稀疏問(wèn)題。依據(jù)現(xiàn)實(shí)中用戶活動(dòng)自然產(chǎn)生 的主題興趣群,在此主題群中的用戶都屬于一個(gè)大類興趣,例如體育,而該大類興趣下又存 在很多的小項(xiàng)目,例如足球、籃球、游泳等;
[0038] 3)用戶興趣模型的建模采用向量空間表示法,思路是將用戶的興趣項(xiàng)和權(quán)重表示 成向量空間中的向量,用戶興趣信息的來(lái)源文本集表示成文本D,建立用于分詞和統(tǒng)計(jì)詞 頻的他811詞典,提取特征詞,用戶興趣構(gòu)成特征向量¥={(1:1,'\¥1),(^2,'?2),...,(1: 11,'\¥11)}山 是文本集D中的第i個(gè)興趣特征項(xiàng),Wl是該特征項(xiàng)的權(quán)值。一方面,該表示方法能直觀表示用 戶的興趣項(xiàng)目和感興趣的程度;另一方面,該表示方法的優(yōu)點(diǎn)是用戶興趣表達(dá)的長(zhǎng)度是一 樣的,有利于動(dòng)態(tài)模型的建立和用戶相似度的計(jì)算。該模型能為內(nèi)容提供商實(shí)施個(gè)性化內(nèi) 容推薦提供依據(jù);
[0039] 4)興趣模型的存儲(chǔ)以及與之相關(guān)的算法:興趣度權(quán)重的計(jì)算采用改進(jìn)的TF-IDF算 法,該算法通常運(yùn)用在文本挖掘中用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其 中一份文件的重要程度,改進(jìn)是基于考慮到移動(dòng)社交網(wǎng)絡(luò)的特性,某些事件客觀上在短時(shí) 間內(nèi)被大量的轉(zhuǎn)發(fā),造成網(wǎng)民的圍觀,該情形并不屬于用戶真實(shí)的興趣表露,在權(quán)重的算法 設(shè)計(jì)上要給與識(shí)別與糾正;
[0040]假設(shè)某用戶,其在某時(shí)間內(nèi)發(fā)布和轉(zhuǎn)發(fā)的信息集合為m,則該用戶的某興趣項(xiàng)權(quán)重 計(jì)算公式為
[0042]其中,Msgj表示用戶發(fā)表的第j條信息,Countij(Msgj)是該條信息中提到興趣項(xiàng)i 的次數(shù),興趣項(xiàng)共有η項(xiàng);kall是用戶關(guān)注的好友總數(shù)也是轉(zhuǎn)發(fā)該信息的用戶數(shù);興趣項(xiàng)共 有η項(xiàng)。將該權(quán)重歸一化處理就可以得到用隸屬度表示的該用戶對(duì)某興趣項(xiàng)的興趣度。
[0043] 采用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)移動(dòng)網(wǎng)絡(luò)用戶及其關(guān)注好友所發(fā)布和轉(zhuǎn)發(fā)的信息內(nèi)容, 確定用戶的興趣項(xiàng)及其相關(guān)特征,這關(guān)系到興趣度的大小和興趣模型的大小,然后建立興 趣項(xiàng)詞典和文本數(shù)據(jù)清理詞典,編寫(xiě)和存儲(chǔ)計(jì)算興趣項(xiàng)詞頻和興趣度權(quán)重計(jì)算的算法,總 體上,數(shù)據(jù)庫(kù)存儲(chǔ)表包括用戶信息表、用戶關(guān)系表、興趣項(xiàng)信息表、興趣類別表、用戶興趣項(xiàng) 詞頻表、用戶興趣度表等。
[0044] 以上所述是本發(fā)明的優(yōu)選實(shí)施方式,不能以此來(lái)限定本發(fā)明之權(quán)利范圍。應(yīng)當(dāng)指 出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都 不脫離本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種移動(dòng)社交網(wǎng)絡(luò)用戶興趣的建模方法,其特征在于:總體方案包括用戶興趣信息 的選擇和獲取、用戶興趣模型的表示形式、用戶興趣度權(quán)重的計(jì)算、興趣模型的存儲(chǔ)以及與 之相關(guān)的算法,其具體步驟如下: 1) 興趣信息的選擇和獲取:通過(guò)挖掘用戶在使用移動(dòng)社交網(wǎng)絡(luò)過(guò)程中產(chǎn)生的行為和資 源來(lái)獲取和選擇信息,具體包括通過(guò)用戶自身發(fā)布的信息,這些信息是挖掘用戶興趣信息 的重要來(lái)源;通過(guò)用戶的個(gè)人標(biāo)簽,標(biāo)簽以關(guān)鍵詞描述了自己喜好和關(guān)注的領(lǐng)域,可直接顯 性獲得用戶興趣;通過(guò)用戶評(píng)論與轉(zhuǎn)發(fā)的其他用戶推送內(nèi)容; 2) 用戶興趣模型的表示形式:用戶興趣信息的來(lái)源文本集表示成文本D,建立用于分詞 和統(tǒng)計(jì)詞頻的Hash詞典,提取特征詞,用向量空間法表示用戶興趣構(gòu)成特征向量,將用戶的 興趣項(xiàng)和權(quán)重表示成向量空間中的向量;將用戶的興趣項(xiàng)按照一定的分類或聚類的原則進(jìn) 行區(qū)分,興趣項(xiàng)數(shù)目不宜龐大,以免在存儲(chǔ)時(shí)造成維度過(guò)高,引發(fā)矩陣的高維稀疏問(wèn)題; 3) 用戶興趣度權(quán)重的計(jì)算:興趣度權(quán)重的計(jì)算采用改進(jìn)的TF-IDF算法,該算法通常運(yùn) 用在文本挖掘中用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重 要程度,改進(jìn)是基于考慮到移動(dòng)社交網(wǎng)絡(luò)的特性,某些事件客觀上在短時(shí)間內(nèi)被大量的轉(zhuǎn) 發(fā),造成網(wǎng)民的圍觀,該情形并不屬于用戶真實(shí)的興趣表露,在權(quán)重的算法設(shè)計(jì)上要給與識(shí) 別與糾正; 假設(shè)某用戶,其在某時(shí)間內(nèi)發(fā)布和轉(zhuǎn)發(fā)的信息集合為m,則該用戶的某興趣項(xiàng)權(quán)重計(jì) 算公式為:其中,Msgj表示用戶發(fā)表的第j條信息,Countij(Msgj)是該條信息中提到興趣項(xiàng)i的次 數(shù),興趣項(xiàng)共有η項(xiàng);kall是用戶關(guān)注的好友總數(shù);h是轉(zhuǎn)發(fā)該信息的用戶數(shù);將該權(quán)重歸一 化處理就可以得到用隸屬度表示的該用戶對(duì)某興趣項(xiàng)的興趣度; 4) 興趣模型的存儲(chǔ)以及與之相關(guān)的算法:采用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)移動(dòng)網(wǎng)絡(luò)用戶及其關(guān) 注好友所發(fā)布和轉(zhuǎn)發(fā)的信息內(nèi)容,確定用戶的興趣項(xiàng)及其相關(guān)特征相,這關(guān)系到興趣度的 大小和興趣模型的大小,然后建立興趣項(xiàng)詞典和文本數(shù)據(jù)清理詞典,編寫(xiě)和存儲(chǔ)計(jì)算興趣 項(xiàng)詞頻和興趣度權(quán)重計(jì)算的算法,總體上,數(shù)據(jù)庫(kù)存儲(chǔ)表包括用戶信息表、用戶關(guān)系表、興 趣項(xiàng)信息表、興趣類別表、用戶興趣項(xiàng)詞頻表、用戶興趣度表; 算法偽代碼為: 輸入:信息文本集合(如微博)WB 輸出:用戶的興趣度向量模型 (1)F0R j = l TO m (2 )SW= Segment (??)//分詞處理 (3) END FOR (4) T = Stat i s t i c s (SWS) //抽取和統(tǒng)計(jì)得到特征項(xiàng) (5) F0R i = l ΤΟ η (6) F0R j = l TO m (7) Counti j = Stat istics(Ti,WBj)//統(tǒng)計(jì)各個(gè)微博中包含的特征項(xiàng)的詞頻 (8) wi j = We ight (Countij,m,kaii,kj) //計(jì)算某條微博中包含的興趣項(xiàng)的權(quán)重 m (9) W =Σ"·'ν//得到用戶的各興趣項(xiàng)權(quán)重 Μ (10)/歸一化處理得到興趣度 (11) END FOR (12) END FOR 得到用戶的興趣向量模型。
【文檔編號(hào)】G06F17/30GK105868267SQ201610124887
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年3月4日
【發(fā)明人】季莉, 楊中秋, 蔡彬彬
【申請(qǐng)人】江蘇工程職業(yè)技術(shù)學(xué)院