一種基于微博標(biāo)簽的人群畫(huà)像系統(tǒng)和方法
【專利摘要】本發(fā)明屬于無(wú)線通信網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,具體為一種基于微博標(biāo)簽的人群畫(huà)像系統(tǒng)和方法,本發(fā)明系統(tǒng)包含微博標(biāo)簽推薦和標(biāo)簽主題聚類兩大模塊,其中第一模塊中采用一個(gè)涵蓋三個(gè)步驟的標(biāo)簽推薦算法。第一步為同質(zhì)性標(biāo)簽推薦,第二步為共現(xiàn)性標(biāo)簽擴(kuò)展;第三步則是以中文知識(shí)圖譜為基礎(chǔ)建立語(yǔ)義網(wǎng)絡(luò),利用網(wǎng)絡(luò)拓?fù)涮匦詠?lái)度量標(biāo)簽之間的語(yǔ)義相似度,從而去除語(yǔ)義相同或相似的標(biāo)簽,保證用來(lái)刻畫(huà)用戶的標(biāo)簽精煉性。本發(fā)明利用微博用戶標(biāo)簽具有廣泛的商業(yè)應(yīng)用價(jià)值,同時(shí)也為互聯(lián)網(wǎng)用戶標(biāo)簽的挖掘算法和中文知識(shí)圖譜的應(yīng)用指明了研究方向。
【專利說(shuō)明】一種基于微博標(biāo)簽的人群畫(huà)像系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于無(wú)線通信網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,具體涉及一種基于微博標(biāo)簽的人群畫(huà)像系統(tǒng)和方法。
【背景技術(shù)】
[0002]微博是現(xiàn)階段最熱門(mén)的社交媒體,以新浪、騰訊為代表的國(guó)內(nèi)微博網(wǎng)站的用戶規(guī)模在近幾年得到飛速增長(zhǎng)。以新浪微博為例,截止到2012年底,其注冊(cè)用戶數(shù)已經(jīng)超過(guò)5億,而每天的活躍用戶數(shù)就已經(jīng)突破4620萬(wàn)人。隨著微博的快速發(fā)展,和其相關(guān)的各種應(yīng)用和服務(wù)正在創(chuàng)造越來(lái)越多的商業(yè)價(jià)值。
[0003]讓用戶使用個(gè)性標(biāo)簽是新浪和騰訊等主流微博網(wǎng)站提供的一個(gè)重要服務(wù),用戶可以使用這些標(biāo)簽來(lái)描述自己的身份、職業(yè)、興趣、宗教信仰等個(gè)人屬性,甚至是表達(dá)自己的某些觀點(diǎn)。作為用戶個(gè)人屬性描述的重要補(bǔ)充,用戶的標(biāo)簽連同個(gè)人信息頁(yè)面的其它內(nèi)容都能作為瀏覽者詳細(xì)了解該用戶的重要信息來(lái)源。而深入了解一個(gè)用戶則對(duì)很多現(xiàn)實(shí)的應(yīng)用有所幫助,如特殊用戶搜索、好友推薦、在線廣告和企業(yè)的客戶關(guān)系管理等等。因此,為每個(gè)微博用戶推薦一組能夠準(zhǔn)確描述用戶相關(guān)屬性的標(biāo)簽用于刻畫(huà)不同用戶群體的特征,或稱作用戶人群畫(huà)像,具有重要意義。
[0004]現(xiàn)有的社會(huì)標(biāo)注系統(tǒng)大都針對(duì)網(wǎng)絡(luò)物體的標(biāo)注,如Flickr網(wǎng)站中的圖片或者URL鏈接資源。這些系統(tǒng)都是為用戶提供標(biāo)簽來(lái)標(biāo)注物體,而非用戶本身。像很多以協(xié)同過(guò)濾(collaborative filtering) [I]為基本推薦機(jī)制的推薦算法都是建立在這樣一個(gè)假設(shè)之上。假設(shè)用戶A和用戶B之前已經(jīng)對(duì)很多物體對(duì)象的標(biāo)注使用了相同或相似的標(biāo)簽,就說(shuō)明A和B對(duì)事物的認(rèn)知非常相似,那么A對(duì)于一個(gè)新物體的標(biāo)注則很有可能使用B對(duì)該物體用過(guò)的相同標(biāo)簽。但是,在對(duì)微博用戶的標(biāo)注中,這種假設(shè)并不成立,用戶只會(huì)對(duì)自己標(biāo)注,甚至很多用戶對(duì)自己都沒(méi)有使用任何標(biāo)簽。因此已有的社會(huì)標(biāo)簽推薦系統(tǒng)使用的方法并不能直接應(yīng)用于微博用戶標(biāo)簽的場(chǎng)景
社會(huì)標(biāo)注更看重大多數(shù)人對(duì)某一物體對(duì)象的集體偏好來(lái)做標(biāo)簽推薦,而標(biāo)注微博用戶卻要考慮如何真實(shí)地刻畫(huà)被標(biāo)注用戶的個(gè)人偏好。顯然,發(fā)掘用戶的個(gè)人特性和偏好要比尋找大眾的偏好更難,因?yàn)槊總€(gè)人都有自己獨(dú)特的個(gè)性。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于通過(guò)設(shè)計(jì)一個(gè)有效的微博用戶推薦系統(tǒng),提供一種基于微博標(biāo)簽的人群畫(huà)像系統(tǒng)和方法。其需要解決以下幾個(gè)問(wèn)題。
[0006]1、做標(biāo)簽推薦時(shí)需要面對(duì)協(xié)同過(guò)濾類推薦算法經(jīng)常遇見(jiàn)的一個(gè)難題一一冷啟動(dòng)(cold start)問(wèn)題,尤其考慮到新浪微博用戶中有將近一半的人是沒(méi)有任何標(biāo)簽的。所謂冷啟動(dòng),是指在向一個(gè)用戶推薦某個(gè)新出現(xiàn)的物體(如某件商品)時(shí),由于對(duì)于該物體沒(méi)有歷史的推薦記錄可以參考,使得推薦算法無(wú)法起作用。
[0007]2、第二個(gè)挑戰(zhàn)是要考慮到被推薦的標(biāo)簽足夠多樣化才能充分的刻畫(huà)一個(gè)人多方面的屬性,因?yàn)橐粋€(gè)真實(shí)的人遠(yuǎn)比一個(gè)物體復(fù)雜,他可以使用很多個(gè)標(biāo)簽來(lái)分別描述自己各個(gè)方面的特性,例如教育背景、興趣愛(ài)好,甚至是崇拜的明星等等。怎樣才能找出一組多樣化的標(biāo)簽是非常具有挑戰(zhàn)性的工作。
[0008]3做標(biāo)簽推薦時(shí)應(yīng)當(dāng)注意到推薦的標(biāo)簽中存在的語(yǔ)義冗余問(wèn)題。如新浪微博只允許一個(gè)用戶最多使用10個(gè)標(biāo)簽,那么每個(gè)用戶自然希望每個(gè)標(biāo)簽都盡可能地描述自己,對(duì)于同義詞或者近義詞一般來(lái)說(shuō)是不會(huì)同時(shí)放入自己的標(biāo)簽組中。相比之下,對(duì)于同一個(gè)物體對(duì)象的描述,使用同義詞或者近義詞標(biāo)簽則是很常見(jiàn)的。因而,在這些標(biāo)注物體的標(biāo)簽推薦系統(tǒng)中,語(yǔ)義冗余問(wèn)題是可以回避的。
[0009]針對(duì)以上需要解決的技術(shù)難題和研究目的,本發(fā)明在以往相關(guān)研究技術(shù)的基礎(chǔ)上,融入全新的算法思想,并借助海量的互聯(lián)網(wǎng)語(yǔ)義實(shí)體信息(中文知識(shí)圖譜)實(shí)現(xiàn)了準(zhǔn)確的微博用戶人群畫(huà)像技術(shù)。
[0010]本發(fā)明提供的一種基于微博標(biāo)簽的人群畫(huà)像系統(tǒng),主要分為微博用戶標(biāo)簽推薦和標(biāo)簽主題聚類兩大模塊,其中:
所述微博用戶標(biāo)簽推薦模塊,分別利用微博用戶的同質(zhì)性和標(biāo)簽的共現(xiàn)性關(guān)聯(lián)來(lái)產(chǎn)生候選的標(biāo)簽,再利用中文知識(shí)圖譜識(shí)別標(biāo)簽的語(yǔ)義冗余,進(jìn)而消除候選標(biāo)簽中的冗余標(biāo)簽,實(shí)現(xiàn)微博用戶推薦;
所述標(biāo)簽主題聚類模塊,通過(guò)對(duì)推薦出的每一個(gè)微博用戶的標(biāo)簽進(jìn)行LDA主題聚類分析,獲得每個(gè)用戶的主題分布向量,從而判斷出用戶所屬的人群以及度量用戶間的差異性距離以刻畫(huà)不同用戶群體的特征,實(shí)現(xiàn)用戶人群畫(huà)像。
[0011]圖1所示為本發(fā)明的整體技術(shù)框架。
[0012]本發(fā)明中,微博用戶的標(biāo)簽推薦模塊中涉及的推薦算法涵蓋三個(gè)主要的工作步驟。算法的每一步正好應(yīng)對(duì)了上述每一個(gè)挑戰(zhàn)中的難題。
[0013]涉及的標(biāo)簽推薦算法三個(gè)步驟簡(jiǎn)述如下:
1.同質(zhì)性推薦:這一步是為了解決冷啟動(dòng)問(wèn)題。核心思想是對(duì)于一個(gè)微博用戶,將他的微博好友最常使用的標(biāo)簽推薦給他。在對(duì)候選標(biāo)簽進(jìn)行篩選排序時(shí),可以使用frequency(使用頻率最多的標(biāo)簽)、tf-1df (詞頻-倒文檔頻率)和tf-rw三種打分機(jī)制。經(jīng)過(guò)實(shí)證研究,優(yōu)選地采用tf-rw打分機(jī)制,該機(jī)制同樣基于tf-1df思想,能夠更進(jìn)一步地去除那些過(guò)于被全體用戶廣泛使用的標(biāo)簽,而保留那些對(duì)目標(biāo)用戶具有個(gè)性刻畫(huà)能力的標(biāo)簽。除了這幾種標(biāo)簽打分機(jī)制外,本發(fā)明還包括一種局部的多標(biāo)簽傳播算法來(lái)為目標(biāo)用戶生成推薦的標(biāo)簽。
[0014]2.共現(xiàn)性擴(kuò)展:本模塊在第一步推薦標(biāo)簽的基礎(chǔ)上,還利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽,從而使得最終推薦給用戶的標(biāo)簽有足夠的多樣性,盡可能地刻畫(huà)用戶多方面的屬性。
[0015]3.消除語(yǔ)義冗余:為了消除候選標(biāo)簽組中存在的語(yǔ)義冗余,從在線百科網(wǎng)站上爬取的語(yǔ)義實(shí)體數(shù)據(jù)構(gòu)建了一個(gè)龐大的中文知識(shí)圖譜(Chinese knowledge graph)。通過(guò)將微博標(biāo)簽映射到圖譜網(wǎng)絡(luò)中的實(shí)體,度量出兩個(gè)標(biāo)簽之間的語(yǔ)義距離,即相似程度。最后,系統(tǒng)利用這種語(yǔ)義相似度來(lái)鑒別推薦標(biāo)簽列表中的同義標(biāo)簽或近義標(biāo)簽。
[0016]本發(fā)明中,標(biāo)簽主題聚類模塊將上一模塊產(chǎn)生的微博用戶標(biāo)簽用LDA工具(一種生成式的文本主題模型)[2]進(jìn)行聚類分析,每一個(gè)類可以代表一個(gè)主題或一個(gè)用戶群體,從而判斷出每位用戶所屬的類(人群)。
[0017]本發(fā)明中還提供一種基于微博標(biāo)簽的人群畫(huà)像方法,其通過(guò)為微博用戶推薦標(biāo)簽來(lái)精準(zhǔn)刻畫(huà)用戶的屬性特征,并利用LDA工具分析用戶標(biāo)簽的主題分布后準(zhǔn)確地判斷用戶所屬的人群;具體步驟如下:
(1)分別利用微博用戶的同質(zhì)性和標(biāo)簽的共現(xiàn)性關(guān)聯(lián)來(lái)產(chǎn)生候選的標(biāo)簽,再利用中文知識(shí)圖譜來(lái)識(shí)別標(biāo)簽的語(yǔ)義冗余,進(jìn)而消除候選標(biāo)簽中的冗余標(biāo)簽,實(shí)現(xiàn)微博用戶標(biāo)簽推薦;
(2)對(duì)推薦出的每一個(gè)微博用戶的標(biāo)簽進(jìn)行LDA主題聚類分析,從而獲得每個(gè)用戶的主題分布向量,由此判斷用戶所屬的人群以及度量用戶間的差異性距離以刻畫(huà)不同用戶群體的特征,實(shí)現(xiàn)用戶人群畫(huà)像。
[0018]上述步驟(I)中,利用微博用戶的同質(zhì)性推薦標(biāo)簽的方法具體如下:挖掘微博用戶的好友使用最頻繁的標(biāo)簽,為每個(gè)微博用戶推薦其好友廣泛使用的標(biāo)簽,并去除那些過(guò)于頻繁使用的標(biāo)簽。
[0019]上述步驟(I)中,利用標(biāo)簽的共現(xiàn)性推薦標(biāo)簽的方法具體如下:以同質(zhì)性推薦的標(biāo)簽為基礎(chǔ),擴(kuò)展出與其被共同使用較多的標(biāo)簽,使得推薦的標(biāo)簽更加豐富地刻畫(huà)用戶各方面的屬性。
[0020]上述步驟(I)中消除候選標(biāo)簽中的冗余標(biāo)簽步的方法具體如下:通過(guò)建立中文知識(shí)圖譜,將百科類網(wǎng)站的詞條映射成圖譜中的結(jié)點(diǎn),詞條間的超鏈接映射出網(wǎng)絡(luò)邊,使得網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以度量標(biāo)簽的語(yǔ)義范疇,從而判斷出候選推薦的標(biāo)簽中是否存在語(yǔ)義冗余。
[0021]上述微博用戶的好友為一個(gè)微博用戶的“粉絲”、“關(guān)注”或“互粉對(duì)象”;在算法中優(yōu)選地使用“互粉對(duì)象”作為微博好友。
[0022]上述關(guān)于用戶之間的差異性距離為Cosine距離、Pearson距離或者Jensen-Shannon 距離。
[0023]本發(fā)明的有益效果在于:
1、首次利用微博用戶標(biāo)簽來(lái)對(duì)互聯(lián)網(wǎng)用戶做人群畫(huà)像。
[0024]2、首次利用中文知識(shí)圖譜來(lái)識(shí)別標(biāo)簽中的語(yǔ)義冗余。
[0025]3、首次將信息檢索中對(duì)關(guān)鍵詞的tf-1df (詞頻-倒文檔頻率)打分機(jī)制應(yīng)用于微博標(biāo)簽的挖掘,并對(duì)算法做相應(yīng)改進(jìn)提高標(biāo)簽推薦準(zhǔn)確率。
[0026]4首次將LDA文本主題模型應(yīng)用于微博用戶的標(biāo)簽集合,從而刻畫(huà)出每個(gè)微博用戶的主題分布,為準(zhǔn)確的人群畫(huà)像服務(wù)。
[0027]本發(fā)明是利用微博用戶標(biāo)簽實(shí)現(xiàn)具體應(yīng)用服務(wù)的成功案例,不僅具有廣泛的商業(yè)應(yīng)用價(jià)值,同時(shí)也為互聯(lián)網(wǎng)用戶標(biāo)簽的挖掘算法和中文知識(shí)圖譜的應(yīng)用指明了研究方向。
【專利附圖】
【附圖說(shuō)明】
[0028]圖1為本發(fā)明的整體技術(shù)框架。
[0029]圖2為標(biāo)簽的中文知識(shí)圖譜示例(圖中右部矩形虛線框所示范圍)。
[0030]圖3為本發(fā)明實(shí)施例的具體示例。【具體實(shí)施方式】
[0031]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。
[0032]本發(fā)明提供的一種基于微博標(biāo)簽的人群畫(huà)像系統(tǒng),包括微博用戶標(biāo)簽推薦模塊和標(biāo)簽主題聚類模塊兩核心模塊。以下結(jié)合模塊介紹本發(fā)明。
[0033]模塊一:微博用戶標(biāo)簽推薦
1、基于同質(zhì)性的標(biāo)簽推薦
同質(zhì)性是指具體相同或相似屬性的人之間相比其他人更容易產(chǎn)生社會(huì)交往行為,如成為好友、主題跟隨行為等等。同質(zhì)性已經(jīng)被看作是各類社交媒體中的一種廣泛存在的現(xiàn)象,甚至在如Twitter用戶組成的社會(huì)網(wǎng)絡(luò)中。例如,互相關(guān)注的Twitter用戶中表現(xiàn)出更多相似的興趣愛(ài)好、地理位置或者是影響力等等。實(shí)驗(yàn)證明,在微博社會(huì)網(wǎng)絡(luò)中,具有親密社會(huì)關(guān)系(如微博好友)的用戶之間使用的標(biāo)簽具有很大程度的相似性。這個(gè)結(jié)果為基于同質(zhì)性的標(biāo)簽打分機(jī)制提供了事實(shí)依據(jù),即從用戶的好友群體中按照某中排序機(jī)制選出最頻繁使用的標(biāo)簽來(lái)推薦給目標(biāo)用戶u的候選標(biāo)簽組(假設(shè)為k個(gè)標(biāo)簽)。這一步產(chǎn)生的候選標(biāo)簽集合標(biāo)記為C,它將作為下一個(gè)推薦步驟的輸入。在此需要一個(gè)評(píng)分函數(shù)s (t)來(lái)對(duì)候選的標(biāo)簽t進(jìn)行排序,然后選出排在最前面的k個(gè)。同時(shí)也要保證選出的標(biāo)簽具有一定的描述性,即不能是被大多數(shù)用戶過(guò)于廣泛使用的標(biāo)簽。本發(fā)明利用名為tf-rw的打分機(jī)制來(lái)計(jì)算s (t)函數(shù)的分值,即s (t) = tf (t) X rw(t) ο tf (t)和rw(t)的具體計(jì)算參考以下公式I和2,其核心思想與文檔關(guān)鍵詞檢索使用的tf-1df思想一致。在公式I中,Ngb(u)表示某個(gè)微博用戶u的鄰居集合(微博中的互粉對(duì)象),I Ngb(u) I表示該集合中的人數(shù)。r(t)是鄰居集合中的用戶使用了標(biāo)簽t的人次,而T(Ngb(u))則表示u的所有鄰居使用的全體標(biāo)簽集合。公式2中,n(t)是全體用戶中使用了標(biāo)簽t的人數(shù),N則是全體用戶總數(shù)。.rW
【權(quán)利要求】
1.一種基于微博標(biāo)簽的用戶人群畫(huà)像系統(tǒng),其特征在于,該系統(tǒng)包含微博用戶標(biāo)簽推薦模塊和標(biāo)簽主題聚類模塊兩個(gè)核心技術(shù)模塊;其中: 所述微博用戶標(biāo)簽推薦模塊,分別利用微博用戶的同質(zhì)性和標(biāo)簽的共現(xiàn)性關(guān)聯(lián)來(lái)產(chǎn)生候選的標(biāo)簽,再利用中文知識(shí)圖譜識(shí)別標(biāo)簽的語(yǔ)義冗余,進(jìn)而消除候選標(biāo)簽中的冗余標(biāo)簽,實(shí)現(xiàn)微博用戶推薦; 所述標(biāo)簽主題聚類模塊,通過(guò)對(duì)推薦出的每一個(gè)微博用戶的標(biāo)簽進(jìn)行LDA主題聚類分析,獲得每個(gè)用戶的主題分布向量,從而判斷出用戶所屬的人群以及度量用戶間的差異性距離用以刻畫(huà)不同用戶群體的特征,實(shí)現(xiàn)用戶人群畫(huà)像。
2.一種基于微博標(biāo)簽的用戶人群畫(huà)像方法,其特征在于其通過(guò)為微博用戶推薦標(biāo)簽來(lái)精準(zhǔn)刻畫(huà)用戶的屬性特征,并利用LDA工具分析用戶標(biāo)簽的主題分布后準(zhǔn)確地判斷用戶所屬的人群;具體步驟如下: (1)分別利用微博用戶的同質(zhì)性和標(biāo)簽的共現(xiàn)性關(guān)聯(lián)來(lái)推薦產(chǎn)生候選的標(biāo)簽,再利用中文知識(shí)圖譜識(shí)別標(biāo)簽的語(yǔ)義冗余,進(jìn)而消除候選標(biāo)簽中的冗余標(biāo)簽,實(shí)現(xiàn)微博用戶標(biāo)簽推薦; (2)對(duì)推薦出的每一個(gè)微博用戶的標(biāo)簽進(jìn)行LDA主題聚類分析,獲得每個(gè)用戶的主題分布向量,由此判斷用戶所屬的人群以及度量用戶間的差異性距離以刻畫(huà)不同用戶群體的特征,實(shí)現(xiàn)用戶人群畫(huà)像。
3.根據(jù)權(quán)利要求2所述的基于微博標(biāo)簽的用戶人群畫(huà)像方法,其特征在于,步驟(I)中,利用微博用戶的同質(zhì)性推薦標(biāo)簽的方法具體如下:挖掘微博用戶的好友使用最頻繁的標(biāo)簽,為每個(gè)微博用戶推薦其好友廣泛使用的標(biāo)簽,并去除那些過(guò)于頻繁使用的標(biāo)簽。
4.根據(jù)權(quán)利要求2所述的基于微博標(biāo)簽的用戶人群畫(huà)像方法,其特征在于,步驟(I)中,利用標(biāo)簽的共現(xiàn)性推薦標(biāo)簽的方法具體如下:以同質(zhì)性推薦的標(biāo)簽為基礎(chǔ),擴(kuò)展出與其被共同使用較多的標(biāo)簽,使得推薦的標(biāo)簽更加豐富地刻畫(huà)用戶各方面的屬性。
5.根據(jù)權(quán)利要求2所述的基于微博標(biāo)簽的用戶人群畫(huà)像方法,其特征在于:步驟(I)中消除候選標(biāo)簽中的冗余標(biāo)簽步的方法具體如下:通過(guò)建立中文知識(shí)圖譜,將百科類網(wǎng)站的詞條映射成語(yǔ)義網(wǎng)絡(luò)中的結(jié)點(diǎn),詞條間的超鏈接映射出網(wǎng)絡(luò)邊,使得網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以度量標(biāo)簽的語(yǔ)義范疇,從而判斷出候選推薦的標(biāo)簽中是否存在語(yǔ)義冗余。
6.根據(jù)權(quán)利要求3所述的基于微博標(biāo)簽的用戶人群畫(huà)像方法,其特征在于:所述微博用戶的好友為粉絲、關(guān)注或互粉對(duì)象。
7.根據(jù)權(quán)利要求3所述的基于微博標(biāo)簽的用戶人群畫(huà)像方法,其特征在于:挖掘時(shí)采用算法包括局部的多標(biāo)簽傳播算法,以及frequency、tf-1df和tf_rw三種標(biāo)簽打分機(jī)制。
8.根據(jù)權(quán)利要求2所述的基于微博標(biāo)簽的用戶人群畫(huà)像方法,其特征在于,所述用戶間的差異性距離是Cosine距離、Pearson距離或Jensen-Shannon距離。
【文檔編號(hào)】G06F17/30GK103577549SQ201310481674
【公開(kāi)日】2014年2月12日 申請(qǐng)日期:2013年10月16日 優(yōu)先權(quán)日:2013年10月16日
【發(fā)明者】陽(yáng)德青, 肖仰華, 汪衛(wèi) 申請(qǐng)人:復(fù)旦大學(xué)