一種基于近鄰關(guān)系的微博系統(tǒng)朋友推薦方法
【專利說明】-種基于近鄰關(guān)系的微博系統(tǒng)朋友推薦方法
[0001] 本發(fā)明得到國家自然科學(xué)基金化1103227, 61272526)的資助。
技術(shù)領(lǐng)域
[0002] 本發(fā)明設(shè)及利用微博興趣挖掘增進(jìn)Internet用戶之間的在線社交互動,特別是 設(shè)及一種基于近鄰關(guān)系的全新微博系統(tǒng)朋友推薦方法。
【背景技術(shù)】
[0003]微博系統(tǒng)(micro-bloggingsystems),尤其是Twitter和Weibo,在當(dāng)今得到了巨 大的發(fā)展。截至到2013年Twitter擁有超過1. 4億的活躍用戶每天發(fā)布超過3. 4億條消 息。Weibo也積聚了超過4億的用戶,每秒鐘發(fā)布的微博消息高達(dá)1000條。用戶發(fā)布的海 量微博內(nèi)容展示了社交媒體平臺下的大數(shù)據(jù)環(huán)境。不僅如此,微博系統(tǒng)(例如Twitter和 Weibo)還呈現(xiàn)出強大的媒體特性,為微博用戶提供了推薦和添加新朋友、傳播突發(fā)新聞、信 息共享等強大而便捷的功能。
[0004] 微博系統(tǒng)最基本的功能之一是增進(jìn)Internet用戶之間的在線社交互動。作為增 進(jìn)用戶在線交流的主要途徑之一,朋友推薦(化iendrecommendation)成為近年來的研究 熱點。例如,Moricz等提出具有共同朋友的用戶可能彼此相識并據(jù)此設(shè)計推薦算法,只把具 有高度相關(guān)性的用戶相互推薦。有文獻(xiàn)利用鏈接預(yù)測如基于"朋友的朋友"運一策略向某一 用戶推薦另一個用戶。Deng等把基于用戶熟人(如親人、朋友等)的網(wǎng)絡(luò)系統(tǒng)進(jìn)行推薦與 基于用戶之間的相似程度進(jìn)行推薦運兩種推薦策略進(jìn)行了對比。有些文獻(xiàn)則推薦Twitter 用戶利用協(xié)同過濾算法進(jìn)行相互關(guān)注。然而,上述研究工作在進(jìn)行朋友推薦時沒有考慮用 戶所發(fā)微博內(nèi)容之間的潛在聯(lián)系,使用戶難W在海量信息中精確獲得自己真正感興趣的資 源。
[0005] 事實上,成千上萬微博用戶所發(fā)布的海量微博內(nèi)容為獲取用戶的信息提供了機遇 和挑戰(zhàn)。如果把微博用戶當(dāng)成"社會傳感器",我們就能夠盡可能的收集他們的微博頁面信 息巧日所發(fā)微博,關(guān)注,粉絲等),并把收集的信息形成數(shù)據(jù)集,通過對數(shù)據(jù)集進(jìn)行分析和挖 掘來理解微博用戶的行為。其中一部分研究工作提出根據(jù)分析獲取的用戶興趣特征來提高 朋友推薦的準(zhǔn)確性。如Zuo等發(fā)現(xiàn)具有類似興趣的人更容易彼此聯(lián)系交流。有文獻(xiàn)表明興 趣相似的用戶之間的接觸頻率遠(yuǎn)遠(yuǎn)高于興趣不同的用戶?;痚n等研究網(wǎng)絡(luò)用戶之間的推薦 關(guān)系,W幫助用戶發(fā)現(xiàn)已知的接觸和社會網(wǎng)站上的新朋友。服U等則提出基于協(xié)作推薦的方 法。該方法使用社會網(wǎng)絡(luò)的鏈接結(jié)構(gòu)并利用相互表明興趣的內(nèi)容推薦來解決微博客和類似 社會網(wǎng)絡(luò)中眾多鏈接之間的相互推薦問題。上述基于興趣的推薦策略看似促進(jìn)了用戶的在 線交流,然而事實上興趣匹配用戶之間的聯(lián)系頻率仍然較低。
[0006] 此外,盡管近年來很多研究工作致力于基于社交媒體用戶潛在興趣的應(yīng)用,然而 大多數(shù)運些研究忽略了用戶位置和興趣之間潛在的緊密關(guān)系。事實上,用戶近期發(fā)布的微 博(Tweet)往往能夠反映出所發(fā)布者近期的興趣或行為。假設(shè)兩個興趣相似的微博用戶當(dāng) 前正好位于同一活動場所并且彼此可見,那么相比于彼此不可見的虛擬用戶,他們更愿意 建立相互之間的聯(lián)系與交流。例如用戶"Bob"喜歡旅游,而且"Bob"發(fā)現(xiàn)用戶"AliCe"目 前就在自己附近且也非常愛好旅游。由于兩人就在各自周圍,他們在彼此視線范圍內(nèi)發(fā)現(xiàn) 對方的可能性就非常大。如果"Bob"進(jìn)一步發(fā)現(xiàn)"Alice"就坐在自己不遠(yuǎn)處且正是自己喜 歡的類型,他就很可能會與"Alice"交流并樂意在今后繼續(xù)和她保持聯(lián)系。然而現(xiàn)有相關(guān) 工作均不能直接應(yīng)用于上述任務(wù),因為它們均沒有考慮把微博用戶的位置和興趣相關(guān)聯(lián)。
[0007] 為此,本發(fā)明提出了基于近鄰的朋友推薦(nei曲borbasedfriend recommendation,NBFR)運一全新思想,使位于同一場所的興趣相似用戶之間相互發(fā)現(xiàn)。由 于現(xiàn)實世界中位于同一場所的用戶在彼此視線范圍內(nèi)發(fā)現(xiàn)對方的可能性很大,通過把同一 場所內(nèi)興趣愛好相似的微博用戶相互推薦,為社交媒體用戶提供了與周圍可能感興趣的人 進(jìn)行聯(lián)系的有效途徑。隨著在線社交網(wǎng)絡(luò)的迅速發(fā)展,如今越來越多的人既是虛擬在線社 交媒體的用戶又是現(xiàn)實社會的成員,而NBFR不僅考慮了微博用戶的興趣,同時還考慮微博 用戶當(dāng)前所在的物理位置。通過把在線用戶的興趣與位置相結(jié)合,NBFR也架起了虛擬世界 和現(xiàn)實世界聯(lián)系的橋梁。將來NBFR不僅能夠作為APP運行在智能手機上,還能開發(fā)成微博 系統(tǒng)的一項基本功能W增強微博的可用性。NBFR的基本思想主要包括兩大部分:首先根據(jù) 用戶所發(fā)海量微博來挖掘用戶的興趣,生成用戶主題興趣矩陣。其次,根據(jù)各個用戶的主題 興趣向量來衡量用戶的興趣相似度。
[0008] 為了對用戶的主題興趣向量進(jìn)行精確匹配,本發(fā)明提出利用超立方體的方法來描 述不同用戶的不同興趣主題:即把描述用戶興趣分布的不同主題映射到超立方體空間中, 每一主題對應(yīng)于超立方體每一頂點的一個坐標(biāo)分量。考慮到通常用戶僅對一小部分主題感 興趣,我們愿意建立二進(jìn)制超立方體而不是普通的超立方體來描述各個用戶的興趣主題, 因為前者更能準(zhǔn)確的描述用戶興趣的相似程度。此外,提出主題匹配的捷徑算法(topic matchingshort州talgorithm)W進(jìn)一步提高推薦的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0009] 為實現(xiàn)上述目的,本發(fā)明公開了如下的技術(shù)內(nèi)容: 一種基于近鄰關(guān)系的微博系統(tǒng)朋友推薦方法,其特征在于: (1) 通過把在線用戶的位置與興趣相結(jié)合,建立用戶線上和線下相聯(lián)系的橋; (2) 利用詞袋和矩陣分解方法從微博內(nèi)容中挖掘用戶的興趣; (3) 通過超立方體來衡量各個微博用戶的興趣相似性; (4) 利用超立方體結(jié)構(gòu),提出主題匹配的捷徑算法W進(jìn)一步提高興趣推薦的準(zhǔn)確性; 其中: 步驟(1)中建立用戶線上和線下相聯(lián)系的橋,指的是使位于同一地理場所相互視線范 圍內(nèi)興趣匹配的微博用戶之間相互推薦,為社交媒體用戶提供與自身周圍可能感興趣的人 建立聯(lián)系和溝通的獨特途徑,即通過把興趣和位置相結(jié)合,使在線用戶能夠增進(jìn)線下的聯(lián) 系和交流。為此,首先要通過用戶移動設(shè)備上的短距離無線通信裝置,來完成微博用戶的線 下鄰居發(fā)現(xiàn)和探測,然后使位于同一場所相互視線范圍內(nèi)的興趣相似用戶之間相互發(fā)現(xiàn)和 彼此推薦; 步驟(2)利用詞袋和矩陣分解方法從海量微博中挖掘用戶的興趣,指的是采用詞袋和 矩陣分解方法得到反映用戶潛在主題興趣分布的用戶興趣矩陣,該矩陣的每一行表示鄰居 組內(nèi)一個用戶的主題興趣向量;最后對主題興趣向量進(jìn)行變化,用概率的形式表示用戶對 潛在主題的喜好程度。
[0010] 步驟(3)通過超立方體來衡量微博用戶的興趣相似性,指的是把描述用戶興趣分 布的不同主題映射到超立方體空間,每一主題對應(yīng)于超立方體每一頂點的一個坐標(biāo)分量, 分別建立主題超立方體和二進(jìn)制超立方體結(jié)構(gòu),并根據(jù)兩種超立方體的特性提出不同的匹 配算法進(jìn)行鄰居組中微博用戶的興趣匹配過程; 步驟(4)提出主題匹配的捷徑算法,指的是利用鄰居組中存在的線下朋友關(guān)系來進(jìn)一 步改善興趣推薦的性能,首先分析微博用戶的兩種在線關(guān)注關(guān)系的特點,接著利用"雙向關(guān) 注"來生成"捷徑",并根據(jù)捷徑進(jìn)行進(jìn)一步的興趣推薦。
[0011] 本發(fā)明步驟(1)所述的鄰居探測包括:藍(lán)牙或WifiDirect。步驟(2)所述的詞 袋和矩陣分解分別指:挖掘的用戶近期所發(fā)微博內(nèi)容通過分詞和去停留詞操作形成詞袋模 型;根據(jù)矩陣分解對項目進(jìn)行評分預(yù)測的原理進(jìn)行用戶潛在興趣挖掘。用戶興趣分析指的 是挖掘微博用戶的潛在興趣,形成用戶主題興趣向量。匹配和推薦指的是主題超立方體及 二進(jìn)制超立方體中的興趣匹配算法,W及基于捷徑的興趣推薦算法。
[0012] 本發(fā)明公開的基于近鄰的朋友推薦(nei曲borbasedfriendrecommendation, NBFR)與現(xiàn)有技術(shù)相比所具有的積極效果在于: (1)本發(fā)明公開了一種基于近鄰關(guān)系的全新微博系統(tǒng)朋友推薦方法。主要是把在線用 戶的當(dāng)前位置與興趣相結(jié)合,通過把用戶視線范圍內(nèi)興趣愛好相似的微博用戶推薦給源用 戶,為社交媒體用戶提供與自身視線范圍內(nèi)可能感興趣的人進(jìn)行聯(lián)系的獨特渠道。為此,首 先為源用戶建立鄰居組,然后利用詞袋和矩陣分解方法從微博內(nèi)容中挖掘用戶的興趣;再 根據(jù)超立方體特征提出匹配算法來衡量各個微博用戶的興趣相似性;最后提出主題匹配的 捷徑算法W進(jìn)一步提高興趣推薦的準(zhǔn)確性??蒞對用戶所在場所自身一定范圍內(nèi)的興趣匹 配用戶進(jìn)行精確推薦,提高在線用戶之間聯(lián)系頻率的目的。
[0013] (2)提高用戶在Internet海量信息中獲取自己真正感興趣信息資源的概率。
[0014] (3)作為微博系統(tǒng)的一項功能改善微博的可用性。
[0015] 本發(fā)明重點解決了現(xiàn)在的在線用戶難W在