博客社區(qū)識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機科學(xué)技術(shù)、網(wǎng)絡(luò)技術(shù)領(lǐng)域,更具體地說,本發(fā)明涉及一種博客社 區(qū)識別方法。
【背景技術(shù)】
[0002] 在初期,博客的出現(xiàn)并沒有受到太多的關(guān)注,因為當(dāng)時的配套工具并不完善,因此 導(dǎo)致其僅在小部分人群中得以流行,直到1999年,著名博客網(wǎng)站www.blogger,com的迅猛 發(fā)展,以及大量簡單易用的博客工具出現(xiàn)之后,博客才得以真正的大范圍流行。根據(jù)著名博 客搜索引擎Technorati網(wǎng)站(http://www.technorati.com)的分析,截至2006年7月,博 客的數(shù)量和三年前也即2003年的數(shù)量相差兩個數(shù)量級,在這三年里,大約每六個月,博客 的數(shù)量就會翻一番。而據(jù)研究機構(gòu)匪Incite發(fā)布的一份報告顯示,在2011年10月,三大 博客平臺Blogger,Wordpress和Tumbler加起來總共有8050萬個獨立博客,而在那個月知 名社交網(wǎng)絡(luò)Facebook的獨立訪客也不過1. 391億;而在2011年底,尼爾森公司在全球范 圍內(nèi)追蹤到1. 81億個博客。而這兩年發(fā)展最火的新興社交媒體Pinterest(http://www. pinterest.com)在2011年10月?lián)碛?50萬美國獨立博客,這個數(shù)量是該網(wǎng)站在2011年年 初美國獨立博客數(shù)目的37倍。由此可見,雖然互聯(lián)網(wǎng)應(yīng)用日新月異,但博客經(jīng)過了十多年 的發(fā)展,其增長勢頭并沒有停止,它仍然是人們在網(wǎng)絡(luò)上進行交流的重要陣地,在新互聯(lián)網(wǎng) 媒體層出不窮的今天占有很重要的地位。
[0003] 博客社區(qū)是多個博客組成的集合,在這個集合中,博客成員之間通過博文之間的 相互鏈接,博文的互相評論以及博客的好友列表三種方式互相聯(lián)系。雖然對于整個博客世 界來說,多數(shù)博客都是和其他博客有聯(lián)系的,但有聯(lián)系的博客未必就同屬于一個博客社區(qū)。 在社區(qū)抽取方法中,有幾個不利于社區(qū)研究的缺點,比如:得到的社區(qū)比較零碎,把許多原 本可以歸并到一個社區(qū)的成員歸并到多個社區(qū);社區(qū)的穩(wěn)定性差,算法運行多次得到的結(jié) 果不一致;沒有充分考慮成員之間聯(lián)系的緊密程度,從而導(dǎo)致得到的社區(qū)的內(nèi)聚性比較差。 在數(shù)以億計的博客站點中,如何識別這些隱藏在博客世界中的博客社區(qū)具有很重要的現(xiàn)實 意義。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)中存在上述缺陷,提供一種具有實際 的可操作性的高質(zhì)量博客社區(qū)識別方法。
[0005] 為了實現(xiàn)上述技術(shù)目的,根據(jù)本發(fā)明,提供了一種博客社區(qū)識別方法,包括:
[0006] 第一步驟:執(zhí)行初始博客社區(qū)抽取,根據(jù)初始博客社區(qū)中的博客圖中邊的重數(shù)從 博客圖的多個頂點中選擇最適合加入到當(dāng)前社區(qū)中的候選頂點的集合;
[0007] 第二步驟:將候選頂點集合中滿足預(yù)定加入條件的頂點加入初始博客社區(qū)以得到 新博客社區(qū);
[0008] 第三步驟:獲取新博客社區(qū)的鄰接點集合的內(nèi)容,并且調(diào)整新博客社區(qū)的鄰接點 集合中的頂點的屬性。
[0009] 優(yōu)選地,第一步驟包括:對初始博客社區(qū)的鄰接點集合中的頂點按到初始博客社 區(qū)的社區(qū)連接數(shù)從大到小排序;對排過序的鄰接點集合進行過濾以獲取與初始博客社區(qū)連 接數(shù)最大的頂點集合,作為候選頂點集合。
[0010] 優(yōu)選地,第三步驟包括:從初始博客社區(qū)的鄰接點集合中刪除在第二步驟中加入 初始博客社區(qū)的頂點;將在第二步驟中加入初始博客社區(qū)的頂點的屬性設(shè)置為不能被選為 候選頂點;將在第二步驟中加入初始博客社區(qū)的頂點的鄰接點加入到新博客社區(qū)的鄰接點 集合中。
【附圖說明】
[0011] 結(jié)合附圖,并通過參考下面的詳細(xì)描述,將會更容易地對本發(fā)明有更完整的理解 并且更容易地理解其伴隨的優(yōu)點和特征,其中:
[0012] 圖1示意性地示出了根據(jù)本發(fā)明優(yōu)選實施例的博客社區(qū)識別方法的流程圖。
[0013] 需要說明的是,附圖用于說明本發(fā)明,而非限制本發(fā)明。注意,表示結(jié)構(gòu)的附圖可 能并非按比例繪制。并且,附圖中,相同或者類似的元件標(biāo)有相同或者類似的標(biāo)號。
【具體實施方式】
[0014] 為了使本發(fā)明的內(nèi)容更加清楚和易懂,下面結(jié)合具體實施例和附圖對本發(fā)明的內(nèi) 容進行詳細(xì)描述。
[0015] 本發(fā)明基于下述考慮:
[0016] (1)發(fā)現(xiàn)隱藏的博客社區(qū)有助于人們找到和自己有同樣興趣的博客,并進行有針 對性地交流;
[0017] (2)-個博客社區(qū)中的討論通常會圍繞一個特定的主題,因此,當(dāng)有讀者需要尋求 關(guān)于這個主題的資訊時,可以快速找到相關(guān)主題的社區(qū),并進一步去尋找他們感興趣的東 西;
[0018] (3)有助于借助博客進行營銷活動,根據(jù)不同的博客社區(qū)進行不同產(chǎn)品的營銷能 夠取得更好的效果;
[0019] (4)博客社區(qū)的識別是許多其他研究的基礎(chǔ),比如想要識別出某個社區(qū)中的專家, 或者研究博客世界結(jié)構(gòu)的演化等都需要在博客社區(qū)識別的基礎(chǔ)上來進行。
[0020] 在進行博客社區(qū)抽取的時候,把博客圖中邊的重數(shù)考慮進去顯然是一種更好的選 擇,這樣的話,邊的重數(shù)比較高的邊的兩個頂點被優(yōu)先考慮加入到社區(qū),這樣得到的社區(qū)的 聯(lián)系更加緊密,成員之間的活動更加頻繁,因而得到的社區(qū)的質(zhì)量也比較高。根據(jù)以上敘 述,給出如下的算法l(getCorrectBlog)。該算法的主要功能是從若干個候選頂點中找到 最適合加入到當(dāng)前社區(qū)中的頂點,以保證當(dāng)前社區(qū)的后續(xù)擴展能力。
[0021] 算法1中,假設(shè)博客社區(qū)C= {bl,b2,…,bn},那么算法1的執(zhí)行的詳細(xì)步驟如下:
[0022] a.首先調(diào)用函數(shù)sort對博客社區(qū)C的鄰接點集合Adjs(C)中的頂點按到博客社 區(qū)C的社區(qū)連接數(shù)從大到小排序,使用sort函數(shù)的目的是能夠快速尋找和社區(qū)連接最多的 頂點,然后排除掉其他和社區(qū)連接比較少的頂點,以提高算法運行的效率。
[0023] b.通過函數(shù)filter對排過序的鄰接點集合(setCommunityAdjs)進行過濾以取 得社區(qū)連接數(shù)最大的頂點集合。如果經(jīng)過過濾后的集合中的這些頂點都不符合加入條件的 話,其他頂點就更沒有可能加入。由于這個集合中的頂點和社區(qū)的頂點的連接數(shù)目相同,因 此還要設(shè)定一個規(guī)則進一步判斷到底哪一個是最好的。
[0024] 經(jīng)過a和b前面兩步的操作,可以得到一組最有可能加入到當(dāng)前社區(qū)的候選頂點 集合,在這個集合中,由于所有頂點和社區(qū)的連接數(shù)都是相同的,需要進一步過濾來找到最 優(yōu)頂點,因此,在這一步中,對這組數(shù)據(jù)再考慮頂點的度等于iMaxDegree(處理后集合中最 大的頂點度數(shù))的頂點,找到度最大的一個子集。這樣做的目的是尋找到能夠為當(dāng)前社區(qū) 帶來最大候選集的頂點。getSetMaxNumVtoC函數(shù)的作用是得到候選集合中頂點和當(dāng)前社區(qū) 中的頂點連接數(shù)最大的頂點集合(這個函數(shù)在隨后的實驗部分,通過選擇是否調(diào)用來進行 對比結(jié)果)。
[0025] 算法1結(jié)束后會得到一個當(dāng)前社區(qū)的鄰接點集合中最有可能加入到社區(qū)的頂點, 接下來需要考慮的是判斷是否可以把它加入到當(dāng)前社區(qū)中去,如果這個頂點符合加入到社 區(qū)中的條件,那么把這個選出來的頂點加入到社區(qū),否則,如果這個最優(yōu)頂點都不夠資格加 入到社區(qū),那么其他頂點更不可能加入,則本輪算法終止,當(dāng)前的這個社區(qū)就是最終找到的 社區(qū)。
[0026]
[0027] 算法2adjustCommunityAdjs對這一處理過程進行了描述,該算法的主要作用是 獲取并調(diào)整加入頂點后新得到的社區(qū)C的鄰接點集合Adjs(C)的內(nèi)容及其中的頂點的屬
[0030] 假如blogjoined為從算法1中選擇出來的頂點且符合加入條件,C'為 blogjoined加入之前的社區(qū),C為blogjoined加入到C'之后形成的新社區(qū),那么顯然C' =C-{blogjoined}〇
[0031] 算法2adjustCommunityAdjs的執(zhí)行過程解釋如下:
[0032] 執(zhí)行算法2第1行,刪除Adjs(C')中的blogjoined。這是因為此時由