本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及專家信息檢索技術(shù)領(lǐng)域,特別涉及一種微博中事件持續(xù)關(guān)注者的識別模型建立及識別方法。
背景技術(shù):
微博內(nèi)容簡短且相關(guān)信息高度分散,對信息獲取方式與檢索方法帶來了沖擊與考驗。利用傳統(tǒng)的信息檢索方法在微博中跟蹤特定事件或話題跟蹤,強烈依賴于檢索詞的選擇,在海量微博信息背景下往往面臨著有用數(shù)據(jù)稀疏、數(shù)據(jù)冗余、話題漂移與子事件的衍生所造成的檢索信息不完備等諸多困難。新媒體環(huán)境的一個顯著特點即以用戶為核心來組織信息。圍繞特定事件往往存在一批關(guān)注用戶,出于興趣或者職責(zé),這些用戶能夠?qū)κ录3殖掷m(xù)關(guān)注,并隨著事件演化發(fā)布含有相關(guān)信息的微博。此類用戶通常對事件相關(guān)領(lǐng)域也有著較為深入的了解,積累了大量的相關(guān)知識與可靠的信息來源,是潛在的事件信息提供者。特別值得注意的是,“事件持續(xù)關(guān)注者”不同于“領(lǐng)域?qū)<摇??!邦I(lǐng)域?qū)<摇蓖ǔJ侵笇μ囟I(lǐng)域有經(jīng)驗或經(jīng)歷的人,偏靜態(tài)化,而“事件持續(xù)關(guān)注者”則指代更為細粒度的群體,以事件為單位組織用戶,隨事件的發(fā)展呈現(xiàn)出高度動態(tài)變化特點;“領(lǐng)域?qū)<摇辈⒉灰蟀l(fā)布相應(yīng)信息,“事件持續(xù)關(guān)注者”則特指具有較大可能發(fā)布事件相關(guān)信息的用戶。“事件持續(xù)關(guān)注者”是信息獲取的重要源頭,對于話題跟蹤、事件挖掘等具有重要意義。
如果能夠有效識別出持續(xù)關(guān)注事件并提供相關(guān)信息的潛在用戶,即“事件持續(xù)關(guān)注者”。則可以為事件跟蹤開辟了新的思路,并能夠有效避免關(guān)鍵詞檢索方法在事件發(fā)展過程中有可能產(chǎn)生的檢索詞未知等困境。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于,針對海量微博信息背景下對特定事件信息的檢索需求,提出一種事件持續(xù)關(guān)注者的識別模型建立方法,該方法通過提取訓(xùn)練樣本中用戶的關(guān)注度特征和認可度特征,訓(xùn)練出事件持續(xù)關(guān)注者的識別模型;然后基于識別模型提供了一種事件持續(xù)關(guān)注者的識別方法,通過該方法可以獲得事件持續(xù)關(guān)注者,克服信息檢索在微博信息環(huán)境中面臨的信息冗余、有用數(shù)據(jù)稀疏等困難,以輔助檢索人員高效獲取特定事件的完備信息。
為了實現(xiàn)上述目的,本發(fā)明提供了一種微博中事件持續(xù)關(guān)注者的識別模型建立方法,所述方法包括:建立訓(xùn)練樣本集,包括關(guān)注某一事件的用戶及與該事件相關(guān)的微博;分別提取訓(xùn)練樣本集中每個用戶的關(guān)注度特征和認可度特征,分別訓(xùn)練出關(guān)注度用戶分類模型和排序模型,所述微博中事件持續(xù)關(guān)注者的識別模型包括訓(xùn)練好的關(guān)注度用戶分類模型和排序模型。
上述技術(shù)方案中,所述方法具體包括:
步驟S1)通過關(guān)鍵詞檢索事件相關(guān)微博,獲取關(guān)注該事件的初始用戶群,通過用戶的歷史微博信息與預(yù)先準(zhǔn)備的事件描述進行相似度計算,對事件相關(guān)微博進行判斷與統(tǒng)計,過濾與該事件不相關(guān)的微博,從而獲取每個用戶與該事件相關(guān)的微博;初始用戶群與每個用戶發(fā)布的與該事件相關(guān)的微博構(gòu)成訓(xùn)練樣本集;
步驟S2)獲取訓(xùn)練樣本集中每個用戶的關(guān)注度特征;
步驟S3)建立關(guān)注度用戶分類模型,該模型為一個SVM分類器;輸入為用戶的關(guān)注度特征,輸出為分類結(jié)果,將分類結(jié)果為“是”的用戶組成關(guān)注用戶初始集合U;
步驟S4)獲取關(guān)注用戶初始集合U中每個用戶的認可度特征;
步驟S5)建立排序模型R,輸入為集合U中每個用戶的認可度特征,輸出為對用戶所發(fā)布事件相關(guān)信息的重要性進行排序的用戶順序;
步驟S6)訓(xùn)練排序模型R;
步驟S7)所述微博中事件持續(xù)關(guān)注者的識別模型包括訓(xùn)練好的關(guān)注度用戶分類模型和排序模型。
上述技術(shù)方案中,所述步驟S2)的關(guān)注度特征包括:用戶對于事件的活躍程度、用戶對事件的反映及時性、用戶與其他用戶之間的互動情況、用戶興趣以及用戶的基本狀態(tài);根據(jù)用戶所發(fā)布的歷史微博信息、好友關(guān)系、背景信息數(shù)據(jù)提取用戶對事件的關(guān)注度特征。
上述技術(shù)方案中,所述步驟S4)的用戶的認可度特征包括:自我描述信息完整度、平臺利用度、信息輸出能力、信息傳播能力和事件認知度,從用戶的微博形象、自身能力以及對事件信息的把控情況層面提取用戶的認可度特征。
基于上述方法建立的微博中事件持續(xù)關(guān)注者的識別模型,本發(fā)明還提供了一種微博中事件持續(xù)關(guān)注者的識別方法,該方法包括:
步驟T1)獲取對某一微博事件關(guān)注的用戶集及每個用戶發(fā)布的與該事件相關(guān)的微博;
步驟T2)獲取用戶集中每個用戶的關(guān)注度特征,輸入訓(xùn)練好的用戶分類模型,得到用戶初始集合U0;
步驟T3)獲取集合U0中用戶的認可度特征,輸入訓(xùn)練好的排序模型,得到集合U0的用戶排序;
步驟T4)根據(jù)用戶排序,選取前k名用戶作為高認可度用戶。
上述技術(shù)方案中,所述k的取值為集合U0中用戶數(shù)量的1/10再取整。
本發(fā)明的優(yōu)勢在于:
本發(fā)明的方法能夠在微博中跟蹤特定事件相關(guān)信息,能夠以用戶為切入點,通過檢索事件持續(xù)關(guān)注者的微博信息流以獲取相對密集、完備的事件信息集合,可有效提升特定信息檢索的效率。
附圖說明
圖1為基于SVM的用戶關(guān)注度評估流程示意圖;
圖2為本發(fā)明的微博中事件持續(xù)關(guān)注者的識別模型的建立方法的流程圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明做進一步詳細的說明。
如圖1所示,微博中的事件持續(xù)關(guān)注者識別方法從用戶對事件的關(guān)注度(信息可持續(xù)性)以及用戶的認可度(信息的重要性)兩個角度對微博中關(guān)注特定事件的用戶進行評估,從而篩選出能夠持續(xù)提供事件信息的優(yōu)質(zhì)用戶,即事件持續(xù)關(guān)注者。
一種微博中事件持續(xù)關(guān)注者的識別模型的建立方法,所述方法包括:
步驟S1)通過關(guān)鍵詞檢索事件相關(guān)微博,獲取關(guān)注該事件的初始用戶群,通過用戶的歷史微博信息與預(yù)先準(zhǔn)備的事件描述進行相似度計算,對事件相關(guān)微博進行判斷與統(tǒng)計,過濾與該事件不相關(guān)的微博,從而獲取每個用戶與該事件相關(guān)的微博;初始用戶群與每個用于與該事件相關(guān)的微博構(gòu)成訓(xùn)練樣本集;
步驟S2)獲取訓(xùn)練樣本集中每個用戶的關(guān)注度特征;
針對訓(xùn)練樣本集中的每個用戶,根據(jù)用戶所發(fā)布的歷史微博信息、好友關(guān)系、背景信息等數(shù)據(jù)提取用戶對事件的關(guān)注度特征。關(guān)注度特征包括:用戶對于事件的活躍程度、對事件的反映及時性、與其他用戶之間的互動情況、用戶興趣以及用戶的基本狀態(tài)。其中,用戶的活躍性與反應(yīng)及時性綜合了用戶圍繞特定事件所發(fā)布相關(guān)微博的數(shù)量與頻率特征,用戶興趣則基于用戶歷史微博、訂閱列表信息與事件描述的相似度計算,互動情況主要考慮了信息源受到其好友關(guān)注內(nèi)容所帶來的影響與推動力。
步驟S3)建立關(guān)注度用戶分類模型,該模型為一個SVM分類器;輸入為用戶的關(guān)注度特征,輸出為分類結(jié)果,將分類結(jié)果為“是”的用戶組成關(guān)注用戶初始集合U;
結(jié)合SVM分類算法,對訓(xùn)練樣本集中預(yù)先進行手工標(biāo)注的持續(xù)發(fā)布事件信息的用戶進行訓(xùn)練,得到分類效果最佳的模型以及用戶樣本的分類。本發(fā)明中的關(guān)注度用戶分類模型并不區(qū)分事件類型,對任意事件具有普適性。
步驟S4)獲取關(guān)注用戶初始集合U中每個用戶的認可度特征;
認可度特征包括:自我描述信息完整度、平臺利用度、信息輸出能力、信息傳播能力和事件認知度,從用戶的微博形象、自身能力以及對事件信息的把控情況層面提取。其中,自我描述信息完整度根據(jù)用戶公開展示信息的重要性進行打分,平臺利用度求取用戶利用微博平臺關(guān)注他人、發(fā)布信息等的日均指標(biāo)數(shù),用于表示其對平臺使用的頻繁程度,信息輸出能力綜合了用戶發(fā)布信息的附加信息量,而信息傳播能力對用戶傳播信息過程中引起的個人知名度、被關(guān)注增多等情況構(gòu)建了相關(guān)特征,事件認知度同時考慮了用戶微博與所屬于的自定義列表描述同事件描述信息的相似度特征。
步驟S5)建立排序模型R,輸入為集合U中每個用戶的認可度特征,輸出為對用戶所發(fā)布事件相關(guān)信息的重要性進行排序的用戶順序;
步驟S6)訓(xùn)練排序模型R;
對用戶所發(fā)布事件相關(guān)信息的重要性進行排序。在排序?qū)W習(xí)框架下,結(jié)合構(gòu)建的認可度描述特征,訓(xùn)練出一個排序模型。首先給定一個查詢集合Q,在不同的查詢?nèi)掌跈z索事件相關(guān)信息,獲取對應(yīng)的關(guān)注用戶集合{u},并對用戶在查詢?nèi)掌谥笏l(fā)布的事件相關(guān)微博是否被他人轉(zhuǎn)發(fā)進行手工標(biāo)注。接著,應(yīng)用排序?qū)W習(xí)算法對手工標(biāo)注的數(shù)據(jù)進行訓(xùn)練,生成排序?qū)W習(xí)模型R。對于一個新的查詢和其所對應(yīng)的用戶集合{u}和微博集合{t},抽取相同的特征形成特征集合,然后利用生成好的排序?qū)W習(xí)模型對進行相關(guān)排序。
步驟S7)所述微博中事件持續(xù)關(guān)注者的識別模型包括訓(xùn)練好的用戶分類模型和排序模型。
基于上述方法建立的微博中事件持續(xù)關(guān)注者的識別模型,本發(fā)明還提供了一種微博中事件持續(xù)關(guān)注者的識別方法,
如圖2所示,所述方法包括:
步驟T1)建立對某一微博關(guān)注的用戶集;
步驟T2)獲取用戶集中每個用戶的關(guān)注度特征,輸入訓(xùn)練好的用戶分類模型,得到用戶初始集合U0;
步驟T3)獲取集合U0中用戶的認可度特征,輸入訓(xùn)練好的排序模型,得到集合U0的用戶排序;
步驟T4)根據(jù)用戶排序,選取前k名用戶作為高認可度用戶組成高認可度用戶集合U1;k的取值為集合U0中用戶數(shù)量的1/10再取整。
對于已經(jīng)發(fā)布過少量事件相關(guān)信息的初始用戶集合進行關(guān)注度評估,從信息的可持續(xù)性角度獲取能夠持續(xù)提供事件相關(guān)信息的用戶集合;然后對上述用戶集合進行認可度評估,最終選取認可度較高的用戶集合作為最終的事件持續(xù)關(guān)注者集合,以保證事件持續(xù)關(guān)注者不但能夠持續(xù)發(fā)布特定事件相關(guān)信息,而且信息具有一定的可研究價值。