概率值,進而 獲得一對用戶間推文語義活動的同層概率值,即獲得一對用戶間同層推文語義行為相似度 的概率值;
[017引本發(fā)明實施例中,將推文語義詞條集合化(TLCSq)與詞條庫中的詞條進行匹配,判 斷是活動相關詞條還是活動半相關詞條;枚舉出不確定詞條表達化(TLCSq)推文語義活動的 所有組合形式及每種形式的存在概率;去掉巧(義,.)和0/ (TICS。)中各自所對應的不 相關活動詞條,使得6; (71 )和&/ (TICS,,)中只包含相關活動詞條和半相關活動詞條, 并計算出它們各自所包含的半相關詞條個數(shù)每和《*^;;
[0179] 本發(fā)明實施例中,仍W化(TLCSq)為例,將其包含的詞條與詞條庫進行匹配后,得出 其所屬類別為:心=化}心=帕山};其中,心和*3分別代表相關詞條集合和半相關詞條集 合。因此,有(r 二:{白} I,而 ^s' - {, 'i - {廣2,iJ ,且P\f ( tl )二 1 , Pw( t2 )二 0.5 , Pw( t3 )二 0.33 ;
[0180] 本發(fā)明實施例中,根據(jù)得出的命和鳴,枚舉出巧.(班y和治/(班€^)中相應 的所有詞條活動表達集合形式,枚舉個數(shù)分別為聽'和W/,其計算如下:
[0181] 110)
[0182] (11)
[0183] 其中,表示巧(化GSg)中所有的詞條表達活動的集合形式個數(shù);》!/表示 ,&/:(巧中所有的詞條表達活動的集合形式個數(shù);公式中的第一部分,即數(shù)字"r代表 由全部相關詞條集合構成的一種確定活動表達形式,稱為"相關基";公式的第二部分,則代 表W "相關基"作為初始部分,向其逐條追加半相關詞條時構成的不確定詞條表達活動形式 的集合數(shù)。
[0184] 本發(fā)明實施例中,根據(jù)得出的枚舉結(jié)果,計算出每個詞條集合表達推文語義活動 的存在概率,計算公式如下:
[0185] (12)
[0186] (巧):
[0187] 其中,臺;,是巧(化CS,,)的第入個活動詞條描述集合表達形式;托是該集合中第d) 個詞條的存在概率(如果相關詞條存在于該集合中,則其存在概率為1;如果半相關詞條存 在與該集合中,則其存在概率值為如,否則概率值為1 - 4); H是該集合所包含詞條的個 數(shù);同理,/?.是D/ (TXCS',,)的第V個活動詞條描述集合表達形式,其對應概率計算與前者 相同,此處不再寶述。
[018引本發(fā)明實施例中,根據(jù)得出的對應臺,'(化〔馬,)巧臺/ (7IXA,)所有詞條表達活動 集合形式,枚舉出所有推文對組合,組合數(shù)為W/' ;
[0189]本發(fā)明實施例中,仍W化(TLCSq)為例,則巧巧/3.^的所有可能組合形式及每種形式 的存在概率如表4所示。其中,巧和/3;'分別表示用戶Ui和U2在第3物理位置軌跡聚類層上、 去掉不相關詞條后、對應第q個最大匹配化CSq的推文文本詞條集合。巧1和巧,分別表示用 戶Ui在巧中的第一種、第二種詞條表達活動形式,即上標表示用戶,下標表示在第幾層的第 幾種表達形式,W此類推,用戶U2在巧中的四種表達形式分別為巧、每、每和近,具 體如表4第3列所示。
[0190] 表4例子的可能表達形式及其存在概率
[0191]
[0192] 本發(fā)明實施例中,針對得出的所有推文對組合及其所含推文表達活動形式的存在 概率值,利用化ccard相似系數(shù)計算出一對用戶間每個可能的推文對的活動語義的相似度, 即抓"(巧,巧)的計算如表 5所示;
[0193] 表5例子的相似性計算及其存在概率
[0194]
[01對本發(fā)明實施例中,令終=O.4,則根據(jù)公式(11)得出巧巧,每)如下:
[0196]
[0197] 本發(fā)明實施例中,針對得出的所有推文對組合及其所含推文表達活動形式的存在 概率值,利用化ccard相似系數(shù)計算出一對用戶間每個可能的推文對的活動語義的相似度, 計算公式如下:
[019 引
(14)
[0199] 其中,成居i);'(2XCS<則勺第A個活動詞條描述集合表達形式,/?.是A(化仿',) 的第個活動詞條描述集合表達形式;
[0200] 本發(fā)明實施例中,計算出一對用戶間每個可能的推文對的活動語義相似度的存在 概率值,.,(4,卸,),即一對用戶間同層相似活動的概率值;
[0201] 本發(fā)明實施例中,選出A'j和荀1,的所有概率活動詞條描述集合中相似度大于同 層活動相似度闊值聲(通過實驗測得命=防4此6])的描述集合,則任意一對用戶間相似活 動的概率值是運些集合存在的概率值相加,計算公式如下:
[0202]
(巧)
[020引其中,瑞和每,分別表示媒巧靖,所有概率活動詞條描述集合中相似度大于活 動相似度闊值范圍聲的第1個和第i個描述集合,A,,(旬,A')表示Ui和U調(diào)滿足第q個最大 匹配的相似活動的概率值,換句話說,第q個最大匹配中大于活動相似度闊值的運些集合中 的詞條能夠W多大概率代表兩個用戶產(chǎn)生某類或某幾類相似活動;
[0204] 本發(fā)明實施例中,計算滿足全部最大匹配的一對用戶間同層推文相似活動的相似 度,計算公式如下:
[0205]
(3)
[0206] 其中,說狀(斯每)表示用戶Ui和Uj在第1層物理位置軌跡聚類簇序列上的推文行 為語義相似度,/,,,(旬,與,')表示Ui和W間滿足第q個最大匹配的相似活動的概率值,I q I表示 最大匹配的個數(shù)。
[0207] 本發(fā)明實施例中,由于如巧,任)=〇.巧,而I q I = 1,因此根據(jù)公式(3 )得出 &(句,A:)如下:
[020引
[0209] 步驟6-3、根據(jù)不同粒度劃分層對語義相似度的權重,獲得一對用戶間推文語義活 動的多層概率值,即獲得一對用戶間多層推文語義行為相似度的概率值;具體公式如下:
[0210]
(4)
[0別。其中,Wf表示第1層語義相似度權重,d表示推文軌跡,激/?巧",巧)表示用戶Ui和Uj 的推文行為語義相似度,I 1 I表示不同粒度劃分層的個數(shù)。
[0212]本發(fā)明實施例中,假定b和h的參數(shù)如表3中的第2列和第3列所示,并假定已計算 出加!倒成)二0. 3,況m(化巧=0. 2,通過預定義的各層語義相似度權重八=日.7,=0. 2, wf =0. 1,則根據(jù)公式(13),最終得出抑《巧"節(jié))如下: 惦13] 沒,"(礦,療)=0. 7地 75+0.巧0. 3+0. 1*0. 2=0. 605
[0214] 本發(fā)明實施例中,將語義相似虔5V/h(7:'',77')作為第祀和第巧阮素存入矩陣A中, 完成所有用戶對的推文語義相似行為概率計算,并生成用戶對相似行為活動概率下=角矩 陣A如下:
[0215]
[0216] 步驟7、采用行為相似社父群體發(fā)現(xiàn)模塊,根據(jù)推文軌跡物理位置相似度和活動相 似性概率獲得軌跡行為相似度,通過構建連通圖的方式獲得推文相似行為群體;具體步驟 如下:
[0217] 步驟7-1、構建推文軌跡行為相似矩陣M;
[021引步驟7-1-1、掃描L和A中第i行和第j列元素,如果訊"(r.r:'|) > ,7丫)含Cf, 其中設置Ed = O.5, Er = O.5,那么生成M中的第j行和第i列元素,計算公式如下:
[0^9] Mji=Aji-ki (16)
[0220] 本發(fā)明實施例中,掃描L和A中第2行和第1列元素,&'/?(77',?丫)二〇.893>£',,且 筑'";(77',廠;'')二0.605>£、,,,,那么根據(jù)公式(16)則可計算出421.121 = 0.893 . 0.605 = 0.54,然 后將該值填入矩陣位置M21中,即生成推文軌跡行為相似矩陣M中的第j行和第i列元素。W此 類推,最終獲得所有用戶的推文相似行為下=角矩陣M(假定其他用戶間的數(shù)值按上述方法 都被計算出來):
[0221]
[0222] 步驟7-1-2、重復步驟7-1-1,直至掃描完矩陣A和L的所有下S角元素,完成矩陣M 的生成;
[0223] 步驟7-2、根據(jù)M構建對應的連通圖G;
[0224] 步驟7-2-1、將M的用戶作為連通圖G的節(jié)點;
[0225] 步驟7-2-2、將用戶對間的矩陣值作為對應節(jié)點之間的邊;
[0。6] 步驟7-2-3、重復步驟7-1-1和7-1-2,完成所有用戶對操作;
[0227]步驟7-3、選擇G中任意一個頂點V(Ui)加入到最小生成樹已選頂點集合;
[0。引步驟7-4、選擇一條代價最小的邊e(m,Uj)加入到最小生成樹中;
[02巧]步驟7-5、重復步驟7-3和7-4,生成G的最小生成樹T;
[0230] 步驟7-6、根據(jù)最小生成樹T進行用戶群聚類;
[0231] 步驟7-6-1、取定一個闊值C = [0.4,0.6];
[0232] 步驟7-6-2、去掉最小生成樹T中邊權重小于C的連通邊;
[0233] 步驟7-6-3、剩余邊構成的每個連通子圖即為一組推文軌跡相似用戶群體。
[0234] 本發(fā)明實施例中,計算關系矩陣M所對應的最大樹如圖6中圖(a)所示。假定C = 0.5,則對應生成的連通子圖如圖6中圖(b)所示,即用戶被聚成兩類,即在給出的5個用戶中 發(fā)現(xiàn)了 2個推文相似群體,它們分別是打={山,化,114巧版={113,化};
[0235] 本發(fā)明實施例中,通過實驗驗證了所提的多尺度空間下基于不確定行為語義的社 交群體發(fā)現(xiàn)系統(tǒng)的有效性和可行性。
[0236] 本發(fā)明實施例中,根據(jù)不同地理空間聚類尺度將所提系統(tǒng)劃分成UUGD-I、UUGD-2 和UUGD-3S種,其中,UUGD-I用一種度量尺度(聚類范圍1公里),UUGD-2綜合兩種度量尺度 (聚類范圍分別為1公里和5公里),UUGD-3綜合S種度量尺度(聚類范圍分別為1、5、10公 里);盡管地理位置空間度量尺度不同,但運=種方法對不確定語義的相似性計算則采用相 同概率方法求解,而后將它們分別與LDA-TFIDF算法在影響聚類效果的F-measure和賭指標 上進行了有效性測試與比較,測試結(jié)果如圖7和圖8所示。
[0237] 本發(fā)明實施例中,如圖4所示,在同樣一種地理空間聚類尺度下,UUGD-I的聚類效 果優(yōu)于LDA-TFIDF,因為前者考慮了Tweet軌跡活動語義表達的不確定性,即為最有可能表 達活動語義的推文詞條賦W較高概率,相比于LDA-TFIDF算法的確定性語義計算,UUGD處理 不確定性的概率手段能使活動語義被更充分地表達出來,因此聚類效果更優(yōu)。其次,在不同 地理空間聚類尺度下,UUGD-2和UUGD-3的聚類效果不僅優(yōu)于LDA-TFIDF,而且優(yōu)于UUGD-1, 運一方面源于上述提及的UUGD對不確定語義的考慮,一方面則體現(xiàn)出了不同地理空間聚類 尺度對聚類效果有著重要影響。由于UUGD-3的地理空間劃分涵蓋了UUGD-2和UUG