国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      多尺度空間下不確定行為語(yǔ)義的社交群體發(fā)現(xiàn)系統(tǒng)及方法_3

      文檔序號(hào):9930022閱讀:來(lái)源:國(guó)知局
      圖3中圖 (a)、圖(b)和圖(C)所示中的h至13,分為S種,即10公里范圍、5公里范圍和1公里范圍,即劃 分層次設(shè)為=層;
      [0106] 步驟2-2、采用聚類算法對(duì)處于每種粒度下的推文物理位置進(jìn)行聚類;
      [0107] 本發(fā)明實(shí)施例中,根據(jù)步驟2-1所確定的每種聚類空間度量粒度,利用DBSCAN聚類 算法對(duì)處于每種粒度下的推文物理位置進(jìn)行聚類;
      [0108] 步驟2-3、按推文發(fā)送時(shí)間先后順序生成對(duì)應(yīng)每個(gè)用戶的推文位置聚類簇序列;
      [0109] 本發(fā)明實(shí)施例中,根據(jù)步驟2-2所得的聚類簇,針對(duì)每個(gè)用戶,按推文發(fā)送時(shí)間先 后順序生成對(duì)應(yīng)每個(gè)用戶的推文位置聚類簇序列;
      [0110] 本發(fā)明實(shí)施例中,如圖3中的Ii層,Ui和U2均被聚類在同一簇Cii中,Ui和U2的第2層 和第3層聚類轉(zhuǎn)換簇圖分別如圖4中圖(a)、圖(b)和圖5中圖(a)、圖(b)所示。
      [0111] 表1給出了聚類結(jié)果及對(duì)應(yīng)參數(shù);結(jié)合圖3中例子,Wb為例,說(shuō)明各參數(shù)。其中假 定,亂=100,11。佑3) = 10,11。佑4) = 20,則扣(化〔5。)= 2,因?yàn)橛?個(gè)公共簇,即〔33和〇34;而9 =1,即從瑞;和&中找到1個(gè)最大公共匹配C33一C34;此外,M=5,I&I = I&I =4。
      [0112] 表1實(shí)施例聚類結(jié)果及對(duì)應(yīng)參數(shù)
      [0113]
      [0114] 步驟3、采用多層次推文物理位置相似度矩陣計(jì)算模塊,對(duì)聚類所得的任意一對(duì)用 戶間的各層推文軌跡簇序列進(jìn)行物理位置的綜合性相似度獲取;具體步驟如下:
      [0115] 步驟3-1、獲得同層節(jié)點(diǎn)下一對(duì)用戶相似推文物理位置的相似度;
      [0116] 同層節(jié)點(diǎn)下一對(duì)用戶相似推文物理位置的相似度為,-sy)計(jì)算公式如下:
      [0117]
      (1)
      [0118] 其中,巧表示用戶Ui在第1層的物理位置軌跡簇序列;馬表示用戶Uj在第1層的物 理位置軌跡簇序列;r表示物理位置軌跡;1表示第1層物理位置軌跡簇聚類;I q I表示最大匹 配的個(gè)數(shù);nc巧LCSq)表示第1層第q個(gè)最大推文軌跡簇公共子序列所包含的聚類簇個(gè)數(shù),1< q< k| ;M表示同一聚類尺度下用戶軌跡聚類簇總數(shù);Nu表示推文數(shù)據(jù)集中的總用戶數(shù),U表 示用戶;nu(Cf)表示訪問第I層第q個(gè)最大推文軌跡簇公共子序列第f個(gè)公共位置簇Cf的用戶 數(shù),1含f含nc(TLCSq); I巧I表示化在1層上的推文軌跡簇序列所包含的位置聚類簇個(gè)數(shù);|氣, 表示W(wǎng)在1層上的推文軌跡簇序列所包含的位置聚類簇個(gè)數(shù);
      [0119] 本發(fā)明實(shí)施例中,利用TF-IDF思想計(jì)算同一聚類尺度(即同層節(jié)點(diǎn))下一對(duì)用戶相 似推文物理位置的相似度。根據(jù)公式(1)可計(jì)算出Ui和Uj在第3層的位置簇序列相似度如下:
      [0120]
      [0121 ]類似求得各層相似度結(jié)果如下:
      [0122]
      [0123]
      [0124] 步驟3-2、綜合獲得各層節(jié)點(diǎn)下一對(duì)用戶推文物理位置的相似度;
      [01巧]計(jì)算公式如下:
      [0126]
      (別
      [0127] 其中,,y;)表示用尸Ui和Uj位葺軌跡相似度;T/表示用戶化的位置軌跡;可 表示用戶W的位置軌跡;r表示物理位置軌跡;Wi表示不同粒度劃分層對(duì)物理位置相似度的 影響權(quán)重,Wi = 21-1,1 y引11,111表示不同粒度劃分層的個(gè)數(shù);
      [0128] 本發(fā)明實(shí)施例中,綜合計(jì)算多種聚類尺度(即各層節(jié)點(diǎn))下一對(duì)用戶推文物理位置 的相似度。令wi = 2H,根據(jù)公式(2)計(jì)算出最終位置相似度如下:
      [0129] 游內(nèi)巧',巧)=化脫 * 4 + 0.196 * 2 + 0.撕 1 = 0,2 + 0.392 + 化撕 1 = 0.8Q3
      [0130] 步驟3-3、重復(fù)步驟3-1至步驟3-2,獲得所有用戶對(duì)的多層次相似推文物理位置的 相似度,并生成用戶對(duì)多層次推文物理位置相似度下=角矩陣;
      [0U1]本發(fā)明實(shí)施例中,將步驟3-2生成的每一對(duì)拱VTJ)作為第j行和第i列元素存 入多層次推文物理位置相似度下=角矩陣L中,重復(fù)步驟3-1至步驟3-2,完成所有用戶對(duì)的 多層次相似推文物理位置的相似度計(jì)算,并生成用戶對(duì)多層次推文物理位置相似度下=角 矩陣L
      [0132] 本發(fā)明實(shí)施例中,生成用戶對(duì)多層次推文物理位置相似度下=角矩陣L如下(為表 示簡(jiǎn)單起見,僅給出其中的5個(gè)用戶對(duì))。
      [0133]
      [0134] 步驟4、采用計(jì)算機(jī)中的不確定行為語(yǔ)義詞條庫(kù)構(gòu)建模塊,構(gòu)建不確定詞條行為活 動(dòng)庫(kù),具體步驟如下:
      [0135] 步驟4-1、劃分活動(dòng)類別,并提取各類活動(dòng)包含詞條;
      [0136] 本發(fā)明實(shí)施例中,借鑒第S方應(yīng)用化urSquare的活動(dòng)分類信息并根據(jù)實(shí)際需要, 將活動(dòng)分為W下六類:
      [0137] (1 )Food(美食):主要包括各種餐廳,如中國(guó)餐館等。
      [0138] (2)Shopping(購(gòu)物):主要有商店等。
      [0139] (3)Trave 1 (旅行):主要包括著名旅游景點(diǎn)。
      [0140] (4)Art(藝術(shù)):主要包括一些博物館等。
      [0141 ] (5化ntedainment(娛樂):主要包括游泳館、足球場(chǎng)等。
      [0142] (G)Business(商業(yè)):主要包括開會(huì)地點(diǎn)等。
      [0143] 每類活動(dòng)下存儲(chǔ)表示該類活動(dòng)的詞條,由于活動(dòng)分類詞條與社交應(yīng)用本身緊密相 關(guān),即在某種程度上或多或少存在一定語(yǔ)義偏斜,因此本文在構(gòu)建活動(dòng)分類詞條集合時(shí),根 據(jù)類別語(yǔ)義通過維基百科適當(dāng)增加了部分相關(guān)詞條,旨在改善語(yǔ)義傾斜問題;
      [0144] 步驟4-2、賦予各種不確定詞條表達(dá)活動(dòng)的概率值,具體步驟如下:
      [0145] 步驟4-2-1、統(tǒng)計(jì)詞條的詞頻和詞條的逆向文本頻率,根據(jù)詞條的詞頻和詞條的逆 向文本頻率獲得詞條的重要性權(quán)重;
      [0146] 步驟4-2-1-1、統(tǒng)計(jì)詞條的詞頻;
      [0147] 計(jì)算公式如下:
      [014 引
      (5)
      [0149] 其中,Sg表示在所有活動(dòng)中包含的詞條總數(shù),gu為詞條ti在第j類活動(dòng)Aj中出現(xiàn) 的次數(shù),TF為詞條ti在第j類活動(dòng)中出現(xiàn)的詞頻;
      [0150] 步驟4-2-1-2、統(tǒng)計(jì)詞條的逆向文本頻率;
      [0151] 計(jì)算公式如下:
      [0152]
      [6)
      [0153] 其中,IDF表示詞條ti的逆向文本頻率,|A|表示全部活動(dòng)個(gè)數(shù),IAiI表示包含詞條 ti的活動(dòng)個(gè)數(shù);
      [0154] 步驟4-2-1-3、計(jì)算詞條的重要性概率值;
      [0155] 本發(fā)明實(shí)施例中,詞條ti在多少個(gè)活動(dòng)中出現(xiàn)過,對(duì)ti與某個(gè)活動(dòng)的相關(guān)性大小有 重要影響:若ti在越多的活動(dòng)中出現(xiàn),則ti與某個(gè)活動(dòng)能夠的相關(guān)性越低;反之,若ti在越少 的活動(dòng)中出現(xiàn),則ti與活動(dòng)的相關(guān)性越高。因此,用TF ? IDF方法計(jì)算詞條表達(dá)活動(dòng)的重要 性權(quán)重,然后除W最大權(quán)重值Wmax ;
      [0156] 計(jì)算公式如下:
      [0157] Pw(ti)=TF ? IDF/Wmax (7)
      [015引其中,TF ? IDF表示詞條ti在活動(dòng)A沖的重要性權(quán)重,并將公式(5)和(6)代入;Wmax 表示權(quán)重值中的最大值;Pw(ti)表示詞條ti在活動(dòng)Aj中的重要性權(quán)重概率值,即權(quán)重概率 值;
      [0159] 步驟4-2-2、通過重要性權(quán)重分布曲線,確定活動(dòng)相關(guān)詞條rt的判斷闊值0r和活動(dòng) 半相關(guān)詞條St的判斷闊值0U;
      [0160] 本發(fā)明實(shí)施例中,將詞條分為活動(dòng)相關(guān)詞條rt、活動(dòng)半相關(guān)詞條St和活動(dòng)不相關(guān)詞 條UtS類,由于權(quán)重分布曲線符合Zipf分布,因此根據(jù)數(shù)理統(tǒng)計(jì)概率分布中的1/3和2/3分 位點(diǎn)所對(duì)應(yīng)的權(quán)重概率值,作為主題相關(guān)詞條闊值0r和主題不相關(guān)詞條闊值0U;
      [0161] 步驟4-2-3、將詞條權(quán)重概率值大小與闊值進(jìn)行比較,將詞條分為活動(dòng)相關(guān)詞條、 活動(dòng)半相關(guān)詞條和活動(dòng)不相關(guān)詞條=類,并賦予詞條表達(dá)活動(dòng)的概率值,獲得不確定詞條 行為活動(dòng)庫(kù);
      [0162] 本發(fā)明實(shí)施例中,取某一詞條tx的權(quán)重概率值Pw(tx)作為相關(guān)詞條與半相關(guān)詞條 的分界線,當(dāng)且僅當(dāng)公式(8)成立;同理,取某一詞條ty的權(quán)重概率值Pw(ty)作為半相關(guān)詞條 與不相關(guān)詞條的分界線,當(dāng)且僅當(dāng)公式(9)成立,其中Ikl代表全部推文集合中的詞條總數(shù) (l<x,y< |k|);
      [0163] CS)
      [0164] (9)
      [0165] 權(quán)重概率值大于0r的詞條是活動(dòng)相關(guān)詞條;權(quán)重概率值小于0u的詞條是活動(dòng)不相 關(guān)詞條;權(quán)重概率值介于0r和0U之間的詞條是活動(dòng)半相關(guān)詞條;
      [0166] 本發(fā)明實(shí)施例中,假定整個(gè)推文詞條活動(dòng)庫(kù)包含心*2山、*一5和*6六個(gè)詞條,即 k| =6,且運(yùn)些詞條屬于同一類活動(dòng),則它們基于TF-IDF的重要性概率值分別為pw(ti) = l, Pw(t2)=0.5,pw(t3)=0.33,pw(t4)=0.25,pw(t5)=0.2,pw(t6)=0.17,經(jīng)計(jì)算
      I本發(fā)明實(shí)施例中,設(shè)定Pw < 公式(8),于是將tl作為tr 與ts的分界線,同理,經(jīng)類似計(jì)算并根據(jù)公式(8)將t3作為ts與tu的分界線。最后的詞條分類 結(jié)果為 tr二{tl} ,ts 二{t2,t3} ,tu二,這時(shí)Pw(tl) = l,Pw(t2)=0.5,Pw(t3)=0.33,Pw (t4)=Pw(t5)=Pw(t6)=0。
      [0167] 本發(fā)明實(shí)施例中,最終六類活動(dòng)及其包含的詞條如表2所示(僅列出部分詞條)。表 中詞條后括號(hào)中的"字母-數(shù)字"表明該詞條是活動(dòng)相關(guān)(用字母r表示),還是活動(dòng)半相關(guān) (用字母S表示),數(shù)字則表示該詞條表達(dá)所屬活動(dòng)的重要性概率值。注意,此處活動(dòng)不相關(guān) 詞條由于對(duì)活動(dòng)表達(dá)無(wú)關(guān),因此被刪去。
      [016引表2
      [0169]
      [0170] 步驟5、采用計(jì)算機(jī)中的推文詞條提取模塊,利用Lucene分詞工具,通過去停用詞 等操作對(duì)所有用戶發(fā)布的推文文本進(jìn)行詞條提??;
      [0171] 步驟6、采用推文詞條表達(dá)活動(dòng)概率值及相似性概率獲取模塊,獲得一對(duì)用戶間推 文語(yǔ)義行為相似度的概率值,具體步驟如下:
      [0172] 步驟6-1、針對(duì)同層每一個(gè)最大位置軌跡匹配化CSq( 1含q含I q I ),合并同一用戶不 同物理位置簇的推文,生成推文語(yǔ)義詞條集合化(TLCSq),所述的化(TLCSq)表示第1物理位 置聚類層、第q個(gè)最大位置軌跡匹配對(duì)應(yīng)的推文詞條集合;
      [0173] 本發(fā)明實(shí)施例中,W附圖5為例,假定在第S層,用戶Ui和U2各自合并后的〇3 (TLCSq)分別如表3中的13列所示。
      [0174] 表3
      [0175]
      [01
      [0177]步驟6-2、獲得一對(duì)用戶間推文語(yǔ)義活動(dòng)的所有組合情況及各組合的
      當(dāng)前第3頁(yè)1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1