国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng)及方法_2

      文檔序號:9930022閱讀:來源:國知局
      借鑒了地理學第一定律定量分析地理空間的理 念,即"任何事物都相關(guān),只是相近的事物關(guān)聯(lián)更緊密",認為用戶在社交網(wǎng)應用Twitter上 發(fā)布的推文其位置相近用戶所產(chǎn)生的行為要比距離較遠用戶產(chǎn)生的行為更相似,即行為軌 跡相似隱含著地理位置的相似,因此位置軌跡是否相似是進一步判斷行為軌跡相似的必要 前提;
      [0054] 其次,本發(fā)明首次針對Twitter行為軌跡提出在細粒度地理空間上共享相似位置 的用戶具有更大的行為相似可能性,比如,兩個用戶在同一大學發(fā)推文可能比在同一城市 發(fā)推文更具行為相似性,因此W分裂方式對位置軌跡進行不同空間度量尺度下的遞歸聚 類,可W更有效地區(qū)分相似行為用戶;
      [0055] 此外,W往基于內(nèi)容的行為軌跡研發(fā)工作大都認為行為軌跡的活動語義是確定 的,但事實上,語義與活動之間的映射關(guān)系往往是不唯一的,因為推文詞條集合對行為語義 表達可有多種不同形式,運導致行為軌跡的活動語義表達具有不確定性,但該問題卻被忽 略?;谏鲜?,本發(fā)明提出了多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng)。
      [0056] 在當今如火如茶的互聯(lián)網(wǎng)+時代,該系統(tǒng)的成功開發(fā),無疑可W促進傳統(tǒng)行業(yè)與互 聯(lián)網(wǎng)的深度融合,比如,有推薦需求的旅游業(yè)、廣告業(yè)、銷售業(yè)、餐飲業(yè)等,基于該系統(tǒng)能對 目標客戶人群做出更為準確的判斷,從而提升信息推薦服務質(zhì)量。實驗也證明,本發(fā)明在發(fā) 現(xiàn)用戶相似行為群體的準確性上優(yōu)于現(xiàn)在已有的判斷方法,具有很高的實際應用價值,如 果能夠得到極大推廣,勢必會有助于產(chǎn)業(yè)創(chuàng)新、促進跨界融合、惠及社會民生,推動我國經(jīng) 濟和社會的創(chuàng)新發(fā)展。
      【附圖說明】
      [0057] 圖1為本發(fā)明一種實施例的多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng)結(jié) 構(gòu)框圖;
      [0058] 圖2為本發(fā)明一種實施例的多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)方法流 程圖;
      [0059] 圖3本發(fā)明一種實施例的原始推文軌跡在3個層上的不同聚類結(jié)果示意圖,其中, 圖(a)為第1層上的不同聚類結(jié)果示意圖,圖(b)為第2層上的不同聚類結(jié)果示意圖,圖k)為 第3層上的不同聚類結(jié)果示意圖;
      [0060] 圖4本發(fā)明一種實施例的在第2層上的聚類轉(zhuǎn)換簇圖,其中,圖(a)為用戶m的原始 軌跡圖在第2層上的聚類轉(zhuǎn)換簇圖,圖(b)用戶U2的原始軌跡圖在第2層上的聚類轉(zhuǎn)換簇圖;
      [0061] 圖5本發(fā)明一種實施例的在第3層上的聚類轉(zhuǎn)換簇圖,其中,圖(a)為用戶m的原始 軌跡圖在第3層上的聚類轉(zhuǎn)換簇圖,圖(b)為用戶U2的原始軌跡圖在第3層上的聚類轉(zhuǎn)換簇 圖;
      [0062] 圖6為本發(fā)明一種實施例的群體發(fā)現(xiàn)示意圖,其中,圖(a)為關(guān)系矩陣對應的連通 圖;圖(b)為利用最大樹聚類算法發(fā)現(xiàn)的推文行為相似群體圖;
      [0063] 圖7為本發(fā)明一種實施例的聚類效果之調(diào)和值比較圖;
      [0064] 圖8為本發(fā)明一種實施例的聚類效果之賭值比較圖;
      [0065] 圖9為本發(fā)明一種實施例的運行時間比較圖;
      [0066] 圖10為本發(fā)明一種實施例的不同推文數(shù)目下Er對聚類效果的敏感性測試圖,其 中,圖(a)為推文數(shù)200情況下Er的測試結(jié)果示意圖,圖(b)為推文數(shù)300情況下Er的測試結(jié)果 示意圖,圖k)為推文數(shù)400情況下Er的測試結(jié)果示意圖,(d)為推文數(shù)500情況下Er的測試結(jié) 果示意圖;
      [0067] 圖11為本發(fā)明一種實施例的不同Tweets數(shù)目下Ed對聚類效果的敏感性測試圖,其 中,圖(a)為推文數(shù)200情況下Ed的測試結(jié)果示意圖,圖(b)為推文數(shù)300情況下Ed的測試結(jié)果 示意圖,圖k)為推文數(shù)400情況下Ed的測試結(jié)果示意圖,(d)為推文數(shù)500情況下Ed的測試結(jié) 果示意圖;
      [0068] 圖12為本發(fā)明一種實施例的不同Tweets數(shù)目下C對聚類效果的敏感性測試圖,其 中,圖(a)為推文數(shù)200情況下C的測試結(jié)果示意圖,圖(b)為推文數(shù)300情況下C的測試結(jié)果 示意圖,圖(C)為推文數(shù)400情況下C的測試結(jié)果示意圖,(d)為推文數(shù)500情況下C的測試結(jié) 果示意圖。
      【具體實施方式】
      [0069] 下面結(jié)合附圖對本發(fā)明一種實施例做進一步說明。
      [0070] 本發(fā)明實施例例中,如圖I所示,多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系 統(tǒng),包括社交網(wǎng)推文采集模塊、多尺度空間下推文物理位置聚類模塊、推文物理位置相似度 矩陣計算模塊、不確定行為語義詞條庫構(gòu)建模塊、推文詞條提取模塊、推文詞條表達活動概 率值及相似性概率獲取模塊和行為相似社交群體發(fā)現(xiàn)模塊;
      [0071] 本發(fā)明實施例例中,所述的社交網(wǎng)推文采集模塊利用推特應用所提供的API函數(shù) 提取具有公開屬性的發(fā)布內(nèi)容(即文本)、發(fā)布位置(即經(jīng)、締度),同時提取出的內(nèi)容還包括 用戶ID、用戶名、文本發(fā)布時間,然后經(jīng)過數(shù)據(jù)清洗操作W記錄形式存入MongoDB數(shù)據(jù)庫中;
      [0072] 本發(fā)明實施例中,所述的多尺度空間下推文物理位置聚類模塊用于將每個用戶推 文形成的時空軌跡,按照基于密度的聚類方式在不同地理空間尺度下進行濃密區(qū)聚類,W 生成用戶多層次推文物理位置聚類簇序列;
      [0073] 本發(fā)明實施例中,所述的推文物理位置相似度矩陣計算模塊用于對聚類所得的任 意一對用戶間的各層推文軌跡簇序列進行物理位置的綜合性相似度獲取,即獲得推文軌跡 物理位置相似度,并將該相似度值作為矩陣元素構(gòu)建推文軌跡物理位置相似度矩陣L
      [0074] 本發(fā)明實施例中,所述的不確定行為語義詞條庫構(gòu)建模塊用于構(gòu)建社交網(wǎng)用戶行 為活動詞條庫,并抽取出每類活動包含的詞條,通過重要性權(quán)重分布曲線,確定活動相關(guān)詞 條的判斷闊值和活動半相關(guān)詞條的判斷闊值;將詞條權(quán)重概率值大小與闊值進行比較,將 詞條分為活動相關(guān)詞條、活動半相關(guān)詞條和活動不相關(guān)詞條=類,并賦予詞條表達活動的 概率值,獲得不確定詞條活動庫;
      [0075] 本發(fā)明實施例中,所述的推文詞條提取模塊用于根據(jù)Lucene分詞工具對所發(fā)推文 的文本進行文本解析,經(jīng)過去停用詞等操作提取出文本包含的詞條;
      [0076] 本發(fā)明實施例中,推文詞條表達活動概率值及相似性概率獲取模塊用于針對同層 每一個最大位置軌跡匹配,合并同一用戶不同物理位置簇的推文,生成推文語義詞條集合, 獲得一對用戶間推文語義活動的所有組合情況及各組合的概率值,進而獲得一對用戶間推 文語義活動的同層概率值,即獲得一對用戶間同層推文語義行為相似度的概率值,再根據(jù) 不同粒度劃分層對語義相似度的權(quán)重,獲得一對用戶間推文語義活動的多層概率值,即獲 得一對用戶間多層推文語義行為相似度的概率值,并將每對概率值作為活動相似性矩陣元 素構(gòu)建活動相似性概率矩陣A;
      [0077] 本發(fā)明實施例中,所述的行為相似社交群體發(fā)現(xiàn)模塊用于根據(jù)給定的物理位置相 似度闊值范圍和語義相似度闊值范圍,計算出L和A對應相同行與列上的兩個值的乘積并構(gòu) 成軌跡行為相似矩陣M;然后利用給定的行為相似度闊值范圍將M進行最大樹聚類,如果M對 應的連通圖的最小生成樹中一些邊的權(quán)值小于預先給定行為相似度闊值,就將運些邊剪 掉,于是剩余連通子圖便是最大樹聚類結(jié)果,而每個類則表示一組行為相似的社交群體;
      [0078] 本發(fā)明實施例中,采用所述的多尺度空間下不確定行為語義的社交群體發(fā)現(xiàn)系統(tǒng) 進行的發(fā)現(xiàn)方法,方法流程圖如圖2所示,包括W下步驟:
      [0079] 步驟1、在樣本采集范圍內(nèi)采用計算機中的社交網(wǎng)推文采集模塊,獲取Twitter可 用推文數(shù)據(jù)集;所述的推文數(shù)據(jù)集包括按照推文時間排序的推文物理位置和推文文本詞 條;
      [0080] 本發(fā)明實施例中,具體步驟如下:
      [0081] 步驟1-1、選取城市;
      [0082] 本發(fā)明實施例中,選取美國城市人口數(shù)排名前20的城市;
      [0083] 步驟1-2、選取樣本采集點;
      [0084] 本發(fā)明實施例中,對從步驟1-1中獲得的每一個城市,W均勻分布選取1,000個點;
      [0085] 步驟1-3、確定樣本最大采集區(qū)域;
      [0086] 本發(fā)明實施例中,W步驟1-2中獲得的!,000個點為中屯、,Wl公里為半徑畫出1, 000個相互之間不重疊的圓形區(qū)域;
      [0087] 步驟1-4、確定樣本采集范圍;
      [0088] 本發(fā)明實施例中,從步驟1-3的結(jié)果中選取20,000個圓形區(qū)域;
      [0089] 步驟1-5、提取樣本原始推特數(shù)據(jù);
      [0090] 本發(fā)明實施例中,利用步驟1-4確定的區(qū)域,通過Twitter提供的API函數(shù)接口獲取 170,955條推特數(shù)據(jù);
      [0091] 步驟1-6、預處理樣本原始推特數(shù)據(jù);
      [0092] 本發(fā)明實施例中,對步驟1-5獲得的原始推特數(shù)據(jù),進行數(shù)據(jù)清洗,去掉不完整的 數(shù)據(jù);
      [0093] 步驟1-7、存儲可用推特數(shù)據(jù);
      [0094] 本發(fā)明實施例中,對步驟1-6獲得的可用推特數(shù)據(jù)按照統(tǒng)一格式,存入MongoDB數(shù) 據(jù)庫中;
      [00M]本發(fā)明實施例中,如圖3中圖(a)、圖(b)和圖(C)所示,假定給出了兩個Twitter用 戶山和U2的推文語義行為軌跡Tib和巧如下:
      [0096] Tib= (pn,Dii) 一 (P12,Di2)一 (P13,Di3)一 (pi4,Di4) 一 (P15,Di 已)
      [0097] 巧.=:(/?),」,化」)一(P]:.化2.)寸(戶:;.0:3.) 一 On '0現(xiàn)(侶 ' 〇")
      [0098] 其中,Dii表不Ui在其第一個發(fā)布點發(fā)布推文的文本詞條集合,同理,〇21表不U2在其 第一個發(fā)布點發(fā)布推文的文本詞條集合,其他各地點發(fā)布的推文集合W此類推;Pll表示Ui 在其第一個發(fā)布點的物理位置,即經(jīng)度和締度;同理,P12表示U2在其第一個發(fā)布點的物理位 置,即經(jīng)度和締度;其他各發(fā)布地點W此類推;
      [0099] 首先,需要說明的是,Ui的一條原始位置軌跡T/是一個由(pik,Tik)構(gòu)成的按時間 Tik排序的位置點序列,其中Plk=(Xlk,ylk),Xlk和ylk是第k個位置的經(jīng)、締度,于是 r二/W.I 一 Z;,.;卡…一 /V其中f是Ti'上的位置點數(shù)目,則山和U2的原始位置軌跡如下:
      [0100] TlT = Pll 一 P12 一 P13 一 PM 一 Pl 已
      [01 01 ] 顆=扔1 一巧22 一齡一公24 一抱
      [0102]其次,Ui的一條語義行為軌跡Tib是一個由p/ ik= (Xik,yik,Tik,Dik)構(gòu)成的時間序 列,其中化k= . . .,tih},其中,h為Dik所包含的詞條數(shù)目。
      [0103] 步驟2、采用計算機中的多尺度空間下推文物理位置聚類模塊,將每個用戶推文形 成的時空軌跡,按照基于密度的聚類方式在不同地理空間尺度下進行濃密區(qū)聚類,W生成 用戶多層次推文物理位置聚類簇序列;具體包括如下步驟:
      [0104] 步驟2-1、確定多種聚類空間度量粒度,即確定多尺度空間的距離尺度;
      [0105] 根據(jù)不同應用需求可設(shè)置不同的聚類空間度量尺度,本發(fā)明實施例中,如
      當前第2頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1