国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      微博數(shù)據(jù)的地理位置信息提取方法

      文檔序號(hào):9350003閱讀:5024來源:國知局
      微博數(shù)據(jù)的地理位置信息提取方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于信息檢索技術(shù)領(lǐng)域,具體涉及一種微博數(shù)據(jù)的地理位置信息提取方 法。
      【背景技術(shù)】
      [0002] 隨著社交網(wǎng)絡(luò)的發(fā)展,社交用戶產(chǎn)生的數(shù)據(jù)也在以驚人的速度增多。例如, Twitter有1億4千萬的活躍用戶,他們每天可以產(chǎn)生大約4億的微博。Foursquare有兩 千五百萬的用戶和30億的check-in。大量的應(yīng)用都可以從這些用戶產(chǎn)生的數(shù)據(jù)中受益。 特別地,根據(jù)社交用戶的微博去鑒定用戶的地理位置信息,可以使得更高效地進(jìn)行廣告的 投放和推薦。比如,某一個(gè)用戶的微博中出現(xiàn)了"Olympia Theater,Broadway Manhattan", 廣告商就可以在用戶發(fā)出這條微博后快速地向他發(fā)送相關(guān)的廣告。更加重要的是,如果我 們基于用戶發(fā)送的所有微博推測出他所有感興趣的地點(diǎn),比如"Manhattan",我們就可以提 供位置相關(guān)的推薦,比如新聞、產(chǎn)品、餐館等。

      【發(fā)明內(nèi)容】

      [0003] 本發(fā)明旨在至少解決上述技術(shù)問題之一。
      [0004] 為此,本發(fā)明的一個(gè)目的在于提出一種微博數(shù)據(jù)的地理位置信息提取方法。
      [0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種微博數(shù)據(jù)的地理位置信息提取方 法,包括以下步驟:Sl :獲取地理位置信息集合和微博數(shù)據(jù)文本集合,其中,所述地理位置 信息集合中的地理位置按照行政區(qū)域逐級(jí)劃分形成地理位置信息樹,將每條微博與博主 一一對應(yīng)的存儲(chǔ)在所述微博數(shù)據(jù)文本集合上;S2 :從所述微博數(shù)據(jù)文本集合中的每條微博 中抽取位置信息與所述地理位置信息樹中的節(jié)點(diǎn)進(jìn)行比較,如果抽取的位置信息與所述地 理位置信息樹中的某個(gè)節(jié)點(diǎn)的位置信息相同,將抽取的信息作為精確匹配節(jié)點(diǎn),將所述精 確匹配點(diǎn)和所述位置信息對應(yīng)的加入到候選集合中,如果收取的位置信息與所述地理位置 信息樹中的某個(gè)節(jié)點(diǎn)的位置信息不同,則進(jìn)行相似性匹配,從所述地理位置信息樹找到匹 配程度最高的節(jié)點(diǎn)作為模糊匹配節(jié)點(diǎn),將所述模糊匹配節(jié)點(diǎn)和所述位置信息對應(yīng)的加入到 所述候選集合中;S3 :將所述候選集合進(jìn)行聚合,推測在所述地理位置信息樹同一層級(jí)第 一預(yù)設(shè)值數(shù)量的地理位置,推測在所述地理位置信息樹不同層級(jí)第一預(yù)設(shè)值數(shù)量的地理位 置;S4 :對聚合后的所述候選集合進(jìn)行信息提純,得到精確的所述第一預(yù)設(shè)值數(shù)量的地理 位置。
      [0006] 根據(jù)本發(fā)明實(shí)施例的微博數(shù)據(jù)的地理位置信息提取方法,在博主的微博信息抽取 地理位置信息,將地理位置信息與分層次的行政區(qū)劃信息進(jìn)行對比,根據(jù)對比結(jié)果,針對性 的為博主提供廣告服務(wù)。
      [0007] 另外,根據(jù)本發(fā)明上述實(shí)施例的微博數(shù)據(jù)的地理位置信息提取方法,還可以具有 如下附加的技術(shù)特征:
      [0008] 進(jìn)一步地,還包括步驟:S5 :當(dāng)所述博主的微博內(nèi)容更新或所述地理位置信息樹 的節(jié)點(diǎn)更新時(shí),將更新的內(nèi)容相應(yīng)的加入到所述微博數(shù)據(jù)文本集合或所述地理位置信息 樹,并根據(jù)更新后的所述微博數(shù)據(jù)文本集合和更新后所述地理位置信息樹重新計(jì)算所述第 一預(yù)設(shè)值數(shù)量的地理位置。
      [0009] 進(jìn)一步地,所述步驟Sl進(jìn)一步包括:Sll :對所述地理位置信息樹從上往下給每一 個(gè)節(jié)點(diǎn)賦了一個(gè)Dewey碼,其中根節(jié)點(diǎn)的Dewey碼是1,對于每一個(gè)節(jié)點(diǎn),不斷地把父親節(jié) 點(diǎn)的Dewey碼附加在自己的Dewey碼后面得到最后一串Dewey碼,比較兩個(gè)節(jié)點(diǎn)n;,Ii j的 Dewey碼,如果叫的Dewey碼是n 的Dewey碼的子串,那么n ;就是n 的祖先,其中i和j均 為自然數(shù);S12 :建立倒排索引,對于地理位置,由于同名的情況,可以對應(yīng)到所述地理位置 信息樹上的多個(gè)Dewey碼,建立倒排索引;S13 :每一條數(shù)據(jù)包含微博的文本和發(fā)送微博的 博主對應(yīng)存儲(chǔ),每個(gè)博主對應(yīng)多條微博文本。
      [0010] 進(jìn)一步地,所述步驟S2進(jìn)一步包括:S211 :定義精確匹配和所述精確匹配節(jié)點(diǎn):從 所述微博數(shù)據(jù)文本集合選取一條微博和所述地理位置信息樹進(jìn)行比較,如果所述地位位置 信息樹的某個(gè)節(jié)點(diǎn)和所述微博的所述子串精確匹配,定義所述地理位置為精確匹配實(shí)體, 定義所述節(jié)點(diǎn)為所述精確匹配節(jié)點(diǎn);S212 :定義相似性:從所述微博數(shù)據(jù)文本集合選取一 條微博m,用E(m)表示所述精確匹配實(shí)體的集合,給定一個(gè)候選的位置節(jié)點(diǎn)n,用E(n)來 表示從根節(jié)點(diǎn)到所述節(jié)點(diǎn)n之間的所有位置節(jié)點(diǎn),在E(m)和E(n)之間利用第一相似性
      其中|E(m) n E(n) I是兩個(gè)集合的交集,|E(m) U E(n) I是兩個(gè)集合E(m)的并集;S213 : 找到精確匹配節(jié)點(diǎn):對于每一個(gè)地位位置e,利用所述倒排列表枚舉所述微博的子串,對 于每一個(gè)所述子串,檢測是否出現(xiàn)在所述倒排索引里,如果出現(xiàn)在所述倒排列表中,取出 所述倒排索引對應(yīng)的節(jié)點(diǎn),所述節(jié)點(diǎn)為候選的所述精確匹配節(jié)點(diǎn),根據(jù)所述第一相似性 函數(shù)計(jì)算出第一相似值,將所述第一相似值和所述精確匹配節(jié)點(diǎn)對應(yīng)存儲(chǔ)在所述候選集 合中;S221 :定義模糊匹配和所述模糊匹配節(jié)點(diǎn):從所述微博數(shù)據(jù)文本集合選取一條微 博,給定第二相似性函數(shù)和閾值,如果所述地理位置信息樹中的某個(gè)節(jié)點(diǎn)和所述微博的 一個(gè)子串之間根據(jù)所述第二相似函數(shù)計(jì)算出的相似值不大于所述閾值,把所述地理位置 定義為模糊匹配實(shí)體,在所述地理位置信息樹中,把所有標(biāo)記為模糊匹配實(shí)體對應(yīng)的節(jié) 點(diǎn)定義為所述模糊匹配節(jié)點(diǎn);S222 :定義相似性:首先定義標(biāo)準(zhǔn)化之后的編輯距離,表示
      地理位置相似,給定一個(gè)地理位置,所述地理位置也可能有多個(gè)相似的子串,保留最相似 的一個(gè),用E' (m)來表示所有<s,e>的集合,其中s是一個(gè)子串,e是一個(gè)位置實(shí)體,并 且滿足不存在以下情況:有一對〈8,6'>,使得£03(8,6')>£03(8, 6),有一對〈8', e>,使得EDS (s',e) > EDS (s,e),得到所述E' (m)后,用所述第二相似性函數(shù)衡量所
      在位置實(shí)體上的投影;S223 :找到模糊匹配的節(jié)點(diǎn):把相似性進(jìn)行轉(zhuǎn)換可以得到,兩個(gè)地理 位置是相似的等價(jià)于它們的編輯距離不大于所述閾值T,把每個(gè)地理位置分成了 T +1個(gè) 片段,基于鴿巢原理,如果所述微博中的一個(gè)子串和一個(gè)所述位置實(shí)體相似,所述子串包含 所述分割后的片段之中的一個(gè),根據(jù)所述倒排索引,對于給定一個(gè)微博,枚舉所述微博的子 串,檢查所述微博的子串是否出現(xiàn)在所述倒排索引中,如果有一個(gè)子串出現(xiàn)在所述倒排索 引之中,檢查所述倒排索引中每個(gè)地理位置是否和所述子串相似得到第二相似值,如果相 似,把所述地理位置對應(yīng)的模糊匹配節(jié)點(diǎn)和相似值加入到所述候選集合。
      [0011] 進(jìn)一步地,所述步驟S3進(jìn)一步包括:S31 :把用戶發(fā)的微博集合,記為M = {nv m2, ...,m|M|},每一條微博叫有一個(gè)候選位置的集合,其中包括了所述精確匹配和所述模 糊匹配的位置節(jié)點(diǎn),把這個(gè)集合記為N(Hl1),所述N(Hl1)中的每一個(gè)候選的位置都和Hl 1有所 述第一相似值和所述第二相似值;S32 :推測用戶在同一層級(jí)的所述第一預(yù)設(shè)值數(shù)量的地 理位置:s321 :定義覆蓋值:一個(gè)節(jié)點(diǎn)的覆蓋值指的是所有它覆蓋的微博的相似值的總和, 定義如下:C(n) = E |M|C(n,IHi),其中C(n,IHi)是指所述節(jié)點(diǎn)n對微博IH i的覆蓋,表
      節(jié)點(diǎn)的集合;S323 :找到所述Ntest集合:利用貪心的算法,具體按照如下規(guī)則迭代地選擇節(jié) 點(diǎn):找到覆蓋值最大的節(jié)點(diǎn)n ;從剩下的微博里面找到覆蓋值最大的下一個(gè)節(jié)點(diǎn);使用了區(qū) 間最值查詢算法RMQ來計(jì)算C (n,Hi1);進(jìn)行迭代,得到所述第一預(yù)設(shè)值數(shù)數(shù)量的節(jié)點(diǎn);S33 : 推測不同層次的top-k位置:S331 :定義概率Pq.,給定一個(gè)節(jié)點(diǎn)n和它的子節(jié)點(diǎn)集合,記
      述界?大,選擇所述節(jié)點(diǎn)n選擇所述第一預(yù)設(shè)值數(shù)量的地理位置,如果所述節(jié)點(diǎn)n的 信息熵比所述界S小,檢查所述節(jié)點(diǎn)n的孩子節(jié)點(diǎn)選擇所述第一預(yù)設(shè)值數(shù)量的地理位 置;S334 :定義第二Ntest集合:在所述信息熵H(n)的限制下,從不同層次的地點(diǎn)中選出 所述第一預(yù)設(shè)值數(shù)量的地理位置,使得覆蓋值達(dá)到最大,所述第二N test如下定義:第二
      H(n) >B ;S335 :找到第二Nbest集合,利用了一種優(yōu)先最佳的貪心算法,具體如下:S3351 :檢 查根節(jié)點(diǎn),計(jì)算所述根節(jié)點(diǎn)的覆蓋值和信息熵,并把所述根節(jié)點(diǎn)加入到一個(gè)優(yōu)先隊(duì)列0中; 53352 :彈出優(yōu)先隊(duì)列g(shù)中覆蓋值最大的節(jié)點(diǎn):如果所述優(yōu)先隊(duì)列g(shù)的節(jié)點(diǎn)的信息熵的值大 于所述界值:B,把所述節(jié)點(diǎn)加入到結(jié)果集合R u中,如果結(jié)果所述集合R u中已經(jīng)有了第一預(yù) 設(shè)值數(shù)量的地理位置,結(jié)束算法,如果所述節(jié)點(diǎn)的信息熵不大于所述界值?,考查所述節(jié)點(diǎn) 的孩子節(jié)點(diǎn),計(jì)算所述孩子節(jié)點(diǎn)的覆蓋值并把所述孩子節(jié)點(diǎn)插入到所述優(yōu)先隊(duì)列g(shù)中去; 53353 :重復(fù)步驟S3352,直到我們找到了所述第一預(yù)設(shè)值數(shù)量的節(jié)點(diǎn),作為不同層次的所 述第一預(yù)設(shè)值數(shù)量的地理位置。
      當(dāng)前第1頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1