国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種不同平臺間識別同一用戶的方法與系統(tǒng)的制作方法

      文檔序號:9432627閱讀:487來源:國知局
      一種不同平臺間識別同一用戶的方法與系統(tǒng)的制作方法
      【技術領域】
      [0001] 本發(fā)明設及自然語言處理領域,特別是設及一種不同平臺間識別同一用戶的方法 與系統(tǒng)。
      【背景技術】
      [0002] 近幾年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,許多聯(lián)網(wǎng)的應用程序備受用戶的青睞,聯(lián)網(wǎng)的 應用程序一般需要用戶登錄,如微博即微型博客(Micro-blog),Twitter、I^acebook等,新 浪微博、騰訊微博是國內(nèi)知名的微博網(wǎng)站,但是不同微博網(wǎng)站之間的賬戶并不通用,目前很 難判斷不同微博網(wǎng)站的兩微博是否屬于同一用戶。

      【發(fā)明內(nèi)容】

      [0003] 有鑒于此,本發(fā)明的主要目的在于提供一種不同平臺間識別同一用戶的方法與系 統(tǒng),可W有效地識別兩個不同平臺下的用戶是否為同一用戶。
      [0004] 為實現(xiàn)上述目的,本發(fā)明提供了一種不同平臺間識別同一用戶的方法,包括:
      [0005] 收集預設數(shù)量的第一平臺與第二平臺中用戶發(fā)表的文本信息;
      [0006] 將所述文本信息中的一部分進行標注;
      [0007] 將所述文本信息中的已標注文本信息作為已標注樣本,將所述文本信息中的未標 注文本信息作為待測樣本;
      [0008] 利用LDA模型對已標注樣本與待測樣本分別抽取主題特征,對所述抽取的主題特 征分別進行余弦相似度計算,并將得到的相似度值分別作為訓練樣本與測試樣本;
      [0009] 利用預設算法對所述訓練樣本進行訓練得到分類器模型;
      [0010] 利用所述分類器模型對所述測試樣本進行分類,確定所述兩不同平臺下的測試樣 本對應的用戶是否為同一用戶。
      [0011] 優(yōu)選地,收集預設數(shù)量的第一平臺與第二平臺中用戶發(fā)表的文本信息包括: 陽〇1引構(gòu)建用戶隊列;
      [0013] 挑選一個用戶作為種子用戶,加入到所述用戶隊列中;
      [0014] 從所述用戶隊列中取出一個用戶,通過API抓取用戶個人資料信息W及發(fā)表的文 本信息,所述用戶個人資料信息包括關注用戶W及被關注用戶,并將所述關注用戶和被關 注用戶加入到所述用戶隊列中;
      [0015] 重復上述抓取用戶個人資料信息W及發(fā)表的文本信息的過程,直到抓取的用戶數(shù) 目達到設定數(shù)值。
      [0016] 優(yōu)選地,將所述文本信息中的一部分進行標注包括:
      [0017] 將所述第一平臺的用戶與所述第二平臺的用戶為同一用戶的文本信息標注為第 一類,將所述第一平臺的用戶與所述第二平臺的用戶不為同一用戶的文本信息標注為第二 類。
      [001引本發(fā)明還提供了一種不同平臺間識別同一用戶的系統(tǒng),包括:
      [0019] 收集模塊,用于收集預設數(shù)量的第一平臺與第二平臺中用戶發(fā)表的文本信息;
      [0020] 標注模塊,用于將所述文本信息中的一部分進行標注;
      [0021] 第一樣本獲取模塊,用于將所述文本信息中的已標注文本信息作為已標注樣本, 將所述文本信息中的未標注文本信息作為待測樣本;
      [0022] 第二樣本獲取模塊,用于利用LDA模型對已標注樣本與待測樣本分別抽取主題特 征,對所述抽取的主題特征分別進行余弦相似度計算,并將得到的相似度值分別作為訓練 樣本與測試樣本;
      [0023] 分類器模型獲取模塊,用于利用預設算法對所述訓練樣本進行訓練得到分類器模 型;
      [0024] 分類模塊,用于利用所述分類器模型對所述測試樣本進行分類,確定所述兩不同 平臺下的測試樣本對應的用戶是否為同一用戶。
      [00巧]優(yōu)選地,所述收集模塊包括: 陽0%] 隊列構(gòu)建子模塊,用于構(gòu)建用戶隊列;
      [0027] 用戶挑選子模塊,用于挑選一個用戶作為種子用戶,加入到所述用戶隊列中;
      [0028] 信息抓取子模塊,用于從所述用戶隊列中取出一個用戶,通過API抓取用戶個人 資料信息W及發(fā)表的文本信息,所述用戶個人資料信息包括關注用戶W及被關注用戶,并 將所述關注用戶和被關注用戶加入到所述用戶隊列中;
      [0029] 循環(huán)子模塊,用于重復上述抓取用戶個人資料信息W及發(fā)表的文本信息的過程, 直到抓取的用戶數(shù)目達到設定數(shù)值。
      [0030] 優(yōu)選地,所述標注模塊包括:
      [0031] 第一類標注子模塊,用于將所述第一平臺的用戶與所述第二平臺的用戶為同一用 戶的文本信息標注為第一類;
      [0032] 第二類標注子模塊,用于將所述第一平臺的用戶與所述第二平臺的用戶不為同一 用戶的文本信息標注為第二類。
      [0033] 應用本發(fā)明提供的一種不同平臺間識別同一用戶的方法與系統(tǒng),收集兩不同平臺 中用戶發(fā)表的文本信息,將所述文本信息中的一部分進行標注,并將已標注文本信息作為 已標注樣本,將未標注文本信息作為待測樣本,利用LDA模型對已標注樣本與待測樣本分 別抽取主題特征,對抽取的主題特征分別進行余弦相似度計算,并將得到的相似度值分別 作為訓練樣本與測試樣本;利用預設算法對所述訓練樣本進行訓練得到分類器模型,利用 分類器模型對所述測試樣本進行分類,確定所述兩不同平臺下的測試樣本對應的用戶是否 為同一用戶,能夠有效地通過用戶發(fā)表的文本識別兩個不同平臺下的用戶是否同一用戶, 且在訓練樣本數(shù)量有限的情況下,達到較高的準確率。運將有利于企業(yè)制定精準的廣告投 放,有助于研究同一用戶使用不同社交網(wǎng)絡的使用動機分析及其相關分析W此來幫助社交 網(wǎng)絡運營更好的開發(fā)社交網(wǎng)絡產(chǎn)品。
      【附圖說明】
      [0034]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。
      [0035] 圖1為本發(fā)明一種不同平臺間識別同一用戶的方法實施例一的流程圖;
      [0036] 圖2為本發(fā)明一種不同平臺間識別同一用戶的系統(tǒng)實施例二的結(jié)構(gòu)示意圖;
      [0037] 圖3為本發(fā)明一種不同平臺間識別同一用戶的系統(tǒng)實施例二的詳細結(jié)構(gòu)示意圖;
      [0038] 圖4為本發(fā)明一種不同平臺間識別同一用戶的系統(tǒng)實施例二的詳細結(jié)構(gòu)示意圖。
      【具體實施方式】
      [0039] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
      [0040]實施例一;
      [0041] 本實施例提供了一種不同平臺間識別同一用戶的方法,圖1示出了本實施例的流 程圖,包括:
      [0042] 步驟S101:收集預設數(shù)量的第一平臺與第二平臺中用戶發(fā)表的文本信息;
      [0043] 指定兩平臺,如新浪微博與騰訊微博,收集預設數(shù)量的兩微博平臺的用戶發(fā)表的 文本信息,具體收集過程如下:
      [0044] 步驟S201:構(gòu)建用戶隊列; W45] 步驟S202 :挑選一個用戶作為種子用戶,加入到所述用戶隊列中;
      [0046] 步驟S203:從所述用戶隊列中取出一個用戶,通過微博提供的API抓取用戶個人 資料信息W及發(fā)表的文本信息,所述用戶個人資料信息包括關注用戶W及被關注用戶,并 將所述關注用戶和被關注用戶加入到所述用戶隊列中;
      [0047] 步驟S204 :重復上述抓取用戶個人資料信息W及發(fā)表的文本信息的過程,直到抓 取的用戶數(shù)目達到設定數(shù)值。
      [0048] 步驟S102 :將所述文本信息中的一部分進行標注;
      [0049] 將新浪微博的用戶與騰訊微博的用戶為同一用戶的文本信息標注為正類,將新浪 微博的用戶與騰訊微博的用戶不為同一用戶的文本信息標注為負類。
      [0050] 步驟S103:將所述文本信息中的已標注文本信息作為已標注樣本,將所
      [0051] 述文本信息中的未標注文本信息作為待測樣本;
      [0052] 步驟S104:利用LDA模型對已標注樣本與待測樣本分別抽取主題特征,對所述抽 取的主題特征分別進行余弦相似度計算,并將得到的相似度值分別作為訓練樣本與測試樣 本;
      [0053] 利用LDA算法將用戶的微博文本特征化成隱含主題的集合,即將用戶不同平臺下 的微博文本使用隱含主題的集合來表示,并進行余弦相似度計算,已標注樣本計算得到的 相似度至作為訓練樣本,待測樣本計算得到的相似度值作為測試樣本。
      [0054]LDA模型(XatentDirichletAllocation)是文本建模的一種方法,其核屯、是對參 數(shù)曰,P的估計,而估計過程用到了EM,variationalinference等方法對a,P進行逼近, 最后收斂得出學習結(jié)果。另一部分是在此基礎上所做的文檔生成模型,運個生成模型的核 屯、是對參數(shù)(即主題特征)0 = (01,02... 0k)化代表主題個數(shù))的采樣,利用Dirichlet 分布與Gamma分布的關系先產(chǎn)生k個相互獨立的服從Gamma分布的隨機數(shù), 陽化5] 再利用
      導出服從Dirichlet分布的 0,即抽取了每一篇文檔的主題特征。
      [0056] 然后利用抽取的主題特征進行相似度計算,公式如下:
      [0057]
      [(K)郎]其中,di_LDA=( 01,0 2, . . . 0k)即微博文本中抽取的主題特征。
      [0059] 步驟S105 :利用預設算法對所述訓練樣本進行訓練得到分類器模型,并利用所述 分類器模型對所述測試樣本進行分類,確定所述兩不同平臺下的測試樣本對應的用戶是否 為同一用戶。
      [0060] 利用
      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1