国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種微博用戶身份識(shí)別方法及系統(tǒng)的制作方法

      文檔序號(hào):6498923閱讀:173來源:國知局
      一種微博用戶身份識(shí)別方法及系統(tǒng)的制作方法
      【專利摘要】本發(fā)明提供一種微博用戶身份識(shí)別方法及系統(tǒng),所述方法包括:獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息;預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù);將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。采用本發(fā)明提供的微博用戶身份識(shí)別方法及系統(tǒng)可以有效提高微薄用戶身份識(shí)別的準(zhǔn)確性及實(shí)時(shí)性。
      【專利說明】一種微博用戶身份識(shí)別方法及系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及計(jì)算機(jī)信息處理【技術(shù)領(lǐng)域】,尤其涉及一種微博用戶身份識(shí)別方法及系統(tǒng)。
      【背景技術(shù)】
      [0002]隨著web技術(shù)的發(fā)展和微博的出現(xiàn),越來越多的用戶加入到互聯(lián)網(wǎng)中,成為虛擬社會(huì)中的一員,促進(jìn)了信息傳播方式的變革,提高了信息傳播的效率。然而,微薄用戶身份的識(shí)別作為微薄后臺(tái)維護(hù)的重要組成部分,其識(shí)別過程主要通過微薄用戶在網(wǎng)絡(luò)注冊、存儲(chǔ)的數(shù)據(jù)信息進(jìn)行用戶身份識(shí)別。例如:從網(wǎng)站獲取待識(shí)別用戶訪問網(wǎng)站的日志、臨時(shí)信息及注冊信息來實(shí)現(xiàn)用戶身份識(shí)別;或者,通過中文文本分類方法進(jìn)行微薄用戶身份識(shí)別。
      [0003]但是,在現(xiàn)有的微薄用戶身份識(shí)別過程中,發(fā)明人發(fā)現(xiàn)技術(shù)至少存在如下問題:
      [0004]現(xiàn)有技術(shù)中通過網(wǎng)站獲取待識(shí)別用戶訪問網(wǎng)站的日志、臨時(shí)信息及注冊信息來實(shí)現(xiàn)用戶身份識(shí)別的過程,由于用戶身份識(shí)別過程所依據(jù)的數(shù)據(jù)主要依靠從網(wǎng)站獲取用戶注冊信息以及該用戶的日志及臨時(shí)信息,從而使得數(shù)據(jù)獲取較為困難,且準(zhǔn)確性不高。
      [0005]現(xiàn)有技術(shù)中采用中文文本分類的方法雖然可以實(shí)現(xiàn)微薄用戶身份識(shí)別,但是,無法滿足當(dāng)前微博用戶身份識(shí)別的準(zhǔn)確性及實(shí)時(shí)性。

      【發(fā)明內(nèi)容】

      [0006]針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提出一種準(zhǔn)確性高,實(shí)時(shí)性強(qiáng)的微博用戶身份識(shí)別方法及系統(tǒng)。
      [0007]本發(fā)明提供一種微博用戶身份識(shí)別方法,包括:
      [0008]獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息;
      [0009]預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù);
      [0010]將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);
      [0011]獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;
      [0012]根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;
      [0013]將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;
      [0014]當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。
      [0015]本發(fā)明還提供一種微博用戶身份識(shí)別系統(tǒng),包括:
      [0016]信息獲取單元,用于獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息;
      [0017]預(yù)處理單元,用于預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù);
      [0018]語義單元重構(gòu)單元,用于將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);
      [0019]屬性及權(quán)重信息獲取單元,還用于獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;
      [0020]行為特征抽取單元,用于根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;
      [0021]比較單元,用于將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;
      [0022]身份確定單元,用于當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。
      [0023]本發(fā)明提供的微博用戶身份識(shí)別方法及系統(tǒng),通過獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息;預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù);將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。采用本發(fā)明提供的微博用戶身份識(shí)別方法及系統(tǒng)可以有效提高微薄用戶身份識(shí)別的準(zhǔn)確性及實(shí)時(shí)性。
      【專利附圖】

      【附圖說明】
      [0024]圖1為本發(fā)明實(shí)施例提供的一種微博用戶身份識(shí)別方法的流程圖;
      [0025]圖2為本發(fā)明提供的一種微博用戶身份識(shí)別方法中用戶行為的特征庫的構(gòu)建流程圖;
      [0026]圖3為本發(fā)明提供的一種微博用戶身份識(shí)別方法中更新用戶行為的特征庫的流程圖;
      [0027]圖4為本發(fā)明實(shí)施例提供的一種微博用戶身份識(shí)別系統(tǒng)結(jié)構(gòu)示意圖;
      [0028]圖5為本發(fā)明實(shí)施例提供的另一種微博用戶身份識(shí)別系統(tǒng)結(jié)構(gòu)示意圖;
      [0029]圖6為本發(fā)明實(shí)施例提供的一種微博用戶身份識(shí)別方法中語義單元屬性信息數(shù)據(jù)結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0030]下面結(jié)合附圖對本發(fā)明實(shí)施例提供的一種微博用戶身份識(shí)別方法及系統(tǒng)進(jìn)行詳細(xì)描述。
      [0031]如圖1所示,為本發(fā)明實(shí)施例子提供的一種微博用戶身份識(shí)別方法,該方法包括:
      [0032]101:獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息;
      [0033]102:預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù);所述預(yù)處理主要包括行為數(shù)據(jù)篩選、拼寫糾正、分詞和詞性標(biāo)注。
      [0034]103:將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);所述語義單元重構(gòu)是在預(yù)處理的基礎(chǔ)上應(yīng)用詞性信息進(jìn)行詞粘連的方法,通過合并特定的詞,來構(gòu)建包含更豐富語義的語義單元(詞串)。
      [0035]104:獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;其中,所述語義單元的屬性信息是指統(tǒng)計(jì)每個(gè)語義單元的詞頻和文檔頻率;所述語義單元的權(quán)重則采用TFIDF函數(shù)來實(shí)現(xiàn)用戶行為特征的權(quán)值計(jì)算,實(shí)現(xiàn)用戶行為特征的數(shù)值化。
      [0036]105:根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;所述待識(shí)別用戶行為特征是指抽取最能代表用戶行為的特征,并且特征項(xiàng)(即語義單元)具有很好的區(qū)分度,對于單個(gè)待識(shí)別用戶主要采用詞權(quán)重、詞頻、詞性相結(jié)合的方法,根據(jù)詞權(quán)重和詞頻進(jìn)行關(guān)鍵詞排序;根據(jù)停用詞表過濾掉停用詞或非停用詞(滿足詞長大于最大長度或小于最小長度)選取詞性為、”,“^’,、”,“」”,“!^”,“!!!.”,“!^’,“!^”或者包含“不”的詞。
      [0037]106:將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;所述比較的過程進(jìn)行用戶分類,主要可以采用KNN算法,K值選取方法采用概率分布的方法,即相似的特征向量和特征向量空間之比。具體分類思路為:比較待識(shí)別用戶和用戶行為特征庫信息中每個(gè)用戶類別的相似度sim(u,C),比較用戶和每個(gè)類別中包含用戶的相似度sim(u, Cui),如果sim(u,C)大于經(jīng)驗(yàn)閾值,或者多數(shù)sim(u,Cui)大于經(jīng)驗(yàn)閾值,貝!J認(rèn)為用戶和該類別存在相關(guān)性,選取相似度最大的用戶類別來確定用戶身份。
      [0038]采用調(diào)整余弦相似度的測量方法計(jì)算特征向量之間的相似度,具體步驟如下:
      [0039](1)對于特征向量庫中每一個(gè)特征向量,計(jì)算與該用戶特征向量的相似度;
      [0040](2)進(jìn)行向量對齊操作,對于向量Vl和v2,求其所有特征項(xiàng)的并集C (vl,v2),然后將vl和v2映射到C上,得到新的向量vl’和ν2’ ;
      [0041](3)采用調(diào)整余弦相似度計(jì)算公式計(jì)算vl’和v2’的相似度。
      [0042]107:當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。
      [0043]如圖2所示,為本發(fā)明實(shí)施例子提供的一種微博用戶身份識(shí)別方法中構(gòu)建用戶行為的特征庫流程,該構(gòu)建方法包括:
      [0044]201:獲取已知用戶行為數(shù)據(jù);具體的講,就是獲取已知用戶行為數(shù)據(jù),即訓(xùn)練數(shù)據(jù);該訓(xùn)練數(shù)據(jù)用于構(gòu)建用戶行為的特征庫。
      [0045]202:預(yù)處理所述獲取已知用戶行為數(shù)據(jù);具體的講,就是按照已知用戶的不同身份,對訓(xùn)練數(shù)據(jù)(即已知用戶數(shù)據(jù))進(jìn)行標(biāo)注,對相同身份的每個(gè)用戶的微博消息進(jìn)行過濾,過濾的方法是比較消息的長度和觀測值Θ (通過對大量微博消息統(tǒng)計(jì)分析,10個(gè)字符以內(nèi)的微博消息包含較少或沒有語義信息,因此本系統(tǒng)中Θ =10111)之間的大小關(guān)系,如果長度小于觀測值,則將微博作為噪聲過濾掉。拼寫檢查主要根據(jù)拼寫常見錯(cuò)誤對照表進(jìn)行拼寫錯(cuò)誤校正。 利用分詞和詞性標(biāo)注工具進(jìn)行分詞及詞性標(biāo)注,處理后每個(gè)詞都包含詞字符串信息和詞性,分詞和詞性標(biāo)注的工具均來自已知技術(shù),此處不再贅述。
      [0046]203:將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);所述語義單元重構(gòu)具體為:由于長詞串相對于短詞串包含更多語義信息,具有更強(qiáng)的表達(dá)能力,所以語義單元重構(gòu)就是在步驟201處理結(jié)果的基礎(chǔ)上,通過特定的規(guī)則對相鄰的特定詞進(jìn)行詞粘連,進(jìn)而產(chǎn)生更長的語義串。該步驟要處理的相鄰詞包括“ns”地名,“nr”人名,“nt”機(jī)構(gòu)名,“nz”專有名詞和“j”簡稱等,處理的規(guī)則是組合第一次出現(xiàn)該類型詞和最后一次出現(xiàn)該類型詞之間的所有詞。標(biāo)注粘連后的詞串詞性為“cw”,在特征選擇和權(quán)值計(jì)算時(shí),該類詞更重要。
      [0047]204:獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;
      [0048]其中,所述獲取語義單元的屬性信息,是基于步驟201和步驟202,為所述語義單元進(jìn)行統(tǒng)一編號(hào),建立微博一語義單元索引向量,按用戶統(tǒng)計(jì)語義單元的屬性信息,包括詞頻和文檔頻率,為單個(gè)用戶行為特征提取做準(zhǔn)備,按照相同身份用戶進(jìn)行詞頻和文檔頻率統(tǒng)計(jì),為相同身份類別的類別行為特征提取做準(zhǔn)備,處理結(jié)果信息保存到如圖6所示的數(shù)據(jù)結(jié)構(gòu)中。
      [0049]所述獲取所述語義單元的權(quán)重的具體過程為:
      [0050]首先,根據(jù)自然語言處理領(lǐng)域中常用的停用詞表過濾掉停用詞,并過濾掉詞頻小于經(jīng)驗(yàn)閾值且詞性為非包含“n”、“cw”的語義單元。其次,采用基于TF-1DF權(quán)值計(jì)算方法,計(jì)算每個(gè)語義單元的權(quán)值,對于特定類型的語義單元賦予更高的權(quán)值,具體方法為,對于詞性為“nr”人名,如是式(2)所示,加權(quán)系數(shù)α = 2.0,對于詞性為“cw”粘連詞,如是式(3)所示,加權(quán)系數(shù)為β = 1.5,具體權(quán)值計(jì)算公式為:
      [0051]weight I = TF | 1g2 IDF(I)
      [0052]weight2 = 2.0 I TFI 1g2 IDF(2)
      [0053]weight3 = 1.5 | TF | 1g2 IDF(3)
      [0054]205:根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述已知用戶行為特征;具體獲取過程為:
      [0055]對于所述獲取的已知用戶身份的訓(xùn)練數(shù)據(jù)主要采用卡方統(tǒng)計(jì)、詞性、詞頻相結(jié)合的方法;首先計(jì)算每個(gè)語義單元相當(dāng)于用戶類別的卡方值,按照卡方值對語義單元進(jìn)行排序;過濾掉長度等于1,且詞性為非nr的詞;根據(jù)停用詞表過濾掉停用詞或非停用詞(滿足詞長大于最大長度或小于最小長度);選取詞性為“a”,“cw”,“V”,“ j”,“ns”,“nr”,“nt”,“nz”或者包含“不”的詞;上述信息均不能區(qū)分時(shí),選擇詞頻較大的語義單元。
      [0056]為了控制分類過程中特征的維數(shù),設(shè)定選取語義單元的上限值Θ = 200。
      [0057]206:將所述獲取所述已知用戶行為特征,按照類別存儲(chǔ)在所述用戶行為的特征庫中。
      [0058]如圖3所示,為本發(fā)明實(shí)施例子提供的一種微博用戶身份識(shí)別方法中更新用戶行為的特征庫的流程;該流程包括:
      [0059]301:獲取所述確定用戶身份的待識(shí)別用戶的至少一個(gè)語義單元以及對應(yīng)所述用戶身份的用戶類型信息;
      [0060]302:比較所述語義單元與所述用戶身份的用戶類型信息,給出所述各個(gè)語義單元與所述用戶身份的用戶類型信息的相似度;該步驟可以采用卡方統(tǒng)計(jì)方法,計(jì)算語義單元與用戶類別的卡方值,通過所述獲取的卡方值來評(píng)價(jià)相關(guān)性。
      [0061]303:按照所述相似度由大到小的順序,對所述語義單元進(jìn)行排序;
      [0062]304:獲取相似度前top-n個(gè)語義單元作為該類型用戶的行為特征;
      [0063]305:將所述用戶的行為特征添加到所述用戶行為的特征庫的對應(yīng)類別中。
      [0064]需要說明的是,以上所述的實(shí)施例子中所述行為特征至少包括一個(gè)語義單元;所述語義單元屬性信息如圖6所示,至少包括:索引值,字符信息,詞性,詞頻和文檔頻率;所述語義單元至少包括一個(gè)詞;所述詞的屬性信息包括:詞的索引,詞頻,文檔頻率,IDF值,權(quán)值。
      [0065]所述預(yù)處理步驟主要包括:行為數(shù)據(jù)篩選、拼寫糾正、分詞和詞性標(biāo)注。
      [0066] 如圖4所示,為本發(fā)明實(shí)施例子提供的一種微博用戶身份識(shí)別系統(tǒng),該系統(tǒng)包括:[0067]信息獲取單元401,用于獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息;
      [0068]預(yù)處理單元402,用于預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù);
      [0069]語義單元重構(gòu)單元403,用于將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);
      [0070]屬性及權(quán)重信息獲取單元404,還用于獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;
      [0071]行為特征抽取單元405,用于根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;
      [0072]比較單元406,用于將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;
      [0073]身份確定單元407,用于當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。
      [0074]需要說明的是,如圖5所示,該系統(tǒng)還包括:用戶行為的特征庫構(gòu)建單元501和/或信息反饋單元502 ;
      [0075]所述用戶行為的特征庫構(gòu)建單元501,用于獲取已知用戶行為數(shù)據(jù);預(yù)處理所述獲取已知用戶行為數(shù)據(jù);將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述已知用戶行為特征;將所述獲取所述已知用戶行為特征,按照類別存儲(chǔ)在所述用戶行為的特征庫中。
      [0076]所述信息反饋單元502,用于獲取所述確定用戶身份的待識(shí)別用戶的至少一個(gè)語義單元以及對應(yīng)所述用戶身份的用戶類型信息;比較所述語義單元與所述用戶身份的用戶類型信息,給出所述各個(gè)語義單元與所述用戶身份的用戶類型信息的相似度;按照所述相似度由大到小的順序,對所述語義單元進(jìn)行排序;獲取相似度前top-n個(gè)語義單元作為該類型用戶的行為特征;將所述用戶的行為特征添加到所述用戶行為的特征庫的對應(yīng)類別中。
      [0077]以上所述行為特征至少包括一個(gè)語義單元;所述語義單元屬性信息至少包括:索引值,字符信息,詞性,詞頻和文檔頻率;所述語義單元至少包括一個(gè)詞;所述詞的屬性信息包括:詞的索引,詞頻,文檔頻率,IDF值,權(quán)值。
      [0078]所述預(yù)處理步驟主要包括:行為數(shù)據(jù)篩選、拼寫糾正、分詞和詞性標(biāo)注。
      [0079]本發(fā)明提供的微博用戶身份識(shí)別方法及系統(tǒng),通過獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息;預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù);將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。采用本發(fā)明提供的微博用戶身份識(shí)別方法及系統(tǒng)可以有效提高微薄用戶身份識(shí)別的準(zhǔn)確性及實(shí)時(shí)性。
      [0080]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括如下步驟:(方法的步驟),所述的存儲(chǔ)介質(zhì),如:ROM/RAM、磁碟、光盤
      坐寸O
      [0081]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
      【權(quán)利要求】
      1.一種微博用戶身份識(shí)別方法,其特征在于,包括: 獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息; 預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù); 將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu); 獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重; 根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較;當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。
      2.根據(jù)權(quán)利要求1所述的微博用戶身份識(shí)別方法,其特征在于,在獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息的步驟之前,該方法還包括: 獲取已知用戶行為數(shù)據(jù); 預(yù)處理所述獲取已知用戶行為數(shù)據(jù); 將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu); 獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重; 根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述已知用戶行為特征; 將所述獲取所述已知用戶行為特征,按照類別存儲(chǔ)在所述用戶行為的特征庫中。
      3.根據(jù)權(quán)利要求1或2所述的微博用戶身份識(shí)別方法,其特征在于,在所述待識(shí)別用戶身份確定之后,該方法還包括: 獲取所述確定用戶身份的待識(shí)別用戶的至少一個(gè)語義單元以及對應(yīng)所述用戶身份的用戶類型信息; 比較所述語義單元與所述用戶身份的用戶類型信息,給出所述各個(gè)語義單元與所述用戶身份的用戶類型信息的相似度; 按照所述相似度由大到小的順序,對所述語義單元進(jìn)行排序; 獲取相似度前top-n個(gè)語義單元作為該類型用戶的行為特征; 將所述用戶的行為特征添加到所述用戶行為的特征庫的對應(yīng)類別中。
      4.根據(jù)權(quán)利要求3所述的微博用戶身份識(shí)別方法,其特征在于,所述行為特征至少包括一個(gè)語義單元;所述語義單元屬性信息至少包括:索引值,字符信息,詞性,詞頻和文檔頻率;所述語義單元至少包括一個(gè)詞;所述詞的屬性信息包括:詞的索引,詞頻,文檔頻率,IDF值,權(quán)值。
      5.根據(jù)權(quán)利要求4所述的微博用戶身份識(shí)別方法,其特征在于,所述預(yù)處理步驟主要包括:行為數(shù)據(jù)篩選、拼寫糾正、分詞和詞性標(biāo)注。
      6.一種微博用戶身份識(shí)別系統(tǒng),其特征在于,包括: 信息獲取單元,用于獲取待識(shí)別用戶行為數(shù)據(jù)以及用戶行為的特征庫信息; 預(yù)處理單元,用于預(yù)處理所述獲取的待識(shí)別用戶行為數(shù)據(jù); 語義單元重構(gòu)單元,用于將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu); 屬性及權(quán)重信息獲取單元,還用于獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;行為特征抽取單元,用于根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述待識(shí)別用戶行為特征;比較單元,用于將所述待識(shí)別用戶行為特征與用戶行為的特征庫信息中的每個(gè)特征類型進(jìn)行比較; 身份確定單元,用于當(dāng)所述待識(shí)別用戶行為特征與所述用戶行為的特征庫信息中的一個(gè)特征類型的相似度超過預(yù)設(shè)閾值,則所述待識(shí)別用戶身份確定。
      7.根據(jù)權(quán)利要求6所述的微博用戶身份識(shí)別系統(tǒng),其特征在于,該系統(tǒng)還包括:用戶行為的特征庫構(gòu)建單元,用于獲取已知用戶行為數(shù)據(jù);預(yù)處理所述獲取已知用戶行為數(shù)據(jù);將所述預(yù)處理后的用戶行為數(shù)據(jù),進(jìn)行語義單元重構(gòu);獲取所述語義單元的屬性信息以及其對應(yīng)的權(quán)重;根據(jù)所述語義單元的屬性信息以及其對應(yīng)的權(quán)重,獲取所述已知用戶行為特征;將所述獲取所述已知用戶行為特征,按照類別存儲(chǔ)在所述用戶行為的特征庫中。
      8.根據(jù)權(quán)利要求6或7所述的微博用戶身份識(shí)別系統(tǒng),其特征在于,該系統(tǒng)還包括:信息反饋單元,用于獲取所述確定用戶身份的待識(shí)別用戶的至少一個(gè)語義單元以及對應(yīng)所述用戶身份的用戶類型信息;比較所述語義單元與所述用戶身份的用戶類型信息,給出所述各個(gè)語義單元與所述用戶身份的用戶類型信息的相似度;按照所述相似度由大到小的順序,對所述語義單元進(jìn)行排序;獲取相似度前top-n個(gè)語義單元作為該類型用戶的行為特征;將所述用戶的行為特征添加到所述用戶行為的特征庫的對應(yīng)類別中。
      9.根據(jù)權(quán)利要求8所述的微博用戶身份識(shí)別系統(tǒng),其特征在于,所述行為特征至少包括一個(gè)語義單元;所述語義單元屬性信息至少包括:索引值,字符信息,詞性,詞頻和文檔頻率;所述語義單元至少包括一個(gè)詞;所述詞的屬性信息包括:詞的索引,詞頻,文檔頻率,IDF值,權(quán)值。
      10.根據(jù)權(quán)利要求4所述的微博用戶身份識(shí)別系統(tǒng),其特征在于,所述預(yù)處理步驟主要包括:行為數(shù)據(jù)篩選、拼寫糾正、分詞和詞性標(biāo)注。
      【文檔編號(hào)】G06F21/31GK103914494SQ201310008156
      【公開日】2014年7月9日 申請日期:2013年1月9日 優(yōu)先權(quán)日:2013年1月9日
      【發(fā)明者】趙立永, 于曉明, 楊建武, 鄭妍 申請人:北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正電子有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1