預(yù)設(shè)算法對(duì)訓(xùn)練樣本訓(xùn)練得到分類(lèi)器模型,再利用分類(lèi)器模型對(duì)測(cè)試樣本進(jìn) 行分類(lèi),類(lèi)別包括兩種,正類(lèi)代表為同一用戶(hù),負(fù)類(lèi)代表非同一用戶(hù)。
[0061] 應(yīng)用本實(shí)施例提供的一種不同平臺(tái)間識(shí)別同一用戶(hù)的方法,收集兩不同平臺(tái)中用 戶(hù)發(fā)表的文本信息,將所述文本信息中的一部分進(jìn)行標(biāo)注,并將已標(biāo)注文本信息作為已標(biāo) 注樣本,將未標(biāo)注文本信息作為待測(cè)樣本,利用LDA模型對(duì)已標(biāo)注樣本與待測(cè)樣本分別抽 取主題特征,對(duì)抽取的主題特征分別進(jìn)行余弦相似度計(jì)算,并將得到的相似度值分別作為 訓(xùn)練樣本與測(cè)試樣本;利用預(yù)設(shè)算法對(duì)所述訓(xùn)練樣本進(jìn)行訓(xùn)練得到分類(lèi)器模型,利用分類(lèi) 器模型對(duì)所述測(cè)試樣本進(jìn)行分類(lèi),確定所述兩不同平臺(tái)下的測(cè)試樣本對(duì)應(yīng)的用戶(hù)是否為同 一用戶(hù),能夠有效地通過(guò)用戶(hù)發(fā)表的文本識(shí)別兩個(gè)不同平臺(tái)下的用戶(hù)是否同一用戶(hù),且在 訓(xùn)練樣本數(shù)量有限的情況下,達(dá)到較高的準(zhǔn)確率。運(yùn)將有利于企業(yè)制定精準(zhǔn)的廣告投放,有 助于研究同一用戶(hù)使用不同社交網(wǎng)絡(luò)的使用動(dòng)機(jī)分析及其相關(guān)分析W此來(lái)幫助社交網(wǎng)絡(luò) 運(yùn)營(yíng)更好的開(kāi)發(fā)社交網(wǎng)絡(luò)產(chǎn)品。 W62] 實(shí)施例二:
[0063] 本實(shí)施例提供了一種不同平臺(tái)間識(shí)別同一用戶(hù)的系統(tǒng),圖2示出了本實(shí)施例的結(jié) 構(gòu)示意圖,包括:
[0064] 收集模塊101,用于收集預(yù)設(shè)數(shù)量的第一平臺(tái)與第二平臺(tái)中用戶(hù)發(fā)表的文本信 息; 陽(yáng)0化]標(biāo)注模塊102,用于將所述文本信息中的一部分進(jìn)行標(biāo)注;
[0066] 第一樣本獲取模塊103,用于將所述文本信息中的已標(biāo)注文本信息作為已標(biāo)注樣 本,將所述文本信息中的未標(biāo)注文本信息作為待測(cè)樣本;
[0067] 第二樣本獲取模塊104,用于利用LDA模型對(duì)已標(biāo)注樣本與待測(cè)樣本分別抽取主 題特征,對(duì)所述抽取的主題特征分別進(jìn)行余弦相似度計(jì)算,并將得到的相似度值分別作為 訓(xùn)練樣本與測(cè)試樣本;
[0068] 分類(lèi)模塊105,用于利用預(yù)設(shè)算法對(duì)所述訓(xùn)練樣本進(jìn)行訓(xùn)練得到分類(lèi)器模型,并利 用所述分類(lèi)器模型對(duì)所述測(cè)試樣本進(jìn)行分類(lèi),確定所述兩不同平臺(tái)下的測(cè)試樣本對(duì)應(yīng)的用 戶(hù)是否為同一用戶(hù)。
[0069]本實(shí)施例中,如圖2所示所述收集模塊101可具體包括:
[0070] 隊(duì)列構(gòu)建子模塊201,用于構(gòu)建用戶(hù)隊(duì)列;
[0071] 用戶(hù)挑選子模塊202,用于挑選一個(gè)用戶(hù)作為種子用戶(hù),加入到所述用戶(hù)隊(duì)列中;
[0072] 信息抓取子模塊203,用于從所述用戶(hù)隊(duì)列中取出一個(gè)用戶(hù),通過(guò)API抓取用戶(hù)個(gè) 人資料信息W及發(fā)表的文本信息,所述用戶(hù)個(gè)人資料信息包括關(guān)注用戶(hù)W及被關(guān)注用戶(hù), 并將所述關(guān)注用戶(hù)和被關(guān)注用戶(hù)加入到所述用戶(hù)隊(duì)列中;
[0073] 循環(huán)子模塊204,用于重復(fù)上述抓取用戶(hù)個(gè)人資料信息W及發(fā)表的文本信息的過(guò) 程,直到抓取的用戶(hù)數(shù)目達(dá)到設(shè)定數(shù)值。
[0074] 如圖3所示,所述標(biāo)注模塊102可具體包括:
[0075] 第一類(lèi)標(biāo)注子模塊301,用于將所述第一平臺(tái)的用戶(hù)與所述第二平臺(tái)的用戶(hù)為同 一用戶(hù)的文本信息標(biāo)注為第一類(lèi);
[0076] 第二類(lèi)標(biāo)注子模塊302,用于將所述第一平臺(tái)的用戶(hù)與所述第二平臺(tái)的用戶(hù)不為 同一用戶(hù)的文本信息標(biāo)注為第二類(lèi)。
[0077] 應(yīng)用本實(shí)施例提供的一種不同平臺(tái)間識(shí)別同一用戶(hù)的系統(tǒng),收集兩不同平臺(tái)中用 戶(hù)發(fā)表的文本信息,將所述文本信息中的一部分進(jìn)行標(biāo)注,并將已標(biāo)注文本信息作為已標(biāo) 注樣本,將未標(biāo)注文本信息作為待測(cè)樣本,利用LDA模型對(duì)已標(biāo)注樣本與待測(cè)樣本分別抽 取主題特征,對(duì)抽取的主題特征分別進(jìn)行余弦相似度計(jì)算,并將得到的相似度值分別作為 訓(xùn)練樣本與測(cè)試樣本;利用預(yù)設(shè)算法對(duì)所述訓(xùn)練樣本進(jìn)行訓(xùn)練得到分類(lèi)器模型,利用分類(lèi) 器模型對(duì)所述測(cè)試樣本進(jìn)行分類(lèi),確定所述兩不同平臺(tái)下的測(cè)試樣本對(duì)應(yīng)的用戶(hù)是否為同 一用戶(hù),能夠有效地通過(guò)用戶(hù)發(fā)表的文本識(shí)別兩個(gè)不同平臺(tái)下的用戶(hù)是否同一用戶(hù),且在 訓(xùn)練樣本數(shù)量有限的情況下,達(dá)到較高的準(zhǔn)確率。運(yùn)將有利于企業(yè)制定精準(zhǔn)的廣告投放,有 助于研究同一用戶(hù)使用不同社交網(wǎng)絡(luò)的使用動(dòng)機(jī)分析及其相關(guān)分析W此來(lái)幫助社交網(wǎng)絡(luò) 運(yùn)營(yíng)更好的開(kāi)發(fā)社交網(wǎng)絡(luò)產(chǎn)品。
[0078] 需要說(shuō)明的是,本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重 點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。 對(duì)于系統(tǒng)類(lèi)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所W描述的比較簡(jiǎn)單,相關(guān)之處參 見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
[0079] 最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將 一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示運(yùn)些實(shí)體或操作 之間存在任何運(yùn)種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)"包括"、"包含"或者其任何其他變體 意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括 那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為運(yùn)種過(guò)程、方法、物品或 者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句"包括一個(gè)……"限定的要素,并 不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0080] W上對(duì)本發(fā)明所提供的方法與系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本 發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,W上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及 其核屯、思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng) 用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【主權(quán)項(xiàng)】
1. 一種不同平臺(tái)間識(shí)別同一用戶(hù)的方法,其特征在于,包括: 收集預(yù)設(shè)數(shù)量的第一平臺(tái)與第二平臺(tái)中用戶(hù)發(fā)表的文本信息; 將所述文本信息中的一部分進(jìn)行標(biāo)注; 將所述文本信息中的已標(biāo)注文本信息作為已標(biāo)注樣本,將所述文本信息中的未標(biāo)注文 本信息作為待測(cè)樣本; 利用LDA模型對(duì)已標(biāo)注樣本與待測(cè)樣本分別抽取主題特征,對(duì)所述抽取的主題特征分 別進(jìn)行余弦相似度計(jì)算,并將得到的相似度值分別作為訓(xùn)練樣本與測(cè)試樣本; 利用預(yù)設(shè)算法對(duì)所述訓(xùn)練樣本進(jìn)行訓(xùn)練得到分類(lèi)器模型,并利用所述分類(lèi)器模型對(duì)所 述測(cè)試樣本進(jìn)行分類(lèi),確定所述兩不同平臺(tái)下的測(cè)試樣本對(duì)應(yīng)的用戶(hù)是否為同一用戶(hù)。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,收集預(yù)設(shè)數(shù)量的第一平臺(tái)與第二平臺(tái)中 用戶(hù)發(fā)表的文本信息包括: 構(gòu)建用戶(hù)隊(duì)列; 挑選一個(gè)用戶(hù)作為種子用戶(hù),加入到所述用戶(hù)隊(duì)列中; 從所述用戶(hù)隊(duì)列中取出一個(gè)用戶(hù),通過(guò)API抓取用戶(hù)個(gè)人資料信息以及發(fā)表的文本信 息,所述用戶(hù)個(gè)人資料信息包括關(guān)注用戶(hù)以及被關(guān)注用戶(hù),并將所述關(guān)注用戶(hù)和被關(guān)注用 戶(hù)加入到所述用戶(hù)隊(duì)列中; 重復(fù)上述抓取用戶(hù)個(gè)人資料信息以及發(fā)表的文本信息的過(guò)程,直到抓取的用戶(hù)數(shù)目達(dá) 到設(shè)定數(shù)值。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述文本信息中的一部分進(jìn)行標(biāo)注包 括: 將所述第一平臺(tái)的用戶(hù)與所述第二平臺(tái)的用戶(hù)為同一用戶(hù)的文本信息標(biāo)注為第一類(lèi), 將所述第一平臺(tái)的用戶(hù)與所述第二平臺(tái)的用戶(hù)不為同一用戶(hù)的文本信息標(biāo)注為第二類(lèi)。4. 一種不同平臺(tái)間識(shí)別同一用戶(hù)的系統(tǒng),其特征在于,包括: 收集模塊,用于收集預(yù)設(shè)數(shù)量的第一平臺(tái)與第二平臺(tái)中用戶(hù)發(fā)表的文本信息; 標(biāo)注模塊,用于將所述文本信息中的一部分進(jìn)行標(biāo)注; 第一樣本獲取模塊,用于將所述文本信息中的已標(biāo)注文本信息作為已標(biāo)注樣本,將所 述文本信息中的未標(biāo)注文本信息作為待測(cè)樣本; 第二樣本獲取模塊,用于利用LDA模型對(duì)已標(biāo)注樣本與待測(cè)樣本分別抽取主題特征, 對(duì)所述抽取的主題特征分別進(jìn)行余弦相似度計(jì)算,并將得到的相似度值分別作為訓(xùn)練樣本 與測(cè)試樣本; 分類(lèi)模塊,用于利用預(yù)設(shè)算法對(duì)所述訓(xùn)練樣本進(jìn)行訓(xùn)練得到分類(lèi)器模型,并利用所述 分類(lèi)器模型對(duì)所述測(cè)試樣本進(jìn)行分類(lèi),確定所述兩不同平臺(tái)下的測(cè)試樣本對(duì)應(yīng)的用戶(hù)是否 為同一用戶(hù)。5. 根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述收集模塊包括: 隊(duì)列構(gòu)建子模塊,用于構(gòu)建用戶(hù)隊(duì)列; 用戶(hù)挑選子模塊,用于挑選一個(gè)用戶(hù)作為種子用戶(hù),加入到所述用戶(hù)隊(duì)列中; 信息抓取子模塊,用于從所述用戶(hù)隊(duì)列中取出一個(gè)用戶(hù),通過(guò)API抓取用戶(hù)個(gè)人資料 信息以及發(fā)表的文本信息,所述用戶(hù)個(gè)人資料信息包括關(guān)注用戶(hù)以及被關(guān)注用戶(hù),并將所 述關(guān)注用戶(hù)和被關(guān)注用戶(hù)加入到所述用戶(hù)隊(duì)列中; 循環(huán)子模塊,用于重復(fù)上述抓取用戶(hù)個(gè)人資料信息以及發(fā)表的文本信息的過(guò)程,直到 抓取的用戶(hù)數(shù)目達(dá)到設(shè)定數(shù)值。6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述標(biāo)注模塊包括: 第一類(lèi)標(biāo)注子模塊,用于將所述第一平臺(tái)的用戶(hù)與所述第二平臺(tái)的用戶(hù)為同一用戶(hù)的 文本信息標(biāo)注為第一類(lèi); 第二類(lèi)標(biāo)注子模塊,用于將所述第一平臺(tái)的用戶(hù)與所述第二平臺(tái)的用戶(hù)不為同一用戶(hù) 的文本信息標(biāo)注為第二類(lèi)。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種不同平臺(tái)間識(shí)別同一用戶(hù)的方法與系統(tǒng),收集兩不同平臺(tái)中用戶(hù)發(fā)表的文本信息,將所述文本信息中的一部分進(jìn)行標(biāo)注,并將已標(biāo)注文本信息作為已標(biāo)注樣本,將未標(biāo)注文本信息作為待測(cè)樣本,利用LDA模型對(duì)已標(biāo)注樣本與待測(cè)樣本分別抽取主題特征,對(duì)抽取的主題特征分別進(jìn)行余弦相似度計(jì)算,并將得到的相似度值分別作為訓(xùn)練樣本與測(cè)試樣本;利用預(yù)設(shè)算法對(duì)所述訓(xùn)練樣本進(jìn)行訓(xùn)練得到分類(lèi)器模型,利用分類(lèi)器模型對(duì)所述測(cè)試樣本進(jìn)行分類(lèi),確定所述兩不同平臺(tái)下的測(cè)試樣本對(duì)應(yīng)的用戶(hù)是否為同一用戶(hù),能夠有效地通過(guò)用戶(hù)發(fā)表的文本識(shí)別兩個(gè)不同平臺(tái)下的用戶(hù)是否同一用戶(hù),且在訓(xùn)練樣本數(shù)量有限的情況下,達(dá)到較高的準(zhǔn)確率。
【IPC分類(lèi)】G06F17/30, G06K9/62, G06Q50/00, G06F17/27
【公開(kāi)號(hào)】CN105183806
【申請(qǐng)?zhí)枴緾N201510530598
【發(fā)明人】李壽山, 王晶晶, 周?chē)?guó)棟
【申請(qǐng)人】蘇州大學(xué)張家港工業(yè)技術(shù)研究院
【公開(kāi)日】2015年12月23日
【申請(qǐng)日】2015年8月26日