一種微博數(shù)據(jù)處理方法、裝置及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)?jiān)O(shè)及自然語言處理及社交網(wǎng)絡(luò)領(lǐng)域,特別設(shè)及一種微博數(shù)據(jù)處理方法、裝 置及系統(tǒng)。
【背景技術(shù)】
[0002] 近幾年來,隨著社交網(wǎng)絡(luò)的迅猛發(fā)展,微型博客(Micro-blog)備受用戶的青睞, 如新浪微博、騰訊微博是國內(nèi)知名的微博網(wǎng)站,截止到2012年12月,新浪微博注冊(cè)用戶突 破5. 03億,騰訊微博則達(dá)到了 5. 4億,而微博用戶每日發(fā)博量超過驚人的2億條。由于微 博既具有媒體傳播特性,又具有社交網(wǎng)絡(luò)特性,因此吸引了眾多研究人員對(duì)微博數(shù)據(jù)進(jìn)行 分析研究。
[0003] 其中,對(duì)微博數(shù)據(jù)進(jìn)行分析研究中,識(shí)別不同微博網(wǎng)站下的同一用戶是比較重要 的,因?yàn)槟軌蜃R(shí)別出不同微博網(wǎng)站下的同一用戶將有利于企業(yè)制定精準(zhǔn)的廣告投放,有助 于研究同一用戶使用不同社交網(wǎng)絡(luò)的使用動(dòng)機(jī)分析及其相關(guān)分析W此來幫助社交網(wǎng)絡(luò)運(yùn) 營更好的開發(fā)社交網(wǎng)絡(luò)產(chǎn)品。
[0004] 但是,目前尚不存在一種行之有效的方法來識(shí)別出不同微博網(wǎng)站下的同一用戶。
【發(fā)明內(nèi)容】
[0005] 為解決上述技術(shù)問題,本申請(qǐng)實(shí)施例提供一種微博數(shù)據(jù)處理方法、裝置及系統(tǒng),W 達(dá)到對(duì)不同微博網(wǎng)站下的同一用戶的識(shí)別的目的,技術(shù)方案如下:
[0006] 一種微博數(shù)據(jù)處理方法,包括:
[0007] 對(duì)待測(cè)樣本進(jìn)行特征抽取,得到待測(cè)特征抽取結(jié)果值,其中,所述待測(cè)樣本為第一 微博賬號(hào)信息和第二微博賬號(hào)信息組成的一對(duì)信息,所述第一微博賬號(hào)信息對(duì)應(yīng)的賬號(hào)所 屬微博網(wǎng)站和所述第二微博賬號(hào)信息對(duì)應(yīng)的賬號(hào)所屬微博網(wǎng)站不同;
[000引確定所述待測(cè)特征抽取結(jié)果值所包含的各個(gè)數(shù)值為待分類特征值;
[0009] 使用最大滴分類器,計(jì)算每個(gè)待分類特征值在所述待測(cè)樣本預(yù)設(shè)為正類和負(fù)類 時(shí),對(duì)應(yīng)的待分類正預(yù)測(cè)子條件概率和待分類負(fù)預(yù)測(cè)子條件概率;
[0010] 將各個(gè)待分類特征值對(duì)應(yīng)的待分類正預(yù)測(cè)子條件概率進(jìn)行乘運(yùn)算,得到待分類正 預(yù)測(cè)條件概率,將各個(gè)待分類特征值對(duì)應(yīng)的待分類負(fù)預(yù)測(cè)子條件概率進(jìn)行乘運(yùn)算,得到待 分類負(fù)預(yù)測(cè)條件概率;
[0011] 比較所述待分類正預(yù)測(cè)條件概率和所述待分類負(fù)預(yù)測(cè)條件概率的大小;
[0012] 在比較結(jié)果為所述待分類正預(yù)測(cè)條件概率最大的情況下,確定所述待測(cè)樣本的類 別為正;
[0013] 在比較結(jié)果為所述待分類負(fù)預(yù)測(cè)條件概率最大的情況下,確定所述待測(cè)樣本的類 別為負(fù);
[0014] 在所述待測(cè)樣本的類別為正時(shí),確定所述待測(cè)樣本對(duì)應(yīng)的兩個(gè)賬號(hào)屬于同一用 戶;
[0015] 在所述待測(cè)樣本的類別為負(fù)時(shí),確定所述待測(cè)樣本對(duì)應(yīng)的兩個(gè)賬號(hào)不屬于同一用 戶。
[0016] 優(yōu)選的,所述使用最大滴分類器,計(jì)算每個(gè)待分類特征值在所述待測(cè)樣本預(yù)設(shè)為 正類和負(fù)類時(shí),對(duì)應(yīng)的待分類正預(yù)測(cè)子條件概率和待分類負(fù)預(yù)測(cè)子條件概率的過程,包 括:
[0017] 使用最大滴目標(biāo)函數(shù)公式
【主權(quán)項(xiàng)】
1. 一種微博數(shù)據(jù)處理方法,其特征在于,包括: 對(duì)待測(cè)樣本進(jìn)行特征抽取,得到待測(cè)特征抽取結(jié)果值,其中,所述待測(cè)樣本為第一微博 賬號(hào)信息和第二微博賬號(hào)信息組成的一對(duì)信息,所述第一微博賬號(hào)信息對(duì)應(yīng)的賬號(hào)所屬微 博網(wǎng)站和所述第二微博賬號(hào)信息對(duì)應(yīng)的賬號(hào)所屬微博網(wǎng)站不同; 確定所述待測(cè)特征抽取結(jié)果值所包含的各個(gè)數(shù)值為待分類特征值; 使用最大熵分類器,計(jì)算每個(gè)待分類特征值在所述待測(cè)樣本預(yù)設(shè)為正類和負(fù)類時(shí),對(duì) 應(yīng)的待分類正預(yù)測(cè)子條件概率和待分類負(fù)預(yù)測(cè)子條件概率; 將各個(gè)待分類特征值對(duì)應(yīng)的待分類正預(yù)測(cè)子條件概率進(jìn)行乘運(yùn)算,得到待分類正預(yù)測(cè) 條件概率,將各個(gè)待分類特征值對(duì)應(yīng)的待分類負(fù)預(yù)測(cè)子條件概率進(jìn)行乘運(yùn)算,得到待分類 負(fù)預(yù)測(cè)條件概率; 比較所述待分類正預(yù)測(cè)條件概率和所述待分類負(fù)預(yù)測(cè)條件概率的大小; 在比較結(jié)果為所述待分類正預(yù)測(cè)條件概率最大的情況下,確定所述待測(cè)樣本的類別為 正; 在比較結(jié)果為所述待分類負(fù)預(yù)測(cè)條件概率最大的情況下,確定所述待測(cè)樣本的類別為 負(fù); 在所述待測(cè)樣本的類別為正時(shí),確定所述待測(cè)樣本對(duì)應(yīng)的兩個(gè)賬號(hào)屬于同一用戶; 在所述待測(cè)樣本的類別為負(fù)時(shí),確定所述待測(cè)樣本對(duì)應(yīng)的兩個(gè)賬號(hào)不屬于同一用戶。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用最大熵分類器,計(jì)算每個(gè)待分類 特征值在所述待測(cè)樣本預(yù)設(shè)為正類和負(fù)類時(shí),對(duì)應(yīng)的待分類正預(yù)測(cè)子條件概率和待分類負(fù) 預(yù)測(cè)子條件概率的過程,包括: 使用最大熵目標(biāo)函數(shù)公式
'分別計(jì)算每個(gè)待分類特征值 在y分別為+1和-1時(shí),對(duì)應(yīng)的待分類正預(yù)測(cè)子條件概率和待分類負(fù)預(yù)測(cè)子條件概率,其 中,該y為待測(cè)樣本,該X為待分類特征值,Pλ (y IX)為待分類預(yù)測(cè)子條件概率,exp ()為自 然數(shù)e為底的指數(shù)函數(shù),fi ()為二值特征函數(shù),所述
,Ai為特征函數(shù)值 fi(x,y)在y為+1時(shí)的正最優(yōu)權(quán)值或在y為-1時(shí)的負(fù)最優(yōu)權(quán)值且相同X對(duì)應(yīng)的不同特征函 數(shù)值的權(quán)值相同,
9對(duì)每個(gè)待分類特征值對(duì)應(yīng)的特征函數(shù)值進(jìn)行求和的函數(shù),
%對(duì)7 為不同值時(shí)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行求和的函數(shù); 其中,所述y為+1表示所述待測(cè)樣本預(yù)設(shè)為正類,所述y為-1表示所述待測(cè)樣本預(yù)設(shè) 為負(fù)類,每個(gè)待分類特征值對(duì)應(yīng)的各個(gè)特征函數(shù)值分別對(duì)應(yīng)所述待測(cè)樣本的預(yù)設(shè)類型正和 負(fù),在計(jì)算待分類正預(yù)測(cè)子條件概率時(shí),若待分類特征值包含在預(yù)設(shè)特征值中,則λ為該 待分類特征值對(duì)應(yīng)的正最優(yōu)權(quán)值,否則λ為〇,在計(jì)算待分類負(fù)預(yù)測(cè)子條件概率時(shí),若待分 類特征值包含在所述預(yù)設(shè)特征值中,則λ為該待分類特征值對(duì)應(yīng)的負(fù)最優(yōu)權(quán)值,否則λ為 0〇
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述第一微博賬號(hào)信息和所述第二微 博賬號(hào)信息各自至少包括: 用戶身份標(biāo)識(shí)號(hào)碼ID、昵稱、性別、年齡、所在地和粉絲用戶與關(guān)注用戶的比例。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)待測(cè)樣本進(jìn)行特征抽取,得到待測(cè) 特征抽取結(jié)果值的過程,包括: 判斷所述第一微博賬號(hào)信息中的用戶ID和所述第二微博賬號(hào)信息中的用戶ID是否相 同,若相同,則用數(shù)值1表示待測(cè)特征抽取結(jié)果第一子值,若不相同,則用數(shù)值〇表示待測(cè)特 征抽取結(jié)果第一子值; 判斷所述第一微博賬號(hào)信息中的昵稱和所述第二微博賬號(hào)信息中的昵稱是否相同,若 相同,則用數(shù)值1表示待測(cè)特征抽取結(jié)果第二子值,若不相同,則用數(shù)值〇表示待測(cè)特征抽 取結(jié)果第二子值; 判斷所述第一微博賬號(hào)信息中的性別和所述第二微博賬號(hào)信息中的性別是否相同,若 相同,則用數(shù)值1表示待測(cè)特征抽取結(jié)果第三子值,若不相同,則用數(shù)值〇表示待測(cè)特征抽 取結(jié)果第三子值; 比較所述第一微博賬號(hào)信息中的年齡和所述第二微博賬號(hào)信息中的年齡,若所述第一 微博賬號(hào)信息中的年齡和所述第二微博賬號(hào)信息中的年齡均未填寫,用數(shù)值〇表示待測(cè)特 征抽取結(jié)果第四子值,若所述第一微博賬號(hào)信息和所述第二微博賬號(hào)信息中僅有一個(gè)微博 賬號(hào)信息中的年齡已填寫,則用數(shù)值1表示待測(cè)特征抽取結(jié)果第四子值,若所述第一微博 賬號(hào)信息中的年齡和所述第二微博賬號(hào)信息中的年齡相同,則用數(shù)值2表示待測(cè)特征抽取 結(jié)果第四子值,若所述第一微博賬號(hào)信息中的年齡和所述第二微博賬號(hào)信息中的年齡不相 同,則用數(shù)值3表示待測(cè)特征抽取結(jié)果第四子值; 判斷所述第一微博賬號(hào)信息中的所在地和所述第二微博賬號(hào)信息中的所在地是否相 同,若相同,則用數(shù)值1表示待測(cè)特征抽取結(jié)果第五子值,若不相同,則用數(shù)值〇表示待測(cè)特 征抽取結(jié)果第五子值; 判斷所述第一微博賬號(hào)信息中的粉絲用戶與關(guān)注用戶的比例和所述第二微博賬號(hào)信 息中的粉絲用戶與關(guān)注用戶的比例是否屬于同一比例范圍,若是,則用數(shù)值1表示待測(cè)特 征抽取結(jié)果第六子值,若否,則用數(shù)值O表示待測(cè)特征抽取結(jié)果第六子值; 將所述待測(cè)特征抽取結(jié)果第一子值、所述待測(cè)特征抽取結(jié)果第二子值、所述待測(cè)特征 抽取結(jié)果第三子值、所述待測(cè)特征抽取結(jié)果第四子值、所述待測(cè)特征抽取結(jié)果第五子值和 所述待測(cè)特征抽取結(jié)果第六子值組成待測(cè)特征抽取結(jié)果值。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述最大熵分類器的訓(xùn)練過程包括: 獲取多個(gè)不同的正類樣本和多個(gè)不同的負(fù)類樣本,所述正類樣本包括兩個(gè)正賬號(hào)信 息,兩個(gè)正賬號(hào)信息分別為同一用戶在兩個(gè)不同微博網(wǎng)站中的賬號(hào)信息,所述負(fù)類樣本包 括兩個(gè)負(fù)賬號(hào)信信息,兩個(gè)負(fù)賬號(hào)信息屬于不同用戶且其各自對(duì)應(yīng)的賬號(hào)屬于不同的微博 網(wǎng)站,所述正類樣本對(duì)應(yīng)的兩個(gè)微博網(wǎng)站與所述負(fù)類樣本對(duì)應(yīng)的兩個(gè)微博網(wǎng)站相同,所述 待測(cè)樣本對(duì)應(yīng)的兩個(gè)微博網(wǎng)站與所述正類樣本對(duì)應(yīng)的兩個(gè)微博網(wǎng)站相同; 分別對(duì)各個(gè)所述正類樣本和各個(gè)所述負(fù)類樣本進(jìn)行特征抽取,得到對(duì)應(yīng)的正訓(xùn)練