一種基于微博文本和個人信息的用戶職業(yè)分類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于自然語言處理和社交網(wǎng)絡(luò)領(lǐng)域,具體地,涉及一種基于微博文本和個 人信息的用戶職業(yè)分類方法和系統(tǒng)。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的開放性、虛擬性與共享性使其漸漸成為人們表達(dá)觀點(diǎn)、態(tài)度、感覺、情緒 等各種情感的公共平臺,并且產(chǎn)生大量的社交網(wǎng)站,同時微型博客(Microblog)也隨之產(chǎn) 生,成為又一個跨時代產(chǎn)品。用戶通過微博發(fā)表的文本中蘊(yùn)含了大量的信息,且越來越多的 研究工作開始關(guān)注微博,其中重要的一類研究是微博用戶特征分析。
[0003] 所謂微博用戶特征分析,就是通過對微博用戶的信息和關(guān)系數(shù)據(jù)進(jìn)行決策樹分 析、相關(guān)性分析和關(guān)聯(lián)規(guī)則來挖掘用戶特征,并根據(jù)這些特征進(jìn)行用戶分類。其中微博用戶 分類是微博用戶特征分析的一項基本內(nèi)容,具體來講,是將微博用戶按職業(yè)劃分為不同類 另IJ,比如:學(xué)生、自由職業(yè)、計算機(jī)類和銷售類;由于社交網(wǎng)絡(luò)剛剛起步相關(guān)研究較少,因此 關(guān)于用戶職業(yè)類別的研究也比較缺乏。
[0004] 但是,已有的研究主要是針對Twitter等外文網(wǎng)站,且利用的信息是網(wǎng)站提供的 社交網(wǎng)絡(luò)信息;然而,相對于社交網(wǎng)絡(luò)信息,文本信息,例如,用戶名和所發(fā)微博等,更容易 獲取且更具普遍性。
[0005] 于現(xiàn)有技術(shù)中,申請?zhí)枮?01510236383. 7的發(fā)明專利公開了一種基于微博的用 戶職業(yè)分類方法和系統(tǒng),包括:獲取預(yù)設(shè)數(shù)量的第一用戶,第一用戶為已經(jīng)提供職業(yè)信息的 微博用戶;獲取每個第一用戶的職業(yè)信息和微博文本;依據(jù)第一用戶的職業(yè)信息對第一用 戶進(jìn)行分類,利用分類后得到的結(jié)果確定每個第一用戶的職業(yè)類型;將每個第一用戶的微 博文本分別進(jìn)行分詞處理,得到第一文本詞組;利用第一文本詞組構(gòu)成分別與每個第一用 戶的微博文本對應(yīng)的第一特征向量,并利用第一用戶的職業(yè)類型及第一特征向量構(gòu)建最大 熵分類器;利用最大熵分類器對第二特征向量進(jìn)行處理,得到與第二特征向量對應(yīng)的微博 文本所屬的第二用戶的職業(yè)類型。由此,能夠準(zhǔn)確獲知未知職業(yè)信息的微博用戶的職業(yè)類 型。在上述方案中,首先對于職業(yè)的分類不夠細(xì)化,此外,分類準(zhǔn)確率仍然有待提高。
[0006] 鑒于此,本發(fā)明提供一種基于微博文本和個人信息的用戶職業(yè)分類方法和系統(tǒng), 以解決上述問題。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明提供一種基于微博文本和個人信息的用戶職業(yè)分類方法,包括以下步驟。
[0008] S1、收集指定數(shù)量第一用戶的微博文本和個人信息,并根據(jù)第一用戶的個人信息 獲得其職業(yè)類型,并將所述第一用戶的個人信息作為第一訓(xùn)練樣本。
[0009] S2、根據(jù)第一用戶的職業(yè)類型字段,對第一用戶的微博文本和個人信息進(jìn)行標(biāo)注, 并將標(biāo)注好的微博文本進(jìn)行分詞處理后作為第二訓(xùn)練樣本。
[0010] S3、利用所述第一訓(xùn)練樣本及第二訓(xùn)練樣本分別構(gòu)建第一最大熵分類器及第二最 大熵分類器,并利用所述第一最大熵分類器及第二最大熵分類器對第二用戶進(jìn)行分類并融 合,并根據(jù)融合結(jié)果確定所述第二用戶職業(yè)類型。
[0011] 優(yōu)選的,在步驟S1中,收集指定數(shù)量的第一用戶的微博文本和個人信息包括以下 步驟:
[0012]S11、構(gòu)建一個空的用戶列表,在列表中添加指定數(shù)量的種子用戶;
[0013] S12、獲取所述種子用戶的微博文本和個人信息,并獲取對所述種子用戶的微博文 本的評論賬號,將所述評論賬號加入用戶列表中;
[0014] S13、從用戶列表取出一個賬號,獲取該賬號發(fā)表過的微博文本和個人信息,并回 轉(zhuǎn)至步驟S12,直至達(dá)到第一用戶的所需數(shù)量。
[0015] 優(yōu)選的,在步驟S12中,所述種子用戶的微博文本和個人信息通過微博網(wǎng)站提供 的API獲取。
[0016] 優(yōu)選的,用戶的個人信息包括微博網(wǎng)站提供的用戶名、性別、年齡、關(guān)注者、粉絲及 職業(yè)。
[0017] 優(yōu)選的,所述職業(yè)類型為根據(jù)微博網(wǎng)站的職業(yè)直接劃分,并對各職業(yè)類型進(jìn)行標(biāo) 號。
[0018] 優(yōu)選的,所述職業(yè)類型包括在校學(xué)生、計算機(jī)網(wǎng)絡(luò)技術(shù)類、經(jīng)營管理類、文體工作 類、銷售類、醫(yī)療衛(wèi)生類、農(nóng)林牧漁勞動者、酒店餐飲旅游服務(wù)類、美術(shù)設(shè)計創(chuàng)意類、電子電 器通信技術(shù)類、農(nóng)村外出務(wù)工人員、貿(mào)易物流采購運(yùn)輸類、建筑房地產(chǎn)裝修類、財務(wù)審計統(tǒng) 計類、電氣能源動力類、個體經(jīng)營商業(yè)零售類、軍人警察類、美容保健類、行政后勤類、教育 培訓(xùn)類、公務(wù)員類、市場公關(guān)咨詢媒介類、技工類、工廠生產(chǎn)類、宗教神職人員類、工程師類、 新聞出版文化工作類、金融類、人力資源類、保險類、法律類、翻譯類、其他類、娛樂業(yè)、自由 職業(yè)類及待業(yè)/無業(yè)/失業(yè)類。
[0019] 優(yōu)選的,步驟S3還包括:利用所述第一最大熵分類器及第二最大熵分類器,對第 二用戶的微博文本和個人信息進(jìn)行分類,得到兩個分類結(jié)果,將兩個分類結(jié)果融合得到所 述融合結(jié)果。
[0020] 本發(fā)明還提供一種基于微博文本和個人信息的用戶職業(yè)分類系統(tǒng),包括類型標(biāo)注 模塊、訓(xùn)練樣本獲取模塊及分類模塊,所述類型標(biāo)注模塊連接訓(xùn)練樣本獲取模塊,所述訓(xùn)練 樣本獲取模塊連接分類模塊。所述類型標(biāo)注模塊,用于收集指定數(shù)量第一用戶的微博文本 和個人信息,并根據(jù)第一用戶的個人信息獲得其職業(yè)類型,并將所述第一用戶的個人信息 作為第一訓(xùn)練樣本;所述訓(xùn)練樣本獲取模塊,用于根據(jù)第一用戶的職業(yè)類型字段,對第一用 戶的微博文本和個人信息進(jìn)行標(biāo)注,并將標(biāo)注好的微博文本和個人信息進(jìn)行分詞處理后 作為第二訓(xùn)練樣本;所述分類模塊,用于利用所述第一訓(xùn)練樣本及第二訓(xùn)練樣本分別構(gòu)建 第一最大熵分類器及第二最大熵分類器,并利用所述第一最大熵分類器及第二最大熵分類 器對第二用戶進(jìn)行分類并融合,并根據(jù)融合結(jié)果確定所述第二用戶職業(yè)類型。
[0021] 根據(jù)本發(fā)明提供的基于微博文本和個人信息的用戶職業(yè)分類方法及系統(tǒng),收集指 定數(shù)量第一用戶的微博文本和個人信息,并根據(jù)第一用戶的個人信息獲得其職業(yè)類型,并 將所述第一用戶的個人信息作為第一訓(xùn)練樣本。根據(jù)第一用戶的職業(yè)類型字段,對第一用 戶的微博文本和個人信息進(jìn)行標(biāo)注,并將標(biāo)注好的微博文本和個人信息進(jìn)行分詞處理后作 為第二訓(xùn)練樣本。利用所述第一訓(xùn)練樣本及第二訓(xùn)練樣本分別構(gòu)建第一最大熵分類器及第 二最大熵分類器,并利用所述第一最大熵分類器及第二最大熵分類器對第二用戶進(jìn)行分類 并融合,并根據(jù)融合結(jié)果確定所述第二用戶職業(yè)類型。如此,有效提高微博用戶職業(yè)分類的 準(zhǔn)確率。
【附圖說明】
[0022] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0023]圖1是本發(fā)明較佳實施例提供的基于微博文本和個人信息的用戶職業(yè)分類方法 流程圖;
[0024]圖2是本發(fā)明較佳實施例提供的收集指定數(shù)量的第一用戶的微博文本和個人信 息流程圖;
[0025]圖3是本發(fā)明較佳實施例提供的基于微博文本和個人信息的用戶職業(yè)分類系統(tǒng) 示意圖。
【具體實施方式】
[0026] 下文中將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的 情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0027]圖1是本發(fā)明較佳實施例提供的基于微博文本和個人信息的用戶職業(yè)分類方法 流程圖。如圖1所示,本發(fā)明較佳實施例提供的基于微博文本和個人信息的用戶職業(yè)分類 方法包括步驟S1~S3。
[0028] 步驟S1 :收集指定數(shù)量第一用戶的微博文本和個人信息,并根據(jù)第一用戶的個人 信息獲得其職業(yè)類型,并將所述第一用戶的個人信息作為第一訓(xùn)練樣本。
[0029] 具體而言,本實施例中所述微博均為騰訊微博,所述第一用戶是指可通過人工操 作獲得職業(yè)信息的部分用戶。圖2是本發(fā)明較佳實施例提供的收集指定數(shù)量的第一用戶的 微博文本和個人信息流程圖。如圖2所示,收集指定數(shù)量的第一用戶的微博文本和個人信 息包括步驟S11~S13。
[0030] 步驟S11 :構(gòu)建一個空的用戶列表,在列表中添加指定數(shù)量的種子用戶。
[0031] 步驟S12:獲取所述種子用戶的微博文本和個人信息,并獲取對所述種子用戶的 微博文本的評論賬號,將所述評論賬號加入用戶列表中;
[0032] 具體地,用戶的個人信息包括微博網(wǎng)站提供的用戶名、性別、年齡、關(guān)注者、粉絲及 職業(yè)。本步驟中,所述種子用戶的微博文本和個人信息通過微博網(wǎng)站提供的API獲取。
[0033] 步驟S13 :從用戶列表取出一個賬號,獲取該賬號發(fā)表過的微博文本和個人信息, 并回轉(zhuǎn)至步驟S12,直至達(dá)到第一用戶的所需數(shù)量。
[0034] 本實施例中,所述職業(yè)類型根據(jù)微博網(wǎng)站的職業(yè)直接劃分,并對各職業(yè)類型進(jìn)行 標(biāo)號。所述職業(yè)類型包括在校學(xué)生、計算機(jī)網(wǎng)絡(luò)技術(shù)類、經(jīng)營管理類、文體工作類、銷售類、 醫(yī)療衛(wèi)生類、農(nóng)林牧漁勞動者、酒店餐飲旅游服務(wù)類、美術(shù)設(shè)計創(chuàng)意類、電子電器通信技術(shù) 類、農(nóng)村外出務(wù)工人員、貿(mào)易物流采購運(yùn)輸類、建筑房地產(chǎn)裝修類、財務(wù)審計統(tǒng)計類、電氣 能源動力類、個體經(jīng)營商業(yè)零售類、軍人警察類、美容保健類、行政后勤類、教育培訓(xùn)類、公 務(wù)員類、市場公關(guān)咨詢媒介類、技工類、工廠生產(chǎn)類、宗教神職人員類、工程師類、新聞出版 文化工作類、金融類、人力資源類、保險類、法律類、翻譯類、其他類、娛樂業(yè)、