專利名稱:文本情感傾向性分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及模式識(shí)別領(lǐng)域,具體涉及一種文本分析方法。
背景技術(shù):
論壇、博客等網(wǎng)絡(luò)交流平臺(tái)的快速發(fā)展使得網(wǎng)上存在大量帶有情感傾向性的文 本。如何從大規(guī)模富含情感信息的文本中快速進(jìn)行傾向性分析,成為越來越引起廣泛關(guān)注 的研究問題。文本情感傾向性分析研究就是在這樣的背景下開展起來的,它就是對(duì)整篇文 本所體現(xiàn)出的情感進(jìn)行判斷,也就是對(duì)文本中的主觀信息進(jìn)行判斷。隨著信息量的急速增加、新領(lǐng)域的不斷涌現(xiàn),人們需要在越來越多的新領(lǐng)域里進(jìn) 行傾向性分析,而在新領(lǐng)域里重新進(jìn)行人工標(biāo)注是個(gè)費(fèi)時(shí)費(fèi)力的事情。因此要盡量基于已 經(jīng)標(biāo)注好的數(shù)據(jù)對(duì)新領(lǐng)域進(jìn)行分析,這使得跨領(lǐng)域的傾向性分析具有重大意義。文本傾向性分析具有很強(qiáng)的領(lǐng)域依賴性。訓(xùn)練域里有強(qiáng)烈傾向性的詞在測(cè)試域里 不再有強(qiáng)烈傾向性,反之亦然。例如,“便攜的”在電子評(píng)論里就是一個(gè)具有正面傾向性的 詞,而在酒店評(píng)論里就不具有強(qiáng)烈的傾向性。當(dāng)用來訓(xùn)練分類器的已判斷傾向性的集合和 待判斷傾向性的集合不是同一個(gè)領(lǐng)域的時(shí)候,例如,已知酒店評(píng)論數(shù)據(jù)集的傾向性需要判 斷電子評(píng)論數(shù)據(jù)集的傾向性的情況,傳統(tǒng)的分類方法的效果就變得很差。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種精度高的文本情感傾向性分析方法。根據(jù)本發(fā)明的一個(gè)方面,提供了一種文本情感傾向性分析方法,包括下列步驟1)根據(jù)訓(xùn)練文本的標(biāo)簽確定測(cè)試文本的初始情感分;2)基于圖排序算法利用所述測(cè)試文本的初始情感分迭代計(jì)算所述測(cè)試文本的情 感分并進(jìn)行歸一化;3)當(dāng)所述迭代結(jié)束時(shí),根據(jù)所述計(jì)算的結(jié)果判別所述測(cè)試文本的情感傾向性。在上述方法中,所述步驟1)還包括根據(jù)訓(xùn)練文本的標(biāo)簽確定訓(xùn)練文本的初始情 感分; 所述步驟2)進(jìn)一步包括21)基于所述圖排序算法,利用所述訓(xùn)練文本的初始情感分計(jì)算所述測(cè)試文本的 情感分的第一分量;22)基于所述圖排序算法,利用所述測(cè)試文本的初始情感分計(jì)算所述測(cè)試文本的 情感分的第二分量;23)利用所述兩個(gè)分量迭代計(jì)算所述測(cè)試文本的情感分并歸一化。在上述方法中,所述步驟21)進(jìn)一步包括以所述測(cè)試文本和訓(xùn)練文本為結(jié)點(diǎn)、所述訓(xùn)練文本和所述測(cè)試文本間的內(nèi)容相似 度為邊建立圖模型;根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化;
3
將所述歸一化的聯(lián)接矩陣的每一行降序排列;根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K1個(gè)元素對(duì)應(yīng)的訓(xùn)練文本的情感 分計(jì)算所述測(cè)試文本的情感分的第一分量,其中K1的取值范圍為[1,訓(xùn)練文本個(gè)數(shù)]。在上述方法中,所述步驟22)進(jìn)一步包括以所述測(cè)試文本為結(jié)點(diǎn)、所有測(cè)試文本間的內(nèi)容相似度為邊建立圖模型;根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化;將所述歸一化的聯(lián)接矩陣的每一行降序排列;根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K2個(gè)元素對(duì)應(yīng)的測(cè)試文本的情感 分計(jì)算所述測(cè)試文本的情感分的第二分量,其中K2的取值范圍為[1,測(cè)試文本個(gè)數(shù)]。在上述方法中,所述步驟1)包括根據(jù)所述訓(xùn)練文本的標(biāo)簽對(duì)所述測(cè)試文本進(jìn)行 分類,根據(jù)所述分類確定所述測(cè)試文本的初始情感分。本發(fā)明提供的文本情感傾向性方法能夠大幅提高對(duì)新領(lǐng)域的文本進(jìn)行分類的精度。
圖1是根據(jù)本發(fā)明的優(yōu)選實(shí)施例的文本情感傾向性分析方法的流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)根據(jù)本發(fā) 明一個(gè)實(shí)施例的文本情感傾向性分析方法進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體 實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明利用一個(gè)領(lǐng)域的標(biāo)注文本對(duì)另一領(lǐng)域未標(biāo)注文本按其傾向性進(jìn)行分類。具 體地,假定測(cè)試集為Du= Wu1,...,dun},其中Clui是第i個(gè)測(cè)試文本的特征向量,用其表示第 i個(gè)測(cè)試文本,測(cè)試文本Clui e Du (i = 1,. . .,η)且沒有被標(biāo)注。訓(xùn)練集為護(hù)=IcIl1 dLffl}, 其中是第j個(gè)訓(xùn)練文本的特征向量,用其表示第j個(gè)訓(xùn)練文本。訓(xùn)練文本e DL(j = l,...,m)且具有一個(gè)來自類別集C= {支持,反對(duì)}中的標(biāo)簽。測(cè)試集Du和訓(xùn)練集護(hù)可 以來自相關(guān)但不相同的領(lǐng)域。利用訓(xùn)練集護(hù)對(duì)測(cè)試集中的每一個(gè)測(cè)試文本Clui e Du(i = 1, . . . , η)分類。根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,將文本的傾向性與圖排序算法結(jié)合起來,根據(jù)訓(xùn) 練文本的標(biāo)簽為測(cè)試集和訓(xùn)練集中的每一個(gè)文本分配一個(gè)初始情感分,來表示該文本情感 傾向性的程度;然后基于迭代方法利用初始情感分計(jì)算測(cè)試文本的情感分并歸一化;當(dāng)?shù)?代算法收斂時(shí)得到測(cè)試文本的最終情感分,并據(jù)此判別測(cè)試文本的傾向性。首先為訓(xùn)練集與測(cè)試集中每一個(gè)文本的情感分賦一個(gè)初始值,得到初始情感分向 量 S° = {sV. · ·,S0n, s°n+1,. . .,S°n+m},其中 Stli (i = 1,...,η)表示測(cè)試文本的初始情感分, S0jU = 1,...,m)表示訓(xùn)練文本的初始情感分。對(duì)于訓(xùn)練文本,它們已經(jīng)有正確標(biāo)簽,則如 果文本具有正面標(biāo)簽,則文本對(duì)應(yīng)的情感分為1,如果文本具有負(fù)面標(biāo)簽,它對(duì)應(yīng)的情感分 為-1。對(duì)于測(cè)試文本,基于文本分類算法中的任意一種分類器,諸如原型“Prototype”傾向 性分析方法、樸素貝葉斯“Nai've Bayes”方法、支持向量機(jī)“SVM”分類器、k-最近鄰方法、 決策樹方法等,用訓(xùn)練集訓(xùn)練,對(duì)測(cè)試文本分類使其具有一個(gè)偽標(biāo)簽,此時(shí)的分類準(zhǔn)確度通常很低,根據(jù)此偽標(biāo)簽得到測(cè)試文本的情感分的初始值。然后,根據(jù)初始情感分向量S°迭代計(jì)算測(cè)試文本的最終情感分。下面詳細(xì)介紹根 據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,計(jì)算測(cè)試文本的最終情感分的過程首先根據(jù)訓(xùn)練集的情感分計(jì)算測(cè)試集的情感分的一個(gè)分量。建立一個(gè)圖模型,結(jié)點(diǎn)表示D1和Du中的文本,邊表示文本間的內(nèi)容相似度。如果 兩個(gè)文本間內(nèi)容相似度為0,則圖中兩結(jié)點(diǎn)間無邊,如果不為0,則圖中兩結(jié)點(diǎn)間有邊且邊 的權(quán)重為該內(nèi)容相似度。本領(lǐng)域普通技術(shù)人員可以理解,文本的內(nèi)容相似度有多種計(jì)算方 法,例如利用余弦相似度或者基于諸如明氏“Minkowski”距離、馬氏“Mahalanois”距離、蘭 氏“Lance”距離的某種距離函數(shù)計(jì)算相似度。在此實(shí)施例中利用余弦相似度來計(jì)算。根據(jù) 該圖模型構(gòu)建聯(lián)接矩陣U,其元素表示測(cè)試文本和訓(xùn)練文本間的內(nèi)容相似度,U= [UijJnxm 定義如下Uv = flUTTTn^ i = l-,n,J(1)
IKIHKI其中,用文本的特征向量來表示文本,Clui是第i個(gè)測(cè)試文本的特征向量,Clui= (W1, f W2ji, ... ,Wpji), Wtji(t = 1,...,p)表示該向量中第t個(gè)特征的權(quán)重,根據(jù)該特征在文本 中的詞頻tft來計(jì)算。屯與Clui類似。將聯(lián)接矩陣U歸一化為矩陣,使得(}中每一行的和為1 :
/mm
.MMU)
0,否則將[>的每一行降序排序得到i ,也就是歡(i = 1,· · ·,η ;j,t = 1,. · · m ;
t ^ j),以從訓(xùn)練集中找出與該行對(duì)應(yīng)的測(cè)試文本最相似的文本集,該文本集包括K1個(gè)訓(xùn) 練文本,K1的取值范圍為[1,訓(xùn)練文本個(gè)數(shù)]。對(duì)于Clui e Du(i = 1,...,n) Aj (j = 1,...,
K)可以示出其在訓(xùn)練域中的K1個(gè)鄰居。簡(jiǎn)化起見,使用矩陣# =來表示測(cè)試文本在
訓(xùn)練域中的鄰居,其中Nu對(duì)應(yīng)于Clui的第j個(gè)鄰居,即JV" =巧。本領(lǐng)域普通技術(shù)人員可以理解,可以把所有訓(xùn)練文本都作為測(cè)試文本在訓(xùn)練域中 的鄰居,即直接根據(jù)矩陣來確定測(cè)試文本在訓(xùn)練域中的鄰居,而不必對(duì)進(jìn)行降序排序。用Clui的訓(xùn)練域的鄰居的情感分來計(jì)算其情感分的一個(gè)分量,公式如下所示s^ = Σ (f^y x ^k / 二 1,..., (3)其中,Ni.表示矩陣N的第i行,S")表示第i個(gè)測(cè)試文本的第k-Ι次迭代的情感 分,表示第i個(gè)測(cè)試文本的第k次迭代的情感分的一個(gè)分量。根據(jù)測(cè)試文本的初始情感分計(jì)算測(cè)試文本情感分的另一個(gè)分量,類似于根據(jù)訓(xùn)練 文本初始情感分計(jì)算。建立另一個(gè)圖模型,結(jié)點(diǎn)表示測(cè)試文本,邊的權(quán)重由它所連接的兩個(gè) 測(cè)試文本的余弦相似度來計(jì)算。根據(jù)該圖模型構(gòu)建聯(lián)接矩陣V,其元素表示測(cè)試文本之間的 內(nèi)容相似度。V= [VijLxn定義如下
5
同樣,將V歸一化為P ,然后將^的每一行降序排序得到(?,因此得到一個(gè)Du在測(cè)試 域中的鄰居矩陣# = [%1‘2,其中K2的的取值范圍為[1,測(cè)試文本個(gè)數(shù)]。用Clui的測(cè)試 域的鄰居的情感分來計(jì)算其情感分的一個(gè)分量,與公式3類似,該計(jì)算公式如下所示
(5)其中,Mi.表示矩陣M的第i行,表示第i個(gè)測(cè)試文本的第k-Ι次迭代的情感 分,表示第i個(gè)測(cè)試文本的第k次迭代的情感分的另一個(gè)分量。與測(cè)試文本在訓(xùn)練域中的鄰居類似,測(cè)試文本在測(cè)試域中的鄰居也可以取除其自 身外的所有測(cè)試文本,如此則不必對(duì)P進(jìn)行降序排序。根據(jù)上述兩個(gè)分量迭代計(jì)算測(cè)試文本的情感分
(6)其中α+β = 1,α和β是分別表示訓(xùn)練域和測(cè)試域?qū)y(cè)試文本最終情感分的貢 獻(xiàn)大小的參數(shù),其取值范圍均為W,l]。為保證算法收斂,算法每迭代一次都需要將測(cè)試集的S(k)歸一化,使得正的情感分 之和為1,負(fù)的情感分之和為-1。
(7)其中,Duneg和Dup。s分別表示情感分為負(fù)和為正的測(cè)試文本的集合。對(duì)于每一個(gè)測(cè)試文本Clui e Du(i = 1,. . . η),如果連續(xù)兩次迭代所計(jì)算得到的情感 分Si的變化量低于一個(gè)給定的閥值,則迭代結(jié)束,根據(jù)此時(shí)的情感分判別每個(gè)測(cè)試文本的 情感傾向性。根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,此閥值為0.00001。如果情感分大于0,則判 別測(cè)試文本為支持;如果情感分小于0,則判別測(cè)試文本為反對(duì)。上述優(yōu)選實(shí)施例是根據(jù)訓(xùn)練文本和測(cè)試文本綜合計(jì)算測(cè)試文本的情感分,但是本 領(lǐng)域普通技術(shù)人員可以理解,也可以只利用訓(xùn)練文本或測(cè)試文本來計(jì)算測(cè)試文本的情感 分,即根據(jù)公式(3)或(5)來計(jì)算測(cè)試文本的情感分,并依此來判別測(cè)試文本的情感傾向性。本發(fā)明針對(duì)如表1所示的三個(gè)不同領(lǐng)域(電子評(píng)論、財(cái)經(jīng)評(píng)論、酒店評(píng)論)的文本 集進(jìn)行實(shí)驗(yàn)?zāi)M。評(píng)價(jià)指標(biāo)采用精度,對(duì)比方法采用Prototype傾向性分析方法。表1文本集構(gòu)成 其中“詞典長(zhǎng)度”表示相對(duì)應(yīng)數(shù)據(jù)集中不同詞的數(shù)量。實(shí)驗(yàn)?zāi)M結(jié)果如表2所示,其中電子_>財(cái)經(jīng)表示在電子領(lǐng)域上進(jìn)行訓(xùn)練,在財(cái)經(jīng) 領(lǐng)域上進(jìn)行測(cè)試,0. 6652表示Prototype方法測(cè)試結(jié)果的精度,也就是采樣Prototype方法 的正確率,其它類推。實(shí)驗(yàn)結(jié)果表明本發(fā)明的文本情感傾向性分析方法具有較高移植能力。 在對(duì)新領(lǐng)域測(cè)試集進(jìn)行測(cè)試時(shí),本發(fā)明的平均精度達(dá)到了 78. 8%,大約比Prototype方法 高11個(gè)百分點(diǎn)。表2實(shí)驗(yàn)結(jié)果 應(yīng)該注意到并理解,在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神和范圍的情 況下,能夠?qū)ι鲜鲈敿?xì)描述的本發(fā)明做出各種修改和改進(jìn)。因此,要求保護(hù)的技術(shù)方案的范 圍不受所給出的任何特定示范教導(dǎo)的限制。
權(quán)利要求
一種文本情感傾向性分析方法,包括下列步驟1)根據(jù)訓(xùn)練文本的標(biāo)簽確定測(cè)試文本的初始情感分;2)基于圖排序算法利用所述測(cè)試文本的初始情感分迭代計(jì)算所述測(cè)試文本的情感分并進(jìn)行歸一化;3)當(dāng)所述迭代結(jié)束時(shí),根據(jù)所述計(jì)算的結(jié)果判別所述測(cè)試文本的情感傾向性。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2)進(jìn)一步包括 以所述測(cè)試文本為結(jié)點(diǎn)、所有測(cè)試文本間的內(nèi)容相似度為邊建立圖模型; 根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化;將所述歸一化的聯(lián)接矩陣的每一行降序排列;根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K2個(gè)元素對(duì)應(yīng)的測(cè)試文本的情感分計(jì) 算所述測(cè)試文本的情感分,其中K2的取值范圍為[1,測(cè)試文本個(gè)數(shù)]。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1)還包括根據(jù)訓(xùn)練文本的標(biāo)簽確定訓(xùn)練文本的初始情感分; 所述步驟2)進(jìn)一步包括21)基于所述圖排序算法,利用所述訓(xùn)練文本的初始情感分計(jì)算所述測(cè)試文本的情感 分的第一分量;22)基于所述圖排序算法,利用所述測(cè)試文本的初始情感分計(jì)算所述測(cè)試文本的情感 分的第二分量;23)利用所述兩個(gè)分量迭代計(jì)算所述測(cè)試文本的情感分并歸一化。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟21)進(jìn)一步包括以所述測(cè)試文本和訓(xùn)練文本為結(jié)點(diǎn)、所述訓(xùn)練文本和所述測(cè)試文本間的內(nèi)容相似度為 邊建立圖模型;根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化; 將所述歸一化的聯(lián)接矩陣的每一行降序排列;根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K1個(gè)元素對(duì)應(yīng)的訓(xùn)練文本的情感分計(jì) 算所述測(cè)試文本的情感分的第一分量,其中K1的取值范圍為[1,訓(xùn)練文本個(gè)數(shù)]。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟22)進(jìn)一步包括 以所述測(cè)試文本為結(jié)點(diǎn)、所有測(cè)試文本間的內(nèi)容相似度為邊建立圖模型; 根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化;將所述歸一化的聯(lián)接矩陣的每一行降序排列;根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K2個(gè)元素對(duì)應(yīng)的測(cè)試文本的情感分計(jì) 算所述測(cè)試文本的情感分的第二分量,其中K2的取值范圍為[1,測(cè)試文本個(gè)數(shù)]。
6.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述步驟1)包括根據(jù)所述訓(xùn) 練文本的標(biāo)簽對(duì)所述測(cè)試文本進(jìn)行分類,根據(jù)所述分類確定所述測(cè)試文本的初始情感分。
全文摘要
本發(fā)明提供一種文本情感傾向性分析方法,包括下列步驟1)根據(jù)訓(xùn)練文本的標(biāo)簽確定測(cè)試文本的初始情感分;2)基于圖排序算法利用所述測(cè)試文本的初始情感分迭代計(jì)算所述測(cè)試文本的情感分并進(jìn)行歸一化;3)當(dāng)所述迭代結(jié)束時(shí),根據(jù)所述計(jì)算的結(jié)果判別所述測(cè)試文本的情感傾向性。本發(fā)明提供的文本情感傾向性方法能夠大幅提高對(duì)新領(lǐng)域的文本進(jìn)行分類的精度。
文檔編號(hào)G06F17/30GK101882136SQ20091008352
公開日2010年11月10日 申請(qǐng)日期2009年5月8日 優(yōu)先權(quán)日2009年5月8日
發(fā)明者吳瓊, 程學(xué)旗, 譚松波 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所