文本情感傾向性分析方法

文檔序號(hào)：6618790閱讀：325來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：文本情感傾向性分析方法
技術(shù)領(lǐng)域：
本發(fā)明涉及模式識(shí)別領(lǐng)域，具體涉及一種文本分析方法。
背景技術(shù)：
論壇、博客等網(wǎng)絡(luò)交流平臺(tái)的快速發(fā)展使得網(wǎng)上存在大量帶有情感傾向性的文本。如何從大規(guī)模富含情感信息的文本中快速進(jìn)行傾向性分析，成為越來越引起廣泛關(guān)注的研究問題。文本情感傾向性分析研究就是在這樣的背景下開展起來的，它就是對(duì)整篇文本所體現(xiàn)出的情感進(jìn)行判斷，也就是對(duì)文本中的主觀信息進(jìn)行判斷。隨著信息量的急速增加、新領(lǐng)域的不斷涌現(xiàn)，人們需要在越來越多的新領(lǐng)域里進(jìn) 行傾向性分析，而在新領(lǐng)域里重新進(jìn)行人工標(biāo)注是個(gè)費(fèi)時(shí)費(fèi)力的事情。因此要盡量基于已經(jīng)標(biāo)注好的數(shù)據(jù)對(duì)新領(lǐng)域進(jìn)行分析，這使得跨領(lǐng)域的傾向性分析具有重大意義。文本傾向性分析具有很強(qiáng)的領(lǐng)域依賴性。訓(xùn)練域里有強(qiáng)烈傾向性的詞在測(cè)試域里不再有強(qiáng)烈傾向性，反之亦然。例如，“便攜的”在電子評(píng)論里就是一個(gè)具有正面傾向性的詞，而在酒店評(píng)論里就不具有強(qiáng)烈的傾向性。當(dāng)用來訓(xùn)練分類器的已判斷傾向性的集合和待判斷傾向性的集合不是同一個(gè)領(lǐng)域的時(shí)候，例如，已知酒店評(píng)論數(shù)據(jù)集的傾向性需要判斷電子評(píng)論數(shù)據(jù)集的傾向性的情況，傳統(tǒng)的分類方法的效果就變得很差。

發(fā)明內(nèi)容
本發(fā)明目的在于提供一種精度高的文本情感傾向性分析方法。根據(jù)本發(fā)明的一個(gè)方面，提供了一種文本情感傾向性分析方法，包括下列步驟1)根據(jù)訓(xùn)練文本的標(biāo)簽確定測(cè)試文本的初始情感分；2)基于圖排序算法利用所述測(cè)試文本的初始情感分迭代計(jì)算所述測(cè)試文本的情感分并進(jìn)行歸一化；3)當(dāng)所述迭代結(jié)束時(shí)，根據(jù)所述計(jì)算的結(jié)果判別所述測(cè)試文本的情感傾向性。在上述方法中，所述步驟1)還包括根據(jù)訓(xùn)練文本的標(biāo)簽確定訓(xùn)練文本的初始情感分；所述步驟2)進(jìn)一步包括21)基于所述圖排序算法，利用所述訓(xùn)練文本的初始情感分計(jì)算所述測(cè)試文本的情感分的第一分量；22)基于所述圖排序算法，利用所述測(cè)試文本的初始情感分計(jì)算所述測(cè)試文本的情感分的第二分量；23)利用所述兩個(gè)分量迭代計(jì)算所述測(cè)試文本的情感分并歸一化。在上述方法中，所述步驟21)進(jìn)一步包括以所述測(cè)試文本和訓(xùn)練文本為結(jié)點(diǎn)、所述訓(xùn)練文本和所述測(cè)試文本間的內(nèi)容相似度為邊建立圖模型；根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化；
3
將所述歸一化的聯(lián)接矩陣的每一行降序排列；根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K1個(gè)元素對(duì)應(yīng)的訓(xùn)練文本的情感分計(jì)算所述測(cè)試文本的情感分的第一分量，其中K1的取值范圍為[1，訓(xùn)練文本個(gè)數(shù)]。在上述方法中，所述步驟22)進(jìn)一步包括以所述測(cè)試文本為結(jié)點(diǎn)、所有測(cè)試文本間的內(nèi)容相似度為邊建立圖模型；根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化；將所述歸一化的聯(lián)接矩陣的每一行降序排列；根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K2個(gè)元素對(duì)應(yīng)的測(cè)試文本的情感分計(jì)算所述測(cè)試文本的情感分的第二分量，其中K2的取值范圍為[1，測(cè)試文本個(gè)數(shù)]。在上述方法中，所述步驟1)包括根據(jù)所述訓(xùn)練文本的標(biāo)簽對(duì)所述測(cè)試文本進(jìn)行分類，根據(jù)所述分類確定所述測(cè)試文本的初始情感分。本發(fā)明提供的文本情感傾向性方法能夠大幅提高對(duì)新領(lǐng)域的文本進(jìn)行分類的精度。

圖1是根據(jù)本發(fā)明的優(yōu)選實(shí)施例的文本情感傾向性分析方法的流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖，對(duì)根據(jù)本發(fā) 明一個(gè)實(shí)施例的文本情感傾向性分析方法進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。本發(fā)明利用一個(gè)領(lǐng)域的標(biāo)注文本對(duì)另一領(lǐng)域未標(biāo)注文本按其傾向性進(jìn)行分類。具體地，假定測(cè)試集為Du= Wu1,...，dun}，其中Clui是第i個(gè)測(cè)試文本的特征向量，用其表示第 i個(gè)測(cè)試文本，測(cè)試文本Clui e Du (i = 1，. . .，η)且沒有被標(biāo)注。訓(xùn)練集為護(hù)=IcIl1 dLffl}，其中是第j個(gè)訓(xùn)練文本的特征向量，用其表示第j個(gè)訓(xùn)練文本。訓(xùn)練文本e DL(j = l，...，m)且具有一個(gè)來自類別集C= {支持，反對(duì)}中的標(biāo)簽。測(cè)試集Du和訓(xùn)練集護(hù)可以來自相關(guān)但不相同的領(lǐng)域。利用訓(xùn)練集護(hù)對(duì)測(cè)試集中的每一個(gè)測(cè)試文本Clui e Du(i = 1, . . . , η)分類。根據(jù)本發(fā)明的一個(gè)具體實(shí)施例，將文本的傾向性與圖排序算法結(jié)合起來，根據(jù)訓(xùn) 練文本的標(biāo)簽為測(cè)試集和訓(xùn)練集中的每一個(gè)文本分配一個(gè)初始情感分，來表示該文本情感傾向性的程度；然后基于迭代方法利用初始情感分計(jì)算測(cè)試文本的情感分并歸一化；當(dāng)?shù)?代算法收斂時(shí)得到測(cè)試文本的最終情感分，并據(jù)此判別測(cè)試文本的傾向性。首先為訓(xùn)練集與測(cè)試集中每一個(gè)文本的情感分賦一個(gè)初始值，得到初始情感分向量 S° = {sV. · ·，S0n, s°n+1，. . .，S°n+m}，其中 Stli (i = 1，...，η)表示測(cè)試文本的初始情感分， S0jU = 1，...，m)表示訓(xùn)練文本的初始情感分。對(duì)于訓(xùn)練文本，它們已經(jīng)有正確標(biāo)簽，則如果文本具有正面標(biāo)簽，則文本對(duì)應(yīng)的情感分為1，如果文本具有負(fù)面標(biāo)簽，它對(duì)應(yīng)的情感分為-1。對(duì)于測(cè)試文本，基于文本分類算法中的任意一種分類器，諸如原型“Prototype”傾向性分析方法、樸素貝葉斯“Nai've Bayes”方法、支持向量機(jī)“SVM”分類器、k-最近鄰方法、決策樹方法等，用訓(xùn)練集訓(xùn)練，對(duì)測(cè)試文本分類使其具有一個(gè)偽標(biāo)簽，此時(shí)的分類準(zhǔn)確度通常很低，根據(jù)此偽標(biāo)簽得到測(cè)試文本的情感分的初始值。然后，根據(jù)初始情感分向量S°迭代計(jì)算測(cè)試文本的最終情感分。下面詳細(xì)介紹根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例，計(jì)算測(cè)試文本的最終情感分的過程首先根據(jù)訓(xùn)練集的情感分計(jì)算測(cè)試集的情感分的一個(gè)分量。建立一個(gè)圖模型，結(jié)點(diǎn)表示D1和Du中的文本，邊表示文本間的內(nèi)容相似度。如果兩個(gè)文本間內(nèi)容相似度為0，則圖中兩結(jié)點(diǎn)間無邊，如果不為0，則圖中兩結(jié)點(diǎn)間有邊且邊的權(quán)重為該內(nèi)容相似度。本領(lǐng)域普通技術(shù)人員可以理解，文本的內(nèi)容相似度有多種計(jì)算方法，例如利用余弦相似度或者基于諸如明氏“Minkowski”距離、馬氏“Mahalanois”距離、蘭氏“Lance”距離的某種距離函數(shù)計(jì)算相似度。在此實(shí)施例中利用余弦相似度來計(jì)算。根據(jù) 該圖模型構(gòu)建聯(lián)接矩陣U，其元素表示測(cè)試文本和訓(xùn)練文本間的內(nèi)容相似度，U= [UijJnxm 定義如下Uv = flUTTTn^ i = l-,n,J(1)
IKIHKI其中，用文本的特征向量來表示文本，Clui是第i個(gè)測(cè)試文本的特征向量，Clui= (W1, f W2ji, ... ,Wpji), Wtji(t = 1，...，p)表示該向量中第t個(gè)特征的權(quán)重，根據(jù)該特征在文本中的詞頻tft來計(jì)算。屯與Clui類似。將聯(lián)接矩陣U歸一化為矩陣,使得(}中每一行的和為1 :
/mm
.MMU)
0，否則將[>的每一行降序排序得到i ,也就是歡(i = 1，· · ·，η ;j，t = 1，. · · m ；
t ^ j),以從訓(xùn)練集中找出與該行對(duì)應(yīng)的測(cè)試文本最相似的文本集，該文本集包括K1個(gè)訓(xùn) 練文本,K1的取值范圍為[1，訓(xùn)練文本個(gè)數(shù)]。對(duì)于Clui e Du(i = 1，...，n) Aj (j = 1，...，
K)可以示出其在訓(xùn)練域中的K1個(gè)鄰居。簡(jiǎn)化起見，使用矩陣# =來表示測(cè)試文本在
訓(xùn)練域中的鄰居，其中Nu對(duì)應(yīng)于Clui的第j個(gè)鄰居，即JV" =巧。本領(lǐng)域普通技術(shù)人員可以理解，可以把所有訓(xùn)練文本都作為測(cè)試文本在訓(xùn)練域中的鄰居，即直接根據(jù)矩陣來確定測(cè)試文本在訓(xùn)練域中的鄰居，而不必對(duì)進(jìn)行降序排序。用Clui的訓(xùn)練域的鄰居的情感分來計(jì)算其情感分的一個(gè)分量，公式如下所示s^ = Σ (f^y x ^k / 二 1,..., (3)其中，Ni.表示矩陣N的第i行，S")表示第i個(gè)測(cè)試文本的第k-Ι次迭代的情感分，表示第i個(gè)測(cè)試文本的第k次迭代的情感分的一個(gè)分量。根據(jù)測(cè)試文本的初始情感分計(jì)算測(cè)試文本情感分的另一個(gè)分量，類似于根據(jù)訓(xùn)練文本初始情感分計(jì)算。建立另一個(gè)圖模型，結(jié)點(diǎn)表示測(cè)試文本，邊的權(quán)重由它所連接的兩個(gè) 測(cè)試文本的余弦相似度來計(jì)算。根據(jù)該圖模型構(gòu)建聯(lián)接矩陣V，其元素表示測(cè)試文本之間的內(nèi)容相似度。V= [VijLxn定義如下
5
同樣，將V歸一化為P ,然后將^的每一行降序排序得到(？，因此得到一個(gè)Du在測(cè)試域中的鄰居矩陣# = [%1‘2，其中K2的的取值范圍為[1，測(cè)試文本個(gè)數(shù)]。用Clui的測(cè)試域的鄰居的情感分來計(jì)算其情感分的一個(gè)分量，與公式3類似，該計(jì)算公式如下所示
(5)其中，Mi.表示矩陣M的第i行，表示第i個(gè)測(cè)試文本的第k-Ι次迭代的情感分，表示第i個(gè)測(cè)試文本的第k次迭代的情感分的另一個(gè)分量。與測(cè)試文本在訓(xùn)練域中的鄰居類似，測(cè)試文本在測(cè)試域中的鄰居也可以取除其自身外的所有測(cè)試文本，如此則不必對(duì)P進(jìn)行降序排序。根據(jù)上述兩個(gè)分量迭代計(jì)算測(cè)試文本的情感分
(6)其中α+β = 1，α和β是分別表示訓(xùn)練域和測(cè)試域?qū)y(cè)試文本最終情感分的貢獻(xiàn)大小的參數(shù)，其取值范圍均為W，l]。為保證算法收斂，算法每迭代一次都需要將測(cè)試集的S(k)歸一化，使得正的情感分之和為1，負(fù)的情感分之和為-1。
(7)其中，Duneg和Dup。s分別表示情感分為負(fù)和為正的測(cè)試文本的集合。對(duì)于每一個(gè)測(cè)試文本Clui e Du(i = 1，. . . η)，如果連續(xù)兩次迭代所計(jì)算得到的情感分Si的變化量低于一個(gè)給定的閥值，則迭代結(jié)束，根據(jù)此時(shí)的情感分判別每個(gè)測(cè)試文本的情感傾向性。根據(jù)本發(fā)明的一個(gè)具體實(shí)施例，此閥值為0.00001。如果情感分大于0，則判別測(cè)試文本為支持；如果情感分小于0，則判別測(cè)試文本為反對(duì)。上述優(yōu)選實(shí)施例是根據(jù)訓(xùn)練文本和測(cè)試文本綜合計(jì)算測(cè)試文本的情感分，但是本領(lǐng)域普通技術(shù)人員可以理解，也可以只利用訓(xùn)練文本或測(cè)試文本來計(jì)算測(cè)試文本的情感分，即根據(jù)公式(3)或(5)來計(jì)算測(cè)試文本的情感分，并依此來判別測(cè)試文本的情感傾向性。本發(fā)明針對(duì)如表1所示的三個(gè)不同領(lǐng)域(電子評(píng)論、財(cái)經(jīng)評(píng)論、酒店評(píng)論)的文本集進(jìn)行實(shí)驗(yàn)?zāi)M。評(píng)價(jià)指標(biāo)采用精度，對(duì)比方法采用Prototype傾向性分析方法。表1文本集構(gòu)成其中“詞典長(zhǎng)度”表示相對(duì)應(yīng)數(shù)據(jù)集中不同詞的數(shù)量。實(shí)驗(yàn)?zāi)M結(jié)果如表2所示，其中電子_>財(cái)經(jīng)表示在電子領(lǐng)域上進(jìn)行訓(xùn)練，在財(cái)經(jīng) 領(lǐng)域上進(jìn)行測(cè)試，0. 6652表示Prototype方法測(cè)試結(jié)果的精度，也就是采樣Prototype方法的正確率，其它類推。實(shí)驗(yàn)結(jié)果表明本發(fā)明的文本情感傾向性分析方法具有較高移植能力。在對(duì)新領(lǐng)域測(cè)試集進(jìn)行測(cè)試時(shí)，本發(fā)明的平均精度達(dá)到了 78. 8%，大約比Prototype方法高11個(gè)百分點(diǎn)。表2實(shí)驗(yàn)結(jié)果應(yīng)該注意到并理解，在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神和范圍的情況下，能夠?qū)ι鲜鲈敿?xì)描述的本發(fā)明做出各種修改和改進(jìn)。因此，要求保護(hù)的技術(shù)方案的范圍不受所給出的任何特定示范教導(dǎo)的限制。
權(quán)利要求
一種文本情感傾向性分析方法，包括下列步驟1)根據(jù)訓(xùn)練文本的標(biāo)簽確定測(cè)試文本的初始情感分；2)基于圖排序算法利用所述測(cè)試文本的初始情感分迭代計(jì)算所述測(cè)試文本的情感分并進(jìn)行歸一化；3)當(dāng)所述迭代結(jié)束時(shí)，根據(jù)所述計(jì)算的結(jié)果判別所述測(cè)試文本的情感傾向性。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟2)進(jìn)一步包括以所述測(cè)試文本為結(jié)點(diǎn)、所有測(cè)試文本間的內(nèi)容相似度為邊建立圖模型；根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化；將所述歸一化的聯(lián)接矩陣的每一行降序排列；根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K2個(gè)元素對(duì)應(yīng)的測(cè)試文本的情感分計(jì) 算所述測(cè)試文本的情感分，其中K2的取值范圍為[1，測(cè)試文本個(gè)數(shù)]。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟1)還包括根據(jù)訓(xùn)練文本的標(biāo)簽確定訓(xùn)練文本的初始情感分；所述步驟2)進(jìn)一步包括21)基于所述圖排序算法，利用所述訓(xùn)練文本的初始情感分計(jì)算所述測(cè)試文本的情感分的第一分量；22)基于所述圖排序算法，利用所述測(cè)試文本的初始情感分計(jì)算所述測(cè)試文本的情感分的第二分量；23)利用所述兩個(gè)分量迭代計(jì)算所述測(cè)試文本的情感分并歸一化。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述步驟21)進(jìn)一步包括以所述測(cè)試文本和訓(xùn)練文本為結(jié)點(diǎn)、所述訓(xùn)練文本和所述測(cè)試文本間的內(nèi)容相似度為邊建立圖模型；根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化；將所述歸一化的聯(lián)接矩陣的每一行降序排列；根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K1個(gè)元素對(duì)應(yīng)的訓(xùn)練文本的情感分計(jì) 算所述測(cè)試文本的情感分的第一分量，其中K1的取值范圍為[1，訓(xùn)練文本個(gè)數(shù)]。
5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述步驟22)進(jìn)一步包括以所述測(cè)試文本為結(jié)點(diǎn)、所有測(cè)試文本間的內(nèi)容相似度為邊建立圖模型；根據(jù)所述圖模型構(gòu)建聯(lián)接矩陣并歸一化；將所述歸一化的聯(lián)接矩陣的每一行降序排列；根據(jù)所述降序排列后的聯(lián)接矩陣的每一行的前K2個(gè)元素對(duì)應(yīng)的測(cè)試文本的情感分計(jì) 算所述測(cè)試文本的情感分的第二分量，其中K2的取值范圍為[1，測(cè)試文本個(gè)數(shù)]。
6.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法，其特征在于，所述步驟1)包括根據(jù)所述訓(xùn) 練文本的標(biāo)簽對(duì)所述測(cè)試文本進(jìn)行分類，根據(jù)所述分類確定所述測(cè)試文本的初始情感分。
全文摘要
本發(fā)明提供一種文本情感傾向性分析方法，包括下列步驟1)根據(jù)訓(xùn)練文本的標(biāo)簽確定測(cè)試文本的初始情感分；2)基于圖排序算法利用所述測(cè)試文本的初始情感分迭代計(jì)算所述測(cè)試文本的情感分并進(jìn)行歸一化；3)當(dāng)所述迭代結(jié)束時(shí)，根據(jù)所述計(jì)算的結(jié)果判別所述測(cè)試文本的情感傾向性。本發(fā)明提供的文本情感傾向性方法能夠大幅提高對(duì)新領(lǐng)域的文本進(jìn)行分類的精度。
文檔編號(hào)G06F17/30GK101882136SQ20091008352
公開日2010年11月10日申請(qǐng)日期2009年5月8日優(yōu)先權(quán)日2009年5月8日
發(fā)明者吳瓊, 程學(xué)旗, 譚松波申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳瓊;譚松波;程學(xué)旗
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本傾向性分析相關(guān)技術(shù)

情感傾向性分析相關(guān)技術(shù)

文本情感分析方法相關(guān)技術(shù)

文本情感分析相關(guān)技術(shù)

文本情感分析算法相關(guān)技術(shù)

文本情感分析軟件相關(guān)技術(shù)

文本情感分析工具相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文本情感傾向性分析方法