博特征向量對基 于監(jiān)督學(xué)習(xí)的分類器進(jìn)行訓(xùn)練后得到情感分類器,使用情感分類器對微博文本進(jìn)行情感分 析,可較為準(zhǔn)確預(yù)測微博情感傾向。
[0017] 參閱附圖2,所述神經(jīng)網(wǎng)絡(luò)為輸入層、并行詞向量層和輸出層組成的三層網(wǎng)絡(luò)結(jié) 構(gòu),所述并行詞向量層由肯定上下文的詞向量矩陣和否定上下文的詞向量矩陣組成;所述 輸入層將輸入詞以未被否定和被否定詞分別輸入并行詞向量層中所對應(yīng)的詞向量矩陣;所 述輸出層將兩詞向量矩陣轉(zhuǎn)換成未被否定和被否定的情感傾向輸出兩個特征向量。
[0018] 參閱附圖3,所述神經(jīng)網(wǎng)絡(luò)的訓(xùn)練按下述步驟進(jìn)行: 第一步:設(shè)定詞向量的維度并以微博的輸入詞為中心的窗口大小; 第二步:隨機(jī)初始化,將并行詞向量層中的兩個詞向量矩陣,使它們保持一致;Hierarchicalsoftmax層的參數(shù),該層用于預(yù)測以輸入詞為中心的窗口內(nèi)的一個詞;Full softmax層的參數(shù),該層用于預(yù)測輸入詞的情感傾向; 第三步:輸入微博并進(jìn)行分詞,分詞后去掉其中的@用戶和URL,然后進(jìn)行否定關(guān)系檢 測,標(biāo)記出哪些詞被否定,最后利用現(xiàn)有的情感詞典、表情符號和帶有情感傾向的話題線 索,對每一個詞在該微博上下文中的情感傾向進(jìn)行自動化標(biāo)注; 第四步:對微博中的每一個詞,根據(jù)它是否被否定,使用相應(yīng)的詞向量層將它映射到它 對應(yīng)的詞向量,使用隨機(jī)梯度下降算法更新該詞向量、Hierarchicalsoftmax層的參數(shù)和 Fullsoftmax層的參數(shù),使得給定該詞向量,能準(zhǔn)確地預(yù)測中心窗口內(nèi)每一個詞及其情感 傾向; 第五步:重復(fù)第三~第四步驟,對大規(guī)模語料中的所有微博都進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
[0019] 參閱附圖4,所述完成訓(xùn)練的神經(jīng)網(wǎng)絡(luò)按下述步驟得到微博特征向量: 第一步:輸入微博,對該微博進(jìn)行分詞并去掉@用戶和URL,然后進(jìn)行否定檢測,標(biāo)記出 哪些詞被否定; 第二步:對微博中的每一個詞,根據(jù)它是否被否定,使用相應(yīng)的詞向量層將它映射到對 應(yīng)的詞向量,并存入微博詞向量矩陣中的一列; 第三步:對微博詞向量矩陣的每一行,分別取最大值、最小值和平均值得到三個向量; 第四步:將上述三個向量首尾相接成一個微博特征向量輸出。
[0020] 第五步:對大規(guī)模語料中的每一條微博重復(fù)第一 ~第四步驟,得到與之對應(yīng)的微 博特征向量。
[0021] 參閱附圖5,所述基于監(jiān)督學(xué)習(xí)的分類器的訓(xùn)練按下述步驟進(jìn)行: 第一步:輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練中已標(biāo)注情感傾向的微博以及使用該神經(jīng)網(wǎng)絡(luò)得到的該微 博特征向量; 第二步:重復(fù)第一步驟,對神經(jīng)網(wǎng)絡(luò)訓(xùn)練集中的每一條已標(biāo)注好情感傾向的微博和該 微博特征向量都進(jìn)行輸入,得到微博特征向量集合及其與之對應(yīng)的情感傾向集合; 第三步:將上述特征向量集合和情感傾向集合對基于監(jiān)督學(xué)習(xí)的分類器進(jìn)行訓(xùn)練后得 到情感分類器。
[0022]參閱附圖6,所述情感分類器使用微博特征向量對輸入的微博文本進(jìn)行情感分析, 輸出微博情感傾向的預(yù)測結(jié)果,其步驟如下: 第一步:輸入微博; 第二步:使用完成訓(xùn)練的神經(jīng)網(wǎng)絡(luò)得到該微博的特征向量; 第三步:對該微博的特征向量,使用情感分類器預(yù)測該微博的情感傾向。
[0023] 對上述微博情感傾向的預(yù)測結(jié)果可采用人工標(biāo)注好情感傾向的微博語料(幾百到 上千條微博即可)進(jìn)行準(zhǔn)確率評估。本發(fā)明適合在大規(guī)模微博語料上快速地訓(xùn)練一個神經(jīng) 網(wǎng)絡(luò),使得它能夠輸入一條原始微博文本后輸出一個它對應(yīng)的特征向量,該特征向量不僅 編碼了語法上下文和情感傾向這兩種信息,同時還考慮了否定關(guān)系的處理,它的獲取無需 任何人工設(shè)計,節(jié)省成本,這樣獲得的特征向量用于情感分類器的訓(xùn)練與預(yù)測時,可在預(yù)測 微博時獲得較高的準(zhǔn)確率。
[0024] 以上只是對本發(fā)明作進(jìn)一步的說明,并非用以限制本專利,凡為本發(fā)明等效實(shí)施, 均應(yīng)包含于本專利的權(quán)利要求范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于大規(guī)模語料特征學(xué)習(xí)的微博情感分析方法,包括基于Word2Vec的神經(jīng)網(wǎng) 絡(luò)和基于監(jiān)督學(xué)習(xí)的分類器,其特征在于利用微博文本訓(xùn)練一個基于W〇rd2VeC的神經(jīng)網(wǎng) 絡(luò),將微博文本輸入完成訓(xùn)練的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)將輸入的微博,根據(jù)語法上下文、當(dāng) 前上下文中的情感傾向以及它是否被否定映射到對應(yīng)的詞向量上,從而得到一個與微博文 本所對應(yīng)的微博詞向量矩陣,在微博詞向量矩陣上做詞向量間的合成,得到與微博文本所 對應(yīng)的微博特征向量,將微博特征向量對基于監(jiān)督學(xué)習(xí)的分類器進(jìn)行訓(xùn)練后得到情感分類 器,使用情感分類器對微博文本進(jìn)行情感分析,可較為準(zhǔn)確的預(yù)測微博情感傾向;所述神經(jīng) 網(wǎng)絡(luò)為輸入層、并行詞向量層和輸出層組成的三層網(wǎng)絡(luò)結(jié)構(gòu),所述并行詞向量層由肯定上 下文的詞向量矩陣和否定上下文的詞向量矩陣組成;所述輸入層將輸入詞以未被否定和被 否定詞分別輸入并行詞向量層中所對應(yīng)的詞向量矩陣;所述輸出層將兩詞向量矩陣轉(zhuǎn)換成 未被否定和被否定的情感傾向輸出兩個特征向量。2. 根據(jù)權(quán)利要求1所述基于大規(guī)模語料特征學(xué)習(xí)的微博情感分析方法,其特征在于所 述神經(jīng)網(wǎng)絡(luò)的訓(xùn)練按下述步驟進(jìn)行: 第一步:設(shè)定詞向量的維度并以微博的輸入詞為中心的窗口大??; 第二步:隨機(jī)初始化,將并行詞向量層中的兩個詞向量矩陣,使它們保持一致;Hierarchicalsoftmax層的參數(shù),該層用于預(yù)測以輸入詞為中心的窗口內(nèi)的一個詞;Full softmax層的參數(shù),該層用于預(yù)測輸入詞的情感傾向; 第三步:輸入微博并進(jìn)行分詞,分詞后去掉其中的@用戶和URL,然后進(jìn)行否定關(guān)系檢 測,標(biāo)記出哪些詞被否定,最后利用現(xiàn)有的情感詞典、表情符號和帶有情感傾向的話題線 索,對每一個詞在該微博上下文中的情感傾向進(jìn)行自動化標(biāo)注; 第四步:對微博中的每一個詞,根據(jù)它是否被否定,使用相應(yīng)的詞向量層將它映射到它 對應(yīng)的詞向量,使用隨機(jī)梯度下降算法更新該詞向量、Hierarchicalsoftmax層的參數(shù)和 Fullsoftmax層的參數(shù),使得給定該詞向量,能準(zhǔn)確地預(yù)測中心窗口內(nèi)每一個詞及其情感 傾向; 第五步:重復(fù)第三~第四步驟,對大規(guī)模語料中的所有微博都進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。3. 根據(jù)權(quán)利要求1所述基于大規(guī)模語料特征學(xué)習(xí)的微博情感分析方法,其特征在于所 述完成訓(xùn)練的神經(jīng)網(wǎng)絡(luò)按下述步驟得到微博特征向量: 第一步:輸入微博,對該微博進(jìn)行分詞并去掉@用戶和URL,然后進(jìn)行否定檢測,標(biāo)記出 哪些詞被否定; 第二步:對微博中的每一個詞,根據(jù)它是否被否定,使用相應(yīng)的詞向量層將它映射到對 應(yīng)的詞向量,并存入微博詞向量矩陣中的一列; 第三步:對微博詞向量矩陣的每一行,分別取最大值、最小值和平均值得到三個向量; 第四步:將上述三個向量首尾相接成一個微博特征向量輸出; 第五步:對大規(guī)模語料中的每一條微博重復(fù)第一 ~第四步驟,得到與之對應(yīng)的微博特 征向量。4. 根據(jù)權(quán)利要求1所述基于大規(guī)模語料特征學(xué)習(xí)的微博情感分析方法,其特征在于所 述基于監(jiān)督學(xué)習(xí)的分類器的訓(xùn)練按下述步驟進(jìn)行: 第一步:輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練中已標(biāo)注情感傾向的微博以及使用該神經(jīng)網(wǎng)絡(luò)得到的該微 博特征向量; 第二步:重復(fù)第一步驟,對神經(jīng)網(wǎng)絡(luò)訓(xùn)練集中的每一條已標(biāo)注好情感傾向的微博和該 微博特征向量都進(jìn)行輸入,得到微博特征向量集合及其與之對應(yīng)的情感傾向集合; 第三步:將上述特征向量集合和情感傾向集合對基于監(jiān)督學(xué)習(xí)的分類器進(jìn)行訓(xùn)練后得 到情感分類器。5.根據(jù)權(quán)利要求1所述基于大規(guī)模語料特征學(xué)習(xí)的微博情感分析方法,其特征在于所 述情感分類器使用微博特征向量對輸入的微博文本進(jìn)行情感分析,輸出微博情感傾向的預(yù) 測結(jié)果。
【專利摘要】本發(fā)明公開了一種基于大規(guī)模語料特征學(xué)習(xí)的微博情感分析方法,其特點(diǎn)是利用微博文本訓(xùn)練一個基于Word2Vec的神經(jīng)網(wǎng)絡(luò),將微博文本輸入完成訓(xùn)練的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)將輸入的微博,根據(jù)語法上下文、當(dāng)前上下文中的情感傾向以及它是否被否定,映射到對應(yīng)的詞向量上,得到一個由微博中的詞所對應(yīng)的詞向量組成的矩陣,在該矩陣上做詞向量間的合成,進(jìn)一步得到微博對應(yīng)的特征向量,將特征向量用于情感分類器的訓(xùn)練和預(yù)測時,可得到一個較為準(zhǔn)確的微博情感分析結(jié)果。本發(fā)明與現(xiàn)有技術(shù)相比具有成本低,分析準(zhǔn)確率高,尤其適合大規(guī)模語料,訓(xùn)練速度快,結(jié)合語法上下文和情感傾向,有效處理否定關(guān)系,提高情感分析的準(zhǔn)確率。
【IPC分類】G06Q50/00, G06F17/27, G06F17/30
【公開號】CN104899298
【申請?zhí)枴緾N201510310710
【發(fā)明人】楊靜, 裴逸鈞, 賀樑
【申請人】華東師范大學(xué)
【公開日】2015年9月9日
【申請日】2015年6月9日