一種新聞文本情緒傾向分析方法
【專利摘要】本發(fā)明提出了一種新聞文本情緒傾向分析方法,該方法包括以下步驟:拆解文本成若干個句子,每個句子包括至少一個分句,且每個分句包括至少一個詞匯;分析每個詞匯的屬性,其中屬性為樂觀詞匯、悲觀詞匯、非情緒詞匯及否定修飾詞匯中的一種;累計每個分句中所有詞匯的屬性,以推算出每個分句的情緒傾向;以單個句子為單位累加每個分句的情緒傾向,從而計算出文本情緒傾向熵值,以決定文本的情緒傾向。
【專利說明】一種新聞文本情緒傾向分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種新聞文本情緒傾向分析方法,尤其涉及一種使用有限狀態(tài)自動機與熵值的新聞文本情緒傾向分析方法。
【背景技術(shù)】
[0002]財經(jīng)領(lǐng)域的新聞文本情緒傾向分析的相關(guān)研究證實,財經(jīng)新聞的內(nèi)容常會影響金融市場的股票價格、交易量,甚至公司未來的營收;因此具有重要的實際運用價值。
[0003]目前有關(guān)新聞文本情緒傾向分析的現(xiàn)有技術(shù)中,已存在利用機器學(xué)習(xí)技術(shù)來自動判斷財經(jīng)新聞的情緒傾向為樂觀或悲觀的技術(shù)。但是該技術(shù)尚須經(jīng)過情緒語言的模型訓(xùn)練與測試,所以必須收集相當(dāng)大數(shù)量的歷史數(shù)據(jù)用于訓(xùn)練,以及必須先行計算語料的詞匯機率分布等數(shù)據(jù),故其應(yīng)用上較受限制,存在進一步改善的空間。
[0004]因此,如何進一步改善新聞文本情緒傾向分析的現(xiàn)有技術(shù),以使其無須經(jīng)過情緒語言的模型訓(xùn)練與測試,以及無須計算語料的詞匯機率分布,并提高使用效率,是需要進一步探討的課題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明主要目的在于提出一種新聞文本情緒傾向分析方法。
[0006]本發(fā)明提供的新聞文本情緒傾向分析方法,包括以下步驟:提供一情緒詞匯庫、一否定修飾詞匯庫與一有限狀態(tài)自動機(finite state automata);對新聞文本進行分句分詞處理,以產(chǎn)生若干個句子,其中每個句子包括至少一個子句,且每個子句包括至少一個詞匯;使用情緒詞匯庫與否定修飾詞匯庫對若干個句子以及每個分句的每個詞匯進行詞匯比對,以標(biāo)示每個詞匯為樂觀詞匯、悲觀詞匯、非情緒詞匯或否定修飾詞匯;依據(jù)詞匯比對結(jié)果,將每個詞匯分別轉(zhuǎn)換為一個代表符號;使用有限狀態(tài)自動機與代表符號,以推算每個分句的情緒傾向?qū)儆跇酚^、悲觀或中性;以句子為單位分別累加新聞文本中每個句子所包含的每個分句的每種情緒傾向后,計算經(jīng)累加后所有句子所對應(yīng)的每種情緒傾向的熵(entropy)值;依據(jù)計算出的熵值決定新聞文本的情緒傾向?qū)儆跇酚^、悲觀或中性。
[0007]可選的,本發(fā)明提供的新聞文本情緒傾向分析方法中,每個分句的情緒傾向的判定過程是在每個分句的目前狀態(tài)基礎(chǔ)上加入分句的下一個詞匯后,由有限狀態(tài)自動機根據(jù)最新加入的詞匯轉(zhuǎn)換下一狀態(tài);而在進一步加入再下一個詞匯前,下一狀態(tài)又取代原有目前狀態(tài)成為目前狀態(tài),如此循環(huán)運作,直至所有分句均被判定完畢;當(dāng)分句的目前狀態(tài)為樂觀,分句的下一個詞匯分別為樂觀詞匯、悲觀詞匯、否定修飾詞匯和非情緒詞匯時,加入下一個詞匯后,分句的下一狀態(tài)分別變成樂觀、悲觀、悲觀和樂觀;當(dāng)分句的目前狀態(tài)為悲觀,分句的下一詞匯分別為樂觀詞匯、悲觀詞匯、否定修飾詞匯和非情緒詞匯時,加入下一個詞匯后,分句的下一狀態(tài)分別變成悲觀、悲觀、樂觀和悲觀;當(dāng)分句的目前狀態(tài)為中性,分句的下一個詞匯分別為樂觀詞匯、悲觀詞匯、否定修飾詞匯和非情緒詞匯時,加入下一個詞匯后,分句的下一狀態(tài)分別變成樂觀、悲觀、悲觀和中性;每個分句的情緒傾向起始狀態(tài)均為中性,當(dāng)某一個特定分句的最終狀態(tài)為樂觀時,表示該特定分句的情緒傾向為樂觀;當(dāng)特定分句的最終狀態(tài)為悲觀時,表示該特定分句的情緒傾向為悲觀;當(dāng)特定分句的最終狀態(tài)為中性時,表示該特定分句的情緒傾向為中性。
[0008]可選的,本發(fā)明提供的新聞文本情緒傾向分析方法中,以句子為單位分別累加的步驟進一步包含下列步驟:
[0009]對每種情緒傾向在新聞文本內(nèi)的出現(xiàn)頻率作正規(guī)化處理,并將正規(guī)化后的出現(xiàn)頻率轉(zhuǎn)化成發(fā)生機率pi j ;由Pij計算每種情緒傾向的熵值:
【權(quán)利要求】
1.一種新聞文本情緒傾向分析方法,其特征在于,包括以下步驟:提供一情緒詞匯庫、一否定修飾詞匯庫與一有限狀態(tài)自動機;對新聞文本進行分句分詞處理,以產(chǎn)生若干個句子,其中每個句子包括至少一個子句,且每個子句包括至少一個詞匯;使用所述情緒詞匯庫與所述否定修飾詞匯庫對所述若干個句子以及每個分句的每個詞匯進行詞匯比對,以標(biāo)示每個詞匯為樂觀詞匯、悲觀詞匯、非情緒詞匯或否定修飾詞匯;依據(jù)詞匯比對結(jié)果,將每個詞匯分別轉(zhuǎn)換為一個代表符號;使用所述有限狀態(tài)自動機與所述代表符號,以推算每個分句的情緒傾向?qū)儆跇酚^、悲觀或中性;以句子為單位分別累加新聞文本中每個句子所包含的每個分句的每種情緒傾向后,計算經(jīng)累加后所有句子所對應(yīng)的每種情緒傾向的熵值;依據(jù)計算出的熵值決定所述新聞文本的情緒傾向?qū)儆跇酚^、悲觀或中性。
2.根據(jù)權(quán)利要求1所述的新聞文本情緒傾向分析方法,其特征在于,所述每個分句的情緒傾向的判定過程是在每個分句的目前狀態(tài)基礎(chǔ)上加入該分句的下一個詞匯后,由所述有限狀態(tài)自動機根據(jù)最新加入的詞匯轉(zhuǎn)換下一狀態(tài);而在進一步加入再下一個詞匯前,所述下一狀態(tài)又取代原有目前狀態(tài)成為目前狀態(tài),如此循環(huán)運作,直至所有分句均被判定完畢;當(dāng)分句的目前狀態(tài)為樂觀,分句的下一個詞匯分別為樂觀詞匯、悲觀詞匯、否定修飾詞匯和非情緒詞匯時,加入下一個詞匯后,分句的下一狀態(tài)分別變成樂觀、悲觀、悲觀和樂觀;當(dāng)分句的目前狀態(tài)為悲觀,分句的下一詞匯分別為樂觀詞匯、悲觀詞匯、否定修飾詞匯和非情緒詞匯時,加入下一個詞匯后,分句的下一狀態(tài)分別變成悲觀、悲觀、樂觀和悲觀;當(dāng)分句的目前狀態(tài)為中性,分句的下一個詞匯分別為樂觀詞匯、悲觀詞匯、否定修飾詞匯和非情緒詞匯時,加入下一個詞匯后,分句的下一狀態(tài)分別變成樂觀、悲觀、悲觀和中性;每個分句的情緒傾向起始狀態(tài)均為中性,當(dāng)某一個特定分句的最終狀態(tài)為樂觀時,表示該特定分句的情緒傾向為樂觀;當(dāng)特定分句的最終狀態(tài)為悲觀時,表示該特定分句的情緒傾向為悲觀;當(dāng)特定分句的最終狀態(tài)為中性時,表示該特定分句的情緒傾向為中性。
3.根據(jù)權(quán)利要求1或2所述的新聞文本情緒傾向分析方法,其特征在于,其中所述以句子為單位分別累加的步驟進一步包含下列步驟: 對每種情緒傾向在所述新聞文本內(nèi)的出現(xiàn)頻率作正規(guī)化處理,并將正規(guī)化后的出現(xiàn)頻率轉(zhuǎn)化成發(fā)生機率Pij ;由Pij計算每種情緒傾向的熵值:
m 〒-kIpM
?=\ 其中k=l/ln(m), i=l, 2,3…m, m表示句子的總數(shù)目,j=l, 2,3…η, η表示每種情緒傾向的總數(shù)目; 求算評估值=(熵值+_熵值_) / (熵值++熵值_) 其中“熵值+”為情緒傾向為樂觀時的熵值,“熵值為情緒傾向為悲觀時的熵值,當(dāng)評估值大于第一門坎值時,所述新聞文本的情緒傾向為樂觀,當(dāng)評估值小于第二門坎值時,所述新聞文本的情緒傾向為悲觀。
4.根據(jù)權(quán)利要求1-3所述的新聞文本情緒傾向分析方法,其特征在于,其中所述第一門坎值為一個正實數(shù)值,所述第二門坎值為一個負實數(shù)值。
5.根據(jù)權(quán)利要求1-4所述的新聞文本情緒傾向分析方法,其特征在于,其中所述新聞文本為財經(jīng)新聞、政治新聞或國際新聞中的一種,所述新聞文本中的每個句子以句號與其他句子彼此分隔,每個句子中的每個分句以逗號或分號與該句子的其他分句彼此分隔。
6.一種新聞文本情緒傾向分析方法,其特征在于,包括以下步驟:提供一情緒詞匯庫、一否定修飾詞匯庫與一有限狀態(tài)自動機;對新聞文本進行分句分詞處理,以產(chǎn)生若干個句子,其中每個句子包括至少一個子句,每個子句包括至少一個詞匯;使用所述否定修飾詞匯庫與所述情緒詞匯庫對所述若干個句子進行詞匯比對,以標(biāo)示每個詞匯為樂觀詞匯、悲觀詞匯、非情緒詞匯或否定修飾詞匯;依據(jù)詞匯比對結(jié)果,將每個詞匯分別轉(zhuǎn)換為一個代表符號;使用所述有限狀態(tài)自動機與每個分句的每個詞匯的代表符號來推算每個分句的情緒傾向。
7.根據(jù)權(quán)利要求6所述的新聞文本情緒傾向分析方法,其特征在于,進一步包括以下步驟:經(jīng)累加所述新聞文本中每個句子所包含的每個分句的每種情緒傾向后,計算新聞文本中每種情緒傾向的熵值,以決定所述新聞文本的情緒傾向?qū)儆跇酚^、悲觀或中性。
8.一種分析文本的方法,其特征在于,包括以下步驟:提供若干個詞匯庫以及一有限狀態(tài)自動機;分析所述文本以產(chǎn)生若干個句子,每個句子包括至少一個分句,每個分句包括至少一個詞匯;將每個詞匯與若干個復(fù)數(shù)詞匯庫進行比對,以標(biāo)示每個詞匯的屬性以及對應(yīng)該屬性的代號;使用所述有限狀態(tài)自動機比對每個代號,以推算每個分句的情緒傾向;以單個句子為單位累加每種情緒傾向從而計算出所述文本中每種情緒傾向的熵值;依據(jù)熵值決定所述文本的情緒狀態(tài)。
9.根據(jù)權(quán)利要求8所述的分析文本的方法,其特征在于,其中所述文本為新聞聞本,所述若干個詞匯庫包括一情緒詞匯庫與一否定修飾詞匯庫,所述情緒詞匯庫包括若干個樂觀詞匯與若干個悲觀詞匯,所述否定修飾詞匯庫包括若干個否定修飾詞匯,所述文本的情緒傾向?qū)儆跇酚^、悲觀或中性。
10.一種分析文本的方法,其特征在于,包括以下步驟:拆解所述文本成若干個句子,每個句子包括至少 一個分句,且每個分句包括至少一個詞匯;分析每個詞匯的屬性,其中所述屬性為樂觀詞匯、悲觀詞匯、非情緒詞匯及否定修飾詞匯中的一種;累加每個分句中每個詞匯的屬性,以推算每個分句的情緒傾向;以單個句子為單位累加每個分句的每種情緒傾向,從而計算出所述文本中每種情緒傾向的熵值,以決定所述文本的情緒傾向。
【文檔編號】G06F17/27GK103793371SQ201310462920
【公開日】2014年5月14日 申請日期:2013年9月30日 優(yōu)先權(quán)日:2012年10月30日
【發(fā)明者】盧陽正, 陳振南, 柯淑津, 魏裕珍 申請人:銘傳大學(xué)