本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別是一種自動更新的文檔情感分析系統(tǒng)及對應的方法。
背景技術(shù):
常用的文檔情感識別技術(shù)通常采用:先收集大量的情感詞,如高興、興奮、憤怒、悲傷等,并對每個情感詞進行量化分值,然后將這些詞組成情感詞庫。使用時利用情感詞庫去和目標文檔匹配,當情感詞庫中的情感詞和目標文檔中出現(xiàn)的詞匹配成功時,即按之前量化的該詞的量化分值來進行打分,最后將分數(shù)匯總得到該篇文檔的情感指數(shù)。
舉例如下:
高興(1分)、憤怒(-1分)……
在某篇文檔中共出現(xiàn)高興50次,憤怒10次,當該篇文檔最終的情感分數(shù)為50+(-10)=40分。
如滿分是100分,當出現(xiàn)評分是80以上、90以上或者負的90以下、80以下時,其結(jié)果相對較準確;但是,如果評分在50左右時,則難以判斷,因為50分時會有多種情況,比如整篇文檔出現(xiàn)的都是中性詞,或者有一半正向情感詞和一半負向情感詞,最后的分數(shù)都有可能是50分。
因此,采用上述的文檔情感評分方法存在諸多弊端,首先情感詞庫不能自動更新,需要人為的添加情感詞進去,以及人為的為其賦予分值,影響結(jié)果的客觀性;其次,單純的分數(shù)并不一定能夠完全反應出文檔情感的真實情況。
技術(shù)實現(xiàn)要素:
本發(fā)明為解決上述問題,提供了一種自動更新的文檔情感分析系統(tǒng)及方法,不僅提高文檔情感評分的準確性和客觀性,而且能夠自動更新情感詞庫,管理更方便。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種自動更新的文檔情感分析系統(tǒng),其包括:
情感詞庫構(gòu)建模塊,其通過收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應的向量值進行構(gòu)建初始情感詞庫;
情感詞匹配模塊,提取目標文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;
文檔情感評分模塊,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標文檔的情感值;
情感詞庫更新模塊,將向量值匹配度大于預設閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。
優(yōu)選的,所述的情感詞庫構(gòu)建模塊構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負向情感詞、中性情感詞;所述的情感詞庫更新模塊更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應的類別中。
優(yōu)選的,所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應百分比。
優(yōu)選的,所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;即,所述目標文檔的情感值=(正向情感詞的評分*數(shù)量)+(負向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。
優(yōu)選的,所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預設閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預設閾值的文檔情感詞忽略不計。
對應的,本發(fā)明還提供了一種自動更新的文檔情感分析方法,其包括以下步驟:
a.收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應的向量值進行構(gòu)建初始情感詞庫;
b.提取目標文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;
c.根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標文檔的情感值;
d.將向量值匹配度大于預設閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。
優(yōu)選的,所述的步驟a中構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負向情感詞、中性情感詞;所述的步驟d中更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應的類別中。
優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應百分比。
優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;即,所述目標文檔的情感值=(正向情感詞的評分*數(shù)量)+(負向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。
優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預設閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預設閾值的文檔情感詞忽略不計。
本發(fā)明的有益效果是:
1、利用情感詞匹配進行循環(huán)自動更新情感詞庫,效率更高,準確性更好;
2、利用向量值進行情感詞的相似度匹配,并將匹配度較高的情感詞加入評分統(tǒng)計,提高匹配范圍,便評分結(jié)果更接近真實情況;
3、加入匹配計數(shù),為最終結(jié)果值提供輔助性判斷。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1為本發(fā)明一種自動更新的文檔情感分析系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本發(fā)明一種自動更新的文檔情感分析方法的流程簡圖。
具體實施方式
為了使本發(fā)明所要解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖及實施例對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,本發(fā)明的一種自動更新的文檔情感分析系統(tǒng),其包括:
情感詞庫構(gòu)建模塊,其通過收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應的向量值進行構(gòu)建初始情感詞庫;
情感詞匹配模塊,提取目標文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;
文檔情感評分模塊,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標文檔的情感值;
情感詞庫更新模塊,將向量值匹配度大于預設閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。
其中,計算所述初始情感詞或所述文檔情感詞的向量值的方法,可采用w2v算法。
所述的情感詞庫構(gòu)建模塊構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負向情感詞、中性情感詞。
所述的情感詞庫更新模塊更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應的類別中。
所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應百分比。例如,以滿分為1分為例:如情感詞庫中,初始情感詞為“高興”,匹配到文檔情感詞為“興奮”,其向量值匹配度為90%,則計0.9分。假設向量值匹配度的預設閾值為80%,由于該文檔情感詞“興奮”的匹配度90%超過預設閾值,則把“興奮”加入到情感詞庫中,并按初始情感詞“高興”的所屬類別,將“興奮”加入至正向情感詞的分組中,在下次計算文檔的情感值時,“興奮”一詞作為情感詞庫直接使用。
所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,除了計算評分的分值,情感詞的數(shù)量和類別也是重要參考數(shù)據(jù)。本實施例中的統(tǒng)計評分包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;其中,情感詞的數(shù)量可直接通過匹配次數(shù)進行計數(shù),將匹配數(shù)量作為評估依據(jù)之一。所述目標文檔的情感值=(正向情感詞的評分*數(shù)量)+(負向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。例如,情感值的滿分100,最后得分為50,可能存在兩種情況:一是正向情感詞和負向情感詞匹配數(shù)量較為接近時,可以判斷該篇文檔的情感具有爭議性;另一種是匹配成功的大多都是中性情感詞,可以判斷該篇文檔的情感為中立?,F(xiàn)有技術(shù)僅簡單的計算分值是無法區(qū)別上述兩種情況,本發(fā)明的方法可根據(jù)評分統(tǒng)計結(jié)果區(qū)分相同分值的不同實際情況,使得分析結(jié)果更客觀。
所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預設閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預設閾值的文檔情感詞忽略不計,一方面,可提供評分的準確性,避免誤判;另一方面,減少計算量,提高分析效率。
如圖2所示,本發(fā)明還提供了一種自動更新的文檔情感分析方法,其包括以下步驟:
a.收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應的向量值進行構(gòu)建初始情感詞庫;
b.提取目標文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;
c.根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標文檔的情感值;
d.將向量值匹配度大于預設閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。
所述的步驟a中構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負向情感詞、中性情感詞;所述的步驟d中更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應的類別中。
所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應百分比。
所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;即,所述目標文檔的情感值=(正向情感詞的評分*數(shù)量)+(負向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。
所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預設閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預設閾值的文檔情感詞忽略不計。
需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于方法實施例而言,由于其與系統(tǒng)實施例基本相似,所以描述的比較簡單,相關(guān)之處參見系統(tǒng)實施例的部分說明即可。
并且,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。另外,本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
上述說明示出并描述了本發(fā)明的優(yōu)選實施例,應當理解本發(fā)明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文發(fā)明構(gòu)想范圍內(nèi),通過上述教導或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。