一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明設及信息抽取技術領域,更具體地說,設及一種基于結(jié)構(gòu)句法的情緒原因 事件識別方法及系統(tǒng)。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡信息數(shù)據(jù)不斷增加,大量信息W電子文本的形式呈 現(xiàn)在人們面前。而如何從運些大量的信息中迅速、準確地提取出人們所需求的重要信息就 越發(fā)重要。
[0003] 信息抽取是從文本信息中自動獲取所需信息的一種主要手段。信息抽取是將無結(jié) 構(gòu)的文本信息,按照人們的需求識別和抽取出來,轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并采用 數(shù)據(jù)庫的形式存儲,W便人們查詢和進一步的分析、利用。其中,由文本信息中獲取其情緒 原因事件是信息抽取中的一個重要方面,情緒原因事件是指文本信息(可W是某段語句) 中情緒的觸發(fā)事件。例如,對于文本信息:1amh曰ppybee曰useIh曰vep曰ssedthetest。 該句中情緒對應的情緒詞為happy,與之對應的情緒原因事件為Ihavepassedthetest。
[0004] 目前,情緒原因事件識別方法大多是基于機器學習的方法,即使用統(tǒng)計的方法進 行研究。主要還是基于全監(jiān)督的學習方法,運種方法把情緒原因事件識別看成分類問題,選 擇合適的特征并使用合適的分類器來完成。但是,運種方法獲取待測文本的情緒原因事件 的準確率較低。
[0005] 綜上所述,現(xiàn)有技術中的情緒原因事件識別方法存在獲取待測文本的情緒原因事 件的準確率較低的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng),W解決 現(xiàn)有技術中存在的獲取待測文本的情緒原因事件的準確率較低的問題。
[0007] 為了實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
[0008] 一種基于結(jié)構(gòu)句法的情緒原因事件識別方法,包括:
[0009] 獲取預設量的訓練文本,所述訓練文本為已提供其情緒原因事件的文本;
[0010] 將所述訓練文本進行分詞處理,得到分別與每個所述訓練文本對應的訓練詞組;
[0011] 確定所述訓練詞組中每個詞語的結(jié)構(gòu)句法特征;
[0012] 利用所述訓練詞組及每個所述訓練詞組包括的每個詞語的結(jié)構(gòu)句法特征訓練CRF 模型;
[0013] 利用所述CRF模型確定待測詞組對應的待測文本的情緒原因事件。
[0014] 優(yōu)選的,所述利用所述訓練詞組及每個所述訓練詞組包括的每個詞語的結(jié)構(gòu)句法 特征訓練CRF模型,包括:
[0015] 確定每個所述訓練詞組中與該訓練詞組的情緒原因事件對應的訓練情緒詞;其 中,所述訓練詞組的情緒原因事件為與所述訓練詞組對應的訓練文本的情緒原因事件;
[0016] 確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及詞距離;其中,每個所述 訓練詞組中每個詞語的詞距離為該訓練詞組中每個詞語與該訓練詞組中的訓練情緒詞之 間的距離;
[0017] 利用每個所述訓練詞組及該訓練詞組中每個詞語的詞特征、詞性特征、詞距離及 結(jié)構(gòu)句法特征訓練CRF模型。
[0018] 優(yōu)選的,確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及結(jié)構(gòu)句法特征, 包括:
[0019] 利用Stan化rd工具確定所述訓練詞組中每個詞語的詞特征、詞性特征及結(jié)構(gòu)句 法特征。
[0020] 優(yōu)選的,所述確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及詞距離,包 括:
[0021] 確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及詞距離;其中,每個所述 訓練詞組中位于該訓練詞組中的訓練情緒詞左邊的詞語的詞距離為負數(shù),位于該訓練詞組 中的訓練情緒詞右邊的詞語的詞距離為正數(shù)。
[0022] 優(yōu)選的,所述利用所述CRF模型確定待測詞組對應的待測文本的情緒原因事件, 包括:
[0023] 獲取待測文本,所述待測文本為未提供其情緒原因事件的文本;
[0024] 將所述待測文本進行分詞處理,得到待測詞組;
[00巧]確定所述待測詞組中包括的待測情緒詞;
[00%] 確定所述待測詞組中每個詞語的詞特征、詞性特征、詞距離及結(jié)構(gòu)句法特征;其 中,所述待測詞組中每個詞語的詞距離為該待測詞組中每個詞語與待測情緒詞之間的距 離;
[0027] 利用所述待測詞組中每個詞語的詞特征、詞性特征、詞距離及結(jié)構(gòu)句法特征,通過 所述CRF模型,得到所述待測文本的情緒原因事件。
[0028] 一種基于結(jié)構(gòu)句法的情緒原因事件識別系統(tǒng),包括:
[0029] 獲取模塊,用于獲取預設量的訓練文本,所述訓練文本為已提供其情緒原因事件 的文本;
[0030] 分詞模塊,用于將所述訓練文本進行分詞處理,得到分別與每個所述訓練文本對 應的訓練詞組;
[0031] 第一確定模塊,用于確定所述訓練詞組中每個詞語的結(jié)構(gòu)句法特征;
[0032] 訓練模塊,用于利用所述訓練詞組及每個所述訓練詞組包括的每個詞語的結(jié)構(gòu)句 法特征訓練CRF模型;
[0033] 第二確定模塊,用于利用所述CRF模型確定待測詞組對應的待測文本的情緒原因 事件。
[0034] 本發(fā)明提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng),包括:獲取預 設量的訓練文本,所述訓練文本為已提供其情緒原因事件的文本;將所述訓練文本進行分 詞處理,得到分別與每個所述訓練文本對應的訓練詞組;確定所述訓練詞組中每個詞語的 結(jié)構(gòu)句法特征;利用所述訓練詞組及每個所述訓練詞組包括的每個詞語的結(jié)構(gòu)句法特征訓 練CRF模型;利用所述CRF模型確定待測詞組對應的待測文本的情緒原因事件。與現(xiàn)有技 術相比,本申請中利用訓練文本進行分詞后的詞組及詞組中每個詞語的結(jié)構(gòu)句法特征構(gòu)建CRFkonditionalrandomfieldalgorithm,條件隨機場算法)模型,即建立一個統(tǒng)一的概 率模型,進一步利用上述CRF模型確定待測文本的情緒原因事件,實驗證明,本發(fā)明實施例 提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng)獲取待測文本的情緒原因事件 的準確率較高,即對于情緒原因事件的識別性能較好。
【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。
[0036]圖1為本發(fā)明實施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法的流程 圖;
[0037]圖2為本發(fā)明實施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法中結(jié)構(gòu) 句法特征中各節(jié)點的示意圖;
[0038]圖3為本發(fā)明實施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法中步驟 S16的流程圖;
[0039]圖4為本發(fā)明實施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別系統(tǒng)的結(jié)構(gòu) 不意圖。
【具體實施方式】
[0040] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0041] 請參閱圖1,其示出了本發(fā)明實施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識 別方法的流程圖,可W包括W下步驟:
[0042] S11:獲取預設量的訓練文本,訓練文本為已提供其情緒原因事件的文本。
[0043] 其中,預設量可根據(jù)實際需要進行確定。 W44] S12:將訓練文本進行分詞處理,得到分別與每個訓練文本對應的訓練詞組。
[0045] 其中,分詞處理即為將一段文本分割成詞語的組合,如將語句"我很高興",分割成 "我""很""高興"。另外,本發(fā)明實施例中訓練文本及下文中的待測文本可W是英文文本, 也可W是中文文本。
[0046] S13:確定訓練詞組中每個詞語的結(jié)構(gòu)句法特征。
[0047]S14 :利用訓練詞組及每個訓練詞組包括的每個詞語的結(jié)構(gòu)句法特征訓練CRF模 型。 W48] S15 :利用CRF模型確定待測詞組對應的待測文本的情緒原因事件。
[0049] 本申請中利用訓練文本進行分詞后的詞組及詞組中每個詞語的結(jié)構(gòu)句法特征構(gòu) 建CRF(conditionalrandomfieldalgorithm,條件隨機場算法)模型,即建立一個統(tǒng)一的 概率模型,進一步利用上述CRF模型確定待測文本的情緒原因事件,實驗證明,本發(fā)明實施 例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法獲取待測文本的情緒原因事件的準 確率較高,即對于情緒原因事件的識別性能較好。
[0050] 其中,利用訓練詞組及每個訓練詞組包括的每個詞語的結(jié)構(gòu)句法特征訓練CRF模 型,可W是,將訓練詞組及每個訓練詞組包括的每個詞語的結(jié)構(gòu)句法特征處理成CRF++所 需的格式,然后將其訓練成CRF模型。
[0051] 另外,針對序列標注模型的求解,表現(xiàn)較好的是條件隨機場方法,即與CRF模型對 應的方法。CRF模型,即條件隨機場模型是Lafferty等在最大賭模型和隱馬爾可夫模型的 基礎上提出的一種無向圖學習模型,是一種用于標注和切分有序數(shù)據(jù)的條件概率模型。CRF 模型對應的方法是對序列的整體優(yōu)化。具體求解公式如下:
[0052]
陽05引其中,Y={yj表示對應的輸出標記序列;ytG化I,E,0}分