本發(fā)明涉及漢字文本識別領(lǐng)域,具體為一種融合漢字特征和詞對關(guān)系的命名實體識別方法。
背景技術(shù):
1、自然語言處理(natural?language?processing,nlp)是人工智能和語言學的交叉學科,旨通過計算機智能化處理自然語言。智能化的目標在于使機器能夠理解人類語言,模仿人類思維方式,實現(xiàn)人機之間的流暢交流。面對龐大的非結(jié)構(gòu)化文本數(shù)據(jù),其任務之一是從中挖掘有用的信息,將其重構(gòu)為有序的結(jié)構(gòu)化信息,然后抽取成特定的事件或事實信息,這一過程被稱為信息抽取。其中,重要的一種信息是實體,相應的信息抽取任務被稱為命名實體識別(named?entity?recognition,ner)。命名實體識別作為關(guān)鍵的自然語言處理任務,其目標是在文本中識別具有特定含義的命名實體,并將它們分類為預定義的實體類型。學術(shù)上命名實體識別的研究主體一般包括三個大類(實體類、時間類和數(shù)字類)和七個小類(人名、地名、機構(gòu)名、時間、日期、貨幣和百分比)命名實體。在大數(shù)據(jù)時代,從海量無結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)中精確、高效地提取關(guān)鍵信息是nlp任務的基礎之一。命名實體通常攜帶豐富的語義信息,與數(shù)據(jù)中的關(guān)鍵信息緊密相連。ner任務在解決互聯(lián)網(wǎng)文本數(shù)據(jù)信息過載的問題上發(fā)揮著關(guān)鍵作用,能夠有效獲取關(guān)鍵信息,并在關(guān)系抽取、機器翻譯以及知識圖譜構(gòu)建等領(lǐng)域得到廣泛應用。
2、漢字作為一種典型的符號語言,除字符本身包含著一定的語義信息外,其字符的構(gòu)造和讀音都含有額外的文本語義信息,而原始的預訓練語言模型如bert缺失了漢字的字形和拼音特征。同時,傳統(tǒng)的命名實體識別模型通常采用crf進行解碼,而這種序列標注方式又難以處理文本中存在的嵌套和不連續(xù)的實體。
3、針對中文文本中存在的嵌套實體和不連續(xù)實體難以抽取的問題,本發(fā)明將設計出融合漢字特征和詞對關(guān)系的命名實體識別模型,使得該模型在處理存在嵌套和不連續(xù)實體的中文文本時有著較好的性能。
技術(shù)實現(xiàn)思路
1、(一)解決的技術(shù)問題
2、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種融合漢字特征和詞對關(guān)系的命名實體識別方法,彌補了漢字特征信息的缺失問題,還增強了模型處理嵌套和不連續(xù)實體的能力的優(yōu)點,解決了上述背景技術(shù)中的問題。
3、(二)技術(shù)方案
4、為實現(xiàn)上述彌補了漢字特征信息的缺失問題,還增強了模型處理嵌套和不連續(xù)實體的能力的目的,本發(fā)明提供如下技術(shù)方案:一種融合漢字特征和詞對關(guān)系的命名實體識別方法,包括字符嵌入與原始bert保持一致,不進行任何修改;對字形嵌入采用三種不同的開源字體,分別是仿宋、楷書和隸書,分別將每個漢字進行24*24的圖形向量化,然后將其拼接后再拉平,送入一個字形融合層得到字形嵌入向量;對于拼音嵌入,使用開源的pypinyin包將輸入的字符序列轉(zhuǎn)換為相應的拼音序列,每個字符的拼音序列由羅馬字符和四個聲調(diào)組成,對拼音序列進行初始的嵌入,并使用cnn模型進行卷積和最大池化,得到最終的拼音嵌入;將字符嵌入、字形嵌入和拼音嵌入拼接在一起,送入一個融合層,將其維度控制為768維,得到最終含有字形特征和拼音特征的融合嵌入;將融合嵌入與位置嵌入和片段嵌入相加,形成bert模型的輸入。
5、根據(jù)上述技術(shù)方案,所述bert模型的輸入,包括嵌入了字形和拼音特征的詞向量通過編碼層,經(jīng)過bert和lstm兩個模塊編碼,形成包含深層語義信息的詞向量;詞向量被送入卷積模塊,通過條件層歸一化將其轉(zhuǎn)換為詞對網(wǎng)格表示的字符嵌入,在構(gòu)建詞對網(wǎng)格時,根據(jù)bert模型的輸入風格,構(gòu)造距離嵌入用于表示詞對中兩個詞之間的距離,區(qū)域嵌入用于區(qū)分網(wǎng)格的上三角和下三角部分;三個網(wǎng)格向量經(jīng)過拼接處理后送入多粒度卷積模塊,在多粒度卷積模塊采用多個不同的卷積核進行卷積使得模型能夠提取語義信息;送入mlp模型進行關(guān)系分數(shù)計算,最終得到詞對關(guān)系的分類圖;模型的解碼部分,采用當前詞的下一個相鄰詞和尾頭詞兩種關(guān)系,能夠解碼出普通實體、嵌套實體和不連續(xù)實體。
6、根據(jù)上述技術(shù)方案,所述嵌入了字形和拼音特征的詞向量通過編碼層,經(jīng)過bert和lstm兩個模塊編碼,形成包含深層語義信息的詞向量具體為將文本轉(zhuǎn)換為字形特征和拼音特征,將字形嵌入和拼音嵌入進行融合,融合后的嵌入表示每個漢字的綜合特征向量,融合后的詞向量通過編碼層進行處理,經(jīng)過編碼層后的詞向量輸入到bert模型中,bert模型通過其雙向transformer結(jié)構(gòu),對輸入的詞向量進行上下文編碼,生成深層次的上下文相關(guān)的詞向量表示,從bert輸出的詞向量進一步輸入到lstm模塊中。
7、根據(jù)上述技術(shù)方案,所述詞向量被送入卷積模塊,通過條件層歸一化將其轉(zhuǎn)換為詞對網(wǎng)格表示的字符嵌入,在構(gòu)建詞對網(wǎng)格時,根據(jù)bert模型的輸入風格,構(gòu)造距離嵌入用于表示詞對中兩個詞之間的距離,區(qū)域嵌入用于區(qū)分網(wǎng)格的上三角和下三角部分具體為將經(jīng)過bert和lstm編碼后的詞向量送入卷積神經(jīng)網(wǎng)絡(cnn)模塊,cnn能夠?qū)斎氲脑~向量進行進一步的特征提取和變換,在卷積模塊中應用條件層歸一化,通過引入條件信息來調(diào)整歸一化的過程,從卷積模塊輸出的特征,通過條件層歸一化,得到的特征用于構(gòu)建詞對網(wǎng)格表示,將距離嵌入和區(qū)域嵌入與條件層歸一化后的特征進行整合,整合后的詞對特征向量組成詞對網(wǎng)格矩陣。
8、根據(jù)上述技術(shù)方案,所述三個網(wǎng)格向量經(jīng)過拼接處理后送入多粒度卷積模塊,在多粒度卷積模塊采用多個不同的卷積核進行卷積使得模型能夠提取語義信息具體為將三個網(wǎng)格向量進行拼接,拼接后的網(wǎng)格向量被送入多粒度卷積模塊,多粒度卷積模塊使用多個不同大小的卷積核進行卷積操作,每個卷積核會產(chǎn)生一組特征圖,卷積操作可以表示為:
9、
10、其中,a表示卷積產(chǎn)生的特征圖,b表示輸入的拼接網(wǎng)格向量,c表示卷積核;多個不同粒度的卷積核產(chǎn)生的特征圖進行融合,通過連接操作將它們合并為一個整體特征向量,融合后的特征向量形成多粒度的特征表示。
11、根據(jù)上述技術(shù)方案,所述送入mlp模型進行關(guān)系分數(shù)計算,最終得到詞對關(guān)系的分類圖具體為多粒度卷積模塊輸出的融合特征向量被送入多層感知機(mlp)模型,mlp模型是由若干全連接層組合的神經(jīng)網(wǎng)絡,每一層都會對輸入特征進行線性變換和非線性激活,mlp由多個全連接層組成,每一層包括線性變換和非線性激活函數(shù),mlp的每一層可以表示為:
12、ht=σ(wtht-1+bt)
13、其中,ht表示第t層的輸出特征向量,wt和bt分別是第t層的權(quán)重矩陣和偏置向量,σ是激活函數(shù);mlp的最后一層輸出一個分數(shù)向量,用于表示詞對之間的關(guān)系分數(shù),輸出層可以表示為:
14、y=wouthl+bout
15、其中,y表示輸出的關(guān)系分數(shù)向量,wout和bout分別表示輸出層的權(quán)重矩陣和偏置向量,表示mlp最后一層的輸出特征向量;根據(jù)輸出的關(guān)系分數(shù)向量y,對每個詞對的關(guān)系進行分類,對于每個詞對,根據(jù)其關(guān)系分數(shù)的最大值確定其所屬的關(guān)系類別,然后將這些類別信息填入到詞對網(wǎng)絡中。
16、根據(jù)上述技術(shù)方案,所述模型的解碼部分,采用當前詞的下一個相鄰詞和尾頭詞兩種關(guān)系,能夠解碼出普通實體、嵌套實體和不連續(xù)實體具體為普通實體解碼從模型輸出的詞對關(guān)系分類圖中,找到每個詞與其下一個相鄰詞之間的關(guān)系,遍歷每個詞wi,如果wi和wi+1之間的關(guān)系表示連續(xù),則將wi和wi+1合并到當前實體中,如果關(guān)系不表示連續(xù),則結(jié)束當前實體的構(gòu)建,開始一個新的實體;嵌套實體解碼和普通實體一樣,從模型輸出的詞對關(guān)系分類圖中,找到每個詞與其下一個相鄰詞之間的關(guān)系,在構(gòu)建普通實體的過程中,如果發(fā)現(xiàn)當前詞wi和前一個詞wi-1以及下一個詞wi+1都有關(guān)系,則表示有嵌套實體,通過檢查wi和wi-1以及wi和wi+1的關(guān)系,可以判斷wi是否是嵌套實體的開始或結(jié)束,將嵌套實體合并到其父實體中;不連續(xù)實體解碼從模型輸出的詞對關(guān)系分類圖中,找到每個詞與尾頭詞之間的關(guān)系,遍歷每個詞wi,如果wi和wj之間的關(guān)系表示連接,則將wi和wj作為一個不連續(xù)實體的部分,合并所有這些部分,形成完整的不連續(xù)實體。
17、根據(jù)上述技術(shù)方案,所述一種融合漢字特征和詞對關(guān)系的命名實體識別系統(tǒng),其特征在于,包括:
18、特征融合模塊:將獲取的字形和拼音特征與文本的字特征對應融合,將融合后的詞向量通過維度轉(zhuǎn)化,將其維度控制在768維(bert輸入的維度);
19、編碼模塊:基于bert和bi-lstm模型來獲取輸入句子中的上下文詞向量;
20、卷積模塊:用于建立詞對關(guān)系,進一步提取語義信息,用于后續(xù)的詞-詞關(guān)系分類;
21、解碼模塊:通過nnw和thw兩種關(guān)系能夠在詞對關(guān)系分類圖中有效的抽取出文本中的實體;
22、預測模塊:通過迭代訓練得到預測結(jié)果。
23、(三)有益效果
24、與現(xiàn)有技術(shù)相比,本發(fā)明提供一種融合漢字特征和詞對關(guān)系的命名實體識別方法,具備以下有益效果:
25、該融合漢字特征和詞對關(guān)系的命名實體識別方法,首先,在模型的輸入階段,通過將漢字的字符和拼音特征融入到模型中進行訓練,提升了模型對語義的理解能力,解決了預訓練語言模型如bert在字形和拼音上的缺失問題,其次,在模型的解碼階段,通過構(gòu)建詞對關(guān)系的模型結(jié)構(gòu),能夠有效抽取文本中存在的嵌套實體和不連續(xù)實體,解決了傳統(tǒng)實體抽取任務中難以處理嵌套實體和不連續(xù)實體的問題。