本發(fā)明屬于命名實體識別,特別是涉及一種大數據中基于生成式跨度的命名實體識別方法。
背景技術:
1、命名實體識別是自然語言處理中的一個重要的基礎任務,能夠從非結構化文本中提取預定義的命名實體,例如人物、地點和組織機構。廣泛應用于關系抽取、問答系統(tǒng)和知識圖譜構建等領域。
2、早期的命名實體識別都是基于機器學習或者規(guī)則的,這些方法需要大量標記好的訓練數據和手工定制的規(guī)則,不僅代價高,還難以保持準確性和適應性。近年來,隨著深度學習和神經網絡的發(fā)展,命名實體識別取得了顯著的進展,人們在提升命名實體識別任務的精度上做了很多改進,但它們仍有很多問題。基于序列標注的方法無法高效地識別嵌套實體,基于枚舉的方法雖然能夠解決嵌套實體,但存在計算冗余大、負樣本過多(被分類為非實體的跨度)、無法識別長實體的問題。
技術實現思路
1、為了解決背景技術中存在的問題,本發(fā)明提供一種大數據中基于生成式跨度的命名實體識別方法,包括:將文本句子輸入訓練好的命名實體識別模型,輸出文本句子中的實體和實體的類別;其中,所述命名實體識別模型包括:特征提取模塊、候選跨度生成模塊和候選跨度分類模塊;
2、所述特征提取模塊用于對輸入文本句子進行特征提取得到文本句子中每個單詞的特征向量;
3、所述候選跨度生成模塊用于根據每個單詞的特征向量將文本句子中滿足預設條件的單詞作為跨度種子,并根據跨度種子生成候選跨度實體;
4、所述候選跨度分類模塊用于根據預設的模板對候選跨度實體進行分類得到該實體的類別。
5、優(yōu)選地,所述對輸入文本句子進行特征提取包括:
6、對輸入的文本句子通過第一bert模型進行編碼得到文本句子中每個單詞的詞嵌入向量表示文本句子中第i個單詞的詞嵌入向量;
7、利用第一bilstm模型為文本句子中的每個單詞生成字符嵌入,以獲得單詞的字符特征表示文本句子中第i個單詞的字符特征;
8、利用stanfordnlp對文本句子中每個單詞進行詞性標注,并將每個單詞的詞性標注信息通過第二bert模型進行編碼得到文本句子中每個單詞的詞性信息表示文本句子中第i個單詞的詞性信息;
9、將文本句子中每個單詞的詞嵌入向量字符特征和詞性信息拼接后輸入第二bilstm模型中進行特征處理得到每個單詞的特征向量hi,hi表示文本句子中第i個單詞的特征向量。
10、優(yōu)選地,所述根據每個單詞的特征向量將文本句子中滿足預設條件的單詞作為跨度種子包括:將文本句子中每個單詞的特征向量輸入第一mlp中預測每個單詞屬于跨度種子的概率,選擇概率大于設定閾值的單詞作為跨度種子。
11、優(yōu)選地,所述根據跨度種子生成候選跨度實體包括:
12、將跨度種子的特征向量分別和文本句子中每個單詞的特征向量進行拼接,將拼接后的特征輸入第二mlp中預測文本句子中每個單詞屬于候選跨度實體的開始單詞和結束單詞的概率,分別篩選概率最大的單詞作為候選跨度實體的開始單詞和結束單詞,并在文本句子中將候選跨度實體的開始單詞到結束單詞的文本作為候選跨度實體。
13、優(yōu)選地,所述根據預設的模板對候選跨度實體進行分類包括:
14、將候選跨度實體根據預設的模板生成如下句子t,表示為:
15、t={x,siisa[mask]entity}
16、其中,x表示輸入的文本句子,si表示第i個候選跨度實體,[mask]表示實體類別的掩碼;
17、將句子t輸入預訓練語言模型中,對[mask]這個位置的詞向量進行預測,將預測出的詞向量作為候選跨度實體的類別向量;
18、將候選跨度實體的類別向量輸入softmax進行分類得到候選跨度實體的實體類別。
19、優(yōu)選地,所述命名實體識別模型的訓練過程包括:
20、將訓練樣本輸入命名實體識別模型計算得到候選跨度實體和候選跨度實體的類別;其中,所述訓練樣本包括訓練文本句子、訓練文本句子中的多個實體標簽和每個實體標簽對應的實體類別標簽;
21、采用動態(tài)匹配算法匹配每個候選跨度實體對應的實體標簽,并計算候選跨度階段的損失;
22、根據候選跨度實體預測出的類別和候選跨度實體對應的實體標簽的實體類別標簽計算分類階段的損失;
23、將候選跨度階段的損失和分類階段的損失加權求和得到最終的損失,并根據最終的損失通過反向傳播梯度更新的方式對命名實體識別模型進行訓練,直至最終的損失收斂得到訓練好的命名實體識別模型。
24、優(yōu)選地,所述采用動態(tài)匹配算法匹配每個候選跨度實體對應的實體標簽包括:
25、針對每個候選跨度實體,計算候選跨度實體和訓練文本句子中實體標簽的匹配代價,選擇代價最小的實體標簽作為候選選跨度實體的實體標簽,其中,匹配代價的計算方式如下:
26、cost=2-iou(e,s)-iof(e,s)
27、
28、其中,cost表示匹配代價,e表示訓練文本句子中的實體標簽,s表示候選跨度實體。
29、優(yōu)選地,所述候選跨度階段的損失包括:
30、
31、其中,lproposal_span表示候選跨度階段的損失,smoothl1表示smoothl1損失函數;表示第i個候選跨度實體,表示第i個候選跨度實體的實體標簽;σis表示第i個候選跨度實體的實體標簽的開始單詞,表示候選跨度實體的開始單詞,σie表示第i個候選跨度實體的實體標簽的結束單詞;表示候選跨度實體的結束單詞。
32、優(yōu)選地,所述分類階段的損失包括:
33、
34、其中,lcls表示分類階段的損失,y=1表示候選跨度實體類別預測正確的時候,γ表示指數參數,表示第i個候選跨度實體是y這個類別的真實概率值;表示命名實體識別模型預測的第i個候選跨度實體是y這個類別的概率值。
35、優(yōu)選地,所述最終的損失包括:
36、l=α1lprpoposal_span+α2lcls
37、其中,l表示最終的損失,α1和α2表示權重參數,lprpoposal_span表示候選跨度階段的損失,lcls表示分類階段的損失。
38、本發(fā)明至少具有以下有益效果
39、本發(fā)明相能夠同時識別扁平實體和嵌套實體;本發(fā)明通過設計一種跨度種子-實體的動態(tài)匹配算法,為跨度種子分配不同的邊界擴展目標,使得跨度種子能夠充分地學習到不同實體的邊界信息,生成對應的候選跨度;同時,該方法由于不需要枚舉出所有的跨度,因此相較于基于跨度的嵌套命名實體識別方法耗時更短,僅需對跨度種子進行邊界擴展即可識別出句子中的實體信息。
40、本發(fā)明相較于現有的技術方案,在扁平實體和嵌套實體的識別上都有更高的精確度。在邊界檢測方面,本發(fā)明在對跨度種子擴展邊界時,不僅考慮了跨度種子自身的特征信息,還考慮其上下文的語義信息,將跨度種子與句子中的每個單詞進行交互,得到其左右邊界;在對候選跨度的分類方面,本發(fā)明使用提示學習的方法,將分類任務轉換為完形填空的形式,引導預訓練模型更好地理解實體所處的上下文語境,從而提高實體分類的準確率。