本技術涉及事件分類,尤其涉及一種事件分類方法、電子設備及計算機可讀存儲介質。
背景技術:
1、事件數(shù)據中存在大量語義相近但分類標簽各異的情況,這些數(shù)據的分類不僅取決于訴求的語義描述,還受到特定關鍵詞的顯著影響。然而,事件分類器大多基于語義訓練,忽視了這些關鍵詞的稀疏特征,導致分類器在實際應用中難以準確把握事件的本質,從而產生了分類誤差。
技術實現(xiàn)思路
1、本技術實施例提供了一種事件分類方法、電子設備及計算機可讀存儲介質。
2、第一方面,本技術實施例提供了一種事件分類方法,該方法包括:
3、收集事件數(shù)據,事件數(shù)據包括多個事件與對應的人工標注類標簽;
4、對事件數(shù)據進行預處理;
5、基于預處理后的事件數(shù)據,生成事件數(shù)據的關鍵詞特征向量;
6、基于預處理后的事件數(shù)據,生成事件數(shù)據的語義特征向量;
7、融合關鍵詞特征向量和語義特征向量,得到融合后的特征向量;
8、基于融合后的特征向量和人工標注類標簽,訓練和優(yōu)化softmax多分類模型;
9、基于softmax多分類模型進行事件分類,得到事件的預測類標簽。
10、可選的,基于預處理后的事件數(shù)據,生成事件數(shù)據的關鍵詞特征向量包括:
11、基于詞頻-逆文檔頻率tf-idf算法對預處理后的事件數(shù)據進行關鍵詞提取,獲得每個事件的tf-idf值排名前三的詞作為每個事件的關鍵詞;
12、生成每個事件的關鍵詞向量,作為每個事件的關鍵詞特征向量。
13、可選的,生成每個事件的關鍵詞向量包括:
14、基于預訓練的word2vec模型生成每個事件的每個關鍵詞的向量;
15、對每個事件的所有關鍵詞的向量進行加權,得到每個事件的關鍵詞向量。
16、可選的,基于預處理后的事件數(shù)據,生成事件數(shù)據的語義特征向量包括:
17、基于微調的bert模型生成每個事件的隱藏狀態(tài)向量,作為每個事件的語義特征向量。
18、可選的,融合關鍵詞特征向量和語義特征向量,得到融合后的特征向量包括:
19、基于第一線性映射函數(shù),將關鍵詞特征向量和語義特征向量映射到相同的維度,第一線性映射函數(shù)的參數(shù)基于softmax多分類模型的訓練進行優(yōu)化;
20、基于注意力網絡,計算映射到相同的維度后的關鍵詞特征向量和語義特征向量的注意力權重,注意力網絡的參數(shù)基于softmax多分類模型的訓練進行優(yōu)化;
21、基于注意力權重,將映射到相同的維度后的關鍵詞特征向量和語義特征向量融合為一個向量。
22、可選的,softmax多分類模型的訓練和優(yōu)化基于第一交叉熵損失函數(shù)進行,第一交叉熵損失函數(shù)基于下式確定:
23、,
24、其中為交叉熵損失,為事件的總數(shù),為第個事件的真實類標簽,真實類標簽為經過復核的人工標注類標簽,為第個事件的預測類標簽。
25、可選的,softmax多分類模型的優(yōu)化還基于置信學習進行,置信學習用于對softmax多分類模型的訓練樣本進行清洗,清洗后的訓練樣本用于對softmax多分類模型進行再訓練,置信學習對訓練樣本進行清洗包括:
26、基于完成訓練后的softmax多分類模型,對訓練樣本進行交叉驗證,獲取訓練樣本中的事件的最大概率類標簽,在所有類標簽中事件在最大概率類標簽下的概率最大;
27、過濾訓練樣本中的人工標注類標簽與最大概率類標簽不同的事件。
28、第二方面,本技術實施例提供了一種電子設備,包括:
29、收集模塊,用于收集事件數(shù)據,事件數(shù)據包括多個事件與對應的人工標注類標簽;
30、預處理模塊,用于對事件數(shù)據進行預處理;
31、第一生成模塊,用于基于預處理后的事件數(shù)據,生成事件數(shù)據的關鍵詞特征向量;
32、第二生成模塊,用于基于預處理后的事件數(shù)據,生成事件數(shù)據的語義特征向量;
33、融合模塊,用于融合關鍵詞特征向量和語義特征向量,得到融合后的特征向量;
34、訓練和優(yōu)化模塊,用于基于融合后的特征向量和人工標注類標簽,訓練和優(yōu)化softmax多分類模型;
35、分類模塊,用于基于softmax多分類模型進行事件分類,得到事件的預測類標簽。
36、可選的,第一生成模塊包括:
37、提取模塊,用于基于詞頻-逆文檔頻率tf-idf算法對預處理后的事件數(shù)據進行關鍵詞提取,獲得每個事件的tf-idf值排名前三的詞作為每個事件的關鍵詞;
38、第一向量模塊,用于生成每個事件的關鍵詞向量,作為每個事件的關鍵詞特征向量。
39、可選的,第一向量模塊包括:
40、第一模塊,用于基于預訓練的word2vec模型生成每個事件的每個關鍵詞的向量;
41、第二模塊,用于對每個事件的所有關鍵詞的向量進行加權,得到每個事件的關鍵詞向量。
42、可選的,第二生成模塊包括:
43、第二向量模塊,用于基于微調的bert模型生成每個事件的隱藏狀態(tài)向量,作為每個事件的語義特征向量。
44、可選的,融合模塊包括:
45、映射模塊,用于基于第一線性映射函數(shù),將關鍵詞特征向量和語義特征向量映射到相同的維度,第一線性映射函數(shù)的參數(shù)基于softmax多分類模型的訓練進行優(yōu)化;
46、注意力模塊,用于基于注意力網絡,計算映射到相同的維度后的關鍵詞特征向量和語義特征向量的注意力權重,注意力網絡的參數(shù)基于softmax多分類模型的訓練進行優(yōu)化;
47、第三向量模塊,用于基于注意力權重,將映射到相同的維度后的關鍵詞特征向量和語義特征向量融合為一個向量。
48、可選的,softmax多分類模型的訓練和優(yōu)化基于第一交叉熵損失函數(shù)進行,第一交叉熵損失函數(shù)基于下式確定:
49、,
50、其中為交叉熵損失,為事件的總數(shù),為第個事件的真實類標簽,真實類標簽為經過復核的人工標注類標簽,為第個事件的預測類標簽。
51、可選的,softmax多分類模型的優(yōu)化還基于置信學習進行,置信學習用于對softmax多分類模型的訓練樣本進行清洗,清洗后的訓練樣本用于對softmax多分類模型進行再訓練,該電子設備還包括置信學習模塊,置信學習模塊用于:
52、基于完成訓練后的softmax多分類模型,對訓練樣本進行交叉驗證,獲取訓練樣本中的事件的最大概率類標簽,在所有類標簽中事件在最大概率類標簽下的概率最大;
53、過濾訓練樣本中的人工標注類標簽與最大概率類標簽不同的事件。
54、第三方面,本技術實施例提供了一種電子設備,包括存儲器、至少一個處理器以及存儲在存儲器中并可在處理器上運行的計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)如上述第一方面中任一項所述的方法。
55、第四方面,本技術實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面中任一項所述的方法。
56、第五方面,本技術實施例提供了一種計算機程序產品,當計算機程序產品在電子設備上運行時,使得電子設備執(zhí)行上述第一方面中任一項所述的方法。
57、基于本技術,可以分別提取事件中稀疏的關鍵詞特征和稠密的語義特征進行融合,并基于融合后的特征和人工標注類標簽對softmax多分類模型進行訓練和優(yōu)化,有助于提高事件分類的準確性和效率。