本技術(shù)涉及金融科技,尤其涉及一種文本生成方法和裝置、電子設備及存儲介質(zhì)。
背景技術(shù):
1、目前,在各個業(yè)務領域中,各個業(yè)務平臺常常需要利用神經(jīng)網(wǎng)絡模型來生成一些知識文本來為各個對象在業(yè)務活動中提供參考和指導。例如,對象a在剛開始參與到金融活動時,會需要一些包含有金融專業(yè)知識、金融行業(yè)科普等內(nèi)容的文本來了解各個金融活動.又例如,對象b在金融活動中執(zhí)行資源交互事務時,在一定程度上也需要依賴于包含有行業(yè)動態(tài)信息的文本進行指導。
2、但是,相關技術(shù)中,神經(jīng)網(wǎng)絡模型是根據(jù)固有的領域知識描述來生成知識文本的,在生成知識文本時,常常會存在著語義不連貫、信息不準確等問題,會導致知識文本的準確性低下。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的主要目的在于提出一種文本生成方法和裝置、電子設備及存儲介質(zhì),旨在提高生成知識文本的準確性。
2、為實現(xiàn)上述目的,本技術(shù)實施例的第一方面提出了一種文本生成方法,所述方法包括:
3、獲取樣本領域知識文本;
4、對所述樣本領域知識文本進行內(nèi)容截取,得到樣本知識文本、和樣本知識圖像;
5、對所述樣本知識文本進行第一特征提取,得到樣本文本嵌入向量,并對所述樣本知識圖像進行第二特征提取,得到樣本圖像嵌入向量;
6、對所述樣本文本嵌入向量、所述樣本圖像嵌入向量和預先獲取的知識圖譜編碼向量進行向量融合,得到樣本知識融合特征;
7、基于預設的生成器網(wǎng)絡對所述樣本知識融合特征進行文本生成,得到預測知識文本;
8、基于所述預測知識文本、和所述樣本領域知識文本的比較,訓練所述生成器網(wǎng)絡,得到文本生成模型;
9、將目標描述信息、和目標圖像信息輸入至所述文本生成模型進行文本生成,得到目標知識文本。
10、在一些實施例,所述知識圖譜編碼向量通過以下方式獲取到:
11、獲取通用領域知識文本;
12、對所述通用領域知識文本進行特征提取,得到多個通用實體元素、和多個通用關系元素;
13、基于所述多個通用實體元素、和所述多個通用關系元素,構(gòu)建知識圖譜,其中,所述知識圖譜包含有多個三元組,每個所述三元組包括第一實體、第二實體、和用于指示所述第一實體、和所述第二實體之間的關系的通用關系;
14、針對所述知識圖譜中的各個所述三元組,對所述三元組中的所述第一實體、所述第二實體、和所述通用關系進行嵌入處理,得到所述三元組對應的知識組合向量;
15、對多個所述知識組合向量進行平均池化,得到所述知識圖譜編碼向量。
16、在一些實施例,所述對所述樣本知識文本進行第一特征提取,得到樣本文本嵌入向量,包括:
17、對所述樣本知識文本進行分詞,得到多個樣本詞;
18、對所述多個樣本詞進行嵌入處理,得到所述樣本知識文本的樣本詞嵌入表示;
19、對所述樣本詞嵌入表示進行注意力計算,得到所述樣本文本嵌入向量。
20、在一些實施例,所述對所述樣本知識圖像進行第二特征提取,得到樣本圖像嵌入向量,包括:
21、對所述樣本知識圖像進行嵌入處理,得到樣本知識圖像嵌入特征;
22、對所述樣本知識圖像嵌入特征進行注意力計算,得到樣本圖像注意力特征;
23、對所述樣本圖像注意力特征進行前饋處理,得到所述樣本圖像嵌入向量。
24、在一些實施例,所述基于所述預測知識文本、和所述樣本領域知識文本的比較,訓練所述生成器網(wǎng)絡,得到所述文本生成模型,包括:
25、基于預設的判別器網(wǎng)絡對所述預測知識文本、和所述樣本領域知識文本進行相似度計算,得到文本相似概率;
26、基于所述文本相似概率的負對數(shù),得到樣本損失函數(shù);
27、基于所述樣本損失函數(shù),訓練所述生成器網(wǎng)絡,得到所述文本生成模型。
28、在一些實施例,所述文本生成模型包括特征提取網(wǎng)絡、和生成網(wǎng)絡;
29、所述將目標描述信息、和目標圖像信息輸入至所述文本生成模型進行文本生成,得到目標知識文本,包括:
30、基于所述特征提取網(wǎng)絡對所述目標描述信息進行文本特征提取,得到目標描述特征向量;
31、基于所述特征提取網(wǎng)絡對所述目標圖像信息進行圖像特征提取,得到目標圖像特征向量;
32、對所述目標描述特征向量和所述目標圖像特征向量進行拼接處理,得到目標拼接特征向量;
33、基于所述生成網(wǎng)絡對所述目標拼接特征向量進行文本生成,得到所述目標知識文本。
34、在一些實施例,所述對所述樣本領域知識文本進行內(nèi)容截取,得到樣本知識文本、和樣本知識圖像,包括:
35、對所述樣本領域知識文本進行句子提取,得到多個文本句子,并對所述樣本領域知識文本進行圖像提取,得到多個知識圖像;
36、基于預定句子長度和預定句子數(shù)目,在所述多個文本句子中篩選出樣本文本句子,并將所述樣本文本句子整合成所述樣本知識文本;
37、基于預定圖像尺寸和預定圖像數(shù)目,在所述多個知識圖像中篩選出樣本圖像,并將所述樣本圖像拼接成所述樣本知識圖像。
38、為實現(xiàn)上述目的,本技術(shù)實施例的第二方面提出了一種文本生成裝置,所述裝置包括:
39、獲取單元,用于獲取樣本領域知識文本;
40、截取單元,用于對所述樣本領域知識文本進行內(nèi)容截取,得到樣本知識文本、和樣本知識圖像;
41、提取單元,用于對所述樣本知識文本進行第一特征提取,得到樣本文本嵌入向量,并對所述樣本知識圖像進行第二特征提取,得到樣本圖像嵌入向量;
42、融合單元,用于對所述樣本文本嵌入向量、所述樣本圖像嵌入向量和預先獲取的知識圖譜編碼向量進行向量融合,得到樣本知識融合特征;
43、第一生成單元,用于基于預設的生成器網(wǎng)絡對所述樣本知識融合特征進行文本生成,得到預測知識文本;
44、訓練單元,用于基于所述預測知識文本、和所述樣本領域知識文本的比較,訓練所述生成器網(wǎng)絡,得到文本生成模型;
45、第二生成單元,用于將目標描述信息、和目標圖像信息輸入至所述文本生成模型進行文本生成,得到目標知識文本。
46、為實現(xiàn)上述目的,本技術(shù)實施例的第三方面提出了一種電子設備,所述電子設備包括存儲器、處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一方面所述的文本生成方法。
47、為實現(xiàn)上述目的,本技術(shù)實施例的第四方面提出了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面所述的文本生成方法。
48、本技術(shù)提出的文本生成方法和裝置、電子設備及存儲介質(zhì),其在模型訓練時,首先獲取樣本領域知識文本,并對樣本領域知識文本進行內(nèi)容截取,得到樣本知識文本、和樣本知識圖像,能夠提高樣本知識文本和樣本知識圖像的規(guī)范性和合理性,消除樣本領域知識文本的不相關內(nèi)容。進一步地,對樣本知識文本進行第一特征提取,得到樣本文本嵌入向量,并對樣本知識圖像進行第二特征提取,得到樣本圖像嵌入向量,能將樣本知識文本和樣本知識圖像轉(zhuǎn)換成生成器網(wǎng)絡可以接受的向量形式,再對樣本文本嵌入向量、樣本圖像嵌入向量和預先獲取的知識圖譜編碼向量進行向量融合,得到樣本知識融合特征,使預設的生成器網(wǎng)絡根據(jù)樣本知識融合特征進行文本生成,這一過程將知識圖譜編碼向量用于指導文本生成,能提高模型在生成知識文本過程中對于領域的通用實體關系的關注和學習,進而提高模型生成的預測知識文本的準確性。最后,基于預測知識文本、和樣本知識文本的比較,訓練生成器網(wǎng)絡,得到文本生成模型,能利用對比訓練的方式訓練出符合要求的文本生成模型,并將目標描述信息、和目標圖像信息輸入至文本生成模型進行文本生成,得到目標知識文本,從而提高文本生成模型生成知識文本的準確性。