本發(fā)明屬于機(jī)器學(xué)習(xí),具體涉及一種用于金融大模型的智能轉(zhuǎn)錄方法、系統(tǒng)及程序產(chǎn)品。
背景技術(shù):
1、金融大模型是一種基于大數(shù)據(jù)、云計(jì)算和人工智能的金融服務(wù)平臺(tái),它將傳統(tǒng)金融業(yè)務(wù)與新興科技相結(jié)合,通過(guò)深度挖掘海量數(shù)據(jù),實(shí)現(xiàn)對(duì)客戶(hù)需求的快速響應(yīng)。這種模型主要依賴(lài)于大數(shù)據(jù)技術(shù),并在基礎(chǔ)模型上進(jìn)行微調(diào),以適應(yīng)金融產(chǎn)業(yè)的特定需求。金融大模型的開(kāi)發(fā)需要大量的訓(xùn)練語(yǔ)料,而傳統(tǒng)的金融大模型訓(xùn)練語(yǔ)料獲得方式,是通過(guò)人工搜集大量金融類(lèi)文本并進(jìn)行詞句拆解和標(biāo)注完成的,十分耗費(fèi)人力,且效率也不高,亟需改進(jìn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種用于金融大模型的智能轉(zhuǎn)錄方法、系統(tǒng)及程序產(chǎn)品,用以解決現(xiàn)有技術(shù)中存在的上述問(wèn)題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,提供一種用于金融大模型的智能轉(zhuǎn)錄方法,包括:
4、采集用于制作金融大模型訓(xùn)練語(yǔ)料的金融類(lèi)語(yǔ)音,并將金融類(lèi)語(yǔ)音轉(zhuǎn)化為對(duì)應(yīng)的金融語(yǔ)音信號(hào);
5、對(duì)金融語(yǔ)音信號(hào)進(jìn)行設(shè)定分解層數(shù)的小波變換處理,得到各層對(duì)應(yīng)的小波變換系數(shù);
6、基于設(shè)定的小波閾值對(duì)各小波變換系數(shù)進(jìn)行閾值濾波處理,得到各小波變換系數(shù)對(duì)應(yīng)的改進(jìn)系數(shù);
7、基于各小波變換系數(shù)對(duì)應(yīng)的改進(jìn)系數(shù)進(jìn)行小波重構(gòu)處理,得到降噪后的金融語(yǔ)音信號(hào);
8、對(duì)降噪后的金融語(yǔ)音信號(hào)進(jìn)行特征提取,得到對(duì)應(yīng)的語(yǔ)音信號(hào)特征,并將語(yǔ)音信號(hào)特征輸入預(yù)置的語(yǔ)音識(shí)別模型中進(jìn)行語(yǔ)音識(shí)別處理,得到對(duì)應(yīng)的轉(zhuǎn)錄文本;
9、對(duì)轉(zhuǎn)錄文本進(jìn)行關(guān)鍵詞提取,得到若干金融關(guān)鍵詞,并對(duì)轉(zhuǎn)錄文本進(jìn)行句法分析處理,得到各金融關(guān)鍵詞對(duì)應(yīng)的上下文依存關(guān)系;
10、利用各金融關(guān)鍵詞及其上下文依存關(guān)系組成對(duì)應(yīng)的金融訓(xùn)練語(yǔ)料,將對(duì)應(yīng)金融訓(xùn)練語(yǔ)料編入語(yǔ)料庫(kù)中,所述語(yǔ)料庫(kù)用于對(duì)金融大模型進(jìn)行語(yǔ)料訓(xùn)練。
11、在一個(gè)可能的設(shè)計(jì)中,所述對(duì)金融語(yǔ)音信號(hào)進(jìn)行設(shè)定分解層數(shù)的小波變換處理,得到各層對(duì)應(yīng)的小波變換系數(shù),包括:
12、采用db4小波基函數(shù)對(duì)金融語(yǔ)音信號(hào)進(jìn)行4層小波分解,得到各層對(duì)應(yīng)的小波變換系數(shù)。
13、在一個(gè)可能的設(shè)計(jì)中,所述基于設(shè)定的小波閾值對(duì)各小波變換系數(shù)進(jìn)行閾值濾波處理,得到各小波變換系數(shù)對(duì)應(yīng)的改進(jìn)系數(shù),包括:
14、將設(shè)定的小波閾值及對(duì)應(yīng)的小波變換系數(shù)代入預(yù)置的小波閾值函數(shù)中進(jìn)行閾值濾波處理,得到小波變換系數(shù)對(duì)應(yīng)的改進(jìn)系數(shù),所述小波閾值函數(shù)為
15、
16、其中,x表征小波變換系數(shù),y表征小波變換系數(shù)x對(duì)應(yīng)的改進(jìn)系數(shù),sgn表征階躍函數(shù),λ為設(shè)定的小波閾值,δ為設(shè)定的第一系數(shù),且δ∈(0,1),ω為設(shè)定的第二系數(shù),且ω>1;所述小波閾值λ表示為
17、
18、其中,j為小波變換的分解層數(shù),σ為設(shè)定的噪聲方差,n表征金融語(yǔ)音信號(hào)的信號(hào)長(zhǎng)度。
19、在一個(gè)可能的設(shè)計(jì)中,所述金融語(yǔ)音信號(hào)表示為,其中,t為時(shí)間參數(shù),為金融語(yǔ)音信號(hào),為金融語(yǔ)音信號(hào)中不含噪聲的信號(hào)分量,為金融語(yǔ)音信號(hào)中的噪聲信號(hào)分量。
20、在一個(gè)可能的設(shè)計(jì)中,所述對(duì)降噪后的金融語(yǔ)音信號(hào)進(jìn)行特征提取,得到對(duì)應(yīng)的語(yǔ)音信號(hào)特征,包括:
21、采用梅爾頻率倒譜系數(shù)算法對(duì)降噪后的金融語(yǔ)音信號(hào)進(jìn)行梅爾頻率倒譜特征提取,得到金融語(yǔ)音信號(hào)的梅爾頻率倒譜特征。
22、在一個(gè)可能的設(shè)計(jì)中,所述將語(yǔ)音信號(hào)特征輸入預(yù)置的語(yǔ)音識(shí)別模型中進(jìn)行語(yǔ)音識(shí)別處理,得到對(duì)應(yīng)的轉(zhuǎn)錄文本,包括:
23、將金融語(yǔ)音信號(hào)的梅爾頻率倒譜特征輸入預(yù)置的語(yǔ)音識(shí)別模型中進(jìn)行語(yǔ)音識(shí)別處理,得到對(duì)應(yīng)的轉(zhuǎn)錄文本,所述語(yǔ)音識(shí)別模型采用經(jīng)過(guò)訓(xùn)練的whisper語(yǔ)音識(shí)別模型。
24、在一個(gè)可能的設(shè)計(jì)中,所述對(duì)轉(zhuǎn)錄文本進(jìn)行關(guān)鍵詞提取,得到若干金融關(guān)鍵詞,并對(duì)轉(zhuǎn)錄文本進(jìn)行句法分析處理,得到各金融關(guān)鍵詞對(duì)應(yīng)的上下文依存關(guān)系,包括:
25、采用基于word2vec詞聚類(lèi)的關(guān)鍵詞提取方法對(duì)轉(zhuǎn)錄文本進(jìn)行關(guān)鍵詞提取,得到若干金融關(guān)鍵詞,并采用arc-standard方法對(duì)轉(zhuǎn)錄文本進(jìn)行依存關(guān)系分析,得到各金融關(guān)鍵詞對(duì)應(yīng)的上下文依存關(guān)系,所述上下文依存關(guān)系包括上下文依存詞及對(duì)應(yīng)的依存關(guān)系類(lèi)型。
26、第二方面,提供一種用于金融大模型的智能轉(zhuǎn)錄系統(tǒng),包括語(yǔ)音采集單元、信號(hào)分解單元、閾值濾波單元、信號(hào)重構(gòu)單元、語(yǔ)音識(shí)別單元、文本解析單元和語(yǔ)料構(gòu)建單元,其中:
27、語(yǔ)音采集單元,用于采集用于制作金融大模型訓(xùn)練語(yǔ)料的金融類(lèi)語(yǔ)音,并將金融類(lèi)語(yǔ)音轉(zhuǎn)化為對(duì)應(yīng)的金融語(yǔ)音信號(hào);
28、信號(hào)分解單元,用于對(duì)金融語(yǔ)音信號(hào)進(jìn)行設(shè)定分解層數(shù)的小波變換處理,得到各層對(duì)應(yīng)的小波變換系數(shù);
29、閾值濾波單元,用于基于設(shè)定的小波閾值對(duì)各小波變換系數(shù)進(jìn)行閾值濾波處理,得到各小波變換系數(shù)對(duì)應(yīng)的改進(jìn)系數(shù);
30、信號(hào)重構(gòu)單元,用于基于各小波變換系數(shù)對(duì)應(yīng)的改進(jìn)系數(shù)進(jìn)行小波重構(gòu)處理,得到降噪后的金融語(yǔ)音信號(hào);
31、語(yǔ)音識(shí)別單元,用于對(duì)降噪后的金融語(yǔ)音信號(hào)進(jìn)行特征提取,得到對(duì)應(yīng)的語(yǔ)音信號(hào)特征,并將語(yǔ)音信號(hào)特征輸入預(yù)置的語(yǔ)音識(shí)別模型中進(jìn)行語(yǔ)音識(shí)別處理,得到對(duì)應(yīng)的轉(zhuǎn)錄文本;
32、文本解析單元,用于對(duì)轉(zhuǎn)錄文本進(jìn)行關(guān)鍵詞提取,得到若干金融關(guān)鍵詞,并對(duì)轉(zhuǎn)錄文本進(jìn)行句法分析處理,得到各金融關(guān)鍵詞對(duì)應(yīng)的上下文依存關(guān)系;
33、語(yǔ)料構(gòu)建單元,用于利用各金融關(guān)鍵詞及其上下文依存關(guān)系組成對(duì)應(yīng)的金融訓(xùn)練語(yǔ)料,將對(duì)應(yīng)金融訓(xùn)練語(yǔ)料編入語(yǔ)料庫(kù)中,所述語(yǔ)料庫(kù)用于對(duì)金融大模型進(jìn)行語(yǔ)料訓(xùn)練。
34、第三方面,提供一種用于金融大模型的智能轉(zhuǎn)錄系統(tǒng),包括:
35、存儲(chǔ)器,用于存儲(chǔ)指令;
36、處理器,用于讀取所述存儲(chǔ)器中存儲(chǔ)的指令,并根據(jù)指令執(zhí)行上述第一方面中任意一種所述的方法。
37、第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令,當(dāng)所述指令在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)執(zhí)行第一方面中任意一種所述的方法。同時(shí),還提供一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),執(zhí)行第一方面中任意一種所述的方法。
38、有益效果:本發(fā)明通過(guò)采集用于制作金融大模型訓(xùn)練語(yǔ)料的金融類(lèi)語(yǔ)音信號(hào)進(jìn)行相應(yīng)的小波分解、改進(jìn)小波閾值濾波和小波重構(gòu)處理,得到降噪信號(hào),然后對(duì)降噪信號(hào)進(jìn)行相應(yīng)的特征提取和語(yǔ)音識(shí)別,得到對(duì)應(yīng)的轉(zhuǎn)錄文本,再對(duì)轉(zhuǎn)錄文本進(jìn)行金融關(guān)鍵詞提取和句法分析處理,構(gòu)建相應(yīng)的金融訓(xùn)練語(yǔ)料編入用于對(duì)金融大模型進(jìn)行語(yǔ)料訓(xùn)練的語(yǔ)料庫(kù),可以實(shí)現(xiàn)從語(yǔ)音到金融大模型訓(xùn)練語(yǔ)料的智能化轉(zhuǎn)錄。本發(fā)明通過(guò)相應(yīng)的語(yǔ)音信號(hào)處理識(shí)別以及轉(zhuǎn)錄文本解析,可以快速、可靠地將金融類(lèi)語(yǔ)音自動(dòng)轉(zhuǎn)錄成相應(yīng)的金融大模型訓(xùn)練語(yǔ)料,以替代傳統(tǒng)人工搜集文本并標(biāo)注金融大模型訓(xùn)練語(yǔ)料的方式,顯著提升金融大模型訓(xùn)練語(yǔ)料的處理效率,有助于實(shí)現(xiàn)金融大模型的自動(dòng)化語(yǔ)料訓(xùn)練。
1.一種用于金融大模型的智能轉(zhuǎn)錄方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種用于金融大模型的智能轉(zhuǎn)錄方法,其特征在于,所述對(duì)金融語(yǔ)音信號(hào)進(jìn)行設(shè)定分解層數(shù)的小波變換處理,得到各層對(duì)應(yīng)的小波變換系數(shù),包括:
3.根據(jù)權(quán)利要求1所述的一種用于金融大模型的智能轉(zhuǎn)錄方法,其特征在于,所述基于設(shè)定的小波閾值對(duì)各小波變換系數(shù)進(jìn)行閾值濾波處理,得到各小波變換系數(shù)對(duì)應(yīng)的改進(jìn)系數(shù),包括:
4.根據(jù)權(quán)利要求3所述的一種用于金融大模型的智能轉(zhuǎn)錄方法,其特征在于,所述金融語(yǔ)音信號(hào)表示為,其中,t為時(shí)間參數(shù),為金融語(yǔ)音信號(hào),為金融語(yǔ)音信號(hào)中不含噪聲的信號(hào)分量,為金融語(yǔ)音信號(hào)中的噪聲信號(hào)分量。
5.根據(jù)權(quán)利要求1所述的一種用于金融大模型的智能轉(zhuǎn)錄方法,其特征在于,所述對(duì)降噪后的金融語(yǔ)音信號(hào)進(jìn)行特征提取,得到對(duì)應(yīng)的語(yǔ)音信號(hào)特征,包括:
6.根據(jù)權(quán)利要求5所述的一種用于金融大模型的智能轉(zhuǎn)錄方法,其特征在于,所述將語(yǔ)音信號(hào)特征輸入預(yù)置的語(yǔ)音識(shí)別模型中進(jìn)行語(yǔ)音識(shí)別處理,得到對(duì)應(yīng)的轉(zhuǎn)錄文本,包括:
7.根據(jù)權(quán)利要求1所述的一種用于金融大模型的智能轉(zhuǎn)錄方法,其特征在于,所述對(duì)轉(zhuǎn)錄文本進(jìn)行關(guān)鍵詞提取,得到若干金融關(guān)鍵詞,并對(duì)轉(zhuǎn)錄文本進(jìn)行句法分析處理,得到各金融關(guān)鍵詞對(duì)應(yīng)的上下文依存關(guān)系,包括:
8.一種用于金融大模型的智能轉(zhuǎn)錄系統(tǒng),其特征在于,包括語(yǔ)音采集單元、信號(hào)分解單元、閾值濾波單元、信號(hào)重構(gòu)單元、語(yǔ)音識(shí)別單元、文本解析單元和語(yǔ)料構(gòu)建單元,其中:
9.一種用于金融大模型的智能轉(zhuǎn)錄系統(tǒng),其特征在于,包括:
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),執(zhí)行權(quán)利要求1-7任意一項(xiàng)所述的用于金融大模型的智能轉(zhuǎn)錄方法。