本發(fā)明涉及文本分類,尤其涉及基于llm模型的語音處理方法、系統(tǒng)、電子設備及存儲介質(zhì)。
背景技術:
1、傳統(tǒng)的bert對于長文本理解能力有限,不能有效學習到更多的上下文信息。其次,它不能更好地處理多樣性,對更多的詞匯和語法規(guī)則理解不透徹。此外,它不能更好地處理歧義,對于更多的語境信息理解不清晰。
2、另外,由于訓練樣本的差異,大型模型對于同樣的文本的理解能力存在不一致的情況。這導致了在處理相同文本時,不同模型的理解能力存在差異。為了提升文本分類的效果,我們采用了多個大型語言模型(llm)進行實驗,并通過投票的方式輸出文本分類結(jié)果,以期獲得最優(yōu)效果。
技術實現(xiàn)思路
1、本發(fā)明實施例提供了一種基于llm模型的語音處理方法、系統(tǒng)、電子設備及存儲介質(zhì),旨在解決傳統(tǒng)客戶聲音訴求分類方法中存在的主觀性強、分類結(jié)果不穩(wěn)定等問題。。
2、本發(fā)明的技術方案為:
3、第一方面,本技術提供了一種基于llm模型的語音處理方法,其特征在于,包括:
4、獲取在同一硬件平臺上的多個語言識別學習模型,確保所有語言識別學習模型運行在公平的資源環(huán)境下;
5、獲取發(fā)聲訴求文本數(shù)據(jù),將該發(fā)聲訴求文本數(shù)據(jù)分別輸入至各語言識別學習模型中;
6、并行運行所有語言識別學習模型,將該發(fā)聲訴求文本數(shù)據(jù)與語言識別學習模型訴求標簽庫中的訴求標簽進行比對分析預測,各語言識別學習模型輸出各自的預測結(jié)果,其中預測結(jié)果包括該預測結(jié)果在語言識別學習模型訴求標簽庫中的權(quán)重信息;
7、根據(jù)權(quán)重信息對各語言識別學習模型輸出的預測結(jié)果進行統(tǒng)計評分,根據(jù)評分的高低獲取最匹配的發(fā)聲訴求文本數(shù)據(jù)識別結(jié)果。
8、進一步地,所述將該發(fā)聲訴求文本數(shù)據(jù)與語言識別學習模型訴求標簽庫中的訴求標簽進行比對分析預測,各語言識別學習模型輸出各自的預測結(jié)果的具體方法包括:
9、對訴求標簽庫中的訴求標簽進行數(shù)據(jù)清洗,數(shù)據(jù)清洗后進行特征提??;
10、對特征向量進行聚類并得到初步的預處理,確定聚類中心標簽,調(diào)整聚類邊界,然后迭代更新聚類中心和邊界;
11、基于每個簇內(nèi)標簽的數(shù)量計算其權(quán)重,其中,簇內(nèi)標簽數(shù)量越多,對應的聚類中心標簽權(quán)重越大,反之,權(quán)重越小。
12、進一步地,所述對特征向量進行聚類并得到初步的聚類結(jié)果,確定聚類中心標簽,調(diào)整聚類邊界,然后迭代更新聚類中心和邊界包括:
13、通過k-means算法對預處理后的標簽特征向量進行聚類,以確定最優(yōu)的聚類數(shù)量k,并得到初步的聚類結(jié)果;
14、選取每個簇的質(zhì)心作為該簇的代表標簽,即聚類中心標簽;
15、采用貪婪算法逐步調(diào)整聚類邊界,以優(yōu)化聚類結(jié)果。
16、進一步地,所述采用貪婪算法逐步調(diào)整聚類邊界,以優(yōu)化聚類結(jié)果的方法包括:
17、a1、通過k-means算法確定初始聚類中心;
18、a2、基于初始聚類結(jié)果確定初始化每個簇的邊界;
19、a3、獲取每個簇內(nèi)所有點到其聚類中心的相似度;
20、a4、獲取不同簇之間聚類中心的相似度;
21、a5、對標簽進行調(diào)整迭代;
22、a6、通過將所選標簽從一個簇移動到另一個簇的方式調(diào)整聚類邊界;
23、a7、在標簽移動后,重新計算每個簇的聚類中心;
24、a8、重復a5至a7,直至達到預設的迭代次數(shù)、聚類邊界調(diào)整對總相似度的影響小于某個閾值。
25、進一步地,所述通過k-means算法對預處理后的標簽特征向量進行聚類以確定最優(yōu)的聚類數(shù)量k的方法包括:對于不同的k值運行k-means算法,計算每個k值對應的總平方誤差,獲取總平方誤差與k的關系圖,選擇總平均誤差下降幅度開始減小的點作為k值或?qū)τ诓煌膋值,獲取每個樣本的輪廓系數(shù),選擇輪廓系數(shù)平均值最高的值作為k值,或?qū)τ诿總€k值,計算k-means聚類的總平均誤差和一個參照數(shù)據(jù)集的總平均誤差,參照數(shù)據(jù)集是通過在原數(shù)據(jù)集上添加隨機噪聲生成的,然后計算兩者的差值,并選擇差值最大的作為k值。
26、進一步地,輸入至各語言識別學習模型時需要將所述發(fā)聲訴求文本數(shù)據(jù)的格式統(tǒng)一。
27、進一步地,根據(jù)權(quán)重信息對各語言識別學習模型輸出的預測結(jié)果進行統(tǒng)計評分,根據(jù)評分的高低獲取最匹配的發(fā)聲訴求文本數(shù)據(jù)識別結(jié)果的具體方法包括:
28、當各語言識別學習模型輸出的訴求標簽的內(nèi)容不同時,對每個模型輸出的訴求標簽進行權(quán)重計算,統(tǒng)計每個標簽的權(quán)重信息,選擇訴求標簽權(quán)重最高的訴求標簽做為本次發(fā)聲訴求文本數(shù)據(jù)最匹配的識別結(jié)果標簽;
29、當各語言識別學習模型輸出的訴求標簽的內(nèi)容存在相同時,對每個模型輸出的相同內(nèi)容的訴求標簽進行權(quán)重計算,對相同內(nèi)容的訴求標簽的權(quán)重信息進行求和,再將各求和后的權(quán)重信息進行比較,選擇得分最高的權(quán)重信息對應的訴求標簽做為本次發(fā)聲訴求文本數(shù)據(jù)最匹配的識別結(jié)果標簽。
30、第二方面,本技術還提供了一種基于llm模型的語音處理系統(tǒng),其特征在于,包括:
31、語言識別學習模型獲取單元,用于獲取在同一硬件平臺上的多個語言識別學習模型,確保所有語言識別學習模型運行在公平的資源環(huán)境下;
32、發(fā)聲訴求文本數(shù)據(jù)獲取單元,用于獲取發(fā)聲訴求文本數(shù)據(jù),將該發(fā)聲訴求文本數(shù)據(jù)分別輸入至各語言識別學習模型中;
33、預測結(jié)果輸出單元,用于并行運行所有語言識別學習模型,將該發(fā)聲訴求文本數(shù)據(jù)與各語言識別學習模型訴求標簽庫中的訴求標簽進行比對分析預測,各語言識別學習模型輸出各自的預測結(jié)果,其中預測結(jié)果包括該預測結(jié)果在語言識別學習模型訴求標簽庫中的權(quán)重信息;
34、最匹配的發(fā)聲訴求文本數(shù)據(jù)識別結(jié)果獲取單元,根據(jù)權(quán)重信息對各語言識別學習模型輸出的預測結(jié)果進行統(tǒng)計評分,根據(jù)評分的高低獲取最匹配的發(fā)聲訴求文本數(shù)據(jù)識別結(jié)果。
35、進一步地,所述發(fā)聲訴求文本數(shù)據(jù)獲取單元還包括文本數(shù)據(jù)格式統(tǒng)一單元,所述文本數(shù)據(jù)格式統(tǒng)一單元用于對輸入至各語言識別學習模型的發(fā)聲訴求文本數(shù)據(jù)的格式進行統(tǒng)一。
36、進一步地,最匹配的發(fā)聲訴求文本數(shù)據(jù)識別結(jié)果獲取單元包括文本數(shù)據(jù)權(quán)重計算比較單元,所述文本數(shù)據(jù)權(quán)重計算比較單元用于
37、當各語言識別學習模型輸出的訴求標簽的內(nèi)容不同時,對每個模型輸出的訴求標簽進行權(quán)重計算,統(tǒng)計每個標簽的權(quán)重信息,選擇訴求標簽權(quán)重最高的訴求標簽做為本次發(fā)聲訴求文本數(shù)據(jù)最匹配的識別結(jié)果標簽;
38、當各語言識別學習模型輸出的訴求標簽的內(nèi)容存在相同時,對每個模型輸出的相同內(nèi)容的訴求標簽進行權(quán)重計算,對相同內(nèi)容的訴求標簽的權(quán)重信息進行求和,再將各求和后的權(quán)重信息進行比較,選擇得分最高的權(quán)重信息對應的訴求標簽做為本次發(fā)聲訴求文本數(shù)據(jù)最匹配的識別結(jié)果標簽。
39、第三方面,本技術還提供了一種計算機存儲介質(zhì),其特征在于:所述計算機存儲介質(zhì)存儲有多條指令,所述指令適于由處理器加載并執(zhí)行上述的方法步驟。
40、第四方面,本技術還提供了一種電子設備,其特征在于,包括處理器和存儲器,所述存儲器存儲有計算機程序,所述計算機程序適于由所述處理器加載并執(zhí)行上述的方法步驟。
41、本技術一些實施例提供的技術方案帶來的有益效果至少包括:本技術摒棄了傳統(tǒng)小模型的對長文本理解能力有限,不能有效學習到更多的上下文信息的問題,其次,基于多個大模型的語言識別學習模型,可以對多樣性的詞匯和語法規(guī)則理解更加透徹,此外,可以更好地處理歧義,對于更多的語境信息理解更加清晰,通過引入多個大模型的語言識別學習模型,可以提高分類的準確性和穩(wěn)定性;評分比較的方式可以充分考慮各個模型的預測結(jié)果,減少了主觀性的影響,提高了預測的客觀性和穩(wěn)定性。