本發(fā)明涉及語音識(shí)別,尤其涉及一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、由于同聲傳譯使用場景中,說話者的說話節(jié)奏不是按照標(biāo)準(zhǔn)的自然語言進(jìn)行表達(dá)的,會(huì)導(dǎo)致獲取的說話者的很多音頻是長時(shí)間不停頓的,故需要對(duì)其進(jìn)行中斷以保證后續(xù)的輸出,而目前的直接中斷的方式很容易使得獲取到的音頻不完整,從而無法準(zhǔn)確識(shí)別被中斷的音頻位置,影響語音識(shí)別效果,并會(huì)導(dǎo)致后續(xù)翻譯結(jié)果出現(xiàn)發(fā)聲延遲等問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì),旨在解決現(xiàn)有技術(shù)方法中語音識(shí)別不準(zhǔn)確的問題。
2、第一方面,本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法,其中,所述方法應(yīng)用于管理服務(wù)器,所述方法包括:
3、將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型,以得到相應(yīng)的一階段語音識(shí)別文本,直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件;
4、根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句,所述斷句條件至少包括強(qiáng)制斷句條件;
5、若是,則確定相應(yīng)的斷句點(diǎn),并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流,并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本;其中,與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn);
6、將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本;
7、將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合,以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。
8、第二方面,本發(fā)明實(shí)施例還提供了一種基于大語言模型的語音識(shí)別裝置,其中,所述裝置應(yīng)用于管理服務(wù)器,所述裝置包括:
9、流式識(shí)別單元,用于將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型,以得到相應(yīng)的一階段語音識(shí)別文本,直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件;
10、斷句判斷單元,用于根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句,所述斷句條件至少包括強(qiáng)制斷句條件;
11、語音識(shí)別單元,用于若是,則確定相應(yīng)的斷句點(diǎn),并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流,并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本;其中,與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn);
12、文本修正單元,用于將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本;
13、目標(biāo)確定單元,用于將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合,以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。
14、第三方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)設(shè)備,其中,所述設(shè)備包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器、通信接口、存儲(chǔ)器通過通信總線完成相互間的通信;
15、存儲(chǔ)器,用于存放計(jì)算機(jī)程序;
16、處理器,用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí),實(shí)現(xiàn)上述第一方面所述的基于大語言模型的語音識(shí)別方法的步驟。
17、第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于大語言模型的語音識(shí)別方法的步驟。
18、本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì),方法包括:將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型,以得到相應(yīng)的一階段語音識(shí)別文本,直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件;根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句,所述斷句條件至少包括強(qiáng)制斷句條件;若是,則確定相應(yīng)的斷句點(diǎn),并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流,并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本;其中,與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn);?將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本;將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合,以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。上述的基于大語言模型的語音識(shí)別方法應(yīng)用于管理服務(wù)器中,該方法能夠提高語音識(shí)別的準(zhǔn)確度,即通過大語言模型對(duì)斷句位置進(jìn)行修正和優(yōu)化,提高了語音內(nèi)容的還原度,使得識(shí)別出來的語音識(shí)別文本中的句子更為通順,以便在同聲傳譯過程中提高翻譯的準(zhǔn)確性和流暢性。
1.一種基于大語言模型的語音識(shí)別方法,其特征在于,所述方法應(yīng)用于管理服務(wù)器,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述強(qiáng)制斷句條件包括字間停頓時(shí)長不超過預(yù)設(shè)時(shí)間閾值且當(dāng)前階段累計(jì)識(shí)別的字符數(shù)達(dá)到預(yù)設(shè)字符數(shù)量,所述根據(jù)預(yù)設(shè)的斷句條件以及一階段語音識(shí)別文本判斷所接收到的音頻流中是否需要斷句的步驟,包括:
3.根據(jù)權(quán)利要求2所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述斷句條件還包括句末斷句條件,所述句末斷句條件包括字間停頓時(shí)長超過預(yù)設(shè)時(shí)間閾值,與所述句末斷句條件對(duì)應(yīng)的斷句點(diǎn)為第二斷句點(diǎn),所述判斷所接收到的音頻流的字間停頓時(shí)長是否不超過預(yù)設(shè)時(shí)間閾值的步驟之后,還包括:
4.根據(jù)權(quán)利要求3所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本的步驟,包括;
5.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述第一中間文本包括第一主體內(nèi)容和末尾內(nèi)容,所述根據(jù)預(yù)處理規(guī)則對(duì)每個(gè)第一斷句點(diǎn)的前段子音頻流對(duì)應(yīng)的二階段子語音識(shí)別文本進(jìn)行預(yù)處理,以得到對(duì)應(yīng)的第一中間文本的步驟,包括:
6.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求6所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述第二中間文本包括第二主體內(nèi)容和首部內(nèi)容,所述根據(jù)預(yù)處理規(guī)則對(duì)每個(gè)第一斷句點(diǎn)的后段子音頻流對(duì)應(yīng)的二階段子語音識(shí)別文本進(jìn)行預(yù)處理,以得到對(duì)應(yīng)的第二中間文本的步驟,包括:
8.一種基于大語言模型的語音識(shí)別裝置,其特征在于,所述裝置應(yīng)用于管理服務(wù)器,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述設(shè)備包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器、通信接口、存儲(chǔ)器通過通信總線完成相互間的通信;
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的基于大語言模型的語音識(shí)別方法的步驟。