基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào)：40383448發(fā)布日期：2024-12-20 12:06閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程

本發(fā)明涉及語音識(shí)別，尤其涉及一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、由于同聲傳譯使用場景中，說話者的說話節(jié)奏不是按照標(biāo)準(zhǔn)的自然語言進(jìn)行表達(dá)的，會(huì)導(dǎo)致獲取的說話者的很多音頻是長時(shí)間不停頓的，故需要對(duì)其進(jìn)行中斷以保證后續(xù)的輸出，而目前的直接中斷的方式很容易使得獲取到的音頻不完整，從而無法準(zhǔn)確識(shí)別被中斷的音頻位置，影響語音識(shí)別效果，并會(huì)導(dǎo)致后續(xù)翻譯結(jié)果出現(xiàn)發(fā)聲延遲等問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)，旨在解決現(xiàn)有技術(shù)方法中語音識(shí)別不準(zhǔn)確的問題。

2、第一方面，本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法，其中，所述方法應(yīng)用于管理服務(wù)器，所述方法包括：

3、將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型，以得到相應(yīng)的一階段語音識(shí)別文本，直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件；

4、根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句，所述斷句條件至少包括強(qiáng)制斷句條件；

5、若是，則確定相應(yīng)的斷句點(diǎn)，并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本；其中，與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn)；

6、將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本；

7、將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。

8、第二方面，本發(fā)明實(shí)施例還提供了一種基于大語言模型的語音識(shí)別裝置，其中，所述裝置應(yīng)用于管理服務(wù)器，所述裝置包括：

9、流式識(shí)別單元，用于將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型，以得到相應(yīng)的一階段語音識(shí)別文本，直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件；

10、斷句判斷單元，用于根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句，所述斷句條件至少包括強(qiáng)制斷句條件；

11、語音識(shí)別單元，用于若是，則確定相應(yīng)的斷句點(diǎn)，并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本；其中，與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn)；

12、文本修正單元，用于將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本；

13、目標(biāo)確定單元，用于將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。

14、第三方面，本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)設(shè)備，其中，所述設(shè)備包括處理器、通信接口、存儲(chǔ)器和通信總線，其中，處理器、通信接口、存儲(chǔ)器通過通信總線完成相互間的通信；

15、存儲(chǔ)器，用于存放計(jì)算機(jī)程序；

16、處理器，用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí)，實(shí)現(xiàn)上述第一方面所述的基于大語言模型的語音識(shí)別方法的步驟。

17、第四方面，本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其中，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于大語言模型的語音識(shí)別方法的步驟。

18、本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)，方法包括：將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型，以得到相應(yīng)的一階段語音識(shí)別文本，直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件；根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句，所述斷句條件至少包括強(qiáng)制斷句條件；若是，則確定相應(yīng)的斷句點(diǎn)，并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本；其中，與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn)；?將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本；將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。上述的基于大語言模型的語音識(shí)別方法應(yīng)用于管理服務(wù)器中，該方法能夠提高語音識(shí)別的準(zhǔn)確度，即通過大語言模型對(duì)斷句位置進(jìn)行修正和優(yōu)化，提高了語音內(nèi)容的還原度，使得識(shí)別出來的語音識(shí)別文本中的句子更為通順，以便在同聲傳譯過程中提高翻譯的準(zhǔn)確性和流暢性。

技術(shù)特征：

1.一種基于大語言模型的語音識(shí)別方法，其特征在于，所述方法應(yīng)用于管理服務(wù)器，所述方法包括：

2.根據(jù)權(quán)利要求1所述的基于大語言模型的語音識(shí)別方法，其特征在于，所述強(qiáng)制斷句條件包括字間停頓時(shí)長不超過預(yù)設(shè)時(shí)間閾值且當(dāng)前階段累計(jì)識(shí)別的字符數(shù)達(dá)到預(yù)設(shè)字符數(shù)量，所述根據(jù)預(yù)設(shè)的斷句條件以及一階段語音識(shí)別文本判斷所接收到的音頻流中是否需要斷句的步驟，包括：

3.根據(jù)權(quán)利要求2所述的基于大語言模型的語音識(shí)別方法，其特征在于，所述斷句條件還包括句末斷句條件，所述句末斷句條件包括字間停頓時(shí)長超過預(yù)設(shè)時(shí)間閾值，與所述句末斷句條件對(duì)應(yīng)的斷句點(diǎn)為第二斷句點(diǎn)，所述判斷所接收到的音頻流的字間停頓時(shí)長是否不超過預(yù)設(shè)時(shí)間閾值的步驟之后，還包括：

4.根據(jù)權(quán)利要求3所述的基于大語言模型的語音識(shí)別方法，其特征在于，所述將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本的步驟，包括；

5.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識(shí)別方法，其特征在于，所述第一中間文本包括第一主體內(nèi)容和末尾內(nèi)容，所述根據(jù)預(yù)處理規(guī)則對(duì)每個(gè)第一斷句點(diǎn)的前段子音頻流對(duì)應(yīng)的二階段子語音識(shí)別文本進(jìn)行預(yù)處理，以得到對(duì)應(yīng)的第一中間文本的步驟，包括：

6.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識(shí)別方法，其特征在于，所述方法還包括：

7.根據(jù)權(quán)利要求6所述的基于大語言模型的語音識(shí)別方法，其特征在于，所述第二中間文本包括第二主體內(nèi)容和首部內(nèi)容，所述根據(jù)預(yù)處理規(guī)則對(duì)每個(gè)第一斷句點(diǎn)的后段子音頻流對(duì)應(yīng)的二階段子語音識(shí)別文本進(jìn)行預(yù)處理，以得到對(duì)應(yīng)的第二中間文本的步驟，包括：

8.一種基于大語言模型的語音識(shí)別裝置，其特征在于，所述裝置應(yīng)用于管理服務(wù)器，所述裝置包括：

9.一種計(jì)算機(jī)設(shè)備，其特征在于，所述設(shè)備包括處理器、通信接口、存儲(chǔ)器和通信總線，其中，處理器、通信接口、存儲(chǔ)器通過通信總線完成相互間的通信；

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的基于大語言模型的語音識(shí)別方法的步驟。

技術(shù)總結(jié)
本發(fā)明公開了基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)，該方法應(yīng)用于管理服務(wù)器，包括將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型，以得到相應(yīng)的一階段語音識(shí)別文本；根據(jù)所確定的斷句點(diǎn)將音頻流按時(shí)間順序依次分割成若干段子音頻流，并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本；將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型，以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本，以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。本方法可提高語音識(shí)別的準(zhǔn)確度，通過大語言模型對(duì)斷句位置進(jìn)行修正和優(yōu)化，提高了語音內(nèi)容的還原度。

技術(shù)研發(fā)人員：李剛,程鵬
受保護(hù)的技術(shù)使用者：深圳市易思態(tài)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李剛,程鵬
技術(shù)所有人：深圳市易思態(tài)科技有限公司
我是此專利的發(fā)明人

上一篇：一種電力配網(wǎng)線損檢測裝置的制作方法
上一篇：一種干燥機(jī)用雙螺旋加熱送料一體傳輸裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程

基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程