国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程

      文檔序號(hào):40383448發(fā)布日期:2024-12-20 12:06閱讀:8來源:國知局
      基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程

      本發(fā)明涉及語音識(shí)別,尤其涉及一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì)。


      背景技術(shù):

      1、由于同聲傳譯使用場景中,說話者的說話節(jié)奏不是按照標(biāo)準(zhǔn)的自然語言進(jìn)行表達(dá)的,會(huì)導(dǎo)致獲取的說話者的很多音頻是長時(shí)間不停頓的,故需要對(duì)其進(jìn)行中斷以保證后續(xù)的輸出,而目前的直接中斷的方式很容易使得獲取到的音頻不完整,從而無法準(zhǔn)確識(shí)別被中斷的音頻位置,影響語音識(shí)別效果,并會(huì)導(dǎo)致后續(xù)翻譯結(jié)果出現(xiàn)發(fā)聲延遲等問題。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì),旨在解決現(xiàn)有技術(shù)方法中語音識(shí)別不準(zhǔn)確的問題。

      2、第一方面,本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法,其中,所述方法應(yīng)用于管理服務(wù)器,所述方法包括:

      3、將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型,以得到相應(yīng)的一階段語音識(shí)別文本,直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件;

      4、根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句,所述斷句條件至少包括強(qiáng)制斷句條件;

      5、若是,則確定相應(yīng)的斷句點(diǎn),并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流,并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本;其中,與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn);

      6、將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本;

      7、將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合,以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。

      8、第二方面,本發(fā)明實(shí)施例還提供了一種基于大語言模型的語音識(shí)別裝置,其中,所述裝置應(yīng)用于管理服務(wù)器,所述裝置包括:

      9、流式識(shí)別單元,用于將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型,以得到相應(yīng)的一階段語音識(shí)別文本,直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件;

      10、斷句判斷單元,用于根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句,所述斷句條件至少包括強(qiáng)制斷句條件;

      11、語音識(shí)別單元,用于若是,則確定相應(yīng)的斷句點(diǎn),并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流,并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本;其中,與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn);

      12、文本修正單元,用于將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本;

      13、目標(biāo)確定單元,用于將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合,以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。

      14、第三方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)設(shè)備,其中,所述設(shè)備包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器、通信接口、存儲(chǔ)器通過通信總線完成相互間的通信;

      15、存儲(chǔ)器,用于存放計(jì)算機(jī)程序;

      16、處理器,用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí),實(shí)現(xiàn)上述第一方面所述的基于大語言模型的語音識(shí)別方法的步驟。

      17、第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于大語言模型的語音識(shí)別方法的步驟。

      18、本發(fā)明實(shí)施例提供了一種基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì),方法包括:將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型,以得到相應(yīng)的一階段語音識(shí)別文本,直至觸發(fā)預(yù)設(shè)的音頻流結(jié)束條件;根據(jù)預(yù)設(shè)的斷句條件以及所述一階段語音識(shí)別文本判斷所接收到的音頻流是否需要斷句,所述斷句條件至少包括強(qiáng)制斷句條件;若是,則確定相應(yīng)的斷句點(diǎn),并根據(jù)所確定的斷句點(diǎn)將所述音頻流按時(shí)間順序依次分割成若干段子音頻流,并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本;其中,與所述強(qiáng)制斷句條件對(duì)應(yīng)的斷句點(diǎn)為第一斷句點(diǎn);?將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本;將所有修正后的二階段子語音識(shí)別文本以及剩余未修正的二階段子語音識(shí)別文本依時(shí)間順序進(jìn)行組合,以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。上述的基于大語言模型的語音識(shí)別方法應(yīng)用于管理服務(wù)器中,該方法能夠提高語音識(shí)別的準(zhǔn)確度,即通過大語言模型對(duì)斷句位置進(jìn)行修正和優(yōu)化,提高了語音內(nèi)容的還原度,使得識(shí)別出來的語音識(shí)別文本中的句子更為通順,以便在同聲傳譯過程中提高翻譯的準(zhǔn)確性和流暢性。



      技術(shù)特征:

      1.一種基于大語言模型的語音識(shí)別方法,其特征在于,所述方法應(yīng)用于管理服務(wù)器,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述強(qiáng)制斷句條件包括字間停頓時(shí)長不超過預(yù)設(shè)時(shí)間閾值且當(dāng)前階段累計(jì)識(shí)別的字符數(shù)達(dá)到預(yù)設(shè)字符數(shù)量,所述根據(jù)預(yù)設(shè)的斷句條件以及一階段語音識(shí)別文本判斷所接收到的音頻流中是否需要斷句的步驟,包括:

      3.根據(jù)權(quán)利要求2所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述斷句條件還包括句末斷句條件,所述句末斷句條件包括字間停頓時(shí)長超過預(yù)設(shè)時(shí)間閾值,與所述句末斷句條件對(duì)應(yīng)的斷句點(diǎn)為第二斷句點(diǎn),所述判斷所接收到的音頻流的字間停頓時(shí)長是否不超過預(yù)設(shè)時(shí)間閾值的步驟之后,還包括:

      4.根據(jù)權(quán)利要求3所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本的步驟,包括;

      5.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述第一中間文本包括第一主體內(nèi)容和末尾內(nèi)容,所述根據(jù)預(yù)處理規(guī)則對(duì)每個(gè)第一斷句點(diǎn)的前段子音頻流對(duì)應(yīng)的二階段子語音識(shí)別文本進(jìn)行預(yù)處理,以得到對(duì)應(yīng)的第一中間文本的步驟,包括:

      6.根據(jù)權(quán)利要求4所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述方法還包括:

      7.根據(jù)權(quán)利要求6所述的基于大語言模型的語音識(shí)別方法,其特征在于,所述第二中間文本包括第二主體內(nèi)容和首部內(nèi)容,所述根據(jù)預(yù)處理規(guī)則對(duì)每個(gè)第一斷句點(diǎn)的后段子音頻流對(duì)應(yīng)的二階段子語音識(shí)別文本進(jìn)行預(yù)處理,以得到對(duì)應(yīng)的第二中間文本的步驟,包括:

      8.一種基于大語言模型的語音識(shí)別裝置,其特征在于,所述裝置應(yīng)用于管理服務(wù)器,所述裝置包括:

      9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述設(shè)備包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器、通信接口、存儲(chǔ)器通過通信總線完成相互間的通信;

      10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的基于大語言模型的語音識(shí)別方法的步驟。


      技術(shù)總結(jié)
      本發(fā)明公開了基于大語言模型的語音識(shí)別方法、裝置、設(shè)備及介質(zhì),該方法應(yīng)用于管理服務(wù)器,包括將接收到的實(shí)時(shí)輸入的音頻流輸入預(yù)設(shè)的流式識(shí)別模型,以得到相應(yīng)的一階段語音識(shí)別文本;根據(jù)所確定的斷句點(diǎn)將音頻流按時(shí)間順序依次分割成若干段子音頻流,并將所有的子音頻流依次輸入至預(yù)設(shè)的第一語音識(shí)別模型以得到對(duì)應(yīng)的二階段子語音識(shí)別文本;將與不同的第一斷句點(diǎn)相關(guān)的二階段子語音識(shí)別文本分次輸入預(yù)設(shè)的大語言模型,以得到多個(gè)相應(yīng)的修正后二階段子語音識(shí)別文本,以得到與所接收到的全部音頻流相應(yīng)的目標(biāo)語音識(shí)別文本。本方法可提高語音識(shí)別的準(zhǔn)確度,通過大語言模型對(duì)斷句位置進(jìn)行修正和優(yōu)化,提高了語音內(nèi)容的還原度。

      技術(shù)研發(fā)人員:李剛,程鵬
      受保護(hù)的技術(shù)使用者:深圳市易思態(tài)科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1