分析音頻文件的語音特征的方法和裝置的制造方法_2

文檔序號：8382008閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>分析音頻文件的語音特征的方法和裝置的制造方法

[0027]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上，使得在計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟，以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程，從而使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令能夠提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0028]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個示例，不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
[0029]如圖1所示，計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16，系統(tǒng)存儲器28，連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0030]總線18表示幾類總線結(jié)構(gòu)中的一種或多種，包括存儲器總線或者存儲器控制器，外圍總線，圖形加速端口，處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說，這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線，微通道體系結(jié)構(gòu)(MAC)總線，增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。
[0031]計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì)，包括易失性和非易失性介質(zhì)，可移動的和不可移動的介質(zhì)。
[0032]系統(tǒng)存儲器28可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì)，例如隨機(jī)存取存儲器(RAM)30和/或高速緩存存儲器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例，存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示，通常稱為“硬盤驅(qū)動器”)。盡管圖1中未示出，可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器，以及對可移動非易失性光盤(例如⑶-ROM，DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下，每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品，該程序產(chǎn)品具有一組(例如至少一個)程序模塊，這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
[0033]具有一組(至少一個)程序模塊42的程序/實(shí)用工具40，可以存儲在例如存儲器28中，這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù)，這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
[0034]計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個或多個外部設(shè)備14 (例如鍵盤、指向設(shè)備、顯示器24等)通信，還可與一個或者多個使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信，和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個或多個其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡，調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且，計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN)，廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò)，例如因特網(wǎng))通信。如圖所示，網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白，盡管圖中未示出，可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊，包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
[0035]以下結(jié)合附圖和具體例子描述本發(fā)明的實(shí)施方式。在本發(fā)明的實(shí)施例中，采用多種聲學(xué)模型對音頻文件進(jìn)行語音識別，基于不同聲學(xué)模型下的識別結(jié)果來確定音頻文件的語音聲學(xué)特征。在一些實(shí)施例中，還可以分析獲得該音頻文件的更多語音特征，例如包括語速、背景噪聲水平、以及語音內(nèi)容特征等。下面結(jié)合附圖描述上述發(fā)明構(gòu)思的實(shí)現(xiàn)。
[0036]圖2示出根據(jù)一個實(shí)施例的方法的流程圖。如圖2所示，根據(jù)一個實(shí)施例，分析音頻文件的語音特征的方法包括以下步驟:首先，在步驟201，采用多種聲學(xué)模型對音頻文件進(jìn)行語音識別，以獲得多個識別結(jié)果；在步驟202，對比所述多個識別結(jié)果以獲得對比結(jié)果；在步驟203，基于對比結(jié)果確定所述音頻文件的語音聲學(xué)特征。下面結(jié)合例子描述上述各個步驟的具體執(zhí)行方式。
[0037]如前所述，有待分析的音頻文件是包含語音內(nèi)容的音頻文件。對于語音內(nèi)容來說，現(xiàn)有技術(shù)中已經(jīng)提出多種聲學(xué)模型用于對語音內(nèi)容進(jìn)行語音識別?；诓煌晫W(xué)模型下語音識別的結(jié)果，可以確定出音頻文件的一些語音聲學(xué)特征。可以根據(jù)要確定的具體特征項(xiàng)目來選擇采用的聲學(xué)模型。
[0038]在一個實(shí)施例中，在步驟201中采用的多種聲學(xué)模型包括與講話者無關(guān)(SpeakerIndependent, SI)的聲學(xué)模型和與講話者有關(guān)(Speaker Dependent, SD)的聲學(xué)模型。也就是說，在步驟201，分別采用SI聲學(xué)模型和SD聲學(xué)模型對音頻文件進(jìn)行語音識別，從而獲得SI模型下的SI識別結(jié)果和SD模型下的SD識別結(jié)果。
[0039]本領(lǐng)域技術(shù)人員可以理解，聲學(xué)模型包括對不同聲音、單詞、單詞部分及其組合進(jìn)行建模的數(shù)據(jù)，從而對輸入的語音音頻進(jìn)行識別。一般地，聲學(xué)模型基于對語音輸入數(shù)據(jù)進(jìn)行訓(xùn)練而獲得，該訓(xùn)練過程涉及對文本語料庫中各個單詞的聲音表征進(jìn)行統(tǒng)計(jì)和建模，該建?？梢岳缁陔[形馬爾科夫模型(HMM)等。
[0040]通過記錄多個講話者的語音數(shù)據(jù)，并基于該語音數(shù)據(jù)進(jìn)行訓(xùn)練，可以獲得與講話者無關(guān)的聲學(xué)模型，或稱SI聲學(xué)模型。由于SI聲學(xué)模型基于多個不同講話者提供的語音輸入，因此可以代表一般講話者的語音特征。進(jìn)而，可以將SI聲學(xué)模型作為標(biāo)準(zhǔn)語音聲學(xué)模型。
[0041]另一方面，考慮到個體講話者唯一的講話特征，還提出了與講話者有關(guān)的聲學(xué)模型，即SD聲學(xué)模型。SD聲學(xué)模型是通過對特定講話者的語音輸入進(jìn)行訓(xùn)練而獲得，可以較好地表征上述特定講話者的講話特征，改進(jìn)語音識別的準(zhǔn)確度。在一個例子中，可以直接基于特定講話者的大量語音輸入進(jìn)行訓(xùn)練，從而獲得針對該特定講話者的SD聲學(xué)模型。或者，一般地，可以通過在SI聲學(xué)模型的基礎(chǔ)上針對特定講話者進(jìn)行適應(yīng)和調(diào)整而獲得SD聲學(xué)模型。具體地，可以利用有限的講話者特定語音數(shù)據(jù)來調(diào)整SI聲學(xué)模型，以生成SD聲學(xué)模型。上述調(diào)整可以迭代執(zhí)行?，F(xiàn)有技術(shù)中已經(jīng)提出了訓(xùn)練SI聲學(xué)模型和SD聲學(xué)模型的方法，因此在此略過對訓(xùn)練過程的詳細(xì)描述。
[0042]基于以上SI聲學(xué)模型和SD聲學(xué)模型的特點(diǎn),在本發(fā)明實(shí)施例中，分別米用SI聲學(xué)模型和SD聲學(xué)模型對音頻文件進(jìn)行語音識別，通過比對兩種聲學(xué)模型下的識別結(jié)果來確定音頻文件的語音標(biāo)準(zhǔn)度。具體地，在一個實(shí)施例中，預(yù)先確定并獲取針對待分析音頻文件的SD聲學(xué)模型。于是，在步驟201中，可以并行地分別采用SI聲學(xué)模型和SD聲學(xué)模型對音頻文件進(jìn)行語音識別，從而分別獲得SI識別結(jié)果和SD識別結(jié)果。在另一實(shí)施例中，在利用SI聲學(xué)模型進(jìn)行語音識別的同時，訓(xùn)練形成SD聲學(xué)模型。具體地，在該實(shí)施例中，步驟201包括，首先采用SI聲學(xué)模型對音頻文件進(jìn)行語音識別，以此獲得SI識別結(jié)果。在進(jìn)行上述語音識別的過程中，還基于音頻文件中的語音內(nèi)容對SI聲學(xué)模型進(jìn)行適應(yīng)和調(diào)整，從而獲得SD聲學(xué)模型。接著，利用獲得的SD聲學(xué)模型再次對音頻文件進(jìn)行語音識別，從而獲得SD識別結(jié)果。一般地，由于對SI聲學(xué)模型進(jìn)行了針對性的調(diào)整，SD聲學(xué)模型所獲得的SD識別結(jié)果在識別準(zhǔn)確度上要高于SI識別結(jié)果。
[0043]在步驟202，對比以上兩種識別結(jié)果，從而獲得對比結(jié)果。此時，對比結(jié)果示出基于SI聲學(xué)模型的SI識別結(jié)果和基于SD聲學(xué)模型的SD識別結(jié)果之間的識別差異。接著，在步驟203，基于上述識別差異，確定所述音頻文件的語音標(biāo)準(zhǔn)度。具體地，如上所述，SI聲學(xué)模型反映了標(biāo)準(zhǔn)語音特征，而SD聲學(xué)模型反映了特定講話者的特征。因此，如果這兩種聲學(xué)模型下的識別結(jié)果比較接近，則意味著，音頻文件中的語音接近標(biāo)準(zhǔn)發(fā)音，語音標(biāo)準(zhǔn)度較高；反之，如果這兩種聲學(xué)模型下的識別結(jié)果差異較大，

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

音頻文件轉(zhuǎn)微信語音相關(guān)技術(shù)

qq語音音頻文件丟失相關(guān)技術(shù)

重新裝載音頻裝置相關(guān)技術(shù)

不停重新裝載音頻裝置相關(guān)技術(shù)

音頻裝置相關(guān)技術(shù)

音頻遙控裝置相關(guān)技術(shù)

音頻紅外通信裝置設(shè)計(jì)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

分析音頻文件的語音特征的方法和裝置的制造方法_2