[0027]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令能夠提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0028]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
[0029]如圖1所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0030]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。
[0031]計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
[0032]系統(tǒng)存儲器28可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(RAM)30和/或高速緩存存儲器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖1中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
[0033]具有一組(至少一個)程序模塊42的程序/實(shí)用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
[0034]計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個或多個外部設(shè)備14 (例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個或多個其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
[0035]以下結(jié)合附圖和具體例子描述本發(fā)明的實(shí)施方式。在本發(fā)明的實(shí)施例中,采用多種聲學(xué)模型對音頻文件進(jìn)行語音識別,基于不同聲學(xué)模型下的識別結(jié)果來確定音頻文件的語音聲學(xué)特征。在一些實(shí)施例中,還可以分析獲得該音頻文件的更多語音特征,例如包括語速、背景噪聲水平、以及語音內(nèi)容特征等。下面結(jié)合附圖描述上述發(fā)明構(gòu)思的實(shí)現(xiàn)。
[0036]圖2示出根據(jù)一個實(shí)施例的方法的流程圖。如圖2所示,根據(jù)一個實(shí)施例,分析音頻文件的語音特征的方法包括以下步驟:首先,在步驟201,采用多種聲學(xué)模型對音頻文件進(jìn)行語音識別,以獲得多個識別結(jié)果;在步驟202,對比所述多個識別結(jié)果以獲得對比結(jié)果;在步驟203,基于對比結(jié)果確定所述音頻文件的語音聲學(xué)特征。下面結(jié)合例子描述上述各個步驟的具體執(zhí)行方式。
[0037]如前所述,有待分析的音頻文件是包含語音內(nèi)容的音頻文件。對于語音內(nèi)容來說,現(xiàn)有技術(shù)中已經(jīng)提出多種聲學(xué)模型用于對語音內(nèi)容進(jìn)行語音識別?;诓煌晫W(xué)模型下語音識別的結(jié)果,可以確定出音頻文件的一些語音聲學(xué)特征。可以根據(jù)要確定的具體特征項(xiàng)目來選擇采用的聲學(xué)模型。
[0038]在一個實(shí)施例中,在步驟201中采用的多種聲學(xué)模型包括與講話者無關(guān)(SpeakerIndependent, SI)的聲學(xué)模型和與講話者有關(guān)(Speaker Dependent, SD)的聲學(xué)模型。也就是說,在步驟201,分別采用SI聲學(xué)模型和SD聲學(xué)模型對音頻文件進(jìn)行語音識別,從而獲得SI模型下的SI識別結(jié)果和SD模型下的SD識別結(jié)果。
[0039]本領(lǐng)域技術(shù)人員可以理解,聲學(xué)模型包括對不同聲音、單詞、單詞部分及其組合進(jìn)行建模的數(shù)據(jù),從而對輸入的語音音頻進(jìn)行識別。一般地,聲學(xué)模型基于對語音輸入數(shù)據(jù)進(jìn)行訓(xùn)練而獲得,該訓(xùn)練過程涉及對文本語料庫中各個單詞的聲音表征進(jìn)行統(tǒng)計(jì)和建模,該建??梢岳缁陔[形馬爾科夫模型(HMM)等。
[0040]通過記錄多個講話者的語音數(shù)據(jù),并基于該語音數(shù)據(jù)進(jìn)行訓(xùn)練,可以獲得與講話者無關(guān)的聲學(xué)模型,或稱SI聲學(xué)模型。由于SI聲學(xué)模型基于多個不同講話者提供的語音輸入,因此可以代表一般講話者的語音特征。進(jìn)而,可以將SI聲學(xué)模型作為標(biāo)準(zhǔn)語音聲學(xué)模型。
[0041]另一方面,考慮到個體講話者唯一的講話特征,還提出了與講話者有關(guān)的聲學(xué)模型,即SD聲學(xué)模型。SD聲學(xué)模型是通過對特定講話者的語音輸入進(jìn)行訓(xùn)練而獲得,可以較好地表征上述特定講話者的講話特征,改進(jìn)語音識別的準(zhǔn)確度。在一個例子中,可以直接基于特定講話者的大量語音輸入進(jìn)行訓(xùn)練,從而獲得針對該特定講話者的SD聲學(xué)模型。或者,一般地,可以通過在SI聲學(xué)模型的基礎(chǔ)上針對特定講話者進(jìn)行適應(yīng)和調(diào)整而獲得SD聲學(xué)模型。具體地,可以利用有限的講話者特定語音數(shù)據(jù)來調(diào)整SI聲學(xué)模型,以生成SD聲學(xué)模型。上述調(diào)整可以迭代執(zhí)行?,F(xiàn)有技術(shù)中已經(jīng)提出了訓(xùn)練SI聲學(xué)模型和SD聲學(xué)模型的方法,因此在此略過對訓(xùn)練過程的詳細(xì)描述。
[0042]基于以上SI聲學(xué)模型和SD聲學(xué)模型的特點(diǎn),在本發(fā)明實(shí)施例中,分別米用SI聲學(xué)模型和SD聲學(xué)模型對音頻文件進(jìn)行語音識別,通過比對兩種聲學(xué)模型下的識別結(jié)果來確定音頻文件的語音標(biāo)準(zhǔn)度。具體地,在一個實(shí)施例中,預(yù)先確定并獲取針對待分析音頻文件的SD聲學(xué)模型。于是,在步驟201中,可以并行地分別采用SI聲學(xué)模型和SD聲學(xué)模型對音頻文件進(jìn)行語音識別,從而分別獲得SI識別結(jié)果和SD識別結(jié)果。在另一實(shí)施例中,在利用SI聲學(xué)模型進(jìn)行語音識別的同時,訓(xùn)練形成SD聲學(xué)模型。具體地,在該實(shí)施例中,步驟201包括,首先采用SI聲學(xué)模型對音頻文件進(jìn)行語音識別,以此獲得SI識別結(jié)果。在進(jìn)行上述語音識別的過程中,還基于音頻文件中的語音內(nèi)容對SI聲學(xué)模型進(jìn)行適應(yīng)和調(diào)整,從而獲得SD聲學(xué)模型。接著,利用獲得的SD聲學(xué)模型再次對音頻文件進(jìn)行語音識別,從而獲得SD識別結(jié)果。一般地,由于對SI聲學(xué)模型進(jìn)行了針對性的調(diào)整,SD聲學(xué)模型所獲得的SD識別結(jié)果在識別準(zhǔn)確度上要高于SI識別結(jié)果。
[0043]在步驟202,對比以上兩種識別結(jié)果,從而獲得對比結(jié)果。此時,對比結(jié)果示出基于SI聲學(xué)模型的SI識別結(jié)果和基于SD聲學(xué)模型的SD識別結(jié)果之間的識別差異。接著,在步驟203,基于上述識別差異,確定所述音頻文件的語音標(biāo)準(zhǔn)度。具體地,如上所述,SI聲學(xué)模型反映了標(biāo)準(zhǔn)語音特征,而SD聲學(xué)模型反映了特定講話者的特征。因此,如果這兩種聲學(xué)模型下的識別結(jié)果比較接近,則意味著,音頻文件中的語音接近標(biāo)準(zhǔn)發(fā)音,語音標(biāo)準(zhǔn)度較高;反之,如果這兩種聲學(xué)模型下的識別結(jié)果差異較大,