分析音頻文件的語(yǔ)音特征的方法和裝置的制造方法_5

文檔序號(hào)：8382008閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>分析音頻文件的語(yǔ)音特征的方法和裝置的制造方法

，在此不再贅述。
[0074]利用本發(fā)明實(shí)施例的方法和裝置，可以對(duì)音頻文件進(jìn)行語(yǔ)音分析，從而為用戶提供關(guān)于音頻文件中語(yǔ)音內(nèi)容的特點(diǎn)的信息。基于這樣的信息，還可以為用戶推薦適合用戶水平的音頻文件。
[0075]可以理解，附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上，流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分，所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意，在有些作為替換的實(shí)現(xiàn)中，方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如，兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行，它們有時(shí)也可以按相反的順序執(zhí)行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合，可以用執(zhí)行規(guī)定的功能或操作的專(zhuān)用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn)，或者可以用專(zhuān)用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
[0076]以上已經(jīng)描述了本發(fā)明的各實(shí)施例，上述說(shuō)明是示例性的，并非窮盡性的，并且也不限于所披露的各實(shí)施例。在不偏離所說(shuō)明的各實(shí)施例的范圍和精神的情況下，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)許多修改和變更都是顯而易見(jiàn)的。本文中所用術(shù)語(yǔ)的選擇，旨在最好地解釋各實(shí)施例的原理、實(shí)際應(yīng)用或?qū)κ袌?chǎng)中的技術(shù)的技術(shù)改進(jìn)，或者使本技術(shù)領(lǐng)域的其它普通技術(shù)人員能理解本文披露的各實(shí)施例。
【主權(quán)項(xiàng)】
1.一種分析音頻文件的語(yǔ)音特征的方法，包括: 采用多種聲學(xué)模型對(duì)所述音頻文件中的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以獲得多個(gè)識(shí)別結(jié)果; 對(duì)比所述多個(gè)識(shí)別結(jié)果以獲得對(duì)比結(jié)果；基于對(duì)比結(jié)果確定所述音頻文件的語(yǔ)音聲學(xué)特征。
2.根據(jù)權(quán)利要求1的方法，其中: 采用多種聲學(xué)模型對(duì)所述音頻文件的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別包括，采用與講話者無(wú)關(guān)的SI聲學(xué)模型和與講話者有關(guān)的SD聲學(xué)模型分別對(duì)所述音頻文件中的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以分別獲得SI識(shí)別結(jié)果和SD識(shí)別結(jié)果；對(duì)比所述多個(gè)識(shí)別結(jié)果以獲得對(duì)比結(jié)果包括，獲得所述SI識(shí)別結(jié)果和SD識(shí)別結(jié)果之間的識(shí)別差異；所述基于對(duì)比結(jié)果確定所述音頻文件的語(yǔ)音聲學(xué)特征包括，基于上述識(shí)別差異，確定所述音頻文件的語(yǔ)音標(biāo)準(zhǔn)度。
3.根據(jù)權(quán)利要求2的方法，其中分別獲得SI識(shí)別結(jié)果和SD識(shí)別結(jié)果包括:采用SI聲學(xué)模型對(duì)所述音頻文件的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以獲得SI識(shí)別結(jié)果；基于所述音頻文件中的語(yǔ)音內(nèi)容對(duì)SI聲學(xué)模型進(jìn)行調(diào)整，從而獲得SD聲學(xué)模型；采用獲得的SD聲學(xué)模型對(duì)所述音頻文件的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以獲得SD識(shí)別結(jié)果。
4.根據(jù)權(quán)利要求1的方法，其中所述多種聲學(xué)模型包括多種方言模型；所述對(duì)比結(jié)果示出基于多種方言模型獲得的識(shí)別結(jié)果之間的準(zhǔn)確度對(duì)比；所述基于對(duì)比結(jié)果確定所述音頻文件的語(yǔ)音聲學(xué)特征包括，基于上述準(zhǔn)確度對(duì)比，確定所述音頻文件中語(yǔ)音內(nèi)容的方言特征。
5.根據(jù)權(quán)利要求1的方法，還包括，基于所述多個(gè)識(shí)別結(jié)果的至少一部分，確定所述音頻文件中語(yǔ)音的語(yǔ)速。
6.根據(jù)權(quán)利要求1的方法，還包括，基于所述音頻文件的信噪比，確定其背景噪聲水平。
7.根據(jù)權(quán)利要求1的方法，還包括，基于所述音頻文件的文件屬性，確定其錄音條件。
8.根據(jù)權(quán)利要求1的方法，還包括: 獲取與所述音頻文件中的語(yǔ)音內(nèi)容相對(duì)應(yīng)的文本；基于所述文本，確定所述音頻文件的語(yǔ)音內(nèi)容特征。
9.根據(jù)權(quán)利要求8的方法，其中確定所述音頻文件的語(yǔ)音內(nèi)容特征包括: 確定文本中單詞的類(lèi)別和各類(lèi)別單詞的分布；基于上述分布，確定所述音頻文件的詞匯類(lèi)別。
10.根據(jù)權(quán)利要求8的方法，其中確定所述音頻文件的語(yǔ)音內(nèi)容特征包括: 采用多種η元語(yǔ)言模型分析所述文本中的單詞組合；基于對(duì)單詞組合的分析，確定所述音頻文件中語(yǔ)音內(nèi)容的句法級(jí)別。
11.一種為用戶推薦音頻文件的方法，包括: 確定用戶適合的語(yǔ)音特征；獲取多個(gè)音頻文件各自的語(yǔ)音特征，所述多個(gè)音頻文件各自的語(yǔ)音特征通過(guò)利用權(quán)利要求1-10之一的方法對(duì)所述多個(gè)音頻文件進(jìn)行分析而確定；將語(yǔ)音特征與所述用戶適合的語(yǔ)音特征相匹配的音頻文件推薦給所述用戶。
12.一種用于分析音頻文件的語(yǔ)音特征的裝置，包括: 語(yǔ)音識(shí)別單元，配置為采用多種聲學(xué)模型對(duì)所述音頻文件中的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)另U，以獲得多個(gè)識(shí)別結(jié)果；結(jié)果對(duì)比單元，配置為對(duì)比所述多個(gè)識(shí)別結(jié)果以獲得對(duì)比結(jié)果；聲學(xué)特征確定單元，配置為基于對(duì)比結(jié)果確定所述音頻文件的語(yǔ)音聲學(xué)特征。
13.根據(jù)權(quán)利要求12的裝置，其中: 所述語(yǔ)音識(shí)別單元配置為，采用與講話者無(wú)關(guān)的SI聲學(xué)模型和與講話者有關(guān)的SD聲學(xué)模型分別對(duì)所述音頻文件中的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以分別獲得SI識(shí)別結(jié)果和SD識(shí)別結(jié)果；所述結(jié)果對(duì)比單元配置為，獲取所述SI識(shí)別結(jié)果和SD識(shí)別結(jié)果之間的識(shí)別差異；所述聲學(xué)特征確定單元配置為，基于上述識(shí)別差異，確定所述音頻文件的語(yǔ)音標(biāo)準(zhǔn)度。
14.根據(jù)權(quán)利要求13的裝置，其中所述語(yǔ)音識(shí)別單元進(jìn)一步配置為:采用SI聲學(xué)模型對(duì)所述音頻文件中的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以獲得SI識(shí)別結(jié)果；基于所述音頻文件中的語(yǔ)音內(nèi)容對(duì)SI聲學(xué)模型進(jìn)行調(diào)整，從而獲得SD聲學(xué)模型；采用獲得的SD聲學(xué)模型對(duì)所述音頻文件中的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以獲得SD識(shí)別結(jié)果。
15.根據(jù)權(quán)利要求12的裝置，其中所述語(yǔ)音識(shí)別單元配置為采用多種方言模型；所述結(jié)果對(duì)比單元配置為獲取基于多種方言模型獲得的識(shí)別結(jié)果之間的準(zhǔn)確度對(duì)比；所述聲學(xué)特征確定單元配置為，基于上述準(zhǔn)確度對(duì)比，確定所述音頻文件中語(yǔ)音內(nèi)容的方言特征。
16.根據(jù)權(quán)利要求12的裝置，還包括語(yǔ)速確定單元，配置為基于所述多個(gè)識(shí)別結(jié)果的至少一部分，確定所述音頻文件中語(yǔ)音的語(yǔ)速。
17.根據(jù)權(quán)利要求12的裝置，還包括噪聲確定單元，配置為基于所述音頻文件的信噪t匕，確定其背景噪聲水平。
18.根據(jù)權(quán)利要求12的裝置，還包括錄音條件確定單元，配置為基于所述音頻文件的文件屬性，確定其錄音條件。
19.根據(jù)權(quán)利要求12的裝置，還包括內(nèi)容特征確定單元，其包括: 文本獲取模塊，配置為獲取與所述音頻文件中的語(yǔ)音內(nèi)容相對(duì)應(yīng)的文本；確定模塊，配置為基于所述文本，確定所述音頻文件的語(yǔ)音內(nèi)容特征。
20.根據(jù)權(quán)利要求19的裝置，其中所述確定模塊配置為: 確定文本中單詞的類(lèi)別和各類(lèi)別單詞的分布；基于上述分布，確定所述音頻文件的詞匯類(lèi)別。
21.根據(jù)權(quán)利要求19的裝置，其中所述確定模塊配置為: 采用多種η元語(yǔ)言模型分析所述文本中的單詞組合；基于對(duì)單詞組合的分析，確定所述音頻文件中語(yǔ)音內(nèi)容的句法級(jí)別。
22.一種為用戶推薦音頻文件的裝置，包括: 用戶特征確定單元，配置為確定用戶適合的語(yǔ)音特征；文件特征獲取單元，配置為獲取多個(gè)音頻文件各自的語(yǔ)音特征，所述多個(gè)音頻文件各自的語(yǔ)音特征通過(guò)利用權(quán)利要求12-21之一的裝置對(duì)所述多個(gè)音頻文件進(jìn)行分析而確定；匹配單元，配置為將語(yǔ)音特征與所述用戶適合的語(yǔ)音特征相匹配的音頻文件推薦給所述用戶。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種分析音頻文件的語(yǔ)音特征的方法和裝置，該分析方法包括：采用多種聲學(xué)模型對(duì)音頻文件中的語(yǔ)音內(nèi)容進(jìn)行語(yǔ)音識(shí)別，以獲得多個(gè)識(shí)別結(jié)果；對(duì)比所述多個(gè)識(shí)別結(jié)果以獲得對(duì)比結(jié)果；基于對(duì)比結(jié)果確定所述音頻文件的語(yǔ)音聲學(xué)特征。分析裝置與上述分析方法相對(duì)應(yīng)。本發(fā)明還提供了基于以上分析的音頻文件的語(yǔ)音特征向用戶推薦音頻文件的方法和裝置。利用本發(fā)明實(shí)施例的方法和裝置，可以對(duì)音頻文件進(jìn)行語(yǔ)音分析，從而為用戶提供關(guān)于音頻文件中語(yǔ)音內(nèi)容特點(diǎn)的豐富信息?；谶@樣的信息，還可以為用戶推薦適合用戶水平的音頻文件。
【IPC分類(lèi)】G10L15-06, G10L25-51
【公開(kāi)號(hào)】CN104700831
【申請(qǐng)?zhí)枴緾N201310652731
【發(fā)明人】施琴, 張世磊, 劉文, 秦勇
【申請(qǐng)人】國(guó)際商業(yè)機(jī)器公司
【公開(kāi)日】2015年6月10日
【申請(qǐng)日】2013年12月5日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第5頁(yè)1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻文件轉(zhuǎn)微信語(yǔ)音相關(guān)技術(shù)

qq語(yǔ)音音頻文件丟失相關(guān)技術(shù)

重新裝載音頻裝置相關(guān)技術(shù)

不停重新裝載音頻裝置相關(guān)技術(shù)

音頻裝置相關(guān)技術(shù)

音頻遙控裝置相關(guān)技術(shù)

音頻紅外通信裝置設(shè)計(jì)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

分析音頻文件的語(yǔ)音特征的方法和裝置的制造方法_5