KL距離通過(guò)貪心算法挑選所述低置信度數(shù)據(jù),其中初始的已挑選數(shù)據(jù)集為 空集,備選數(shù)據(jù)集為第二低置信度數(shù)據(jù)集。
[0049] 優(yōu)選的是,從首選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集中補(bǔ)充挑選另一部分自適應(yīng)數(shù)據(jù),使所述 自適應(yīng)數(shù)據(jù)的分布與所述目標(biāo)任務(wù)分布最接近包括:
[0050] 獲取所述自適應(yīng)數(shù)據(jù)相應(yīng)于所述首選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的分布作為所述自適 應(yīng)數(shù)據(jù)的分布。
[0051] 優(yōu)選的是,從首選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集中補(bǔ)充挑選另一部分自適應(yīng)數(shù)據(jù),使所述 自適應(yīng)數(shù)據(jù)的分布與所述目標(biāo)任務(wù)分布最接近還包括:
[0052] 基于KL距離通過(guò)貪心算法挑選所述另一部分自適應(yīng)數(shù)據(jù),其中,初始的已挑選數(shù) 據(jù)集由所述進(jìn)行人工標(biāo)注的低置信度數(shù)據(jù)構(gòu)成,備選數(shù)據(jù)集為所述首選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù) 集。
[0053] 本發(fā)明的第三個(gè)目的是提供了一種更加準(zhǔn)確有效的目標(biāo)任務(wù)分布估計(jì)系統(tǒng)。
[0054] 本發(fā)明米用的技術(shù)方案為:一種目標(biāo)任務(wù)分布估計(jì)系統(tǒng),包括:
[0055] 覆蓋度分布獲取模塊,用于獲取所述目標(biāo)任務(wù)相應(yīng)于候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的 分布,作為所述目標(biāo)任務(wù)的覆蓋度分布;
[0056] 第一低置信度數(shù)據(jù)集獲取模塊,用于獲取所述候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集中首選語(yǔ) 音識(shí)別結(jié)果的置信度小于等于第一置信度門(mén)限值的語(yǔ)音識(shí)別結(jié)果,構(gòu)成第一低置信度數(shù)據(jù) 集;
[0057] 混淆度分布獲取模塊,用于獲取所述目標(biāo)任務(wù)相應(yīng)于所述第一低置信度數(shù)據(jù)集的 分布,作為所述目標(biāo)任務(wù)的混淆度分布;以及,
[0058] 目標(biāo)任務(wù)分布獲取模塊,用于對(duì)所述目標(biāo)任務(wù)的覆蓋度分布和混淆度分布進(jìn)行融 合,獲得所述目標(biāo)任務(wù)分布。
[0059] 優(yōu)選的是,所述覆蓋度分布獲取模塊包括:
[0060] 分解單元,用于將所述目標(biāo)任務(wù)分解為各語(yǔ)音單元;
[0061] 第一出現(xiàn)頻率計(jì)算單元,用于計(jì)算所述語(yǔ)音單元在所述候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集 的各語(yǔ)音識(shí)別結(jié)果中的出現(xiàn)頻率,作為所述語(yǔ)音單元的第一出現(xiàn)頻率;以及,
[0062] 覆蓋度分布統(tǒng)計(jì)單元,用于獲取所述目標(biāo)任務(wù)中所有語(yǔ)音單元的所述第一出現(xiàn)頻 率,作為所述目標(biāo)任務(wù)相應(yīng)于候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的分布。
[0063] 優(yōu)選的是,所述混淆度分布獲取模塊包括:
[0064] 所述分解單元;
[0065] 第二出現(xiàn)頻率計(jì)算單元,用于計(jì)算所述語(yǔ)音單元在所述第一低置信度數(shù)據(jù)集的各 語(yǔ)音識(shí)別結(jié)果中的出現(xiàn)頻率,作為所述語(yǔ)音單元的第二出現(xiàn)頻率;以及,
[0066] 混淆度分布統(tǒng)計(jì)單元,用于獲取所述目標(biāo)任務(wù)中所有語(yǔ)音單元的所述第二出現(xiàn)頻 率,作為所述目標(biāo)任務(wù)相應(yīng)于所述第一低置信度數(shù)據(jù)集的分布。
[0067] 優(yōu)選的是,所述目標(biāo)任務(wù)分布獲取模塊包括:
[0068] 融合單元,用于對(duì)所述語(yǔ)音單元的第一出現(xiàn)頻率和第二出現(xiàn)頻率進(jìn)行線性加權(quán), 獲得所述語(yǔ)音單元的融合出現(xiàn)頻率;
[0069]目標(biāo)任務(wù)分布統(tǒng)計(jì)單元,用于獲取所述目標(biāo)任務(wù)中所有語(yǔ)音單元的融合出現(xiàn)頻率 作為所述目標(biāo)任務(wù)分布。
[0070] 本發(fā)明的第四個(gè)目的是提供一種更加準(zhǔn)確有效的聲學(xué)模型自適應(yīng)系統(tǒng)。
[0071] 本發(fā)明采用的技術(shù)方案為:一種聲學(xué)模型自適應(yīng)系統(tǒng),包括:
[0072] 上述任一種目標(biāo)任務(wù)分布估計(jì)系統(tǒng),用于獲取目標(biāo)任務(wù)分布;
[0073] 自適應(yīng)數(shù)據(jù)挑選模塊,用于從候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)中挑選自適應(yīng)數(shù)據(jù),使自適 應(yīng)數(shù)據(jù)的分布與所述目標(biāo)任務(wù)分布最接近;以及,
[0074] 聲學(xué)模型優(yōu)化模塊,用于利用所述自適應(yīng)數(shù)據(jù)對(duì)當(dāng)前聲學(xué)模型進(jìn)行模型參數(shù)的自 適應(yīng)調(diào)整,獲取優(yōu)化的聲學(xué)模型。
[0075] 優(yōu)選的是,所述自適應(yīng)數(shù)據(jù)挑選模塊包括:
[0076] 第二低置信度數(shù)據(jù)集獲取單元,用于獲取所述候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集中首選語(yǔ) 音識(shí)別結(jié)果的置信度小于等于第二置信度門(mén)限值的語(yǔ)音識(shí)別結(jié)果,構(gòu)成第二低置信度數(shù)據(jù) 集;
[0077] 低置信度數(shù)據(jù)挑選單元,用于從所述第二低置信度數(shù)據(jù)集中挑選低置信度數(shù)據(jù), 使低置信度數(shù)據(jù)的分布與所述目標(biāo)任務(wù)分布最接近;
[0078] 人工標(biāo)注單元,用于對(duì)所述低置信度數(shù)據(jù)進(jìn)行人工標(biāo)注,使進(jìn)行人工標(biāo)注的低置 信度數(shù)據(jù)成為一部分自適應(yīng)數(shù)據(jù);
[0079] 高置信度數(shù)據(jù)挑選單元,用于從首選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集中補(bǔ)充挑選另一部分自 適應(yīng)數(shù)據(jù),使所述自適應(yīng)數(shù)據(jù)的分布與所述目標(biāo)任務(wù)分布最接近。
[0080] 優(yōu)選的是,所述低置信度數(shù)據(jù)挑選單元用于將所述低置信度數(shù)據(jù)作為所述目標(biāo)任 務(wù)輸入至所述目標(biāo)任務(wù)分布估計(jì)系統(tǒng),以獲取所述低置信度數(shù)據(jù)的分布。
[0081] 優(yōu)選的是,所述低置信度數(shù)據(jù)挑選單元用于基于KL距離通過(guò)貪心算法挑選所述 低置信度數(shù)據(jù),其中初始的已挑選數(shù)據(jù)集為空集,備選數(shù)據(jù)集為第二低置信度數(shù)據(jù)集。
[0082] 優(yōu)選的是,所述高置信度數(shù)據(jù)挑選單元用于獲取所述自適應(yīng)數(shù)據(jù)相應(yīng)于所述首選 語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的分布作為所述自適應(yīng)數(shù)據(jù)的分布。
[0083] 優(yōu)選的是,所述高置信度數(shù)據(jù)挑選單元用于基于KL距離通過(guò)貪心算法挑選所述 另一部分自適應(yīng)數(shù)據(jù),其中,初始的已挑選數(shù)據(jù)集由所述進(jìn)行人工標(biāo)注的低置信度數(shù)據(jù)構(gòu) 成,備選數(shù)據(jù)集為所述首選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集。
[0084] 本發(fā)明的有益效果在于,首先,本發(fā)明的目標(biāo)任務(wù)分布估計(jì)和聲學(xué)模型自適應(yīng)方 法及系統(tǒng)基于候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集估計(jì)目標(biāo)任務(wù)分布,并非基于人工標(biāo)注訓(xùn)練數(shù)據(jù)進(jìn) 行,所以具有時(shí)效性強(qiáng)、節(jié)省人力成本的優(yōu)點(diǎn);再者,本發(fā)明的目標(biāo)任務(wù)分布估計(jì)方法及系 統(tǒng)融合了基于識(shí)別效果較差的語(yǔ)音識(shí)別結(jié)果獲取的目標(biāo)任務(wù)的混淆度分布,可以有效提升 整體語(yǔ)音識(shí)別系統(tǒng)的性能;最后,本發(fā)明的聲學(xué)模型自適應(yīng)方法及系統(tǒng)通過(guò)采用挑選低置 信度數(shù)據(jù)進(jìn)行人工標(biāo)注及挑選高置信度數(shù)據(jù)進(jìn)行補(bǔ)充的方式實(shí)現(xiàn)自適應(yīng)數(shù)據(jù)的高效挑選。
【附圖說(shuō)明】
[0085] 圖1示出了根據(jù)本發(fā)明所述目標(biāo)任務(wù)分布估計(jì)方法的一種實(shí)施方式的流程圖;
[0086] 圖2示出了根據(jù)本發(fā)明所述聲學(xué)模型自適應(yīng)方法中自適應(yīng)數(shù)據(jù)挑選的一種實(shí)施 方式的流程圖;
[0087] 圖3示出了圖2中挑選低置信度數(shù)據(jù)的一種實(shí)施方式的流程圖;
[0088] 圖4示出了圖2中挑選高置信度數(shù)據(jù)作為補(bǔ)充的一種實(shí)施方式的流程圖;
[0089] 圖5示出了根據(jù)本發(fā)明所述目標(biāo)任務(wù)分布估計(jì)系統(tǒng)的一種實(shí)施結(jié)構(gòu)的方框原理 圖;
[0090] 圖6示出了根據(jù)本發(fā)明所述聲學(xué)模型自適應(yīng)系統(tǒng)的一種實(shí)施結(jié)構(gòu)的方框原理圖。
【具體實(shí)施方式】
[0091] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0092] 如圖1所示,本發(fā)明的目標(biāo)任務(wù)分布估計(jì)方法包括:
[0093] 步驟Sl :獲取目標(biāo)任務(wù)相應(yīng)于候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的分布,作為所述目標(biāo)任 務(wù)的覆蓋度分布;在此,語(yǔ)音識(shí)別結(jié)果針對(duì)具體的目標(biāo)任務(wù)會(huì)識(shí)別出多個(gè)語(yǔ)音識(shí)別結(jié)果, 語(yǔ)音識(shí)別系統(tǒng)將從這些語(yǔ)音識(shí)別結(jié)果作中選出置信度最高的一個(gè)語(yǔ)音識(shí)別結(jié)果輸出,選擇 輸出的語(yǔ)音識(shí)別結(jié)果也被稱為是I-Best語(yǔ)音識(shí)別結(jié)果,由所有I-Best語(yǔ)音識(shí)別結(jié)果構(gòu)成 的集合則被稱為是首選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集,現(xiàn)有技術(shù)中即是基于首選語(yǔ)音識(shí)別結(jié)果數(shù) 據(jù)集獲得目標(biāo)任務(wù)分布;其中的候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集即為語(yǔ)音識(shí)別系統(tǒng)中存儲(chǔ)的由 N-Best語(yǔ)音識(shí)別結(jié)果構(gòu)成的數(shù)據(jù)集,針對(duì)某一目標(biāo)任務(wù)的N-Best語(yǔ)音識(shí)別結(jié)果通常為語(yǔ) 音識(shí)別系統(tǒng)所獲得的所有語(yǔ)音識(shí)別結(jié)果,當(dāng)然,該N-Best語(yǔ)音識(shí)別結(jié)果也可以是置信度高 于設(shè)定閾值的所有識(shí)別結(jié)果,或者是按置信度從高至低排序位于前N個(gè)的語(yǔ)音識(shí)別結(jié)果。
[0094] 步驟S21 :獲取候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集中首選語(yǔ)音識(shí)別結(jié)果的置信度小于等于 第一置信度門(mén)限值的語(yǔ)音識(shí)別結(jié)果,構(gòu)成第一低置信度數(shù)據(jù)集;該第一置信度門(mén)限值可根 據(jù)實(shí)際應(yīng)用場(chǎng)合(即具體的語(yǔ)音識(shí)別任務(wù))選擇,在此,如果語(yǔ)音識(shí)別結(jié)果整體置信度偏低, 則可選擇較小的第一置信度門(mén)限值,如果語(yǔ)音識(shí)別結(jié)果整體置信度偏高,則可選擇較大的 第一置信度門(mén)限值,通常情況下,第一置信度門(mén)限值在〇. 5~0. 8的范圍內(nèi)選擇。
[0095] 步驟S22 :獲取目標(biāo)任務(wù)相應(yīng)于第一低置信度數(shù)據(jù)集的分布,作為所述目標(biāo)任務(wù) 的混淆度分布。
[0096] 步驟S3 :對(duì)目標(biāo)任務(wù)的覆蓋度分布和混淆度分布進(jìn)行融合,獲得目標(biāo)任務(wù)分布。
[0097] 上述步驟Sl中獲取目標(biāo)任務(wù)相應(yīng)于候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的分布可具體包 括:
[0098] 步驟Sll :將目標(biāo)任務(wù)分解為各語(yǔ)音單元,該語(yǔ)音單元可以是音節(jié)、音素,也可以 是一個(gè)詞。
[0099] 步驟S12 :計(jì)算語(yǔ)音單元在候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的各語(yǔ)音識(shí)別結(jié)果中的出現(xiàn)
【主權(quán)項(xiàng)】
1. 一種目標(biāo)任務(wù)分布估計(jì)方法,其特征在于,包括: 獲取所述目標(biāo)任務(wù)相應(yīng)于候選語(yǔ)音識(shí)別結(jié)果數(shù)據(jù)集的分布,作為所述目