1.一種語(yǔ)音識(shí)別系統(tǒng),其特征在于:包括
-基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器,用于將語(yǔ)音映射為由多個(gè)候選拼音序列組織成的網(wǎng)絡(luò);
-多個(gè)并列的針對(duì)不同應(yīng)用領(lǐng)域的基于拼音到詞語(yǔ)映射網(wǎng)絡(luò)的特定識(shí)別器,用于分別與由多個(gè)候選拼音序列組織成的網(wǎng)絡(luò)進(jìn)行組合,得到多個(gè)最佳詞序列及置信度;
-綜合決策單元,用于接收多個(gè)最佳詞序列及置信度,然后根據(jù)置信度再加上預(yù)先給定的先驗(yàn)知識(shí)和規(guī)則以及附加知識(shí),進(jìn)行決策,選擇最佳的詞序列輸出。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:通過(guò)調(diào)整拼音到詞語(yǔ)映射網(wǎng)絡(luò),添加新的識(shí)別內(nèi)容到已有領(lǐng)域的基于拼音到詞語(yǔ)映射網(wǎng)絡(luò)的特定識(shí)別器中,更新已有領(lǐng)域的識(shí)別內(nèi)容;通過(guò)離線構(gòu)造對(duì)應(yīng)的基于拼音到詞語(yǔ)映射網(wǎng)絡(luò)的特定識(shí)別器,然后將擴(kuò)展內(nèi)容在線添加到基于拼音到詞語(yǔ)映射網(wǎng)絡(luò)的特定識(shí)別器中,創(chuàng)建新的應(yīng)用領(lǐng)域的識(shí)別內(nèi)容。
3.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述基于聲學(xué)模型到拼音映射網(wǎng)絡(luò)的基礎(chǔ)識(shí)別器根據(jù)輸入的音頻特征動(dòng)態(tài)計(jì)算聲學(xué)得分,并在其網(wǎng)絡(luò)上保存有拼音序列的語(yǔ)言模型得分,采用動(dòng)態(tài)規(guī)劃算法結(jié)合聲學(xué)得分和語(yǔ)言模型得分,搜索得分最高的若干拼音序列輸出。
4.根據(jù)權(quán)利要求3所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述拼音序列的語(yǔ)言模型采用基于長(zhǎng)短時(shí)記憶單元的遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。
5.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述綜合決策單元通過(guò)融合識(shí)別置信度、先驗(yàn)知識(shí)和預(yù)設(shè)規(guī)則以及附加信息來(lái)選擇最佳候選詞序列。
6.根據(jù)權(quán)利要求5所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述先驗(yàn)知識(shí)至少包括所述語(yǔ)音識(shí)別系統(tǒng)之外輸入的關(guān)于領(lǐng)域的標(biāo)識(shí)信息,或者根據(jù)識(shí)別結(jié)果歷史信息得到的領(lǐng)域標(biāo)識(shí)信息。
7.根據(jù)權(quán)利要求6所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述領(lǐng)域標(biāo)識(shí)信息為離散的0/1置,或連續(xù)的概率值。
8.根據(jù)權(quán)利要求5所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述預(yù)設(shè)規(guī)則至少包括根據(jù)音頻長(zhǎng)度預(yù)估的詞數(shù)范圍。
9.根據(jù)權(quán)利要求5所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述附加信息包括根據(jù)超級(jí)語(yǔ)言模型得到的關(guān)于識(shí)別結(jié)果詞串符合語(yǔ)法規(guī)范的程度度量。
10.根據(jù)權(quán)利要求5-9任一項(xiàng)所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于:所述綜合決策單元將所述附加信息和預(yù)設(shè)規(guī)則通過(guò)分層加權(quán)的方式和置信度評(píng)分一起作為決策準(zhǔn)則來(lái)選擇候選詞序列作為最終識(shí)別結(jié)果輸出。