專利名稱:語音識別裝置、語音識別方法和程序的制作方法
技術領域:
本發(fā)明涉及語音識別裝置、語音識別方法和程序。更具體地講,本發(fā)明涉及一種通 過使用獨立分量分析(ICA :Ind印endentComponent Analysis)分離多個語音信號的混合 信號并執(zhí)行語音識別的語音識別裝置、用于該語音識別裝置的語音識別方法和用于該語音 識別裝置的程序。
背景技術:
分離多個語音信號的混合信號的處理的例子是獨立分量分析(ICA)。通過把語音 識別應用于通過ICA獲得的分離結(jié)果,聲音被分離成所希望的聲音和除所希望的聲音之外 的聲音。其后,通過執(zhí)行語音識別處理,可以以高精度執(zhí)行所希望的聲源的語音識別。已經(jīng)存在組合了基于這種獨立分量分析(ICA)的聲源分離處理和語音識別處理 的幾種系統(tǒng)。現(xiàn)有技術的系統(tǒng)具有如下結(jié)構(gòu)從與作為ICA的結(jié)果獲得的多個聲源的各個 聲源對應的多個輸出聲道選擇所希望的聲道(聲源),并且將所希望的聲道(聲源)用于針 對語音識別的輸入。首先,作為本發(fā)明的背景技術,將給出獨立分量分析(ICA)的概述。ICA是一 種多變量分析,并且是一種通過使用信號的統(tǒng)計性質(zhì)分離多維信號的方法。對于ICA 本身的細節(jié),例如,應該參考Noboru MURATA所著的"Introduction to Independent ComponentAnalysis" (Tokyo Denki University Press)。在下面,將描述聲音信號的ICA,具體地為時頻域的ICA??紤]這樣的情況如圖 1中所示,從N個聲源發(fā)出不同的聲音,并且使用N個麥克風觀測這些聲音。在由聲源輸出 的聲音(原始信號)到達之前,存在時間延遲、反射等。因此,由麥克風k觀測的信號(觀 測信號)能夠用一個式子表示,在該式子中,針對所有聲源,對原始信號和傳遞函數(shù)的卷積 (convolution)計算求和,如式[1.1]中所示。在下面,這種混合將被稱為卷積混合。麥克 風η的觀測信號表示為^ (t)。麥克風1和麥克風2的觀測信號分別表示為X1 (t)和&(t)。 如果所有麥克風的觀測信號用一個式子表示,則它們被表示為以下描述的式[1. 2]。
權利要求
1.一種語音識別裝置,包括聲源分離單元,被配置為把多個聲源的輸出的混合信號分離成與各聲源對應的信號并 產(chǎn)生多個聲道的分離信號;語音識別單元,被配置為輸入由聲源分離單元產(chǎn)生的所述多個聲道的分離信號,執(zhí)行 語音識別處理,產(chǎn)生與各聲道對應的語音識別結(jié)果,并產(chǎn)生用作與各聲道對應的語音識別 結(jié)果的評價信息的附加信息;和聲道選擇單元,被配置為輸入所述語音識別結(jié)果和所述附加信息,通過應用所述附加 信息計算與各聲道對應的語音識別結(jié)果的得分,選擇并輸出具有高得分的語音識別結(jié)果。
2.如權利要求1所述的語音識別裝置,其中,語音識別單元計算語音識別結(jié)果的識別置信度作為所述附加信息,并且 其中,聲道選擇單元通過應用所述識別置信度計算與各聲道對應的語音識別結(jié)果的得分。
3.如權利要求1或2所述的語音識別裝置,其中,語音識別單元計算指示語音識別結(jié)果是否是與語音識別裝置中假定的任務相關 的識別結(jié)果的任務內(nèi)講話程度,作為所述附加信息,并且其中,聲道選擇單元通過應用所述任務內(nèi)講話程度計算與各聲道對應的語音識別結(jié)果 的得分。
4.如權利要求1所述的語音識別裝置,其中,聲道選擇單元應用語音識別結(jié)果的識別 置信度和指示語音識別結(jié)果是否是與語音識別裝置中假定的任務相關的識別結(jié)果的任務 內(nèi)講話程度中的至少一個作為得分計算數(shù)據(jù),并通過組合語音功率和聲源方向信息中的至 少一個來計算得分。
5.如權利要求1至4中任一項所述的語音識別裝置,其中,所述語音識別單元包括多個語音識別單元,語音識別單元的數(shù)量等于由聲源分 離單元產(chǎn)生的多個聲道的分離信號的聲道數(shù)量,并且其中,所述多個語音識別單元分別接收由聲源分離單元產(chǎn)生的多個聲道的分離信號中 的與各個聲道對應的分離信號,并且并行地執(zhí)行語音識別處理。
6.一種在語音識別裝置中執(zhí)行的語音識別方法,包括下述步驟通過使用聲源分離單元把多個聲源的輸出的混合信號分離成與各聲源對應的信號并 產(chǎn)生多個聲道的分離信號;通過使用語音識別單元輸入由聲源分離單元產(chǎn)生的所述多個聲道的分離信號,執(zhí)行語 音識別處理,產(chǎn)生與各聲道對應的語音識別結(jié)果,并產(chǎn)生用作與各聲道對應的語音識別結(jié) 果的評價信息的附加信息;以及通過使用聲道選擇單元輸入所述語音識別結(jié)果和所述附加信息,通過應用所述附加信 息計算與各聲道對應的語音識別結(jié)果的得分,選擇并輸出具有高得分的語音識別結(jié)果。
7.一種使語音識別裝置執(zhí)行語音識別處理的程序,所述語音識別處理包括下述步驟 通過使用聲源分離單元把多個聲源的輸出的混合信號分離成與各聲源對應的信號并產(chǎn)生多個聲道的分離信號;通過使用語音識別單元輸入由聲源分離單元產(chǎn)生的所述多個聲道的分離信號,執(zhí)行語 音識別處理,產(chǎn)生與各聲道對應的語音識別結(jié)果,并產(chǎn)生用作與各聲道對應的語音識別結(jié)果的評價信息的附加信息;以及通過使用聲道選擇單元輸入所述語音識別結(jié)果和所述附加信息,通過應用所述附加信 息計算與各聲道對應的語音識別結(jié)果的得分,選擇并輸出具有高得分的語音識別結(jié)果。
全文摘要
本發(fā)明涉及語音識別裝置、語音識別方法和程序。該語音識別裝置包括聲源分離單元,被配置為把多個聲源的輸出的混合信號分離成與各聲源對應的信號并產(chǎn)生多個聲道的分離信號;語音識別單元,被配置為輸入由聲源分離單元產(chǎn)生的所述多個聲道的分離信號,執(zhí)行語音識別處理,產(chǎn)生與各聲道對應的語音識別結(jié)果,并產(chǎn)生用作關于與各聲道對應的語音識別結(jié)果的評價信息的附加信息;和聲道選擇單元,被配置為輸入所述語音識別結(jié)果和所述附加信息,通過應用所述附加信息計算與各聲道對應的語音識別結(jié)果的得分,選擇并輸出具有高得分的語音識別結(jié)果。
文檔編號G10L15/08GK102074230SQ20101054014
公開日2011年5月25日 申請日期2010年11月11日 優(yōu)先權日2009年11月20日
發(fā)明者小川浩明, 廣江厚夫, 朝川智, 本田等, 澤田務 申請人:索尼公司