国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音識別裝置和語音識別方法

      文檔序號:2831808閱讀:310來源:國知局
      專利名稱:語音識別裝置和語音識別方法
      技術領域
      本發(fā)明涉及語音識別技術,并且更具體地涉及用于使用諸如音調(tone)(語調, voice tone)之類的韻律的語言的語音識別技術。
      背景技術
      存在使用韻律的各種語言。例如,漢語使用稱為音調的韻律。音調是用來在含義 之間進行區(qū)分的音高(sound pitch)模式,并且主要地,元音(vowel)具有諸如升調和降調 之類的特有音調。因此,對于漢語語音識別,識別出音調是很重要的。 在日本專利No. 3162994(參考文獻1)中公開的技術被稱為使用音調的語音識別 技術。在參考文獻1中描述的漢語語音識別技術將音節(jié)(syllable)劃分為第一半部分和 第二半部分,僅將音節(jié)的第二半部分與音調相關聯,并且利用經關聯的音調來識別語音。由 于語音識別是利用音調來執(zhí)行的,因此,與未使用音調的技術相比,這種技術可以使語調語 音識別更準確。

      發(fā)明內容
      本發(fā)明解決的問題 然而,參考文獻1的技術簡單地將音節(jié)劃分為第一半部分和第二半部分,并且第
      二半部分可以包括輔音(consonant)。因此,即使對于沒有語調的輔音也可以進行音調識
      別。在此情況中,音調識別結果可能不準確,并且語音識別精度可能降低。 本發(fā)明的一個示例性目的是提高對于具有諸如音調之類的韻律的語言的語音識
      別精度。 解決問題的手段 根據本發(fā)明一個示例性方面的語音識別裝置包括單詞搜索裝置,用于基于音素 模型與輸入語音的特征量之間的聲音距離以及包括單詞的音素和韻律標記的語言模型中 的單詞的音素來執(zhí)行單詞搜索,將單詞假說和表示所述單詞假說的似然度(likelihood) 的第一分數輸出為單詞搜索結果,并且在假設所述輸入語音的識別結果為所述單詞假說 時,輸出所述輸入語音中的韻律間隔以及所述韻律間隔的韻律標記;韻律識別裝置,用于基 于所述輸入語音的特征量中與從所述單詞搜索裝置輸出的所述韻律間隔相對應的一個特 征量,來輸出表示從所述單詞搜索裝置輸出的所述韻律標記的似然度的第二分數;以及重 判裝置,用于利用從所述韻律識別裝置輸出的所述第二分數來校正從所述單詞搜索裝置輸 出的所述單詞假說的第一分數。 根據本發(fā)明另一示例性方面的語音識別方法包括以下步驟基于音素模型與輸入 語音的特征量之間的聲音距離以及包括單詞的音素和韻律標記的語言模型中的單詞的音 素來執(zhí)行單詞搜索,將單詞假說和表示所述單詞假說的似然度的第一分數輸出為單詞搜索 結果,并且在假設所述輸入語音的識別結果為所述單詞假說時,輸出所述輸入語音中的韻 律間隔以及所述韻律間隔的韻律標記;基于所述輸入語音的特征量中與所輸出的韻律間隔相對應的一個特征量,來輸出表示所輸出的韻律標記的似然度的第二分數;并且利用所輸 出的第二分數來校正所輸出的單詞假說的第一分數。
      本發(fā)明的效果 根據本發(fā)明,能夠提高對具有諸如音調之類的韻律的語言的語音識別精度。


      圖1是示出根據本發(fā)明第一示例性實施例的語音識別裝置的總體布置示例的框 圖; 圖2是圖示出根據第一示例性實施例的操作示例的流程圖;
      圖3是示出第一示例性實施例的示例的框圖;
      圖4A和圖4B是示出單詞的示例的示圖;
      圖5是示出詞典的內容示例的示圖; 圖6是用于說明第一示例性實施例的示例的操作的示圖;
      圖7是用于說明音調建模方法的曲線圖; 圖8是根據本發(fā)明第二示例性實施例的語音識別裝置的框圖;
      圖9是示出第二示例性實施例的示例的總體布置的示例的框圖;
      圖10A和圖10B是示出連續(xù)單詞的示例的示圖;
      圖11是用于說明第二示例性實施例的示例的操作的示圖;以及
      圖12是根據本發(fā)明第三示例性實施例的語音識別裝置的框圖。
      具體實施例方式
      現在將參考附圖詳細描述本發(fā)明的示例性實施例。
      [本發(fā)明的第一示例性實施例] 將描述根據本發(fā)明第一示例性實施例的語音識別裝置。
      [對本發(fā)明第一示例性實施例的布置的說明] 圖1是示出根據本發(fā)明第一示例性實施例的語音識別裝置的總體布置的示例的 框圖。 參考圖l,語音識別裝置1包括三種模型存儲單元,即,對通過建模音素形成的音 素模型進行登記的音素模型(phonetic model)存儲單元11、對包括單詞的音素和音調標 記的語言模型進行登記的語言模型存儲單元12,以及對通過建模音調的聲音特征而形成的 音調模型進行登記的音調模型存儲單元13。 語音識別裝置1還包括輸入單元14、聲音分析單元15、距離計算單元16、單詞搜索 單元17、音調識別單元21、重判(rescore)單元22以及輸出單元23,所述音調識別單元21 用作韻律識別部件。 輸入單元14具有輸入語音的功能。聲音分析單元15具有從聲學上分析從輸入單 元14輸入的語音并輸出輸入語音的特征量的功能。距離計算單元16具有計算作為聲音 分析結果的特征量與登記在音素模型存儲單元11中的每個音素模型之間的聲音距離的功 能。 單詞搜索單元17具有如下功能基于由距離計算單元16獲得的聲音距離以及登
      6記在語言模型存儲單元12中的語言模型來執(zhí)行單詞搜索,并且向重判單元22輸出包括多 種單詞假說(識別結果候選者)以及表示單詞假說的似然度的第一分數的單詞搜索結果。 本示例性實施例的單詞搜索單元17還具有如下功能在假定多種單詞假說中的每種是輸 入語音識別結果時,輸出輸入語音中的元音間隔及其音調標記。 為了實現此功能,單詞搜索單元17包括單詞假說標識單元18、音素假說標識單元 19以及元音間隔標識單元20。單詞假說標識單元18標識通過單詞搜索獲得的每個單詞假 說。音素假說標識單元19標識每個單詞假說中的音素。元音間隔標識單元20基于標識出 的音素以及用于單詞搜索的音素與輸入語音之間的對應關系,針對每個單詞假說標識輸入 語音中的元音間隔。 音調識別單元21具有如下功能針對每種單詞假說,基于與從單詞搜索單元17輸 出的元音間隔相對應的特征量以及登記在音調模型存儲單元13中的音調模型來獲取第二 分數,并且將第二分數輸出給重判單元22,每個所述第二分數表示單詞假說的音調標記的 似然度。 重判單元22具有利用從音調識別單元21輸出的每個單詞假說的第二分數來校正 從單詞搜索單元17輸出的相應單詞假說的第一分數的功能。輸出單元23具有如下功能 基于經校正的第一分數從通過單詞搜索獲得的多種單詞假說中選擇性地輸出識別結果。
      注意,語音識別裝置1可以由計算機以例如下面的方式來實現。準備記錄有使得 計算機用作語音識別裝置1的程序的盤、半導體存儲器或者任何其它記錄介質,并且計算 機讀出程序。計算機基于讀出的程 序控制其操作,從而在計算機上實現聲音分析單元15、距 離計算單元16、單詞搜索單元17、音調識別單元21、重判單元22以及輸出單元23。
      [對本發(fā)明第一示例性實施例的操作的說明]
      接下來參考圖1和2詳細描述本示例性實施例的操作。 當從輸入單元14接收到用戶發(fā)出的語音時(圖2中的步驟S100),聲音分析單元 15從聲學上分析輸入語音以獲得語音的特征量(步驟SIOI)。此后,距離計算單元16計算 在步驟SIOI中獲得的特征量與登記在音素模型存儲單元11中的每個音素模型之間的聲音 距離(聲音距離表示每個音素的聲音似然度)(步驟S102)。 在距離計算單元16計算出了特征量與每個音素模型之間的聲音距離之后,單詞 搜索單元17基于聲音距離以及登記在語言模型存儲單元12中的語言模型來執(zhí)行單詞搜 索,并且向重判單元22輸出包括多種單詞假說以及表示單詞假說的似然度的第一分數的 單詞搜索結果(步驟S103)。 接下來,單詞搜索單元17中的單詞假說標識單元18標識在步驟S103中通過搜索 獲得的單詞假說(步驟S104)。音素假說標識單元19基于語言模型標識在步驟S104中標 識出的每個單詞假說的音素(步驟S105)。然后,元音間隔標識單元20針對在步驟S104中 標識出的每個單詞假說,基于在步驟S105中標識出的音素以及用于步驟S103中的單詞搜 索的音素與輸入語音之間的對應關系來標識輸入語音中的元音間隔,并且將標識出的元音 間隔對及其音調標記輸出給音調識別單元21 (步驟S106)。 對于從單詞搜索單元17輸出的每個元音間隔及其音調標記構成的對,音調識別 單元21基于與元音間隔相對應的特征量以及登記在音調模型存儲單元13中的音調模型來 執(zhí)行音調識別,并且將表示音調標記的似然度的第二分數輸出給重判單元22 (步驟S107)。
      重判單元22利用與從音調識別單元21輸出的每個單詞假說的第二分數來校正相 應單詞假說的第一分數(步驟S108)。輸出單元23基于經校正的第一分數從多個單詞假說 中判定識別結果,并且輸出識別結果(步驟S109)。
      [本發(fā)明第一示例性實施例的效果] 根據本示例性實施例,能夠準確地識別語調語音。這是因為音調識別目標間隔限 于基于單詞搜索信息獲得的元音間隔,單詞搜索信息可以最優(yōu)地組合聲音信息(特征量) 和語言信息。即,與簡單地基于聲音信息獲取音調識別目標間隔(元音間隔)的技術相比, 將元音間隔以外的間隔錯誤地定義為音調識別間隔的風險降低。由于能夠抑制音調識別錯 誤,因此,可以使識別精度更高。
      [第一示例性實施例的示例]
      接下來描述第一示例性實施例的示例。
      [對第一示例性實施例的示例的布置的說明] 圖3是示出根據本示例的語音識別裝置10的總體布置的示例的框圖。
      本示例的語音識別裝置10包括三個存儲單元,即對用作音素模型的HMM(隱式馬 爾科夫模型)進行登記的HMM存儲單元110、對具有要識別的單詞的音素和音調標記的詞典 進行登記的詞典存儲單元120,以及將通過利用例如G匪(高斯混合模型)來建模四聲的聲 音特征而形成的四聲模型登記為音調模型的四聲模型存儲單元130。存儲單元110U20和 130分別對應于圖1所示的音素模型存儲單元11、語言模型存儲單元12和音調模型存儲單 元13。 語音識別裝置10還包括輸入單元140、聲音分析單元150、距離計算單元160 、單詞 搜索單元170、四聲識別單元210、重判單元220以及輸出單元230,單詞搜索單元170具有 單詞假說標識單元180、音素假說標識單元190以及元音間隔標識單元200。功能單元140、 150、160、170、210、220和230分別對應于圖1所示的輸入單元14、聲音分析單元15、距離計 算單元16、單詞搜索單元17、音調識別單元21、重判單元22以及輸出單元23,并且具有相 同的功能。 注意,與第一示例性實施例的語音識別裝置1類似,本示例的語音識別裝置10還 可以通過計算機來實現。[對第一示例性實施例的示例的操作的說明]
      接下來將詳細描述本示例的操作。 例如,假設用戶說出了圖4A所示的單詞。注意,在下面的描述中,圖4A所示的單 詞將被稱為單詞A,并且圖4B所示的單詞將被稱為單詞B。如圖5所示,登記在詞典存儲單 元210中的詞典以音素水平將諸如單詞A和B之類的單詞與諸如"i3"的"3(第三聲)"和 "in2"的"2 (第二聲)"之類的音調標記一起登記。 聲音分析單元150從聲學上分析從輸入單元140輸入的語音,并且例如獲取每單 位時間(幀)的倒譜(c印strum)和音高作為特征量。 距離計算單元160針對每幀計算由聲音分析單元150獲得的倒譜與HMM存儲單元 110中所登記的每個HMM之間的距離,并且輸出各幀中的倒譜與各個音素之間的聲音距離 (表示似然度的分數)作為距離計算結果。 當距離計算單元160輸出了距離計算結果時,單詞搜索單元170對詞典中的單詞順序地執(zhí)行下面的處理。單詞搜索單元170基于包括在處理目標單詞中的音素以及從距離 計算單元160接收的距離計算結果,針對每個音素獲取與音素相對應的幀以及表示聲音似 然度的聲音距離(分數)。例如,當處理目標是圖4A所示的單詞A時,則音素"n i3 h ao3" 被包括在單詞A中,如圖5所示。因此,以幀的順序來計算從距離計算結果的排頭起被鏈接 起來的音素模型"n"、"i"、"h"和"ao"的分數,從而獲得例如以下信息(音素模型"n"在 幀"5至11"中具有分數"O. 7",音素模型"i"在幀"12至19"中具有分數"O. 8". . . }或者 {音素模型"n"在幀"4至9"中具有分數"O. 5",音素模型"i"在幀"10至17"中具有分數 "0.6",...}。此后,信息的分數(例如,音素模型的分數之和)就被獲得。最高分數被確定 為處理目標單詞的分數,并且具有最高分數的信息被存儲在幀信息存儲單元(未示出)中 作為用來執(zhí)行單詞搜索的信息。 單詞搜索單元170針對登記在詞典中的所有單詞執(zhí)行上述處理,并且基于單詞的 分數來確定用作單詞假說的單詞(識別結果候選者)。例如,以分數的降序來選擇預定數目 的單詞,并且所選單詞被定義為單詞假說。 假設利用上述單詞搜索處理,具有分數"3. 2"的單詞A和具有分數"3. 5"的單詞
      B被獲得作為識別結果候選者,如圖6所示。 當單詞搜索處理結束時,單詞搜索單元170中的單詞假說標識單元180首先標識 單詞以獲得單詞A和B。接下來,音素假說標識單元190利用詞典標識音素,以便從單詞A 獲得"n in2 h ao3"并且從單詞B獲得"ni3 h ao3"并且一同獲得音調標記。此后,元音 間隔標識單元200基于音素標識結果和登記在幀信息存儲單元中的信息來標識單詞A和單 詞B的元音間隔。 結果,與單詞A的元音部分"in2"和"ao3"相對應的元音間隔以及與單詞B的元 音部分"i3"和"ao3"相對應的元音間隔被獲得作為時間(幀)信息,如圖6所示。
      元音間隔標識單元200然后將單詞A和B的元音間隔以及它們的音調標記傳送給 四聲識別單元210。四聲識別單元210針對單詞的元音間隔順序地執(zhí)行下面的處理。針對 與處理目標元音間隔相對應的、作為聲音分析單元150的分析結果的音高中的一個,四聲 識別單元210利用登記在四聲模型存儲單元130中的四聲模型來執(zhí)行四聲識別,從而計算 表示元音間隔的音調標記的似然度的分數St。例如,當處理目標是單詞B的元音"i3"的元 音間隔"幀12至19"時,則利用四聲模型使"幀12至19"所對應的音高經過四聲識別,以 計算出表示元音"i3"的似然度的分數。在圖6的示例中,表示作為第三聲的、單詞B的元 音"i3"所對應的元音間隔的似然度的分數為"0. 3"。 當G匪被用作模型時,如在此示例中,可以利用N維特征向量x二 (xl,x2,. . . ,xN) 作為輸入并且利用M作為G匪的混合數,通過下式來計算四聲識別結果的分數St,
      [算式1] M St = ZWiPi(X)
      i
      M (J]Wi = 1) i
      9[畫]Pi(x) = ,, 二 v 1/2 exP j -4(x - (x - A) 其中,ii是四聲模型的平均向量,E i是協方差矩陣,并且w是權重。作為G匪,這 里準備了表示第一聲至第四聲的四個模型。例如,如果識別目標的音調標記指示第三聲,則 利用表示第三聲的G匪來計算分數。類似地,假設針對元音"in2"獲得了分數"0.8",并且 在兩個單詞假說中,針對元音"ao3"獲得了分數"0.9"。利用四聲識別結果,重判單元220 重判單詞假說來作為單詞搜索結果。令Sw為原始單詞假說的分數,并且令Stl,St2,...為 存在于單詞中的元音的四聲識別結果的分數。則由下式給出所有單詞假說被重判之后的分 數S[算式2] S = SW+Zstn
      n 此時,可以利用元音的數目或幀的數目來使四聲識別結果的分數St歸一化。作為 重判的結果,單詞A的分數為"4.9",并且單詞B的分數為"4.7"。即,排名被顛倒了。輸出 單元230將單詞A輸出作為最有可能的識別結果。 為了實現重判,可使用如下方法執(zhí)行單詞搜索同時校正所處理的單詞假說的分 數的方法,或者校正在與針對一話語的單詞搜索處理結束之后的中間結果相對應的N個最 好候選者或單詞曲線圖(graph)中所包括的每個單詞假說的分數的方法。在前一種方法 中,由于所有的單詞假說被處理,因此,處理量增加,然而可以預期精度較高。在后一種方法 中,由于中間結果通常僅包括所生成的具有高分數的單詞假說,因此,處理量可以較小,然 而不能充分地提高精度。 作為使用G匪的音調建模方法,例如,如圖7所示,在時間方向和頻率方向上使目
      標元音間隔的音高信息歸一化,并且采樣輪廓的N個點以形成N維特征向量,并且執(zhí)行學
      習,從而對音調建模。此時,通過歸一化時間t時的頻率Ft而獲得的Ft 例如由下式給出[算式3]
      ~ Ft - F minFt =-
      F max— F min 其中,Fmax和Fmin是目標間隔中的頻率的最大和最小值。
      還在時間方向上的N個點處歸一化Ft 。 這種布置使得能夠獨立地學習要登記在HMM存儲單元110中的HMM以及要登記在 四聲模型存儲單元130中的四聲模型。例如,可以與"i"的四聲(例如"i2"或"i3")相 獨立地將表示"i"的HMM學習為一個模型"i"。反之,可以與第三聲的音素(例如"i3"或 "ao3")相獨立地將表示第三聲的四聲模型學習為一個模型"第三聲"。這是因為每個音調 的輪廓表現出獨立于音素的類型的幾乎相同的形狀。即,根據本示例,能夠以較少學習量獲 得使能準確語音識別的HMM和四聲模型。 在此示例中,描述了一個單詞的識別示例。然而,還能夠通過相同方法識別在一個 話語中包含多個單詞的連續(xù)語音。即使在此情況中,也針對每個單詞假說執(zhí)行重判,并計算 所有分數之和。
      10
      在此示例中,通過G匪來建模四聲。替代地,例如,可以使用SVM。在此情況中,由 于SVM是二進制鑒別器,因此,通過準備所有組合的鑒別模型(例如,第一聲和第二聲的鑒 別模型以及第一聲和第三聲的鑒別模型)來執(zhí)行鑒別。結果,四聲中最有可能的一個音調, 即與鑒別結果的最大和相對應的音調是否與標識出的音素所對應的音調標記相同,被輸出 作為分數并且被重判。例如,當音調標記指示第二聲,并且四聲中與鑒別結果的最大和相對 應的一個音調為第二聲時,分數"1. 0"被輸出。替代地,如果音調為第一聲,則分數"0"被 輸出。[本發(fā)明的第二示例性實施例] 接下來描述根據本發(fā)明第二示例性實施例的語音識別裝置。本示例性實施例的特 征在于不僅利用音調模型而且利用上下文模型(contextmodel)來執(zhí)行音調識別,上下文 模型是通過對用作音調歷史信息的上下文信息進行建模而創(chuàng)建的。
      [對本發(fā)明第二示例性實施例的布置的說明] 圖8是示出根據本示例性實施例的語音識別裝置的總體布置的示例的框圖。與圖 1所示的語音識別裝置1不同,圖8所示的語音識別裝置la另外地包括上下文模型存儲單 元31,并且還包括取代音調識別單元21的音調識別單元21a。 上下文模型存儲單元31對通過對用作音調歷史信息的上下文信息進行建模而形 成的上下文模型進行登記。 音調識別單元21a具有如下功能針對每個單詞假說,基于與從單詞搜索單元17 中的元音間隔標識單元20輸出的元音間隔相對應的特征量、登記在音調模型存儲單元13 中的音調模型以及登記在上下文模型存儲單元31中的上下文模型來獲取第二分數,并且 將第二分數輸出給重判單元22,每個所述第二分數表示單詞假說的音調標記的似然度。
      注意,與語音識別裝置1類似,本示例性實施例的語音識別裝置la也可以通過計 算機實現。[對本發(fā)明第二示例性實施例的操作的說明] 接下來描述本示例性實施例的操作。注意,與上述第一示例性實施例的操作差別 僅在于音調識別單元21a的操作,因此這里僅對音調識別單元21a的操作進行說明。
      音調識別單元21a針對從單詞搜索單元17輸出的每個元音間隔及其音調標記構 成的對來執(zhí)行下面的處理。音調識別單元21a基于與元音間隔相對應的特征量、登記在音 調模型存儲單元13中的音調模型以及登記在上下文模型存儲單元31中的上下文模型來執(zhí) 行音調識別,并且將其每個表示音調標記的似然度的第二分數輸出給重判單元22。
      [第二示例性實施例的效果] 在本示例性實施例中,不僅利用音調模型而且利用上下文模型來執(zhí)行音調識別。
      這使得能夠提高音調識別精度。[第二示例性實施例的示例] 接下來描述第二示例性實施例的示例。[對第二示例性實施例的示例的布置的說明] 圖9是示出根據本示例的語音識別裝置10a的總體布置的示例的框圖。與圖3所 示的第一示例性實施例的示例不同,語音識別裝置10a另外包括對四聲bigram模型進行 登記的四聲bigram模型存儲單元310,并且還包括取代四聲識別單元210的四聲識別單元210a。注意,四聲bigram模型存儲單元310和四聲識別單元210a分別對應于圖8所示的 上下文模型存儲單元31和音調識別單元21a。 四聲bigram模型存儲單元310將通過對四聲的鏈接概率進行建模而創(chuàng)建的四聲 bigram模型登記為上下文模型。 四聲識別單元210a具有如下功能針對每個單詞假說,基于與從單詞搜索單元 170中的元音間隔標識單元200輸出的元音間隔相對應的特征量、登記在四聲模型存儲單 元130中的四聲模型以及登記在四聲bigram模型存儲單元310中的四聲bigram模型來獲
      取其每個表示單詞假說的音調標記的似然度的第二分數,并且將第二分數輸出給重判單元 220。 注意,與語音識別裝置la類似,本示例性實施例的語音識別裝置10a也可以通過 計算機實現。[對第二示例性實施例的示例的操作的說明] 接下來描述本示例的操作。例如假設用戶向輸入單元140說出圖10A所示的連續(xù) 單詞。注意,在下面的描述中,將圖IOA所示的連續(xù)單詞稱為連續(xù)單詞A,并且將圖IOB所示 的連續(xù)單詞稱為連續(xù)單詞B。 聲音分析單元150、距離計算單元160和單詞搜索單元170執(zhí)行與上述處理相同的 處理。假設連續(xù)單詞A和B由此被獲得作為如圖11所示的單詞假說(識別結果候選者)。 在圖11的示例中,連續(xù)單詞A和B的分數分別為"24.8"和"25.0"。即,在此時間點處,連 續(xù)單詞B的似然度較高。 單詞搜索單元170中的單詞假說標識單元180、音素假說標識單元190以及元音 間隔標識單元200還執(zhí)行與上述處理相同的處理。連續(xù)單詞A和B的元音間隔及其音調標 記被輸出到四聲識別單元210a。具體地,對于包括音素"q ue4 r en4 m ei2 w en4 t i2" 的連續(xù)單詞A,元音"ue4"、"en4"、"ei2"、"en4"和"i2"的元音間隔(幀信息)及其音調 標記被輸出。對于包括音素"q ue4 r en4 m ei2 y ou3 w en4 t i2"的連續(xù)單詞B,元音 "ue4"、"en4"、"ei2"、"ou3"、"en4"和"i2"的元音間隔(幀信息)及其音調標記被輸出。
      四聲識別單元210a利用四聲模型以及四聲bigram模型來對從單詞搜索單元170 接收到的連續(xù)單詞A和B的元音間隔執(zhí)行四聲識別。 假設通過例如針對間隔"m ei2 y ou3w en4"應用目標元音間隔的四聲鏈接概率 和音高輪廓,則分別地,基于"ei2"、"ou3"和"en4"的音高獲得的分數為"O. 5"、"0. 3"和 "0. 6",基于鏈接概率獲得的分數為"0. 4"、"0. 2"和"0. 3"。對于使用四聲bigram模型的 鏈接概率,利用緊鄰的之前的元音的音調T卜工通過下式來計算目標元音的音調1\的概率
      P(T》=P(TjTi—》 例如,由于緊鄰"ei2"的之前的元音為具有第四聲的"en4",因此,"0.4"被獲得作 為第二聲和第四聲的鏈接概率。類似地,假設對于間隔"m ei2 w en4",分別地,獲得基于 "ei2"和"en4"的音高的分數為"0.7"和"0.8",并且獲得基于鏈接概率的分數為"0.4"和 "0. 7"。在此情況中,作為重判單元220重判所有間隔的結果,例如,獲得"32. 4"作為連續(xù) 單詞A的分數,并且獲得"32. 3"作為連續(xù)單詞B的分數。輸出單元230例如將連續(xù)單詞A 輸出為最相似結果。 以此方式,不僅使用了每個元音間隔的音高信息而且使用了表示四聲的可連接性的鏈接概率,從而提高了四聲識別的精度。 在此示例中,從音調模型獲得的分數以及從上下文模型獲得的分數被簡單地相加 以用于重判。然而,可以通過音節(jié)的數目或幀數來使分數歸一化。例如,可以計算加權和。 歸一化使得在識別連續(xù)語音時能夠抑制因包括在單詞假說中的音節(jié)數目的不同引起的分 數變化,從而進一步提高了識別精度。 注意,在每個示例性實施例中,都以音調為例。然而,還可使用音調以外的任何韻 律,如果其允許在字典上描述和標識間隔的話。例如,對于英語重音(accent),在字典中描 述了每個單詞的重音類型。每種重音類型的短時語音功率的時間變化被建模為特征量,并 且每個單詞中的重音間隔被標識為識別目標間隔。 [cm2][本發(fā)明的第三示例性實施例] 圖12是圖示出根據本發(fā)明第三示例性實施例的語音識別裝置的總體布置的示例 的框圖。參考圖12,語音識別裝置lb包括單詞搜索單元17b、韻律識別單元21b和重判單 元22b。 單詞搜索單元17b具有如下功能基于每個音素模型與輸入語音的特征量之間的 聲音距離以及語言模型中的單詞的音素來執(zhí)行單詞搜索,并且將單詞假說以及表示單詞假 說的似然度的第一分數輸出作為單詞搜索結果。注意,語言模型包括單詞的韻律標記和音 素。此外,假設輸入語音的識別結果是單詞假說,則單詞搜索單元17b輸出輸入語音中的韻 律間隔及其韻律標記。 韻律識別單元21b具有如下功能基于與從單詞搜索單元17b輸出的韻律間隔相 對應的輸入特征量之一,輸出第二分數,每個所述第二分數表示從單詞搜索單元17b輸出 的韻律標記的似然度。重判單元22b具有利用從韻律識別單元21b輸出的第二分數來校正 從單詞搜索單元17b輸出的每個單詞假說的第一分數的功能。 語音識別裝置lb也可以被認為是包括圖l中的音素模型存儲單元ll、語言模型存 儲單元12、音調模型存儲單元13、輸入單元14、聲音分析單元15、距離計算單元16和輸出 單元23的裝置,或者除了包括這些功能單元外還包括從外部連接的圖8的上下文模型存儲 單元31的裝置。 同樣,在此示例性實施例中,與圖1和圖8所示的語音識別裝置1和la—樣,能夠 準確地識別語調語音。 注意,語音識別裝置lb可以通過計算機例如以下面的方式來實現。準備記錄有使 得計算機用作語音識別裝置lb的程序41的盤、半導體存儲器或者任何其它機械可讀記錄 介質4,并且計算機讀出程序4。計算機基于讀出的程序41控制其操作,從而實現單詞搜索 單元17b、韻律識別單元21b和重判單元22b。 上面已參考示例性實施例和示例描述了本發(fā)明,然而,本發(fā)明不限于上述示例性 實施例和示例。可以在本發(fā)明的范圍之內對本發(fā)明的布置和細節(jié)進行各種修改,并且本領 域技術人員將容易想到這些修改。 本申請是基于如下申請的并要求其優(yōu)先權2007年8月22日提交的日本專利申 請No. 2007-215958,該申請的公開通過引用全部結合于此。
      工業(yè)應用性 本發(fā)明可應用于使用對諸如漢語之類的語調語言的語音識別的人機界面。
      權利要求
      一種語音識別裝置,包括單詞搜索裝置,用于基于音素模型與輸入語音的特征量之間的聲音距離以及包括單詞的音素和韻律標記的語言模型中的單詞的音素來執(zhí)行單詞搜索,將單詞假說和表示所述單詞假說的似然度的第一分數輸出為單詞搜索結果,并且在假設所述輸入語音的識別結果為所述單詞假說時,輸出所述輸入語音中的韻律間隔以及所述韻律間隔的韻律標記;韻律識別裝置,用于基于所述輸入語音的特征量中與從所述單詞搜索裝置輸出的所述韻律間隔相對應的一個特征量,來輸出表示從所述單詞搜索裝置輸出的所述韻律標記的似然度的第二分數;以及重判裝置,用于利用從所述韻律識別裝置輸出的所述第二分數來校正從所述單詞搜索裝置輸出的所述單詞假說的第一分數。
      2. 根據權利要求1所述的語音識別裝置,其中,所述重判裝置執(zhí)行如下校正中的一個 校正在單詞搜索中被處理的單詞假說的分數,以及校正被獲得作為單詞搜索結果的中間結 果的分數。
      3. 根據權利要求2所述的語音識別裝置,其中,所述中間結果是N個最好候選者和單詞 曲線圖中的一個。
      4. 根據權利要求1所述的語音識別裝置,其中,所述韻律為音調,并且所述韻律間隔為 元音間隔。
      5. 根據權利要求4所述的語音識別裝置,其中,所述單詞搜索裝置包括 單詞假說標識裝置,用于標識單詞和連續(xù)單詞中的至少一個;音素假說標識裝置,用于利用語言模型標識所述單詞和所述連續(xù)單詞的至少一個中的 音素;以及元音間隔標識裝置,用于標識音素的元音的間隔。
      6. 根據權利要求5所述的語音識別裝置,其中,所述元音間隔標識裝置將單詞搜索中 從元音的假說的開始時間到結束時間的間隔標識為所述元音間隔。
      7. 根據權利要求4所述的語音識別裝置,其中,所述韻律識別裝置利用使用元音間隔 中的音高的時間變化作為特征量而建模的音調模型來執(zhí)行韻律識別。
      8. 根據權利要求7所述的語音識別裝置,其中,所述音調模型獨立于用來計算所述聲 音距離的音素模型。
      9. 根據權利要求4所述的語音識別裝置,其中,所述韻律識別裝置利用音調模型和上 下文模型來執(zhí)行韻律識別,所述音調模型是使用元音間隔中的音高的時間變化作為特征量 而被建模的,所述上下文模型是通過對用作韻律歷史信息的上下文信息進行建模而創(chuàng)建 的。
      10. 根據權利要求9所述的語音識別裝置,其中,所述上下文模型是通過對元音的音調 的鏈接概率進行建模而創(chuàng)建的。
      11. 一種語音識別方法,包括以下步驟基于音素模型與輸入語音的特征量之間的聲音距離以及包括單詞的音素和韻律標記 的語言模型中的單詞的音素來執(zhí)行單詞搜索,將單詞假說和表示所述單詞假說的似然度的 第一分數輸出為單詞搜索結果,并且在假設所述輸入語音的識別結果為所述單詞假說時, 輸出所述輸入語音中的韻律間隔以及所述韻律間隔的韻律標記;基于所述輸入語音的特征量中與所輸出的韻律間隔相對應的一個特征量,來輸出表示 所輸出的韻律標記的似然度的第二分數;以及利用所輸出的第二分數來校正所輸出的單詞假說的第一分數。
      12. 根據權利要求11所述的語音識別方法,其中,校正步驟包括如下步驟中的一個校 正在單詞搜索中被處理的單詞假說的分數,以及校正被獲得作為單詞搜索結果的中間結果 的分數。
      13. 根據權利要求12所述的語音識別方法,其中,所述中間結果是N個最好候選者和單 詞曲線圖中的一個。
      14. 根據權利要求11所述的語音識別方法,其中,所述韻律為音調,并且所述韻律間隔 為元音間隔。
      15. 根據權利要求14所述的語音識別方法,其中,執(zhí)行單詞搜索的步驟包括以下步驟 標識單詞和連續(xù)單詞中的至少一個;利用語言模型標識所述單詞和所述連續(xù)單詞的至少一個中的音素;以及 標識音素的元音的間隔。
      16. 根據權利要求15所述的語音識別方法,其中,標識間隔的步驟包括以下步驟將單 詞搜索中從元音的假說的開始時間到結束時間的間隔標識為所述元音間隔。
      17. 根據權利要求14所述的語音識別方法,其中,輸出第二分數的步驟包括以下步驟 利用使用元音間隔中的音高的時間變化作為特征量而建模的音調模型來執(zhí)行韻律識別。
      18. 根據權利要求17所述的語音識別方法,其中,所述音調模型獨立于用來計算所述 聲音距離的音素模型。
      19. 根據權利要求14所述的語音識別方法,其中,輸出第二分數的步驟包括以下步驟利用音調模型和上下文模型來執(zhí)行韻律識別,所述音調模型是使用元音間隔中的音高的時 間變化作為特征量而被建模的,所述上下文模型是通過對用作韻律歷史信息的上下文信息 進行建模而創(chuàng)建的。
      20. 根據權利要求19所述的語音識別方法,其中,所述上下文模型是通過對元音的音 調的鏈接概率進行建模而創(chuàng)建的。
      21. —種使得計算機用作如下裝置的程序單詞搜索裝置,用于基于音素模型與輸入語音的特征量之間的聲音距離以及包括單詞 的音素和韻律標記的語言模型中的單詞的音素來執(zhí)行單詞搜索,將單詞假說和表示所述單 詞假說的似然度的第一分數輸出為單詞搜索結果,并且在假設所述輸入語音的識別結果為 所述單詞假說時,輸出所述輸入語音中的韻律間隔以及所述韻律間隔的韻律標記;韻律識別裝置,用于基于所述輸入語音的特征量中與從所述單詞搜索裝置輸出的所述 韻律間隔相對應的一個特征量,來輸出表示從所述單詞搜索裝置輸出的所述韻律標記的似 然度的第二分數;以及重判裝置,用于利用從所述韻律識別裝置輸出的所述第二分數來校正從所述單詞搜索 裝置輸出的所述單詞假說的第一分數。
      22. 根據權利要求21所述的程序,其中,所述重判裝置執(zhí)行如下校正中的一個校正在 單詞搜索中被處理的單詞假說的分數,以及校正被獲得作為單詞搜索結果的中間結果的分 數。
      23. 根據權利要求22所述的程序,其中,所述中間結果是N個最好候選者和單詞曲線圖 中的一個。
      24. 根據權利要求21所述的程序,其中,所述韻律為音調,并且所述韻律間隔為元音間隔。
      25. 根據權利要求24所述的程序,其中,所述單詞搜索裝置包括 單詞假說標識裝置,用于標識單詞和連續(xù)單詞中的至少一個;音素假說標識裝置,用于利用語言模型標識所述單詞和所述連續(xù)單詞的至少一個中的 音素;以及元音間隔標識裝置,用于標識音素的元音的間隔。
      26. 根據權利要求25所述的程序,其中,所述元音間隔標識裝置將單詞搜索中從元音 的假說的開始時間到結束時間的間隔標識為所述元音間隔。
      27. 根據權利要求24所述的程序,其中,所述韻律識別裝置利用使用元音間隔中的音 高的時間變化作為特征量而建模的音調模型來執(zhí)行韻律識別。
      28. 根據權利要求27所述的程序,其中,所述音調模型獨立于用來計算所述聲音距離 的音素模型。
      29. 根據權利要求24所述的程序,其中,所述韻律識別裝置利用音調模型和上下文模 型來執(zhí)行韻律識別,所述音調模型是使用元音間隔中的音高的時間變化作為特征量而被建 模的,所述上下文模型是通過對用作韻律歷史信息的上下文信息進行建模而創(chuàng)建的。
      30. 根據權利要求29所述的程序,其中,所述上下文模型是通過對元音的音調的鏈接 概率進行建模而創(chuàng)建的。
      全文摘要
      距離計算單元(16)獲取輸入語音的特征量和每個音素模型之間的聲音距離。單詞搜索單元(17)基于聲音距離以及包括單詞的音素和韻律標記的語言模型來執(zhí)行單詞搜索,并且輸出單詞假說以及表示該單詞假說的似然度的第一分數。單詞搜索單元(17)還輸出當假設輸入語音的識別結果為該單詞假說時,語音中的元音間隔及其音調標記。音調識別單元(21)基于與從單詞搜索單元(17)輸出的元音間隔相對應的特征量,輸出表示從單詞搜索單元(17)輸出的音調標記的似然度的第二分數。重判單元(22)利用從音調識別單元(21)輸出的第二分數來校正從單詞搜索單元(17)輸出的單詞假說的第一分數。這使得能夠提高音調語音的語音識別精度。
      文檔編號G10L15/18GK101785051SQ20088010359
      公開日2010年7月21日 申請日期2008年8月22日 優(yōu)先權日2007年8月22日
      發(fā)明者花澤健 申請人:日本電氣株式會社
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1