国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音處理設備、語音處理方法和語音處理程序的制作方法

      文檔序號:2837501閱讀:308來源:國知局
      專利名稱:語音處理設備、語音處理方法和語音處理程序的制作方法
      技術領域
      本發(fā)明涉及語音處理設備、語音處理方法和語音處理程序。更具體而
      言,本發(fā)明涉及能夠基于語音的韻律(prosody)特性來識別語音的卓越的 語音處理設備、在該語音處理設備中采用的語音處理方法以及實現(xiàn)該語音 處理方法的語音處理程序。
      背景技術
      近年來,語音識別技術被廣泛使用。在過去,語音識別技術基本上是 一種用于識別關于音素(phoneme)的信息的技術。關于音素的信息在下 文中被稱為音素信息,它是語音中包括的信息的一部分。在當前的現(xiàn)有技 術中,很難說普通的語音識別技術積極地利用了關于韻律的信息。關于韻 律的信息在下文中被稱為韻律信息,它是作為除音素信息之外的信息而包 括在語音中的信息。
      但是,這并不意味著完全不存在利用韻律信息的現(xiàn)有技術。例如,己 知一種技術,其利用韻律信息以更加適當?shù)刈R別短語之間的邊界,等等。 關于這樣的技術的細節(jié),建議讀者參考日本專利早期公布No. Hei 4-66999 (以下稱之為專利文獻l)。

      發(fā)明內(nèi)容
      但是,專利文獻1中公開的現(xiàn)有技術利用關于韻律的信息作為輔助信 息以提供語音識別技術的精度。從而,專利文獻1中公開的現(xiàn)有技術不是 一種能夠清楚地識別在關于韻律的信息中包括的更多樣化的信息的技術。
      順便說一下,只利用關于音素的信息,在一些情況下可能難以識別人 類發(fā)出的語音。例如,在日本語的情況下,表達同意意圖的單詞"ung" 和表達不同意意圖的單詞"uung"從音素信息的觀點來看幾乎是彼此相同
      的。從而,在這種情況下,只利用音素信息就難以區(qū)分同意意圖和不同意 意圖。因此,有必要執(zhí)行也基于諸如關于語調(diào)模式和關于音素持續(xù)時間的 信息之類的韻律信息的語音識別過程。
      在作為語音信號處理的一部分而執(zhí)行的與語調(diào)相關的過程中,廣泛采 用了檢測音調(diào)(pitch)頻率(或音調(diào)周期)的技術。但是,檢測音調(diào)頻率 的技術有這樣一個問題,即由于噪聲之類的影響,很容易產(chǎn)生差錯。此
      外,在將檢測音調(diào)頻率的技術應用到耳語語音(whispering voice)和具有 低音調(diào)特性的語音時,也容易產(chǎn)生差錯。從而,在實現(xiàn)如上所述的檢測音 調(diào)頻率的技術時容易產(chǎn)生差錯的情形下或者在易于出現(xiàn)檢測差錯的語音識 別過程中,基于韻律信息的語音識別過程可能是難以執(zhí)行的處理。
      為了解決上述問題,本發(fā)明的發(fā)明人發(fā)明了一種語音處理設備和一種 語音處理方法,即使在噪聲之類的影響較大的情況下以及耳語語音的情況 下或者具有低音調(diào)特性的語音的情況下,該語音處理設備和語音處理方法 也能夠基于語音的韻律特性來有效地檢測音調(diào)頻率并且十分可靠地識別輸 入語音。
      根據(jù)本發(fā)明的一個實施例,提供了一種語音處理設備,用于基于輸入
      的語音的韻律特性來識別語音。該語音處理設備使用
      語音采集裝置,用于采集輸入語音;
      聲學分析裝置,用于基于在語音采集裝置所采集的輸入語音的每個幀 時間所看到的第一頻率特性和預先確定的第二頻率特性之間的頻率方向差 異,來找出相對音調(diào)變化;以及
      韻律識別裝置,用于基于由聲學分析裝置所找到的相對音調(diào)變化來執(zhí) 行韻律識別過程,以產(chǎn)生韻律識別過程的結果。
      可以向該語音處理設備提供這樣一個配置,在該配置中,聲學分析裝 置基于脊線(ridge line)相對于從第一和第二頻率特性計算出的互相關矩 陣的主對角線的偏移,來找出相對音調(diào)變化,該脊線是作為連接與第一和 第二頻率特性的峰相對應的矩陣元素的直線而繪制在互相關矩陣中的。
      可以向該語音處理設備提供這樣一個配置,該配置還具有用于存儲第 二頻率特性的頻率特性存儲裝置。
      可以向該語音處理設備提供這樣一個配置,在該配置中 頻率特性存儲裝置被用于存儲多個第二頻率特性,并且 聲學分析裝置基于根據(jù)由語音采集裝置所采集的輸入語音而從存儲在
      頻率特性存儲裝置中的第二頻率特性中選擇出來的適當?shù)牡诙l率特性,
      來找出相對音調(diào)變化。
      可以向該語音處理設備提供這樣一個配置,該配置還具有-語音識別裝置,用于執(zhí)行基于作為對由語音采集裝置所采集的輸入語
      音執(zhí)行聲學分析的結果而獲得的特性量的語音識別過程,以產(chǎn)生語音識別
      過程的結果,其中,如果語音識別過程的結果與特定單詞之一相匹配,則
      很有可能語音識別過程的結果是不正確的;
      特定單詞存儲裝置,用于存儲特定單詞;以及
      結果選擇裝置,用于將語音識別過程的結果與存儲在特定單詞存儲裝 置中的特定單詞相核對,其中
      如果語音識別過程的結果與存儲在特定單詞存儲裝置中的特定單詞之 一相匹配,則結果選擇裝置輸出最終識別結果,該最終識別結果是通過將 由語音識別裝置所執(zhí)行的語音識別過程的結果與由韻律識別裝置所執(zhí)行的 韻律識別過程的結果相結合來獲得的,但是
      另一方面,如果語音識別過程的結果不與存儲在特定單詞存儲裝置中 的特定單詞中的任何一個相匹配,則結果選擇裝置輸出由語音識別裝置執(zhí) 行的語音識別過程的結果,作為最終識別結果。
      根據(jù)本發(fā)明的另一實施例,提供了一種由語音處理設備采用的語音處 理方法,用于基于輸入的語音的韻律特性來識別語音。該語音處理方法包 括以下步驟
      采集輸入語音;
      基于在所采集的輸入語音的每個幀時間所看到的第一頻率特性和預先
      確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化;以及
      基于所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生韻律識別過 程的結果。
      根據(jù)本發(fā)明的另一個實施例,提供了一種語音處理程序,該語音處理
      程序?qū)⒂捎嬎銠C執(zhí)行,以便基于輸入的語音的韻律特性來識別語音。該語 音處理程序?qū)崿F(xiàn)包括以下步驟的語音處理方法 采集輸入語音;
      基于在以受控方式采集的輸入語音的每個幀時間所看到的第一頻率特 性和預先確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變 化;以及
      基于所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生韻律識別過 程的結果。
      根據(jù)本發(fā)明的實施例, 采集輸入語音;
      基于在所采集的輸入語音的每個幀時間所看到的第一頻率特性和預先 確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化;并且
      基于所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生韻律識別過 程的結果。
      該語音處理設備可以是獨立的設備,或者是語音處理設備的用于執(zhí)行 語音識別過程的模塊。
      如上所述,根據(jù)本發(fā)明的實施例,可以基于輸入的語音的韻律特性來 識別語音。具體而言,基于在所采集的輸入語音的每個幀時間所看到的第 一頻率特性和預先確定的第二頻率特性之間的頻率方向差異,來找出相對 音調(diào)變化。從而,即使輸入語音包括非語音部分(unvoiced sound portion)或者靜默片段,也能夠正確地識別輸入的語音。


      圖1是示出本發(fā)明所應用到的語音識別設備的配置的框圖; 圖2是示出圖1所示的語音識別設備中使用的韻律識別部件的配置的 框圖3是示出正常語音的頻率特性的圖; 圖4是示出耳語語音的頻率特性的圖; 圖5是示出頻率特性分析部件的功能配置的框圖6是示出由圖5所示的頻率特性分析部件中使用的時間到頻率變換 部件所輸出的典型頻率特性的圖,該時間到頻率變換部件作為根據(jù)本發(fā)明 一個實施例的時間到頻率變換部件;
      圖7是示出由圖5所示的頻率特性分析部件中使用的對數(shù)變換部件所 輸出的典型頻率特性的圖,該對數(shù)變換部件作為根據(jù)本發(fā)明一個實施例的
      對數(shù)變換部件;
      圖8是示出由圖5所示的頻率特性分析部件中使用的頻率范圍提取部 件所輸出的典型頻率特性的圖,該頻率范圍提取部件作為根據(jù)本發(fā)明一個 實施例的頻率范圍提取部件;
      圖9是示出圖2所示的韻律識別部件中使用的相對音調(diào)變化計算部件 的第一典型功能配置的框圖10是示出由相對音調(diào)變化計算部件輸出的作為頻率特性的典型互 相關矩陣的互相關矩陣的圖ll是示出構成圖IO所示的互相關矩陣的元素的圖形表示的圖12是示出頻率特性的典型自相關矩陣的圖13是示出構成圖12所示的自相關矩陣的元素的圖形表示的圖14示出了在描述語音識別設備為了識別語音的音素和語音的韻律 而執(zhí)行的處理時將要參考的流程圖15示出了在描述韻律識別部件為了識別語音的韻律而執(zhí)行的處理 時將要參考的流程圖16示出了在描述頻率分析處理時將要參考的流程圖17示出了在描述第一相對音調(diào)差異計算處理時將要參考的流程
      圖18A是示出由說出"aiueo"的男性所輸出的語音的波形的圖18B是示出由說出"aiueo"的男性所輸出的語音的真實音調(diào)模式的
      圖18C是示出由說出"aiueo"的男性所輸出的語音的相對音調(diào)模式的
      圖19A是示出由說出"aiueo"的女性所所輸出的語音的波形的圖19B是示出由說出"aiueo"的女性所輸出的語音的真實音調(diào)模式的
      圖19C是示出由說出"aiueo"的女性所輸出的語音的相對音調(diào)模式的
      圖20A是示出該男性為說出表達肯定答復的單詞"img"而輸出的正 常語音的波形的圖20B是示出該男性為說出表達肯定答復的單詞"ung"而輸出的正 常語音的真實音調(diào)模式的圖20C是示出該男性為說出表達肯定答復的單詞"img"而輸出的正 常語音的相對音調(diào)模式的圖21A是示出該男性為說出表達否定答復的單詞"mmg"而輸出的正 常語音的波形的圖21B是示出該男性為說出表達否定答復的單詞"mmg"而輸出的正 常語音的真實音調(diào)模式的圖21C是示出該男性為說出表達否定答復的單詞"imng"而輸出的正 常語音的相對音調(diào)模式的圖22A是示出該男性為說出表達疑問答復的單詞"ung "而輸出的正 常語音的波形的圖22B是示出該男性為說出表達疑問答復的單詞"ung "而輸出的正 常語音的真實音調(diào)模式的圖22C是示出該男性為說出表達疑問答復的單詞"img "而輸出的正 常語音的相對音調(diào)模式的圖23A是示出該男性為說出表達肯定答復的單詞"ung"而輸出的耳 語語音的波形的圖23B是示出該男性為說出表達肯定答復的單詞"ung"而輸出的耳 語語音的聲譜圖的圖23C是示出該男性為說出表達肯定答復的單詞"ung"而輸出的耳 語語音的相對音調(diào)模式的圖24A是示出該男性為說出表達否定答復的單詞"mmg"而輸出的耳
      語語音的波形的圖24B是示出該男性為說出表達否定答復的單詞"mmg"而輸出的耳 語語音的聲譜圖的圖24C是示出該男性為說出表達否定答復的單詞"mmg"而輸出的耳 語語音的相對音調(diào)模式的圖25A是示出該男性為說出表達疑問答復的單詞"ung "而輸出的耳 語語音的波形的圖25B是示出該男性為說出表達疑問答復的單詞"ung "而輸出的耳
      語語音的聲譜圖的圖25C是示出該男性為說出表達疑問答復的單詞"ung "而輸出的耳 語語音的相對音調(diào)模式的圖26A是示出說出"utsumuku"的語音的波形的圖26B是示出說出"utsumuku"的語音的真實音調(diào)模式的圖27是由圖9所示的相對音調(diào)變化計算部件所檢測到的作為說出 "utsumuku"的語音的相對音調(diào)模式的第一典型相對音調(diào)模式的圖28是示出從關于兩個幀的兩個頻率特性獲得的正確的互相關矩陣 的圖形表示的圖,該兩個幀是在包括在單詞"utsumuku"中作為除非語音 部分之外的部分之前和之后的兩個幀-,
      圖29是示出從關于與單詞"utsumuku"的字符"k"相對應的非語音 部分之前的幀的頻率特性和關于該非語音部分之后的幀的頻率特性獲得的 不正確的互相關矩陣的圖形表示的圖30是示出圖2所示的韻律識別部件中使用的相對音調(diào)變化計算部 件的第二典型功能配置的框圖31是示出構成由圖30所示的相對音調(diào)變化計算部件輸出的互相關 矩陣的元素的圖形表示的圖32是示出由圖30所示的相對音調(diào)變化計算部件所檢測到的作為說 出"utsumuku"的語音的相對音調(diào)模式的第二典型相對音調(diào)模式的圖33是在描述由圖30所示的相對音調(diào)變化計算部件所執(zhí)行的第二相 對音調(diào)差異計算處理時將要參考的流程圖;以及
      圖34是示出充當語音識別設備的個人計算機的配置的框圖。
      具體實施例方式
      在說明本發(fā)明的優(yōu)選實施例之前,在下面的比較性描述中說明所公開 的發(fā)明和實施例之間的關系。應當注意,即使有一個實施例在本說明書中 描述但未被包括在下面的說明性描述中作為與發(fā)明相對應的實施例,這樣 的實施例也不應當被解釋為不對應于發(fā)明的實施例。反過來說,作為對應 于特定發(fā)明的實施例而包括在下面的比較性描述中的實施例不應當被解釋 為不對應于除該特定發(fā)明之外的其他發(fā)明的實施例。
      此外,下面的比較性描述不應當被解釋為涵蓋本說明書中公開的所有 發(fā)明的全面描述。換言之,下面的比較性描述絕不否認存在這樣的發(fā)明 該發(fā)明在本說明書中公開,但未包括在權利要求中作為為其申請專利的發(fā) 明。也就是說,下面的比較性描述絕不否認存在這樣的發(fā)明該發(fā)明將要 被包括在另一個專利申請中、包括在對本說明書的修改中或者在未來添 加。
      根據(jù)本發(fā)明的一個實施例,提供了一種語音處理設備(例如這樣一個
      設備,其包括圖2所示的韻律識別部件32,作為使用圖30所示的相對音 調(diào)變化計算部件151的部件),用于基于輸入的語音的韻律特性來識別所
      述語音。該語音處理設備使用
      語音采集裝置(例如圖2所示的單詞輸入部件51),用于采集所述輸 入語音;
      聲學分析裝置(例如圖2的聲學分析部件52,其作為包括圖30所示 的相對音調(diào)變化計算部件151的部件),用于基于在所述語音采集裝置所 采集的輸入語音的每個幀時間所看到的第一頻率特性和預先確定的第二頻 率特性之間的頻率方向差異,來找出相對音調(diào)變化;以及
      韻律識別裝置(例如圖2所示的韻律識別子部件53),用于基于由所 述聲學分析裝置所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生韻律
      識別過程的結果。
      可以向所述語音處理設備提供這樣一個配置,該配置還具有頻率特性
      存儲裝置(例如圖30所示的模板頻率特性存儲部件161),用于存儲所述 第二頻率特性。
      可以向所述語音處理設備提供這樣一個配置,該配置還具有
      語音識別裝置(例如圖l所示的語音識別部件33),用于執(zhí)行基于作
      為對由所述語音采集裝置所采集的輸入語音執(zhí)行聲學分析的結果而獲得的 特性量的語音識別過程,以產(chǎn)生所述語音識別過程的結果,其中,如果所 述語音識別過程的結果與特定單詞之一相匹配,則很有可能所述語音識別
      過程的結果是不正確的;
      特定單詞存儲裝置(例如圖l所示的特定單詞存儲部件35),用于存 儲所述特定單詞;以及
      結果選擇裝置(例如圖l所示的結果選擇部件34),用于將所述語音 識別過程的結果與存儲在所述特定單詞存儲裝置中的特定單詞相核對,其 中
      如果所述語音識別過程的結果與存儲在所述特定單詞存儲裝置中的特 定單詞之一相匹配,則所述結果選擇裝置輸出最終識別結果,該最終識別 結果是通過將由所述語音識別裝置所執(zhí)行的語音識別過程的結果與由所述 韻律識別裝置所執(zhí)行的韻律識別過程的結果相結合來獲得的,但是
      另一方面,如果所述語音識別過程的結果不與存儲在所述特定單詞存 儲裝置中的特定單詞中的任何一個相匹配,則所述結果選擇裝置輸出由所 述語音識別裝置執(zhí)行的語音識別過程的結果,作為最終識別結果。
      根據(jù)本發(fā)明的另一個實施例,提供了一種由語音處理設備(例如這樣 一個設備,其包括圖2所示的韻律識別部件32,作為使用圖30所示的相 對音調(diào)變化計算部件151的部件)采用的語音處理方法,用于基于輸入的 語音的韻律特性來識別所述語音。該語音處理方法包括以下步驟
      采集所述輸入語音(例如,在圖14所示的流程圖的步驟Sl處執(zhí)行的 過程中);
      基于在所采集的輸入語音的每個幀時間所看到的第一頻率特性和預先 確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化(例如, 在圖33所示的流程圖的步驟S121處執(zhí)行的過程中);以及
      基于所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生所述韻律識 別過程的結果(例如,在圖14所示的流程圖的步驟S4至S6處執(zhí)行的過 程中)。
      根據(jù)本發(fā)明的另一實施例,提供了一種語音處理程序,該語音處理程 序?qū)⒂捎嬎銠C執(zhí)行,以便基于輸入的語音的韻律特性來識別所述語音。該 語音處理程序?qū)崿F(xiàn)包括以下步驟的語音處理方法
      采集所述輸入語音(例如,在圖14所示的流程圖的步驟Sl處執(zhí)行的 過程中);
      基于在以受控方式采集的輸入語音的每個幀時間所看到的第一頻率特 性和預先確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化
      (例如,在圖33所示的流程圖的步驟S121處執(zhí)行的過程中);以及
      基于所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生所述韻律識
      別過程的結果(例如,在圖14所示的流程圖的步驟S4至S6處執(zhí)行的過 程中)。
      接下來,參考附圖詳細描述本發(fā)明的優(yōu)選實施例,如下。
      圖1是示出本發(fā)明所應用到的語音識別設備11的配置的框圖。
      如圖所示,該語音識別設備11使用語音信號輸入部件31、韻律識別
      部件32、語音識別部件33、結果選擇部件34、特定單詞存儲部件35和識
      別結果輸出部件36。
      語音信號輸入部件31是用于從麥克風等等接收語音信號或者從另一
      設備接收語音信號的單元。
      韻律識別部件32是用于執(zhí)行韻律識別過程以識別輸入語音的單元。
      韻律是在書面文本中可能沒有表達的語音信息。韻律的示例是語調(diào)、速度
      變化和音量變化。由韻律識別部件32執(zhí)行的韻律識別過程的細節(jié)將在后
      面描述。
      語音識別部件33是用于執(zhí)行語音識別過程以識別輸入語音的單元。 在此情況下,語音識別部件33可執(zhí)行公知的語音識別過程。
      如果由語音識別部件33執(zhí)行的語音識別過程的結果與己經(jīng)存儲在特 定單詞存儲部件35中的特定單詞相匹配,則結果選擇部件34將由韻律識
      別部件32執(zhí)行的韻律識別過程的結果附加到由語音識別部件33執(zhí)行的語
      音識別過程的結果,并將由語音識別部件33執(zhí)行的語音識別過程的結果 與所附加的由韻律識別部件32執(zhí)行的韻律識別過程的結果一起輸出到識 別結果輸出部件36。另一方面,如果由語音識別部件33執(zhí)行的語音識別 過程的結果不與已經(jīng)存儲在特定單詞存儲部件35中的任何特定單詞相匹 配,則結果選擇部件34將由語音識別部件33執(zhí)行的語音識別過程的結果 按原樣輸出到識別結果輸出部件36。
      特定單詞存儲部件35是用于記錄將與由語音識別部件33執(zhí)行的語音 識別過程的結果相核對的特定單詞的存儲器。具體地說,特定單詞存儲部 件35是用于存儲特定單詞的存儲器,由語音識別部件33對輸入單詞執(zhí)行 的語音識別過程的結果將與這些特定單詞相核對。輸入的單詞也經(jīng)歷由韻 律識別部件32執(zhí)行的韻律識別過程。存儲在特定單詞存儲部件35中的特 定單詞的一個示例是單詞"ung"。
      識別結果輸出部件36是用于向外部結果接收設備輸出識別結果的單 元,所述識別結果是作為由語音識別部件33執(zhí)行的語音識別過程的結果 以及(如果必要)由韻律識別部件32執(zhí)行的韻律識別過程的結果而從結 果選擇部件34接收的。也就是說,識別結果輸出部件36在屏幕上顯示識 別結果,或者以聲音形式輸出結果。此外,識別結果輸出部件36向另一 外部設備給出命令,以通過利用識別結果來移動該外部設備。
      接下來,,說明由語音識別設備ll執(zhí)行的操作。
      在圖1所示的配置中,通過語音信號輸入部件31輸入的語音被提供 到韻律識別部件32和語音識別部件33。韻律識別部件32和語音識別部件 33分別對輸入語音的數(shù)據(jù)執(zhí)行韻律識別過程和語音識別過程。作為韻律識 別過程的結果,韻律識別部件32向結果選擇部件34輸出基于輸入語音數(shù) 據(jù)的韻律模式而標識的發(fā)聲類型(utterance type)(或者用戶的發(fā)聲意 圖)。另一方面,作為語音識別過程的結果,語音識別部件33將輸入語 音的數(shù)據(jù)的文本信息輸出到結果選擇部件34。
      結果選擇部件34將語音識別過程的結果與存儲在特定單詞存儲部件 35中的特定單詞相核對,并且,如果語音識別過程的結果與特定單詞之一相匹配,則韻律識別過程的結果被附加到語音識別過程的結果(或與之相 結合)。然后,結果選擇部件34經(jīng)由識別結果輸出部件36將韻律識別過 程的結果和語音識別過程的結果輸出到外部接收者。另一方面,如果語音
      識別過程的結果不與任何一個特定單詞相匹配,則結果選擇部件34經(jīng)由 識別結果輸出部件36將語音識別過程的結果按原樣輸出到外部接收者。
      特定單詞的一個示例是單詞"ung"。讓我們假定由語音識別部件33 執(zhí)行的語音識別過程的結果與單詞"ung"相匹配。如前所述,韻律識別 部件32執(zhí)行韻律識別過程以為輸入的單詞"img"確定三種發(fā)聲類型之一 (或者發(fā)生的講話者的發(fā)聲意圖)。也就是說,韻律識別部件32確定輸 入的單詞"img"是表達肯定、否定還是疑問的單詞"img"。由于由語音 識別部件33執(zhí)行的語音識別過程的結果與單詞"img"相匹配,因此結果 選擇部件34將由韻律識別部件32確定的肯定、否定或疑問發(fā)聲類型附加 到語音識別過程的結果。
      例如,還可以提供這樣一個配置,其中韻律識別部件32執(zhí)行韻律識 別過程,以為每個輸入的單詞確定四種發(fā)聲類型之一。第四種發(fā)聲類型被 稱為除肯定、否定和疑問發(fā)聲類型之外的另一發(fā)聲類型。如果韻律識別部 件32將其他發(fā)聲類型輸出到結果選擇部件34,則結果選擇部件34僅將從 語音識別部件33接收的結果作為最終識別過程的結果提供到識別結果輸 出部件36。另一方面,如果韻律識別部件32將肯定、否定和疑問發(fā)聲類 型之一輸出到結果選擇部件34,則結果選擇部件34將從韻律識別部件32 接收的發(fā)聲類型附加到從語音識別部件33接收的作為語音識別過程結果 的結果,并將語音識別過程的結果與附加的發(fā)聲類型一起提供到識別結果 輸出部件36。從而,在此配置中可去除特定單詞存儲部件35。
      圖2是示出圖1所示的語音識別設備11中使用的韻律識別部件32的 配置的框圖。
      如圖2所示,韻律識別部件32具有單詞輸入部件51、聲學分析部件 52、韻律識別子部件53、參數(shù)存儲部件54和韻律輸出部件55。
      單詞輸入部件51包括用于接收語音信號的單元,其從麥克風等等 接收信號;用于放大信號的放大器;以及用于將放大的信號轉(zhuǎn)換為數(shù)字信
      號的AD轉(zhuǎn)換器。單詞輸入部件51以16 kHz的典型頻率對輸入的語音信 號進行采樣,并將輸出的數(shù)字信號提供到聲學分析部件52。
      聲學分析部件52使用頻率特性分析部件61和相對音調(diào)變化計算部件 62。聲學分析部件52從輸入的語音信號中提取韻律識別過程所必需的特 性量(或者后面將要描述的相對音調(diào)變化),并將該特性量提供到韻律識 別子部件53。后面將描述聲學分析部件52的內(nèi)部過程。
      韻律識別子部件53是這樣一個單元,其用于通過將作為表示未知語 音數(shù)據(jù)的量的特性量與存儲在參數(shù)存儲部件54中的參數(shù)相核對,來對該 未知的語音數(shù)據(jù)執(zhí)行韻律識別過程。這些參數(shù)是預先基于通過對為學習過 程準備的語音數(shù)據(jù)執(zhí)行聲學分析而獲得的特性量而創(chuàng)建的。
      由韻律識別子部件53對未知的語音數(shù)據(jù)執(zhí)行的韻律識別過程是從韻 律識別單元字典中選擇與輸入的語音信號相對應的韻律識別單元的過程。 韻律識別過程中采用的主要的韻律識別技術包括DP (動態(tài)編程)匹配技 術、神經(jīng)網(wǎng)絡技術和HMM (隱藏馬爾可夫模型)技術。
      根據(jù)DP匹配技術,首先,從通過分析語音信號獲得的特性量中找出 每個被稱為模板的標準模式作為參數(shù)。然后,將未知語音的特性量與參數(shù) 相核對,以找出被確定為與特性量最接近的參數(shù)。此外,為了吸收發(fā)聲速 度的變化, 一種方法被用于根據(jù)動態(tài)時間扭曲技術來縮短時間軸,以最小 化相對于模板的失真。
      根據(jù)神經(jīng)網(wǎng)絡技術的韻律識別過程是利用模仿人腦結構的網(wǎng)絡模型來 執(zhí)行的韻律識別過程。首先,通過執(zhí)行學習過程預先確定路徑的權重系數(shù) 作為參數(shù)。然后,找出通過向網(wǎng)絡模型輸入未知語音的特性量而獲得的輸 出與韻律識別單元字典中列出的韻律識別單元之間的距離,以確定與輸入
      的未知語音相對應的韻律識別單元。
      根據(jù)HMM技術,韻律識別過程是通過利用概率模型來執(zhí)行的。首 先,對于狀態(tài)轉(zhuǎn)移模型,基于學習數(shù)據(jù)預先確定轉(zhuǎn)移概率和輸出符號概 率。然后,從未知語音的特性量的模型發(fā)生概率來確定韻律識別單元。
      如上所述,由韻律識別子部件53執(zhí)行的韻律識別過程一般包括學習 過程和韻律識別過程。在學習過程中,從為學習過程準備的數(shù)據(jù)確定的參
      數(shù)被預先找出并存儲在參數(shù)存儲部件54中。從為學習過程準備的數(shù)據(jù)確 定的參數(shù)的示例是模板、網(wǎng)絡模型的權重系數(shù)和概率模型的統(tǒng)計參數(shù)。然 后,在韻律識別過程中,在輸入的未知語音信號經(jīng)歷聲學分析之后,執(zhí)行 一個過程,以向韻律識別單元字典中列出的每個韻律識別單元給出得分, 以選擇字典中列出的韻律識別單元中具有最高得分的一個韻律識別單元或 者與字典中列出的相比具有相對較高得分的多個韻律識別單元,作為韻律 識別過程的結果。根據(jù)韻律識別過程中采用的韻律識別技術,得分可表示
      根據(jù)神經(jīng)網(wǎng)絡技術的距離,根據(jù)HMM技術的發(fā)生概率,或者另一個量。
      例如,在特定單詞"ung"的情況下,韻律識別子部件53為三類發(fā)聲 執(zhí)行韻律識別過程,以確定特定單詞是表達肯定的單詞"ung"、表達否 定的單詞"uung"還是表達疑問的單詞"ung ",并將韻律識別過程的結 果提供到韻律輸出部件55。
      韻律輸出部件55將韻律識別過程的結果傳遞到結果選擇部件34。 順便說一下,在現(xiàn)有的檢測音調(diào)頻率的過程中,作為推定的條件,作 為語音中聲帶振動的周期的音調(diào)周期的長度是唯一地確定的?;蛘撸鳛?音調(diào)周期的倒數(shù)的音調(diào)頻率是唯一地確定的。為了唯一地確定音調(diào)周期而 執(zhí)行的過程是找出所說出的單詞的頻率特性分布中的最低頻率區(qū)域中存在 的峰值分量的中心頻率的過程。例如,在作為正常語音的頻率特性的如圖 3所示那樣的頻率特性的情況下,頻率fj)是音調(diào)頻率。
      但是,如果像耳語語音的情況那樣,在所說出的語音具有低音調(diào)特性 的情況下噪聲與所說出的單詞相混合,那么如上所述的現(xiàn)有的確定音調(diào)頻 率的過程難以執(zhí)行。在作為耳語語音的頻率特性的如圖4所示那樣的頻率 特性的情況下,難以檢測頻率特性分布中的最低頻率區(qū)域中存在的峰值分 量的中心頻率。這一檢測困難可以說是歸咎于以下事實的困難為了檢測 峰值頻率而執(zhí)行的過程是取決于頻率特性的峰值屬性的過程。
      另一方面,即使難以檢測具有如圖4所示那樣的頻率特性的耳語語音 的音調(diào)頻率,韻律識別部件32利用了相對音調(diào)變化,從而使得可能避免 作為取決于頻率特性的峰值屬性的過程的為唯一確定適當?shù)囊粽{(diào)頻率而執(zhí) 行的過程。從而,可以更牢靠地掌握語調(diào)的變化。 此外,在現(xiàn)有的音調(diào)頻率檢測處理中,所說出的語音的頻率特性被當 作一個特性量分布來處理,并且所需的特性(或音調(diào)頻率)是從該分布中 提取出的。但是,由于韻律識別部件32直接找出音調(diào)頻率的變化,而不 確定音調(diào)頻率,因此不需要為了歸一化音調(diào)頻率和音調(diào)變化范圍而執(zhí)行的 過程。音調(diào)變化范圍是音調(diào)頻率變化的范圍。此外,韻律識別部件32能 夠更適當?shù)卣莆账f出的語音中的語調(diào)變化。
      這樣的過程是作為主要由韻律識別部件32執(zhí)行的處理來實現(xiàn)的。
      圖5是示出頻率特性分析部件61的功能配置的框圖。如圖所示,頻 率特性分析部件61包括時間到頻率變換部件81、對數(shù)變換部件82和頻率 范圍提取部件83。時間到頻率變換部件81、對數(shù)變換部件82和頻率范圍 提取部件83中每一個的功能可由硬件或運行軟件來實現(xiàn)。
      時間到頻率變換部件81是這樣一個單元,該單元用于執(zhí)行時間-頻率 轉(zhuǎn)換處理,例如FFT分析,以將輸入的語音信號從在時域變化的信號變換 成在頻域變化的信號。在頻域變化的信號表現(xiàn)出一般的頻率特性,該頻率 特性隨后被提供到對數(shù)變換部件82。圖6是示出由時間到頻率變換部件 81所輸出的典型頻率特性的圖。
      對數(shù)變換部件82是這樣一個單元,該單元用于將從時間到頻率變換 部件81接收的一般頻率特性的頻率軸變換成具有對數(shù)標度的軸,以將一 般頻率特性變換成對數(shù)頻率軸上的頻率特性。對數(shù)變換部件82隨后將對 數(shù)頻率軸上的頻率特性提供到頻率范圍提取部件83。圖7是示出由對數(shù)變 換部件82所輸出的典型頻率特性的圖。
      頻率范圍提取部件83是這樣一個單元,該單元用于從接收自對數(shù)變 換部件82的作為對數(shù)頻率軸上的頻率特性的頻率特性中僅提取所需的頻 率區(qū)域部分Rw,并且輸出所提取的頻率區(qū)域部分,作為頻率特性分析的 結果。圖8是示出從圖7所示的作為對數(shù)頻率軸上的頻率特性的頻率特性 中提取的典型頻率特性的部分Rw的圖。
      頻率特性分析部件61將如圖8所示那樣的頻率特性提供到相對音調(diào) 變化計算部件62,作為頻率特性分析的結果。
      圖9是示出相對音調(diào)變化計算部件62的功能配置的框圖。如圖所
      示,相對音調(diào)變化計算部件62包括互相關矩陣計算部件101、對角偏移計
      算部件102和相對音調(diào)差異計算部件103?;ハ嚓P矩陣計算部件101、對 角偏移計算部件102和相對音調(diào)差異計算部件103中每一個的功能可由硬 件或運行軟件來實現(xiàn)。
      互相關矩陣計算部件101是這樣一個單元,該單元用于通過利用作為 分別屬于從被分析幀中選擇的兩個不同的被分析幀的兩個頻率特性的從頻 率特性分析部件61中使用的頻率范圍提取部件83接收的兩個頻率特性, 來計算頻率特性之間的互相關矩陣M。
      令列向量X和Y分別表示作為分別屬于兩個不同被分析幀的兩個頻率 特性的從頻率特性分析部件61中使用的頻率范圍提取部件83接收的兩個 頻率特性,并且令符號N表示列向量X和Y的階數(shù)。列向量X和Y分別 由下面給出的式(1)和(2)表達。在此情況下,如下面給出的式(3) 所表達的,互相關矩陣M是作為將列向量X乘以向量Y'得到的乘積而獲 得的矩陣,其中Y'是列向量Y的轉(zhuǎn)置矩陣。
      <formula>formula see original document page 20</formula>(1)
      <formula>formula see original document page 20</formula>(2)
      <formula>formula see original document page 20</formula>(3)
      圖IO是示出由式(3)表達的互相關矩陣M的圖。圖ll是示出以濃 度(或者明亮和黑暗程度)的形式表達構成互相關矩陣M的元素的數(shù)值的 圖形表示的圖。
      應當注意,為了比較,讓我們假定兩個頻率特性彼此相同。在此情況 下,互相關矩陣M被稱為兩個頻率特性的自相關矩陣M,這兩個頻率特 性是由列向量X表示的同一頻率特性。圖12是示出自相關矩陣M的圖, 而圖13是示出以濃度形式表達構成自相關矩陣M的元素的圖形表示的 圖。
      從圖12和13明顯可見,僅從一個頻率特性獲得的自相關矩陣M是對 稱矩陣。自相關矩陣M的主對角線a是由在頻率特性中觀察到的幅度的平 方組成的向量(或者功率譜)。也就是說,自相關矩陣M的主對角線a是 連接在頻率特性中觀察到的幅度(或峰值)的平方的直線。另一方面,作為除了由主對角線a連接的元素之外的其他元素而包括在自相關矩陣M中 的元素不是在頻率特性中觀察到的幅度(或峰值)的平方。
      順便說一下,圖11所示的互相關矩陣M的脊線b與主對角線a相平行。
      如圖ll所示,在從兩個不同的頻率特性獲得互相關矩陣M中,脊線 b相對于主對角線a有偏移。這是因為一個頻率特性中的音調(diào)頻率不同于 另一頻率特性中的音調(diào)頻率。每個頻率特性中的每一個峰值分量的頻率位 置是大致對應于音調(diào)頻率的倍數(shù)的位置。在分別針對在不同時間分析的兩 個頻率的兩個頻率特性的情況下, 一個幀的音調(diào)頻率不同于另一個幀的音 調(diào)頻率。從而,在從具有彼此不同的音調(diào)頻率的兩個頻率特性(在對數(shù)頻 率軸上表達的特性)獲得的互相關矩陣M中,連接互相關矩陣M中位于 與主對角線a相平行的方向上的、作為各自表示在頻率特性中觀察到的峰 值的乘積的元素的矩陣元素的脊線b因此是與主對角線a相平行的線。也 就是說,脊線b相對于主對角線a的偏移了偏移距離c,該偏移距離c對 應于一個差異,該差異出現(xiàn)在對數(shù)時間中,作為兩個頻率特性之間的偏移 頻率的差異。
      對角偏移計算部件102是這樣一個單元,該單元用于找出圖11所示 的距離c,作為從分別針對在不同時間分析的兩個幀的兩個不同頻率特性 獲得的互相關矩陣M中脊線b和主對角線a之間的偏移距離,并且將偏移 距離c提供到相對音調(diào)差異計算部件103。
      相對音調(diào)差異計算部件103是這樣一個單元,該單元用于基于從對角 偏移計算部件102接收的作為互相關矩陣M中脊線b和主對角線a之間的 偏移距離的位移距離c,來計算被分析幀的音調(diào)頻率的差異,而不找出每 個被分析幀的音調(diào)頻率。在下面的描述中,被分析幀之間的音調(diào)頻率的差 異被稱為相對音調(diào)差異。
      如上所述,在不同時間分析的兩個幀之間的相對音調(diào)差異可從分別屬 于兩個被分析幀的兩個頻率特性中找到。例如,兩個時間上相鄰的被分析 幀之間的相對音調(diào)差異可從分別屬于這兩個時間上相鄰的被分析幀的兩個 頻率特性中找到。
      然后,相對音調(diào)差異計算部件103對于所需數(shù)目的被分析幀,將各自 從兩個時間上相鄰的被分析幀的兩個頻率特性計算出的相對音調(diào)差異累加 起來,以找出該所需數(shù)目的被分析幀的相對音調(diào)變化。在用于確定被分析 幀的所需數(shù)目的典型方法中,可以用由韻律識別子部件53執(zhí)行的學習過 程中使用的識別精度作為參考。
      如上所述,聲學分析部件52執(zhí)行內(nèi)部處理以找出將用于韻律識別過
      程中的特性量(或者相對音調(diào)變化)。
      通過參考圖14所示的流程圖,以下描述說明語音識別設備11為了識 別語音的音素和語音的韻律而執(zhí)行的處理。
      如圖所示,該流程圖開始于步驟Sl,在該步驟中語音信號輸入部件 31接收語音信號,將語音信號傳遞到韻律識別部件32和語音識別部件 33。
      然后,在接下來的步驟S2,語音識別部件33識別從語音信號輸入部 件31接收的語音信號以產(chǎn)生文本數(shù)據(jù),并將文本數(shù)據(jù)提供到結果選擇部 件34。
      在步驟S3,韻律識別部件32執(zhí)行韻律識別過程,該過程將參考圖15 所示的流程圖來說明。
      然后,在接下來的步驟S4,結果選擇部件34接收來自語音識別部件 33的作為語音數(shù)據(jù)識別結果的文本數(shù)據(jù)以及來自韻律識別部件32的韻律 識別結果,產(chǎn)生關于從語音識別部件33接收的語音數(shù)據(jù)識別結果是否與 特定單詞存儲部件35中存儲的特定單詞相匹配的判定結果。
      如果在步驟S4中執(zhí)行的過程中產(chǎn)生的判定結果指示從語音識別部件 33接收的語音數(shù)據(jù)識別結果不與存儲在特定單詞存儲部件35中的任何特 定單詞相匹配,則由該流程圖所表示的語音/韻律識別處理的流程進行到步 驟S5。在步驟S5,結果選擇部件34將從語音識別部件33接收的語音數(shù) 據(jù)識別結果按原樣提供到識別結果輸出部件36,而不將從韻律識別部件 32接收的韻律識別結果附加到語音識別結果。最后,由該流程圖所表示的
      語音/韻律識別處理的執(zhí)行結束。
      另一方面,如果在步驟S4中執(zhí)行的過程中產(chǎn)生的判定結果指示從語
      音識別部件33接收的語音數(shù)據(jù)識別結果與存儲在特定單詞存儲部件35中 的特定單詞相匹配,則由該流程圖所表示的語音/韻律識別處理的流程進行
      到步驟S6。在步驟S6,結果選擇部件34將從韻律識別部件32接收的韻 律識別結果附加到從語音識別部件33接收的語音數(shù)據(jù)識別結果,并將語 音數(shù)據(jù)識別結果與韻律識別結果一起提供到識別結果輸出部件36。最后, 由該流程圖所表示的語音/韻律識別處理的執(zhí)行結束。
      例如,還可以提供一種配置,其中韻律識別部件32執(zhí)行韻律識別過 程,以為每個輸入單詞確定四種發(fā)聲類型之一。第四種發(fā)聲類型被稱為除 先前所述的三種發(fā)聲類型即肯定、否定和疑問發(fā)聲類型之外的另一發(fā)聲類 型。如果韻律識別部件32將其他發(fā)聲類型輸出到結果選擇部件34,則結 果選擇部件34僅將從語音識別部件33接收的結果作為語音識別過程的結 果提供到識別結果輸出部件36。另一方面,如果韻律識別部件32將肯 定、否定和疑問發(fā)聲類型之一輸出到結果選擇部件34,則結果選擇部件 34將從韻律識別部件32接收的發(fā)聲類型附加到從語音識別部件33接收的 作為語音識別過程結果的結果,并將語音識別過程的結果與附加的發(fā)聲類 型一起提供到識別結果輸出部件36。在此情況下,在步驟S4,結果選擇 部件34以與上述相同的方式從語音識別部件33接收語音識別結果并從韻 律識別部件32接收韻律識別結果。但是,取代產(chǎn)生關于從語音識別部件 33接收的語音識別結果是否與存儲在特定單詞存儲部件35中的特定單詞 相匹配的判定結果,結果選擇部件34產(chǎn)生關于從韻律識別部件32接收的 韻律識別結果是否是其他發(fā)聲類型的判定結果。如果在步驟S4中執(zhí)行的 過程中產(chǎn)生的判定結果指示從韻律識別部件32接收的韻律識別結果是其 他發(fā)聲類型,則由該流程圖所表示的語音/韻律識別處理的流程進行到步驟 S5。如果在步驟S4中執(zhí)行的過程中產(chǎn)生的判定結果指示從韻律識別部件 32接收的韻律識別結果不是其他發(fā)聲類型,則由該流程圖所表示的語音/ 韻律識別處理的流程進行到步驟S6。
      通過參考圖5所示的流程圖,下面的描述說明在圖14所示的流程圖 的步驟S3中韻律識別部件32為了識別語音的韻律而執(zhí)行的處理。
      如圖15所示,該流程圖開始于步驟S31,在該步驟中,韻律識別部件32執(zhí)行后面將參考圖16所示的流程圖描述的頻率分析過程。
      然后,在接下來的步驟S32,韻律識別部件32執(zhí)行后面將參考圖17 所示的流程圖描述的相對音調(diào)差異計算過程。最后,由圖15所示的流程 圖所表示的韻律識別處理的流程經(jīng)由步驟S3進行到圖14所示的流程圖的 步驟S4。
      通過參考圖16所示的流程圖,下面的描述說明在圖15所示的流程圖 的步驟S31中由頻率特性分析部件61所執(zhí)行的頻率分析處理。
      如圖16所示,該流程圖開始于步驟S61,在該歩驟中,頻率特性分析 部件61中使用的時間到頻率變換部件81執(zhí)行時間-頻率轉(zhuǎn)換處理,例如 FFT分析,以將輸入的語音信號從在時域變化的信號變換成在頻域變化的 信號。在頻域變化的信號表現(xiàn)出一般的頻率特性,該頻率特性隨后被提供 到對數(shù)變換部件82。
      然后,在步驟S62,對數(shù)變換部件82將從時間到頻率變換部件81接 收的一般頻率特性的頻率軸變換成具有對數(shù)標度的軸,以將一般頻率特性 變換成對數(shù)頻率軸上的頻率特性。對數(shù)變換部件82隨后將對數(shù)頻率軸上 的頻率特性提供到頻率特性分析部件61中使用的頻率范圍提取部件83。
      然后,在步驟S63,頻率范圍提取部件83從接收自對數(shù)變換部件82 的作為對數(shù)頻率軸上的頻率特性的頻率特性中僅提取所需的頻率區(qū)域部 分,并且向相對音調(diào)變化計算部件62輸出所提取的頻率區(qū)域部分,作為 頻率特性分析的結果。最后,由圖16所示的流程圖所表示的頻率分析處 理的流程經(jīng)由歩驟S31進行到圖15所示的流程圖的步驟S32。
      通過執(zhí)行上述頻率分析處理,可以使輸入的語音信號經(jīng)歷頻率分析。
      通過參考圖17所示的流程圖,下面的描述說明在圖15所示的流程圖 的步驟S32中的第一相對音調(diào)差異計算處理。
      如圖17所示,該流程圖開始于步驟S91,在該步驟中,互相關矩陣計 算部件101通過利用作為分別屬于從被分析幀中選擇的兩個不同的被分析 幀的兩個頻率特性的兩個頻率特性,來計算頻率特性之間的互相關矩陣 M。然后,互相關矩陣計算部件IOI將互相關矩陣M提供到對角偏移計算 部件102。
      然后,在接下來的步驟S92,對角偏移計算部件102找出圖ll所示的 距離c,作為互相關矩陣M中脊線b和主對角線a之間的偏移距離。然 后,對角偏移計算部件102將偏移距離c提供到相對音調(diào)差異計算部件 103。
      然后,在接下來的步驟S93,相對音調(diào)差異計算部件103基于從對角 偏移計算部件102接收的作為互相關矩陣M中脊線b和主對角線a之間的 偏移距離的距離c,來計算被分析幀的相對音調(diào)差異,而不找出每個被分 析幀的音調(diào)頻率。然后,相對音調(diào)差異計算部件103對于所需數(shù)目的被分 析幀,將各自從兩個時間上相鄰的被分析幀的兩個頻率特性計算出的相對 音調(diào)差異累加起來,以找出該所需數(shù)目的被分析幀的相對音調(diào)變化。最 后,由圖17所示的流程圖所表示的第一相對音調(diào)差異計算處理的流程經(jīng) 由圖15所示的流程圖的步驟S32和圖14所示的流程圖的步驟S3進行到 圖14所示的流程圖的步驟S4。
      通過執(zhí)行上述處理,可以獲得用于識別韻律的相對音調(diào)變化。 接下來,通過參考圖18A至25C來說明各種語音的典型相對音調(diào)模 式,以更好地闡明實現(xiàn)了先前通過參考圖1來說明的語音識別設備11的 實施例所采用的韻律識別方法的有效性。下面的描述中將會頻繁使用的相 對音調(diào)模式是通過以下方式獲得的對于被分析幀,從語音數(shù)據(jù)的起點開 始,經(jīng)過整個發(fā)聲期,將相對音調(diào)差異累加起來,以將各自從關于被分析 幀的語音數(shù)據(jù)的起點開始的相對音調(diào)變化表達為連續(xù)的幀的序列的時間軸 數(shù)據(jù),如圖18C至25C、 26B和27所示。相對音調(diào)模式是這樣一條曲線, 該曲線表示沿著時間軸出現(xiàn)的連續(xù)的被分析幀的整個序列的相對音調(diào)變 化。
      可將以這種方式獲得的相對音調(diào)模式與表示被分析幀的音調(diào)頻率的一 般音調(diào)模式相比較。 一般音調(diào)模式是時間軸數(shù)據(jù)。在下面的描述中, 一般 音調(diào)模式被稱為真實音調(diào)差異。
      圖18A-18C是示出由說出"aiueo"的男性所輸出的語音的語音波形、
      該語音的真實音調(diào)模式和該語音的相對音調(diào)模式的一組圖。另一方面,圖 19A-19C是示出由說出"aiueo"的女性所輸出的語音的語音波形、該語音
      的真實音調(diào)模式和該語音的相對音調(diào)模式的一組圖。更具體而言,圖18A
      和19A分別是示出由男性和女性所輸出的語音的語音波形的圖。圖18B和 19B分別是示出由男性和女性所輸出的語音的真實音調(diào)模式的圖。圖18C 和19C分別是示出由男性和女性所輸出的語音的相對音調(diào)模式的圖。
      通過參考圖20A至25C,下面的描述說明了在語音識別部件33輸出 文本"ung"作為語音識別結果的情況下,在通常情形下實際打算作為表 達肯定的答復的單詞"ung"、實際打算作為表達否定的答復的單詞 "mmg"或者實際打算作為表達疑問的答復的單詞"ung "的語音的波 形、真實音調(diào)模式和相對音調(diào)模式。
      通過參考圖20A至22C,下面的描述說明了正常地輸出語音的情況。
      更具體而言,圖20A-20C是示出實際打算作為表達肯定的答復的單詞 "ung"的波形、真實音調(diào)模式和相對音調(diào)模式的一組圖。圖21A-21C是 示出實際打算作為表達否定的答復的單詞"uimg"的波形、真實音調(diào)模式 和相對音調(diào)模式的一組圖。圖22A-22C是示出實際打算作為表達疑問的答 復的單詞"img "的波形、真實音調(diào)模式和相對音調(diào)模式的一組圖。換句 話說,圖20A、 21A和22A分別是示出表達肯定、否定和疑問答復的語音 的語音波形的圖。圖20B、 21B和22B分別是示出表達肯定、否定和疑問 答復的語音的真實音調(diào)模式的圖。圖20C、 21C和22C分別是示出表達肯 定、否定和疑問答復的語音的相對音調(diào)模式的圖。
      從圖20A至22C明顯可見,僅僅利用圖20A、 21A和22A所示的波 形,很難清楚地區(qū)分語音的高度。但是,通過利用作為通過執(zhí)行上述處理 而找出的模式的圖20B、 21B和22B所示的真實音調(diào)模式或者圖20C、 21C和22C所示的相對音調(diào)模式,則可以很清楚地區(qū)分語音的高度。
      通過參考圖23A至25C,下面的描述說明了語音是耳語語音的情況。 更具體而言,圖23A-23C是示出實際打算作為表達肯定的答復的單詞 "ung"的波形、聲譜圖和相對音調(diào)模式的一組圖。圖24A-24C是示出實 際打算作為表達否定的答復的單詞"uung"的波形、聲譜圖和相對音調(diào)模 式的一組圖。圖25A-25C是示出實際打算作為表達疑問的答復的單詞 "ung "的波形、聲譜圖和相對音調(diào)模式的一組圖。換句話說,圖23A、
      24A和25A分別是示出表達肯定、否定和疑問答復的語音的語音波形的 圖。圖23B、 24B和25B分別是示出表達肯定、否定和疑問答復的語音的 聲譜圖的圖。圖23C、 24C和25C分別是示出表達肯定、否定和疑問答復 的語音的相對音調(diào)模式的圖。
      如圖23B、 24B和25B的聲譜圖所示,在耳語語音的情況下,在包括 一般音調(diào)頻率分量的區(qū)域中,可能不能掌握足夠的特性。因此非常難以提 取音調(diào)頻率。
      但是,如前所述,語音識別設備11中使用的韻律識別部件32從各自 充當觀察對象的兩個頻率特性之間的諧波分量的差異中直接找出相對音調(diào) 差異。從而,從圖23C、 24C和25C明顯可見,可以適當?shù)卣莆斩Z語音 的高度變化。
      具體地說,在打算作為表達肯定的答復的單詞"img"的情況下,其 相對音調(diào)模式是如圖23C所示的下降的模式。在打算作為表達否定的答復 的單詞"mmg"的情況下,其相對音調(diào)模式是如圖24C所示的先下降然后 上升的模式。在打算作為表達疑問的答復的單詞"ung "的情況下,其相 對音調(diào)模式是如圖25C所示的上升的模式?;谙鄬σ粽{(diào)模式的這些差 異,可以針對作為其真實音調(diào)模式難以被檢測的單詞的通過耳語語音之類 的來表達的特定單詞"ung",將三種發(fā)聲類型(或者發(fā)聲的說話者的發(fā) 聲意圖),即肯定、否定和疑問發(fā)聲類型彼此區(qū)分開來。從而可以基于輸 入語音的韻律特性來十分精確地執(zhí)行韻律識別過程。
      根據(jù)上述方法,基于作為下述偏移的由諧波結構引起的偏移來確定相 對音調(diào)差異(或者表示相對音調(diào)變化的曲線)該偏移表示連接與該諧波 結構中的峰相對應的矩陣元素的脊線相對于分別屬于在兩個不同時間觀察 到的兩個被分析幀的兩個頻率特性之間的互相關矩陣的主對角線偏移的距 離。根據(jù)用于確定相對音調(diào)差異(或者相對音調(diào)變化)的典型方法,在兩 個頻率特性上分別確定至少一組點,然后基于連接兩個這樣的組或者至少 一個這樣的組的直線相對于兩個頻率特性之間的互相關矩陣的主對角線偏 移的距離,來確定相對音調(diào)差異(或者相對音調(diào)變化)。
      通過采用上述典型方法,可以基于與脊線相對于互相關矩陣的主對角
      線偏移的距離不同的基準來確定相對音調(diào)差異(或者相對音調(diào)變化)。具 體地說,例如,只關注兩個頻率特性的N階諧波峰,或者只關注兩個頻率 特性中與這種峰相對的特定谷的位置。
      通過執(zhí)行這樣的過程,可以獲得在韻律識別過程中將要使用的相對音 調(diào)變化。從而,通過利用分別在兩個不同時間觀察到的兩個頻率特性之間 的相對音調(diào)變化來執(zhí)行韻律識別過程,對于過去難以提取音調(diào)頻率的情況 可以執(zhí)行牢靠的韻律識別過程。所述情況的示例是噪聲之類的影響較大的 情況以及耳語語音的情況或者具有低音調(diào)屬性的語音的情況。
      順便說一下,如果通過根據(jù)上述方法找出相對音調(diào)變化來執(zhí)行韻律識 別過程,則可能會意外導致這樣一個問題,它是由以下情況引起的對于 充當識別對象的所說出語音的語音片段中包括的靜默片段和非語音區(qū)域中 的任何一個都不能執(zhí)行正確的識別過程。
      通過參考圖26A-26B,下面的描述說明了對說出"utsumuku"的語音 執(zhí)行的韻律識別過程,作為對描述作為解決上述問題的實施例的實現(xiàn)圖1 所示的語音識別設備11的另一實施例的準備。圖26A是示出說出 "utsumuku"的語音的波形的圖,而圖26B是示出該語音的真實音調(diào)模式 的圖。
      如圖26A所示,說出"utsumuku"的語音的波形包括非語音部分,即 與日語音節(jié)"tsu"的字母字符"ts"相對應的部分和與日語音節(jié)"ku"的 字母字符"k"相對應的部分。與聲帶不同的是,在非語音部分中,沒有 振動。從而,非語音部分不具有音調(diào)頻率。
      如果如上所述的從兩個不同的頻率特性中找出相對音調(diào)變化的方法被 應用到這樣的波形,則由于非語音部分而會獲得不正確的結果。通過參考 圖27,下面的描述說明了由于非語音部分而獲得不正確的結果的情況。
      圖27是示出通過利用從兩個不同的頻率特性計算出的互相關矩陣而 檢測到的相對音調(diào)模式的圖。
      如前所述,相對音調(diào)模式是通過以下方式獲得的對于被分析幀,從 語音數(shù)據(jù)的起點開始,經(jīng)過整個發(fā)聲期,將相對音調(diào)差異累加起來,以將 各自從關于被分析幀的語音數(shù)據(jù)的起點開始的相對音調(diào)變化表達為連續(xù)的
      幀的序列的時間軸數(shù)據(jù)。
      同樣如上所述,說出"utsimmku"的語音的波形包括非語音部分,即 與日語音節(jié)"tsu"的字母字符"ts"相對應的部分和與日語音節(jié)"ku"的
      字母字符"k"相對應的部分。與聲帶不同的是,在非語音部分中,沒有
      振動。如圖27所示,與圖26B所示的真實音調(diào)模式相比,在通過利用從 兩個不同的頻率特性獲得的互相關矩陣而檢測到的相對音調(diào)模式中,與字 母字符"ts"相對應的非語音部分之前和之后的音調(diào)(或者語音高度)之 間的關系以及與字母字符"k"相對應的非語音部分之前和之后的音調(diào)之 間的關系未被正確地提取。
      這是因為,在實現(xiàn)如上所述地找出相對音調(diào)變化的方法時,兩個不同 頻率特性之一或者兩個不同頻率特性兩者是非語音部分的頻率特性,從而 使得通過利用從這兩個不同頻率特性獲得的互相關矩陣,不能獲得適當?shù)?相對音調(diào)差異。
      也就是說,根據(jù)關于在作為除非語音部分之外的部分包括在單詞 "utsumuku"中的部分之前和之后的分別具有幀號59和68的兩個頻率的 兩個頻率特性,可以獲得如圖28所示的正確的互相關矩陣。從而,在互 相關矩陣中脊線相對于主對角線的偏移距離具有適當?shù)闹怠A硪环矫?,?據(jù)關于與字符"k"相對應的特定非語音部分之前的幀號為68的幀的頻率 特性和關于該特定非語音部分之后的幀號為77的幀的頻率特性,則獲得 圖29所示的不正確的互相關矩陣。從而,互相關矩陣中脊線相對于主對 角線的偏移距離不具有適當?shù)闹怠?br> 為了為非語音部分獲得正確的互相關矩陣,最好有一個固定頻率特性 作為為了檢測相關而將從其計算互相關矩陣的兩個不同頻率特性之一。
      具體地說,例如,通過利用作為充當模板的頻率特性的預先準備的頻 率特性以及從輸入語音信號獲得的頻率特性,來獲得互相關矩陣。這樣, 即使對于非語音部分也能獲得正確的互相關矩陣。在下面的描述中,作為 充當模板的頻率特性的預先準備的頻率特性被稱為模板頻率特性。
      圖30是示出用來替換圖2所示的相對音調(diào)變化計算部件62的相對音 調(diào)變化計算部件151的功能配置的框圖。相對音調(diào)變化計算部件151是用
      于通過利用模板頻率特性作為兩個頻率特性之一來計算互相關矩陣的單 元。如圖30所示,相對音調(diào)變化計算部件151使用模板頻率特性存儲部
      件161、互相關矩陣計算部件162、對角偏移計算部件102和相對音調(diào)差 異計算部件103。對角偏移計算部件102和相對音調(diào)差異計算部件103與 圖9所示的相對音調(diào)變化計算部件62中使用的其各自的對應物相同?;?相關矩陣計算部件162充當圖9所示的相對音調(diào)變化計算部件62中使用的 互相關矩陣計算部件101的替換?;ハ嚓P矩陣計算部件162是這樣一個單 元,該單元用于從兩個頻率特性計算互相關矩陣,該兩個頻率特性中的一 個是作為固定頻率特性而存儲在模板頻率特性存儲部件161中的模板頻率 特性?;ハ嚓P矩陣計算部件162的功能可由硬件或運行軟件來實現(xiàn)。
      例如,存儲在模板頻率特性存儲部件161中的模板頻率特性可以是偽 頻率特性,它以300 Hz的典型音調(diào)頻率作為基頻頻率,并且表現(xiàn)出具有相 對于基頻幅度線性減小的幅度的諧波分量。
      互相關矩陣計算部件162從兩個頻率特性計算如圖31所示那樣的互 相關矩陣,該兩個頻率特性之一是作為固定頻率特性存儲在模板頻率特性 存儲部件161中的模板頻率特性。對角偏移計算部件102和相對音調(diào)差異 計算部件103的功能與圖9所示的相對音調(diào)變化計算部件62中使用的其各 自的對應物的功能相同。也就是說,對角偏移計算部件102找出圖31所 示的互相關矩陣中脊線和主對角線之間的偏移距離。然后,相對音調(diào)差異 計算部件103基于該偏移距離計算相對音調(diào)差異。最后,相對音調(diào)差異計 算部件103將相對音調(diào)差異累加起來,以找出相對音調(diào)差異。
      換言之,圖30所示的相對音調(diào)變化計算部件151通過利用從存儲在 模板頻率特性存儲部件161中的模板頻率特性和被分析幀的頻率特性計算 出的互相關矩陣來找出相對音調(diào)差異。
      如上所述,取代找出時間上在前的被分析幀和時間上在后的被分析幀 之間的相對音調(diào)差異,找出作為相對于模板頻率特性的音調(diào)頻率的音調(diào)頻 率差異的相對音調(diào)差異。從而,即使語音的波形包括非語音部分,也可以 防止在非語音部分之前或之后的區(qū)域中相對音調(diào)模式的連續(xù)性變得不適 當。
      圖32是示出作為由相對音調(diào)變化計算部件151執(zhí)行的過程的結果而
      找到的相對音調(diào)模式的圖。如果將圖32所示的相對音調(diào)模式與圖26A-26B所示的相對音調(diào)模式相比較,則可以明顯看出,由相對音調(diào)變化計算 部件151執(zhí)行的過程不會導致非語音部分之前和之后的區(qū)域中相對音調(diào)模 式的連續(xù)性不適當,以使得每個非語音部分可以作為非適當片段經(jīng)歷為識 別韻律而執(zhí)行的韻律識別過程。
      此外,可以提供這樣一種配置,其中模板頻率特性存儲部件161被用 于存儲多個上述模板頻率特性。在該配置中,從存儲在模板頻率特性存儲 部件161中的模板頻率特性中,可以選擇與輸入語音的特征和/或被分析幀 的頻率特性的特征相匹配的一個,作為將要與被分析幀的頻率特性一起被 用在計算互相關矩陣的過程中的模板頻率特性。
      具體地說,讓我們假定模板頻率特性存儲部件161被用于存儲具有不 同音調(diào)頻率例如100 Hz、 300 Hz和500 Hz的多個模板頻率特性。在此情 況下,被分析幀的頻率特性與每個模板頻率特性之間的相對音調(diào)差異被找 出。然后,最好以特定的相對音調(diào)差異作為被分析幀的頻率特性與模板頻 率特性之一之間的相對音調(diào)差異。該特定相對音調(diào)差異是在所找出的相對 音調(diào)差異中具有最小絕對值的相對音調(diào)差異。
      通過利用上述方法找出相對音調(diào)差異,即使對于如圖18B和19B所示 的語音高度有很大差異的男性和女性語音的情況那樣的具有變化很大的語 音高度的多種輸入語音,也能十分精確地找到相對音調(diào)差異。
      通過參考圖33所示的流程圖,下面的描述說明了在圖15所示的流程 圖的步驟S32中相對音調(diào)變化計算部件151為了基于從其中一個是固定模 板頻率特性的兩個頻率特性計算出的互相關矩陣找出相對音調(diào)差異而執(zhí)行 的第二相對音調(diào)差異計算處理。
      如圖所示,該流程圖開始于步驟S121,在該步驟中,相對音調(diào)變化計 算部件151中使用的互相關矩陣計算部件162從存儲在模板頻率特性存儲 部件161中的模板頻率特性和預先確定的輸入的被分析幀的頻率特性,計 算模板頻率特性和該頻率特性之間的互相關矩陣。然后,互相關矩陣計算 部件162將互相關矩陣提供到對角偏移計算部件102。
      然后,在接下來的步驟S122,對角偏移計算部件102找出圖31所示 的距離c,作為互相關矩陣中脊線b和主對角線a之間的偏移距離。然 后,對角偏移計算部件102將偏移距離c提供到相對音調(diào)差異計算部件 103。
      然后,在步驟S123中,相對音調(diào)差異計算部件103基于從對角偏移 計算部件102接收的作為互相關矩陣中脊線b和主對角線a之間的偏移距 離的距離c,計算模板頻率特性和被分析幀的頻率特性之間的相對音調(diào)差 異,而不找出被分析幀的音調(diào)頻率。然后,相對音調(diào)差異計算部件103將 相鄰的被分析幀之間的相對音調(diào)差異累加起來,以找出所需數(shù)目的被分析 幀的相對音調(diào)變化。最后,由圖17所示的流程圖所表示第一相對音調(diào)差 異計算處理的流程經(jīng)由圖15所示的流程圖的步驟S32和圖14所示的流程 圖的步驟S3進行到圖14所示的流程圖的步驟S4。
      通過執(zhí)行上述處理,即使對于包括非語音部分的語音,也能適當?shù)卣?出將在韻律識別過程中用作特性量的相對音調(diào)變化。
      利用本發(fā)明,即使對于噪聲之類的影響較大的情況以及耳語語音的情 況或者具有低音調(diào)屬性的語音的情況,也能掌握語音高度的變化。從而, 可以基于輸入語音的韻律特性而十分可靠地執(zhí)行語音識別過程。
      也就是說,利用本發(fā)明,可以基于僅通過將模板頻率特性與被分析幀 的頻率特性相比較而不找出被分析幀的音調(diào)頻率就獲得的相對音調(diào)變化, 來執(zhí)行韻律識別過程。
      換言之,為了從兩個頻率特性中找出相對音調(diào)變化,兩個頻率特性之 一可以是被稱為模板頻率特性的固定頻率特性。
      從而,即使在包括靜默片段和/或非語音部分的輸入語音的情況下,相 對音調(diào)模式也不會變得不連續(xù),從而適當?shù)南鄬σ粽{(diào)模式可以以與通過檢 測普通音調(diào)頻率而找到的音調(diào)模式相同的方式來被找出。
      也就是說,通過以被稱為模板頻率特性的固定頻率特性作為從其找出 相對音調(diào)變化的兩個頻率特性之一,可以對多種輸入語音執(zhí)行基于相對音 調(diào)變化的韻律識別過程。
      此外,可以提供這樣一種配置,其中模板頻率特性存儲部件161被用于存儲多個模板頻率特性。在此配置中,從這些模板頻率特性中,可以選 擇與輸入語音的特征和/或被分析幀的頻率特性的特征相匹配的一個。
      具體地說,讓我們假定模板頻率特性存儲部件161被用于存儲具有不
      同音調(diào)頻率例如100 Hz、 300 Hz和500 Hz的多個模板頻率特性。在此情 況下,被分析幀的頻率特性與每個模板頻率特性之間的相對音調(diào)差異被找 出。然后,最好以特定的相對音調(diào)差異作為被分析幀的頻率特性與模板頻 率特性之一之間的相對音調(diào)差異。該特定相對音調(diào)差異是在所找出的相對 音調(diào)差異中具有最小絕對值的相對音調(diào)差異。
      通過利用上述方法找出相對音調(diào)差異,即使對于像語音高度有很大差 異的男性和女性語音的情況那樣的具有變化很大的語音高度的多種輸入語 音,也能十分精確地找到相對音調(diào)差異。
      無疑,本發(fā)明可被應用到與先前通過參考圖l說明的語音識別設備11 不同的設備。也就是說,本發(fā)明當然可被應用到其中通過采用上述方法來 識別韻律的配置。
      前述過程系列也可通過運行軟件來執(zhí)行。如果上述過程系列通過運行 軟件來執(zhí)行,則構成軟件的程序一般可從記錄介質(zhì)被安裝到嵌入在專用硬 件中的計算機、通用個人計算機等等之中。在此情況下,如圖34所示那 樣的計算機或個人計算機充當先前通過參考圖1所說明的語音識別設備 11。通用個人計算機是這樣一種個人計算機,其能夠通過安裝多種程序到 其中來執(zhí)行多種功能。
      在圖34所示的個人計算機中,CPU (中央處理單元)211通過運行存 儲在ROM (只讀存儲器)212中的程序或者從存儲部件218加載到RAM (隨機訪問存儲器)213中的程序來執(zhí)行各種處理。RAM 213還用于適當 地存儲各種信息,例如處理運行時所需的數(shù)據(jù)。
      CPU 211、 ROM 212和RAM 213通過總線214與彼此相連,該總線 214還連接到輸入/輸出接口 215。
      輸入/輸出接口 215連接到輸入部件216、輸出部件217、上述存儲部 件218和語音信號采集部件219。輸入部件216包括鍵盤和鼠標,而輸出 部件217包括顯示單元和揚聲器。存儲部件218包括硬盤。語音信號采集
      部件219是與外部設備的接口的麥克風。
      輸入/輸出接口 215還連續(xù)到安裝了上述記錄介質(zhì)的驅(qū)動器220。記錄 介質(zhì)可以是磁盤231、光盤232、磁光盤233或者半導體存儲器234。如上 所述,CPU 211所運行的計算機程序是從記錄介質(zhì)安裝到存儲部件218中 的。
      如前所述,前述過程系列也可通過運行軟件來執(zhí)行。如果上述過程系 列是通過運行軟件來執(zhí)行的,則構成軟件的程序一般可從記錄介質(zhì)安裝到 嵌入在專用硬件中的計算機、通用個人計算機等等之中的存儲部件218 中。
      上述用于記錄分別作為將要被計算機或通用個人計算機運行的程序的 將要被安裝到計算機或通用個人計算機中的程序的記錄介質(zhì)是與圖34所 示的個人計算機的主要單元相分開地向用戶提供的可移動記錄介質(zhì)。也稱
      為封裝介質(zhì)的可移動記錄介質(zhì)的示例包括磁盤231,例如柔性盤;光盤
      232,例如CD-ROM (致密盤-只讀存儲器)或者DVD (數(shù)字多功能 盤);磁光盤233,例如MD (袖珍盤);以及半導體存儲器234。
      值得注意的是,在本說明書中,上述記錄介質(zhì)中存儲的每個程序的步 驟不僅可以按沿著時間軸的預定順序執(zhí)行,也可同時執(zhí)行或各自執(zhí)行。
      還應當注意,本說明書中使用的技術術語"系統(tǒng)"意味著包括多個設 備的集合的配置。
      還值得注意的是,本發(fā)明的實現(xiàn)方式絕不限于上述實施例。也就是 說,可以對實施例作出不脫離本發(fā)明實質(zhì)的范圍內(nèi)的變化。
      此外,本領域的技術人員應當理解,取決于設計要求和其他因素,可 以作出各種修改、組合、子組合和更改,只要它們處于所附權利要求或其 等同物的范圍之內(nèi)。
      本發(fā)明包含與2006年12月1日向日本專利局遞交的日本專利申請JP 2006-325780相關的主題,這里通過引用將其全部內(nèi)容并入。
      權利要求
      1.一種語音處理設備,用于基于輸入的語音的韻律特性來識別所述語音,所述語音處理設備包括語音采集裝置,用于采集所述輸入語音;聲學分析裝置,用于基于在所述語音采集裝置所采集的所述輸入語音的每個幀時間所看到的第一頻率特性和預先確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化;以及韻律識別裝置,用于基于由所述聲學分析裝置所找到的所述相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生所述韻律識別過程的結果。
      2. 根據(jù)權利要求1所述的語音處理設備,其中,所述聲學分析裝置基 于脊線相對于從所述第一和第二頻率特性計算出的互相關矩陣的主對角線 的偏移,來找出所述相對音調(diào)變化,所述脊線是作為連接與所述第一和第 二頻率特性的峰相對應的矩陣元素的直線而繪制在所述互相關矩陣中的。
      3. 根據(jù)權利要求2所述的語音處理設備,所述語音處理設備還具有用 于存儲所述第二頻率特性的頻率特性存儲裝置。
      4. 根據(jù)權利要求3所述的語音處理設備,其中 所述頻率特性存儲裝置被用于存儲多個所述第二頻率特性,并且 所述聲學分析裝置基于根據(jù)由所述語音采集裝置所采集的所述輸入語音而從存儲在所述頻率特性存儲裝置中的所述第二頻率特性中選擇出來的 適當?shù)牡诙l率特性,來找出所述相對音調(diào)變化。
      5. 根據(jù)權利要求1所述的語音處理設備,所述語音處理設備還具有 語音識別裝置,用于執(zhí)行基于作為對由所述語音采集裝置所采集的所述輸入語音執(zhí)行聲學分析的結果而獲得的特性量的語音識別過程,以產(chǎn)生 所述語音識別過程的結果,其中,如果所述語音識別過程的結果與預先存 儲的預定的特定單詞之一相匹配,則很有可能所述語音識別過程的所述結 果是不正確的;特定單詞存儲裝置,用于存儲所述特定單詞;以及結果選擇裝置,用于將所述語音識別過程的所述結果與存儲在所述特 定單詞存儲裝置中的所述特定單詞相核對,其中如果所述語音識別過程的所述結果與存儲在所述特定單詞存儲裝置中 的所述特定單詞之一相匹配,則所述結果選擇裝置輸出最終識別結果,該 最終識別結果是通過將由所述語音識別裝置所執(zhí)行的所述語音識別過程的 所述結果與由所述韻律識別裝置所執(zhí)行的所述韻律識別過程的所述結果相 結合來獲得的,但是另一方面,如果所述語音識別過程的所述結果不與存儲在所述特定單 詞存儲裝置中的所述特定單詞中的任何一個相匹配,則所述結果選擇裝置 輸出由所述語音識別裝置執(zhí)行的所述語音識別過程的所述結果,作為最終 識別結果。
      6. —種由語音處理設備采用的語音處理方法,用于基于輸入的語音的 韻律特性來識別所述語音,所述語音處理方法包括以下步驟采集所述輸入語音;基于在所采集的輸入語音的每個幀時間所看到的第一頻率特性和預先確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化;以及基于所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生所述韻律識 別過程的結果。
      7. —種語音處理程序,該語音處理程序?qū)⒂捎嬎銠C執(zhí)行,以便基于輸入的語音的韻律特性來識別所述語音,所述語音處理程序?qū)崿F(xiàn)包括以下步驟的語音處理方法采集所述輸入語音;基于在以受控方式采集的所述輸入語音的每個幀時間所看到的第一頻 率特性和預先確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化;以及基于所找到的相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生所述韻律識 別過程的結果。
      8. —種語音處理設備,用于基于輸入的語音的韻律特性來識別所述語 音,所述語音處理設備包括語音采集部件,其被配置為采集所述輸入語音; 聲學分析部件,其被配置為基于在所述語音采集部件所采集的所述輸 入語音的每個幀時間所看到的第一頻率特性和預先確定的第二頻率特性之 間的頻率方向差異,來找出相對音調(diào)變化;以及韻律識別部件,其被配置為基于由所述聲學分析部件所找到的所述相 對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生所述韻律識別過程的結果。
      全文摘要
      本發(fā)明提供了一種語音處理設備、語音處理方法和語音處理程序。這里公開了一種語音處理設備,用于基于輸入的語音的韻律特性來識別所述語音,所述語音處理設備包括語音采集裝置,用于采集所述輸入語音;聲學分析裝置,用于基于在所述語音采集裝置所采集的所述輸入語音的每個幀時間所看到的第一頻率特性和預先確定的第二頻率特性之間的頻率方向差異,來找出相對音調(diào)變化;以及韻律識別裝置,用于基于由所述聲學分析裝置所找到的所述相對音調(diào)變化來執(zhí)行韻律識別過程,以產(chǎn)生所述韻律識別過程的結果。
      文檔編號G10L15/00GK101192405SQ20071018757
      公開日2008年6月4日 申請日期2007年12月3日 優(yōu)先權日2006年12月1日
      發(fā)明者山田敬一 申請人:索尼株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1