組合聽覺注意力線索與音位后驗得分以用于音素/元音/音節(jié)邊界檢測的制作方法
【專利說明】組合聽覺注意力線索與音位后驗得分以用于音素/元音/ 苜節(jié)邊界檢測
[0001] 相關申請的交叉引用
[0002] 本申請是關于2011年4月1日申請的頒予OzlemKalinli等人的共同所有且共 同待決的第13/078,866號美國非臨時專利申請,所述申請的標題為"使用聽覺注意力線索 的語音音節(jié) / 元音 / 音素邊界檢測(SPEECHSYLLABLE/VOWEL/PHONEBOUNDARYDETECTION USINGAUDITORYATTENTIONCUES)"且整個公開內容以引用方式并入本文。
【背景技術】
[0003] 將連續(xù)的語音分段成多個片段有益于許多應用,包含語音分析、自動語音識別 (ASR)和語音合成。然而,舉例來說,手動確定音位標音和分段需要專門的知識,且對于大數(shù) 據(jù)庫來說此過程是費力的且昂貴的。因此,過去提出許多自動分段和標記方法來解決此問 題。
[0004] 提出的方法包括:[1]S,Dusan和L.Rabiner,"最大頻譜轉變位置與音素邊界之間 的關系(Ontherelationbetweenmaximumspectraltransitionpositionsandphone boundaries)",ICSLP會議,2006(下文稱為"參考文獻[1]");[2]v.Qiao、N,Shimomura 和N,Minematsu,"無人監(jiān)督最佳音位分段:目標、算法和比較(Unsupervisedoptimal phonemesegmentation:objectives,algorithmandcomparisons)'',1CASSP會議, 2008 (下文稱為"參考文獻[2] "); [3]F.Brugnara、D,Falavigna和M,Omologo, "基于隱式 馬爾可夫模型的自動語音分段和標記(Automaticsegmentationandlabelingofspeech basedonhiddenmarkovmodels) ",語音通信(SpeechCommunication),1993 年第 12 卷 第4號357-370頁(下文稱為"參考文獻[3]"); [4]A.Sethy和S,S,Narayanan,"用于串 聯(lián)語音合成的精煉語音分段(Refinedspeechsegmentationforconcatenativespeech synthesis)",ICSLP會議,2002(下文稱為"參考文獻[4]");以及[5]v.Estevan、V,Wan 和 0,Scharenborg,"找到語音中的最大裕度片段(Findingmaximummarginsegmentsin speech) ",ICASSP會議,2007 (下文稱為"參考文獻[5] ")。
[0005] 這些提出的方法對應于在OzlemKalinli在INTERSPEECH2012 (國際語音通信協(xié) 會第13次年會,美國俄勒岡州波特蘭市,2012年9月9-13日)上的標題為"使用聽覺注意 力特征的自動音位分段(AutomaticPhonemeSegmentationUsingAuditoryAttention Features) "的音位分段論文中引用的參考文獻[1,2, 3, 4, 5],所述論文以引用方式并入本 文。
[0006] 第一組提出的分段方法需要標音,而標音并不總是可用。當標音不可用時,可考慮 使用用于分段的音位識別器。然而,例如HMM等語音識別技術無法準確地安置音位邊界,因 為這些技術針對音位序列的正確識別經(jīng)過優(yōu)化。參見參考文獻[4]。第二組方法不需要對 音位的標音或聲學模型的任何事先了解。但是,它們的性能通常有限。
[0007] 本公開的方面是在此背景下出現(xiàn)的。
【附圖說明】
[0008] 圖1A是說明根據(jù)本發(fā)明的實施方案的用于語音中的音節(jié)/元音/音素邊界檢測 的方法的流程圖。
[0009] 圖1B到圖1F是說明可在本發(fā)明的實施方案中使用的頻譜-時間接受濾波器的實 施例的示意圖。
[0010] 圖2A是說明根據(jù)本公開的方面的組合聽覺注意力特征與音位后驗子以用于邊界 檢測的方法的流程圖。
[0011] 圖2B是說明根據(jù)本公開的方面的組合聽覺注意力特征與音位后驗子以用于邊界 檢測的另一方法的流程圖。
[0012] 圖3是說明根據(jù)本發(fā)明的實施方案的用于語音中的音節(jié)/元音/音素邊界檢測的 設備的框圖。
[0013] 圖4是說明根據(jù)本發(fā)明的實施方案的用于語音中的音節(jié)/元音/音素邊界檢測的 設備的胞元處理器實現(xiàn)方式的實施例的框圖。
【具體實施方式】
[0014] 雖然以下詳細描述為了說明的目的而含有許多具體細節(jié),但本領域的任何技術人 員將了解,對以下細節(jié)的許多變化和更改在本發(fā)明的范圍內。因此,陳述下文描述的本發(fā)明 的示例性實施方案,而不會有所要求本發(fā)明的任何一般性損失且不會對所要求本發(fā)明強加 限制。
[0015] 企組
[0016] 已經(jīng)提出使用聽覺注意力特征的邊界檢測方法。為了進一步改善邊界準確性,可 將音位后驗子與聽覺注意力特征組合。通過訓練一個模型(例如深度神經(jīng)網(wǎng)絡)獲得音位 后驗子,所述模型在給定聲學特征(mfcc、梅爾濾波器組等等)的情況下估計音位類后驗得 分。已知通常在邊界附近這些模型的音位分類準確性下降,因為后驗子往往變得彼此混淆, 即在音位片段的邊界處典型地不存在清晰的獲勝類,而在音位片段的中間,獲勝者(例如, 后驗得分的最大值)是明確的。這實際上是對于邊界檢測非常有用的信息。所提出的是通 過組合音位后驗子與聽覺注意力特征,可進一步改善邊界檢測性能。當前幀的音位后驗子 可用于此目的。另外,相鄰幀"后驗子"也可通過使用上下文信息進一步幫助改善性能。 [0017] 在本公開中,提出一種新穎的分段方法,它組合聽覺注意力特征與音位后驗子。所 述算法不需要標音,且可準確地執(zhí)行分段。
[0018] 僅使用聽覺注意力特征的邊界檢測方法已在2011年4月1日申請的第 13/078, 866號美國專利申請中描述,所述美國專利申請的整個內容以引用方式并入本文。 為了進一步改善邊界準確性,可將音位后驗子與聽覺注意力特征組合。通過訓練一個模型 (例如深度神經(jīng)網(wǎng)絡)可獲得音位后驗子,所述模型在給定聲學特征(mfcc、梅爾(mel)濾 波器組等等)的情況下估計音位類后驗得分。已知通常在邊界附近這些模型音位分類準確 性下降,因為后驗子變得更容易彼此混淆。舉例來說,當音位后驗子在邊界附近時不存在清 晰的獲勝類,而在音位片段的中間,獲勝者(例如,后驗得分的最大值)是明確的。這實際 上是對于邊界檢測非常有用的信息。因此,此處所提出的是通過組合音位后驗子與聽覺注 意力特征,可進一步改善邊界檢測性能。當前幀的音位后驗子可用于此目的。另外,相鄰幀 "后驗子"也可通過使用上下文信息進一步幫助改善性能。
[0019] 論述
[0020] 在本公開的方面中,可分析對應于所記錄音頻的信號以確定邊界,例如音位邊界。 可通過從信號提取聽覺注意力特征并從信號提取音位后驗子來實施這種邊界檢測。隨后可 組合聽覺注意力特征和音位后驗子以檢測信號中的邊界??扇缦赂爬ū竟_的細節(jié):首先 描述聽覺注意力特征提取。隨后描述音素后驗子提取。隨后論述用于組合聽覺注意力特征 和音位后驗子以用于邊界檢測的兩種提出的方法。
[0021] 在本公開中,提出一種使用聽覺注意力線索用于語音的音位分段的新穎方法。在 不限于任何操作理論的情況下,所提出方法的動機如下。在語音頻譜中,通??梢娫谝粑贿?界附近、尤其在元音附近的邊緣和局部不連續(xù),因為它們展現(xiàn)高能量和清晰的共振峰結構。 舉例來說,在上文提到的論文"使用聽覺注意力特征的自動音位分段"的圖1中,示出了被 標音為"his captain was"的語音片段的頻譜以及近似音位邊界。在頻譜中,視覺上可觀 察到這些邊界中的一些對應于例如元音ih、ae、ix等的邊界的音位邊界。因此,相信通過檢 測聽覺頻譜中的相關定向邊緣和不連續(xù),即,就像在視覺上完成那樣,可定位語音中的音位 片段和/或邊界。
[0022] 提取聽覺注意力特征
[0023] 通過模仿人類聽覺系統(tǒng)中的處理階段,可以在生物學上激發(fā)和提取聽覺注意力線 索?;谥醒肼犛X系統(tǒng)中的處理階段使用2D頻譜-時間濾波器從聲音頻譜提取一組多尺 度特征,并將所述特征轉換為低等級聽覺要點特征。與文獻中的先前工作不同,聽覺注意力 模型像圖像一樣分析2D聲音頻譜,以檢測邊緣以及局部的時間和頻譜不連續(xù)。因此,所述 模型成功地檢測語音中的邊界。
[0024] 在聽覺注意力模型中,可將聽覺頻譜視為類似于視覺上的場景的圖像,且使用2D 頻譜-時間接受濾波器在多個尺度中從頻譜提取對比特征??蓪⑺崛〉奶卣髡{諧到不同 的局部定向邊緣:例如,可將頻率對比特征調諧到局部水平定向邊緣,所述局部水平定向邊 緣對于檢測且捕獲共振峰和共振峰變化來說是較好的。接著,可獲得低等級聽覺要點特征, 且可使用神經(jīng)網(wǎng)絡來發(fā)現(xiàn)相關定向邊緣并學習所述要點特征與音位邊界之間的映射。
[0025] 從輸入語音信號提取聽覺注意力線索可如下進行。可基于早期聽覺系統(tǒng)模型或快 速傅立葉變換(FFT)計算第一頻譜。隨后可基于中央聽覺系統(tǒng)提取多尺度特征。隨后可計 算中央-周圍差異,且可比較精細尺度和較粗糙的尺度。通過將每一特征圖劃分為m乘n 網(wǎng)格,并計算網(wǎng)格的每一子區(qū)的平均值,可計算聽覺要點特征。隨后可例如使用主分量分析 (PCA)和/或離散余弦變換(DCT)來減少聽覺要點特征的維度和冗余。維度減少和冗余減 少產生了在此稱為聽覺要點的最終特征。
[0026] 第13/078, 866號美國專利申請中描述了聽覺特征提取的細節(jié)。圖1A中示出注意 力模型的框圖和特征提取的流程圖。圖1A中的流程圖說明根據(jù)本公開的方面的使用聽覺 注意力線索在語音中的音節(jié)/元音/音素邊界檢測的方法。在生物學上激發(fā)聽覺注意力模 型,且所述模型模仿人類聽覺系統(tǒng)中的處理階段。所述模型經(jīng)過設計以確定何時以及在何 處聲音信號吸引人的注意力。
[0027] 起初接收聲音輸入窗101。舉例來說且不作為限制,可使用麥克風,在某個有限持 續(xù)時間的時間窗中捕獲此聲音輸入窗101,所述麥克風用來將表征特定聲音輸入窗101的 聲波轉換為電信號以用于進一步處理。聲音輸入窗101可為人的語音的任何片段。舉例來 說且不作為限制,聲音輸入窗101可含有單個音節(jié)、單詞、句子或這些的任意組合。
[0028] 隨后使聲音輸入窗101通過一組處理階段103,所述處理階段操作以將此聲音窗 101轉換為音頻頻譜105。這些處理階段103可以基于例如人類聽覺系統(tǒng)等聽覺系統(tǒng)的早 期處理階段。舉例來說且不作為限制,處