專利名稱:用于語音到文本的轉(zhuǎn)錄系統(tǒng)的錯(cuò)誤檢測的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音到文本的轉(zhuǎn)錄(transcription)系統(tǒng)和方法的領(lǐng)域,并且更具體地涉及在語音到文本的轉(zhuǎn)錄系統(tǒng)中錯(cuò)誤的檢測。
語音轉(zhuǎn)錄和語音識別系統(tǒng)識別例如口頭口授的語音,并且將所識別的語音轉(zhuǎn)錄成文本?,F(xiàn)今語音轉(zhuǎn)錄系統(tǒng)已經(jīng)被廣泛地用在例如醫(yī)學(xué)部門或法律實(shí)踐中。存在多種語音轉(zhuǎn)錄系統(tǒng),例如Philips ElectronicsNV的Speed MagicTM和IBM Corporation的Via VoiceTM,它們在商業(yè)上是可用的。與人類轉(zhuǎn)錄人員相比,一方面,語音轉(zhuǎn)錄系統(tǒng)節(jié)省了時(shí)間和成本,但另一方面,它與人類轉(zhuǎn)錄人員相比不能夠提供高精度的語音理解和命令解釋。
由語音到文本的轉(zhuǎn)錄系統(tǒng)產(chǎn)生的文本不可避免地包括錯(cuò)誤的文本部分。這種錯(cuò)誤的文本部分的出現(xiàn)是由于許多原因,例如在其中記錄語音的不同的環(huán)境條件,比如噪聲,或者系統(tǒng)未被正確適配的不同揚(yáng)聲器。口授中涉及標(biāo)點(diǎn)、文本格式或字體的口頭命令必須由語音到文本的轉(zhuǎn)錄系統(tǒng)進(jìn)行適當(dāng)?shù)亟忉專皇前凑兆置嬉饬x轉(zhuǎn)錄為詞語。
由于語音到文本的轉(zhuǎn)錄系統(tǒng)的特征在于有限的語音識別能力以及有限的命令解釋能力,所以它們在轉(zhuǎn)錄的文本中不可避免地產(chǎn)生錯(cuò)誤。為了確保將口授正確地轉(zhuǎn)錄為文本,在校對步驟中必須對語音到文本的轉(zhuǎn)錄系統(tǒng)所產(chǎn)生的文本檢查錯(cuò)誤以及錯(cuò)誤的文本部分。校對通常必須由人類校對者執(zhí)行。校對者比較口授的原始語音信號與由語音到文本的轉(zhuǎn)錄系統(tǒng)產(chǎn)生的轉(zhuǎn)錄文本。
通常通過聽取原始語音信號并同時(shí)讀取轉(zhuǎn)錄文本來執(zhí)行以比較的形式的校對。特別是,這類比較使得校對者非常疲勞,因?yàn)橐砸曈X信息的形式的文本必須與以聲學(xué)信息的形式提供的語音信號進(jìn)行比較。因此,該比較需要校對者在與口授的持續(xù)時(shí)間相對應(yīng)的時(shí)間高度集中注意力。
考慮到語音到文本的轉(zhuǎn)錄系統(tǒng)的出錯(cuò)率可以在20%以下并且在不久的將來甚至可以減少,顯然對于轉(zhuǎn)錄文本的大部分而言校對不是必須的。然而,文本的原始來源僅作為語音信號而可得到,該語音信號只可以通過聽取其而以順序的方式進(jìn)行訪問。比較書面文本和聲學(xué)信號只可以通過聽取全部的聲學(xué)信號來執(zhí)行。因此,與轉(zhuǎn)錄過程本身相比,校對可能甚至更加消耗時(shí)間。
本發(fā)明旨在提供一種用于在由自動的語音到文本的轉(zhuǎn)錄系統(tǒng)所產(chǎn)生的文本內(nèi)有效的錯(cuò)誤檢測的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。
本發(fā)明提供一種用于語音到文本的轉(zhuǎn)錄系統(tǒng)的錯(cuò)誤檢測的方法。語音到文本的轉(zhuǎn)錄系統(tǒng)接收第一語音信號,并且將該第一語音信號轉(zhuǎn)錄成文本。為了便于必須由人類校對者執(zhí)行的校對或校正過程,將轉(zhuǎn)錄的文本再變換成第二合成語音信號。這樣,校對者僅必須比較兩個(gè)聲學(xué)信號,即第一和第二語音信號,而不是比較第一語音信號和轉(zhuǎn)錄的文本。例如經(jīng)由立體聲耳機(jī)將第一和第二語音信號提供給校對者。這樣,校對者同時(shí)聽取第一和第二語音信號,并且能夠容易地檢測到兩個(gè)語音信號之間可能的偏差,該偏差表示在語音到文本的轉(zhuǎn)錄過程中已經(jīng)出現(xiàn)錯(cuò)誤。
通過所謂的文本到語音的合成系統(tǒng)來執(zhí)行將轉(zhuǎn)錄文本再變換成第二語音信號。例如在EP 0363233和EP 0706170中公開了文本到語音的合成系統(tǒng)的實(shí)例。典型的文本到語音的合成系統(tǒng)基于包含在其中存儲有記錄的聲音部分的數(shù)據(jù)庫的雙音合成技術(shù)或單元選取合成技術(shù)。
根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,從轉(zhuǎn)錄文本產(chǎn)生與第一語音信號同步的合成第二語音信號的方法是顛倒語音識別過程。代替從輸入特征向量(表示例如第一語音信號的10ms的部分)產(chǎn)生輸出文本,也應(yīng)用語音識別系統(tǒng)來從輸入文本產(chǎn)生輸出特征向量。這能夠通過首先將文本變換成(上下文相關(guān)的)音素序列并且接著將音素序列變換成隱含馬爾可夫模型序列(HMMs)來實(shí)現(xiàn)。連接的HMMs根據(jù)不同的HMM狀態(tài)序列又產(chǎn)生輸出特征向量序列。為了支持第一和第二語音信號之間的同步,用于產(chǎn)生第二語音信號的HMM狀態(tài)序列是在先前語音識別步驟中獲得的最佳(維特比)狀態(tài)序列,在先前的語音識別步驟中已經(jīng)將第一語音信號變換成文本。該狀態(tài)序列將每個(gè)特征向量對準(zhǔn)不同的隱含馬爾可夫模型狀態(tài),并且因此對準(zhǔn)轉(zhuǎn)錄文本的不同部分。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,從第一語音信號的轉(zhuǎn)錄文本中提取的第二語音信號的速度和/或音量與第一語音信號的速度和/或音量相匹配。因此,相對于第一自然語音信號的速度和/或音量來執(zhí)行從轉(zhuǎn)錄文本到第二語音信號的合成。這是有利的,因?yàn)閮蓚€(gè)同步的聲學(xué)信號之間的比較比兩個(gè)不同步的聲學(xué)信號之間的比較容易得多。因此,轉(zhuǎn)錄文本的同步取決于轉(zhuǎn)錄文本體本身以及取決于第一、因而的自然語音信號的速度和動態(tài)范圍。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,第一語音信號也是變換的對象。優(yōu)選地,對第一語音信號應(yīng)用一組濾波器函數(shù)以便變換第一語音信號的頻譜。這樣,使得第一語音信號的頻譜與合成的第二語音信號的頻譜相同。結(jié)果,自然的第一語音信號的聲音和合成的第二語音信號的聲音接近,這再一次便于由人類校對者執(zhí)行的兩個(gè)語音信號的比較。最后,比較兩個(gè)人工產(chǎn)生的或人工發(fā)聲的聲學(xué)信號,而不是比較一個(gè)人工聲學(xué)信號與一個(gè)自然聲學(xué)信號。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,通過對第一和第二語音信號進(jìn)行相減或疊加而產(chǎn)生一個(gè)附加信號。當(dāng)通過對第一和第二語音信號進(jìn)行相減而產(chǎn)生該類型的比較信號時(shí),該比較信號的幅度指示在第一和第二語音信號之間的偏差。特別是,第一和第二語音信號之間大的偏差是語音到文本的轉(zhuǎn)錄系統(tǒng)已經(jīng)產(chǎn)生錯(cuò)誤的指示。因此,比較信號給出了在語音到文本的轉(zhuǎn)錄過程中是否出現(xiàn)錯(cuò)誤的直接指示。比較信號沒有必要非得通過兩個(gè)語音信號相減來產(chǎn)生。通常,可以想到根據(jù)第一和第二語音信號來產(chǎn)生比較信號的非常多的方法,例如借助于語音信號的疊加或卷積。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,在聽覺上和/或在視覺上將比較信號提供給校對者。這樣,所產(chǎn)生的比較信號被提供給校對者。通過使用該比較信號,校對者能夠更容易地識別轉(zhuǎn)錄文本的錯(cuò)誤部分。特別是,當(dāng)在轉(zhuǎn)錄文本中在視覺上提供比較信號時(shí),校對者的注意力被吸引到與值得重視的比較信號相對應(yīng)的那些文本部分。在校對過程中能夠跳過與具有低幅度的比較信號相關(guān)聯(lián)的大部分正確轉(zhuǎn)錄的文本。因而,顯著地增強(qiáng)了校對者和校對過程的效率。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,當(dāng)比較信號的幅度超過預(yù)定范圍時(shí),用于錯(cuò)誤檢測的方法產(chǎn)生出錯(cuò)指示。當(dāng)例如通過對第一和第二語音信號相減來產(chǎn)生比較信號的時(shí)候,在比較信號的幅度超過預(yù)定閾值時(shí)輸出出錯(cuò)指示給校對者。出錯(cuò)指示的輸出能夠在聽覺上以及在視覺上出現(xiàn)。借助于該出錯(cuò)指示,校對者不再非得觀察或聽取笨拙發(fā)聲的比較信號。例如可以通過不同的振鈴音來實(shí)現(xiàn)出錯(cuò)指示。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,借助于圖形用戶接口在轉(zhuǎn)錄文本中在視覺上輸出出錯(cuò)指示。這樣,校對者不必非得在聽覺上聽取和比較兩個(gè)語音信號。而且,第一和第二語音信號之間的比較完全由比較信號來表示。只有在比較信號超過預(yù)定閾值的這種情況中,才在轉(zhuǎn)錄文本中輸出出錯(cuò)指示。于是校對者的任務(wù)減少為人工控制分配有出錯(cuò)指示的那些文本部分。校對者可以系統(tǒng)地選擇可能出錯(cuò)的這些文本部分。為了檢查語音到文本的轉(zhuǎn)錄系統(tǒng)是否產(chǎn)生錯(cuò)誤,校對者僅聽取與分配有出錯(cuò)指示的文本部分相對應(yīng)的第一和第二語音信號的那些剪輯。
因此,所述方法提供一種僅對可能是錯(cuò)誤的轉(zhuǎn)錄文本的那些文本部分進(jìn)行濾波的有效途徑。因而不再需要為了校對的目的而聽取完整的第一語音信號和讀取整個(gè)轉(zhuǎn)錄文本。必須由人類校對者執(zhí)行的校對有效地減少為由錯(cuò)誤檢測系統(tǒng)將其識別為可能出錯(cuò)的那些文本部分。與校對過程的時(shí)間曝光(exposure)減少相同,校對的總效率被提高。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,對比較信號執(zhí)行模式識別,以便對表示文本中不同錯(cuò)誤類型的比較信號的預(yù)定義模式進(jìn)行識別。由語音到文本的轉(zhuǎn)錄系統(tǒng)產(chǎn)生的錯(cuò)誤通常是由于部分第一自然語音信號的錯(cuò)誤判斷。特別是對于自然語音信號的含糊部分出現(xiàn)這種錯(cuò)誤,例如具有不同意義并因此具有不同拼寫的相似發(fā)聲的詞語。例如,當(dāng)例如將不同的口語詞錯(cuò)誤識別為相似發(fā)聲的詞語時(shí),語音到文本的轉(zhuǎn)錄系統(tǒng)就可能產(chǎn)生無意義的詞語。在轉(zhuǎn)錄過程期間,這種混淆可能出現(xiàn)若干次。當(dāng)現(xiàn)在又將轉(zhuǎn)錄文本再變換成第二語音信號時(shí)以及當(dāng)借助于上述的比較信號來比較第一和第二語音信號時(shí),兩個(gè)詞之間的這種混淆可能導(dǎo)致比較信號中的不同模式。
借助于應(yīng)用于比較信號的模式識別,可以直接識別由轉(zhuǎn)錄系統(tǒng)產(chǎn)生的某一錯(cuò)誤類型。與由語音到文本的轉(zhuǎn)錄系統(tǒng)產(chǎn)生的某些錯(cuò)誤類型相對應(yīng)的不同模式典型地通過某類的存儲裝置來存儲,并且被提供給錯(cuò)誤檢測方法以便識別不同的錯(cuò)誤類型。而且,在比較信號中與指示某個(gè)錯(cuò)誤類型的任一已知模式不匹配的模式可以被指定為一個(gè)錯(cuò)誤和由校對者人工執(zhí)行的校正過程。這樣,用于錯(cuò)誤檢測的方法可以收集在比較信號中將被指定為不同錯(cuò)誤類型的各種模式??梢詫⑦@種功能解釋為一種自主學(xué)習(xí)。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,校正建議具備由語音到文本的轉(zhuǎn)錄系統(tǒng)產(chǎn)生的檢測到的錯(cuò)誤類型。由于借助于比較信號的相應(yīng)模式來識別轉(zhuǎn)錄文本中不同的錯(cuò)誤類型,所以能夠解析錯(cuò)誤的來源、語音信號的錯(cuò)誤識別部分。優(yōu)選的是借助于圖形用戶接口在視覺上提供校正建議。必須由人類校對者執(zhí)行的校對理想地減少為接受或拒絕由錯(cuò)誤檢測系統(tǒng)提供的校正建議的步驟。當(dāng)校對者接受錯(cuò)誤校正時(shí),錯(cuò)誤檢測系統(tǒng)自動地用產(chǎn)生的校正建議代替轉(zhuǎn)錄文本的錯(cuò)誤文本部分。假設(shè)校對者拒絕了由錯(cuò)誤檢測系統(tǒng)提供的校正建議的別的情況,那么校對者不得不人工校正轉(zhuǎn)錄文本的錯(cuò)誤文本部分。
用于在由語音到文本的轉(zhuǎn)錄系統(tǒng)所產(chǎn)生的文本內(nèi)的錯(cuò)誤檢測的所述方法和系統(tǒng)為轉(zhuǎn)錄文本的校對提供了有效的和較少時(shí)間消耗的途徑。不可缺少的人類校對者的主要任務(wù)減少為轉(zhuǎn)錄文本內(nèi)最小數(shù)量的可能錯(cuò)誤識別的文本部分。與校對的傳統(tǒng)方法相比,校對者不再非得聽取由語音到文本的轉(zhuǎn)錄系統(tǒng)所轉(zhuǎn)錄的整個(gè)自然語音信號。
在下面將通過參考附圖來更加詳細(xì)地描述本發(fā)明的優(yōu)選實(shí)施例,其中
圖1是說明錯(cuò)誤檢測方法的流程圖,圖2是說明錯(cuò)誤檢測方法的流程圖,圖3是說明包括比較信號的模式識別的錯(cuò)誤檢測方法的流程圖,圖4示出具有錯(cuò)誤檢測裝置的語音到文本的轉(zhuǎn)錄系統(tǒng)的框圖。
圖1示出本發(fā)明的錯(cuò)誤檢測方法的流程圖。在第一步驟100中,借助于常規(guī)的語音到文本的轉(zhuǎn)錄系統(tǒng)從第一自然語音信號中產(chǎn)生文本。在下一步驟102中,借助于常規(guī)的文本到語音的合成系統(tǒng)將步驟100的轉(zhuǎn)錄文本再變換成第二語音信號。在隨后的步驟104中,將第一自然語音信號和第二人工產(chǎn)生的語音信號提供給人類校對者。在步驟106,所述校對者同時(shí)聽取第一和第二語音信號。典型地,使得第一和第二語音信號同步以便有助于由所述校對者執(zhí)行的聲學(xué)比較。在步驟108,校對者檢測到在第一和第二語音信號之間的偏差。所述偏差指示在將第一自然語音信號轉(zhuǎn)錄成文本的步驟100中出現(xiàn)錯(cuò)誤。當(dāng)在步驟108中校對者檢測到錯(cuò)誤時(shí),人工執(zhí)行該文本中檢測到的錯(cuò)誤的校正。
這樣,校對即初始自然語音信號與轉(zhuǎn)錄文本之間的比較不再基于有關(guān)聲學(xué)與視覺信號的比較。代之以,校對者僅須聽取兩個(gè)不同的聲學(xué)信號。僅在檢測到錯(cuò)誤的情況中,校對者不得不在轉(zhuǎn)錄文本中找到相應(yīng)的文本部分并且執(zhí)行校正。
圖2是說明根據(jù)本發(fā)明優(yōu)選實(shí)施例的錯(cuò)誤檢測方法的流程圖。與圖1所說明的類似,在第一步驟200中,通過常規(guī)的文本到語音的轉(zhuǎn)錄系統(tǒng)從第一語音信號中轉(zhuǎn)錄文本?;谵D(zhuǎn)錄的文本,在下一步驟202中,借助于文本到語音的合成系統(tǒng)來合成人工語音信號。為了便于兩個(gè)語音信號之間的比較,在步驟204中將第一自然語音信號應(yīng)用到一組濾波器函數(shù),以使得所述自然語音信號的頻譜接近第二人工產(chǎn)生的語音信號的頻譜。
之后,該方法進(jìn)行步驟206或進(jìn)行步驟208。在步驟206中,將濾波的第一自然語音信號以及第二人工產(chǎn)生的語音信號在聽覺上提供給校對者。相反在步驟208中,將濾波的第一自然語音信號以及第二人工產(chǎn)生的語音信號在視覺上提供給校對者。在將第一和第二語音信號提供給校對者之后,該方法繼續(xù)進(jìn)行步驟210,在該步驟中,校對者在聽覺上和/或在視覺上比較第一和第二語音信號。在下一步驟212中,校對者通過聽取兩個(gè)不同的語音信號和/或通過兩個(gè)語音信號的圖形表示來檢測所產(chǎn)生的文本中的錯(cuò)誤。在最后的步驟214中,由校對者來人工校正檢測到的錯(cuò)誤。
在圖3中,示出用于說明根據(jù)本發(fā)明的錯(cuò)誤檢測方法的另一流程圖。再次在第一步驟300中,借助于常規(guī)的語音到文本的轉(zhuǎn)錄系統(tǒng)從第一自然語音信號中轉(zhuǎn)錄文本。在下一步驟302中,借助于文本到語音的合成系統(tǒng)將轉(zhuǎn)錄文本再變換成第二語音信號。與圖2所描述的類似,在步驟304中,將第一自然語音信號應(yīng)用到一組濾波器函數(shù),以便使得第一語音信號的聲音和頻譜與人工產(chǎn)生的第二語音信號的聲音和頻譜相同。
在隨后的步驟306中,借助于例如第一和第二語音信號相減或疊加來產(chǎn)生第一和第二語音信號之間的比較信號。代替直接提供語音信號,該方法現(xiàn)在限定為提供所產(chǎn)生的比較信號。在步驟308在聽覺上提供比較信號或在步驟310在視覺上提供比較信號。在步驟312中,通過所述比較信號能夠容易地檢測到文本中可能的錯(cuò)誤。
當(dāng)例如通過兩個(gè)語音信號相減而產(chǎn)生所述比較信號時(shí),在該比較信號的幅度高于預(yù)定閾值時(shí),能夠容易地檢測到文本中可能的錯(cuò)誤。在步驟312檢測到可能的錯(cuò)誤文本部分之后,在步驟318能夠人工地對檢測到的錯(cuò)誤執(zhí)行校正,或者可以使用可選步驟314和316。在步驟314,對所述比較信號應(yīng)用模式識別。當(dāng)比較信號的不同部分與系統(tǒng)中所存儲的兩個(gè)特征模式相匹配時(shí),轉(zhuǎn)錄文本的相應(yīng)文本部分被識別為可能的錯(cuò)誤。在隨后的步驟316中,將這些可能的錯(cuò)誤文本部分指定為一種不同的錯(cuò)誤類型。以這種方式收集的出錯(cuò)信息可以被進(jìn)一步使用,以便產(chǎn)生建議校正來消除轉(zhuǎn)錄文本中的這些錯(cuò)誤。
圖4示出用于語音到文本的轉(zhuǎn)錄系統(tǒng)的錯(cuò)誤檢測系統(tǒng)的框圖。第一語音信號400被輸入到錯(cuò)誤檢測模塊402。該錯(cuò)誤檢測模塊402包括用于語音到文本的轉(zhuǎn)錄的裝置并且產(chǎn)生文本412,該文本從錯(cuò)誤檢測模塊402輸出。此外,錯(cuò)誤檢測模塊402被連接到圖形用戶接口406以及被連接到聲學(xué)用戶接口404。錯(cuò)誤檢測模塊402進(jìn)一步包括語音合成模塊408、語音到文本的轉(zhuǎn)錄模塊410、文本到語音的變換模塊414以及文本412、第一語音信號418和第二語音信號416。
表示口授的自然語音信號400被輸入到錯(cuò)誤檢測模塊402的語音合成模塊408和語音到文本的轉(zhuǎn)錄模塊410。語音到文本的轉(zhuǎn)錄模塊410將語音信號400轉(zhuǎn)錄成文本412。所產(chǎn)生的文本412作為轉(zhuǎn)錄文本被輸出,并且在錯(cuò)誤檢測模塊402中進(jìn)行進(jìn)一步的處理。因此,將文本412提供給文本到語音的變換模塊414,其將轉(zhuǎn)錄文本412再變換成第二人工產(chǎn)生的語音信號416。
文本到語音的變換模塊414基于從文本到語音的合成系統(tǒng)獲知的常規(guī)技術(shù)?,F(xiàn)在借助于聲學(xué)用戶接口404能夠?qū)⑷斯ぎa(chǎn)生的語音信號416與進(jìn)入錯(cuò)誤檢測模塊402的初始自然語音信號400進(jìn)行比較。聲學(xué)用戶接口404例如能夠通過立體聲耳機(jī)來實(shí)施。在立體聲耳機(jī)的左聲道上可以提供自然語音信號400,而在該耳機(jī)的右聲道上可以提供人工產(chǎn)生的語音信號416。
同時(shí)聽取兩個(gè)語音信號的人類校對者因此能夠容易地檢測到由語音到文本的轉(zhuǎn)錄模塊410執(zhí)行的錯(cuò)誤判斷和錯(cuò)誤所引起的兩個(gè)語音信號400和416之間的偏差。
由于自然語音信號400和機(jī)器產(chǎn)生的語音信號416之間的比較可能對于校對者而言是混淆的或是笨拙發(fā)聲的,所以通過語音合成模塊408對自然語音信號400應(yīng)用一組濾波器函數(shù)而能夠?qū)ψ匀徽Z音信號400進(jìn)行濾波,以便使得自然語音信號400的頻譜和聲音與合成的語音信號416相同。因此,語音合成模塊408將自然語音信號400變換成濾波的語音信號418。與上述兩個(gè)語音信號的描述類似,借助于聲學(xué)用戶接口404能夠在聽覺上將所述濾波的語音信號418以及所述合成的語音信號416提供給校對者。
另外地或可選地,借助于圖形用戶接口406能夠以圖形表示來提供所述兩個(gè)產(chǎn)生的語音信號。在語音信號416和418的圖形表示的幫助下,校對者可以跳過已經(jīng)正確轉(zhuǎn)錄的轉(zhuǎn)錄文本的大部分。特別是,當(dāng)錯(cuò)誤檢測模塊402通過產(chǎn)生指示兩個(gè)語音信號的巨大偏差的比較信號來提供兩個(gè)語音信號416和418的進(jìn)一步處理時(shí),由語音到文本的變換模塊410所產(chǎn)生的錯(cuò)誤的校對過程和檢測以及校正變得更加有效并且具有較少的時(shí)間消耗。進(jìn)一步的優(yōu)點(diǎn)是通過其中不同模式能夠被指定為特定的錯(cuò)誤類型的模式識別對產(chǎn)生的比較信號進(jìn)行進(jìn)一步的處理,以便有助于由人類校對者執(zhí)行檢測和校正任務(wù)。
參考數(shù)字的列表400第一語音信號402錯(cuò)誤檢測模塊404聲學(xué)用戶接口406圖形用戶接口408語音合成模塊410語音到文本的轉(zhuǎn)錄模塊412文本414文本到語音的變換模塊416第二語音信號418濾波的語音信號
權(quán)利要求
1.一種用于在由自動的語音到文本的轉(zhuǎn)錄系統(tǒng)從第一語音信號中轉(zhuǎn)錄的文本內(nèi)錯(cuò)誤檢測的方法,包括從該轉(zhuǎn)錄的文本來合成第二語音信號,提供第一和第二語音信號輸出來在第一和第二語音信號之間進(jìn)行比較,以識別文本中可能的錯(cuò)誤。
2.根據(jù)權(quán)利要求1所述的方法,其中第二語音信號的速度和/或音量與第一語音信號的速度和/或音量相匹配。
3.根據(jù)權(quán)利要求1或2所述的方法,其中一組濾波器函數(shù)被應(yīng)用于第一語音信號,以使第一語音信號的頻譜接近第二語音信號的頻譜。
4.根據(jù)權(quán)利要求1至3中任何一項(xiàng)所述的方法,其中第二語音信號是通過下述產(chǎn)生的應(yīng)用逆語音轉(zhuǎn)錄過程,從文本中產(chǎn)生特征向量序列,使用(a)語音到文本的轉(zhuǎn)錄系統(tǒng)的統(tǒng)計(jì)模型和(b)在從第一語音信號轉(zhuǎn)錄為文本的過程所獲得的狀態(tài)序列。
5.根據(jù)權(quán)利要求1至4中任何一項(xiàng)所述的方法,其中通過對第一和第二語音信號相減或疊加來產(chǎn)生比較信號。
6.根據(jù)權(quán)利要求5所述的方法,其中在聽覺上和/或在視覺上提供比較信號。
7.根據(jù)權(quán)利要求5或6所述的方法,其中當(dāng)比較信號的幅度超過預(yù)定范圍時(shí),輸出出錯(cuò)指示。
8.根據(jù)權(quán)利要求7所述的方法,其中在圖形用戶接口上的轉(zhuǎn)錄文本內(nèi)在視覺上輸出出錯(cuò)指示。
9.根據(jù)權(quán)利要求5至8中任何一項(xiàng)所述的方法,進(jìn)一步包括比較信號的模式識別,以便對表示文本中錯(cuò)誤類型的比較信號的預(yù)先訓(xùn)練的模式進(jìn)行識別。
10.根據(jù)權(quán)利要求9所述的方法,其中校正建議具備在所產(chǎn)生的文本中檢測到的錯(cuò)誤類型。
11.一種用于語音到文本的轉(zhuǎn)錄系統(tǒng)的錯(cuò)誤檢測系統(tǒng),該語音到文本的轉(zhuǎn)錄系統(tǒng)從第一語音信號(400)中提供轉(zhuǎn)錄的文本(412),所述錯(cuò)誤檢測系統(tǒng)包括-用于從轉(zhuǎn)錄的文本(412)來合成第二語音信號(416)的裝置,-用于提供第一(400,418)和第二(416)語音信號的裝置,以用于在第一和第二語音信號之間進(jìn)行比較,以便識別文本(412)中可能的錯(cuò)誤。
12.根據(jù)權(quán)利要求11所述的檢測系統(tǒng),其中通過對第一(400,418)和第二(416)語音信號進(jìn)行相減或疊加來產(chǎn)生比較信號。
13.根據(jù)權(quán)利要求11或12所述的檢測系統(tǒng),其中為了錯(cuò)誤檢測的目的而在視覺上或在聽覺上提供第一(400,418)和第二(416)語音信號和/或比較信號。
14.根據(jù)權(quán)利要求12或13所述的檢測系統(tǒng),其中當(dāng)比較信號超過預(yù)定范圍時(shí),輸出出錯(cuò)指示。
15.根據(jù)權(quán)利要求12至14中任何一項(xiàng)所述的檢測系統(tǒng),其中在比較信號中的不同模式被指定為轉(zhuǎn)錄文本(412)中的某一錯(cuò)誤類型,并且校正建議具備在轉(zhuǎn)錄文本中檢測到的錯(cuò)誤類型。
16.一種用于語音到文本的轉(zhuǎn)錄系統(tǒng)的錯(cuò)誤檢測的計(jì)算機(jī)程序產(chǎn)品,所述語音到文本的轉(zhuǎn)錄系統(tǒng)從第一語音信號中來提供轉(zhuǎn)錄的文本,該計(jì)算機(jī)程序產(chǎn)品包括程序裝置,該程序裝置用于-從轉(zhuǎn)錄的文本來合成第二語音信號,-將第二語音信號的速度和/或音量與第一語音信號的速度和/或音量相匹配,-提供第一和第二語音信號輸出,以在第一和第二語音信號之間進(jìn)行比較。
17.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括通過對第一和第二語音信號進(jìn)行相減或疊加來產(chǎn)生比較信號的裝置。
18.根據(jù)權(quán)利要求16或17所述的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括為了錯(cuò)誤檢測的目的而在聽覺上或在視覺上提供第一和第二語音信號和/或比較信號的裝置。
19.根據(jù)權(quán)利要求17或18所述的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括在比較信號超過預(yù)定范圍時(shí)輸出出錯(cuò)指示的裝置。
20.根據(jù)權(quán)利要求17至19中任何一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括將比較信號中的不同模式指定為轉(zhuǎn)錄文本中的某一錯(cuò)誤類型并且提供具有在轉(zhuǎn)錄文本中檢測到的錯(cuò)誤類型的校正建議的裝置。
全文摘要
本發(fā)明涉及一種用于在由語音到文本的轉(zhuǎn)錄系統(tǒng)產(chǎn)生的文本內(nèi)錯(cuò)誤檢測的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。借助于文本到語音的轉(zhuǎn)錄系統(tǒng)將轉(zhuǎn)錄文本再變換成人工語音信號。原始自然語音信號和人工產(chǎn)生的語音被提供給校對者以比較兩個(gè)聲學(xué)信號。在原始語音信號與從轉(zhuǎn)錄文本中變換的語音之間的偏差表示在語音到文本的變換過程中可能出現(xiàn)了錯(cuò)誤,這不得不人工進(jìn)行校正。優(yōu)選地通過使用從所述兩個(gè)語音信號推導(dǎo)出的比較信號,要比較的語音信號能夠在視覺上和/或在聽覺上被提供給校對者。在校對過程中能夠跳過大部分正確轉(zhuǎn)錄的文本,從而節(jié)省了時(shí)間,并且增強(qiáng)了整個(gè)校對過程的有效性。
文檔編號G10L21/013GK1879146SQ200480032825
公開日2006年12月13日 申請日期2004年10月27日 優(yōu)先權(quán)日2003年11月5日
發(fā)明者H·施拉姆 申請人:皇家飛利浦電子股份有限公司