專利名稱:基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種語音識(shí)別技術(shù)領(lǐng)域的裝置及方法,具體是一種基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置及方法,通過對語音信號(hào)進(jìn)行識(shí)別,并以文本形式進(jìn)行記錄,在用戶不便對語音信息進(jìn)行文字記錄時(shí),可替代用戶完成語音信息的文字記錄。
背景技術(shù):
受限于語音信號(hào)識(shí)別技術(shù),已知的記錄裝置在對收到的語音信號(hào)進(jìn)行自動(dòng)識(shí)別后,通過操作員的人工校正,以確保所記錄信息的準(zhǔn)確性。由此,使得記錄裝置的正常運(yùn)作需要大量的人工校正工作;并且,語音信號(hào)中所提及的一些信息,可能由于操作員本身的知識(shí)量限制,無法做出有效地修正,比如一些地名或?qū)I(yè)工具名稱等。已知的記錄裝置,是對全部的語音信息進(jìn)行識(shí)別記錄。但是,語音信息中會(huì)出現(xiàn)大 量無意義的信息,比如通話過程中的問候語、助詞、語氣詞。真實(shí)有效的信息通常僅為全部語音信息的一部分。識(shí)別并記錄全部語音信息,一方面加大了文本信息校正的工作量;另一方面,用戶也不需要諸如問候語之類的信息記錄。語音信息記錄,應(yīng)盡可能精簡,提供最多的有效信息量。經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),英國專利文獻(xiàn)GB2323693A,記載了一種“Speech totext conversion”(語言文字轉(zhuǎn)換系統(tǒng)),該技術(shù)包括至少一個(gè)用戶終端用于錄制語音,至少一個(gè)自動(dòng)語音識(shí)別處理器以將錄制的語音生成為文本,以及用于將文本反饋至終端的通訊裝置;該用戶終端與自動(dòng)語音識(shí)別處理器之間通過服務(wù)器進(jìn)行遠(yuǎn)程且選擇性控制傳輸錄制的語音文件。該技術(shù)還包括一選擇糾正器,并由該技術(shù)的業(yè)務(wù)操作員對所識(shí)別出的文本信息進(jìn)行糾錯(cuò),最后將更正后的文本信息儲(chǔ)存并反饋給用戶。但是該現(xiàn)有技術(shù)需要業(yè)務(wù)操作員識(shí)別全部文本信息,且這些文本信息均為語音識(shí)別裝置直接識(shí)別結(jié)果。一方面,全部文本信息中包含大量無意義信息,如通話過程中的問候語、助詞、語氣詞,真實(shí)有效的信息僅占其中一部分,業(yè)務(wù)操作員識(shí)別全部文本信息加重了業(yè)務(wù)操作員的工作量。另一方面,語音識(shí)別裝置直接識(shí)別結(jié)果中,一類信息為特殊名詞、專有名詞,由業(yè)務(wù)操作員負(fù)責(zé)對此類信息進(jìn)行糾錯(cuò),使得糾錯(cuò)的準(zhǔn)確率依賴于業(yè)務(wù)員的知識(shí)量,存在錯(cuò)誤糾錯(cuò)的風(fēng)險(xiǎn);另一類信息,存在一定的格式上的要求,如時(shí)間信息,可通過算法進(jìn)行自動(dòng)糾錯(cuò),若此類信息的糾錯(cuò)交由業(yè)務(wù)操作員,亦加重了業(yè)務(wù)操作員的糾錯(cuò)工作量。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提供一種基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置及方法,通過半自動(dòng)的信息校正單元,降低了人工校正的工作量;利用數(shù)據(jù)庫對特殊名詞如地名、專業(yè)工具名稱進(jìn)行校正,降低了人工校正中操作員的知識(shí)量限制所造成的影響;提取語音信息中的關(guān)鍵信息,從而提高所記錄信息的有效信息量。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的本發(fā)明涉及一種基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置,包括關(guān)鍵信息提取單元和與之相連的信息校正單元,其中關(guān)鍵信息提取單元獲取未經(jīng)校正的文本信息并提取出關(guān)鍵信息后輸出至信息校正單元,信息校正單元輸出用戶反饋確認(rèn)后的文本信息。所述的信息校正單元包括冗余信息校正模塊、時(shí)間信息校正模塊、特殊名詞校正模塊和用戶反饋確認(rèn)模塊,其中冗余信息校正模塊的輸入端與關(guān)鍵信息提取單元相連,輸出端與時(shí)間信息校正模塊相連并將冗余信息校正后的關(guān)鍵信息傳輸給輸出端;時(shí)間信息校正模塊的輸入端與冗余信息校正模塊相連,輸出端與特殊名詞校正模塊相連并將冗余信息校正、時(shí)間信息校正后的關(guān)鍵信息傳遞給輸出端;特殊名詞校正模塊的輸入端與時(shí)間信息校正模塊相連,輸出端與用戶反饋確認(rèn)模塊相連并將冗余信息校正、時(shí)間信息校正、特殊名詞校正后的關(guān)鍵信息傳遞給輸出端。用戶反饋確認(rèn)模塊的輸入端與特殊名詞校正模塊相連并將冗余信息校正、時(shí)間信息校正、特殊名詞校正后的關(guān)鍵信息經(jīng)用戶反饋確認(rèn)后輸出。所述的關(guān)鍵信息提取單元包括句法分析器模塊和分類器模塊,其中句法分析器模塊的輸入端與語音識(shí)別單元相連,輸出端與分類器模塊相連并將經(jīng)句法分析后的詞語、短語傳輸給輸出端;分類器模塊的輸入端與句法分析器模塊相連,輸出端與信息校正單元相連并將分類后的信息中的關(guān)鍵信息傳輸給輸出端。本發(fā)明涉及一種基于半自動(dòng)校正的語音關(guān)鍵信息記錄方法,包括以下步驟第一步,由用戶處獲得的語音信息通過語音識(shí)別軟件獲得語音信號(hào)所表達(dá)的未經(jīng)校正的文本信息。所述的語音識(shí)別軟件采用卡耐基梅隆大學(xué)的開源語音識(shí)別軟件Sphinx進(jìn)行自動(dòng)語音識(shí)別。第二步,關(guān)鍵信息提取單元依次對未經(jīng)校正的文本信息進(jìn)行句法分析和分類分析得到時(shí)間信息、關(guān)鍵信息詞類及特殊名詞信息,并將上述信息作為關(guān)鍵信息傳輸至輸出端。所述的句法分析是指對所獲得的未經(jīng)校正的文本信息采用句法分析器進(jìn)行句法分析,實(shí)現(xiàn)對文本信息中語句的分詞,從而將文本信息中的連續(xù)語句轉(zhuǎn)化為各種詞語和/或短語;所述的句法分析器采用斯坦福大學(xué)的開源句法分析器Stanford Parser進(jìn)行句法分析。所述的分類分析是指對分類器采用漢語詞性標(biāo)注語料庫進(jìn)行訓(xùn)練后,采用分類器先從上述詞語和/或短語中分類出時(shí)間信息及關(guān)鍵信息詞類;此后再采用常用詞庫對分類器進(jìn)行訓(xùn)練,并用分類器對關(guān)鍵信息詞類中的名詞部分,進(jìn)一部分類獲得常用詞信息與非常用詞信息;其中的非常用詞信息即為特殊名詞信息。所述的分類器采用貝葉斯文本分類器。所述的關(guān)鍵信息詞類是指名詞、動(dòng)詞、數(shù)詞、形容詞、副詞、介詞以及代詞。所述的特殊名詞信息是指名詞中的非常用詞信息部分。第三步,信息校正單元對關(guān)鍵信息依次進(jìn)行冗余信息校正、時(shí)間信息校正以及特殊名詞校正并最終得到校正后的關(guān)鍵信息,以消除語音識(shí)別過程中,由于口音以及識(shí)別單元自身性能影響所造成的識(shí)別誤差,確保信息記錄的準(zhǔn)確性。所述的冗余信息校正是指I)計(jì)算任一兩個(gè)關(guān)鍵信息A與B之間的編碼距離d (A,B)
權(quán)利要求
1.一種基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置,其特征在于,包括關(guān)鍵信息提取單元和與之相連的信息校正單元,其中關(guān)鍵信息提取單元獲取未經(jīng)校正的文本信息并提取出關(guān)鍵信息后輸出至信息校正單元,信息校正單元輸出用戶反饋確認(rèn)后的文本信息。
2.根據(jù)權(quán)利要求I所述的基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置,其特征是,所述的信息校正單元包括冗余信息校正模塊、時(shí)間信息校正模塊、特殊名詞校正模塊和用戶反饋確認(rèn)模塊,其中冗余信息校正模塊的輸入端與關(guān)鍵信息提取單元相連,輸出端與時(shí)間信息校正模塊相連并將冗余信息校正后的關(guān)鍵信息傳輸給輸出端;時(shí)間信息校正模塊的輸入端與冗余信息校正模塊相連,輸出端與特殊名詞校正模塊相連并將冗余信息校正、時(shí)間信息校正后的關(guān)鍵信息傳遞給輸出端;特殊名詞校正模塊的輸入端與時(shí)間信息校正模塊相連,輸出端與用戶反饋確認(rèn)模塊相連并將冗余信息校正、時(shí)間信息校正、特殊名詞校正后的關(guān)鍵信息傳遞給輸出端。用戶反饋確認(rèn)模塊的輸入端與特殊名詞校正模塊相連并將冗余信息校正、時(shí)間信息校正、特殊名詞校正后的關(guān)鍵信息經(jīng)用戶反饋確認(rèn)后輸出。
3.根據(jù)權(quán)利要求I所述的基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置,其特征是,所述 的關(guān)鍵信息提取單元包括句法分析器模塊和分類器模塊,其中句法分析器模塊的輸入端與語音識(shí)別單元相連,輸出端與分類器模塊相連并將經(jīng)句法分析后的詞語、短語傳輸給輸出端;分類器模塊的輸入端與句法分析器模塊相連,輸出端與信息校正單元相連并將分類后的信息中的關(guān)鍵信息傳輸給輸出端。
4.一種基于半自動(dòng)校正的語音關(guān)鍵信息記錄方法,其特征在于,包括以下步驟 第一步,由用戶處獲得的語音信息通過語音識(shí)別軟件獲得語音信號(hào)所表達(dá)的未經(jīng)校正的文本信息; 第二步,關(guān)鍵信息提取單元依次對未經(jīng)校正的文本信息進(jìn)行句法分析和分類分析得到時(shí)間信息、關(guān)鍵信息詞類及特殊名詞信息并作為關(guān)鍵信息傳輸至輸出端; 第三步,信息校正單元對關(guān)鍵信息依次進(jìn)行冗余信息校正、時(shí)間信息校正以及特殊名詞校正并最終得到校正后的關(guān)鍵信息; 第四步、信息校正單元將校正后的關(guān)鍵信息傳輸給用戶反饋確認(rèn)模塊,由用戶進(jìn)行最終確認(rèn)。
5.根據(jù)權(quán)利要求4所述的語音關(guān)鍵信息記錄方法,其特征是,所述的句法分析是指對所獲得的未經(jīng)校正的文本信息采用句法分析器進(jìn)行句法分析,實(shí)現(xiàn)對文本信息中語句的分詞,從而將文本信息中的連續(xù)語句轉(zhuǎn)化為各種詞語和/或短語。
6.根據(jù)權(quán)利要求4所述的語音關(guān)鍵信息記錄方法,其特征是,所述的分類分析是指對分類器采用漢語詞性標(biāo)注語料庫進(jìn)行訓(xùn)練后,采用分類器先從上述詞語和/或短語中分類出時(shí)間信息及關(guān)鍵信息詞類;此后再采用常用詞庫對分類器進(jìn)行訓(xùn)練,并用分類器對關(guān)鍵信息詞類中的名詞部分,進(jìn)一部分類獲得常用詞信息與非常用詞信息;其中的非常用詞信息即為特殊名詞信息。
7.根據(jù)權(quán)利要求6所述的語音關(guān)鍵信息記錄方法,其特征是,所述的分類器采用貝葉斯文本分類器。
8.根據(jù)權(quán)利要求6所述的語音關(guān)鍵信息記錄方法,其特征是,所述的關(guān)鍵信息詞類是指名詞、動(dòng)詞、數(shù)詞、形容詞、副詞、介詞以及代詞;所述的特殊名詞信息是指名詞中的非常用詞信息部分。
9.根據(jù)權(quán)利要求4所述的語音關(guān)鍵信息記錄方法,其特征是,所述的冗余信息校正是指 1)計(jì)算任一兩個(gè)關(guān)鍵信息A與B之間的編碼距離d(A,B) d(A, B) = max{\sizeof(A) -sizeof(5)|,maxj^fl2 ;I, 其中=Sizeof (X)為關(guān)鍵信息X的ASCII編碼的字節(jié)數(shù),Xi為關(guān)鍵信息X的ASCII編碼的第i個(gè)字節(jié)的數(shù)值,且若i > sizeof(X),貝U Xi = O ;當(dāng)編碼距離d(A,B) = O的關(guān)鍵信息A與關(guān)鍵信息B為相同關(guān)鍵信息,編碼距離O < d(A,B) < T的關(guān)鍵信息A與關(guān)鍵信息B則為相似關(guān)鍵信息,T相似閾值; 2)將相同關(guān)鍵信息與相似關(guān)鍵信息一起形成一個(gè)相似關(guān)鍵信息集合,當(dāng)關(guān)鍵信息C與現(xiàn)有某一個(gè)相似關(guān)鍵信息集合中任意一條關(guān)鍵信息相同,或與現(xiàn)有某一個(gè)相似關(guān)鍵信息集合中一半以上相似,則將關(guān)鍵信息C加入該關(guān)鍵信息集合; 3)在確定相似關(guān)鍵信息集合后,選取該集合中出現(xiàn)頻率最高的關(guān)鍵信息M并將該相似關(guān)鍵信息集合中其余的關(guān)鍵信息均替換為關(guān)鍵信息M。
10.根據(jù)權(quán)利要求4所述的語音關(guān)鍵信息記錄方法,其特征是,所述的時(shí)間信息校正是指 a)首先提取時(shí)間信息內(nèi)的時(shí)間信息對,并檢驗(yàn)時(shí)間信息對中的各元素,即H、M、s,是否符合二十四小時(shí)制、六十分鐘制以及六十秒制; b)當(dāng)元素不符合時(shí)間信息規(guī)格約定,則對嘗試其進(jìn)行自動(dòng)校正,若無法自動(dòng)校正,則將該時(shí)間信息認(rèn)定為識(shí)別有誤時(shí)間信息,并傳遞至用戶反饋確認(rèn)模塊進(jìn)行手動(dòng)糾錯(cuò)確認(rèn)。
11.根據(jù)權(quán)利要求10所述的語音關(guān)鍵信息記錄方法,其特征是,所述的提取是指依據(jù)關(guān)鍵信息中的“點(diǎn)”、“分”、“秒”字眼進(jìn)行分割,將“點(diǎn)”之前的認(rèn)為是時(shí)間信息對中的元素H,“點(diǎn)”與“分”之間的認(rèn)為是時(shí)間信息對中的元素M,“分”與“秒”之間的認(rèn)為是時(shí)間信息對中的元素S ;當(dāng)無法找到相應(yīng)元素,則將時(shí)間信息對中的相應(yīng)元素置為零。
12.根據(jù)權(quán)利要求4所述的語音關(guān)鍵信息記錄方法,其特征是,所述的特殊名詞校正是指將語音識(shí)別并分類后的關(guān)鍵信息中的特殊名詞信息作為檢索詞條輸出至外部數(shù)據(jù)庫資源,然后利用外部數(shù)據(jù)庫的海量數(shù)據(jù)資源及其所提供的糾錯(cuò)策略。
13.根據(jù)權(quán)利要求4所述的語音關(guān)鍵信息記錄方法,其特征是,所述的最終確認(rèn)采用短消息、語音電話和移動(dòng)網(wǎng)絡(luò)傳輸至用戶進(jìn)行反饋確認(rèn),確認(rèn)后的信息保存于用戶的終端以作備忘。
全文摘要
一種語音識(shí)別技術(shù)領(lǐng)域的基于半自動(dòng)校正的語音關(guān)鍵信息記錄裝置及方法,該裝置包括關(guān)鍵信息提取單元和與之相連的信息校正單元,其中關(guān)鍵信息提取單元獲取未經(jīng)校正的文本信息并提取出關(guān)鍵信息后輸出至信息校正單元,信息校正單元輸出用戶反饋確認(rèn)后的文本信息。本發(fā)明通過半自動(dòng)的信息校正單元,降低了人工校正的工作量;利用數(shù)據(jù)庫對特殊名詞如地名、專業(yè)工具名稱進(jìn)行校正,降低了人工校正中操作員的知識(shí)量限制所造成的影響;提取語音信息中的關(guān)鍵信息,從而提高所記錄信息的有效信息量。
文檔編號(hào)G06F17/30GK102956231SQ201110243379
公開日2013年3月6日 申請日期2011年8月23日 優(yōu)先權(quán)日2011年8月23日
發(fā)明者葉英, 孔吉, 劉佩林 申請人:上海交通大學(xué), 富士通株式會(huì)社