用于校正文本的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及語音處理,提供了一種用于校正文本的方法和系統(tǒng)。該方法包括:確定一個文本中要校正的目標(biāo)文本單元;接收用戶針對所述目標(biāo)文本單元輸入的參考語音片段;根據(jù)所述參考語音片段,確定與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元;用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字。通過本發(fā)明,可以使得用戶能夠容易地通過語音方式校正文本中的錯誤。
【專利說明】用于校正文本的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音處理,更具體地,涉及一種用于利用語音處理來校正文本的方法和系統(tǒng)。
【背景技術(shù)】
[0002]目前,隨著信息技術(shù)的快速發(fā)展,語音應(yīng)用正越來越受到工業(yè)以及學(xué)術(shù)界的關(guān)注。語音應(yīng)用使得用戶能夠采用語音搜索因特網(wǎng),或在便攜式設(shè)備上用語音進(jìn)行記錄。
[0003]雖然目前的語音識別技術(shù)的準(zhǔn)確率已經(jīng)大大提高,但受各種因素的影響,所返回結(jié)果的準(zhǔn)確性仍然遠(yuǎn)遠(yuǎn)不夠。用戶不得不手動地修改識別結(jié)果,例如,如果需要改正一個字,用戶必須雙擊這個字,采用文本輸入法輸入正確的字,這個繁復(fù)的過程會降低用戶對于使用語音軟件的興趣。一般來說,錯誤往往發(fā)生在詞匯表之外的字上或者一些專用字詞上。因此,希望提供一種方便用戶校正語音識別文本錯誤的方案。
【發(fā)明內(nèi)容】
[0004]考慮到語音識別過程中,出現(xiàn)的大量錯誤是同音異義字,或者發(fā)音相近的字,本發(fā)明提出了一種基于語音處理的校正文本的方法和系統(tǒng)。
[0005]根據(jù)本發(fā)明的一個方面,提供了一種用于校正文本的方法,包括,確定一個文本中要校正的目標(biāo)文本單元;接收用戶針對所述目標(biāo)文本單元輸入的參考語音片段;根據(jù)所述參考語音片段,確定與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元;用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字。
[0006]根據(jù)本發(fā)明的另一個方面,還提供了一種用于校正文本的系統(tǒng),包括:被配置為確定一個文本中要校正的目標(biāo)文本單元的裝置;被配置為接收用戶針對所述目標(biāo)文本單元輸入的參考語音片段的裝置;被配置為根據(jù)所述參考語音片段,確定與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元的裝置;被配置為用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字的裝置。
[0007]通過本發(fā)明,可以使得用戶能夠容易地校正文本中的錯誤。
【專利附圖】
【附圖說明】
[0008]通過結(jié)合附圖對本公開示例性實施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標(biāo)號通常代表相同部件。
[0009]圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算系統(tǒng)100的框圖。
[0010]圖2顯示了根據(jù)本發(fā)明的一個實施例的用于校正文本的方法的流程圖。
[0011]圖3顯示了根據(jù)本發(fā)明的另一個實施例的用于校正文本的方法的流程圖。
[0012]圖4顯示了根據(jù)本發(fā)明的另一個實施例的用于校正文本的方法的流程圖。
[0013]圖5顯示了根據(jù)本發(fā)明的一個實施例的用于校正文本的系統(tǒng)的方框圖?!揪唧w實施方式】
[0014]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開的優(yōu)選實施方式,然而應(yīng)該理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施方式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0015]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實現(xiàn)為系統(tǒng)、方法或計算機(jī)程序產(chǎn)品。因此,本公開可以具體實現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實施例中,本發(fā)明還可以實現(xiàn)為在一個或多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀介質(zhì)中包含計算機(jī)可讀的程序代碼。
[0016]可以采用一個或多個計算機(jī)可讀的介質(zhì)的任意組合。計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)例如可以是一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0017]計算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀的信號介質(zhì)還可以是計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0018]計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合。
[0019]可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機(jī)程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言-諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計語言-諸如”C”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機(jī)上執(zhí)行、部分地在用戶計算機(jī)上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機(jī)上部分在遠(yuǎn)程計算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算機(jī)的情形中,遠(yuǎn)程計算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)-連接到用戶計算機(jī),或者,可以連接到外部計算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0020]下面將參照本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機(jī)程序指令實現(xiàn)。這些計算機(jī)程序指令可以提供給通用計算機(jī)、專用計算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,這些計算機(jī)程序指令通過計算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行,產(chǎn)生了實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
[0021]也可以把這些計算機(jī)程序指令存儲在能使得計算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機(jī)可讀介質(zhì)中,這樣,存儲在計算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instructionmeans)的制造品(manufacture)。
[0022]也可以把計算機(jī)程序指令加載到計算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機(jī)實現(xiàn)的過程,從而使得在計算機(jī)或其它可編程裝置上執(zhí)行的指令能夠提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0023]圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
[0024]如圖1所示,計算機(jī)系統(tǒng)/服務(wù)器12以通用計算設(shè)備的形式表現(xiàn)。計算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0025]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。
[0026]計算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
[0027]系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(RAM)30和/或高速緩存存儲器32。計算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖1中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
[0028]具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
[0029]計算機(jī)系統(tǒng)/服務(wù)器12也可以與一個或多個外部設(shè)備14 (例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計算機(jī)系統(tǒng)/服務(wù)器12能與一個或多個其它計算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
[0030]現(xiàn)在參看圖2,圖2顯示了根據(jù)本發(fā)明的一個實施例的用于校正文本的方法。
[0031]在步驟S210,確定一個文本中要校正的目標(biāo)文本單元。該文本可以是任何形式的文本,例如,可以是直接來自用戶的文本輸入,也可以是對用戶輸入的語音數(shù)據(jù)的識別文本。根據(jù)本發(fā)明的一個實施例,在文本是語音數(shù)據(jù)的識別文本的情況下,該語音數(shù)據(jù)的識別文本可以是用任何現(xiàn)有技術(shù)識別生成的文本。目標(biāo)文本單元可以包括一個或多個字,應(yīng)該理解,本發(fā)明可以用于各種語言,而不局限于中文,因此本發(fā)明中的術(shù)語“字”不局限于漢語中的漢字,而是意指任何語言的一個子單元,例如英語中的單詞。例如,根據(jù)本發(fā)明的一個實施例,在中文的情況下,目標(biāo)文本單元可以是一個要校正的詞或句子,其包括一個或多個漢字?;蛘撸谟⑽牡那闆r下,目標(biāo)文本單元可以是包含一個或多個單詞的詞組或者句子。
[0032]根據(jù)本發(fā)明的一個實施例,該確定目標(biāo)文本單元的步驟可以是通過接收用戶的手動選擇來實現(xiàn)的,例如,用戶可以通過使用鼠標(biāo)或者在觸摸屏上直接選擇來確定要校正的目標(biāo)文本單元。在文本是語音數(shù)據(jù)的識別文本的情況下,識別文本往往是由所識別出的一組文本單元所組成,其中,文本單元通過單元邊界劃分。在這種情況下,根據(jù)本發(fā)明的一個實施例,可以獲得所識別出的各個文本單元的置信度,并根據(jù)置信度的值來確定要校正的目標(biāo)文本單元。例如,置信度的值越低,則表明該文本單元出現(xiàn)識別錯誤的可能性越大,因此,可以首先選擇置信度最低的文本單元進(jìn)行校正。在有些情況下,該文本不包含文本單元的單元邊界,此時,確定目標(biāo)文本單元的步驟還可以進(jìn)一步包括識別文本的文本單元的單元邊界的步驟。
[0033]在步驟S220,接收用戶針對該目標(biāo)文本單元輸入的參考語音片段。在確定了要校正的目標(biāo)文本單元之后,用戶可以針對要校正的目標(biāo)文本單元,說出一段語音片段,該語音片段可以是句子,也可以是短語,其中該參考語音片段包含針對目標(biāo)文本單元的用戶認(rèn)為是正確的文本內(nèi)容。一般來說,用戶可以選擇在語音識別中準(zhǔn)確率高的、不易出錯的短語,例如一些常用的短語,或者具有特定的上下文的短語或句子等。
[0034]在步驟S230,根據(jù)參考語音片段,確定與該目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。
[0035]根據(jù)本發(fā)明的一個實施例,對于用戶輸入的參考語音片段,首先進(jìn)行語音識別,以獲得參考文本片段,然后,利用該參考文本片段,確定其中與目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。并且,根據(jù)本發(fā)明的一個實施例,字的發(fā)音相似性可以基于字對應(yīng)的音素相似度來計算??梢岳斫猓诒菊f明書中,發(fā)音相似也包括發(fā)音相同的情況。
[0036]根據(jù)本發(fā)明的一個實施例,在確定參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元時,可以首先基于發(fā)音相似性,確定該參考文本片段中的至少一個字與所述目標(biāo)文本單元中的至少一個字的對應(yīng)關(guān)系,然后,根據(jù)該對應(yīng)關(guān)系,確定對應(yīng)于所述目標(biāo)文本單元的至少一個字的參考文本單元。
[0037]根據(jù)本發(fā)明的一個實施例,該確定參考文本單元的步驟還可以通過直接將參考語音片段與目標(biāo)文本單元的發(fā)音進(jìn)行比較來確定二者間的對應(yīng)關(guān)系。例如,基于發(fā)音相似性,可以確定所述參考語音片段中與所述目標(biāo)文本單元中的字發(fā)音相似的語音子片段。同時,通過對所述參考語音片段進(jìn)行語音識別,可以獲得參考文本片段。此時,在參考文本片段中則包含了對應(yīng)于該語音子片段的參考文本單元。因此,可以從所述參考文本片段中獲得對應(yīng)于所述語音子片段的參考文本單元。
[0038]在步驟S240,用參考文本單元校正該文本中的目標(biāo)文本單元中的至少一個字。
[0039]由于用戶可以選擇在語音識別中準(zhǔn)確率高的、不易出錯的短語或完整語義單元作為參考語音片段,因此經(jīng)過語音識別后的參考文本片段,其文本的準(zhǔn)確率相對來說是比較高的。在這種情況下,用準(zhǔn)確率比較高的參考文本單元來校正目標(biāo)文本單元,則可以有效提高文本校正的準(zhǔn)確率及效率。
[0040]根據(jù)本發(fā)明的一個實施例,在存在多個可選的參考文本單元的情況下,還可以根據(jù)參考文本單元的置信度,自動選擇具有較高置信度的字,或者向用戶進(jìn)行推薦,也可以由用戶進(jìn)行進(jìn)一步的選擇。
[0041]根據(jù)本發(fā)明的一個實施例,在參考文本片段中,可以包括多個與目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。也就是說,為了進(jìn)一步提高語音識別的準(zhǔn)確率,用戶對于目標(biāo)文本單元中的同一個字,可以給出多個不同的提示。例如,對于目標(biāo)識別單元中的“音”字來說,用戶可以同時說出“音樂”、“語音”、“聲音”等多個詞。在這種情況下,通過語音識別,可能識別出“音”和“英”兩個備選參考。此時,可以選擇所述多個參考文本單元中的一個,來校正所述目標(biāo)文本單元中的至少一個字。該選擇可以由用戶手動選擇,也可以由系統(tǒng)自動進(jìn)行選擇。例如,對于該多個參考文本單元,可以根據(jù)語音識別的情況給出相應(yīng)的置信度,將置信度最高的一個參考文本單元作為最終的參考文本單元來校正目標(biāo)文本單元中的至少一個字。
[0042]根據(jù)本發(fā)明的一個實施例,在用戶輸入的參考語音片段中,可以包括對應(yīng)于要校正的目標(biāo)文本單元中所包含的每一個字的內(nèi)容,也可以只包括對應(yīng)于其中的部分字的內(nèi)容,并且,這些內(nèi)容在參考語音片段中的順序及先后關(guān)系,也可以不同于其所對應(yīng)的字在目標(biāo)文本單元中的順序及先后關(guān)系。
[0043]下面將以一個中文文本為例來說明根據(jù)本發(fā)明的一個實施例的方法。
[0044]首先,用戶希望通過語音方式輸入如下語句:“星期五語音組去香木香羊聚餐,大家于上午九點在西二旗城鐵集合”,在接收到用戶的語音輸入之后,對該輸入進(jìn)行語音識另O。然而,受到語音識別準(zhǔn)確性的限制,語音識別后的結(jié)果為:“星期五I直莖組I去I皿H聚餐,大家I于I上午九點I在I西二ILI城鐵I集合”。在該語音識別結(jié)果中,出現(xiàn)了幾個錯誤:“育英組”(應(yīng)為“語音組”)、“項目象牙”(應(yīng)為“香木香羊”)、“西二期”(應(yīng)為“西二旗”)。
[0045]此時,在存在多個錯誤的情況下,用戶可以通過手動選擇的方式,來選擇要校正的詞。例如,用戶可以通過在觸摸屏上以畫圈的方式,將“育英組”圈定出來,確定為要校正的詞。也可以直接利用語音識別后所提供的詞邊界,對要校正的詞進(jìn)行選擇。
[0046]然后,用戶以語音方式說出句子“語言和音樂相組合”,在該句子中,包含了與“育英組”的語音“yuyinzu”具有相似語音的音節(jié)“yu”、“yin”、“zu”。由于“語言”、“音樂”、“組合”等都是字庫中的常用詞,此時,可以準(zhǔn)確地將用戶輸入的語音識別為文本“語言和音樂相組合”,從而根據(jù)發(fā)音相似性相應(yīng)地確定“yu”、“yin”、“zu”分別對應(yīng)于文本“語”、“音”、“組”,從而將“育英組”校正為“語音組”。
[0047]同樣,對于“項目象牙”,其正確的文本應(yīng)為“香木香羊”。在用戶選定了“項目象牙”之后,用戶說出短語“香味木頭和帶香味的羊”,從而根據(jù)發(fā)音相似性確定“xiang”、“mu”、“xiang”、“yang”分別對應(yīng)于文本“香”、“木”、“香”、“羊”,從而將“項目象牙”校正為“香木
香羊”。
[0048]同樣,對于“西二期”,其正確的文本應(yīng)為“西二旗”。在用戶選定了“西二期”之后,用戶說出短語“紅旗飄飄”,根據(jù)發(fā)音相似性確定發(fā)音“qi ”對應(yīng)于文本“旗”,從而將“西二期”校正為“西二旗”。
[0049]根據(jù)本發(fā)明的一個實施例,用戶輸入的參考語音片段可以是針對目標(biāo)文本單元中的所有字,也可以只針對其中的部分字。例如,在這個例子中,雖然所確定的目標(biāo)文本單元是“西二期”,包括三個字,用戶輸入的參考語音片段“紅旗飄飄”也可以只針對其中的“期”字。
[0050]根據(jù)本發(fā)明的一個實施例,可以采用本領(lǐng)域任何適當(dāng)?shù)募夹g(shù)來實現(xiàn)用戶輸入的參考語音與目標(biāo)文本單元的發(fā)音相似性的比較。例如,可以基于音素相似度,找到參考語音所對應(yīng)的參考文本中與目標(biāo)文本單元的發(fā)音相似的單元。
[0051]下面將以要校正的目標(biāo)文本單元“育英組”以及對應(yīng)的參考語音片段“語言和音樂相組合”為例,參考圖3詳細(xì)描述圖2中步驟S230的一個實施方式。圖3示意性地示出了根據(jù)參考語音片段確定與要校正的目標(biāo)文本單元的字發(fā)音相似的參考文本單元的過程。
[0052]在步驟S310,對參考語音片段進(jìn)行語音識別,以獲得參考文本片段。例如,對于用戶輸入的參考語音片段,獲得相應(yīng)的參考文本片段“語言和音樂相組合”。
[0053]在步驟S320,解析該參考文本片段對應(yīng)的音素以及該目標(biāo)文本單元對應(yīng)的音素。在該解析過程中,可以將每個漢字分別拆分為聲母部分、即第一音素,和韻母部分、即第二音素。對于含雙韻母的漢字,可以利用已知的相應(yīng)技巧將其拆分成兩個部分。以漢字“音”和“英”為例,漢字“音”的拼音為是“YIN”,可以分解為兩個音素,“Y”和“IN”。漢字“英”的拼音是“YING”,可以分解為兩個音素,“Y”和“ ING”。
[0054]例如,對于目標(biāo)文本單元“育英組”以及參考文本片段“語言和音樂相組合”,其音素序列如下:
[0055]目標(biāo)文本單元:Y U Y ING Z U
[0056]參考文本片段:ΥU Y AN H E Y IN Y UE X IANG Z U H Ε。
[0057]在步驟S330中,基于音素相似度,確定參考文本片段中與目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。
[0058]應(yīng)該理解,音素是某一種語言的語音體系中的最小單元。不同的語言或方言具有不同的音素體系。例如,漢語和英語具有不同的音素體系,東北話和上海話也具有不同的音素體系。各語言的音素體系中音素的多寡相差甚多,有十幾個的,也有多到一百多的,但都是有限的數(shù)目。在各自的語言中,音素與音素之間的相似程度是不一樣的。
[0059]例如,在漢語拼音中,音素“ ING”和音素“ IN”相似,但是和音素“Α0”不相似。在本發(fā)明的方法中,可以基于音素相似度,找出參考語音與目標(biāo)文本單元中具有相似音素的文本單元。[0060]以漢字“音”和“英”為例,漢字“音”的拼音為是“YIN”,可以分解為兩個音素,“Y”和“IN”。漢字“英”的拼音是“YING”,可以分解為兩個音素,“Y”和“ING”。然后,比較這兩個漢字的音素的相似度。如果這兩個漢字的兩個音素都分別相同或相似,則認(rèn)為這兩個漢字的音素相似,否則,則認(rèn)為這兩個漢字的音素不相似。在該例子中,它們的第一個音素“Y”是相同的。它們的第二個音素“IN”和“ING”不相同,但是相似。因此,可以認(rèn)為這兩個漢字“英”和“印”的音素相似。從而,基于音素相似度,識別出參考語音片段與目標(biāo)文本單元中發(fā)音相似的部分。
[0061]應(yīng)該理解,基于音素相似度的匹配可以采用各種已知的算法,例如動態(tài)時間規(guī)整DTW算法、最小單元匹配法、動態(tài)規(guī)劃算法等。
[0062]其中,不同音素之間的音素相似度可以預(yù)先確定。例如,可以用歐式距離或者巴特查里亞距離來度量音素相似性。容易理解,在以距離度量音素相似度的情況下,音素模型距離值越大表示相似程度越小。音素相似度還可以簡單地以相似和不相似的二值判定來度量。
[0063]應(yīng)該理解,所述音素相似度的度量可以預(yù)先確定。在本發(fā)明的方法中,可以簡單地通過查找預(yù)先確定的音素相似性表或者數(shù)據(jù)庫來找到音素相似度。
[0064]基于音素相似度,對任意兩個給定漢字,根據(jù)下面的方法來計算字的發(fā)音相似度:將兩個漢字的第一音素的相似度(距離)加上第二音素的相似度(距離),其和即為這兩個漢字的發(fā)音相似度(距離)。當(dāng)然,也可以將約化后的平均單音素相似度來表示字的相似度。也即,將兩個漢字的音素相似度的和除以音素數(shù)目2作為這兩個漢字的發(fā)音相似度。為了簡單起見,在本實施方式中,以各音素的相似度之和為兩個漢字的發(fā)音相似度。
[0065]為了簡單起見,在本例子中未考慮聲調(diào)對音素相似性帶來的影響。在所示實施方式的啟發(fā)下,本領(lǐng)域技術(shù)人員可以方便地將本發(fā)明的方法擴(kuò)展到包含音調(diào)的情況,以應(yīng)對高精度需求。
[0066]DTff算法的原理是現(xiàn)有技術(shù)中已知的,在所示出的實施方式的教導(dǎo)下,本領(lǐng)域技術(shù)人員容易想到還可以使用DTW算法的其他實現(xiàn)方式來找到目標(biāo)文本與參考文本之間的最佳匹配路徑。
[0067]在這里,目標(biāo)文本單元中的字“育”的音素“Y U”與參考文本片段中的字“語”的音素“Y U”相同,從而確定目標(biāo)文本單元中的字“英”與參考文本片段中的字“音”對應(yīng),目標(biāo)文本單元中的字“英”的音素“Y ING”與參考文本片段中的字“音”的音素“Y IN”相似,從而確定目標(biāo)文本單元中的字“英”與參考文本片段中的字“音”對應(yīng),目標(biāo)文本單元中的字“組”的音素“Z U”與參考文本片段中的字“組”的音素“Y U”相同,從而確定目標(biāo)文本單元中的字“組”與參考文本片段中的字“組”對應(yīng)。根據(jù)所確定的對應(yīng)關(guān)系,從而確定對應(yīng)于目標(biāo)文本單元的至少一個字的參考文本單元。在這里,所確定的參考文本單元即為“語音組”。
[0068]上文示出了本發(fā)明應(yīng)用于中文的一個【具體實施方式】。但是應(yīng)該理解,本發(fā)明的方法可以應(yīng)用于任何語言?;痉椒ǘ际且宰只騿卧~為基本單元,然后依據(jù)基本單元之間的發(fā)音相似度,確定參考文本與目標(biāo)文本之間的對應(yīng)關(guān)系。其區(qū)別僅在于基本單元的發(fā)音相似度計算稍有不同。例如,中文以漢字為基本單元。每個漢字在聲韻母音標(biāo)體系下都包含兩個音素(可看成聲母部分和韻母部分)。因此漢字間的相似度可以用聲母相似度與韻母相似度之和來表示。但是,更一般地,在其他語言中,基本單位包含的音素數(shù)目可能不一樣。例如,英語中以單詞為基本單位。不同的單詞含有的音素數(shù)目往往不同。在這種情況下,可以先通過DTW算法找出兩個單詞之間的最佳音素匹配方式,而后計算單詞的發(fā)音相似度。對于不同的語言,本發(fā)明的方法的其余步驟相同。
[0069]下面參考圖4詳細(xì)描述圖2中步驟S230的另一個實施方式。與步驟S310 —樣,在步驟S410,對參考語音片段進(jìn)行語音識別,以獲得參考文本片段。
[0070]在步驟S420,基于發(fā)音相似性,確定參考語音片段中與目標(biāo)文本單元中的字發(fā)音相似的語音子片段。通過將用戶輸入的參考語音片段與目標(biāo)文本單元中的字的發(fā)音進(jìn)行比較,可以確定目標(biāo)文本單元中的字與參考語音片段中的至少一個語音子片段的對應(yīng)關(guān)系。
[0071]在步驟S430,從參考文本片段中獲得對應(yīng)于語音子片段的參考文本單元。由于語音識別后的參考文本片段中包括了對應(yīng)于語音子片段的參考文本單元。因此,在這種情況下,根據(jù)目標(biāo)文本單元中的字與該語音子片段的對應(yīng)關(guān)系以及參考文本單元與該語音子片段的對應(yīng)關(guān)系,可以獲得用來校正目標(biāo)文本單元中的字的參考文本單元。
[0072]可以理解,對于同一個要校正的目標(biāo)文本單元,為了進(jìn)一步提高校正的準(zhǔn)確率,用戶也可以多次輸入不同的參考語音片段。對于每個參考語音片段,分別將其與目標(biāo)文本單元進(jìn)行比較,獲得相應(yīng)的參考文本單元,并根據(jù)所獲得的多個參考文本單元,確定最終的用于校正目標(biāo)文本單元的參考文本單元。
[0073]本發(fā)明并不限于對語音數(shù)據(jù)的識別文本的校正,只要文本中的錯誤是由于具有相近或相同發(fā)音的字所導(dǎo)致的,都可以適用于本發(fā)明。例如,在漢字的拼音輸入法中,常常會由于拼音相同或相近導(dǎo)致錯誤的文本輸入,在這種情況下,也可以使用本發(fā)明的方法來校正文本。另外,本發(fā)明的校正方法也可以與其他文本校正方法結(jié)合使用,以便進(jìn)一步提高準(zhǔn)確率以及效率。
[0074]圖5示意性地示出了根據(jù)本發(fā)明一個實施方式的用于校正文本的系統(tǒng)500的框圖。系統(tǒng)500用于執(zhí)行前文所述的本發(fā)明的用于校正文本的方法。系統(tǒng)500包括:目標(biāo)文本單元確定裝置510、參考語音片段接收裝置520、參考文本單元確定裝置530、目標(biāo)文本單元校正裝置540。
[0075]根據(jù)本發(fā)明的一個實施例,目標(biāo)文本單元確定裝置510被配置為確定一個文本中要校正的目標(biāo)文本單元,參考語音片段接收裝置520被配置為接收用戶針對所述目標(biāo)文本單元輸入的參考語音片段,參考文本單元確定裝置530被配置為根據(jù)所述參考語音片段,確定與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元,目標(biāo)文本單元校正裝置540被配置為用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字。
[0076]根據(jù)本發(fā)明的一個實施例,所述文本是語音數(shù)據(jù)的識別文本。
[0077]根據(jù)本發(fā)明的一個實施例,參考文本單元確定裝置530包括語音識別裝置550,其被配置為對參考語音片段進(jìn)行語音識別,以獲得參考文本片段,以及參考文本單元確定裝置530進(jìn)一步被配置為確定所述參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。
[0078]根據(jù)本發(fā)明的一個實施例,參考文本單元確定裝置530進(jìn)一步包括音素解析裝置560,其被配置為解析所述參考文本片段對應(yīng)的音素以及所述目標(biāo)文本單元對應(yīng)的音素,其中,參考文本單元確定裝置530進(jìn)一步被配置為基于音素相似度,確定所述參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。[0079]根據(jù)本發(fā)明的一個實施例,參考文本單元確定裝置530進(jìn)一步包括語音識別裝置550,其被配置為對所述參考語音片段進(jìn)行語音識別,以獲得參考文本片段,其中,參考文本單元確定裝置530進(jìn)一步被配置為基于發(fā)音相似性,確定所述參考語音片段中與所述目標(biāo)文本單元中的字發(fā)音相似的語音子片段,以及,從所述參考文本片段中獲得對應(yīng)于所述語音子片段的參考文本單元。
[0080]根據(jù)本發(fā)明的一個實施例,其中,所確定的參考文本單元為多個參考文本單元,其中,參考文本單元確定裝置530進(jìn)一步被配置為接收用戶對于所述多個參考文本單元中的一個的選擇,用于校正所述目標(biāo)文本單元中的至少一個字。
[0081]根據(jù)本發(fā)明的一個實施例,所確定的參考文本單元為多個參考文本單元,其中,目標(biāo)文本單元校正裝置540進(jìn)一步被配置為根據(jù)所述多個參考文本單元的置信度,選擇用于校正所述目標(biāo)文本單元中的字的參考文本單元。
[0082]根據(jù)本發(fā)明的一個實施例,該系統(tǒng)500進(jìn)一步包括邊界識別裝置570,其被配置為識別所述文本的文本單元的單元邊界。
[0083]根據(jù)本發(fā)明的一個實施例,目標(biāo)文本單元確定裝置520進(jìn)一步被配置為:接收用戶對于所述文本中的文本單元的選擇,以確定要校正的目標(biāo)文本單元。
[0084]根據(jù)本發(fā)明的一個實施例,目標(biāo)文本單元確定裝置520進(jìn)一步被配置為獲得所述語音數(shù)據(jù)的識別文本中的文本單元的置信度;以及根據(jù)所述置信度確定要校正的目標(biāo)文本單元。
[0085]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
[0086]以上已經(jīng)描述了本發(fā)明的各實施例,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實施例。在不偏離所說明的各實施例的范圍和精神的情況下,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨在最好地解釋各實施例的原理、實際應(yīng)用或?qū)κ袌鲋械募夹g(shù)的技術(shù)改進(jìn),或者使本【技術(shù)領(lǐng)域】的其它普通技術(shù)人員能理解本文披露的各實施例。
【權(quán)利要求】
1.一種用于校正文本的方法,包括: 確定一個文本中要校正的目標(biāo)文本單元; 接收用戶針對所述目標(biāo)文本單元輸入的參考語音片段; 根據(jù)所述參考語音識別片段,確定與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元; 用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字。
2.如權(quán)利要求1所述的方法,其中,所述文本是語音數(shù)據(jù)的識別文本。
3.如權(quán)利要求1所述的方法,其中,根據(jù)所述參考語音片段,確定與所述目標(biāo)文本單元的字發(fā)音相似的參考文本單元包括: 對所述參考語音片段進(jìn)行語音識別,以獲得參考文本片段; 確定所述參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。
4.如權(quán)利要求3所述的方法,確定所述參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元包括: 解析所述參考文本片段對應(yīng)的音素以及所述目標(biāo)文本單元對應(yīng)的音素; 基于音素相 似度,確定所述參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。
5.如權(quán)利要求1所述的方法,其中,根據(jù)所述參考語音片段,確定與所述目標(biāo)文本單元的字發(fā)音相似的參考文本單元包括: 對所述參考語音片段進(jìn)行語音識別,以獲得參考文本片段; 基于發(fā)音相似性,確定所述參考語音片段中與所述目標(biāo)文本單元中的字發(fā)音相似的語音子片段; 從所述參考文本片段中獲得對應(yīng)于所述語音子片段的參考文本單元。
6.如權(quán)利要求1至5中任何一個所述的方法,其中,所確定的參考文本單元為多個參考文本單元,其中,用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字進(jìn)一步包括: 接收用戶對于所述多個參考文本單元中的一個的選擇,用于校正所述目標(biāo)文本單元中的至少一個字。
7.如權(quán)利要求1至5中任何一個所述的方法,其中,所確定的參考文本單元為多個參考文本單元,其中,用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字進(jìn)一步包括: 根據(jù)所述多個參考文本單元的置信度,選擇用于校正所述目標(biāo)文本單元中的字的參考文本單元。
8.如權(quán)利要求1所述的方法,進(jìn)一步包括:識別所述文本的文本單元的單元邊界。
9.如權(quán)利要求1所述的方法,其中,確定所述文本中要校正的目標(biāo)文本單元包括:接收用戶對于所述文本中的文本單元的選擇,以確定要校正的目標(biāo)文本單元。
10.如權(quán)利要求2所述的方法,其中,確定所述文本中要校正的目標(biāo)文本單元包括: 獲得所述語音數(shù)據(jù)的識別文本中的文本單元的置信度;以及 根據(jù)所述置信度確定要校正的目標(biāo)文本單元。
11.一種用于校正文本的系統(tǒng),包括:目標(biāo)文本單元確定裝置,被配置為確定一個文本中要校正的目標(biāo)文本單元; 參考語音片段接收裝置,被配置為接收用戶針對所述目標(biāo)文本單元輸入的參考語音片段; 參考文本單元確定裝置,被配置為根據(jù)所述參考語音片段,確定與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元; 目標(biāo)文本單元校正裝置,被配置為用所述參考文本單元校正所述文本中的所述目標(biāo)文本單元中的字。
12.如權(quán)利要求11所述的系統(tǒng),其中,所述文本是語音數(shù)據(jù)的識別文本。
13.如權(quán)利要求11所述的系統(tǒng),其中,參考文本單元確定裝置包括: 語音識別裝置,被配置為對所述參考語音片段進(jìn)行語音識別,以獲得參考文本片段, 其中,參考文本單元確定裝置進(jìn)一步被配置為確定所述參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。
14.如權(quán)利要求13所述的系統(tǒng),參考文本單元確定裝置進(jìn)一步包括: 音素解析裝置,被配置為解析所述參考文本片段對應(yīng)的音素以及所述目標(biāo)文本單元對應(yīng)的音素; 其中,參考文本單元確定裝置進(jìn)一步被配置為基于音素相似度,確定所述參考文本片段中與所述目標(biāo)文本單元中的字發(fā)音相似的參考文本單元。
15.如權(quán)利要求11所述·的系統(tǒng),其中,參考文本單元確定裝置包括: 語音識別裝置,被配置為對所述參考語音片段進(jìn)行語音識別,以獲得參考文本片段, 其中,參考文本單元確定裝置進(jìn)一步被配置為基于發(fā)音相似性,確定所述參考語音片段中與所述目標(biāo)文本單元中的字發(fā)音相似的語音子片段,以及, 從所述參考文本片段中獲得對應(yīng)于所述語音子片段的參考文本單元。
16.如權(quán)利要求11至15中任何一個所述的系統(tǒng),其中,所確定的參考文本單元為多個參考文本單元,其中,參考文本單元確定裝置進(jìn)一步被配置為接收用戶對于所述多個參考文本單元中的一個的選擇,用于校正所述目標(biāo)文本單元中的至少一個字。
17.如權(quán)利要求11至15中任何一個所述的系統(tǒng),其中,所確定的參考文本單元為多個參考文本單元,其中,目標(biāo)文本單元校正裝置進(jìn)一步被配置為: 根據(jù)所述多個參考文本單元的置信度,選擇用于校正所述目標(biāo)文本單元中的字的參考文本單元。
18.如權(quán)利要求11所述的系統(tǒng),進(jìn)一步包括:邊界識別裝置,被配置為識別所述文本的文本單元的單元邊界。
19.如權(quán)利要求11所述的系統(tǒng),其中,目標(biāo)文本單元確定裝置進(jìn)一步被配置為:接收用戶對于所述文本中的文本單元的選擇,以確定要校正的目標(biāo)文本單元。
20.如權(quán)利要求12所述的系統(tǒng),其中,目標(biāo)文本單元確定裝置進(jìn)一步被配置為獲得所述語音數(shù)據(jù)的識別文本中的文本單元的置信度;以及根據(jù)所述置信度確定要校正的目標(biāo)文本單元。
【文檔編號】G06F17/27GK103714048SQ201210375808
【公開日】2014年4月9日 申請日期:2012年9月29日 優(yōu)先權(quán)日:2012年9月29日
【發(fā)明者】張世磊, 劉 文, 包勝華, 陳健, 施琴, 蘇中, 秦勇 申請人:國際商業(yè)機(jī)器公司