專利名稱:提高文字、語音識(shí)別的準(zhǔn)確率的方法和裝置及自動(dòng)翻譯系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù),特別涉及文字識(shí)別和語音識(shí)別技術(shù)。
背景技術(shù):
文字識(shí)別和語音識(shí)別技術(shù)已經(jīng)被人們熟知和廣泛使用。目前市場上可以買到文字識(shí)別工具,例如,有眾多廠家和版本的OCR軟件、手寫識(shí)別系統(tǒng)等等;和語音識(shí)別軟件,例如,有IBM公司的ViaVoiceTM、Microsoft的Office XPTM中的語音識(shí)別功能等等。
在以往的文字和語音識(shí)別技術(shù)中,往往是根據(jù)字(word)的字形或發(fā)音特征(或者對(duì)于西文根據(jù)字母或單詞字形或發(fā)音特征),進(jìn)行識(shí)別從而提取出最接近的一個(gè)或多個(gè)候選字(或單詞),然后由用戶選擇或自動(dòng)選擇形成識(shí)別結(jié)果。
但是,由于自然語言中許多字/詞的字形和發(fā)音非常接近、或者由于用戶的發(fā)音或書寫不清楚、作為被處理的原始圖像或語音質(zhì)量低等等原因,以往的文字和語音識(shí)別技術(shù)無法非常準(zhǔn)確地進(jìn)行識(shí)別,識(shí)別率都不是非常高。
發(fā)明內(nèi)容
為此,本發(fā)明的一個(gè)方面,提供了一種提高文字識(shí)別的準(zhǔn)確率的方法,包括文字識(shí)別得到一個(gè)字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及將所述句義表達(dá)式展開。
本發(fā)明的另一個(gè)方面,提供了一種提高語音識(shí)別的準(zhǔn)確率的方法,包括語音識(shí)別得到一個(gè)字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及將所述句義表達(dá)式展開。
本發(fā)明的另一個(gè)方面,提供了一種自動(dòng)翻譯的方法,包括文字識(shí)別得到一個(gè)字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示,將所述句義表達(dá)式展開。
本發(fā)明的另一個(gè)方面,提供了一種自動(dòng)翻譯的方法,包括語音識(shí)別得到一個(gè)字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示,將所述句義表達(dá)式展開。
本發(fā)明的另一個(gè)方面,提供了一種提高文字識(shí)別的準(zhǔn)確率的裝置,用于提高文字識(shí)別結(jié)果的準(zhǔn)確率,所述文字識(shí)別結(jié)果包含一個(gè)字集串,該提高文字識(shí)別的準(zhǔn)確率的裝置包括語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用原始語種的語義表示展開,從而得到準(zhǔn)確的識(shí)別結(jié)果。
本發(fā)明的另一個(gè)方面,提供了一種提高語音識(shí)別的準(zhǔn)確率的裝置,用于提高語音識(shí)別結(jié)果的準(zhǔn)確率,所述語音識(shí)別結(jié)果包含一個(gè)字集串,該提高語音識(shí)別的準(zhǔn)確率的裝置包括語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;以及句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用原始語種的語義表示展開,從而得到準(zhǔn)確的識(shí)別結(jié)果。
本發(fā)明的另一個(gè)方面,提供了一種自動(dòng)翻譯系統(tǒng),包括文字識(shí)別裝置,用于識(shí)別原始語種的文字信息,生成包含字集串的識(shí)別結(jié)果;語義單元表示庫,至少記錄有原始語種和目標(biāo)語種的語義單元表示;語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示展開,從而得到譯文。
本發(fā)明的另一個(gè)方面,提供了一種自動(dòng)翻譯系統(tǒng),包括語音識(shí)別裝置,用于識(shí)別輸入的語音信息,生成包含字集串的識(shí)別結(jié)果;語義單元表示庫,至少記錄有原始語種和目標(biāo)語種的語義單元表示;語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示展開,從而得到譯文。
相信通過以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的方法的流程圖;
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的方法中剪枝過程的詳細(xì)流程圖;圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的方法中剪枝過程的詳細(xì)流程圖;圖4是展示根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的裝置的結(jié)構(gòu)的方塊圖;圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)翻譯的方法的流程圖;圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高語音識(shí)別的準(zhǔn)確率的方法的流程圖;圖7是展示根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)翻譯的方法的結(jié)構(gòu)的方塊圖;以及圖8是根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)翻譯系統(tǒng)的流程圖。
具體實(shí)施例方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
本發(fā)明的實(shí)施例中涉及到的一些技術(shù)術(shù)語和技術(shù)內(nèi)容在以下的參考文獻(xiàn)中已經(jīng)進(jìn)行了描述,它們的全部內(nèi)容被包含于此,以供參考。
(1)2001年12月27日提交的發(fā)明名稱為“基于語義語言的機(jī)器翻譯系統(tǒng)及方法”的中國專利申請(qǐng)No.01131689.6。
(2)2003年11月14日提交的發(fā)明名稱為“句義表達(dá)式的生成方法、機(jī)器翻譯及電子詞典”的中國專利申請(qǐng)No.200310114331.X。
提高文字識(shí)別的準(zhǔn)確率的方法圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的方法的流程圖。下面就參照該圖對(duì)該實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的方法進(jìn)行說明。
首先在步驟101,文字識(shí)別得到一個(gè)字集串A1,A2,…,Ak,其中一個(gè)字集Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni。如前面所述,現(xiàn)有的文字識(shí)別工具(例如,OCR軟件、在線手寫識(shí)別系統(tǒng)等)都是利用字形特征、筆劃及筆順特征等對(duì)掃描得到的或用戶在線輸入得到的特征數(shù)據(jù)進(jìn)行識(shí)別,從而得到一個(gè)字集串A1,A2,…,Ak。其中,每一個(gè)字集Ai={ai1,ai2,…,aini},(aij是字,i=1,2,…,k,j=1,2,…,ni)是針對(duì)被處理的特征數(shù)據(jù)中一個(gè)字的最接近的一個(gè)或多個(gè)候選字。并且,通常通過調(diào)節(jié)參數(shù)可以增加或減少候選字的個(gè)數(shù)。這些對(duì)于本領(lǐng)域技術(shù)人員是已知的。在此,上述字集串A1,A2,…,Ak應(yīng)當(dāng)是表示一個(gè)句子的字集串。
接著在步驟105,從字集串中取出一個(gè)字集Ai。在本實(shí)施中,按照字集串A1,A2,…,Ak的順序,依次取出字集。
接著在步驟110,根據(jù)語義單元表示樹索引庫,為該字集提取以該字為實(shí)量開始的語義單元表示樹集。
下面,先對(duì)語義單元表示樹索引庫進(jìn)行說明。如中國專利申請(qǐng)No.01131689.6中說明的那樣,語義單元表示庫是記錄一種或多種自然語言的語義表示的數(shù)據(jù)集合。通常在語義單元表示庫中包含有每個(gè)語義單元對(duì)應(yīng)的兩個(gè)或兩個(gè)以上語種的語義單元表示、語義單元類型以及語義單元的虛量(參數(shù)部分)的類型要求(如果有虛量的話),下面的表1示例性地列舉了一個(gè)多語種語義單元表示庫的內(nèi)容,當(dāng)然,本領(lǐng)域技術(shù)人員可以作出各種變化,本發(fā)明對(duì)此沒有特別限定。在本實(shí)施例中,作為語義單元表示,只由于被識(shí)別的語種對(duì)應(yīng)的一種語義表示即可。
表1.多語種語義單元表示庫的示例
語義單元表示樹索引庫則是按照所述語義單元表示庫中所述原始語種語義單元的表示中實(shí)量的順序,為所述語義單元表示庫編制的語義單元表示樹。下面的表2示例性地展示了在語義單元表示樹索引庫中內(nèi)容的示例,其中包含了一個(gè)以“more”為實(shí)量開始的語義單元表示樹。
表2.語義單元表示樹索引庫的示例
再V一些N;VN2J,而且J;JSL多;SL比N2的多;S比J的多;毫不<猶疑>地V;非N所能描述;N數(shù)不清的;越來越多;越來越<a>;更多更好地位高貴和低賤的人死于酒者多于溺于水者;加油干;貧賤夫妻;有勇無謀;空喊而不做實(shí)事;疲勞不堪;傷不重,嚇倒不??;杞人憂天害多益少;破爛不堪;名不符實(shí);言外有意;意在言外;S大半都J-S;SL左右;十分無禮|非常勇敢;杞人憂天;太多了;不只一次;特別會(huì)V;非常高興;
出乎意外地令人滿意完全沒有睡著;完全沒有睡著;比N卓卓有余;人多熱鬧,人少多吃或多或少;欲速而不達(dá);法律愈多,犯人就愈多;口角;大約;不關(guān)你的事;N的前途暗礁重重;前途暗礁重重;加油干;加油堆上去;相當(dāng)F;比N2多的N;比J多的N;A比A2多;根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,為了提高在后面描述的剪枝過程的效率,在編制語義單元表示樹索引庫時(shí),對(duì)于那些語義單元表示中包含由一個(gè)虛量隔開的兩個(gè)或多個(gè)實(shí)量串的語義單元,或者換句話說對(duì)于那些在語義單元表示中虛量和實(shí)量交替出現(xiàn)的語義單元,進(jìn)一步以該語義單元表示中后面一個(gè)實(shí)量串開始的部分作為“子樹”加到語義單元表示樹索引庫中。
具體地說明,下面的表3列舉了一些語義單元表示的可能形式。
表3.語義單元表示可能形式的示例
(其中實(shí)量串-S,虛量串-X,不同語言的語義單元表示形式可能一樣)下面的表4~6舉例說明了以語義單元表示中后面一個(gè)實(shí)量串開始的部分作為“子樹”加到語義單元表示樹索引庫中的情況。
表4.需要進(jìn)一步處理的語義單元
比N2的多;非N所能描述;N數(shù)不清的;N的前途暗礁重重;比N2多的N;比J多的N;A比A2多;將表4的各個(gè)語義單元處理成為以下一棵主樹和一個(gè)子樹集表5.主樹集
比N2的多;非N所能描述;N數(shù)不清的;N的前途暗礁重重;比N2多的N;比J多的N;A比A2多;表6.子樹集(若干棵子樹)
進(jìn)而,在本發(fā)明中,語義單元表示庫也可以由語義單元表述樹索引庫所代替(如果語義單元表述樹中包含了足夠的屬性的話)。
在本步驟中,具體地,在語義單元表示樹索引庫中將以該字集Ai={ai1,ai2,…,ain}為實(shí)量開始的所有語義單元連續(xù)提取出即可。
接著在步驟115,對(duì)于已經(jīng)提取出的語義單元表示樹集進(jìn)行剪枝,從而減少各個(gè)提取出的語義單元表示樹集中剩余的語義單元,并且隨著該字集串中更多字被用于剪枝處理,最終希望每個(gè)字集對(duì)應(yīng)的語義單元表示樹集中都只剩下一個(gè)語義單元。具體地,剪枝過程分為實(shí)量剪枝和虛量剪枝,在后面將逐個(gè)進(jìn)行詳細(xì)說明。
接著在步驟120,判斷是否該字集串中的全部字集已經(jīng)被取出處理過了。如果沒有全部處理完,則返回到步驟105取出該字集串中下一個(gè)字集;如果全部處理完畢,則進(jìn)行到步驟125。
在步驟125,根據(jù)剪枝剩下的語義單元求出句義表達(dá)式。具體地,通過將剩下的語義單元的語義表示進(jìn)行代入,如果可以得到覆蓋全部字集的句子,則將相應(yīng)的語義單元進(jìn)行相同的代入就可以得到句義表達(dá)式。后面還將結(jié)合具體例子對(duì)本步驟進(jìn)行詳細(xì)描述。
最后在步驟130,將得到的句義表達(dá)式用原始語種的語義表示展開,便可以得到準(zhǔn)確的識(shí)別結(jié)果。
圖2和圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的方法中剪枝過程的詳細(xì)流程圖。如圖2和3所示,剪枝過程包括虛量剪枝(步驟201)和實(shí)量剪枝(步驟205)。
所謂實(shí)量剪枝,就是將字集串中后面取出的字集與前面已經(jīng)提取出的表述樹集中語義單元表示的實(shí)量進(jìn)行比較,如果一致則保留,如果不一致則剪掉。
所謂虛量剪枝,就是將提取出的表示樹集中語義單元表示的虛量類型要求與相應(yīng)位置已經(jīng)確定的語義單元的類型進(jìn)行比較,將不匹配的語義單元從表示樹集中剪掉。由于一個(gè)語義表示中可能在一個(gè)實(shí)量的前面和后面出現(xiàn)虛量,所以虛量剪枝,如圖3所示,包括前側(cè)虛量剪枝(步驟305)和后側(cè)虛量剪枝(步驟310)。
下面,就以“我下星期一寫信給你?!睘槔?,說明上述剪枝過程。假設(shè)通過文字識(shí)別得到與“我下星期一寫信給你。”這句話對(duì)應(yīng)的字集串為(我|找|攏|)(下|卜)(星|早|甲)(期)(一)(寫|萬|叼)(信)(給)(你|稱)。也就是說,對(duì)于“我”這個(gè)字識(shí)別出了“我”、“找”、“攏”三個(gè)最接近的候選字;對(duì)于“下”這個(gè)字識(shí)別出了“下”、“卜” 兩個(gè)最接近的候選字;依此類推。下面的表7列出了逐個(gè)字集地提取語義單元表示樹集和剪枝的過程。表7字集串(我|找|攏|)(下|卜)(星|早|甲)(期)(一)(寫|萬|叼)(信)(給)(你|稱)的剪枝過程
如表7所示,首先取出第一個(gè)字集(我|找|攏|),并在語義單元表示樹索引庫中找出以“我”、“找”或“攏”為實(shí)量開始的語義單元表示樹集。接著對(duì)該表示樹集剪枝,將實(shí)量前面還包含虛量的語義單元表示剪掉。
接著取出下一個(gè)字集(下|卜),并在語義單元表示樹索引庫中找出以“下”或“卜”為實(shí)量開始的語義單元表示樹集。接著,對(duì)前面字集(我|找|攏|)的表示樹集進(jìn)行實(shí)量剪枝,將其中實(shí)量與“下”或“卜”不匹配的語義單元剪掉;同時(shí)對(duì)字集(下|卜)的表示樹進(jìn)行剪枝,將實(shí)量前面的虛量與字集(我|找|攏|)的表示樹集中確定的語義單元類型不一致的語義表示剪掉。
依次類推,直到取出最后一個(gè)字集(你|稱)并進(jìn)行剪枝后,最終剩下七個(gè)語義單元,如表7末尾處所示。
在此需要指出,在進(jìn)行虛量剪枝時(shí),確定兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)需要進(jìn)行類型流轉(zhuǎn)換處理。例如,“漂亮”和“花瓶”兩個(gè)語義單元連續(xù)出現(xiàn)的情況下,根據(jù)類型處理規(guī)則,將形容義A(“漂亮”的類型)+事物義N(“花瓶”的類型)轉(zhuǎn)換為事物義N。
具體的語義單元類型處理規(guī)則有多個(gè),下面的表8示例性地列舉了一些,以供參考。
表8.類型處理規(guī)則舉例
下面說明,根據(jù)剪枝剩下的語義單元求出句義表達(dá)式的步驟125。在剪枝結(jié)束后,理想的話,如果剩下的語義單元表示代入能夠得到覆蓋字集串的全部元素位置的句子,則只需將語義單元也按照其原始語種表示代入作相應(yīng)的代入,即可得到句義表達(dá)式。
但是,也有可能經(jīng)過剪枝處理之后,從剩下的語義單元表示,通過代入得不到覆蓋字集串的全部元素位置的句子,即“無解”;或者得到多個(gè)句子,即“多解”,在多解的情況下,最終的識(shí)別結(jié)果也會(huì)是多個(gè)。
提高文字識(shí)別的準(zhǔn)確率的裝置在同一發(fā)明構(gòu)思下,本發(fā)明還提供了一種提高文字識(shí)別的準(zhǔn)確率的裝置。圖4是展示根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高文字識(shí)別的準(zhǔn)確率的裝置的結(jié)構(gòu)的方塊圖。
如圖4所示,該提高文字識(shí)別的準(zhǔn)確率的裝置400包括語義單元表示樹索引庫401,用于記錄按照語義單元表示庫中原始語種(被識(shí)別文字的語種)語義單元的表示中實(shí)量的順序、為語義單元表示庫編制的索引;語義表示樹集提取裝置405,用于根據(jù)語義單元表示樹索引庫405,為字集提取以該字集為實(shí)量開始的語義單元表示樹集;語義表示樹集剪枝裝置410,用于逐字集地對(duì)提取出的語義單元表示樹集進(jìn)行剪枝,具體地,執(zhí)行前面描述的實(shí)量剪枝和虛量剪枝的過程;句義表達(dá)式生成裝置415,用于根據(jù)提取出的語義單元表示樹集中經(jīng)語義表示樹集剪枝裝置410剪枝后剩余的語義單元,求出該句子的句義表達(dá)式,具體地,執(zhí)行前面描述的步驟125;句義表達(dá)式展開裝置420,用于將求出的句義表達(dá)式用原始語種的語義表示展開,從而得到準(zhǔn)確的識(shí)別結(jié)果。
優(yōu)選地,該提高文字識(shí)別的準(zhǔn)確率的裝置400的語義表示樹集剪枝裝置410還包括實(shí)量剪枝裝置,用于根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元的原始語種語義表示的實(shí)量,對(duì)所述提取出的語義單元表示樹集剪枝;虛量剪枝裝置,用于根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元的原始語種語義表示的虛量,對(duì)所述提取出的語義單元表示樹集剪枝。
進(jìn)而,實(shí)量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示的實(shí)量與所述字集串中后續(xù)字集不匹配的分支去掉。
優(yōu)選地,該虛量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示的虛量的類型與所述字集串的對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉。
優(yōu)選地,該虛量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示中在實(shí)量之前的虛量的類型與前面確定的語義單元的類型不匹配的分支去掉(前側(cè)剪枝),并且從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示中在實(shí)量之后的虛量的類型與后面確定的語義單元的類型不匹配的分支去掉(后側(cè)剪枝)。
優(yōu)選地,該虛量剪枝裝置,當(dāng)出現(xiàn)兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)進(jìn)行類型流轉(zhuǎn)換處理。
自動(dòng)翻譯的方法(一)在同一發(fā)明構(gòu)思下,本發(fā)明還提供了一種自動(dòng)翻譯的方法,用于將原始語種的句子翻譯成一個(gè)或多個(gè)目標(biāo)語種的譯文。圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)翻譯的方法的流程圖。下面結(jié)合該圖對(duì)該實(shí)施例的自動(dòng)翻譯的方法進(jìn)行說明,圖中與前面實(shí)施例相同的部分被標(biāo)以相同的標(biāo)號(hào),并適當(dāng)?shù)厥÷哉f明。
本實(shí)施例與前面實(shí)施例的區(qū)別在于,本實(shí)施中所使用的語義單元表示庫應(yīng)當(dāng)至少包含原始語種和目標(biāo)語種的語義單元表示。如圖5所示,在步驟125求出句義表達(dá)式后,執(zhí)行步驟530,用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示將句義表達(dá)式展開,從而得到目標(biāo)語種的譯文。
然后,在步驟535,將目標(biāo)語種的譯文輸出,例如,可以是顯示在屏幕上、打印出來或者經(jīng)由語音合成裝置合成為語音輸出。
提高語音識(shí)別的準(zhǔn)確率的方法在同一發(fā)明構(gòu)思下,本發(fā)明還提供了一種提高語音識(shí)別的準(zhǔn)確率的方法。圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施例的提高語音識(shí)別的準(zhǔn)確率的方法的流程圖。下面就參照該圖對(duì)該實(shí)施例的提高語音識(shí)別的準(zhǔn)確率的方法進(jìn)行說明,圖中與前面實(shí)施例相同的部分被標(biāo)以相同的標(biāo)號(hào),并適當(dāng)?shù)厥÷哉f明。
本實(shí)施例與前面圖1所描述的實(shí)施例的不同之處在于,不同于圖1的步驟101,本實(shí)施例首先在步驟601,通過語音識(shí)別得到一個(gè)字集串A1,A2,…,Ak,如前面所說明的那樣,其中一個(gè)字集Ai={ai1,ai2,…,aini},(aij是字,i=1,2,…,k,j=1,2,…,ni)中包含的都是語音特征與輸入的原始語音最接近的候選字。
接著與前面實(shí)施例相同執(zhí)行步驟105至125,在步驟125根據(jù)剪枝剩下的語義單元求解句義表達(dá)式。然后,在步驟627判斷是否得到句義表達(dá)式,如果沒有得到則保留上述剪枝剩下的語義單元,返回到步驟601識(shí)別下一段語音,重復(fù)步驟601到125。
如果在步驟627判斷為得到句義表達(dá)式,則進(jìn)行到步驟130,與前面實(shí)施例相同,將該句義表達(dá)式展開為準(zhǔn)確的識(shí)別結(jié)果。
下面,就以“我喝啤酒?!睘槔?,說明本實(shí)施例的上述剪枝過程。假設(shè)通過語音識(shí)別得到與“我喝啤酒。”這句話對(duì)應(yīng)的字集串為(我|窩|渦|臥|)(和|河|何|合|赫|賀|鶴|)(批|砒|皮|脾|琵|疲|劈|辟|(zhì)臂|啤|)(酒|糾|九|就|救|久|舊|韭|舅|)。下面的表8列出了逐個(gè)字集地提取語義單元表示樹集和剪枝的過程。
表8字集串(我|窩|渦|臥|)(和|河|何|合|赫|賀|鶴|)(批|砒|皮|脾|琵|疲|劈|辟|(zhì)臂|啤|)(酒|糾|九|就|救|久|舊|韭|舅|)的剪枝過程
自動(dòng)翻譯的方法(二)在同一發(fā)明構(gòu)思下,本發(fā)明還提供了一種自動(dòng)翻譯的方法,用于將原始語種的語音輸入翻譯成一個(gè)或多個(gè)目標(biāo)語種的譯文。圖7是根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)翻譯的方法的流程圖。下面結(jié)合該圖對(duì)該實(shí)施例的自動(dòng)翻譯的方法進(jìn)行說明,圖中與前面圖6的實(shí)施例相同的部分被標(biāo)以相同的標(biāo)號(hào),并適當(dāng)?shù)厥÷哉f明。
本實(shí)施例與前面圖6所描述的實(shí)施例的區(qū)別在于,本實(shí)施中所使用的語義單元表示庫應(yīng)當(dāng)至少包含原始語種和目標(biāo)語種的語義單元表示。如圖7所示,在步驟627判斷為得到句義表達(dá)式后,執(zhí)行步驟730,用目標(biāo)語種的語義單元表示將句義表達(dá)式展開,從而得到目標(biāo)語種的譯文。
然后,在步驟735,將目標(biāo)語種的譯文輸出,例如,可以是顯示在屏幕上、打印出來或者經(jīng)由語音合成裝置合成為語音輸出。
當(dāng)利用語音合成裝置將譯文合成為語音輸出時(shí),本實(shí)施例就成為一種同聲傳譯的方法。
提高語音識(shí)別的準(zhǔn)確率的裝置在同一發(fā)明構(gòu)思下,本發(fā)明還提供了一種提高語音識(shí)別的準(zhǔn)確率的裝置。根據(jù)本發(fā)明的一個(gè)實(shí)施例提高語音識(shí)別的準(zhǔn)確率的裝置的機(jī)構(gòu)與前面圖4描述的提高文字識(shí)別的準(zhǔn)確率的裝置400基本相同,在此省略其圖示。
本實(shí)施例的提高語音識(shí)別的準(zhǔn)確率的裝置包括語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種(被識(shí)別文字的語種)語義單元的表示中實(shí)量的順序、為語義單元表示庫編制的索引;語義表示樹集提取裝置,用于根據(jù)語義單元表示樹索引庫,為字集提取以該字集為實(shí)量開始的語義單元表示樹集;語義表示樹集剪枝裝置,用于逐字集地對(duì)提取出的語義單元表示樹集進(jìn)行剪枝,具體地,執(zhí)行前面描述的實(shí)量剪枝和虛量剪枝的過程;句義表達(dá)式生成裝置,用于根據(jù)提取出的語義單元表示樹集中經(jīng)語義表示樹集剪枝裝置剪枝后剩余的語義單元,求出覆蓋該字集串的句義表達(dá)式,具體地,執(zhí)行前面描述的步驟;句義表達(dá)式展開裝置,用于將求出的句義表達(dá)式用原始語種的語義表示展開,從而得到準(zhǔn)確的識(shí)別結(jié)果。進(jìn)而,當(dāng)句義表達(dá)式生成裝置對(duì)剪枝后剩余的語義單元沒有求出句義表達(dá)式時(shí),保留剩下的語義單元繼續(xù)處理后面的字集串。
優(yōu)選地,該提高語音識(shí)別的準(zhǔn)確率的裝置的語義表示樹集剪枝裝置還包括實(shí)量剪枝裝置,用于根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元的原始語種語義表示的實(shí)量,對(duì)所述提取出的語義單元表示樹集剪枝;虛量剪枝裝置,用于根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元的原始語種語義表示的虛量,對(duì)所述提取出的語義單元表示樹集剪枝。
進(jìn)而,實(shí)量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示的實(shí)量與所述字集串中后續(xù)字集不匹配的分支去掉。
優(yōu)選地,該虛量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示的虛量的類型與所述字集串的對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉。
優(yōu)選地,該虛量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示中在實(shí)量之前的虛量的類型與前面確定的語義單元的類型不匹配的分支去掉(前側(cè)剪枝),并且從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示中在實(shí)量之后的虛量的類型與后面確定的語義單元的類型不匹配的分支去掉(后側(cè)剪枝)。
優(yōu)選地,該虛量剪枝裝置,當(dāng)出現(xiàn)兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)進(jìn)行類型流轉(zhuǎn)換處理。
自動(dòng)翻譯系統(tǒng)在同一發(fā)明構(gòu)思下,本發(fā)明還提供了一種自動(dòng)翻譯系統(tǒng)。圖8是根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)翻譯系統(tǒng)的流程圖。本實(shí)施的實(shí)施例自動(dòng)翻譯系統(tǒng)與前面圖4描述的提高文字識(shí)別的準(zhǔn)確率的裝置400具有相同的技術(shù)特征,在圖8中標(biāo)以相同的標(biāo)號(hào),在此適當(dāng)省略其說明。
如圖8所示,該自動(dòng)翻譯系統(tǒng)800包括語音識(shí)別裝置801、語義單元表示樹索引庫401、語義表示樹集提取裝置405、語義表示樹集提取裝置405、語義表示樹集剪枝裝置410、句義表達(dá)式生成裝置415、句義表達(dá)式展開裝置820和語音合成裝置825。其中語義單元表示樹索引庫401、語義表示樹集提取裝置405、語義表示樹集提取裝置405、語義表示樹集剪枝裝置410和句義表達(dá)式生成裝置415與圖4中的相應(yīng)部分相同。
本實(shí)施中所使用的語義單元表示庫應(yīng)當(dāng)至少包含原始語種和目標(biāo)語種的語義單元表示。本實(shí)施例中的句義表達(dá)式展開裝置820,將由句義表達(dá)式生成裝置415生成的句義表達(dá)式按照目標(biāo)語種的語義單元表示展開,從而得到譯文。進(jìn)而,當(dāng)句義表達(dá)式生成裝置415無法由剪枝剩下的語義表示生成句義表達(dá)式時(shí),保留剩下的語義表示,由語音識(shí)別裝置801繼續(xù)識(shí)別下一段語音,與這些剩下的語義表示一起進(jìn)行剪枝處理。
本實(shí)施例中的語音識(shí)別裝置801可以是任何的語音識(shí)別裝置,用于將輸入的語音信息識(shí)別為字集串。本實(shí)施例中的語音合成裝置825可以是任何的語音合成裝置,用于將有句義表達(dá)式展開裝置820生成的譯文轉(zhuǎn)換為相應(yīng)的語音,作為目標(biāo)語音輸出。
優(yōu)選地,該自動(dòng)翻譯系統(tǒng)800的語義表示樹集剪枝裝置410還包括實(shí)量剪枝裝置,用于根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元的原始語種語義表示的實(shí)量,對(duì)所述提取出的語義單元表示樹集剪枝;虛量剪枝裝置,用于根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元的原始語種語義表示的虛量,對(duì)所述提取出的語義單元表示樹集剪枝。
進(jìn)而,實(shí)量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示的實(shí)量與所述字集串中后續(xù)字集不匹配的分支去掉。
優(yōu)選地,該虛量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示的虛量的類型與所述字集串的對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉。
優(yōu)選地,該虛量剪枝裝置,從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示中在實(shí)量之前的虛量的類型與前面確定的語義單元的類型不匹配的分支去掉(前側(cè)剪枝),并且從所述提取出的語義單元表示樹集中,將語義單元的原始語種語義表示中在實(shí)量之后的虛量的類型與后面確定的語義單元的類型不匹配的分支去掉(后側(cè)剪枝)。
優(yōu)選地,該虛量剪枝裝置,當(dāng)出現(xiàn)兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)進(jìn)行類型流轉(zhuǎn)換處理。
另外,根據(jù)本發(fā)明的另一實(shí)施例,圖8中的語音識(shí)別裝置801可以替換為一個(gè)文字識(shí)別裝置,例如,前面描述的現(xiàn)有技術(shù)中的任意一個(gè)文字識(shí)別裝置。
另外,根據(jù)本發(fā)明的再另一實(shí)施例,圖8中的語音合成裝置801也可以是顯示器、打印機(jī)等其它輸出裝置。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明中的根據(jù)上下文縮小詞義解釋范圍的電子詞典、機(jī)器翻譯系統(tǒng)及它們的組成部分可以用硬件或軟件的形式實(shí)現(xiàn),并且,物理地各個(gè)組成部分也可以不在一起,而是操作上互相配合完成上述實(shí)施例中描述的功能。
以上雖然通過一些示例性的實(shí)施例對(duì)本發(fā)明的生成句義表達(dá)式的方法及裝置、機(jī)器翻譯系統(tǒng)、自動(dòng)根據(jù)上下文縮小詞義解釋范圍的詞語解釋方法和根據(jù)上下文縮小詞義解釋范圍的電子詞典進(jìn)行了詳細(xì)的描述,但是以上這些實(shí)施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種提高文字識(shí)別的準(zhǔn)確率的方法,包括文字識(shí)別得到一個(gè)字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及將所述句義表達(dá)式展開。
2.根據(jù)權(quán)利要求1所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于當(dāng)語義單元的語義表示中出現(xiàn)由虛量隔開的兩個(gè)或多個(gè)實(shí)量時(shí),將后面的實(shí)量也依次加入作為所述語義單元表示樹索引庫中的一個(gè)條目。
3.根據(jù)權(quán)利要求1所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于,對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝的步驟,包括根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元表示的實(shí)量,對(duì)所述提取出的語義單元表示樹集剪枝;以及根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元表示的虛量,對(duì)所述提取出的語義單元表示樹集剪枝。
4.根據(jù)權(quán)利要求3所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于,所述根據(jù)實(shí)量對(duì)所述提取出的語義單元表示樹集剪枝的步驟,包括從所述提取出的語義單元表示樹集中,將其實(shí)量與后續(xù)字集中的所有字都不匹配的分支去掉。
5.根據(jù)權(quán)利要求3所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于,所述根據(jù)虛量對(duì)所述提取出的語義單元表示樹集剪枝的步驟,包括從所述提取出的語義單元表示樹集中,將其虛量與對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉。
6.根據(jù)權(quán)利要求5所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于,所述從所述提取出的語義單元表示樹集中將其虛量與對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉的步驟,包括從所述提取出的語義單元表示樹集中,將在實(shí)量之前的虛量與對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉;以及從所述提取出的語義單元表示樹集中,將在實(shí)量之后的虛量與對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉。
7.根據(jù)權(quán)利要求6所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于,所述根據(jù)虛量對(duì)所述提取出的語義單元表示樹集剪枝的步驟,還包括當(dāng)出現(xiàn)兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)進(jìn)行類型流轉(zhuǎn)換處理。
8.根據(jù)權(quán)利要求1所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于,所述求出句義表達(dá)式的步驟,包括將通過剩下的語義單元表示的代入能得到覆蓋所述字集串的每個(gè)元素位置的句子的對(duì)應(yīng)的語義單元進(jìn)行相同的代入得到句義表達(dá)式。
9.根據(jù)權(quán)利要求8所述的提高文字識(shí)別的準(zhǔn)確率的方法,其特征在于,所述求出句義表達(dá)式的步驟,還包括如果剩下的語義單元表示的代入無法得到所述句子,則判斷該字集串無解;以及如果剩下的語義單元表示的多個(gè)不同代入可以得到所述句子,則判斷該字集串有多解。
10.一種提高語音識(shí)別的準(zhǔn)確率的方法,包括語音識(shí)別得到一個(gè)字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及將所述句義表達(dá)式展開。
11.根據(jù)權(quán)利要求10所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于當(dāng)語義單元的語義表示中出現(xiàn)由虛量隔開的兩個(gè)或多個(gè)實(shí)量時(shí),將后面的實(shí)量也依次加入作為所述語義單元表示樹索引庫中的一個(gè)條目。
12.根據(jù)權(quán)利要求10所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝的步驟,包括根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元表示的實(shí)量,對(duì)所述提取出的語義單元表示樹集剪枝;以及根據(jù)所述提取出的語義單元表示樹集中各個(gè)語義單元表示的虛量,對(duì)所述提取出的語義單元表示樹集剪枝。
13.根據(jù)權(quán)利要求12所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,所述根據(jù)實(shí)量對(duì)所述提取出的語義單元表示樹集剪枝的步驟,包括從所述提取出的語義單元表示樹集中,將其實(shí)量與后續(xù)字集中的所有字都不匹配的分支去掉。
14.根據(jù)權(quán)利要求12所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,所述根據(jù)虛量對(duì)所述提取出的語義單元表示樹集剪枝的步驟,包括從所述提取出的語義單元表示樹集中,將其虛量與對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉。
15.根據(jù)權(quán)利要求14所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,所述從所述提取出的語義單元表示樹集中將其虛量與對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉的步驟,包括從所述提取出的語義單元表示樹集中,將在實(shí)量之前的虛量與對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉;以及從所述提取出的語義單元表示樹集中,將在實(shí)量之后的虛量與對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉。
16.根據(jù)權(quán)利要求15所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,所述根據(jù)虛量對(duì)所述提取出的語義單元表示樹集剪枝的步驟,還包括當(dāng)出現(xiàn)兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)進(jìn)行類型流轉(zhuǎn)換處理。
17.根據(jù)權(quán)利要求10所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,所述求出句義表達(dá)式的步驟,包括將通過剩下的語義單元表示的代入能得到覆蓋所述字集串的每個(gè)元素位置的句子的對(duì)應(yīng)的語義單元進(jìn)行相同的代入得到句義表達(dá)式。
18.根據(jù)權(quán)利要求17所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,所述求出句義表達(dá)式的步驟,還包括如果剩下的語義單元表示的代入無法得到所述句子,則判斷該字集串無解;以及如果剩下的語義單元表示的多個(gè)不同代入可以得到所述句子,則判斷該字集串有多解。
19.根據(jù)權(quán)利要求18所述的提高語音識(shí)別的準(zhǔn)確率的方法,其特征在于,還包括如果上述判斷為無解,保留上述剪枝剩下的語義單元,返回語音識(shí)別步驟,識(shí)別下一段語音并與上述剪枝剩下的語義單元一起重復(fù)前述剪枝和句義表達(dá)式生成步驟。
20.一種自動(dòng)翻譯的方法,包括文字識(shí)別得到一個(gè)字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示,將所述句義表達(dá)式展開。
21.一種自動(dòng)翻譯的方法,包括語音識(shí)別得到一個(gè)字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根據(jù)語義單元表示樹索引庫,為該字集串中每個(gè)字集Ai中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹,構(gòu)成與該字集Ai對(duì)應(yīng)的語義單元表示樹集Bi,其中所述語義單元表示樹索引庫是按照語義單元表示庫中語義單元的語義表示中實(shí)量的順序編制形成的;逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;根據(jù)所述語義單元表示樹集中沒有被剪掉的語義單元,求出句義表達(dá)式;以及用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示,將所述句義表達(dá)式展開。
22.一種提高文字識(shí)別的準(zhǔn)確率的裝置,用于提高文字識(shí)別結(jié)果的準(zhǔn)確率,所述文字識(shí)別結(jié)果包含一個(gè)字集串,該提高文字識(shí)別的準(zhǔn)確率的裝置包括語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用原始語種的語義表示展開,從而得到準(zhǔn)確的識(shí)別結(jié)果。
23.根據(jù)權(quán)利要求22所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,當(dāng)所述原始語種語義單元的表示中出現(xiàn)由虛量隔開的兩個(gè)或多個(gè)實(shí)量時(shí),將后面的實(shí)量也依次加入作為所述語義單元表示樹索引庫中一個(gè)條目。
24.根據(jù)權(quán)利要求22所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述語義表示樹剪枝裝置還包括實(shí)量剪枝裝置,用于根據(jù)所述提取出的原始語種語義單元表示樹集中各個(gè)語義單元表示的實(shí)量,對(duì)所述提取出的語義單元表示樹集剪枝;以及虛量剪枝裝置,用于根據(jù)所述提取出的原始語種語義單元表示樹集中各個(gè)語義單元表示的虛量,對(duì)所述提取出的語義單元表示樹集剪枝。
25.根據(jù)權(quán)利要求24所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述實(shí)量剪枝裝置,從所述提取出的原始語種語義單元表示樹集中,將其實(shí)量與所述字集串中后續(xù)字集中的所有字都不匹配的分支去掉。
26.根據(jù)權(quán)利要求24所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述虛量剪枝裝置,從所述提取出的原始語種語義單元表示樹集中,將其虛量的類型與所述字集串的對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉。
27.根據(jù)權(quán)利要求26所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述虛量剪枝裝置,從所述提取出的原始語種語義單元表示樹集中,將在實(shí)量之前的虛量的類型與所述句子的對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉,并且從所述提取出的原始語種語義單元表示樹集中,將在實(shí)量之后的虛量的類型與所述句子的對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉。
28.根據(jù)權(quán)利要求26所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述虛量剪枝裝置,當(dāng)出現(xiàn)兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)進(jìn)行類型流轉(zhuǎn)換處理。
29.根據(jù)權(quán)利要求22所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述句義表達(dá)式生成裝置,將通過剪枝后剩下的語義單元表示的代入能得到覆蓋所述字集串的每個(gè)元素位置的句子所對(duì)應(yīng)的語義單元進(jìn)行相同的代入得到句義表達(dá)式。
30.根據(jù)權(quán)利要求29所述的提高文字識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述句義表達(dá)式生成裝置,如果剩下的語義單元表示的代入無法得到所述句子,則判斷該字集串無解,并且,如果剩下的語義單元表示的多個(gè)不同代入可以得到所述句子,則判斷該字集串有多解。
31.一種提高語音識(shí)別的準(zhǔn)確率的裝置,用于提高語音識(shí)別結(jié)果的準(zhǔn)確率,所述語音識(shí)別結(jié)果包含一個(gè)字集串,該提高語音識(shí)別的準(zhǔn)確率的裝置包括語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;以及句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用原始語種的語義表示展開,從而得到準(zhǔn)確的識(shí)別結(jié)果。
32.根據(jù)權(quán)利要求31所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,當(dāng)所述原始語種語義單元的表示中出現(xiàn)由虛量隔開的兩個(gè)或多個(gè)實(shí)量時(shí),將后面的實(shí)量也依次加入作為所述語義單元表示樹索引庫中一個(gè)條目。
33.根據(jù)權(quán)利要求31所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述語義表示樹剪枝裝置還包括實(shí)量剪枝裝置,用于根據(jù)所述提取出的原始語種語義單元表示樹集中各個(gè)語義單元表示的實(shí)量,對(duì)所述提取出的語義單元表示樹集剪枝;以及虛量剪枝裝置,用于根據(jù)所述提取出的原始語種語義單元表示樹集中各個(gè)語義單元表示的虛量,對(duì)所述提取出的語義單元表示樹集剪枝。
34.根據(jù)權(quán)利要求33所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述實(shí)量剪枝裝置,從所述提取出的原始語種語義單元表示樹集中,將其實(shí)量與所述字集串中后續(xù)字集中的所有字都不匹配的分支去掉。
35.根據(jù)權(quán)利要求33所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述虛量剪枝裝置,從所述提取出的原始語種語義單元表示樹集中,將其虛量的類型與所述字集串的對(duì)應(yīng)部分中確定的語義單元的類型不匹配的分支去掉。
36.根據(jù)權(quán)利要求35所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述虛量剪枝裝置,從所述提取出的原始語種語義單元表示樹集中,將在實(shí)量之前的虛量的類型與所述句子的對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉,并且從所述提取出的原始語種語義單元表示樹集中,將在實(shí)量之后的虛量的類型與所述句子的對(duì)應(yīng)部分的語義單元的類型不匹配的分支去掉。
37.根據(jù)權(quán)利要求35所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述虛量剪枝裝置,當(dāng)出現(xiàn)兩個(gè)或多個(gè)連續(xù)的語義單元時(shí)進(jìn)行類型流轉(zhuǎn)換處理。
38.根據(jù)權(quán)利要求31所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述句義表達(dá)式生成裝置,將通過剪枝后剩下的語義單元表示的代入能得到覆蓋所述字集串的每個(gè)元素位置的句子所對(duì)應(yīng)的語義單元進(jìn)行相同的代入得到句義表達(dá)式。
39.根據(jù)權(quán)利要求38所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,所述句義表達(dá)式生成裝置,如果剩下的語義單元表示的代入無法得到所述句子,則判斷該字集串無解,并且,如果剩下的語義單元表示的多個(gè)不同代入可以得到所述句子,則判斷該字集串有多解。
40.根據(jù)權(quán)利要求39所述的提高語音識(shí)別的準(zhǔn)確率的裝置,其特征在于,如果所述句義表達(dá)式生成裝置判斷為無解,保留剪枝剩下的語義單元,與其一起處理下一段語音。
41.一種自動(dòng)翻譯系統(tǒng),包括文字識(shí)別裝置,用于識(shí)別原始語種的文字信息,生成包含字集串的識(shí)別結(jié)果;語義單元表示庫,至少記錄有原始語種和目標(biāo)語種的語義單元表示;語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示展開,從而得到譯文。
42.根據(jù)權(quán)利要求41所述的自動(dòng)翻譯系統(tǒng),還包括輸出裝置,用于輸出所述譯文。
43.一種自動(dòng)翻譯系統(tǒng),包括語音識(shí)別裝置,用于識(shí)別輸入的語音信息,生成包含字集串的識(shí)別結(jié)果;語義單元表示庫,至少記錄有原始語種和目標(biāo)語種的語義單元表示;語義單元表示樹索引庫,用于記錄按照語義單元表示庫中原始語種語義單元的表示中實(shí)量的順序、為所述語義單元表示庫編制的語義單元表示樹;語義單元表示樹提取裝置,用于根據(jù)語義單元表示樹索引庫,為上述字集串中的字集中的每個(gè)字提取以該字為實(shí)量開始的語義單元表示樹集;語義表示樹剪枝裝置,用于逐字集地對(duì)所述提取出的語義單元表示樹集進(jìn)行剪枝;句義表達(dá)式生成裝置,用于根據(jù)所述提取出的語義單元表示樹集中經(jīng)所述語義表示樹剪枝裝置剪枝后剩余的語義單元,求出句義表達(dá)式;以及句義表達(dá)式展開裝置,用于將上述求出的句義表達(dá)式用一個(gè)或多個(gè)目標(biāo)語種的語義單元表示展開,從而得到譯文。
44.根據(jù)權(quán)利要求43所述的自動(dòng)翻譯系統(tǒng),還包括輸出裝置,用于輸出所述譯文。
45.根據(jù)權(quán)利要求41或44所述的自動(dòng)翻譯系統(tǒng),其中所述輸出裝置是語音合成裝置、顯示裝置和打印機(jī)中的一種。
全文摘要
本發(fā)明提供了提高文字和語音識(shí)別的準(zhǔn)確率的方法及裝置、自動(dòng)翻譯方法及系統(tǒng)。其中提高文字識(shí)別的準(zhǔn)確率的方法,包括文字識(shí)別得到一個(gè)字集串A
文檔編號(hào)G06F17/28GK1716240SQ20041006256
公開日2006年1月4日 申請(qǐng)日期2004年6月30日 優(yōu)先權(quán)日2004年6月30日
發(fā)明者高小宇, 高慶獅 申請(qǐng)人:高慶獅, 高小宇