專利名稱:給用戶提供聲音反饋的可擴展語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及到數(shù)據(jù)處理系統(tǒng),尤其是涉及到一種為用戶提供聲音反饋的可擴展語音識別系統(tǒng)。
背景技術(shù):
語音識別系統(tǒng)使得一個計算機系統(tǒng)至少能夠懂得輸入到計算機系統(tǒng)的選定的語音部分。一般來講,語音識別系統(tǒng)將輸入的語音解析成可讀取識別的部分。例如,輸入的語音能夠被解析到進一步處理的一些音素以便識別該語音的內(nèi)容。典型地,一些語音識別系統(tǒng)通過將輸入語音中單詞的發(fā)音與一些模式或者由語音識別系統(tǒng)存儲的樣本比較來識別輸入語音中的單詞。這些樣本是利用單詞的語音學(xué)表示以及對于音素前后-依靠的樣本來產(chǎn)生的。許多語音識別系統(tǒng)包括一些語音識別系統(tǒng)可識別詞條的特定發(fā)音的字典。
語音識別系統(tǒng)使用的一種場合是用在聽寫系統(tǒng)中。這些聽寫系統(tǒng)將輸入的語音變換成文字。在這些聽寫系統(tǒng)中,這些語音識別系統(tǒng)用于確定輸入語音中的單詞,而這些聽寫系統(tǒng)產(chǎn)生對應(yīng)于這些確定單詞的文字類型輸出。遺憾地,這些聽寫系統(tǒng)經(jīng)常遇到來自某些用戶輸入的語音的較高等級的錯誤識別。使用在這種字典中的語音識別系統(tǒng)對于每個單詞有一種或者幾種發(fā)音,但是這些單詞的發(fā)音都是固定的并且代表該語音識別系統(tǒng)期望要聽到的發(fā)音。如果用戶對一個單詞使用一種不是該語音識別系統(tǒng)期望的不同發(fā)音,則該語音識別系統(tǒng)將經(jīng)常錯誤地識別用戶的輸入。當一個詞條具有多種適當?shù)陌l(fā)音并且用戶使用的是不能通過語音識別系統(tǒng)變換的發(fā)音之一時,這個缺點特別使用戶懊惱。
這種聽寫系統(tǒng)的另一種局限是或者它們不能夠擴展(即,用戶不可以添加一個新的詞條到字典中)或者它們允許一些新詞條的添加但是不允許用戶開發(fā)發(fā)音而產(chǎn)生新詞條本身的發(fā)音。這樣的系統(tǒng)能夠利用字母-到-聲音啟發(fā)式方法猜測新添加詞條的發(fā)音。遺憾的是,這種啟發(fā)式方法在許多例子中沒有產(chǎn)生正確結(jié)果。通常,當一個用戶添加一個新單詞到一個聽寫系統(tǒng)中使用的擴充字典時,用戶僅僅輸入了一個新單詞而沒有提供一個發(fā)音,但該語音識別系統(tǒng)產(chǎn)生了一個新詞條的發(fā)音。這個新發(fā)音可能是不正確的或者可能與用戶期望的單詞發(fā)音不對應(yīng)。結(jié)果,相對于用戶添加詞條或者包括新添詞條的語音輸入,經(jīng)常存在較高的錯誤識別。
發(fā)明內(nèi)容
本發(fā)明克服了上面所描述已有技術(shù)的局限性。根據(jù)本發(fā)明的第一方面,一種方法由識別自講話者輸入的語音的計算機-執(zhí)行的語音識別系統(tǒng)來實施。根據(jù)這種方法,一種文字-到-語音的結(jié)構(gòu)被提供用于創(chuàng)建一個文字的口語譯文。利用這種文字-到-語音的結(jié)構(gòu)產(chǎn)生一個給定單詞的口語譯文,并且這個給定單詞口語譯文在聲音設(shè)備上輸出以便語音識別系統(tǒng)的用戶知道該語音識別系統(tǒng)期望一個給定單詞將如何發(fā)音。該文字-到-語音的結(jié)構(gòu)產(chǎn)生符合語音識別系統(tǒng)期望聽到給定單詞發(fā)音的一個給定單詞的發(fā)音。特別是,文字-到-語音的結(jié)構(gòu)與給定語音識別系統(tǒng)共享相同字母-到-聲音的元素,以至于由該文字-到-語音的結(jié)構(gòu)產(chǎn)生的給定單詞口語譯文與語音識別系統(tǒng)期望聽到的發(fā)音是完全相同的。
根據(jù)本發(fā)明的另一方面,這里提供由聽寫系統(tǒng)識別的一些單詞的發(fā)音清單。接受來自用戶要將存儲在列表清單中選定單詞的現(xiàn)行發(fā)音改變成一個新發(fā)音的請求。響應(yīng)該請求存儲在列表清單中選定單詞的發(fā)音變換成新的發(fā)音。
根據(jù)本發(fā)明的又一個方面,由計算機-執(zhí)行的語音識別系統(tǒng)實現(xiàn)了一種方法。提供一個語音識別系統(tǒng)識別詞條的字典,并且該字典確定語音識別系統(tǒng)期望的每個詞條如何發(fā)音。接受來自用戶要添加一個新詞條到字典中的請求并且該新詞條的發(fā)音由語音識別系統(tǒng)產(chǎn)生。利用文字-到-語音的結(jié)構(gòu)(用語音識別系統(tǒng)對信詞條期望的發(fā)音作為輸入),新詞條的發(fā)音在一個聲音輸出設(shè)備上輸出,并且該新的詞條如產(chǎn)生的發(fā)音一樣被添加到字典中。
再根據(jù)本發(fā)明的另一方面,對于一個選定單詞的多種發(fā)音保存在一個語音識別系統(tǒng)的字典中。對于選定詞條的每個發(fā)音在聲音輸出設(shè)備上輸出以便用戶能夠聽到該發(fā)音。對應(yīng)于用戶選定的一種發(fā)音,該選定的發(fā)音由語音識別系統(tǒng)利用去識別語音。
根據(jù)本發(fā)明的另一個方面,提供一個對每個詞條具有發(fā)音的一些詞條的字典。這些發(fā)音與語音識別系統(tǒng)所期望這些詞條將被如何發(fā)音相對應(yīng)。在講話者讀出詞條之一以便語音識別系統(tǒng)識別該選定詞條的一些例子中,用戶所用選定詞條的特定發(fā)音被確定。根據(jù)這種重復(fù)確定,該系統(tǒng)識別用戶最有可能使用的被選定單詞的可替換的發(fā)音,并且更新該字典以便指定這個發(fā)音為語音識別系統(tǒng)期望的發(fā)音。
再根據(jù)本發(fā)明的一方面,接受來自一個講話者的已經(jīng)給出發(fā)音詞條的口語譯文。提供一個對于該詞條的期望發(fā)音。這個期望的發(fā)音對應(yīng)于語音識別系統(tǒng)期望講話者如何讀出該詞條。將該詞條的口語譯文的給定發(fā)音與期望發(fā)音比較以便確定差別的等級。在差別等級超過可接受預(yù)定閾值的地方,在輸出設(shè)備上產(chǎn)生的輸出通知講話者該差別等級超過了閾值。這個輸出還可以包括文字-到-語音結(jié)構(gòu)產(chǎn)生詞條的期望發(fā)音。
根據(jù)本發(fā)明的一個附加方面,一個計算機-執(zhí)行的語音識別系統(tǒng)識別來自一個講話者的口語語音。為一個給定單詞提供一個期望的發(fā)音。該期望的發(fā)音構(gòu)成語音識別系統(tǒng)期望的一個給定詞將如何由講話者發(fā)音。統(tǒng)計是根據(jù)作為講話者的口語的給定單詞由語音識別系統(tǒng)錯誤識別頻率進行收集的。在統(tǒng)計顯示出給定單詞被較經(jīng)常的錯誤識別超過一個閾值的情況下,顯示設(shè)備上產(chǎn)生的輸出促使用戶去糾正給定單詞的期望發(fā)音。
將參照下面附圖對本發(fā)明的一個最佳實施例進行更詳細地描述。
圖1是一個適合實現(xiàn)本發(fā)明最佳實施例的計算機系統(tǒng)的方框圖。
圖2是一個圖解說明語音識別系統(tǒng)的部件的方框圖。
圖3是一個圖解說明字典部分例子的視圖。
圖4是一個圖解說明實現(xiàn)的步驟以便使用戶改變字典中一個詞條發(fā)音的流程圖。
圖5A-5D描述提供給用戶來變換字典的詞條發(fā)音的用戶界面元素。
圖6是說明添加一個新的詞條到該字典中的實現(xiàn)步驟的流程。
圖7A-7D圖解說明提供給用戶來添加一個具有給定發(fā)音的新詞條到字典中的用戶界面元素。
圖8是一個圖解說明沒有交互的用戶輸入的替換存儲在字典中的發(fā)音的步驟的流程。
具體實施例方式
本發(fā)明最佳實施例為用戶提供一種具有聲音反饋的可擴展式的語音識別系統(tǒng),因此,當一個用戶尋求添加一個單詞或詞條到由語音識別系統(tǒng)使用的字典中時,用戶被提供由聲音反饋來識別該系統(tǒng)如何確認該詞條的發(fā)音。然后用戶可以接受這個發(fā)音或者要求改變其發(fā)音。在一個替換的方法中,用戶利用拼讀該單詞如何發(fā)音來確認其發(fā)音。在另一個替換的方法中,該系統(tǒng)提供給用戶該單詞可替換的發(fā)音的清單并且用戶來選擇該單詞。
本發(fā)明最佳實施例能使一個用戶改變目前在字典中的任何單詞的發(fā)音。此外,本發(fā)明最佳實施例使一個用戶能夠聽到在字典中當前指定的一個單詞的發(fā)音。該用戶可以聽到發(fā)音,然后如果需要的話可以改變該發(fā)音到一個可替換的發(fā)音。結(jié)果,用戶大大地增強該語音識別系統(tǒng)實現(xiàn)的詞條識別的水平。
在另一種可替換方法中,該語音識別系統(tǒng)所用的字典自動和明顯地由該系統(tǒng)來更新。該系統(tǒng)處理一組發(fā)音數(shù)據(jù)以便在字典內(nèi)為這些詞條獲得可替換的發(fā)音。當用戶讀出一個詞條并且該詞條被正確地識別出時,系統(tǒng)識別該用戶所讀詞條的那個替換發(fā)音。在一個固定數(shù)量的正確識別和比較之后,系統(tǒng)獲得一個用戶正在讀出的發(fā)音中的信任等級而改變該詞典(包括以系統(tǒng)的方式將在觀察的入口中的變化向其他沒有觀察的入口中傳播)以使用其發(fā)音以至于增強本系統(tǒng)實現(xiàn)的識別等級。
下面將對應(yīng)一個聽寫系統(tǒng)描述本發(fā)明最佳實施例。在該聽寫系統(tǒng)中,用戶的講話進入一語音輸入裝置,如一個話筒,以便輸入所講的文字。該聽寫系統(tǒng)識別其講話內(nèi)容,并且生成一個相應(yīng)的文字作為一個文件的一部分。那些技術(shù)上熟知的人們將認識到本發(fā)明還能夠?qū)嶋H地交流而不只是一個聽寫系統(tǒng)。本發(fā)明通常更多地應(yīng)用于語音識別系統(tǒng)。
圖1是一個適合于實現(xiàn)本發(fā)明最佳實施例的計算機系統(tǒng)10的方框圖。該計算機系統(tǒng)10包括一個能夠訪問主存貯器14和第二存貯器16的中央處理單元(CPU)12。第二存儲器16可以包括一些可移動的媒體驅(qū)動器,如CD-ROM驅(qū)動器,它們能夠讀取存貯在一種計算機可讀媒體(即CD-ROM)的信息。該計算機系統(tǒng)10包括一些外設(shè)。這些外設(shè)可以包括,例如,一個鍵盤18,一個鼠標20,一個視頻顯示器22,一個揚聲器24,以及一個語音話筒26。該計算機系統(tǒng)可以附加地包括一個調(diào)制解調(diào)器28,一個聲卡29和一個能夠使計算機系統(tǒng)與網(wǎng)絡(luò)32接口的網(wǎng)絡(luò)適配器30。存貯器14為該聽寫系統(tǒng)34保存程序指令和數(shù)據(jù)。這些指令只在CPU12上運行以實現(xiàn)本發(fā)明最佳實施例。該聽寫系統(tǒng)34可以使用應(yīng)用程序35,如字處理程序和信息程序。該聽寫系統(tǒng)包括一個語音識別系統(tǒng)36。那些技術(shù)上熟練的人們將認識到圖1中所描述的計算機系統(tǒng)結(jié)構(gòu)僅僅是為了解釋說明而本發(fā)明沒有限制。本發(fā)明還可以用另一種替換的計算機系統(tǒng)結(jié)構(gòu)來實現(xiàn),其包括多處理器系統(tǒng)和分布系統(tǒng)。為了下面討論方便,假設(shè)本發(fā)明最佳實施例實現(xiàn)的步驟是在聽寫系統(tǒng)34或語音輥系統(tǒng)36的方向上。
一個適當?shù)膶崿F(xiàn)本發(fā)明最佳實施例的語音識別系統(tǒng)描述在標題為“采用連續(xù)密度隱藏馬爾可夫模式用于語音識別的方法和系統(tǒng)”的專利申請中,申請?zhí)枮镹o.08/655,273,其是在1996年5月1日申請的,它與本發(fā)明的申請指定給一個共同的受讓人。圖2描述對本發(fā)明最佳實施例的討論特別感興趣的話音識別系統(tǒng)36的元件。語音識別系統(tǒng)36包括一個利用字典42和字母-到-聲音規(guī)則46的語音識別引擎40。該字典保存由語音識別引擎40來識別的詞條清單和相關(guān)發(fā)音。圖3描述字典42的一部分的一個例子。字典42中每個入口包括一個用于識別相關(guān)詞條的字段50以及一個用于確定詞條發(fā)音的字段52。圖3顯示對于詞條“添加”的一個入口的例子。該詞條的識別保存在字段54中而該詞條的發(fā)音保存在字段56中。該字段的發(fā)音依靠音素系統(tǒng)來確定。
語音識別系統(tǒng)36還可以包括一個用于將文字變化成口語輸出的文字-到-語音引擎44。文字-到-語音引擎44具有訪問字典42和變換文字字符到相應(yīng)聲音的字符-到-聲音的規(guī)則46的能力。文字-到-語音引擎44首先利用字典42定位發(fā)音,然后當要處理的字在字典中沒有時再利用字符-到-語音規(guī)則46分類。那些技術(shù)上熟練的人將知道文字-到-語音引擎44不必是語音識別系統(tǒng)的一部分,而可以是一個分開的語音合成單元的一部分。然而,為了下面描述方便,假設(shè)文字-到-語音引擎44是語音識別系統(tǒng)36的一部分。一個適當?shù)膶崿F(xiàn)本發(fā)明最佳實施例的語音識別系統(tǒng)描述在標題為“對于語音合成運行時間聲學(xué)單位選擇的方法和系統(tǒng)”的相關(guān)專利申請中,申請?zhí)枮镹o.08/648,808,其是在1996年4月30日申請的,它與本發(fā)明的申請指定給一個共同的受讓人。那些技術(shù)上熟知的人還將認識到這種語音識別引擎40和文字-到-語音引擎可以有他們自己的字典與字母-到-聲音的規(guī)則。
圖4是一個流程圖,它說明由該語音識別系統(tǒng)36實現(xiàn)使一個用戶能改變存貯在字典42中詞條的發(fā)音的步驟。首先,用戶需要聽一個給定單詞的發(fā)音(圖4中的步驟60)。然后用戶識別希望要聽發(fā)音的詞條(圖4中步驟62)。圖5A顯示一個用戶界面元素78的例子,該界面部件是在用戶做出要聽單詞發(fā)音的請求時顯示的。用戶界面元素78包括一個對發(fā)聲單詞的可替換的清單80。在圖5A顯示的例子中,單詞是按字母來安排的。用戶可以通過移動清單選擇所希望的單詞。在圖5A描述的例子中用戶已經(jīng)選擇出現(xiàn)在選擇框82“orange”的單詞。然后用戶通過激活按鈕84聽所選詞的發(fā)音(圖4中步驟64)。一種用于激活按鈕84合適方法是定位一個鼠標光標在按鈕84上并且當鼠標光標定位在按鈕84上時單擊一下鼠標按鈕。
用戶聽到該單詞的發(fā)音然后做出判斷該發(fā)音是否正確。輸出的發(fā)音是由語音識別系統(tǒng)36使用的缺省發(fā)音。如果用戶接受這個發(fā)音(參看圖4中步驟66),用戶可以激活“OK”按鈕。另一方面,如果用戶不喜歡用這個發(fā)音(看圖4中步驟66),用戶可以激活“改變”按鈕87。在這種方式中,用戶請求所選詞條發(fā)音的改變(圖4中步驟68)。
然后用戶確定所選詞條的新發(fā)音(圖4中步驟68)。圖5B顯示由系統(tǒng)為該詞條提供的多個可替換發(fā)音的第一替換入口,而用戶選擇這些發(fā)音中的一個。尤其是,如圖5B中所示,一個用戶界面元素88提供給用戶,即要求從清單90所列的發(fā)音中選擇一個發(fā)音。用戶可以通過激活“取消”按鈕來取消改變發(fā)音的處理或者也可以選擇清單90中發(fā)音之一并且單擊“OK”按鈕92以接受該選中的發(fā)音做為此詞條的一個新的缺省發(fā)音。
那些技術(shù)上熟知的人認識到這可能是一些產(chǎn)生詞條可替換發(fā)音的多種方法。系統(tǒng)可以處理語言資料庫以便為每個存貯在字典中詞條產(chǎn)生多種發(fā)音。該系統(tǒng)可以為每個采用不同發(fā)音的詞條提供多種樣板。再者,這些多種發(fā)音可以從用戶已經(jīng)輸入到語音識別系統(tǒng)36中的不同發(fā)音經(jīng)驗地推導(dǎo)出來。
第二種可替換描繪在圖5C中。在這個第二可替換中,系統(tǒng)不提供可替換的發(fā)音;而用戶要輸入一個替換的發(fā)音。一個如圖5C中描述的用戶界面元素96被顯示,而用戶在文字框內(nèi)拼讀出新的發(fā)音。用戶無須為該發(fā)音輸入音素而只是輸入一個希望捕獲單詞發(fā)音的字母序列(即字符串)。例如,如果用戶希望拼讀出詞“orange”的發(fā)音,用戶可以輸入字符串“ornj”。然后用戶可以聽到該系統(tǒng)是如何翻譯這個通過激活按鈕100而輸入在文字框98中的字符串。語音識別系統(tǒng)36利用字母-到-聲音的規(guī)則及字典處理輸入在文字框98中的字符串。如果用戶滿意這個詞條發(fā)音的輸出結(jié)果,用戶可以激活“OK”按鈕102。如果希望不改變該發(fā)音,用戶可以激活“取消”按鈕104。如果用戶不滿意這個詞條發(fā)音的輸出結(jié)果但是希望試圖輸入另一個發(fā)音,用戶在文字框98中鍵入替換的發(fā)音并且重復(fù)這個處理過程。
那些技術(shù)上熟知的人認識到其它的替換也可使用。例如,這些發(fā)音可以不做為可選字符串表示給用戶(如在第一個可替換中),反而可以與特殊的用戶界面元素有關(guān),如一些用戶可以激活按鈕去聽替換的發(fā)音。圖5D顯示一個按鈕93被顯示位置的例子,并且每個按鈕可激活以便為一個單獨的發(fā)音產(chǎn)生語音輸出。
在用戶已經(jīng)確定接受新發(fā)音后(即,圖4中步驟68),系統(tǒng)需要相應(yīng)地更新字典。具體地說,系統(tǒng)用滿足用戶要求的新確定的發(fā)音代替該詞條的發(fā)音(圖4中步驟70)。再者,系統(tǒng)能夠以系統(tǒng)的方式擴展特殊詞條的變化到其它詞條的變化。例如,如果一個用戶發(fā)音“what”為“HH W AHT”,那么這個變化可以擴展到所有“wh”開始的詞(例如,“where”和“which”)。那些技術(shù)上熟知的人們將認識到,在這些可替換的實施例中,字典可以保存多種發(fā)音以及具有一個單獨發(fā)音作為缺省發(fā)音。在這種代替實施例中,發(fā)音的變化僅僅是一種由語音識別系統(tǒng)36所用的缺省發(fā)音中的變化。
本發(fā)明最佳實施例的語音識別系統(tǒng)是可擴展的,即在新詞條可以加入字典中。圖6是一個圖解說明當用戶希望添加新詞條到字典中時執(zhí)行步驟的流程圖。首先用戶請求添加一個新詞條到字典中(圖6中步驟110)。圖7A顯示一個用戶界面結(jié)構(gòu)的例子,該結(jié)構(gòu)由聽寫系統(tǒng)34提供以便使用戶添加新詞條到字典42中。圖7A描述利用聽寫系統(tǒng)34的應(yīng)用程序的窗口26。窗口126包括一個在其上包含編輯菜單字頭134的菜單框132。當用戶定位鼠標光標在編輯(Edit)菜單字頭134上并且按下鼠標按鈕時,包括用于添加新詞條到字典中的菜單項138的一個菜單136被拉出。用戶可以通過定位鼠標的光標在項目138上并且釋放鼠標按鈕或在該項目上單擊。窗口126保存文字126,該文字是通過利用語音識別系統(tǒng)36的聽寫系統(tǒng)34通過翻譯用戶經(jīng)話筒26讀出的輸入而產(chǎn)生的。當時的指示位置表示在圖7A中。
在用戶選擇一個菜單項入口138后,一個如圖7B中所示的對話框140被顯示出。這個對話框140要求用戶輸入他希望添加到字典的詞條的字符。字符框142提供在對話框140內(nèi)。在用戶輸入字符后,用戶可以通過單擊“OK”按鈕144繼續(xù)添加新詞條的處理或者通過單擊“取消”按紐146終止這個處理。所以,用戶為該詞條提供的字符被添加到字典中(圖6中的步驟112)。聽寫系統(tǒng)34在語音識別系統(tǒng)36上傳遞該文字字符。語音識別系統(tǒng)提供該字符給字典42和字母-到-聲音的規(guī)則46以便產(chǎn)生新詞條的發(fā)音(圖6中的步驟114)。然后,生成的發(fā)音通過聲音揚聲器24輸出給用戶(圖6中116步驟)以至于用戶能夠知道語音識別系統(tǒng)36期望的詞條要如何正確發(fā)音。然后如圖7C中所示的用戶界面元素150可以顯示以使得用戶接受或者拒絕這個發(fā)音。如圖7C中所示例子,用戶界面元素150詢問用戶是否接受該新詞條的發(fā)音并且該界面包括一個用來接受發(fā)音的“是(Yes)”按鈕152,一個用來拒絕該發(fā)音的“否(No)”按鈕154和一個用來對新詞條發(fā)音產(chǎn)生聲音輸出的聲音輸出按鈕153。通過激活這些按鈕,用戶接受或拒絕由字符-到-語音引擎44產(chǎn)生的發(fā)音(圖6中步驟118)。
在用戶接受該發(fā)音的時,該詞條和相應(yīng)的發(fā)音被添加到字典42中(圖6中步驟120)。這個相應(yīng)的發(fā)音將在以后的拼讀詞條的識別中使用。然而,如果用戶不接受該發(fā)音,系統(tǒng)則提示該發(fā)音給用戶(圖6中步驟122)。語音識別系統(tǒng)136實現(xiàn)由詞典42產(chǎn)生的發(fā)音以及用戶沒有接受的字符-到-聲音的規(guī)則,因此,要求用戶為這個單詞產(chǎn)生一個發(fā)音的表示。語音識別系統(tǒng)36顯示一個如圖7D中描繪的對話框160以請求用戶輸入新詞條的發(fā)音。對話框160包括一個用戶可以鍵入新詞條應(yīng)如何發(fā)音的字符串的文字框162。用戶輸入文字到文字框162后,用戶可以激活按鈕164來聽一下系統(tǒng)如果翻譯輸入到文字框中的文字。具體地說,系統(tǒng)產(chǎn)生的輸入到文字框162中的發(fā)音表示在揚聲器24輸出。一旦用戶已經(jīng)輸入一個產(chǎn)生可接受發(fā)音的字符串,用戶可以通過激活“OK”按鈕166改變這個發(fā)音。用戶也可以通過激活“取消”按鈕按鈕168取消該發(fā)音的改變。一般來講,系統(tǒng)將提示該發(fā)音給用戶(步驟122),接受由用戶輸入的發(fā)音(步驟124)以及輸出該用戶已接受的發(fā)音直到用戶接受最終結(jié)果的發(fā)音。代替地,系統(tǒng)可以將用戶新加入的發(fā)音與當前的發(fā)音比較,并且如果足夠接近則不再提示給用戶接受或者拒絕。
該系統(tǒng)也可以在沒有明確的用戶請求下明顯地更新字典42中保存的發(fā)音。這種結(jié)構(gòu)可以獨立于上述的用戶初始逼近使用,以更新保存在字典42中的發(fā)音或者與該近似一起可以使用。初始地,該系統(tǒng)被提供有發(fā)音數(shù)據(jù)的語言資料庫,以及該系統(tǒng)應(yīng)用一種如分類的算法和回歸樹(“CART(計算機自動化評價技術(shù))”)算法來導(dǎo)出相關(guān)詞條的可替換的發(fā)音(圖8中步驟170)。CART算法,在本技術(shù)領(lǐng)域上是大家非常熟悉的并且描述在包括Breiman等人出版的大量出版物中,1984年的《類驟與回歸樹》。那些技術(shù)上熟知的人將認識到其它啟發(fā)式的研究也可以應(yīng)用于導(dǎo)出這個發(fā)音。這個推導(dǎo)出的發(fā)音為以后的使用保存起來。當一個用戶讀出一個詞條而該詞條被識別時,系統(tǒng)將用戶讀出的詞條與保存詞條的可替換發(fā)音比較(圖8中步驟172)。這個過程被重復(fù)(參考圖8中返回到步驟172)執(zhí)行直到系統(tǒng)確信其能夠肯定是用戶使用的可替換發(fā)音(參看圖8中步驟174)。例如,在系統(tǒng)達到足夠可信的水平之前,系統(tǒng)要求對于接收到的可替換發(fā)音中的一個有一定量的命中以至于確定該發(fā)音為用戶所使用的發(fā)音。語音識別系統(tǒng)36然后改變字典42以便使用用戶感興趣的發(fā)音(即系統(tǒng)確定為用戶所用的發(fā)音)(圖8中步驟176)。
雖然本發(fā)明最佳實施例已參考最佳實施例描述了,但是那些熟知此技術(shù)的人們應(yīng)認識到在形式和細節(jié)上所能夠做出的各種改變并沒有脫離本發(fā)明權(quán)利要求所限定的范圍。
盡管本發(fā)明已該參照最佳實施例描述過,但是那些技術(shù)上熟知的人們應(yīng)認識到在沒有脫離本發(fā)明的精神和范圍的情況下是能夠做出形式或細節(jié)上的改變的。
權(quán)利要求
1.在一個用于將來自講話者的語音輸入變換成文字的計算機-執(zhí)行的聽寫系統(tǒng)中使用的一種方法,該方法包括步驟為聽寫系統(tǒng)識別的單詞提供一個發(fā)音清單;提供存儲在該清單中的一個被選擇單詞的可聽的當前發(fā)音;接受來自用戶的一個請求以便將存儲在所述清單中選定單詞的現(xiàn)行發(fā)音改編成一個新的發(fā)音,所述請求指定新的發(fā)音;以及為選定單詞改變存儲在清單中的發(fā)音,從現(xiàn)行發(fā)音改變成新的發(fā)音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于還包括提供一個用戶界面的步驟,通過該界面用戶做出請求以改變選定單詞的現(xiàn)行發(fā)音。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于用戶界面使得一個用戶用字母拼讀出選定單詞的新發(fā)音。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述聽寫系統(tǒng)包括一個聲音輸出設(shè)備,以及所述方法還包括在接受請求之前輸出選定單詞的現(xiàn)行發(fā)音的步驟。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于所述聽寫系統(tǒng)包括一個聲音輸出設(shè)備,以及接受請求步驟還包括一些步驟接受一個字符串,該字符串說明用戶所相信的選定單詞發(fā)聲的新發(fā)音;為用戶提供一個用戶界面元素以聽該聽寫系統(tǒng)預(yù)想的所述字符串如何發(fā)音的;提供一個文字-到-語音引擎用于將文字變換成具有相關(guān)發(fā)音的語音;響應(yīng)使用該用戶界面元素的用戶,利用所述文字-到-語音引擎為字符串在聲音輸出設(shè)備上輸出語音;以及響應(yīng)接受由所述文字-到-語音引擎為作為所述選定單詞的一個正確發(fā)音的字符串所產(chǎn)生的語音的用戶,產(chǎn)生一請求。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于還包括為了用戶提供一個附加用戶界面元素以接受或者拒絕由所述文字-到-語音引擎輸出的相關(guān)語音的發(fā)音的步驟。
7.在一個識別來自講話者的語音輸入以及包括一個聲音輸出設(shè)備的計算機-執(zhí)行的語音識別系統(tǒng)中使用的方法,該方法包括步驟提供一個所述語音識別系統(tǒng)識別詞條的字典,所述字典指定語音識別系統(tǒng)期望的每個詞條如何發(fā)音;接受來自用戶的一個請求以添加一個新詞條到所述字典中;由所述語音識別系統(tǒng)為新詞條產(chǎn)生一個發(fā)音;在聲音輸出設(shè)備上為新詞條輸出所述發(fā)音以致用戶可以監(jiān)視并改變新詞條的發(fā)音;以及向字典添加所述新詞條和產(chǎn)生的發(fā)音。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于所述語音識別系統(tǒng)包括一個用于變換文字到語音的文字-到-語音引擎,以及所述文字-到-語音引擎用來輸出所述新詞條的發(fā)音。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于所述文字-到-語音引擎利用字母-到-聲音的規(guī)則產(chǎn)生所述新詞條的發(fā)音。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于所述方法還包括提示用戶檢驗產(chǎn)生的新詞條發(fā)音正確的步驟。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于當用戶檢驗產(chǎn)生的新詞條發(fā)音不正確時,接受來自用戶的一個新詞條的正確發(fā)音的指定并且添加所述正確發(fā)音到字典中。
12.在一個識別來自講話者的口語語音的計算機-執(zhí)行的語音識別系統(tǒng)中使用的一種方法,所述系統(tǒng)包括一個聲音輸出設(shè)備和一個用于從文字產(chǎn)生語音的一文字-到-語音引擎,該方法包括步驟將選定單詞的多種發(fā)音存儲在由文字-到-語音引擎使用的字典中;在聲音輸出設(shè)備上輸出每個發(fā)音以便用戶能夠聽到這些發(fā)音;以及響應(yīng)選定的發(fā)音中的一個的用戶,使用由語音識別系統(tǒng)選定的發(fā)音去確認語音。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于所述語音識別系統(tǒng)是用在一個將講話者口語語音變換成文字的聽寫系統(tǒng)中。
14.在一個識別來自講話者的口語語音的計算機-執(zhí)行的語音識別系統(tǒng)中的一種方法,該方法包括步驟為對應(yīng)于所述語音識別系統(tǒng)期望詞條如何發(fā)音的詞條提供一個具有發(fā)音的詞條的字典;進行試探以便引出所述詞條的可替換的發(fā)音;在講話者讀出詞條之一以便語音識別系統(tǒng)識別該選定詞條的多個例子中,確定用戶所用選定詞條的可替換發(fā)音的哪一個發(fā)音;以及根據(jù)這個確定步驟,確定用戶最可能使用的選定單詞的可替換發(fā)音中的哪一個,并更新字典以便指定這個用戶最可能使用的發(fā)音為語音識別系統(tǒng)期望的被選擇詞條的發(fā)音。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于CART算法被應(yīng)用于導(dǎo)出所述可替換發(fā)音。
16.在一個識別來自講話者的口語語音的計算機-執(zhí)行的語音識別系統(tǒng)中使用的方法,所述系統(tǒng)具有一個輸出設(shè)備,該方法包括步驟從講話者接受一個具有給定發(fā)音的詞條的口語譯本;為與語音識別系統(tǒng)期望講話者講出的詞條相對應(yīng)的詞條提供一個期望的發(fā)音;將所述詞條口語譯本的給定發(fā)音與期望所述詞條的發(fā)音比較,以便確定所述詞條口語譯本的給定發(fā)音和所述詞條的期望發(fā)音之間的差別等級;以及在差別的等級超過一個可接受的預(yù)定閾值時,在輸出設(shè)備上產(chǎn)生輸出以便通知講話者差別等級超過閾值。
17.根據(jù)權(quán)利要求16所述的方法,其特征在于語音識別系統(tǒng)被用在字典系統(tǒng)中以便從語音生成文字。
18.根據(jù)權(quán)利要求16所述的方法,其特征在于輸出裝置是一音頻輸出裝置,并且該輸出是音頻輸出。
19.根據(jù)權(quán)利要求16所述的方法,其特征在于輸出裝置是一視頻輸出裝置,并且該輸出是視頻輸出。
20.根據(jù)權(quán)利要求16所述的方法,其特征在于系統(tǒng)包括文本-到-語音結(jié)構(gòu),其中文字-到-語音結(jié)構(gòu)生成詞條的發(fā)音版本。
21.在一個識別來自講話者的語音輸入的計算機-執(zhí)行的語音識別系統(tǒng)中使用的一種方法,所述系統(tǒng)具有一個顯示設(shè)備,該方法包括步驟提供一個給定單詞的期望發(fā)音,其構(gòu)成語音識別系統(tǒng)期望講話者對該給定單詞的發(fā)音;搜集關(guān)于來自講話者口語語音的給定單詞被所述語音識別系統(tǒng)錯誤識別的頻率的統(tǒng)計數(shù);以及在所述統(tǒng)計數(shù)表示給定單詞被錯誤識別比一個閾值更頻繁時,通過在顯示設(shè)備上產(chǎn)生輸出提示用戶,通過一用戶界面元素指示用戶可以請求不同的發(fā)音,以便糾正給定單詞的期望發(fā)音,由用戶界面元素輸出具有正確的期望的發(fā)音的給定單詞的口語譯本。
全文摘要
一個語音識別系統(tǒng)(36)時刻擴展的,新詞條可以添加到由語音識別系統(tǒng)(36)識別的詞條清單(42)。該語音識別系統(tǒng)(36)在新詞條被添加時提供一個聲音反饋以便用戶能夠聽到系統(tǒng)(36)期望該單詞如何發(fā)音。然后用戶可以接受這個發(fā)音或者提供自己的發(fā)音。用戶還可以選擇地改變一些單詞的發(fā)音以便避免該系統(tǒng)(36)的錯誤識別。該系統(tǒng)(36)可以提供適當?shù)挠脩艚缑嬖赜脕硎沟糜脩舾淖儐卧~的發(fā)音。系統(tǒng)(36)還可以包括智能,用于根據(jù)經(jīng)驗地導(dǎo)出信息自動地改變在識別中使用的單詞發(fā)音。
文檔編號G10L15/22GK1604187SQ20041008790
公開日2005年4月6日 申請日期1998年4月8日 優(yōu)先權(quán)日1997年4月10日
發(fā)明者學(xué)東·D黃, 邁克爾·J·羅扎克, 姜力 申請人:微軟公司