在語音識別過程中顯示可變數(shù)目的替換單詞的方法和系統(tǒng)的制作方法

文檔序號：2820348閱讀：213來源：國知局

專利名稱：在語音識別過程中顯示可變數(shù)目的替換單詞的方法和系統(tǒng)的制作方法
技術(shù)領域：
本發(fā)明涉及計算機語音識別，更具體說，涉及由語音識別系統(tǒng)產(chǎn)生的聽寫內(nèi)容的編輯。
允許講話者有效地聽寫以及允許聽寫內(nèi)容被自動的識別的計算機語音信息系統(tǒng)是計算機語音系統(tǒng)開發(fā)者長期以來研究的目標。由這種計算機語音識別(CSR)系統(tǒng)產(chǎn)生的好處是具有實質(zhì)性的。例如，不是通過打字的方法將文件輸入到計算機系統(tǒng)中，而是簡單地通過念出該文件的單詞，CSR系統(tǒng)就將會識別這些單詞并將每個單詞的字母存儲，如同這些單詞是被打字進去的一樣。由于人們通常講話比打字快，所以可以提高效率。而且，人們也無需要再去學習打字。由于人的手被除了打字以外的其他工作所占用，所以計算機可具有的許多應用，在目前來講是不可能的。
典型的CSR系統(tǒng)具有一個識別部分和一個聽寫編輯部分。識別部分控制講話者的一系列的發(fā)音的接收，識別每一發(fā)音，并且將每一個發(fā)音所識別的詞發(fā)送到聽寫編輯部分。聽寫編輯部分顯示識別的詞并允許使用者糾正被誤識別的詞。例如，聽寫編輯部分允許使用者或者通過重新念這個單詞或者打出正確的單詞來替代一個被誤識別的單詞。
識別部分典形地包括字典中每個單詞的發(fā)音的模型。當識別部分接收到講話發(fā)音時，識別部分將講話發(fā)音與詞典中的每個單詞的模型發(fā)音相比較以便發(fā)現(xiàn)與講話發(fā)音最接近的模型發(fā)音。典形的識別部分計算每個模型發(fā)音與講話發(fā)音匹配的可能性。這種識別部分向聽寫編輯部分發(fā)送一系列的與講話發(fā)音最高可能性相匹配的單詞作為識別的單詞表。
聽寫編輯部分從具有最高可能性的識別的單詞表中選擇出單詞作為所識別的與講話發(fā)音相對應的單詞。聽寫編輯部分然后顯示該單詞。但是如果顯示的單詞是講話發(fā)音的錯誤識別，則聽寫編輯部分允許講話者糾正錯誤識別的單詞。當講話者指示糾正錯誤識別的單詞時，聽寫編輯部分顯示一個糾正窗口，該窗口包含以上識別的單詞表中的單詞。當該表中的單詞中的一個是正確的單詞時，講話者可以單擊此單詞來執(zhí)行糾正。但是，如果正確的詞或不在該表中，講話者則或者重新講話或者打出正確的單詞。
一些CSR系統(tǒng)被用作字處理器的聽寫裝置。這種CSR系統(tǒng)控制講話發(fā)音的接收和識別并且還向字處理器發(fā)送與識別的單詞相對應的每個字符。這種配置的優(yōu)點是當講話者試圖糾正己講的單詞時，字處理器不對已經(jīng)識別的單字表進行訪問，因此不能夠顯示這些單詞以便于糾正。
本發(fā)明提供了一種新型的和改進型的計算機語音識別(CSR)系統(tǒng)，這種系統(tǒng)具有一個識別部分和一個聽寫編輯部分。聽寫編輯部分可以用來快速糾正誤識別的單詞。聽寫編輯部分允許講話者通過調(diào)整糾正窗口的大小來選擇在糾正窗口中顯示的替換單詞號。聽寫編輯部分在糾正窗口中以字母次序顯示單詞，以便于找出正確的單詞。根據(jù)本發(fā)明的另一方面，基于對先前的講話發(fā)音和最新的講話發(fā)音之間的分析，當誤識別的單詞或短語被講出時，這種CSR系統(tǒng)消除了新的講話發(fā)音被再次識別成與誤識別的單詞或短語相同的單詞或短語。這種聽寫編輯部分也能夠允許講話者在將識別的單詞轉(zhuǎn)移到字處理器之前，規(guī)定在聽寫編輯部分中緩存的語音的數(shù)量。該聽寫編輯系統(tǒng)也可以使用一種單詞糾正類比器(metaphor)或者短語糾正類比器，來改變編輯工作，這種工作通常是以字符為基礎的，來將其改變成或者是以單詞為基礎的或者是以短語為基礎的。
附

圖1A顯示了可調(diào)整大小的糾正窗口的例子。
附圖1B顯示了在調(diào)整大小之后的糾正窗口的例子。
附圖2A顯示一個可調(diào)整的聽寫窗口。
附圖2B顯示了使用一個糾正窗口在聽寫窗口中糾正文本。
附圖3A-B顯示了用于聽寫編輯部分的單詞/短語糾正類比器。
附圖4A-C是最佳實施例的計算機系統(tǒng)的方框圖。
附圖5A是具有可調(diào)整大小的糾正窗口的聽寫編輯部分的流程圖。
附圖5B是可調(diào)整大小的糾正窗口的窗口程序的流程圖。
附圖6是具有可調(diào)整的聽寫窗口的聽寫編輯部分的流程圖。
附圖7是執(zhí)行單詞糾正類比器的字處理器或者聽寫編輯部分的窗口程序的流程圖。
附圖8是能從進一步的識別中消除誤識別單詞的CSR系統(tǒng)的流程圖。
附圖9是自動識別訓練的流程圖。
本發(fā)明提供的聽寫編輯部分允許對計算機語音識別(CSR)系統(tǒng)產(chǎn)生的聽寫材料進行編輯。在一個示例性的實施例中，通過調(diào)整糾正窗口的大小，這種聽寫編輯部分允許講話者選擇在糾正窗口中顯示的替換單詞的數(shù)目。這一聽寫編輯部分也以字母次序的順序在糾正窗口中顯示單詞。當一個被錯誤識別的單詞被再次講出來的時候，聽寫編輯部分最好還能夠消除這個被再次講出的發(fā)音被再識別為同一個錯誤識別的單詞的可能性。當將識別的單詞提供一個應用程序，例如一個字處理器時，這種聽寫編輯部分最好能夠允許講話者規(guī)定在將識別的單詞轉(zhuǎn)移到應用程序之前由聽寫編輯部分緩存的語音的數(shù)量。下面結(jié)合一種離散的CSR系統(tǒng)(即，講話者在每個單詞之間有停頓)描述本發(fā)明的各個方面。但是，這些方面可以用于連續(xù)CSR系統(tǒng)。例如，糾正窗口可以被調(diào)整大小，以指示要被顯示的替換短語的數(shù)目。而且，當講話者選擇一個要被替換的短語時，用戶界面系統(tǒng)可以保證同一個短語不會被再次識別。
附圖1A顯示了一個示例性的可調(diào)整大小的糾正窗口。聽寫編輯部分窗口101包括識別的單詞102和糾正窗口103。在這個例子中，講話者講出了下面的單詞“I will make the cake”。識別部分將單詞“make”錯誤地識別為單詞“fake”。然后，講話者指出單詞“fake”應該被糾正。在顯示糾正窗口之前，聽寫編輯部分確定可調(diào)整大小的糾正窗口的當前大小并且計算在糾正窗口中顯示的單詞的數(shù)目。然后，聽寫編輯部分從具有最高可能性的識別的單詞(即，替換單詞)中選擇單詞數(shù)目，并且利用標準窗口調(diào)整技術(shù)(例如利用鼠標指向窗口的邊界并且拖動鼠標)在糾正窗口中顯示這些單詞。如果講話者想從表中看到更多的單詞，講話者可以簡單地調(diào)整糾正窗口的大小。當糾正窗口被調(diào)整大小時，聽寫編輯部分再次確定可以在糾正窗口中顯示的單詞的數(shù)目，并在糾正窗口中顯示這些數(shù)目的單詞。當下次講話者要糾正一個單詞時，聽寫編輯部分在糾正窗口中顯示與上次調(diào)整大小的窗口相吻合的那些數(shù)目的單詞。這樣，通過簡單的調(diào)整糾正窗口的大小，講話者可以有效地選擇要被顯示的單詞的數(shù)目。附圖1B顯示了在調(diào)整大小后的示例性的糾正窗口。
另外，聽寫編輯部分最好以字母的次序在糾正窗口中顯示單詞。當單詞被顯示時，以字母次序顯示單詞可以允許講話者迅速的找到正確的單詞。現(xiàn)有技術(shù)的聽寫編輯部分是根據(jù)識別部分確定的可能性為基礎確定的次序在糾正窗口中顯示單詞的。但是，當以可能性次序顯示時，除非正確的單詞被顯示在第一位或第二位，否則對講話者來說很難找到正確的單詞。
附圖2A顯示了一個用于與一個字處理器相鏈接的計算機語音識別系統(tǒng)的可調(diào)整聽寫窗口。計算機語音識別系統(tǒng)輸入一系列的來自講話者的發(fā)音，識別這些發(fā)音，并在聽寫窗口201中顯示對這些發(fā)音識別的單詞。由于聽寫窗口是由聽寫編輯部分控制的，講話者可以在聽寫窗口中糾正這些單詞。因此，當講話者在聽寫窗口內(nèi)選擇糾正一個單詞時，講話者可以利用由聽寫編輯部分支持的任何糾正設施。例如，對于目前在聽寫窗口中顯示的任何單詞，講話者可以利用糾正窗口顯示在識別的單詞表中的單詞。附圖2B顯示了在聽寫窗口中使用糾正窗口糾正文本。
在一個實施例中，聽寫編輯部分允許講話者調(diào)整聽寫窗口可以容納的語音的數(shù)量。由于講話者只能對聽寫窗口內(nèi)的單詞使用糾正設施，而不能對字處理器窗口內(nèi)的單詞使用糾正設施，講話者可以根據(jù)講話者的聽寫習慣調(diào)整聽寫窗口的大小以容納語音的數(shù)量。例如，講話者可以規(guī)定聽寫窗口只能容納一個句子，一個段落，或固定數(shù)目的單詞。一方面，講話者可以利用標準的窗口調(diào)整技術(shù)調(diào)整聽寫窗口大小，使得聽寫窗口可以容納適合于窗口的數(shù)目的單詞。當聽寫窗口變滿時，計算機語音識別系統(tǒng)或者將聽寫窗口中的所有的單詞或者將部分單詞發(fā)送到字處理器中。例如，如果講話者指示聽寫窗口應該容納一個句子時，那么，在任何時候一個新的句子被開始時，計算機語音識別系統(tǒng)將把所有的單詞(也就是說一個句子)發(fā)送到字處理器中。相反，如果講話者調(diào)整聽寫窗口的大小，那么計算機語音識別系統(tǒng)可以一次只發(fā)送一行單詞到字處理器中。
附圖3A顯示了用于聽寫編輯部分的單詞糾正類比器。當字處理系統(tǒng)處于聽寫模式時，聽寫編輯部分自動地改變各種編輯事件(例如，鍵盤事件，鼠標事件，筆事件，和語音事件)的定義，成為以單詞為基礎的，而不是以字符為基礎的。例如，在聽寫模式中，退格鍵，通常只后退一個字符，被設定為一次后退一個單詞。因此，當在聽寫模式中使用者按下退格鍵時，在當前插入點左側(cè)的整個單詞將被刪除。類似地，當在聽寫模式時，左和右箭頭鍵將使插入點向左或向右移動一個單詞，并且刪除鍵將刪除插入點右側(cè)的整個的單詞。而且，當使用者單擊鼠標鍵而且鼠標光標在一個單詞之上時，聽寫編輯部分選擇鼠標光標正處于之上的單詞，而不是簡單地在該單詞內(nèi)設置插入點。但是，如果鼠標光標處于單詞之間時，則插入點被設置在單詞之間。行301-304顯示了單詞糾正類比器的示例性效果。每一行都顯示了當指示的事件發(fā)生時之前和之后的文本。例如，行302顯示了如果插入點在單詞“test，”之后時，左箭頭事件將引起插入點被移動到單詞“test.”之前。單詞糾正類比器的使用方便了在聽寫模式狀態(tài)中的單詞的糾正，因為通常講話者在糾正時希望重新講出整個單詞。因此，當講話者單擊一個單詞時，整個單詞被選擇，并且講話者可以講話以便替換被選擇的單詞。當語音識別是連續(xù)的情況時，最好使用短語糾正類比器。因為連續(xù)語音識別不能夠正確地鑒別單詞之間的界限，單詞糾正類比器可能會選擇一個發(fā)音只代表單詞的一部分或者代表多個單詞的錯誤識別的單詞。在這種情況下，最好重新講出整個短語。結(jié)果，各種編輯事件的定義將被改變成為以短語為基礎，而不是被改變成為以單詞為基礎的。例如，使用者說單詞“backspace”的編輯事件通常是后退到前面一個字符，現(xiàn)在則改變?yōu)橐淮魏笸艘粋€短語。附圖3B顯示了這種短語糾正類比器。
在一個實施例中，計算機語音識別系統(tǒng)提供了錯誤識別的單詞刪除，以防止重新發(fā)音的被再次識別為已經(jīng)被糾正的同一個單詞。當講話者糾正一個錯誤識別的單詞時，聽寫編輯部分作出確定。講話者可以不同方式糾正錯誤識別的單詞。例如，講話者可以刪除該單詞，然后在該單詞被刪除的位置的插入點再說出該單詞。另外，講話者可以點中錯誤識別的單詞然后講話以便替換被點中的單詞。當識別部分接收到一個重新說出的發(fā)音時，識別部分識別該發(fā)音并向聽寫編輯部分發(fā)送一個新識別的單詞表。聽寫編輯部分從新識別的單詞表中選擇并顯示出被糾正的單詞以外的具有最高可能性的單詞。在一個實施例中，聽寫編輯部分利用以前錯誤識別的發(fā)音的識別單詞表和新識別的單詞表來選擇與兩種發(fā)音相匹配的具有最高可能性的單詞(除被糾正的單詞以外)。為了計算最高可能性，聽寫編輯部分確定兩個識別的單詞表中的單詞并且乘以它們的可能性。例如，下面的表中顯示了示例性的識別的單詞表和對應的可能性。
以前識別的單詞表新識別的單詞表。
Fake.4 Fake.4Make.3 Mace.3Bake.1 Make.2Mace.1 Bake.1如果講話者說單詞“make”，則沒有錯誤識別的單詞消除，聽寫編輯部分二次都將選擇單詞“fake”，因為它在兩個表中都具有最高的可能性。利用錯誤識別的單詞消除，當單詞“fake”被糾正時，聽寫編輯部分選擇單詞“mace”，因為除單詞“fake”以外，單詞“mace”在當前的單詞表中有最高的可能性。但是，當來自兩個識別的單詞表中的可能性被結(jié)合在一起時，聽寫編輯部分選擇單詞“make”作為正確的單詞，因為它具有最高的結(jié)合的可能性。單詞“make”的結(jié)合的可能性為.06(.3×.2)，對于單詞“mace為.03(.1×.3)，對于單詞“bake”，為.01(.1×.1)。
計算機語音識別系統(tǒng)也自動向其單詞表中添加單詞并且自動進行訓練。當使用者通過打正確的單詞來糾正一個錯誤識別的單詞時，聽寫編輯部分確定被打的單詞是否在單詞表中。如果被打單詞不在單詞表中，則聽寫編輯部分指示識別部分利用被錯誤識別的講話發(fā)音來訓練該單詞的模型來將其加入到單詞表中。但是，如果被打的單詞在單詞表中，則聽寫編輯部分自動指示識別部分利用被錯誤識別的講話發(fā)音訓練這個被打的單詞。
當與連續(xù)聽寫系統(tǒng)使用時，除了單詞糾正以外，該聽寫編輯部分允許短語糾正。在連續(xù)聽寫系統(tǒng)中，識別部分可能會錯誤地鑒別單詞的界限。例如，講話者可能會說短語“I want to recognize speech.”。識別部分可能會將該短語識別為“I want to wreck a nice beach.”。但是，單個單詞糾正的使用不能給講話者提供一個友好的方式糾正這種錯誤識別。如果講話者期望看到單詞“beach”的替換的單詞，在糾正窗口中可顯示“peach”，“teach”，和“speech”。如果講話者希望看到單詞“nice”的替換單詞，“ice”和“rice”可被顯示，而對單詞“wreck”，單詞“heck”和單詞“rack”可被顯示。這種單個單詞糾正不能夠鑒別單詞“recognize speech”。
這種聽寫編輯部分允許短語糾正，使得因為錯誤的單詞邊界引起的錯誤識別可以被有效地糾正。當講話者選擇一個要糾正的短語時，聽寫編輯部分選擇并且顯示一列替換的短語。例如，如果講話者選擇“wreck a nicebeach”，替換的短語可能是“wreck a nice peach”，“rack an ice leach”和“recognize speech”。而且，如果講話者選擇“wreck a nice”，替換的短語可以是“rack on ice”和“recognize”。
此外，當使用者選擇一個要糾正的錯誤識別的短語時，聽寫編輯部分假定當前的短語與錯誤識別的短語的差別大于一個單詞。如果在錯誤識別的短語中只有一個單詞是不正確的，那么講話者將可以簡單地只選擇錯誤識別的單詞而不是整個錯誤識別的短語。利用這種假定，聽寫編輯部分不顯示只與錯誤識別的短語有一個單詞不同的替換短語。繼續(xù)講述前面的例子，如果講話者選擇“wreck a nice beach”，則只有替換短語“rack anice leach”和“recognize speech”將被顯示。由于替換短語“wreck anice peach”只有一個單詞不同，它不被顯示。此外，在一個實施例中，聽寫編輯部分假定講話者選擇一個要糾正的短語時，錯誤識別是由于不正確的鑒別單詞界限造成的。具體說，如果短語能夠通過選擇一個顯示的替換單詞來糾正，講話者則將選擇這些替換的單詞。結(jié)果，聽寫編輯部分將不顯示可以從替換表中糾正具體的單詞來糾正的任何替換短語。例如，如果單詞“rack”，“an”，“ice”，和“l(fā)each”是對應的錯誤識別的單詞的替換單詞的話，聽寫編輯部分將不顯示短語“rack an iceleach”。
附圖4A是最佳實施例的計算機系統(tǒng)的方框圖。計算機系統(tǒng)400包括一個存儲器401，中央處理單元402，輸出輸入接口單元403，存儲裝置404，顯示裝置405，鍵盤406，鼠標407，以及麥克風408。存儲器包括一個計算機語音識別系統(tǒng)，該系統(tǒng)包括一個模型部分408，一個識別部分409，一個聽寫編輯部分410并且包含一個應用程序411。模型部分包括單詞表中的各種單詞的模型發(fā)音。識別部分接收講話發(fā)音并訪問模型部分以便產(chǎn)生識別的單詞表。聽寫編輯部分接受識別的單詞表，并顯示識別的單詞。識別部分，聽寫編輯部分，應用程序可以各種方式互聯(lián)。附圖4B-4C是顯示識別部分，聽寫編輯部分，和應用程序之間各種互連的方框圖。在附圖4B中，識別部分與聽寫編輯部分的編程接口(API)相連，它反過來與應用程序的編程接口API相連。在附圖4C中，識別部分與聽寫編輯部分和應用程序提供的應用程序編程接口API相連。另外，應用程序也可以與識別部分和聽寫編輯部分提供的API相連。
附圖5A是具有可調(diào)整大小的糾正窗口的計算機語音識別系統(tǒng)的流程圖。通過調(diào)整糾正窗口的大小，講話者可以從識別的單詞表中指示應該被顯示的單詞的數(shù)目。在步驟5A01-5A10中，計算機語音識別系統(tǒng)接收單詞的發(fā)音，顯示識別的單詞，允許講話者糾正該單詞并且循環(huán)進行。在步驟5A01中，如果講話者繼續(xù)進行聽寫，則系統(tǒng)在步驟5A02繼續(xù)，否則聽寫完成。在步驟5A02中，系統(tǒng)輸入來自講話者的下一個發(fā)音。在步驟5A03，系統(tǒng)使得識別部分識別所發(fā)出的發(fā)音。識別部分給出具有在單詞表中對應于講話發(fā)音的每個單詞的多大可能性的識別的單詞表。在步驟5A04，系統(tǒng)選擇并且顯示在識別的單詞表中的具有最高可能性的單詞。在步驟5A05-5A10中，系統(tǒng)循環(huán)允許講話者糾正被顯示的單詞。在步驟5A05中，如果講話者要糾正被顯示的單詞，則系統(tǒng)在步驟5A06繼續(xù)，否則系統(tǒng)返回到步驟5A01繼續(xù)進行聽寫。在步驟5A06，系統(tǒng)確定糾正窗口的當前大小。在步驟5A07，系統(tǒng)根據(jù)窗口當前的大小確定可以適合糾正窗口的單詞的個數(shù)。在步驟5A08，系統(tǒng)從識別的單詞表中選擇具有最高可能性的單詞并在糾正窗口中顯示這些單詞。在一個實施例中，系統(tǒng)在顯示這些單詞之前按字母次序?qū)@些選擇的單詞排隊。在步驟5A09中，系統(tǒng)接受來自講話者的正確的單詞。在步驟5A10，系統(tǒng)利用正確的單詞替換被顯示單詞并返回到步驟5A05。
附圖5B是用于糾正窗口的窗口程序的流程圖。窗口程序接受并且控制指向糾正窗口的所有的事件(即，消息)的處理。在步驟5B01中，如果接收的消息指示窗口正在被調(diào)整大小，則程序在步驟5B02繼續(xù)，否則程序繼續(xù)進行其他消息的正常處理。在步驟5B02，程序存儲糾正窗口的新的大小。此外，程序可以指示，計算機語音識別系統(tǒng)應該重新計算適合于糾正窗口的單詞的數(shù)目，再次顯示具有這些數(shù)目的單詞的糾正窗口。
附圖6是計算機語音識別系統(tǒng)的可調(diào)節(jié)的聽寫窗口處理的流程圖?？烧{(diào)節(jié)的聽寫窗口允許講話者規(guī)定聽寫窗口可以容納的語音的數(shù)量。講話者然后可以使用聽寫編輯部分的糾正設施糾正上次講話的語音的數(shù)量。在步驟601，系統(tǒng)顯示聽寫窗口。在步驟602-609，系統(tǒng)循環(huán)處理每個語音單元(例如，一句或一段)，當一個單元被說出時，將該單元送到一個應用程序。當聽寫窗口被調(diào)整大小時，語音單元也可以是一行單詞。在步驟602，如果接收到語音單元的結(jié)尾，那么系統(tǒng)在步驟610繼續(xù)，否則系統(tǒng)在步驟603繼續(xù)。在步驟610，系統(tǒng)向應用程序發(fā)送語音單元并在步驟603繼續(xù)。在步驟603，講話者指示聽寫完成，然后系統(tǒng)結(jié)束，否則系統(tǒng)在步驟604繼續(xù)。在步驟604，系統(tǒng)輸入來自講話者的講話發(fā)音。在步驟605，系統(tǒng)使得識別部分識別講話發(fā)音并給出識別的單詞表。在步驟606，系統(tǒng)保存識別的單詞表并供以后糾正使用。在步驟607，系統(tǒng)選擇并顯示識別的單詞表中的具有最高可能性的單詞。在步驟608，如果講話者指示進入糾正模式，則系統(tǒng)在步驟609繼續(xù)，否則系統(tǒng)返回到步驟602確定是否語音單元的結(jié)尾已經(jīng)到達。在步驟609，系統(tǒng)允許講話者糾正聽寫窗口內(nèi)的任何單詞。當講話者請求時，系統(tǒng)顯示具有保存的識別單詞表中的單詞糾正窗口。然后系統(tǒng)返回到步驟602輸入下一個發(fā)音。
附圖7是實現(xiàn)單詞糾正類比器的應用程序或者聽寫編輯部分的窗口程序的流程圖。當在聽寫模式時，該部分改變編輯習慣成為以單詞為基礎，而不是以字符為基礎。在步驟701-705，程序確定指哪一種消息被接收到。在步驟701，如果一個聽寫啟動消息被接收到，程序在步驟701A繼續(xù)，否則程序在步驟702繼續(xù)。在步驟701A，程序?qū)⒛Ｊ皆O定為聽寫模式并且返回。在步驟702，如果消息是聽寫不能執(zhí)行消息，則程序在步驟702A繼續(xù)，否則程序在步驟703繼續(xù)。在步驟702A，程序?qū)⒛Ｊ皆O定為數(shù)據(jù)輸入是通過鍵盤而不是通過聽寫并且返回。在步驟703，如果消息是接收字符消息，則程序在步驟703A繼續(xù)，否則，程序在步驟704繼續(xù)。在步驟703A，程序顯示接收的字符。字符可以或者通過鍵盤輸入或者作為識別的單詞字符中的一個被接收到。在步驟704，如果消息是退格消息，則程序在步驟704A繼續(xù)，否則，步驟在705繼續(xù)。在步驟704A，如果當前模式是聽寫模式，則程序在步驟704C繼續(xù)，否則程序在步驟704B繼續(xù)。在步驟704C，程序從當前的插入點后退一個單詞。后退一個單詞刪除了插入點左側(cè)的單詞并且返回。在步驟704B，程序執(zhí)行正常的一個字符的后退并且返回。在步驟705，如果消息為鼠標單擊消息，則在程序在步驟705A繼續(xù)，否則程序繼續(xù)進行正常的處理。在步驟705A，如果當前模式為聽寫，則程序在步驟705C繼續(xù)，否則，在步驟705B繼續(xù)。在步驟705C，如果是在一個單詞內(nèi)單擊，則程序選擇整個單詞。否則，程序在單詞之間設置插入點并返回。在步驟705B，程序正常地設置插入點并返回。
附圖8是從進一步的識別當中消除了錯誤識別的單詞的聽寫編輯部分的流程圖。當講話者講話糾正一個錯誤識別的單詞時，聽寫編輯部分進行檢測并防止被錯誤識別的單詞被再次識別為重新講話的發(fā)音。在步驟801，如果聽寫完成，則該部分結(jié)束，否則該部分在步驟803繼續(xù)。在步驟803，聽寫編輯部分從聽寫部分接收一個識別的單詞表。在步驟804，如果重新講話的發(fā)音的目的是用于糾正一個錯誤識別的單詞，則該部分在步驟805繼續(xù)，否則該部分在步驟806繼續(xù)。在步驟805，該部分選擇除從識別的單詞表中被糾正單詞以外的一個單詞并且在步驟807繼續(xù)。在步驟806，該部分從識別的單詞表中選擇最有可能性的單詞。在步驟807，該部分顯示選擇的單詞。在步驟808，如果講話者指示進入糾正模式，則該部分在步驟809繼續(xù)，否則該部分返回到步驟801輸入另一個發(fā)音。在步驟809，該部分接收用于一個顯示的單詞的糾正。在步驟810，如果糾正是通過鍵盤輸入的，則該部分在步驟811繼續(xù)，否則該部分返回到步驟801選擇下一個輸入的發(fā)音。在步驟811，如果所打的詞已經(jīng)在單詞表中，則該部分在步驟813繼續(xù)，否則該部分在步驟812繼續(xù)。在步驟812，該部分將所打的單詞加到單詞表中。在步驟813，該部分針對打入的單詞訓練識別系統(tǒng)并返回到步驟801輸入下一個發(fā)音。
附圖9是自動訓練識別程序的聽寫編輯部分的流程圖。聽寫編輯部分收集被錯誤識別的發(fā)音以及正確的單詞和短語。聽寫編輯部分然后指示識別部分訓練識別程序，將錯誤識別的發(fā)音識別成為正確的單詞和者短語。這種訓練可以在每當錯誤識別的發(fā)音被糾正時進行或者將信息存儲起來在以后進行訓練。在步驟901-903，該部分收集錯誤識別的發(fā)音以及正確的單詞和短語。這種信息可以在該部分檢測到講話者已經(jīng)糾正了一個單詞或者短語時被收集。在步驟903，該部分確定是否識別器應該被訓練。這種訓練可以在計算機系統(tǒng)空閑時進行或者當識別準確率不能接受時進行。在步驟904，該部分針對收集的發(fā)音訓練識別器。
盡管本發(fā)明是針對最佳實施例進行描述的，但是本發(fā)明并不限于該實施例。在本發(fā)明精神范圍之內(nèi)的各種修改對于本領域的技術(shù)人員來說將是顯而易見的。本發(fā)明的范圍將由后面的權(quán)利要求書所限定。
權(quán)利要求
1.一種在計算機聽寫系統(tǒng)中用于顯示替換單詞同時糾正由聽寫系統(tǒng)錯誤識別的單詞的方法，該方法包括確定糾正窗口的當前大?。粡漠斍暗拇翱诖笮∮嬎阍诩m正窗口中可被顯示的替換單詞的數(shù)目；選擇這些數(shù)目的替換單詞；以及在糾正窗口中顯示選擇的替換單詞，其中講話者可以通過調(diào)整糾正窗口的大小在糾正窗口中指示顯示的替換單詞的數(shù)目。
2.根據(jù)權(quán)利要求1的方法，其中每個替換單詞具有一個相關的可能性并且其中的選擇步驟選擇具有最高可能性的那些數(shù)目的替換單詞。
3.根據(jù)權(quán)利要求1的方法，包括在顯示選擇的替換單詞之后擴大窗口并且重復確定，計算，選擇和顯示步驟，在糾正窗口內(nèi)執(zhí)行多于所述數(shù)目的替換單詞的顯示。
4.根據(jù)權(quán)利要求1的方法，其中選擇的替換單詞是以字母次序顯示的。
5.根據(jù)權(quán)利要求1的方法，其中講話者通過利用鼠標光標指向窗口的邊界并且拖動鼠標來調(diào)整糾正窗口的大小。
6.根據(jù)權(quán)利要求1的方法，其中計算機聽寫系統(tǒng)是一種連續(xù)語音識別系統(tǒng)。
7.根據(jù)權(quán)利要求1的方法，其中計算機聽寫系統(tǒng)是一種離散聽寫系統(tǒng)。
8.一種在計算機聽寫系統(tǒng)中用于在糾正窗口中顯示可變數(shù)目的單詞的方法，該方法包括顯示糾正窗口；響應于來自講話者調(diào)整糾正窗口大小的請求調(diào)整糾正窗口的大??；根據(jù)調(diào)整的大小計算在糾正窗口中可以顯示的單詞的數(shù)目；在糾正窗口中顯示計算的數(shù)目的單詞。
9.根據(jù)權(quán)利要求8的方法，包括為一個被糾正的單詞從替換單詞表中選擇要被顯示的單詞的步驟。
10.根據(jù)權(quán)利要求8的方法，其中單詞是以字母次序被顯示的。
11.根據(jù)權(quán)利要求8的方法，其中計算機聽寫系統(tǒng)是一種連續(xù)語音識別系統(tǒng)。
12.根據(jù)權(quán)利要求8的方法，其中計算機聽寫系統(tǒng)是一種離散聽寫系統(tǒng)。
13.一種在計算機聽寫系統(tǒng)中用于顯示錯誤識別的發(fā)音的替換單詞的方法，該方法包括鑒別具有是錯誤識別的發(fā)音的正確的識別的相關可能性的替換單詞；選擇具有高可能性的鑒別的單詞；以字母的次序顯示選擇的單詞，允許講話者選擇替換單詞中的一個作為錯誤識別的發(fā)音的正確的識別。
14.一種計算機可閱讀介質(zhì)，包含有以使計算機聽寫系統(tǒng)在糾正窗口中顯示可變數(shù)目的單詞的指令，包括顯示糾正窗口；利用指點設備指向糾正窗口的邊界并且拖動指點設備來調(diào)整糾正窗口的大?。桓鶕?jù)調(diào)整的大小計算在糾正窗口中可以被顯示的單詞的數(shù)目；在糾正窗口中顯示計算的數(shù)目的單詞。
15.根據(jù)權(quán)利要求是14的計算機可閱讀介質(zhì)，其中的編輯命令是鍵盤的刪除鍵，并且在聽寫模式中編輯行為是刪除一個顯示的單詞，在非聽寫模式中，編輯行為是刪除一個顯示的字符。
16.根據(jù)權(quán)利要求是14的計算機可閱讀介質(zhì)，其中編輯命令是鍵盤的箭頭鍵，并且當在聽寫模式時，編輯行為是將插入點移動一個顯示的單詞，在非聽寫模式時編輯行為是將插入點移動一個顯示的字符。
17.根據(jù)權(quán)利要求14的計算機可閱讀介質(zhì)，其中編輯命令是鼠標的單擊，當在聽寫模式時編輯行為是選擇一個顯示的單詞，當在非聽寫模式時，編輯行為是設置一個插入點。
18.一種計算機可閱讀介質(zhì)，包含用于使計算機聽寫系統(tǒng)在糾正窗口內(nèi)顯示可變數(shù)目的單詞的指令，包括顯示糾正窗口；利用指點設備指向糾正窗口的邊界并且拖動指點設備來調(diào)整糾正窗口的大??；根據(jù)調(diào)整的大小計算在糾正窗口中可以被顯示的單詞的數(shù)目；在糾正窗口中顯示計算的數(shù)目的單詞。
19.根據(jù)權(quán)利要求18的計算機可閱讀介質(zhì)，具有包括為一個被糾正的單詞從替換單詞表中選擇要被顯示的單詞的步驟。
20.根據(jù)權(quán)利要求18的計算機可閱讀介質(zhì)，其中單詞是以字母次序被顯示的。
21.一種在識別系統(tǒng)中用于訓練識別講話發(fā)音為單詞的方法，該方法包括從講話者接收一個講話發(fā)音；識別該講話發(fā)音為一個識別的單詞；將識別的單詞指示給講話者；從講話者接收一個為講話發(fā)音的正確的識別的正確的單詞；訓練識別講話發(fā)音為該正確的單詞。
22.根據(jù)權(quán)利要求21的方法，其中識別的單詞的指示包括顯示識別的單詞，并且其中正確的單詞的接收是識別的單詞的一個非講話發(fā)音替換。
23.根據(jù)權(quán)利要求22的方法，其中非講話發(fā)音替換是打入正確的單詞。
24.根據(jù)權(quán)利要求21的方法，其中識別是連續(xù)語音識別。
25.根據(jù)權(quán)利要求21的方法，其中識別是離散語音識別。
26.根據(jù)權(quán)利要求21的方法，其中訓練是當正確的單詞被接收時自動進行的。
27.根據(jù)權(quán)利要求21的方法，其中訓練是在識別的背景模式下進行。
28.根據(jù)權(quán)利要求21的方法，其中訓練被延遲，直到多個講話發(fā)音和正確的單詞被接收到為止。
全文摘要
一種用于編輯被錯誤識別的單詞的方法和系統(tǒng)。通過調(diào)整糾正窗口的大小,該系統(tǒng)允許講話者規(guī)定在糾正窗口中顯示的替換單詞的數(shù)目。該系統(tǒng)在糾正窗口中以字母次序顯示單詞。當被錯誤識別的單詞被再次說出時,該系統(tǒng)避免了重新講話的發(fā)音被再次識別為同一個錯誤識別的單詞的可能性。當與一個字處理器一起工作時,該系統(tǒng)允許講話者規(guī)定在被轉(zhuǎn)送到字處理器之前被緩存的語音的數(shù)量。
文檔編號G10L15/22GK1183607SQ9712124
公開日1998年6月3日申請日期1997年10月30日優(yōu)先權(quán)日1996年10月31日
發(fā)明者邁克爾·J·羅扎克申請人:微軟公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邁克爾.Ｊ.羅扎克
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

相關技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

hmm用于語音識別相關技術(shù)

可變數(shù)目串聯(lián)重復序列相關技術(shù)

語音識別相關技術(shù)

百度語音識別相關技術(shù)

語音識別軟件相關技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

在語音識別過程中顯示可變數(shù)目的替換單詞的方法和系統(tǒng)的制作方法