国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      多形式的非歧意性語(yǔ)音識(shí)別的制作方法

      文檔序號(hào):2829040閱讀:244來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):多形式的非歧意性語(yǔ)音識(shí)別的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明是有關(guān)于使用者使用一輸入裝置將信息輸入到一系統(tǒng)中中。詳言之,本發(fā)明是有關(guān)于與文字輸入清晰化系統(tǒng)相結(jié)合的語(yǔ)音辨識(shí)。
      背景技術(shù)
      多年來(lái)可攜式計(jì)算機(jī)已經(jīng)變得愈來(lái)愈小。在制造一更小的可攜式計(jì)算機(jī)的努力中主要的尺寸限制構(gòu)件為鍵盤(pán)。如果使用標(biāo)準(zhǔn)打字機(jī)尺寸的按鍵的話(huà),則可攜式計(jì)算機(jī)至少要跟標(biāo)準(zhǔn)鍵盤(pán)一樣大。迷你鍵盤(pán)已被使用在可攜式計(jì)算機(jī)上,但迷你鍵盤(pán)的按鍵太小而無(wú)法讓使用者輕易地或快速地操作。外加一全尺寸的鍵盤(pán)于一可攜式計(jì)算機(jī)上亦妨礙了計(jì)算機(jī)真實(shí)的可攜式用途。若沒(méi)有被放置到一平坦的工作平面上,讓使用者能夠用兩只手來(lái)打字的話(huà),則大多數(shù)可攜式計(jì)算機(jī)是無(wú)法被操作的。當(dāng)在移動(dòng)中或站著時(shí),使用者是無(wú)法使用一可攜式計(jì)算機(jī)的。
      目前,在無(wú)線工業(yè)上的一巨大的成長(zhǎng)已大量制造出可靠,方便,及非常普遍的一般消費(fèi)者可得到的移動(dòng)裝置,無(wú)移動(dòng)電話(huà),PDA等。因此,需要文字輸入的掌上型無(wú)線通信及運(yùn)算裝置仍是變得愈來(lái)愈小。最近在移動(dòng)電話(huà)上及其它可攜式無(wú)線技術(shù)上的進(jìn)步已引發(fā)對(duì)于小且可攜帶的雙向通訊系統(tǒng)的需求。大多數(shù)無(wú)線通信裝置制造商亦想要提供可讓使用者用握持該裝置的手即可操作的消費(fèi)商品。
      語(yǔ)音辨識(shí)長(zhǎng)久以來(lái)已被期待是文字輸入的最佳方式,就提高桌上型計(jì)算機(jī)的生產(chǎn)率及就作為移動(dòng)裝置的尺寸限制的解決的道這兩方面而言都是如此。一種語(yǔ)音辨識(shí)系統(tǒng)典型地包括一麥克風(fēng)用來(lái)偵測(cè)并記錄聲音輸入。聲音輸入被數(shù)字化且被分析用以獲取語(yǔ)音模式(pattern)。語(yǔ)音辨識(shí)典型地需要一強(qiáng)有力的系統(tǒng)來(lái)處理該聲音輸入。某些具有有限能力的語(yǔ)音辨識(shí)系統(tǒng)已被應(yīng)用在小型裝置上,如移動(dòng)電話(huà)的命令及控制上,但對(duì)于以語(yǔ)音控制的操作而言,一裝置只需要辨識(shí)幾個(gè)命令而已。即便是此一有限范圍的語(yǔ)音辨識(shí),一小型裝置仍無(wú)法具有令人滿(mǎn)意的語(yǔ)音辨識(shí)正確性,因?yàn)檎Z(yǔ)音模式在不同的說(shuō)話(huà)者之間有著很大的變化,且環(huán)境噪音更添信號(hào)的復(fù)雜度。
      Suhm等人在發(fā)表于ACM Transactions on Computer-HumanInteraction(2001)的一篇文章中討論到一特別的問(wèn)題?!感扪a(bǔ)問(wèn)題」為修正因?yàn)椴煌昝赖谋孀R(shí)所產(chǎn)生的錯(cuò)誤。他們發(fā)現(xiàn)使用相同的形式(modality)(重說(shuō))不太可能能夠修正辨識(shí)錯(cuò)誤,大部分是因?yàn)椤窵ombard 」效應(yīng),即人們?cè)谝婚_(kāi)始被誤解之后它們說(shuō)話(huà)會(huì)跟平常不一樣,且他們發(fā)現(xiàn)使用一不同的形式,像是鍵盤(pán),是一更為有效且有效率的補(bǔ)救方法。很不幸地,移動(dòng)裝置特別缺乏處理能力及內(nèi)存來(lái)提供完整的語(yǔ)音辨識(shí)能力,而造成更高的辨識(shí)誤差,及缺乏實(shí)體的空間來(lái)提供完整的鍵盤(pán)及鼠標(biāo)輸入以進(jìn)行有效率的錯(cuò)誤修正。
      清晰化先前的開(kāi)發(fā)工作已考慮到使用一按鍵數(shù)減少的鍵盤(pán)。就如同一按鍵式電話(huà)的小型鍵盤(pán)的外形所示的,許多縮小型的鍵盤(pán)都使用3乘4的按鍵數(shù)組。在此按鍵數(shù)組中每一按鍵都包含數(shù)個(gè)字符。因此,當(dāng)使用者輸入一連串的按鍵時(shí),即會(huì)產(chǎn)生歧意性(ambiguity),因?yàn)槊恳话存I操作都象征數(shù)個(gè)字母中的一個(gè)。已有數(shù)種方法被提出來(lái)解決成串按鍵操作的歧意性。這些方法被稱(chēng)為清晰化。
      在J.Arnott,M.Javad總結(jié)在他們發(fā)表于Journal of the lnternationalSociety for Augmentative and Alternative Communication 期刊的一篇’Probabilistic Character Disambiguation for Reduced Keyboards UsingSmall Text Samples’論文中提出一些方法,用來(lái)決定相應(yīng)于一不確定的按鍵操作順序的正確的字符順序。
      T9Text Input為以美國(guó)專(zhuān)利第5,818,437號(hào)專(zhuān)利及其后續(xù)專(zhuān)利為基礎(chǔ)的提供小型鍵盤(pán),像是電話(huà)鍵盤(pán),單字層級(jí)的清晰化的領(lǐng)導(dǎo)品牌。藉由使用的頻率來(lái)編排引起歧義的單字的順序可降低在稍早的研究中所出現(xiàn)的效率問(wèn)題,以及添加新字的能力來(lái)使其在經(jīng)過(guò)一段時(shí)間之后更易于使用。輸入順序依據(jù)筆尖輕敲的位置或輸入模式,如多次輕敲,會(huì)被同時(shí)解讀為單字,字符串及/或完成,數(shù)目,及清楚的字符串。
      亦有供具表意的(ideographic)而非字母的(alphabetic)語(yǔ)言(如中文)的小型鍵盤(pán)使用的T9及類(lèi)似的產(chǎn)品。這些產(chǎn)品通常采用以下兩種方式中的一種基本手寫(xiě)筆畫(huà)或筆畫(huà)類(lèi)別被映射(map)至可用的按鍵上;及使用者依照傳統(tǒng)的順序輸入所想要的字符的筆畫(huà);或一語(yǔ)音字母被映射到該等按鍵上且使用者輸入所想要的字符的語(yǔ)音拼法。不論哪一種方法,使用者都必需從許多符合輸入順序的字符中找出并選取所想要的字符。該等輸入產(chǎn)品通常都可從之前已輸入的字符的上下文(context)中獲益,用以改善最常被使用的字符的顯示順序,因?yàn)榻缍ㄒ粋€(gè)單字或詞組通常需要兩個(gè)或多個(gè)表意的字符。
      不幸地,移動(dòng)裝置被都設(shè)計(jì)成帶有更小的鍵盤(pán),其按鍵是更加的時(shí)髦但同時(shí)亦更不容易快速且正確地打字。所以,將歧意的按鍵操作順序加以清晰化需要更多的改進(jìn)。例如,在將一輸入的順序清晰化時(shí)或在預(yù)測(cè)下一個(gè)輸入順序時(shí),通常沒(méi)考量語(yǔ)法或應(yīng)用的上下文。
      另一種經(jīng)常使用在小型裝置上的鍵盤(pán)包含一觸控式面板,在該面板上印有某種形式的鍵盤(pán),或包含一觸控式面板其上顯示有一鍵盤(pán)。根據(jù)該特定的鍵盤(pán)的大小及本質(zhì),一手指或一觸控筆(stylus)可被用來(lái)與該面板或顯示屏幕上的使用者想要按的鍵或字母所在的區(qū)域互動(dòng)。因?yàn)樵S多可攜式裝置的尺寸很小,所以在敲打每一按鍵時(shí)通常會(huì)使用一觸控筆用來(lái)獲得所需的精確度。此等鍵盤(pán)的整體尺寸很小使得每一按鍵的相對(duì)面積亦很小,因此對(duì)于一般使用者而言很難以足夠的精確度來(lái)打字。
      有多種內(nèi)建式或外掛式的產(chǎn)品提供文字預(yù)測(cè)供上述的觸控視屏幕鍵盤(pán)用。在使用者小心翼翼地按下該字的前給個(gè)字母之后,該預(yù)測(cè)系統(tǒng)會(huì)顯示以這幾個(gè)字母開(kāi)頭的最可能的完整字的清單。然而,如果有太多可能的選擇的話(huà),使用者就必需繼續(xù)打,直到所想要打的字出現(xiàn)或使用完成該字為止。在打了一個(gè)字母之后即需將視覺(jué)焦聚切換于該觸控式屏幕鍵盤(pán)與該選字清單之間是會(huì)減慢而不是加速內(nèi)文的輸入。
      描述于美國(guó)專(zhuān)利第6,801,190號(hào)專(zhuān)利中的系統(tǒng)使用文字等級(jí)的自動(dòng)校正來(lái)解決精確性的問(wèn)題并可在小型鍵盤(pán)上快速輸入。因?yàn)榍么蛭恢帽患僭O(shè)是不正確的,所以在關(guān)于使用者想要打的字是什么方面會(huì)有不確定性。使用者會(huì)被提供每一按鍵敲擊順序?qū)?yīng)于一個(gè)字的一或多種詮釋?zhuān)沟檬褂谜吣軌蜉p易地選取所想要的詮釋。此方法讓該系統(tǒng)能夠使用包含在整個(gè)按鍵敲擊順序中信息來(lái)解開(kāi)使用者對(duì)于每一字母順序的意圖。然而,當(dāng)自動(dòng)校正被激活時(shí),該系統(tǒng)可能無(wú)法使太多文字完整化,因?yàn)樗⒉皇羌俣ㄇ皫讉€(gè)字母是正確的,因而不能決定使用者是否在打整個(gè)字,且該按鍵順序有許多其它的詮釋要顯示。
      手寫(xiě)辨識(shí)是另一種被用來(lái)解決在具有觸控式屏幕或可偵測(cè)手指或觸控筆的運(yùn)動(dòng)的墊子的小型裝置上的文字輸入的方法。在一觸控式面板或顯示屏幕上寫(xiě)字會(huì)產(chǎn)生一顯示接觸點(diǎn)的數(shù)據(jù)流的輸入。手寫(xiě)辨識(shí)軟件會(huì)分析該數(shù)據(jù)流輸入的幾何特征,用以決定每一字母或文字。
      很不幸地,目前的手寫(xiě)辨識(shí)解決方案都具有許多的問(wèn)題1)手寫(xiě)通常比打字慢;2)在小型裝置上,內(nèi)存的限制降低了手寫(xiě)辨識(shí)的精確度;及3)每個(gè)人的手寫(xiě)風(fēng)格與用來(lái)訓(xùn)練手寫(xiě)軟件的人的手寫(xiě)風(fēng)格差異很大。
      有鑒于以上的問(wèn)題,許多手寫(xiě)產(chǎn)品要求使用者學(xué)習(xí)為每一字母一非常獨(dú)特的筆畫(huà)組。這些非常獨(dú)特的筆畫(huà)組是被設(shè)計(jì)來(lái)簡(jiǎn)化該系統(tǒng)的幾何圖案辨識(shí)處理并提高辨識(shí)率。這些筆畫(huà)與該字母平常自然地書(shū)寫(xiě)的方式有極大的不同。這造成該產(chǎn)品的采用率很低。
      在移動(dòng)裝置上的手寫(xiě)輸入對(duì)于辨識(shí)精確度有更大的挑戰(zhàn)當(dāng)嘗試要握持住該裝置時(shí),手寫(xiě)的方向會(huì)讓輸入變化或扭曲;及在移動(dòng)中使用,如在搭公車(chē)期間的震動(dòng)或巔簸,會(huì)造成未能與觸控面板接觸,而形成在接觸點(diǎn)輸入流中的「噪聲」。
      因此,用來(lái)彌補(bǔ)小型裝置的限制而用于文字輸入上的以歧意性及辨識(shí)器為基礎(chǔ)的系統(tǒng)的限制為,它們的速度及精確度會(huì)降到使用者認(rèn)為為法接受的一個(gè)程度。
      Suhm的論文定義「多形式錯(cuò)誤修正」使用一替代的(非語(yǔ)音的)形式來(lái)重新輸入被錯(cuò)誤辨識(shí)的整個(gè)字或詞組。人們發(fā)現(xiàn)這比部分重說(shuō)有效率多了,因?yàn)檎Z(yǔ)音形式已被證明式不正確的。在決定要使用哪一個(gè)形式來(lái)重新輸入時(shí),使用者必需考量該另一種輸入形式有其本身的辨識(shí)精確性問(wèn)題,但在完成該文字輸入工作期間每一種形式都是獨(dú)立被操作的。
      因此,若能提供一種用于語(yǔ)音辨識(shí)輸出的智能型編輯的語(yǔ)音辨識(shí)設(shè)備及方法是有優(yōu)點(diǎn)的。
      若能提供一種可將一替代輸入形式在修正辨識(shí)錯(cuò)誤上的好處最大化的語(yǔ)音辨識(shí)設(shè)備及方法是有優(yōu)點(diǎn)的。
      在當(dāng)下的工作或環(huán)境下語(yǔ)音辨識(shí)無(wú)效或非所想要的時(shí)候,若能提供一有效率的替代輸入形式的語(yǔ)音辨識(shí)設(shè)備及方法是有優(yōu)點(diǎn)的。

      發(fā)明內(nèi)容
      本發(fā)明提供一種結(jié)合了一或多種替代的輸入形式(modality)的語(yǔ)音辨識(shí)系統(tǒng)用以確保有效率及正確的文字輸入。語(yǔ)音辨識(shí)系統(tǒng)因?yàn)橛邢薜奶幚砟芰?,環(huán)境噪音,及/或說(shuō)話(huà)風(fēng)格上的自然變化等因素的關(guān)系而尚未達(dá)到完全正確的程度。可供選擇的輸入形式使用清晰化或識(shí)別引擎來(lái)補(bǔ)償減縮的鍵盤(pán),潦草的輸入,及/或在書(shū)寫(xiě)風(fēng)格上的自然的變化。在語(yǔ)音辨識(shí)處理中的歧意性(ambiguity)大多數(shù)是與可供選擇的輸入模式中固有的歧意性正交,使得兩種形式的結(jié)合可有效率地及正確地解決辨識(shí)錯(cuò)誤。本發(fā)明特別適用于鍵盤(pán)輸入或觸控屏幕輸入的空間有限的可攜式裝置。
      本發(fā)明的一實(shí)施例提供一種用來(lái)處理在一數(shù)據(jù)處理系統(tǒng)中的語(yǔ)言輸入的方法,其包含的步驟有接收包含聲音輸入的第一輸入;根據(jù)該第一輸入決定第一數(shù)個(gè)候選字;接收包含非聲音輸入的第二輸入;及根據(jù)該第一輸入及第二輸入來(lái)決定一或多個(gè)候選字。該一或多個(gè)候選字是根據(jù)該第二輸入在第一輸入的限制下所決定的?;蛘撸瑑蓚€(gè)候選字清單的聯(lián)集或交集被決定,而不是用一個(gè)輸入來(lái)過(guò)濾另一個(gè)輸入。
      在另一實(shí)施例中,該一或多個(gè)候選字是根據(jù)第一輸入依文字上下文來(lái)決定的。該文字上下文是以N-gram語(yǔ)言模式及語(yǔ)音辨識(shí)引擎的語(yǔ)言模式中的任何一種為基礎(chǔ)。
      在另一實(shí)施例中,該一或多個(gè)候選字的決定包含了根據(jù)該第二輸入來(lái)修正或過(guò)濾該第一數(shù)個(gè)候選字的步驟。
      在另一實(shí)施例中,該第二輸入是在一移動(dòng)裝置上被接收;及對(duì)于聲音輸入的語(yǔ)音辨識(shí)部分是在該移動(dòng)裝置上實(shí)施的且部分是在一通過(guò)無(wú)線通信連接耦合至該移動(dòng)裝置的服務(wù)器上實(shí)施的。
      在另一實(shí)施例中,該語(yǔ)音辨識(shí)是藉由該移動(dòng)裝置上的一壓下通話(huà)(push-to-talk)鈕來(lái)激活的。
      在另一實(shí)施例中,該第二輸入是在一或多個(gè)候選字被呈現(xiàn)以進(jìn)行選取或編輯時(shí)來(lái)被接收的。
      在另一實(shí)施例中,該第二輸入包含觸控鍵盤(pán),手寫(xiě)姿勢(shì)辨識(shí),及小鍵盤(pán)輸入中的任何一個(gè)。
      本發(fā)明的一實(shí)施例提供一種其上儲(chǔ)存有指令的機(jī)器可讀取的媒體,該等指令在一數(shù)據(jù)處理系統(tǒng)上被執(zhí)行時(shí)會(huì)讓該數(shù)據(jù)處理系統(tǒng)實(shí)施一用于處理語(yǔ)言輸入的方法,該方法包含的步驟有接收一包含聲音輸入的第一輸入;根據(jù)該第一輸入決定第一數(shù)個(gè)候選字;接收一包含非聲音輸入的第二輸入;及根據(jù)該第一輸入及第二輸入來(lái)決定一或多個(gè)候選字。
      該一或多個(gè)候選字是根據(jù)所決定的。在另一實(shí)施例中,該一或多個(gè)候選字是根據(jù)該第二輸入在第一輸入的限制下且依文字上下文來(lái)決定的,該文字上下文是以N-gram語(yǔ)言模式及語(yǔ)音辨識(shí)引擎的語(yǔ)言模式中的任何一種為基礎(chǔ)。
      在另一實(shí)施例中,該一或多個(gè)候選字的決定是通過(guò)修正該第一數(shù)個(gè)候選字來(lái)決定的。
      在另一實(shí)施例中,該聲音輸入的語(yǔ)音辨識(shí)部分是在該移動(dòng)裝置上實(shí)施的且部分是在通過(guò)無(wú)線通信連接耦合至該移動(dòng)裝置的服務(wù)器上實(shí)施的;且該語(yǔ)音辨識(shí)是藉由該移動(dòng)裝置上的壓下通話(huà)(push-to-talk)鈕來(lái)激活的。
      在另一實(shí)施例中,該第二輸入是在該第一數(shù)個(gè)候選字被呈現(xiàn)以進(jìn)行編輯時(shí)或在第一數(shù)個(gè)候選字被呈現(xiàn)以進(jìn)行選取時(shí)被接收的,且該第二輸入包含觸控鍵盤(pán),手寫(xiě)姿勢(shì)辨識(shí),及小鍵盤(pán)輸入中的任何一個(gè)。
      在另一實(shí)施例中,分離的輸入形式可被用來(lái)說(shuō)代表標(biāo)點(diǎn)符號(hào)的字。一暫時(shí)形式(如,T9的符號(hào)形式)可被喚起,用以只辨識(shí)單一字符,如符號(hào)或數(shù)字。例如,輸出「句點(diǎn)」的文字,「.」會(huì)被辨識(shí)出來(lái)。
      在一實(shí)施例中,「智能型」標(biāo)點(diǎn)符號(hào)可在第二輸入期間被輸入用以將該聲音輸入的一部分詮釋為標(biāo)點(diǎn)符號(hào)。在另一實(shí)施例中,無(wú)需輸入任何特別的形式來(lái)辨識(shí)標(biāo)點(diǎn)符號(hào)。例如,當(dāng)使用者說(shuō)「句點(diǎn)」時(shí),文字「句點(diǎn)」及「.」兩者都會(huì)出現(xiàn)在清單中。


      圖1為一示意圖,其顯示依據(jù)本發(fā)明的一用來(lái)辨識(shí)在一數(shù)據(jù)處理系統(tǒng)上的使用者輸入的系統(tǒng);圖2為依據(jù)本發(fā)明的用來(lái)辨識(shí)使用者輸入的數(shù)據(jù)處理系統(tǒng)的方塊圖;圖3為用來(lái)處理在一依據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)中的語(yǔ)言輸入的方法的流程圖;圖4為一方塊圖,其提供一例子,其中一使用者已依據(jù)本發(fā)明的實(shí)施例口述一個(gè)字;及圖5A-5C為方塊圖,其提供一個(gè)例子,其中一使用者已依據(jù)本發(fā)明的主要組件符號(hào)說(shuō)明101 使用者103 顯示器105 數(shù)字化器 109 譯碼器111 辨識(shí)引擎 113 本文緩存器107 數(shù)字化器 115 清晰化引擎117 清晰化引擎119 語(yǔ)言數(shù)據(jù)庫(kù)201 處理器202 手寫(xiě)輸入裝置203 顯示器204 聲音輸入裝置205 聲音輸出裝置 206 按鍵輸入裝置210 內(nèi)存 211 操作系統(tǒng)220 應(yīng)用程序 214 字清單216 以字為基礎(chǔ)的清晰化引擎217 以詞組為基礎(chǔ)的辨識(shí)或清晰化引擎218 以上下文為基礎(chǔ)的辨識(shí)或清晰化引擎
      215詞組清單213 音素辨識(shí)引擎具體實(shí)施方式
      本發(fā)明提供一種用于語(yǔ)音辨識(shí)輸出的智能型編輯的設(shè)備及方法,其可根據(jù)使用者的輸入提供最可能的選擇或假設(shè)(hypotheses)。該語(yǔ)音辨識(shí)引擎為替代的假設(shè)打分?jǐn)?shù),這些假設(shè)將數(shù)值加到提供給使用者的信息上。例如,如果語(yǔ)音辨識(shí)提供給使用者錯(cuò)的第一選擇假設(shè)的話(huà),則使用者會(huì)想要取得其它N個(gè)最佳(N-best)的假設(shè)用以修正被該辨識(shí)器所回送的假設(shè)。在一多形式環(huán)境中,可獲得來(lái)自該語(yǔ)音辨識(shí)輸出的N個(gè)最佳假設(shè)清單。詳言之,該N個(gè)最佳假設(shè)的清單被加入到目前的文字選單中以便于編輯。
      本發(fā)明的一個(gè)實(shí)施例在提供N個(gè)最佳的假設(shè)上使用聲學(xué)(acoustic)信息及文字上下文這兩者。這可以是語(yǔ)法相依或獨(dú)立。亦即,語(yǔ)言模型可提供會(huì)影響一給定的文字的或然率的語(yǔ)法信息,或其只單純地提供一會(huì)顯示一些接在一字或數(shù)個(gè)字之后的一特定字的或然率的N-gram模型。
      聲學(xué)上相近的發(fā)音會(huì)出現(xiàn)在該N個(gè)最佳的清單上。此信息因一混淆性矩陣而更便利,該矩陣告知有關(guān)特定發(fā)音錯(cuò)誤的頻率的N個(gè)最佳假設(shè)公式。例如,如果語(yǔ)音辨識(shí)引擎會(huì)將在字的最后一個(gè)位置的/p/與/b/混淆的話(huà),則具有這些音素(phoneme)的N個(gè)最佳假設(shè)會(huì)將此列入考量。用來(lái)顯示每一音素在一給定的語(yǔ)言中與其它音素混淆的頻率信息亦可獲得,此信息包括位置上的上下文,如它是發(fā)生在一個(gè)字的開(kāi)頭,中段或末端。除了混淆性信息的外,有關(guān)音素何時(shí)被刪除或插入的信息亦可被提供。
      在本發(fā)明中,在此多形式環(huán)境中所產(chǎn)生的使用者文字書(shū)入亦被用來(lái)更新任何辨識(shí)系統(tǒng)語(yǔ)言數(shù)據(jù)庫(kù)。理想地,可被應(yīng)用到任何形式上的數(shù)據(jù)庫(kù)在每一形式中都被更新。如果該語(yǔ)音辨識(shí)引擎所提供的一個(gè)字并不在該T9字典內(nèi)的話(huà),則它可被加入字典中。此外,字及詞組頻率以及N-gram信息亦可隨著使用而被更新。
      本發(fā)明提供一種智能型編輯特征。例如,一使用者對(duì)該移動(dòng)裝置裝口述。當(dāng)游標(biāo)位在文字輸入屏幕位置時(shí),來(lái)自該辨識(shí)器的文字輸出被回送給使用者。為了編輯與修正的目的,加上該N-best信息,使得該輸出是豐富的。
      本發(fā)明的一實(shí)施例亦提供一主從(client-server)特征,由此該等發(fā)音在該裝置上被預(yù)先處理,在一通過(guò)無(wú)線數(shù)據(jù)管道相連接的服務(wù)器上被辨識(shí)并被回送成為N-best清單給該裝置來(lái)進(jìn)行文字的顯示及編輯。假設(shè)是更為動(dòng)態(tài)且與使用者對(duì)該文字作的任何改變更為相關(guān)。例如,如果該語(yǔ)音辨識(shí)引擎顯示「winner」且使用者將它修正為「winter」且使用者的修正亦被傳回給該服務(wù)器的話(huà),則此動(dòng)作將會(huì)提高加下來(lái)的字「storm」被正確地辨識(shí)的可能性。服務(wù)器側(cè)的語(yǔ)言模型可對(duì)該輸入提供一更為有充分理解力的形態(tài)-語(yǔ)法分析來(lái)改善辨識(shí)效能。該等模型具有更大的能力來(lái)預(yù)測(cè)使用者的下一個(gè)字,強(qiáng)化字的預(yù)測(cè)及完成字的算法則。此外,語(yǔ)言特有的特征(例如,主詞和動(dòng)詞間的一致性、大小寫(xiě)(case)、性別、及數(shù)量一致性等等)可更輕易地在一強(qiáng)大的服務(wù)器上被實(shí)施用以提高辨識(shí)精確性。該系統(tǒng)可允許使用者控制經(jīng)由客戶(hù)端組態(tài)或發(fā)起的送至服務(wù)器的修正及更新流。
      本發(fā)明亦提供「智能型」標(biāo)點(diǎn)符號(hào)。語(yǔ)音辨識(shí)系統(tǒng)在使用者想要插入一符號(hào)而非文字時(shí)(例如,插入「.」而非「句點(diǎn)」,或「-)」而非「笑臉」)會(huì)產(chǎn)生偵測(cè)上的困難性。歧意性文字輸入系統(tǒng)具有有限的按鍵或手勢(shì)來(lái)選取一符號(hào)而非一字母。用一歧意的「智能型」標(biāo)點(diǎn)符號(hào)特征來(lái)修正語(yǔ)音告知該系統(tǒng)該發(fā)音的適當(dāng)詮釋為一符號(hào)。
      本發(fā)明容許一「按下并口述」的暫時(shí)模式,其與「按下并說(shuō)話(huà)」的特征相近,只是該語(yǔ)音被轉(zhuǎn)換為文字,而不是如一聲音信號(hào)被傳送至另一電話(huà)或如一電子郵件的聲音附件般被保存。
      此外,本發(fā)明容許向量量子化(其可在該裝置上實(shí)施),其具有在該裝置或服務(wù)器上產(chǎn)生匹配/假設(shè)清單。
      圖1為一示意圖,其顯示依據(jù)本發(fā)明的一用來(lái)辨識(shí)在一數(shù)據(jù)處理系統(tǒng)上的使用者輸入的系統(tǒng)。使用者101藉由口述一個(gè)字,詞組,句子或段落來(lái)開(kāi)始。數(shù)字化器105及譯碼器109使用一語(yǔ)音模型(未示出)將該聲音輸入轉(zhuǎn)換成語(yǔ)音數(shù)據(jù)。辨識(shí)引擎111根據(jù)在語(yǔ)言數(shù)據(jù)庫(kù)119中的語(yǔ)匯及/或語(yǔ)言模型,及非必要地可包括使用的頻率及最近的使用,且非必要地可根據(jù)在該本文緩存器113內(nèi)的周?chē)恼律舷挛模瑏?lái)分析該數(shù)據(jù)。最佳的詮釋被加到該本文緩存器113中且經(jīng)由本文及清單顯示器103顯示給使用者101看?;蛘?,該N-best的詮釋清單被儲(chǔ)存在該本文緩存器113內(nèi)以供稍后參考用及/或經(jīng)由本文及清單顯示器103顯示給使用者101以進(jìn)行確認(rèn)。
      在稍后的某個(gè)時(shí)點(diǎn),使用者101經(jīng)由本文及清單顯示器103選取一個(gè)字或詞組以進(jìn)行修正。依據(jù)該替代的形式的輸入能力,使用者按下按鍵或在一觸控屏幕上書(shū)寫(xiě),這將會(huì)被一適當(dāng)?shù)臄?shù)字化器107轉(zhuǎn)換成一輸入序列。該清晰化引擎115根據(jù)在語(yǔ)言數(shù)據(jù)庫(kù)119中的語(yǔ)匯及/或語(yǔ)言模型,及非必要地可包括使用的頻率及最近的使用,且非必要地可根據(jù)在該本文緩存器113內(nèi)的周?chē)恼律舷挛模瑏?lái)決定可能的詮釋。多形式清晰化引擎117包含該歧意輸入序列及/或?qū)φ罩撜Z(yǔ)音辨識(shí)的最佳或N-best詮釋的詮釋?zhuān)彝ㄟ^(guò)該本文及清單顯示器103將修改過(guò)的詮釋呈現(xiàn)給使用者101以進(jìn)行確認(rèn)。在另一實(shí)施例中,該清晰化引擎115,117被結(jié)合,且相互的清晰化會(huì)發(fā)生,就如同處理來(lái)自另一形式的輸入時(shí)的固有的部分。
      在另一實(shí)施例中,該多形式清晰化引擎117將歧意的詮釋引導(dǎo)回到該辨識(shí)引擎111,用以與該語(yǔ)音辨識(shí)的最佳或N-best清單一起再詮釋。在此一實(shí)施例中,原始的向量或音素卷標(biāo)會(huì)被儲(chǔ)存在該本文緩存器113中;在另一實(shí)施例中,該多形式清晰化引擎117或辨識(shí)引擎111將在該最佳或N-best及/或歧意詮釋中的字的字母(圖表)映射回該等向量或音素以供該辨識(shí)引擎111再詮釋。
      該辨識(shí)及清晰化引擎111、115、117可更新一或多個(gè)語(yǔ)言數(shù)據(jù)庫(kù)119用以添加使用者101已明確地拼出或混合成的新字或詞組,用以反映出被使用者101輸入的或修正的字或詞組的使用頻率或最近的使用。
      在本發(fā)明的另一實(shí)施例中,該系統(tǒng)辨識(shí)手寫(xiě)筆跡(正體,草體,或甚至是速記)而不是語(yǔ)音。該系統(tǒng)構(gòu)件105、109、111在辨識(shí)手寫(xiě)筆跡上所提供的功能與其在辨識(shí)語(yǔ)音上的相同。該替代的形式可以是來(lái)自鍵盤(pán)或觸控屏幕鍵盤(pán),或語(yǔ)音辨識(shí)(不論是連續(xù)的,分開(kāi)的,或字母)的歧意的輸入,依該設(shè)備的輸入功能及處理能力而定。
      圖2為依據(jù)本發(fā)明的用來(lái)辨識(shí)使用者輸入的數(shù)據(jù)處理系統(tǒng)的方塊圖。雖然圖2顯示一數(shù)據(jù)處理系統(tǒng)例的各式構(gòu)件,但應(yīng)被了解的是,一依據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)大體上可包括除了圖2所示的構(gòu)件的外的其它構(gòu)件。例如,在一移動(dòng)電話(huà)實(shí)施例中,某些系統(tǒng)可具有通信電路。圖2顯示與本發(fā)明的至少某些特性極有關(guān)的各式構(gòu)件。因此之故,熟習(xí)此技藝者將可了解到,依據(jù)本發(fā)明的一數(shù)據(jù)處理系統(tǒng)的配置并不局限于圖2所示的特定架構(gòu)。
      顯示器203通過(guò)適當(dāng)?shù)慕涌陔娐范获詈系教幚砥?10。一手寫(xiě)輸入裝置202,如一觸控屏幕,一鼠標(biāo),或一數(shù)字筆,被耦合至該處理器201用以接收需要手些辨識(shí)的使用者輸入及/或其它使用者輸入。一語(yǔ)音輸入裝置204,如一麥克風(fēng),被耦合至該處理器201用以接收需要語(yǔ)音辨識(shí)的使用者輸入及/或其它使用者輸入。一按鍵輸入裝置206,如一電話(huà)按鍵,一組專(zhuān)屬的或可裝配的按鈕,或一顯示在觸控屏幕上的小鍵盤(pán),被耦合至該處理器201用以接收使用者的打字輸入及/或其它輸入。非必要地,一聲音輸出裝置205,如一喇叭,亦被耦合至該處理器。
      處理器201接收來(lái)自輸入裝置,如手寫(xiě)輸入裝置202,或語(yǔ)音輸入裝置204或按鍵輸入裝置206,的輸入并管理輸出至該顯示器及喇叭。處理器201被耦合至一內(nèi)存210。該內(nèi)存包含暫時(shí)儲(chǔ)存媒體,如隨機(jī)存取內(nèi)存(RAM),及永久儲(chǔ)存媒體,如只讀存儲(chǔ)器(ROM),磁盤(pán)片,硬盤(pán)機(jī),或CD-ROM。內(nèi)存210包含管理該系統(tǒng)的操作所需的所有軟件例程及數(shù)據(jù)。該內(nèi)存典型地包含一操作系統(tǒng)211及應(yīng)用程序220。應(yīng)用程序的例子包括文書(shū)處理器,通訊客戶(hù),及外國(guó)語(yǔ)言翻譯器。語(yǔ)音合成軟件亦可被提供作為該數(shù)據(jù)處理系統(tǒng)的一部分。
      在本發(fā)明的一實(shí)施例中,內(nèi)存210包括用于辨識(shí)處理及/或清晰化處理的每一部分的分開(kāi)的形式,其可包括以文字為基礎(chǔ)的清晰化引擎216、一以詞組為基礎(chǔ)的辨識(shí)或清晰化引擎217、一以文章上下文為基礎(chǔ)的辨識(shí)或清晰化引擎218、一選擇形式219、及其它(如一字清單214及一詞組清單215)。在此實(shí)施例中,該以文章上下文為基礎(chǔ)的辨識(shí)或清晰化引擎利用使用者的動(dòng)作的文章上下文態(tài)樣(aspect)于輸入清晰化上。例如,一字匯可根據(jù)被選定的使用者位置,如使用者是在工作或是在家里;一天中的時(shí)段,如上班時(shí)間vs.休閑時(shí)間;接收者;等等而被選取。
      在本發(fā)明的一實(shí)施例中,用于辨識(shí)及清晰化的大部分構(gòu)件在不同的輸入形式,如用于語(yǔ)音辨識(shí)及用于小型鍵盤(pán)輸入,之間是共享的。字清單214包含一列用于所有形式的在一語(yǔ)言中的已知的字。字清單214進(jìn)一步包含在該語(yǔ)言中相應(yīng)字的使用頻率的信息。在一實(shí)施例中,一個(gè)不在該語(yǔ)言的字清單214內(nèi)的字被視為具有零頻率。或者,一未知的字可被指定一非常小的使用頻率。藉由使用該被假設(shè)的使用頻率于未知的字上,已知的字及未知的字即可用大致相同的方式來(lái)處理。字清單214可被該以字為基礎(chǔ)的辨識(shí)或清晰化引擎216用來(lái)對(duì)候選字排等級(jí),刪除,及/或選取候選字,該等候選字是根據(jù)圖案辨識(shí)引擎,如筆畫(huà)/特征辨識(shí)引擎212或音素辨識(shí)引擎213,的結(jié)果所決定的,及用來(lái)根據(jù)一部分的使用者輸入來(lái)預(yù)測(cè)字用以完成該字。相類(lèi)地,詞組清單215包含一列包括兩個(gè)字或多個(gè)字的詞組,及使用頻率的信息,該以詞組為基礎(chǔ)的辨識(shí)或清晰化引擎217可使用該信息且可被用來(lái)預(yù)測(cè)完成該詞組的字。
      圖3為一用來(lái)處理一依據(jù)本發(fā)明的數(shù)據(jù)處理系統(tǒng)中的語(yǔ)言輸入的方法的流程圖。該方法從接收一包含了聲音輸入的第一輸入的步驟300開(kāi)始。該方法前進(jìn)至步驟302用以根據(jù)該第一輸入來(lái)決定第一數(shù)個(gè)候選字。該方法繼續(xù)至步驟304用以接收一包含非聲音輸入的第二輸入。最后,該方法在步驟306根據(jù)該第一及第二輸入來(lái)決定一或多個(gè)候選字。
      語(yǔ)音辨識(shí)系統(tǒng)將該聲音信號(hào)轉(zhuǎn)成為一數(shù)字的向量序列,它們與具有其文章上下文的潛在的音素(phone)相匹配。又,發(fā)音形式被匹配一語(yǔ)匯及語(yǔ)言模式用以產(chǎn)生每一分離的發(fā)聲的N-best字清單。
      在連續(xù)的語(yǔ)音辨識(shí)中,在字與字之間可能不會(huì)有清楚的停頓,所以辨識(shí)輸出可以有一或多個(gè)可能的詞組或句子詮釋。最可能的詮釋被顯示在該應(yīng)用的目前的輸入?yún)^(qū)域中的文字插入點(diǎn)。
      在該方法的步驟之后,使用者接著決定某些之前識(shí)別的字是不正確的。藉由使用一觸控筆,方向按鍵或聲音命令,使用者可選取一或多個(gè)字來(lái)進(jìn)行修正。該輸入系統(tǒng)可顯示一列在此時(shí)點(diǎn)最可能的詮釋?zhuān)⒉皇怯肋h(yuǎn)都會(huì)顯示所想要的字,特別是如果存在有顯示限制的話(huà)。
      藉由使用可用的或偏好的替代形式,如在一電話(huà)按鍵上的T9文字輸入,使用者開(kāi)始打入第一個(gè)被反白的字。因?yàn)樵摰茸帜笇?duì)應(yīng)要每一個(gè)按鍵,像是按鍵2上的ABC,在聽(tīng)覺(jué)上并不相近,所以系統(tǒng)可以立即決定第一個(gè)音素,例如破裂音/b/或/p/,事實(shí)上是B而不是P,因?yàn)槭前存I2被按下而不是包含PQRS的按鍵7被按下。相類(lèi)似地,輕敲在VBN附近而不是在IOP附近的自動(dòng)修正QWERTY鍵盤(pán)可提高B是所想要的字母的可能性。相類(lèi)似地,讓一手寫(xiě)辨識(shí)引擎詮釋為較接近B或3而不是P或R的一筆的姿勢(shì)相互地解決了在兩個(gè)辨識(shí)器中的歧意性。
      當(dāng)使用者重新書(shū)寫(xiě)不正確的字時(shí),一實(shí)施該方法的實(shí)施例的系統(tǒng)將立即提供該原始的辨識(shí)器輸出的較佳的詮釋?zhuān)o予每一歧意修正。如在上面的例子中所顯示的,只重新輸入第一個(gè)字母或前兩個(gè)字母對(duì)于該系統(tǒng)而言即足以將整個(gè)字相互清晰化并提供所想要的字作為最佳的選擇。在該輸入?yún)^(qū)中之前行的及/或后續(xù)的字的上下文與文法(其未被選來(lái)修正所以被假設(shè)為是正確的)可進(jìn)一步將經(jīng)過(guò)使用者修正的發(fā)音的詮釋定優(yōu)先級(jí)及精制。在給予目前的發(fā)音的最可能的文字再詮釋之下,后續(xù)的發(fā)音可被再詮釋為其它更可能的字。在另一實(shí)施例中,藉由使用語(yǔ)匯或明確指明每一字母的讀法的特定語(yǔ)言規(guī)則,其它被選取的字于重新詮釋為其它更可能的字之前會(huì)被對(duì)應(yīng)回音素。
      在一實(shí)施例中,該方法具有向量或音素卷標(biāo)且該歧意修正輸入被引導(dǎo)回該語(yǔ)音辨識(shí)系統(tǒng)以進(jìn)行一精制化的假設(shè)搜尋。在另一實(shí)施例中,該方法要求該清晰化系統(tǒng)使用該等向量或音素卷標(biāo)來(lái)精制及過(guò)濾該修正,使得只有具有與該等向量或音素兼容的字符的歧意詮釋會(huì)被考慮。
      當(dāng)使用者將字修正之后,該語(yǔ)音辨識(shí)系統(tǒng)即可決定連續(xù)語(yǔ)音的段落是錯(cuò)誤的并可根據(jù)使用者的修正來(lái)重新詮釋介于字與字之間的邊界;或決定一停頓不是代表介于字與字之間的一定義符號(hào),所以重新詮釋話(huà)語(yǔ)并將其顯示為一單一的字。
      如果在該裝置上的輸入選項(xiàng)很有限的話(huà),則使用者可以在一個(gè)時(shí)間只選擇一個(gè)字來(lái)修正。在此情形中,在使用者選取該待修正的字之后,該方法可包括根據(jù)該被修正的字的上下文來(lái)重新考量下一個(gè)字及/或原始的向量如何對(duì)應(yīng)到該經(jīng)過(guò)修正的字的尾端及下一個(gè)字的開(kāi)頭的步驟。該系統(tǒng)可顯示出下一個(gè)字具有一較地的信心分?jǐn)?shù)或可自動(dòng)地顯示出相關(guān)的話(huà)語(yǔ)的一列詮釋。
      在本發(fā)明的一個(gè)實(shí)施例中,該系統(tǒng)自動(dòng)地詮釋跟在一經(jīng)過(guò)辨識(shí)的話(huà)語(yǔ)之后的歧意輸入作為前面的字或詞組的一個(gè)修正。在另一實(shí)施例中,該系統(tǒng)在使用者完成該字的輸入的時(shí)同時(shí)將該輸入詮釋為對(duì)前面的字的一個(gè)修正以及是一將被加入到本文中的一個(gè)新字,一少數(shù)有效的修正或新字詮釋會(huì)被保留且最可能的修正或新字詮釋將被提出。
      在本發(fā)明的另一實(shí)施例中,該第一及第二輸入幾乎是同時(shí)的或重疊的;事實(shí)上,使用者對(duì)于他或她正在打的字發(fā)出聲音。該系統(tǒng)自動(dòng)地詮釋這兩種輸入且將它們相互清晰化用以產(chǎn)生這兩者的佳詮釋。使用者無(wú)需經(jīng)?;厮莶⑿拚只蛟~組,因?yàn)閷⑦@兩個(gè)輸入相結(jié)合可提高該系統(tǒng)選取正確的詮釋的可能性。只輸入少數(shù)代表每一個(gè)字的開(kāi)頭的歧意的輸入在許多例子中即已足夠。在本發(fā)明的另一實(shí)施例中,這兩個(gè)輸入被同步輸入,辨識(shí),及只在一字或詞組被選取以進(jìn)行修正之后被相互地清晰化。
      例如,使用者可為了「a」而按下按鍵2并說(shuō)出一個(gè)以「a」為開(kāi)頭的字。在一實(shí)施例中,該按鍵的按壓可被解讀為代表所想要的字的第一個(gè)字母。因此,當(dāng)輸入的兩個(gè)形式似乎相符時(shí),一個(gè)輸入形式可加強(qiáng)另一個(gè)輸入形式并提高該系統(tǒng)對(duì)于其所提呈出的字的信心度。然而,該輸入的兩個(gè)形式亦可能不相符。在此情形中,與該輸入的兩個(gè)形式相匹配的字都可被呈現(xiàn)在該候選字的清單中。該使用者然后可使用一個(gè)模式或兩個(gè)模式來(lái)作進(jìn)一步確認(rèn)。
      此外,該輸入的一個(gè)形式可被用來(lái)從該輸入的另一形式「發(fā)展出(buildaround)」字詞。例如,使用者可說(shuō)出「home」這個(gè)字然后馬上按下按鍵9。因?yàn)檫@兩個(gè)輸入似乎相沖突,所以該可能的字的清單中應(yīng)會(huì)包括發(fā)音與「home」相近的字而且以會(huì)包括以按鍵9上的字母「w」,「x」,「y」或「z」開(kāi)頭的字。按鍵9的按壓亦可被認(rèn)定為該復(fù)合字的下一個(gè)部分的開(kāi)頭,使得當(dāng)使用者說(shuō)出「work」時(shí),按下按鍵9可被用來(lái)幫助下一個(gè)語(yǔ)音輸入的清晰化。
      圖4為一方塊圖,其顯示使用者已依據(jù)本發(fā)明的一實(shí)施例口述一個(gè)字的例子。該語(yǔ)音引擎辨識(shí)一話(huà)語(yǔ)400。該字被顯示給使用者402看。如果使用者在應(yīng)用的輸入?yún)^(qū)中重新選擇該字的話(huà),則該選字清單提供來(lái)自該語(yǔ)音辨識(shí)輸出404的替代的假設(shè)。使用者然后可從該選字清單中選取正確的詮釋并繼續(xù)語(yǔ)音辨識(shí)輸入406。如果使用者在一個(gè)字是在使用中時(shí)按壓一或多個(gè)歧意的按鍵的話(huà),該選字清單只會(huì)反映出來(lái)自該N-best清單的符合該按鍵序列的字408。
      第5A-5C圖為顯示使用者已依據(jù)本發(fā)明的一實(shí)施例口述「The top」的例子的圖標(biāo)及樣本顯示屏幕。該語(yǔ)音引擎將該話(huà)語(yǔ)辨識(shí)為「The top」并回送至使用者的移動(dòng)裝置(圖5A)。如果使用者從多形式T9上打出「stop」這個(gè)字的話(huà),則該選字清單會(huì)提供來(lái)自該語(yǔ)音辨識(shí)輸出的替代假設(shè)(圖5B)使用者然后可從該選字清單中選取其所說(shuō)的話(huà)語(yǔ)并繼續(xù)用T9輸入或用語(yǔ)音辨識(shí)輸入。
      如果使用者輸入一按鍵按壓的話(huà),則該選字清單顯示來(lái)自該N-best清單受此按鍵按壓限制的字(圖5C)。當(dāng)一個(gè)字是使用中(active)時(shí),一額外的按鍵按壓會(huì)延伸該字母的序列。因此,一軟鍵「Edit」選項(xiàng)可喚起該修正方法。
      很明顯的是,本發(fā)明亦可使用小型鍵盤(pán)上或用在以表意字符來(lái)書(shū)寫(xiě)的語(yǔ)言上。例如,用對(duì)應(yīng)到每一按鍵的Pinyin字母,如按鍵2上的ABC,來(lái)修正被誤認(rèn)為「ping」的話(huà)語(yǔ)「being」;在按下按鍵2之后,該系統(tǒng)能夠立即地決定第一個(gè)音素事實(shí)上是B而非P。相類(lèi)似地,在使用敲擊順序輸入系統(tǒng)時(shí),在使用者按下一代表所想要的字符的第一個(gè)敲擊范疇時(shí),該語(yǔ)音辨識(shí)引擎即能夠考量以另一范疇中的敲擊開(kāi)頭的字符且能夠提供該話(huà)語(yǔ)的一更佳的詮釋。相類(lèi)似地,使用一手寫(xiě)形意字符辨識(shí)引擎來(lái)開(kāi)始畫(huà)出第一個(gè)字符亦可修正該語(yǔ)音詮釋。
      雖然一歧意的筆畫(huà)順序輸入系統(tǒng)或一手寫(xiě)辨識(shí)引擎可能無(wú)法名確地決定哪一個(gè)手寫(xiě)筆畫(huà)是所想要的,但該語(yǔ)音的詮釋與該筆畫(huà)詮釋的組合足以將兩種輸入形式清晰化用以提供使用者所想要的字符。如前文中提到有關(guān)字母語(yǔ)言的語(yǔ)音修正,在使用者選取經(jīng)過(guò)修正的表意的字符(character)時(shí),該方法可包括根據(jù)該精過(guò)修正的上下文及/或原始的聲音向量是如何對(duì)應(yīng)到該經(jīng)過(guò)修正的字符尾端及下一個(gè)字符的開(kāi)頭來(lái)辨識(shí)下一個(gè)字符的步驟。因?yàn)樵摰刃拚年P(guān)系,該語(yǔ)音辨識(shí)系統(tǒng)亦可決定一暫時(shí)的停頓不可能代表介于字與字或詞組與詞組之間的定義符號(hào),因此新詮釋該話(huà)語(yǔ)并將它顯示為代表一單一字或詞組的一連串的字符,而不是兩個(gè)分開(kāi)的字或詞組;反的亦然。
      語(yǔ)音辨識(shí)及歧意輸入的組合具有其它的好處。在一嘈雜的環(huán)境中,像是在城市的人行道上,在一人多的餐廳中,或在一建筑工地內(nèi),該語(yǔ)音辨識(shí)精確到會(huì)掉落到使用者無(wú)法接受的一程度之下?;蛘?,在一安靜的環(huán)境中,像是在在圖書(shū)館中或是在會(huì)議當(dāng)中,或當(dāng)話(huà)題是隱私且敏感時(shí),可能無(wú)法使用語(yǔ)音口述。使用者則可以用歧意輸入系統(tǒng)作為一可靠的系統(tǒng)來(lái)自由地輸入內(nèi)文。此外,辨識(shí)或拼出一個(gè)沒(méi)有在該語(yǔ)音辨識(shí)系統(tǒng)的詞匯中的字將會(huì)是很難的,而歧意輸入系統(tǒng)典型地提供一可靠的機(jī)構(gòu)來(lái)打入任何字符序列并將其語(yǔ)匯加入。此外,該語(yǔ)音辨識(shí)引擎可被用來(lái)從由該歧意輸入系統(tǒng)所顯示出來(lái)的候選字清單中選取一個(gè)字。
      在本發(fā)明的一個(gè)實(shí)施例中,字或詞組的詮釋是依這些字或詞組在該語(yǔ)言的一般使用中的出現(xiàn)頻率來(lái)排順序的。在本發(fā)明的一實(shí)施例中,該排序被持續(xù)地或偶爾被用作為每一個(gè)字或詞組相對(duì)于其它的字或詞組的使用者的頻率及/或使用頻率。
      在本發(fā)明的一實(shí)施例中,符合到目前為止的按鍵敲擊或觸控筆輕敲的字的完成或預(yù)測(cè)與其它的字詮釋一體被提供,用以讓修正及額外字的重新鍵入更加快速及容易。在本發(fā)明的一實(shí)施例中,區(qū)別發(fā)音符號(hào),像是元音腔調(diào),被放在該被說(shuō)出的字或被修正的字的適當(dāng)字符上,無(wú)需使用者指出需要一區(qū)別發(fā)音的標(biāo)記。
      在本發(fā)明的一實(shí)施例中,某些或所有來(lái)自該替代的形式的輸入并不是歧意的。這可減少或省去對(duì)于圖1中的清晰化引擎115的需要,但仍需要該多形式清晰化引擎117,用以根據(jù)到現(xiàn)在為止的新的輸入序列來(lái)重新詮釋該被修正的字或詞組的向量或音素卷標(biāo)。
      在本發(fā)明的一實(shí)施例中,如當(dāng)該歧意的輸入系統(tǒng)是一顯示在一觸控屏幕裝置上的自動(dòng)修正鍵盤(pán),使用者在修正或重新打字期間的最佳詮釋的每一個(gè)字符,如最接近每一觸控筆輕敲的字符,形成一個(gè)序列,該系統(tǒng)會(huì)將其顯示為一無(wú)歧意的詮釋?zhuān)绻胍淖譀](méi)有在該字匯中的話(huà)該使用者會(huì)選取該無(wú)歧意的詮釋。
      在本發(fā)明的一實(shí)施例中,如當(dāng)該歧意的輸入系統(tǒng)使用一小型鍵盤(pán)時(shí),如一標(biāo)準(zhǔn)的電話(huà)鍵盤(pán)時(shí),該無(wú)歧意的詮釋為該按鍵序列的一兩按鍵或多輕敲詮釋。
      在本發(fā)明的一實(shí)施例中,該無(wú)歧意的詮釋被加入到該字匯中,如果使用者選取它來(lái)實(shí)施修正或輸出的話(huà)。在本發(fā)明的一實(shí)施例中,該被辨識(shí)出的或經(jīng)過(guò)修正的字或該無(wú)歧意的詮釋指認(rèn)出一用于輸出的取代字或詞組,如一較長(zhǎng)的詞組的縮寫(xiě)或一臟話(huà)的可被接受的替代物。在本發(fā)明的一實(shí)施例中,該系統(tǒng)可根據(jù)使用者實(shí)際上選取之后續(xù)的字或詞組詮釋來(lái)適應(yīng)在使用者的輸入之間,如輕敲的位置或手寫(xiě)形狀的歪斜,及所想要的字符或字之間,的系統(tǒng)性差異。
      在本發(fā)明的一實(shí)施例中,使用者喚起一模式,在該模式中語(yǔ)調(diào)被辨識(shí)為分開(kāi)的字符,如一字母,數(shù)字或標(biāo)點(diǎn)符號(hào)。該字符序列可被加到該字匯中,如果它是新的的話(huà)。在本發(fā)明的一實(shí)施例中,用于拼字的替代字,如「Alpha Tango Charlie」或「A as in Andy,P as in Paul」被辨識(shí)為分開(kāi)的字符。
      在本發(fā)明的一實(shí)施例中,當(dāng)該等向量或語(yǔ)音卷標(biāo)不再提供有用的導(dǎo)引來(lái)進(jìn)行重新詮釋或清晰化時(shí),該系統(tǒng)可選擇不理會(huì)它們。在本發(fā)明的一實(shí)施例中,該系統(tǒng)提供一個(gè)機(jī)構(gòu),如一按鍵或姿勢(shì),給使用者來(lái)解除某些或全部與該被辨識(shí)出的字相關(guān)的語(yǔ)音數(shù)據(jù)。
      在另一實(shí)施例中,在安裝階段,或在文字信息或其它數(shù)據(jù)的接收期間,信息文件被掃描用以將字加到語(yǔ)匯中。掃描信息文件的方法在此技藝中是屬習(xí)知。在掃描期間發(fā)現(xiàn)暫時(shí),它們會(huì)被加到一字匯形式中當(dāng)作低使用頻率的字,且被放在該選字清單的尾端。根據(jù)一給定的新字在一掃描期間被偵測(cè)到的次數(shù),藉由將它在它的選字清單中的位置提升來(lái)指定給它一較高的優(yōu)先權(quán),因而提高該字在信息輸入期間出現(xiàn)在選字清單中的可能性。用于目前的或已決定的語(yǔ)言上的標(biāo)準(zhǔn)的發(fā)音規(guī)則會(huì)被應(yīng)用到新的字上用以達(dá)成它們供未來(lái)辨識(shí)用的語(yǔ)音學(xué)上的形式。
      熟習(xí)此技藝者將可了解的是,額外的字匯形式(不論是藉由規(guī)則或在語(yǔ)匯上具體指定的)可在該計(jì)算機(jī)中實(shí)施,如包含法律用語(yǔ),醫(yī)療用語(yǔ),及其它語(yǔ)言的字匯形式。又,在某些語(yǔ)言中,像是印度語(yǔ)是語(yǔ)言,字匯形式會(huì)使用有效的子字(sub-word)序列樣本來(lái)決定哪些是可能的候選字組成或給予在前的輸入及被考慮的候選字。通過(guò)一系統(tǒng)選單,使用者可將該系統(tǒng)設(shè)定為讓額外的字匯出現(xiàn)在可能的字清單中的第一個(gè)或最后一個(gè)字,如具有特殊的顏色或反白,或該系統(tǒng)會(huì)根據(jù)哪一個(gè)字匯形式在被選取的字之前被提供而自動(dòng)地改變字的順序。因此,在下面的申請(qǐng)專(zhuān)利范圍的范圍內(nèi),應(yīng)被了解的是,本發(fā)明可用不同于本文中所具體描述的方式來(lái)實(shí)施。
      雖然本發(fā)明在本文中是參照較佳實(shí)施例來(lái)說(shuō)明,但熟習(xí)此技藝者將很容易可了解到,在不偏離本發(fā)明的精神及范圍下,其它的應(yīng)用可取代本文中所提出的應(yīng)用。因此,本發(fā)明的范圍只由以下的申請(qǐng)專(zhuān)利范圍來(lái)界定。
      權(quán)利要求
      1.一種用來(lái)處理在一數(shù)據(jù)處理系統(tǒng)中的語(yǔ)言輸入的方法,其至少包含以下的步驟接收第一輸入,其包含一聲音輸入;根據(jù)該第一輸入決定一或多個(gè)候選字;接收第二榆入,其包含一非聲音輸入;及根據(jù)該第一輸入及第二輸入來(lái)決定一或多個(gè)候選字。
      2.如如權(quán)利要求1所述的方法,其中該一或多個(gè)候選字是根據(jù)該第二輸入在第一輸入的限制下所決定的。
      3.如如權(quán)利要求2所述的方法,其中該一或多個(gè)候選字是根據(jù)第一輸入在考量字的上下文(context)下決定的。
      4.如如權(quán)利要求3所述的方法,其中該字的上下文是根據(jù)以下所列的任何一個(gè)N-gram語(yǔ)言模式;及語(yǔ)音辨識(shí)引擎的語(yǔ)言模式。
      5.如如權(quán)利要求1所述的方法,其中決定該一或多個(gè)候選字的步驟包含了根據(jù)該第二輸入來(lái)修正或過(guò)濾該第一數(shù)個(gè)候選字的步驟。
      6.如如權(quán)利要求1所述的方法,其中該第二輸入是在一移動(dòng)裝置上被接收;及其中對(duì)于聲音輸入的語(yǔ)音辨識(shí)部分是在該移動(dòng)裝置上實(shí)施的且部分是在一通過(guò)無(wú)線通信連接耦合至該移動(dòng)裝置的服務(wù)器上實(shí)施的。
      7.如如權(quán)利要求6所述的方法,其中該語(yǔ)音辨識(shí)是藉由該移動(dòng)裝置上的一壓下通話(huà)(push-to-talk)鈕來(lái)激活的。
      8.如如權(quán)利要求1所述的方法,其中該第二輸入是在一或多個(gè)候選字被呈現(xiàn)以進(jìn)行選取或編輯時(shí)被接收的。
      9.如如權(quán)利要求8所述的方法,其中該第二輸入包含以下所列的任何一個(gè)觸控鍵盤(pán);手寫(xiě)姿勢(shì)辨識(shí);及小鍵盤(pán)輸入。
      10.如如權(quán)利要求1所述的方法,其中當(dāng)該第二輸入與標(biāo)點(diǎn)符號(hào)或符號(hào)相關(guān)連時(shí),該第一輸入被詮釋為標(biāo)點(diǎn)符號(hào)或一或多個(gè)其它符號(hào)。
      11.一種其上儲(chǔ)存有指令的機(jī)器可讀取的媒體,該等指令在一數(shù)據(jù)處理系統(tǒng)上被執(zhí)行時(shí)會(huì)讓該數(shù)據(jù)處理系統(tǒng)實(shí)施一用于處理語(yǔ)言輸入的方法,該方法至少包含以下的步驟接收第一輸入,其包含一聲音輸入;根據(jù)該第一輸入決定一或多個(gè)候選字;接收第二輸入,其包含一非聲音輸入;及根據(jù)該第一輸入及第二輸入來(lái)決定一或多個(gè)候選字。
      12.如如權(quán)利要求11所述的機(jī)器可讀取的媒體,其中該一或多個(gè)候選字是根據(jù)第一輸入在考量字的上下文(context)下決定的;及該字的上下文是根據(jù)以下所列的任何一個(gè)N-gram語(yǔ)言模式;及語(yǔ)音辨識(shí)引擎的語(yǔ)言模式。
      13.如如權(quán)利要求11所述的機(jī)器可讀取的媒體,其中決定該一或多個(gè)候選字的步驟包含了修正該第一數(shù)個(gè)候選字的步驟。
      14.如如權(quán)利要求11項(xiàng)述的機(jī)器可讀取的媒體,其中該第二輸入是在一移動(dòng)裝置上被接收;及其中對(duì)于聲音輸入的語(yǔ)音辨識(shí)部分是在該移動(dòng)裝置上實(shí)施的且部分是在一通過(guò)數(shù)據(jù)連接而耦合至該移動(dòng)裝置的服務(wù)器上實(shí)施的;及其中該語(yǔ)音辨識(shí)是藉由該移動(dòng)裝置上的一壓下通話(huà)(push-to-talk)鈕來(lái)激活的。
      15.如如權(quán)利要求11項(xiàng)述的機(jī)器可讀取的媒體,其中該第二輸入是在一或多個(gè)候選字被呈現(xiàn)以進(jìn)行編輯時(shí),或是在該第一數(shù)個(gè)候選字被呈現(xiàn)以進(jìn)行選取時(shí)被接收的;及該第二輸入包含以下所列的任何一個(gè)觸控鍵盤(pán);手寫(xiě)姿勢(shì)辨識(shí);及小鍵盤(pán)輸入。
      16.一種用于處理語(yǔ)言輸入的移動(dòng)裝置,其至少包含語(yǔ)音辨識(shí)形式,用來(lái)處理第一輸入,其包含一聲音輸入;及或多個(gè)第二輸入形式,用來(lái)處理一第二輸入,其包含一非聲音輸入;處理形式,其耦合至該一或多個(gè)第二輸入形式及該語(yǔ)音辨識(shí)形式,該處理形式根據(jù)該第一輸入決定一第一復(fù)數(shù)候選字并接下來(lái)根據(jù)該第一輸入及第二輸入來(lái)決定一或多個(gè)候選字。
      17.如如權(quán)利要求16所述的裝置,其中該一或多個(gè)候選字是根據(jù)該第二輸入在第一輸入的限制下及在考量字的上下文(context)下決定的;及該字的上下文是根據(jù)以下所列的任何一個(gè)N-gram語(yǔ)言模式;及語(yǔ)音辨識(shí)引擎的語(yǔ)言模式。
      18.如如權(quán)利要求16所述的裝置,其中該一或多個(gè)候選字是藉由修正該第一數(shù)個(gè)候選字來(lái)決定的。
      19.如如權(quán)利要求16所述的裝置,其中對(duì)于聲音輸入的語(yǔ)音辨識(shí)部分是在該移動(dòng)裝置上實(shí)施的且部分是在一通過(guò)無(wú)線通信連接耦合至該移動(dòng)裝置的服務(wù)器上實(shí)施的;及其中該語(yǔ)音辨識(shí)是藉由該移動(dòng)裝置上的一壓下通話(huà)(push-to-talk)鈕來(lái)激活的。
      20.如如權(quán)利要求16項(xiàng)所述的裝置,其中該第二輸入是在一或多個(gè)候選字被呈現(xiàn)以進(jìn)行編輯時(shí),或是在該第一數(shù)個(gè)候選字被呈現(xiàn)以進(jìn)行選取時(shí)被接收的;及該第二輸入包含以下所列的任何一個(gè)觸控鍵盤(pán);手寫(xiě)姿勢(shì)辨識(shí);及小鍵盤(pán)輸入。
      全文摘要
      本發(fā)明提供一種結(jié)合了一或多種替代的輸入形式(modality)的語(yǔ)音辨識(shí)系統(tǒng)用以確保有效率及正確的文字輸入。語(yǔ)音辨識(shí)系統(tǒng)因?yàn)橛邢薜奶幚砟芰Γh(huán)境噪音,及/或說(shuō)話(huà)風(fēng)格上的自然變化等因素的關(guān)系而尚未達(dá)到完全正確的程度??晒┻x擇的輸入形式使用清晰化或識(shí)別引擎來(lái)補(bǔ)償減縮的鍵盤(pán),潦草的輸入,及/或在書(shū)寫(xiě)風(fēng)格上的自然的變化。在語(yǔ)音辨識(shí)處理中的歧意性(ambiguity)大多數(shù)是與可供選擇的輸入模式中固有的歧意性正交,使得兩種形式的結(jié)合可有效率地及正確地解決辨識(shí)錯(cuò)誤。本發(fā)明特別適用于鍵盤(pán)輸入或觸控屏幕輸入的空間有限的可攜式裝置。
      文檔編號(hào)G10L15/00GK1965349SQ200580017805
      公開(kāi)日2007年5月16日 申請(qǐng)日期2005年6月2日 優(yōu)先權(quán)日2004年6月2日
      發(fā)明者M·朗格, R·埃亞德, K·C·賀爾費(fèi)什 申請(qǐng)人:美國(guó)聯(lián)機(jī)股份有限公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1