專利名稱:無線裝置的基于用戶界面的語音識別的制作方法
一般來說,本發(fā)明涉及數(shù)據(jù)通信,具體地,是涉及利用基于網(wǎng)絡(luò)的語音識別資源來增強本機用戶界面(user interface)的雙向無線通信裝置。
基于超文本技術(shù)的使用已經(jīng)拓寬了無線通信系統(tǒng)的范疇。雙向無線裝置,本說明書中也稱為移動裝置,和無線網(wǎng)絡(luò)協(xié)議已經(jīng)被設(shè)計得允許通過各種無線和有線網(wǎng)絡(luò)交互地訪問遠端信息服務(wù)(例如,商業(yè)數(shù)據(jù)庫、電子郵件、在線購物),這些網(wǎng)絡(luò)最明顯的是因特網(wǎng)和一些專用網(wǎng)。
許多移動裝置(例如,蜂窩電話)是面向消費者大眾市場的裝置。因此,在不限制裝置功能的情況下,其用戶界面應(yīng)當(dāng)是簡單并容易使用的。當(dāng)前,對于大多數(shù)移動裝置的主要數(shù)據(jù)輸入方法是鍵盤,但當(dāng)用于輸入很長的字符串時,鍵盤輸入方法是相對低效率的。由于尺寸的限制和成本的考慮,對于起草需要大量用戶輸入的消息(例如,Email消息),這些移動裝置的鍵盤不是一種特別用戶友好的界面。這種類型裝置的鍵盤通常具有12至24個之間的鍵,對于數(shù)字輸入有足夠數(shù)量的鍵,但當(dāng)涉及對于具有網(wǎng)絡(luò)功能裝置的字符數(shù)據(jù)輸入就顯得非常不夠。
從因特網(wǎng)要求信息的用戶一般利用瀏覽器通過全球網(wǎng)(WWW)進行導(dǎo)航。例如,利用InfoseekTM作為搜索引擎對斯坦福大學(xué)要求信息的用戶將必需輸入以下字符串“http//www.Infoseek.com”后接“Stanford University”列在上面的搜索字符串包括40個字符。用戶利用標(biāo)準(zhǔn)臺式計算機鍵盤和瀏覽器(例如,Netscape或Explorer)輸入這種類型的字符串是沒有問題的。但是,同樣的用戶操作移動裝置的鍵盤通過緊湊的鍵盤和各個鍵之間密集的間隔輸入相同字符串就相當(dāng)困難了。
因特網(wǎng)的通常用途之一是電子郵件。希望發(fā)一個具有上述段落尺寸的電子郵件消息的用戶將必需輸入超過400個字符。利用臺式計算機的標(biāo)準(zhǔn)鍵盤,用戶可能用低于2分鐘(假設(shè)該用戶具有平均熟練程度的打字水平)輸入那些字符。然而,在移動裝置的鍵盤上輸入同樣數(shù)量的擊鍵可能要用相當(dāng)長的時間并且變得非常冗長乏味以及容易出錯。
近來,語音識別(VR)技術(shù)的進步和硬件能力的增加使得臺式系統(tǒng)的基于語音識別的用戶界面的開發(fā)成為商業(yè)可用的。VR技術(shù)提取講話的單詞并翻譯這些單詞為一種可以容易由數(shù)字系統(tǒng)操作和顯示的格式。這些開發(fā)成果已經(jīng)試圖裝備具有VR技術(shù)的緊湊的移動裝置,但是,這些努力一般都要求昂貴的器件修改,諸如額外的部件(例如,DSP(數(shù)字信號處理)芯片)或增加處理和存儲能力。一部典型的蜂窩電話具有等效于低于一般臺式或便攜計算機的百分之一的計算資源。在不修改該裝置的部件的情況下,按比例縮小運行VR應(yīng)用的電話可能僅僅能夠識別很少一組預(yù)定的講話單詞。
近來,對于臺式和膝上計算機的語音識別軟件(例如,來自Dragonsystem,Inc.的Naturally Speaking;來自Apple Computer的PlainTalkTM,來自IBM的Viavoice 98TM和來自Philips Talk的FreeSpeech 98TM)每個許可證一般都在39美元到數(shù)百美元。這個數(shù)目代表了裝有可比的應(yīng)用軟件的移動裝置價格的相當(dāng)大一部分。
在每個移動裝置中裝入語音識別應(yīng)用軟件并修改其硬件部件以運行該應(yīng)用程序?qū)κ謾C制造商在他們的裝置中加入VR功能起到一種在財務(wù)上的阻礙作用。這些修改可能要使該移動裝置的最后價格增加可觀的成本,可能使通常由大眾市場擁有的移動裝置的價格超出目標(biāo)價格范圍(例如,150美元)。
就硬件資源而言,這些應(yīng)用程序可以要求對于每種支持的語言的高達60兆字節(jié)的存儲器。另外,大多數(shù)商用語音識別應(yīng)用軟件被設(shè)計為針對相對快速的處理器(例如,133MHz奔騰處理器)。
因此,對能以最有效的方式使移動裝置與數(shù)字計算機網(wǎng)進行交互通信的設(shè)備和方法存在著很大的需求。在不需要顯著改動硬件資源或提高成本的情況下,結(jié)合標(biāo)準(zhǔn)移動裝置用戶界面(例如,電話鍵盤)的利用語音識別的能力可以極大地改善利用有限資源的具有網(wǎng)絡(luò)能力的移動裝置的可用性和商業(yè)生存性。
本發(fā)明涉及一種利用遙控語音識別服務(wù)器系統(tǒng)的無線通信系統(tǒng),該服務(wù)器系統(tǒng)翻譯從移動裝置接收的語音輸入到一種可以由移動裝置處理的符號數(shù)據(jù)文件(例如,字符數(shù)字或控制字符)。這種翻譯處理是通過移動裝置與語音識別服務(wù)器之間建立的語音通信信道開始的。然后,移動裝置的用戶以一種用可由語音識別服務(wù)器系統(tǒng)檢測的方式開始講話。當(dāng)檢測到該用戶的話音時,語音識別服務(wù)器系統(tǒng)翻譯該話音為符號數(shù)據(jù)文件,然后該文件通過另外的數(shù)據(jù)通信信道轉(zhuǎn)移給用戶。當(dāng)在移動裝置接收到符號數(shù)據(jù)文件時,該用戶檢查并編輯該符號數(shù)據(jù)文件,并且按需要進一步利用該文件。例如,用戶可以利用該符號數(shù)據(jù)文件填充一個電子郵件中的各個字段或者一個瀏覽器請求字段。
本發(fā)明可以按各種方式實現(xiàn),包括按照一種方法、一種設(shè)備或一種裝置、一種用戶界面、一種計算機可讀的存儲器和一種系統(tǒng)。下面討論本發(fā)明的若干實施例。
按照一個實施例,本發(fā)明是一種用于在不具有執(zhí)行語音識別本地處理的資源和/或軟件的移動裝置中獲得語音識別服務(wù)的方法。該方法包括駐留在該移動裝置中的本地應(yīng)用程序建立和協(xié)調(diào)該目標(biāo)移動裝置與運行語音識別應(yīng)用程序的遠端服務(wù)器系統(tǒng)(在本說明書稱為語音識別服務(wù)器系統(tǒng))之間的語音信道。
當(dāng)建立了語音信道后,該目標(biāo)移動裝置的用戶排隊(queuing)開始對該移動裝置(例如,蜂窩電話)的麥克風(fēng)講話。作為這個交互的結(jié)果,在語音識別服務(wù)器系統(tǒng)接收到的語音輸入被變換為符號數(shù)據(jù)文件。這個處理可以利用以前存儲的用戶專用數(shù)據(jù)文件幫助進行。然后,該符號數(shù)據(jù)文件被傳送回始發(fā)的移動裝置或者通過另外建立和協(xié)調(diào)的數(shù)據(jù)通信信道轉(zhuǎn)移到一個指定的第三方裝置。符號數(shù)據(jù)文件可以被用于與該移動裝置上本地應(yīng)用程序進行交互通信,或者與網(wǎng)絡(luò)資源(例如,因特網(wǎng)的服務(wù)器或?qū)S镁W(wǎng))進行交互。
連同前面的描述,下面的描述和附圖,可以說明本發(fā)明的其它目的和優(yōu)點。
通過結(jié)合附圖的下面的詳細描述本發(fā)明將會獲得很容易的理解,其中各標(biāo)記是表示各個結(jié)構(gòu)部件,和其中
圖1表示可以實施本發(fā)明的示意性結(jié)構(gòu);圖2A表示典型的有語音能力的移動裝置的顯示器和用戶界面部件;圖2B表示一種示例性有語音能力的移動裝置功能性方框圖;圖3表示按照本發(fā)明的一個優(yōu)選實施例的鏈路服務(wù)器裝置的功能性方框圖4是表示按照本發(fā)明的一個實施例的語音識別服務(wù)器的示例性的各個處理級的示意性圖;圖5表示說明關(guān)于移動裝置與語音識別服務(wù)器系統(tǒng)之間的各種操作的各個屏幕顯示。
圖6表示根據(jù)按本發(fā)明的一個實施例的移動裝置方面的處理流程圖;圖7表示根據(jù)按本發(fā)明的一個實施例的語音識別服務(wù)器方面的處理流程圖。
在下面的本發(fā)明的詳細描述中,描述了許多具體細節(jié)以便對本發(fā)明有全面的理解。但是,對于本專業(yè)的技術(shù)人員而言不用這些具體的細節(jié)也可以實施本發(fā)明。在另外的情況下,沒有詳細地描述各公知的方法、程序、部件和電路,這樣作是為了避免不必要地混淆了本發(fā)明的主要方面。在下面的本發(fā)明的詳細描述是很大方面體現(xiàn)在關(guān)于程序、步驟、邏輯方框、處理、和耦合到網(wǎng)絡(luò)上的類似數(shù)據(jù)處理裝置的其它符號表示。這些處理描述和表示是本專業(yè)的技術(shù)人員有效傳達他們的工作成果給本專業(yè)的其他技術(shù)人員所使用的手段。
本發(fā)明涉及使一個移動裝置能根據(jù)聯(lián)網(wǎng)的語音識別服務(wù)器系統(tǒng)接入(access)語音識別服務(wù)的各種系統(tǒng)和方法。按照本發(fā)明的一個實施例,語音識別服務(wù)是通過在希望用語音識別服務(wù)的移動裝置用戶與聯(lián)網(wǎng)的語音識別服務(wù)器系統(tǒng)之間建立一個語音信道而接入的。
一旦建立語音信道,當(dāng)語音識別服務(wù)器系統(tǒng)準(zhǔn)備好接收話音信號時,移動裝置的用戶排隊開始講話。接收的話音信號由語音識別服務(wù)器系統(tǒng)利用現(xiàn)有技術(shù)公知的語音識別技術(shù)(例如,模板匹配、傅立葉變換或線性預(yù)測編碼(LPC))進行處理并產(chǎn)生符號數(shù)據(jù)文件。
符號數(shù)據(jù)文件是一種與接收的語音信號具有某種關(guān)系,按照由語音識別系統(tǒng)翻譯的,含有指定對象、數(shù)量、操作、功能、音素、單詞、詞組或其任何組合的多個字母、音素、單詞、數(shù)字、對象、功能、控制字符或其它常規(guī)標(biāo)記的文件。各種語音識別系統(tǒng)一般使用語音模板、傅立葉變換編碼、或線性預(yù)測編碼方案來映射語音的輸入成分為預(yù)存儲的符號構(gòu)造塊。符號數(shù)據(jù)文件的例子包括ASCII文件和二進制數(shù)據(jù)文件。
為了使本發(fā)明容易描述,列舉某些可以應(yīng)用本發(fā)明的通信系統(tǒng)的特點是有用的。圖1到圖4提供了原理性系統(tǒng)部件的概況。
參照圖1,表示一種按照本發(fā)明的一個實施例的典型通信系統(tǒng)的方框圖。移動裝置102和103通過話音通信信道接收電話呼叫和超媒體(hypermedia)信息(例如,超文本標(biāo)記語言(Hyper Text Markup LanguageHTML))文件、緊湊超文本傳輸協(xié)議(cHTML)文件、可擴充標(biāo)記語言(ExtensibleMarkup Language XML)文件、手持裝置標(biāo)記語言(HDML)文件、或無線標(biāo)記語言(WML)文件、或者類似的數(shù)據(jù)類型,這些文件是從遠端服務(wù)器裝置通過寬帶或窄帶(例如,SMS)數(shù)據(jù)通信信道接收的,這些信道可以包括鏈路服務(wù)器裝置106和短消息服務(wù)中心107。
移動裝置102和103的每個都有一個顯示器和一個用戶界面。此外,移動裝置102和103可以具有存儲在本機存儲器(也稱為客戶機模塊)中的一個微瀏覽器(例如,Phone.com公司的微瀏覽器,800Chesapeake Drive RedwoodCity,CA,94063),使得該裝置處理從遠端服務(wù)器裝置接收的超媒體信息。
如圖1所示,移動裝置102和103可以通過無線運營商(carrier)網(wǎng)絡(luò)104(這里也稱為無線網(wǎng)絡(luò))被耦合到鏈路服務(wù)器裝置106。移動裝置102和103可以是從一組裝置中提取的,這一組裝置包括移動電話、帶有語音發(fā)送和/或接收能力的掌中計算裝置和個人數(shù)字助理。語音能力被定義為裝備在移動裝置中允許用戶傳送/接收語音信息到/從遠端目的地(例如,到另外的用戶或裝置)的能力。
接入到語音通信信道一般要求該用戶和/或裝置是由無線運營商網(wǎng)絡(luò)104進行身份識別。網(wǎng)絡(luò)識別包括一個目標(biāo)移動裝置與無線運營商網(wǎng)絡(luò)104之間身份識別信息的交換。一般,所述該用戶和/或移動裝置的身份識別信息被存儲在該裝置的存儲器中,并且當(dāng)該用戶試圖進入網(wǎng)絡(luò)時進行自動發(fā)送。
無線運營商網(wǎng)絡(luò)104可以是任何一種公知的無線通信網(wǎng)絡(luò)(例如,蜂窩數(shù)字分組(CDPD)網(wǎng)、全球系統(tǒng)移動通信(GSM)網(wǎng)、碼分多址(CDMA)網(wǎng)、個人手持電話系統(tǒng)(PHS)或時分多址(TDMA)網(wǎng))。鏈路服務(wù)器裝置106還被耦合到與語音識別服務(wù)器系統(tǒng)109和由網(wǎng)絡(luò)服務(wù)器113代表的多個聯(lián)網(wǎng)的服務(wù)器相耦合的有線網(wǎng)108。
語音識別服務(wù)器系統(tǒng)109是由服務(wù)器裝置110與存儲設(shè)施112組成的,該存儲設(shè)施112能夠存儲與一個運營商實體所服務(wù)的多個用戶相關(guān)的用戶專用文件等。該用戶專用文件與語音識別處理結(jié)合使用并且在一個實施例中是本發(fā)明的一部分。
用戶專用文件的例子可以包括用戶專用語音模板、一個或多個用戶規(guī)定的語言詞典(例如,法語、英語、德語或廣東話)和個別用戶高頻詞匯的一個或多個用戶專用的詞典或表。這些文件可以利用聯(lián)網(wǎng)的多媒體計算機(例如,多媒體計算機140)或者通過被服務(wù)的移動裝置的用戶界面進行上載和管理。例如,語音模板是通過用戶讀一個預(yù)定腳本到一個具有語音功能裝置中產(chǎn)生的。用戶的喜好(例如,選擇語言)可以利用在移動裝置的顯示器上提供給用戶的菜單選擇屏進行輸入,或經(jīng)有線網(wǎng)連接到語音識別服務(wù)器系統(tǒng)的其它裝置輸入。
為了簡化起見,天線121代表無線運營商的基礎(chǔ)設(shè)施,一般包括基站和操作與維護中心?;究刂婆c移動裝置102和103的無線或電信鏈路。操作與維護中心包括移動交換中心,該中心在各個移動裝置與其它固定的或移動網(wǎng)絡(luò)用戶之間交換呼叫。另外,操作與維護中心管理移動通信計費業(yè)務(wù),諸如驗證、監(jiān)管正確操作和無線網(wǎng)絡(luò)建立。對于本專業(yè)技術(shù)人員運營商的基礎(chǔ)設(shè)施121中的每個硬件部件和處理都是公知的,為了避免不必要地混淆了本發(fā)明的主要方面,這里不再贅述。
空中網(wǎng)104所有的通信協(xié)議例如可以是無線接入?yún)f(xié)議(WAP)或手持裝置傳輸協(xié)議(HDTP)。有線網(wǎng)108是一個陸基網(wǎng),該網(wǎng)可以是因特網(wǎng)、專用網(wǎng)或任何專用網(wǎng)的數(shù)據(jù)網(wǎng)。一般,支持陸地網(wǎng)118的通信協(xié)議可以是傳輸控制協(xié)議(TCP/IP)、超文本傳輸協(xié)議(HTTP)、或安全超文本傳送協(xié)議(sHTTP)。
鏈路服務(wù)器裝置106和網(wǎng)絡(luò)服務(wù)器113一般是計算機工作站,例如SunMicrosystem公司(http//www.sun.com)的具有聯(lián)網(wǎng)資料庫和因特網(wǎng)連接的SPARC的工作站。網(wǎng)絡(luò)服務(wù)器113代表耦合到陸地網(wǎng)108的多個聯(lián)網(wǎng)服務(wù)器和能夠提供訪問包含移動裝置102和103的信息的超媒體信息。
鏈路服務(wù)器裝置106被描述為一個獨立的裝置并因此經(jīng)常被稱為網(wǎng)關(guān)或無線數(shù)據(jù)服務(wù)器。鏈路服務(wù)器106可以被組成為按照無線網(wǎng)104與有線網(wǎng)108之間的一個橋路進行操作。應(yīng)當(dāng)指出的是,鏈路服務(wù)器106的功能可以由連接到有線網(wǎng)108的具有現(xiàn)有技術(shù)公知的提供無線網(wǎng)104與有線網(wǎng)108之間連接的其它裝置來執(zhí)行。
前面描述的語音通信信道一般是由語音信道126代表的。這個通信信道通常利用現(xiàn)有技術(shù)公知的用于建立電話呼叫的基礎(chǔ)設(shè)施和處理過程進行建立和協(xié)調(diào)的。
一般,存在著兩種給移動裝置102和103提供服務(wù)的數(shù)據(jù)通信信道的類型。數(shù)據(jù)通信信道128代表寬帶數(shù)據(jù)通信信道。數(shù)據(jù)通信信道130代表窄帶數(shù)據(jù)通信信道,例如,短消息通信(SMS)服務(wù)信道。這些數(shù)據(jù)通信路徑的任何一種都可以被用于傳送數(shù)據(jù)到/從移動裝置102和103。
按照本發(fā)明的優(yōu)選實施例,希望從語音識別服務(wù)系統(tǒng)109接收語音識別服務(wù)的移動裝置(例如,移動裝置102或103),首先建立一般由語音信道126代表的語音信道。用于語音識別服務(wù)系統(tǒng)109的聯(lián)絡(luò)信息(例如,電話號碼或統(tǒng)一的資源指示符(URI))可以插入到裝入移動裝置的軟件中、從鏈路服務(wù)器裝置106中檢索或者由用戶直接輸入。
一旦在正在請求的移動裝置與語音識別服務(wù)器系統(tǒng)109之間建立語音信道,用戶信息被轉(zhuǎn)移到該語音識別服務(wù)器系統(tǒng)。這允許以前存儲的用于正在請求的移動裝置的用戶專用文件將被訪問和利用。用戶信息可以在分別的數(shù)據(jù)通信信道(例如,數(shù)據(jù)通信信道128或130)上進行發(fā)送,或者由用戶輸入。一般,用戶的專用文件給一個具體用戶帳戶提供專用的功能特征。例如,用戶可以對語音識別處理規(guī)定一種或多種語言選擇。
一旦用于目標(biāo)移動裝置/用戶的用戶專用文件被檢索到,該用戶被提示提供語音輸入(例如,開始講話)。注意,用戶可以在利用語音識別服務(wù)的同時,利用移動裝置的用戶界面(例如,電話鍵盤)這一點是重要的。當(dāng)用戶已經(jīng)完成他們與移動裝置輸入交互(語音和物理輸入)時,可以由用戶(語音的或鍵輸入的)提供一個指示結(jié)束輸入階段。然后,語音識別服務(wù)器系統(tǒng)109變換語音輸入為符號數(shù)據(jù)文件,該文件經(jīng)鏈路服務(wù)器106被轉(zhuǎn)送到發(fā)出請求的移動裝置。
正如前面所述,符號數(shù)據(jù)文件是一種含有當(dāng)由語音識別系統(tǒng)進行翻譯時與接收的語音信號有某種關(guān)系的用于指示對象、數(shù)量、操作、功能、音素、單詞、短語或其任何組合的多個字母、音素、單詞、數(shù)字、對象、功能、控制符或其它常用標(biāo)記的文件。一般,語音識別系統(tǒng)利用語音模板、傅立葉編碼、或線性預(yù)測編碼方案映射接收的輸入組成部分到預(yù)存儲的符號構(gòu)造塊。符號數(shù)據(jù)文件的例子包括ASCII文件和二進制數(shù)據(jù)文件。
符號數(shù)據(jù)文件可以開始被轉(zhuǎn)送到鏈路服務(wù)器裝置106,該裝置可以在經(jīng)寬帶信道128或窄帶信道130發(fā)送到請求的移動裝置的符號數(shù)據(jù)文件之前執(zhí)行附加處理。然后,移動裝置的用戶可以查看接收的符號數(shù)據(jù)文件和按照需要使用。
語音識別服務(wù)器系統(tǒng)109的語音識別應(yīng)用程度的準(zhǔn)確度在很大程度上取決于使用的翻譯方法學(xué)和使用的語言詞典的大小和語種。一般,與講話者相關(guān)的方法學(xué)(例如,模板匹配)具有高達98%的準(zhǔn)確度,和與講話者無關(guān)的方法學(xué)(例如,傅立葉變換和線性預(yù)測編碼(LPC))具有90-95%范圍(www.hitl.washington.edu-Voice Recognition,Jim Baumann)的準(zhǔn)確度。
根據(jù)本發(fā)明的原理,如果語音識別應(yīng)用程序曾由該裝置執(zhí)行過,則移動裝置(例如,移動裝置102和103)的用戶可以在這些移動裝置上訪問語音識別服務(wù)器,而無需大的硬件或軟件的修改。另外,因為執(zhí)行語音識別處理器的軟件駐留在以高處理速度(與移動裝置相比)和大存儲容量的可訪問的遠端服務(wù)器裝置,可以給該裝置的用戶提供具有全部功能特征的語音識別應(yīng)用程序相關(guān)的功能和資源。例如,語音識別應(yīng)用可以訪問大的語言詞典、對多種語言可選擇的語言詞典、和用戶專用文件(例如,語音模板和用戶定制的詞典和表)。
圖2A描述一種示例性移動裝置200,該移動裝置對應(yīng)于圖1中的各移動裝置(102或103)之一。移動裝置200包括顯示屏204、擴充的電話型鍵盤210、光標(biāo)導(dǎo)航鍵222和224、一對軟鍵(softkey)208A和208B、送話器212A和麥克風(fēng)212B。顯示屏204一般是能夠顯示文本信息和某些圖形的液晶顯示器(LCD)顯示屏。擴充的電話鍵盤210最好包括具有附加鍵的常規(guī)的電話鍵盤,這些附加鍵提供一些附加的字符(例如,空格)和功能(例如,退格或清除)。
光標(biāo)導(dǎo)航鍵222和224允許用戶重新置位光標(biāo)或一個元件指示符216,例如,激活顯示在顯示屏204上的各個應(yīng)用程序之一。通用鍵208A和208B一般被用于執(zhí)行如由軟功能識別符214和215所指示的應(yīng)用程序?qū)S霉δ堋?yīng)當(dāng)由本專業(yè)技術(shù)人員理解的是,實施本發(fā)明并不要求一定具有常規(guī)電話鍵盤。因為某些移動裝置有時完全沒有物理的鍵,諸如掌中計算裝置利用軟鍵或圖標(biāo)作為輸入機構(gòu)。
當(dāng)利用相關(guān)的鏈路服務(wù)器裝置(例如,圖1的鏈路服務(wù)器裝置106)建立通信會話時,移動裝置200一般接收一個或多個標(biāo)記語言卡組(markuplanguage card deck)以幫助用戶與裝置交互。取決于實施中的優(yōu)先次序考慮,標(biāo)記語言卡組,另外還可以被稱為屏幕描述命令文件,可以是標(biāo)記語言的,但并不限于此,還可以包括手持裝置標(biāo)記語言(HDML)、超文本標(biāo)記語言(HTML)、緊湊HTML、無線標(biāo)記語言(WML)、標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)、可擴充標(biāo)記語言(XML)。或者,數(shù)據(jù)文件可以是對應(yīng)的標(biāo)記文件的一種被剝離、被壓縮、編輯或被變換的版本。
出現(xiàn)在圖2A的LCD屏幕204上的正文是這種顯示屏的一個例子。在這個例子中,提供給用戶下列選項的選擇1)書簽2)內(nèi)部搜索(Search Int)3)電子郵件4)新聞每種選擇一般鏈接到網(wǎng)絡(luò)的資源,或者是本地的軟件應(yīng)用程序。用戶可以從上述菜單上利用導(dǎo)航鍵222和224通過用戶選擇的元件指示符216進行選擇。這種相同的方法可以被利用在提供用于與遠端服務(wù)器裝置(例如,圖1的語音識別服務(wù)器系統(tǒng)109)的用戶提示上。
現(xiàn)在參照圖2B,是移動裝置250的更詳細的描述,裝置250可以是圖1的移動裝置102或103和圖2的200。移動裝置250包括耦合到運營商無線網(wǎng)104的無線控制協(xié)議(WCP)接口252,該接口接收輸入和輸出的信號。裝置識別符(ID)存儲器254存儲并提供裝置ID給WCP接口252,用于外部實體(例如,圖1的鏈路服務(wù)器裝置)識別移動裝置250的用途。裝置ID是一個與移動裝置250相關(guān)的特定的碼,并且直接與相關(guān)用戶帳戶中的裝置ID相關(guān)聯(lián),一般帳戶在相關(guān)的鏈路服務(wù)器裝置(例如,圖1的106)中提供。
移動裝置250包括處理器268、編碼器/解碼器電路264、工作存儲器258和客戶機模塊256??蛻魴C模塊256是裝載在裝置存儲資源中的軟件部件,這些軟件執(zhí)行移動裝置250執(zhí)行的許多處理任務(wù),包括經(jīng)由無線運營商網(wǎng)絡(luò)104建立與鏈路服務(wù)器裝置的通信會話、操作和維護本地應(yīng)用、在移動裝置250的顯示屏260上顯示信息、和接收來自鍵盤262的用戶輸入??蛻魴C模塊256可以與把軟件裝載在計算裝置中非常相似的方式裝載在移動裝置250的存儲器中。
此外,移動裝置250包括語音回路266,用于變換語音活動為可以在數(shù)字和模擬通信系統(tǒng)中發(fā)送和接收的電脈沖。這些部件及其功能在現(xiàn)有技術(shù)中是公知的并將不予贅述。
按照本發(fā)明的原理,裝入移動裝置250中的軟件包括在運行語音識別應(yīng)用程序中對用戶與服務(wù)器裝置交互提供幫助的部件。該提供幫助的軟件可以作為微瀏覽器或其它應(yīng)用軟件的一部分,或者作為單獨的應(yīng)用程序裝入。這個應(yīng)用程序負責(zé)諸如對服務(wù)器裝置提供服務(wù)、接收符號數(shù)據(jù)文件的管理、和用戶喜好的輸入/變更之類任務(wù)的檢索和存儲聯(lián)絡(luò)信息。用戶幫助可以例如是屏幕顯示信息、可聞或觸覺提示和/或軟鍵映射功能的形式。
例如,結(jié)合一種應(yīng)用程序(例如,電子郵件消息)希望利用語音識別服務(wù)的用戶可以訪問感興趣的應(yīng)用程序和激活一個軟鍵來訪問語音識別服務(wù)器。然后與軟鍵相關(guān)的功能將檢索對于運行語音識別應(yīng)用程序的服務(wù)器裝置的聯(lián)絡(luò)信息,如果尚未存儲,和處理將按照上述進行處理。提供這個例子的目的是為了說明,它不是對本發(fā)明范圍的限制。
圖3示意性地說明鏈路服務(wù)器裝置340的各原理性部件,裝置340可以對應(yīng)于圖1的鏈路服務(wù)器裝置106。鏈路服務(wù)器裝置340是作為有線網(wǎng)300與無線網(wǎng)320之間的網(wǎng)關(guān)進行操作的服務(wù)器計算機。為了避免與本發(fā)明的主要部分相混淆,在鏈路服務(wù)器裝置340中的公知方法、程序、部件和電路不詳細描述了。
鏈路服務(wù)器裝置340包括耦合到有線網(wǎng)300的陸地控制協(xié)議(LCP)接口358、和耦合到無線網(wǎng)320的無線控制協(xié)議(WCP)接口341。服務(wù)器模塊310耦合在LCP接口358與WCP接口341之間。
服務(wù)器模塊310執(zhí)行傳統(tǒng)的服務(wù)器處理以及從一種通信協(xié)議到另外一種通信協(xié)議的協(xié)議變換處理。消息處理器316是用于協(xié)議變換和相關(guān)任務(wù)的一個部件。在協(xié)議變換的情況下(例如,HDTP和HTTP之間),變換一般是數(shù)據(jù)映射處理。本專業(yè)的技術(shù)人員將理解到,WCP接口341取決于無線網(wǎng)和使用的協(xié)議,可以由其他接口模塊替代。當(dāng)有線網(wǎng)和協(xié)議改變時,同樣LCP接口358也可以由其他接口替代。
服務(wù)器模塊310還包括帳戶管理器312有帳戶接口314。帳戶管理器312管理多個用戶帳戶,一般這些移動裝置的每個都是由鏈路服務(wù)器裝置340服務(wù)的。應(yīng)當(dāng)理解為,用戶帳戶信息可以被存儲在耦合到鏈路服務(wù)器裝置340的另外的網(wǎng)絡(luò)服務(wù)器中。換言之,用戶計費可以保持在一個物理上放置在經(jīng)有線網(wǎng)耦合到鏈路服務(wù)器裝置340的任何計算裝置中的數(shù)據(jù)庫中。
由鏈路服務(wù)器裝置340服務(wù)的每個移動裝置被分配一個身份識別符(ID)或裝置ID。裝置ID可以是該裝置的電話號碼或IP地址、或者是IP地址和端口號的組合,例如,204.163.165.132:01905,其中204.163.165.132是IP地址和01905是端口號。裝置ID作為在激活的用于移動裝置的用戶帳戶中涉及的過程一部分還與由運營商控制的鏈路服務(wù)器裝置340建立和管理的用戶ID相聯(lián)系。用戶ID可以關(guān)聯(lián)于并用來訪問與一個特定用戶或裝置相關(guān)的用戶專用文件(例如,圖1的112)。
用戶ID可以采取例如,AT&T無線服務(wù)商的861234567-10900-pn.mobile.att.net形式,并對用戶移動裝置是唯一的識別符。帳戶管理器312負責(zé)產(chǎn)生對于允許與鏈路服務(wù)器裝置340進行安全通信的移動裝置的用戶計費。在這種情況下,帳戶管理器312保證對由鏈路服務(wù)器裝置340提供服務(wù)的移動裝置適當(dāng)?shù)陌踩L問水平。
鏈路服務(wù)器裝置340還包括處理器318和存儲資源320作為主要硬件部件。處理器318在服務(wù)模塊310的控制下執(zhí)行操作。本專業(yè)技術(shù)人員將理解,鏈路服務(wù)器裝置340可以包括一個或者多個處理器(例如,處理器318)、工作存儲器(例如,存儲器資源320)、各個總線、各個接口和其他部件,和代表一個或多個裝入鏈路服務(wù)器裝置的340的工作存儲器執(zhí)行指定功能的軟件模塊。相同的特性同樣可應(yīng)用到客戶機模塊和目標(biāo)移動裝置的硬件部件。
一般,支持陸地網(wǎng)300的陸地網(wǎng)通信協(xié)議(LCP)可以包括傳輸控制協(xié)議(TCP)、超文本傳輸協(xié)議(HTTP)或安全超文本傳輸協(xié)議(HTTPS)、和無線通信協(xié)議(WCP)可以包括(TCP)、(HTTP)或(HTTPS)、手持裝置傳輸協(xié)議(HDTP)或無線電會話協(xié)議(WSP)。在不同于WCP的LCP的情況下,服務(wù)器模塊310包括用于從一種協(xié)議映射到另外一種協(xié)議的映射模塊(即,映射器),使得耦合到無線網(wǎng)320的一個移動裝置可以與耦合到有線網(wǎng)300的裝置進行通信。
一旦接收的語音信號被語音識別服務(wù)器系統(tǒng)(未示出)進行處理,符號數(shù)據(jù)文件被產(chǎn)生并發(fā)送到鏈路服務(wù)器裝置340。符號數(shù)據(jù)文件由管理處理器316經(jīng)LCP接口358進行接收。管理處理器316變換符號數(shù)據(jù)文件為可能是在無線網(wǎng)320上傳輸最佳(按照無線網(wǎng)的協(xié)議要求和發(fā)出請求的移動裝置的裝置特性)的數(shù)據(jù)格式。當(dāng)從語音識別服務(wù)器系統(tǒng)接收時,該符號數(shù)據(jù)文件可以是由消息處理器316理解的一種格式,例如,標(biāo)記語言(例如,HTML)或文本文件(例如,ASCII)。被處理的符號數(shù)據(jù)文件可以經(jīng)重新形成格式,以便與正在請求的移動裝置相兼容,然后該文件被轉(zhuǎn)送到該請求移動裝置或到指定的第三方裝置。
參照圖4,表示出一個示例性語音識別服務(wù)器系統(tǒng)460的功能模塊(可以對應(yīng)于圖1的語音識別服務(wù)器系統(tǒng)109),該模塊執(zhí)行下列處理1)語音檢測,2)語音分析,3)模式匹配和4)符號文件產(chǎn)生。在語音檢測462期間,語音識別服務(wù)器系統(tǒng)460檢測在其輸入中的語音信號的存在。當(dāng)檢測到時,接收的語音信號經(jīng)過語音分析處理464,在此該語音信號被減少到對模式匹配可用的可量化指標(biāo)。在模式匹配級466期間,可量化指標(biāo)與存儲在存儲裝置480中的用戶語音模板(如果利用根據(jù)模板語音識別處理)進行比較,該存儲裝置可以是各種語言的詞典和多個用戶專用文件。如上面所述,符號數(shù)據(jù)文件經(jīng)有線網(wǎng)300(見圖3)被轉(zhuǎn)移到語音識別服務(wù)器340。本專業(yè)技術(shù)人員將理解,不脫離本發(fā)明的范圍,可以使用其他的語音識別方案(例如,傅立葉變換或者線性預(yù)測編碼(LCP))。本專業(yè)技術(shù)人員還將理解為,鏈路服務(wù)器裝置(例如,圖1的106)可以執(zhí)行語音識別服務(wù)器系統(tǒng)(例如,圖1的109)的功能。
圖5表示涉及請求語音識別服務(wù)的移動裝置與語音識別服務(wù)器系統(tǒng)之間的交互會話的多個示例性顯示屏。開始,顯示屏500允許用戶在手工輸入504和VR(語音識別)幫助輸入508之間進行選擇。用戶選擇是由選擇指示符512指示的。在這個例子中,VR幫助輸入512可以通過激活與軟鍵功能指示符516相關(guān)的軟鍵進行選擇的。這種選擇檢索提供服務(wù)的語音識別服務(wù)器系統(tǒng)的聯(lián)絡(luò)信息。在這個例子中,聯(lián)絡(luò)信息包括電話號碼(例如,650-555-7272)。本專業(yè)技術(shù)人員將理解為,聯(lián)絡(luò)信息還可以包括統(tǒng)一資源識別符(URI)或者類似的唯一識別符。用于訪問用戶專用文件的相關(guān)用戶和/或裝置的識別信息可以在后臺進行傳送(例如,利用另外的數(shù)據(jù)信道或語音通信信道)或者由用戶輸入。
當(dāng)取出語音識別服務(wù)器系統(tǒng)聯(lián)絡(luò)信息522時,如顯示屏520所示,可以通過激活與軟鍵功能指示符524相關(guān)的軟鍵(OK),建立語音信道。顯示屏530表示信息的類型,它可以提供給請求移動裝置的用戶。字符串532給用戶提供關(guān)于建立與提供服務(wù)的語音識別服務(wù)器系統(tǒng)的通信會話狀態(tài)的信息。字符串534提供給用戶關(guān)于用于處理該用戶的請求設(shè)置的信息。這可能包含一個簡單的字符串(例如,“Initializing Default Settings”)或多個交互和非交互的顯示,這些顯示允許用戶輸入選擇(例如,語言的選擇)。當(dāng)服務(wù)的語音識別服務(wù)器系統(tǒng)準(zhǔn)備好接收輸入時,給用戶呈現(xiàn)一個提示536(“開始講話”)。用戶可以通過激活與軟鍵功能指示符538相關(guān)的軟鍵結(jié)束輸入會話。
語音識別服務(wù)器可以被構(gòu)成為與駐留在發(fā)請求的移動裝置中的特定應(yīng)用程序進行交互。例如,可以產(chǎn)生經(jīng)處理的符號數(shù)據(jù)文件,用作對一個諸如電子郵件之類的應(yīng)用程序中的特定字段的輸入。另外,一旦用于語音識別服務(wù)的激活的語音信道被建立起來,用戶可以利用該服務(wù)改變應(yīng)用程序,而不用關(guān)閉和重建語音通信信道。例如,用戶可以在電子郵件程序與個人事務(wù)安排程序之間進行轉(zhuǎn)換。這個特點降低了用戶的成本和網(wǎng)絡(luò)的擁塞。
現(xiàn)在參照圖6和圖7,分別表示按照本發(fā)明的一個實施例的描述移動裝置與語音識別服務(wù)器操作的處理流程圖。圖6和圖7兩者都應(yīng)當(dāng)結(jié)合圖1進行理解。
按照本發(fā)明的一個優(yōu)選實施例,一個希望語音識別服務(wù)的用戶將通過利用本機用戶界面(例如,通過按一個鍵)啟動對于服務(wù)的請求。一般,用戶可以利用駐留的應(yīng)用程序(例如,電子郵件或web瀏覽器)結(jié)合所希望的任務(wù)進行啟動。作為該請求的結(jié)果,返回到移動裝置的信息可能被插入與正在執(zhí)行的任務(wù)相關(guān)的文件中。
該請求的處理產(chǎn)生將建立在請求服務(wù)的移動裝置與提供服務(wù)的語音識別服務(wù)器系統(tǒng)之間的語音信道。一旦該語音信道被建立和用戶排隊開始講話,該用戶可以開始與移動裝置的輸入交互,該輸入除了語音輸入外,可能包括利用本機用戶界面(例如,電話鍵盤)進行物理輸入。當(dāng)完成與移動裝置的初始輸入交互時,用戶可以選擇保持語音信道開通的開通狀態(tài)并執(zhí)行另外的任務(wù)或者結(jié)束該語音信道。
圖6是說明由移動裝置(例如,移動裝置102和103)使用的從相應(yīng)的移動裝置與遠端語音識別服務(wù)器系統(tǒng)(例如,語音識別服務(wù)器系統(tǒng)109)進行交互的處理600的流程圖。在604,作出是否在目標(biāo)移動裝置與提供服務(wù)的語音識別服務(wù)器系統(tǒng)之間存在一個有效語音信道的確定。這個處理通常發(fā)生在軟件控制的后臺中。
如果存在一個激活的語音信道,則用戶在608被提示提供一個輸入,表示用戶是否希望禁止該激話語音信道。這可能是這樣一種情況,即對于計劃的用該移動裝置的輸入交互,用戶不要求VR服務(wù)。
如果用戶判斷禁止語音信道,則在612禁止語音信道。然后用戶前進到物理輸入628,使用該裝置的用戶界面(例如,鍵盤)。在622,作出是否用戶的輸入(例如,物理輸入628)已經(jīng)進行了寄存(例如,輸入被裝置接受)的判斷。如果用戶的輸入被寄存,則在632進行處理并且用戶在636被提示提供表示是否繼續(xù)輸入會話或者結(jié)束之。如果用戶選擇了結(jié)束,則在640作出所建立的語音信道/回路(即,語音信道/回路有效)的狀態(tài)的確定。正如在上面所描述的那樣,這種檢查通常發(fā)生在后臺中。在上面描述的序列中,不存在激活語音信道,這樣處理將被結(jié)束。
如果在608,用戶判斷采用語音信道,則將可能是對于移動裝置輸入交互,用戶試圖使用語音識別服務(wù)的這樣一種情況,然后用戶提供語音輸入624和物理輸入628,并且在622作出是否用戶的輸入已經(jīng)被寄存的確定。如果用戶的輸入已經(jīng)被寄存,則在632進行處理,并且用戶在636被提示提供是否用戶希望繼續(xù)輸入會話或者結(jié)束會話的指示。如果用戶選擇結(jié)束會話,則在640作出所建立的語音信道/回路的任何狀態(tài)的確定。當(dāng)結(jié)束時,激活語音信道/回路被關(guān)閉(secured)。然后處理被結(jié)束。
如果在636用戶判斷不結(jié)束輸入會話,則處理返回處理600的開始。
如果在604作出沒有激活語音信道的確定,則用戶在614被提示,提供是否用戶希望建立有效語音信道的指示。這將是用戶要求對于與移動裝置輸入交互的語音識別服務(wù)的情況。
如果在614,用戶要求用于輸入交互的語音信道,則在618建立一個信道。然后用戶提供語音輸入624和物理輸入628并且作出是否用戶的輸入已經(jīng)被寄存的確定。如果用戶的輸入已經(jīng)被寄存,則在632進行處理和用戶被提示,在636提供是否繼續(xù)輸入會話還是結(jié)束的指示。如果用戶選擇結(jié)束,則在640作出和上面描述的一樣建立的任何語音信道/回路的狀態(tài)的確定。當(dāng)結(jié)束時,激活語音信道/回路被關(guān)閉。然后處理結(jié)束。
如果在614,用戶不要求用于即將進行的輸入交互的語音信道,這可能是該用戶不要求語音識別服務(wù)的情況,然后用戶利用移動裝置的用戶界面(例如,鍵盤)前進到物理輸入628。在622,作出是否用戶的輸入(例如,物理輸入)已經(jīng)被寄存的確定。如果用戶的輸入已經(jīng)被寄存,則在632進行處理并且在636作出是繼續(xù)輸入會話還是結(jié)束的判斷。然后處理結(jié)束。
如果在636用戶判斷不結(jié)束輸入會話,則處理返回處理600的開始。
如果在上面這些示例性的交互的任何一個中,在622用戶輸入不被寄存,則用戶被提示,在636提供是否他們希望結(jié)束與語音識別服務(wù)器系統(tǒng)進行會話的指示。
一旦提供服務(wù)的語音識別服務(wù)器系統(tǒng)與請求服務(wù)的移動裝置之間的語音信道被建立,該語音識別服務(wù)器系統(tǒng)可以檢索與該移動裝置用戶相關(guān)的用戶專用文件(例如,語言的選用、模板文件等)和利用這些文件來處理輸入的文件語音輸入。語音識別服務(wù)器系統(tǒng)然后檢測和處理輸入的與請求服務(wù)相關(guān)的語音信號。輸入的語音信號利用模板匹配處理、傅立葉變換方法、線性預(yù)測編碼方案或任何合適的語音識別編碼方案被變換為符號數(shù)據(jù)文件,并且利用數(shù)據(jù)通信信道被轉(zhuǎn)移到正在請求的移動裝置(或指定的第三方裝置),該數(shù)據(jù)通信信道可能包括中間服務(wù)器裝置(例如,圖1中的鏈路服務(wù)器裝置106)。
符號數(shù)據(jù)文件可以按一種適合由請求移動裝置進行處理的格式(例如,cHTML、WML或HDML)或者按任何一種適合由中間服務(wù)器裝置進行處理器的格式(例如,HTML、WML、XML、ASCII等)。在后一種情況下,如果有要求的話,中間服務(wù)器裝置可以執(zhí)行任何的變換處理。
按照本發(fā)明的原理,用戶與移動裝置的會話根據(jù)服務(wù)器裝置運行的語音識別應(yīng)用程序(例如,一種語音識別服務(wù)器系統(tǒng)),可能能夠訪問遠端的可用語音識別服務(wù)器。存儲在電話中的軟件(例如,微瀏覽器)在這種會話中通過檢索和管理用于服務(wù)器裝置的聯(lián)絡(luò)信息并且通過提供提示和執(zhí)行涉及與語音識別服務(wù)器系統(tǒng)交互的各功能來幫助用戶。利用這種系統(tǒng)和方法,具有有限處理能力和存儲容量的移動裝置可以訪問具有全面功能特征的在高性能計算機工作站上運行的語音識別應(yīng)用程序。
圖7是說明由語音識別服務(wù)器系統(tǒng)(例如,語音識別服務(wù)器系統(tǒng)109)與移動裝置(例如,移動裝置102)從相應(yīng)的語音識別服務(wù)器系統(tǒng)交互的處理700的流程圖。在704,作出(例如,通過軟件處理)是否在語音識別服務(wù)器系統(tǒng)(例如,語音識別服務(wù)器系統(tǒng)109)與請求服務(wù)的移動裝置(例如,移動裝置102)之間的語音回路/信道已經(jīng)建立的確定。
如果在704,確與請求服務(wù)的移動裝置已經(jīng)建立語音回路(circuit)/信道,則然后在708作出是否已經(jīng)檢測到語音信號的另一個確定。如果在708檢測到語音信號,則接收的語音輸入716被用于在712產(chǎn)生符號數(shù)據(jù)文件。
如上所述,符號數(shù)據(jù)文件是一種含有多個字母、音素、單詞、數(shù)字、對象、功能、控制符或其他的常用標(biāo)記,這些標(biāo)記指定作為由語音識別系統(tǒng)進行翻譯的對象、數(shù)量、操作、功能、音素、單詞、短語、或其任何組合。語音識別系統(tǒng)一般利用語音模板、傅立葉變換編碼、或線性預(yù)測編碼方案來映射語音的輸入組成部分為預(yù)存儲的符號構(gòu)造塊。符號數(shù)據(jù)文件的例子包括ASCII文件和二進制數(shù)據(jù)文件。
然后在720符號數(shù)據(jù)文件被轉(zhuǎn)送到請求的移動裝置(或者指定的第三方裝置)。在724進行是否從請求服務(wù)的移動裝置接收到結(jié)束命令的確定。如果接收到結(jié)束命令,則處理結(jié)束。如果沒有接收到結(jié)束命令,則在708該處理繼續(xù)搜索輸入語音信號。如果在708,在預(yù)定時間周期內(nèi)沒有接收到語音信號,則在728作出是否已經(jīng)接收到結(jié)束的命令的確定。如果接收到結(jié)束命令,則該處理結(jié)束。當(dāng)然,該系統(tǒng)可能具有導(dǎo)致處理結(jié)束的預(yù)定的超時或者周期限制,即使結(jié)束命令沒有接收到也是如此。
如果在704,作出與正在請求服務(wù)的移動裝置建立語音回路/信道的確定,則語音識別服務(wù)器系統(tǒng)等待與希望語音識別服務(wù)的移動裝置的激活語音信道的建立。
按照本發(fā)明的原理,語音識別服務(wù)器系統(tǒng)起到移動裝置的用戶界面的延伸的作用。例如,對于利用本機用戶界面,可能在一般情況下要求相當(dāng)長的時間和努力進行輸入的冗長的交互,用戶可以選擇使用語音識別服務(wù)。另外,因為移動裝置的資源并不限制使用的語音識別應(yīng)用程序,所以用戶可以被提供訪問一個大的詞匯表。
本發(fā)明的優(yōu)點是很多的。不同的實現(xiàn)可能產(chǎn)生一個或多個下面的優(yōu)點。本發(fā)明的一個優(yōu)點是某些移動裝置(例如,具有有限處理和存儲能力的裝置)的用戶能夠使用全面功能的在遠端服務(wù)器裝置中運行的語音識別應(yīng)用程序,增強了標(biāo)準(zhǔn)裝置的用戶界面。
本發(fā)明的另外的優(yōu)點是因為所使用的語音識別應(yīng)用不受移動裝置的處理和存儲的限制,可以給用戶提供有全面功能特征的運行在更強有力的計算機中的語音識別應(yīng)用程序的功能。與這個功能相關(guān)的優(yōu)點包括提供給用戶以具有大的詞匯表的多語言詞典和個性化的詞典。另外,因為語音識別應(yīng)用不是存儲在移動裝置中的,所以對移動裝置的單機成本幾乎沒有或沒有影響。本發(fā)明的再一個優(yōu)點是提供服務(wù)的運營商可以對于訪問它的用戶收取少的服務(wù)費。
本發(fā)明的還再一個優(yōu)點是用戶可以同時利用語音識別服務(wù)和本機用戶界面(例如,電話鍵盤),因此提供給用戶更多的靈活性。例如,用戶可以輸入語音信號并且混合從本機用戶界面輸入的符號。
從說明書的描述來看,本發(fā)明的許多特點和優(yōu)點是明顯的,所附的權(quán)利要求書應(yīng)覆蓋本發(fā)明的所有這些特點和優(yōu)點。再有,因為對于本專業(yè)的技術(shù)人員將很容易作出多種修改和改變,所以本發(fā)明不是限制于按照所說明和描述的精確結(jié)構(gòu)和構(gòu)成上。因此,所有適當(dāng)?shù)男薷暮偷刃飸?yīng)被視為落入本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種用于對具有顯示屏幕和用戶界面的無線通信裝置提供語音識別服務(wù)的方法,包括在運行語音識別應(yīng)用程序的服務(wù)器裝置接收從無線通信裝置發(fā)出的對語音識別服務(wù)的請求;檢索與來自第一通信路徑的請求相關(guān)的語音輸入信號;利用語音識別應(yīng)用程序變換該語音輸入信號為符號數(shù)據(jù)文件;和利用第二通信路徑發(fā)送符號數(shù)據(jù)文件到無線通信裝置。
2.按照權(quán)利要求1所述的方法,其中第一通信路徑是建立在無線通信網(wǎng)上。
3.按照權(quán)利要求2所述的方法,其中該無線網(wǎng)是從下列一組網(wǎng)中選擇的,這些網(wǎng)是蜂窩數(shù)字分組數(shù)據(jù)(CDPD)網(wǎng)、移動通信全球系統(tǒng)(GSM)網(wǎng)、碼分多址(CDMA)網(wǎng)、個人手持電話系統(tǒng)(PHS)或時分多址(TDMA)網(wǎng)。
4.按照權(quán)利要求1所述的方法,其中符號數(shù)據(jù)文件是一種標(biāo)記語言文件。
5.按照權(quán)利要求1所述的方法,其中標(biāo)記語言文件是從以下組合中選出的手持裝置標(biāo)記語言(HDML)、超文本標(biāo)記語言(HTML)、緊湊HTML(cHTML)、無線標(biāo)記語言(WML)、標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)、可擴充標(biāo)記語言(XML)。
6.按照權(quán)利要求1所述的方法,其中符號數(shù)據(jù)文件是二進制數(shù)據(jù)文件。
7.按照權(quán)利要求1所述的方法,其中符號數(shù)據(jù)文件是ASCII格式的數(shù)據(jù)文件。
8.按照權(quán)利要求1所述的方法,其中第二通信路徑包括一鏈路服務(wù)器裝置,經(jīng)使用第一通信協(xié)議的有線網(wǎng)連接到運行語音識別應(yīng)用程序的服務(wù)器裝置,并且經(jīng)使用第二通信協(xié)議的無線網(wǎng)連接到無線通信裝置。
9.按照權(quán)利要求8所述的方法,其中第一通信協(xié)議是從以下一組協(xié)議中選擇的,這些協(xié)議包括傳輸控制協(xié)議(TCP/IP)、超文本傳送協(xié)議(HTTP)、和安全超文本傳輸協(xié)議(sHTTP)。
10.按照權(quán)利要求8所述的方法,其中第二通信協(xié)議是無線通信協(xié)議。
11.按照權(quán)利要求10所述的方法,其中無線通信協(xié)議是從以下一組協(xié)議中選擇的,這些協(xié)議是無線接入?yún)f(xié)議(WAP)和手持裝置傳輸協(xié)議(HDTP)。
12.按照權(quán)利要求1所述的方法,其中從無線通信裝置中接收的請求包括用戶專用的識別信息。
13.按照權(quán)利要求12所述的方法,其中該用戶專用識別信息被用于檢索用戶專用文件,以處理對語音識別服務(wù)的請求。
14.按照權(quán)利要求1所述的方法,其中從無線通信裝置中接收的請求包括裝置專用識別信息。
15.按照權(quán)利要求14所述的方法,其中裝置專用識別信息被用于檢索用戶專用文件,以處理對語音識別服務(wù)的請求。
16.按照權(quán)利要求14所述的方法,其中裝置專用識別信息是從以下一組信息中選擇的,這些信息包括電話號碼和統(tǒng)一資源識別符(URI)。
17.按照權(quán)利要求1所述的方法,其中無線通信裝置是移動電話。
18.按照權(quán)利要求17所述的方法,其中移動電話包括微處理器和軟件的存儲區(qū)。
19.按照權(quán)利要求18所述的方法,其中微處理器利用在存儲區(qū)中存儲的軟件來控制電話功能和本機應(yīng)用程序。
20.按照權(quán)利要求19所述的方法,其中本機應(yīng)用程序提供有關(guān)獲得語音識別服務(wù)的功能。
21.一種對具有顯示屏和用戶界面的無線通信裝置提供語音識別服務(wù)的方法,包括檢索運行語音識別應(yīng)用程序的服務(wù)器裝置的聯(lián)絡(luò)信息;產(chǎn)生對與所檢索的聯(lián)絡(luò)信息相關(guān)的服務(wù)器裝置的語音識別服務(wù)的請求;將對語音識別服務(wù)的請求發(fā)送到與所檢索的聯(lián)絡(luò)信息相關(guān)的服務(wù)器裝置;建立無線通信裝置和與所檢索的聯(lián)絡(luò)信息相關(guān)的服務(wù)器裝置之間的語音通信信道;從使用無線通信裝置的用戶接收輸入,該輸入的至少一部分包括語音組成部分;和發(fā)送該用戶輸入到所述服務(wù)器裝置,用于由語音識別應(yīng)用程序進行處理。
22.按照權(quán)利要求21所述的方法,其中聯(lián)絡(luò)信息是從以下一組信息中選擇的,這些信息包括電話號碼和統(tǒng)一資源識別符(URI)。
23.按照權(quán)利要求21所述的方法,其中語音通信信道是在無線網(wǎng)上建立的。
24.按照權(quán)利要求23所述的方法,其中無線網(wǎng)是從以下一組網(wǎng)中選擇的,這些網(wǎng)是蜂窩數(shù)字分組數(shù)據(jù)(CDPD)網(wǎng)、移動通信全球系統(tǒng)(GSM)網(wǎng)、碼分多址(CDMA)網(wǎng)、個人手持電話系統(tǒng)(PHS)或時分多址(TDMA)網(wǎng)。
25.按照權(quán)利要求21所述的方法,還包括從與所檢索的聯(lián)絡(luò)信息相關(guān)的服務(wù)器裝置接收符號數(shù)據(jù)文件,該符號數(shù)據(jù)文件包括用服務(wù)器裝置對用戶輸入進行語言識別處理的處理后輸出;利用無線通信裝置的本機資源處理接收的符號數(shù)據(jù)文件;和顯示至少經(jīng)處理的符號數(shù)據(jù)文件的一部分給用戶,用于瀏覽和修改。
26.按照權(quán)利要求25所述的方法,其中接收的符號數(shù)據(jù)文件是標(biāo)記語言文件。
27.按照權(quán)利要求26所述的方法,其中標(biāo)記語言文件是從以下一組文件中選擇的,這些文件是手持裝置標(biāo)記語言(HDML)、超文本標(biāo)記語言(HTML)、緊湊HTML(cHTML)、無線標(biāo)記語言(WML)、標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)、可擴充標(biāo)記語言(XML)。
28.按照權(quán)利要求25所述的方法,其中符號數(shù)據(jù)文件是二進制數(shù)據(jù)文件。
29.按照權(quán)利要求25所述的方法,其中符號數(shù)據(jù)文件是ASCII格式的數(shù)據(jù)文件。
30.一種計算機可讀介質(zhì),該介質(zhì)上具有用于對無線通信裝置產(chǎn)生對語音識別服務(wù)的請求的編碼的計算機程序代碼,包括檢索用于提供語音識別服務(wù)的服務(wù)器裝置的聯(lián)絡(luò)信息的計算機程序代碼;產(chǎn)生對與檢索到的聯(lián)絡(luò)信息相關(guān)的服務(wù)器裝置的語音識別服務(wù)的請求的計算機程序代碼;用于從無線通信裝置的用戶接收語音的計算機程序代碼,該輸入是與對語音識別服務(wù)的請求相關(guān)的;和計算機程序代碼,用于建立無線通信裝置與服務(wù)器裝置之間的語音通信會話代碼,以發(fā)送語音信號到服務(wù)器裝置進行語音識別處理。
31.按照權(quán)利要求30所述的計算機可讀介質(zhì),其中聯(lián)絡(luò)信息是從以下一組信息中選擇的,這些信息是電話號碼和統(tǒng)一資源識別符(URI)。
32.一種計算機可讀介質(zhì),該介質(zhì)上有對無線通信裝置提供語音識別服務(wù)的編碼的計算機程序代碼,包括用于從移動裝置接收對語音識別服務(wù)的請求的計算機程序代碼;用于接收與對語音識別服務(wù)的請求相關(guān)的語音輸入的計算機程序代碼;用于變換接收的語音輸入為符號數(shù)據(jù)文件的計算機程序代碼;用于發(fā)送符號數(shù)據(jù)文件到始發(fā)請求的移動裝置的計算機程序代碼。
33.按照權(quán)利要求32所述的計算機可讀介質(zhì),其中符號數(shù)據(jù)文件是一種標(biāo)記語言文件。
34.按照權(quán)利要求33所述的計算機可讀介質(zhì),其中符號數(shù)據(jù)文件是從以下一組語言中選擇的這些語言包括手持裝置標(biāo)記語言(HDML)、超文本標(biāo)記語言(HTML)、緊湊HTML(cHTML)、無線標(biāo)記語言(WML)、標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)、可擴充標(biāo)記語言(XML)。
35.按照權(quán)利要求32所述的計算機可讀介質(zhì),還包括用于檢索與該請求相關(guān)的用戶專用文件的計算機程序代碼;和在變換處理中利用用戶專用文件變換語音輸入為符號數(shù)據(jù)文件的計算機程序代碼。
36.按照權(quán)利要求35所述的計算機可讀介質(zhì),其中用戶專用文件含有用戶的喜好選擇。
37.按照權(quán)利要求35所述的計算機可讀介質(zhì),其中用戶專用文件含有用戶的語音模板。
38.一種提供語音識別服務(wù)的無線通信系統(tǒng),包括在第一通信路徑為語音識別處理提供語音輸入和在第二通信路徑接收表示經(jīng)處理的語音輸入的符號數(shù)據(jù)文件的無線通信裝置;和運行語音識別應(yīng)用程序的服務(wù)器裝置,在第一通信路徑上從無線通信裝置接收語音輸入,變換接收的語音輸入為符號數(shù)據(jù)文件并且利用第二通信路徑傳送該符號數(shù)據(jù)文件到無線裝置。
39.按照權(quán)利要求38所述的無線通信系統(tǒng),其中第一通信路徑是建立在無線網(wǎng)上。
40.按照權(quán)利要求39所述的無線通信系統(tǒng),其中無線網(wǎng)是從以下一組網(wǎng)中選擇的,這些網(wǎng)是蜂窩數(shù)字分組數(shù)據(jù)(CDPD)網(wǎng)、移動通信全球系統(tǒng)(GSM)網(wǎng)、碼分多址(CDMA)網(wǎng)、個人手持電話系統(tǒng)(PHS)或時分多址(TDMA)網(wǎng)。
41.按照權(quán)利要求40所述的無線通信系統(tǒng),其中第二通信路徑包括鏈路服務(wù)器裝置,使用第一通信協(xié)議通過有線網(wǎng)連接到運行語音識別應(yīng)用程序的服務(wù)器裝置,并利用第二通信協(xié)議通過無線網(wǎng)連接到無線通信裝置。
42.按照權(quán)利要求41所述的無線通信系統(tǒng),其中第一通信協(xié)議是從以下一組協(xié)議中選擇的,這些協(xié)議是傳輸控制協(xié)議/因特網(wǎng)協(xié)議(TCP/IP)、超文本傳輸協(xié)議(HTTP)、和安全超文本傳輸協(xié)議(sHTTP)。
43.按照權(quán)利要求41所述的無線通信系統(tǒng),其中第二通信協(xié)議是無線通信協(xié)議。
44.按照權(quán)利要求43所述的無線通信系統(tǒng),其中無線通信協(xié)議是從以下一組協(xié)議中選擇的,這些協(xié)議是無線接入?yún)f(xié)議(WAP)和手持裝置傳輸協(xié)議(HDTP)。
45.按照權(quán)利要求38所述的無線通信系統(tǒng),其中無線通信裝置是移動電話。
46.按照權(quán)利要求45所述的無線通信系統(tǒng),其中移動電話包括微處理器和用于軟件的存儲區(qū)。
47.按照權(quán)利要求46所述的無線通信系統(tǒng),其中微處理器利用存儲在存儲器區(qū)中的軟件控制電話功能和本機應(yīng)用程序。
48.按照權(quán)利要求47所述的無線通信系統(tǒng),其中本機應(yīng)用提供關(guān)于獲得語音識別服務(wù)的功能。
全文摘要
一種無線通信系統(tǒng),用遠端語音識別服務(wù)器系統(tǒng)翻譯從移動裝置接收的語音輸入為符號數(shù)據(jù)文件,如字符或控制符,這種文件可由移動裝置進行處理。翻譯處理是從接收的移動裝置與語音識別服務(wù)器間的語音通信信道建立開始。然后移動裝置用戶按一種可由語音識別服務(wù)器系統(tǒng)檢測的方式開始講話。當(dāng)檢測到用戶語音時,語音識別服務(wù)器系統(tǒng)翻譯該語音為符號數(shù)據(jù)文件,該文件然后經(jīng)分別的數(shù)據(jù)通信信道被傳送給用戶。當(dāng)在移動裝置接收到該符號數(shù)據(jù)文件時,該用戶瀏覽和編輯其內(nèi)容并按其需要進一步利用該文件。
文檔編號G10L15/00GK1298249SQ00128488
公開日2001年6月6日 申請日期2000年11月24日 優(yōu)先權(quán)日1999年11月24日
發(fā)明者彼得·F·金 申請人:電話通有限公司