專利名稱:用語音應(yīng)用語言標記執(zhí)行的語義對象同步理解的制作方法
背景技術(shù):
本發(fā)明涉及計算機系統(tǒng)中的信息訪問和匯報。尤其涉及使用識別和理解來訪問信息。
近來,已經(jīng)發(fā)展了允許用戶通過提供語音命令,在計算機系統(tǒng)上訪問信息的技術(shù)。一旦收到一個用戶命令,那么為了確定用戶的意圖,計算機系統(tǒng)將在用戶輸入的基礎(chǔ)上執(zhí)行語音識別并對該輸入作進一步的處理,其目的在于使計算機系統(tǒng)執(zhí)行所期望的動作。
在某些情況下,用戶提供的輸入是不完整或不確定的,這將需要計算機系統(tǒng)以視頻或音頻提示的形式向用戶請求進一步的信息。因此可以在用戶與計算機系統(tǒng)之間建立一個對話框,其中在確定了用戶意圖并可以執(zhí)行一個動作之前,用戶和計算機系統(tǒng)輪流提供問題,答案和/或確認。在其他情況中,創(chuàng)建這樣一個話框是用于與計算機系統(tǒng)相互作用的優(yōu)選模式。
為了使語音成為現(xiàn)代用戶接口設(shè)計的可行輸入/輸出方式,已經(jīng)引入了語音應(yīng)用語言標記(SALT)。SALT的設(shè)計目的是使通用語音任務(wù)易于編程,而且具有簡易實現(xiàn)的高級性能。例如,一個專門通過語音對話框僅與用戶相互作用的基于電話的純語音應(yīng)用程序。
SALT包括語音輸入和輸出對象(“l(fā)isten”和“prompt”),他們具有同一種合并技術(shù)的模式設(shè)計以檢測用戶輪次的開始和結(jié)尾。因此,許多語音應(yīng)用程序采用需要用戶發(fā)信號通知一個用戶輪次開始的用戶接口。一些計算機系統(tǒng)包括便攜式計算機,語音啟動模式裝置或多模式裝置(由一個諸如鼠標此類的輸入裝置為選擇的區(qū)域提供語音輸入)以及其他解放雙眼的應(yīng)用。盡管如此,在每個情況中,在對話框中仍然存在對比計算機系統(tǒng)的用戶輪次上清楚切分的情況。
然而人類對話通常不遵循參與者之間的清楚切分的、輪流的對話。相反地,對話可以包括由一個參與者提供的確認,確定,提問等,此時其他參與者正提供可以徹底影響,輕微影響或甚至一點也不影響說話者正提供信息的方式。人類發(fā)言者喜歡這種自然形式的對話。同樣地,電話系統(tǒng)采用全雙工技術(shù)以允許發(fā)生這種對話。
相比之下,基于接口的對話框采用在一個用戶和一個計算機系統(tǒng)之間固定輪流操作的模式,這導(dǎo)致計算機系統(tǒng)在處理和進行后來的動作之前要等到用戶對話框的結(jié)束。盡管在用戶完成他的/她的輪次而且計算機系統(tǒng)作出了響應(yīng)之前,諸如穿過計算屏幕的一系列點進程那樣的視頻指示的簡單反饋可以提供給用戶一些保證,保證計算機系統(tǒng)至少在處理著什么,但是該計算機系統(tǒng)理解的程度還是未知的。
因此,在計算機系統(tǒng)中需要基于識別和理解的改善。這種改善將提供一種通過對用戶更自然,更易于使用的用于訪問信息的系統(tǒng)或方法。
發(fā)明概述一種提供動態(tài)匯報部分語義解析的語音輸入模式的方法和系統(tǒng),而音頻說明仍在進行??梢允褂靡粋€立即匯報給用戶的結(jié)果來評價該語義分析。
一方面,一種語音理解系統(tǒng)包括一個語言模式,該語言模式包含一個N-gram語言模式和一個上下文無關(guān)文法語言模式的一個組合。該語言模式存儲有關(guān)字以及將要識別的語義信息的信息。該語音理解系統(tǒng)還包括一個適用于接收用戶輸入并捕獲該輸入以用于處理的模塊。該模塊進一步適用于接收與輸入識別有關(guān)的SALT應(yīng)用程序接口。該模塊配置成處理SALT應(yīng)用程序接口和輸入以用來確定與輸入的第一部分有關(guān)的語義信息并通過訪問語言模式來輸出包括第一部分的文本和語義信息的語義對象,其中當連續(xù)捕獲輸入的隨后部分時執(zhí)行識別并輸出語義對象。
附圖簡述
圖1是一個數(shù)據(jù)顯示系統(tǒng)的方框圖;圖2是一個計算裝置運行環(huán)境的平面圖;圖3是圖2中計算裝置的方框圖;圖4是一個電話的平面圖;圖5是一個通用計算機的方框圖;圖6是一個對于客戶/服務(wù)器系統(tǒng)的體系結(jié)構(gòu)的方框圖;圖7是一個語音識別和理解模塊的方框圖。
說明性實施例的詳細描述圖1是一個用于在聲音輸入的基礎(chǔ)上再現(xiàn)數(shù)據(jù)的數(shù)據(jù)顯示系統(tǒng)10的方框圖。系統(tǒng)10包括一個語音接口模塊12,一個語音識別和理解模塊14和一個數(shù)據(jù)再現(xiàn)模塊16。用戶用聲音查詢的形式提供輸入給語音接口模塊12。語音接口模塊12從一個用戶那兒搜集語音信息并提供一個它的指示性信號。在語音接口模塊12搜集了輸入的語音之后,語音識別和理解模塊14用一個語音識別器識別語音,并且還執(zhí)行語音理解,其中在本發(fā)明的一個方面,提供至今為止接收到的輸入的部分語義解析,同時仍然捕獲音頻語音輸入。
將此部分語義解析提供給能夠使用多種不同形式實現(xiàn)的應(yīng)用模塊16,該部分語義解析一般包括所接收輸入的文本(或者輸入文本的其他指示性數(shù)據(jù)),而且還包括確定的語義信息。例如,在一個實施例中,應(yīng)用模塊16可以是一個用來發(fā)送,接收和答復(fù)電子郵件,安排會議等諸如此類的個人信息管理器。在這種方式下,用戶可以提供音頻命令來執(zhí)行這些任務(wù)。更重要的是應(yīng)用模塊16可以提供交互式的反饋和/或在接收部分語義解析信息時對部分語義分析信息采取動作,藉此給用戶提供一個應(yīng)用模塊16的高度交互式接口。例如,在一種純聲音的操作方式中,輸出20可以包括返回到用戶的音頻指令,當然,同時可能執(zhí)行其他涉及此應(yīng)用程序的任務(wù)。該部分語義解析或語義對象可以用來在應(yīng)用程序中執(zhí)行對話邏輯。例如,該對話邏輯可以在一個或更多的語義對象基礎(chǔ)上向用戶顯示一個選項或多個選項或一欄選項。
這使得系統(tǒng)10能夠在一個部分發(fā)言的基礎(chǔ)上來立即匯報結(jié)果,即在用戶輪次結(jié)束之前。換言之,通過使用秘密渠道通信來匯報并執(zhí)行通常與一個系統(tǒng)輪次相關(guān)的任務(wù),使用戶和系統(tǒng)輪次的定義變得模糊。最傳統(tǒng)的對話框計劃經(jīng)常將秘密渠道通信視為僅傳送諸如肯定應(yīng)答,否定應(yīng)答或中立應(yīng)答那樣簡單信號的非交互式反饋,這尤其是那些在人對人對話框基礎(chǔ)上的對話框計劃。然而,輸出20所提供的反饋大概可以傳送更多的信息以致于稍微插入到正在進行的用戶發(fā)言中,該反饋可以導(dǎo)致或不導(dǎo)致用戶闡明用戶的意圖或方向。盡管如此,該方法在用戶和系統(tǒng)10之間提供一個更逼真的仿人對話框,多數(shù)情況下不認為該對話框煩人,而是對于用戶而言更加輕松并逐漸有信心滿足用戶的需求。
在這一點上,應(yīng)該注意本發(fā)明并不局限于一個純聲音運行環(huán)境,而是可以包括在部分語義解析或?qū)ο筇幚砘A(chǔ)上反饋給用戶的其它形式。例如,在上述應(yīng)用模塊16執(zhí)行電子郵件任務(wù)的應(yīng)用程序中,輸出20可以包括視頻反饋,諸如僅僅在一個來自用戶的包含“發(fā)送電子郵件給Bob”的連續(xù)命令中的“發(fā)送電子郵件”的短語回執(zhí)基礎(chǔ)上激活一個電子郵件模塊,其中短語“給Bob”的處理可以導(dǎo)致應(yīng)用模塊訪問數(shù)據(jù)存儲器18中的進一步信息并再現(xiàn)一個名為“Bob”的人員列表。因此參看該列表,用戶可簡單地確定該預(yù)定收件人為“Bob Green”,于是由于系統(tǒng)將已經(jīng)為此部分發(fā)言“Bob Green”提供了另一個語義對象,所以可以選擇此人,這依據(jù)于應(yīng)用程序提供的回執(zhí),而且對其進行的處理將導(dǎo)致選擇“Bob Green”。
如上所示,應(yīng)用模塊16能夠以多種形式實現(xiàn),本發(fā)明以下對此方面的進一步描述或許有益。在沒有限制的情況下,應(yīng)用模塊16還可以是一個口述模塊,用來提供用戶口頭輸入的文本輸出。然而,通過同樣處理輸入的部分輸入或輸入短語處理語義信息,可以獲得一個更精確的轉(zhuǎn)換。
盡管上述關(guān)于一個來自用戶并包含聲音命令的輸入,但是本發(fā)明的這些方面還可以適用于其它輸入形式,諸如手寫,DTMF,手勢或視頻指示。
給予部分語義解析或?qū)ο筇幚韽V闊的適用性,可以有利于描述上述能夠運行于系統(tǒng)10中的一般計算裝置。如本領(lǐng)域技術(shù)人員所理解那樣,系統(tǒng)10的部件可以位于單個計算機之內(nèi)或分布于使用網(wǎng)絡(luò)連接或協(xié)議的一個分布式計算環(huán)境中。
請參看圖2,用30來舉例說明一個移動裝置的示范形式,諸如一個數(shù)據(jù)管理裝置(PIM,PDA等)。然而,應(yīng)預(yù)料的是本發(fā)明還可以使用以下討論的其它計算裝置來實現(xiàn)。例如,電話機和/或數(shù)據(jù)管理裝置也將受益于本發(fā)明。與現(xiàn)有便攜式個人信息管理裝置和其他便攜式電子裝置相比,這種裝置將具有一個增強的實用性。
在圖2舉例說明的數(shù)據(jù)管理移動裝置30的示范形式中,該移動裝置30包括一個外殼32并具有一個包括顯示屏34的用戶界面,該用戶界面使用一個結(jié)合了指示筆33的觸感顯示屏。指示筆33用來在設(shè)定的坐標上按壓或接觸顯示屏34來選擇一個區(qū)域,有選擇性地移動一個光標的啟動位置或另外的用來提供諸如通過手勢或手寫那樣的命令信息??蛇x或附加地,在設(shè)備30上可以包括一個或更多個用于導(dǎo)航的按鈕35。另外,還可以提供諸如旋轉(zhuǎn)輪,滾軸等其他輸入機制。然而應(yīng)該注意到本發(fā)明并不限于這些輸入機制形式。例如,另一種輸入形式可以包括諸如通過計算機視覺那樣的一種視頻輸入。
請參看圖3,一個舉例說明包含移動裝置30的功能部件的方框圖。中央處理單元(CPU)50執(zhí)行軟件控制功能。CPU50連接于顯示器34使得在顯示器34上顯示根據(jù)控制軟件所生成的文本和圖形圖標。揚聲器43一般可以通過一個數(shù)模轉(zhuǎn)換器59連接到CPU50以提供一個音頻輸出。在與CPU50雙向連接的非易失性讀/寫隨機存取存儲器54中存儲下載的或由用戶輸入到移動裝置30中的數(shù)據(jù)。隨機存取存儲器(RAM)54為CPU50所執(zhí)行的指令提供易失性存儲器,而且為諸如寄存器值此類的臨時數(shù)據(jù)提供存儲器。在只讀存儲器(ROM)58中存儲配置選項和其他變量的默認值。ROM58還可以用來為那些控制移動裝置30的基本函數(shù)以及其它操作系統(tǒng)核函數(shù)(例如往RAM54中加載軟件部件)的裝置存儲操作系統(tǒng)軟件。
RAM54還充當一個與PC上一個用來存儲應(yīng)用程序的硬盤的功能類似的當場代碼存儲器。應(yīng)該注意到盡管非易失性存儲器用于存儲代碼,但可選地,可以在不用于執(zhí)行代碼的易失性存儲器中存儲該代碼。
可以由移動裝置通過連接到CPU50的無線收發(fā)裝置52來發(fā)射/接收無線信號。如果需要的話,可以提供一個任選的通信接口60來從一個計算機(例如,臺式計算機)或一個有線網(wǎng)絡(luò)直接下載數(shù)據(jù)。另外,接口60可以包括多種形式的通信裝置,例如紅外線路,調(diào)制解調(diào)器,網(wǎng)卡等。
移動裝置30包括一個麥克風(fēng)29,模數(shù)轉(zhuǎn)換器(A/D)37,以及一個在存儲器54中存儲的任選識別程序(語音,DTMF,手寫,手勢或計算機視覺)。舉例來說,響應(yīng)來自用戶裝置30的音頻信息,指令或命令,麥克風(fēng)29提供由A/D轉(zhuǎn)換器37數(shù)字化的語音信號。該語音識別程序可以在數(shù)字化語音信號上執(zhí)行標準化和/或特征析取功能來獲得中間語音識別結(jié)果。使用無線收發(fā)裝置52或通信接口60可以將語音數(shù)據(jù)發(fā)射到以下討論并在圖6的體系結(jié)構(gòu)中舉例說明的遠程識別服務(wù)器204。然后可以將識別結(jié)果返回移動裝置30以在其上再現(xiàn)(例如視頻的和/或音頻的),最后傳送到網(wǎng)絡(luò)服務(wù)器202(圖6),其中網(wǎng)絡(luò)服務(wù)器202與移動裝置30以客戶機/服務(wù)器的關(guān)系進行操作。
類似的處理可以用于其他輸入形式。例如,在設(shè)備30上可以使用預(yù)處理地數(shù)字化手寫輸入或不使用預(yù)處理地數(shù)字化手寫輸入。與語音數(shù)據(jù)類似,可以將這種形式的輸入發(fā)射到識別服務(wù)器204中識別,其中將處理結(jié)果返回到裝置30和/或網(wǎng)絡(luò)服務(wù)器202中的至少一個上。同樣地,可以類似地處理DTMF數(shù)據(jù),手勢數(shù)據(jù)和視頻數(shù)據(jù)。取決于輸入形式,裝置30(和以下討論的其他客戶機形式)將包括對于視頻輸入所必要的硬件,如照相機。
圖4是一個便攜式電話機80的實例平面圖。該電話機80包括顯示屏82和鍵區(qū)84。一般而言,雖然可以要求執(zhí)行其他功能所必需的附加電路,但是圖3的方框圖通常應(yīng)用于圖4的電話機。例如,對圖3的實施例將需要一個必要的收發(fā)裝置來作為一個電話機;然而,該電路與本發(fā)明無關(guān)。
除了上述便攜式或移動計算裝置以外,還應(yīng)該理解到本發(fā)明可以采用其他眾多諸如一般臺式計算機那樣的計算裝置。例如,當其他諸如全字母-數(shù)字鍵盤那樣的傳統(tǒng)輸入設(shè)備難于操作時,本發(fā)明將允許用戶以有限的體能來往計算機或其他計算裝置中輸入或鍵入文本。
本發(fā)明還可以供其他眾多通用或?qū)S糜嬎阆到y(tǒng),環(huán)境或配置使用。可以適合采用本發(fā)明的公知計算系統(tǒng),環(huán)境和/或配置的例子包括(但不限于)常規(guī)電話(沒有任何屏幕)個人計算機,服務(wù)器計算機,手持或膝上型裝置,平板計算機,多處理器系統(tǒng),基于微處理器的系統(tǒng),置頂盒,可編程消費電子裝置,網(wǎng)絡(luò)PC,小型計算機,大型機,包括以上任何系統(tǒng)或裝置等的分布式計算環(huán)境等等類似物。
接下來簡要描述圖5中舉例說明的通用計算機120。然而,計算機120仍僅是一個適合的計算環(huán)境的例子,而且也不認為是對本發(fā)明的用途或功能進行任何限定。不應(yīng)該將計算機120理解為具有涉及在此舉例說明的任何一個部件或這些部件的組合的任何從屬性或必要條件。
可以在計算機所執(zhí)行的諸如程序模塊那樣的計算機可執(zhí)行指令的通用上下文中描述本發(fā)明。通常,程序模塊包括例行程序,程序,對象,部件,數(shù)據(jù)結(jié)構(gòu)等,他們執(zhí)行部分任務(wù)或執(zhí)行部分抽象數(shù)據(jù)類型。本發(fā)明還可以在分布計算環(huán)境中實現(xiàn),其中由通過一個通信網(wǎng)絡(luò)連接的遠程處理裝置執(zhí)行該計算環(huán)境中的任務(wù)。在分布計算環(huán)境中,程序模塊可以位于包含存儲器裝置的本地和遠程計算機存儲媒體中。以下借助于附圖來描述由程序和模塊執(zhí)行的任務(wù)。本領(lǐng)域技術(shù)人員可以將描述和附圖實現(xiàn)為可以在任何形式的計算機可讀媒體上編寫的處理器可執(zhí)行指令。
參照圖5,計算機120的部件可以包括但不局限于一個處理裝置140,一個系統(tǒng)存儲器150以及一個把包括系統(tǒng)存儲器的多個系統(tǒng)部件連接到處理裝置140的系統(tǒng)總線141。系統(tǒng)總線141可以是其中任何一種包括一個存儲器總線或存儲器控制器,一個外圍總線,以及使用多個總線體系結(jié)構(gòu)中的一種的一個本地總線的總線結(jié)構(gòu)。舉例來說(但并不局限于此),這種體系結(jié)構(gòu)包括工業(yè)標準結(jié)構(gòu)(ISA)總線,通用串行總線(USB),微通道結(jié)構(gòu)(MCA)總線,擴展ISA(EISA)總線,視頻電子協(xié)會標準(VESA)本地總線,以及也稱為附加板總線的周邊元件擴展接口(PCI)總線。計算機120一般包括多個計算機可讀媒體。計算機可讀媒體可以是任何一種能夠由計算機120訪問的有效媒體并包括易失性和非易失性媒體,可移動和不可移動媒體。舉例來說(但并不局限于此),計算機可讀媒體可以包含計算機存儲媒體和通信媒體。計算機存儲媒體包括為了存儲諸如計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或其他數(shù)據(jù)那樣的信息,以任何方式或技術(shù)實現(xiàn)的易失性和非易失性,可移動和不可移動的媒體。計算機存儲媒體包括(但并不限于)RAM,ROM,EEPROM,閃存或其他存儲技術(shù),CD-ROM,數(shù)字化視頻光盤或其他光盤存儲器,磁帶盒,磁帶,磁性光盤存儲器或其他磁性存儲器裝置,或其他任何由計算機120訪問并存儲想要的信息的媒體。
通信媒體一般在諸如載波或其他傳送機制那樣的調(diào)制數(shù)據(jù)信號中包含有計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或其他數(shù)據(jù),并且該通信媒體包括任何信息傳送媒體。術(shù)語“調(diào)制數(shù)據(jù)信號”意味著一個具有一個或更多個自己的特征集的信號,或者是一種以這種方式變化以在該信號中對信息編碼的信號。舉例來說(但并不局限于此),通信媒體包括諸如一個有線網(wǎng)絡(luò)或直線連接那樣的有線媒體,以及諸如聲音的,F(xiàn)R,紅外線的那樣的無線媒體和其他無線媒體。以上任何組合應(yīng)該包含在計算機可讀媒體的范圍之內(nèi)。
系統(tǒng)存儲器150包括以諸如只讀存儲器(ROM)151和隨機存取存儲器(RAM)152那樣的易失性和/或非易失性存儲器形式的計算機存儲媒體。一般在ROM151中存儲一個基本輸入/輸出系統(tǒng)153(BIOS),該BIOS包含有助于傳送計算機120內(nèi)元件之間信息的基本例行程序,諸如在啟動過程中。RAM152一般包含由處理裝置140立即可存取的和/或當前執(zhí)行的數(shù)據(jù)和/或程序模式。舉例來說(但并不局限于此),圖5舉例說明操作系統(tǒng)154,應(yīng)用程序155,其他程序模式156和程序數(shù)據(jù)157。
計算機120還可以包括其他可移動/不可移動的易失性/非易失性計算機存儲媒體。僅舉例來說,圖5舉例說明一個從不可移動的,非易失性磁性媒體讀取或往其中寫東西的硬盤驅(qū)動器161,一個從可移動的,非易失性磁盤172讀取或往其中寫東西的磁盤驅(qū)動器171,以及一個從諸如CD-ROM或其他光媒體那樣的可移動的,非易失性光盤176中讀取或往其中寫東西的光盤驅(qū)動器175??梢栽谑痉哆\行環(huán)境中使用的其他可移動/不可移動的,易失性/非易失性計算機存儲媒體包括(但并不局限于)磁帶盒,閃存卡,數(shù)字化視頻光盤,數(shù)字視頻磁帶,固態(tài)RAM,固態(tài)RAM等。硬盤驅(qū)動器161一般通過諸如接口160那樣一個不可移動的存儲器接口與系統(tǒng)總線141相連接,而且磁盤驅(qū)動器171和光盤驅(qū)動器175一般通過諸如接口170那樣一個可移動的存儲接口與系統(tǒng)總線141相連接。
以上討論的并在圖5中舉例說明的驅(qū)動器及其相關(guān)的計算機存儲媒體為計算機120提供計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模式以及其他數(shù)據(jù)的存儲器。例如在圖5中,是以存儲了操作系統(tǒng)164、應(yīng)用程序165、其他程序模塊166,以及程序數(shù)據(jù)167來說明硬盤驅(qū)動器161的。注意,這些部件可以相同或不同于操作系統(tǒng)154,應(yīng)用程序155,其他程序模塊156以及程序數(shù)據(jù)157。在這里將用不同的數(shù)字來描述操作系統(tǒng)164,應(yīng)用程序165,其他程序模塊166和程序數(shù)據(jù)167,至少他們是不同版本的。
用戶可以通過諸如鍵盤182,麥克風(fēng)183和像鼠標,跟蹤球或觸摸屏那樣的點擊裝置的輸入設(shè)備往計算機120中輸入命令和指令。其他輸入設(shè)備(未顯示)可以包括游戲控制桿,游戲墊,圓盤式衛(wèi)星電視天線,掃描儀等。這些輸入設(shè)備和其他輸入設(shè)備經(jīng)常通過一個連接到系統(tǒng)總線的用戶輸入接口180相連于處理設(shè)備140,但是可以通過其他諸如并行端口,游戲端口或通用串行總線(USB)這樣的接口和總線結(jié)構(gòu)來連接這些輸入設(shè)備。監(jiān)視器184或其他類型的顯示設(shè)備還經(jīng)由一個諸如視頻接口185那樣的接口與系統(tǒng)總線141相連接。除監(jiān)視器以外,計算機還可以包括其他諸如揚聲器187和打印機186那樣的外圍輸出設(shè)備,可以通過一個輸出外圍接口188連接這些外圍輸出設(shè)備。
計算機120可以運行在使用邏輯連接到一個或更多個遠程計算機的網(wǎng)絡(luò)工作環(huán)境中,例如一個遠程計算機194。遠程計算機可以是個人計算機,手持裝置,服務(wù)器,路由器,網(wǎng)絡(luò)工作PC,對等裝置或其他通用網(wǎng)絡(luò)節(jié)點,而且計算機120一般包括多個或所有上述與計算機120有關(guān)的部件。在圖5中描述的該邏輯連接包括局域網(wǎng)(LAN)191和廣域網(wǎng)(WAN)193,但它還可以包括其他網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境在辦公室,企業(yè)寬帶計算機網(wǎng)絡(luò),企業(yè)內(nèi)部互聯(lián)網(wǎng)和國際互聯(lián)網(wǎng)中是很平常的。
當應(yīng)用在一個局域網(wǎng)的網(wǎng)絡(luò)環(huán)境中時,計算機120通過一個網(wǎng)絡(luò)接口或適配器190與局域網(wǎng)連接。當應(yīng)用在一個廣域網(wǎng)的網(wǎng)絡(luò)環(huán)境中時,計算機120一般包括一個調(diào)制解調(diào)器192或其他用于在WAN193上建立連接的裝置,如國際互聯(lián)網(wǎng)?;蚴莾?nèi)部的或是外部的調(diào)制解調(diào)器192可以經(jīng)由用戶輸入接口180或其他合適的機制與系統(tǒng)總線141連接。在一個網(wǎng)絡(luò)環(huán)境中,可以在遠程存儲器裝置中存儲與計算機120有關(guān)的程序模塊或相應(yīng)的段。舉例說明但(并不局限于此),圖5說明的遠程應(yīng)用程序195保存在遠程計算機194上。應(yīng)理解得是,所顯示的網(wǎng)絡(luò)連接僅是示例,也可以使用其他裝置在計算機之間建立連接。
圖6舉例說明基于識別和數(shù)據(jù)再現(xiàn)的網(wǎng)絡(luò)體系結(jié)構(gòu)200,該體系結(jié)構(gòu)是本發(fā)明的一個示范環(huán)境。通常,可以通過諸如移動裝置30或計算機120那樣的一個客戶機訪問存儲在網(wǎng)絡(luò)服務(wù)器202中的信息(其中表示其他形式的具有一個顯示屏,一個麥克風(fēng),一個照相機,一個觸摸板等的計算設(shè)備,這需要以輸入形式為基礎(chǔ)),或者通過其中要求音頻信息的電話機80或者響應(yīng)按下的鍵由電話機80而產(chǎn)生的音調(diào),而且其中僅將來自網(wǎng)絡(luò)服務(wù)器202的音頻信息返回給用戶。
在該實施例中,體系結(jié)構(gòu)200在是否通過客戶機100或電話機80獲得信息是統(tǒng)一標準的,單個識別服務(wù)器204可以支持每一種操作模式。另外,體系結(jié)構(gòu)200用一種擴展的眾所周知的標記語言來進行操作(例如HTML,XHTML,cHTML,XML,WML等)。因此,還可以使用以這些標記語言創(chuàng)建的眾所周知的GUI方法來訪問存儲在網(wǎng)絡(luò)服務(wù)器202上的信息。使用這些擴展的眾所周知的標記語言使得更容易在網(wǎng)絡(luò)服務(wù)器上進行創(chuàng)建,而且還可以易于修改目前存在的傳統(tǒng)應(yīng)用程序使其包含聲音識別。
通常,客戶100執(zhí)行由網(wǎng)絡(luò)服務(wù)器202使用一個瀏覽器所提供的通常用206表示的HTML頁面,腳本等。舉例來說,當需要聲音識別時,將已經(jīng)如上所述由客戶機100預(yù)處理其中音頻數(shù)據(jù)的語音數(shù)據(jù)提供給識別服務(wù)器204,該識別服務(wù)器具有一個可以由客戶100機所提供的在語音識別期間使用的文法或語言模式220的指示。另外,語音服務(wù)器204可以包括語言模式220??梢砸远喾N形式來實現(xiàn)該識別服務(wù)器,其中一種形式如上所述,但通常包括一個識別器211。如果需要或合適的話,提供識別結(jié)果返回到客戶100機用來本地再現(xiàn)。如果需要的話,文本-到-語音模塊222可以用來提供口頭文本到客戶機100。如果必要的話,根據(jù)通過識別和任何圖形用戶接口(如果使用)進行的信息編譯,客戶機100發(fā)送信息到網(wǎng)絡(luò)服務(wù)器202用以進一步處理以及進一步接收HTML頁面/腳本。
如圖6中所述,客戶機100,網(wǎng)絡(luò)服務(wù)器202和識別服務(wù)器204通常是通過網(wǎng)絡(luò)205連接并分別尋址的,在這里是諸如國際互聯(lián)網(wǎng)那樣一個廣域網(wǎng)。因此任何這些裝置沒有必要彼此實際互連定位。特別是,網(wǎng)絡(luò)服務(wù)器202沒有必要包括識別服務(wù)器204。照這樣,可以把在網(wǎng)絡(luò)服務(wù)器202上的創(chuàng)建集中在應(yīng)用程序上,而不需要讓創(chuàng)建者知道識別服務(wù)器204的復(fù)雜性。相反地,可以獨立設(shè)計識別服務(wù)器204并將其連接到網(wǎng)絡(luò)205,并不需要進一步的改變而對網(wǎng)絡(luò)服務(wù)器202進行更新和改善。網(wǎng)絡(luò)服務(wù)器202還可以包括一個能夠動態(tài)地產(chǎn)生客戶端標記和腳本的創(chuàng)建機制。在進一步的實施例中,可以根據(jù)執(zhí)行機制的能力來結(jié)合網(wǎng)絡(luò)服務(wù)器202,識別服務(wù)器204和客戶機100。例如,如果客戶機100包含一個諸如個人計算機那樣的通用計算機,該客戶機可以包括識別服務(wù)器204等,如果需要的話,可以在單個機器中結(jié)合網(wǎng)絡(luò)服務(wù)器202和識別服務(wù)器204。
通過電話機80對網(wǎng)絡(luò)服務(wù)器202的訪問包括將電話機80連接到一個有線或無線的電話網(wǎng)絡(luò)208,輪流地,將電話機80連接到一個第三部分通路210。通路210把電話機80連接到一個電話聲音瀏覽器212。電話聲音瀏覽器212包括一個提供電話接口和聲音瀏覽器216的媒體服務(wù)器214。與客戶機100類似,電話聲音瀏覽器212接收HTML頁面/腳本或來自網(wǎng)絡(luò)服務(wù)器202的相同東西。在一個實施例中,該HTML頁面/腳本與提供給客戶100的HTML頁面/腳本在形式上相近。照這樣,網(wǎng)絡(luò)服務(wù)器不必分別支持客戶100和電話80,或者甚至不必分別支持標準GUI客戶機。相反地,可以使用一種通用標記語言。另外與客戶機100類似,通過網(wǎng)絡(luò)205或通過專用路線207,例如使用TCP/IP,從聲音瀏覽器216把來自于由電話機80發(fā)射的音頻信號的聲音識別提供給識別服務(wù)器204??梢栽谥T如圖5中所描述的通用計算機那樣的任何合適的計算環(huán)境中嵌入網(wǎng)絡(luò)服務(wù)器202,識別服務(wù)器204和電話聲音瀏覽器212。
已經(jīng)描述了多種環(huán)境以及在系統(tǒng)10中運行的體系結(jié)構(gòu),現(xiàn)在將對多個部件和系統(tǒng)10的功能提供一個更詳細的描述。圖7舉例說明語音識別和理解模塊14的一個方框圖。把接收自語音接口模塊12的輸入語音發(fā)送到語音識別和理解模塊14。語音識別和理解模塊14包括具有一個相關(guān)的語言模塊310的識別引擎306。識別引擎306用語言模塊310來確定可能的表面語義結(jié)構(gòu)以顯示每一個形成該輸入的短語,當接收輸入時提供部分語義解析。與等候用戶完成發(fā)言然后處理所接收的完整輸入的系統(tǒng)不同,模塊14僅基于至今為止已接收的持續(xù)提供語義對象。
識別引擎306在部分發(fā)言的基礎(chǔ)上提供至少一個表面語義輸出對象。在一些實施例中,識別引擎306能夠?qū)γ恳粋€可選擇的結(jié)構(gòu)提供多于一個的可選擇表面語義對象。
盡管在圖7中舉例說明中提供了語音輸入,但是本發(fā)明可以利用手寫識別,手勢識別或圖形用戶接口(其中該用戶與一個鍵盤或其他輸入設(shè)備相互作用)。在另外的實施例中,用一個合適的識別引擎取代語音識別器306是本領(lǐng)域公知的技術(shù)。對于圖形用戶接口,具有語言模式的文法與諸如通過一個輸入框的用戶輸入有關(guān)。另外,在輸入方式基礎(chǔ)上以一種不需要顯著修改的連貫方式處理用戶輸入。
上述交互式對話框還包括系統(tǒng)10基于部分語義或?qū)ο筇峁┑钠渌问降男畔⒎答仯摻换ナ綄υ捒?0可以用SALT(語音應(yīng)用語言標記)或其他語音、手寫,以及支持一個語言模式結(jié)構(gòu)的模式識別AIP(應(yīng)用程序接口)來實現(xiàn),該語言模式結(jié)構(gòu)能夠在一個給定的應(yīng)用程序和語義對象同步解碼的已選擇模式的基礎(chǔ)上提供語義信息。SALT是一種能夠從個人計算機,電話,平面PC和無線移動裝置中訪問信息,應(yīng)用程序和網(wǎng)絡(luò)服務(wù)的發(fā)展中的標準,例如,SALT還可以應(yīng)用于應(yīng)用接口,同時不需要經(jīng)過網(wǎng)絡(luò)進行互連。SALT擴展現(xiàn)有諸如HTML,XHTML和XML那樣的標記語言??梢栽趆ttp//www.SALTforum.org上在線找到SALT.10規(guī)范。還應(yīng)該注意到,SALT可以基于用戶的輸入提供語義信息,例如從語音服務(wù)器204,這種信息在完成一個發(fā)言后構(gòu)成提供給數(shù)據(jù)再現(xiàn)模塊16的對象;然而如下進一步描述的,可以先前不打算提供部分語義解析或?qū)ο蟮姆绞绞褂肧ALT。使用SALT擴展或在其他API中類似的擴展,為驅(qū)動用戶交互的高度交互式事件提供支持。
舉例來說使用SALT,該SALT的listen對象可以用來執(zhí)行語音識別和理解任務(wù)。這是因為該設(shè)計遵循將語音識別理解為模式識別問題的觀點和公式化,,就像語音識別。同樣力求從最匹配一個給予的語音信號的一個可能輸出的集合中找到一個模式。對于語音識別,要找到的模式是一個字符串,而對于理解是一個語義對象樹。傳統(tǒng)語音識別任務(wù)命令用包含可能的字符串的語言模式進行搜索處理。一個語音理解任務(wù)可以以一種類似的方式指導(dǎo)相同的搜索引擎來用一個語義模式組成合適的語義對象樹。如經(jīng)常暗示一個專門詞匯和從專門詞匯入口組合短語段的規(guī)則這樣的語言模式,一個語義模式暗示一個所有語義對象和組成它們的規(guī)則的字典。當識別結(jié)果是一個文本串時,該理解結(jié)果是語義對象樹。
盡管有可能擴展N-gram來返回一個構(gòu)成的搜索結(jié)果,但是多數(shù)標準語音理解應(yīng)用程序是在其中設(shè)計者可以指定組成語義對象的規(guī)則而沒有龐大的注釋培訓(xùn)數(shù)據(jù)的樹庫的隨機上下文無關(guān)文法基礎(chǔ)上的。一種指定這些規(guī)則的方法與每一個帶有產(chǎn)品指向的PCFG有關(guān),該產(chǎn)品執(zhí)行是關(guān)于搜索引擎如何將部分PCFG短語樹轉(zhuǎn)換成一個語義對象樹。以下顯示的是一個用微軟語音應(yīng)用接口(SAPI)編寫的實施例(它也是可以用在本發(fā)明一個語音API的實施例)<rule name=”nyc”>
<list>
<phrase>new york?city</phrase>
<phrase>the big apple</phrase>
</list>
<output>
<city_location>
<city>New York</city>
<state>New York</state>
<country>USA</country>
</city_location>
</output>
</rule>
...
<rule name=”NewMeeting”>
<rulerefmin=”0”name=”CarrierPhrase”>
<rulerefmax=”inf”name=”Apptproperty”>
<output>
<NewMeeting>
<DateTime>
<xslapply-templates select=”//Date”/>
<xslapply-templates select=”//Time”/>
<xslapply-templates select=”//Duration”/>
</DateTime>
<Invitees>
<xslapply-templates select=”//Person”/>
</Invitees>
...
</NewMeeting>
</output>
</rule>
<rule name=”ApptProperty”>
<list>
<rulerefname=”Date”/>
<rulerefname=”Duration”/>
<rulerefname=”Time”/>
<rulerefname=”Person”max=”inf”/>
<rulerefname=”ApptSubject”/>
....
</list>
</rule>
....
該文法程序段包含三個法則。第一,一個名為“nyc”的前端列出關(guān)于紐約市的表達式。本實施例中的標記<output>揭示關(guān)于構(gòu)造語義對象的法則。當搜索路徑退出文法節(jié)點時啟用他們,通過優(yōu)先立即標記來表示該文法節(jié)點。在這種情況下,當一個搜索路徑退出“nyc”法則時,創(chuàng)建一個表示為具有一個<city_location>元素的XML的語義對象。該語義對象分別由以下三個語義對象輪流組成城市名,州和國家名縮寫。
語義對象的組成還可以是一個動態(tài)過程,例如,在安排一個新的會面中。例如,當用戶完成對諸如日期,時間,持續(xù)時間和出席者那樣的會面屬性的指定時將產(chǎn)生一個NewMeeting語義對象??梢杂媚0逋鵑ewMeeting語義對象中粘帖其他語義對象作為其組成部分。還可以把相同的法則運用到這里沒有顯示的其他法則中。舉例來說,以下語義對象將導(dǎo)致一個發(fā)言“在1月1日安排LiDeng與AlexAcero進行一個為時1個小時的會面”<NewMeeting>
<DateTime>
<Date>01/01/2003</Date>
<Duration>3600</Duration>
</DateTime>
<Invitees>
<Person>Li Deng</Person>
<Person>Alex Acero</person>
</Invitees>
</NewMeeting>
在實際應(yīng)用中,提高PCFG有效區(qū)域是一項艱難的任務(wù)。因此需要能夠使用一個N-gram到模式,其中,功能語句不傳送關(guān)鍵的語義信息,但通常在文法結(jié)構(gòu)中具有相當大的變化(例如,”May I...”,”Couldyou show me...”,”Please showme...”)。在一個實施例中,語言模式310包含一個結(jié)合了PCFG和N-gram的語義語言模式。該技術(shù)與同樣也可以使用的一個統(tǒng)一語言模式稍微不同。除了該統(tǒng)一語言模式允許CFG分段而不僅僅是一列字之外,該統(tǒng)一語言模式是對傳統(tǒng)分類N-gram的自然擴展來形成N-gram中的一個特殊標記。使用該模式的識別器306仍然產(chǎn)生接著要解析的文本串。因此設(shè)計該統(tǒng)一語言模式以結(jié)合某個語言結(jié)構(gòu)來輔助文本翻譯。
另一方面,該語義語言模式旨在使用解碼器或識別器來對語義結(jié)構(gòu)進行搜索,通常由PCFG來捕獲會更好。因此,與在N-gram中嵌入CFG分段相反,通過創(chuàng)建一個響應(yīng)內(nèi)部N-gram的專用PCFG前端,PCFG用來包含N-gram。在微軟SAPI文法格式中,這可以用帶有一個XML<dictation>標記的一個前端來表示,就如同在LCFG<dictateon max=”inf”/>RCFG中。
其中LCFG和RCFG分別表示嵌入的N-gram的左、右上下文。該搜索處理創(chuàng)建作為一個作為標記的<dictation>標記并在N-gram中擴展,仿佛進入一個規(guī)則的非終結(jié)符號。該標記上的最大屬性指定N-gram能夠耗費的最大字數(shù)。在N-gram內(nèi),通過對補償N-gram內(nèi)插PCFG來計算字符串概率,更特別地P(Wn|Wn-1,Wn-2,...)=λP(Wn|Ngram,Wn-1,Wn-2,...)+(1-λ)P(Wn|RCFG)P(RCFG|Wn-1,Wn-2,...)(1)其中λ是N-gram內(nèi)插權(quán)而且P(RCFG|Wn-1,...)使用N-gram的補償概率,即創(chuàng)建Wn就好像它不是一個詞匯單詞。在一個實施例中,術(shù)語P(Wn|RCFG)取決于是否達到最大N-gram字符串大小而且該字是否在CFG分段的傳送中來假定二元值。既然取自PCFG的字經(jīng)常具有一個較高概率,那么甚至在將最大N-gram字計算設(shè)置成無窮大時,真正適合CFG所轉(zhuǎn)換的路徑也傾向于克服他們N-gram副本的障礙。除了功能語句以外,嵌入的N-gran還可以用來構(gòu)建具有一個作為屬性的口述的語義對象。例如,meeting對象是我們以下任務(wù)中的模式<rule name=”ApptSubject”>
<p><dictation rnax=”inf”/><P>
在K.Wang的“Semantic modeling for dialog system in a pattern recognitionframework”(Proc.Asru-2001,Trento Italy 2001)中描述了關(guān)于語義語言模式的進一步細節(jié),在此結(jié)合參考了它的全部內(nèi)容。
本發(fā)明進一步包括對SALT的listen對象的新的運用。SALT提供一組具有相關(guān)屬性和DOM對象屬性的XML元素,可以連同一個源標記文件一起用來把一個語音接口運用到一個源頁面的事件和方法。通常,該主要元素包括<Promt...>用于語音合成配置并提示運行<Listen...>用于語音識別器配置,識別執(zhí)行和錯后處理,并記錄<dtmf...>用于DTMF配置和控制<smex...>用于具有平臺部件的通用通信listen和dtmf對象還包含grammar和bind控制<grammar...>用于指定輸入文法<bind...>用于處理識別結(jié)果listen元素可以包括一個用來區(qū)分三種識別模式的“mode”屬性,它命令識別服務(wù)器(例如204)怎樣以及什么時候返回結(jié)果。該返回結(jié)果酌情暗示提供“onReco”事件或激活“bind”時間。
在第一個模式中,語音平臺“automatic”而非應(yīng)用程序控制何時停止識別處理。該模式還為電話或解放雙手方案進行了發(fā)展。一旦一個識別結(jié)果有效,和/或一個過去的時間周期表示停止,語音平臺自動停止識別器并返回其結(jié)果,該結(jié)果可以通過bind元素與合適的字段相關(guān)。
在第二個操作模式中,一個識別結(jié)果的返回“single”是受一個明確的“stop”請求控制的。該停止請求將響應(yīng)用戶的諸如“pen-up”那樣的事件,而且該模式為了用在一個多模式環(huán)境中而得到了發(fā)展,其中在多模式環(huán)境中的裝置允許語音輸入,但是用戶一般受到用什么以及什么時候選擇字段的控制,諸如通過使用指示筆33(圖1)。
語音識別器的第三種操作模式是一個“多模式”。該操作模式用于“打開麥克風(fēng)”或用在一個口述方案中。通常,在此操作模式中,在接收一個明確的停止請求或其他超出了關(guān)于非識別輸入的時間周期或聽的一個最大時間之前,不時地返回識別結(jié)果。通常,以這種操作方式,在接收停止請求之前對每一個識別的語句聲明一個“onReco”事件并且返回結(jié)果。
然而,作為本發(fā)明另一個方面,該操作模式可以提供一種方法,用于通過允許他們每當達到一個顯著的語言界標時立即匯報,對于檢索引擎用來揭示更多對用戶的交互能力。眾所周知檢索算法基于時間同步解碼,并可以對該模式以簡單的方式執(zhí)行該算法。H.Ney,S.Ortmanns 1999年在IEEE Signal ProcessingMagazine,pp.64-83上的“Dynamic programming search for continuous speechrecognition”中描述了其中一種該算法。對于語音識別,該語言界標通常響應(yīng)一個字或一個短語界面。一旦他們有效,一個SALT多模式識別就可以用來動態(tài)顯示該字符串假設(shè),通常在多種商業(yè)命令軟件中顯示一個UI效果。然而,在本發(fā)明中,該多模式可以創(chuàng)建語義對象的實例作為語言界標和匯報,即提供一些答復(fù)用作可以理解的東西的功能,同樣以一種動態(tài)方式在他們上返回應(yīng)用程序。這看起來似乎是SALT的應(yīng)用程序設(shè)計者正在執(zhí)行一個語義對象同步理解。
通過將該操作模式與一個多模式方案進行比較,可以更容易地理解該操作模式。例如,在多模式方案中,用戶通過當說話時在一個輸入字段中點擊并保持指示筆來指示一個字段。當用戶可以在一個通用字段上輕敲并發(fā)射出一個詳細的句子以用一個單句充滿多個字段時,該指定-交談接口(tap-and-talk interface)仍然占用著用戶的眼睛和手,這是一種不適合于多種情況的方案。另外,盡管指定-交談特征在于一個顯示有限語音語言處理的容量和進度條的有意義的秘密渠道通信。這些反饋僅對按照速度和精度量化語音語言處理提供非常原始的提示。對于長句可以假定這是更成問題的,其中可以把誤差傳送到一個寬頻帶示波器,最后要求僅僅在檢驗和校正該識別和理解結(jié)果方面作進一步的努力。既然可用的方案似乎指示長句是用實驗證明語音的實用性超過了增強的或選擇的鍵盤的關(guān)鍵區(qū)別因素,那么一個滿意的用戶界面技巧對成功使用語音作為一個可行的模式是絕對必要的。
為了促使一個仿人的計算機感知在完成一個共同目標中接近于合作伙伴,通過在他們有效時馬上匯報部分語義解析或?qū)ο髞磉M行語義對象同步理解。在一個實施例中,通過使用SALT中聽元素的多模式來實現(xiàn)這個。特別是,對于該聽元素,設(shè)計一個多模式然后為了識別該輸入語音,指定所有識別文法。還可以在Listen對象中指定該指定結(jié)果。例如用來獲得必要信息的HTML輸入代碼,諸如日期,時間,地點,對象和與會者等,可以用以下形式創(chuàng)建一個新的會面<listen mode=”multiple”...>
<grammar src=”subject.grm”/>
<grammar src=”date.grm”/>
<grammar src=”time_duration.grm”/>
<grammar src=”attendees.grm”/>
<bind targetElement=”subject”value=”//ApptSubject”/>
<bind targetElement=”date”value=”//DateTime”/>
<bind targetElement=”start_time”value=”//start_time”targetElement=”end_time”value=”//end_time”targetElement=”duration”value=”//DateTime/duration”/>
...
</Listen>
該多個文法包含一個并行搜索空間。用于帶有一個返回到入口點的空轉(zhuǎn)換的識別。照這樣,SALT允許Listen對象在一旦退出一個文法時產(chǎn)生一個事件。當進行優(yōu)先音頻采集和識別的時侯,該事件派生一個并行處理來依次啟用bind指令,因此在對具有一個領(lǐng)域視頻再現(xiàn)的應(yīng)用程序仍然發(fā)出一個語音命令的時侯,為用戶創(chuàng)建在形式上是充實的相關(guān)領(lǐng)域的影響。
對于為了解放雙眼應(yīng)用的用戶接口,也許要求有伴生的語音輸出。照這樣,SALT的prompt對象可以用來提供立即返回。例如,接下來的prompt對象可以用于在數(shù)據(jù)領(lǐng)域里動態(tài)常量的基礎(chǔ)上進行同步響應(yīng),而且可以如下所述用附加的SALT的bind指令觸發(fā)該語音同步<prompt id=”say_date”>
on<value targetElement=”date”/>
</prompt>
...
<listen...>
<bind targetElement=”date”value=”//date”targeElement=”say_date”targetMethod=”Start”/>
...
</listen>
總效應(yīng)是用戶感覺就像他/她和另一個參與者在交談,不僅僅是草草記錄下來而是重復(fù)所聽到的東西,就像在下個星期二(10/29/02)兩點(在下午兩點開始)為時兩個小時(持續(xù)時間兩個小時)的“安排一個會面(新會面)”中,其中在括號內(nèi)提供返回到用戶的表示音頻和/或視頻提示(也可以是同步的)的短語。
還應(yīng)該注意到SALT允許設(shè)計者附上自定義識別事件處理程序,該處理程序執(zhí)行超出諸如SALT的bind指令那樣的簡單指定的高級計算。在以上實施例中,可以在語義文法中完成數(shù)據(jù)歸一化,然而該數(shù)據(jù)歸一化無法促進高級參考結(jié)果(例如,“安排Li Deng與它的經(jīng)理的一次會面”)。例如,可以將算法作為可達到目標事件處理程序的腳本對象來訪問能存儲數(shù)據(jù)以確定無窮的參考。K.Wang的“A plan based dialog system with probabilistic inferences”(Proc.ICSLP-2000,Beijing China 2000)中以及2002年4月24日公開的歐洲專利申請EP1199630A2中描述了這種算法,在此結(jié)合參考了它們的全部內(nèi)容。
還應(yīng)該注意到盡管為了listen對象退出了該多模式操作,但是在當前執(zhí)行過程中,該模式對于諸如在口述方案中的輸入數(shù)據(jù)僅提供文本。然而,在本發(fā)明中所接收作為輸入的部分結(jié)果不僅僅是文本,而是還包括與該文本相關(guān)的響應(yīng)語義信息,因此該輸出包含部分語義解析或?qū)ο?,這可以如上所述用來提供用戶更多有關(guān)計算機已經(jīng)完全理解所接收的東西的質(zhì)量反饋。取決于應(yīng)用程序接收部分語義解析或?qū)ο蟮募记桑到y(tǒng)可以在所接收的部分語義解析或?qū)ο蟮幕A(chǔ)上提供反饋給用戶確定,選擇,校正和澄清。
盡管公知在多模式應(yīng)用程序中包括多個文法來允許用戶在前發(fā)言,從而提供該提供還未指定的信息的能力,由于listen元素提供給用戶一個更高的理解指示,所以在多模式操作中使用listen元素會更好。在一個純聲音應(yīng)用程序中產(chǎn)生一個自然形式對話框,反而如果使用執(zhí)行的視頻再現(xiàn),可以在用戶持續(xù)發(fā)言時,在用戶至今為止所提供的部分語義解析的基礎(chǔ)上開始處理一個應(yīng)用程序(開始,顯示臨時結(jié)果或選項,例如通過彈出窗)。
盡管參照部分實施例描述了本發(fā)明,但是本領(lǐng)域技術(shù)人員將認識到可以在不脫離本發(fā)明的精神和范圍的情況下進行形式上以及詳細地改變。
權(quán)利要求
1.一種語音理解系統(tǒng)包括一個語言模式,包含一個N-gram語言模式和一個上下文無關(guān)文法語言模式的一個組合,該語言模式存儲涉及字以及將要識別的語義信息的信息;一個適用于接收用戶輸入并捕獲該輸入用來處理的模塊,該模塊進一步適用于接收與輸入識別有關(guān)的SALT應(yīng)用程序接口,該模塊配置成處理SALT應(yīng)用程序接口和輸入以用來確定與輸入的第一部分有關(guān)的語義信息并通過訪問語言模式來輸出包括第一部分的文本和語義信息的語義對象,其中當連續(xù)捕獲輸入的隨后部分時執(zhí)行識別并輸出語義對象。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中語言模式包含一個統(tǒng)一語言模式。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中語言模式包含一個語義語言模式。
4.根據(jù)權(quán)利要求1,2或3所述的系統(tǒng),其中在繼續(xù)捕獲輸入的隨后的部分時,為了執(zhí)行識別和輸出語義對象,該模塊適用于以一種多模式來識別一個SALT的Listen對象。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中模塊適用于確定文法對象來定義語言模式的一個搜索空間。
6.根據(jù)權(quán)利要求1,2或3所述的系統(tǒng),其中模塊適用于確定文法對象來定義語言模式的一個搜索空間。
7.一種包括計算裝置可讀指令的計算機可讀媒體,當執(zhí)行該計算機可讀媒體時將導(dǎo)致計算裝置通過執(zhí)行以下步驟來處理信息,步驟包括接收來自一個用戶的輸入并捕獲要處理的該輸入;接收SALT應(yīng)用程序接口來確定一個執(zhí)行識別和理解的語言模式,該語言模式適合于為所接收的輸入提供識別的輸入文本和語義信息;通過訪問該語言模式來處理輸入以在輸入上執(zhí)行識別,以便確定與輸入的第一部分有關(guān)的語義信息,以及為第一部分輸出包含已識別輸入的文本和語義信息的語義對象,其中當連續(xù)捕獲輸入的隨后部分時執(zhí)行識別并輸出語義對象。
8.根據(jù)權(quán)利要求7所述的計算機可讀媒體,其中處理包括當連續(xù)捕獲輸入的隨后部分時,為了執(zhí)行識別和輸出語義對象,以一種多模式來識別一個SALT的Listen對象。
9.根據(jù)權(quán)利要求8所述的計算機可讀媒體,其中接收SALT應(yīng)用程序接口包括確定文法對象來定義語言模式的一個搜索空間。
10.根據(jù)權(quán)利要求7所述的計算機可讀媒體,其中接收SLT應(yīng)用程序接口包括確定文法對象來定義語言模式的一個搜索空間。
全文摘要
一種語音理解系統(tǒng)包括一個語言模式,該語言模式包含一個N-gram語言模式和一個上下文無關(guān)文法語言模式的一個組合,該語言模式存儲涉及字以及將要識別的語義信息的信息。該語音理解系統(tǒng)還包括一個適用于接收用戶輸入并捕獲該輸入用來處理的模塊。該模塊進一步適用于接收與輸入識別有關(guān)的SALT應(yīng)用程序接口,該模塊配置成處理SALT用程序接口輸入以用來確定與輸入的第一部分有關(guān)的語義信息并通過訪問語言模式來輸出包括第一部分的文本和語義信息的語義對象,其中當連續(xù)捕獲輸入的隨后部分時執(zhí)行識別并輸出語義對象。
文檔編號G10L17/00GK1573928SQ200410059568
公開日2005年2月2日 申請日期2004年5月28日 優(yōu)先權(quán)日2003年5月29日
發(fā)明者王冠三 申請人:微軟公司