專利名稱:人機(jī)交互的決策分析方法
技術(shù)領(lǐng)域:
一般的,計算機(jī)-使用者交互集中在使用者更多的遵守計算機(jī)的特性而不是計算機(jī)順從使用者。例如,當(dāng)使用者處于無計算機(jī)交互(例如人-人交互)中,典型的使用語言和非語言信號進(jìn)行交流,這在計算機(jī)-使用者交互中一般不行。而是,用戶被強(qiáng)迫利用計算機(jī)更容易理解的方式輸入信號到計算機(jī)-例如限定的聲音輸入、用鍵盤的文本輸入、指針、利用鼠標(biāo)移動并點擊輸入等。結(jié)果,計算機(jī)-使用者界面的這個強(qiáng)加的不自然性阻礙了使計算機(jī)更容易使用并且更成為日常生活的直覺部分的努力。
在人-人對話中,講話者和聽者優(yōu)雅地協(xié)調(diào)語言的表達(dá)和接收以達(dá)到并確認(rèn)互相理解。在此過程中,他們在不肯定的情況下作出決定使誤解的風(fēng)險最小并且促進(jìn)了接近行為目標(biāo)。在對話中經(jīng)常出現(xiàn)不確定性。例如,聽者可能不確定發(fā)言的清晰度。同樣地,發(fā)言者可能不確定聽者的注意程度或理解程度。盡管參與者可能忍受很小程度的不確定,但是過分地超過給定的范圍就可以導(dǎo)致誤會以及所有其相關(guān)的代價,例如不想要的太早終止共同行為。
在人-機(jī)對話中,集成了部分技術(shù)(例如語音識別、文本到語音和自然語言生成)的語言交互系統(tǒng)的成功依靠部分技術(shù)的精度。然而,雖然人-人對話的特征是不確定性和不精確性,但幾乎在所有情況下,人們很好的實現(xiàn)了交流。他們顯示的不僅僅是考慮關(guān)鍵不確定性及其代價的能力,而且他們可以想出策略(例如暫停)來協(xié)同地解決它們。相反的,處理在人機(jī)對話中的不確定性的現(xiàn)有技術(shù)實行的遠(yuǎn)遠(yuǎn)不好。
處理在人機(jī)對話中的不確定性的現(xiàn)有技術(shù),例如關(guān)于聽者的注意程度和理解程度的不確定性,通常是專門的?,F(xiàn)有技術(shù)一般不考慮不確定性的來源以及怎樣解決它們。例如,他們一般不區(qū)分由于通信信道保真度不好或者由于進(jìn)行發(fā)言時用戶注意力不集中導(dǎo)致的交流失敗。這使在遇到不確定時系統(tǒng)不強(qiáng)壯或不靈活,并且使使用者產(chǎn)生不太自然的前后關(guān)聯(lián)的感受。
由于這些和其他原因,需要本發(fā)明。
發(fā)明概述本發(fā)明涉及多層決策分析方法,用于在計算機(jī)-使用者交流中報告失敗并修補(bǔ)。在一個實施例里,一個計算機(jī)化的系統(tǒng)修補(bǔ)在計算機(jī)-使用者交互的范圍中的通信失誤,并且它包含了一個維護(hù)模塊,一個意圖(intention)模塊,和一個會話控制子系統(tǒng)。維護(hù)模塊處理關(guān)于信號識別和信道保真度的不確定性。意圖模塊由維護(hù)模塊支持,并且處理關(guān)于從信號中識別使用者的目標(biāo)的不確定性。會話控制子系統(tǒng)包圍以上兩個模塊,并且處理計算機(jī)與使用者之間的共同行為,還處理有關(guān)共同行為的一個或多個高層事件。
從而,在本發(fā)明的一個實施例里,每個模塊和控制子系統(tǒng)處理不同層次的不確定性。所述維護(hù)模塊處理信道層次和信號層次的不確定性。所述意圖模塊處理意圖層次的不確定性。所述會話控制子系統(tǒng)處理會話層次的不確定性。
以此方式,本發(fā)明的實施例提供了優(yōu)于現(xiàn)有技術(shù)的優(yōu)勢。通過辨認(rèn)在人機(jī)對話里不確定性位于何處,該發(fā)明的系統(tǒng)可以更自然的從可能由不確定性導(dǎo)致的任何失誤中恢復(fù)。例如,當(dāng)不確定性位于信道層次時(例如在計算機(jī)與使用者之間的基本鏈接上有故障),完成修補(bǔ)所利用的方法與不確定性位于意圖層次時(例如,使用者不理解計算機(jī)的意圖,或者計算機(jī)不理解使用者的意圖)的方法不同。最終結(jié)果是使用者感覺人機(jī)交互更自然。
本發(fā)明的實施例包含不同實施例的計算機(jī)執(zhí)行的方法,計算機(jī)可讀媒體,和計算機(jī)化子系統(tǒng)。通過參考附圖閱讀以下詳細(xì)說明,本發(fā)明的其他實施例、優(yōu)點和方面將變得很明顯。
附圖簡述
圖1是與本發(fā)明實施的具體實施例相關(guān)的運行環(huán)境的圖表;
圖2是根據(jù)本發(fā)明實施例的系統(tǒng)的圖表;圖3是根據(jù)本發(fā)明實施例的基于決策的轉(zhuǎn)移網(wǎng)絡(luò)(DTN)的圖;圖4(a)是顯示根據(jù)本發(fā)明實施例的在意圖層次利用的閾值p*的圖表;圖4(b)是顯示根據(jù)本發(fā)明實施例的在維護(hù)層次利用的閾值p1*和p2*的圖;圖5是根據(jù)本發(fā)明的實施例的方法的流程圖。
本發(fā)明詳細(xì)描述在本發(fā)明的范例性實施例的以下詳細(xì)描述中,參考了形成了說明書的一部分的附圖,這些附圖使用圖示性方法顯示本發(fā)明可以實行的特定的示例性實施例。足夠詳細(xì)地說明這些具體實施例以使本領(lǐng)域技術(shù)熟練人員可以實踐本發(fā)明,應(yīng)該理解,也可以利用其他實施例,并且在不離開本發(fā)明的精神和范圍前提下可以實行邏輯的、機(jī)械的、電學(xué)的和其他的改變。因而,以下詳細(xì)的描述不應(yīng)該被認(rèn)為是限制性的,本發(fā)明的范圍僅僅由權(quán)利要求書確定。
以下詳細(xì)說明的一些部分是用對計算機(jī)存儲器里的數(shù)據(jù)位的運算的算法和符號表示來表示。這些算法的說明和表示是數(shù)據(jù)處理領(lǐng)域技術(shù)熟練人員使用的方法,可以最有效的傳遞他們工作的實質(zhì)內(nèi)容給此領(lǐng)域其他技術(shù)熟練人員。這里算法被認(rèn)為是導(dǎo)向所需結(jié)果的自相一致的步驟系列。所述步驟是需要物理地處理物理量的步驟。通常,盡管不是必需的,這些量是以電的或者磁信號的形式,可以被儲存、轉(zhuǎn)移、組合、比較、以及其他處理。
這里將這些信號稱為比特、值、單元、符號、特性、項、數(shù)字或者諸如此類,已經(jīng)多次驗證是方便的,這基本是由于普遍使用這種做法。在頭腦里應(yīng)該記得,所有這些以及相似的術(shù)語是與合適的物理量相關(guān),并且僅僅是給這些量應(yīng)用的方便的標(biāo)號。除非特別指出,否則在下面的討論中很明顯,應(yīng)該認(rèn)識到,在整個本發(fā)明里,利用(例如處理或計算或推算或確定或顯示,或者類似的)術(shù)語表示計算機(jī)系統(tǒng)、或者相似的電子計算設(shè)備的動作和處理,所述動作和處理是將在計算機(jī)系統(tǒng)的寄存器和存儲器里的被表示為物理(電子)量的數(shù)據(jù)處理并轉(zhuǎn)換成在計算機(jī)系統(tǒng)存儲器或寄存器或其他此類信息存儲器、傳輸或顯示設(shè)備里的相似的被表示為物理量的其他數(shù)據(jù)。
運行環(huán)境參考圖1,顯示了本發(fā)明的實施例可以實施的硬件和運行環(huán)境的圖表。圖1的說明是想提供與本發(fā)明實施相關(guān)的合適的計算機(jī)硬件和合適的計算環(huán)境的一個簡單的、總的說明。盡管不是必要的,在計算機(jī)可執(zhí)行的指令的一般范圍中說明本發(fā)明,例如計算機(jī)(例如個人電腦)執(zhí)行的程序模塊。一般的,程序模塊包含例行程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,它們實行特殊的任務(wù)或者應(yīng)用特殊的抽象數(shù)據(jù)類型。
而且,本領(lǐng)域技術(shù)熟練人員將認(rèn)識到可以在其他計算機(jī)系統(tǒng)配置上實踐本發(fā)明,包含手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程用戶電子元件、網(wǎng)絡(luò)PC、小型計算機(jī)、大型機(jī)、以及諸如此類。也可以在分布式計算環(huán)境下實踐本發(fā)明,其中通過通信網(wǎng)絡(luò)相鏈接的遠(yuǎn)程處理設(shè)備實行任務(wù)。在一個分布式計算環(huán)境里,程序模塊可以位于本地儲存設(shè)備或者遠(yuǎn)端儲存設(shè)備。
圖1中用于實行本發(fā)明的范例性硬件和運行環(huán)境包含一個通用計算設(shè)備。所述設(shè)備是以計算機(jī)20的形式,包含一個處理單元21、一個系統(tǒng)存儲器22,和一個系統(tǒng)總線23。所述系統(tǒng)總線23將各種系統(tǒng)元件(包含系統(tǒng)存儲器)耦合到處理單元21??梢詢H有一個處理單元21,也可以有多個處理單元21,因而計算機(jī)20的處理器包含單個的中央處理單元(CPU),或者一般稱為并行處理環(huán)境的多個處理單元,。計算機(jī)20可以是通常的計算機(jī)、分布式計算機(jī)、或者任意其他類型的計算機(jī);本發(fā)明并不受如此限制。
系統(tǒng)總線23可以是包含存儲器總線或存儲器控制器、外圍總線、和使用任何總線結(jié)構(gòu)的局部總線的許多總線結(jié)構(gòu)類型中的任意一種。系統(tǒng)存儲器也可以簡單地稱為存儲器,并且包含只讀存儲器(ROM)24和隨機(jī)存取存儲器(RAM)25。在ROM24里儲存了一個基本輸入/輸出系統(tǒng)(BIOS)26,BIOS包含基本例行程序,例如在開機(jī)時,所述基本例行程序幫助在計算機(jī)20里的元件之間轉(zhuǎn)移信息。計算機(jī)20還包含一個硬盤驅(qū)動器27,用于從硬盤(圖中沒有顯示)讀數(shù)據(jù)和向硬盤寫數(shù)據(jù);計算機(jī)20還包含一個磁盤驅(qū)動器28,用于從可取走的磁盤29讀數(shù)據(jù)和向其寫數(shù)據(jù);計算機(jī)20還包含一個光盤驅(qū)動器30,用于從可取走的光盤31(例如CD ROM或者其他光學(xué)媒體)讀數(shù)據(jù)和向其寫數(shù)據(jù)。
硬盤驅(qū)動器27,磁盤驅(qū)動器28和光盤驅(qū)動器30分別通過硬盤驅(qū)動器接口32,磁盤驅(qū)動器接口33和光盤驅(qū)動器接口34連接到系統(tǒng)總線23。驅(qū)動器和其相關(guān)的計算機(jī)可讀媒體提供了用于計算機(jī)20的計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的非易失性儲存。本領(lǐng)域技術(shù)熟練人員應(yīng)該意識到,在示例性運行環(huán)境里可以使用任何類型的可以儲存計算機(jī)能訪問的數(shù)據(jù)的計算機(jī)可讀媒體,例如磁帶、閃存卡、數(shù)字化視頻光盤,伯努利盒式磁帶,隨機(jī)存取存儲器(RAM),只讀存儲器(ROM)和類似的。
可以將一些程序模塊儲存在硬盤29、光盤31、ROM24、或RAM25上,所述程序模塊包含操作系統(tǒng)35、一個或者多個應(yīng)用程序36,其他程序模塊37,和程序數(shù)據(jù)38。使用者可以利用輸入設(shè)備(例如鍵盤40和指針設(shè)備42)輸入命令和信息到個人計算機(jī)20里。其他輸入設(shè)備(圖中沒有顯示)可以包含麥克風(fēng),游戲搖桿,游戲墊、輔助盤、掃描儀或者類似的。這些和其他輸入設(shè)備常常通過與系統(tǒng)總線耦合的串行端口接口46連接到處理單元21,但也可以通過其他接口連接,例如并行端口、游戲端口、或通用串行總線(USB)。監(jiān)視器47或其他類型的顯示設(shè)備也可以通過一個接口(例如視頻適配器48)連接到系統(tǒng)總線23。除了監(jiān)視器,計算機(jī)典型地包含其他外圍輸出設(shè)備(圖中沒有顯示),例如擴(kuò)音器和打印機(jī)。
計算機(jī)20可以一個或多個遠(yuǎn)端計算機(jī)(例如遠(yuǎn)端計算機(jī)49)的邏輯連接在聯(lián)網(wǎng)的環(huán)境下運行。這些邏輯連接可以通過耦合到計算機(jī)20的通信設(shè)備或者計算機(jī)20的一部分達(dá)到;本發(fā)明并不局限于一種特定類型的通信設(shè)備。遠(yuǎn)端計算機(jī)49可以是另一個計算機(jī)、一個服務(wù)器、一個路由器、一個網(wǎng)絡(luò)PC、一個客戶機(jī)、一個同等的設(shè)備或者其他通用網(wǎng)絡(luò)節(jié)點,并且典型地包含許多或者所有上述的關(guān)于計算機(jī)20的單元,盡管在圖1里僅僅顯示了一個儲存設(shè)備50。圖1所示的邏輯連接包含一個局域網(wǎng)(LAN)51和一個廣域網(wǎng)(WAN)52。這樣的網(wǎng)絡(luò)環(huán)境在辦公網(wǎng)絡(luò)、公司范圍的計算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部網(wǎng)和國際互聯(lián)網(wǎng)(這些是各種網(wǎng)絡(luò))里常見的。
當(dāng)在LAN-網(wǎng)絡(luò)環(huán)境里使用時,計算機(jī)20通過網(wǎng)絡(luò)接口或適配器53(一種通信設(shè)備)與局部網(wǎng)絡(luò)51相連。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境里使用時,計算機(jī)20典型的包含一個調(diào)制解調(diào)器54(一種通信設(shè)備)或者其他類型的通信設(shè)備以建立在廣域網(wǎng)52(例如國際互聯(lián)網(wǎng))上的通信。所述調(diào)制解調(diào)器(它可以是外置式的也可以是內(nèi)置式的)通過串行端口接口46與系統(tǒng)總線23相連。在聯(lián)網(wǎng)的環(huán)境下,相當(dāng)于個人電腦畫出的程序模塊,或者部分程序模塊,可以被儲存于遠(yuǎn)端儲存設(shè)備。應(yīng)該認(rèn)識到,這里顯示的網(wǎng)絡(luò)連接是范例性的并且也可以使用用于建立在計算機(jī)之間的通信鏈接的其他裝置和通信設(shè)備。
四層表示和分析在詳細(xì)說明書的此部分,說明了根據(jù)本發(fā)明的用于修補(bǔ)人機(jī)對話中失誤(即,在此類對話中的不確定性)的分析的四層表示。有關(guān)根據(jù)本發(fā)明實施例的系統(tǒng),描述的層次,顯示在圖12里。
應(yīng)該注意到,對話的一個重要方面是對信息的本質(zhì)和交流的目的所作的正在進(jìn)行的推理和決策。在不確定性下收集信息和作出決策在會話中起著核心作用。處理不確定性在形成可能有助于澄清關(guān)鍵不確定性以及有助于引導(dǎo)對話到合適詳細(xì)程度的判別問題中顯得很重要,而是在上述詳細(xì)程度下交換信息或提問題。
所述系統(tǒng)及其所述四個層次至少在本發(fā)明的某些實施例中可用于計算機(jī)處理與使用者進(jìn)行的會話中的不確定性,尤其是(但不局限于)在共同行為的情景中。共同行為是心理語言學(xué)家使用的術(shù)語,心理語言學(xué)家利用其描述面向任務(wù)的行為,對參與者、設(shè)置有約束的,尤其是對每個參與者認(rèn)為合理的允許的作用之類有約束的社會事件。在共同行為里的參與者認(rèn)為他們有共同的一套關(guān)于所述行為的想法,包含認(rèn)為對其他參與者的作用和責(zé)任。例如,接待員范圍就是一個這樣的共同行為,其中一個接待員幫助他人處理某些事務(wù),其他人希望在所述事務(wù)方面得到接待員的幫助。即,人們認(rèn)為接待員的基本任務(wù)是以及時的合作的方式幫助他們達(dá)到行為確定的目標(biāo)。
發(fā)言者和聽者在四個層次上建立共同理解的基礎(chǔ)。如圖2所示,這些層次包含信道層214,信號層212,意圖層210,和會話層208。信道層214是最基礎(chǔ)的層。在此層次上,發(fā)言者企圖通過實行一個行為(例如一句話或者一個動作)給聽者開啟一個通信信道。然而,發(fā)言者不依靠協(xié)調(diào)就不能使聽者察覺到所述行為在發(fā)言者實行所述行為時,聽者必須注意并且精確的察覺所述行為。
在稍高的下一層次,信號層212,發(fā)言者將一個行為作為信號展示給聽者。不是意味著所有的行為都是信號-例如,撓癢癢。從而,發(fā)言者和聽者必須協(xié)調(diào)發(fā)言者所展示的與聽者所識別的行為。
意圖層次210是對話者解釋信號的陳述內(nèi)容的層次?,F(xiàn)有技術(shù)的對話系統(tǒng)一般差不多完全集中在此層次。另外,下述的專利案例展示了一個有新意的此類對話系統(tǒng),盡管本發(fā)明并不局限于此,本發(fā)明的具體實施例可以利用它,所述共同提交、共同待批和共同轉(zhuǎn)讓的專利案例題為“Computer-User Interaction via TaskAbstraction Hierarchy”[案卷1018.023US1],這里通過引用包含進(jìn)來。在意圖層次210里,發(fā)言者用信號給聽者一些陳述。在發(fā)出的信號中被聽者認(rèn)為是發(fā)言者的目標(biāo)的是聽者怎樣達(dá)到目標(biāo)。應(yīng)該注意到,在使用信號中,信號不同于發(fā)言者的目標(biāo)一例如,此領(lǐng)域內(nèi)已知的間接語言行為。通過集中注意發(fā)言者的目標(biāo),意圖層次將發(fā)言者的含意作為最主要的來處理。聽者不知道發(fā)言者企圖使用所述信號,發(fā)言者就不能通過所述信號傳遞其目標(biāo)。這再次需要協(xié)作。
最后,在會話層208,發(fā)言者提議一個聽者考慮并采納的共同行為。一個建議懇求所期望的回應(yīng)。例如,在一個間接語言行為里,例如“我必須到North Campus”意味著“請叫到North Campus的班車”,發(fā)言者給聽者提議了一個行為并且聽者共同實行-在上例中發(fā)言者讓聽者去叫班車。在叫班車的事件中,沒有聽者的協(xié)作參與,發(fā)言者不可能讓聽者去從事所述行為。
分析的四個層次形成了暫時行為的階梯,在此領(lǐng)域中大家知道是向上完成的。在對話的一個給定層次的動作是從下到上完成的。從而,在發(fā)言者必須使聽者參與信道層214的行為,為了在信號層212使聽者識別信號的表示,為了在意圖層210使聽者理解發(fā)言者的意思,為了在會話層208最終使聽者考慮行為的建議。
一個層完成的證據(jù)也是所有在其下的層也完成的證據(jù)。證據(jù)是向下證明的。從而,當(dāng)聽者采納一個動作時,這給發(fā)言者提供了證據(jù)聽者理解了信號后面的目標(biāo),這隨后又提供證據(jù)識別了信號以及打開了信道。
在所有四個層次上的行為通常在不確定性下實行。例如,在最低層214,對話在信道保真度上可以是不確定的;由此,他們可以尋找引起注意的物理信號,例如,凝視或者點頭。聽者接著通過返回信道表示理解的跡象,例如“啊哈”,這在此領(lǐng)域是眾知的。
不確定性帶來了代價。例如,如果聽者對信道保真度不確定,要求重復(fù)的代價與繼續(xù)談?wù)搫偛潘f的代價相比要小一些。考慮到有可能的必須稍后從頭來過所導(dǎo)致的更大代價,通過確認(rèn)消息(例如,“你聽懂了嗎?”),增加共同理解的可能性的好處可能超過了詢問的代價。以后追溯的潛在需要可能包括更大的代價。
系統(tǒng)在詳細(xì)說明書的此部分,說明了根據(jù)本發(fā)明實施例的一個系統(tǒng)。而且,說明了貝葉斯網(wǎng)絡(luò),基于決策的轉(zhuǎn)移網(wǎng)絡(luò),推斷概率,和概率閾值。參考圖2、3、4(a)和4(b)進(jìn)行了說明。
貝葉斯推理和期望值決策在本發(fā)明的一個實施例里用于在對話里識別理想動作,同時考慮到關(guān)于通信保真度和意義的不確定性,以及在這些不確定性下采取的更換動作的潛在改變的代價和好處。在此實施例里計算了不能直接使用貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)的利益狀態(tài)可能性。
再次參考圖2,顯示了根據(jù)本發(fā)明的一個實施例的系統(tǒng)的圖表。系統(tǒng)200包含意圖模塊204,維護(hù)模塊206,和一個會話控制子系統(tǒng)202。模塊204、模塊206和子系統(tǒng)202中的每個在一個實施例里都可以作為來自計算機(jī)可讀媒體(例如一個存儲器)的,來自圖1所示計算機(jī)的,由處理器執(zhí)行的計算機(jī)程序?qū)崿F(xiàn)。但是本發(fā)明不限于此。
維護(hù)模塊206處理有關(guān)信號識別和信道保真度的不確定性。與向上完成的標(biāo)記法一致,維護(hù)模塊206支持意圖模塊204,意圖模塊204處理有關(guān)從信號識別使用者目標(biāo)的不確定性。包圍此兩個模塊的是會話控制子系統(tǒng)202,它處理有關(guān)共同行為的狀態(tài)的不確定性,這在此領(lǐng)域已知為Gricean準(zhǔn)則、共同基礎(chǔ)(即,對話的一個共享知識基礎(chǔ)),及其他有關(guān)共同行為的高層次對話事件(例如,系統(tǒng)到目前為止所問的問題的數(shù)目,等)。
箭頭216,218和220表示在模塊204和206和子系統(tǒng)202里的信息流向。會話控制子系統(tǒng)連續(xù)的與模塊204和206交換信息,這分別由箭頭216和218表示,并且確定在何處集中注意成為相互理解的基礎(chǔ)。會話控制子系統(tǒng)202也基于記錄的調(diào)整代價或可利用性,所述記錄保存會話層的觀察,例如系統(tǒng)到目前為止所提問題的數(shù)目。箭頭220表示動作的向上完成;從而,當(dāng)有證據(jù)表明意圖層次210完成,意圖模塊204向下傳遞這個證據(jù)給信號層212和信道層214,使得維護(hù)模塊206知道了信號已被識別并且信道被打開。
在一個實施例里貝葉斯網(wǎng)絡(luò)用于獲得作出決策的概率。貝葉斯網(wǎng)絡(luò)允許系統(tǒng)200將不確定性之間的依賴關(guān)系模型化,使其可能以結(jié)構(gòu)化方式推理誤會的來源。在一個實施例里,模塊204和模塊206中的每個都包含至少一個基于決策的轉(zhuǎn)移網(wǎng)絡(luò)(DTN),如此領(lǐng)域所知的,DTN是一個有由決策理論函數(shù)設(shè)置的轉(zhuǎn)移輸入的有限自動裝置。從而,根據(jù)本發(fā)明的一個實施例的DTN利用貝葉斯推論和期望值計算來確定什么轉(zhuǎn)移導(dǎo)致最大限度的共同理解和最小的協(xié)作努力。在圖3中顯示了一個根據(jù)一個具體實施例的,可以被用于圖2中意圖層次210的環(huán)境中的,此類DTN示例的圖表,在下一段開始特別說明它。DTN的網(wǎng)絡(luò)結(jié)構(gòu)編碼了解決不確定性的會話策略。
對話的基礎(chǔ)是在此領(lǐng)域所知的鄰接對中實行發(fā)言的一個有序?qū)?,其中有序?qū)Φ牡诙糠謼l件相關(guān)地依賴于第一部分,即相關(guān)的并且可預(yù)料的。原型是一個提問和回答。鄰接對溶入DTN的結(jié)構(gòu)。從而,參考圖3,DTN示成用于處理意圖模塊里的請求。對于請求的條件相關(guān)響應(yīng)是理解狀態(tài)3(表示為節(jié)點302)。然而,如果存在關(guān)于請求狀態(tài)1(表示為節(jié)點300)的不確定性,則開始業(yè)內(nèi)所知的嵌入側(cè)序列是經(jīng)濟(jì)的,如節(jié)點304所示。所述側(cè)序列可以是修補(bǔ)任何誤會的問題。在一個實施例里,利用貝葉斯網(wǎng)絡(luò)評估DTN里的不確定性。
如圖3所示,在意圖層次的基本不確定性是使用者目標(biāo),盡管此不確定性并不局限于此。然而,這不能被直接發(fā)現(xiàn),所以一個實施例里的系統(tǒng)使用貝葉斯網(wǎng)絡(luò)來提出對至今觀察到所有語言和非語言證據(jù)的可能目標(biāo)的分布。如在下述案例中說明的,分層將目標(biāo)分解成若干貝葉斯網(wǎng)絡(luò)可以改進(jìn)引導(dǎo)對話的推論,所述案例是共同待批、共同轉(zhuǎn)讓和共同提交的專利案例,題為“Computer-Based Representationsand Reasoning Methods for Engaging Users in Goal-Oriented Conversation”[案卷1018.023US1],這里通過引用包含進(jìn)來。給定證據(jù)的最可能目標(biāo)的概率可以記為p(目標(biāo)|E)。如圖3所示,如果此概率不超過理解請求的一定閾值,此系統(tǒng)必須在兩類會話策略中決策,它們作為轉(zhuǎn)移輸入編碼入DTN1.詢問目標(biāo),它明確地要求使用者確認(rèn)對目標(biāo)的最可能的猜測,計算式為arggmax p(目標(biāo)|E);或者2.請求修補(bǔ),它使用一側(cè)序列來收集更多信息。
在一個實施例里,閾值確定選擇哪個轉(zhuǎn)移輸入?,F(xiàn)在參考圖4(a),如果p(目標(biāo)|E)不超過預(yù)定的閾值p*404,則此概率落在“請求修補(bǔ)”區(qū)域400里,從而“詢問目標(biāo)”區(qū)域402被排除。而且,在意圖層次達(dá)到共同理解上的此類失誤有時可能是由于較低層次的問題,系統(tǒng)在作出決策時也可以考慮在維護(hù)層次的不確定性。在一個實施例里,在所述維護(hù)模塊,利用貝葉斯網(wǎng)絡(luò)來獲得對三個狀態(tài)的概率分布信道和信號、信道和無信號,以及無信道。
如果在“請求修補(bǔ)”區(qū)域400里,再次使用閾值來確定使用哪個“請求修補(bǔ)”的示例?,F(xiàn)在參考圖4(b),如果p(信道和信號|E)超過閾值p1*458,則概率處于推敲區(qū)域454,并且系統(tǒng)請求推敲,這一般暗示意圖層次誤會但不排除維護(hù)層次的原因,例如語法分析錯誤。如果p(信道和信號|E)小于閾值p1*458但大于閾值p1*456,則概率位于重復(fù)區(qū)域,并且使用了“請求修補(bǔ)”的示例請求重復(fù)。這意味著最可能的維護(hù)層次狀態(tài)是“信道和無信號”。在此情況中,系統(tǒng)在請求重復(fù)時將明確指出出現(xiàn)了信號層問題。由于現(xiàn)在用戶位于一個協(xié)助排除問題的較好位置,解決誤會的認(rèn)可是一個集體過程。
對話中此協(xié)作行為的原則在現(xiàn)有技術(shù)中稱為“最小協(xié)作努力的原則”。例如,如果使用者要求接待員系統(tǒng)叫一輛車,但是語音識別系統(tǒng)僅僅聽到一些詞語,系統(tǒng)可以以詢問的結(jié)構(gòu)中響應(yīng)所述詞語中的一個,例如“對不起,〔車〕?你可以重復(fù)一下嗎?”其中〔車〕是對該詞語的一個填空。從而,此詢問告訴使用者,語音識別聽懂了一些詞語,但是可能不足以在意圖層次理解語言。
最后,如果p(信道和信號|E)小于閾值p1*456,則概率位于信息值區(qū)域450。這表示使用了最后一種“請求修補(bǔ)”示例,根據(jù)不同目標(biāo)的推斷概率利用信息值(VOI)分析以識別最好的發(fā)現(xiàn)信號。在一個實施例里,通過對每個信號計算與信號所取的每個值有關(guān)的最佳決策的期望效用,計算出VOI。此分析將每個值的期望效用以發(fā)現(xiàn)不同值的概率作權(quán)加起來。一旦發(fā)現(xiàn)信號是推薦的,使用了所述信號的詢問結(jié)構(gòu)。例如,如果VOI分析推薦發(fā)現(xiàn)單詞“車”,系統(tǒng)可以詢問使用者所述請求是否與一輛車相關(guān)。然而,有時候這可能不合適,所以將依賴情景的代價賦給VOI推薦,這將在下面說明。
注意到業(yè)內(nèi)一般都知道VOI計算。例如,參考書目,Horvitz,E.,Breese,J.,和Henrion,M.,所著Decision Theory in Expert Systems and Artificial Intelligence,International Journal of Approximate Reasoning,Special Issue on Uncertainty inArtificial Intelligence,2247-30(1989),提供了VOI計算的背景和細(xì)節(jié)。而且,共同提交、共同待批和共同轉(zhuǎn)讓的題為“Computer-User Interaction via Task AbstractionHierarchy”[案卷1018.023US1]的專利案例,也提供了關(guān)于VOI的說明,所述案例已經(jīng)通過引用包含進(jìn)來。
在另一個實施例里,根據(jù)決策理論函數(shù)選擇了轉(zhuǎn)移輸入,例如,本領(lǐng)域一般技術(shù)人員都可以理解決策理論函數(shù)最小化協(xié)作努力。已經(jīng)說明過,此類決策理論函數(shù)可以用于代替根據(jù)超過一個閾值的推論概率選擇轉(zhuǎn)移輸入的方法,或者作為除此之外的方法。然而,本發(fā)明并不局限于此。
回頭參考圖3中的DTN的圖表,轉(zhuǎn)移輸入“請求修補(bǔ)”將DTN帶到狀態(tài)2,如節(jié)點304所示,在此,在容許條件相關(guān)聯(lián)第二對部分(“容許修補(bǔ)”)條件下,DTN回到狀態(tài)1,如節(jié)點300所示。在狀態(tài)1,系統(tǒng)利用從側(cè)序列獲得的額外信息再次實行推斷。因而,通過實行鄰接對,此不斷改進(jìn)的過程有效的消除了誤會。
現(xiàn)在回頭參考圖2里的系統(tǒng)200的圖,會話控制子系統(tǒng)202便于在模塊204和206之間共享證據(jù),這已經(jīng)間接提到了。從而,與向下證據(jù)的標(biāo)記一致,一旦在意圖模塊DTN選擇了轉(zhuǎn)移輸入,證據(jù)被向下發(fā)送以固定在維護(hù)模塊DTN里的轉(zhuǎn)移輸入,如箭頭220所示。例如,當(dāng)使用者提供“容許修補(bǔ)”給“請求修補(bǔ)”時,它固定了在維護(hù)模塊DTN里的轉(zhuǎn)移輸入,說明用戶注意到所詢問的問題。如果在一個實施例里,必須繼續(xù)對話并且必須在維護(hù)層次貝葉斯網(wǎng)絡(luò)上實行推斷,則表示用戶注意到上一句話的節(jié)點被示出。
如前述,在DTN里的轉(zhuǎn)移輸入是利用決策理論函數(shù)設(shè)置的。在一些實施例里,僅僅包含概率閾值,這已經(jīng)結(jié)合圖4(a)和4(b)予以說明。然而,本發(fā)明并不局限于此。在其他實施例里,可以計算實行指定行為的代價和利益,以效用來表示。在一個實施例里,由于會話控制子系統(tǒng)202跟蹤較高層次事件,在兩個模塊里的DTN提交與會話情景和社會因素符合的效用。例如,在意圖模塊204,當(dāng)在相同的鄰接對里所提問題的數(shù)量增加時,會話控制子系統(tǒng)202可以擴(kuò)大詢問問題的代價。因而,雖然問一個問題的代價較小,它隨著對同一個請求所問的問題數(shù)量快速地增加(可能是指數(shù)增加)。
在一個實施例里,會話控制子系統(tǒng)202也需要辨別何時共同行為終止。在一個實施例里,完成此過程是利用帶有會話層次狀態(tài)分布的其自己的貝葉斯網(wǎng)絡(luò),例如“進(jìn)展行為”,“意外終止”等。然而,本發(fā)明并不局限于此。
廣義方式的實行決策在詳細(xì)說明的此部分,說明了一個更一般的用于實行決策的決策分析方法。即,在以前的章節(jié)中,實行決策是與推斷概率的確定有關(guān),并根據(jù)推斷概率超過或者不超過某些閾值而采取行為(實行決策)。然而,本領(lǐng)域一般技術(shù)人員將認(rèn)識到,這是一個特定的決策分析方法,考慮到關(guān)于每個結(jié)果的效用,它可以稱為在不確定性下理想動作的計算。即,在前述章節(jié)中的說明是現(xiàn)在說明的更一般方法的一個特定實施例。
在廣義方法里,首先如利用業(yè)內(nèi)所知的貝葉斯網(wǎng)絡(luò)確定在利益的自變量上的概率分布,在此領(lǐng)域已知為假設(shè)變量,例如在使用者目標(biāo)上的概率分布。接著,確定與概率分布有關(guān)的最大期望值的動作。優(yōu)化動作A*的直接動作的值是它的期望效用,它可以寫為eu(A*)=maxA∑ju(Ai,Hj)p(Hj|E)這里maxA表示選擇行為A以達(dá)到最大和,u(Ai,Hj)是當(dāng)使用者有目標(biāo)(假設(shè))Hj時具體動作Ai的效用,p(Hj|E)是在給定的發(fā)現(xiàn)集和背景的證據(jù)E的當(dāng)前情況下使用者目標(biāo)(假設(shè))Hj的概率。我們使用A*表示有最大期望效用的動作A,利用上述等式的arg maxa得到。
廣義方法所考慮的行為與前述的更具體的方法一樣。接著是最大化與概率分布中相關(guān)的最大的期望值的動作。
方法在詳細(xì)說明書的此章節(jié),說明了根據(jù)本發(fā)明實施例的方法。此方法適宜計算機(jī)實行,并且參考圖5說明此方法。此計算機(jī)執(zhí)行的方法期望至少部分地是作為運行在計算機(jī)上的一個或多個程序來實現(xiàn)-即,作為計算機(jī)處理器可以從計算機(jī)可讀媒體(例如存儲器)里執(zhí)行的程序。此程序適宜儲存于機(jī)器可讀的媒體(例如軟盤或CD-ROM)上,便于在另一個計算機(jī)上分發(fā)并且安裝并且執(zhí)行。然而本發(fā)明不局限于此。
現(xiàn)在參考圖5,示出了根據(jù)一個實施例的方法的流程圖。此方法顯示了解決不確定性的廣義方法,它可以在本發(fā)明的一個實施例中實行。從而,在不確定性事件500里,所述不確定性在它所處于的層次中被解決在信道或者信號層次502,在意圖層次504,或者在會話層次506。與其相比,現(xiàn)有技術(shù)沒有根據(jù)不確定性所經(jīng)歷層次用不同方法解決不確定性。在本發(fā)明的一個實施例中,不確定性如已在本專利中描述的方法處理及解決。例如,如前述,在處理在信道和信號層次502或者在意圖層次504上的不確定性的情況中,可以利用DTN。一旦有效的處理(即解決)了不確定性,則所述方法在508繼續(xù)。
結(jié)論盡管這里說明了具體實施例,本領(lǐng)域一般技術(shù)人員將認(rèn)識到,計算以達(dá)到相同目的的任何安排可以替代特定的具體實施例。此專利申請期望覆蓋本發(fā)明的任何改變和變化。從而,明確期望本發(fā)明僅僅由下面的權(quán)利要求及其等價的內(nèi)容所限制。
權(quán)利要求
1.一種用于管理使用者和機(jī)器之間的通信不確定性的系統(tǒng),其特征在于,包含一個會話控制部件,用于連續(xù)地與一個維護(hù)模塊交換信息,所述維護(hù)模塊檢測使用者和機(jī)器之間交換的信號并監(jiān)控信道保真度,和一個意圖模塊,用于至少部分基于從維護(hù)模塊接收到的信號和信道保真度信息來確定由所述信號指示的使用者目標(biāo)。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述維護(hù)模塊和所述意圖模塊中的每一個包括基于決策的多節(jié)點轉(zhuǎn)移網(wǎng)絡(luò)。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述基于決策的多節(jié)點轉(zhuǎn)移網(wǎng)絡(luò)使用貝葉斯推理和期望值計算,使得共同理解最大化并使得協(xié)作努力最小化。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述維護(hù)模塊管理一個信號層次中的不確定性。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述維護(hù)模塊管理一個信道層次中的不確定性。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述意圖模塊管理一個意圖層次中的不確定性。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述會話控制部件管理一個會話層次的不確定性。
8.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述會話控制部件用于檢測并管理機(jī)器和使用者之間的共同行為。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述會話控制部件用于檢測共同行為的終止。
10.一種用于管理機(jī)器和使用者之間的通信不確定性的方法,其特征在于,包含檢測使用者和機(jī)器之間交換的信號;監(jiān)控所述信號的信道保真度;使用所述信號來確定與使用者和機(jī)器所采取的行為關(guān)聯(lián)的使用者目標(biāo),所述行為由所述信號指示。
11.如權(quán)利要求10所述的方法,其特征在于,還包括使用至少一個基于決策的轉(zhuǎn)移網(wǎng)絡(luò),來使機(jī)器和使用者之間關(guān)于所述行為的共同理解最大化。
12.如權(quán)利要求11所述的方法,其特征在于,所述至少一個基于決策的轉(zhuǎn)移網(wǎng)絡(luò)使用貝葉斯推理和期望值計算,使得共同理解最大化。
13.如權(quán)利要求11所述的方法,其特征在于,使用至少一個基于決策的轉(zhuǎn)移網(wǎng)絡(luò)包括對一個示例節(jié)點示例。
14.如權(quán)利要求11所述的方法,其特征在于,使用至少一個基于決策的轉(zhuǎn)移網(wǎng)絡(luò)包括使用信息值分析。
15.如權(quán)利要求14所述的方法,其特征在于,所述信息值分析包括評估受到所采取的行為的影響的代價和效用。
16.如權(quán)利要求10所述的方法,其特征在于,還包括管理一個信號層次中的不確定性。
17.如權(quán)利要求10所述的方法,其特征在于,還包括管理一個信道層次中的不確定性。
18.如權(quán)利要求10所述的方法,其特征在于,還包括管理一個意圖層次中的不確定性。
19.如權(quán)利要求10所述的方法,其特征在于,還包括管理一個會話層次中的不確定性。
20.一種用于管理使用者和機(jī)器之間的通信不確定性的由機(jī)器實現(xiàn)的系統(tǒng),其特征在于,包含用于檢測使用者和機(jī)器之間交換的信號的裝置,該信號與機(jī)器和使用者所采取的行為有關(guān);和用于確定與所述行為關(guān)聯(lián)的目標(biāo)的裝置。
全文摘要
在此揭示了一種多層決策分析方法以在人機(jī)通信中報錯并修補(bǔ)。在一個實施例里,一種用于在人機(jī)交互環(huán)境中修補(bǔ)通信失誤的計算機(jī)化系統(tǒng),包含一個維護(hù)模塊,一個意圖模塊,以及一個會話控制子系統(tǒng)。所述維護(hù)模塊用于處理關(guān)于信號識別和信道保真度的不確定性。所述意圖模塊由所述維護(hù)模塊支持,用于處理關(guān)于從信號識別使用者目標(biāo)的不確定性。所述會話控制子系統(tǒng)包圍所述維護(hù)模塊和所述意圖模塊,用于處理人機(jī)之間的共同行為和一個或多個關(guān)于共同行為的高層事件。
文檔編號G10L15/18GK1940978SQ200610159829
公開日2007年4月4日 申請日期2000年6月2日 優(yōu)先權(quán)日1999年6月4日
發(fā)明者E·霍維茨, T·佩???申請人:微軟公司