在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的系統(tǒng)和方法

文檔序號：2824765閱讀：201來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及用于處理與一個或多個裝置和/或應(yīng)用程序進(jìn)行的多模式交互的綜合自然語言語音服務(wù)環(huán)境，其中所述多模式交互可以提供用于配合解釋和另外處理伴隨所述多模式交互的自然語言語句的額外背景。
背景技術(shù)：
近年來隨著技術(shù)的進(jìn)步，消費性電子裝置已出現(xiàn)并幾乎在很多人的日常生活中無處不在。為了滿足移動電話、導(dǎo)航裝置、嵌入式裝置和其他這樣的裝置的功能性和移動性的增長引起的日益增長的需求，很多裝置除了核心應(yīng)用以外還提供大量特征和功能。然而，較大的功能性還帶來了折衷，包括通常抑制用戶完全利用他們的電子裝置的所有性能的學(xué)習(xí)難度。例如，很多現(xiàn)有的電子裝置包括復(fù)雜的人機界面，這些復(fù)雜的人機界面可能不是特別方便使用，這會抑制很多技術(shù)的大規(guī)模市場應(yīng)用。而且，不方便的界面還經(jīng)常導(dǎo)致難以找到或使用期望的特征(例如，因為菜單復(fù)雜或?qū)Ш椒爆?。就這一點而言，很多用戶趨向于不使用甚或不了解他們的裝置的很多潛在性能。就這一點而論，電子裝置的增加的功能往往趨向于浪費，市場研究表明，很多用戶僅使用給定裝置上可用的特征或應(yīng)用的一部分。而且，在無線聯(lián)網(wǎng)和寬帶接入越來越普遍的社會中，消費者往往自然地希望他們的電子裝置具有無縫移動性能。因此，由于消費者對更簡單的與電子裝置交互的機制的需求加強，因此妨礙快速且集約化交互的不方便的界面成為重要的議題。但是，在很大程度上仍未滿足對以直觀方式使用技術(shù)的機制的日益增長的需求。一種簡化電子裝置中的人機交互的方法包括使用語音識別軟件，該語音識別軟件有可能使用戶利用原本不熟悉、不了解或難以使用的特征。例如，最近由Navteq公司(其提供比如自動導(dǎo)航和基于網(wǎng)頁的應(yīng)用的各種應(yīng)用中使用的數(shù)據(jù))進(jìn)行的一項調(diào)查表明，語音識別在電子裝置消費者最期望的特征中占首位。雖然如此，就用戶而言，現(xiàn)有的語音用戶界面在實際工作時仍需要大量學(xué)習(xí)。例如，很多現(xiàn)有的語音用戶界面僅支持根據(jù)特定的命令與控制序列或語法制定的請求。而且，很多現(xiàn)有的語音用戶界面因不準(zhǔn)確的語音識別而導(dǎo)致用戶沮喪或不滿。類似地，通過強迫用戶提供預(yù)先建立的命令或關(guān)鍵字來以系統(tǒng)可以理解的方式傳遞請求，現(xiàn)有的語音用戶界面未能有效地使用戶加入富有成效的、配合的對話中以解析請求并促進(jìn)對話朝著令人滿意的目標(biāo)進(jìn)行(例如，當(dāng)用戶可能不確定具體需求、可用信息、裝置性能等時)。就這一點而言，現(xiàn)有的語音用戶界面往往有各種缺點，包括大大限制了使用戶以配合方式和對話方式加入對話。此外，很多現(xiàn)有的語音用戶界面達(dá)不到利用分布在不同領(lǐng)域、裝置和應(yīng)用程序中的信息以解析基于自然語言語音的輸入。因此，現(xiàn)有的語音用戶界面的缺陷在于局限于已經(jīng)設(shè)計出的有限的一組應(yīng)用程序或者局限于存在有它們的裝置。盡管技術(shù)進(jìn)步已使得用戶通常利用若干裝置來滿足他們的各種需求，但現(xiàn)有的語音用戶界面并不足以使用戶擺脫裝置的限制。例如，用戶可能對與不同應(yīng)用程序和裝置關(guān)聯(lián)的服務(wù)感興趣，但現(xiàn)有的語音用戶界面往往限制用戶利用他們認(rèn)為合適的應(yīng)用程序和裝置。而且，實際上，用戶在任一給定時間通常僅能夠攜帶有限數(shù)量的裝置，而在各種情況下可能需要與用戶目前使用的其他裝置有關(guān)的內(nèi)容或服務(wù)。因此，盡管用戶往往具有不同的需求，其中在各種背景或環(huán)境中可能想要與不同的裝置關(guān)聯(lián)的內(nèi)容或服務(wù)，但現(xiàn)有的語音技術(shù)往往達(dá)不到提供這樣的綜合環(huán)境在該綜合環(huán)境中，用戶可以請求與幾乎任何裝置或網(wǎng)絡(luò)關(guān)聯(lián)的內(nèi)容或服務(wù)。就這一點而言，現(xiàn)有的語音服務(wù)環(huán)境中對信息可用性和裝置交互機制的限制往往妨礙用戶以直觀、自然且有效的方式體驗技術(shù)。例如，當(dāng)用戶想要利用給定的電子裝置執(zhí)行給定的功能、但不一定了解如何著手執(zhí)行該功能時，用戶通常無法加入與該裝置的多模式交互以僅發(fā)出自然語言的詞來請求該功能。而且，利用不具有語音識別能力的電子裝置，相對簡單的功能通?？赡軋?zhí)行起來繁瑣。例如，為移動電話購買新的電話鈴聲往往是很簡單的過程，但用戶通常必須導(dǎo)航若干菜單并按下很多不同的按鈕來完成該過程。就這一點而言，很明顯，如果用戶能夠使用自然語言來開發(fā)隱藏或其他難以使用的功能，則與電子裝置的交互會有效得多?，F(xiàn)有的系統(tǒng)具有這些問題和其他問題。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面，可以提供用于在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的系統(tǒng)和方法。具體地，可以在包括一個或多個電子裝置的自然語言語音服務(wù)環(huán)境中接收一個或多個多模式交互。所述多模式裝置交互可以包括用戶加入與所述電子裝置中的一個或多個電子裝置或與和所述裝置有關(guān)的應(yīng)用程序進(jìn)行的非語音交互中，同時還提供與所述非語音交互有關(guān)的自然語言語句。例如，所述非語音裝置交互可以包括用戶選擇特定的部分、項目、數(shù)據(jù)、注意點或關(guān)注點或者加入與所述電子裝置或者與和所述電子裝置關(guān)聯(lián)的應(yīng)用程序的一個或多個唯一且可區(qū)分的交互中。就這一點而言，可以從所述自然語言語句中提取出背景，且所述非語音裝置交互可以提供用于所述自然語言語句的其他背景。接著可以使所述語句的背景和所述非語音裝置交互的背景組合以確定所述多模式裝置交互的目的，其中所述電子裝置中的一個或多個電子裝置可以基于所述多模式裝置交互的目的處理請求。根據(jù)本發(fā)明的一個方面，所述電子裝置中的至少一個電子裝置可以包括配置成接收基于語音的輸入的輸入裝置。在一個實現(xiàn)方式中，響應(yīng)于檢測與所述一個或多個電子裝置或者應(yīng)用程序的非語音交互，可以用信號通知所述基于語音的輸入裝置捕獲所述自然語言語句。而且，所述自然語言語音服務(wù)環(huán)境可以包括針對電子裝置和相關(guān)應(yīng)用程序建立的一個或多個收聽器，其中所述收聽器可以配置成檢測與所述電子裝置或應(yīng)用程序的非語音交互。就這一點而言，與非語音交互有關(guān)的信息和與伴隨的自然語言語句有關(guān)的信息可以被對齊以實現(xiàn)合作性處理所述語句和所述非語音裝置交互。根據(jù)本發(fā)明的一個方面，可以基于所述多模式裝置交互的目的產(chǎn)生至少一個交易提示。例如，可以接收附加多模式裝置交互，其中所述附加多模式裝置交互可以與針對第一多模式裝置交互產(chǎn)生的交易提示有關(guān)。接著可以基于針對所述附加多模式裝置交互確定的目的將至少一個請求路由到所述電子裝置中的一個或多個電子裝置，由此可以響應(yīng)于接收到與所產(chǎn)生的交易提示有關(guān)的裝置交互來處理交易點進(jìn)。例如，所述交易提示可以包括基于最初的多模式裝置交互的目的選擇的廣告或推薦，而附加多模式裝置交互可以包括用戶選擇該廣告或推薦。因此，選擇該廣告或者推薦可以被視為交易點進(jìn)，這可以為具體的組織 (例如，自然語言語音服務(wù)環(huán)境的提供商)產(chǎn)生收益。基于以下附圖和詳細(xì)描述，本發(fā)明的其他目的和優(yōu)勢將顯而易見。

圖1示出了根據(jù)本發(fā)明的各個方面的在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的示例性系統(tǒng)的框圖。圖2示出了根據(jù)本發(fā)明的各個方面的用于在自然語言語音服務(wù)環(huán)境中使多模式裝置同步的示例性方法的框圖。圖3示出了根據(jù)本發(fā)明的各個方面的用于在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的示例性方法的流程圖。圖4示出了根據(jù)本發(fā)明的各個方面的用于在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互以產(chǎn)生一個或多個交易提示的示例性方法的流程圖。
具體實施例方式根據(jù)本發(fā)明的各個方面，圖1示出了用于在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的示例性系統(tǒng)100的框圖。從本文要提供的進(jìn)一步描述中將看出，圖1中示出的系統(tǒng)100可以包括一個輸入裝置105或多個輸入裝置105的組合，輸入裝置105使用戶能夠以多模式方式與系統(tǒng)100交互。具體而言，系統(tǒng)100可以包括各種自然語言處理元件，所述的各種自然語言處理元件至少包括語音點擊模塊108，其可以共同地處理用戶與一個或多個輸入裝置105的多模式交互。例如，在一個實現(xiàn)方式中，輸入裝置105可以包括至少一個語音輸入裝置105a(例如，話筒)和至少一個非語音輸入裝置105b (例如鼠標(biāo)、觸摸屏顯示器、滾輪選擇器等)的任何適當(dāng)組合。就這一點而言，輸入裝置105可以包括具有接收基于語音的輸入和基于非語音的輸入的機制的電子裝置的任意適當(dāng)組合(例如，連接到遠(yuǎn)程信息處理裝置、個人導(dǎo)航裝置、移動電話、VoIP節(jié)點、個人計算機、媒體裝置、嵌入式裝置、服務(wù)器或其他電子裝置中的一個或者多個的話筒)。就這一點而言，系統(tǒng)100可以使用戶能夠加入與一個或多個電子輸入裝置105或與和電子裝置105有關(guān)的應(yīng)用程序的多模式對話性交互中，其中系統(tǒng)100可以以適于路由任務(wù)或解析請求的自由形式和配合方式處理裝置交互。
如上所述，在一個實現(xiàn)方式中，該系統(tǒng)可以包括能夠支持自由形式語句和/或其他形式的裝置交互的各種自然語言處理元件，所述各種自然語言處理元件可以將用戶從與制定命令、查詢或其他請求的方式有關(guān)的約束中解放出來。就這一點而言，用戶可以利用對語音輸入裝置10 講話或與非語音輸入裝置10 交互中的任一方式來與輸入裝置105交互以請求系統(tǒng)100中可用的內(nèi)容或服務(wù)。例如，用戶可以通過將自然語言語句提供給語音輸入裝置10 來請求在系統(tǒng)100中可用的任何內(nèi)容或服務(wù)。在一個實現(xiàn)方式中，接著可以利用 2008 年 7 月 8 日授權(quán)的名稱為"Systems and Methods for Responding to Natural Language Speech Utterance”的第7，398，209號美國專利和2003年6月15日提交的名禾爾為"Mobile Systems and Methods for Responding to Natural Language Speech Utterance”的美國專利申請10/618,633中描述的技術(shù)處理該語句，所述的美國專利和美國專利申請公開的全部內(nèi)容通過引用并入本文。此外，用戶可以與一個或多個非語音輸入裝置10 交互以提供與該語句和/或請求的內(nèi)容或服務(wù)有關(guān)的進(jìn)一步語境或其他信息。在一個實現(xiàn)方式中，系統(tǒng)100可以連接到包括額外多模式裝置的各種其他系統(tǒng)，所述其他系統(tǒng)具有和圖1中所示的自然語言處理性能相似的自然語言處理性能。因此，系統(tǒng)100可以為多裝置環(huán)境提供一界面，在該界面中，用戶可以請求通過該環(huán)境中的各個額外裝置可得到的內(nèi)容或服務(wù)。例如，在一個實現(xiàn)方式中，系統(tǒng)100可以包括星座模型130b，該星座模型130b提供與通過該環(huán)境中的其他系統(tǒng)和裝置可以得到的內(nèi)容、服務(wù)、應(yīng)用程序、目的確定性能和其他特征有關(guān)的知識。例如，在一個實現(xiàn)方式中，系統(tǒng)100可以與該環(huán)境中的裝置、應(yīng)用程序或其他系統(tǒng)交互以合作性地解析請求，如2008年5月27日提交的名稱為"System and Method for an integrated, Multi-Modal, Multi-Device Natural Language Voice Services Environment”的共同待決的美國專利申請12/127，343中所述，該美國專利申請公開的全部內(nèi)容通過引用并入本文。例如，該多裝置環(huán)境可以在各個系統(tǒng)和裝置中共享信息以提供解析請求的合作性環(huán)境，其中，所共享的信息可以涉及比如裝置性能、背景、先前的交互、領(lǐng)域知識、短期性知識、長期性知識和認(rèn)知模型等方面。如上所述，除了別的以外，圖1中示出的系統(tǒng)100可以包括一個或多個電子輸入裝置105，所述一個或多個電子輸入裝置105共同提供用于接收來自用戶的一個或多個多模式裝置交互的界面(或界面組合)，其中裝置交互至少包括用戶口語語句。盡管圖1中示出的實現(xiàn)方式包括分立的語音輸入裝置10 和非語音輸入裝置10 ，但是顯然，在一個或多個實現(xiàn)方式中，語音輸入裝置10 和非語音輸入裝置10 可以是相同裝置或不同裝置的元件。例如，輸入裝置105可以包括連接到移動電話的話筒(S卩，語音輸入裝置10 )，且還可以包括連接到該移動電話的一個或多個按鈕、可選顯示器、滾輪選擇器或其他元件(即，非語音輸入裝置10 )。在另一示例中，輸入裝置105可以包括連接到遠(yuǎn)程信息處理裝置的話筒組合(即，語音輸入裝置105a)且還可以包括連接到媒體播放器的按鈕、觸摸屏顯示器、軌跡滾輪或其他非語音輸入裝置105b，該媒體播放器可通信地連接到該遠(yuǎn)程信息處理裝置、然而與該遠(yuǎn)程信息處理裝置分立。因此，輸入裝置105可以包括可通信地連接的電子裝置的任意適當(dāng)組合，該任意適當(dāng)組合包括用于接收自然語言語句輸入的至少一個輸入裝置和用于接收多模式非語音輸入的至少一個輸入裝置。在一個實現(xiàn)方式中，可通信地連接到一個或多個輸入裝置105的語音點擊模塊 108可以實現(xiàn)對語音輸入裝置10 和一個或多個非語音輸入裝置10 接收到的多模式裝置交互進(jìn)行配合處理。例如，語音點擊模塊108可以為系統(tǒng)100提供能夠用以鑒于通過非語音輸入裝置10 接收到的一個或多個非語音裝置交互處理通過語音輸入裝置10 接收到的自然語言語句的信息。因此，語音點擊模塊108使用戶能夠與各種輸入裝置105以直觀且自由形式的方式交互，由此，當(dāng)試圖發(fā)起行動、檢索信息或請求系統(tǒng)100中可用的內(nèi)容或服務(wù)時，用戶可以將各種類型的信息提供給系統(tǒng)100。語音輸入裝置10 可以包括具有用于接收自然語言語句或其他形式的口語輸入的性能的任何適當(dāng)?shù)难b置或裝置的組合。例如，在一個實現(xiàn)方式中，語音輸入裝置10 可以包括定向話筒、話筒陣列或能夠創(chuàng)建編碼語音的其他裝置。在一個實現(xiàn)方式中，語音輸入裝置10 可以配置成最大化編碼語音的保真度。例如，語音輸入裝置10 可以配置成最大化沿著用戶方向的增益、消除回音和零點噪聲源、執(zhí)行可變速率采樣、濾去環(huán)境噪聲或背景對話、或者使用其他技術(shù)來最大化編碼語音的保真度。就這一點而言，語音輸入裝置10 可以以容忍噪聲或可能干擾系統(tǒng)100準(zhǔn)確解釋自然語言語句的其他因素的方式創(chuàng)建編碼語首。非語音輸入裝置10 可以包括具有支持非語音裝置交互的性能的任何適當(dāng)裝置或裝置的組合。例如，在一個實現(xiàn)方式中，非語音輸入裝置10 可以包括手寫筆和觸摸屏或?qū)懽职褰缑娼M合、黑莓滾輪選擇器、iPod 點擊式轉(zhuǎn)盤、鼠標(biāo)、鍵盤、按鈕或支持可區(qū)分的非語音裝置交互的任何其他裝置。因此，用戶可以利用非語音輸入裝置10 進(jìn)行數(shù)據(jù)選擇或識別待與通過語音輸入裝置10 提供的相關(guān)自然語言語句連同處理的注意點(或關(guān)注點)。例如，用戶可以將手寫筆指向觸摸屏顯示器的特定部分、利用鼠標(biāo)突出文本、點擊按鈕、與一應(yīng)用程序交互、或加入用于選擇數(shù)據(jù)或識別注意點的任何適當(dāng)?shù)难b置交互中(即，語音激活或“語音點擊”所選擇的數(shù)據(jù)和/或識別的注意點)。而且，除了可用于進(jìn)行數(shù)據(jù)選擇、識別注意點、或激活與一個或多個語句有關(guān)的待解釋的數(shù)據(jù)，用戶還可以使用非語音輸入裝置10 來加入系統(tǒng)100中的具有意義的專用的裝置交互中。例如，專用的裝置交互(其可以被稱為“點擊”或者“語音點擊”)可以包括持續(xù)給定時間段的點擊、連續(xù)保持給定時間段的點擊、按預(yù)定順序進(jìn)行的點擊、或輸入裝置 105和/或語音點擊模塊108可以識別、檢測或以其他方式區(qū)分的任何其他交互或交互序列。在一個實現(xiàn)方式中，專用的裝置交互可以與和系統(tǒng)100中可用的應(yīng)用程序或服務(wù)有關(guān)的一個或多個動作、查詢、命令、任務(wù)或其他請求關(guān)聯(lián)。在一個實現(xiàn)方式中，專用的裝置交互還可以包括與部署在多裝置環(huán)境中的各個裝置中的任一裝置有關(guān)的一個或多個動作、查詢、命令、任務(wù)或其他請求，如以上提及的2008年5月27日提交的名稱為“System and Method for an Integrated, Multi-Modal, Multi-Device Natural Language Voice Services Environment”的共同待決的美國專利申請12/127,343中所述。例如，在顯示于觸摸屏顯示器上的具體部分或項目上用手寫筆點擊的不同順序可以被定義為用于在移動電話上發(fā)起電話呼叫、在導(dǎo)航裝置上計算路徑、為媒體播放器購買歌曲或其他類型的請求的專用裝置交互或語音點擊。因此，連接到輸入裝置105的語音點擊模塊108可以持續(xù)地監(jiān)測用戶與非語音輸入裝置10 的交互以檢測至少一個非語音裝置交互的發(fā)生，非語音裝置交互在此可以被稱為“語音點擊”。因此，檢測到的語音點擊可以提供處理多模式裝置交互的進(jìn)一步背景，該多模式裝置交互可以包括至少一個語音點擊和一個或多個自然語言語句，它們每一個都可以提供任務(wù)說明的背景。因此，語音點擊通?？梢杂眯盘柾ㄖ到y(tǒng)100當(dāng)前語句或其他基于語音的輸入要和與一個或者多個裝置105的當(dāng)前交互一起處理。例如，在一個實現(xiàn)方式中，當(dāng)前裝置交互可以包括與一個或多個裝置105關(guān)聯(lián)的用戶選擇、突出或識別具體的關(guān)注點、對象或者其他項目。就這一點而言，當(dāng)前裝置交互可以提供用于加強辨別、解釋和理解伴隨的語句的背景，而且，當(dāng)前語句可以提供用以增強由所伴隨的裝置交互提供的背景的信息。在一個實現(xiàn)方式中，語音點擊模塊108可以基于非語音輸入裝置10 的具體特性確定待檢測的各種語音點擊交互(例如，語音點擊交互可以包括非語音輸入裝置10 支持的可區(qū)分的交互)。例如，多觸摸顯示器通常包括觸摸屏顯示器裝置，該觸摸屏顯示器裝置被配置成支持與顯示在該觸摸屏顯示器裝置中的信息交互的各種可區(qū)分的手勢(例如，用戶可以利用特定的手勢或者其他交互技術(shù)放大、縮小、旋轉(zhuǎn)、或以其他方式控制顯示在多觸摸屏上的圖形信息)。因此，在一個示例中，非語音輸入裝置10 可以包括多觸摸顯示器，在該情況下，語音點擊模塊108可以被配置成在用戶加入由非語音多觸摸顯示器10 支持的一個或多個可區(qū)分的手勢時檢測語音點擊的發(fā)生。在一個實現(xiàn)方式中，用戶可以自定義或修改待由語音點擊模塊108檢測的語音點擊交互。具體地，由語音點擊模塊108檢測的特定裝置交互可以被刪除或修改，或可以添加新的裝置交互。就這一點而言，由語音點擊模塊108檢測的語音點擊裝置交互可以包括非語音輸入裝置10 和/或語音點擊模塊108可以區(qū)分的任何適當(dāng)?shù)慕换セ蚪换サ慕M合。當(dāng)語音點擊模塊108檢測到用戶加入語音點擊裝置交互中時，語音點擊模塊108 可以提取出與語音點擊裝置交互有關(guān)的背景信息以用于語音激活。具體地，語音點擊模塊 108可以識別與用戶選擇的部分、項目、注意點、關(guān)注點或者其他數(shù)據(jù)有關(guān)的信息，或者以其他方式識別與用戶加入的具體的裝置交互或裝置交互序列有關(guān)的信息。因此，語音點擊模塊108提取出所識別的與檢測到的語音點擊有關(guān)的信息，該信息可以用作與一個或者多個先前的、同時發(fā)生的或隨后的自然語言語句有關(guān)的背景信息。因此，響應(yīng)于語音點擊模塊108檢測到語音點擊(例如，選擇圖標(biāo)、一段文本、地圖顯示器上的特定坐標(biāo)或其他信息)，語音點擊模塊108可以用信號通知系統(tǒng)100利用自然語言語句語音輸入(其可通過語音輸入裝置10 接收)作為用于確定待執(zhí)行的動作、查詢、命令、任務(wù)或其他請求的進(jìn)一步背景以服務(wù)于檢測到的語音點擊。就這一點而言，系統(tǒng)100 中的各種自然語言處理元件可以使用語音點擊和伴隨的自然語言語句的組合背景來確定語音點擊裝置交互的目的并適當(dāng)?shù)貙⒁粋€或多個動作、查詢、命令、任務(wù)或其他請求路由到部署在多裝置環(huán)境中的各個裝置中的任何裝置。例如，在一個實現(xiàn)方式中，多裝置環(huán)境可以包括語音啟用導(dǎo)航裝置。因此，示例性語音點擊裝置交互可以包括用戶用手寫筆觸碰與語音啟用導(dǎo)航裝置關(guān)聯(lián)的觸摸屏顯示器 105b上顯示的特定交叉點，同時還將比如“這周圍有什么餐館？，，的語句提供到話筒105a。在該示例中，語音點擊模塊108可以提取出與語音點擊的交叉點有關(guān)的信息，該信息可以用作處理伴隨的語句的背景(即，與用戶的當(dāng)前位置或一些其他含義相對比，所選擇的交叉點可以為解釋“這周圍”提供背景)。而且，如上所述，語音輸入可以用作確定任務(wù)說明的附加背景。因此，可以利用系統(tǒng)100的各個自然語言處理元件進(jìn)一步處理所述語句以用于識別和對話解釋，這將在下文更詳細(xì)地描述。在一個實現(xiàn)方式中，自動語音識別器(ASR) 110可以產(chǎn)生通過語音輸入裝置10 接收到的語句的一個或多個初步解釋。例如，ASR 110可以利用一個或多個動態(tài)適應(yīng)識別語法識別語句的音節(jié)、單詞、短語或其他聲學(xué)特征。在一個實現(xiàn)方式中，動態(tài)識別語法可以用來利用基于一個或多個聲學(xué)模型的語音聽寫識別一連串音位(例如，如2005年8月5 日提交的名稱為"Systems and Methods for Responding to Natural Language Speech Utterance”的共同待決的美國專利申請11/197，504中所述，該美國專利申請公開的全部內(nèi)容通過引用并入本文)。在一個實現(xiàn)方式中，ASR 110可以配置成執(zhí)行多遍語音識別，其中第一語音識別引擎可以產(chǎn)生語句的初級轉(zhuǎn)錄(例如，利用大列表聽寫語法)，且隨后可以向一個或多個第二語音識別引擎請求一個或者多個次級轉(zhuǎn)錄(例如，利用具有未登錄詞的假詞的虛擬聽寫語法)。在一個實現(xiàn)方式中，第一語音識別引擎可以基于初級轉(zhuǎn)錄的可信度請求次級轉(zhuǎn)錄。ASR 110中使用的識別語法可以包括用于識別語句的各種詞匯表、詞典、音節(jié)、單詞、短語或其他信息。在一個實現(xiàn)方式中，識別語法中包括的信息可以被動態(tài)地優(yōu)化以提高準(zhǔn)確識別給定語句的可能性(例如，在不正確地解釋一單詞或短語之后，可以將該不正確解釋從語法中刪除以降低重復(fù)該不正確解釋的可能性)。另外，各種形式的知識可用來在動態(tài)的基礎(chǔ)上持續(xù)優(yōu)化識別語法中包括的信息。例如，系統(tǒng)100可以具有如下知識，包括環(huán)境知識(例如，點對點關(guān)系、該環(huán)境中的各種裝置的性能等)、歷史知識(例如，頻繁的請求、先前背景等)或與當(dāng)前對話性談話或交互有關(guān)的短期共享知識，以及其他類型的知識。在一個實現(xiàn)方式中，識別語法中的信息可以根據(jù)背景或特定應(yīng)用領(lǐng)域而進(jìn)一步優(yōu)化。具體地，相似的語句可以根據(jù)該語句所涉及的背景而被不同地解釋，所述背景包括導(dǎo)航、音樂、電影、天氣、購物、新聞、語言、時間或地理相鄰性或者其他背景或領(lǐng)域。例如，包括詞“traffic”的語句可以根據(jù)該背景與導(dǎo)航(即，路況)、音樂(即，1960年的搖滾樂隊)、還是電影(即，Soderbergh導(dǎo)演的影片)有關(guān)而面臨不同的解釋。因此，ASR 110 可以使用各種技術(shù)來產(chǎn)生自然語言語句的初步解釋，比如以上提及的共同待決的美國專利申請和/或2006年8月31日提交的名稱為“Dynamic Speech Siarpening”的共同待決的美國專利申請11/513，269中所述，該美國專利申請11/513，沈9公開的全部內(nèi)容通過引用并入本文。就這一點而言，ASR 110可以將語音點擊中包括的自然語言語句的一個或多個初步解釋提供給對話語言處理器120。對話語言處理器120可以包括各種自然語言處理元件，所述各種自然語言處理元件共同配置成模擬人與人對話或交互。例如，對話語言處理器 120可以包括目的確定引擎130a、星座模型130b、一個或多個領(lǐng)域代理130c、背景追蹤引擎 130d、錯誤識別引擎130e以及語音搜索引擎130f等。而且，對話語言處理器120可以連接到一個或多個數(shù)據(jù)知識庫160和與各種背景或領(lǐng)域有關(guān)聯(lián)的一個或多個應(yīng)用程序150。因此，系統(tǒng)100可以使用與對話語言處理器120有關(guān)聯(lián)的各種自然語言處理元件以使用戶加入合作性對話中并基于用戶發(fā)起語音點擊的目的解析語音點擊裝置交互。更具體地，目的確定引擎130a可以基于系統(tǒng)100的性能以及多裝置環(huán)境中的任何其他裝置的性能建立給定多模式裝置交互的含義。例如，參照用戶語音點擊具體交叉點以確定“這周圍有什么餐館”的以上示例，對話語言處理器120可以確定語音點擊的對話目的(例如，“什么”可以表示所述語句與請求數(shù)據(jù)檢索的查詢有關(guān))。此外，對話語言處理器120可以調(diào)用背景追蹤引擎130d以確定該語音點擊的背景。例如，為了確定語音點擊背景，背景追蹤引擎130d可以將與識別的注意點有關(guān)的背景(即，選擇的交叉點)和與所述語句有關(guān)的背景 (即餐館)組合起來。因此，語音點擊的組合背景(其包括裝置交互和伴隨的語句)可以為路由特定查詢提供充足信息。例如，該查詢可以包括與餐館和識別出的交叉點有關(guān)的各種參數(shù)或準(zhǔn)則。接著對話語言處理器120可以選擇可以向其路由該查詢以進(jìn)行處理的具體裝置、應(yīng)用程序或其他元件。例如，在一個實現(xiàn)方式中，對話語言處理器120可以評估星座模型130b，星座模型130b包括多裝置環(huán)境中的每一裝置的性能的模型。在一個實現(xiàn)方式中，星座模型 130b可以包括該環(huán)境中的每一裝置可用的處理知識和存儲資源以及每一裝置的領(lǐng)域代理、背景、性能、內(nèi)容、服務(wù)和其他信息的性質(zhì)和范圍等。就這一點而言，利用星座模型130b和/或其他信息，對話語言處理器120可以確定哪一裝置或哪些裝置的組合具有可以被調(diào)用以處理給定的語音點擊裝置交互的適當(dāng)性能。例如，再次參照以上給出的示例，對話語言處理器120可以確定語音點擊的背景涉及與導(dǎo)航裝置的交互且因此路由該查詢以利用導(dǎo)航應(yīng)用程序150進(jìn)行處理。查詢結(jié)果可以隨后被處理(例如，基于用戶的知識比如對素食餐館的偏好權(quán)衡結(jié)果)并通過輸出裝置180返給用戶。根據(jù)本發(fā)明的各個方面，圖2示出了用于在自然語言語音服務(wù)環(huán)境中同步不多模式裝置的示例性方法的框圖。如上所述，多模式裝置交互(或“語音點擊”)通?？梢园l(fā)生在以下時候用戶加入與一個或多個多模式裝置的一個或多個交互中同時提供和與多模式裝置的交互有關(guān)的一個或多個自然語言語句。在一個實現(xiàn)方式中，和與多模式裝置的交互有關(guān)的背景信息可以與和自然語言語句有關(guān)的背景信息組合以確定語音點擊的目的(例如，以發(fā)起特定的動作、查詢、命令、任務(wù)或其他請求)。在一個實現(xiàn)方式中，各種自然語言處理元件可以配置成持續(xù)收聽或以其他方式監(jiān)測多模式裝置以確定語音點擊何時發(fā)生。就這一點而言，圖2中示出的方法可以用來調(diào)整或配置負(fù)責(zé)持續(xù)收聽或監(jiān)測多模式裝置的元件。例如，在一個實現(xiàn)方式中，自然語言語音服務(wù)環(huán)境可以包括多個提供不同性能或服務(wù)的多模式裝置，且用戶可以加入一個或多個語音點擊中以請求與各個裝置中的任一裝置有關(guān)的服務(wù)或任一給定裝置交互的性能。為了能夠持續(xù)收聽多模式裝置交互或語音點擊，該環(huán)境中的多個裝置中的每一裝置可以配置成接收與語音點擊有關(guān)的信息。因此，在一個實現(xiàn)方式中，操作210可以包括為該環(huán)境中的多個裝置中的每一裝置建立裝置收聽器。另外，可以響應(yīng)于一個或多個新裝置添加到該環(huán)境中而執(zhí)行操作210。操作210中建立的裝置收聽器可以包括配置成在一個或多個處理裝置或其他硬件元件上執(zhí)行的指令、固件或其他程序的任何適當(dāng)組合。對于該環(huán)境中的每一裝置，相關(guān)的裝置收聽器可以與該裝置進(jìn)行通信以確定與該裝置有關(guān)的性能、特征、支持的領(lǐng)域或其他信息。在一個實現(xiàn)方式中，裝置收聽器可以配置成利用針對輔助計算機裝置設(shè)計的通用即插即用協(xié)議與該裝置進(jìn)行通信。然而，顯然可以使用與多模式裝置進(jìn)行通信的任何適當(dāng)機制。當(dāng)已經(jīng)為該環(huán)境中的每一裝置建立裝置收聽器時(或者當(dāng)已經(jīng)為添加到該環(huán)境中的新裝置建立裝置收聽器時)，可以在操作220中同步各個裝置收聽器。具體地，所述各個裝置中的每一裝置可能具有不同的內(nèi)部時鐘或其他計時機制，其中操作220可以包括根據(jù)裝置各自的內(nèi)部時鐘或計時機制來同步各個裝置收聽器。在一個實現(xiàn)方式中，同步裝置收聽器可以包括各個裝置收聽器中的每一個裝置收聽器公布與相關(guān)裝置的內(nèi)部時鐘或計時有關(guān)的信息。因此，當(dāng)隨后發(fā)生針對一個或多個裝置的一個或多個多模式交互或語音點擊時，在操作230中，相關(guān)裝置收聽器可以檢測與語音點擊有關(guān)的信息。例如，在一個實現(xiàn)方式中，在操作210中建立的各個裝置收聽器可以與上文描述和圖1中示出的語音點擊模塊有關(guān)。因此，操作230可以包括一個或多個裝置收聽器或語音點擊模塊檢測用戶與一個或者多個裝置交互的發(fā)生(例如，選擇與該裝置有關(guān)的數(shù)據(jù)、識別與該裝置有關(guān)的注意點或關(guān)注點、或者以其他方式加入與該裝置的一個或多個交互或交互序列中)。而且，操作240于是可以包括捕獲來自用戶的與操作230中檢測到的裝置交互有關(guān)的語句。例如，瀏覽顯示裝置上呈現(xiàn)的網(wǎng)頁的用戶可能在該網(wǎng)頁上看到產(chǎn)品名稱并且想要得到關(guān)于購買該產(chǎn)品的更多信息。該用戶可以從該網(wǎng)頁中選擇出包括該產(chǎn)品名稱的文本 (例如，使用鼠標(biāo)或鍵盤突出文本)，接著發(fā)起語音點擊以詢問“這可以在Amazon, com上買到嗎？ ”。在該示例中，操作230可以包括與該顯示裝置關(guān)聯(lián)的裝置收聽器檢測對與該產(chǎn)品名稱關(guān)聯(lián)的文本的選擇，而操作240可以包括捕獲詢問是否可在Amazon, com上買到該產(chǎn)品的語句。如上所述，接收來自用戶的輸入的每一裝置都可以具有內(nèi)部時鐘或計時機制。因此，在操作250中，每一裝置可以從本地角度來確定何時接收到該輸入并通知語音點擊模塊接收到該輸入。具體而言，除了與一個或多個其他裝置的一個或多個其他交互之外，給定的語音點擊可以至少還包括通過語音輸入裝置接收到的自然語言語句。該語句可以在裝置交互之前、與其同時或之后接收到，由此操作250包括確定裝置交互的時間以與所述相關(guān)語句關(guān)聯(lián)。具體而言，利用參照操作220描述的被同步的裝置收聽器信號，操作260可以包括使裝置交互的信號和該語句的信號對齊。在使裝置交互信號和語句信號匹配時，可以產(chǎn)生包括對齊的語音和非語音成分的語音點擊輸入。接著，語音點擊輸入可以經(jīng)受進(jìn)一步的自然語言處理，如下文詳細(xì)描述。根據(jù)本發(fā)明的各個方面，圖3示出了用于在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的示例性方法的流程圖。如上所述，多模式裝置交互(或“語音點擊”)通?？梢栽谝韵聲r候發(fā)生用戶與一個或多個多模式裝置交互，同時還提供與所述裝置交互有關(guān)的一個或多個自然語言語句。就這一點而言，在一個實現(xiàn)方式中，圖3中示出的方法可以在以下時候執(zhí)行一個或多個自然語言處理元件持續(xù)收聽或以其他方式監(jiān)測一個或多個多模式裝置以確定一個或多個語音點擊何時發(fā)生。在一個實現(xiàn)方式中，一個或多個裝置交互可以被限定為發(fā)起語音點擊。例如，任一給定的電子裝置通常可以支持各種不同的交互，所述各種不同的交互可以引起執(zhí)行給定的動作、命令、查詢或其他請求。因此，在一個實現(xiàn)方式中，給定的電子裝置可以唯一識別或者使用以產(chǎn)生可唯一識別信號的裝置交互的任何適當(dāng)組合可以被定義為語音點擊，其中該語音點擊可以提供這樣的信號該信號指示自然語言語句要和與相關(guān)裝置交互關(guān)聯(lián)的背景一起被處理。例如，具有四通導(dǎo)航鍵或五通導(dǎo)航鍵的裝置可以支持特定不同的交互，其中以特定方式按導(dǎo)航鍵可以引起執(zhí)行特定任務(wù)或其他動作，比如控制地圖顯示或計算路徑。在另一示例中，具有滾輪選擇器的BlackBerry 裝置可以支持多種交互，比如在具體的注意點或關(guān)注點上滾動光標(biāo)、按壓滾輪以選擇特定數(shù)據(jù)或給定的應(yīng)用程序、或者各種其他交互。各種其他裝置交互可以用來指示自然語言語句何時與和所述裝置交互有關(guān)的背景一起處理，但不限于此，其中在任一給定的實現(xiàn)方式中，具體的裝置交互可以變化。例如，相關(guān)裝置交互還可以包括下列中的一個或多個利用定向儀器或繪圖儀器在觸摸感應(yīng)顯示屏上用動作示意(例如，繪制耳狀波形曲線)，比如長觸摸或者雙擊的獨特交互方法，和/或如果系統(tǒng)在以上所述的持續(xù)收聽模式下工作，則預(yù)定義的背景命令字可以表示當(dāng)前裝置背景要和跟在該背景命令字之后的一部分基于語音的輸入一起處理(例如，命令字為“可以(OK) ”、“請”、 “計算機”或其他適當(dāng)?shù)淖?，其中用戶可以在地圖上選擇特定的點并說“請放大”，或者當(dāng)顯示電子郵件時說“可以讀取”，等)。就這一點而言，操作310可以包括在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互以檢測表示發(fā)起語音點擊的一個或者多個裝置交互的發(fā)生。具體地，操作310中檢測到的裝置交互可以包括引起電子裝置產(chǎn)生唯一的、可識別的或其他可區(qū)分的信號的任何適當(dāng)交互，該可區(qū)分的信號涉及用戶選擇數(shù)據(jù)、識別注意點或關(guān)注點、調(diào)用應(yīng)用程序或任務(wù)、或者根據(jù)裝置的特定性能以另一方式和該裝置交互。除了裝置響應(yīng)于用戶交互而產(chǎn)生的特定信號外，操作310中檢測到的交互可以表示發(fā)起語音點擊，由此先前的、同時發(fā)生的或隨后的自然語言語音輸入可提供用于解釋操作310中檢測到的裝置交互的進(jìn)一步背景。例如，自然語言處理系統(tǒng)通?？梢耘渲贸稍诰唧w的裝置交互發(fā)生(例如，按按鈕以打開話筒)時接受語音輸入。因此，在圖3中示出的方法中，表示進(jìn)入的語音輸入的裝置交互還可以包括與電子裝置的任何適當(dāng)?shù)慕换セ蚪换ソM合，包括與用戶選擇數(shù)據(jù)、識別注意點或關(guān)注點、調(diào)用應(yīng)用程序或任務(wù)、或根據(jù)裝置的特定性能以另一方式與該裝置進(jìn)行交互有關(guān)的交互。就這一點而言，當(dāng)操作310中已檢測到語音點擊裝置交互時，可以在操作320中產(chǎn)生語音點擊信號以表示自然語言語音輸入應(yīng)當(dāng)與操作320中檢測到的交互關(guān)聯(lián)。隨后，操作330可以包括捕獲要和操作310中檢測到的交互關(guān)聯(lián)的用戶語句。在一個實現(xiàn)方式中，操作310中檢測到的交互可以表示隨后將提供語音輸入，但是顯然，在一個或多個實現(xiàn)方式中，操作330中捕獲的語句可以在操作310中檢測到的交互之前或與其同時提供(例如，用戶可以提供比如“在iTimes, 上查找此藝術(shù)家”的語句并隨后在媒體播放器上語音點擊該藝術(shù)家的名字，或者該用戶可以在語音點擊該藝術(shù)家的名字的同時提供此語句，或者該用戶可以語音點擊該藝術(shù)家的名字且接著提供該語句)。當(dāng)已接收到與語音點擊裝置交互有關(guān)的信息和相關(guān)自然語言語句時，操作340可以包括提取并組合裝置交互的背景信息和相關(guān)語句的背景信息。具體而言，從語音點擊裝置交互中提取出的背景信息可以包括與用戶選擇的部分、項目、注意點、關(guān)注點或數(shù)據(jù)、或者用戶加入的具體的裝置交互或裝置交互序列有關(guān)的信息。提取出的裝置交互的背景接著可以與針對在操作330中捕獲的自然語言語句提取出的背景組合，其中在操作350中，組合的背景信息可以用來確定語音點擊的目的。例如，在示例性語音點擊裝置交互中，用戶可以選擇性地將來自媒體播放器的音樂合集拷貝到備份存儲裝置。當(dāng)在媒體播放器上瀏覽音樂時，用戶可能遇到具體的歌曲并語音點擊該歌曲，同時說“拷貝此整個唱片集”(例如，在突出該歌曲的同時通過長時間按該媒體播放器上的具體的按鍵)。在該示例中，操作310可以包括檢測長時間的按鈕按下的交互，該長時間的按鈕按下引起操作320中產(chǎn)生語音點擊信號。接著，可以在操作330中捕獲語句“拷貝此整個唱片集”，并且與該語音點擊裝置交互有關(guān)的背景信息和所述語句的背景信息可以在操作340中組合。具體地，裝置交互的背景可以包括與所選擇的歌曲有關(guān)的信息等(例如，該背景還可以包括與該歌曲有關(guān)的元數(shù)據(jù)中包括的信息，比如音樂文件的ID3 標(biāo)記)。此外，所述語句的背景可以包括識別拷貝操作和包括所選歌曲的唱片集的信息。就這一點而言，與和多模式裝置的語音點擊交互有關(guān)的背景信息可以和與自然語言語句有關(guān)的背景信息組合，由此操作350可以確定語音點擊交互的目的。例如，參照以上示例，操作350中確定的目的可以包括將包括來自媒體播放器的突出顯示的歌曲的唱片集拷貝到備份存儲裝置上的目的。因此，響應(yīng)于操作350中確定語音點擊的目的，在操作360 中可以適當(dāng)?shù)芈酚梢粋€或多個請求。在本文討論的示例中，操作360可以包括將一個或多個請求路由到該媒體播放器，以識別與包括該突出顯示的歌曲的唱片集有關(guān)的所有數(shù)據(jù)，以及將一個或多個請求路由到能夠管理將所識別的數(shù)據(jù)從媒體播放器拷貝到備份存儲裝置的裝置的任何適當(dāng)組合(例如，與媒體播放器和存儲裝置連接的個人計算機)。根據(jù)本發(fā)明的各個方面，圖4示出了用于在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互以產(chǎn)生交易提示或“點進(jìn)”的示例性方法的流程圖。具體而言，圖4中示出的方法可以用于結(jié)合響應(yīng)于檢測到的一個或多個語音點擊裝置交互而執(zhí)行的一個或多個動作來產(chǎn)生交易提示或點進(jìn)。例如，操作410可以包括檢測從用戶接收到的一個或多個語音點擊裝置交互，其中所述語音點擊裝置交互可以包括與一個或多個相關(guān)自然語言語句結(jié)合的一個或多個裝置交互的任一適當(dāng)組合。接著可以在操作420中確定用戶加入語音點擊裝置交互的目的，且隨后的操作430可以包括基于確定的目的將一個或多個請求路由到一個或多個處理裝置以解析語音點擊交互。在一個實現(xiàn)方式中，可以與以上參照圖2和圖3所述的方式相似的方式執(zhí)行操作410、420和430，由此用于裝置交互的信號可以與用于一個或多個自然語言語句的信號對齊，且可以從所述信號中提取出背景信息以確定語音點擊裝置交互的目的。除了基于用戶目的來路由一個或多個請求外，圖4中示出的方法還可包括產(chǎn)生一個或多個交易提示，所述交易提示可以導(dǎo)致一個或多個點進(jìn)。例如，點進(jìn)通?？梢灾赣脩酎c擊或選擇電子廣告以訪問與刊登廣告的人有關(guān)的一個或多個服務(wù)的示例。在很多電子系統(tǒng)中，點進(jìn)或點進(jìn)率可以提供用于測量用戶與電子廣告交互的機制，該機制可以提供各種測量，刊登廣告的人可以使用所述各種測量以確定要付給將廣告提供給用戶的組織的金額。就這一點而言，圖4中示出的方法可以產(chǎn)生包括廣告或推薦的交易提示，由此用戶的與特定的裝置交互組合的基于語音的輸入可以提供用于產(chǎn)生交易提示的進(jìn)一步的注意點。以此方式，提供給用戶的廣告或推薦可以與用戶可能與其交互的特定信息更相關(guān)。而且，利用自然語言認(rèn)知模型與用戶的偏好有關(guān)的共享知識可以為對特定用戶量身訂制的目標(biāo)交易提示提供進(jìn)一步的背景，因此這可以更有可能導(dǎo)致能夠產(chǎn)生向語音服務(wù)提供商支付費用的點進(jìn)。因此，除了基于用戶加入語音點擊裝置交互的目的而路由一個或多個請求之外，操作440還可包括基于確定的目的產(chǎn)生一個或多個交易提示。具體而言，基于裝置交互和相關(guān)自然語言語句的組合背景，可以以“更接近”用戶的方式處理交易提示，其中本地語音背景和非語音背景可用作執(zhí)行目標(biāo)廣告的任一適當(dāng)系統(tǒng)中的狀態(tài)數(shù)據(jù)。例如，參照以上給出的用戶選擇導(dǎo)航裝置上顯示的交叉點并同時說“找到這周圍的餐館”的示例，操作440中產(chǎn)生的交易提示可以包括交叉點附近的餐館的一個或多個廣告或推薦，所述廣告和推薦可以基于用戶的短期偏好和長期偏好(例如，偏好的餐館類型、偏好的價格范圍等)的知識而面向用戶。接著，所述交易提示可以呈現(xiàn)給用戶(例如，作為地圖顯示上的可選點)。接著可以在操作450中監(jiān)測用戶的隨后的多模式裝置交互以確定一個或多個其他多模式裝置交互是否發(fā)生或何時發(fā)生。如果未發(fā)生其他交互，則可以確定用戶未按照交易提示行動，則該過程可以結(jié)束。然而，如果發(fā)生附加的多模式交互，則可以在操作480中處理該多模式輸入以確定輸入的目的并相應(yīng)地路由一個或多個請求。此外，操作460可以包括確定所述多模式輸入是否與操作440中產(chǎn)生的交易提示有關(guān)。例如，用戶可以通過提供語句、非語音裝置交互或請求與所述交易提示有關(guān)的進(jìn)一步動作或信息的語音點擊裝置交互來選擇做廣告的或推薦的餐館中的一個餐館。在這樣的情況下，操作470還可以包括處理與操作440中產(chǎn)生的交易提示有關(guān)的交易點進(jìn)，其中所述交易點進(jìn)可以用來為具體組織(例如，語音服務(wù)的提供商或與所述交易提示或交易點進(jìn)有關(guān)的另一組織)確定支付費用或產(chǎn)生收益。本發(fā)明的實現(xiàn)方式可以在硬件、固件、軟件或它們的各種組合中進(jìn)行。本發(fā)明還可作為存儲在機器可讀介質(zhì)上的指令實現(xiàn)，所述指令可以由一個或多個處理器讀取并執(zhí)行。機器可讀介質(zhì)可以包括用來存儲或發(fā)送機器(例如計算裝置)可讀形式的信息的各種機構(gòu)。例如，機器可讀存儲介質(zhì)可以包括只讀存儲器、隨機存取存儲器、磁盤存儲媒介、光學(xué)存儲媒介、閃存裝置或其他存儲媒介，機器可讀傳輸媒介可以包括多種形式的傳播信號，比如載波、紅外線信號、數(shù)字信號或其他傳輸媒介。而且，可以在以上公開內(nèi)容中就本發(fā)明的具體示例方面和實現(xiàn)方式以及執(zhí)行某些動作這些方面來描述固件、軟件、程序或指令。然而，顯然，這些描述僅是為了方便，且這些動作實際上由執(zhí)行所述固件、軟件、程序或指令的計算裝置、處理器、控制器或其他裝置產(chǎn)生。盡管本文提供的描述主要集中在用于在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的技術(shù)，但是顯然，各種其他自然語言處理性能可以用于結(jié)合、附加于或代替與本文討論的具體方面和實現(xiàn)方式關(guān)聯(lián)描述的自然語言處理性能。例如，除了以上提及的共同待決的美國專利申請描述的技術(shù)外，本文描述的系統(tǒng)和方法還可利用2005年8月5日提交的名禾爾為“Systems and Methods for Responding to Natural Language Speech Utterance，，的共同待決的美國專利申請11/197，504、2005年8月10日提交的名稱為“System mid Method of Supporting Adaptive Misrecognition in Conversational Speech，，的美國專利申請11/200，164、2005年8月四日提交的名稱為“Mobile Systems and Methods of Supporting Natural Language Human-Machine Interactions，，的美國專利申請 11/212，693、2006 年 10 月 16 日提交的名稱為 “System and Method for a Cooperative Conversational Voice User Interface”的美國專利申請 11/580，926、2007 年 2 月 6 日提交的名禾爾為“System and Method for Selecting and Presenting Advertisements based on Natural Language Processing of Voice-Based Input，，的美國專利申請 11/671，526 以及 2007 年 12 月 11 日提交的名稱為 “System and Method for Providing a Natural Language Voice User Interface in an Integrated Voice Navigation ServicesEnvironment”的美國專利申請11/954，064中描述的自然語言處理性能，所述美國專利申請公開的全部內(nèi)容通過弓I用并入本文。因此，本發(fā)明的方面和實現(xiàn)方式可以在本文中描述為包括具體的特征、結(jié)構(gòu)或性質(zhì)，但將明顯的是，每一方面或?qū)崿F(xiàn)方式可以或者可以不一定包括具體的特征、結(jié)構(gòu)或性質(zhì)。此外，當(dāng)具體的特征、結(jié)構(gòu)或者性質(zhì)已結(jié)合一給定的方面或?qū)崿F(xiàn)方式予以描述時，應(yīng)當(dāng)理解，無論是否明確描述，這樣的特征、結(jié)構(gòu)或性質(zhì)也可以包括在其他的方面或?qū)崿F(xiàn)方式中。因此，可以對以上描述進(jìn)行各種改變或修改，而不脫離本發(fā)明的精神或范圍，因此，本說明書和附圖應(yīng)當(dāng)僅看作示例性的，本發(fā)明的范圍僅由所附權(quán)利要求確定。
權(quán)利要求
1.一種用于在包括一個或多個電子裝置的自然語言語音服務(wù)環(huán)境中處理一個或多個多模式裝置交互的方法，所述方法包括檢測至少一個多模式裝置交互，其中所述多模式裝置交互包括與所述電子裝置中的至少一個或與和所述電子裝置中的至少一個有關(guān)的應(yīng)用程序進(jìn)行的非語音交互，且其中所述多模式裝置交互還包括與所述非語音交互有關(guān)的至少一個自然語言語句；提取與所述多模式裝置交互有關(guān)的背景信息，其中所提取的背景信息包括與所述非語音交互有關(guān)的背景，以及其中所提取的背景信息還包括與所述自然語言語句有關(guān)的背景；組合與所述非語音交互有關(guān)的背景和與所述自然語言語句有關(guān)的背景；基于與所述非語音交互和所述自然語言語句有關(guān)的組合的背景，確定所述多模式裝置交互的目的；以及基于所確定的所述多模式裝置交互的目的，將至少一個請求路由到所述電子裝置中的一個或多個。
2.如權(quán)利要求1所述的方法，其中所述電子裝置中的至少一個包括配置成接收所述自然語言語句的輸入裝置。
3.如權(quán)利要求2所述的方法，所述方法還包括響應(yīng)于檢測到的所述非語音交互，用信號通知所述輸入裝置捕獲自然語言語句。
4.如權(quán)利要求3所述的方法，所述方法還包括在所述自然語言語音服務(wù)環(huán)境中建立一個或多個裝置收聽器，所述裝置收聽器被配置成檢測所述非語音交互；以及使與由所述裝置收聽器檢測到的所述非語音交互有關(guān)的信息以及與由所述輸入裝置捕獲的所述自然語言語句有關(guān)的信息對齊。
5.如權(quán)利要求1所述的方法，所述方法還包括基于所確定的多模式裝置交互的目的，產(chǎn)生至少一個交易提示；接收與產(chǎn)生的所述交易提示有關(guān)的至少一個附加多模式裝置交互；以及響應(yīng)于接收與所產(chǎn)生的交易提示有關(guān)的多模式裝置交互，處理交易點進(jìn)。
6.如權(quán)利要求5所述的方法，其中產(chǎn)生的所述交易提示包括與所確定的所述多模式裝置交互的目的有關(guān)的廣告或推薦中的至少一個。
7.如權(quán)利要求1所述的方法，其中所述非語音交互包括選擇與所述電子裝置中的一個或多個有關(guān)的部分、項目、數(shù)據(jù)或應(yīng)用程序。
8.如權(quán)利要求1所述的方法，其中所述非語音交互包括識別與所述電子裝置中的一個或多個有關(guān)的注意點或關(guān)注點。
9.如權(quán)利要求1所述的方法，其中所述非語音交互包括與所述電子裝置中的一個或多個有關(guān)的一個或多個唯一且可區(qū)分的交互。
10.一種用于在包括一個或多個電子裝置的自然語言語音服務(wù)環(huán)境中處理一個或多個多模式裝置交互的系統(tǒng)，其中所述系統(tǒng)包括一個或多個處理裝置，所述一個或多個處理裝置配置成檢測至少一個多模式裝置交互，其中所述多模式裝置交互包括與所述電子裝置中的至少一個或與和所述電子裝置中的至少一個有關(guān)的應(yīng)用程序進(jìn)行的非語音交互，且其中所述多模式裝置交互還包括與所述非語音交互有關(guān)的至少一個自然語言語句；提取與所述多模式裝置交互有關(guān)的背景信息，其中所提取的背景信息包括與所述非語音交互有關(guān)的背景，且其中所提取的背景信息還包括與所述自然語言語句有關(guān)的背景；組合與所述非語音交互有關(guān)的背景和與所述自然語言語句有關(guān)的背景；基于與所述非語音交互和所述自然語言語句有關(guān)的組合的背景，確定所述多模式裝置交互的目的；以及基于所確定的所述多模式裝置交互的目的，將至少一個請求路由到所述電子裝置中的一個或多個。
11.如權(quán)利要求10所述的系統(tǒng)，其中所述電子裝置中的至少一個包括配置成接收所述自然語言語句的輸入裝置。
12.如權(quán)利要求11所述的系統(tǒng)，其中所述處理裝置還配置成響應(yīng)于正在被檢測的所述非語音交互，用信號通知所述輸入裝置捕獲自然語言語句。
13.如權(quán)利要求12所述的系統(tǒng)，其中所述處理裝置還配置成在所述自然語言語音服務(wù)環(huán)境中建立一個或多個裝置收聽器，所述裝置收聽器被配置成檢測所述非語音交互；以及使與由所述裝置收聽器檢測到的所述非語音交互有關(guān)的信息以及與由所述輸入裝置捕獲的自然語言語句有關(guān)的信息對齊。
14.如權(quán)利要求10所述的系統(tǒng)，其中所述處理裝置還配置成基于所確定的多模式裝置交互的目的，產(chǎn)生至少一個交易提示；接收與所產(chǎn)生的所述交易提示有關(guān)的至少一個附加多模式裝置交互；以及響應(yīng)于接收與所產(chǎn)生的交易提示有關(guān)的多模式裝置交互，處理交易點進(jìn)。
15.如權(quán)利要求14所述的系統(tǒng)，其中所產(chǎn)生的所述交易提示包括與所確定的所述多模式裝置交互的目的有關(guān)的廣告或推薦中的至少一個。
16.如權(quán)利要求10所述的系統(tǒng)，其中所述非語音交互包括選擇與所述電子裝置中的一個或多個有關(guān)的部分、項目、數(shù)據(jù)或應(yīng)用程序。
17.如權(quán)利要求10所述的系統(tǒng)，其中所述非語音交互包括識別與所述電子裝置中的一個或多個有關(guān)的注意點或關(guān)注點。
18.如權(quán)利要求10所述的系統(tǒng)，其中所述非語音交互包括與所述電子裝置中的一個或多個有關(guān)的一個或多個唯一且可區(qū)分的交互。
全文摘要
本發(fā)明可以提供在自然語言語音服務(wù)環(huán)境中處理多模式裝置交互的系統(tǒng)和方法。具體地，可以在包括一個或多個電子裝置的自然語言語音服務(wù)環(huán)境中接收一個或多個多模式裝置交互。所述多模式裝置交互可以包括與至少一個所述電子裝置或與和所述電子裝置有關(guān)的應(yīng)用程序進(jìn)行的非語音交互，且還可包括與所述非語音交互有關(guān)的自然語言語句。與所述非語音交互有關(guān)的背景和與所述自然語言語句有關(guān)的背景可以被提取并組合以確定所述多模式裝置交互的目的，并且可以基于確定的所述多模式裝置交互的目的來將請求路由到一個或多個所述電子裝置。
文檔編號G10L15/00GK102439659SQ201080017511
公開日2012年5月2日申請日期2010年2月22日優(yōu)先權(quán)日2009年2月20日
發(fā)明者L·貝爾德文, 克里斯·魏德申請人:聲鈺科技

完整全部詳細(xì)技術(shù)資料下載