用于語音系統(tǒng)的調(diào)節(jié)方法和系統(tǒng)的制作方法

文檔序號：2826594閱讀：302來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于語音系統(tǒng)的調(diào)節(jié)方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及用于語音系統(tǒng)的調(diào)節(jié)方法和系統(tǒng)。提供了用于調(diào)節(jié)語音系統(tǒng)的方法和系統(tǒng)。在一個例子中，一種方法包括：記錄來自語音系統(tǒng)的語音數(shù)據(jù)；從語音數(shù)據(jù)中檢測用戶特征；以及基于用戶特征選擇性地更新語言模型。
【專利說明】用于語音系統(tǒng)的調(diào)節(jié)方法和系統(tǒng)
相關(guān)申請的交叉引用
[0001]本申請要求2012年11月13日提交的美國臨時申請N0.61 / 725，802的權(quán)利，其全部內(nèi)容通過引用被結(jié)合在此。
【技術(shù)領(lǐng)域】
[0002]本【技術(shù)領(lǐng)域】一般涉及語音系統(tǒng)，并且特別的涉及一種方法和系統(tǒng)，基于從用戶交互和/或例如車輛的一個或多個系統(tǒng)確定的數(shù)據(jù)調(diào)整語音系統(tǒng)的組件。
【背景技術(shù)】
[0003]車輛語音系統(tǒng)對車輛的乘客發(fā)出的話語執(zhí)行語音識別。所述話語通常包括控制車輛的一個或多個特征或其他可由車輛訪問的系統(tǒng)的命令。所述語音系統(tǒng)利用通用的識別技術(shù)使得車輛上任何乘客發(fā)出的話語都能夠被識別。語音對話系統(tǒng)基于這些命令管理與車輛的用戶之間的對話。該對話典型地對所有用戶通用。
[0004]因此，需要提供一種系統(tǒng)和方法，根據(jù)車輛的乘客和/或車輛和/或乘客的上下文情境對車輛語音系統(tǒng)進(jìn)行調(diào)節(jié)。進(jìn)一步，從隨后的詳細(xì)描述和所附的權(quán)利要求，并結(jié)合相應(yīng)的附圖和前述的【技術(shù)領(lǐng)域】和【背景技術(shù)】，本發(fā)明的其他所需特征和特性將更顯而易見。

【發(fā)明內(nèi)容】

[0005]提供了一種用于調(diào)節(jié)語音系統(tǒng)的方法和系統(tǒng)。在一個例子中，一種方法包括:從語音系統(tǒng)記錄語音數(shù)據(jù)；從語音數(shù)據(jù)中檢測用戶特征；并且基于用戶特征選擇性地更新語言模型。
本發(fā)明提供以下技術(shù)方案:
1、一種調(diào)節(jié)語音系統(tǒng)的方法，包括:
記錄來自語音系統(tǒng)的語音數(shù)據(jù)；
從所述語音數(shù)據(jù)中檢測用戶特征；以及基于所述用戶特征選擇性地更新語言模型。
2、如技術(shù)方案I所述的方法，其中所述語音數(shù)據(jù)包括用戶在與語音系統(tǒng)交互時發(fā)出的口頭命令以及該口頭命令的運行性能。
3、如技術(shù)方案I所述的方法，其中更新語言模型包括基于所述用戶特征產(chǎn)生新的語言模型。
4、如技術(shù)方案I所述的方法，其中更新語言模型包括將與所述用戶特征相關(guān)的語言模型與至少一個其他語言模型進(jìn)行組合。
5、如技術(shù)方案I所述的方法，其中檢測用戶特征包括當(dāng)對自動系統(tǒng)說出命令時，檢測特定于用戶行為的用戶特征。
6、如技術(shù)方案5所述的方法，其中選擇性地更新語言模型包括將與檢測到的用戶特征相關(guān)的模型和與一般用戶特征相關(guān)的模型進(jìn)行組合。 7、如技術(shù)方案I所述的方法，其中檢測用戶特征包括使用一個或多個檢測器檢測用戶特征，所述檢測器將所述語音數(shù)據(jù)映射到一個或多個與至少一個用戶特征相關(guān)的分類中。
8、如技術(shù)方案I所述的方法，其中檢測用戶特征包括從所述語音數(shù)據(jù)中檢測冗長、信息分布和區(qū)域分布中的至少一個。
9、如技術(shù)方案I所述的方法，其中檢測用戶特征包括從所述語音數(shù)據(jù)中檢測禮貌和禮節(jié)水平中的至少一個。
10、如技術(shù)方案I所述的方法，其中檢測用戶特征包括從語音數(shù)據(jù)中檢測年齡、方言和性別中的至少一個。
11、如技術(shù)方案I所述的方法，進(jìn)一步包括:
追蹤用戶特征的頻率，并且
其中當(dāng)所述頻率到達(dá)特定頻率時，進(jìn)行所述選擇性地更新。
12、一種調(diào)節(jié)語音系統(tǒng)的系統(tǒng)，包括:
第一模塊，其記錄來自所述語音系統(tǒng)的語音數(shù)據(jù)；
第二模塊，其從所述語音數(shù)據(jù)中檢測用戶特征；和第三模塊，其基于所述用戶特征選擇性地更新語言模型。
13、如技術(shù)方案12所述的系統(tǒng)，其中所述語音數(shù)據(jù)包括用戶在與所述語音系統(tǒng)交互時發(fā)出的口頭命令以及該口頭命令的運行性能。
14、如技術(shù)方案12所述的系統(tǒng)，其中第三模塊通過基于所述用戶特征產(chǎn)生新的語言模型來更新所述語言模型。
15、如技術(shù)方案12所述的系統(tǒng)，其中第三模塊通過將與所述用戶特征相關(guān)的語言模型與至少一個其他語言模型進(jìn)行組合來更新所述語言模型。
16、如技術(shù)方案12所述的系統(tǒng)，其中第二模塊使用一個或多個檢測器來檢測所述用戶特征，所述檢測器將所述語音數(shù)據(jù)映射到一個或多個與至少一個用戶特征相關(guān)的分類中。
17、如技術(shù)方案12所述的系統(tǒng)，其中第二模塊從所述語音數(shù)據(jù)中檢測冗長、信息分布和區(qū)域分布中的至少一個。
I 8、如技術(shù)方案12所述的系統(tǒng)，其中第二模塊從所述語音數(shù)據(jù)中檢測禮貌和禮節(jié)水平中的至少一個。
I 9、如技術(shù)方案I 2所述的系統(tǒng)，其中第二模塊從所述語音數(shù)據(jù)中檢測年齡、方言和性別中的至少一個。
20、如技術(shù)方案12所述的系統(tǒng)，其中第二模塊追蹤所述用戶特征的頻率，并且其中當(dāng)所述頻率到達(dá)特定頻率值時，第三模塊選擇性地更新所述語言模型。
[0006]在另一個例子中，一種系統(tǒng)包括第一模塊，其從語音系統(tǒng)中記錄語音數(shù)據(jù)。第二模塊從語音數(shù)據(jù)中檢測用戶特征。第三模塊基于用戶特征選擇性地更新語言模型。
【專利附圖】

【附圖說明】
[0007]接下來將結(jié)合附圖描述本發(fā)明的示例性實施例，附圖中相同的數(shù)字代表了相同的元件，且其中:
[0008]圖1為車輛的功能性框圖，其包括根據(jù)多種示例性實施例的語音系統(tǒng)；
[0009]圖2至6為數(shù)據(jù)流圖，其示出了根據(jù)多種示例性實施例的語音系統(tǒng)的調(diào)節(jié)模塊；和[0010]圖7至10為序列圖，示出了可以被根據(jù)多種示例性實施例的語音系統(tǒng)所執(zhí)行的調(diào)節(jié)方法。
【具體實施方式】
[0011]接下來的詳細(xì)描述本質(zhì)上僅僅是示例性的，并不用于限制本發(fā)明的應(yīng)用和使用。進(jìn)一步，不需要限制于前述【技術(shù)領(lǐng)域】、【背景技術(shù)】、
【發(fā)明內(nèi)容】
或者下面的詳細(xì)描述中任何明示或暗示的原理。如在此所用，術(shù)語模塊指的是執(zhí)行一個或多個軟件或固件程序的特定用途集成電路(ASIC)，電子電路、處理器(共有、專用或集合)和存儲器，組合邏輯電路，和/或其它可以提供所述功能的合適組件。
[0012]首先參照圖1，根據(jù)本公開的示例性實施例，示出了將包括于車輛12內(nèi)的語音系統(tǒng)10。語音系統(tǒng)10通過人機接口模塊(HMI) 14為一個或多個車輛系統(tǒng)提供語音識別和對話功能。這樣的車輛系統(tǒng)可以包括，例如但不限于，電話系統(tǒng)16、導(dǎo)航系統(tǒng)18、媒體系統(tǒng)20，遠(yuǎn)程信息處理系統(tǒng)22，網(wǎng)絡(luò)系統(tǒng)24，或其他任何可包括語音相關(guān)應(yīng)用程序的車輛系統(tǒng)。應(yīng)當(dāng)認(rèn)識到，語音系統(tǒng)10的一個或多個實施例可以應(yīng)用于其他帶有語音相關(guān)應(yīng)用程序的非車輛系統(tǒng)，因此，并不限于當(dāng)前的車輛例子。為了例示的目的，在車輛示例的環(huán)境下描述語音系統(tǒng)10。
[0013]語音系統(tǒng)10通過HMI模塊14和通信總線和/或其他通信裝置28 (例如，有線、短程無線或遠(yuǎn)程無線)與多個車輛系統(tǒng)16-24和/或其他車輛系統(tǒng)26進(jìn)行通信。所述通信總線可以是，例如但不限于，CAN總線。
[0014]一般來說，語音系統(tǒng)10包括調(diào)節(jié)模塊30，自動語音識別(ASR)模塊32，和對話管理模塊34。應(yīng)當(dāng)理解，如所示，ASR模塊32和對話管理模塊34可以被設(shè)置成單獨的系統(tǒng)和/或組合系統(tǒng)，如所示。進(jìn)一步應(yīng)當(dāng)理解，語音系統(tǒng)10的模塊可以全部設(shè)置在車輛12上，或者部分在車輛12上、部分在遠(yuǎn)程系統(tǒng)，例如遠(yuǎn)程服務(wù)器(未示出)上。
[0015]ASR模塊32接收和處理來自HMI模塊14的話語。部分從話語中識別出的命令(例如，基于置信閾值)被發(fā)送給對話管理模塊34。所述對話管理模塊34基于所述命令管理交互序列和提示。調(diào)節(jié)模塊30記錄來自車輛乘客(例如，通過HMI模塊14)產(chǎn)生的各種語音數(shù)據(jù)和交互數(shù)據(jù)，記錄來自各種車輛系統(tǒng)16-24的數(shù)據(jù)，和/或記錄來自各種其他車輛系統(tǒng)26 (例如，不包括語音應(yīng)用程序的車輛系統(tǒng))的數(shù)據(jù)。調(diào)節(jié)模塊30對記錄的數(shù)據(jù)執(zhí)行一種或多種學(xué)習(xí)算法，并基于該學(xué)習(xí)算法調(diào)節(jié)語音系統(tǒng)10的一個或多個部件。在不同實施例中，調(diào)節(jié)模塊30調(diào)節(jié)語音系統(tǒng)10中的ASR模塊32所使用的語言模型。在多種其他實施例中，調(diào)節(jié)模塊30調(diào)節(jié)語音系統(tǒng)10的對話管理模塊34所使用的提示和交互序列。
[0016]如圖所示，調(diào)節(jié)模塊30包括在語音系統(tǒng)10中。應(yīng)當(dāng)理解，在可替換的實施例中，調(diào)節(jié)模塊30可以被實施，例如，在HMI模塊14中或作為與語音系統(tǒng)10通信的獨立的應(yīng)用程序。因此，本公開并不限于當(dāng)前的例子。
[0017]現(xiàn)在參照圖2，數(shù)據(jù)流圖示出了根據(jù)各種實施例的調(diào)節(jié)模塊30。應(yīng)當(dāng)理解，根據(jù)本公開，調(diào)節(jié)模塊30的不同實施例可以包括任意數(shù)量的子模塊。例如，圖2中所示的子模塊可以被組合和/或進(jìn)一步分割以類似地調(diào)節(jié)語音系統(tǒng)10(圖1)的多個部分。
[0018]在各種示例性實施例中，調(diào)節(jié)模塊30包括數(shù)據(jù)記錄模塊36，數(shù)據(jù)分析模塊38，系統(tǒng)更新模塊40，記錄數(shù)據(jù)數(shù)據(jù)庫42，和系統(tǒng)數(shù)據(jù)數(shù)據(jù)庫44。數(shù)據(jù)庫42、44可以臨時或永久地存儲系統(tǒng)10的數(shù)據(jù)。
[0019]數(shù)據(jù)加載模塊36將來自車輛12的各個源(例如，車輛系統(tǒng)16-24和/或其他車輛系統(tǒng)26)的數(shù)據(jù)記載在記載數(shù)據(jù)數(shù)據(jù)庫42。所述數(shù)據(jù)可以包括，例如但不限于，車輛數(shù)據(jù)46，車輛情境數(shù)據(jù)48，語音系統(tǒng)數(shù)據(jù)50，和用戶交互數(shù)據(jù)52。車輛數(shù)據(jù)46可以包括，例如，速度數(shù)據(jù)，環(huán)境噪聲水平數(shù)據(jù)，乘客數(shù)據(jù)(例如，在車輛12中檢測出有多個乘客)，車輛系統(tǒng)數(shù)據(jù)(例如，啟動了多個車輛系統(tǒng))等。車輛情境數(shù)據(jù)48可以包括，例如，車輛位置數(shù)據(jù)，道路類型數(shù)據(jù)，天氣數(shù)據(jù)，交通數(shù)據(jù)等。語音系統(tǒng)數(shù)據(jù)50可以包括，例如，口頭命令數(shù)據(jù)(例如，與車輛12的乘客口頭發(fā)出的命令有關(guān)的數(shù)據(jù))，和運行性能數(shù)據(jù)(例如，與口頭命令的識別運行性能有關(guān)的數(shù)據(jù))。用戶交互數(shù)據(jù)52可以包括，例如，交互序列數(shù)據(jù)，用戶請求的頻率數(shù)據(jù)，和來自其他HMI形式的數(shù)據(jù),例如觸摸屏手勢交互數(shù)據(jù)或顯示數(shù)據(jù)。
[0020]數(shù)據(jù)分析模塊38從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索記錄數(shù)據(jù)并對記錄數(shù)據(jù)進(jìn)行分析以確定是否要調(diào)整語音系統(tǒng)10所用的一個或多個語言模型，是否要調(diào)整語音系統(tǒng)10給出的提示信息，和/或是否要調(diào)整語音系統(tǒng)10提供的交互序列或?qū)υ?。如果確定需要對一個或多個語言模型、提示信息、和交互序列進(jìn)行調(diào)整，將生成建議的更新作為更新后的語言模型54、或作為更新后的用戶配置文件56，其包括了更新后的提示信息和/或更新后的交互序列。
[0021]系統(tǒng)更新模塊40接收更新后的語言模型54和更新后的用戶配置文件56作為輸入。系統(tǒng)更新模塊40基于所接收的輸入存儲或更新來自系統(tǒng)數(shù)據(jù)數(shù)據(jù)庫44的語言模型，提示信息，和/或交互序列。例如，如果接收到了更新后的語言模型54，則更新后的語言模型54可以與原始模型進(jìn)行組合以形成更加強健的語言模型，例如，對于較短的歷史分配(單字母)使用較小的語言模型(即更新后的語言模型54)，而對于調(diào)整后的較高歷史分配(三字母)使用更多細(xì)節(jié)的語言模型(即已存儲的語言模型)。在另一個例子中，用戶配置文件56包括可以被存儲為特定用戶所使用的提示和/或交互序列。
[0022]參照圖3-6，數(shù)據(jù)流圖示出了圖2中根據(jù)多種實施例的數(shù)據(jù)分析模塊38。應(yīng)當(dāng)理解，根據(jù)本公開，數(shù)據(jù)分析模塊38的多種實施例可以包括任意數(shù)量的子模塊。例如，圖3-6中所示的子模塊可以被組合和/或進(jìn)一步劃分以類似地分析記錄的數(shù)據(jù)并調(diào)整語音系統(tǒng)10的多個部分。數(shù)據(jù)分析模塊38的輸入可以是從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索獲得的和/或直接從HMI模塊14和/或一個或多個車輛系統(tǒng)16-26接收得到的。在多種實施例中，數(shù)據(jù)分析模塊38包括用戶特征調(diào)節(jié)模塊62、用戶權(quán)限調(diào)節(jié)模塊64、情境數(shù)據(jù)調(diào)節(jié)模塊66，和/或系統(tǒng)模型調(diào)節(jié)模塊68。應(yīng)當(dāng)理解，數(shù)據(jù)分析模塊38可只包括所示模塊中的一個，或可包括所示模塊的任意組合，且其不限于當(dāng)前的例子。
[0023]用戶特征調(diào)節(jié)模塊62從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索已記錄的數(shù)據(jù)。在多種實施例中，已記錄的數(shù)據(jù)包括用戶發(fā)出的口頭命令70，和口頭命令70的運行性能72。用戶特征調(diào)節(jié)模塊62分析命令70的各種特征。所述特征可以包括，例如但不限于，冗長，相關(guān)講話，信息分布，用戶人口統(tǒng)計，交流的音調(diào)(例如，禮貌用語)，年齡和性別。在多種實施例中，用戶特征調(diào)節(jié)模塊62追蹤命令70與特定特征相關(guān)的頻率。一旦命令70以一定的頻率與特定特征相關(guān)，用戶特征調(diào)節(jié)模塊62基于命令70的特征確定語言模型74或通過基于特征組合若于語言模型(帶或不帶權(quán)重)生成新的語言模型74。
[0024]在多種實施例中，如圖4所示，用戶特征調(diào)節(jié)模塊62包括一個或多個特征檢測模塊IOOa-1OOn以及語言模型選擇和合并模塊102。每個特征檢測模塊100對命令70進(jìn)行分析以得到一個或多個特征105a-105n。在多種示例性實施例中，特征檢測模塊IOOa-1OOn基于特定命令70是否與特定的特征相關(guān)和/或是否落入特定特征的特定范圍，輸出一個或多個特征105a-105n。語言模型選擇和合并模塊102基于所檢測的特征105a_105n確定語言模型74。在多種實施例中，語言模型選擇和合并模塊102從預(yù)存儲的模型中或模型的加權(quán)組合中確定合適的語言模型74。
[0025]在多種實施例中，特征檢測模塊IOOa-1OOn可以是冗長檢測模塊，禮貌用語檢測模塊，信息分布檢測模塊，區(qū)域分布檢測模塊，禮節(jié)等級檢測模塊，年齡檢測模塊，方言檢測模塊，和/或性別檢測模塊。冗長檢測模塊，例如，分析命令70并估計話語中修飾詞和非功能性詞的比例，并將其與已知的冗長分布進(jìn)行比較。禮貌用語檢測模塊，例如，分析命令70并提取所有的禮貌等級指示詞。然后使用不同指示詞之間的加權(quán)量和關(guān)系來檢測禮貌等級。信息分布檢測模塊，例如，分析命令70以檢測所需信息片斷(也稱為槽信息)的位置和數(shù)量?；谠撔畔?，信息分布檢測模塊可以檢測出趨于將該信息作為單獨話語提供的用戶和逐漸這么做的用戶。
[0026]區(qū)域分布檢測模塊，例如，分析命令70并基于與用戶歷史行為的比較來檢測區(qū)域。禮節(jié)等級檢測模塊，例如，分析命令70并提取出詞匯量。每個禮節(jié)等級的詞匯量是在其中進(jìn)行檢測的空間的基礎(chǔ)?？梢酝ㄟ^使用標(biāo)準(zhǔn)化距離測量來確定等級。年齡檢測模塊，例如，分析命令的話語并使用混合高斯模型(GMM)將話語與各年齡或年齡組的參考模型進(jìn)行比較。
[0027]方言檢測模塊，例如，分析命令70并提取聲學(xué)特征。使用，例如，錨模型技術(shù)，產(chǎn)生簽名并測量距離。性別檢測模塊，例如，分析命令70，提取聲學(xué)特征并估計各性別的GMM分布。通過將GMM變換成超級向量(SV)，可以估計距離并進(jìn)行判決。應(yīng)當(dāng)理解，各檢測模塊IOOa-1OOn也可以使用其他方法和技術(shù)。因此，本公開并不限于當(dāng)前的例子。
[0028]重新參照圖3，用戶權(quán)限調(diào)節(jié)模塊64從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索已記錄的數(shù)據(jù)。在多種實施例中，已記錄的數(shù)據(jù)包括用戶發(fā)出的口頭命令76和口頭命令76的運行性能78。用戶權(quán)限調(diào)節(jié)模塊64基于命令76的運行性能78分析命令76。在多種實施例中，運行性能78可以一般地包括任務(wù)成功完成和用戶和/或系統(tǒng)的反復(fù)錯誤的參數(shù)和測量結(jié)果。例如，所述參數(shù)和測量結(jié)果可以是關(guān)于，但不限于，任務(wù)完成率和時間，暫停事件，響應(yīng)時間，確認(rèn)和解疑周期，幫助請求和脫離了有效且成功的交互序列的所有事件。
[0029]用戶權(quán)限調(diào)節(jié)模塊64分析命令76以確定模式。用戶權(quán)限調(diào)節(jié)模塊64基于所確定的模式為提示80提供建議的調(diào)整和/或為交互序列82提供調(diào)整。所建議的調(diào)整可以作為用戶配置文件56的一部分被提供(圖2)。例如，用戶配置文件56中的提示80可以被更新，以在識別出用戶或語音系統(tǒng)的重復(fù)錯誤后，包含更多的幫助和和更窄的回答空間；并且在確定了用戶或系統(tǒng)學(xué)習(xí)了最優(yōu)交互行為后，用戶配置文件56中的提示80可以被恢復(fù)成原始提示。在各種實施例中，用戶配置文件56中的交互序列82可以被調(diào)節(jié)以為識別的重復(fù)用戶錯誤提供更大程度的系統(tǒng)主導(dǎo)，并且當(dāng)確定用戶學(xué)習(xí)了交互模式后，交互序列82可以被調(diào)節(jié)以允許更大程度的用戶主導(dǎo)。這種基于用戶權(quán)限提示對用戶設(shè)置進(jìn)行的調(diào)節(jié)提高了用戶權(quán)限，并建立了具有更高任務(wù)完成率的交互模式。
[0030]例如，一個用戶可能非常熟悉語音系統(tǒng)，通常頻繁地通過他的移動電話來啟動應(yīng)用程序。因此他慣用的方式是使用一次性話語(one shot utterance)來表達(dá)他的要求,而很少需要稍后在后來的對話中增加信息。在用戶權(quán)限調(diào)節(jié)模塊64觀察到了這一點并學(xué)習(xí)了這種模式后，它可以決定使用最少的提示以保持對話有效并使得任務(wù)完成時間短。
[0031]在另一個例子中，相同的用戶可能更喜歡執(zhí)行搜索請求，例如查找餐館(例如，興趣點(Ρ0Ι搜索))?；谒囊苿与娫捊?jīng)驗，他可能形成了一種習(xí)慣，搜索大的搜索列表并在顯示器上繼續(xù)進(jìn)行交互，徹底瀏覽選項并進(jìn)行選擇。由于駕駛情況顯示將會顯著地減少搜索內(nèi)容，他可能會對如何通過語音進(jìn)行選擇感到困惑。在用戶權(quán)限調(diào)節(jié)模塊64觀察到了這一點并學(xué)習(xí)了這種模式后，它可以逐步地并在這個特定對話環(huán)境中使用幫助性提示來引導(dǎo)該用戶，使得隨后用戶理解了如何對選項進(jìn)行查找。
[0032]仍然在另一個例子中，另一個用戶可能對語音不熟悉。他了解到了在駕駛時使用語音的好處并開始通過語音提出請求，以給他聯(lián)系人列表中的聯(lián)系人打電話或調(diào)諧無線電臺。該用戶發(fā)音非常慢且響亮，使得系統(tǒng)難以識別大部分請求。這導(dǎo)致在確認(rèn)周期中出現(xiàn)了錯誤識別的聯(lián)系人或無線電臺。用戶變得急躁并且其在這些錯誤恢復(fù)周期中的回答變得含糊。用戶權(quán)限調(diào)節(jié)模塊64觀察到了暫停事件，長響應(yīng)時間或確認(rèn)周期中冗長的用戶話語，并通過添加潛在的答案、有益的提示或?qū)⑻崾咀優(yōu)榫_的是/否答案來引導(dǎo)用戶處理這種情況。
[0033]在多種示例性實施例中，如圖5所示，用戶權(quán)限調(diào)節(jié)模塊64包括一個或多個模式檢測模塊104a-104n，一個或多個設(shè)置計算模塊106，和一個或多個用戶配置文件調(diào)節(jié)模塊108。一個或多個模式檢測模塊104a-104n分析數(shù)據(jù)以識別特定的模式107a_107n。一個或多個設(shè)置計算模塊106基于所檢測的模式107a-107n確定設(shè)置109。一個或多個用戶配置文件調(diào)節(jié)模塊108基于設(shè)置109為用戶配置文件56 (圖1)提供系統(tǒng)提示80和/或交互序列82。
[0034]模式檢測模塊104a_104n識別與下列相關(guān)的模式107a_107n，例如，任務(wù)完成率和時間、暫停事件、用戶響應(yīng)時間、距離有效的規(guī)范話語的用戶偏離度(例如，含糊、停頓、冗長等)，導(dǎo)致確認(rèn)周期的低系統(tǒng)置信度，導(dǎo)致解疑周期的含糊用戶話語，幫助請求和所有偏離有效和成功的交互序列的事件。當(dāng)模式檢測模塊104a識別出了與任務(wù)完成率和時間相關(guān)的模式，當(dāng)所述任務(wù)完成率低于特定閾值時，設(shè)置計算模塊106產(chǎn)生設(shè)置109，其將系統(tǒng)提示變?yōu)樾畔⒏S富的系統(tǒng)提示。在各種實施例中，當(dāng)模式檢測模塊104a識別出了與暫停事件、用戶響應(yīng)時間或距離有效的規(guī)范話語的用戶偏離度相關(guān)的模式時，設(shè)置計算模塊106檢查與當(dāng)前對話步驟的關(guān)系，如果該對話步驟在同一步驟循環(huán)，則設(shè)置計算模塊106產(chǎn)生設(shè)置109以將提示信息和交互序列變?yōu)楦〉牟襟E，其帶有有限的系統(tǒng)問題使得用戶輕松地了解如何給出答案(例如，因為可能的回答空間是狹窄的)。
[0035]當(dāng)模式檢測模塊104a識別到與導(dǎo)致確認(rèn)周期的低系統(tǒng)置信度相關(guān)的模式時，設(shè)置計算模塊106產(chǎn)生設(shè)置109以將提示信息變?yōu)樾畔⒏S富的系統(tǒng)提示，以使得用戶知道如何回答。當(dāng)模式檢測模塊104a識別到與導(dǎo)致解疑周期的含糊用戶話語相關(guān)的模式時，設(shè)置計算模塊106產(chǎn)生設(shè)置109以將提示信息變?yōu)橄到y(tǒng)提示信息，其告訴用戶如何在答案中包含足夠的信息以使得其答案不含糊。在各種實施例中，當(dāng)模式檢測模塊104a識別到與幫助請求相關(guān)的模式時，設(shè)置計算模塊106產(chǎn)生設(shè)置109以將系統(tǒng)提示信息變?yōu)樾畔⒏S富的提示。這種模式檢測可以通過收集與系統(tǒng)的識別混淆相關(guān)的用戶數(shù)據(jù)來完成，例如通過用戶拒絕或修正確認(rèn)或解疑請求來檢測。在這種情況下，數(shù)據(jù)被存儲在混淆矩陣中，其顯示隨著時間的循環(huán)混淆。
[0036]對于上述列出的所有被識別的模式，一旦模式檢測模塊104a_104n確定了用戶的行為已經(jīng)變得更加高效和/或易于識別，設(shè)置計算模塊106產(chǎn)生設(shè)置109將語音系統(tǒng)提示信息和/或交互序列恢復(fù)為原始設(shè)置，假設(shè)用戶已經(jīng)獲得了系統(tǒng)的使用經(jīng)驗。
[0037]重新參照圖3，情境數(shù)據(jù)調(diào)節(jié)模塊66從記錄數(shù)據(jù)數(shù)據(jù)庫42檢索已記錄的數(shù)據(jù)。在各種實施例中，已記錄的數(shù)據(jù)包括車輛數(shù)據(jù)84，車輛情境數(shù)據(jù)86，和語音系統(tǒng)數(shù)據(jù)88。車輛數(shù)據(jù)84可以包括但不限于，車輛速度數(shù)據(jù)，或其他任何可從通信總線28上獲得的數(shù)據(jù)。車輛情境數(shù)據(jù)86可以包括但不限于，當(dāng)前駕駛位置和時間，道路類型，交通信息，天氣，環(huán)境噪聲水平，乘客數(shù)量，已連接的用戶設(shè)備的數(shù)量，任何已啟動的因特網(wǎng)或其他HMI應(yīng)用程序，任何已啟動的車輛系統(tǒng)(即氣候控制，主動巡航控制，燈光，傳動裝置，風(fēng)檔刮水器等)，或其他任何可從通信總線上獲得或直接從車輛系統(tǒng)16-26獲得的數(shù)據(jù)。語音系統(tǒng)數(shù)據(jù)88可以包括但不限于，用戶發(fā)出的語音，語音運行性能，和/或由語音系統(tǒng)10識別的其他語音特性。
[0038]情境數(shù)據(jù)調(diào)節(jié)模塊66分析所記錄的數(shù)據(jù)并在其中用戶正在使用系統(tǒng)的情境與在使用語音系統(tǒng)10時用戶的交互行為之間檢測重復(fù)的模式。情境數(shù)據(jù)調(diào)節(jié)模塊66基于所述模式為用戶任務(wù)偏好90、自然語g命令偏好92,和/或交互序列偏好94提供更新。在各種實施例中，所建議的調(diào)節(jié)作為用戶配置文件56(圖2)的一部分被提供。
[0039]例如，交通數(shù)據(jù)提供了關(guān)于駕駛員正在行駛的路徑上的交通堵塞的信息。此外來自CAN總線的速度數(shù)據(jù)支持駕駛員正處于交通堵塞中，并且安全系統(tǒng)(座椅安全帶設(shè)置)顯示他是獨自在車中。通過評估已記錄的數(shù)據(jù)，模式檢測模塊IlOa檢測出用戶此時打了很多電話或口述郵件，SMS，或更新了他的日歷。用戶配置文件56(圖2)被更新以識別這樣的時刻并在這些情況下為這些類型的請求提供識別優(yōu)勢和并以更高的精確度執(zhí)行。
[0040]在另一個例子中，駕駛員周末與其他人一起駕駛。最初的導(dǎo)航請求提出了一條距離興趣點(POI)較遠(yuǎn)的路徑，這是游客經(jīng)常訪問的路徑。此外，駕駛員連接了他的iPOD并請求聽特定的歌。通過評估已記錄的數(shù)據(jù)，模式檢測模塊IlOa檢測出在這樣的情況下用戶請求了 POI和前往POI路上的語音導(dǎo)覽，并且要求聽iPOD中某些他喜歡的歌或POI的語音導(dǎo)覽。用戶配置文件56(圖2)被更新以識別這樣的時刻并在這些情況下為這些類型的請求提供識別優(yōu)勢和以更高的精確度執(zhí)行。
[0041]在各種示例性實施例中，如圖6所示，情境數(shù)據(jù)調(diào)節(jié)模塊66可以包括一個或多個模式檢測模塊IlOa-1lOn,—個或多個設(shè)置計算模塊112，和一個或多個用戶配置文件調(diào)節(jié)模塊114。模式檢測模塊IlOa-1lOn分析特定模式115a_115n的數(shù)據(jù)。模式檢測模塊IlOa-1lOn,例如,檢測與用戶請求或請求類型相關(guān)的情境簇(contextual cluster)。設(shè)置計算模塊112基于所檢測的模式115a-115n確定用戶配置文件設(shè)置117。用戶配置文件調(diào)節(jié)模塊114基于設(shè)置117提供用戶配置文件56 (圖2)中用到的用戶任務(wù)偏好90，自然語言命令偏好92，和/或交互序列偏好94。
[0042]在各種實施例中，模式檢測模塊IlOa-1lOn通過確定用戶行為中的增長和通過確定用戶行為增長中的情境模式來確定模式。用戶行為可以有各種類型并與執(zhí)行特定任務(wù)類型、使用特定的詞匯/語言，發(fā)生重復(fù)錯誤或在其話語中偏好的特定信息分布(例如，在不止一個的話語中提供遞增的信息對在一個話語中給出完成任務(wù)所需的所有信息，等等)的頻率相關(guān)。一旦檢測出模式115a-115n，設(shè)置計算模塊112和用戶配置文件調(diào)節(jié)模塊114根據(jù)在情境中識別出的用戶行為提供設(shè)置117和用戶配置文件56(圖2)，例如，根據(jù)任務(wù)偏好、詞匯偏好、提示信息偏好、和/或交互序列。
[0043]重新參照圖3，系統(tǒng)模型調(diào)節(jié)模塊68從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索已記錄的數(shù)據(jù)。在各種實施例中，已記錄的數(shù)據(jù)包括用戶說出的口頭命令96。在各種實施例中，命令96可以從記錄數(shù)據(jù)數(shù)據(jù)庫42 (如圖所示)中檢索得到，或可選地從HMI模塊14 (圖1)隨著用戶說出命令而實時接收。系統(tǒng)模型調(diào)節(jié)模塊68對命令96進(jìn)行評估并確定用于識別該命令的最優(yōu)模型。例如，系統(tǒng)模型調(diào)節(jié)模塊68根據(jù)至少三個語音模型對命令進(jìn)行評估并使得語音話語的命令與三個模型中的一個相關(guān)聯(lián)。系統(tǒng)模型調(diào)節(jié)模塊68追蹤命令96與特定模型相關(guān)聯(lián)的頻率。一旦命令96以一定的頻率與特定的模型相關(guān)聯(lián)，則該模型98被選中使用命令99進(jìn)行更新，通過將命令99添加至模型或從模型中去除命令99。附加地或可選地，與命令99的觀察頻數(shù)相匹配或與命令99內(nèi)的詞、短語或詞到詞的轉(zhuǎn)變的觀察頻數(shù)相匹配的權(quán)重或概率可能與命令99相關(guān)聯(lián)，所述模型可以使用該權(quán)重或概率進(jìn)行更新。
[0044]每個所用的模型都可以在下列方面中提供優(yōu)勢:所支持的短語的數(shù)量、短語的深度、處理的等待時間、識別的精確度和處理時間。所選的模型組合可以在上述列出的至少兩者中提供優(yōu)勢。例如，在各種實施例中，第一語言模型是固定模型，其包括了可識別命令的固定列表，被稱為固定列表模型116 (圖10)。固定列表模型116具有改善的等待時間、提高的精確度和改善的處理時間的優(yōu)點，且其可以被認(rèn)為是較佳的模型。這樣的模型可以包括但不限于有限狀態(tài)語法(FSG)。第二語言模型具有更大范圍的短語識別，被稱為更寬范圍模型118(圖7)。更寬范圍模型118識別出更寬范圍的命令，然而等待時間更長且精確度下降。這樣的模型可以包括但不限于統(tǒng)計語言模型(SLM)。第三語言模型是兩種模型之間的組合，其可以對兩種語言模型的結(jié)果進(jìn)行仲裁，被稱為仲裁模型120(圖10)。這樣的模型可以包括但不限于，結(jié)構(gòu)方程模型(SEM)。應(yīng)當(dāng)理解，由系統(tǒng)模型調(diào)節(jié)模塊68所執(zhí)行的模型可以是任何語言模型，而不限于當(dāng)前的例子。
[0045]應(yīng)當(dāng)理解，所述數(shù)據(jù)分析模塊38可以包括調(diào)節(jié)模塊或上述調(diào)節(jié)模塊的任意組合。在其中設(shè)置了多個調(diào)節(jié)模塊的情況下，一調(diào)節(jié)模塊的輸出可以依賴于其他的調(diào)節(jié)模塊與/或可以通過系統(tǒng)更新模塊40 (圖2)以某種方式進(jìn)行組合。通過以這種方式對命令進(jìn)行追蹤，并使命令從次優(yōu)選模型轉(zhuǎn)移至更優(yōu)選的模型，可以在不犧牲系統(tǒng)靈活性的情況下利用更優(yōu)選模型。因此，對命令的識別將隨著時間而有所改進(jìn)，明顯地減少重復(fù)請求或確認(rèn)周期。
[0046]現(xiàn)在參照圖7-10，并繼續(xù)參照圖1-6，序列圖示出了調(diào)節(jié)方法，其可以由根據(jù)各種示例性實施例的語音系統(tǒng)10所執(zhí)行。應(yīng)當(dāng)理解，在本公開的啟示下，所述方法中操作的順序并不限于圖7-10中的順序執(zhí)行，而是可以根據(jù)應(yīng)用和本公開按照一種或多種不同的順序執(zhí)行。應(yīng)當(dāng)進(jìn)一步理解，可以添加或去除本發(fā)明中的一個或多個步驟，而不改變本發(fā)明的精神。
[0047]參照圖7，序列圖示出了一個示例性的序列，其可以被執(zhí)行以根據(jù)用戶特征對語音系統(tǒng)10進(jìn)行調(diào)節(jié)。如圖所示，在步驟200，從例如HMI模塊14(或通信總線28)接收命令、任意的情境信息和其運行性能，并在步驟202由數(shù)據(jù)記錄模塊36進(jìn)行記錄。所記錄的數(shù)據(jù)在步驟210從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索出并在步驟220通過一個或多個特征檢測模塊IOOa-1OOn進(jìn)行評估。然后在步驟230，語言模型選擇和合并模塊102對識別出的特征105a-105n進(jìn)行評估以確定該特征的發(fā)生是否具有特定的頻率(例如，X次數(shù)，其中X是大于I的可配置數(shù)量)和置信度。如果特征的發(fā)生具有特定的頻率，則在步驟240，與特征相關(guān)的語言模型74被選中并提供給系統(tǒng)更新模塊40用于更新。在步驟250，系統(tǒng)更新模塊40接收語言模型74，并在步驟260，使用語言模型74 (例如，通過組合兩個模型，或以其他方式)對當(dāng)前的語言模型進(jìn)行更新。
[0048]參照圖8，序列圖示出了一個示例性序列，其可以被執(zhí)行以基于用戶權(quán)限來調(diào)節(jié)語音系統(tǒng)10。如圖所示，在步驟310，從例如HMI模塊14接收命令和運行性能數(shù)據(jù)，并且在步驟312由數(shù)據(jù)記錄模塊36記錄該命令和運行性能數(shù)據(jù)。所記錄的數(shù)據(jù)在步驟320從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索得到。在步驟330，模式檢測模塊104a-104n對記錄的數(shù)據(jù)進(jìn)行評估并編譯與用戶權(quán)限相關(guān)的重復(fù)模式107a-107n。在步驟340，模式107a_107n被發(fā)送至設(shè)置計算模塊106。在步驟350，基于行為107a-107n，設(shè)置計算模塊106為整個交互策略(例如，提示信息的通用冗長等級)和/或特定的對話情境(例如，特定情境中的確認(rèn))計算推薦的系統(tǒng)交互設(shè)置109。在步驟360，用戶系統(tǒng)交互設(shè)置109被發(fā)送至用戶配置文件調(diào)節(jié)模塊108。在步驟370，用戶配置文件調(diào)節(jié)模塊108調(diào)節(jié)用戶配置文件的設(shè)置。步驟380，用戶配置文件被發(fā)送至系統(tǒng)更新模塊40。在步驟390，系統(tǒng)更新模塊40使用更新后的用戶配置文件更新系統(tǒng)設(shè)置。
[0049]參照圖9，序列圖示出了一個示例性的序列，其可以被執(zhí)行以基于情境數(shù)據(jù)對語音系統(tǒng)10進(jìn)行調(diào)節(jié)。如圖所示，在步驟410，接收車輛數(shù)據(jù)84、情境數(shù)據(jù)86、和語音系統(tǒng)數(shù)據(jù)88，并在步驟412通過數(shù)據(jù)記錄模塊36來記錄這些數(shù)據(jù)。在步驟420，從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索記錄的數(shù)據(jù)。在步驟430，模式檢測模塊IlOa-1lOn對記錄的數(shù)據(jù)進(jìn)行評估并編譯與下述相關(guān)的重復(fù)模式115a-115n:來自其他HMI模塊14 (例如，導(dǎo)航系統(tǒng)、簇堆、因特網(wǎng)信息)或車輛的記錄系統(tǒng)(CAN總線)的數(shù)據(jù)，情境數(shù)據(jù)，例如當(dāng)前行駛位置和時間、道路類型、交通、天氣、行駛速度、環(huán)境噪聲水平、乘客數(shù)量、已連接的用戶設(shè)備、已啟動的因特網(wǎng)或其他HMI應(yīng)用程序、已啟動的車輛系統(tǒng)，例如氣候控制、主動巡航控制，燈光，傳動裝置，風(fēng)檔刮水器等。
[0050]在步驟440，模式115a-115n被發(fā)送至設(shè)置計算模塊112。在步驟450，基于模式115a-115n，設(shè)置計算模塊112為整個交互策略(例如，提示信息的通用冗長等級)和/或特定的對話情境(例如，特定情境中的確認(rèn))確定推薦的系統(tǒng)交互設(shè)置117。在步驟460，用戶系統(tǒng)交互設(shè)置被發(fā)送至用戶配置文件調(diào)節(jié)模塊114。在步驟470，用戶配置文件調(diào)節(jié)模塊114調(diào)節(jié)用戶配置文件的設(shè)置。在步驟480，用戶配置文件被發(fā)送至系統(tǒng)更新模塊40。在步驟490，系統(tǒng)更新模塊40使用更新的用戶配置文件更新系統(tǒng)設(shè)置。
[0051]參照圖10，序列圖示出了示例性的序列，其可以被執(zhí)行以基于已更新的系統(tǒng)模型更新語音系統(tǒng)10。如圖所示，在步驟510，從例如HMI模塊14接收命令，并在步驟512，通過記錄加載模塊36記錄該命令。在步驟520，從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索所述命令?？蛇x的，在步驟530從HMI模塊14直接接收命令96。系統(tǒng)模型調(diào)節(jié)模塊68對命令96進(jìn)行處理以確定命令的最優(yōu)語言模型。例如，在步驟540，通過固定列表模型116對命令96進(jìn)行處理并在步驟550將其發(fā)送至仲裁模型120。同時或隨后不久，在步驟555從記錄數(shù)據(jù)數(shù)據(jù)庫42中檢索命令96并在步驟560由更寬范圍模型118對命令進(jìn)行處理?？蛇x的，在步驟557直接從HMI模塊14接收命令96，并在步驟560使用更寬范圍模型118對命令96進(jìn)行處理。
[0052]在步驟570，更寬范圍模型118的結(jié)果被發(fā)送至仲裁模型120。在步驟580，通過仲裁模型120對固定列表模型116和更寬范圍模型118的結(jié)果進(jìn)行處理。在步驟590，對仲裁模型的結(jié)果進(jìn)行評估，以確定該結(jié)果是否以特定的頻率(例如，X次數(shù)，其中X是大于I的可配置數(shù)量)發(fā)生。在步驟600，如果仲裁模型的結(jié)果是以特定的頻率發(fā)生的，則將該結(jié)果和模型提供給系統(tǒng)更新模塊40以進(jìn)行更新。在步驟610，系統(tǒng)更新模塊接收所述結(jié)果和模型并使用該結(jié)果對系統(tǒng)模型進(jìn)行更新。
[0053]盡管在前述的詳細(xì)描述中已經(jīng)公開了至少一個示例性實施例，應(yīng)當(dāng)理解存在大量的變形。還應(yīng)當(dāng)理解這些示例性實施例只是例子，且不用于在任何方面限制本發(fā)明的范圍、應(yīng)用或配置。相反，前述的詳細(xì)描述將為本領(lǐng)域技術(shù)人員提供實現(xiàn)該示例性實施例的便捷途徑。應(yīng)當(dāng)理解可以在不脫離本發(fā)明范圍的情況下對功能和元件的設(shè)置進(jìn)行多種變形，如所附的權(quán)利要求及其法律等同中所闡明。
【權(quán)利要求】
1.一種調(diào)節(jié)語音系統(tǒng)的方法，包括: 記錄來自語音系統(tǒng)的語音數(shù)據(jù)；從所述語音數(shù)據(jù)中檢測用戶特征；以及基于所述用戶特征選擇性地更新語言模型。
2.如權(quán)利要求1所述的方法，其中所述語音數(shù)據(jù)包括用戶在與語音系統(tǒng)交互時發(fā)出的口頭命令以及該口頭命令的運行性能。
3.如權(quán)利要求1所述的方法，其中更新語言模型包括基于所述用戶特征產(chǎn)生新的語言模型。
4.如權(quán)利要求1所述的方法，其中更新語言模型包括將與所述用戶特征相關(guān)的語言模型與至少一個其他語言模型進(jìn)行組合。
5.如權(quán)利要求1所述的方法，其中檢測用戶特征包括當(dāng)對自動系統(tǒng)說出命令時，檢測特定于用戶行為的用戶特征。
6.如權(quán)利要求5所述的方法，其中選擇性地更新語言模型包括將與檢測到的用戶特征相關(guān)的模型和與一般用戶特征相關(guān)的模型進(jìn)行組合。
7.如權(quán)利要求1所述的方法，其中檢測用戶特征包括使用一個或多個檢測器檢測用戶特征，所述檢測器將所述語音數(shù)據(jù)映射到一個或多個與至少一個用戶特征相關(guān)的分類中。
8.如權(quán)利要求1所述的方法，其中檢測用戶特征包括從所述語音數(shù)據(jù)中檢測冗長、信息分布和區(qū)域分布中的至少一個。
9.如權(quán)利要求1所述的方法，其中檢測用戶特征包括從所述語音數(shù)據(jù)中檢測禮貌和禮節(jié)水平中的至少一個。
10.一種調(diào)節(jié)語音系統(tǒng)的系統(tǒng)，包括: 第一模塊，其記錄來自所述語音系統(tǒng)的語音數(shù)據(jù)；第二模塊，其從所述語音數(shù)據(jù)中檢測用戶特征；和第三模塊，其基于所述用戶特征選擇性地更新語言模型。
【文檔編號】G10L15/06GK103810995SQ201310757116
【公開日】2014年5月21日申請日期:2013年11月13日優(yōu)先權(quán)日:2012年11月13日
【發(fā)明者】R·M·赫奇特, T·J·格羅斯特, R·D·辛斯三世, U·溫特申請人:通用汽車環(huán)球科技運作有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載