使用說話者檢驗(yàn)的背景語音辨識(shí)助理的制作方法
【專利摘要】在一個(gè)實(shí)施例中,一種方法包含在語音辨識(shí)器處接收聲輸入信號(hào)?;谒雎曒斎胄盘?hào)而識(shí)別正在說話的用戶。接著,所述方法確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息且基于所述所辨識(shí)聲輸入信號(hào)及針對(duì)所述用戶的所述說話者特定信息而確定一組響應(yīng)。確定是否應(yīng)輸出所述響應(yīng),且如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
【專利說明】使用說話者檢驗(yàn)的背景語音辨識(shí)助理
[0001]相關(guān)申請(qǐng)案的交叉參考
[0002]本申請(qǐng)案主張2011年12月16日提出申請(qǐng)的針對(duì)“使用說話者檢驗(yàn)的背景語音辨識(shí)助理(Background Speech Recognition Assistant Using Speaker Verification) ”的第13/329,017號(hào)美國專利申請(qǐng)案的優(yōu)先權(quán),所述美國專利申請(qǐng)案主張2011年9月27日提出申請(qǐng)的針對(duì)“背景語音辨識(shí)助理(Background Speech Recognition Assistant) ”的第13/246,666號(hào)美國專利申請(qǐng)案的優(yōu)先權(quán),所述美國專利申請(qǐng)案的內(nèi)容以全文引用的方式并入本文中。
【背景技術(shù)】
[0003]特定實(shí)施例一般來說涉及語音辨識(shí)。
[0004]語音辨識(shí)試圖經(jīng)由口頭查詢及命令而使信息存取較容易且較簡單。這些查詢歷史上通過裝置(例如智能電話)上的按鈕按下而激活。使用口頭查詢?cè)试S用戶在不鍵入查詢的情況下做出查詢。此在用戶忙碌時(shí)(例如在用戶開車或僅不想鍵入查詢時(shí))使信息存取較容易。在接收到按鈕按下之后,語音辨識(shí)器傾聽查詢并試圖適當(dāng)?shù)刈鞒鲰憫?yīng)。即使使用按鈕按下較容易,但有時(shí)對(duì)于用戶來說,使用戶按下按鈕來激活語音辨識(shí)器是不方便的。舉例來說,用戶可能忙于其它活動(dòng),在此情況下,使用其手來執(zhí)行按鈕按下可是不可能的,例如用戶可能正在開車。
[0005]其它方法用使用激活詞來激活語音辨識(shí)器的免提方法來代替按鈕按下。舉例來說,使用觸發(fā)短語來激活語音辨識(shí)器,所述語音辨識(shí)器可在接收到觸發(fā)短語之后接著解讀查詢并提供適當(dāng)響應(yīng)。然而,用戶必須總是觸發(fā)語音辨識(shí)器。另外,從用戶觸發(fā)辨識(shí)器起,用戶通常不容許辨識(shí)或響應(yīng)中的錯(cuò)誤。
[0006]在所有這些方法中,用戶決定何時(shí)發(fā)出查詢或命令??隙ǖ丶せ钫Z音辨識(shí)器且接著用戶預(yù)期響應(yīng)。由于用戶預(yù)期響應(yīng),因此可能不容許語音辨識(shí)中的錯(cuò)誤。此外,由于語音辨識(shí)器在激活之后僅傾聽內(nèi)容,因此語音辨識(shí)器將忽略對(duì)話中的特定語境及重點(diǎn)。
[0007]另外,即使在向用戶輸出響應(yīng)時(shí),所述響應(yīng)也是通用響應(yīng)。舉例來說,語音辨識(shí)器可使用所辨識(shí)的關(guān)鍵字來執(zhí)行網(wǎng)絡(luò)搜索。此關(guān)鍵字搜索將被輸出到正在說話的任何用戶。
【發(fā)明內(nèi)容】
[0008]在一個(gè)實(shí)施例中,一種方法包含在語音辨識(shí)器處接收聲輸入信號(hào)?;谒雎曒斎胄盘?hào)而識(shí)別正在說話的用戶。接著,所述方法確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息且基于所述所辨識(shí)聲輸入信號(hào)及針對(duì)所述用戶的所述說話者特定信息而確定一組響應(yīng)。確定是否應(yīng)輸出所述響應(yīng),且如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
[0009]在一個(gè)實(shí)施例中,一種方法包含:基于使用第一語音辨識(shí)算法辨識(shí)聲輸入信號(hào)及將所述聲輸入信號(hào)的部分分類到多個(gè)類別中的一類別中而從第一級(jí)辨識(shí)器接收信號(hào),所述第一級(jí)辨識(shí)器經(jīng)配置而以始終接通模式辨識(shí)所述聲輸入信號(hào);由計(jì)算裝置在接收到所述信號(hào)后即刻激活第二級(jí)辨識(shí)器以辨識(shí)所述聲輸入信號(hào),所述第二級(jí)辨識(shí)器經(jīng)配置以使用第二語音辨識(shí)算法;基于所述聲輸入信號(hào)而識(shí)別正在說話的用戶;確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息;基于所述說話者特定信息而確定對(duì)所述所辨識(shí)聲輸入信號(hào)的響應(yīng);基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng);及如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
[0010]在一個(gè)實(shí)施例中,一種系統(tǒng)包含:第一級(jí)辨識(shí)器,其經(jīng)配置而以始終接通模式使用第一語音辨識(shí)算法來辨識(shí)聲輸入信號(hào),所述第一級(jí)辨識(shí)器經(jīng)配置以:接收聲輸入信號(hào);基于所述聲輸入信號(hào)而識(shí)別正在說話的用戶;確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息;使用第一語音辨識(shí)算法將所述聲輸入信號(hào)的部分分類到不同類別中;基于對(duì)類別的選擇而確定應(yīng)觸發(fā)第二級(jí)辨識(shí)器,所述選擇是基于正以所述選定類別分類的經(jīng)分類部分及所述說話者特定信息;及第二級(jí)辨識(shí)器,其經(jīng)配置以:從所述第一級(jí)辨識(shí)器接收用以激活所述第二級(jí)辨識(shí)器的信號(hào);在接收到所述信號(hào)后即刻激活所述第二級(jí)辨識(shí)器以辨識(shí)所述聲輸入信號(hào),所述第二級(jí)辨識(shí)器經(jīng)配置以使用不同于所述第一語音辨識(shí)算法的第二語音辨識(shí)算法來辨識(shí)所述聲輸入信號(hào);使用所述說話者特定信息來確定對(duì)所述所辨識(shí)聲輸入信號(hào)的響應(yīng);基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng);及如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
[0011]以下詳細(xì)說明及附圖提供對(duì)本發(fā)明的性質(zhì)及優(yōu)點(diǎn)的較好理解。
【專利附圖】
【附圖說明】
[0012]圖1A描繪根據(jù)一個(gè)實(shí)施例的語音辨識(shí)系統(tǒng)的實(shí)例系統(tǒng)。
[0013]圖1B描繪根據(jù)一個(gè)實(shí)施例的用于提供兩級(jí)語音辨識(shí)器的實(shí)例系統(tǒng)。
[0014]圖2描繪根據(jù)一個(gè)實(shí)施例的級(jí)I辨識(shí)器的較詳細(xì)實(shí)例。
[0015]圖3描繪根據(jù)一個(gè)實(shí)施例的級(jí)2辨識(shí)器的較詳細(xì)實(shí)例。
[0016]圖4描繪根據(jù)一個(gè)實(shí)施例的用于使用兩個(gè)級(jí)來執(zhí)行語音辨識(shí)的方法的簡化流程圖。
[0017]圖5描繪根據(jù)一個(gè)實(shí)施例的用于在級(jí)2辨識(shí)器處處理聲輸入信號(hào)的方法的簡化流程圖。
[0018]圖6描繪根據(jù)一個(gè)實(shí)施例的用于在單個(gè)裝置中操作級(jí)I辨識(shí)器及級(jí)2辨識(shí)器的方法的簡化流程圖。
[0019]圖7展示根據(jù)一個(gè)實(shí)施例的包含級(jí)I辨識(shí)器及級(jí)2辨識(shí)器兩者的裝置的實(shí)例。
[0020]圖8展示根據(jù)一個(gè)實(shí)施例的用于使用兩個(gè)不同裝置來執(zhí)行語音辨識(shí)的系統(tǒng)。
【具體實(shí)施方式】
[0021]本文中描述背景語音辨識(shí)器的技術(shù)。出于闡釋的目的,在以下說明中,陳述眾多實(shí)例及特定細(xì)節(jié)以便提供對(duì)本發(fā)明的實(shí)施例的徹底理解。如由權(quán)利要求書所定義,特定實(shí)施例可單獨(dú)地或連同下文所描述的其它特征一起包含這些實(shí)例中的特征中的一些或全部特征,且可進(jìn)一步包含本文中所描述的特征及概念的修改形式及等效物。
[0022]圖1A描繪根據(jù)一個(gè)實(shí)施例的語音辨識(shí)系統(tǒng)的實(shí)例系統(tǒng)100。系統(tǒng)100包含“始終接通”且傾聽所接收到的聲輸入信號(hào)的語音辨識(shí)器101。因此,語音辨識(shí)器101在后臺(tái)中工作。語音辨識(shí)器101不傾聽用以接通的觸發(fā)短語。而是,語音辨識(shí)器101從日常對(duì)話收集真實(shí)含義及意圖。由于語音辨識(shí)器101始終接通及傾聽,因此可依據(jù)在語音辨識(shí)器101必須基于觸發(fā)而激活的情況下通常不可辨識(shí)的短語而確定含義及意圖。在另一實(shí)施例中,語音辨識(shí)器101通過觸發(fā)短語而接通。傾聽將在語音辨識(shí)器101被接通時(shí)開始。
[0023]說話者檢驗(yàn)管理器106檢驗(yàn)?zāi)囊挥脩粽谡f話。舉例來說,各個(gè)用戶可能在不同時(shí)間說話,例如在家庭中,父親、母親、兒子及女兒可一起說話或在不同時(shí)間說話。說話者檢驗(yàn)管理器106包含用以識(shí)別哪一說話者當(dāng)前正在說話的算法。舉例來說,說話者檢驗(yàn)管理器106可使用用于確定說話者的文本無關(guān)算法。在此算法中,用戶可在允許說話者檢驗(yàn)管理器106 了解每一用戶的語音的簽名的訓(xùn)練過程中訓(xùn)練說話者檢驗(yàn)管理器106。所屬領(lǐng)域的技術(shù)人員將了解如何訓(xùn)練說話者檢驗(yàn)管理器106來辨識(shí)用戶的語音。在訓(xùn)練之后,當(dāng)語音辨識(shí)器101處于始終接通模式中時(shí),說話者檢驗(yàn)管理器106確定誰正在說話。使用文本無關(guān)算法允許說話者檢驗(yàn)管理器106在以始終接通模式操作時(shí)識(shí)別誰正在說話,此不需要用戶觸發(fā)語音辨識(shí)器101。
[0024]另外,文本相關(guān)方法可用于檢驗(yàn)說話者。舉例來說,語音辨識(shí)器101并非始終接通,而是由接通語音辨識(shí)器101的觸發(fā)詞觸發(fā),且語音辨識(shí)器101開始傾聽。接著可執(zhí)行檢驗(yàn)用戶的文本相關(guān)方法。舉例來說,用戶可能已訓(xùn)練語音辨識(shí)器101辨識(shí)觸發(fā)詞。接著,語音辨識(shí)器101可基于針對(duì)觸發(fā)詞的先前訓(xùn)練而檢驗(yàn)用戶。此外,用戶可在說出觸發(fā)短語之后說出額外詞,且所述詞用于識(shí)別說話者。
[0025]在另一實(shí)施例中,在初始檢驗(yàn)之后,可隨著發(fā)生可為文本無關(guān)或文本相關(guān)的額外檢驗(yàn)。舉例來說,隨著用戶繼續(xù)說話,說話者檢驗(yàn)可正在運(yùn)行以證實(shí)同一用戶正在說話。舉例來說,接收觸發(fā)短語且接著周期性地執(zhí)行說話者檢驗(yàn)。當(dāng)認(rèn)為必須有較高安全性時(shí)(例如在登錄網(wǎng)站、賬戶、資金轉(zhuǎn)移、購物或其它安全情形時(shí)),可執(zhí)行第二說話者檢驗(yàn)。此外,由于代替登錄而執(zhí)行了第二說話者檢驗(yàn),因此在安全情形中可不需要手動(dòng)登錄。
[0026]存儲(chǔ)裝置108包含針對(duì)不同用戶的說話者特定信息110。舉例來說,說話者特定信息110-1與用戶#1相關(guān)聯(lián)且說話者特定信息110-n與用戶#n相關(guān)聯(lián)。說話者特定信息110可針對(duì)任何數(shù)目個(gè)用戶而存儲(chǔ)于存儲(chǔ)裝置108中。每一說話者特定信息110可包含所述用戶所特有的信息。在一個(gè)實(shí)例中,說話者特定信息110基于針對(duì)所述用戶先前所辨識(shí)的語音,例如針對(duì)所述用戶之前可能已辨識(shí)詞“英式足球”或“度假”。此外,在另一實(shí)例中,信息可包含用戶偏好,例如一個(gè)用戶喜歡滑板運(yùn)動(dòng)且另一用戶喜歡英式足球。此信息可在確定對(duì)所辨識(shí)語音的響應(yīng)時(shí)使用。舉例來說,如果用戶更有可能喜歡英式足球,那么可在辨識(shí)語音時(shí)輸出與英式足球有關(guān)的廣告。在一個(gè)實(shí)例中,如果正討論度假,那么在識(shí)別用戶且確定用戶喜歡英式足球的情況下,可作為對(duì)將執(zhí)行的活動(dòng)的建議而輸出在進(jìn)行度假時(shí)發(fā)生的英式足球比賽。然而,如果說話的用戶喜歡滑板運(yùn)動(dòng),那么可作為響應(yīng)輸出滑板運(yùn)動(dòng)賽事。因此,語音辨識(shí)器101可使用說話者特定信息110而提供較個(gè)人化響應(yīng)。
[0027]語音辨識(shí)器101可在后臺(tái)中確定可能響應(yīng),但可能直到確定適合輸出響應(yīng)才輸出所述響應(yīng)。響應(yīng)可基于聲輸入信號(hào)的類別及解釋而使用各種方法來確定。舉例來說,可執(zhí)行搜索以確定響應(yīng),可針對(duì)適當(dāng)響應(yīng)而搜索數(shù)據(jù)庫等。語音辨識(shí)器101可對(duì)依據(jù)短語的所辨識(shí)含義而確定的響應(yīng)進(jìn)行排序。響應(yīng)的排序及類型(例如屏幕上的短暫顯示、屏幕上的持久顯示、口頭響應(yīng)等)可基于例如說話者特定信息110、相關(guān)性、緊迫性及/或重要性的準(zhǔn)貝U。與英式足球相關(guān)聯(lián)的響應(yīng)可排序較高。當(dāng)響應(yīng)接收指示可輸出響應(yīng)的值的排序時(shí),此時(shí)語音辨識(shí)器101可輸出響應(yīng)。由于用戶并沒有特定地調(diào)用語音辨識(shí)器101來尋求響應(yīng),因此語音辨識(shí)中的錯(cuò)誤可不被視為是重大的。舉例來說,語音辨識(shí)器101可在輸出響應(yīng)之前對(duì)所述響應(yīng)進(jìn)行評(píng)估。如果不認(rèn)為所述響應(yīng)是可接受的,那么可不輸出所述響應(yīng)。由于用戶并沒有尋求響應(yīng),因此用戶將不知道其中具有錯(cuò)誤的響應(yīng)未被提供。然而,如果用戶已尋求特定響應(yīng),那么將出現(xiàn)于響應(yīng)中的錯(cuò)誤將是不可接受的。在此情形中,用戶并沒有尋求響應(yīng)。
[0028]在另一實(shí)施例中,可在不具有任何說話者檢驗(yàn)的情況下執(zhí)行分類。在此情形中,確定一般響應(yīng)。然而,當(dāng)接收到觸發(fā)短語時(shí),使用說話者特定信息110來調(diào)整響應(yīng)。在另一實(shí)例中,直到接收到觸發(fā)短語才執(zhí)行分類。
[0029]輸出響應(yīng)的不同方法可基于所確定的排序。舉例來說,具有較高排序得分的響應(yīng)可使用較多侵入性輸出方法。舉例來說,如果在排序中存在高級(jí)緊迫性,那么可使用口頭輸出。然而,如果緊迫性較低,那么可使用較少侵入性方法,例如在屏幕的拐角中顯示圖片或廣告。顯示圖片或廣告的時(shí)間長度可通過重要性而確定。語音辨識(shí)器101是助理,其在未被請(qǐng)求的情況下始終接通以提供幫助及解決方案,但足夠智能以僅在因緊迫性等而確定為適當(dāng)時(shí)侵入。
[0030]輸出響應(yīng)的方法可基于說話者特定信息110而改變。舉例來說,一些用戶可傾向于在個(gè)人計(jì)算機(jī)上輸出響應(yīng)。其它用戶可傾向于發(fā)送文本消息。這些偏好在確定輸出響應(yīng)的方法時(shí)被納入考慮。
[0031]在一個(gè)實(shí)例中,第一用戶可能正與第二用戶討論是否購置微波爐。所述對(duì)話可能正討論將購置什么瓦數(shù)或樣式(例如,不銹鋼)。語音辨識(shí)器101可位于移動(dòng)裝置(例如蜂窩式電話或平板計(jì)算機(jī))中且未被第一用戶或第二用戶觸發(fā)。語音辨識(shí)器101可不立即輸出響應(yīng)。而是,語音辨識(shí)器101傾聽對(duì)話以導(dǎo)出額外含義。當(dāng)語音辨識(shí)器101將所述討論分類為“購物”討論時(shí),其可辨識(shí)出正期待購買微波爐,語音辨識(shí)器101可確定響應(yīng)是適當(dāng)?shù)?。說話者特定信息110可用于確定用戶先前正關(guān)于廚房中的其它電器而討論不銹鋼。在此情形中,接著確定用戶期待購置期待購買的某一瓦數(shù)的不銹鋼微波爐。不銹鋼微波爐將匹配廚房中的其它電器。可對(duì)一些響應(yīng)進(jìn)行排序。舉例來說,商店的促銷可為一個(gè)響應(yīng)。此響應(yīng)因相關(guān)性(促銷是針對(duì)微波爐的)以及緊迫性(促銷是限時(shí)優(yōu)惠及/或語音辨識(shí)器101聽出討論中的緊迫感,因?yàn)槠渥R(shí)別出了現(xiàn)有微波爐已壞掉)而被賦予高得分。因此,可獲得商店的促銷的侵入性口頭輸出響應(yīng)可被輸出且提示用戶正查找的物項(xiàng)僅促銷24小時(shí)。
[0032]圖1B描繪根據(jù)一個(gè)實(shí)施例的用于提供兩級(jí)語音辨識(shí)器的實(shí)例系統(tǒng)100。兩級(jí)語音辨識(shí)器可執(zhí)行語音辨識(shí)器101的功能。此外,盡管描述兩個(gè)級(jí),但兩個(gè)級(jí)的功能可組合到一個(gè)級(jí)或任何數(shù)目個(gè)級(jí)中。系統(tǒng)100包含級(jí)I辨識(shí)器102及級(jí)2辨識(shí)器104。級(jí)I辨識(shí)器102及級(jí)2辨識(shí)器104可位于相同裝置中或位于不同裝置中。舉例來說,級(jí)I辨識(shí)器102及級(jí)2辨識(shí)器104可位于移動(dòng)裝置中,例如智能電話、平板計(jì)算機(jī)、膝上型計(jì)算機(jī)、手持式游戲裝置、玩具、車內(nèi)裝置或其它消費(fèi)型電子器件。另外,級(jí)I辨識(shí)器102可位于第一裝置(例如客戶端裝置)上,且級(jí)2辨識(shí)器104可位于第二裝置(例如服務(wù)器)上。在此實(shí)例中,級(jí)I辨識(shí)器102可經(jīng)由網(wǎng)絡(luò)與級(jí)2辨識(shí)器104通信。
[0033]級(jí)I辨識(shí)器102可為“始終接通”且傾聽所接收到的聲輸入信號(hào)的語音辨識(shí)裝置。始終接通可意指級(jí)I辨識(shí)器不需要被觸發(fā)(例如,通過按鈕按下或觸發(fā)短語)以開始語音辨識(shí)。始終接通語音辨識(shí)器的實(shí)例包含于2010年7月6日提出申請(qǐng)的標(biāo)題為“用于免提語音控制及語音搜索的系統(tǒng)及方法(Systems and Methods for Hands-free Voice Controland Voice Search) ”的第12/831,051號(hào)美國專利申請(qǐng)案(其主張2009年7月6日提出申請(qǐng)的第61/223,172號(hào)美國專利申請(qǐng)案的優(yōu)先權(quán)的權(quán)益)中,且包含于2011年8月24日提出申請(qǐng)的標(biāo)題為“減少語音辨識(shí)系統(tǒng)中的主動(dòng)錯(cuò)誤信息(Reducing False Positives inSpeech Recognition Systems) ”的第12/831,051號(hào)美國專利申請(qǐng)案中,出于所有目的,所有美國專利申請(qǐng)案以全文引用的方式并入。舉例來說,可分析級(jí)I辨識(shí)器102接收到的任何聲輸入信號(hào)。在一個(gè)實(shí)施例中,級(jí)I辨識(shí)器102不同于級(jí)2辨識(shí)器104。舉例來說,級(jí)I辨識(shí)器102可為使用比級(jí)2辨識(shí)器104少的功率的低功率辨識(shí)器。由于級(jí)I辨識(shí)器102所使用的語音辨識(shí)算法可使用較小存儲(chǔ)器及較少計(jì)算機(jī)處理器單元(CPU)循環(huán),因此可使用較低功率。舉例來說,級(jí)I辨識(shí)器102可能夠在音頻前端(例如,麥克風(fēng))接通而CPU處理器正以較低時(shí)鐘速度運(yùn)行或接通達(dá)短期突發(fā)而主要處于休眠的情況下運(yùn)行。
[0034]級(jí)I辨識(shí)器102的語音辨識(shí)算法可將所辨識(shí)的關(guān)鍵字分類到預(yù)定義類別中。預(yù)定義類別可為描述不同所感興趣領(lǐng)域的主題,例如旅行、購物、娛樂、研究、飲食或電子器件。每一類別可與一組有限關(guān)鍵字相關(guān)聯(lián)。在一個(gè)實(shí)施例中,級(jí)I辨識(shí)器102可查找關(guān)鍵字的有限詞匯量。如果檢測到針對(duì)特定類別的一定數(shù)目個(gè)關(guān)鍵字,那么可確定與正討論的類別相關(guān)聯(lián)的主題。除若干個(gè)關(guān)鍵字之外,還可使用關(guān)鍵字彼此之間的關(guān)系,即,搜索文法及/或語言模型。級(jí)I辨識(shí)器102將所辨識(shí)關(guān)鍵字分類到多個(gè)類別中,且在一個(gè)類別具有以其分類的足夠關(guān)鍵字時(shí),此時(shí)級(jí)I辨識(shí)器102可觸發(fā)級(jí)2辨識(shí)器104。還可使用下文將描述的其它準(zhǔn)則。
[0035]級(jí)I辨識(shí)器102可耦合到說話者檢驗(yàn)管理器106及存儲(chǔ)裝置108以確定說話者特定信息110。說話者特定信息可用于將所辨識(shí)的關(guān)鍵字分類到預(yù)定義類別中。舉例來說,預(yù)定義類別可基于用戶的偏好針對(duì)每一用戶而不同。舉例來說,一些用戶可能喜歡旅行且其它用戶可能喜歡電子器件。
[0036]此外,可基于說話者特定信息110-1而執(zhí)行類別的確定。舉例來說,類別可與用戶相關(guān)聯(lián)。因此,如果類別與說話者特定信息110-1相關(guān)聯(lián),那么觸發(fā)接通更有可能較適當(dāng)。舉例來說,如果用戶正談?wù)撚⑹阶闱?,且說話者特定信息110指示用戶喜歡英式足球,那么更有可能應(yīng)觸發(fā)語音辨識(shí)器101以確定響應(yīng)。然而,如果用戶正談?wù)摶暹\(yùn)動(dòng)且對(duì)滑板運(yùn)動(dòng)不感興趣,那么語音辨識(shí)器101可不被觸發(fā)接通。
[0037]與級(jí)I辨識(shí)器102相比,級(jí)2辨識(shí)器104可為較準(zhǔn)確語音辨識(shí)系統(tǒng)。舉例來說,級(jí)2辨識(shí)器104可使用比級(jí)I辨識(shí)器102多的功率。此外,級(jí)2辨識(shí)器104使用較準(zhǔn)確語音辨識(shí)算法。舉例來說,級(jí)2辨識(shí)器104可需要大存儲(chǔ)器及CPU循環(huán)占用面積以執(zhí)行語音辨識(shí)。在一個(gè)實(shí)例中,級(jí)2辨識(shí)器104可使用大詞匯量連續(xù)語音辨識(shí)(LVCSR)技術(shù)來描述特定主題(語言模型)的語言且將聲輸入信號(hào)轉(zhuǎn)換成可能詞格子,所述可能詞格子接著被使用統(tǒng)計(jì)剖析器準(zhǔn)確地剖析以提取含義。級(jí)I辨識(shí)器102或級(jí)2辨識(shí)器104可決定保存來自先前討論的信息以較好地分類、解決問題及提供幫助。
[0038]在一個(gè)實(shí)施例中,語音辨識(shí)算法之間可能存在一些差異。舉例來說,級(jí)I辨識(shí)器102是基于關(guān)鍵字的辨識(shí)器,而級(jí)2辨識(shí)器104可辨識(shí)所有詞。級(jí)I辨識(shí)器102可具有不如級(jí)2辨識(shí)器104復(fù)雜的搜索文法,例如較低混亂及較低數(shù)目個(gè)詞。級(jí)I辨識(shí)器102可具有不如級(jí)2辨識(shí)器104復(fù)雜的語言模型(例如,詞的數(shù)目,雙字母組對(duì)三字母組)。級(jí)I辨識(shí)器102可在搜索中刪除比級(jí)2辨識(shí)器104多的作用狀態(tài)。級(jí)I辨識(shí)器102剖析可為較簡單的或不存在的,而級(jí)2辨識(shí)器104具有穩(wěn)健統(tǒng)計(jì)剖析器。級(jí)I辨識(shí)器102可需要用以存儲(chǔ)表示的較少只讀存儲(chǔ)器(ROM)及用以對(duì)照其給輸入聲評(píng)分的較少隨機(jī)存取存儲(chǔ)器(RAM)/每秒百萬指令(mips)。級(jí)I辨識(shí)器102可為不如級(jí)2辨識(shí)器104準(zhǔn)確的辨識(shí)器且可使用比級(jí)2辨識(shí)器104簡單的語音特征。級(jí)I辨識(shí)器102可使用比級(jí)2辨識(shí)器104小/簡單的聲模型。
[0039]級(jí)2辨識(shí)器104可輸出對(duì)所檢測含義的響應(yīng)。舉例來說,當(dāng)依據(jù)聲輸入信號(hào)確定含義時(shí),級(jí)2辨識(shí)器104可確定適當(dāng)響應(yīng)。所述響應(yīng)可包含多種感官互動(dòng),包含音頻、視覺、觸覺或嗅覺響應(yīng)。在一個(gè)實(shí)例中,輸出可為對(duì)用戶進(jìn)行的討論提供所建議答案的音頻響應(yīng)。還可提供增強(qiáng)用戶活動(dòng)的其它響應(yīng),例如在用戶正于計(jì)算機(jī)或電視指南上執(zhí)行搜索時(shí),可基于依據(jù)背景對(duì)話的所存儲(chǔ)信息或在正進(jìn)行搜索時(shí)當(dāng)下所說出信息而提供較集中搜索結(jié)果。舉例來說,在依據(jù)文本輸入(例如“壞小子電影”)而進(jìn)行電影的搜索時(shí),用戶可能說出像“我認(rèn)為它是一部翻拍電影,可能是海角什么的或其它...”這樣的話。另一實(shí)例,如果檢測到用戶正在討論旅行,那么可在指南的頂部處顯示電視指南上的關(guān)于旅行的一些電視節(jié)目。
[0040]級(jí)2辨識(shí)器104還可耦合到說話者檢驗(yàn)管理器106及存儲(chǔ)裝置108,其中響應(yīng)是基于說話者特定信息110而確定。用于確定響應(yīng)的算法可基于用戶而不同。此外,考慮說話者特定信息110而確定的響應(yīng)將提供較集中搜索結(jié)果。
[0041]響應(yīng)的排序及類型還可基于說話者特定信息110。舉例來說,排序可基于說話者特定信息110中的用戶的偏好而受影響。舉例來說,基于用戶較喜歡英式足球的偏好,關(guān)于英式足球的響應(yīng)的排序可高于關(guān)于滑板運(yùn)動(dòng)的響應(yīng)。
[0042]圖2描繪根據(jù)一個(gè)實(shí)施例的級(jí)I辨識(shí)器102的較詳細(xì)實(shí)例。語音辨識(shí)器202接收聲輸入信號(hào)。舉例來說,聲輸入信號(hào)可為由裝置的音頻前端檢測到的對(duì)話。語音辨識(shí)器202辨識(shí)一些關(guān)鍵字。語音辨識(shí)器202所使用的文法可是有限的且少于級(jí)2辨識(shí)器104所使用的文法。
[0043]類別管理器204可將所辨識(shí)關(guān)鍵字分類到類別206中。每一類別206可與一個(gè)類目或主題相關(guān)聯(lián)。類別206可以是預(yù)定義的且可在若干個(gè)所辨識(shí)關(guān)鍵字滿足特定準(zhǔn)則時(shí)選擇類別206。舉例來說,語音辨識(shí)器202可識(shí)別高頻率短語。這些短語可唯一地且穩(wěn)健地識(shí)別主題。除時(shí)間次序及距離之外,短語的頻率也可用于確定是否選擇類別206。這些準(zhǔn)則可以用用于確定是否觸發(fā)類別206的類別特定文法而定義。一旦檢測到彼此具有預(yù)期關(guān)系的充分?jǐn)?shù)目個(gè)短語,便可確定存在正討論特定主題的必然性的高可能性并且選擇類別206。
[0044]類別206可基于說話者特定信息110而確定。舉例來說,一旦識(shí)別用戶,便可從說話者特定信息110檢索類別206。每一用戶可與不同類別206相關(guān)聯(lián)。在其它實(shí)施例中,類別206可基于說話者特定信息110而增強(qiáng)。舉例來說,可基于所識(shí)別的用戶而使用不同類別206或類別206中的關(guān)鍵字。
[0045]當(dāng)選擇類別206時(shí),使用級(jí)2通知管理器208觸發(fā)級(jí)2辨識(shí)器104。圖3描繪根據(jù)一個(gè)實(shí)施例的級(jí)2辨識(shí)器104的較詳細(xì)實(shí)例。在觸發(fā)級(jí)2辨識(shí)器104時(shí),語音辨識(shí)器502接收聲輸入信號(hào)。用于辨識(shí)聲輸入信號(hào)中的術(shù)語的語音辨識(shí)算法可比級(jí)I辨識(shí)器102所使用的語音辨識(shí)算法準(zhǔn)確。
[0046]所接收到的類別206也可用于執(zhí)行語音辨識(shí)。舉例來說,可選擇詞的詞匯的子集來執(zhí)行辨識(shí)。
[0047]可以多種方式確定響應(yīng)。舉例來說,所辨識(shí)句子的含義可用于搜索可能響應(yīng)。還可使用其它較多地基于所感知意圖而非實(shí)際上所說的內(nèi)容的方法。還可基于所述類別而縮窄可能響應(yīng)。舉例來說,當(dāng)類別為旅行時(shí),將所確定的響應(yīng)縮窄到僅與旅行相關(guān)聯(lián)的響應(yīng)。對(duì)于多級(jí)辨識(shí)過程,與較多地集中于含義的級(jí)2辨識(shí)器104相反,分類技術(shù)準(zhǔn)許級(jí)I辨識(shí)器102集中于較簡單且較容易的分類任務(wù)。舉例來說,級(jí)I處的“分類”可使用嵌入式較低功率始終接通系統(tǒng),因此較高功率辨識(shí)器僅需要在必要時(shí)被調(diào)用。
[0048]響應(yīng)排序管理器304基于排序算法306而對(duì)可能響應(yīng)進(jìn)行排序。所述排序可用于確定如何作出響應(yīng)。舉例來說,較高排序可指示響應(yīng)應(yīng)為較明顯且較具侵入性的,例如輸出音頻響應(yīng)。然而,較低排序可指示較微妙響應(yīng),例如在接口上的顯示器上顯示消息。
[0049]響應(yīng)排序管理器304可使用說話者特定信息110來確定響應(yīng)。舉例來說,排序算法306可基于用戶的偏好而不同地加權(quán)。在一個(gè)實(shí)例中,包含用戶所偏好的內(nèi)容的一些響應(yīng)可排序較高。
[0050]在一個(gè)實(shí)施例中,排序算法306可基于例如說話者特定信息110、相關(guān)性、緊迫性及/或重要性的準(zhǔn)則而對(duì)響應(yīng)進(jìn)行排序。相關(guān)性可為所述響應(yīng)與所檢測含義的相關(guān)程度如何。緊迫性為例如在用戶確實(shí)希望做某事時(shí)所需的響應(yīng)的緊迫程度如何,或?yàn)榭稍陧憫?yīng)期滿時(shí)提供的優(yōu)惠。重要性可定義所述響應(yīng)對(duì)于用戶可是多么重要;舉例來說,如果用戶之間的對(duì)話較長或已依據(jù)早期所說的某事而重復(fù)請(qǐng)求,那么可確定重要性。還可使用其它準(zhǔn)則,例如依據(jù)對(duì)話所推斷出的信息。舉例來說,信息的重要性可影響顯示大小及時(shí)序。
[0051]可對(duì)多個(gè)響應(yīng)進(jìn)行排序。在一個(gè)實(shí)例中,響應(yīng)管理器308可輸出最高排序的響應(yīng)。在其它實(shí)施例中,可同時(shí)或按次序輸出多個(gè)響應(yīng)。此外,響應(yīng)可不基于排序而輸出,例如在沒有響應(yīng)經(jīng)確定具有足以被輸出的高得分的情況下。由于用戶可能尚未觸發(fā)級(jí)I辨識(shí)器102或級(jí)2辨識(shí)器104,因此用戶不預(yù)期響應(yīng),且因此,可僅在確定適當(dāng)排序時(shí)輸出響應(yīng)。
[0052]圖4描繪根據(jù)一個(gè)實(shí)施例的用于使用兩個(gè)級(jí)來執(zhí)行語音辨識(shí)的方法的簡化流程圖400。在402處,起始級(jí)I辨識(shí)器102。級(jí)I辨識(shí)器102可為始終接通的。
[0053]在404處,說話者檢驗(yàn)管理器106識(shí)別說話者。舉例來說,說話者檢驗(yàn)管理器106可為始終接通的且傾聽語音。在用戶說話時(shí),識(shí)別不同用戶。在一個(gè)實(shí)例中,可識(shí)別多個(gè)用戶。
[0054]在406處,接著查找針對(duì)所識(shí)別說話者的說話者特定信息110。舉例來說,如果識(shí)別用戶,那么接著使用針對(duì)所述用戶的說話者特定信息110來對(duì)語音進(jìn)行分類。
[0055]在408處,級(jí)I辨識(shí)器102使用說話者特定信息110來對(duì)聲輸入信號(hào)進(jìn)行分類。舉例來說,可對(duì)聲輸入信號(hào)中所辨識(shí)的不同關(guān)鍵字進(jìn)行分類。在410處,級(jí)I辨識(shí)器102確定是否選擇類別206。舉例來說,如果將若干個(gè)關(guān)鍵字分類于類別206中,那么可確定應(yīng)觸發(fā)級(jí)2辨識(shí)器104。如果否,那么過程繼續(xù)進(jìn)行以執(zhí)行404中的分類。在412處,級(jí)I辨識(shí)器102聯(lián)系級(jí)2辨識(shí)器104以接通級(jí)2辨識(shí)器104。
[0056]圖5描繪根據(jù)一個(gè)實(shí)施例的用于在級(jí)2辨識(shí)器104處處理聲輸入信號(hào)的方法的簡化流程圖500。在502處,級(jí)2辨識(shí)器104在接收到來自級(jí)I辨識(shí)器102的觸發(fā)后即刻接通。級(jí)2辨識(shí)器104不是始終接通的且僅在由級(jí)I辨識(shí)器102觸發(fā)時(shí)接通。
[0057]在504處,級(jí)2辨識(shí)器104接收聲輸入信號(hào)。舉例來說,如果級(jí)2辨識(shí)器104與級(jí)I辨識(shí)器102位于一處,那么在級(jí)2辨識(shí)器104處可接收聲輸入信號(hào)。然而,如果級(jí)2辨識(shí)器104位于遠(yuǎn)處(例如在服務(wù)器處),那么級(jí)I辨識(shí)器102可將聲輸入信號(hào)發(fā)送到級(jí)2辨識(shí)器 104。
[0058]在505處,級(jí)2辨識(shí)器104確定說話者特定信息110。舉例來說,級(jí)2辨識(shí)器104可接收說話者是誰的識(shí)別。接著,確定針對(duì)所述用戶的說話者特定信息110。
[0059]在506處,級(jí)2辨識(shí)器104對(duì)響應(yīng)進(jìn)行排序。舉例來說,使用如上文所描述的準(zhǔn)則(例如說話者特定信息110)來對(duì)各種響應(yīng)進(jìn)行排序。在508處,級(jí)2辨識(shí)器104確定是否應(yīng)輸出響應(yīng)。所述確定可基于所述排序。舉例來說,當(dāng)響應(yīng)接收足夠高得分時(shí),此時(shí)輸出所述響應(yīng)。如果未確定將輸出的響應(yīng),那么過程在506處繼續(xù),其中響應(yīng)繼續(xù)基于所接收聲輸入信號(hào)而排序。
[0060]如果確定將輸出的響應(yīng),那么在510處,級(jí)2辨識(shí)器104確定響應(yīng)的方法。舉例來說,可基于排序而確定不同響應(yīng)。當(dāng)響應(yīng)具有高排序時(shí),可認(rèn)為其較重要且因此提供較具侵入性響應(yīng),例如音頻輸出。然而,當(dāng)響應(yīng)排序較低時(shí),此時(shí)所述響應(yīng)可為較少侵入性的,例如接口上所顯示的消息。在512處,級(jí)2辨識(shí)器104使用所確定方法來輸出響應(yīng)。
[0061]在一個(gè)實(shí)施例中,級(jí)I辨識(shí)器102及級(jí)2辨識(shí)器104可在單個(gè)裝置中操作。所述裝置可由電池供電,其中電池壽命可是重要的。在此類型的裝置中,可期望使用級(jí)I辨識(shí)器102,其使用較少功率但始終接通且觸發(fā)使用較多功率的較強(qiáng)大級(jí)2辨識(shí)器104。圖6描繪根據(jù)一個(gè)實(shí)施例的用于在單個(gè)裝置中操作級(jí)I辨識(shí)器102及級(jí)2辨識(shí)器104的方法的簡化流程圖600。在602處,在裝置上使級(jí)I辨識(shí)器102以低功率模式操作。舉例來說,裝置可處于其中級(jí)I辨識(shí)器102在后臺(tái)中操作的待機(jī)模式中。由于級(jí)I辨識(shí)器102可需要較少CPU循環(huán),因此級(jí)I辨識(shí)器102可在裝置待機(jī)時(shí)操作。待機(jī)不同于其中裝置可被完全供電的作用模式。舉例來說,在待機(jī)模式中,將關(guān)斷屏幕燈且除麥克風(fēng)前置放大器電路及輕量級(jí)處理器(例如較低時(shí)鐘循環(huán)實(shí)施方案等)之外,將不啟用任何功能。盡管辨識(shí)保持繼續(xù),但將所有其它功能斷電以使功率消耗最小化??勺詣?dòng)確定這些辨識(shí)模式及級(jí)以節(jié)約功率。舉例來說,插入式裝置可始終接通充當(dāng)單個(gè)辨識(shí)器,而電池供電的裝置可使用較低功率級(jí)I方法。此外,級(jí)I辨識(shí)器102可在裝置不處于待機(jī)模式中時(shí)操作,但作為后臺(tái)過程而操作。因此,雖然使用所述裝置,但其不使用可使裝置的性能降級(jí)的顯著CPU處理能力。
[0062]在604處,級(jí)I辨識(shí)器102確定何時(shí)激活級(jí)2辨識(shí)器104。舉例來說,可選擇類別206。在606處,級(jí)I辨識(shí)器102發(fā)送信號(hào)以喚醒裝置。舉例來說,可將裝置從待機(jī)模式喚醒到作用模式中。
[0063]在608處,使級(jí)2辨識(shí)器104以較高功率模式操作。舉例來說,級(jí)2辨識(shí)器104可需要較多CPU循環(huán)來執(zhí)行語音辨識(shí)。另外,可必須在裝置處于作用模式中時(shí)操作級(jí)2辨識(shí)器 104。
[0064]圖7展示根據(jù)一個(gè)實(shí)施例的包含級(jí)I辨識(shí)器102及級(jí)2辨識(shí)器104兩者的裝置700的實(shí)例。音頻輸入702接收聲輸入信號(hào)。處理器704及存儲(chǔ)器706由級(jí)I辨識(shí)器102及級(jí)2辨識(shí)器104使用。如上文所描述,與級(jí)2辨識(shí)器104相比,級(jí)I辨識(shí)器102可使用處理器704的較少CPU循環(huán)。此外,存儲(chǔ)器706可為隨機(jī)存取存儲(chǔ)器(RAM),其中與級(jí)2辨識(shí)器104相比,級(jí)I辨識(shí)器102使用較小量的RAM。
[0065]在不同實(shí)例中,圖8展示根據(jù)一個(gè)實(shí)施例的用于使用兩個(gè)不同裝置來執(zhí)行語音辨識(shí)的系統(tǒng)800。如所展示,第一裝置802-1包含級(jí)I辨識(shí)器102且第二裝置802-2包含級(jí)2辨識(shí)器104。第一裝置802-1可為與用戶位于一處的移動(dòng)裝置以在音頻輸入702處接收聲輸入信號(hào)。第一裝置802-1可經(jīng)由網(wǎng)絡(luò)808與第二裝置802-2通信。舉例來說,網(wǎng)絡(luò)804可為廣域網(wǎng)絡(luò)(WAN)或局域網(wǎng)絡(luò)(LAN)。此外,第二裝置802-2可為服務(wù)器。
[0066]級(jí)I辨識(shí)器102可使用裝置802-1的處理器804_1及存儲(chǔ)器806_1,且第二裝置802-2可使用第二裝置802-2的處理器804-2及存儲(chǔ)器806-2。在一個(gè)實(shí)施例中,第二裝置802-2可為較強(qiáng)大計(jì)算裝置,因此允許將處理卸載到在第一裝置802-1上可使用較少功率及電池壽命的較強(qiáng)大裝置。
[0067]現(xiàn)在將描述各種實(shí)例。裝置可為在用戶的家中所使用的平板計(jì)算機(jī)。所述平板計(jì)算機(jī)可處于待機(jī)模式中。第一用戶可正與第二用戶關(guān)于這個(gè)夏天其想要去哪度假進(jìn)行對(duì)話。級(jí)I辨識(shí)器102始終接通且識(shí)別第一用戶及第二用戶。級(jí)I辨識(shí)器102檢索說話者特定信息110并確定分別與第一用戶及第二用戶相關(guān)聯(lián)的英式足球及滑板運(yùn)動(dòng)的類別中的關(guān)鍵字。當(dāng)級(jí)I辨識(shí)器102辨識(shí)關(guān)鍵字時(shí),可選擇類別206。舉例來說,關(guān)鍵字可辨識(shí)為“度假”且接著可辨識(shí)確認(rèn)應(yīng)確定“旅行”類別的其它關(guān)鍵字,例如“航班”及“旅行”。確定應(yīng)選擇旅行類別及應(yīng)激活級(jí)2辨識(shí)器104。
[0068]級(jí)2辨識(shí)器104接收用以激活的觸發(fā)且還可接收正進(jìn)行關(guān)于“旅行”的類別的對(duì)話且其似乎是度假的信息。此時(shí),級(jí)2辨識(shí)器104可接手傾聽對(duì)話。級(jí)2辨識(shí)器104可能夠解讀整個(gè)句子且可能聽到句子“也許我們應(yīng)該在愛爾蘭進(jìn)行一項(xiàng)活動(dòng)”?!奥眯小钡念悇e可用于確定響應(yīng)的內(nèi)容。舉例來說,針對(duì)第一用戶在英式足球領(lǐng)域內(nèi)且針對(duì)第二用戶在滑板運(yùn)動(dòng)領(lǐng)域內(nèi)搜索旅行度假內(nèi)容。此時(shí),可確定以下響應(yīng):應(yīng)輸出愛爾蘭的圖片以及在愛爾蘭的英式足球比賽的優(yōu)惠券(或可發(fā)現(xiàn)的無論什么地方的高排序交易或特價(jià))及滑板運(yùn)動(dòng)事件的通知??蓪蹱柼m的圖片輸出到接口,例如平板計(jì)算機(jī)屏幕。此外,可在屏幕的拐角中顯示可點(diǎn)擊的優(yōu)惠券以提供在愛爾蘭的英式足球比賽的特殊一攬子交易。
[0069]如果響應(yīng)具有較高排序,那么輸出方法可是不同的。舉例來說,可提供將通知用戶圖片或優(yōu)惠券的口頭輸出,或可提供愛爾蘭甚至在夏天也有猛烈的暴風(fēng)雨且或許在荷蘭具有較好天氣及卓越的自行車道的情況下可以考慮例如荷蘭的另一國家的一些其它信息。如果24小時(shí)內(nèi)可獲得在愛爾蘭的英式足球比賽的特別票,那么裝置可確定其是足夠相關(guān)及緊迫的以口頭地打斷討論,并且說“打擾一下,這里有24小時(shí)內(nèi)可獲得的在愛爾蘭的英式足球比賽的特別優(yōu)惠,請(qǐng)看屏幕以點(diǎn)擊查看詳情”。
[0070]在另一實(shí)例中,用戶可正使用計(jì)算裝置來經(jīng)由因特網(wǎng)執(zhí)行搜索。舉例來說,用戶可正使用旅行網(wǎng)站搜索度假。雖然提供搜索結(jié)果,但可使用級(jí)2辨識(shí)器104的輸出來縮窄所述結(jié)果。舉例來說,可基于說話者特定信息110而縮窄來自搜索查詢的結(jié)果集合。在一個(gè)實(shí)例中,可將所返回的網(wǎng)站限制于愛爾蘭的英式足球網(wǎng)站或可提供關(guān)于荷蘭的英式足球的額外網(wǎng)站。在用戶搜索期間還可提供其它最優(yōu)化。
[0071]在另一實(shí)例中,當(dāng)查找電影以下載時(shí),級(jí)2辨識(shí)器104可回憶說話者特定信息110中的不同概念,例如運(yùn)動(dòng)、演員名字或情景喜劇。接著,這些節(jié)目為移動(dòng)到指南的頂部的節(jié)目。接著,用戶可通過針對(duì)已展示的特定短語提供較多輸入而使選擇更加精細(xì)化。另外,接著,可執(zhí)行語音命令。
[0072]因此,特定實(shí)施例提供使用低功率的始終接通辨識(shí)器。所述語音辨識(shí)算法可比級(jí)2辨識(shí)器算法更輕量級(jí)。不需要觸發(fā)來接通級(jí)I辨識(shí)器102。然而,級(jí)I辨識(shí)器102執(zhí)行與類別206相關(guān)聯(lián)的特定關(guān)鍵字的一般語音辨識(shí)。
[0073]級(jí)2辨識(shí)器104在不具有來自用戶的觸發(fā)的情況下被激活。而是,觸發(fā)是來自級(jí)I辨識(shí)器102。由于用戶并沒有特定地調(diào)用級(jí)2辨識(shí)器104來尋求響應(yīng),因此級(jí)2辨識(shí)器104中的錯(cuò)誤可不被視為是重大的。舉例來說,級(jí)2辨識(shí)器104可在輸出響應(yīng)之前對(duì)所述響應(yīng)進(jìn)行評(píng)估。如果不認(rèn)為所述響應(yīng)是可接受的,那么可不輸出所述響應(yīng)。因此,可容許語音辨識(shí)中的錯(cuò)誤。由于用戶并沒有尋求響應(yīng),因此用戶將不知道其中具有錯(cuò)誤的響應(yīng)未被提供。然而,如果用戶已尋求特定響應(yīng),那么將出現(xiàn)于響應(yīng)中的錯(cuò)誤將是不可接受的。此外,使用用以僅在需要時(shí)接通的級(jí)2辨識(shí)器104使用較少功率且可節(jié)省裝置的電池壽命。
[0074]此外,使用說話者特定信息110的特定實(shí)施例可提供所定制且較適當(dāng)響應(yīng),例如廣告。安全特征還可允許自動(dòng)登錄到應(yīng)用,例如社交應(yīng)用。由于執(zhí)行說話者檢驗(yàn),因此還提供針對(duì)交易的所添加安全性。另外,在始終接通環(huán)境中提供特定且非一般性信息。
[0075]特定實(shí)施例可實(shí)施于非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體中以供由指令執(zhí)行系統(tǒng)、設(shè)備、系統(tǒng)或機(jī)器使用或連同指令執(zhí)行系統(tǒng)、設(shè)備、系統(tǒng)或機(jī)器一起使用。計(jì)算機(jī)可讀存儲(chǔ)媒體含有用于控制計(jì)算機(jī)系統(tǒng)的指令以執(zhí)行特定實(shí)施例所描述的方法。在由一個(gè)或一個(gè)以上計(jì)算機(jī)處理器執(zhí)行時(shí),所述指令可操作以執(zhí)行特定實(shí)施例中所描述的操作。
[0076]除非上下文另外明確指出,否則如本文中的說明中及所附權(quán)利要求書通篇中所使用,“一(a)”、“一(an)”及“所述(the) ”包含復(fù)數(shù)參考。此外,除非上下文另外明確指出,否則如本文中的說明中及所附權(quán)利要求書通篇中所使用,“在...中”的含義包含“在...中”及“在...上”。
[0077]以上說明圖解說明本發(fā)明的各種實(shí)施例連同可如何實(shí)施本發(fā)明的方面的實(shí)例。以上實(shí)例及實(shí)施例不應(yīng)被認(rèn)為是唯一的實(shí)施例,且經(jīng)呈現(xiàn)以圖解說明如由所附權(quán)利要求書定義的本發(fā)明的靈活性及優(yōu)點(diǎn)?;谝陨辖沂緝?nèi)容及所附權(quán)利要求書,可在不背離如由權(quán)利要求書定義的本發(fā)明的范圍的情況下采取其它布置、實(shí)施例、實(shí)施方案及等效物。
【權(quán)利要求】
1.一種方法,其包括: 在語音辨識(shí)器處接收聲輸入信號(hào); 基于所述聲輸入信號(hào)而識(shí)別正在說話的用戶; 確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息; 由計(jì)算裝置基于所述所辨識(shí)聲輸入信號(hào)及針對(duì)所述用戶的所述說話者特定信息而確定一組響應(yīng); 確定是否應(yīng)輸出所述響應(yīng);及 如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
2.根據(jù)權(quán)利要求1所述的方法,其中所述語音辨識(shí)器經(jīng)配置而以始終接通模式辨識(shí)所述聲輸入信號(hào),且在不接觸計(jì)算裝置或說出用以激活所述語音辨識(shí)器的“觸發(fā)”短語的情況下輸出所述響應(yīng)。
3.根據(jù)權(quán)利要求1所述的方法,其中在用戶說出用以激活所述語音辨識(shí)器的“觸發(fā)”短語之后輸出所述響應(yīng)。
4.根據(jù)權(quán)利要求1所述的方法,其中所述語音辨識(shí)器以始終接通模式操作且在接收到觸發(fā)短語后接著識(shí)別所述用戶。
5.根據(jù)權(quán)利要求1所述的方法,其中所述說話者特定信息與來自所述用戶的語音的先前語音辨識(shí)相關(guān)聯(lián)。
6.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 確定一組類別,其中所述類別是基于所述說話者特定信息而確定; 將所述聲輸入信號(hào)的部分分類到不同類別中; 基于與所述類別相關(guān)聯(lián)的準(zhǔn)則而選擇所述類別;及 使用所述類別來確定所述組響應(yīng)。
7.根據(jù)權(quán)利要求6所述的方法,其中使用所述說話者特定信息以基于所述用戶在所述說話者特定信息中的偏好而修改所述組類別中的一類別。
8.根據(jù)權(quán)利要求7所述的方法,其中在所述類別中使用與所述說話者特定信息相關(guān)聯(lián)的一組關(guān)鍵字。
9.根據(jù)權(quán)利要求6所述的方法,其中以始終接通模式執(zhí)行對(duì)部分進(jìn)行分類,其中在接收到用以激活所述語音辨識(shí)器的觸發(fā)短語之后執(zhí)行識(shí)別正在說話的所述用戶。
10.根據(jù)權(quán)利要求6所述的方法,其中直到接收到用以激活所述語音辨識(shí)器的觸發(fā)短語才執(zhí)行對(duì)部分進(jìn)行分類。
11.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括訓(xùn)練所述語音辨識(shí)器來辨識(shí)不同用戶的語音簽名。
12.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括基于所述響應(yīng)而存儲(chǔ)針對(duì)所述用戶的說話者特定信息以供在確定額外響應(yīng)中使用。
13.根據(jù)權(quán)利要求1所述的方法,其中確定所述組響應(yīng)包括: 確定所述說話者特定信息中的用戶偏好;及 使用所述用戶偏好及所述所辨識(shí)聲輸入信號(hào)來執(zhí)行搜索。
14.根據(jù)權(quán)利要求13所述的方法,其進(jìn)一步包括: 確定所述組響應(yīng);及基于所述用戶偏好而對(duì)所述響應(yīng)進(jìn)行排序。
15.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 基于準(zhǔn)則及所述說話者特定信息而對(duì)所述組響應(yīng)進(jìn)行排序; 基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng); 基于所述響應(yīng)的所述排序而確定多個(gè)輸出方法中的一輸出方法;及 使用所述輸出方法來輸出所述響應(yīng)。
16.—種方法,其包括: 基于使用第一語音辨識(shí)算法辨識(shí)聲輸入信號(hào)及將所述聲輸入信號(hào)的部分分類到多個(gè)類別中的一類別中而從第一級(jí)辨識(shí)器接收信號(hào),所述第一級(jí)辨識(shí)器經(jīng)配置而以始終接通模式辨識(shí)所述聲輸入信號(hào); 由計(jì)算裝置在接收到所述信號(hào)后即刻激活第二級(jí)辨識(shí)器以辨識(shí)所述聲輸入信號(hào),所述第二級(jí)辨識(shí)器經(jīng)配置以使用第二語音辨識(shí)算法; 基于所述聲輸入信號(hào)而識(shí)別正在說話的用戶; 確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息; 基于所述說話者特定信息而確定對(duì)所述所辨識(shí)聲輸入信號(hào)的響應(yīng); 基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng);及 如果確定應(yīng)輸出 所述響應(yīng),那么輸出所述響應(yīng)。
17.根據(jù)權(quán)利要求16所述的方法,其中確定所述響應(yīng)包括: 基于所述所辨識(shí)聲輸入信號(hào)而確定多個(gè)響應(yīng); 基于包含所述說話者特定信息的準(zhǔn)則而對(duì)所述多個(gè)響應(yīng)進(jìn)行排序;及 基于所述排序而選擇響應(yīng)。
18.根據(jù)權(quán)利要求16所述的方法,其中所述排序是基于所述說話者特定信息、指派給所述響應(yīng)的相關(guān)性因素、緊迫性因素及重要性因素。
19.根據(jù)權(quán)利要求16所述的方法,其進(jìn)一步包括: 基于所述排序及所述說話者特定信息而確定多個(gè)輸出方法中的一輸出方法;及 基于所述輸出方法而輸出所述響應(yīng)。
20.根據(jù)權(quán)利要求16所述的方法,其中所述第一級(jí)辨識(shí)器經(jīng)觸發(fā)以接通且基于所述說話者特定信息而發(fā)送所述信號(hào)。
21.—種系統(tǒng),其包括: 第一級(jí)辨識(shí)器,其經(jīng)配置而以始終接通模式使用第一語音辨識(shí)算法來辨識(shí)聲輸入信號(hào),所述第一級(jí)辨識(shí)器經(jīng)配置以: 接收聲輸入信號(hào); 基于所述聲輸入信號(hào)而識(shí)別正在說話的用戶; 確定針對(duì)所述用戶先前所存儲(chǔ)的說話者特定信息; 使用第一語音辨識(shí)算法將所述聲輸入信號(hào)的部分分類到不同類別中; 基于對(duì)類別的選擇而確定應(yīng)觸發(fā)第二級(jí)辨識(shí)器,所述選擇是基于正以所述選定類別分類的經(jīng)分類部分及所述說話者特定信息;及第二級(jí)辨識(shí)器,其經(jīng)配置以: 從所述第一級(jí)辨識(shí)器接收用以激活所述第二級(jí)辨識(shí)器的信號(hào);在接收到所述信號(hào)后即刻激活所述第二級(jí)辨識(shí)器以辨識(shí)所述聲輸入信號(hào),所述第二級(jí)辨識(shí)器經(jīng)配置以使用不同于所述第一語音辨識(shí)算法的第二語音辨識(shí)算法來辨識(shí)所述聲輸入信號(hào); 使用所述說話者特定信息來確定對(duì)所述所辨識(shí)聲輸入信號(hào)的響應(yīng); 基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng);及 如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
22.根據(jù)權(quán)利要求21所述的系統(tǒng),其中所述第二級(jí)辨識(shí)器基于所述說話者特定信息而確定用以輸出所述響應(yīng)的輸出方法。
23.根據(jù)權(quán)利要求22所述的系統(tǒng),其中所述第一級(jí)辨識(shí)器將所述聲輸入信號(hào)的部分分類到不同類別中,其中所述不同類別是基于所述說話者特定信息而確定。
24.一種方法,其包括: 接收觸發(fā)短語; 基于接收到所述觸發(fā)短語而激活語音辨識(shí)器; 在所述語音辨識(shí)器處接收聲輸入信號(hào); 基于所述聲輸入信號(hào)或所述觸發(fā)短語而識(shí)別正在說話的用戶; 確定針對(duì)所述用戶先 前所存儲(chǔ)的說話者特定信息; 由計(jì)算裝置基于所述所辨識(shí)聲輸入信號(hào)及針對(duì)所述用戶的所述說話者特定信息而確定一組響應(yīng);及 如果確定應(yīng)輸出所述響應(yīng),那么輸出所述響應(yīng)。
25.根據(jù)權(quán)利要求24所述的方法,其進(jìn)一步包括在接收到所述觸發(fā)短語之后檢驗(yàn)誰正在說話以確定正在說話的所述所識(shí)別用戶是否仍在說話。
26.根據(jù)權(quán)利要求25所述的方法,其中周期性地執(zhí)行所述檢驗(yàn)。
27.根據(jù)權(quán)利要求25所述的方法,其中在認(rèn)為需要較高安全性時(shí)發(fā)生誰正在說話的第二檢驗(yàn)。
28.根據(jù)權(quán)利要求27所述的方法,其中由于執(zhí)行了所述第二檢驗(yàn),因此在安全情形中不需要手動(dòng)登錄。
【文檔編號(hào)】G10L15/22GK103827963SQ201280047262
【公開日】2014年5月28日 申請(qǐng)日期:2012年9月20日 優(yōu)先權(quán)日:2011年9月27日
【發(fā)明者】托德·F·莫澤爾 申請(qǐng)人:感官公司