背景技術(shù):
1、自動(dòng)化助理(也稱為“個(gè)人助理”、“移動(dòng)助理”等)可以由用戶經(jīng)由多種客戶端裝置進(jìn)行交互,諸如智能電話、平板計(jì)算機(jī)、可穿戴裝置、汽車系統(tǒng)、獨(dú)立個(gè)人助理裝置等等。自動(dòng)化助理接收來自用戶的輸入,包括口頭自然語言輸入(即,話語),并且可以通過執(zhí)行動(dòng)作、通過控制另一裝置和/或提供響應(yīng)內(nèi)容(例如,視覺和/或聽覺自然語言輸出)來進(jìn)行響應(yīng)。經(jīng)由客戶端裝置交互的自動(dòng)化助理可以經(jīng)由客戶端裝置本身和/或經(jīng)由與客戶端裝置網(wǎng)絡(luò)通信的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算裝置(例如,云中的計(jì)算裝置)來實(shí)現(xiàn)。
2、自動(dòng)化助理可以將對(duì)應(yīng)于用戶的口頭話語的音頻數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的文本(或其他語義表示)。例如,可以基于經(jīng)由包括自動(dòng)化助理的客戶端裝置的一個(gè)或多個(gè)麥克風(fēng)檢測(cè)到用戶的口頭話語來生成音頻數(shù)據(jù)。自動(dòng)化助理可以包括語音識(shí)別引擎,所述語音識(shí)別引擎試圖識(shí)別在音頻數(shù)據(jù)中捕獲的口頭話語的各種特性,諸如由口頭話語產(chǎn)生的聲音(例如,音素)、發(fā)音的順序、語音節(jié)奏、語調(diào)等。此外,語音識(shí)別引擎可以識(shí)別出此類特性所表示的文本單詞或短語。然后,自動(dòng)化助理可以進(jìn)一步處理所述文本(例如,使用自然語言理解引擎和/或?qū)υ挔顟B(tài)引擎),以確定口頭話語的響應(yīng)內(nèi)容。語音識(shí)別引擎可以由客戶端裝置和/或遠(yuǎn)離客戶端裝置但與客戶端裝置網(wǎng)絡(luò)通信的一個(gè)或多個(gè)自動(dòng)化助理組件來實(shí)現(xiàn)。
技術(shù)實(shí)現(xiàn)思路
1、本文描述的技術(shù)涉及基于捕獲口頭話語的音頻數(shù)據(jù)的處理的文本無關(guān)(ti)的說話者識(shí)別。然而,當(dāng)然應(yīng)了解,除了提供響應(yīng)內(nèi)容之外或代替提供響應(yīng)內(nèi)容,可以執(zhí)行/使得執(zhí)行其他動(dòng)作,諸如控制其他裝置,所述裝置諸如但不限于智能鎖、智能警報(bào)系統(tǒng)、智能開關(guān)和/或智能恒溫器。在此類示例中,可以僅響應(yīng)于驗(yàn)證特定授權(quán)用戶說出了特定口頭話語而使得其他裝置受到控制。在用戶允許的情況下,可以使用說話者識(shí)別來驗(yàn)證用戶說出了特定的口頭話語。響應(yīng)于驗(yàn)證用戶說出了特定的口頭話語,可以響應(yīng)于所述特定的口頭話語來提供內(nèi)容,其中所述內(nèi)容既響應(yīng)于特定的口頭話語,又是為用戶定制的。說話者識(shí)別可以包括使用說話者識(shí)別模型來處理捕獲口頭話語的音頻數(shù)據(jù)以生成輸出,并將所述輸出與用于用戶的說話者嵌入進(jìn)行比較(例如,與用戶的用戶配置文件相關(guān)聯(lián)的嵌入)。例如,如果生成的輸出和用戶的說話者嵌入之間的距離度量滿足閾值,則用戶可以被驗(yàn)證為說出了特定口頭話語的用戶??梢曰谳敵鰜砩捎糜谟脩舻恼f話者嵌入,所述輸出是基于對(duì)包括來自用戶的口頭話語的音頻數(shù)據(jù)的一個(gè)或多個(gè)實(shí)例的處理而生成的。例如,說話者嵌入可以基于多個(gè)不同嵌入的平均值(或其他組合),每一嵌入是基于對(duì)包括來自用戶的相應(yīng)口頭話語的相應(yīng)音頻數(shù)據(jù)實(shí)例的處理而生成的。
2、在文本相關(guān)(td)的說話者識(shí)別中,用戶的說話者嵌入是基于僅包括一個(gè)或多個(gè)特定單詞和/或一個(gè)或多個(gè)特定短語的口頭話語而生成的。此外,在使用中,用戶必須說出一個(gè)或多個(gè)特定單詞/短語以便使用與說話者嵌入充分匹配的td說話者識(shí)別模型來生成輸出。作為一個(gè)實(shí)例,td說話者識(shí)別中的一個(gè)或多個(gè)特定單詞/短語可以局限于被配置成調(diào)用自動(dòng)化助理的一個(gè)或多個(gè)調(diào)用短語。自動(dòng)化助理的調(diào)用短語包含一個(gè)或多個(gè)熱詞/觸發(fā)詞,例如,“嘿,助理”、“好的,助理”和/或“助理”。
3、相比來說,在ti說話者識(shí)別中,使用ti說話者識(shí)別模型處理的口頭話語并不局限于特定單詞和/或特定短語。換句話說,可以使用ti說話者識(shí)別模型來處理基于幾乎任何口頭話語的音頻數(shù)據(jù)以生成輸出,所述輸出可以有效地與特定用戶的ti說話者嵌入進(jìn)行比較,以確定口頭話語是否來自特定用戶。此外,在各種實(shí)施方式中,在ti說話者識(shí)別中利用的用戶的說話者嵌入是基于包括不同的單詞和/或短語的口頭話語來生成的。
4、在各種實(shí)施方式中,特定用戶的一個(gè)或多個(gè)說話者嵌入存儲(chǔ)在與所述特定用戶相關(guān)聯(lián)的客戶端裝置處(例如,客戶端裝置與所述特定用戶的用戶配置文件相關(guān)聯(lián),并且本地存儲(chǔ)的說話者嵌入與用戶配置文件相關(guān)聯(lián))。此外,多個(gè)用戶可以與同一個(gè)客戶端裝置相關(guān)聯(lián),且因此若干特定用戶的多個(gè)說話者嵌入可以存儲(chǔ)在客戶端裝置處(例如,客戶端裝置與若干特定用戶的用戶配置文件相關(guān)聯(lián),其中每一用戶配置文件包括相關(guān)聯(lián)的特定用戶的至少一個(gè)說話者嵌入)。在客戶端裝置處存儲(chǔ)說話者嵌入(與在諸如服務(wù)器的遠(yuǎn)程計(jì)算裝置處存儲(chǔ)說話者嵌入相比)可以有助于保護(hù)數(shù)據(jù)安全性。在各種實(shí)施方式中,td說話者識(shí)別可以發(fā)生在客戶端裝置處。另一方面,ti說話者識(shí)別在計(jì)算上可能是昂貴的(例如,處理器和/或存儲(chǔ)器資源),和/或依賴于需要大量存儲(chǔ)空間的ti說話者識(shí)別模型。因此,在許多實(shí)施方式中,ti說話者識(shí)別可以更好地適用于遠(yuǎn)程計(jì)算裝置(例如,一個(gè)或多個(gè)服務(wù)器),所述遠(yuǎn)程計(jì)算裝置可以利用它們更魯棒的資源。另外或可替代地,在許多實(shí)施方式中,ti說話者識(shí)別可以發(fā)生在客戶端裝置處。例如,當(dāng)在客戶端裝置處執(zhí)行ti說話者識(shí)別時(shí),增量式驗(yàn)證結(jié)果可以從客戶端裝置傳輸?shù)椒?wù)器。此外,在各種實(shí)施方式中,ti說話者嵌入可以本地存儲(chǔ)在客戶端裝置處,并且與捕獲口頭話語的音頻數(shù)據(jù)一起傳輸?shù)竭h(yuǎn)程計(jì)算裝置,以使得能夠使用ti說話者嵌入來驗(yàn)證(通過遠(yuǎn)程計(jì)算裝置)話語的說話者。在各種實(shí)施方式中,在遠(yuǎn)程計(jì)算裝置處與音頻數(shù)據(jù)一起接收并在ti說話者識(shí)別中利用的說話者嵌入可以在它們被用于說話者識(shí)別過程之后立即從遠(yuǎn)程計(jì)算裝置中刪除,從而保護(hù)數(shù)據(jù)安全性,并減少了惡意行為者以利用說話者嵌入為目的來訪問說話者嵌入從而未經(jīng)授權(quán)而訪問內(nèi)容或控制裝置的機(jī)會(huì)。
5、本文公開的一些實(shí)施方式涉及至少選擇性地利用說話者識(shí)別中的td說話者識(shí)別模型和ti說話者識(shí)別模型兩者。例如,可以使用td說話者識(shí)別模型來處理捕獲口頭話語的音頻數(shù)據(jù)的調(diào)用部分,以生成td輸出。td輸出然后可以與給定用戶的td說話者嵌入相比較,以生成給定用戶的td用戶測(cè)量。例如,td用戶測(cè)量可以基于td輸出和td說話者嵌入之間的距離(在嵌入空間中)。此外,可以使用ti說話者識(shí)別模型來處理捕獲口頭話語的音頻數(shù)據(jù)的至少附加部分,以生成ti輸出。ti輸出然后可以與給定用戶的ti說話者嵌入相比較,以生成給定用戶的ti用戶測(cè)量。例如,ti用戶測(cè)量可以基于ti輸出和ti說話者嵌入之間的距離(在嵌入空間中)。
6、td用戶測(cè)量和ti用戶測(cè)量可以至少選擇性地組合使用,以確定給定用戶是否是口頭話語的說話者。例如,td用戶測(cè)量和ti用戶測(cè)量可以分別與各自的閾值進(jìn)行比較,可以被平均(或以其他方式組合)并與閾值進(jìn)行比較,和/或以其他方式在確定給定用戶是否是口頭話語的說話者時(shí)被組合考慮。利用td和ti用戶測(cè)量?jī)烧呖梢栽黾诱f話者識(shí)別的魯棒性和/或準(zhǔn)確性。這可以減輕可能損害(例如,數(shù)據(jù))安全性的誤判,和/或減輕可能導(dǎo)致相應(yīng)用戶需要再次提供口頭話語的漏判——防止計(jì)算和網(wǎng)絡(luò)資源在再次處理和傳輸口頭話語時(shí)被浪費(fèi)。
7、在一些實(shí)施方式中,ti說話者識(shí)別模型僅在td用戶測(cè)量未能滿足閾值時(shí)用于說話者識(shí)別。例如,如果給定用戶的td用戶測(cè)量以高置信度指示給定用戶是口頭輸入的說話者,則可以繞過ti說話者識(shí)別。這可以通過在只有td說話者識(shí)別以高置信度識(shí)別說話者時(shí)阻止執(zhí)行ti說話者識(shí)別來節(jié)省計(jì)算資源。在一些實(shí)施方式中,當(dāng)ti用戶測(cè)量和td用戶測(cè)量?jī)烧哂糜谡f話者識(shí)別中時(shí),可以基于針對(duì)其正在識(shí)別說話者的請(qǐng)求的一個(gè)或多個(gè)特征來動(dòng)態(tài)確定兩個(gè)測(cè)量的相應(yīng)權(quán)重。此類特征可以包括例如,請(qǐng)求的口頭話語的長(zhǎng)度(例如,整體長(zhǎng)度、或至少請(qǐng)求的任何非調(diào)用部分的長(zhǎng)度)、和/或td用戶測(cè)量的量值。例如,相比于“好的,助理,出了什么事”的請(qǐng)求,對(duì)于“好的,助理,我接下來的五個(gè)日歷條目是什么”的請(qǐng)求,ti用戶測(cè)量的權(quán)重可以更重。此類更重的加權(quán)可以至少部分地基于“我接下來的五個(gè)日歷條目是什么”比“出了什么事”更長(zhǎng)(持續(xù)時(shí)間和/或術(shù)語/字符方面)——因?yàn)槭褂胻i說話者識(shí)別模型處理更長(zhǎng)的音頻數(shù)據(jù)可以導(dǎo)致生成更準(zhǔn)確的ti用戶測(cè)量。作為另一實(shí)例,當(dāng)td用戶測(cè)量指示高置信度時(shí),與td用戶測(cè)量不指示高置信度時(shí)相比,ti用戶測(cè)量的權(quán)重低很多。ti和td用戶測(cè)量的此類動(dòng)態(tài)加權(quán)可以通過以更可能導(dǎo)致準(zhǔn)確說話者識(shí)別的方式移位加權(quán)來減輕誤判和/或漏判。
8、上文描述的示例是針對(duì)與單個(gè)用戶相關(guān)聯(lián)的嵌入和測(cè)量來描述的。然而,如本文所描述,在各種情況下,客戶端裝置可以與多個(gè)用戶相關(guān)聯(lián),每一用戶具有單獨(dú)的說話者嵌入(例如,每一用戶具有相應(yīng)的ti說話者嵌入和相應(yīng)的td說話者嵌入)。在這些情況下,針對(duì)多個(gè)用戶中的每一個(gè)的相應(yīng)td用戶測(cè)量和相應(yīng)ti用戶測(cè)量可以用于識(shí)別多個(gè)用戶中的哪一個(gè)說出了口頭話語。
9、本文公開的一些實(shí)施方式另外地或可替代地涉及啟動(dòng)對(duì)與請(qǐng)求相關(guān)聯(lián)的多個(gè)用戶中的每一個(gè)的響應(yīng)內(nèi)容的確定,其中所述啟動(dòng)發(fā)生在完成確定(例如,使用ti說話者識(shí)別模型)多個(gè)用戶中的哪一個(gè)說出了在請(qǐng)求的音頻數(shù)據(jù)中捕獲的口頭話語之前。然后,響應(yīng)于確定特定用戶說出了在請(qǐng)求的音頻數(shù)據(jù)中捕獲的口頭話語,可以使特定用戶的響應(yīng)內(nèi)容響應(yīng)于請(qǐng)求而被呈現(xiàn)。啟動(dòng)確定多個(gè)用戶中的每一個(gè)的響應(yīng)內(nèi)容可以使得響應(yīng)內(nèi)容能夠在已經(jīng)確定多個(gè)用戶中的哪一個(gè)說出了口頭話語之前開始生成。因此,與在啟動(dòng)生成特定用戶的響應(yīng)內(nèi)容之前等待識(shí)別特定用戶相比,可以以減少的時(shí)延生成和/或呈現(xiàn)特定用戶的響應(yīng)內(nèi)容(或者可以執(zhí)行動(dòng)作)??蛇x地,如果在完成其他用戶的響應(yīng)內(nèi)容的生成之前識(shí)別出特定用戶,則可以停止生成其他用戶的響應(yīng)內(nèi)容,以防止在繼續(xù)生成其他用戶的此類響應(yīng)內(nèi)容時(shí)使用任何其他的計(jì)算和/或網(wǎng)絡(luò)資源。
10、此外,在各種實(shí)施方式中,啟動(dòng)確定與請(qǐng)求相關(guān)聯(lián)的多個(gè)用戶中的每一個(gè)的響應(yīng)內(nèi)容僅響應(yīng)于那些滿足一個(gè)或多個(gè)閾值的多個(gè)用戶的最初確定的td測(cè)量而發(fā)生。例如,如本文所描述,在各種情況下,td測(cè)量可以在ti測(cè)量之前生成,并且/或者可以包括(或至少指示)在接收到的請(qǐng)求中。如果與請(qǐng)求相關(guān)聯(lián)的三個(gè)用戶中的兩個(gè)用戶的td測(cè)量滿足閾值,則可以搶先啟動(dòng)生成這兩個(gè)用戶的響應(yīng)內(nèi)容(而對(duì)于td測(cè)量不滿足閾值的另一用戶,則不搶先啟動(dòng))。如果只有一個(gè)用戶的td測(cè)量滿足閾值,則可選地可以僅針對(duì)所述一個(gè)用戶搶先啟動(dòng)生成響應(yīng)內(nèi)容。如果與請(qǐng)求相關(guān)聯(lián)的所有三個(gè)用戶的td測(cè)量都滿足閾值,則可以搶先啟動(dòng)生成所有三個(gè)用戶的響應(yīng)內(nèi)容。
11、一些實(shí)施方式另外地或可替代地涉及使用更新的ti說話者識(shí)別模型自動(dòng)地生成給定用戶的更新版本的ti說話者嵌入。在這些實(shí)施方式中的一些中,從客戶端裝置接收請(qǐng)求,其中所述請(qǐng)求包括捕獲給定用戶的口頭輸入的音頻數(shù)據(jù),并且包括給定用戶的說話者嵌入的版本。在這些實(shí)施方式的一些版本中,響應(yīng)于確定所述版本的說話者嵌入是使用過時(shí)的ti說話者識(shí)別模型生成的,生成給定用戶的更新版本的說話者嵌入。例如,基于包括在請(qǐng)求中的所述版本的說話者嵌入的版本標(biāo)識(shí)符,可以確定已經(jīng)使用過時(shí)的ti說話者識(shí)別模型生成了所述版本的說話者嵌入。過時(shí)版本的說話者嵌入仍然可以用于將給定用戶識(shí)別為已經(jīng)說出了包括在請(qǐng)求的音頻數(shù)據(jù)中的口頭輸入,以及生成響應(yīng)于口頭輸入并且為給定用戶定制的響應(yīng)內(nèi)容。通過利用過時(shí)版本的ti說話者識(shí)別模型來處理至少一部分音頻數(shù)據(jù)以生成輸出,并將生成的輸出與過時(shí)版本的說話者嵌入進(jìn)行比較,可以在識(shí)別給定用戶時(shí)利用過時(shí)版本的說話者嵌入??梢皂憫?yīng)于請(qǐng)求而將響應(yīng)內(nèi)容傳輸?shù)娇蛻舳搜b置,從而使得在客戶端裝置處呈現(xiàn)響應(yīng)內(nèi)容(或其轉(zhuǎn)換)。利用過時(shí)版本的ti說話者識(shí)別模型使得能夠?qū)Πㄟ^時(shí)說話者嵌入的請(qǐng)求執(zhí)行說話者識(shí)別,無需等待生成更新的說話者嵌入。盡管部署了更新的說話者嵌入模型,但這可以繼續(xù)支持過時(shí)的說話者嵌入。此外,這可以減輕在生成對(duì)包括過時(shí)的說話者嵌入的請(qǐng)求的響應(yīng)中的時(shí)延,因?yàn)檫^時(shí)的說話者嵌入可以被用來識(shí)別說話者,并且可選地傳輸為所識(shí)別的說話者定制的內(nèi)容——而不是需要等待生成更新的說話者嵌入來驗(yàn)證用戶(其中更新的說話者嵌入的生成可能引入不期望的時(shí)延)。另外,所述技術(shù)確保在大部分時(shí)間使用給定用戶的最新版本的ti說話者嵌入,同時(shí)分散與為所有用戶生成和提供更新的說話者嵌入相關(guān)聯(lián)的計(jì)算負(fù)荷。此外,由于所述版本的ti說話者嵌入僅在接收到來自給定用戶的包括內(nèi)容的請(qǐng)求時(shí)生成,所以更新版本的ti說話者嵌入不會(huì)自動(dòng)生成并提供給不再使用或很少使用助理系統(tǒng)的用戶。
12、更新版本的說話者嵌入可以基于音頻數(shù)據(jù)的過去實(shí)例而生成,這些過去實(shí)例被存儲(chǔ)(在用戶允許的情況下)并且每一實(shí)例捕獲被確定為由用戶說出的過去口頭話語。在那些不同實(shí)施方式中的一些中,基于尋求增加嵌入的魯棒性(從而確?;谡f話者嵌入的魯棒的ti說話者識(shí)別)的一個(gè)或多個(gè)準(zhǔn)則來選擇被選擇用于生成說話者嵌入的音頻數(shù)據(jù)的過去實(shí)例。例如,可以基于包括集體多樣化的話語(例如,語音多樣化、單詞多樣化和/或其他多樣化特征)來選擇音頻數(shù)據(jù)實(shí)例的集合,可以基于包括至少具有閾值長(zhǎng)度的話語來選擇音頻數(shù)據(jù)的一個(gè)或多個(gè)實(shí)例,等等。此外,利用滿足一個(gè)或多個(gè)準(zhǔn)則的音頻數(shù)據(jù)的過去實(shí)例可以導(dǎo)致更魯棒的嵌入。此外,利用過去的實(shí)例可以減輕用戶再次提供多個(gè)登記話語的需要,這可能是耗時(shí)的并且可能不必要地消耗資源,諸如處理登記話語時(shí)的計(jì)算資源和/或傳輸對(duì)應(yīng)于登記話語的音頻數(shù)據(jù)時(shí)的網(wǎng)絡(luò)資源。一旦生成,可以將更新的說話者嵌入傳輸?shù)娇蛻舳搜b置,以使得所述客戶端裝置本地存儲(chǔ)更新的說話者嵌入以用于與未來請(qǐng)求一起傳輸。當(dāng)響應(yīng)于被確定為包括過時(shí)的說話者嵌入的請(qǐng)求而生成更新的說話者嵌入時(shí),更新的說話者嵌入可以可選地在傳輸響應(yīng)于所述請(qǐng)求并且利用過時(shí)的ti說話者嵌入生成的響應(yīng)內(nèi)容之后被傳輸。如上文提及,利用過時(shí)的ti說話者識(shí)別模型可以能夠快速地提供生成響應(yīng)內(nèi)容(或動(dòng)作)并減少時(shí)延,同時(shí)更新的ti說話者嵌入的生成仍在進(jìn)行。
13、提供以上描述作為本文公開的各種實(shí)施方式的概述。本文將更詳細(xì)地描述那些不同的實(shí)施方式以及附加的實(shí)施方式。
14、在一些實(shí)施方式中,提供一種由一個(gè)或多個(gè)處理器實(shí)現(xiàn)的方法,所述方法包括:從客戶端裝置并且經(jīng)由網(wǎng)絡(luò)接收自動(dòng)化助理請(qǐng)求,所述請(qǐng)求包括:用于所述客戶端裝置的特定用戶的文本無關(guān)(ti)說話者嵌入,以及捕獲所述特定用戶的口頭輸入的音頻數(shù)據(jù),其中所述音頻數(shù)據(jù)經(jīng)由所述客戶端裝置的一個(gè)或多個(gè)麥克風(fēng)捕獲。所述方法進(jìn)一步包括確定所述ti說話者嵌入是使用過時(shí)版本的ti說話者識(shí)別模型生成的。所述方法進(jìn)一步包括響應(yīng)于確定所述說話者嵌入是使用所述過時(shí)版本的所述ti說話者識(shí)別模型生成的:使用所述過時(shí)版本的所述ti說話者識(shí)別模型處理所述音頻數(shù)據(jù)的至少一部分以生成ti輸出。所述方法進(jìn)一步包括通過比較所述ti輸出與所述特定用戶的所述說話者嵌入,確定所述特定用戶是否說出了所述口頭輸入。所述方法進(jìn)一步包括響應(yīng)于確定所述特定用戶說出了所述口頭輸入:執(zhí)行基于所述音頻數(shù)據(jù)的一個(gè)或多個(gè)動(dòng)作;使用更新版本的所述ti說話者識(shí)別模型處理捕獲所述特定用戶的先前口頭輸入的先前音頻數(shù)據(jù),以生成更新的說話者嵌入;以及將所述特定用戶的所述更新的說話者嵌入傳輸?shù)剿隹蛻舳搜b置,以使得所述客戶端裝置本地存儲(chǔ)所述更新的說話者嵌入以用于與未來自動(dòng)化助理請(qǐng)求一起傳輸。
15、本文所公開的技術(shù)的這些和其他實(shí)施方式可以包括以下特征中的一個(gè)或多個(gè)。
16、在一些實(shí)施方式中,實(shí)現(xiàn)所述方法的一個(gè)或多個(gè)處理器在遠(yuǎn)離所述客戶端裝置的一個(gè)或多個(gè)計(jì)算裝置處,并且進(jìn)一步包括:響應(yīng)于將用于所述特定用戶的所述更新的說話者嵌入傳輸?shù)剿隹蛻舳搜b置:從所述一個(gè)或多個(gè)計(jì)算裝置刪除所述更新的說話者嵌入的所有實(shí)例。
17、在一些實(shí)施方式中,使用過時(shí)版本的所述ti說話者識(shí)別模型處理所述音頻數(shù)據(jù)的至少一部分以生成ti輸出包括:使用所述過時(shí)版本的所述ti說話者識(shí)別模型處理所述音頻數(shù)據(jù)的附加部分(該附加部分是除了所述音頻數(shù)據(jù)的調(diào)用短語部分之外的部分),以生成所述ti輸出。
18、在一些實(shí)施方式中,使用過時(shí)版本的所述ti說話者識(shí)別模型處理所述音頻數(shù)據(jù)的至少一部分以生成ti輸出包括:使用所述過時(shí)版本的所述ti說話者識(shí)別模型處理所述音頻數(shù)據(jù)的調(diào)用短語部分和所述音頻數(shù)據(jù)的附加部分,以生成所述ti輸出。
19、在一些實(shí)施方式中,使用更新版本的所述ti說話者識(shí)別模型處理捕獲所述特定用戶的先前口頭輸入的所述先前音頻數(shù)據(jù)以生成更新的說話者嵌入包括:使用所述更新版本的所述ti說話者識(shí)別模型處理所述先前音頻數(shù)據(jù)的多個(gè)實(shí)例以生成所述更新的說話者嵌入,其中所述先前音頻數(shù)據(jù)的所述實(shí)例中的每一個(gè)捕獲所述特定用戶的先前口頭輸入。
20、在一些實(shí)施方式中,所述方法進(jìn)一步包括基于所述先前音頻數(shù)據(jù)的所述多個(gè)實(shí)例滿足一個(gè)或多個(gè)準(zhǔn)則而選擇所述先前音頻數(shù)據(jù)的所述多個(gè)實(shí)例。
21、在一些實(shí)施方式中,所述一個(gè)或多個(gè)準(zhǔn)則包括以下各項(xiàng)中的一個(gè)或多個(gè):用于所述先前音頻數(shù)據(jù)的所述多個(gè)實(shí)例中的每一者的長(zhǎng)度準(zhǔn)則;以及用于所述先前音頻數(shù)據(jù)的所述多個(gè)實(shí)例的多樣性準(zhǔn)則。在這些實(shí)施方式的一些版本中,所述方法進(jìn)一步包括通過下述方式來用捕獲所述特定用戶的所述口頭輸入的所述音頻數(shù)據(jù)替換所述先前音頻數(shù)據(jù)的所述實(shí)例中的先前音頻數(shù)據(jù)實(shí)例:確定所述多個(gè)先前音頻數(shù)據(jù)中先前音頻數(shù)據(jù)的每一實(shí)例的長(zhǎng)度。所述方法進(jìn)一步包括確定捕獲所述特定用戶的所述口頭輸入的所述音頻數(shù)據(jù)的長(zhǎng)度。所述方法進(jìn)一步包括比較所述音頻數(shù)據(jù)的所述長(zhǎng)度與先前音頻數(shù)據(jù)的每一實(shí)例的所述長(zhǎng)度。所述方法進(jìn)一步包括響應(yīng)于基于所述比較確定所述音頻數(shù)據(jù)比先前音頻數(shù)據(jù)的一個(gè)或多個(gè)實(shí)例長(zhǎng),用最短長(zhǎng)度的所述音頻數(shù)據(jù)替換先前音頻數(shù)據(jù)的所述實(shí)例。
22、在一些實(shí)施方式中,確定所述ti說話者嵌入是使用過時(shí)版本的所述ti說話者識(shí)別模型生成的至少部分基于所述ti說話者嵌入的版本標(biāo)識(shí)符,所述版本標(biāo)識(shí)符包括在所述自動(dòng)化助理請(qǐng)求中。
23、在一些實(shí)施方式中,執(zhí)行基于所述音頻數(shù)據(jù)的一個(gè)或多個(gè)動(dòng)作包括基于所述音頻數(shù)據(jù)控制一個(gè)或多個(gè)外圍裝置。
24、在一些實(shí)施方式中,執(zhí)行基于所述音頻數(shù)據(jù)的一個(gè)或多個(gè)動(dòng)作包括生成為所述特定用戶定制并且基于所述音頻數(shù)據(jù)的響應(yīng)內(nèi)容,以及使得所述客戶端裝置基于所述響應(yīng)內(nèi)容呈現(xiàn)輸出。在這些實(shí)施方式的一些版本中,所述方法進(jìn)一步包括在使得所述客戶端裝置基于所述響應(yīng)內(nèi)容呈現(xiàn)輸出之后,完成生成所述更新的說話者嵌入。
25、在一些實(shí)施方式中,自動(dòng)化助理請(qǐng)求進(jìn)一步包括文本相關(guān)(td)用戶測(cè)量,所述td用戶測(cè)量是使用本地存儲(chǔ)在所述客戶端裝置處的td說話者識(shí)別模型以及使用本地存儲(chǔ)在所述客戶端裝置處的td說話者嵌入而在所述客戶端裝置本地生成的,所述td說話者嵌入用于所述特定用戶,并且其中通過比較所述ti輸出與所述特定用戶的所述說話者嵌入來確定所述特定用戶是否說出了所述口頭輸入進(jìn)一步包括:通過比較所述ti輸出與所述說話者嵌入來確定ti用戶測(cè)量;以及使用所述td用戶測(cè)量和所述ti用戶測(cè)量?jī)烧邅泶_定所述特定用戶是否說出了所述口頭輸入。在這些實(shí)施方式中的一些版本中,所述方法進(jìn)一步包括通過下述方式使用所述td用戶測(cè)量和所述ti用戶測(cè)量?jī)烧叽_定所述特定用戶是否說出了所述口頭輸入:通過組合所述td用戶測(cè)量和所述ti用戶測(cè)量來確定特定用戶概率測(cè)量,所述特定用戶概率測(cè)量指示所述特定用戶說出了所述口頭輸入的概率;以及通過確定所述特定用戶概率測(cè)量是否滿足閾值來確定所述特定用戶是否說出了所述口頭輸入。在這些實(shí)施方式中的一些版本中,響應(yīng)于確定所述說話者嵌入是使用所述過時(shí)版本的所述ti說話者識(shí)別模型生成的,所述方法進(jìn)一步包括確定第一用戶配置文件和第二用戶配置文件都與所述自動(dòng)化助理請(qǐng)求相關(guān)聯(lián)。所述方法進(jìn)一步包括響應(yīng)于確定第一用戶配置文件和所述第二用戶配置文件都與所述自動(dòng)化助理請(qǐng)求相關(guān)聯(lián),啟動(dòng)生成為所述第一用戶定制并且響應(yīng)于所述口頭輸入的第一響應(yīng)內(nèi)容。所述方法進(jìn)一步包括啟動(dòng)生成為所述第二用戶定制并且響應(yīng)于所述口頭輸入的第二響應(yīng)內(nèi)容。所述方法進(jìn)一步包括在完成生成所述第一響應(yīng)內(nèi)容和所述第二響應(yīng)內(nèi)容之前,使用所述ti說話者識(shí)別模型至少處理音頻數(shù)據(jù)的所述部分以生成ti輸出。所述方法近一步包括通過比較所述ti輸出與所述第一用戶的說話者嵌入,確定所述特定用戶是否是所述第一用戶,以及所述特定用戶是否說出了所述口頭輸入。所述方法進(jìn)一步包括,響應(yīng)于確定所述特定用戶說出了所述口頭輸入,進(jìn)一步包括將所述第一響應(yīng)內(nèi)容傳輸?shù)剿隹蛻舳搜b置,而不是將所述第二響應(yīng)內(nèi)容傳輸?shù)剿隹蛻舳搜b置。
26、在一些實(shí)施方式中,提供一種由一個(gè)或多個(gè)處理器實(shí)現(xiàn)的方法,所述方法包括從客戶端裝置并且經(jīng)由網(wǎng)絡(luò)接收自動(dòng)化助理請(qǐng)求,所述請(qǐng)求包括:捕獲用戶的口頭輸入的音頻數(shù)據(jù),其中所述音頻數(shù)據(jù)在所述客戶端裝置的一個(gè)或多個(gè)麥克風(fēng)處捕獲,以及文本相關(guān)(td)用戶測(cè)量,所述td用戶測(cè)量是使用本地存儲(chǔ)在所述客戶端裝置處的td說話者識(shí)別模型以及使用本地存儲(chǔ)在所述客戶端裝置處的td說話者嵌入而在所述客戶端裝置本地生成的,所述td說話者嵌入用于特定用戶。所述方法進(jìn)一步包括使用文本無關(guān)(ti)說話者識(shí)別模型處理所述音頻數(shù)據(jù)的至少一部分以生成ti輸出。所述方法進(jìn)一步包括通過比較所述ti輸出與ti說話者嵌入來確定ti用戶測(cè)量,所述ti說話者嵌入與所述自動(dòng)化助理請(qǐng)求相關(guān)聯(lián)并且用于所述特定用戶。所述方法進(jìn)一步包括使用所述td用戶測(cè)量和所述ti用戶測(cè)量?jī)烧邅泶_定所述特定用戶是否說出了所述口頭輸入。所述方法進(jìn)一步包括,響應(yīng)于確定所述口頭輸入由所述特定用戶說出:生成響應(yīng)于所述口頭話語并且為所述特定用戶定制的響應(yīng)內(nèi)容。所述方法進(jìn)一步包括將所述響應(yīng)內(nèi)容傳輸?shù)剿隹蛻舳搜b置使得所述客戶端裝置基于所述響應(yīng)內(nèi)容而呈現(xiàn)輸出。
27、本文所公開的技術(shù)的這些和其他實(shí)施方式可以包括以下特征中的一個(gè)或多個(gè)。
28、在一些實(shí)施方式中,經(jīng)由所述網(wǎng)絡(luò)從所述客戶端裝置接收的所述自動(dòng)化助理請(qǐng)求進(jìn)一步包括用于所述特定用戶的所述ti說話者嵌入。
29、在一些實(shí)施方式中,使用所述td用戶測(cè)量和所述ti用戶測(cè)量?jī)烧叽_定所述特定用戶是否說出了所述口頭輸入包括:通過組合所述td用戶測(cè)量和所述ti用戶測(cè)量來確定特定用戶概率測(cè)量,所述特定用戶概率測(cè)量指示所述特定用戶說出了所述口頭輸入的概率。所述方法進(jìn)一步包括通過確定所述特定用戶概率測(cè)量是否滿足閾值來確定所述特定用戶是否說出了所述口頭輸入。在這些實(shí)施方式的一些版本中,組合所述td用戶測(cè)量和所述ti用戶測(cè)量包括在所述組合中利用所述td用戶測(cè)量的第一權(quán)重以及在所述組合中利用所述ti用戶測(cè)量的第二權(quán)重。在這些實(shí)施方式的一些版本中,所述方法進(jìn)一步包括基于所述音頻數(shù)據(jù)或所述口頭輸入的長(zhǎng)度來確定所述第一權(quán)重和所述第二權(quán)重。
30、在一些實(shí)施方式中,所述方法進(jìn)一步包括基于所述td用戶測(cè)量的量值來確定所述第一權(quán)重和所述第二權(quán)重。
31、在一些實(shí)施方式中,所述方法進(jìn)一步包括確定所述td用戶測(cè)量未能滿足閾值,其中處理所述音頻數(shù)據(jù)的所述部分以生成ti輸出、確定所述ti用戶測(cè)量、以及使用所述td用戶測(cè)量和所述ti用戶測(cè)量?jī)烧叽_定所述特定用戶是否說出了所述口頭輸入,都是僅響應(yīng)于確定所述td用戶測(cè)量未能滿足所述閾值而執(zhí)行的。
32、在一些實(shí)施方式中,提供一種由一個(gè)或多個(gè)處理器實(shí)現(xiàn)的方法,所述方法包括從客戶端裝置并且經(jīng)由網(wǎng)絡(luò)接收自動(dòng)化助理請(qǐng)求,所述請(qǐng)求包括捕獲口頭輸入的音頻數(shù)據(jù),其中所述音頻數(shù)據(jù)是在所述客戶端裝置的一個(gè)或多個(gè)麥克風(fēng)處捕獲的。所述方法進(jìn)一步包括確定第一用戶配置文件和第二用戶配置文件都與所述自動(dòng)化助理請(qǐng)求相關(guān)聯(lián)。所述方法進(jìn)一步包括響應(yīng)于確定第一用戶配置文件和所述第二用戶配置文件都與所述自動(dòng)化助理請(qǐng)求相關(guān)聯(lián),啟動(dòng)生成為所述第一用戶定制并且響應(yīng)于所述口頭輸入的第一響應(yīng)內(nèi)容。所述方法進(jìn)一步包括啟動(dòng)生成為第二用戶定制并且響應(yīng)于所述口頭輸入的第二響應(yīng)內(nèi)容。所述方法進(jìn)一步包括在完成生成所述第一響應(yīng)內(nèi)容和所述第二響應(yīng)內(nèi)容之前,使用文本無關(guān)(ti)說話者識(shí)別模型處理所述音頻數(shù)據(jù)的至少一部分以生成ti輸出。所述方法進(jìn)一步包括通過比較對(duì)應(yīng)于所述第一用戶配置文件的第一用戶說話者嵌入與所述ti輸出來確定所述第一用戶說出了所述口頭輸入。所述方法進(jìn)一步包括,響應(yīng)于確定所述第一用戶說出了所述口頭輸入,將所述第一響應(yīng)內(nèi)容傳輸?shù)剿隹蛻舳搜b置,而不是將所述第二響應(yīng)內(nèi)容傳輸?shù)剿隹蛻舳搜b置。
33、本文所公開的技術(shù)的這些和其他實(shí)施方式可以包括以下特征中的一個(gè)或多個(gè)。
34、在一些實(shí)施方式中,確定所述第一用戶說出了所述口頭輸入發(fā)生在完成生成為所述第二用戶定制的所述第二響應(yīng)內(nèi)容之前,并且進(jìn)一步包括,響應(yīng)于確定所述第一用戶說出了所述口頭輸入,停止生成為所述第二用戶定制的所述第二響應(yīng)內(nèi)容。
35、在一些實(shí)施方式中,所述方法進(jìn)一步包括確定除了所述第一用戶配置文件和所述第二用戶配置文件之外,第三用戶配置文件與所述自動(dòng)化助理請(qǐng)求相關(guān)聯(lián)。所述方法進(jìn)一步包括,響應(yīng)于確定所述第三用戶配置文件與所述自動(dòng)化助理請(qǐng)求相關(guān)聯(lián),啟動(dòng)生成為所述第三用戶定制并且響應(yīng)于所述口頭輸入的第三響應(yīng)內(nèi)容。
36、在一些實(shí)施方式中,確定所述第一用戶說出了所述口頭輸入還基于用于所述第一用戶配置文件的文本相關(guān)(td)用戶測(cè)量,所述td用戶測(cè)量包括在所述自動(dòng)化助理請(qǐng)求中。
37、在一些實(shí)施方式中,所述自動(dòng)化助理請(qǐng)求進(jìn)一步包括用于所述第一用戶配置文件的第一文本相關(guān)(td)測(cè)量和用于所述第二用戶配置文件的第二td測(cè)量,并且其中啟動(dòng)生成所述第一響應(yīng)內(nèi)容以及其中啟動(dòng)生成所述第二響應(yīng)內(nèi)容進(jìn)一步響應(yīng)于所述第一td測(cè)量和所述第二td測(cè)量未能滿足一個(gè)或多個(gè)閾值。
38、另外,一些實(shí)施方式包括一個(gè)或多個(gè)計(jì)算裝置的一個(gè)或多個(gè)處理器(例如,中央處理單元(cpu)、圖形處理單元(gpu)和/或張量處理單元(tpu))),其中一個(gè)或多個(gè)處理器可操作以執(zhí)行存儲(chǔ)在相關(guān)聯(lián)的存儲(chǔ)器中的指令,并且其中指令被配置成使得執(zhí)行本文描述的方法中的任一項(xiàng)。一些實(shí)施方式還包括存儲(chǔ)計(jì)算機(jī)指令的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)指令可由一個(gè)或多個(gè)處理器執(zhí)行以執(zhí)行本文所描述方法中的任一項(xiàng)。
39、應(yīng)了解,本文更詳細(xì)描述的前述概念和附加概念的所有組合都被認(rèn)為是本文所公開的主題的一部分。例如,出現(xiàn)在本公開末尾的要求保護(hù)的主題的所有組合被認(rèn)為是本文所公開的主題的一部分。