分布式語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)音模型檢索的制作方法
【專(zhuān)利說(shuō)明】
【背景技術(shù)】
[0001]現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)通常包含聲學(xué)模型和語(yǔ)言模型。聲學(xué)模型用來(lái)生成關(guān)于哪些字詞或子字單元(例如,音素)基于話(huà)語(yǔ)的聲學(xué)特征對(duì)應(yīng)于話(huà)語(yǔ)的假設(shè)。語(yǔ)言模型用來(lái)基于說(shuō)出話(huà)語(yǔ)的語(yǔ)言的詞匯特征來(lái)確定使用聲學(xué)模型生成的哪個(gè)假設(shè)最有可能是話(huà)語(yǔ)的轉(zhuǎn)錄。
[0002]語(yǔ)音識(shí)別中使用的聲學(xué)模型、語(yǔ)言模型及其它模型(統(tǒng)稱(chēng)為語(yǔ)音識(shí)別模型)可在各種程度上專(zhuān)門(mén)化或自定義。例如,語(yǔ)音識(shí)別系統(tǒng)可具有并不采用任何特定方式自定義的通用模型或基礎(chǔ)模型,以及用于特定性別、年齡范圍、地域口音或其任何組合的任何數(shù)量的額外模型。一些系統(tǒng)可具有用于特定主題(例如,醫(yī)學(xué)術(shù)語(yǔ))乃至特定用戶(hù)的模型。
[0003]語(yǔ)音識(shí)別系統(tǒng)可以基于客戶(hù)端或基于客戶(hù)端-服務(wù)器。例如,膝上型計(jì)算機(jī)等計(jì)算裝置可包含應(yīng)用軟件和數(shù)據(jù),以便將音頻輸入處理成文本輸出或音頻輸入的可能轉(zhuǎn)錄的列表。一些語(yǔ)音識(shí)別通過(guò)個(gè)人或移動(dòng)計(jì)算裝置來(lái)接受音頻輸入,并將音頻輸入傳遞到網(wǎng)絡(luò)可訪(fǎng)問(wèn)的服務(wù)器,在該網(wǎng)絡(luò)可訪(fǎng)問(wèn)的服務(wù)器中,音頻輸入被轉(zhuǎn)錄或執(zhí)行其它處理。
【附圖說(shuō)明】
[0004]現(xiàn)在將參考以下圖式來(lái)描述各種發(fā)明特征的實(shí)施例。貫穿附圖中,參考編號(hào)可再用來(lái)表示所參考元件之間的對(duì)應(yīng)關(guān)系。提供圖式是為了說(shuō)明本文中描述的示例性實(shí)施例,而不意圖限制本發(fā)明的范圍。
[0005]圖1為其中可實(shí)施分布式語(yǔ)音識(shí)別系統(tǒng)的說(shuō)明性網(wǎng)絡(luò)環(huán)境的框圖,示出了客戶(hù)端裝置、語(yǔ)音識(shí)別服務(wù)器與模型存儲(chǔ)服務(wù)器之間的說(shuō)明性交互。
[0006]圖2為說(shuō)明性語(yǔ)音識(shí)別服務(wù)器的框圖,示出了各種模型和數(shù)據(jù)存儲(chǔ)區(qū)。
[0007]圖3為用于管理分布式語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)音識(shí)別會(huì)話(huà)的說(shuō)明性過(guò)程的流程圖。
[0008]圖4為用于在分布式語(yǔ)音識(shí)別系統(tǒng)中利用模型的預(yù)先高速緩存的說(shuō)明性過(guò)程的流程圖。
[0009]圖5A和圖5B為客戶(hù)端裝置、語(yǔ)音識(shí)別服務(wù)器、模型高速緩存與模型存儲(chǔ)服務(wù)器之間的說(shuō)明性交互的框圖。
【具體實(shí)施方式】
[0010]MM
[0011]大體而言,本發(fā)明涉及管理分布式語(yǔ)音識(shí)別系統(tǒng)的操作,所述分布式語(yǔ)音識(shí)別系統(tǒng)包含專(zhuān)用或自定義語(yǔ)言模型、專(zhuān)用或自定義聲學(xué)模型以及其它數(shù)據(jù),統(tǒng)稱(chēng)為語(yǔ)音識(shí)別模型。語(yǔ)音識(shí)別系統(tǒng)使用語(yǔ)音識(shí)別模型將用戶(hù)的話(huà)語(yǔ)處理成話(huà)語(yǔ)的轉(zhuǎn)錄或可能轉(zhuǎn)錄的列表。一些語(yǔ)音識(shí)別系統(tǒng)使用適用于大量用戶(hù)的通用或基礎(chǔ)語(yǔ)音識(shí)別模型。在一些情況下,對(duì)于個(gè)別用戶(hù)或一組用戶(hù)而言,語(yǔ)音識(shí)別系統(tǒng)可使用額外的模型來(lái)提供比基礎(chǔ)模型更準(zhǔn)確的結(jié)果。此類(lèi)額外的模型可包含或強(qiáng)調(diào)特定用戶(hù)通常使用的詞匯,或者其可能與語(yǔ)音識(shí)別處理期間以數(shù)字方法表示特定用戶(hù)的語(yǔ)音的方式更緊密匹配。然而,額外的模型(以及一般而言,語(yǔ)音識(shí)別模型)可消耗大量的存儲(chǔ)空間,因此,語(yǔ)音識(shí)別系統(tǒng)在可本地存儲(chǔ)在進(jìn)行語(yǔ)音識(shí)別處理的裝置上的模型數(shù)量方面受到限制。此外,由于尺寸較大,因此,從其它裝置(例如,存儲(chǔ)服務(wù)器)中檢索額外的模型可能會(huì)不利地影響用戶(hù)感知的性能。例如,從存儲(chǔ)服務(wù)器中檢索較大額外模型所需的時(shí)間會(huì)增加用戶(hù)在說(shuō)出話(huà)語(yǔ)與接收結(jié)果之間經(jīng)歷的延遲。
[0012]本發(fā)明的方面涉及用于對(duì)話(huà)語(yǔ)執(zhí)行語(yǔ)音識(shí)別的額外語(yǔ)音識(shí)別模型的異步檢索。在開(kāi)始處理話(huà)語(yǔ)之前或與此并行,語(yǔ)音識(shí)別服務(wù)器或引擎可從數(shù)據(jù)存儲(chǔ)區(qū)請(qǐng)求語(yǔ)音識(shí)別模型,從而使得語(yǔ)音識(shí)別模型的檢索不會(huì)干擾初始處理。例如,在多線(xiàn)程系統(tǒng)中,語(yǔ)音識(shí)別模型的線(xiàn)程管理檢索并不妨礙處理線(xiàn)程。
[0013]在一些實(shí)施例中,語(yǔ)音識(shí)別系統(tǒng)可實(shí)施為分布式系統(tǒng),其包含用于執(zhí)行語(yǔ)音識(shí)別的部件(例如,語(yǔ)音識(shí)別服務(wù)器)和用于存儲(chǔ)額外語(yǔ)音識(shí)別模型的部件(例如,長(zhǎng)期存儲(chǔ)服務(wù)器)。語(yǔ)音識(shí)別服務(wù)器可接收來(lái)自用戶(hù)的音頻輸入,并且從存儲(chǔ)部件中檢索不同程度自定義或?qū)iT(mén)化的一個(gè)或多個(gè)語(yǔ)音識(shí)別模型(例如,一個(gè)用于用戶(hù)的性別、一個(gè)用于用戶(hù)的地域口音、一個(gè)用于特定用戶(hù)等)。語(yǔ)音識(shí)別服務(wù)器可檢索額外的語(yǔ)音識(shí)別模型,同時(shí)還用基礎(chǔ)語(yǔ)音識(shí)別模型來(lái)處理所接收的音頻輸入。在一些情況下,當(dāng)請(qǐng)求額外的模型時(shí),可能會(huì)有延遲,直到通過(guò)網(wǎng)絡(luò)接收到所述模型為止。這可導(dǎo)致響應(yīng)于用戶(hù)話(huà)語(yǔ)提供轉(zhuǎn)錄或執(zhí)行動(dòng)作時(shí)出現(xiàn)延遲。用戶(hù)可能認(rèn)為這種延遲是無(wú)法接受的。然而,如果能足夠快地接收到可以使用的額外模型,同時(shí)仍為用戶(hù)提供滿(mǎn)意的性能(例如,延遲<100ms、<500ms等),那么額外的模型可用來(lái)提高語(yǔ)音識(shí)別的準(zhǔn)確性。例如,在用基礎(chǔ)模型開(kāi)始處理音頻輸入之前,可接收到額外的語(yǔ)音識(shí)別模型,且在這種情況下,從一開(kāi)始就可使用額外的語(yǔ)音識(shí)別模型。作為另一實(shí)例,所述模型可能會(huì)在用基礎(chǔ)模型處理音頻輸入的過(guò)程中或在處理已經(jīng)完成之后到達(dá)。額外的模型可用來(lái)再處理音頻輸入或初始處理的結(jié)果,前提是這種再處理可以足夠快地完成,以向用戶(hù)提供滿(mǎn)意的性能。
[0014]除了在處理之前或處理過(guò)程中請(qǐng)求額外的語(yǔ)音識(shí)別模型之外,語(yǔ)音識(shí)別服務(wù)器還可異步請(qǐng)求統(tǒng)計(jì)數(shù)據(jù)和其它數(shù)據(jù),以更新額外的語(yǔ)音識(shí)別模型。額外的語(yǔ)音識(shí)別模型可在語(yǔ)音識(shí)別服務(wù)器處理話(huà)語(yǔ)之后被更新。用來(lái)更新額外語(yǔ)音識(shí)別模型的數(shù)據(jù)量通常顯著大于額外語(yǔ)音識(shí)別模型本身中的數(shù)據(jù)量。有利的是,通過(guò)異步請(qǐng)求統(tǒng)計(jì)數(shù)據(jù)和其它數(shù)據(jù)來(lái)更新額外語(yǔ)音識(shí)別模型,所述額外語(yǔ)音識(shí)別模型可在統(tǒng)計(jì)數(shù)據(jù)和其它數(shù)據(jù)一旦被接收后就更新。經(jīng)更新的語(yǔ)音識(shí)別模型隨后可再次用來(lái)提供更準(zhǔn)確或在其它方面更好的結(jié)果。例如,經(jīng)更新的語(yǔ)音識(shí)別模型可用來(lái)再處理更新所依據(jù)的當(dāng)前話(huà)語(yǔ),或者經(jīng)更新的語(yǔ)音識(shí)別模型可用來(lái)處理隨后的話(huà)語(yǔ),或進(jìn)行這兩者。
[0015]本發(fā)明的另外方面涉及高速緩存額外的語(yǔ)音識(shí)別模型。通過(guò)高速緩存額外的語(yǔ)音識(shí)別模型,它們可被立即使用或大體更快地使用,以用于處理隨后接收的話(huà)語(yǔ),從而在與使用基礎(chǔ)語(yǔ)音識(shí)別模型處理話(huà)語(yǔ)大體相同的時(shí)間量?jī)?nèi)提供更準(zhǔn)確的結(jié)果。例如,語(yǔ)音識(shí)別服務(wù)器可檢索額外的語(yǔ)音識(shí)別模型來(lái)處理關(guān)于從客戶(hù)端裝置接收的話(huà)語(yǔ)的音頻數(shù)據(jù)。不論額外的語(yǔ)音識(shí)別模型是否在將要處理第一話(huà)語(yǔ)的時(shí)間到達(dá),它們都可被高速緩存并用來(lái)處理關(guān)于第二話(huà)語(yǔ)的隨后接收的音頻數(shù)據(jù)。
[0016]本發(fā)明的其它方面涉及基于對(duì)可請(qǐng)求哪些額外模型以及可請(qǐng)求額外模型的時(shí)間的預(yù)測(cè),預(yù)先高速緩存額外的語(yǔ)音識(shí)別模型。例如,可監(jiān)視用戶(hù)與語(yǔ)音識(shí)別系統(tǒng)的交互,從而語(yǔ)音識(shí)別系統(tǒng)的部件可檢測(cè)用戶(hù)可能使用語(yǔ)音識(shí)別系統(tǒng)的模式,或者預(yù)測(cè)用戶(hù)將來(lái)可能使用語(yǔ)音識(shí)別系統(tǒng)的時(shí)間。在預(yù)期此類(lèi)使用的情況下,可能將被請(qǐng)求的額外語(yǔ)音識(shí)別模型可被預(yù)先高速緩存(例如,從長(zhǎng)期存儲(chǔ)中檢索并存儲(chǔ)在語(yǔ)音識(shí)別服務(wù)器或某一網(wǎng)絡(luò)可訪(fǎng)問(wèn)的高速緩存部件上)。
[0017]盡管出于說(shuō)明的目的,本發(fā)明所描述的實(shí)施例的各方面將著重于語(yǔ)音識(shí)別服務(wù)器接收關(guān)于話(huà)語(yǔ)的音頻數(shù)據(jù),以及異步檢索額外的語(yǔ)音識(shí)別模型來(lái)處理音頻數(shù)據(jù),但所屬領(lǐng)域的技術(shù)人員將了解,本文中公開(kāi)的技術(shù)可應(yīng)用于任何數(shù)量的軟件處理或應(yīng)用。例如,用戶(hù)的個(gè)人移動(dòng)裝置可包含語(yǔ)音識(shí)別引擎,并且在話(huà)語(yǔ)的本地處理過(guò)程中,異步請(qǐng)求待使用的額外的語(yǔ)音識(shí)別模型?,F(xiàn)在將相對(duì)于某些實(shí)例和實(shí)施例來(lái)描述本發(fā)明的各方面,這些實(shí)例和實(shí)施例意圖說(shuō)明而非限制本發(fā)明。
[0018]參考說(shuō)明性實(shí)例,用戶(hù)可發(fā)出聲音命令或以其它方式口頭上與客戶(hù)端裝置(例如,移動(dòng)電話(huà)或平板計(jì)算機(jī))交互??蛻?hù)端裝置可將關(guān)于用戶(hù)話(huà)語(yǔ)的數(shù)據(jù)傳輸?shù)骄W(wǎng)絡(luò)可訪(fǎng)問(wèn)的語(yǔ)音識(shí)別服務(wù)器,所述語(yǔ)音識(shí)別服務(wù)器作為分布式自動(dòng)化語(yǔ)音識(shí)別(“分布式ASR”)系統(tǒng)的一部分。語(yǔ)音識(shí)別服務(wù)器可使用各種類(lèi)型的語(yǔ)音識(shí)別模型(例如,聲學(xué)模型和語(yǔ)言模型),以處理話(huà)語(yǔ)并且轉(zhuǎn)錄或以其它方式確定用戶(hù)說(shuō)了什么。為了提高準(zhǔn)確性,模型可在各個(gè)層次為用戶(hù)自定義。語(yǔ)音識(shí)別服務(wù)器可使用基礎(chǔ)模型、用于性別、年齡、地域口音、術(shù)語(yǔ)等的模型。語(yǔ)音識(shí)別模型還可針對(duì)特定用戶(hù)或針對(duì)特定時(shí)間、日期等自定義(例如,用于假日術(shù)語(yǔ)的語(yǔ)言模型)。額外的語(yǔ)音識(shí)別模型可能比較大,因此,語(yǔ)音識(shí)別服務(wù)器可能沒(méi)有足夠的存儲(chǔ)容量來(lái)存儲(chǔ)每個(gè)額外的模型。利用額外語(yǔ)音識(shí)別模型的分布式ASR系統(tǒng)可針對(duì)額外模型實(shí)施長(zhǎng)期存儲(chǔ),從而使得語(yǔ)音識(shí)別引擎可使用的每個(gè)額外語(yǔ)音識(shí)別模型均可被存儲(chǔ)并根據(jù)需要提供到語(yǔ)音識(shí)別引擎。
[0019]分布式ASR系統(tǒng)的用戶(hù)體驗(yàn)可在質(zhì)量(例如,結(jié)果的準(zhǔn)確性)和所感知性能(例如,說(shuō)出話(huà)語(yǔ)與接收到結(jié)果之間的等待時(shí)間和逝去的時(shí)間)兩個(gè)方面進(jìn)來(lái)定義。分布式ASR系統(tǒng)努力盡快返回結(jié)果。然而,分布式和其它網(wǎng)絡(luò)系統(tǒng)固有的等待時(shí)間會(huì)直接影響用戶(hù)體驗(yàn)。因此,由于從長(zhǎng)期存儲(chǔ)中檢索額外的語(yǔ)音識(shí)別模型而造成的任何額外延遲都可能導(dǎo)致并非令人滿(mǎn)意的用戶(hù)體驗(yàn)。
[0020]為了最小化使用額外的語(yǔ)音識(shí)別模型可能對(duì)分布式ASR系統(tǒng)帶來(lái)的負(fù)面影響,可異步請(qǐng)求額外的模型(例如,額外語(yǔ)音識(shí)別模型的檢索不會(huì)妨礙用其它模型來(lái)執(zhí)行語(yǔ)音識(shí)別過(guò)程,且反之亦然)。例如,語(yǔ)音識(shí)別服務(wù)器可利用多線(xiàn)程處理來(lái)請(qǐng)求額外的模型,并且以并行或異步的方式用基礎(chǔ)模型來(lái)執(zhí)行語(yǔ)音識(shí)別。當(dāng)接收到話(huà)語(yǔ)或關(guān)于話(huà)語(yǔ)的數(shù)據(jù)時(shí),語(yǔ)音識(shí)別服務(wù)器可確定說(shuō)話(huà)人的身份和/或說(shuō)話(huà)人的特性(例如,性別)。在處理話(huà)語(yǔ)之前、并行或之后,語(yǔ)音識(shí)別服務(wù)器可檢索額外的語(yǔ)音識(shí)別模型。由于檢索不同種類(lèi)的額外語(yǔ)音識(shí)別模型可能具有不同的等待時(shí)間,因此,語(yǔ)音識(shí)別服務(wù)器或分布式ASR系統(tǒng)的某一其它部件可請(qǐng)求任何數(shù)量的不同額外模型,并且使用在將要使用模型的時(shí)間接收到的一個(gè)最好的模型且在不會(huì)不利影響用戶(hù)體驗(yàn)的情況下返回結(jié)果。例如,語(yǔ)音識(shí)別服務(wù)器可請(qǐng)求用于個(gè)別用戶(hù)的模型,且還請(qǐng)求用于用戶(hù)性別的模型。如果用于性別的模型首先被接收到,那么語(yǔ)音識(shí)別服務(wù)器可繼續(xù)使用性別特定的額外語(yǔ)音識(shí)別模型來(lái)處理話(huà)語(yǔ)。然而,如果在將要使用用于特定用戶(hù)的模型的時(shí)間接收到所述模型而未造成令人不滿(mǎn)的延遲,那么語(yǔ)音識(shí)別服務(wù)可使用所述更大程度上自定義的額外模型,即使已經(jīng)用另一模型開(kāi)始或完成語(yǔ)音識(shí)別處理也是如此。
[0021]在一些實(shí)施例中,內(nèi)容服務(wù)器可對(duì)話(huà)語(yǔ)進(jìn)行再處理(例如,多遍次ASR系統(tǒng)經(jīng)配置以對(duì)單個(gè)話(huà)語(yǔ)執(zhí)行多次語(yǔ)音識(shí)別)。語(yǔ)音識(shí)別服務(wù)器或執(zhí)行ASR的某一其它裝置可具有至少一組可用的基礎(chǔ)語(yǔ)音識(shí)別模型,或者可具有少量可用的額外選擇(例如,性別特性的語(yǔ)音識(shí)別模型)。在用可用的模型(例如,基礎(chǔ)模型)執(zhí)行第一遍語(yǔ)音識(shí)別處理之后,可進(jìn)行第二遍(如果及時(shí)檢索到額外模型的話(huà))。如果在第一遍之后沒(méi)有返回額外或更特定的額外語(yǔ)音識(shí)別模型,那么結(jié)果可被返回到客戶(hù)端裝置。
[0022]對(duì)于很多更大的語(yǔ)音識(shí)別模型(例如,語(yǔ)言模型)而言,可能難以足夠快地檢索到額外模型,因而無(wú)法將其用于實(shí)時(shí)語(yǔ)音識(shí)別。高速緩存額外的語(yǔ)音識(shí)別模型允許更快地檢索到它們。例如,任何用戶(hù)特定或以其它方式自定義的額外語(yǔ)音識(shí)別模