用于適配語音識別聲學模型的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及用于適配語音識別聲學模型的方法和系統(tǒng)。具體地,一種聲學模型適配系統(tǒng)包括存儲器設(shè)備和被耦合到存儲器設(shè)備的模型選擇器引擎。模型選擇器引擎被配置成編譯環(huán)境條件的信息以針對到設(shè)備上的語音識別器中的音頻輸入而標識當前語音環(huán)境。模型選擇器引擎還被配置成將環(huán)境條件的信息與聲學模型的簡檔相比較。每個簡檔與聲學模型相關(guān)聯(lián)。每個聲學模型補償音頻輸入的背景噪聲或聲學失真。模型選擇器引擎還被配置成在不包括來自用戶的音頻輸入的情況下,基于環(huán)境條件的信息來選擇用于語音識別器的第一聲學模型。
【專利說明】用于適配語音識別聲學模型的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別,更具體地,涉及用于適配語音識別聲學模型的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 語音識別系統(tǒng)將說話者的話語轉(zhuǎn)換成數(shù)字內(nèi)容或命令。語音識別系統(tǒng)對其音頻輸 入敏感。背景噪聲和聲學失真影響語音識別系統(tǒng)的性能。為了克服背景噪聲和聲學失真而 采用多個技術(shù)。許多大型詞匯語音識別器要求其中用戶聽寫一定數(shù)目的預(yù)定義句子的訓(xùn)練 過程。此訓(xùn)練過程構(gòu)建聲學模型,來幫助系統(tǒng)不僅理解用戶如何說話,而且理解背景噪聲和 聲學失真。
【發(fā)明內(nèi)容】
[0003] 描述了系統(tǒng)的實施方式。在一個實施方式中,聲學模型適配系統(tǒng)包括存儲器設(shè)備 和被耦合到存儲設(shè)備的模型選擇器引擎。模型選擇器引擎被配置成編譯環(huán)境條件的信息, 以針對到設(shè)備上的語音識別器中的音頻輸入而標識當前語音環(huán)境。模型選擇器引擎還被配 置成將環(huán)境條件的信息與聲學模型的簡檔(profile)相比較。每個簡檔與聲學模型相關(guān)聯(lián)。 每個聲學模型補償音頻輸入的背景噪聲或聲學失真。模型選擇器引擎還被配置成在不包括 來自用戶的音頻輸入的情況下基于環(huán)境條件的信息來選擇用于語音識別器的第一聲學模 型。還描述了系統(tǒng)的其他實施方式以及計算機程序產(chǎn)品和方法的實施方式。
[0004] 根據(jù)結(jié)合以本原理的示例的方式舉例說明的附圖進行的以下詳細描述,本發(fā)明的 實施方式的其他方面和優(yōu)點將變得顯而易見。
【專利附圖】
【附圖說明】
[0005] 圖1描述了用于選擇用于語音識別器的聲學模型的系統(tǒng)的一個實施方式的示意 圖。
[0006] 圖2描述了圖1的聲學模型適配系統(tǒng)的一個實施方式的不意圖。
[0007] 圖3描述了圖2的模型選擇器引擎的一個實施方式。
[0008] 圖4描述了用于在沒有音頻輸入的幫助的情況下選擇語音識別聲學模型的方法 的一個實施方式的流程圖。
[0009] 圖5描述了用于選擇和適配語音識別聲學模型的方法的另一實施方式的流程圖。
[0010] 圖6描述了用于編譯音頻輸入的環(huán)境條件的信息的方法的一個實施方式的流程 圖。
[0011] 貫穿本描述,可使用類似的附圖標記來標識類似的元件。
【具體實施方式】
[0012] 將易于理解的是可以以多種不同的配置來布置和設(shè)計如在本文中一般地描述并 在附圖中圖示出的實施方式的部件。因此,如在圖中表示的各種實施方式的以下更詳細描 述并不旨在顯示本公開的范圍,而是僅僅表示各種實施方式。雖然在附圖中呈現(xiàn)了實施方 式的各種方面,除非具體地指明,附圖不一定按比例繪出。
[0013] 在不脫離本發(fā)明的精神或本質(zhì)特性的情況下可以其他特定形式來體現(xiàn)本發(fā)明。所 述實施方式在所有方面僅僅被視為說明性而非限制性的。因此由所附權(quán)利要求而不是本詳 細描述來指示本發(fā)明的范圍。在權(quán)利要求等價物的意義和范圍內(nèi)的所有變更將被涵蓋在其 范圍內(nèi)。
[0014] 貫穿本描述,對特征、優(yōu)點或類似語言的參考并不意味著用本發(fā)明可實現(xiàn)的所有 特征和優(yōu)點都應(yīng)在本發(fā)明的任何單個實施方式中。相反,應(yīng)將參考特征和優(yōu)點的語言理 解成旨在結(jié)合實施方式所述的特定特征、優(yōu)點或特性被包括在本發(fā)明的至少一個實施方式 中。因此,貫穿本說明書的特征和優(yōu)點的討論以及類似語言可以但不一定參考同一實施方 式。
[0015] 此外,可在一個或多個實施方式中以任何適當方式將本發(fā)明的所述特征、優(yōu)點以 及特性組合。本領(lǐng)域的技術(shù)人員將根據(jù)本文中的描述將認識到能夠在沒有特定實施方式的 特定特征或優(yōu)點中的一個或多個的情況下實施本發(fā)明。在其他情況下,在某些實施方式中 可認識到可能并非在本發(fā)明的所有實施方式中都存在的附加特征和優(yōu)點。
[0016] 貫穿本說明書對"一個實施方式"、"一種實施方式"或類似語言的參考旨在結(jié)合所 指示實施方式所述的特定特征/結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個實施方式中。因 此,貫穿本說明書的短語"在一個實施方式中"、"在一種實施方式中"以及類似語言可以但 不一定全部參考同一實施方式。
[0017] 雖然在本文中描述了許多實施方式,但所述實施方式中的至少某些實施方式通過 在沒有音頻輸入或來自用戶的輸入的情況下對環(huán)境提示進行編譯來促進選擇有效的聲學 模型。聲學模型補償背景噪聲和聲學失真,并允許語音識別系統(tǒng)或語音識別器將說話者與 其他噪聲區(qū)別開。聲學模型改變。針對較嘈雜環(huán)境所設(shè)計的聲學模型在較寂靜的環(huán)境中可 能不會很好地表現(xiàn),或者反之亦然。
[0018] 在某些常規(guī)系統(tǒng)和方法中,語音識別器通過采用其中用戶坐下來并聽寫預(yù)定義句 子的訓(xùn)練過程來改善聲學模型的性能。在訓(xùn)練過程期間,語音識別器將學習用戶如何說話 并構(gòu)建解決其中用戶說話的環(huán)境的聲學模型。隨著用戶繼續(xù)使用系統(tǒng),語音識別器適配聲 學模型。雖然進行中的適配在許多情況下可以是有益的,但如果環(huán)境過多地變化或改變,則 進行中的適配可以負面地影響語音識別器的性能。用于說話的風格的變化或麥克風的變化 也可負面地影響語音識別器。在許多情況下,語音識別器使用音頻輸入或其他用戶手動輸 入來了解音頻環(huán)境。
[0019] 本文所述的某些實施方式涉及到編譯環(huán)境條件的信息,不包括來自用戶的音頻輸 入,以針對到設(shè)備上的語音識別器中的音頻輸入標識當前語音環(huán)境。環(huán)境條件可包括附近 人數(shù)、附近人數(shù)的估計、設(shè)備的位置、時間、日期、附近設(shè)備的數(shù)目、附近人的可能身份、用戶 的身份、要使用的麥克風或音頻輸入設(shè)備及其他類似條件。某些實施方式允許語音識別器 在接收到任何音頻輸入之前確定當前語音環(huán)境。某些實施方式允許語音識別器在接收到指 示當前語音環(huán)境的任何手動輸入之前確定當前語音環(huán)境。本文所述的某些實施方式將環(huán)境 條件的信息與聲學模型的簡檔相比較。在某些實施方式中,每個簡檔與聲學模型相關(guān)聯(lián)。在 某些實施方式中,每個聲學模型在補償音頻輸入的背景噪聲和/或聲學失真時改變。某些 實施方式允許語音識別器預(yù)測當前噪聲環(huán)境。本文所述的某些實施方式涉及到基于環(huán)境條 件的信息來選擇用于語音識別器的第一聲學模型,所述信息不包括來自用戶的音頻輸入。 某些實施方式允許系統(tǒng)在接收到音頻輸入之前預(yù)測噪聲環(huán)境的變化。某些實施方式允許系 統(tǒng)通過正確地選擇適當聲學模型而高效地操作。
[0020] 圖1描述了用于選擇用于語音識別器100的聲學模型的系統(tǒng)的一個實施方式的示 意圖。用于選擇用于語音識別器100的聲學模型的系統(tǒng)包括聲學模型適配系統(tǒng)102、網(wǎng)絡(luò) 104以及簡檔數(shù)據(jù)庫106。某些實施方式包括位置數(shù)據(jù)庫108和社交網(wǎng)絡(luò)數(shù)據(jù)庫110。
[0021] 在某些實施方式中,系統(tǒng)100編譯來自網(wǎng)絡(luò)104的環(huán)境條件的信息。在某些實施 方式中,系統(tǒng)100編譯來自位置數(shù)據(jù)庫108的信息。在某些實施方式中,系統(tǒng)100編譯來自 社交網(wǎng)絡(luò)數(shù)據(jù)庫110的信息。在某些實施方式中,系統(tǒng)100將來自位置數(shù)據(jù)庫108或社交 網(wǎng)絡(luò)數(shù)據(jù)庫110的已編譯信息與簡檔數(shù)據(jù)庫106中的簡檔相比較。在某些實施方式中,網(wǎng) 絡(luò)104可以至少部分地是因特網(wǎng)。在其他實施方式中,網(wǎng)絡(luò)104可以是私有網(wǎng)絡(luò)或內(nèi)聯(lián)網(wǎng)。 網(wǎng)絡(luò)104可以是因特網(wǎng)、私有網(wǎng)絡(luò)或內(nèi)聯(lián)網(wǎng)的組合。在某些實施方式中,可直接地將聲學模 型適配系統(tǒng)102、簡檔數(shù)據(jù)庫106、位置數(shù)據(jù)庫108以及社交網(wǎng)絡(luò)數(shù)據(jù)庫110相互鏈接。例 如,可將聲學模型適配系統(tǒng)102和位置數(shù)據(jù)庫108連同簡檔數(shù)據(jù)庫106直接地鏈接在一起。 聲學模型適配系統(tǒng)102可直接地與位置數(shù)據(jù)庫108通信,或者可通過網(wǎng)絡(luò)104進行通信。
[0022] 聲學模型適配系統(tǒng)102可以是單個設(shè)備或設(shè)備的組合。聲學模型適配系統(tǒng)102可 位于移動電話、智能電話、便攜式介質(zhì)設(shè)備、平板計算機、膝上型計算機、臺式計算機或其他 設(shè)備或設(shè)備的組合上。雖然在具有某些部件和功能的情況下示出并描述了系統(tǒng)100,但系統(tǒng) 100的其他實施方式可包括更少或更多部件以實現(xiàn)更少或更多的功能。
[0023] 圖2描述了圖1的聲學模型適配系統(tǒng)102的一個實施方式的示意圖。所描述的 聲學模型適配系統(tǒng)102包括能夠執(zhí)行本文所述功能和操作的下述各種部件。所示聲學模 型適配系統(tǒng)102包括計算機存儲設(shè)備202、處理設(shè)備204、音頻輸入端206以及磁盤存儲設(shè) 備208。所示聲學模型適配系統(tǒng)102還包括模型選擇器引擎210和適配器引擎212??蓪?聲學模型適配系統(tǒng)102的某些或所有部件存儲于單個計算機設(shè)備上或計算設(shè)備的網(wǎng)絡(luò)上, 該網(wǎng)絡(luò)包括無線通信網(wǎng)絡(luò)。在某些實施方式中,將聲學模型適配系統(tǒng)共102以及簡檔數(shù)據(jù) 庫106、位置數(shù)據(jù)庫108和社交網(wǎng)絡(luò)數(shù)據(jù)庫110的某些或所有部件存儲于單個計算設(shè)備上。 在其他實施方式中,將聲學模型適配系統(tǒng)102的某些或所有部件存儲于超過一個計算設(shè)備 上。聲學模型適配系統(tǒng)102可以是單個設(shè)備,諸如移動電話、智能電話、便攜式介質(zhì)設(shè)備、平 板計算機、膝上型計算機、臺式計算機或其他設(shè)備或設(shè)備的組合上。雖然在具有某些部件和 功能的情況下示出并描述了聲學模型適配系統(tǒng)102,但聲學模型適配系統(tǒng)102的其他實施 方式可包括更少或更多部件以實現(xiàn)更少或更多的功能。
[0024] 計算機存儲設(shè)備202可存儲用于執(zhí)行本文所述操作的數(shù)據(jù)和/或軟件指令或計 算機程序指令。計算機存儲設(shè)備202可在系統(tǒng)的外部或內(nèi)部,并且可包括但不限于硬盤驅(qū) 動、CD/DVD可記錄驅(qū)動器、磁帶驅(qū)動器、磁盒驅(qū)動器、安全數(shù)字卡、另一種磁驅(qū)或光驅(qū)、固態(tài) 驅(qū)動器或另一種存儲設(shè)備。處理設(shè)備204被連接到存儲設(shè)備202并與之通信,并且可在存 儲設(shè)備202存儲并訪問數(shù)據(jù)以便執(zhí)行本文所述的操作。還可將處理器或處理設(shè)備204連接 到磁盤存儲設(shè)備208??蓪⒋疟P存儲設(shè)備208實現(xiàn)成臨時地存儲來自存儲設(shè)備202或處理 器204的數(shù)據(jù)或軟件指令。磁盤存儲設(shè)備208可包括但不限于硬盤驅(qū)動器、軟盤驅(qū)動器、可 移動軟盤或其他類型的光驅(qū)或磁驅(qū)??捎纱鎯τ谟嬎銠C存儲設(shè)備202上并被諸如CPU之類 的處理設(shè)備204執(zhí)行的計算機程序指令來實現(xiàn)模型選擇器引擎210和適配器引擎212的功 能。音頻輸入設(shè)備206可以是能夠?qū)⒙曇艮D(zhuǎn)換成計算機可讀信號的任何類型的麥克風或音 頻輸入設(shè)備。在某些實施方式中,模型選擇器引擎210和適配器引擎212被耦合到存儲設(shè) 備 202。
[0025] 在某些實施方式中,模型選擇器引擎210被配置成編譯環(huán)境條件的信息(不包括 來自用戶的音頻輸入),以針對到設(shè)備上的語音識別器中的音頻輸入而標識當前語音環(huán)境。 在某些實施方式中,模型選擇器引擎210被配置成將環(huán)境條件的信息與聲學模型的簡檔相 比較。在某些實施方式中,每個簡檔與聲學模型相關(guān)聯(lián)。在某些實施方式中,每個簡檔與唯 一聲學模型相關(guān)聯(lián)。在某些實施方式中,每個聲學模型補償音頻輸入的背景噪聲和/或聲 學失真。在某些實施方式中,模型選擇器引擎210被配置成基于環(huán)境條件的信息來選擇用 于語音識別器的第一聲學模型。在某些實施方式中,模型選擇器引擎210被配置成基于環(huán) 境條件的信息(不包括來自用戶的音頻輸入)來選擇用于語音識別器的第一聲學模型。
[0026] 在某些實施方式中,模型選擇器引擎210還被配置成標識設(shè)備的位置??赏ㄟ^眾 所周知的各種手段來確定設(shè)備的位置,包括采用全球定位系統(tǒng)(GPS)或其他全球?qū)Ш叫l(wèi)星 系統(tǒng)(GNSS),確定設(shè)備被連接到的網(wǎng)絡(luò),采用基于本地化的系統(tǒng),利用無線電信號的多點定 位,確定麥克風數(shù)字ID(即汽車麥克風數(shù)字ID指示設(shè)備在汽車中)或用于確定設(shè)備的位置的 另一系統(tǒng)。確定設(shè)備的位置允許升學模型適配系統(tǒng)102導(dǎo)出關(guān)于環(huán)境條件的信息,包括可 能的背景噪聲和聲學失真。例如,圖書館將具有輕背景噪聲,體育競技場將具有高聲的背景 噪聲,移動汽車將是高聲的,停泊的汽車將是較寂靜的,并且某個建筑物可具有回聲。某些 實施方式將除位置之外還編譯時間和/或日期的信息。辦公樓在辦公時間可能是嘈雜的且 在工作完畢后和在周末是寂靜的。餐廳在晚間可能是嘈雜的且在下午早些時候是寂靜的。 運動競技場在預(yù)定事件期間可能是高聲的且當未預(yù)定事件時是寂靜的。公園可能在早晨較 寂靜。另外,確定設(shè)備的位置允許聲學模型適配系統(tǒng)102確定用戶的可能噪聲水平。例如, 用戶可在圖書館中輕聲地說話且在辦公室中高聲地說話。
[0027] 在某些實施方式中,模型選擇器引擎210還被配置成將設(shè)備的位置與位置數(shù)據(jù)庫 108相比較。位置數(shù)據(jù)庫108可包括地圖或關(guān)于位置的信息,諸如位置的類型(圖書館、家、 餐廳等)、操作時間、預(yù)定事件和/或背景噪聲和聲學失真的歷史。
[0028] 在某些實施方式中,模型選擇器引擎210被配置成確定設(shè)備的一定距離內(nèi)的人數(shù) 的估計??梢愿鞣N方式來實現(xiàn)確定設(shè)備的一定距離內(nèi)的人數(shù)的估計。模型選擇器引擎210 可通過編譯社交網(wǎng)絡(luò)統(tǒng)計的信息來確定人數(shù)的估計。例如,社交網(wǎng)絡(luò)允許用戶在社交網(wǎng)絡(luò) (即foursquare facebook等)上虛擬地在一位置處簽到或者對事件簽到。在確定在一位置 處"簽到"的用戶數(shù)目之后,模型選擇器引擎210能夠確定用戶所在的環(huán)境的類型(例如嘈 雜、寂靜等)。一位置上的人個體的數(shù)目越大,則該位置越大聲。模型選擇器引擎210可通 過編譯本地無線設(shè)備的數(shù)目的信息來確定人數(shù)的估計。例如,模型選擇器引擎210可檢查 本地網(wǎng)絡(luò)以確定被連接到本地網(wǎng)絡(luò)的無線和/或有線設(shè)備的數(shù)目。模型選擇器引擎210可 對小區(qū)塔進行輪詢以確定附近的蜂窩電話的數(shù)目。
[0029] 在某些實施方式中,模型選擇器引擎210可通過編譯社交網(wǎng)絡(luò)或無線設(shè)備的信息 來確定附近的人的身份。人的身份可影響向音頻輸入設(shè)備206中說話的用戶的噪聲水平。 例如,確定商業(yè)競爭者在附近可指示用戶將輕聲地說話,以避免使得商業(yè)競爭者聽到音頻 輸入。
[0030] 某些實施方式包括被耦合到存儲設(shè)備202的適配器引擎212。在某些實施方式中, 適配器引擎212被配置響應(yīng)于檢測到與所選第一簡檔相差預(yù)定閾值的音頻輸入的聲學特 性而創(chuàng)建關(guān)聯(lián)的新聲學模型和新簡檔。在某些情況下,在模型選擇器引擎210選擇第一聲 學模型且用戶開始使用語音識別器之后,實際音頻輸入可不同于所選聲學模型??稍谛盘?中的信噪比、總聲音水平、峰值聲音水平或其他可測量差異方面測量該差異。閾值可以是聲 學模型與實際音頻輸入之間的范圍或某個百分比差異。
[0031] 在某些實施方式中,適配器引擎還被配置成調(diào)整新聲學模型以匹配音頻輸入的聲 學特性。在某些實施方式中,適配器引擎被配置成調(diào)整現(xiàn)有聲學模型。可更新并連續(xù)地調(diào) 整聲學模型以更準確地反映音頻輸入的環(huán)境。
[0032] 除用聲學模型適配系統(tǒng)102的單獨部件的實現(xiàn)可實現(xiàn)的優(yōu)點之外,聲學模型適配 系統(tǒng)共102的某些實施方式相比于常規(guī)技術(shù)提供附加優(yōu)點。例如,聲學模型適配系統(tǒng)102 的某些實施方式允許在沒有音頻輸入的輔助的情況下基于環(huán)境條件來選擇聲學模型。某些 實施方式允許語音識別器在捕捉音頻輸入之前預(yù)期背景噪聲和聲學失真。某些實施方式允 許有目標的聲學模型更新。某些實施方式通過避免更新用于不兼容環(huán)境的聲學模型而允許 用于類似環(huán)境的聲學模型的更新。某些實施方式允許在捕捉音頻輸入之前選擇適當?shù)穆晫W 模型并在變化環(huán)境的情況下避免其他聲學模型的破壞。
[0033] 圖3描述了圖2的模型選擇器引擎210的一個實施方式,其包括簡檔302-306和 聲學模型312-316。在某些實施方式中,模型選擇器引擎210使簡檔302-306與聲學模型 312-316相關(guān)聯(lián)。在某些實施方式中,每個簡檔與唯一聲學模型相關(guān)聯(lián)。在所示實施方式 中,簡檔1302與聲學模型1312相關(guān)聯(lián)。簡檔2304與聲學模型2314相關(guān)聯(lián)。簡檔n306與 聲學模型n316相關(guān)聯(lián)。在某些實施方式中,可使不止一個簡檔302-306與聲學模型312相 關(guān)聯(lián)。
[0034] 簡檔302可指示環(huán)境的參數(shù)。舉例來說,簡檔302可指示存在的人的范圍。簡檔 302可以是針對當沒有除用戶之外的其他人在附近時。簡檔304可以是針對當5個或更少的 人在附近時。簡檔可重疊或指示相同的人數(shù),并且以諸如時間、日期、位置等另一環(huán)境條件 區(qū)別開。例如,簡檔302和304兩者可以是針對5個或更少的人在附近時,但是簡檔302針 對通常寂靜的位置,諸如圖書館或家庭辦公室,并且簡檔304是針對較嘈雜的環(huán)境,諸如在 工作時間期間的營業(yè)位置。簡檔可如需要的那樣詳細以與環(huán)境條件的信息相比較。某些實 施方式可包括一個、某些或所有環(huán)境條件作為參數(shù)。例如,在一個實施方式中,簡檔302-306 可僅指示位置。在一個實施方式中,簡檔302-306可指示時間和位置。如本領(lǐng)域的技術(shù)人 員將認識到的,可用簡檔302-306來指示參數(shù)的任何數(shù)目的組合。在某些實施方式中,每個 簡檔302-306與唯一聲學模型312-316相關(guān)聯(lián)。在某些實施方式中,不止一個簡檔可與單 個聲學模型312相關(guān)聯(lián)。
[0035] 聲學模型312-316補償音頻輸入的背景噪聲和/或聲學輸入失真。如本領(lǐng)域的技 術(shù)人員將認識到的,可通過許多不同的算法來實現(xiàn)補償以凈化音頻輸入信號。
[0036] 圖4描述了用于在沒有音頻輸入的幫助的情況下選擇語音識別聲學模型312的方 法400的一個實施方式的流程圖。雖然結(jié)合圖1-2的聲學模型適配系統(tǒng)和圖2-3的模型選 擇器引擎描述了用于選擇語音識別聲學模型312的方法400,但可用其他類型的計算機系 統(tǒng)來實現(xiàn)方法400的實施方式。
[0037] 在402處,編譯環(huán)境條件的信息以針對用于到語音識別器中的音頻輸入標識當前 語音環(huán)境。在某些實施方式中,在不包括音頻輸入的情況下編譯環(huán)境條件信息。在404處, 將環(huán)境條件的信息與聲學模型312-316的簡檔302-306相比較。在406處,基于環(huán)境條件 的信息來選擇用于語音識別器的第一聲學模型312。在某些實施方式中,選擇是基于環(huán)境條 件的信息(不包括用戶的音頻輸入)。在某些實施方式中,該選擇是基于環(huán)境條件的信息(不 包括用戶的手動輸入)。用于選擇語音識別聲學模型312的所述方法400然后結(jié)束。
[0038] 圖5描述了用于選擇和適配語音識別聲學模型312的方法500的另一實施方式的 流程圖。雖然結(jié)合圖1-2的聲學模型適配系統(tǒng)和圖2-3的模型選擇器引擎描述了用于選擇 和適配語音識別聲學模型312的方法500,但可用其他類型的計算機系統(tǒng)來實現(xiàn)方法500的 實施方式。
[0039] 在502處,接收輸入以發(fā)起語音識別器。在504處,語音識別器確定當前環(huán)境。在 某些實施方式中,語音識別器可遵循下面更全面地描述的用于編譯環(huán)境條件600的信息的 方法,以確定當前環(huán)境。在506處,使環(huán)境與簡檔302匹配。在508處,選擇與簡檔302相 關(guān)聯(lián)的聲學模型312。在510處,將聲學模型312與音頻輸入相比較。如果聲學模型312與 音頻輸入之間的差異在閾值以下,則適配或更新聲學模型512。如果聲學模型312與音頻 輸入之間的差異在閾值以上,則可創(chuàng)建新模型514。用于選擇和適配語音識別聲學模型500 的所述方法500然后結(jié)束。
[0040] 圖6描述了用于編譯音頻輸入的環(huán)境條件600的信息的方法的一個實施方式的流 程圖。該方法包括對信息的各種源進行輪詢且可包括對一個、某些或所有信息源進行輪詢。 某些實施方式包括對當前連接麥克風602進行輪詢。麥克風具有數(shù)字ID,允許系統(tǒng)102確 定被連接到設(shè)備的麥克風206。在某些情況下,確定麥克風指示位置。例如,汽車麥克風指 示用戶在汽車中,而另一麥克風ID可指示用戶在總辦事處中。在某些實施方式中,麥克風 206可指示隨著不同麥克風206運行而捕捉的音頻輸入中的差異,并且可捕捉更或更少的 背景噪聲。在這種情況下,雖然用戶的位置可在兩個不同的麥克風206的情況下是相同的, 但是連接的麥克風206可由于性能方面的差異而要求不同的聲學模型312。
[0041] 某些實施方式包括針對本地無線設(shè)備604的數(shù)目對信息源進行輪詢。在某些實施 方式中,路由器或服務(wù)器可指示被連接到網(wǎng)絡(luò)的設(shè)備的數(shù)目,其指示在用戶附近的人數(shù)的 估計。在某些實施方式中,無線塔可指示一區(qū)域中的設(shè)備的數(shù)目,指示用戶附近的人數(shù)的估 計。某些實施方式包括對社交媒體統(tǒng)計606進行輪詢。在某些實施方式中,系統(tǒng)102可對 特定社交媒體網(wǎng)站進行輪詢,或者可對已經(jīng)用相關(guān)社交媒體統(tǒng)計進行更新的數(shù)據(jù)庫110進 行輪詢。作為示例,社交媒體網(wǎng)站可允許用戶"登錄"或指示用戶在一位置或事件處的存在。 通過確定存在于一位置處的社交媒體用戶的數(shù)目,系統(tǒng)102可估計在語音識別器用戶附近 的人數(shù)。
[0042] 某些實施方式包括針對設(shè)備位置608對信息源進行輪詢。在某些實施方式中,可 由GPS或另一類似系統(tǒng)來確定設(shè)備位置??赏ㄟ^對網(wǎng)絡(luò)連接(例如家庭網(wǎng)絡(luò)、工作網(wǎng)絡(luò)、 Wi-Fi)進行輪詢來確定設(shè)備位置。如上文所討論的,麥克風數(shù)字ID可指示設(shè)備位置??赏?過無線電信號的多點定位來確定設(shè)備位置。如本領(lǐng)域的技術(shù)人員將認識到的,可以許多不 同的方式來實現(xiàn)確定設(shè)備的位置,并且為了簡潔起見,,僅闡述了幾個示例。
[0043] 某些實施方式包括對具有人臉識別能力610的照相機進行輪詢,以確定用戶附近 的人數(shù)的估計。人臉識別可指示照相機視圖內(nèi)的人數(shù)。某些實施方式包括針對時間612對 信息源進行輪詢。某些實施方式包括針對日期對信息源進行輪詢。時間和/或日期能夠提 供環(huán)境條件的附加信息。例如,時間或日期可指示背景噪聲的可能水平的位置上的人數(shù)???從設(shè)備本身或從網(wǎng)絡(luò)上的源確定時間和/或日期。
[0044] 在以上描述中,提供了各種實施方式的特定細節(jié)。然而,可用少于全部的這些特定 細節(jié)來實施某些實施方式。在其他情況下,為了間接和明了期間,并未比使得能夠?qū)崿F(xiàn)本發(fā) 明的各種實施方式更詳細地描述某些方法、程序、部件、結(jié)構(gòu)和/或功能。
[0045] 雖然已描述并圖示出本發(fā)明的特定實施方式,但本發(fā)明不限于如所述和所示的部 分的特定形式或布置。將由所附權(quán)利要求及其等效物來定義本發(fā)明的范圍。
[0046] 聲學模型適配系統(tǒng)的實施方式包括直接地或通過諸如數(shù)據(jù)、地址和/或控制總線 之類的系統(tǒng)總線而間接地耦合到存儲器元件的至少一個處理器。存儲器元件可以包括在程 序代碼的實際執(zhí)行期間所采用的本地存儲器、大容量存儲以及高速緩沖存儲器,其提供至 少某些程序代碼的臨時存儲以便減少在執(zhí)行期間必須從大容量存儲檢索代碼的次數(shù)。
[0047] 還應(yīng)注意的是可使用存儲于計算機可用存儲介質(zhì)上以便由計算機執(zhí)行的軟件指 令來實現(xiàn)用于所述方法的操作中的至少某些。作為示例,計算機程序產(chǎn)品的實施方式包括 用以存儲計算機可讀程序的計算機可用存儲介質(zhì),當在計算機上執(zhí)行時所述計算機可讀程 序促使計算機執(zhí)行包括用于監(jiān)視網(wǎng)頁中的指針移動的操作。網(wǎng)頁顯示一個或多個內(nèi)容饋 送。在一個實施方式中,在計算機程序產(chǎn)品中包括用以響應(yīng)于包括交互手勢的指針移動而 報告指針移動的操作。在另一實施方式中,在計算機程序產(chǎn)品中包括用于將與網(wǎng)頁所顯示 的一個或多個內(nèi)容饋送的一定量的一種或多種交互表格化的操作。
[0048] 雖然按照特定順序示出并描述了本文中的方法的操作,但可改變每個方法的操作 順序,使得可按照相反順序來執(zhí)行某些操作,或者使得可至少部分地與其他操作同時地執(zhí) 行某些操作。在另一實施方式中,可以間歇性和/或替換方式來執(zhí)行不同操作的指令或子 操作。
[0049] 本發(fā)明的實施方式能夠采取完全硬件實施方式、完全軟件實施方式或包含硬件和 軟件元件兩者的實施方式的形式。在一個實施方式中,用軟件來實現(xiàn)本發(fā)明,其包括但不限 于固件、駐留軟件、微代碼等。
[0050] 此外,本發(fā)明的實施方式能夠采取計算機程序產(chǎn)品的形式,其可從提供程序代碼 以供計算機或任何指令執(zhí)行系統(tǒng)或與之相結(jié)合地使用的計算機可用或計算機可讀介質(zhì)。出 于本描述的目的,計算機可用或計算機可讀介質(zhì)可以是能夠包含、存儲、傳送、傳播或傳輸 程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或與之相結(jié)合地使用的任何裝置。
[0051] 計算機可用或計算機可讀介質(zhì)可以是電子、磁、光、電磁、紅外線或半導(dǎo)體系統(tǒng)(或 者裝置或設(shè)備)或傳播介質(zhì)。計算機可讀介質(zhì)的示例包括半導(dǎo)體或固態(tài)存儲器、磁帶、可移 動計算機磁盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、剛性磁盤和光盤等。光盤的當前 示例包括具有只讀存儲器的緊湊式磁盤(CD-ROM)、具有讀/寫的緊湊式磁盤(CD-R/W)以及 數(shù)字視頻磁盤(DVD)。
[0052] 輸入/輸出或I/O設(shè)備(包括但不限于鍵盤、顯示器、定點設(shè)備等)能夠直接地或通 過中間I/O控制器耦合到系統(tǒng)。另外,還可將網(wǎng)絡(luò)適配器耦合到系統(tǒng)以使得數(shù)據(jù)處理系統(tǒng) 能夠通過中間私用或公共網(wǎng)絡(luò)耦合到其他數(shù)據(jù)處理系統(tǒng)或遠程打印機或存儲設(shè)備。調(diào)制解 調(diào)器、電纜調(diào)制解調(diào)器和以太網(wǎng)卡僅僅是幾個當前可用類型的網(wǎng)絡(luò)適配器。
【權(quán)利要求】
1. 一種用于適配語音識別聲學模型的方法,所述方法包括: 在不包括來自用戶的音頻輸入的情況下,編譯環(huán)境條件的信息,以針對到設(shè)備上的語 音識別器中的音頻輸入標識當前語音環(huán)境; 將所述環(huán)境條件的所述信息與聲學模型的簡檔相比較,其中每個簡檔與聲學模型相關(guān) 聯(lián),并且其中每個聲學模型補償所述音頻輸入的背景噪聲或聲學失真;以及 在不包括來自所述用戶的音頻輸入的情況下,基于所述環(huán)境條件的所述信息來選擇用 于所述語音識別器的第一聲學模型。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述方法還包括:響應(yīng)于檢測到所述音頻輸入的 聲學特性與選擇的第一簡檔相差預(yù)定閾值,創(chuàng)建新聲學模型和新簡檔。
3. 根據(jù)權(quán)利要求2所述的方法,其中所述方法還包括:調(diào)整所述新聲學模型以匹配所 述音頻輸入的所述聲學特性。
4. 根據(jù)權(quán)利要求1所述的方法,其中編譯所述環(huán)境條件的所述信息包括:確定所述設(shè) 備的特定距離內(nèi)的人數(shù)的估計,其中確定所述估計包括編譯社交網(wǎng)絡(luò)統(tǒng)計的信息。
5. 根據(jù)權(quán)利要求1所述的方法,其中編譯所述環(huán)境條件的所述信息包括:確定所述設(shè) 備的特定距離內(nèi)的人數(shù)的估計,其中確定所述估計包括編譯所述設(shè)備的所述距離內(nèi)的本地 無線設(shè)備的數(shù)目的信息。
6. 根據(jù)權(quán)利要求1所述的方法,其中編譯所述環(huán)境條件的所述信息包括:標識所述設(shè) 備的位置并將所述設(shè)備的所述位置與位置數(shù)據(jù)庫相比較。
7. 根據(jù)權(quán)利要求1所述的方法,其中編譯所述環(huán)境條件的所述信息包括:檢測被連接 到所述設(shè)備的麥克風以確定所述設(shè)備的位置。
8. -種聲學模型適配系統(tǒng),所述系統(tǒng)包括: 存儲器設(shè)備,以及 模型選擇器引擎,被耦合到存儲器設(shè)備,所述模型選擇器引擎被配置成: 在不包括來自用戶的音頻輸入的情況下,編譯環(huán)境條件的信息,以針對到設(shè)備上的語 音識別器中的音頻輸入標識當前語音環(huán)境; 將所述環(huán)境條件的所述信息與聲學模型的簡檔相比較,其中每個簡檔與聲學模型相關(guān) 聯(lián),并且其中每個聲學模型補償所述音頻輸入的背景噪聲或聲學失真;以及 在不包括來自所述用戶的音頻輸入的情況下,基于所述環(huán)境條件的所述信息來選擇用 于所述語音識別器的第一聲學模型。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述系統(tǒng)還包括:被耦合到所述存儲器設(shè)備的適 配器引擎,所述適配器引擎被配置成響應(yīng)于檢測到所述音頻輸入的聲學特性與選擇的第一 簡檔相差預(yù)定閾值,創(chuàng)建新聲學模型和新簡檔。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述適配器引擎還被配置成調(diào)整所述新聲學模 型以匹配所述音頻輸入的所述聲學特性。
11. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述模型選擇器引擎還被配置成通過編譯社交 網(wǎng)絡(luò)統(tǒng)計的信息來確定所述設(shè)備的特定距離內(nèi)的人數(shù)的估計。
12. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述模型選擇器引擎還被配置成通過編譯本地 無線設(shè)備的數(shù)目的信息來確定所述設(shè)備的特定距離內(nèi)的人數(shù)的估計。
13. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述模型選擇器引擎還被配置成標識所述設(shè)備 的位置并將所述設(shè)備的所述位置與位置數(shù)據(jù)庫相比較。
14. 一種用于適配語音識別聲學模型的系統(tǒng),包括用于實現(xiàn)根據(jù)權(quán)利要求1-7的任一 方法的任一步驟的裝置。
【文檔編號】G10L15/065GK104103271SQ201410135806
【公開日】2014年10月15日 申請日期:2014年4月4日 優(yōu)先權(quán)日:2013年4月5日
【發(fā)明者】D·A·貝爾, L·S·德盧卡, J·H·詹金斯, J·A·庫斯尼茨 申請人:國際商業(yè)機器公司