用于訓(xùn)練聲音識(shí)別模型數(shù)據(jù)庫(kù)的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開(kāi)涉及語(yǔ)音識(shí)別,并且更具體地說(shuō),涉及用于訓(xùn)練聲音識(shí)別數(shù)據(jù)庫(kù)的方法和設(shè)備。
【背景技術(shù)】
[0002]雖然語(yǔ)音識(shí)別已經(jīng)存在了幾十年,但是語(yǔ)音識(shí)別軟件和硬件的質(zhì)量最近才達(dá)到足以吸引大量消費(fèi)者的足夠高的水平。近年來(lái)語(yǔ)音識(shí)別已經(jīng)變得非常流行的一個(gè)領(lǐng)域是智能電話和平板計(jì)算機(jī)行業(yè)。使用啟用語(yǔ)音識(shí)別的設(shè)備,消費(fèi)者可以僅使用聲音命令來(lái)執(zhí)行如撥打電話、寫郵件、以及使用GPS導(dǎo)航這樣的任務(wù)。
[0003]然而,這種設(shè)備中的語(yǔ)音識(shí)別遠(yuǎn)遠(yuǎn)不夠完善。語(yǔ)音識(shí)別引擎典型地依賴于能夠識(shí)別聲音發(fā)聲的音素或命令數(shù)據(jù)庫(kù)。然而,用戶可能需要“訓(xùn)練”音素或命令數(shù)據(jù)庫(kù)以識(shí)別出他或她的語(yǔ)音特征一一口音、經(jīng)常發(fā)錯(cuò)音的詞和音節(jié)、音調(diào)特征、節(jié)奏等等。然而,即使在訓(xùn)練之后,音素或命令數(shù)據(jù)庫(kù)可能也不是在所有音頻環(huán)境中都是準(zhǔn)確的。例如,背景噪聲的存在可降低語(yǔ)音識(shí)別準(zhǔn)確性。
【附圖說(shuō)明】
[0004]雖然所附權(quán)利要求闡述了具有特殊性的本技術(shù)的特征,但是結(jié)合附圖從后面的【具體實(shí)施方式】可以更好地理解這些技術(shù),其中:
[0005]圖1示出了對(duì)著在附圖中被描繪為移動(dòng)設(shè)備的電子設(shè)備說(shuō)話的用戶。
[0006]圖2示出了圖1的電子設(shè)備的示例組件。
[0007]圖3示出了可以在其上實(shí)現(xiàn)各個(gè)實(shí)施例的架構(gòu)。
[0008]圖4-6示出了可以根據(jù)本公開(kāi)的實(shí)施執(zhí)行的步驟。
【具體實(shí)施方式】
[0009]本公開(kāi)闡述了用于訓(xùn)練基于噪聲的聲音識(shí)別模型數(shù)據(jù)庫(kù)的方法和裝置。如這里所使用的術(shù)語(yǔ)“基于噪聲的聲音識(shí)別模型數(shù)據(jù)庫(kù)”(簡(jiǎn)稱為“VR模型數(shù)據(jù)庫(kù)”)是指用作基于噪聲的音素?cái)?shù)據(jù)庫(kù)、用作命令數(shù)據(jù)庫(kù)、或者用作這兩者的數(shù)據(jù)庫(kù)。
[0010]本公開(kāi)的各個(gè)實(shí)施例包括訓(xùn)練VR模型數(shù)據(jù)庫(kù)的手動(dòng)和自動(dòng)方法。本公開(kāi)的手動(dòng)實(shí)施例包括直接訓(xùn)練方法,在該直接訓(xùn)練方法中電子設(shè)備(還被稱為“設(shè)備”)指導(dǎo)用戶以執(zhí)行操作,響應(yīng)于此,設(shè)備更新VR模型數(shù)據(jù)庫(kù)。該設(shè)備可以在設(shè)備的初始設(shè)置期間或者在用戶啟動(dòng)該過(guò)程的任何時(shí)間執(zhí)行手動(dòng)訓(xùn)練方法。例如,當(dāng)用戶處于新類型的噪聲環(huán)境中時(shí),用戶可以啟動(dòng)手動(dòng)方法以針對(duì)這種類型的噪聲訓(xùn)練VR模型數(shù)據(jù)庫(kù),并且該設(shè)備可以將新噪聲存儲(chǔ)在噪聲數(shù)據(jù)庫(kù)中。
[0011]自動(dòng)實(shí)施例包括由設(shè)備啟動(dòng)的方法而無(wú)需用戶的知識(shí)。諸如當(dāng)設(shè)備感測(cè)到新類型的噪聲或者響應(yīng)用戶的動(dòng)作時(shí),該設(shè)備可以根據(jù)環(huán)境特性來(lái)啟動(dòng)自動(dòng)方法。能夠啟動(dòng)自動(dòng)訓(xùn)練方法的用戶動(dòng)作示例包括用戶經(jīng)由按下按鈕、手勢(shì)觸發(fā)、或者聲音觸發(fā)來(lái)啟動(dòng)語(yǔ)音識(shí)別會(huì)話。在這些情況下,設(shè)備將使用用戶的語(yǔ)音以及它所檢測(cè)到的其他噪聲來(lái)進(jìn)一步訓(xùn)練VR模型數(shù)據(jù)庫(kù)。設(shè)備還可以使用用戶的語(yǔ)音以及所檢測(cè)到的噪聲以用于語(yǔ)音識(shí)別處理本身。在這種情況下,如果設(shè)備積極地對(duì)語(yǔ)音識(shí)別結(jié)果做出反應(yīng)(即與取消動(dòng)作相反,執(zhí)行語(yǔ)音識(shí)別處理所發(fā)起的動(dòng)作),那么該設(shè)備將使用來(lái)自語(yǔ)音識(shí)別事件的用戶發(fā)聲以及該事件的結(jié)果作為訓(xùn)練目標(biāo)來(lái)啟動(dòng)自動(dòng)訓(xùn)練處理。
[0012]根據(jù)各個(gè)實(shí)施例,除了現(xiàn)場(chǎng)發(fā)聲和現(xiàn)場(chǎng)噪聲之外,該設(shè)備還使用先前記錄的噪聲以及先前記錄的發(fā)聲(分別從噪聲數(shù)據(jù)庫(kù)和發(fā)聲數(shù)據(jù)庫(kù)檢索出)來(lái)訓(xùn)練VR模型數(shù)據(jù)庫(kù)。與現(xiàn)場(chǎng)噪聲和發(fā)聲一樣,可以在不同噪聲環(huán)境中以及在設(shè)備的不同使用情況期間獲得先前記錄的發(fā)聲??梢詫⑾惹坝涗浀陌l(fā)聲和噪聲分別存儲(chǔ)在噪聲數(shù)據(jù)庫(kù)和發(fā)聲數(shù)據(jù)庫(kù)中并且可以從噪聲數(shù)據(jù)庫(kù)和發(fā)聲數(shù)據(jù)庫(kù)檢索出。另外,該設(shè)備可將現(xiàn)場(chǎng)發(fā)聲和現(xiàn)場(chǎng)噪聲分別存儲(chǔ)在噪聲數(shù)據(jù)庫(kù)和發(fā)聲數(shù)據(jù)庫(kù)中以供將來(lái)使用。
[0013]根據(jù)實(shí)施例,設(shè)備可按照下述各種方式來(lái)訓(xùn)練VR模型數(shù)據(jù)庫(kù),所述各種方式中的任何一個(gè)根據(jù)環(huán)境可以用于手動(dòng)和自動(dòng)訓(xùn)練方法這兩者。例如,三種方法涉及如何捕獲合成語(yǔ)音和噪聲信號(hào)以便訓(xùn)練VR模型數(shù)據(jù)庫(kù)。這些方法中的第一個(gè)基于設(shè)備所捕獲的語(yǔ)音與自然噪聲的合成信號(hào)。第二個(gè)基于捕獲現(xiàn)場(chǎng)語(yǔ)音與設(shè)備的聲學(xué)輸出換能器所產(chǎn)生的噪聲的合成信號(hào)。第三個(gè)基于設(shè)備通過(guò)對(duì)語(yǔ)音與它現(xiàn)場(chǎng)捕獲的或者它從存儲(chǔ)器檢索出的噪聲進(jìn)行混合所產(chǎn)生的合成信號(hào)。最后的實(shí)施例可使用在安靜環(huán)境中所捕獲的與先前存儲(chǔ)的噪聲文件相混合的語(yǔ)音、或者與先前存儲(chǔ)的語(yǔ)音發(fā)聲相混合的已捕獲的噪聲。
[0014]在一個(gè)實(shí)施例中,電子設(shè)備對(duì)單個(gè)聲音輸入與一系列噪聲樣本中的每一個(gè)進(jìn)行數(shù)字地組合。每個(gè)噪聲樣本是從不同音頻環(huán)境(例如街道噪聲、雜音、車內(nèi)噪聲)得到的。聲音輸入/噪聲樣本組合用于對(duì)VR模型數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,而無(wú)需用戶必須在不同環(huán)境中的每一個(gè)中重復(fù)聲音輸入。在一個(gè)變型中,電子設(shè)備將用戶的聲音輸入傳送到維護(hù)并訓(xùn)練VR模型數(shù)據(jù)庫(kù)的服務(wù)器。
[0015]根據(jù)實(shí)施例,該方法是通過(guò)記錄發(fā)聲、對(duì)所記錄的發(fā)聲與先前記錄的噪聲樣本進(jìn)行數(shù)字地組合,并且基于該數(shù)字組合來(lái)訓(xùn)練基于噪聲的VR模型數(shù)據(jù)庫(kù)來(lái)執(zhí)行的。使用相同的單個(gè)發(fā)聲,可以對(duì)噪聲樣本集合中的每個(gè)先前記錄的噪聲樣本(例如噪聲數(shù)據(jù)庫(kù)的噪聲樣本)重復(fù)這些步驟,并且可以因此在記錄不同發(fā)聲之前重復(fù)。將來(lái),該處理可被重復(fù)以便不斷地改進(jìn)語(yǔ)音識(shí)別。
[0016]可替選地,電子設(shè)備可使用預(yù)定噪聲重放(叮當(dāng)聲、汽車、雜音)產(chǎn)生仿真噪聲環(huán)境,或者使用設(shè)備上的揚(yáng)聲器產(chǎn)生無(wú)反饋(靜音)。用戶在重放期間以及沒(méi)有重放的情況下講話。這允許設(shè)備識(shí)別出在安靜Vs.嘈雜音頻環(huán)境中用戶的語(yǔ)音特性的變化??苫谠撔畔?lái)訓(xùn)練VR模型數(shù)據(jù)庫(kù)。
[0017]—個(gè)實(shí)施例涉及經(jīng)由電子設(shè)備的麥克風(fēng)接收發(fā)聲,并且在接收了發(fā)聲的同時(shí),通過(guò)電子設(shè)備的揚(yáng)聲器來(lái)再現(xiàn)先前記錄的噪聲樣本。麥克風(fēng)拾取發(fā)聲以及先前已記錄的噪聲這兩者。
[0018]又一個(gè)實(shí)施例涉及在語(yǔ)音至文本命令(“STT”)模式期間記錄發(fā)聲,并且確定所記錄的發(fā)聲是否是STT命令。這種確定可以是基于詞識(shí)別置信度值是否超過(guò)閾值來(lái)進(jìn)行的。
[0019]如果所記錄的發(fā)聲被識(shí)別為STT命令,則電子設(shè)備執(zhí)行基于STT命令的功能。如果電子設(shè)備執(zhí)行正確功能(即與該命令相關(guān)聯(lián)的功能),則該設(shè)備對(duì)基于噪聲的VR模型數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練以使發(fā)聲與命令相關(guān)聯(lián)。
[0020]還可以在從與不同噪聲環(huán)境相結(jié)合的相同的人所記錄的相同語(yǔ)音短語(yǔ)在STT命令模式期間重復(fù)執(zhí)行該方法。噪聲環(huán)境的示例包括家、汽車、街道、辦公室、以及餐廳。
[0021]當(dāng)本公開(kāi)涉及用于彼此“提供”信息(數(shù)據(jù))的模塊和其它元件時(shí),應(yīng)理解的是存在可以執(zhí)行這種動(dòng)作的多種可能的方式,包括沿傳導(dǎo)路徑(例如電線)傳送的電信號(hào)以及對(duì)象間方法調(diào)用。
[0022]這里所描述的實(shí)施例在一直在音頻(always-onaud1)(AOA)的環(huán)境中可用。當(dāng)使用AOA時(shí),電子設(shè)備在接收到來(lái)自用戶的觸發(fā)命令時(shí),能夠從睡眠模式喚醒。AOA將附加需求置于設(shè)備上(尤其是移動(dòng)設(shè)備)。當(dāng)電子設(shè)備能夠準(zhǔn)確且快速地識(shí)別出用戶的聲音命令時(shí),AOA是最有效的。
[0023]參考圖1,用戶104提供啟用語(yǔ)音識(shí)別的電子設(shè)備(“設(shè)備”)102通過(guò)麥克風(fēng)(或其它聲音接收器)108所接收到的聲音輸入(或有聲信息或語(yǔ)音)106。在該示例中為移動(dòng)設(shè)備的設(shè)備102包括觸摸屏顯示器110,該觸摸屏顯示器110能夠顯示視覺(jué)圖像并且接收或者感測(cè)如通過(guò)用戶的手指或者諸如指示筆這樣的其它觸摸輸入設(shè)備所提供的觸摸型輸入。在圖1所示的實(shí)施例中,雖然存在有觸摸屏顯示器110,但是設(shè)備102還具有用作設(shè)備的輸入設(shè)備的多個(gè)離散按鍵或按鈕112。然而,在其它實(shí)施例中不是必須存在這樣的按鍵或按鈕(或者任何特定數(shù)目的這種按鍵或按鈕),并且觸摸屏顯示器110可用作主要的或唯一的用戶輸入設(shè)備。
[0024]雖然圖1特別地示出了設(shè)備102包括觸摸屏顯示器110和按鍵或按鈕112,但是這些特征僅旨在是設(shè)備102上的組件/特征的示例,并且在其它實(shí)施例中設(shè)備102不必包括這些特征中的一個(gè)或多個(gè)和/或除了這些特征之外或者代替這些特征還可包括其它特征。
[0025]設(shè)備102旨在表示包括例如蜂窩電話、個(gè)人數(shù)字助理(PDA)、智能電話、或者其它手持或便攜式電子設(shè)備的各種設(shè)備。在替選實(shí)施例中,設(shè)備還可以是耳機(jī)(例如藍(lán)牙耳機(jī))、MP3播放器、電池供電的設(shè)備、手表設(shè)備(例如腕表)或其它可穿戴設(shè)備、無(wú)線電、導(dǎo)航設(shè)備、膝上型或筆記本計(jì)算機(jī)、上網(wǎng)本、尋呼機(jī)、PMP(個(gè)人媒體播放器)、DVR(數(shù)字視頻記錄器)、游戲設(shè)備、照相機(jī)、電子閱讀器、電子書、平板計(jì)算機(jī)設(shè)備、具有視頻功能屏幕的導(dǎo)航設(shè)備、多媒體對(duì)接站、或者其它設(shè)備。
[0026]本公開(kāi)的實(shí)施例旨在適用于下述各種電子設(shè)備中的任一種,所述各種電子設(shè)備能夠或被配置成接收聲音輸入或者指示或表示有聲信息的其它聲音輸入。
[0027]圖2示出了根據(jù)本公開(kāi)的實(shí)施例的圖1的設(shè)備102的內(nèi)部組件。如圖2所示,設(shè)備102包括一個(gè)或多個(gè)無(wú)線收發(fā)器202、計(jì)算處理器204(例如,微處理器、微計(jì)算機(jī)、專用集成電路、數(shù)字信號(hào)處理器等等)、存儲(chǔ)器206、一個(gè)或多個(gè)輸出設(shè)備208、以及一個(gè)或多個(gè)輸入設(shè)備210。設(shè)備102可進(jìn)一步包括組件接口