專利名稱:使用地理信息的聲學(xué)模型適配的制作方法
使用地理信息的聲學(xué)模型適配
相關(guān)串請(qǐng)的交叉引用
本申請(qǐng)要求標(biāo)題為ACOUSTIC MODEL ADAPTATION USING GEOGRAPHIC INFORMATION、于2010年5月26日提交的第12/787,568號(hào)美國(guó)申請(qǐng)的優(yōu)先權(quán),通過援引將 其公開內(nèi)容并入于此。技術(shù)領(lǐng)域
本說明書涉及語(yǔ)音識(shí)別。
背景技術(shù):
移動(dòng)設(shè)備的用戶可以例如通過在鍵盤上鍵入或者向麥克風(fēng)中口述來錄入文字。在 話音輸入的背景中,自動(dòng)化搜索識(shí)別(“ASR”)引擎可能在與特定語(yǔ)言關(guān)聯(lián)的聲音基于用 戶的口音而變化時(shí)準(zhǔn)確識(shí)別口述單詞有困難。例如在由紐約人或者波士頓人口述時(shí),典型 ASR引擎可能識(shí)別單詞“park”分別為單詞“pork”或者“pack”。發(fā)明內(nèi)容
一般而言,在本說明書中描述的主題內(nèi)容的一個(gè)創(chuàng)新方面可以體現(xiàn)于方法中,這 些方法用于ASR引擎自動(dòng)地訓(xùn)練、選擇、生成或者否則適配在地理位置上專屬(或者“地理 專屬”)于一個(gè)或者多個(gè)地理區(qū)域的一個(gè)或者多個(gè)聲學(xué)模型。聲學(xué)模型應(yīng)用于用位置信息 進(jìn)行“地理標(biāo)注”的音頻信號(hào)(或者“采樣”或者“波形”)以通過比較音頻信號(hào)與聲音的統(tǒng) 計(jì)表示來執(zhí)行語(yǔ)音識(shí)別,這些聲音組成特定語(yǔ)言的每個(gè)單詞。一個(gè)或者多個(gè)聲學(xué)模型可以 包括在地理位置上專屬于單個(gè)地理區(qū)域或者多個(gè)地理區(qū)域的單個(gè)聲學(xué)模型。
如本說明書中所用,“地理標(biāo)注”的音頻信號(hào)指代已經(jīng)與位置元數(shù)據(jù)(例如地理位 置元數(shù)據(jù)或者相對(duì)位置元數(shù)據(jù))或者地理空間元數(shù)據(jù)關(guān)聯(lián)或者用該元數(shù)據(jù)“標(biāo)注”的信號(hào)。 除其他以外,位置元數(shù)據(jù)可以包括導(dǎo)航坐標(biāo)如緯度和經(jīng)度、海拔信息、方位或者航向信息、 與位置關(guān)聯(lián)的名稱或者地址信息、相對(duì)位置或者方向信息或者引用位置類型的信息。
用于適配聲學(xué)模型的方法包括接收多個(gè)移動(dòng)設(shè)備在多個(gè)地理位置記錄的地理標(biāo) 注的音頻信號(hào)并且使用地理標(biāo)注的音頻信號(hào)中的至少部分來適配一個(gè)或者多個(gè)聲學(xué)模型。 在接收移動(dòng)設(shè)備在地理位置之一內(nèi)或者附近記錄的講話時(shí),ASR引擎可以使用一個(gè)或者多 個(gè)適配的聲學(xué)模型對(duì)講話執(zhí)行語(yǔ)音識(shí)別。顯然可以在接收講話之前、期間或者之后適配聲 學(xué)模型。
講話可以對(duì)應(yīng)于任何類型的話音輸入、比如向話音搜索查詢系統(tǒng)、口授系統(tǒng)或者 對(duì)話系統(tǒng)的輸入。在話音搜索查詢系統(tǒng)的情境中,“搜索查詢”包括在用戶請(qǐng)求搜索引擎執(zhí) 行搜索查詢時(shí)用戶向搜索引擎提交的一個(gè)或者多個(gè)查詢檢索詞,其中“檢索詞”或者“查詢 檢索詞”包括一個(gè)或者多個(gè)全部或者部分單詞、字符或者字符串。除其他以外,搜索查詢的 “結(jié)果”(或者“搜索結(jié)果”)包括引用如下資源的統(tǒng)一資源標(biāo)識(shí)符(URI),搜索引擎確定該 資源響應(yīng)于搜索查詢。除其他以外,搜索結(jié)果可以比如包括標(biāo)題、預(yù)覽圖像、用戶等級(jí)、地圖或者方向、對(duì)應(yīng)資源的描述或者已經(jīng)從對(duì)應(yīng)資源自動(dòng)或者手動(dòng)提取或者否則與對(duì)應(yīng)資源關(guān) 聯(lián)的文字摘錄。
一般而言,在本說明書中描述的主題內(nèi)容的另一創(chuàng)新方面可以實(shí)現(xiàn)于包括以下動(dòng) 作的方法中接收與移動(dòng)設(shè)備記錄的講話對(duì)應(yīng)的音頻信號(hào);確定與移動(dòng)設(shè)備關(guān)聯(lián)的地理位 置;針對(duì)地理位置適配一個(gè)或者多個(gè)聲學(xué)模型;并且使用針對(duì)地理位置適配的一個(gè)或者多 個(gè)聲學(xué)模型對(duì)音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別。
這些方面的其它實(shí)施例包括配置成執(zhí)行方法的動(dòng)作的對(duì)應(yīng)系統(tǒng)、裝置和在計(jì)算機(jī) 存儲(chǔ)設(shè)備上編碼的計(jì)算機(jī)程序。
這些和其它實(shí)施例可以各自可選地包括以下特征中的一個(gè)或者多個(gè)特征。在各 種例子中,適配一個(gè)或者多個(gè)聲學(xué)模型還包括在接收與講話對(duì)應(yīng)的音頻信號(hào)之前適配一個(gè) 或者多個(gè)聲學(xué)模型;適配一個(gè)或者多個(gè)聲學(xué)模型還包括在接收與講話對(duì)應(yīng)的音頻信號(hào)之后 適配一個(gè)或者多個(gè)聲學(xué)模型;動(dòng)作還包括接收與多個(gè)移動(dòng)設(shè)備在多個(gè)地理位置記錄的音頻 對(duì)應(yīng)的地理標(biāo)注的音頻信號(hào);并且針對(duì)地理位置適配一個(gè)或者多個(gè)聲學(xué)模型還包括使用地 理標(biāo)注的音頻信號(hào)的子集針對(duì)地理位置適配一個(gè)或者多個(gè)聲學(xué)模型;動(dòng)作還包括針對(duì)地 理標(biāo)注的音頻信號(hào)中的每個(gè)地理標(biāo)注的音頻信號(hào)確定在與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置和與 地理標(biāo)注的音頻信號(hào)關(guān)聯(lián)的地理位置之間的距離;并且選擇與在與移動(dòng)設(shè)備關(guān)聯(lián)的地理位 置的預(yù)定距離內(nèi)的地理位置關(guān)聯(lián)、或者與在與關(guān)聯(lián)于移動(dòng)設(shè)備的地理位置最近的N個(gè)地理 位置之中的地理位置關(guān)聯(lián)的地理標(biāo)注的音頻信號(hào)作為地理標(biāo)注的音頻信號(hào)的子集;動(dòng)作還 包括選擇與也與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置關(guān)聯(lián)的地理標(biāo)注的音頻信號(hào)作為地理標(biāo)注的音 頻信號(hào)的子集;動(dòng)作還包括基于與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置和基于與講話關(guān)聯(lián)的情境數(shù)據(jù) 選擇地理標(biāo)注的音頻信號(hào)的子集;情境數(shù)據(jù)包括對(duì)移動(dòng)設(shè)備記錄講話時(shí)的時(shí)間或者日期進(jìn) 行引用的數(shù)據(jù)、對(duì)移動(dòng)設(shè)備在記錄講話時(shí)測(cè)量的速度或者運(yùn)動(dòng)量進(jìn)行引用的數(shù)據(jù)、引用移 動(dòng)設(shè)備的設(shè)置的數(shù)據(jù)或者引用移動(dòng)設(shè)備的類型的數(shù)據(jù);適配聲學(xué)模型包括使用地理標(biāo)注的 音頻信號(hào)的子集作為訓(xùn)練集來訓(xùn)練高斯混合模型(GMM);講話代表話音搜索查詢或者向數(shù) 字口授應(yīng)用或者對(duì)話系統(tǒng)的輸入;確定地理位置還包括從移動(dòng)設(shè)備接收引用地理位置的數(shù) 據(jù);確定地理位置還包括確定與移動(dòng)設(shè)備關(guān)聯(lián)的以往地理位置或者默認(rèn)地理位置;動(dòng)作還 包括生成講話的一個(gè)或者多個(gè)候選轉(zhuǎn)錄;并且使用一個(gè)或者多個(gè)候選轉(zhuǎn)錄來執(zhí)行搜索查 詢;針對(duì)地理位置適配一個(gè)或者多個(gè)聲學(xué)模型還包括從已經(jīng)針對(duì)多個(gè)地理位置生成的多個(gè) 聲學(xué)模型之中選擇針對(duì)與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置生成的一個(gè)或者多個(gè)聲學(xué)模型;針對(duì)地 理位置適配一個(gè)或者多個(gè)聲學(xué)模型還包括向單個(gè)聲學(xué)模型使用的特征空間中并入引用地 理位置的數(shù)據(jù);向單個(gè)聲學(xué)模型使用的特征空間中并入引用地理位置的數(shù)據(jù)還包括向單個(gè) 聲學(xué)模型使用的特征空間中并入值,其中值包括梅爾頻率倒頻譜系數(shù)和地理坐標(biāo);針對(duì)地 理位置適配一個(gè)或者多個(gè)聲學(xué)模型還包括向在單個(gè)聲學(xué)模型中包括的狀態(tài)信息中并入引 用地理位置的數(shù)據(jù);和/或針對(duì)地理位置適配一個(gè)或者多個(gè)聲學(xué)模型還包括推導(dǎo)與地理 位置關(guān)聯(lián)的變換矩陣;并且將變換矩陣應(yīng)用于單個(gè)通用聲學(xué)模型。
可以實(shí)施在本說明書中描述的主題內(nèi)容的具體實(shí)施例以實(shí)現(xiàn)以下優(yōu)點(diǎn)中的一個(gè) 或者多個(gè)優(yōu)點(diǎn)??梢蕴岣哒Z(yǔ)音識(shí)別準(zhǔn)確度??梢允褂脺?zhǔn)確地反映口音、方言或存在于給定 語(yǔ)言中的語(yǔ)音模式中的差異的講話以及可以跨不同的地理區(qū)域發(fā)生的講話來適配聲學(xué)模 型。語(yǔ)音識(shí)別可以在服務(wù)器側(cè)處執(zhí)行,而非在客戶端設(shè)備上執(zhí)行,以允許增強(qiáng)處理優(yōu)化并且增加計(jì)算效率。
在附圖和下文描述中闡述在本說明書中描述的主題內(nèi)容的一個(gè)或者多個(gè)實(shí)施例 的細(xì)節(jié)。主題內(nèi)容的其它潛在特征、方面和優(yōu)點(diǎn)將從該描述、附圖和權(quán)利要求中變得清楚。
圖1是使用地理標(biāo)注的音頻以增強(qiáng)語(yǔ)音識(shí)別準(zhǔn)確度的例子系統(tǒng)的圖。
圖2和圖3是例子過程的流程圖。
圖4是例子過程的泳道圖。
各種附圖中的相似標(biāo)號(hào)指示相似要素。
具體實(shí)施方式
圖1是使用地理標(biāo)注的音頻以增強(qiáng)語(yǔ)音識(shí)別準(zhǔn)確度的例子系統(tǒng)100的圖。圖1也 圖示了在狀態(tài)(a)至⑴期間在系統(tǒng)100內(nèi)的數(shù)據(jù)流以及在狀態(tài)⑴期間在系統(tǒng)100的移 動(dòng)設(shè)備102上顯示的用戶接口 101。簡(jiǎn)言之,系統(tǒng)100適配地理專屬于一個(gè)或者多個(gè)地理區(qū) 域的一個(gè)或者多個(gè)聲學(xué)模型。聲學(xué)模型應(yīng)用于用位置信息進(jìn)行地理標(biāo)注的音頻信號(hào),以通 過比較音頻信號(hào)與聲音的統(tǒng)計(jì)表示來執(zhí)行語(yǔ)音識(shí)別,這些聲音組成特定語(yǔ)言的每個(gè)單詞。
更具體而言,系統(tǒng)100包括通過一個(gè)或者多個(gè)網(wǎng)絡(luò)106與服務(wù)器104和ASR引擎 105通信的移動(dòng)設(shè)備102。服務(wù)器104可以是搜索引擎、口授引擎、對(duì)話系統(tǒng)或者任何如下 其它引擎或者系統(tǒng),該引擎或者系統(tǒng)使用轉(zhuǎn)錄的語(yǔ)音或者調(diào)用使用轉(zhuǎn)錄的語(yǔ)音的軟件應(yīng)用 以執(zhí)行某個(gè)動(dòng)作。網(wǎng)絡(luò)106可以包括無線蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)(WLAN)或者W1-Fi網(wǎng)絡(luò)、 第三代(3G)或者第四代(4G)移動(dòng)電信網(wǎng)絡(luò)、專用網(wǎng)絡(luò)如內(nèi)部網(wǎng)、公用網(wǎng)絡(luò)如因特網(wǎng)或者其 任何適當(dāng)組合。狀態(tài)(a)至(i)描繪當(dāng)系統(tǒng)100執(zhí)行例子過程時(shí)出現(xiàn)的數(shù)據(jù)流。狀態(tài)(a) 至(i)可以是時(shí)序狀態(tài),或者它們可以在與所示序列不同的序列中出現(xiàn)。
根據(jù)圖1中所示例子過程,ASR引擎105從各種設(shè)備(例如移動(dòng)設(shè)備102或者其 它移動(dòng)或者非移動(dòng)設(shè)備)接收地理標(biāo)注的音頻信號(hào)107至109并且使用地理標(biāo)注的音頻信 號(hào)107至109針對(duì)一個(gè)或者多個(gè)地理位置適配一個(gè)或者多個(gè)地理專屬聲學(xué)模型111。地理 專屬聲學(xué)模型111可以包括適配成地理專屬于一個(gè)地理位置或者多個(gè)地理位置的一個(gè)單 個(gè)聲學(xué)模型,或者地理專屬聲學(xué)模型111可以包括共同適配成地理專屬于一個(gè)地理位置或 者各自適配成地理專屬于不同地理位置的兩個(gè)或者更多聲學(xué)模型。
當(dāng)接收與移動(dòng)設(shè)備102記錄的講話113對(duì)應(yīng)的音頻信號(hào)112時(shí),確定與移動(dòng)設(shè) 備102(或者移動(dòng)設(shè)備102的用戶114( “波士頓Bob”))關(guān)聯(lián)的一個(gè)或者多個(gè)地理位置。 ASR引擎105使用地理專屬聲學(xué)模型111來轉(zhuǎn)錄講話113,這些聲學(xué)模型匹配于與移動(dòng)設(shè)備 102 (或者移動(dòng)設(shè)備102的用戶114)關(guān)聯(lián)的地理位置或者ASR引擎105確定這些聲學(xué)模型 適合于這些地理位置。從ASR引擎105向服務(wù)器104傳達(dá)一個(gè)或者多個(gè)候選轉(zhuǎn)錄115。當(dāng) 服務(wù)器104是搜索引擎時(shí),服務(wù)器104使用候選轉(zhuǎn)錄115來執(zhí)行一個(gè)或者多個(gè)搜索查詢、生 成搜索結(jié)果116并且向移動(dòng)設(shè)備102傳達(dá)搜索結(jié)果116用于顯示。
更具體而言,在狀態(tài)(a)期間,通過網(wǎng)絡(luò)106向ASR引擎105傳達(dá)地理標(biāo)注的音頻 信號(hào)107至109。一般而言,地理標(biāo)注的音頻信號(hào)107至109中的一個(gè)或者多個(gè)音頻信號(hào)包 括不同用戶的話音??梢栽跔顟B(tài)(a)期間向ASR引擎105傳達(dá)更少或者更多地理標(biāo)注的音頻信號(hào)。
雖然在地理標(biāo)注的音頻信號(hào)107至109中編碼的話音中的若干語(yǔ)音可以共享共同 語(yǔ)言,但是口述共同語(yǔ)言的不同話音可以具有與不同地理區(qū)域相關(guān)的不同口音(即“地理 相關(guān)”語(yǔ)音)。因而與音頻信號(hào)107至109關(guān)聯(lián)的地理位置可以用來按照地理區(qū)域(并且 因此按照口音、方言或者語(yǔ)音模式)對(duì)音頻信號(hào)聚類并且適配一個(gè)或者多個(gè)聲學(xué)模型111 以更好地識(shí)別表現(xiàn)特定地理相關(guān)口音、方言或者語(yǔ)音模式的語(yǔ)音。除了話音之外,地理標(biāo)注 的音頻信號(hào)107至109也可以包括在特定位置(自然地或者以別的方式)出現(xiàn)的周圍聲音 或者環(huán)境噪聲。
在狀態(tài)(b)期間,ASR引擎105接收地理標(biāo)注的音頻信號(hào)107至109并且在音頻 信號(hào)匯集中(例如在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上)存儲(chǔ)地理標(biāo)注的音頻信號(hào)107至109 (或者 其部分)。如下文描述的那樣,ASR引擎105存儲(chǔ)的音頻信號(hào)匯集用于訓(xùn)練、構(gòu)建、生成或者 否則適配一個(gè)或者多個(gè)地理專屬聲學(xué)模型111,這些聲學(xué)模型用來對(duì)地理標(biāo)注的音頻信號(hào) 和講話執(zhí)行語(yǔ)音識(shí)別。
在圖1中,ASR引擎105接收已經(jīng)用引用位置“紐約市”的元數(shù)據(jù)117標(biāo)注的音頻 信號(hào)107。另外,ASR引擎105接收已經(jīng)用引用位置“波士頓”的元數(shù)據(jù)118和引用“城市” 地理位置類型(即因?yàn)椤安ㄊ款D”是城市)的元數(shù)據(jù)119標(biāo)注的音頻信號(hào)108。此外,ASR 引擎105接收已經(jīng)用引用位置“新英格蘭”的元數(shù)據(jù)120和引用位置“波士頓”(“波士頓” 是“新英格蘭”內(nèi)的城市)的元數(shù)據(jù)121標(biāo)注的音頻信號(hào)109。與相應(yīng)音頻信號(hào)關(guān)聯(lián)的地理 標(biāo)注的位置可以指代移動(dòng)設(shè)備的位置、用戶、講話引用的位置、默認(rèn)位置、ASR引擎105、網(wǎng) 絡(luò)106或者網(wǎng)絡(luò)106的部分或者一些其它位置。
元數(shù)據(jù)117至121 (或者其一些部分)可以如圖所示由向ASR引擎105傳達(dá)元數(shù) 據(jù)117至121的設(shè)備與音頻信號(hào)107至109關(guān)聯(lián)。取而代之,元數(shù)據(jù)117至121 (或者其一 些部分)可以由ASR引擎105、搜索引擎104或者由另一服務(wù)器在接收未標(biāo)注的音頻信號(hào)之 后基于推斷移動(dòng)設(shè)備102 (或者移動(dòng)設(shè)備102的用戶114)的位置來與音頻信號(hào)107至109關(guān)聯(lián)。
音頻信號(hào)107至109可以各自包括相對(duì)高質(zhì)量音頻、比如十六千赫茲無損音頻的 兩秒(或者更多)摘錄。元數(shù)據(jù)可以引用設(shè)備(或者設(shè)備的用戶)在記錄、捕獲、生成或者 否則獲得音頻時(shí)的位置,或者元數(shù)據(jù)可以引用設(shè)備(或者設(shè)備的用戶)在記錄、捕獲、生成 或者否則獲得音頻之前或者之后的時(shí)間的位置??梢韵駻SR引擎105人工上傳音頻信號(hào)107 至109,或者對(duì)于選擇參與的用戶,可以自動(dòng)獲得并且向ASR引擎105傳達(dá)音頻信號(hào)107至 109而無需在向ASR引擎105傳達(dá)每個(gè)音頻信號(hào)之前的顯式用戶激勵(lì)。
元數(shù)據(jù)117至121可以用任何數(shù)目的不同格式或者細(xì)節(jié)或者粒度水平描述位置。 例如,元數(shù)據(jù)117至121可以包括標(biāo)識(shí)地理區(qū)域的二維坐標(biāo)(例如緯度和經(jīng)度)、地址或者 信息。當(dāng)在移動(dòng)車輛中記錄音頻信號(hào)時(shí),元數(shù)據(jù)117至121可以描述車輛的路徑(例如包 括起點(diǎn)和終點(diǎn)以及運(yùn)動(dòng)數(shù)據(jù))。此外,元數(shù)據(jù)117至121可以在位置類型方面描述位置(例 如“移動(dòng)車輛”、“在海灘上”、“在飯館中”、“在高樓中”、“南亞”、“農(nóng)村區(qū)域”、“有建筑噪聲的 某處”、“游樂園”、“在船艇上”、“室內(nèi)”、“地下”、“在街道上”、“森林”)。
另外,元數(shù)據(jù)117至121可以在有界區(qū)域方面描述位置(例如表達(dá)為限定有界 區(qū)域的坐標(biāo)集)或者可以使用區(qū)域標(biāo)識(shí)符、比如州名或者標(biāo)識(shí)符、城市名、慣用名(例如“中央公園”、“唐人街”、“TriBeca”)、國(guó)名或者任意限定區(qū)域的標(biāo)識(shí)符(例如“房間/區(qū)域 ABC123”)。單個(gè)音頻信號(hào)可以與描述一個(gè)位置或者位置類型或者多個(gè)位置和/或位置類型 的元數(shù)據(jù)關(guān)聯(lián)。
ASR引擎105或者移動(dòng)設(shè)備102可以處理元數(shù)據(jù)117至121以調(diào)整位置信息的細(xì) 節(jié)水平(例如以確定與特定坐標(biāo)集關(guān)聯(lián)的州),或者位置信息可以被離散化(例如通過選擇 沿著路徑的具體點(diǎn)或者與路徑關(guān)聯(lián)的區(qū)域)??梢酝ㄟ^指定或者添加位置類型元數(shù)據(jù)、例如 通過向其關(guān)聯(lián)地理坐標(biāo)與海灘位置關(guān)聯(lián)的音頻信號(hào)添加“在海灘上”標(biāo)簽或者通過向包括 在背景中交談的多個(gè)人的聲音的音頻信號(hào)添加“有許多人的某處”標(biāo)簽來調(diào)整元數(shù)據(jù)的細(xì) 節(jié)水平,當(dāng)特定音頻信號(hào)與引用兩個(gè)或者更多位置的元數(shù)據(jù)關(guān)聯(lián)時(shí),ASR引擎105可以通過 去除引用位置中的一個(gè)或者多個(gè)位置的元數(shù)據(jù)來過濾音頻信號(hào)。
元數(shù)據(jù)引用的地理位置也可以轉(zhuǎn)換成離散化的特征以減少可能不同位置的數(shù)目。 這可以例如通過減少緯度和經(jīng)度坐標(biāo)的分辨率(例如從O. 001度減少至I度或者5度)或 者通過將緯度和經(jīng)度坐標(biāo)轉(zhuǎn)換成地理位置的名稱(例如通過使用在國(guó)家、州、城市或者省 份之間的邊界限定的區(qū)域)來完成。
由于ASR引擎105適配一個(gè)或者多個(gè)聲學(xué)模型111以增強(qiáng)對(duì)包括不同口音的話音 的識(shí)別,所以用來適配一個(gè)或者多個(gè)聲學(xué)模型111的音頻信號(hào)應(yīng)當(dāng)包括不同用戶在不同地 理位置的語(yǔ)音、口音和方言。就這一點(diǎn)而言,ASR引擎105可以使用語(yǔ)音活動(dòng)檢測(cè)器以驗(yàn)證 ASR引擎105存儲(chǔ)的音頻信號(hào)匯集包括語(yǔ)音存在于其中的音頻信號(hào)并且濾除或者以別的方 式標(biāo)識(shí)或者排除僅包括環(huán)境噪音或者環(huán)境聲音的音頻信號(hào)(或者音頻信號(hào)的部分)。例如 ASR引擎105可以去除音頻信號(hào)的與在用戶口述之前或者之后出現(xiàn)或者在單詞之間的停頓 之間出現(xiàn)的背景噪聲對(duì)應(yīng)的部分。ASR引擎105存儲(chǔ)的音頻信號(hào)匯集可以包括數(shù)以十計(jì)、數(shù) 以百計(jì)、數(shù)以千計(jì)、數(shù)以百萬(wàn)計(jì)或者數(shù)以億計(jì)的音頻信號(hào)。
ASR引擎105對(duì)存儲(chǔ)或者不存儲(chǔ)特定音頻信號(hào)(或者其部分)的判決可以分別基 于確定用戶的語(yǔ)音在音頻信號(hào)中被編碼或者未被編碼。取而代之,ASR引擎105存儲(chǔ)音頻 信號(hào)可以包括標(biāo)識(shí)音頻信號(hào)的包括用戶的語(yǔ)音的部分、通過去除未包括用戶的語(yǔ)音的部分 或者通過關(guān)聯(lián)元數(shù)據(jù)、該元數(shù)據(jù)引用包括用戶的語(yǔ)音的部分來變更音頻信號(hào)并且存儲(chǔ)變更 的音頻信號(hào)。音頻信號(hào)的環(huán)境噪聲或者環(huán)境聲音部分可以由ASR引擎105存儲(chǔ)用于其它目 的、例如構(gòu)建地理專屬噪聲模型。
與音頻信號(hào)107或者109關(guān)聯(lián)的其它情境數(shù)據(jù)或者元數(shù)據(jù)也可以由ASR引擎105 存儲(chǔ)。例如ASR引擎105存儲(chǔ)的音頻信號(hào)可以在一些實(shí)施方式中包括其它元數(shù)據(jù)標(biāo)簽、比 如指示背景語(yǔ)音(例如自助餐廳聊天)是否存在于音頻信號(hào)內(nèi)的標(biāo)簽、標(biāo)識(shí)獲得特定音頻 信號(hào)的日期的標(biāo)簽(例如用來確定采樣年齡)、標(biāo)識(shí)移動(dòng)設(shè)備102的用戶114的口音的標(biāo) 簽、標(biāo)識(shí)移動(dòng)設(shè)備102的用戶114設(shè)置的地點(diǎn)的標(biāo)簽(例如標(biāo)識(shí)用戶114偏好英國(guó)英語(yǔ)或 者美國(guó)英語(yǔ)的標(biāo)簽)或者標(biāo)識(shí)特定音頻信號(hào)是否以一些方式從匯集的在相同或者相似位 置獲得的其它音頻信號(hào)偏離的標(biāo)簽。例如標(biāo)簽可以標(biāo)識(shí)無口音或者有重口音(例如南非口 音)的用戶正在與不同重口音(例如澳大利亞口音)關(guān)聯(lián)的地理區(qū)域中使用移動(dòng)設(shè)備以避 免使用未準(zhǔn)確反映與特定地理區(qū)域關(guān)聯(lián)的口音的音頻信號(hào)來適配聲學(xué)模型。
ASR引擎105可以可選地過濾音頻信號(hào)以排除滿足或者未滿足其它標(biāo)準(zhǔn)的特定音 頻信號(hào)。例如ASR引擎105可以判決不存儲(chǔ)如下音頻信號(hào),該音頻信號(hào)比某一年齡更老或者包括可以唯一標(biāo)識(shí)個(gè)人或者可以用別的方式在性質(zhì)上專有或者私有的背景聊天。在附加 例子中,可以在與音頻信號(hào)關(guān)聯(lián)的元數(shù)據(jù)中標(biāo)注如下數(shù)據(jù),該數(shù)據(jù)引用是否人工或者自動(dòng) 上傳ASR引擎105存儲(chǔ)的音頻信號(hào),并且可以僅使用自動(dòng)上傳的那些音頻信號(hào)或者僅使用 人工上傳的那些音頻信號(hào)來適配一個(gè)或者多個(gè)聲學(xué)模型111,或者可以在適配聲學(xué)模型期 間向每個(gè)上傳類別分配不同加權(quán)。
雖然顯式標(biāo)簽可以應(yīng)用于ASR引擎105存儲(chǔ)的音頻信號(hào)以引用特定地理位置,但 是在其它實(shí)施方式中,可以比如當(dāng)可以推導(dǎo)在音頻信號(hào)與地理位置之間的關(guān)聯(lián)性時(shí),無需 或者未使用顯式標(biāo)簽。例如可以通過處理搜索日志(例如用服務(wù)器104存儲(chǔ))以推斷用于 特定音頻信號(hào)的地理位置來隱式地關(guān)聯(lián)地理位置與音頻信號(hào)。因而,ASR引擎105 ‘接收’ 地理標(biāo)注的音頻信號(hào)可以包括獲得未用地理位置明確標(biāo)注的音頻信號(hào)并且推導(dǎo)和關(guān)聯(lián)用 于音頻信號(hào)的一個(gè)或者多個(gè)地理標(biāo)簽。
在狀態(tài)(c)期間,通過網(wǎng)絡(luò)106從移動(dòng)設(shè)備102向ASR引擎105傳達(dá)音頻信號(hào)112。 音頻信號(hào)112包括移動(dòng)設(shè)備012 (例如在用戶隱式地或者顯式地發(fā)起語(yǔ)音搜索查詢時(shí))記 錄的講話113 (如本地波士頓人、比如“波士頓Bob”可以口述的“Pahk yah kah”,它是措詞 “停放您的汽車”的表音轉(zhuǎn)錄)。音頻信號(hào)112包括引用地理位置“波士頓”的元數(shù)據(jù)123。 除了包括講話113之外,音頻信號(hào)112也可以包括環(huán)境音頻摘錄、比如在口述講話113之前 或者之后記錄的兩秒音頻摘錄。盡管在圖1中圖示了講話113為語(yǔ)音查詢,但是在其它例 子實(shí)施方式中,講話可以是向口授系統(tǒng)或者相對(duì)話系統(tǒng)的語(yǔ)音輸入。
可以使用與ASR引擎105存儲(chǔ)的音頻信號(hào)關(guān)聯(lián)的地理位置相同或者不同的細(xì)節(jié)水 平來限定與音頻信號(hào)112關(guān)聯(lián)的地理位置(“波士頓”)。例如可以表達(dá)與ASR引擎105存 儲(chǔ)的音頻信號(hào)關(guān)聯(lián)的地理位置為地理區(qū)域,而可以表達(dá)與音頻信號(hào)112關(guān)聯(lián)的地理位置為 地理坐標(biāo)。當(dāng)細(xì)節(jié)水平不同時(shí),ASR引擎105可以處理元數(shù)據(jù)117至121的地理元數(shù)據(jù)123 以對(duì)準(zhǔn)相應(yīng)細(xì)節(jié)水平,從而可以更容易執(zhí)行子集選擇過程。
元數(shù)據(jù)123可以由移動(dòng)設(shè)備102 (或者移動(dòng)設(shè)備102對(duì)用戶114)在記錄講話113 時(shí)基于當(dāng)前地理位置來與音頻信號(hào)112關(guān)聯(lián)并且可以與音頻信號(hào)112 —起從移動(dòng)設(shè)備102 向ASR引擎105傳達(dá)。取而代之,元數(shù)據(jù)可以由ASR引擎105基于ASR引擎105推斷的用 于移動(dòng)設(shè)備102 (或者移動(dòng)設(shè)備102的用戶114)的地理位置來與音頻信號(hào)112關(guān)聯(lián)。
ASR引擎105或者移動(dòng)設(shè)備102可以使用用戶的日歷時(shí)間表、(例如如存儲(chǔ)于ASR 引擎105或者服務(wù)器104的用戶賬戶中或者如從移動(dòng)設(shè)備102傳達(dá)的)用戶偏好、默認(rèn)位 置、以往位置(例如移動(dòng)設(shè)備102的GPS模塊計(jì)算的最新位置)、用戶在提交語(yǔ)音搜索查詢 時(shí)顯式提供的信息、根據(jù)講話113本身、三角測(cè)量(例如WiFi或者小區(qū)塔三角測(cè)量)、在移 動(dòng)設(shè)備102中的GPS模塊或者推算定位(dead reckoning)來推斷地理位置。元數(shù)據(jù)123 可以包括準(zhǔn)確度信息,該信息指定地理位置確定的準(zhǔn)確度,從而表示移動(dòng)設(shè)備102(或者移 動(dòng)設(shè)備102的用戶114)在記錄講話113時(shí)的時(shí)間實(shí)際上在元數(shù)據(jù)123指定的特定地理位 置的可能性。
在附加例子中,ASR引擎105或者移動(dòng)設(shè)備102可以使用用戶在所有他的講話內(nèi)的 平均位置、用戶的“家鄉(xiāng)位置”(例如如用戶顯式地指定或者根據(jù)口音推斷的、用戶當(dāng)前居住 的位置或者他成長(zhǎng)并且他的口音來自的位置)、代表用戶在一些近來時(shí)間段內(nèi)的位置的‘平 滑’、當(dāng)前位置與用戶的家鄉(xiāng)位置的組合(例如根據(jù)兩個(gè)二維緯度和經(jīng)度推導(dǎo)的四維信號(hào))或者作為連續(xù)二維緯度和經(jīng)度信號(hào)的當(dāng)前位置位置來推斷地理位置。
也可以與音頻信號(hào)112 —起包括其它元數(shù)據(jù)。例如與音頻信號(hào)一起包括的元數(shù)據(jù) 可以包括與相應(yīng)移動(dòng)設(shè)備102關(guān)聯(lián)的位置或者地點(diǎn)。例如地點(diǎn)可以描述移動(dòng)設(shè)備102在其 中注冊(cè)的區(qū)域或者移動(dòng)設(shè)備102的用戶114的語(yǔ)言或者方言以及其它可選參數(shù)。語(yǔ)音識(shí)別 模塊124可以使用這一信息以選擇、訓(xùn)練、生成或者以別的方式適配與移動(dòng)設(shè)備102的情境 匹配的噪聲、話音、聲學(xué)、流行度或者其它模型。
在狀態(tài)(d)期間,ASR引擎105選擇ASR引擎105已經(jīng)接收的音頻信號(hào)的子集并 且使用聲學(xué)模型適配模塊125以使用音頻信號(hào)的子集來訓(xùn)練、生成或者以別的方式適配一 個(gè)或者多個(gè)聲學(xué)模型111 (例如高斯混合模型(GMM))。例如可以使用ASR引擎105選擇的 音頻信號(hào)的子集作為用于一個(gè)或者多個(gè)聲學(xué)模型111的訓(xùn)練集。
子集可以包括ASR引擎105存儲(chǔ)的音頻信號(hào)中的所有或者少于所有音頻信號(hào)。這 一選擇可以通過比較來自音頻信號(hào)107至109的聲學(xué)信息與來自音頻信號(hào)112的聲學(xué)信息 來出現(xiàn)以產(chǎn)生更準(zhǔn)確反應(yīng)在不同口音之間的實(shí)際地理邊界的子集。
一般而言,一個(gè)或者多個(gè)聲學(xué)模型111與噪聲模型、語(yǔ)言模型和/或其它模型一起 應(yīng)用于音頻信號(hào)112以將口述講話113轉(zhuǎn)譯或者轉(zhuǎn)錄成一個(gè)或者多個(gè)文字候選轉(zhuǎn)錄115并 且向候選轉(zhuǎn)錄115生成語(yǔ)音識(shí)別置信度分?jǐn)?shù)。具體而言,一個(gè)或者多個(gè)聲學(xué)模型111包括組 成特定語(yǔ)言的每個(gè)單詞的聲音的統(tǒng)計(jì)表示,并且噪聲模型用于噪聲抑制或者噪聲補(bǔ)償。兩 種模型增強(qiáng)口述講話113在ASR引擎105看來的可理解性。
更具體而言,聲學(xué)模型適配模塊125可以使用音頻信號(hào)108和109針對(duì)與音頻信 號(hào)112關(guān)聯(lián)的地理位置(“波士頓”)適配聲學(xué)模型,因?yàn)榈乩順?biāo)注音頻信號(hào)108和109為 已經(jīng)在該地理位置或者附近或者在相同或者相似類型的位置被記錄。另外,除了音頻信號(hào) 108和109之外或者取而代之,音頻信號(hào)112本身也可以用來適配一個(gè)或者多個(gè)聲學(xué)模型 111。在針對(duì)特定地理位置適配聲學(xué)模型時(shí),聲學(xué)模型適配模塊125基于可以與特定口音、 方言或者話音模式相關(guān)的標(biāo)準(zhǔn)來適配聲學(xué)模型。
在另一例子中,聲學(xué)模型適配模塊125可以使用被地理標(biāo)注為已經(jīng)在另一地理位 置(例如“紐約市”)或者附近或者在相同或者相似類型的位置被記錄的音頻信號(hào)107針對(duì) 另一地理位置適配聲學(xué)模型。如果聲學(xué)模型適配模塊125被配置成選擇被地理標(biāo)注為已經(jīng) 在與音頻信號(hào)112關(guān)聯(lián)的地理位置附近(例如在預(yù)定義距離內(nèi))被記錄的音頻信號(hào),那么 如果“紐約市”在“波士頓”的預(yù)定義距離內(nèi),則聲學(xué)模型視頻模塊125也可以使用標(biāo)注“紐 約市”的音頻信號(hào)107針對(duì)“波士頓”適配一個(gè)或者多個(gè)聲學(xué)模型111。
除了使用位置標(biāo)準(zhǔn)之外,其它情境數(shù)據(jù)也可以用來選擇由ASR引擎105用來適配 一個(gè)或者多個(gè)聲學(xué)模型111的音頻信號(hào)的子集或者調(diào)整特定音頻信號(hào)對(duì)一個(gè)或者多個(gè)聲 學(xué)模型111的適配具有的影響的權(quán)值。例如ASR引擎15可以選擇如下音頻信號(hào)的子集,這 些音頻信號(hào)的情境數(shù)據(jù)指示它們比預(yù)定義時(shí)間段更長(zhǎng)或者更短,或者這些音頻信號(hào)的情境 數(shù)據(jù)指示它們滿足某一質(zhì)量或者近因標(biāo)準(zhǔn)。另外,ASR引擎105可以選擇如下音頻信號(hào)作 為子集,這些音頻信號(hào)的情境信息指示它們是使用具有與移動(dòng)設(shè)備102相似的音頻子系統(tǒng) 的移動(dòng)設(shè)備來記錄的。
可以用來選擇音頻信號(hào)的子集的其它情境數(shù)據(jù)可以在一些例子中包括時(shí)間信息、 日期信息、對(duì)特定移動(dòng)設(shè)備在記錄期間測(cè)量的速度或者運(yùn)動(dòng)數(shù)量進(jìn)行引用的數(shù)據(jù)、其它設(shè)備傳感器數(shù)據(jù)、設(shè)備狀態(tài)數(shù)據(jù)(例如藍(lán)牙耳機(jī)、揚(yáng)聲器電話或者傳統(tǒng)輸入方法)、用戶標(biāo)識(shí) 符(如果用戶選擇提供用戶標(biāo)識(shí)符)或者標(biāo)識(shí)移動(dòng)設(shè)備類型或者機(jī)型的信息。情境數(shù)據(jù)例 如可以提供在音頻信號(hào)112的記錄周圍環(huán)境的條件的指示。
在一個(gè)例子中,移動(dòng)設(shè)備102與音頻信號(hào)112 —起供應(yīng)的情境數(shù)據(jù)可以指示移動(dòng) 設(shè)備102在與水體關(guān)聯(lián)的區(qū)域中在步行速度以上行進(jìn)。使用這一情境數(shù)據(jù),ASR 105可以 推斷音頻信號(hào)112在船艇上被記錄并且可以選擇與“在船艇上”位置類型關(guān)聯(lián)的音頻信號(hào) 的子集以更好地識(shí)別“在船艇上”位置類型共有的口音、方言或者話音模式、比如漁夫或者 水手使用的口音、方言或者話音模式。
在另一例子中,移動(dòng)設(shè)備102與音頻信號(hào)112 —起供應(yīng)的情境數(shù)據(jù)可以指示移動(dòng) 設(shè)備102在農(nóng)村區(qū)域中?;谶@一情境數(shù)據(jù),ASR引擎105可以推斷如果子集包括在城市 區(qū)域中記錄的音頻信號(hào)則不會(huì)提高語(yǔ)音識(shí)別的準(zhǔn)確度。因而情境數(shù)據(jù)可以由聲學(xué)模型適配 模塊125用來選擇將用來適配一個(gè)或者多個(gè)聲學(xué)模型的音頻信號(hào)或者選擇用來識(shí)別特定 講話的適當(dāng)聲學(xué)模型111。在一些實(shí)施方式中,聲學(xué)模型適配模塊125可以基于與音頻信號(hào) 關(guān)聯(lián)的地理位置和與音頻信號(hào)112關(guān)聯(lián)的地理位置的鄰近度來選擇ASR引擎105存儲(chǔ)的音 頻信號(hào)的加權(quán)組合。
聲學(xué)模型適配模塊125也可以使用音頻信號(hào)112本身中包括的音頻來適配一個(gè) 或者多個(gè)聲學(xué)模型111。例如聲學(xué)模型適配模塊125可以相對(duì)于音頻信號(hào)112的質(zhì)量確定 ASR引擎105存儲(chǔ)的音頻信號(hào)的質(zhì)量并且可以選擇僅使用ASR引擎105存儲(chǔ)的音頻信號(hào)、 僅使用音頻信號(hào)112或者使用其任何適當(dāng)加權(quán)或者未加權(quán)組合來適配一個(gè)或者多個(gè)聲學(xué) 模型111。例如聲學(xué)模型適配模塊125可以確定音頻信號(hào)112包括很少講話或者ASR引擎 105針對(duì)該特定地理位置存儲(chǔ)包括多個(gè)講話的其它高質(zhì)量音頻信號(hào)并且可以選擇適配聲學(xué) 模型而未使用音頻信號(hào)112 (或者向音頻信號(hào)112給予很少加權(quán))。
在一些實(shí)施方式中,聲學(xué)模型適配模塊125選擇與N(例如五個(gè)、二十個(gè)或者五十 個(gè))與關(guān)聯(lián)于音頻信號(hào)112的地理位置最近的地理位置關(guān)聯(lián)的音頻信號(hào)作為子集。當(dāng)與音 頻信號(hào)112關(guān)聯(lián)的地理位置描述點(diǎn)或者地方(例如坐標(biāo))時(shí),可以相對(duì)于該地理位置的幾 何形狀(例如圓形或者方形)限定幾何形狀,并且聲學(xué)模型適配模塊125可以選擇ASR引擎 105存儲(chǔ)的與全部或者部分位于限定的幾何形狀內(nèi)的地理區(qū)域關(guān)聯(lián)的音頻信號(hào)作為子集。 當(dāng)與音頻信號(hào)112關(guān)聯(lián)的地理位置描述區(qū)域時(shí),聲學(xué)模型適配模塊125可以選擇ASR引擎 105存儲(chǔ)的與在區(qū)域的任何點(diǎn)的預(yù)定距離內(nèi)的地理區(qū)域關(guān)聯(lián)的音頻信號(hào)作為子集。
如果已經(jīng)在位置類型(即“在海灘上”、“城市”)方面限定與音頻信號(hào)112關(guān)聯(lián)的 地理位置,ASR引擎105可以選擇與相同或者相似位置類型關(guān)聯(lián)的音頻信號(hào),即使與選擇的 音頻信號(hào)關(guān)聯(lián)的物理地理位置在物理上未在與音頻信號(hào)112關(guān)聯(lián)的地理位置附近。例如由 于全世界的沖浪運(yùn)動(dòng)員可以使用相似口音或者方言,所以可以用“在海灘上”元數(shù)據(jù)標(biāo)注用 于在佛羅里達(dá)海灘上記錄的音頻信號(hào)的聲學(xué)模型。在這樣做時(shí),聲學(xué)模型適配模塊125可 以選擇如下音頻信號(hào)作為子集,這些音頻信號(hào)的關(guān)聯(lián)元數(shù)據(jù)指示它們也在海灘上被記錄, 盡管事實(shí)是可能已經(jīng)在澳大利亞、夏威夷或者在冰島的海灘上記錄它們。
如果與音頻信號(hào)112關(guān)聯(lián)的地理位置未匹配于與ASR引擎105存儲(chǔ)的音頻信號(hào)關(guān) 聯(lián)的任何物理地理位置或者無高質(zhì)量匹配(即匹配未滿足預(yù)定質(zhì)量閾值),則聲學(xué)模型適 配模塊125可以基于匹配位置類型而不是匹配實(shí)際物理地理位置來選擇音頻信號(hào)的子集。其它匹配過程、比如聚類算法可以用來匹配音頻信號(hào)112與ASR引擎105存儲(chǔ)的音頻信號(hào)。
除了生成‘通用’地理專屬聲學(xué)模型111之外,聲學(xué)模型適配模塊125也可以適配 以其它標(biāo)準(zhǔn)為目標(biāo)或者專屬于其它標(biāo)準(zhǔn)的地理專屬聲學(xué)模型、比如進(jìn)一步專屬于不同設(shè)備 類型或者當(dāng)天時(shí)間的地理專屬聲學(xué)模型??梢曰跈z測(cè)已經(jīng)滿足閾值、比如確定ASR引擎 105存儲(chǔ)的閾值數(shù)目的音頻信號(hào)指代相同地理位置并且共享另一相同或者相似情境(例如 當(dāng)天時(shí)間、當(dāng)周日子、運(yùn)動(dòng)特性、設(shè)備類型等)來適配作為目標(biāo)的聲學(xué)子模型。
可以在移動(dòng)設(shè)備102已經(jīng)記錄講話113之前、期間或者之后適配一個(gè)或者多個(gè)聲 學(xué)模型111。例如來自與講話113相同或者相似的位置的多個(gè)音頻信號(hào)可以與處理講話113 并行處理并且可以用來實(shí)時(shí)或者近實(shí)時(shí)適配一個(gè)或者多個(gè)聲學(xué)模型111以更好地逼近在 記錄講話113時(shí)在包圍移動(dòng)設(shè)備102的地理區(qū)域中居住的人的口音、方言或者其它話音模 式。
適配一個(gè)或者多個(gè)聲學(xué)模型111可以使用至少四種方式來出現(xiàn)。例如可以針對(duì)每 個(gè)地理位置地理區(qū)域或者地點(diǎn)構(gòu)建單獨(dú)聲學(xué)模型。根據(jù)這一方式,適配聲學(xué)模型114包括 從ASR引擎105已經(jīng)針對(duì)多個(gè)地理位置構(gòu)建的多個(gè)聲學(xué)模型之中選擇與關(guān)聯(lián)于音頻信號(hào) 112的地理位置匹配的特定地理專屬聲學(xué)模型。
根據(jù)第二方式,位置信息可以并入于聲學(xué)模型中。例如二維連續(xù)緯度和經(jīng)度坐 標(biāo)矢量可以直接堆疊于聲學(xué)模型使用的已經(jīng)包括聲學(xué)特征如梅爾頻率對(duì)數(shù)倒頻譜系數(shù) (“MFCC”)的特征空間中。根據(jù)這一方式,需要構(gòu)建更少聲學(xué)模型,因?yàn)槲恢眯畔⒖梢砸暈?用于單個(gè)聲學(xué)模型的規(guī)則訓(xùn)練過程的部分。
更具體而言,用來適配模型的音頻信號(hào)(例如音頻信號(hào)107至109)劃分成幀(例 如25毫秒幀)。例如使用十個(gè)到四十個(gè)MFCC來推導(dǎo)每幀的對(duì)數(shù)倒頻譜表示以描述每個(gè)特 定幀的聲音。當(dāng)使用特定幀來訓(xùn)練模型時(shí),如下數(shù)據(jù)集用來代表幀,該數(shù)據(jù)集包括與特定幀 關(guān)聯(lián)的MFCC和指代地理位置(例如地理坐標(biāo))的值二者。
根據(jù)第三方式,可以并入離散化的位置信息作為在聲學(xué)模型中包括的狀態(tài)信息的 部分。具體而言,聲學(xué)模型將狀態(tài)映射至特征空間內(nèi)的概率分布,從而除了當(dāng)前音素以及關(guān) 于先前和后繼音素的一些情境信息之外也可以擴(kuò)充狀態(tài)以包括位置信息。在訓(xùn)練期間,對(duì) 于每幀,狀態(tài)可能未確切已知;有時(shí)僅狀態(tài)內(nèi)的概率分布已知;在這一情況下,可以向狀態(tài) 內(nèi)的概率分布中并入離散化的位置內(nèi)的平滑連續(xù)位置分布或者概率密度函數(shù)。因而模型在 音素水平而不是聲學(xué)特征水平存儲(chǔ)位置信息。
根據(jù)無需重新訓(xùn)練聲學(xué)模型的第四方式,單個(gè)聲學(xué)模型用于語(yǔ)言內(nèi)的所有位置, 然而基于地理位置以輕量級(jí)方式適配聲學(xué)模型。一種這樣的用于適配聲學(xué)模型的已知技術(shù) 使用最大似然線性回歸(“MLLR”),該MLLR推導(dǎo)變換矩陣,該變換矩陣應(yīng)用于聲學(xué)模型空 間中的高斯系數(shù)或者聲學(xué)模型的輸入特征應(yīng)用以調(diào)整模型以與適配講話集匹配。音頻信號(hào) 112的地理位置可以用來限定地理區(qū)域,并且可以向MLLR適配算法中饋送ASR引擎105存 儲(chǔ)的與區(qū)域關(guān)聯(lián)的所有訓(xùn)練音頻信號(hào)以產(chǎn)生可以用來變換聲學(xué)模型以與在該區(qū)域中發(fā)現(xiàn) 的口音匹配的矩陣。
更具體而言,可以針對(duì)特定區(qū)域和/或語(yǔ)言生成單個(gè)通用聲學(xué)模型、比如代表“美 國(guó)英語(yǔ)”的聲學(xué)模型。用來適配模型的音頻信號(hào)(例如音頻信號(hào)107至109)用來生成線性 變換,這些線性變換通過將通用聲學(xué)模型的系數(shù)與適當(dāng)線性變換進(jìn)行矩陣相乘來變換通用模型以與特定子區(qū)域中的口音匹配。生成線性變換和通過矩陣乘法適配通用聲學(xué)模型可以 在飛行中、例如在ASR引擎105已經(jīng)接收音頻信號(hào)112之后出現(xiàn)。
在狀態(tài)(e)期間,ASR引擎105的語(yǔ)音識(shí)別模塊124使用用于與音頻信號(hào)112關(guān) 聯(lián)的地理位置的一個(gè)或者多個(gè)地理專屬聲學(xué)模型111對(duì)音頻信號(hào)112執(zhí)行語(yǔ)音識(shí)別。當(dāng)音 頻信號(hào)112包括對(duì)移動(dòng)設(shè)備102的設(shè)備類型進(jìn)行描述的元數(shù)據(jù)時(shí),ASR引擎105可以應(yīng)用 專屬于與音頻信號(hào)關(guān)聯(lián)的地理位置和移動(dòng)設(shè)備102的設(shè)備類型二者的聲學(xué)模型。語(yǔ)音識(shí)別 模塊124可以生成與在音頻信號(hào)112中編碼的講話匹配的一個(gè)或者多個(gè)候選轉(zhuǎn)錄115和用 于候選轉(zhuǎn)錄的語(yǔ)音識(shí)別置信度值。
在狀態(tài)(f)期間,從ASR引擎105向服務(wù)器104傳達(dá)語(yǔ)音識(shí)別模塊124生成的候 選轉(zhuǎn)錄115中的一個(gè)或者多個(gè)候選轉(zhuǎn)錄。當(dāng)服務(wù)器104是搜索引擎時(shí),可以使用候選轉(zhuǎn)錄 115作為由搜索引擎用來執(zhí)行一個(gè)或者多個(gè)搜索查詢的候選查詢檢索詞。ASR引擎105可 以在向服務(wù)器104發(fā)送之前至少部分基于候選轉(zhuǎn)錄115的相應(yīng)語(yǔ)音識(shí)別置信度分?jǐn)?shù)對(duì)它們 排行。通過轉(zhuǎn)錄口述講話并且服務(wù)器104提供候選轉(zhuǎn)錄,ASR引擎105可以向移動(dòng)設(shè)備102 提供話音搜索查詢能力、口授能力或者對(duì)話系統(tǒng)能力。
服務(wù)器104可以使用候選查詢檢索詞來執(zhí)行一個(gè)或者多個(gè)搜索查詢并且可以生 成引用搜索結(jié)果126和127的文件116。文件116可以是標(biāo)記語(yǔ)言文件、比如可擴(kuò)展標(biāo)記語(yǔ) 言(XML)或者超文本標(biāo)記語(yǔ)言(HTML)文件。
服務(wù)器104在一些例子中可以包括用來在因特網(wǎng)內(nèi)發(fā)現(xiàn)參考文獻(xiàn)的網(wǎng)上搜索引 擎、用來發(fā)現(xiàn)企業(yè)或者個(gè)人的電話簿型搜索引擎或者另一專門化搜索引擎(例如提供對(duì)諸 如餐館和電影院信息、醫(yī)療和藥品信息等娛樂清單的引用的搜索引擎)。在狀態(tài)(h)期間, 服務(wù)器104向移動(dòng)設(shè)備102提供引用搜索結(jié)果126至127的文件116。
在狀態(tài)⑴期間,移動(dòng)設(shè)備102在用戶接口 101上顯示搜索結(jié)果126和127。用戶 接口 101包括搜索框129,該搜索框顯示具有最高語(yǔ)音識(shí)別置信度分?jǐn)?shù)的候選查詢檢索詞 (“停放您的汽車”);替代查詢檢索詞建議區(qū)域130,該區(qū)域顯示簡(jiǎn)化113可能已經(jīng)預(yù)計(jì)的 另一候選查詢檢索詞(“Parker Cole”或者“Parka Card”);搜索結(jié)果126,該搜索結(jié)果包 括指向用于“波士頓停車”的資源的鏈接;以及搜索結(jié)果127,該搜索結(jié)果包括指向用于“劍 橋停車場(chǎng)”的資源的鏈接。
圖2是例子過程200的流程圖。簡(jiǎn)言之,過程200包括接收與移動(dòng)設(shè)備記錄的講 話對(duì)應(yīng)的音頻信號(hào);確定與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置;針對(duì)地理位置適配一個(gè)或者多個(gè)聲 學(xué)模型;并且使用針對(duì)地理位置適配的一個(gè)或者多個(gè)聲學(xué)模型對(duì)音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別。
更具體而言,當(dāng)過程200開始時(shí),接收與移動(dòng)設(shè)備記錄的講話對(duì)應(yīng)的音頻信號(hào) (202)。講話可以包括語(yǔ)音搜索查詢或者可以是向口授或者對(duì)話應(yīng)用或者系統(tǒng)的輸入。講 話可以包括關(guān)聯(lián)情境數(shù)據(jù)、比如時(shí)間、日期、在記錄地理標(biāo)注的音頻信號(hào)期間測(cè)量的速度或 者運(yùn)動(dòng)數(shù)量或者記錄地理標(biāo)注的音頻信號(hào)的設(shè)備類型。
確定與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置(204)。例如可以從移動(dòng)設(shè)備接收引用特定地理 位置的數(shù)據(jù)或者可以標(biāo)識(shí)與移動(dòng)設(shè)備關(guān)聯(lián)的以往地理位置或者默認(rèn)地理位置。
針對(duì)地理位置適配一個(gè)或者多個(gè)聲學(xué)模型(206)??梢酝ㄟ^針對(duì)每個(gè)地理標(biāo)注的 音頻信號(hào)確定在特定地理位置和與地理標(biāo)注的音頻信號(hào)關(guān)聯(lián)的地理位置之間的距離并且 選擇在特定地理位置的預(yù)定距離內(nèi)或者與在與特定地理位置最近的N個(gè)地理位置之中的地理位置關(guān)聯(lián)的那些地理標(biāo)注的音頻信號(hào)來選擇用于適配音頻模型的地理標(biāo)注的音頻信 號(hào)的子集。
適配一個(gè)或者多個(gè)聲學(xué)模型可以包括從已經(jīng)針對(duì)多個(gè)地理位置生成的多個(gè)聲學(xué) 模型之中選擇針對(duì)與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置生成的一個(gè)或者多個(gè)聲學(xué)模型或者向一個(gè) 或者多個(gè)聲學(xué)模型使用的特征空間中并入引用地理位置的數(shù)據(jù)(例如地理坐標(biāo))。取而代 之,適配一個(gè)或者多個(gè)聲學(xué)模型可以包括向在聲學(xué)模型中包括的狀態(tài)信息中并入引用地理 位置的數(shù)據(jù)或者推導(dǎo)與地理位置關(guān)聯(lián)的變換矩陣;并且將變換矩陣應(yīng)用于通用聲學(xué)模型。
可以通過標(biāo)識(shí)與特定地理位置關(guān)聯(lián)的地理標(biāo)注的音頻信號(hào)和/或通過標(biāo)識(shí)與講 話在聲學(xué)上相似的地理標(biāo)注的音頻信號(hào)來選擇地理標(biāo)注的音頻信號(hào)的子集??梢曰谔囟?地理位置和與講話關(guān)聯(lián)的情境數(shù)據(jù)選擇地理標(biāo)注的音頻信號(hào)的子集。生成聲學(xué)模型可以包 括使用地理標(biāo)注的音頻信號(hào)的子集作為訓(xùn)練集來訓(xùn)練GMM。
對(duì)音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別(208)。執(zhí)行語(yǔ)音識(shí)別可以包括生成講話的一個(gè)或者多 個(gè)候選轉(zhuǎn)錄。可以使用一個(gè)或者多個(gè)候選轉(zhuǎn)錄來執(zhí)行搜索查詢,或者可以提供候選轉(zhuǎn)錄中 的一個(gè)或者多個(gè)候選轉(zhuǎn)錄作為數(shù)字口授應(yīng)用的輸出。取而代之,可以提供候選轉(zhuǎn)錄中的一 個(gè)或者多個(gè)候選轉(zhuǎn)錄作為向?qū)υ捪到y(tǒng)的輸入以允許計(jì)算機(jī)系統(tǒng)與特定移動(dòng)設(shè)備的用戶對(duì) 話。
圖3是另一例子過程300的流程圖。簡(jiǎn)言之,過程300包括接收地理標(biāo)注的音頻 信號(hào)并且至少部分基于與每個(gè)地理標(biāo)注的音頻信號(hào)關(guān)聯(lián)的特定地理位置生成多個(gè)聲學(xué)模 型。可以在基于講話執(zhí)行語(yǔ)音識(shí)別時(shí)至少部分基于與講話的地理位置選擇這些聲學(xué)模型中 的一個(gè)或者多個(gè)聲學(xué)模型。
更具體而言,當(dāng)過程300開始時(shí),接收與音頻對(duì)應(yīng)的地理標(biāo)注的音頻信號(hào)(302)。 地理標(biāo)注的音頻信號(hào)可以在特定地理位置由移動(dòng)設(shè)備記錄??梢蕴幚斫邮盏牡乩順?biāo)注的音 頻信號(hào)以排除音頻信號(hào)的部分,這些部分未包括移動(dòng)設(shè)備對(duì)用戶的語(yǔ)音??梢越邮詹⑶掖?儲(chǔ)在一個(gè)或者多個(gè)地理位置記錄的多個(gè)地理標(biāo)注的音頻信號(hào)。
可選地,接收與地理標(biāo)注的音頻信號(hào)關(guān)聯(lián)的情境數(shù)據(jù)(304)。地理標(biāo)注的音頻信號(hào) 可以包括時(shí)間、日期、在記錄地理標(biāo)注的音頻信號(hào)期間測(cè)量的速度或者運(yùn)動(dòng)數(shù)量或者記錄 地理標(biāo)注的音頻信號(hào)的設(shè)備類型。
適配一個(gè)或者多個(gè)聲學(xué)模型(306)。可以針對(duì)特定地理位置或者可選地針對(duì)位置 類型使用地理標(biāo)注的音頻信號(hào)的子集來適配每個(gè)聲學(xué)模型??梢酝ㄟ^針對(duì)每個(gè)地理標(biāo)注的 音頻信號(hào)確定在特定地理位置和與地理標(biāo)注的音頻信號(hào)關(guān)聯(lián)的地理位置之間的距離并且 選擇在特定地理位置的預(yù)定距離內(nèi)或者與在與特定地理位置最近的N個(gè)地理位置之中的 地理位置關(guān)聯(lián)的那些地理標(biāo)注的音頻信號(hào)來選擇理標(biāo)注的音頻信號(hào)的子集??梢酝ㄟ^標(biāo)識(shí) 與特定地理位置關(guān)聯(lián)的地理標(biāo)注的音頻信號(hào)來選擇地理標(biāo)注的音頻信號(hào)的子集??梢曰?特定地理位置和與地理標(biāo)注的音頻信號(hào)關(guān)聯(lián)的情境數(shù)據(jù)二者選擇地理標(biāo)注的音頻信號(hào)的 子集。生成聲學(xué)模型可以包括使用地理標(biāo)注的音頻信號(hào)的子集來訓(xùn)練高斯混合模型(GMM)。
接收特定移動(dòng)設(shè)備記錄的講話(308)。講話可以包括語(yǔ)音搜索查詢。講話可以包 括關(guān)聯(lián)情境數(shù)據(jù)、比如時(shí)間、日期、在記錄地理標(biāo)注的音頻信號(hào)期間測(cè)量的速度或者運(yùn)動(dòng)數(shù) 量或者記錄地理標(biāo)注的音頻信號(hào)的設(shè)備類型。
確定地理位置(310)。例如可以從移動(dòng)設(shè)備的GPS模塊接收引用特定地理位置的數(shù)據(jù)。
選擇聲學(xué)模型(312)。可以從針對(duì)多個(gè)地理位置適配的多個(gè)聲學(xué)模型之中選擇聲 學(xué)模型。情境數(shù)據(jù)可以可選地有助于從用于特定地理位置的多個(gè)聲學(xué)模型之中選擇特定聲 學(xué)模型。
使用選擇的聲學(xué)模型對(duì)講話執(zhí)行語(yǔ)音識(shí)別(314)。執(zhí)行語(yǔ)音識(shí)別可以包括生成講 話的一個(gè)或者多個(gè)候選轉(zhuǎn)錄??梢允褂靡粋€(gè)或者多個(gè)候選轉(zhuǎn)錄來執(zhí)行搜索查詢。
圖4示出了用于使用地理標(biāo)注的音頻來增強(qiáng)語(yǔ)音識(shí)別準(zhǔn)確度的過程400的例子的 泳道圖。過程400可以由移動(dòng)設(shè)備402、ASR引擎404和搜索引擎406實(shí)施。移動(dòng)設(shè)備402 可以向ASR引擎404提供音頻信號(hào)、比如音頻信號(hào)或者與講話對(duì)應(yīng)的音頻信號(hào)。雖然圖示 了僅一個(gè)移動(dòng)設(shè)備,但是移動(dòng)設(shè)備402可以代表向過程400貢獻(xiàn)音頻信號(hào)和語(yǔ)音查詢的大 量移動(dòng)設(shè)備402。ASR引擎404可以基于音頻信號(hào)適配聲學(xué)模型并且可以在執(zhí)行語(yǔ)音識(shí)別 時(shí)將一個(gè)或者多個(gè)聲學(xué)模型應(yīng)用于傳入語(yǔ)音搜索查詢。ASR引擎405可以向搜索引擎406 提供對(duì)語(yǔ)音搜索查詢內(nèi)的講話的轉(zhuǎn)錄以完成語(yǔ)音搜索查詢請(qǐng)求。
過程400始于移動(dòng)設(shè)備402向ASR引擎404提供408地理標(biāo)注的音頻信號(hào)。音頻 信號(hào)可以將移動(dòng)設(shè)備402的語(yǔ)音的音頻與關(guān)于記錄音頻的位置的指示一起包括??蛇x地, 地理標(biāo)注的音頻信號(hào)可以包括例如形式為元數(shù)據(jù)的情境數(shù)據(jù)。ASR引擎404可以在音頻數(shù) 據(jù)存儲(chǔ)庫(kù)中存儲(chǔ)地理標(biāo)注的音頻信號(hào)。
移動(dòng)設(shè)備402向ASR引擎404提供410講話。講話例如可以包括語(yǔ)音搜索查詢。 記錄講話可以可選地包括例如在記錄講話之前或者之后簡(jiǎn)短記錄的音頻采樣。
移動(dòng)設(shè)備402向ASR引擎404提供412地理位置。移動(dòng)設(shè)備在一些例子中可以提 供使用GPS模塊來檢測(cè)的導(dǎo)航坐標(biāo)、最新(但是未必與記錄并行的)GPS讀數(shù)、默認(rèn)位置、根 據(jù)先前提供的講話推導(dǎo)的位置或者通過推算定位或者發(fā)射塔三角測(cè)量來估計(jì)的位置。移動(dòng) 設(shè)備402可以可選地向ASR引擎404提供情境數(shù)據(jù)、比如傳感器數(shù)據(jù)、設(shè)備機(jī)型標(biāo)識(shí)或者設(shè) 備設(shè)置。
ASR引擎404適配414聲學(xué)模型。可以部分通過訓(xùn)練GMM來適配聲學(xué)模型??梢?基于移動(dòng)設(shè)備402提供的地理位置適配聲學(xué)模型。例如從在移動(dòng)設(shè)備402的位置或者附近 的位置提交的地理標(biāo)注的音頻信號(hào)可以有助于聲學(xué)模型??蛇x地,移動(dòng)設(shè)備402提供的情 境數(shù)據(jù)可以用來過濾地理標(biāo)注的音頻信號(hào)以選擇與其中記錄講話的條件最適合的音頻信 號(hào)。例如可以按照當(dāng)周日子或者當(dāng)天時(shí)間過濾在移動(dòng)設(shè)備402提供的地理位置附近的地理 標(biāo)注的音頻信號(hào)。如果與移動(dòng)設(shè)備402提供的講話一起包括音頻采樣,則可以可選地在聲 學(xué)模型中包括音頻采樣。
ASR引擎104對(duì)提供的講話執(zhí)行語(yǔ)音識(shí)別416??梢允褂糜葾SR引擎適配的聲學(xué) 模型將移動(dòng)設(shè)備402提供的講話轉(zhuǎn)錄成一個(gè)或者多個(gè)查詢檢索詞集。
ASR引擎404向搜索引擎406轉(zhuǎn)發(fā)418生成的轉(zhuǎn)錄。如果ASR引擎404生成多個(gè) 轉(zhuǎn)錄,則可以可選地以置信度為序?qū)D(zhuǎn)錄排行。ASR引擎404可以可選地向搜索引擎406提 供情境數(shù)據(jù)、比如地理位置,搜索引擎406可以使用該情境數(shù)據(jù)對(duì)搜索結(jié)果過濾或者排行。
搜索引擎406可以使用轉(zhuǎn)錄來執(zhí)行420搜索操作。搜索引擎406可以對(duì)與轉(zhuǎn)錄檢 索詞有關(guān)的一個(gè)或者多個(gè)URI定位。
搜索引擎406向移動(dòng)設(shè)備402提供422搜索查詢結(jié)果。例如搜索引擎406可以轉(zhuǎn)發(fā)HTML代碼,該代碼生成定位的URI的可視列表。
已經(jīng)描述多個(gè)實(shí)施方式。然而將理解可以進(jìn)行各種修改而未脫離公開內(nèi)容的精神 實(shí)質(zhì)和范圍。例如可以在重新排序、添加或者去除步驟時(shí)使用上文所示流程的各種形式。因 而其它實(shí)施方式在所附權(quán)利要求的范圍內(nèi)。
可以在數(shù)字電子電路中或者在包括本說明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)等效物的計(jì) 算機(jī)軟件、固件或者硬件中或者在它們中的一項(xiàng)或者多項(xiàng)的組合中實(shí)施本說明書中描述的 實(shí)施例和所有功能操作。實(shí)施例可以實(shí)施為一個(gè)或者多個(gè)計(jì)算機(jī)程序產(chǎn)品、即在計(jì)算機(jī)可 讀介質(zhì)上編碼的用于由數(shù)據(jù)處理裝置執(zhí)行或者控制數(shù)據(jù)處理裝置的操作的計(jì)算機(jī)程序指 令的一個(gè)或者多個(gè)模塊。計(jì)算機(jī)可讀介質(zhì)可以是機(jī)器可讀存儲(chǔ)設(shè)備、機(jī)器可讀存儲(chǔ)基板、存 儲(chǔ)器設(shè)備、實(shí)現(xiàn)機(jī)器可讀傳播信號(hào)的物質(zhì)組成或者它們中的一項(xiàng)或者多項(xiàng)的組合。術(shù)語(yǔ)“數(shù) 據(jù)處理裝置”涵蓋用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī)器、例如包括一個(gè)可編程處理器、一 個(gè)計(jì)算機(jī)或者多個(gè)處理器或者計(jì)算機(jī)。裝置除了包括硬件之外還可以包括為討論的計(jì)算機(jī) 程序創(chuàng)建執(zhí)行環(huán)境的代碼、例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)或者 它們中的一項(xiàng)或者多項(xiàng)的組合的代碼。傳播信號(hào)是人為生成的信號(hào)、例如為了對(duì)信息編碼 用于向適當(dāng)接收器裝置發(fā)送而生成的、機(jī)器生成的電、光學(xué)或者電磁信號(hào)。
可以用包括編譯或者解譯語(yǔ)言的任何形式的編程語(yǔ)言編寫計(jì)算機(jī)程序(也稱為 程序、軟件、軟件應(yīng)用、腳本或者代碼),并且可以用任何形式部署它、包括作為獨(dú)立程序或 者作為適合用于在計(jì)算環(huán)境中使用的模塊、部件、子例程或者其它單元。計(jì)算機(jī)程序未必對(duì) 應(yīng)于文件系統(tǒng)中的文件。程序可以存儲(chǔ)于保持其它程序或者數(shù)據(jù)的文件的部分中(例如存 儲(chǔ)于標(biāo)記語(yǔ)言文檔中的一個(gè)或者多個(gè)腳本)、專用于討論的程序的單個(gè)文件中或者多個(gè)協(xié) 同文件(例如存儲(chǔ)一個(gè)或者多個(gè)模塊、子程序或者代碼部分的文件)中。計(jì)算機(jī)程序可以 被部署成在一個(gè)計(jì)算機(jī)上或者在位于一個(gè)地點(diǎn)或者分布于多個(gè)地點(diǎn)并且由通信網(wǎng)絡(luò)互連 的多個(gè)計(jì)算機(jī)上執(zhí)行。
在本說明書中描述的過程和邏輯流程可以由一個(gè)或者多個(gè)可編程處理器執(zhí)行,該 處理器執(zhí)行一個(gè)或者多個(gè)計(jì)算機(jī)程序以通過對(duì)輸入數(shù)據(jù)操作并且生成輸出來執(zhí)行功能。過 程和邏輯流程也可以由專用邏輯電路、例如FPGA(現(xiàn)場(chǎng)可編程門陣列)或者ASIC(專用集 成電路)執(zhí)行,并且裝置也可以實(shí)施為該專用邏輯電路。
適合于執(zhí)行計(jì)算機(jī)程序的處理器例如包括通用和專用微處理器二者和任何種類 的數(shù)字計(jì)算機(jī)的任何一個(gè)或者多個(gè)處理器。一般而言,處理器將從只讀存儲(chǔ)器或者隨機(jī)存 取存儲(chǔ)器或者二者接收指令和數(shù)據(jù)。
計(jì)算機(jī)的基本單元是用于執(zhí)行指令的處理器以及用于存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或 者多個(gè)存儲(chǔ)器設(shè)備。一般而言,計(jì)算機(jī)也將包括用于存儲(chǔ)數(shù)據(jù)的一個(gè)或者多個(gè)海量存儲(chǔ)設(shè) 備、比如磁盤、光磁盤或者光盤或者操作地耦合成從該海量存儲(chǔ)設(shè)備接收數(shù)據(jù)或者向該海 量存儲(chǔ)設(shè)備傳送數(shù)據(jù)或者二者。然而計(jì)算機(jī)無需具有這樣的設(shè)備。另外,計(jì)算機(jī)可以嵌入于 另一設(shè)備中,聊舉數(shù)例,該另一設(shè)備例如是寫字板計(jì)算機(jī)、移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、 移動(dòng)音頻播放器、全球定位系統(tǒng)(GPS)接收器。適合于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算 機(jī)可讀介質(zhì)包括所有形式的非易失性存儲(chǔ)器、介質(zhì)和存儲(chǔ)器設(shè)備、例如包括半導(dǎo)體存儲(chǔ)器 設(shè)備如EPROM、EEPROM和閃存設(shè)備;磁盤如內(nèi)部硬盤或者可拆卸盤;光磁盤;以及⑶ROM和 DVD-ROM盤。處理器和存儲(chǔ)器可以由專用邏輯電路補(bǔ)充或者并入于專用邏輯電路中。
為了提供與用戶的交互,實(shí)施例可以實(shí)施于計(jì)算機(jī)上,該計(jì)算機(jī)具有用于向用戶 顯示信息的顯示設(shè)備、例如CRT(陰極射線管)或者LCD(液晶顯示器)監(jiān)視器以及用戶可 以用來向計(jì)算機(jī)提供輸入的鍵盤和指示設(shè)備、比如鼠標(biāo)或者跟蹤球。其它種類的設(shè)備也可 以用來提供與用戶的交互;例如向用戶提供的反饋可以是任何形式的感官反饋比如視覺反 饋、聽覺反饋或者觸覺反饋;并且可以用包括聲音、話音或者觸覺輸入的任何形式接收來自 用戶的輸入。
實(shí)施例可以實(shí)施于計(jì)算系統(tǒng)中,該計(jì)算系統(tǒng)包括后端部件、例如作為數(shù)據(jù)服務(wù)器 或者包括中間件部件、例如應(yīng)用服務(wù)器或者包括前端部件、例如具有如下圖形用戶接口或 者網(wǎng)上瀏覽器的客戶端計(jì)算機(jī)或者這樣的后端、中間件或者前端部件中的一個(gè)或者多個(gè)部 件的任何組合,用戶可以通過該圖形用戶接口或者網(wǎng)上瀏覽器與實(shí)施方式交互。系統(tǒng)的部 件可以由任何數(shù)字?jǐn)?shù)據(jù)通信形式或者介質(zhì)、比如通信網(wǎng)絡(luò)互連。通信網(wǎng)絡(luò)的例子包括局域 網(wǎng)(“LAN”)和廣域網(wǎng)(“WAN”)、例如因特網(wǎng)。
計(jì)算系統(tǒng)可以包括客戶端和服務(wù)器。客戶端和服務(wù)器一般相互遠(yuǎn)離并且通常通過 通信網(wǎng)絡(luò)交互??蛻舳撕头?wù)器的關(guān)系借助計(jì)算機(jī)程序來出現(xiàn),這些計(jì)算機(jī)程序在相應(yīng)計(jì) 算機(jī)上運(yùn)行并且相互具有客戶端-服務(wù)器關(guān)系。
盡管本說明書包含許多細(xì)節(jié),但是這些不應(yīng)解釋為對(duì)公開內(nèi)容的或者可以要求保 護(hù)的內(nèi)容的范圍的限制、但是實(shí)際上解釋為對(duì)具體實(shí)施方式
特有的特征的描述。也可以在 單個(gè)實(shí)施例組合實(shí)施本說明書中在單獨(dú)實(shí)施例的背景中描述的某些特征。反言之,也可以 在多個(gè)實(shí)施例中單獨(dú)或者在任何適當(dāng)子組合中實(shí)施在單個(gè)實(shí)施例的背景中描述的各種特 征。另外,雖然上文可以描述特征為在某些實(shí)施例中作用并且甚至起初這樣要求保護(hù),但是 在一些情況下可以從要求保護(hù)的組合中去除來自該組合的一個(gè)或者多個(gè)特征,并且要求保 護(hù)的組合可以涉及子組合或者子組合的變化。
類似地,盡管在附圖中以特定順序描繪操作,但是這不應(yīng)理解為要求以所示特定 順序或者以依次順序執(zhí)行這樣的操作或者執(zhí)行所有所示操作以實(shí)現(xiàn)希望的結(jié)果。在某些境 況中,多任務(wù)和并行處理可以是有利的。另外,在上文描述的實(shí)施例中分離各種系統(tǒng)部件不 應(yīng)理解為在所有實(shí)施例中要求這樣的分離,并且應(yīng)當(dāng)理解描述的程序部件和系統(tǒng)一般可以 一起集成于單個(gè)軟件產(chǎn)品中或者封裝到多個(gè)軟件產(chǎn)品中。
在其中提到HTML文件的每個(gè)實(shí)例中,可以替換為其它文件類型或者格式。例如 HTML文件可以替換為XML、JS0N、明文或者其它類型的文件。另外當(dāng)提到表或者散列表時(shí), 可以使用其它數(shù)據(jù)結(jié)構(gòu)(比如電子數(shù)據(jù)表、關(guān)系數(shù)據(jù)庫(kù)或者結(jié)構(gòu)化文件)。
這樣已經(jīng)描述具體實(shí)施例。其它實(shí)施例在所附權(quán)利要求的范圍內(nèi)。例如在權(quán)利要 求中記載的動(dòng)作可以按不同順序來執(zhí)行并且仍然實(shí)現(xiàn)希望的結(jié)果。
權(quán)利要求
1.一種系統(tǒng),包括 一個(gè)或者多個(gè)計(jì)算機(jī);以及 計(jì)算機(jī)可讀介質(zhì),耦合到所述ー個(gè)或者多個(gè)計(jì)算機(jī),具有存儲(chǔ)于所述計(jì)算機(jī)可讀介質(zhì)上的指令,所述指令在由所述ー個(gè)或者多個(gè)計(jì)算機(jī)執(zhí)行時(shí),使所述ー個(gè)或者多個(gè)計(jì)算機(jī)執(zhí)行操作,所述操作包括 接收與移動(dòng)設(shè)備記錄的講話對(duì)應(yīng)的音頻信號(hào), 確定與所述移動(dòng)設(shè)備關(guān)聯(lián)的地理位置, 針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型,以及 使用針對(duì)所述地理位置適配的所述ー個(gè)或者多個(gè)聲學(xué)模型對(duì)所述音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中適配ー個(gè)或者多個(gè)聲學(xué)模型還包括在接收與所述講話對(duì)應(yīng)的所述音頻信號(hào)之前適配ー個(gè)或者多個(gè)聲學(xué)模型。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中適配ー個(gè)或者多個(gè)聲學(xué)模型還包括在接收與所述講話對(duì)應(yīng)的所述音頻信號(hào)之后適配ー個(gè)或者多個(gè)聲學(xué)模型。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中 所述操作還包括接收與多個(gè)移動(dòng)設(shè)備在多個(gè)地理位置中記錄的音頻對(duì)應(yīng)的地理標(biāo)注的音頻信號(hào);以及 針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型還包括使用所述地理標(biāo)注的音頻信號(hào)的子集、針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述操作還包括 針對(duì)所述地理標(biāo)注的音頻信號(hào)中的每個(gè)地理標(biāo)注的音頻信號(hào)確定在與所述移動(dòng)設(shè)備關(guān)聯(lián)的所述地理位置和與所述地理標(biāo)注的音頻信號(hào)關(guān)聯(lián)的地理位置之間的距離;以及 選擇與在與所述移動(dòng)設(shè)備關(guān)聯(lián)的所述地理位置的預(yù)定距離內(nèi)的地理位置關(guān)聯(lián)、或者與在與關(guān)聯(lián)于所述移動(dòng)設(shè)備的所述地理位置最近的N個(gè)地理位置之中的地理位置關(guān)聯(lián)的所述地理標(biāo)注的音頻信號(hào)作為所述地理標(biāo)注的音頻信號(hào)的所述子集。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述操作還包括 選擇與也與所述移動(dòng)設(shè)備關(guān)聯(lián)的所述地理位置關(guān)聯(lián)的所述地理標(biāo)注的音頻信號(hào)作為所述地理標(biāo)注的音頻信號(hào)的所述子集。
7.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述操作還包括基干與所述移動(dòng)設(shè)備關(guān)聯(lián)的所述地理位置和與所述講話關(guān)聯(lián)的情境數(shù)據(jù)來選擇所述地理標(biāo)注的音頻信號(hào)的所述子集。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述情境數(shù)據(jù)包括對(duì)所述移動(dòng)設(shè)備記錄所述講話時(shí)的時(shí)間或者日期進(jìn)行引用的數(shù)據(jù)、對(duì)所述移動(dòng)設(shè)備在記錄所述講話時(shí)測(cè)量的速度或者運(yùn)動(dòng)量進(jìn)行引用的數(shù)據(jù)、引用所述移動(dòng)設(shè)備的設(shè)置的數(shù)據(jù)或者引用所述移動(dòng)設(shè)備的類型的數(shù)據(jù)。
9.根據(jù)權(quán)利要求4所述的系統(tǒng),其中適配所述聲學(xué)模型包括使用所述地理標(biāo)注的音頻信號(hào)的所述子集作為訓(xùn)練集來訓(xùn)練高斯混合模型(GMM)。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述講話代表語(yǔ)音搜索查詢或者向數(shù)字口授應(yīng)用或者對(duì)話系統(tǒng)的輸入。
11.根據(jù)權(quán)利要求1所述的系統(tǒng),其中確定所述地理位置還包括從所述移動(dòng)設(shè)備接收引用所述地理位置的數(shù)據(jù)。
12.根據(jù)權(quán)利要求1所述的系統(tǒng),其中確定所述地理位置還包括確定與所述移動(dòng)設(shè)備關(guān)聯(lián)的以往地理位置或者默認(rèn)地理位置。
13.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述操作還包括 生成所述講話的一個(gè)或者多個(gè)候選轉(zhuǎn)錄;以及 使用所述ー個(gè)或者多個(gè)候選轉(zhuǎn)錄來執(zhí)行搜索查詢。
14.根據(jù)權(quán)利要求1所述的系統(tǒng),其中針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型還包括 從已經(jīng)針對(duì)多個(gè)地理位置生成的多個(gè)聲學(xué)模型之中選擇針對(duì)與所述移動(dòng)設(shè)備關(guān)聯(lián)的所述地理位置生成的所述ー個(gè)或者多個(gè)聲學(xué)模型。
15.根據(jù)權(quán)利要求1所述的系統(tǒng),其中針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型還包括 向單個(gè)聲學(xué)模型使用的特征空間中并入引用所述地理位置的數(shù)據(jù)。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中向所述單個(gè)聲學(xué)模型使用的特征空間中并入引用所述地理位置的數(shù)據(jù)還包括向所述單個(gè)聲學(xué)模型使用的特征空間中并入值,其中所述值包括梅爾頻率倒頻譜系數(shù)和地理坐標(biāo)。
17.根據(jù)權(quán)利要求1所述的系統(tǒng),其中針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型還包括向在單個(gè)聲學(xué)模型中包括的狀態(tài)信息中并入引用所述地理位置的數(shù)據(jù)。
18.根據(jù)權(quán)利要求1所述的系統(tǒng),其中針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型還包括 推導(dǎo)與所述地理位置關(guān)聯(lián)的變換矩陣;以及 將所述變換矩陣應(yīng)用于單個(gè)通用聲學(xué)模型。
19.ー種用計(jì)算機(jī)程序編碼的計(jì)算機(jī)存儲(chǔ)介質(zhì),所述程序包括在由一個(gè)或者多個(gè)計(jì)算機(jī)執(zhí)行時(shí)使所述ー個(gè)或者多個(gè)計(jì)算機(jī)執(zhí)行操作的指令,所述操作包括 接收與移動(dòng)設(shè)備記錄的講話對(duì)應(yīng)的音頻信號(hào); 確定與所述移動(dòng)設(shè)備關(guān)聯(lián)的地理位置; 針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型;以及 使用針對(duì)所述地理位置適配的所述ー個(gè)或者多個(gè)聲學(xué)模型對(duì)所述音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別。
20.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 接收與移動(dòng)設(shè)備記錄的講話對(duì)應(yīng)的音頻信號(hào); 確定與所述移動(dòng)設(shè)備關(guān)聯(lián)的地理位置; 針對(duì)所述地理位置適配ー個(gè)或者多個(gè)聲學(xué)模型;以及 使用針對(duì)所述地理位置適配的所述ー個(gè)或者多個(gè)聲學(xué)模型對(duì)所述音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別。
全文摘要
用于增強(qiáng)語(yǔ)音識(shí)別準(zhǔn)確度的方法、系統(tǒng)和裝置、包括在計(jì)算機(jī)存儲(chǔ)介質(zhì)上編碼的計(jì)算機(jī)程序。在一個(gè)方面中,一種方法包括接收與移動(dòng)設(shè)備記錄的講話對(duì)應(yīng)的音頻信號(hào);確定與移動(dòng)設(shè)備關(guān)聯(lián)的地理位置;針對(duì)地理位置適配一個(gè)或者多個(gè)聲學(xué)模型;并且使用針對(duì)地理位置適配的一個(gè)或者多個(gè)聲學(xué)模型對(duì)音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別。
文檔編號(hào)G10L15/065GK103038817SQ201180021722
公開日2013年4月10日 申請(qǐng)日期2011年5月23日 優(yōu)先權(quán)日2010年5月26日
發(fā)明者M·I·洛伊德, T·克里斯特詹森 申請(qǐng)人:谷歌公司