音頻檢索方法及裝置的制造方法
【專利摘要】本申請?zhí)峁┝艘环N音頻檢索方法實施例,本實施例在獲取到待檢音頻后,根據(jù)樣本音頻截取待檢音頻片段,并獲取待檢音頻片段及樣本音頻中相同位置的某個或某些幀的特征編碼,將樣本音頻及待檢音頻片段的某個或某些幀的特征編碼進行比對,以初步判斷樣本音頻與待檢音頻片段是否相似,若相似,則對待檢音頻片段進行逐幀的精細檢索,從而獲得檢索結果。相較于現(xiàn)有的檢索方式而言,本實施例在獲得每個檢索音頻片段后,首先進行一級初步檢索,在一級檢索結果滿足預設相似條件的情況下,才進行精細的二級檢索。并且,一級初步檢索時,僅對音頻中某個或某些目標幀的特征編碼進行比對,計算量較小,檢索效率較高。另外,本申請還提供了一種音頻檢索裝置。
【專利說明】
音頻檢索方法及裝置
技術領域
[0001 ]本申請涉及音頻處理技術領域,更具體地,是音頻檢索方法及裝置。
【背景技術】
[0002] 隨著多媒體技術的發(fā)展,音頻檢索作為研究熱點,已經在廣告檢索、網絡監(jiān)管領域 得到了廣泛應用。音頻檢索,是從待檢音頻中檢索并定位與指定音頻(或者稱為樣本音頻) 同源的音頻片段。當然,同源并非完全相同,也可能經過翻錄或者編碼壓縮等處理。
[0003] 目前,一種音頻檢索方法是,將待檢音頻與樣本音頻按相同的時間間隔劃分成幀 系列,分別提取各幀的語音特征,并計算對應位置上的兩個語音特征的距離,將各個距離累 加后,根據(jù)距離和值來判斷待檢音頻與樣本音頻的相似度。但是,由于樣本音頻通常較短, 它在待檢音頻中的位置是不確定的,因此,需要采用滑移窗口的方式,依次在待檢音頻中, 執(zhí)行上述音頻檢索方法,以在待檢音頻中檢索并定位樣本音頻。
[0004] 然而,以上音頻檢索方式,運算量較大,檢索效率較低。
【發(fā)明內容】
[0005] 有鑒于此,本申請?zhí)峁┝艘环N音頻檢索方法,以解決現(xiàn)有音頻檢索方式,運算量較 大,檢索效率較低的技術問題。另外,本申請還提供了一種音頻檢索裝置,用以保證所述方 法在實際中的應用及實現(xiàn)。
[0006] 為實現(xiàn)所述目的,本申請?zhí)峁┑募夹g方案如下:
[0007] 本申請的第一方面提供了一種音頻檢索方法,該方法包括:
[0008] 獲取樣本音頻及待檢音頻,并在所述待檢音頻中提取與所述樣本音頻相同時長的 待檢首頻片段;
[0009] 獲取所述樣本音頻中第一目標幀的特征編碼,并獲取所述待檢音頻片段中與所述 第一目標幀相同位置的第二目標幀的特征編碼;其中,所述第一目標幀的特征編碼用于表 示所述樣本音頻與預先收集的基礎樣本音頻的相似度,所述第二目標幀的特征編碼用于表 示所述待檢音頻片段與所述基礎樣本音頻的相似度;
[0010] 將所述第一目標幀的特征編碼與所述第二目標幀的特征編碼進行比對;
[0011] 若比對結果滿足預設相似條件,則對所述樣本音頻及所述待檢音頻片段進行逐幀 精細檢索,以獲得所述樣本音頻與所述待檢音頻片段是否同源的檢索結果;
[0012] 若比對結果不滿足所述預設相似條件,則返回在所述待檢音頻中提取與所述樣本 音頻相同時長的下一待檢音頻片段,直到所述待檢音頻中不存在下一待檢音頻片段。
[0013] 本申請的第二方面提供了一種音頻檢索裝置,該裝置包括:
[0014] 樣本音頻及待檢音頻片段獲得模塊,用于獲取樣本音頻及待檢音頻,并在所述待 檢音頻中提取與所述樣本音頻相同時長的待檢音頻片段;
[0015] 特征編碼獲得模塊,用于獲取所述樣本音頻中第一目標幀的特征編碼,并獲取所 述待檢音頻片段中與所述第一目標幀相同位置的第二目標幀的特征編碼;其中,所述第一 目標幀的特征編碼用于表示所述樣本音頻與預先收集的基礎樣本音頻的相似度,所述第二 目標幀的特征編碼用于表示所述待檢音頻片段與所述基礎樣本音頻的相似度;
[0016] 特征編碼比對模塊,用于將所述第一目標幀的特征編碼與所述第二目標幀的特征 編碼進行比對;若比對結果滿足預設相似條件,則觸發(fā)音頻精細檢索模塊;若比對結果不滿 足所述預設相似條件,則觸發(fā)樣本音頻及待檢音頻片段獲得模塊在所述待檢音頻中提取與 所述樣本音頻相同時長的下一待檢音頻片段,直到所述待檢音頻中不存在下一待檢音頻片 段;
[0017] 音頻精細檢索模塊,用于對所述樣本音頻及所述待檢音頻片段進行逐幀精細檢 索,以獲得所述樣本音頻與所述待檢音頻片段是否同源的檢索結果。
[0018] 由以上技術方案可知,本申請?zhí)峁┝艘环N音頻檢索方法實施例,本實施例在獲取 到待檢音頻后,根據(jù)樣本音頻截取待檢音頻片段,并獲取待檢音頻片段及樣本音頻中相同 位置的某個或某些幀的特征編碼,特征編碼可以表示待檢音頻片段及樣本音頻與相同的基 礎樣本音頻的相似度,因此,可以將樣本音頻及待檢音頻片段的某個或某些幀的特征編碼 進行比對,以初步判斷樣本音頻與待檢音頻片段是否相似,若相似,則對樣本音頻及待檢音 頻片段進行逐幀的精細檢索,從而獲得樣本音頻與待檢音頻片段是否同源的檢索結果。相 較于現(xiàn)有的檢索方式而言,本實施例在獲得每個檢索音頻片段后,首先進行一級初步檢索, 在一級檢索結果滿足預設相似條件的情況下,才進行精細的二級檢索。并且,一級初步檢索 時,僅對音頻中某個或某些目標幀的特征編碼進行比對,計算量較小,檢索效率較高。
[0019] 當然,實施本申請的任一產品并不一定需要同時達到以上所述的所有優(yōu)點。
【附圖說明】
[0020] 為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 申請的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0021 ]圖1為本申請?zhí)峁┑囊纛l檢索方法實施例1的流程圖;
[0022] 圖2為本申請?zhí)峁┑臉颖疽纛l的第一目標幀的二進制編碼的生成流程圖;
[0023] 圖3為本申請?zhí)峁┑拇龣z音頻片段的第二目標幀的二進制編碼的生成流程圖;
[0024] 圖4為本申請?zhí)峁┑囊纛l檢索方法的生成示意圖;
[0025] 圖5為本申請?zhí)峁┑腜LPCC算法提取語音特征的過程示意圖;
[0026] 圖6為本申請?zhí)峁┑囊纛l檢索裝置實施例1的結構示意圖;
[0027] 圖7為本申請?zhí)峁┑囊纛l檢索裝置實施例2的結構示意圖。
【具體實施方式】
[0028] 下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;?本申請中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本申請保護的范圍。
[0029] 參見圖1,其示出了本申請?zhí)峁┑囊纛l檢索方法實施例1的流程。如圖1所示,本實 施例可以具體包括以下步驟s 101~步驟S104。
[0030]步驟S101:獲取樣本音頻及待檢音頻,并在待檢音頻中提取與樣本音頻相同時長 的待檢首頻片段。
[0031 ]在實施前,可以收集若干樣本音頻,構建成樣本音頻庫。因此,在實施時,可以從該 樣本音頻庫中獲取某個樣本音頻。
[0032]通常地,相較于待檢音頻而言,樣本音頻的長度較短,為了實現(xiàn)后續(xù)的比對,需要 在待檢音頻提取與樣本音頻相同的待檢音頻片段。
[0033]步驟S102:獲取樣本音頻中第一目標幀的特征編碼,并獲取待檢音頻片段中與第 一目標幀相同位置的第二目標幀的特征編碼;其中,第一目標幀的特征編碼用于表示樣本 音頻與預先收集的基礎樣本音頻的相似度,第二目標幀的特征編碼用于表示待檢音頻片段 與基礎樣本音頻的相似度。
[0034]可以理解的是,可以對樣本音頻及待檢音頻片段進行分幀操作,從而,可以認為, 樣本音頻及待檢音頻片段是一幀一幀的音頻數(shù)據(jù)組成的。分幀操作可以使用現(xiàn)有的分幀方 法,此處并不贅述。
[0035]需要說明的是,可以預先根據(jù)收集的若干基礎樣本音頻,為樣本音頻中的某個或 某些幀生成特征編碼。為了與待檢音頻片段中的目標幀區(qū)分,將樣本音頻中的該某個或某 些幀稱為第一目標幀。在實施中,基于減少檢索計算量的考慮,第一目標幀越少越佳,優(yōu)選 地,第一目標幀為一個,且是樣本音頻中的第一幀即首幀。當然,本領域技術人員可以理解 并期望,使用多個第一目標幀以及使用其他位置的第一目標幀,而此些實現(xiàn)方式均不脫離 本申請的保護范圍。
[0036] 同理,待檢音頻片段中的某個或某些幀也具有特征編碼。為了與樣本音頻的第一 目標幀區(qū)分,待檢音頻片段中的此個或此些幀稱為第二目標幀。樣本音頻與待檢音頻片段 是相同時長的,可以理解的是,為了進行后續(xù)特征編碼的比對,第一目標幀在樣本音頻中的 位置與第二目標幀在待檢音頻片段中的位置是相同的。
[0037] 例如,第一目標幀是樣本音頻中的首幀,則第二目標幀也為待檢音頻片段中的首 幀。第一目標幀及第二目標幀均為首幀,此種方式容易在音頻中確定出第一目標幀及第二 目標幀,因此最容易實現(xiàn)且方便快捷。
[0038]需要說明的是,特征編碼是樣本音頻及待檢音頻片段中某個或某些幀的特征編 碼,是基于此個或此些幀的語音特征生成的,在生成過程中,需要將此個或此些幀與基礎樣 本音頻的語音特征進行比對。因此,第一目標幀的特征編碼反映了樣本音頻與基礎樣本音 頻的相似度,第二目標幀的特征編碼反映了待檢音頻片段與基礎樣本音頻的相似度。生成 特征編碼的一種具體方式請參見下文。
[0039]步驟S103:將第一目標幀的特征編碼與第二目標幀的特征編碼進行比對。若比對 結果滿足預設相似條件,則執(zhí)行步驟S104,若比對結果不滿足預設相似條件,則返回步驟 S101在待檢音頻中提取與樣本音頻相同時長的下一待檢音頻片段,直到所述待檢音頻中不 存在下一待檢音頻片段。
[0040]由以上可知,第一目標幀的特征編碼及第二目標幀的特征編碼表示與相同基礎樣 本音頻的相似度,因此,第一目標幀的特征編碼與第二目標幀的特征編碼是具有可比性的。 進而,可以將第一目標幀的特征編碼與第二目標幀的特征編碼進行比較,以判斷兩個特征 編碼是否相似甚至相同。
[0041] 若相似甚至相同,則執(zhí)行步驟S104。否則,在待檢音頻中截取下一段與待檢音頻片 段相同時間長度的待檢音頻片段,重新進行步驟S102~步驟S104的檢索。當然,若待檢音頻 中并不存在下一段待檢音頻片段,則停止執(zhí)行,確定待檢音頻與樣本音頻不同源。
[0042] 步驟S104:對樣本音頻及待檢音頻片段進行逐幀精細檢索,以獲得樣本音頻與待 檢音頻片段是否同源的檢索結果。
[0043] 其中,第一目標幀的特征編碼與第二目標幀的特征編碼相似,可以表示第一目標 幀與第二目標幀相似,但由于第一目標幀是樣本音頻中的部分幀甚至一幀,第二目標幀是 待檢音頻片中的部分幀甚至一幀,因此,第一目標幀與第二目標幀的相似,僅僅是初步粗略 確定樣本音頻與待檢音頻片段相似。
[0044] 在進行上述初步的一級檢索后,還需要對樣本音頻及待檢音頻片段進行進一步的 二級檢索,二級檢索是逐幀精細比較。需要說明的是,二級檢索米用的是現(xiàn)有的逐幀檢索方 式,具體檢索方式可以參見下文描述。經過二級檢索后,便可以確定樣本音頻與待檢音頻片 段是否同源。
[0045] 由以上的技術方案可知,本申請?zhí)峁┝艘环N音頻檢索方法實施例,本實施例在獲 取到待檢音頻后,根據(jù)樣本音頻截取待檢音頻片段,并獲取待檢音頻片段及樣本音頻中相 同位置的某個或某些幀的特征編碼,特征編碼可以表示待檢音頻片段及樣本音頻與相同的 基礎樣本音頻的相似度,因此,可以將樣本音頻及待檢音頻片段的某個或某些幀的特征編 碼進行比對,以初步判斷樣本音頻與待檢音頻片段是否相似,若相似,則對樣本音頻及待檢 音頻片段進行逐幀的精細檢索,從而獲得樣本音頻與待檢音頻片段是否同源的檢索結果。 相較于現(xiàn)有的檢索方式而言,本實施例在獲得每個檢索音頻片段后,首先進行一級初步檢 索,在一級檢索結果滿足預設相似條件的情況下,才進行精細的二級檢索。并且,一級初步 檢索時,僅對音頻中某個或某些目標幀的特征編碼進行比對,計算量較小,檢索效率較高。
[0046] 在實施中,樣本音頻中第一目標幀的特征編碼可以是預先生成的,即獲得樣本音 頻庫后,便可以訓練生成樣本訓練庫中每個樣本音頻的第一目標幀的特征編碼,進而在對 待檢音頻進行檢索時,可以直接獲取該特征編碼。另外,生成的特征編碼可以是二進制編碼 形式。
[0047] 參見圖2,其示出了樣本音頻的第一目標幀的二進制編碼的生成流程。如圖2所示, 生成流程可以包括步驟S201~步驟S205。
[0048]步驟S201:獲取若干基礎樣本音頻,并提取若干基礎樣本音頻中每幀音頻的語音 特征;其中,每個語音特征均包括相同數(shù)目維度的特征值。
[0049] 其中,可以將樣本音頻庫中的樣本音頻作為基礎樣本音頻,也就是說,獲取樣本音 頻庫中的樣本音頻作為基礎樣本音頻。
[0050] 針對每個基礎樣本音頻,提取該基礎樣本音頻中每幀音頻的語音特征??蛇x地,提 取語音特征的算法可以是PLPCC(Perceptual Linear PredictiveCepstralCoefficient, 感知線性預測倒譜系數(shù))算法,該算法提取到的語音特征包括8維的特征值。當然,提取語音 特征的算法還可以是其他,并不局限于此。需要說明的是,提取語音特征的算法不同,則提 取到的語音特征的維度數(shù)也不盡相同。
[0051] 提取到的語音特征可以組成語音特征集合F={f(1),f(2),. . .,f(T)}。該語音特征集 合包含的是每個基礎樣本音頻中每幀的語音特征,因此,T是所有基礎樣本音頻的所有幀數(shù) 的總和。f(1)(l<i<T)是語音特征,語音特征包含多個維度的特征值,其中,特征值是語音 特征向量。
[0052]步驟S202:分別獲取每個維度的特征值中的中值,組成中值序列。
[0053]由以上可知,語音特征集合F中每個語音特征均具有相同數(shù)目維度的特征值,則可 以針對每個維度,在該維度所對應的特征值中,確定中值。將確定出的所有維度的中值組成 中值序列。
[0054]可以理解的是,中值(或稱中位數(shù))是指統(tǒng)計總體中的各個變量值按照大小順序依 次排列,處于排列中間位置的變量值稱為中值。若變量項數(shù)為奇數(shù),則處于中間位置的變量 為中值,若變量項數(shù)為偶數(shù),則處于中間位置的兩個變量值的平均值為中值。
[0055]假設語音特征集合F中的語音特征f(1)均為8維度,則組成中值序列m的方式是:m = {爪1,,一,8},其中,"?/=服妨訓(/廣,/,<2),...,./:( 1)),1</<89當然,其他維度數(shù)的中 值序列的生成方式與此相同。
[0056]假設,基礎樣本音頻為5816個2秒左右的音頻片段,提取PLPCC語音特征后,根據(jù) 5816個基礎樣本音頻的PLPCC語音特征,獲得的中值序列為:111={-0.2601,-0.5249,-0.5868,-0.6182,-0.3870,-0.4331,-0.1426,-0.2715}〇
[0057]步驟S203:從若干基礎樣本音頻中提取一個作為樣本音頻,并提取樣本音頻中第 一目標幀的語音特征;其中,第一目標幀的語音特征包括相同數(shù)目維度的特征值。
[0058] 在根據(jù)整個樣本音頻庫獲得中值序列后,需要提取該樣本音頻庫中每個樣本音頻 的語音特征,進而,再將每個樣本音頻的語音特征與中值序列進行比對后,根據(jù)比對結果生 成二進制編碼。
[0059] 具體地,使用上述提取基礎樣本音頻的語音特征的算法,提取樣本音頻的第一目 標幀的語音特征。這樣,第一目標幀的語音特征的維度數(shù)目便與基礎樣本音頻的維度數(shù)目 相同,也便與中值序列中數(shù)值的個數(shù)相同。
[0060] 步驟S204:將第一目標幀的語音特征中的特征值與中值序列中相同維度的特征值 進行比對。
[0061] 可以理解的是,中值序列中數(shù)值的個數(shù)與語音特征的維度數(shù)相同,且不同數(shù)值分 別與不同的維度對應。例如,中值序列m= {mi,m2,...,m8},其中,mi為維度1的中值,m2為維度 2的中值,以此類推,m8為維度8的中值。
[0062] 第一目標幀的語音特征也包括多個維度的特征值,因此,將第一目標幀的語音特 征中的特征值與中值序列中相同維度的特征值進行比對。
[0063] 例如,第一目標幀的語音特征為f = {fi,f2,. . .,fs},中值序列m= {mi,m2,. . .,m8}, 則分別將fi與mi、f 2與m2、......fs與ms進彳丁比對。
[0064]步驟S205:根據(jù)比對結果,獲得第一目標幀的語音特征的二進制編碼。
[0065] 具體地,若第一目標幀的語音特征中的特征值大于中值序列中的特征值,則編碼 為1,否則,編碼為〇。公式化描述為:
[0066] 〇?我/;) = |^ & L為維度數(shù)。
[0, otherwise
[0067] 這樣,樣本音頻中第一目標幀的語音特征...,f8}便可以編碼生成L位 的二進制序列,BPcod(f) =cod(fi)cod(f2)…cod(fL)。
[0068] 例如,€={-0.216672,-0.446505,-0.621765,-0.590700,-0.361975,_ 0.513275,-0.191458,-0.190835},m={-〇.26015249586861823870,-0.4331 ,-0.1426,-0.2715},則生成的二進制編碼為:11011001。
[0069] 生成每個樣本音頻的第一目標幀的二進制編碼后,可以預先保存。在對待檢索音 頻進行檢索時,直接獲取該樣本音頻的二進制編碼作為特征編碼,以提高音頻檢索的效率。
[0070] 以上流程是,在對待檢音頻片段進行音頻檢索前,預先訓練樣本音頻的第一目標 幀的特征編碼??梢岳斫獾氖?,在音頻檢索的過程中,還需要獲得待檢音頻片段的第二目標 幀的特征編碼。需要說明的是,訓練階段可以保存生成的中值序列,進而,使用該中值序列, 獲得待檢音頻片段的第二目標幀的特征編碼。
[0071] 具體地,生成待檢音頻片段的第二目標幀的特征編碼的方式可以參見圖3。如圖3 所示,具體包括以下步驟S301~步驟S304。
[0072]步驟S301:在待檢音頻片段中,確定與第一目標幀相同位置的第二目標幀。
[0073]步驟S302:提取第二目標幀的語音特征;其中,第二目標幀的語音特征包括相同數(shù) 目維度的特征值。
[0074] 其中,根據(jù)樣本音頻中的第一目標幀,在待檢音頻片段中的相同位置查找目標幀, 并將查找到的目標幀稱為第二目標幀。進而,使用PLPCC等算法提取該第二目標幀的語音特 征。
[0075] 例如,樣本音頻中的第一目標幀為首幀,則提取待檢音頻片段中首幀的語音特征。 提取語音特征的算法與提取基礎樣本音頻的相同,則第二目標幀的語音特征包含與基礎樣 本音頻的語音特征中相同數(shù)目維度的特征值,維度數(shù)目與中值序列的維度數(shù)目也相同。例 如,中值序列包含8個維度上的特征值,第二目標幀的語音特征包含8個維度的特征值。
[0076] 步驟S303:將第二目標幀的語音特征中的特征值與中值序列中相同維度的特征值 進行比對。
[0077]步驟S304:根據(jù)比對結果,獲得第二目標幀的二進制形式的特征編碼。
[0078] 其中,與上述生成樣本音頻的二進制編碼的方式相同,將第二目標幀的語音特征 的特征值與中值序列中的特征值比對后,若前者大于后者,則編碼為1,否則,編碼為〇。經過 編碼后,便可以獲得待檢音頻片段的第二目標幀的二進制序列形式的特征編碼。
[0079] 以上特征編碼通過比較特征值的大小獲得,生成方式較為簡單。
[0080] 上述生成的樣本音頻的第一目標幀的語音特征、以及待檢音頻片段的第二目標幀 的語音特征均為二進制編碼,則上述音頻檢索方法實施例1中用來判斷兩個語音特征是否 相似的預設相似條件,可以是二進制編碼中相同的編碼位數(shù)。
[0081] 具體地,若兩個二進制編碼比對時,相同二進制位的個數(shù)滿足預設個數(shù)閾值,則表 示比對結果滿足預設相似條件,否則,不滿足預設相似條件。此種比較方式僅僅是基于二進 制編碼的與或運算進行,運算量較小。
[0082] 例如,第一目標幀的二進制編碼為11011001,第二目標幀的二進制編碼為 10111001,且預設個數(shù)閾值為5個,則該第一目標幀與該第二目標幀滿足預設相似條件。 [0083] 又如,第一目標幀的二進制編碼為110 11001,第二目標幀的二進制編碼為 10111111,且預設個數(shù)閾值為5個,則該第一目標幀與該第二目標幀不滿足預設相似條件。
[0084] 根據(jù)以上音頻檢索方法實施例1的說明可知,只有在初步檢索時,滿足預設相似條 件的情況下,才會對樣本音頻進行逐幀精細檢索的過程。
[0085] 以下介紹一種具體的逐幀精細檢索的方式。
[0086] 首先,提取樣本音頻中每幀音頻的語音特征、以及待檢音頻片段中每幀音頻的語 音特征,然后,計算樣本音頻與待檢音頻片段中相同位置幀音頻的語音特征之間的距離,進 而,統(tǒng)計各個距離的和值,若各個距離的和值小于預設距離門限值,則確定待檢音頻片段與 樣本音頻同源;否則,確定待檢音頻片段與樣本音頻不同源。
[0087] 例如,樣本音頻的語音特征集合為R={r(1),r(2),. . .r(1). . .,r(N)},待檢音頻片段 的語音特征集合為T={t(1),t(2),. . . .,t(N)},其中,N為音頻中的幀數(shù),r(1)為樣本音頻 中某幀的語音特征,t(i)為待檢音頻片段中某幀的語音特征,且l<i<N。
[0088] 進而,使用歐式距離計算公式
,來計算并統(tǒng)計樣本音頻 與待檢音頻片段的語音特征之間的距離。若D(R,T)小于預設距離門限值,則確定待檢音頻 片段與樣本音頻同源,若D(R,T)大于等于預設距離門限值,則確定待檢音頻片段與樣本音 頻不同源。
[0089] 當然,可以使用其他的距離計算公式,或者其他的逐幀精細檢索的方式對待檢音 頻片段進行精細檢索。
[0090] 在上述音頻檢索方法實施例1的步驟S101中,在待檢音頻中提取與樣本音頻相同 時長的待檢音頻片段的具體實現(xiàn)方式可以是,依據(jù)樣本音頻的長度生成滑動窗口,使用滑 動窗口從待檢首頻中提取待檢首頻片段。
[0091] 下面結合圖示4,并以第一目標幀為樣本音頻的首幀、第二目標幀為待檢音頻片段 的首幀為例,來說明音頻檢索方法實施例的實現(xiàn)過程。
[0092]如圖4所示,在獲取到樣本音頻及待檢音頻后,使用滑動窗口從待檢音頻的首幀開 始,按照一定步長(通常為1幀)進行滑動,滑動窗口內的待檢音頻便作為待檢音頻片段。 [0093]對樣本音頻及待檢音頻片段進行分幀操作后,獲得樣本音頻幀序列及待檢音頻片 段的幀序列。
[0094]提取樣本音頻中每幀音頻的語音特征,從而獲得樣本音頻的語音特征集合;提取 待檢音頻片段中每幀音頻的語音特征,從而獲得待檢音頻片段的語音特征集合。
[0095] 獲取樣本音頻的首幀的二進制編碼,并獲取待檢音頻片段的首幀的二進制編碼; 其中,二進制編碼都是基于首幀的語音特征生成的。
[0096] 將兩個首幀的二進制編碼按位進行比較,若相同的二進制位大于預設個數(shù)閾值, 則進一步進行精細檢索,否則,移動滑動窗口后,獲得下一個待檢音頻片段,重新進行上傳 初步檢索過程。
[0097]在進行精細檢索時,逐幀計算語音特征的距離后,統(tǒng)計距離的累加值。將距離的累 加值與預設的門限閾值比較,若小于,則表示待檢音頻片段與樣本音頻同源,即檢索成功。 若大于等于,則表示待檢音頻片段與樣本音頻不同源,即檢索失敗,進而,可以移動滑動窗 口后,獲得下一個待檢音頻片段,重新進行上傳初步檢索過程。若滑動窗口移動至待檢音頻 的最后,也并未檢索到與樣本音頻同源的片段,則表示該待檢音頻整體與樣本音頻不同源。
[0098] 需要說明的是,圖4中虛線框內的即是初步檢索過程。該初步檢索過程是相對于現(xiàn) 有的音頻檢索方式而言最重要的區(qū)別之處。
[0099] 現(xiàn)有技術中,在檢索過程中,對每個滑動窗口內的待檢音頻片段均進行精細檢索, 然而,本申請中,只有在初步檢索成功的情況下,才進行后續(xù)精細檢索。另外,初步檢索使用 的二進制編碼生成方式簡單,并且,在比對二進制編碼時,僅僅基于首幀的二進制編碼進行 與或運算,運算量較小。因此,本申請?zhí)峁┑囊纛l檢索方式運算量較少,檢索效率較高。
[0100] 為了更充分的說明音頻檢索方法,下面對提取語音特征的算法進行介紹。
[0101]具體地,提取語音特征的算法可以有很多,例如,常用的有MFCC(Mel-Frequency Cepstral Coefficients,美爾頻率倒譜系數(shù))、LPCC(Linear Prediction CepstralCoefficient,線性預測倒譜系數(shù))、PLPCC(Perceptual Linear PredictiveCepstralCoeff icient,感知線性預測倒譜系數(shù))等。此處僅對PLPCC算法進行詳 細說明。
[0102] PLPCC算法提取語音特征的過程請參見圖5。
[0103]音頻數(shù)據(jù)經過采樣量化、分幀等預處理之后,逐幀提取PLPCC特征,提取流程如下: [0104] 1、頻譜分析
[0105] 對每幀音頻數(shù)據(jù)進行離散傅立葉變換,取短時語音譜實部和虛部的平方和,得到 短時功率譜 P(f),其中,P(f)=Re(X(f))2+Im(X(f))2。
[0106] 2、臨界頻帶分析
[0107] 臨界頻帶反映了人耳聽覺的掩蔽效應,是對人耳聽覺模型的模擬。一個純語音可 以被以它為中心頻率,且具有一定的連續(xù)噪聲所掩蔽,如果在這一頻帶內噪聲功率等于該 純音的功率,這時該純音處于剛好能被聽到的臨界狀態(tài),即稱這一頻帶為臨界頻帶(一個臨 界帶寬的單位用Bark表示)。利用關系式:
[0109] 將頻譜P(f)的頻率f (Hz)映射到Bark頻率Z(Bark),總共得到20個頻帶。將這20個 頻帶中每個頻帶內的能量譜與如下權重系數(shù)相乘,求和后即得到臨界帶寬聽覺譜0(k)。權 重系數(shù)的計算公式為: Z- Z, <-1.3 K丨丨/ …, 1.3 < Z - Zk < -0.5
[0110] C;(Z)= 1 -0.5<Z-Z,<0.5 KT2'5(Z-u ~ 0.5<Z-Zt<2.5 0 Z-Zk>2.5 o
[0111] 則臨界帶功率譜為: 2:5
[0112] 〇⑷=A/(Z))C((Z-ZA)?其中,Zk表示第k個臨界帶聽覺譜的中心頻率。 2, =-1.3. "
[0113] 3、等響度預加重
[0114]根據(jù)人耳對于不同的頻率的敏感性不同這一特點,通過對〇(k)進行等響度曲線 預加重,使得聽覺響度在不同頻率近似相等,計算公式如下:
[0115] r (k)=E[f0(k)]〇(k)〇
[0116] 其中,fQ(k)表示第k個臨界帶聽覺譜的中心頻率所對應的頻率(Hz),E[fQ(k)]為等 響度曲線函數(shù),由下式獲得:
[0118] 4、能量強度與聽覺響度轉換
[0119] 將能量的強度近似地轉換成為人耳聽覺感知的響度:? (k)= r (k"'33。
[0120] 經過離散傅立葉變換之后,用德賓(Durbin)算法計算8階全極點模型,得到的系數(shù) 再計算倒譜系數(shù),最后得到本申請中的8維語音特征。
[0121] 以下對本申請?zhí)峁┑囊纛l檢索裝置進行介紹,需要說明的是,下文有關音頻檢索 裝置的說明可以參見上文提供的音頻檢索方法,以下并不贅述。
[0122] 與上述音頻檢索方法實施例1相對應,本申請?zhí)峁┝艘环N音頻檢索裝置實施例1。 如圖6所示,本裝置實施例可以具體包括:樣本音頻及待檢音頻片段獲得模塊601、特征編碼 獲得模塊602、特征編碼比對模塊603及音頻精細檢索模塊604。其中:
[0123] 樣本音頻及待檢音頻片段獲得模塊601,用于獲取樣本音頻及待檢音頻,并在待檢 音頻中提取與樣本音頻相同時長的待檢音頻片段;
[0124] 特征編碼獲得模塊602,用于獲取樣本音頻中第一目標幀的特征編碼,并獲取待檢 音頻片段中與第一目標幀相同位置的第二目標幀的特征編碼;其中,第一目標幀的特征編 碼用于表示樣本音頻與預先收集的基礎樣本音頻的相似度,第二目標幀的特征編碼用于表 示待檢音頻片段與基礎樣本音頻的相似度;
[0125] 特征編碼比對模塊603,用于將第一目標幀的特征編碼與第二目標幀的特征編碼 進行比對;若比對結果滿足預設相似條件,則觸發(fā)音頻精細檢索模塊;若比對結果不滿足預 設相似條件,則觸發(fā)樣本音頻及待檢音頻片段獲得模塊601在待檢音頻中提取與樣本音頻 相同時長的下一待檢音頻片段,直到所述待檢音頻中不存在下一待檢音頻片段;
[0126] 音頻精細檢索模塊604,用于對樣本音頻及待檢音頻片段進行逐幀精細檢索,以獲 得樣本音頻與待檢音頻片段是否同源的檢索結果。
[0127] 由以上的技術方案可知,本申請?zhí)峁┝艘环N音頻檢索裝置實施例,本實施例中的 樣本音頻及待檢音頻片段獲得模塊601在獲取到待檢音頻后,根據(jù)樣本音頻截取待檢音頻 片段,特征編碼獲得模塊602獲取待檢音頻片段及樣本音頻中相同位置的某個或某些幀的 特征編碼,特征編碼可以表示待檢音頻片段及樣本音頻與相同的基礎樣本音頻的相似度, 因此,特征編碼比對模塊603可以將樣本音頻及待檢音頻片段的某個或某些幀的特征編碼 進行比對,以初步判斷樣本音頻與待檢音頻片段是否相似,若相似,則音頻精細檢索模塊 604對樣本音頻及待檢音頻片段進行逐幀的精細檢索,從而獲得樣本音頻與待檢音頻片段 是否同源的檢索結果。相較于現(xiàn)有的檢索方式而言,本實施例在獲得每個檢索音頻片段后, 首先進行一級初步檢索,在一級檢索結果滿足預設相似條件的情況下,才進行精細的二級 檢索。并且,一級初步檢索時,僅對音頻中某個或某些目標幀的特征編碼進行比對,計算量 較小,檢索效率較高。
[0128] 在上述音頻檢索裝置中,特征編碼獲得模塊602獲得的第一目標幀的特征編碼為 預先生成的二進制編碼;相應地,如圖7所示,該音頻檢索裝置還包括:訓練模塊605。
[0129]其中,訓練模塊605,用于生成第一目標幀的二進制編碼;
[0130]進一步地,訓練模塊605可以具體包括:第一語音特征提取子模塊701、中值序列生 成子模塊702、第二語音特征提取子模塊703、語音特征比較子模塊704及二進制編碼生成子 模塊705。其中:
[0131 ]第一語音特征提取子模塊701,用于獲取若干基礎樣本音頻,并提取若干基礎樣本 音頻中每幀音頻的語音特征;其中,每個語音特征均包括相同數(shù)目維度的特征值;
[0132] 中值序列生成子模塊702,用于分別獲取每個維度的特征值中的中值,組成中值序 列;
[0133] 第二語音特征提取子模塊703,用于從若干基礎樣本音頻中提取一個作為樣本音 頻,并提取樣本音頻中第一目標幀的語音特征;其中,第一目標幀的語音特征包括相同數(shù)目 維度的特征值;
[0134] 語音特征比較子模塊704,用于將第一目標幀的語音特征中的特征值與中值序列 中相同維度的特征值進行比對;
[0135] 二進制編碼生成子模塊705,用于根據(jù)比對結果,獲得第一目標幀的語音特征的二 進制編碼。
[0136] 在實施中,音頻檢索裝置中的特征編碼獲得模塊602可以具體包括:樣本音頻特征 編碼獲取子模塊、以及待檢音頻片段特征編碼獲取子模塊;其中:
[0137] 樣本音頻特征編碼獲取子模塊,用于獲取樣本音頻中第一目標幀的特征編碼;待 檢音頻片段特征編碼獲取子模塊,用于獲取待檢音頻片段中與第一目標幀相同位置的第二 目標幀的特征編碼;
[0138] 其中,待檢音頻片段特征編碼獲取子模塊可以包括:第二目標幀確定單元、第二目 標幀語音特征提取單元、比較單元及二進制編碼生成單元。其中:
[0139] 第二目標幀確定單元,用于在待檢音頻片段中,確定與第一目標幀相同位置的第 二目標幀;
[0140]第二目標幀語音特征提取單元,用于提取第二目標幀的語音特征;其中,第二目標 幀的語音特征包括相同數(shù)目維度的特征值;
[0141] 比較單元,用于將第二目標幀的語音特征中的特征值與中值序列中相同維度的特 征值進行比對;
[0142] 二進制編碼生成單元,用于根據(jù)比對結果,獲得第二目標幀的二進制形式的特征 編碼。
[0143] 在實施中,音頻精細檢索模塊可以具體包括:每幀語音特征提取子模塊、各幀語音 特征距離統(tǒng)計子模塊、檢索成功模塊及檢索失敗模塊。其中:
[0144] 每幀語音特征提取子模塊,用于提取樣本音頻中每幀音頻的語音特征、以及待檢 音頻片段中每幀音頻的語音特征;
[0145] 各幀語音特征距離統(tǒng)計子模塊,用于計算樣本音頻與待檢音頻片段中相同位置幀 音頻的語音特征之間的距離;若各個距離的和值小于預設距離門限值,則觸發(fā)檢索成功模 塊,若各個距離的和值不小于預設距離門限值,則觸發(fā)檢索失敗模塊;
[0146] 檢索成功模塊,用于確定待檢音頻片段與樣本音頻同源;
[0147] 檢索失敗模塊,用于確定待檢音頻片段與樣本音頻不同源。
[0148] 另外,樣本音頻及待檢音頻片段獲得模塊可以具體包括:樣本音頻及待檢音頻片 段獲得子模塊。其中:
[0149] 樣本音頻及待檢音頻片段獲得子模塊,用于獲取樣本音頻及待檢音頻,并依據(jù)樣 本音頻的長度生成滑動窗口,使用滑動窗口從待檢音頻中提取待檢音頻片段。
[0150]需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重 點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。 [0151]還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個 實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間 存在任何這種實際的關系或者順序。而且,術語"包括"、"包含"或者其任何其他變體意在涵 蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要 素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備 所固有的要素。在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排除在 包括上述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0152]對所公開的實施例的上述說明,使本領域專業(yè)技術人員能夠實現(xiàn)或使用本申請。 對這些實施例的多種修改對本領域的專業(yè)技術人員來說將是顯而易見的,本文中所定義的 一般原理可以在不脫離本申請的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本申請 將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一 致的最寬的范圍。
【主權項】
1. 一種音頻檢索方法,其特征在于,包括: 獲取樣本音頻及待檢音頻,并在所述待檢音頻中提取與所述樣本音頻相同時長的待檢 音頻片段; 獲取所述樣本音頻中第一目標幀的特征編碼,并獲取所述待檢音頻片段中與所述第一 目標幀相同位置的第二目標幀的特征編碼;其中,所述第一目標幀的特征編碼用于表示所 述樣本音頻與預先收集的基礎樣本音頻的相似度,所述第二目標幀的特征編碼用于表示所 述待檢音頻片段與所述基礎樣本音頻的相似度; 將所述第一目標幀的特征編碼與所述第二目標幀的特征編碼進行比對; 若比對結果滿足預設相似條件,則對所述樣本音頻及所述待檢音頻片段進行逐幀精細 檢索,以獲得所述樣本音頻與所述待檢音頻片段是否同源的檢索結果; 若比對結果不滿足所述預設相似條件,則返回在所述待檢音頻中提取與所述樣本音頻 相同時長的下一待檢音頻片段,直到所述待檢音頻中不存在下一待檢音頻片段。2. 根據(jù)權利要求1所述的音頻檢索方法,其特征在于,所述第一目標幀的特征編碼為預 先生成的二進制編碼,生成所述第一目標幀的二進制編碼的步驟包括: 獲取若干基礎樣本音頻,并提取所述若干基礎樣本音頻中每幀音頻的語音特征;其中, 每個所述語音特征均包括相同數(shù)目維度的特征值; 分別獲取每個維度的特征值中的中值,組成中值序列; 從所述若干基礎樣本音頻中提取一個作為樣本音頻,并提取所述樣本音頻中第一目標 幀的語音特征;其中,所述第一目標幀的語音特征包括所述相同數(shù)目維度的特征值; 將所述第一目標幀的語音特征中的特征值與所述中值序列中相同維度的特征值進行 比對; 根據(jù)比對結果,獲得所述第一目標幀的語音特征的二進制編碼。3. 根據(jù)權利要求1所述的音頻檢索方法,其特征在于,所述獲取所述待檢音頻片段中與 所述第一目標幀相同位置的第二目標幀的特征編碼,包括: 在所述待檢音頻片段中,確定與所述第一目標幀相同位置的第二目標幀; 提取所述第二目標幀的語音特征;其中,所述第二目標幀的語音特征包括所述相同數(shù) 目維度的特征值; 將所述第二目標幀的語音特征中的特征值與所述中值序列中相同維度的特征值進行 比對; 根據(jù)比對結果,獲得所述第二目標幀的二進制形式的特征編碼。4. 根據(jù)權利要求1所述的音頻檢索方法,其特征在于,所述對所述樣本音頻及所述待檢 音頻片段進行逐幀精細檢索,包括: 提取所述樣本音頻中每幀音頻的語音特征、以及所述待檢音頻片段中每幀音頻的語音 特征; 計算所述樣本音頻與所述待檢音頻片段中相同位置幀音頻的語音特征之間的距離; 若各個所述距離的和值小于預設距離門限值,則確定所述待檢音頻片段與所述樣本音 頻同源; 若各個所述距離的和值不小于所述預設距離門限值,則確定所述待檢音頻片段與所述 樣本音頻不同源。5. 根據(jù)權利要求1所述的音頻檢索方法,其特征在于,所述獲取樣本音頻及待檢音頻, 并在所述待檢音頻中提取與所述樣本音頻相同時長的待檢音頻片段,包括: 獲取樣本音頻及待檢音頻,并依據(jù)所述樣本音頻的長度生成滑動窗口,使用所述滑動 窗口從所述待檢音頻中提取待檢音頻片段。6. -種音頻檢索裝置,其特征在于,包括: 樣本音頻及待檢音頻片段獲得模塊,用于獲取樣本音頻及待檢音頻,并在所述待檢音 頻中提取與所述樣本音頻相同時長的待檢音頻片段; 特征編碼獲得模塊,用于獲取所述樣本音頻中第一目標幀的特征編碼,并獲取所述待 檢音頻片段中與所述第一目標幀相同位置的第二目標幀的特征編碼;其中,所述第一目標 幀的特征編碼用于表示所述樣本音頻與預先收集的基礎樣本音頻的相似度,所述第二目標 幀的特征編碼用于表示所述待檢音頻片段與所述基礎樣本音頻的相似度; 特征編碼比對模塊,用于將所述第一目標幀的特征編碼與所述第二目標幀的特征編碼 進行比對;若比對結果滿足預設相似條件,則觸發(fā)音頻精細檢索模塊;若比對結果不滿足所 述預設相似條件,則觸發(fā)樣本音頻及待檢音頻片段獲得模塊在所述待檢音頻中提取與所述 樣本音頻相同時長的下一待檢音頻片段,直到所述待檢音頻中不存在下一待檢音頻片段; 音頻精細檢索模塊,用于對所述樣本音頻及所述待檢音頻片段進行逐幀精細檢索,以 獲得所述樣本音頻與所述待檢音頻片段是否同源的檢索結果。7. 根據(jù)權利要求6所述的音頻檢索裝置,其特征在于,所述特征編碼獲得模塊獲得的第 一目標幀的特征編碼為預先生成的二進制編碼;相應地,該裝置還包括:訓練模塊,用于生 成所述第一目標幀的二進制編碼; 其中,所述訓練模塊包括: 第一語音特征提取子模塊,用于獲取若干基礎樣本音頻,并提取所述若干基礎樣本音 頻中每幀音頻的語音特征;其中,每個所述語音特征均包括相同數(shù)目維度的特征值; 中值序列生成子模塊,用于分別獲取每個維度的特征值中的中值,組成中值序列; 第二語音特征提取子模塊,用于從所述若干基礎樣本音頻中提取一個作為樣本音頻, 并提取所述樣本音頻中第一目標幀的語音特征;其中,所述第一目標幀的語音特征包括所 述相同數(shù)目維度的特征值; 語音特征比較子模塊,用于將所述第一目標幀的語音特征中的特征值與所述中值序列 中相同維度的特征值進行比對; 二進制編碼生成子模塊,用于根據(jù)比對結果,獲得所述第一目標幀的語音特征的二進 制編碼。8. 根據(jù)權利要求6所述的音頻檢索裝置,其特征在于,所述特征編碼獲得模塊包括: 樣本音頻特征編碼獲取子模塊,用于獲取所述樣本音頻中第一目標幀的特征編碼; 待檢音頻片段特征編碼獲取子模塊,用于獲取所述待檢音頻片段中與所述第一目標幀 相同位置的第二目標幀的特征編碼; 其中,所述待檢音頻片段特征編碼獲取子模塊包括: 第二目標幀確定單元,用于在所述待檢音頻片段中,確定與所述第一目標幀相同位置 的第二目標幀; 第二目標幀語音特征提取單元,用于提取所述第二目標幀的語音特征;其中,所述第二 目標幀的語音特征包括所述相同數(shù)目維度的特征值; 比較單元,用于將所述第二目標幀的語音特征中的特征值與所述中值序列中相同維度 的特征值進行比對; 二進制編碼生成單元,用于根據(jù)比對結果,獲得所述第二目標幀的二進制形式的特征 編碼。9. 根據(jù)權利要求6所述的音頻檢索裝置,其特征在于,所述音頻精細檢索模塊包括: 每幀語音特征提取子模塊,用于提取所述樣本音頻中每幀音頻的語音特征、以及所述 待檢首頻片段中每幀首頻的語首特征; 各幀語音特征距離統(tǒng)計子模塊,用于計算所述樣本音頻與所述待檢音頻片段中相同位 置幀音頻的語音特征之間的距離;若各個所述距離的和值小于預設距離門限值,則觸發(fā)檢 索成功模塊,若各個所述距離的和值不小于所述預設距離門限值,則觸發(fā)檢索失敗模塊; 檢索成功模塊,用于確定所述待檢音頻片段與所述樣本音頻同源; 檢索失敗模塊,用于確定所述待檢音頻片段與所述樣本音頻不同源。10. 根據(jù)權利要求6所述的音頻檢索裝置,其特征在于,所述樣本音頻及待檢音頻片段 獲得模塊包括: 樣本音頻及待檢音頻片段獲得子模塊,用于獲取樣本音頻及待檢音頻,并依據(jù)所述樣 本音頻的長度生成滑動窗口,使用所述滑動窗口從所述待檢音頻中提取待檢音頻片段。
【文檔編號】G06F17/30GK105893549SQ201610200043
【公開日】2016年8月24日
【申請日】2016年3月31日
【發(fā)明人】李邵梅, 朱宇航, 李星, 葛東東, 朱俊光, 李春偉
【申請人】中國人民解放軍信息工程大學