国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)字音頻信號(hào)處理的方法與流程

      文檔序號(hào):11136031閱讀:2012來源:國(guó)知局

      本發(fā)明涉及一種數(shù)字音頻信號(hào)處理技術(shù),尤其涉及一種基于心理聲學(xué),利用掩蔽效應(yīng)的,數(shù)字音頻信號(hào)處理的方法。



      背景技術(shù):

      利用數(shù)字音頻信號(hào)來攜帶信息是業(yè)界廣為關(guān)注并投入相當(dāng)人力和財(cái)力進(jìn)行研究和開發(fā)的技術(shù)。利用這樣的技術(shù),人們可以一邊正常地收聽音樂、收看電視節(jié)目,一邊利用具有音頻信號(hào)處理能力的設(shè)備,例如:移動(dòng)通信終端,來獲取前述的音樂或者電視節(jié)目中所攜帶的數(shù)據(jù)信息。評(píng)價(jià)這種技術(shù)是否成熟和適于應(yīng)用的一個(gè)重要特性就是:這種技術(shù)應(yīng)當(dāng)既要保證被攜帶的數(shù)據(jù)能夠被準(zhǔn)確地采集、傳遞,又要保證數(shù)字音頻信號(hào)本身被播放時(shí),不會(huì)產(chǎn)生人類能夠感受到的干擾音或者噪音。

      中國(guó)專利申請(qǐng)201410301832.7公開這樣的一種技術(shù):將需要傳輸?shù)臄?shù)字信息經(jīng)過編碼調(diào)制形成聲音編碼信號(hào);將該聲音編碼信號(hào)與預(yù)選的音視頻節(jié)目中的音頻信號(hào)進(jìn)行混音后輸出。雖然,利用該技術(shù)能夠?qū)ⅰ靶枰獋鬏數(shù)臄?shù)字信息”以混音的方式加入到正常的聲音之中;但是,由于“需要傳輸?shù)臄?shù)字信息”的不可預(yù)知性,“需要傳輸?shù)臄?shù)字信息”經(jīng)過編碼調(diào)制所形成的聲音編碼信號(hào)在相當(dāng)多的情況下可能是聲音中的噪音。在另外的一些情況下,可能是能夠?qū)φ2シ诺穆曇粼斐筛蓴_的其他聲音。為了避免這樣的問題,在上述專利申請(qǐng)的說明書部分提出了如下的改進(jìn)方案:

      “將需要傳輸?shù)臄?shù)字信息經(jīng)過編碼調(diào)制形成聲音編碼信號(hào)。該聲音編碼信號(hào)可以寫成數(shù)字聲音信號(hào)文件,也可以經(jīng)過數(shù)模轉(zhuǎn)換器轉(zhuǎn)換成聲音模擬信號(hào),該聲音模擬信號(hào)的頻率可選擇位于18kHz以上、20kHz以下的頻段,該頻段人耳難以察覺,不會(huì)影響原有電視伴音或音樂信號(hào)的正常播放。因?yàn)樵诤罄m(xù)的步驟中,需要由用戶本地的接收設(shè)備進(jìn)行接收和提取需要傳輸?shù)臄?shù)字信息,所以該聲音編碼信息需具有一定的特征,該特征是信 號(hào)能量分布僅在一定頻率范圍內(nèi):18kHz以上,20kHz以下?!?/p>

      顯然,上述的方案為了避免人耳察覺用“需要傳輸?shù)臄?shù)字信息”形成的聲音編碼,而必須使這部分聲音編碼信息的能量分布被設(shè)置在18kHz~20kHz這個(gè)頻率范圍之內(nèi)。

      眾多周知:人耳能夠聽到的聲音的整個(gè)范圍是20Hz~20kHz。聽覺良好的成年人能聽到的聲音頻率常在30Hz~16kHz之間;聽力較差的老年人能聽到的聲音頻率則常在50Hz~10kHz之間。然而,兒童能聽到的聲音頻率通常會(huì)更高。上述技術(shù)方案中所采用的18Hz~20kHz頻率范圍的聲音是許多兒童能夠聽到的。因此,即使選擇性地將聲音編碼信息的能量分布在18Hz~20kHz這個(gè)頻率范圍之內(nèi),也會(huì)使得相當(dāng)多的人,特別是兒童還能聽到;這使得這些人,特別是兒童在聆聽含有使用該技術(shù)進(jìn)行聲音編碼電視、廣播節(jié)目時(shí),依然會(huì)受到噪音或者干擾音的困擾。

      另一方面,選擇性地將聲音編碼信息的能量分布在人耳能夠聽到頻率范圍(20Hz~20kHz)之外雖然能夠?qū)崿F(xiàn),但由于絕大多數(shù)音響設(shè)備的頻率響應(yīng)特性是依據(jù)人耳能聽到的聲音范圍設(shè)計(jì)制造的,對(duì)于20Hz~20kHz頻率范圍之外的音頻信號(hào),一般都會(huì)被當(dāng)作雜音或者噪音濾掉,因此,聲音編碼信息即使能夠被混音到正常的音頻信號(hào)之中,卻并不能被音響設(shè)備所播放,因而也不可能被接受設(shè)備所獲取。

      綜上,上述的各種技術(shù)顯然并不成熟,因此也不可能得到廣泛的應(yīng)用。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的目的是提供一種數(shù)字音頻信號(hào)處理的方法,利用心理聲學(xué)原理來對(duì)所述的數(shù)字音頻信號(hào)進(jìn)行處理,將需要傳送的信息,以特定的目標(biāo)數(shù)據(jù)嵌入到該數(shù)字音頻信號(hào)之中,使得該數(shù)字音頻信號(hào)被音響設(shè)備播出時(shí),被嵌入的目標(biāo)數(shù)據(jù)也能一并被播出,在不為人耳所察覺的情況下,卻能被具有音頻信號(hào)處理能力的設(shè)備所接收和提取。

      本發(fā)明的上述目的是采用這樣的技術(shù)方案實(shí)現(xiàn)的:

      將第一數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù)并進(jìn)行加窗處理;對(duì)前述 多個(gè)音頻幀數(shù)據(jù)分別進(jìn)行頻域離散傅立葉(Fourier)變換,得到與前述多個(gè)音頻幀數(shù)據(jù)分別對(duì)應(yīng)的多個(gè)第一頻譜數(shù)據(jù);

      將前述多個(gè)第一頻譜數(shù)據(jù)映射到聽覺臨界頻帶(Bark域),并計(jì)算聽覺臨界頻帶中各個(gè)子帶的掩蔽閾值;該掩蔽閾值的數(shù)量與前述的子帶的數(shù)量是一一對(duì)應(yīng)的;

      在前述多個(gè)第一頻譜數(shù)據(jù)中選取小于前述掩蔽閾值的頻率點(diǎn)作為嵌入位置;

      采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)目標(biāo)數(shù)據(jù)進(jìn)行量化處理,并用量化處理的結(jié)果賦值前述的嵌入位置處的離散傅里葉系數(shù),因此獲得與前述多個(gè)第一頻譜數(shù)據(jù)對(duì)應(yīng)的多個(gè)第二頻譜數(shù)據(jù);

      對(duì)前述多個(gè)第二頻譜數(shù)據(jù)進(jìn)行離散傅立葉逆變換,獲得第二數(shù)字音頻信號(hào)。

      采用本發(fā)明的上述方法,可以根據(jù)心理聲學(xué)的原理,在第一數(shù)字音頻信號(hào)的合適位置,嵌入需要傳遞的目標(biāo)數(shù)據(jù)。當(dāng)該第一數(shù)字音頻信號(hào)被播放時(shí),能夠掩蔽掉嵌入位置上所嵌入的用于表達(dá)有關(guān)目標(biāo)數(shù)據(jù)的信號(hào),使其不為人耳所察覺,但是,這些被嵌入的信號(hào)卻能被具有音頻信號(hào)處理能力的設(shè)備所偵聽和還原。

      本發(fā)明的另一個(gè)目的是提供一種從數(shù)字音頻信號(hào)中提取數(shù)據(jù)的方法;利用該方法,能夠在數(shù)字音頻信號(hào)被音響設(shè)備播出時(shí),對(duì)接收到的數(shù)字音頻信號(hào)進(jìn)行處理,利用心理聲學(xué)原理提取嵌入其中的目標(biāo)數(shù)據(jù)。

      將接收到的第一數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù),并進(jìn)行加窗處理;對(duì)前述多個(gè)音頻幀數(shù)據(jù)進(jìn)行頻域離散傅立葉變換,得到與前述多個(gè)音頻幀數(shù)據(jù)分別對(duì)應(yīng)的多個(gè)第一頻譜數(shù)據(jù);

      將前述多個(gè)第一頻譜數(shù)據(jù)映射到聽覺臨界頻帶,并計(jì)算聽覺臨界頻帶中各子帶的掩蔽閾值;前述的掩蔽閾值的數(shù)量與前述的子帶的數(shù)量一一對(duì)應(yīng);

      選取前述多個(gè)第一頻譜數(shù)據(jù)中小于相應(yīng)的掩蔽閾值的頻率點(diǎn)作為嵌入位置;

      采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述嵌入位置處的離散傅里葉系數(shù)進(jìn)行反量化處理,獲得前述第一數(shù)字音頻信號(hào)中嵌入的目標(biāo)數(shù)據(jù)序列;其中,該目標(biāo)數(shù)據(jù)序列是由一個(gè)以上特定的音頻數(shù)據(jù)和/或編碼數(shù)據(jù)按照預(yù)定的順序串行排列而成;該等特定的音頻頻域信號(hào)與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng)。

      本發(fā)明上述的方法,能夠在接收到的第一數(shù)字音頻信號(hào)時(shí),利用心理聲學(xué)原理從中提取出利用掩蔽效應(yīng)通過該第一數(shù)字音頻信號(hào)攜帶的目標(biāo)數(shù)據(jù)序列,并進(jìn)一步恢復(fù)出相應(yīng)的目標(biāo)數(shù)據(jù);而在這一過程中,盡管被嵌入的目標(biāo)數(shù)據(jù)序列能夠與該數(shù)字音頻信號(hào)一并被音響設(shè)備播出,但卻不為人耳所察覺。

      具體實(shí)施方式

      在本發(fā)明的第一類具體實(shí)施方式中,需要向目標(biāo)數(shù)字音頻信號(hào)中嵌入一些目標(biāo)數(shù)據(jù)。

      為了在一個(gè)數(shù)字音頻信號(hào)中嵌入上述的目標(biāo)數(shù)據(jù),需要將數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù),并在此基礎(chǔ)上對(duì)各個(gè)音頻幀數(shù)據(jù)進(jìn)行加窗處理。然后,對(duì)經(jīng)過加窗處理的各個(gè)音頻幀數(shù)據(jù)進(jìn)行頻域離散傅立葉變換,能夠得到與前述各個(gè)音頻幀數(shù)據(jù)分別一一對(duì)應(yīng)的多個(gè)第一頻譜數(shù)據(jù)。

      在得到前述多個(gè)第一頻譜數(shù)據(jù)后,需要將這些第一頻譜數(shù)據(jù)分別映射到聽覺臨界頻帶,并計(jì)算該聽覺臨界頻帶中各子帶的掩蔽閾值;這些掩蔽閾值的數(shù)量與聽覺臨界頻帶的子帶的數(shù)量是對(duì)應(yīng)的。

      在上述多個(gè)第一頻譜數(shù)據(jù)中,均選取其中小于前述掩蔽閾值的頻率點(diǎn)作為目標(biāo)數(shù)據(jù)的嵌入位置;然后,采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述的目標(biāo)數(shù)據(jù)進(jìn)行量化處理,并用量化處理后得到的結(jié)果,對(duì)前述嵌入位置的離散傅里葉系數(shù)賦值(替換),因此可以獲得與前述各個(gè)第一頻譜數(shù)據(jù)分別對(duì)應(yīng)的各個(gè)第二頻譜數(shù)據(jù);

      對(duì)該等多個(gè)第二頻譜數(shù)據(jù)進(jìn)行離散傅立葉逆變換,就可以獲得第二數(shù)字音頻信號(hào)。這個(gè)新獲得的第二數(shù)字音頻信號(hào)中嵌入有上述的目標(biāo)數(shù)據(jù)。

      需要說明的是:在對(duì)第一數(shù)字音頻信號(hào)進(jìn)行分幀、加窗等處理時(shí),可以由相關(guān)的技術(shù)人員根據(jù)具體的設(shè)計(jì)要求來確定各音頻幀的長(zhǎng)度和窗的大小,至少可以有兩種方案選擇。例如:一種方案與語音識(shí)別技術(shù)相類似,即采用幀與幀之間有重疊(overlap)的方式;在這種方式下,一般的窗長(zhǎng)為25~35ms,幀移為10ms(當(dāng)然也可以大于或者小于10ms)。另一種方案則是采用幀與幀之間沒有重疊的方式,而窗長(zhǎng)直接指定為時(shí)域上采樣點(diǎn)的個(gè)數(shù),一般為2的N(N為正整數(shù))次方;比如:以256或者512個(gè)采樣點(diǎn)為一窗數(shù)據(jù)。

      另外,前述的“映射”具體是指:將線性頻率轉(zhuǎn)換為Bark域頻率;例如,一個(gè)可用的轉(zhuǎn)換公式如下:

      z=13arctan(0.00076f)+3.5arctan[(f/7500)2]

      其中,f為線性Hz頻率,z取整即為Bark域的序號(hào)。

      有關(guān)線性Hz頻率和Bark域的對(duì)應(yīng)關(guān)系,可以參照:美國(guó)聲學(xué)學(xué)會(huì)雜志(The Journal of the Acoustical Society of America)第33卷第2期第248頁所刊登的Zwicker,E.有關(guān)《可聽頻率范圍臨界頻帶細(xì)分》(Subdivision of the Audible Frequency Range into Critical Bands)一文,以及該雜志第88卷97–91中所刊載Traunmüller,H.(1990)有關(guān)《對(duì)于音質(zhì)的感官尺度的解析表達(dá)式》(Analytical expressions for the tonotopic sensory scale)一文。

      眾所周知:當(dāng)信號(hào)x通過量化器Q時(shí),可以將信號(hào)x量化為量化水平y(tǒng),即:y=Q(x);反之,由量化水平y(tǒng)獲得信號(hào)x’的過程為反量化,即x’=Q-1(y)。由于量化誤差的存在,前述的信號(hào)x與信號(hào)x’不可能精確一致。

      在本發(fā)明中,上述的量化器是無法使用的。本發(fā)明中所使用的量化器是能夠自適應(yīng)步長(zhǎng),并且可以對(duì)量化結(jié)果可以實(shí)現(xiàn)盲檢測(cè)的量化器。這實(shí)際上指的是一種隱寫信息盲檢測(cè)的效果,即:通過可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器量化的隱密數(shù)據(jù)序列被寫入載體后,在提取(解碼)階段,無需原始載體數(shù)據(jù)的參與,即可從載密數(shù)據(jù)中由可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器提取出寫(嵌)入的數(shù)據(jù)。對(duì)于本領(lǐng)域技術(shù)人員而言,只要是能夠 實(shí)現(xiàn)上述效果的可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器都是可以使用的。

      采用本發(fā)明上述一類具體的實(shí)施方式,對(duì)于上述第一數(shù)字音頻信號(hào)中的每個(gè)音頻幀都執(zhí)行上述的操作,就可以在具有一定時(shí)間長(zhǎng)度的第一數(shù)字音頻信號(hào)中嵌入所需要傳遞的數(shù)據(jù)信息。

      除了上述第一類具體的實(shí)施方式之外,本發(fā)明后續(xù)的各個(gè)具體的改進(jìn)內(nèi)容或者增加的內(nèi)容,都可以在上述第一類具體的實(shí)施方案的基礎(chǔ)上,任意地相互組合,可以因不同的設(shè)計(jì)需要而構(gòu)成各有區(qū)別的具體技術(shù)方案。

      在本發(fā)明上述一類具體的實(shí)施方式中,所謂采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述的目標(biāo)數(shù)據(jù)進(jìn)行量化處理,并用量化處理后得到的結(jié)果,對(duì)前述嵌入位置的離散傅里葉系數(shù)賦值(替換)的一個(gè)優(yōu)選的方式是:

      基于上述的一個(gè)嵌入位置,根據(jù)在該嵌入位置的音頻幀數(shù)據(jù)的能量值或者功率譜參數(shù)來計(jì)算出在該嵌入位置的嵌入強(qiáng)度系數(shù),這個(gè)嵌入系數(shù)強(qiáng)度系數(shù)決定了前述相應(yīng)的音頻幀數(shù)據(jù)中所能嵌入的目標(biāo)數(shù)據(jù)的數(shù)據(jù)量;

      根據(jù)上述步驟所計(jì)算得到的嵌入強(qiáng)度系數(shù),采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)目標(biāo)數(shù)據(jù)進(jìn)行量化處理,并用量化處理的結(jié)果賦值(替換)前述嵌入位置的離散傅里葉系數(shù)。

      采用這樣的一個(gè)優(yōu)選方案的好處是:可以根據(jù)不同嵌入位置的音頻幀數(shù)據(jù)的信號(hào)具體情況,來自動(dòng)地調(diào)整所嵌入的數(shù)據(jù)量;例如:在音頻數(shù)據(jù)較多且能量較高的音頻信號(hào)中可以在確保掩蔽效果的同時(shí),盡量增加所嵌入的數(shù)據(jù)量;在音頻數(shù)據(jù)較少且能量較低的音頻信號(hào)(例如:靜場(chǎng)的情形)中可以相應(yīng)地減少所嵌入的數(shù)據(jù)量以確保掩蔽的效果。

      有關(guān)根據(jù)音頻幀數(shù)據(jù)的能量值或者功率譜計(jì)算嵌入強(qiáng)度系數(shù)的過程,本質(zhì)上就是在計(jì)算量化步長(zhǎng)。在本發(fā)明中,為了更好的通過聽覺掩蔽來體現(xiàn)載密音頻的不可感知性,可以采用非均勻的量化步長(zhǎng),量化步長(zhǎng)自適應(yīng)于每幀的掩蔽閾值,并保證隱寫信息不能被聽到。在一類具體的實(shí)施方式中,代表嵌入強(qiáng)度的量化步長(zhǎng)可以采用如下的公式來計(jì)算:

      Δ’=Δ+lbLTmin/50

      其中,Δ’為嵌入強(qiáng)度的量化步長(zhǎng),Δ為基礎(chǔ)量化步長(zhǎng),LTmin是待嵌入 隱秘信息的音頻幀的掩蔽閾值。顯然,該掩蔽閾值越大,則可取得較大的量化步長(zhǎng)。lb為針對(duì)量化步長(zhǎng)增量的縮放因子,取值在0和1之間,通常取1值。

      盡管目標(biāo)數(shù)據(jù)的嵌入位置都位于掩蔽閾值所對(duì)應(yīng)的頻率點(diǎn),但是,由于臨界頻帶的各個(gè)子帶的掩蔽閾值通常各不相同,為了能夠徹底、絕對(duì)地將嵌入的目標(biāo)數(shù)據(jù)掩蔽掉,而不會(huì)被人類聽到,優(yōu)選的一類實(shí)施方式是:在本發(fā)明中上述第一類具體實(shí)施方式的基礎(chǔ)上,選取各個(gè)子帶中最小的掩蔽閾值所對(duì)應(yīng)的頻率點(diǎn)作為嵌入位置,將要嵌入的目標(biāo)數(shù)據(jù)嵌入到該最小的掩蔽閾值所對(duì)應(yīng)的嵌入位置處。

      眾所周知:對(duì)于人類而言,整個(gè)音頻頻率范圍是20Hz~20kHz;事實(shí)上,并不是所有的人都能夠聽到前述整個(gè)音頻頻率范圍內(nèi)的所有聞?dòng)虻穆曇粜盘?hào)。為此,業(yè)界在設(shè)計(jì)、制造音頻播放的設(shè)備、系統(tǒng)時(shí),從降低數(shù)據(jù)傳輸量,提高設(shè)備或者系統(tǒng)的性能等多方面考慮,往往會(huì)消弱,甚至濾除高頻段的音頻信號(hào),增強(qiáng)中低頻信號(hào);因此,如果在采用本發(fā)明第一類具體實(shí)施方式的技術(shù)方案中將目標(biāo)數(shù)據(jù)嵌入到高頻段的信號(hào)時(shí),在使用前述的那些系統(tǒng)或者設(shè)備播放相應(yīng)的音頻信號(hào)時(shí),有可能會(huì)導(dǎo)致被嵌入到高頻段的目標(biāo)數(shù)據(jù)難于提取和恢復(fù);有時(shí)甚至可能根本無法被接收到。為了解決這樣的問題,確保采用本發(fā)明技術(shù)方案的魯棒性,可以在上述各類具體實(shí)施方式的基礎(chǔ)上,優(yōu)選位于中、低頻段的頻率點(diǎn)作為目標(biāo)數(shù)據(jù)的嵌入位置。

      具體而言,本發(fā)明中的低頻段為30~150Hz,中低頻段為30~500Hz);中高頻段(500~5000Hz);綜合而言,以30~4000Hz為本發(fā)明最為優(yōu)選的目標(biāo)數(shù)據(jù)嵌入的頻率范圍。當(dāng)然,本領(lǐng)域的技術(shù)人員也可以根據(jù)具體的設(shè)計(jì)要求選擇其他的頻段作為目標(biāo)數(shù)據(jù)嵌入的頻率范圍。

      盡管使用上述的各類方案可以實(shí)現(xiàn)本發(fā)明前述的基本目的。但是,在一些情形下還需要如下的措施,以使本發(fā)明的方案能夠進(jìn)一步優(yōu)化:本發(fā)明的技術(shù)方案的本質(zhì)是在原先的數(shù)字音頻信號(hào)中嵌入了特定的目標(biāo)數(shù)據(jù),這些被嵌入的目標(biāo)數(shù)據(jù)可以被看作是嵌入后所得到的新的數(shù)字音頻信號(hào)的噪音信號(hào)。眾所周知:當(dāng)噪音信號(hào)的強(qiáng)度足夠大時(shí),會(huì)影響到新的數(shù)字 音頻信號(hào)的質(zhì)量,也會(huì)影響到目標(biāo)數(shù)據(jù)的傳輸和提取。因此,有必要對(duì)嵌入目標(biāo)數(shù)據(jù)以后得到的新的數(shù)字音頻信號(hào)的質(zhì)量進(jìn)行評(píng)估,然后再確定是否使用、輸出。

      為此,在采用本發(fā)明上述的任一類具體實(shí)施方式,獲得了上述的第二數(shù)字音頻信號(hào)時(shí),還可以進(jìn)一步對(duì)該第二數(shù)字音頻信號(hào)的信噪比進(jìn)行計(jì)算,根據(jù)該計(jì)算的結(jié)果來評(píng)估嵌入目標(biāo)數(shù)據(jù)以后的第二數(shù)字音頻信號(hào)的質(zhì)量。如果,計(jì)算得到的信噪比小于預(yù)先設(shè)定的一個(gè)比值(閾值,可以由有關(guān)的技術(shù)人員視具體的設(shè)計(jì)要求自行設(shè)置,例如:17dB、20dB、23dB等),說明該第二數(shù)字音頻信號(hào)的質(zhì)量不符合預(yù)定的信噪比要求。此時(shí),可以按照本發(fā)明上述的方案,重新確定目標(biāo)數(shù)據(jù)的嵌入位置、傅里葉系數(shù)等參量,重新執(zhí)行本發(fā)明前述各類具體實(shí)施方式的步驟,直到最終獲得的第二數(shù)字音頻信號(hào)的信噪比達(dá)到預(yù)定的要求時(shí),再輸出該符合信噪比要求的第二數(shù)字音頻信號(hào)。

      在本發(fā)明上述所有具體實(shí)施方式中,被嵌入的目標(biāo)數(shù)據(jù),實(shí)際上是由一個(gè)以上特定的音頻數(shù)據(jù)和/或編碼數(shù)據(jù)按照預(yù)定的順序串行排列為一個(gè)目標(biāo)數(shù)據(jù)序列。具體而言:前述的特定的音頻數(shù)據(jù)與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng);而前述的編碼數(shù)據(jù)則是以計(jì)算機(jī)記數(shù)方式表達(dá)的數(shù)字。一個(gè)具體的目標(biāo)數(shù)據(jù)序列可以單純地由一個(gè)以上特定的音頻數(shù)據(jù)按照預(yù)定的順序串行排列所構(gòu)成;也可以單純地由一個(gè)以上特定的編碼數(shù)據(jù)按照預(yù)定的順序串行排列所構(gòu)成;還可以按照預(yù)定的規(guī)則,由一個(gè)以上特定的音頻數(shù)據(jù)和一個(gè)以上特定的編碼數(shù)據(jù)相互交錯(cuò),并按照預(yù)定的順序串行排列所構(gòu)成。

      事實(shí)上,一個(gè)目標(biāo)數(shù)據(jù)序列單純地由一個(gè)以上特定的編碼數(shù)據(jù)順序串行排列構(gòu)成的好處是:能夠使目標(biāo)數(shù)據(jù)被高速地嵌入和接收、提取,適于應(yīng)用在需要頻繁且較快傳遞數(shù)據(jù)的場(chǎng)合,例如:直播互動(dòng)等場(chǎng)景。

      在一些對(duì)數(shù)據(jù)傳輸?shù)膶?shí)時(shí)性和速度不敏感,且需要較大數(shù)據(jù)量傳輸?shù)膱?chǎng)合,一個(gè)目標(biāo)數(shù)據(jù)序列單純地由一個(gè)以上特定的音頻數(shù)據(jù)順序串行排列構(gòu)成更為適當(dāng)。

      在本發(fā)明的具體實(shí)施方式中,優(yōu)選的方案是:任何一個(gè)特定的音頻數(shù) 據(jù)都與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng)。所謂響度又稱音量,是指人耳感受到的聲音強(qiáng)弱;它是人對(duì)聲音大小的一個(gè)主觀感覺量。其客觀評(píng)價(jià)尺度是聲音的振幅大小。所謂音高是指聲音的高度,它由振動(dòng)頻率決定,因此,音高與振動(dòng)頻率成正比關(guān)系。所謂音色又稱音品,是指聽覺感受到的聲音的特色。音色主要決定于聲音的頻譜,即基音和各次諧音的組成。

      在發(fā)明上述的各個(gè)實(shí)施方式中,可以使一個(gè)目標(biāo)數(shù)據(jù)序列包含規(guī)定數(shù)量的、特定的音頻數(shù)據(jù);由于任何一個(gè)具體的音頻數(shù)據(jù),都可以使用上述的響度、音高和音色來確定,因此,可以使前面各個(gè)技術(shù)方案中述及的所有由規(guī)定數(shù)量的、特定的音頻數(shù)據(jù)所構(gòu)成的目標(biāo)數(shù)據(jù)序列與一個(gè)信息碼本對(duì)應(yīng),用于傳遞涵蓋較大信息碼本的數(shù)據(jù)。

      例如:不同的音高具有不同的頻率值;假定選取n個(gè)不同的頻率值,其中,這n個(gè)音高分別可以用A、B、C、D、E、F、G、H、I、J......表示;不同的響度具有不同的聲音強(qiáng)度值;假定選取m個(gè)不同的聲音強(qiáng)度值,其中,這m個(gè)響度分別可以用a、b、c、d、e、f、g、h......表示;不同的音色具有不同的聲音頻譜;假定選取k個(gè)不同的聲音頻譜,其中,這k個(gè)聲音頻譜分別可以用1、2、3......k表示;在此基礎(chǔ)上,任何一個(gè)音頻數(shù)據(jù)都可以采用如下的形式來描述:

      其中,X為音高,其數(shù)量為n;Y為響度,其數(shù)量為m;Z為音色,其數(shù)量為k;

      因此,本發(fā)明中的任何一個(gè)音頻數(shù)據(jù)的信息碼本容量W可用下式計(jì)算:

      W=n×m×k

      假定:本發(fā)明的一個(gè)目標(biāo)數(shù)據(jù)序列中,單純地由5個(gè)音頻數(shù)據(jù)構(gòu)成一個(gè)單元音頻組;則任一單元音頻數(shù)據(jù)組的信息碼本容量由下式計(jì)算:

      W=(n×m×k)5

      當(dāng)n=10,m=8,k=8時(shí),

      W的值為:230×105>1014

      當(dāng)然,上述的整數(shù)n、m和k的取值都是自然數(shù),且相關(guān)的技術(shù)人員在實(shí)施本發(fā)明的時(shí)候,可以根據(jù)所需的信息碼本容量來選擇或者確定。

      如上所述:在本發(fā)明上述各類具體的實(shí)施方式中,可以完全單一的目標(biāo)數(shù)據(jù)形式來構(gòu)建一個(gè)目標(biāo)數(shù)據(jù)序列,例如:?jiǎn)渭兊厥褂靡纛l數(shù)據(jù)或者單純地使用編碼數(shù)據(jù)來構(gòu)建一個(gè)目標(biāo)數(shù)據(jù)序列。但是,在一些情況下,有可能需要采用音頻數(shù)據(jù)和編碼數(shù)據(jù)混合的方式來構(gòu)建一個(gè)目標(biāo)數(shù)據(jù)序列。為了能夠在接收時(shí)能夠采用正確的手段將數(shù)據(jù)信息從本發(fā)明的第一數(shù)字音頻信號(hào)提取出來,就需要在該目標(biāo)數(shù)據(jù)序列的預(yù)定位置中插入預(yù)先確定的標(biāo)識(shí)數(shù)據(jù)序列,使得接收設(shè)備在解析并識(shí)別到標(biāo)識(shí)數(shù)據(jù)序列后,能夠根據(jù)該標(biāo)識(shí)數(shù)據(jù)序列的指示采用相應(yīng)的識(shí)別方案,來提取對(duì)應(yīng)的數(shù)據(jù)。例如:采用模式識(shí)別方案來識(shí)別目標(biāo)數(shù)據(jù)序列中的音頻數(shù)據(jù)。

      當(dāng)然,即使一個(gè)目標(biāo)數(shù)據(jù)序列是由音頻數(shù)據(jù)和編碼數(shù)據(jù)混合而成的,但只要在一個(gè)完全封閉的信息體系內(nèi)使用,也可以用協(xié)議好的方式來構(gòu)建任何目標(biāo)數(shù)據(jù)序列,而無需在其中插入任何標(biāo)識(shí)數(shù)據(jù)序列;相反,在一個(gè)開放的信息體系中,標(biāo)識(shí)數(shù)據(jù)序列則幾乎是必須的。因此,是否采用標(biāo)識(shí)數(shù)據(jù)序列,應(yīng)當(dāng)由有關(guān)的技術(shù)人員在設(shè)計(jì)相關(guān)的系統(tǒng)時(shí)根據(jù)具體的需求來決定。

      在本發(fā)明上述各種具體的實(shí)施方式中,如果采用標(biāo)識(shí)數(shù)據(jù)序列,則該標(biāo)識(shí)數(shù)據(jù)序列優(yōu)選地使用編碼數(shù)據(jù)來構(gòu)成。但是,有關(guān)的技術(shù)人員也可以根據(jù)具體的設(shè)計(jì)需求選擇使用音頻數(shù)據(jù),以及音頻數(shù)據(jù)和編碼數(shù)據(jù)的組合來構(gòu)成標(biāo)識(shí)數(shù)據(jù)序列。

      綜上,本發(fā)明的一個(gè)重要的優(yōu)點(diǎn)就是:由于上述的目標(biāo)數(shù)據(jù)序列是在數(shù)字音頻信號(hào)的掩蔽閾值以下的位置插入,在插入目標(biāo)數(shù)據(jù)序列之后的數(shù)字音頻信號(hào)被播放時(shí),由于掩蔽效應(yīng)的存在,插入的音頻信號(hào)序列不會(huì)被人耳感知。

      此外,由于本發(fā)明中采用了多種維度的音頻信號(hào)(響度、音高和音色)來構(gòu)成音頻數(shù)據(jù)序列的方案,這種方式使得構(gòu)成信息碼本的容量具有極大的空間,可以利用有限的音頻數(shù)據(jù)來傳遞足夠多的信息。

      為了接收和獲取采用本發(fā)明前述各個(gè)方案在數(shù)字音頻信號(hào)中嵌入的目標(biāo)數(shù)據(jù)序列,本發(fā)明還提供了如下的若干技術(shù)方案:

      在使用一些設(shè)備(例如:手機(jī)、具有麥克風(fēng)和音頻處理能力的智能設(shè)備等)接收到嵌入有音頻信號(hào)序列的數(shù)字音頻信號(hào)時(shí),將接收到的數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù)并進(jìn)行加窗處理;對(duì)前述多個(gè)音頻幀數(shù)據(jù)進(jìn)行頻域離散傅立葉變換,得到與這些音頻幀數(shù)據(jù)分別對(duì)應(yīng)的多個(gè)頻譜數(shù)據(jù);

      將這些頻譜數(shù)據(jù)映射到聽覺臨界頻帶(Bark域),并計(jì)算聽覺臨界頻帶中各子帶的掩蔽閾值;該掩蔽閾值的數(shù)量與前述的子帶的數(shù)量是一一對(duì)應(yīng)的;

      在前述多個(gè)頻譜數(shù)據(jù)中選取小于前述掩蔽閾值的頻率點(diǎn)作為嵌入位置;采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述嵌入位置的離散傅里葉系數(shù)進(jìn)行反量化處理,獲得前述數(shù)字音頻信號(hào)中嵌入的一維數(shù)據(jù)序列;參見本發(fā)明上述數(shù)字音頻信號(hào)處理的各個(gè)具體實(shí)施方式的內(nèi)容,前述的目標(biāo)數(shù)據(jù)序列由一個(gè)以上特定的音頻數(shù)據(jù)和/或編碼數(shù)據(jù)按照預(yù)定的順序串行排列而成;其中,特定的音頻頻域信號(hào)與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng)。

      采用本發(fā)明上述從數(shù)字音頻信號(hào)中提取數(shù)據(jù)的具體實(shí)施方式,能夠從嵌入有目標(biāo)數(shù)據(jù)序列的數(shù)字音頻信號(hào)提取到相應(yīng)的一維數(shù)據(jù)序列。但是,如前所述:當(dāng)一維數(shù)據(jù)序列是由音頻數(shù)據(jù)構(gòu)成,或者由音頻數(shù)據(jù)和編碼數(shù)據(jù)混合構(gòu)成時(shí);或者,這個(gè)數(shù)字音頻信號(hào)是在一個(gè)開放的信息體系中傳遞時(shí),需要在提取到的一維數(shù)據(jù)序列中查找預(yù)定的標(biāo)識(shí)數(shù)據(jù)序列,并且根據(jù)這些標(biāo)識(shí)數(shù)據(jù)序列的指示,對(duì)提取到的一維數(shù)據(jù)序列中與這些標(biāo)識(shí)數(shù)據(jù)序列相關(guān)位置的音頻數(shù)據(jù)進(jìn)行模式識(shí)別,最終獲得相應(yīng)的目標(biāo)數(shù)據(jù)序列。

      在一些情況下,獲得目標(biāo)數(shù)據(jù)序列,就意味著獲得了實(shí)際的信息,例如:當(dāng)目標(biāo)數(shù)據(jù)序列僅由編碼數(shù)據(jù)所構(gòu)成時(shí);但還有一些情況下,例如:當(dāng)目標(biāo)數(shù)據(jù)序列由音頻數(shù)據(jù),或者由音頻數(shù)據(jù)和編碼數(shù)據(jù)混合構(gòu)成時(shí),即使根據(jù)前述的標(biāo)識(shí)數(shù)據(jù)序列的指示,采用模式識(shí)別的方式提取到目標(biāo)數(shù)據(jù)序列后,可能還需要利用預(yù)定的編碼表,對(duì)該等目標(biāo)數(shù)據(jù)序列進(jìn)行變換, 最終得到嵌入到前述數(shù)字音頻信號(hào)中的目標(biāo)數(shù)據(jù)。

      當(dāng)然,在本發(fā)明中,獲得前述的一維數(shù)據(jù)序列或者目標(biāo)數(shù)據(jù)序列以后,可以利用接收設(shè)備,例如:手機(jī)、具有麥克風(fēng)和音頻處理能力的智能設(shè)備等,將這些一維數(shù)據(jù)序列或者目標(biāo)數(shù)據(jù)序列發(fā)送到服務(wù)器端,由服務(wù)器端來具體完成查找預(yù)定的標(biāo)識(shí)數(shù)據(jù)序列,根據(jù)該標(biāo)識(shí)數(shù)據(jù)序列的指示,采用模式識(shí)別的方式提取到目標(biāo)數(shù)據(jù)序列,以及利用預(yù)定的編碼表,對(duì)目標(biāo)數(shù)據(jù)序列進(jìn)行變換,最終得到嵌入到前述數(shù)字音頻信號(hào)中的目標(biāo)數(shù)據(jù)等操作。

      一個(gè)具體的應(yīng)用實(shí)例是:在采用上述的各個(gè)具體實(shí)施方式將嵌入到數(shù)字音頻信號(hào)內(nèi)的目標(biāo)數(shù)據(jù)序列提取出來以后,如果該目標(biāo)數(shù)據(jù)序列單純地由音頻數(shù)據(jù)所構(gòu)成,就可以對(duì)該目標(biāo)數(shù)據(jù)序列中的各個(gè)具體的特定音頻數(shù)據(jù)及其組合進(jìn)行編碼匹配,即可以在預(yù)定的編碼表中查詢到該音頻信號(hào)序列對(duì)應(yīng)的數(shù)據(jù)信息。

      上述預(yù)定的編碼表中通常至少含有如下的相互一一對(duì)應(yīng)的信息:音頻數(shù)據(jù)序列和與之相對(duì)應(yīng)的特定信息;例如:根據(jù)上述有關(guān)由響度、音高以及音色所組成的一個(gè)音頻數(shù)據(jù)序列的例子,一個(gè)規(guī)定長(zhǎng)度的音頻數(shù)據(jù)序列可以對(duì)應(yīng)于字母“A”,對(duì)應(yīng)于詞語“能量”,對(duì)應(yīng)于短句“頻譜數(shù)據(jù)”,對(duì)應(yīng)于一種物品對(duì)象“手機(jī)”,對(duì)應(yīng)于一個(gè)網(wǎng)頁鏈接地址“www.baidu.com”等等。這樣傳遞信息的方式與電報(bào)碼的方式有些類似;但是,如前所述,如果信息碼本容量足夠大,則本發(fā)明傳遞信息的方式就能夠脫離前述的電報(bào)碼的方式,而可以直接傳遞數(shù)據(jù)。

      最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1