国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      把音頻信號分割成聽覺事件的制作方法

      文檔序號:2835590閱讀:416來源:國知局
      專利名稱:把音頻信號分割成聽覺事件的制作方法
      技術領域
      本發(fā)明涉及音頻信號的音質處理。更具體地說,本發(fā)明涉及把音頻信號分成或分割成被感知為獨立的并且不同的“聽覺事件”(auditory event)的各個方面,涉及根據聽覺事件,以及根據這種音頻事件內音頻信號的特征或特性(可選),產生音頻信號的簡化信息表現的各個方面。音頻事件可用于定義由“ISO/IEC JTC 1/SC29/WG 11”提出的MPGE-7“音頻片斷”。
      背景技術
      把聲音分成獨立并且截然不同地感知的單元或片斷(segment)有時被稱為“聽覺事件分析”或“聽覺情景分析”(“ASA”)。Albert S.Bregman在他的著作Auditory SceneAnalysis-The Perceptual Organization of Sound,MassachusettsInstitute of Technology,1991,Fourth printing 2001,Second MITPress paperback edition中陳述了聽覺情景分析的大量論述。另外,Bhadkamkar等的美國專利6002776(1999年12月14日)把日期回溯到1976的出版物引用為“與借助聽覺情景分析的聲音分離相關的現有著作”。但是,Bhadkamkar等的專利不贊成聽覺情景分析的實際應用,推定“雖然從科學觀點來看,作為人類聽覺處理的模型是有趣的,不過在獲得重要進展之前,涉及聽覺情景分析的技術目前計算要求非常大,非常專業(yè)化,以致不能被認為是實用的聲音分離技術”。
      存在用于從音頻抽取特征或特點的多種不同方法。如果恰當地定義了特點或特征,則可利用自動化程序完成特點或特征的抽取。例如“ISO/IEC JTC 1/SC 29/WG 11”(MPEG)目前正在使各種音頻描述符標準化,作為MPEG-7標準的一部分。這些方法的一個常見缺陷是它們忽略了聽覺情景分析。這些方法試圖定期測量某些“傳統的”信號處理參數,例如音調、振幅、功率、諧波結構和頻譜平直度。這些參數雖然提供有用的信息,但是并不把音頻信號分析和表征成根據人類認知獨立并且截然不同地感知的元素。但是,MPEG-7描述可用于表征根據本發(fā)明的各個方面識別的聽覺事件。

      發(fā)明內容
      根據本發(fā)明的各個方面,提供一種把音頻分成時間片斷或者“聽覺事件”的計算效率高的方法,所述時間片斷或“聽覺事件”被感知為是獨立的并且截然不同的。這些聽覺事件的邊界的位置(音頻事件相對于時間的開始和結束之處)提供可用于描述音頻信號的有用信息??杉下犛X事件邊界的位置,產生音頻信號的簡化信息表示(reduced information representation)(“簽名”或“指紋”),所述簡化信息表現可被保存,以便供與其它類似產生的簽名(例如已知作品數據庫中的簽名)的比較分析之用。
      Bregman指出“當聲音在音質、音調、音量或者(在較小的程度上)空間位置方面突然變化時,我們聽到離散的單元。”(Auditory Scene Analysis-The Perceptual Organization of Sound,supra at page 469)。Bregman還討論了當在頻率方面分離多個同時發(fā)生的聲音流時,所述多個同時聲音流的感知。
      為了檢測音質和音調方面的變化,和振幅方面的某些變化,根據本發(fā)明一個方面的音頻事件檢測方法檢測頻譜成分相對于時間的變化。當應用于其中通道代表空間方向的多通道聲音時,根據本發(fā)明一個方面的方法還檢測源于空間位置相對于時間的變化的聽覺事件??蛇x的是,根據本發(fā)明的另一方面,該方法還可檢測振幅相對于時間的變化,檢測頻譜成分相對于時間的變化檢測不出振幅相對于時間的變化。
      在其計算要求最低的實現中,該方法通過分析整個頻段(全帶寬音頻)或者幾乎整個頻段(在實際實現中,通常采用在頻譜末端的限帶濾波),并向最響亮的音頻信號分量賦予最大權重,把音頻分成時間片斷。該方法利用了聲學現象(psychoacoustic),其中在較小的時標(20毫秒及更小)下,耳朵會專注于指定時間的單一聽覺事件。這意味著雖然同時可能發(fā)生多個事件,但是一個分量會是知覺上最突出的,并且會被單獨處理,如同只發(fā)生該唯一事件一樣。利用該效果還允許聽覺事件檢測隨著被處理音頻的復雜性而縮放。例如,如果被處理的輸入音頻信號是獨奏曲,那么識別的音頻事件可能是正在演奏的單個音符。類似地,對于輸入的語音信號,語音的各個分量,例如元音和輔音可能被識別為單個的音頻元素。隨著音頻復雜性的增大,例如具有鼓聲或多種樂器及歌聲的音樂,聽覺事件檢測識別在任意指定時刻“最突出”(即最響亮的)音頻元素。另一方面,通過考慮聽覺閾值和頻率響應,確定最突出的音頻元素。
      雖然根據全帶寬音頻計算的聽覺事件邊界的位置提供和音頻信號的內容相關的有用信息,不過可能希望提供進一步描述音頻事件的內容,供音頻信號分析之用的附加信息。例如,可跨越兩個或更多子頻段分析音頻信號,確定子頻段聽覺事件的位置,并使用其傳送和聽覺事件的內容的本質相關的更多詳細信息。這種詳細信息可提供不能從寬帶分析獲得的附加信息。
      從而,可選的是,根據本發(fā)明的另一方面,以更大的計算復雜性為代價,該方法還可考慮離散子頻段(固定的或動態(tài)確定的子頻段,或者固定和動態(tài)確定的子頻段)中,而不是整個帶寬中,頻譜成分相對于時間的變化。這種備選方法會考慮不同子頻段中一個以上的音頻流,而不是假定在特定時間,只能感知單個音頻流。
      甚至根據本發(fā)明一個方面的簡單、計算高效的方法也可用于識別聽覺事件。
      通過把時域音頻波形分成時間間隔或組,隨后利用濾波器組,或者時間-頻率變換,例如FFT,把每組中的數據轉換到頻域,可實現根據本發(fā)明的聽覺事件檢測方法。每組的頻譜內容的振幅被歸一化,以便消除或減小振幅變化的影響。得到的每個頻域表示提供特定組中的音頻的頻譜內容(隨頻率變化的振幅)的指示。比較連續(xù)各組的頻譜內容,獲得大于閾值的變化,以指示聽覺事件的時間起點或時間終點。圖1表示了圖解說明聽覺事件的單聲道管弦樂的理想波形。當播放新音符時發(fā)生的頻譜(spectral)變化分別在采樣2048和2560觸發(fā)新的聽覺事件2和3。
      如上所述,為了使計算復雜性降至最小,可以只處理時域音頻波形的單一頻段,最好是頻譜的整個頻段(就一般質量的音樂系統來說,約為50Hz~15kHz)或者幾乎整個頻段(例如,限帶濾波器(band defining filter)可排除高頻或低頻極端)。
      頻域數據最好被歸一化,如下所述。頻域數據需要被歸一化的程度給出振幅的指示。從而,如果該程度的變化超過預定的閾值,那么該變化也可被用于指示事件邊界。源于頻譜變化和源于振幅變化的事件起點和終點可進行“或”運算,從而識別源于頻譜變化或振幅變化的事件邊界。
      就分別代表一個空間方向的多個音頻通道來說,每個通道可單獨處理,并且關于所有通道得到事件邊界可進行“或”運算。從而,例如,突然轉換方向的聽覺事件可能會在一個通道中導致“事件終止”邊界,在另通道中導致“事件開始”邊界。當進行“或”運算時,會識別兩個事件。從而,本發(fā)明的聽覺事件檢測方法能夠根據頻譜(音質和音調),振幅和方向變化,檢測聽覺事件。
      作為另一種選擇,如上所述,代替處理單一頻段中時域波形的頻譜內容,在頻域轉換之前,時域波形的頻譜可被分成兩個或者更多的頻段,其代價是計算復雜性較大。隨后可把每個頻段轉換到頻域,并如同其是獨立通道那樣,按照上述方式進行處理。隨后對得到的事件邊界進行“或”運算,以便確定該通道的事件邊界(boundary)。多個頻段可以是固定頻段,自適應頻段,或者固定頻段和自適應頻段的組合。例如,可采用音頻降噪和其它技術中采用的跟蹤濾波器技術確定自適應頻段(例如,800Hz和2kHz下的同時主正弦波會導致兩個以這兩個頻率為中心的自適應確定的頻段)。雖然可在轉換到頻域之前過濾數據,不過更好的是把全帶寬音頻轉換到頻域,隨后只處理感興趣的那些子頻段分量。就利用FFT轉換全帶寬音頻來說,只會同時處理和感興趣的子頻段對應的sub-bin。
      另一方面,就多個子頻段或多個通道來說,可保存事件邊界信息,而不是對聽覺事件邊界進行“或”運算,這會導致信息的丟失。
      如圖2中所示,數字音頻信號的頻域量值包含Fs/2頻率之外的可用頻率信息,Fs是數字音頻信號的采樣頻率。通過把音頻信號的頻譜分成兩個或多個子頻段(不必具有相同帶寬,也不必達到Fs/2Hz的頻率),可按照和全帶寬聽覺事件檢測方法類似的方式,相對時間分析子頻段。
      子頻段聽覺事件信息提供和音頻信號相關的附加信息,所述附加信息更準確地描述音頻信號,并把該音頻信號和其它音頻信號區(qū)分開。如果音頻簽名信息將被用于從大量的音頻簽名(signature)中識別匹配的音頻信號,那么這種提高的區(qū)別能力是有用的。例如,如圖2中所示,子頻段聽覺事件分析(聽覺事件邊界分辨率為512個采樣)發(fā)現了不同地開始于采樣1024和1536,并不同地終止于采樣2560、3072和3584的多個子頻段聽覺事件。單一的寬帶聽覺情景分析不可能獲得這種程度的信號細節(jié)。
      子頻段聽覺事件信息可用于得到每個子頻段的聽覺事件簽名。雖然這會增大音頻信號的簽名的大小,并且可能增大比較多個簽名所需的計算時間,但是它也可極大地降低錯誤地把兩個簽名列為相同簽名的概率??筛鶕?,實現簽名大小、計算復雜性和信號準確性之間的折衷。另一方面,代替為每個子頻段提供一個簽名,可對聽覺事件進行“或”運算,從而提供單一的一組“組合”聽覺事件邊界(在采樣1024、1536、1560、3072和3584)。雖然這會導致某些信息的丟失,但是它可提供代表組合聽覺事件的單一一組事件邊界,和單一子頻段或寬帶分析的信息相比,所述單一的一組事件邊界提供更多的信息。
      雖然子頻段聽覺事件信息獨自提供有用的信號信息,不過可分析子頻段聽覺事件的位置之間的關系,并使用所述關系更深入地理解音頻信號的本質。例如,子頻段聽覺事件的位置和強度可被用作音頻信號的音質(頻率內容)的指示。子頻段中出現的彼此和諧相關的聽覺事件還可提供關于音頻的和聲本質的有益理解。單個子頻段中聽覺事件的存在也可提供關于音頻信號的音調本質的信息。分析多個通道間的子頻段聽覺事件的關系也可提供空間內容信息。
      就分析多個音頻通道來說,每個通道被獨立分析,每個通道的聽覺事件邊界信息可單獨保留或者可被組合,以便提供組合聽覺事件信息。這和多個子頻段的情況有些類似。參考圖3可更好地理解組合聽覺事件,圖3表示了關于兩通道音頻信號的聽覺情景分析結果。圖3表示了兩個通道中音頻數據的同時片斷。第一通道中音頻的ASA處理(圖3的上面的波形)識別在為512個采樣頻譜曲線組規(guī)模(sample spectral-profile block size)的倍數的采樣(本例中為1024和1536個采樣)處的聽覺事件邊界。圖3的下面的波形是第二通道,ASA處理導致位于同樣是頻譜曲線組規(guī)模的倍數的采樣(本例中為1024、2048和3072個采樣)處的事件邊界。這兩個通道的組合聽覺事件分析導致具有位于采樣1024、1536、2048和3072(對通道的聽覺事件邊界進行“或”運算)的邊界的組合聽覺事件片斷。要認識到,聽覺事件邊界的精確性實際上取決于頻譜曲線組規(guī)模的大小(本例中N為512個采樣),因為事件邊界只能出現于組邊界處。不過,已發(fā)現512個采樣(sample)的組規(guī)模以足以提供滿意結果的精度確定聽覺事件邊界。
      圖3A表示了三個聽覺事件。這些事件包括(1)瞬變(transient)前的音頻的靜止部分,(2)瞬時事件,和(3)音頻瞬變的回波/持續(xù)部分。圖3B中表示了語音信號,所述語音信號具有突出的高頻咝音事件,以及當咝音演化或“形成(morphs)”為元音,元音的前半部和元音的后半部時的事件。
      圖3還表示了當在兩個通道的時間一致的數據組間共享聽覺事件數據時的組合事件邊界。這種事件分割提供五個組合聽覺事件區(qū)(對事件邊界進行“或”運算)。
      圖4表示了四通道輸入信號的例子。通道1和4分別包含三個聽覺事件,通道2和3分別包含兩個聽覺事件。所有四個通道間,時間相同的數據組的組合聽覺事件邊界位于采樣數512、1024、1536、2560和3072,如圖4的下部所示。
      原則上,處理后的音頻可以是數字的或者模擬的,不必被分成組(block)。但是,在實際的應用中,輸入信號可能是由采樣表示的一個或多個通道的數字音頻,其中每個通道中的連續(xù)采樣被分成例如為4096個采樣的組(如上面圖1、3和4的例子中那樣)。在這里陳述的實際實施例中,通過檢查最好代表約20ms或更少音頻的音頻采樣數據組,確定聽覺事件,20ms的音頻被認為是人耳能夠識別的最短聽覺事件。從而,實際上,可通過檢查更大的音頻采樣數據組內例如多個512個采樣塊組,確定組合聽覺事件,所述512個采樣對應于44.1kHz采樣頻率下,約11.6ms的輸入音頻。但是,在本文獻內,當提到檢查音頻數據的片斷,以便檢測聽覺事件邊界時,涉及的是“組”而不是“子組”。由于成組地檢查音頻采樣數據,因此實際上,聽覺事件時間起點和終點邊界必須均與組邊界相符。在實時處理要求(因為較大的組需要較少的處理開銷)和事件位置的分辨率(較小的組提供更詳細的聽覺事件位置信息)之間存在折衷。
      閱讀和理解本發(fā)明的詳細說明,可理解和明白本發(fā)明的其它方面。


      圖1是圖解說明聽覺的單通道管弦樂的理想波形。
      圖2是圖解說明把全帶寬音頻分成子頻段,以便識別子頻段聽覺事件的原理的理想示意原理圖。水平刻度是采樣,垂直刻度是頻率。
      圖3是兩個音頻通道中的一系列理想化波形,表示每個通道中的音頻事件和這兩個通道間的組合音頻事件。
      圖4是四個音頻通道中的一系列理想化波形,表示每個通道中的音頻事件和這四個通道間的組合音頻事件。
      圖5是表示根據本發(fā)明,從音頻信號抽取音頻事件位置和抽取主子頻段(可選)的流程圖。
      圖6是描述根據本發(fā)明的頻譜分析的示意原理圖。
      具體實施例方式
      根據本發(fā)明一個方面的實施例,聽覺情景分析由如圖5的一部分中所示的三個一般處理步驟構成。第一步驟5-1(“執(zhí)行頻譜分析”)獲取時域音頻信號,把時域音頻信號分成組,并計算每組的頻譜曲線(spectral profile)或頻譜內容。頻譜分析把音頻信號變換到短期(short-term)頻域。這可利用任意過濾器組,基于變換或多組帶通濾波器,并且在線性頻率空間或者在卷曲(warped)的頻率空間(例如更接近于人耳特性的Bark標度或臨界頻帶)中實現。對于任意濾波器組來說,存在時間和頻率之間的折衷。時間分辨率越高,從而時間間隔越短,導致頻率分辨率越低。頻率分辨率越高,從而子頻段越窄,導致時間間隔越長。
      如圖6中所示,第一步驟計算音頻信號的連續(xù)時間片斷的頻譜內容。在實際的實施例中,ASA組規(guī)模為輸入音頻信號的512個采樣。在第二步驟5-2中,確定組之間頻譜內容的差別(“執(zhí)行頻譜曲線差別測量”)。從而,第二子步驟計算音頻信號的連續(xù)時間片段之間頻譜內容的差別。如上所述,感知的聽覺事件的起點或終點的有力指示符是頻譜內容的變化。在第三步驟5-3(“識別聽覺事件邊界的位置”)中,當一個頻譜曲線組和下一頻譜曲線組之間的頻譜差別大于閾值時,組邊界被認為是聽覺事件邊界。相鄰邊界之間的音頻片斷構成一個聽覺事件。從而,當連續(xù)時間片段之間的頻譜曲線內容的差別超過閾值時,第三步驟在這樣的連續(xù)時間片段之間設置聽覺事件邊界,從而確定聽覺事件。本實施例中,聽覺事件邊界定義長度為具有一個頻譜曲線組的最小長度(本例中為512采樣)的頻譜曲線組的整數倍的聽覺事件。原則上,無需這樣限制事件邊界。作為這里討論的實際實施例的備選方案,輸入組規(guī)模可以變化,例如以致基本上為聽覺事件的大小。
      事件邊界的位置可保存為簡化信息表征或“簽名”,并根據需要被格式化,如步驟5-4中所示??蛇x的處理步驟5-5(“識別主子頻段”)使用步驟5-1的頻譜分析識別也可保存為簽名一部分的主子頻段。主子頻段信息可和聽覺事件邊界信息組合,以便確定每個聽覺事件的特征。
      音頻的重疊或非重疊片斷都可被開窗(windowed),并被用于計算輸入音頻的頻譜曲線。重疊導致更好的聽覺事件的位置分辨率,并使得不容易錯過某一事件,例如瞬變。但是,重疊也會增大計算復雜性。從而,可忽略重疊。圖6表示了正被開窗,并借助離散傅里葉變換(DFT)轉換到頻域的非重疊512采樣組的原理圖。每個采樣組可被開窗,并通過利用DFT(出于速度的考慮,最好實現為快速傅里葉變換(FFT)),被變換到頻域中。
      下述變量可用于計算輸入組的頻譜曲線N=輸入信號中采樣的數目M=用于計算頻譜曲線的組中的開窗采樣的數目P=頻譜計算重疊的采樣的數目Q=計算的頻譜窗口/區(qū)域的數目一般來說,上述變量可使用任意整數。但是,如果M被設置成等于2的冪,從而標準FFT可用于頻譜曲線計算,那么實現將更為高效。另外,如果N、M和P被選擇成以致Q是一個整數,那么這會在N個采樣的末端,避免欠運行或過運行的音頻。在聽覺情景分析過程的實際實施例中,列舉的參數可被設置為M=512采樣(或者在44.1kHz下為11.6毫秒)P=0采樣(無重疊)
      上面列舉的數值是根據實驗確定的,并且通常發(fā)現能以足夠的精度確定聽覺事件的位置和持續(xù)時間。但是,已發(fā)現把P的值設置為256采樣(50%重疊)而非0采樣有助于識別某些難以發(fā)現的事件。雖然許多不同類型的窗口可被用于使起因于開窗的頻譜非自然信號(artifact)降至最小,不過頻譜曲線計算中使用的窗口是M-pointHanning(漢寧),Kaiser-Bessel或者其它適宜的窗口,最好是非矩形窗口。在大量的實驗分析之后,選擇上面指出的數值和Hanning窗口,因為它們已被證明可在大量的音頻材料范圍內,提供極好的結果。對于低頻率內容占主要的音頻信號的處理來說,優(yōu)選非矩形開窗。矩形開窗產生頻譜非自然信號,會導致事件的不正確檢測。和整體重疊/相加過程必須提供恒定電平的某些編碼器/解碼器(編譯碼器)應用不同,這種約束條件不適用于此,可關于特征,例如其時間/頻率分辨率和帶阻(stop band rejection)選擇窗口。
      在步驟5-1(圖5)中,通過利用M-point Hanning,Kaiser-Bessel或者其它適宜的窗口對數據開窗,利用M-point快速傅里葉變換轉換到頻域,并計算復數FFT系數的量值(magnitude),可計算每個M-采樣組的頻譜。所得到的數據被歸一化,從而最大的量值被置為1,M個數字的歸一化陣列被轉換到對數(log)域。該陣列不必被轉換到對數域(log domain),但是該轉換簡化了步驟5-2中差別量度的計算。此外,對數域更緊密地和人類聽覺系統的本質相符。得到的對數域數值的范圍為-∞到零。在實際的實施例中,可對該范圍的數值施加一個下限;該下限可以是固定的,例如-60dB,或者可和頻率相關,以便反映低頻率和甚高頻下靜寂聲音的較低可聽度。(注意也可把陣列的大小減小到M/2,因為FFT代表負頻率以及正頻率)。
      步驟5-2計算相鄰組的頻譜之間的差別的量度(measure)。對于每組,從前一組的對應系數減去步驟5-1得到的M(對數)頻譜系數中的每個系數,并計算差別的量值(忽略符號)。隨后把這M個差值加和成一個數字。從而,對于音頻的包含Q組的連續(xù)時間片斷,結果是一組Q個正數,每個數字用于一個組。數字越大,采樣組和前一采樣組在頻譜方面的差別越大。通過把差別量度除以求和中使用的頻譜系數的數目(這種情況下,M個系數),也可用每個頻譜系數的平均差別表示該差別量度。
      步驟5-3通過對步驟5-2的具有閾值的該組差別量度應用閾值,確定聽覺事件邊界的位置。當差別量度超過閾值時,認為頻譜方面的變化足以表示新的事件,該變化的組編號被記錄為事件邊界。對于上面給出的M和P的數值,以及對于以dB為單位表示的對數域數值(步驟5-1中),如果比較整個量值FFT(包括鏡像部分),那么閾值可被設置為2500,如果比較1/2FFT(如上所述,FFT代表負頻率及正頻率-對于FFT的量值來說,一個量值是另一量值的鏡像),則閾值可被置為1250。根據實驗選擇該數值,該數值提供良好的聽覺事件邊界檢測??筛淖冊搮抵担员憬档?增大閾值)或者增加(降低閾值)事件的檢測。
      對于由Q組(每組M個采樣)構成的音頻信號,圖5的步驟5-3的輸出可被保存,并在步驟5-4中格式化成表示聽覺事件邊界的位置的信息陣列B(q),q=0,1,…,Q-1。對于M=512個采樣的組規(guī)模,P=0采樣的重疊以及44.1kHz的信號采樣速率來說,聽覺情景分析子例程2每秒大約輸出86個數值。陣列B(q)最好被保存為簽名,從而就其基本形式來說(無步驟5-5的可選主子頻段頻率信息),音頻信號的簽名是代表一串聽覺事件邊界的陣列B(q)。
      識別主子頻段(可選)對于每個組,圖5的處理中的可選附加步驟是從音頻信號抽取指示該組的主頻率“子頻段”的信息(每組中的數據向頻域的轉換導致分到子頻段中的信息)?;诮M的信息可被轉換成基于聽覺事件的信息,從而關于每個聽覺事件識別主子頻段。每個聽覺事件的這種信息提供和聽覺事件本身相關的信息,并且有助于提供音頻信號的更詳細并且獨特的簡化信息表現。在確定全帶寬音頻的聽覺事件的情況下,而不是把音頻分為多個子頻段,確定每個子頻段的聽覺事件的情況下,采用主子頻段信息更恰當。
      可從位于人耳最敏感的頻率范圍或頻段內的多個子頻段,例如3個或4個子頻段,選擇主要的(最大振幅)子頻段。另一方面,可使用其它標準來選擇子頻段。例如,頻譜可被分成三個子頻段。子頻段的有用頻率范圍是(這些特定頻率不是關鍵性的)子頻段1300Hz~550Hz子頻段2550Hz~2000Hz子頻段32000Hz~10000Hz為了確定主子頻段,為每個子頻段計算量值頻譜(或者功率量值頻譜)的平方和。計算每個子頻段的最終和數,并選擇最大的和數。在選擇最大的和數之前,子頻段也可被加權。加權可采取把每個子頻段的和數除以該子頻段中頻譜數值的數目的形式,或者可采取加法或乘法的形式,以強調某一頻段和另一頻段相比的重要性。在一些子頻段平均具有比其它子頻段更大的能量,但是在感知上不太重要的情況下,這是有用的。
      考慮由Q組構成的音頻信號,主子頻段處理的輸出是代表每組中的主子頻段的信息陣列DS(q)(q=0,1,…Q-1)。陣列DS(q)最好被格式化并和陣列B(q)一起保存在簽名中。從而,借助可選的主子頻段信息,音頻信號的簽名是兩個陣列B(q)和DS(q),分別代表一串聽覺事件邊界和每組內的主子頻段,如果需要,可根據其確定每個聽覺事件的主子頻段。從而,在理想化例子中,這兩個陣列可具有下述數值(對于存在三個可能的主子頻段的情況)。
      10100010010000010(事件邊界)11222211133333311(主子頻段)多數情況下,主子頻段(dominant subband)在每個聽覺事件內保持相同,如本例中所示,或者如果對于事件內的所有組來說,它是不均勻的,則具有平均值。從而,可為每個聽覺事件確定一個主子頻段,陣列DS(q)可被修改,以保證相同的主子頻段被分配給事件內的每組。
      可借助圖7、8和9的等同方案更一般地表示圖5的過程。在圖7中,平行于把音頻信號分成聽覺事件(每個聽覺事件會被獨立并且截然不同地感知)的“識別聽覺事件”子例程(function)或步驟7-1,以及平行于可選的“識別聽覺事件的特征”子例程或步驟7-2,應用音頻信號??刹捎脠D5的過程把音頻信號分成聽覺事件,或者可采用其它一些適當的方法。根據需要,“保存和格式化”子例程或步驟7-3保存和格式化子例程或步驟7-1確定的聽覺事件信息(可以是聽覺事件邊界的標識)。可選的“識別特征”子例程或步驟7-3還接收聽覺事件信息?!白R別特征”子例程或步驟7-3可借助一個或多個特征表征一些或全部聽覺事件。如同結合圖5的過程說明的那樣,這種特征可包括聽覺事件的主子頻段的標識。特征還可包括一個或多個MPEG-7音頻描述符,例如包括聽覺事件的功率的量度(measure),聽覺事件的振幅的量度,聽覺事件的頻譜平直性的量度,以及聽覺事件是否基本寂靜(silent)。特征還可包括其它特征,例如聽覺事件是否包括瞬變。一個或多個聽覺事件的特征還被“保存和格式化”子例程或步驟7-3接收,并和聽覺事件信息一起被保存和格式化。
      圖8和9中表示了圖7的方案的備選方案。在圖8中,并不直接把音頻輸入信號提供給“識別特征”子例程或步驟8-3,而是“識別特征”子例程或步驟8-3從“識別聽覺事件”子例程或步驟8-1接收信息。圖5的方案是這種方案的具體例子。在圖9中,串聯排列子例程或步驟9-1、9-2和9-3。
      該實際實施例的細節(jié)并不關鍵。可采用其它方式計算音頻信號的連續(xù)時間片斷的頻譜內容,計算連續(xù)時間片斷之間的差別,當連續(xù)時間片斷之間頻譜曲線內容的差異超過閾值時,在這樣的連續(xù)時間片斷之間的相應邊界設置聽覺事件邊界。
      應明白對于本領域的技術人員來說,本發(fā)明的其它變化和修改的實現及本發(fā)明的各個方面是顯而易見的,本發(fā)明不受描述的這些具體實施例限制。于是,本發(fā)明意圖覆蓋落入這里公開和要求的基本原理的精神和范圍內的任意修改、變化或等同物。
      本發(fā)明及其各個方面可實現為在數字信號處理器,程控通用數字計算機和/或專用數字計算機中執(zhí)行的軟件子例程??捎眠m當的硬件和/或作為軟件和/或固件中的子例程,實現模擬和數字信號流之間的接口。
      權利要求
      1.一種產生音頻信號的簡化信息表現的方法,包括把音頻信號分成被感知為獨立的并且不同的聽覺事件,和格式化并保存與所述聽覺事件相關的信息。
      2.按照權利要求1所述的方法,其中所述格式化和保存格式化并保存聽覺事件邊界。
      3.按照權利要求2所述的方法,其中所述方法還包括向一個或多個所述聽覺事件分配特征,所述格式化和保存還格式化并保存這樣的聽覺事件特征。
      4.按照權利要求3所述的方法,其中可向一個或多個所述聽覺事件分配的特征包括下述一個或多個聽覺事件的頻譜的主子頻段,聽覺事件的功率的量度,聽覺事件的振幅的量度,聽覺事件的頻譜平直性的量度,聽覺事件是否基本寂靜,以及聽覺事件是否包括瞬變。
      5.按照權利要求1-4任一所述的方法,其中把音頻信號分成聽覺事件包括計算所述音頻信號的連續(xù)時間組的頻譜內容,計算所述音頻信號的連續(xù)時間組之間頻譜內容的差別,和當這樣的連續(xù)時間組之間的頻譜內容的差別超過閾值時,把聽覺事件邊界識別為連續(xù)時間組之間的邊界。
      6.一種把音頻信號分成被感知為獨立的并且不同的聽覺事件的方法,包括計算所述音頻信號的連續(xù)時間組的頻譜內容,計算所述音頻信號的連續(xù)時間組之間頻譜內容的差別,和當這樣的連續(xù)時間組之間的頻譜內容的差別超過閾值時,把聽覺事件邊界識別為連續(xù)時間組之間的邊界。
      7.按照權利要求6所述的方法,其中所述音頻信號是由采樣表示的數字音頻信號,計算音頻信號的頻譜內容包括對代表音頻信號的數據開窗,把所述數據轉換到頻域,和使頻域數據歸一化。
      8.按照權利要求7所述的方法,其中所述計算還包括把歸一化的頻域數據轉換到對數域。
      9.按照權利要求7或8所述的方法,其中計算頻譜內容的差別包括從前一組的對應系數減去當前組的每個頻譜系數,計算每個差別的量值,并關于各組,把差值加和成一個數值。
      10.按照權利要求9所述的方法,其中設置聽覺事件包括當當前組的數值和前一組的數值的差值大于閾值時,把該組記錄為事件邊界。
      11.按照權利要求5所述的方法,其中以把所述信號分成聽覺事件為基礎,所述方法產生所述音頻信號的簡化信息表現,還包括格式化并保存所述聽覺事件邊界。
      12.按照權利要求5所述的方法,其中所述方法還包括識別每個所述聽覺事件的主子頻段。
      13.按照權利要求12所述的方法,其中以把所述信號分成聽覺事件為基礎,所述方法產生所述音頻信號的簡化信息表現,還包括格式化并保存所述聽覺事件邊界和每個所述聽覺事件的主子頻段的標識。
      14.按照權利要求5所述的方法,其中所述音頻信號被分成兩個或更多子頻段,關于多個子頻段中的每個子頻段,計算所述音頻信號的連續(xù)時間組的頻譜內容,關于多個子頻段中的每個子頻段,計算所述音頻信號的連續(xù)時間組之間頻譜內容的差別,并且當連續(xù)時間組之間頻譜內容的差別超過任意子頻段中的閾值時,在連續(xù)時間組之間的邊界設置子頻段的聽覺事件邊界。
      15.按照權利要求5所述的方法,其中所述音頻信號被分成兩個或更多子頻段,關于多個子頻段中的每個子頻段,計算所述音頻信號的連續(xù)時間組的頻譜內容,關于多個子頻段中的每個子頻段,計算所述音頻信號的連續(xù)時間組之間頻譜內容的差別,并且當連續(xù)時間組之間頻譜內容的差別超過任意子頻段中的閾值時,在連續(xù)時間組之間的邊界設置音頻信號的組合聽覺事件邊界。
      16.一種把音頻信號分成被感知為獨立的并且不同的聽覺事件的方法,包括計算所述音頻信號的連續(xù)時間組的頻譜內容和振幅內容,計算所述音頻信號的所述連續(xù)時間組之間頻譜內容和振幅內容的差別,當連續(xù)時間組之間頻譜內容的差別超過閾值時,或者當連續(xù)時間組之間振幅內容的差別超過閾值時,把聽覺事件邊界看作連續(xù)時間組之間的邊界。
      17.一種把多通道音頻信號分成被感知為獨立的并且不同的聽覺事件,或者多部分聽覺事件的方法,包括計算每個通道中,音頻信號的連續(xù)時間組的頻譜內容,計算每個通道中,所述音頻信號的所述連續(xù)時間組之間頻譜內容的差別,當任意通道中,所述音頻信號的連續(xù)時間組之間頻譜內容的差別超過閾值時,把組合聽覺事件邊界看作連續(xù)時間組之間的邊界。
      18.一種把多通道音頻信號分成被感知為獨立的并且不同的聽覺事件,或者多部分聽覺事件的方法,包括計算每個通道中,音頻信號的連續(xù)時間組的頻譜內容和振幅內容,計算每個通道中,所述音頻信號的所述連續(xù)時間組之間頻譜內容和振幅內容的差別,當任意通道中,所述音頻信號的連續(xù)時間組之間頻譜內容的差別超過閾值時,或者當任意通道中,所述音頻信號的連續(xù)時間組之間振幅內容的差別超過閾值時,把組合聽覺事件邊界看作連續(xù)時間組之間的邊界。
      19.按照權利要求17或18所述的方法,其中相應通道中的音頻代表相應的空間方向。
      全文摘要
      一方面,通過計算音頻信號的連續(xù)時間組的頻譜內容(5-1),計算音頻信號的連續(xù)時間組之間頻譜內容的差別(5-2),并且當這樣的連續(xù)時間組之間頻譜內容的差別超過閾值時,把聽覺事件邊界看作連續(xù)時間組之間的邊界(5-3),本發(fā)明把音頻信號分成被感知為獨立的并且不同的聽覺事件。另一方面,通過把音頻信號分成被感知為獨立的并且不同的聽覺事件,格式化并保存和聽覺事件相關的信息(5-4),本發(fā)明產生音頻信號的簡化信息表現。可選的是,本發(fā)明還可向一個或多個聽覺事件指定特征(5-5)。
      文檔編號G10L15/04GK1524258SQ02810671
      公開日2004年8月25日 申請日期2002年2月26日 優(yōu)先權日2001年5月25日
      發(fā)明者布萊特·G·克羅克特, 布萊特 G 克羅克特 申請人:多爾拜實驗特許公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1