專利名稱:雙路立體聲信號處理技術(shù)的制作方法
相關(guān)申請的交叉參考該申請是下述申請的繼續(xù)部分申請共有的、申請中的、Feng等等的美國專利申請?zhí)朜o 08/666,757,發(fā)布于1996.6.19,名為BINAURAL SIGNAL PROCESSING SYSTEM AND METHOD。
背景技術(shù):
本發(fā)明針對聲學(xué)信號的處理,特別的,但不是唯一的,涉及對不同聲源發(fā)出的聲學(xué)信號進行定位和提取。
在干擾信號存在的情況下提取期望信號的困難是聲學(xué)工程師所面臨的一個長期存在的問題。該問題影響了多種設(shè)備,如用于聲音識別和消息采集的系統(tǒng)的設(shè)計和構(gòu)造。特別麻煩的是,在助聽設(shè)備中,將期望的聲音與不想要的聲音分離。一般的,當(dāng)期望聲音被附近聲源的噪聲污染,尤其是當(dāng)噪聲很強時,助聽設(shè)備并不允許對期望聲音的選擇性放大。當(dāng)期望的聲音是語音信號,而附近的噪聲也是多個說話者產(chǎn)生的語音信號(例如,嘮叨)時問題更加嚴重。如這里所使用的,“噪聲”指隨機的,或不確定的信號,另外可選的,指任何干擾期望信號接收的信號或不期望的信號。
解決該問題的一個嘗試是采用一個高度定向的麥克風(fēng)來增強助聽接收機的方向性。該方法僅有有限的能力。結(jié)果是,采用了譜減法,梳狀濾波器和語音產(chǎn)生模型來增強單個麥克風(fēng)的性能。然而,這些方法仍然不能提高期望語音信號的清晰度,當(dāng)信號和噪聲源很近時尤其是這樣。
另外一種方法安排了一些麥克風(fēng),它們按選出的空間關(guān)系排列以形成一種方向檢測束。不幸的是,當(dāng)受阻于助聽設(shè)備的實際尺寸時,波束形成陣列分離接近信號的能力也有限,尤其是噪聲強于期望語音信號時會這樣。此外,在較小回響環(huán)境中,一個噪聲源的情況下,束形成器提供的噪聲削減隨著噪聲源與麥克風(fēng)陣列的相對位置而變化。R.W Stadler和W.M Rabinowitz,的on the Potential ofFixed Array for Hearing Aids(關(guān)于固定陣列在助聽器中的應(yīng)用前景),94 Journal Acoustical Society of America 1332(1993.9)以及w.Soede等人的Development of a Directional HearingInstrument Based on Array Technology(基于陣列技術(shù)的指向性聽力儀器的發(fā)展),94 Journal Acoustical Society of America785(1993.8)被列舉作為關(guān)于束形成方法的附加背景。
另一種使用兩個不同位置的麥克風(fēng)來給出兩個信號以仿真雙路立體聲系統(tǒng)某些方面的方法已經(jīng)被申請,其中的立體聲系統(tǒng)對于人類和多種動物來說是常見的。盡管雙路立體聲的某些生物方面還沒有完全搞清楚,要相信定位聲源的能力基于聽覺系統(tǒng)對于下面參數(shù)的評估與兩個聲音信號中每一個相關(guān)的雙路立體聲時間延遲和不同頻帶上的聲音大小。基于耳間時間和強度差值的系統(tǒng)對聲源的定位方法在W.Lindemann的Extension of a Binaural Cross-CorrelationModel by Contralateral Inhibition-I Simulation ofLateralization for Stationary Signals(用反邊音對雙耳互相關(guān)模型擴展-I對靜止信號的頭側(cè)定位的模擬),80 Journal of theAcoustical Society of America 1608(1998.12)中討論。
基于來自兩個麥克風(fēng)的輸入進行多聲源定位面臨幾個明顯的挑戰(zhàn),例如,一旦聲源被定位,該期望信號被分離出來。例如,在MarkusBodden,的Modeling Human Sound-Source Localization and theCocktail-Party-Effect(模擬人聲源定位和雞尾酒會效應(yīng)),ActaAcoustica 43(1993 2/4)提出的系統(tǒng)采用了包括窗處理的Wiener濾波器,試圖一旦期望信號的位置被建立,就能從雙路立體聲輸入信號中得到期望的信號。不幸的是,該方法導(dǎo)致期望語音保真度的明顯惡化。而且,該系統(tǒng)僅僅被證明在至少為30度的方位角分隔的情況下抑制了等同于期望信號強度的噪聲。與期望聲源間隔小于30度的聲源所發(fā)出的更強的噪聲仍然是一個問題。此外,所建議的Bodden系統(tǒng)算法計算量很大-所以它是否能實際應(yīng)用于助聽設(shè)備中是一個嚴重的問題。
另一個雙麥克風(fēng)系統(tǒng)的例子可以在下面文章中找到D.Banks,的Localization and Separation of Simultaneous Voiceswith Two Microphones(用兩個話筒對同時發(fā)生的聲音定位和分離),IEE Proceeding-I,140(1993)。當(dāng)聲源的譜與干擾噪聲譜相比沒有重疊區(qū)域時,該系統(tǒng)采用窗技術(shù)來估計聲源的位置。當(dāng)沒有這種重疊的寬帶信號被涉及時,該系統(tǒng)不能進行定位。此外,Banks的文章沒有給出用于重構(gòu)期望信號的算法細節(jié)。Lindemann的美國專利5,479,322。Soli的5,289,544,F(xiàn)ranklin的5,325,436,Zwicker的4,773,095作為涉及雙麥克風(fēng)助聽系統(tǒng)的額外背景文獻在此給出。
導(dǎo)致高于某些和輸入麥克風(fēng)間隔有關(guān)的頻率的模糊定位信息常常阻礙了有效的定位。該問題在下面文章中被提及Stern,R.M.Zeiberg,A.S和Trahiotis,C.“Lateralization of ComplexBinaural StimuliA Weighted-image Model(對綜合雙耳刺激的頭側(cè)定位加權(quán)圖形模型),”J.Acoust Soc Am.84,156-165(1988)。
這樣,一直需要一種更有效的定位和提取技術(shù)-尤其是用于雙路立體聲系統(tǒng)。該發(fā)明滿足這些需要,并給出其它明顯的有益之處和優(yōu)點。
發(fā)明概要本發(fā)明涉及聲學(xué)信號的處理。本發(fā)明的各個方面都是新的,并非顯而易見的,并給出多種優(yōu)點。這里涉及的本發(fā)明的實質(zhì)僅僅能通過附件的權(quán)利要求來確定,這里給出的優(yōu)選實施方案的選出形式和特征將被簡要描述如下。
本發(fā)明的一種形式包括一種獨特的信號處理技術(shù)用于定位并表征一些不同定位聲源中的每一個。這種形式可能包括兩個不同位置的傳感器來檢測聲源的聲學(xué)輸出。每個或一個特定的選出聲源可以被提取,而抑制其它聲源的輸出。多種應(yīng)用可以得益于該技術(shù),包括助聽器,聲音位置映射或跟蹤設(shè)備,以及聲音識別裝置等等。
在另一種形式下,第一聲學(xué)傳感器給出第一信號,與第一聲學(xué)傳感器位置不同的第二聲學(xué)傳感器給出第二聲學(xué)信號。第一和第二信號都對應(yīng)于兩個或多個聲源的組合,即包括多個干擾源和一個期望源。通過處理第一種第二信號,干擾源被定位,并給出對應(yīng)數(shù)量的干擾源信號。這些信號包括一些頻率分量。對于每個干擾源信號,一個或多個頻率分量被抑制。在兩個輸入傳感器的情況下,該方法有利于消除每個噪聲源中的不同頻率分量。
本發(fā)明的另一種形式是一種處理系統(tǒng),該系統(tǒng)有一對傳感器和一個延遲操作器,對應(yīng)于來自傳感器的一對輸入信號,該延遲器產(chǎn)生一些延遲后的信號。該系統(tǒng)還有一個定位操作器,該操作器對應(yīng)于延遲信號,相對于傳感器的位置來定位干擾源,并給出多個干擾源信號,每個信號由一些頻率分量表示。該系統(tǒng)還包括一個提取操作器,對于每個干擾源信號,該操作器抑制選出頻率分量的作用,并且它還提取對應(yīng)于期望源的期望信號。對應(yīng)于期望信號,輸出設(shè)備還包括給出表示期望源的輸出。該系統(tǒng)還可以引入一個與傳感器連接的信號處理器以便當(dāng)提取期望信號時,便于定位并抑制多個噪聲源。
另一種形式對應(yīng)于聲源的位置加頻率屬性,它包括放置第一聲學(xué)傳感器和第二聲學(xué)傳感器來檢測多個不同定位的聲源。第一和第二信號分別由第一和第二傳感器產(chǎn)生,這兩個傳感器接收聲源的激勵信號。根據(jù)第一和第二信號,系統(tǒng)給出一些延遲后的信號對,每個信號對應(yīng)于相對于第一和第二傳感器的一些位置中的一個。這些聲源被按照延遲信號對和一些一致模板的函數(shù)來定位。這些模板是針對位置和頻率的,并可以被用來識別并且據(jù)此計算位置數(shù)據(jù)估計值,這些估計值對應(yīng)于每個真實的聲音位置。其結(jié)果是,這些模板可以作為濾波器工作以給出更好的定位分辨率并消除偽數(shù)據(jù)。
在另一種形式中,系統(tǒng)包括兩個傳感器,每個被配置來產(chǎn)生對應(yīng)的第一或第二輸入信號,系統(tǒng)還包括一個延遲器,對應(yīng)于這些信號,該延遲器產(chǎn)生一些延遲信號,這些信號對應(yīng)于相對于傳感器的一些位置中的一個。該系統(tǒng)還包括一個定位操作器,該操作器對應(yīng)于延遲信號來確定一些聲源定位信號。這些定位信號是根據(jù)對應(yīng)于其中一個位置的延遲信號和一些一致模板確定的。該模板使得模糊相位乘法造成的頻率變化聲源定位信息與對應(yīng)位置相關(guān)以提高聲源定位。該系統(tǒng)還有一個輸出設(shè)備,對應(yīng)于定位信號,該設(shè)備給出對應(yīng)于至少一個聲源的輸出。
另一種形式用兩個傳感器給出對應(yīng)的雙路立體聲信號,根據(jù)該信號,可以按時間的函數(shù)建立第一聲源與第二聲源的相對分離,并且第一聲源的期望聲學(xué)信號的譜值可以被代表性的提取。同時可以進行期望聲學(xué)信號的譜值的定位和識別。這種形式即使在附近的噪聲源具有很大的相對強度的情況下,也能成功地提取期望的聲學(xué)信號。
本發(fā)明的另一種形式采用不同位置的第一和第二傳感器來給出聲學(xué)信號的雙路立體聲表示,其中的聲學(xué)信號包括從選出聲源發(fā)出的信號和從幾個干擾源發(fā)出的干擾信號。根據(jù)傳感器信號,處理器產(chǎn)生一個離散的第一譜信號和第二譜信號。該處理器以一些時間間隔延遲第一和第二譜信號以產(chǎn)生一些延遲后的第一信號和第二信號并給出一個時間遞增信號。時間遞增信號對應(yīng)于選定聲源與噪聲源的分離。處理器按照時間遞增信號的函數(shù)來產(chǎn)生輸出信號,輸出設(shè)備對應(yīng)于輸出信號給出表示期望信號的輸出。
另外一種形式包括相對于第一信號源放置第一和第二傳感器,第一和第二傳感器放置在不同位置,第二信號源與第一信號源放置在不同位置。第一信號由第一傳感器提供,第二信號由第二傳感器提供。第一和第二信號都表示一個組合聲學(xué)信號,該信號包括來自第一信號源的期望信號和來自其它聲源的不期望信號。按照頻率的函數(shù),根據(jù)第一和第二信號可以建立一些譜信號。一些代表第二信號源位置的譜信號被確定,并且根據(jù)這些代表第一信號源的信號產(chǎn)生輸出信號。這一特征方便了從譜信號中提取期望信號的操作,這種操作是干擾源定位的一部分。這種方法避免了許多雙路立體聲系統(tǒng)來提取期望信號所需的繁重的后定位計算。
因此,本發(fā)明的一個目標是給出增強的多聲源定位。
另一個目標是從一些干擾源造成的噪聲環(huán)境中提取期望的聲學(xué)信號。
又一個目標是通過兩個不同位置的傳感器來檢測這些信號的組合從而定位并提取聲學(xué)信號的系統(tǒng)。
從這里給出的詳細附圖和描述中,本發(fā)明的其它實施方案,目標,特征,方面,益處,形式和優(yōu)點都會變的很明白。
附圖簡要描述
圖1是本發(fā)明一個實施方案的示意圖。
圖2是進一步描述圖1中系統(tǒng)的選定部分的信號流圖。
圖3是圖2的雙路延遲線的示意表示。
圖4A和4B描述了分別對應(yīng)于助聽?wèi)?yīng)用和計算機聲音識別應(yīng)用的本發(fā)明的其它實施方案。
圖5是大約兩秒長的句子表示的語音信號。
圖6是在OdB信噪比情況下,以及干擾噪聲源相對于語音信號源位于大多60度方位角的情況下,包括圖5的干擾噪聲和語音信號的組合信號圖。
圖7是從圖6中組合信號中提取之后的表示圖5的語音信號的信號圖。
圖8是在-30dB信噪比情況下,以及干擾噪聲源相對于語音信號源位于大約2度方位角的情況下,包括圖5的干擾噪聲和語音信號的組合信號圖。
圖9是從圖8中組合信號中提取之后的表示圖5的語音信號的信號圖。
圖10是本發(fā)明另一個實施方案的信號流圖。
圖11是更詳細表示圖10中雙路延遲線選出部分的部分信號流圖。
圖12是為其中一個示例聲源說明圖10中給出的實施方案的選定幾何特征的圖。
圖13是更詳細說明圖10中定位器選定方面的信號流圖。
圖14是說明本發(fā)明另一個實施方案的圖。
圖15是進一步說明圖14中實施方案的選定方面的流程圖。
圖16是更詳細說明圖15中定位器選定方面的信號流圖。
圖17是兩個聲源的重合根軌跡圖。
圖18是對應(yīng)于-75°,0°,20°和75°的方位角的一致模板。
圖19-22是描述本發(fā)明實驗結(jié)果的表格。
選定實施方案的描述為了促使對本發(fā)明原理的理解,下面將參考附圖中的實施方案,特定的語音將用于描述該實施方案。然而要理解的是,這里并不傾向于限制本發(fā)明的范圍。所描述實施方案的任何改變和修正以及如這里所描述的本發(fā)明原理的其它應(yīng)用對于本領(lǐng)域的技術(shù)人員來說都應(yīng)該認為是與本發(fā)明相關(guān)的。
圖1說明了本發(fā)明的一個實施方案的聲學(xué)信號處理系統(tǒng)10。系統(tǒng)10被配置來從聲源12中提取期望的聲學(xué)信號,而不管附近聲源14發(fā)出的干擾或噪聲。系統(tǒng)10包括一對聲學(xué)傳感器22,24被配置用來檢測聲學(xué)激勵,該激勵信號包括來自聲源12,14的信號。傳感器22,24與處理器30操作性連接,用來處理所接收的信號。而且,處理器30與輸出設(shè)備90操作性相連以給出表示來自聲源12的期望信號的信號,其中與來自聲源12,14的傳送給傳感器22,24的組合聲學(xué)信號相比,聲源14中的干擾被降低。
傳感器22,24沿橫軸T相隔距離D放置。中點M表示沿距離D從傳感器22到24的半程點。參考軸R1與聲源12對齊并通過中點M與軸T垂直相交。軸N與聲源14對齊,并且也與M相交。軸N被放置成與參考軸R1形成角度A。圖1給出大約20的角A。明顯的,參考軸R1可以被選擇來在方位角平面定義一個0度的參考方位角,其中的方位角平面與聲源12,14,傳感器22,24相交,并包括軸T,N,R1。結(jié)果是,聲源12在軸上,而與軸N平行的聲源14為軸外。聲源14與聲源12形成大約20度的方位角。
最好的是,傳感器22,24相對固定,并被配置用來前后移動以便相對于期望的聲學(xué)信號源選擇性地定位參考軸R1。最好的是,傳感器22,24可以是傳統(tǒng)的多種形式的麥克風(fēng),例如全向動態(tài)麥克風(fēng)。在另一個實施方案中,如對于該領(lǐng)域中技術(shù)人員會發(fā)生的那樣,不同的類型的傳感器可以被使用。
再次參考圖2,這里給出圖1中實施方案的各個處理階段的信號流圖。傳感器22,24給出模擬信號Lp(t)和Rp(t),分別對應(yīng)于左傳感器22和右傳感器24。信號Lp(t)和Rp(t)最初以不同的處理通道L和R輸入給處理器30。對于每個信道L,R,信號Lp(t)和Rp(t)在級32a,32b中被調(diào)節(jié)并濾波以降低偏移。在濾波級32a和32b之后,調(diào)節(jié)后的信號Lp(t)和Rp(t)被輸入給對應(yīng)的模數(shù)轉(zhuǎn)換器(A/D)34a和34b以給出離散信號Lp(k),Rp(k),其中k為離散采樣事件的索引。在一個實施方案中,A/D級34a,34b以至少兩倍于音頻范圍上限的頻率對信號Lp(t)和Rp(t)采樣以保證輸入信號的高保真性。
離散信號Lp(k)和Rp(k)通過級36a,36b中的短時離散傅里葉變換(DFT)算法從時域變換到頻域以給出復(fù)數(shù)信號XLp(m)和XRp(m)。在級36a,36b中,信號XLp(m)和XRp(m)在離散頻率fm上計算,其中m是離散頻率的索引(m=1到M),索引p表示短時譜分析時間幀。索引p按倒時序排列,最近的時間幀索引為p=1,下一個最近時間幀為p=2,以此類推。最好的是,頻率M包含可聽頻率范圍,短時分析中采用的一些樣本被選出,以便在處理速度限制和所產(chǎn)生輸出信號的期望分辨率之間達到最佳平衡。在一個實施方案中,0.1到6KHz的音頻在A/D級34a,34b中以至少12.5KHz的頻率被采樣,這時每個短時譜分析時間幀有512個樣本。在另一個可選實施方案中,可以由在A/D級34a,34b之前采用的模擬濾波器組提供頻域分析。應(yīng)該理解的是,譜信號XLp(m)和XRp(m)可以表示為1*M維的數(shù)組,其中的1*M維對應(yīng)于不同的頻率fm。
如在圖3中進一步詳述的,譜信號XLp(m)和XRp(m)被輸入給雙路延遲線40。圖3給出了兩個延遲線42,44,每條延遲線具有N個延遲級。每條延遲線42,44都配置了延遲級D1到DN。延遲線42,44被配置來在相反的方向從一個延遲級到另一個延遲級來延遲對應(yīng)的輸入信號,通常對應(yīng)于與自然雙路收聽過程相關(guān)的雙路收聽通道。延遲級D1,D2,D3,…,DN-2,DN-1和DN每一個都以對應(yīng)的時間延遲增量τ1,τ2,τ3,…,τN-1,τN(集中由τi表示)來延遲輸入信號,其中索引i從左到右增加。對于延遲線42,XLp(m)可以由XLp1(m)表示。XLp1(m)由時間延遲增量τ1,τ2,τ3,…,τN-1,τN延遲以便在延遲線42的抽頭處產(chǎn)生延遲后的輸出,它們分別由XLp2(m),XLp3(m),XLp4(m),…,XLpN-1(m),XLpN(m)和XLpN+1(m)表示(由XLpi(m)集總表示)。對于延遲線44,XRp(m)可替換表示為XRpN+1(m)。XRpN+1(m)然后被時間延遲增量τ1,τ2,τ3,…,τN-1,τN延遲以便在延遲線44的抽頭處產(chǎn)生延遲輸出,它們分別表示為XRpN(m),XRpN-1(m),XRpN-2(m),…,XRp3(m),XRp2(m)和XRp1(m)(集中由XRpi(m)表示)。輸入譜信號和來自延遲線42,44抽頭的信號被安排為操作陣列46的輸入對,來自延遲線42,44的抽頭對被表示為圖3的輸入對P。
操作陣列46具有編號為1到N+1的操作單元(OP),表示為OP1,OP2,OP3,OP4,…,OPN-2,OPN-1,OPN,OPN+1,并集中表示為OPi。來自延遲線42,44的輸入對對應(yīng)于操作陣列46。如下所示OP1[XLp1(m),XRp1(m)],OP2[XLp2(m),XRp2(m)],OP3[XLp3(m),XRp3(m)],…,OPN-2[XLpN-2(m),XRpN-2(m)],OPN-1[XLpN-1(m),XRpN-1(m)],OPN[XLpN(m),XRpN(m)],OPN+1[XLpN+1(m),XRpN+1(m)]表示,其中OPi[XLpi(m),XRpi(m)]表示OPi按照輸入對XLpi(m),XRpi(m)的函數(shù)被確定。因此,操作陣列46的輸出為Xp1(m),Xp2(m),Xp3(m),…,XpN-2(m),XpN-1(m),XpN(m),XpN+1(m)(集中表示為Xpi(m))對于i=1到i≤N/2,對于陣列46的每個OPi的操作可以根據(jù)下面的復(fù)數(shù)表達式(CE1)確定Xpi(m)=XLpi(m)-XRpi(m)exp[-j2π(τi+…+τN/2)fm]·exp[j2π(τ((N/2)+1)+…+τ(N-i+1))fm],]]>其中exp[參數(shù)]表示參數(shù)的自然指數(shù)冪,虛數(shù)j是-1的平方根。對i>(N/2+1)到i=N+1,操作陣列46的操作是根據(jù)下述的復(fù)數(shù)表達式2(CE2)確定的,Xpi(m)=XLpi(m)-XRpi(m)exp[j2π(τ((N/2)+1)+…+τ(i-1))fm]-exp[-j2π(τ(N-i+2)+…+τN/2)fm],]]>其中exp[參數(shù)]表示參數(shù)的自然指數(shù)冪,虛數(shù)j是-1的平方根。對i=(N/2+1),CE1和CE2都不會執(zhí)行。
對于N=4(i=1到i=N+1),確定操作的例子如下所示i=1,CE1如下所示Xpl(m)=XLp1(m)-XRpl(m)exp[-j2π(τ1+τ2)fm]-exp[j2π(τ3+τ4)fm];]]>i=2≤(N/2),CE1如下所示Xp2(m)=XLp2(m)-XRp2(m)exp[-j2π(τ2)fm]-exp[j2π(τ3)fm];]]>
i=3不適用,(N/2)<i≤(N/2+1)i=4,CE2如下所示Xp4(m)=XLp4(m)-XRp4(m)exp[j2π(τ3)fm]-exp[-j2π(τ2)fm];]]>和,i=5,CE2如下所示Xp5(m)=XLp5(m)-XRp5(m)exp[j2π(τ3+τ4)fm]-exp[-j2π(τ1+τ2)fm].]]>參考圖1-3,操作陣列46中的每個OPi被定義為表示相對于參考軸R的不同方位角位置?!爸行摹辈僮?,OPi,[其中i=(N/2+1)]表示參考軸和聲源12的位置。對于例子N=4,該中心操作對應(yīng)于i=3。這種方案模擬了與自然雙路立體聲系統(tǒng)相關(guān)的不同耳間時間差值。在這些自然系統(tǒng)中,耳中每個聲音通道中存在一個相對位置,該位置對應(yīng)于給定聲源的最大“同相”峰值。因此,陣列46的每個操作表示對應(yīng)于聲源的潛在方位角或角度范圍的位置,并且中心操作表示在0方位角的聲源-與參考軸R對齊的聲源。對于具有一個聲源且沒有噪聲或干擾的環(huán)境,確定具有最大強度的信號對足以找到具有很少附加處理的聲源;然而,在噪聲或多聲源環(huán)境中,需要進一步處理以正確地估計位置。
應(yīng)該理解的是,雙路延遲線40給出具有N+1列,M行的兩維陣列輸出,其中N+1列對應(yīng)于Xpi(m),M行對應(yīng)于Xpi(m)的每個離散頻率fm。該(N+1)*M陣列是為每個短時譜分析間隔P確定。此外,通過從XLpi(m)中減去XRpi(m),每個表達式CE1,CE2的分母被安排為當(dāng)信號對在給定頻率fm下為同相時,給出Xpi(m)的最小值。定位部分70利用表達式CE1,CE2的這方面來計算相對于聲源12的聲源14的位置。
定位部分70累計這些陣列中P數(shù)量以確定表示聲源14位置的Xpi(m)。對于每個列i,定位部分70執(zhí)行|XRpi(m)|幅度和頻率fm的二次方的和,m=1…M。該和被乘以M的倒數(shù)以找到平均譜能量,如下所述Xavgpi=(1/M)Σm=1M|Xpi(m)|2]]>所產(chǎn)生的均值,Xavgpi然后在P個最近譜分析時間幀上求時間平均,其中的譜分析幀由p為索引,如下所示Xi=Σp=1pγpXavgpi,]]>其中γp是經(jīng)驗確定的加權(quán)因子。在一個實施方案中,γp因子最好在0.85p到0.90p之間,其中p是短時譜分析時間幀的索引。Xi被分析以確定最小值,min[Xi],min(Xi)的索引i表示為I,估計出表示聲源14相對于聲源12的方位角位置的列。
已經(jīng)發(fā)現(xiàn),來自聲源12的期望信號譜值在近似與參考軸R1對齊時可以從XpI(m)中估計出來。換句話說,陣列46的譜信號輸出同時給出來自聲源12的信號的譜表示,其中的陣列46是接近地對應(yīng)于軸外聲源14的相對位置。其結(jié)果是,雙路延遲線40的信號處理不僅有利于聲源14的定位,而且只需要很少的后定位處理給出期望信號的譜估計,以產(chǎn)生代表性輸出。
后定位處理包括由定位部分70為概念性開關(guān)80提供指定信號以選擇雙路延遲線40的輸出列XpI(m)。XpI(m)由開關(guān)80尋路到級82中的反傅里葉變換算法(反DFT)以便從頻域信號表示轉(zhuǎn)換成表示為S(k)的離散時域信號表示。信號估計值S(k)然后被數(shù)摸(D/A)轉(zhuǎn)換器84轉(zhuǎn)換以便向輸出設(shè)備90提供輸出信號。
輸出設(shè)備90以放大器92放大來自處理器30的輸出信號,并將放大后的信號提供給揚聲器94以便給出來自聲源12的提取信號。
已經(jīng)發(fā)現(xiàn)與軸上聲源僅僅偏離2度的軸外聲源的干擾可以用本發(fā)明降低或消除--即使期望信號包括語音,干擾包括噪聲時也是這樣。此外,本發(fā)明即使在干擾或噪聲信號等于或大于相對強度時,也能給出期望信號的提取。通過前后移動傳感器22,24,選擇用來提取的信號可以對應(yīng)地改變。此外,本發(fā)明可以應(yīng)用于除了聲源12,14之后還有很多聲源的環(huán)境。在另一個實施方案中,利用自動學(xué)習(xí)技術(shù),定位算法被配置來動態(tài)響應(yīng)相對位置以及相對強度。在另一個實施方案中,本發(fā)明被調(diào)整與高度定向的麥克風(fēng)、多于兩個的傳感器一起使用以便同時提取多個信號,對于本領(lǐng)域的技術(shù)人員來說,還有多種自適應(yīng)放大和濾波技術(shù)是已知的。
作為定位處理的一部分,通過確定表示期望信號的譜信號,與傳統(tǒng)系統(tǒng)相比,本發(fā)明極大的提高了計算效率。其結(jié)果是,聲源12的期望信號的輸出信號特征被按照對應(yīng)于聲源14與聲源12分離的信號對XLp2(m),XRp2(m)的函數(shù)確定。而且,CE1和CE2分母中的指數(shù)對應(yīng)于頻率fm的相位差值,該差值產(chǎn)生于聲源12與聲源14的分離。參考N=4的例子,假定I=1,該相位差值為-2π(τ1+τ2)fm(對于延遲線42)和2π(τ3+τ4)fm(對于延遲線44)并對應(yīng)于i=3時,軸外聲源14與軸上聲源12的代表性位置的分離。而且時間增量τ1+τ2和τ3+τ4也對應(yīng)于該例中聲源14與聲源12的分離。這樣,處理器30實現(xiàn)了雙路延遲線40以及對應(yīng)的操作關(guān)系CE1和CE2以給出通過找到相對于期望信號源的干擾信號源的位置而產(chǎn)生期望信號的裝置。
最好的是,τi被選擇為相對于參考軸R給出相等的方位角位置。在一個實施方案中,該方案對應(yīng)于從最小值到最大值變化大約20%的τi。在另一個實施方案中,τi通常相等,簡化了陣列46的操作。注意到,CE1,CE2中對應(yīng)于聲源12和14分離的分子中的時間增量在所有τi值相等時近似相等。
處理器30可以由一個或多個組件或設(shè)備部件構(gòu)成。該處理器可以包括數(shù)字電路,模擬電路或這些電路的組合。處理器30可以是可編程的集成狀態(tài)機,或利用以上技術(shù)的組合。最好的是,處理器30是一個固態(tài)集成數(shù)字信號處理器。被定制為以最小的外部元件和連接來執(zhí)行本發(fā)明的處理。類似的,本發(fā)明的提取處理可以對各種安排的處理設(shè)備執(zhí)行,在一個或多個硬件模塊,固件模塊,軟件模塊或其組合情況下,這些設(shè)備被配置來給出對應(yīng)的功能。此外,如這里使用的,“信號”包括,但是不局限于軟件,固件,硬件,編程變量,通訊信道和存儲器位置表示。
參考圖4A,本發(fā)明的一個應(yīng)用被描述為助聽系統(tǒng)110。系統(tǒng)110包括具有固定在眼睛G上,并互相分離的麥克風(fēng)122,124的眼鏡G。麥克風(fēng)122,124與助聽器130相連。處理器130與輸出設(shè)備190相連。輸出設(shè)備190定位于耳朵E中以便為佩戴者提供音頻信號。
麥克風(fēng)122,124以類似于圖1-3描述的實施方案中的傳感器22,24的方法被使用。類似的,處理器130配有圖1-3中給出的信號提取處理。處理器130為輸出設(shè)備190提供提取信號以便為佩戴者提供音頻輸出。系統(tǒng)110的佩戴者可以調(diào)整眼鏡G的位置以便與期望聲源例如語音信號對準,以降低來自附近噪聲源的干擾,其中噪聲源在麥克風(fēng)122,124的中點軸之外。此外,通過與其它的期望聲源對準,佩戴者可以選擇一個不同的信號來降低來自噪聲環(huán)境的干擾。
處理器130和輸出設(shè)備190可以是獨立的單元(如給出的)或者包括在耳朵上戴的普通單元中。處理器130和輸出設(shè)備190之間的連接可以是電纜或無線傳輸。在另一個可選實施方案中,傳感器122,124和處理器130位置很遠,并被配置來通過無線電頻率傳輸或其它傳統(tǒng)通訊方法而向耳朵E中的一個或多個輸出設(shè)備190廣播。
圖4B給出采用本發(fā)明作為前端語音增強設(shè)備的聲音識別系統(tǒng)210。系統(tǒng)210包括具有兩個麥克風(fēng)222,224的個人計算機C,其中的麥克風(fēng)按照預(yù)定的關(guān)系互相分離。麥克風(fēng)222,224與計算機C中的處理器230相連。處理器230提供輸出信號作為內(nèi)部使用或通過揚聲器294a,294b或視覺顯示296作出響應(yīng)性回答。一個操作器按照預(yù)定關(guān)系與計算機C的麥克風(fēng)222,224對準以傳送聲音命令。計算機C被配置來接收這些聲音命令,根據(jù)圖1-3中的處理系統(tǒng)從噪聲環(huán)境中提取期望的聲音命令。
參考圖10-13,給出了本發(fā)明另一個實施方案的信號處理系統(tǒng)310。系統(tǒng)310的與系統(tǒng)110相同的參考號碼表示相同的特征。圖10的信號流圖對應(yīng)于系統(tǒng)310的各種信號處理技術(shù)。圖10給出了系統(tǒng)310的信號處理器330的左“L”和右“R”輸入信道。信道L,R每一個都包括一個聲學(xué)傳感器22,24,它們分別給出輸入信號XLn(t),XRn(t)。輸入信號XLn(t),XRn(t)對應(yīng)于傳感器22,24檢測范圍中的多個聲源的聲音組合。如結(jié)合圖1系統(tǒng)10描述的,最好是傳感器22,24為標準麥克風(fēng),它們彼此距離為預(yù)定距離D。在另一個實施方案中,不同的傳感器類型或裝置可以被使用,如本領(lǐng)域的技術(shù)人員常常碰到的那樣。
傳感器22,24與系統(tǒng)310的處理器330相連以便為A/D轉(zhuǎn)換器34a,34b提供輸入信號XLn(t),XRn(t)。處理器330的A/D轉(zhuǎn)換器34a,34b將輸入信號XLn(t),XRn(t)從模擬形式轉(zhuǎn)換成離散形式。如XLn(k),XRn(k)所表示的,其中“t”是熟悉的連續(xù)時域變量,“k”是離散樣本索引變量。對應(yīng)的預(yù)調(diào)節(jié)濾波器(沒有給出)可以包括在處理器330中,如結(jié)合系統(tǒng)10所描述的那樣。
數(shù)字傅里葉變換(DFT)部分36a,36b從轉(zhuǎn)換器34a,34b分別接收數(shù)字化輸入信號對XLn(k),XRn(k)。利用短時離散傅里葉變換算法,36a,36b將輸入信號XLn(k),XRn(k)轉(zhuǎn)換成XLn(m),XRn(m)表示的譜信號。譜信號XLn(m),XRn(m)以一些離散頻率分量表示,其索引為整數(shù)m,其中m=1,2,…,M。而且,如這里所使用的,L和R表示左和右信道。n表示離散傅里葉變換分析時間幀的索引。
延遲操作器340從級36a,36b接收譜信號XLn(m),XRn(m)。延遲操作器340包括一些雙路延遲線(DDLs)342,每個雙路延遲線對應(yīng)于一個不同的分量頻率,這些頻率以m為索引。這樣,用到了M個不同的雙路延遲線342。然而,只有對應(yīng)于m=1和m=M的雙路延遲線在圖10中給出以保持清晰。余下的對應(yīng)于m=1和m=M-1的雙路延遲線由省略號表示以保持清晰度。另外,延遲操作器340可以描述為單個的雙路延遲線,該延遲線如系統(tǒng)10的雙路延遲線40那樣同時對M個頻率操作。
對應(yīng)于給定m值的來自DFT級36a,36b的頻率分量對被輸入給對應(yīng)的一個雙路延遲線342。對于圖10中給出的例子,對于對應(yīng)于m=1的頻率,譜信號分量XLn(m=1)和XRn(m=1)被送給上部的雙路延遲線342;對于m=M的頻率,譜信號分量對XLn(m=M)和XRn(m=M)被送給下面的雙路延遲線342。同樣對于對應(yīng)于m=2到m=(M-1)的頻率,XLn(m)和XRn(m)的普通頻率對被送給對應(yīng)的雙路延遲線,這些延遲線由省略號表示以保持清晰度。
另外參考圖11,這里進一步給出了雙路延遲線342的某些特征。每個雙路延遲線342包括一個左聲道延遲線342a,用來接收來自DFT級36a的對應(yīng)頻率分量輸入,342還包括右聲道延遲線342b,用來接收來自DFT級36b的對應(yīng)頻率分量。延遲線342a,342b每個都包括索引為i=1,2,…,I的奇數(shù)個延遲級344。I個延遲的信號對在延遲級344的輸出端345給出,并相應(yīng)地發(fā)送給復(fù)數(shù)乘法器346。對于每個延遲線342a,342b,存在一個對應(yīng)于每個延遲級344的乘法器346。乘法器346為延遲級344的對應(yīng)輸出提供均衡的加權(quán)。每個來自對應(yīng)輸出345的延遲信號對有一個來自左延遲線342a的延遲級344的分量以及來自右延遲線342b的延遲級344的分量。每個雙路延遲線342的復(fù)數(shù)乘法器346輸出對應(yīng)的沿抽頭347的I個延遲信號對的乘積。對于操作器340的每個雙路延遲線342,來自抽頭347的I個信號對被輸入給信號操作器350。
對于每個雙路延遲線342,I對乘法器抽頭347中的每一個都輸入給操作器350的不同操作陣列(OA)352。每個抽頭對347被提供給對應(yīng)操作陣列352中的不同操作級354。在圖11中,只有一部分延遲級344,乘法器346,操作級345被給出,它們對應(yīng)于延遲線342a,342b任一端的兩個級,以及延遲線342a,342b的中間級。介于其間的各級遵循所示級的模板,并且由省略號表示以保持清晰度。
對于任意的頻率ωm,延遲時間τi由下面等式(1)給出τi=ITDmax2sin(i-1I-1π-π2),]]>i=1,…,I (I)其中i是整數(shù)延遲級索引,范圍為(i=1,…,I),ITDmax=D/C是麥克風(fēng)之間的最大時間差;D是傳感器22,24之間的距離;C是聲音的速度。此外,對于對應(yīng)于i=(I+1)/2的延遲級中點,延遲時間τi是非對稱的,如下面等式(2)表示的τI-i+1=ITDmax2sin[(I-i+1)-1I-1π-π2]=-ITDmax2sin(i-1I-1π-π2)=-τ1.]]>(2)方位角平面可以被統(tǒng)一劃分成I個區(qū)域,每個區(qū)域的方位角位置由下面等式3給出。 i=1,…,I.(3)可聽空間中的方位角位置可以根據(jù)下述等式(4)沿每個雙路延遲線342被映射到對應(yīng)的延遲信號對。τi=ITDmax2sinθi,]]>i=1,…,I. (4)雙路延遲線結(jié)構(gòu)類似于系統(tǒng)10的實施方案,不同點在于對于每個m值給出不同的雙路延遲線表示,并且乘法器346被包括用來將每個對應(yīng)的延遲級344乘以一個適當(dāng)?shù)木庖蜃应羒(m),其中i是以前描述的延遲級索引。最好的是,元素αi(m)被選擇用來按照方位角和頻率的函數(shù)來補償傳感器22,24處噪聲強度中的差值。
用來確定均衡因子αi(m)的一個優(yōu)選實施方案假設(shè)幅度補償獨立于頻率,視任何與此模型的偏差是可忽略的。對于該實施方案,所接收聲音壓強|P|的幅度根據(jù)下面的等式(A1)和(A2)隨著聲源-接收機之間的距離γ而變化。|p|∝1r,-----(A1)]]>|PL||PR|=rRrL,-----(A2)]]>其中|PL|和|PR|是傳感器22,24處的聲音壓強幅度。圖12描述了傳感器22,24以及在接收范圍之內(nèi)的代表性聲源S1以給出輸入信號XLn(t)和XRn(t)。根據(jù)圖12中給出的幾何表示,聲源S1到左,右傳感器的距離γL和γR分別由等式(A3)和(A4)給出。rL=(lsinθi+D/2)2+(lcosθi)2=l2+LDsinθi+D2/4,-----(A3)]]>rR=(lsinθi-D/2)2+(lcosθi)2=l2-lDsinθi+D2/4,-----(A4)]]>為了圖11的雙路延遲線342中的給定延遲信號對在該方法中保持相等,因子αi(m)和αI-i+l(m)必須滿足等式(A5),如下所示|pL|αi(m)=|PR|αI-j+l(m).(A5)將等式(A2)代入等式(A5),產(chǎn)生等式(A6)如下所示rLrR=α1(m)αI-i+1(m),-----(A6)]]>根據(jù)等式(A7)定義αi(m)如下所示,αi(m)=Kl2+lDsinθi+D2/4,-----(A7)]]>
其中,K是以單位值表示的長度倒數(shù),并被選擇來給出方便的幅度值,αI-i+l(m)由下面等式(A8)給出,αI-i+1(m)=Kl2+lDsinθI-i+1+D2/4=Kl2-lDsinθi+D2/4,------(A8)]]>(A8)其中,通過用I-i+l代替等式(3)中的i,可以得到關(guān)系式sinθI-i+l=sinθi.。通過將等式(A7)和(A8)帶入等式(A6),可以證實等式(7)中αi(m)的值滿足等式(A6)建立的條件。
在根據(jù)該實施方案獲得均衡因子αi(m)之后,最好進行微小的調(diào)節(jié)以校準傳感器安排中的不對稱性,并校準其它與理想情況的偏離,例如,如那些由于聲學(xué)能量的媒體吸收所造成的情況,非點聲源的聲源幾何位置以及依賴于舉例之外其它參數(shù)的幅度削減。
在乘法器340通過因子αi(m)進行均衡操作之后,對于對應(yīng)于i=isignal=s的延遲信號對來說,雙路延遲線342中的左,右聲道中的同相期望信號分量基本上相同,并且對于單個的,預(yù)定的干擾噪聲源來說,對于對應(yīng)于i=inise=g的延遲信號對來說,雙路延遲線342的左,右聲道中的同相噪聲信號分量也基本相同。i=s時的期望信號可以表示為Sn(m)=Asexp[j(ωmt+φs)],i=g時的干擾信號可以表示為Gn(m)=Agexp[j(ωmt+φg)],其中φs,φg表示初始相位?;谶@些模型,沿雙路延遲線342的任意點i(除了i=s)上左聲道和右聲道的均衡信號αi(m)XLn(i)(m)以及αI-i+l(m)XRn(i)(m)可以表示為下面的等式α1(m)XL(1)(m)=Asexpj[ωm(t+τs-τi)+φs]+Asexpj[ωm(t+τs-τ1)+φs],---(5)]]>αI-i+1(m)XRn(1)(m)=]]>(6)Asexpj[ωm(t+τI-i+l-τI-i+l)+φs]+Agexpj[ωm(t+τI-g+l-τI-I+l)+φg].其中等式(7)和(8)進一步定義了等式(5)(6)的某些項XLn(1)(m)=XLn(m)exp(-j2πfmτi)-----(7)]]>XRn(1)(m)=XRn(m)exp(-j2πfmτI-i+1)-----(8)]]>對于所有的m,每個信號對αi(m)XLn(i)(m)和αI-i+l(m)XRn(i)(m)被輸入到對應(yīng)操作陣列352的對應(yīng)操作級354。其中在雙路延遲線342的情況下,每個操作器陣列352對應(yīng)于不同的m值。對于給定的操作陣列352,對應(yīng)于每個I值的操作級354執(zhí)行等式(9)定義的操作,如下所示(除了i=s之外)。Xn(1)(m)=α1(m)XLn(1)(m)-αI-i+1(m)XRn(1)(m)(αl/αs)exp[jωm(τs-τ1)]-[αI-i+1/αI-s+1]exp[jωm(τI-s+1-τI-i+1)],]]>fori≠s.(9)如果等式(9)中的分母太小,一個小的正常數(shù)ε被加入分母以限制輸出信號Xn(i)(m)的幅度。對于所有的m值,操作級354不會對對應(yīng)于i=s的信號對進行任何操作(信號操作器350的所有操作陣列352)。
等式(9)可以與系統(tǒng)10的表達式CE1和CE2相比;然而,等式(9)包含均衡元素αi(m)并被組織成一個單獨的表達式。在來自操作陣列352的輸出的情況下,對期望信號譜值的同時定位和識別可以用系統(tǒng)310執(zhí)行。系統(tǒng)310的定位和提取可以進一步由圖13的信號流圖描述,并遵循數(shù)學(xué)模型。通過將等式(5)和(6)代入等式(9),等式(10)表示為Xn(1)(m)=Sn(m)+Gn(m)·υs·s(1)(m),]]>i≠s(10)等式(11)進一步定義為υs,s(1)(m)=(α1/αs)exp[jωm(τs-τi)]-(αI-i+1/αI-i+1)exp[jωm(τI-i+1/τI-i+1)](αi/αs)exp[jωm(τs-τi)]-(αI-i+1/αI-i+1)exp[jωm(τI-i+1-τI-i+1)],]]>i≠s (11)通過將等式(2)施加給等式(11),等式(12)產(chǎn)生,如下所示υs,s(1)(m)=(αi/αs)exp[jωm(τs-τi)]-(αI-i+1/αI-s+1)exp[-jωm(τs-τi)](αi/αs)exp[jωm(τs-τi)]-(αI-i+1/αI-s+1)exp[-jωm(τs-τi)],]]>i≠s.(12)信號Xn(i)(m)的能量在等式(13)中表示,如下所示|Xn(1)(m)|2=|Sn(m)+Gn(m)·υs,s(1)(m)|2]]>信號矢量可以被定義x(i)=(X1(i)(1),X1(i)(2),…,X1(i)(M),X2(i)(1),…,X2(i)(M),…,XN(i)(1),…,XN(i)(M))T,]]>i=1,…,I,其中,T表示轉(zhuǎn)置,矢量X(i)的能量‖X(i)‖22由等式(14)給出,如下所示||x(1)||22=Σn=1NΣm=1M|Xn(1)(m)|2=Σn=1NΣm=1M|Sn(m)+Gn(m)·υs,s(1)(m)|2]]>i=1,…,I.(14)等式(14)是在時間和頻率上的雙重相加,它近似了連續(xù)時域表示中的雙積分。
進一步定義下面矢量s=(S1(1),S1(2),…,S1(M),S2(1),…,S2(M),…,SN(1),…,SN(M))T,和g(1)=(G1(1)υs,s(1)(1),G1(2)υs,s(1)(2),…,G1(M)υs,s(1)(M),G2(1)υs,s(1)(1),…,G2(M)υs,s(1)(M),…,]]>GN(1)υs,s(1)(1),…,GN(M)υs,s(1)(M))T,]]>wherei=1,…,I,矢量s和g(i)的能量分別由等式(15)和(16)確定,如下所示||s||22=Σn=1NΣm=1M|Sn(m)|2]]>(15)||g(1)||22=Σn=1NΣm=1M|Gn(m)·υs,s(1)(m)|2,]]>i=1,…,I. (16)對于獨立于干擾源的期望信號,矢量s和g(i)正交。根據(jù)Pythagoras理論,等式(17)產(chǎn)生,如下所示||x(1)||22=||s+g(1)||22=||s||22+||g(1)||22,]]>i=1,…,l. (17)因為‖g(i)‖22≥0,等式(18)產(chǎn)生,如下所示||x(1)||22≥||s(1)||22,]]>i=1,…,I.(18)等式(18)中的均衡僅在‖g(i)‖22=0時才滿足,該條件在下面兩個條件之一滿足時發(fā)生,(a)Gn(m)=0,即噪聲源為無聲狀態(tài)—在該情況下,不許要進行噪聲源定位和噪聲消除;(b)νsg(i)(m)=0,其中等式(12)表明該第二條件在i=g=inoise時產(chǎn)生。因此,‖X(i)‖22在i=g=inoise時有最小值,根據(jù)等式(18),該值為‖S‖22。等式(19)將該條件進一步描述為||s||22=||x(l_)||22=min1||x(1)||22,]]>(19)這樣,定位過程包括沿操作陣列352為每個延遲線342找到位置inoise,在該位置上產(chǎn)生‖X(i)‖22的最小值。一旦沿雙路延遲線342的位置inoise確定了,噪聲源的方位角位置可以用等式(3)確定。估計的噪聲位置inoise可以用來進行噪聲消除或期望信號的提取,如后面進一步描述的。實際上,對于所有對應(yīng)于i=inoise的m值,操作級354按等式(20)給定的那樣提供期望信號的譜分量。Sn1(m)=Xn(lmax)(m)=Sn(m)+Gn(m)·υs,s(lmax)(m)=Sn(m),]]>(20)定位操作器360表征了系統(tǒng)310的定位技術(shù)。對于每個整數(shù)索引i,其中i=1,…,I,圖13進一步描述了具有加法操作器對362和364的操作器360。集中來說,加法操作器362和364執(zhí)行對應(yīng)于等式(14)的操作以便為每個i值產(chǎn)生‖X(i)‖22。對于每個變換時間幀n,加法操作器362對應(yīng)于它們的i值從操作級354接收輸入Xn(i)(L)到Xn(i)(M)。并在頻率m=1到m=M上對頻率求和。對于給出的例子,上面的加法操作器362對應(yīng)于i=1并接收信號Xn(1)(1)到Xn(1)(M)用于相加;下面的加法操作器362對應(yīng)于i=I,并接收信號Xn(1)(1)到Xn(1)(M)用于相加。
每個加法操作器364從對應(yīng)于相同的i值的加法操作器362為每個變換時間幀接收結(jié)果,并在對應(yīng)于n=1到n=N的時間變換幀上累積這些和;其中N是經(jīng)驗確定的適于定位操作的時間幀數(shù)。對于給出的例子,上面的加法操作器364對應(yīng)于i=1并將上面加法操作器362在N個樣本上得到的結(jié)果相加;下面的加法操作器364對應(yīng)于i=I,并將來自下面加法操作器362的結(jié)果在N個樣本上相加。
產(chǎn)生于I個相加操作器364的I個‖X(i)‖22值被級366接收。級366將I個‖X(i)‖22值比較以確定對應(yīng)于最小‖X(i)‖22的i值。該i值被級366作為i=g=inoise輸出。
再次參考圖10,系統(tǒng)310進行的后定位處理被進一步描述。當(dāng)?shù)仁?9)在i=g處應(yīng)用于延遲線342的輸入對時,它對應(yīng)于軸外噪聲源的位置,并且等式(20)表示它給出了期望信號S′n(m)的近似值。為了提取信號S′n(m),定位單元360的級366將索引值i=g發(fā)送給提取操作器380。對應(yīng)于g,提取操作器380將輸出xn(g)(1)到xn(g)(M)=S′n(m)傳送給與之連接的反傅里葉變換(IFT)級82。出于該目的,提取操作器380最好包括一個復(fù)用器或陣列開關(guān),該陣列有I*M個復(fù)數(shù)輸入和M個復(fù)數(shù)輸出;其中不同組的M個輸入對應(yīng)于定位操作器360的級366的輸出為每個不同的索引值i傳送給輸出。
級82將從提取單元380接收的M個譜分量轉(zhuǎn)換以便將期望信號S′n(m)的譜近似值從頻域變換到時域,由n(k)表示。級82與數(shù)摸轉(zhuǎn)換器(D/A)84相連。D/A轉(zhuǎn)換器84接收信號n(k)用來從離散形式轉(zhuǎn)換成模擬形式,由S′n(t)表示,S′n(t)被輸入到輸出設(shè)備90以給出期望信號的可聽表示或如本領(lǐng)域技術(shù)人員已知的其它表示。級82,轉(zhuǎn)換器84,設(shè)備90被結(jié)合系統(tǒng)10進一步解釋。
等式(9)的另一種表示由等式(21)給出Xn(1)(m)=wLn(m)XLn(1)(m)+wRn(m)XRn(i)(m),]]>(21)項wLn和wRn等價于對左,右聲道的束形成加權(quán)。其結(jié)果是,等式(9)的操作可以等價模擬成束形成過程,該過程在對應(yīng)于主要噪聲源的位置放置一個“空”,同時轉(zhuǎn)換到期望輸出信號S′n(t)。
圖14給出了本發(fā)明的另一個實施方案的系統(tǒng)410。系統(tǒng)410的幾個參考標號與系統(tǒng)10和310中的一樣,并表示同樣的特征。圖14中給出了一些在系統(tǒng)410的聲學(xué)傳感器22,24的接收范圍之內(nèi)的聲學(xué)源412,414,416,418。聲學(xué)源412,414,416,418的位置還由相對于軸AZ的方位角表示,軸AZ由參考標號412a,414a,416a,418a表示。如所給出的,角度412a,414a,416a,418a對應(yīng)于大約0°,+20°,+75°,和-75°。傳感器22,24與信號處理器430相連,并且軸AZ在它們的中線上延伸。如結(jié)合系統(tǒng)310所描述的那樣,處理器430從對應(yīng)于左聲道L和右聲道R的傳感器22,24接收輸入信號xLn(t),xRn(t)。處理器430處理信號xLn(t),xRn(t),并將對應(yīng)的輸出信號提供給與之相連的輸出設(shè)備90,490。
再參考圖15的信號流圖,系統(tǒng)410的選出特征被進一步說明。系統(tǒng)410包括D/A轉(zhuǎn)換器34a,34b和DFT級36a,36b以便如結(jié)合系統(tǒng)310所描述的那樣給出相同的左,右聲道處理。系統(tǒng)410還包括如為系統(tǒng)310描述的延遲操作器340和信號操作器350;然而,最好的是,均衡因子αi(m)(i=1,…,I)被設(shè)置為單位值以用于與系統(tǒng)410的定位操作器460相關(guān)的定位過程。此外,系統(tǒng)410的定位操作器460直接接收延遲操作器340的輸出信號,而不是接收信號操作器350的輸出信號,與系統(tǒng)310不同。
操作器460中實現(xiàn)的定位技術(shù)從建立兩維(2-D)一致軌跡圖開始,該兩維圖以頻率與方位角位置的關(guān)系表示。對于索引為m的每個頻率,每個軌跡的一致點表示左,右聲道之間的最小差值。該最小差值可以表示為每個離散頻率m上頻域表示XLp(i)(m)和Xgp(i)(m)之間得最小幅度差值δXn(i)(m),因此產(chǎn)生M/2的潛在不同軌跡。如果聲源的空間位置一致,那麼這些軌跡在所有的頻率上一樣。該操作在等式(22)-(25)中描述in(m)=argmin1(δXn(1)(m)),]]>m=1,…,M/2. (22)δXn(1)(m)=|XLn(1)(m)-XRn(1)(m)|,]]>i=1,…,I;m=1,…,M/2,(23)XLn(1)(m)=XLn(m)exp(-j2πτim/M),]]>i=1,…,I;m=l,…,M/2,(24)XRn(1)(m)=XRn(m)exp(-j2πτI-i+1m/M),]]>i=1,…,I;m=1,…,M/2. (25)如果在系統(tǒng)410的雙路延遲線342的索引為i的位置上,左右聲道的幅度相等,那麼對應(yīng)i值的δXn(i)(m)值被最小化,如果基本上不為0的話。注意到,不管傳感器之間的強度差異,均衡因子αi(m)(i=1,…,I)應(yīng)該盡量保持單位化以便達到一致檢測。否則,最小δXn(i)(m)將不會對應(yīng)于同相(一致)位置。
另一可選方法可以基于根據(jù)相位差值來識別一致軌跡。對于該相位差值方法,在雙路延遲線342上由i索引的位置上,左右聲道信號之間的最小相位差值如下面等式(26)和(27)所描述的那樣定位。in(m)=argmin1{δXn(1)},]]>m=1,…,M/2, (26)δXn(1)(m)=|Im[XLn(i)(m)XRn(i)(m)1]|,]]>i=1,…,I;m=1,…,M/2,(27)其中,Im[.]表示參數(shù)的虛數(shù)部分,上標+表示復(fù)數(shù)共軛。由于相位差值技術(shù)檢測到兩個復(fù)數(shù)矢量之間的最小角度,因此不必補償傳感器間的強度差值。
盡管在沒有進一步處理的情況下,幅度差值方法或相位差值方法都可以有效地定位單個聲源,多個聲源常常發(fā)出譜互相重疊的信號,這導(dǎo)致對應(yīng)于不存在聲源或偽聲源的一致軌跡(例如,在同一頻率下,兩個相等強度聲源之間的中點)。圖1 7給出了兩維一致線圖500,該圖垂直軸由頻率表示,水平軸以方位角位置角度表示。線圖500表示了兩個聲源,分別對應(yīng)于大約在-20度的垂直對準的位置512a和對應(yīng)于大約在-20度的垂直對準的位置512b。線圖500還包括誤識別的或偽聲源點514a、514b,514c,514d,514e,它們位于對應(yīng)于具有較大能量的頻率的其它方位角位置上。對于多于兩個不同定位的競爭性聲源,會產(chǎn)生更復(fù)雜的圖。
為了降低兩維一致圖數(shù)據(jù)中的偽信息的發(fā)生,定位操作器460在時間和頻率上積分。當(dāng)信號不是在每個頻率上相關(guān)時,信號間的互干擾可以通過臨時積分來逐漸削減。該方法對一致的位置求平均,而不是用來確定最小值的函數(shù)值求平均,這等價于應(yīng)用kroneckerδ函數(shù),δ(i-in(m))到δXn(i)(m)并在時間上對δ(i-in(m))求平均。反過來,對應(yīng)于聲源的真實位置的一致軌跡被增強。時間積分將忽視平均施加給兩維一致圖,該圖是在n=1,…,N的變換時間幀的預(yù)定組上得到的;并由等式(28)的加法近似表示PN(θi,m)=Σm=1NβN-nδ(i-in(m)),]]>i=1,…,I;m=1,…,M/2,(28)其中0<β<1是一個加權(quán)系數(shù),該系數(shù)從指數(shù)上削弱(或忽視)以前一致結(jié)果的作用,δ(.)是kroneckerδ函數(shù),θi表示雙路延遲線342上對應(yīng)于空間方位角θi[等式(2)]的位置,N指當(dāng)前時間幀。為了降低由于聲源的瞬時交互作用造成的束效應(yīng),等式(28)的結(jié)果根據(jù)等式(29)定義的關(guān)系而測試 (29)其中?!?,是一個經(jīng)驗確定的閾值。盡管該方法假定傳感器間的延遲獨立于頻率,已經(jīng)發(fā)現(xiàn),與該假設(shè)的偏離可以忽略不計。
通過在頻率上對一致圖進行積分,可以獲得空間中聲源位置的更魯棒,更可靠的表示。Pn(θi,m)在頻率上的積分產(chǎn)生一個定位模板,該模板為方位角的函數(shù)。可以采用用來估計聲源真實位置的兩種技術(shù)。第一種估計技術(shù)完全基于頻率上的垂直軌跡,其中的頻率對應(yīng)于不同的方位角。對于該技術(shù),θd表示積分相關(guān)的方位角,使得θd=θi,并導(dǎo)致等式(30)對頻率的相加。HN(θd)=ΣmPN(θd,m),]]>d=1,…,I. (30)其中,方程(30)逼近時間上的積分Hn(θd)中的峰值表示了聲源的方位角位置。如果存在Q個聲源,通常會得到HN(θd)中的Q個峰值。當(dāng)在每個頻率上與模板δ(i-in(m))相比時,當(dāng)多于一個聲源存在時,不僅定位準確性被增強,而且當(dāng)前幀的多個聲源的立即定位也是可能的。此外,盡管在HN(θd)中,主聲源通常比其它較弱的聲源具有更高的峰值,HN(θd)中峰值的高度間接地反映了聲源的能量。此外,高度由幾個因子影響,例如,對于每個頻段來說,相對于其它信號分量能量的對應(yīng)于θd的信號分量能量,頻段數(shù),以及信號占主要地位的時間。實際上,在等式(28)中,每個頻率被同樣加權(quán)。其結(jié)果是,主聲源對較弱聲源的掩蓋被削弱。對比之下,現(xiàn)存的時域互相關(guān)方法引入了信號強度,與主聲源之間更強的偏移敏感度。
注意到,對于高頻率聲音來說,耳間時間差值是模糊的,其中聲學(xué)波長小于傳感器22,24之間的距離D。該模糊性產(chǎn)生于相位與上述傳感器間距離相關(guān)頻率的相乘,使得特定的相位差值Δφ不能從Δφ+2π中分辨出來。其結(jié)果是,在某些頻率上,不存在位置與頻率間的一對一關(guān)系。這樣,除了對應(yīng)于θd=θI,的主垂直軌跡之外,還存在第二種關(guān)系,表征了每個模糊相位的隨頻率變化的位置。這些第二關(guān)系被考慮用于頻率上積分的第二估計技術(shù)。等式(31)給出一種方法來確定給定方位角的預(yù)測一致性模板,它按照下式考慮第二關(guān)系sinθi-sinθd=γm,dITDmaxfm,]]>(31)其中參數(shù)γm,d是一個整數(shù),每個值γm,d定義模板PN(θI,m)中的一個包絡(luò)。主要關(guān)系與γm,d=0相關(guān)。對于特定的θd,γm,d的正確值范圍由等式32給出,如下所示-ITDmaxfm(1+sinθd)≤γm,d≤ITDmaxfm(1-sinθd) (32)圖18的600給出了根據(jù)等式(31)和(32)確定的一些代表性一致模板612,614,616,618,其中垂直軸表示頻率(Hz),水平軸表示方位角位置(度)。模板612對應(yīng)于0度的方位角位置。模板612主要對應(yīng)于垂直實線612a,其次對應(yīng)于曲線實線612b。類似的,模板614,616,618對應(yīng)于-75度,20度和75度的方位角位置,并且其主要關(guān)系表示為垂直線614a,616a,618a,其次表示為曲線614b,616b,618b,它們以對應(yīng)的不同間斷線表示。一般地,垂直線被表示為主包絡(luò),曲線段被表示為第二包絡(luò)。其它方位角位置的一致模板可以由等式(31)和(32)確定,如本領(lǐng)域技術(shù)人員已知的那樣。
注意到,PN(θi,m)中存在的這些模糊性在對θd=θI,積分之后,會產(chǎn)生HN(θd)中的人為峰值。對應(yīng)于幾個聲源的曲線軌跡的上重合可以包括一個噪聲項HN(θd)。當(dāng)遠離任何實際聲源的峰值時,人工峰值可能錯誤地表示檢測到不存在的聲源;然而,當(dāng)接近對應(yīng)于真實聲源的峰值時,它們可能既影響HN(θd)中真實聲源峰值的檢測,又影響這些峰值的定位。當(dāng)要求降低相位模糊性的負面影響時,對于每個給定方位角位置來說,定位操作除了主要關(guān)系之外,還要考慮第二關(guān)系。這樣,感興趣的每個方位角方向θd(d=1,…,I)的一致模板可以被確定并描繪,這可以被用作具有PN(θi,m)定義的形狀的“型板”(stencil)窗口(i=1,…,I;m=1,…,M)。換句話說,每個型板是一致點的預(yù)測模板,這些點可歸于主要包絡(luò)的方位角位置上的聲源,包括對應(yīng)于作為頻率因子的其它方位角位置的偽位置。模板可以被用來過濾不同m值上的數(shù)據(jù)。
通過采用等式(32),等式(30)的積分近似被修正,該修正在下面等式(33)中反映。HN(θd)=1A(θd)ΣmPN[sin-1(γm,dITDmaxfm+sinθd),m],]]>d=1,…,I,(33)其中A(θd)表示涉及加法的點數(shù)。注意到,等式(30)是對應(yīng)于γm,d=0的等式(33)的特殊情況。這樣,當(dāng)需要在頻率上積分的第二技術(shù)時,等式(33)被用來代替等式(30)。
如在等式(2)中給出的,變量θi和τi是等價的,并表示雙路延遲線中的位置。這些變量間的差值是θi,通過利用其對應(yīng)的空間方位角,θi表明雙路延遲線中的位置,通過使用τi的對應(yīng)時間延遲單元,τi表示位置。因此,如果如下面等式(34)中定義的那樣,模板濾波功能由τi表示,那麼模板變的更簡單。τi-τd=γm,d2fm,-----(34)]]>其中,通過等式(14),τd與θd相關(guān)。對于特定的τd,正確的γm,d的范圍由等式(35)給出-(ITDmax/2+τd)fm≤γm,d≤ITDmax/2-τd)fm,γm,d是一個整數(shù)。
(35)
改變τd僅僅使得一致模板(或模板)沿τi軸移動,而不改變其形狀。等式(34)和(35)表征的方法可以用來代替感興趣的每個方位角位置的分離模板;然而由于延遲單元τi的縮放沿雙路延遲線是統(tǒng)一的,雙路延遲線完成的方位角劃分并不是統(tǒng)一的,而是越接近中點平面的區(qū)域具有較高的方位角分辨率。另一方面,為了獲得方位角中的相等分辨率,利用統(tǒng)一τi將比利用統(tǒng)一θi需要更大的延遲單元I。
圖16的信號流圖說明了定位操作器460的選定細節(jié)。在均衡因子αi(m)被設(shè)置為單位值情況下,延遲級344的延遲信號對被送給一致檢測操作器462來為每個頻率索引m確定一致點。檢測操作器462根據(jù)等式(22)或(26)確定最小值。對于給定的m,每個一致檢測操作器462將結(jié)果in(m)發(fā)送給對應(yīng)的模板產(chǎn)生器464。對于每個索引為m的頻率,產(chǎn)生器464創(chuàng)建了一個兩維一致圖,并將結(jié)果值送給對應(yīng)的加法操作器466以便為該給定頻率執(zhí)行等式(28)表示的操作。加法操作器466近似了在時間上的積分。在圖16中,只有對應(yīng)于m=1到m=M的操作器462,464和466被舉例以保證清晰度,其中對應(yīng)于m=2到m=M-1的操作器由省略點表示。
加法操作器466將結(jié)果傳送給加法操作器468以近似對頻率的積分。如果高頻處的產(chǎn)生于第二關(guān)系的人工跡象不存在或可以被忽略,那麼操作器468可以根據(jù)等式(30)配置。此外,具有包括第二關(guān)系的預(yù)測一致模板的模板濾波可以通過施加具有加法操作器468的等式(33)執(zhí)行。
再次參考圖15,操作器468將HN(θd)輸出給輸出設(shè)備490以映射對應(yīng)的聲學(xué)源位置信息。設(shè)備490最好包括一個顯示器或打印機,它們能夠給出表示聲源空間安排的圖,其中的聲源與預(yù)定的方位角位置相關(guān)。此外,可以在聲源位置移動時,對其進行動態(tài)定位和跟蹤??梢愿鶕?jù)在每個樣本窗n計算出的定位δ(i-in(m))組估計出移動軌跡。對于其它的將系統(tǒng)410引入較小的便攜單元的實施方案,例如助聽設(shè)備,最好不包括輸出設(shè)備490。在其它實施方案中,可以不包括輸出設(shè)備90。
定位操作器460的定位技術(shù)特別適合于定位多于兩個具有可比聲壓大小和頻率范圍的聲源,并且不需要指定軸上的期望聲源。這樣,系統(tǒng)410的定位技術(shù)能夠獨立定位并映射多于兩個聲源,這兩個聲源與參考傳感器22,24定義的一些位置相關(guān)。然而,在其它實施方案中,定位操作器460的定位能力也可以結(jié)合所表示的參考源被用來執(zhí)行提取和噪聲抑制。實際上,示例實施方案的提取操作器如下面詳細描述的那樣引入這種特征。
基于兩個傳感器檢測方案的現(xiàn)存系統(tǒng)通常僅僅嘗試通過波束形成而抑制屬于最主要干擾源的噪聲。不幸的是,當(dāng)在很近位置上存在一些可比干擾源時,該方法取值有限。
已經(jīng)發(fā)現(xiàn),通過在定位之后,抑制多個干擾源中一個或多個不同頻率分量,有可能降低復(fù)雜聲學(xué)環(huán)境中來自噪聲源的干擾,如多個說話者的情況,而不管說話者之間的暫存頻率疊加。盡管對于給定的時間幀可以抑制干擾源中一個的給定頻率分量或分量組,與簡單的僅僅將所有頻率上最強聲源置零相比,在所定位干擾聲源中對每個頻率抑制的動態(tài)分配通常導(dǎo)致期望信號更好的清晰度。
通過利用來自定位操作器460的定位信息來識別對應(yīng)于I=s之外的位置的Q個干擾聲源,提取操作器480給出該方法的一個實現(xiàn)。Q噪聲源的位置由I=noise1,noise2,…,noiseQ表示。注意到,操作器480如結(jié)合系統(tǒng)310所描述的那樣接收信號操作器350的輸出,對于每個頻率m,它們表示對應(yīng)的信號Xn(i=noise1)(m),Xn(i=noise2)(m),…,Xn(i=noiseQ)(m)。這些信號包括頻率m上的期望信號分量以及被消除的聲源之外的分量。出于提取和抑制的目的,一旦定位發(fā)生,均衡因子αi(m)不必被設(shè)置為單位值。為了確定特定噪聲源中要抑制的頻率分量或分量組,Xn(i=noise1)(m),Xn(i=noise2)(m),…,Xn(i=noiseQ)(m)的幅度被計算并比較。作為輸出S′n(m)的最小Xn(inoise)(m)由下式(36)定義Sn(m)=Xn(inoise)(m),-----(36)]]>其中Xn(inoise)(m)滿足等式(37)表示的條件,如下所示|Xn(inoise)(m)|=min{|Xn(i=noise1)(m)|,|Xn(i=noise2)(m)|,…,|Xn(i=noiseQ)(m)|,]]>|αs(m)XLn(s)(m)|};]]>(37)
對于每個m值。應(yīng)該注意到,在等式(37)中,包括了原始信號αs(m)XLn(S)(m)。所產(chǎn)生的波束模板可以常常放大其它較弱的噪聲源。當(dāng)噪聲放大量大于最強噪聲源的消除量時,可以在操作器中包括進一步的條件以防止對于該時刻的頻率改變輸出信號。
處理器30,330,430包括一個或多個以軟件,硬件或本領(lǐng)域技術(shù)人員已知的技術(shù)來實現(xiàn)的對應(yīng)算法,階,操作器,轉(zhuǎn)換器,產(chǎn)生器,陣列,過程,處理和技術(shù),它們由各個等式和信號流圖描述。如本領(lǐng)域技術(shù)人員碰到的那樣,處理器30,330,430可以是任意類型的。然而,最好的是,處理器30,330,430是基于固態(tài),集成數(shù)字信號處理器的,它們由專用硬件實現(xiàn),以便以最小的其它分量來執(zhí)行必要的操作。
系統(tǒng)310,410的大小可以根據(jù)既結(jié)合參考圖4A描述的那種助聽設(shè)備應(yīng)用而調(diào)整。在另一個助聽實施方案中,傳感器應(yīng)用22,24被縮放并整形以適用于聽者的耳廓。處理器算法被調(diào)整以考慮頭和軀干造成的陰影。這種調(diào)節(jié)可以通過獲得與頭相關(guān)的傳遞函數(shù)來給出,其中的傳遞函數(shù)是針對聽者的,或者如本領(lǐng)域技術(shù)人員已知的那樣通過平均得到的。該函數(shù)被用來為雙路延遲級輸出信號提供適當(dāng)?shù)募訖?quán)以補償遮蔽。
在另一個實施方案中,系統(tǒng)310,410被調(diào)整適用于結(jié)合圖4B所描述的那種類型的聲音識別系統(tǒng)。在另一個實施方案中,系統(tǒng)310,410可以應(yīng)用于聲源映射應(yīng)用中,或者如本領(lǐng)域技術(shù)人員已知的那樣應(yīng)用于其它應(yīng)用中。
考慮到如本領(lǐng)域技術(shù)人員已知的那樣在不偏離本發(fā)明思想的情況下,各種信號流操作器,轉(zhuǎn)換器,功能塊,產(chǎn)生器,單元,處理級,處理和技術(shù)可以被更改,重新安排,替換,刪除,復(fù)制,組合或相加。在另一個實施方案中,根據(jù)本發(fā)明的信號處理系統(tǒng)包括一個第一傳感器,該傳感器被配置用來給出對應(yīng)于聲學(xué)激勵的第一信號;該激勵包括來自第一聲源的第一聲學(xué)信號和來自與第一聲源位置不同的第二聲源的第二聲學(xué)信號。該系統(tǒng)還包括一個第二傳感器,該傳感器位置不同于第一傳感器,該傳感器被配置來給出對應(yīng)于激勵的第二信號。該系統(tǒng)還包括一個處理器,該處理器可以對應(yīng)于第一和第二傳感器信號以第一聲學(xué)信號的譜表示來產(chǎn)生期望的信號。該裝置包括具有一些給出延遲第一信號的第一抽頭和具有一些給出延遲第二信號的第二抽頭的第一延遲線和第二延遲線。該系統(tǒng)還包括輸出裝置用于產(chǎn)生表示期望信號的傳感器輸出表示。在另一個實施方案中,一種信號處理方法包括在第一位置檢測第一聲學(xué)激勵以給出對應(yīng)的第一信號并且在第二位置檢測聲學(xué)激勵以給出對應(yīng)的第二信號。該激勵信號是來自第一聲源的期望聲學(xué)信號和來自第二聲源的干擾聲學(xué)信號的組合,其中第二聲源與第一聲源位置不同。該方法還包括按照第一和第二信號的函數(shù)從空間相對于第一聲源來定位第二聲源,并在該定位執(zhí)行過程中產(chǎn)生表示期望聲學(xué)信號的特征信號。
實驗部分下面的實驗結(jié)果僅僅作為示例被提供以增強對本發(fā)明的理解,而不能被構(gòu)造成對本發(fā)明思想的限制。
示例一臺sun aparc-20工作站被編程以仿真本發(fā)明的信號提取過程。揚聲器(L1)被用來發(fā)射語音信號,另一個揚聲器(L2)被用來在半消聲室中發(fā)射噪聲信號。兩個傳統(tǒng)類型的麥克風(fēng)被定位在室中,并與工作站相連。這些麥克風(fēng)之間的舉例大約為15厘米,并且與L1大約3英尺。L1與麥克風(fēng)之間的中點對齊以定義零方位角。L2被定位在相對于L1不同的、近似與L1和L2的中點相等的方位角上。
參考圖5,給出了大約2秒的清晰的語音句子,該句子從L1發(fā)出,并且沒有來自L2的干擾。圖6給出了來自L1和L2的組合信號,該組合信號包括來自L2的噪聲,該噪聲信號與圖5中給出的語音信號組合。噪聲和語音信號基本上具有相等的強度(0dB),并且L2相對于L1位于大約60度的方位角上。圖7給出了從圖6的組合信號中恢復(fù)出來的信號,該信號基本上與圖5的信號一樣。
圖8給出另一個組合信號,其中噪聲信號比圖5的期望信號強30dB。此外,L2與L1的位置僅僅差2度方位角。圖9給出了從圖8的組合信號恢復(fù)的信號,并給出圖5信號的清晰表示,而不管來自L2和附近位置的更大的噪聲強度。
示例2對應(yīng)于系統(tǒng)410的實驗是在兩個組的情況下進行的,其中每個組中有四個說話者(2個男性,兩個女性)。每個組合會進行5個不同的測試,每個測試中聲源的空間配置不同。四個說話者根據(jù)圖14的聲源412,414,416和418進行安排,在每個測試中角度412a,414a,416a,418a具有不同的值。圖14的示例最接近地對應(yīng)于角度418a=-75度,412a=0度,414a=+20度,416a=+75度的第一測試。圖18的一致模板612,614,616,618也對應(yīng)于-75度,0度,+20度,和+75度的方位角位置。
這些測試的實驗設(shè)置是為傳感器22,24使用了兩個麥克風(fēng),麥克風(fēng)的間距為144mm。兩個麥克風(fēng)之間不存在衍射和遮蔽,并且對于這些測試,麥克風(fēng)間的強度差值被設(shè)置為0。這些信號在6kHz下被低通濾波,并以12.8KHz采樣,16比特量化。一臺基于wintel的計算機被編程以接收量化信號用于根據(jù)本發(fā)明的處理,并輸出此后描述的測試結(jié)果。在短時譜分析中,20毫秒的信號段被漢寧窗加權(quán),然后被填充0以達到2048點以用于DFT,因此頻率分辨率大約為6Hz。時間延遲單元τi的值(i=1,…,I)被確定使得雙路延遲線的方位角分辨率為統(tǒng)一的0.5度,即I=361。測試中使用的雙路延遲線是方位角統(tǒng)一的。一致檢測方法是基于最小幅度差值的。
5個測試中的每一個都包括4個子測試,其中不同的說話者被選做理想聲源。為了在最困難的測試約束下測試系統(tǒng)性能,語音素材(4個等強度揚揚格字)被故意臨時對齊。語音素材出現(xiàn)在自由場。說話者的定位是利用等式(30)和等式(33)一起進行的。
系統(tǒng)性能是利用目標清晰度加權(quán)測量來評估的,如在Poterson,P.M,“Adaptive Array Processing for multiple microphonehearing aids(多傳聲器助聽器的自適應(yīng)陣列處理),”博士論文,Dept.Elect.Eng and Comp Sci,MIT;Res Lab.Elect Tech Rept.541,MIT,Cambridge,MA(1989)中推薦并在Liu,C.和Sideman,S.,“Simulation of fixed microphone arrays for directionalhearing aids(定向助聽器的固定傳聲器陣列的模擬)”,J.Acoust.Soc.Am,100,848-856(1996)中詳細描述的。具體的,清晰度加權(quán)信號消除,清晰度加權(quán)噪聲消除以及凈清晰度加權(quán)增益被使用。
實驗結(jié)果在圖19-22的表1,2,3和4中給出,通過使用等式(30),圖19的表1中描述的5個測試近似了頻率上的積分;并包括兩個男性說話者M1,M2和兩個女性說話者F1,F(xiàn)2。圖20的表2中描述的5個測試與表1一樣,除了對頻率的積分是由等式(33)近似的。圖21的表3中描述的5個測試利用等式(30)近似在頻率上的積分;并包括兩個不同的男性說話者M3,M4和兩個不同的女性說話者F3,F(xiàn)4。圖22的表4中描述的5個測試與表3中一樣,除了對頻率的積分由等式(33)近似之外。
對于每個測試,數(shù)據(jù)被放置在矩陣中,矩陣中對角線上的數(shù)字表示期望噪聲源的以dB表示的噪聲消除程度(理想為0dB),其它的數(shù)字表示每個噪聲源的噪聲消除度。倒數(shù)第二列表示所有噪聲源加在一起的消除程度,而最后一列給出了(既考慮了噪聲消除又考慮了期望信號的損耗)凈清晰度加權(quán)改進。
這些結(jié)果通常給出范圍為3-11dB的清晰度加權(quán)側(cè)量值中的消除,而期望聲源的衰減通常小于0.1dB。總的噪聲消除在8-12dB的范圍內(nèi)。各個表的比較表明在測試中很少依賴于說話者或語音素材。類似的結(jié)果可以從6個說話者實驗中得到。一般地,當(dāng)存在產(chǎn)生于6個不同揚聲器的6個大小相等,臨時對齊的語音聲音時,清晰度加權(quán)信噪比中7-10dB的增強會產(chǎn)生。
當(dāng)每個出版物或?qū)@暾埍环謩e或特地指明作為參考引用時,該細則中舉例的所有出版物和專利申請在這里作為參考引用,包括但不局限于美國專利申請?zhí)?8/666,757發(fā)布于1996.6.19以及發(fā)布于1998.11.16的美國專利申請?zhí)?8/193,158。此外,這里陳述的任何理論,操作機制,證據(jù),或發(fā)現(xiàn)意味著進一步增強對本發(fā)明的理解,而不是試圖使下面權(quán)利要求定義的本發(fā)明或本發(fā)明范圍以任何方式依賴于這種理論,操作機制,證據(jù)或發(fā)現(xiàn)。盡管本發(fā)明已經(jīng)在附圖和前面的描述中舉例并描述,同樣的,它們也僅僅被認為是示例,而不是限制,要理解的是,只有選出的實施方案已經(jīng)給出并描述,并且所有在下面權(quán)利要求定義的本發(fā)明思想范圍內(nèi)的改變,修正和等價物都是被保護的。
權(quán)利要求
1.一種方法,包括從第一聲學(xué)傳感器給出第一信號,從第二聲學(xué)傳感器給出第二信號,這第一和第二傳感器處于不同位置,第一信號和第二信號每一個對應(yīng)于兩個或多個聲源,所述聲源包括多個干擾源和一個期望聲源,根據(jù)第一和第二信號定位干擾源以給出對應(yīng)數(shù)量的干擾源信號,每個干擾源信號對應(yīng)于一個不同的干擾源,并且每個干擾源信號包括多個頻率分量,這些分量每一個對應(yīng)于不同的頻率;以及抑制每個干擾源信號中每一個的一個或多個不同頻率分量來降低噪聲。
2.權(quán)利要求1的方法,其中所述抑制包括提取表示期望聲源的期望信號。
3.權(quán)利要求2的方法,其中所述提取包括按照干擾信號的函數(shù)確定一個最小值。
4.權(quán)利要求1-3中任何一個的方法,其中所述定位包括以一些一致模板來濾波,每個模板對應(yīng)于一些預(yù)定的相對于第一和第二傳感器的空間位置之一,每個模板給出一個虛位置信息,該虛位置信息相對于所述預(yù)定的空間位置之一隨頻率變化。
5.權(quán)利要求1的方法,還包括對一組頻率中的每個頻率以不同的雙路延遲線對第一和第二信號延遲以給出對應(yīng)數(shù)量的延遲信號以執(zhí)行所述的定位。
6.權(quán)利要求5的方法,還包括在所述定位之后處理延遲信號以執(zhí)行所述抑制。
7.權(quán)利要求6的方法,還包括在所述延遲之前,將第一和第二信號從時域形式轉(zhuǎn)換成以所述頻率表征的頻域形式。提取表示期望聲源的期望信號,所述提取包括所述抑制;將期望信號從頻域形式轉(zhuǎn)換到時域形式,根據(jù)期望信號的時域形式產(chǎn)生期望聲源的聲學(xué)輸出表示。
8.權(quán)利要求5的方法,其中每個干擾信號是按照唯一的延遲信號對幅度間的差值與按照延遲量的函數(shù)確定的差值之間的比例來根據(jù)所述延遲信號對來確定的,其中的延遲量與唯一延遲信號對中的每一個成分相關(guān)。
9一種系統(tǒng),包括一對分離的聲學(xué)傳感器,每一個傳感器被安排來檢測兩個或多個不同定位的聲源,并對應(yīng)產(chǎn)生輸入信號對,所述聲源包括期望聲源和多個干擾源;對應(yīng)于所述輸入信號產(chǎn)生一些延遲信號的延遲操作器,對應(yīng)于所述延遲信號相對于所述傳感器的位置來定位所述干擾源的定位操作器,該操作器還給出多個干擾源信號,每個信號表示對應(yīng)的一個所述干擾源,所述干擾源信號各自由多個頻率分量表示,所述分量分別對應(yīng)于不同頻率,對應(yīng)于所述干擾源信號來抑制每個所述干擾源信號的所述頻率分量至少之一的提取操作器,該操作器還提取對應(yīng)于所述期望聲源的期望信號,所述至少一個所述頻率分量對于每個所述干擾源信號是不同的,對應(yīng)于所述期望信號給出對應(yīng)于所述期望聲源的輸出的輸出設(shè)備。
10.權(quán)利要求9的系統(tǒng),其中所述定位操作器包括一個濾波器來相對于一些位置定位所述干擾源,所述濾波器基于模糊位置信息的不同一致模板,其中的模糊位置信息對于每個所述位置隨頻率變化。
11.權(quán)利要求9的系統(tǒng),還包括對應(yīng)于所述輸入信號將每個所述輸入信號從模擬形式轉(zhuǎn)換成數(shù)字形式的模數(shù)轉(zhuǎn)換器;對應(yīng)于所述輸入信號的所述數(shù)字形式將所述輸入信號從時域形式轉(zhuǎn)換成以多個離散頻率表示的頻域形式的第一轉(zhuǎn)換級,對于每個所述頻率,所述延遲操作器包括一個雙路延遲線,對應(yīng)于所述期望信號將所述期望信號從數(shù)字頻率形式轉(zhuǎn)換成數(shù)字時域形式的第二轉(zhuǎn)換級,對應(yīng)于所述數(shù)字時域形式,將所述期望信號轉(zhuǎn)換成所述輸出設(shè)備的模擬輸出形式的數(shù)摸轉(zhuǎn)換器。
12.權(quán)利要求9-11中任何一個的系統(tǒng),其中所述延遲操作器,所述定位操作器,所述提取操作器由固態(tài)信號處理設(shè)備提供。
13.權(quán)利要求9-11中任何一個的系統(tǒng),其中所述期望聲源信號是按照所述干擾信號的函數(shù)確定。
14.權(quán)利要求9-11中任何一個的系統(tǒng),其中所述干擾源信號是根據(jù)唯一的所述延遲信號對確定的。
15.權(quán)利要求14的系統(tǒng),其中所述干擾信號對應(yīng)于所述延遲信號對幅度差值與按照延遲量的函數(shù)確定的差值之間的比例,其中的延遲量與所述延遲信號對的每個分量相關(guān)。
16.權(quán)利要求9-11中任何一個的系統(tǒng),其中所述輸出設(shè)備被配置來給出表示所述期望聲源的聲學(xué)輸出。
17.一種方法,包括放置第一聲學(xué)傳感器和第二聲學(xué)傳感器以檢測多個不同定位的聲源;以所述第一傳感器產(chǎn)生對應(yīng)于第一聲源的第一信號,以所述第二傳感器產(chǎn)生對應(yīng)于第二聲源的第二信號;根據(jù)第一和第二信號給出一些延遲后的信號對,延遲信號對每一個對應(yīng)于相對第一和第二傳感器中的一些位置之一;按照延遲信號對和一些一致模板的函數(shù)來定位聲源,每個模板對應(yīng)于其中一個位置,建立期望的聲源位置信息隨可歸于在所述位置之一處的源的頻率的期望變化。
18.權(quán)利要求17的方法,其中一致模板對應(yīng)于一些關(guān)系,這些關(guān)系表征了偽聲源位置隨頻率的變化,這些關(guān)系對應(yīng)于不同的模糊相位。
19.權(quán)利要求18的方法,還包括為每個一致模板按照第一和第二傳感器間距的函數(shù)來確定所述關(guān)系。
20.權(quán)利要求18的方法,其中的關(guān)系對應(yīng)于第二包絡(luò),該包絡(luò)相對于主要包絡(luò)而彎曲,主包絡(luò)表示根據(jù)對應(yīng)于其中一個位置的延遲信號對確定的頻率不變聲源位置信息。
21.權(quán)利要求17到20中任何一個的方法,其中所述定位包括以一致模板濾波以便以偽位置信息來增強真實的位置信息。
22.權(quán)利要求21的方法,其中所述定位包括在時間上積分和在頻率上積分。
23.權(quán)利要求17到20中任何一個的方法,其中第一傳感器和第二傳感器是助聽設(shè)備中的一部分,并包括以與頭相關(guān)的傳遞函數(shù)來調(diào)整延遲信號對。
24.權(quán)利要求17到20中任何一個的方法,主要包括在所述定位之后提取期望的信號;對于選出數(shù)量聲源的每個,抑制不同的頻率分量組以降低噪聲;
25.權(quán)利要求17到20中任何一個的方法,其中每個位置對應(yīng)于相對于第一和第二傳感器建立的方位角,還包括產(chǎn)生表示每個聲源相對位置的映射圖。
26.一種系統(tǒng),包括一對分離的聲學(xué)傳感器,每個都被配置來產(chǎn)生輸入信號對中的對應(yīng)一個信號,這些信號表示一些不同定位的聲源;對應(yīng)于所述輸入信號來產(chǎn)生一些延遲信號的延遲操作器,其中的每個所述延遲信號對應(yīng)于相對所述傳感器的一些位置之一,對應(yīng)于所述延遲信號來根據(jù)所述延遲信號和一些一致模板確定一些聲源定位信號的定位操作器,每個所述模板對應(yīng)于其中一個所述位置以及相關(guān)的頻率變化聲源位置信息,該信息是由模糊相位乘以所述一個位置來提高聲源定位而造成的。
27.權(quán)利要求26的系統(tǒng),還包括對應(yīng)于所述輸入信號將每個所述輸入信號從模擬形式轉(zhuǎn)換成數(shù)字形式的模數(shù)轉(zhuǎn)換器;對應(yīng)于所述輸入信號的所述數(shù)字形式將所述輸入信號從時域形式轉(zhuǎn)換成以多個離散頻率表示的頻域形式的第一轉(zhuǎn)換級,對于每個所述頻率,所述延遲操作器包括一個雙路延遲線。
28.權(quán)利要求27的系統(tǒng),還包括根據(jù)所述定位信號提取期望信號的提取操作器;對應(yīng)于所述期望信號將所述期望信號從數(shù)字頻率形式轉(zhuǎn)換成數(shù)字時域形式的第二轉(zhuǎn)換級;對應(yīng)于所述數(shù)字時域形式,將所述期望信號轉(zhuǎn)換成所述輸出設(shè)備的模擬輸出形式的數(shù)摸轉(zhuǎn)換器。
29.根據(jù)權(quán)利要求26-28中任何一個的系統(tǒng),其中所述輸出設(shè)備被配置以給出聲源定位圖。
30.權(quán)利要求26-28中任何一個的系統(tǒng),其中所述延遲操作器,所述定位操作器,所述提取操作器由集成固態(tài)信號處理器提供。
31.權(quán)利要求26-28中任何一個的系統(tǒng),其中所述定位操作器根據(jù)所述延遲信號為所述聲源中的一個確定最接近的一個所述位置,其方式是按照對應(yīng)于所述最接近位置的至少一個所述延遲信號和對應(yīng)于其它位置的至少兩個其它所述延遲信號的函數(shù)來確定,所述至少兩個其它所述延遲信號是根據(jù)一個對應(yīng)的所述一致性模板確定的。
32.一種系統(tǒng)包括一對分離的聲學(xué)傳感器,每個都被配置來產(chǎn)生輸入信號對的對應(yīng)一個信號,這些信號表示一些不同定位的聲源;相應(yīng)所述傳感器的信號處理器,所述處理器包括(a)根據(jù)所述輸入信號來產(chǎn)生一些延遲信號的裝置,其中的每個延遲信號對應(yīng)于相對所述第一和第二傳感器的一些位置之一;(b)按照所述延遲信號和其中一個對應(yīng)模板將每個所述聲源定位到其中一個所述位置的裝置,所述模板為對應(yīng)于其中一個所述位置的頻率不變數(shù)據(jù)以及對應(yīng)于至少另外兩個位置的頻率相關(guān)數(shù)據(jù)的模板;(c)用于抑制所述造成干擾的聲源中選出部分中每一個的不同頻率分量并提取表示其中一個所述聲源的期望信號的裝置;對應(yīng)于所述期望信號給出對應(yīng)于其中一個所述聲源的輸出的輸出設(shè)備。
33.權(quán)利要求32的系統(tǒng),其中所述處理器包括以與頭相關(guān)傳遞函數(shù)來調(diào)節(jié)所述延遲信號的裝置。
34.一種信號處理系統(tǒng),包括(a)位于第一位置被配置來給出對應(yīng)于聲學(xué)信號的第一信號的第一傳感器,所述聲學(xué)信號包括從選定聲源發(fā)出的期望信號和從噪聲源發(fā)出的噪聲;(b)位于第二位置被配置來給出對應(yīng)于聲學(xué)信號的第二信號的第二傳感器;(c)一個信號處理器,對應(yīng)于所述第一和第二信號從而產(chǎn)生對應(yīng)于所述第一信號的離散第一譜信號和對應(yīng)于所述第二信號的離散第二譜信號,所述處理器被配置來以一些時間間斷來延遲所述第一和第二譜信號以產(chǎn)生一些延遲的第一譜信號和第二譜信號,并給出時間增加信號,所述時間增加信號對應(yīng)于選定聲源與噪聲源的分離,所述處理器被進一步配置來按照所述時間增加信號的函數(shù)產(chǎn)生輸出信號;(d)對應(yīng)于所述輸出信號給出表示所述期望信號的輸出的輸出設(shè)備。
35.權(quán)利要求34的系統(tǒng),其中所述第一和第二傳感器每個都包括一個麥克風(fēng),所述輸出設(shè)備包括一個音頻揚聲器。
36.權(quán)利要求34的系統(tǒng),其中所述處理器包括一個模數(shù)轉(zhuǎn)換電路被配置來給出所述離散第一譜信號。
37.權(quán)利要求34的系統(tǒng),其中所述第一和第二譜信號的產(chǎn)生包括離散傅里葉變換算法的執(zhí)行。
38.權(quán)利要求34的系統(tǒng),其中所述第一和第二傳感器被配置來移動以根據(jù)所述第一和第二傳感器的位置選出所述期望信號,所述第一和第二傳感器被配置在空間位置上相對固定。
39.權(quán)利要求34-38中任何一個的系統(tǒng),其中所述每個第一信號對應(yīng)于來自第一延遲線的其中一個第一抽頭,所述每個第二信號對應(yīng)于來自第二延遲線的其中一個第二抽頭。
40.權(quán)利要求39的系統(tǒng),其中所述輸出信號的確定對應(yīng)于所述第一和第二延遲線被配置成雙路延遲線;所述離散第一譜信號被輸入到所述第一延遲線,所述離散第二譜信號被輸入到所述第二延遲線;每個所述第一抽頭,第二抽頭,第一和第二譜信號被安排為一些信號對,所述信號對包括信號對的第一部分和信號對的第二部分,所述處理器被配置按照所述時間間斷的函數(shù)對所述第一部分的每個所述信號對執(zhí)行第一操作,所述處理器被配置按照所述時間間斷的函數(shù)對所述第二部分的每個所述信號對執(zhí)行第二操作,所述第一操作不同于所述第二操作。
41.一種信號處理方法,包括(a)相對于第一信號源定位第一和第二傳感器,第一和第二傳感器互相分離,第二信號源與第一信號源互相分離;(b)從第一傳感器提供第一信號,從第二傳感器提供第二信號,第一和第二信號每一個都代表組合聲學(xué)信號,該組合聲學(xué)信號包括來自第一信號源的期望信號和來自第二信號源的不期望信號;(c)根據(jù)第一和第二信號,按照一些頻率的函數(shù)來建立一些譜信號,每個譜信號表示相對于第一信號源的不同位置;(d)確定一些表示第二信號源位置的譜信號成員;(e)根據(jù)所述成員產(chǎn)生輸出信號,輸出信號表示第一信號的譜值。
42.權(quán)利要求41的方法,其中的成員是按照相位差值的函數(shù)確定的。
43.權(quán)利要求41的方法,其中的期望信號包括語音,輸出信號由助聽設(shè)備給出。
44.權(quán)利要求41-43中任何一個的方法,還包括重新定位第一和第二傳感器以便從第三信號源提取第三信號。
45.權(quán)利要求41-43中任何一個的方法,其中所述建立包括(a1)將第一和第二信號延遲一些時間間斷以產(chǎn)生一些延遲的第一信號和第二信號;(a2)將每個第一延遲信號與延遲第二信號比較,每個譜信號是延遲第一信號和延遲第二信號中至少一個的函數(shù)。
全文摘要
通過以處理器(30)產(chǎn)生一個表示期望信號的信號,期望的聲學(xué)信號從噪聲環(huán)境中提取出來。處理器(30)從位置不同的兩個傳感器(22,24)接收可聽聲音信號。處理器(30)這兩個輸入被從模擬形式轉(zhuǎn)換成數(shù)字形式,并傳送給離散傅里葉變換過程以產(chǎn)生離散譜信號表示。該譜信號被延遲以給出一些中間信號,每個中間信號對應(yīng)于相對兩個傳感器的不同空間位置。噪聲源,期望的信號源以及期望信號的譜內(nèi)容是根據(jù)對應(yīng)于噪聲源位置的中間信號確定的。選出中間信號的反變換之后是數(shù)模轉(zhuǎn)換,這樣以輸出設(shè)備(90)給出表示期望信號的輸出信號。定位多個聲源的技術(shù)也被描述。另外,基于兩個傳感器接收的、對于多源噪聲衰減增強的技術(shù)也得到描述。
文檔編號H04R25/00GK1333994SQ99815559
公開日2002年1月30日 申請日期1999年11月16日 優(yōu)先權(quán)日1998年11月16日
發(fā)明者A·S·馮, C·劉, R·C·比爾格爾, D·L·瓊斯, C·R·蘭辛, 小W·D·奧布里恩, B·C·維勒 申請人:伊利諾伊大學(xué)評議會