自適應波束形成器、旁瓣抑制器、自動語音通信設備的制作方法

文檔序號：2829012閱讀：271來源：國知局

專利名稱：自適應波束形成器、旁瓣抑制器、自動語音通信設備的制作方法
技術領域：
本發(fā)明涉及一種自適應波束形成器單元和包括該自適應波束形成器的旁瓣抑制器。
本發(fā)明還涉及包括該自適應波束形成器或者旁瓣抑制器的自動語音通信系統(tǒng)、便攜的語音通信設備、聲音控制單元和用以跟蹤音頻產生物體的跟蹤設備。
本發(fā)明還涉及一種包括該聲音控制單元的消費裝置。
本發(fā)明還涉及一種自適應波束形成或者旁瓣抑制的方法和包含該方法的代碼的計算機程序產品。
背景技術：
如在第一段中所述的旁瓣抑制器和包含的波束形成器的一個實施例，可以從出版物“C.Fancourt and L.ParraThe generalized sidelobe decorrelator.Proceedings of the IEEE Workshop on applications of signal processing to audio andacoustics 2001.”中得知。設計波束形成器和旁瓣抑制器用來鎖定一個期望的聲音源，即，產生占主導地位的對應于來自期望源的聲音的輸出音頻信號，同時盡可能多地避免來自其它源的聲音(稱為噪聲)。旁瓣抑制器包括自適應波束形成器，它被設置為處理來自麥克風陣列的信號，該旁瓣抑制器的波束形成器濾波器可以被最優(yōu)化，使得這些濾波器表示期望的音頻從期望的音頻源到每一個麥克風的路徑的反向(即期望的音頻通過例如在不同的表面反射出來最終從不同的方向進入到特定的麥克風而被改變)。通過合并濾波后的信號，波束形成器有效地實現(xiàn)一個對方向敏感的模式，該模式在期望聲音源的方向上具有一個高靈敏度的波瓣。例如對于純粹延時的濾波器，波束形成器實現(xiàn)一個具有一個主瓣和多個旁瓣的sin(x)/x模式。然而，該靈敏性模式帶來的問題在于來自其它源的聲音也可以被采集到。例如，噪聲源可能位于其中一個旁瓣的方向上。為了解決這個問題，旁瓣抑制器還包括自適應噪聲消除步驟。通過麥克風測量，通過從噪聲參考信號中阻止期望的聲音成分來計算噪聲參考信號，即，例如確定旁瓣中的噪聲。通過自適應濾波器的方法，從這些噪聲測量中估計有多少噪聲源從該波瓣模式中朝著期望的聲音泄漏。最后，從由主瓣采集的信號中減去該噪聲，剩下的作為最后的音頻信號主要僅僅為期望的聲音。如果方向模式是對應于該最優(yōu)的旁瓣抑制器計算出來的，那么這個模式包括一個朝著期望的聲音源的主瓣，和在噪聲源方向上的零值。
使用現(xiàn)有技術的旁瓣抑制器和波束形成器存在著許多問題，導致這一事實實際上它們經(jīng)常不像它們理想應該的那樣工作。特別地，優(yōu)良的旁瓣抑制器或者波束形成器，對于在期望的聲音源和/或噪聲源的方向是變化的環(huán)境下，是特別難以設計的，因此，對于這種情況，在一個相對短的時間間隔，濾波器可能必須重新調整。然而這種情況是非常普遍的，例如在試圖跟蹤在房間內到處移動的說話人的電話會議系統(tǒng)中，或者在對著整合在移動電話中的旁瓣抑制器說話的人連同移動電話在變化的環(huán)境中到處移動的系統(tǒng)中，例如遇到的自動車載電話套件。
沒有預先出版的歐洲申請03104334.2描述了一種波束形成器/旁瓣抑制器濾波器優(yōu)化技術來消除這兩種問題。第一，大量的不相關噪聲(理論上對應于無限源)的存在，例如在車載應用中的風。該申請解決的第二問題是阻止引入相當多的“語音泄漏”到噪聲的測量中，這發(fā)生在如果例如波束形成器主瓣從它的最優(yōu)的方向朝著期望的聲音源和干擾聲音源之間的方向移動時。由于干擾聲音源在每一個麥克風中引入相關的信號成分(例如相互之間純粹的延時成分)，因此以下也將其稱作相關噪聲。
03104334.2中單獨為了處理不相關噪聲和語音泄漏而設計的波束形成器傍瓣抑制器，不能夠在相關噪聲即干擾聲音源存在時準確地工作，該干擾聲音源例如風扇或者從旁經(jīng)過的摩托車。
由于在來自期望聲音源的聲音(例如接近終端的說話者)和形成相關噪聲源的干擾聲音之間不必然存在物理差異，因此，該系統(tǒng)可能會偏離到噪聲源上，而不能鎖定到說話者或者保持鎖定說話者，例如，如果在一個時間段內噪聲源具有比期望的聲音源更大的幅度時就會這樣，而該現(xiàn)象發(fā)生在例如當靠近終端的說話人的說話聲音比較輕且有聲音較大的卡車從旁經(jīng)過時。特別地，使用經(jīng)過許多處理步驟后得到的純凈信號來自適應調節(jié)其濾波器的旁瓣抑制器，盡管能夠得到一個最優(yōu)濾波器的優(yōu)良的估計，但是它容易脫離其最優(yōu)狀態(tài)，然后難以使系統(tǒng)回到最優(yōu)狀態(tài)，特別是在大幅度相關噪聲存在時。

發(fā)明內容
本發(fā)明的首要目標在于提供一種自適應波束形成器單元，該單元對于相關噪聲的影響，即，一個非期望的第二聲音源，具有一定的魯棒性。
該首要目標的實現(xiàn)在于按照本發(fā)明的一種自適應波束形成器單元包括-濾波求和波束形成器，被設置為處理來自各自的麥克風陣列的輸入音頻信號，并且，還被設置為通過對輸入音頻信號的第一個使用第一自適應濾波器濾波，對輸入音頻信號的第二個使用第二自適應濾波器，生成占主導地位的對應于來自期望音頻源的聲音的第一音頻信號作為輸出，分別使用第一步長和第二步長自適應調節(jié)第一濾波器和第二濾波器的系數(shù)；-噪聲測度導出裝置，被設置為從輸入音頻信號導出第一噪聲測度和第二噪聲測度；-更新單元，被設置為利用等式確定第一和第二步長，該等式對于第一步長，其分母中包含第一噪聲測度，對于第二步長，其分母中包含第二噪聲測度。
該波束形成器和噪聲測度可通過03104334.2獲得，而本波束形成器使用新的更新策略，用以增加抗來自干擾聲音源的相關噪聲的魯棒性。
噪聲導出裝置對麥克風信號優(yōu)選地應用自適應濾波，例如，阻止矩陣(ablocking matrix)可以用來消除對期望音頻(例如，語音)的估計，由此生成好的噪聲測度，該期望音頻估計是在特定的濾波器路徑采集到的，也就是通過特定的麥克風從總的采集到的信號中選出來的。
通過為每一個濾波器的更新單元部分提供它自己的噪聲測度，并導出瞬間的與噪聲量成反比的更新步長，使得該濾波器對于噪聲特別不敏感。如果存在占主導地位的期望音頻，則最好設置較大的步長，使得濾波器可以跟蹤移動的期望源。如果存在大量的噪聲，則分母變大，產生較小的更新步長，所以濾波器有效地凍結，幾乎不對有害的噪聲的影響產生反應。特別地，如果濾波器對于期望源、空間特性、麥克風位置等被最優(yōu)化，則濾波器使用小的更新步長就可以在很大程度上保持在最優(yōu)的設置。
在自適應波束形成器單元的優(yōu)選實施例中，噪聲測度導出裝置被設置為，通過從第一麥克風采集到的期望音頻源中減去期望的聲音測度，從而從第一輸入音頻信號中導出第一噪聲測度；通過從第二麥克風采集到的期望音頻源中減去第二期望的聲音測度，從而從第二輸入音頻信號中導出第二噪聲測度。
理想地，由對應于特定的波束形成器濾波器的麥克風實際采集到的噪聲被應用在自適應步長等式中。如果存在例如兩個噪聲源——風扇和摩托車——則每個麥克風都將采集到一個總的噪聲信號，它們是來自兩個源的聲音的組合，由于這里麥克風信號是相關的，因此由每一個噪聲源引入的子信號的相關可以確定。由于濾波器更新等式一般包含期望音頻測度和整個噪聲干擾測度的內積，后者可以使濾波器遠離它們的最優(yōu)設置，特別是當它比較大時。因此，應該完全正確地計算出該總噪聲。
該自適應波束形成器單元實施例的一個特殊的實現(xiàn)形式使用等式來獲得步長，該步長等于αm[f,t]=βPzz[f,t]/(Pzz[f,t]+γPxmxm[f,t]),]]>其中m是索引，指示使用得到的步長αm來自適應調節(jié)哪個濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時刻，z表示第一音頻信號，xm分別是第一和第二噪聲測度，在本實施例中，即由對應的第m個麥克風采集到的噪聲測度，該噪聲測度是由從麥克風輸入音頻信號um中減去期望的音頻得到的，P..表示用來得到信號(.表示同它的下標指示的)功率的等式，β和γ是預先確定的常數(shù)。本領域技術人員可以認識到，有一些功率測度可供選擇，典型的一個是，例如，在一段時間內信號平方的積分。
但是，在另一個實施例中，第一噪聲測度和第二噪聲測度由輸入音頻信號的各自的線性組合來確定。
相關噪聲的有害的行為可以通過，例如，使步長等式的分母依賴于所有噪聲源的和來克服?；蛘?，期望音頻(一般是語音)的線性組合一被消除的麥克風信號，可以從自適應噪聲估計器得到，該估計器具有作為輸出的每一個噪聲源單獨的測度(一個是風扇噪聲的測度，另一個是摩托車噪聲的測度，等)。然后，這些噪聲測度可以用作分母，或者加到已經(jīng)出現(xiàn)在更新步長等式的分母上的噪聲測度上。在許多情況下，這會比當如上所述使用在特定濾波器信道中的整個噪聲的測度時具有某種程度的更小的魯棒性更新行為。
自適應波束形成器也可以包含在旁瓣抑制器拓撲中，該拓撲進一步包括-自適應噪聲估計器，被設置為利用第二組自適應濾波器，對從輸入音頻信號導出的第一和第二噪聲測度進行濾波，產生估計的噪聲信號；-減法器，被設置為從第一音頻信號中減去估計的噪聲信號，得到無噪聲的第二音頻信號；-可選的更新單元，被設置為利用等式確定第一和第二步長，該等式包括第二音頻信號的幅度測度，并且，該等式對于第一步長，其分母中包含第一噪聲測度，對于第二步長，其分母中包含第二噪聲測度。
旁瓣抑制器允許產生更加純凈的期望音頻信號—第二音頻信號—和對噪聲的更加純凈的測度(即，信號更大程度上僅僅對應于實際采集到的噪聲，和盡可能少的仍然保留其中的期望音頻的殘余)。該拓撲產生比使用上面的波束形成器單元更好的優(yōu)化結果，但是，一般來說不僅具有優(yōu)化的波束形成器濾波器，而且還有語音阻止矩陣和噪聲估計器的濾波器的旁瓣抑制器，對于噪聲更加敏感，使得該新的更新策略非常重要。本領域技術人員可以由非預先公布的歐洲申請?zhí)枮?3104334.2的專利申請中得知，如何優(yōu)化阻止矩陣和與波束形成器的濾波器相關的噪聲估計器濾波器。
旁瓣抑制器的實例性實施例通過使用等式得到步長，可基于第二音頻信號來實現(xiàn)更新，該步長等于αm[f,t]=βPrr[f,t]/(Prr[f,t]+γPvmvm[f,t]),]]>其中m是索引，指示使用得到的步長大小αm來自適應調節(jié)哪個濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時刻，r是第二音頻信號，Vm是由對應的第m個麥克風采集到的噪聲測度，無噪的第二音頻信號(r)作為期望音頻的測度被減去了，P表示用來得到信號功率的等式，β和γ是預先確定的常數(shù)。
這又是一個優(yōu)化等式，該優(yōu)化等式對于每一個單獨的濾波信道使用噪聲測度Vm(對于這個旁瓣抑制器更新拓撲，噪聲測度一對一地對應于波束形成器單元更新的測度Xm)。
自適應波束形成器或者旁瓣抑制器的實施例包括一個縮放因子確定單元，被設置為確定單獨的縮放因子來縮放波束形成器的第一濾波器和第二濾波器的步長，縮放因子基于語音泄漏和/或不相關的噪聲的量來確定。
將對于相關噪聲具有魯棒性的本更新方案與對于其他非理想類型具有魯棒性的方案結合起來是有益的，其中，對于其他非理想類型的魯棒的方案例如在03104334.2所披露的方案。如果波束形成器/旁瓣抑制器是接近最優(yōu)的，則本自適應步長確定方案可確定正確的步長。但是，如果濾波器對于最優(yōu)有稍許偏離(或者至少趨向于偏離最優(yōu))，則目前的方案不會工作得很好，但是03104334.2中步長的確定方法可以用來使濾波器回到它們最優(yōu)的設置。
將自適應波束形成器或者旁瓣抑制器設置為從基于音頻的說話者跟蹤器和/或基于視頻的說話者跟蹤器接收位置數(shù)據(jù)也是有益的。其中，基于音頻的說話者跟蹤器被配置為基于說話者的聲音確定說話者在空間中的位置，基于視頻的說話者跟蹤器被配置為基于拍攝的圖像確定說話者在空間中的位置。其中，第一濾波器和第二濾波器的系數(shù)基于位置來確定，該位置由基于音頻的說話者跟蹤器和/或基于視頻的說話者跟蹤器來確定。
如果存在許多大功率的聲音源，即使結合上面兩種更新方案，使濾波器收斂于它們的最優(yōu)點也可能是困難?？梢允褂脛e的設備來幫助該系統(tǒng)，例如，基于視頻的說話者跟蹤器可以在拍攝的圖像中使用圖像處理軟件來檢測對應于說話者的臉譜，基于此，濾波器的系數(shù)重新初始化，使得主瓣至少稍許地更加指向說話者的臉譜的空間位置。
自適應波束形成器和旁瓣抑制器一般被應用在各種類型的(例如，一般是自動的)語音通信系統(tǒng)中，例如包含安排在一個桌子上的小的群體實現(xiàn)遠程電信會議，或者汽車套件(分布在汽車里面的麥克風)。波束形成器單元或者旁瓣抑制器也可以包含在一個便攜式的語音通信設備中，例如移動電話、個人數(shù)字助手、口述裝置或者其他具有類似通信能力的設備。該自適應波束形成器/旁瓣抑制器優(yōu)點還在于聲音控制裝置，例如，電視機的遙控器，或者個人電腦上的語音轉文本系統(tǒng)，為了提高這些裝置的語音識別能力，對于這些設備，噪聲是一個重要的問題。其他設備可以是各種消費設備、電梯或者智能房間的組成部分、安全系統(tǒng)(例如依賴于聲音識別的系統(tǒng))、消費交互終端等。
該系統(tǒng)也用于跟蹤設備中，一般用于安全應用，或者為了某些目的而監(jiān)控用戶的行為的應用。例如，一個例子可以是基于夜賊的特征噪音而對其進行放大的照相機。
自適應波束形成的相應的方法包括a)使用第一自適應濾波器(f1(-t))對來自第一麥克風的第一輸入音頻信號進行濾波，使用第二自適應濾波器(f2(-t))對來自第二麥克風的第二輸入音頻信號進行濾波，對濾波后的輸入音頻信號求和，產生占主導地位的對應于來自期望音頻源的的聲音的第一音頻信號；b)從輸入音頻信號導出第一噪聲測度和第二噪聲測度；
c)使用第一步長(α1)和第二步長(α2)分別自適應調節(jié)第一濾波器(f1(-t))和第二濾波器(f2(-t)的系數(shù)，該步長來自一個等式，該等式對于第一步長(α1)，其分母中包括第一噪聲測度(x1)，對于第二步長(α2)，其分母中包括第二噪聲測度(x2)，這些也被揭示。

根據(jù)本發(fā)明，參照下文描述的執(zhí)行方式、實施例以及附圖，波束形成器和旁瓣抑制器的這些和其他的方面將是明顯的，該附圖只不過作為不受限制的特殊的圖來舉例說明更加一般的概念。
附圖中圖1示意性地示出了基于第一音頻信號，對應比例等式的旁瓣抑制器的實施例；圖2示意性地示出了基于第二音頻信號，對應比例等式的旁瓣抑制器的實施例；圖3示意性地示出了一種視頻會議的應用。
具體實施例方式
在圖1中，來自期望聲音源160和可能同樣來自一個或者多個非期望的噪聲源161(噪聲不應該理解為只有隨機信號例如電子熱噪聲，而是任何非期望/干擾的音頻信號)的聲音，其傳播到至少有兩個麥克風101、103的陣列。由這些麥克風輸出的信號u1，u2被第一組各自的波束形成器107的濾波器f1(-t)，f2(-t)濾波，該濾波器的系數(shù)—一般是每一個頻率帶一個系數(shù)—能夠隨著空間變化的條件自適應調整，例如移動的期望聲音源160。各自的濾波器輸出的結果信號被加法器110相加，生成第一音頻信號z。理想地，濾波器表示朝向特定麥克風的期望信號的逆路徑，因此用第一濾波器f1(-t)對第一麥克風信號u1濾波，理想準確地獲得期望聲音。因此，如果濾波器能夠很好地自適應，則第一音頻信號z就是對期望信號的良好的近似。但是，由于麥克風也采集噪聲，第一音頻信號z不可避免地也包含噪聲。麥克風信號u1，u2也用來產生噪聲測度x1，x2。為了獲得僅僅代表噪聲的信號(數(shù)學上稱正交于期望音頻信號)，通過各自的減法器115，121從麥克風信號u1，u2減去期望信號。所說的阻止矩陣111對第一音頻信號z再應用聲音傳播路徑濾波器f1，f2，來獲得由麥克風采集的期望聲音的估計。因此波束形成器107和阻止矩陣的濾波器除了時間反轉以外完全相同。自適應噪聲估計器150基于被看作從每一個麥克風獲得的噪聲測度x1，x2，...，來估計有多少噪聲被波束形成器的指向期望源的主瓣或者波瓣模式的指向期望聲音的另一部分(例如該模式的旁瓣)采集，從而估計第一音頻信號z中的噪聲的貢獻度。另外噪聲估計器150必須使用第二組自適應濾波器g1，其也與波束形成器濾波器f1(-t)，f2(-t)相關。由于在使用第二濾波器g1之前對噪聲測度x1，x2之一的數(shù)學上的依賴(存在僅僅兩個麥克風測度，導致期望音頻信號為第一音頻信號z和兩個噪聲測度x1，x2)，因此，如在03104334.2中揭露的，可以應用維數(shù)降低。
最后，減法器142被包括進來，用來從第一音頻信號z中減去估計的噪聲信號y，減法器142和噪聲估計器150共同組成噪聲抑制器，產生相對無噪的第二音頻信號r。優(yōu)選地，使用延時單元141來產生對應于噪聲信號y的時間抽樣的正確的時間抽樣(或者相似的等同物)。
上面描述的系統(tǒng)是現(xiàn)有技術已知的旁瓣抑制器。
波束形成器濾波器(以及優(yōu)選地，所有的相關的濾波器，例如，阻止矩陣濾波器和噪聲估計濾波器)使用更新單元117，123朝著它們瞬時的最佳更新。
對于現(xiàn)有技術的波束形成器的一個典型的更新規(guī)則是，采用第一音頻信號z和各自的噪聲測度作為輸入，為一個特定的頻率范圍或者頻帶附近的頻率f計算新的濾波器系數(shù)的值F(f,t+1)=F(f,t)+αPzz[f,t]z*[f,t]x[f,t]---[Eq.1]]]>在這個等式中，F(xiàn)是對于特定的頻率范圍分別在離散時間t、t+1上的特定的濾波器系數(shù)，α是一個常數(shù)，Pzz[f，t]是第一音頻信號功率的測量值，x為各自的噪聲測度(例如，x1對應于第一濾波器f1(-t)，是由第一麥克風101采集到的噪聲的測度，在第一波束形成器信道中被進一步處理，一般地，通過對由第一麥克風101實際采集到的第一輸入音頻信號減去也是由第一麥克風采集的期望音頻信號的估計來獲得)，星花代表復數(shù)的共軛。因此，如果噪聲近似正交于期望的第一音頻信號z，正如在旁瓣抑制器是最優(yōu)時所應該的那樣，則濾波器系數(shù)幾乎不被更新，如果存在臨時的無噪聲，則會出現(xiàn)相同的情況。結果由更新單元獲得的新的系數(shù)被復制到各自的濾波器，例如，波束形成器濾波器f1(-t)，f2(-t)。
用來更新第二組濾波器g1的噪聲抑制器更新單元159，現(xiàn)有技術的一個典型的更新規(guī)則是G(f,t+1)=F(f,t)+αPyy[f,t]r*[f,t]x[f,t]---[Eq.2]]]>其中，r是第二音頻信號，Pyy[f，t]是噪聲信號y的功率測度。
根據(jù)本發(fā)明，對于波束形成器濾波器的每一個更新等式[Eq.1]使用最優(yōu)的步長代替固定步長α，根據(jù)在特定信道中采集的相關噪聲的量確定最優(yōu)步長。
理論上，當濾波器被最優(yōu)化時，可以導出波束形成器的特定的第m個濾波器的性能測度為Qm[f,t]≈2αPzz[f,t]γPxmxm[f,t]---[Eq.3]]]>其中α是更新步長，γ是常數(shù)，例如近似等于麥克風的數(shù)目。步長的減小導致性能的提高，另一方面，如果采集的噪聲的功率增加，性能就會降低。
此外，更新等式1可以在概念上/近似地理解為包含以下貢獻可以假定，在最優(yōu)的條件下，第一個采集到的相關噪聲項nc與期望音頻λs(λ是比例常數(shù)，由于期望音頻測度z是不精確的，而是仍然包含其他的因素)相比是可以忽略的。μ是另一個常數(shù)，表示噪聲測度中的語音泄漏。由于阻止矩陣濾波器是最優(yōu)的，因此假定在最優(yōu)的條件下語音泄漏也是可以忽略的。因此通過近似分析，可以看出濾波器具有隨相關噪聲的量線性發(fā)散的傾向。
提出的解決方法是用相關噪聲的幅度測度除步長α，特別是功率測度。在后者的情況下，第二功率超過了在分子上的線性相關噪聲值，即，噪聲的幅度越大，更新越不敏感。但是精確的相關噪聲是不知道的，所以需要使用噪聲的測度或者相關性。在噪聲估計器150之前的噪聲測度xi是良好的測度，它是通過減去期望音頻的測度得到的，例如，從每一個各自的輸入音頻信號ui減去第一音頻信號z。
優(yōu)選地，魯棒的更新步長由以下式子決定αm[f,t]=βPzz[f,t]/(Pzz[f,t]+γPxmxm[f,t])---[Eq.5],]]>
其中m是索引，指示使用得到的步長αm自適應調節(jié)哪一個濾波器(f1(-t)，f2(-t)，f表示頻率，t表示時刻，z是第一音頻信號，xm是由對應的第m個麥克風采集到的噪聲的測度，期望音頻被從麥克風輸入音頻信號um中減去，P表示用來得到信號功率的等式，β和γ是預先確定的常數(shù)。
當濾波器接近最優(yōu)時，即使存在很強的干擾噪聲源，使用上述更新規(guī)則的波束形成器仍然能夠很好地工作。但是，可以通過增加幫助朝著最優(yōu)點收斂的部件進行改進該系統(tǒng)。因此，波束形成器可以與基于視頻的說話者跟蹤器274合作，該跟蹤器被設置為從由照相機272拍攝的圖像中確定期望聲音源的位置。在期望音頻是語音的情況下，人臉檢測可以用來識別一個或者更多的說話者，該人臉識別可以通過圖像處理(例如膚色檢測、眼睛檢測、人臉幾何確認等)的現(xiàn)有技術得到。嘴唇跟蹤(例如使用蛇行技術—一種數(shù)學曲線跟蹤技術)也可以用來檢測是否這個人真的在說話，或者來自例如無線電的語音是否檢測到。
通過圖像處理，可以獲得粗略的或者更加準確的位置估計，該位置估計被傳輸給波束形成器。波束形成器基于位置估計重新確定它的系數(shù)。例如，可以包括一個查找表，對于多個位置對應更加優(yōu)化的起始系數(shù)。空間的預先知識可能被使用。粗略的定位算法簡單地確定說話者在圖像中間的哪一邊，然后重新初始化波束形成器的主瓣分別朝著右邊或者左邊。更復雜的圖像分析可以更加準確地確定說話者的位置，例如當使用兩個照相機得到的圖像時，在3維空間中確定位置。通過繪制人臉模型，說話者頭部的位置也可以被確定(存在基于關鍵點例如眼睛的幾何性的簡單算法)。最后，如果存在空間信息，可以利用對特定空間的傳輸函數(shù)有關的頭部的更加準確的系數(shù)來重新確定濾波器。
附加地或任選地，基于音頻的說話者跟蹤器270可以被連接到或者包含在含有根據(jù)本發(fā)明的波束形成器的裝置之中。該跟蹤器270可以例如使用對采集到的輸入音頻信號(u1，u2，...)的相關分析來確定對應于出現(xiàn)在周圍的音頻源的候選方向，如在WO 00/28740中所述的。高級版本可以基于語音分析(例如女聲的共振峰與男聲的共振峰是不同頻率的)進一步確定說話者是誰，重新定位主瓣到對應于確認的特定說話者的方向上。
一般地，這個方向確定僅僅是“最初”完成的，然后波束形成器/旁瓣抑制器使用上面的自適應算法獨立地進行微調。如果微調的方向仍然移出了預先確定的準確的可靠角度，該跟蹤器將重新初始化濾波器。
兩個估計都可以按照預先確定的結合算法結合起來。
圖2顯示了旁瓣抑制器200的拓撲，用來作為第二音頻信號r的函數(shù)，完成波束形成器/阻止濾波器(在這個例子中，三個濾波器f1(-t)，f2(-t)，f3(-t)，f1，f2，f3)的更新。所以，第二波束形成器更新單元219，215，211被示意性的示于前面描述的現(xiàn)有技術的旁瓣抑制器部分的上方。第二波束形成器更新單元219，215，211具有近似構造的一組第二噪聲測度v1、v2、v3作為第二輸入，該噪聲測度是由各自的減法器產生的，例如減法器227使用第一阻止濾波器f1從第一麥克風信號u1減去對第二音頻信號r濾波后的信號，等等。
可以在數(shù)學上證明，與eq.1相似，基本的更新規(guī)則可以被聰明地選擇為F(f,t+1)=F(f,t)+αPrr[f,t]r*[f,t]v[f,t]---[Eq.6],]]>其中，r是第二音頻信號，v是與特定的要更新的波束形成器濾波器相對應的第二噪聲測度v1，v2，v3的其中之一，，Prr[f]是第二音頻信號r的功率的測度。
對于第二更新拓撲，相關噪聲魯棒的更新步長等式可以與Eq.5相類似地得到αm[f,t]=βPrr[f,t]/(Prr[f,t]+γPvmvm[f,t])---[Eq.7]]]>在該情況下，除了根據(jù)本發(fā)明在步長等式的分母上使用對應的噪聲測度vm，還使用第二音頻信號r(其中的噪聲被清除得更加徹底，即，對真實語音更好的估計)?？梢酝ㄟ^對該拓撲去掉近似等式4省略法之間的第一項中的nc這一項(只保留λs)來看出這樣做的原因。
旁瓣抑制器也可以與縮放因子確定單元250相結合，例如，在03104334.2中所披露的(雖然沒有示出，但是近似地，波束形成器的濾波器也可以獨自地使用可由03104334.2獲知的縮放因子確定單元250來調節(jié))。該縮放因子確定單元250為波束形成器(如果需要應用，阻止矩陣和噪聲抑制器的)所有的濾波器導出一個單一的縮放因子。由于存在大量的不相關噪聲或者語音泄漏，波束形成器或者旁瓣抑制器收斂困難，所以，對于這些情況設置小的步長，即使當所有的濾波器接近最優(yōu)點時。這兩個更新策略共同產生一個更加魯棒的系統(tǒng)。
在圖3中，顯示了一種視頻會議應用，例如對于家庭的或者專業(yè)的應用。在該情況下，自動語音通信設備301是一個具有電話功能的外殼，還具有例如兩個用來采集聲音的麥克風303，305(例如對于桌子周圍的四個說話者，四個麥克風可以設置在十字拓撲中)。接近終端的說話者106與遠離終端的說話者360通信。理想地，即使是在存在噪聲源的情況下，說話者160希望可以在自由地走動時使波束形成器/旁瓣抑制器始終保持鎖定他。他也可以在聲音控制單元中使用波束形成器/旁瓣抑制器，例如去控制消費裝置350的行為，例如個人電腦、電視機、家庭應用例如中央暖氣系統(tǒng)等，那么該設施特別包含多個麥克風和本發(fā)明。更加便宜的設備可以從包含聲音控制單元的家庭中心計算機得到命令。
使用者160也具有可攜帶的語音通信設備370，該設備具有集成了波束形成器單元或者旁瓣抑制器的麥克風371和372。將來，會議系統(tǒng)可以從一體化的系統(tǒng)方案向無線系統(tǒng)過渡，在無線系統(tǒng)中，參與者具有他個人的例如安置在他的衣服上或者懸掛在他的脖子上的移動設備。
公開的算法組件實際上可以(全部或者部分)用硬件(例如，專用集成電路的部分)來實現(xiàn)，或者作為可運行在專用數(shù)字信號處理器、普通的處理器等上的軟件來實現(xiàn)。
在計算機程序產品可以被理解的條件下，任何命令啟動處理器集合的物理實現(xiàn)—普通的或者特殊的目的—在經(jīng)過一系列載入步驟使命令進入處理器之后，都可以使處理器執(zhí)行發(fā)明的任意特征功能。特別地，計算機程序產品可以作為包括例如盤或者磁帶的載體中的數(shù)據(jù)、存儲器中的數(shù)據(jù)、通過網(wǎng)絡連接—有線的或無線的—傳播的數(shù)據(jù)、或者紙上的程序代碼來實現(xiàn)。除了程序代碼外，程序需要的特征數(shù)據(jù)也可以具體體現(xiàn)為計算機編程產品。
應該注意到上面提到的實施例的解釋沒有限制本發(fā)明。除了如權利要求中結合的本發(fā)明元件的結合外，其他的元件的結合也是可能的。任意的元件結合可以在一個單獨的專一的元件中實現(xiàn)。
權利要求圓括號內的任何標記都不能限制該權利要求。單詞“包括”不排除沒有列在權利要求中的元素或者方面。在元素前的單詞“一個”不排除多個此類元素的出現(xiàn)。
權利要求
1.一種自適應波束形成器單元(191)，包括濾波求和波束形成器(107)，被設置為處理來自各個麥克風(101，103)陣列的輸入音頻信號(u1，u2)，并且，還被設置為通過對輸入音頻信號的第一個(u1)使用第一自適應濾波器(f1(-t))濾波，對輸入音頻信號的第二個(u2)使用第二自適應濾波器(f2(-t))濾波，生成占主導地位的對應于來自期望音頻源(160)的聲音的第—音頻信號(z)作為輸出，分別使用第一步長(α1)和第二步長(α2)自適應調節(jié)第一濾波器(f1(-t))和第二濾波器(f2(-t))的系數(shù)；噪聲測度導出裝置(111)，被設置為從輸入音頻信號(u1，u2)導出第一噪聲測度(x1)和第二噪聲測度(x2)；以及更新單元(192)，被設置為利用等式確定第一和第二步長(α1，α2)，該等式對于第一步長(α1)，其分母中包含第一噪聲測度(x1)，對于第二步長(α2)，其分母中包含第二噪聲測度(x2)。
2.如權利要求1所述的自適應波束形成器單元(191)，其中，噪聲測度導出裝置(111)被設置為通過從第一麥克風(101)采集到的期望音頻源中減去期望的聲音測度(m1)，從而從第一輸入音頻信號(u1)中導出第一噪聲測度(x1)；通過從第二麥克風(103)采集到的期望音頻源中減去聲音的第二期望的聲音測度(m2)，從而從第二輸入音頻信號(u2)中導出第二噪聲測度(x2)。
3.如權利要求2所述的自適應波束形成器單元(191)，其中用來獲得第一和第二步長(α1和α2)的等式等于αm[f,t]=βPzz[f,t]/(Pzz[f,t]+γPxmxm[f,t]),]]>其中m是索引，指示使用得到的步長αm來自適應調節(jié)哪個濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時刻，z表示第一音頻信號，xm分別是第一和第二噪聲測度，Pss表示用來得到由它的下標s表示的信號的功率的等式，β和γ是預先確定的常數(shù)。
4.如權利要求1所述的自適應波束形成器單元(191)，其中第一噪聲測度(x1)和第二噪聲測度(x2)由輸入音頻信號(u1，u2)的各自的線性組合來確定。
5.一種旁瓣抑制器(200)，包括如權利要求1所述的濾波求和波束形成器(107)；自適應噪聲估計器(150)，被設置為利用第二組自適應濾波器(g1，g2)，對從輸入音頻信號(u1，u2)導出的第一和第二噪聲測度(x1，x2)進行濾波，從而導出估計的噪聲信號(y)；減法器(142)，被設置為從第—音頻信號(z)中減去估計的噪聲信號(y)，得到無噪的第二音頻信號(r)；以及可選的更新單元(292)，被設置為利用等式確定第一和第二步長(α1，α2)，該等式包括第二音頻信號(r)的幅度測度，并且，該等式對于第一步長(α1)，其分母中包含第一噪聲測度(x1)，對于第二步長(α2)，其分母中包含第二噪聲測度(x2)。
6.如權利要求5所述的旁瓣抑制器(200)，其中獲得步長的等式等于αm=βPrr[f,t]/(Prr[f,t]+γPvmvm[f,t]),]]>其中m是索引，指示使用得到的步長大小αm來自適應調節(jié)哪個濾波器(f1(-t)，f2(-t))，f表示頻率，t表示時刻，r是第二音頻信號，vm是由對應的第m個麥克風采集到的噪聲測度，無噪的第二音頻信號(r)作為從期望的音頻源獲得的聲音的測度被從各自輸入信號(u1，u2)中減去以得到噪聲測度vm，P表示用來得到信號功率的等式，β和γ是預先確定的常數(shù)。
7.如權利要求1所述的自適應波束形成器單元(191)，其包括縮放因子確定單元(250)，被設置為確定單一的縮放因子(S)用來縮放波束形成器(107)的第一濾波器(f1(-t))和第二濾波器(f2(-t))的步長(α1和α2)，縮放因子(S)基于語音泄漏和/或不相關噪聲的量被確定。
8.如權利要求5所述的旁瓣抑制器(200)，其包括縮放因子確定單元(250)，被設置為確定單一的縮放因子(S)用來縮放波束形成器(107)的第一濾波器(f1(-t))和第二濾波器(f2(-t))的步長(α1和α2)，縮放因子(S)基于語音泄漏和/或不相關噪聲的量被確定。
9.如權利要求1所述的自適應波束形成器單元(191)，其被設置為從基于音頻的說話者跟蹤器(270)和/或基于視頻的說話者跟蹤(274)接收位置數(shù)據(jù)，其中基于音頻的說話者跟蹤器被配置為基于說話者的聲音確定說話者在空間中的位置，基于視頻的說話者跟蹤器被配置為基于拍攝的圖像確定說話者在空間中的位置，其中第一濾波器(f1(-t))和第二濾波器(f2(-t))的系數(shù)初始基于位置被確定，該位置由基于音頻的說話者跟蹤器(270)和/或基于視頻的說話者跟蹤器(274)來確定。
10.一種自動語音通信系統(tǒng)(301，303，305)，其包括如權利要求1所述的自適應波束形成器單元(191)或者如權利要求5所述的旁瓣抑制器(200)。
11.一種可便攜的語音通信設備(370)，包括至少兩個麥克風(371，372)，用來生成輸入音頻信號(u1，u2)，并且還包括如權利要求1所述的自適應波束形成單元(191)或者如權利要求5中所述的旁瓣抑制器(200)，用來處理輸入音頻信號(u1，u2)。
12.一種聲音控制單元，其包括如權利要求1所述的自適應波束形成器單元(191)，或者如權利要求5中所述的旁瓣抑制器(200)，并且還包括語音分析裝置，用來識別語音命令。
13.一種消費裝置(350)，包括如權利要求12所述的聲音控制單元。
14.一種自適應波束形成的方法，包括a)使用第一自適應濾波器(f1(-t))對來自第一麥克風(101)的第一輸入音頻信號(u1)進行濾波，使用第二自適應濾波器(f2(-t))對來自第二麥克風(103)的第二輸入音頻信號(u2)進行濾波，對濾波后的輸入音頻信號求和，產生占主導地位的對應于來自期望音頻源(160)的聲音的第一音頻信號(z)；b)從輸入音頻信號(u1，u2)導出第一噪聲測度(x1)和第二噪聲測度(x2)；并且c)使用第一步長(α1)和第二步長(α2)分別自適應調節(jié)第一濾波器(f1(-t))和第二濾波器(f2(-t))的系數(shù)，該步長從一個等式得到，該等式對于第一步長(α1)，其分母中包括第一噪聲測度(x1)，對于第二步長(α2)，其分母中包括第二噪聲測度(x2)。
15.一種包括能使處理器執(zhí)行權利要求14所述方法的代碼的計算機程序產品。
全文摘要
自適應波束形成器單元(191)包括濾波求和波束形成器(107)，被設置為處理來自各自麥克風(101，103)陣列的輸入音頻信號(u1，u2)，并且，還被設置為通過對輸入音頻信號的第一個(u1)使用第一自適應濾波器(f1(－t))濾波，對輸入音頻信號的第二個(u2)使用第二自適應濾波器(f2(－t))濾波，生成占主導地位的對應于來自期望音頻源(160)的聲音的第一音頻信號(z)作為輸出，分別使用第一步長(a1)和第二步長(x2)自適應調節(jié)第一濾波器(f1(－t))和第二濾波器(f2(－t))的系數(shù)；噪聲測度導出裝置(111)，被設置為從輸入音頻信號(u1，u2)導出第一噪聲測度(x1)和第二噪聲測度(x2)；和更新單元(192)，被設置為利用等式確定第一和第二步長(a1，(x2)，該等式對于第一步長(a1)，其分母中包含第一噪聲測度(x1)，對于第二步長(a2)，其分母中包含第二噪聲測度(x2)。這使得該波束形成器對于相關的音頻干擾的影響具有相對的魯棒性。該波束形成器也可以結合到一個旁瓣抑制拓撲中，生成清除了更多噪聲的期望聲音的估計，它可以被用于相關的、更加先進的自適應濾波器(f1(－t)，f2(－t))的更新。這樣的波束形成器應用在自動語音通信系統(tǒng)中通常是有益的。
文檔編號G10K11/34GK1947171SQ200580013338
公開日2007年4月11日申請日期2005年4月20日優(yōu)先權日2004年4月28日
發(fā)明者B·E·薩羅克哈, C·P·詹塞申請人:皇家飛利浦電子股份有限公司

完整全部詳細技術資料下載