尖峰神經(jīng)網(wǎng)絡中的聽覺源分離的制作方法
【專利摘要】一種音頻源分離方法包括選擇音頻信號的音頻屬性。該方法還包括將由單個源主導的音頻屬性部分表示為源尖峰事件。另外,該方法包括將音頻信號的其余部分表示為音頻信號尖峰事件。該方法還包括基于源尖峰事件與音頻信號尖峰事件的一致性來確定該其余部分是否與該單個源一致。
【專利說明】尖峰神經(jīng)網(wǎng)絡中的聽覺源分離
[0001] 相關申請的交叉引用
[0002] 本申請要求于2014年2月14日提交且題為"AUDITORY SOURCE SEPARATION IN A SPIKING NEURAL NETWORK (尖峰神經(jīng)網(wǎng)絡中的聽覺源分離)"的美國臨時專利申請No . 61 / 940,281的權益,其公開內(nèi)容通過援引全部明確納入于此。
[0003] 背景
[0004] 領域
[0005] 本公開的某些方面一般涉及神經(jīng)系統(tǒng)工程,并且尤其涉及用于尖峰神經(jīng)網(wǎng)絡中的 聽覺源分離的系統(tǒng)和方法。
【背景技術】
[0006] 可包括一群互連的人工神經(jīng)元(即,神經(jīng)元模型)的人工神經(jīng)網(wǎng)絡是一種計算設備 或者表示將由計算設備執(zhí)行的方法。人工神經(jīng)網(wǎng)絡可具有生物學神經(jīng)網(wǎng)絡中的對應的結構 和/或功能。然而,人工神經(jīng)網(wǎng)絡可為其中傳統(tǒng)計算技術是麻煩的、不切實際的、或不勝任的 某些應用提供創(chuàng)新且有用的計算技術。由于人工神經(jīng)網(wǎng)絡能從觀察中推斷出功能,因此這 樣的網(wǎng)絡在因任務或數(shù)據(jù)的復雜度使得通過常規(guī)技術來設計該功能較為麻煩的應用中是 特別有用的。
[0007] 概述
[0008] 在本公開的一方面,公開了一種音頻源分離方法。該方法包括選擇音頻信號的音 頻屬性。該方法還包括將由單個源主導的音頻屬性部分表示為源尖峰事件。另外,該方法包 括將音頻信號的其余部分表示為音頻信號尖峰事件。該方法還包括基于源尖峰事件與音頻 信號尖峰事件的一致性來確定該其余部分是否與該單個源一致。
[0009] 在本公開的另一方面,公開了一種用于音頻源分離的裝置。該裝置具有存儲器以 及至少一個處理器。處理器耦合到存儲器并且被配置成選擇音頻信號的音頻屬性。處理器 還被配置成將由單個源主導的音頻屬性部分表示為源尖峰事件。另外,處理器被配置成將 音頻信號的其余部分表示為音頻信號尖峰事件。處理器被進一步配置成基于源尖峰事件與 音頻信號尖峰事件的一致性來確定該其余部分是否與該單個源一致。
[0010] 在本公開的又一方面,公開了一種用于音頻源分離的裝備。該裝備包括用于選擇 音頻信號的音頻屬性的裝置。該裝備還包括用于將由單個源主導的音頻屬性部分表示為源 尖峰事件的裝置。該裝備還包括用于將音頻信號的其余部分表示為音頻信號尖峰事件的裝 置。該裝備還包括用于基于源尖峰事件與音頻信號尖峰事件的一致性來確定該其余部分是 否與該單個源一致的裝置。
[0011] 在本公開的又一方面,公開了一種用于音頻源分離的計算機程序產(chǎn)品。該計算機 程序產(chǎn)品具有其上編碼有程序代碼的非瞬態(tài)計算機可讀介質(zhì)。該程序代碼包括用于選擇音 頻信號的音頻屬性的程序代碼。該程序代碼還包括用于將由單個源主導的音頻屬性部分表 示為源尖峰事件的程序代碼。另外,該程序代碼包括用于將音頻信號的其余部分表示為音 頻信號尖峰事件的程序代碼。該程序代碼還包括用于基于源尖峰事件與音頻信號尖峰事件 的一致性來確定該其余部分是否與該單個源一致的程序代碼。
[0012] 這已較寬泛地勾勒出本公開的特征和技術優(yōu)勢以便下面的詳細描述可以被更好 地理解。本公開的附加特征和優(yōu)點將在下文描述。本領域技術人員應該領會,本公開可容易 地被用作修改或設計用于實施與本公開相同的目的的其他結構的基礎。本領域技術人員還 應認識到,這樣的等效構造并不脫離所附權利要求中所闡述的本公開的教導。被認為是本 公開的特性的新穎特征在其組織和操作方法兩方面連同進一步的目的和優(yōu)點在結合附圖 來考慮以下描述時將被更好地理解。然而,要清楚理解的是,提供每一幅附圖均僅用于解說 和描述目的,且無意作為對本公開的限定的定義。
[0013] 附圖簡述
[0014] 在結合附圖理解下面闡述的詳細描述時,本公開的特征、本質(zhì)和優(yōu)點將變得更加 明顯,在附圖中,相同附圖標記始終作相應標識。
[0015] 圖1解說了根據(jù)本公開的某些方面的示例神經(jīng)元網(wǎng)絡。
[0016] 圖2解說了根據(jù)本公開的某些方面的計算網(wǎng)絡(神經(jīng)系統(tǒng)或神經(jīng)網(wǎng)絡)的處理單元 (神經(jīng)元)的示例。
[0017] 圖3解說了根據(jù)本公開的某些方面的尖峰定時依賴可塑性(STDP)曲線的示例。
[0018] 圖4解說了根據(jù)本公開的某些方面的用于定義神經(jīng)元模型的行為的正態(tài)相和負態(tài) 相的示例。
[0019] 圖5解說了根據(jù)本公開的某些方面的使用通用處理器來設計神經(jīng)網(wǎng)絡的示例實 現(xiàn)。
[0020] 圖6解說了根據(jù)本公開的某些方面的設計其中存儲器可以與個體分布式處理單元 對接的神經(jīng)網(wǎng)絡的示例實現(xiàn)。
[0021] 圖7解說了根據(jù)本公開的某些方面的基于分布式存儲器和分布式處理單元來設計 神經(jīng)網(wǎng)絡的示例實現(xiàn)。
[0022] 圖8解說了根據(jù)本公開的某些方面的神經(jīng)網(wǎng)絡的示例實現(xiàn)。
[0023]圖9和10是解說根據(jù)本公開的各方面的用于聽覺源分離的示例性架構的框圖。
[0024] 圖11是解說根據(jù)本公開的一方面的用于聽覺源分離的方法的框圖。
[0025] 詳細描述
[0026] 以下結合附圖闡述的詳細描述旨在作為各種配置的描述,而無意表示可實踐本文 中所描述的概念的僅有的配置。本詳細描述包括具體細節(jié)以便提供對各種概念的透徹理 解。然而,對于本領域技術人員將顯而易見的是,沒有這些具體細節(jié)也可實踐這些概念。在 一些實例中,以框圖形式示出眾所周知的結構和組件以避免湮沒此類概念。
[0027] 基于本教導,本領域技術人員應領會,本公開的范圍旨在覆蓋本公開的任何方面, 不論其是與本公開的任何其他方面相獨立地還是組合地實現(xiàn)的。例如,可以使用所闡述的 任何數(shù)目的方面來實現(xiàn)裝置或?qū)嵺`方法。另外,本公開的范圍旨在覆蓋使用作為所闡述的 本公開的各個方面的補充或者與之不同的其他結構、功能性、或者結構及功能性來實踐的 此類裝置或方法。應當理解,所披露的本公開的任何方面可由權利要求的一個或多個元素 來實施。
[0028] 措辭"示例性"在本文中用于表示"用作示例、實例或解說"。本文中描述為"示例 性"的任何方面不必被解釋為優(yōu)于或勝過其他方面。
[0029] 盡管本文描述了特定方面,但這些方面的眾多變體和置換落在本公開的范圍之 內(nèi)。雖然提到了優(yōu)選方面的一些益處和優(yōu)點,但本公開的范圍并非旨在被限定于特定益處、 用途或目標。相反,本公開的各方面旨在能寬泛地應用于不同的技術、系統(tǒng)配置、網(wǎng)絡和協(xié) 議,其中一些作為示例在附圖以及以下對優(yōu)選方面的描述中解說。詳細描述和附圖僅僅解 說本公開而非限定本公開,本公開的范圍由所附權利要求及其等效技術方案來定義。
[0030] 示例神經(jīng)系統(tǒng)、訓練及操作
[0031] 圖1解說了根據(jù)本公開的某些方面的具有多級神經(jīng)元的示例人工神經(jīng)系統(tǒng)100。神 經(jīng)系統(tǒng)100可具有神經(jīng)元級102,該神經(jīng)元級102通過突觸連接網(wǎng)絡104(即,前饋連接)來連 接到另一神經(jīng)元級106。為簡單起見,圖1中僅解說了兩級神經(jīng)元,盡管神經(jīng)系統(tǒng)中可存在更 少或更多級神經(jīng)元。應注意,一些神經(jīng)元可通過側向連接來連接至同層中的其他神經(jīng)元。此 外,一些神經(jīng)元可通過反饋連接來后向連接至先前層中的神經(jīng)元。
[0032] 如圖1所解說的,級102中的每一個神經(jīng)元可以接收可由前級的神經(jīng)元(未在圖1中 示出)生成的輸入信號108。信號108可表示級102的神經(jīng)元的輸入電流。該電流可在神經(jīng)元 膜上累積以對膜電位進行充電。當膜電位達到其閾值時,該神經(jīng)元可激發(fā)并生成輸出尖峰, 該輸出尖峰將被傳遞到下一級神經(jīng)元(例如,級106)。在一些建模辦法中,神經(jīng)元可以連續(xù) 地向下一級神經(jīng)元傳遞信號。該信號通常是膜電位的函數(shù)。此類行為可在硬件和/或軟件 (包括模擬和數(shù)字實現(xiàn),諸如以下所述那些實現(xiàn))中進行仿真或模擬。
[0033] 在生物學神經(jīng)元中,在神經(jīng)元激發(fā)時生成的輸出尖峰被稱為動作電位。該電信號 是相對迅速、瞬態(tài)的神經(jīng)脈沖,其具有約為100mV的振幅和約為lms的歷時。在具有一系列連 通的神經(jīng)元(例如,尖峰從圖1中的一級神經(jīng)元傳遞至另一級神經(jīng)元)的神經(jīng)系統(tǒng)的特定實 施例中,每個動作電位都具有基本上相同的振幅和歷時,并且因此該信號中的信息可僅由 尖峰的頻率和數(shù)目、或尖峰的時間來表示,而不由振幅來表示。動作電位所攜帶的信息可由 尖峰、發(fā)放了尖峰的神經(jīng)元、以及該尖峰相對于一個或數(shù)個其他尖峰的時間來確定。尖峰的 重要性可由向各神經(jīng)元之間的連接所應用的權重來確定,如以下所解釋的。
[0034] 尖峰從一級神經(jīng)元向另一級神經(jīng)元的傳遞可通過突觸連接(或簡稱"突觸")網(wǎng)絡 104來達成,如圖1中所解說的。相對于突觸104,級102的神經(jīng)元可被視為突觸前神經(jīng)元,而 級106的神經(jīng)元可被視為突觸后神經(jīng)元。突觸104可接收來自級102的神經(jīng)元的輸出信號 (即,尖峰),并根據(jù)可調(diào)節(jié)突觸權重\ w^+1)來按比例縮放那些信號,其中P是 級102的神經(jīng)元與級106的神經(jīng)元之間的突觸連接的總數(shù),并且i是神經(jīng)元級的指示符。在圖 1的示例中,i表示神經(jīng)元級102并且i+Ι表示神經(jīng)元級106。此外,經(jīng)按比例縮放的信號可被 組合以作為級106中每個神經(jīng)元的輸入信號。級106中的每個神經(jīng)元可基于對應的組合輸入 信號來生成輸出尖峰110。可使用另一突觸連接網(wǎng)絡(圖1中未示出)將這些輸出尖峰110傳 遞到另一級神經(jīng)元。
[0035] 生物學突觸可以仲裁突觸后神經(jīng)元中的興奮性或抑制性(超極化)動作,并且還可 用于放大神經(jīng)元信號。興奮性信號使膜電位去極化(即,相對于靜息電位增大膜電位)。如果 在某個時間段內(nèi)接收到足夠的興奮性信號以使膜電位去極化到高于閾值,則在突觸后神經(jīng) 元中發(fā)生動作電位。相反,抑制性信號一般使膜電位超極化(即,降低膜電位)。抑制性信號 如果足夠強則可抵消掉興奮性信號之和并阻止膜電位到達閾值。除了抵消掉突觸興奮以 外,突觸抑制還可對自發(fā)活躍神經(jīng)元施加強力的控制。自發(fā)活躍神經(jīng)元是指在沒有進一步 輸入的情況下(例如,由于其動態(tài)或反饋而)發(fā)放尖峰的神經(jīng)元。通過壓制這些神經(jīng)元中的 動作電位的自發(fā)生成,突觸抑制可對神經(jīng)元中的激發(fā)模式進行定形,這一般被稱為雕刻。取 決于期望的行為,各種突觸104可充當興奮性或抑制性突觸的任何組合。
[0036] 神經(jīng)系統(tǒng)100可由通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場 可編程門陣列(FPGA)或其他可編程邏輯器件(PLD)、分立的門或晶體管邏輯、分立的硬件組 件、由處理器執(zhí)行的軟件模塊、或其任何組合來仿真。神經(jīng)系統(tǒng)100可用在大范圍的應用中, 諸如圖像和模式識別、機器學習、電機控制、及類似應用等。神經(jīng)系統(tǒng)100中的每一神經(jīng)元可 被實現(xiàn)為神經(jīng)元電路。被充電至發(fā)起輸出尖峰的閾值的神經(jīng)元膜可被實現(xiàn)為例如對流經(jīng)其 的電流進行積分的電容器。
[0037]在一方面,電容器作為神經(jīng)元電路的電流積分器件可被除去,并且可使用較小的 憶阻器元件來替代它。這種辦法可應用于神經(jīng)元電路中,以及其中大容量電容器被用作電 流積分器的各種其他應用中。另外,每個突觸104可基于憶阻器元件來實現(xiàn),其中突觸權重 變化可與憶阻器電阻的變化有關。使用納米特征尺寸的憶阻器,可顯著地減小神經(jīng)元電路 和突觸的面積,這可使得實現(xiàn)大規(guī)模神經(jīng)系統(tǒng)硬件實現(xiàn)更為切實可行。
[0038]對神經(jīng)系統(tǒng)100進行仿真的神經(jīng)處理器的功能性可取決于突觸連接的權重,這些 權重可控制神經(jīng)元之間的連接的強度。突觸權重可存儲在非易失性存儲器中以在掉電之后 保留該處理器的功能性。在一方面,突觸權重存儲器可實現(xiàn)在與主神經(jīng)處理器芯片分開的 外部芯片上。突觸權重存儲器可與神經(jīng)處理器芯片分開地封裝成可更換的存儲卡。這可向 神經(jīng)處理器提供多種多樣的功能性,其中特定功能性可基于當前附連至神經(jīng)處理器的存儲 卡中所存儲的突觸權重。
[0039] 圖2解說了根據(jù)本公開的某些方面的計算網(wǎng)絡(例如,神經(jīng)系統(tǒng)或神經(jīng)網(wǎng)絡)的處 理單元(例如,神經(jīng)元或神經(jīng)元電路)202的示例性示圖200。例如,神經(jīng)元202可對應于來自 圖1的級102和106的任何神經(jīng)元。神經(jīng)元202可接收多個輸入信號20^-20%,這些輸入信號 可以是該神經(jīng)系統(tǒng)外部的信號、或是由同一神經(jīng)系統(tǒng)的其他神經(jīng)元所生成的信號、或這兩 者。輸入信號可以是電流、電導、電壓、實數(shù)值的和/或復數(shù)值的。輸入信號可包括具有定點 或浮點表示的數(shù)值??赏ㄟ^突觸連接將這些輸入信號遞送到神經(jīng)元202,突觸連接根據(jù)可調(diào) 節(jié)突觸權重206^206^1^??)對這些信號進行按比例縮放,其中N可以是神經(jīng)元202的輸入連 接總數(shù)。
[0040] 神經(jīng)元202可組合這些經(jīng)按比例縮放的輸入信號,并且使用組合的經(jīng)按比例縮放 的輸入來生成輸出信號208(即,信號Y)。輸出信號208可以是電流、電導、電壓、實數(shù)值的和/ 或復數(shù)值的。輸出信號可以是具有定點或浮點表示的數(shù)值。隨后該輸出信號208可作為輸入 信號傳遞至同一神經(jīng)系統(tǒng)的其他神經(jīng)元、或作為輸入信號傳遞至同一神經(jīng)元202、或作為該 神經(jīng)系統(tǒng)的輸出來傳遞。
[0041]處理單元(神經(jīng)元)202可由電路來仿真,并且其輸入和輸出連接可由具有突觸電 路的電連接來仿真。處理單元202及其輸入和輸出連接也可由軟件代碼來仿真。處理單元 202還可由電路來仿真,而其輸入和輸出連接可由軟件代碼來仿真。在一方面,計算網(wǎng)絡中 的處理單元202可以是模擬電路。在另一方面,處理單元202可以是數(shù)字電路。在又一方面, 處理單元202可以是具有模擬和數(shù)字組件兩者的混合信號電路。計算網(wǎng)絡可包括任何前述 形式的處理單元。使用這樣的處理單元的計算網(wǎng)絡(神經(jīng)系統(tǒng)或神經(jīng)網(wǎng)絡)可用在大范圍的 應用中,諸如圖像和模式識別、機器學習、電機控制、及類似應用等。
[0042]在神經(jīng)網(wǎng)絡的訓練過程期間,突觸權重(例如,來自圖1的權重Wp+t ^ 4,,+1) 和/或來自圖2的權重206^206〃)可用隨機值來初始化并根據(jù)學習規(guī)則而被增大或減小。本 領域技術人員將領會,學習規(guī)則的示例包括但不限于尖峰定時依賴可塑性(STDP)學習規(guī) 貝丨J、Hebb規(guī)則、Oja規(guī)則、Bienenstock-Copper-Munro(BCM)規(guī)則等。在一些方面,這些權重可 穩(wěn)定或收斂至兩個值(即,權重的雙峰分布)之一。該效應可被用于減少每個突觸權重的位 數(shù)、提高從/向存儲突觸權重的存儲器讀取和寫入的速度、以及降低突觸存儲器的功率和/ 或處理器消耗。
[0043]突觸類型
[0044] 在神經(jīng)網(wǎng)絡的硬件和軟件模型中,突觸相關功能的處理可基于突觸類型。突觸類 型可以是非可塑突觸(權重和延遲沒有改變)、可塑突觸(權重可改變)、結構化延遲可塑突 觸(權重和延遲可改變)、全可塑突觸(權重、延遲和連通性可改變)、以及基于此的變型(例 如,延遲可改變,但在權重或連通性方面沒有改變)。多種類型的優(yōu)點在于處理可以被細分。 例如,非可塑突觸不會使用待執(zhí)行的可塑性功能(或等待此類功能完成)。類似地,延遲和權 重可塑性可被細分成可一起或分開地、順序地或并行地運作的操作。不同類型的突觸對于 適用的每一種不同的可塑性類型可具有不同的查找表或公式以及參數(shù)。因此,這些方法將 針對該突觸的類型來訪問相關的表、公式或參數(shù)。
[0045] 還進一步牽涉到以下事實:尖峰定時依賴型結構化可塑性可獨立于突觸可塑性地 來執(zhí)行。結構化可塑性即使在權重幅值沒有改變的情況下(例如,如果權重已達最小或最大 值、或者其由于某種其他原因而不被改變)也可被執(zhí)行,因為結構化可塑性(即,延遲改變的 量)可以是pre-post(前-后)尖峰時間差的直接函數(shù)。替換地,結構化可塑性可被設為權重 變化量的函數(shù)或者可基于與權重或權重變化的界限有關的條件來設置。例如,突觸延遲可 僅在權重變化發(fā)生時或者在權重到達0的情況下才改變,但在這些權重為最大值時則不改 變。然而,具有獨立函數(shù)以使得這些過程能被并行化從而減少存儲器訪問的次數(shù)和交疊可 能是有利的。
[0046] 突觸可塑性的確定
[0047] 神經(jīng)元可塑性(或簡稱"可塑性")是大腦中的神經(jīng)元和神經(jīng)網(wǎng)絡響應于新的信息、 感官刺激、發(fā)展、損壞、或機能障礙而改變其突觸連接和行為的能力??伤苄詫τ谏飳W中 的學習和記憶、以及對于計算神經(jīng)元科學和神經(jīng)網(wǎng)絡是重要的。已經(jīng)研究了各種形式的可 塑性,諸如突觸可塑性(例如,根據(jù)Hebbian理論)、尖峰定時依賴可塑性(STDP)、非突觸可塑 性、活躍性依賴可塑性、結構化可塑性和自穩(wěn)態(tài)可塑性。
[0048] STDP是調(diào)節(jié)神經(jīng)元之間的突觸連接的強度的學習過程。連接強度是基于特定神經(jīng) 元的輸出與收到輸入尖峰(即,動作電位)的相對定時來調(diào)節(jié)的。在STDP過程下,如果至某個 神經(jīng)元的輸入尖峰平均而言傾向于緊挨在該神經(jīng)元的輸出尖峰之前發(fā)生,則可發(fā)生長期增 強(LTP)。于是使得該特定輸入在一定程度上更強。另一方面,如果輸入尖峰平均而言傾向 于緊接在輸出尖峰之后發(fā)生,則可發(fā)生長期抑壓(LTD)。于是使得該特定輸入在一定程度上 更弱,并由此得名"尖峰定時依賴可塑性"。因此,使得可能是突觸后神經(jīng)元興奮原因的輸入 甚至在將來作出貢獻的可能性更大,而使得不是突觸后尖峰的原因的輸入在將來作出貢獻 的可能性更小。該過程繼續(xù),直至初始連接集合的子集保留,而所有其他連接的影響減小至 無關緊要的水平。
[0049] 由于神經(jīng)元一般在其許多輸入都在一短時段內(nèi)發(fā)生(即,累積性足以引起輸出)時 產(chǎn)生輸出尖峰,因此通常保留下來的輸入子集包括傾向于在時間上相關的那些輸入。另外, 由于在輸出尖峰之前發(fā)生的輸入被加強,因此提供對相關性的最早充分累積性指示的那些 輸入將最終變成至該神經(jīng)元的最后輸入。
[0050] STDP學習規(guī)則可因變于突觸前神經(jīng)元的尖峰時間tpre與突觸后神經(jīng)元的尖峰時間 tpcist之間的時間差(即,t = tpcist-tpre)來有效地適配將該突觸前神經(jīng)元連接到該突觸后神經(jīng) 元的突觸的突觸權重。STDP的典型公式化是若該時間差為正(突觸前神經(jīng)元在突觸后神經(jīng) 元之前激發(fā))則增大突觸權重(即,增強該突觸),以及若該時間差為負(突觸后神經(jīng)元在突 觸前神經(jīng)元之前激發(fā))則減小突觸權重(即,抑壓該突觸)。
[0051] 在STDP過程中,突觸權重隨時間推移的改變可通常使用指數(shù)式衰退來達成,如由 下式給出的:
[0052] ⑴:
[0053] 其中k+和k-Tsign(At)分別是針對正和負時間差的時間常數(shù),a+和a-是對應的比例縮 放幅值,并且μ是可應用于正時間差和/或負時間差的偏移。
[0054]圖3解說了根據(jù)STDP,突觸權重作為突觸前(pre)和突觸后(post)尖峰的相對定時 的函數(shù)而改變的示例性示圖300。如果突觸前神經(jīng)元在突觸后神經(jīng)元之前激發(fā),則對應的突 觸權重可被增大,如曲線圖300的部分302中所解說的。該權重增大可被稱為該突觸的LTP。 從曲線圖部分302可觀察到,LTP的量可因變于突觸前和突觸后尖峰時間之差而大致呈指數(shù) 式地下降。相反的激發(fā)次序可減小突觸權重,如曲線圖300的部分304中所解說的,從而導致 該突觸的LTD。
[0055]如圖3中的曲線圖300中所解說的,可向STDP曲線圖的LTP(因果性)部分302應用負 偏移lx軸的交越點306(y = 0)可被配置成與最大時間滯后重合以考慮到來自層i-Ι的各因 果性輸入的相關性。在基于幀的輸入(即,呈特定歷時的包括尖峰或脈沖的幀的形式的輸 入)的情形中,可計算偏移值μ以反映幀邊界。該幀中的第一輸入尖峰(脈沖)可被視為要么 如直接由突觸后電位所建模地隨時間衰退,要么在對神經(jīng)狀態(tài)的影響的意義上隨時間衰 退。如果該幀中的第二輸入尖峰(脈沖)被視為與特定時間幀相關或有關,則該幀之前和之 后的有關時間可通過使STDP曲線的一個或多個部分偏移以使得這些有關時間中的值可以 不同(例如,對于大于一個幀為負,而對于小于一個幀為正)來在該時間幀邊界處被分開并 在可塑性意義上被不同地對待。例如,負偏移μ可被設為偏移LTP以使得曲線實際上在大于 幀時間的pre-post時間處變得低于零并且它由此為LTD而非LTP的一部分。
[0056]神經(jīng)元模型及操作
[0057]存在一些用于設計有用的尖峰發(fā)放神經(jīng)元模型的一般原理。良好的神經(jīng)元模型在 以下兩個計算態(tài)相(regime)方面可具有豐富的潛在行為:重合性檢測和功能性計算。此外, 良好的神經(jīng)元模型應當具有允許時間編碼的兩個要素:輸入的抵達時間影響輸出時間,以 及重合性檢測能具有窄時間窗。最后,為了在計算上是有吸引力的,良好的神經(jīng)元模型在連 續(xù)時間上可具有閉合形式解,并且具有穩(wěn)定的行為,包括在靠近吸引子和鞍點之處。換言 之,有用的神經(jīng)元模型是可實踐且可被用于建模豐富的、現(xiàn)實的且生物學一致的行為并且 可被用于對神經(jīng)電路進行工程設計和反向工程兩者的神經(jīng)元模型。
[0058] 神經(jīng)元模型可取決于事件,諸如輸入抵達、輸出尖峰或其他事件,無論這些事件是 內(nèi)部的還是外部的。為了達成豐富的行為庫,能展現(xiàn)復雜行為的狀態(tài)機可能是期望的。如果 事件本身的發(fā)生在撇開輸入貢獻(若有)的情況下能影響狀態(tài)機并約束該事件之后的動態(tài), 則該系統(tǒng)的將來狀態(tài)并非僅是狀態(tài)和輸入的函數(shù),而是狀態(tài)、事件和輸入的函數(shù)。
[0059] 在一方面,神經(jīng)元η可被建模為尖峰帶漏泄積分激發(fā)神經(jīng)元,其膜電壓vn(t)由以 下動態(tài)來支配:
[0060] , (2)
[0061] 其中α和β是參數(shù),Wm,n是將突觸前神經(jīng)元m連接至突觸后神經(jīng)元 n的突觸的突觸權 重,以及ym(t)是神經(jīng)元m的尖峰輸出,其可根據(jù)Δ ","被延遲達樹突或軸突延遲才抵達神經(jīng) 元η的胞體。
[0062] 應注意,從建立了對突觸后神經(jīng)元的充分輸入的時間直至該突觸后神經(jīng)元實際上 激發(fā)的時間存在延遲。在動態(tài)尖峰發(fā)放神經(jīng)元模型(諸如Izhikevich簡單模型)中,如果在 去極化閾值vt與峰值尖峰電壓v peak之間有差量,則可引發(fā)時間延遲。例如,在該簡單模型中, 神經(jīng)元胞體動態(tài)可由關于電壓和恢復的微分方程對來支配,即:
[0063] 該正態(tài)相中,該模型展現(xiàn)出計算性質(zhì),諸如取決于后續(xù)輸入事件而引發(fā)發(fā)放尖峰的等待時 間。在事件方面對動態(tài)進行公式化以及將動態(tài)分成這兩個態(tài)相是該模型的基礎特性。
[0069] 線性雙態(tài)相二維動態(tài)(對于狀態(tài)v和u)可按照慣例定義為:
[0070]
[0071]
[0072] 其中qP和r是用于耦合的線性變換變量。
[0073] 符號p在本文中用于標示動態(tài)態(tài)相,在討論或表達具體態(tài)相的關系時,按照慣例對 于負態(tài)相和正態(tài)相分別用符號或"+"來替換符號P。
[0074] 模型狀態(tài)由膜電位(電壓)v和恢復電流u來定義。在基本形式中,態(tài)相在本質(zhì)上是 由模型狀態(tài)來決定的。該精確和通用的定義存在一些細微卻重要的方面,但目前考慮該模 型在電壓v高于閾值(v+)的情況下處于正態(tài)相404中,否則處于負態(tài)相402中。
[0075] 態(tài)相相關時間常數(shù)包括負態(tài)相時間常數(shù)τ-和正態(tài)相時間常數(shù)τ+?;謴碗娏鲿r間常 數(shù)^通常是與態(tài)相無關的。出于方便起見,負態(tài)相時間常數(shù)τ_通常被指定為反映衰退的負 量,從而用于電壓演變的相同表達式可用于正態(tài)相,在正態(tài)相中指數(shù)和τ+將一般為正,正如 tu那樣。
[0076] 這兩個狀態(tài)元素的動態(tài)可在發(fā)生事件之際通過使狀態(tài)偏離其零傾線(nul Ιο 1 ine) 的變換來耦合 ,其中 變換變量為:
[0077] qP = -Tp0u-Vp (7)
[0078] Γ = δ(ν+ε) (8)
[0079] 其中δ、ε、β和V-、V+是參數(shù)。Vp的兩個值是這兩個態(tài)相的參考電壓的基數(shù)。參數(shù)v-是 負態(tài)相的基電壓,并且膜電位在負態(tài)相中一般將朝向V-衰退。參數(shù)v+是正態(tài)相的基電壓,并 且膜電位在正態(tài)相中一般將趨向于背離v+。
[0080] v和u的零傾線分別由變換變量qP和r的負數(shù)給出。參數(shù)δ是控制u零傾線的斜率的 比例縮放因子。參數(shù)ε通常被設為等于-V-。參數(shù)β是控制這兩個態(tài)相中的ν零傾線的斜率的 電阻值。τρ時間常數(shù)參數(shù)不僅控制指數(shù)式衰退,還單獨地控制每個態(tài)相中的零傾線斜率。
[0081] 該模型可被定義為在電壓ν達到值vs時發(fā)放尖峰。隨后,狀態(tài)可在發(fā)生復位事件 (其可以與尖峰事件完全相同)之際被復位:
[0082] (分)
[0083] u = u+ Δ u (10)
[0084] 其中I和Δ u是參數(shù)。復位電壓it通常被設為v一。
[0085] 依照瞬時耦合的原理,閉合形式解不僅對于狀態(tài)是可能的(且具有單個指數(shù)項), 而且對于到達特定狀態(tài)的時間也是可能的。閉合形式狀態(tài)解為:
[0086]
[0087]
[0088]因此,模型狀態(tài)可僅在發(fā)生事件之際被更新,諸如在輸入(突觸前尖峰)或輸出(突 觸后尖峰)之際被更新。還可在任何特定時間(無論是否有輸入或輸出)執(zhí)行操作。
[0089]而且,依照瞬時耦合原理,突觸后尖峰的時間可被預計,因此到達特定狀態(tài)的時間 可提前被確定而無需迭代技術或數(shù)值方法(例如,歐拉數(shù)值方法)。給定了先前電壓狀態(tài)vo, 直至到達電壓狀態(tài)Vf之前的時間延遲由下式給出:
[0090]
[0091] 如果尖峰被定義為發(fā)生在電壓狀態(tài)v到達vs的時間,則從電壓處于給定狀態(tài)v的時 間起測量的直至發(fā)生尖峰前的時間量或即相對延遲的閉合形式解為:
[0092]
[0093] 其中代通常被設為參數(shù)v+,但其他變型可以是可能的。
[0094] 模型動態(tài)的以上定義取決于該模型是在正態(tài)相還是負態(tài)相中。如所提及的,耦合 和態(tài)相P可基于事件來計算。出于狀態(tài)傳播的目的,態(tài)相和耦合(變換)變量可基于在上一 (先前)事件的時間的狀態(tài)來定義。出于隨后預計尖峰輸出時間的目的,態(tài)相和耦合變量可 基于在下一(當前)事件的時間的狀態(tài)來定義。
[0095] 存在對該Cold模型、以及在時間上執(zhí)行模擬、仿真、或建模的若干可能實現(xiàn)。這包 括例如事件-更新、步階-事件更新、以及步階-更新模式。事件更新是其中基于事件或"事件 更新"(在特定時刻)來更新狀態(tài)的更新。步階更新是以間隔(例如,lms)來更新模型的更新。 這不一定利用迭代方法或數(shù)值方法。通過僅在事件發(fā)生于步階處或步階間的情況下才更新 模型或即通過"步階-事件"更新,基于事件的實現(xiàn)以有限的時間分辨率在基于步階的模擬 器中實現(xiàn)也是可能的。
[0096]尖峰神經(jīng)網(wǎng)絡中的聽覺源分離
[0097]根據(jù)聽覺源來分離混合信號可以是有益的且廣泛適用的。例如,聽覺源分離可提 供語音分離,幫助語音增強并幫助語音活動檢測。然而,單耳、非監(jiān)督式、在線聽覺源分離是 對計算機聽力的挑戰(zhàn)。因此,本公開的各方面涉及基于時間相干性的源分離的基于尖峰的 實現(xiàn)。
[0098]圖5解說了根據(jù)本公開的某些方面的使用通用處理器502進行前述聽覺源分離的 示例實現(xiàn)500。與計算網(wǎng)絡(神經(jīng)網(wǎng)絡)相關聯(lián)的變量(神經(jīng)信號)、突觸權重、系統(tǒng)參數(shù),延 遲,和頻槽信息可被存儲在存儲器塊504中,而在通用處理器502處執(zhí)行的指令可從程序存 儲器506中加載。在本公開的一方面,加載到通用處理器502中的指令可包括用于以下操作 的代碼:選擇音頻信號的音頻屬性、將由單個源主導的音頻屬性部分表示為尖峰事件、將音 頻信號的其余部分表示為尖峰事件和/或基于這些尖峰事件的一致性來確定該其余部分是 否與該單個源一致。
[0099]圖6解說了根據(jù)本公開的某些方面的前述聽覺源分離的示例實現(xiàn)600,其中存儲器 602可以經(jīng)由互連網(wǎng)絡604與計算網(wǎng)絡(神經(jīng)網(wǎng)絡)的個體(分布式)處理單元(神經(jīng)處理器) 606對接。與計算網(wǎng)絡(神經(jīng)網(wǎng)絡)相關聯(lián)的變量(神經(jīng)信號)、突觸權重、系統(tǒng)參數(shù),延遲,頻 率槽信息,音頻信號和/或音頻屬性信息可被存儲在存儲器602中,并且可從存儲器602經(jīng)由 互連網(wǎng)絡604的連接被加載到每個處理單元(神經(jīng)處理器)606中。在本公開的一方面,處理 單元606可被配置成選擇音頻信號的音頻屬性、將由單個源主導的音頻屬性部分表示為尖 峰事件、將音頻信號的其余部分表示為尖峰事件和/或基于這些尖峰事件的一致性來確定 該其余部分是否與該單個源一致。
[0100] 圖7解說前述聽覺源分離的示例實現(xiàn)700。如圖7中所解說的,一個存儲器組702可 與計算網(wǎng)絡(神經(jīng)網(wǎng)絡)的一個處理單元704直接對接。每一個存儲器組702可存儲與對應的 處理單元(神經(jīng)處理器)704相關聯(lián)的變量(神經(jīng)信號)、突觸權重、和/或系統(tǒng)參數(shù),延遲,頻 率槽信息,音頻信號和/或音頻屬性信息。在本公開的一方面,處理單元704可被配置成選擇 音頻信號的音頻屬性、將由單個源主導的音頻屬性部分表示為尖峰事件、將音頻信號的其 余部分表示為尖峰事件和/或基于這些尖峰事件的一致性來確定該其余部分是否與該單個 源一致。
[0101] 圖8解說了根據(jù)本公開的某些方面的神經(jīng)網(wǎng)絡800的示例實現(xiàn)。如圖8中所解說的, 神經(jīng)網(wǎng)絡800可具有多個局部處理單元802,它們可執(zhí)行本文所描述的方法的各種操作。每 個局部處理單元802可包括存儲該神經(jīng)網(wǎng)絡的參數(shù)的局部狀態(tài)存儲器804和局部參數(shù)存儲 器806。另外,局部處理單元802可具有用于存儲局部模型程序的局部(神經(jīng)元)模型程序 (LMP)存儲器808、用于存儲局部學習程序的局部學習程序(LLP)存儲器810、以及局部連接 存儲器812。此外,如圖8中所解說的,每個局部處理單元802可與用于為該局部處理單元的 各局部存儲器提供配置的配置處理器單元814對接,并且與提供各局部處理單元802之間的 路由的路由單元816對接。
[0102] 在一種配置中,神經(jīng)元模型被配置成用于選擇音頻信號的音頻屬性、將由單個源 主導的音頻屬性部分表示為尖峰事件、將音頻信號的其余部分表示為尖峰事件和/或基于 這些尖峰事件的一致性來確定該其余部分是否與該單個源一致。神經(jīng)元模型包括選擇裝 置、用于將由單個源主導的音頻屬性部分表示為尖峰事件的裝置、用于將音頻信號的其余 部分表示為尖峰事件的裝置以及確定裝置。在一方面,選擇裝置、用于表示音頻屬性的部分 的裝置、用于表示音頻信號的其余部分的裝置和/或確定裝置可以是被配置成執(zhí)行所敘述 的功能的通用處理器502、程序存儲器506、存儲器塊504、存儲器602、互連網(wǎng)絡604、處理單 元606、處理單元704、局部處理單元802、和/或路由連接處理元件816。在另一種配置中,前 述裝置可以是被配置成執(zhí)行由前述裝置所敘述的功能的任何模塊或任何裝備。
[0103] 根據(jù)本公開的某些方面,每個局部處理單元802可被配置成基于神經(jīng)網(wǎng)絡的一個 或多個期望功能性特征來確定神經(jīng)網(wǎng)絡的參數(shù),以及隨著所確定的參數(shù)被進一步適配、調(diào) 諧和更新來使這一個或多個功能性特征朝著期望的功能性特征發(fā)展。
[0104] 圖9是解說根據(jù)本公開的各方面的用于聽覺源分離的示例性架構900的框圖。該架 構包括用以提供音頻信號的輸入902。音頻信號可以是模擬或數(shù)字的。在一些方面,音頻信 號可例如經(jīng)由音頻輸入設備(諸如話筒)、存儲設備(諸如數(shù)字音頻帶(DAT)、壓縮碟(CD)、數(shù) 字視頻盤(DVD)、藍光碟(BD))或經(jīng)由流送媒體來提供。
[0105] 在一些方面,音頻信號可包括皮層特征混合(cortical feature mixture)。皮層 特征混合可包括與不同輸出頻率相關聯(lián)的不同輸出通道。例如,音頻信號可包括來自一個 或多個揚聲器的話音和/或聽覺場景(例如,擁擠的公共汽車或體育比賽)中的其它聲音(例 如,背景噪聲、音樂或動物聲音)的混合。
[0106] 音頻信號可被提供給音頻處理器904。在一些方面,音頻處理器可處理音頻信號以 確定由單個或目標源主導的音頻屬性。音頻屬性可以例如包括音調(diào)、音色、和聲、節(jié)奏、響 度、速度(說話速率)、空間位置等。在一個示例中,音頻處理器904可包括具有跨越預定范圍 的中心頻率的一排帶通濾波器。音頻處理器904可標識由目標源(例如,男性或女性說話者 的話音)主導的音調(diào)(即,音頻屬性)。在該示例中,主導音頻屬性或錨可被標識為在給定范 圍(例如,對于一時間點(例如,每25毫秒)具有180-200HZ之間的中心頻率)內(nèi)具有最高頻率 的音調(diào)。錨可提供對特定源的音頻信號的通道的指示。可基于與音頻信號的所指示的通道 相對應的原始功率值的集合來產(chǎn)生音調(diào)軌跡。
[0107] 在一些方面,對應于主導音頻屬性(例如,音調(diào)軌跡)的音頻信號和/或音頻信號部 分可進行糾正和歸一化處理。例如,主導音頻屬性部分可通過將原始功率值除以整個區(qū)間 (例如,給定范圍)的預定原始功率值(例如,最大功率值)來歸一化。在另一示例中,主導音 頻屬性部分可通過將所有負值設為〇來糾正。
[0108] 主導音頻屬性部分(例如,音調(diào)軌跡)可以連同音頻信號一起被提供給神經(jīng)元層 906。在一示例性方面,神經(jīng)元層906可包括帶漏泄積分激發(fā)(LIF)神經(jīng)元。神經(jīng)元906可被配 置成將主導音頻屬性部分和音頻信號表示為尖峰或尖峰事件。例如,LIF神經(jīng)元可被配置成 對于每一振蕩發(fā)放一次尖峰。在另一示例中,LIF神經(jīng)元的時間常數(shù)(例如,τ+)可被設置成 使得輸入的正振蕩將在該振蕩的峰值處生成一個或多個尖峰。
[0109] 表示主導音頻屬性部分(例如,音調(diào)軌跡)的輸出尖峰以及表示音頻信號的輸出尖 峰可作為輸入被提供給一致性檢測器對象(⑶〇)神經(jīng)元層908。⑶0神經(jīng)元層908可被配置成 將表示主導音頻屬性的尖峰的定時與表示音頻信號的尖峰的定時相比較。當表示主導音頻 屬性的尖峰以及表示音頻信號的尖峰是一致的或匹配時,CD0神經(jīng)元908可發(fā)放尖峰。在一 些方面,CD0神經(jīng)元908還可以在表示主導音頻屬性的尖峰與表示音頻信號的尖峰之間的定 時差低于預定義閾值(例如,在定時或時間窗口內(nèi))時發(fā)放尖峰。CD0神經(jīng)元908的輸出尖峰 可表示音頻信號的歸因于目標源的部分。以此方式,CD0神經(jīng)元908可用于搜索和分離歸因 于目標源的音頻信號部分。
[0110] 因此,可以在不具有目標源的先驗知識的情況下在運行中從具有多個聲音源的音 頻信號或聽覺場景中提取出或分離出歸因于目標源的音頻信號部分。這也可以在不具有對 背景噪聲的訓練益處的情況下實現(xiàn)。
[0111] 圖10是解說根據(jù)本公開的各方面的用于聽覺源分離的示例性架構的框圖1000。該 架構可被配置成分離來自音頻信號中所包括的多個源的音頻。參照圖10,該架構可包括用 于提供音頻信號的輸入設備1006。該架構還可包括用于提供與聲音源Α相關聯(lián)的音頻屬性 的輸入設備1002以及用于提供與聲音源B相關聯(lián)的音頻屬性的輸入設備1004。盡管示出了 三個單獨輸入,但這僅僅是為了方便解釋,且可使用任何數(shù)目的輸入設備。例如,也可使用 單個輸入來提供每一輸入信號。
[0112] 在一些方面,揚聲器A的音頻屬性和聲音源B的音頻屬性可以在沒有揚聲器的先驗 知識的情況下在運行中確定。當然,這僅僅是示例性的,且在一些方面,聲音源A和聲音源B 的音頻屬性可提前確定并被存儲在存儲設備中。另外,聲音源A的音頻屬性以及聲音源B的 音頻屬性可以是不同的。例如,聲音源A的音頻屬性可以是語音位置,而聲音源B的音頻屬性 可以是響度。
[0113] 如圖10所示,音頻信號可經(jīng)由輸入設備1006來提供。音頻信號可包括皮層特征混 合。皮層特征混合可包括與不同輸出頻率相關聯(lián)的不同輸出通道。例如,在一些方面,音頻 信號可包括來自一個或多個揚聲器的話音和/或聽覺場景中的其它聲音(例如,背景噪聲、 音樂或動物聲音)的混合。聽覺場景可包括例如擁擠的公共汽車或體育比賽的聲音的混合。 在一示例性配置中,音頻源通過具有跨越一范圍的中心頻率的一排帶通濾波器來被處理。 輸出可被收集到頻譜圖中,該頻譜圖可以沿著針對多個標度的頻率軸進行濾波以生成多分 辨率表示。
[0114] 聲音源A和聲音源B的音頻屬性(例如,音調(diào))經(jīng)由輸入設備1002和1004來提供。在 一些方面,可使用對聲音源的音頻屬性的估計。例如,可應用用于音調(diào)提取的模板技術。
[0115] 在一種配置中,音頻屬性被標識為在一時間段(例如,25毫秒)內(nèi)在指定范圍(例 如,具有180-200HZ之間的中心頻率)中最高的帶通濾波器輸出。對于所標識的每一音調(diào)通 道,可以從頻譜圖中的相應通道并且在相應的時間收集原始功率值,從而產(chǎn)生一維數(shù)組。對 于不存在所標識的音調(diào)通道的時間點,數(shù)組攜帶〇值。音調(diào)軌跡可以通過帶通濾波器以新速 率(例如,2Hz)進一步處理。這些值可通過將所有值除以整個語音區(qū)間的預定值(例如,最大 值)來歸一化。此外,輸出可被糾正,即所有負值都被設為0。濾波可以按其它頻率(例如, 4Ηζ、8Ηζ、16Ηζ)重復。輸出可被收集到頻譜圖中,該頻譜圖可以沿著針對多個標度的頻率軸 進行濾波。盡管圖10示出了兩個聲音源的音頻屬性,但這僅僅是示例性的而不是限制性的。 相反,可利用任何數(shù)目的聲音源的任何數(shù)目的音頻屬性。
[0116] 音頻屬性可包括音頻信號的通道。在一些方面,音頻屬性可以包括音調(diào)、音色、和 聲、節(jié)奏、響度、速度(說話速率)、語音位置等。在一些方面,聲音源和/或音頻信號的音頻屬 性可被糾正和歸一化。
[0117]音頻屬性和音頻信號可被提供給神經(jīng)元層1008。神經(jīng)元層1008可被配置成將音頻 屬性和音頻信號中的每一者表示為尖峰。在一些方面,該神經(jīng)元層可包括例如帶漏泄積分 激發(fā)(LIF)神經(jīng)元。
[0118] 音頻屬性的尖峰表示可作為第一輸入被分別提供給相應的CD0神經(jīng)元層1010、 1012。音頻信號的尖峰表示可作為第二輸入被提供給⑶0神經(jīng)元層1010、1012中的每一者。 神經(jīng)元模型可具有時間常數(shù),該時間常數(shù)被設置成使得輸入的正振蕩將在振蕩峰值處生成 一個或多個尖峰。振蕩以第二濾波器的頻率(例如,2Hz)發(fā)生。該過程可以針對其它濾波器 頻率(例如,4Hz、8Hz、16Hz)中的每一者重復。
[0119] CD0神經(jīng)元(1010、1012)進而可確定音頻信號與聲音源A的音頻屬性和/或聲音源B 的音頻屬性之間是否存在相關性。即,CD0神經(jīng)元1010、1012可被配置成確定表示音頻屬性 的尖峰是否與表示音頻信號的尖峰一致。當這些尖峰一致或者在彼此的預定范圍內(nèi)時,CD0 神經(jīng)元可輸出尖峰。因此,CD0神經(jīng)元可提供關于聲音源的音頻屬性是否存在于音頻信號內(nèi) 的指示。此外,當聲音源的音頻屬性存在于音頻信號內(nèi)時,歸因于該聲音源的音頻信號部分 可以從音頻信號中提取出或分離出。
[0120] 盡管圖10示出了包括兩個聲音源的音頻屬性(例如,音調(diào))和兩個CD0神經(jīng)元的架 構,但這僅僅是示例性的以便于解說和解釋,并且該架構可被配置成從混合中分離出任何 數(shù)量的源。即,該架構可被配置成從包括不止一個源的音頻信號中分離出一個或多個源。例 如,該架構可被配置成從提供自擁擠餐館或公共汽車的嘈雜音頻信號中分離出一個或多個 話音。
[0121] 此外,雖然本公開已經(jīng)強調(diào)了與音頻源分離有關的各方面,但可使用本文公開的 架構和特征來實現(xiàn)其它應用。這些應用包括但不限于語音活動檢測、語音識別、語音編碼和 音頻增強。例如,在一些方面,圖10所示的聲音源A和聲音源B的分離出的音頻信號可被重新 組合和解碼以產(chǎn)生不具有輸入音頻信號中所包括的其它聲音(諸如背景噪聲)的合成音頻 流。以此方式,可實現(xiàn)語音增強,諸如噪聲減少。
[0122] 圖11解說了根據(jù)本公開的各方面的用于聽覺源分離的示例性方法1100。在框1102 中,神經(jīng)元模型選擇音頻信號的音頻屬性。在一些方面,音頻屬性可以是音調(diào)、音量、空間位 置、音色、音質(zhì)、說話速率或任何其它音頻屬性。
[0123] 在框1104中,神經(jīng)元模型將由單個源主導的音頻屬性部分表示為尖峰事件。在一 些方面,由多個源主導的音頻屬性也可被表示為尖峰事件。
[0124] 在框1106中,神經(jīng)元模型將音頻信號的其余部分表示為尖峰事件。此外,在框1108 中,神經(jīng)元模型基于這些尖峰事件的一致性來確定該其余部分是否與該單個源一致。
[0125] 在一些方面,單個源可以是錨源。錨可以是由一源主導的任何音頻特征或通道。錨 可使用帶通濾波器來被處理以標識指定范圍內(nèi)的濾波器輸出。此外,處理可以在周期性的 基礎上進行。
[0126] 以上所描述的方法的各種操作可由能夠執(zhí)行相應功能的任何合適的裝置來執(zhí)行。 這些裝置可包括各種硬件和/或軟件組件和/或模塊,包括但不限于電路、專用集成電路 (ASIC)、或處理器。一般而言,在附圖中有解說的操作的場合,那些操作可具有帶相似編號 的相應配對裝置加功能組件。
[0127] 如本文所使用的,術語"確定"涵蓋各種各樣的動作。例如,"確定"可包括演算、計 算、處理、推導、研究、查找(例如,在表、數(shù)據(jù)庫或其他數(shù)據(jù)結構中查找)、探知及諸如此類。 另外,"確定"可包括接收(例如接收信息)、訪問(例如訪問存儲器中的數(shù)據(jù))、及類似動作。 而且,"確定"可包括解析、選擇、選取、確立及類似動作。
[0128] 如本文所使用的,引述一列項目中的"至少一個"的短語是指這些項目的任何組 合,包括單個成員。作為示例,"a、b或c中的至少一個"旨在涵蓋:a、b、c、a-b、a-c、b-c、&& a-b-c〇
[0129] 結合本公開所描述的各種解說性邏輯框、模塊、以及電路可用設計成執(zhí)行本文所 描述功能的通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列 信號(FPGA)或其他可編程邏輯器件(PLD)、分立的門或晶體管邏輯、分立的硬件組件或其任 何組合來實現(xiàn)或執(zhí)行。通用處理器可以是微處理器,但在替換方案中,處理器可以是任何市 售的處理器、控制器、微控制器、或狀態(tài)機。處理器還可以被實現(xiàn)為計算設備的組合,例如 DSP與微處理器的組合、多個微處理器、與DSP核心協(xié)同的一個或多個微處理器、或任何其它 此類配置。
[0130] 結合本公開所描述的方法或算法的步驟可直接在硬件中、在由處理器執(zhí)行的軟件 模塊中、或在這兩者的組合中體現(xiàn)。軟件模塊可駐留在本領域所知的任何形式的存儲介質(zhì) 中??墒褂玫拇鎯橘|(zhì)的一些示例包括隨機存取存儲器(RAM)、只讀存儲器(R0M)、閃存、可 擦除可編程只讀存儲器(EPROM)、電可擦除可編程只讀存儲器(EEPR0M)、寄存器、硬盤、可移 動盤、CD-ROM,等等。軟件模塊可包括單條指令、或許多條指令,且可分布在若干不同的代碼 段上,分布在不同的程序間以及跨多個存儲介質(zhì)分布。存儲介質(zhì)可被耦合到處理器以使得 該處理器能從/向該存儲介質(zhì)讀寫信息。在替換方案中,存儲介質(zhì)可以被整合到處理器。 [0131 ]本文所公開的方法包括用于實現(xiàn)所描述的方法的一個或多個步驟或動作。這些方 法步驟和/或動作可以彼此互換而不會脫離權利要求的范圍。換言之,除非指定了步驟或動 作的特定次序,否則具體步驟和/或動作的次序和/或使用可以改動而不會脫離權利要求的 范圍。
[0132] 本文中所描述的功能可以在硬件、軟件、固件、或其任何組合中實現(xiàn)。如果以硬件 實現(xiàn),則示例硬件配置可包括設備中的處理系統(tǒng)。處理系統(tǒng)可以用總線架構來實現(xiàn)。取決于 處理系統(tǒng)的具體應用和整體設計約束,總線可包括任何數(shù)目的互連總線和橋接器。總線可 將包括處理器、機器可讀介質(zhì)、以及總線接口的各種電路鏈接在一起??偩€接口可用于尤其 將網(wǎng)絡適配器等經(jīng)由總線連接至處理系統(tǒng)。網(wǎng)絡適配器可用于實現(xiàn)信號處理功能。對于某 些方面,用戶接口(例如,按鍵板、顯示器、鼠標、操縱桿,等等)也可以被連接到總線??偩€還 可以鏈接各種其他電路,諸如定時源、外圍設備、穩(wěn)壓器、功率管理電路以及類似電路,它們 在本領域中是眾所周知的,因此將不再進一步描述。
[0133] 處理器可負責管理總線和一般處理,包括執(zhí)行存儲在機器可讀介質(zhì)上的軟件。處 理器可用一個或多個通用和/或?qū)S锰幚砥鱽韺崿F(xiàn)。示例包括微處理器、微控制器、DSP處理 器、以及其他能執(zhí)行軟件的電路系統(tǒng)。軟件應當被寬泛地解釋成意指指令、數(shù)據(jù)、或其任何 組合,無論是被稱作軟件、固件、中間件、微代碼、硬件描述語言、或其他。作為示例,機器可 讀介質(zhì)可包括隨機存取存儲器(RAM)、閃存、只讀存儲器(R0M)、可編程只讀存儲器(PR0M)、 可擦式可編程只讀存儲器(EPROM)、電可擦式可編程只讀存儲器(EEPR0M)、寄存器、磁盤、光 盤、硬驅(qū)動器、或者任何其他合適的存儲介質(zhì)、或其任何組合。機器可讀介質(zhì)可被實施在計 算機程序產(chǎn)品中。該計算機程序產(chǎn)品可以包括包裝材料。
[0134] 在硬件實現(xiàn)中,機器可讀介質(zhì)可以是處理系統(tǒng)中與處理器分開的一部分。然而,如 本領域技術人員將容易領會的,機器可讀介質(zhì)或其任何部分可在處理系統(tǒng)外部。作為示例, 機器可讀介質(zhì)可包括傳輸線、由數(shù)據(jù)調(diào)制的載波、和/或與設備分開的計算機產(chǎn)品,所有這 些都可由處理器通過總線接口來訪問。替換地或補充地,機器可讀介質(zhì)或其任何部分可被 集成到處理器中,諸如高速緩存和/或通用寄存器文件可能就是這種情形。雖然所討論的各 種組件可被描述為具有特定位置,諸如局部組件,但它們也可按各種方式來配置,諸如某些 組件被配置成分布式計算系統(tǒng)的一部分。
[0135] 處理系統(tǒng)可以被配置為通用處理系統(tǒng),該通用處理系統(tǒng)具有一個或多個提供處理 器功能性的微處理器、以及提供機器可讀介質(zhì)中的至少一部分的外部存儲器,它們都通過 外部總線架構與其他支持電路系統(tǒng)鏈接在一起。替換地,該處理系統(tǒng)可以包括一個或多個 神經(jīng)元形態(tài)處理器以用于實現(xiàn)本文所述的神經(jīng)元模型和神經(jīng)系統(tǒng)模型。作為另一替換方 案,處理系統(tǒng)可以用帶有集成在單塊芯片中的處理器、總線接口、用戶接口、支持電路系統(tǒng)、 和至少一部分機器可讀介質(zhì)的專用集成電路(ASIC)來實現(xiàn),或者用一個或多個現(xiàn)場可編程 門陣列(FPGA)、可編程邏輯器件(PLD)、控制器、狀態(tài)機、門控邏輯、分立硬件組件、或者任何 其他合適的電路系統(tǒng)、或者能執(zhí)行本公開通篇所描述的各種功能性的電路的任何組合來實 現(xiàn)。取決于具體應用和加諸于整體系統(tǒng)上的總設計約束,本領域技術人員將認識到如何最 佳地實現(xiàn)關于處理系統(tǒng)所描述的功能性。
[0136] 機器可讀介質(zhì)可包括數(shù)個軟件模塊。這些軟件模塊包括當由處理器執(zhí)行時使處理 系統(tǒng)執(zhí)行各種功能的指令。這些軟件模塊可包括傳送模塊和接收模塊。每個軟件模塊可以 駐留在單個存儲設備中或者跨多個存儲設備分布。作為示例,當觸發(fā)事件發(fā)生時,可以從硬 驅(qū)動器中將軟件模塊加載到RAM中。在軟件模塊執(zhí)行期間,處理器可以將一些指令加載到高 速緩存中以提高訪問速度。隨后可將一個或多個高速緩存行加載到通用寄存器文件中以供 處理器執(zhí)行。在參照以下述及軟件模塊的功能性時,將理解此類功能性是在處理器執(zhí)行來 自該軟件模塊的指令時由該處理器來實現(xiàn)的。
[0137] 如果以軟件實現(xiàn),則各功能可作為一條或多條指令或代碼存儲在計算機可讀介質(zhì) 上或藉其進行傳送。計算機可讀介質(zhì)包括計算機存儲介質(zhì)和通信介質(zhì)兩者,這些介質(zhì)包括 促成計算機程序從一地向另一地轉(zhuǎn)移的任何介質(zhì)。存儲介質(zhì)可以是能被計算機訪問的任何 可用介質(zhì)。作為示例而非限定,此類計算機可讀介質(zhì)可包括RAM、R0M、EEPR0M、CD-R0M或其他 光盤存儲、磁盤存儲或其他磁存儲設備、或能用于攜帶或存儲指令或數(shù)據(jù)結構形式的期望 程序代碼且能被計算機訪問的任何其他介質(zhì)。任何連接也被正當?shù)胤Q為計算機可讀介質(zhì)。 例如,如果軟件是使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)、或無線技術(諸如紅 夕KIR)、無線電、以及微波)從web網(wǎng)站、服務器、或其他遠程源傳送而來,則該同軸電纜、光 纖電纜、雙絞線、DSL或無線技術(諸如紅外、無線電、以及微波)就被包括在介質(zhì)的定義之 中。如本文中所使用的盤(disk)和碟(disc)包括壓縮碟(CD)、激光碟、光碟、數(shù)字多用碟 (DVD)、軟盤、和藍光%碟,其中盤(disk)常常磁性地再現(xiàn)數(shù)據(jù),而碟(disc)用激光來光學地 再現(xiàn)數(shù)據(jù)。因此,在一些方面,計算機可讀介質(zhì)可包括非瞬態(tài)計算機可讀介質(zhì)(例如,有形介 質(zhì))。另外,對于其他方面,計算機可讀介質(zhì)可包括瞬態(tài)計算機可讀介質(zhì)(例如,信號)。上述 的組合應當也被包括在計算機可讀介質(zhì)的范圍內(nèi)。
[0138] 因此,某些方面可包括用于執(zhí)行本文中給出的操作的計算機程序產(chǎn)品。例如,此類 計算機程序產(chǎn)品可包括其上存儲(和/或編碼)有指令的計算機可讀介質(zhì),這些指令能由一 個或多個處理器執(zhí)行以執(zhí)行本文中所描述的操作。對于某些方面,計算機程序產(chǎn)品可包括 包裝材料。
[0139] 此外,應當領會,用于執(zhí)行本文中所描述的方法和技術的模塊和/或其它恰適裝置 能由用戶終端和/或基站在適用的場合下載和/或以其他方式獲得。例如,此類設備能被耦 合至服務器以促成用于執(zhí)行本文中所描述的方法的裝置的轉(zhuǎn)移。替換地,本文所述的各種 方法能經(jīng)由存儲裝置(例如,RAM、R0M、諸如壓縮碟(CD)或軟盤等物理存儲介質(zhì)等)來提供, 以使得一旦將該存儲裝置耦合至或提供給用戶終端和/或基站,該設備就能獲得各種方法。 此外,可利用適于向設備提供本文所描述的方法和技術的任何其他合適的技術。
[0140] 將理解,權利要求并不被限定于以上所解說的精確配置和組件??稍谝陨纤枋?的方法和裝置的布局、操作和細節(jié)上作出各種改動、更換和變形而不會脫離權利要求的范 圍。
【主權項】
1. 一種音頻源分離方法,包括: 選擇音頻信號的音頻屬性; 將由單個源主導的音頻屬性部分表示為至少一個源尖峰事件; 將所述音頻信號的其余部分表示為至少一個音頻信號尖峰事件;以及 至少部分地基于所述至少一個源尖峰事件與所述至少一個音頻信號尖峰事件的一致 性來確定所述其余部分是否與所述單個源一致。2. 如權利要求1所述的方法,其特征在于,所述確定至少部分地基于所述至少一個源尖 峰事件以及所述至少一個音頻信號尖峰事件出現(xiàn)在一時間窗口內(nèi)。3. 如權利要求1所述的方法,其特征在于,所述音頻屬性是音調(diào)。4. 如權利要求1所述的方法,其特征在于,所述音頻屬性是空間位置。5. 如權利要求1所述的方法,其特征在于,所述確定至少部分地基于說話速率。6. 如權利要求1所述的方法,其特征在于,所述單個源包括錨,且所述錨使用至少一個 帶通濾波器來被處理以標識指定范圍內(nèi)的帶通濾波器輸出。7. 如權利要求6所述的方法,其特征在于,所述處理是在周期性的基礎上進行的。8. -種用于音頻源分離的裝置,包括: 存儲器;以及 耦合至所述存儲器的至少一個處理器,所述至少一個處理器被配置成: 選擇音頻信號的音頻屬性; 將由單個源主導的音頻屬性部分表示為至少一個源尖峰事件; 將所述音頻信號的其余部分表示為至少一個音頻信號尖峰事件;以及 至少部分地基于所述至少一個源尖峰事件與所述至少一個音頻信號尖峰事件的一致 性來確定所述其余部分是否與所述單個源一致。9. 如權利要求8所述的裝置,其特征在于,所述至少一個處理器被進一步配置成至少部 分地基于所述至少一個源尖峰事件以及所述至少一個音頻信號尖峰事件出現(xiàn)在一時間窗 口內(nèi)來確定所述其余部分是否與所述單個源一致。10. 如權利要求8所述的裝置,其特征在于,所述音頻屬性是音調(diào)。11. 如權利要求8所述的裝置,其特征在于,所述音頻屬性是空間位置。12. 如權利要求8所述的裝置,其特征在于,所述至少一個處理器被進一步配置成至少 部分地基于說話速率來確定所述其余部分是否與所述單個源一致。13. 如權利要求8所述的裝置,其特征在于,所述單個源包括錨,且所述至少一個處理器 被進一步配置成使用至少一個帶通濾波器來處理所述錨以標識指定范圍內(nèi)的帶通濾波器 輸出。14. 如權利要求13所述的裝置,其特征在于,所述至少一個處理器被進一步配置成在周 期性的基礎上處理所述錨。15. -種用于音頻源分離的裝備,包括: 用于選擇音頻信號的音頻屬性的裝置; 用于將由單個源主導的音頻屬性部分表示為至少一個源尖峰事件的裝置; 用于將所述音頻信號的其余部分表示為至少一個音頻信號尖峰事件的裝置;以及 用于至少部分地基于所述至少一個源尖峰事件與所述至少一個音頻信號尖峰事件的 一致性來確定所述其余部分是否與所述單個源一致的裝置。16. 如權利要求15所述的裝備,其特征在于,所述確定裝置還至少部分地基于所述至少 一個源尖峰事件以及所述至少一個音頻信號尖峰事件出現(xiàn)在一時間窗口內(nèi)來確定所述其 余部分是否與所述單個源一致。17. 如權利要求15所述的裝備,其特征在于,所述音頻屬性是音調(diào)。18. -種用于音頻源分離的計算機程序產(chǎn)品,包括: 其上編碼有程序代碼的非瞬態(tài)計算機可讀介質(zhì),所述程序代碼包括: 用于選擇音頻信號的音頻屬性的程序代碼; 用于將由單個源主導的音頻屬性部分表示為至少一個源尖峰事件的程序代碼; 用于將所述音頻信號的其余部分表示為至少一個音頻信號尖峰事件的程序代碼;以及 用于至少部分地基于所述至少一個源尖峰事件與所述至少一個音頻信號尖峰事件的 一致性來確定所述其余部分是否與所述單個源一致的程序代碼。19. 如權利要求18所述的計算機程序產(chǎn)品,其特征在于,進一步包括用于至少部分地基 于所述至少一個源尖峰事件以及所述至少一個音頻信號尖峰事件出現(xiàn)在一時間窗口內(nèi)來 確定所述其余部分是否與所述單個源一致的程序代碼。20. 如權利要求18所述的計算機程序產(chǎn)品,其特征在于,所述音頻屬性是音調(diào)。
【文檔編號】G10L25/30GK105981056SQ201580008280
【公開日】2016年9月28日
【申請日】2015年2月12日
【發(fā)明人】L·克里希南, M·坎伯斯
【申請人】高通股份有限公司