本申請要求于2014年7月16日提交且題為“DECOMPOSING CONVOLUTION OPERATION IN NEURAL NETWORKS(神經(jīng)網(wǎng)絡(luò)中的分解卷積操作)”的美國臨時專利申請No.62/025,406的權(quán)益,其公開內(nèi)容通過援引全部明確納入于此。
技術(shù)背景
領(lǐng)域
本公開的某些方面一般涉及神經(jīng)系統(tǒng)工程,并且尤其涉及用于使用分解卷積操作來訓(xùn)練及操作神經(jīng)網(wǎng)絡(luò)的系統(tǒng)和方法。
技術(shù)背景
可包括一群互連的人工神經(jīng)元(即,神經(jīng)元模型)的人工神經(jīng)網(wǎng)絡(luò)是一種計算設(shè)備或者表示將由計算設(shè)備執(zhí)行的方法。人工神經(jīng)網(wǎng)絡(luò)可具有生物學(xué)神經(jīng)網(wǎng)絡(luò)中的對應(yīng)的結(jié)構(gòu)和/或功能。然而,人工神經(jīng)網(wǎng)絡(luò)可為其中傳統(tǒng)計算技術(shù)是麻煩的、不切實(shí)際的、或不勝任的某些應(yīng)用提供創(chuàng)新且有用的計算技術(shù)。由于人工神經(jīng)網(wǎng)絡(luò)能從觀察中推斷出功能,因此這樣的網(wǎng)絡(luò)在因任務(wù)或數(shù)據(jù)的復(fù)雜度使得通過常規(guī)技術(shù)來設(shè)計該功能較為麻煩的應(yīng)用中是特別有用的。
概述
在本公開的一方面,給出了一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法。該方法包括鼓勵該神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩。
在本公開的另一方面,給出了一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的裝置。該裝置包括存儲器以及耦合至該存儲器的一個或多個處理器。(諸)處理器被配置成鼓勵該神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩。
在本公開的還有另一方面,給出了一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的裝備。該裝備包括用于鼓勵該神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩的裝置。該裝備還包括用于向(諸)濾波器應(yīng)用分解卷積來訓(xùn)練該神經(jīng)網(wǎng)絡(luò)的裝置。
在本公開的再另一方面,給出了一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的計算機(jī)程序產(chǎn)品。該計算機(jī)程序產(chǎn)品包括其上編碼有程序代碼的非瞬態(tài)計算機(jī)可讀介質(zhì)。該程序代碼包括用以鼓勵該神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩的程序代碼。
這已較寬泛地勾勒出本公開的特征和技術(shù)優(yōu)勢以便下面的詳細(xì)描述可以被更好地理解。本公開的附加特征和優(yōu)點(diǎn)將在下文描述。本領(lǐng)域技術(shù)人員應(yīng)該領(lǐng)會,本公開可容易地被用作修改或設(shè)計用于實(shí)施與本公開相同的目的的其他結(jié)構(gòu)的基礎(chǔ)。本領(lǐng)域技術(shù)人員還應(yīng)認(rèn)識到,這樣的等效構(gòu)造并不脫離所附權(quán)利要求中所闡述的本公開的教導(dǎo)。被認(rèn)為是本公開的特性的新穎特征在其組織和操作方法兩方面連同進(jìn)一步的目的和優(yōu)點(diǎn)在結(jié)合附圖來考慮以下描述時將被更好地理解。然而,要清楚理解的是,提供每一幅附圖均僅用于解說和描述目的,且無意作為對本公開的限定的定義。
附圖簡要說明
在結(jié)合附圖理解下面闡述的詳細(xì)描述時,本公開的特征、本質(zhì)和優(yōu)點(diǎn)將變得更加明顯,在附圖中,相同附圖標(biāo)記始終作相應(yīng)標(biāo)識。
圖1解說了根據(jù)本公開的某些方面的示例神經(jīng)元網(wǎng)絡(luò)。
圖2解說了根據(jù)本公開的某些方面的計算網(wǎng)絡(luò)(神經(jīng)系統(tǒng)或神經(jīng)網(wǎng)絡(luò))的處理單元(神經(jīng)元)的示例。
圖3解說了根據(jù)本公開的某些方面的尖峰定時依賴可塑性(STDP)曲線的示例。
圖4解說了根據(jù)本公開的某些方面的用于定義神經(jīng)元模型的行為的正態(tài)相和負(fù)態(tài)相的示例。
圖5解說了根據(jù)本公開的某些方面的使用通用處理器來設(shè)計神經(jīng)網(wǎng)絡(luò)的示例實(shí)現(xiàn)。
圖6解說了根據(jù)本公開的某些方面的設(shè)計其中存儲器可以與個體分布式處理單元對接的神經(jīng)網(wǎng)絡(luò)的示例實(shí)現(xiàn)。
圖7解說了根據(jù)本公開的某些方面的基于分布式存儲器和分布式處理單元來設(shè)計神經(jīng)網(wǎng)絡(luò)的示例實(shí)現(xiàn)。
圖8解說了根據(jù)本公開的某些方面的神經(jīng)網(wǎng)絡(luò)的示例實(shí)現(xiàn)。
圖9是解說根據(jù)本公開的諸方面的用于操作神經(jīng)網(wǎng)絡(luò)的方法的流程圖。
圖10是解說根據(jù)本公開的諸方面的用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法的流程圖。
詳細(xì)描述
以下結(jié)合附圖闡述的詳細(xì)描述旨在作為各種配置的描述,而無意表示可實(shí)踐本文中所描述的概念的僅有的配置。本詳細(xì)描述包括具體細(xì)節(jié)以便提供對各種概念的透徹理解。然而,對于本領(lǐng)域技術(shù)人員將顯而易見的是,沒有這些具體細(xì)節(jié)也可實(shí)踐這些概念。在一些實(shí)例中,以框圖形式示出眾所周知的結(jié)構(gòu)和組件以避免湮沒此類概念。
基于本教導(dǎo),本領(lǐng)域技術(shù)人員應(yīng)領(lǐng)會,本公開的范圍旨在覆蓋本公開的任何方面,不論其是與本公開的任何其他方面相獨(dú)立地還是組合地實(shí)現(xiàn)的。例如,可以使用所闡述的任何數(shù)目的方面來實(shí)現(xiàn)裝置或?qū)嵺`方法。另外,本公開的范圍旨在覆蓋使用作為所闡述的本公開的各個方面的補(bǔ)充或者與之不同的其他結(jié)構(gòu)、功能性、或者結(jié)構(gòu)及功能性來實(shí)踐的此類裝置或方法。應(yīng)當(dāng)理解,所披露的本公開的任何方面可由權(quán)利要求的一個或多個元素來實(shí)施。
措辭“示例性”在本文中用于意指“用作示例、實(shí)例或解說”。本文中描述為“示例性”的任何方面不必被解釋為優(yōu)于或勝過其他方面。
盡管本文描述了特定方面,但這些方面的眾多變體和置換落在本公開的范圍之內(nèi)。雖然提到了優(yōu)選方面的一些益處和優(yōu)點(diǎn),但本公開的范圍并非旨在被限定于特定益處、用途或目標(biāo)。相反,本公開的各方面旨在能寬泛地應(yīng)用于不同的技術(shù)、系統(tǒng)配置、網(wǎng)絡(luò)和協(xié)議,其中一些作為示例在附圖以及以下對優(yōu)選方面的描述中解說。詳細(xì)描述和附圖僅僅解說本公開而非限定本公開,本公開的范圍由所附權(quán)利要求及其等效技術(shù)方案來定義。
示例神經(jīng)系統(tǒng)、訓(xùn)練及操作
圖1解說了根據(jù)本公開的某些方面的具有多級神經(jīng)元的示例人工神經(jīng)系統(tǒng)100。神經(jīng)系統(tǒng)100可具有神經(jīng)元級102,該神經(jīng)元級102通過突觸連接網(wǎng)絡(luò)104(即,前饋連接)來連接到另一神經(jīng)元級106。為簡單起見,圖1中僅解說了兩級神經(jīng)元,盡管神經(jīng)系統(tǒng)中可存在更少或更多級神經(jīng)元。應(yīng)注意,一些神經(jīng)元可通過側(cè)向連接來連接至同層中的其他神經(jīng)元。此外,一些神經(jīng)元可通過反饋連接來后向連接至先前層中的神經(jīng)元。
如圖1所解說的,級102中的每一個神經(jīng)元可以接收可由前級的神經(jīng)元(未在圖1中示出)生成的輸入信號108。信號108可表示級102的神經(jīng)元的輸入電流。該電流可在神經(jīng)元膜上累積以對膜電位進(jìn)行充電。當(dāng)膜電位達(dá)到其閾值時,該神經(jīng)元可激發(fā)并生成輸出尖峰,該輸出尖峰將被傳遞到下一級神經(jīng)元(例如,級106)。在一些建模辦法中,神經(jīng)元可以連續(xù)地向下一級神經(jīng)元傳遞信號。該信號通常是膜電位的函數(shù)。此類行為可在硬件和/或軟件(包括模擬和數(shù)字實(shí)現(xiàn),諸如以下所述那些實(shí)現(xiàn))中進(jìn)行仿真或模擬。
在生物學(xué)神經(jīng)元中,在神經(jīng)元激發(fā)時生成的輸出尖峰被稱為動作電位。該電信號是相對迅速、瞬態(tài)的神經(jīng)脈沖,其具有約為100mV的振幅和約為1ms的歷時。在具有一系列連通的神經(jīng)元(例如,尖峰從圖1中的一級神經(jīng)元傳遞至另一級神經(jīng)元)的神經(jīng)系統(tǒng)的特定實(shí)施例中,每個動作電位都具有基本上相同的振幅和歷時,并且因此該信號中的信息可僅由尖峰的頻率和數(shù)目、或尖峰的時間來表示,而不由振幅來表示。動作電位所攜帶的信息可由尖峰、發(fā)放了尖峰的神經(jīng)元、以及該尖峰相對于一個或數(shù)個其他尖峰的時間來確定。尖峰的重要性可由向各神經(jīng)元之間的連接所應(yīng)用的權(quán)重來確定,如以下所解釋的。
尖峰從一級神經(jīng)元向另一級神經(jīng)元的傳遞可通過突觸連接(或簡稱“突觸”)網(wǎng)絡(luò)104來達(dá)成,如圖1中所解說的。相對于突觸104,級102的神經(jīng)元可被視為突觸前神經(jīng)元,而級106的神經(jīng)元可被視為突觸后神經(jīng)元。突觸104可接收來自級102的神經(jīng)元的輸出信號(即,尖峰),并根據(jù)可調(diào)節(jié)突觸權(quán)重來按比例縮放那些信號,其中P是級102的神經(jīng)元與級106的神經(jīng)元之間的突觸連接的總數(shù),并且i是神經(jīng)元級的指示符。在圖1的示例中,i表示神經(jīng)元級102并且i+1表示神經(jīng)元級106。此外,經(jīng)按比例縮放的信號可被組合以作為級106中每個神經(jīng)元的輸入信號。級106中的每個神經(jīng)元可基于對應(yīng)的組合輸入信號來生成輸出尖峰110??墒褂昧硪煌挥|連接網(wǎng)絡(luò)(圖1中未示出)將這些輸出尖峰110傳遞到另一級神經(jīng)元。
生物學(xué)突觸可以仲裁突觸后神經(jīng)元中的興奮性或抑制性(超極化)動作,并且還可用于放大神經(jīng)元信號。興奮性信號使膜電位去極化(即,相對于靜息電位增大膜電位)。如果在某個時間段內(nèi)接收到足夠的興奮性信號以使膜電位去極化到高于閾值,則在突觸后神經(jīng)元中發(fā)生動作電位。相反,抑制性信號一般使膜電位超極化(即,降低膜電位)。抑制性信號如果足夠強(qiáng)則可抵消掉興奮性信號之和并阻止膜電位到達(dá)閾值。除了抵消掉突觸興奮以外,突觸抑制還可對自發(fā)活躍神經(jīng)元施加強(qiáng)力的控制。自發(fā)活躍神經(jīng)元是指在沒有進(jìn)一步輸入的情況下(例如,由于其動態(tài)或反饋而)發(fā)放尖峰的神經(jīng)元。通過壓制這些神經(jīng)元中的動作電位的自發(fā)生成,突觸抑制可對神經(jīng)元中的激發(fā)模式進(jìn)行定形,這一般被稱為雕刻。取決于期望的行為,各種突觸104可充當(dāng)興奮性或抑制性突觸的任何組合。
神經(jīng)系統(tǒng)100可由通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯器件(PLD)、分立的門或晶體管邏輯、分立的硬件組件、由處理器執(zhí)行的軟件模塊、或其任何組合來仿真。神經(jīng)系統(tǒng)100可用在大范圍的應(yīng)用中,諸如圖像和模式識別、機(jī)器學(xué)習(xí)、電機(jī)控制、及類似應(yīng)用等。神經(jīng)系統(tǒng)100中的每一神經(jīng)元可被實(shí)現(xiàn)為神經(jīng)元電路。被充電至發(fā)起輸出尖峰的閾值的神經(jīng)元膜可被實(shí)現(xiàn)為例如對流經(jīng)其的電流進(jìn)行積分的電容器。
在一方面,電容器作為神經(jīng)元電路的電流積分器件可被除去,并且可使用較小的憶阻器元件來替代它。這種辦法可應(yīng)用于神經(jīng)元電路中,以及其中大容量電容器被用作電流積分器的各種其他應(yīng)用中。另外,每個突觸104可基于憶阻器元件來實(shí)現(xiàn),其中突觸權(quán)重變化可與憶阻器電阻的變化有關(guān)。使用納米特征尺寸的憶阻器,可顯著地減小神經(jīng)元電路和突觸的面積,這可使得實(shí)現(xiàn)大規(guī)模神經(jīng)系統(tǒng)硬件實(shí)現(xiàn)更為切實(shí)可行。
對神經(jīng)系統(tǒng)100進(jìn)行仿真的神經(jīng)處理器的功能性可取決于突觸連接的權(quán)重,這些權(quán)重可控制神經(jīng)元之間的連接的強(qiáng)度。突觸權(quán)重可存儲在非易失性存儲器中以在掉電之后保留該處理器的功能性。在一方面,突觸權(quán)重存儲器可實(shí)現(xiàn)在與主神經(jīng)處理器芯片分開的外部芯片上。突觸權(quán)重存儲器可與神經(jīng)處理器芯片分開地封裝成可更換的存儲卡。這可向神經(jīng)處理器提供多種多樣的功能性,其中特定功能性可基于當(dāng)前附連至神經(jīng)處理器的存儲卡中所存儲的突觸權(quán)重。
圖2解說了根據(jù)本公開的某些方面的計算網(wǎng)絡(luò)(例如,神經(jīng)系統(tǒng)或神經(jīng)網(wǎng)絡(luò))的處理單元(例如,神經(jīng)元或神經(jīng)元電路)202的示例性示圖200。例如,神經(jīng)元202可對應(yīng)于來自圖1的級102和106的任何神經(jīng)元。神經(jīng)元202可接收多個輸入信號2041-204N,這些輸入信號可以是該神經(jīng)系統(tǒng)外部的信號、或是由同一神經(jīng)系統(tǒng)的其他神經(jīng)元所生成的信號、或這兩者。輸入信號可以是電流、電導(dǎo)、電壓、實(shí)數(shù)值的和/或復(fù)數(shù)值的。輸入信號可包括具有定點(diǎn)或浮點(diǎn)表示的數(shù)值??赏ㄟ^突觸連接將這些輸入信號遞送到神經(jīng)元202,突觸連接根據(jù)可調(diào)節(jié)突觸權(quán)重2061-206N(W1-WN)對這些信號進(jìn)行按比例縮放,其中N可以是神經(jīng)元202的輸入連接總數(shù)。
神經(jīng)元202可組合這些經(jīng)按比例縮放的輸入信號,并且使用組合的經(jīng)按比例縮放的輸入來生成輸出信號208(即,信號Y)。輸出信號208可以是電流、電導(dǎo)、電壓、實(shí)數(shù)值的和/或復(fù)數(shù)值的。輸出信號可以是具有定點(diǎn)或浮點(diǎn)表示的數(shù)值。隨后該輸出信號208可作為輸入信號傳遞至同一神經(jīng)系統(tǒng)的其他神經(jīng)元、或作為輸入信號傳遞至同一神經(jīng)元202、或作為該神經(jīng)系統(tǒng)的輸出來傳遞。
處理單元(神經(jīng)元)202可由電路來仿真,并且其輸入和輸出連接可由具有突觸電路的電連接來仿真。處理單元202及其輸入和輸出連接也可由軟件代碼來仿真。處理單元202還可由電路來仿真,而其輸入和輸出連接可由軟件代碼來仿真。在一方面,計算網(wǎng)絡(luò)中的處理單元202可以是模擬電路。在另一方面,處理單元202可以是數(shù)字電路。在又一方面,處理單元202可以是具有模擬和數(shù)字組件兩者的混合信號電路。計算網(wǎng)絡(luò)可包括任何前述形式的處理單元。使用這樣的處理單元的計算網(wǎng)絡(luò)(神經(jīng)系統(tǒng)或神經(jīng)網(wǎng)絡(luò))可用在大范圍的應(yīng)用中,諸如圖像和模式識別、機(jī)器學(xué)習(xí)、電機(jī)控制、及類似應(yīng)用等。
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程期間,突觸權(quán)重(例如,來自圖1的權(quán)重和/或來自圖2的權(quán)重2061-206N)可用隨機(jī)值來初始化并根據(jù)學(xué)習(xí)規(guī)則而被增大或減小。本領(lǐng)域技術(shù)人員將領(lǐng)會,學(xué)習(xí)規(guī)則的示例包括但不限于尖峰定時依賴可塑性(STDP)學(xué)習(xí)規(guī)則、Hebb規(guī)則、Oja規(guī)則、Bienenstock-Copper-Munro(BCM)規(guī)則等。在一些方面,這些權(quán)重可穩(wěn)定或收斂至兩個值(即,權(quán)重的雙峰分布)之一。該效應(yīng)可被用于減少每個突觸權(quán)重的位數(shù)、提高從/向存儲突觸權(quán)重的存儲器讀取和寫入的速度、以及降低突觸存儲器的功率和/或處理器消耗。
突觸類型
在神經(jīng)網(wǎng)絡(luò)的硬件和軟件模型中,突觸相關(guān)功能的處理可基于突觸類型。突觸類型可以是非可塑突觸(權(quán)重和延遲沒有改變)、可塑突觸(權(quán)重可改變)、結(jié)構(gòu)化延遲可塑突觸(權(quán)重和延遲可改變)、全可塑突觸(權(quán)重、延遲和連通性可改變)、以及基于此的變型(例如,延遲可改變,但在權(quán)重或連通性方面沒有改變)。多種類型的優(yōu)點(diǎn)在于處理可以被細(xì)分。例如,非可塑突觸不會使用待執(zhí)行的可塑性功能(或等待此類功能完成)。類似地,延遲和權(quán)重可塑性可被細(xì)分成可一起或分開地、順序地或并行地運(yùn)作的操作。不同類型的突觸對于適用的每一種不同的可塑性類型可具有不同的查找表或公式以及參數(shù)。因此,這些方法將針對該突觸的類型來訪問相關(guān)的表、公式或參數(shù)。
還進(jìn)一步牽涉到以下事實(shí):尖峰定時依賴型結(jié)構(gòu)化可塑性可獨(dú)立于突觸可塑性地來執(zhí)行。結(jié)構(gòu)化可塑性即使在權(quán)重幅值沒有改變的情況下(例如,如果權(quán)重已達(dá)最小或最大值、或者其由于某種其他原因而不被改變)也可被執(zhí)行,因?yàn)榻Y(jié)構(gòu)化可塑性(即,延遲改變的量)可以是pre-post(前-后)尖峰時間差的直接函數(shù)。替換地,結(jié)構(gòu)化可塑性可被設(shè)為權(quán)重變化量的函數(shù)或者可基于與權(quán)重或權(quán)重變化的界限有關(guān)的條件來設(shè)置。例如,突觸延遲可僅在權(quán)重變化發(fā)生時或者在權(quán)重到達(dá)0的情況下才改變,但在這些權(quán)重為最大值時則不改變。然而,具有獨(dú)立函數(shù)以使得這些過程能被并行化從而減少存儲器訪問的次數(shù)和交疊可能是有利的。
突觸可塑性的確定
神經(jīng)元可塑性(或簡稱“可塑性”)是大腦中的神經(jīng)元和神經(jīng)網(wǎng)絡(luò)響應(yīng)于新的信息、感官刺激、發(fā)展、損壞、或機(jī)能障礙而改變其突觸連接和行為的能力。可塑性對于生物學(xué)中的學(xué)習(xí)和記憶、以及對于計算神經(jīng)元科學(xué)和神經(jīng)網(wǎng)絡(luò)是重要的。已經(jīng)研究了各種形式的可塑性,諸如突觸可塑性(例如,根據(jù)Hebbian理論)、尖峰定時依賴可塑性(STDP)、非突觸可塑性、活躍性依賴可塑性、結(jié)構(gòu)化可塑性和自穩(wěn)態(tài)可塑性。
STDP是調(diào)節(jié)神經(jīng)元之間的突觸連接的強(qiáng)度的學(xué)習(xí)過程。連接強(qiáng)度是基于特定神經(jīng)元的輸出與收到輸入尖峰(即,動作電位)的相對定時來調(diào)節(jié)的。在STDP過程下,如果至某個神經(jīng)元的輸入尖峰平均而言傾向于緊挨在該神經(jīng)元的輸出尖峰之前發(fā)生,則可發(fā)生長期增強(qiáng)(LTP)。于是使得該特定輸入在一定程度上更強(qiáng)。另一方面,如果輸入尖峰平均而言傾向于緊接在輸出尖峰之后發(fā)生,則可發(fā)生長期抑壓(LTD)。于是使得該特定輸入在一定程度上更弱,并由此得名“尖峰定時依賴可塑性”。因此,使得可能是突觸后神經(jīng)元興奮原因的輸入甚至在將來作出貢獻(xiàn)的可能性更大,而使得不是突觸后尖峰的原因的輸入在將來作出貢獻(xiàn)的可能性更小。該過程繼續(xù),直至初始連接集合的子集保留,而所有其他連接的影響減小至無關(guān)緊要的水平。
由于神經(jīng)元一般在其許多輸入都在一短時段內(nèi)發(fā)生(即,累積性足以引起輸出)時產(chǎn)生輸出尖峰,因此通常保留下來的輸入子集包括傾向于在時間上相關(guān)的那些輸入。另外,由于在輸出尖峰之前發(fā)生的輸入被加強(qiáng),因此提供對相關(guān)性的最早充分累積性指示的那些輸入將最終變成至該神經(jīng)元的最后輸入。
STDP學(xué)習(xí)規(guī)則可因變于突觸前神經(jīng)元的尖峰時間tpre與突觸后神經(jīng)元的尖峰時間tpost之間的時間差(即,t=tpost-tpre)來有效地適配將該突觸前神經(jīng)元連接到該突觸后神經(jīng)元的突觸的突觸權(quán)重。STDP的典型公式化是若該時間差為正(突觸前神經(jīng)元在突觸后神經(jīng)元之前激發(fā))則增大突觸權(quán)重(即,增強(qiáng)該突觸),以及若該時間差為負(fù)(突觸后神經(jīng)元在突觸前神經(jīng)元之前激發(fā))則減小突觸權(quán)重(即,抑壓該突觸)。
在STDP過程中,突觸權(quán)重隨時間推移的改變可通常使用指數(shù)式衰退來達(dá)成,如由下式給出的:
其中k+和k-τsign(Δt)分別是針對正和負(fù)時間差的時間常數(shù),a+和a-是對應(yīng)的比例縮放幅值,并且μ是可應(yīng)用于正時間差和/或負(fù)時間差的偏移。
圖3解說了根據(jù)STDP,突觸權(quán)重作為突觸前(presynaptic)和突觸后(postsynaptic)尖峰的相對定時的函數(shù)而改變的示例性示圖300。如果突觸前神經(jīng)元在突觸后神經(jīng)元之前激發(fā),則對應(yīng)的突觸權(quán)重可被增大,如曲線圖300的部分302中所解說的。該權(quán)重增大可被稱為該突觸的LTP。從曲線圖部分302可觀察到,LTP的量可因變于突觸前和突觸后尖峰時間之差而大致呈指數(shù)式地下降。相反的激發(fā)次序可減小突觸權(quán)重,如曲線圖300的部分304中所解說的,從而導(dǎo)致該突觸的LTD。
如圖3中的曲線圖300中所解說的,可向STDP曲線圖的LTP(因果性)部分302應(yīng)用負(fù)偏移μ。x軸的交越點(diǎn)306(y=0)可被配置成與最大時間滯后重合以考慮到來自層i-1的各因果性輸入的相關(guān)性。在基于幀的輸入(即,呈特定歷時的包括尖峰或脈沖的幀的形式的輸入)的情形中,可計算偏移值μ以反映幀邊界。該幀中的第一輸入尖峰(脈沖)可被視為要么如直接由突觸后電位所建模地隨時間衰退,要么在對神經(jīng)狀態(tài)的影響的意義上隨時間衰退。如果該幀中的第二輸入尖峰(脈沖)被視為與特定時間幀相關(guān)或有關(guān),則該幀之前和之后的有關(guān)時間可通過使STDP曲線的一個或多個部分偏移以使得這些有關(guān)時間中的值可以不同(例如,對于大于一個幀為負(fù),而對于小于一個幀為正)來在該時間幀邊界處被分開并在可塑性意義上被不同地對待。例如,負(fù)偏移μ可被設(shè)為偏移LTP以使得曲線實(shí)際上在大于幀時間的pre-post時間處變得低于零并且它由此為LTD而非LTP的一部分。
神經(jīng)元模型及操作
存在一些用于設(shè)計有用的尖峰發(fā)放神經(jīng)元模型的一般原理。良好的神經(jīng)元模型在以下兩個計算態(tài)相(regime)方面可具有豐富的潛在行為:重合性檢測和功能性計算。此外,良好的神經(jīng)元模型應(yīng)當(dāng)具有允許時間編碼的兩個要素:輸入的抵達(dá)時間影響輸出時間,以及重合性檢測能具有窄時間窗。最后,為了在計算上是有吸引力的,良好的神經(jīng)元模型在連續(xù)時間上可具有閉合形式解,并且具有穩(wěn)定的行為,包括在靠近吸引子和鞍點(diǎn)之處。換言之,有用的神經(jīng)元模型是可實(shí)踐且可被用于建模豐富的、現(xiàn)實(shí)的且生物學(xué)一致的行為并且可被用于對神經(jīng)電路進(jìn)行工程設(shè)計和反向工程兩者的神經(jīng)元模型。
神經(jīng)元模型可取決于事件,諸如輸入抵達(dá)、輸出尖峰或其他事件,無論這些事件是內(nèi)部的還是外部的。為了達(dá)成豐富的行為庫,能展現(xiàn)復(fù)雜行為的狀態(tài)機(jī)可能是期望的。如果事件本身的發(fā)生在撇開輸入貢獻(xiàn)(若有)的情況下能影響狀態(tài)機(jī)并約束該事件之后的動態(tài),則該系統(tǒng)的將來狀態(tài)并非僅是狀態(tài)和輸入的函數(shù),而是狀態(tài)、事件和輸入的函數(shù)。
在一方面,神經(jīng)元n可被建模為尖峰帶漏泄積分激發(fā)神經(jīng)元,其膜電壓vn(t)由以下動態(tài)來支配:
其中α和β是參數(shù),wm,n是將突觸前神經(jīng)元m連接至突觸后神經(jīng)元n的突觸的突觸權(quán)重,以及ym(t)是神經(jīng)元m的尖峰發(fā)放輸出,其可根據(jù)Δtm,n被延遲達(dá)樹突或軸突延遲才抵達(dá)神經(jīng)元n的胞體。
應(yīng)注意,從建立了對突觸后神經(jīng)元的充分輸入的時間直至該突觸后神經(jīng)元實(shí)際上激發(fā)的時間存在延遲。在動態(tài)尖峰發(fā)放神經(jīng)元模型(諸如Izhikevich簡單模型)中,如果在去極化閾值vt與峰值尖峰電壓vpeak之間有差量,則可引發(fā)時間延遲。例如,在該簡單模型中,神經(jīng)元胞體動態(tài)可由關(guān)于電壓和恢復(fù)的微分方程對來支配,即:
其中v是膜電位,u是膜恢復(fù)變量,k是描述膜電位v的時間尺度的參數(shù),a是描述恢復(fù)變量u的時間尺度的參數(shù),b是描述恢復(fù)變量u對膜電位v的閾下波動的敏感度的參數(shù),vr是膜靜息電位,I是突觸電流,以及C是膜的電容。根據(jù)該模型,神經(jīng)元被定義為在v>vpeak時發(fā)放尖峰。
Hunzinger Cold模型
Hunzinger Cold神經(jīng)元模型是能再現(xiàn)豐富多樣的各種神經(jīng)行為的最小雙態(tài)相尖峰發(fā)放線性動態(tài)模型。該模型的一維或二維線性動態(tài)可具有兩個態(tài)相,其中時間常數(shù)(以及耦合)可取決于態(tài)相。在閾下態(tài)相中,時間常數(shù)(按照慣例為負(fù))表示漏泄通道動態(tài),其一般作用于以生物學(xué)一致的線性方式使細(xì)胞返回到靜息。閾上態(tài)相中的時間常數(shù)(按照慣例為正)反映抗漏泄通道動態(tài),其一般驅(qū)動細(xì)胞發(fā)放尖峰,而同時在尖峰生成中引發(fā)等待時間。
如圖4中所解說的,該模型400的動態(tài)可被劃分成兩個(或更多個)態(tài)相。這些態(tài)相可被稱為負(fù)態(tài)相402(也可互換地稱為帶漏泄積分激發(fā)(LIF)態(tài)相,勿與LIF神經(jīng)元模型混淆)以及正態(tài)相404(也可互換地稱為抗漏泄積分激發(fā)(ALIF)態(tài)相,勿與ALIF神經(jīng)元模型混淆)。在負(fù)態(tài)相402中,狀態(tài)在將來事件的時間趨向于靜息(v-)。在該負(fù)態(tài)相中,該模型一般展現(xiàn)出時間輸入檢測性質(zhì)及其他閾下行為。在正態(tài)相404中,狀態(tài)趨向于尖峰發(fā)放事件(vs)。在該正態(tài)相中,該模型展現(xiàn)出計算性質(zhì),諸如取決于后續(xù)輸入事件而引發(fā)發(fā)放尖峰的等待時間。在事件方面對動態(tài)進(jìn)行公式化以及將動態(tài)分成這兩個態(tài)相是該模型的基礎(chǔ)特性。
線性雙態(tài)相二維動態(tài)(對于狀態(tài)v和u)可按照慣例定義為:
其中qρ和r是用于耦合的線性變換變量。
符號ρ在本文中用于標(biāo)示動態(tài)態(tài)相,在討論或表達(dá)具體態(tài)相的關(guān)系時,按照慣例對于負(fù)態(tài)相和正態(tài)相分別用符號“-”或“+”來替換符號ρ。
模型狀態(tài)由膜電位(電壓)v和恢復(fù)電流u來定義。在基本形式中,態(tài)相在本質(zhì)上是由模型狀態(tài)來決定的。該精確和通用的定義存在一些細(xì)微卻重要的方面,但目前考慮該模型在電壓v高于閾值(v+)的情況下處于正態(tài)相404中,否則處于負(fù)態(tài)相402中。
態(tài)相相關(guān)時間常數(shù)包括負(fù)態(tài)相時間常數(shù)τ-和正態(tài)相時間常數(shù)τ+?;謴?fù)電流時間常數(shù)τu通常是與態(tài)相無關(guān)的。出于方便起見,負(fù)態(tài)相時間常數(shù)τ-通常被指定為反映衰退的負(fù)量,從而用于電壓演變的相同表達(dá)式可用于正態(tài)相,在正態(tài)相中指數(shù)和τ+將一般為正,正如τu那樣。
這兩個狀態(tài)元素的動態(tài)可在發(fā)生事件之際通過使?fàn)顟B(tài)偏離其零傾線(null-cline)的變換來耦合,其中變換變量為:
qρ=-τρβu-vρ (7)
r=δ(v+ε), (8)
其中δ、ε、β和v-、v+是參數(shù)。vρ的兩個值是這兩個態(tài)相的參考電壓的基數(shù)。參數(shù)v-是負(fù)態(tài)相的基電壓,并且膜電位在負(fù)態(tài)相中一般將朝向v-衰退。參數(shù)v+是正態(tài)相的基電壓,并且膜電位在正態(tài)相中一般將趨向于背離v+。
v和u的零傾線分別由變換變量qρ和r的負(fù)數(shù)給出。參數(shù)δ是控制u零傾線的斜率的比例縮放因子。參數(shù)ε通常被設(shè)為等于-v-。參數(shù)β是控制這兩個態(tài)相中的v零傾線的斜率的電阻值。τρ時間常數(shù)參數(shù)不僅控制指數(shù)式衰退,還單獨(dú)地控制每個態(tài)相中的零傾線斜率。
該模型可被定義為在電壓v達(dá)到值vS時發(fā)放尖峰。隨后,狀態(tài)可在發(fā)生復(fù)位事件(其可以與尖峰事件完全相同)之際被復(fù)位:
u=u+Δu, (10)
其中和Δu是參數(shù)。復(fù)位電壓通常被設(shè)為v-。
依照瞬時耦合的原理,閉合形式解不僅對于狀態(tài)是可能的(且具有單個指數(shù)項(xiàng)),而且對于到達(dá)特定狀態(tài)的時間也是可能的。閉合形式狀態(tài)解為:
因此,模型狀態(tài)可僅在發(fā)生事件之際被更新,諸如在輸入(突觸前尖峰)或輸出(突觸后尖峰)之際被更新。還可在任何特定時間(無論是否有輸入或輸出)執(zhí)行操作。
而且,依照瞬時耦合原理,突觸后尖峰的時間可被預(yù)計,因此到達(dá)特定狀態(tài)的時間可提前被確定而無需迭代技術(shù)或數(shù)值方法(例如,歐拉數(shù)值方法)。給定了先前電壓狀態(tài)v0,直至到達(dá)電壓狀態(tài)vf之前的時間延遲由下式給出:
如果尖峰被定義為發(fā)生在電壓狀態(tài)v到達(dá)vS的時間,則從電壓處于給定狀態(tài)v的時間起測量的直至發(fā)生尖峰前的時間量或即相對延遲的閉合形式解為:
其中通常被設(shè)為參數(shù)v+,但其他變型可以是可能的。
模型動態(tài)的以上定義取決于該模型是在正態(tài)相還是負(fù)態(tài)相中。如所提及的,耦合和態(tài)相ρ可基于事件來計算。出于狀態(tài)傳播的目的,態(tài)相和耦合(變換)變量可基于在上一(先前)事件的時間的狀態(tài)來定義。出于隨后預(yù)計尖峰輸出時間的目的,態(tài)相和耦合變量可基于在下一(當(dāng)前)事件的時間的狀態(tài)來定義。
存在對該Cold模型、以及在時間上執(zhí)行模擬、仿真、或建模的若干可能實(shí)現(xiàn)。這包括例如事件-更新、步階-事件更新、以及步階-更新模式。事件更新是其中基于事件或“事件更新”(在特定時刻)來更新狀態(tài)的更新。步階更新是以間隔(例如,1ms)來更新模型的更新。這不一定利用迭代方法或數(shù)值方法。通過僅在事件發(fā)生于步階處或步階間的情況下才更新模型或即通過“步階-事件更新”,基于事件的實(shí)現(xiàn)以有限的時間分辨率在基于步階的模擬器中實(shí)現(xiàn)也是可能的?!?/p>
神經(jīng)網(wǎng)絡(luò)中的分解卷積操作
深度卷積網(wǎng)絡(luò)(DCN)被廣泛使用于許多計算機(jī)視覺應(yīng)用(包括對象分類、對象定位、面部識別和場景識別)中。卷積操作是DCN中最為計算密集的塊之一。本公開的諸方面涉及用以通過在DCN中將二維(2D)卷積操作表達(dá)為1D卷積操作的組合來降低卷積操作的計算復(fù)雜度的方法。
卷積操作可以在一維(1D)陣列上理解。長度為N的輸入向量X可以與長度為M的濾波器W進(jìn)行卷積以產(chǎn)生長度為N-M+1的輸出向量Y=X*W:
其中M和N是整數(shù)值。
忽視加法,計算復(fù)雜度可以就乘法的次數(shù)而言來表達(dá)。以上操作中的乘法的次數(shù)等于(N-M)*M。假設(shè)濾波器大小與輸入大小相比較小,那么乘法的次數(shù)是使用大O記號的O(NM)乘法的階數(shù)。
在深度卷積網(wǎng)絡(luò)中,卷積操作可以在2D矩陣而非1D向量上執(zhí)行。例如,N1×N2維度的輸入矩陣X可以與M1×M2維度的濾波器矩陣W卷積來產(chǎn)生(N1-M1+1)×(N2-M2+1)維度的輸出矩陣Y,如下:
計算復(fù)雜度可以是O(N1N2M1M2)乘法的階數(shù)。若這些矩陣是正方矩陣,即,N1=N2=N以及M1=M2=M,那么計算復(fù)雜度是O(N2M2)的階數(shù)。
分解2D卷積操作
2D卷積操作可以取決于濾波器矩陣W的秩表達(dá)為1D卷積操作的組合。例如,濾波器矩陣W可以使用奇異值分解(SVD)表達(dá)為秩1矩陣的線性組合。
在該示例中,秩(W)表示矩陣W的秩,矩陣W1、W2、…W秩(W)都是單位秩矩陣。進(jìn)一步,每個單元秩矩陣可以被表達(dá)為列向量乘以行向量的乘積。
使用濾波器矩陣W的2D卷積操作可以被分解為使用單元秩矩陣的2D卷積操作的線性組合。使用單元秩矩陣的2D卷積操作的優(yōu)點(diǎn)在于操作可以被分解為兩個1D卷積操作。
在一個示例中,假設(shè)Wi=UiVTi,其中Ui是列向量以及VTi是行向量。那么2D卷積操作X*Wi可以通過首先將矩陣X的每一列與列向量Ui卷積,以及隨后將所得矩陣的每一行與行向量VTi卷積來分解。
該使用兩個1D卷積來計算與單元秩矩陣的2D卷積的方法具有計算復(fù)雜度:
N2O(N1M1)+N1O(N2M2)=O(N1N2(M1+M2))
因?yàn)榱泻托芯矸e操作針對每個單元秩矩陣重復(fù),所以該辦法的總體計算復(fù)雜度可以被表達(dá)為:
O(秩(W)N1N2(M1+M2))。
在正方矩陣的情形中,其等于O(2秩(W)N2M)。這是與O(N2M2)進(jìn)行比較的,該O(N2M2)為2D卷積操作的計算復(fù)雜度。
若濾波器矩陣W具有較小的秩(秩(W))以及具有較大維度(M),那么該分解方法可以是高效的例如,考慮濾波器矩陣的大小是16×16且具有秩2的示例,那么使用該分解方法的O(2*2*16*N2)=O(64N2)次乘法與使用傳統(tǒng)方法的O(256N2)次乘法比較。若濾波器矩陣W具有單位秩,那么該比較是O(32N2)次乘法和O(256N2)次乘法之間進(jìn)行的。
根據(jù)本公開的諸方面,將2D卷積操作分解成1D卷積操作的方法可以按以下方式應(yīng)用到DCN:
在一方面,DCN可以使用任何訓(xùn)練技術(shù)來訓(xùn)練。在訓(xùn)練的結(jié)束時,可以計算濾波器矩陣的秩??赏ㄟ^比較O(N1N2M1M2)和O(秩(W)N1N2(M1+M2))來確定是否使用該分解方法來實(shí)現(xiàn)2D卷積操作。
在一些方面,DCN可以經(jīng)歷預(yù)處理,從而濾波器矩陣可以被低秩近似值來代替。可以僅使用頂部的若干單位秩矩陣來近似濾波器權(quán)重矩陣。
這里,R可以小至1,或者可以基于奇異值的能量分布來選擇。通常,大多數(shù)的能量集中在頂部的若干奇異值中。在一些方面,R可以根據(jù)經(jīng)驗(yàn)選擇。例如,R可以通過為R嘗試不同值來基于DCN的總體分類性能來選擇。即,R的最終值可以根據(jù)R的不同值的驗(yàn)證數(shù)據(jù)集的準(zhǔn)確度來確定??梢赃x擇具有可忽略性能降級的R的最低值。
在低秩近似之后,可以使用預(yù)訓(xùn)練分類器,或者分類器可以被重新訓(xùn)練。
在另一方面,該訓(xùn)練過程可以被鼓勵匯聚至單位秩或低秩濾波器權(quán)重矩陣。若秩<K/2,那么濾波器可以被視為具有低秩,其中K是例如濾波器權(quán)重矩陣的大小。低秩濾波器的另一示例是Gabor濾波器,其可以如以下表示:
若θ=0,90,180,或270,那么Gabor濾波器矩陣具有秩1并且因此是可分隔的。在另一方面,對于θ的所有其他值,Gabor濾波器的秩為2。在該情形中,Gabor濾波器是兩個可分隔濾波器的總和。
在一個示例性方面,可以通過向目標(biāo)函數(shù)增加正則化矩陣項(xiàng)(例如,成本函數(shù))從而懲罰高秩矩陣來鼓勵單位或低秩濾波器矩陣。例如,可以使用核范數(shù)來減小秩。核范數(shù)是奇異值之和并可以表達(dá)為:
其中σi是奇異值,以及對于每個濾波器λ||W||*與目標(biāo)函數(shù)相加,其中λ是成本函數(shù)。相應(yīng)地,權(quán)重衰減項(xiàng)被增加到梯度更新式中。當(dāng)然,其他正則化矩陣也可以被用來減小濾波器秩。在已經(jīng)減小濾波器秩的情形中,可以應(yīng)用分解卷積。
在另一示例性方面,濾波器權(quán)重矩陣的特定秩(例如,單位秩或低秩)可以被強(qiáng)制,以及可以應(yīng)用后向傳播(或者等效的梯度下降)來計算這些強(qiáng)制矩陣上的更新。
例如,假設(shè)濾波器矩陣被強(qiáng)制為具有單位秩。那么W是UVT的形式,其中U是列向量以及V是行向量。元素wij可以不是自由變量,但是作為替代可以是基于自由變量ui和vj推導(dǎo)而得的變量:
wij=uivj. (21)
可以應(yīng)用后向傳播過程來針對元素wij計算部分梯度。該關(guān)于元素wij的部分梯度可以進(jìn)而被用來按一下方式關(guān)于自由變量ui和vj計算部分梯度。
其中L表示被減小的損耗(或目標(biāo))函數(shù)。這些部分梯度可以被用來更新變量ui和vj,以及在單位秩權(quán)重矩陣的空間中實(shí)質(zhì)上執(zhí)行梯度派生。由此,結(jié)果經(jīng)訓(xùn)練的DCN將具有單位秩矩陣以及可以采用該分解方法來高效地實(shí)現(xiàn)卷積操作。
在另一示例性方面,濾波器矩陣上的仲裁秩(r)可以被強(qiáng)制而非將濾波器矩陣強(qiáng)制為具有單位秩??梢詧?zhí)行用以計算部分梯度的后向傳播過程來確定變量ui和vj的更新,如以上所討論的。
在一些方面,可以為每個貢獻(xiàn)單位秩矩陣使用相同權(quán)重更新以及使用分集的隨機(jī)初始情況。在另一方面,r列向量彼此正交以及r行向量彼此正交的附加約束可以被用來鼓勵分集。
在一些方面,重用可分隔濾波器可以是合需的。例如,DCN具有多個濾波器在相同輸入上操作時,鼓勵重用底層濾波器(underlying filter)是有益的。這可以通過配置一組L個可分隔濾波器U1V1T,U2V2T,…ULVL.T來達(dá)成。每個濾波器可以被限制為底層濾波器的大小為R的隨機(jī)子集的線性組合:
其中Sp是濾波器p所使用的可分隔濾波器的子集,且αpr是線性組合參數(shù)??梢詰?yīng)用后向傳播來學(xué)習(xí)這L個可分隔濾波器以及線性組合參數(shù)。
圖5解說了根據(jù)本公開的某些方面的使用通用處理器502進(jìn)行前述分解的示例實(shí)現(xiàn)500。與計算網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))相關(guān)聯(lián)的變量(神經(jīng)信號)、突觸權(quán)重、系統(tǒng)參數(shù)、延遲、和頻槽信息可被存儲在存儲器塊504中,而在通用處理器502處執(zhí)行的指令可從程序存儲器506中加載。在本公開的一方面,加載到通用處理器502的指令可包括用于確定可分隔濾波器的數(shù)目以表達(dá)神經(jīng)網(wǎng)絡(luò)中的濾波器和/或選擇性地向?yàn)V波器應(yīng)用分解卷積的代碼。
在本公開的另一方面,加載到通用處理器502的指令可包括用于鼓勵神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩的代碼。
圖6解說了根據(jù)本公開的某些方面的前述分解技術(shù)的示例實(shí)現(xiàn)600,其中存儲器602可以經(jīng)由互連網(wǎng)絡(luò)604與計算網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))的個體(分布式)處理單元(神經(jīng)處理器)606對接。與計算網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))相關(guān)聯(lián)的變量(神經(jīng)信號)、突觸權(quán)重、系統(tǒng)參數(shù),延遲,頻率槽信息,正則化信息和系統(tǒng)度量可被存儲在存儲器602中,并且可從存儲器602經(jīng)由互連網(wǎng)絡(luò)604的連接被加載到每個處理單元(神經(jīng)處理器)606中。在本公開的一方面,處理單元606可以配置成確定可分隔濾波器的數(shù)目以表達(dá)神經(jīng)網(wǎng)絡(luò)中的濾波器和/或選擇性地向?yàn)V波器應(yīng)用分解卷積。
在本公開的另一方面,處理單元606可配置成鼓勵神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩。
圖7解說前述分解的示例實(shí)現(xiàn)700。如圖7中所解說的,一個存儲器組702可與計算網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))的一個處理單元704直接對接。每一個存儲器組702可存儲與對應(yīng)的處理單元(神經(jīng)處理器)704相關(guān)聯(lián)的變量(神經(jīng)信號)、突觸權(quán)重、和/或系統(tǒng)參數(shù),延遲,頻率槽信息,正則化信息和/或系統(tǒng)度量。在本公開的一方面,處理單元704可以配置成確定可分隔濾波器的數(shù)目以表達(dá)神經(jīng)網(wǎng)絡(luò)中的濾波器和/或選擇性地向?yàn)V波器應(yīng)用分解卷積。
在本公開的另一方面,處理單元704可配置成鼓勵神經(jīng)網(wǎng)路中的一個或多個濾波器具有低秩。
圖8解說了根據(jù)本公開的某些方面的神經(jīng)網(wǎng)絡(luò)800的示例實(shí)現(xiàn)。如圖8中所解說的,神經(jīng)網(wǎng)絡(luò)800可具有多個局部處理單元802,它們可執(zhí)行本文所描述的方法的各種操作。每個局部處理單元802可包括存儲該神經(jīng)網(wǎng)絡(luò)的參數(shù)的局部狀態(tài)存儲器804和局部參數(shù)存儲器806。另外,局部處理單元802可具有用于存儲局部模型程序的局部(神經(jīng)元)模型程序(LMP)存儲器808、用于存儲局部學(xué)習(xí)程序的局部學(xué)習(xí)程序(LLP)存儲器810、以及局部連接存儲器812。此外,如圖8中所解說的,每個局部處理單元802可與用于提供針對該局部處理單元的各局部存儲器的配置的配置處理器單元814對接,并且與提供各局部處理單元802之間的路由的路由連接處理單元816對接。
在一個配置中,神經(jīng)元模型被配置成用于確定可分隔濾波器的數(shù)目以表達(dá)神經(jīng)網(wǎng)絡(luò)中的濾波器和/或選擇性地向?yàn)V波器應(yīng)用分解卷積。神經(jīng)元模型包括確定裝置和應(yīng)用裝置。在一個方面,該確定裝置和/或應(yīng)用裝置可以是被配置成執(zhí)行所敘述的功能的通用處理器502、程序存儲器506、存儲器塊504、存儲器602、互連網(wǎng)絡(luò)604、處理單元606、處理單元704、局部處理單元802、和/或路由連接處理單元816。在另一配置中,前述裝置可以是被配置成執(zhí)行由前述裝置所敘述的功能的任何模塊或任何裝置。
在另一配置中,神經(jīng)元模型被配置成用于鼓勵神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩以及向(諸)濾波器應(yīng)用分解卷積以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。神經(jīng)元模型包括鼓勵裝置和應(yīng)用裝置。在一個方面,該鼓勵裝置和/或應(yīng)用裝置可以是被配置成執(zhí)行所敘述的功能的通用處理器502、程序存儲器506、存儲器塊504、存儲器602、互連網(wǎng)絡(luò)604、處理單元606、處理單元704、局部處理單元802、和/或路由連接處理單元816。在另一配置中,前述裝置可以是被配置成執(zhí)行由前述裝置所敘述的功能的任何模塊或任何裝置。
根據(jù)本公開的某些方面,每個局部處理單元802可被配置成基于神經(jīng)網(wǎng)絡(luò)的一個或多個期望功能性特征來確定神經(jīng)網(wǎng)絡(luò)的參數(shù),以及隨著所確定的參數(shù)被進(jìn)一步適配、調(diào)諧和更新來使這一個或多個功能性特征朝著期望的功能性特征發(fā)展。
圖9解說了用于操作神經(jīng)網(wǎng)絡(luò)的方法900。在框902,該過程確定可分隔濾波器的數(shù)目以表達(dá)神經(jīng)網(wǎng)絡(luò)中的濾波器。例如,該過程可以確定足以表達(dá)或近似神經(jīng)網(wǎng)絡(luò)中的濾波器的可分隔濾波器的數(shù)目。在一些方面,確定可分隔濾波器的數(shù)目可以基于濾波器的秩。在其他方面,確定可分隔濾波器的數(shù)目可以基于濾波器的奇異值分解(SVD)。
在框904,該過程還可以選擇性地向?yàn)V波器應(yīng)用分解卷積。
在一些方面,神經(jīng)元模型可以進(jìn)一步用低秩近似代替濾波器。該代替可以基于例如性能度量。在一些方面,該代替可以基于通過計算奇異值分解獲得的奇異值。
圖10解說了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法1000。在框1002,神經(jīng)元模型鼓勵神經(jīng)網(wǎng)絡(luò)中的一個或多個濾波器具有低秩。在一些方面,神經(jīng)元模型通過向(諸)濾波器的濾波器權(quán)重矩陣應(yīng)用正則化矩陣來鼓勵(諸)濾波器具有低秩。該正則化矩陣可包括例如成本度量或核范數(shù)。進(jìn)一步,在框1004,神經(jīng)元模型向(諸)濾波器應(yīng)用分解卷積來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
在一些方面,神經(jīng)元模型通過將濾波器分成行濾波器和列濾波器的線性組合來鼓勵(諸)濾波器具有低秩。神經(jīng)元模型可進(jìn)一步應(yīng)用通過后向傳播學(xué)習(xí)到的梯度更新來學(xué)習(xí)行濾波器和列濾波器。
以上所描述的方法的各種操作可由能夠執(zhí)行相應(yīng)功能的任何合適的裝置來執(zhí)行。這些裝置可包括各種硬件和/或(諸)軟件組件和/或(諸)模塊,包括但不限于電路、專用集成電路(ASIC)、或處理器。一般而言,在附圖中有解說的操作的場合,那些操作可具有帶相似編號的相應(yīng)配對裝置加功能組件。
如本文所使用的,術(shù)語“確定”涵蓋各種各樣的動作。例如,“確定”可包括演算、計算、處理、推導(dǎo)、研究、查找(例如,在表、數(shù)據(jù)庫或其他數(shù)據(jù)結(jié)構(gòu)中查找)、探知及諸如此類。另外,“確定”可包括接收(例如接收信息)、訪問(例如訪問存儲器中的數(shù)據(jù))、及類似動作。而且,“確定”可包括解析、選擇、選取、確立及類似動作。
如本文所使用的,引述一列項(xiàng)目中的“至少一個”的短語是指這些項(xiàng)目的任何組合,包括單個成員。作為示例,“a、b或c中的至少一個”旨在涵蓋:a、b、c、a-b、a-c、b-c、以及a-b-c。
結(jié)合本公開所描述的各種解說性邏輯框、模塊、以及電路可用設(shè)計成執(zhí)行本文所描述功能的通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列信號(FPGA)或其他可編程邏輯器件(PLD)、分立的門或晶體管邏輯、分立的硬件組件或其任何組合來實(shí)現(xiàn)或執(zhí)行。通用處理器可以是微處理器,但在替換方案中,處理器可以是任何市售的處理器、控制器、微控制器、或狀態(tài)機(jī)。處理器還可被實(shí)現(xiàn)為計算設(shè)備的組合,例如DSP與微處理器的組合、多個微處理器、與DSP核心協(xié)同的一個或多個微處理器、或任何其它此類配置。
結(jié)合本公開描述的方法或算法的步驟可直接在硬件中、在由處理器執(zhí)行的軟件模塊中、或在這兩者的組合中實(shí)施。軟件模塊可駐留在本領(lǐng)域所知的任何形式的存儲介質(zhì)中。可使用的存儲介質(zhì)的一些示例包括隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、閃存、可擦除可編程只讀存儲器(EPROM)、電可擦除可編程只讀存儲器(EEPROM)、寄存器、硬盤、可移動盤、CD-ROM,等等。軟件模塊可包括單條指令、或許多條指令,且可分布在若干不同的代碼段上,分布在不同的程序間以及跨多個存儲介質(zhì)分布。存儲介質(zhì)可被耦合到處理器以使得該處理器能從/向該存儲介質(zhì)讀寫信息。在替換方案中,存儲介質(zhì)可以被整合到處理器。
本文所公開的方法包括用于達(dá)成所描述的方法的一個或多個步驟或動作。這些方法步驟和/或動作可以彼此互換而不會脫離權(quán)利要求的范圍。換言之,除非指定了步驟或動作的特定次序,否則具體步驟和/或動作的次序和/或使用可以改動而不會脫離權(quán)利要求的范圍。
本文中所描述的功能可以在硬件、軟件、固件、或其任何組合中實(shí)現(xiàn)。如果以硬件實(shí)現(xiàn),則示例硬件配置可包括設(shè)備中的處理系統(tǒng)。處理系統(tǒng)可以用總線架構(gòu)來實(shí)現(xiàn)。取決于處理系統(tǒng)的具體應(yīng)用和整體設(shè)計約束,總線可包括任何數(shù)目的互連總線和橋接器??偩€可將包括處理器、機(jī)器可讀介質(zhì)、以及總線接口的各種電路鏈接在一起??偩€接口可用于尤其將網(wǎng)絡(luò)適配器等經(jīng)由總線連接至處理系統(tǒng)。網(wǎng)絡(luò)適配器可用于實(shí)現(xiàn)信號處理功能。對于某些方面,用戶接口(例如,按鍵板、顯示器、鼠標(biāo)、操縱桿,等等)也可以被連接到總線。總線還可以鏈接各種其他電路,諸如定時源、外圍設(shè)備、穩(wěn)壓器、功率管理電路以及類似電路,它們在本領(lǐng)域中是眾所周知的,因此將不再進(jìn)一步描述。
處理器可負(fù)責(zé)管理總線和一般處理,包括執(zhí)行存儲在機(jī)器可讀介質(zhì)上的軟件。處理器可用一個或多個通用和/或?qū)S锰幚砥鱽韺?shí)現(xiàn)。示例包括微處理器、微控制器、DSP處理器、以及其他能執(zhí)行軟件的電路系統(tǒng)。軟件應(yīng)當(dāng)被寬泛地解釋成意指指令、數(shù)據(jù)、或其任何組合,無論是被稱作軟件、固件、中間件、微代碼、硬件描述語言、或其他。作為示例,機(jī)器可讀介質(zhì)可包括隨機(jī)存取存儲器(RAM)、閃存、只讀存儲器(ROM)、可編程只讀存儲器(PROM)、可擦式可編程只讀存儲器(EPROM)、電可擦式可編程只讀存儲器(EEPROM)、寄存器、磁盤、光盤、硬驅(qū)動器、或者任何其他合適的存儲介質(zhì)、或其任何組合。機(jī)器可讀介質(zhì)可被實(shí)施在計算機(jī)程序產(chǎn)品中。該計算機(jī)程序產(chǎn)品可以包括包裝材料。
在硬件實(shí)現(xiàn)中,機(jī)器可讀介質(zhì)可以是處理系統(tǒng)中與處理器分開的一部分。然而,如本領(lǐng)域技術(shù)人員將容易領(lǐng)會的,機(jī)器可讀介質(zhì)或其任何部分可在處理系統(tǒng)外部。作為示例,機(jī)器可讀介質(zhì)可包括傳輸線、由數(shù)據(jù)調(diào)制的載波、和/或與設(shè)備分開的計算機(jī)產(chǎn)品,所有這些都可由處理器通過總線接口來訪問。替換地或補(bǔ)充地,機(jī)器可讀介質(zhì)或其任何部分可被集成到處理器中,諸如高速緩存和/或通用寄存器文件可能就是這種情形。雖然所討論的各種組件可被描述為具有特定位置,諸如局部組件,但它們也可按各種方式來配置,諸如某些組件被配置成分布式計算系統(tǒng)的一部分。
處理系統(tǒng)可以被配置為通用處理系統(tǒng),該通用處理系統(tǒng)具有一個或多個提供處理器功能性的微處理器、以及提供機(jī)器可讀介質(zhì)中的至少一部分的外部存儲器,它們都通過外部總線架構(gòu)與其他支持電路系統(tǒng)鏈接在一起。替換地,該處理系統(tǒng)可以包括一個或多個神經(jīng)元形態(tài)處理器以用于實(shí)現(xiàn)本文所述的神經(jīng)元模型和神經(jīng)系統(tǒng)模型。作為另一替換方案,處理系統(tǒng)可以用帶有集成在單塊芯片中的處理器、總線接口、用戶接口、支持電路系統(tǒng)、和至少一部分機(jī)器可讀介質(zhì)的專用集成電路(ASIC)來實(shí)現(xiàn),或者用一個或多個現(xiàn)場可編程門陣列(FPGA)、可編程邏輯器件(PLD)、控制器、狀態(tài)機(jī)、門控邏輯、分立硬件組件、或者任何其他合適的電路系統(tǒng)、或者能執(zhí)行本公開通篇所描述的各種功能性的電路的任何組合來實(shí)現(xiàn)。取決于具體應(yīng)用和加諸于整體系統(tǒng)上的總設(shè)計約束,本領(lǐng)域技術(shù)人員將認(rèn)識到如何最佳地實(shí)現(xiàn)關(guān)于處理系統(tǒng)所描述的功能性。
機(jī)器可讀介質(zhì)可包括數(shù)個軟件模塊。這些軟件模塊包括當(dāng)由處理器執(zhí)行時使處理系統(tǒng)執(zhí)行各種功能的指令。這些軟件模塊可包括傳送模塊和接收模塊。每個軟件模塊可以駐留在單個存儲設(shè)備中或者跨多個存儲設(shè)備分布。作為示例,當(dāng)觸發(fā)事件發(fā)生時,可以從硬驅(qū)動器中將軟件模塊加載到RAM中。在軟件模塊執(zhí)行期間,處理器可以將一些指令加載到高速緩存中以提高訪問速度。隨后可將一個或多個高速緩存行加載到通用寄存器文件中以供處理器執(zhí)行。在以下述及軟件模塊的功能性時,將理解此類功能性是在處理器執(zhí)行來自該軟件模塊的指令時由該處理器來實(shí)現(xiàn)的。
如果以軟件實(shí)現(xiàn),則各功能可作為一條或多條指令或代碼存儲在計算機(jī)可讀介質(zhì)上或藉其進(jìn)行傳送。計算機(jī)可讀介質(zhì)包括計算機(jī)存儲介質(zhì)和通信介質(zhì)兩者,這些介質(zhì)包括促成計算機(jī)程序從一地向另一地轉(zhuǎn)移的任何介質(zhì)。存儲介質(zhì)可以是能被計算機(jī)訪問的任何可用介質(zhì)。作為示例而非限定,此類計算機(jī)可讀介質(zhì)可包括RAM、ROM、EEPROM、CD-ROM或其他光盤存儲、磁盤存儲或其他磁存儲設(shè)備、或能用于攜帶或存儲指令或數(shù)據(jù)結(jié)構(gòu)形式的期望程序代碼且能被計算機(jī)訪問的任何其他介質(zhì)。另外,任何連接也被正當(dāng)?shù)胤Q為計算機(jī)可讀介質(zhì)。例如,如果軟件是使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)、或無線技術(shù)(諸如紅外(IR)、無線電、以及微波)從web網(wǎng)站、服務(wù)器、或其他遠(yuǎn)程源傳送而來,則該同軸電纜、光纖電纜、雙絞線、DSL或無線技術(shù)(諸如紅外、無線電、以及微波)就被包括在介質(zhì)的定義之中。如本文中所使用的盤(disk)和碟(disc)包括壓縮碟(CD)、激光碟、光碟、數(shù)字多用碟(DVD)、軟盤、和碟,其中盤(disk)常常磁性地再現(xiàn)數(shù)據(jù),而碟(disc)用激光來光學(xué)地再現(xiàn)數(shù)據(jù)。因此,在一些方面,計算機(jī)可讀介質(zhì)可包括非瞬態(tài)計算機(jī)可讀介質(zhì)(例如,有形介質(zhì))。另外,對于其他方面,計算機(jī)可讀介質(zhì)可包括瞬態(tài)計算機(jī)可讀介質(zhì)(例如,信號)。上述的組合應(yīng)當(dāng)也被包括在計算機(jī)可讀介質(zhì)的范圍內(nèi)。
因此,某些方面可包括用于執(zhí)行本文中給出的操作的計算機(jī)程序產(chǎn)品。例如,此類計算機(jī)程序產(chǎn)品可包括其上存儲(和/或編碼)有指令的計算機(jī)可讀介質(zhì),這些指令能由一個或多個處理器執(zhí)行以執(zhí)行本文中所描述的操作。對于某些方面,計算機(jī)程序產(chǎn)品可包括包裝材料。
此外,應(yīng)當(dāng)領(lǐng)會,用于執(zhí)行本文中所描述的方法和技術(shù)的模塊和/或其它恰適裝置能由用戶終端和/或基站在適用的場合下載和/或以其他方式獲得。例如,此類設(shè)備能被耦合至服務(wù)器以促成用于執(zhí)行本文中所描述的方法的裝置的轉(zhuǎn)移。替換地,本文所述的各種方法能經(jīng)由存儲裝置(例如,RAM、ROM、諸如壓縮碟(CD)或軟盤等物理存儲介質(zhì)等)來提供,以使得一旦將該存儲裝置耦合至或提供給用戶終端和/或基站,該設(shè)備就能獲得各種方法。此外,可利用適于向設(shè)備提供本文所描述的方法和技術(shù)的任何其他合適的技術(shù)。
將理解,權(quán)利要求并不被限定于以上所解說的精確配置和組件??稍谝陨纤枋龅姆椒ê脱b置的布局、操作和細(xì)節(jié)上作出各種改動、更換和變形而不會脫離權(quán)利要求的范圍。