針對(duì)傳感器采集數(shù)據(jù)的局部增量式的概率密度估計(jì)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于密度估計(jì)的技術(shù)領(lǐng)域,具體設(shè)及一種針對(duì)傳感器采集數(shù)據(jù)的局部增量 式的概率密度估計(jì)方法。
【背景技術(shù)】
[0002] 當(dāng)傳感器在啟動(dòng)后就進(jìn)入了數(shù)據(jù)采集的過程,運(yùn)樣采集來的數(shù)據(jù)送到后臺(tái)電腦中 進(jìn)行處理時(shí),往往就要對(duì)傳送過來采集來的數(shù)據(jù)進(jìn)行估計(jì),而生成運(yùn)些數(shù)據(jù)的概率密度函 數(shù)是一個(gè)非常重要的任務(wù)。
[0003] 傳統(tǒng)概率密度估計(jì)方法大致分為兩種:非參數(shù)式方法和參數(shù)式方法,非參數(shù)方法 的代表是核概率密度估計(jì)方法,它非常靈活,理論上能夠收斂到任何光滑的概率概率密度 函數(shù)。但是運(yùn)類方法的問題是運(yùn)行開銷極大,面對(duì)規(guī)模稍大的問題便無能為力。
[0004] 參數(shù)式方法的代表方法是高斯混合模型,它通過預(yù)先分配一定數(shù)量的高斯分布, 然后通過"期望一最大化"方法和訓(xùn)練數(shù)據(jù)來得到每個(gè)高斯分布的參數(shù)和組合系數(shù),最終得 到的概率密度估計(jì)來自運(yùn)些高斯成分的線性組合,運(yùn)種方法的缺陷在于需要預(yù)先確定高斯 成分的數(shù)量來取得較好的效果,不合適的數(shù)量會(huì)導(dǎo)致非常不理想的結(jié)果。此外,每次訓(xùn)練需 要訪問傳感器采集來的所有的數(shù)據(jù)樣本,在數(shù)據(jù)量非常大或者數(shù)據(jù)本身W數(shù)據(jù)流的形式存 在時(shí)無法直接應(yīng)用。 陽0化]特別的,在面對(duì)數(shù)據(jù)流的情況下,還存在"概念漂移"(Concept化ift)的現(xiàn)象:數(shù) 據(jù)的概率密度函數(shù)隨時(shí)間而變化。此時(shí)傳統(tǒng)的批處理方法無法解決運(yùn)類問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的提供一種針對(duì)傳感器采集數(shù)據(jù)的局部增量式的概率密度估計(jì)方法, 本方法在不改變傳統(tǒng)硬件架構(gòu)的基礎(chǔ)上,綜合采用了信道監(jiān)聽、頻分、時(shí)分、碼分技術(shù),并借 鑒超高頻RFID識(shí)別技術(shù)中的詢問/應(yīng)答原理建立了網(wǎng)絡(luò)的詢問/應(yīng)答機(jī)制,解決了運(yùn)行開 銷極大、面對(duì)規(guī)模稍大的問題便無能為力、不合適的數(shù)量會(huì)導(dǎo)致非常不理想、在數(shù)據(jù)量非常 大或者數(shù)據(jù)本身W數(shù)據(jù)流的形式存在時(shí)無法直接應(yīng)用W及無法解決"概念漂移"的問題。
[0007] 為了克服現(xiàn)有技術(shù)中的不足,本發(fā)明提供了一種針對(duì)傳感器采集數(shù)據(jù)的局部增量 式的概率密度估計(jì)方法的解決方案,具體如下: 一種針對(duì)傳感器采集數(shù)據(jù)的局部增量式的概率密度估計(jì)方法,步驟如下: 步驟1:首先啟動(dòng)傳感器進(jìn)行數(shù)據(jù)采集,然后把傳感器采集來的數(shù)據(jù)發(fā)送到處理單元 中進(jìn)行處理,該處理單元設(shè)置有存儲(chǔ)器,存儲(chǔ)器中存有W往的高斯分布集合、預(yù)設(shè)有用于 初始化高斯分布的協(xié)方差矩陣、; 步驟2 :把傳感器采集來的數(shù)據(jù)發(fā)送到處理單元中進(jìn)行處理的方式如下:a.模型初始化過程,其過程具體為當(dāng)處理單元接收到的傳感器采集來的數(shù)據(jù)為第一個(gè) 樣本時(shí),把該第一個(gè)樣本進(jìn)行向量化表示,把向量化的第一個(gè)樣本作為均值向量,再結(jié)合用 于初始化高斯分布的協(xié)方差矩陣,W此根據(jù)多元高斯分布的概率密度函數(shù)得到傳感器采集 來的數(shù)據(jù)的概率密度的初步估計(jì),接收下一個(gè)新的傳感器采集來的數(shù)據(jù)的新的樣本,并對(duì) 該新的樣本進(jìn)行向量化表示; b.計(jì)算鄰域集合,其過程具體為如果存儲(chǔ)器中的高斯分布集合已有若干高斯分布,每 一個(gè)高斯分布都定義了一個(gè)如公式(1)所示的接受域:
(1) Vi表示第i個(gè)高斯分布的接受域,i為大于等于1的整數(shù),X代表當(dāng)前正在處理的向量 化的數(shù)據(jù)樣本,Rd表示d維的實(shí)數(shù)空間,d為大于等于1的整數(shù),X1為用于第i個(gè)高斯分布 的協(xié)方差矩陣,Ui為第i個(gè)高斯分布的均值向量,T1滿足如下公式(2)的條件:
(2) P(.)表示概率函數(shù),q為實(shí)數(shù),范圍在0. 9-0. 95之內(nèi); 利用公式(3): Sx=(iI(X-Ux)T>EiT(x_Ux)<Ti2} (3) 找出所有接受域中包含了當(dāng)前數(shù)據(jù)樣本的那些高斯分布組成的鄰域集合5、; C.增量學(xué)習(xí),其過程具體為如果當(dāng)前所求得的鄰域集合Sy為空集,使用當(dāng)前的數(shù)據(jù)樣 本初始化一個(gè)新的高斯分布加入到現(xiàn)有的存儲(chǔ)器中; d. 局部參數(shù)更新,其過程具體為根據(jù)公式集合(1)
對(duì)所有在鄰域集合內(nèi)的高斯分布,更新它們的參數(shù)來擬合當(dāng)前的數(shù)據(jù)樣本,其它高斯 分布則保持不變,其中表示第t輪時(shí)第i個(gè)高斯分布的中間參數(shù),t為大于等于2的整 數(shù),第t輪的處理也就是針對(duì)第t個(gè)樣本的處理,CP(.)表示多元高斯分布的概率密度函 數(shù),xt表示傳感器采集到的第t個(gè)數(shù)據(jù)樣本的向量化表示,0,4。= (r產(chǎn) E產(chǎn)U),〇嚴(yán)表示針對(duì)第t輪時(shí)第i個(gè)高斯分布的有效數(shù)據(jù)樣本的個(gè)數(shù)的中間參數(shù),UiW表 示第t輪時(shí)第i個(gè)高斯分布的均值向量,E產(chǎn)U表示第t輪時(shí)第i個(gè)高斯分布的協(xié)方差矩 陣; e. 去噪處理,其過程具體為每當(dāng)處理的數(shù)據(jù)樣本達(dá)到設(shè)定的數(shù)量時(shí),就執(zhí)行一次去噪 處理過程,對(duì)所有由噪音產(chǎn)生的高斯成分,接收下一個(gè)傳感器采集來的數(shù)據(jù)的新的樣本,并 對(duì)該新的樣本進(jìn)行向量化表示,返回b中執(zhí)行。
[0008] 所述的初始化高斯分布的協(xié)方差矩陣為對(duì)角矩陣。
[0009] 本方法提供了一種針對(duì)傳感器采集數(shù)據(jù)的局部增量式的概率密度估計(jì)方法,也是 一種在線式的方法,每次迭代只需要傳感器采集來的單個(gè)數(shù)據(jù)樣本,最終得到一個(gè)高斯混 合模型。當(dāng)傳感器采集來的新數(shù)據(jù)到來時(shí),根據(jù)其與當(dāng)前模型的關(guān)系來確定是否要增加高 斯成分,如果不增加則局部地對(duì)當(dāng)前模型進(jìn)行參數(shù)更新。運(yùn)種增量和局部學(xué)習(xí)結(jié)合的方式 使得算法能夠檢測出傳感器采集來的數(shù)據(jù)流中概率密度分布的變化,而且對(duì)局部復(fù)雜的密 度分布更為敏感,最終得到準(zhǔn)確的概率密度估計(jì)。最后,使用一種去噪方式使得方法穩(wěn)定性 和抗干擾性能更強(qiáng)。
【具體實(shí)施方式】
[0010] 當(dāng)傳感器在啟動(dòng)后就進(jìn)入了數(shù)據(jù)采集的過程,運(yùn)樣采集來的數(shù)據(jù)送到后臺(tái)電腦中 進(jìn)行處理時(shí),往往就要對(duì)傳送過來采集來的數(shù)據(jù)進(jìn)行估計(jì),而生成運(yùn)些數(shù)據(jù)的概率密度函 數(shù)是一個(gè)非常重要的任務(wù)。另外在許多應(yīng)用中,估計(jì)出傳感器采集來的數(shù)據(jù)的概率密度都 是非常重要的中間步驟。比如分類問題,只要有了不同類別的條件概率密度和先驗(yàn)就能夠 通過貝葉斯公式直接算出給定數(shù)據(jù)下類別的后驗(yàn)概率從而得到理想的貝葉斯分類器;還有 在異常檢測任務(wù)中,通過為期望的事件及模式建立一個(gè)準(zhǔn)確的概率密度模型,就可W通過 估計(jì)傳感器采集來的數(shù)據(jù)的概率密度來判斷它是否來自異常的事件或者模式??偟膩碚f, 密度估計(jì)是一個(gè)為給定的傳感器采集來的數(shù)據(jù)建立概率模型的一個(gè)過程。
[0011] 針對(duì)傳感器采集數(shù)據(jù)的局部增量式的概率密度估計(jì)方法,步驟如下: 步驟1:首先啟動(dòng)傳感器進(jìn)行數(shù)據(jù)采集,然后把傳感器采集來的數(shù)據(jù)發(fā)送到處理單元 中進(jìn)行處理,該處理單元設(shè)置有存儲(chǔ)器,存儲(chǔ)器中存有W往的高斯分布集合、預(yù)設(shè)有用于初 始化高斯分布的協(xié)方差矩陣、; 步驟2 :把傳感器采集來的數(shù)據(jù)發(fā)送到處理單元中進(jìn)行處理的方式如下: a. 模型初始化過程,其過程具體為當(dāng)處理單元接收到的傳感器采集來的數(shù)據(jù)為第一個(gè) 樣本時(shí),把該第一個(gè)樣本進(jìn)行向量化表示,把向量化的第一個(gè)樣本作為均值向量,再結(jié)合用 于初始化高斯分布的協(xié)方差矩陣,W此根據(jù)多元高斯分布的概率密度函數(shù)得到傳感器采集 來的數(shù)據(jù)的概率密度的初步估計(jì),接收下一個(gè)新的傳感器采集來的數(shù)據(jù)的新的樣本,并對(duì) 該新的樣本進(jìn)行向量化表示; b. 計(jì)算鄰域集合,其過程具體為