專利名稱:基于相關(guān)向量機的多類數(shù)據(jù)分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,涉及數(shù)據(jù)分類,特別是一種針對多類數(shù)據(jù)的識別分類方法,用于目標(biāo)識別中。
背景技術(shù):
數(shù)據(jù)分類是用來區(qū)分不同目標(biāo)數(shù)據(jù),把不同的目標(biāo)數(shù)據(jù)盡可能的區(qū)分開,從而能在大量不同目標(biāo)數(shù)據(jù)中識別出各個目標(biāo)數(shù)據(jù)。現(xiàn)階段的數(shù)據(jù)分類方法主要是研究兩類數(shù)據(jù)分類的問題,兩類數(shù)據(jù)分類方法主要有支持向量機方法和相關(guān)向量機方法。支持向量機 SVM是Cortes和Vapnik于1995年首次提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。SVM最初用于解決兩類數(shù)據(jù)分類問題,不能直接用于多類數(shù)據(jù)分類問題。相關(guān)向量機RVM是Tipping于2001年在貝葉斯框架的基礎(chǔ)上提出的,它與SVM 一樣,通過核函數(shù)映射將低維空間的非線性問題轉(zhuǎn)化為高維空間的線性問題。與SVM相比, RVM不需要估計正則化參數(shù),核函數(shù)也不需要滿足Mercer條件,需要更少的相關(guān)向量,訓(xùn)練時間長,測試時間短。對于Logistic模型和ftx)bit模型的RVM兩類數(shù)據(jù)分類方法,可以很容易的推廣到多類數(shù)據(jù)分類上。目前,多類數(shù)據(jù)分類方法主要有以下幾種一、SVM多類數(shù)據(jù)分類方法。這種方法大致可以分為兩大類一是通過某種方式構(gòu)造一系列的兩類數(shù)據(jù)分類器,并將它們組合在一起來實現(xiàn)多類數(shù)據(jù)分類,這類SVM多類數(shù)據(jù)分類方法包括一對多算法和一對一算法;二是將多個分類面的參數(shù)求解合并到一個最優(yōu)化問題中,通過求解最優(yōu)化問題“一次性”地實現(xiàn)多類數(shù)據(jù)分類,這類方法主要有二次規(guī)劃算法。其中一對多算法,依次用一個兩類SVM分類器將每一類數(shù)據(jù)與其它所有類數(shù)據(jù)區(qū)分開,得到K個分類函數(shù),分類時將未知數(shù)據(jù)分類為具有最大分類函數(shù)值的那一類。這種方法的好處是每個優(yōu)化問題的規(guī)模都很小,而且分類時速度比較快,但會有分類重疊或不可分類現(xiàn)象,造成數(shù)據(jù)集的偏斜。一對一算法,是在每兩類數(shù)據(jù)間訓(xùn)練一個兩類SVM分類器,對于一個K類問題,將有Κ(Κ-1)/2個分類函數(shù),當(dāng)對一個未知樣本進行分類時,每個分類器都對其類別進行判斷,并為相應(yīng)的類別“投上一票”,最后得票最多的類別即作為該未知樣本的類另U。雖然分類器的數(shù)目多了,但在算出這些分類器的分類平面時,所用的總時間卻比一對多方法少,但又存在分類重疊現(xiàn)象。二次規(guī)劃算法,是在訓(xùn)練時將K個分類面的參數(shù)求解合并到一個最優(yōu)化問題中, 通過二次規(guī)劃方法求解最優(yōu)化問題所需的參數(shù),在測試時采用與一對多算法相同的判決方法,即對于某個輸入樣本,其分類結(jié)果為各子分類器輸出值最大的那個類別,此算法不適合對類別數(shù)多的數(shù)據(jù)分類。二、基于Logistic模型的多類數(shù)據(jù)分類方法。該方法是一種基于多元Logistic Regression 模型的多類表述,如文獻“Sparse Multinomial Logistic Regression :FastAlgorithms and Generalization Bounds,IEEE Trans, on Pattern Analysis and Machine Intelligence, Vol. 27,2005. ”。該文獻通過邊界優(yōu)化方法與按分量逐個迭代的結(jié)合,實現(xiàn)對大樣本數(shù)及高特征維數(shù)據(jù)的稀疏多類數(shù)據(jù)分類。此方法假設(shè)具有稀疏化特性的拉普拉斯先驗信息,在最大后驗準(zhǔn)則下構(gòu)造分類器,存在近似計算的不足。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述已有多類數(shù)據(jù)分類技術(shù)的缺點,提出一種基于相關(guān)向量機的多類數(shù)據(jù)分類方法,以減小近似計算量,避免分類重疊,實現(xiàn)對類別數(shù)多的數(shù)據(jù)分類。實現(xiàn)本發(fā)明目的的技術(shù)方案是以多元ftx)bit為模型,利用變分貝葉斯方法進行最優(yōu)化問題的求解,通過一次性的求解出分類所需參數(shù),而無需構(gòu)造多個兩類分類器進行組合分類,避免分類重疊現(xiàn)象,適用類別數(shù)多的數(shù)據(jù)分類;同時通過假設(shè)參數(shù)的先驗分布為共軛先驗分布,使后驗分布與先驗分布具有相同的形式,從而很方便的寫出參數(shù)的后驗分布,進行后驗參數(shù)的求解,以減小近似計算。具體步驟包括如下(1)將多類數(shù)據(jù)集劃分成交叉驗證數(shù)據(jù)集V、訓(xùn)練數(shù)據(jù)集R和測試數(shù)據(jù)集T,并對其進行歸一化預(yù)處理,使數(shù)據(jù)的不同特征在同一尺度上;(2)確定相關(guān)向量機的核函數(shù)類型,根據(jù)歸一化預(yù)處理后的交叉驗證數(shù)據(jù)集V' 確定該相關(guān)向量機的核參數(shù);(3)基本參數(shù)設(shè)置;(3a)設(shè)置相關(guān)向量機的迭代次數(shù)L = 100、迭代數(shù)1。= 0、收斂閾值ο = 10_6 ;(3b)設(shè)置權(quán)值參數(shù)矩陣W= [wi; L, wk, L, wK]中Wk先驗分布的均值是零向量、方差是(diagfek))—1的高斯分布,其中權(quán)值方差向量%的每個元素Cimk服從形狀參數(shù)= 10_6、 尺度參數(shù)K = 10_6的伽馬分布,diag(ak)表示對角矩陣,即對角線元素為向量%,其余元素為零的矩陣,(Γ1表示矩陣求逆,k= 1,L,K,K為類別數(shù),m= 1,L,M,M為歸一化預(yù)處理后訓(xùn)練數(shù)據(jù)集R'的映射矩陣的行數(shù);(3c)設(shè)置噪聲參數(shù)ε η服從均值為零、方差為G1的高斯先驗分布,其中噪聲準(zhǔn)確度參數(shù)τ η服從形狀參數(shù)Ctl= 10_6、尺度參數(shù)dQ= 10_6的伽馬分布,η = 1,L,N,N為訓(xùn)練數(shù)據(jù)集R的樣本數(shù);(4)根據(jù)歸一化預(yù)處理后的訓(xùn)練數(shù)據(jù)集R'、核函數(shù)類型、核參數(shù)和(3)中設(shè)置的基本參數(shù),利用如下分類面參數(shù)更新公式計算相關(guān)向量機的分類面參數(shù)mn=9n{W),Sn=<Tny%,
權(quán)利要求
1. 一種基于相關(guān)向量機的多類數(shù)據(jù)分類方法,包括如下步驟(1)將多類數(shù)據(jù)集劃分成交叉驗證數(shù)據(jù)集V、訓(xùn)練數(shù)據(jù)集R和測試數(shù)據(jù)集T,并對其進行歸一化預(yù)處理,使數(shù)據(jù)的不同特征在同一尺度上;(2)確定相關(guān)向量機的核函數(shù)類型,根據(jù)歸一化預(yù)處理后的交叉驗證數(shù)據(jù)集V'確定該相關(guān)向量機的核參數(shù);(3)基本參數(shù)設(shè)置;(3a)設(shè)置相關(guān)向量機的迭代次數(shù)L = 100、迭代數(shù)1。= 0、收斂閾值σ = 10_6 ; (3b)設(shè)置權(quán)值參數(shù)矩陣W = [wi; L,wk, L,wK]中Wk先驗分布的均值是零向量、方差是 (Cliag(Cik))-1的高斯分布,其中權(quán)值方差向量Cik的每個元素Cimk服從形狀參數(shù)= 10_6、 尺度參數(shù)K = 10_6的伽馬分布,Cliag(Cik)表示對角矩陣,即對角線元素為向量ak,其余元素為零的矩陣,(Γ1表示矩陣求逆,k= 1,L,K,K為類別數(shù),m= 1,L,M,M為歸一化預(yù)處理后訓(xùn)練數(shù)據(jù)集R'的映射矩陣的行數(shù);(3c)設(shè)置噪聲參數(shù)ε n服從均值為零、方差為G1的高斯先驗分布,其中噪聲準(zhǔn)確度參數(shù) τ n服從形狀參數(shù)Ctl= 10_6、尺度參數(shù)dQ= 10_6的伽馬分布,η = 1,L,N,N為訓(xùn)練數(shù)據(jù)集R 的樣本數(shù);(4)根據(jù)歸一化預(yù)處理后的訓(xùn)練數(shù)據(jù)集R'、核函數(shù)類型、核參數(shù)和(3)中設(shè)置的基本參數(shù),利用如下分類面參數(shù)更新公式計算相關(guān)向量機的分類面參數(shù)
2.根據(jù)權(quán)利要求1所述的多類數(shù)據(jù)分類方法,其中步驟4中分類面參數(shù)更新公式中(<k)、<Y k>和〈義〉的求解如下
3.根據(jù)權(quán)利要求1所述的多類數(shù)據(jù)分類方法,其中步驟(7)所述的根據(jù)更新完成后的相關(guān)向量機的分類面參數(shù),對歸一化預(yù)處理后的測試數(shù)據(jù)集T'進行預(yù)測,是通過如下公式進行
全文摘要
本發(fā)明提出了一種基于相關(guān)向量機的多類數(shù)據(jù)分類方法,主要解決現(xiàn)有多類數(shù)據(jù)分類方法不能整體求解分類面參數(shù)或需要近似計算的問題。其實現(xiàn)過程是劃分多類數(shù)據(jù)集,并進行歸一化預(yù)處理;確定核函數(shù)類型和核參數(shù);設(shè)置基本參數(shù);計算分類面參數(shù);計算對數(shù)下界并求其變化值,把迭代數(shù)加1;若對數(shù)下界變化值收斂或迭代數(shù)達(dá)到迭代次數(shù),則完成分類面參數(shù)更新,否則繼續(xù)更新;根據(jù)更新完成后的分類面參數(shù),得預(yù)測概率矩陣,矩陣每行最大值對應(yīng)的列數(shù)組成測試數(shù)據(jù)集的分類類別,預(yù)測概率小于虛警概率與檢測概率對應(yīng)曲線中設(shè)定的虛警概率值的樣本被據(jù)判。本發(fā)明具有用較少的關(guān)聯(lián)向量,得到與SVM相比擬的分類及拒判性能的優(yōu)點,可用于目標(biāo)識別中。
文檔編號G06K9/66GK102254193SQ20111019936
公開日2011年11月23日 申請日期2011年7月16日 優(yōu)先權(quán)日2011年7月16日
發(fā)明者劉宏偉, 徐丹蕾, 李志鵬, 杜蘭, 馬田香 申請人:西安電子科技大學(xué)