專利名稱::減少訓(xùn)練時間與支持向量的方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種信息處理
技術(shù)領(lǐng)域:
的方法,具體是一種減少訓(xùn)練時間與支持向量的方法。
背景技術(shù):
:人們認(rèn)識世界是從分類開始的,分類是人們認(rèn)識世界的最基礎(chǔ)性方法。傳統(tǒng)的分類方法kNN(K-最近鄰)是基本而且重要的方法。隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用范圍的擴(kuò)展,應(yīng)用復(fù)雜性的提高,上世紀(jì)九十年代提出了幾種很新的性能更好的方法。最具代表并獨立成系統(tǒng)的方法是呂寶糧教授提出的Nf方法(Max-Min-Model最大最小模塊)以及V即nik提出的關(guān)于結(jié)構(gòu)風(fēng)險最小化的代表方法SVM(支持向量機(jī))。SVM方法是結(jié)構(gòu)風(fēng)險最小化理論的實現(xiàn)方法,其最主要的思想就是要借助求解二次規(guī)劃問題來求解兩類樣本之間最大距離,因此隨著問題復(fù)雜程度的增加以及樣本數(shù)量的增加,SVM的執(zhí)行效率尤其是訓(xùn)練過程就是很大的問題了。訓(xùn)練樣本越多越能夠得到更多的樣本分布的結(jié)構(gòu)信息,因此更多的訓(xùn)練樣本必然可以得到泛化能力更強(qiáng)的SVM。但是,由于參數(shù)選取的困難,對大的訓(xùn)練樣本來說,搜索到合適的訓(xùn)練參數(shù)是個很困難的事情,因此,如果能夠減少訓(xùn)練樣本的數(shù)量,則必然可以增加訓(xùn)練參數(shù)搜索的速度。隨著訓(xùn)練樣本的減少,得到的支持向量的個數(shù)也在減少,更為重要的是,增加了測試速度。經(jīng)對現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),S.Amari等于1999年在《NeuralNetworks》(神經(jīng)網(wǎng)絡(luò))12巻783頁上發(fā)表的"Improvingsupportvectormachineclassifiersbymodifyingkernelfunctions"(通過修改核函數(shù)方法提高支持向量機(jī)的性能)該文談到提高性能的方法,該方法從修改核函數(shù)的角度減少支持向量的個數(shù),該方法基于黎曼幾何空間,通過加大超平面附近的樣本之間的距離增加樣本之間的可分性來減少支持向量,這是一個全新的方法。但該方法需要對全部樣本反復(fù)訓(xùn)練,不斷調(diào)整超平面的位置,最后達(dá)到最優(yōu)。該方法并沒有對訓(xùn)練樣本進(jìn)行任何精簡,因此對于大規(guī)模的訓(xùn)練樣本,由于需要反復(fù)訓(xùn)練,該方法同樣存在訓(xùn)練效率以及測試效率的問題。
發(fā)明內(nèi)容本發(fā)明針對上述現(xiàn)有技術(shù)的不足,提出了一種減少訓(xùn)練時間與支持向量的方法,使其解決現(xiàn)有支持向量機(jī)方法在解決大規(guī)模問題時訓(xùn)練時間過長、支持向量過多的不足。本發(fā)明是通過如下技術(shù)方案實現(xiàn)的,包括如下步驟步驟一,從訓(xùn)練樣本中抽取鄰界樣本得到鄰界樣本集,得到空間分布的邊界息。所述抽取鄰界樣本,具體如下第1步、若訓(xùn)練樣本中只有一個兩類樣本集,兩類樣本集包括正類樣本和負(fù)類樣本,計算出一類中的每個樣本到另外一類每個樣本的距離,每個距離對應(yīng)兩個分別屬于兩個類別的樣本;若訓(xùn)練樣本超過一個兩類樣本集,通過兩兩組合成多個兩類樣本集,再重復(fù)如上操作;第2步、把距離從小到大進(jìn)行排序,并預(yù)先定義兩個集合A、B,集合A用于存放正類鄰界樣本,集合B用于存放負(fù)類鄰界樣本,并將集合A、B置空;第3步、按照距離從小到大的先后關(guān)系,取出最小距離對應(yīng)的正類鄰界樣本和負(fù)類鄰界樣本;第4步、將正類鄰界樣本并入集合A,負(fù)類鄰界樣本并入集合B,然后計算訓(xùn)練樣本中除步驟4的正類鄰界樣本和負(fù)類鄰界樣本之外的每個正類樣本和負(fù)類樣本分別到集合A、B中的樣本的距離;第5步、對于訓(xùn)練樣本中每個正類樣本x,如果集合A存在一個樣本a,使得正類樣本x到樣本a的距離小于正類樣本x到集合B中的任意一個樣本b的距離,則用集合A、B把正類樣本全部正確分類,否則進(jìn)入步驟6;如果用集合A、B同樣按照上述方法把負(fù)類樣本全部正確分類,則步驟一結(jié)束,集合A、B中的樣本就是抽取的鄰界樣本,否則進(jìn)入步驟6;第6步、如果最小距離對應(yīng)的正類鄰界樣本和負(fù)類鄰界樣本不能將正類樣本和負(fù)類樣本全部正確分類,按照距離從小到大的先后關(guān)系,取出下一個距離對應(yīng)的兩個鄰界樣本,轉(zhuǎn)到步驟4,重復(fù)第4步和第5步。第7步、經(jīng)過上述步驟,當(dāng)使得每一個樣本與本類鄰界樣本的最小距離小于該樣本到另一類鄰界樣本的最小距離,表明得到鄰界樣本集,即得到一個兩類樣本的邊界空間信息。歩驟二,在步驟一抽取鄰界樣本后,抽取訓(xùn)練樣本中的非鄰界樣本,得到精簡樣本集;所述非鄰界樣本,是指鄰界樣本集合構(gòu)造完成以后,訓(xùn)練樣本中剩余的樣本就是非鄰界樣本。所述抽取訓(xùn)練樣本中的非鄰界樣本,具體如下建立中心樣本集合C、D并置空,中心樣本集合C用于存放正類樣本、中心樣本集合D用于存放負(fù)類樣本,在非鄰界的正類樣本和負(fù)類樣本中隨機(jī)各選擇一個樣本作為中心樣本分別并入中心樣本集合C、D,計算其他非鄰界樣本與本類中心樣本的距離,如果一個非鄰界樣本與所有中心樣本的距離均大于設(shè)定的精簡半徑,則把該非鄰界樣本并入中心樣本集,否則把該非鄰界樣本精簡掉,然后進(jìn)行下一個非鄰界樣本的判斷,直到所有的非鄰界樣本被判斷完畢,形成兩個經(jīng)過選擇的精簡正類樣本中心樣本集合C和負(fù)類樣本中心樣本集合D。所述精簡半徑的大小反映訓(xùn)練樣本被精簡的程度,精簡半徑越大,被精簡的非鄰界樣本越多。步驟三,合并鄰界樣本集與精簡樣本集得到最終的訓(xùn)練樣本集,。所述得到最終的鄰界樣本,是指將正類鄰界樣本集合A、負(fù)類鄰界樣本集合B和正類樣本中心樣本集合C、負(fù)類樣本中心樣本集合D合并,得到最終的訓(xùn)練樣本集,最終的訓(xùn)練樣本數(shù)目大幅度減少,保持了訓(xùn)練樣本的符合支持向量機(jī)訓(xùn)練特性的復(fù)雜特征,并保持了支持向量機(jī)的泛化能力。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果具體如下(l)本發(fā)明由于保留樣本分布的邊界特征,又保留非邊界樣本,用得到的最終樣本集進(jìn)行支持向量機(jī)的訓(xùn)練,得到最終的分類器,使得該分類器與用全部訓(xùn)練樣本得到的分類器保持一致的識別準(zhǔn)確率;(2)本發(fā)明提出保留鄰界樣本,精簡非鄰界樣本的方法可以避免訓(xùn)練時間過長,支持向量過多的不足,本發(fā)明保留了樣本的分布信息,可大幅度精簡訓(xùn)練樣本,泛化能力幾乎沒有改變,訓(xùn)練樣本減少90%,支持向量減少近60%,與通過參數(shù)搜索得到的最好的泛化能力相比,泛化能力的下降還不到0.8%。具體實施例方式下面對本發(fā)明的實施例作詳細(xì)說明本實施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實施,給出了詳細(xì)的實施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實施例。實施例1本實施例所使用的數(shù)據(jù)為Benchmark(基準(zhǔn)數(shù)據(jù)庫)提供的Banana(香蕉)數(shù)據(jù)庫,其中使用訓(xùn)練樣本的前第1-50組,每組樣本數(shù)量為400,總共20000個訓(xùn)練樣本,測試樣本的前面第1-5組,每組樣本數(shù)量為4900,總共24500個測試樣本。步驟一,從訓(xùn)練樣本中抽取鄰界樣本得到鄰界樣本集,得到空間分布的邊界信息。第1步、若訓(xùn)練樣本中只有一個兩類樣本集,兩類樣本集包括正類樣本和負(fù)類樣本,計算出一類中的每個樣本到另外一類每個樣本的距離,每個距離對應(yīng)兩個分別屬于兩個類別的樣本;若訓(xùn)練樣本超過一個兩類樣本集,通過兩兩組合成多個兩類樣本集,再重復(fù)如上操作;第2步、把距離從小到大進(jìn)行排序,并預(yù)先定義兩個集合A、B,集合A用于存放正類鄰界樣本,集合B用于存放負(fù)類鄰界樣本,并將集合A、B置空;第3步、按照距離從小到大的先后關(guān)系,取出最小距離對應(yīng)的正類鄰界樣本和負(fù)類鄰界樣本;第4步、將正類鄰界樣本并入集合A,負(fù)類鄰界樣本并入集合B,然后計算訓(xùn)練樣本中除步驟4的正類鄰界樣本和負(fù)類鄰界樣本之外的每個正類樣本和負(fù)類樣本分別到集合A、B中的樣本的距離;第5步、對于訓(xùn)練樣本中每個正類樣本x,如果集合A存在一個樣本a,使得正類樣本x到樣本a的距離小于正類樣本x到集合B中的任意一個樣本b的距離,則用集合A、B把正類樣本全部正確分類,否則進(jìn)入步驟6;如果用集合A、B同樣按照上述方法把負(fù)類樣本全部正確分類,則步驟一結(jié)束,集合A、B中的樣本就是抽取的鄰界樣本,否則進(jìn)入步驟6;第6步,如果最小距離對應(yīng)的正類鄰界樣本和負(fù)類鄰界樣本不能將正類樣本和負(fù)類樣本全部正確分類,按照距離從小到大的先后關(guān)系,取出下一個距離對應(yīng)的兩個鄰界樣本,轉(zhuǎn)到步驟4,重復(fù)第4步和第5步。第7歩,經(jīng)過上述步驟,當(dāng)使得每一個樣本與本類鄰界樣本的最小距離小于該樣本到另一類鄰界樣本的最小距離,表明得到鄰界樣本集,即得到一個兩類樣本的邊界空間信息。步驟二,精簡步驟一抽取鄰界樣本后訓(xùn)練樣本中的非鄰界樣本,得到精簡樣本集;所述非鄰界樣本,是指鄰界樣本集合構(gòu)造完成以后,訓(xùn)練樣本中剩余的樣本就是非鄰界樣本。所述抽取訓(xùn)練樣本中的非鄰界樣本,具體如下建立中心樣本集合C、D并置空,中心樣本集合C存放正類樣本、中心樣本集合D存放負(fù)類樣本,在非鄰界的正樣本和負(fù)樣本中隨機(jī)各選擇一個樣本分別并入中心樣本集合C、D,計算其他非鄰界樣本與本類中心樣本的距離,如果一個非鄰界樣本與所有中心樣本的距離均大于設(shè)定的精簡半徑,則把該非鄰界樣本并入中心樣本集,否則把該非鄰界樣本精簡掉,然后進(jìn)行下一個非鄰界樣本的判斷,直到所有的非鄰界樣本被判斷完畢,形成兩個經(jīng)過選擇的精簡樣本集合C、D。所述精簡半徑的大小反映訓(xùn)練樣本被精簡的程度,精簡半徑越大,被精簡的非鄰界樣本越多。步驟三,合并鄰界樣本集與精簡樣本集得到最終的訓(xùn)練樣本集。所述得到最終的鄰界樣本,是指將正類鄰界樣本集合A、負(fù)類鄰界樣本集合B和正類樣本中心樣本集合C、負(fù)類樣本中心樣本集合D合并,得到最終的訓(xùn)練樣本集,最終的訓(xùn)練樣本數(shù)目大幅度減少,保持了訓(xùn)練樣本的符合支持向量機(jī)訓(xùn)練特性的復(fù)雜特征,并保持了支持向量機(jī)的泛化能力。本實施例用得到的最終的訓(xùn)練樣本集進(jìn)行支持向量機(jī)的訓(xùn)練,得到最終的分類器。此分類器的性能如表格1所示,下面對表格1的數(shù)據(jù)進(jìn)行說明。表1不同參數(shù)下的最優(yōu)測試準(zhǔn)確率的比較<table>tableseeoriginaldocumentpage9</column></row><table>Gamma,Cost表示訓(xùn)練支持向量機(jī)時需要調(diào)節(jié)的與性能相關(guān)的重要參數(shù),Gamma表示半徑基函數(shù)的半徑大小,Cost用來平衡SVM的復(fù)雜性與不可分的樣本數(shù)量之間關(guān)系的參數(shù),Gamma和Cost均由使用者自己指定,尋找兩者最佳組合,使得SVM達(dá)到最好的測試能力,但目前沒有好的辦法,但可以通過長時間搜索而得到最佳參數(shù)。因此表格中的Gamma,Cost是通過8臺計算機(jī)(800MHz,256MRAMPentiumIIPC)并行36個小時搜索得到的。搜索的Cost范圍為2-2_210,Gamma的搜索范圍是22-216,每一個不同的精簡半徑下的Gamma,Cost參數(shù)都是"最佳"的,都具有最好的泛化性能。在精簡半徑為0時,沒有精簡任何樣本,即原始數(shù)據(jù)樣本,得到最好的泛化能力為98.55%。在精簡半徑為0.001時,精簡的樣本的數(shù)量只有原始樣本數(shù)量的五分之一,但是測試的準(zhǔn)確率幾乎沒有下降,實際上這也可以從支持向量的個數(shù)上反映出來,因為這時的支持向量的數(shù)量也與原來的差不多。這說明了本實施例方法保留了最關(guān)鍵的樣本,精簡的只是一些非鄰界的樣本,是一些"重復(fù)"的非關(guān)鍵的樣本,丟掉這些樣本對訓(xùn)練支持向量機(jī)沒有大的影響。在精簡半徑為0.015時,訓(xùn)練樣本減少90%,支持向量減少近60%,與通過參數(shù)搜索得到的最好的泛化能力相比,泛化能力的下降還不到0.8%。實施例2本實施例數(shù)據(jù)庫為Benchmark提供的Waveform數(shù)據(jù)庫,為兩類樣本,輸入的維數(shù)為21。該數(shù)據(jù)庫共有訓(xùn)練樣本集與測試樣本集各100組,訓(xùn)練樣本集每組400個樣本,測試樣本集每組4600個樣本。在本實施例中,使用訓(xùn)練樣本集的前第卜25組總共10000個樣本作為訓(xùn)練樣本,使用測試樣本集的l-2組共9200個樣本作為測試樣本。表2以原始樣本下的最優(yōu)參數(shù)精簡后的比較<table>tableseeoriginaldocumentpage10</column></row><table>本實施例的具體操作過程與實施例l相同,在此不作進(jìn)一步的闡述。但是,與實施例1不同的是,本實施例中訓(xùn)練支持向量機(jī)的參數(shù)沒有經(jīng)過刻意的選取,均為Gamm^2,Cost=2。如表2所示,雖然隨著精簡半徑的不同,有不同的樣本數(shù)量被精簡,但由于保留了最為關(guān)鍵的鄰界樣本信息,因此對支持向量機(jī)的泛化能力沒有太大的影響。本實施例也為了驗證方法的普遍適用性。權(quán)利要求1、一種減少訓(xùn)練時間與支持向量的方法,其特征在于,包括如下具體步驟步驟一,從訓(xùn)練樣本中抽取鄰界樣本得到鄰界樣本集,得到空間分布的邊界信息;步驟二,在步驟一抽取鄰界樣本后,抽取訓(xùn)練樣本中的非鄰界樣本,得到精簡樣本集;步驟三,合并鄰界樣本集與精簡樣本集得到最終訓(xùn)練樣本集。2、根據(jù)權(quán)利要求l所述的減少訓(xùn)練時間與支持向量的方法,其特征是,所述抽取鄰界樣本,具體如下第1步,若訓(xùn)練樣本中只有一個兩類樣本集,兩類樣本集包括正類樣本和負(fù)類樣本,計算出一類中的每個樣本到另外一類每個樣本的距離,每個距離對應(yīng)兩個分別屬于兩個類別的樣本;若訓(xùn)練樣本超過一個兩類樣本集,通過兩兩組合成多個兩類樣本集,再重復(fù)如上操作;第2步,把距離從小到大進(jìn)行排序,并預(yù)先定義兩個集合A、B,集合A用于存放正類鄰界樣本,集合B用于存放負(fù)類鄰界樣本,并將集合A、B置空;第3步,按照距離從小到大的先后關(guān)系,取出最小距離對應(yīng)的正類鄰界樣本和負(fù)類鄰界樣本;第4步,將正類鄰界樣本并入集合A,負(fù)類鄰界樣本并入集合B,然后計算訓(xùn)練樣本中除步驟4的正類鄰界樣本和負(fù)類鄰界樣本之外的每個正類樣本和負(fù)類樣本分別到集合A、B中的樣本的距離;第5步、對于訓(xùn)練樣本中每個正類樣本x,如果集合A存在一個樣本a,使得正類樣本x到樣本a的距離小于正類樣本x到集合B中的任意一個樣本b的距離,則用集合A、B把正類樣本全部正確分類,否則進(jìn)入步驟6;如果用集合A、B同樣按照上述方法把負(fù)類樣本全部正確分類,則步驟一結(jié)束,集合A、B中的樣本就是抽取的鄰界樣本,否則進(jìn)入步驟6;第6步,如果最小距離對應(yīng)的正類鄰界樣本和負(fù)類鄰界樣本不能將正類樣本和負(fù)類樣本全部正確分類,按照距離從小到大的先后關(guān)系,取出下一個距離對應(yīng)的兩個鄰界樣本,轉(zhuǎn)到第4步,重復(fù)第4步和第5步;第7步,經(jīng)過上述步驟,當(dāng)使得每一個樣本與本類鄰界樣本的最小距離小于該樣本到另一類鄰界樣本的最小距離,表明得到鄰界樣本集,即得到一個兩類樣本的邊界空間信息。3、根據(jù)權(quán)利要求l所述的減少訓(xùn)練時間與支持向量的方法,其特征是,所述非鄰界樣本,是指鄰界樣本集合構(gòu)造完成以后,訓(xùn)練樣本中剩余的樣本就是非鄰界樣本。4、根據(jù)權(quán)利要求l所述的減少訓(xùn)練時間與支持向量的方法,其特征是,所述抽取訓(xùn)練樣本中的非鄰界樣本,具體如下建立中心樣本集合C、D并置空,中心樣本集合C用于存放正類樣本、中心樣本集合D用于存放負(fù)類樣本,在非鄰界的正類樣本和負(fù)類樣本中隨機(jī)各選擇一個樣本作為中心樣本分別并入中心樣本集合C、D,計算其他非鄰界樣本與本類中心樣本的距離,如果一個非鄰界樣本與所有中心樣本的距離均大于設(shè)定的精簡半徑,則把該非鄰界樣本并入中心樣本集,否則把該非鄰界樣本精簡掉,然后進(jìn)行下一個非鄰界樣本的判斷,直到所有的非鄰界樣本被判斷完畢,形成兩個經(jīng)過選擇的精簡正類樣本中心樣本集合C和負(fù)類樣本中心樣本集合D。5、根據(jù)權(quán)利要求4所述的減少訓(xùn)練時間與支持向量的方法,其特征是,所述精簡半徑的大小反映訓(xùn)練樣本被精簡的程度,精簡半徑越大,被精簡的非鄰界樣本越多。6、根據(jù)權(quán)利要求l所述的減少訓(xùn)練時間與支持向量的方法,其特征是,所述得到最終的鄰界樣本,是指將正類鄰界樣本集合A、負(fù)類鄰界樣本集合B和正類樣本中心樣本集合C、負(fù)類樣本中心樣本集合D合并,得到最終的訓(xùn)練樣本集。全文摘要一種智能信息處理
技術(shù)領(lǐng)域:
的減少訓(xùn)練時間與支持向量的方法,包括如下具體步驟步驟一,從訓(xùn)練樣本中抽取鄰界樣本得到鄰界樣本集,得到空間分布的邊界信息;步驟二,在步驟一抽取鄰界樣本后,抽取訓(xùn)練樣本中的非鄰界樣本,得到精簡樣本集;步驟三,合并鄰界樣本集與精簡樣本集得到最終訓(xùn)練樣本集。本發(fā)明由于保留樣本分布的邊界特征,又保留非邊界樣本,用得到的最終樣本集進(jìn)行支持向量機(jī)的訓(xùn)練,得到最終的分類器,本發(fā)明可大幅度精簡訓(xùn)練樣本,泛化能力幾乎沒有改變。文檔編號G06F17/30GK101206667SQ200710171869公開日2008年6月25日申請日期2007年12月6日優(yōu)先權(quán)日2007年12月6日發(fā)明者陳玉坤申請人:上海交通大學(xué)