專利名稱:基于線性分類樹和神經(jīng)網(wǎng)絡(luò)的兩階段快速分類器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)器學(xué)習(xí)和模式識別的快速分類器,特別針對正態(tài)的、明顯特征的、大量的數(shù)據(jù)集分割與識別問題。快速分類器包括二個(gè)重要的階段構(gòu)造線性分類樹和構(gòu)造神經(jīng)網(wǎng)絡(luò)。線性分類樹主要對具有明顯特征的樣本進(jìn)行分類,能減少非線性分類器的時(shí)間,提高非線性分類器的泛化能力;神經(jīng)網(wǎng)絡(luò)主要是對具有重疊的樣本集進(jìn)行分類。
背景技術(shù):
分類器的設(shè)計(jì)是機(jī)器學(xué)習(xí)和模式識別中最基本和最關(guān)鍵的問題之一,廣泛應(yīng)用于機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)挖掘、數(shù)據(jù)分析、智能系統(tǒng)、專家系統(tǒng)、生物醫(yī)學(xué)、農(nóng)業(yè)等領(lǐng)域中,不但具有廣闊的應(yīng)用前景,而且具有一定的學(xué)術(shù)研究價(jià)值??焖俜诸惼鞯脑O(shè)計(jì)主要由以下幾個(gè)部分構(gòu)成數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的統(tǒng)計(jì)特性、線性分類樹分類器、降維技術(shù)、神經(jīng)網(wǎng)絡(luò)分 類器。目前智能系統(tǒng)和模式識別中常用的分類器主要有I.神經(jīng)網(wǎng)絡(luò)分類器神經(jīng)網(wǎng)絡(luò)是模式識別中最常用的分類器的方法之一。從本質(zhì)上看,神經(jīng)網(wǎng)絡(luò)是從輸入空間到輸出空間的一種非線性映射。從理論上講,當(dāng)隱藏層的節(jié)點(diǎn)個(gè)數(shù)足夠多和選擇的網(wǎng)絡(luò)權(quán)值合適時(shí),神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近任意非線性函數(shù)。但是Hornik證明了選擇隱藏層節(jié)點(diǎn)個(gè)數(shù)和確定網(wǎng)絡(luò)權(quán)值是一個(gè)完全NP問題。神經(jīng)網(wǎng)絡(luò)能夠廣泛應(yīng)用于函數(shù)逼近、人臉識別、路標(biāo)識別、語音識別、石油探測、特征提取、數(shù)據(jù)壓縮、股票預(yù)測、市場分析等,其主要原因是用戶不需要事先對系統(tǒng)的內(nèi)部結(jié)構(gòu)有完全的了解,能夠通過神經(jīng)網(wǎng)絡(luò)的逼近能力建立輸入數(shù)據(jù)與輸出數(shù)據(jù)的數(shù)學(xué)關(guān)系。特別針對建立復(fù)雜的、強(qiáng)耦合的、非線性的系統(tǒng)數(shù)學(xué)模型,神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的優(yōu)勢。神經(jīng)網(wǎng)絡(luò)的分類器設(shè)計(jì)主要包括以下幾個(gè)步驟(I)選擇網(wǎng)絡(luò)的結(jié)構(gòu)。(2)通過樣本集的輸入數(shù)據(jù)和輸出數(shù)據(jù),調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)中各層的權(quán)值和閾值。(3)用測試數(shù)據(jù)檢驗(yàn)神經(jīng)網(wǎng)絡(luò)模型的泛化能力。在神經(jīng)網(wǎng)絡(luò)的實(shí)際應(yīng)用過程中,有以下幾個(gè)不足(I)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間較長,即神經(jīng)網(wǎng)絡(luò)從初始權(quán)值調(diào)節(jié)合適權(quán)值需要較長的時(shí)間。導(dǎo)致該原因的幾個(gè)重要的因素包括訓(xùn)練數(shù)據(jù)較多;訓(xùn)練算法效率較低;網(wǎng)絡(luò)中調(diào)節(jié)參數(shù)過多。(2)神經(jīng)網(wǎng)絡(luò)的不穩(wěn)定性,即神經(jīng)網(wǎng)絡(luò)的每次訓(xùn)練結(jié)果都不同,有時(shí)效果好,有時(shí)候效果不好,主要是由調(diào)節(jié)網(wǎng)絡(luò)權(quán)值的算法所導(dǎo)致的。因?yàn)?,神?jīng)網(wǎng)絡(luò)最常用的訓(xùn)練算法是基于梯度下降法的BP算法,當(dāng)初始的條件不同時(shí),梯度下降法可能會陷入不同的局部極小值,只有在特殊的情況下,才能找到整個(gè)解空間的最憂解。2.分類樹分類樹是模式識別中最直觀和最常用的分類器之一,是一種基于規(guī)則的、邏輯的、不涉及距離的分類器。分類樹從根節(jié)點(diǎn)開始,對屬性值進(jìn)行判斷,然后根據(jù)判斷結(jié)果,決定樣本的分類。分類樹中的葉子節(jié)點(diǎn)代表每種分類結(jié)果。
通過數(shù)據(jù)集的數(shù)據(jù),不斷構(gòu)造分類樹的中間節(jié)點(diǎn)和葉子節(jié)點(diǎn),導(dǎo)致分類樹的規(guī)模不斷擴(kuò)大,計(jì)算的復(fù)雜度不斷增加。從本質(zhì)上來說,分類樹是一種基于規(guī)則的線性分類器,能夠很直觀理解分類器的物理含義,很好處理那些有明顯特征的樣本集。不足之處是(I)不能處理有交叉樣本集的分類問題,即分類樹不能處理線性不可分的樣本集;(2)分類樹的邊界確定問題難以解決,即中間節(jié)點(diǎn)的判斷條件很難確定。3.支持向量機(jī)(SVM)基本原理是將線性不可分的樣本集映射到高維空間,實(shí)現(xiàn)樣本集間線性可分。支持向量機(jī)主要的目的是在解空間中尋找一個(gè)最優(yōu)超平面,使最優(yōu)超平面到不同類邊際的距 離最大。SVM的最優(yōu)超平面主要是由關(guān)鍵樣本所決定,即支持向量所決定。故SVM不但能避免“維數(shù)災(zāi)難”,而且能有很好的魯棒性。其不足之處有(I)針對大規(guī)模的訓(xùn)練樣本,SVM需要大量的訓(xùn)練時(shí)間;(2)因?yàn)橹С窒蛄繖C(jī)只能處理二分類問題,這一方法不能很好地解決多分類的問題。綜上所述,針對大規(guī)模的分類問題,現(xiàn)有的分類方法主要存在訓(xùn)練時(shí)間長,輸出結(jié)果的不穩(wěn)定性,訓(xùn)練的精度比較低,多種類的分類問題。
發(fā)明內(nèi)容
本專利提出基于線性分類樹和神經(jīng)網(wǎng)絡(luò)的快速分類器,并將該分類器應(yīng)用于高維散點(diǎn)圖的識別與分割,主要解決正態(tài)的、多種類的、大量的、耦合的數(shù)據(jù)集的分類問題。線性分類樹的主要目標(biāo)是將具有明顯特征的類分離出來,從而減少非線性分類器(神經(jīng)網(wǎng)絡(luò))的訓(xùn)練時(shí)間和提高神經(jīng)網(wǎng)絡(luò)的預(yù)測精度。并通過三維散點(diǎn)圖的分割與識別驗(yàn)證快速分類器的有效性。從而實(shí)現(xiàn)分類器的訓(xùn)練時(shí)間少,訓(xùn)練精度高,輸出結(jié)果相對穩(wěn)定。其主要包括以下幾個(gè)步驟(I)數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)的歸一化、隨機(jī)提取訓(xùn)練樣本集、構(gòu)造訓(xùn)練樣本輸入數(shù)據(jù)、構(gòu)造訓(xùn)練樣本的輸出數(shù)據(jù)、構(gòu)造測試樣本的輸入數(shù)據(jù)、構(gòu)造測試樣本的輸出數(shù)據(jù)。首先,數(shù)據(jù)的歸一化。由于數(shù)據(jù)在通常情況下代表不同的物理意義和有不同的數(shù)字范圍,則需要對數(shù)據(jù)進(jìn)行歸一化,它不但使數(shù)學(xué)模型不會受到數(shù)據(jù)范圍的影響,即減少對數(shù)據(jù)的依賴性,而且有利于建立統(tǒng)一的衡量標(biāo)準(zhǔn)。通常情況下,將原始的數(shù)據(jù)映射到(0,1)之間,或者映射到(Xmin, Xmax)之間。其次,隨機(jī)提取訓(xùn)練樣本集和測試樣本集。為了構(gòu)造快速的分類器,隨機(jī)抽取所有的樣本的2/3構(gòu)成訓(xùn)練樣本集;為了驗(yàn)證分類器的有效性和正確性,將剩下的1/3樣本集構(gòu)成為測試樣本。再次,構(gòu)造訓(xùn)練樣本集和測試樣本集的輸入數(shù)據(jù)。所采集的數(shù)據(jù)為輸入信號,樣本所屬的類別為分類器的輸出信號。最后,構(gòu)造訓(xùn)練樣本集和測試樣本集的輸出數(shù)據(jù)。對于輸出樣本的數(shù)據(jù),一般情況下,將所屬種類轉(zhuǎn)換為二進(jìn)制,其主要原因是在訓(xùn)練非線性的分類器的過程中,為了構(gòu)造相對穩(wěn)定的輸出結(jié)果,通常建立多輸出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)數(shù)與訓(xùn)練數(shù)據(jù)的種類數(shù)有關(guān)。一般情況下,輸出所屬類別數(shù)據(jù)是一維數(shù)據(jù),故需要確定輸出節(jié)點(diǎn)的總數(shù)和將相應(yīng)的類別轉(zhuǎn)換為二進(jìn)制的個(gè)數(shù)。首先,確定輸出節(jié)點(diǎn)的個(gè)數(shù)2類分類問題需要用I個(gè)輸出節(jié)點(diǎn),3-4類分類問題需2個(gè)輸出節(jié)點(diǎn),5-8類分類問題需3個(gè)輸出節(jié)點(diǎn),9-16類分類問題需4個(gè)輸出節(jié)點(diǎn)等等。其次,類號轉(zhuǎn)換為相應(yīng)的二進(jìn)制“第6類”的輸出信號轉(zhuǎn)化為“0110”,“第10類”的輸出信號為“1010”,等等。(2)線性分類樹為了提高非線性分類器的訓(xùn)練精度和減少非線性分類器的訓(xùn)練時(shí)間,我們設(shè)計(jì)了一個(gè)線性分類樹,主要手段是根據(jù)樣本特殊的屬性值判斷該樣本的所屬類別。通常情況下,當(dāng)每一類中出現(xiàn)了很明顯的數(shù)據(jù)特征時(shí),即其中某個(gè)類的某個(gè)屬性值特別大,或者特別小,則我們可以利用這種明顯的屬性值確定該樣本的類別。首先,根據(jù)訓(xùn)練樣本集的類別,計(jì)算每維中每種類別的最大值、最小值、平均值。其次,對每一維數(shù)據(jù),通過平均值進(jìn)行排序,判斷是否存在這樣的類別該類別的最小值大于前一種類的最大值,而且該類別的最大值小于后一類別的最小值。如果是第一個(gè)類別,則只需要判斷其最大值是否小于第二類別的最小值;如果是最后一個(gè)類別,則只需要判斷其最小值是否大于前一類的最大值。樣本集類別滿足以上的關(guān)系,則存在一個(gè)線性的分類樹,能·將該類別分開。(3)減少樣本的規(guī)模當(dāng)樣本集的規(guī)模相當(dāng)大時(shí),S卩訓(xùn)練樣本的數(shù)量較大時(shí),如果使用所有樣本去訓(xùn)練非線性分類器,則所需的訓(xùn)練時(shí)間比較多。為了減少分類器的訓(xùn)練時(shí)間,需要?jiǎng)h除一些相對不重要的樣本。通過相應(yīng)的分析,非線性分類器的主要功能是尋找一個(gè)非線性的曲面,將某一類與其他類分開,則每種類的邊界點(diǎn)是非常重要的,離中心點(diǎn)不遠(yuǎn)的點(diǎn)不是那么重要的,則我們利用“80/20”規(guī)則減少樣本集的規(guī)模。通過計(jì)算每個(gè)點(diǎn)到中心的距離,判斷該距離是否超過某個(gè)閾值。如果超過閾值,則以80%保留,20%刪除;如果沒有超過,則80%刪除,20 保留。(4)非線性分類器(神經(jīng)網(wǎng)絡(luò)分類器)線性分類器只能將一些具有明顯特征的類進(jìn)行劃分,但對于不明顯的、相互交叉的種類則需要一個(gè)非線性分類器,將低維空間映射到高維空間中,達(dá)到線性可分的要求。神經(jīng)網(wǎng)絡(luò)是目前最常用和最重要的非線性分類器之一。從理論上講,神經(jīng)網(wǎng)絡(luò)能以任何精度逼近任何非線性函數(shù)的能力,從而實(shí)現(xiàn)從輸入空間到輸出空間的映射。在建立系統(tǒng)的數(shù)學(xué)模型時(shí),則不需要分析人員對系統(tǒng)有很高的專業(yè)知識要求,只需要根據(jù)輸入數(shù)據(jù)和輸出數(shù)據(jù),則能建立一個(gè)“黑箱”的數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)通常有如下的不足之處訓(xùn)練時(shí)間長和輸出結(jié)果不穩(wěn)定。針對這兩個(gè)問題,我們提出了相應(yīng)的解決方法,并得到了較好的效果。首先,針對神經(jīng)網(wǎng)絡(luò)“訓(xùn)練時(shí)間長”的問題,主要用以下方法進(jìn)行解決(a)線性分類樹將具有特殊的、明顯的類別進(jìn)行快速的判定,從而降低了設(shè)計(jì)非線性的分類器的難度,提高了分類器的預(yù)測精度,減少了訓(xùn)練時(shí)間。(b)特別針對大量的訓(xùn)練樣本集,減少樣本的規(guī)模,又一次降低了非線性分類器的訓(xùn)練時(shí)間。(C)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法,通常是梯度下降法,為了降低訓(xùn)練時(shí)間,使用改進(jìn)的梯度下降法,即共軛梯度下降法。其次,針對神經(jīng)網(wǎng)絡(luò)“輸出結(jié)果不穩(wěn)定”的問題,我們發(fā)現(xiàn)其主要的原因是由于設(shè)置參數(shù)不合適的原因,神經(jīng)網(wǎng)絡(luò)還沒有達(dá)到誤差要求,則停止了調(diào)節(jié)權(quán)值。為了解決不穩(wěn)定性問題,我們采取以下方案(a)進(jìn)行多次訓(xùn)練找一個(gè)精度相對比較高的神經(jīng)網(wǎng)絡(luò)。(b)調(diào)整神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù),即增加正則項(xiàng)。本方法的主要優(yōu)點(diǎn)(I)線性分類樹能夠很快將特殊的、明顯的類進(jìn)行分開,同時(shí)能降低非線性分類器的復(fù)雜度,減少非線性分類器的訓(xùn)練時(shí)間,提高了快速分類器的精度;(2)運(yùn)用“80/20”規(guī)則對訓(xùn)練樣本集選擇重要的樣本,降低非線性分類器的訓(xùn)練時(shí)間;(3)神經(jīng)網(wǎng)絡(luò)分類器的訓(xùn)練時(shí)間較快,訓(xùn)練精度較高,輸出的結(jié)果相對穩(wěn)定;(4)快速分類器能在有效時(shí)間內(nèi)保證較高的分類正確率。
圖I是本發(fā)明的總體流程示意圖;
圖2所有的樣本集的分布;圖3每維中各類別的最大值、平均值和最小值;圖4神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置與訓(xùn)練結(jié)果;圖5神經(jīng)網(wǎng)絡(luò)的誤差曲線;圖6神經(jīng)網(wǎng)絡(luò)的回歸性分析;圖7測試樣本的分類效果;
具體實(shí)施例方式基于線性分類樹與神經(jīng)網(wǎng)絡(luò)的快速分類器如圖I所示,快速分類器包括數(shù)據(jù)預(yù)處理,構(gòu)造線性分類樹,減少樣本集的規(guī)模和設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的分類器等。其中,神經(jīng)網(wǎng)絡(luò)分類器的設(shè)計(jì)是快速分類器的重點(diǎn)和難點(diǎn),為了克服神經(jīng)網(wǎng)絡(luò)的不足,即訓(xùn)練時(shí)間長和輸出結(jié)果不穩(wěn)定等問題,線性分類器和減少樣本規(guī)模的方法能很好解決神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度慢的問題。改進(jìn)神經(jīng)網(wǎng)絡(luò)能處理網(wǎng)絡(luò)輸出不穩(wěn)定的問題。為了介紹分類器算法的流程與實(shí)現(xiàn),我們下面通過一個(gè)三維散點(diǎn)圖的分割與識別例子來說明申請中提出的快速分類器算法。(I)三維散點(diǎn)圖的樣本集通過以下幾個(gè)參數(shù)來模擬不同的數(shù)據(jù)樣本集,見表1,2,3,4。各種群的長度代表每個(gè)種類的樣本個(gè)數(shù),各種群的均值代表每類的中心點(diǎn)位置,各種群的標(biāo)準(zhǔn)差代表樣本偏離中心點(diǎn)程度,各種群的默認(rèn)旋轉(zhuǎn)角度代表樣本繞中心點(diǎn)旋轉(zhuǎn)角度,見圖2。
群落I 群落2 群落3 群落4 ~ 600 500 900~表I各種群默認(rèn)的長度
權(quán)利要求
1.基于線性分類樹與神經(jīng)網(wǎng)絡(luò)的快速分類器,主要包括以下幾個(gè)內(nèi)容數(shù)據(jù)歸一化、構(gòu)造線性分類樹、減少樣本的規(guī)模、訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器。
2.線性分類樹通過計(jì)算每維中所有類別的最大值、最小值、平均值,然后對每類的平均值進(jìn)行排序,通過三條規(guī)則來判斷是否存在線性分類樹,如果滿足其中一條規(guī)則,則線性分類樹存在,即構(gòu)成線性分類樹。
3.針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間長的問題,利用線性分類樹或者降維技術(shù)(“80/20”規(guī)則)減少樣本的規(guī)模,從而減少神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間。
4.針對神經(jīng)網(wǎng)絡(luò)輸出不穩(wěn)定的問題,通過判斷神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差是否滿足事先設(shè)置訓(xùn)練精度。通過訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò),選擇其中一個(gè)最好的網(wǎng)絡(luò)作為最終的神經(jīng)網(wǎng)絡(luò),從而達(dá)到較高的穩(wěn)定性。一般情況下,只訓(xùn)練3-5個(gè)神經(jīng)網(wǎng)絡(luò),選擇其中一個(gè)最好的神經(jīng)網(wǎng)絡(luò),則能達(dá)到較好的預(yù)測效果。
5.神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)不是均方差,而是帶有正則項(xiàng)的目標(biāo)函數(shù),即F (W,X,Y, a, SN, Sff) = B1XMSE+(I-B1)MSff 其中,X和Y分別為樣本的輸入與標(biāo)準(zhǔn)值,W為神經(jīng)網(wǎng)絡(luò)權(quán)值,B1為均方差與正則項(xiàng)的比例權(quán)重,SN為樣本的個(gè)數(shù),Sff為權(quán)值的個(gè)數(shù)。
全文摘要
分類器的設(shè)計(jì)是機(jī)器學(xué)習(xí)和模式識別中最基本和最關(guān)鍵的問題之一,廣泛應(yīng)用于數(shù)據(jù)挖掘、數(shù)據(jù)分析、專家系統(tǒng)、生物醫(yī)學(xué)、農(nóng)業(yè)等眾多領(lǐng)域。本發(fā)明解決正態(tài)的、明顯特征的、大規(guī)模的、多種類的樣本集分割與識別問題。通常情況下,樣本集大概分為線性可分的和線性不可分的類別。首先,本發(fā)明首先對線性可分的樣本集進(jìn)行分類,即通過相關(guān)的統(tǒng)計(jì)知識,對特征明顯的類別進(jìn)行分類,形成線性的分類樹;其次,為了進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)的正確分辨率,需對相對不重要的樣本進(jìn)行刪除;再次,由于神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的逼近能力和泛化能力,非線性分類器是基于神經(jīng)網(wǎng)絡(luò)的分類器。針對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間較長的問題,分別通過線性分類樹和降維技術(shù)減少樣本的規(guī)模;針對神經(jīng)網(wǎng)絡(luò)的輸出不穩(wěn)定的問題,分別通過調(diào)整神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)和驗(yàn)證神經(jīng)網(wǎng)絡(luò)的訓(xùn)練指標(biāo)是否達(dá)到要求來解決。
文檔編號G06K9/62GK102955946SQ20111023736
公開日2013年3月6日 申請日期2011年8月18日 優(yōu)先權(quán)日2011年8月18日
發(fā)明者劉軍, 馬宏賓, 任雪梅, 李陽銘, 馬曉賀 申請人:劉軍, 馬宏賓, 任雪梅