專利名稱:基于回歸函數(shù)估計svm的卷煙內(nèi)在質(zhì)量指標評估方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在有限樣本情況下更準確的實現(xiàn)卷煙內(nèi)在質(zhì)量指標評估預(yù)測的支持向量機方法,特別涉及一種利用回歸函數(shù)估計的SVM模型對卷煙內(nèi)在質(zhì)量指標的評估方法。
背景技術(shù):
卷煙的內(nèi)在質(zhì)量,如感官質(zhì)量等,與卷煙中的某些物理化學成分有著密切聯(lián)系,這些物理化學成分一定程度上決定著卷煙的內(nèi)在質(zhì)量,如煙草中的煙堿與感官的刺激性、勁頭特性相關(guān)。領(lǐng)域?qū)<以谶M行感官評估時經(jīng)常需要參考這些檢測到的成分。
煙葉包含眾多的化學成分;吸煙過程中各化學成分相互作用,刺激人的味覺、嗅覺、觸覺,都極其復(fù)雜。煙葉評吸專家的經(jīng)驗是十分可貴的,但也具有明顯的不確定性和主觀性等缺點。煙草行業(yè)在煙葉化學成分、感官評價及煙氣分析方面積累了很多有價值的經(jīng)驗與數(shù)據(jù),還沒有很好地加以利用。企業(yè)迫切希望利用已經(jīng)積累的樣本數(shù)據(jù),通過對上述學習問題進行建模來實現(xiàn)計算機輔助質(zhì)量評估,由此實現(xiàn)對未知樣本的內(nèi)在質(zhì)量評估,從而減少對專家在內(nèi)在質(zhì)量評估方面的依賴,降低企業(yè)的生產(chǎn)設(shè)計成本,提高產(chǎn)品質(zhì)量和管理水平。
支持向量機方法是一種智能技術(shù),適用于解決用傳統(tǒng)數(shù)學模型方法難以解決的、非確定性的復(fù)雜問題,其特別之處在于對小樣本數(shù)據(jù)的處理能力;善于從少量樣本數(shù)據(jù)中歸納、提取到接近樣本真實規(guī)律的知識。
支持向量機是一種非參數(shù)機器學習方法,較好地實現(xiàn)了結(jié)構(gòu)風險最小化(SRM)原則的設(shè)計思想;困擾以往機器學習方法的許多問題,如神經(jīng)網(wǎng)絡(luò)中的模型選擇問題、過學習與欠學習問題、非線性和維數(shù)災(zāi)難問題以及局部極小點等問題在SVM中都得到了較好的解決。支持向量機的基本思想就是通過某種事先選擇的非線性映射將輸入向量X映射到一個高維特征空間Z,然后在這個特征空間中構(gòu)造最優(yōu)分類超平面。上面的非線性映射是通過定義適當?shù)膬?nèi)積函數(shù)實現(xiàn)的。
目前,煙草行業(yè)就煙草的化學成分與煙氣分析指標、感官質(zhì)量評價指標之間的定量分析方法較多采用傳統(tǒng)的統(tǒng)計分析方法,如多元回歸。傳統(tǒng)方法構(gòu)造的模型,只是對分析過的煙草樣本數(shù)據(jù)具有一定的適用性;一旦有新的樣本,評估模型往往要重新構(gòu)造,求解過程復(fù)雜,難以實現(xiàn)快速的評估建模和計算機輔助質(zhì)量評估。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,該方法將相關(guān)性分析、回歸函數(shù)估計SVM、評估輸出值轉(zhuǎn)換規(guī)則等技術(shù)和方法相結(jié)合,并對算法以及關(guān)鍵參數(shù)進行相應(yīng)改進,使其更加適應(yīng)卷煙行業(yè)數(shù)據(jù)環(huán)境;其主要目的在于要建立適應(yīng)卷煙行業(yè)小樣本數(shù)據(jù)環(huán)境的機器學習模型,充分適應(yīng)小樣本、高維、大噪聲、非線性這四大重要數(shù)據(jù)特征;從而減少對樣本數(shù)據(jù)的需求,減少人工評吸量,降低企業(yè)的檢測費用,在有效樣本情況下也能達到比較高的評估預(yù)測符合度,滿足煙草行業(yè)計算機輔助質(zhì)量評估的需要;同時也為卷煙葉組配方的智能設(shè)計提供良好的前提技術(shù)方法。
為達到上述目的,本發(fā)明提供了一種卷煙內(nèi)在質(zhì)量指標的評估方法,以卷煙的樣本數(shù)據(jù)為基礎(chǔ),建立利用回歸函數(shù)估計的SVM模型,然后利用上述SVM模型對待測卷煙內(nèi)在質(zhì)量進行評估。
所述建立回歸函數(shù)估計的SVM模型是通過如下步驟實現(xiàn)的1)首先將各種卷煙的理化指標、煙氣分析指標和評吸結(jié)果,錄入數(shù)據(jù)庫;2)然后利用零值/空值判斷或超出最大最小值范圍判斷剔除錯誤或特異樣本,并對樣本數(shù)據(jù)進行標準化或歸一化處理;3)按卷煙類型或者理化特性的不同對上一組得到的數(shù)據(jù)分組并命名,利用相關(guān)系數(shù)求解或主成分分析的相關(guān)性分析方法對每個待評估的質(zhì)量指標進行特征參數(shù)選擇,保留主要影響參數(shù),剔除次要影響參數(shù),從而確定各個待評估、預(yù)測指標的理化指標輸入?yún)?shù)項;4)選擇高斯型函數(shù)或多項式函數(shù)作為支持向量機的核函數(shù);采用了不敏感損失函數(shù)ε,并利用交叉驗證法或留一法確定支持向量機的核函數(shù)參數(shù)γ和正則化參數(shù)項C;5)將標準化后的樣本數(shù)據(jù)送入回歸函數(shù)估計支持向量機中進行學習、訓練得到其支持向量和各支持向量的系數(shù)αi,從而形成SVM模型;6)將上一步建成的SVM模型的各項參數(shù)信息、支持向量信息以及各系數(shù)存儲到數(shù)據(jù)庫中。
對待測卷煙內(nèi)在質(zhì)量進行評估通過下列步驟實現(xiàn)1)輸入待測卷煙樣本數(shù)據(jù);2)對上述樣本數(shù)據(jù)進行標準化或歸一化處理;3)對上述第2)步得到的各項數(shù)據(jù)利用相關(guān)系數(shù)求解或主成分分析的相關(guān)性分析方法進行篩選,保留主要的影響參數(shù);
4)根據(jù)卷煙的類型,判斷上一步得到的數(shù)據(jù)所屬的樣本組,根據(jù)判斷結(jié)果讀取該類型卷煙對應(yīng)的SVM模型名稱;5)將第3)步得到的數(shù)據(jù)輸入上述SVM模型,即可得出感官評吸和煙氣指標預(yù)測值;還可設(shè)有第6)步驟將第5)步驟得到的感官評吸和煙氣指標預(yù)測值依據(jù)轉(zhuǎn)換規(guī)則轉(zhuǎn)換為用戶可理解的表達方式輸出。
對于步驟4)獲得的預(yù)測值的準確度評估采用以輸出的實數(shù)值與目標值的誤差的比值是否小于允許的誤差作為標準。
本發(fā)明的主要是利用相關(guān)性分析技術(shù)進行特征參數(shù)選擇,再利用改進的回歸函數(shù)估計SVM來對卷煙內(nèi)在質(zhì)量評估數(shù)據(jù)進行學習建模,然后應(yīng)用構(gòu)造的判別函數(shù)進行卷煙內(nèi)在質(zhì)量評估,最后根據(jù)定義的某種規(guī)則將評估輸出值轉(zhuǎn)換為用戶能夠理解的表現(xiàn)方式,從而形成一套完整的卷煙內(nèi)在質(zhì)量評估預(yù)測的數(shù)據(jù)分析處理方法,有效地解決計算機輔助卷煙質(zhì)量評估中的小樣本問題;并解決了煙草行業(yè)小樣本數(shù)據(jù)情況上對卷煙內(nèi)在質(zhì)量指標的評估問題;減少對樣本數(shù)據(jù)的需求,減少人工評吸量,降低企業(yè)的檢測費用。
圖1為本發(fā)明的流程圖;圖2為本發(fā)明建立回歸函數(shù)估計的SVM模型流程圖;具體實施方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明進行說明。本發(fā)明提供的一種基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,以卷煙的樣本數(shù)據(jù)為基礎(chǔ),建立利用回歸函數(shù)估計的SVM模型,然后利用上述SVM模型對待測卷煙內(nèi)在質(zhì)量進行評估。
本發(fā)明首先利用相關(guān)性分析方法,包括相關(guān)系數(shù)求解、SVML方法,進行特征參數(shù)的選擇,降低輸入?yún)?shù)的個數(shù),從而也進一步降低了學習時對樣本數(shù)據(jù)的需求量。在解決小樣本學習問題方面,支持向量機擁有著比其它技術(shù)方法更為突出的優(yōu)勢。但卷煙質(zhì)量評估預(yù)測中,卷煙的內(nèi)在質(zhì)量指標,如感官質(zhì)量包括香型、香氣質(zhì)、勁頭、燃燒性、刺激性等大都采用類別方式來表示其質(zhì)量狀態(tài),行業(yè)專家將產(chǎn)品的感官質(zhì)量在用不同的文字進行描述的同時,也以數(shù)字形式給出了感官質(zhì)量的定量特征,如卷煙質(zhì)量指標中香型、余味指標如下表示香型指標清香為“1”、清偏中為“2”、中偏清為“3”、中間香為“4”、中偏濃為“5”、濃偏中為“6”、濃香為“7”、特異香型為“8”。
余味指標舒適為“5”、較舒適為“4”、尚舒適為“3”、欠舒適為“2”、差為“1”。
因此,在解決感官評估的學習問題時可以作為一個“多類劃分”來處理。但由于傳統(tǒng)的SVM在多類別識別中存在的明顯缺陷,因此本發(fā)明提出利用回歸函數(shù)估計的SVM方法進行建模來解決感官評估的多類模式識別問題,通過對樣本數(shù)據(jù)構(gòu)造具有優(yōu)良推廣性能、抗噪性能好、魯棒性的學習模型來實現(xiàn)回歸函數(shù)的估計,從而應(yīng)用估計的回歸函數(shù)來完成對新增樣本的質(zhì)量評估。
由此,就可以既發(fā)揮支持向量機在小樣本學習上的優(yōu)勢,又可以解決卷煙內(nèi)在質(zhì)量指標評估預(yù)測中的多類別識別問題。
如圖1所示,所述建立回歸函數(shù)估計的SVM模型是通過如下步驟實現(xiàn)的1)首先將各種卷煙的理化指標、煙氣分析指標和評吸結(jié)果,錄入數(shù)據(jù)庫;
2)然后利用零值/空值判斷或超出最大最小值范圍判斷剔除錯誤或特異樣本,并對樣本數(shù)據(jù)進行標準化或歸一化處理;3)按卷煙類型或者理化特性的不同對上一組得到的數(shù)據(jù)分組并命名,利用相關(guān)系數(shù)求解或主成分分析的相關(guān)性分析方法對每個待評估的質(zhì)量指標進行特征參數(shù)選擇,保留主要影響參數(shù),剔除次要影響參數(shù),從而確定各個待評估、預(yù)測指標的理化指標輸入?yún)?shù)項;例如,最終分析得出單料煙10項理化指標總糖、總煙堿、還原糖、總氮、蛋白質(zhì)、氯氣、鉀、施木克值、糖堿比、鉀氯比做為香型、刺激性、CO、TPM等質(zhì)量指標的輸入?yún)?shù);4)選擇高斯型函數(shù)或多項式函數(shù)作為支持向量機的核函數(shù);采用了不敏感損失函數(shù)ε,并利用交叉驗證法或留一法確定支持向量機的核函數(shù)參數(shù)γ和正則化參數(shù)項C;5)將標準化后的樣本數(shù)據(jù)輸入回歸函數(shù)估計支持向量機中進行學習、訓練得到其支持向量和各支持向量的系數(shù)αi,從而形成SVM模型;6)將上一步建成的SVM模型的各項參數(shù)信息、支持向量信息以及各系數(shù)存儲到數(shù)據(jù)庫中。
在上述的建立SVM模型的過程中,采用了不敏感損失函數(shù)ε,以保證SVM的穩(wěn)定性。為了對實值函數(shù)構(gòu)造支持向量機,本發(fā)明中采用一種新的損失函數(shù),即ε不敏感損失函數(shù)L(y,f(x,w))=L(|y-f(x,w)|ε)其中,
ε不敏感損失函數(shù)是對Huber提出的最小最大理論平均絕對誤差準則的一種推廣,算法是魯棒性的。Huber提出的最小最大理論;使得我們可以在只知道關(guān)于噪聲模型的一般信息的情況下,找到損失函數(shù)的最佳策略。
如圖2所示,上述卷煙內(nèi)在質(zhì)量指標的評估方法具體包括下列步驟首先采集要評估的卷煙的理化指標,煙氣指標,以及評吸結(jié)果等數(shù)據(jù),輸入數(shù)據(jù)庫;并對上述樣本數(shù)據(jù)進行標準化或歸一化處理;然后根據(jù)相關(guān)性分析結(jié)論進行篩選,剔除錯誤或特異樣本,以統(tǒng)一各輸入數(shù)據(jù)量綱;再根據(jù)卷煙的類型,判斷上一步得到的數(shù)據(jù)所屬的樣本組,根據(jù)判斷結(jié)果讀取該類型卷煙對應(yīng)的SVM模型名稱,用戶可自定義所采用的SVM模型;然后依據(jù)模型名稱來讀取該模型的核函數(shù)、正則化參數(shù)C、核函數(shù)參數(shù)γ以及各支持向量的系數(shù)α,根據(jù)上述參數(shù)構(gòu)造判別函數(shù),并將數(shù)據(jù)送入該SVM模型,最后計算得出感官評吸和煙氣指標預(yù)測值;獲得的預(yù)測值的準確度評估采用以輸出的實數(shù)值與目標值的誤差的比值是否小于允許的誤差作為標準。由于發(fā)明中提出的SVM方法得到的回歸函數(shù)是對實值樣本數(shù)據(jù)集的函數(shù)逼近,因此其輸出也是實數(shù)形式;這種實數(shù)形式一定程度上反映了估計值與實際類別的隸屬程度,更能將輸入樣本空間中的樣本點的靠近程度映射到輸出值中,與真實情況更為接近。但是,如何對回歸函數(shù)的輸出值進行評估準確度的評價又成為一個新的問題。針對此問題,發(fā)明給出了相應(yīng)的解決方案;即以輸出的實數(shù)值與目標值的誤差和允許誤差的比值作為評估準確度的計算標準,如下式
即如果SVM模型輸出的實數(shù)值與目標值的誤差大于允許的誤差,則對該樣本的評估準確度為0。通過上述計算標準可有效估計建立的SVM模型的性能情況。
由此,就可以既發(fā)揮支持向量機在小樣本學習上的優(yōu)勢,又可以解決卷煙內(nèi)在質(zhì)量指標評估預(yù)測中的多類別識別問題。
將上一步得到的感官評吸和煙氣指標預(yù)測值依據(jù)轉(zhuǎn)換規(guī)則轉(zhuǎn)換為用戶可理解的數(shù)據(jù)或字符型描述形式輸出,供用戶參考。
實踐證明,本方法是一種行之有效的評估預(yù)測煙草行業(yè)單料煙或成品煙感官評吸和煙氣指標等內(nèi)在質(zhì)量的智能方法,而且在小樣本數(shù)據(jù)環(huán)境比之現(xiàn)有的方法有著更加突出的優(yōu)勢。
權(quán)利要求
1.一種基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,其特征在于,以卷煙的樣本數(shù)據(jù)為基礎(chǔ),建立利用回歸函數(shù)估計的SVM模型,然后利用上述SVM模型對待測卷煙內(nèi)在質(zhì)量進行評估。
2.根據(jù)權(quán)利要求1所述的基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,其特征在于,所述建立回歸函數(shù)估計的SVM模型是通過如下步驟實現(xiàn)的1)首先將各種卷煙的理化指標、煙氣分析指標和評吸結(jié)果,錄入數(shù)據(jù)庫;2)然后利用零值/空值判斷或超出最大最小值范圍判斷剔除錯誤或特異樣本,并對樣本數(shù)據(jù)進行標準化或歸一化處理;3)按卷煙類型或者理化特性的不同對上一組得到的數(shù)據(jù)分組并命名,利用相關(guān)系數(shù)求解或主成分分析的相關(guān)性分析方法對每個待評估的質(zhì)量指標進行特征參數(shù)選擇,保留主要影響參數(shù),剔除次要影響參數(shù),從而確定各個待評估、預(yù)測指標的理化指標輸入?yún)?shù)項;4)選擇高斯型函數(shù)或多項式函數(shù)作為支持向量機的核函數(shù);采用不敏感損失函數(shù)ε,并利用交叉驗證法或留一法確定支持向量機的核函數(shù)參數(shù)γ和正則化參數(shù)項C;5)將標準化后的樣本數(shù)據(jù)送入回歸函數(shù)估計支持向量機中進行學習、訓練得到其支持向量和各支持向量的系數(shù)αj,從而形成SVM模型;6)將上一步建成的SVM模型的各項參數(shù)信息、支持向量信息以及各系數(shù)存儲到數(shù)據(jù)庫中。
3.根據(jù)權(quán)利要求1所述的基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,其特征在于,對待測卷煙內(nèi)在質(zhì)量進行評估通過下列步驟實現(xiàn)1)輸入待測卷煙樣本數(shù)據(jù);2)對上述樣本數(shù)據(jù)進行標準化或歸一化處理;3)對上述第2)步得到的各項數(shù)據(jù)利用相關(guān)系數(shù)求解或主成分分析的相關(guān)性分析方法進行篩選,保留主要的影響參數(shù);4)根據(jù)卷煙的類型,判斷上一步得到的數(shù)據(jù)所屬的樣本組,根據(jù)判斷結(jié)果讀取該類型卷煙對應(yīng)的SVM模型名稱;5)將第3)步得到的數(shù)據(jù)輸入上述SVM模型,即可得出感官評吸和煙氣指標預(yù)測值。
4.根據(jù)權(quán)利要求3所述的基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,其特征在于還包括第6)步驟將第5)步驟得到的感官評吸和煙氣指標預(yù)測值依據(jù)轉(zhuǎn)換規(guī)則轉(zhuǎn)換為用戶可理解的表達方式輸出。
5.根據(jù)權(quán)利要求3所述的基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,其特征在于,對于步驟4)獲得的預(yù)測值的準確度評估采用以輸出的實數(shù)值與目標值的誤差的比值是否小于允許的誤差作為標準。
全文摘要
本發(fā)明提供的一種基于回歸函數(shù)估計SVM的卷煙內(nèi)在質(zhì)量指標評估方法,是以卷煙的樣本數(shù)據(jù)為基礎(chǔ),建立利用回歸函數(shù)估計的SVM模型,然后利用上述SVM模型對待測卷煙內(nèi)在質(zhì)量進行評估。本發(fā)明利用相關(guān)性分析方法,進行特征參數(shù)的選擇,降低輸入?yún)?shù)的個數(shù),從而也進一步降低了對樣本數(shù)據(jù)的需求量,利用SVM在有限樣本情況下學習的優(yōu)良特性,在小樣本情況下也能達到比較高的評估預(yù)測準確度,從而減少人工評吸量,降低企業(yè)的檢測費用,很適于在煙草行業(yè)推廣應(yīng)用。
文檔編號A24C5/32GK1975705SQ20051010528
公開日2007年6月6日 申請日期2005年11月28日 優(yōu)先權(quán)日2005年11月28日
發(fā)明者鄒勇, 肖協(xié)忠, 丁香乾, 宋學艷, 徐海濤, 鄭宏偉, 盛志藝, 劉勃, 王濤, 賀英, 傅昕宇, 馬琳濤, 馬波, 石紅雁, 紀平 申請人:頤中煙草(集團)有限公司, 中國海洋大學