專(zhuān)利名稱(chēng)::基于支持向量機(jī)的有機(jī)化合物燃爆特性預(yù)測(cè)方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及有機(jī)化工
技術(shù)領(lǐng)域:
,尤其是一種預(yù)測(cè)有機(jī)化合物燃爆特性的方法,具體地說(shuō)是一種基于支持向量機(jī)的有機(jī)化合物燃爆特性預(yù)測(cè)方法。
背景技術(shù):
:近年來(lái),隨著科技的迅猛發(fā)展,新材料、新物質(zhì)層出不窮。目前己經(jīng)發(fā)現(xiàn)和合成的化學(xué)物質(zhì)有四千萬(wàn)種以上,其中常用的化學(xué)品就有七萬(wàn)多種,且每年還有數(shù)萬(wàn)種新的化學(xué)品問(wèn)世。在眾多的化學(xué)物質(zhì)中,有許多物質(zhì)具有易燃易爆等危險(xiǎn)特性,在生產(chǎn)、使用、貯存和運(yùn)輸過(guò)程中存在著發(fā)生火災(zāi)、爆炸事故的可能性。對(duì)于如此眾多的化學(xué)物質(zhì),掌握它們的各類(lèi)物化性質(zhì)在化學(xué)工業(yè)和石油化學(xué)工業(yè)生產(chǎn)中有著重要的現(xiàn)實(shí)意義。例如,化工生產(chǎn)、工程設(shè)計(jì)、科學(xué)研究和工藝技術(shù)的開(kāi)發(fā)等都需要大量準(zhǔn)確、可靠的物性數(shù)據(jù)?;み^(guò)程設(shè)計(jì)中常常要用三分之一的工時(shí)用于查找、篩選和估算物性數(shù)據(jù);化工流程模擬中,物性數(shù)據(jù)的計(jì)算更是占據(jù)舉足輕重的地位??梢哉f(shuō)沒(méi)有化工物性的計(jì)算,就沒(méi)有化工模擬研究,化工物性數(shù)據(jù)是進(jìn)行化工研究、生產(chǎn)、設(shè)計(jì)及開(kāi)發(fā)的基石。在眾多的化工物性中,閃點(diǎn)、自燃點(diǎn)、爆炸極限等燃爆特性是一類(lèi)較為特殊的物性,因其與可燃物質(zhì)發(fā)生火災(zāi)爆炸的難易程度密切相關(guān),因而常被用于衡量可燃物質(zhì)在生產(chǎn)、加工、儲(chǔ)存和運(yùn)輸過(guò)程中的危險(xiǎn)程度,指導(dǎo)工程設(shè)計(jì)和危險(xiǎn)性評(píng)估等工作的開(kāi)展。因此,掌握有機(jī)物的燃爆特性對(duì)于安全理論研究和化工安全生產(chǎn)都顯得尤為重要,具有重要的理論意義和實(shí)用價(jià)值。然而,當(dāng)前研究者們對(duì)這些燃爆特性的研究還比較滯后,相關(guān)數(shù)據(jù)還比較缺乏。目前,利用實(shí)驗(yàn)測(cè)定是確定有機(jī)物燃爆特性最常用的方法。但實(shí)驗(yàn)測(cè)定方法往往存在著如下的不足(1)實(shí)驗(yàn)方法不僅要求具備良好的實(shí)驗(yàn)設(shè)備,而且測(cè)定過(guò)程需經(jīng)過(guò)物質(zhì)制備、純度鑒定、測(cè)定方法及儀器的選擇、儀器校準(zhǔn)、實(shí)驗(yàn)測(cè)試、數(shù)據(jù)整理及篩選等一系列步驟,工作量巨大;(2)由于物質(zhì)燃爆特性之間存在的差異,所具備的實(shí)驗(yàn)儀器難以對(duì)各類(lèi)別物質(zhì)進(jìn)行評(píng)價(jià),必須同時(shí)考慮儀器的特性和物質(zhì)的燃爆特性,對(duì)它們的實(shí)驗(yàn)方法進(jìn)行有效的組合,因此,要對(duì)它們一一進(jìn)行試驗(yàn)是不可能的;(3)考慮到實(shí)驗(yàn)過(guò)程中的安全問(wèn)題,一般的實(shí)驗(yàn)研究(尤其是爆炸極限的研究)只能是小規(guī)模、小尺寸的實(shí)驗(yàn),用一級(jí)近似的模擬實(shí)驗(yàn)尚無(wú)法較好地體現(xiàn)規(guī)模效應(yīng);(4)對(duì)于那些有毒、易揮發(fā)、爆炸性或有輻射的物質(zhì),測(cè)量上存在著一定的困難;(5)對(duì)于那些尚未合成的物質(zhì)以及易分解的反應(yīng)性化學(xué)物質(zhì),也無(wú)法基于實(shí)驗(yàn)來(lái)確定其危險(xiǎn)性。因此,單純地應(yīng)用實(shí)驗(yàn)研究來(lái)確定有機(jī)物的燃爆特性是不可取的,有必要在更高的水平上將實(shí)驗(yàn)科學(xué)與理論科學(xué)聯(lián)系起來(lái),把宏觀與微觀、定性與定量結(jié)合起來(lái),借助理論預(yù)測(cè)方法對(duì)己有的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行整理和概括,在此基礎(chǔ)上建立起簡(jiǎn)便可靠的燃爆特性理論預(yù)測(cè)模型,最大限度地?cái)U(kuò)大實(shí)驗(yàn)數(shù)據(jù)的應(yīng)用范圍和使用價(jià)值,有效地解決有機(jī)物燃爆特性實(shí)驗(yàn)數(shù)據(jù)缺乏的問(wèn)題,為化工過(guò)程設(shè)計(jì)與安全科學(xué)研究提供理論依據(jù)與技術(shù)支持。近年來(lái),定量結(jié)構(gòu)一性質(zhì)相關(guān)性研究(QuantitativeStructure-PropertyRelationship,QSPR)逐漸成為基礎(chǔ)研究領(lǐng)域的熱點(diǎn)。它根據(jù)化合物性能與分子結(jié)構(gòu)密切相關(guān)的原理,尋求分子結(jié)構(gòu)與物質(zhì)性質(zhì)之間的內(nèi)在定量關(guān)系。其基本假設(shè)是有機(jī)物的性能與分子結(jié)構(gòu)密切相關(guān),分子結(jié)構(gòu)不同,性能就不同。而分子結(jié)構(gòu)可以用反映分子結(jié)構(gòu)特征的各種參數(shù)來(lái)描述,即有機(jī)物的各類(lèi)理化性質(zhì)可以用化學(xué)結(jié)構(gòu)的函數(shù)來(lái)表示。其主要思路是首先根據(jù)分子結(jié)構(gòu)確定所選用的結(jié)構(gòu)參數(shù)作為分子描述符,隨后針對(duì)所選用的描述符與所研究理化性質(zhì)之間的內(nèi)在定量關(guān)系,采用合適的統(tǒng)計(jì)建模方法進(jìn)行關(guān)聯(lián),建立相應(yīng)的QSPR預(yù)測(cè)模型。一旦建立了可靠的定量結(jié)構(gòu)-性質(zhì)相關(guān)模型,僅需要分子的結(jié)構(gòu)信息,就可以用它來(lái)預(yù)測(cè)新的或尚未合成的有機(jī)物的各種性質(zhì)。目前,該研究方法已被廣泛應(yīng)用于有機(jī)物包括燃爆特性在內(nèi)的各類(lèi)理化性質(zhì)及生物活性的預(yù)測(cè)研究之中。由于能夠應(yīng)用于QSPR研究的結(jié)構(gòu)參數(shù)種類(lèi)繁多,且各參數(shù)之間往往存在著較強(qiáng)的非線(xiàn)性關(guān)系,如組成參數(shù)、電性參數(shù)、拓?fù)鋮?shù)等對(duì)理化性質(zhì)的影響很難用準(zhǔn)確的數(shù)學(xué)方程進(jìn)行描述。因此,當(dāng)前QSPR研究的主要熱點(diǎn)之一就是開(kāi)發(fā)或引入各種高效的統(tǒng)計(jì)建模方法,對(duì)有機(jī)物各種理化性質(zhì)與其分子結(jié)構(gòu)間的內(nèi)在定量關(guān)系進(jìn)行有效關(guān)聯(lián),以建立高效的QSPR模型。目前常用的統(tǒng)計(jì)建模方法主要包括多元線(xiàn)性回歸、偏最小二乘、人工神經(jīng)網(wǎng)絡(luò)等。然而,對(duì)于復(fù)雜的非線(xiàn)性體系,線(xiàn)性方法的使用往往受到較大的限制;而作為目前應(yīng)用最為廣泛的非線(xiàn)性擬合技術(shù)神經(jīng)網(wǎng)絡(luò)方法,其本身也存在著一定的缺陷,如易于產(chǎn)生"過(guò)訓(xùn)練"、"過(guò)擬合"、網(wǎng)絡(luò)不易優(yōu)化、結(jié)果無(wú)法重復(fù)等。支持向量機(jī)算法是Vapnik及其合作者在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上,于1995年提出的一種新型機(jī)器學(xué)習(xí)方法。它具有嚴(yán)格的理論基礎(chǔ),根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤的識(shí)別任意樣本的能力)之間尋找最佳折中,以期獲得最好的泛化能力,因此在模式識(shí)別、函數(shù)回歸等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。與傳統(tǒng)的統(tǒng)計(jì)建模方法相比,支持向量機(jī)方法具有如下的優(yōu)點(diǎn)(1)專(zhuān)門(mén)針對(duì)有限樣本情況的,其目標(biāo)是得到有限信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無(wú)窮大時(shí)的最優(yōu)值;(2)算法最終將轉(zhuǎn)化成為一個(gè)二次尋優(yōu)問(wèn)題,從理論上說(shuō),得到的將是全局最優(yōu)點(diǎn),解決了神經(jīng)網(wǎng)絡(luò)等方法無(wú)法避免的局部最優(yōu)問(wèn)題;(3)算法將實(shí)際問(wèn)題通過(guò)核函數(shù)的非線(xiàn)性變換轉(zhuǎn)換到高維特征空間,在高維空間中構(gòu)造線(xiàn)性判別函數(shù)來(lái)實(shí)現(xiàn)原有空間中的非線(xiàn)性判別函數(shù),有較好的泛化能力,同時(shí)它巧妙地解決了維數(shù)問(wèn)題,其算法復(fù)雜度與樣本維數(shù)無(wú)關(guān)。
發(fā)明內(nèi)容本發(fā)明的目的是針對(duì)現(xiàn)有的有機(jī)化合物燃爆特性預(yù)測(cè)方法預(yù)測(cè)精度差、計(jì)算繁瑣、適用范圍小等問(wèn)題,發(fā)明一種基于支持向量機(jī)的有機(jī)化合物燃爆特性預(yù)測(cè)方法。本發(fā)明的技術(shù)方案是一種基于支持向量機(jī)的有機(jī)化合物燃爆特性預(yù)測(cè)方法,其特征在于以有機(jī)化合物的分子基團(tuán)作為描述分子結(jié)構(gòu)特征的結(jié)構(gòu)描述符,實(shí)現(xiàn)分子結(jié)構(gòu)信息的參數(shù)化;利用支持向量機(jī)強(qiáng)大的非線(xiàn)性映射能力分別針對(duì)各燃爆特性與其結(jié)構(gòu)描述符之間的內(nèi)在定量關(guān)系進(jìn)行模擬,建立相應(yīng)的基于分子基團(tuán)的支持向量機(jī)預(yù)測(cè)模型;將需要預(yù)測(cè)的有機(jī)化合物的分子基團(tuán)作為輸入?yún)?shù)輸入所得的預(yù)測(cè)模型中即可得到相關(guān)燃爆特性值。所述的支持向量機(jī)采用徑向基核At^x》^xp(-Hin!i,作為支持向量機(jī)的核函數(shù);將樣本數(shù)據(jù)線(xiàn)性映射到[-l,l]區(qū)間,進(jìn)行歸一化處理;采用格點(diǎn)搜索方法確定支持向量機(jī)的最優(yōu)參數(shù),格點(diǎn)搜索的搜索方向?yàn)?留1/10法"交互檢驗(yàn)的最小均方根誤差(RMSE);模型輸入?yún)?shù)分別對(duì)應(yīng)相應(yīng)的分子基團(tuán),輸出參數(shù)為相應(yīng)的燃爆特性。所述的燃爆特性包括閃點(diǎn)、自燃點(diǎn)、爆炸極限、燃燒熱和撞擊感度。本發(fā)明的預(yù)測(cè)方法的要點(diǎn)是在選取能夠有效表征分子結(jié)構(gòu)信息的結(jié)構(gòu)描述符的基礎(chǔ)上,采用支持向量機(jī)方法,通過(guò)對(duì)現(xiàn)有結(jié)構(gòu)描述符和相關(guān)燃爆特性數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練而實(shí)現(xiàn)的(1)結(jié)構(gòu)-性質(zhì)關(guān)系模型的建立要求選擇能夠有效描述所研究化合物分子結(jié)構(gòu)特征的結(jié)構(gòu)參數(shù)作為分子描述符。為了描述分子的結(jié)構(gòu)特征,前人己經(jīng)提出大量可以用于QSPR研究的分子結(jié)構(gòu)參數(shù),這些結(jié)構(gòu)參數(shù)可以反映分子的組成、拓?fù)湟约半娮咏Y(jié)構(gòu)等多方面的結(jié)構(gòu)信息。其中,分子基團(tuán)是一類(lèi)使用較為廣泛的結(jié)構(gòu)參數(shù),其特點(diǎn)是基團(tuán)劃分簡(jiǎn)單易行、計(jì)算簡(jiǎn)單、使用簡(jiǎn)便,往往根據(jù)幾十個(gè)基團(tuán)貢獻(xiàn)的參數(shù),就可預(yù)測(cè)包括這些基團(tuán)的大量物質(zhì)的性質(zhì),因此已被廣泛地用于預(yù)測(cè)有機(jī)物包括燃爆特性在內(nèi)的各種物理化學(xué)性質(zhì),并且顯示出較強(qiáng)的預(yù)測(cè)能力。(2)成功的結(jié)構(gòu)-性質(zhì)關(guān)系模型主要依賴(lài)于所采用的統(tǒng)計(jì)建模方法的有效性。本發(fā)明選擇具有強(qiáng)泛化能力的支持向量機(jī)方法。近期,大量的QSPR研究證明,支持向量機(jī)在不同程度上可以比其他的統(tǒng)計(jì)建模方法給出更為精確的學(xué)習(xí)和預(yù)測(cè)效果。支持向量機(jī)方法具有強(qiáng)大的非線(xiàn)性擬合能力,能夠克服傳統(tǒng)線(xiàn)性回歸方法不適用于復(fù)雜非線(xiàn)性體系的缺陷;同時(shí),它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,追求置信范圍值的最小化,而非訓(xùn)練誤差的最小化,理論上能夠達(dá)到全局最優(yōu)解,因此能夠克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法易于產(chǎn)生"過(guò)訓(xùn)練"、"過(guò)擬合"等缺點(diǎn),特別適用于小樣本的QSPR研究體系,并具有更好的泛化性能;此外,一旦參數(shù)設(shè)定后,支持向量機(jī)的解還具有惟一性和可重復(fù)性,這一點(diǎn)更是明顯優(yōu)于人工神經(jīng)網(wǎng)絡(luò)。因此,在本發(fā)明中我們采用支持向量機(jī)方法建立最后的燃爆特性預(yù)測(cè)模型。支持向量機(jī)的算法步驟如下-假設(shè)給定訓(xùn)練樣本集{",/》,i二l,……"},其中;r,e尼是第i個(gè)學(xué)習(xí)樣本的輸入值,乂e/為對(duì)應(yīng)的目標(biāo)值。對(duì)于線(xiàn)性回歸,應(yīng)用線(xiàn)性函數(shù)/0)=(w-x)+6(1)進(jìn)行估算。為了保證式(1)的平坦,必須尋找一個(gè)最小的『。假設(shè)所有訓(xùn)練數(shù)據(jù)(A力)都可以在精度f(wàn)下用線(xiàn)性函數(shù)擬合,那么尋找最小w的問(wèn)題就轉(zhuǎn)變?yōu)樽钚』P蛷?fù)雜度,其等價(jià)于則'/71|IwU2,轉(zhuǎn)化成相應(yīng)的二次規(guī)劃問(wèn)題2即min會(huì)llwl卩(2)(/,-(f,-Z《f,fz化-/,《f)考慮到允許擬合誤差的情況,引入松弛因子《》0,OO以及懲罰因子C,相應(yīng)的二次規(guī)劃問(wèn)題改寫(xiě)為min士llwl卩(3)其中,懲罰因子6X)用來(lái)平衡回歸函數(shù)/Y"的平坦程度和偏差大于f樣本點(diǎn)的個(gè)數(shù)。式(3)是基于以下的f-不敏感損失函數(shù)得出,該函數(shù)l《表示如下1《14爭(zhēng))(4)在樣本數(shù)較少時(shí),求解上面的支持向量機(jī)一般采用對(duì)偶理論,將它轉(zhuǎn)化為二次規(guī)劃問(wèn)題。建立如下Lagrange方程<formula>formulaseeoriginaldocumentpage8</formula>(5)上式對(duì)于參數(shù)w&《,《'的偏導(dǎo)數(shù)都等于o,代入上式得到對(duì)偶優(yōu)化問(wèn)題<formula>formulaseeoriginaldocumentpage8</formula>(6)對(duì)于非線(xiàn)性回歸,支持向量機(jī)的解決思路是通過(guò)一個(gè)非線(xiàn)性映射&將樣本映射到一個(gè)高維的特征空間中并用常規(guī)的線(xiàn)性方法來(lái)解決。假設(shè)樣本z用非線(xiàn)性函數(shù)0(力映射到高維空間,則非線(xiàn)性回歸問(wèn)題轉(zhuǎn)化為<formula>formulaseeoriginaldocumentpage8</formula>(7)從而得到w^-<¥(x,)。支持向量機(jī)通過(guò)核函數(shù)變換將樣本映射到高維特征空間,核函數(shù)《(x,x')滿(mǎn)足〖(x,;c')^〈0(x)^00〉。因此式(6)改寫(xiě)為<formula>formulaseeoriginaldocumentpage8</formula>(8)核函數(shù)的引入使得函數(shù)求解繞過(guò)特征空間直接在輸入空間進(jìn)行,從而避免了計(jì)算非線(xiàn)性映射^。目前支持向量機(jī)常用的核函數(shù)主要有線(xiàn)性核、多項(xiàng)式核、徑向基核和sigmoid核等4種類(lèi)型。本發(fā)明選用徑向基核J(AA)二exp(-rllx,IIO作為核函數(shù)。本發(fā)明的有益效果本發(fā)明發(fā)明了一種基于支持向量機(jī)方法的預(yù)測(cè)有機(jī)物燃爆特性的新方法。它根據(jù)結(jié)構(gòu)決定性質(zhì)的原理,僅以分子結(jié)構(gòu)基團(tuán)作為表征有機(jī)化合物分子結(jié)構(gòu)特征的結(jié)構(gòu)描述符;利用支持向量機(jī)強(qiáng)大的統(tǒng)計(jì)學(xué)習(xí)能力,對(duì)已有的燃爆特性實(shí)驗(yàn)數(shù)據(jù)與相應(yīng)的分子結(jié)構(gòu)基團(tuán)間的定量函數(shù)關(guān)系進(jìn)行模擬,在此基礎(chǔ)上建立起穩(wěn)定可靠的燃爆特性理論預(yù)測(cè)模型,從而解決有機(jī)物燃爆特性實(shí)驗(yàn)數(shù)據(jù)缺乏的問(wèn)題。本發(fā)明預(yù)測(cè)效果好、適用范圍廣、計(jì)算簡(jiǎn)單,僅需化合物分子結(jié)構(gòu)就能實(shí)現(xiàn)其相關(guān)燃爆特性,如閃點(diǎn)、自燃點(diǎn)、爆炸極限、燃燒熱、撞擊感度等的預(yù)測(cè)。利用本發(fā)明的方法可以?xún)H根據(jù)有機(jī)化合物分子結(jié)構(gòu)就能準(zhǔn)確、快速地預(yù)測(cè)出其燃爆特性,為過(guò)程設(shè)計(jì)、流程模擬、安全評(píng)估等工作提供直接的數(shù)據(jù),而且可免去大量實(shí)驗(yàn)測(cè)定所帶來(lái)的不便和經(jīng)濟(jì)上的損失,因此在化工過(guò)程設(shè)計(jì)與化工流程模擬等工作中有著良好的應(yīng)用前景,其經(jīng)濟(jì)性十分可觀。圖l為支持向量機(jī)方法用于回歸問(wèn)題的原理描述。圖2為本發(fā)明預(yù)測(cè)模型建立的主要步驟示意圖。圖3為支持向量機(jī)模型所得閃點(diǎn)預(yù)測(cè)值與實(shí)驗(yàn)值的比較。圖4為支持向量機(jī)模型預(yù)測(cè)相對(duì)誤差范圍示意圖。具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。如圖1、2、3、4所示。一種基于支持向量機(jī)的有機(jī)化合物燃爆特性預(yù)測(cè)方法,它包括模型的建立和應(yīng)用,其中模型的建立是關(guān)鍵,建模完成后,僅需將需要預(yù)測(cè)的有機(jī)化合物的分子基團(tuán)作為輸入?yún)?shù)輸入所建模型中即可得出相應(yīng)的燃爆特性值。其中建模主要涉及六個(gè)步驟(1)實(shí)驗(yàn)數(shù)據(jù)的整理根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)和結(jié)構(gòu)標(biāo)準(zhǔn)選擇一系列有機(jī)化合物,構(gòu)成QSPR研究的樣本集?;衔镞x擇的條件是統(tǒng)計(jì)上的隨機(jī)性、結(jié)構(gòu)上的代表性和全面性,以及數(shù)據(jù)的可獲得性。針對(duì)樣本集中的系列化合物,收集所關(guān)注的燃爆特性數(shù)據(jù)。數(shù)據(jù)收集的途徑主要有3種各種權(quán)威性質(zhì)數(shù)據(jù)庫(kù)、各種手冊(cè)以及實(shí)驗(yàn)測(cè)定的結(jié)果。數(shù)據(jù)選擇的原則是必須可靠和標(biāo)準(zhǔn)化。本發(fā)明推薦使用的有聯(lián)合國(guó)環(huán)境規(guī)劃署(UNEP)、國(guó)際勞工組織(ILO)和世界衛(wèi)生組織(WHO)的合作機(jī)構(gòu)國(guó)際化學(xué)品安全規(guī)劃署(IPCS)與歐洲聯(lián)盟委員會(huì)(EU)合作編輯的《國(guó)際化學(xué)品安全卡》(ICSC)、美國(guó)阿克倫大學(xué)的危險(xiǎn)化學(xué)品數(shù)據(jù)庫(kù)、英國(guó)牛津大學(xué)的危險(xiǎn)化學(xué)品數(shù)據(jù)庫(kù),以及美國(guó)化學(xué)工程師學(xué)會(huì)下屬的DIPPR⑧(TheDesignInstituteforPhysicalProperties)數(shù)據(jù)庫(kù)。(2)樣本集的劃分將樣本集隨機(jī)劃分為訓(xùn)練集和預(yù)測(cè)集兩個(gè)部分,其中訓(xùn)練集用于建立模型,預(yù)測(cè)集用于對(duì)所建模型進(jìn)行評(píng)價(jià)和驗(yàn)證。(3)分子基團(tuán)的劃分針對(duì)樣本集中有機(jī)物的結(jié)構(gòu)特征,根據(jù)一定的標(biāo)準(zhǔn)和規(guī)則進(jìn)行分子結(jié)構(gòu)基團(tuán)的劃分,以所劃分出的分子基團(tuán)作為表征有機(jī)物結(jié)構(gòu)特征的分子描述符,實(shí)現(xiàn)分子結(jié)構(gòu)的參數(shù)化描述。(4)預(yù)測(cè)模型的建立以劃分的分子基團(tuán)作為輸入變量,所研究燃爆特性作為輸出變量,應(yīng)用支持向量機(jī)方法對(duì)分子結(jié)構(gòu)與相關(guān)燃爆特性之間的內(nèi)在關(guān)系進(jìn)行模擬,尋求兩者之間存在的定量函數(shù)關(guān)系,建立相應(yīng)的預(yù)測(cè)模型。決定支持向量機(jī)模擬性能的相關(guān)參數(shù)主要包括核函數(shù)、核函數(shù)的參數(shù)、懲罰系數(shù)C以及e-不敏感損失函數(shù)中s的大小。本發(fā)明中,核函數(shù)選用徑向基核Atr,二exp(-H!義i,||0,因?yàn)樗哂休^高的學(xué)習(xí)效率和學(xué)習(xí)速率。其它參數(shù)通過(guò)"格點(diǎn)搜索"方法確定。參數(shù)搜索范圍如下懲罰系數(shù)C——0-1024;核函數(shù)的寬度Y——0-1024;s-不敏感損失函數(shù)中的e——0-1024。搜索方向?yàn)?留1/10法"交互檢驗(yàn)的最小均方根誤差(RMSE)。"留1/10法"交互驗(yàn)證是指從訓(xùn)練集中每次篩除訓(xùn)練樣本數(shù)的1/10個(gè)化合物,用其余的化合物建模,來(lái)預(yù)測(cè)所篩除化合物的性質(zhì),這樣得到一個(gè)交互驗(yàn)證的均方根誤差(RMS)來(lái)評(píng)價(jià)模型性能的好壞,其計(jì)算公式為<formula>formulaseeoriginaldocumentpage11</formula>通過(guò)搜索,選取"留1/10法"交互檢驗(yàn)的最小RMS所對(duì)應(yīng)的那組參數(shù)作為模型的輸入?yún)?shù)。應(yīng)用搜索出的最優(yōu)參數(shù)作為支持向量機(jī)的輸入?yún)?shù),建立相應(yīng)的預(yù)測(cè)模型。(5)模型的評(píng)價(jià)與驗(yàn)證對(duì)所建立的QSPR模型的可靠程度及模型的預(yù)測(cè)能力進(jìn)行評(píng)價(jià)和驗(yàn)證。評(píng)價(jià)主要針對(duì)幾個(gè)方面模型的擬合優(yōu)度、穩(wěn)健性和預(yù)測(cè)能力。本發(fā)明中,模型的擬合優(yōu)度采用復(fù)相關(guān)系數(shù)(/,即回歸系數(shù)的平方,代表模型所解釋的方差)來(lái)評(píng)價(jià);模型的穩(wěn)健性采用"留一法"(Leave-騰,t,L00)交互驗(yàn)證方法來(lái)進(jìn)行檢驗(yàn),"留一法"交互檢驗(yàn)是指從訓(xùn)練集中每次篩除一個(gè)化合物,用其余的化合物建模,來(lái)預(yù)測(cè)篩除化合物的性質(zhì),這樣得到一個(gè)交互驗(yàn)證的<formula>formulaseeoriginaldocumentpage11</formula>/(即")來(lái)評(píng)價(jià)模型穩(wěn)健性,其計(jì)算公式為e,2。。=i-~^-;模型預(yù)測(cè)能力的驗(yàn)證通過(guò)用所建立的模型來(lái)預(yù)測(cè)測(cè)試集化合物的相關(guān)性質(zhì),然后計(jì)算相應(yīng)的均方根誤差(RMS)和平均絕對(duì)誤差(AAE)的方式進(jìn)行。只有具有統(tǒng)計(jì)上的顯著性、穩(wěn)健的和具有高度預(yù)測(cè)能力的模型才能夠進(jìn)行應(yīng)用。(6)預(yù)測(cè)模型的應(yīng)用利用所建模型的預(yù)測(cè)能力對(duì)其它未知化合物的相關(guān)燃爆特性進(jìn)行預(yù)測(cè),為化工生產(chǎn)和工程設(shè)計(jì)等工作提供所缺失的燃爆特性數(shù)據(jù)。下面以閃點(diǎn)預(yù)測(cè)為例,對(duì)本發(fā)明做進(jìn)一步說(shuō)明。樣本集共包含1282種有機(jī)化合物,其閃點(diǎn)數(shù)據(jù)從美國(guó)化學(xué)工程師學(xué)會(huì)下屬的DIPPI^數(shù)據(jù)庫(kù)獲得。該樣本集中的化合物涵蓋廣泛的化學(xué)多樣性空間,為建立健壯、有效的預(yù)測(cè)模型奠定了基礎(chǔ)。隨后,對(duì)樣本集進(jìn)行劃分,隨機(jī)選擇1026種化合物作為訓(xùn)練集,用于建立預(yù)測(cè)模型;選擇剩余256種化合物作為外部預(yù)測(cè)集,用于對(duì)所建模型的可靠程度和預(yù)測(cè)能力進(jìn)行評(píng)價(jià)驗(yàn)證。隨后,根據(jù)樣本集中化合物的分子結(jié)構(gòu),對(duì)分子基團(tuán)進(jìn)行劃分,共提取57種分子基團(tuán)作為表征有機(jī)物分子結(jié)構(gòu)特征的分子描述符,具體基團(tuán)類(lèi)別列于表l。表1.對(duì)應(yīng)于分子描述符的57種分子基團(tuán)<table>tableseeoriginaldocumentpage12</column></row><table>s=單鍵(一),a-芳香鍵(a),R二脂肪環(huán),一X=與鹵素原子相連然后,應(yīng)用支持向量機(jī)方法對(duì)有機(jī)物閃點(diǎn)與結(jié)構(gòu)基團(tuán)間的內(nèi)在定量關(guān)系進(jìn)行模擬。將樣本數(shù)據(jù)線(xiàn)性映射到[-1,l]區(qū)間,進(jìn)行歸一化處理;采用格點(diǎn)搜索方法確定支持向量機(jī)的最優(yōu)參數(shù),格點(diǎn)搜索的搜索方向?yàn)?留1/10法"交互檢驗(yàn)的最小均方根誤差(脂SE);通過(guò)搜索,確定模型選取的最優(yōu)參數(shù)為:懲罰系數(shù)C二16,e-不敏感損失函數(shù)中的e二O.Ol,核函數(shù)的寬度Y=0.0625,相應(yīng)的支持向量數(shù)為817。應(yīng)用確定的最優(yōu)參數(shù),建立相應(yīng)的預(yù)測(cè)模型。應(yīng)用該模型對(duì)樣本集化合物進(jìn)行預(yù)測(cè)。所得預(yù)測(cè)值與實(shí)驗(yàn)值的比較見(jiàn)附圖3。表2中列出了本發(fā)明基于支持向量機(jī)預(yù)測(cè)模型的整體性能參數(shù)。對(duì)于訓(xùn)練集,我們的支持向量機(jī)模型顯示了強(qiáng)勁的數(shù)據(jù)擬合能力,復(fù)相關(guān)系數(shù)達(dá)0.98;對(duì)于外部測(cè)試集,我們的模型可以給出9.985X:的預(yù)測(cè)誤差,在土1(TC的實(shí)驗(yàn)允許誤差范圍之內(nèi)。這說(shuō)明我們的預(yù)測(cè)模型是成功的。從表2還可以看出,本預(yù)測(cè)模型所得預(yù)測(cè)性能與擬合性能較為接近,這說(shuō)明本模型還具有較強(qiáng)的泛化能力即預(yù)測(cè)穩(wěn)定性。此外,我們對(duì)樣本集中所有1282種有機(jī)化合物的預(yù)測(cè)相對(duì)誤差進(jìn)行了計(jì)算,所得預(yù)測(cè)平均相對(duì)誤差為1.984%,最大相對(duì)誤差為19.23%。詳細(xì)結(jié)果見(jiàn)附圖4。從圖4可以看出,預(yù)測(cè)相對(duì)誤差大于10%的化合物僅有21種,而預(yù)測(cè)相對(duì)誤差小于P/。的化合物有671種,超過(guò)樣本集中所有1282種化合物的一半。由此可見(jiàn),本發(fā)明基于支持向量機(jī)方法開(kāi)發(fā)的閃點(diǎn)預(yù)測(cè)模型是成功的,能夠被有效地應(yīng)用于預(yù)測(cè)未知化合物的閃點(diǎn)數(shù)據(jù)。表2.所建模型的主要性能參數(shù)<table>tableseeoriginaldocumentpage13</column></row><table>目前,國(guó)內(nèi)外所使用的閃點(diǎn)預(yù)測(cè)模型多是基于多元線(xiàn)性回歸、主成分回歸和神經(jīng)網(wǎng)絡(luò)方法而建立的。Suzuki等應(yīng)用主成分回歸方法針對(duì)400種有機(jī)物建立了閃點(diǎn)預(yù)測(cè)模型,該模型的預(yù)測(cè)平均絕對(duì)誤差為10.3。C。Tetteh等使用神經(jīng)網(wǎng)絡(luò)方法針對(duì)400種有機(jī)物建立了閃點(diǎn)預(yù)測(cè)模型,該模型的預(yù)測(cè)平均絕對(duì)誤差為10.2。C。Katritzky等分別應(yīng)用多元線(xiàn)性回歸和神經(jīng)網(wǎng)絡(luò)方法針對(duì)758有機(jī)物建立了相應(yīng)的閃點(diǎn)預(yù)測(cè)模型,所得平均絕對(duì)誤差分別為13.9Kand12.6K。Gharagheizi和Alamdari應(yīng)用基于遺傳算法的多元線(xiàn)性回歸技術(shù),針對(duì)1030種有機(jī)物建立了閃點(diǎn)預(yù)測(cè)模型,其預(yù)測(cè)平均絕對(duì)誤差為10.2K。上述預(yù)測(cè)模型與本發(fā)明所建模型的比較見(jiàn)表3。表3.本模型與已有模型的比較<table>tableseeoriginaldocumentpage14</column></row><table>從表3可以看出,與已有模型相比,本發(fā)明基于支持向量機(jī)方法建立的預(yù)測(cè)模型具有更高的預(yù)測(cè)精度。同時(shí),它建立在更大的樣本集基礎(chǔ)之上,因此具有更大的廣泛性和代表性。由此可見(jiàn),支持向量機(jī)方法作為一種新型的機(jī)器學(xué)習(xí)算法,由于具有強(qiáng)大的非線(xiàn)性映射能力和良好的泛化性能,在參數(shù)選擇合理、訓(xùn)練方法得當(dāng)?shù)那闆r下,是能夠充分表達(dá)有機(jī)化合物燃爆特性與其分子結(jié)構(gòu)基團(tuán)之間的復(fù)雜關(guān)系,從而建立有效的燃爆特性預(yù)測(cè)模型的。本發(fā)明未涉及部分均與現(xiàn)有技術(shù)相同或可采用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。權(quán)利要求1、一種基于支持向量機(jī)的有機(jī)化合物燃爆特性預(yù)測(cè)方法,其特征在于以有機(jī)化合物的分子基團(tuán)作為描述分子結(jié)構(gòu)特征的結(jié)構(gòu)描述符,實(shí)現(xiàn)分子結(jié)構(gòu)信息的參數(shù)化;利用支持向量機(jī)分別針對(duì)各燃爆特性與其結(jié)構(gòu)描述符之間的內(nèi)在定量關(guān)系進(jìn)行模擬,建立相應(yīng)的基于分子基團(tuán)的支持向量機(jī)預(yù)測(cè)模型;將需要預(yù)測(cè)的有機(jī)化合物的分子基團(tuán)作為輸入?yún)?shù)輸入所得的預(yù)測(cè)模型中即可得到相關(guān)燃爆特性值。2、根據(jù)權(quán)利要求l所述的預(yù)測(cè)方法,其特征是所述的支持向量機(jī)采用徑向基核vf(Ax》^exp(-rll;r-x,ilO作為支持向量機(jī)的核函數(shù);將樣本數(shù)據(jù)線(xiàn)性映射到[-l,l]區(qū)間,進(jìn)行歸一化處理;采用格點(diǎn)搜索方法確定支持向量機(jī)的最優(yōu)參數(shù),格點(diǎn)搜索的搜索方向?yàn)?留1/10法"交互檢驗(yàn)的最小均方根誤差(固SE);模型輸入?yún)?shù)分別對(duì)應(yīng)相應(yīng)的分子基團(tuán),輸出參數(shù)為相應(yīng)的燃爆特性。3、根據(jù)權(quán)利要求1所述的預(yù)測(cè)方法,其特征是所述的燃爆特性包括閃點(diǎn)、自燃點(diǎn)、爆炸極限、燃燒熱和撞擊感度。全文摘要一種基于支持向量機(jī)的有機(jī)化合物燃爆特性預(yù)測(cè)方法,它根據(jù)各種燃爆特性由其分子結(jié)構(gòu)決定的原理,利用反映分子結(jié)構(gòu)特征的各種結(jié)構(gòu)參數(shù)來(lái)描述有機(jī)物的燃爆特性。通過(guò)引入強(qiáng)大的機(jī)器學(xué)習(xí)算法支持向量機(jī)方法,可對(duì)有機(jī)物各燃爆特性與分子結(jié)構(gòu)間存在的非線(xiàn)性、不確定性和復(fù)雜性進(jìn)行有效的訓(xùn)練和預(yù)報(bào),從而建立穩(wěn)定、高效的預(yù)測(cè)模型。將建立的預(yù)測(cè)模型應(yīng)用于其他未知化合物燃爆特性的預(yù)測(cè),具有預(yù)測(cè)精度高、快捷方便的優(yōu)點(diǎn)。文檔編號(hào)G01N33/22GK101339180SQ200810022518公開(kāi)日2009年1月7日申請(qǐng)日期2008年8月14日優(yōu)先權(quán)日2008年8月14日發(fā)明者曹洪印,勇潘,睿王,蔣軍成申請(qǐng)人:南京工業(yè)大學(xué)