專利名稱:基于間隔偏最小二乘法的農(nóng)產(chǎn)品、食品近紅外光譜譜區(qū)選擇方法
技術(shù)領(lǐng)域:
本發(fā)明涉及利用近紅外光譜分析農(nóng)產(chǎn)品品質(zhì)食品的方法,特指基于間隔偏最小二乘法的農(nóng)產(chǎn)品、食品近紅外光譜譜區(qū)選擇方法。
背景技術(shù):
隨著近紅外光譜技術(shù)和化學(xué)計(jì)量方法的發(fā)展,近紅外光譜技術(shù)應(yīng)用到農(nóng)產(chǎn)品品質(zhì)、食品分析中越來越廣泛,近紅外光譜分析技術(shù)以其高速、精確,以及測(cè)量信號(hào)數(shù)字化和分析過程綠色化等特點(diǎn)使其成為上世紀(jì)九十年代以來發(fā)展最快、最引人注目的光譜分析技術(shù)。
近紅外光譜分析的應(yīng)用基礎(chǔ)理論是朗伯-比爾定律。事實(shí)上朗伯-比爾定律適用的條件是純的元素或化合物,而農(nóng)產(chǎn)品、食品這樣的多組分物質(zhì)的近紅外光譜吸收主要是分子的倍頻吸收和合頻吸收,吸收光譜中包含了十分豐富的多組分物質(zhì)的信息,由于多組分的相互干擾合光譜檢測(cè)中的隨機(jī)誤差都會(huì)嚴(yán)重影響分析檢測(cè)精度,因此簡(jiǎn)單地使用朗伯-比爾定律會(huì)產(chǎn)生很大的誤差,難以取得理想的效果。所以在近紅外光譜區(qū)選取信息的方法一直是制約近紅外光譜分析技術(shù)的主要原因之一。
大多數(shù)農(nóng)產(chǎn)品、食品的近紅外光譜的分析的總體走勢(shì)比較平緩,波峰和波谷沒有劇烈的起伏。單一波長(zhǎng)下獲得的光譜數(shù)據(jù)很難獲得準(zhǔn)確的分析模型,現(xiàn)代近紅外光譜數(shù)據(jù)的分析都是在多波長(zhǎng)下進(jìn)行的。圖示法和專家經(jīng)驗(yàn)選取波峰、波谷和組分特征波長(zhǎng)建立模型幾乎是不可能的?,F(xiàn)有的多元校正技術(shù)如主成分回歸(principalcomponentre-gression,簡(jiǎn)稱PCR)或偏最小二乘法(partialleastsquares,簡(jiǎn)稱PLS)對(duì)農(nóng)產(chǎn)品、食品近紅外光譜數(shù)據(jù)建立光譜預(yù)測(cè)模型時(shí),需要確定特定組分的特征波長(zhǎng)譜區(qū),減小建模和預(yù)測(cè)運(yùn)算時(shí)間,以及剔除噪聲污染過大的譜區(qū)等,都要面臨選擇合適的光譜譜區(qū)的問題。
發(fā)明內(nèi)容
為克服上述技術(shù)的不足,本發(fā)明的目的是提供一種基于間隔偏最小二乘法的農(nóng)產(chǎn)品近紅外光譜譜區(qū)選擇方法。
所述的基于間隔偏最小二乘法的農(nóng)產(chǎn)品近紅外光譜譜區(qū)選擇方法包括如下處理對(duì)去噪后的近紅外光譜,選取合適的特征光譜譜區(qū)的寬度,把所得的整個(gè)近紅外光譜分成若干個(gè)區(qū)間;然后對(duì)每個(gè)區(qū)間分別進(jìn)行PLS處理;通過比較正交檢驗(yàn)均方根誤差RMSECV和預(yù)測(cè)集均方根誤差RMSEP(Root Mean Square Error of Cross Validation/Prediction)得到每個(gè)區(qū)間的最佳PLS模型;同樣通過比較每個(gè)區(qū)間的最佳的PLS模型的RMSECV和RMSEP選取特征譜區(qū)區(qū)間。最后對(duì)所選取的特征波長(zhǎng)區(qū)間進(jìn)行PLS分析建立模型。
所述的去噪后近紅外光譜是指通過對(duì)原始光譜進(jìn)行適當(dāng)?shù)念A(yù)處理減少或消除各種光譜對(duì)光譜產(chǎn)生影響的因素,凈化后的光譜,并且該光譜包括一個(gè)校正集和一個(gè)預(yù)測(cè)集。
所述的合適特征光譜譜區(qū)寬度的選取方法有隨機(jī)選取法、等分法和移動(dòng)窗口法。
所述的隨機(jī)選取法,是根據(jù)經(jīng)驗(yàn)在整個(gè)光譜上隨機(jī)取n個(gè)點(diǎn),將光譜分成n+1個(gè)區(qū)間,各區(qū)間內(nèi)的光譜點(diǎn)個(gè)數(shù)不一定相等。
所述的等分法,是將整個(gè)光譜等分為n個(gè)區(qū)間,每個(gè)區(qū)間內(nèi)的光譜數(shù)據(jù)點(diǎn)個(gè)數(shù)相等。
所述的移動(dòng)窗口法包括以下步驟(1)選取一個(gè)起始的窗口寬度,通常為30~50個(gè)光譜數(shù)據(jù)的寬度;(2)在光譜軸上以步長(zhǎng)為一個(gè)光譜數(shù)據(jù)點(diǎn)地移動(dòng)該窗口,每次截取窗口寬度的光譜數(shù)據(jù);(3)對(duì)每個(gè)截取窗口內(nèi)的數(shù)據(jù)進(jìn)行PLS處理,并將每個(gè)窗口最佳PLS模型的正交檢驗(yàn)均方根誤差RMSECV和預(yù)測(cè)集均方根誤差RMSEP保存下來。
(4)然后讓窗口寬度增加10個(gè)光譜數(shù)據(jù),重復(fù)(2)、(3)步,直到RMSEP明顯隨窗口增大而最大時(shí)停止;(5)比較所有的RMSECV和RMSEP,當(dāng)RMSECV和RMSEP同時(shí)達(dá)到最小時(shí)的窗口寬度和光譜數(shù)據(jù)保存下來,此時(shí)的窗口寬度即為最終光譜譜區(qū)寬度,此時(shí)的光譜數(shù)據(jù)區(qū)間為最佳特征區(qū)間。
所述的選取特征譜區(qū)區(qū)間可以不止一個(gè),當(dāng)上面所述的最佳特征區(qū)間所建立的PLS模型精度不夠高時(shí),可以選取多個(gè)特征區(qū)間。
所述的多個(gè)特征區(qū)間的選取包括以下步驟(1)在最佳特征區(qū)間的兩邊,以上述最終光譜譜區(qū)寬度的窗口將整個(gè)光譜分成若干個(gè)區(qū)間;(2)對(duì)每個(gè)區(qū)間內(nèi)的數(shù)據(jù)進(jìn)行PLS建模,計(jì)算每個(gè)模型的RMSECV和RMSEP。
(3)將那些區(qū)間按RMSECV值從小到大排序。
(4)取(3)中排序后的第一個(gè)區(qū)間(也就是RMSECV和RMSEP平均值最小的區(qū)間)與最佳特征區(qū)間一共兩個(gè)區(qū)間內(nèi)數(shù)據(jù)進(jìn)行PLS建模,同時(shí)計(jì)算此時(shí)模型的RMSECV和RMSEP;(5)取(3)中排序后的前兩個(gè)區(qū)間與最佳特征區(qū)間一共三個(gè)個(gè)區(qū)間內(nèi)數(shù)據(jù)進(jìn)行PLS建模,同時(shí)計(jì)算此時(shí)模型的RMSECV和RMSEP;(6)繼續(xù)增加區(qū)間,直到所建立的PLS模型的RMSECV和RMSEP最小,而相關(guān)系數(shù)最大為止,則此時(shí)參與建模的區(qū)間為最終的特征區(qū)間。
由于本發(fā)明采用以上技術(shù)方案,得到以下效果
通過移動(dòng)窗口法解決了用近紅外光譜進(jìn)行農(nóng)產(chǎn)品品質(zhì)檢測(cè)建模時(shí)特征譜區(qū)寬度大小問題,可以方便的獲得特征光譜譜區(qū)的寬度和最佳的特征區(qū)間。通過交叉檢驗(yàn)均方差和預(yù)測(cè)均方差最小解決了多特征區(qū)間選擇的問題。通過特征區(qū)間的選取可以減小建模運(yùn)算時(shí)間,剔除噪聲過大的譜區(qū),使最終建立的農(nóng)產(chǎn)品品質(zhì)檢測(cè)近紅外光譜模型的預(yù)測(cè)能力和精度更高。
圖1處理過程流示意2經(jīng)去噪、中心化等預(yù)處理后的124個(gè)蘋果近紅外光譜數(shù)據(jù);圖3整個(gè)蘋果光譜分成40個(gè)區(qū)間,每個(gè)區(qū)間最佳PLS模型的RMSECV(斜體數(shù)字為PLS模型中變量的個(gè)數(shù)),圖中粗黑線為蘋果近紅外光譜形狀,虛線為整個(gè)光譜參與PLS建模的RMSECV;圖4選取第2、3、5、8、9、10、12、13、22區(qū)間的光譜數(shù)據(jù)建立iPLS模型;圖5移動(dòng)窗口寬度為72個(gè)光譜寬度時(shí)對(duì)蘋果糖度進(jìn)行近紅外建模,RMSCV隨窗口移動(dòng)時(shí)變換情況,圖中粗線為典型的蘋果近紅外光譜,虛線為整個(gè)光譜參與建模時(shí)的RMSCV;圖6最小RMSECV和RMSECP隨窗口寬度增大變化情況;圖7整個(gè)啤酒光譜分成20個(gè)區(qū)間,每個(gè)區(qū)間最佳PLS模型的RMSECV;圖8選取第10區(qū)間進(jìn)行啤酒數(shù)據(jù)的PLS建模情況具體實(shí)施方式
具體實(shí)施方式
結(jié)合以下兩個(gè)實(shí)施實(shí)例進(jìn)行說明。
實(shí)施實(shí)例1間隔偏最小二乘法對(duì)蘋果糖度近紅外分析光譜譜區(qū)選擇。
圖1為處理過程的示意圖,圖2為經(jīng)去噪、中心化等預(yù)處理后的124個(gè)蘋果近紅外光譜數(shù)據(jù),光譜范圍為4279~9843cm-1,每條光譜包括2886個(gè)數(shù)據(jù)點(diǎn),將其中78個(gè)蘋果的光譜數(shù)據(jù)作為預(yù)測(cè)集,46個(gè)蘋果光譜作為預(yù)測(cè)集。通過移動(dòng)窗口法選取合適的特征光譜譜區(qū)寬度為72個(gè)光譜點(diǎn),將整個(gè)光譜分為40個(gè)區(qū)間。對(duì)每個(gè)區(qū)間進(jìn)行PLS處理,每個(gè)區(qū)間最佳PLS模型的如圖3所示,選取其中第2、3、5、8、9、10、12、13、22區(qū)間的光譜進(jìn)行PLS建模,所得的結(jié)果如圖4。其中光譜寬度為72個(gè)光譜點(diǎn)是通過如下方法選取的選取初始窗口寬度為32個(gè)光譜數(shù)據(jù)的寬度;在光譜軸上以步長(zhǎng)為一個(gè)光譜數(shù)據(jù)點(diǎn)地移動(dòng)該窗口,每次截取32個(gè)光譜數(shù)據(jù);對(duì)每個(gè)截取窗口內(nèi)的數(shù)據(jù)進(jìn)行PLS處理,并將每個(gè)窗口最佳PLS模型的正交檢驗(yàn)最小均方根誤差RMSECV和預(yù)測(cè)集均方根誤差RMSEP保存下來;然后讓窗口寬度增加10個(gè)光譜數(shù)據(jù),即為42個(gè)光譜數(shù)據(jù)的寬度,重復(fù)(2)、(3)步,直到窗口寬度142個(gè)光譜點(diǎn)寬度停止;圖5在進(jìn)行蘋果糖度近紅外建模,移動(dòng)窗口寬度為72個(gè)光譜寬度時(shí),RMSCV隨窗口移動(dòng)時(shí)變換情況,圖中粗線為一條蘋果近紅外光譜,虛線為整個(gè)光譜參與建模時(shí)的RMSCV。
圖6為移動(dòng)窗口寬度由小到大變化時(shí),每次獲得的最小RMSECV、RMSEP變化情況。圖中RMSECV隨著窗口寬度的增大而減小,RMSEP開始時(shí)隨著窗口寬度的增大而減小,但隨后窗口繼續(xù)增大時(shí)RMSEP變大。由圖6可以看出窗口寬度72個(gè)光譜點(diǎn)時(shí)RMSEP達(dá)到最小。因此最佳窗口寬度為72個(gè)光譜點(diǎn)。
區(qū)間選擇是通過一下步驟實(shí)現(xiàn)的選取RMSECV最小的第12區(qū)間,在其數(shù)據(jù)上建立的PLS模型相關(guān)系數(shù)只有0.7,RMSCV=0.82,顯然模型不夠好;在第12區(qū)間的基礎(chǔ)上,加入第2區(qū)間,在兩個(gè)區(qū)間的數(shù)據(jù)上建立PLS模型,但結(jié)果還是不好,繼續(xù)增加區(qū)間,最終的特征區(qū)間確定的特征區(qū)間為2、3、5、8、9、10、12、13、22一共9個(gè)區(qū)間的數(shù)據(jù)。建立的PLS模型的相關(guān)系數(shù)達(dá)到0.8958,RMSECV=0.5892實(shí)施實(shí)例2間隔偏最小二乘法對(duì)啤酒近紅外分析光譜譜區(qū)的選擇。
對(duì)60個(gè)啤酒測(cè)試近紅外光譜樣本,光譜范圍為400~2250nm,每條光譜包括926個(gè)數(shù)據(jù)點(diǎn),將其中40個(gè)啤酒的光譜數(shù)據(jù)作為預(yù)測(cè)集,20個(gè)啤酒光譜作為預(yù)測(cè)集。通過移動(dòng)窗口法選取合適的特征光譜譜區(qū)寬度為41個(gè)光譜點(diǎn),將整個(gè)光譜分為20個(gè)區(qū)間。對(duì)每個(gè)區(qū)間進(jìn)行PLS處理,每個(gè)區(qū)間最佳PLS模型的如圖7所示,選取第10區(qū)間的數(shù)據(jù)進(jìn)行PLS建模,得到的結(jié)果如圖8所示,此時(shí)相關(guān)系數(shù)達(dá)到0.9981,RMSECV=0.151,精度已很好,因此iPLS最終確定的區(qū)間為第10區(qū)間,光譜范圍為1240~1330nm。
權(quán)利要求
1.基于間隔偏最小二乘法的農(nóng)產(chǎn)品、食品近紅外光譜譜區(qū)選擇方法,其特征是首先對(duì)去噪后的近紅外光譜,選取合適的特征光譜譜區(qū)的寬度,把所得的整個(gè)近紅外光譜分成若干個(gè)區(qū)間;然后對(duì)每個(gè)區(qū)間分別進(jìn)行PLS處理;通過比較正交檢驗(yàn)均方根誤差RMSECV和預(yù)測(cè)集均方根誤差RMSEP得到每個(gè)區(qū)間的最佳PLS模型;同樣通過比較每個(gè)區(qū)間的最佳的PLS模型的RMSECV和RMSEP選取特征譜區(qū)區(qū)間;最后對(duì)所選取的特征波長(zhǎng)區(qū)間進(jìn)行PLS分析建立模型。
2.根據(jù)權(quán)利要求1所述的選擇方法,其特征是所述的合適特征光譜譜區(qū)寬度的選取方法是隨機(jī)選取法、等分法或移動(dòng)窗口法。
3.根據(jù)權(quán)利要求1所述的選擇方法,其特征是所述的隨機(jī)選取法,是根據(jù)經(jīng)驗(yàn)在整個(gè)光譜上隨機(jī)取n個(gè)點(diǎn),將光譜分成n+1個(gè)區(qū)間,各區(qū)間內(nèi)的光譜點(diǎn)個(gè)數(shù)不一定相等。
4.根據(jù)權(quán)利要求1所述的選擇方法,其特征是所述的等分法,是將整個(gè)光譜等分為n個(gè)區(qū)間,每個(gè)區(qū)間內(nèi)的光譜數(shù)據(jù)點(diǎn)個(gè)數(shù)相等。
5.根據(jù)權(quán)利要求1所述的選擇方法,其特征是所述的移動(dòng)窗口法包括以下步驟(1)選取一個(gè)起始的窗口寬度,通常為30~50個(gè)光譜數(shù)據(jù)的寬度;(2)在光譜軸上以步長(zhǎng)為一個(gè)光譜數(shù)據(jù)點(diǎn)地移動(dòng)該窗口,每次截取窗口寬度的光譜數(shù)據(jù);(3)對(duì)每個(gè)截取窗口內(nèi)的數(shù)據(jù)進(jìn)行PLS處理,并將每個(gè)窗口最佳PLS模型的正交檢驗(yàn)均方根誤差RMSECV和預(yù)測(cè)集均方根誤差RMSEP保存下來;(4)然后讓窗口寬度增加10個(gè)光譜數(shù)據(jù),重復(fù)(2)、(3)步,直到RMSEP明顯隨窗口增大而最大時(shí)停止;(5)比較所有的RMSECV和RMSEP,當(dāng)RMSECV和RMSEP同時(shí)達(dá)到最小時(shí)的窗口寬度和光譜數(shù)據(jù)保存下來,此時(shí)的窗口寬度即為最終光譜譜區(qū)寬度,此時(shí)的光譜數(shù)據(jù)區(qū)間為最佳特征區(qū)間。
6.根據(jù)權(quán)利要求1所述的選擇方法,其特征是所述的多個(gè)特征區(qū)間的選取包括以下步驟(1)在最佳特征區(qū)間的兩邊,以上述最終光譜譜區(qū)寬度的窗口將整個(gè)光譜分成若干個(gè)區(qū)間;(2)對(duì)每個(gè)區(qū)間內(nèi)的數(shù)據(jù)進(jìn)行PLS建模,計(jì)算每個(gè)模型的RMSECV和RMSEP;(3)將那些區(qū)間按RMSECV值從小到大排序;(4)取(3)中排序后的第一個(gè)區(qū)間(也就是RMSECV和RMSEP平均值最小的區(qū)間)與最佳特征區(qū)間一共兩個(gè)區(qū)間內(nèi)數(shù)據(jù)進(jìn)行PLS建模,同時(shí)計(jì)算此時(shí)模型的RMSECV和RMSEP;(5)取(3)中排序后的前兩個(gè)區(qū)間與最佳特征區(qū)間一共三個(gè)個(gè)區(qū)間內(nèi)數(shù)據(jù)進(jìn)行PLS建模,同時(shí)計(jì)算此時(shí)模型的RMSECV和RMSEP;(6)繼續(xù)增加區(qū)間,直到所建立的PLS模型的RMSECV和RMSEP最小,而相關(guān)系數(shù)最大為止,則此時(shí)參與建模的區(qū)間為最終的特征區(qū)間。
全文摘要
本發(fā)明涉及利用近紅外光譜分析農(nóng)產(chǎn)品品質(zhì)食品的方法,其首先對(duì)去噪后的近紅外光譜,選取合適的特征光譜譜區(qū)的寬度,把所得的整個(gè)近紅外光譜分成若干個(gè)區(qū)間;然后對(duì)每個(gè)區(qū)間分別進(jìn)行PLS處理;通過比較正交檢驗(yàn)均方根誤差RMSECV和預(yù)測(cè)集均方根誤差RMSEP得到每個(gè)區(qū)間的最佳PLS模型;同樣通過比較每個(gè)區(qū)間的最佳的PLS模型的RMSECV和RMSEP選取特征譜區(qū)區(qū)間。最后對(duì)所選取的特征波長(zhǎng)區(qū)間進(jìn)行PLS分析建立模型。其優(yōu)點(diǎn)是通過移動(dòng)窗口法可以方便的獲得特征光譜譜區(qū)的寬度和最佳的特征區(qū)間。通過特征區(qū)間的選取可以減小建模運(yùn)算時(shí)間,剔除噪聲過大的譜區(qū),使最終建立的農(nóng)產(chǎn)品品質(zhì)檢測(cè)近紅外光譜模型的預(yù)測(cè)能力和精度更高。
文檔編號(hào)G06F19/00GK1657907SQ200510038528
公開日2005年8月24日 申請(qǐng)日期2005年3月23日 優(yōu)先權(quán)日2005年3月23日
發(fā)明者趙杰文, 鄒小波, 黃星奕 申請(qǐng)人:江蘇大學(xué)