](5)該方法是學(xué)習(xí)成長型體系,隨著實踐樣本量和NIR光譜指紋數(shù)據(jù)庫的增加,可以不斷優(yōu)化或重建更穩(wěn)健的模型。
[0062]本發(fā)明建立了一套可靠的,實用性強的蕎麥、燕麥中小麥摻假的定性和定量方法,可以用于國家食品質(zhì)量與安全監(jiān)督管理部門,食品檢測分析實驗室,糧食生產(chǎn)和加工企業(yè)用于原料和產(chǎn)品質(zhì)量控制,以及打擊社會上的摻假和造假現(xiàn)象。
[0063]此外,本方法用NIR光譜指紋正面描繪蕎麥、燕麥和小麥的特征,因此除了小麥摻假,還能發(fā)現(xiàn)其他摻假引起的異常蕎麥或燕麥。另外雖然模型的建立較為費時,但實用中,NIR分析屬于快速和廉價的分析方法,甚至可以在現(xiàn)場操作,這是基于異種蛋白質(zhì)和基因鑒別類方法不可媲美的。
[0064]實例:
[0065]一、樣本的采集和制備
[0066]采集足夠量的燕麥、苦蕎、甜蕎和小麥面粉樣品;劃分為訓(xùn)練樣本集和驗證樣本集。樣品采集盡量具有代表性,覆蓋不同品種或品系、種植地域、種植季節(jié),但又不宜在一個農(nóng)場、一個季節(jié)、一個加工廠重復(fù)采集過多的同質(zhì)性樣品。面粉均為80目或100目以上細粉。
[0067]建立定量模型,需要分別配制燕麥和小麥、甜蕎和小麥的摻和樣品。盡可能多地收集不同品種或產(chǎn)品類型的燕麥、蕎麥和小麥,燕麥或蕎面隨機與一種小麥粉按照小麥粉0%(純甜蕎或燕麥)、10%、25%、50%、100% (純小麥)的比例進行混合,即得到一個系列的摻假比例梯度混合樣品(可以設(shè)置其他摻假比例和梯度)。
[0068]燕麥與小麥NIR光譜特征的差距遠大于甜蕎和小麥的差距,因此本申請以甜蕎和小麥為實例。苦蕎與小麥的差異也很大,且苦蕎米粒產(chǎn)品多,制備成面粉的產(chǎn)品很少,苦蕎中摻假小麥的可能性小,定性分析模型即可滿足現(xiàn)實需要,無必要建立定量模型。
[0069]二、NIR漫反射光譜的采集和特征光譜段的選擇
[0070]用近紅外光譜分析儀進行NIR全波長段漫反射光譜掃描。NIR光譜儀的掃描波長最好較為寬闊,與可見光譜和紅外光譜有適當?shù)闹丿B,如選擇可在800nm?2700nm波長區(qū)域掃描的機型,即研究型NIR分析儀為佳。經(jīng)研究發(fā)現(xiàn),可見光區(qū)對不同面粉的顏色和亮度敏感,但面粉的顏色和亮度與麥子的種類相關(guān)性不強,因此會增加模型的不穩(wěn)健性。實際多選用IlOOnm?2500nm的波長段來建立模型,因此適用的NIR光譜儀廠家、品牌和機型較多。無論是在800nm?2700nm全波段掃描光譜,還是在IlOOnm?2500nm段的光譜,不一定全部用于模型的建立,要選擇截取多個與麥類物種相關(guān)性密切的光譜波長段,才可建立對差異更加敏感的定量模型,這需要細致的數(shù)據(jù)結(jié)構(gòu)分析。
[0071]用化學(xué)計量學(xué)軟件對訓(xùn)練樣本集的光譜指紋數(shù)據(jù)結(jié)構(gòu)進行分析,往往要組合合適的光譜數(shù)據(jù)前處理(data processing)或轉(zhuǎn)換(data transform),還需要分析截取與樣品聚類相關(guān)性較大的波長段建立定性和定量模型。數(shù)據(jù)處理,如mean-centered、autoscale和pareto等等,是對各波長漫反射數(shù)據(jù)的處理,即對數(shù)據(jù)表(矩陣)列變量數(shù)據(jù)的處理;數(shù)據(jù)轉(zhuǎn)換,如標準正態(tài)變量變換(SNV)、傅立葉(Fourier)、一階或二階導(dǎo)數(shù)(lstor 2ndDerivative)轉(zhuǎn)換等等,是對各樣本全譜的處理,即對數(shù)據(jù)表行變量的處理。一些高檔的研究型NIR光譜儀所配備的工作站可能會提供多種光譜數(shù)據(jù)前處理和轉(zhuǎn)換模塊,但光譜指紋數(shù)據(jù)在專門的化學(xué)計量學(xué)軟件(如Pirouette)上處理比較方便,可以隨意組合不同的數(shù)據(jù)前處理、轉(zhuǎn)換、聚類和模式分析模塊進行數(shù)據(jù)結(jié)構(gòu)分析和模型構(gòu)建。
[0072]三、判別模型的建立和驗證
[0073]⑴化學(xué)計量學(xué)軟件
[0074]可采用各種專業(yè)化學(xué)計量學(xué)軟件,如美國Infometrix公司的化學(xué)計量學(xué)專業(yè)軟件Pirouette 4.5,該版組合了最流行的化學(xué)計量學(xué)分析模塊及數(shù)據(jù)預(yù)處理(Processing)和數(shù)據(jù)轉(zhuǎn)換(Transform)模塊。目前國際上有一些食品真實性的指紋鑒別研究(如Saskiavan Ruth等,荷蘭食品安全研究所RIKILT)方法的建立就是用這個軟件完成的。
[0075]也可采用國際和國內(nèi)同類化學(xué)計量學(xué)專業(yè)軟件,或采用MABLAB中的多變量統(tǒng)計學(xué)模塊?;瘜W(xué)計量學(xué)方法和軟件是一類實用且迅速發(fā)展演化的開放型方法和策略體系,各家開發(fā)的軟件演算和邏輯原理、實用界面都有各自的特性,甚至有個性。
[0076]⑵具體可采用的主要演算和建模模塊
[0077]可采用多種光譜數(shù)據(jù)結(jié)構(gòu)分析、聚類和判別分析軟件模塊。如主成分分析PCA,用于數(shù)據(jù)結(jié)構(gòu)特征分析、聚類情況分析,可行性預(yù)估,也可用于初步鑒別模型的建立;偏最小二乘分析(partial least squares,PLS)用于建立定量模型,偏最小二乘判別分析(PLS-DA),是一種基于PLS原理的定性判別模塊。也可以用軟獨立模式分類SnCA(softindependent modeling by class analogy,目前中文翻譯存在分歧,是一種基于PCA的判別分析模塊)和K最近鄰分析(k-NN)鑒定性分析模型。
[0078]⑶模型的驗證和優(yōu)化
[0079]用訓(xùn)練樣本集建立的定量或定性模型,需要驗證其判別的準確度。將驗證樣本集的NIR光譜指紋數(shù)據(jù)放入化學(xué)計量學(xué)軟件的數(shù)據(jù)庫中,用模型確定的數(shù)據(jù)前處理、轉(zhuǎn)換、光譜段截取、距離或相似度演算方法,或多變量線性模型進行數(shù)據(jù)處理和演算,根據(jù)參數(shù)軟件自動進行邏輯判斷或給出摻假量計算結(jié)果。用驗證樣本集樣本數(shù)量和正確判別結(jié)果數(shù)量計算判別的準確度。
[0080]驗證樣本集可劃分為內(nèi)部驗證樣本和外部驗證樣本。前者為建立模型時使用過的樣本,重新放入模型進行判別,結(jié)果應(yīng)該100%正確,否則模型不準確,不可實用;外部驗證樣本集為建立模型時未使用過的已知樣本集,理論上樣本量越大,驗證結(jié)果越準確。實踐中驗證可以不斷進行,如果模型對一些已知樣品有誤判,則應(yīng)將這些樣本納入訓(xùn)練樣本集,對模型進行優(yōu)化或重建。因此理論上本方法體系是一個不斷學(xué)習(xí)和升級的體系,但模型最終會達到一個最理想的狀態(tài)。尤其是一些指紋特征突出,分類不多的判別,如小麥和燕麥、蕎面的二分類判別,較容易達到100 %準確的判斷。
[0081]對多變量線性模型定量測定小麥摻假量來說,由于每一種麥類本身具有多樣性,如品系多、加工精度差異大(不同出粉率),因此對小麥摻假量定量測定的準確度不能期望太高,±10%以內(nèi)的準確度即可,譬如摻入一半小麥面粉的甜蕎面,測定結(jié)果可以在40%?60%之范圍內(nèi)。
[0082]⑷具體策略的補充說明
[0083]①甜蕎和燕麥的小麥摻假鑒別,是二分類鑒別,分別建立鑒別模型即可。定量模型用PLS建立,定性則PLS-DA會很準確,也可實用kNN、SIMCA和PCA等。
[0084]②關(guān)于數(shù)據(jù)前處理和轉(zhuǎn)換,波長段的截取,以及模型的選擇,遵循簡單的原則,驗證的原則。譬如本文實例,用原始數(shù)據(jù)進行PCA分析,即可劃分燕麥、苦蕎、甜蕎和小麥,因此就不必進行光譜數(shù)據(jù)的處理;PLS定量模型的建立中,對800nm?2700nm波長段沒有進行截取,即獲得了較為理想的定量分析模型。如果更細致的數(shù)據(jù)處理、波長截取、模塊參數(shù)選擇,沒有實質(zhì)性的提高模型的準確度則不必采用這類操作。復(fù)雜的步驟即便獲得更明朗或漂亮的模型,但在實際應(yīng)用中模型可能反而會不穩(wěn)定(如過分雕琢的弓弩,可能易裂折),因此需要經(jīng)過多次驗證和校正,并在實踐中不斷改進。
[0085]③異常樣品和過多同質(zhì)的樣品,會破壞模型的穩(wěn)健。因此異常樣品一定要剔除,或探明異常的原因;樣品采集盡量具有代表性,不宜從一個農(nóng)場、一個季節(jié)、一個加工廠采集過多的同質(zhì)性樣品。
[0086](5)模型的兼容性和升級
[0087]樣本原始NIR全波段光譜庫、通用模型和各二分類判別模型可以統(tǒng)一打包,可配合同廠家不同型號NIR光譜分析儀器使用。對另外廠家的NIR光譜指紋庫(與建模NIR光譜儀不同),需要額外的過濾軟件進行過濾處理,進行波長點對齊,使其具有兼容和一致性。
[0088](6)指紋數(shù)據(jù)庫和模型的成長性
[0089]該方法是學(xué)習(xí)成長型體系,隨著實踐樣本量和NIR光譜指紋數(shù)據(jù)庫的增加,可以不斷優(yōu)化或重建更穩(wěn)健的模型。
[0090]四、摻假的鑒別和摻加量的計算
[0091]掃描被檢樣品的NIR漫反射光譜指紋數(shù)據(jù),放入化學(xué)計量學(xué)軟件的數(shù)據(jù)庫中,選擇一種建好的模型,模型會自動對被檢樣品的光譜指紋進行模型固定方式的數(shù)據(jù)處理、轉(zhuǎn)換、光譜波長段截取,距離或相似度演算或定量計算,最后模型自動給出邏輯判斷結(jié)果或摻假量計算結(jié)果。
[0092]五、數(shù)據(jù)分析、建模和驗證舉例
[0093]5.1NIR光譜指紋的PCA分析
[0094]用甜蕎、苦蕎、燕麥、純小麥和摻入小麥的甜蕎(標記為甜蕎)組成訓(xùn)練樣本集,對原始NIR全波長段(800nm?2700nm)光譜進行主成分分析(PCA),結(jié)果見圖3A和圖3B。結(jié)果表明甜蕎、苦蕎、燕麥和小麥粉的NIR光譜指紋特性有顯著的差異,因此可