專利名稱::基于關(guān)聯(lián)規(guī)則的卷煙配方維護行為挖掘系統(tǒng)及其方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng)及其方法。
背景技術(shù):
:巻煙產(chǎn)品的風(fēng)格是消費者選購巻煙的重要依據(jù)。從消費者角度來看,巻煙的風(fēng)格包括勁頭、巻煙的留香、口腔的感受和煙氣的濃度及走勢。保持巻煙風(fēng)格的相對穩(wěn)定性是建立品牌的基本要求。巻煙風(fēng)格的保持受許多主客觀因素的影響,其中最重要的就是保持葉組配方的相對穩(wěn)定性。由于不同地區(qū),不同檔次和部位的煙葉的化學(xué)成分相差較大,對巻煙產(chǎn)品的質(zhì)量影響也是最大的,只有葉組配方的相對穩(wěn)定,才能保證一個品牌煙的風(fēng)格穩(wěn)定。實際生產(chǎn)中由于原材料的生產(chǎn)量有限,供應(yīng)量和實際需求量存在差距,所以當葉組配方中一種煙葉或幾種煙葉出現(xiàn)庫存短缺或價格、質(zhì)量方面的波動時,需要用另一種品質(zhì)特征近似的煙葉來替換。因此尋找與這些煙葉在品質(zhì)特征上最能接近的替代煙葉,而使整個產(chǎn)品的質(zhì)量不受影響,保持該品牌巻煙質(zhì)量的相對穩(wěn)定性就成了研究的關(guān)鍵問題。近年來,許多巻煙配方研究人員致力于研究一種快速選擇替代煙葉的方法。目前常見的方法有兩種,一種是根據(jù)經(jīng)驗選擇產(chǎn)地、等級接近的煙葉作為替代煙葉;另一種是以檢測的常規(guī)化學(xué)成分、煙氣成分為依據(jù),利用層次聚類法建立煙葉的分類模型,通過建立的模型對需要替代的煙葉找出其相對優(yōu)化的替代品。第一種方法的缺陷是替代效率低,往往需要多次調(diào)試才能成功;第二種方法是檢測工作需要耗費大量的人力、物力和材料,而且煙葉中的化學(xué)成分多達上千種,目前己檢測的化學(xué)成分只占少數(shù),難以說明煙葉質(zhì)量的相似性。這兩種方法的共同缺點是沒有考慮替代煙葉的協(xié)同互補性,單純只依靠某種方法,難以實現(xiàn)葉組的最優(yōu)搭配。巻煙葉組配方中煙葉的協(xié)同互補性又很難用語言描述,這些規(guī)律都隱含在歷史的葉組配方維護數(shù)據(jù)中。在歷史配方數(shù)據(jù)中,積累了很多煙葉組合的規(guī)律,充分挖掘這些規(guī)律中煙葉的搭配和協(xié)同信息,可以直接有效的指導(dǎo)實際的配方維護。關(guān)聯(lián)規(guī)則算法是一種很好的挖掘煙葉間組合和搭配的方法。關(guān)聯(lián)規(guī)則挖掘是一種應(yīng)用廣泛的機器學(xué)習(xí)技術(shù),它運用統(tǒng)計原理,在海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項之間的關(guān)系,1993年Agrawal等人首先提出了交易數(shù)據(jù)庫中不同商品之間的關(guān)聯(lián)規(guī)則挖掘,并逐漸被改進優(yōu)化。目前關(guān)聯(lián)規(guī)則挖掘技術(shù)己經(jīng)被廣泛應(yīng)用在金融行業(yè)的客戶需求和銷售領(lǐng)域的購物籃分析中。但把關(guān)聯(lián)規(guī)則應(yīng)用到工業(yè)生產(chǎn)和煙草產(chǎn)品配方維護中還沒有先例。關(guān)聯(lián)規(guī)則挖掘問題可以分為發(fā)現(xiàn)頻繁項目集和生成關(guān)聯(lián)規(guī)則兩個子問題,其中發(fā)現(xiàn)所有的頻繁項集是生成關(guān)聯(lián)規(guī)則的基礎(chǔ)。
發(fā)明內(nèi)容本發(fā)明的目的就是為克服傳統(tǒng)巻煙葉組配方維護方法的弊端,提供一種能夠充分利用巻煙企業(yè)所積累的歷史數(shù)據(jù),將葉組配方數(shù)據(jù)中隱含的多位巻煙配方專家維護配方時的行為規(guī)律提取為規(guī)則表示形式,并且全面地考慮煙葉間的優(yōu)化組合,更高效、實際地指導(dǎo)巻煙產(chǎn)品的配方維護,達到保持巻煙產(chǎn)品配方的相對穩(wěn)定性的目的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng)及其方法。為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案-一種基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),它包括數(shù)據(jù)庫服務(wù)器和數(shù)據(jù)挖掘客戶端,其中數(shù)據(jù)挖掘客戶端包括可視化展示工具,該可視化展示工具與數(shù)據(jù)展示處理模塊和結(jié)果展示模塊連接;數(shù)據(jù)展示處理模塊與數(shù)據(jù)連接模塊連接,數(shù)據(jù)連接模塊提供各種不同數(shù)據(jù)類型格式數(shù)據(jù)源的連接,生成挖掘算法可以直接使用的數(shù)據(jù)庫,提供數(shù)據(jù)對象訪問的接口;結(jié)果展示模塊與挖掘處理模塊連接,挖掘處理模塊分別與模型庫模塊、模型評估模塊和數(shù)據(jù)連接模塊連接;數(shù)據(jù)連接模塊則與身份驗證處理模塊和數(shù)據(jù)庫服務(wù)器中的數(shù)據(jù)源連接,同時身份驗證處理模塊與數(shù)據(jù)庫服務(wù)器中的權(quán)限數(shù)據(jù)庫連接,身份驗證處理模塊通過用戶名和密碼驗證用戶的合法性。所述可視化展示工具和結(jié)果展示模塊通過直方圖、點線圖、表格形式直觀展示處理結(jié)果。所述挖掘處理模塊提供關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法,設(shè)定、修改關(guān)聯(lián)規(guī)則算法的參數(shù),執(zhí)行用戶提交的數(shù)據(jù)挖掘任務(wù)。所述模型評估模塊利用不同挖掘模型對測試數(shù)據(jù)進行挖掘分析,對結(jié)果進行評估,根據(jù)評估結(jié)果選擇相應(yīng)的挖掘模型進行數(shù)據(jù)挖掘。一種基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng)的使用方法,包括以下步驟St印l:進入系統(tǒng)啟動系統(tǒng),輸入用戶名和密碼,進行用戶身份驗證;用戶名密碼正確,則通過驗證,進入系統(tǒng);用戶名或密碼不正確,則退出系統(tǒng);St印2:設(shè)置數(shù)據(jù)庫,導(dǎo)入巻煙葉組配方數(shù)據(jù);該系統(tǒng)對不同服務(wù)器上的數(shù)鋸庫進行模型的建立和輸入,選擇服務(wù)器連接和數(shù)據(jù)庫數(shù)據(jù)源;導(dǎo)入數(shù)據(jù)庫中的巻煙葉組配方數(shù)據(jù),作為關(guān)聯(lián)規(guī)則模型的訓(xùn)練數(shù)據(jù);St印3:建立頻繁煙葉組合模型巻煙生產(chǎn)中,不同檔次的巻煙其用料不同,煙葉組合使用情況也不同;要挖掘煙葉搭配使用的規(guī)律,找到頻繁煙葉組合模型,必須按檔次進行劃分;然后分別對高檔煙,中檔煙和低檔煙建立關(guān)聯(lián)規(guī)則模型;(1)指定導(dǎo)入的歷史巻煙配方數(shù)據(jù)為關(guān)聯(lián)規(guī)則模型的訓(xùn)練數(shù)據(jù);(2)設(shè)置算法參數(shù):MAXIMUM—ITEMSET一COUN(最大項集個數(shù))指定要生成的最大項集個數(shù);MAXIMUM—ITEMSET_SIZE(最大項集大小)指定一個項集中允許的最大項數(shù);MAXIMUM—SUPPORT(最大支持度)指定可包含某項集的最大事例數(shù);MINIMUM—IMPORTANCE(最小重要性)指定關(guān)聯(lián)規(guī)則的重要性閾值;重要性低于此值的規(guī)則將被篩選出去;MINIMUM—ITEMSET—SIZE(最小項集大小)指定一個項集中允許的最小項數(shù);MINIMUX—PROBABILITY(最小概率)指定規(guī)則為True的最小概率;MINIMUM_SUPPORT(最小支持度)指定包含該項集的最小事例數(shù);(3)調(diào)用關(guān)聯(lián)規(guī)則算法訓(xùn)練模型,得出當前頻繁煙葉組合模型;St印4:建立煙葉替換規(guī)則模型(1)導(dǎo)入數(shù)據(jù)庫中的煙葉替換記錄的數(shù)據(jù);(2)設(shè)置關(guān)聯(lián)規(guī)則算法參數(shù)MAXIMUM—SUPPORT(最小支持度);用替換前煙葉作為輸入,替換后煙葉作為輸出;(3)調(diào)用關(guān)聯(lián)規(guī)則算法訓(xùn)練模型,得出煙葉替換規(guī)則;St印5:推薦最佳替換煙葉根據(jù)上述的St印3和St印4,已經(jīng)產(chǎn)生了頻繁煙葉組合模型和煙葉替換規(guī)則模型;輸入巻煙的檔次信息和煙葉名稱以及推薦個數(shù),調(diào)用關(guān)聯(lián)規(guī)則算法建立的上述兩個葉組配方維護行為挖掘模型;系統(tǒng)自動輸出可作為替代煙葉的方案,并給出重要性值.St印6:頻繁煙葉組合模型和煙葉替換規(guī)則模型性能評價應(yīng)用計算煙葉替代實例的預(yù)測正確率來評價基于關(guān)聯(lián)規(guī)則算法訓(xùn)練后建立的頻繁煙葉組合模型和煙葉替換規(guī)則模型的性能;如將IO個己有煙葉調(diào)整方案的巻煙葉組配方作為測試樣本,將實際替代煙葉與模型給出的替代煙葉進行對比,正確率未達到設(shè)定值,則轉(zhuǎn)到St印3,并且'調(diào)整模型參數(shù)MINIMUM—SUPPORT(最小支持度),MINIMUX—PROBABILITY(最小概率);當正確率達到要求,則將轉(zhuǎn)到步驟St印7保存所述模型;St印7:保存頻繁煙葉組合模型和煙葉替換規(guī)則模型通過St印6模型性能評價后,保存建立的煙葉頻繁項集模型和煙葉替換規(guī)則模型到數(shù)據(jù)庫中,以應(yīng)用于今后的葉組配方維護過程中;并展示挖掘出的頻繁煙葉組合規(guī)則和煙葉替換關(guān)系的規(guī)則。本發(fā)明的有益效果是1.按照本發(fā)明所提供的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),可以快速、準確、自動地實現(xiàn)煙葉替代。2.按照本發(fā)明所提供的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),數(shù)據(jù)可視化展現(xiàn)模塊和挖掘結(jié)果展示模塊的數(shù)據(jù)展示,可以通過直方圖、點線圖、表格形式直觀展示。3.按照本發(fā)明所提供的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),克服了傳統(tǒng)替代方法不能直接用于葉組配方中替代煙葉只考慮單一因素的弊端。4.按照本發(fā)明所提供的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),克服了傳統(tǒng)替代方法忽略了歷史數(shù)據(jù),造成大量的有實用價值的配方技巧得不到充分利用的缺陷。系統(tǒng)提供的方法不需要事先得到各類型煙葉化學(xué)成分的要求,從而簡化了問題的復(fù)雜性,增強了應(yīng)用的可行性。降低了配方維護和煙葉替代的難度,對科學(xué)、高效地進行巻煙產(chǎn)品開發(fā)設(shè)計,提高工作效率,增強巻煙生產(chǎn)的穩(wěn)定性,提高企業(yè)市場競爭力,引導(dǎo)其更快、更好的發(fā)展具有重要的現(xiàn)實意義。5.按照本發(fā)明所提供的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),對巻煙行業(yè)中不同煙葉間協(xié)同互補關(guān)系的分析研究及不同煙葉類型間的優(yōu)化組合和替代關(guān)系提供準確、高效的決策支持,達到了.保持品牌^i葉配方穩(wěn)定的目的。圖l本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖;圖2本發(fā)明系統(tǒng)的使用流程其中,1.數(shù)據(jù)庫服務(wù)器,2.數(shù)據(jù)挖掘客戶端,3.可視化展示工具,4.數(shù)據(jù)展示處理模塊,5.結(jié)果展示模塊,6.數(shù)據(jù)達接模塊,7.挖掘處理模塊,8.模型庫模塊,9.模型評估模塊,10.身份驗證處理模塊,11.數(shù)據(jù)源,12.權(quán)限數(shù)據(jù)庫,13.模型預(yù)測模塊具體實施例方式本發(fā)明提出了一種圍繞數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的巻煙配方維護系統(tǒng)。本系統(tǒng)較完善的實施了煙葉配方的數(shù)據(jù)挖掘維護功能。該系統(tǒng)客戶端運行于windows平臺,服務(wù)器采用SQLSERVER數(shù)據(jù)庫系統(tǒng)。本發(fā)明的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng)主要包括兩大內(nèi)容,內(nèi)容一巻煙配方維護的基于關(guān)聯(lián)規(guī)則的煙葉替換算法內(nèi)容二巻煙配方維護的應(yīng)用系統(tǒng)首先,本發(fā)明構(gòu)造了一個基于C/S模式的數(shù)據(jù)挖掘系統(tǒng),它主要包括數(shù)據(jù)庫服務(wù)器和數(shù)據(jù)挖掘客戶端??蛻舳颂峁┮粋€用戶界面交互窗口,接受用戶的輸入信息、提供挖掘過程的交互界面和展示挖掘分析結(jié)果,其特征在于包含以下幾個模塊,其系統(tǒng)結(jié)構(gòu)圖見附圖l:該系統(tǒng)包括數(shù)據(jù)庫服務(wù)器1和數(shù)據(jù)挖掘客戶端2,數(shù)據(jù)服務(wù)器1提供模型處理的數(shù)據(jù)源11及用戶的權(quán)限數(shù)據(jù)庫12。數(shù)據(jù)源11為模型的處理及評估提供數(shù)據(jù)支持,權(quán)限數(shù)據(jù)庫12中保存了用戶的角色、用戶名、用戶組名及密碼,在一定程度上保證了數(shù)據(jù)庫的安全性。數(shù)據(jù)挖掘客戶端2提供一個用戶界面交互窗口,接受用戶的輸入信息、提供挖掘過程的交互界面和展示挖掘分析結(jié)果,其中數(shù)據(jù)挖掘客戶端2具體包含身份驗證處理模塊10、數(shù)據(jù)連接模塊6、數(shù)據(jù)展示處理模塊4、挖掘處理模塊7、模型評估模塊9、結(jié)果展示模塊5等功能模塊。身份驗證處理模塊10提供系統(tǒng)中的角色、用戶、用戶組的定義及各自權(quán)限的管理,保證了數(shù)據(jù)庫的安全訪問。角色管理,用于定義系統(tǒng)的角色和相應(yīng)的角色權(quán)限。用戶管理,用于定義系統(tǒng)的用戶及相應(yīng)的用戶權(quán)限。用戶組管理,用于定義系統(tǒng)的用戶組及相應(yīng)的權(quán)限。數(shù)據(jù)連接模塊6:提供各種不同數(shù)據(jù)類型格式數(shù)據(jù)源的連接,生成挖掘算法可以直接使用的數(shù)據(jù)庫,提供數(shù)據(jù)對象訪問的接口。數(shù)據(jù)展示處理模塊4:運用統(tǒng)計學(xué)知識,將要處理數(shù)據(jù)的特性以直觀的形勢展示給用戶,使用戶對該部分數(shù)據(jù)有初步整體的認識和把握。挖掘處理模塊7:本系統(tǒng)提供關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘處理算法,可以根據(jù)具體的挖掘要求設(shè)定、修改算法的參數(shù),對數(shù)據(jù)源提供的數(shù)據(jù)進行多種模型的挖掘,建立適合本任務(wù)的挖掘模型。模型評估模塊9:利用不同挖掘模型對測試數(shù)據(jù)進行挖掘分析,對結(jié)果進行評估,根據(jù)評估結(jié)果選擇相應(yīng)的挖掘模型進行數(shù)據(jù)挖掘。結(jié)果展示模塊5:提供直觀的、圖形化的展示工具對挖掘的結(jié)果進行展示。巻煙配方維護的應(yīng)用系統(tǒng)的使用步驟如下,其使用流程圖見附圖2:Stepl:進入系統(tǒng);Step2:設(shè)置數(shù)據(jù)庫,導(dǎo)入巻煙葉組配方數(shù)據(jù);Step3:建立頻繁煙葉組合模型;Step4:建立煙葉替換規(guī)則模型;Step5:推薦最佳替換煙葉;Step6:頻繁煙葉組合模型和煙葉替換規(guī)則模型性能評價;Step7:保存頻繁煙葉組合模型和煙葉替換規(guī)則模型;結(jié)合系統(tǒng)流程圖(附圖2),系統(tǒng)結(jié)構(gòu)圖(附圖l)和應(yīng)用實例,說明其具體實施過程如下St印l:進入系統(tǒng)啟動系統(tǒng),輸入用戶名和密碼,進行用戶身份驗證。用戶名密碼正確,則通過驗證,進入系統(tǒng)。用戶名或密碼不正確,則退出系統(tǒng)。該步與系統(tǒng)結(jié)構(gòu)圖(附圖l)中的權(quán)限數(shù)據(jù)庫12和身份驗證處理10兩個模塊相對應(yīng).St印2:設(shè)置數(shù)據(jù)庫實際使用過程中,用戶可能改變存放煙葉配方數(shù)據(jù)的數(shù)據(jù)庫所在的服務(wù)器,該系統(tǒng)可以進行不同數(shù)據(jù)服務(wù)器和數(shù)據(jù)源的選擇,此處選擇服務(wù)器連接和數(shù)據(jù)庫數(shù)據(jù)源。該步與系統(tǒng)結(jié)果圖(附圖l)中的數(shù)據(jù)源11和數(shù)據(jù)連接模塊6兩個模塊相對應(yīng).St印3:建立頻繁煙葉組合模型巻煙生產(chǎn)中,不同的檔次的煙的用料不同,煙葉組合使用情況也不同。要挖掘煙葉搭配使用的規(guī)律,找到頻繁煙葉組合模型,必須按檔次進行劃分。然后分別對高檔煙,中檔煙和低檔煙建立關(guān)聯(lián)規(guī)則模型。(l)在數(shù)據(jù)庫中,歷史巻煙配方的數(shù)據(jù)表的結(jié)構(gòu)及說明如下:<table>tableseeoriginaldocumentpage10</column></row><table>在使用關(guān)聯(lián)規(guī)則算法時,用版本號作為算法輸入的主鍵,煙葉名稱即為輸入屬性,也為輸出屬性。(2)設(shè)置算法參數(shù)'MAXIMUM_ITEMSET—COUN(最大項集數(shù))指定要生成的頻繁煙葉組合的最大項集數(shù)。如果不加以指定,算法將生成所有可能的項集。MAXIMUMJTEMSET—SIZE(最大項集大小)指定一個頻繁煙葉項集中允許的最多的煙葉個數(shù)。MAXIMUM—SUPPORT(最大支持度)指定可包含某頻繁煙葉項集的最大事例數(shù)。如果此值小于1,則表示該值在總事例中所占的百分比。如果大于1,則表示可包含該項集的事例的絕對數(shù)。MINIMUM—IMPORTANCE(最小重要性)指定關(guān)聯(lián)規(guī)則的重要性閾值。重要性低于此值的規(guī)則將被篩選出去。MINIMUM—ITEMSET—SIZE(最小項集大小)指定一個頻繁煙葉項集中允許的最少煙葉的個數(shù)。MINIMUX—PROBABILITY(最小概率)指定規(guī)則為True的最小概率。例如,如果將該值設(shè)置為0.5,則指定不生成概率低于50%的規(guī)則。MINIMUM—SUPPORT(最小支持度)指定包含某頻繁煙葉項集的最小記錄數(shù),只有達到該數(shù)目,才能生成規(guī)則。如果將該值設(shè)置為小于1的數(shù),則最小事例數(shù)將通過其在總事例數(shù)中所占的百分比來加以指定。如果將該值設(shè)置為大于1的整數(shù),則指定最小事例數(shù)為必須包含該項集的事例絕對數(shù)。如果內(nèi)存有限,算法會增大此參數(shù)的值。(3)調(diào)用關(guān)聯(lián)規(guī)則算法訓(xùn)練模型,得出如下關(guān)聯(lián)模型"支持"是滿足當前頻繁煙葉模式的在一起使用的次數(shù),"大小"是指當前頻繁項集的大小。"項集"是當前頻繁項集的煙葉組合。如系統(tǒng)給出這樣的一個關(guān)聯(lián)模型:支持為19,大小為2,項集為復(fù)烤云南省紅河UBF1片煙05年1批煙葉和復(fù)烤云南省紅河A-C3F片煙04年1批煙葉。它表明,復(fù)烤云南省紅河UBF1片煙05年1批煙葉和復(fù)烤云南省紅河A-C3F片煙04年1批煙葉作為一個頻繁二項集,它們有19次一起搭配使用的歷史記錄。St印4:建立煙葉替換規(guī)則模型.(1)數(shù)據(jù)庫中,保存煙葉替換記錄的部分表結(jié)構(gòu)及說明如下:<table>tableseeoriginaldocumentpage11</column></row><table>運用關(guān)聯(lián)規(guī)則算法,用替換前煙葉作為輸入,替換后煙葉作為輸出。(2)設(shè)置關(guān)聯(lián)規(guī)則算法參數(shù)設(shè)置關(guān)聯(lián)規(guī)則算法參數(shù),具體參數(shù)細節(jié)如Step3所說明。設(shè)定如下MINIMUM_SUPPORT=0.03,MINIMUM—IMPORTANCE=l.2,MINIMUM—ITEMSETSIZE=0;(3)調(diào)用關(guān)聯(lián)規(guī)則算法訓(xùn)練模型,得出如下煙葉替換規(guī)則-"重要性"是指該規(guī)則的可靠程度。規(guī)則形式如"調(diào)整前煙葉名稱-2005年巴西復(fù)烤煙->調(diào)整后煙葉名稱->2004年巴西復(fù)烤煙L10CT,重要性為1.74","調(diào)整前煙葉名稱=2005年云南省曲靖復(fù)烤煙C2&調(diào)整后煙葉名稱》2006年云南省曲靖羅平復(fù)烤煙C2F,重要性為1.45"。該規(guī)則說明關(guān)聯(lián)規(guī)則算法挖掘出使用2004年巴西復(fù)烤煙L10CT的煙替換2005年巴西復(fù)烤煙的煙。系統(tǒng)得到多條煙葉替換規(guī)則,重要性越大,說明該規(guī)則越有使用價值。St印5:推薦最佳替換煙葉根據(jù)上述的Step3和Step4,己經(jīng)產(chǎn)生了頻繁煙葉組合模型和煙葉替換規(guī)則。首先輸入一個預(yù)替換煙葉的檔次信息和煙葉名稱以及推薦個數(shù)。利用改進的關(guān)聯(lián)規(guī)則法建立的葉組配方維護行為挖掘模型,根據(jù)需要調(diào)整煙葉的某個檔次的巻煙牌號,輸出替代煙葉的規(guī)則。如選擇某個牌號巻煙為中檔類型,其中2005年巴西復(fù)烤煙MDC/S煙因為庫存短缺需要調(diào)整。當設(shè)置推薦條數(shù)為2時,系統(tǒng)給出兩個可選擇的替代煙葉,并給出重要性值。對"2005年巴西復(fù)烤煙MDC/S"煙葉,推薦了兩個替換煙葉"2004年巴西復(fù)烤煙L10CT,重要性1.736;2006年玉溪1復(fù)烤煙,重要性1.435"。其中"2004年巴西復(fù)烤煙L10CT"的重要性比"2006年玉溪1復(fù)烤煙"高,說明2004年巴西復(fù)烤煙L10CT更適合替換"2005年巴西復(fù)烤煙MDC/S"煙葉。Step3,Step4,Step5三步與系統(tǒng)結(jié)構(gòu)圖(附圖I)中挖掘處理模塊7、模型庫模塊8和結(jié)果展示模塊5三個模塊相對應(yīng)。St印6:頻繁煙葉組合模型和煙葉替換規(guī)則模型性能評價采用實例預(yù)測正確率來評價采用改進的關(guān)聯(lián)規(guī)則算法訓(xùn)練后建立的模型性能。如將10個已有煙葉調(diào)整方案的巻煙葉組配方作為測試樣本,將實際替代煙葉與模型給出的替代煙葉進行對比,正確率未達到80%,則轉(zhuǎn)到Step3,并且調(diào)整模型參數(shù)如MINIMUM—SUPPORT(最小支持度),MINIMUX—PROBABILITY(最小概率)每次增長0.05。當正確率達到要求,則將挖掘出的煙葉替代關(guān)聯(lián)規(guī)則模型保存。該步與系統(tǒng)結(jié)果圖(附圖1)中模型評估9模塊對應(yīng)。St印7:保存頻繁煙葉組合模型和煙葉替換規(guī)則模型保存建立的煙葉頻繁項集模型和煙葉替換規(guī)則模型到數(shù)據(jù)庫中,以應(yīng)用于今后的葉組配方維護過程中;并展示挖掘出的規(guī)則。該步與系統(tǒng)結(jié)果圖(附圖1)中結(jié)果展示5模塊對應(yīng)。其次,巻煙配方維護行為挖掘系統(tǒng)的基于關(guān)聯(lián)規(guī)則的煙葉替換算法的步驟如下Stepl:運用關(guān)聯(lián)規(guī)則算法,按檔次、牌號挖掘巻煙配方中的頻繁項集即頻繁煙葉組合;Step2:利用歷史配方替換調(diào)整數(shù)據(jù),產(chǎn)生煙葉替代規(guī)則;St鄰3:給出一個煙葉和檔次信息,利用上述建立的兩個模型,推薦最佳替換煙葉;所述巻煙配方維護行為挖掘系統(tǒng)的關(guān)聯(lián)規(guī)則算法技術(shù)方案的Stepl的具體技術(shù)方案如下系統(tǒng)將歷史數(shù)據(jù)中所有的葉組配方數(shù)據(jù)從數(shù)據(jù)庫導(dǎo)入,配方中的煙葉數(shù)據(jù)既作為輸入,又作為輸出。利用改進的關(guān)聯(lián)規(guī)則算法,找到煙葉的頻繁項集,即煙葉的頻繁使用組合。(1)關(guān)聯(lián)規(guī)則算法原理將所研宄的數(shù)據(jù)記錄集表示成為/={/1,/2,...力}(£1為正整數(shù),d大于等于l)是數(shù)據(jù)中所有記錄的集合,其中ihi2......id分別表示記錄集I中的一條記錄,事物集r=化力W(d為正整數(shù),d大于等于l)是所有事務(wù)的集合,其中ta2......td分別表示事物集T中的一個事務(wù),每個事務(wù)tk(k大于等于1,小于等于d)包含的項集都是/的子集,即t產(chǎn)&,i2,i4…)。在關(guān)聯(lián)分析中,包含0個或多個項的集合被稱為項集。如果一個項集包含;t個項,則稱它為/t項集。以分析頻繁煙葉組合的數(shù)據(jù)為例,則數(shù)據(jù)集I特指煙葉配方記錄數(shù)據(jù)表的所有記錄,h,i2,…分別指煙葉配方記錄數(shù)據(jù)集中的第一條記錄,第二條記錄……等,事務(wù)集T特指所有配方調(diào)整的版本記錄,tt,t2……分別表示第一個配方調(diào)整的版本,第二個調(diào)整的版本……,其中tht2……等每個配方調(diào)整版本中,都包含若干條配方記錄數(shù)據(jù)集即I中的記錄.如果通過關(guān)聯(lián)規(guī)則分析,有ifc個煙葉一起搭配使用,則這6個煙葉就是一個;t項集.如2005年巴西復(fù)烤煙和2004年巴西復(fù)烤煙L10CT為一個項集,我們稱其為二項集,記作項集{2005年巴西復(fù)烤煙,2004年巴西復(fù)烤煙Liocn。頻繁項集是在數(shù)據(jù)集中出現(xiàn)頻率相當高的那些項集。項集出現(xiàn)的閥值是使用支持度(support)來定義。支持度是用于度量一個項集的出現(xiàn)頻率。項集(A,B)的支持度是(A,B〉的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support(A々B)-suppwMu""支持度描述了A,B這兩個項集在所有事務(wù)中同時出現(xiàn)的概率。規(guī)則J=>^在事務(wù)集中的置信度(confidence)是指同時包含A,B的事務(wù)數(shù)與包含A的事務(wù)數(shù)之比,它用來衡量關(guān)聯(lián)規(guī)則的可信程度。記為—=>丑)=s卿ort(AB)o重要性(imm)用于度量項集和規(guī)則,它依賴于摸support(A)、個事物的出現(xiàn)概率(probability)。其定義如下-Importance({A,B})=probability(A,B)/probability(A)*probability(B)如果importance-l,則A和B是獨立的項。如果importance^,則A和B是負相關(guān)的。如果importances,則A和B是正相關(guān)的。其中probability(A,B)是事務(wù)(A,B)同時出現(xiàn)的概率?probability(A)是事務(wù)A出現(xiàn)的概率probability(B)是事物B出現(xiàn)的概率。關(guān)聯(lián)規(guī)則原理是從發(fā)現(xiàn)的頻繁項集中提取所有高置信度規(guī)則,即分別對每個頻繁項集L產(chǎn)生其所有的非空子集s,對每個非空子集計算s給定事務(wù)的集合T,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于MINIMUM—SUPPORT(最小支持度),并且置信度大于等于MINIMUMLCONFIDENCE(最小置信度)的所有規(guī)則,其中最小支持度和最小置信度是對應(yīng)的支持度和置信度的閾值,則說明發(fā)現(xiàn)了一條有意義的關(guān)聯(lián)規(guī)則,重復(fù)這個過程直到將所有的有意義的規(guī)則全部輸出。如最小支持度MINIMUM—SUPPORT(最小支持度)是概率閥值,如果MINIMUM—IMPORTANCE(最小重要性)=2%,這表示用戶只對概率大于等于2%的項集感興趣。在一種基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng)中,采用關(guān)聯(lián)規(guī)則之改進的Apriori算法目的就是找到在不同檔次,不同牌號的配方中常搭配使用的煙葉,即煙葉頻繁組合項集;以及適合作為某個煙葉的替代煙葉的最佳方案,即煙葉替代規(guī)則。(2)改進的關(guān)聯(lián)規(guī)則算法Apriori關(guān)聯(lián)規(guī)則算法是通過有候選項集的方法來產(chǎn)生頻繁項集,它的核心思想任何頻繁項集的所有子集一定是頻繁項集。傳統(tǒng)Apriori關(guān)聯(lián)規(guī)則算法需要多次掃描數(shù)據(jù)庫,算法時間復(fù)雜度很高?,F(xiàn)使用改進的關(guān)聯(lián)規(guī)則算法進行頻繁煙葉組合模型的挖掘,改進的關(guān)聯(lián)規(guī)則算法相對與傳統(tǒng)Apriori算法改進指出體現(xiàn)在下述第2步和第3步,它只需要掃描整個數(shù)據(jù)庫兩次,其算法描述如下-輸入事務(wù)數(shù)據(jù)庫D;最小支持度閾值(minimum一support)輸出D中的頻繁項集L'第1步將煙葉配方數(shù)據(jù)庫劃分成4個規(guī)模相當?shù)牟糠值?步針對每個部分單獨產(chǎn)生一組頻繁煙葉組合項集第3步最后將這些項目集合并為一個全局的候選頻繁煙葉組合項集第4步針對整個數(shù)據(jù)庫,計算每個候選頻繁煙葉組合項集的實際支持度,從而確定最后的頻繁煙葉組合項集。所述第2步的頻繁項目集產(chǎn)生方法為1)掃描數(shù)據(jù)庫,發(fā)現(xiàn)所有的頻繁1項集煙葉組合2)產(chǎn)生候選頻繁煙葉項集3)掃描數(shù)據(jù)庫中煙葉配方版本修改事務(wù);4)識別屬于煙葉配方版本修改事務(wù)的所有候選項集;5)計算上述候選項集的支持度6)提取頻繁煙葉組合k項集所述第3步的候選頻繁項目集產(chǎn)生方法為-1)連接頻繁煙葉組合候選項集2)判斷頻繁煙葉組合候選項集是否含有非頻繁項集3)剪枝刪除頻繁煙葉組合項集中非頻繁項目子集的候選元素所述巻煙配方維護行為挖掘系統(tǒng)的基于關(guān)聯(lián)規(guī)則的煙葉替換算法技術(shù)方案的Step2的具體技術(shù)方案如下'在葉組配方歷史維護數(shù)據(jù)中,存在煙葉替換的具體記錄,即在一次配方調(diào)整中,用一個煙葉替換了另一個煙葉。將配方數(shù)據(jù)中的葉組配方調(diào)整前的煙葉名稱做輸入,葉組配方調(diào)整后的煙葉名稱做輸出,系統(tǒng)應(yīng)用改進的關(guān)聯(lián)規(guī)則算法挖掘煙葉替代關(guān)系的規(guī)則,并保存煙葉替換規(guī)則的模型。該模型應(yīng)用于下一步的巻煙葉組配方維護方案計算機自動推薦的過程中。所述巻煙配方維護行為挖掘系統(tǒng)的基于關(guān)聯(lián)規(guī)則的煙葉替換算法技術(shù)方案的Step3的具體技術(shù)方案如下.根據(jù)前面兩個步驟,建立兩個模型,第一個模型就是煙葉頻繁組合模型MODELl,第二個模型就是煙葉替換模型MODEL2。根據(jù)系統(tǒng)中輸入的葉組配方組成數(shù)據(jù)和配方調(diào)整前后的煙葉數(shù)據(jù),推薦最佳替換煙葉的步驟如下1)給定一個煙葉A,査找煙葉替換模型MODEL2,找到適合該煙葉的替換煙葉列表L2)如果列表L中的煙葉個數(shù)為1,則直接輸出該列表中的煙葉,即為推薦的替換煙葉3)如果列表L中的煙葉個數(shù)大于1(如煙葉B和煙葉C),則對L中的每個煙葉(如B))使用煙葉頻繁組合模型MODEL1,找到該煙葉(B煙葉)的頻繁煙葉組合組合(B組合),若B組合在煙葉A所在的配方中占的比例最大,則推薦煙葉B;若C組合在煙葉A所在的配方中占的比例最大,則推薦煙葉C。以上三個步驟,就是一種基于關(guān)聯(lián)規(guī)則的巻煙配方維護系統(tǒng)中的核心步驟和應(yīng)用的關(guān)鍵算法,結(jié)合使用這兩個模型可以由該系統(tǒng)推薦一個煙葉的替代煙葉方案。本發(fā)明的保護范圍包括但不限于上述公開的內(nèi)容,對于本領(lǐng)域的普通技術(shù)人員而言,在本發(fā)明的內(nèi)容上根據(jù)現(xiàn)有技術(shù)進行的顯而易見的改變?nèi)栽诒景l(fā)明的保護范圍之內(nèi)。權(quán)利要求1.一種基于關(guān)聯(lián)規(guī)則的卷煙配方維護行為挖掘系統(tǒng),其特征是,它包括數(shù)據(jù)庫服務(wù)器(1)和數(shù)據(jù)挖掘客戶端(2),其中數(shù)據(jù)挖掘客戶端(2)包括可視化展示工具(3),該可視化展示工具(3)與數(shù)據(jù)展示處理模塊(4)和結(jié)果展示模塊(5)連接;數(shù)據(jù)展示處理模塊(4)與數(shù)據(jù)連接模塊(6)連接,數(shù)據(jù)連接模塊(6)提供各種不同數(shù)據(jù)類型格式數(shù)據(jù)源的連接,生成挖掘算法可以直接使用的數(shù)據(jù)庫,提供數(shù)據(jù)對象訪問的接口;結(jié)果展示模塊(5)與挖掘處理模塊(7)連接,挖掘處理模塊(7)分別與模型庫模塊(8)、模型評估模塊(9)和數(shù)據(jù)連接模塊(6)連接;數(shù)據(jù)連接模塊(6)則與身份驗證處理模塊(10)和數(shù)據(jù)庫服務(wù)器(1)中的數(shù)據(jù)源(11)連接,同時身份驗證處理模塊(10)與數(shù)據(jù)庫服務(wù)器(1)中的權(quán)限數(shù)據(jù)庫(12)連接,身份驗證處理模塊(10)通過用戶名和密碼驗證用戶的合法性。2.如權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則的巻煙紀方維護行為挖掘系統(tǒng),其特征是,所述可視化展示工具(3)和結(jié)果展示模塊(5)通過直方圖、點線圖、表格形式直觀展示處理結(jié)果。3.如權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),其特征是,所述挖掘處理模塊(7)使用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法,設(shè)定、修改算法的參數(shù),執(zhí)行用戶提交的數(shù)據(jù)挖掘任務(wù)。4..如權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng),其特征是,所述模型評估模塊(9)利用不同挖掘模型對測試數(shù)據(jù)進行挖掘分析,對結(jié)果進行評估,根據(jù)評估結(jié)果選擇相應(yīng)的挖掘模型進行數(shù)據(jù)挖掘。5.如權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng)的使用方法,其特征是,包括以下步驟St印l:進入系統(tǒng)啟動系統(tǒng),輸入用戶名和密碼,進行用戶身份驗證;用戶名密碼正確,則通過驗證,進入系統(tǒng);用戶名或密碼不正確,則退出系統(tǒng);St印2:設(shè)置數(shù)據(jù)庫,導(dǎo)入巻煙葉組配方數(shù)據(jù)該系統(tǒng)可以設(shè)置不同的服務(wù)器和數(shù)據(jù)源,滿足服務(wù)器和數(shù)據(jù)庫修改的配置要求;St印3:建立頻繁煙葉組合模型巻煙生產(chǎn)中,不同的檔次的煙的用料不同,煙葉組合使用情況也不同;要挖掘煙葉搭配使用的規(guī)律,找到頻繁煙葉組合模型,必須按檔次進行劃分;然后分別對高檔煙,中檔煙和低檔煙建立關(guān)聯(lián)規(guī)則模型-(1)在數(shù)據(jù)庫中保存歷史巻煙配方的數(shù)據(jù)表;(2)設(shè)置算法參數(shù)最大項集數(shù)MAXIMUM—ITEMSETJX)UN指定要生成的最大項集數(shù);最大項集的大小MAXIMUM_ITEMSET_SIZE指定一個項集中允許的最大項數(shù);最大支持度MAXIMUM—SUPPORT指定可包含某項集的最大事例數(shù);最小重要性MINIMUM—IMPORTANCE指定關(guān)聯(lián)規(guī)則的重要性閎值;重要性低于此值的規(guī)則將被篩選出去;最小項集的大小MINIMUM—ITEMSET—SIZE指定一個項集中允許的最小項數(shù);最小概率MINIMUX—PROBABILITY指定規(guī)則為True的最小概率;最小支持度MINIMUM_SUPPORT指定包含該項集的最小事例數(shù);(3)調(diào)用算法訓(xùn)練模型,得出當前頻繁相集的煙葉組合關(guān)聯(lián)模型;St印4:建立煙葉替換規(guī)則模型(1)數(shù)據(jù)庫中保存煙葉替換記錄的數(shù)據(jù)表;(2)運用關(guān)聯(lián)規(guī)則算法,設(shè)置算法參數(shù)用替換前煙葉作為輸入,替換后煙葉作為輸出;(3)調(diào)用算法訓(xùn)練模型,得出煙葉替換規(guī)則;St印5:推薦最佳替換煙葉根據(jù)上述的St印3和St印4,己經(jīng)產(chǎn)生了頻繁煙葉組合模型和煙葉替換規(guī)則輸入煙葉的檔次信息和煙葉名稱以及推薦個數(shù),系統(tǒng)給出利用改進的關(guān)聯(lián)規(guī)則法建立的葉組配方維護行為挖掘模型,根據(jù)需要調(diào)整煙葉的某個檔次的巻煙牌號以及煙葉的名稱,系統(tǒng)自動輸出可作為替代煙葉的方案,并給出可信度值;St印6:頻繁煙葉組合模型和煙葉替換規(guī)則模型性能評價采用實例預(yù)測正確率來評價采用改進的關(guān)聯(lián)規(guī)則算法訓(xùn)練后建立的模型性能;如將10個己有煙葉調(diào)整方案的巻煙葉組配方作為測試樣本,將實際替代煙葉與模型給出的替代煙葉進行對比,正確率未達到設(shè)定值,則轉(zhuǎn)到St印3,并且調(diào)整模型參數(shù)最小支持度MINIMUM_SUPPORT,最小概率MINIMUX—PROBABILITY;當正確率達到要求,則將挖掘出的煙葉替代關(guān)聯(lián)規(guī)則模型保存;St印7:保存頻繁煙葉組合模型和煙葉替換規(guī)則模型保存建立的頻繁煙葉組合模型和煙葉替換規(guī)則模型到數(shù)據(jù)庫中,以應(yīng)用于今后的葉組配方維護過程中;并展示挖掘出的頻繁煙葉組合規(guī)則和煙葉替換關(guān)系的規(guī)則。6.如權(quán)利要求5所述的基于關(guān)聯(lián)規(guī)則的巻煙配方維護行為挖掘系統(tǒng)的使用方法,其特征是,使用改進的關(guān)聯(lián)規(guī)則算法,產(chǎn)生頻繁煙葉組合模型和煙葉替換規(guī)則模型,它兩次使用關(guān)聯(lián)規(guī)則算法,產(chǎn)生的兩個模型,綜合使用這兩個模型進行煙葉的最佳替換,其中改進的關(guān)聯(lián)規(guī)則算法步驟如下St鄰l:運用關(guān)聯(lián)規(guī)則算法,按檔次、牌號挖掘巻煙配方的頻繁項集即頻繁煙葉組合模型;Step2:利用歷史配方替換調(diào)整數(shù)據(jù),使用關(guān)聯(lián)規(guī)則算法,產(chǎn)生煙葉替代規(guī)則模型;Step3:給出一個煙葉和檔次信息,利用上述建立的兩個模型,推薦最佳替換煙葉;其中,Step3中,根據(jù)前面兩個步驟,建立兩個模型,第一個模型就是煙葉頻繁組合模型M0DEL1,第二個模型就是煙葉替換模型MODEL2;根據(jù)系統(tǒng)中輸入的葉組配方組成數(shù)據(jù)和配方調(diào)整前后的煙葉數(shù)據(jù),推薦最佳替換煙葉的步驟如下1)給定一個煙葉A,查找煙葉替換模型MODEL2,找到適合該煙葉的替換煙葉列表L;2)如果列表L中的煙葉個數(shù)為l,則直接輸出該列表中的煙葉,即為推薦的替換煙葉;3)如果列表L中的煙葉個數(shù)大于1,則對L中的每個煙葉,使用煙葉頻繁組合模型MODELl,找到該煙葉的頻繁煙葉組合組合,若B組合在煙葉A所在的配方中占的比例最大,則推薦煙葉B;若C組合在煙葉A所在的配方中占的比例最大,則推薦煙葉C。全文摘要本發(fā)明公開了一種基于關(guān)聯(lián)規(guī)則的卷煙配方維護行為挖掘系統(tǒng)及其方法。它包括數(shù)據(jù)庫服務(wù)器和數(shù)據(jù)挖掘客戶端,其中數(shù)據(jù)挖掘客戶端包括可視化展示工具,該可視化展示工具與數(shù)據(jù)展示處理模塊和結(jié)果展示模塊連接;數(shù)據(jù)展示處理模塊與數(shù)據(jù)連接模塊連接,數(shù)據(jù)連接模塊提供各種不同數(shù)據(jù)類型格式數(shù)據(jù)源的連接,生成挖掘算法可以直接使用的數(shù)據(jù)庫,提供數(shù)據(jù)對象訪問的接口;結(jié)果展示模塊與挖掘處理模塊連接,挖掘處理模塊分別與模型庫模塊、模型評估模塊和數(shù)據(jù)連接模塊連接;數(shù)據(jù)連接模塊則與身份驗證處理模塊和數(shù)據(jù)庫服務(wù)器中的數(shù)據(jù)源連接,同時身份驗證處理模塊與數(shù)據(jù)庫服務(wù)器中的權(quán)限數(shù)據(jù)庫連接,身份驗證處理模塊通過用戶名和密碼驗證用戶的合法性。文檔編號G06F17/30GK101419627SQ200810237699公開日2009年4月29日申請日期2008年12月3日優(yōu)先權(quán)日2008年12月3日發(fā)明者勃劉,劉紅偉,姜福東,孟廣宇,宋學(xué)艷,張金林,李成富,寧楊,玲段,英賀,趙硯棠,阮曉明申請人:山東中煙工業(yè)公司;中國海洋大學(xué)