本發(fā)明涉及一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置。
背景技術(shù):
檢驗(yàn)檢疫業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)是對日常檢驗(yàn)檢疫業(yè)務(wù)所產(chǎn)生的數(shù)據(jù)的匯總與統(tǒng)計(jì),從總體上反映一定時(shí)期檢驗(yàn)檢疫業(yè)務(wù)的運(yùn)行狀況,并支持從不同角度對檢驗(yàn)檢疫各項(xiàng)業(yè)務(wù)進(jìn)行分析,包括檢驗(yàn)檢疫業(yè)務(wù)企業(yè)報(bào)檢、集中審單、現(xiàn)場查驗(yàn)、檢驗(yàn)檢測等所產(chǎn)生的數(shù)據(jù)。
在日常的檢驗(yàn)檢疫業(yè)務(wù)中通常采用抽樣檢驗(yàn)的方式,全面的檢測檢驗(yàn)幾乎無法做到;對給定批次的商品,并非每批都檢驗(yàn),挖掘進(jìn)出口商品的質(zhì)量規(guī)律,確定重點(diǎn)檢驗(yàn)內(nèi)容、檢測項(xiàng)和風(fēng)險(xiǎn)程度,就成為大數(shù)據(jù)輔助質(zhì)檢部門解決這棘手問題的重要手段。
目前業(yè)內(nèi)采用大數(shù)據(jù)分析來解讀規(guī)則,較常見的是采用多維關(guān)聯(lián)規(guī)則,但多維關(guān)聯(lián)規(guī)則具有:
數(shù)據(jù)庫表非常龐大、且對輸入數(shù)據(jù)無篩查能力,導(dǎo)致無效或無關(guān)聯(lián)變量信息過多產(chǎn)生,且算法模型生成易過于泛化,以及支持度較低時(shí)加入大量hash函數(shù)時(shí),多維關(guān)聯(lián)規(guī)則算法效率會非常低的缺點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
針對上述商品檢驗(yàn)檢疫商品大數(shù)據(jù)分析采用的多維關(guān)聯(lián)規(guī)則數(shù)據(jù)龐大無篩查能力,效率低的技術(shù)問題,本發(fā)明提供一種使用決策樹模型算法優(yōu)化多維關(guān)聯(lián)規(guī)則的方法和裝置,具體如下:
一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方法包括以下步驟:
a.獲取原始訓(xùn)練數(shù)據(jù)集;
b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;
c.設(shè)置特征參數(shù)重要性閥值對步驟b得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;
d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。
在上述技術(shù)方案的基礎(chǔ)上,進(jìn)一步的,所述步驟b使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類中所述決策樹算法是c4.5決策樹算法。
進(jìn)一步的,一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置,其特征在于,包括:
存儲模塊,用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集;
第一挖掘模塊,用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;
第二挖掘模塊,用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;
第三挖掘模塊,用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。
本發(fā)明的優(yōu)點(diǎn)在于:優(yōu)化了關(guān)聯(lián)規(guī)則模型的輸入變量優(yōu)化,同時(shí)利用決策樹生成樹的信息增益標(biāo)準(zhǔn)化后的值,避免了決策樹面對連續(xù)變量及序列型數(shù)據(jù)的計(jì)算性能問題;無決策樹生成樹泛化剪枝優(yōu)化問題。
附圖說明
圖1是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘方法的流程示意圖;
圖2是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的實(shí)力在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的原件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
如圖1所示,種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方法包括以下步驟:
a.獲取原始訓(xùn)練數(shù)據(jù)集;
b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;
c.設(shè)置特征參數(shù)重要性閥值對步驟b得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;
d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。
其中步驟b具體如下:
b1:根據(jù)步驟a獲取的訓(xùn)練集,判斷所述訓(xùn)練集是多節(jié)點(diǎn)或單節(jié)點(diǎn)數(shù)據(jù)集,若是單節(jié)點(diǎn)數(shù)據(jù)集直接轉(zhuǎn)入步驟d建立模型;
b2:設(shè)s是n個(gè)數(shù)據(jù)樣本的集合,將樣本集劃分為c個(gè)不同的類
其中
假設(shè)屬性a的所有不同值得集合為
其中,
信息增益gain
信息增益比作為劃分訓(xùn)練數(shù)據(jù)集的特征,存在偏向于選擇取值較多的特征問題,使用信息增益比(informationgainratio)可以對這一問題進(jìn)行校正。這是特征選擇的另一準(zhǔn)則信息增益比
b3:選取信息增益比當(dāng)前最大的構(gòu)建當(dāng)前子節(jié)點(diǎn),并記錄此特征分類參數(shù);
b4:對應(yīng)節(jié)點(diǎn)構(gòu)建決策樹遍歷數(shù)據(jù)集,得到所有信息增益比。
b5:將信息增益比標(biāo)準(zhǔn)化后作為分類特征變量重要性數(shù)據(jù)集保存輸出。
其中步驟c如下:
c1:輸入步驟b得到的特征變量重要性數(shù)據(jù)集db及多維關(guān)聯(lián)規(guī)則最小支持度;
c2:首先掃描數(shù)據(jù)集找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度;然后使用c1找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng)。
定義如下:可表示成形如a→b的蘊(yùn)涵式,a和b分別表示為規(guī)則的合取范式構(gòu)成的邏輯公式,a∩b=?。其主要參數(shù)有支持度與置信度。
(1)支持度s
事務(wù)集d中同時(shí)包含事務(wù)a和b的百分比,稱為規(guī)則a→b具有支持度s。
支持度的計(jì)算方法為:
s(a→b)=包含a和b的事物數(shù)/事物總數(shù)×100%
(2)置信度c
事務(wù)集d中包含a的事務(wù)數(shù)與同時(shí)包含b的事務(wù)數(shù)的百分比,稱為規(guī)則a→b具有置信度c。
置信度的計(jì)算方法為:
c(a→b)=包含a和b的事物數(shù)/包含a的事物數(shù)×100%
同時(shí)滿足最小支持度和最小置信度的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則,即在關(guān)聯(lián)規(guī)則挖掘中所希望發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則。
c3:利用向下封閉屬性,即如果一個(gè)項(xiàng)集是頻繁項(xiàng)目集,那么它的非空子集必定是頻繁項(xiàng)目集,頻繁集的子集也一定是頻繁集。依次類推,生成所有的頻繁項(xiàng)目集,然后從頻繁項(xiàng)目集中找出符合條件的關(guān)聯(lián)規(guī)則。
c4:通過聯(lián)合和剪枝兩步,生成一個(gè)頻繁集。例如:
1,其中l(wèi)k-1為頻繁集。合并只有最后一個(gè)元素不同的item,如
{1,2},{1,3},{1,4},{2,3},{2,4}
生成3-頻繁項(xiàng)目集:
因?yàn)閧1,2},{1,3},{1,4}除了最后一個(gè)元素以外都相同,所以求{1,2},{1,3}的并集得到{1,2,3},{1,2}和{1,4}的并集得到{1,2,4},{1,3}和{1,4}的并集得到{1,3,4}。但是由于{1,3,4}的子集{3,4}不在2-頻繁項(xiàng)目集中,所以需要把{1,3,4}剔除掉。
2,合并后的集合,如果支持度不滿足要求,則把該合并集合刪除。
c5:對于所有滿足最小支持度的頻繁集,根據(jù)最小置信度得到強(qiáng)規(guī)則關(guān)聯(lián)。
如圖2所示,一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置,其特征在于,包括:
存儲模塊10,用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集;
第一挖掘模塊11,用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;
第二挖掘模塊12,用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;
第三挖掘模塊13,用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。
盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求極其等同限定。