一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置與流程

文檔序號：11323818閱讀：442來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置。

背景技術(shù)：

檢驗(yàn)檢疫業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)是對日常檢驗(yàn)檢疫業(yè)務(wù)所產(chǎn)生的數(shù)據(jù)的匯總與統(tǒng)計(jì),從總體上反映一定時(shí)期檢驗(yàn)檢疫業(yè)務(wù)的運(yùn)行狀況,并支持從不同角度對檢驗(yàn)檢疫各項(xiàng)業(yè)務(wù)進(jìn)行分析，包括檢驗(yàn)檢疫業(yè)務(wù)企業(yè)報(bào)檢、集中審單、現(xiàn)場查驗(yàn)、檢驗(yàn)檢測等所產(chǎn)生的數(shù)據(jù)。

在日常的檢驗(yàn)檢疫業(yè)務(wù)中通常采用抽樣檢驗(yàn)的方式，全面的檢測檢驗(yàn)幾乎無法做到；對給定批次的商品，并非每批都檢驗(yàn)，挖掘進(jìn)出口商品的質(zhì)量規(guī)律，確定重點(diǎn)檢驗(yàn)內(nèi)容、檢測項(xiàng)和風(fēng)險(xiǎn)程度，就成為大數(shù)據(jù)輔助質(zhì)檢部門解決這棘手問題的重要手段。

目前業(yè)內(nèi)采用大數(shù)據(jù)分析來解讀規(guī)則，較常見的是采用多維關(guān)聯(lián)規(guī)則，但多維關(guān)聯(lián)規(guī)則具有：

數(shù)據(jù)庫表非常龐大、且對輸入數(shù)據(jù)無篩查能力，導(dǎo)致無效或無關(guān)聯(lián)變量信息過多產(chǎn)生，且算法模型生成易過于泛化，以及支持度較低時(shí)加入大量hash函數(shù)時(shí)，多維關(guān)聯(lián)規(guī)則算法效率會非常低的缺點(diǎn)。

技術(shù)實(shí)現(xiàn)要素：

針對上述商品檢驗(yàn)檢疫商品大數(shù)據(jù)分析采用的多維關(guān)聯(lián)規(guī)則數(shù)據(jù)龐大無篩查能力，效率低的技術(shù)問題，本發(fā)明提供一種使用決策樹模型算法優(yōu)化多維關(guān)聯(lián)規(guī)則的方法和裝置，具體如下：

一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法，所述挖掘方法包括以下步驟:

a.獲取原始訓(xùn)練數(shù)據(jù)集；

b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類，并提取出分類特征變量重要性數(shù)據(jù)集；

c.設(shè)置特征參數(shù)重要性閥值對步驟b得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng)，篩選得到純凈特征變量參數(shù)集；

d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

在上述技術(shù)方案的基礎(chǔ)上，進(jìn)一步的，所述步驟b使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類中所述決策樹算法是c4.5決策樹算法。

進(jìn)一步的，一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置，其特征在于，包括：

存儲模塊，用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集；

第一挖掘模塊，用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類，并提取出分類特征變量重要性數(shù)據(jù)集；

第二挖掘模塊，用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng)，篩選得到純凈特征變量參數(shù)集；

第三挖掘模塊，用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

本發(fā)明的優(yōu)點(diǎn)在于：優(yōu)化了關(guān)聯(lián)規(guī)則模型的輸入變量優(yōu)化，同時(shí)利用決策樹生成樹的信息增益標(biāo)準(zhǔn)化后的值，避免了決策樹面對連續(xù)變量及序列型數(shù)據(jù)的計(jì)算性能問題；無決策樹生成樹泛化剪枝優(yōu)化問題。

附圖說明

圖1是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘方法的流程示意圖；

圖2是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的實(shí)力在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的原件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。

如圖1所示，種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法，所述挖掘方法包括以下步驟:

a.獲取原始訓(xùn)練數(shù)據(jù)集；

b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類，并提取出分類特征變量重要性數(shù)據(jù)集；

d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

其中步驟b具體如下：

b1：根據(jù)步驟a獲取的訓(xùn)練集，判斷所述訓(xùn)練集是多節(jié)點(diǎn)或單節(jié)點(diǎn)數(shù)據(jù)集，若是單節(jié)點(diǎn)數(shù)據(jù)集直接轉(zhuǎn)入步驟d建立模型；

b2：設(shè)s是n個(gè)數(shù)據(jù)樣本的集合，將樣本集劃分為c個(gè)不同的類

，每個(gè)類含有的樣本數(shù)目為，則s劃分為c個(gè)類的信息熵或期望信息，有

其中是s中樣本屬于第i類的概率，即。

假設(shè)屬性a的所有不同值得集合為，是s中屬性a的值為v的樣本子集，即，在選擇屬性a后的每一個(gè)分支節(jié)點(diǎn)上，對該節(jié)點(diǎn)的樣本集分類的熵。選擇a導(dǎo)致的期望熵定義為每個(gè)子集的熵的加權(quán)和，權(quán)值為屬于的樣本占原始樣本s的比例，即期望熵為

其中，是將中的樣本劃分到c個(gè)類的信息熵，屬性a相對樣本集合s的信息增益gain定義為

信息增益gain是指知道屬性a的值后導(dǎo)致的熵的期望壓縮，gain越大，說明選擇測試屬性a對分類提供的信息越多。

信息增益比作為劃分訓(xùn)練數(shù)據(jù)集的特征，存在偏向于選擇取值較多的特征問題，使用信息增益比（informationgainratio）可以對這一問題進(jìn)行校正。這是特征選擇的另一準(zhǔn)則信息增益比定義如下

b3：選取信息增益比當(dāng)前最大的構(gòu)建當(dāng)前子節(jié)點(diǎn)，并記錄此特征分類參數(shù)；

b4：對應(yīng)節(jié)點(diǎn)構(gòu)建決策樹遍歷數(shù)據(jù)集，得到所有信息增益比。

b5：將信息增益比標(biāo)準(zhǔn)化后作為分類特征變量重要性數(shù)據(jù)集保存輸出。

其中步驟c如下：

c1：輸入步驟b得到的特征變量重要性數(shù)據(jù)集db及多維關(guān)聯(lián)規(guī)則最小支持度；

c2：首先掃描數(shù)據(jù)集找出所有的頻集，這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣；然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則，這些規(guī)則必須滿足最小支持度和最小可信度；然后使用c1找到的頻集產(chǎn)生期望的規(guī)則，產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則，其中每一條規(guī)則的右部只有一項(xiàng)。

定義如下：可表示成形如a→b的蘊(yùn)涵式，a和b分別表示為規(guī)則的合取范式構(gòu)成的邏輯公式，a∩b=?。其主要參數(shù)有支持度與置信度。

（1）支持度s

事務(wù)集d中同時(shí)包含事務(wù)a和b的百分比，稱為規(guī)則a→b具有支持度s。

支持度的計(jì)算方法為：

s(a→b)=包含a和b的事物數(shù)/事物總數(shù)×100%

（2）置信度c

事務(wù)集d中包含a的事務(wù)數(shù)與同時(shí)包含b的事務(wù)數(shù)的百分比，稱為規(guī)則a→b具有置信度c。

置信度的計(jì)算方法為：

c(a→b)=包含a和b的事物數(shù)/包含a的事物數(shù)×100%

同時(shí)滿足最小支持度和最小置信度的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則，即在關(guān)聯(lián)規(guī)則挖掘中所希望發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則。

c3：利用向下封閉屬性，即如果一個(gè)項(xiàng)集是頻繁項(xiàng)目集，那么它的非空子集必定是頻繁項(xiàng)目集，頻繁集的子集也一定是頻繁集。依次類推，生成所有的頻繁項(xiàng)目集，然后從頻繁項(xiàng)目集中找出符合條件的關(guān)聯(lián)規(guī)則。

c4：通過聯(lián)合和剪枝兩步，生成一個(gè)頻繁集。例如：

1,其中l(wèi)k-1為頻繁集。合并只有最后一個(gè)元素不同的item，如

{1，2}，{1，3}，{1，4}，{2，3}，{2，4}

生成3-頻繁項(xiàng)目集：

因?yàn)閧1，2}，{1，3}，{1，4}除了最后一個(gè)元素以外都相同，所以求{1，2}，{1，3}的并集得到{1，2，3}，{1，2}和{1，4}的并集得到{1，2，4}，{1，3}和{1，4}的并集得到{1，3，4}。但是由于{1，3，4}的子集{3，4}不在2-頻繁項(xiàng)目集中，所以需要把{1，3，4}剔除掉。

2,合并后的集合，如果支持度不滿足要求，則把該合并集合刪除。

c5：對于所有滿足最小支持度的頻繁集，根據(jù)最小置信度得到強(qiáng)規(guī)則關(guān)聯(lián)。

如圖2所示，一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置，其特征在于，包括：

存儲模塊10，用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集；

第一挖掘模塊11，用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類，并提取出分類特征變量重要性數(shù)據(jù)集；

第二挖掘模塊12，用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng)，篩選得到純凈特征變量參數(shù)集；

第三挖掘模塊13，用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求極其等同限定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王連印;凌建華;魏旭暉;黃景濤;黃暉
技術(shù)所有人：國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局信息中心;上海天律信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種具有磨皮功能的羅非魚加工裝置的制造方法
上一篇：一種清除魚內(nèi)臟的去除裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

關(guān)聯(lián)規(guī)則挖掘算法相關(guān)技術(shù)

關(guān)聯(lián)規(guī)則挖掘相關(guān)技術(shù)

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法相關(guān)技術(shù)

關(guān)聯(lián)規(guī)則挖掘方法相關(guān)技術(shù)

多維關(guān)聯(lián)規(guī)則挖掘?qū)嵗嚓P(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置與流程