国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置與流程

      文檔序號:11323818閱讀:442來源:國知局
      一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置與流程

      本發(fā)明涉及一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置。



      背景技術(shù):

      檢驗(yàn)檢疫業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)是對日常檢驗(yàn)檢疫業(yè)務(wù)所產(chǎn)生的數(shù)據(jù)的匯總與統(tǒng)計(jì),從總體上反映一定時(shí)期檢驗(yàn)檢疫業(yè)務(wù)的運(yùn)行狀況,并支持從不同角度對檢驗(yàn)檢疫各項(xiàng)業(yè)務(wù)進(jìn)行分析,包括檢驗(yàn)檢疫業(yè)務(wù)企業(yè)報(bào)檢、集中審單、現(xiàn)場查驗(yàn)、檢驗(yàn)檢測等所產(chǎn)生的數(shù)據(jù)。

      在日常的檢驗(yàn)檢疫業(yè)務(wù)中通常采用抽樣檢驗(yàn)的方式,全面的檢測檢驗(yàn)幾乎無法做到;對給定批次的商品,并非每批都檢驗(yàn),挖掘進(jìn)出口商品的質(zhì)量規(guī)律,確定重點(diǎn)檢驗(yàn)內(nèi)容、檢測項(xiàng)和風(fēng)險(xiǎn)程度,就成為大數(shù)據(jù)輔助質(zhì)檢部門解決這棘手問題的重要手段。

      目前業(yè)內(nèi)采用大數(shù)據(jù)分析來解讀規(guī)則,較常見的是采用多維關(guān)聯(lián)規(guī)則,但多維關(guān)聯(lián)規(guī)則具有:

      數(shù)據(jù)庫表非常龐大、且對輸入數(shù)據(jù)無篩查能力,導(dǎo)致無效或無關(guān)聯(lián)變量信息過多產(chǎn)生,且算法模型生成易過于泛化,以及支持度較低時(shí)加入大量hash函數(shù)時(shí),多維關(guān)聯(lián)規(guī)則算法效率會非常低的缺點(diǎn)。



      技術(shù)實(shí)現(xiàn)要素:

      針對上述商品檢驗(yàn)檢疫商品大數(shù)據(jù)分析采用的多維關(guān)聯(lián)規(guī)則數(shù)據(jù)龐大無篩查能力,效率低的技術(shù)問題,本發(fā)明提供一種使用決策樹模型算法優(yōu)化多維關(guān)聯(lián)規(guī)則的方法和裝置,具體如下:

      一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方法包括以下步驟:

      a.獲取原始訓(xùn)練數(shù)據(jù)集;

      b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

      c.設(shè)置特征參數(shù)重要性閥值對步驟b得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

      d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

      在上述技術(shù)方案的基礎(chǔ)上,進(jìn)一步的,所述步驟b使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類中所述決策樹算法是c4.5決策樹算法。

      進(jìn)一步的,一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置,其特征在于,包括:

      存儲模塊,用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集;

      第一挖掘模塊,用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

      第二挖掘模塊,用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

      第三挖掘模塊,用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

      本發(fā)明的優(yōu)點(diǎn)在于:優(yōu)化了關(guān)聯(lián)規(guī)則模型的輸入變量優(yōu)化,同時(shí)利用決策樹生成樹的信息增益標(biāo)準(zhǔn)化后的值,避免了決策樹面對連續(xù)變量及序列型數(shù)據(jù)的計(jì)算性能問題;無決策樹生成樹泛化剪枝優(yōu)化問題。

      附圖說明

      圖1是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘方法的流程示意圖;

      圖2是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘裝置的結(jié)構(gòu)示意圖。

      具體實(shí)施方式

      下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的實(shí)力在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的原件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。

      如圖1所示,種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方法包括以下步驟:

      a.獲取原始訓(xùn)練數(shù)據(jù)集;

      b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

      c.設(shè)置特征參數(shù)重要性閥值對步驟b得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

      d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

      其中步驟b具體如下:

      b1:根據(jù)步驟a獲取的訓(xùn)練集,判斷所述訓(xùn)練集是多節(jié)點(diǎn)或單節(jié)點(diǎn)數(shù)據(jù)集,若是單節(jié)點(diǎn)數(shù)據(jù)集直接轉(zhuǎn)入步驟d建立模型;

      b2:設(shè)s是n個(gè)數(shù)據(jù)樣本的集合,將樣本集劃分為c個(gè)不同的類

      ,每個(gè)類含有的樣本數(shù)目為,則s劃分為c個(gè)類的信息熵或期望信息,有

      其中是s中樣本屬于第i類的概率,即。

      假設(shè)屬性a的所有不同值得集合為是s中屬性a的值為v的樣本子集,即,在選擇屬性a后的每一個(gè)分支節(jié)點(diǎn)上,對該節(jié)點(diǎn)的樣本集分類的熵。選擇a導(dǎo)致的期望熵定義為每個(gè)子集的熵的加權(quán)和,權(quán)值為屬于的樣本占原始樣本s的比例,即期望熵為

      其中,是將中的樣本劃分到c個(gè)類的信息熵,屬性a相對樣本集合s的信息增益gain定義為

      信息增益gain是指知道屬性a的值后導(dǎo)致的熵的期望壓縮,gain越大,說明選擇測試屬性a對分類提供的信息越多。

      信息增益比作為劃分訓(xùn)練數(shù)據(jù)集的特征,存在偏向于選擇取值較多的特征問題,使用信息增益比(informationgainratio)可以對這一問題進(jìn)行校正。這是特征選擇的另一準(zhǔn)則信息增益比定義如下

      b3:選取信息增益比當(dāng)前最大的構(gòu)建當(dāng)前子節(jié)點(diǎn),并記錄此特征分類參數(shù);

      b4:對應(yīng)節(jié)點(diǎn)構(gòu)建決策樹遍歷數(shù)據(jù)集,得到所有信息增益比。

      b5:將信息增益比標(biāo)準(zhǔn)化后作為分類特征變量重要性數(shù)據(jù)集保存輸出。

      其中步驟c如下:

      c1:輸入步驟b得到的特征變量重要性數(shù)據(jù)集db及多維關(guān)聯(lián)規(guī)則最小支持度;

      c2:首先掃描數(shù)據(jù)集找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度;然后使用c1找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng)。

      定義如下:可表示成形如a→b的蘊(yùn)涵式,a和b分別表示為規(guī)則的合取范式構(gòu)成的邏輯公式,a∩b=?。其主要參數(shù)有支持度與置信度。

      (1)支持度s

      事務(wù)集d中同時(shí)包含事務(wù)a和b的百分比,稱為規(guī)則a→b具有支持度s。

      支持度的計(jì)算方法為:

      s(a→b)=包含a和b的事物數(shù)/事物總數(shù)×100%

      (2)置信度c

      事務(wù)集d中包含a的事務(wù)數(shù)與同時(shí)包含b的事務(wù)數(shù)的百分比,稱為規(guī)則a→b具有置信度c。

      置信度的計(jì)算方法為:

      c(a→b)=包含a和b的事物數(shù)/包含a的事物數(shù)×100%

      同時(shí)滿足最小支持度和最小置信度的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則,即在關(guān)聯(lián)規(guī)則挖掘中所希望發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則。

      c3:利用向下封閉屬性,即如果一個(gè)項(xiàng)集是頻繁項(xiàng)目集,那么它的非空子集必定是頻繁項(xiàng)目集,頻繁集的子集也一定是頻繁集。依次類推,生成所有的頻繁項(xiàng)目集,然后從頻繁項(xiàng)目集中找出符合條件的關(guān)聯(lián)規(guī)則。

      c4:通過聯(lián)合和剪枝兩步,生成一個(gè)頻繁集。例如:

      1,其中l(wèi)k-1為頻繁集。合并只有最后一個(gè)元素不同的item,如

      {1,2},{1,3},{1,4},{2,3},{2,4}

      生成3-頻繁項(xiàng)目集:

      因?yàn)閧1,2},{1,3},{1,4}除了最后一個(gè)元素以外都相同,所以求{1,2},{1,3}的并集得到{1,2,3},{1,2}和{1,4}的并集得到{1,2,4},{1,3}和{1,4}的并集得到{1,3,4}。但是由于{1,3,4}的子集{3,4}不在2-頻繁項(xiàng)目集中,所以需要把{1,3,4}剔除掉。

      2,合并后的集合,如果支持度不滿足要求,則把該合并集合刪除。

      c5:對于所有滿足最小支持度的頻繁集,根據(jù)最小置信度得到強(qiáng)規(guī)則關(guān)聯(lián)。

      如圖2所示,一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置,其特征在于,包括:

      存儲模塊10,用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集;

      第一挖掘模塊11,用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

      第二挖掘模塊12,用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

      第三挖掘模塊13,用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

      盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求極其等同限定。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1