一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法
【專利摘要】本發(fā)明公開了一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,該方法是將數(shù)據(jù)集中的負項考慮進去作為評估標準的指標,計算同現(xiàn)性的期望值,再根據(jù)同現(xiàn)性和相關(guān)性的關(guān)系判斷事件的相關(guān)性。本發(fā)明所述方法包括:步驟1:根據(jù)數(shù)據(jù)集計算四種情況下的置信度和支持度;步驟2:將上述步驟1中的計算結(jié)果代入同現(xiàn)性期望的表達式;步驟3:上述步驟2的值與0比較,這里0作為正同現(xiàn)和負同現(xiàn)的分界值;步驟4:根據(jù)步驟3的結(jié)果做出判斷;如何結(jié)果大于0,判斷A,B事件正同現(xiàn),反之,A,B事件負同現(xiàn);步驟5:根據(jù)同現(xiàn)性和相關(guān)性的關(guān)系,得到A,B事件是正相關(guān)還是負相關(guān)。
【專利說明】一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機電子商務(wù)【技術(shù)領(lǐng)域】,特別涉及一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法。
【背景技術(shù)】
[0002]在電子商務(wù)中往往需要通過挖掘顧客購物習(xí)慣來進行商品的組合銷售,從而提高成交率。關(guān)聯(lián)規(guī)則就是通過數(shù)據(jù)挖掘和分析找出有用信息的一種數(shù)學(xué)模型。關(guān)聯(lián)規(guī)則挖掘的目的是找出數(shù)據(jù)集中的頻繁模式,即多次重復(fù)出現(xiàn)的模式和并發(fā)關(guān)系,頻繁和并發(fā)關(guān)系也稱作關(guān)聯(lián)。
[0003]現(xiàn)在關(guān)聯(lián)規(guī)則強度的評估標準有支持度和置信度,以及它們的變形:提升度(Lift)、卡方系數(shù)、全置信度、平均置信度、cosine共七種評估標準。目前的關(guān)聯(lián)規(guī)則都是考慮兩個事件同時發(fā)生時支持度和置信度,但是還沒有一種評估標準是討論事件其它情況支持度和置信度,包括(一個事件發(fā)生另一個事件不發(fā)生和兩個事件都不發(fā)生的情況)。另夕卜,現(xiàn)在的關(guān)聯(lián)規(guī)則的評估標準存在著這樣的問題。第一,關(guān)聯(lián)規(guī)則的評估標準對數(shù)據(jù)的要求高,不同的數(shù)據(jù)集要使用不同的評估標準才能保證被挖掘關(guān)聯(lián)規(guī)則的有效性。第二、關(guān)聯(lián)規(guī)則的評估標準需要事先設(shè)定最小置信度和最小支持度,選擇不同的置信度和支持度得出的結(jié)論也不一樣,而最小置信度和支持度的選取存在感性認識,不能客觀的表述其原因,造成分析的不準確性。而本發(fā)明能夠很好地解決上面的問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明目的在于針對現(xiàn)有評估標準適用范圍有限、適用條件苛刻的不足,提出中一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法。該方法是通過加入負項求同現(xiàn)性的期望的方法,提高了關(guān)聯(lián)規(guī)則評估額的適用范圍。
[0005]本發(fā)明的技術(shù)理論為:正同現(xiàn):A,B事件同時發(fā)生,或者同時不發(fā)生。
[0006]負同現(xiàn):A事件發(fā)生則B事件不發(fā)生,或者A事件不發(fā)生B事件發(fā)生。
[0007]強關(guān)聯(lián):A,B事件同時發(fā)生的概率大于設(shè)定的閥值。
[0008]弱關(guān)聯(lián):A,B事件同時發(fā)生的概率小于設(shè)定的閥值。
[0009]正相關(guān):B事件發(fā)生的概率隨著A事件發(fā)生的概率增大而增大,減小而減小。
[0010]負相關(guān):B事件發(fā)生的概率隨著A事件發(fā)生的概率增大而減小,減小而增大。
[0011]空值:A,B事件均不發(fā)生。
[0012]正同現(xiàn)和正相關(guān)之間的關(guān)系。根據(jù)定義,正同現(xiàn)在一般情況下(空值不大的情況)可以看成是正相關(guān)的,也就是說兩事件是具有關(guān)聯(lián)關(guān)系的。負同現(xiàn)的關(guān)系可以看成負相關(guān)。
[0013]A事件發(fā)生B事件發(fā)生,A事件不發(fā)生B事件就不發(fā)生,可以將這些情況看成A,B正同現(xiàn)的情況,A事件不發(fā)生B事件發(fā)生,A事件發(fā)生B事件就不發(fā)生,看成A,B負同現(xiàn)的情況。這個標準的含義就是A,B同現(xiàn)性的期望值。如果該值大于0,表示A,B正同現(xiàn);如果該值小于0,表示A,B負同現(xiàn)。本發(fā)明認為這種同現(xiàn)關(guān)系的定量分析及其評估標準有助于本發(fā)明挖掘有效的關(guān)聯(lián)規(guī)則。因此,本發(fā)明的策略是將含負項關(guān)聯(lián)規(guī)則的支持度和置信度考慮進去,求出同現(xiàn)性的期望值,將這個期望值作為關(guān)聯(lián)規(guī)則的評估標準。如果同現(xiàn)性的期望值大于O,表示兩個事件是正同現(xiàn);反正,如果同現(xiàn)性的期望值小于O,表示兩個事件是負同現(xiàn)的。
[0014]本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:本發(fā)明提出了一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,該方法包括以下步驟:
[0015]步驟1:根據(jù)數(shù)據(jù)集計算四種情況下的置信度和支持度。這四種情況分別是
A—>B、A—>1、’d— > β、 Α-> ? 0
[0016]步驟2:將上述步驟I中的計算結(jié)果代入同現(xiàn)性期望的表達式,Econcurrence(Α->B) =support (A->B) *Conf idence (A_>B) +support ( ~.-J > B ) *conf idence (,A->,B)-support ( A—>,S ) ^confidence ( A—B ) -support ( ^A-> B ) ^confidence (~?-> B )。
[0017]步驟3:將上述步驟2的值與O比較,這里O作為正同現(xiàn)和負同現(xiàn)的分界值。
[0018]步驟4:根據(jù)上述步驟3的結(jié)果做出判斷。如何結(jié)果大于0,判斷A,B事件正同現(xiàn),反之,A,B事件負同現(xiàn)。
[0019]步驟5:根據(jù)同現(xiàn)性和相關(guān)性的關(guān)系,得到A,B事件是正相關(guān)還是負相關(guān)。
[0020]有益效果
[0021 ] 1、本發(fā)明評估標準適用范圍更廣,準確度更高。
[0022]2、本發(fā)明大大提高了關(guān)聯(lián)規(guī)則評估額適用范圍。
【專利附圖】
【附圖說明】
[0023]圖1為本發(fā)明的方法流程圖。
【具體實施方式】
[0024]以下結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進一步的詳細說明。
[0025]實施例一
[0026]在情人節(jié)當天,看電影和購買玫瑰花的情侶人數(shù)之間的關(guān)系如表1:本發(fā)明想要討論看電影和買玫瑰花有沒有關(guān)聯(lián)。
[0027]表1:看電影和買玫瑰花的統(tǒng)計表格
[0028]
【權(quán)利要求】
1.一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,其特征在于,所述方法包括以下步驟: 步驟1:根據(jù)數(shù)據(jù)集計算四種情況下的置信度和支持度;所述的四種情況分別是A->B, A-> B 、 A->B 、 A-> 'B , 步驟2:將上述步驟I中的計算結(jié)果代入同現(xiàn)性期望的表達式; 步驟3:上述步驟2的值與O比較,這里O作為正同現(xiàn)和負同現(xiàn)的分界值; 步驟4:根據(jù)步驟3的結(jié)果做出判斷;如何結(jié)果大于O,判斷A,B事件正同現(xiàn),反之,A,B事件負同現(xiàn); 步驟5:根據(jù)同現(xiàn)性和相關(guān)性的關(guān)系,得到A,B事件是正相關(guān)還是負相關(guān)。
2.根據(jù)權(quán)利要求1所述的一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,其特征在于:所述方法的步驟I中加入了負項的支持度和置信度作為評估參數(shù)。
3.根據(jù)權(quán)利要求1所述的一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,其特征在于:所述方法的步驟2中計算同現(xiàn)性的期望,其中,八->8和反應(yīng)的為正同現(xiàn)性;A-> B、反應(yīng)的為負同現(xiàn)性。
4.根據(jù)權(quán)利要求1或3所述的一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,其特征在于:所述方法的步驟2所述表達數(shù)為:
Econcurrence (A~>B) =support (A_>B) *Conf ? dence (Α->Β) +support ()氺 confidence ( —,4—>—Β ) -support ( Α->^Β )氺 confidence ( Α->"Β ) -support ( A- > B)*conf idence ( — A - > B )。
5.根據(jù)權(quán)利要求1所述的一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,其特征在于:所述方法的步驟3中同現(xiàn)性的期望與O值做比較,這里的O表示A,B不具有同現(xiàn)性。
6.根據(jù)權(quán)利要求1所述的一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,其特征在于:所述方法的步驟4中根據(jù)步驟3的值判斷A,B事件為正同現(xiàn)或負同現(xiàn)或為不同現(xiàn);同現(xiàn)性的期望大于0,表示A,B事件為正同現(xiàn)的,同現(xiàn)性的期望小于0,表示A,B事件為負同現(xiàn)的,同現(xiàn)性的期望等于0,表示A,B事件為不同現(xiàn)的。
7.根據(jù)權(quán)利要求1所述的一種基于同現(xiàn)性的關(guān)聯(lián)規(guī)則標準評估方法,其特征在于:所述方法的步驟5中得到的同現(xiàn)性判斷相關(guān)性;正同現(xiàn)為正相關(guān),負同現(xiàn)為負相關(guān),不同現(xiàn)為不相關(guān)。
【文檔編號】G06Q30/02GK103886485SQ201410105294
【公開日】2014年6月25日 申請日期:2014年3月20日 優(yōu)先權(quán)日:2014年3月20日
【發(fā)明者】楊健, 方寧, 陳佳佳 申請人:南京郵電大學(xué)