国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      頻繁項集挖掘算法的優(yōu)化方法

      文檔序號:9687595閱讀:260來源:國知局
      頻繁項集挖掘算法的優(yōu)化方法
      【專利說明】頻繁項集挖掘算法的優(yōu)化方法
      [0001]
      技術(shù)領域
      [0002 ]本發(fā)明涉及數(shù)據(jù)處理領域,具體地,涉及一種頻繁項集挖掘算法的優(yōu)化方法。
      【背景技術(shù)】
      [0003]頻繁項集挖掘算法用于挖掘經(jīng)常一起出現(xiàn)的item集合(稱為頻繁項集),通過挖掘出這些頻繁項集,當在一個事務中出現(xiàn)頻繁項集的其中一個item,則可以把該頻繁項集的其他item作為推薦。
      [0004]常見的頻繁項集挖掘算法有兩類,一類是Apr1r i算法,另一類是FPGrowth。FPGrowth是基于Apr1ri算法優(yōu)化而成。FPgrowth算法相對于Apr1ri,最大的突破是縮減了數(shù)據(jù)的迭代次數(shù)。Apr1ri在計算頻繁項集需要進行K-1次計算,K為頻繁一項集的個數(shù),而Fpgrowth通過構(gòu)建fptree只需要遍歷2次數(shù)據(jù)就能完成頻繁項集的計算。
      [0005]隨著信息化的發(fā)展,數(shù)據(jù)的爆發(fā)性增多,數(shù)據(jù)的復雜性大大增加。雖然通過hadoop,spark,F(xiàn)pgrowth等技術(shù)可以縮短頻繁項集的計算時間和數(shù)據(jù)的迭代次數(shù),但是不同來源的數(shù)據(jù),會造成頻繁項集的數(shù)量集的增大和無效頻繁項集的增多。項目中實際使用效果并不精準,往往推薦出錯誤的結(jié)果。而且無效數(shù)據(jù)量會增大頻繁項集的大小,使項目的性能和成本不能滿足需求。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的目的在于,針對上述問題,提出一種頻繁項集挖掘算法的優(yōu)化方法,以實現(xiàn)縮小數(shù)據(jù)量大小,以及縮減數(shù)據(jù)計算過程和數(shù)據(jù)存儲的優(yōu)點。
      [0007]為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
      一種頻繁項集挖掘算法的優(yōu)化方法,包括:
      接收數(shù)據(jù);
      對于接收的數(shù)據(jù),使用前序遍歷,遍歷項集樹,從而對項集進行排列;
      對排列后的項集中相鄰的項集做父子集比較,并將比較結(jié)果為真子集與父集關系的項集合并;
      其中項集為頻繁項集的簡稱。
      [0008]優(yōu)選的,所述父子集比較,比較的內(nèi)容包括,項集的從屬關系和項集的支持度。
      [0009]優(yōu)選的,所述項集的從屬關系比較具體為:
      假設,兩個項集分別為A項集和B項集,如果A項集里面的項都包含于B項集中,則認為A項集屬于B項集,A項集是B項集的子集。
      [0010]優(yōu)選的,所述項集的支持度比較具體為:
      假設,兩個項集分別為A項集和B項集,項集的支持度來源于數(shù)據(jù)中,簡單來說就是該項集里面的項在數(shù)據(jù)中同時出現(xiàn)的次數(shù),如果A項集的頻繁度和B項集的頻繁度相等并且A項集是B項集的子集,則A項集是B項集的真子集;如果A項集是B項集的子集,但是支持度不同,貝1JA項集是B項集的子集,但并不是真子集。
      [0011 ]本發(fā)明的技術(shù)方案具有以下有益效果:
      本發(fā)明的技術(shù)方案,與現(xiàn)有頻繁項集挖掘算法比較,提取真子集的作用,主要的優(yōu)點是通過提取真子集,縮小數(shù)據(jù)量的大小,縮減數(shù)據(jù)的計算過程和數(shù)據(jù)存儲的大小,并且通過有效的減少無效項集的計算,防止重復數(shù)據(jù)的反復計算。從而使用該算法做推薦時,避免推薦無效的商品,可以有效的增加用戶體驗。真子集的使用是即節(jié)約成本,又提高性能和用戶體驗。
      [0012]下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
      【附圖說明】
      [0013]圖1為本發(fā)明實施例所述的頻繁項集挖掘算法的優(yōu)化方法的流程圖;
      圖2為本發(fā)明實施例所述的頻繁項集的數(shù)據(jù)結(jié)構(gòu)示意圖;
      圖3為本發(fā)明實施例所述的頻繁項集可以合并的數(shù)據(jù)結(jié)構(gòu)示意圖;
      圖4為本發(fā)明實施例所述的頻繁項集可以部分合并的數(shù)據(jù)結(jié)構(gòu)示意圖。
      【具體實施方式】
      [0014]以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
      [0015]如圖1所示,一種頻繁項集挖掘算法的優(yōu)化方法,包括:
      接收數(shù)據(jù);
      對于接收的數(shù)據(jù),使用前序遍歷,遍歷項集樹,從而對項集進行排列;
      對排列后的項集中相鄰的項集做父子集比較,并將比較結(jié)果為真子集與父集關系的項集合并;
      其中項集為頻繁項集的簡稱。
      [0016]優(yōu)選的,父子集比較,比較的內(nèi)容包括,項集的從屬關系和項集的支持度。
      [0017]優(yōu)選的,所述項集的從屬關系比較具體為:
      假設,兩個項集分別為A項集和B項集,如果A項集里面的項都包含于B項集中,則認為A項集屬于B項集,A項集是B項集的子集。
      [0018]優(yōu)選的,項集的支持度比較具體為:
      假設,兩個項集分別為A項集和B項集,項集的支持度來源于數(shù)據(jù)中,簡單來說就是該項集里面的項在數(shù)據(jù)中同時出現(xiàn)的次數(shù),如果A項集的頻繁度和B項集的頻繁度相等并且A項集是B項集的子集,則A項集是B項集的真子集;如果A項集是B項集的子集,但是支持度不同,貝1JA項集是B項集的子集,但并不是真子集。
      [0019]如圖2所示:頻繁項集結(jié)果集中存在如圖2所示的三列數(shù)據(jù),第二列和第三列為第一列的子集,并且三列頻繁項集的支持度都為10。在此情況下,第一列,第二列和第三位來自于同一數(shù)據(jù)源,說明了第二列和第三列為第一列的真子集,不必分為三列計算,可以合并為同一列,如圖3所不。
      [0020]如圖3所示:在頻繁項集的計算結(jié)果中,選擇下一列數(shù)據(jù)與當前數(shù)據(jù)列數(shù)據(jù)比較支持度和父子集關系,如果下一列是當前列的真子集,則將2列合為一列,再比較第三列,如果第三列仍和第一列是父子集關系,則將三列合為一列,依次比較下去;如果第三列和第一列不為父子關系,如圖4所示,則將第一列和第二列合并,從第三列依次往下比較。
      [0021]真子集和父集合并為同一列,在數(shù)據(jù)量方面縮減了重復數(shù)據(jù)的發(fā)生,在頻繁項集使用過程中,減少了計算的次數(shù)。在數(shù)據(jù)準確性方面,減少了來自于相同數(shù)據(jù)源的頻繁項集的重復使用,在數(shù)據(jù)準確性上面起到了優(yōu)化的作用。
      [0022]父子集比較:父子集比較分為2個部分。第一點是頻繁項集的從屬關系,項集是頻繁項的集合,如果A頻繁項集里面的項都包含于B頻繁項集中,則認為A項集屬于B項集,A項集是B項集的子集。第二點比較支持度,頻繁項集的支持度來源于數(shù)據(jù)中,簡單來說就是該項集的里面的項在數(shù)據(jù)中同時出現(xiàn)的次數(shù)。如果A項集的頻繁度和B項集的頻繁度相等并且A項集是B項集的子集,則A項集是B項集的真子集;如果A項集是B項集的子集,但是支持度不同,則A項集是B項集的子集,但并不是真子集。
      [0023]父子集比較選擇:在選擇頻繁項集做父子集比較時候,只需要選擇相鄰的2個集合做比較即可,在遍歷項集樹的使用前序遍歷,在可能存在父子關系的項集,會按照相鄰的關系排列在一起。
      [0024]最后應說明的是:以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,盡管參照前述實施例對本發(fā)明進行了詳細的說明,對于本領域的技術(shù)人員來說,其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
      【主權(quán)項】
      1.一種頻繁項集挖掘算法的優(yōu)化方法,其特征在于,包括: 接收數(shù)據(jù); 對于接收的數(shù)據(jù),使用前序遍歷,遍歷項集樹,從而對項集進行排列; 對排列后的項集中相鄰的項集做父子集比較,并將比較結(jié)果為真子集與父集關系的項集合并; 其中項集為頻繁項集的簡稱。2.根據(jù)權(quán)利要求1所述的頻繁項集挖掘算法的優(yōu)化方法,其特征在于,所述父子集比較,比較的內(nèi)容包括,項集的從屬關系和項集的支持度。3.根據(jù)權(quán)利要求2所述的頻繁項集挖掘算法的優(yōu)化方法,其特征在于,所述項集的從屬關系比較具體為: 假設,兩個項集分別為A項集和B項集,如果A項集里面的項都包含于B項集中,則認為A項集屬于B項集,A項集是B項集的子集。4.根據(jù)權(quán)利要求3所述的頻繁項集挖掘算法的優(yōu)化方法,其特征在于,所述項集的支持度比較具體為: 假設,兩個項集分別為A項集和B項集,項集的支持度來源于數(shù)據(jù)中,簡單來說就是該項集里面的項在數(shù)據(jù)中同時出現(xiàn)的次數(shù),如果A項集的頻繁度和B項集的頻繁度相等并且A項集是B項集的子集,則A項集是B項集的真子集;如果A項集是B項集的子集,但是支持度不同,貝1JA項集是B項集的子集,但并不是真子集。
      【專利摘要】本發(fā)明公開了一種頻繁項集挖掘算法的優(yōu)化方法,包括:接收數(shù)據(jù);對于接收的數(shù)據(jù),使用前序遍歷,遍歷項集樹,從而對項集進行排列;對排列后的項集中相鄰的項集做父子集比較,并將比較結(jié)果為真子集與父集關系的項集合并。與現(xiàn)有頻繁項集挖掘算法比較,提取真子集的作用,主要的優(yōu)點是通過提取真子集,縮小數(shù)據(jù)量的大小,縮減數(shù)據(jù)的計算過程和數(shù)據(jù)存儲的大小,并且通過有效的減少無效項集的計算,防止重復數(shù)據(jù)的反復計算。
      【IPC分類】G06F17/30
      【公開號】CN105447134
      【申請?zhí)枴緾N201510806032
      【發(fā)明人】李磊
      【申請人】央視國際網(wǎng)絡無錫有限公司
      【公開日】2016年3月30日
      【申請日】2015年11月20日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1