基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法
【專(zhuān)利摘要】基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法,屬于失衡數(shù)據(jù)預(yù)測(cè)領(lǐng)域。為了解決傳統(tǒng)預(yù)測(cè)模型預(yù)測(cè)失衡數(shù)據(jù)的效果不好的問(wèn)題。它包括如下步驟:步驟一:采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi),獲取K個(gè)類(lèi)的數(shù)據(jù);步驟二:對(duì)獲取K個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣,抽取n個(gè)數(shù)據(jù);步驟三:對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì),獲取分層樣本邏輯回歸模型的參數(shù)估計(jì)式,確定分層樣本邏輯回歸模型;步驟四:將抽取的n個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中,確定待預(yù)測(cè)的樣本集是否是失衡數(shù)據(jù)集。它應(yīng)用于需預(yù)測(cè)失衡數(shù)據(jù)的生物、醫(yī)學(xué)、工程、計(jì)算等領(lǐng)域。
【專(zhuān)利說(shuō)明】基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于失衡數(shù)據(jù)預(yù)測(cè)領(lǐng)域。
【背景技術(shù)】
[0002] 眾所周知,決策必須依賴(lài)于預(yù)測(cè)。預(yù)測(cè)是對(duì)未來(lái)做出的估計(jì)和推斷,為了達(dá)到這一 目的,往往要對(duì)現(xiàn)實(shí)世界(或稱(chēng)研究對(duì)象)進(jìn)行模仿或抽象,這一過(guò)程稱(chēng)之為建模。因此, 一個(gè)"好"的模型不僅能表達(dá)現(xiàn)實(shí)而且應(yīng)該能通過(guò)現(xiàn)實(shí)數(shù)據(jù)準(zhǔn)確的反映現(xiàn)實(shí)的發(fā)展規(guī)律。因 此,預(yù)測(cè)模型是一種以數(shù)量化表述為特征的預(yù)見(jiàn)或預(yù)言。
[0003] 面向失衡數(shù)據(jù)集的預(yù)測(cè)問(wèn)題是自然科學(xué)領(lǐng)域的難點(diǎn)問(wèn)題,并在生物、醫(yī)學(xué)、工程、 計(jì)算等諸多領(lǐng)域具有重要的實(shí)際應(yīng)用價(jià)值。事實(shí)證明,在數(shù)據(jù)類(lèi)別失衡的情況下直接采用 傳統(tǒng)預(yù)測(cè)模型都不能達(dá)到令人接受的預(yù)測(cè)效果。
[0004] 現(xiàn)采用的分層抽樣技術(shù)主要包括面向網(wǎng)絡(luò)流數(shù)據(jù)的分層采樣方法、用于IT系統(tǒng) 應(yīng)用考評(píng)拓展平臺(tái)的數(shù)據(jù)分層抽樣方法和面向高屬性維數(shù)據(jù)的分層抽樣的采樣方法。以上 三種分層抽樣方法均面向特定領(lǐng)域的實(shí)際數(shù)據(jù),并根據(jù)數(shù)據(jù)本身特性人為制定相應(yīng)的分層 策略指導(dǎo)數(shù)據(jù)分層抽樣。
[0005] 而現(xiàn)有的邏輯回歸預(yù)測(cè)技術(shù),多應(yīng)用在采用利用罰邏輯回歸(PLR)模型根據(jù)質(zhì)量 篩分植物胚的方法、通過(guò)邏輯回歸算法預(yù)測(cè)有機(jī)化學(xué)品生物降解性的方法和基于多元邏輯 回歸檢測(cè)ICU患者記錄中偽像的方法,而并沒(méi)有將邏輯回歸預(yù)測(cè)技術(shù)運(yùn)用在失衡數(shù)據(jù)集的 預(yù)測(cè)領(lǐng)域。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是為了解決傳統(tǒng)預(yù)測(cè)模型預(yù)測(cè)失衡數(shù)據(jù)的效果不好的問(wèn)題,本發(fā)明 提供一種基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法。
[0007] 本發(fā)明的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法,
[0008] 它包括如下步驟:
[0009] 步驟一:采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi),獲取K個(gè)類(lèi)的數(shù)據(jù);
[0010] 步驟二:對(duì)獲取κ個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣,抽取η個(gè)數(shù)據(jù);
[0011] 步驟三:對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì),獲取分層樣本邏 輯回歸模型的參數(shù)估計(jì)式,確定分層樣本邏輯回歸模型;
[0012] 步驟四:將抽取的η個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中,確定待預(yù)測(cè)的樣本 集是否是失衡數(shù)據(jù)集。
[0013] 本發(fā)明的有益效果在于,本發(fā)明采用聚類(lèi)分層抽樣的方法首先對(duì)失衡數(shù)據(jù)進(jìn)行重 采樣,大量削減影響預(yù)測(cè)的噪聲數(shù)據(jù),降低失衡比,減少數(shù)據(jù)淹沒(méi)現(xiàn)象的發(fā)生;其次,針對(duì)采 樣后的數(shù)據(jù)分布的改變,提出一種參數(shù)補(bǔ)償邏輯回歸預(yù)測(cè)模型,有效改善預(yù)測(cè)性能的同時(shí) 校正預(yù)測(cè)概率值。經(jīng)試驗(yàn)驗(yàn)證,本發(fā)明的預(yù)測(cè)方法可以顯著提高失衡數(shù)據(jù)的預(yù)測(cè)精度。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0014] 圖1為【具體實(shí)施方式】一所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè) 方法的流程示意圖。
[0015] 圖2為【具體實(shí)施方式】二中基于聚類(lèi)的層次劃分原理示意圖。
【具體實(shí)施方式】
【具體實(shí)施方式】 [0016] 一:結(jié)合圖1說(shuō)明本實(shí)施方式,本實(shí)施方式所述的基于聚類(lèi)分層抽 樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法,它包括如下步驟:
[0017] 步驟一:采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi),獲取K個(gè)類(lèi)的數(shù)據(jù);
[0018] 步驟二:對(duì)獲取K個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣,抽取η個(gè)數(shù)據(jù);
[0019] 步驟三:對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì),獲取分層樣本邏 輯回歸模型的參數(shù)估計(jì)式,確定分層樣本邏輯回歸模型;
[0020] 步驟四:將抽取的η個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中,確定待預(yù)測(cè)的樣本 集是否是失衡數(shù)據(jù)集。
[0021] 分層抽樣,也叫類(lèi)型抽樣。就是將總體單位按某些重要屬性特征分成若干類(lèi)型 或?qū)樱缓笤诟黝?lèi)型或?qū)又胁捎煤?jiǎn)單隨機(jī)抽樣(simple random sampling)或系統(tǒng)抽樣 (system sampling)方式抽取樣本單位。特點(diǎn)是:由于通過(guò)劃類(lèi)分層,增大了各類(lèi)型中單位 間的共同性,容易抽出具有代表性的調(diào)查樣本。分層抽樣比簡(jiǎn)單隨機(jī)抽樣和系統(tǒng)抽樣更為 精確,能夠通過(guò)對(duì)較少的抽樣單位的調(diào)查,得到比較準(zhǔn)確的推斷結(jié)果,特別是當(dāng)總體較大、 內(nèi)部結(jié)構(gòu)復(fù)雜時(shí),分層抽樣常能取得令人滿意的效果。同時(shí),分層抽樣在對(duì)總體推斷的同 時(shí),還能獲得對(duì)每層的推論。該方法適用于總體情況復(fù)雜,各單位之間差異較大,單位較多 的情況。分層隨機(jī)抽樣相比于隨機(jī)抽樣可以對(duì)總體的屬性做更為精確的估計(jì)。
[0022] 分層抽樣是把異質(zhì)性較強(qiáng)的總體分成一個(gè)個(gè)同質(zhì)性較強(qiáng)的子總體,再抽取不同的 子總體中的樣本分別代表該子總體,所有的樣本進(jìn)而代表總體。相比于簡(jiǎn)單的隨機(jī)抽樣,分 層抽樣首先要進(jìn)行層次的劃分,即分層。在實(shí)際應(yīng)用中采用分層抽樣的采樣方法,最重要的 工作就是如何對(duì)樣本進(jìn)行合理的層次劃分,使分層后樣本的抽樣更精煉的表達(dá)總體分布與 特性。層次劃分是分層抽樣的重點(diǎn)與難點(diǎn)問(wèn)題。所以本實(shí)施方式采用聚類(lèi)的方式進(jìn)行層次 劃分。
[0023] 聚類(lèi)是數(shù)據(jù)挖掘領(lǐng)域最為常見(jiàn)的技術(shù)之一,用于發(fā)現(xiàn)在數(shù)據(jù)庫(kù)中未知的數(shù)據(jù)類(lèi), 通過(guò)聚類(lèi)過(guò)程形成的每一個(gè)組稱(chēng)為一個(gè)類(lèi)。在聚類(lèi)之前,數(shù)據(jù)類(lèi)劃分的數(shù)量與類(lèi)型均是未 知的。這種數(shù)據(jù)類(lèi)劃分的依據(jù)是"物以類(lèi)聚",即按個(gè)體或數(shù)據(jù)對(duì)象間的相似性,將研究對(duì)象 劃分為若干。聚類(lèi)把一組對(duì)象按照相似度歸成若干類(lèi)別,目的在于使得屬于同一類(lèi)別的對(duì) 象之間具有盡可能相似的特征,而屬于不同類(lèi)別中的對(duì)象之間具有盡可能的相對(duì)獨(dú)。因此, 聚類(lèi)方法為分層抽樣的層次劃分提供了很好的理論指導(dǎo)與可行的方法。
【具體實(shí)施方式】 [0024] 二:結(jié)合圖2說(shuō)明本實(shí)施方式,本實(shí)施方式是對(duì)一所 述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法的進(jìn)一步限定,步驟一中,采用 k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi),獲取K個(gè)類(lèi)的數(shù)據(jù)的方法包括:
[0025] 步驟一一:在待預(yù)測(cè)的樣本集中隨機(jī)選擇K個(gè)數(shù)據(jù),每一個(gè)數(shù)據(jù)作為一個(gè)類(lèi)的中 心;
[0026] 步驟一二:根據(jù)距離每個(gè)類(lèi)的中心最近的原則,將待預(yù)測(cè)的樣本集中其他數(shù)據(jù)分 配到各個(gè)相應(yīng)的類(lèi)中;
[0027] 步驟一三:針對(duì)每一個(gè)類(lèi),計(jì)算該類(lèi)中所有數(shù)據(jù)的平均屬性值,并將所述平均屬性 值作為該類(lèi)新的中心;
[0028] 步驟一四:根據(jù)距離每個(gè)類(lèi)新的中心最近的原則,重新將待預(yù)測(cè)的樣本集中的數(shù) 據(jù)分配到各個(gè)相應(yīng)的類(lèi)中;并判斷重新分的類(lèi)與步驟一二分的類(lèi)是否相同,若相同,停止, 確定K個(gè)類(lèi)的數(shù)據(jù),若不相同,則轉(zhuǎn)入步驟一三。
[0029] 本實(shí)施方式采用k-means聚類(lèi)算法應(yīng)用于分層抽樣中層次的劃分,之所以選用 k-means聚類(lèi)算法除了其簡(jiǎn)單、有效等特點(diǎn)外,最重要的是,這種聚類(lèi)算法可以事先設(shè)定聚 類(lèi)類(lèi)別的個(gè)數(shù)。從層次劃分上講,應(yīng)用這種算法也就是可以事先定義所需要?jiǎng)澐值膶訑?shù),這 樣可以有效地控制采樣過(guò)程。【具體實(shí)施方式】三:本實(shí)施方式是對(duì)【具體實(shí)施方式】一所述的基 于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法的進(jìn)一步限定,步驟三中,
【權(quán)利要求】
1. 基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法,其特征在于,它包括如下步 驟: 步驟一:采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi),獲取K個(gè)類(lèi)的數(shù)據(jù); 步驟二:對(duì)獲取K個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣,抽取η個(gè)數(shù)據(jù); 步驟三:對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì),獲取分層樣本邏輯回 歸模型的參數(shù)估計(jì)式,確定分層樣本邏輯回歸模型; 步驟四:將抽取的η個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中,確定待預(yù)測(cè)的樣本集是 否是失衡數(shù)據(jù)集。
2. 根據(jù)權(quán)利要求1所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法,其特 征在于,步驟一中,采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi),獲取Κ個(gè)類(lèi)的數(shù)據(jù)的方 法包括: 步驟一一:在待預(yù)測(cè)的樣本集中隨機(jī)選擇K個(gè)數(shù)據(jù),每一個(gè)數(shù)據(jù)作為一個(gè)類(lèi)的中心; 步驟一二:根據(jù)距離每個(gè)類(lèi)的中心最近的原則,將待預(yù)測(cè)的樣本集中其他數(shù)據(jù)分配到 各個(gè)相應(yīng)的類(lèi)中; 步驟一三:針對(duì)每一個(gè)類(lèi),計(jì)算該類(lèi)中所有數(shù)據(jù)的平均屬性值,并將所述平均屬性值作 為該類(lèi)新的中心; 步驟一四:根據(jù)距離每個(gè)類(lèi)新的中心最近的原則,重新將待預(yù)測(cè)的樣本集中的數(shù)據(jù)分 配到各個(gè)相應(yīng)的類(lèi)中;并判斷重新分的類(lèi)與步驟一二分的類(lèi)是否相同,若相同,停止,確定 K個(gè)類(lèi)的數(shù)據(jù),若不相同,則轉(zhuǎn)入步驟一三。
3. 根據(jù)權(quán)利要求1所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法,其特 征在于, 先3娶二由.
其中〇1和β'均為分層樣本邏輯回歸模型的未知參數(shù),β'為lXm的向量,β' = (β i,. . .,βπ)τ,χυ為第i個(gè)抽取的數(shù)據(jù)第j個(gè)特征,m是每個(gè)抽取的數(shù)據(jù)的特征個(gè)數(shù),i = 1,2, 3,. . .,n ;yi是第i個(gè)抽取的數(shù)據(jù)的預(yù)測(cè)值,yi取值為{0,1};
每個(gè)抽取的數(shù)據(jù)的特征向量X = (Xp x2,...,xm),xm為抽取的數(shù)據(jù)的第m個(gè)特征。
【文檔編號(hào)】G06F17/30GK104102716SQ201410341930
【公開(kāi)日】2014年10月15日 申請(qǐng)日期:2014年7月17日 優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】李鵬, 張楷卉 申請(qǐng)人:哈爾濱理工大學(xué)