基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法

文檔序號(hào)：6620460閱讀：560來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法
【專(zhuān)利摘要】基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法，屬于失衡數(shù)據(jù)預(yù)測(cè)領(lǐng)域。為了解決傳統(tǒng)預(yù)測(cè)模型預(yù)測(cè)失衡數(shù)據(jù)的效果不好的問(wèn)題。它包括如下步驟：步驟一：采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi)，獲取K個(gè)類(lèi)的數(shù)據(jù)；步驟二：對(duì)獲取K個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣，抽取n個(gè)數(shù)據(jù)；步驟三：對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì)，獲取分層樣本邏輯回歸模型的參數(shù)估計(jì)式，確定分層樣本邏輯回歸模型；步驟四：將抽取的n個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中，確定待預(yù)測(cè)的樣本集是否是失衡數(shù)據(jù)集。它應(yīng)用于需預(yù)測(cè)失衡數(shù)據(jù)的生物、醫(yī)學(xué)、工程、計(jì)算等領(lǐng)域。
【專(zhuān)利說(shuō)明】基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于失衡數(shù)據(jù)預(yù)測(cè)領(lǐng)域。

【背景技術(shù)】
[0002] 眾所周知，決策必須依賴(lài)于預(yù)測(cè)。預(yù)測(cè)是對(duì)未來(lái)做出的估計(jì)和推斷，為了達(dá)到這一目的，往往要對(duì)現(xiàn)實(shí)世界（或稱(chēng)研究對(duì)象）進(jìn)行模仿或抽象，這一過(guò)程稱(chēng)之為建模。因此，一個(gè)"好"的模型不僅能表達(dá)現(xiàn)實(shí)而且應(yīng)該能通過(guò)現(xiàn)實(shí)數(shù)據(jù)準(zhǔn)確的反映現(xiàn)實(shí)的發(fā)展規(guī)律。因此，預(yù)測(cè)模型是一種以數(shù)量化表述為特征的預(yù)見(jiàn)或預(yù)言。
[0003] 面向失衡數(shù)據(jù)集的預(yù)測(cè)問(wèn)題是自然科學(xué)領(lǐng)域的難點(diǎn)問(wèn)題，并在生物、醫(yī)學(xué)、工程、計(jì)算等諸多領(lǐng)域具有重要的實(shí)際應(yīng)用價(jià)值。事實(shí)證明，在數(shù)據(jù)類(lèi)別失衡的情況下直接采用傳統(tǒng)預(yù)測(cè)模型都不能達(dá)到令人接受的預(yù)測(cè)效果。
[0004] 現(xiàn)采用的分層抽樣技術(shù)主要包括面向網(wǎng)絡(luò)流數(shù)據(jù)的分層采樣方法、用于IT系統(tǒng) 應(yīng)用考評(píng)拓展平臺(tái)的數(shù)據(jù)分層抽樣方法和面向高屬性維數(shù)據(jù)的分層抽樣的采樣方法。以上三種分層抽樣方法均面向特定領(lǐng)域的實(shí)際數(shù)據(jù)，并根據(jù)數(shù)據(jù)本身特性人為制定相應(yīng)的分層策略指導(dǎo)數(shù)據(jù)分層抽樣。
[0005] 而現(xiàn)有的邏輯回歸預(yù)測(cè)技術(shù)，多應(yīng)用在采用利用罰邏輯回歸（PLR)模型根據(jù)質(zhì)量篩分植物胚的方法、通過(guò)邏輯回歸算法預(yù)測(cè)有機(jī)化學(xué)品生物降解性的方法和基于多元邏輯回歸檢測(cè)ICU患者記錄中偽像的方法，而并沒(méi)有將邏輯回歸預(yù)測(cè)技術(shù)運(yùn)用在失衡數(shù)據(jù)集的預(yù)測(cè)領(lǐng)域。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是為了解決傳統(tǒng)預(yù)測(cè)模型預(yù)測(cè)失衡數(shù)據(jù)的效果不好的問(wèn)題，本發(fā)明提供一種基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法。
[0007] 本發(fā)明的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法，
[0008] 它包括如下步驟：
[0009] 步驟一：采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi)，獲取K個(gè)類(lèi)的數(shù)據(jù)；
[0010] 步驟二：對(duì)獲取κ個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣，抽取η個(gè)數(shù)據(jù)；
[0011] 步驟三：對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì)，獲取分層樣本邏輯回歸模型的參數(shù)估計(jì)式，確定分層樣本邏輯回歸模型；
[0012] 步驟四：將抽取的η個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中，確定待預(yù)測(cè)的樣本集是否是失衡數(shù)據(jù)集。
[0013] 本發(fā)明的有益效果在于，本發(fā)明采用聚類(lèi)分層抽樣的方法首先對(duì)失衡數(shù)據(jù)進(jìn)行重采樣，大量削減影響預(yù)測(cè)的噪聲數(shù)據(jù)，降低失衡比，減少數(shù)據(jù)淹沒(méi)現(xiàn)象的發(fā)生；其次，針對(duì)采樣后的數(shù)據(jù)分布的改變，提出一種參數(shù)補(bǔ)償邏輯回歸預(yù)測(cè)模型，有效改善預(yù)測(cè)性能的同時(shí) 校正預(yù)測(cè)概率值。經(jīng)試驗(yàn)驗(yàn)證，本發(fā)明的預(yù)測(cè)方法可以顯著提高失衡數(shù)據(jù)的預(yù)測(cè)精度。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0014] 圖1為【具體實(shí)施方式】一所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè) 方法的流程示意圖。
[0015] 圖2為【具體實(shí)施方式】二中基于聚類(lèi)的層次劃分原理示意圖。

【具體實(shí)施方式】

【具體實(shí)施方式】 [0016] 一：結(jié)合圖1說(shuō)明本實(shí)施方式，本實(shí)施方式所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法，它包括如下步驟：
[0017] 步驟一：采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi)，獲取K個(gè)類(lèi)的數(shù)據(jù)；
[0018] 步驟二：對(duì)獲取K個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣，抽取η個(gè)數(shù)據(jù)；
[0019] 步驟三：對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì)，獲取分層樣本邏輯回歸模型的參數(shù)估計(jì)式，確定分層樣本邏輯回歸模型；
[0020] 步驟四：將抽取的η個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中，確定待預(yù)測(cè)的樣本集是否是失衡數(shù)據(jù)集。
[0021] 分層抽樣，也叫類(lèi)型抽樣。就是將總體單位按某些重要屬性特征分成若干類(lèi)型或?qū)樱缓笤诟黝?lèi)型或?qū)又胁捎煤?jiǎn)單隨機(jī)抽樣（simple random sampling)或系統(tǒng)抽樣 (system sampling)方式抽取樣本單位。特點(diǎn)是：由于通過(guò)劃類(lèi)分層，增大了各類(lèi)型中單位間的共同性，容易抽出具有代表性的調(diào)查樣本。分層抽樣比簡(jiǎn)單隨機(jī)抽樣和系統(tǒng)抽樣更為精確，能夠通過(guò)對(duì)較少的抽樣單位的調(diào)查，得到比較準(zhǔn)確的推斷結(jié)果，特別是當(dāng)總體較大、內(nèi)部結(jié)構(gòu)復(fù)雜時(shí)，分層抽樣常能取得令人滿意的效果。同時(shí)，分層抽樣在對(duì)總體推斷的同時(shí)，還能獲得對(duì)每層的推論。該方法適用于總體情況復(fù)雜，各單位之間差異較大，單位較多的情況。分層隨機(jī)抽樣相比于隨機(jī)抽樣可以對(duì)總體的屬性做更為精確的估計(jì)。
[0022] 分層抽樣是把異質(zhì)性較強(qiáng)的總體分成一個(gè)個(gè)同質(zhì)性較強(qiáng)的子總體，再抽取不同的子總體中的樣本分別代表該子總體，所有的樣本進(jìn)而代表總體。相比于簡(jiǎn)單的隨機(jī)抽樣，分層抽樣首先要進(jìn)行層次的劃分，即分層。在實(shí)際應(yīng)用中采用分層抽樣的采樣方法，最重要的工作就是如何對(duì)樣本進(jìn)行合理的層次劃分，使分層后樣本的抽樣更精煉的表達(dá)總體分布與特性。層次劃分是分層抽樣的重點(diǎn)與難點(diǎn)問(wèn)題。所以本實(shí)施方式采用聚類(lèi)的方式進(jìn)行層次劃分。
[0023] 聚類(lèi)是數(shù)據(jù)挖掘領(lǐng)域最為常見(jiàn)的技術(shù)之一，用于發(fā)現(xiàn)在數(shù)據(jù)庫(kù)中未知的數(shù)據(jù)類(lèi)，通過(guò)聚類(lèi)過(guò)程形成的每一個(gè)組稱(chēng)為一個(gè)類(lèi)。在聚類(lèi)之前，數(shù)據(jù)類(lèi)劃分的數(shù)量與類(lèi)型均是未知的。這種數(shù)據(jù)類(lèi)劃分的依據(jù)是"物以類(lèi)聚"，即按個(gè)體或數(shù)據(jù)對(duì)象間的相似性，將研究對(duì)象劃分為若干。聚類(lèi)把一組對(duì)象按照相似度歸成若干類(lèi)別，目的在于使得屬于同一類(lèi)別的對(duì) 象之間具有盡可能相似的特征，而屬于不同類(lèi)別中的對(duì)象之間具有盡可能的相對(duì)獨(dú)。因此，聚類(lèi)方法為分層抽樣的層次劃分提供了很好的理論指導(dǎo)與可行的方法。

【具體實(shí)施方式】 [0024] 二：結(jié)合圖2說(shuō)明本實(shí)施方式，本實(shí)施方式是對(duì)一所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法的進(jìn)一步限定，步驟一中，采用 k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi)，獲取K個(gè)類(lèi)的數(shù)據(jù)的方法包括：
[0025] 步驟一一：在待預(yù)測(cè)的樣本集中隨機(jī)選擇K個(gè)數(shù)據(jù)，每一個(gè)數(shù)據(jù)作為一個(gè)類(lèi)的中心；
[0026] 步驟一二：根據(jù)距離每個(gè)類(lèi)的中心最近的原則，將待預(yù)測(cè)的樣本集中其他數(shù)據(jù)分配到各個(gè)相應(yīng)的類(lèi)中；
[0027] 步驟一三：針對(duì)每一個(gè)類(lèi)，計(jì)算該類(lèi)中所有數(shù)據(jù)的平均屬性值，并將所述平均屬性值作為該類(lèi)新的中心；
[0028] 步驟一四：根據(jù)距離每個(gè)類(lèi)新的中心最近的原則，重新將待預(yù)測(cè)的樣本集中的數(shù) 據(jù)分配到各個(gè)相應(yīng)的類(lèi)中；并判斷重新分的類(lèi)與步驟一二分的類(lèi)是否相同，若相同，停止，確定K個(gè)類(lèi)的數(shù)據(jù)，若不相同，則轉(zhuǎn)入步驟一三。
[0029] 本實(shí)施方式采用k-means聚類(lèi)算法應(yīng)用于分層抽樣中層次的劃分，之所以選用 k-means聚類(lèi)算法除了其簡(jiǎn)單、有效等特點(diǎn)外，最重要的是，這種聚類(lèi)算法可以事先設(shè)定聚類(lèi)類(lèi)別的個(gè)數(shù)。從層次劃分上講，應(yīng)用這種算法也就是可以事先定義所需要?jiǎng)澐值膶訑?shù)，這樣可以有效地控制采樣過(guò)程。【具體實(shí)施方式】三：本實(shí)施方式是對(duì)【具體實(shí)施方式】一所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法的進(jìn)一步限定，步驟三中，

【權(quán)利要求】
1. 基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法，其特征在于，它包括如下步驟：步驟一：采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi)，獲取K個(gè)類(lèi)的數(shù)據(jù)；步驟二：對(duì)獲取K個(gè)類(lèi)的數(shù)據(jù)進(jìn)行分層抽樣，抽取η個(gè)數(shù)據(jù)；步驟三：對(duì)分層樣本的邏輯回歸模型的參數(shù)進(jìn)行最大似然估計(jì)，獲取分層樣本邏輯回歸模型的參數(shù)估計(jì)式，確定分層樣本邏輯回歸模型；步驟四：將抽取的η個(gè)數(shù)據(jù)輸入至分層樣本邏輯回歸模型中，確定待預(yù)測(cè)的樣本集是否是失衡數(shù)據(jù)集。
2. 根據(jù)權(quán)利要求1所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法，其特征在于，步驟一中，采用k-means算法對(duì)待預(yù)測(cè)的樣本集進(jìn)行聚類(lèi)，獲取Κ個(gè)類(lèi)的數(shù)據(jù)的方法包括：步驟一一：在待預(yù)測(cè)的樣本集中隨機(jī)選擇K個(gè)數(shù)據(jù)，每一個(gè)數(shù)據(jù)作為一個(gè)類(lèi)的中心；步驟一二：根據(jù)距離每個(gè)類(lèi)的中心最近的原則，將待預(yù)測(cè)的樣本集中其他數(shù)據(jù)分配到各個(gè)相應(yīng)的類(lèi)中；步驟一三：針對(duì)每一個(gè)類(lèi)，計(jì)算該類(lèi)中所有數(shù)據(jù)的平均屬性值，并將所述平均屬性值作為該類(lèi)新的中心；步驟一四：根據(jù)距離每個(gè)類(lèi)新的中心最近的原則，重新將待預(yù)測(cè)的樣本集中的數(shù)據(jù)分配到各個(gè)相應(yīng)的類(lèi)中；并判斷重新分的類(lèi)與步驟一二分的類(lèi)是否相同，若相同，停止，確定 K個(gè)類(lèi)的數(shù)據(jù)，若不相同，則轉(zhuǎn)入步驟一三。
3. 根據(jù)權(quán)利要求1所述的基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法，其特征在于，先3娶二由.
其中〇1和β'均為分層樣本邏輯回歸模型的未知參數(shù)，β'為lXm的向量，β' = (β i，. . .，βπ)τ，χυ為第i個(gè)抽取的數(shù)據(jù)第j個(gè)特征，m是每個(gè)抽取的數(shù)據(jù)的特征個(gè)數(shù)，i = 1，2, 3,. . .，n ;yi是第i個(gè)抽取的數(shù)據(jù)的預(yù)測(cè)值，yi取值為{0,1};
每個(gè)抽取的數(shù)據(jù)的特征向量X = (Xp x2,...，xm)，xm為抽取的數(shù)據(jù)的第m個(gè)特征。
【文檔編號(hào)】G06F17/30GK104102716SQ201410341930
【公開(kāi)日】2014年10月15日申請(qǐng)日期:2014年7月17日優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】李鵬, 張楷卉申請(qǐng)人:哈爾濱理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李鵬;張楷卉
技術(shù)所有人：哈爾濱理工大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分層抽樣相關(guān)技術(shù)

分層抽樣和系統(tǒng)抽樣相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于聚類(lèi)分層抽樣補(bǔ)償邏輯回歸的失衡數(shù)據(jù)預(yù)測(cè)方法