本發(fā)明涉及計算技術(shù)領(lǐng)域,具體而言,涉及一種基于混合整數(shù)線性規(guī)劃的粗糙集模型建立方法和裝置。
背景技術(shù):
粗糙集理論是一門關(guān)于不確定性的學科,粗糙集理論的核心思想是通過將給定的有限集合表示為上近似集合和下近似集合,并以此來進行對不精確數(shù)據(jù)的推理,或者發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系。粗糙集有一很明顯的缺點,對噪聲數(shù)據(jù)很敏感。在實際應(yīng)用中,對于包含噪聲數(shù)據(jù)的數(shù)據(jù)集,基于粗糙集的決策模型的精度會比較低。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種基于混合整數(shù)線性規(guī)劃的粗糙集模型建立方法和設(shè)備,以力圖解決或者至少緩解上面存在的問題。
第一方面,本發(fā)明的實施例提供一種基于混合整數(shù)線性規(guī)劃的粗糙集模型建立方法,包括:
獲取原始數(shù)據(jù);
根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目所需使用的目標函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃的粗糙集模型,所述目標函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目的目標函數(shù)至少基于條件屬性近似等價類集合和決策屬性近似等價類集合進行計算,其中,所述條件屬性近似等價類至少采用表征模型條件屬性的性能參數(shù)進行計算,所述條件屬性近似等價類集合包括至少一個條件屬性近似等價類,所述決策屬性近似等價類至少采用表征模型決策屬性的性能參數(shù)進行計算,所述決策屬性近似等價類集合包括至少一個決策屬性近似等價類。
可選地,所述確定所述性能參數(shù)的約束條件,包括:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,所述確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ssijc≥αc-|xci-xcj|,i∈i,j∈i,c∈c
m*(1-ssijc)≥|xci-xcj|-αc,i∈i,j∈i,c∈c
ω_cij≤ssijc+(1-slc),i∈i,j∈i,c∈c
ssijc≥1-slc,i∈i,j∈i,c∈c
其中,i、j分別為屬于同一條件屬性c的論域中兩樣本,i、j為自然數(shù);
xci為i樣本在條件屬性c下的取值;
xcj為j樣本在條件屬性c下的取值;
c為條件屬性集;
c為條件屬性集中的任意一個屬性;
m為任意大數(shù);
αc為條件屬性集的相似度閾值;
ssijc的取值為0或1,對于論域i中的任意兩個樣本點i和j,以及條件屬性集中的任意屬性c,若ssijc=1,則樣本點i和j在屬性c上的取值滿足對應(yīng)的相似度閾值αc,否則為0;
ω_cij取值為0或1,對于論域i中任意兩個樣本點i和j,若ω_cij=1,則i和j可以在同一個由條件屬性劃分的近似等價類中,反之,i和j無法被劃分到同一個條件屬性劃分的近似等價類中;
slc取值為0或1,對于條件屬性集中的條件屬性c,若slc=1,則該屬性c被選擇為新的條件屬性集參與對論域的劃分,否則該條件屬性c選擇與否對決策規(guī)則的建立影響很小,從條件屬性集中被剔除。
可選地,所述確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ss′ijd≥αd-|xdi-xdj|,i∈i,j∈i,d∈d
m*(1-ss′ijd)≥|xdi-xdj|-αd,i∈i,j∈i,d∈d
ss′ijd≥1-sl′d,i∈i,j∈i,d∈d
其中,d為決策屬性集;
d為決策屬性集中的任意一個屬性;
αd為決策屬性集的相似度閾值;
i、j分別為屬于同一決策屬性d的論域中兩樣本,i、j為自然數(shù);
xdi為i樣本在決策屬性c下的取值;
xdj為j樣本在決策屬性c下的取值;
ss′ijd取值為0或1,對于論域i中的任意兩個樣本點i和j,以及決策屬性集中的任意屬性d,若ss′ijd=1,則樣本點i和j在屬性d上的取值滿足對應(yīng)的相似度閾值αd;
ω_dij取值為0或1,對于論域i中任意兩個樣本點i和j,若ω_dij=1,則i和j可以在同一個由決策屬性集劃分的近似等價類中,反之,i和j無法被劃分到同一個決策屬性集的近似等價類中;
sl′d取值為0或1,對于決策屬性集中的決策屬性d,若sl′d=1,則該決策屬性d被選擇為新的決策屬性集并參與對論域的劃分,否則決策屬性d選擇與否對決策規(guī)則的建立影響很小,從決策屬性集中被剔除。
可選地,在所述獲取原始數(shù)據(jù)之后,還包括:
對原始數(shù)據(jù)進行缺失值處理和降維處理。
可選地,還包括:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計算所述目標函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價類又為決策屬性近似等價類的目標近似等價類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評價該模型的決策結(jié)果。
第二方面,本發(fā)明的實施例提供一種模型建立裝置,包括:
獲取單元,用于獲取原始數(shù)據(jù);
第一計算單元,用于根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目所需使用的目標函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃的粗糙集模型,所述目標函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述第一計算單元所述計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目的目標函數(shù),至少基于條件屬性近似等價類集合和決策屬性近似等價類集合進行計算,其中,所述條件屬性近似等價類至少采用表征模型條件屬性的性能參數(shù)進行計算,所述條件屬性近似等價類集合包括至少一個條件屬性近似等價類,所述決策屬性近似等價類至少采用表征模型決策屬性的性能參數(shù)進行計算,所述決策屬性近似等價類集合包括至少一個決策屬性近似等價類。
可選地,所述第一計算單元還用于:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,還包括:處理單元,所述處理單元用于:
對原始數(shù)據(jù)進行缺失值處理和降維處理。
可選地,還包括:第二計算單元,所述第二計算單元用于:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計算所述目標函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價類又為決策屬性近似等價類的目標近似等價類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評價該模型的決策結(jié)果。
根據(jù)本發(fā)明的技術(shù)方案,可以剔除各個屬性集中對決策精度影響較小的屬性,自動完成屬性篩選過程,實現(xiàn)了屬性集對原始的劃分,具有很強的可擴展性,可以根據(jù)具體的研究對象,選擇屬性集對論域的具體劃分依據(jù)和方法,以適應(yīng)多種數(shù)據(jù)類型的數(shù)據(jù)組成的數(shù)據(jù)集。
為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明實施例提供的一種基于混合整數(shù)線性規(guī)劃的粗糙集模型的建立方法的流程圖;
圖2為本發(fā)明實施例提供的一種基于混合整數(shù)線性規(guī)劃的粗糙集模型的建立裝置的結(jié)構(gòu)圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例。基于本發(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
圖1為根據(jù)本發(fā)明實施例提供的一種模型建立方法的流程示意圖。如圖1所示,該方法始于步驟s110。
在步驟s110中,獲取原始數(shù)據(jù)。
可選地,在所述獲取原始數(shù)據(jù)之后,還包括:
對原始數(shù)據(jù)進行缺失值處理和降維處理。
其中,原始數(shù)據(jù)的結(jié)合稱為論域i,缺失值處理算法可以是但不限于多重替代缺失值、直接刪除包含缺失值的樣本、最大似然估計法、均值代替缺失值等,降維處理算法可以是但不限于主成分分析法等,本發(fā)明對此不予限制。由于原始數(shù)據(jù)相互之間可能存在很強的相關(guān)性,通過降維處理以在原始數(shù)據(jù)的基礎(chǔ)上對數(shù)據(jù)集進行簡化。
對于高維度的數(shù)據(jù)集,首先需要進行降維處理,但是降維處理后的數(shù)據(jù)集只能在一定程度上代表原始數(shù)據(jù)集,降維過程的實現(xiàn)實際上是以犧牲部分原始數(shù)據(jù)集中所蘊含的信息為代價的,而本發(fā)明只需要根據(jù)數(shù)據(jù)質(zhì)量分析進行簡單的預(yù)處理過程就可以作為該模型的輸入數(shù)據(jù),最大程度上保留了原始數(shù)據(jù)集中所包含的全部信息。
在步驟s120中,根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目所需使用的目標函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃(milp)的粗糙集模型,所述目標函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目的目標函數(shù)至少基于條件屬性近似等價類集合和決策屬性近似等價類集合進行計算,其中,所述條件屬性近似等價類至少采用表征模型條件屬性的各個性能參數(shù)進行計算,所述條件屬性近似等價類集合包括至少一個條件屬性近似等價類,所述決策屬性近似等價類至少采用表征模型決策屬性的各個性能參數(shù)進行計算,所述決策屬性近似等價類集合包括至少一個決策屬性近似等價類。
可選地,所述確定所述性能參數(shù)的約束條件,包括:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,所述確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ssijc≥αc-|xci-xcj|,i∈i,j∈i,c∈c
m*(1-ssijc)≥|xci-xcj|-αc,i∈i,j∈i,c∈c
ω_cij≤ssijc+(1-slc),i∈i,j∈i,c∈c
ssijc≥1-slc,i∈i,j∈i,c∈c
其中,i、j分別為屬于同一條件屬性c的論域中兩樣本,i、j為自然數(shù);
xci為i樣本在條件屬性c下的取值;
xcj為j樣本在條件屬性c下的取值;
c為條件屬性集;
c為條件屬性集中的任意一個屬性;
m為任意大數(shù);
αc為條件屬性集的相似度閾值;
ssijc的取值為0或1,對于論域i中的任意兩個樣本點i和j,以及條件屬性集中的任意屬性c,若ssijc=1,則樣本點i和j在屬性c上的取值滿足對應(yīng)的相似度閾值αc,否則為0;
ω_cij取值為0或1,對于論域i中任意兩個樣本點i和j,若ω_cij=1,則i和j可以在同一個由條件屬性劃分的近似等價類中,反之,i和j無法被劃分到同一個條件屬性劃分的近似等價類中;
slc取值為0或1,對于條件屬性集中的條件屬性c,若slc=1,則該屬性c被選擇為新的條件屬性集參與對論域的劃分,否則該條件屬性c選擇與否對決策規(guī)則的建立影響很小,從條件屬性集中被剔除。
可選地,所述確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件,包括:
m*ss′ijd≥αd-|xdi-xdj|,i∈i,j∈i,d∈d
m*(1-ss′ijd)≥|xdi-xdj|-αd,i∈i,j∈i,d∈d
ssi′jd≥1-sl′d,i∈i,j∈i,d∈d
其中,d為決策屬性集;
d為決策屬性集中的任意一個屬性;
αd為決策屬性集的相似度閾值;
i、j分別為屬于同一決策屬性d的論域中兩樣本,i、j為自然數(shù);
xdi為i樣本在決策屬性c下的取值;
xdj為j樣本在決策屬性c下的取值;
ss′ijd取值為0或1,對于論域i中的任意兩個樣本點i和j,以及決策屬性集中的任意屬性d,若ss′ijd=1,則樣本點i和j在屬性d上的取值滿足對應(yīng)的相似度閾值αd;
ω_dij取值為0或1,對于論域i中任意兩個樣本點i和j,若ω_dij=1,則i和j可以在同一個由決策屬性集劃分的近似等價類中,反之,i和j無法被劃分到同一個決策屬性集的近似等價類中;
sl′d取值為0或1,對于決策屬性集中的決策屬性d,若sl′d=1,則該決策屬性d被選擇為新的決策屬性集并參與對論域的劃分,否則決策屬性d選擇與否對決策規(guī)則的建立影響很小,從決策屬性集中被剔除。
其中,條件屬性和決策屬性一般為根據(jù)原始數(shù)據(jù)的特征進行劃分,本發(fā)明對此不予限制。在本發(fā)明實施例中,計算計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目所需使用的目標函數(shù),如下:
其中,c為條件屬性集;
c為條件屬性集中的任意一個屬性;
d為決策屬性集;
d為決策屬性集中的任意一個屬性;
kc為根據(jù)條件屬性集對論域進行劃分的近似等價類的集合;
k為kc中近似等價類的標號,k為自然數(shù);
yk為kc中的第k個近似等價類k是kd中第k′個近似等價類的下近似集時,該下近似集k中樣本的數(shù)目;
kd為根據(jù)決策屬性集對論域進行劃分的近似等價類的集合。
其中,條件屬性集合中包括多個條件屬性,決策屬性集合中包括多個決策屬性。在實際應(yīng)用中,可根據(jù)屬性的名稱為屬性編號。
確定所述性能參數(shù)的約束條件,如下:
若屬于同一條件屬性集c的論域中兩樣本點之間的距離小于該屬性對應(yīng)的相似度閾值αc,則變量ssijc=1;反之,ssijc=0;建立約束條件如下:
m*ssijc≥αc-|xci-xcj|,i∈i,j∈i,c∈c(1)
m*(1-ssijc)≥|xci-xcj|-αc,i∈i,j∈i,c∈c(2)
其中,i、j分別為屬于同一條件屬性c的論域中兩樣本,i、j為自然數(shù);
xci為i樣本在條件屬性c下的取值;
xcj為j樣本在條件屬性c下的取值;
c為條件屬性集;
c為條件屬性集中的任意一個屬性;
m為任意大數(shù);
αc為條件屬性集的相似度閾值;
ssijc的取值為0或1,對于論域i中的任意兩個樣本點i和j,以及條件屬性集中的任意屬性c,若ssijc=1,則樣本點i和j在屬性c上的取值滿足對應(yīng)的相似度閾值αc,否則為0;
若選擇條件屬性c,即slc=1,則該屬性被選入條件屬性集并參與對論域的劃分,建立約束條件(3);否則,slc=0,即條件屬性c對論域的劃分沒有影響,認為在剔除屬性上兩樣本之間總是存在不可分辨關(guān)系,建立約束條件(4);
ω_cij≤ssijc+(1-slc),i∈i,j∈i,c∈c(3)
ssijc≥1-slc,i∈i,j∈i,c∈c(4)
其中,ω_cij取值為0或1,對于論域i中任意兩個樣本點i和j,若ω_cij=1,則i和j可以在同一個由條件屬性劃分的近似等價類中,反之,i和j無法被劃分到同一個條件屬性劃分的近似等價類中;
slc取值為0或1,對于條件屬性集中的條件屬性c,若slc=1,則該屬性c被選擇為新的條件屬性集參與對論域的劃分,否則該條件屬性c選擇與否對決策規(guī)則的建立影響很小,從條件屬性集中被剔除。
論域中任意兩個樣本點可以劃分到一個近似等價類中的必要條件為ω_cij=1成立,即,任意兩個樣本點在條件屬性集的每個屬性上都滿足對應(yīng)的相似度閾值,建立約束條件(5)如下:
若決策屬性d上兩樣本點之間的距離小于該屬性對應(yīng)的相似度閾值αd,則變量ss′ijd=1;反之,ss′ijd=0;建立約束條件(6)、(7)如下:
m*ss′ijd≥αd-|xdi-xdj|,i∈i,j∈i,d∈d(6)
m*(1-ss′ijd)≥|xdi-xdj|-αd,i∈i,j∈i,d∈d(7)
其中,d為決策屬性集;
d為決策屬性集中的任意一個屬性;
αd為決策屬性集的相似度閾值;
i、j分別為屬于同一決策屬性d的論域中兩樣本,i、j為自然數(shù);
xdi為i樣本在決策屬性c下的取值;
xdj為j樣本在決策屬性c下的取值;
ss′ijd取值為0或1,對于論域i中的任意兩個樣本點i和j,以及決策屬性集中的任意屬性d,若ss′ijd=1,則樣本點i和j在屬性d上的取值滿足對應(yīng)的相似度閾值αd。
若選擇決策屬性d,即sl′d=1,則該決策屬性d被選入決策屬性集并參與對論域的劃分,建立約束條件(8);否則,sl′d=0,即決策屬性d對論域的劃分沒有影響,認為在剔除屬性上兩樣本之間總是存在不可分辨關(guān)系,建立約束條件(9);
ω_dij≤ss′ijd+(1-sl′d),i∈i,j∈i,d∈d(8)
ss′ijd≥1-sl′d,i∈i,j∈i,d∈d(9)
其中,ω_dij取值為0或1,對于論域i中任意兩個樣本點i和j,若ω_dij=1,則i和j可以在同一個由決策屬性集劃分的近似等價類中,反之,i和j無法被劃分到同一個決策屬性集的近似等價類中;
sl′d取值為0或1,對于決策屬性集中的決策屬性d,若sl′d=1,則該決策屬性d被選擇為新的決策屬性集并參與對論域的劃分,否則決策屬性d選擇與否對決策規(guī)則的建立影響很小,從決策屬性集中被剔除;
論域中任意兩個樣本點可以劃分到一個近似等價類中的必要條件為ω_dij=1成立,即,任意兩個樣本點在整個決策屬性集的每個決策屬性上都滿足對應(yīng)的相似度閾值,建立約束條件(10)如下:
為條件屬性集的樣本分配過程設(shè)定初始值,也就是要將指定樣本分配到一個條件屬性對論域劃分后的一個近似等價類中,由變量qik的定義可知:i=1代表論域中編號為1的樣本,k=1代表集合kc中編號為1的近似等價類,具體做法就是將編號為1的樣本劃分給編號為1的近似等價類;建立約束條件(11)如下:
q11=1(11)
其中,qik取值為0或1,對于論域i中的任意樣本點i和由條件屬性集對論域進行劃分得到的近似等價類集合kc中的任意一個近似等價類k,若qik=1,則樣本點i在近似等價類k中,反之,樣本點i不屬于近似等價類k。
每個樣本屬于并且僅屬于一個近似等價類,但并不是每一個預(yù)先設(shè)定的近似等價類中都存在樣本,因為在未知具體劃分近似等價類的個數(shù)的前提下,預(yù)先設(shè)定的近似等價類集合中近似等價類的個數(shù)可能是過剩的,如果預(yù)先設(shè)定的近似等價類集合中近似等價類的個數(shù)少于實際劃分的近似等價類個數(shù),那么該模型將會不可解。建立約束條件(12)如下:
論域中的兩個樣本點i和j同時被分配到一個近似等價類中的前提條件是這兩個樣本點必須屬于同一個近似等價類,當且僅當ω_cij=1時,qik和qjk才可能同時取1;建立約束條件(13)如下:
其中,qjk取值為0或1,對于論域i中的任意樣本點j和由條件屬性集對論域進行劃分得到的近似等價類集合kc中的任意一個近似等價類k,若qjk=1,則樣本j在近似等價類k中,反之,樣本點j不屬于近似等價類k。
變量qk的設(shè)定是為了統(tǒng)計由條件屬性集對論域進行劃分得到的各個近似等價類中被分配的樣本點的個數(shù);建立約束條件(14)如下:
其中,qk為由條件屬性集對論域進行劃分得到的近似等價類k中的樣本的數(shù)目;
為決策屬性集的樣本分配過程設(shè)定初始值,也就是要將指定樣本點分配到一個決策屬性集對論域劃分后的一個近似等價類中,由變量q′ik′的定義可知:i=1代表論域中編號為1的樣本,k′=1代表集合kd中編號為1的近似等價類,具體做法就是將編號為1的樣本劃分給編號為1的近似等價類;建立約束條件(15)如下:
q′11=1(15)
其中,q′ik′取值為0或1,對于論域i中的任意樣本點i和由決策屬性集對論域進行劃分得到的近似等價類集合kd中的任意一個近似等價類k′,若q′ik′=1,則樣本i在近似等價類k′中,反之,樣本點i不屬于近似等價類k′。
每個樣本屬于并且僅屬于一個近似等價類,但并不是每一個預(yù)先設(shè)定的近似等價類中都存在樣本點,因為在未知具體劃分近似等價類的個數(shù)的前提下,預(yù)先設(shè)定的近似等價類集合中近似等價類的個數(shù)可能是過剩的,如果預(yù)先設(shè)定的近似等價類集合中近似等價類的個數(shù)少于實際劃分的近似等價類個數(shù),那么該模型將會不可解;建立約束條件(16)如下:
論域中的兩個樣本點i和j同時被分配到一個近似等價類中的前提條件是這兩個樣本點必須可以屬于同一個近似等價類,當且僅當
其中,q′jk′取值為0或1,對于論域i中的任意樣本點j和由決策屬性集對論域進行劃分得到的近似等價類集合kd中的任意一個近似等價類k′,若q′jk′=1,則樣本j在近似等價類k′中,反之,樣本點j不屬于近似等價類k′。
每個樣本屬于并且僅屬于一個近似等價類,但并不是每一個預(yù)先設(shè)定的近似等價類中都存在樣本點,因為在未知具體劃分近似等價類的個數(shù)的前提下,預(yù)先設(shè)定的近似等價類集合中近似等價類的個數(shù)可能是過剩的,如果預(yù)先設(shè)定的近似等價類集合中近似等價類的個數(shù)少于實際劃分的近似等價類個數(shù),那么該模型將會不可解;建立約束條件(18)如下:
其中,q′k′為由決策屬性集對論域進行劃分得到的近似等價類k′中的樣本的數(shù)目。
根據(jù)經(jīng)典粗糙集中下近似集的定義,選擇了既屬于條件屬性集劃分論域得到的近似等價類k又屬于決策屬性集劃分論域得到的近似等價類k′的樣本點;建立約束條件(19)如下:
2*eikk′≤qik+q′ik′,i∈i,k∈kc,k′∈kd(19)
其中,eikk′取值為0或1,對于論域i中的任意樣本點i和條件屬性集的近似等價類k以及決策屬性集的近似等價類k′,若eikk′=1,則樣本i既屬于條件屬性集的近似等價類k又屬于決策屬性集的近似等價類k′。
統(tǒng)計既屬于近似等價類k又屬于近似等價類k′的樣本點的個數(shù);建立約束條件(20)如下:
其中,ekk′為論域i中既屬于條件屬性集的近似等價類k又屬于決策屬性集的近似等價類k′的樣本數(shù)目。
根據(jù)粗糙集中支持度的概念,在模型中設(shè)定的下近似集需要滿足樣本點的最小支持數(shù),建立約束條件(21)和(23),其中變量fk標記了對應(yīng)的近似等價類中的樣本點個數(shù)是否滿足最小支持數(shù),即如果qk<n,則fk必為0;基于milp的粗糙集模型引入了可變精度作為提升模型對數(shù)據(jù)集中噪聲信息抵抗能力的輔助方法,建立約束條件(22)根據(jù)公式(7)實現(xiàn)帶可變精度的粗糙集對下近似集的定義過程;
n*fk≤n+(qk-n)(21)
card(i)*lkk′≤card(i)+(ekk′-qk*β),k∈kc,k′∈kd(22)
lkk′≤fk,k∈kc,k′∈kd(23)
其中,n為條件屬性集的最小支持數(shù),即正整數(shù);
β為可變精度,即常數(shù),0<β<1;
fk取值為0或1,若fk=1,則條件屬性集的近似等價類k中的樣本個數(shù)滿足最小支持度數(shù)n,近似等價類k可以成為下近似集,反之,近似等價類k不滿足成為下近似集的條件;
lkk′取值為0或1,若lkk′=1,則kc中的近似等價類k是kd中的近似等價類k′的下近似集。
最后,對模型的下近似集中的樣本點個數(shù)進行統(tǒng)計,如果一個由條件屬性集對論域進行劃分得到的近似等價類不是任何一個由決策屬性集對論域進行劃分得到的近似等價類的下近似集則該近似等價類不為確定區(qū)域,其確定區(qū)域中樣本個數(shù)計為0,反之若為下近似集則為確定區(qū)域,對應(yīng)確定區(qū)域中樣本個數(shù)即為該下近似集中樣本點的個數(shù);建立約束條件(24)和(25)如下:
yk≤qk,k∈kc(24)
可選地,還包括:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計算所述目標函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價類又為決策屬性近似等價類的目標近似等價類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評價該模型的決策結(jié)果。
優(yōu)選地,根據(jù)所述原始數(shù)據(jù)及所述約束條件計算所述目標函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價類又為決策屬性近似等價類的目標近似等價類中的樣本數(shù)目的最大值
在一個實施例中,通過模型求解,會得到最優(yōu)的目標函數(shù)值。同時,也會得到相應(yīng)的qk,實現(xiàn)屬性的篩選過程;得到e矩陣,確定既在近似等價類k又在等價類k′中的個數(shù);根據(jù)以下公式計算該決策系統(tǒng)的決策精度:
其中,λ為決策精度,0<λ<1。
λ越大說明通過該模型得到的決策結(jié)果的精度越高,否則決策結(jié)果的精度越低。
另外,應(yīng)當注意,在本發(fā)明中同一字母、字符、參數(shù)等表示的含義相同,不再一一解釋。
本發(fā)明建立的基于milp的粗糙集模型可用于對柴油機進行評價,原始數(shù)據(jù)包含了31臺國產(chǎn)某型號六缸柴油機的34個裝配間隙參數(shù)數(shù)據(jù)和整機質(zhì)量等級數(shù)據(jù),其中,裝配間隙參數(shù)可作為條件屬性,整機質(zhì)量等級可作為決策屬性。通過該模型可得到條件屬性集和決策屬性集之間存在部分依賴關(guān)系:
{柴油機的裝配間隙參數(shù)}→λ{柴油機的整機質(zhì)量等級}
對柴油機進行評價時,條件屬性與決策屬性的依賴度越高,即裝配間隙參數(shù)與整機質(zhì)量等級的依賴程度,該模型的決策結(jié)果更精確。
圖2為本發(fā)明實施例提供的一種基于混合整數(shù)線性規(guī)劃的粗糙集模型的建立裝置的結(jié)構(gòu)圖。該裝置包括:獲取單元210、第一計算單元220、處理單元230、第二計算單元240。
獲取單元210用于獲取原始數(shù)據(jù)。
第一計算單元220,用于根據(jù)所述原始數(shù)據(jù)的條件屬性和決策屬性,確定計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目所需使用的目標函數(shù)和性能參數(shù)的約束條件,得到基于混合整數(shù)線性規(guī)劃的粗糙集模型,所述目標函數(shù)至少包含表征模型條件屬性及決策屬性的性能參數(shù),所述原始數(shù)據(jù)用于指示該模型中所述性能參數(shù)的取值。
可選地,所述第一計算單元220所述計算原始數(shù)據(jù)中既屬于條件屬性近似等價類又屬于決策屬性近似等價類的目標近似等價類中的樣本數(shù)目的目標函數(shù),至少基于條件屬性近似等價類集合和決策屬性近似等價類集合進行計算,其中,所述條件屬性近似等價類至少采用表征模型條件屬性的性能參數(shù)進行計算,所述條件屬性近似等價類集合包括至少一個條件屬性近似等價類,所述決策屬性近似等價類至少采用表征模型決策屬性的性能參數(shù)進行計算,所述決策屬性近似等價類集合包括至少一個決策屬性近似等價類。
可選地,所述第一計算單元220還用于:
確定表征模型條件屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型決策屬性的性能參數(shù)所滿足的平衡條件;
確定表征模型條件屬性和決策屬性的性能參數(shù)所滿足的平衡條件。
可選地,處理單元230用于:
對原始數(shù)據(jù)進行缺失值處理和降維處理。
可選地,第二計算單元240用于:
根據(jù)所述原始數(shù)據(jù)及所述約束條件計算所述目標函數(shù),得到原始數(shù)據(jù)中既為條件屬性近似等價類又為決策屬性近似等價類的目標近似等價類中的樣本數(shù)目;
基于所述樣本數(shù)目和原始數(shù)據(jù),計算該基于混合整數(shù)線性規(guī)劃的粗糙集模型的決策精度,所述決策精度用于評價該模型的決策結(jié)果。
本發(fā)明實施例所提供的一種milp的粗糙集模型的建立裝置可以為設(shè)備上的特定硬件或者安裝于設(shè)備上的軟件或固件等。本發(fā)明實施例所提供的裝置,其實現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實施例相同,為簡要描述,裝置實施例部分未提及之處,可參考前述方法實施例中相應(yīng)內(nèi)容。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,前述描述的系統(tǒng)、裝置和單元的具體工作過程,均可以參考上述方法實施例中的對應(yīng)過程,在此不再贅述。
在本發(fā)明所提供的實施例中,應(yīng)該理解到,所揭露裝置和方法,可以通過其它的方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,又例如,多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明提供的實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋,此外,術(shù)語“第一”、“第二”、“第三”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。
最后應(yīng)說明的是:以上所述實施例,僅為本發(fā)明的具體實施方式,用以說明本發(fā)明的技術(shù)方案,而非對其限制,本發(fā)明的保護范圍并不局限于此,盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對前述實施例所記載的技術(shù)方案進行修改或可輕易想到變化,或者對其中部分技術(shù)特征進行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實施例技術(shù)方案的精神和范圍。都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準。