本發(fā)明涉及數(shù)據(jù)分類(lèi),具體涉及一種基于鄰域劃分的特征提取方法。本技術(shù)要求優(yōu)先權(quán),在先申請(qǐng)的申請(qǐng)?zhí)枮椋?024108350454,名稱(chēng)為:一種基于鄰域劃分的特征提取方法,優(yōu)先權(quán)日為2024-06-26。
背景技術(shù):
1、工業(yè)數(shù)據(jù)一般包含多種屬性,通常以數(shù)值型數(shù)據(jù)記載,無(wú)法直接利用pawlak模型對(duì)工業(yè)數(shù)據(jù)進(jìn)行分類(lèi),通常采用間接法和直接法。間接法是先采用離散化算法把工業(yè)數(shù)據(jù)轉(zhuǎn)化成符號(hào)型數(shù)據(jù),再采用pawlak模型進(jìn)行處理,雖然能夠在一定程度上解決了pawlak模型在數(shù)值型數(shù)據(jù)上的應(yīng)用問(wèn)題,但忽略了原始數(shù)值到離散值的隸屬程度信息,造成信息丟失,對(duì)分類(lèi)結(jié)果產(chǎn)生不良影響;例如,工業(yè)數(shù)據(jù)是進(jìn)行預(yù)測(cè)性維護(hù)的數(shù)據(jù),若存在分類(lèi)結(jié)果的不準(zhǔn)確,可能誤判設(shè)備的狀態(tài),導(dǎo)致不必要的維護(hù)或忽略潛在的故障,進(jìn)而影響生產(chǎn)效率和安全;例如,工業(yè)數(shù)據(jù)是進(jìn)行質(zhì)量呈現(xiàn)的參數(shù),其分類(lèi)精度的降低可能導(dǎo)致對(duì)產(chǎn)品質(zhì)量的誤判,從而影響產(chǎn)品的合格率和一致性。
2、直接法是通過(guò)擴(kuò)展pawlak模型來(lái)直接處理原始數(shù)據(jù),考慮到典型的模糊粗糙集模型是在數(shù)值型屬性上建立覆蓋整個(gè)值域的多個(gè)模糊概念來(lái)構(gòu)建論域上的模糊相似關(guān)系,然而針對(duì)工業(yè)數(shù)據(jù)的分類(lèi)需求構(gòu)建行之有效的模糊相似關(guān)系從而提高分類(lèi)質(zhì)量是值得探討的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于鄰域劃分的特征提取方法,所要解決的技術(shù)問(wèn)題是如何提高分類(lèi)質(zhì)量。
2、本發(fā)明通過(guò)下述技術(shù)方案實(shí)現(xiàn):
3、一種基于鄰域劃分的特征提取方法,該方法用于分析工業(yè)數(shù)據(jù),提取關(guān)鍵的屬性;該特征提取方法包括以下步驟:
4、s100、對(duì)鄰域進(jìn)行劃分,判斷該鄰域是一致鄰域還是不一致鄰域;
5、s200、構(gòu)建鄰域劃分分類(lèi)模型;通過(guò)上述鄰域劃分分類(lèi)模型對(duì)對(duì)象進(jìn)行分類(lèi),得到一致鄰域?qū)ο蠛筒灰恢锣徲驅(qū)ο?;將一致鄰域?qū)ο蠓诸?lèi)至決策正域,將不一致鄰域?qū)ο蠓诸?lèi)至決策邊界;
6、s300、構(gòu)建不平衡二叉樹(shù)算法;通過(guò)上述不平衡二叉樹(shù)算法計(jì)算論域中的一致鄰域?qū)ο蠛筒灰恢锣徲驅(qū)ο螅?/p>
7、其中,論域可以是從數(shù)據(jù)庫(kù)中調(diào)用的工業(yè)數(shù)據(jù)集,且將工業(yè)數(shù)據(jù)集中的工業(yè)數(shù)據(jù)作為對(duì)象;
8、s400、構(gòu)建鄰域正域確定度算法;通過(guò)上述鄰域正域確定度算法確定論域中所有對(duì)象對(duì)決策正域的貢獻(xiàn)度總和;單個(gè)上述對(duì)象對(duì)決策正域的貢獻(xiàn)度為[0,1];
9、s500、構(gòu)建特征提取算法,通過(guò)特征提取算法確定提取屬性并用于分類(lèi)。
10、其中,分類(lèi)是通過(guò)所述提取屬性對(duì)論域進(jìn)行的。
11、通過(guò)上述鄰域劃分,定義一致鄰域和不一致鄰域,鄰域劃分分類(lèi)模型將對(duì)象分類(lèi)至決策正域和決策邊界,一致鄰域?qū)ο蟊环诸?lèi)至決策正域,不一致鄰域?qū)ο蟊环诸?lèi)至決策邊界,決策正域包含與某一類(lèi)別高度相關(guān)的對(duì)象,決策邊界包含分類(lèi)較為模糊的對(duì)象;不平衡二叉樹(shù)能快速定位到與特定類(lèi)別緊密相關(guān)的對(duì)象,提高分類(lèi)效率,通過(guò)樹(shù)的層次結(jié)構(gòu),逐步細(xì)化分類(lèi)決策,從而提高分類(lèi)精度和分類(lèi)質(zhì)量;通過(guò)鄰域正域確定度算法,量化論域中每個(gè)對(duì)象對(duì)決策正域的貢獻(xiàn)度,該貢獻(xiàn)度的取值區(qū)間是[0,1],為對(duì)象提供了與特定類(lèi)別關(guān)聯(lián)程度的量化指標(biāo),相較于現(xiàn)有技術(shù)中對(duì)象對(duì)決策正域的貢獻(xiàn)度{0,1}來(lái)說(shuō),更能反映屬性的分類(lèi)能力;量化指標(biāo)有助于識(shí)別對(duì)分類(lèi)決策起關(guān)鍵作用的屬性,進(jìn)而提高分類(lèi)質(zhì)量。
12、進(jìn)一步的,對(duì)鄰域進(jìn)行劃分,判斷該鄰域是一致鄰域還是不一致鄰域,具體步驟如下:
13、s110、獲取鄰域決策空間nds=(u,n,d)、鄰域關(guān)系n、條件屬性集c、決策屬性集d、決策值域vd、屬性集p和對(duì)象u;
14、s120、設(shè)置前置條件:上述屬性集p包含于條件屬性集c,對(duì)象u屬于論域u;
15、s130、基于決策值di對(duì)鄰域δp(u)進(jìn)行劃分,得到鄰域子區(qū),公式如下:
16、
17、其中,δp(u)表示在屬性集p下對(duì)象u的鄰域;表示鄰域δp(u)內(nèi)決策值為di的對(duì)象集合,即di的鄰域子區(qū);v表示論域中的對(duì)象v;f(v,d)表示對(duì)象v的決策值;di表示決策值;
18、s140、通過(guò)鄰域δp(u)和鄰域子區(qū)確定子區(qū)概率,公式如下:
19、
20、其中,表示鄰域子區(qū)的子區(qū)概率;表示鄰域子區(qū)內(nèi)的對(duì)象個(gè)數(shù);|δp(u)|表示鄰域δp(u)內(nèi)的對(duì)象個(gè)數(shù);
21、s150、通過(guò)鄰域δp(u)內(nèi)各鄰域子區(qū)的決策值集合,判定鄰域δp(u)是否為一致鄰域;
22、s151、若鄰域δp(u)內(nèi)任意兩個(gè)鄰域子區(qū)的決策值集合相等,則鄰域δp(u)為一致鄰域;
23、s152、若鄰域δp(u)內(nèi)存在不相等的兩個(gè)鄰域子區(qū)的決策值集合,則鄰域δp(u)為不一致鄰域;
24、進(jìn)一步的,上述構(gòu)建鄰域劃分分類(lèi)模型的步驟包括:
25、s210、通過(guò)|λ(δp(u))|是否等于1,確定該對(duì)象u屬于決策正域還是決策邊界;其中,|λ(δp(u))|表示鄰域δp(u)所包含對(duì)象的決策值集合的決策值個(gè)數(shù);
26、s211、若上述|λ(δp(u))|=1,則該對(duì)象u屬于決策正域;
27、s212、若上述|λ(δp(u))|>1,則該對(duì)象u屬于決策邊界。
28、進(jìn)一步的,構(gòu)建不平衡二叉樹(shù)算法的步驟包括:
29、s310、將上述論域作為根節(jié)點(diǎn)
30、s320、通過(guò)計(jì)算不平衡二叉樹(shù)算法的左子節(jié)點(diǎn);
31、通過(guò)計(jì)算不平衡二叉樹(shù)算法的右子節(jié)點(diǎn);
32、其中,表示第k個(gè)左子節(jié)點(diǎn);ψcon表示一致鄰域增維算子;表示第k-1個(gè)左子節(jié)點(diǎn);ak表示第k個(gè)屬性,ak屬于屬性集p;表示第k個(gè)右子節(jié)點(diǎn);ψinc表示不一致鄰域增維算子;表示第k-1個(gè)右子節(jié)點(diǎn);
33、s330、將第k個(gè)右子節(jié)點(diǎn)作為父節(jié)點(diǎn),執(zhí)行s320,得到第k+1個(gè)左子節(jié)點(diǎn)和第k+1個(gè)右子節(jié)點(diǎn)
34、該不平衡二叉樹(shù)算法的左子節(jié)點(diǎn)為葉節(jié)點(diǎn),右子節(jié)點(diǎn)不斷生長(zhǎng)。
35、進(jìn)一步的,上述鄰域正域確定度算法的公式如下:
36、
37、其中,nprcp表示在屬性集p下的鄰域正域確定度;u表示論域;σnprc(u)表示對(duì)象u對(duì)決策正域的貢獻(xiàn)度;表示對(duì)象u的焦點(diǎn)子區(qū);表示對(duì)象u的焦點(diǎn)子區(qū)概率;df表示焦點(diǎn)子區(qū)的決策值;npu(u)表示在屬性集p下對(duì)象u的鄰域劃分不確定度。
38、進(jìn)一步的,構(gòu)建特征提取算法,通過(guò)特征提取算法確定提取屬性,具體步驟包括:
39、s510、設(shè)置附加條件:屬性b屬于屬性集p在條件屬性集c中的相對(duì)補(bǔ)集;
40、s520、計(jì)算屬性b相對(duì)于決策屬性集d的重要度,公式如下:
41、sig(b,p,d)=nprcp∪-nprcp
42、其中,sig(b,p,d)表示屬性b相對(duì)于決策屬性集d的重要度;nprcp∪表示在屬性集p∪下的鄰域正域確定度;nprcp表示在屬性集p下的鄰域正域確定度;
43、s530、選擇上述重要度最大的屬性b作為提取屬性。
44、進(jìn)一步的,在上述屬性集p下對(duì)象u的鄰域劃分不確定度的計(jì)算公式如下:
45、
46、其中,npu(u)表示在屬性集p下對(duì)象u的鄰域劃分不確定度。
47、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:
48、本發(fā)明通過(guò)上述鄰域劃分,定義一致鄰域和不一致鄰域,可以更好的針對(duì)工業(yè)數(shù)據(jù)的類(lèi)型進(jìn)行分析,通過(guò)鄰域劃分分類(lèi)模型將對(duì)象分類(lèi)至決策正域和決策邊界,一致鄰域?qū)ο蟊环诸?lèi)至決策正域,不一致鄰域?qū)ο蟊环诸?lèi)至決策邊界,該方式能夠在工業(yè)數(shù)據(jù)的關(guān)鍵屬性提取時(shí)獲得更好的合理性和準(zhǔn)確性;同時(shí)有效隔離或減少數(shù)據(jù)噪聲對(duì)特征提取過(guò)程的干擾,確保對(duì)數(shù)據(jù)分析結(jié)果的可靠性;避免工業(yè)數(shù)據(jù)中的噪聲影響分析結(jié)論。
49、其中,決策正域包含與某一類(lèi)別高度相關(guān)的對(duì)象,決策邊界包含分類(lèi)較為模糊的對(duì)象;決策邊界有利于處理復(fù)雜或不確定的分類(lèi)情況,確保分類(lèi)模型既能準(zhǔn)確處理確定性對(duì)象,又能應(yīng)對(duì)模糊或邊界情況,從而提升整體分類(lèi)性能。特別是工業(yè)數(shù)據(jù)量較多且較為雜亂的情況下,尤其明顯。
50、本發(fā)明還通過(guò)不平衡二叉樹(shù)能快速定位到與特定類(lèi)別緊密相關(guān)的對(duì)象,提高分類(lèi)效率,通過(guò)樹(shù)的層次結(jié)構(gòu),逐步細(xì)化分類(lèi)決策,從而提高分類(lèi)精度和分類(lèi)質(zhì)量;通過(guò)鄰域正域確定度算法,量化論域中每個(gè)對(duì)象對(duì)決策正域的貢獻(xiàn)度,該貢獻(xiàn)度的取值區(qū)間是[0,1],為對(duì)象提供了與特定類(lèi)別關(guān)聯(lián)程度的量化指標(biāo),相較于現(xiàn)有技術(shù)中對(duì)象對(duì)決策正域的貢獻(xiàn)度{0,1}來(lái)說(shuō),更能反映屬性的分類(lèi)能力;量化指標(biāo)有助于識(shí)別對(duì)分類(lèi)決策起關(guān)鍵作用的屬性,進(jìn)而提高分類(lèi)質(zhì)量。