一種基于決策樹的預(yù)測方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種基于決策樹的預(yù)測方法及裝置,涉及數(shù)據(jù)處理領(lǐng)域,能夠提高決策樹模型和決策樹模型測過程的可視化效果,該方法具體包括:根據(jù)特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成目標(biāo)訓(xùn)練集;采用決策樹算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹,其中,訓(xùn)練集屬于目標(biāo)訓(xùn)練集;對(duì)決策樹進(jìn)行壓縮得到第一決策樹;利用可視化技術(shù)顯示第一決策樹;從測試集中選取至少一條測試?yán)来屋斎氲谝粵Q策樹中進(jìn)行測試,生成至少一條測試?yán)姆诸惵窂?;利用可視化技術(shù)在第一決策樹中顯示至少一條測試?yán)姆诸惵窂健1景l(fā)明應(yīng)用于產(chǎn)品缺陷預(yù)測。
【專利說明】一種基于決策樹的預(yù)測方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于決策樹的預(yù)測方法及裝置。
【背景技術(shù)】
[0002] 決策樹模型是一種常見的缺陷預(yù)測模型,當(dāng)產(chǎn)品發(fā)生故障時(shí),能夠幫助維修人員 快速定位缺陷類型,及時(shí)拿出維修方案,降低維修成本。但是由于很多種產(chǎn)品的某些固有屬 性特征發(fā)布特別分散,會(huì)造成訓(xùn)練得到的決策樹模型特別龐大,比如缺陷產(chǎn)品種類、缺陷單 板種類成千上萬種,缺陷類型(預(yù)測屬性)也達(dá)到數(shù)百種,因此面對(duì)如此龐大的決策樹,用 傳統(tǒng)的決策樹可視化方法是不可行的。因此,現(xiàn)有技術(shù)提出了一種CABR0的大規(guī)模決策樹 可視化技術(shù),該CABR0可視化系統(tǒng)界面中有左右兩個(gè)窗口,左面的窗口叫做全集窗口,可以 展現(xiàn)整棵的決策樹,但是沒有一個(gè)節(jié)點(diǎn)信息,右面的窗口叫做局部窗口,選中全局窗口中決 策樹的一塊矩形面積時(shí),該矩形面積會(huì)在局部窗口中展現(xiàn)出來,這樣即能夠看到整棵決策 樹的整體結(jié)構(gòu),又可以看到?jīng)Q策樹中的某一部分的詳細(xì)信息,使得大規(guī)模決策樹的可視化 效果較好。
[0003] 但是發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中的CABR0可視化系統(tǒng)可視化技術(shù)有如下問題:該 CABR0可視化系統(tǒng)界面無法直觀的顯示預(yù)測路徑,需要多次移動(dòng)全局窗口中的矩形框,然后 在局部窗口中觀看,使得決策樹模型可視化效果較差。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的實(shí)施例提供一種基于決策樹的預(yù)測方法及裝置,能夠提高決策樹模型和 決策樹模型測過程的可視化效果。
[0005] 為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0006] 第一方面,提供一種基于決策樹的預(yù)測方法,包括:
[0007] 根據(jù)特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成目標(biāo)訓(xùn)練集, 其中,所述特征屬性為所述產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性或缺陷屬性;
[0008] 采用決策樹算法對(duì)所述訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹,其中,所述訓(xùn)練集屬于所述 目標(biāo)訓(xùn)練集;
[0009] 對(duì)所述決策樹進(jìn)行壓縮得到第一決策樹;
[0010] 利用可視化技術(shù)顯示所述第一決策樹;
[0011] 從測試集中選取至少一條測試?yán)来屋斎胨龅谝粵Q策樹中進(jìn)行測試,生成所述 至少一條測試?yán)姆诸惵窂剑?br>
[0012] 利用所述可視化技術(shù)在所述第一決策樹中顯示所述至少一條測試?yán)姆诸惵窂健?br>
[0013] 在第一種可能的實(shí)現(xiàn)方式中,根據(jù)第一方面,所述方法還包括:
[0014] 根據(jù)所述至少一條測試?yán)姆诸惵窂脚袛嗍欠裾{(diào)節(jié)所述特征屬性和所述決策樹 算法的算法系數(shù);
[0015] 若判斷結(jié)果為是,則調(diào)節(jié)所述特征屬性和所述決策樹算法的算法系數(shù);
[0016] 重新根據(jù)調(diào)節(jié)后的特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生 成新的訓(xùn)練集,并采用調(diào)節(jié)過算法系數(shù)的決策樹算法根據(jù)所述新的訓(xùn)練集生成新的決策 樹。
[0017] 在第二種可能的實(shí)現(xiàn)方式中,根據(jù)第一方面,所述對(duì)所述決策樹進(jìn)行壓縮得到第 一決策樹,包括:
[0018] 通過后續(xù)遍歷所述決策樹中每條邊對(duì)應(yīng)的節(jié)點(diǎn)和父節(jié)點(diǎn)的節(jié)點(diǎn)對(duì),其中,所述節(jié) 點(diǎn)包括子節(jié)點(diǎn)或子樹;
[0019] 將所述決策樹中所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn)行合并,得到所述第一決策樹。
[0020] 在第三種可能的實(shí)現(xiàn)方式中,根據(jù)第二種可能的實(shí)現(xiàn)方式,所述將所述決策樹中 所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn)行合并,得到所述第一決策樹之后,還包括:
[0021] 將所有的合并后的邊及對(duì)應(yīng)的所述有相同節(jié)點(diǎn)對(duì)的邊存入標(biāo)記文件的信息映射 表中,其中,所述信息映射表為所述決策樹的邊和所述第一決策樹的邊的對(duì)應(yīng)關(guān)系表。
[0022] 在第四種可能的實(shí)現(xiàn)方式中,根據(jù)第一方面,所述從測試集中選取至少一條測試 例依次輸入所述第一決策樹中進(jìn)行測試,生成所述至少一條測試?yán)姆诸惵窂?,包括?br>
[0023] 通過解析從測試集中選取的至少一條測試?yán)械拿織l測試?yán)玫剿雒織l測試 例的屬性值對(duì)集合;
[0024] 將第一屬性值對(duì)集合輸入所述第一決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹 配;
[0025] 若所述第一屬性值對(duì)集合與所述第一決策樹的第一層級(jí)有匹配,則將所述第一屬 性值對(duì)集合與所述第一決策樹的第一層級(jí)的所有節(jié)點(diǎn)進(jìn)行匹配,直到所述第一決策樹的所 有層級(jí)的節(jié)點(diǎn)全部匹配完,則所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诸愅瓿桑?br>
[0026] 將所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)姆诸惵窂竭M(jìn)行標(biāo)注,并將第二屬性值對(duì) 集合輸入所述第一決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹配,直到所有測試?yán)糠?類完成;
[0027] 其中,所述第一屬性值對(duì)集合與第二屬性值對(duì)集合屬于所述屬性值對(duì)集合,所述 第一層級(jí)為通過由上至下進(jìn)行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
[0028] 在第五種可能的實(shí)現(xiàn)方式中,根據(jù)第四種可能的實(shí)現(xiàn)方式,所述將第一屬性值對(duì) 集合輸入所述第一決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹配之后,還包括:
[0029] 若所述第一屬性值對(duì)集合與所述第一決策樹的第一層級(jí)無匹配,則對(duì)所述第一屬 性值對(duì)集合對(duì)應(yīng)的測試?yán)谒龅谝粵Q策樹中無法分類;
[0030] 將第三屬性值對(duì)集合輸入所述第一決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹 配,其中,所述第三屬性值對(duì)集合屬于所述屬性值對(duì)集合,所述第一層級(jí)為通過由上至下進(jìn) 行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
[0031] 在第六種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面或第一種至第五種可能的實(shí)現(xiàn)方式中 的任一種實(shí)現(xiàn)方式,所述可視化技術(shù)包括以放射型多層有向圖的方式可視化第一決策樹的 技術(shù)。
[0032] 第二方面,提供一種基于決策樹的預(yù)測裝置,包括:
[0033] 篩選單元,用于根據(jù)特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生 成訓(xùn)練集,其中,所述特征屬性為所述產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性或缺陷屬性;
[0034] 訓(xùn)練單元,用于采用決策樹算法對(duì)所述訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹,其中,所述訓(xùn) 練集屬于所述篩選單元選擇的所述目標(biāo)訓(xùn)練集;
[0035] 壓縮單元,用于對(duì)所述決策樹進(jìn)行壓縮得到第一決策樹;
[0036] 可視化單元,用于利用可視化技術(shù)顯示所述壓縮單元得到的所述第一決策樹;
[0037] 測試單元,用于從測試集中選取至少一條測試?yán)来屋斎胨鰤嚎s單元得到的所 述第一決策樹中進(jìn)行測試,生成所述至少一條測試?yán)姆诸惵窂剑?br>
[0038] 所述可視化單元,還用于利用所述可視化技術(shù)在所述壓縮單元得到的所述第一決 策樹中顯示所述測試單元生成的所述至少一條測試?yán)姆诸惵窂健?br>
[0039] 在第一種可能的實(shí)現(xiàn)方式中,根據(jù)第二方面,所述裝置還包括:
[0040] 判斷單元,用于根據(jù)所述測試單元得到的所述至少一條測試?yán)姆诸惵窂脚袛嗍?否調(diào)節(jié)所述特征屬性和所述決策樹算法的算法系;
[0041] 調(diào)節(jié)單元,用于若所述判斷單元的判斷結(jié)果為是,則調(diào)節(jié)所述特征屬性和所述決 策樹算法的算法系數(shù);
[0042] 所述訓(xùn)練單元,還用于重新根據(jù)所述調(diào)節(jié)單元得到的所述調(diào)節(jié)后的特征屬性對(duì)預(yù) 存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成新的訓(xùn)練集,并采用所述調(diào)節(jié)單元得到的 調(diào)節(jié)過算法系數(shù)的決策樹算法根據(jù)所述新的訓(xùn)練集生成新的決策樹。
[0043] 在第二種可能的實(shí)現(xiàn)方式中,根據(jù)第二方面,所述壓縮單元,包括:
[0044] 掃描模塊,用于通過后續(xù)遍歷所述訓(xùn)練單元生成的所述決策樹中每條邊對(duì)應(yīng)的節(jié) 點(diǎn)和父節(jié)點(diǎn)的節(jié)點(diǎn)對(duì),其中,所述節(jié)點(diǎn)包括子節(jié)點(diǎn)或子樹;
[0045] 合并模塊,用于將所述訓(xùn)練單元生成的所述決策樹中所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn) 行合并,得到所述第一決策樹。
[0046] 在第三種可能的實(shí)現(xiàn)方式中,根據(jù)第二種可能的實(shí)現(xiàn)方式,所述對(duì)壓縮單元,還包 括:
[0047] 存儲(chǔ)模塊,用于將所有的合并后的邊及對(duì)應(yīng)的所述有相同節(jié)點(diǎn)對(duì)的邊存入標(biāo)記文 件的信息映射表中,其中,所述信息映射表為所述決策樹的邊和所述第一決策樹的邊的對(duì) 應(yīng)關(guān)系表。
[0048] 在第四種可能的實(shí)現(xiàn)方式中,根據(jù)第二方面,所述測試單元,包括:
[0049] 解析模塊,用于通過解析從測試集中選取的至少一條測試?yán)械拿織l測試?yán)?到所述每條測試?yán)膶傩灾祵?duì)集合;
[0050] 匹配模塊,用于將所述解析模塊解析出的第一屬性值對(duì)集合輸入所述第一決策樹 與所述第一決策樹的第一層級(jí)進(jìn)行匹配;
[0051] 所述匹配模塊,還用于若所述解析模塊解析出的所述第一屬性值對(duì)集合與所述第 一決策樹的第一層級(jí)有匹配,則將所述解析模塊解析出的所述第一屬性值對(duì)集合與所述第 一決策樹的第一層級(jí)的所有節(jié)點(diǎn)進(jìn)行匹配,直到所述第一決策樹的所有層級(jí)的節(jié)點(diǎn)全部匹 配完,則所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诸愅瓿桑?br>
[0052] 標(biāo)注模塊,用于將所述匹配模塊得到的所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)姆?類路徑進(jìn)行標(biāo)注,并將所述解析模塊解析出的第二屬性值對(duì)集合輸入所述第一決策樹與所 述第一決策樹的第一層級(jí)進(jìn)行匹配,直到所有測試?yán)糠诸愅瓿桑?br>
[0053] 其中,所述第一屬性值對(duì)集合與第二屬性值對(duì)集合屬于所述屬性值對(duì)集合,所述 第一層級(jí)為通過由上至下進(jìn)行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
[0054] 在第五種可能的實(shí)現(xiàn)方式中,根據(jù)第四種可能的實(shí)現(xiàn)方式,所述測試單元,還包 括:
[0055] 所述匹配模塊,還用于若所述解析模塊解析出的所述第一屬性值對(duì)集合與所述第 一決策樹的第一層級(jí)無匹配,則對(duì)所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)谒龅谝粵Q策樹 中無法分類;及用于將所述解析模塊解析出的第三屬性值對(duì)集合輸入所述第一決策樹與所 述第一決策樹的第一層級(jí)進(jìn)行匹配,其中,所述第三屬性值對(duì)集合屬于所述屬性值對(duì)集合, 所述第一層級(jí)為通過由上至下進(jìn)行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
[0056] 在第六種可能的實(shí)現(xiàn)方式中,結(jié)合第二方面或第一種至第五種可能的實(shí)現(xiàn)方式中 的任一種實(shí)現(xiàn)方式,所述可視化技術(shù)包括以放射型多層有向圖的方式可視化第一決策樹的 技術(shù)。
[0057] 本發(fā)明實(shí)施例提供的基于決策樹的預(yù)測方法及裝置,能夠以放射型多層有向圖的 方式來可視化大規(guī)模決策樹模型,以及以可視化的方式來展示決策樹模型的預(yù)測過程,幫 助分析預(yù)測原因,并且在對(duì)決策樹進(jìn)行預(yù)測是,能夠顯示測試?yán)姆诸惵窂?,使得用戶能?看到簡潔清晰的決策樹模型及測試?yán)姆诸惵窂健?br>
【專利附圖】
【附圖說明】
[0058] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。
[0059] 圖1為本發(fā)明實(shí)施例提供的一種基于決策樹的預(yù)測方法流程圖;
[0060] 圖2為本發(fā)明實(shí)施例提供的另一種基于決策樹的預(yù)測方法流程圖;
[0061] 圖3為本發(fā)明實(shí)施例提供的一種基于決策樹的預(yù)測裝置組成示意圖;
[0062] 圖4為本發(fā)明實(shí)施例提供的另一種基于決策樹的預(yù)測裝置組成示意圖;
[0063] 圖5為本發(fā)明另一實(shí)施例提供的一種基于決策樹的預(yù)測裝置組成示意圖。
【具體實(shí)施方式】
[0064] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0065] 本發(fā)明的實(shí)施例提供了一種基于決策樹的預(yù)測方法,如圖1所示,該方法包括如 下步驟:
[0066] 101、基于決策樹的預(yù)測裝置根據(jù)特征屬性對(duì)產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性 選擇生成目標(biāo)訓(xùn)練集。
[0067] 其中,上述的特征屬性為產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性或缺陷屬性。
[0068] 102、基于決策樹的預(yù)測裝置采用決策樹算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹。
[0069] 其中,訓(xùn)練集屬于目標(biāo)訓(xùn)練集。
[0070] 103、基于決策樹的預(yù)測裝置對(duì)決策樹進(jìn)行壓縮得到第一決策樹。
[0071] 104、基于決策樹的預(yù)測裝置利用可視化技術(shù)顯示第一決策樹。
[0072] 105、基于決策樹的預(yù)測裝置從測試集中選取至少一條測試?yán)来屋斎氲谝粵Q策 樹中進(jìn)行測試,生成至少一條測試?yán)姆诸惵窂健?br>
[0073] 106、基于決策樹的預(yù)測裝置利用可視化技術(shù)在第一決策樹中顯示至少一條測試 例的分類路徑。
[0074] 本發(fā)明實(shí)施例提供的基于決策樹的預(yù)測方法,能夠以可視化技術(shù)來顯示大規(guī)模決 策樹模型,以及利用可視化技術(shù)來展示決策樹模型的預(yù)測過程,幫助分析預(yù)測原因,并且在 對(duì)決策樹進(jìn)行預(yù)測時(shí),能夠顯示測試?yán)姆诸惵窂?,使得用戶能夠看到簡潔清晰的決策樹 模型及測試?yán)姆诸惵窂健?br>
[0075] 本發(fā)明的實(shí)施例提供一種基于決策樹的預(yù)測方法,如圖2所示,該方法包括如下 步驟:
[0076] 201、基于決策樹的預(yù)測裝置根據(jù)特征屬性對(duì)產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性 選擇生成目標(biāo)訓(xùn)練集。
[0077] 其中,上述特征屬性包括上述產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性和缺陷屬性。其 中,上述的產(chǎn)品缺陷數(shù)據(jù)集是工作人員對(duì)缺陷產(chǎn)品屬性的記錄,包括產(chǎn)品的固有屬性(如, 產(chǎn)品名稱,產(chǎn)品線,制造商等)和產(chǎn)品的缺陷屬性(如缺陷類型、缺陷代碼來源,缺陷產(chǎn)品來 源國家/省份,缺陷單板編碼等),以及其他屬性,而且一般來說上述的產(chǎn)品缺陷數(shù)據(jù)集會(huì) 有幾十維數(shù)據(jù),數(shù)據(jù)量會(huì)很大,因此,需要從中挑選出所需要的數(shù)據(jù)。
[0078] 具體的,基于決策樹的預(yù)測裝置從輸入的產(chǎn)品缺陷數(shù)據(jù)集中根據(jù)特征屬性選擇對(duì) 下述預(yù)測過程有用的屬性數(shù)據(jù)。比如,若該產(chǎn)品缺陷數(shù)據(jù)集是50列的數(shù)據(jù)集,在經(jīng)過屬性 選擇后,剩余的只有10列數(shù)據(jù),則該10列數(shù)據(jù)就會(huì)作為訓(xùn)練集。此外,屬性選擇既可以縮小 數(shù)據(jù)集的大小,又可以提高決策樹模型的預(yù)測效果,是產(chǎn)品缺陷預(yù)測的重要步驟之一,而在 進(jìn)行屬性選擇時(shí),所用到的方法一般是通過算法選擇(如:基于信息增益的特征選擇算法) 和人工選擇相結(jié)合的方式來進(jìn)行的選擇的。
[0079] 可選的,在步驟201之后還包括:基于決策樹的預(yù)測裝置將目標(biāo)訓(xùn)練集分為訓(xùn)練 集和測試集兩部分。
[0080] 具體的,在決策樹模型訓(xùn)練中,一般會(huì)有兩種模型測試的方法,一種是將訓(xùn)練集中 的數(shù)據(jù)分成兩部分,將一部分?jǐn)?shù)據(jù)用來做訓(xùn)練生成決策樹(即訓(xùn)練集),一部分?jǐn)?shù)據(jù)用來做 測試(及測試集),其中,一般在測試集中選擇測試?yán)?;另一種方法是采用η-折交叉驗(yàn)證 法,將訓(xùn)練集中的數(shù)據(jù)分為η折,若將數(shù)據(jù)分為10份,取其中9份用來做訓(xùn)練生成決策樹, 剩下的一份用來做測試,作為測試?yán)M(jìn)行測試,直到將10份數(shù)據(jù)全都作為測試?yán)謩e進(jìn)行 測試,才能完成整個(gè)測試過程。
[0081] 可選的,基于決策樹的預(yù)測裝置也可以將步驟201生成的目標(biāo)訓(xùn)練集的全部或一 部分?jǐn)?shù)據(jù)作為訓(xùn)練集,而下述的測試集可以從其他的產(chǎn)品缺陷數(shù)據(jù)集中獲取。
[0082] 202、基于決策樹的預(yù)測裝置采用決策樹算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,生成決策樹。
[0083] 其中,上述的訓(xùn)練集屬于目標(biāo)訓(xùn)練集,上述的決策樹算法包括但不限于:C4. 5決 策樹算法或隨機(jī)森林算法。而且在對(duì)訓(xùn)練集進(jìn)行訓(xùn)練和輸入輸出時(shí),可以使用目前的開源 工具,如wake工具,也可以自己寫代碼實(shí)現(xiàn)。
[0084] 此外,在本步驟中生成的決策樹可以是一顆,也可以是多顆,若生成多顆決策樹, 則按照生成決策樹的順序或任意順序,依次對(duì)選取的決策樹進(jìn)行壓縮和測試,每一個(gè)決策 樹完成測試后,再進(jìn)行下一個(gè)。
[0085] 203、基于決策樹的預(yù)測裝置對(duì)決策樹進(jìn)行壓縮得到第一決策樹。
[0086] 進(jìn)一步可選的,步驟203具體包括:
[0087] 203a、基于決策樹的預(yù)測裝置通過后續(xù)遍歷所述決策樹中每條邊對(duì)應(yīng)的節(jié)點(diǎn)和父 節(jié)點(diǎn)的節(jié)點(diǎn)對(duì)。
[0088] 其中,上述節(jié)點(diǎn)包括子節(jié)點(diǎn)或子樹,若上述節(jié)點(diǎn)對(duì)為子樹與父節(jié)點(diǎn)的組合,則需要 兩顆子樹完全相同,且父節(jié)點(diǎn)相同,才可以組合為節(jié)點(diǎn)對(duì)。
[0089] 203b、基于決策樹的預(yù)測裝置將決策樹中所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn)行合并,得 到第一決策樹。
[0090] 進(jìn)一步可選的,步驟203還包括:
[0091] 203c、基于決策樹的預(yù)測裝置將所有的合并后的邊及對(duì)應(yīng)的有相同節(jié)點(diǎn)對(duì)的兩個(gè) 邊存入標(biāo)記文件的信息映射表中。
[0092] 其中,上述的信息映射表為決策樹的邊和第一決策樹的邊的對(duì)應(yīng)關(guān)系表。
[0093] 具體的,首先將決策樹通過由上到下進(jìn)行分層將決策樹進(jìn)行分級(jí),其中該決策樹 由上到下的層級(jí)由(level 0,1,1,......)進(jìn)行標(biāo)注,每層level的節(jié)點(diǎn)用node (N)來進(jìn)行 標(biāo)注。具體的壓縮過程為:后續(xù)遍歷整個(gè)決策樹,即從最底層level η開始,掃描每條邊對(duì) 應(yīng)的結(jié)點(diǎn)和父節(jié)點(diǎn)的組合對(duì),若相同父節(jié)點(diǎn)下的葉子節(jié)點(diǎn)也相同,則將這些邊合并為一條, 并用Lx來表示(χ= 1,2, 3,......),且該合并后的邊作為壓縮精簡后的第一決策樹的邊, 在level η掃描完成后,向上移至leveln-1,并重復(fù)level η的處理過程,直到所有層級(jí)全 部掃描完,則整個(gè)壓縮精簡過程才全部完成。
[0094] 其中,上述的邊的合并過程可以描述為:若有節(jié)點(diǎn)NO、N1 (NO、Ν1也可以為兩棵 樹),且其父節(jié)點(diǎn)為PN0,N0,N1和父節(jié)點(diǎn)之間的連接邊分別為e0,el,如果NO = N1,那么合 并e0 el為L0,并在legend文件(即上述的標(biāo)記文件)中的信息映射表中以L0 :e0 el的 形式進(jìn)行存儲(chǔ)。
[0095] 204、基于決策樹的預(yù)測裝置利用可視化技術(shù)顯示第一決策樹。
[0096] 可選的,上述的可視化技術(shù)包括以放射型多層有向圖的方式可視化第一決策樹的 技術(shù),其中,當(dāng)以放射形多層有向圖的方式可視化步驟203生成的第一決策樹時(shí),能夠使得 第一決策樹的節(jié)點(diǎn)分布更加均勻,可視化空間利用更充分,可視化效果更加突出。此外, 在實(shí)現(xiàn)本步驟時(shí)可以借助一些可視化工具,如Graphviz sfdp filter,其中在進(jìn)行決策樹 模型輸出時(shí),是輸出兩個(gè)文件,一個(gè)是精簡的放射多層有向文件,一個(gè)是描述精簡邊Lx的 legend 文件。
[0097] 205、基于決策樹的預(yù)測裝置從測試集中選取至少一條測試?yán)来屋斎氲谝粵Q策 樹中進(jìn)行測試,生成至少一條測試?yán)姆诸惵窂健?br>
[0098] 205a、基于決策樹的預(yù)測裝置通過解析從測試集中選取的至少一條測試?yán)械拿?條測試?yán)?,得到每條測試?yán)膶傩灾祵?duì)集合。
[0099] 具體的,該測試?yán)母鲗傩灾g是以分隔符分隔(如逗號(hào),堅(jiān)線等),如"故障地點(diǎn) =valuel,生產(chǎn)線=value2,......",首先將上述的測試?yán)械姆指舴M(jìn)行解析,然后將 生成的屬性值對(duì)存入集合中,其他測試?yán)貜?fù)上述過程。
[0100] 205b、基于決策樹的預(yù)測裝置將第一屬性值對(duì)集合輸入第一決策樹與第一決策樹 的第一層級(jí)進(jìn)行匹配。
[0101] 若第一屬性值對(duì)集合與第一決策樹的第一層級(jí)有匹配,則轉(zhuǎn)向步驟205c,若第一 屬性值對(duì)集合與第一決策樹的第一層級(jí)無匹配,則轉(zhuǎn)向步驟205e。
[0102] 205c、基于決策樹的預(yù)測裝置將第一屬性值對(duì)集合與所第一決策樹的第一層級(jí)的 所有節(jié)點(diǎn)進(jìn)行匹配,直到第一決策樹的所有層級(jí)的節(jié)點(diǎn)全部匹配完,則第一屬性值對(duì)集合 對(duì)應(yīng)的測試?yán)诸愅瓿伞?br>
[0103] 205d、基于決策樹的預(yù)測裝置在放射型多層有向圖中將第一屬性值對(duì)集合對(duì)應(yīng)的 測試?yán)姆诸惵窂竭M(jìn)行標(biāo)注,并第二屬性值對(duì)集合輸入第一決策樹與第一決策樹的第一層 級(jí)進(jìn)行匹配,直到所有測試?yán)糠诸愅瓿伞?br>
[0104] 其中,上述的第一屬性值對(duì)集合與第二屬性值對(duì)集合屬于上述的屬性值對(duì)集合, 上述的第一層級(jí)為通過由上至下進(jìn)行分層的第一決策樹的第一層節(jié)點(diǎn)。
[0105] 205e、基于決策樹的預(yù)測裝置對(duì)第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诘谝粵Q策樹中 無法分類。
[0106] 205f、基于決策樹的預(yù)測裝置將第三屬性值對(duì)集合輸入第一決策樹與第一決策樹 的第一層級(jí)進(jìn)行匹配。
[0107] 其中,上述的第三屬性值對(duì)集合屬于屬性值對(duì)集合,上述的第一層級(jí)為通過由上 至下進(jìn)行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
[0108] 其中,該第一決策樹有上至下層級(jí)為(level 0,1,1,......),而每層(level 0, 1,1,......)上的匹配節(jié)點(diǎn)分別為node 0,1,2,.......
[0109] 具體的,步驟205的具體過程為:
[0110] 從至少一個(gè)測試?yán)羞x取一個(gè)測試?yán)膶?duì)應(yīng)的屬性值對(duì)集合,及第一屬性值對(duì)集 合,首先,從level 0開始,將該第一屬性值對(duì)集合與第一決策樹的level 0層級(jí)的匹配節(jié) 點(diǎn)對(duì)(即匹配節(jié)點(diǎn)與對(duì)應(yīng)的邊的組合)是否匹配,若匹配,則從level 1開始將該第一屬 性值對(duì)集合與第一決策樹的level 1的結(jié)點(diǎn)nodel開始依次進(jìn)行匹配,直到第一決策樹的 所有層級(jí)的匹配節(jié)點(diǎn)全部匹配完全,則說明該第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诸愅瓿桑?然后,在放射型多層有向圖中將第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)姆诸惵窂竭M(jìn)行標(biāo)注,并 選取另一個(gè)測試?yán)龑?duì)應(yīng)的屬性值對(duì)集合(即第二屬性值對(duì)集合)與第一決策樹進(jìn)行匹配過 程,直到所有測試?yán)糠诸愅瓿?。若不匹配,則對(duì)該測試?yán)诘谝粵Q策樹中無法分類,并 選取下一個(gè)測試?yán)龑?duì)應(yīng)的屬性值對(duì)集合(即第三屬性值對(duì)集合)與第一決策樹進(jìn)行匹配過 程。此外,上述的對(duì)測試?yán)姆诸惵窂竭M(jìn)行標(biāo)注的標(biāo)注方法可以為用不同顏色進(jìn)行加粗放 大。
[0111] 206、基于決策樹的預(yù)測裝置利用可視化技術(shù)在第一決策樹中顯示至少一條測試 例的分類路徑。
[0112] 具體的,基于決策樹的預(yù)測裝置由于對(duì)至少一條測試?yán)姆诸惵窂竭M(jìn)行了標(biāo)注, 因此在將至少一條測試?yán)姆诸惵窂皆诘谝粵Q策樹中顯示時(shí),能夠使得用戶可以更加直觀 清晰的看到測試過程和測試?yán)姆诸惵窂?,幫助用戶分析預(yù)測結(jié)果,進(jìn)而根據(jù)預(yù)測結(jié)果對(duì) 決策樹算法的算法參數(shù)和特征屬性進(jìn)行了調(diào)節(jié)重生生成新的更為準(zhǔn)確的決策樹。
[0113] 207、基于決策樹的預(yù)測裝置根據(jù)至少一條測試?yán)姆诸惵窂脚袛嗍欠裾{(diào)節(jié)特征 屬性和決策樹算法的算法系數(shù)。
[0114] 若判斷結(jié)果為是,則轉(zhuǎn)向步驟208,若判斷結(jié)果為否,則結(jié)束該基于決策樹的預(yù)測 過程。
[0115] 208、基于決策樹的預(yù)測裝置調(diào)節(jié)特征屬性和決策樹算法的算法系數(shù)。
[0116] 本發(fā)明實(shí)施例提供的基于決策樹的預(yù)測方法,能夠以可視化技術(shù)來顯示大規(guī)模決 策樹模型,以及利用可視化技術(shù)來展示決策樹模型的預(yù)測過程,幫助分析預(yù)測原因,并且在 對(duì)決策樹進(jìn)行預(yù)測時(shí),能夠顯示測試?yán)姆诸惵窂?,使得用戶能夠看到簡潔清晰的決策樹 模型及測試?yán)姆诸惵窂健?br>
[0117] 本發(fā)明的實(shí)施例提供一種基于決策樹的預(yù)測裝置,該裝置用于實(shí)現(xiàn)上述的基于決 策樹的預(yù)測方法,如圖3、4所示,該基于決策樹的預(yù)測裝置3包括:篩選單元31,訓(xùn)練單元 32、壓縮單元33、可視化單元34和測試單元35,其中:
[0118] 篩選單元31,用于根據(jù)特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇 生成訓(xùn)練集,其中,特征屬性為產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性或缺陷屬性。
[0119] 訓(xùn)練單元32,用于根據(jù)決策樹算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹,其中,訓(xùn)練集屬 于篩選單元31選擇的目標(biāo)訓(xùn)練集。
[0120] 壓縮單元33,用于對(duì)訓(xùn)練單元32生成的決策樹進(jìn)行壓縮得到第一決策樹。
[0121] 可視化單元34,用于利用可視化技術(shù)顯示壓縮單元33得到的第一決策樹。
[0122] 測試單元35,用于從測試集中選取至少一條測試?yán)来屋斎雺嚎s單元33得到的 第一決策樹中進(jìn)行測試,生成至少一條測試?yán)姆诸惵窂健?br>
[0123] 可視化單元34,還用于利用可視化技術(shù)在壓縮單元33得到的第一決策樹中顯示 測試單元35生成的至少一條測試?yán)姆诸惵窂健?br>
[0124] 可選的,該裝置還包括:判斷單元36和調(diào)節(jié)單元37,其中:
[0125] 判斷單元36,用于根據(jù)測試單元34得到的至少一條測試?yán)姆诸惵窂脚袛嗍欠?調(diào)節(jié)特征屬性和決策樹算法的算法系。
[0126] 調(diào)節(jié)單元37,用于若判斷單元36判斷的結(jié)果為是,則調(diào)節(jié)特征屬性和決策樹算法 的算法系數(shù)。
[0127] 訓(xùn)練單元31,還用于重新根據(jù)調(diào)節(jié)單元37得到的調(diào)節(jié)后的特征屬性對(duì)預(yù)存的產(chǎn) 品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成新的訓(xùn)練集,并采用調(diào)節(jié)單元37得到的調(diào)節(jié)過 算法系數(shù)的決策樹算法根據(jù)新的訓(xùn)練集生成新的決策樹。
[0128] 進(jìn)一步可選的,如圖4所示,壓縮單元33,包括:掃描模塊331、合并模塊332和存 儲(chǔ)模塊333,其中:
[0129] 掃描模塊331,用于通過后續(xù)遍歷訓(xùn)練單元32生成的決策樹中每條邊對(duì)應(yīng)的節(jié)點(diǎn) 和父節(jié)點(diǎn)的節(jié)點(diǎn)對(duì),其中,節(jié)點(diǎn)包括子節(jié)點(diǎn)或子樹。
[0130] 合并模塊332,用于將訓(xùn)練單元32生成的決策樹中所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn)行 合并,得到第一決策樹。
[0131] 存儲(chǔ)模塊333,用于將所有的合并后的邊及對(duì)應(yīng)的有相同節(jié)點(diǎn)對(duì)的邊存入標(biāo)記文 件的信息映射表中,其中,信息映射表為決策樹的邊和第一決策樹的邊的對(duì)應(yīng)關(guān)系表。
[0132] 進(jìn)一步可選的,如圖4所示,測試單元35,包括:解析模塊351、匹配模塊352和標(biāo) 注模塊353,其中:
[0133] 解析模塊351,用于通過解析從測試集中選取的至少一條測試?yán)械拿織l測試?yán)?得到每條測試?yán)膶傩灾祵?duì)集合。
[0134] 匹配模塊352,用于將解析模塊351解析出的第一屬性值對(duì)集合輸入第一決策樹 與第一決策樹的第一層級(jí)進(jìn)行匹配。
[0135] 匹配模塊352,還用于若解析模塊351解析出的第一屬性值對(duì)集合與第一決策樹 的第一層級(jí)有匹配,則將解析模塊351解析出的第一屬性值對(duì)集合與第一決策樹的第一層 級(jí)的所有節(jié)點(diǎn)進(jìn)行匹配,直到第一決策樹的所有層級(jí)的節(jié)點(diǎn)全部匹配完,則第一屬性值對(duì) 集合對(duì)應(yīng)的測試?yán)诸愅瓿伞?br>
[0136] 標(biāo)注模塊353,用于第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)姆诸惵窂竭M(jìn)行標(biāo)注,并將解 析模塊341解析出的第二屬性值對(duì)集合輸入第一決策樹與第一決策樹的第一層級(jí)進(jìn)行匹 配,直到所有測試?yán)糠诸愅瓿伞?br>
[0137] 其中,第一屬性值對(duì)集合與第二屬性值對(duì)集合屬于屬性值對(duì)集合,第一層級(jí)為通 過由上至下進(jìn)行分層的第一決策樹的第一層節(jié)點(diǎn)。
[0138] 進(jìn)一步可選的,如圖4所示,測試單元35,還包括:
[0139] 匹配模塊352,還用于若解析模塊351解析出的第一屬性值對(duì)集合與第一決策樹 的第一層級(jí)無匹配,則對(duì)解析模塊351解析出的第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诘谝粵Q 策樹中無法分類;及用于將解析模塊351解析出的第三屬性值對(duì)集合輸入第一決策樹與第 一決策樹的第一層級(jí)進(jìn)行匹配,其中,第三屬性值對(duì)集合屬于屬性值對(duì)集合,第一層級(jí)為通 過由上至下進(jìn)行分層的第一決策樹的第一層節(jié)點(diǎn)。
[0140] 可選的,該可視化技術(shù)包括以放射型多層有向圖的方式可視化第一決策樹的技 術(shù)。
[0141] 本發(fā)明實(shí)施例提供的基于決策樹的預(yù)測裝置,,能夠以可視化技術(shù)來顯示大規(guī)模 決策樹模型,以及利用可視化技術(shù)來展示決策樹模型的預(yù)測過程,幫助分析預(yù)測原因,并且 在對(duì)決策樹進(jìn)行預(yù)測是,能夠顯示測試?yán)姆诸惵窂?,使得用戶能夠看到簡潔清晰的決策 樹模型及測試?yán)姆诸惵窂健?br>
[0142] 本發(fā)明的實(shí)施例提供一種基于決策樹的預(yù)測裝置,該裝置用于實(shí)現(xiàn)上述的基于決 策樹的預(yù)測方法,如圖5所示,該基于決策樹的預(yù)測裝置4包括:至少一個(gè)處理器41,存儲(chǔ) 器42,通信總線43以及至少一個(gè)通信接口 44。
[0143] 其中,通信總線43用于實(shí)現(xiàn)上述組件之間的連接并通信,該通信接口 44用于與外 部設(shè)備連接并通信。
[0144] 存儲(chǔ)器42中存儲(chǔ)需要執(zhí)行的程序代碼,這些程序代碼具體可以包括:篩選單元 421,訓(xùn)練單元422、壓縮單元423、可視化單元424和測試單元425。
[0145] 處理器41用于執(zhí)行存儲(chǔ)器42中存儲(chǔ)的單元,當(dāng)上述單元被處理器41執(zhí)行時(shí),可 以實(shí)現(xiàn)如下功能:
[0146] 篩選單元421,用于根據(jù)特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選 擇生成訓(xùn)練集,其中,特征屬性為產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性或缺陷屬性。
[0147] 訓(xùn)練單元422,用于根據(jù)決策樹算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹,其中,訓(xùn)練集 屬于篩選單元421選擇的目標(biāo)訓(xùn)練集。
[0148] 壓縮單元423,用于對(duì)訓(xùn)練單元422生成的決策樹進(jìn)行壓縮得到第一決策樹。
[0149] 可視化單元424,用于利用可視化技術(shù)顯示壓縮單423得到的第一決策樹。
[0150] 測試單元425,用于從測試集中選取至少一條測試?yán)来屋斎雺嚎s單元423得到 的第一決策樹中進(jìn)行測試,生成至少一條測試?yán)姆诸惵窂健?br>
[0151] 可視化單元424,還用于利用可視化技術(shù)在壓縮單元423得到的第一決策樹中顯 示測試單元425生成的至少一條測試?yán)姆诸惵窂健?br>
[0152] 可選的,該存儲(chǔ)器42還包括:判斷單元426和調(diào)節(jié)單元427,其中:
[0153] 判斷單元426,用于根據(jù)測試單元424得到的至少一條測試?yán)姆诸惵窂脚袛嗍?否調(diào)節(jié)特征屬性和決策樹算法的算法系。
[0154] 調(diào)節(jié)單元427,用于若判斷單元426判斷的結(jié)果為是,則調(diào)節(jié)特征屬性和決策樹算 法的算法系數(shù)。
[0155] 訓(xùn)練單元421,還用于重新根據(jù)調(diào)節(jié)單元427得到的調(diào)節(jié)后的特征屬性對(duì)預(yù)存的 產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成新的訓(xùn)練集,并采用調(diào)節(jié)單元427得到的調(diào)節(jié) 過算法系數(shù)的決策樹算法根據(jù)新的訓(xùn)練集生成新的決策樹。
[0156] 進(jìn)一步可選的,壓縮單元423,包括:掃描模塊、合并模塊和存儲(chǔ)模塊,其中:
[0157] 掃描模塊,用于通過后續(xù)遍歷所述訓(xùn)練單元生成的所述決策樹中每條邊對(duì)應(yīng)的節(jié) 點(diǎn)和父節(jié)點(diǎn)的節(jié)點(diǎn)對(duì),其中,所述節(jié)點(diǎn)包括子節(jié)點(diǎn)或子樹;
[0158] 合并模塊,用于將所述訓(xùn)練單元生成的所述決策樹中所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn) 行合并,得到所述第一決策樹。
[0159] 存儲(chǔ)模塊,用于將所有的合并后的邊及對(duì)應(yīng)的所述有相同節(jié)點(diǎn)對(duì)的邊存入標(biāo)記文 件的信息映射表中,其中,所述信息映射表為所述決策樹的邊和所述第一決策樹的邊的對(duì) 應(yīng)關(guān)系表。
[0160] 進(jìn)一步可選的,測試單元425,包括:解析模塊、匹配模塊和標(biāo)注模塊,其中:
[0161] 解析模塊,用于通過解析從測試集中選取的至少一條測試?yán)械拿織l測試?yán)?,?到所述每條測試?yán)膶傩灾祵?duì)集合。
[0162] 匹配模塊,用于將解析模塊解析出的第一屬性值對(duì)集合輸入所述第一決策樹與第 一決策樹的第一層級(jí)進(jìn)行匹配。
[0163] 匹配模塊,還用于若解析模塊解析出的第一屬性值對(duì)集合與第一決策樹的第一層 級(jí)有匹配,則將解析模塊解析出的第一屬性值對(duì)集合與第一決策樹的第一層級(jí)的所有節(jié)點(diǎn) 進(jìn)行匹配,直到第一決策樹的所有層級(jí)的節(jié)點(diǎn)全部匹配完,則第一屬性值對(duì)集合對(duì)應(yīng)的測 試?yán)诸愅瓿伞?br>
[0164] 標(biāo)注模塊,用于將第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)姆诸惵窂竭M(jìn)行標(biāo)注,并將解 析模塊解析出的第二屬性值對(duì)集合輸入第一決策樹與第一決策樹的第一層級(jí)進(jìn)行匹配,直 到所有測試?yán)糠诸愅瓿伞?br>
[0165] 其中,第一屬性值對(duì)集合與第二屬性值對(duì)集合屬于屬性值對(duì)集合,第一層級(jí)為通 過由上至下進(jìn)行分層的第一決策樹的第一層節(jié)點(diǎn)。
[0166] 進(jìn)一步可選的,測試單元425,還包括:
[0167] 匹配模塊,還用于若解析模塊解析出的第一屬性值對(duì)集合與第一決策樹的第一層 級(jí)無匹配,則對(duì)解析模塊解析出的第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诘谝粵Q策樹中無法分 類;及用于將解析模塊解析出的第三屬性值對(duì)集合輸入第一決策樹與第一決策樹的第一層 級(jí)進(jìn)行匹配,其中,第三屬性值對(duì)集合屬于屬性值對(duì)集合,第一層級(jí)為通過由上至下進(jìn)行分 層的第一決策樹的第一層節(jié)點(diǎn)。
[0168] 可選的,該可視化技術(shù)包括以放射型多層有向圖的方式可視化第一決策樹的技 術(shù)。
[0169] 本發(fā)明實(shí)施例提供的基于決策樹的預(yù)測裝置,能夠以可視化技術(shù)來顯示大規(guī)模決 策樹模型,以及利用可視化技術(shù)來展示決策樹模型的預(yù)測過程,幫助分析預(yù)測原因,并且在 對(duì)決策樹進(jìn)行預(yù)測是,能夠顯示測試?yán)姆诸惵窂?,使得用戶能夠看到簡潔清晰的決策樹 模型及測試?yán)姆诸惵窂健?br>
[0170] 以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1. 一種基于決策樹的預(yù)測方法,其特征在于,包括: 根據(jù)特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成目標(biāo)訓(xùn)練集,其 中,所述特征屬性為所述產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性或缺陷屬性; 采用決策樹算法對(duì)所述訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹,其中,所述訓(xùn)練集屬于所述目標(biāo) 訓(xùn)練集; 對(duì)所述決策樹進(jìn)行壓縮得到第一決策樹; 利用可視化技術(shù)顯示所述第一決策樹; 從測試集中選取至少一條測試?yán)来屋斎胨龅谝粵Q策樹中進(jìn)行測試,生成所述至少 一條測試?yán)姆诸惵窂剑? 利用所述可視化技術(shù)在所述第一決策樹中顯示所述至少一條測試?yán)姆诸惵窂健?br>
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 根據(jù)所述至少一條測試?yán)姆诸惵窂脚袛嗍欠裾{(diào)節(jié)所述特征屬性和所述決策樹算法 的算法系數(shù); 若判斷結(jié)果為是,則調(diào)節(jié)所述特征屬性和所述決策樹算法的算法系數(shù); 重新根據(jù)調(diào)節(jié)后的特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成新 的訓(xùn)練集,并采用調(diào)節(jié)過算法系數(shù)的決策樹算法根據(jù)所述新的訓(xùn)練集生成新的決策樹。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述決策樹進(jìn)行壓縮得到第一決 策樹,包括: 通過后續(xù)遍歷所述決策樹中每條邊對(duì)應(yīng)的節(jié)點(diǎn)和父節(jié)點(diǎn)的節(jié)點(diǎn)對(duì),其中,所述節(jié)點(diǎn)包 括子節(jié)點(diǎn)或子樹; 將所述決策樹中所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn)行合并,得到所述第一決策樹。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述決策樹中所有的有相同節(jié)點(diǎn) 對(duì)的邊進(jìn)行合并,得到所述第一決策樹之后,還包括: 將所有的合并后的邊及對(duì)應(yīng)的所述有相同節(jié)點(diǎn)對(duì)的邊存入標(biāo)記文件的信息映射表中, 其中,所述信息映射表為所述決策樹的邊和所述第一決策樹的邊的對(duì)應(yīng)關(guān)系表。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從測試集中選取至少一條測試?yán)?次輸入所述第一決策樹中進(jìn)行測試,生成所述至少一條測試?yán)姆诸惵窂?,包括?通過解析從測試集中選取的至少一條測試?yán)械拿織l測試?yán)玫剿雒織l測試?yán)?屬性值對(duì)集合; 將第一屬性值對(duì)集合輸入所述第一決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹配; 若所述第一屬性值對(duì)集合與所述第一決策樹的第一層級(jí)有匹配,則將所述第一屬性值 對(duì)集合與所述第一決策樹的第一層級(jí)的所有節(jié)點(diǎn)進(jìn)行匹配,直到所述第一決策樹的所有層 級(jí)的節(jié)點(diǎn)全部匹配完,則所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诸愅瓿桑? 將所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)姆诸惵窂竭M(jìn)行標(biāo)注,并將第二屬性值對(duì)集合 輸入所述第一決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹配,直到所有測試?yán)糠诸愅?成; 其中,所述第一屬性值對(duì)集合與第二屬性值對(duì)集合屬于所述屬性值對(duì)集合,所述第一 層級(jí)為通過由上至下進(jìn)行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將第一屬性值對(duì)集合輸入所述第一 決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹配之后,還包括: 若所述第一屬性值對(duì)集合與所述第一決策樹的第一層級(jí)無匹配,則對(duì)所述第一屬性值 對(duì)集合對(duì)應(yīng)的測試?yán)谒龅谝粵Q策樹中無法分類; 將第三屬性值對(duì)集合輸入所述第一決策樹與所述第一決策樹的第一層級(jí)進(jìn)行匹配,其 中,所述第三屬性值對(duì)集合屬于所述屬性值對(duì)集合,所述第一層級(jí)為通過由上至下進(jìn)行分 層的所述第一決策樹的第一層節(jié)點(diǎn)。
7. 根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法,其特征在于,所述可視化技術(shù)包括以放射型 多層有向圖的方式可視化第一決策樹的技術(shù)。
8. -種基于決策樹的預(yù)測裝置,其特征在于,包括: 篩選單元,用于根據(jù)特征屬性對(duì)預(yù)存的產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成訓(xùn) 練集,其中,所述特征屬性為所述產(chǎn)品缺陷數(shù)據(jù)集中產(chǎn)品的固有屬性或缺陷屬性; 訓(xùn)練單元,用于采用決策樹算法對(duì)所述訓(xùn)練集進(jìn)行訓(xùn)練生成決策樹,其中,所述訓(xùn)練集 屬于所述篩選單元選擇的所述目標(biāo)訓(xùn)練集; 壓縮單元,用于對(duì)所述決策樹進(jìn)行壓縮得到第一決策樹; 可視化單元,用于利用可視化技術(shù)顯示所述壓縮單元得到的所述第一決策樹; 測試單元,用于從測試集中選取至少一條測試?yán)来屋斎胨鰤嚎s單元得到的所述第 一決策樹中進(jìn)行測試,生成所述至少一條測試?yán)姆诸惵窂剑? 所述可視化單元,還用于利用所述可視化技術(shù)在所述壓縮單元得到的所述第一決策樹 中顯示所述測試單元生成的所述至少一條測試?yán)姆诸惵窂健?br>
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 判斷單元,用于根據(jù)所述測試單元得到的所述至少一條測試?yán)姆诸惵窂脚袛嗍欠裾{(diào) 節(jié)所述特征屬性和所述決策樹算法的算法系; 調(diào)節(jié)單元,用于若所述判斷單元的判斷結(jié)果為是,則調(diào)節(jié)所述特征屬性和所述決策樹 算法的算法系數(shù); 所述訓(xùn)練單元,還用于重新根據(jù)所述調(diào)節(jié)單元得到的所述調(diào)節(jié)后的特征屬性對(duì)預(yù)存的 產(chǎn)品缺陷數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行屬性選擇生成新的訓(xùn)練集,并采用所述調(diào)節(jié)單元得到的調(diào)節(jié) 過算法系數(shù)的決策樹算法根據(jù)所述新的訓(xùn)練集生成新的決策樹。
10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述壓縮單元,包括: 掃描模塊,用于通過后續(xù)遍歷所述訓(xùn)練單元生成的所述決策樹中每條邊對(duì)應(yīng)的節(jié)點(diǎn)和 父節(jié)點(diǎn)的節(jié)點(diǎn)對(duì),其中,所述節(jié)點(diǎn)包括子節(jié)點(diǎn)或子樹; 合并模塊,用于將所述訓(xùn)練單元生成的所述決策樹中所有的有相同節(jié)點(diǎn)對(duì)的邊進(jìn)行合 并,得到所述第一決策樹。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述對(duì)壓縮單元,還包括: 存儲(chǔ)模塊,用于將所有的合并后的邊及對(duì)應(yīng)的所述有相同節(jié)點(diǎn)對(duì)的邊存入標(biāo)記文件的 信息映射表中,其中,所述信息映射表為所述決策樹的邊和所述第一決策樹的邊的對(duì)應(yīng)關(guān) 系表。
12. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述測試單元,包括: 解析模塊,用于通過解析從測試集中選取的至少一條測試?yán)械拿織l測試?yán)?,得到?述每條測試?yán)膶傩灾祵?duì)集合; 匹配模塊,用于將所述解析模塊解析出的第一屬性值對(duì)集合輸入所述第一決策樹與所 述第一決策樹的第一層級(jí)進(jìn)行匹配; 所述匹配模塊,還用于若所述解析模塊解析出的所述第一屬性值對(duì)集合與所述第一 決策樹的第一層級(jí)有匹配,則將所述解析模塊解析出的所述第一屬性值對(duì)集合與所述第一 決策樹的第一層級(jí)的所有節(jié)點(diǎn)進(jìn)行匹配,直到所述第一決策樹的所有層級(jí)的節(jié)點(diǎn)全部匹配 完,則所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)诸愅瓿桑? 標(biāo)注模塊,用于將所述匹配模塊得到的所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)姆诸惵?徑進(jìn)行標(biāo)注,并將所述解析模塊解析出的第二屬性值對(duì)集合輸入所述第一決策樹與所述第 一決策樹的第一層級(jí)進(jìn)行匹配,直到所有測試?yán)糠诸愅瓿桑? 其中,所述第一屬性值對(duì)集合與第二屬性值對(duì)集合屬于所述屬性值對(duì)集合,所述第一 層級(jí)為通過由上至下進(jìn)行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述測試單元,還包括: 所述匹配模塊,還用于若所述解析模塊解析出的所述第一屬性值對(duì)集合與所述第一決 策樹的第一層級(jí)無匹配,則對(duì)所述第一屬性值對(duì)集合對(duì)應(yīng)的測試?yán)谒龅谝粵Q策樹中無 法分類;及用于將所述解析模塊解析出的第三屬性值對(duì)集合輸入所述第一決策樹與所述第 一決策樹的第一層級(jí)進(jìn)行匹配,其中,所述第三屬性值對(duì)集合屬于所述屬性值對(duì)集合,所述 第一層級(jí)為通過由上至下進(jìn)行分層的所述第一決策樹的第一層節(jié)點(diǎn)。
14. 根據(jù)權(quán)利要求8至13任一項(xiàng)所述的裝置,其特征在于,所述可視化技術(shù)包括以放射 型多層有向圖的方式可視化第一決策樹的技術(shù)。
【文檔編號(hào)】G06F17/30GK104111920SQ201310131606
【公開日】2014年10月22日 申請(qǐng)日期:2013年4月16日 優(yōu)先權(quán)日:2013年4月16日
【發(fā)明者】陳煥華, 曹國祥 申請(qǐng)人:華為技術(shù)有限公司