国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于特征選擇的模型檢測(cè)方法

      文檔序號(hào):9687980閱讀:527來(lái)源:國(guó)知局
      基于特征選擇的模型檢測(cè)方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明設(shè)及一種數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)、云計(jì)算、互聯(lián)網(wǎng)等技術(shù)領(lǐng)域,特別是 設(shè)及一種基于特征選擇的模型檢測(cè)方法。
      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,積累了海量的數(shù)據(jù),同時(shí)也給數(shù)據(jù)分析和數(shù)據(jù)挖掘帶來(lái) 了諸多問(wèn)題:
      [0003] 數(shù)據(jù)量大,維度高:一個(gè)數(shù)據(jù)集由實(shí)例數(shù)P和特征數(shù)N,兩者結(jié)合在一起給算法帶來(lái) 巨大的計(jì)算量;
      [0004] 數(shù)據(jù)變化頻繁:互聯(lián)網(wǎng)快速的變化也產(chǎn)生了變化的數(shù)據(jù),運(yùn)就需要重新生成數(shù)據(jù) 模型;
      [0005] 噪聲數(shù)據(jù)和缺失數(shù)據(jù):互聯(lián)網(wǎng)數(shù)據(jù)缺乏嚴(yán)格的約定,數(shù)據(jù)參差不齊,一些算法對(duì)噪 聲數(shù)據(jù)敏感,難W得到穩(wěn)定的數(shù)據(jù)模型。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明要解決的技術(shù)問(wèn)題是為了克服現(xiàn)有技術(shù)中互聯(lián)網(wǎng)數(shù)據(jù)計(jì)算量大、數(shù)據(jù)變化 頻繁W及難W得到穩(wěn)定的數(shù)據(jù)模型的缺陷,提供一種基于特征選擇的模型檢測(cè)方法。
      [0007] 本發(fā)明是通過(guò)下述技術(shù)方案來(lái)解決上述技術(shù)問(wèn)題的:
      [000引本發(fā)明提供了一種基于特征選擇的模型檢測(cè)方法,其特點(diǎn)在于,包括W下步驟:
      [0009] Si、對(duì)原始數(shù)據(jù)集進(jìn)行隨機(jī)分割,并將分割后的數(shù)據(jù)放入原始訓(xùn)練集、驗(yàn)證集和測(cè) 試集中;
      [0010] &、采用原始訓(xùn)練集訓(xùn)練一個(gè)模型;
      [oow S3、利用所述模型預(yù)測(cè)原始訓(xùn)練集和驗(yàn)證集,分別得到原始訓(xùn)練集的預(yù)測(cè)誤差和 驗(yàn)證集的預(yù)測(cè)誤差;
      [0012] S4、刪除原始訓(xùn)練集中的第j個(gè)特征W得到一個(gè)新的訓(xùn)練集,利用所述模型預(yù)測(cè)所 述新的訓(xùn)練集,得到新的訓(xùn)練集的預(yù)測(cè)誤差,其中j的初始值為1;
      [0013] S5、將j + 1賦值為j,并返回步驟S4,直至j取值為別寸執(zhí)行步驟S6,其中C表示原始數(shù) 據(jù)集的特征數(shù);
      [0014] S6、計(jì)算C組新的訓(xùn)練集的預(yù)測(cè)誤差與原始訓(xùn)練集的預(yù)測(cè)誤差之間的距離;
      [0015] &、對(duì)計(jì)算出的距離進(jìn)行排序,并查找G個(gè)最小距離所對(duì)應(yīng)的特征,其中G表示刪除 粒度,G為自然數(shù),且1含G含C-1;
      [0016] S8、將查找出的特征的序號(hào)保存至刪除特征序列中,并在原始訓(xùn)練集和驗(yàn)證集中 刪除查找出的特征;
      [0017] S9、將C-G賦值為C,并返回步驟S2,直至C含G時(shí)執(zhí)行步驟Sio;
      [0018] Sio、根據(jù)驗(yàn)證集的預(yù)測(cè)誤差得到一個(gè)最小誤差值所對(duì)應(yīng)的序號(hào)K,將刪除特征序列 中的前K-1個(gè)特征從原始訓(xùn)練集和測(cè)試集中刪除;
      [0019] Sii、采用刪除前κ-1個(gè)特征后的訓(xùn)練集訓(xùn)練一個(gè)新的模型,并利用新的模型預(yù)測(cè)刪 除前Κ-1個(gè)特征后的測(cè)試集,W得到測(cè)試集的預(yù)測(cè)誤差。
      [0020] 較佳地,步驟&中按照從大到小的順序?qū)τ?jì)算出的距離進(jìn)行排序。
      [0021] 較佳地,步驟S2和步驟Sii中采用支持向量機(jī)訓(xùn)練模型。
      [0022] 較佳地,步驟S3中原始訓(xùn)練集的預(yù)測(cè)誤差和驗(yàn)證集的預(yù)測(cè)誤差均為均方根誤差。
      [0023] 本發(fā)明的積極進(jìn)步效果在于:本發(fā)明通過(guò)特征選擇有效去除噪聲特征和冗余特 征,提高分類(lèi)的正確性,提高模型的泛化能力,對(duì)解決變化較大的數(shù)據(jù)集合的學(xué)習(xí)問(wèn)題很有 幫助;本發(fā)明特征選擇的結(jié)果趨于穩(wěn)定,保證了結(jié)果的有效性,嵌入式特征選擇為后續(xù)的數(shù) 據(jù)挖掘泛化能力提供了保證,可W用戶自定義算法運(yùn)行速度,解決高維度數(shù)據(jù)的嵌入式特 征提取計(jì)算量大的問(wèn)題,在沒(méi)有損害原始數(shù)據(jù)集的泛化能力的條件下,同時(shí)在對(duì)回歸誤差 略有降低的情況下,大大精簡(jiǎn)了原始數(shù)據(jù)集的規(guī)模。
      【附圖說(shuō)明】
      [0024] 圖1為本發(fā)明的較佳實(shí)施例的基于特征選擇的模型檢測(cè)方法的流程圖。
      【具體實(shí)施方式】
      [0025] 下面通過(guò)實(shí)施例的方式進(jìn)一步說(shuō)明本發(fā)明,但并不因此將本發(fā)明限制在所述的實(shí) 施例范圍之中。
      [0026] 如圖1所示,本發(fā)明的基于特征選擇的模型檢測(cè)方法包括W下步驟:
      [0027] 步驟101、對(duì)原始數(shù)據(jù)集進(jìn)行隨機(jī)分割,并將分割后的數(shù)據(jù)放入原始訓(xùn)練集、驗(yàn)證 集和測(cè)試集中;
      [0028] 步驟102、采用原始訓(xùn)練集訓(xùn)練一個(gè)模型;
      [0029] 步驟103、利用所述模型預(yù)測(cè)原始訓(xùn)練集和驗(yàn)證集,分別得到原始訓(xùn)練集的預(yù)測(cè)誤 差和驗(yàn)證集的預(yù)測(cè)誤差;
      [0030] 步驟104、刪除原始訓(xùn)練集中的第j個(gè)特征W得到一個(gè)新的訓(xùn)練集,利用所述模型 預(yù)測(cè)所述新的訓(xùn)練集,得到新的訓(xùn)練集的預(yù)測(cè)誤差,其中j的初始值為1;
      [0031] 步驟105、將j + 1賦值為j,并返回步驟104,直至j取值為別寸執(zhí)行步驟106,其中C表 示原始數(shù)據(jù)集;
      [0032] 步驟106、計(jì)算C組新的訓(xùn)練集的預(yù)測(cè)誤差與原始訓(xùn)練集的預(yù)測(cè)誤差之間的距離;
      [0033] 步驟107、對(duì)計(jì)算出的距離進(jìn)行排序,并查找G個(gè)最小距離所對(duì)應(yīng)的特征,其中G表 示刪除粒度,G為自然數(shù),且1含G含C-1;
      [0034] 步驟108、將查找出的特征的序號(hào)保存至刪除特征序列里,并在原始訓(xùn)練集和驗(yàn)證 集中刪除查找出的特征;
      [0(X3日]步驟109、將C-G賦值為C,并返回步驟102,直至C含G時(shí)執(zhí)行步驟110;
      [0036] 步驟110、根據(jù)驗(yàn)證集的預(yù)測(cè)誤差得到一個(gè)最小誤差值所對(duì)應(yīng)的序號(hào)K,將刪除特 征序列中的前K-1個(gè)特征從原始訓(xùn)練集和測(cè)試集中刪除;
      [0037] 步驟111、采用刪除前K-1個(gè)特征后的訓(xùn)練集訓(xùn)練一個(gè)新的模型,并利用新的模型 預(yù)測(cè)刪除前K-1個(gè)特征后的測(cè)試集,W得到測(cè)試集的預(yù)測(cè)誤差。
      [0038] 其中,在步驟107中按照從大到小的順序?qū)τ?jì)算的距離進(jìn)行排序,在步驟102和步 驟111中采用支持向量機(jī)訓(xùn)練模型,步驟103中原始訓(xùn)練集的預(yù)測(cè)誤差和驗(yàn)證集的預(yù)測(cè)誤差 均為均方根誤差。
      [0039] 支持向量機(jī)(SVM,Suppod Vector Machine)是一個(gè)有監(jiān)督的學(xué)習(xí)模型,通常用來(lái) 進(jìn)行模式識(shí)別、分類(lèi)W及回歸分析,是一種較為成熟的學(xué)習(xí)器。
      [0040] 本發(fā)明中W支持向量機(jī)作為學(xué)習(xí)器,用于訓(xùn)練模型,檢測(cè)算法中特征選擇后的預(yù) 測(cè)能力,利用彈性云計(jì)算資源,檢驗(yàn)基于特征選擇的集成學(xué)習(xí)算法的優(yōu)劣,下面對(duì)本發(fā)明的 具體算法進(jìn)行詳細(xì)說(shuō)明:
      [OOW 輸入為:原始數(shù)據(jù)集D(f 1,f2,…,fC,Target),刪除粒度G;
      [0042]輸出為:被刪除的特征序列remove_list,算法預(yù)測(cè)的測(cè)試誤差Ete;
      [00創(chuàng)說(shuō)明如下:
      [0044] fi表示第i號(hào)特征;
      [0045] C表示原始數(shù)據(jù)集的特征數(shù);
      [0046] D(fi,f2,···,fc,Target)表示原始數(shù)據(jù)集,Target為目標(biāo)值,即數(shù)據(jù)的真實(shí)記錄的 結(jié)果;
      [0047] G表示刪除粒度,每次刪除特征的個(gè)數(shù),G為自然數(shù),1 < G < C-1,G的取值視原始數(shù) 據(jù)集的特征數(shù)量的多少而定;
      [004引 Dtr表示原始訓(xùn)練集,Dv表示驗(yàn)證集,Dt康示測(cè)試集;
      [0049] E表示誤差;
      [(K)加]model表示訓(xùn)練模型;
      [0051] train(D)表示W(wǎng)D為訓(xùn)練集訓(xùn)練模型函數(shù);
      [0052] test(D,model)表示根據(jù)模型model預(yù)測(cè)數(shù)據(jù)集D函數(shù);
      [0053] absQ表示求絕對(duì)值函數(shù);
      [0054] delete (fi,D)表示從數(shù)據(jù)集D中刪除i號(hào)特征;
      [0055] scxrtO表示從大到小排序函數(shù);
      [0化6] index=min( vector)表示返回?cái)?shù)組vector中最小值的序號(hào);
      [0057] 本發(fā)明的具體方法流程:
      [0058] 步驟1、對(duì)原始數(shù)據(jù)集D進(jìn)行隨機(jī)分割,并將分割后的數(shù)據(jù)放入原始訓(xùn)練集Dtr、驗(yàn)證 集Dv和測(cè)試集Dte中,并且 I>=Dtr U Dv U Dte,Dtr Π Dv η Dte=貧;
      [0059] 步驟2、用原始訓(xùn)練集0付訓(xùn)練一個(gè)模型,111〇(161 =付日;[]1(0仕);
      [0060] 步驟3、用上一步中得到的模型model預(yù)測(cè)原始訓(xùn)練集得到原始訓(xùn)練集的預(yù)測(cè)誤差 Etr = test(Dtr,model),預(yù)測(cè)驗(yàn)證集得到驗(yàn)證集的預(yù)測(cè)誤差Ev=test(Dv,model),保存Εν至 Ev_list(i),其中i取值從巧化-1,誤差由模型預(yù)測(cè)值和目標(biāo)值之差得到;
      [0061] 步驟4、刪除原始訓(xùn)練集Dtr中的第j個(gè)特征W得到一個(gè)新的訓(xùn)練集Dtr',利用所述 模型預(yù)測(cè)所述新的訓(xùn)練集Dtr',得到新的訓(xùn)練集的預(yù)測(cè)誤差Etr'=tesUDtr',model),將Etr' 保存至新的訓(xùn)練集Dtr'的誤差數(shù)組Etr_list(j)中;
      [0062] 步驟5、將j+1賦值為j,并返回步驟4,直至j取值為別寸執(zhí)行步驟6,其中C表示原始 數(shù)據(jù)集的特征數(shù);
      [0063] 步驟6、計(jì)算新的訓(xùn)練集Dtr'的誤差數(shù)組和原始訓(xùn)練集Dtr的誤差數(shù)組之間的距離, 計(jì)算公式為:abs化付_list( j)-Etr);
      [0064] 步驟7、按照從大到小順序?qū)τ?jì)算出的距離進(jìn)行排序,相應(yīng)公式為:sort(abs化tr_ 1 iSt (j )-Etr)),并查找G個(gè)最小距離所對(duì)應(yīng)的特征,將其作為被刪除的特征,其中xl、x2,…, xG表示被刪除的G個(gè)特征序號(hào);
      [0065] 步驟8、從原始訓(xùn)練集中刪除查找出的特征,即delete(fXI,fX2,…,f祐,Dtr),從驗(yàn)證 集中刪除查找出的特征,即delete(fxl,
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1