国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種異常數(shù)據(jù)的剔除方法與流程

      文檔序號:12039004閱讀:391來源:國知局
      本發(fā)明涉及計算機技術(shù)領(lǐng)域,更具體的說,涉及異常數(shù)據(jù)的剔除方法。

      背景技術(shù):
      在數(shù)據(jù)分析應(yīng)用系統(tǒng)中,根據(jù)數(shù)據(jù)的整體分布情況來篩選存在問題的分析對象是一種很常用的方法。整體分布情況一般是使用平均值及標準差來表示。因此平均值及標準差的計算對分析結(jié)果影響很大。在實際使用時,往往存在著異常數(shù)據(jù)(值過大或過小的數(shù)據(jù)),會造成平均值及標準差的計算很不合理。因此在計算平均值及標準差時需要把異常數(shù)據(jù)剔除掉。在現(xiàn)有的解決方案中,一般使用3西格瑪?shù)姆绞絹硖蕹惓?shù)據(jù),即先計算平均值及標準差,然后把大于平均值+3*標準差或者小于平均值-3*標準差的數(shù)據(jù)剔除掉,最后再計算一遍標準差。在對現(xiàn)有技術(shù)的研究和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)存在以下問題:在實際的應(yīng)用過程中,當數(shù)據(jù)量比較大時,只進行一次3西格瑪?shù)倪^濾無法剔除掉所有的異常數(shù)據(jù),平均值及標準差的計算依然是不合理的。另外,只對最終的數(shù)據(jù)應(yīng)用3西格瑪過濾,而不考慮數(shù)據(jù)的來源構(gòu)成也會導(dǎo)致平均值及標準差計算不合理。例如,最終的數(shù)據(jù)C=A/B,僅僅對C應(yīng)用3西格瑪過濾,而不考慮A及B的值,會導(dǎo)致C的平均值及標準差計算不合理。在某些應(yīng)用場景中,A和B同時都是很小的數(shù)應(yīng)該被視為異常數(shù)據(jù)因此,如何合理的剔除異常數(shù)據(jù),成為目前最需要解決的問題。

      技術(shù)實現(xiàn)要素:
      有鑒于此,本發(fā)明的設(shè)計目的在于,一種異常數(shù)據(jù)的剔除方法,剔除掉所有的異常數(shù)據(jù),以保證計算過程的合理性。本發(fā)明實施例是這樣實現(xiàn)的:一種異常數(shù)據(jù)的剔除方法,包括:獲取單個分析對象的數(shù)據(jù)異常規(guī)則;針對單個分析對象應(yīng)用數(shù)據(jù)異常規(guī)則并作標識;剔除打上標識的分析對象。優(yōu)選地,在剔除打上標識的分析對象的步驟之后,還包括:當存在未處理分析對象時,則返回針對單個分析對象應(yīng)用數(shù)據(jù)異常規(guī)則并作標識的步驟。優(yōu)選地,在剔除打上標識的分析對象的步驟之后,還包括:獲取整體異常規(guī)則;計算整體的平均值及標準差;針對單個分析對象應(yīng)用整體異常規(guī)則并作標識;剔除打上標識的分析對象。優(yōu)選地,在剔除打上標識的分析對象的步驟之后,還包括:當存在未處理的分析對象時,則返回針對單個分析對象應(yīng)用整體異常規(guī)則并作標識的步驟。優(yōu)選地,在剔除打上標識的分析對象的步驟之后,還包括:當存在本次未剔除的分析對象時,則返回計算整體的平均值及標準差的步驟。與現(xiàn)有技術(shù)相比,本實施例提供的技術(shù)方案具有以下優(yōu)點和特點:在本發(fā)明提供的方案中,通過數(shù)據(jù)異常規(guī)則和整體異常規(guī)則來對異常數(shù)據(jù)進行處理,允許用戶定制數(shù)據(jù)異常規(guī)則,并循環(huán)利用整體異常規(guī)則來剔除異常數(shù)據(jù)。在數(shù)據(jù)分析應(yīng)用中異常數(shù)據(jù)的存在是很普遍的,本發(fā)明能剔除掉所有的異常數(shù)據(jù),從而保障分析結(jié)果的準確性。附圖說明為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明所提供的一種異常數(shù)據(jù)的剔除方法的流程圖。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明實施例提供了一種異常數(shù)據(jù)的剔除方法,剔除掉所有的異常數(shù)據(jù),以保證計算過程的合理性。由于上述異常數(shù)據(jù)的剔除方法的具體實現(xiàn)存在多種方式,下面通過具體實施例進行詳細說明:請參見圖1所示,圖1所示的為一種異常數(shù)據(jù)的剔除方法,該方法包括:步驟1:獲取單個分析對象的數(shù)據(jù)異常規(guī)則獲取預(yù)先設(shè)置好的數(shù)據(jù)異常規(guī)則,這里的異常規(guī)則可以根據(jù)數(shù)據(jù)及其構(gòu)成來設(shè)置。例如,最終的數(shù)據(jù)C=A/B,可以設(shè)置數(shù)據(jù)異常規(guī)則為C>10,也可以設(shè)置異常規(guī)則為A<0.1且B<0.1。步驟2:針對單個分析對象應(yīng)用數(shù)據(jù)異常規(guī)則并作標識針對單個分析對象,遍歷上一步驟獲取到所有的數(shù)據(jù)異常規(guī)則,如果有某一條規(guī)則是符合的,則給該分析對象打上標識,表示它是異常數(shù)據(jù)。步驟3:剔除打上標識的分析對象針對上一步驟中被標識為異常數(shù)據(jù)的分析對象,把它從整個運算中剔除掉。步驟4:是否有未處理的分析對象判斷是否已經(jīng)處理了所有的分析對象。如果還有未處理的分析對象,則循環(huán)調(diào)用步驟2、3進行處理。步驟5:獲取整體異常規(guī)則獲取預(yù)先設(shè)置好的整體異常規(guī)則,這里的異常規(guī)則一般都會使用到平均值及標準差。常用的規(guī)則就是前面提到的3西格瑪。步驟6:計算整體的平均值及標準差遍歷數(shù)據(jù)計算整體的平均值及標準差。步驟7:針對單個分析對象應(yīng)用整體異常規(guī)則并作標識針對單個分析對象,遍歷步驟5獲取到的所有的整體異常規(guī)則,同時利用上一步驟計算的到平均值及標準差,如果有某一條規(guī)則是符合的,則給該分析對象打上標識,表示它是異常數(shù)據(jù)。步驟8:剔除打上標識的分析對象針對上一步驟中被標識為異常數(shù)據(jù)的分析對象,把它從整個運算中剔除掉。步驟9:是否有未處理的分析對象判斷是否已經(jīng)處理了所有的分析對象。如果還有未處理的分析對象,則循環(huán)調(diào)用步驟7、8進行處理。步驟10:是否存在本次剔除的分析對象判斷步驟8是否有剔除分析對象,如果有,返回步驟6繼續(xù)處理。如果沒有,說明當前所有的分析對象中已經(jīng)沒有異常數(shù)據(jù)了,則步驟6的結(jié)果可作為最終的結(jié)果使用。在圖1所示的實施例中,通過數(shù)據(jù)異常規(guī)則和整體異常規(guī)則來對異常數(shù)據(jù)進行處理,允許用戶定制數(shù)據(jù)異常規(guī)則,并循環(huán)利用整體異常規(guī)則來剔除異常數(shù)據(jù)。在數(shù)據(jù)分析應(yīng)用中異常數(shù)據(jù)的存在是很普遍的,本發(fā)明能剔除掉所有的異常數(shù)據(jù),從而保障分析結(jié)果的準確性。下面通過實際的案例來說明本發(fā)明的方案:請參見表1所示,表1為企業(yè)稅負表。企業(yè)稅額收入稅負=稅額/收入*100企業(yè)111001企業(yè)2100100001企業(yè)3110110001企業(yè)4110110001企業(yè)5120120001企業(yè)6120120001企業(yè)7120120001企業(yè)8120120001企業(yè)9200100002企業(yè)10400200002企業(yè)11100100100企業(yè)12100110000在表1中,如果利用現(xiàn)有技術(shù)的方法來剔除異常數(shù)據(jù),針對最后一列的稅負,平均值=842.66,標準差=2761.14,利用三西格瑪方法剔除掉最后一行數(shù)據(jù)后,平均值=10.18,標準差=28.40。而大部分企業(yè)的稅負都在1左右,最后的平均值10.18不夠合理。在表1中,如果采用本發(fā)明的方案,針對上方的表格數(shù)據(jù)。一開始可以把稅額<10的第一行數(shù)據(jù)剔除掉,因為一般的企業(yè)稅額都在100以上,企業(yè)1只有1,不太正常。這里判斷的依據(jù)是業(yè)務(wù)常識,本系統(tǒng)允許用戶根據(jù)業(yè)務(wù)常識定制剔除的規(guī)則,同時在剔除了這些數(shù)據(jù)后后續(xù)的運算量會降低,即提高了效率。然后計算出平均值=919.18,標準差=2871.74。利用三西格瑪剔除掉最后一行數(shù)據(jù),再計算出平均值=11.1,標準差=29.63。利用3西格瑪再剔除掉最后一行數(shù)據(jù),再計算出平均值=1.22,標準差=0.41。這樣得到的平均值、標準差比較符合實際的情況。需要說明的是,圖1所示的實施例只是本發(fā)明所介紹的優(yōu)選實施例,本領(lǐng)域技術(shù)人員在此基礎(chǔ)上,完全可以設(shè)計出更多的實施例,因此不在此處贅述。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1