動態(tài)離群值偏倚減少系統(tǒng)和方法
【專利摘要】本申請涉及動態(tài)離群值偏倚減少系統(tǒng)和方法。這里描述了用于進行數(shù)據(jù)過濾以減少功能性和趨勢線離群值偏倚的系統(tǒng)和方法。通過客觀統(tǒng)計方法從數(shù)據(jù)集合中去除離群值?;诮^對誤差、相對誤差或兩者確定偏倚。根據(jù)數(shù)據(jù)、模型系數(shù)或趨勢線計算來計算誤差值。當誤差值大于或等于用戶提供的標準時,去除離群數(shù)據(jù)記錄。對于優(yōu)化方法或其他迭代計算,去除的數(shù)據(jù)在每次迭代中被重應用到模型以計算新結果。利用完整數(shù)據(jù)集的模型值,計算新誤差值并且重應用離群值偏倚減少過程。以迭代方式對于模型系數(shù)和離群值去除數(shù)據(jù)最小化整體誤差,直到達到用戶定義的誤差改進限度為止。經(jīng)過濾的數(shù)據(jù)可用于驗證、離群值偏倚減少和數(shù)據(jù)質(zhì)量操作。
【專利說明】動態(tài)離群值偏倚減少系統(tǒng)和方法
[0001] 相關申請的交叉引用
[0002] 此部分繼續(xù)專利申請要求2011年8月19日遞交的標題為"Dynamic Outlier Bias Reduction System and Method"、序列號為13/213, 780的美國非臨時專利申請的權益和優(yōu) 先權,這里通過引用將該美國申請全部并入。
【技術領域】
[0003] 本發(fā)明涉及對數(shù)據(jù)的分析,其中離群元素被從分析開發(fā)中去除(或過濾掉)。分析 可與簡單統(tǒng)計量的計算或者在其開發(fā)中涉及使用數(shù)據(jù)的數(shù)學模型的更復雜操作有關。離群 數(shù)據(jù)過濾的目的可以是執(zhí)行數(shù)據(jù)質(zhì)量和數(shù)據(jù)驗證操作,或者計算能夠應用于后續(xù)分析、回 歸分析、時間序列分析中的代表性標準、統(tǒng)計量、數(shù)據(jù)群組或者用于數(shù)學模型開發(fā)的合格數(shù) 據(jù)。
【背景技術】
[0004] 在標準或數(shù)據(jù)驅(qū)動模型開發(fā)中去除離群數(shù)據(jù)是分析前工作的一個重要部分,用來 確保從底層數(shù)據(jù)開發(fā)出有代表性的且合理的分析。例如,為二氧化碳(co 2)、臭氧(03)、水蒸 氣(H20)、氫氟碳(HFC)、全氟化碳(PFC)、含氯氟烴(CFC)、六氟化硫(SF 6)、甲烷(CH4)、一氧 化二氮(N20)、一氧化碳(C0)、氧化氮(NOx)以及非甲烷揮發(fā)性有機化合物(NMV0C)排放的 溫室氣體標準開發(fā)公正的基準要求在標準開發(fā)中使用的所收集的工業(yè)數(shù)據(jù)表現(xiàn)出某些屬 性。少數(shù)幾個工業(yè)場所的極好或極壞的性能不應當導致為其他場所計算的標準的偏倚。可 以判斷將這種性能結果包括在標準計算中是不合理或者沒有代表性的。過去,經(jīng)由一種要 求主觀輸入的半定量過程來去除性能離群值(outlier)。本系統(tǒng)和方法是一種數(shù)據(jù)驅(qū)動的 方案,該方案把此任務作為模型開發(fā)的一個組成部分來執(zhí)行,而不是在分析前或模型開發(fā) 前階段執(zhí)行。
[0005] 偏倚(bias)的去除可以是一個主觀過程,其中以某種形式記錄認為恰當?shù)睦碛梢?證實數(shù)據(jù)變化。然而,任何形式的離群值去除都是一種帶著改變計算結果的潛在可能性的 數(shù)據(jù)審查。這種數(shù)據(jù)過濾可能減少或不減少計算中的偏倚或誤差,并且本著完全分析公開 的精神,嚴格的數(shù)據(jù)去除指導方針和去除離群值的證明材料需要與分析結果包括在一起。 因此,在現(xiàn)有技術中需要提供一種新的系統(tǒng)和方法,用于利用一種對于數(shù)據(jù)質(zhì)量操作、數(shù)據(jù) 驗證、統(tǒng)計計算或數(shù)學模型開發(fā)等等有用的動態(tài)統(tǒng)計過程來客觀地去除離群數(shù)據(jù)偏倚。離 群值偏倚去除系統(tǒng)和方法還可用于將數(shù)據(jù)分組成代表性類別,其中數(shù)據(jù)被應用到為每個群 組定制的數(shù)學模型開發(fā)。在優(yōu)選實施例中,系數(shù)被定義為數(shù)學模型中的乘法和加法因子以 及在性質(zhì)上非線性的其他數(shù)值參數(shù)。例如,在數(shù)學模型f (X,y, Z)=a*x+b*ye+d*sin(ez)+f 中,a、b、c、d、e和f全都被定義為系數(shù)。這些項的值可以固定或者是數(shù)學模型的開發(fā)的一 部分。
【發(fā)明內(nèi)容】
[0006] 優(yōu)選實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法,包括以下步 驟:選擇偏倚標準;提供數(shù)據(jù)集合;提供模型系數(shù)的集合;選擇目標值的集合;(1)為完整 數(shù)據(jù)集合生成預測值的集合;(2)為數(shù)據(jù)集生成誤差集合;(3)基于誤差集合和偏倚標準 生成誤差閾值的集合;(4)由處理器基于誤差集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集 合;(5)由處理器生成新模型系數(shù)的集合;(6)使用新模型系數(shù)的集合,重復步驟(1)- (5), 除非滿足了審查性能終止標準。在優(yōu)選實施例中,可基于數(shù)據(jù)集合和模型系數(shù)的集合來生 成預測值的集合。在優(yōu)選實施例中,誤差集合可包括基于預測值的集合和目標值的集合生 成的絕對誤差的集合和相對誤差的集合。在另一實施例中,誤差集合可包括作為預測值的 集合與目標值的集合之間的差異計算出的值。在另一實施例中,生成新系數(shù)的集合的步驟 還可包括最小化預測值的集合與實際值的集合之間的誤差的集合的步驟,這可利用線性或 非線性優(yōu)化模型來實現(xiàn)。在優(yōu)選實施例中,審查性能終止標準可基于標準誤差(standard error)和石角定系數(shù)(coefficient of determination)。
[0007] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法,包括以下步 驟:選擇誤差標準;選擇數(shù)據(jù)集合;選擇實際值的集合;選擇模型系數(shù)的初始集合;基于完 整數(shù)據(jù)集合和模型系數(shù)的初始集合生成模型預測值的集合;(1)對于完整數(shù)據(jù)集,基于模 型預測值和實際值的集合生成誤差的集合;(2)對于完整數(shù)據(jù)集合,基于誤差的完整集合 和誤差標準生成誤差閾值的集合;(3)生成離群值被去除的數(shù)據(jù)集合,其中過濾基于完整 數(shù)據(jù)集合和誤差閾值的集合;(4)基于經(jīng)過濾的數(shù)據(jù)集合和先前系數(shù)的集合生成新系數(shù)的 集合,其中新系數(shù)的集合的生成由計算機處理器執(zhí)行;(5)基于經(jīng)過濾的數(shù)據(jù)集合和新模 型系數(shù)的集合生成離群值偏倚減少模型預測值的集合,其中離群值偏倚減少模型預測值的 集合的生成由計算機處理器執(zhí)行;(6)基于模型預測值和實際值的集合生成模型性能值的 集合;在用新系數(shù)的集合替代來自先前迭代的系數(shù)的集合的同時,重復步驟(1)- (6),除 非:滿足性能終止標準;并且將模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0008] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法,包括以下步 驟:為設施選擇目標變量;選擇目標變量的實際值的集合;為設施識別與目標變量有關的 多個變量;為設施獲得數(shù)據(jù)集合,該數(shù)據(jù)集合包括多個變量的值;選擇偏倚標準;選擇模型 系數(shù)的集合;(1)基于完整數(shù)據(jù)集合和模型系數(shù)的集合生成預測值的集合;(2)基于預測值 的集合和實際值的集合生成審查模型性能值的集合;(3)對于目標變量,基于預測值的集 合和實際值的集合生成誤差集合;(4)基于誤差集合和偏倚標準生成誤差閾值的集合;(5) 由處理器基于數(shù)據(jù)集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合;(6)由處理器基于經(jīng)審 查的數(shù)據(jù)集合和模型系數(shù)的集合生成新模型系數(shù)的集合;(7)由處理器基于數(shù)據(jù)集合和新 模型系數(shù)的集合生成新預測值的集合;(8)基于新預測值的集合和實際值的集合生成新審 查模型性能值的集合;使用新系數(shù)的集合,重復步驟(1)- (8),除非滿足了審查性能終止標 準;以及將新模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0009] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法,包括以下步 驟:為設施選擇目標變量,其中目標變量是關于工業(yè)設施的度量,與其生產(chǎn)、金融性能或排 放有關;為設施識別多個變量,其中多個變量包括:設施的影響目標變量的多個直接變量; 以及設施的經(jīng)變換變量的集合,每個經(jīng)變換變量是影響目標變量的至少一個直接設施變量 的函數(shù);選擇誤差標準,包括:絕對誤差,以及相對誤差;為設施獲得數(shù)據(jù)集合,其中數(shù)據(jù)集 合包括多個變量的值;選擇目標變量的實際值的集合;選擇模型系數(shù)的初始集合;基于完 整數(shù)據(jù)集合和模型系數(shù)的初始集合生成模型預測值的集合;基于模型預測值的集合和實際 值的集合生成誤差的完整集合,其中相對誤差是利用如下公式計算的:相對誤差">=((預測 值 m -實際值m) /實際值m)2,其中"m"是參考編號,并且其中絕對誤差是利用如下公式計算 的:絕對誤差 m=(預測值m_實際值m)2 ;基于模型預測值的集合和實際值的集合生成模型性 能值的集合,其中整體模型性能值的集合包括:第一標準誤差,以及第一確定系數(shù);(1)對 于完整數(shù)據(jù)集合,基于模型預測值和實際值的集合生成誤差的集合;(2)對于完整數(shù)據(jù)集 合,基于誤差的完整集合和誤差標準生成誤差閾值的集合;(3)通過去除具有大于或等于 誤差閾值的誤差值的數(shù)據(jù)生成離群值被去除的數(shù)據(jù)集合,其中過濾是基于完整數(shù)據(jù)集合和 誤差閾值的集合的;(4)通過利用線性優(yōu)化模型和非線性優(yōu)化模型中的至少一個,最小化 預測值的集合與實際值的集合之間的誤差,來基于離群值被去除的數(shù)據(jù)集合和模型系數(shù)的 集合生成離群值偏倚減少模型預測值的集合,其中新模型預測值的生成是由計算機處理器 執(zhí)行的;(5)基于離群值被去除的數(shù)據(jù)集合和先前系數(shù)的集合生成新系數(shù)的集合,其中新 系數(shù)的集合的生成是由計算機處理器執(zhí)行的;(6)基于新預測模型值的集合和實際值的集 合生成整體模型性能值的集合,其中模型性能值的集合包括:第二標準誤差,以及第二確定 系數(shù);在用新系數(shù)的集合替代來自先前迭代的系數(shù)集合的同時,重復步驟(1) - (6),除非: 滿足了性能終止標準,其中性能終止標準包括:標準誤差終止值和確定系數(shù)終止值,并且其 中滿足性能終止標準包括:標準誤差終止值大于第一和第二標準誤差之間的差異,并且確 定系數(shù)終止值大于第一和第二確定系數(shù)之間的差異;以及將新模型預測值的集合存儲在計 算機數(shù)據(jù)介質(zhì)中。
[0010] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法,包括以下步 驟:選擇誤差標準;選擇數(shù)據(jù)集合;選擇實際值的集合;選擇模型預測值的初始集合;基于 模型預測值的集合和實際值的集合確定誤差的集合;(1)基于誤差的完整集合和誤差標準 確定誤差閾值的集合;(2)生成離群值被去除的數(shù)據(jù)集合,其中過濾基于數(shù)據(jù)集合和誤差 閾值的集合;(3)基于離群值被去除的數(shù)據(jù)集合和先前模型預測值生成離群值偏倚減少 模型預測值的集合,其中離群值偏倚減少模型預測值的集合的生成由計算機處理器執(zhí)行; (4)基于新模型預測值的集合和實際值的集合確定誤差的集合;在用新模型預測值的集合 替代來自先前迭代的模型預測值的集合的同時,重復步驟(1)- (4),除非:滿足了性能終止 標準;以及將離群值偏倚減少模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0011] 另一實施例包括一種用于減少離群值偏倚的由計算機實現(xiàn)的方法,包括以下步 驟:為設施選擇目標變量;為設施識別多個變量,其中多個變量包括:設施的影響目標變量 的多個直接變量;以及設施的經(jīng)變換變量的集合,每個經(jīng)變換變量是影響目標變量的至少 一個直接設施變量的函數(shù);選擇誤差標準,包括:絕對誤差,以及相對誤差;獲得數(shù)據(jù)集合, 其中數(shù)據(jù)集合包括多個變量的值,以及選擇目標變量的實際值的集合;選擇模型系數(shù)的初 始集合;通過將模型系數(shù)的集合應用到數(shù)據(jù)集合來生成模型預測值的集合;基于模型預測 值的集合和實際值的集合確定性能值的集合,其中性能值的集合包括:第一標準誤差,以及 第一確定系數(shù);(1)對于完整數(shù)據(jù)集合,基于模型預測值的集合和實際值的集合生成誤差 的集合,其中相對誤差是利用如下公式計算的:相對誤差">=((預測值 m-實際值m)/實際值 m)2,其中"m"是參考編號,并且其中絕對誤差是利用如下公式計算的:絕對誤差 m=(預測值 m_實際值m)2 ;(2)對于完整數(shù)據(jù)集合,基于誤差的完整集合和誤差標準生成誤差閾值的集 合;(3)通過去除具有大于或等于誤差閾值的集合的誤差值的數(shù)據(jù)來生成離群值被去除的 數(shù)據(jù)集合,其中過濾是基于數(shù)據(jù)集合和誤差閾值的集合的;(4)基于離群值被去除的數(shù)據(jù) 集合和先前系數(shù)的集合生成新系數(shù)的集合;(5)通過利用線性優(yōu)化模型和非線性優(yōu)化模型 中的至少一個,最小化預測值的集合與實際值的集合之間的誤差,來基于離群值被去除的 數(shù)據(jù)集合和新模型系數(shù)的集合生成離群值偏倚減少模型預測值的集合,其中模型預測值的 生成是由計算機處理器執(zhí)行的;(6)基于離群值偏倚減少模型預測值的集合和實際值的集 合生成經(jīng)更新的性能值的集合,其中經(jīng)更新的性能值的集合包括:第二標準誤差,以及第二 確定系數(shù);在用新系數(shù)的集合替代來自先前迭代的系數(shù)集合的同時,重復步驟(1)- (6), 除非:滿足了性能終止標準,其中性能終止標準包括:標準誤差終止值,以及確定系數(shù)終止 值,并且其中滿足性能終止標準包括:標準誤差終止值大于第一和第二標準誤差之間的差 異,并且確定系數(shù)終止值大于第一和第二確定系數(shù)之間的差異;以及將離群值偏倚減少因 子的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0012] 另一實施例包括一種用于評估數(shù)據(jù)集合用于開發(fā)模型的可行性的由計算機實現(xiàn) 的方法,包括以下步驟:提供包括多個數(shù)據(jù)值的目標數(shù)據(jù)集合;基于目標數(shù)據(jù)集合生成隨 機目標數(shù)據(jù)集合;選擇偏倚標準值的集合;由處理器基于數(shù)據(jù)集合和每個所選擇的偏倚標 準值生成離群值偏倚減少目標數(shù)據(jù)集合;由處理器基于隨機數(shù)據(jù)集合和每個所選偏倚標準 值生成離群值偏倚減少隨機數(shù)據(jù)集合;對于離群值偏倚減少數(shù)據(jù)集合和離群值偏倚減少隨 機數(shù)據(jù)集合計算誤差值的集合;對于離群值偏倚減少數(shù)據(jù)集合和離群值偏倚減少隨機數(shù)據(jù) 集合計算相關系數(shù)的集合;基于所選偏倚標準值和相應的誤差值和相關系數(shù)為數(shù)據(jù)集合和 隨機數(shù)據(jù)集合生成偏倚標準曲線;以及將數(shù)據(jù)集合的偏倚標準曲線與隨機數(shù)據(jù)集合的偏倚 標準曲線相比較。離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少隨機目標數(shù)據(jù)集合是利 用動態(tài)離群值偏倚去除方法生成的。隨機目標數(shù)據(jù)集合可包括從多個數(shù)據(jù)值的范圍內(nèi)的值 開發(fā)出來的隨機化數(shù)據(jù)值。另外,誤差值的集合可包括標準誤差的集合,并且其中相關系數(shù) 的集合包括確定系數(shù)值的集合。另一實施例還可包括以下步驟:基于將目標數(shù)據(jù)集合的偏 倚標準曲線與隨機目標數(shù)據(jù)集合的偏倚標準曲線相比較,生成關于目標數(shù)據(jù)集合支持所開 發(fā)的模型以及所開發(fā)的模型支持目標數(shù)據(jù)集合的可行性的自動化建議??苫诜治稣哌x擇 的參數(shù)一例如相關系數(shù)閾值和/或誤差閾值一來生成建議。另外一個實施例還包括以 下步驟:提供實際數(shù)據(jù)集合,其包括與模型預測值相對應的多個實際數(shù)據(jù)值;基于實際數(shù) 據(jù)集合生成隨機實際數(shù)據(jù)集合;由處理器基于實際數(shù)據(jù)集合和每個所選偏倚標準值生成離 群值偏倚減少實際數(shù)據(jù)集合;由處理器基于隨機實際數(shù)據(jù)集合和每個所選偏倚標準生成離 群值偏倚減少隨機實際數(shù)據(jù)集合;對于每個所選偏倚標準,基于離群值偏倚減少隨機目標 數(shù)據(jù)集合和離群值偏倚減少隨機實際數(shù)據(jù)生成隨機數(shù)據(jù)圖線;對于每個所選偏倚標準,基 于離群值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少實際目標數(shù)據(jù)集合生成真實數(shù)據(jù)圖線; 以及將與每個所選偏倚標準相對應的隨機數(shù)據(jù)圖線與真實數(shù)據(jù)圖線相比較。
[0013] 優(yōu)選實施例包括一種系統(tǒng),其包括:服務器,其包括:處理器,以及存儲子系統(tǒng);由 存儲子系統(tǒng)存儲的數(shù)據(jù)庫,其包括:數(shù)據(jù)集合;以及由存儲子系統(tǒng)存儲的計算機程序,其包 括當被執(zhí)行時使得處理器進行以下操作的指令:選擇偏倚標準;提供模型系數(shù)的集合;選 擇目標值的集合;(1)為數(shù)據(jù)集合生成預測值的集合;(2)為數(shù)據(jù)集生成誤差集合;(3)基 于誤差集合和偏倚標準生成誤差閾值的集合;(4)基于誤差集合和誤差閾值的集合生成經(jīng) 審查的數(shù)據(jù)集合;(5)生成新模型系數(shù)的集合;以及(6)使用新模型系數(shù)的集合,重復步驟 (1)-(5),除非滿足了審查性能終止標準。在優(yōu)選實施例中,可基于數(shù)據(jù)集合和模型系數(shù)的 集合來生成預測值的集合。在優(yōu)選實施例中,誤差集合可包括基于預測值的集合和目標值 的集合生成的絕對誤差的集合和相對誤差的集合。在另一實施例中,誤差集合可包括作為 預測值的集合與目標值的集合之間的差異計算出的值。在另一實施例中,生成新系數(shù)的集 合的步驟還可包括最小化預測值的集合與實際值的集合之間的誤差的集合的步驟,這可利 用線性或非線性優(yōu)化模型來實現(xiàn)。在優(yōu)選實施例中,審查性能終止標準可基于標準誤差和 確定系數(shù)。
[0014] 本發(fā)明的另一實施例包括一種系統(tǒng),其包括:服務器,其包括:處理器,以及存儲 子系統(tǒng);由存儲子系統(tǒng)存儲的數(shù)據(jù)庫,其包括:數(shù)據(jù)集合;以及由存儲子系統(tǒng)存儲的計算機 程序,其包括當被執(zhí)行時使得處理器進行以下操作的指令:選擇誤差標準;選擇實際值的 集合;選擇系數(shù)的初始集合;從數(shù)據(jù)集合和系數(shù)的初始集合生成模型預測值的完整集合; (1)對于完整數(shù)據(jù)集合,基于模型預測值和實際值的集合生成誤差的集合;(2)對于完整數(shù) 據(jù)集合,基于誤差的完整集合和誤差標準生成誤差閾值的集合;(3)生成離群值被去除的 數(shù)據(jù)集合,其中過濾基于完整數(shù)據(jù)集合和誤差閾值的集合;(4)基于離群值被去除的數(shù)據(jù) 集合和系數(shù)的集合生成離群值偏倚減少模型預測值的集合,其中離群值偏倚減少模型預測 值的集合的生成由計算機處理器執(zhí)行;(5)基于離群值被去除的數(shù)據(jù)集合和先前系數(shù)的集 合生成新系數(shù)的集合,其中新系數(shù)的集合的生成由計算機處理器執(zhí)行;(6)基于離群值偏 倚減少模型預測值和實際值的集合生成模型性能值的集合;在用新系數(shù)的集合替代來自先 前迭代的系數(shù)的集合的同時,重復步驟(1) - (6),除非:滿足性能終止標準;并且將整體離 群值偏倚減少模型預測值的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0015] 另一實施例包括一種系統(tǒng),其包括:服務器,其包括:處理器,以及存儲子系統(tǒng);由 存儲子系統(tǒng)存儲的數(shù)據(jù)庫,其包括:設施的目標變量;目標變量的實際值的集合;設施的與 目標變量有關的多個變量;設施的數(shù)據(jù)集合,該數(shù)據(jù)集合包括多個變量的值;以及由存儲 子系統(tǒng)存儲的計算機程序,其包括當被執(zhí)行時使得處理器進行以下操作的指令:選擇偏倚 標準;選擇模型系數(shù)的集合;(1)基于數(shù)據(jù)集合和模型系數(shù)的集合生成預測值的集合;(2) 基于預測值的集合和實際值的集合生成審查模型性能值的集合;(3)對于目標變量,基于 預測值的集合和實際值的集合生成誤差集合;(4)基于誤差集合和偏倚標準生成誤差閾值 的集合;(5)基于數(shù)據(jù)集合和誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合;(6)基于經(jīng)審查的數(shù) 據(jù)集合和模型系數(shù)的集合生成新模型系數(shù)的集合;(7)基于數(shù)據(jù)集合和新模型系數(shù)的集合 生成新預測值的集合;(8)基于新預測值的集合和實際值的集合生成新審查模型性能值的 集合;使用新系數(shù)的集合,重復步驟(1)- (8),除非滿足了審查性能終止標準;以及將新模 型預測值的集合存儲在存儲子系統(tǒng)中。
[0016] 另一實施例包括一種系統(tǒng),其包括:服務器,其包括:處理器,以及存儲子系統(tǒng);由 存儲子系統(tǒng)存儲的數(shù)據(jù)庫,其包括:設施的數(shù)據(jù)集合;以及由存儲子系統(tǒng)存儲的計算機程 序,其包括當被執(zhí)行時使得處理器進行以下操作的指令:確定目標變量;識別多個變量,其 中多個變量包括:設施的影響目標變量的多個直接變量;以及設施的經(jīng)變換變量的集合, 每個經(jīng)變換變量是影響目標變量的至少一個直接變量的函數(shù);選擇誤差標準,包括:絕對 誤差,以及相對誤差;選擇目標變量的實際值的集合;選擇系數(shù)的初始集合;基于數(shù)據(jù)集合 和系數(shù)的初始集合生成模型預測值的集合;基于模型預測值的集合和實際值的集合生成誤 差的集合,其中相對誤差是利用如下公式計算的:相對誤差^以預測值 m-實際值m)/實際 值m)2,其中"m"是參考編號,并且其中絕對誤差是利用如下公式計算的:絕對誤差 m=(預測 值111-實際值m)2 ;基于模型預測值的集合和實際值的集合確定性能值的集合;其中性能值 的集合包括:第一標準誤差,以及第一確定系數(shù);(1)基于模型預測值和實際值的集合生成 誤差的集合;(2)對于完整數(shù)據(jù)集合,基于誤差的完整集合和誤差標準生成誤差閾值的集 合;(3)通過過濾掉具有誤差閾值的集合以外的誤差值的數(shù)據(jù)來生成離群值被去除的數(shù)據(jù) 集合,其中過濾是基于數(shù)據(jù)集合和誤差閾值的集合的;(4)通過利用線性優(yōu)化模型和非線 性優(yōu)化模型中的至少一個,最小化模型預測值的集合與實際值的集合之間的誤差,來基于 離群值被去除的數(shù)據(jù)集合和系數(shù)的集合生成新模型預測值的集合,其中離群值偏倚減少模 型預測值的生成是由計算機處理器執(zhí)行的;(5)基于離群值被去除的數(shù)據(jù)集合和先前系數(shù) 的集合生成新系數(shù)的集合,其中新系數(shù)的集合的生成是由計算機處理器執(zhí)行的;(6)基于 新預測模型值的集合和實際值的集合生成性能值的集合,其中模型性能值的集合包括:第 二標準誤差,以及第二確定系數(shù);在用新系數(shù)的集合替代來自先前迭代的系數(shù)集合的同時, 重復步驟(1)- (6),除非:滿足了性能終止標準,其中性能終止標準包括:標準誤差,以及確 定系數(shù),并且其中滿足性能終止標準包括:標準誤差終止值大于第一和第二標準誤差之間 的差異,并且確定系數(shù)終止值大于第一和第二確定系數(shù)之間的差異;以及將新模型預測值 的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0017] 本發(fā)明的另一實施例包括一種系統(tǒng),其包括:服務器,其包括:處理器,以及存儲 子系統(tǒng);由存儲子系統(tǒng)存儲的數(shù)據(jù)庫,其包括:數(shù)據(jù)集合,由存儲子系統(tǒng)存儲的計算機程 序,其包括當被執(zhí)行時使得處理器進行以下操作的指令:選擇誤差標準;選擇數(shù)據(jù)集合;選 擇實際值的集合;選擇模型預測值的初始集合;基于模型預測值的集合和實際值的集合確 定誤差的集合;(1)基于誤差的完整集合和誤差標準確定誤差閾值的集合;(2)生成離群值 被去除的數(shù)據(jù)集合,其中過濾基于數(shù)據(jù)集合和誤差閾值的集合;(3)基于離群值被去除的 數(shù)據(jù)集合和模型預測值的完整集合生成離群值偏倚減少模型預測值的集合,其中離群值偏 倚減少模型預測值的集合的生成由計算機處理器執(zhí)行;(4)基于離群值偏倚減少模型預測 值的集合和實際值的相應集合確定誤差的集合;在用離群值偏倚減少模型預測值的集合替 代模型預測值的集合的同時,重復步驟(1)- (4),除非:滿足了性能終止標準;以及將離群 值偏倚減少因子的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0018] 本發(fā)明的另一實施例包括一種系統(tǒng),其包括:服務器,其包括:處理器,以及存儲 子系統(tǒng);由存儲子系統(tǒng)存儲的數(shù)據(jù)庫,其包括:數(shù)據(jù)集合,由存儲子系統(tǒng)存儲的計算機程 序,其包括當被執(zhí)行時使得處理器進行以下操作的指令:確定目標變量;為設施識別多個 變量,其中多個變量包括:設施的影響目標變量的多個直接變量;以及設施的經(jīng)變換變量 的集合,每個經(jīng)變換變量是影響目標變量的至少一個主設施變量的函數(shù);選擇誤差標準,包 括:絕對誤差,以及相對誤差;獲得數(shù)據(jù)集合,其中數(shù)據(jù)集合包括多個變量的值,以及選擇 目標變量的實際值的集合;選擇系數(shù)的初始集合;通過將模型系數(shù)的集合應用到數(shù)據(jù)集合 來生成模型預測值的集合;基于模型預測值的集合和實際值的集合確定性能值的集合,其 中性能值的集合包括:第一標準誤差,以及第一確定系數(shù);(1)基于模型預測值的集合和實 際值的集合確定誤差的集合,其中相對誤差是利用如下公式計算的:相對誤差k=((預測值 k -實際值k) /實際值k)2,其中"k"是參考編號,并且其中絕對誤差是利用如下公式計算的: 絕對誤差 k=(預測值k -實際值k)2 ; (2)對于完整數(shù)據(jù)集合,基于誤差的集合和誤差標準確 定誤差閾值的集合;(3)通過去除具有大于或等于誤差閾值的誤差值的數(shù)據(jù)來生成離群值 被去除的數(shù)據(jù)集合,其中過濾是基于數(shù)據(jù)集合和誤差閾值的集合的;(4)基于離群值被去 除的數(shù)據(jù)集合和先前系數(shù)的集合生成新系數(shù)的集合;(5)通過利用線性優(yōu)化模型和非線性 優(yōu)化模型中的至少一個,最小化預測值的集合與實際值的集合之間的誤差,來基于離群值 被去除的數(shù)據(jù)集合和系數(shù)的集合生成離群值偏倚減少模型值的集合;(5)基于離群值偏倚 減少模型預測值的集合和實際值的集合確定經(jīng)更新的性能值的集合,其中經(jīng)更新的性能值 的集合包括:第二標準誤差,以及第二確定系數(shù);在用新系數(shù)的集合替代來自先前迭代的 系數(shù)集合的同時,重復步驟(1)- (5),除非:滿足了性能終止標準,其中性能終止標準包括: 標準誤差終止值,以及確定系數(shù)終止值,并且其中滿足性能終止標準包括:標準誤差終止值 大于第一和第二標準誤差之間的差異,并且確定系數(shù)終止值大于第一和第二確定系數(shù)之間 的差異;以及將離群值偏倚減少因子的集合存儲在計算機數(shù)據(jù)介質(zhì)中。
[0019] 另一實施例包括一種用于評估數(shù)據(jù)集合用于開發(fā)模型的可行性的系統(tǒng),其包括: 服務器,其包括:處理器,以及存儲子系統(tǒng);由存儲子系統(tǒng)存儲的數(shù)據(jù)庫,其包括:目標數(shù)據(jù) 集合,其包括多個模型預測值;由存儲子系統(tǒng)存儲的計算機程序,其包括當被執(zhí)行時使得處 理器進行以下操作的指令:生成隨機目標數(shù)據(jù)集合;選擇偏倚標準值的集合;基于目標數(shù) 據(jù)集合和每個所選擇的偏倚標準值生成離群值偏倚減少數(shù)據(jù)集合;基于隨機目標數(shù)據(jù)集合 和每個所選偏倚標準值生成離群值偏倚減少隨機目標數(shù)據(jù)集合;對于離群值偏倚減少目標 數(shù)據(jù)集合和離群值偏倚減少隨機目標數(shù)據(jù)集合計算誤差值的集合;對于離群值偏倚減少目 標數(shù)據(jù)集合和離群值偏倚減少隨機目標數(shù)據(jù)集合計算相關系數(shù)的集合;對于每個所選偏倚 標準,基于相應的誤差值和相關系數(shù),對于目標數(shù)據(jù)集合和隨機目標數(shù)據(jù)集合生成偏倚標 準曲線;以及將目標數(shù)據(jù)集合的偏倚標準曲線與隨機目標數(shù)據(jù)集合的偏倚標準曲線相比 較。處理器利用動態(tài)離群值偏倚去除方法來生成離群值偏倚減少目標數(shù)據(jù)集合和離群值偏 倚減少隨機目標數(shù)據(jù)集合。隨機目標數(shù)據(jù)集合可包括從多個數(shù)據(jù)值的范圍內(nèi)的值開發(fā)出來 的隨機化數(shù)據(jù)值。另外,誤差值的集合可包括標準誤差的集合,并且相關系數(shù)的集合包括確 定系數(shù)值的集合。在另一實施例中,該程序還包括在被執(zhí)行時使得處理器進行以下操作的 指令:基于將目標數(shù)據(jù)集合的偏倚標準曲線與隨機目標數(shù)據(jù)集合的偏倚標準曲線相比較, 生成自動化建議??苫诜治稣哌x擇的參數(shù)一例如相關系數(shù)閾值和/或誤差閾值一來 生成建議。在另外一個實施例中,系統(tǒng)的數(shù)據(jù)庫還包括實際數(shù)據(jù)集合,其包括與模型預測值 相對應的多個實際數(shù)據(jù)值,并且程序還包括當被執(zhí)行時使得處理器進行以下操作的指令: 基于實際數(shù)據(jù)集合生成隨機實際數(shù)據(jù)集合;基于實際數(shù)據(jù)集合和每個所選偏倚標準值生成 離群值偏倚減少實際數(shù)據(jù)集合;基于隨機實際數(shù)據(jù)集合和每個所選偏倚標準生成離群值偏 倚減少隨機實際數(shù)據(jù)集合;對于每個所選偏倚標準,基于離群值偏倚減少隨機目標數(shù)據(jù)集 合和離群值偏倚減少隨機實際數(shù)據(jù)生成隨機數(shù)據(jù)圖線;對于每個所選偏倚標準,基于離群 值偏倚減少目標數(shù)據(jù)集合和離群值偏倚減少實際目標數(shù)據(jù)集合生成真實數(shù)據(jù)圖線;以及將 與每個所選偏倚標準相對應的隨機數(shù)據(jù)圖線與真實數(shù)據(jù)圖線相比較。
[0020] 其他實施例包括一種用于減少為設施測量的目標變量中的離群值偏倚的系統(tǒng),包 括:計算單元,用于處理數(shù)據(jù)集合,該計算單元包括處理器和存儲子系統(tǒng);輸入單元,用于 輸入要處理的數(shù)據(jù)集合,該輸入單元包括用于測量給定的目標變量并用于提供相應的數(shù)據(jù) 集合的測量設備;輸出單元,用于輸出經(jīng)處理的數(shù)據(jù)集合;由存儲子系統(tǒng)存儲的計算機程 序,包括在被執(zhí)行時使得處理器執(zhí)行以下步驟的指令:為設施選擇目標變量;為設施識別 與目標變量有關的多個變量;為設施獲得數(shù)據(jù)集合,該數(shù)據(jù)集合包括多個變量的值;選擇 偏倚標準;選擇模型系數(shù)的集合;(1)為數(shù)據(jù)集合生成預測值的集合;(2)為數(shù)據(jù)集合生成 誤差集合;(3)基于誤差集合和偏倚標準生成誤差閾值的集合;(4)基于誤差集合和誤差閾 值的集合生成經(jīng)審查的數(shù)據(jù)集合;(5)生成新模型系數(shù)的集合;以及(6)使用新模型系數(shù)的 集合,重復步驟(1)- (5),除非滿足了審查性能終止標準。
[0021] 此外,其他實施例包括一種用于減少為金融工具測量的目標變量中的離群值偏倚 的系統(tǒng),其中金融工具例如是股票(例如普通股)或衍生工具合約(例如遠期合約、期貨、期 權和互惠信貸等等),該系統(tǒng)包括:計算單元,用于處理數(shù)據(jù)集合,該計算單元包括處理器和 存儲子系統(tǒng);輸入單元,用于接收要處理的數(shù)據(jù)集合,該輸入單元包括用于存儲關于目標變 量(例如股票價格)的數(shù)據(jù)并用于提供相應的數(shù)據(jù)集合的存儲設備;輸出單元,用于輸出經(jīng) 處理的數(shù)據(jù)集合;由存儲子系統(tǒng)存儲的計算機程序,包括在被執(zhí)行時使得處理器執(zhí)行以下 步驟的指令:為金融工具選擇目標變量;為該工具識別與目標變量有關的多個變量(例如, 股息、收益、現(xiàn)金流等等);為金融工具獲得數(shù)據(jù)集合,該數(shù)據(jù)集合包括多個變量的值;選擇 偏倚標準;選擇模型系數(shù)的集合;(1)為數(shù)據(jù)集合生成預測值的集合;(2)為數(shù)據(jù)集合生成 誤差集合;(3)基于誤差集合和偏倚標準生成誤差閾值的集合;(4)基于誤差集合和誤差閾 值的集合生成經(jīng)審查的數(shù)據(jù)集合;(5)生成新模型系數(shù)的集合;以及(6)使用新模型系數(shù)的 集合,重復步驟(1)- (5),除非滿足了審查性能終止標準。
【專利附圖】
【附圖說明】
[0022] 圖1是示出數(shù)據(jù)離群值識別和去除方法的實施例的流程圖。
[0023] 圖2是示出用于數(shù)據(jù)質(zhì)量操作的數(shù)據(jù)離群值識別和去除方法的實施例的流程圖。
[0024] 圖3是示出用于數(shù)據(jù)驗證的數(shù)據(jù)離群值識別和去除方法的實施例的流程圖。
[0025] 圖4是用于實現(xiàn)本發(fā)明的方法的說明性節(jié)點。
[0026] 圖5是數(shù)據(jù)集合的定量評估的說明性圖線。
[0027] 圖6A和6B是圖5的數(shù)據(jù)集合的定性評估的說明性圖線,分別示出了整個數(shù)據(jù)集 合的隨機化和真實數(shù)據(jù)集合。
[0028] 圖7A和7B是圖5的數(shù)據(jù)集合的定性評估的說明性圖線,分別示出了在將30%的 數(shù)據(jù)作為離群值去除之后的隨機化和真實數(shù)據(jù)集合。
[0029] 圖8A和8B是圖5的數(shù)據(jù)集合的定性評估的說明性圖線,分別示出了在將50%的 數(shù)據(jù)作為離群值去除之后的隨機化和真實數(shù)據(jù)集合。
[0030] 圖9示出了用于減少為設施測量的目標變量中的離群值偏倚的示范性系統(tǒng)。
【具體實施方式】
[0031] 以下公開提供了許多不同實施例,或者示例,用于實現(xiàn)用于訪問和管理結構化內(nèi) 容的系統(tǒng)和方法的不同特征。描述了組件、過程和實現(xiàn)方式的具體示例來幫助闡明本發(fā)明。 這些只是示例,而并不打算偏離權利要求中所述地限制本發(fā)明。公知的元素在沒有詳細描 述的情況下給出,以免以不必要的細節(jié)模糊本發(fā)明的優(yōu)選實施例。大多數(shù)情況下,省略了獲 得對本發(fā)明的優(yōu)選實施例的完整理解所不必要的細節(jié),因為這樣的細節(jié)在相關領域的普通 技術人員的技能范圍內(nèi)。
[0032] 動態(tài)離群值偏倚減少的一個實施例的數(shù)學描述如下所示:
[0033] 術語:
[0034] -所有數(shù)據(jù)記錄的集合:? = tfc f fa,其中:
[0035] 4 -第k次迭代的接受數(shù)據(jù)記錄的集合
[0036] fa -第k次迭代的離群(去除)數(shù)據(jù)記錄的集合
[0037] & -對于足:計算出的模型預測值的集合
[0038] L -對于數(shù)據(jù)記錄知的離群模型預測值的集合
[0039] J -模型所基于的實際值(目標值)的集合
[0040] -作為使用鳥1的模型計算的結果計算出的第k+Ι次迭 代時的模型系數(shù)的集合
[0041]
【權利要求】
1. 一種用于減少為設施測量的目標變量中的離群值偏倚的系統(tǒng),包括: 計算單元,用于處理數(shù)據(jù)集合,該計算單元包括處理器和存儲子系統(tǒng); 輸入單元,用于輸入要處理的數(shù)據(jù)集合,該輸入單元包括用于為所述設施測量目標變 量并用于提供相應的數(shù)據(jù)集合的測量設備; 輸出單元,用于輸出經(jīng)處理的數(shù)據(jù)集合; 由所述存儲子系統(tǒng)存儲的計算機程序,包括在被執(zhí)行時使得所述處理器執(zhí)行以下步驟 的指令: 為所述設施選擇目標變量; 選擇所述目標變量的實際值的集合; 為所述設施識別與所述目標變量有關的多個變量; 為所述設施獲得數(shù)據(jù)集合,該數(shù)據(jù)集合包括所述多個變量的值; 選擇偏倚標準; 選擇模型系數(shù)的集合; (1) 為所述數(shù)據(jù)集合生成預測值的集合; (2) 為所述數(shù)據(jù)集合生成誤差集合; (3) 基于所述誤差集合和所述偏倚標準生成誤差閾值的集合; (4) 基于所述誤差集合和所述誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合; (5) 生成新模型系數(shù)的集合;以及 (6) 使用所述新模型系數(shù)的集合,重復步驟(1)- (5),除非滿足了審查性能終止標準。
2. 如權利要求1所述的系統(tǒng),其中,所述測量設備包括一個或多個傳感器。
3. 如權利要求2所述的系統(tǒng),其中,所述傳感器為所述設施檢測并量化化合物。
4. 一種用于減少為金融工具測量的目標變量中的離群值偏倚的系統(tǒng),包括: 計算單元,用于處理數(shù)據(jù)集合,該計算單元包括處理器和存儲子系統(tǒng); 輸出單元,用于輸出經(jīng)處理的數(shù)據(jù)集合; 由所述存儲子系統(tǒng)存儲的計算機程序,包括在被執(zhí)行時使得所述處理器執(zhí)行以下步驟 的指令: 為所述金融工具選擇目標變量; 選擇所述目標變量的實際值的集合; 為所述金融工具識別與所述目標變量有關的多個變量; 為所述金融工具獲得數(shù)據(jù)集合,該數(shù)據(jù)集合包括所述多個變量的值; 選擇偏倚標準; 選擇模型系數(shù)的集合; (1) 為所述數(shù)據(jù)集合生成預測值的集合; (2) 為所述數(shù)據(jù)集合生成誤差集合; (3) 基于所述誤差集合和所述偏倚標準生成誤差閾值的集合; (4) 基于所述誤差集合和所述誤差閾值的集合生成經(jīng)審查的數(shù)據(jù)集合; (5) 生成新模型系數(shù)的集合;以及 (6) 使用所述新模型系數(shù)的集合,重復步驟(1)- (5),除非滿足了審查性能終止標準。
5. 如權利要求4所述的系統(tǒng),其中,所述金融工具是普通股,并且所述目標變量是所述 普通股的價格。
6.如權利要求5所述的系統(tǒng),其中,所述金融工具的與所述目標變量有關的多個變量 包括以下各項中的至少一個:股息、收益、現(xiàn)金流、每股收益、本益比、增長率。
【文檔編號】G06F17/18GK104090861SQ201410058245
【公開日】2014年10月8日 申請日期:2014年2月20日 優(yōu)先權日:2013年2月20日
【發(fā)明者】R·B·瓊斯 申請人:哈佛蒸汽鍋爐檢驗和保險公司