專利名稱:零膨脹泊松分布參數(shù)的一種穩(wěn)健估計(jì)方法
技術(shù)領(lǐng)域:
本發(fā)明對(duì)零膨脹泊松模型(ZIP)參數(shù)提供一種的穩(wěn)健估計(jì)方法,適用于生產(chǎn)制造、質(zhì)量控制、疾病監(jiān)控以及社會(huì)科學(xué)等相關(guān)領(lǐng)域。
背景技術(shù):
帶有大量“零”值的計(jì)數(shù)型數(shù)據(jù)廣泛存在于諸多領(lǐng)域,如工業(yè)生產(chǎn)、質(zhì)量控制、服務(wù)業(yè)、疾病監(jiān)控、物種研究等。在穩(wěn)定的生產(chǎn)過(guò)程中,由于工序能力良好,致使觀測(cè)的缺陷數(shù)大部分情況下都為“零”,此時(shí)觀測(cè)數(shù)據(jù)表現(xiàn)為零膨脹數(shù)據(jù);在職業(yè)健康領(lǐng)域,評(píng)價(jià)工作環(huán)境風(fēng)險(xiǎn)指數(shù)時(shí)所用到的工傷數(shù)據(jù)也經(jīng)常是零膨脹數(shù)據(jù),因?yàn)樯a(chǎn)技術(shù)和保障條件的提高,大部分情況下工人不會(huì)受傷,這樣,工人受傷的次數(shù)經(jīng)常是“零”;在醫(yī)學(xué)領(lǐng)域,哮喘是一種臨床常見(jiàn)的疾病,對(duì)受試者來(lái)說(shuō),可能是健康人,也有可能是哮喘患者,如果在一個(gè)試驗(yàn)期內(nèi)沒(méi)有哮喘病發(fā)作,則用“零”記錄,如果發(fā)作k次,用k作記錄,得到觀測(cè)的數(shù)據(jù)也是零膨脹數(shù)據(jù)。對(duì)于零膨脹數(shù)據(jù),當(dāng)“零”值的比例超過(guò)正常泊松分布時(shí),一般用零膨脹泊松模型對(duì)計(jì)數(shù)型數(shù)據(jù)進(jìn)行建模。正是由于過(guò)多“零”值的存在,對(duì)于零膨脹泊松模型而言,分布參數(shù)的穩(wěn)健估計(jì)尤其重要。通常情況下用均值對(duì)其參數(shù)λ進(jìn)行估計(jì),但均值很容易受到異常值(也稱離群值)的影響,因此,需要尋求分布參數(shù)的穩(wěn)健估計(jì),有效避免異常值的影響。 一般用中位數(shù)等L統(tǒng)計(jì)量進(jìn)行參數(shù)估計(jì),然而零膨脹數(shù)據(jù)中“零”值的比例過(guò)大,使得中位數(shù)、加寬中位數(shù)、中均值、三均值等L統(tǒng)計(jì)量經(jīng)常等于零,因此,無(wú)法直接利用它們進(jìn)行穩(wěn)健參數(shù)估計(jì)。為此,本發(fā)明給出了零膨脹泊松模型(ZIP)分布參數(shù)的一種穩(wěn)健估計(jì)方法。
發(fā)明內(nèi)容
(1)本發(fā)明的目的針對(duì)零膨脹泊松分布容易受到異常值影響的問(wèn)題,提出一種分布參數(shù)穩(wěn)健估計(jì)方法。該發(fā)明首先把零膨脹泊松分布看作退化分布{X = 0}和非零泊松分布的一種混合分布;然后,利用中位數(shù)、加寬中位數(shù)、中均值、三均值等L統(tǒng)計(jì)量對(duì)非零泊松分布的均值進(jìn)行穩(wěn)健估計(jì),從而得到零膨脹泊松分布參數(shù)的穩(wěn)健估計(jì)。(2)技術(shù)方案零膨脹泊松分布是一種廣義的泊松分布(GZIP),其概率密度函數(shù)通常定義為
l-p + pe-"· j = 0,
由于均值容易受到異常值的影響,所以用均值對(duì)零膨脹泊松分布參數(shù)進(jìn)行估計(jì)魯棒性差、不穩(wěn)健。同時(shí),零膨脹數(shù)據(jù)中過(guò)多“零”值的存在,致使中位數(shù)和四分位數(shù)經(jīng)常為零, 從而無(wú)法應(yīng)用中位數(shù)、加寬中位數(shù)、中均值和三均值等進(jìn)行參數(shù)估計(jì)。為此,必須從一個(gè)新的角度來(lái)看待零膨脹泊松分布和尋找穩(wěn)健參數(shù)估計(jì)。
如果隨機(jī)變量Y DZIPh λ),其值域A= {Y彡0},而A可以分為兩部分B= {Y =0}和c = IY > 0},即A = B+C。根據(jù)貝葉斯定理,可以把零膨脹泊松分布看作由退化分布IX = O1和參數(shù)為λ的非零泊松分布Z所組成的混合分布,其中,退化分布和非零泊松分布所占的比重分別為l-p+pe_A和p(l-e_A)。非零泊松分布Z的概率密度函數(shù)定義如下/^^) = -^^-^,2 = 1,2, - (2)
\-e z\其均值為E(Z) = X/(l-e_A)。顯然,零膨脹數(shù)據(jù)中的非“零”值一定來(lái)自非零泊松分布,換句話說(shuō),零膨脹數(shù)據(jù)中的非“零”值構(gòu)成非零泊松分布一個(gè)簡(jiǎn)單隨機(jī)樣本。根據(jù)探索性數(shù)據(jù)分析的經(jīng)驗(yàn),可以利用中位數(shù)、加寬中位數(shù)、中均值和三均值等對(duì)非零泊松分布的均值E(Z)進(jìn)行穩(wěn)健估計(jì),從而得到零膨脹泊松分布參數(shù)λ和ρ的穩(wěn)健估計(jì)?,F(xiàn)在考慮一組來(lái)自零膨脹泊松分布的觀測(cè)值Ix1,&,…,^J,樣本量為η。簡(jiǎn)單起見(jiàn),假設(shè)有no個(gè)“零”值和Ii1個(gè)非“零”值,并用AA,…々來(lái)記錄這些非“零”值。根據(jù)前述對(duì)零膨脹泊松分布的認(rèn)識(shí), ···, 可以看作來(lái)自參數(shù)為λ的非零泊松分布的樣本。由于樣本均值F對(duì)離群值非常敏感,因此,用中位數(shù)、加寬中位數(shù)、中均值和三均值來(lái)對(duì)E(Z)進(jìn)行穩(wěn)健估計(jì),進(jìn)而得到零膨脹泊松分布的參數(shù)λ和ρ的穩(wěn)健估計(jì)。i.使用中位數(shù)中位數(shù)是最簡(jiǎn)單的L估計(jì)量,作為一種穩(wěn)健位置估計(jì)量,其已廣泛應(yīng)用于多種領(lǐng)域。將^而,…, 按升序排序,即%&(,··、、,則中位數(shù)為
iZ(( I+l)/2)5W1 為奇數(shù),
MED = Γ (3)
{[z(V2)+Z((V2)+1)]/2,巧為偶數(shù).把該中位數(shù)作為E(Z)的估計(jì),由公式⑷即可得參數(shù)λ的估計(jì)
Γ π義
- = MED(4)
\-e-AV, 而參數(shù)ρ的最大似然估計(jì)則為
, _ η-η0 _ ηλPmed = “~~“~~“(5λ
n(l-e MED) n(l-e MED){b)ii使用加寬中位數(shù)加寬中位數(shù)對(duì)離群值具有穩(wěn)健性,而且對(duì)觀測(cè)值的舍入和分組不敏感,因此,可以使用加寬中位數(shù)作為E(Z)的穩(wěn)健估計(jì)。{ …,、}的加寬中位數(shù)的定義為
BMED =
(6)
Ζ,
((^1)/2-1) +^+1)/2) +^+1)/2+1)1/35巧為奇數(shù)且5 <12
Zi
((M1+1)/2-2) + +1)/2-1) + +1)/2) + +1)/2+1) + Z((Wl+l)/2+2) 1 ^ 5, 為奇數(shù)且萬(wàn)} > 13
Z1
(V2-D / 6 + z剛丨 3 + ^((V2)+1)丨 3 + z((V2)+2) / 6,^為偶數(shù)且5 <^<12
2) + ν2)—υ +Z(V2) + V2)+1)]/5 + [z((V2)—2) + V2)+3)]/l0,^為偶數(shù)且^ >13
把加寬中位數(shù)代入到公式⑷和(5),得到參數(shù)λ和ρ的穩(wěn)健估計(jì)和^jm皿。iii.使用中均值通常切尾均值需要知道離群值比例,使用中均值可以有效避免確定離群值比例的困難。中均值是樣本中間部分的均值,定義如下
權(quán)利要求
1.一種零膨脹泊松分布參數(shù)的穩(wěn)健估計(jì)方法,其特征在于其實(shí)施步驟如下 步驟一把零膨脹泊松分布看作退化分布{X = 0}和非零泊松分布的一種混合分布; 步驟二 提取零膨脹數(shù)據(jù)中的非零數(shù)據(jù),按從小到大的順序排序并統(tǒng)計(jì)其數(shù)量Π 1 ; 步驟三用非零數(shù)據(jù)的中位數(shù)、加寬中位數(shù)、中均值以及三均值對(duì)非零泊松分布均值進(jìn)行穩(wěn)健估計(jì);步驟四利用非零泊松分布均值與零膨脹泊松分布參數(shù)λ的關(guān)系得到參數(shù)λ的穩(wěn)健估計(jì);步驟五在參數(shù)λ的穩(wěn)健估計(jì)基礎(chǔ)上,運(yùn)用極大似然估計(jì)得到零膨脹泊松分布參數(shù)P 的穩(wěn)健估計(jì)。
2.根據(jù)權(quán)利要求1所述的一種用于高質(zhì)量過(guò)程統(tǒng)計(jì)控制的Ω事件間隔控制圖的制作方法,其特征在于在步驟三中所述的穩(wěn)健估計(jì)是指在粗差不可避免的情況下,選擇合適的估計(jì)方法,使所估計(jì)的參數(shù)減免粗差的影響,得出正常模式下最佳的估計(jì)值。
3.根據(jù)權(quán)利要求1所述的一種用于高質(zhì)量過(guò)程統(tǒng)計(jì)控制的Ω事件間隔控制圖的制作方法,其特征在于在步驟四中所述的利用非零泊松分布均值與零膨脹泊松分布參數(shù)λ的關(guān)系,該非零泊松分布均值即用E(Z)表示與零膨脹泊松分布參數(shù)λ有如下關(guān)系在得到非零泊松分布均值E (Z)后,通過(guò)上述公式即可得到零膨脹泊松分布λ的參數(shù)估計(jì)。
4.根據(jù)權(quán)利要求1所述的一種用于高質(zhì)量過(guò)程統(tǒng)計(jì)控制的Ω事件間隔控制圖的制作方法,其特征在于在步驟五中所述的極大似然估計(jì)方法是求估計(jì)的另一種方法,它是建立在極大似然原理的基礎(chǔ)上的一個(gè)統(tǒng)計(jì)方法。
全文摘要
本發(fā)明零膨脹泊松分布的一種穩(wěn)健參數(shù)估計(jì)方法,其具體步驟是1.把零膨脹泊松分布看作退化分布{X=0}和非零泊松分布的一種混合分布;2.提取零膨脹數(shù)據(jù)中的非零數(shù)據(jù),并按從小到大的順序排序;3.用非零數(shù)據(jù)的中位數(shù)、加寬中位數(shù)、中均值以及三均值對(duì)非零泊松分布均值進(jìn)行穩(wěn)健估計(jì);4.利用非零泊松分布均值與零膨脹泊松分布參數(shù)λ的關(guān)系得到參數(shù)λ的穩(wěn)健估計(jì);5.在參數(shù)λ的穩(wěn)健估計(jì)基礎(chǔ)上,運(yùn)用極大似然估計(jì)得到零膨脹泊松分布參數(shù)p的穩(wěn)健估計(jì)。本發(fā)明為零膨脹泊松分布提供了一種穩(wěn)健參數(shù)估計(jì)方法,進(jìn)而得到零膨脹泊松分布參數(shù)的穩(wěn)健估計(jì),可以有效解決零膨脹泊松分布容易受異常值影響的問(wèn)題,同時(shí)避免了零膨脹數(shù)據(jù)中離群值識(shí)別的困難。
文檔編號(hào)G06F19/00GK102243695SQ20111022325
公開(kāi)日2011年11月16日 申請(qǐng)日期2011年8月5日 優(yōu)先權(quán)日2011年8月5日
發(fā)明者李大宇, 楊軍, 趙宇 申請(qǐng)人:北京航空航天大學(xué)