專利名稱::似然比檢驗誤差的檢測方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種人工智能技術(shù)在中醫(yī)的應(yīng)用,尤其是涉及一種似然比檢驗誤差的檢測方法。
背景技術(shù):
:早在東漢時期,張仲景就十分重視證型理論的功能。證型理論是指古代醫(yī)生制定的辨證標(biāo)準(zhǔn)和論治規(guī)則?!氨孀C論治”原則顯示,辨證和論治被用來診斷與治療。中醫(yī)建議,辨證理論描述證型癥狀的關(guān)系,論治理論描述證型方劑的關(guān)系,以及處方理論聯(lián)系證型中藥的關(guān)系。4個實(shí)體(即證型、癥狀、方劑和中藥)和3個關(guān)系(即證型癥狀的關(guān)系、證型方劑關(guān)系和證型中藥的關(guān)系)是中醫(yī)的精髓。證型可以有許多癥狀,一個癥狀可以被許多證型包括。一證型必須包括至少一個癥狀,但癥狀不一定有證型。證型癥狀的關(guān)系是指用來表示一個或多個特定癥狀的辨證。目前,中醫(yī)證型模型僅有張連文等([1]Zhang,N.L.Yuan,S.,Chen,Τ.andWang,Y.LatenttreemodelsanddiagnosisintraditionalChinesemedicine.ArtificialIntelligenceinMedicine,2008,42(3):229_245)使用隱樹模型分析數(shù)據(jù)集,發(fā)現(xiàn)數(shù)據(jù)集的自然集群,很好地對應(yīng)于中醫(yī)證型。它提供統(tǒng)計,以驗證中醫(yī)證型,并建議在辨證的基礎(chǔ)上建造證型模型。然而,這種方法以為單個的癥狀屬于特定的證型,并且使用Bayesian網(wǎng)絡(luò)分析以發(fā)現(xiàn)數(shù)據(jù)集里的自然群。那些假定不與現(xiàn)實(shí)一致,結(jié)果使用這種方法所建立的模型很少產(chǎn)生相當(dāng)積極的性能。現(xiàn)實(shí)生活中,包括中醫(yī)等,都需要科學(xué)的預(yù)測,而預(yù)測的準(zhǔn)確程度是研究的首要目的。目前,小樣本的似然比檢驗研究分為區(qū)間預(yù)測、密度預(yù)測和尾預(yù)測三類。預(yù)測的傳統(tǒng)方法側(cè)重于評估區(qū)間預(yù)測和密度預(yù)測。Johansen([2]Johansen,S.Asmallsamplecorrectionfortestsofhypothesesonthecointegratingvectors[J].JournalofEconometrics,2002,111(2)195-221)在對協(xié)整(cointegrated)風(fēng)險價值模型進(jìn)行有關(guān)的協(xié)整關(guān)系的推論,得出小樣本的漸近推斷結(jié)果不夠準(zhǔn)確,應(yīng)根據(jù)樣本大小和參數(shù)獲得校正因子。McSorley等([3]McSorley,Ε.0.,Lu,J.C.,andLi,C.S.PerformanceofParameter-EstimatesinStep-StressAcceleratedLife-TestsWithVariousSample-Sizes[J],IEEETransactionsonReliability,2002,51(3):271_277)采用仿真技術(shù)調(diào)查使用大樣本的高斯近似置信區(qū)間,并估計在不同的擬合模型有限樣本情況的ML所需的樣本大小。Wong等([4]Wong,Heung.,Liu,F.,Chen,M.andCheung,W.Empiricallikelihoodbaseddiagnosticsforheteroscedasticityinpartiallinearmodels[J].ComputationalStatisticsandDataAnalysis,2009,53:3466_3477)使用經(jīng)驗似然的自舉仿真,克服小樣本的失真。因為似然比檢驗是一個具有限制卡方分布的漸近測試。通過經(jīng)驗似然自舉臨界值(ELbootstrapcriticalvalue)可以克服小樣本的經(jīng)驗似然比檢驗造成的失真。在大部分中醫(yī)機(jī)構(gòu)中,并沒有針對疾病的證型癥狀模型建立歷史數(shù)據(jù),此外,中醫(yī)證型模型需要比其它醫(yī)學(xué)模型更長的時間積累,這些事實(shí)表明,需要適合小樣本的預(yù)測技術(shù)。如果中醫(yī)模型以小樣本進(jìn)行評價,模型的性能必須具有更廣泛的角度。但是,密度預(yù)測評估會受密度內(nèi)部的影響,由于受內(nèi)部刻劃許多小的干擾,可能會大幅減少中醫(yī)管理人員對尾的關(guān)注。尾預(yù)測度量滿足了一套合理的直觀公理,如單調(diào)性和次可加性,尾預(yù)測導(dǎo)致比基于區(qū)間預(yù)測較低的損失。從統(tǒng)計學(xué)的角度來看,很顯然,尾預(yù)測度量包含比區(qū)間更多的信息。尾預(yù)測檢驗力的相對高效和要求更多的參數(shù)與基本假設(shè)條件,在目前來講,具有最好的檢測效果。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種基于概率積分變換的似然比檢驗誤差的檢測方法。本發(fā)明所述一種基于概率積分變換的似然比檢驗誤差的檢測方法包括以下步驟步驟1)設(shè)定數(shù)學(xué)模型設(shè)母體之隨機(jī)變量X取值0、1,則X之概率函數(shù)為由此隨機(jī)取出η個樣本X1,X2,…,Xn(Xi=0,1i=1,2,…,η),式(12)中,χ代表可能結(jié)果為0或1,P代表X可能結(jié)果為0的概率(每次試驗皆相同)。步驟2)設(shè)隨機(jī)變量Y=X^X2+-+Xn,因Y之分布函數(shù)為式(13)中,h代表二項式實(shí)驗中,η次試驗有y次為0的隨機(jī)變量X的概率分布y代表結(jié)果為0的次數(shù),η代表試驗次數(shù),ρ代表每次0出現(xiàn)的概率。故可由下列求其正確值式(14)中,P代表η次試驗至少有S次(S<η)為0的概率,S代表至少有S次為0,η代表試驗次數(shù),y代表結(jié)果為0的次數(shù)。步驟3)為了與高斯似然關(guān)聯(lián),可利用中心極限定理如下求其近似值為X=-YjXk,其中,η代表樣本大小。步驟4)由中心極限定理知其分布近似于其中,N代表正態(tài)分布,η代表樣本大小,之分布近似于N(0,1),其中t代表t分布,叉代表樣本大小為η的隨機(jī)變量X的均值,η代表樣本大小為η,因式(16)中,y代表結(jié)果為0的次數(shù),S代表結(jié)果為0至少有S次(S<η),η代表樣本大小,故其中,設(shè)標(biāo)準(zhǔn)單變量正態(tài)分布步驟5)當(dāng)η=①時(η=1000),由可查正態(tài)分布表(統(tǒng)計學(xué)最重要的連續(xù)概率分布表)得解得S后再與η比較,即可得出校準(zhǔn)參數(shù)。步驟6)當(dāng)似然比檢驗所得到的P值結(jié)論與單向有序列聯(lián)表的面貌不一致時,依據(jù)基于概率積分變換的校準(zhǔn)參數(shù)修正P值誤差,使P值結(jié)論與單向有序列聯(lián)表的面貌一致。本發(fā)明的突出優(yōu)點(diǎn)如下本發(fā)明提出有關(guān)似然比檢驗誤差的檢測方法,用于單向有序列聯(lián)表和小樣本的預(yù)測。其目的是提供預(yù)測準(zhǔn)確度和高效的分析工具,以及更普遍的預(yù)測檢驗力。仿真實(shí)驗顯示,該方法可以用于通常的小樣本。若似然比檢驗所得到的P值結(jié)論與單向有序列聯(lián)表的面貌不一致時,應(yīng)依據(jù)基于概率積分變換的0.074校準(zhǔn)參數(shù)修正P值誤差,使P值結(jié)論與單向有序列聯(lián)表的面貌一致。我們將似然比檢驗誤差的檢測方法應(yīng)用到胃病的分析,得到證型的胃痛嚴(yán)重度參數(shù)與列聯(lián)表面貌的預(yù)測一致的結(jié)果。圖1為本發(fā)明實(shí)施例的證型和胃痛嚴(yán)重度面貌。在圖1中,橫坐標(biāo)為證型,縱坐標(biāo)為概率;曲線1為肝胃不和;曲線2為脾胃虛弱;曲線3為脾胃濕熱;曲線3為邊緣概率。圖2為本發(fā)明實(shí)施例的證型和胃痛嚴(yán)重度面貌。在圖2中,橫坐標(biāo)為證型,縱坐標(biāo)為概率;曲線1為肝胃不和;曲線2為脾胃虛弱;曲線3為脾胃濕熱;曲線3為邊緣概率。IimP辛欽大數(shù)定律說明獨(dú)立同分布的隨機(jī)變量的算術(shù)平均值依概率收斂于它的數(shù)學(xué)期望值,它為實(shí)際應(yīng)用中用算術(shù)平均值估計數(shù)學(xué)期望提供了理論依據(jù)。1.2中心極限定理獨(dú)立同分布(iid)的中心極限定理設(shè)X1,x2,…,Xn是獨(dú)立且具有相同分布的隨機(jī)變量序列,并且具有數(shù)學(xué)期望和方差E(Xi)=μ,D(Xi)=O2乒0(i=l,2,…,n),則對任意實(shí)數(shù),有獨(dú)立同分布的中心極限定理表達(dá)了正態(tài)分布在概率論中的特殊地位,盡管Xi的分布是任意的,但只要η充分大,隨機(jī)變量近似服從標(biāo)準(zhǔn)正態(tài)分布Ν(0,1),或者說,當(dāng)η很大時,獨(dú)立同分布的隨機(jī)變量Xi的η和Σ近似服從正態(tài)分布N(ημ,ηO2)。這就是那些許多微小的、獨(dú)立的隨機(jī)因素作用的總I=I結(jié)果的隨機(jī)變量,一般都可以近似地服從正態(tài)分布的理論根據(jù),因而正態(tài)分布在理論上和應(yīng)用上都具有極大的重要性。若XΒ(η,P),則當(dāng)η很大時,有同分布在伯努利(Bernoulli)試驗場合中,當(dāng)試驗次數(shù)η較大時,計算并不方便。泊松定理告訴我們,當(dāng)ρ<0.1時,可以用泊松分布近似計算,但是用正態(tài)分布作近似計算則可以不受P<ο.ι的限制,從而可以體會到中心極限定理在伯努利場合中作精確計算的巧妙之處。總之,中心極限定理將越來越多地應(yīng)用到伯努利場合中。這節(jié)包括大數(shù)定律(LawofLargeNumbers)、中心極限定理(CentralLimitTheorem)禾口Rosenblatt變換3個部分。1.1大數(shù)定律獨(dú)立同分布的辛欽大數(shù)定律設(shè)X1,X2,…,Xn是獨(dú)立且具有相同分布的隨機(jī)變量序列,并且具有數(shù)學(xué)期望和方差E(Xi)=μ,D(Xi)=σ2(=1,2,…,η),則對任意給定的ε>0,有O)1.3Rosenblatt變換一個隨機(jī)過程yt,在時間t-Ι預(yù)計,給出yt的概率密度是f(yt)和相關(guān)的分布函數(shù)F(y)t=Γf{u)du,區(qū)間預(yù)測是基于逆分布函+數(shù),例如,99%的為期兩周的滿意度是數(shù)量歹使得pr(x<50=.01。Christoffersen(1998)指出驗證預(yù)測區(qū)間的一個辦法,即區(qū)間應(yīng)超過或違規(guī)α%的時間,這種違規(guī)行為也應(yīng)該和時間不相關(guān),結(jié)合這些屬性,變量定義為It=1,如果違規(guī)=0,如果沒有發(fā)生違規(guī)應(yīng)該是一個有參數(shù)α的獨(dú)立同分布伯努利序列,由于很少發(fā)生違規(guī)(按設(shè)計),檢驗看看是否違規(guī)形成一伯努利至少需要幾百觀察,關(guān)鍵問題是,伯努利變量就只有兩個值(0和1),并且值1很少,密度評價方法利用結(jié)果的全部分布,從而從現(xiàn)有數(shù)據(jù)得出一個更大的信息量。不是僅限于注意罕見的違規(guī),就可以變換所有的變現(xiàn)成一系列獨(dú)立同分布的隨機(jī)變量。具體來說,Rosenblatt([5]Rosenblatt,Μ.RemarksonaMultivariateTransformation[J].TheAnnalsofMathematicalStatistics,1952,23:470_472)定義的變換Xt=f(u)du=F{y)(6)J-oo其中yt是事后知識和/(.)是事前預(yù)測的損失密度,Rosenblatt表明Xt是獨(dú)立同分布和均勻分布于(0,1)。因此,如果企業(yè)必須定期報告預(yù)測分布,#(.),監(jiān)管機(jī)構(gòu)可以使用此概率積分變換,再進(jìn)行檢驗是否違反獨(dú)立性和/或一致性。此外,無論其知識yt的背后分布,即使預(yù)測模型/X.)隨時間而改變,這一結(jié)果仍成立。2似然比檢驗框架以下介紹了Rosenblatt變換的延伸,零假設(shè)下提供獨(dú)立同分布N(0,1)變量,這允許方便和靈活估計高斯似然和構(gòu)建基于似然的檢驗統(tǒng)計,和具有良好的有限樣本性質(zhì)。很難以小數(shù)據(jù)樣本檢驗一致性,該檢驗是統(tǒng)計界確定的非參數(shù)和利用均勻密度是一直線的事實(shí)。它也很難設(shè)計檢驗零假設(shè)是U(0,1)隨機(jī)變量時的參數(shù)。在一個更普遍的模式嵌套Xt的獨(dú)立同分布U(0,1)模型將需要給出支持相依于未知參數(shù),似然比(LikelihoodRatio,LR)和其它統(tǒng)計數(shù)據(jù)因為目標(biāo)函數(shù)的不連續(xù)性,并沒有慣常的漸近性質(zhì)。Berkowitz主張一個簡單的變換為正態(tài)。首先,轉(zhuǎn)換是簡單計算,變換后可直接計算高斯似然和構(gòu)建LR,對模式失敗的一些類別,LR檢驗是均勻最有力的(UniformlyMostPowerful,UMP)。也就是說,LR程序比任何其它一個未知參數(shù)的每個值的固定置信度的檢驗具有更高的能力。最后,即使它不能被證明是均勻最強(qiáng)大的,LR檢驗經(jīng)常有理想的檢驗統(tǒng)計特性和良好的有限樣本行為(參見[6]Hogg,R.V.,andCraig,Α.Τ.MathematicalStatistics[Μ].NewYork:Macmillan.1965)。似然檢驗框架的另一個吸引人的特點(diǎn)是,研究人員擁有很大的決定檢驗有哪些和多少限制。小樣本,但我們很可能要緊密參數(shù)檢驗。雖然人們可以檢驗獨(dú)立同分布U(0,1)數(shù)據(jù)的均值、方差、偏度等等,這些程序的表現(xiàn)通常與提供樣本大小有關(guān)。給出Φ—、)是逆標(biāo)準(zhǔn)正態(tài)分布函數(shù),則對于任何序列的預(yù)測有以下的結(jié)果。命題1如果系列辦是作為一個獨(dú)立同分布U(0,1),則(7)是一個獨(dú)立同分布U(0,1)。命題1的轉(zhuǎn)換是用于仿真隨機(jī)變量,它表明Rosenblatt轉(zhuǎn)換的一個簡單延伸,我們轉(zhuǎn)換觀察組合收益到創(chuàng)造一個系列ζ,=Φ~1(Ρ(γ,)),這應(yīng)該是iid標(biāo)準(zhǔn)正態(tài),是什么使之如此有用,是因為根據(jù)零假設(shè),數(shù)據(jù)服從正態(tài)分布,這給出我們有與高斯似然關(guān)聯(lián)的便利工具。此外,可以在某些方面,處理數(shù)據(jù)的轉(zhuǎn)換,正如未轉(zhuǎn)換的原始數(shù)據(jù)有相同的解釋。下列命題正式確認(rèn)這一概念。命題2給出Zt的密度h(zt)和標(biāo)準(zhǔn)正態(tài)分布Φ(zt),則(8)證明在Φ—1轉(zhuǎn)換的數(shù)據(jù)可以被寫為復(fù)合函數(shù)其中戶為模式預(yù)測,Φ是逆正態(tài)分布,使用Jacobian轉(zhuǎn)換,Zt分布給出樹.)(/(.)//(·))。以對數(shù)和整理后,得到要求的結(jié)果。命題2規(guī)定,不準(zhǔn)確的密度預(yù)測將保留在變換后的數(shù)據(jù)。例如,如果/>/在一定范圍內(nèi),也將是這樣使得h(Zt)>O(Zt)在標(biāo)準(zhǔn)正態(tài)的相應(yīng)區(qū)域。不是Rosenblatt轉(zhuǎn)換,也不是進(jìn)一步對基礎(chǔ)數(shù)據(jù)施加任何分布假設(shè)的正態(tài)轉(zhuǎn)換;相反,正確的密度預(yù)測意味著轉(zhuǎn)換變量為正態(tài)。假設(shè)給定的模型生成序列Ζ,=Φ"1^^)),因為Zt應(yīng)當(dāng)是獨(dú)立的觀察和標(biāo)準(zhǔn)正態(tài)的,多種多樣的檢驗可以構(gòu)建。特別是零假設(shè)可以進(jìn)行檢驗,例如,一階自回歸備擇的均值和方差可能和(0,1)不同,可以寫Zt-μ=ρ(ΖΗ_μ)+εt(9)命題1零假設(shè)描述的是μ=0,P=0,和var(εt)=1,與方程(9)相關(guān)的確切對數(shù)似然函數(shù)是眾所周知的,這里為方便轉(zhuǎn)載其中ο2是εt的方差,為簡潔起見,Berkowitz寫的似然只有模型的未知參數(shù)函數(shù),L(y,σ2,ρ)。觀察值的LR獨(dú)立檢驗可歸納為(11)其中帽子表示為估計值,這個檢驗統(tǒng)計量是度量數(shù)據(jù)支持非零參數(shù)的程度,在零假設(shè),檢驗統(tǒng)計量分布為X’(1),卡方自由度為l,這樣可以通常的方式進(jìn)行推理。LR檢驗的缺點(diǎn)是West([7]West,K.D.AsymptoticInferenceAboutPredictiveAbi“ty[丁].Econometrica,1996,641067—1084)所強(qiáng)調(diào)的有時小樣本估計模型產(chǎn)生的預(yù)測,可能受到參數(shù)的不確定性影響。以下給出似然比檢驗誤差的檢測方法的具體實(shí)施例。某市二家(流感疫苗)接種點(diǎn)A、B作營業(yè)競爭,假定每天合計有n位顧客,此n位顧客互相獨(dú)立且隨機(jī)選擇各接種點(diǎn)的流感疫苗,考慮各接種點(diǎn)的收儲疫苗問題。設(shè)隨機(jī)變量Y—Xl+X,+…+X.表示n位顧客中接種A點(diǎn)的人數(shù),若接種點(diǎn)A的流感疫苗預(yù)備S支(S<n),S個人或以上接種A點(diǎn)流感疫苗之概率為P(Y≥S)因Y之分布函數(shù)為故可由下列求其正確值,但為了與高斯似然關(guān)聯(lián),可利用中心極限定理如下求其近似值。LOT09l設(shè)j÷吝x。由中,C)極限定理知其分布近似于N‘互1;扎之分布近似于N(0,1),因4]故(設(shè)標(biāo)準(zhǔn)單變量正態(tài)分布Φ(χ)適當(dāng)取S使0.5-<1)(~^)<0.()1時則表示100人中沒有接種到的最多只1個人,或則100人中最少有99人接種到流感疫苗。例如每天接種人數(shù)n=1000(二接種點(diǎn)合計接種人數(shù))時=0.49,可查正態(tài)分布表得31.6要滿足式(19)之則得若每天接種人數(shù)η=1000(二接種點(diǎn)合計),A接種點(diǎn)欲使100人中最少99人接種到流感疫苗,必須設(shè)定收儲疫苗最少537支(故取S=537)同樣若B接種點(diǎn)欲使100人中最少99人接種到流感疫苗亦必須設(shè)定收儲疫苗最少537支(設(shè)定疫苗537支則可)故二接種點(diǎn)合計需設(shè)疫苗537+537=1074支,因二接種點(diǎn)顧客只1000人故由營業(yè)競爭損失74支(0.074)疫苗,稱為0.074校準(zhǔn)參數(shù)。以下給出實(shí)驗結(jié)果及分析。若似然比檢驗所得到的P值結(jié)論與單向有序列聯(lián)表的面貌不一致時,應(yīng)依據(jù)第3節(jié)表述的0.074校準(zhǔn)參數(shù)修正P值誤差,使P值結(jié)論與單向有序列聯(lián)表的面貌一致,我們欲比較胃痛嚴(yán)重度是否與證型相關(guān),測定了227個采樣點(diǎn),得表1數(shù)據(jù),即單向有序列聯(lián)表,表1包含頻率J=4種不同水平的胃痛嚴(yán)重度(0-3正常,輕度,中度,重度)在I=3種證型發(fā)現(xiàn);當(dāng)表的格子皆大過6,大樣本理論給評分檢驗適合于列聯(lián)表,如果我們把每行(證型)的頻率除以總相應(yīng)行,我們獲得有相對概率顯示3X4列聯(lián)表的表2。禾Ij用這數(shù)據(jù)Pij/P,和p.」畫圖,可得到癥狀嚴(yán)重度的面貌,不同的證型的面貌(行)顯示在圖1的線圖里,指示胃痛嚴(yán)重度的邊緣概率和條件概率,相遠(yuǎn)離的行點(diǎn)表明行類別與列類別相關(guān)。表1胃痛嚴(yán)重度頻率表2胃痛嚴(yán)重度相對概率11在圖1水平“中度”,虛線和實(shí)線(DAMPH)間有一最大差距,差不多多達(dá)0.2,推斷DEFSS的胃痛嚴(yán)重度彡2與DAMPH相比有較小的概率。因此胃痛嚴(yán)重度與證型相關(guān)。利用卡方獨(dú)立性檢驗,以確認(rèn)證型是否與胃痛嚴(yán)重程度相關(guān)聯(lián),X2值是25.90,P=O.0002,表示胃痛嚴(yán)重度與證型相關(guān)。利用比例比數(shù)模型來計算,L1相當(dāng)于-297.9847,如果Id1=b2=0,L0=-300.9095,-2(L0-L1)得到D2等于5.8496,相關(guān)χ2臨界值將檢驗H0β!=β2=0,發(fā)現(xiàn);5=5.8496,所以P值0.0536,零假設(shè)不被拒絕,得出這樣的結(jié)論,^和旦2同時是零,這些結(jié)論與圖1的構(gòu)成比面貌不一致,依據(jù)上述的0.074校準(zhǔn)參數(shù)修正誤差后,P值是0.0497,則與圖1的構(gòu)成比面貌一致。此外,分析P1=0或β2=0或兩者皆不是零。表3是由最大似然估計(MLE)的結(jié)果。從表3,拒絕P1=0和β2=0,P值分別為0.021和0.038,這是指證型與胃痛嚴(yán)重性有關(guān),并且INCRD比較DEFSS作為指示變量χ是(1,0)和(0,1),因此Lj(LO)=θj+βj(21)表3證型和胃痛嚴(yán)重度的參數(shù)并且Lj(Oa)=θj+β2(22)分別為INCRD和DEFSS比數(shù)比的對數(shù),然后DAMPH的比數(shù)比的對數(shù)是Lj(OjO)=θj(23)為>0代表INCRD的severity≤j的比數(shù)比對數(shù)大于DAMPH的比數(shù)比對數(shù)。換言之,INCRD病人的胃痛癥狀通常是不那么嚴(yán)重;Λ>0代表DEFSS的severity≤j的比數(shù)比對數(shù)大于DAMPH的比數(shù)比對數(shù)。換言之,DEFSS病人的胃痛癥狀比DAMPH通常是不那么嚴(yán)重;這些結(jié)論與圖1的構(gòu)成比面貌一致。但是,如將上例中脾胃虛弱的嚴(yán)重度等級2、3的患者分別修改為22和5(表4),則采用X2檢驗進(jìn)行分析,以確認(rèn)證型是否與胃痛嚴(yán)重程度相關(guān)聯(lián),X2值是27.31,P=0.0001,表示胃痛嚴(yán)重度與證型相關(guān)。表4胃痛嚴(yán)重度頻率表5證型和胃痛嚴(yán)重度的參數(shù)利用比例比數(shù)模型來計算,L1相當(dāng)于-297.0911,如果Id1=b2=0,L0=-300.0885,-2(L0-L1)得到D2等于5.9948,相關(guān)χ2臨界值將檢驗H0β!=β2=0,發(fā)現(xiàn);^2。5=5.9948,所以P值0.0499,零假設(shè)被拒絕,得出這樣的結(jié)論,β工和β2不同時是零。此外,分析P1=O或β2=0或兩者皆不是零,表5是由最大似然估計(MLE)的結(jié)果。從表5,拒絕P1=0和β2=0,P值分別為0.021和0.033,這是指證型與胃痛嚴(yán)重性有關(guān),這些結(jié)論與圖2的構(gòu)成比面貌一致。所有科學(xué)的預(yù)測是極其重要的,包括中醫(yī),似然比檢驗判別,其預(yù)測效能和模型適足是密不可分的,失敗意味著預(yù)測模型的不足。本發(fā)明開發(fā)了有關(guān)列聯(lián)表面貌的預(yù)測和似然比檢驗的預(yù)測誤差的推理程序,用在單向有序列聯(lián)表和小樣本的預(yù)測,其目的是提供預(yù)測準(zhǔn)確度和效率的分析工具,以及更普遍的預(yù)測檢驗力。仿真實(shí)驗顯示,該程序可以用于通常的小樣本。LR檢驗框架是靈活、直觀的,檢驗方法似乎提供非常良好的檢驗力特性,LR檢驗的缺點(diǎn)是小樣本估計模型產(chǎn)生的預(yù)測,可能受到參數(shù)的不確定性影響。本發(fā)明提出一種新的校準(zhǔn)參數(shù)方法來評估這種預(yù)測;若似然比檢驗所得到的P值結(jié)論與單向有序列聯(lián)表的面貌不一致時,應(yīng)依據(jù)上述的0.074校準(zhǔn)參數(shù)修正P值誤差,使P值結(jié)論與單向有序列聯(lián)表的面貌一致。1權(quán)利要求似然比檢驗誤差的檢測方法,其特征在于包括以下步驟步驟1)設(shè)定數(shù)學(xué)模型設(shè)母體之隨機(jī)變量X取值0、1,則X之概率函數(shù)為<mrow><mi>f</mi><mrow><mo>(</mo><mi>X</mi><mo>=</mo><mi>x</mi><mo>;</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mi>x</mi></msup><msup><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mrow><mn>1</mn><mo>-</mo><mi>x</mi></mrow></msup><mo>,</mo><mi>x</mi><mo>=</mo><mn>0,1</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>由此隨機(jī)取出n個樣本X1,X2,…,Xn(Xi=0,1i=1,2,…,n),式(12)中,x代表可能結(jié)果為0或1,p代表x可能結(jié)果為0的概率(每次試驗皆相同);步驟2)設(shè)隨機(jī)變量Y=X1+X2+…+Xn,因Y之分布函數(shù)為<mrow><mi>h</mi><mrow><mo>(</mo><mi>Y</mi><mo>=</mo><mi>y</mi><mo>;</mo><mi>n</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='('close=')'><mtable><mtr><mtd><mi>n</mi></mtd></mtr><mtr><mtd><mi>y</mi></mtd></mtr></mtable></mfenced><msup><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mi>y</mi></msup><msup><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mrow><mi>n</mi><mo>-</mo><mi>y</mi></mrow></msup><mo>,</mo><mi>y</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>式(13)中,h代表二項式實(shí)驗中,n.次試驗有y次為0的隨機(jī)變量X的概率分布;y代表結(jié)果為0的次數(shù),n代表試驗次數(shù),p代表每次0出現(xiàn)的概率;故可由下列求其正確值<mrow><mi>P</mi><mrow><mo>(</mo><mi>Y</mi><mo>≥</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>y</mi><mo>=</mo><mi>S</mi></mrow><mi>n</mi></munderover><mfencedopen='('close=')'><mtable><mtr><mtd><mi>n</mi></mtd></mtr><mtr><mtd><mi>y</mi></mtd></mtr></mtable></mfenced><msup><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mi>y</mi></msup><msup><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mrow><mi>n</mi><mo>-</mo><mi>y</mi></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>式(14)中,P代表n次試驗至少有S次(S<n)為0的概率,S代表至少有S次為0,n代表試驗次數(shù),y代表結(jié)果為0的次數(shù);步驟3)為了與高斯似然關(guān)聯(lián),可利用中心極限定理如下求其近似值為<mrow><mover><mi>X</mi><mo>‾</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>X</mi><mi>k</mi></msub><mo>,</mo></mrow>其中,n代表樣本大?。徊襟E4)由中心極限定理知其分布近似于其中,N代表正態(tài)分布,n代表樣本大小,因p為0的概率,q為1的概率),故<mrow><mi>t</mi><mo>=</mo><mfrac><mrow><mover><mi>X</mi><mo>‾</mo></mover><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac></mrow><msqrt><mfrac><mn>1</mn><mrow><mn>4</mn><mi>n</mi></mrow></mfrac></msqrt></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>之分布近似于N(0,1),其中t代表t分布,代表樣本大小為n的隨機(jī)變量X的均值,n代表樣本大小為n,因<mrow><mi>Y</mi><mo>≥</mo><mi>S</mi><mo>≅</mo><mover><mi>X</mi><mo>‾</mo></mover><mo>≥</mo><mfrac><mi>S</mi><mi>n</mi></mfrac><mo>≅</mo><mi>t</mi><mo>≥</mo><mfrac><mrow><mn>2</mn><mi>S</mi><mo>-</mo><mi>n</mi></mrow><msqrt><mi>n</mi></msqrt></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow>式(16)中,y代表結(jié)果為0的次數(shù),S代表結(jié)果為0至少有S次(S<n),n代表樣本大小,故<mrow><mi>P</mi><mo>{</mo><mi>Y</mi><mo>≥</mo><mi>S</mi><mo>}</mo><mo>=</mo><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>≥</mo><mfrac><mrow><mn>2</mn><mi>S</mi><mo>-</mo><mi>n</mi></mrow><msqrt><mi>n</mi></msqrt></mfrac><mo>)</mo></mrow><mo>~</mo><mfrac><mn>1</mn><msqrt><mn>2</mn><mi>π</mi></msqrt></mfrac><msubsup><mo>∫</mo><mfrac><mrow><mn>2</mn><mi>s</mi><mo>-</mo><mi>n</mi></mrow><msqrt><mi>n</mi></msqrt></mfrac><mo>∞</mo></msubsup><msup><mi>e</mi><mrow><mo>-</mo><mfrac><msup><mi>t</mi><mn>2</mn></msup><mn>2</mn></mfrac><mi>dt</mi></mrow></msup></mrow><mrow><mo>=</mo><mn>0.5</mn><mo>-</mo><mfrac><mn>1</mn><msqrt><mn>2</mn><mi>π</mi></msqrt></mfrac><msubsup><mo>∫</mo><mn>0</mn><mfrac><mrow><mn>2</mn><mi>s</mi><mo>-</mo><mi>n</mi></mrow><msqrt><mi>n</mi></msqrt></mfrac></msubsup><msup><mi>e</mi><mrow><mo>-</mo><mfrac><msub><mi>t</mi><mn>2</mn></msub><mn>2</mn></mfrac></mrow></msup><mi>dt</mi><mo>=</mo><mn>0.5</mn><mo>-</mo><mi>Φ</mi><mrow><mo>(</mo><mfrac><mrow><mn>2</mn><mi>S</mi><mo>-</mo><mi>n</mi></mrow><msqrt><mi>n</mi></msqrt></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow>其中,設(shè)標(biāo)準(zhǔn)單變量正態(tài)分布<mrow><mi>Φ</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><mn>2</mn><mi>π</mi></msqrt></mfrac><msubsup><mo>∫</mo><mn>0</mn><mi>x</mi></msubsup><msup><mi>e</mi><mrow><mo>-</mo><mfrac><msup><mi>t</mi><mn>2</mn></msup><mn>2</mn></mfrac></mrow></msup><mrow><mi>dt</mi><mo>)</mo></mrow><mo>;</mo></mrow>步驟5)當(dāng)n=∞時(n=1000),由可查正態(tài)分布表(統(tǒng)計學(xué)最重要的連續(xù)概率分布表)得<mrow><mfrac><mrow><mn>2</mn><mi>S</mi><mo>-</mo><mn>1000</mn></mrow><mn>31.6</mn></mfrac><mo>=</mo><mn>2.33</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>20</mn><mo>)</mo></mrow></mrow>解得S后再與n比較,即可得出校準(zhǔn)參數(shù);步驟6)當(dāng)似然比檢驗所得到的P值結(jié)論與單向有序列聯(lián)表的面貌不一致時,依據(jù)基于概率積分變換的校準(zhǔn)參數(shù)修正P值誤差,使P值結(jié)論與單向有序列聯(lián)表的面貌一致。FSA00000183714600015.tif,FSA00000183714600016.tif,FSA00000183714600017.tif,FSA00000183714600019.tif,FSA00000183714600025.tif全文摘要似然比檢驗誤差的檢測方法,涉及一種人工智能技術(shù)在中醫(yī)的應(yīng)用。提供一種基于概率積分變換的似然比檢驗誤差的檢測方法。提供預(yù)測準(zhǔn)確和高效的分析工具,仿真實(shí)驗顯示,該方法可以用于通常的小樣本;若似然比檢驗所得到的P值結(jié)論與單向有序列聯(lián)表的面貌不一致時,應(yīng)依據(jù)基于概率積分變換的0.074校準(zhǔn)參數(shù)修正P值誤差,使P值結(jié)論與單向有序列聯(lián)表的面貌一致。提供一種廣泛適用的尾預(yù)測檢驗方法來評估這種預(yù)測,它能夠評價整個預(yù)測的分布,而不是一個標(biāo)量或區(qū)間。預(yù)測分布的信息內(nèi)容與事后知識相結(jié)合就足以建立一個強(qiáng)大的檢驗,即使在樣本規(guī)模小至100的情況下也能夠滿足預(yù)測程序的需要。文檔編號G06F19/00GK101894215SQ20101022317公開日2010年11月24日申請日期2010年7月6日優(yōu)先權(quán)日2010年7月6日發(fā)明者周昌樂,李紹滋,陳彤生申請人:廈門大學(xué)