專利名稱:一種城市道路交通流數(shù)據(jù)抽樣存儲方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種城市道路交通流數(shù)據(jù)抽樣存儲方法與裝置。
背景技術(shù):
抽樣調(diào)查是獲取統(tǒng)計資料的重要手段,在社會、經(jīng)濟、科研等領(lǐng)域有著廣泛的應(yīng)用。抽樣技術(shù)是統(tǒng)計學(xué)研究中的一個重要分支?;镜母怕食闃臃椒òê唵坞S機抽樣、分層抽樣、整群抽樣、多階抽樣、等距抽樣及不等概率抽樣等。
原始道路交通流數(shù)據(jù)不僅可以直接用于實時交通控制(包括信號配時、事故預(yù)測等),也用來滿足交通規(guī)劃等潛在應(yīng)用需求。將原始信息進行有效的數(shù)據(jù)抽樣,提取有用信息,實現(xiàn)數(shù)據(jù)減容,可以更好地滿足不同用戶的需求。例如,對于交通規(guī)劃的應(yīng)用軟件來說,需要針對高速公路系統(tǒng)的趨勢進行遠期分析,這意味著將十億字節(jié)的數(shù)據(jù)轉(zhuǎn)化成了一頁有用的信息。抽樣技術(shù)的關(guān)鍵在于抽樣的精度和可靠性。首先根據(jù)歷史資料了解總體的方差,即總體的離散程度,方差大,就需要增大樣本容量;其次確定需要的精度,精度越高,所需樣本容量越大;最后就是技術(shù)問題,提高抽取的效率則能夠降低所需的樣本數(shù)。
在北京第二屆國際ITS會議上高海龍撰寫的《交通信息采集中的樣本量分析》給出了數(shù)據(jù)采集中確定合適樣本量的方法。在公路運輸方面,交通部在1999年出臺了“公路運輸全行業(yè)統(tǒng)計抽樣調(diào)查調(diào)查員手冊”,專門對樣本的確立和選擇做了相應(yīng)的論述。對交通流數(shù)據(jù)抽樣與傳統(tǒng)數(shù)學(xué)意義上的抽樣不一樣。
通過對城市交通指揮中心已有的數(shù)據(jù)管理實踐工作的總結(jié),發(fā)現(xiàn)工作難度集中在三方面數(shù)據(jù)大小、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量。大多數(shù)交通指揮中心用來存儲歷史海量數(shù)據(jù)的方法過于簡單和隨意,大量數(shù)據(jù)未被存檔,但這些數(shù)據(jù)對滿足將來的不同需求又非常有用,因而需要對數(shù)據(jù)進行抽樣存儲。
發(fā)明內(nèi)容
為了克服現(xiàn)有的技術(shù)的不足,本發(fā)明提供一種城市道路交通流數(shù)據(jù)抽樣存儲方法與裝置,本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種城市道路交通流數(shù)據(jù)抽樣存儲方法包括一種基于最優(yōu)化的抽樣方法是誤差平方和法,通過比較每個樣本與樣本總體特征的差值,統(tǒng)計其中差值最小的樣本得到樣本容量范圍內(nèi)的最佳抽樣樣本;另一種基于最優(yōu)化的抽樣方法是互驗法,通過比較每個樣本與剩余樣本總體特征的差值,統(tǒng)計其中差值最小的樣本得到樣本容量范圍內(nèi)的最佳抽樣樣本。
一種城市道路交通流數(shù)據(jù)抽樣存儲裝置包括原始數(shù)據(jù)讀入裝置、確定最佳樣本量裝置、誤差平方和法確定最佳抽樣日裝置、互驗法確定最佳抽樣日裝置和最佳抽樣日數(shù)據(jù)輸出裝置五個部分。這五個部分相互連接,實現(xiàn)了上述的方法。
交通流數(shù)據(jù)管理中一項重要內(nèi)容就是要對海量、實時數(shù)據(jù)進行存儲。由于ITS數(shù)據(jù)量龐大,在不必要存儲所有數(shù)據(jù)的情況下,可以考慮從具有相似性的一組數(shù)據(jù)集合中選擇出最能夠代表整體的數(shù)據(jù)樣本,當(dāng)使用該樣本來代替總體數(shù)據(jù)集合時,系統(tǒng)可以僅保存該最佳樣本數(shù)據(jù),這就是數(shù)據(jù)抽樣的含義。在實際操作過程中選定一定樣本容量下的具有某種共同屬性(如時間屬性同為周一早高峰數(shù)據(jù))的樣本,采用數(shù)據(jù)抽樣方法得到最佳樣本數(shù)據(jù),最終僅存儲最佳樣本日數(shù)據(jù)而非所有的樣本數(shù)據(jù),從而有效的降低了存儲需求。所發(fā)明的方法涉及兩種抽樣方法,誤差平方和法(SSE)和互驗法(CV),內(nèi)容包括應(yīng)用數(shù)理統(tǒng)計的方法,得到海量交通流數(shù)據(jù)的最佳樣本量,然后通過比較每個樣本與樣本總體特征的差值,統(tǒng)計其中差值最小的樣本得到樣本容量范圍內(nèi)的最佳抽樣樣本。用最佳樣本數(shù)據(jù)來代替總體樣本能夠在節(jié)省存儲空間的同時又盡可能的保留原始數(shù)據(jù)的規(guī)律和信息。可以測試在權(quán)重一定時,隨著樣本容量的不斷變化,最佳抽樣樣本的變化情況;也可以測試在樣本容量一定時,不同權(quán)重下最佳抽樣樣本的變化情況,即最佳抽樣樣本對權(quán)重的敏感度問題。
本發(fā)明涉及到了數(shù)理統(tǒng)計中的中心極限定理、最優(yōu)化的誤差平方和法和互驗法等相關(guān)理論。中心極限定理可以建立非正態(tài)分布和正態(tài)分布樣本量之間的相關(guān)關(guān)系,為不同總體樣本之間的關(guān)聯(lián)建立橋梁,就可以根據(jù)正態(tài)分布的方法得到最佳樣本量。最優(yōu)化的誤差平方和法和互驗法能對海量城市道路交通流數(shù)據(jù)進行抽樣得到最佳抽樣樣本數(shù)據(jù)。
方法的原則是應(yīng)用數(shù)理統(tǒng)計的方法,得到海量交通流數(shù)據(jù)的最佳樣本量,然后通過比較每個樣本與樣本總體特征的差值,統(tǒng)計其中差值最小的樣本即為樣本容量范圍內(nèi)的最佳抽樣樣本。
最佳樣本量通過中心極限定理的方法得到。設(shè)樣本(X1,X2,...,Xn)是來自于服從總體為N(μ,σ2)的正態(tài)分布,若總體方差未知,則統(tǒng)計量T服從自由度為(n-1)的t分布,對于給定的顯著性水平α(即置信水平為1-α),可得到最佳樣本量;若總體方差已知,則統(tǒng)計量U=x‾-μσn~N(0,1)]]>服從標(biāo)準(zhǔn)正態(tài)分布,在給定的允許誤差條件下,可得到最佳樣本量;若調(diào)查量的實際分布不完全符合正態(tài)分布,那么通過中心極限定理,建立非正態(tài)分布和正態(tài)分布樣本量之間的相關(guān)關(guān)系,為不同總體樣本之間的關(guān)聯(lián)建立橋梁,就可以根據(jù)正態(tài)分布的方法得到最佳樣本量。
誤差平方和法(SSE方法)得到最佳抽樣日的過程是用整批數(shù)據(jù)(有流量、速度和占有率這些不同的交通變量)的平均值,通過比較先找到每一個目標(biāo)與平均樣本的偏差,為了把不同的交通變量統(tǒng)一成相同的量綱,在抽樣方法里引入量化系統(tǒng),計算每個變量的量化值,再結(jié)合不同變量的權(quán)重,得到每個變量的量化值與權(quán)重的乘積,在樣本總體中三個變量的量化值與權(quán)重的乘積之和為最小的抽樣樣本即為最佳抽樣樣本。
互驗法(CV方法)的原理與SSE方法相似,也是通過比較單個樣本與總體樣本平均值間的差值,來得到最佳抽樣樣本。CV方法和SSE方法的區(qū)別在于,CV方法中,目標(biāo)不與所有目標(biāo)的平均值比較,而是與剔除該目標(biāo)后的剩余目標(biāo)的平均值作比較,差值最小的目標(biāo)即為最佳抽樣樣本。
本發(fā)明的有益效果是這種方法能在海量數(shù)據(jù)中確定最佳抽樣日,在減少數(shù)據(jù)量的同時盡可能保留原始數(shù)據(jù)的規(guī)律和信息,同時也節(jié)省大量的存儲空間,滿足不同用戶對原始數(shù)據(jù)研究的需求。所發(fā)明的抽樣方法可以簡單的表述如下。首先從交通指揮中心獲得原始數(shù)據(jù);然后,檢查數(shù)據(jù)的質(zhì)量并運用系統(tǒng)化的方法修復(fù)丟失的或錯誤的數(shù)據(jù);最后,用誤差平方和法(SSE)或互驗法(CV)對數(shù)據(jù)進行最優(yōu)化并選擇最佳樣本數(shù)據(jù)。以整天抽樣為例,整個過程的目的是選擇樣本容量個周內(nèi)特定的某一天(如星期一、星期二等)作為抽樣日,所選抽樣日在整個抽樣期間能最好的代表這周的特定天。樣本對象的選取可以是某天,也可以是整周、周末,甚至可以是特定的時期。當(dāng)新的數(shù)據(jù)得到后,以滾動的方式用它取代最老的數(shù)據(jù)后重新運行抽樣程序。該程序?qū)⒋鎯?jīng)抽樣后能最好的代表整個數(shù)據(jù)流的原始數(shù)據(jù),從而大大減少所需的存儲空間。
下面結(jié)合附圖和實施例對本發(fā)明進一步說明。
圖1本發(fā)明裝置圖;圖2本發(fā)明裝置流程圖;圖3樣本容量為10的量化值和加權(quán)值的變化圖;圖4最佳抽樣日和最差抽樣日與總體平均值的時間-流量圖;圖5樣本容量為25時的量化值和加權(quán)值的變化圖(包括十個權(quán)重);具體實施方式
表1樣本容量為10的量化結(jié)果表;表2流量、速度和占有率的加權(quán)量化值隨樣本容量變化的階梯表;表3樣本容量為25的量化結(jié)果表;表4十個權(quán)重下的最佳抽樣日隨樣本容量的變化表。
依據(jù)發(fā)明的方法,設(shè)計了對應(yīng)的城市道路交通流數(shù)據(jù)抽樣存儲裝置,其結(jié)構(gòu)見圖1。整個過程是通過VB程序連接后臺ORACLE數(shù)據(jù)庫來實現(xiàn)的。城市道路交通流數(shù)據(jù)抽樣存儲裝置由五大部分構(gòu)成,包括原始數(shù)據(jù)讀入裝置、確定最佳樣本量裝置、誤差平方和法確定最佳抽樣日裝置、互驗法確定最佳抽樣日裝置和最佳抽樣日數(shù)據(jù)輸出裝置五個部分。這五個部分相互聯(lián)系,實現(xiàn)了所發(fā)明的方法。經(jīng)過質(zhì)量控制后的數(shù)據(jù)經(jīng)過數(shù)據(jù)抽樣裝置可以得到最佳抽樣日和最佳抽樣日原始數(shù)據(jù)。在整個處理過程中需要用戶根據(jù)需求來設(shè)定各個參數(shù),充分考慮用戶的需求信息。
當(dāng)準(zhǔn)備好需要分析的原始數(shù)據(jù)后,通過原始數(shù)據(jù)讀入裝置設(shè)定讀入數(shù)據(jù)的參數(shù)(如早高峰、晚高峰、全天等),指明數(shù)據(jù)的類型,參數(shù)設(shè)定完成后,開始讀入原始數(shù)據(jù)。在成功地讀入數(shù)據(jù)以后,設(shè)定抽樣參數(shù),然后進入誤差平方和法確定最佳抽樣日裝置或互驗法確定最佳抽樣日裝置,這兩個裝置對原始數(shù)據(jù)處理的中間步驟都保存在ORACLE數(shù)據(jù)庫中的相應(yīng)表中。先說明數(shù)據(jù)庫中一些重要的表的含義,如表5。最后通過最佳抽樣日數(shù)據(jù)輸出裝置得到相應(yīng)結(jié)果,輸出裝置充分考慮了用戶的不同需求,如果用戶不僅需要各種樣本容量下的最佳抽樣日時間,也需要各種樣本容量下不同權(quán)重的最佳抽樣日數(shù)據(jù),數(shù)據(jù)輸出裝置也能夠提供,甚至可以做一些必要的分析。
圖2是城市道路交通流數(shù)據(jù)抽樣存儲裝置流程圖,從數(shù)據(jù)讀入裝置得到的數(shù)據(jù)將導(dǎo)入到系統(tǒng)裝置相應(yīng)的數(shù)據(jù)庫表里,接著將對原始數(shù)據(jù)表進行一系列的容錯處理并按照一定算法進行適當(dāng)?shù)男拚?,接著修正后?shù)據(jù)進入誤差平方和法確定最佳抽樣日裝置或互驗法確定最佳抽樣日裝置,抽樣結(jié)果將被存儲并進入輸出裝置,輸出裝置將對結(jié)果進行詳盡的分析,并結(jié)合實際進行一些預(yù)測等。
總之,用戶只需把所分析的原始數(shù)據(jù)導(dǎo)入相應(yīng)表中,在抽樣裝置界面上進行相應(yīng)操作即能得到結(jié)果。系統(tǒng)對用戶導(dǎo)入的數(shù)據(jù)處理完畢后,把相應(yīng)的結(jié)果保存到相應(yīng)的數(shù)據(jù)庫。
結(jié)合附表,以下給出實例來說明發(fā)明的具體實施方式
(由于SSE方法和CV方法的過程類似,所以以SSE方法為重點介紹,數(shù)據(jù)來自北京市三環(huán)路)本文用到了十個權(quán)重組合,分別用ws1,ws2,......,ws10表示,ws1為(1/3、1/3、1/3);ws2為(1/2、1/4、1/4);ws3為(1/4、1/2、1/4);ws4為(1/4、1/4、1/2);ws5為(1/5、3/10、1/2);ws6為(1/5、1/2、3/10);ws7為(3/10、1/5、1/2);ws8為(3/10、1/2、1/5);ws9為(1/2、1/5、3/10);ws10為(1/2、3/10、1/5)。ws1為(1/3、1/3、1/3),表示抽樣過程中流量、速度和占有率三個參數(shù)同等重要,ws2為(1/2、1/4、1/4),表示抽樣過程中更側(cè)重流量參數(shù)的研究,依此類推。
采用的北京市道路交通流數(shù)據(jù)來自三環(huán)路上的125個環(huán)形探測器,每個探測器每天產(chǎn)生2分鐘為間隔的數(shù)據(jù),主要包括探測器號、日期、時間、車道號、流量、速度、占有率和長車流量。測試的北京市道路交通流數(shù)據(jù)的時間跨度從2002年3月到2002年12月約10個月的數(shù)據(jù),本文選取探測器03006(位于呼家樓路口西北角)第2車道連續(xù)周三的整天數(shù)據(jù)進行抽樣來說明具體實施方式
。
對數(shù)據(jù)的測試過程分為兩個方面對單個權(quán)重的測試和對多個權(quán)重的測試。對單個權(quán)重測試的目的是要找出一定樣本容量下的最佳抽樣日,并觀察最佳抽樣日隨樣本容量的變化規(guī)律。多個權(quán)重測試的主要目的是橫向?qū)Ρ?,在樣本容量一定時觀察不同權(quán)重下最佳抽樣日的變化情況,即測試最佳抽樣日對權(quán)重的敏感度。樣本容量為5,指的是對從2002-3-13到2002-4-10連續(xù)的五個周三的數(shù)據(jù)進行抽樣。依此類推,樣本容量為36,指的是對從2002-3-13到2002-11-27連續(xù)的36個周三進行抽樣。以下是這兩方面測試和分析的過程。
單個權(quán)重的測試與分析測試的數(shù)據(jù)是探測器03006從2002-3-13到2002-11-27第2車道連續(xù)周三的整天數(shù)據(jù),權(quán)重是ws1(1/3、1/3、1/3),樣本容量從5-36。先重點敘述樣本容量為10的測試過程,然后再分析樣本容量從5-36的變化過程,最后是對整個測試結(jié)果的分析和總結(jié)。
最佳抽樣日指的是在某一樣本容量下,權(quán)重的量化結(jié)果為最小值時所對應(yīng)的抽樣日,現(xiàn)以權(quán)重ws1作為例子來說明抽樣的分析過程。表1是利用抽樣裝置按照所發(fā)明的抽樣方法運行得到的對第2車道連續(xù)10個周三(即樣本容量為10)的數(shù)據(jù)抽樣的量化結(jié)果表。
圖3是樣本容量為10時的流量、速度、占有率的量化值和加權(quán)值的變化圖。
可以看出,2002-4-17的數(shù)據(jù)量化后的結(jié)果1.45是最小的,所以在樣本容量為10時,2002-4-17是最佳抽樣日。也就是說第六個周三2002-4-17的數(shù)據(jù)最接近總體十個周三數(shù)據(jù)的平均值。當(dāng)然,量化后的最大值7.67對應(yīng)的2002-5-15是最差抽樣日,最差抽樣日指的是某一樣本容量里,權(quán)重結(jié)果最大值所對應(yīng)的天,它與總體平均值相差最遠。圖4是最佳抽樣日和最差抽樣日與總體平均值的時間-流量圖。
容易得出以下結(jié)論,最佳抽樣日數(shù)據(jù)與總體平均值匹配得最好,最差抽樣日數(shù)據(jù)與總體平均值相差最大。即最佳抽樣日數(shù)據(jù)最能代表該樣本容量下的其它天的數(shù)據(jù)。所以所研究的十天的數(shù)據(jù)僅需保留2002-4-17的數(shù)據(jù)即可把握這十天數(shù)據(jù)的特征和規(guī)律。
當(dāng)取不同的樣本容量時(從5變化到36時),其分析過程與之相似,可得當(dāng)樣本容量介于5-36的各參數(shù)的加權(quán)值隨樣本容量變化的階梯表如表2。階梯表直觀的反映了最佳抽樣日隨樣本容量的變化特點。由表2,當(dāng)樣本容量是5時,最小的加權(quán)值1.51對應(yīng)的天2002-4-10是最佳抽樣日;樣本容量是10時,最小的加權(quán)值1.45對應(yīng)的天2002-4-17是最佳抽樣日,依此類推。
由以上測試和分析過程可得,隨著樣本容量的逐漸增加,最佳抽樣日也在不斷的變化,當(dāng)且僅當(dāng)新增加的樣本日更接近總體樣本的平均水平時最佳抽樣日才發(fā)生變化。從實際數(shù)據(jù)運行的結(jié)果來看大的樣本容量比小的樣本容量更能選出具有代表性的最佳抽樣日。當(dāng)然,如果把抽樣過程設(shè)計為一個滾動和連續(xù)的過程,所選取的最佳抽樣日只代表該樣本容量所代表的區(qū)間,那么樣本容量的大小就無關(guān)緊要了。
多個權(quán)重的測試與分析多個權(quán)重測試的主要目的是橫向?qū)Ρ龋跇颖救萘恳欢〞r觀察不同權(quán)重下最佳抽樣日的變化情況,即測試最佳抽樣日對不同權(quán)重的敏感度。
整個分析過程與單個權(quán)重的分析類似,表3是樣本容量為25的最佳抽樣日的量化結(jié)果表。
圖5是樣本容量為25的速度、流量、占有率的量化值和加權(quán)值的變化圖。由各參數(shù)的加權(quán)值隨樣本容量的變化過程,可得在各個權(quán)重下最佳抽樣日隨樣本容量的變化表4。從表4中可以看出,隨著樣本容量的不斷增加,最佳抽樣日也在不斷的變化,但是,當(dāng)樣本容量一定時,不同權(quán)重的最佳抽樣日相等的概率很大。
通過多個權(quán)重的對比,證明SSE抽樣方法在測試北京數(shù)據(jù)時對權(quán)重的變化不夠敏感,即任取一個權(quán)重得到的最佳抽樣日都能以很大的概率接近其它權(quán)重得到的最佳抽樣日,這也說明探測器采集的流量、速度和占有率數(shù)據(jù)的穩(wěn)定性是前后一致的,即只要一個變量的數(shù)據(jù)比較精確的時候,其它變量也同時比較精確。
當(dāng)然,在相同的樣本容量下,隨著權(quán)重的變化,最佳抽樣日可能會發(fā)生變化,即取不同的權(quán)重對最佳抽樣日是有影響的,應(yīng)用過程中應(yīng)根據(jù)實際情況和要求進行具體分析后選擇適當(dāng)?shù)臋?quán)重組合。
表1 樣本容量為10的量化結(jié)果表
表2 流量、速度和占有率的加權(quán)量化值隨樣本容量變化的階梯表
表3 樣本容量為25的量化結(jié)果表
表4 十個權(quán)重下的最佳抽樣日隨樣本容量的變化(北京)
表5 數(shù)據(jù)庫中相應(yīng)的表名及其含義
權(quán)利要求
1.一種城市道路交通流數(shù)據(jù)抽樣存儲方法,其特征是兩種基于數(shù)理統(tǒng)計技術(shù)的海量城市道路交通流數(shù)據(jù)抽樣方法,包括一種基于最優(yōu)化的抽樣方法是誤差平方和法,通過比較每個樣本與樣本總體特征的差值,統(tǒng)計其中差值最小的樣本得到樣本容量范圍內(nèi)的最佳抽樣樣本;另一種基于最優(yōu)化的抽樣方法是互驗法,通過比較每個樣本與剩余樣本總體特征的差值,統(tǒng)計其中差值最小的樣本得到樣本容量范圍內(nèi)的最佳抽樣樣本。
2.根據(jù)權(quán)利要求1所述的一種城市道路交通流數(shù)據(jù)抽樣存儲方法,其特征在于,確定最佳樣本量的方法,樣本(X1,X2,...,Xn)是來自于服從總體為N(μ,σ2)的正態(tài)分布,若總體方差未知,則統(tǒng)計量T服從自由度為(n-1)的t分布,對于給定的顯著性水平α即置信水平為1-α,可得到最佳樣本量。
3.根據(jù)權(quán)利要求1所述的一種城市道路交通流數(shù)據(jù)抽樣存儲方法,其特征在于,確定最佳樣本量的方法,樣本(X1,X2,...,Xn)是來自于服從總體為N(μ,σ2)的正態(tài)分布,若總體方差已知,則統(tǒng)計量U=x‾-μσn~N(0,1)]]>服從標(biāo)準(zhǔn)正態(tài)分布,在給定的允許誤差條件下,即x-μ=δ,可得到最佳樣本量。
4.根據(jù)權(quán)利要求1所述的一種城市道路交通流數(shù)據(jù)抽樣存儲方法,其特征在于,確定最佳樣本量的方法,調(diào)查量的實際分布即使不完全符合正態(tài)分布,通過中心極限定理,建立非正態(tài)分布和正態(tài)分布最佳樣本量之間的相關(guān)關(guān)系,為不同總體樣本之間的關(guān)聯(lián)建立橋梁,根據(jù)正態(tài)分布的方法得到最佳樣本量。
5.根據(jù)權(quán)利要求1所述的一種城市道路交通流數(shù)據(jù)抽樣存儲方法,其特征在于,誤差平方和法,確定一定樣本容量下的最佳抽樣樣本,最佳抽樣樣本數(shù)據(jù)最能代表該樣本容量下的其它樣本數(shù)據(jù),從而在減少存儲數(shù)據(jù)量的同時保留了最具代表性的原始數(shù)據(jù)信息;或要確定在權(quán)重一定時,隨著樣本容量的不斷變化,抽樣樣本的變化情況;或在確定一定樣本容量下的最佳抽樣樣本時,要測試對權(quán)重的敏感性,即在樣本容量一定時,不同權(quán)重下最佳抽樣樣本的變化情況。
6.根據(jù)權(quán)利要求5所述的一種城市道路交通流數(shù)據(jù)抽樣存儲方法,其特征在于,互驗法,在確定一樣本容量下的最佳抽樣日時,要對北京和美國的實時道路交通流數(shù)據(jù)包括整天、早高峰和晚高峰的數(shù)據(jù)進行測試和比較。
7.一種城市道路交通流數(shù)據(jù)抽樣存儲裝置,其特征在于,包括原始數(shù)據(jù)讀入裝置、最佳樣本量確定裝置、誤差平方和法確定最佳抽樣樣本裝置、互驗法確定最佳抽樣樣本裝置和最佳抽樣樣本數(shù)據(jù)輸出裝置五個部分,這五個部分相互連接。
8.根據(jù)權(quán)利要求7所述的一種城市道路交通流數(shù)據(jù)抽樣存儲裝置,其特征在于,采用中心極限定理確定最佳樣本量,采用誤差平方和法和互驗法確定最佳抽樣樣本數(shù)據(jù),比較評價各種時間段的抽樣結(jié)果。
9.權(quán)利要求7所述的一種城市道路交通流數(shù)據(jù)抽樣存儲裝置,其特征在于,最佳樣本量確定裝置,采用權(quán)利要求2、3、4中的方法來確定最佳樣本量。
10.根據(jù)權(quán)利要求7所述的一種城市道路交通流數(shù)據(jù)抽樣存儲裝置,其特征在于,誤差平方和法確定最佳抽樣樣本裝置,采用權(quán)利要求5中的方法確定最佳抽樣樣本。
11.根據(jù)權(quán)利要求7所述的一種城市道路交通流數(shù)據(jù)抽樣存儲裝置,其特征在于,互驗法確定最佳抽樣樣本裝置,采用權(quán)利要求6中的方法確定最佳抽樣樣本。
12.根據(jù)權(quán)利要求7所述的一種城市道路交通流數(shù)據(jù)抽樣存儲裝置,其特征在于,最佳抽樣樣本數(shù)據(jù)輸出裝置提供各種樣本容量下的最佳抽樣樣本和各種樣本容量下不同權(quán)重的最佳抽樣樣本數(shù)據(jù),可以做分析。
全文摘要
一種城市道路交通流數(shù)據(jù)抽樣存儲方法與裝置。涉及誤差平方和法和互驗法,應(yīng)用數(shù)理統(tǒng)計的方法,得到海量交通流數(shù)據(jù)的最佳樣本量,然后通過比較每個樣本與樣本總體特征的差值,統(tǒng)計其中差值最小的樣本得到樣本容量范圍內(nèi)的最佳抽樣樣本。用最佳樣本數(shù)據(jù)來代替總體樣本能夠在節(jié)省存儲空間的同時又盡可能的保留原始數(shù)據(jù)的規(guī)律和信息。有原始數(shù)據(jù)讀入裝置、確定最佳樣本量裝置、誤差平方和法確定最佳抽樣日裝置、互驗法確定最佳抽樣日裝置和最佳抽樣日數(shù)據(jù)輸出裝置五個部分。可以測試在權(quán)重一定時,隨著樣本容量的不斷變化,最佳抽樣樣本的變化情況;也可以測試在樣本容量一定時,不同權(quán)重下最佳抽樣樣本的變化情況,即最佳抽樣樣本對權(quán)重的敏感度問題。
文檔編號G06F17/40GK1790344SQ20041009891
公開日2006年6月21日 申請日期2004年12月15日 優(yōu)先權(quán)日2004年12月15日
發(fā)明者于雷, 吳家慶 申請人:北京交通大學(xué)