本發(fā)明涉及一種道路擁堵識別方法,具體的為一種運用pca方法、ga理論以及svm算法進行綜合的道路擁堵判別的方法。
背景技術:
隨著我國高速公路交通異常狀態(tài)日益頻發(fā),嚴重影響高速公路的運行效率。準確把握交通運行狀態(tài)并及時檢測出交通異常,對于交通管理者制定恰當?shù)慕煌ü芸夭呗?,為駕駛員提供實時并且可靠的交通信息很有必要。交通異常狀態(tài)判別算法通過分析檢測器采集到的交通流參數(shù)來判斷道路狀態(tài)是否異常,是把握高速公路異常運行狀態(tài)、進行調控和解決交通異常問題的前提和關鍵技術。
目前國內(nèi)外存在的交通異常狀態(tài)判別算法主要包括模式識別算法、統(tǒng)計算法、時間序列和平滑/濾波算法、突變理論和人工智能事件檢測算法等,其中模式識別算法、統(tǒng)計算法、時間序列和平滑/濾波算法、突變理論算法的可移植性比較差,結果并不令人滿意。人工智能算法在近年來得到極大的發(fā)展,其中支持向量機(supportvectormachine,svm)算法綜合性能較好,首先由cortes和vapnik于1995年提出,然而目前在應用中的svm算法對高速公路交通運行狀態(tài)的劃分還不夠細致,并且還存在算法模型訓練時間過長和準確率偏低等問題,這些問題制約著算法交通狀態(tài)分類的性能,不利于健全高速公路監(jiān)控和管理系統(tǒng)和準確的把握交通運行狀態(tài)。
技術實現(xiàn)要素:
有鑒于此,為了解決現(xiàn)有技術中存在的問題,本發(fā)明的目的在于提供一種基于pca-ga-svm算法的高速公路擁堵識別方法。
為達到上述目的,本發(fā)明提供如下技術方案:
一種基于pca-ga-svm算法的高速公路擁堵識別方法,包括如下步驟:
步驟1:獲取固定車檢器數(shù)據(jù),并對固定車檢器數(shù)據(jù)進行預處理;
步驟2:選取擁堵判別svm算法特征向量
步驟21:選取訓練樣本的特征向量;
步驟22:利用pca對初始特征參數(shù)進行加權降維處理;
步驟3:訓練擁堵判別svm算法參數(shù)
步驟31:選取svm算法核函數(shù);
步驟32:利用遺傳算法優(yōu)化核函數(shù)參數(shù);
步驟4:擁堵狀態(tài)判別:根據(jù)交通事件的嚴重程度分為無事件狀態(tài)、輕度擁堵狀態(tài)和嚴重擁堵狀態(tài);采用“一對一”算法,組合兩個二分類器構造svm多分類器來得到判別結果,將二分類器問題延伸到處理多分類問題。
進一步,所述步驟1中,對固定車檢器數(shù)據(jù)進行預處理的方法如下:
步驟11:對于原始數(shù)據(jù)進行故障的分析與判斷,判定其是否為故障數(shù)據(jù),且當車速和占有率同時很高時判斷為失真,當流量、車速和占有率均為0時判斷為丟失;
步驟21:對于故障數(shù)據(jù)的剔除與補充修復,采用當前路段的實測數(shù)據(jù)與歷史數(shù)據(jù)的加權方式得出的值來對故障數(shù)據(jù)進行補充修復,公式如下:
其中,
x(t-1)為t-1時段的實際檢測值;
x′(t)為同一時刻前n天的采集數(shù)據(jù)的歷史均值;
α為遺忘因子,α∈[0,1],α取值的大小決定對于歷史的數(shù)據(jù)依賴程度。
進一步,所述步驟21中,分析高速公路異常狀態(tài)交通參數(shù),選取異常發(fā)生時刻上下游流量、占有率、車速數(shù)據(jù)作為訓練樣本的特征向量,共選擇出6個特征向量。
進一步,所述步驟22中,利用pca對初始特征參數(shù)進行加權降維處理的方法如下:
步驟221:利用n個訓練樣本,每個訓練樣本觀測選取的6個指標,將原始數(shù)據(jù)寫成矩陣如下所示:
其中,i為訓練樣本數(shù)量,i=1,2,…n;
j為觀測指標數(shù)量,j=1,2,…6;
xij是原始數(shù)據(jù)中第i個樣本第j個觀測指標數(shù)據(jù);
將原始數(shù)據(jù)標準化加權后,原始數(shù)據(jù)矩陣轉化為:
其中,i為訓練樣本數(shù)量,i=1,2,…n;
j為觀測指標數(shù)量,j=1,2,…6;
x′“j是原始數(shù)據(jù)中第i個樣本第j個觀測指標標準化后的數(shù)據(jù);
βij是對應x′ij的權重,且0<βij<1,并且βi1+βi2+…+βi6=1;
步驟222:建立變量的相關系數(shù)陣,如下所示:
r=(rij)6×6
其中,rij為第i個樣本第j個觀測指標對應的相關系數(shù),如下:
其中,
求得r的特征根λ1≥λ2≥…≥λ6>0,特征向量如下:
步驟223:計算主成分,公式如下:
fi=a1ix1+a2ix2+…+ajixj…+a6ix6
其中,i為訓練樣本數(shù)量,i=1,2,…n;
j為觀測指標數(shù)量,j=1,2,…6;
xj為第j個觀測指對應的樣本數(shù)據(jù);
aji為根據(jù)樣本數(shù)據(jù)求得的相關系數(shù)陣的第i個樣本第j個觀測指標對
應的特征根的特征向量;
計算主成分貢獻率及累計貢獻率如下:
貢獻率:
累計貢獻率:
其中,i為主成分個數(shù),i=1,2,…,6
取累計貢獻率達設定值以上的特征值所對應的前m個主成分,其中,m≤6。
進一步,所述步驟31中,選取高斯核函數(shù)作為svm算法核函數(shù),如下:
其中,x1和x2是訓練集中的兩個特征向量;
σ為高斯核函數(shù)的參數(shù)。
進一步,所述步驟32中,利用遺傳算法優(yōu)化核函數(shù)參數(shù)的方法如下:
步驟321:通過二進制編碼的基因編碼策略,將所求解的空間轉化成編碼后的解空間;其中每一個待整定參數(shù)的取值范圍、設定精度及基因個數(shù)應滿足關系式如下:
ue-us=δ(2k-1)
其中,ue-us代表參數(shù)的取值范圍;
δ代表取值精度;
k代表基因數(shù);
步驟322:將訓練集在cv意義下的回歸準確率作為ga的適應度函數(shù)值,利用ga對svm算法的參數(shù)進行進一步優(yōu)化;
cv意義下的回歸準確率公式如下:
其中,tt為輸入的樣本總數(shù);
tp為分類正確的有事件樣本數(shù);
tn為分類正確的無事件樣本數(shù);
步驟333:隨機地生成初始種群,用適應度函數(shù)評價每個個體的適應度值,根據(jù)計算的適應度值判斷是否滿足結束條件,如果滿足就輸出參數(shù)結果,如果不滿足就將選擇復制、交叉和變異等操作算子作用于種群,生成新一代種群繼續(xù)計算個體的適應度值直至滿足結束條件輸出結果為止。
進一步,所述步驟4中,在解決k分類問題中進行兩兩組合,構造二分類器個數(shù)n如下:
n=k×(k-1)/2
其中,k為分類個數(shù);
每個分類器只針對兩類數(shù)據(jù)進行訓練,采用投票法將類中每個類別的初始票數(shù)均設為0;對測試樣本,依次帶入決策函數(shù)進行判別,如果分類器認為樣本屬于類別i,則將類別i的票數(shù)加1,如果分類器認為樣本屬于類別j,則類別j的票數(shù)加1;n個分類器都判別完后,票數(shù)最高的那個類別就是樣本所屬類別。
本發(fā)明的有益效果在于:
本發(fā)明的基于pca-ga-svm算法的高速公路擁堵識別方法,提出了pca-ga-svm算法對道路擁堵狀態(tài)進行識別,利用支持向量機(svm)分類器延伸至解決多分類問題,利用主成分分析方法(pca)對特征參數(shù)進行加權降維處理縮短svm模型訓練時間,利用遺傳算法(ga)理論使參數(shù)最優(yōu)化提高svm分類精度;實現(xiàn)對交通狀態(tài)分類性能的改善,幫助健全高速公路監(jiān)控和管理系統(tǒng)、準確的把握和控制交通運行狀態(tài)和提高高速公路運營效率,對避免環(huán)境污染以及能源浪費等交通與社會問題具有重要意義。
附圖說明
為了使本發(fā)明的目的、技術方案和有益效果更加清楚,本發(fā)明提供如下附圖進行說明:
圖1為本發(fā)明基于pca-ga-svm算法的高速公路擁堵識別方法實施例的總流程圖;
圖2為異常狀態(tài)下上下游交通流量參數(shù)變化規(guī)律圖;
圖3為異常狀態(tài)下上下游車速參數(shù)變化規(guī)律圖;
圖4為異常狀態(tài)下上下游交通占有率參數(shù)變化規(guī)律圖;
圖5為pca加權降維處理流程圖;
圖6為pca累計貢獻率圖;
圖7為ga優(yōu)化svm參數(shù)算法流程圖。
具體實施方式
下面結合附圖和具體實施例對本發(fā)明作進一步說明,以使本領域的技術人員可以更好的理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的限定。
如圖1所示,為本發(fā)明基于pca-ga-svm算法的高速公路擁堵識別方法實施例的總流程圖。本實施例的基于pca-ga-svm算法的高速公路擁堵識別方法,包括如下步驟:
步驟1:獲取固定車檢器數(shù)據(jù),通過高速集團提供的車檢器數(shù)據(jù),直接得到檢測斷面車檢器編碼、檢測斷面在5min內(nèi)車輛行車方向、總車流量、總平均占有率和總平均車速等。高速公路交通數(shù)據(jù)字段定義如表1所示:
表1:高速公路交通數(shù)據(jù)字段定義表
對固定車檢器數(shù)據(jù)進行預處理,獲取固定車檢器數(shù)據(jù)后需對數(shù)據(jù)進行一定的預處理,主要是對原始數(shù)據(jù)進行故障的分析與判斷,判定其是否為故障數(shù)據(jù),對故障數(shù)據(jù)進行剔除與修復。主要有:
本實施例對固定車檢器數(shù)據(jù)進行預處理的方法如下:
步驟11:對于原始數(shù)據(jù)進行故障的分析與判斷,判定其是否為故障數(shù)據(jù),由于檢測器或傳輸線路出現(xiàn)故障會產(chǎn)生數(shù)據(jù)失真或數(shù)據(jù)丟失,當車速和占有率同時很高時判斷為失真,當流量、車速和占有率均為0時判斷為丟失;
步驟21:對于故障數(shù)據(jù)的剔除與補充修復,采用當前路段的實測數(shù)據(jù)與歷史數(shù)據(jù)的加權方式得出的值來對故障數(shù)據(jù)進行補充修復,公式如下:
其中,
x(t-1)為t-1時段的實際檢測值;
x′(t)為同一時刻前n天的采集數(shù)據(jù)的歷史均值;
α為遺忘因子,α∈[0,1],α取值的大小決定對于歷史的數(shù)據(jù)依賴程度。
步驟2:選取擁堵判別svm算法特征向量:選取擁堵判別svm算法特征向量是設計高速公路擁堵判別svm算法的前提,該步驟主要對高速公路異常狀態(tài)交通參數(shù)進行分析,選取算法的初始特征向量,并利用主成分分析方法(pca)對特征參數(shù)進行降維處理,以縮短svm模型的訓練時間。具體步驟如下:
步驟21:選取訓練樣本的特征向量:繪制包括道路交通擁堵和暢通狀態(tài)下固定車檢器收集的交通參數(shù)分布圖,如圖2-4所示。探討路段上下游流量、占有率和平均車速三種交通參數(shù),分析異常狀態(tài)下的高速公路交通參數(shù)數(shù)據(jù)的波動特征,發(fā)現(xiàn)處于交通異常狀態(tài)的路段上游會產(chǎn)生一個導致?lián)頂D的壓縮波,使車輛聚集,流量有小幅度減少,車速會急劇下降,占有率明顯增大,下游則會產(chǎn)生一個擴張波,使車輛稀疏,流量通常會低于道路的正常通行能力,但流量變化緩慢,車速會逐漸下降,占有率逐漸上升。因此選取異常發(fā)生時刻上下游流量、占有率、車速數(shù)據(jù)作為訓練樣本的特征向量,共選擇出6個特征向量。
步驟22:利用pca對初始特征參數(shù)進行加權降維處理;為了縮短svm模型的訓練時間,提高算法的學習能力,本實施例采用pca方法對訓練樣本的輸入特征進行線性降維,并根據(jù)特征的重要程度角度,對訓練集中的每個特征賦予相應的權重。如圖5所示,本實施例利用pca對初始特征參數(shù)進行加權降維處理的方法如下:
步驟221:利用n個訓練樣本,每個訓練樣本觀測選取的6個指標,將原始數(shù)據(jù)寫成矩陣如下所示:
其中,i為訓練樣本數(shù)量,i=1,2,…n;
j為觀測指標數(shù)量,j=1,2,…6;
xij是原始數(shù)據(jù)中第i個樣本第j個觀測指標數(shù)據(jù);
然而交通狀態(tài)異常對上下游流量、占有率、車速的影響大小是不同的,可以根據(jù)特征的重要程度角度,對訓練集中的每個特征賦予相應的權重,以提高算法的學習能力。將原始數(shù)據(jù)標準化加權后,原始數(shù)據(jù)矩陣轉化為:
其中,i為訓練樣本數(shù)量,i=1,2,…n;
j為觀測指標數(shù)量,j=1,2,…6;
x′ij是原始數(shù)據(jù)中第i個樣本第j個觀測指標標準化后的數(shù)據(jù);
βij是對應x′ij的權重,且0<βij<1,并且βi1+βi2+…+βi6=1;
由交通流數(shù)據(jù)特征分析可知上下游流量數(shù)據(jù)的影響較小,上下占有率和車速數(shù)據(jù)的影響較大,因此上下游流量數(shù)據(jù)可以取較小的權重,上下游占有率和車速取較大的權重。
步驟222:建立變量的相關系數(shù)陣,如下所示:
r=(rij)6×6
其中,rij為第i個樣本第j個觀測指標對應的相關系數(shù),如下:
其中,
求得r的特征根λ1≥λ2≥…≥λ6>0,特征向量如下:
步驟223:計算主成分,公式如下:
fi=a1ix1+a2ix2+…+ajixj…+a6ix6
其中,i為訓練樣本數(shù)量,i=1,2,…n;
j為觀測指標數(shù)量,j=1,2,…6;
xj為第j個觀測指對應的樣本數(shù)據(jù);
aji為根據(jù)樣本數(shù)據(jù)求得的相關系數(shù)陣的第i個樣本第j個觀測指標對
應的特征根的特征向量;
計算主成分貢獻率及累計貢獻率如下:
貢獻率:
累計貢獻率:
其中,i為主成分個數(shù),i=1,2,…,6
取累計貢獻率達設定值以上的特征值所對應的前m個主成分,其中,m≤6。pca累計貢獻率圖如圖6,本實施例取累計貢獻率達85%以上的特征值所對應的前m個主成分。
步驟3:訓練擁堵判別svm算法參數(shù):由于選取適當?shù)哪P秃蛥?shù)可以提高算法的分類精度,并且以往模型參數(shù)的選取是結合實際應用背景和數(shù)據(jù)的先驗知識來得到的,分類精度并不理想。因此該步驟首先比較各個核函數(shù)的優(yōu)缺點選定高斯核函數(shù),然后利用遺傳算法根據(jù)選取的核函數(shù)優(yōu)化其參數(shù)。具體步驟如下:
步驟31:選取svm算法核函數(shù);由于高速公路異常狀態(tài)判別問題是非線性的,選擇恰當?shù)暮撕瘮?shù)才能體現(xiàn)出良好的性能。通過比較各個核函數(shù)的優(yōu)缺點發(fā)現(xiàn),與線性核函數(shù)相比,高斯核函數(shù)可以非線性地完成映射,與多項式核函數(shù)相比,高斯核函數(shù)具有更少的核函數(shù)參數(shù),可以更快捷地訓練支持向量機。高斯核函數(shù)作為是應用最廣泛的svm核函數(shù),如果沒有充分獲得樣本集和分類問題的先驗信息,在光滑性假設下,高斯核函數(shù)表現(xiàn)出色。因此,本后四十里選取高斯核函數(shù)作為svm算法核函數(shù),如下:
其中,x1和x2是訓練集中的兩個特征向量;
σ為高斯核函數(shù)的參數(shù)。
步驟32:利用遺傳算法優(yōu)化核函數(shù)參數(shù);以往的參數(shù)選取主要是結合實際應用背景和數(shù)據(jù)的先驗知識來得到的,從而導致算法的分類精度并不理想。本發(fā)明將利用遺傳算法,根據(jù)選取的核函數(shù)優(yōu)化其參數(shù),步驟如下:
步驟321:通過二進制編碼的基因編碼策略,將所求解的空間轉化成編碼后的解空間;遺傳算法基因編碼方式包括二進制編碼、浮點編碼和符號編碼。為了使得遺傳算子的操作便于實現(xiàn),本實施例選用遺傳算法中最常采用的二進制編碼方法,其中每一個待整定參數(shù)的取值范圍、設定精度及基因個數(shù)應滿足關系式如下:
ue-us=δ(2k-1)
其中,ue-us代表參數(shù)的取值范圍;
δ代表取值精度;
k代表基因數(shù);
步驟322:根據(jù)具體的研究問題,構造適應度函數(shù)。遺傳算法對一個個體(解)的好壞用適應度函數(shù)值來評價,適應度函數(shù)值越大,解的質量越好。適應度函數(shù)是遺傳算法進化過程的驅動力,也是進行自然選擇的唯一標準,它的設計應結合求解問題本身的要求而定。本實施例將訓練集在cv意義下的回歸準確率作為ga的適應度函數(shù)值,利用ga對svm算法的參數(shù)進行進一步優(yōu)化。
具體的,cv意義下的回歸準確率公式如下:
其中,tt為輸入的樣本總數(shù);
tp為分類正確的有事件樣本數(shù);
tn為分類正確的無事件樣本數(shù);
步驟333:隨機地生成初始種群,用適應度函數(shù)評價每個個體的適應度值,根據(jù)計算的適應度值判斷是否滿足結束條件,如果滿足就輸出參數(shù)結果,如果不滿足就將選擇復制、交叉和變異等操作算子作用于種群,生成新一代種群繼續(xù)計算個體的適應度值直至滿足結束條件輸出結果為止。
遺傳算法優(yōu)化參數(shù)部分如圖7所示,利用遺傳算法理論來尋找出所選的高斯核函數(shù)參數(shù)σ。
步驟4:擁堵狀態(tài)判別:根據(jù)交通事件的嚴重程度分為無事件狀態(tài)、輕度擁堵狀態(tài)和嚴重擁堵狀態(tài);采用“一對一”算法,組合兩個二分類器構造svm多分類器來得到判別結果,將二分類器問題延伸到處理多分類問題。
在解決k分類問題中進行兩兩組合,構造二分類器個數(shù)n如下:
n=k×(k-1)/2
其中,k為分類個數(shù);
每個分類器只針對兩類數(shù)據(jù)進行訓練,采用投票法將類中每個類別的初始票數(shù)均設為0;對測試樣本,依次帶入決策函數(shù)進行判別,如果分類器認為樣本屬于類別i,則將類別i的票數(shù)加1,如果分類器認為樣本屬于類別j,則類別j的票數(shù)加1;n個分類器都判別完后,票數(shù)最高的那個類別就是樣本所屬類別。
本實施例的基于pca-ga-svm算法的高速公路擁堵識別方法,提出了pca-ga-svm算法對道路擁堵狀態(tài)進行識別,利用支持向量機(svm)分類器延伸至解決多分類問題,利用主成分分析方法(pca)對特征參數(shù)進行加權降維處理縮短svm模型訓練時間,利用遺傳算法(ga)理論使參數(shù)最優(yōu)化提高svm分類精度;實現(xiàn)對交通狀態(tài)分類性能的改善,幫助健全高速公路監(jiān)控和管理系統(tǒng)、準確的把握和控制交通運行狀態(tài)和提高高速公路運營效率,對避免環(huán)境污染以及能源浪費等交通與社會問題具有重要意義。
以上所述實施例僅是為充分說明本發(fā)明而所舉的較佳的實施例,本發(fā)明的保護范圍不限于此。本技術領域的技術人員在本發(fā)明基礎上所作的等同替代或變換,均在本發(fā)明的保護范圍之內(nèi)。本發(fā)明的保護范圍以權利要求書為準。