本發(fā)明屬于工業(yè)大數(shù)據(jù)
技術(shù)領(lǐng)域:
,尤其涉及地鐵盾構(gòu)施工領(lǐng)域的地面沉降預(yù)測,具體是一種基于支持向量機的地面沉降預(yù)測系統(tǒng)和方法,可用于對盾構(gòu)施工過程中地面沉降量的預(yù)測。
背景技術(shù):
:城市化建設(shè)是我國基礎(chǔ)建設(shè)重要組成部分。近年來,隨著經(jīng)濟的發(fā)展,我國城市化建設(shè)進程不斷加快,城市地下空間開發(fā)和利用發(fā)展迅速,隧道工程項目大批量產(chǎn)生,以盾構(gòu)施工工法為代表的地下工程已成為城市地下建設(shè)的主要方式。所謂的地面沉降預(yù)測是指,對以盾構(gòu)法施工的地下空間工程為背景的施工過程中因地層移動而導(dǎo)致地面隆起或沉降程度的預(yù)測,施工過程中的地面沉降量是施工質(zhì)量監(jiān)測的重要指標(biāo)。但是受施工環(huán)境和水文條件的限制,以及盾構(gòu)機自身機構(gòu)的復(fù)雜性,及時對盾構(gòu)施工過程中的沉降量進行準(zhǔn)確、智能的預(yù)測是目前亟需解決的難點。地下工程施工過程必然會造成地層的初始應(yīng)力狀態(tài)、巖土體的物理力學(xué)性能的改變,進而影響周圍的環(huán)境。當(dāng)?shù)貙右莆缓妥冃纬^一定的限度時,就會危機周圍鄰近建筑物及其基礎(chǔ)和地下管線的安全,引起一系列的巖土環(huán)境工程問題,如塌陷、涌水、涌砂現(xiàn)象,可能造成地表建筑物損壞,地面管線斷裂等。由于盾構(gòu)法施工主要針對地鐵工程建設(shè),工程穿過的地區(qū)多是城市繁華地段,對環(huán)境影響的要求較高,最大限度降低施工對周圍土體的影響,減小施工對鄰近建筑物及管線的影響,合理控制施工引起的地表沉降,及時準(zhǔn)確、智能的預(yù)測地面沉降量具有重大的工程意義。現(xiàn)有的地面沉降預(yù)測都是在單機下用r或matlab等進行建模分析,數(shù)據(jù)分析效率慢,遇到數(shù)據(jù)量增大時時常會宕機,導(dǎo)致系統(tǒng)無法運行,從而影響工程質(zhì)量和施工進度。在地鐵施工過程中,需要利用機器運行數(shù)據(jù)、施工地質(zhì)數(shù)據(jù)和施工環(huán)境數(shù)據(jù)對施工線路的地面沉降量做出預(yù)測,用于判斷當(dāng)前施工操作的合理性。傳統(tǒng)地面沉降分析方式都是在單機、串行模式下訓(xùn)練模型,當(dāng)面對海量數(shù)據(jù)時暴露出的速度慢、效率低以及容錯性差等問題,直接影響地面沉降量的預(yù)測,并帶來施工風(fēng)險。技術(shù)實現(xiàn)要素:針對
背景技術(shù):
所闡述的問題和現(xiàn)有技術(shù)的不足,本發(fā)明提出一種具有海量數(shù)據(jù)存儲、冗余能力和實時、高效的基于支持向量機的地面沉降預(yù)測系統(tǒng)和方法。本發(fā)明是一種基于支持向量機的地面沉降預(yù)測系統(tǒng),其特征在于,包括hadoop大數(shù)據(jù)分析平臺、數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊、沉降預(yù)測模塊,數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊、沉降預(yù)測模塊均是基于hadoop大數(shù)據(jù)分析平臺進行運行,所述hadoop大數(shù)據(jù)分析平臺主要包括有hdfs分布式文件系統(tǒng)子模塊,mapreduce計算框架子模塊;數(shù)據(jù)存儲模塊是將采集的原數(shù)據(jù)分別存儲到hdfs分布式文件系統(tǒng)子模塊中;數(shù)據(jù)預(yù)處理模塊和模型構(gòu)建模塊是依據(jù)mapreduce計算框架子模塊的分析模式進行數(shù)據(jù)預(yù)處理和模型構(gòu)建;沉降預(yù)測模塊是將構(gòu)建的預(yù)測模型進行與hadoop平臺兼容的接口封裝,接口以api的形式提供應(yīng)用鏈接,將預(yù)測結(jié)果輸出。本發(fā)明還是一種基于支持向量機的地面沉降預(yù)測方法,在權(quán)利要求1-5所述的基于支持向量機的地面沉降預(yù)測系統(tǒng)上運行,其特征在于,實現(xiàn)地面沉降預(yù)測過程包括有如下步驟:(1)搭建hadoop大數(shù)據(jù)平臺:根據(jù)盾構(gòu)施工分析業(yè)務(wù)需求確定hadoop大數(shù)據(jù)平臺規(guī)模,包括節(jié)點數(shù)目和節(jié)點間的拓?fù)浣Y(jié)構(gòu),然后在各節(jié)點安裝配套工作環(huán)境,包括linux系統(tǒng)安裝、節(jié)點網(wǎng)絡(luò)配置、ssh無密碼驗證配置、java環(huán)境安裝、hadoop集群安裝;安裝完成后,通過主節(jié)點控制其他從節(jié)點的啟動、運行和管理,主節(jié)點實現(xiàn)任務(wù)的提交和分發(fā),從節(jié)點具體運行實施;(2)收集構(gòu)建模型所需的數(shù)據(jù):數(shù)據(jù)主要分為三類,盾構(gòu)機的運行數(shù)據(jù)由部署在機器上的傳感器獲取,依次傳入下位機,上位機,以及本地存儲中心,最后存儲到hdfs分布式文件系統(tǒng)子模塊中,地質(zhì)數(shù)據(jù)通過地質(zhì)勘探報告獲取,施工環(huán)境數(shù)據(jù)由現(xiàn)場施工人員采集獲得;(3)對數(shù)據(jù)進行預(yù)處理:對模型的輸入數(shù)據(jù)進行清洗處理、去噪處理、歸一化處理和降維處理,填充數(shù)據(jù)中的缺失值,剔除異常記錄,消除量綱差異,降低數(shù)據(jù)維度;(4)構(gòu)建地面沉降預(yù)測模型:在hadoop大數(shù)據(jù)分析平臺的mapreduce計算框架下,利用支持向量機算法,以特征向量矩陣作為輸入,沉降量作為輸出訓(xùn)練地面沉降預(yù)測模型,訓(xùn)練完成,地面沉降預(yù)測模型構(gòu)建完畢;(5)封裝沉降模型接口:將訓(xùn)練好的地面沉降預(yù)測模型保存到hdfs分布式文件系統(tǒng),并以api的形式提供地面沉降預(yù)測模型調(diào)用的接口。從以前的數(shù)據(jù)枯竭到現(xiàn)在的海量數(shù)據(jù),傳統(tǒng)的分析手段已經(jīng)無法滿足盾構(gòu)施工的實際分析需求,客觀上需要對各種機器學(xué)習(xí)或數(shù)據(jù)挖掘算法進行并行化設(shè)計和開發(fā),本發(fā)明在大數(shù)據(jù)分析平臺處理施工過程中產(chǎn)生的海量數(shù)據(jù),挖掘隱含的信息,從而產(chǎn)生更加實用的工程價值。本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:(1)目前盾構(gòu)施工越來越廣泛,施工過程中產(chǎn)生的數(shù)據(jù)呈指數(shù)級增長,單機以及配套的處理系統(tǒng)難以勝任日益增長的盾構(gòu)施工分析需求。本發(fā)明采用主節(jié)點和多從節(jié)點結(jié)構(gòu)的hadoop大數(shù)據(jù)平臺作為海量盾構(gòu)施工數(shù)據(jù)存儲和計算的基礎(chǔ),解決了單機情況下“高維海量數(shù)據(jù)”難以處理的問題。主節(jié)點負(fù)責(zé)分析任務(wù)的分發(fā)和協(xié)調(diào),從節(jié)點負(fù)責(zé)具體任務(wù)的執(zhí)行。hadoop大數(shù)據(jù)平臺的數(shù)據(jù)存儲不但提高了存儲能力,而且具有對海量數(shù)據(jù)的冗余能力,確保數(shù)據(jù)安全性。hadoop大數(shù)據(jù)平臺的mapreduce計算框架為構(gòu)建快速、高效和實時的預(yù)測模型提供了基礎(chǔ),提高預(yù)測效率,避免單機情況下分析海量數(shù)據(jù)出現(xiàn)運行異常,如宕機等。同時,海量盾構(gòu)施工數(shù)據(jù)為預(yù)測模型的準(zhǔn)確性提供了基礎(chǔ),提高了預(yù)測的準(zhǔn)確性,保障了施工順利、安全進行。(2)數(shù)據(jù)預(yù)處理是數(shù)據(jù)建模分析的必要過程,但目前對盾構(gòu)施工數(shù)據(jù)分析的預(yù)測方式不盡相同,本發(fā)明根據(jù)盾構(gòu)施工的特點,提出了完整的針對海量盾構(gòu)施工數(shù)據(jù)進行預(yù)處理的機制,通過清洗處理、去噪處理、歸一化處理和降維處理,完成對盾構(gòu)施工數(shù)據(jù)的預(yù)處理。其中去噪處理是對數(shù)據(jù)中的異常值進行剔除,而在機器學(xué)習(xí)或數(shù)據(jù)挖掘領(lǐng)域?qū)Ξ惓|c的評判并沒有標(biāo)準(zhǔn)。本發(fā)明提出的基于置信度區(qū)間估計和依達拉準(zhǔn)則的聚類算法進行異常點檢測。利用聚類算法的無監(jiān)督學(xué)習(xí)特點,用置信度區(qū)間估計和依拉達準(zhǔn)則求出不同的數(shù)據(jù)區(qū)間進行對比,選擇相對合適的評判區(qū)間對數(shù)據(jù)進行異常點剔除,完善目前異常點檢測時人為自定義異常檢測區(qū)間的檢測方式,并且使用自學(xué)習(xí)的方式得到不同異常檢測區(qū)間,具有自學(xué)習(xí)對比的優(yōu)勢,降低人為主觀因素對剔除“噪聲”數(shù)據(jù)的干擾。(3)本發(fā)明構(gòu)建預(yù)測模型時,在常規(guī)并行化策略的基礎(chǔ)上為進一步提升訓(xùn)練速度,提出了并行化局部優(yōu)化的迭代計算模式,迭代過程中的權(quán)重向量是用n個分區(qū)的平均值進行更新,此策略和隨機梯度下降相結(jié)合,避免權(quán)值向量陷入局部最優(yōu),也避免了一次性計算全部數(shù)據(jù)集而帶來的較高的計算復(fù)雜度。(4)本發(fā)明在沉降預(yù)測模塊中設(shè)計了封裝函數(shù)接口,提高了技術(shù)的重用性和可移植性,可跨平臺使用。附圖說明圖1是本發(fā)明的系統(tǒng)架構(gòu)示意圖;圖2是本發(fā)明中盾構(gòu)施工地面沉降預(yù)測技術(shù)方案圖圖3是本發(fā)明數(shù)據(jù)去噪處理流程圖;圖4是本發(fā)明中基于支持向量機構(gòu)建預(yù)測模型的流程圖;圖5是本發(fā)明模型構(gòu)建時權(quán)重向量并行化迭代的計算流程圖;圖6是本發(fā)明中預(yù)測模型驗證時真實值與預(yù)測值的對比圖;圖7是本發(fā)明中預(yù)測模型驗證時的誤差變化圖。具體實施方式下面結(jié)合附圖對本發(fā)明進行詳細(xì)說明,實施例1盾構(gòu)施工需要利用機器運行數(shù)據(jù)、施工地質(zhì)數(shù)據(jù)和施工環(huán)境數(shù)據(jù)對施工線路的地面沉降量做出預(yù)測,傳統(tǒng)地面沉降分析方式都是在單機、串行模式下訓(xùn)練模型,當(dāng)面對海量數(shù)據(jù)時暴露出的速度慢、效率低以及容錯性差等問題,直接影響地面沉降量的預(yù)測精度,進而帶來施工風(fēng)險。針對此現(xiàn)狀和問題,本發(fā)明展開了研究,提出了一種基于支持向量機的地面沉降預(yù)測系統(tǒng),參見圖1,在本發(fā)明的基于支持向量機的地面沉降預(yù)測系統(tǒng)中包括hadoop大數(shù)據(jù)分析平臺、數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊、沉降預(yù)測模塊,數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊、沉降預(yù)測模塊均是基于hadoop大數(shù)據(jù)分析平臺進行運行。本發(fā)明的hadoop大數(shù)據(jù)分析平臺主要包括有hdfs分布式文件系統(tǒng)子模塊、mapreduce計算框架子模塊。本發(fā)明中數(shù)據(jù)存儲模塊是將采集的原數(shù)據(jù)存儲到hdfs分布式文件系統(tǒng)子模塊中,數(shù)據(jù)文件格式可以是csv或txt等,數(shù)據(jù)預(yù)處理模塊可以從中讀取數(shù)據(jù),數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊和沉降預(yù)測模塊計算的中間結(jié)果也是在hdfs分布式文件系統(tǒng)子模塊中緩存、歸約,最終的預(yù)測模型和沉降量預(yù)測值同樣保存在hdfs分布式文件系統(tǒng)子模塊中。數(shù)據(jù)預(yù)處理模塊和模型構(gòu)建模塊是依據(jù)mapreduce計算框架子模塊的分析模式進行數(shù)據(jù)預(yù)處理和模型構(gòu)建,mapreduce計算框架是依附主、從節(jié)點進行map/reduce計算。沉降預(yù)測模塊是將構(gòu)建的預(yù)測模型進行與hadoop平臺兼容的接口封裝,接口以api的形式提供應(yīng)用鏈接,將地面沉降預(yù)測結(jié)果輸出。由于盾構(gòu)施工過程中產(chǎn)生的數(shù)據(jù)呈指數(shù)級增長,單機以及配套的處理系統(tǒng)難以勝任日益增長的盾構(gòu)施工分析需求。本發(fā)明采用主節(jié)點和多從節(jié)點結(jié)構(gòu)的hadoop大數(shù)據(jù)平臺作為海量盾構(gòu)施工數(shù)據(jù)存儲和計算的基礎(chǔ),解決了單機情況下“高維海量數(shù)據(jù)”難以處理的問題。主節(jié)點負(fù)責(zé)分析任務(wù)的分發(fā)和協(xié)調(diào),從節(jié)點負(fù)責(zé)具體任務(wù)的執(zhí)行。hadoop大數(shù)據(jù)平臺的數(shù)據(jù)存儲不但提高了存儲能力,而且具有對海量數(shù)據(jù)的冗余能力,確保數(shù)據(jù)安全性。hadoop大數(shù)據(jù)平臺的mapreduce計算框架為構(gòu)建快速、高效和實時的預(yù)測模型提供了基礎(chǔ),提高預(yù)測效率,避免單機情況下分析海量數(shù)據(jù)出現(xiàn)運行異常,如宕機等。同時,海量盾構(gòu)施工數(shù)據(jù)為預(yù)測模型的準(zhǔn)確性提供了基礎(chǔ),提高了預(yù)測的準(zhǔn)確性,保障了施工順利、安全進行。實施例2基于支持向量機的地面沉降預(yù)測系統(tǒng)的總體構(gòu)成同實施例1,參見圖1,本發(fā)明的數(shù)據(jù)收集模塊包括數(shù)據(jù)收集范圍確定子模塊和數(shù)據(jù)存儲子模塊,數(shù)據(jù)收集范圍確定子模塊是通過對盾構(gòu)施工過程中的機理分析,確定特征變量,采集相應(yīng)的機器運行數(shù)據(jù)、施工地質(zhì)數(shù)據(jù)和施工環(huán)境數(shù)據(jù),并確定與沉降量有關(guān)的特征數(shù)據(jù);數(shù)據(jù)收集模塊的數(shù)據(jù)存儲子模塊是將已經(jīng)采集的地面沉降數(shù)據(jù),即特征數(shù)據(jù)存儲到hadoop大數(shù)據(jù)分析平臺的分布式文件系統(tǒng)上。實施例3基于支持向量機的地面沉降預(yù)測系統(tǒng)的總體構(gòu)成同實施例1-2,參見圖1,本發(fā)明的數(shù)據(jù)預(yù)處理模塊包括清洗處理子模塊、去噪處理子模塊、歸一化處理子模塊和降維處理子模塊。清洗處理子模塊是檢測并填充原數(shù)據(jù)中的空值,避免構(gòu)建模型時因數(shù)據(jù)缺失引起異常。去噪處理子模塊是對清洗處理子模塊處理后的數(shù)據(jù)中的異常點進行剔除,減少“噪聲”數(shù)據(jù)對模型精度的影響。歸一化處理子模塊是將清洗處理子模塊、去噪處理子模塊處理后的數(shù)據(jù)映射到[0,1]區(qū)間內(nèi),消除不同特征之間數(shù)據(jù)單位不一致帶來的量綱影響,使得所有數(shù)據(jù)在同一參考系下。降維處理子模塊是將清洗處理子模塊、去噪處理子模塊、歸一化處理子模塊處理后的高維特征映射成低維特征,降低模型復(fù)雜度。數(shù)據(jù)預(yù)處理是數(shù)據(jù)建模分析的必要過程,但目前對盾構(gòu)施工數(shù)據(jù)分析的預(yù)測方式不盡相同,本發(fā)明根據(jù)盾構(gòu)施工的特點,提出了完整的針對海量盾構(gòu)施工數(shù)據(jù)進行預(yù)處理的機制,通過清洗處理、去噪處理、歸一化處理和降維處理,完成對盾構(gòu)施工數(shù)據(jù)的預(yù)處理。其中去噪處理是對數(shù)據(jù)中的異常值進行剔除,而機器學(xué)習(xí)或數(shù)據(jù)挖掘領(lǐng)域?qū)Ξ惓|c的評判并沒有標(biāo)準(zhǔn)。本發(fā)明提出基于置信度區(qū)間估計和依達拉準(zhǔn)則的聚類算法進行異常點檢測。利用聚類算法的無監(jiān)督學(xué)習(xí)特點,用置信度區(qū)間估計和依拉達準(zhǔn)則求出不同的數(shù)據(jù)區(qū)間進行對比,選擇相對合適的評判區(qū)間對數(shù)據(jù)進行異常點剔除,完善目前異常點檢測時人為自定義異常檢測區(qū)間的檢測方式,并且使用自學(xué)習(xí)的方式得到不同異常檢測區(qū)間,具有自學(xué)習(xí)對比的優(yōu)勢,降低人為主觀因素對剔除“噪聲”數(shù)據(jù)的干擾。實施例4基于支持向量機的地面沉降預(yù)測系統(tǒng)的總體構(gòu)成同實施例1-3,參見圖1,本發(fā)明的模型構(gòu)建模塊是基于數(shù)據(jù)收集模塊的海量數(shù)據(jù)和hadoop平臺計算框架,利用批量并行化梯度下降算法對支持向量機的權(quán)值向量進行迭代求解,構(gòu)建出地面沉降預(yù)測模型。本發(fā)明構(gòu)建預(yù)測模型時,在常規(guī)并行化策略的基礎(chǔ)上為進一步提升訓(xùn)練速度,提出了并行化局部優(yōu)化的迭代計算模式,迭代過程中的權(quán)重向量是用n個分區(qū)的平均值進行更新,此策略和隨機梯度下降相結(jié)合,避免權(quán)值向量陷入局部最優(yōu),也避免了一次性計算全部數(shù)據(jù)集而帶來的較高的計算復(fù)雜度。實施例5基于支持向量機的地面沉降預(yù)測系統(tǒng)的總體構(gòu)成同實施例1-4,本發(fā)明的地面沉降預(yù)測模型是,其中x是輸入變量,ω是權(quán)值向量,m是特征變量的個數(shù),是截距值,權(quán)值向量ω是在支持向量機算法中用批量并行化梯度下降策略迭代計算獲得。實施例6本發(fā)明還是一種基于支持向量機的地面沉降預(yù)測方法,在上述的基于支持向量機的地面沉降預(yù)測系統(tǒng)上運行,參見圖2,實現(xiàn)地面沉降預(yù)測過程包括有如下步驟:(1)搭建hadoop大數(shù)據(jù)平臺:根據(jù)盾構(gòu)施工分析業(yè)務(wù)需求確定hadoop大數(shù)據(jù)平臺規(guī)模,包括確定初始節(jié)點數(shù)目和節(jié)點間的拓?fù)浣Y(jié)構(gòu),然后在各節(jié)點安裝配套工作環(huán)境,包括linux系統(tǒng)安裝、節(jié)點網(wǎng)絡(luò)配置、ssh無密碼驗證配置、java環(huán)境安裝、hadoop集群安裝,確定主節(jié)點與從節(jié)點,主節(jié)點只有一個,從節(jié)點可以彈性擴展和縮減;安裝完成后,通過主節(jié)點控制其他從節(jié)點的啟動、運行和管理,主節(jié)點實現(xiàn)任務(wù)的提交和分發(fā),從節(jié)點具體運行實施。(2)收集構(gòu)建模型所需的數(shù)據(jù),數(shù)據(jù)主要分為三類,參見表4,盾構(gòu)機的機器運行數(shù)據(jù)由部署在機器上的傳感器獲取,依次傳入下位機,上位機,以及本地存儲中心,最后到達遠(yuǎn)程計算中心,存儲到hdfs分布式文件系統(tǒng)子模塊中,地質(zhì)數(shù)據(jù)通過地質(zhì)勘探報告獲取,施工環(huán)境數(shù)據(jù)由現(xiàn)場施工人員采集獲得。(3)對數(shù)據(jù)進行預(yù)處理:對模型的輸入數(shù)據(jù)進行清洗處理、去噪處理、歸一化處理和降維處理,參見圖1和圖2,填充數(shù)據(jù)中的缺失值,剔除異常記錄,消除量綱差異,降低數(shù)據(jù)維度。模型預(yù)測精度的高低除了與模型所采用的算法有關(guān)外,更重要的是與數(shù)據(jù)質(zhì)量有關(guān),包括數(shù)據(jù)中的缺失值、異常值、量綱差異和高維性等。(4)構(gòu)建地面沉降預(yù)測模型:參見圖4,在hadoop大數(shù)據(jù)分析平臺的mapreduce計算框架下,利用支持向量機算法,以特征向量矩陣作為輸入,沉降量作為輸出,訓(xùn)練地面沉降預(yù)測模型,訓(xùn)練完成,地面沉降預(yù)測模型構(gòu)建完畢。(5)封裝沉降模型接口:將訓(xùn)練好的地面沉降預(yù)測模型保存到hdfs分布式文件系統(tǒng),并以api的形式提供地面沉降預(yù)測模型調(diào)用的接口。盾構(gòu)施工數(shù)據(jù)通過光纖實時傳輸,依次經(jīng)過下位機、上位機、以及本地存儲中心,最后到達遠(yuǎn)程計算中心,存儲到hdfs分布式文件系統(tǒng)子模塊中。本發(fā)明的地面沉降預(yù)測模塊執(zhí)行是在遠(yuǎn)程計算中心的集群上進行計算運行,地面沉降預(yù)測結(jié)果通過網(wǎng)絡(luò)傳輸,將結(jié)果及時返回到盾構(gòu)機控制室或操作工人的配套移動客戶端,為盾構(gòu)施工過程提供參考和調(diào)整依據(jù)便于工程管理人員和施工人員做出合理決策。本發(fā)明通過結(jié)合hadoop大數(shù)據(jù)分析平臺提供盾構(gòu)施工地面沉降量的遠(yuǎn)程、實時預(yù)測,改變單機情況下離線處理模式,大幅提高盾構(gòu)數(shù)據(jù)的利用價值。實施例7基于支持向量機的地面沉降預(yù)測系統(tǒng)和預(yù)測方法同實施例1-6,步驟(3)的數(shù)據(jù)預(yù)處理包括如下步驟:(3a)數(shù)據(jù)清洗是利用平均值方法進行缺失值處理,計算各個特征的平均值,對特征中的空值用平均值進行填充。(3b)對數(shù)據(jù)進行去噪處理,參見圖3:3b1利用聚類算法迭代計算樣本數(shù)據(jù)的中心點;3b2計算每條樣本數(shù)據(jù)與樣本中心點之間的距離集d;3b3計算距離集d的樣本均值和樣本方差;3b4根據(jù)概率學(xué)的置信度區(qū)間估計和依拉達準(zhǔn)則分別求解區(qū)間c1和c2,具體是根據(jù)概率學(xué)的置信度區(qū)間估計求得區(qū)間c1,根據(jù)依拉達準(zhǔn)則求得區(qū)間c2;3b5比較區(qū)間c1和c2,選取其中較大區(qū)間為異常點評判準(zhǔn)則,剔除超出區(qū)間的異常記錄,得到去噪后的數(shù)據(jù)。(3c)數(shù)據(jù)歸一化是利用離差標(biāo)準(zhǔn)化對去噪后的數(shù)據(jù)進行線性變換,將特征值歸一化映射到[0,1]區(qū)間,消除特征間的量綱差異,得到歸一化數(shù)據(jù)。(3d)數(shù)據(jù)降維是利用主成分算法對歸一化數(shù)據(jù)進行降維處理,將原高維特征變量映射成低維特征變量,以主成分的累計貢獻率達到85%選取低維特征變量的個數(shù),得到構(gòu)建模型的最終輸入數(shù)據(jù)。本發(fā)明數(shù)據(jù)預(yù)處理中的去噪處理提出了基于置信度區(qū)間估計和依達拉準(zhǔn)則的聚類算法進行異常點檢測。利用聚類算法的無監(jiān)督學(xué)習(xí)特點,用置信度區(qū)間估計和依拉達準(zhǔn)則求出不同的數(shù)據(jù)區(qū)間進行對比,從而選擇了相對合適的評判區(qū)間對數(shù)據(jù)進行異常點剔除,完善目前異常點檢測時人為自定義異常檢測區(qū)間的檢測方式,并且使用自學(xué)習(xí)的方式得到不同異常檢測區(qū)間,具有自學(xué)習(xí)對比的優(yōu)勢,降低人為主觀因素的對剔除“噪聲”數(shù)據(jù)的干擾。實施例8基于支持向量機的地面沉降預(yù)測系統(tǒng)和預(yù)測方法同實施例1-6,步驟(5)的數(shù)據(jù)預(yù)處理包括如下步驟:(4a)定義數(shù)據(jù)映射函數(shù)parseline,依托inputformat類實現(xiàn);定義損失函數(shù)和正則化函數(shù)。(4b)設(shè)置master節(jié)點——初始化hadoop環(huán)境,讀取數(shù)據(jù)文本文件,設(shè)置迭代次數(shù)numiter,步長stepsize和優(yōu)化參數(shù)reggaram。(4c)對數(shù)據(jù)進行map操作,通過parseline函數(shù)指定數(shù)據(jù)文件的輸入位置以及以何種方式將數(shù)據(jù)樣本轉(zhuǎn)換為key/value對的形式。(4d)對支持向量回歸機的求解轉(zhuǎn)變?yōu)橐粋€凸優(yōu)化問題,即找到凸函數(shù)的最小值,凸函數(shù)是依賴于向量變量的函數(shù),使用隨機梯度下降函數(shù)對優(yōu)化函數(shù)進行迭代計算,求解權(quán)值向量。(4e)在權(quán)值向量迭代過程中,每次迭代都需要執(zhí)行一次map/reduce操作,而reduce操作比較耗時,為進一步降低訓(xùn)練耗時,讓分區(qū)數(shù)據(jù)先迭代一定次數(shù)后更新本分區(qū)權(quán)重向量ωi,然后對n個分區(qū)的權(quán)重求均值得出權(quán)重向量ω,用新計算的權(quán)重向量更新每個分區(qū)的權(quán)重向量,重復(fù)此過程直到滿足迭代次數(shù)。(4f)根據(jù)迭代計算出的權(quán)重向量構(gòu)造決策函數(shù)f(x),得到預(yù)測模型其中x是輸入變量,ω是權(quán)重向量,m是特征變量的個數(shù),是截距值,權(quán)重向量ω在支持向量機算法中用批量并行化梯度下降策略迭代計算獲得。本發(fā)明中提出了并行化局部優(yōu)化的迭代計算模式求解權(quán)值向量ω,迭代過程中的權(quán)重向量是用n個分區(qū)的平均值進行更新,此策略和隨機梯度下降相結(jié)合,避免權(quán)值向量陷入局部最優(yōu),也避免了一次性計算全部數(shù)據(jù)集而帶來的較高的計算復(fù)雜度。下面給出結(jié)合具體的分析計算的更詳盡的例子,對本發(fā)明進一步說明。實施例9基于支持向量機的地面沉降預(yù)測系統(tǒng)和預(yù)測方法同實施例1-8,盾構(gòu)施工地面沉降預(yù)測的基本流程如圖2所示:首先搭建基于hadoop計算框架的大數(shù)據(jù)分析平臺,然后對盾構(gòu)施工過程中地面沉降進行機理分析,確定對應(yīng)的特征變量,采集相應(yīng)的機器運行數(shù)據(jù)、施工地質(zhì)數(shù)據(jù)和施工環(huán)境數(shù)據(jù),其次對數(shù)據(jù)進行預(yù)處理,包括清洗處理、去噪處理、歸一化處理和降維處理,再構(gòu)建基于支持向量機算法的預(yù)測模型對沉降量進行預(yù)測,將預(yù)測結(jié)果及時反饋給工程管理人員和施工人員做出合理決策,如果沉降量異常,則根據(jù)沉降量異常程度采取相應(yīng)的應(yīng)對措施。step1:構(gòu)建hadoop大數(shù)據(jù)分析平臺根據(jù)盾構(gòu)施工分析業(yè)務(wù)需求確定hadoop大數(shù)據(jù)平臺規(guī)模,包括確定節(jié)點數(shù)目和節(jié)點間的拓?fù)浣Y(jié)構(gòu),然后在各節(jié)點安裝配套工作環(huán)境,包括linux系統(tǒng)安裝、節(jié)點網(wǎng)絡(luò)配置、ssh無密碼驗證配置、java環(huán)境安裝、hadoop集群安裝,確定主節(jié)點與從節(jié)點,主節(jié)點只有一個,從節(jié)點個數(shù)可以彈性擴展和縮減;安裝完成后,通過主節(jié)點控制其他從節(jié)點的啟動、運行和管理,主節(jié)點實現(xiàn)任務(wù)的提交和分發(fā),從節(jié)點具體運行實施。本例中設(shè)計的hadoop大數(shù)據(jù)平臺規(guī)模及硬件配置參見表1。表1hadoop大數(shù)據(jù)平臺規(guī)模及硬件配置項目配置信息cpu4coreintel2.2ghz內(nèi)存1g硬盤20g系統(tǒng)版本centos-linux-6.3-x86_64jvm版本java1.8.0hadoop版本hadoop2.6.0hadoop大數(shù)據(jù)平臺的節(jié)點信息參見表2,master節(jié)點是主節(jié)點,其他節(jié)點是從節(jié)點。表2hadoop大數(shù)據(jù)平臺的節(jié)點信息節(jié)點ip屬性備注master192.168.72.20namenodesecondarynamenodeslaver1192.168.72.21datanodeslaver2192.168.72.22datanodeslaver3192.168.72.23datanode本例中的hadoop大數(shù)據(jù)分析平臺包括如下子項目參見表3:表3hadoop大數(shù)據(jù)平臺的子項目●core:分布式文件系統(tǒng)和通用i/o組件和接口;●avro:提供高效、跨語言rpc的數(shù)據(jù)序列系統(tǒng),持久化數(shù)據(jù)存儲;●hdfs:分布式文件系統(tǒng),用于實現(xiàn)大規(guī)模數(shù)據(jù)的分塊存儲;●mapreduce:分布式數(shù)據(jù)處理框架和執(zhí)行環(huán)境;●zookeeper:高可用性的分布式協(xié)調(diào)服務(wù);●pig:數(shù)據(jù)流語言和運行環(huán)境,用以檢索大規(guī)模數(shù)據(jù)集;●chukwa:運行hdfs中存儲數(shù)據(jù)的收集器,使用mapreduce生成分析報告;●mahout:機器學(xué)習(xí)算法庫;●flume:日志收集系統(tǒng);●sqoop:數(shù)據(jù)同步工具,用于傳統(tǒng)數(shù)據(jù)和hadoop之間傳輸數(shù)據(jù)。分布式并行化計算框架mapreduce中map對數(shù)據(jù)集上的獨立元素進行指定的操作,生成鍵-值對形式中間結(jié)果。reduce則對中間結(jié)果中相同“鍵”的所有“值”進行規(guī)約,以得到最終結(jié)果。step2:分析地面沉降的機理盾構(gòu)開挖引起的地表沉降主要分為五個歷程:初期沉降、開挖面前沉降、盾構(gòu)通過沉降、盾尾脫空沉降以及蠕變、次固結(jié)等后續(xù)沉降。施工過程中對土體的擾動是地面沉降發(fā)生的直接原因,盾構(gòu)法施工中包括如下行為:施工對土體的直接破壞、施工荷載的施加與消除、孔隙水壓力的升降及其所引起的巖土體性質(zhì)變化,進而導(dǎo)致地表的隆起與沉降。地面沉降的主要誘因集中在兩點:1)地層損失,主要指盾構(gòu)掘進所引起的巖土損失;2)擾動后土體的再固結(jié)及其蠕變性。step3:確定特征變量本發(fā)明的特征數(shù)據(jù)主要包括機器運行數(shù)據(jù)、施工地質(zhì)數(shù)據(jù)和施工環(huán)境數(shù)據(jù)參見表4:表4盾構(gòu)施工地面沉降預(yù)測數(shù)據(jù)特征表中,盾構(gòu)機的機器運行數(shù)據(jù)由部署在機器上的傳感器獲取,施工地質(zhì)數(shù)據(jù)通過地質(zhì)勘探報告獲取,施工環(huán)境數(shù)據(jù)由現(xiàn)場施工人員采集獲得。step4:數(shù)據(jù)預(yù)處理step4.1:對原數(shù)據(jù)中各個特征的數(shù)據(jù)進行清洗處理,對記錄中的缺失值進行填充,采取的填充策略是用各個特征的樣本均值進行填充。step4.2:參見圖3,對清洗后數(shù)據(jù)進行去噪處理,首先利用聚類算法迭代計算清洗后樣本數(shù)據(jù)的中心點,其次計算每條樣本數(shù)據(jù)與樣本中心點之間的距離集d,然后計算距離集的樣本均值和樣本方差,其次根據(jù)概率學(xué)的置信度區(qū)間估計和依拉達準(zhǔn)則分別求解得到區(qū)間c1和c2,置信度區(qū)間估計的計算公式如下:其中是數(shù)據(jù)的樣本均值,s是數(shù)據(jù)的樣本方差,n是樣本數(shù)據(jù)的個數(shù),α是置信度水平,t是分布類型。最后比較區(qū)間c1和c2,選取其中較大區(qū)間為異常點評判準(zhǔn)則,剔除超出區(qū)間的異常記錄。step4.3:對去噪后的數(shù)據(jù)進行歸一化處理,消除不同特征之間數(shù)據(jù)單位不一致帶來的量綱影響,使得所有的數(shù)據(jù)在同一參考系下。本發(fā)明采用min-max標(biāo)準(zhǔn)化,也稱為離差標(biāo)準(zhǔn)化,對原數(shù)據(jù)進行線性變化,使結(jié)果映射到[0-1]之間,計算公式如下:x*=(x-xmin)/(xmax-xmin)(2)step4.4:然后使用主成分分析算法將歸一化后的高維特征變量{x1,x2,…,xn}映射成低維特征變量,取主成分累計貢獻率ψm達到85%以上低維特征變量{x'1,x'2,…,x'm}(m≤n)。其中是主成分{x'1,x'2,…,x'm}的總方差tr'(∑)分解成m個相互獨立的變量的方差之和,是原始變量{x1,x2,…,xn}的總方差tr(∑)分解成n個相互獨立的變量的方差之和。step5:參見圖4,建立支持向量機地面沉降預(yù)測模型step5.1:定義數(shù)據(jù)映射函數(shù)parseline,依托inputformat類實現(xiàn)。step5.2:設(shè)置master節(jié)點——初始化hadoop環(huán)境,讀取數(shù)據(jù)文本文件,設(shè)置優(yōu)化reggaram,迭代次數(shù)numiter,步長stepsize。step5.3:對數(shù)據(jù)進行map操作,通過parseline函數(shù)將指定數(shù)據(jù)文件的輸入位置以及以何種方式將數(shù)據(jù)樣本轉(zhuǎn)換為key/value對的形式。step5.4:定義所求解的目標(biāo)函數(shù)支持向量機預(yù)測地面沉降是回歸問題,對非線性的回歸問題求解采用基于間隔最大原則構(gòu)建的ε-支持向量回歸機構(gòu)建目標(biāo)函數(shù)其中為c懲罰因子,lε是不敏感函數(shù)引入松弛變量ξi和代入公式(4)得到下式:s.t.f(xi)-yi≤ε+ξi根據(jù)公式(5)所示的目標(biāo)函數(shù)是一個凸優(yōu)化問題,通過引入拉格朗日乘子并對其中的ω,b,求偏導(dǎo)數(shù)得最終的優(yōu)化目標(biāo)函數(shù)為公式(6)其中為k(xi,xj)核函數(shù),選擇核函數(shù)k(xi,xj)=tanh(b(xi·xj)+c),b和c是常數(shù)。對支持向量回歸機的求解轉(zhuǎn)變?yōu)橐粋€凸優(yōu)化問題,即找到凸函數(shù)的最小值,目標(biāo)是依賴于向量變量α的函數(shù),使用隨機梯度下降函數(shù)對優(yōu)化函數(shù)進行迭代計算,求解權(quán)值向量α。在訓(xùn)練迭代時,首先選取數(shù)據(jù)集數(shù)據(jù)形成一個子集s,對公式(6)計算每個數(shù)據(jù)點的子梯度,求出均值偏導(dǎo)然后帶入公式(7)求出新的α,繼續(xù)迭代計算。αt+1=αt-γf'0(α,i)=αt-γ(l'α,i+cαt)(7)其中,γ:步長。拉格朗日乘子α并行化迭代計算具體執(zhí)行1)迭代計算代碼:2)迭代計算流程:權(quán)重迭代計算優(yōu)化過程中采取局部迭代優(yōu)化的過程,參見圖5,避免了每次迭代都執(zhí)行map/reduce操作,降低訓(xùn)練中reduce操作的耗時。訓(xùn)練數(shù)據(jù)集在分區(qū)之后,在各個分區(qū)根據(jù)初始權(quán)重α0分別計算本地權(quán)重αpi,經(jīng)過一定的本地訓(xùn)練輪數(shù)后更新本地權(quán)重為α'pi,系統(tǒng)再對n個分區(qū)的權(quán)重求均值得出α1,并將α1作為新的初始權(quán)重作為輸入,繼續(xù)迭代優(yōu)化,直至滿足迭代次數(shù)。然后根據(jù)迭代計算出的權(quán)重α構(gòu)造決策函數(shù)f(x),得到地面沉降預(yù)測模型其中step5.5:讀取預(yù)測數(shù)據(jù)文本文件,并對數(shù)據(jù)進行預(yù)處理。step5.6:調(diào)用地面沉降預(yù)測模型接口,對預(yù)處理后的數(shù)據(jù)進行map操作,將數(shù)據(jù)文本轉(zhuǎn)化為key/value對的形式。step5.7:對轉(zhuǎn)換后的數(shù)據(jù)進行沉降量預(yù)測,并將預(yù)測結(jié)果進行saveastextfile操作,保存到labelfile文件中。將預(yù)測結(jié)果及時反饋給管理人員和施工人員。根據(jù)預(yù)測結(jié)果和現(xiàn)場情況,結(jié)合人工經(jīng)驗,對施工參數(shù)及時做出調(diào)整,做出合理決策。如果異常工況發(fā)生,提前針對不同的異常工況采取對應(yīng)得措施,如:加入添加劑或調(diào)整添加劑數(shù)量改良土體流動性;調(diào)整機器操作參數(shù)等。下面通過實驗及其數(shù)據(jù)對本發(fā)明的技術(shù)效果再作說明實施例10基于支持向量機的地面沉降預(yù)測系統(tǒng)和預(yù)測方法同實施例1-9,通過實際施工樣本數(shù)據(jù)進行本發(fā)明的技術(shù)效果說明及驗證。實例驗證下面利用從施工現(xiàn)場采集的數(shù)據(jù)證明本發(fā)明的可行性和準(zhǔn)確性。該數(shù)據(jù)來自上海地鐵9號線三期(東延伸)工程1標(biāo)段,金橋站~申江路站sck52+150.200~sck53+662.560,數(shù)據(jù)共有65條,樣本數(shù)據(jù)劃分,表5給出了地面沉降預(yù)測訓(xùn)練數(shù)據(jù)集,表6給出了地面沉降預(yù)測測試數(shù)據(jù)集,表5中共有45條訓(xùn)練數(shù)據(jù),表6中共有20條測試數(shù)據(jù),訓(xùn)練集數(shù)據(jù)量和測試集數(shù)據(jù)量的比值為7:3。表5地面沉降預(yù)測訓(xùn)練數(shù)據(jù)集注:p:土倉平均壓力;f:千斤頂平均推力;n:刀盤轉(zhuǎn)速;t:刀盤扭矩;v:掘進速度;p':平均注漿壓力;h:盾構(gòu)機埋深;ρ:土的比重;e:孔隙比;e:壓縮模量;c:粘聚力;內(nèi)摩擦角;s:沉降量。表6地面沉降預(yù)測測試數(shù)據(jù)集注:表中參數(shù)意義見表5注釋。表7真實值與預(yù)測值對比分析表總結(jié):在建立地面沉降預(yù)測模型時,對地面沉降預(yù)測訓(xùn)練數(shù)據(jù)總共迭代了200次,地面沉降預(yù)測測試集相對誤差的具體值參見表7,平均誤差是0.0193。通過測試集真實值和預(yù)測值對比圖,參見圖6可見通過本發(fā)明獲得的預(yù)測值和真實值在各個樣本點上相差無幾,許多點幾乎重合。再參見圖7,圖7是圖6的相對誤差曲線圖,由圖7可見預(yù)測模型的效果良好,正負(fù)相對誤差在5%以內(nèi),并且樣本區(qū)間內(nèi)的整個相對誤差值穩(wěn)定,微小的誤差也在合理接受范圍之內(nèi)。簡而言之,本發(fā)明公開的一種基于支持向量機的地面沉降預(yù)測系統(tǒng)和方法,主要用于解決目前單機及配套系統(tǒng)無法應(yīng)對盾構(gòu)施工過程中對海量數(shù)據(jù)的分析需求?;谥С窒蛄繖C的地面沉降預(yù)測系統(tǒng)包括hadoop大數(shù)據(jù)分析平臺、數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊、沉降預(yù)測模塊,基于支持向量機的地面沉降預(yù)測方法中,在數(shù)據(jù)預(yù)處理的去噪處理中提出了基于置信度區(qū)間估計和依達拉準(zhǔn)則的聚類算法進行異常點檢測。利用聚類算法的無監(jiān)督學(xué)習(xí)特點,用置信度區(qū)間估計和依拉達準(zhǔn)則求出不同的數(shù)據(jù)區(qū)間進行對比,選擇相對合適的評判區(qū)間對數(shù)據(jù)進行異常點剔除,完善目前異常點檢測時人為自定義異常檢測區(qū)間的檢測方式,并且使用自學(xué)習(xí)的方式得到不同異常檢測區(qū)間,具有自學(xué)習(xí)對比的優(yōu)勢,降低人為主觀因素對剔除“噪聲”數(shù)據(jù)的干擾。同時在構(gòu)建預(yù)測模型時,在常規(guī)并行化策略的基礎(chǔ)上為進一步提升訓(xùn)練速度,提出了并行化局部優(yōu)化的迭代計算模式,迭代過程中的權(quán)重向量是用n個分區(qū)的平均值進行更新,此策略和隨機梯度下降相結(jié)合,避免權(quán)值向量陷入局部最優(yōu),也避免了一次性計算全部數(shù)據(jù)集而帶來的較高的計算復(fù)雜度。本發(fā)明具備海量數(shù)據(jù)的存儲和分析能力以及高性能的冗余能力,數(shù)據(jù)分析具有實時性和高效性,用于盾構(gòu)施工過程的地面沉降量預(yù)測,為工程管理人員和施工操作人員提供參考和調(diào)整依據(jù)。當(dāng)前第1頁12