本發(fā)明涉及隧道工程和智能控制領域,特別涉及一種基于強化學習的隧道伺服支撐體系與自適應控制方法。
背景技術:
1、隨著當今地下道路多點進分合流段暗挖建造及既有復雜結構運營維保需求的增大,在異形和漸變斷面形式的地下道路分流段無工作井暗挖建造設計的開擴挖工程,及既有隧道聯絡通道和超限服役隧道工程中,將出現大量復雜工況的結構異常受力模式,需要增設隧道支撐結構進行主動控制,避免產生重大事故。傳統(tǒng)的隧道支撐體系設計和施工通?;诮涷灪鸵?guī)則,結合地質勘探數據和工程經驗來確定支撐結構的類型和參數。近年來在軟土基坑等領域采用了伺服支撐體系,但其控制方法是基于傳統(tǒng)力學計算和經驗方法。
2、隨著智能化技術的不斷進步,在控制技術領域,強化學習算法作為一種新興的智能控制方法,正在得到越來越廣泛的應用。強化學習算法可通過與環(huán)境交互學習,實現復雜系統(tǒng)的自適應控制,取得了在多個領域的成功應用。
3、如上所述,對于復雜結構及受力狀態(tài)條件下的隧道結構進行主動支撐加固和自適應控制,存在的主要問題在于:
4、傳統(tǒng)的支撐體系設計和施工方法往往無法充分考慮隧道環(huán)境的動態(tài)變化和不確定性,隨著周邊地質條件的變化、開挖及周邊巖土作用荷載的動態(tài)變化,支撐體系無法進行智能調控,影響其穩(wěn)定性和安全性,甚至導致重大事故。
5、傳統(tǒng)鋼支撐軸力損失難以根據外部環(huán)境及受力變化,實現變形和伺服力的同步動態(tài)精準化控制。因此,需要一種能夠實現對支撐體系自適應控制的新方法來應對這些挑戰(zhàn)。
6、這是本技術需要著重改善的地方。
技術實現思路
1、本發(fā)明所要解決的技術問題是要提供一種基于強化學習的隧道伺服支撐體系與自適應控制方法,提高支撐體系的安全性和穩(wěn)定性。
2、為了解決以上的技術問題,本發(fā)明提供了一種基于強化學習的隧道伺服支撐體系與自適應控制方法,融合裝配式桁架結構與伺服支撐體系,采用強化學習方法,通過將支撐體系變形計受力狀態(tài)數據實時反饋給強化學習網絡模型,學習出最優(yōu)的控制策略,實現對支撐體系的智能化控制,包括如下的步驟:
3、步驟s1:確定隧道伺服支撐結構體系;
4、采用桁架結構建立支撐結構體系,并設置伺服控制系統(tǒng),實現內部支撐體系與隧道、環(huán)境的受力和變形協(xié)同;其中,桁架結構體系根據現場實際施工過程進行調整優(yōu)化,伺服控制系統(tǒng)包括底座和千斤頂,安裝位置位于桁架結構與隧道結構的結合部,或替換既有桁架結構中的桿件;
5、步驟s2:創(chuàng)建支撐體系的仿真環(huán)境或物理模型;
6、利用參數化建模,建立支撐體系的數值或物理模型,描述支撐結構體系的特征和動作,并進行強化學習預訓練;
7、步驟s3:實時監(jiān)測支撐體系狀態(tài);
8、在伺服系統(tǒng)及布控位置處布設變形及受力傳感器,實時監(jiān)測支撐及伺服控制系統(tǒng)的變形和受力變化,并將監(jiān)測結果反饋給強化學習網絡模型;
9、步驟s4:伺服參數強化學習模型;
10、利用監(jiān)測數據,采用步驟s2中預訓練網絡模型,訓練獲得強化學習策略網絡和價值網絡模型,獲得變形和伺服力雙控的強化學習模型;
11、步驟s5:調節(jié)支撐體系伺服控制;
12、隨著變形的變化,通過步驟s4強化學習模型,智能生成最優(yōu)化支撐體系伺服控制力,并通過plc控制器對千斤頂伺服頭進行調節(jié)實現位移和軸力的雙控的自適應協(xié)同控制,實現變形和受力的最優(yōu)化控制。
13、所述步驟s1包括如下具體步驟:
14、步驟s11:選擇支撐桁架結構形式,根據斷面和受力狀況,確定支撐桁架結構的梁柱節(jié)點連接方式和材料選取,并對桁架結構進行拓撲優(yōu)化,避免與施工工序形成空間沖突;
15、步驟s12:確定伺服頭布設位置,對于標準隧道的斷面,在隧道的頂部、拱部和拱部支撐體系和隧道壁之間設置伺服頭;對于異形漸變斷面或復雜工況條件下,伺服頭除布設于隧道的頂部、拱部、拱部的支撐體系與隧道結構接合部外,還在桁架結構中的桿件處設置伺服系統(tǒng);
16、步驟s13:利用結構分析軟件對支撐桁架結構進行受力分析,評估桁架結構在不同工況下的受力情況,確定伺服頭的規(guī)格、數量和布控位置;
17、步驟s14:根據最終優(yōu)化后的支撐結構體系,確定桁架結構隨機荷載的受力位置和位移約束條件,為后續(xù)強化學習的伺服支撐動態(tài)模型提供參數;
18、步驟s15:支撐桁架結構根據實際施工過程的受力情況進行調整優(yōu)化。
19、所述步驟s2包括如下具體步驟:
20、步驟s21:基于支撐結構體系與隧道環(huán)境的位移和連接約束關系,根據隧道支撐體系的結構參數、地質條件、周圍環(huán)境信息,基于參數化建模建立隧道伺服支撐數值或物理模型,包括支撐結構的幾何形狀、材料特性、受力情況、變形情況方面的描述;
21、步驟s22:利用支撐桁架結構施加的隨機荷載模擬強化學習模型的環(huán)境;
22、步驟s23:利用支撐桁架結構伺服頭布設位置施加的主動伺服荷載模擬強化學習的動作。
23、所述步驟s3包括如下具體步驟:
24、步驟s31:安裝受力及位移傳感器;
25、在支撐體系的伺服頭布設位置安裝位移傳感器和軸力傳感器,使傳感器獲取支撐體系的狀態(tài)參數:應變、位移、軸力;
26、步驟s32:采集變形及受力感知數據;
27、傳感器實時監(jiān)測支撐體系的受力和變形參數,并將數據傳輸到數據采集系統(tǒng)中進行記錄和處理,將數據導入強化學習模型作為狀態(tài)環(huán)境的觀測輸入;
28、步驟s33:反饋實時數據;
29、將實時監(jiān)測得到的支撐體系狀態(tài)參數作為觀測輸入反饋給強化學習模型,強化學習模型根據當前的狀態(tài)參數做出相應的決策和當前動作評價,得到強化學習最終得到的伺服參數,后續(xù)導入plc控制器。
30、所述步驟s4包括如下具體步驟:
31、步驟s41:根據步驟s2創(chuàng)建的伺服支撐結構模型提取特征,采集所述支撐體系桁架結構施加伺服荷載的位置和模擬隧道環(huán)境的隨機荷載,得到強化學習評價網絡和策略網絡模型的環(huán)境狀態(tài)觀測輸入;
32、步驟s42:基于觀測輸入和預設策略梯度,重復訓練并更新評價網絡和策略網絡模型,直至模型滿足預設的訓練條件,包括支撐體系的位移和約束條件;
33、步驟s43:通過不斷的接受環(huán)境反饋的獎懲值進行更新,不斷地優(yōu)化策略網絡的參數,直至達到終點,并且獎勵值達到預期或收斂,輸出最終策略網絡生成的伺服參數;
34、具體而言,采用ppo算法訓練和更新策略,通過優(yōu)勢函數評估策略,如果優(yōu)勢函數為正值,則智能體采取的動作優(yōu)于使用舊策略生成的動作;優(yōu)勢函數為負值表示動作不當;
35、優(yōu)勢函數如下所示:
36、??????????????????????(1);
37、式中:表示策略參數,表示新的策略函數,表示在狀態(tài)采取動作的概率,表示舊的策略函數;
38、目標函數的形式如下所示:
39、???????(2);
40、式中:表示優(yōu)勢函數的估計,表示在狀態(tài)采取動作的概率比例,表示一個較小的正實數,表示截斷策略比例;
41、使用梯度上升方法更新策略參數:
42、???????????????????????????(3);
43、式中:表示學習率,表示策略概率的對數梯度。
44、所述伺服參數的強化學習模型包括強化學習策略網絡、伺服支撐動態(tài)模型、伺服支撐評價網絡、強化學習價值網絡。所述強化學習策略網絡根據當前環(huán)境狀態(tài)的輸入,策略網絡輸出一個動作作為伺服參數,這個動作被應用到伺服支撐動態(tài)模型中。所述伺服支撐動態(tài)模型是模擬伺服支撐體系的動態(tài)特性,預測在不同動作下的狀態(tài)轉移情況,根據當前的伺服參數更新位移狀態(tài)。所述伺服支撐評價網絡是評估當前狀態(tài)下伺服支撐體系的表現,輸出作為獎勵信號,用來指導價值網絡的學習過程。所述強化學習價值網絡是評估在當前狀態(tài)下選擇某個動作的長期回報,輸出幫助策略網絡更好地選擇動作,長期獲得更高的獎勵。
45、所述步驟s5包括如下具體步驟:
46、步驟s51:利用傳感器反饋的支撐體系位移和壓力監(jiān)測值的狀態(tài)參數作為輸入,強化學習模型根據當前狀態(tài)參數進行策略的梯度和參數的更新優(yōu)化,輸出最終的伺服參數;
47、步驟s52:根據最終的伺服參數,通過基于plc控制器的伺服自適應控制裝置,利用千斤頂對伺服頭進行力和位移的控制,實現對支撐體系狀態(tài)的實時監(jiān)測和調控,達到當前變形監(jiān)測下隧道支撐結構的最優(yōu)化伺服自適應控制。
48、本發(fā)明的優(yōu)越功效在于:
49、1)提高支撐體系的安全性和穩(wěn)定性,適應隧道環(huán)境的動態(tài)變化,具有極大的應用潛力;
50、2)利用強化學習算法,通過對隧道結構和環(huán)境進行實時感知和學習,實現對隧道伺服系統(tǒng)的自適應控制,提高穩(wěn)定性和控制精度,確保在復雜環(huán)境工況下的穩(wěn)定性和安全性。