1.一種考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,步驟s1中,基于滾動時域框架建立馬爾可夫決策過程模型,具體為:
3.根據(jù)權(quán)利要求2所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,步驟s2中,設(shè)計臨時請求拒絕機(jī)制,具體為:
4.根據(jù)權(quán)利要求3所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,步驟s3中,確定靈活公交動態(tài)調(diào)度的成本,具體為:
5.根據(jù)權(quán)利要求4述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,建立馬爾科夫決策過程模型的目標(biāo)函數(shù),具體為:
6.根據(jù)權(quán)利要求5所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,設(shè)置馬爾科夫決策過程模型的約束條件,具體為:
7.根據(jù)權(quán)利要求6所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,步驟s4中,基于多智能體強(qiáng)化學(xué)習(xí)定義核心要素,具體為:
8.根據(jù)權(quán)利要求7所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,步驟s5中,設(shè)計新型多智能體強(qiáng)化學(xué)習(xí)框架,包括結(jié)合需求預(yù)測的滾動值分解網(wǎng)絡(luò)算法,增強(qiáng)每個周期規(guī)劃的前瞻性,具體為:
9.根據(jù)權(quán)利要求7所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,步驟s5中,設(shè)計新型多智能體強(qiáng)化學(xué)習(xí)框架,包括通過時間相關(guān)信息改進(jìn)∈-greedy動作選擇策略,提高強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的搜索效率,具體為:
10.根據(jù)權(quán)利要求7所述的考慮混合請求以及公平性的靈活公交動態(tài)調(diào)度方法,其特征在于,步驟s5中,設(shè)計新型多智能體強(qiáng)化學(xué)習(xí)框架,包括將多智能體強(qiáng)化學(xué)習(xí)與基于可變鄰域下降的局部搜索策略和模仿學(xué)習(xí)相結(jié)合,并設(shè)計損失函數(shù),具體為: