本公開涉及空調(diào)控制,尤其涉及一種空調(diào)控制方法、裝置、介質(zhì)及設(shè)備。
背景技術(shù):
1、相關(guān)技術(shù)中,空調(diào)對溫度調(diào)節(jié)的舒適性和節(jié)能性是目前評價空調(diào)性能優(yōu)劣的兩個重要指標(biāo)。
技術(shù)實現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問題,本公開提供一種空調(diào)控制方法、裝置、介質(zhì)及設(shè)備。
2、根據(jù)本公開實施例的第一方面,提供一種空調(diào)控制方法,包括:
3、將目標(biāo)空調(diào)的運行狀態(tài)輸入至控制模型,得到目標(biāo)動作序列;
4、根據(jù)所述目標(biāo)動作序列,控制所述目標(biāo)空調(diào);
5、其中,所述控制模型的訓(xùn)練包括:
6、將樣本運行狀態(tài)輸入至所述控制模型,得到?jīng)Q策動作;
7、將所述樣本運行狀態(tài)和所述決策動作輸入預(yù)設(shè)的狀態(tài)預(yù)測網(wǎng)絡(luò),得到預(yù)測運行狀態(tài);
8、將所述預(yù)測運行狀態(tài)作為新的樣本運行狀態(tài)輸入至所述控制模型中,對所述控制模型進行訓(xùn)練。
9、可選地,所述控制模型的訓(xùn)練還包括:
10、根據(jù)所述預(yù)測運行狀態(tài),確定針對所述決策動作的目標(biāo)獎勵值;
11、多次更新所述控制模型的網(wǎng)絡(luò)參數(shù),并執(zhí)行所述將樣本運行狀態(tài)輸入至所述控制模型,得到?jīng)Q策動作的步驟,得到每次更新后的控制模型輸出的決策動作,并確定每一所述決策動作對應(yīng)的目標(biāo)獎勵值;
12、根據(jù)多個所述目標(biāo)獎勵值,得到所述控制模型。
13、可選地,根據(jù)所述預(yù)測運行狀態(tài),確定針對所述決策動作的目標(biāo)獎勵值,包括:
14、將所述預(yù)測運行狀態(tài)輸入至預(yù)設(shè)的空調(diào)能耗模型和預(yù)設(shè)的舒適度模型中,得到所述預(yù)測運行狀態(tài)對應(yīng)的空調(diào)能耗指標(biāo)和舒適度指標(biāo);
15、根據(jù)所述空調(diào)能耗指標(biāo)和所述舒適度指標(biāo),確定針對所述決策動作的目標(biāo)獎勵值。
16、可選地,所述預(yù)測運行狀態(tài)至少包括壓縮機運行頻率、風(fēng)機轉(zhuǎn)速和空間內(nèi)溫度;
17、將所述預(yù)測運行狀態(tài)輸入至預(yù)設(shè)的空調(diào)能耗模型和預(yù)設(shè)的舒適度模型中,得到所述預(yù)測運行狀態(tài)對應(yīng)的空調(diào)能耗指標(biāo)和舒適度指標(biāo),包括:
18、至少將所述壓縮機運行頻率和所述風(fēng)機轉(zhuǎn)速輸入至預(yù)設(shè)的空調(diào)能耗模型中,得到所述空調(diào)能耗指標(biāo);
19、至少將所述空間內(nèi)溫度輸入至預(yù)設(shè)的舒適度模型中,得到所述舒適度指標(biāo)。
20、可選地,所述決策動作為連續(xù)的多個決策動作,相應(yīng)的,所述預(yù)測運行狀態(tài)為多個,且一決策動作對應(yīng)一預(yù)測運行狀態(tài);
21、根據(jù)所述預(yù)測運行狀態(tài),確定針對所述決策動作的目標(biāo)獎勵值,包括:
22、根據(jù)所述多個預(yù)測運行狀態(tài),確定針對所述多個決策動作的獎勵值;
23、根據(jù)多個所述獎勵值的累計和,確定所述目標(biāo)獎勵值。
24、可選地,所述控制模型包括決策網(wǎng)絡(luò)和評價網(wǎng)絡(luò),所述決策網(wǎng)絡(luò)用于根據(jù)所述樣本運行狀態(tài)輸出所述決策動作,所述評價網(wǎng)絡(luò)用于根據(jù)所述預(yù)測運行狀態(tài),確定針對所述決策動作的獎勵值;迭代更新所述控制模型的網(wǎng)絡(luò)參數(shù),包括:
25、利用不同的參數(shù)更新方法分別更新所述決策網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和所述評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。
26、可選地,所述狀態(tài)預(yù)測網(wǎng)絡(luò)采用長短期記憶網(wǎng)絡(luò)lstm。
27、根據(jù)本公開實施例的第二方面,提供一種空調(diào)控制裝置,包括:
28、獲得模塊,被配置為將目標(biāo)空調(diào)的運行狀態(tài)輸入至控制模型,得到目標(biāo)動作序列;
29、控制模塊,被配置為根據(jù)所述目標(biāo)動作序列,控制所述目標(biāo)空調(diào);
30、其中,所述控制模型的訓(xùn)練包括:
31、將樣本運行狀態(tài)輸入至所述控制模型,得到?jīng)Q策動作;
32、將所述樣本運行狀態(tài)和所述決策動作輸入預(yù)設(shè)的狀態(tài)預(yù)測網(wǎng)絡(luò),得到預(yù)測運行狀態(tài);
33、將所述預(yù)測運行狀態(tài)作為新的樣本運行狀態(tài)輸入至所述控制模型中,對所述控制模型進行訓(xùn)練。
34、根據(jù)本公開實施例的第三方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,該程序指令被處理器執(zhí)行時實現(xiàn)本公開第一方面提供的空調(diào)控制方法。
35、根據(jù)本公開實施例的第四方面,提供一種設(shè)備,包括:
36、存儲裝置,用于存儲計算機程序;
37、執(zhí)行裝置,用于執(zhí)行所述計算機程序,以實現(xiàn)本公開第一方面提供的空調(diào)控制方法。
38、本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
39、本公開通過預(yù)設(shè)的狀態(tài)預(yù)測網(wǎng)絡(luò)根據(jù)樣本運行狀態(tài)和控制模型輸出的決策動作,得到預(yù)測運行狀態(tài),預(yù)測運行狀態(tài)可以作為新的樣本運行狀態(tài),對控制模型進行訓(xùn)練。這樣,通過預(yù)設(shè)的狀態(tài)預(yù)測網(wǎng)絡(luò),能夠根據(jù)有限的樣本數(shù)據(jù)生成更多的樣本數(shù)據(jù),從而增加了可用于訓(xùn)練的樣本數(shù)據(jù)量,減輕因樣本數(shù)據(jù)不足而導(dǎo)致的過擬合問題。并且,將預(yù)測的運行狀態(tài)作為新的樣本輸入到控制模型中進行訓(xùn)練,可以幫助控制模型更好地捕捉空調(diào)的運行模式和規(guī)律,提高了控制模型的泛化能力,使得控制模型輸出的動作序列更符合空調(diào)的實際需求。
40、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種空調(diào)控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述控制模型的訓(xùn)練還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述預(yù)測運行狀態(tài),確定針對所述決策動作的目標(biāo)獎勵值,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)測運行狀態(tài)至少包括壓縮機運行頻率、風(fēng)機轉(zhuǎn)速和空間內(nèi)溫度;
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述決策動作為連續(xù)的多個決策動作,相應(yīng)的,所述預(yù)測運行狀態(tài)為多個,且一決策動作對應(yīng)一預(yù)測運行狀態(tài);
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述控制模型包括決策網(wǎng)絡(luò)和評價網(wǎng)絡(luò),所述決策網(wǎng)絡(luò)用于根據(jù)所述樣本運行狀態(tài)輸出所述決策動作,所述評價網(wǎng)絡(luò)用于根據(jù)所述預(yù)測運行狀態(tài),確定針對所述決策動作的獎勵值;迭代更新所述控制模型的網(wǎng)絡(luò)參數(shù),包括:
7.根據(jù)權(quán)利要求1-6任一所述的方法,其特征在于,所述狀態(tài)預(yù)測網(wǎng)絡(luò)采用長短期記憶網(wǎng)絡(luò)lstm。
8.一種空調(diào)控制裝置,其特征在于,包括:
9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,其特征在于,該程序指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-7中任一所述的空調(diào)控制方法。
10.一種設(shè)備,其特征在于,包括: