一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供了一種基于DEC?POMDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,屬于對地觀測衛(wèi)星地面運控技術(shù)領(lǐng)域。該方法包括:獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新;根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作,并獲得瞬時報酬值;根據(jù)所述瞬時報酬值計算期望折扣報酬值,并計算出使得所述期望折扣報酬值最大化的最優(yōu)策略,以及得到所述期望折扣報酬值的最大值;將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。本發(fā)明能夠?qū)崿F(xiàn)衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的分布式優(yōu)化決策。
【專利說明】
_種基于DEG-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及對地觀測衛(wèi)星地面運控技術(shù)領(lǐng)域,具體而言,涉及一種基于DEC-P0MDP 的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置。
【背景技術(shù)】
[0002] 部分可見馬爾可夫決策過程模型(P0MDP)是一種用于制定序列決策的經(jīng)典模型。 在P0MDP中,智能體做出動作所產(chǎn)生的效果是不確定的,對環(huán)境狀態(tài)信息的觀測也是不完整 的。因此,P0MDP對于表達智能體在非確定環(huán)境下的序列決策問題而言,是一種非常有效的 模型。
[0003] 借鑒P0MDP的思想,可以將單顆衛(wèi)星在時序有向無圈圖(DAG)中的任務(wù)搜索問題轉(zhuǎn) 化為決策問題。對于由執(zhí)行協(xié)同規(guī)劃任務(wù)的自治衛(wèi)星組成的復(fù)雜非集中式系統(tǒng) (Decentralized System),該非集中式系統(tǒng)中的每顆衛(wèi)星都是一個智能體,并且在非集中 式系統(tǒng)的動態(tài)特性上并沒有太多關(guān)聯(lián),只是通過共同受理的觀測任務(wù)發(fā)生作用,并且通過 衛(wèi)星之間的星際鏈路交換信息和進行協(xié)調(diào)。該非集中式系統(tǒng)是具有動態(tài)解耦特性的系統(tǒng)。 在該具有動態(tài)解耦特性的系統(tǒng)中,衛(wèi)星的規(guī)劃決策主要通過改變環(huán)境信息,并間接影響到 其它衛(wèi)星的任務(wù)規(guī)劃決策,由于衛(wèi)星觀測環(huán)境信息的不一致導(dǎo)致了多個衛(wèi)星協(xié)同決策的困 難增加。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供了一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,旨在針對 多個衛(wèi)星的協(xié)同環(huán)境觀測信息不一致性,有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進行分布式優(yōu) 化決策的高效性和準確性。
[0005] 第一方面,本發(fā)明實施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法, 應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系 統(tǒng)包括多個相互獨立的衛(wèi)星,所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括:
[0006] 獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分 狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行 更新,其中,所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動作集合、狀態(tài)轉(zhuǎn)移 函數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù);
[0007] 根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作,并根據(jù) 所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬值;
[0008] 根據(jù)所述瞬時報酬值計算期望折扣報酬值,并計算出使得所述期望折扣報酬值最 大化的最優(yōu)策略,以及得到所述期望折扣報酬值的最大值;
[0009] 進入下一規(guī)劃決策時刻,重復(fù)進行以上步驟直至整個規(guī)劃決策過程的結(jié)束,并得 到在各規(guī)劃決策時刻的折扣報酬期望值;
[0010] 將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并,得到所述衛(wèi)星協(xié)同任 務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0011] 優(yōu)選地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài) 信息進行更新的步驟包括:
[0012] 當信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所述動作集合中的動作寸,根據(jù) 所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布對衛(wèi)星自身的信念狀態(tài)信息進行更新,并根 據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布(Ka,",〇)。
[0013] 優(yōu)選地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài) 信息進行更新的步驟還包括:根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新;
[0014] 定義信念狀態(tài)更新函數(shù)<P:BX Q XA,
[0015] 其中,B表示信念狀態(tài)空間,Q表示有限觀測集合,A表示動作集合,則:
[0017]以及
[0018] Pf(o\h,a) =
[0019] 其中,Pr(o | b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測 概率〇。
[0020] 優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1 < iSNS,當?shù)趇顆 衛(wèi)星的策略方程為R時,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:
[0021] /r(/j) = [7Tl(/>l),.../Tv (/>,)]
[0022]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:
[0023] (p(K a, 〇) = (/>,, d)^"(pN^Ns:,
[0024]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:
[0026]其中,5:e Q Q A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息; ,: ,
[0027]在最優(yōu)策略#下,每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V%以遞歸 形式表示為:
[0028] KE (b) - max ["^ ^ b(s)R(s,a) + Pr(? ! bJt)V(b")
[0029] 其中,所述最優(yōu)策略#為動作系列:
[0030] ^ (/?) = argmax[^s sh(s)R{s..a) +y^- n Pr(0 | 0 0
[0031] 優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之 和,即表示為如下形式:
[0032] 叫))=1::,故')
[0033]第二方面,本發(fā)明實施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置, 應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系 統(tǒng)包括多個相互獨立的衛(wèi)星,其特征在于,所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括:
[0034]信念狀態(tài)信息更新模塊,用于獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同 規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對 衛(wèi)星自身的信念狀態(tài)信息進行更新,其中,所述部分可見馬爾可夫決策過程模型包括有限 狀態(tài)集合、動作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù);
[0035]優(yōu)化決策模塊,用于根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu) 的觀測動作,并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬 時報酬值;以及根據(jù)所述瞬時報酬值計算期望折扣報酬值,并計算出使得所述期望折扣報 酬值最大化的最優(yōu)策略,以及得到所述期望折扣報酬值的最大值;
[0036] 值函數(shù)計算模塊,用于將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合 并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0037] 優(yōu)選地,所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集 合,且執(zhí)行所述動作集合中的動作5的情況下,根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布 對衛(wèi)星自身的信念狀態(tài)信息進行更新,并根據(jù)所述觀察函數(shù)得到在所述有限觀測 集合中觀察的概率分布(Ka^7,〇)。
[0038] 優(yōu)選地,所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀 態(tài)信息進行更新;
[0039] 定義信念狀態(tài)更新函數(shù)9::BX Q XA,
[0040] 其中,B表示信念狀態(tài)空間,Q表示有限觀測集合,A表示動作集合,則:
[0042] 以及
[0043] Pr(〇 | /?,?) = X >= s T^s-- a-s,Ws)
[0044] 其中,Pr(o | b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測 概率0。
[0045] 優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1 < iSNS,當?shù)趇顆 衛(wèi)星的策略方程為R時,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:
[0046] 兀(/:>) = |>2丨(/:>丨),…/T、. (/,、、)]
[0047]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:
[0048]
[0049] 第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:
[0051]其中,rJeD,泣=珥兌表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息;
[0052]在最優(yōu)策略#下,每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸 形式表示為:
[0053] F' (/?) ^ max | V ^b(s)R(.s,a) + y^.. (i Pr(? | b,a)V(h,)
[0054]其中,所述最優(yōu)策略#為動作系列:
[0055] (6) - argmax fy; ^ vb(s)M(s,a}+ r'E^ I a)V(!A a^A L 」〇
[0056]優(yōu)選地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之 和,即表示為如下形式:
[0057]明= 哪,
[0058]本發(fā)明實施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息,為了適應(yīng)信念狀態(tài)信息的無后效性要 求,基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新,并 計算出最優(yōu)的觀測動作,以及獲得與所述觀測動作相對應(yīng)的瞬時報酬值和期望折扣報酬 值,從而計算出使得所述期望折扣報酬值最大化的最優(yōu)策略。如此,有效提高了衛(wèi)星協(xié)同任 務(wù)規(guī)劃系統(tǒng)進行分布式優(yōu)化決策的高效性和準確性。
【附圖說明】
[0059] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附 圖作簡單地介紹,應(yīng)當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)該看作是對 范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這 些附圖獲得其他相關(guān)的附圖。
[0060] 圖1是本發(fā)明實施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置的 功能模塊框圖。
[0061] 圖2是本發(fā)明實施方式提供的一種衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的組成框圖。
[0062]圖3是本發(fā)明實施方式提供的一種衛(wèi)星優(yōu)化決策系統(tǒng)的組成框圖。
[0063]圖4是本發(fā)明實施方式提供的一種衛(wèi)星進行優(yōu)化決策的過程示意圖。
[0064]圖5是本發(fā)明實施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的 流程圖。
[0065]圖中標記分別為:
【具體實施方式】
[0067]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0068] 應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一 個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。同時,在本發(fā)明的 描述中,術(shù)語"第一"、"第二"等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。
[0069] 如圖1所示,是本發(fā)明實施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝 置100的結(jié)構(gòu)框圖。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星??蛇x地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個衛(wèi)星,所述多 個衛(wèi)星可以相互獨立地執(zhí)行協(xié)同規(guī)劃任務(wù)。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以包括信 念狀態(tài)信息更新模塊101、優(yōu)化決策模塊102和值函數(shù)計算模塊103。
[0070] 其中,所述DEC是非集中式系統(tǒng)的英文簡稱,所述P0MDP是部分可見馬爾可夫決策 過程模型的英文簡稱。每個衛(wèi)星都是一個智能體,并且在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動 態(tài)特性上沒有過多的關(guān)聯(lián),只是在執(zhí)行共同受理的觀測任務(wù)時發(fā)生相互作用。所述多個衛(wèi) 星之間存在通信連接,所述多個衛(wèi)星之間可以相互交換信息和進行協(xié)調(diào)。因此所述衛(wèi)星協(xié) 同任務(wù)規(guī)劃系統(tǒng)具有動態(tài)解耦特性。在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)中,每個衛(wèi)星的規(guī)劃決 策通過改變環(huán)境信息間接影響到其它衛(wèi)星的任務(wù)規(guī)劃決策。針對具有動態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng),可以將整個系統(tǒng)劃分成多個有限相互獨立的衛(wèi)星優(yōu)化決策子系統(tǒng)。并 分別對每個衛(wèi)星優(yōu)化決策子系統(tǒng)進行優(yōu)化求解,進而建立多衛(wèi)星協(xié)同優(yōu)化決策裝置100。
[0071] 進一步地,如圖2所示,在多衛(wèi)星協(xié)同優(yōu)化決策裝置100的結(jié)構(gòu)下,衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)被劃分成多個相互獨立的決策子系統(tǒng)。所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動作由所有子 系統(tǒng)的動作所組成。每個衛(wèi)星包括一個本地P0MDP決策模塊,在衛(wèi)星之間可以通過延遲通信 網(wǎng)絡(luò)進行信息交換。所述信息可以包括各衛(wèi)星的部分狀態(tài)信息,所述部分狀態(tài)信息包括本 地優(yōu)化決策得到的階段性結(jié)果,進而可以實現(xiàn)多個衛(wèi)星之間的分布式協(xié)調(diào)。
[0072]請一并參閱圖3,所述信念狀態(tài)信息更新模塊101根據(jù)衛(wèi)星的本地觀測信息和與其 它各衛(wèi)星的交互信息更新信念狀態(tài)信息信念狀態(tài)信息#是衛(wèi)星狀態(tài)的概率分布。
[0073]所述優(yōu)化決策模塊102基于信念狀態(tài)信息#計算tk時刻最優(yōu)的觀測動作并得到 下一時刻sati的信念狀態(tài)信息由于延遲通信網(wǎng)絡(luò)的存在,在協(xié)同優(yōu)化決策過程中的信 息交互存在通信延遲,所述延遲通信網(wǎng)絡(luò)描述了各衛(wèi)星之間的信息交互能力,決定了優(yōu)化 決策過程中衛(wèi)星獲取信息的內(nèi)容與通信延遲的程度??蛇x地,所述優(yōu)化決策系統(tǒng)通過所述 延遲通信網(wǎng)絡(luò)在DAG(Directed Acyclic Graph,時序有向無圈圖)協(xié)同規(guī)劃環(huán)境中獲取信 息。
[0074]具體地,所述優(yōu)化決策的過程如圖4所示。假設(shè)在當前規(guī)劃時刻tk,衛(wèi)星sati根據(jù) tk-1時刻的決策結(jié)果選擇觀測節(jié)點vF,響應(yīng)的環(huán)境狀態(tài)信息更新為<,sati基于環(huán)境狀態(tài) 信息的觀測of更新信念狀態(tài)信息紀。之后,sati根據(jù)信念狀態(tài)信息并以tk時刻的瞬時 報酬值與tk之后折扣報酬期望值做出最優(yōu)的規(guī)劃決策得到環(huán)境狀態(tài)信息#+1,并計入下一個 規(guī)劃決策時刻tk+1,重復(fù)上述過程直至到達虛擬觀測節(jié)點vE的整個決策過程的結(jié)束。
[0075]進一步地,所述值函數(shù)計算模塊103將每個規(guī)劃決策時刻得到的折扣報酬期望值 進行疊加合并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0076] 可以理解的是,優(yōu)化決策是P0MDP的核心,環(huán)境信息無法全部獲取的背景下,通過 增加信念狀態(tài)估計,從而保持了馬爾可夫性,也即無后效性。這種無后效性表現(xiàn)在在規(guī)劃過 程中某階段的狀態(tài)一旦確定,則此后過程的演變不再受此前各狀態(tài)的影響。也就是說,"未 來與過去無關(guān)",當前的狀態(tài)是此前歷史的一個完整總結(jié),此前的歷史只能通過當前的狀態(tài) 去影響過程未來的演變,在每一時刻都只根據(jù)當前的狀態(tài)進行優(yōu)化決策。這種"未來與過去 無關(guān)"的決策策略與衛(wèi)星在時序有向無圈圖上的任務(wù)搜索過程十分吻合。衛(wèi)星在時序有向 無圈圖中每一個時刻的決策僅與當前時刻的狀態(tài)有關(guān)而與之前的狀態(tài)均無關(guān)。這樣可以忽 略歷史的影響,一切規(guī)劃都只要從當前狀態(tài)出發(fā)即可。它所蘊含的思想是將智能體有限的 規(guī)劃能力引導(dǎo)至更有價值的方向。因此,POMDP的優(yōu)化決策求解的基本思想可以為解決衛(wèi)星 協(xié)同規(guī)劃決策問題提供很好的借鑒。
[0077]下面結(jié)合圖5對上述各功能模塊進行詳細描述。如圖2所示,是本發(fā)明實施方式提 供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的流程圖。該方法包括以下步驟。
[0078] 步驟S101:獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各 衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀 態(tài)信息進行更新。本實施例中,關(guān)于所述信念狀態(tài)信息更新模塊101的描述具體可參照步驟 S101的描述。也即,該步驟S101可以由所述信念狀態(tài)信息更新模塊101執(zhí)行。
[0079] 其中,所述部分可見馬爾可夫決策過程模型可以定義為一個七元組<S,A,T,R,Q, 〇> A表示有限狀態(tài)集合,即決策問題中Agent所有可達的狀態(tài)集合。A表示Agent所有可能的 動作集合。T:SXA-n(S)是狀態(tài)轉(zhuǎn)移函數(shù),表示給定狀態(tài)和動作的前提下,到達下一個狀 態(tài)的概率分布,其中r(.s\5,/)表示處于狀態(tài)s,執(zhí)行聯(lián)合動作a轉(zhuǎn)移到狀態(tài)V的概率。 R:SXA4)1+為報酬函數(shù),表示在給定目前狀態(tài)和動作的情況下所獲得的瞬時報酬, /?(.、',刃表示在狀態(tài)s執(zhí)行動作a時所能得到的瞬時報酬值。Q為Agent的有限觀測集合。0:A X s-n ( Q )為觀察函數(shù),表示在動作3和結(jié)果狀態(tài)Y條件系統(tǒng)可能得到的聯(lián)合觀察3的概 率分布,0(a,s',〇)表示執(zhí)行動作a到達狀態(tài)s'時系統(tǒng)觀察到3的概率。
[0080] 進一步地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀 態(tài)信息進行更新的步驟包括:當信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所述動作集 合中的動作遷時,根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布H.V,心?')對衛(wèi)星自身的信念狀 態(tài)信息進行更新,并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布〇(a, s7 ,〇)〇
[0081] 可選地,所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài) 信息進行更新的步驟還包括:根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新;
[0082] 定義信念狀態(tài)更新函數(shù)9::BX Q XA,
[0083]其中,B表示信念狀態(tài)空間,Q表示有限觀測集合,A表示動作集合,則:
[0085] 以及
[0086] Pr(o | 5) = 方 0:(/具〇)r(s,a:,/)吵)
[0087] 其中,Pr(o|b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測 概率0。
[0088]步驟S102:根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動 作,并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬 值。
[0089] S103:步驟S103:根據(jù)所述瞬時報酬值計算期望折扣報酬值,并計算出使得所述期 望折扣報酬值最大化的最優(yōu)策略,以及得到所述期望折扣報酬值的最大值。
[0090] 本實施例中,關(guān)于所述優(yōu)化決策模塊102的描述具體可參照步驟S102和S103的描 述。也即,該步驟S102和步驟S103可以由所述優(yōu)化決策模塊102執(zhí)行。
[0091] 具體地,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1彡i彡NS,當?shù)趇顆 衛(wèi)星的策略方程為R時,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:
[0092] 兀(/)) = |>丨(/)丨)….冗.、(/,、.)]
[0093]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:
[0094] <p(b,S,〇) = [<!?,(7>,(pK (/). ,a. ,<?)]
[0095]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:
[0097]其中,rJeU,U = A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息;
[0098]在最優(yōu)策略#下,每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸 形式表示為:
[0099] V'{h) ~ max|~y]i sb(.s)R(s,d) + () Pr((7 | h,a)V(//)
[0100]其中,所述最優(yōu)策略#為動作系列:
[0101] ^ (/-1) = arg maxv vb{s)R(s\a) + Pr^(> I h'ci^V^ K 〇
[0102] S104:進入下一規(guī)劃決策時刻,重復(fù)進行步驟S101、S102和S103直至整個規(guī)劃決策 過程的結(jié)束,并得到在各規(guī)劃決策時刻的折扣報酬期望值。
[0103] 其中,每個衛(wèi)星循環(huán)執(zhí)行步驟S10US102和S103,并根據(jù)預(yù)設(shè)的部分可見馬爾可夫 決策過程模型對得到的信念狀態(tài)信息進行迭代,直至整個規(guī)劃決策過程的結(jié)束。
[0104] S105:將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并,得到所述衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0105] 其中,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和, 即表示為如下形式:
[0106] V(b)^^Vi(k)〇
[0107] 本實施例中,該步驟S105可以由所述值函數(shù)計算模塊103執(zhí)行。
[0108] 本發(fā)明實施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置,根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息,為了適應(yīng)信念狀態(tài)信息的無后效性要 求,基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新,并 計算出最優(yōu)的觀測動作,以及獲得與所述觀測動作相對應(yīng)的瞬時報酬值和期望折扣報酬 值,從而計算出使得所述期望折扣報酬值最大化的最優(yōu)策略。如此,有效提高了衛(wèi)星協(xié)同任 務(wù)規(guī)劃系統(tǒng)進行分布式優(yōu)化決策的高效性和準確性。
[0109]在本申請所提供的實施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的 方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了 根據(jù)本發(fā)明的多個實施例的裝置、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和 操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分, 所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指 令。也應(yīng)當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所 標注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相 反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以 及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的 系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
[0110]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個 網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目 的。
[0111] 另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以 是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
[0112] 以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準。
【主權(quán)項】
1. 一種基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個相互獨立的衛(wèi)星,其 特征在于,所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括: 獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài) 信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更 新,其中,所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動作集合、狀態(tài)轉(zhuǎn)移函 數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù); 根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作,并根據(jù)所述 部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬值; 根據(jù)所述瞬時報酬值計算期望折扣報酬值,并計算出使得所述期望折扣報酬值最大化 的最優(yōu)策略,以及得到所述期望折扣報酬值的最大值; 進入下一規(guī)劃決策時刻,重復(fù)進行以上步驟直至整個規(guī)劃決策過程的結(jié)束,并得到在 各規(guī)劃決策時刻的折扣報酬期望值; 將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并,得到所述衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)的整體值函數(shù)。2. 根據(jù)權(quán)利要求1所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于,所 述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新的步 驟包括: 當信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所述動作集合中的動作5時,根據(jù)所述 狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布ΠΧδ,/)對衛(wèi)星自身的信念狀態(tài)信息進行更新,并根據(jù)所 述觀察函數(shù)得到在所述有限觀測集合中觀察5的概率分布0(a,Y,〇)。3. 根據(jù)權(quán)利要求2所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于,所 述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新的步 驟還包括:根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新; 定義信念狀態(tài)更新函數(shù)tPsBX Ω XA, 其中,B表示信念狀態(tài)空間,Ω表示有限觀測集合,A表示動作集合,則:其中,PHo I b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測概率 Oo4. 根據(jù)權(quán)利要求3所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于, 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1彡i彡NS,當?shù)趇顆衛(wèi)星的策略 方程為町時,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式: ^t(Vj) = Oi (V)1),…;Tv (/'、)] 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:其中,? G Ω,β =? U ^表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息; 在最優(yōu)策略V下,每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式 表示為:其中,所述最優(yōu)策略#為動作系列:5. 根據(jù)權(quán)利要求4所述的基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法,其特征在于,所 述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和,即表示為如下形 式:6. -種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星 協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個相互獨立的衛(wèi)星,其 特征在于,所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括: 信念狀態(tài)信息更新模塊,用于獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃 環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息,并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星 自身的信念狀態(tài)信息進行更新,其中,所述部分可見馬爾可夫決策過程模型包括有限狀態(tài) 集合、動作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù); 優(yōu)化決策模塊,用于根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀 測動作,并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報 酬值;以及根據(jù)所述瞬時報酬值計算期望折扣報酬值,并計算出使得所述期望折扣報酬值 最大化的最優(yōu)策略,以及得到所述期望折扣報酬值的最大值; 值函數(shù)計算模塊,用于將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并,得 到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。7. 根據(jù)權(quán)利要求6所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于, 所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集合,且執(zhí)行所 述動作集合中的動作5的情況下,根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布:對衛(wèi) 星自身的信念狀態(tài)信息進行更新,并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察δ 的概率分布(Κει,γ,〇)。8. 根據(jù)權(quán)利要求7所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于, 所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行 更新; 定義信念狀態(tài)更新函數(shù)Φ:ΒΧ Ω ΧΑ, 其中,B表示信念狀態(tài)空間,Ω表示有限觀測集合,A表示動作集合,則:其中,Pr(〇 I b,a)為歸一化因子,表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測概率 Oo9. 根據(jù)權(quán)利要求8所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于, 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si},1彡i彡NS,當?shù)趇顆衛(wèi)星的策略 方程為町時,所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式:所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為:第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為:其中,rie Ω,U = AUiTii,?\表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息; 在最優(yōu)策略V下,每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式 表示為:其中,所述最優(yōu)策略#為動作系列:10. 根據(jù)權(quán)利要求9所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置,其特征在于,所 述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和,即表示為如下形 式:
【文檔編號】G06Q10/04GK105930944SQ201610546764
【公開日】2016年9月7日
【申請日】2016年7月12日
【發(fā)明人】王沖, 張海, 董志強, 劉銘, 董相均, 關(guān)禮安, 邵欣
【申請人】中國人民解放軍空軍裝備研究院雷達與電子對抗研究所