一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法

文檔序號：10570490閱讀：728來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供了一種基于DEC?POMDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，屬于對地觀測衛(wèi)星地面運控技術(shù)領(lǐng)域。該方法包括：獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新；根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作，并獲得瞬時報酬值；根據(jù)所述瞬時報酬值計算期望折扣報酬值，并計算出使得所述期望折扣報酬值最大化的最優(yōu)策略，以及得到所述期望折扣報酬值的最大值；將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。本發(fā)明能夠?qū)崿F(xiàn)衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的分布式優(yōu)化決策。
【專利說明】
_種基于DEG-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及對地觀測衛(wèi)星地面運控技術(shù)領(lǐng)域，具體而言，涉及一種基于DEC-P0MDP 的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置。
【背景技術(shù)】
[0002] 部分可見馬爾可夫決策過程模型(P0MDP)是一種用于制定序列決策的經(jīng)典模型。在P0MDP中，智能體做出動作所產(chǎn)生的效果是不確定的，對環(huán)境狀態(tài)信息的觀測也是不完整的。因此，P0MDP對于表達智能體在非確定環(huán)境下的序列決策問題而言，是一種非常有效的模型。
[0003] 借鑒P0MDP的思想，可以將單顆衛(wèi)星在時序有向無圈圖(DAG)中的任務(wù)搜索問題轉(zhuǎn) 化為決策問題。對于由執(zhí)行協(xié)同規(guī)劃任務(wù)的自治衛(wèi)星組成的復(fù)雜非集中式系統(tǒng) (Decentralized System)，該非集中式系統(tǒng)中的每顆衛(wèi)星都是一個智能體，并且在非集中式系統(tǒng)的動態(tài)特性上并沒有太多關(guān)聯(lián)，只是通過共同受理的觀測任務(wù)發(fā)生作用，并且通過衛(wèi)星之間的星際鏈路交換信息和進行協(xié)調(diào)。該非集中式系統(tǒng)是具有動態(tài)解耦特性的系統(tǒng)。在該具有動態(tài)解耦特性的系統(tǒng)中，衛(wèi)星的規(guī)劃決策主要通過改變環(huán)境信息，并間接影響到其它衛(wèi)星的任務(wù)規(guī)劃決策，由于衛(wèi)星觀測環(huán)境信息的不一致導(dǎo)致了多個衛(wèi)星協(xié)同決策的困難增加。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供了一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，旨在針對多個衛(wèi)星的協(xié)同環(huán)境觀測信息不一致性，有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進行分布式優(yōu) 化決策的高效性和準確性。
[0005] 第一方面，本發(fā)明實施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個相互獨立的衛(wèi)星，所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括：
[0006] 獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù)；
[0007] 根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作，并根據(jù) 所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬值；
[0008] 根據(jù)所述瞬時報酬值計算期望折扣報酬值，并計算出使得所述期望折扣報酬值最大化的最優(yōu)策略，以及得到所述期望折扣報酬值的最大值；
[0009] 進入下一規(guī)劃決策時刻，重復(fù)進行以上步驟直至整個規(guī)劃決策過程的結(jié)束，并得到在各規(guī)劃決策時刻的折扣報酬期望值；
[0010] 將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0011] 優(yōu)選地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài) 信息進行更新的步驟包括：
[0012] 當信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動作集合中的動作寸，根據(jù) 所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布對衛(wèi)星自身的信念狀態(tài)信息進行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布(Ka，"，〇)。
[0013] 優(yōu)選地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài) 信息進行更新的步驟還包括:根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新；
[0014] 定義信念狀態(tài)更新函數(shù)<P:BX Q XA，
[0015] 其中，B表示信念狀態(tài)空間，Q表示有限觀測集合，A表示動作集合，則：
[0017]以及
[0018] Pf(o\h,a) =
[0019] 其中，Pr(o | b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測概率〇。
[0020] 優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1 < iSNS，當?shù)趇顆衛(wèi)星的策略方程為R時，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：
[0021] /r(/j) = [7Tl(/>l),.../Tv (/>,)]
[0022]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：
[0023] (p(K a, 〇) = (/>,, d)^"(pN^Ns：,
[0024]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：
[0026]其中，5:e Q Q A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；，：，
[0027]在最優(yōu)策略#下，每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V%以遞歸形式表示為：
[0028] KE (b) - max ["^ ^ b(s)R(s,a) + Pr(? ! bJt)V(b")
[0029] 其中，所述最優(yōu)策略#為動作系列：
[0030] ^ (/?) = argmax[^s sh(s)R{s..a) +y^- n Pr(0 | 0 0
[0031] 優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
[0032] 叫))=1::，故')
[0033]第二方面，本發(fā)明實施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個相互獨立的衛(wèi)星，其特征在于，所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括：
[0034]信念狀態(tài)信息更新模塊，用于獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù)；
[0035]優(yōu)化決策模塊，用于根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu) 的觀測動作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬值；以及根據(jù)所述瞬時報酬值計算期望折扣報酬值，并計算出使得所述期望折扣報酬值最大化的最優(yōu)策略，以及得到所述期望折扣報酬值的最大值；
[0036] 值函數(shù)計算模塊，用于將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0037] 優(yōu)選地，所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動作集合中的動作5的情況下，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布對衛(wèi)星自身的信念狀態(tài)信息進行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察的概率分布(Ka^7，〇)。
[0038] 優(yōu)選地，所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新；
[0039] 定義信念狀態(tài)更新函數(shù)9::BX Q XA，
[0040] 其中，B表示信念狀態(tài)空間，Q表示有限觀測集合，A表示動作集合，則：
[0042] 以及
[0043] Pr(〇 | /?,?) = X >= s T^s-- a-s，Ws)
[0044] 其中，Pr(o | b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測概率0。
[0045] 優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1 < iSNS，當?shù)趇顆衛(wèi)星的策略方程為R時，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：
[0046] 兀(/:>) = |>2丨（/:>丨），…/T、. (/，、、）]
[0047]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：
[0048]
[0049] 第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：
[0051]其中，rJeD，泣=珥兌表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；
[0052]在最優(yōu)策略#下，每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：
[0053] F' (/?) ^ max | V ^b(s)R(.s,a) + y^.. (i Pr(? | b,a)V(h，)
[0054]其中，所述最優(yōu)策略#為動作系列：
[0055] (6) - argmax fy； ^ vb(s)M(s,a}+ r'E^ I a)V(!A a^A L 」〇
[0056]優(yōu)選地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
[0057]明= 哪，
[0058]本發(fā)明實施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息，為了適應(yīng)信念狀態(tài)信息的無后效性要求，基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新，并計算出最優(yōu)的觀測動作，以及獲得與所述觀測動作相對應(yīng)的瞬時報酬值和期望折扣報酬值，從而計算出使得所述期望折扣報酬值最大化的最優(yōu)策略。如此，有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進行分布式優(yōu)化決策的高效性和準確性。
【附圖說明】
[0059] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，應(yīng)當理解，以下附圖僅示出了本發(fā)明的某些實施例，因此不應(yīng)該看作是對范圍的限定，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
[0060] 圖1是本發(fā)明實施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置的功能模塊框圖。
[0061] 圖2是本發(fā)明實施方式提供的一種衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的組成框圖。
[0062]圖3是本發(fā)明實施方式提供的一種衛(wèi)星優(yōu)化決策系統(tǒng)的組成框圖。
[0063]圖4是本發(fā)明實施方式提供的一種衛(wèi)星進行優(yōu)化決策的過程示意圖。
[0064]圖5是本發(fā)明實施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的流程圖。
[0065]圖中標記分別為：

【具體實施方式】
[0067]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0068] 應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項，因此，一旦某一項在一個附圖中被定義，則在隨后的附圖中不需要對其進行進一步定義和解釋。同時，在本發(fā)明的描述中，術(shù)語"第一"、"第二"等僅用于區(qū)分描述，而不能理解為指示或暗示相對重要性。
[0069] 如圖1所示，是本發(fā)明實施例提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置100的結(jié)構(gòu)框圖。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星?？蛇x地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個衛(wèi)星，所述多個衛(wèi)星可以相互獨立地執(zhí)行協(xié)同規(guī)劃任務(wù)。所述多衛(wèi)星協(xié)同優(yōu)化決策裝置100可以包括信念狀態(tài)信息更新模塊101、優(yōu)化決策模塊102和值函數(shù)計算模塊103。
[0070] 其中，所述DEC是非集中式系統(tǒng)的英文簡稱，所述P0MDP是部分可見馬爾可夫決策過程模型的英文簡稱。每個衛(wèi)星都是一個智能體，并且在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動態(tài)特性上沒有過多的關(guān)聯(lián)，只是在執(zhí)行共同受理的觀測任務(wù)時發(fā)生相互作用。所述多個衛(wèi) 星之間存在通信連接，所述多個衛(wèi)星之間可以相互交換信息和進行協(xié)調(diào)。因此所述衛(wèi)星協(xié) 同任務(wù)規(guī)劃系統(tǒng)具有動態(tài)解耦特性。在所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)中，每個衛(wèi)星的規(guī)劃決策通過改變環(huán)境信息間接影響到其它衛(wèi)星的任務(wù)規(guī)劃決策。針對具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)，可以將整個系統(tǒng)劃分成多個有限相互獨立的衛(wèi)星優(yōu)化決策子系統(tǒng)。并分別對每個衛(wèi)星優(yōu)化決策子系統(tǒng)進行優(yōu)化求解，進而建立多衛(wèi)星協(xié)同優(yōu)化決策裝置100。
[0071] 進一步地，如圖2所示，在多衛(wèi)星協(xié)同優(yōu)化決策裝置100的結(jié)構(gòu)下，衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)被劃分成多個相互獨立的決策子系統(tǒng)。所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的動作由所有子系統(tǒng)的動作所組成。每個衛(wèi)星包括一個本地P0MDP決策模塊，在衛(wèi)星之間可以通過延遲通信網(wǎng)絡(luò)進行信息交換。所述信息可以包括各衛(wèi)星的部分狀態(tài)信息，所述部分狀態(tài)信息包括本地優(yōu)化決策得到的階段性結(jié)果，進而可以實現(xiàn)多個衛(wèi)星之間的分布式協(xié)調(diào)。
[0072]請一并參閱圖3,所述信念狀態(tài)信息更新模塊101根據(jù)衛(wèi)星的本地觀測信息和與其它各衛(wèi)星的交互信息更新信念狀態(tài)信息信念狀態(tài)信息#是衛(wèi)星狀態(tài)的概率分布。
[0073]所述優(yōu)化決策模塊102基于信念狀態(tài)信息#計算tk時刻最優(yōu)的觀測動作并得到下一時刻sati的信念狀態(tài)信息由于延遲通信網(wǎng)絡(luò)的存在，在協(xié)同優(yōu)化決策過程中的信息交互存在通信延遲，所述延遲通信網(wǎng)絡(luò)描述了各衛(wèi)星之間的信息交互能力，決定了優(yōu)化決策過程中衛(wèi)星獲取信息的內(nèi)容與通信延遲的程度?？蛇x地，所述優(yōu)化決策系統(tǒng)通過所述延遲通信網(wǎng)絡(luò)在DAG(Directed Acyclic Graph，時序有向無圈圖）協(xié)同規(guī)劃環(huán)境中獲取信息。
[0074]具體地，所述優(yōu)化決策的過程如圖4所示。假設(shè)在當前規(guī)劃時刻tk，衛(wèi)星sati根據(jù) tk-1時刻的決策結(jié)果選擇觀測節(jié)點vF，響應(yīng)的環(huán)境狀態(tài)信息更新為<，sati基于環(huán)境狀態(tài) 信息的觀測of更新信念狀態(tài)信息紀。之后，sati根據(jù)信念狀態(tài)信息并以tk時刻的瞬時報酬值與tk之后折扣報酬期望值做出最優(yōu)的規(guī)劃決策得到環(huán)境狀態(tài)信息#+1，并計入下一個規(guī)劃決策時刻tk+1，重復(fù)上述過程直至到達虛擬觀測節(jié)點vE的整個決策過程的結(jié)束。
[0075]進一步地，所述值函數(shù)計算模塊103將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0076] 可以理解的是，優(yōu)化決策是P0MDP的核心，環(huán)境信息無法全部獲取的背景下，通過增加信念狀態(tài)估計，從而保持了馬爾可夫性，也即無后效性。這種無后效性表現(xiàn)在在規(guī)劃過程中某階段的狀態(tài)一旦確定，則此后過程的演變不再受此前各狀態(tài)的影響。也就是說，"未來與過去無關(guān)"，當前的狀態(tài)是此前歷史的一個完整總結(jié)，此前的歷史只能通過當前的狀態(tài) 去影響過程未來的演變，在每一時刻都只根據(jù)當前的狀態(tài)進行優(yōu)化決策。這種"未來與過去無關(guān)"的決策策略與衛(wèi)星在時序有向無圈圖上的任務(wù)搜索過程十分吻合。衛(wèi)星在時序有向無圈圖中每一個時刻的決策僅與當前時刻的狀態(tài)有關(guān)而與之前的狀態(tài)均無關(guān)。這樣可以忽略歷史的影響，一切規(guī)劃都只要從當前狀態(tài)出發(fā)即可。它所蘊含的思想是將智能體有限的規(guī)劃能力引導(dǎo)至更有價值的方向。因此，POMDP的優(yōu)化決策求解的基本思想可以為解決衛(wèi)星協(xié)同規(guī)劃決策問題提供很好的借鑒。
[0077]下面結(jié)合圖5對上述各功能模塊進行詳細描述。如圖2所示，是本發(fā)明實施方式提供的一種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法的流程圖。該方法包括以下步驟。
[0078] 步驟S101:獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新。本實施例中，關(guān)于所述信念狀態(tài)信息更新模塊101的描述具體可參照步驟 S101的描述。也即，該步驟S101可以由所述信念狀態(tài)信息更新模塊101執(zhí)行。
[0079] 其中，所述部分可見馬爾可夫決策過程模型可以定義為一個七元組<S，A，T，R，Q，〇> A表示有限狀態(tài)集合，即決策問題中Agent所有可達的狀態(tài)集合。A表示Agent所有可能的動作集合。T:SXA-n(S)是狀態(tài)轉(zhuǎn)移函數(shù)，表示給定狀態(tài)和動作的前提下，到達下一個狀態(tài)的概率分布，其中r(.s\5,/)表示處于狀態(tài)s，執(zhí)行聯(lián)合動作a轉(zhuǎn)移到狀態(tài)V的概率。 R:SXA4)1+為報酬函數(shù)，表示在給定目前狀態(tài)和動作的情況下所獲得的瞬時報酬， /?(.、'，刃表示在狀態(tài)s執(zhí)行動作a時所能得到的瞬時報酬值。Q為Agent的有限觀測集合。0:A X s-n ( Q )為觀察函數(shù)，表示在動作3和結(jié)果狀態(tài)Y條件系統(tǒng)可能得到的聯(lián)合觀察3的概率分布，0(a，s'，〇)表示執(zhí)行動作a到達狀態(tài)s'時系統(tǒng)觀察到3的概率。
[0080] 進一步地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新的步驟包括：當信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動作集合中的動作遷時，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布H.V,心?')對衛(wèi)星自身的信念狀態(tài)信息進行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察3的概率分布〇(a， s7 ,〇)〇
[0081] 可選地，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài) 信息進行更新的步驟還包括:根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新；
[0082] 定義信念狀態(tài)更新函數(shù)9::BX Q XA，
[0083]其中，B表示信念狀態(tài)空間，Q表示有限觀測集合，A表示動作集合，則：
[0085] 以及
[0086] Pr(o | 5) = 方 0:(/具〇)r(s，a:，/)吵)
[0087] 其中，Pr(o|b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測概率0。
[0088]步驟S102:根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬值。
[0089] S103:步驟S103:根據(jù)所述瞬時報酬值計算期望折扣報酬值，并計算出使得所述期望折扣報酬值最大化的最優(yōu)策略，以及得到所述期望折扣報酬值的最大值。
[0090] 本實施例中，關(guān)于所述優(yōu)化決策模塊102的描述具體可參照步驟S102和S103的描述。也即，該步驟S102和步驟S103可以由所述優(yōu)化決策模塊102執(zhí)行。
[0091] 具體地，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1彡i彡NS，當?shù)趇顆衛(wèi)星的策略方程為R時，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：
[0092] 兀(/)) = |>丨(/)丨)….冗.、(/，、.)]
[0093]所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：
[0094] <p(b,S,〇) = [<!?,(7>,(pK (/). ,a. ,<?)]
[0095]第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：
[0097]其中，rJeU，U = A表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；
[0098]在最優(yōu)策略#下，每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：
[0099] V'{h) ~ max|~y]i sb(.s)R(s,d) + () Pr((7 | h,a)V(//)
[0100]其中，所述最優(yōu)策略#為動作系列：
[0101] ^ (/-1) = arg maxv vb{s)R(s\a) + Pr^(> I h'ci^V^ K 〇
[0102] S104:進入下一規(guī)劃決策時刻，重復(fù)進行步驟S101、S102和S103直至整個規(guī)劃決策過程的結(jié)束，并得到在各規(guī)劃決策時刻的折扣報酬期望值。
[0103] 其中，每個衛(wèi)星循環(huán)執(zhí)行步驟S10US102和S103,并根據(jù)預(yù)設(shè)的部分可見馬爾可夫決策過程模型對得到的信念狀態(tài)信息進行迭代，直至整個規(guī)劃決策過程的結(jié)束。
[0104] S105:將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。
[0105] 其中，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
[0106] V(b)^^Vi(k)〇
[0107] 本實施例中，該步驟S105可以由所述值函數(shù)計算模塊103執(zhí)行。
[0108] 本發(fā)明實施例提供的一種基于DEC-P0MDP多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置，根據(jù) 獲取的環(huán)境觀測信息和其它各衛(wèi)星的部分狀態(tài)信息，為了適應(yīng)信念狀態(tài)信息的無后效性要求，基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新，并計算出最優(yōu)的觀測動作，以及獲得與所述觀測動作相對應(yīng)的瞬時報酬值和期望折扣報酬值，從而計算出使得所述期望折扣報酬值最大化的最優(yōu)策略。如此，有效提高了衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)進行分布式優(yōu)化決策的高效性和準確性。
[0109]在本申請所提供的實施例中，應(yīng)該理解到，所揭露的裝置和方法，可以通過其它的方式實現(xiàn)。以上所描述的裝置實施例僅僅是示意性的，例如，附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的裝置、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上，流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分，所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意，在有些作為替換的實現(xiàn)中，方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如，兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行，它們有時也可以按相反的順序執(zhí)行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合，可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實現(xiàn)，或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
[0110]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
[0111] 另外，在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。
[0112] 以上所述，僅為本發(fā)明的【具體實施方式】，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此，本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準。
【主權(quán)項】
1. 一種基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個相互獨立的衛(wèi)星，其特征在于，所述多衛(wèi)星協(xié)同優(yōu)化決策方法包括：獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài) 信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài)集合、動作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù)；根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬值；根據(jù)所述瞬時報酬值計算期望折扣報酬值，并計算出使得所述期望折扣報酬值最大化的最優(yōu)策略，以及得到所述期望折扣報酬值的最大值；進入下一規(guī)劃決策時刻，重復(fù)進行以上步驟直至整個規(guī)劃決策過程的結(jié)束，并得到在各規(guī)劃決策時刻的折扣報酬期望值；將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī) 劃系統(tǒng)的整體值函數(shù)。2. 根據(jù)權(quán)利要求1所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新的步驟包括：當信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動作集合中的動作5時，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布ΠΧδ,/)對衛(wèi)星自身的信念狀態(tài)信息進行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察5的概率分布0(a，Y，〇)。3. 根據(jù)權(quán)利要求2所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新的步驟還包括:根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新；定義信念狀態(tài)更新函數(shù)tPsBX Ω XA，其中，B表示信念狀態(tài)空間，Ω表示有限觀測集合，A表示動作集合，則：其中，PHo I b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測概率 Oo4. 根據(jù)權(quán)利要求3所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1彡i彡NS，當?shù)趇顆衛(wèi)星的策略方程為町時，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式： ^t(Vj) = Oi (V)1),…;Tv (/'、）] 所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：其中，? G Ω，β =? U ^表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；在最優(yōu)策略V下，每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：其中，所述最優(yōu)策略#為動作系列：5. 根據(jù)權(quán)利要求4所述的基于DEC-POMDP的多衛(wèi)星協(xié)同優(yōu)化決策方法，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：6. -種基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，應(yīng)用于具有動態(tài)解耦特性的衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括的衛(wèi)星，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)包括多個相互獨立的衛(wèi)星，其特征在于，所述多衛(wèi)星協(xié)同優(yōu)化決策裝置包括：信念狀態(tài)信息更新模塊，用于獲取當前規(guī)劃決策時刻的環(huán)境觀測信息和DAG協(xié)同規(guī)劃環(huán)境中其它各衛(wèi)星的部分狀態(tài)信息，并基于預(yù)設(shè)的部分可見馬爾可夫決策過程模型對衛(wèi)星自身的信念狀態(tài)信息進行更新，其中，所述部分可見馬爾可夫決策過程模型包括有限狀態(tài) 集合、動作集合、狀態(tài)轉(zhuǎn)移函數(shù)、報酬函數(shù)、有限觀測集合和觀察函數(shù)；優(yōu)化決策模塊，用于根據(jù)更新后的信念狀態(tài)信息計算所述當前規(guī)劃決策時刻最優(yōu)的觀測動作，并根據(jù)所述部分可見馬爾可夫決策過程模型獲得與所述觀測動作相對應(yīng)的瞬時報酬值；以及根據(jù)所述瞬時報酬值計算期望折扣報酬值，并計算出使得所述期望折扣報酬值最大化的最優(yōu)策略，以及得到所述期望折扣報酬值的最大值；值函數(shù)計算模塊，用于將每個規(guī)劃決策時刻得到的折扣報酬期望值進行疊加合并，得到所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)。7. 根據(jù)權(quán)利要求6所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述信念狀態(tài)信息更新模塊還用于在信念狀態(tài)信息屬于所述有限狀態(tài)集合，且執(zhí)行所述動作集合中的動作5的情況下，根據(jù)所述狀態(tài)轉(zhuǎn)移函數(shù)中的轉(zhuǎn)移概率分布:對衛(wèi) 星自身的信念狀態(tài)信息進行更新，并根據(jù)所述觀察函數(shù)得到在所述有限觀測集合中觀察δ 的概率分布(Κει,γ，〇)。8. 根據(jù)權(quán)利要求7所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述信念狀態(tài)信息更新模塊還用于根據(jù)貝葉斯準則對衛(wèi)星自身的信念狀態(tài)信息進行更新；定義信念狀態(tài)更新函數(shù)Φ:ΒΧ Ω ΧΑ，其中，B表示信念狀態(tài)空間，Ω表示有限觀測集合，A表示動作集合，則：其中，Pr(〇 I b，a)為歸一化因子，表示在信念狀態(tài)信息b下執(zhí)行動作a時得到的觀測概率 Oo9. 根據(jù)權(quán)利要求8所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的狀態(tài)空間記為S= {Si}，1彡i彡NS，當?shù)趇顆衛(wèi)星的策略方程為町時，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的策略方程可以表示為如下形式：所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的信念狀態(tài)更新函數(shù)可表示為：第i顆衛(wèi)星的信念狀態(tài)更新函數(shù)則可以表示為：其中，rie Ω，U = AUiTii，?\表示第i顆衛(wèi)星獲得的其它衛(wèi)星的部分狀態(tài)信息；在最優(yōu)策略V下，每個信念狀態(tài)信息的折扣報酬期望值組成最優(yōu)值函數(shù)V'以遞歸形式表示為：其中，所述最優(yōu)策略#為動作系列：10. 根據(jù)權(quán)利要求9所述的基于DEC-P0MDP的多衛(wèi)星協(xié)同優(yōu)化決策裝置，其特征在于，所述衛(wèi)星協(xié)同任務(wù)規(guī)劃系統(tǒng)的整體值函數(shù)是所有NS顆衛(wèi)星的值函數(shù)之和，即表示為如下形式：
【文檔編號】G06Q10/04GK105930944SQ201610546764
【公開日】2016年9月7日
【申請日】2016年7月12日
【發(fā)明人】王沖, 張海, 董志強, 劉銘, 董相均, 關(guān)禮安, 邵欣
【申請人】中國人民解放軍空軍裝備研究院雷達與電子對抗研究所

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王沖;張海;董志強;劉銘;董相均;關(guān)禮安;邵欣;
技術(shù)所有人：中國人民解放軍空軍裝備研究院雷達與電子對抗研究所;
我是此專利的發(fā)明人

上一篇：一種業(yè)務(wù)處理方法及裝置的制造方法
上一篇：一種駕駛風險預(yù)測方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

協(xié)同決策相關(guān)技術(shù)

機場協(xié)同決策相關(guān)技術(shù)

機場協(xié)同決策系統(tǒng)相關(guān)技術(shù)

無人機協(xié)同決策與控制相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于dec-pomdp的多衛(wèi)星協(xié)同優(yōu)化決策方法及裝置的制造方法