信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序的制作方法

文檔序號(hào)：6611381閱讀：277來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種信息處理裝置和信息處理方法、以及計(jì)算機(jī) 程序。更詳細(xì)地說，涉及一種以部分可？見測馬爾科夫決策過程
(POMDP: Partially Observable Markov Decision Process)為基本結(jié) 構(gòu)而自動(dòng)構(gòu)建能夠以要素單位進(jìn)行處理的因數(shù)POMDP(Factored POMDP)的信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序。
背景技術(shù)：
作為狀態(tài)預(yù)測、行動(dòng)決定方法之一，可知應(yīng)用了部分可觀測馬爾科夫決策過牙呈(POMDP: Partially Observable Markov Decision Process)的處理。下面說明部分可觀測馬爾科夫決策過程(以下稱為 POMDP)的概要。
POMDP作為應(yīng)用了以下信息的處理來進(jìn)行。
(a) 狀態(tài)信息(State space:狀態(tài)空間)S
(b) 行動(dòng)信息(Action space: 行動(dòng)玄間)A
(c) 從時(shí)間T=(t-1)的狀態(tài)S二st.i和行動(dòng)A二a"算出向下一個(gè)時(shí)間 T=(t)的狀態(tài)S=sj々狀態(tài)轉(zhuǎn)移概率的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(st, at小St—0二P(Stlat小St陽O
(d) 算出根據(jù)時(shí)間T=(t)的狀態(tài)S-St和行動(dòng)A=at的報(bào)酬(Reward) 的才艮酬函數(shù)R(st, at)
(e) 觀測信息(Observation space:觀測空間)Q
(f) 從時(shí)間T=(t-1)的行動(dòng)A=at_ i和時(shí)間T=(t)的狀態(tài)S=st算出時(shí) 間T=(t)的觀測狀態(tài)的發(fā)生概率的觀測狀態(tài)確立函數(shù)0(st, at-!, Ot-,)二P(Otlat小st)
POMDP進(jìn)行應(yīng)用了上述的各信息的狀態(tài)預(yù)測、行動(dòng)決定處
理。例如，應(yīng)用于從可獲取的少量信息中決定判斷為最佳的行動(dòng)
(Action)的處理等，具體地說，可應(yīng)用于決定才幾器人的行動(dòng)的處理、使用了計(jì)算機(jī)的仿真、數(shù)據(jù)處理、以及企業(yè)經(jīng)營等中的最佳行動(dòng) 的決定處理等各種行動(dòng)的決定中。
參照圖l說明應(yīng)用了上述各信息的POMDP的狀態(tài)預(yù)測、行動(dòng) 決定處理。在圖l中示出了時(shí)間丁=卜1的狀態(tài)51-1、 ^t動(dòng)aw、 ^^艮酬Rt-,、觀測o"和之后的時(shí)間T4的狀態(tài)St、行動(dòng)at、才艮酬Rt、觀測ot。連接各塊的箭頭表示相互的影響。示出了如下情形箭頭的輸出源 (parent)的信息、狀態(tài)有可能給箭頭的輸出目的地(child)的狀態(tài)、信息帶來變化。
例如，在時(shí)間T—-1,
如上所述那樣，根據(jù)時(shí)間T二t-l的狀態(tài)Sw、行動(dòng)aw,利用報(bào)酬函數(shù)R(St小at-O求出報(bào)酬Rw。
另外，觀測信息ow例如是隨著狀態(tài)Sw的變化而變化的可觀測
的信息。
它們的關(guān)系在任一個(gè)時(shí)間T-t-l、 t、 t+l、…都一樣。
并且，在不同時(shí)間的關(guān)系中，根據(jù)上述的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(St, a", s^)二P(Stlat-h s")使時(shí)間T二t的狀態(tài)St和時(shí)間T=t-1的狀態(tài)s"及行動(dòng)aw的關(guān)系相對應(yīng)。即，成為時(shí)間T—的狀態(tài)St的概率是從之前的時(shí)間T=t-1的狀態(tài)sw和行動(dòng)算出的。該關(guān)系在連續(xù)的事件觀測時(shí)間的期間全部成立。
這樣，在POMDP中，在包含不確定性的對象區(qū)域中定義各種信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)，根據(jù)這些信息的關(guān)聯(lián)性預(yù)測在包含不確定性的對象區(qū)域中的狀態(tài)轉(zhuǎn)移、決定自己的行動(dòng)。在進(jìn)行行動(dòng)的決定處理時(shí)，例如進(jìn)行將算出最高的報(bào)酬的行動(dòng)作為最佳行動(dòng)而決定的處理。
此外，在POMDP的構(gòu)建處理中，重要的是正確地設(shè)定信息(狀
態(tài)、行動(dòng)、報(bào)酬、觀測)間的關(guān)聯(lián)性，在這種處理中利用貝葉斯網(wǎng)
絡(luò)(BN: Bayesian Network)。貝葉斯網(wǎng)絡(luò)由多個(gè)節(jié)點(diǎn)構(gòu)成，是定義了各節(jié)點(diǎn)間的關(guān)聯(lián)性的網(wǎng)絡(luò)。例如在專利文獻(xiàn)l、專利文獻(xiàn)2中記載了關(guān)于貝葉斯網(wǎng)絡(luò)的生成處理、利用處理。專利文獻(xiàn)l和專利文獻(xiàn)2記載了用于生成正確地設(shè)定節(jié)點(diǎn)間的關(guān)聯(lián)性的可靠性高的貝葉斯網(wǎng)絡(luò)的處理。
在參照圖1說明的POMDP中，例如關(guān)于應(yīng)用于行動(dòng)決定處理中的各時(shí)間的狀態(tài)(State)、報(bào)酬(Reward)、觀測(Observation)、它們的各信息，分別作為僅由一個(gè)要素構(gòu)成的信息而進(jìn)行處理。另一方面，在現(xiàn)實(shí)環(huán)境中，能夠作為信息而獲取的狀態(tài)、觀測的信息大多由各種不同的要素(因數(shù)(factor))構(gòu)成。然而，在到目前為止的POMDP中，沒有實(shí)現(xiàn)自動(dòng)構(gòu)建考慮了這些各種要素的POMDP 的結(jié)構(gòu)。
專利文獻(xiàn)l: US乂^開專利2004/0220892 專利文獻(xiàn)2: US公開專利2002/010379
發(fā)明內(nèi)容
發(fā)明要解決的問題
本發(fā)明是鑒于上述問題點(diǎn)而完成的，目的在于提供一種如下的信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序在應(yīng)用了 POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理中，自動(dòng)構(gòu)建可進(jìn)行考慮了多個(gè)不同要素(因數(shù))的處理的因數(shù)POMDP(Factored POMDP)。
用于解決問題的方案
本發(fā)明的第一側(cè)面是構(gòu)建包含不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu)的信息處理裝置，其特征在于具有數(shù)據(jù)處理部，該數(shù)據(jù)處理部以部分可觀測馬爾科夫決策過程(POMDP: Partially Observable Markov Decision Process)為基本
結(jié)構(gòu)，將在POMDP中定義的各信息中包含的要素作為單位，對要素間的關(guān)系進(jìn)行解析，根據(jù)該解析結(jié)果，執(zhí)行作為包含要素間的關(guān)系信息的POMDP的因數(shù)POMDP(Factored POMDP)的構(gòu)建。
并且，在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中，其特征在于，上述數(shù)據(jù)處理部是如下結(jié)構(gòu)構(gòu)建關(guān)于作為在POMDP中定義的信息的觀測(Observation)中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合該觀測要素單位的貝葉斯網(wǎng)絡(luò)，構(gòu) 建上述因數(shù)POMDP(Factored POMDP)。
并且，在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中，其特征在于，上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)根據(jù)學(xué)習(xí)樣本數(shù) 據(jù)來決定作為在POMDP中定義的信息的觀測(Observation)信息中所包含的各個(gè)觀測要素和作為在POMDP中定義的觀測以外的信息的狀態(tài)(State)、行動(dòng)(Action)、報(bào)酬(Reward)中的至少任一個(gè)所包含的要素之間的關(guān)聯(lián)性，構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò)。
并且，在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中，其特征在于，上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)構(gòu)建關(guān)于作為在 POMDP中定義的信息的觀測(Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)，組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)，來構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)，而且解析不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性，構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。
并且，在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中，其特征在于，上述數(shù)據(jù)處理部執(zhí)行根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定多個(gè)內(nèi)部網(wǎng) 絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性的處理。
并且，在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中，其特征在于，上述數(shù)據(jù)處理部是如下結(jié)構(gòu)作為表示上述要素間的關(guān)系
的數(shù)據(jù)，應(yīng)用與貝葉斯網(wǎng)絡(luò)對應(yīng)的有向非循環(huán)圖(DAG: Directed Acyclic Graph)，根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息，來執(zhí)行上述有向非循環(huán)圖(DAG)的更新處理，解析要素間的關(guān)系從而構(gòu)建上述因數(shù)POMDP(Factored POMDP)。
并且，在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中，其特征在于，上述數(shù)據(jù)處理部是如下結(jié)構(gòu)輸入包含有在上述POMDP中定義的各信息中所包含的要素的種類的要素信息和作為上述因數(shù) POMDP(Factored POMDP)的結(jié)構(gòu)信息的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接狀態(tài)的最大輸入數(shù)量(Max-Fan-In)信息，按照該輸入信息來構(gòu)建上述因數(shù)POMDP(Factored POMDP)。
并且，本發(fā)明的第二側(cè)面是一種在信息處理裝置中構(gòu)建包含不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié) 構(gòu)的信息處理方法，其特征在于，具有如下步驟
內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中構(gòu)建關(guān)于作為在部分可觀測馬爾科夫決策過程(POMDP : Partially Observable Markov Decision Process)中定義的信息的？見測(Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)，來構(gòu) 建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)；
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中解析不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性，來構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)；
因數(shù)POMDP生成步驟，在數(shù)據(jù)處理部中，根據(jù)上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)，生成包含有在POMDP中定義的信息的要素的關(guān)系信息的因數(shù)POMDP(Factored POMDP)。
并且，在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中，其特征
在于，上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟包含執(zhí)行如下處理的步驟
根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定作為在POMDP中定義的信息的觀測 (Observation)中所包含的各個(gè)觀測要素和作為在POMDP中定義的觀測以外的信息的狀態(tài)(State)、行動(dòng)(Action)、報(bào)酬(Reard)中的至少任一個(gè)包含的要素之間的關(guān)聯(lián)性，構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò)。
并且，在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中，其特征在于，在上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中執(zhí)行根據(jù)學(xué)習(xí)樣本數(shù)據(jù) 來決定多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián) 性的處理。
并且，在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中，其特征在于，在上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟以及上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò) 生成步驟中，作為表示上述要素間的關(guān)系的數(shù)據(jù)，應(yīng)用與貝葉斯網(wǎng)絡(luò)對應(yīng)的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息，執(zhí)行上述有向非循環(huán)圖(DAG)的更新處理，來解析要素間的關(guān)系。
并且，在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中，其特征在于，上述信息處理方法還執(zhí)行如下處理在上述數(shù)據(jù)處理部中輸入包含有在上述POMDP中定義的各信息中所包含的要素的種類的要素信息和作為上述因數(shù)POMDP(Factored POMDP)的結(jié)構(gòu)信息的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接狀態(tài)的最大輸入數(shù)量(Max-Fan-In)信息，按照該輸入信息來構(gòu)建上述因數(shù)POMDP。
并且，本發(fā)明的第三側(cè)面是一種使信息處理裝置構(gòu)建包含不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu) 的計(jì)算機(jī)程序，其特征在于執(zhí)行以下步驟
內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中構(gòu)建關(guān)于作為在部分可觀測馬爾科夫決策過程(POMDP : Partially Observable
Markov Decision Process)中定義的信息的觀觀'J (Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)，構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)；
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中解析不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性，構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)；
因數(shù)POMDP生成步驟，在數(shù)據(jù)處理部中根據(jù)上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)，生成包含有在P OMDP中定義的信息的要素的關(guān)系信息的因數(shù)POMDP(Factored POMDP)。
此外，本發(fā)明的計(jì)算機(jī)程序是例如對于可執(zhí)行各種程序代碼的計(jì)算機(jī)系統(tǒng)能夠通過以計(jì)算機(jī)可讀形式提供的存儲(chǔ)介質(zhì)、通信介質(zhì)、例如CD、 FD、 MO等記錄介質(zhì)、或者網(wǎng)絡(luò)等通信介質(zhì)提供的計(jì)算機(jī)程序。通過以計(jì)算機(jī)可讀形式提供這種程序，在計(jì)算機(jī) 系統(tǒng)上實(shí)現(xiàn)與程序相應(yīng)的處理。
本發(fā)明的進(jìn)一步的其它目的、特征、優(yōu)點(diǎn)通過基于后述的本發(fā)明的實(shí)施例、附加的附圖的更詳細(xì)的說明而變得明確。此外，在本說明書中，系統(tǒng)是多個(gè)裝置的邏輯上的集合結(jié)構(gòu)，并不限于各結(jié)構(gòu)的裝置在同一殼體內(nèi)。
發(fā)明的效果
根據(jù)本發(fā)明的一個(gè)實(shí)施例的結(jié)構(gòu)，以部分可觀測馬爾科夫決策過程(POMDP: Partially Observable Markov Decision Process)為基本結(jié)構(gòu)，關(guān)于在POMDP中定義的狀態(tài)(State)、行動(dòng)(Action)、觀測(Observation)、報(bào)酬(Reward)的各信息分別設(shè)定多個(gè)不同的要素 (因數(shù))，能夠自動(dòng)構(gòu)建明確了要素間關(guān)系的因數(shù)POMDP(Factored POMDP)。在應(yīng)用明確了通過本發(fā)明的處理而生成的要素單位的依
賴關(guān)系的因數(shù)POMDP(Factored POMDP)的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理中，可進(jìn)行明確區(qū)分要素單位的因果關(guān)系的處理，可進(jìn)行更正確的狀況預(yù)測、有效的行動(dòng)決定處理。

圖l是說明以往的POMDP的圖。圖2是說明因數(shù)POMDP的圖。
圖3是說明貝葉斯網(wǎng)絡(luò)以及條件概率表(CPT)的圖。圖4是說明包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖5是說明包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖6是說明組合包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)而構(gòu)成
的貝葉斯網(wǎng)絡(luò)的示例的圖。
圖7是說明組合包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)而構(gòu)成
的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖8是說明組合時(shí)間T-t的貝葉斯網(wǎng)絡(luò)以及時(shí)間T=t+1的貝葉斯網(wǎng)絡(luò)而構(gòu)成的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖9是說明根據(jù)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)完成因數(shù)POMDP的處理例的圖。
圖IOA、 IOB是說明在將貝葉斯網(wǎng)絡(luò)表現(xiàn)為數(shù)據(jù)的情況下的有向非循環(huán)圖(DAG: Directed Acyclic Graph)的示例的圖。圖ll是表示說明因數(shù)POMDP構(gòu)建順序的流程圖的圖。圖12是表示說明因數(shù)POMDP構(gòu)建順序的流程圖的圖。圖13是表示說明因數(shù)POMDP構(gòu)建順序的流程圖的圖。圖14是說明信息處理裝置的功能結(jié)構(gòu)的圖。圖15是說明信息處理裝置的硬件結(jié)構(gòu)例的圖。
附圖標(biāo)記說明
101~103:條件概率表(CPT); 151:觀測要素；152:狀態(tài)要素；180:學(xué)習(xí)樣本數(shù)據(jù)；200:信息處理裝置；201:用戶接口； 202:數(shù)據(jù)處理部；203:存儲(chǔ)部；204:數(shù)據(jù)庫；501: CPU(Central Processing Unit:中央處理單元)；502: ROM(Read-Only-Memory: 只讀存儲(chǔ)器)；503: RAM(Random Access Memory: 隨機(jī)存取存儲(chǔ) 器)；504:主機(jī)總線；505:橋；506:外部總線；507:接口； 508: 鍵盤；509:指示設(shè)備；510:顯示器；511: HDD(Hard Disk Drive: 硬盤驅(qū)動(dòng)器)；512:驅(qū)動(dòng)器；514:連接端口； 515:通信部；521: 可移動(dòng)記錄介質(zhì)；522:外部連接設(shè)備。
具體實(shí)施例方式
下面參照附圖詳細(xì)說明與本發(fā)明的實(shí)施方式有關(guān)的信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序。
首先，參照圖2說明應(yīng)用了在本發(fā)明的信息處理裝置中構(gòu)建的考慮了多個(gè)不同的要素(因數(shù))的POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理的概要。在應(yīng)用本發(fā)明的處理而構(gòu)建的改進(jìn)的POMDP、即因數(shù)POMDP(Faetored POMDP)中，通過考慮了要素(因數(shù))的處理，能夠進(jìn)行精確度更高的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定。具體地說，在決定機(jī)器人的行動(dòng)的處理、使用了計(jì)算機(jī)的仿真、數(shù)據(jù)處理、以及企業(yè)經(jīng)營等中的最佳行動(dòng)的決定處理等中，可進(jìn)行制度性更高的處理。
此外，如上所述，POMDP作為應(yīng)用了以下信息的處理來進(jìn)行。
(a) 狀態(tài)信息(State space): S
(b) 行動(dòng)信息(Action space): A
(c) 從時(shí)間T=(t-1)的狀態(tài)S二Sm和行動(dòng)A=at-,算出向下一個(gè)時(shí)間 T=(t)的狀態(tài)S=st的狀態(tài)轉(zhuǎn)移概率的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(st，
at-i， St-O-P(stlaw， St隱D
(d) 計(jì)算根據(jù)時(shí)間T-(t)的狀態(tài)S二st和行動(dòng)A-at的報(bào)酬(Reward) 的報(bào)酬函數(shù)R(st， at)
(e) 2見測1言息(Observation space):
(f) 從時(shí)間T=(t-1)的行動(dòng)A-at.!和時(shí)間T=(t)的狀態(tài)S-St算出時(shí) 間T^t)的X見測狀態(tài)的發(fā)生概率的觀測狀態(tài)確立函數(shù)0(st, aw, Ow)-P(Otlat—!， st)
在圖2中與之前參照圖1進(jìn)行的說明同樣地，示出了時(shí)間T-t-l 的狀態(tài)st.j、行動(dòng)aw、報(bào)酬Rw、觀測Ow和之后的時(shí)間T4的狀態(tài)St、行動(dòng)at、報(bào)酬Rt、觀測Ot。連接各塊的箭頭表示具有關(guān)聯(lián)性、影響的關(guān)系。具體地說，表示箭頭的輸出源(parent)給箭頭的輸出目的地(child)帶來影響的情形。
圖2的結(jié)構(gòu)與參照圖1說明的結(jié)構(gòu)不同，不是將各時(shí)間的狀態(tài) (State)、報(bào)酬(Reward)、觀測(Observation)分別僅作為一個(gè)要素的處理結(jié)構(gòu)，而是考慮狀態(tài)(State)、報(bào)酬(Reward)、觀測中所包含的多個(gè)要素(因數(shù))而進(jìn)行處理的結(jié)構(gòu)。即，是個(gè)別地考慮了在同一信息(狀態(tài)、行動(dòng)、才艮酬、觀測)中包含的多個(gè)要素的POMDP。
在圖2中，示出了狀態(tài)(State)、報(bào)酬(Reward)、觀測(Observation) 的各自分別具有兩個(gè)要素的示例。此外，狀態(tài)、報(bào)酬、觀測的要素?cái)?shù)量并不限于兩個(gè)。在本發(fā)明的信息處理裝置中，可構(gòu)建在同一范疇的信息中存在任意數(shù)量的要素的POMDP結(jié)構(gòu)。
在圖2中，作為狀態(tài)(State),定義了
(狀態(tài)要素1)例如表示某人物、物體等是否存在的狀態(tài)的[存
在]、
(狀態(tài)要素2)例如表示某數(shù)據(jù)處理、行動(dòng)計(jì)劃等計(jì)劃的處理狀態(tài)的[計(jì)劃]
這兩個(gè)不同的要素的狀態(tài)。
另外，關(guān)于才艮酬(Reward),定義了
(報(bào)酬要素l)對應(yīng)于[存在]的報(bào)酬、
(報(bào)酬要素2)對應(yīng)于[計(jì)劃]的報(bào)酬
這兩個(gè)不同的要素的才艮酬。
并且，關(guān)于觀測(Observation),定義了
(觀測要素l)作為某人物或物體的表情、外觀變化的觀察信息的觀測信息即[臉]、
(觀測要素2)作為某人物或物體的行動(dòng)的觀察信息的觀須'j信,t、即[運(yùn)動(dòng)]
這兩個(gè)不同的要素的觀測信息。
在本發(fā)明的信息處理裝置中，與之前參照圖l說明的POMDP 結(jié)構(gòu)不同，構(gòu)建個(gè)別地處理包含在各信息中的要素而可進(jìn)行應(yīng)用了 POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理的結(jié)構(gòu)。為了將個(gè)別考慮了如圖2所示的同一信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)中包含的多個(gè)要素的POMDP與參照圖l說明的以往的POMDP處理進(jìn)行區(qū)分，稱為因數(shù)POMDP(Factored POMDP或者F-POMDP)。
在本發(fā)明的信息處理裝置中，判別在POMDP中定義的各信息 (狀態(tài)、行動(dòng)、報(bào)酬、觀測)中包含的要素，判斷各要素間的關(guān)聯(lián)性，設(shè)定如圖2所示那樣的箭頭來自動(dòng)構(gòu)建因數(shù)POMDP。在圖2所示的結(jié)構(gòu)中，在各要素間設(shè)定了表示要素間的關(guān)聯(lián)性的箭頭，如上所述，該箭頭表示箭頭的輸出源的要素給輸出目的地的要素帶來影響。
在本發(fā)明的信息處理裝置中，在各信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)中定義要素，并且解析要素間的關(guān)聯(lián)性，由此設(shè)定如圖2所示那樣的表示要素間的關(guān)聯(lián)性的箭頭，構(gòu)建因數(shù)POMDP(Factored POMDP)。為了解析各要素間的關(guān)聯(lián)性，利用貝葉斯網(wǎng)絡(luò)(BN: Bayesian Network)。
在后面詳細(xì)+兌明這些因凄t POMDP(Factored POMDP)的具體的構(gòu)建順序。
圖2所示的因數(shù)POMDP(Factored POMDP)的說明圖與圖1同樣地，示出了時(shí)間丁=卜1的狀態(tài)31.1、行動(dòng)aw、凈艮酬Rw、觀測o^和之后的時(shí)間T—的狀態(tài)St、行動(dòng)at、報(bào)酬Rt、觀測ot。如上所述，連接各塊的箭頭表示要素間的關(guān)聯(lián)性。即，在要素(因數(shù))間定義關(guān)聯(lián)性。
例如，在時(shí)間T4-1，
沖艮據(jù)時(shí)間T=t-1的狀態(tài)要素[存在]和行動(dòng)，利用上述的報(bào)酬函數(shù)R(sw , at.0求出作為報(bào)酬要素之一的[存在報(bào)酬]。
另外，根據(jù)時(shí)間丁=1-1的狀態(tài)要素[計(jì)劃]和行動(dòng)，利用上述的報(bào)酬函數(shù)R(s^, a")求出作為報(bào)酬要素之一的[計(jì)劃報(bào)酬]。
另外，關(guān)于觀測信息，
觀測要素[臉]被定義為受到狀態(tài)要素[存在]影響的可觀察的觀測信息，觀測要素[運(yùn)動(dòng)]被定義為受到狀態(tài)要素[存在]和狀態(tài)要素[計(jì)劃]影響的可觀察的觀測信息。
它們的關(guān)系在任一個(gè)時(shí)間T—-1， t， t+ 1,…中都一樣。
并且，在不同時(shí)間的關(guān)系中，時(shí)間T爿的狀態(tài)St與時(shí)間T—"的狀態(tài)sw及行動(dòng)aw的關(guān)系利用上述的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(St, a"， St.O二P(Stlaw， st—0,使各要素間的關(guān)系相對應(yīng)。即，時(shí)間T—的狀態(tài)要素[存在]的發(fā)生概率是根據(jù)前一個(gè)時(shí)間T=t-1的狀態(tài)要素 [存在]和行動(dòng)算出的，時(shí)間T二t的狀態(tài)要素[計(jì)劃]的發(fā)生概率是根據(jù)前一個(gè)時(shí)間T=t-1的狀態(tài)要素[計(jì)劃]和行動(dòng)算出的。該關(guān)系在連續(xù)的事件觀測時(shí)間的期間全部成立。
這樣，在因數(shù)POMDP(Factored POMDP)中，不是將各時(shí)間的狀態(tài)、行動(dòng)、報(bào)酬、觀測設(shè)定為一個(gè)信息，而是能夠抽出關(guān)于這些各信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)的各個(gè)范疇進(jìn)行了細(xì)分的要素 (因數(shù))而執(zhí)行處理。此外，在圖2的結(jié)構(gòu)中，關(guān)于行動(dòng)沒有定義要素，但是也可以按照不同要素區(qū)分行動(dòng)而進(jìn)行處理。例如，在決
定機(jī)器人的行動(dòng)的情況下，也可以分別定義[手的運(yùn)動(dòng)]、[腳的運(yùn) 動(dòng)]、[臉的運(yùn)動(dòng)]等行動(dòng)，將它們作為行動(dòng)的要素而進(jìn)行處理。
在本發(fā)明的信息處理裝置中，判別在POMDP中定義的各信息 (狀態(tài)、行動(dòng)、報(bào)酬、觀測)中所包含的要素，解析各種要素間的關(guān)
聯(lián)性，由此構(gòu)建如圖2所示那樣的因數(shù)POMDP(Factored POMDP)。為了解析各要素間的關(guān)聯(lián)性，利用貝葉斯網(wǎng)絡(luò)(BN: Bayesian Network)。貝葉斯網(wǎng)絡(luò)是以有向圖的形式表現(xiàn)了概率變量的依賴關(guān)系的網(wǎng)絡(luò)，例如，是利用節(jié)點(diǎn)記述事件、利用鏈接記述各事件間的因果關(guān)系的有向圖。通過利用了學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)，關(guān)于構(gòu)成貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)，能夠得到作為歸納了根據(jù)個(gè)別條件發(fā)生的概率的表的條件概率表(CPT: Conditional Probability Tables)。
參照圖3說明貝葉斯網(wǎng)絡(luò)和條件概率表(CPT)。為了進(jìn)行概率推論而應(yīng)用貝葉斯網(wǎng)絡(luò)，特別是能夠定量地處理只能觀察一部分事件的、包含不確定性的對象區(qū)域中的預(yù)測、意思決定。該算法的基本是將多個(gè)事件設(shè)為節(jié)點(diǎn)并將節(jié)點(diǎn)間的依賴關(guān)系進(jìn)行模型化。
在圖3所示的示例中，示出了作為節(jié)點(diǎn)設(shè)定了 [Cloudy(陰)]、 [Sprinkler(噴水)]、[Rain(雨)〗、[WetGlass(濕草坪)]這四個(gè)事件節(jié)點(diǎn) 的示例。連接各節(jié)點(diǎn)的箭頭表示箭頭的輸出源(父節(jié)點(diǎn))給箭頭的輸出目的地(子節(jié)點(diǎn))的狀態(tài)帶來影響。
在圖中示出的示例中，設(shè)節(jié)點(diǎn)[Cloudy(陰)]為，
真(True)的概率^^0.5、
假(False)的概率-0.5。
在這種情況下，在以節(jié)點(diǎn)[Cloudy(陰)]為父節(jié)點(diǎn)的子節(jié)點(diǎn) [Sprinkler(噴水)]中，能夠作為與父節(jié)點(diǎn)[Cloudy(陰)]的狀態(tài)相應(yīng)的條件概率表(CPT: Conditional Probability Tables)得到Sprinkler(噴水)進(jìn)行動(dòng)作的(True)概率和不進(jìn)行動(dòng)作的(False)概率。是圖3所示
的CPT101。 CPT101，
在父節(jié)點(diǎn)[Cloudy(陰)]=F(False)的情況下，表示子節(jié)點(diǎn) [Sprinkler(噴水)]
不進(jìn)行動(dòng)作(False)的概率=0.5 、進(jìn)行動(dòng)作(True)的概率=0.5 ，
在父節(jié)點(diǎn)[Cloudy(陰)]=T(True)的情況下，表示子節(jié)點(diǎn) [Sprinkler(噴水)]
不進(jìn)行動(dòng)作(False)的概率-0.9、進(jìn)行動(dòng)作(True)的概率-O.l。
在CPT101中,P(S^F)表示子節(jié)點(diǎn)[Sprinkler(噴水)]為假(False) 的概率(Possibility) ， P(S:T)表示子節(jié)點(diǎn)[Sprinkler(噴水)]為真(True) 的概率(Possibility)。
另外，在以節(jié)點(diǎn)[Cloudy(陰)]為父節(jié)點(diǎn)的子節(jié)點(diǎn)[Rain(雨)]中, 能夠作為與父節(jié)點(diǎn)[Cloudy(陰)]的狀態(tài)相應(yīng)的條件概率表(CPT : Conditional Probability Tables)而得到是Rain(雨)的(True)概率和不是Rain(雨)的(False)概率。是圖3所示的CPT 102 。
CPT102，
在父節(jié)點(diǎn)[Cloudy(陰)]=F(False)的情況下，表示子節(jié)點(diǎn) [Rain(雨)]
不是雨(False)的概率=0.8 、是雨(True)的概率-0.2，
在父節(jié)點(diǎn)[Cloudy(陰)]=T(True)的情況下，表示子節(jié)點(diǎn) [Rain(雨)]
不是雨(False)的概率二0.2、是雨(True)的概率-0.8。
并且，在以節(jié)點(diǎn)[Sprinkler(噴水)]和節(jié)點(diǎn)[Rain(雨)]為父節(jié)點(diǎn)的
子節(jié)點(diǎn)[WetGlass(濕草坪)]中，能夠作為與父節(jié)點(diǎn)[Sprinkler(噴水)] 和[Rain(雨)]的狀態(tài)相應(yīng)的條件概率表(CPT : Conditional Probability Tables)而得到草碎潮濕的(True)概率和草坪沒有潮濕的(False)概率。是圖3所示的CPT103。 CPT103，
在父節(jié)點(diǎn)[Sprinkler(噴水)]=F(False)、父節(jié)點(diǎn)[Rain(雨)] 二F(False)的情況下，表示子節(jié)點(diǎn)[WetGlass(濕草坪)]為草坪沒有潮濕(False)的概率=1.0 、草,潮濕(True)的概率=0.0,
在父節(jié)點(diǎn)[Spdnkler(噴水)]=T(True)、父節(jié)點(diǎn)[Rain(雨)] 二F(False)的情況下，表示子節(jié)點(diǎn)[WetGlass(濕草碎)]為草沖沒有潮濕(False)的概率i. 1、草坪潮濕(True)的概率=0.9,
在父節(jié)點(diǎn)[Sprinkler(噴水)]=F(False)、父節(jié)點(diǎn)[Rain(雨)] -二T(True)的情況下，表示子節(jié)點(diǎn)[WetGlass(濕草坪)]為草坪沒有潮濕(False)的概率二O. 1、草沖潮濕(True)的概率=0.9 ，
在父節(jié)點(diǎn)[Sprinkler(噴水)]:T(True)、父節(jié)點(diǎn)[Rain(雨)]-T(True) 的情況下，表示子節(jié)點(diǎn)[WetGlass(濕草坪)]為草畔沒有潮濕(False)的概率二O. 01、草坪潮濕(True)的概率=0.99 。
這樣，將產(chǎn)生子節(jié)點(diǎn)中的各個(gè)結(jié)果的概率作為表示依賴于父節(jié)點(diǎn)的條件概率的分布的表而設(shè)定的表是條件概率表(CPT : Conditional Probability Tables)。通過這樣應(yīng)用貝葉斯網(wǎng)絡(luò)，可獲取作為在產(chǎn)生某原因的條件下得到某結(jié)果的帶條件的概率的表的 CPT。
在本發(fā)明的結(jié)構(gòu)中，利用貝葉斯網(wǎng)絡(luò)表現(xiàn)包含在各信息(狀
態(tài)、行動(dòng)、報(bào)酬、觀測)中的要素的依賴關(guān)系，且通過學(xué)習(xí)算出各信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)和各要素的CPT來構(gòu)建因數(shù)
POMDP(Factored POMDP)。
作為本發(fā)明的信息處理裝置中的因數(shù)POMDP(Factored POMDP)生成處理算法的重要處理步驟，有以下的處理步驟。:對各觀測要素[nobs]的每一個(gè)個(gè)別構(gòu)建包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)。:合成包含由步驟H殳定的一個(gè)觀測要素[nobs]的多個(gè) 貝葉斯網(wǎng)絡(luò)，構(gòu)成一個(gè)合成貝葉斯網(wǎng)絡(luò)。:作為不同的事件觀測時(shí)間之間的連接，例如決定狀態(tài)(State)與行動(dòng)(Action)等之間的連接。:根據(jù)生成的貝葉斯網(wǎng)絡(luò)完成因數(shù)POMDP(Factored POMDP)。
根據(jù)以上的[步驟1 4],構(gòu)建設(shè)定了如圖2所示那樣的表示要素間的關(guān)聯(lián)性的箭頭和表示各要素間的影響的發(fā)生概率等的因數(shù) POMDP(Factored POMDP)。參照

各步驟的處理。此外，在以下的具體例的說明中，說明設(shè)定了
訐乍為3見觀寸(Observation)的要素的[FaceDir] 、 [Movement]、 [FaceSize]、 [Speech]這四個(gè)要素、
作為觀測(Observation)以外的信息中的要素的[Player]、 [Intetion]、 [Channel] 、 [Signal]這四個(gè)要素的
這些要素的處理例。
參照圖4、圖5說明步驟1的處理。步驟l是對各觀測要素[nobs] 的每一個(gè)個(gè)別構(gòu)成包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)的處理。在圖4、圖5中，示出了關(guān)于各個(gè)觀測要素個(gè)別設(shè)定了貝葉斯網(wǎng)絡(luò) 的示例。
在圖4、圖5的示例中，如圖4、圖5的(A)所示，將[FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素設(shè)定為觀測要素。它們是例如利用照相機(jī)、麥克風(fēng)等觀測的個(gè)別的要素。
另一方面，將[Player] 、 [Intetion]、 [Channel], [Signal]四個(gè)要素設(shè)定為觀測要素以外的要素。這些要素分別是可設(shè)定個(gè)別的獨(dú) 立的狀態(tài)的要素。在本例中是屬于狀態(tài)(State)的要素。[Player]、 [Intetion]、 [Cha腦l]、 [Signal]四個(gè)要素有時(shí)相互也存在依賴關(guān)系，但是在觀測要素相互間不存在依賴關(guān)系。即，不能設(shè)定連接觀測要素間的箭頭。
在這樣的條件下，應(yīng)用學(xué)習(xí)樣本數(shù)據(jù)來驗(yàn)證各要素間的依賴關(guān)系。在該要素間的依賴關(guān)系的驗(yàn)證處理中應(yīng)用貝葉斯網(wǎng)絡(luò)的結(jié) 構(gòu)學(xué)習(xí)算法。具體地說，例如，執(zhí)行應(yīng)用了作為貝葉斯網(wǎng)絡(luò)的結(jié)
構(gòu)學(xué)習(xí)算法所公知的K2算法的處理。在K2算法中，
(51) 關(guān)于各節(jié)點(diǎn)，選擇成為父節(jié)點(diǎn)的候補(bǔ)，并選擇一個(gè)子節(jié)點(diǎn)，逐個(gè)選擇有可能成為該選擇子節(jié)點(diǎn)的父節(jié)點(diǎn)的父節(jié)點(diǎn)候補(bǔ)，設(shè)定有向圖。
(52) 執(zhí)行根據(jù)生成的圖決定參數(shù)的評(píng)價(jià)，僅將評(píng)價(jià)高的父節(jié) 點(diǎn)候補(bǔ)設(shè)定為父節(jié)點(diǎn)。
通過這些處理，作為構(gòu)建各要素間的依賴關(guān)系的處理而執(zhí)行。在本處理例中，作為觀測要素將[FaceDir] 、 [Movement]、 [FaceSize] 、 [Speech]四個(gè)要素設(shè)定為節(jié)點(diǎn)，作為其他要素將 [Player]、 [Intetion]、 [Cha麵l]、 [Signal]四個(gè)要素設(shè)定為節(jié)點(diǎn)，關(guān) 于作為7見測要素的[FaceDir]、 [Movement] 、 [FaceSize]、 [Speech] 的每一個(gè)個(gè)別執(zhí)行按照上述算法的處理。
該處理結(jié)果是圖4、圖5所示的(B1) (B4)。即，(Bl)是將作為觀測要素的[FaceDir]和作為狀態(tài)要素的[Player] 、 [Intetion]、. [Signal]四個(gè)要素設(shè)定為解析對象的節(jié)點(diǎn)而執(zhí)行應(yīng)用了作為貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法所公知的K 2算法的處理的結(jié)果，解析出作為觀測要素的[FaceDir]是以[Player]和[Channel]為父節(jié)點(diǎn) (parent)的子節(jié)點(diǎn)(chaild)。
(B2)是將作為觀測要素的[Movement]和其它要素[Player]、 [Intetion]、 [Channel], [Signal]四個(gè)要素設(shè)定為解析對象的節(jié)點(diǎn)而執(zhí)行了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法的結(jié)果，解析出作為觀測要素的[Movement]是以[Player]和[Intention]為父節(jié)點(diǎn)(parent)的子節(jié)點(diǎn) (chaild)。
圖5所示的(B3)是將作為觀測要素的[FaceSize]和作為其它要素的[Player]、 [Intetion]、 [Channel], [Signal]四個(gè)要素設(shè)定為解析對象的節(jié)點(diǎn)而執(zhí)行了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法的結(jié)果，解析出作為觀測要素的[FaceSize]是以[Player]和[Channel]為父節(jié)點(diǎn) (parent)的子節(jié)點(diǎn)(chaild)。
圖5所示的(B4)是將作為觀測要素的[Speech]和作為其它要素的[Player]、 [Intetion]、 [Channel] 、 [Signal]四個(gè)要素設(shè)定為解析對象的節(jié)點(diǎn)而執(zhí)行了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法的結(jié)果，解析出作為觀測要素的[Speech]是以[Signal]為父節(jié)點(diǎn)(parent)的子節(jié)點(diǎn) (chaild)。
接著參照圖6、圖7說明步驟2的處理。步驟2是合成包含由步驟l設(shè)定的一個(gè)觀測要素[nobs]的多個(gè)貝葉斯網(wǎng)絡(luò)而構(gòu)成一個(gè)合成貝葉斯網(wǎng)絡(luò)的處理。
在步驟1中，作為觀測(Observation)要素，生成了 [FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素每一個(gè)的個(gè)別的四個(gè) 貝葉斯網(wǎng)絡(luò)。在步驟2中，進(jìn)行將這四個(gè)貝葉斯網(wǎng)絡(luò)組合為一個(gè)大的貝葉斯網(wǎng)全各的處理。
作為組合方法有各種方法。在圖6、圖7中示出了三種組合例
(cl) (c3)。這些分別是作為觀測(Observation)要素將對于 [FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素的輸入箭頭的最大數(shù)量[Max-Fan-In]設(shè)定為(cl卜l、 (c2)=2、。3)=3的示例。
即，是作為？見測(Observation)要素將給[FaceDir]、 [Movement]. [FaceSize] 、 [Speech]四個(gè)要素帶來影響的父節(jié)點(diǎn)的數(shù)量設(shè)定為最大一個(gè)、或者兩個(gè)、或者三個(gè)的示例。
例如，在(cl)所示的示例中，作為觀測(Observation)要素將對 [FaceDir]、 [Movement]、 [FaceSize]、 [Speech]四個(gè)要素的輸入箭頭的最大數(shù)量[Max-Fan-In]設(shè)為1。在圖4、圖5所示的按照不同要素的貝葉斯網(wǎng)絡(luò)中存在設(shè)定有多個(gè)箭頭的觀測要素，但是例如在這些箭頭所示的父節(jié)點(diǎn)和子節(jié)點(diǎn)的關(guān)系中，僅選擇評(píng)價(jià)最高的父節(jié)點(diǎn)而進(jìn)行設(shè)定。
在(c2)所示的示例中，作為觀測(Observation)要素將對 [FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素的輸入箭頭的最大數(shù)量[Max-Fan-In]設(shè)為2 ，圖7的(c3)所示的示例是設(shè)為3 的示例。這樣可設(shè)定不同的貝葉斯網(wǎng)絡(luò)(cl) (c3)。例如，在想要考慮更多的要素間的關(guān)聯(lián)性的情況下，最好應(yīng)用如(c3)那樣的網(wǎng)絡(luò) 結(jié)構(gòu)。在希望減少計(jì)算量的情況下，只要應(yīng)用如(cl)那樣的形式的網(wǎng)絡(luò)即可。這樣，能夠根據(jù)處理而選擇所應(yīng)用的網(wǎng)絡(luò)。
在步驟2中設(shè)定的貝葉斯網(wǎng)絡(luò)(cl) (c3)的任一個(gè)都是在一個(gè) 事件空間、即在圖2的示例中是在時(shí)間T—、或者時(shí)間T4+1的事件空間中設(shè)定的貝葉斯網(wǎng)絡(luò)。將它稱為內(nèi)部網(wǎng)絡(luò)。然后，需要設(shè)定由步驟2設(shè)定的多個(gè)不同的事件空間的內(nèi)部網(wǎng)絡(luò)中所包含的信息、要素間的關(guān)聯(lián)性。在步驟3中執(zhí)行該處理。
接著參照圖8說明步驟3的處理。步驟3是作為不同的事件觀測
時(shí)間之間的連接例如決定狀態(tài)(State)和行動(dòng)(Action)等之間的連接的處理。具體地說，是設(shè)定基于圖2所示的時(shí)間T-t-l和時(shí)間T—的要素間的關(guān)聯(lián)性的連接的處理。該處理也通過根據(jù)貝葉斯網(wǎng)絡(luò)來應(yīng)用學(xué)習(xí)樣本數(shù)據(jù)而算出各要素間的CPT的處理來執(zhí)行。
在圖8中示出了在步驟l 、 2的處理中構(gòu)建的時(shí)間T4的貝葉斯網(wǎng)絡(luò)以及時(shí)間T-t+l的貝葉斯網(wǎng)絡(luò)。在步驟3中，解析時(shí)間T二t及時(shí) 間T二t+l的貝葉斯網(wǎng)絡(luò)間的要素的關(guān)聯(lián)性，設(shè)定連接關(guān)系。例如，得到在圖8中用粗線表示的8條連接線(L1 L8)。
此外，將作為一個(gè)事件觀察區(qū)域的、例如時(shí)間T4等閉合的網(wǎng) 絡(luò)稱為內(nèi)部網(wǎng)絡(luò)，將如圖8所示作為多個(gè)不同的事件觀察區(qū)域的、例如時(shí)間T-t及T-t+l的網(wǎng)絡(luò)稱為互聯(lián)網(wǎng)絡(luò)。另外，將與互聯(lián)網(wǎng)絡(luò) 對應(yīng)的貝葉斯網(wǎng)絡(luò)稱為動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)。
在步驟l、步驟2中，在作為內(nèi)部網(wǎng)絡(luò)的貝葉斯網(wǎng)絡(luò)中生成條件概率表(CPT),來決定設(shè)定為父節(jié)點(diǎn)和子節(jié)點(diǎn)的各要素間的連接，在步驟3中，在作為互聯(lián)網(wǎng)絡(luò)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)中生成條件概率表(CPT)，來決定設(shè)定為父節(jié)點(diǎn)和子節(jié)點(diǎn)的各要素間的連接。其結(jié)果，設(shè)定如圖8所示那樣的設(shè)定了連接關(guān)系的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。
接著參照圖9說明步驟4的處理。在步驟4中，根據(jù)在步驟3中生成的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)，將設(shè)定了連接關(guān)系的各要素歸納到各信息范疇(狀態(tài)、行動(dòng)、報(bào)酬、觀測)中，按各要素的每一個(gè)定義各個(gè) 要素間的關(guān)系、例如狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(Sw, at， st)=P(st+1|at， st)、觀測狀態(tài)確立函數(shù)O(Sw， at, ot)=P(ot+1|at， st)等概率函數(shù)。這些是根據(jù)之前參照圖3說明的CPT而決定的。即，關(guān)于通過使用了學(xué) 習(xí)樣本數(shù)據(jù)的學(xué)習(xí)而構(gòu)成貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)，作為歸納根據(jù)個(gè)別條件發(fā)生的概率的表，可通過制作條件概率表(CPT)來獲得。
在圖9所示的示例中，作為觀測(Observation)要素151歸納、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素，作為狀態(tài)(State)要素152歸納[Player] 、 [Intetion] 、 [Channel] 、 [Signal]四
個(gè)要素，關(guān)于這些各要素，定義狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(Sw, at, st)=P(st+1|at， st)、觀測狀態(tài)確立函數(shù)O(sw, at, ot)=P(ot+1|at， St)等概率函數(shù)。
通過以上的處理，可構(gòu)建使各信息范疇(狀態(tài)、行動(dòng)、報(bào)酬、觀測)中所包含的要素的依賴關(guān)系明確的因數(shù)POMDP(Factored POMDP或者F-POMDP)、即如圖2所示的因數(shù)POMDP。通過應(yīng)用這種明確了要素單位的依賴關(guān)系的因數(shù)POMDP而執(zhí)行狀態(tài)轉(zhuǎn)移的預(yù) 測、行動(dòng)決定處理，可進(jìn)行明確區(qū)分了要素單位的概率、要素間的因果關(guān)系的處理，可進(jìn)行更切合現(xiàn)實(shí)的處理。
此外，在上述的處理中，在解析要素間的關(guān)聯(lián)性時(shí)，通過應(yīng) 用了學(xué)習(xí)樣本數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)，算出條件概率表(CPT: Conditional Probability Tables),求出父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的關(guān)聯(lián)，但是如上所述，貝葉斯網(wǎng)絡(luò)以有向圖的形式表現(xiàn)了概率變量的依賴關(guān)系，能夠通過定義與箭頭的輸出源(父節(jié)點(diǎn))和箭頭的輸出目的地(子節(jié)點(diǎn))對應(yīng)的父(parent)、子(child)來表現(xiàn)各要素間的關(guān)聯(lián)。
在將貝葉斯網(wǎng)絡(luò)表現(xiàn)為數(shù)據(jù)的情況下，可表現(xiàn)為有向非循環(huán) 圖(DAG: Directed Acyclic Graph)。在圖10A、 IOB中示出DAG的例。圖10A是與互聯(lián)網(wǎng)絡(luò)、即參照圖8、圖9說明的包含多個(gè)不同(例如時(shí)間T—和T-t+l)的事件觀察區(qū)域相互要素間的關(guān)系的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)對應(yīng)的DAG(有向非循環(huán)圖)，即是互聯(lián)DAG(InterDAG)，圖 IOB是與內(nèi)部網(wǎng)絡(luò)、即參照圖6、圖7說明的僅包含一個(gè)(例如時(shí)間 T=t)事件觀察區(qū)域的要素間的關(guān)系的貝葉斯網(wǎng)絡(luò)對應(yīng)的D AG(有向非循環(huán)圖)，即是內(nèi)部DAG(IntraDAG)。
在DAG中，將之前說明的貝葉斯網(wǎng)絡(luò)的箭頭的輸出源(父 parent)設(shè)定為縱軸，將箭頭的輸出目的地(子child)設(shè)定為橫軸，
在判斷為存在箭頭、即存在父子的關(guān)聯(lián)性的情況下設(shè)定[l]，在判斷為沒有的情況下設(shè)定
，從而是使各節(jié)點(diǎn)間的關(guān)聯(lián),性明確的數(shù)據(jù)。
在圖中所示的DAG中，在父(parent)、子(child)的場中所示的 [nact]表示4亍動(dòng)(action)的要素?cái)?shù)量(number) ， [nst]表示狀態(tài)(state) 的要素?cái)?shù)量，[nrew]表示報(bào)酬(reward)的要素?cái)?shù)量，[nobs]表示觀測 (observation)的要素?cái)?shù)量。在圖中進(jìn)行簡化表示，沒有示出各要素名，但是將與各個(gè)要素?cái)?shù)量相應(yīng)的要素名或者要素操作符分別設(shè) 定于表示父節(jié)點(diǎn)的縱場和表示子節(jié)點(diǎn)的橫場，在判斷為各自的節(jié) 點(diǎn)間存在關(guān)聯(lián)性的情況下設(shè)定[l]。
即，通過應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)，執(zhí)行各要素間是否存在父子的關(guān)聯(lián)性的判斷，在診斷為對某個(gè)特定子節(jié) 點(diǎn)存在特定節(jié)點(diǎn)的影響的情況下，將該節(jié)點(diǎn)判斷為父節(jié)點(diǎn)，進(jìn)行在其DAG的對應(yīng)區(qū)域記錄[l]的處理。通過執(zhí)行應(yīng)用了各種學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)，能夠用[l]、 [O]填充DAG的區(qū)域，決定各節(jié)點(diǎn)(要素)間的關(guān)聯(lián)性(貝葉斯網(wǎng)絡(luò)中的箭頭)的有無。
接著參照圖11~圖13所示的流程圖說明按照本發(fā)明的因數(shù) POMDP(Factored POMDP)構(gòu)建順序。圖11所示的流程圖是按照本發(fā)明的因數(shù)P O M D P構(gòu)建順序的整體處理流程，圖12所示的流程圖是表示圖11所示的流程中的步驟S120的細(xì)節(jié)的流程，圖13所示的流程圖是表示圖ll所示的流程中的步驟S130的細(xì)節(jié)的流程。
首先，參照圖ll所示的流程圖說明按照本發(fā)明的因數(shù)POMDP 構(gòu)建順序的整體處理順序。在圖11所示的流程的步驟S110中，首先決定基本的因數(shù)POMDP(Factored POMDP)的模型、即結(jié)構(gòu)。具體地說，決定在POMDP中規(guī)定的各個(gè)信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)中包含的要素。在決定該要素時(shí)，設(shè)定要素的種類和各要素的尺寸等要素信息。
要素尺寸是指相當(dāng)于要素所能取得的狀態(tài)數(shù)量的值。例如，
在圖2所示的因數(shù)POMDP(Factored POMDP)的結(jié)構(gòu)例中，以設(shè)定為觀測(Observation)的要素的[臉]為例進(jìn)行說明。例如，在能夠判斷作為觀測對象的機(jī)器人的臉的方向朝向正面(True)、或不是(False) 的兩個(gè)狀態(tài)的情況下，將該要素[臉]的尺寸設(shè)定為[2 ]。
并且，在步驟S110中，作為因數(shù)POMDP(Factored POMDP)的基本結(jié)構(gòu)，決定對之前參照圖6、圖7說明的要素的輸入箭頭的最大數(shù)量[Max-Fan-In]。即，在步驟S110中，輸入包含有在POMDP 中定義的各信息中包含的要素的種類的要素信息、和作為因數(shù) POMDP(Factored POMDP)的結(jié)構(gòu)信息的作為貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn) 連接狀態(tài)的最大輸入數(shù)量(Max-Fan-In)信息，然后按照這些輸入信息，執(zhí)行因數(shù)POMDP(Factored POMDP)的構(gòu)建處理。
在步驟S120和步驟S130中，應(yīng)用預(yù)先準(zhǔn)備的學(xué)習(xí)數(shù)據(jù)1S0進(jìn)行內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)以及互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò) 的學(xué)習(xí)。該處理是解析在步驟S110中設(shè)定的要素間的關(guān)聯(lián)而明確要素間的對應(yīng)的處理，即，是設(shè)定圖2所示的因數(shù)POMDP(Factored POMDP)結(jié)構(gòu)中的箭頭并明確各要素間的關(guān)系的處理。
此外，在步驟S120中，執(zhí)行對在一個(gè)事件觀察區(qū)域(圖2中的時(shí)間T叫等單一時(shí)間)中的因數(shù)POMDP(Factored POMDP)結(jié)構(gòu)中的要素間的對應(yīng)進(jìn)行解析的處理，在步驟S130中，執(zhí)行對在不同事件觀察區(qū)域中的因數(shù)POMDP(Factored POMDP)結(jié)構(gòu)中的要素間的對應(yīng)進(jìn)行解析的處理。上述的步驟1和步驟2中的內(nèi)部網(wǎng)絡(luò)對應(yīng)的處理對應(yīng)于圖ll中的步驟S120的處理，上述的步驟3中的互聯(lián)網(wǎng)絡(luò) 對應(yīng)的處理對應(yīng)于圖ll中的步驟S130的處理。
即，步驟S120是進(jìn)行如下處理的內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟構(gòu)建關(guān)于作為在部分可觀測馬爾科夫決策過程(POMDP: Partially Observable Markov Decision Process)中定義的信息的》見觀'J
(Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)，組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)來構(gòu)建內(nèi) 部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)；步驟S13 0是進(jìn)行如下處理的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟解析不同事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng) 的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性，構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng) 絡(luò)。
此外，在步驟S120的內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟以及步驟S130 的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中，作為表示要素間的關(guān)系的數(shù)據(jù)，應(yīng)用了對應(yīng)于貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖(DAG: Directed Acyclic Graph)，根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息，執(zhí)行有向非循環(huán)圖(DAG)的更新處理，從而完成貝葉斯網(wǎng)絡(luò)。關(guān)于該步驟S120、步驟S130的處理的細(xì)節(jié)，在后面參照圖l2、圖13的流程圖進(jìn)4亍詳細(xì)i兌明。
在步驟S140中，根據(jù)步驟S120、 S130的處理結(jié)果，完成如圖2 所示那樣的因數(shù)POMDP(Factored POMDP)。即，根據(jù)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)來構(gòu)建因數(shù)POMDP。此外，在該處理時(shí)，根據(jù)各信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)、各要素間的具體關(guān)系程度、即作為歸納了基于箭頭輸出源(parent)的要素的箭頭輸出目的地(child)的要素的發(fā)生概率的表的CPT(Conditional Probability Tables),設(shè)定表示信息、要素間的關(guān)聯(lián)的關(guān)系式、例如上述的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(st+1， at, st)=P(st+1|at， st)、觀測狀態(tài)確立函數(shù)0(st+1, at， ot)=P(ot+1|at， St)等概率函數(shù)。
通過這些處理，例如可構(gòu)建如圖2所示那樣的因數(shù) POMDP(Factored POMDP)。通過應(yīng)用這種明確了要素單位的依賴關(guān)系的因數(shù)POMDP來執(zhí)行狀態(tài)轉(zhuǎn)移的預(yù)測、行動(dòng)決定處理，可進(jìn) 行明確地區(qū)分了要素單位的概率、要素間的因果關(guān)系的處理，可
進(jìn)行更切合現(xiàn)實(shí)的處理。
接著，參照圖12所示的流程圖說明步驟S120的處理的細(xì)節(jié)。
在步驟S121中，判斷在步驟S110中設(shè)定的模型是否為可進(jìn)行應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)180的學(xué)習(xí)的模型。學(xué)習(xí)樣本數(shù)據(jù)180是存儲(chǔ)在信息處理裝置可利用的數(shù)據(jù)庫等存儲(chǔ)部中的保存數(shù)據(jù)。存儲(chǔ)有可構(gòu) 成行動(dòng)(Action)、狀態(tài)(State)、觀測(Observation)的各信息的要素信息、表示要素彼此的依賴關(guān)系的樣本數(shù)據(jù)。在步驟S121中，判斷用于構(gòu)建在步驟S110中設(shè)定的要素間的關(guān)系所需的信息是否包含在學(xué)習(xí)樣本數(shù)據(jù)180中。在沒有包含的情況下，不能進(jìn)行應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)180的學(xué)習(xí)，結(jié)束處理。
在步驟S121中，當(dāng)判斷為用于構(gòu)建在步驟S110中設(shè)定的要素間的關(guān)系所需的信息包含在學(xué)習(xí)樣本數(shù)據(jù)180中時(shí)，進(jìn)入步驟 S122。在步驟S122中，將表示有無之前參照圖IOA、 IOB說明的貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)間的關(guān)系(箭頭)的有向非循環(huán)圖(DAG: Directed Acyclic Graph)進(jìn)行復(fù)位。在該時(shí)刻，進(jìn)行圖1 0B所示的內(nèi)部網(wǎng)絡(luò) 對應(yīng)的DAG的制作處理。
將在步驟S110中決定的要素名設(shè)定于DAG的縱場(父parent) 和橫場(子child)的各場，進(jìn)行將表示有無箭頭的DAG的設(shè)定值全部設(shè)定為[O](沒有關(guān)聯(lián)(箭頭))的復(fù)位處理(初始化)。
接著，步驟S123 S125是應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)部貝葉斯網(wǎng) 絡(luò)的學(xué)習(xí)處理。該處理相當(dāng)于之前參照圖4 圖7說明的處理。首先，如參照圖4、圖5的說明那樣，在步驟S123中選擇對應(yīng)于一個(gè)觀測要素[nobs]的觀測要素?cái)?shù)據(jù)(i)。 i相當(dāng)于觀測要素的識(shí)別編號(hào)。
在步驟S124中，執(zhí)行應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理，判斷各要素(節(jié)點(diǎn))間的關(guān)聯(lián)性來判斷有無箭頭，在步驟S125中，在檢測出判斷為存在關(guān)聯(lián)(存在箭頭)的節(jié)點(diǎn)的組合的情況下，更新DAG 的數(shù)據(jù)、即對DAG的對應(yīng)入口設(shè)定[l]。
在步驟S126中，判斷是否結(jié)束了對應(yīng)于全部觀測要素?cái)?shù)據(jù)的
處理，在存在未處理的觀測要素的情況下，在步驟S127中遞增作為觀測要素的識(shí)別編號(hào)的i,重復(fù)執(zhí)行步驟S123以后的處理。當(dāng)通過這些處理結(jié)束對應(yīng)于全部7見測要素的學(xué)習(xí)處理時(shí)，完成與內(nèi)部網(wǎng)絡(luò)的個(gè)別觀測要素對應(yīng)的多個(gè)貝葉斯網(wǎng)絡(luò)。即，是參照圖4、圖
生成處理，通過這些處理可得到對應(yīng)于各)f見測要素的DAG。
接著，執(zhí)行步驟S130的處理。參照圖13所示的流程圖說明步驟S130的處理的細(xì)節(jié)。首先，在步驟S131中組合與在步驟S120中生成的各觀測要素(i)對應(yīng)的DAG，生成組合了全部觀測要素的 DAG。該處理相當(dāng)于之前參照圖6、圖7說明的貝葉斯網(wǎng)絡(luò)的生成。此外，預(yù)先在步驟S110中作為因數(shù)POMDP(Factored POMDP)的基本結(jié)構(gòu)而決定了對于要素的輸入箭頭的最大數(shù)量[Max-Fan-In],因此生成在該決定的輸入箭頭的最大數(shù)量[Max-Fan-In]的限制之下組合了全部觀測要素的DAG。
在此生成的DAG是內(nèi)部網(wǎng)絡(luò)對應(yīng)的DAG。接著，在步驟Sl32 中，組合關(guān)于所有[狀態(tài)(S)]、[行動(dòng)(A)]、[觀測(O)]的要素?cái)?shù)據(jù)，來設(shè)定互聯(lián)網(wǎng)絡(luò)對應(yīng)的DBN結(jié)構(gòu)。在該時(shí)刻，沒有設(shè)定不同的事件觀察區(qū)域的關(guān)聯(lián)(箭頭)。即，沒有設(shè)定圖8所示的DBN中的用粗線表示的箭頭(L1 L8)。
接著，在步驟S133中，通過應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)180的學(xué)習(xí)，解析不同的內(nèi)部網(wǎng)絡(luò)間的要素間的關(guān)聯(lián)，并決定互聯(lián)DAG的基本結(jié)構(gòu)。通過該處理，設(shè)定圖8所示的DBN中的用粗線表示的箭頭 (L1 L8)。接著，在步驟S134中，完成可計(jì)算報(bào)酬[Reward]的內(nèi)部 DAG以及互聯(lián)DAG。在該處理中，在報(bào)酬(Reward)中設(shè)定了要素的情況下，作為設(shè)定關(guān)于各要素的報(bào)酬計(jì)算式的處理而執(zhí)行。
通過以上的處理，生成使多個(gè)事件觀測區(qū)域間的信息、要素
的關(guān)系明確的互聯(lián)網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)、即動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)
(DBN)。
在這些處理之后，執(zhí)行圖11所示的流程的步驟S140的處理、即執(zhí)行完成因數(shù)POMDP(Factored POMDP)的處理。即，根據(jù)各信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)、各要素間的具體關(guān)系程度、即作為歸納了基于箭頭輸出源(parent)的要素的箭頭輸出目的地(child)的要素的發(fā)生概率的表的CPT(Conditional Probability Tables),設(shè)定表示信息、要素間的關(guān)聯(lián)的關(guān)系式、例如上述的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(st+1， at， st)=P(st+1|at, st)、觀測狀態(tài)確立函數(shù)0(st+1, at, ot)=P(ot+1|at, St)等概率函數(shù)。
通過這些處理，例如可構(gòu)建如圖2所示那樣的因數(shù) POMDP(Factored POMDP)。通過應(yīng)用這種明確了要素單位的依賴關(guān)系的因數(shù)POMDP來執(zhí)行狀態(tài)轉(zhuǎn)移的預(yù)測、行動(dòng)決定處理，可進(jìn) 行明確區(qū)分了要素單位的概率、要素間的因果關(guān)系的處理，可進(jìn) 行更切合現(xiàn)實(shí)的處理。
參照圖14說明執(zhí)行上述的因數(shù)POMDP(Factored POMDP)的生成處理的信息處理裝置的功能結(jié)構(gòu)。圖14是表示執(zhí)行因數(shù)POMDP 的生成處理的信息處理裝置的功能結(jié)構(gòu)的框圖。信息處理裝置200 由與普通的PC結(jié)構(gòu)相同的結(jié)構(gòu)來實(shí)現(xiàn)。此外，在后面說明硬件結(jié) 構(gòu)的具體例。信息處理裝置200具有作為數(shù)據(jù)輸入輸出部的用戶接口201、數(shù)據(jù)處理部202、存儲(chǔ)部203、保存了學(xué)習(xí)樣本數(shù)據(jù)的數(shù) 據(jù)庫204。
通過用戶接口 201輸入因數(shù)POMDP(Factored POMDP)的生成處理的開始命令、或者與節(jié)點(diǎn)對應(yīng)的要素信息等的結(jié)構(gòu)信息、節(jié) 點(diǎn)間的關(guān)系信息、報(bào)酬(Reward)的計(jì)算式信息等。數(shù)據(jù)處理部202 執(zhí)行之前參照圖11 圖13的流程圖說明的因數(shù)POMDP的生成處理。存儲(chǔ)部203保存執(zhí)行參照圖11 圖13的流程圖說明的因數(shù)POMDP的
生成處理的程序，由構(gòu)成數(shù)據(jù)處理部202的CPU來執(zhí)行按照程序的處理。
在該因數(shù)POMDP的生成處理中應(yīng)用的學(xué)習(xí)樣本數(shù)據(jù)保存在數(shù)據(jù)庫204中，數(shù)據(jù)處理部202適當(dāng)從數(shù)據(jù)庫204讀入學(xué)習(xí)樣本數(shù)據(jù) 來執(zhí)行因數(shù)POMDP的生成處理。此外，與在該處理中生成的貝葉斯網(wǎng)絡(luò)相當(dāng)?shù)挠邢蚍茄h(huán)圖(DAG: Directed Acyclic Graph)記錄在存儲(chǔ)部203中，根據(jù)需要進(jìn)行更新。
具體說明數(shù)據(jù)處理部2 0 2所執(zhí)行的處理。數(shù)據(jù)處理部2 02以部分可7見測馬爾牙牛夫決策過禾呈(POMDP: Partially Observable Markov Decision Process)為基本結(jié)構(gòu)，將在POMDP中定義的各信息中所包含的要素作為單位來解析要素間的關(guān)系，根據(jù)該解析結(jié)果，執(zhí)行作為包含要素間的關(guān)系信息的POMDP的因數(shù)POMDP(Factored POMDP)的構(gòu)建。
例如，數(shù)據(jù)處理部202執(zhí)行如下的處理根據(jù)學(xué)習(xí)樣本數(shù)據(jù)決定作為在POMDP中定義的信息的觀測(Observation)信息中所包含的各個(gè)觀測要素與作為在POMDP中定義的觀測以外的信息的狀態(tài) (State)、行動(dòng)(Action)、報(bào)酬(Reard)中的至少任一個(gè)中所包含的要素之間的關(guān)聯(lián)性，構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò)；之后執(zhí)行如下的處理組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)路，構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)，并且解析不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性，構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。這些處理是從數(shù)據(jù)庫204讀入學(xué)習(xí)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)處理而執(zhí)行的。
即，數(shù)據(jù)處理部202應(yīng)用對應(yīng)于貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖 (DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué) 習(xí)處理而得到的信息，執(zhí)行有向非循環(huán)圖(DAG)的更新處理，從而
解析要素間的關(guān)系來構(gòu)建因數(shù)POMDP。此外，在這些處理之前，
數(shù)據(jù)處理部202輸入包含有在POMDP中定義的各信息中所包含的要素的種類的要素信息和作為因數(shù)P O MD P的結(jié)構(gòu)信息的貝葉斯網(wǎng) 絡(luò)中的節(jié)點(diǎn)連接形式的最大輸入數(shù)量(Max-Fan-In)信息，按照該輸入信息來構(gòu)建因數(shù)POMDP 。
最后，參照圖15說明執(zhí)行上述處理的信息處理裝置的硬件結(jié) 構(gòu)例。CPU(Central Processing Unit:中央處理器)501作為對應(yīng)于 OS(Operating System:操作系統(tǒng))的處理、在上述的實(shí)施例中說明的數(shù)據(jù)處理部的執(zhí)行主體而發(fā)揮功能。具體地說，執(zhí)行根據(jù)應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)的生成來構(gòu)建因數(shù)POMDP的處理。這些處理是按照保存在各信息處理裝置的ROM、硬盤等數(shù)據(jù)存儲(chǔ) 部中的計(jì)算機(jī)程序來執(zhí)行的。
POMDP生成處理程序、運(yùn)算參數(shù)等。RAM(Random Access Memory)503保存CPU501的執(zhí)行中使用的程序、在其執(zhí)行中適當(dāng)變化的參數(shù)等。它們通過由CPU總線等構(gòu)成的主機(jī)總線S(M而相互連接的。
主機(jī)總線504通過橋505連接到PCI(Peripheral Component Interconnect/Interface:夕卜圍部件互連/接口 )總線等外部總線506上。
鍵盤508、指示設(shè)備509是由用戶操作的輸入設(shè)備。顯示器510 由液晶顯示裝置或者CRT(Cathode Ray Tube:陰極射線管)等構(gòu)成。
HDD(Hard Disk Drive)511內(nèi)置硬盤并驅(qū)動(dòng)硬盤，記錄或者再現(xiàn)由CPU501執(zhí)行的程序、信息。硬盤例如利用于學(xué)習(xí)用樣本數(shù)據(jù)、與貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)對應(yīng)的DAG信息等的保存單元等中，并且，保存數(shù)據(jù)處理程序等各種計(jì)算機(jī)程序。
驅(qū)動(dòng)器512讀出存儲(chǔ)在被安裝的磁盤、光盤、磁光盤、或者半導(dǎo)體存儲(chǔ)器等可移動(dòng)記錄介質(zhì)521中的數(shù)據(jù)或者程序，將該數(shù)據(jù)或
者程序提供給通過接口 507、外部總線506、橋505 、以及主機(jī)總線 504連接的RAM503。
連接端口 514是連接外部連接設(shè)備522的端口，具有USB、 IEEE1394等連接部。連接端口 514通過接口 507、以及外部總線506、橋505、主機(jī)總線504等連接到CPU501等。通信部515連接到網(wǎng)絡(luò)。也可以是將學(xué)習(xí)用樣本數(shù)據(jù)通過通信部515輸入的結(jié)構(gòu)。
此外，圖15所示的信息處理裝置的硬件結(jié)構(gòu)例是應(yīng)用PC而構(gòu) 成的裝置的一例，并不限于圖15所示的結(jié)構(gòu)，能夠應(yīng)用可執(zhí)行在上述的實(shí)施例中說明的處理的各種裝置。
以上，參照特定的實(shí)施例詳細(xì)說明了本發(fā)明。然而，顯然在不脫離本發(fā)明的要旨的范圍內(nèi)，本領(lǐng)域技術(shù)人員可進(jìn)行該實(shí)施例的修正、代用。即，以例示的形式公開了本發(fā)明，不應(yīng)進(jìn)行限定性解釋。為了判斷本發(fā)明的要旨，應(yīng)該參照權(quán)利要求書部分。
此外，在說明書中說明的一系列的處理能夠利用硬件、或者軟件、或者兩者的復(fù)合結(jié)構(gòu)來執(zhí)行。在利用軟件執(zhí)行處理的情況下，可以將記錄了處理順序的程序安裝在組裝到專用硬件中的計(jì) 算機(jī)內(nèi)的存儲(chǔ)器中而執(zhí)行，或者在可執(zhí)行各種處理的通用計(jì)算機(jī) 中安裝程序而執(zhí)行。
例如，能夠?qū)⒊绦蝾A(yù)先記錄在作為記錄介質(zhì)的硬盤、 ROM(Read Only Memory)中。或者，能夠?qū)⒊绦驎簳r(shí)或者永久性地保存(記錄)在軟盤、CD-ROM(Compact Disc Read Only Memory: 光盤只讀存4渚器)、MO(Magneto optical:》茲光)盤、DVD(Digital Versatile Disc:數(shù)字多功能光盤)、磁盤、半導(dǎo)體存儲(chǔ)器等可移動(dòng) 記錄介質(zhì)中。這種可移動(dòng)記錄介質(zhì)能夠作為所謂的封裝軟件而提供。
此外，程序除了可以從上述的可移動(dòng)記錄介質(zhì)安裝到計(jì)算機(jī) 之外，也可以從下載站點(diǎn)無線傳送到計(jì)算機(jī)，或者通過LAN(Local
Area Network:局域網(wǎng))、因特網(wǎng)之類的網(wǎng)絡(luò)，有線傳送到計(jì)算機(jī)，在計(jì)算機(jī)中接收這樣傳送過來的程序，可安裝到內(nèi)置的硬盤等記
錄介質(zhì)中。
此外，i兌明書中記載的各種處理不{義可以4妄照記載以時(shí)間序列執(zhí)行，也可以根據(jù)執(zhí)行處理的裝置的處理能力或者需要并行或個(gè)別執(zhí)行。另外，在本說明書中的系統(tǒng)是多個(gè)裝置的邏輯集合結(jié) 構(gòu)，并不限于各結(jié)構(gòu)的裝置在同一殼體內(nèi)。
產(chǎn)業(yè)上的可利用性
如以上i兌明，才艮據(jù)本發(fā)明的一個(gè)實(shí)施例的結(jié)構(gòu)，以部分可觀測馬爾科夫決策過程(POMDP : Partially Observable Markov Decision Process)為基本結(jié)構(gòu)，關(guān)于在POMDP中定義的狀態(tài) (State)、行動(dòng)(Action)、觀測(Observation)、才艮酬(Reward)的各信息，分別設(shè)定多個(gè)不同的要素(因數(shù))，能夠自動(dòng)構(gòu)建明確了要素間的關(guān) 系的因數(shù)POMDP(Factored POMDP)。在應(yīng)用使通過本發(fā)明的處理而生成的要素單位的依賴關(guān)系明確的因數(shù)POMDP(Factored POMDP)的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理中，可進(jìn)行明確區(qū)分了要素單位的因果關(guān)系的處理，可進(jìn)行更加正確的狀況預(yù)測、有效的行動(dòng)決定處理。利用本發(fā)明構(gòu)建的因數(shù)POMDP例如可應(yīng)用于決定機(jī)器人的行動(dòng)的處理、使用了計(jì)算機(jī)的仿真、數(shù)據(jù)處理、以及企業(yè)經(jīng)營等中的最佳行動(dòng)的決定處理等各種行動(dòng)的決定中。
權(quán)利要求
1.一種信息處理裝置，構(gòu)建包含不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu)，其特征在于，具有數(shù)據(jù)處理部，其以部分可觀測馬爾科夫決策過程(POMDPPartially Observable Markov Decision Process)為基本結(jié)構(gòu)，將在POMDP中定義的各信息中包含的要素作為單位，對要素間的關(guān)系進(jìn)行解析，根據(jù)該解析結(jié)果，執(zhí)行作為包含要素間的關(guān)系信息的POMDP的因數(shù)POMDP(Factored POMDP)的構(gòu)建。
2. 根據(jù)權(quán)利要求l所述的信息處理裝置，其特征在于，上述數(shù)據(jù)處理部是如下結(jié)構(gòu)構(gòu)建關(guān)于作為在POMDP中定義的信息的觀測(Observation)中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network)，組合該觀測要素單位的貝葉斯網(wǎng)絡(luò)，構(gòu)建上述因凄史POMDP(Factored POMDP)。
3. 根據(jù)權(quán)利要求l所述的信息處理裝置，其特征在于，上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)(Observation)信息中所包含的各個(gè)觀測要素和在POMDP中定義的狀態(tài)(State)、行動(dòng)(Action)、報(bào)酬(Reard)這些作為觀測以外信息的至少任一個(gè)所包含的要素之間的關(guān)聯(lián)性，構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò)。
4. 根據(jù)權(quán)利要求l所述的信息處理裝置，其特征在于，上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)構(gòu)建關(guān)于作為在POMDP中定義的信息的觀測(Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)，組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)，構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)，并且，對不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性進(jìn)行解析，構(gòu)建與具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。
5. 根據(jù)權(quán)利要求4所述的信息處理裝置，其特征在于，上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性。
6. 根據(jù)權(quán)利要求l所述的信息處理裝置，其特征在于，上述數(shù)據(jù)處理部是如下結(jié)構(gòu)作為表示上述要素間的關(guān)系的數(shù)據(jù)，應(yīng)用對應(yīng)于貝葉斯網(wǎng)絡(luò) 的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué) 習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息，執(zhí)行上述有向非循環(huán)圖 (DAG)的更新處理，解析要素間的關(guān)系，構(gòu)建上述因數(shù) POMDP(Factored POMDP)。
7. 根據(jù)權(quán)利要求l所述的信息處理裝置，其特征在于，上述數(shù)據(jù)處理部是如下結(jié)構(gòu)輸入包含有在上述POMDP中定義的各信息中所包含的要素的種類的要素信息以及作為上述因數(shù)POMDP(Factored POMDP)的結(jié) 構(gòu)信息的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接形式的最大輸入數(shù)量 (Max-Fan-In)信息，按照該輸入信息來構(gòu)建上述因數(shù) POMDP(Factored POMDP)。
8. —種信息處理方法，是在信息處理裝置中構(gòu)建包含不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu)的信息處理方法，其特征在于，具有如下步驟內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中，構(gòu)建關(guān)于作為在部分可觀測馬爾科夫決策過程(POMDP: Partially Observable Markov Decision Process)中定義的信息的觀測(Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)，構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)；動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中解析不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性，構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互4關(guān)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)；以及因數(shù)POMDP生成步驟，在數(shù)據(jù)處理部中，根據(jù)上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)，生成包含有在POMDP中定義的信息的要素的關(guān)系信息的因數(shù)POMDP(Factored POMDP)。
9. 根據(jù)權(quán)利要求8所述的信息處理方法，其特征在于，上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟包含由上述數(shù)據(jù)處理部執(zhí)行如下處理的步驟根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定作為在POMDP中定義的信息的觀測 (Observation)中所包含的各個(gè)觀測要素和在POMDP中定義的狀態(tài) (State)、行動(dòng)(Action)、報(bào)酬(Reard)這些作為觀測以外信息的至少任一個(gè)中包含的要素之間的關(guān)聯(lián)性，構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò)。
10. 根據(jù)權(quán)利要求8所述的信息處理方法，其特征在于，在上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中，由上述數(shù)據(jù)處理部執(zhí)行根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性的處理。
11. 根據(jù)權(quán)利要求8所述的信息處理方法，其特征在于，在上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟以及上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中，上述數(shù)據(jù)處理部作為表示上述要素間的關(guān)系的數(shù)據(jù)，應(yīng)用對應(yīng)于貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息，執(zhí)行上述有向非循環(huán)圖(DAG)的更新處理，從而解析要素間的關(guān) 系。
12. 根據(jù)權(quán)利要求8所述的信息處理方法，其特征在于，上述信息處理方法還執(zhí)行如下的處理在上述數(shù)據(jù)處理部中，輸入包含有在上述POMDP中定義的各信息中所包含的要素的種類的要素信息以及作為上述因數(shù)POMDP (Factored POMDP)的結(jié)構(gòu)信息的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接形式的最大輸入數(shù)量(Max-Fan-In)信息，按照該輸入信息來構(gòu)建上述因數(shù) POMDP(Factored POMDP)。
13. —種計(jì)算機(jī)程序，使信息處理裝置構(gòu)建包含不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu)，其特征在于，執(zhí)行以下步驟內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中構(gòu)建關(guān)于作為在部分可觀測馬爾科夫決策過程(POMDP : Partially Observable Markov Decision Process)中定義的信息的觀測(Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)，構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)；動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟，在數(shù)據(jù)處理部中解析不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性，構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)；以及因數(shù)POMDP生成步驟，在數(shù)據(jù)處理部中根據(jù)上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)，生成包含有在P O M D P中定義的信息的要素的關(guān)系信息的因數(shù)POMDP(Factored POMDP)。
全文摘要
提供信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序。實(shí)現(xiàn)可構(gòu)建改進(jìn)的POMDP的裝置以及方法。關(guān)于在部分可觀測馬爾科夫決策過程(POMDPPartially Observable Markov Decision Process)中定義的狀態(tài)(State)、行動(dòng)(Action)、觀測(Observation)、報(bào)酬(Reward)的各信息，分別設(shè)定多個(gè)不同的要素(因數(shù))，構(gòu)建明確了要素間的關(guān)系的因數(shù)POMDP(Factored POMDP)。在應(yīng)用因數(shù)POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理中，可進(jìn)行明確區(qū)分了要素單位的因果關(guān)系的處理，可進(jìn)行更正確的狀況預(yù)測、有效的行動(dòng)決定處理。
文檔編號(hào)G06N5/04GK101105845SQ20071013882
公開日2008年1月16日申請日期2007年6月7日優(yōu)先權(quán)日2006年6月7日
發(fā)明者尤戈·戴·普羅費(fèi)歐申請人:索尼株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尤戈.戴.普羅費(fèi)歐
技術(shù)所有人：索尼株式會(huì)社
我是此專利的發(fā)明人

上一篇：自動(dòng)控制和信息系統(tǒng)的選擇性功能組模擬的制作方法
上一篇：信息處理方法和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

信息處理方法多相關(guān)技術(shù)

信息處理方法多ppt相關(guān)技術(shù)

信息處理方法相關(guān)技術(shù)

地基處理方法相關(guān)技術(shù)

小龍蝦處理方法相關(guān)技術(shù)

0x80070002處理方法相關(guān)技術(shù)

勒索病毒處理方法相關(guān)技術(shù)

生活垃圾處理方法相關(guān)技術(shù)

身份證被盜用處理方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序的制作方法