專利名稱:信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理裝置和信息處理方法、以及計(jì)算機(jī) 程序。更詳細(xì)地說,涉及一種以部分可?見測馬爾科夫決策過程
(POMDP: Partially Observable Markov Decision Process)為基本結(jié) 構(gòu)而自動(dòng)構(gòu)建能夠以要素單位進(jìn)行處理的因數(shù)POMDP(Factored POMDP)的信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序。
背景技術(shù):
作為狀態(tài)預(yù)測、行動(dòng)決定方法之一,可知應(yīng)用了部分可觀測 馬爾科夫決策過牙呈(POMDP: Partially Observable Markov Decision Process)的處理。下面說明部分可觀測馬爾科夫決策過程(以下稱為 POMDP)的概要。
POMDP作為應(yīng)用了以下信息的處理來進(jìn)行。
(a) 狀態(tài)信息(State space:狀態(tài)空間)S
(b) 行動(dòng)信息(Action space: 行動(dòng)玄間)A
(c) 從時(shí)間T=(t-1)的狀態(tài)S二st.i和行動(dòng)A二a"算出向下 一 個(gè)時(shí)間 T=(t)的狀態(tài)S=sj々狀態(tài)轉(zhuǎn)移概率的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(st, at小St—0二P(Stlat小St陽O
(d) 算出根據(jù)時(shí)間T=(t)的狀態(tài)S-St和行動(dòng)A=at的報(bào)酬(Reward) 的才艮酬函數(shù)R(st, at)
(e) 觀測信息(Observation space:觀測空間)Q
(f) 從時(shí)間T=(t-1)的行動(dòng)A=at_ i和時(shí)間T=(t)的狀態(tài)S=st算出時(shí) 間T=(t)的觀測狀態(tài)的發(fā)生概率的觀測狀態(tài)確立函數(shù)0(st, at-!, Ot-,)二P(Otlat小st)
POMDP進(jìn)行應(yīng)用了上述的各信息的狀態(tài)預(yù)測、行動(dòng)決定處
理。例如,應(yīng)用于從可獲取的少量信息中決定判斷為最佳的行動(dòng)
(Action)的處理等,具體地說,可應(yīng)用于決定才幾器人的行動(dòng)的處理、 使用了計(jì)算機(jī)的仿真、數(shù)據(jù)處理、以及企業(yè)經(jīng)營等中的最佳行動(dòng) 的決定處理等各種行動(dòng)的決定中。
參照圖l說明應(yīng)用了上述各信息的POMDP的狀態(tài)預(yù)測、行動(dòng) 決定處理。在圖l中示出了時(shí)間丁=卜1的狀態(tài)51-1、 ^t動(dòng)aw、 ^^艮酬Rt-,、 觀測o"和之后的時(shí)間T4的狀態(tài)St、行動(dòng)at、才艮酬Rt、觀測ot。連接 各塊的箭頭表示相互的影響。示出了如下情形箭頭的輸出源 (parent)的信息、狀態(tài)有可能給箭頭的輸出目的地(child)的狀態(tài)、 信息帶來變化。
例如,在時(shí)間T—-1,
如上所述那樣,根據(jù)時(shí)間T二t-l的狀態(tài)Sw、行動(dòng)aw,利用報(bào)酬 函數(shù)R(St小at-O求出報(bào)酬Rw。
另外,觀測信息ow例如是隨著狀態(tài)Sw的變化而變化的可觀測
的信息。
它們的關(guān)系在任一個(gè)時(shí)間T-t-l、 t、 t+l、…都一樣。
并且,在不同時(shí)間的關(guān)系中,根據(jù)上述的狀態(tài)轉(zhuǎn)移概率算出 函數(shù)T(St, a", s^)二P(Stlat-h s")使時(shí)間T二t的狀態(tài)St和時(shí)間T=t-1的 狀態(tài)s"及行動(dòng)aw的關(guān)系相對應(yīng)。即,成為時(shí)間T—的狀態(tài)St的概率 是從之前的時(shí)間T=t-1的狀態(tài)sw和行動(dòng)算出的。該關(guān)系在連續(xù)的 事件觀測時(shí)間的期間全部成立。
這樣,在POMDP中,在包含不確定性的對象區(qū)域中定義各種 信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測),根據(jù)這些信息的關(guān)聯(lián)性預(yù)測在包 含不確定性的對象區(qū)域中的狀態(tài)轉(zhuǎn)移、決定自己的行動(dòng)。在進(jìn)行 行動(dòng)的決定處理時(shí),例如進(jìn)行將算出最高的報(bào)酬的行動(dòng)作為最佳 行動(dòng)而決定的處理。
此外,在POMDP的構(gòu)建處理中,重要的是正確地設(shè)定信息(狀
態(tài)、行動(dòng)、報(bào)酬、觀測)間的關(guān)聯(lián)性,在這種處理中利用貝葉斯網(wǎng)
絡(luò)(BN: Bayesian Network)。貝葉斯網(wǎng)絡(luò)由多個(gè)節(jié)點(diǎn)構(gòu)成,是定義 了各節(jié)點(diǎn)間的關(guān)聯(lián)性的網(wǎng)絡(luò)。例如在專利文獻(xiàn)l、專利文獻(xiàn)2中記 載了關(guān)于貝葉斯網(wǎng)絡(luò)的生成處理、利用處理。專利文獻(xiàn)l和專利文 獻(xiàn)2記載了用于生成正確地設(shè)定節(jié)點(diǎn)間的關(guān)聯(lián)性的可靠性高的貝 葉斯網(wǎng)絡(luò)的處理。
在參照圖1說明的POMDP中,例如關(guān)于應(yīng)用于行動(dòng)決定處理 中的各時(shí)間的狀態(tài)(State)、報(bào)酬(Reward)、觀測(Observation)、它 們的各信息,分別作為僅由一個(gè)要素構(gòu)成的信息而進(jìn)行處理。另 一方面,在現(xiàn)實(shí)環(huán)境中,能夠作為信息而獲取的狀態(tài)、觀測的信 息大多由各種不同的要素(因數(shù)(factor))構(gòu)成。然而,在到目前為止 的POMDP中,沒有實(shí)現(xiàn)自動(dòng)構(gòu)建考慮了這些各種要素的POMDP 的結(jié)構(gòu)。
專利文獻(xiàn)l: US乂^開專利2004/0220892 專利文獻(xiàn)2: US公開專利2002/010379
發(fā)明內(nèi)容
發(fā)明要解決的問題
本發(fā)明是鑒于上述問題點(diǎn)而完成的,目的在于提供一種如下 的信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序在應(yīng)用了 POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理中,自動(dòng)構(gòu)建可進(jìn)行考慮 了多個(gè)不同要素(因數(shù))的處理的因數(shù)POMDP(Factored POMDP)。
用于解決問題的方案
本發(fā)明的第一側(cè)面是構(gòu)建包含不確定性的對象區(qū)域中的信息 分析處理中應(yīng)用的信息分析處理結(jié)構(gòu)的信息處理裝置,其特征在 于具有數(shù)據(jù)處理部,該數(shù)據(jù)處理部以部分可觀測馬爾科夫決策過 程(POMDP: Partially Observable Markov Decision Process)為基本
結(jié)構(gòu),將在POMDP中定義的各信息中包含的要素作為單位,對要 素間的關(guān)系進(jìn)行解析,根據(jù)該解析結(jié)果,執(zhí)行作為包含要素間的 關(guān)系信息的POMDP的因數(shù)POMDP(Factored POMDP)的構(gòu)建。
并且,在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中,其特征 在于,上述數(shù)據(jù)處理部是如下結(jié)構(gòu)構(gòu)建關(guān)于作為在POMDP中定 義的信息的觀測(Observation)中所包含的各個(gè)觀測要素的貝葉斯 網(wǎng)絡(luò)(Bayesian Network),組合該觀測要素單位的貝葉斯網(wǎng)絡(luò),構(gòu) 建上述因數(shù)POMDP(Factored POMDP)。
并且,在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中,其特征 在于,上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)根據(jù)學(xué)習(xí)樣本數(shù) 據(jù)來決定作為在POMDP中定義的信息的觀測(Observation)信息中 所包含的各個(gè)觀測要素和作為在POMDP中定義的觀測以外的信息 的狀態(tài)(State)、行動(dòng)(Action)、報(bào)酬(Reward)中的至少任 一 個(gè)所包 含的要素之間的關(guān)聯(lián)性,構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò)。
并且,在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中,其特征 在于,上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)構(gòu)建關(guān)于作為在 POMDP中定義的信息的觀測(Observation)信息中所包含的各個(gè)觀 測要素的貝葉斯網(wǎng)絡(luò),組合相同的事件觀察區(qū)域中的多個(gè)觀測要 素單位的貝葉斯網(wǎng)絡(luò),來構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò),而且 解析不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中 所包含的要素間的關(guān)聯(lián)性,構(gòu)建具有不同的事件觀察區(qū)域中的要 素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。
并且,在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中,其特征 在于,上述數(shù)據(jù)處理部執(zhí)行根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定多個(gè)內(nèi)部網(wǎng) 絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性的處理。
并且,在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中,其特征 在于,上述數(shù)據(jù)處理部是如下結(jié)構(gòu)作為表示上述要素間的關(guān)系
的數(shù)據(jù),應(yīng)用與貝葉斯網(wǎng)絡(luò)對應(yīng)的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的 信息,來執(zhí)行上述有向非循環(huán)圖(DAG)的更新處理,解析要素間的 關(guān)系從而構(gòu)建上述因數(shù)POMDP(Factored POMDP)。
并且,在本發(fā)明的信息處理裝置的一個(gè)實(shí)施方式中,其特征 在于,上述數(shù)據(jù)處理部是如下結(jié)構(gòu)輸入包含有在上述POMDP中 定義的各信息中所包含的要素的種類的要素信息和作為上述因數(shù) POMDP(Factored POMDP)的結(jié)構(gòu)信息的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接 狀態(tài)的最大輸入數(shù)量(Max-Fan-In)信息,按照該輸入信息來構(gòu)建上 述因數(shù)POMDP(Factored POMDP)。
并且,本發(fā)明的第二側(cè)面是一種在信息處理裝置中構(gòu)建包含 不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié) 構(gòu)的信息處理方法,其特征在于,具有如下步驟
內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中構(gòu)建關(guān)于作為在 部分可觀測馬爾科夫決策過程(POMDP : Partially Observable Markov Decision Process)中定義的信息的?見測(Observation)信息 中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合 相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò),來構(gòu) 建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò);
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中解析不同的事件 觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間 的關(guān)聯(lián)性,來構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信 息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò);
因數(shù)POMDP生成步驟,在數(shù)據(jù)處理部中,根據(jù)上述動(dòng)態(tài)貝葉 斯網(wǎng)絡(luò),生成包含有在POMDP中定義的信息的要素的關(guān)系信息的 因數(shù)POMDP(Factored POMDP)。
并且,在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中,其特征
在于,上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟包含執(zhí)行如下處理的步驟
根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定作為在POMDP中定義的信息的觀測 (Observation)中所包含的各個(gè)觀測要素和作為在POMDP中定義的 觀測以外的信息的狀態(tài)(State)、行動(dòng)(Action)、報(bào)酬(Reard)中的至 少任 一 個(gè)包含的要素之間的關(guān)聯(lián)性,構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò)。
并且,在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中,其特征 在于,在上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中執(zhí)行根據(jù)學(xué)習(xí)樣本數(shù)據(jù) 來決定多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián) 性的處理。
并且,在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中,其特征 在于,在上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟以及上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò) 生成步驟中,作為表示上述要素間的關(guān)系的數(shù)據(jù),應(yīng)用與貝葉斯 網(wǎng)絡(luò)對應(yīng)的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通 過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息,執(zhí)行上述有向非 循環(huán)圖(DAG)的更新處理,來解析要素間的關(guān)系。
并且,在本發(fā)明的信息處理方法的一個(gè)實(shí)施方式中,其特征 在于,上述信息處理方法還執(zhí)行如下處理在上述數(shù)據(jù)處理部中 輸入包含有在上述POMDP中定義的各信息中所包含的要素的種類 的要素信息和作為上述因數(shù)POMDP(Factored POMDP)的結(jié)構(gòu)信息 的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接狀態(tài)的最大輸入數(shù)量(Max-Fan-In)信 息,按照該輸入信息來構(gòu)建上述因數(shù)POMDP。
并且,本發(fā)明的第三側(cè)面是一種使信息處理裝置構(gòu)建包含不 確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu) 的計(jì)算機(jī)程序,其特征在于執(zhí)行以下步驟
內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中構(gòu)建關(guān)于作為在 部分可觀測馬爾科夫決策過程(POMDP : Partially Observable
Markov Decision Process)中定義的信息的觀觀'J (Observation)信息 中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合 相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò),構(gòu)建 內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò);
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中解析不同的事件 觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間 的關(guān)聯(lián)性,構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息 的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò);
因數(shù)POMDP生成步驟,在數(shù)據(jù)處理部中根據(jù)上述動(dòng)態(tài)貝葉斯 網(wǎng)絡(luò),生成包含有在P OMDP中定義的信息的要素的關(guān)系信息的因 數(shù)POMDP(Factored POMDP)。
此外,本發(fā)明的計(jì)算機(jī)程序是例如對于可執(zhí)行各種程序代碼 的計(jì)算機(jī)系統(tǒng)能夠通過以計(jì)算機(jī)可讀形式提供的存儲(chǔ)介質(zhì)、通信 介質(zhì)、例如CD、 FD、 MO等記錄介質(zhì)、或者網(wǎng)絡(luò)等通信介質(zhì)提供 的計(jì)算機(jī)程序。通過以計(jì)算機(jī)可讀形式提供這種程序,在計(jì)算機(jī) 系統(tǒng)上實(shí)現(xiàn)與程序相應(yīng)的處理。
本發(fā)明的進(jìn)一步的其它目的、特征、優(yōu)點(diǎn)通過基于后述的本 發(fā)明的實(shí)施例、附加的附圖的更詳細(xì)的說明而變得明確。此外, 在本說明書中,系統(tǒng)是多個(gè)裝置的邏輯上的集合結(jié)構(gòu),并不限于 各結(jié)構(gòu)的裝置在同一殼體內(nèi)。
發(fā)明的效果
根據(jù)本發(fā)明的一個(gè)實(shí)施例的結(jié)構(gòu),以部分可觀測馬爾科夫決 策過程(POMDP: Partially Observable Markov Decision Process)為 基本結(jié)構(gòu),關(guān)于在POMDP中定義的狀態(tài)(State)、行動(dòng)(Action)、觀 測(Observation)、報(bào)酬(Reward)的各信息分別設(shè)定多個(gè)不同的要素 (因數(shù)),能夠自動(dòng)構(gòu)建明確了要素間關(guān)系的因數(shù)POMDP(Factored POMDP)。在應(yīng)用明確了通過本發(fā)明的處理而生成的要素單位的依
賴關(guān)系的因數(shù)POMDP(Factored POMDP)的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決 定處理中,可進(jìn)行明確區(qū)分要素單位的因果關(guān)系的處理,可進(jìn)行 更正確的狀況預(yù)測、有效的行動(dòng)決定處理。
圖l是說明以往的POMDP的圖。 圖2是說明因數(shù)POMDP的圖。
圖3是說明貝葉斯網(wǎng)絡(luò)以及條件概率表(CPT)的圖。 圖4是說明包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖5是說明包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖6是說明組合包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)而構(gòu)成
的貝葉斯網(wǎng)絡(luò)的示例的圖。
圖7是說明組合包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)而構(gòu)成
的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖8是說明組合時(shí)間T-t的貝葉斯網(wǎng)絡(luò)以及時(shí)間T=t+1的貝葉 斯網(wǎng)絡(luò)而構(gòu)成的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
圖9是說明根據(jù)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)完成因數(shù)POMDP的處理例的圖。
圖IOA、 IOB是說明在將貝葉斯網(wǎng)絡(luò)表現(xiàn)為數(shù)據(jù)的情況下的有 向非循環(huán)圖(DAG: Directed Acyclic Graph)的示例的圖。 圖ll是表示說明因數(shù)POMDP構(gòu)建順序的流程圖的圖。 圖12是表示說明因數(shù)POMDP構(gòu)建順序的流程圖的圖。 圖13是表示說明因數(shù)POMDP構(gòu)建順序的流程圖的圖。 圖14是說明信息處理裝置的功能結(jié)構(gòu)的圖。 圖15是說明信息處理裝置的硬件結(jié)構(gòu)例的圖。
附圖標(biāo)記說明
101~103:條件概率表(CPT); 151:觀測要素;152:狀態(tài)要 素;180:學(xué)習(xí)樣本數(shù)據(jù);200:信息處理裝置;201:用戶接口; 202:數(shù)據(jù)處理部;203:存儲(chǔ)部;204:數(shù)據(jù)庫;501: CPU(Central Processing Unit:中央處理單元);502: ROM(Read-Only-Memory: 只讀存儲(chǔ)器);503: RAM(Random Access Memory: 隨機(jī)存取存儲(chǔ) 器);504:主機(jī)總線;505:橋;506:外部總線;507:接口; 508: 鍵盤;509:指示設(shè)備;510:顯示器;511: HDD(Hard Disk Drive: 硬盤驅(qū)動(dòng)器);512:驅(qū)動(dòng)器;514:連接端口 ; 515:通信部;521: 可移動(dòng)記錄介質(zhì);522:外部連接設(shè)備。
具體實(shí)施例方式
下面參照附圖詳細(xì)說明與本發(fā)明的實(shí)施方式有關(guān)的信息處理 裝置和信息處理方法、以及計(jì)算機(jī)程序。
首先,參照圖2說明應(yīng)用了在本發(fā)明的信息處理裝置中構(gòu)建的 考慮了多個(gè)不同的要素(因數(shù))的POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決 定處理的概要。在應(yīng)用本發(fā)明的處理而構(gòu)建的改進(jìn)的POMDP、即 因數(shù)POMDP(Faetored POMDP)中,通過考慮了要素(因數(shù))的處理, 能夠進(jìn)行精確度更高的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定。具體地說,在 決定機(jī)器人的行動(dòng)的處理、使用了計(jì)算機(jī)的仿真、數(shù)據(jù)處理、以 及企業(yè)經(jīng)營等中的最佳行動(dòng)的決定處理等中,可進(jìn)行制度性更高 的處理。
此外,如上所述,POMDP作為應(yīng)用了以下信息的處理來進(jìn)行。
(a) 狀態(tài)信息(State space): S
(b) 行動(dòng)信息(Action space): A
(c) 從時(shí)間T=(t-1)的狀態(tài)S二Sm和行動(dòng)A=at-,算出向下 一 個(gè)時(shí)間 T=(t)的狀態(tài)S=st的狀態(tài)轉(zhuǎn)移概率的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(st,
at-i, St-O-P(stlaw, St隱D
(d) 計(jì)算根據(jù)時(shí)間T-(t)的狀態(tài)S二st和行動(dòng)A-at的報(bào)酬(Reward) 的報(bào)酬函數(shù)R(st, at)
(e) 2見測1言息(Observation space):
(f) 從時(shí)間T=(t-1)的行動(dòng)A-at.!和時(shí)間T=(t)的狀態(tài)S-St算出時(shí) 間T^t)的X見測狀態(tài)的發(fā)生概率的觀測狀態(tài)確立函數(shù)0(st, aw, Ow)-P(Otlat—!, st)
在圖2中與之前參照圖1進(jìn)行的說明同樣地,示出了時(shí)間T-t-l 的狀態(tài)st.j、行動(dòng)aw、報(bào)酬Rw、觀測Ow和之后的時(shí)間T4的狀態(tài)St、 行動(dòng)at、報(bào)酬Rt、觀測Ot。連接各塊的箭頭表示具有關(guān)聯(lián)性、影響 的關(guān)系。具體地說,表示箭頭的輸出源(parent)給箭頭的輸出目的 地(child)帶來影響的情形。
圖2的結(jié)構(gòu)與參照圖1說明的結(jié)構(gòu)不同,不是將各時(shí)間的狀態(tài) (State)、報(bào)酬(Reward)、觀測(Observation)分別僅作為 一個(gè)要素的 處理結(jié)構(gòu),而是考慮狀態(tài)(State)、報(bào)酬(Reward)、觀測中所包含的 多個(gè)要素(因數(shù))而進(jìn)行處理的結(jié)構(gòu)。即,是個(gè)別地考慮了在同一信 息(狀態(tài)、行動(dòng)、才艮酬、觀測)中包含的多個(gè)要素的POMDP。
在圖2中,示出了狀態(tài)(State)、報(bào)酬(Reward)、觀測(Observation) 的各自分別具有兩個(gè)要素的示例。此外,狀態(tài)、報(bào)酬、觀測的要 素?cái)?shù)量并不限于兩個(gè)。在本發(fā)明的信息處理裝置中,可構(gòu)建在同 一范疇的信息中存在任意數(shù)量的要素的POMDP結(jié)構(gòu)。
在圖2中,作為狀態(tài)(State),定義了
(狀態(tài)要素1)例如表示某人物、物體等是否存在的狀態(tài)的[存
在]、
(狀態(tài)要素2)例如表示某數(shù)據(jù)處理、行動(dòng)計(jì)劃等計(jì)劃的處理狀 態(tài)的[計(jì)劃]
這兩個(gè)不同的要素的狀態(tài)。
另外,關(guān)于才艮酬(Reward),定義了
(報(bào)酬要素l)對應(yīng)于[存在]的報(bào)酬、
(報(bào)酬要素2)對應(yīng)于[計(jì)劃]的報(bào)酬
這兩個(gè)不同的要素的才艮酬。
并且,關(guān)于觀測(Observation),定義了
(觀測要素l)作為某人物或物體的表情、外觀變化的觀察信息 的觀測信息即[臉]、
(觀測要素2)作為某人物或物體的行動(dòng)的觀察信息的觀須'j信,t、 即[運(yùn)動(dòng)]
這兩個(gè)不同的要素的觀測信息。
在本發(fā)明的信息處理裝置中,與之前參照圖l說明的POMDP 結(jié)構(gòu)不同,構(gòu)建個(gè)別地處理包含在各信息中的要素而可進(jìn)行應(yīng)用 了 POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理的結(jié)構(gòu)。為了將個(gè)別考 慮了如圖2所示的同一信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)中包含的多 個(gè)要素的POMDP與參照圖l說明的以往的POMDP處理進(jìn)行區(qū)分, 稱為因數(shù)POMDP(Factored POMDP或者F-POMDP)。
在本發(fā)明的信息處理裝置中,判別在POMDP中定義的各信息 (狀態(tài)、行動(dòng)、報(bào)酬、觀測)中包含的要素,判斷各要素間的關(guān)聯(lián)性, 設(shè)定如圖2所示那樣的箭頭來自動(dòng)構(gòu)建因數(shù)POMDP。在圖2所示的 結(jié)構(gòu)中,在各要素間設(shè)定了表示要素間的關(guān)聯(lián)性的箭頭,如上所 述,該箭頭表示箭頭的輸出源的要素給輸出目的地的要素帶來影 響。
在本發(fā)明的信息處理裝置中,在各信息(狀態(tài)、行動(dòng)、報(bào)酬、 觀測)中定義要素,并且解析要素間的關(guān)聯(lián)性,由此設(shè)定如圖2所 示那樣的表示要素間的關(guān)聯(lián)性的箭頭,構(gòu)建因數(shù)POMDP(Factored POMDP)。為了解析各要素間的關(guān)聯(lián)性,利用貝葉斯網(wǎng)絡(luò)(BN: Bayesian Network)。
在后面詳細(xì)+兌明這些因凄t POMDP(Factored POMDP)的具體的構(gòu)建順序。
圖2所示的因數(shù)POMDP(Factored POMDP)的說明圖與圖1同樣 地,示出了時(shí)間丁=卜1的狀態(tài)31.1、行動(dòng)aw、凈艮酬Rw、觀測o^和之 后的時(shí)間T—的狀態(tài)St、行動(dòng)at、報(bào)酬Rt、觀測ot。如上所述,連接 各塊的箭頭表示要素間的關(guān)聯(lián)性。即,在要素(因數(shù))間定義關(guān)聯(lián)性。
例如,在時(shí)間T4-1,
沖艮據(jù)時(shí)間T=t-1的狀態(tài)要素[存在]和行動(dòng),利用上述的報(bào)酬函 數(shù)R(sw , at.0求出作為報(bào)酬要素之 一 的[存在報(bào)酬]。
另外,根據(jù)時(shí)間丁=1-1的狀態(tài)要素[計(jì)劃]和行動(dòng),利用上述的 報(bào)酬函數(shù)R(s^, a")求出作為報(bào)酬要素之一 的[計(jì)劃報(bào)酬]。
另外,關(guān)于觀測信息,
觀測要素[臉]被定義為受到狀態(tài)要素[存在]影響的可觀察的 觀測信息,觀測要素[運(yùn)動(dòng)]被定義為受到狀態(tài)要素[存在]和狀態(tài)要 素[計(jì)劃]影響的可觀察的觀測信息。
它們的關(guān)系在任一個(gè)時(shí)間T—-1, t, t+ 1,…中都一樣。
并且,在不同時(shí)間的關(guān)系中,時(shí)間T爿的狀態(tài)St與時(shí)間T—"的 狀態(tài)sw及行動(dòng)aw的關(guān)系利用上述的狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(St, a", St.O二P(Stlaw, st—0,使各要素間的關(guān)系相對應(yīng)。即,時(shí)間T—的 狀態(tài)要素[存在]的發(fā)生概率是根據(jù)前 一 個(gè)時(shí)間T=t-1的狀態(tài)要素 [存在]和行動(dòng)算出的,時(shí)間T二t的狀態(tài)要素[計(jì)劃]的發(fā)生概率是根 據(jù)前一個(gè)時(shí)間T=t-1的狀態(tài)要素[計(jì)劃]和行動(dòng)算出的。該關(guān)系在連 續(xù)的事件觀測時(shí)間的期間全部成立。
這樣,在因數(shù)POMDP(Factored POMDP)中,不是將各時(shí)間的 狀態(tài)、行動(dòng)、報(bào)酬、觀測設(shè)定為一個(gè)信息,而是能夠抽出關(guān)于這 些各信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)的各個(gè)范疇進(jìn)行了細(xì)分的要素 (因數(shù))而執(zhí)行處理。此外,在圖2的結(jié)構(gòu)中,關(guān)于行動(dòng)沒有定義要 素,但是也可以按照不同要素區(qū)分行動(dòng)而進(jìn)行處理。例如,在決
定機(jī)器人的行動(dòng)的情況下,也可以分別定義[手的運(yùn)動(dòng)]、[腳的運(yùn) 動(dòng)]、[臉的運(yùn)動(dòng)]等行動(dòng),將它們作為行動(dòng)的要素而進(jìn)行處理。
在本發(fā)明的信息處理裝置中,判別在POMDP中定義的各信息 (狀態(tài)、行動(dòng)、報(bào)酬、觀測)中所包含的要素,解析各種要素間的關(guān)
聯(lián)性,由此構(gòu)建如圖2所示那樣的因數(shù)POMDP(Factored POMDP)。 為了解析各要素間的關(guān)聯(lián)性,利用貝葉斯網(wǎng)絡(luò)(BN: Bayesian Network)。貝葉斯網(wǎng)絡(luò)是以有向圖的形式表現(xiàn)了概率變量的依賴 關(guān)系的網(wǎng)絡(luò),例如,是利用節(jié)點(diǎn)記述事件、利用鏈接記述各事件 間的因果關(guān)系的有向圖。通過利用了學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí),關(guān)于 構(gòu)成貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn),能夠得到作為歸納了根據(jù)個(gè)別條件發(fā)生 的概率的表的條件概率表(CPT: Conditional Probability Tables)。
參照圖3說明貝葉斯網(wǎng)絡(luò)和條件概率表(CPT)。為了進(jìn)行概率 推論而應(yīng)用貝葉斯網(wǎng)絡(luò),特別是能夠定量地處理只能觀察一部分 事件的、包含不確定性的對象區(qū)域中的預(yù)測、意思決定。該算法 的基本是將多個(gè)事件設(shè)為節(jié)點(diǎn)并將節(jié)點(diǎn)間的依賴關(guān)系進(jìn)行模型 化。
在圖3所示的示例中,示出了作為節(jié)點(diǎn)設(shè)定了 [Cloudy(陰)]、 [Sprinkler(噴水)]、[Rain(雨)〗、[WetGlass(濕草坪)]這四個(gè)事件節(jié)點(diǎn) 的示例。連接各節(jié)點(diǎn)的箭頭表示箭頭的輸出源(父節(jié)點(diǎn))給箭頭的輸 出目的地(子節(jié)點(diǎn))的狀態(tài)帶來影響。
在圖中示出的示例中,設(shè)節(jié)點(diǎn)[Cloudy(陰)]為,
真(True)的概率^^0.5、
假(False)的概率-0.5。
在這種情況下,在以節(jié)點(diǎn)[Cloudy(陰)]為父節(jié)點(diǎn)的子節(jié)點(diǎn) [Sprinkler(噴水)]中,能夠作為與父節(jié)點(diǎn)[Cloudy(陰)]的狀態(tài)相應(yīng)的 條件概率表(CPT: Conditional Probability Tables)得到Sprinkler(噴 水)進(jìn)行動(dòng)作的(True)概率和不進(jìn)行動(dòng)作的(False)概率。是圖3所示
的CPT101。 CPT101,
在父節(jié)點(diǎn)[Cloudy(陰)]=F(False)的情況下,表示子節(jié)點(diǎn) [Sprinkler(噴水)]
不進(jìn)行動(dòng)作(False)的概率=0.5 、 進(jìn)行動(dòng)作(True)的概率=0.5 ,
在父節(jié)點(diǎn)[Cloudy(陰)]=T(True)的情況下,表示子節(jié)點(diǎn) [Sprinkler(噴水)]
不進(jìn)行動(dòng)作(False)的概率-0.9、 進(jìn)行動(dòng)作(True)的概率-O.l。
在CPT101中,P(S^F)表示子節(jié)點(diǎn)[Sprinkler(噴水)]為假(False) 的概率(Possibility) , P(S:T)表示子節(jié)點(diǎn)[Sprinkler(噴水)]為真(True) 的概率(Possibility)。
另外,在以節(jié)點(diǎn)[Cloudy(陰)]為父節(jié)點(diǎn)的子節(jié)點(diǎn)[Rain(雨)]中, 能夠作為與父節(jié)點(diǎn)[Cloudy(陰)]的狀態(tài)相應(yīng)的條件概率表(CPT : Conditional Probability Tables)而得到是Rain(雨)的(True)概率和不 是Rain(雨)的(False)概率。是圖3所示的CPT 102 。
CPT102,
在父節(jié)點(diǎn)[Cloudy(陰)]=F(False)的情況下,表示子節(jié)點(diǎn) [Rain(雨)]
不是雨(False)的概率=0.8 、 是雨(True)的概率-0.2,
在父節(jié)點(diǎn)[Cloudy(陰)]=T(True)的情況下,表示子節(jié)點(diǎn) [Rain(雨)]
不是雨(False)的概率二0.2、 是雨(True)的概率-0.8。
并且,在以節(jié)點(diǎn)[Sprinkler(噴水)]和節(jié)點(diǎn)[Rain(雨)]為父節(jié)點(diǎn)的
子節(jié)點(diǎn)[WetGlass(濕草坪)]中,能夠作為與父節(jié)點(diǎn)[Sprinkler(噴水)] 和[Rain(雨)]的狀態(tài)相應(yīng)的條件概率表(CPT : Conditional Probability Tables)而得到草碎潮濕的(True)概率和草坪沒有潮濕 的(False)概率。是圖3所示的CPT103。 CPT103,
在父節(jié)點(diǎn)[Sprinkler(噴水)]=F(False)、 父節(jié)點(diǎn)[Rain(雨)] 二F(False)的情況下,表示子節(jié)點(diǎn)[WetGlass(濕草坪)]為 草坪沒有潮濕(False)的概率=1.0 、 草,潮濕(True)的概率=0.0,
在父節(jié)點(diǎn)[Spdnkler(噴水)]=T(True)、 父節(jié)點(diǎn)[Rain(雨)] 二F(False)的情況下,表示子節(jié)點(diǎn)[WetGlass(濕草碎)]為 草沖沒有潮濕(False)的概率i. 1、 草坪潮濕(True)的概率=0.9,
在父節(jié)點(diǎn)[Sprinkler(噴水)]=F(False)、 父節(jié)點(diǎn)[Rain(雨)] -二T(True)的情況下,表示子節(jié)點(diǎn)[WetGlass(濕草坪)]為 草坪沒有潮濕(False)的概率二O. 1、 草沖潮濕(True)的概率=0.9 ,
在父節(jié)點(diǎn)[Sprinkler(噴水)]:T(True)、父節(jié)點(diǎn)[Rain(雨)]-T(True) 的情況下,表示子節(jié)點(diǎn)[WetGlass(濕草坪)]為 草畔沒有潮濕(False)的概率二O. 01、 草坪潮濕(True)的概率=0.99 。
這樣,將產(chǎn)生子節(jié)點(diǎn)中的各個(gè)結(jié)果的概率作為表示依賴于父 節(jié)點(diǎn)的條件概率的分布的表而設(shè)定的表是條件概率表(CPT : Conditional Probability Tables)。通過這樣應(yīng)用貝葉斯網(wǎng)絡(luò),可獲 取作為在產(chǎn)生某原因的條件下得到某結(jié)果的帶條件的概率的表的 CPT。
在本發(fā)明的結(jié)構(gòu)中,利用貝葉斯網(wǎng)絡(luò)表現(xiàn)包含在各信息(狀
態(tài)、行動(dòng)、報(bào)酬、觀測)中的要素的依賴關(guān)系,且通過學(xué)習(xí)算出各 信息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)和各要素的CPT來構(gòu)建因數(shù)
POMDP(Factored POMDP)。
作為本發(fā)明的信息處理裝置中的因數(shù)POMDP(Factored POMDP)生成處理算法的重要處理步驟,有以下的處理步驟。:對各觀測要素[nobs]的每一個(gè)個(gè)別構(gòu)建包含一個(gè)觀測 要素[nobs]的貝葉斯網(wǎng)絡(luò)。:合成包含由步驟H殳定的一個(gè)觀測要素[nobs]的多個(gè) 貝葉斯網(wǎng)絡(luò),構(gòu)成一個(gè)合成貝葉斯網(wǎng)絡(luò)。:作為不同的事件觀測時(shí)間之間的連接,例如決定狀 態(tài)(State)與行動(dòng)(Action)等之間的連接。:根據(jù)生成的貝葉斯網(wǎng)絡(luò)完成因數(shù)POMDP(Factored POMDP)。
根據(jù)以上的[步驟1 4],構(gòu)建設(shè)定了如圖2所示那樣的表示要素 間的關(guān)聯(lián)性的箭頭和表示各要素間的影響的發(fā)生概率等的因數(shù) POMDP(Factored POMDP)。參照
各步驟的處理。此外, 在以下的具體例的說明中,說明設(shè)定了
訐乍為3見觀寸(Observation)的要素的[FaceDir] 、 [Movement]、 [FaceSize]、 [Speech]這四個(gè)要素、
作為觀測(Observation)以外的信息中的要素的[Player]、 [Intetion]、 [Channel] 、 [Signal]這四個(gè)要素的
這些要素的處理例。
參照圖4、圖5說明步驟1的處理。步驟l是對各觀測要素[nobs] 的每一個(gè)個(gè)別構(gòu)成包含一個(gè)觀測要素[nobs]的貝葉斯網(wǎng)絡(luò)的處理。 在圖4、圖5中,示出了關(guān)于各個(gè)觀測要素個(gè)別設(shè)定了貝葉斯網(wǎng)絡(luò) 的示例。
在圖4、圖5的示例中,如圖4、圖5的(A)所示,將[FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素設(shè)定為觀測要素。它 們是例如利用照相機(jī)、麥克風(fēng)等觀測的個(gè)別的要素。
另一方面,將[Player] 、 [Intetion]、 [Channel], [Signal]四個(gè)要 素設(shè)定為觀測要素以外的要素。這些要素分別是可設(shè)定個(gè)別的獨(dú) 立的狀態(tài)的要素。在本例中是屬于狀態(tài)(State)的要素。[Player]、 [Intetion]、 [Cha腦l]、 [Signal]四個(gè)要素有時(shí)相互也存在依賴關(guān)系, 但是在觀測要素相互間不存在依賴關(guān)系。即,不能設(shè)定連接觀測 要素間的箭頭。
在這樣的條件下,應(yīng)用學(xué)習(xí)樣本數(shù)據(jù)來驗(yàn)證各要素間的依賴 關(guān)系。在該要素間的依賴關(guān)系的驗(yàn)證處理中應(yīng)用貝葉斯網(wǎng)絡(luò)的結(jié) 構(gòu)學(xué)習(xí)算法。具體地說,例如,執(zhí)行應(yīng)用了作為貝葉斯網(wǎng)絡(luò)的結(jié)
構(gòu)學(xué)習(xí)算法所公知的K2算法的處理。 在K2算法中,
(51) 關(guān)于各節(jié)點(diǎn),選擇成為父節(jié)點(diǎn)的候補(bǔ),并選擇一 個(gè)子節(jié)點(diǎn), 逐個(gè)選擇有可能成為該選擇子節(jié)點(diǎn)的父節(jié)點(diǎn)的父節(jié)點(diǎn)候補(bǔ),設(shè)定 有向圖。
(52) 執(zhí)行根據(jù)生成的圖決定參數(shù)的評(píng)價(jià),僅將評(píng)價(jià)高的父節(jié) 點(diǎn)候補(bǔ)設(shè)定為父節(jié)點(diǎn)。
通過這些處理,作為構(gòu)建各要素間的依賴關(guān)系的處理而執(zhí)行。 在本處理例中,作為觀測要素將[FaceDir] 、 [Movement]、 [FaceSize] 、 [Speech]四個(gè)要素設(shè)定為節(jié)點(diǎn),作為其他要素將 [Player]、 [Intetion]、 [Cha麵l]、 [Signal]四個(gè)要素設(shè)定為節(jié)點(diǎn),關(guān) 于作為7見測要素的[FaceDir]、 [Movement] 、 [FaceSize]、 [Speech] 的每 一 個(gè)個(gè)別執(zhí)行按照上述算法的處理。
該處理結(jié)果是圖4、圖5所示的(B1) (B4)。即,(Bl)是將作為 觀測要素的[FaceDir]和作為狀態(tài)要素的[Player] 、 [Intetion]、. [Signal]四個(gè)要素設(shè)定為解析對象的節(jié)點(diǎn)而執(zhí)行應(yīng)用了 作為貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法所公知的K 2算法的處理的結(jié)果, 解析出作為觀測要素的[FaceDir]是以[Player]和[Channel]為父節(jié)點(diǎn) (parent)的子節(jié)點(diǎn)(chaild)。
(B2)是將作為觀測要素的[Movement]和其它要素[Player]、 [Intetion]、 [Channel], [Signal]四個(gè)要素設(shè)定為解析對象的節(jié)點(diǎn)而 執(zhí)行了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法的結(jié)果,解析出作為觀測要素 的[Movement]是以[Player]和[Intention]為父節(jié)點(diǎn)(parent)的子節(jié)點(diǎn) (chaild)。
圖5所示的(B3)是將作為觀測要素的[FaceSize]和作為其它要 素的[Player]、 [Intetion]、 [Channel], [Signal]四個(gè)要素設(shè)定為解析 對象的節(jié)點(diǎn)而執(zhí)行了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法的結(jié)果,解析出 作為觀測要素的[FaceSize]是以[Player]和[Channel]為父節(jié)點(diǎn) (parent)的子節(jié)點(diǎn)(chaild)。
圖5所示的(B4)是將作為觀測要素的[Speech]和作為其它要素 的[Player]、 [Intetion]、 [Channel] 、 [Signal]四個(gè)要素設(shè)定為解析對 象的節(jié)點(diǎn)而執(zhí)行了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法的結(jié)果,解析出作 為觀測要素的[Speech]是以[Signal]為父節(jié)點(diǎn)(parent)的子節(jié)點(diǎn) (chaild)。
接著參照圖6、圖7說明步驟2的處理。步驟2是合成包含由步 驟l設(shè)定的 一 個(gè)觀測要素[nobs]的多個(gè)貝葉斯網(wǎng)絡(luò)而構(gòu)成 一 個(gè)合成 貝葉斯網(wǎng)絡(luò)的處理。
在步驟1中,作為觀測(Observation)要素,生成了 [FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素每一 個(gè)的個(gè)別的四個(gè) 貝葉斯網(wǎng)絡(luò)。在步驟2中,進(jìn)行將這四個(gè)貝葉斯網(wǎng)絡(luò)組合為一個(gè)大 的貝葉斯網(wǎng)全各的處理。
作為組合方法有各種方法。在圖6、圖7中示出了三種組合例
(cl) (c3)。 這些分別是作為觀測(Observation)要素將對于 [FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素的輸入箭 頭的最大數(shù)量[Max-Fan-In]設(shè)定為(cl卜l、 (c2)=2、 。3)=3的示例。
即,是作為?見測(Observation)要素將給[FaceDir]、 [Movement]. [FaceSize] 、 [Speech]四個(gè)要素帶來影響的父節(jié)點(diǎn)的數(shù)量設(shè)定為最 大一個(gè)、或者兩個(gè)、或者三個(gè)的示例。
例如,在(cl)所示的示例中,作為觀測(Observation)要素將對 [FaceDir]、 [Movement]、 [FaceSize]、 [Speech]四個(gè)要素的輸入箭 頭的最大數(shù)量[Max-Fan-In]設(shè)為1。在圖4、圖5所示的按照不同要 素的貝葉斯網(wǎng)絡(luò)中存在設(shè)定有多個(gè)箭頭的觀測要素,但是例如在 這些箭頭所示的父節(jié)點(diǎn)和子節(jié)點(diǎn)的關(guān)系中,僅選擇評(píng)價(jià)最高的父 節(jié)點(diǎn)而進(jìn)行設(shè)定。
在(c2)所示的示例中,作為觀測(Observation)要素將對 [FaceDir]、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素的輸入箭 頭的最大數(shù)量[Max-Fan-In]設(shè)為2 ,圖7的(c3)所示的示例是設(shè)為3 的示例。這樣可設(shè)定不同的貝葉斯網(wǎng)絡(luò)(cl) (c3)。例如,在想要 考慮更多的要素間的關(guān)聯(lián)性的情況下,最好應(yīng)用如(c3)那樣的網(wǎng)絡(luò) 結(jié)構(gòu)。在希望減少計(jì)算量的情況下,只要應(yīng)用如(cl)那樣的形式的 網(wǎng)絡(luò)即可。這樣,能夠根據(jù)處理而選擇所應(yīng)用的網(wǎng)絡(luò)。
在步驟2中設(shè)定的貝葉斯網(wǎng)絡(luò)(cl) (c3)的任一個(gè)都是在一個(gè) 事件空間、即在圖2的示例中是在時(shí)間T—、或者時(shí)間T4+1的事件 空間中設(shè)定的貝葉斯網(wǎng)絡(luò)。將它稱為內(nèi)部網(wǎng)絡(luò)。然后,需要設(shè)定 由步驟2設(shè)定的多個(gè)不同的事件空間的內(nèi)部網(wǎng)絡(luò)中所包含的信息、 要素間的關(guān)聯(lián)性。在步驟3中執(zhí)行該處理。
接著參照圖8說明步驟3的處理。步驟3是作為不同的事件觀測
時(shí)間之間的連接例如決定狀態(tài)(State)和行動(dòng)(Action)等之間的連接 的處理。具體地說,是設(shè)定基于圖2所示的時(shí)間T-t-l和時(shí)間T—的 要素間的關(guān)聯(lián)性的連接的處理。該處理也通過根據(jù)貝葉斯網(wǎng)絡(luò)來 應(yīng)用學(xué)習(xí)樣本數(shù)據(jù)而算出各要素間的CPT的處理來執(zhí)行。
在圖8中示出了在步驟l 、 2的處理中構(gòu)建的時(shí)間T4的貝葉斯 網(wǎng)絡(luò)以及時(shí)間T-t+l的貝葉斯網(wǎng)絡(luò)。在步驟3中,解析時(shí)間T二t及時(shí) 間T二t+l的貝葉斯網(wǎng)絡(luò)間的要素的關(guān)聯(lián)性,設(shè)定連接關(guān)系。例如, 得到在圖8中用粗線表示的8條連接線(L1 L8)。
此外,將作為一個(gè)事件觀察區(qū)域的、例如時(shí)間T4等閉合的網(wǎng) 絡(luò)稱為內(nèi)部網(wǎng)絡(luò),將如圖8所示作為多個(gè)不同的事件觀察區(qū)域的、 例如時(shí)間T-t及T-t+l的網(wǎng)絡(luò)稱為互聯(lián)網(wǎng)絡(luò)。另外,將與互聯(lián)網(wǎng)絡(luò) 對應(yīng)的貝葉斯網(wǎng)絡(luò)稱為動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)。
在步驟l、步驟2中,在作為內(nèi)部網(wǎng)絡(luò)的貝葉斯網(wǎng)絡(luò)中生成條 件概率表(CPT),來決定設(shè)定為父節(jié)點(diǎn)和子節(jié)點(diǎn)的各要素間的連 接,在步驟3中,在作為互聯(lián)網(wǎng)絡(luò)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)中生成條件概 率表(CPT),來決定設(shè)定為父節(jié)點(diǎn)和子節(jié)點(diǎn)的各要素間的連接。其 結(jié)果,設(shè)定如圖8所示那樣的設(shè)定了連接關(guān)系的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。
接著參照圖9說明步驟4的處理。在步驟4中,根據(jù)在步驟3中 生成的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),將設(shè)定了連接關(guān)系的各要素歸納到各信 息范疇(狀態(tài)、行動(dòng)、報(bào)酬、觀測)中,按各要素的每一個(gè)定義各個(gè) 要素間的關(guān)系、例如狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(Sw, at, st)=P(st+1|at, st)、觀測狀態(tài)確立函數(shù)O(Sw, at, ot)=P(ot+1|at, st)等概率函數(shù)。這些 是根據(jù)之前參照圖3說明的CPT而決定的。即,關(guān)于通過使用了學(xué) 習(xí)樣本數(shù)據(jù)的學(xué)習(xí)而構(gòu)成貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn),作為歸納根據(jù)個(gè)別 條件發(fā)生的概率的表,可通過制作條件概率表(CPT)來獲得。
在圖9所示的示例中,作為觀測(Observation)要素151歸納、 [Movement] 、 [FaceSize]、 [Speech]四個(gè)要素,作為狀 態(tài)(State)要素152歸納[Player] 、 [Intetion] 、 [Channel] 、 [Signal]四
個(gè)要素,關(guān)于這些各要素,定義狀態(tài)轉(zhuǎn)移概率算出函數(shù)T(Sw, at, st)=P(st+1|at, st)、觀測狀態(tài)確立函數(shù)O(sw, at, ot)=P(ot+1|at, St)等概率 函數(shù)。
通過以上的處理,可構(gòu)建使各信息范疇(狀態(tài)、行動(dòng)、報(bào)酬、 觀測)中所包含的要素的依賴關(guān)系明確的因數(shù)POMDP(Factored POMDP或者F-POMDP)、即如圖2所示的因數(shù)POMDP。通過應(yīng)用這 種明確了要素單位的依賴關(guān)系的因數(shù)POMDP而執(zhí)行狀態(tài)轉(zhuǎn)移的預(yù) 測、行動(dòng)決定處理,可進(jìn)行明確區(qū)分了要素單位的概率、要素間 的因果關(guān)系的處理,可進(jìn)行更切合現(xiàn)實(shí)的處理。
此外,在上述的處理中,在解析要素間的關(guān)聯(lián)性時(shí),通過應(yīng) 用了學(xué)習(xí)樣本數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)的學(xué)習(xí),算出條件概率表(CPT: Conditional Probability Tables),求出父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的關(guān)聯(lián), 但是如上所述,貝葉斯網(wǎng)絡(luò)以有向圖的形式表現(xiàn)了概率變量的依 賴關(guān)系,能夠通過定義與箭頭的輸出源(父節(jié)點(diǎn))和箭頭的輸出目的 地(子節(jié)點(diǎn))對應(yīng)的父(parent)、子(child)來表現(xiàn)各要素間的關(guān)聯(lián)。
在將貝葉斯網(wǎng)絡(luò)表現(xiàn)為數(shù)據(jù)的情況下,可表現(xiàn)為有向非循環(huán) 圖(DAG: Directed Acyclic Graph)。在圖10A、 IOB中示出DAG的 例。圖10A是與互聯(lián)網(wǎng)絡(luò)、即參照圖8、圖9說明的包含多個(gè)不同(例 如時(shí)間T—和T-t+l)的事件觀察區(qū)域相互要素間的關(guān)系的動(dòng)態(tài)貝葉 斯網(wǎng)絡(luò)對應(yīng)的DAG(有向非循環(huán)圖),即是互聯(lián)DAG(InterDAG),圖 IOB是與內(nèi)部網(wǎng)絡(luò)、即參照圖6、圖7說明的僅包含一個(gè)(例如時(shí)間 T=t)事件觀察區(qū)域的要素間的關(guān)系的貝葉斯網(wǎng)絡(luò)對應(yīng)的D AG(有向 非循環(huán)圖),即是內(nèi)部DAG(IntraDAG)。
在DAG中,將之前說明的貝葉斯網(wǎng)絡(luò)的箭頭的輸出源(父 parent)設(shè)定為縱軸,將箭頭的輸出目的地(子child)設(shè)定為橫軸,
在判斷為存在箭頭、即存在父子的關(guān)聯(lián)性的情況下設(shè)定[l],在判 斷為沒有的情況下設(shè)定
,從而是使各節(jié)點(diǎn)間的關(guān)聯(lián),性明確的數(shù)據(jù)。
在圖中所示的DAG中,在父(parent)、子(child)的場中所示的 [nact]表示4亍動(dòng)(action)的要素?cái)?shù)量(number) , [nst]表示狀態(tài)(state) 的要素?cái)?shù)量,[nrew]表示報(bào)酬(reward)的要素?cái)?shù)量,[nobs]表示觀測 (observation)的要素?cái)?shù)量。在圖中進(jìn)行簡化表示,沒有示出各要素 名,但是將與各個(gè)要素?cái)?shù)量相應(yīng)的要素名或者要素操作符分別設(shè) 定于表示父節(jié)點(diǎn)的縱場和表示子節(jié)點(diǎn)的橫場,在判斷為各自的節(jié) 點(diǎn)間存在關(guān)聯(lián)性的情況下設(shè)定[l]。
即,通過應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)的學(xué)習(xí),執(zhí)行各 要素間是否存在父子的關(guān)聯(lián)性的判斷,在診斷為對某個(gè)特定子節(jié) 點(diǎn)存在特定節(jié)點(diǎn)的影響的情況下,將該節(jié)點(diǎn)判斷為父節(jié)點(diǎn),進(jìn)行 在其DAG的對應(yīng)區(qū)域記錄[l]的處理。通過執(zhí)行應(yīng)用了各種學(xué)習(xí)樣 本數(shù)據(jù)的學(xué)習(xí),能夠用[l]、 [O]填充DAG的區(qū)域,決定各節(jié)點(diǎn)(要 素)間的關(guān)聯(lián)性(貝葉斯網(wǎng)絡(luò)中的箭頭)的有無。
接著參照圖11~圖13所示的流程圖說明按照本發(fā)明的因數(shù) POMDP(Factored POMDP)構(gòu)建順序。圖11所示的流程圖是按照本 發(fā)明的因數(shù)P O M D P構(gòu)建順序的整體處理流程,圖12所示的流程圖 是表示圖11所示的流程中的步驟S120的細(xì)節(jié)的流程,圖13所示的 流程圖是表示圖ll所示的流程中的步驟S130的細(xì)節(jié)的流程。
首先,參照圖ll所示的流程圖說明按照本發(fā)明的因數(shù)POMDP 構(gòu)建順序的整體處理順序。在圖11所示的流程的步驟S110中,首 先決定基本的因數(shù)POMDP(Factored POMDP)的模型、即結(jié)構(gòu)。具 體地說,決定在POMDP中規(guī)定的各個(gè)信息(狀態(tài)、行動(dòng)、報(bào)酬、觀 測)中包含的要素。在決定該要素時(shí),設(shè)定要素的種類和各要素的 尺寸等要素信息。
要素尺寸是指相當(dāng)于要素所能取得的狀態(tài)數(shù)量的值。例如,
在圖2所示的因數(shù)POMDP(Factored POMDP)的結(jié)構(gòu)例中,以設(shè)定為 觀測(Observation)的要素的[臉]為例進(jìn)行說明。例如,在能夠判斷 作為觀測對象的機(jī)器人的臉的方向朝向正面(True)、或不是(False) 的兩個(gè)狀態(tài)的情況下,將該要素[臉]的尺寸設(shè)定為[2 ]。
并且,在步驟S110中,作為因數(shù)POMDP(Factored POMDP)的 基本結(jié)構(gòu),決定對之前參照圖6、圖7說明的要素的輸入箭頭的最 大數(shù)量[Max-Fan-In]。即,在步驟S110中,輸入包含有在POMDP 中定義的各信息中包含的要素的種類的要素信息、和作為因數(shù) POMDP(Factored POMDP)的結(jié)構(gòu)信息的作為貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn) 連接狀態(tài)的最大輸入數(shù)量(Max-Fan-In)信息,然后按照這些輸入信 息,執(zhí)行因數(shù)POMDP(Factored POMDP)的構(gòu)建處理。
在步驟S120和步驟S130中,應(yīng)用預(yù)先準(zhǔn)備的學(xué)習(xí)數(shù)據(jù)1S0進(jìn)行 內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)以及互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò) 的學(xué)習(xí)。該處理是解析在步驟S110中設(shè)定的要素間的關(guān)聯(lián)而明確 要素間的對應(yīng)的處理,即,是設(shè)定圖2所示的因數(shù)POMDP(Factored POMDP)結(jié)構(gòu)中的箭頭并明確各要素間的關(guān)系的處理。
此外,在步驟S120中,執(zhí)行對在一個(gè)事件觀察區(qū)域(圖2中的 時(shí)間T叫等單 一 時(shí)間)中的因數(shù)POMDP(Factored POMDP)結(jié)構(gòu)中的 要素間的對應(yīng)進(jìn)行解析的處理,在步驟S130中,執(zhí)行對在不同事 件觀察區(qū)域中的因數(shù)POMDP(Factored POMDP)結(jié)構(gòu)中的要素間的 對應(yīng)進(jìn)行解析的處理。上述的步驟1和步驟2中的內(nèi)部網(wǎng)絡(luò)對應(yīng)的 處理對應(yīng)于圖ll中的步驟S120的處理,上述的步驟3中的互聯(lián)網(wǎng)絡(luò) 對應(yīng)的處理對應(yīng)于圖ll中的步驟S130的處理。
即,步驟S120是進(jìn)行如下處理的內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟 構(gòu)建關(guān)于作為在部分可觀測馬爾科夫決策過程(POMDP: Partially Observable Markov Decision Process)中定義的信息的》見觀'J
(Observation)信息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò),組合相 同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò)來構(gòu)建內(nèi) 部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò);步驟S13 0是進(jìn)行如下處理的動(dòng)態(tài)貝葉 斯網(wǎng)絡(luò)生成步驟解析不同事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng) 的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性,構(gòu)建具有不同的事件 觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng) 絡(luò)。
此外,在步驟S120的內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟以及步驟S130 的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中,作為表示要素間的關(guān)系的數(shù)據(jù), 應(yīng)用了對應(yīng)于貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息, 執(zhí)行有向非循環(huán)圖(DAG)的更新處理,從而完成貝葉斯網(wǎng)絡(luò)。關(guān)于 該步驟S120、步驟S130的處理的細(xì)節(jié),在后面參照圖l2、圖13的 流程圖進(jìn)4亍詳細(xì)i兌明。
在步驟S140中,根據(jù)步驟S120、 S130的處理結(jié)果,完成如圖2 所示那樣的因數(shù)POMDP(Factored POMDP)。即,根據(jù)動(dòng)態(tài)貝葉斯 網(wǎng)絡(luò)(DBN)來構(gòu)建因數(shù)POMDP。此外,在該處理時(shí),根據(jù)各信息(狀 態(tài)、行動(dòng)、報(bào)酬、觀測)、各要素間的具體關(guān)系程度、即作為歸納 了基于箭頭輸出源(parent)的要素的箭頭輸出目的地(child)的要素 的發(fā)生概率的表的CPT(Conditional Probability Tables),設(shè)定表示 信息、要素間的關(guān)聯(lián)的關(guān)系式、例如上述的狀態(tài)轉(zhuǎn)移概率算出函 數(shù)T(st+1, at, st)=P(st+1|at, st)、 觀測狀態(tài)確立函數(shù)0(st+1, at, ot)=P(ot+1|at, St)等概率函數(shù)。
通過這些處理,例如可構(gòu)建如圖2所示那樣的因數(shù) POMDP(Factored POMDP)。通過應(yīng)用這種明確了要素單位的依賴 關(guān)系的因數(shù)POMDP來執(zhí)行狀態(tài)轉(zhuǎn)移的預(yù)測、行動(dòng)決定處理,可進(jìn) 行明確地區(qū)分了要素單位的概率、要素間的因果關(guān)系的處理,可
進(jìn)行更切合現(xiàn)實(shí)的處理。
接著,參照圖12所示的流程圖說明步驟S120的處理的細(xì)節(jié)。
在步驟S121中,判斷在步驟S110中設(shè)定的模型是否為可進(jìn)行應(yīng)用 了學(xué)習(xí)樣本數(shù)據(jù)180的學(xué)習(xí)的模型。學(xué)習(xí)樣本數(shù)據(jù)180是存儲(chǔ)在信 息處理裝置可利用的數(shù)據(jù)庫等存儲(chǔ)部中的保存數(shù)據(jù)。存儲(chǔ)有可構(gòu) 成行動(dòng)(Action)、狀態(tài)(State)、觀測(Observation)的各信息的要素 信息、表示要素彼此的依賴關(guān)系的樣本數(shù)據(jù)。在步驟S121中,判 斷用于構(gòu)建在步驟S110中設(shè)定的要素間的關(guān)系所需的信息是否包 含在學(xué)習(xí)樣本數(shù)據(jù)180中。在沒有包含的情況下,不能進(jìn)行應(yīng)用了 學(xué)習(xí)樣本數(shù)據(jù)180的學(xué)習(xí),結(jié)束處理。
在步驟S121中,當(dāng)判斷為用于構(gòu)建在步驟S110中設(shè)定的要素 間的關(guān)系所需的信息包含在學(xué)習(xí)樣本數(shù)據(jù)180中時(shí),進(jìn)入步驟 S122。在步驟S122中,將表示有無之前參照圖IOA、 IOB說明的貝 葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)間的關(guān)系(箭頭)的有向非循環(huán)圖(DAG: Directed Acyclic Graph)進(jìn)行復(fù)位。在該時(shí)刻,進(jìn)行圖1 0B所示的內(nèi)部網(wǎng)絡(luò) 對應(yīng)的DAG的制作處理。
將在步驟S110中決定的要素名設(shè)定于DAG的縱場(父parent) 和橫場(子child)的各場,進(jìn)行將表示有無箭頭的DAG的設(shè)定值 全部設(shè)定為[O](沒有關(guān)聯(lián)(箭頭))的復(fù)位處理(初始化)。
接著,步驟S123 S125是應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)部貝葉斯網(wǎng) 絡(luò)的學(xué)習(xí)處理。該處理相當(dāng)于之前參照圖4 圖7說明的處理。首先, 如參照圖4、圖5的說明那樣,在步驟S123中選擇對應(yīng)于一個(gè)觀測 要素[nobs]的觀測要素?cái)?shù)據(jù)(i)。 i相當(dāng)于觀測要素的識(shí)別編號(hào)。
在步驟S124中,執(zhí)行應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理,判斷 各要素(節(jié)點(diǎn))間的關(guān)聯(lián)性來判斷有無箭頭,在步驟S125中,在檢測 出判斷為存在關(guān)聯(lián)(存在箭頭)的節(jié)點(diǎn)的組合的情況下,更新DAG 的數(shù)據(jù)、即對DAG的對應(yīng)入口設(shè)定[l]。
在步驟S126中,判斷是否結(jié)束了對應(yīng)于全部觀測要素?cái)?shù)據(jù)的
處理,在存在未處理的觀測要素的情況下,在步驟S127中遞增作 為觀測要素的識(shí)別編號(hào)的i,重復(fù)執(zhí)行步驟S123以后的處理。當(dāng)通 過這些處理結(jié)束對應(yīng)于全部7見測要素的學(xué)習(xí)處理時(shí),完成與內(nèi)部 網(wǎng)絡(luò)的個(gè)別觀測要素對應(yīng)的多個(gè)貝葉斯網(wǎng)絡(luò)。即,是參照圖4、圖
生成處理,通過這些處理可得到對應(yīng)于各)f見測要素的DAG。
接著,執(zhí)行步驟S130的處理。參照圖13所示的流程圖說明步 驟S130的處理的細(xì)節(jié)。首先,在步驟S131中組合與在步驟S120中 生成的各觀測要素(i)對應(yīng)的DAG,生成組合了全部觀測要素的 DAG。該處理相當(dāng)于之前參照圖6、圖7說明的貝葉斯網(wǎng)絡(luò)的生成。 此外,預(yù)先在步驟S110中作為因數(shù)POMDP(Factored POMDP)的基 本結(jié)構(gòu)而決定了對于要素的輸入箭頭的最大數(shù)量[Max-Fan-In],因 此生成在該決定的輸入箭頭的最大數(shù)量[Max-Fan-In]的限制之下 組合了全部觀測要素的DAG。
在此生成的DAG是內(nèi)部網(wǎng)絡(luò)對應(yīng)的DAG。接著,在步驟Sl32 中,組合關(guān)于所有[狀態(tài)(S)]、[行動(dòng)(A)]、[觀測(O)]的要素?cái)?shù)據(jù), 來設(shè)定互聯(lián)網(wǎng)絡(luò)對應(yīng)的DBN結(jié)構(gòu)。在該時(shí)刻,沒有設(shè)定不同的事 件觀察區(qū)域的關(guān)聯(lián)(箭頭)。即,沒有設(shè)定圖8所示的DBN中的用粗 線表示的箭頭(L1 L8)。
接著,在步驟S133中,通過應(yīng)用了學(xué)習(xí)樣本數(shù)據(jù)180的學(xué)習(xí), 解析不同的內(nèi)部網(wǎng)絡(luò)間的要素間的關(guān)聯(lián),并決定互聯(lián)DAG的基本 結(jié)構(gòu)。通過該處理,設(shè)定圖8所示的DBN中的用粗線表示的箭頭 (L1 L8)。接著,在步驟S134中,完成可計(jì)算報(bào)酬[Reward]的內(nèi)部 DAG以及互聯(lián)DAG。在該處理中,在報(bào)酬(Reward)中設(shè)定了要素 的情況下,作為設(shè)定關(guān)于各要素的報(bào)酬計(jì)算式的處理而執(zhí)行。
通過以上的處理,生成使多個(gè)事件觀測區(qū)域間的信息、要素
的關(guān)系明確的互聯(lián)網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)、即動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)
(DBN)。
在這些處理之后,執(zhí)行圖11所示的流程的步驟S140的處理、 即執(zhí)行完成因數(shù)POMDP(Factored POMDP)的處理。即,根據(jù)各信 息(狀態(tài)、行動(dòng)、報(bào)酬、觀測)、各要素間的具體關(guān)系程度、即作為 歸納了基于箭頭輸出源(parent)的要素的箭頭輸出目的地(child)的 要素的發(fā)生概率的表的CPT(Conditional Probability Tables),設(shè)定 表示信息、要素間的關(guān)聯(lián)的關(guān)系式、例如上述的狀態(tài)轉(zhuǎn)移概率算 出函數(shù)T(st+1, at, st)=P(st+1|at, st)、觀測狀態(tài)確立函數(shù)0(st+1, at, ot)=P(ot+1|at, St)等概率函數(shù)。
通過這些處理,例如可構(gòu)建如圖2所示那樣的因數(shù) POMDP(Factored POMDP)。通過應(yīng)用這種明確了要素單位的依賴 關(guān)系的因數(shù)POMDP來執(zhí)行狀態(tài)轉(zhuǎn)移的預(yù)測、行動(dòng)決定處理,可進(jìn) 行明確區(qū)分了要素單位的概率、要素間的因果關(guān)系的處理,可進(jìn) 行更切合現(xiàn)實(shí)的處理。
參照圖14說明執(zhí)行上述的因數(shù)POMDP(Factored POMDP)的生 成處理的信息處理裝置的功能結(jié)構(gòu)。圖14是表示執(zhí)行因數(shù)POMDP 的生成處理的信息處理裝置的功能結(jié)構(gòu)的框圖。信息處理裝置200 由與普通的PC結(jié)構(gòu)相同的結(jié)構(gòu)來實(shí)現(xiàn)。此外,在后面說明硬件結(jié) 構(gòu)的具體例。信息處理裝置200具有作為數(shù)據(jù)輸入輸出部的用戶 接口201、數(shù)據(jù)處理部202、存儲(chǔ)部203、保存了學(xué)習(xí)樣本數(shù)據(jù)的數(shù) 據(jù)庫204。
通過用戶接口 201輸入因數(shù)POMDP(Factored POMDP)的生成 處理的開始命令、或者與節(jié)點(diǎn)對應(yīng)的要素信息等的結(jié)構(gòu)信息、節(jié) 點(diǎn)間的關(guān)系信息、報(bào)酬(Reward)的計(jì)算式信息等。數(shù)據(jù)處理部202 執(zhí)行之前參照圖11 圖13的流程圖說明的因數(shù)POMDP的生成處理。 存儲(chǔ)部203保存執(zhí)行參照圖11 圖13的流程圖說明的因數(shù)POMDP的
生成處理的程序,由構(gòu)成數(shù)據(jù)處理部202的CPU來執(zhí)行按照程序的 處理。
在該因數(shù)POMDP的生成處理中應(yīng)用的學(xué)習(xí)樣本數(shù)據(jù)保存在 數(shù)據(jù)庫204中,數(shù)據(jù)處理部202適當(dāng)從數(shù)據(jù)庫204讀入學(xué)習(xí)樣本數(shù)據(jù) 來執(zhí)行因數(shù)POMDP的生成處理。此外,與在該處理中生成的貝葉 斯網(wǎng)絡(luò)相當(dāng)?shù)挠邢蚍茄h(huán)圖(DAG: Directed Acyclic Graph)記錄在 存儲(chǔ)部203中,根據(jù)需要進(jìn)行更新。
具體說明數(shù)據(jù)處理部2 0 2所執(zhí)行的處理。數(shù)據(jù)處理部2 02以部 分可7見測馬爾牙牛夫決策過禾呈(POMDP: Partially Observable Markov Decision Process)為基本結(jié)構(gòu),將在POMDP中定義的各信息中所包 含的要素作為單位來解析要素間的關(guān)系,根據(jù)該解析結(jié)果,執(zhí)行 作為包含要素間的關(guān)系信息的POMDP的因數(shù)POMDP(Factored POMDP)的構(gòu)建。
例如,數(shù)據(jù)處理部202執(zhí)行如下的處理根據(jù)學(xué)習(xí)樣本數(shù)據(jù)決 定作為在POMDP中定義的信息的觀測(Observation)信息中所包含 的各個(gè)觀測要素與作為在POMDP中定義的觀測以外的信息的狀態(tài) (State)、行動(dòng)(Action)、報(bào)酬(Reard)中的至少任一個(gè)中所包含的要 素之間的關(guān)聯(lián)性,構(gòu)建觀測要素單位的貝葉斯網(wǎng)絡(luò);之后執(zhí)行如 下的處理組合相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝 葉斯網(wǎng)路,構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò),并且解析不同的事 件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素 間的關(guān)聯(lián)性,構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信 息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。這些處理是從數(shù)據(jù)庫204讀 入學(xué)習(xí)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)處理而執(zhí)行的。
即,數(shù)據(jù)處理部202應(yīng)用對應(yīng)于貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖 (DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué) 習(xí)處理而得到的信息,執(zhí)行有向非循環(huán)圖(DAG)的更新處理,從而
解析要素間的關(guān)系來構(gòu)建因數(shù)POMDP。此外,在這些處理之前,
數(shù)據(jù)處理部202輸入包含有在POMDP中定義的各信息中所包含的 要素的種類的要素信息和作為因數(shù)P O MD P的結(jié)構(gòu)信息的貝葉斯網(wǎng) 絡(luò)中的節(jié)點(diǎn)連接形式的最大輸入數(shù)量(Max-Fan-In)信息,按照該輸 入信息來構(gòu)建因數(shù)POMDP 。
最后,參照圖15說明執(zhí)行上述處理的信息處理裝置的硬件結(jié) 構(gòu)例。CPU(Central Processing Unit:中央處理器)501作為對應(yīng)于 OS(Operating System:操作系統(tǒng))的處理、在上述的實(shí)施例中說明 的數(shù)據(jù)處理部的執(zhí)行主體而發(fā)揮功能。具體地說,執(zhí)行根據(jù)應(yīng)用 了學(xué)習(xí)樣本數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)的生成來構(gòu)建因數(shù)POMDP的處理。 這些處理是按照保存在各信息處理裝置的ROM、硬盤等數(shù)據(jù)存儲(chǔ) 部中的計(jì)算機(jī)程序來執(zhí)行的。
POMDP生成處理程序、運(yùn)算參數(shù)等。RAM(Random Access Memory)503保存CPU501的執(zhí)行中使用的程序、在其執(zhí)行中適當(dāng)變 化的參數(shù)等。它們通過由CPU總線等構(gòu)成的主機(jī)總線S(M而相互連接的。
主機(jī)總線504通過橋505連接到PCI(Peripheral Component Interconnect/Interface:夕卜圍部件互連/接口 )總線等外部總線506上。
鍵盤508、指示設(shè)備509是由用戶操作的輸入設(shè)備。顯示器510 由液晶顯示裝置或者CRT(Cathode Ray Tube:陰極射線管)等構(gòu)成。
HDD(Hard Disk Drive)511內(nèi)置硬盤并驅(qū)動(dòng)硬盤,記錄或者再 現(xiàn)由CPU501執(zhí)行的程序、信息。硬盤例如利用于學(xué)習(xí)用樣本數(shù)據(jù)、 與貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)對應(yīng)的DAG信息等的保存單元等中,并且,保 存數(shù)據(jù)處理程序等各種計(jì)算機(jī)程序。
驅(qū)動(dòng)器512讀出存儲(chǔ)在被安裝的磁盤、光盤、磁光盤、或者半 導(dǎo)體存儲(chǔ)器等可移動(dòng)記錄介質(zhì)521中的數(shù)據(jù)或者程序,將該數(shù)據(jù)或
者程序提供給通過接口 507、外部總線506、橋505 、以及主機(jī)總線 504連接的RAM503。
連接端口 514是連接外部連接設(shè)備522的端口 ,具有USB、 IEEE1394等連接部。連接端口 514通過接口 507、以及外部總線506、 橋505、主機(jī)總線504等連接到CPU501等。通信部515連接到網(wǎng)絡(luò)。 也可以是將學(xué)習(xí)用樣本數(shù)據(jù)通過通信部515輸入的結(jié)構(gòu)。
此外,圖15所示的信息處理裝置的硬件結(jié)構(gòu)例是應(yīng)用PC而構(gòu) 成的裝置的一例,并不限于圖15所示的結(jié)構(gòu),能夠應(yīng)用可執(zhí)行在 上述的實(shí)施例中說明的處理的各種裝置。
以上,參照特定的實(shí)施例詳細(xì)說明了本發(fā)明。然而,顯然在 不脫離本發(fā)明的要旨的范圍內(nèi),本領(lǐng)域技術(shù)人員可進(jìn)行該實(shí)施例 的修正、代用。即,以例示的形式公開了本發(fā)明,不應(yīng)進(jìn)行限定 性解釋。為了判斷本發(fā)明的要旨,應(yīng)該參照權(quán)利要求書部分。
此外,在說明書中說明的一系列的處理能夠利用硬件、或者 軟件、或者兩者的復(fù)合結(jié)構(gòu)來執(zhí)行。在利用軟件執(zhí)行處理的情況 下,可以將記錄了處理順序的程序安裝在組裝到專用硬件中的計(jì) 算機(jī)內(nèi)的存儲(chǔ)器中而執(zhí)行,或者在可執(zhí)行各種處理的通用計(jì)算機(jī) 中安裝程序而執(zhí)行。
例如,能夠?qū)⒊绦蝾A(yù)先記錄在作為記錄介質(zhì)的硬盤、 ROM(Read Only Memory)中。或者,能夠?qū)⒊绦驎簳r(shí)或者永久性 地保存(記錄)在軟盤、CD-ROM(Compact Disc Read Only Memory: 光盤只讀存4渚器)、MO(Magneto optical:》茲光)盤、DVD(Digital Versatile Disc:數(shù)字多功能光盤)、磁盤、半導(dǎo)體存儲(chǔ)器等可移動(dòng) 記錄介質(zhì)中。這種可移動(dòng)記錄介質(zhì)能夠作為所謂的封裝軟件而提 供。
此外,程序除了可以從上述的可移動(dòng)記錄介質(zhì)安裝到計(jì)算機(jī) 之外,也可以從下載站點(diǎn)無線傳送到計(jì)算機(jī),或者通過LAN(Local
Area Network:局域網(wǎng))、因特網(wǎng)之類的網(wǎng)絡(luò),有線傳送到計(jì)算機(jī), 在計(jì)算機(jī)中接收這樣傳送過來的程序,可安裝到內(nèi)置的硬盤等記
錄介質(zhì)中。
此外,i兌明書中記載的各種處理不{義可以4妄照記載以時(shí)間序 列執(zhí)行,也可以根據(jù)執(zhí)行處理的裝置的處理能力或者需要并行或 個(gè)別執(zhí)行。另外,在本說明書中的系統(tǒng)是多個(gè)裝置的邏輯集合結(jié) 構(gòu),并不限于各結(jié)構(gòu)的裝置在同一殼體內(nèi)。
產(chǎn)業(yè)上的可利用性
如以上i兌明,才艮據(jù)本發(fā)明的一個(gè)實(shí)施例的結(jié)構(gòu),以部分可觀 測馬爾科夫決策過程(POMDP : Partially Observable Markov Decision Process)為基本結(jié)構(gòu),關(guān)于在POMDP中定義的狀態(tài) (State)、行動(dòng)(Action)、觀測(Observation)、才艮酬(Reward)的各信息, 分別設(shè)定多個(gè)不同的要素(因數(shù)),能夠自動(dòng)構(gòu)建明確了要素間的關(guān) 系的因數(shù)POMDP(Factored POMDP)。在應(yīng)用使通過本發(fā)明的處理 而生成的要素單位的依賴關(guān)系明確的因數(shù)POMDP(Factored POMDP)的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理中,可進(jìn)行明確區(qū)分了要 素單位的因果關(guān)系的處理,可進(jìn)行更加正確的狀況預(yù)測、有效的 行動(dòng)決定處理。利用本發(fā)明構(gòu)建的因數(shù)POMDP例如可應(yīng)用于決定 機(jī)器人的行動(dòng)的處理、使用了計(jì)算機(jī)的仿真、數(shù)據(jù)處理、以及企 業(yè)經(jīng)營等中的最佳行動(dòng)的決定處理等各種行動(dòng)的決定中。
權(quán)利要求
1.一種信息處理裝置,構(gòu)建包含不確定性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu),其特征在于,具有數(shù)據(jù)處理部,其以部分可觀測馬爾科夫決策過程(POMDPPartially Observable Markov Decision Process)為基本結(jié)構(gòu),將在POMDP中定義的各信息中包含的要素作為單位,對要素間的關(guān)系進(jìn)行解析,根據(jù)該解析結(jié)果,執(zhí)行作為包含要素間的關(guān)系信息的POMDP的因數(shù)POMDP(Factored POMDP)的構(gòu)建。
2. 根據(jù)權(quán)利要求l所述的信息處理裝置,其特征在于, 上述數(shù)據(jù)處理部是如下結(jié)構(gòu)構(gòu)建關(guān)于作為在POMDP中定義的信息的觀測(Observation)中 所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合該 觀測要素單位的貝葉斯網(wǎng)絡(luò),構(gòu)建上述因凄史POMDP(Factored POMDP)。
3. 根據(jù)權(quán)利要求l所述的信息處理裝置,其特征在于, 上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)(Observation)信息中所包含的各個(gè)觀測要素和在POMDP中定義的 狀態(tài)(State)、行動(dòng)(Action)、報(bào)酬(Reard)這些作為觀測以外信息的 至少任一個(gè)所包含的要素之間的關(guān)聯(lián)性,構(gòu)建觀測要素單位的貝 葉斯網(wǎng)絡(luò)。
4. 根據(jù)權(quán)利要求l所述的信息處理裝置,其特征在于, 上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)構(gòu)建關(guān)于作為在POMDP中定義的信息的觀測(Observation)信 息中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò),組合相同的事件觀察 區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò),構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的 貝葉斯網(wǎng)絡(luò),并且,對不同的事件觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對 應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性進(jìn)行解析,構(gòu)建與具 有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息的互聯(lián)網(wǎng)絡(luò)對應(yīng)的 動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。
5. 根據(jù)權(quán)利要求4所述的信息處理裝置,其特征在于, 上述數(shù)據(jù)處理部是執(zhí)行如下處理的結(jié)構(gòu)根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中 所包含的要素間的關(guān)聯(lián)性。
6. 根據(jù)權(quán)利要求l所述的信息處理裝置,其特征在于, 上述數(shù)據(jù)處理部是如下結(jié)構(gòu)作為表示上述要素間的關(guān)系的數(shù)據(jù),應(yīng)用對應(yīng)于貝葉斯網(wǎng)絡(luò) 的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué) 習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息,執(zhí)行上述有向非循環(huán)圖 (DAG)的更新處理,解析要素間的關(guān)系,構(gòu)建上述因數(shù) POMDP(Factored POMDP)。
7. 根據(jù)權(quán)利要求l所述的信息處理裝置,其特征在于, 上述數(shù)據(jù)處理部是如下結(jié)構(gòu)輸入包含有在上述POMDP中定義的各信息中所包含的要素的 種類的要素信息以及作為上述因數(shù)POMDP(Factored POMDP)的結(jié) 構(gòu)信息的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接形式的最大輸入數(shù)量 (Max-Fan-In)信息,按照該輸入信息來構(gòu)建上述因數(shù) POMDP(Factored POMDP)。
8. —種信息處理方法,是在信息處理裝置中構(gòu)建包含不確定 性的對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu)的信 息處理方法,其特征在于,具有如下步驟內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中,構(gòu)建關(guān)于作為 在部分可觀測馬爾科夫決策過程(POMDP: Partially Observable Markov Decision Process)中定義的信息的觀測(Observation)信息 中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合 相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò),構(gòu)建內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò);動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中解析不同的事件 觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間 的關(guān)聯(lián)性,構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息 的互4關(guān)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò);以及因數(shù)POMDP生成步驟,在數(shù)據(jù)處理部中,根據(jù)上述動(dòng)態(tài)貝葉 斯網(wǎng)絡(luò),生成包含有在POMDP中定義的信息的要素的關(guān)系信息的 因數(shù)POMDP(Factored POMDP)。
9. 根據(jù)權(quán)利要求8所述的信息處理方法,其特征在于, 上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟包含由上述數(shù)據(jù)處理部執(zhí)行如下處理的步驟根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定作為在POMDP中定義的信息的觀測 (Observation)中所包含的各個(gè)觀測要素和在POMDP中定義的狀態(tài) (State)、行動(dòng)(Action)、報(bào)酬(Reard)這些作為觀測以外信息的至少 任一個(gè)中包含的要素之間的關(guān)聯(lián)性,構(gòu)建觀測要素單位的貝葉斯 網(wǎng)絡(luò)。
10. 根據(jù)權(quán)利要求8所述的信息處理方法,其特征在于, 在上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中,由上述數(shù)據(jù)處理部執(zhí)行根據(jù)學(xué)習(xí)樣本數(shù)據(jù)來決定多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間的關(guān)聯(lián)性的處理。
11. 根據(jù)權(quán)利要求8所述的信息處理方法,其特征在于, 在上述內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟以及上述動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟中,上述數(shù)據(jù)處理部作為表示上述要素間的關(guān)系的數(shù)據(jù), 應(yīng)用對應(yīng)于貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖(DAG: Directed Acyclic Graph),根據(jù)通過基于學(xué)習(xí)樣本數(shù)據(jù)的學(xué)習(xí)處理而得到的信息, 執(zhí)行上述有向非循環(huán)圖(DAG)的更新處理,從而解析要素間的關(guān) 系。
12. 根據(jù)權(quán)利要求8所述的信息處理方法,其特征在于, 上述信息處理方法還執(zhí)行如下的處理在上述數(shù)據(jù)處理部中,輸入包含有在上述POMDP中定義的各 信息中所包含的要素的種類的要素信息以及作為上述因數(shù)POMDP (Factored POMDP)的結(jié)構(gòu)信息的貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)連接形式的 最大輸入數(shù)量(Max-Fan-In)信息,按照該輸入信息來構(gòu)建上述因數(shù) POMDP(Factored POMDP)。
13. —種計(jì)算機(jī)程序,使信息處理裝置構(gòu)建包含不確定性的 對象區(qū)域中的信息分析處理中應(yīng)用的信息分析處理結(jié)構(gòu),其特征 在于,執(zhí)行以下步驟內(nèi)部貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中構(gòu)建關(guān)于作為在 部分可觀測馬爾科夫決策過程(POMDP : Partially Observable Markov Decision Process)中定義的信息的觀測(Observation)信息 中所包含的各個(gè)觀測要素的貝葉斯網(wǎng)絡(luò)(Bayesian Network),組合 相同的事件觀察區(qū)域中的多個(gè)觀測要素單位的貝葉斯網(wǎng)絡(luò),構(gòu)建 內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò);動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)生成步驟,在數(shù)據(jù)處理部中解析不同的事件 觀察區(qū)域中的多個(gè)內(nèi)部網(wǎng)絡(luò)對應(yīng)的貝葉斯網(wǎng)絡(luò)中所包含的要素間 的關(guān)聯(lián)性,構(gòu)建具有不同的事件觀察區(qū)域中的要素間的關(guān)聯(lián)信息 的互聯(lián)網(wǎng)絡(luò)對應(yīng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò);以及因數(shù)POMDP生成步驟,在數(shù)據(jù)處理部中根據(jù)上述動(dòng)態(tài)貝葉斯 網(wǎng)絡(luò),生成包含有在P O M D P中定義的信息的要素的關(guān)系信息的因 數(shù)POMDP(Factored POMDP)。
全文摘要
提供信息處理裝置和信息處理方法、以及計(jì)算機(jī)程序。實(shí)現(xiàn)可構(gòu)建改進(jìn)的POMDP的裝置以及方法。關(guān)于在部分可觀測馬爾科夫決策過程(POMDPPartially Observable Markov Decision Process)中定義的狀態(tài)(State)、行動(dòng)(Action)、觀測(Observation)、報(bào)酬(Reward)的各信息,分別設(shè)定多個(gè)不同的要素(因數(shù)),構(gòu)建明確了要素間的關(guān)系的因數(shù)POMDP(Factored POMDP)。在應(yīng)用因數(shù)POMDP的狀態(tài)轉(zhuǎn)移預(yù)測、行動(dòng)決定處理中,可進(jìn)行明確區(qū)分了要素單位的因果關(guān)系的處理,可進(jìn)行更正確的狀況預(yù)測、有效的行動(dòng)決定處理。
文檔編號(hào)G06N5/04GK101105845SQ20071013882
公開日2008年1月16日 申請日期2007年6月7日 優(yōu)先權(quán)日2006年6月7日
發(fā)明者尤戈·戴·普羅費(fèi)歐 申請人:索尼株式會(huì)社