一種信息處理方法和電子設備的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術,尤其涉及一種信息處理方法和電子設備。
【背景技術】
[0002] 在增強學習領域,存在一種被稱為人工智能的強化學習的技術,例如Q-Learning 技術,該技術是讓電子設備在與環(huán)境的不斷交互過程中進行學習,從而發(fā)現使電子設備從 任意狀態(tài)出發(fā)達到目標狀態(tài)的最優(yōu)操作序列。
[0003] 這種技術首先將所要解決的問題形式化為馬爾科夫決策問題(Markov Decision Problem,MDP)。MDP問題可以描述為:狀態(tài)集合S、動作集合A、狀態(tài)轉移模型T。
[0004] 狀態(tài)集合S中每一個元素都是一個Ν維向量,用來表示一個特定狀態(tài),假設電子設 備在時刻t的狀態(tài)為s t= (X u x2, . . .,xN),Ste s,S也稱為狀態(tài)空間。
[0005] 動作集合A是定義在狀態(tài)空間上的集合,A(st)表示當處于狀態(tài)st時電子設備可 執(zhí)行的所有動作的集合。
[0006] 狀態(tài)轉移模型T是定義在狀態(tài)空間和動作集合上的,T(st,at)表示在狀態(tài)s t下執(zhí) 行了動作at之后后繼狀態(tài)的概率分布。
[0007] 如圖1所示,該技術的特點是在已知目標狀態(tài)的情況下,能夠自動找到從任意狀 態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作序列。但是,目標狀態(tài)并不總是提前預知的,當目標狀態(tài)未 知時,電子設備無法利用上述技術找到從任意狀態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作序列。
【發(fā)明內容】
[0008] 為解決現有存在的技術問題,本發(fā)明實施例提供一種信息處理方法和電子設備。
[0009] 本發(fā)明實施例提供的一種信息處理方法,應用于電子設備,所述電子設備設置有 初始化為空集的目標狀態(tài)集合T,所述方法包括:
[0010] 檢測所述電子設備的狀態(tài);
[0011] 當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài)s t+n+1,且確定導致 本次狀態(tài)轉移的第二動作at+n不是空操作時,從所述目標狀態(tài)集合T中去除所述第二狀態(tài) st+n,所述空操作是指用戶沒有對所述電子設備進行操作;
[0012] 當確定導致上次狀態(tài)轉移的第一動作at+n i不是空操作時,從所述第二動作a t+n向 前尋找第一個空操作;
[0013] 當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的 狀態(tài)時,在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
[0014] 將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
[0015] 其中,所述方法還包括:
[0016] 當確定所述第二動作at+n是空操作時,在所述目標狀態(tài)集合T中加入所述第三狀 態(tài)st+n+1,并從所述目標狀態(tài)集合T中去除所述第二狀態(tài)st+n。
[0017] 其中,所述方法還包括:
[0018] 當確定所述第一動作at+n i是空操作時,在所述目標狀態(tài)集合T中加入第一狀態(tài) St+n 1 〇
[0019] 其中,所述方法還包括:
[0020] 當確定所述第三狀態(tài)st+n+1不是在尋找到的第一個空操作之后的狀態(tài)中首次出現 的狀態(tài)時,保持所述目標狀態(tài)集合T不變。
[0021] 本發(fā)明實施例提供的一種電子設備,所述電子設備設置有初始化為空集的目標狀 態(tài)集合T,所述電子設備包括:
[0022] 檢測單元,用于檢測所述電子設備的狀態(tài);
[0023] 處理單元,用于當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài) st+n+1,且確定導致本次狀態(tài)轉移的第二動作at+n不是空操作時,從所述目標狀態(tài)集合T中去 除所述第二狀態(tài)s t+n,所述空操作是指用戶沒有對所述電子設備進行操作;當確定導致上一 次狀態(tài)轉移的第一動作at+n i不是空操作時,從所述第二動作a t+n向前尋找第一個空操作; 當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時,在 所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
[0024] 確定單元,用于將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
[0025] 其中,所述處理單元,還用于當確定所述第二動作at+n是空操作時,在所述目標狀 態(tài)集合T中加入所述第三狀態(tài)s t+n+1,并從所述目標狀態(tài)集合T中去除所述第二狀態(tài)st+n。
[0026] 其中,所述處理單元,還用于當確定所述第一動作&_1是空操作時,在所述目標狀 態(tài)集合T中加入第一狀態(tài)s t+n ρ
[0027] 其中,所述處理單元,還用于當確定所述第三狀態(tài)st+n+1不是在尋找到的第一個空 操作之后的狀態(tài)中首次出現的狀態(tài)時,保持所述目標狀態(tài)集合T不變。
[0028] 由上可知,本發(fā)明的技術方案包括:檢測所述電子設備的狀態(tài);當檢測到所述電 子設備的狀態(tài)從第二狀態(tài)s t+n轉移到第三狀態(tài)s t+n+1,且確定導致本次狀態(tài)轉移的第二動作 at+n不是空操作時,從所述目標狀態(tài)集合T中去除所述第二狀態(tài)s t+n,所述空操作是指用戶 沒有對所述電子設備進行操作;當確定導致上次狀態(tài)轉移的第一動作at+n if是空操作時, 從所述第二動作at+n向前尋找第一個空操作;當確定所述第三狀態(tài)s t+n+1是在尋找到的第 一個空操作之后的狀態(tài)中首次出現的狀態(tài)時,在所述目標狀態(tài)集合T中加入所述第三狀態(tài) st+n+1;將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。本發(fā)明實施例能夠讓電子設備根 據用戶的操作動作確定哪些狀態(tài)是目標狀態(tài),進一步得到電子設備所要達到的目標狀態(tài)集 合。從而,電子設備可以根據上述目標狀態(tài)集合利用人工智能的強化學習技術找到從任意 狀態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作順序。
【附圖說明】
[0029] 圖1為現有技術利用強化學習技術得到最優(yōu)操作序列的流程圖;
[0030] 圖2為本發(fā)明提供的一種信息處理方法的實施例的流程圖;
[0031] 圖3為本發(fā)明實施例提供的狀態(tài)變遷的第一種情況的示意圖;
[0032] 圖4為本發(fā)明實施例提供的狀態(tài)變遷的第二種情況的示意圖;
[0033] 圖5為本發(fā)明實施例提供的狀態(tài)變遷的第三種情況的示意圖;
[0034] 圖6為本發(fā)明實施例提供的狀態(tài)變遷的第四種情況的示意圖;
[0035] 圖7為本發(fā)明實施例提供的狀態(tài)變遷的第五種情況的示意圖;
[0036] 圖8為本發(fā)明實施例提供的狀態(tài)變遷的第六種情況的示意圖;
[0037] 圖9為利用本發(fā)明實施例提供的信息處理方法實現目標狀態(tài)集合產生器的示意 圖;
[0038] 圖10為將本發(fā)明實施例提供的信息處理方法應用于軟件智能體的示意圖;
[0039] 圖11為本發(fā)明提供的一種電子設備的實施例的結構示意圖。
【具體實施方式】
[0040] 本發(fā)明提供的一種信息處理方法的實施例,應用于電子設備,所述電子設備設置 有初始化為空集的目標狀態(tài)集合T,如圖2所示,所述方法包括:
[0041] 步驟201、檢測所述電子設備的狀態(tài);
[0042] 步驟202、當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài)s t+n+1,且 確定導致本次狀態(tài)轉移的第二動作at+n不是空操作時,從所述目標狀態(tài)集合T中去除所述 第二狀態(tài)s t+n,所述空操作是指用戶沒有對所述電子設備進行操作;
[0043] 步驟203、當確定導致上次狀態(tài)轉移的第一動作at+n i不是空操作時,從所述第二 動作at+n向前尋找第一個空操作;
[0044] 步驟204、當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首 次出現的狀態(tài)時,在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
[0045] 步驟205、將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
[0046] 在一實施例中,所述方法還包括:
[0047] 當確定所述第二動作at+n是空操作時,在所述目標狀態(tài)集合T中加入所述第三狀 態(tài)s t+n+1,并從所述目標狀態(tài)集合T中