一種信息處理方法和電子設備的制造方法

文檔序號：9826142閱讀：231來源：國知局

一種信息處理方法和電子設備的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術，尤其涉及一種信息處理方法和電子設備。
【背景技術】
[0002] 在增強學習領域，存在一種被稱為人工智能的強化學習的技術，例如Q-Learning 技術，該技術是讓電子設備在與環(huán)境的不斷交互過程中進行學習，從而發(fā)現使電子設備從任意狀態(tài)出發(fā)達到目標狀態(tài)的最優(yōu)操作序列。
[0003] 這種技術首先將所要解決的問題形式化為馬爾科夫決策問題（Markov Decision Problem，MDP)。MDP問題可以描述為：狀態(tài)集合S、動作集合A、狀態(tài)轉移模型T。
[0004] 狀態(tài)集合S中每一個元素都是一個Ν維向量，用來表示一個特定狀態(tài)，假設電子設備在時刻t的狀態(tài)為s t= (X u x2, . . .，xN)，Ste s，S也稱為狀態(tài)空間。
[0005] 動作集合A是定義在狀態(tài)空間上的集合，A(st)表示當處于狀態(tài)st時電子設備可執(zhí)行的所有動作的集合。
[0006] 狀態(tài)轉移模型T是定義在狀態(tài)空間和動作集合上的，T(st，at)表示在狀態(tài)s t下執(zhí) 行了動作at之后后繼狀態(tài)的概率分布。
[0007] 如圖1所示，該技術的特點是在已知目標狀態(tài)的情況下，能夠自動找到從任意狀態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作序列。但是，目標狀態(tài)并不總是提前預知的，當目標狀態(tài)未知時，電子設備無法利用上述技術找到從任意狀態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作序列。

【發(fā)明內容】

[0008] 為解決現有存在的技術問題，本發(fā)明實施例提供一種信息處理方法和電子設備。
[0009] 本發(fā)明實施例提供的一種信息處理方法，應用于電子設備，所述電子設備設置有初始化為空集的目標狀態(tài)集合T，所述方法包括：
[0010] 檢測所述電子設備的狀態(tài)；
[0011] 當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài)s t+n+1，且確定導致本次狀態(tài)轉移的第二動作at+n不是空操作時，從所述目標狀態(tài)集合T中去除所述第二狀態(tài) st+n，所述空操作是指用戶沒有對所述電子設備進行操作；
[0012] 當確定導致上次狀態(tài)轉移的第一動作at+n i不是空操作時，從所述第二動作a t+n向前尋找第一個空操作；
[0013] 當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時，在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
[0014] 將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
[0015] 其中，所述方法還包括：
[0016] 當確定所述第二動作at+n是空操作時，在所述目標狀態(tài)集合T中加入所述第三狀態(tài)st+n+1，并從所述目標狀態(tài)集合T中去除所述第二狀態(tài)st+n。
[0017] 其中，所述方法還包括：
[0018] 當確定所述第一動作at+n i是空操作時，在所述目標狀態(tài)集合T中加入第一狀態(tài) St+n 1 〇
[0019] 其中，所述方法還包括：
[0020] 當確定所述第三狀態(tài)st+n+1不是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時，保持所述目標狀態(tài)集合T不變。
[0021] 本發(fā)明實施例提供的一種電子設備，所述電子設備設置有初始化為空集的目標狀態(tài)集合T，所述電子設備包括：
[0022] 檢測單元，用于檢測所述電子設備的狀態(tài)；
[0023] 處理單元，用于當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài) st+n+1，且確定導致本次狀態(tài)轉移的第二動作at+n不是空操作時，從所述目標狀態(tài)集合T中去除所述第二狀態(tài)s t+n，所述空操作是指用戶沒有對所述電子設備進行操作；當確定導致上一次狀態(tài)轉移的第一動作at+n i不是空操作時，從所述第二動作a t+n向前尋找第一個空操作；當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時，在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
[0024] 確定單元，用于將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
[0025] 其中，所述處理單元，還用于當確定所述第二動作at+n是空操作時，在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1，并從所述目標狀態(tài)集合T中去除所述第二狀態(tài)st+n。
[0026] 其中，所述處理單元，還用于當確定所述第一動作&_1是空操作時，在所述目標狀態(tài)集合T中加入第一狀態(tài)s t+n ρ
[0027] 其中，所述處理單元，還用于當確定所述第三狀態(tài)st+n+1不是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時，保持所述目標狀態(tài)集合T不變。
[0028] 由上可知，本發(fā)明的技術方案包括：檢測所述電子設備的狀態(tài)；當檢測到所述電子設備的狀態(tài)從第二狀態(tài)s t+n轉移到第三狀態(tài)s t+n+1，且確定導致本次狀態(tài)轉移的第二動作 at+n不是空操作時，從所述目標狀態(tài)集合T中去除所述第二狀態(tài)s t+n，所述空操作是指用戶沒有對所述電子設備進行操作；當確定導致上次狀態(tài)轉移的第一動作at+n if是空操作時，從所述第二動作at+n向前尋找第一個空操作；當確定所述第三狀態(tài)s t+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時，在所述目標狀態(tài)集合T中加入所述第三狀態(tài) st+n+1;將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。本發(fā)明實施例能夠讓電子設備根據用戶的操作動作確定哪些狀態(tài)是目標狀態(tài)，進一步得到電子設備所要達到的目標狀態(tài)集合。從而，電子設備可以根據上述目標狀態(tài)集合利用人工智能的強化學習技術找到從任意狀態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作順序。
【附圖說明】
[0029] 圖1為現有技術利用強化學習技術得到最優(yōu)操作序列的流程圖；
[0030] 圖2為本發(fā)明提供的一種信息處理方法的實施例的流程圖；
[0031] 圖3為本發(fā)明實施例提供的狀態(tài)變遷的第一種情況的示意圖；
[0032] 圖4為本發(fā)明實施例提供的狀態(tài)變遷的第二種情況的示意圖；
[0033] 圖5為本發(fā)明實施例提供的狀態(tài)變遷的第三種情況的示意圖；
[0034] 圖6為本發(fā)明實施例提供的狀態(tài)變遷的第四種情況的示意圖；
[0035] 圖7為本發(fā)明實施例提供的狀態(tài)變遷的第五種情況的示意圖；
[0036] 圖8為本發(fā)明實施例提供的狀態(tài)變遷的第六種情況的示意圖；
[0037] 圖9為利用本發(fā)明實施例提供的信息處理方法實現目標狀態(tài)集合產生器的示意圖；
[0038] 圖10為將本發(fā)明實施例提供的信息處理方法應用于軟件智能體的示意圖；
[0039] 圖11為本發(fā)明提供的一種電子設備的實施例的結構示意圖。
【具體實施方式】
[0040] 本發(fā)明提供的一種信息處理方法的實施例，應用于電子設備，所述電子設備設置有初始化為空集的目標狀態(tài)集合T，如圖2所示，所述方法包括：
[0041] 步驟201、檢測所述電子設備的狀態(tài)；
[0042] 步驟202、當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài)s t+n+1，且確定導致本次狀態(tài)轉移的第二動作at+n不是空操作時，從所述目標狀態(tài)集合T中去除所述第二狀態(tài)s t+n，所述空操作是指用戶沒有對所述電子設備進行操作；
[0043] 步驟203、當確定導致上次狀態(tài)轉移的第一動作at+n i不是空操作時，從所述第二動作at+n向前尋找第一個空操作；
[0044] 步驟204、當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時，在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
[0045] 步驟205、將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
[0046] 在一實施例中，所述方法還包括：
[0047] 當確定所述第二動作at+n是空操作時，在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1，并從所述目標狀態(tài)集合T中

完整全部詳細技術資料下載

當前第1頁1 2 3 4