国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種信息處理方法和電子設備的制造方法

      文檔序號:9826142閱讀:231來源:國知局
      一種信息處理方法和電子設備的制造方法
      【技術領域】
      [0001] 本發(fā)明涉及計算機技術,尤其涉及一種信息處理方法和電子設備。
      【背景技術】
      [0002] 在增強學習領域,存在一種被稱為人工智能的強化學習的技術,例如Q-Learning 技術,該技術是讓電子設備在與環(huán)境的不斷交互過程中進行學習,從而發(fā)現使電子設備從 任意狀態(tài)出發(fā)達到目標狀態(tài)的最優(yōu)操作序列。
      [0003] 這種技術首先將所要解決的問題形式化為馬爾科夫決策問題(Markov Decision Problem,MDP)。MDP問題可以描述為:狀態(tài)集合S、動作集合A、狀態(tài)轉移模型T。
      [0004] 狀態(tài)集合S中每一個元素都是一個Ν維向量,用來表示一個特定狀態(tài),假設電子設 備在時刻t的狀態(tài)為s t= (X u x2, . . .,xN),Ste s,S也稱為狀態(tài)空間。
      [0005] 動作集合A是定義在狀態(tài)空間上的集合,A(st)表示當處于狀態(tài)st時電子設備可 執(zhí)行的所有動作的集合。
      [0006] 狀態(tài)轉移模型T是定義在狀態(tài)空間和動作集合上的,T(st,at)表示在狀態(tài)s t下執(zhí) 行了動作at之后后繼狀態(tài)的概率分布。
      [0007] 如圖1所示,該技術的特點是在已知目標狀態(tài)的情況下,能夠自動找到從任意狀 態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作序列。但是,目標狀態(tài)并不總是提前預知的,當目標狀態(tài)未 知時,電子設備無法利用上述技術找到從任意狀態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作序列。

      【發(fā)明內容】

      [0008] 為解決現有存在的技術問題,本發(fā)明實施例提供一種信息處理方法和電子設備。
      [0009] 本發(fā)明實施例提供的一種信息處理方法,應用于電子設備,所述電子設備設置有 初始化為空集的目標狀態(tài)集合T,所述方法包括:
      [0010] 檢測所述電子設備的狀態(tài);
      [0011] 當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài)s t+n+1,且確定導致 本次狀態(tài)轉移的第二動作at+n不是空操作時,從所述目標狀態(tài)集合T中去除所述第二狀態(tài) st+n,所述空操作是指用戶沒有對所述電子設備進行操作;
      [0012] 當確定導致上次狀態(tài)轉移的第一動作at+n i不是空操作時,從所述第二動作a t+n向 前尋找第一個空操作;
      [0013] 當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的 狀態(tài)時,在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
      [0014] 將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
      [0015] 其中,所述方法還包括:
      [0016] 當確定所述第二動作at+n是空操作時,在所述目標狀態(tài)集合T中加入所述第三狀 態(tài)st+n+1,并從所述目標狀態(tài)集合T中去除所述第二狀態(tài)st+n。
      [0017] 其中,所述方法還包括:
      [0018] 當確定所述第一動作at+n i是空操作時,在所述目標狀態(tài)集合T中加入第一狀態(tài) St+n 1 〇
      [0019] 其中,所述方法還包括:
      [0020] 當確定所述第三狀態(tài)st+n+1不是在尋找到的第一個空操作之后的狀態(tài)中首次出現 的狀態(tài)時,保持所述目標狀態(tài)集合T不變。
      [0021] 本發(fā)明實施例提供的一種電子設備,所述電子設備設置有初始化為空集的目標狀 態(tài)集合T,所述電子設備包括:
      [0022] 檢測單元,用于檢測所述電子設備的狀態(tài);
      [0023] 處理單元,用于當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài) st+n+1,且確定導致本次狀態(tài)轉移的第二動作at+n不是空操作時,從所述目標狀態(tài)集合T中去 除所述第二狀態(tài)s t+n,所述空操作是指用戶沒有對所述電子設備進行操作;當確定導致上一 次狀態(tài)轉移的第一動作at+n i不是空操作時,從所述第二動作a t+n向前尋找第一個空操作; 當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首次出現的狀態(tài)時,在 所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
      [0024] 確定單元,用于將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
      [0025] 其中,所述處理單元,還用于當確定所述第二動作at+n是空操作時,在所述目標狀 態(tài)集合T中加入所述第三狀態(tài)s t+n+1,并從所述目標狀態(tài)集合T中去除所述第二狀態(tài)st+n。
      [0026] 其中,所述處理單元,還用于當確定所述第一動作&_1是空操作時,在所述目標狀 態(tài)集合T中加入第一狀態(tài)s t+n ρ
      [0027] 其中,所述處理單元,還用于當確定所述第三狀態(tài)st+n+1不是在尋找到的第一個空 操作之后的狀態(tài)中首次出現的狀態(tài)時,保持所述目標狀態(tài)集合T不變。
      [0028] 由上可知,本發(fā)明的技術方案包括:檢測所述電子設備的狀態(tài);當檢測到所述電 子設備的狀態(tài)從第二狀態(tài)s t+n轉移到第三狀態(tài)s t+n+1,且確定導致本次狀態(tài)轉移的第二動作 at+n不是空操作時,從所述目標狀態(tài)集合T中去除所述第二狀態(tài)s t+n,所述空操作是指用戶 沒有對所述電子設備進行操作;當確定導致上次狀態(tài)轉移的第一動作at+n if是空操作時, 從所述第二動作at+n向前尋找第一個空操作;當確定所述第三狀態(tài)s t+n+1是在尋找到的第 一個空操作之后的狀態(tài)中首次出現的狀態(tài)時,在所述目標狀態(tài)集合T中加入所述第三狀態(tài) st+n+1;將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。本發(fā)明實施例能夠讓電子設備根 據用戶的操作動作確定哪些狀態(tài)是目標狀態(tài),進一步得到電子設備所要達到的目標狀態(tài)集 合。從而,電子設備可以根據上述目標狀態(tài)集合利用人工智能的強化學習技術找到從任意 狀態(tài)出發(fā)抵達目標狀態(tài)的最優(yōu)操作順序。
      【附圖說明】
      [0029] 圖1為現有技術利用強化學習技術得到最優(yōu)操作序列的流程圖;
      [0030] 圖2為本發(fā)明提供的一種信息處理方法的實施例的流程圖;
      [0031] 圖3為本發(fā)明實施例提供的狀態(tài)變遷的第一種情況的示意圖;
      [0032] 圖4為本發(fā)明實施例提供的狀態(tài)變遷的第二種情況的示意圖;
      [0033] 圖5為本發(fā)明實施例提供的狀態(tài)變遷的第三種情況的示意圖;
      [0034] 圖6為本發(fā)明實施例提供的狀態(tài)變遷的第四種情況的示意圖;
      [0035] 圖7為本發(fā)明實施例提供的狀態(tài)變遷的第五種情況的示意圖;
      [0036] 圖8為本發(fā)明實施例提供的狀態(tài)變遷的第六種情況的示意圖;
      [0037] 圖9為利用本發(fā)明實施例提供的信息處理方法實現目標狀態(tài)集合產生器的示意 圖;
      [0038] 圖10為將本發(fā)明實施例提供的信息處理方法應用于軟件智能體的示意圖;
      [0039] 圖11為本發(fā)明提供的一種電子設備的實施例的結構示意圖。
      【具體實施方式】
      [0040] 本發(fā)明提供的一種信息處理方法的實施例,應用于電子設備,所述電子設備設置 有初始化為空集的目標狀態(tài)集合T,如圖2所示,所述方法包括:
      [0041] 步驟201、檢測所述電子設備的狀態(tài);
      [0042] 步驟202、當檢測到所述電子設備的狀態(tài)從第二狀態(tài)st+n轉移到第三狀態(tài)s t+n+1,且 確定導致本次狀態(tài)轉移的第二動作at+n不是空操作時,從所述目標狀態(tài)集合T中去除所述 第二狀態(tài)s t+n,所述空操作是指用戶沒有對所述電子設備進行操作;
      [0043] 步驟203、當確定導致上次狀態(tài)轉移的第一動作at+n i不是空操作時,從所述第二 動作at+n向前尋找第一個空操作;
      [0044] 步驟204、當確定所述第三狀態(tài)st+n+1是在尋找到的第一個空操作之后的狀態(tài)中首 次出現的狀態(tài)時,在所述目標狀態(tài)集合T中加入所述第三狀態(tài)s t+n+1;
      [0045] 步驟205、將所述目標狀態(tài)集合T中的狀態(tài)確定為目標狀態(tài)。
      [0046] 在一實施例中,所述方法還包括:
      [0047] 當確定所述第二動作at+n是空操作時,在所述目標狀態(tài)集合T中加入所述第三狀 態(tài)s t+n+1,并從所述目標狀態(tài)集合T中
      當前第1頁1 2 3 4 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1