基于語音控制的位置定位方法、裝置、用戶設(shè)備及計算機程序產(chǎn)品與流程

文檔序號：11530592閱讀：451來源：國知局

本申請涉及通信技術(shù)領(lǐng)域，尤其是涉及一種基于語音控制的位置定位方法、裝置、用戶設(shè)備及計算機程序產(chǎn)品。

背景技術(shù)：

隨著語音識別技術(shù)的不斷發(fā)展與應用，語音識別已經(jīng)可以進行有限的操作，如添加鬧鐘、添加日程、查天氣、講故事、聊天等等功能。

然而，對于已經(jīng)固化的應用程序，只能由此應用程序的開發(fā)者專門開發(fā)一套復雜的語音接口來進行比較簡單的行為操作，此類操作大多針對一個常用行為，且受限于語音識別技術(shù)的現(xiàn)狀，無法實現(xiàn)足夠智能的操作。而針對現(xiàn)有的ui操作界面，目前也只能通過點擊、滑動等動作進行操作，而無法通過語音進行準確定位，并進而對用戶設(shè)備進行操作。

因此目前根據(jù)接收到的語音指令，實現(xiàn)語音內(nèi)容定位局限性較強，進而使得不能高效地配合用戶完成對用戶設(shè)備的操作。

技術(shù)實現(xiàn)要素：

本申請?zhí)峁┝艘环N基于語音控制的位置定位方法、裝置、用戶設(shè)備、機器人及計算機程序產(chǎn)品，主要用于提高語音定位的適用性。

一種基于語音控制的位置定位方法，包括：接收語音控制指令；基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；

定位至確定出的所述位置。

所述語音控制指令包括：定位內(nèi)容和指令內(nèi)容；所述確定所述語音控制指令中的內(nèi)容在當前顯示界面中的位置，包括：確定所述語音控制指令中的定位內(nèi)容所指示的內(nèi)容在當前顯示界面中的位置；所述方法還包括：根據(jù)所確定的位置和所述指令內(nèi)容，控制用戶設(shè)備。

定位至確定出的所述位置，包括：將用戶設(shè)備中的光標移動至所述位置處。

所述基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置，包括：基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容的文字或者所指示的圖標在當前顯示界面中的位置。

基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置，包括：在當前顯示界面所顯示的文本信息中查找所述語音控制指令所指示的內(nèi)容的文字，將查找到的文字所在的位置確定為所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；或在顯示界面所顯示的文本信息中無法查找到所述語音控制指令所指示的內(nèi)容的文字時，基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置。

所述方法還包括：在所述語音控制指令所指示的內(nèi)容位于一個交互按鈕上時，觸發(fā)所述交互按鈕。

所述基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置，包括：將交互按鈕的中心點作為所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；觸發(fā)所述交互按鈕，包括：觸發(fā)所述交互按鈕的中心位置。

一種用戶設(shè)備系統(tǒng)，包括：顯示器，存儲器，一個或多個處理器；以及一個或多個模塊，所述一個或多個模塊被存儲在所述存儲器中，并被配置成由所述一個或多個處理器執(zhí)行，所述一個或多個模塊包括用于執(zhí)行上述方法中任一所述方法中各個步驟的指令。

所述計算機程序產(chǎn)品包括內(nèi)嵌于計算機可讀的存儲介質(zhì)中的計算機程序，所述計算機程序包括用于使所述電子設(shè)備執(zhí)行上述任一所述方法中的各個步驟的指令。

一種基于語音控制的位置定位裝置，包括：接收模塊，用于接收語音控制指令；確定模塊，用于基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；執(zhí)行模塊，用于定位至確定出的所述位置。

所述語音控制指令包括：定位內(nèi)容和指令內(nèi)容；所述確定模塊，具體用于確定所述語音控制指令中的定位內(nèi)容所指示的內(nèi)容在當前顯示界面中的位置；所述執(zhí)行模塊，還用于根據(jù)所確定的位置和所述指令內(nèi)容，控制用戶設(shè)備。

所述執(zhí)行模塊，具體用于將用戶設(shè)備中的光標移動至所述位置處。

所述確定模塊，具體用于基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容的文字或者所指示的圖標在當前顯示界面中的位置。

所述確定模塊，具體用于在當前顯示界面所顯示的文本信息中查找所述語音控制指令所指示的內(nèi)容的文字，將查找到的文字所在的位置確定為所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；或在顯示界面所顯示的文本信息中無法查找到所述語音控制指令所指示的內(nèi)容的文字時，基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置。

所述執(zhí)行模塊，還用于在所述語音控制指令所指示的內(nèi)容位于一個交互按鈕上時，觸發(fā)所述交互按鈕。

所述確定模塊，具體用于將交互按鈕的中心點作為所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；所述執(zhí)行模塊，具體用于觸發(fā)所述交互按鈕的中心位置。

通過本申請上述各實施例提出技術(shù)方案，基于語音控制命令，代替用戶對用戶設(shè)備進行點擊和滑動等傳統(tǒng)操作控制用戶設(shè)備，只需要極少數(shù)的命令識別，如“打開”、“點擊…”、“輸入…”、“上劃下劃”等等，即可實現(xiàn)準確度很高的語音控制命令，能夠準確根據(jù)語音控制命令實現(xiàn)語音控制命令中的內(nèi)容進行定位，用于解決目前根據(jù)接收到的語音指令，實現(xiàn)語音內(nèi)容定位局限性較強，進而使得不能高效地配合用戶完成對用戶設(shè)備的操作，且不需要對原有系統(tǒng)和應用程序進行改動，也不再需要云端復雜的語意理解模塊，達到良好的用戶體驗。

附圖說明

圖1為本申請實施例一提出的基于語音控制的位置定位方法流程圖；

圖2為本申請實施例二提出的基于語音控制實現(xiàn)用戶設(shè)備解鎖功能方法流程圖；

圖3為本申請實施例二提出的基于語音控制實現(xiàn)用戶設(shè)備解鎖滑動示意圖；

圖4為本申請實施例三提出的基于語音控制實現(xiàn)定位的用戶當前界面示意圖；

圖5為本申請實施例三提出的基于語音控制實現(xiàn)用戶設(shè)備控制流程圖；

圖6為本申請實施例三提出的基于語音控制實現(xiàn)定位的用戶當前界面示意圖；

圖7為本申請實施例五提出的用戶設(shè)備結(jié)構(gòu)組成示意圖；

圖8為本申請實施例五提出的用戶設(shè)備結(jié)構(gòu)組成示意圖；

圖9為本申請實施例五提出的用戶設(shè)備結(jié)構(gòu)組成示意圖。

具體實施方式

針對現(xiàn)有技術(shù)中本申請實施例中的方案可以應用于各種場景中，本申請實施例中的方案可以采用各種計算機語言實現(xiàn)，例如面向?qū)ο蟮某绦蛟O(shè)計語言java等。

為了使本申請各實施例中的技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖對本申請的示例性實施例進行進一步詳細的說明，顯然，所描述的實施例僅是本申請的一部分實施例，而不是所有實施例的窮舉。需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。

實施例一

本申請實施例一提出一種基于語音控制的位置定位方法，如圖1所示，其具體處理流程如下述：

步驟11，用戶輸入語音控制指令。

用戶可以通過音頻設(shè)備，例如麥克風等輸入語音控制指令。

步驟12，用戶設(shè)備接收語音控制指令。

步驟13，用戶設(shè)備基于圖像分析技術(shù)確定語音控制指令所指示的內(nèi)容在當前顯示界面中的位置。

作為一種替換的實施方式，上述的步驟s13中“基于圖像分析技術(shù)確定語音控制指令所指示的內(nèi)容在當前顯示界面中的位置”的過程也可以由用戶設(shè)備和服務(wù)端共同組成的電子系統(tǒng)配合完成語音控制指令所指示的內(nèi)容在當前顯示界面中的位置的處理過程。

具體實施中，用戶設(shè)備截取當前顯示界面中的全部顯示界面，用戶設(shè)備將截取的顯示界面和語音控制指令一起發(fā)送至服務(wù)端，服務(wù)端接收用戶設(shè)備發(fā)送的截取的顯示界面和語音控制指令，服務(wù)端基于接收到的語音控制指令，利用圖像分析技術(shù)，在接收到的顯示圖像中確定接收到的語音控制指令所在的位置，服務(wù)端將確定出的位置發(fā)送給用戶設(shè)備，用戶設(shè)備接收服務(wù)端發(fā)送的服務(wù)端分析顯示圖像后獲得的語音控制指令在當前顯示界面中的位置，用戶設(shè)備以當前顯示界面中的預設(shè)的坐標原點為起點，將當前顯示界面和服務(wù)端發(fā)送的位置匹配，獲取語音控制指令在當前顯示界面中的位置。

在該種方式中，用戶設(shè)備還可以截取當前顯示界面中的全部顯示界面，將顯示圖像和語音控制指令發(fā)送至服務(wù)端，接收服務(wù)端發(fā)送的位置設(shè)定的指令，其中位置設(shè)定的指令是服務(wù)端分析顯示界面后獲得的語音控制指令在當前顯示界面中的位置后發(fā)送的，用戶設(shè)備獲得指令中包含的坐標，以當前顯示界面中的預設(shè)的坐標原點為起點，獲得坐標在當前顯示界面中的位置。

在具體實施時，可以當前顯示界面中的預設(shè)的坐標原點為起點，在當前顯示界面的顯示圖像中。確定與關(guān)鍵字在當前顯示界面中的對應的圖像。

在具體實施時，在確定與語音控制指令在當前顯示界面中的對應的位置時，該語音控制指令可以包含定位內(nèi)容和/或指令內(nèi)容。

具體地，可以基于圖像分析技術(shù)確定語音控制指令所指示的內(nèi)容的文字或者所指示的圖標在當前顯示界面中的位置。

具體地，在當前顯示界面所顯示的文本信息中查找語音控制指令所指示的內(nèi)容的文字，將查找到的文字所在的位置確定為語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；或

在顯示界面所顯示的文本信息中無法查找到所述語音控制指令所指示的內(nèi)容的文字時，基于圖像分析技術(shù)確定語音控制指令所指示的內(nèi)容在當前顯示界面中的位置。

步驟14，定位至確定出的位置。

具體地，語音控制指令包括定位內(nèi)容和指令內(nèi)容；則確定語音控制指令中的定位內(nèi)容所指示的內(nèi)容在當前顯示界面中的位置，上述方法還包括：

根據(jù)所確定的位置和所述指令內(nèi)容，控制用戶設(shè)備。

一種較佳地實施方式，可以將用戶設(shè)備中的光標移動至位置處。

進一步地，在上述步驟14之后，還可以包括：

在語音控制指令所指示的內(nèi)容位于一個交互按鈕上時，觸發(fā)交互按鈕。

具體地，在確定位置時，可以將交互按鈕的中心點作為語音控制指令所指示的內(nèi)容在當前顯示界面中的位置，觸發(fā)交互按鈕的中心位置。

實施例二

本申請實施例二以一具體實例進一步詳細闡述基于語音控制的位置定位方法，通過本申請?zhí)岢龅募夹g(shù)方案實現(xiàn)用戶設(shè)備解鎖功能，如圖2所示，其具體處理流程如下述：

步驟21，用戶通過觸摸用戶設(shè)備調(diào)出語音錄入功能。

在上述步驟21中，用戶可以通過觸摸用戶設(shè)備屏幕喚醒用戶設(shè)備，然后調(diào)出語音錄入功能，也可以通過home鍵喚醒用戶設(shè)備，或者通過觸摸方式直接調(diào)出語音錄入功能，或者省略該步驟21，在此不做具體地限定。

步驟22，用戶發(fā)送解鎖的語音控制指令。

在本申請實施例二提出的技術(shù)方案中，解鎖的語音控制指令，可以是直接是解鎖詞匯，還可以是向左滑動解鎖塊、滑動解鎖塊之類的語音控制指令，在此不做具體地限定。如圖3所示，用戶設(shè)備解鎖功能以向左滑動為例進行詳細闡述。具體實施中，還可以是向右滑動、向上滑動、向下滑動、轉(zhuǎn)圈、或者折線等方式。在此不做具體地限定。

步驟23，用戶設(shè)備接收用戶發(fā)送的解鎖的語音控制指令。

步驟24，用戶設(shè)備對接收到的語音控制指令進行解析，獲得所指示的內(nèi)容為解鎖。

步驟25，用戶設(shè)備根據(jù)所指示的內(nèi)容解鎖，確定解鎖點的位置。

解鎖可以是向左滑動滑動塊實現(xiàn)，也可以是向右等方式，但是無論是哪種方式實現(xiàn)，均需要找到解鎖點。在本申請實施例提出的技術(shù)方案中，將以向左滑動解鎖點為例進行詳細闡述。

在上述步驟25中，用戶設(shè)備根據(jù)獲取的關(guān)鍵字解鎖，在當前顯示界面的圖像中，基于圖像分析技術(shù)，確定關(guān)鍵字滑動對應的解鎖點在當前顯示界面中的位置。

步驟26，觸發(fā)解鎖點向左滑動解鎖用戶設(shè)備。

實施例三

本申請實施例三以一具體實例進一步詳細闡述基于語音控制的位置定位方法，實現(xiàn)用戶設(shè)備的控制方法，如圖4所示，用戶設(shè)備當前顯示界面，為某一應用程序，其中包含多個聯(lián)系人。通過本申請?zhí)岢龅募夹g(shù)方案實現(xiàn)某應用程序中聯(lián)系人確認功能，如圖5所示，其具體處理流程如下述：

步驟51，用戶發(fā)送點擊用戶a的語音控制指令。

在本申請實施例三提出的技術(shù)方案中，用戶通過某應用程序，欲和該應用程序中的用戶a進行聯(lián)系，按照本申請實施例三提出的技術(shù)方案，用戶發(fā)送點擊用戶a的語音控制指令。

步驟52，用戶設(shè)備接收點擊用戶a的語音控制指令。

步驟53，用戶設(shè)備中的語音識別模塊將語音控制指令識別成文字的點擊用戶a。

步驟54，用戶設(shè)備中的語音解析模塊解析出點擊操作，點擊位置為用戶a。

步驟55，用戶設(shè)備中的處理模塊，獲得當前用戶設(shè)備的顯示界面，并基于圖像分析技術(shù)，在當前用戶設(shè)備的顯示界面中匹配用戶a。

在上述步驟55中，本申請實施例三以用戶設(shè)備自身的處理模塊，基于圖像分析技術(shù)，在當前用戶設(shè)備的顯示界面中匹配用戶a。

具體實施中，處理模塊還可以將用戶設(shè)備的當前顯示界面截圖，并將截圖后的當前顯示界面上傳至服務(wù)端，服務(wù)端根據(jù)關(guān)鍵字用戶a在接收到的截圖中進行匹配，獲得用戶a所在的位置，服務(wù)端將位置傳輸給處理模塊。其中在傳輸截圖時，可以以壓縮的方式傳輸，在此不做具體的限定。

步驟56，用戶設(shè)備根據(jù)預先定義的坐標原點，確定用戶a的位置。

假設(shè)用戶設(shè)備屏幕左下角定義為坐標的(0，0)，如圖6所示，橫軸為x軸，縱軸為y軸。假設(shè)當前屏幕分辨率為1080x1920，假設(shè)步驟55中分析到的用戶a文字在圖像中的x軸區(qū)間為240-420，y軸區(qū)間為1300-1400，則將點擊像素點定位這個矩形的中心點，此例中為(330，1350)。

步驟57，定位到用戶a處。

仍沿用上述步驟56中的實施例，用戶a所在位置的中心點為(330，1350)，則可以將用戶設(shè)備的光標定位在該(330，1350)處。

步驟58，根據(jù)接收到的語音控制指令中包含的控制內(nèi)容觸發(fā)交互按鈕。

在接收到的語音控制指令中，包含點擊字樣，則在定位到確定出的位置之后，用戶設(shè)備的處理模塊按照語音控制命令中的點擊，點擊用戶a。

在上述步驟58中，用戶設(shè)備的處理模塊按照語音控制命令中的點擊，點擊像素點(330，1350)。

實施例四

通常情況下，通訊錄中的聯(lián)系人是文字形式存儲，但是某些應用程序中的應用功能，為便于識別和美觀，通過采用圖形的方式展示給用戶。例如實施例二中的手機解鎖，解鎖模塊同樣是圖形方式展示，基于此，本申請實施例四以文字匹配圖標為例，進一步詳細闡述，其處理流程如下述：

步驟一，用戶發(fā)送搜尋的語音控制指令。

步驟二，用戶設(shè)備接收搜尋的語音控制指令。

步驟三，用戶設(shè)備中的語音識別模塊將語音控制指令識別成文字的搜尋。

步驟四，用戶設(shè)備中的處理模塊，獲得用戶設(shè)備的當前顯示界面，并基于圖像分析技術(shù)，在用戶設(shè)備的當前顯示界面中匹配搜尋。

在上述步驟五中，本申請實施例四以用戶設(shè)備自身的處理模塊，基于圖像分析技術(shù)，在用戶設(shè)備的當前顯示界面中匹配搜尋。具體實施中，處理模塊還可以將用戶設(shè)備的當前顯示界面截圖，并將截圖后的當前顯示界面上傳至服務(wù)端，服務(wù)端根據(jù)關(guān)鍵字搜尋在接收到的截圖中進行匹配，獲得搜尋所在的位置，服務(wù)端將位置傳輸給處理模塊。

具體地，本申請實施例三以用戶設(shè)備自身進行位置定位為例進行詳細闡述，用戶設(shè)備基于圖像分析技術(shù)在抓取的屏幕圖像中搜尋搜尋文字和分析系統(tǒng)預置的關(guān)于搜尋的圖形庫，如果只搜尋到搜尋文字，未匹配到任何關(guān)于搜尋的圖形，則與實施例三相同，對中心的像素點進行點擊操作；如果未搜尋到搜尋文字，但匹配到了關(guān)于搜尋的圖形(右上角的放大鏡圖標)，則對放大鏡的中心像素點進行點擊操作；如果既搜尋到搜尋文字，又匹配到了關(guān)于搜尋的圖形，如圖6所示的放大鏡，則需要進一步分析搜尋文字周圍是否有文字，放大鏡圖形周圍是否有文字(有文字的判定為實際的內(nèi)容)，將周圍沒有文字的對象判定為點擊目標，并對中心像素點進行點擊操作。

步驟六，用戶設(shè)備根據(jù)預先定義的坐標原點，確定獲得的位置。

在上述步驟一～步驟六中，是以在確定出語音控制指令對應的位置之后，實現(xiàn)對用戶設(shè)備的控制為例進行詳細闡述，具體實施中，在上述步驟六之后，還可以是將光標移動到該位置處，等待用戶再次輸入的語音控制指令，或者其它指令進行相應操作，在此不做具體地限定。

實施例五

本申請實施例五提出一種用戶設(shè)備，包括：

顯示器，存儲器，一個或多個處理器，以及一個或多個模塊，一個或多個模塊被存儲在存儲器中，并被配置成由一個或多個處理器執(zhí)行，一個或多個模塊包括用于執(zhí)行方法實施例一中各個步驟的指令。在此不做贅述。

在本申請實施例五提出的技術(shù)方案中，存儲器，存儲器可以是易失性存儲器(英文：volatilememory)，例如隨機存取存儲器(英文：random-accessmemory，縮寫：ram)；或者非易失性存儲器(英文：non-volatilememory)，例如快閃存儲器(英文：flashmemory)，硬盤(英文：harddiskdrive，縮寫：hdd)或固態(tài)硬盤(英文：solid-statedrive，縮寫：ssd)；或者上述種類的存儲器的組合。

處理器可以是中央處理器(centralprocessingunit，cpu)，或者是cpu和硬件芯片的組合。

處理器還可以是網(wǎng)絡(luò)處理器(networkprocessor，np)?；蛘呤莄pu和np的組合，或者是np和硬件芯片的組合。

上述硬件芯片可以是以下一種或多種的組合：專用集成電路(application-specificintegratedcircuit，asic)，現(xiàn)場可編程邏輯門陣列(field-programmablegatearray，fpga)，復雜可編程邏輯器件(complexprogrammablelogicdevice，cpld)。

可選地，在本申請實施例五提出的用戶設(shè)備中的一個或多個模塊，該些模塊可以是具備上述實施例是中提出的裝置模塊的相應功能。

進一步地，本申請實施例五提出的技術(shù)方案中，以圖7為例介紹本申請實施例提供的用戶設(shè)備的控制方法計算節(jié)點的邏輯結(jié)構(gòu)。該計算節(jié)點可以是用戶設(shè)備，該用戶設(shè)備具體可以為桌面計算機、筆記本電腦、智能手機或平板電腦等。如圖7所示，該用戶設(shè)備的硬件層包括中央處理器(centerprocessingunit，cpu)、圖形處理器(graphicprocessingunit，gpu)等，當然還可以包括存儲器、輸入/輸出設(shè)備(inputdevice)、網(wǎng)絡(luò)接口等，輸入設(shè)備可包括鍵盤、鼠標、觸摸屏等，輸出設(shè)備可包括顯示設(shè)備如液晶顯示器(liquidcrystaldisplay，lcd)、陰極射線管(cathoderaytube，crt)、全息成像(holographic)、投影(projector)等。在硬件層之上可運行有操作系統(tǒng)(如android等)以及一些應用程序。核心庫層是操作系統(tǒng)的核心部分，包括輸入/輸出服務(wù)、核心服務(wù)、圖形設(shè)備接口以及實現(xiàn)cpu、gpu圖形處理的圖形引擎(graphicsengine)等。圖形引擎可包括2d引擎、3d引擎、合成器(composition)、幀緩沖區(qū)(framebuffer)等。核心庫層還包括輸入法服務(wù)。其中，輸入法服務(wù)包括終端自帶的輸入法服務(wù)。除此之外，該終端還包括驅(qū)動層、框架層和應用層。驅(qū)動層可包括cpu驅(qū)動(driver)、gpu驅(qū)動、顯示控制器驅(qū)動、安全區(qū)域驅(qū)動(trustzonedriver)等?？蚣軐涌砂▓D形服務(wù)(graphicservice)、系統(tǒng)服務(wù)(systemservice)、網(wǎng)頁服務(wù)(webservice)和用戶服務(wù)(customerservice)等；圖形服務(wù)中，可包括如微件(widget)、畫布(canvas)、視圖(views)、renderscript等。應用層可包括桌面(launcher)、媒體播放器(mediaplayer)、瀏覽器(browser)等。

本申請實施例提出的用戶設(shè)備，如圖8所示，該用戶設(shè)備200包括：至少一個處理器201，至少一個網(wǎng)絡(luò)接口204或者其他用戶接口203，存儲器205，至少一個通信總線202。通信總線202用于實現(xiàn)這些組件之間的連接通信。該用戶設(shè)備200可選的包含用戶接口203，包括顯示器(例如圖7所示的lcd、crt、全息成像(holographic)或者投影(projector)等)，鍵盤或者點擊設(shè)備(例如，鼠標，軌跡球(trackball),觸感板或者觸摸屏等)。

存儲器205可以包括只讀存儲器和隨機存取存儲器，并向處理器201提供存儲器205中存儲的程序指令和數(shù)據(jù)。存儲器205的一部分還可以包括非易失性隨機存取存儲器(nvram)。

在一些實施方式中，存儲器205存儲了如下的元素，可執(zhí)行模塊或者數(shù)據(jù)結(jié)構(gòu)，或者他們的子集，或者他們的擴展集:

操作系統(tǒng)2051，包含各種系統(tǒng)程序指令，該程序指令可運行在例如圖8所示的框架層、核心庫層、驅(qū)動層等，用于實現(xiàn)各種基礎(chǔ)業(yè)務(wù)以及處理基于硬件的任務(wù)。

應用程序2052，包含各種應用程序，例如圖8所示的桌面(launcher)、媒體播放器(mediaplayer)、瀏覽器(browser)以及輸入法應用等，用于實現(xiàn)各種應用業(yè)務(wù)。

在本申請實施例中，存儲器205也可以稱之為存儲區(qū)域，用于存儲數(shù)據(jù)程序，以及存儲操作系統(tǒng)。

處理器201通過調(diào)用存儲器205存儲的程序指令，處理器201用于按照獲得的程序指令執(zhí)行上述方法實施例一中各方法步驟，這里不再贅述。

本申請實施例提出的提出控制用戶設(shè)備的方法所應用的用戶設(shè)備，該用戶設(shè)備可以為手機、平板電腦、個人數(shù)字助理(personaldigitalassistant，pda)等。參考圖9所示，為用戶設(shè)備300的其中一種結(jié)構(gòu)組成示意圖。

該用戶設(shè)備300主要包括，存儲器320、處理器360及輸入單元330，該輸入單元330用于接收用戶在終端上進行操作時的生成的事件。該存儲器320用于存儲操作系統(tǒng)和各種應用程序的程序指令。

可以理解的，處理器360的具體實現(xiàn)功能可參見上述處理器201的詳細闡述，不再贅述。

存儲器320可以是用戶設(shè)備300的內(nèi)存，該內(nèi)存可以劃分為三個存儲空間，分別對應設(shè)置在第一運行環(huán)境中的安全內(nèi)存、設(shè)置在第二環(huán)境中的非安全內(nèi)存以及第一運行環(huán)境和第二運行環(huán)境中的應用程序或者硬件都可以訪問的共享內(nèi)存。安全內(nèi)存、非安全內(nèi)存以及共享內(nèi)存的空間劃分，可以劃分相同的大小，也可以根據(jù)存儲數(shù)據(jù)輸入事件的不同，劃分不同的大小。

用戶設(shè)備中的輸入單元330可用于接收用戶輸入的數(shù)字或字符信息，以及產(chǎn)生與用戶設(shè)備300的用戶設(shè)置以及功能控制有關(guān)的信號輸入。具體地，本申請實施例中，該輸入單元330可以包括觸控面板331。觸控面板331，可收集用戶在其上(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板331上)的操作，并根據(jù)預先設(shè)定的程序指令，驅(qū)動與觸控面板331相應的連接裝置?？蛇x的，觸控面板331可包括觸摸檢測裝置和觸摸控制器兩個部分。其中，觸摸檢測裝置檢測用戶的觸摸方位，并檢測觸摸操作帶來的信號，將信號傳送給觸摸控制器；觸摸控制器從觸摸檢測裝置上接收觸摸信息，并將它轉(zhuǎn)換成觸點坐標，再送給該處理器360，并能接收處理器360發(fā)來的命令并加以執(zhí)行。此外，可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸控面板331。除了觸控面板331，輸入單元330還可以包括其他輸入設(shè)備332，其他輸入設(shè)備332可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。

該用戶設(shè)備300還可以包括顯示單元340，該顯示單元340可用于顯示由用戶輸入的信息或提供給用戶的信息以及用戶設(shè)備300的各種菜單界面。該顯示單元340可包括顯示面板341，可選的，可以采用液晶顯示器(liquidcrystaldisplay，lcd)或有機發(fā)光二極管(organiclight-emittingdiode,oled)等形式來配置顯示面板341。

本申請實施例中，該觸摸顯示屏包括不同的顯示區(qū)域。每一個顯示區(qū)域可以包含至少一個應用程序的圖標和/或widget桌面控件等界面元素。

該處理器360是用戶設(shè)備300的控制中心，利用各種接口和線路連接整個手機的各個部分，通過運行或執(zhí)行存儲在該存儲器320內(nèi)的軟件程序和/或模塊，執(zhí)行用戶設(shè)備300的各種功能和處理數(shù)據(jù)，從而對用戶設(shè)備300進行整體監(jiān)控。

可選的該用戶設(shè)備300還可以包括rf電路310，用于提供無線連接的wifi模塊380，以及電源390和用于提供聲音輸入輸出的音頻電路370。

實施例六

本申請實施例六提出一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括內(nèi)嵌于計算機可讀的存儲介質(zhì)中的計算機程序，所述計算機程序包括用于使所述電子設(shè)備執(zhí)行執(zhí)行上述實施例一～實施例四中任一實施例提出的技術(shù)方案中的各個步驟的指令。

實施例七

本申請實施例七提出一種基于語音控制的位置定位裝置，包括：

接收模塊，用于接收語音控制指令。

確定模塊，用于基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置。

執(zhí)行模塊，用于定位至確定出的所述位置。

其中，所述語音控制指令包括：定位內(nèi)容和指令內(nèi)容；所述確定模塊，具體用于確定所述語音控制指令中的定位內(nèi)容所指示的內(nèi)容在當前顯示界面中的位置；所述執(zhí)行模塊，還用于根據(jù)所確定的位置和所述指令內(nèi)容，控制用戶設(shè)備。

具體地，所述執(zhí)行模塊，具體用于將用戶設(shè)備中的光標移動至所述位置處。

具體地，所述確定模塊，具體用于基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容的文字或者所指示的圖標在當前顯示界面中的位置。

具體地，所述確定模塊，具體用于在當前顯示界面所顯示的文本信息中查找所述語音控制指令所指示的內(nèi)容的文字，將查找到的文字所在的位置確定為所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；或在顯示界面所顯示的文本信息中無法查找到所述語音控制指令所指示的內(nèi)容的文字時，基于圖像分析技術(shù)確定所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置。

可選地，所述執(zhí)行模塊，還用于在所述語音控制指令所指示的內(nèi)容位于一個交互按鈕上時，觸發(fā)所述交互按鈕。

具體地，所述確定模塊，具體用于將交互按鈕的中心點作為所述語音控制指令所指示的內(nèi)容在當前顯示界面中的位置；所述執(zhí)行模塊，具體用于觸發(fā)所述交互按鈕的中心位置。

相應的，本申請另一實施例還提供了一種電子系統(tǒng)，包括用戶設(shè)備和服務(wù)器；所述顯示器，存儲器，一個或多個處理器，以及通信單元；所述服務(wù)器包括存儲器，一個或多個處理器，以及通信單元；各個通信單元用于實現(xiàn)與外部設(shè)備的通信；還包括：一個或多個模塊，所述一個或多個模塊被存儲在用戶設(shè)備或者服務(wù)器的存儲器中，并被配置成由相應的處理器執(zhí)行，所述一個或多個模塊包括用于執(zhí)行執(zhí)行上述實施例一～實施例四中任一實施例提出的技術(shù)方案中的各個步驟的指令。

這里的用戶設(shè)備也可以為機器人。

通過本申請上述各實施例提出技術(shù)方案，基于語音控制命令，代替用戶對用戶設(shè)備進行點擊和滑動等傳統(tǒng)操作控制用戶設(shè)備，只需要極少數(shù)的命令識別，如“打開”、“點擊…”、“輸入…”、“上劃下劃”等等，即可實現(xiàn)準確度很高的語音操控命令，且不需要對原有系統(tǒng)和應用程序進行改動，也不再需要云端復雜的語意理解模塊，達到良好的用戶體驗。

本領(lǐng)域的技術(shù)人員應明白，本申請的實施例可提供為方法、裝置(設(shè)備)、或計算機程序產(chǎn)品。因此，本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且，本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、只讀光盤、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

本申請是參照根據(jù)本申請實施例的方法、裝置(設(shè)備)和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器，使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中，使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上，使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理，從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本申請的優(yōu)選實施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對這些實施例作出另外的變更和修改。所以，所附權(quán)利要求意欲解釋為包括優(yōu)選實施例落入本申請范圍的所有變更和修改。

顯然，本領(lǐng)域的技術(shù)人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣，倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本申請也意圖包含這些改動和變型在內(nèi)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：駱磊;黃曉慶
技術(shù)所有人：深圳前海達闥云端智能科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>