本發(fā)明涉及一種智能LED交互方法,還涉及一種智能LED交互裝置。
背景技術:
隨著電子技術的不斷發(fā)展,廣告、新聞、資訊、咨詢等信息越來越多的使用LED顯示屏完成,這些顯示屏廣泛分布在樓宇、電梯、過道、地鐵、公交站等位置。隨著用戶體驗和感受要求的不斷提高,能夠進行智能交互的LED顯示技術得以出現和發(fā)展。
申請公布號為CN104080010A(申請?zhí)枮?01410295113.9)的中國發(fā)明專利申請《交互式信息推送系統(tǒng)及方法》,其中公開的交互系統(tǒng)識別前景圖像中朝向顯示屏的人臉,當人臉朝向顯示屏的時間超過一定的時間后則播放顯示屏當前播放的第一圖文數據對應的第二圖文數據,進而發(fā)送到顯示屏進行播放。該系統(tǒng)中人機的交互內容僅限于顯示屏中存儲的內容,且是被動的播放給用戶,交互的局限性大。并且使用過程中,用戶處于動態(tài)狀態(tài),該系統(tǒng)無法實時獲取用戶的動態(tài)狀態(tài),即無法獲知交互用戶是否已經更換,進而不能的準確的滿足不同用戶的需求。
申請公開號為CN102221881A(申請?zhí)枮?01110131915.2)的中國發(fā)明專利申請《基于仿生代理與實現追蹤興趣區(qū)域分析的人機交互方法》,其中公開的交互方法,能夠計算用戶眼球在屏幕上的焦點位置,進而得到用戶眼球在屏幕上的焦點位置,進而分析用戶關注的興趣區(qū)域,從而實現自然、和諧的人機交互。但是該交互方法也同樣忽略了用戶的動態(tài)狀態(tài)檢測,容易出現興趣內容誤傳的情況。
技術實現要素:
本發(fā)明所要解決的第一個技術問題是針對上述現有技術提供一種能夠實時檢測用戶的動態(tài)狀態(tài),以確認當前的用戶身份,實現與交互用戶之間信息準確交互的智能LED交互方法。
本發(fā)明所要解決的第二個技術問題是針對上述現有技術提供一種能夠在交互過程中檢測并確認用戶身份,以確保交互信息準確性的智能LED交互裝置
本發(fā)明解決上述第一個技術問題所采用的技術方案為:一種智能LED交互方法,其特征在于包括如下步驟:
步驟1、初始化,LED顯示屏顯示設定的首頁內容;
步驟2、獲取LED顯示屏前方的視頻畫面;
步驟3、實時對視頻畫面圖像進行人臉檢測,判斷是否有人臉存在;當視屏畫面圖像中檢測到人臉,則進入步驟4;
步驟4、遍歷視頻畫面圖像中所有的人臉坐標和特征,獲取最大人臉的坐標和特征數據;
步驟5、計算并判斷最大人臉尺寸是否超過設定的人臉尺寸閾值,如果最大人臉尺寸超過設定的人臉尺寸閾值,存儲最大人臉的特征數據,并進入步驟6;如果最大人臉尺寸未超過設定的人臉尺寸閾值,則返回步驟2;
步驟6、判斷最大人臉在視頻畫面圖像中的出現的累積時間是否超過設定的識別時間閾值,如果超過設定的識別時間閾值,則進入步驟7,如果未超過設定的識別時間閾值,刪除最大人臉的特征數據,并返回步驟2;
步驟7、檢測交互狀態(tài)標識,如果交互狀態(tài)標識示為工作狀態(tài),刪除最大人臉的特征數據,并返回步驟2,如果交互狀態(tài)標識示為空閑狀態(tài),則啟動交互;
步驟8、檢測是否存在用戶語音信息,如果未檢測到用戶的語音信息則進入步驟9,如果檢測到用戶的語音信息,則進入步驟14;
步驟9、交互狀態(tài)標識調整為視覺交互工作狀態(tài),將步驟4中最大人臉對應的用戶作為當次交互用戶,分析當次交互用戶相對于LED顯示屏的注視角度對應的屏幕區(qū)域,同時分別對當次交互用戶注視各個注視區(qū)域的累計時間進行計時;
步驟10、將用戶注視各個注視區(qū)域的累積時間分別與設定的注視時間閾值進行比較,如果用戶注視各個注視區(qū)域的累積時間均小于設定的注視時間閾值,則將交互狀態(tài)標識調整為空閑狀態(tài),刪除最大人臉的特征數據,并返回步驟2;如果用戶注視各個注視區(qū)域的累積時間中有大于設定的注視時間閾值,則進行步驟11;
步驟11、將LED顯示屏上用戶注視累積時間最長的注視區(qū)域作為用戶的興趣區(qū)域,LED顯示屏將當前興趣區(qū)域顯示內容對應的更詳細的內容播放給用戶;
步驟12、實時獲取LED顯示屏前方的視頻畫面;判斷視頻畫面圖像中當次交互用戶對應的人臉特征數據是否還存在,如果存在則LED顯示屏持續(xù)播放步驟10中的內容,如果當次交互用戶對應的人臉特征數據丟失,則對該人臉特征數據的丟失時間進行計時;
步驟13、如果步驟12中的人臉特征數據的丟失時間超過設定的丟失時間閾值,則LED顯示屏停止當前內容的播放,進而LED顯示屏顯示設定的主頁內容,刪除當次交互用戶對應的人臉特征數據,將交互狀態(tài)標識調整為空閑狀態(tài),并返回步驟2;
如果步驟12中的人臉特征數據的丟失時間未超出設定的丟失時間閾值,則LED顯示屏繼續(xù)播放當前內容直至播放結束,刪除當次交互用戶對應的人臉特征數據,將交互狀態(tài)標識調整為空閑狀態(tài),并返回步驟2;
步驟14、交互狀態(tài)標識調整為語音交互工作狀態(tài),獲取當次交互用戶的語音信息,提取并保存當次交互用戶的聲紋特征;
步驟15、對獲取的語音信息進行識別和語義分析,進而提取答案,并將答案通過LED顯示屏進行顯示和/或將答案合成為語音傳送給當次交互用戶;
步驟16、在步驟15進行的同時,實時獲取LED顯示屏前方的視頻畫面,并對實時對視頻畫面圖像進行人臉檢測,判斷是否有人臉存在,如果無人臉存在,則對人臉丟失時間進行累積計時,如果人臉丟失的累積時間超過設置的語音交互用戶丟失時間閾值,則立即結束步驟15,并刪除當次交互用戶的聲紋特征,LED顯示屏顯示設定的主頁內容,將交互狀態(tài)標識調整為空閑狀態(tài),同時返回步驟2;
在步驟15進行的同時,如果接受到語音信息則不予響應;
步驟17、在設定的等待時間閾值范圍內,如果獲取到語音信息,則進入步驟18;如果未獲取到語音信息,則刪除當次交互用戶的聲紋特征,LED顯示屏顯示設定的主頁內容,將交互狀態(tài)標識調整為空閑狀態(tài),并返回步驟2;
步驟18、判斷獲取的語音信息對應的聲紋特征是否為當次交互用戶的聲紋特征,如果是,則進入步驟15;如果不是,則進入步驟17。
作為改進,步驟15中,對獲取的語音信息進行識別和語義分析包括如下步驟:
步驟15.1、識別語音信息,并將語音信息轉換為語音文本;
步驟15.2、對語音文本進行分詞,提取語音文本中的核心詞和關鍵詞;
步驟15.3、根據提取的語音文本的核心詞和關鍵詞,在本地知識庫中搜索并提取答案;
步驟15.4、判斷答案是否提取成功,如果答案提取成功,則進入步驟15.9,否則進入步驟15.5;
步驟15.5、根據提取的語音文本的核心詞和關鍵詞,搜索廣域網或互聯網以獲取答案;
步驟15.6、判斷是否搜索到答案,如果搜索到答案進入步驟15.8和步驟15.9,否則進入步驟15.7;
步驟15.7、LED顯示屏顯示和/或語音提示答案獲取失敗,同時記錄答案獲取失敗的問題,以備人工添加答案;
步驟15.8、保存答案到本地知識庫;
步驟15.9、將答案通過LED顯示屏進行顯示和/或將答案合成為語音傳送給當次交互用戶。
為了減少答案的獲取時間,根據提取的語音文本的核心詞和關鍵詞,增加相應核心詞和關鍵詞的權重,同時,增加該核心詞和關鍵詞對應答案的權重;
在步驟15.3中,當核心詞和關鍵詞對應多個答案時,則提取權重高的答案。
優(yōu)選地,獲取語音信息時,檢測語音信息對應的音頻聲強是否超出設定的音頻聲強閾值,如果語音信息的音頻聲強未超過設定的音頻聲強閾值則視為未接收到語音信息,如果語音信息的音頻聲強超出設定的音頻聲強閾值,則視為接收到語音信息。
優(yōu)選地,在步驟8中,在設定的語音信息檢測時間閾值內檢測語音信息,如果在設定的語音信息檢測時間閾值內檢測到語音信息,則視為檢測到用戶的語音信息,如果在設定的語音信息檢測時間閾值內未檢測到語音信息,則視為未檢測到用戶的語音信息。
本發(fā)明解決上述第二個技術問題所采用的技術方案為:一種智能LED交互裝置,其特征在于包括:
中央處理器,用于進行數據處理和發(fā)送控制命令;
存儲器,與所述中央處理器相連接,用于存儲數據;所述存儲器具有用于存儲預存文字、圖片、視頻、語音的預存內容存儲單元和用于存儲問題、答案的本地知識庫;
LED顯示屏,與所述中央處理器相連接,用于顯示文字、圖片、視頻;
視頻采集模塊,用于采集LED顯示屏前方的視頻畫面;
人臉檢測模塊,與所述視頻采集模塊相連接,用于檢測和獲取視頻采集模塊傳送的視頻畫面中的人臉的坐標和特征數據;
音頻采集模塊,用于采集用戶的語音信息;
檢測控制器,分別與所述人臉檢測模塊、音頻采集模塊相連接,用于計算比較人臉的尺寸與設定的人臉尺寸閾值的大小,以及檢測是否存在用戶語音信息;
注視識別模塊,分別與所述檢測控制器和中央處理器相連接,用于計算分析用戶注視LED顯示屏各個注視區(qū)域的角度和時間,進而獲取LED顯示屏上用戶的興趣區(qū)域;
聲紋識別模塊,分別與所述音頻采集模塊和檢測控制器相連接,用于識別音頻采集模塊傳送的用戶語音信息中的聲紋特征;
語音識別模塊,分別與所述音頻采集模塊和檢測控制器相連接,用于識別分析音頻采集模塊傳送的用戶語音信息并將用戶語音信息轉換為語音文本;
語義分析模塊,分別與所述語音識別模塊和中央處理器相連接,用于分析語音識別模塊傳送的語音文本以提取語音文本中的核心詞和關鍵詞,進而將核心詞和關鍵詞傳送至中央處理器中;
答案提取模塊,分別與所述中央處理器和存儲器中的本地知識庫相連接,根據所述中央處理器傳送的核心詞和關鍵詞,在本地知識庫中搜索并提取答案,進而將答案傳送至中央處理器;
網絡搜索模塊,與所述中央處理器相連接,當答案提取模塊在本地知識庫中未提取到答案時,根據所述中央處理器的控制命令,通過網絡搜索答案;
語音合成模塊,與所述中央處理器相連接,用于將中央處理器傳送的答案合成為語音音頻;
音頻播放模塊,分別與所述語音合成模塊、中央處理器、存儲器相連接,用于播放語音合成模塊中合成的語音音頻以及存儲器中的音頻數據。
與現有技術相比,本發(fā)明的優(yōu)點在于:本發(fā)明中的智能LED交互方法和智能LED交互裝置,在使用過程中能夠實時檢測用戶的動態(tài)狀態(tài)和身份特征,以確認當前的用戶身份,從而實現交互過程中用戶與需求信息的匹配性,確保將匹配的內容準確的傳送至用戶,使得交互過程更加智能化,避免了交互資源的浪費,提高了交互的準確性、有效性。
附圖說明
圖1為本發(fā)明實施例中智能LED交互裝置的結構框圖。
圖2為本發(fā)明實施例中智能LED交互的流程圖。
具體實施方式
以下結合附圖實施例對本發(fā)明作進一步詳細描述。
如圖1所示,本實施例中的智能LED交互裝置包括:中央處理器1、存儲器2、LED顯示屏3、視頻采集模塊4、人臉檢測模塊5、音頻采集模塊6、檢測控制器7、注視識別模塊8、聲紋識別模塊9、語音識別模塊10、語義分析模塊11、答案提取模塊12、網絡搜索模塊13、語音合成模塊14以及音頻播放模塊15。
其中中央處理器1,用于進行數據處理和發(fā)送控制命令。
存儲器2與中央處理器1相連接,用于存儲數據。本實施例中的存儲器2專門設置有用于存儲預存文字、圖片、視頻、語音的預存內容存儲單元21,以及用于存儲問題、答案的本地知識庫22。
LED顯示屏3與中央處理器1相連接,根據中央處理器1的控制,顯示存儲器2中的文字、圖片、視頻等內容。
視頻采集模塊4安裝在LED顯示屏3上,用于采集LED顯示屏3前方的視頻畫面。本實施例中的視頻采集模塊4可以選用攝像頭,實施采集LED顯示屏3前方的視頻畫面。
人臉檢測模塊5與視頻采集模塊4相連接,該人臉檢測模塊5可以使用現有技術中的人臉檢測裝置或者集成芯片,該人臉檢測模塊5可以用于檢測和獲取視頻采集模塊4傳送的視頻畫面中的人臉的坐標和特征數據。
音頻采集模塊6用于采集用戶的語音信息,該音頻采集模塊6可以安裝在LED顯示屏3上,也可以安裝在LED顯示屏3附近,本實施例中的音頻采集模塊6可以采用話筒。
檢測控制器7分別與人臉檢測模塊5、音頻采集模塊6相連接進行工作,該檢測控制器7可以選用單片機。該檢測控制器7用于計算比較人臉的尺寸與設定的人臉尺寸閾值的大小,從而判斷是否啟動該智能LED交互裝置的交互操作。該檢測控制器7還可以檢測是否存在用戶語音信息,用戶語音信息的判斷可以根據需要設定音頻的聲強閾值,從而判斷采集到用戶語音信息與否。
注視識別模塊8分別與檢測控制器7和中央處理器1相連接,該注視識別模塊8可以采用現有技術中注視識別裝置成品或者現有的注視識別集成芯片。該注視識別模塊8用于計算分析用戶注視LED顯示屏3各個注視區(qū)域的角度和時間,進而獲取LED顯示屏3上用戶的興趣區(qū)域。
聲紋識別模塊9分別與音頻采集模塊6和檢測控制器7相連接,該聲紋識別模塊9可以采用現有的聲紋識別裝置或者集成芯片,該聲紋識別模塊9用于識別音頻采集模塊6傳送的用戶語音信息中的聲紋特征,從而在分析多個用于語音信息后能夠判斷是否為同一個用戶的聲紋特征,方便確認用戶的身份,進而將分析結果傳送至檢測控制器7中。
語音識別模塊10分別與音頻采集模塊6和檢測控制器7相連接,該語音識別模塊10可以采用現有的語音識別裝置或者集成芯片。語音識別模塊10用于識別分析音頻采集模塊6傳送的用戶語音信息并將用戶語音信息轉換為語音文本。
語義分析模塊11分別與語音識別模塊10和中央處理器1相連接,該語義分析模塊11可以采用現有的語音分析裝置或者集成芯片。語義分析模塊11可以用于分析語音識別模塊10傳送的語音文本以提取語音文本中的核心詞和關鍵詞,進而將核心詞和關鍵詞傳送至中央處理器1中,根據核心詞和關鍵詞傳送至中央處理器1的次數,可以設置相應核心詞和關鍵詞的權重,以方便在使用中利用其權重進行控制。
答案提取模塊12分別與中央處理器1和存儲器2中的本地知識庫22相連接。該答案提取模塊12可以采用現有的信息搜索裝置或者集成芯片,該答案提取模塊12使用的搜索算法可以使用現有技術中的各種搜索算法。如答案提取模塊12根據所述中央處理器1傳送的核心詞和關鍵詞,在本地知識庫22中通過模糊搜索查詢提取相應的答案,進而將提取的答案傳送至中央處理器1。中央處理器1也可以根據接收的答案的頻率來設置本地知識庫22中相應答案的權重,從而方便利用答案權重進行答案的選擇控制。
網絡搜索模塊13與中央處理器1相連接,通過該網絡搜索模塊13可以實現和外部廣域網、互聯網的網絡連接,進而當答案提取模塊12在本地知識庫22中未提取到答案時,根據中央處理器1的控制命令,該網絡搜索模塊13通過網絡搜索答案,并將搜索到的答案傳送至中央處理器1中,進而中央處理器1一方面可以控制將該答案進行顯示,另一方面可以將該答案存儲至本地知識庫22中以備使用。本實施例中的網絡搜索模塊13可以采用現有的網絡搜索裝置或者集成芯片。
語音合成模塊14與中央處理器1相連接,用于將中央處理器1傳送的答案合成為語音音頻。該語音合成模塊14可以使用現有成熟的語音合成裝置或者集成芯片。
音頻播放模塊15分別與語音合成模塊14、中央處理器1、存儲器2相連接,用于播放語音合成模塊14中合成的語音音頻以及存儲器2中的音頻數據。該音頻播放模塊15可以使用通用的擴音器。音頻播放器軟件可以設置在中央處理器1。
本實施例中的智能LED交互方法,包括如下步驟:
步驟1、初始化,中央處理器1調取存儲器2的預存內容存儲單元21中的文字、圖片、視頻內容,控制LED顯示屏3顯示設定的首頁內容,LED顯示屏3上分為多個顯示區(qū)域,則設定的首頁內容分別在不同的顯示區(qū)域顯示不同的內容;
步驟2、利用視頻采集模塊4采集獲取LED顯示屏3前方的視頻畫面;
步驟3、根據視頻采集模塊4采集的視頻畫面,利用人臉檢測模塊5實時對視頻畫面圖像進行人臉檢測,判斷是否有人臉存在;當視屏畫面圖像中檢測到人臉,則進入步驟4;
步驟4、利用人臉檢測模塊5遍歷視頻畫面圖像中所有的人臉坐標和特征,進而將所有的人臉坐標和特征數據傳送至檢測控制器7中,檢測控制器7計算獲取最大人臉的坐標和特征數據;
步驟5、檢測控制器7計算并判斷最大人臉尺寸是否超過設定的人臉尺寸閾值,如果最大人臉尺寸超過設定的人臉尺寸閾值,則將最大人臉的特征數據存儲在檢測控制器7中,并進入步驟6;如果最大人臉尺寸未超過設定的人臉尺寸閾值,則返回步驟2;
步驟6、檢測控制器7判斷最大人臉在視頻畫面圖像中的出現的累積時間是否超過設定的識別時間閾值,如果超過設定的識別時間閾值,則進入步驟7,如果未超過設定的識別時間閾值,則刪除其內存儲的最大人臉的特征數據,并返回步驟2;
步驟7、檢測控制器7檢測其內的交互狀態(tài)標識,如果檢測控制器7中當前的交互狀態(tài)標識示為工作狀態(tài),則刪除檢測控制器7內存儲的最大人臉的特征數據,并返回步驟2,如果檢測控制器7中當前交互狀態(tài)標識示為空閑狀態(tài),則啟動交互;
步驟8、檢測控制器7檢測音頻采集模塊6采集的用戶語音信息,進而檢測控制器7判斷是否存在用戶語音信息;
檢測控制器7獲取語音信息時,檢測語音信息對應的音頻聲強是否超出檢測控制器7中設定的音頻聲強閾值,如果語音信息的音頻聲強未超過設定的音頻聲強閾值則視為未接收到語音信息,如果語音信息的音頻聲強超出檢測控制器7中設定的音頻聲強閾值,則視為接收到語音信息;同時檢測控制器7在其設定的語音信息檢測時間閾值內檢測語音信息,如果在設定的語音信息檢測時間閾值內檢測到語音信息,則視為檢測到用戶的語音信息,如果在設定的語音信息檢測時間閾值內未檢測到語音信息,則視為未檢測到用戶的語音信息;
如果檢測控制器7未檢測到用戶的語音信息則進入步驟9,如果檢測控制器7檢測到用戶的語音信息,則進入步驟14;
步驟9、檢測控制器7將其內的交互狀態(tài)標識調整為視覺交互工作狀態(tài),將步驟4中最大人臉對應的用戶作為當次交互用戶,注視識別模塊8獲取檢測控制器7中的最大人臉特征數據,并分析最大人臉特征數據對應的當次交互用戶相對于LED顯示屏3的注視角度,進而分析當次交互用戶在屏幕上所有的注視區(qū)域,同時分別對當次交互用戶注視的各個注視區(qū)域的累計時間進行計時;
步驟10、注視識別模塊8將用戶注視各個注視區(qū)域的累積時間分別與其設定的注視時間閾值進行比較;
如果用戶注視各個注視區(qū)域的累積時間均小于設定的注視時間閾值,則注視識別模塊8分別向檢測控制器7和中央處理器1反饋當次視覺交互工作結束的信息,檢測控制器7則將其內的交互狀態(tài)標識調整為空閑狀態(tài),并刪除其內存儲的最大人臉的特征數據,而中央處理器1則控制LED顯示屏3仍然顯示首頁內容,并返回步驟2;
如果用戶注視各個注視區(qū)域的累積時間中有大于設定的注視時間閾值,則進行步驟11;
步驟11、注視識別模塊8將LED顯示屏3上用戶注視累積時間最長的注視區(qū)域識別為用戶的興趣區(qū)域,注視識別模塊8將識別結果傳送至中央處理器1,中央處理器1控制LED顯示屏3將當前興趣區(qū)域顯示內容對應的更詳細的內容顯示播放給用戶,如果LED顯示屏3播放的是視頻內容,則中央處理器1同時控制音頻播放模塊15播放相應的音頻數據;
步驟12、在LED顯示屏3播放興趣區(qū)域的詳細內容過程中,利用視頻采集模塊4實時獲取LED顯示屏3前方的視頻畫面并傳送至人臉檢測模塊5;人臉檢測模塊5將視頻畫面圖像中所有的人臉坐標和特征傳送至檢測控制器7,檢測控制器7將獲取的新的人臉特征數據與其內存儲的最大人臉的特征數據進行對比,從而判斷視頻畫面圖像中當次交互用戶對應的人臉特征數據是否還存在;
如果檢測控制器7判斷當次交互用戶對應的人臉特征數據存在,則注視識別模塊8檢測默認當次交互用戶注視LED顯示屏3觀看LED顯示屏3的播放內容,從而將注視結果傳送至中央處理器1,則中央處理器1控制LED顯示屏3持續(xù)播放步驟10中的內容;
如果檢測控制器7判斷當次交互用戶對應的人臉特征數據丟失,則檢測控制器7對該人臉特征數據的丟失時間進行計時;
步驟13、如果步驟12中的人臉特征數據的丟失時間超過檢測控制器7內設定的丟失時間閾值,檢測控制器7則刪除其內存儲的當次交互用戶對應的最大人臉特征數據,并將其內的交互狀態(tài)標識調整為空閑狀態(tài),并返回步驟2;
同時檢測控制器7向注視識別模塊8發(fā)送當次交互用戶丟失的結果,注視識別模塊8則相應默認當次交互用戶未注視LED顯示屏3觀看LED顯示屏3的播放內容,從而將注視結果傳送至中央處理器1,中央處理器1控制LED顯示屏3停止當前內容的播放,并控制LED顯示屏3顯示設定的主頁內容;
如果步驟12中的人臉特征數據的丟失時間未超出設定的丟失時間閾值,則LED顯示屏3繼續(xù)播放當前內容直至播放結束;
LED顯示屏3播放結束后,中央中央處理器1則獲取LED顯示屏3傳送的當次視覺交互工作結束的信息,該當次視覺交互工作結束的信息經過注視識別模塊8傳送至檢測控制器7,則檢測控制器7刪除當次交互用戶對應的人臉特征數據,同時將其內的交互狀態(tài)標識調整為空閑狀態(tài),并返回步驟2;
步驟14、檢測控制器7將其內的交互狀態(tài)標識調整為語音交互工作狀態(tài),檢測控制器7控制聲紋識別模塊9和語音識別模塊10接收音頻采集模塊6傳送的音頻聲強超出檢測控制器7中設定的音頻聲強閾值的語音信息,聲紋識別模塊9提取語音信息中的聲紋特征并傳送至檢測控制器7,檢測控制器7存儲當次交互用戶的聲紋特征數據;
步驟15、對獲取的語音信息進行識別和語義分析,具體包括如下步驟:
步驟15.1、語音識別模塊10識別語音信息,并將語音信息轉換為語音文本,進而將該語音文本傳送至語義分析模塊11中;
步驟15.2、語義分析模塊11對獲取的語音文本進行分詞,進而提取語音文本中的核心詞和關鍵詞,進而將提取的核心詞和關鍵詞傳送至中央處理器1中;
步驟15.3、中央處理器1根據接收到核心詞和關鍵詞的次數調整相應核心詞和關鍵詞的權重,同時中央處理器1將對接收到的核心詞和關鍵詞傳送至答案提取模塊12,答案提取模塊12根據接收到的核心詞和關鍵詞使用相應的搜索算法自本地知識庫22中搜索并提取答案,根據不同的搜索要求,答案提取模塊12對本地知識庫22的搜索算法可以根據要求采用現有的各種搜索算法;根據不同核心詞和關鍵詞的權重可以擴展使用核心詞和關鍵詞的優(yōu)先級,進而優(yōu)化搜索過程,縮短搜索時間;
步驟15.4、答案提取模塊12將相應的答案搜索結果傳送至中央處理器1,如果答案提取模塊12在本地知識庫22中搜索到答案,則將答案傳送至中央處理器1,中央處理器1對本地數據庫中該答案的權重進行調整,進而進入步驟15.9,否則將答案提取失敗的結果傳送至中央處理器1,進入步驟15.5;對答案權重的調整可以實現答案優(yōu)先級的應用,如此在出現多個能夠使用的答案時,可以根據答案的優(yōu)先級選擇更加精準的答案;
步驟15.5、中央處理器1向網絡搜索模塊13傳送前述的核心詞和關鍵詞并向網絡搜索模塊13發(fā)送啟動工作的控制命令,網絡搜索模塊13搜索廣域網或互聯網以獲取前述的核心詞和關鍵詞對應的答案;
步驟15.6、網絡搜索模塊13如果搜索到答案,則將答案傳送至中央處理器1,進而進入步驟15.8和步驟15.9,否則網絡搜索模塊13向中央處理器1返回獲取答案失敗的結果,進而進入步驟15.7;
步驟15.7、中央處理器1控制LED顯示屏3顯示和/或控制音頻播放模塊15語音提示答案獲取失敗,同時中央處理器1記錄答案獲取失敗的問題,以備人工添加答案;
步驟15.8、中央處理器1將網絡搜索模塊13搜索到的答案及對應的核心詞和關鍵詞保存到本地知識庫22;
步驟15.9、中央處理器1控制LED顯示屏3顯示答案,和/或中央處理器1將答案傳送至語音合成模塊14,語音合成模塊14將答案合成為語音音頻,進而通過音頻播放模塊15播放給當次交互用戶。
步驟16、在步驟15進行的同時,利用視頻采集模塊4實時獲取LED顯示屏3前方的視頻畫面,并利用人臉檢測模塊5對實時對視頻畫面圖像進行人臉檢測,判斷是否有人臉存在,如果無人臉存在,則檢測控制器7對人臉丟失時間進行累積計時,如果人臉丟失的累積時間超過檢測控制器7內設置的語音交互用戶丟失時間閾值,則立即結束步驟15,同時檢測控制器7刪除其內存儲的當次交互用戶的聲紋特征,并將其內的交互狀態(tài)標識調整為空閑狀態(tài);注視識別模塊8則相應默認無交互用戶未注視LED顯示屏3,從而將注視結果傳送至中央處理器1,中央處理器1控制LED顯示屏3顯示設定的主頁內容,同時返回步驟2;
在步驟15進行的同時,如果檢測控制器7接受到音頻采集模塊6傳送的語音信息則不予響應;
步驟17、當次語音交互完成后,檢測控制器7重新等待獲取音頻采集模塊6傳送的語音信息,如果在檢測控制器7設定的等待時間閾值范圍內獲取到語音信息,則進入步驟18;如果在檢測控制器7設定的等待時間閾值范圍內未獲取到語音信息,則刪除當次交互用戶的聲紋特征,LED顯示屏3顯示設定的主頁內容,將交互狀態(tài)標識調整為空閑狀態(tài),并返回步驟2;
步驟18、聲紋識別模塊9獲取音頻采集模塊6傳送的新的語音信息,進而聲紋識別模塊9提取新的語音信息的聲紋特征并傳送至檢測控制器7,檢測控制器7將新的新的語音信息對應的聲紋特征與存儲的聲紋特征進行對比,進而判斷獲取的語音信息對應的聲紋特征是否為當次交互用戶的聲紋特征,如果是,則進入步驟15;如果不是,則進入步驟17。