;
[0049]2)獲取語音,解析該語音所對(duì)應(yīng)的文字或圖形;
[0050]3)將步驟1)中獲取的菜單與步驟2)中獲取的文字或圖形進(jìn)行比對(duì),將匹配的菜單所對(duì)應(yīng)的坐標(biāo)輸出到被控裝置;
[0051]4)被控裝置根據(jù)接收的坐標(biāo)進(jìn)行操作。
[0052]本發(fā)明的語音控制裝置可以將部分或全部功能電路集成在被控裝置內(nèi)部,也可以完全集成為一個(gè)獨(dú)立的裝置,或者說獨(dú)立的配件,與鼠標(biāo)和觸摸屏類似,作為被控裝置的一種外圍設(shè)備。
[0053]如圖2所示為本發(fā)明語音控制裝置作為一種外圍設(shè)備的優(yōu)選實(shí)施方式,本發(fā)明的語音控制裝置,
[0054]包括圖像采集單元22、菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23、語音信號(hào)接收及識(shí)別單元24、聲電轉(zhuǎn)換裝置241 (如話筒、定向聲波接收器等)和比對(duì)及輸出單元13 ;
[0055]其中,圖像采集單元22和菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23對(duì)應(yīng)圖像獲取及解析單元11,語音信號(hào)接收及識(shí)別單元24和聲電轉(zhuǎn)換裝置241對(duì)應(yīng)語音獲取及識(shí)別單元12 ;
[0056]所述圖像采集單元22,與被控裝置14連接,可以通過三通接口(或一分二接口 )與顯示器并聯(lián)連接在被控裝置14的顯示輸出端口上,從所述顯示輸出端口采集圖像數(shù)據(jù),并將所述采集的圖像輸出到所述菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23;因?yàn)轱@示輸出端口輸出的信號(hào)本身就是來源于圖像數(shù)據(jù),因此采集顯示輸出端口輸出的圖像數(shù)據(jù)就非常簡單,如果是數(shù)字信號(hào),直接根據(jù)行、場同步信號(hào)及R、G、B信號(hào)存儲(chǔ)成一幅圖像;如果是模擬信號(hào),在接收前進(jìn)行模數(shù)轉(zhuǎn)換,然后進(jìn)行存儲(chǔ),只是一個(gè)簡單的逆向過程,因此,理論上任何種類的顯示輸出信號(hào),均能夠被采集到對(duì)應(yīng)的數(shù)字圖像數(shù)據(jù),這里就不再贅述。
[0057]所述菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23,將從所述圖像采集單元22接收的圖像中的菜單進(jìn)行識(shí)別,同時(shí)記錄所有菜單和各個(gè)菜單所處的圖像中的坐標(biāo),其中每個(gè)菜單對(duì)應(yīng)一個(gè)坐標(biāo)點(diǎn)或一個(gè)坐標(biāo)集;將所述菜單和對(duì)應(yīng)的坐標(biāo)發(fā)送到比對(duì)及輸出單元13 ;
[0058]所述語音信號(hào)接收及識(shí)別單元24,用于接收聲電轉(zhuǎn)換裝置241輸出的外部語音信號(hào),進(jìn)行識(shí)別并轉(zhuǎn)換成對(duì)應(yīng)的文字或圖形,將所述轉(zhuǎn)換成的文字或圖形發(fā)送到所述比對(duì)及輸出單元13 ;
[0059]所述比對(duì)及輸出單元13,將從所述菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23接收到的菜單與從所述語音信號(hào)接收及識(shí)別單元24接收到的文字或圖形進(jìn)行比對(duì),將比對(duì)成功的菜單所對(duì)應(yīng)的坐標(biāo)輸出到被控裝置14。輸出接口可以采用通用的USB接口。
[0060]本實(shí)施例中的被控裝置14優(yōu)選的可以是PC主機(jī)或具有USB接口的電視機(jī)頂盒,尤其是能夠連接鼠標(biāo)、采用鼠標(biāo)控制的電視機(jī)頂盒。
[0061]對(duì)于需要遠(yuǎn)距離觀看的大尺寸屏幕,聲電轉(zhuǎn)換裝置241可以包含至少一個(gè)遠(yuǎn)離顯示屏的話筒,最好是無線話筒。
[0062]本發(fā)明中的菜單可以是文字,也可以是圖形,例如方向箭頭及其它具有一定含義的圖形。圖形與特定語音相對(duì)應(yīng)。
[0063]由于軟件除了可以根據(jù)可見菜單進(jìn)行操作之外,還能根據(jù)不可見菜單進(jìn)行操作,例如“退出”、“屬性”、“返回”、“下一頁”、“上一頁”、“左”、“又”及“暫?!钡?,對(duì)于這種情況,可以在比對(duì)及輸出單元13中預(yù)存上述菜單及對(duì)應(yīng)的虛擬坐標(biāo),當(dāng)從所述菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23接收到的菜單與從所述語音信號(hào)接收及識(shí)別單元24接收到的文字或圖形沒有匹配時(shí),將從所述語音信號(hào)接收及識(shí)別單元24接收到的文字或圖形與預(yù)存菜單進(jìn)行比對(duì),將匹配的菜單所對(duì)應(yīng)的虛擬坐標(biāo)發(fā)送到被控裝置。之所以采用虛擬坐標(biāo),就是因?yàn)檫@樣可以避免與真實(shí)菜單產(chǎn)生沖突,當(dāng)識(shí)別出的文字或圖形在圖像中存在,也在預(yù)存的菜單中存在時(shí),優(yōu)先輸出圖像中文字或圖形所對(duì)應(yīng)的坐標(biāo),如果圖像中文字或圖形并非真正的菜單,則被控裝置不會(huì)進(jìn)行操作,同樣輸出的圖像不會(huì)改變,此時(shí)輸出預(yù)存的菜單所對(duì)應(yīng)的虛擬坐標(biāo)。虛擬坐標(biāo)也可以看做是一個(gè)控制指令。
[0064]由于在一幅圖像中,會(huì)涉及很多文字或圖形,菜單識(shí)別過程中,可以選擇性的識(shí)別,例如可以先識(shí)別菜單框,再識(shí)別菜單框中的菜單,這樣的好處在于計(jì)算速度會(huì)更快;也可以進(jìn)行全面識(shí)別,只要有文字或圖形的地方都進(jìn)行識(shí)別,識(shí)別的文字或圖形以及對(duì)應(yīng)的坐標(biāo)如果后期用不上會(huì)直接扔掉,不會(huì)影響語音控制過程。如果語音所對(duì)應(yīng)的文字或圖形不是菜單,雖然在比對(duì)中有匹配,也有坐標(biāo)輸出,但是由于被控裝置識(shí)別出該坐標(biāo)所對(duì)應(yīng)的位置并非可操作的菜單,所以可以不做任何操作。
[0065]現(xiàn)在的家用的機(jī)頂盒普遍設(shè)有USB接口,上述實(shí)施例不僅可以直接應(yīng)用在PC裝置上,同樣可以應(yīng)用到機(jī)頂盒中,機(jī)頂盒除了通過遙控器接收信號(hào)外,還能通過USB接口或其它接口直接接收坐標(biāo)參數(shù)進(jìn)行操作。這種機(jī)頂盒同樣可以利用鼠標(biāo)進(jìn)行控制。目前市面上的安卓系統(tǒng)機(jī)頂盒通常就可以連接鼠標(biāo)進(jìn)行控制。
[0066]作為替代USB等有線連接的接口方式,語音控制裝置可以通過無線接口將坐標(biāo)輸入到機(jī)頂盒中,例如可以通過與遙控器相同的紅外接口或WIFI接口等。
[0067]上面列舉了本發(fā)明語音控制裝置作為外圍設(shè)備的具體實(shí)施例,將外圍設(shè)備集成到被控裝置是本領(lǐng)域慣用的技術(shù)手段,有了前述【具體實(shí)施方式】的介紹,本領(lǐng)域技術(shù)人員不需要花費(fèi)創(chuàng)造性的勞動(dòng)就能將上述語音控制設(shè)備集成到被控裝置,只需要將圖像采集所用的接口和坐標(biāo)的輸出所用接口進(jìn)行改變,被控裝置的圖像輸出電路通過專用的內(nèi)部接口傳輸圖像數(shù)據(jù)給語音控制裝置,語音控制裝置通過內(nèi)部接口將坐標(biāo)輸入到被控裝置的控制部分(如處理器、控制器等)。各種接口和數(shù)據(jù)傳輸模式均可以采用現(xiàn)有技術(shù)中的技術(shù)手段,這里就不在一一贅述。一些簡單的電路連接也屬于等同替代,同樣屬于本發(fā)明的保護(hù)范圍之內(nèi)。
[0068]作為一種擴(kuò)展,本發(fā)明還提供一種唇語控制裝置,語音控制裝置是通過聲音識(shí)別語言,而唇語控制裝置是通過嘴唇的運(yùn)動(dòng)識(shí)別語言,他們的功能都是為了識(shí)別語言,因此,是并列的兩種實(shí)施方式??梢灾苯訉D1所示實(shí)施例中的“語音獲取及識(shí)別單元12”替換成“唇語獲取及識(shí)別單元32”,用于獲取用戶的唇語,進(jìn)行識(shí)別并輸出文字或圖形。具體包括:
[0069]圖像獲取及解析單元11,用于獲取被控裝置14的視頻圖像,進(jìn)行圖像識(shí)別以獲取圖像中的菜單及對(duì)應(yīng)坐標(biāo),將菜單及對(duì)應(yīng)坐標(biāo)輸出到比對(duì)及輸出單元13 ;圖像的獲取方式可以參見前述的各種方法。
[0070]唇語獲取及識(shí)別單元32,獲取唇語視頻將其解析獲得文字或圖形并輸出到比對(duì)及輸出單元13 ;唇語視頻的獲取方式可以是單個(gè)攝像頭,也可以是多個(gè)攝像頭,或者具有人臉跟蹤的攝像頭去獲取。
[0071]比對(duì)及輸出單元13,將從所述圖像獲取及解析單元11接收到的菜單與從所述唇語獲取及識(shí)別單元32接收到的文字或圖形進(jìn)行比對(duì),將匹配的菜單所對(duì)應(yīng)的坐標(biāo)輸出到被控裝置14,被控裝置14根據(jù)接收的坐標(biāo)進(jìn)行操作。
[0072]唇語控制方法如下:
[0073]1)獲取被控裝置輸出的圖像,進(jìn)行圖像識(shí)別以獲取圖像中的菜單及對(duì)應(yīng)坐標(biāo);
[0074]2)獲取唇語視頻,解析該唇語視頻所對(duì)應(yīng)的文字或圖形;
[0075]3)將步驟1)中獲取的菜單與步驟2)中獲取的文字或圖形進(jìn)行比對(duì),將匹配的菜單所對(duì)應(yīng)的坐標(biāo)輸出到被控裝置;
[0076]4)被控裝置根據(jù)接收的坐標(biāo)進(jìn)行操作。
[0077]下面以一個(gè)更加具體的實(shí)例來闡述唇語控制裝置的組成。如圖4所示,唇語控制裝置包括圖像采集單元22、菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23、唇語識(shí)別單元34、攝像單元341 (如攝像頭)和比對(duì)及輸出單元13 ;
[0078]其中,圖像采集單元22和菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23對(duì)應(yīng)圖像獲取及解析單元11,語音信號(hào)接收及識(shí)別單元24和聲電轉(zhuǎn)換裝置241對(duì)應(yīng)語音獲取及識(shí)別單元12 ;
[0079]所述圖像采集單元22,與被控裝置14的顯示輸出端口連接,可以通過三通接口(或一分二接口)與顯示器并聯(lián)連接在被控裝置14的顯示輸出端口上,從所述顯示輸出端口采集圖像數(shù)據(jù),并將所述采集的圖像輸出到所述菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23 ;
[0080]所述菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23,將從所述圖像采集單元22接收的圖像中的菜單進(jìn)行識(shí)別,同時(shí)記錄所有菜單和各個(gè)菜單所處的圖像中的坐標(biāo),其中每個(gè)菜單對(duì)應(yīng)一個(gè)坐標(biāo)點(diǎn)或一個(gè)坐標(biāo)集;將所述菜單和對(duì)應(yīng)的坐標(biāo)發(fā)送到比對(duì)及輸出單元13 ;
[0081]所述唇語識(shí)別單元34,從所述攝像單元341獲取視頻圖像,解析視頻中的唇語,將解析獲得的文字或圖形發(fā)送到比對(duì)及輸出單元13 ;
[0082]所述比對(duì)及輸出單元13,將從所述菜單識(shí)別及對(duì)應(yīng)坐標(biāo)產(chǎn)生單元23接收到的菜單與從所述唇語識(shí)別單元34接收到的文字或圖形進(jìn)行比對(duì),將比對(duì)成功的