本發(fā)明涉及智能家居系統(tǒng)控制領域,主要應用于語音控制系統(tǒng)的用戶聲紋識別及控制信號判定。
背景技術:
目前智能家居產(chǎn)品都具有基本的控制信號識別能力,但在語音控制方面就語音識別精度及遠程控制的技術上卻較為落后,造成用戶只有通過近距離控制設備,無法做到在室內(nèi)“隨說隨控”,導致用戶體驗不佳。
專利CN2016105091951提供了一種智能家居的廚房解決方案,實施案例僅可以對廚房內(nèi)部的系統(tǒng)實施控制,由于未考慮參考采樣設備所在的相對位置數(shù)據(jù)產(chǎn)生的對識別率產(chǎn)生的優(yōu)化作用,在多個設備同時采樣時會由于多個設備的采樣重疊,后臺數(shù)據(jù)分析階段勢必無法對人發(fā)出的指令做出正確判斷(聲音混疊)。相對的,產(chǎn)品也僅能對廚房內(nèi)設備做出響應,不能對整個房間非廚用設備做出響應,有較大的局限性。專利CN2014103967469結合了現(xiàn)有組網(wǎng)設備之間的互相通信,但需要隨身攜帶聲音采集設備,造成用戶使用不方便。
技術實現(xiàn)要素:
本發(fā)明的目的是實現(xiàn)智能家居的“隨說隨控”,有效改善用戶體驗。
為了達到上述目的,本發(fā)明的一個技術方案是提供了一種智能家居語音控制識別系統(tǒng),其特征在于,包括至少一個主控裝置及至少一個入網(wǎng)產(chǎn)品,入網(wǎng)產(chǎn)品與一個主控裝置進行自組網(wǎng),形成包含距離信息的網(wǎng)絡拓撲結構,其中:
主控裝置包括用于捕捉用戶發(fā)出的語音的拾音器或麥克風;
用于對拾音器或麥克風捕捉到的語音信號進行去噪、壓縮的聲音去噪壓縮模塊;
中央處理器,用于獲取主控裝置的聲音去噪壓縮模塊的語音信息及各入網(wǎng)產(chǎn)品傳輸?shù)恼Z音數(shù)據(jù),預估發(fā)出語音控制指令的用戶的位置信息,根據(jù)位置信息對獲得的語音信號進行多設備音頻數(shù)據(jù)對齊,擬合,獲取語音指令;
人機交互模塊,用于預先錄入用戶的語音指令;
控制/采集分析單元,用于根據(jù)中央處理器獲得語音指令控制對應的家居設備,或采集環(huán)境數(shù)據(jù);
無線傳輸模塊,用于在網(wǎng)絡拓撲結構的各設備之間傳輸數(shù)據(jù);
入網(wǎng)產(chǎn)品包括用于捕捉用戶發(fā)出的語音的拾音器或麥克風;
用于對拾音器或麥克風捕捉到的語音信號進行去噪、壓縮的聲音去噪壓縮模塊;
處理運算模塊,用于采集自身聲音去噪壓縮模塊輸出的語音信息,收集當前入網(wǎng)產(chǎn)品的入網(wǎng)設備數(shù)據(jù),對語音信息按照預估計方法進行空間位置補償,加快聲音識別效率并有效初階去噪,通過無線傳輸模塊將數(shù)據(jù)上傳至主控裝置,并通過無線傳輸模塊接收主控裝置反饋的控制指令;
控制/采集分析單元,用于獲得的控制指令控制對應的家居設備,或采集環(huán)境數(shù)據(jù);
無線傳輸模塊,用于在網(wǎng)絡拓撲結構的各設備之間傳輸數(shù)據(jù)。
本發(fā)明的另一個技術方案是提供了一種基于上述的智能家居語音控制系統(tǒng)的智能家居語音控制識別方法,其特征在于,包括以下步驟:
第一步、用戶通過人機交互模塊在主控裝置中錄入指定的控制指令語音信息;
第二步、入網(wǎng)產(chǎn)品與一個主控裝置進行自組網(wǎng),在自組網(wǎng)過程中,主控裝置根據(jù)入網(wǎng)產(chǎn)品間及入網(wǎng)產(chǎn)品與主控裝置間的信號衰減情況得到各個入網(wǎng)產(chǎn)品的相對位置信息,從而形成包含距離信息的網(wǎng)絡拓撲結構;
第三步、用戶在任意位置發(fā)出包含控制指令的語音信號,入網(wǎng)產(chǎn)品或主控裝置的拾音器或麥克風捕捉到該語音信號后,通過聲音去噪壓縮模塊對語音信號進行初階(基礎)去噪、壓縮,保留語音信號中的人聲段數(shù)據(jù)流形成語音信息,由當前入網(wǎng)產(chǎn)品的處理運算模塊形成語音數(shù)據(jù),通過無線傳輸模塊發(fā)送給主控裝置;
第四步、主控裝置匯總各入網(wǎng)產(chǎn)品上傳的語音數(shù)據(jù)及自身語音信息后,根據(jù)網(wǎng)絡拓撲結構中各個入網(wǎng)產(chǎn)品的相對位置信息以及各語音數(shù)據(jù)中包含的音量信息預估發(fā)出語音信號的用戶的位置,得到發(fā)聲人位置信息;
第五步、主控裝置根據(jù)發(fā)聲人位置信息對多個語音數(shù)據(jù)進行多設備音頻數(shù)據(jù)對齊,剔除回聲,從而得到有效指令段;
第六步、主控裝置的中央處理器將有效指令段與預先錄入的控制指令語音信息進行聲紋比對,從而獲得控制指令,根據(jù)控制指令對應的家居設備,中央處理器或將控制指令發(fā)送給當前主控裝置的控制/采集分析單元,由控制/采集分析單元根據(jù)控制指令控制對應的家居設備,或將控制指令通過無線傳輸模塊發(fā)送給對應的入網(wǎng)產(chǎn)品,由入網(wǎng)產(chǎn)品的控制/采集分析單元根據(jù)控制指令控制對應的家居設備。
優(yōu)選地,在所述第三步中,由當前入網(wǎng)產(chǎn)品的處理運算模塊在語音信息上打上時間戳后形成語音數(shù)據(jù);
在所述第四步中,主控裝置將自身的語音信息打上時間戳后形成語音數(shù)據(jù);
在所述第五步中,主控裝置將語音數(shù)據(jù)匯總后,根據(jù)時間戳顯示的時間先后順序進行排序,選取位于最前的3~5個語音數(shù)據(jù),對選取的語音數(shù)據(jù)進行多設備音頻數(shù)據(jù)對齊后,進行擬合,對擬合后的信號進行去噪補償,從而剔除回聲,得到有效指令段。
優(yōu)選地,所述第四步中,發(fā)聲人位置信息的獲取方法為:
通過各語音數(shù)據(jù)計算傳輸各語音數(shù)據(jù)的各個入網(wǎng)產(chǎn)品與發(fā)出語音信號的用戶之間的位置差,根據(jù)位置差及各個入網(wǎng)產(chǎn)品的相對位置信息得到發(fā)聲人位置信息,其中,設當前第i個入網(wǎng)產(chǎn)品與發(fā)出語音信號的用戶之間的位置差為di,則根據(jù)Lfs=32.44+20lg di+20lg f計算得到di,式中,Lfs為語音信號在空氣中的傳輸損耗,f為第i個入網(wǎng)產(chǎn)品接收到的語音信號的頻率,根據(jù)di的值與聲音在空氣中的傳播速度反推因第i個入網(wǎng)產(chǎn)品所處位置導致的時間差進行時間戳補償與數(shù)據(jù)對齊。
本發(fā)明能夠根據(jù)設備安裝位置信息來優(yōu)化語音識別算法,使智能家居系統(tǒng)在其應用場合中,實現(xiàn)“隨說隨控”,有效改善用戶體驗。
附圖說明
圖1為本發(fā)明的硬件模塊圖;
圖2為入網(wǎng)產(chǎn)品運行流程圖;
圖3為主控設備運行流程圖;
圖4為位置差計算示意圖;
圖5A為設備一于0:00:00.00開始采集的數(shù)據(jù);
圖5B為設備二于0:00:00.00開始采集的數(shù)據(jù);
圖5C為擬合后的信號示意圖;
圖5D為信號去噪示意圖。
具體實施方式
為使本發(fā)明更明顯易懂,茲以優(yōu)選實施例,并配合附圖作詳細說明如下。
本發(fā)明提供的一種智能家居語音控制識別系統(tǒng)的最小組成構件要素包括至少一個主控裝置和至少一個具有采集音頻功能并帶有其他智能家居類產(chǎn)品采集、執(zhí)行功能的入網(wǎng)產(chǎn)品。
主控裝置及入網(wǎng)產(chǎn)品的硬件構成均可以參考圖1。對于入網(wǎng)產(chǎn)品而言,其包含拾音器或者麥克風、聲音去噪壓縮模塊、無線傳輸模塊、處理運算模塊、電源處理單元、控制或采集分析類單元等。而主控裝置的硬件構成與入網(wǎng)產(chǎn)品大致相同,但為了提高處理性能,需要將處理運算模塊更換為中央處理器,并且,主控裝置又由于其需要與用戶有更多的交互功能,因此,需要增加適當?shù)娜藱C交互單元。
上述各個硬件模塊的功能介紹如下:
電源處理單元,完成將安裝位置的交流電轉化為內(nèi)部包含并不僅限于拾音器或麥克風、聲音去噪壓縮模塊、無線傳輸模塊、中央處理器或處理運算模塊、控制或采集分析類單元等在內(nèi)的模塊供電。
拾音器或麥克風,采集音頻數(shù)據(jù)。
聲音去噪壓縮模塊,對信號進行基礎去噪處理并壓縮數(shù)據(jù)。
無線傳輸模塊,包括并不僅限于WIFI、藍牙、Zigbee等無線傳輸方式,用于主控裝置與入網(wǎng)產(chǎn)品間及入網(wǎng)產(chǎn)品之間的位置定位與數(shù)據(jù)收發(fā)。
處理運算模塊,用于采集自身聲音去噪壓縮模塊輸出的語音信息,收集當前入網(wǎng)產(chǎn)品的入網(wǎng)設備數(shù)據(jù),對語音信息按照預估計方法進行空間位置補償,加快聲音識別效率并有效去噪,通過無線傳輸模塊將數(shù)據(jù)上傳至主控裝置,并通過無線傳輸模塊接收主控裝置反饋的控制指令。
中央處理器,用于獲取主控裝置的聲音去噪壓縮模塊的語音信息及各入網(wǎng)產(chǎn)品傳輸?shù)恼Z音數(shù)據(jù),預估發(fā)出語音控制指令的用戶的位置信息,根據(jù)位置信息對獲得的語音信號進行多設備音頻數(shù)據(jù)對齊,獲取語音指令。
控制或采集分析類單元,包含并不僅包含控制類單元(設備開關邏輯控制、設備調光等)、空間采集分析類單元(人體位置感應、空間溫濕度環(huán)境記錄等)。
結合圖2,入網(wǎng)產(chǎn)品的運行流程包括以下步驟:
步驟1、電源上電后,入網(wǎng)產(chǎn)品開始工作;
步驟2、初始化,各入網(wǎng)產(chǎn)品與一個主控裝置通過無線傳輸模塊進行互相組網(wǎng)通信,在組網(wǎng)獲取到一個主控裝置后上傳自己與附近設備間的信號衰減信息,分析自己與附近產(chǎn)品的拓撲關系,并始終允許組網(wǎng)重構拓撲圖,主控裝置根據(jù)信號衰減信息得到各個入網(wǎng)產(chǎn)品的相對位置信息,從而形成包含距離信息的網(wǎng)絡拓撲結構;
入網(wǎng)產(chǎn)品的空間采集類設備采集數(shù)據(jù),控制類設備按照默認控制策略對相應的家居設備執(zhí)行操作;
步驟3、若用戶在任意位置發(fā)出包含控制指令的語音信號,入網(wǎng)產(chǎn)品的拾音器或麥克風捕捉到該語音信號后,通過聲音去噪壓縮模塊對語音信號進行初階(基礎)去噪、壓縮,保留語音信號中的人聲段數(shù)據(jù)流形成語音信息,由當前入網(wǎng)產(chǎn)品的處理運算模塊對語音信息加上時間戳后形成語音數(shù)據(jù),通過無線傳輸模塊發(fā)送給主控裝置;
步驟4、接收主控器下發(fā)的控制指令,根據(jù)控制指令控制相應的家居設備后,等待下一個控制循環(huán)。
結合圖3,主控裝置的運行流程包括以下步驟:
步驟1、電源上電后,主控裝置開始工作;
步驟2、主控裝置的無線傳輸模塊開始工作,始終收集入網(wǎng)設備位置數(shù)據(jù),確認網(wǎng)絡拓撲關系;
步驟3、若主控裝置處于指令錄入階段,則用戶通過人機交互模塊在主控裝置中錄入指定的控制指令語音信息;
若主控裝置處于指令識別階段,若主控裝置的拾音器或麥克風捕捉到用戶發(fā)出的語音信號,則通過聲音去噪壓縮模塊對語音信號進行初階(基礎)去噪、壓縮,保留語音信號中的人聲段數(shù)據(jù)流形成語音信息,由主控裝置的中央處理器對語音信息加上時間戳后形成語音數(shù)據(jù),中央處理器同時匯總來自各入網(wǎng)產(chǎn)品的語音數(shù)據(jù),中央處理器將語音數(shù)據(jù)匯總后,根據(jù)時間戳顯示的時間先后順序進行排序,選取位于最前的3~5個語音數(shù)據(jù);
步驟4根據(jù)網(wǎng)絡拓撲結構中各個入網(wǎng)產(chǎn)品的相對位置信息以及各語音數(shù)據(jù)中包含的音量信息預估發(fā)出語音信號的用戶的位置,得到發(fā)聲人位置信息,再根據(jù)發(fā)聲人位置信息對選取的語音數(shù)據(jù)進行多設備音頻數(shù)據(jù)對齊后,進行擬合,對擬合后的信號進行去噪補償,從而剔除回聲,得到有效指令段;
步驟5、主控裝置的中央處理器將有效指令段與預先錄入的控制指令語音信息進行聲紋比對,從而獲得控制指令,根據(jù)控制指令對應的家居設備,中央處理器或將控制指令發(fā)送給當前主控裝置的控制/采集分析單元,由控制/采集分析單元根據(jù)控制指令控制對應的家居設備,或將控制指令通過無線傳輸模塊發(fā)送給對應的入網(wǎng)產(chǎn)品,由入網(wǎng)產(chǎn)品的控制/采集分析單元根據(jù)控制指令控制對應的家居設備。
結合圖4,上述步驟中,獲取發(fā)聲人位置信息的原理為:
假設傳輸空間較為理想,簡化聲音傳輸都在一個樓層內(nèi)各個不同居室內(nèi)接收。不考慮房間內(nèi)間隔產(chǎn)生的衰減,信號的直線傳播的衰減距離與設備安裝位置的關系即可作為定位數(shù)據(jù)參考值。
根據(jù)已知的物理關系通信距離與發(fā)射功率、接收靈敏度和工作頻率有關,則根據(jù)式(1)可以計算得到當前入網(wǎng)產(chǎn)品與發(fā)出語音信號的用戶之間的位置差d:
Lfs=32.44+201gd+201gf (1)
式(1)中,Lfs為語音信號在空氣中的傳輸損耗,f為當前入網(wǎng)產(chǎn)品接收到的語音信號的頻率。
由于在組網(wǎng)時已經(jīng)獲得了各個入網(wǎng)產(chǎn)品的相對位置信息,結合位置差d,就可以得到發(fā)聲人位置信息。其中d的值又可與聲音在空氣中的傳播速度反推因各個設備所處位置采樣時的時間差,進行時間戳補償與數(shù)據(jù)對齊。
本發(fā)明中,根據(jù)發(fā)聲人位置信息進行擬合去噪的原理可以參考圖5A至圖5D,假設得到設備一的語音數(shù)據(jù)如圖5A所示,得到設備二的語音數(shù)據(jù)如圖5B所示,則根據(jù)發(fā)聲人位置信息將圖5A的數(shù)據(jù)與圖5B的數(shù)據(jù)對齊,對齊后,將兩個數(shù)據(jù)進行擬合,如圖5D所示,左框為右框的原始聲源,當入網(wǎng)產(chǎn)品足夠多每一次采樣都會對后一次的可能回聲數(shù)據(jù)進行加權,直至最后隱沒在背景中,即設備越多回聲去噪越明顯,利用上述原理對擬合后的信號進行去噪補償,從而剔除回聲,得到有效指令段。
本發(fā)明的主控裝置或入網(wǎng)設備自啟動組網(wǎng)后,采集音頻數(shù)據(jù)并最終分析數(shù)據(jù)下發(fā)控制或數(shù)據(jù)采集指令的一個循環(huán)作為最小的系統(tǒng)運行狀態(tài)實施案例。該案例可擴展至辦公場所及地鐵通道等大空間的室內(nèi)控制環(huán)境,達到受控用戶對入網(wǎng)設備的遠程控制。