智能家居協(xié)同麥克風語音控制系統(tǒng)及控制方法
【技術領域】
[0001] 本發(fā)明涉及語音控制系統(tǒng)及方法,具體涉及一種智能家居協(xié)同麥克風語音控制系 統(tǒng)及控制方法。
【背景技術】
[0002] 有關智能家居:
[0003]隨著人民生活水平的提高,用戶對居住環(huán)境提出了更高的要求,越來越注重家居 生活的舒適、安全與便捷。智能家居旨在融合計算機、自動化控制、人工智能和網(wǎng)絡通訊各 項技術于一體,將家居環(huán)境下的各種設備終端,比如照明設備、音視頻設備、安防系統(tǒng)、網(wǎng)絡 家電等通過家庭網(wǎng)絡連接在一起,實現(xiàn)家居環(huán)境的智能化控制。
[0004] 智能家居最基本的目標是為人們提供一個舒適、安全、方便和高效的生活環(huán)境,市 場起步很早,經(jīng)歷了上世紀90年代的萌芽期和本世紀最初十年的開創(chuàng)期,從2011年開始,市 場明顯看到了增長的勢頭,行業(yè)背景是房地產(chǎn)受到調(diào)控。智能家居的放量增長說明智能家 居行業(yè)進入了一個拐點,由徘徊期進入了新一輪的融合演變期。2014年是整個智能家居行 業(yè)發(fā)展的關鍵性年度,先是Google高價(32億美元)收購智能家居產(chǎn)品生產(chǎn)商Nest,蘋果推 出"Homekit"計劃。隨后阿里、騰訊、樂視、小米、360等互聯(lián)網(wǎng)廠商,海爾、長虹、格力、海信、 TCL和美的等傳統(tǒng)家電廠商的高調(diào)進入,整個行業(yè)呈現(xiàn)百花齊放的格局,因此這年也被稱為 智能家居元年。
[0005]有關智能語音控制:
[0006]語音是人與人之間最便捷的交互方式,實現(xiàn)計算機對語音信號的識別,即語音識 另IJ,是人工智能領域的重要研究課題。由于語音交互的便利性,智能語音技術對改變家居環(huán) 境下對電視、音箱、照明設備等控制方式有著重大革新意義,是賦予人與各終端設備良好溝 通的重要橋梁。
[0007]智能語音交互系統(tǒng)通常包括語音信號采集設備(麥克風)和后臺語音識別系統(tǒng)。麥 克風通常集成在各種應用終端上,實現(xiàn)實時用戶語音采集;語音識別系統(tǒng)通常放置在云端 服務器。
[0008]真實家居場景下,用戶發(fā)出語音指令的同時,通常伴隨著各種各樣的噪聲,比如電 視的聲音、音樂等,為了保證識別的準確性,通常需要對噪音進行抑制,以保證用戶語音指 令的純凈。而通常為了保證噪音抑制性能,需要多個麥克風集成到一起,并通過時間校訂實 現(xiàn)聲信號錄制同步,最后通過beamforming等信號處理技術實現(xiàn)噪音抑制。
[0009]目前智能語音交互技術在智能家居行業(yè)有了一定應用,凸顯了一定問題,現(xiàn)有技 術中的主要問題包括:
[0010] 1)用戶體驗差,目前的語音解決方案對用戶與控制系統(tǒng)的距離有嚴格要求。這是 由于如果距離過遠會導致語音衰減,語音識別引擎不再匹配;會放大噪聲對識別系統(tǒng)的影 響,顯著降低語音識別準確性。一方面限制用戶體驗度,比如用語音操控空調(diào)或者電視機必 須走到一個固定位置,如果在另一個房間或者有其他遮擋物,則無法有效使用語音控制系 統(tǒng),這與降低用戶操作的復雜度、提高人機交互簡易度這一目的背道而馳的。
[0011] 2)過渡依賴于手機APP,由于手機和用戶的距離通常不會太遠,行業(yè)內(nèi)為了解決遠 場和噪音問題,通常把語音控制系統(tǒng)集成在手機APP端。這樣固然保證了語音交互的準確 性,但是不同智能終端設備,采用不同的APP,用戶操作起來非常的不方便,反而增加了交互 的復雜度。
[0012] 3)行業(yè)標準混亂,智能語音控制載體(即各種各樣的常用電器)種類繁多,且相互 獨立,很難有效協(xié)同成一個高效率、高性能的語音控制系統(tǒng)。比如一臺海爾冰箱采用的語音 控制系統(tǒng)是采用科大訊飛的解決方案,而電視機采用的可能是另外一家語音解決方案。各 個家電載體由于語音解決方案的不同,形成一個個孤島,無法實現(xiàn)不同載體之間的信息互 換。并且每臺終端設備上面集成一個語音采集、處理與交互系統(tǒng),造成了極大的資源浪費, 提高了成本。
【發(fā)明內(nèi)容】
[0013]針對現(xiàn)有技術的不足,本發(fā)明公開了一種智能家居協(xié)同麥克風語音控制系統(tǒng)及控 制方法。
[0014] 本發(fā)明的技術方案如下:
[0015] -種智能家居協(xié)同麥克風語音控制系統(tǒng),包括信號采集模塊、控制中樞模塊和云 服務器;所述信號采集模塊采集語音信號;所述控制中樞模塊對語音信號進行降噪處理;所 述云服務器識別并解析語音信號;
[0016]所述控制中樞模塊包括語音監(jiān)聽模塊、數(shù)據(jù)融合模塊和降混響預處理模塊;
[0017]所述語音監(jiān)聽模塊包括:
[0018] 接收線程:對第i個麥克風,1 <i<Μ?,采集其實時錄音信號yi(t),直至實時錄音 信號樣本點的錄音文件寫滿一個內(nèi)存緩沖區(qū),即采集到512個時域信號樣本點;
[0019]所述實時錄音信號yi(t)為:
[0020] yi(t) = Si(t)+ru(t);
[0021] m(t)為實時噪音信號,Sl(t)為語音信號;如果用戶未發(fā)出語音信號,則Sl(t)為0; [0022]平滑模塊:將本緩沖區(qū)與前個緩沖區(qū)中的512個實時錄音信號樣本點一起,共同采 用長度為1024漢寧窗進行平滑處理;
[0023]FFT變換模塊:對經(jīng)過平滑模塊平滑處理之后的數(shù)據(jù)進行快速傅里葉變換,將原時 域信號變換為頻域信號;
[0024] 方差計算模塊:由FFT變換模塊所得到的頻域信號中,語音信號組成語音譜,噪音 信號組成噪音譜;計算語音譜的方差As>1(k)及噪音譜的方差λΝ>1(1〇;
[0025]信噪比計算模塊:根據(jù)方差計算模塊的輸出結果,計算先驗信噪比|k>1和后驗信噪 比γΜ,分別為: 1
[0027]
[0028]指示函數(shù)計算模塊:根據(jù)信噪比計算模塊的輸出結果,計算指示函數(shù)Ak,1:
[0029]
[0030] 判別函數(shù)計算模塊:根據(jù)指示函數(shù)計算模塊的輸出結果,計算判別函數(shù)F1:
[0031]
[0032] 如果判別函數(shù)?,大于閾值q= 〇.95,則說明監(jiān)測到語音,否則說明沒有監(jiān)測到語 音;如果任意一個麥克風監(jiān)測到語音,則說明有用戶在說話,啟動所有麥克風錄音發(fā)送線 程,向數(shù)據(jù)融合模塊發(fā)射語音信號,并向服務器發(fā)送處理信號;
[0033] 所述數(shù)據(jù)融合模塊包括:
[0034] STFT變換模塊:對各路不同麥克風陣列的通道進行短時傅里葉變換,每一幀長512 樣本點,幀移256,平滑窗為漢寧窗;將原有的時域信號譜轉換為時頻譜Ym,i(t,k); t和k分別 為時間幀和頻帶坐標;
[0035]第一向量構建模塊:對每一個陣列系統(tǒng)構建向量ym( t,k):
[0036] y,"{?Λ) = [ymAit\k), r,,(λk),···,yw<, (/,/^)]7;
[0037]T為轉置操作符;省略時間幀和頻帶坐標之后,ym( t,k)簡記為ym;由STFT變換的線 性性質(zhì),有:
[0038] ym=Sm+nm;
[0039] 對所有陣列構建一個新向量y(t,k):
[0040] y(t,k) = [yi(t,k)T,y2(t,k)T,···,yM(t,k)T]T;
[0041]同樣省略時間幀和頻帶坐標,有:
[0042] y = s+n;
[0043] 自相關矩陣構建模塊:根據(jù)向量構建模塊得到的與時頻譜相關的向量,根據(jù)前10 幀,對每一個頻帶,估計噪音譜的自相關矩陣Rn,n(t,k):
[0044]Rn,n(t,k) =ARn;n(t-l ,k)+(l-A)n(t,k)n(t,k)H;
[0045]H代表厄爾米特轉置,平滑因子λ= 〇.995;
[0046]對每一個頻帶,每一時間幀,估計混合譜的自相關矩陣Ry,y(t,k):
[0047]Ry,y(t,k)=ARy;y(t-l,k)+(l-A)y(t,k)y(t,k)H;
[0048]平滑因子λ =〇·995;
[0049]計算語音譜的自相關矩陣Rs,s(t,k):
[0050]Rs,s(t,k) =Ry,y(t,k)-Rn,n(t,k);
[0051]目標函數(shù)優(yōu)化模塊:對每一個麥克風陣列系統(tǒng),省略時間幀和頻帶坐標,構建優(yōu)化 目標函數(shù)Jm(Wm):
[0052]
[0053]E為期望算符;
[0054]最優(yōu)濾波器構造模塊:根據(jù)目標函數(shù)優(yōu)化模塊得到的結果,最小化上述目標函數(shù), 即argminWmJm(Wm),得到最優(yōu)濾波器兔m :
[0055]
[0056]其中,C%'是一個復數(shù)域矩陣,Γm為對角矩陣:
[0057]
[0058]語音信號融合模塊:根據(jù)最優(yōu)濾波器構造模塊所構造的最優(yōu)濾波器,計算融合后 的語音信號?;:
[0059]
[0060] 原陣列系統(tǒng)共有Ωm路語音數(shù)據(jù),經(jīng)過融合之后,轉化成1路數(shù)據(jù);噪音得到抑制; [0061 ]所述降混響預處理模塊包括線性預測系數(shù)估計模塊;
[0062]所述降混響預處理模塊以語音融合的輸出為輸入,即輸入D為:
[0063]
[0064] 通過在每一個頻帶線性預測的方式抑制掉房間反射,每一個頻帶的線性預測系數(shù) g(k)為:
[0065]
[0066]
[0067]線性預測階數(shù)Lg=13;
[0068] 所述線性預測系數(shù)估計模塊包括:
[0069] 第二向量構造模塊:構造向量dm(k):
[0070]
[0071] N為時間幀的數(shù)量;
[0072]復數(shù)矩陣構造模塊:根據(jù)dm(k)構造延遲τ幀的復數(shù)矩陣1\,"(幻eeVxZs ;
[0073]整合全部子系統(tǒng)數(shù)據(jù)成復數(shù)矩陣DT(k):
[0074] Dt(k) = [DT,i(k),DT,i(k),…,Dt,M(k)];
[0075]隱變量初始化模塊:初始化隱變量辦:幻=(A)f ;
[0