一種基于語音識別拍照的方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明設及語音識別技術領域,具體設及一種基于語音識別拍照的方法及裝置。
【背景技術】
[0002] 隨著智能手機、相機等在人們的日常生活中使用越來越廣泛,如可通過智能手機 或相機為喜歡的景物或人物進行拍照?,F(xiàn)有的拍照一般是通過按壓物理按鍵啟動拍照,或 者通過屏幕上的虛擬按鍵啟動拍照,采用上述兩種方式拍照會有拍照延時,不僅按壓不方 便,且拍照效果不佳。
[0003] 針對該問題,專利號為201220601960.X提出了一種利用語音識別拍照的方法,該 方法通過預錄制不同的拍照暗語,并在拍照的過程中判斷用戶采用的拍照暗語是否是預錄 制的拍照暗語,W及在判定用戶采用的拍照暗語與預錄制的拍照暗語一致的情況下,控制 拍照設備執(zhí)行拍照動作。但該方法針對每一條拍照暗語都需要重新預錄制,當不同的拍照 用戶采用同樣的拍照暗語時,系統(tǒng)也不能自動匹配其他拍照用戶已經(jīng)預錄制的拍照暗語, 從而導致拍照效率不高,用戶體驗不佳。例如,當有一百個用戶均采用自定義拍照暗語為 "奶酪"的拍照暗語控制拍攝設備自動拍照時,該一百個用戶均需要預錄制拍照暗語為"奶 酪"的拍照暗語。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供了一種基于語音識別拍照的方法及裝置,W解決現(xiàn)有基于語音識別拍 照時,不同的用戶采用同樣的拍照暗語均需要預錄制拍照暗語的技術問題。
[0005] 根據(jù)本發(fā)明的一方面,提供了一種基于語音識別拍照的方法,包括: 獲取用戶輸入的拍照暗語; 對拍照暗語進行特征提取,獲得拍照暗語的特征矢量; 計算拍照暗語的特征矢量與樣本庫中每一個拍照暗語的隱馬爾科夫模型之間的匹配 值; 判斷每一個匹配值是否都小于設定值,若是,則建立拍照暗語的隱馬爾科夫模型,并將 其保存在樣本庫中,若否,則執(zhí)行拍照動作。
[0006] 進一步地,計算拍照暗語的特征矢量與樣本庫中每一個拍照暗語的隱馬爾科夫模 型之間的匹配值包括: 通過維特比識別算法計算拍照暗語的特征矢量與樣本庫中每一個拍照暗語的隱馬爾 科夫模型之間的匹配值。
[0007] 進一步地,獲取用戶輸入的拍照暗語之后,對拍照暗語進行特征提取之前還包 括: 對拍照暗語進行預處理,預處理包括功率放大、自增益控制W及高通濾波中的一種或 多種。
[0008] 進一步地,建立拍照暗語的隱馬爾科夫模型,并將其保存在樣本庫中包括: 向用戶發(fā)送是否同意分享指令,并在接收到用戶發(fā)送的同意分享指令后建立拍照暗語 的隱馬爾科夫模型,并將其保存在樣本庫中。
[0009] 進一步地,拍照暗語的特征矢量是拍照暗語的美爾頻率倒譜系數(shù)。
[0010] 進一步地,拍照暗語為普通話、方言、口音中的任意一種或多種。
[0011] 根據(jù)本發(fā)明的另一方面,提供了一種語音控制裝置,包括: 獲取裝置,用于獲取用戶輸入的拍照暗語; 特征矢量提取裝置,用于對拍照暗語進行特征提取,獲得拍照暗語的特征矢量; 匹配值計算裝置,用于計算拍照暗語的特征矢量與樣本庫中每一個拍照暗語的隱馬爾 科夫模型之間的匹配值; 判斷裝置,用于判斷每一個匹配值是否都小于設定值,若是,則建立拍照暗語的隱馬爾 科夫模型,并將其保存在樣本庫中,若否,則執(zhí)行拍照動作。
[0012] 進一步地,匹配值計算裝置包括: 維特比識別算法計算裝置,用于通過維特比識別算法計算拍照暗語的特征矢量與樣本 庫中每一個拍照暗語的隱馬爾科夫模型之間的匹配值。
[0013] 進一步地,基于語音識別拍照的裝置還包括: 預處理裝置,用于對拍照暗語進行預處理,預處理包括功率放大、自增益控制W及高通 濾波中的一種或多種。
[0014] 進一步地,判斷裝置還包括: 指令發(fā)送裝置,用于向用戶發(fā)送是否同意分享指令,并在接收到用戶發(fā)送的同意分享 指令后建立拍照暗語的隱馬爾科夫模型,并將其保存在樣本庫中。
[0015] 本發(fā)明具有W下有益效果: 本發(fā)明提供了一種基于語音識別拍照的方法及裝置,通過獲取用戶輸入的拍照暗語; 對拍照暗語進行特征提取,獲得拍照暗語的特征矢量;計算拍照暗語的特征矢量與樣本庫 中每一個拍照暗語的隱馬爾科夫模型之間的匹配值;判斷每一個匹配值是否都小于設定 值,若是,則建立拍照暗語的隱馬爾科夫模型,并將其保存在樣本庫中,若否,則執(zhí)行拍照動 作,解決了多個用戶針對同一拍照暗語均需要預錄制的技術問題,實現(xiàn)了針對同一個拍照 暗語只需進行一次預錄制,提高了基于語音識別拍照的效率,提升了用戶體驗。
[0016] 除了上面所描述的目的、特征和優(yōu)點之外,本發(fā)明還有其它的目的、特征和優(yōu)點。 下面將參照圖,對本發(fā)明作進一步詳細的說明。
【附圖說明】
[0017] 構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中: 圖1是本發(fā)明優(yōu)選實施例的語音識別拍照的方法流程圖; 圖2是本發(fā)明優(yōu)選實施例針對一個拍照場景的語音識別拍照的方法流程圖; 圖3是本發(fā)明優(yōu)選實施例的語音識別拍照的裝置結(jié)構(gòu)示意圖。
[001引附圖標記說明: 10、獲取裝置;20、特征矢量提取裝置;30、匹配值計算裝置;40、判斷裝置。
【具體實施方式】
[0019] W下結(jié)合附圖對本發(fā)明的實施例進行詳細說明,但是本發(fā)明可W由權(quán)利要求限定 和覆蓋的多種不同方式實施。
[0020] 參照圖1,本發(fā)明的優(yōu)選實施例提供了一種基于語音識別拍照的方法,包括: 步驟S101,獲取用戶輸入的拍照暗語; 步驟S102,對拍照暗語進行特征提取,獲得拍照暗語的特征矢量; 步驟S103,計算拍照暗語的特征矢量與樣本庫中每一個拍照暗語的隱馬爾科夫模型之 間的匹配值; 步驟S104,判斷每一個匹配值是否都小于設定值,若是,則建立拍照暗語的隱馬爾科夫 模型,并將其保存在樣本庫中,若否,則執(zhí)行拍照動作。
[0021] 本發(fā)明的基于語音識別拍照的方法,通過獲取用戶輸入的拍照暗語;對拍照暗語 進行特征提取,獲得拍照暗語的特征矢量;計算拍照暗語的特征矢量與樣本庫中每一個拍 照暗語的隱馬爾科夫模型之間的匹配值;判斷每一個匹配值是否都小于設定值,若是,則建 立拍照暗語的隱馬爾科夫模型,并將其保存在樣本庫中,若否,則執(zhí)行拍照動作,解決了多 個用戶針對同一拍照暗語均需要預錄制的技術問題,實現(xiàn)了針對同一個拍照暗語只需進行 一次預錄制,提高了基于語音識別拍照的效率,提升了用戶體驗。
[0022] 本實施例的隱馬爾科夫模型化iddenMarkovModels,簡稱為HMM)是一個雙重隨 機過程:一重用于描述非平穩(wěn)信號的短時平穩(wěn)段的統(tǒng)計特征(信號的瞬態(tài)特征,可直接觀 巧侶1]);另一重隨機過程描述了每個短時平穩(wěn)段是如何轉(zhuǎn)變到下一個短時平穩(wěn)段,即短時 統(tǒng)計特征的動態(tài)特性(隱含在觀察序列中)。人的言語過程也是該樣一種雙重隨機過程, 因此用隱馬爾科夫模型(HMM)描述語音信號的產(chǎn)生過程是非常精確的。
[0023] 可選地,計算拍照暗語的特征矢量與樣本庫中每一個拍照暗語的隱馬爾科夫模型 之間的匹配值包括;通過維特比識別算法計算拍照暗語的特征矢量與樣本庫中每一個拍照 暗語的隱馬爾科夫模型之間的匹配值。
[0024] 可選地,獲取用戶輸入的拍照暗語之后,對拍照暗語進行特征提取之前還包括;對 拍照暗語進行預處理,預處理包括功率放大、自增益控制W及高通濾波中的一種或多種。
[00巧]一般在對語音信號處理之前,必須要對其進行數(shù)字化,該個過程就是模/數(shù)(A/D) 轉(zhuǎn)化。模/數(shù)轉(zhuǎn)化過程要經(jīng)過采樣和量化兩個過程,從而得到時間和幅度上的離散數(shù)字信 號。根據(jù)奈奎斯特采樣定律,一般采樣頻率為原始信號頻率的兩倍W上,才能使采樣過程中 不會丟失信息,而且能從采樣信號中準確的重構(gòu)原始信號的波形。本實施例對拍照暗語進 行模/數(shù)(A/D)轉(zhuǎn)化后,進一步對拍照暗語進行功率放大、自增益控制或高通濾波,其中高 通濾波的目的是濾除低頻干擾,尤其是50化或者60化的工頻干擾,從而提升對語音識別 有用的高頻部分,讓信號的頻譜變得平坦,從而便于進行頻譜分析或聲道參數(shù)分析。
[0026] 由于語音信號是一種非平穩(wěn)信號,具有時變特征,但在一個短時范圍內(nèi)(一般認 為在10-30ms),其特性基本保持不變,因而可W將其看作是一個準穩(wěn)態(tài)過程,因此可W將 語音信號進行分帖操作。一般每秒的帖數(shù)約為33-100帖,視情況而定。分帖可W采用連 續(xù)分段的方法,但一般要采用交疊分段的方法,該是為了使得帖與帖之間平滑過渡,保持連 續(xù)性。前一帖和后一帖的交疊部分稱為帖移。帖移與帖長的比值一般取為0-0. 5。由于分 帖的作用,使原本的信號變成一段一段的,該就相當于是在原始的信號在時域內(nèi)加上了一 個矩形窗。時域內(nèi)與矩形窗相乘也就相當于頻域內(nèi)信號頻譜與矩形窗的傅里葉變換進行卷 積。該會改變原始信號的頻譜。為此在分帖之后要對每一帖做一個加窗的處理,從而得到 加窗語音信號。本實施例對經(jīng)過高通濾波后的拍照暗語信號采用漢明窗加窗函數(shù)對其進行 加窗處理。
[0027] 可選地,建立拍照暗語的隱馬爾科夫模型,并將其保存在樣本庫中包括:向用戶發(fā) 送是否同意分享指令,并在接收到用戶發(fā)送的同意分享指令后建立拍照暗語的隱馬爾科夫 模型,并將其保存在樣本庫中。通過向用戶發(fā)送是否同意分享指令,充分尊重用戶是否決定 將其輸入的拍照暗語進行分享的意愿,提升了用戶拍照體驗。
[0028] 可選地,拍照暗語的特征矢量是拍照暗語的美爾頻率倒譜系數(shù)。語音信號的特征 參數(shù)提取有多種方法,線性預測系數(shù)(LPC)是基于語音發(fā)音機理的,描述的是聲道特性; 線性預測倒譜系數(shù)(LPCC