一種語(yǔ)音輸入方法、裝置和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及語(yǔ)音識(shí)別的技術(shù)領(lǐng)域,特別是涉及一種語(yǔ)音輸入方法、一種語(yǔ)音輸入裝置和一種語(yǔ)音輸入系統(tǒng)。
【背景技術(shù)】
[0002]隨著社會(huì)的不斷發(fā)展和多媒體通信以及聲音轉(zhuǎn)換技術(shù)的深入發(fā)展,聲音控制技術(shù)(即聲控技術(shù))已經(jīng)得到廣泛的關(guān)注。聲控技術(shù)經(jīng)過長(zhǎng)期快速發(fā)展,已經(jīng)投入到實(shí)際應(yīng)用中,例如,用聲音打開門窗、窗簾、電視機(jī)、電燈等。
[0003]在實(shí)現(xiàn)聲控技術(shù)時(shí),語(yǔ)音識(shí)別是其中一個(gè)重要環(huán)節(jié)。而目前的聲控技術(shù)一般是基于用戶的一系列聲音識(shí)別技術(shù),包括:接收音頻信號(hào);根據(jù)有效語(yǔ)音命令特征對(duì)所述音頻信號(hào)進(jìn)行分解和過濾,得到語(yǔ)音樣本;對(duì)所述語(yǔ)音樣本進(jìn)行語(yǔ)義識(shí)別,確定對(duì)應(yīng)的語(yǔ)音命令。
[0004]目前的聲控技術(shù)需要清晰明了地獲取用戶的音頻信號(hào),才能進(jìn)一步識(shí)別,因此在識(shí)別聲音的時(shí)候容易出現(xiàn)錯(cuò)誤,特別是在用戶說話聲音小、環(huán)境嘈雜等情況下,目前的聲控技術(shù)不能完全準(zhǔn)確的獲取用戶的音頻信號(hào),進(jìn)而不能準(zhǔn)確進(jìn)行識(shí)別。
[0005]因此,目前需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是:如何提出一種語(yǔ)音輸入機(jī)制,以提高語(yǔ)音識(shí)別的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0006]本申請(qǐng)實(shí)施例所要解決的技術(shù)問題是提供一種語(yǔ)音輸入方法,用以提高語(yǔ)音識(shí)別的準(zhǔn)確率。
[0007]相應(yīng)的,本申請(qǐng)實(shí)施例還提供了一種語(yǔ)音輸入裝置和一種語(yǔ)音輸入系統(tǒng),用以保證上述方法的實(shí)現(xiàn)及應(yīng)用。
[0008]為了解決上述問題,本申請(qǐng)實(shí)施例公開了一種語(yǔ)音輸入方法,包括:
[0009]接收客戶端發(fā)送的特征信息;所述特征信息包括語(yǔ)音信號(hào)和用戶特征圖像信號(hào);
[0010]識(shí)別出與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù);
[0011]識(shí)別出與所述語(yǔ)音信號(hào)匹配的第二候選識(shí)別數(shù)據(jù);
[0012]至少根據(jù)所述第一候選識(shí)別數(shù)據(jù)和第二候識(shí)別選數(shù)據(jù)確定目標(biāo)識(shí)別數(shù)據(jù);以及
[0013]將所述目標(biāo)識(shí)別數(shù)據(jù)發(fā)送至所述客戶端。
[0014]優(yōu)選地,所述用戶特征圖像信號(hào)包括在輸入所述語(yǔ)音信號(hào)時(shí)記錄的一幀或多幀嘴型特征圖信號(hào)。
[0015]優(yōu)選地,所述第一候選識(shí)別數(shù)據(jù)對(duì)應(yīng)有一幀或多幀嘴型參考圖信號(hào),所述識(shí)別出與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù)的步驟包括:
[0016]計(jì)算所述一幀或多幀嘴型特征圖信號(hào)和所述一幀或多幀嘴型參考圖信號(hào)之間的嘴型相似度;以及
[0017]提取與最高值的嘴型相似度對(duì)應(yīng)的第一候選識(shí)別數(shù)據(jù),作為與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù)。
[0018]優(yōu)選地,每一幀嘴型參考圖信號(hào)對(duì)應(yīng)有一組嘴型參考向量,所述計(jì)算所述一幀或多幀嘴型特征圖信號(hào)和所述一幀或多幀嘴型參考圖信號(hào)之間的嘴型相似度的步驟包括:
[0019]從每一幀嘴型特征圖信號(hào)中提取一組嘴型特征信息;
[0020]對(duì)每一組嘴型特征信息建立一組嘴型特征向量;
[0021]分別計(jì)算所述嘴型特征向量與對(duì)應(yīng)的所述嘴型參考向量之間的向量相似度;以及
[0022]計(jì)算所述向量相似度之和,獲得嘴型相似度。
[0023]優(yōu)選地,每一組嘴型特征向量中包括如下至少一種向量:
[0024]特征嘴型大小向量、特征嘴型比例向量、特征牙齒能見向量、特征牙齒比例向量、特征舌頭能見向量、特征舌頭比例向量;
[0025]其中,所述特征嘴型大小為標(biāo)識(shí)所述嘴型特征圖信號(hào)中嘴型區(qū)域面積大小的向量;
[0026]所述特征嘴型比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中嘴型區(qū)域面積,與預(yù)置的標(biāo)準(zhǔn)嘴型區(qū)域面積之間的比例的向量;
[0027]所述特征牙齒能見向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中是否識(shí)別出牙齒區(qū)域的向量;
[0028]所述特征牙齒比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中牙齒區(qū)域與嘴型區(qū)域之間的比例的向量;
[0029]所述特征舌頭能見向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中是否識(shí)別出舌頭區(qū)域的向量;
[0030]所述特征舌頭比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中舌頭區(qū)域與嘴型區(qū)域之間的比例的向量。
[0031]優(yōu)選地,每一組嘴型參考向量中包括如下至少一種向量:
[0032]參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量;
[0033]其中,所述參考嘴型大小為標(biāo)識(shí)所述嘴型參考圖信號(hào)中嘴型區(qū)域面積大小的向量;
[0034]所述參考牙齒能見向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中是否識(shí)別出牙齒區(qū)域的向量;
[0035]所述參考嘴型比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中嘴型區(qū)域面積,與預(yù)置的標(biāo)準(zhǔn)嘴型區(qū)域面積之間的比例的向量;
[0036]所述參考牙齒比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中牙齒區(qū)域與嘴型區(qū)域之間的比例的向量;
[0037]所述參考舌頭能見向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中是否識(shí)別出舌頭區(qū)域的向量;
[0038]所述參考舌頭比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中舌頭區(qū)域與嘴型區(qū)域之間的比例的向量。
[0039]優(yōu)選地,所述分別計(jì)算所述嘴型特征向量與對(duì)應(yīng)的嘴型參考向量之間的向量相似度的步驟包括:
[0040]分別將所述特征嘴型大小向量與所述特征嘴型比例向量的比值設(shè)置為標(biāo)準(zhǔn)嘴型大小向量;以及
[0041]至少根據(jù)所述標(biāo)準(zhǔn)嘴型大小向量、所述特征牙齒能見向量、所述特征牙齒比例向量、所述特征舌頭能見向量、所述特征舌頭比例向量,與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一種或者多種,計(jì)算特征向量相似度。
[0042]優(yōu)選地,所述識(shí)別出與所述語(yǔ)音信號(hào)匹配的第二候選識(shí)別數(shù)據(jù)的步驟包括:
[0043]從所述語(yǔ)音信號(hào)提取語(yǔ)音特征;
[0044]計(jì)算所述語(yǔ)音特征與預(yù)置的發(fā)音模板之間的發(fā)音相似度;
[0045]當(dāng)所述發(fā)音相似度大于預(yù)設(shè)的相似度閾值時(shí),提取所述發(fā)音相似度所屬的發(fā)音模板對(duì)應(yīng)的語(yǔ)音候選數(shù)據(jù);
[0046]計(jì)算所述語(yǔ)音候選數(shù)據(jù)的出現(xiàn)概率;
[0047]當(dāng)所述出現(xiàn)概率大于預(yù)設(shè)的第一概率閾值時(shí),計(jì)算所述語(yǔ)音候選數(shù)據(jù)之間的連接概率;以及
[0048]當(dāng)所述連接概率大于預(yù)設(shè)的第二概率閾值時(shí),提取所述語(yǔ)音候選數(shù)據(jù)組成第二候選識(shí)別數(shù)據(jù)。
[0049]優(yōu)選地,所述至少根據(jù)所述第一候選識(shí)別數(shù)據(jù)和第二候選識(shí)別數(shù)據(jù)確定目標(biāo)識(shí)別數(shù)據(jù)的步驟包括:
[0050]對(duì)所述第一候選識(shí)別數(shù)據(jù)和所述第二候選識(shí)別數(shù)據(jù)進(jìn)行交集處理,獲得目標(biāo)識(shí)別數(shù)據(jù)。
[0051]本申請(qǐng)實(shí)施例還公開了一種語(yǔ)音輸入方法,包括:
[0052]采集特征信息;所述特征信息包括語(yǔ)音信號(hào)和用戶特征圖像信號(hào);
[0053]識(shí)別出與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù);
[0054]識(shí)別出與所述語(yǔ)音信號(hào)匹配的第二候選識(shí)別數(shù)據(jù);以及
[0055]至少根據(jù)所述第一候選識(shí)別數(shù)據(jù)和第二候識(shí)別選數(shù)據(jù)確定目標(biāo)識(shí)別數(shù)據(jù)。
[0056]優(yōu)選地,還包括:
[0057]執(zhí)行所述目標(biāo)識(shí)別數(shù)據(jù)對(duì)應(yīng)的操作。
[0058]優(yōu)選地,所述用戶特征圖像信號(hào)包括在輸入所述語(yǔ)音信號(hào)時(shí)記錄的一幀或多幀嘴型特征圖信號(hào)。
[0059]優(yōu)選地,所述第一候選識(shí)別數(shù)據(jù)對(duì)應(yīng)有一幀或多幀嘴型參考圖信號(hào),所述識(shí)別出與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù)的步驟包括:
[0060]計(jì)算所述一幀或多幀嘴型特征圖信號(hào)和所述一幀或多幀嘴型參考圖信號(hào)之間的嘴型相似度;以及
[0061]提取最高值的嘴型相似度對(duì)應(yīng)的第一候選識(shí)別數(shù)據(jù),作為與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù)。
[0062]優(yōu)選地,每一幀嘴型參考圖信號(hào)對(duì)應(yīng)有一組嘴型參考向量,所述計(jì)算所述一幀或多幀嘴型特征圖信號(hào)和所述一幀或多幀嘴型參考圖信號(hào)之間的嘴型相似度的步驟包括:
[0063]從每一幀嘴型特征圖信號(hào)中提取一組嘴型特征信息;
[0064]對(duì)每一組嘴型特征信息建立一組嘴型特征向量;
[0065]分別計(jì)算所述嘴型特征向量與對(duì)應(yīng)的所述嘴型參考向量之間的向量相似度;以及
[0066]計(jì)算所述向量相似度之和,獲得嘴型相似度。
[0067]優(yōu)選地,每一組嘴型特征向量中包括如下至少一種向量:
[0068]特征嘴型大小向量、特征嘴型比例向量、特征牙齒能見向量、特征牙齒比例向量、特征舌頭能見向量、特征舌頭比例向量;
[0069]其中,所述特征嘴型大小為標(biāo)識(shí)所述嘴型特征圖信號(hào)中嘴型區(qū)域面積大小的向量;
[0070]所述特征嘴型比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中嘴型區(qū)域面積,與預(yù)置的標(biāo)準(zhǔn)嘴型區(qū)域面積之間的比例的向量;
[0071]所述特征牙齒能見向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中是否識(shí)別出牙齒區(qū)域的向量;
[0072]所述特征牙齒比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中牙齒區(qū)域與嘴型區(qū)域之間的比例的向量;
[0073]所述特征舌頭能見向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中是否識(shí)別出舌頭區(qū)域的向量;
[0074]所述特征舌頭比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中舌頭區(qū)域與嘴型區(qū)域之間的比例的向量。
[0075]優(yōu)選地,每一組嘴型參考向量中包括如下至少一種向量:
[0076]參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量;
[0077]其中,所述參考嘴型大小為標(biāo)識(shí)所述嘴型參考圖信號(hào)中嘴型區(qū)域面積大小的向量;
[0078]所述參考牙齒能見向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中是否識(shí)別出牙齒區(qū)域的向量;
[0079]所述參考嘴型比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中嘴型區(qū)域面積,與預(yù)置的標(biāo)準(zhǔn)嘴型區(qū)域面積之間的比例的向量;
[0080]所述參考牙齒比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中牙齒區(qū)域與嘴型區(qū)域之間的比例的向量;
[0081]所述參考舌頭能見向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中是否識(shí)別出舌頭區(qū)域的向量;
[0082]所述參考舌頭比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中舌頭區(qū)域與嘴型區(qū)域之間的比例的向量。
[0083]優(yōu)選地,所述分別計(jì)算所述嘴型特征向量與對(duì)應(yīng)的嘴型參考向量之間的向量相似度的步驟包括:
[0084]分別將所述特征嘴型大小向量與所述特征嘴型比例向量的比值設(shè)置為標(biāo)準(zhǔn)嘴型大小向量;以及
[0085]至少根據(jù)所述標(biāo)準(zhǔn)嘴型大小向量、所述特征牙齒能見向量、所述特征牙齒比例向量、所述特征舌頭能見向量、所述特征舌頭比例向量,與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一種或者多種,計(jì)算特征向量相似度。
[0086]優(yōu)選地,所述識(shí)別出與所述語(yǔ)音信號(hào)匹配的第二候選識(shí)別數(shù)據(jù)的步驟包括:
[0087]從所述語(yǔ)音信號(hào)提取語(yǔ)音特征;
[0088]計(jì)算所述語(yǔ)音特征與預(yù)置的發(fā)音模板之間的發(fā)音相似度;
[0089]當(dāng)所述發(fā)音相似度大于預(yù)設(shè)的相似度閾值時(shí),提取所述發(fā)音相似度所屬的發(fā)音模板對(duì)應(yīng)的語(yǔ)音候選數(shù)據(jù);
[0090]計(jì)算所述語(yǔ)音候選數(shù)據(jù)的出現(xiàn)概率;
[0091]當(dāng)所述出現(xiàn)概率大于預(yù)設(shè)的第一概率閾值時(shí),計(jì)算所述語(yǔ)音候選數(shù)據(jù)之間的連接概率;以及
[0092]當(dāng)所述連接概率大于預(yù)設(shè)的第二概率閾值時(shí),提取所述語(yǔ)音候選數(shù)據(jù)組成第二候選識(shí)別數(shù)據(jù)。
[0093]優(yōu)選地,所述至少根據(jù)所述第一候選識(shí)別數(shù)據(jù)和第二候選識(shí)別數(shù)據(jù)確定目標(biāo)識(shí)別數(shù)據(jù)的步驟包括:
[0094]對(duì)所述第一候選識(shí)別數(shù)據(jù)和所述第二候選識(shí)別數(shù)據(jù)進(jìn)行交集處理,獲得目標(biāo)識(shí)別數(shù)據(jù)。
[0095]本申請(qǐng)實(shí)施例還公開了一種語(yǔ)音輸入裝置,包括:
[0096]接收模塊,用于接收客戶端發(fā)送的特征信息;所述特征信息包括語(yǔ)音信號(hào)和用戶特征圖像信號(hào);
[0097]第一識(shí)別模塊,用于識(shí)別出與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù);
[0098]第二識(shí)別模塊,用于識(shí)別出與所述語(yǔ)音信號(hào)匹配的第二候選識(shí)別數(shù)據(jù);
[0099]確定模塊,用于至少根據(jù)所述第一候選識(shí)別數(shù)據(jù)和第二候識(shí)別選數(shù)據(jù)確定目標(biāo)識(shí)別數(shù)據(jù);
[0100]發(fā)送模塊,用于將所述目標(biāo)識(shí)別數(shù)據(jù)發(fā)送至所述客戶端。
[0101]優(yōu)選地,所述用戶特征圖像信號(hào)包括在輸入所述語(yǔ)音信號(hào)時(shí)記錄的一幀或多幀嘴型特征圖信號(hào)。
[0102]優(yōu)選地,所述第一識(shí)別模塊包括:
[0103]嘴型相似度計(jì)算子模塊,用于計(jì)算所述一幀或多幀嘴型特征圖信號(hào)和所述一幀或多幀嘴型參考圖信號(hào)之間的嘴型相似度;
[0104]第一提取模塊,用于提取與最高值的嘴型相似度對(duì)應(yīng)的第一候選識(shí)別數(shù)據(jù),作為與所述用戶特征圖像信號(hào)匹配的第一候選識(shí)別數(shù)據(jù)。
[0105]優(yōu)選地,每一幀嘴型參考圖信號(hào)對(duì)應(yīng)有一組嘴型參考向量,所述第一嘴型相似度計(jì)算子模塊包括:
[0106]特征提取子模塊,用于對(duì)從每一幀嘴型特征圖信號(hào)中提取一組嘴型特征信息;
[0107]向量建立子模塊,用于對(duì)每一組嘴型特征信息建立一組嘴型特征向量;
[0108]第一計(jì)算子模塊,用于分別計(jì)算所述嘴型特征向量與對(duì)應(yīng)的所述嘴型參考向量之間的向量相似度;
[0109]第二計(jì)算子模塊,用于計(jì)算所述向量相似度之和,獲得嘴型相似度。
[0110]優(yōu)選地,每一組嘴型特征向量中包括如下至少一種向量:
[0111]特征嘴型大小向量、特征嘴型比例向量、特征牙齒能見向量、特征牙齒比例向量、特征舌頭能見向量、特征舌頭比例向量;
[0112]其中,所述特征嘴型大小為標(biāo)識(shí)所述嘴型特征圖信號(hào)中嘴型區(qū)域面積大小的向量;
[0113]所述特征嘴型比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中嘴型區(qū)域面積,與預(yù)置的標(biāo)準(zhǔn)嘴型區(qū)域面積之間的比例的向量;
[0114]所述特征牙齒能見向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中是否識(shí)別出牙齒區(qū)域的向量;
[0115]所述特征牙齒比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中牙齒區(qū)域與嘴型區(qū)域之間的比例的向量;
[0116]所述特征舌頭能見向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中是否識(shí)別出舌頭區(qū)域的向量;
[0117]所述特征舌頭比例向量為標(biāo)識(shí)所述嘴型特征圖信號(hào)中舌頭區(qū)域與嘴型區(qū)域之間的比例的向量;
[0118]優(yōu)選地,每一組嘴型參考向量中包括如下至少一種向量:
[0119]參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量;
[0120]其中,所述參考嘴型大小為標(biāo)識(shí)所述嘴型參考圖信號(hào)中嘴型區(qū)域面積大小的向量;
[0121]所述參考牙齒能見向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中是否識(shí)別出牙齒區(qū)域的向量;
[0122]所述參考嘴型比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中嘴型區(qū)域面積,與預(yù)置的標(biāo)準(zhǔn)嘴型區(qū)域面積之間的比例的向量;
[0123]所述參考牙齒比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中牙齒區(qū)域與嘴型區(qū)域之間的比例的向量;
[0124]所述參考舌頭能見向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中是否識(shí)別出舌頭區(qū)域的向量;
[0125]所述參考舌頭比例向量為標(biāo)識(shí)所述嘴型參考圖信號(hào)中舌頭區(qū)域與嘴型區(qū)域之間的比例的向量。
[0126]優(yōu)選地,所述第一計(jì)算子模塊包括:
[0127]設(shè)置子模塊,用于分別將所述特征嘴型大小向量與所述特征嘴型比例向量的比值設(shè)置為標(biāo)準(zhǔn)嘴型大小向量;
[0128]向量計(jì)算子模塊,用于至少根據(jù)所述標(biāo)準(zhǔn)嘴型大小向量、所述特征牙齒能見向量、所述特征牙齒比例向量、所述特征舌頭能見向量、所述特征舌頭比例向量,與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一種或者多種,計(jì)算特征向量相似度。
[0129]優(yōu)選地,所述第二識(shí)別模塊包括:
[0130]第一提取子模塊,用于從所述語(yǔ)音信號(hào)提取語(yǔ)音特征;
[0131]第三計(jì)算子模塊,用于計(jì)算所述語(yǔ)音特征與預(yù)置的發(fā)音模板之間的發(fā)音相似度;
[0132]第二提取子模塊,用于在所述發(fā)音相似度大于預(yù)設(shè)的相似度閾值時(shí),提取所述發(fā)音相似度所屬的發(fā)音模板對(duì)應(yīng)的語(yǔ)音候選數(shù)據(jù);
[0133]第四計(jì)