專利名稱:移動(dòng)終端語(yǔ)音電話本系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種移動(dòng)終端語(yǔ)音電話本系統(tǒng)。
背景技術(shù):
移動(dòng)終端,如手機(jī)、PDA等等,在人們的日常生活中扮演著越來(lái)越重要的角色,逐步成為人們必不可少的通訊和信息交互的工具。在這些移動(dòng)終端中,電話本是最重要的功能之一。但是目前的電話本一般采取拼音或其它的排序方式,隨著人們之間逐步增大的互相聯(lián)系的需要,電話本的容量不斷增加。這在為人們提供更多信息需求的同時(shí),也為人們查找某個(gè)具體聯(lián)系人的電話增加了越來(lái)越大的不便。在這種情況下,利用先進(jìn)的語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)的語(yǔ)音電話本成為一個(gè)更好的選擇,能夠?yàn)槿藗兊氖褂脦?lái)更大的方便。
在目前的許多手機(jī)上,也有語(yǔ)音撥號(hào)功能,但都是基于語(yǔ)音比對(duì)的。從性能上來(lái)說(shuō),有如下缺陷1.對(duì)于需要采用語(yǔ)音撥號(hào)的條目,必須事先進(jìn)行錄音;2.語(yǔ)音撥號(hào)功能是針對(duì)特定用戶的;3.由于受到存儲(chǔ)量的限制,能進(jìn)行語(yǔ)音撥號(hào)的條目最多也就是20-30條;4.準(zhǔn)確率不高。
從技術(shù)上來(lái)說(shuō),采用的是基于動(dòng)態(tài)時(shí)間規(guī)整的匹配算法,因此在使用上給用戶帶來(lái)許多限制和不便??梢赃@么說(shuō),目前手機(jī)上使用的語(yǔ)音撥號(hào)技術(shù)是基于上一代語(yǔ)音識(shí)別技術(shù)的,并沒(méi)有引入語(yǔ)音識(shí)別技術(shù)的最新研究成果。
近年來(lái),也有一些關(guān)于移動(dòng)終端語(yǔ)音電話本的一些技術(shù)和應(yīng)用方案被陸陸續(xù)續(xù)地提出來(lái)。這些方案可以識(shí)別更多的條目,但是也還有很多問(wèn)題和不足之處,主要包括1.語(yǔ)音識(shí)別引擎不夠先進(jìn),包括識(shí)別精度不高,穩(wěn)健性很差,占用資源太多。
2.語(yǔ)音識(shí)別模塊和實(shí)際的系統(tǒng)結(jié)合不夠好。
3.沒(méi)有很好地考慮到用戶使用的方便性和簡(jiǎn)潔性。
這也是為什么這些方案始終沒(méi)有得到實(shí)際應(yīng)用的原因所在。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出了一種移動(dòng)終端語(yǔ)音電話本系統(tǒng),該系統(tǒng)提高了語(yǔ)音識(shí)別的準(zhǔn)確率,而且系統(tǒng)中的語(yǔ)音識(shí)別引擎是針對(duì)非特定人的,無(wú)須事先對(duì)用戶進(jìn)行錄音,這樣一方面方便了用戶,另一方面節(jié)約了移動(dòng)終端的存儲(chǔ)部件,在固定存儲(chǔ)容量的情況下,可以存儲(chǔ)和識(shí)別更多的電話條目,同時(shí)本系統(tǒng)還極大地簡(jiǎn)化和方便了移動(dòng)終端用戶的使用流程。
為達(dá)到上述目的,本發(fā)明是這樣實(shí)現(xiàn)的該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊,其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面組成;而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征提取模塊、搜索算法模塊、置信度拒識(shí)模決、音字映射表;該系統(tǒng)的工作流程是這樣的系統(tǒng)得到聯(lián)系人鍵按下的消息,啟動(dòng)聯(lián)系人界面并加載傳統(tǒng)查詢模塊和語(yǔ)音查詢模塊,同時(shí)判斷是長(zhǎng)按還是短按;如果是長(zhǎng)按,則自動(dòng)打開(kāi)語(yǔ)音輸入裝置,啟動(dòng)錄音界面,等待用戶語(yǔ)音輸入;如果是短按,則用戶可以通過(guò)傳統(tǒng)查詢模塊進(jìn)行查詢,并撥出電話號(hào)碼;如果此時(shí)需要進(jìn)行語(yǔ)音識(shí)別,可以再長(zhǎng)按一次聯(lián)系人鍵,則打開(kāi)語(yǔ)音輸入裝置,啟動(dòng)錄音界面,等待用戶語(yǔ)音輸入;語(yǔ)音輸入裝置檢測(cè)到用戶語(yǔ)音后將錄音數(shù)據(jù)輸入到語(yǔ)音識(shí)別引擎進(jìn)行處理和識(shí)別,然后加載識(shí)別結(jié)果界面,將識(shí)別的候選結(jié)果集置入到該識(shí)別結(jié)果界面中,同時(shí)關(guān)閉錄音界面;用戶在結(jié)果集選擇正確的聯(lián)系人,按鍵撥出其電話號(hào)碼。
所述的語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型。
所述的基于段長(zhǎng)分布的隱含馬爾可夫模型以半音節(jié)為建模單元,即一個(gè)漢語(yǔ)普通話單音節(jié)被分為前半部分和后半部分,接近于聲母和韻母,同時(shí)考慮了零聲母的情況,前半部分被細(xì)分為兩個(gè)模型狀態(tài),后半部分被細(xì)分為四個(gè)模型狀態(tài),并且每個(gè)模型狀態(tài)的觀測(cè)矢量分布概率密度函數(shù)采用混合高斯分布進(jìn)行擬合,采用K均值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。
所述的錄音界面在移動(dòng)終端屏幕的中間,是一個(gè)彈出的具有一定時(shí)間限制的小窗口,其中包括一段文本說(shuō)明,以及一個(gè)進(jìn)度條,用戶在該時(shí)間內(nèi)進(jìn)行語(yǔ)音呼叫,超過(guò)該時(shí)間限制則所述的錄音界面自動(dòng)關(guān)閉。
所述的語(yǔ)音識(shí)別引擎的工作流程為語(yǔ)音端點(diǎn)檢測(cè)模塊對(duì)輸入的錄音數(shù)據(jù)截取待識(shí)別的語(yǔ)音段,該語(yǔ)音段輸入到MFCC語(yǔ)音特征提取模塊,輸出45維MFCC特征矢量,傳遞到搜索算法模塊,搜索算法模塊利用事先訓(xùn)練得到的聲學(xué)模型參數(shù),搜索出最優(yōu)路徑,得到候選結(jié)果集以及每個(gè)候選結(jié)果的聲學(xué)得分,然后將該候選結(jié)果集和對(duì)應(yīng)聲學(xué)得分輸入到置信拒識(shí)模塊,置信拒識(shí)模塊對(duì)由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞予以排除,得到識(shí)別結(jié)果集,但是該識(shí)別結(jié)果是漢字拼音,將這些拼音通過(guò)音字映射表獲得最終所要的聯(lián)系人識(shí)別結(jié)果集。
所述的語(yǔ)音端點(diǎn)檢測(cè)模塊采用時(shí)域能量門限進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),其工作流程為首先對(duì)輸入的錄音數(shù)據(jù)進(jìn)行模糊聚類分析確定高能量門限和低能量門限,先找到有連續(xù)數(shù)幀的能量高于高能量門限,確定為語(yǔ)音段中心;然后向前找到連續(xù)數(shù)幀的能量低于低能量門限,則定為語(yǔ)音段的起點(diǎn);再向后搜尋,找到連續(xù)數(shù)幀的能量低于低能量門限,則確定為語(yǔ)音段的終點(diǎn)。
所述的搜索算法模塊采用直接匹配和樹(shù)搜索的方法實(shí)現(xiàn)。
所述的置信拒識(shí)模塊對(duì)候選結(jié)果拒識(shí)的方法是該置信拒識(shí)模塊對(duì)于每一個(gè)候選結(jié)果都會(huì)根據(jù)其聲學(xué)得分計(jì)算出一個(gè)置信度值,置信度值可以由下式計(jì)算出,其中o為觀測(cè)矢量序列即MFCC特征矢量,wi為首選結(jié)果聲學(xué)得分,wj為其它候選結(jié)果聲學(xué)得分,C(wi)為對(duì)應(yīng)首選結(jié)果的置信度值,C(wi)=p(wi|o)=p(o|wi)Σjp(o|wj)]]>置信拒識(shí)模塊有一個(gè)預(yù)先設(shè)定的拒識(shí)門限參數(shù),該拒識(shí)門限參數(shù)是開(kāi)放的,可以根據(jù)實(shí)際情況設(shè)定拒識(shí)門限,置信度值在拒識(shí)門限之外的結(jié)果為由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞,被排除在最終的識(shí)別結(jié)果之外。
所述的識(shí)別結(jié)果界面分為上下兩個(gè)部分,上部界面為二維表格,分成三列,分別是姓名、電話類型、電話號(hào)碼,顯示的是置信度最高的幾個(gè)記錄,用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去;下部界面顯示的是置信度稍低一些的幾個(gè)侯選姓名,用戶選擇某侯選姓名后相應(yīng)的記錄信息顯示在上部界面。
所述的識(shí)別結(jié)果界面設(shè)計(jì)成單元格形式,整個(gè)界面按照候選結(jié)果分割成若干個(gè)單元格,每個(gè)單元格放置一條記錄,單元格內(nèi)頂端為聯(lián)系人姓名框,單元格的其他部分根據(jù)該聯(lián)系人的電話號(hào)碼個(gè)數(shù)分割成若干個(gè)可撥號(hào)字段,可撥號(hào)字段內(nèi)顯示電話類型名稱及其號(hào)碼,用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去。
用戶在選擇激活聯(lián)系人的其中一個(gè)電話類型時(shí),可以有兩種方式選擇,即直接通過(guò)手按方式和通過(guò)語(yǔ)音識(shí)別方式,語(yǔ)音識(shí)別方式是識(shí)別用戶說(shuō)出的電話類型文字的語(yǔ)音。
本發(fā)明是一個(gè)用戶可以利用多模態(tài)的方式(包含語(yǔ)音和按鍵方式),進(jìn)行電話本查詢的移動(dòng)終端電話本系統(tǒng),它集成了先進(jìn)的語(yǔ)音識(shí)別技術(shù)、多模態(tài)技術(shù)和人性化的用戶界面和人機(jī)交互流程。在比較安靜的環(huán)境下,由于提供了多候選,對(duì)正確結(jié)果的覆蓋率可以達(dá)到99%。由于提供了多模態(tài)的交互方式,所以用戶可以根據(jù)需要進(jìn)行選擇,在非常嘈雜或者不便發(fā)聲的情況下可以使用傳統(tǒng)的方式查找電話;而在一般情況下都可以采用語(yǔ)音加按鍵的“三鍵一呼”的方式,即利用三次按鍵和一次語(yǔ)音呼叫,更為方便快捷地尋找電話,極大地簡(jiǎn)化和方便了移動(dòng)終端用戶的使用。由于本發(fā)明對(duì)系統(tǒng)做了算法和代碼地優(yōu)化,整個(gè)識(shí)別系統(tǒng)的容量可以被控制在500K以內(nèi),占用移動(dòng)終端的存儲(chǔ)資源很少。另外,本發(fā)明的響應(yīng)速度非常快,對(duì)用戶的呼叫可以在一秒內(nèi)給出識(shí)別結(jié)果。同時(shí)本發(fā)明的語(yǔ)音識(shí)別引擎是針對(duì)非特定人的,電話本中有0多少個(gè)條目,識(shí)別系統(tǒng)就可以識(shí)別多少個(gè)條目,這相比于目前的語(yǔ)音撥號(hào),必須加入標(biāo)記并進(jìn)行錄音,僅能進(jìn)行二三十個(gè)條目的語(yǔ)音撥號(hào),是有本質(zhì)提高的,一方面方便了用戶,另一方面節(jié)約了移動(dòng)終端的存儲(chǔ)部件,在固定存儲(chǔ)容量的情況下,可以存儲(chǔ)和識(shí)別更多的電話條目,因此從另一種角度看降低了移動(dòng)終端語(yǔ)音電話本系統(tǒng)的實(shí)施成本。另外,由于漢字中存在一字多音的情況,在系統(tǒng)中我們建立了一套字到音的映射表,用戶可以直接讀出漢字的正確發(fā)音,而不需要考慮是否由多音字的情況存在,為用戶提供了很大的方便性。
圖1為本發(fā)明實(shí)施的一種公知的移動(dòng)終端的示意圖;圖2為本發(fā)明的工作流程圖;圖3為本發(fā)明語(yǔ)音識(shí)別引擎的工作流程圖;圖4為本發(fā)明聯(lián)系人主界面的示意圖;
圖5為本發(fā)明錄音界面的示意圖;圖6為本發(fā)明一個(gè)識(shí)別結(jié)果界面的示意圖;圖7為本發(fā)明另一個(gè)識(shí)別結(jié)果界面的示意圖。
具體實(shí)施例方式
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步的闡述如圖1、2所示,本發(fā)明包括一個(gè)具有語(yǔ)音輸入裝置的移動(dòng)終端和一個(gè)語(yǔ)音電話本模塊,圖1所示的移動(dòng)終端是基于StrongARM芯片和WinCE操作系統(tǒng)平臺(tái)的智能手機(jī),該手機(jī)沒(méi)有數(shù)字按鍵,支持觸摸屏和手寫(xiě)筆,該手機(jī)左上鍵為一聯(lián)系人鍵11,如圖2所示,該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊,其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面、音字映射表組成,音字映射表是指漢字與漢語(yǔ)拼音的對(duì)照表;而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征(基于Me1倒譜系數(shù)的語(yǔ)音特征,Me1-Frequency Cepstral Coefficients)提取模塊、搜索算法模塊、置信度拒識(shí)模塊。
如圖4,聯(lián)系人界面分為任務(wù)欄41和電話條目顯示欄42兩部分,任務(wù)欄41里放置功能按鈕,如確認(rèn)按鈕47,電話條目顯示欄42設(shè)置成表格型,分為三列,即姓名44、電話類型45(如公司電話、住宅電話、手機(jī)等)、電話號(hào)碼46。
本發(fā)明的語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型。該基于段長(zhǎng)分布的隱含馬爾可夫模型以半音節(jié)為建模單元,即一個(gè)漢語(yǔ)普通話單音節(jié)被分為前半部分和后半部分,接近于聲母和韻母,同時(shí)考慮了零聲母的情況,前半部分被細(xì)分為兩個(gè)模型狀態(tài),后半部分被細(xì)分為四個(gè)模型狀態(tài),并且每個(gè)模型狀態(tài)的觀測(cè)矢量分布概率密度函數(shù)采用混合高斯分布進(jìn)行擬合,采用K均值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。
如圖2,該系統(tǒng)的工作流程是這樣的系統(tǒng)得到聯(lián)系人鍵11按下的消息,啟動(dòng)聯(lián)系人界面并加載傳統(tǒng)查詢模塊和語(yǔ)音查詢模塊,同時(shí)判斷是長(zhǎng)按還是短按,長(zhǎng)按和短按的判斷標(biāo)準(zhǔn)依據(jù)移動(dòng)終端的系統(tǒng)平臺(tái)規(guī)范。
如果是長(zhǎng)按,則在聯(lián)系人界面的任務(wù)欄41中顯示語(yǔ)音圖標(biāo)43,表示語(yǔ)音識(shí)別功能正在運(yùn)行;接著自動(dòng)打開(kāi)語(yǔ)音輸入裝置,同時(shí)判斷錄音界面51是否存在,如果已經(jīng)存在,則激活錄音界面51,如果不存在,則加載錄音界面51,等待用戶語(yǔ)音輸入;該錄音界面51在移動(dòng)終端屏幕的中間,是一個(gè)彈出的具有一定時(shí)間限制的小窗口,其中包括一段文本說(shuō)明53,以及一個(gè)進(jìn)度條52,用戶在該時(shí)間內(nèi)進(jìn)行語(yǔ)音呼叫,超過(guò)該時(shí)間限制則所述的錄音界面51自動(dòng)關(guān)閉。用戶點(diǎn)擊錄音界51窗口的任何部位,將不再進(jìn)行識(shí)別,或者如果界面大小允許的話,也可以再增加一個(gè)“取消識(shí)別”的按鈕。
如果是短按,則用戶可以通過(guò)傳統(tǒng)查詢模塊進(jìn)行查詢,并撥出電話號(hào)碼。如果此時(shí)需要進(jìn)行語(yǔ)音識(shí)別,則再長(zhǎng)按一次聯(lián)系人鍵11,則與前述長(zhǎng)按的功效一樣,打開(kāi)語(yǔ)音輸入裝置,啟動(dòng)錄音界面51,等待用戶語(yǔ)音輸入;語(yǔ)音輸入裝置檢測(cè)到用戶語(yǔ)音后將錄音數(shù)據(jù)輸入到語(yǔ)音識(shí)別引擎進(jìn)行處理和識(shí)別,然后加載識(shí)別結(jié)果界面,將識(shí)別的候選結(jié)果集置入到該識(shí)別結(jié)果界面中,同時(shí)關(guān)閉錄音界面5I;用戶在結(jié)果集選擇正確的聯(lián)系人,按鍵撥出其電話號(hào)碼。
如圖3,上述語(yǔ)音識(shí)別引擎的工作流程為語(yǔ)音端點(diǎn)檢測(cè)模塊采用時(shí)域能量門限對(duì)輸入的錄音數(shù)據(jù)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),其方法為首先對(duì)輸入的錄音數(shù)據(jù)進(jìn)行模糊聚類分析確定高能量門限和低能量門限,先找到有連續(xù)數(shù)幀的能量高于高能量門限,確定為語(yǔ)音段中心,然后向前找到連續(xù)數(shù)幀的能量低于低能量門限,則定為語(yǔ)音段的起點(diǎn),再向后搜尋,找到連續(xù)數(shù)幀的能量低于低能量門限,則確定為語(yǔ)音段的終點(diǎn),輸出該語(yǔ)音段到MFCC語(yǔ)音特征提取模塊,該MFCC語(yǔ)音特征提取模塊先將語(yǔ)音信號(hào)通過(guò)FFT變換到頻譜上,按Me1濾波器求取能量,并經(jīng)過(guò)逆DCT變換得到14維MFCC系數(shù),加上歸一化幀能量以及它們的一階和二階差分,形成45維MFCC特征矢量,輸出該45維MFCC特征矢量,傳遞到搜索算法模塊,搜索算法模塊利用事先訓(xùn)練得到的聲學(xué)模型參數(shù),采用直接匹配和樹(shù)搜索的方法,搜索出最優(yōu)路徑,得到候選結(jié)果集以及每個(gè)候選結(jié)果的聲學(xué)得分,然后將該候選結(jié)果集和對(duì)應(yīng)聲學(xué)得分輸入到置信拒識(shí)模塊,該置信拒識(shí)模塊對(duì)于每一個(gè)候選結(jié)果都會(huì)根據(jù)其聲學(xué)得分計(jì)算出一個(gè)置信度值,置信度值可以由下式計(jì)算出,其中o為觀測(cè)矢量序列即MFCC特征矢量,wi為首選結(jié)果聲學(xué)得分,wj為其它候選結(jié)果聲學(xué)得分,C(wi)為對(duì)應(yīng)首選結(jié)果的置信度值,C(wi)=p(wi|o)=p(o|wi)Σjp(o|wj)]]>拒識(shí)門限是開(kāi)放的,可以根據(jù)實(shí)際情況設(shè)定拒識(shí)門限,置信度值在拒識(shí)門限之外的結(jié)果為由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞,被排除在最終的識(shí)別結(jié)果之外,從而得到識(shí)別結(jié)果集,但是該識(shí)別結(jié)果是漢字拼音,將這些拼音通過(guò)音字映射表獲得最終所要的聯(lián)系人識(shí)別結(jié)果集。
如圖6,識(shí)別結(jié)果界面可以分為兩個(gè)部分,上部界面61為二維表格,分成三列,分別是姓名、電話類型、電話號(hào)碼,顯示的是置信度最高的幾個(gè)記錄,默認(rèn)是首選記錄,用戶可以通過(guò)點(diǎn)擊目標(biāo)記錄的姓名字段或點(diǎn)擊電話號(hào)碼字段撥打出去;下部界面62顯示的是置信度稍低一些的幾個(gè)侯選記錄,供用戶選擇,用戶選擇完后相應(yīng)的記錄顯示在上部界面,用戶再選擇撥打。
如圖7,識(shí)別結(jié)果界面也可以設(shè)計(jì)成單元格形式,即整個(gè)屏幕按照候選結(jié)果分割成若干個(gè)單元格71,每個(gè)單元格放置一條記錄,單元格71內(nèi)頂端為聯(lián)系人姓名框72,用于顯示聯(lián)系人姓名,灰色黑底,激活時(shí)為藍(lán)底白字,操作方向鍵時(shí),不停留在該區(qū)域,手寫(xiě)筆點(diǎn)擊該區(qū)域時(shí),相當(dāng)于點(diǎn)擊該用戶的第一個(gè)激活字段;單元格71的其他部分根據(jù)該聯(lián)系人的電話號(hào)碼個(gè)數(shù)分割成若干個(gè)可撥號(hào)字段73,可撥號(hào)字段73內(nèi)顯示電話類型名稱及其號(hào)碼,占用2行,外框虛線,如果成為激活字段74時(shí)則為實(shí)線,寬度加寬,也可增加陰影效果,操作“撥出電話鍵”或者“確認(rèn)鍵”,則啟動(dòng)撥號(hào)模塊,撥打激活字段74對(duì)應(yīng)的電話號(hào)碼;操作上、下方向鍵時(shí),將在激活字段74所在單元格切換激活字段,如果超出單元格范圍,則切換到另一單元格中;同樣,左右方向鍵則是切換激活字段所在行的位置;手寫(xiě)筆點(diǎn)擊撥號(hào)字段區(qū)域,則激活該區(qū)域,并啟動(dòng)撥號(hào)模塊。若文本超出了顯示的范圍,則需要對(duì)文本進(jìn)行特殊的顯示處理,如加入“…”以便更直觀地顯示。
另外,無(wú)論是圖6還是圖7所示的識(shí)別結(jié)果界面,用戶在選擇激活聯(lián)系人的其中一個(gè)電話類型時(shí),都可以有兩種方式選擇,即直接通過(guò)手按方式和通過(guò)語(yǔ)音識(shí)別方式,語(yǔ)音識(shí)別方式是識(shí)別用戶說(shuō)出的電話類型文字的語(yǔ)音。
在識(shí)別結(jié)果界面中,只要用戶切換到其它應(yīng)用程序(包括撥打電話、退回電話本功能等),識(shí)別結(jié)果界面將自動(dòng)結(jié)束關(guān)閉,而聯(lián)系人界面依然存在。
以上是本發(fā)明的一個(gè)優(yōu)選實(shí)施例,但是本發(fā)明對(duì)于所有的移動(dòng)終端,包括手機(jī)、PDA、掌上電腦,我們都可以利用相同的方法設(shè)計(jì)出相似和相仿的應(yīng)用來(lái),進(jìn)一步,這樣的方法還可以擴(kuò)展到對(duì)移動(dòng)終端的菜單控制、語(yǔ)音記事本等許多方面,因此其實(shí)用性和推廣價(jià)值是很明顯的。
權(quán)利要求
1.一種移動(dòng)終端語(yǔ)音電話本系統(tǒng),包括一個(gè)具有語(yǔ)音輸入裝置的移動(dòng)終端和一個(gè)語(yǔ)音電話本模塊,該移動(dòng)終端設(shè)有一聯(lián)系人鍵,其特征在于該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊,其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面組成;而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征提取模塊、搜索算法模塊、置信度拒識(shí)模塊、音字映射表;該系統(tǒng)的工作流程是這樣的系統(tǒng)得到聯(lián)系人鍵按下的消息,啟動(dòng)聯(lián)系人界面并加載傳統(tǒng)查詢模塊和語(yǔ)音查詢模塊,同時(shí)判斷是長(zhǎng)按還是短按;如果是長(zhǎng)按,則自動(dòng)打開(kāi)語(yǔ)音輸入裝置,啟動(dòng)錄音界面,等待用戶語(yǔ)音輸入;如果是短按,則用戶可以通過(guò)傳統(tǒng)查詢模塊進(jìn)行查詢,并撥出電話號(hào)碼;如果此時(shí)需要進(jìn)行語(yǔ)音識(shí)別,可以再長(zhǎng)按一次聯(lián)系人鍵,則打開(kāi)語(yǔ)音輸入裝置,啟動(dòng)錄音界面,等待用戶語(yǔ)音輸入;語(yǔ)音輸入裝置檢測(cè)到用戶語(yǔ)音后將錄音數(shù)據(jù)輸入到語(yǔ)音識(shí)別引擎進(jìn)行處理和識(shí)別,然后加載識(shí)別結(jié)果界面,將識(shí)別的候選結(jié)果集置入到該識(shí)別結(jié)果界面中,同時(shí)關(guān)閉錄音界面;用戶在結(jié)果集選擇正確的聯(lián)系人,按鍵撥出其電話號(hào)碼。
2.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型。
3.如權(quán)利要求2所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的基于段長(zhǎng)分布的隱含馬爾可夫模型以半音節(jié)為建模單元,即一個(gè)漢語(yǔ)普通話單音節(jié)被分為前半部分和后半部分,接近于聲母和韻母,同時(shí)考慮了零聲母的情況,前半部分被細(xì)分為兩個(gè)模型狀態(tài),后半部分被細(xì)分為四個(gè)模型狀態(tài),并且每個(gè)模型狀態(tài)的觀測(cè)矢量分布概率密度函數(shù)采用混合高斯分布進(jìn)行擬合,采用K均值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。
4.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的錄音界面在移動(dòng)終端屏幕的中間,是一個(gè)彈出的具有一定時(shí)間限制的小窗口,其中包括一段文本說(shuō)明,以及一個(gè)進(jìn)度條,用戶在該時(shí)間內(nèi)進(jìn)行語(yǔ)音呼叫,超過(guò)該時(shí)間限制則所述的錄音界面自動(dòng)關(guān)閉。
5.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的語(yǔ)音識(shí)別引擎的工作流程為語(yǔ)音端點(diǎn)檢測(cè)模塊對(duì)輸入的錄音數(shù)據(jù)截取待識(shí)別的語(yǔ)音段,該語(yǔ)音段輸入到MFCC語(yǔ)音特征提取模塊,輸出45維MFCC特征矢量,傳遞到搜索算法模塊,搜索算法模塊利用事先訓(xùn)練得到的聲學(xué)模型參數(shù),搜索出最優(yōu)路徑,得到候選結(jié)果集以及每個(gè)候選結(jié)果的聲學(xué)得分,然后將該候選結(jié)果集和對(duì)應(yīng)聲學(xué)得分輸入到置信拒識(shí)模塊,置信拒識(shí)模塊對(duì)由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞予以排除,得到識(shí)別結(jié)果集,但是該識(shí)別結(jié)果是漢字拼音,將這些拼音通過(guò)音字映射表獲得最終所要的聯(lián)系人識(shí)別結(jié)果集。
6.如權(quán)利要求1或5所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的語(yǔ)音端點(diǎn)檢測(cè)模塊采用時(shí)域能量門限進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),其工作流程為首先對(duì)輸入的錄音數(shù)據(jù)進(jìn)行模糊聚類分析確定高能量門限和低能量門限,先找到有連續(xù)數(shù)幀的能量高于高能量門限,確定為語(yǔ)音段中心;然后向前找到連續(xù)數(shù)幀的能量低于低能量門限,則定為語(yǔ)音段的起點(diǎn);再向后搜尋,找到連續(xù)數(shù)幀的能量低于低能量門限,則確定為語(yǔ)音段的終點(diǎn)。
7.如權(quán)利要求1或5所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的搜索算法模塊采用直接匹配和樹(shù)搜索的方法實(shí)現(xiàn)。
8.如權(quán)利要求1或5所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的置信拒識(shí)模塊對(duì)候選結(jié)果拒識(shí)的方法是該置信拒識(shí)模塊對(duì)于每一個(gè)候選結(jié)果都會(huì)根據(jù)其聲學(xué)得分計(jì)算出一個(gè)置信度值,置信度值可以由下式計(jì)算出,其中o為觀測(cè)矢量序列即MFCC特征矢量,wi為首選結(jié)果聲學(xué)得分,wj為其它候選結(jié)果聲學(xué)得分,C(wi)為對(duì)應(yīng)首選結(jié)果的置信度值,C(wi)=p(wi|o)=p(o|wi)Σjp(o|wj)]]>置信拒識(shí)模塊有一個(gè)預(yù)先設(shè)定的拒識(shí)門限參數(shù),該拒識(shí)門限參數(shù)是開(kāi)放的,可以根據(jù)實(shí)際情況設(shè)定拒識(shí)門限,置信度值在拒識(shí)門限之外的結(jié)果為由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞,被排除在最終的識(shí)別結(jié)果之外。
9.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的識(shí)別結(jié)果界面分為上下兩個(gè)部分,上部界面為二維表格,分成三列,分別是姓名、電話類型、電話號(hào)碼,顯示的是置信度最高的幾個(gè)記錄,用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去;下部界面顯示的是置信度稍低一些的幾個(gè)侯選姓名,用戶選擇某侯選姓名后相應(yīng)的記錄信息顯示在上部界面。
10.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于所述的識(shí)別結(jié)果界面設(shè)計(jì)成單元格形式,整個(gè)界面按照候選結(jié)果分割成若干個(gè)單元格,每個(gè)單元格放置一條記錄,單元格內(nèi)頂端為聯(lián)系人姓名框,單元格的其他部分根據(jù)該聯(lián)系人的電話號(hào)碼個(gè)數(shù)分割成若干個(gè)可撥號(hào)字段,可撥號(hào)字段內(nèi)顯示電話類型名稱及其號(hào)碼,用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去。
11.如權(quán)利要求9或10所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng),其特征在于用戶在選擇激活聯(lián)系人的其中一個(gè)電話類型時(shí),可以有兩種方式選擇,即直接通過(guò)手按方式和通過(guò)語(yǔ)音識(shí)別方式,語(yǔ)音識(shí)別方式是識(shí)別用戶說(shuō)出的電話類型文字的語(yǔ)音。
全文摘要
本發(fā)明提供了一種移動(dòng)終端語(yǔ)音電話本系統(tǒng),包括一個(gè)具有語(yǔ)音輸入裝置的移動(dòng)終端和一個(gè)語(yǔ)音電話本模塊,該移動(dòng)終端設(shè)有一聯(lián)系人鍵,該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊,其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面組成;而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征提取模塊、搜索算法模塊、置信度拒識(shí)模塊、音字映射表;語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型;用戶長(zhǎng)按聯(lián)系人鍵,則啟動(dòng)電話本的語(yǔ)音查詢模塊;短按聯(lián)系人鍵,則啟動(dòng)傳統(tǒng)查詢模塊。本發(fā)明針對(duì)非特定人的,具有通用性、方便性、準(zhǔn)確率高、識(shí)別容量大等優(yōu)點(diǎn)。
文檔編號(hào)H04M1/725GK1509107SQ0215686
公開(kāi)日2004年6月30日 申請(qǐng)日期2002年12月19日 優(yōu)先權(quán)日2002年12月19日
發(fā)明者吳及, 汪勇, 孫瓊, 趙慶衛(wèi), 及 吳 申請(qǐng)人:北京天朗語(yǔ)音科技有限公司