移動(dòng)終端語(yǔ)音電話本系統(tǒng)的制作方法

文檔序號(hào)：7945407閱讀：333來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：移動(dòng)終端語(yǔ)音電話本系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種移動(dòng)終端語(yǔ)音電話本系統(tǒng)。
背景技術(shù)：
移動(dòng)終端，如手機(jī)、PDA等等，在人們的日常生活中扮演著越來(lái)越重要的角色，逐步成為人們必不可少的通訊和信息交互的工具。在這些移動(dòng)終端中，電話本是最重要的功能之一。但是目前的電話本一般采取拼音或其它的排序方式，隨著人們之間逐步增大的互相聯(lián)系的需要，電話本的容量不斷增加。這在為人們提供更多信息需求的同時(shí)，也為人們查找某個(gè)具體聯(lián)系人的電話增加了越來(lái)越大的不便。在這種情況下，利用先進(jìn)的語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)的語(yǔ)音電話本成為一個(gè)更好的選擇，能夠?yàn)槿藗兊氖褂脦?lái)更大的方便。
在目前的許多手機(jī)上，也有語(yǔ)音撥號(hào)功能，但都是基于語(yǔ)音比對(duì)的。從性能上來(lái)說(shuō)，有如下缺陷1.對(duì)于需要采用語(yǔ)音撥號(hào)的條目，必須事先進(jìn)行錄音；2.語(yǔ)音撥號(hào)功能是針對(duì)特定用戶的；3.由于受到存儲(chǔ)量的限制，能進(jìn)行語(yǔ)音撥號(hào)的條目最多也就是20-30條；4.準(zhǔn)確率不高。
從技術(shù)上來(lái)說(shuō)，采用的是基于動(dòng)態(tài)時(shí)間規(guī)整的匹配算法，因此在使用上給用戶帶來(lái)許多限制和不便?？梢赃@么說(shuō)，目前手機(jī)上使用的語(yǔ)音撥號(hào)技術(shù)是基于上一代語(yǔ)音識(shí)別技術(shù)的，并沒(méi)有引入語(yǔ)音識(shí)別技術(shù)的最新研究成果。
近年來(lái)，也有一些關(guān)于移動(dòng)終端語(yǔ)音電話本的一些技術(shù)和應(yīng)用方案被陸陸續(xù)續(xù)地提出來(lái)。這些方案可以識(shí)別更多的條目，但是也還有很多問(wèn)題和不足之處，主要包括1.語(yǔ)音識(shí)別引擎不夠先進(jìn)，包括識(shí)別精度不高，穩(wěn)健性很差，占用資源太多。
2.語(yǔ)音識(shí)別模塊和實(shí)際的系統(tǒng)結(jié)合不夠好。
3.沒(méi)有很好地考慮到用戶使用的方便性和簡(jiǎn)潔性。
這也是為什么這些方案始終沒(méi)有得到實(shí)際應(yīng)用的原因所在。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出了一種移動(dòng)終端語(yǔ)音電話本系統(tǒng)，該系統(tǒng)提高了語(yǔ)音識(shí)別的準(zhǔn)確率，而且系統(tǒng)中的語(yǔ)音識(shí)別引擎是針對(duì)非特定人的，無(wú)須事先對(duì)用戶進(jìn)行錄音，這樣一方面方便了用戶，另一方面節(jié)約了移動(dòng)終端的存儲(chǔ)部件，在固定存儲(chǔ)容量的情況下，可以存儲(chǔ)和識(shí)別更多的電話條目，同時(shí)本系統(tǒng)還極大地簡(jiǎn)化和方便了移動(dòng)終端用戶的使用流程。
為達(dá)到上述目的，本發(fā)明是這樣實(shí)現(xiàn)的該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊，其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面組成；而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征提取模塊、搜索算法模塊、置信度拒識(shí)模決、音字映射表；該系統(tǒng)的工作流程是這樣的系統(tǒng)得到聯(lián)系人鍵按下的消息，啟動(dòng)聯(lián)系人界面并加載傳統(tǒng)查詢模塊和語(yǔ)音查詢模塊，同時(shí)判斷是長(zhǎng)按還是短按；如果是長(zhǎng)按，則自動(dòng)打開(kāi)語(yǔ)音輸入裝置，啟動(dòng)錄音界面，等待用戶語(yǔ)音輸入；如果是短按，則用戶可以通過(guò)傳統(tǒng)查詢模塊進(jìn)行查詢，并撥出電話號(hào)碼；如果此時(shí)需要進(jìn)行語(yǔ)音識(shí)別，可以再長(zhǎng)按一次聯(lián)系人鍵，則打開(kāi)語(yǔ)音輸入裝置，啟動(dòng)錄音界面，等待用戶語(yǔ)音輸入；語(yǔ)音輸入裝置檢測(cè)到用戶語(yǔ)音后將錄音數(shù)據(jù)輸入到語(yǔ)音識(shí)別引擎進(jìn)行處理和識(shí)別，然后加載識(shí)別結(jié)果界面，將識(shí)別的候選結(jié)果集置入到該識(shí)別結(jié)果界面中，同時(shí)關(guān)閉錄音界面；用戶在結(jié)果集選擇正確的聯(lián)系人，按鍵撥出其電話號(hào)碼。
所述的語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型。
所述的基于段長(zhǎng)分布的隱含馬爾可夫模型以半音節(jié)為建模單元，即一個(gè)漢語(yǔ)普通話單音節(jié)被分為前半部分和后半部分，接近于聲母和韻母，同時(shí)考慮了零聲母的情況，前半部分被細(xì)分為兩個(gè)模型狀態(tài)，后半部分被細(xì)分為四個(gè)模型狀態(tài)，并且每個(gè)模型狀態(tài)的觀測(cè)矢量分布概率密度函數(shù)采用混合高斯分布進(jìn)行擬合，采用K均值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。
所述的錄音界面在移動(dòng)終端屏幕的中間，是一個(gè)彈出的具有一定時(shí)間限制的小窗口，其中包括一段文本說(shuō)明，以及一個(gè)進(jìn)度條，用戶在該時(shí)間內(nèi)進(jìn)行語(yǔ)音呼叫，超過(guò)該時(shí)間限制則所述的錄音界面自動(dòng)關(guān)閉。
所述的語(yǔ)音識(shí)別引擎的工作流程為語(yǔ)音端點(diǎn)檢測(cè)模塊對(duì)輸入的錄音數(shù)據(jù)截取待識(shí)別的語(yǔ)音段，該語(yǔ)音段輸入到MFCC語(yǔ)音特征提取模塊，輸出45維MFCC特征矢量，傳遞到搜索算法模塊，搜索算法模塊利用事先訓(xùn)練得到的聲學(xué)模型參數(shù)，搜索出最優(yōu)路徑，得到候選結(jié)果集以及每個(gè)候選結(jié)果的聲學(xué)得分，然后將該候選結(jié)果集和對(duì)應(yīng)聲學(xué)得分輸入到置信拒識(shí)模塊，置信拒識(shí)模塊對(duì)由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞予以排除，得到識(shí)別結(jié)果集，但是該識(shí)別結(jié)果是漢字拼音，將這些拼音通過(guò)音字映射表獲得最終所要的聯(lián)系人識(shí)別結(jié)果集。
所述的語(yǔ)音端點(diǎn)檢測(cè)模塊采用時(shí)域能量門限進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)，其工作流程為首先對(duì)輸入的錄音數(shù)據(jù)進(jìn)行模糊聚類分析確定高能量門限和低能量門限，先找到有連續(xù)數(shù)幀的能量高于高能量門限，確定為語(yǔ)音段中心；然后向前找到連續(xù)數(shù)幀的能量低于低能量門限，則定為語(yǔ)音段的起點(diǎn)；再向后搜尋，找到連續(xù)數(shù)幀的能量低于低能量門限，則確定為語(yǔ)音段的終點(diǎn)。
所述的搜索算法模塊采用直接匹配和樹(shù)搜索的方法實(shí)現(xiàn)。
所述的置信拒識(shí)模塊對(duì)候選結(jié)果拒識(shí)的方法是該置信拒識(shí)模塊對(duì)于每一個(gè)候選結(jié)果都會(huì)根據(jù)其聲學(xué)得分計(jì)算出一個(gè)置信度值，置信度值可以由下式計(jì)算出，其中o為觀測(cè)矢量序列即MFCC特征矢量，wi為首選結(jié)果聲學(xué)得分，wj為其它候選結(jié)果聲學(xué)得分，C(wi)為對(duì)應(yīng)首選結(jié)果的置信度值，C(wi)=p(wi|o)=p(o|wi)Σjp(o|wj)]]>置信拒識(shí)模塊有一個(gè)預(yù)先設(shè)定的拒識(shí)門限參數(shù)，該拒識(shí)門限參數(shù)是開(kāi)放的，可以根據(jù)實(shí)際情況設(shè)定拒識(shí)門限，置信度值在拒識(shí)門限之外的結(jié)果為由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞，被排除在最終的識(shí)別結(jié)果之外。
所述的識(shí)別結(jié)果界面分為上下兩個(gè)部分，上部界面為二維表格，分成三列，分別是姓名、電話類型、電話號(hào)碼，顯示的是置信度最高的幾個(gè)記錄，用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去；下部界面顯示的是置信度稍低一些的幾個(gè)侯選姓名，用戶選擇某侯選姓名后相應(yīng)的記錄信息顯示在上部界面。
所述的識(shí)別結(jié)果界面設(shè)計(jì)成單元格形式，整個(gè)界面按照候選結(jié)果分割成若干個(gè)單元格，每個(gè)單元格放置一條記錄，單元格內(nèi)頂端為聯(lián)系人姓名框，單元格的其他部分根據(jù)該聯(lián)系人的電話號(hào)碼個(gè)數(shù)分割成若干個(gè)可撥號(hào)字段，可撥號(hào)字段內(nèi)顯示電話類型名稱及其號(hào)碼，用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去。
用戶在選擇激活聯(lián)系人的其中一個(gè)電話類型時(shí)，可以有兩種方式選擇，即直接通過(guò)手按方式和通過(guò)語(yǔ)音識(shí)別方式，語(yǔ)音識(shí)別方式是識(shí)別用戶說(shuō)出的電話類型文字的語(yǔ)音。
本發(fā)明是一個(gè)用戶可以利用多模態(tài)的方式(包含語(yǔ)音和按鍵方式)，進(jìn)行電話本查詢的移動(dòng)終端電話本系統(tǒng)，它集成了先進(jìn)的語(yǔ)音識(shí)別技術(shù)、多模態(tài)技術(shù)和人性化的用戶界面和人機(jī)交互流程。在比較安靜的環(huán)境下，由于提供了多候選，對(duì)正確結(jié)果的覆蓋率可以達(dá)到99％。由于提供了多模態(tài)的交互方式，所以用戶可以根據(jù)需要進(jìn)行選擇，在非常嘈雜或者不便發(fā)聲的情況下可以使用傳統(tǒng)的方式查找電話；而在一般情況下都可以采用語(yǔ)音加按鍵的“三鍵一呼”的方式，即利用三次按鍵和一次語(yǔ)音呼叫，更為方便快捷地尋找電話，極大地簡(jiǎn)化和方便了移動(dòng)終端用戶的使用。由于本發(fā)明對(duì)系統(tǒng)做了算法和代碼地優(yōu)化，整個(gè)識(shí)別系統(tǒng)的容量可以被控制在500K以內(nèi)，占用移動(dòng)終端的存儲(chǔ)資源很少。另外，本發(fā)明的響應(yīng)速度非常快，對(duì)用戶的呼叫可以在一秒內(nèi)給出識(shí)別結(jié)果。同時(shí)本發(fā)明的語(yǔ)音識(shí)別引擎是針對(duì)非特定人的，電話本中有0多少個(gè)條目，識(shí)別系統(tǒng)就可以識(shí)別多少個(gè)條目，這相比于目前的語(yǔ)音撥號(hào)，必須加入標(biāo)記并進(jìn)行錄音，僅能進(jìn)行二三十個(gè)條目的語(yǔ)音撥號(hào)，是有本質(zhì)提高的，一方面方便了用戶，另一方面節(jié)約了移動(dòng)終端的存儲(chǔ)部件，在固定存儲(chǔ)容量的情況下，可以存儲(chǔ)和識(shí)別更多的電話條目，因此從另一種角度看降低了移動(dòng)終端語(yǔ)音電話本系統(tǒng)的實(shí)施成本。另外，由于漢字中存在一字多音的情況，在系統(tǒng)中我們建立了一套字到音的映射表，用戶可以直接讀出漢字的正確發(fā)音，而不需要考慮是否由多音字的情況存在，為用戶提供了很大的方便性。

圖1為本發(fā)明實(shí)施的一種公知的移動(dòng)終端的示意圖；圖2為本發(fā)明的工作流程圖；圖3為本發(fā)明語(yǔ)音識(shí)別引擎的工作流程圖；圖4為本發(fā)明聯(lián)系人主界面的示意圖；
圖5為本發(fā)明錄音界面的示意圖；圖6為本發(fā)明一個(gè)識(shí)別結(jié)果界面的示意圖；圖7為本發(fā)明另一個(gè)識(shí)別結(jié)果界面的示意圖。
具體實(shí)施例方式
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步的闡述如圖1、2所示，本發(fā)明包括一個(gè)具有語(yǔ)音輸入裝置的移動(dòng)終端和一個(gè)語(yǔ)音電話本模塊，圖1所示的移動(dòng)終端是基于StrongARM芯片和WinCE操作系統(tǒng)平臺(tái)的智能手機(jī)，該手機(jī)沒(méi)有數(shù)字按鍵，支持觸摸屏和手寫(xiě)筆，該手機(jī)左上鍵為一聯(lián)系人鍵11，如圖2所示，該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊，其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面、音字映射表組成，音字映射表是指漢字與漢語(yǔ)拼音的對(duì)照表；而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征(基于Me1倒譜系數(shù)的語(yǔ)音特征，Me1-Frequency Cepstral Coefficients)提取模塊、搜索算法模塊、置信度拒識(shí)模塊。
如圖4，聯(lián)系人界面分為任務(wù)欄41和電話條目顯示欄42兩部分，任務(wù)欄41里放置功能按鈕，如確認(rèn)按鈕47，電話條目顯示欄42設(shè)置成表格型，分為三列，即姓名44、電話類型45(如公司電話、住宅電話、手機(jī)等)、電話號(hào)碼46。
本發(fā)明的語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型。該基于段長(zhǎng)分布的隱含馬爾可夫模型以半音節(jié)為建模單元，即一個(gè)漢語(yǔ)普通話單音節(jié)被分為前半部分和后半部分，接近于聲母和韻母，同時(shí)考慮了零聲母的情況，前半部分被細(xì)分為兩個(gè)模型狀態(tài)，后半部分被細(xì)分為四個(gè)模型狀態(tài)，并且每個(gè)模型狀態(tài)的觀測(cè)矢量分布概率密度函數(shù)采用混合高斯分布進(jìn)行擬合，采用K均值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。
如圖2，該系統(tǒng)的工作流程是這樣的系統(tǒng)得到聯(lián)系人鍵11按下的消息，啟動(dòng)聯(lián)系人界面并加載傳統(tǒng)查詢模塊和語(yǔ)音查詢模塊，同時(shí)判斷是長(zhǎng)按還是短按，長(zhǎng)按和短按的判斷標(biāo)準(zhǔn)依據(jù)移動(dòng)終端的系統(tǒng)平臺(tái)規(guī)范。
如果是長(zhǎng)按，則在聯(lián)系人界面的任務(wù)欄41中顯示語(yǔ)音圖標(biāo)43，表示語(yǔ)音識(shí)別功能正在運(yùn)行；接著自動(dòng)打開(kāi)語(yǔ)音輸入裝置，同時(shí)判斷錄音界面51是否存在，如果已經(jīng)存在，則激活錄音界面51，如果不存在，則加載錄音界面51，等待用戶語(yǔ)音輸入；該錄音界面51在移動(dòng)終端屏幕的中間，是一個(gè)彈出的具有一定時(shí)間限制的小窗口，其中包括一段文本說(shuō)明53，以及一個(gè)進(jìn)度條52，用戶在該時(shí)間內(nèi)進(jìn)行語(yǔ)音呼叫，超過(guò)該時(shí)間限制則所述的錄音界面51自動(dòng)關(guān)閉。用戶點(diǎn)擊錄音界51窗口的任何部位，將不再進(jìn)行識(shí)別，或者如果界面大小允許的話，也可以再增加一個(gè)“取消識(shí)別”的按鈕。
如果是短按，則用戶可以通過(guò)傳統(tǒng)查詢模塊進(jìn)行查詢，并撥出電話號(hào)碼。如果此時(shí)需要進(jìn)行語(yǔ)音識(shí)別，則再長(zhǎng)按一次聯(lián)系人鍵11，則與前述長(zhǎng)按的功效一樣，打開(kāi)語(yǔ)音輸入裝置，啟動(dòng)錄音界面51，等待用戶語(yǔ)音輸入；語(yǔ)音輸入裝置檢測(cè)到用戶語(yǔ)音后將錄音數(shù)據(jù)輸入到語(yǔ)音識(shí)別引擎進(jìn)行處理和識(shí)別，然后加載識(shí)別結(jié)果界面，將識(shí)別的候選結(jié)果集置入到該識(shí)別結(jié)果界面中，同時(shí)關(guān)閉錄音界面5I；用戶在結(jié)果集選擇正確的聯(lián)系人，按鍵撥出其電話號(hào)碼。
如圖3，上述語(yǔ)音識(shí)別引擎的工作流程為語(yǔ)音端點(diǎn)檢測(cè)模塊采用時(shí)域能量門限對(duì)輸入的錄音數(shù)據(jù)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)，其方法為首先對(duì)輸入的錄音數(shù)據(jù)進(jìn)行模糊聚類分析確定高能量門限和低能量門限，先找到有連續(xù)數(shù)幀的能量高于高能量門限，確定為語(yǔ)音段中心，然后向前找到連續(xù)數(shù)幀的能量低于低能量門限，則定為語(yǔ)音段的起點(diǎn)，再向后搜尋，找到連續(xù)數(shù)幀的能量低于低能量門限，則確定為語(yǔ)音段的終點(diǎn)，輸出該語(yǔ)音段到MFCC語(yǔ)音特征提取模塊，該MFCC語(yǔ)音特征提取模塊先將語(yǔ)音信號(hào)通過(guò)FFT變換到頻譜上，按Me1濾波器求取能量，并經(jīng)過(guò)逆DCT變換得到14維MFCC系數(shù)，加上歸一化幀能量以及它們的一階和二階差分，形成45維MFCC特征矢量，輸出該45維MFCC特征矢量，傳遞到搜索算法模塊，搜索算法模塊利用事先訓(xùn)練得到的聲學(xué)模型參數(shù)，采用直接匹配和樹(shù)搜索的方法，搜索出最優(yōu)路徑，得到候選結(jié)果集以及每個(gè)候選結(jié)果的聲學(xué)得分，然后將該候選結(jié)果集和對(duì)應(yīng)聲學(xué)得分輸入到置信拒識(shí)模塊，該置信拒識(shí)模塊對(duì)于每一個(gè)候選結(jié)果都會(huì)根據(jù)其聲學(xué)得分計(jì)算出一個(gè)置信度值，置信度值可以由下式計(jì)算出，其中o為觀測(cè)矢量序列即MFCC特征矢量，wi為首選結(jié)果聲學(xué)得分，wj為其它候選結(jié)果聲學(xué)得分，C(wi)為對(duì)應(yīng)首選結(jié)果的置信度值，C(wi)=p(wi|o)=p(o|wi)Σjp(o|wj)]]>拒識(shí)門限是開(kāi)放的，可以根據(jù)實(shí)際情況設(shè)定拒識(shí)門限，置信度值在拒識(shí)門限之外的結(jié)果為由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞，被排除在最終的識(shí)別結(jié)果之外，從而得到識(shí)別結(jié)果集，但是該識(shí)別結(jié)果是漢字拼音，將這些拼音通過(guò)音字映射表獲得最終所要的聯(lián)系人識(shí)別結(jié)果集。
如圖6，識(shí)別結(jié)果界面可以分為兩個(gè)部分，上部界面61為二維表格，分成三列，分別是姓名、電話類型、電話號(hào)碼，顯示的是置信度最高的幾個(gè)記錄，默認(rèn)是首選記錄，用戶可以通過(guò)點(diǎn)擊目標(biāo)記錄的姓名字段或點(diǎn)擊電話號(hào)碼字段撥打出去；下部界面62顯示的是置信度稍低一些的幾個(gè)侯選記錄，供用戶選擇，用戶選擇完后相應(yīng)的記錄顯示在上部界面，用戶再選擇撥打。
如圖7，識(shí)別結(jié)果界面也可以設(shè)計(jì)成單元格形式，即整個(gè)屏幕按照候選結(jié)果分割成若干個(gè)單元格71，每個(gè)單元格放置一條記錄，單元格71內(nèi)頂端為聯(lián)系人姓名框72，用于顯示聯(lián)系人姓名，灰色黑底，激活時(shí)為藍(lán)底白字，操作方向鍵時(shí)，不停留在該區(qū)域，手寫(xiě)筆點(diǎn)擊該區(qū)域時(shí)，相當(dāng)于點(diǎn)擊該用戶的第一個(gè)激活字段；單元格71的其他部分根據(jù)該聯(lián)系人的電話號(hào)碼個(gè)數(shù)分割成若干個(gè)可撥號(hào)字段73，可撥號(hào)字段73內(nèi)顯示電話類型名稱及其號(hào)碼，占用2行，外框虛線，如果成為激活字段74時(shí)則為實(shí)線，寬度加寬，也可增加陰影效果，操作“撥出電話鍵”或者“確認(rèn)鍵”，則啟動(dòng)撥號(hào)模塊，撥打激活字段74對(duì)應(yīng)的電話號(hào)碼；操作上、下方向鍵時(shí)，將在激活字段74所在單元格切換激活字段，如果超出單元格范圍，則切換到另一單元格中；同樣，左右方向鍵則是切換激活字段所在行的位置；手寫(xiě)筆點(diǎn)擊撥號(hào)字段區(qū)域，則激活該區(qū)域，并啟動(dòng)撥號(hào)模塊。若文本超出了顯示的范圍，則需要對(duì)文本進(jìn)行特殊的顯示處理，如加入“…”以便更直觀地顯示。
另外，無(wú)論是圖6還是圖7所示的識(shí)別結(jié)果界面，用戶在選擇激活聯(lián)系人的其中一個(gè)電話類型時(shí)，都可以有兩種方式選擇，即直接通過(guò)手按方式和通過(guò)語(yǔ)音識(shí)別方式，語(yǔ)音識(shí)別方式是識(shí)別用戶說(shuō)出的電話類型文字的語(yǔ)音。
在識(shí)別結(jié)果界面中，只要用戶切換到其它應(yīng)用程序(包括撥打電話、退回電話本功能等)，識(shí)別結(jié)果界面將自動(dòng)結(jié)束關(guān)閉，而聯(lián)系人界面依然存在。
以上是本發(fā)明的一個(gè)優(yōu)選實(shí)施例，但是本發(fā)明對(duì)于所有的移動(dòng)終端，包括手機(jī)、PDA、掌上電腦，我們都可以利用相同的方法設(shè)計(jì)出相似和相仿的應(yīng)用來(lái)，進(jìn)一步，這樣的方法還可以擴(kuò)展到對(duì)移動(dòng)終端的菜單控制、語(yǔ)音記事本等許多方面，因此其實(shí)用性和推廣價(jià)值是很明顯的。
權(quán)利要求
1.一種移動(dòng)終端語(yǔ)音電話本系統(tǒng)，包括一個(gè)具有語(yǔ)音輸入裝置的移動(dòng)終端和一個(gè)語(yǔ)音電話本模塊，該移動(dòng)終端設(shè)有一聯(lián)系人鍵，其特征在于該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊，其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面組成；而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征提取模塊、搜索算法模塊、置信度拒識(shí)模塊、音字映射表；該系統(tǒng)的工作流程是這樣的系統(tǒng)得到聯(lián)系人鍵按下的消息，啟動(dòng)聯(lián)系人界面并加載傳統(tǒng)查詢模塊和語(yǔ)音查詢模塊，同時(shí)判斷是長(zhǎng)按還是短按；如果是長(zhǎng)按，則自動(dòng)打開(kāi)語(yǔ)音輸入裝置，啟動(dòng)錄音界面，等待用戶語(yǔ)音輸入；如果是短按，則用戶可以通過(guò)傳統(tǒng)查詢模塊進(jìn)行查詢，并撥出電話號(hào)碼；如果此時(shí)需要進(jìn)行語(yǔ)音識(shí)別，可以再長(zhǎng)按一次聯(lián)系人鍵，則打開(kāi)語(yǔ)音輸入裝置，啟動(dòng)錄音界面，等待用戶語(yǔ)音輸入；語(yǔ)音輸入裝置檢測(cè)到用戶語(yǔ)音后將錄音數(shù)據(jù)輸入到語(yǔ)音識(shí)別引擎進(jìn)行處理和識(shí)別，然后加載識(shí)別結(jié)果界面，將識(shí)別的候選結(jié)果集置入到該識(shí)別結(jié)果界面中，同時(shí)關(guān)閉錄音界面；用戶在結(jié)果集選擇正確的聯(lián)系人，按鍵撥出其電話號(hào)碼。
2.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型。
3.如權(quán)利要求2所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的基于段長(zhǎng)分布的隱含馬爾可夫模型以半音節(jié)為建模單元，即一個(gè)漢語(yǔ)普通話單音節(jié)被分為前半部分和后半部分，接近于聲母和韻母，同時(shí)考慮了零聲母的情況，前半部分被細(xì)分為兩個(gè)模型狀態(tài)，后半部分被細(xì)分為四個(gè)模型狀態(tài)，并且每個(gè)模型狀態(tài)的觀測(cè)矢量分布概率密度函數(shù)采用混合高斯分布進(jìn)行擬合，采用K均值算法對(duì)模型參數(shù)進(jìn)行訓(xùn)練。
4.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的錄音界面在移動(dòng)終端屏幕的中間，是一個(gè)彈出的具有一定時(shí)間限制的小窗口，其中包括一段文本說(shuō)明，以及一個(gè)進(jìn)度條，用戶在該時(shí)間內(nèi)進(jìn)行語(yǔ)音呼叫，超過(guò)該時(shí)間限制則所述的錄音界面自動(dòng)關(guān)閉。
5.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的語(yǔ)音識(shí)別引擎的工作流程為語(yǔ)音端點(diǎn)檢測(cè)模塊對(duì)輸入的錄音數(shù)據(jù)截取待識(shí)別的語(yǔ)音段，該語(yǔ)音段輸入到MFCC語(yǔ)音特征提取模塊，輸出45維MFCC特征矢量，傳遞到搜索算法模塊，搜索算法模塊利用事先訓(xùn)練得到的聲學(xué)模型參數(shù)，搜索出最優(yōu)路徑，得到候選結(jié)果集以及每個(gè)候選結(jié)果的聲學(xué)得分，然后將該候選結(jié)果集和對(duì)應(yīng)聲學(xué)得分輸入到置信拒識(shí)模塊，置信拒識(shí)模塊對(duì)由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞予以排除，得到識(shí)別結(jié)果集，但是該識(shí)別結(jié)果是漢字拼音，將這些拼音通過(guò)音字映射表獲得最終所要的聯(lián)系人識(shí)別結(jié)果集。
6.如權(quán)利要求1或5所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的語(yǔ)音端點(diǎn)檢測(cè)模塊采用時(shí)域能量門限進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)，其工作流程為首先對(duì)輸入的錄音數(shù)據(jù)進(jìn)行模糊聚類分析確定高能量門限和低能量門限，先找到有連續(xù)數(shù)幀的能量高于高能量門限，確定為語(yǔ)音段中心；然后向前找到連續(xù)數(shù)幀的能量低于低能量門限，則定為語(yǔ)音段的起點(diǎn)；再向后搜尋，找到連續(xù)數(shù)幀的能量低于低能量門限，則確定為語(yǔ)音段的終點(diǎn)。
7.如權(quán)利要求1或5所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的搜索算法模塊采用直接匹配和樹(shù)搜索的方法實(shí)現(xiàn)。
8.如權(quán)利要求1或5所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的置信拒識(shí)模塊對(duì)候選結(jié)果拒識(shí)的方法是該置信拒識(shí)模塊對(duì)于每一個(gè)候選結(jié)果都會(huì)根據(jù)其聲學(xué)得分計(jì)算出一個(gè)置信度值，置信度值可以由下式計(jì)算出，其中o為觀測(cè)矢量序列即MFCC特征矢量，wi為首選結(jié)果聲學(xué)得分，wj為其它候選結(jié)果聲學(xué)得分，C(wi)為對(duì)應(yīng)首選結(jié)果的置信度值，C(wi)=p(wi|o)=p(o|wi)Σjp(o|wj)]]>置信拒識(shí)模塊有一個(gè)預(yù)先設(shè)定的拒識(shí)門限參數(shù)，該拒識(shí)門限參數(shù)是開(kāi)放的，可以根據(jù)實(shí)際情況設(shè)定拒識(shí)門限，置信度值在拒識(shí)門限之外的結(jié)果為由于非語(yǔ)音信號(hào)進(jìn)入識(shí)別系統(tǒng)后得到的識(shí)別結(jié)果和用戶說(shuō)的集外詞，被排除在最終的識(shí)別結(jié)果之外。
9.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的識(shí)別結(jié)果界面分為上下兩個(gè)部分，上部界面為二維表格，分成三列，分別是姓名、電話類型、電話號(hào)碼，顯示的是置信度最高的幾個(gè)記錄，用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去；下部界面顯示的是置信度稍低一些的幾個(gè)侯選姓名，用戶選擇某侯選姓名后相應(yīng)的記錄信息顯示在上部界面。
10.如權(quán)利要求1所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于所述的識(shí)別結(jié)果界面設(shè)計(jì)成單元格形式，整個(gè)界面按照候選結(jié)果分割成若干個(gè)單元格，每個(gè)單元格放置一條記錄，單元格內(nèi)頂端為聯(lián)系人姓名框，單元格的其他部分根據(jù)該聯(lián)系人的電話號(hào)碼個(gè)數(shù)分割成若干個(gè)可撥號(hào)字段，可撥號(hào)字段內(nèi)顯示電話類型名稱及其號(hào)碼，用戶可以選擇激活聯(lián)系人的其中一個(gè)電話類型對(duì)應(yīng)的電話號(hào)碼撥打出去。
11.如權(quán)利要求9或10所述的移動(dòng)終端語(yǔ)音電話本系統(tǒng)，其特征在于用戶在選擇激活聯(lián)系人的其中一個(gè)電話類型時(shí)，可以有兩種方式選擇，即直接通過(guò)手按方式和通過(guò)語(yǔ)音識(shí)別方式，語(yǔ)音識(shí)別方式是識(shí)別用戶說(shuō)出的電話類型文字的語(yǔ)音。
全文摘要
本發(fā)明提供了一種移動(dòng)終端語(yǔ)音電話本系統(tǒng)，包括一個(gè)具有語(yǔ)音輸入裝置的移動(dòng)終端和一個(gè)語(yǔ)音電話本模塊，該移動(dòng)終端設(shè)有一聯(lián)系人鍵，該語(yǔ)音電話本模塊包括聯(lián)系人主界面、傳統(tǒng)查詢模塊、語(yǔ)音查詢模塊，其中語(yǔ)音查詢模塊又由錄音界面、語(yǔ)音識(shí)別引擎、識(shí)別結(jié)果界面組成；而語(yǔ)音識(shí)別引擎又包括語(yǔ)音端點(diǎn)檢測(cè)模塊、MFCC語(yǔ)音特征提取模塊、搜索算法模塊、置信度拒識(shí)模塊、音字映射表；語(yǔ)音識(shí)別引擎采用基于段長(zhǎng)分布的隱含馬爾可夫模型；用戶長(zhǎng)按聯(lián)系人鍵，則啟動(dòng)電話本的語(yǔ)音查詢模塊；短按聯(lián)系人鍵，則啟動(dòng)傳統(tǒng)查詢模塊。本發(fā)明針對(duì)非特定人的，具有通用性、方便性、準(zhǔn)確率高、識(shí)別容量大等優(yōu)點(diǎn)。
文檔編號(hào)H04M1/725GK1509107SQ0215686
公開(kāi)日2004年6月30日申請(qǐng)日期2002年12月19日優(yōu)先權(quán)日2002年12月19日
發(fā)明者吳及, 汪勇, 孫瓊, 趙慶衛(wèi), 及吳申請(qǐng)人:北京天朗語(yǔ)音科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳及、汪勇、孫瓊、趙慶衛(wèi)
技術(shù)所有人：北京天朗語(yǔ)音科技有限公司
我是此專利的發(fā)明人

上一篇：一種模塊化的數(shù)字電視機(jī)頂盒的制作方法
上一篇：一種擴(kuò)大小區(qū)覆蓋范圍的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

移動(dòng)終端定制管理平臺(tái)相關(guān)技術(shù)

智能移動(dòng)終端相關(guān)技術(shù)

河南移動(dòng)終端b2b平臺(tái)相關(guān)技術(shù)

中國(guó)移動(dòng)通信終端相關(guān)技術(shù)

云南移動(dòng)終端訂貨系統(tǒng)相關(guān)技術(shù)

移動(dòng)終端系統(tǒng)相關(guān)技術(shù)

移動(dòng)終端安全準(zhǔn)入系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

移動(dòng)終端語(yǔ)音電話本系統(tǒng)的制作方法