專利名稱:一種基于語音識別的郵箱系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù),具體涉及一種基于語音識別的郵箱系統(tǒng)。
背景技術(shù):
語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或 命令的技術(shù)。
傳統(tǒng)的郵件系統(tǒng)搜索都是基于文本信息的,人們利用移動終端或PC等通信終
端與郵箱服務(wù)器進(jìn)行消息通信,收發(fā)和査詢郵件等,沒有充分利用到這些終端所具 備的語音的功能。
隨著現(xiàn)代生活節(jié)奏加快,計(jì)算、通信、娛樂等技術(shù)的迅速發(fā)展以及寬帶網(wǎng)絡(luò)進(jìn) 入家庭,人們對快捷方便的信息搜索系統(tǒng)需求越來越明顯。尤其是針對電子郵箱這 種現(xiàn)代生活中使用頻繁,郵箱郵件的搜索不論有私人生活還是各式各樣的商業(yè)活動 中,都不可或缺的應(yīng)用,但由于各種原因,人們不會長時(shí)間保持坐在電腦面前上網(wǎng) 或者時(shí)刻帶著個(gè)手提上網(wǎng),而電話等通信工具卻是時(shí)刻伴隨著,傳統(tǒng)的郵箱系統(tǒng)基 于網(wǎng)絡(luò)文本信息來搜索,沒有充分利用到自然語言。
綜上所述,充分利用自然語言的方便性,快捷方便的改進(jìn)對電子郵箱中郵件的 搜索無疑非常迎合現(xiàn)代人們的生活所需。
發(fā)明內(nèi)容
本發(fā)明充分考慮到了自然語言是人類交流信息的工具,通過利用自然語言的語 音信息來與郵箱系統(tǒng)進(jìn)行信息交流,簡化操作。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下
本發(fā)明提出一種基于語音識別的郵箱系統(tǒng),涉及一種利用語音識別技術(shù)來進(jìn)行 處理郵件查詢的系統(tǒng)。該語音識別的郵箱系統(tǒng)包括査詢終端、虛擬身份模塊、語音 信息處理模塊、語音信息校驗(yàn)?zāi)K、語音文本互換模塊、査詢處理模塊、郵箱服務(wù) 器及其郵件倉庫。
查詢終端是可采集語音數(shù)據(jù)的電子設(shè)備,包括移動手機(jī)、帶語音輸入的便攜式 手提或PC以及其他各種可采集語音數(shù)據(jù)的設(shè)備。主要功能是實(shí)現(xiàn)對終端的特定語 音的釆集并數(shù)字化,其所采集的語音數(shù)據(jù)要求與虛擬身份模塊相連的語音數(shù)字?jǐn)?shù)據(jù) 的語言種類相一致,實(shí)現(xiàn)向郵件服務(wù)器發(fā)出査詢請求,發(fā)送用戶終端的安全身份驗(yàn)證信息、IP地址信息、控制命令連接請求等。
虛擬身份模塊將個(gè)人身份、聯(lián)系方式、語音信息和住所等虛擬化,提供唯一的 虛擬號碼,這個(gè)虛擬號碼具有通信設(shè)備的物理端口的無關(guān)性,當(dāng)用戶更改其私人信 息時(shí),通過初始設(shè)定的安全信息校驗(yàn)進(jìn)行更改,并使更改后的信息與此虛擬號碼相 關(guān)聯(lián),但不改變對每個(gè)査詢終端具有唯一性的虛擬號碼。
語音信息處理模塊利用語音處理技術(shù)對終端采集到的語音數(shù)據(jù)進(jìn)行處理,包括 頻譜整形平穩(wěn)性處理、濾波處理、去無效冗余幀及抽取語音識別模型的特定參數(shù)存 儲處理。
所述的抽取識別模型采用基于音素隱含馬爾科夫模型(Hidden Markov Model, HMM),在利用隱含馬爾科夫模型解決語言處理問題前,先進(jìn)行模型的訓(xùn)練,實(shí)現(xiàn) 基于協(xié)同發(fā)音上下文相關(guān)建模,針對一個(gè)音受前后相鄰音的影響而發(fā)生的變化, 使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異來進(jìn)行語音識別,實(shí)現(xiàn)基于 音節(jié)發(fā)音變化詞典的方法進(jìn)行識別語音數(shù)字?jǐn)?shù)據(jù)信息。
用所述的語音數(shù)字?jǐn)?shù)據(jù)信息由用戶終端所采集到的、經(jīng)語音信息處理模塊作了 相應(yīng)處理后所得,數(shù)字?jǐn)?shù)據(jù)信息與語音識別模型進(jìn)行模式匹配,通過N-bestViterbi 幀同步搜索方法,得到最好的識別結(jié)果,具有識別率高的特點(diǎn)。
語音信息校驗(yàn)?zāi)K把所述的語音信息處理模塊傳來的語音數(shù)據(jù)信息與語音識別 模型數(shù)據(jù)進(jìn)行模式匹配,利用聲學(xué)特征的Mel倒譜系數(shù),對兩個(gè)或多個(gè)頻率相近 的音調(diào)同時(shí)發(fā)出時(shí),并當(dāng)這兩個(gè)或多個(gè)音調(diào)的頻率差不小于Mel倒譜系數(shù)可測 范圍內(nèi)臨界帶寬時(shí),Mel刻度可以區(qū)別這兩種語音數(shù)據(jù),區(qū)分不同語音數(shù)據(jù)來 實(shí)現(xiàn)語音信息校驗(yàn)。
所述的語音文本互換模塊,用戶可以從査詢終端中收聽E-mail,也可以將一些目 標(biāo)郵件錄音直接轉(zhuǎn)換為文本進(jìn)行存儲。其功能包括把語音數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)化成文本信息, 把郵件中的文本信息轉(zhuǎn)化成與虛擬身份模塊相連的語音數(shù)字?jǐn)?shù)據(jù)的語言種類相一致 的語音數(shù)據(jù)信息,實(shí)現(xiàn)語音識別和語音文本的雙向轉(zhuǎn)換。
査詢處理模塊,根據(jù)用戶終端所提出的操作要求,可以進(jìn)行的操作有查詢、刪 除、寫郵件、發(fā)郵件等操作。所述的查詢處理模塊與所述的郵箱服務(wù)器相連,實(shí)現(xiàn) 對査詢請求的預(yù)處理和滿足用戶終端所提出的操作要求。
所述的郵箱服務(wù)器與郵件倉庫相連,與其進(jìn)行數(shù)據(jù)交換、備份的操作。
本發(fā)明的有益效果是(1) 、識別率高,系統(tǒng)的語音初始數(shù)據(jù)由用戶終端所采集得到,在利用隱含馬 爾科夫模型解決語言處理問題前,先進(jìn)行模型的訓(xùn)練,并經(jīng)語音信息處理模塊作了 相應(yīng)處理后得到數(shù)字化數(shù)據(jù)信息后,與語音識別模型進(jìn)行模式匹配,通過N-best Viterbi幀同步搜索方法,具有較高的識別率;
(2) 、安全性好,本發(fā)明基于語音識別的郵箱系統(tǒng)利用虛擬身份模塊將個(gè)人身 份、聯(lián)系方式、語音信息和住所虛擬化,有利于操作的安全處理;
(3) 、本發(fā)明基于語音識別的郵箱系統(tǒng)與現(xiàn)在技術(shù)相比,具有高適應(yīng)性,平臺 無關(guān)性,本發(fā)明各個(gè)模塊低耦合、高內(nèi)聚,模塊通信通過處理過的數(shù)字語音數(shù)據(jù), 實(shí)現(xiàn)模塊功能高度獨(dú)立性;
(4) 、部署靈活,部署實(shí)現(xiàn)時(shí)按實(shí)際需求,可靈活擴(kuò)展,具有很強(qiáng)的靈活性;
(5) 、實(shí)現(xiàn)對郵箱中郵件的信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將郵件的信息 非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù)。
下面將結(jié)合實(shí)施例和附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述
圖1是本發(fā)明實(shí)施例的結(jié)構(gòu)組成框圖2是本發(fā)明實(shí)施例的工作流程框圖3是本發(fā)明的虛擬身份數(shù)據(jù)庫結(jié)構(gòu)圖4是本發(fā)明中語音文本互換模塊細(xì)化結(jié)構(gòu)圖。
具體實(shí)施例方式
以下參照附圖對本發(fā)明進(jìn)行更加全面的描述。
下面結(jié)合圖1 圖2對本發(fā)明成熟型的實(shí)施例給予詳盡的描述。
本發(fā)明提出的一種基于語音識別的郵箱系統(tǒng),其核心思想是當(dāng)各種終端與郵箱 服務(wù)器通過綜合網(wǎng)絡(luò)聯(lián)網(wǎng)時(shí),可以通過采用有線通訊網(wǎng)或無線網(wǎng)絡(luò)、移動網(wǎng)絡(luò),利 用語音識別技術(shù)來進(jìn)行郵件的査詢。該系統(tǒng)通過查詢終端、虛擬身份模塊、語音信 息處理模塊、語音信息校驗(yàn)?zāi)K、語音文本互換模塊、査詢處理模塊、郵箱服務(wù)器 及其郵件倉庫等模塊相互協(xié)作完成整個(gè)系統(tǒng)的工作。
其主要的實(shí)現(xiàn)步驟如下.-(1)如圖1所示,査詢終端是可采集語音數(shù)據(jù)的電子設(shè)備。査詢終端首先提出 査詢請求(如圖2中流程圖所示),以語音錄入方式,如用手機(jī)提出該請求時(shí),査詢 終端實(shí)現(xiàn)對終端的特定語音的采集并數(shù)字化,其所采集的語音數(shù)據(jù)要求與虛擬身份模塊相連的語音數(shù)字?jǐn)?shù)據(jù)的語言種類相一致。
(2) 如圖1所示,虛擬身份模塊通過査詢終端發(fā)來的所采集的語音數(shù)據(jù)來關(guān)聯(lián)
其所連接的虛擬身份數(shù)據(jù)庫所提供唯一的虛擬號碼,并斷定其安全性和合法性。這 個(gè)虛擬號碼具有通信設(shè)備的物理端口的無關(guān)性。當(dāng)用戶更改其私人信息時(shí),通過初 始設(shè)定的安全信息校驗(yàn)進(jìn)行更改,并使更改后的信息與此虛擬號碼相關(guān)聯(lián),但不改 變這個(gè)對每個(gè)査詢終端具有唯一性的虛擬號碼。
(3) 如圖1所示,語音信息處理模塊,它對所接收到的終端采集到語音數(shù)據(jù)利 用相應(yīng)語音處理技術(shù)進(jìn)行處理,包括頻譜整形平穩(wěn)性處理、濾波處理、去無效冗余 幀及抽取語音識別模型的特定參數(shù)存儲處理。所述的語音信息處理模塊(如圖l所 示,)與語音信息校驗(yàn)?zāi)K和語音文本互換模塊相連接。所述的識別模型采用基于音 素隱含的馬爾科夫模型(Hidden Markov Model, HMM),利用協(xié)同發(fā)音上下文相關(guān) 建模,根據(jù)一個(gè)音受前后相鄰音的影響而發(fā)生變化,從而使得后一個(gè)音的頻譜 與其他條件下的頻譜產(chǎn)生差異來進(jìn)行語音識別。用所述的由用戶終端所采集到的 經(jīng)語音信息處理模塊作了相應(yīng)的處理后的數(shù)字?jǐn)?shù)據(jù)信息與語音識別模型進(jìn)行模式匹 配,通過N-bestViterbi幀同步搜索方法,得到最好的識別結(jié)果。具有識別率高的特 點(diǎn)。當(dāng)然,在利用隱含馬爾可夫模型解決語言處理問題前,先要進(jìn)行模型的訓(xùn)練。
(4) 語音信息校驗(yàn)?zāi)K把所述的語音信息處理模塊傳來的語音數(shù)據(jù)信息與語音 識別模型數(shù)據(jù)進(jìn)行模式匹配,利用聲學(xué)特征的Mel倒譜系數(shù),對兩個(gè)或多個(gè)頻率 相近的音調(diào)同時(shí)發(fā)出時(shí),并當(dāng)這兩個(gè)或多個(gè)音調(diào)的頻率差不小于Mel倒譜系數(shù) 可測范圍內(nèi)臨界帶寬時(shí),Mel刻度可以區(qū)別這兩種語音數(shù)據(jù),區(qū)分不同語音數(shù) 據(jù)來實(shí)現(xiàn)語音信息校驗(yàn)。
(5) 如圖1所示,語音文本互換模塊,根據(jù)數(shù)據(jù)傳輸方向(用戶終端向郵箱服 務(wù)器還是郵箱服務(wù)器向用戶終端返回查詢結(jié)果)實(shí)現(xiàn)語音識別和語音文本的轉(zhuǎn)換, 這樣一來,用戶可以從查詢終端中收聽E-mail,也可以將一些目標(biāo)郵件錄音直接轉(zhuǎn)換 為文本進(jìn)行存儲。
(6) 如圖2所示,查詢處理,針對用戶終端所提出的操作要求,可以進(jìn)行的操 作有査詢、刪除、寫郵件、發(fā)郵件等操作。所述的查詢處理模塊與所述的郵箱服務(wù) 器相連,實(shí)現(xiàn)對査詢請求的預(yù)處理和針對用戶終端所提出的操作要求,可以進(jìn)行的 操作有査詢、刪除、寫郵件、發(fā)郵件等操作。
(7) 如圖l所示,郵箱服務(wù)器與郵件倉庫相連,與其進(jìn)行數(shù)據(jù)交換、備份的操作。并實(shí)現(xiàn)對郵箱中郵件的信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將郵件的信息非結(jié) 構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù)。
權(quán)利要求
1、一種基于語音識別的郵箱系統(tǒng),包括查詢終端、虛擬身份模塊、語音信息處理模塊、語音信息校驗(yàn)?zāi)K、語音文本互換模塊、查詢處理模塊、郵箱服務(wù)器及其郵件倉庫,其特征在于查詢終端是采集語音數(shù)據(jù)的電子設(shè)備,包括移動手機(jī)、帶語音輸入的便攜式手提或PC以及各種可采集語音數(shù)據(jù)的設(shè)備,主要功能是實(shí)現(xiàn)對終端的特定語音的采集并數(shù)字化,其所采集的語音數(shù)據(jù)要求與虛擬身份模塊相連的語音數(shù)字?jǐn)?shù)據(jù)的語言種類相一致,實(shí)現(xiàn)向郵件服務(wù)器發(fā)出查詢請求,發(fā)送用戶終端的安全身份驗(yàn)證信息、IP地址信息、控制命令連接請求;虛擬身份模塊將個(gè)人身份、聯(lián)系方式、語音信息和住所虛擬化,提供唯一的虛擬號碼,這個(gè)虛擬號碼具有通信設(shè)備的物理端口的無關(guān)性,當(dāng)用戶更改其私人信息時(shí),通過初始設(shè)定的安全信息校驗(yàn)進(jìn)行更改,并使更改后的信息與此虛擬號碼相關(guān)聯(lián),但不改變對每個(gè)查詢終端具有唯一性的虛擬號碼;語音信息處理模塊利用語音處理技術(shù)對終端采集到的語音數(shù)據(jù)進(jìn)行處理,包括頻譜整形平穩(wěn)性處理、濾波處理、去無效冗余幀及抽取語音識別模型的特定參數(shù)存儲處理;所述的抽取識別模型采用基于音素隱含馬爾科夫模型,在利用隱含馬爾科夫模型解決語言處理問題前,先進(jìn)行模型的訓(xùn)練,實(shí)現(xiàn)基于協(xié)同發(fā)音上下文相關(guān)建模,針對一個(gè)音受前后相鄰音的影響而發(fā)生的變化,使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異來進(jìn)行語音識別,實(shí)現(xiàn)基于音節(jié)發(fā)音變化詞典的方法進(jìn)行識別語音數(shù)字?jǐn)?shù)據(jù)信息;用所述的語音數(shù)字?jǐn)?shù)據(jù)信息由用戶終端所采集到的、經(jīng)語音信息處理模塊作了相應(yīng)處理后所得,數(shù)字?jǐn)?shù)據(jù)信息與語音識別模型進(jìn)行模式匹配,通過N-best Viterbi幀同步搜索方法,得到識別結(jié)果;語音信息校驗(yàn)?zāi)K把所述的語音信息處理模塊傳來的語音數(shù)據(jù)信息與語音識別模型數(shù)據(jù)進(jìn)行模式匹配,利用聲學(xué)特征的Mel倒譜系數(shù),對兩個(gè)或多個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),并當(dāng)這兩個(gè)或多個(gè)音調(diào)的頻率差不小于Mel倒譜系數(shù)可測范圍內(nèi)臨界帶寬時(shí),Mel刻度區(qū)別這兩種語音數(shù)據(jù),以區(qū)分不同語音數(shù)據(jù)來實(shí)現(xiàn)語音信息校驗(yàn);所述的語音文本互換模塊,用戶從查詢終端中收聽E-mail,將一些目標(biāo)郵件錄音直接轉(zhuǎn)換為文本進(jìn)行存儲,其功能包括把語音數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)化成文本信息,把郵件中的文本信息轉(zhuǎn)化成與虛擬身份模塊相連的語音數(shù)字?jǐn)?shù)據(jù)的語言種類相一致的語音數(shù)據(jù)信息,實(shí)現(xiàn)語音識別和語音文本的雙向轉(zhuǎn)換;查詢處理模塊,根據(jù)用戶終端所提出的操作要求,進(jìn)行的操作有查詢、刪除、寫郵件、發(fā)郵件,所述的查詢處理模塊與所述的郵箱服務(wù)器相連,實(shí)現(xiàn)對查詢請求的預(yù)處理和滿足用戶終端所提出的操作要求;所述的郵箱服務(wù)器與郵件倉庫相連,與其進(jìn)行數(shù)據(jù)交換、備份的操作。
全文摘要
本發(fā)明公開了一種基于語音識別的郵箱系統(tǒng)。它涉及一種利用語音識別技術(shù)來查詢處理郵箱中郵件的系統(tǒng)。它涉及一種利用語音識別技術(shù)來進(jìn)行處理郵箱中郵件查詢的系統(tǒng)。該語音識別的郵箱系統(tǒng)包括查詢終端(如移動手機(jī)、帶語音輸入的PC以及其他各種可采集語音數(shù)據(jù)的設(shè)備)、虛擬身份模塊、語音信息處理模塊、語音信息校驗(yàn)?zāi)K、語音文本互換模塊、查詢處理模塊、郵箱服務(wù)器及其郵件倉庫所組成。本發(fā)明基于語音識別的郵箱系統(tǒng)具有識別率高和安全性好,并且與現(xiàn)在技術(shù)相比,具有高適應(yīng)性,平臺無關(guān)性,部署靈活,實(shí)現(xiàn)對郵箱中郵件的信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將郵件的信息非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù)。
文檔編號G10L15/00GK101588322SQ20091004032
公開日2009年11月25日 申請日期2009年6月18日 優(yōu)先權(quán)日2009年6月18日
發(fā)明者寧 劉, 曹旦森, 羅笑南 申請人:中山大學(xué)