識別語音的方法及其電子裝置制造方法
【專利摘要】提供一種識別語音的方法及其電子裝置。所述方法包括:以預(yù)設(shè)時間間隔將語音信號分段為多個片段;通過使用第一聲學(xué)模型來執(zhí)行針對語音信號的多個片段中的一個片段的音素識別;通過使用音素識別結(jié)果來提取所述語音信號的多個片段中的所述一個片段的候選詞語;通過使用候選詞語來執(zhí)行針對所述語音信號的多個片段中的所述一個片段的語音識別。
【專利說明】識別語音的方法及其電子裝置
[0001]本申請要求于2012年7月13日提交到韓國知識產(chǎn)權(quán)局的第10-2012-0076809號韓國專利申請的優(yōu)先權(quán),其公開通過引用全部合并于此。
【技術(shù)領(lǐng)域】
[0002]與示例性實(shí)施例一致的方法和設(shè)備總體涉及識別語音,更具體地講,涉及通過使用聲學(xué)模型、語言模型和發(fā)音字典識別用戶發(fā)出的語音。
【背景技術(shù)】 [0003]通過使用電子裝置(諸如,智能電話、導(dǎo)航系統(tǒng)等)來控制語音識別。隨著電子裝置的硬件性能的提高以及用戶對于語音識別的需求程度的增加,用戶環(huán)境已經(jīng)從用許多現(xiàn)有的命令識別用戶的語音的孤立詞語識別方法改變?yōu)樽R別多種自然語言的連續(xù)語音識別方法。
[0004]連續(xù)語音識別方法從數(shù)十萬到數(shù)百萬詞語中識別包括至少一個詞語的詞語串,并針對所有可用詞語形成搜索空間。連續(xù)語音識別方法通過使用包括聲學(xué)模型、語言模型和發(fā)音字典的信息來計算概率,以確定相應(yīng)的發(fā)音是否是句子的類型,并根據(jù)計算結(jié)果獲得識別的句子。
[0005]然而,在連續(xù)語音識別方法中,搜索空間變得更大,因此,存儲需求增加。由于計算次數(shù)的增加,語音識別是不可行的或者可能被極大地降低。
[0006]因此,需要快速識別多種自然語言的語音識別方法。
【發(fā)明內(nèi)容】
[0007]示例性實(shí)施例解決至少上述問題和/或缺點(diǎn)以及上面未描述的其它缺點(diǎn)。另外,示例性實(shí)施例不需要克服上述缺點(diǎn),并且示例性實(shí)施例可不克服任何上述問題。
[0008]示例性實(shí)施例提供一種進(jìn)一步快速識別多種自然語言的語音識別方法及其電子
>J-U ρ?α裝直。
[0009]根據(jù)示例性實(shí)施例的一方面,提供一種在電子裝置中識別語音的方法。所述方法可包括:以預(yù)設(shè)時間間隔將語音信號分段為多個片段;基于第一聲學(xué)模型來執(zhí)行針對語音信號的多個片段中的一個片段的音素識別;基于音素識別的結(jié)果來提取所述語音信號的多個片段中的所述一個片段的候選詞語;基于候選詞語來執(zhí)行針對所述多個片段中的所述一個片段的語音識別。
[0010]執(zhí)行音素識別的步驟可還包括:基于分段的維特比算法來刪除所述語音信號的多個片段中的所述一個片段的多個音素的至少一個最后音素。刪除的至少一個音素可被用于執(zhí)行針對所述多個片段中的所述一個片段之后的語音信號的下一片段的音素識別。
[0011]提取的步驟可包括:提取與識別的音素發(fā)音相似的相似音素;基于所述相似音素來產(chǎn)生用于提取所述多個片段中的所述一個片段的候選詞語的詞語圖表。
[0012]執(zhí)行語音識別的步驟可還包括:基于第二聲學(xué)模型來計算所述多個片段中的所述一個片段的語音信號的高斯概率;基于第二聲學(xué)模型和語言模型來輸出在詞語圖表中具有最聞概率的詞語串。
[0013]第一聲學(xué)模型和第二聲學(xué)模型可彼此不同。
[0014]可通過不同的核并行執(zhí)行音素識別的執(zhí)行、提取和語音識別的執(zhí)行。
[0015]根據(jù)另一示例性實(shí)施例的一方面,提供一種電子裝置,包括:語音信號輸入部件,被配置為接收語音信號;語音信號分段器,被配置為以預(yù)設(shè)時間間隔將通過語音信號輸入部件輸入的語音信號分段為多個片段;音素識別器,被配置為基于第一聲學(xué)模型來執(zhí)行針對語音信號的多個片段中的一個片段的音素識別;候選詞語提取器,被配置為基于音素識別的結(jié)果來提取所述語音信號的多個片段中的所述一個片段的候選詞語;語音識別器,被配置為基于候選詞語來執(zhí)行針對所述多個片段中的所述一個片段的語音識別。
[0016]音素識別器被配置為基于分段的維特比算法來刪除所述語音信號的多個片段中的所述一個片段的多個音素中的至少一個最后音素,以執(zhí)行音素識別。刪除的至少一個音素可被用于執(zhí)行針對所述多個片段中的所述一個片段之后的語音信號的下一片段的音素識別。
[0017]候選詞語提取器被配置為提取與識別的音素發(fā)音相似的相似音素,并基于所述相似音素來產(chǎn)生用于提取所述多個片段中的所述一個片段的候選詞語的詞語圖表。
[0018]語音識別器被配置為基于第二聲學(xué)模型來計算所述多個片段中的所述一個片段的語音信號的高斯概率,并基于第二聲學(xué)模型和語言模型來輸出在詞語圖表中具有最高概率的詞語串,以執(zhí)行語音識別。
[0019]音素識別器的第一聲學(xué)模型和語音識別器的第二聲學(xué)模型可彼此不同。
[0020]音素識別器、候選詞語提取器和語音識別器可被實(shí)現(xiàn)為電子裝置的不同的核。
【專利附圖】
【附圖說明】
[0021]通過參照附圖對特定示例性實(shí)施例的描述,上述和/或其它方面將更加清楚,其中:
[0022]圖1是示出根據(jù)示例性實(shí)施例的用于執(zhí)行語音識別的電子裝置的結(jié)構(gòu)的示意性框圖;
[0023]圖2是示出根據(jù)示例性實(shí)施例的用于識別語音的圖1的電子裝置的詳細(xì)結(jié)構(gòu)的框圖;
[0024]圖3是示出根據(jù)示例性實(shí)施例的處理并行語音識別的方法的示圖;
[0025]圖4是示出根據(jù)示例性實(shí)施例的識別語音的方法的流程圖。
【具體實(shí)施方式】
[0026]參照附圖更加詳細(xì)地描述示例性實(shí)施例。
[0027]在下面的描述中,即使在不同的附圖中,相同的附圖參考標(biāo)號也被用于相同的元件。提供在描述中被限定的內(nèi)容(諸如詳細(xì)的結(jié)構(gòu)和元件)以幫助對示例性實(shí)施例的全面理解。因此,明顯的是,在沒有那些專門定義的內(nèi)容的情況下,示例性實(shí)施例可被執(zhí)行。此外,因?yàn)楣δ芑蚪Y(jié)構(gòu)會用不必要的細(xì)節(jié)模糊示例性實(shí)施例,所以不對公知功能或結(jié)構(gòu)進(jìn)行詳細(xì)描述。[0028]圖1是示出根據(jù)示例性實(shí)施例的用于執(zhí)行語音識別的電子裝置100的結(jié)構(gòu)的示意性框圖。參照圖1,電子裝置100包括:語音信號輸入部件110、語音信號分段器120、音素識別器130、候選詞語提取器140和語音識別器150。根據(jù)本示例性實(shí)施例的電子裝置100可被實(shí)現(xiàn)為各種類型的電子裝置(諸如,智能電話、智能電視(TV)、臺式個人計算機(jī)(PC)、平板PC等)。因此,電子裝置的上述元件可采取全硬件實(shí)施例(諸如,處理器或電路)、全軟件實(shí)施例(包括固件、常駐軟件、微碼等)或組合軟件和硬件的實(shí)施例的形式。
[0029]語音信號輸入部件110接收與用戶發(fā)出的語音相應(yīng)的語音信號。語音信號輸入部件110可包括麥克風(fēng)和用于放大接收到的語音的放大器。然而,通過使用麥克風(fēng)實(shí)時接收語音信號僅是示例性實(shí)施例,因此,語音信號輸入部件110可通過預(yù)存文件接收語音信號。
[0030]語音信號分段器120將語音信號分段多個片段。詳細(xì)地,語音信號分段器120可按照預(yù)設(shè)時間間隔(例如,0.1秒)將語音信號分段為多個片段。
[0031]音素識別器130識別由語音信號分段器120分段的多個片段中的一個片段的語音信號的音素。詳細(xì)地,音素識別器130可通過使用用于音素識別的第一聲學(xué)模型來計算與所述一個片段的語音信號相應(yīng)的特征向量的高斯概率分布,并選擇最佳音素。
[0032]音素識別器130可通過使用分段的維特比算法來刪除所述一個片段的語音信號的多個音素中的至少最后一個音素。詳細(xì)地,由于語音信號分段器120以時間為單位而不是以音素為單位分段語音信號,因此音素識別器130可能不能正確地識別位于所述一個片段的尾部的音素。因此,音素識別器130刪除位于所述一個片段的尾部的至少一個音素,并將刪除的至少一個音素輸出到語音信號分段器120,以使用刪除的至少一個音素用于識別下一片段的音素。
[0033]候選詞語提取器140通過使用從音素識別器130輸出的音素識別結(jié)果來提取識別的音素的候選詞語。詳細(xì)地,候選詞語提取器140提取與從音素識別器130輸出的音素發(fā)音相似的相似音素,并通過使用所述相似音素來產(chǎn)生所述一個片段的語音信號的用于提取候選詞語的詞語圖表。然而,產(chǎn)生所述一個片段的語音信號的詞語圖表來提取候選詞語僅是示例性的,因此,可產(chǎn)生所述一個片段的語音信號的候選詞語列表。候選詞語提取器140將所述一個片段的語音信號的詞語圖表輸出到語音識別器150。
[0034]語音識別器150通過使用候選詞語提取器140提取的候選詞語來執(zhí)行針對所述一個片段的語音信號的語音識別。詳細(xì)地,語音識別器150可在從候選詞語提取器140輸出的詞語圖表中搜索從語音信號分段器120輸出的所述一個片段的語音信號的最佳路徑,以執(zhí)行語音識別。
[0035]音素識別器130、候選詞語提取器140和語音識別器150可在處理器的不同的核或不同處理器中并行操作。換句話說,如果音素識別器130執(zhí)行針對第一片段的語音信號的音素識別,則語音識別器150將第一片段的識別的結(jié)果發(fā)送到候選詞語提取器140,并且執(zhí)行針對第二片段的語音信號的音素識別。候選詞語提取器140基于第一片段的音素識別結(jié)果來提取候選詞語,將提取的候選詞語輸出到語音識別器150,并通過使用從音素識別器130輸出的第二片段的語音識別的音素識別結(jié)果來提取候選詞語。語音識別器150通過使用由候選詞語提取器140提取的第一片段的語音信號的候選詞語來執(zhí)行針對第一片段的語音信號的語音識別,并通過使用由候選詞語提取器140提取的第二片段的語音信號的候選詞語來執(zhí)行針對第二片段的語音信號的語音識別。[0036]上述電子裝置100用相對少量的計算快速執(zhí)行音素識別,基于音素識別的結(jié)果提取少量的候選詞語,通過使用比識別多個連續(xù)詞語的現(xiàn)有方法顯著更小數(shù)量的候選詞語來執(zhí)行語音識別。另外,電子裝置100并行執(zhí)行音素識別、候選詞語的提取和語音識別,來允許用戶進(jìn)一步快速執(zhí)行語音識別。
[0037]圖2是示出根據(jù)示例性實(shí)施例的用于識別語音的電子裝置100的詳細(xì)結(jié)構(gòu)的框圖。參照圖2,電子裝置100包括語音信號輸入部件110、語音信號分段器120、音素識別器130、候選詞語提取器140和語音識別器150。
[0038]語音信號輸入部件110接收與用戶的語音相應(yīng)的語音信號。語音信號輸入部件110可從語音輸入裝置(諸如,麥克風(fēng))實(shí)時接收語音信號。然而,這僅是示例,語音信號輸入部件110可從存儲在電子裝置100的存儲器(未示出)中的文件中接收語音信號。
[0039]語音信號分段器120按照預(yù)設(shè)時間間隔將語音信號分段為多個片段。這里,語音信號分段器120包括片段分段器121、預(yù)處理器122和特征向量提取器123。
[0040]片段分段器121按照預(yù)設(shè)時間間隔(例如,0.1秒)對從語音信號輸入部件110輸出的語音信號進(jìn)行分段。
[0041]預(yù)處理器122執(zhí)行針對多個片段中的一個片段的語音信號的信號處理(諸如,噪聲去除)。
[0042]特征向量提取器123從預(yù)處理的所述一個片段的語音信號中提取特征向量。特征向量提取器123將所述一個片段的語音信號的特征向量輸出到音素識別器130和語音識別器 150。
[0043]音素識別器130通過使用由特征向量提取器123提取的特征向量來執(zhí)行語音識另IJ。這里,音素識別器130包括第一高斯概率計算器131、第一聲學(xué)模型132、最佳候選搜索器133和片段分段錯誤校正器134。
[0044]第一高斯概率計算器131通過使用第一聲學(xué)模型132來計算所述一個片段的語音信號的特征向量的高斯概率。
[0045]第一聲學(xué)模型132是用于音素識別的聲學(xué)模型,并且在韓語的情況下,存儲關(guān)于40到50個音素的信息。第一聲學(xué)模型132可以是隱型馬爾可夫模型(HMM)聲學(xué)模型。具體地,第一聲學(xué)模型132比應(yīng)用于識別多個連續(xù)詞語的現(xiàn)有方法的聲學(xué)模型更容易實(shí)現(xiàn),使得能夠進(jìn)行快速語音識別。
[0046]最佳候選搜索器133基于第一聲學(xué)模型132和第一高斯概率計算器131的計算結(jié)果來選擇包括在所述一個片段的語音信號中的最佳音素。
[0047]片段分段錯誤校正器134刪除由最佳候選搜索器133選擇的多個音素中的至少最后一個音素。詳細(xì)地,根據(jù)本不例性實(shí)施例的語音信號分段器120基于時間而不是基于音素對語音信號進(jìn)行分段。因此,輸入到音素識別器130的所述一個片段的語音信號的最后音素的所有數(shù)據(jù)可不被輸入,因此,由最佳候選搜索器133選擇的所述多個音素中的至少最后一個音素可能是錯誤選擇的音素。因此,片段分段錯誤校正器134刪除由最佳候選搜索器133選擇的所述多個音素中的至少最后一個音素,并將未被刪除的音素輸出到候選詞語提取器140。片段分段錯誤校正器134將刪除的至少一個音素輸出到片段分段器121,以在下一片段中識別刪除的至少一個音素。
[0048]根據(jù)本示例性實(shí)施例的音素識別器130刪除由最佳候選搜索器133選擇的所述多個音素中的至少最后一個音素,以通過第二分段錯誤校正器134校正片段分段錯誤。然而,這僅是示例,音素識別器130可通過使用HMM狀態(tài)位置檢查或信號處理技術(shù)來搜索音素的尾部,以最小化片段分段錯誤。
[0049]候選詞語提取器140基于由音素識別器130識別的所述一個片段的語音信號的音素來提取候選詞語。候選詞語提取器140包括相似度計算器141和片段詞語圖表產(chǎn)生器142。
[0050]相似度計算器141通過使用發(fā)音字典來計算所述一個片段的語音信號的音素和其它音素之間的發(fā)音相似度,以提取與所述一個片段的語音信號的音素發(fā)音相似的相似音素。
[0051]片段詞語圖表產(chǎn)生器142基于提取的相似音素產(chǎn)生用于產(chǎn)生候選詞語的片段詞語圖表。這里,片段詞語圖表可以是識別的音素被連接到相似音素的網(wǎng)絡(luò)類型圖表。片段詞語圖表產(chǎn)生器142將用于提取所述一個片段的語音信號的候選詞語的片段詞語圖表輸出到最佳詞語圖表路徑搜索器153。
[0052]在上述示例性實(shí)施例中,候選詞語提取器140產(chǎn)生片段詞語圖表,但是這僅是示例。因此,候選詞語提取器140可提取候選詞語來產(chǎn)生候選詞語列表。
[0053]語音識別器150通過使用從候選詞語提取器140輸出的候選詞語來執(zhí)行針對一個片段的語音識別。語音識別器150包括第二高斯概率計算器151、第二聲學(xué)模型152、最佳詞語圖表路徑搜索器153、語言模型154和語音識別輸出部件155。
[0054]第二高斯概率計算器151通過使用第二聲學(xué)模型152來計算所述一個片段的語音信號的高斯概率分布。
[0055]這里,第二聲學(xué)模型152是在識別多個連續(xù)詞語的一般方法中使用的聲學(xué)模型,并可以是使用三音素的聲學(xué)模型。具體地,為了執(zhí)行復(fù)雜的語音識別,第二聲學(xué)模型152存儲比第一聲學(xué)模型132更多的數(shù)據(jù)量。
[0056]通過使用第二聲學(xué)模型152來計算一個片段的語音信號的的高斯概率,并且通過使用第二聲學(xué)模型152和語言模型154來輸出在詞語圖表中具有最高概率的詞語串。具體地,最佳詞語圖表路徑搜索器153基于第二高斯概率計算器151的計算結(jié)果來搜索與從片段詞語圖表產(chǎn)生器142輸出的片段詞語圖表的語音信號相應(yīng)的最佳路徑,其中,所述最佳路徑與在詞語圖表中具有最高概率的詞語串相應(yīng)。這里,為了進(jìn)一步準(zhǔn)確識別句子,最佳詞語路徑搜索器153可通過使用存儲語法和句子結(jié)構(gòu)的語言模型154來執(zhí)行語音識別。換句話說,第一聲學(xué)模型132可以是專門用于高速語音識別的聲學(xué)模型,第二聲學(xué)模型152可以是用于提高連續(xù)詞語語音識別的性能的精細(xì)的聲學(xué)模型。
[0057]語音識別輸出部件155輸出由最佳詞語圖表路徑搜索器153搜索的最佳路徑產(chǎn)生的詞語串(句子)。
[0058]音素識別器130、候選詞語提取器140和語音識別器150可被形成為通過不同的核并行操作的流水線形狀。詳細(xì)地,如圖3中所示,語音信號分段器120將語音信號分段為N個片段,并將N個片段的語音信號發(fā)送到音素識別器130。音素識別器130在時間tl執(zhí)行針對第一片段的音素識別。在時間t2,音素識別器130執(zhí)行針對第二片段的音素識別,并且候選詞語提取器140提取第一片段的候選詞語。在時間t3,音素識別器130執(zhí)行針對第三片段的音素識別,候選詞語提取器140提取第二片的候選詞語,并且語音識別器150執(zhí)行針對第一片段的語音識別。根據(jù)這種方法,音素識別器130、候選詞語提取器140和語音識別器150每次并行操作。語音識別器150在從用戶結(jié)束發(fā)音的時間起的短時間tN+2-tN之后,執(zhí)行并輸出針對所有片段的語音信號的語音識別。
[0059]如上所述,電子裝置100并行執(zhí)行音素識別操作,使用音素識別的候選詞語提取操作和使用候選詞語的語音識別操作。因此,電子裝置100比識別多個連續(xù)詞語的現(xiàn)有方法更快速地執(zhí)行語音識別。
[0060]現(xiàn)在將參照圖4描述根據(jù)示例性實(shí)施例的電子裝置100的語音識別方法。
[0061]參照圖4,在操作S410中,電子裝置100確定語音信號是否被輸入。語音信號可通過語音輸入裝置(諸如,麥克風(fēng))或通過預(yù)存文件被實(shí)時輸入。
[0062]如果在操作S410中確定語音信號被輸入,則在操作S420中,電子裝置100以預(yù)設(shè)時間間隔將語音信號分段為多個片段。詳細(xì)地,電子裝置100以預(yù)設(shè)時間間隔(例如,0.1秒)將輸入語音信號分段為多個片段,并執(zhí)行針對多個片段中的一個片段的語音信號的信號處理來提取特征向量。
[0063]在操作S430中,電子裝置100識別所述一個片段的語音信號的音素。詳細(xì)地,電子裝置100通過使用第一聲學(xué)模型來識別所述一個片段的語音信號的音素。為了進(jìn)一步準(zhǔn)確地識別音素,電子裝置100刪除多個識別的音素中的至少一個最后音素,并使用刪除的至少一個音素來識別下一片段的語音信號的音素。
[0064]在操作S440中,電子裝置100通過使用音素識別結(jié)果來提取所述一個片段的語音信號的候選詞語。詳細(xì)地,電子裝置100提取多個識別的音素的相似音素,并產(chǎn)生用于提取候選詞語的詞語圖表。這里,詞語圖表是在其上識別的音素被分別連接到相似音素的網(wǎng)絡(luò)類型圖表。
[0065]在操作S450中,電子裝置100通過使用候選詞語來執(zhí)行針對所述一個片段的語音信號的語音識別。詳細(xì)地,電子裝置100通過使用第二聲學(xué)模型和在操作S440中提取的候選詞語(詞語圖表)的語言模型來執(zhí)行針對所述一個片段的語音信號的語音識別。
[0066]電子裝置100可針對下一片段的語音信號重復(fù)執(zhí)行操作S430到S450。電子裝置100可通過使用處理器的不同核重復(fù)并行執(zhí)行操作S430到S450。
[0067]如上所述,根據(jù)語音識別方法,電子裝置可比識別多個連續(xù)詞語的現(xiàn)有方法更快速并且準(zhǔn)確地執(zhí)行語音識別。
[0068]如本領(lǐng)域技術(shù)人員將理解的,本示例性實(shí)施例的多個方面可被實(shí)現(xiàn)為設(shè)備、系統(tǒng)、方法或計算機(jī)程序產(chǎn)品。因此,示例性實(shí)施例的多個方面可采取在這里一般全部可被稱為“電路”、“模塊”或“系統(tǒng)”的全硬件實(shí)施例、全軟件實(shí)施例(包括固件、常駐軟件、微碼等)、或組合軟件和硬件方面的實(shí)施例的形式。此外,示例性實(shí)施例的多個方面可采用計算機(jī)程序產(chǎn)品的形式,并由硬件處理器來執(zhí)行,其中,所述計算機(jī)程序產(chǎn)品實(shí)現(xiàn)在包含計算機(jī)可讀程序代碼的一個或多個計算機(jī)可讀介質(zhì)中。
[0069]一個或多個計算機(jī)可讀介質(zhì)的任意組合可被利用。計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)可以是,例如,但不限于,電子、磁、光學(xué)、電磁、紅外或半導(dǎo)體系統(tǒng)、設(shè)備或裝置、或者是上述的任何適當(dāng)組合。計算機(jī)可讀存儲介質(zhì)的更具體的示例(非窮舉列表)將包括以下:具有一條或多條導(dǎo)線的電連接器、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM或閃存)、光纖、便攜式光盤只讀存儲器(⑶-ROM)、光學(xué)存儲裝置、磁存儲裝置或上述的任何適當(dāng)組合。在本公開的上下文中,計算機(jī)可讀存儲介質(zhì)可以是可包含或存儲用于由指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的程序的任何有形介質(zhì),或是與指令執(zhí)行系統(tǒng)、設(shè)備或裝置連接的任何有形介質(zhì)。
[0070]上述示例性實(shí)施例僅僅是示例性的,而不應(yīng)被解釋為限制。本教導(dǎo)可被容易地應(yīng)用到其它類型的設(shè)備。此外,示例性實(shí)施例的描述意在示出,而不是限制權(quán)利要求的范圍,并且很多替代物、修改和變化對于本領(lǐng)域的技術(shù)人員將是清楚的。
【權(quán)利要求】
1.一種在電子裝置中識別語音的方法,所述方法包括: 如果語音信號被輸入,則以預(yù)設(shè)時間間隔將語音信號分段為多個片段; 通過使用第一聲學(xué)模型來執(zhí)行針對多個片段中的一個片段的語音信號的音素識別; 通過使用音素識別結(jié)果來提取所述一個片段的語音信號的候選詞語; 通過使用候選詞語來執(zhí)行針對所述一個片段的語音信號的語音識別。
2.如權(quán)利要求1所述的方法,其中,執(zhí)行音素識別的步驟還包括: 通過使用分段的維特比算法來刪除所述一個片段的語音信號的多個音素中的至少一個最后音素, 其中,刪除的至少一個音素被用于執(zhí)行針對下一片段的語音信號的音素識別。
3.如權(quán)利要求1的所述方法,其中,提取的步驟包括: 提取與識別的音素發(fā)音相似的相似音素; 通過使用所述相似音素來產(chǎn)生用于提取所述一個片段的候選詞語的詞語圖表。
4.如權(quán)利要求3的所述方法,其中,執(zhí)行語音識別的步驟包括: 通過使用第二聲學(xué)模型來計算所述一個片段的語音信號的高斯概率; 通過使用第二聲學(xué)模型和語言模型來輸出在詞語圖表中具有最高概率的詞語串。
5.如權(quán)利要求4所述的方法,其中,第一聲學(xué)模型和第二聲學(xué)模型彼此不同。
6.如權(quán)利要求1所述的方法,其中,通過不同的核并行執(zhí)行所述執(zhí)行音素識別的步驟、所述提取步驟和所述執(zhí)行語音識別的步驟。
7.一種電子裝置,包括: 語音信號輸入部件,接收語音信號; 語音信號分段器,以預(yù)設(shè)時間間隔將通過語音信號輸入部件輸入的語音信號分段為多個片段; 音素識別器,通過使用第一聲學(xué)模型來執(zhí)行針對多個片段中的一個片段的語音信號的音素識別; 候選詞語提取器,通過使用音素識別結(jié)果來提取所述一個片段的語音信號的候選詞語; 語音識別器,通過使用候選詞語來執(zhí)行針對所述一個片段的語音信號的語音識別。
8.如權(quán)利要求7所述的電子裝置,其中,音素識別器通過使用分段的維特比算法來刪除所述一個片段的語音信號的多個音素中的至少一個最后音素,以執(zhí)行音素識別, 其中,刪除的至少一個音素被用于執(zhí)行針對下一片段的語音信號的音素識別。
9.如權(quán)利要求7所述的電子裝置,其中,候選詞語提取器提取與識別的音素發(fā)音相似的相似音素,并通過使用所述相似音素來產(chǎn)生用于提取所述片段的候選詞語的詞語圖表。
10.如權(quán)利要求9所述的電子裝置,其中,語音識別器通過使用第二聲學(xué)模型來計算所述一個片段的語音信號的高斯概率,并通過使用第二聲學(xué)模型和語言模型來輸出在詞語圖表中具有最高概率的詞語串,以執(zhí)行語音識別。
11.如權(quán)利要求10所述的電子裝置,其中,音素識別器的第一聲學(xué)模型和語音識別器的第二聲學(xué)模型彼此不同。
12.如權(quán)利要求7所述的電子裝置,其中,音素識別器、候選詞語提取器和語音識別器被實(shí)現(xiàn)為不同的核。
【文檔編號】G10L15/26GK103544955SQ201310301732
【公開日】2014年1月29日 申請日期:2013年7月15日 優(yōu)先權(quán)日:2012年7月13日
【發(fā)明者】李在原, 陸東錫, 林賢澤, 金兌潤 申請人:三星電子株式會社