国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      提升個(gè)人語音識別率的方法及模塊的制作方法

      文檔序號:2837279閱讀:469來源:國知局
      專利名稱:提升個(gè)人語音識別率的方法及模塊的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明有關(guān)一種提升個(gè)人語音識別率的方法及模塊;更詳細(xì)地說,是關(guān)于一種 用于一可攜式電子裝置的提升個(gè)人語音識別率的模塊及其方法。
      背景技術(shù)
      藤著數(shù)字化時(shí)代的來臨,人類與可攜式電子化產(chǎn)品之間的互動也越來越頻繁, 但現(xiàn)今可攜式電子化產(chǎn)品的操控界面已漸漸無法滿足使用者的需求。在人類日常生 活中最為自然的溝通方式就是語言,因此若能使人類直接使用語言下指令予可攜式 電子化產(chǎn)品,將會使可攜式電子化產(chǎn)品的操控界面更易被使用者所接受,使可攜式 電子化產(chǎn)品操作上更為方便,并大幅增加可攜式電子化產(chǎn)品的附加價(jià)值。舉例而言,具有語音識別功能的手機(jī),具有一預(yù)設(shè)的識別模型,此識別模型是 根據(jù)一音素模型所建構(gòu)。而后根據(jù)此識別模型,手機(jī)可用以對一使用者所發(fā)送的至 少一指令語音進(jìn)行識別。此預(yù)設(shè)的識別模型與使用者無關(guān),意即使用者無需預(yù)錄語 音,即可享受語音識別的便利。然而此種識別模型無法顧及特定使用者的語音差異,當(dāng)使用者的語音與預(yù)設(shè)的識別模型相差較大時(shí),識別率即會降低。隱藏式馬爾可夫模型(Hidden Markov Model,以下簡稱HMM)為語音識別領(lǐng) 域中常使用的語音模型,用以構(gòu)成一音素模型。 一個(gè)HMM語音模型視每一輸入數(shù)據(jù) (例如一語音)為一個(gè)機(jī)率式生成模型。HMM語音模型對于每一個(gè)索引(例如字或詞) 都有一機(jī)率分布,欲査詢某一語音為何時(shí),則是通過查詢所有索引于此語音發(fā)生的 可能性來決定。為了使語音識別的效果更為精準(zhǔn)。則需要使用語音數(shù)據(jù)調(diào)整HMM 語音模型,使其能夠通過此調(diào)適作用以辨認(rèn)不同使用者的語音訊號。在另一方面,人類所發(fā)出的每個(gè)語音都是由不同的音素所組成,以中文為例, 每一個(gè)字的發(fā)音都可由不同的聲母或韻母組成,所以每一不同的聲母或韻母便可視為不同的音素。音素模型便是以HMM語音模型為基礎(chǔ),針對每一個(gè)不同的音素所建 立的模型。為了達(dá)到上述以語言下指令的目的,現(xiàn)有的指令語音識別方法,便是以音素模 型組成每一個(gè)指令的識別模型。例如"打電話給王小明",其中"打電話給"便可 視為一指令,但每個(gè)人說話的聲調(diào)不同,所以需要使用者針對不同的指令,輸入與 其相對應(yīng)的語音數(shù)據(jù)以調(diào)整其指令識別模型。但此調(diào)整是漸進(jìn)式的,所以使用者便 需重復(fù)提供"打電話給"的語音數(shù)據(jù),直到相對應(yīng)的指令識別模型可以識別使用者 "打電話給"這個(gè)指令為止。上述提升個(gè)人語音識別率的方法,皆需要求使用者針對不同指令識別模型逐一 進(jìn)行調(diào)整,亦可能須對同一指令識別模型重復(fù)輸入多筆語音數(shù)據(jù),這對使用者來說 極不方便及亦缺乏效率。綜上所述,如何提升調(diào)整指令識別模型的效率,讓使用者不需要針對不同指 令識別模型逐一進(jìn)行調(diào)整,以節(jié)省時(shí)間并提升個(gè)人語音識別率,這是語音識別廠商 刻正努力的目標(biāo)。發(fā)明內(nèi)容本發(fā)明的一目的在于提供一種提升個(gè)人語音識別率的方法,該方法用于一可攜 式電子裝置,此方法可根據(jù)一預(yù)先規(guī)則將與語音數(shù)據(jù)相關(guān)的音素模型分群,之后每 當(dāng)使用者提供語音數(shù)據(jù),便可調(diào)整音素模型,這樣也連帶調(diào)整了由音素模型所組成 的指令識別模型。因此本發(fā)明可改善現(xiàn)有的指令語音識別方法需要使用者針對不同 的指令識別模型,輸入與其相對應(yīng)的語音數(shù)據(jù)的缺點(diǎn)。為達(dá)上述目的,本發(fā)明所揭 示的方法,通過擷取使用者所提供的語音數(shù)據(jù),建構(gòu)出調(diào)整參數(shù);而后整合音素模 型及調(diào)整參數(shù),以調(diào)適該識別模型。通過上述步驟,便可調(diào)整可攜式電子裝置內(nèi)的 識別模型。本發(fā)明另一 目的在于提供一種提升個(gè)人語音識別率的模塊,此模塊可用于一可 攜式電子裝置,并執(zhí)行前述的方法,以改善現(xiàn)有的指令語音識別需要使用者針對不 同的指令識別模型,輸入與其相對應(yīng)的語音數(shù)據(jù)的缺點(diǎn)。為達(dá)上述目的,本發(fā)明所 揭示的模塊包含一識別模型、 一調(diào)整參數(shù)模型及一整合模塊,其中識別模型是由音素模型所組成,調(diào)整參數(shù)模型是根據(jù)使用者所提供的語音數(shù)據(jù)所建構(gòu)。而整合模塊 用以整合音素模型及調(diào)整參數(shù),以調(diào)適識別模型。借此,本發(fā)明可通過使用者調(diào)適 技術(shù),改善可攜式電子裝置中,識別模型對于特定使用者的識別率。在參閱附圖及隨后描述的實(shí)施方式后,所屬技術(shù)領(lǐng)域具有通常知識者便可了 解本發(fā)明的其他目的,以及本發(fā)明的技術(shù)手段及實(shí)施態(tài)樣。


      圖1是本發(fā)明的方法實(shí)施例的流程圖;圖2是本發(fā)明的方法實(shí)施例的進(jìn)一步流程圖;圖3是本發(fā)明的音素模型群組架構(gòu)的示意圖;以及 圖4是本發(fā)明的模塊實(shí)施例的示意圖。
      具體實(shí)施方式
      本發(fā)明的較佳實(shí)施例為一種提升個(gè)人語音識別率的方法,應(yīng)用于一具有語音識 別功能的可攜式電子裝置,在本實(shí)施例中為一手機(jī)。手機(jī)中具有識別系統(tǒng),包含一 預(yù)設(shè)的識別模型,此識別模型是根據(jù)至少一音素模型所建構(gòu),本方法通過整合此音 素模型及一調(diào)整參數(shù),以調(diào)適該識別模型。而后根據(jù)此調(diào)適后的識別模型,手機(jī)可 提升對一使用者所發(fā)送的至少一指令語音的識別率。詳細(xì)來說,尚未進(jìn)行調(diào)適的預(yù) 設(shè)識別模型,對于不同使用者皆以相同的識別模型進(jìn)行語音識別,可視為由一非特 定的音素模型所建構(gòu)。請參閱圖i,首先,執(zhí)行步驟ioo,建構(gòu)一特定的文字?jǐn)?shù)據(jù)庫,在本較佳實(shí)施例當(dāng)中,特定的文字?jǐn)?shù)據(jù)庫是與使用者可使用的指令語音所對應(yīng)的文字相關(guān),而不 需要與指令完全相同。舉例而言,手機(jī)內(nèi)預(yù)設(shè)用以操作手機(jī)的指令語音為"打電話 給"、"關(guān)機(jī)"等指令,而特定的文字?jǐn)?shù)據(jù)庫即是根據(jù)這些指令語音的特征而建構(gòu), 將用以改善手機(jī)對特定使用者的語音識別率。因此,此特定的文字?jǐn)?shù)據(jù)庫可由上述 指令構(gòu)成,亦可由與上述指令的語音特征有關(guān)的其他文字所構(gòu)成。關(guān)于語音特征, 進(jìn)一步說明于后文。接下來,執(zhí)行步驟ioi,在使用者根據(jù)上述特定文字?jǐn)?shù)據(jù)庫發(fā)出語音時(shí),擷取使用者所發(fā)出的多個(gè)語音數(shù)據(jù)中的特征,以建構(gòu)出一調(diào)整參數(shù)。最后,執(zhí)行步驟102整合調(diào)整參數(shù)及音素模型以調(diào)適識別模型。請參閱圖2,詳細(xì)來說,步驟101包含下列步驟執(zhí)行步驟200由多個(gè)語音數(shù) 據(jù)中擷取特征向量,其中特征向量可為梅爾倒頻譜系數(shù)(Mel-scale Frequency C印stral Coefficients)、線性預(yù)估倒頻譜系數(shù)(Linear Predictive C印stral Coefficient)、以及倒頻譜(C印stral)其中之一或其組合。接下來執(zhí)行步驟201, 利用被擷取出的特征向量,輔以一音素模型的群組架構(gòu),以建構(gòu)出一調(diào)整參數(shù)。此 群組架構(gòu)是根據(jù)預(yù)設(shè)的音素模型所建立,與使用者的語言傾向無關(guān)。關(guān)于群組架構(gòu) 的進(jìn)一步說明請參考圖3與后文。詳細(xì)來說,在步驟201中,識別系統(tǒng)擷取語音數(shù)據(jù)后,擷取語音數(shù)據(jù)內(nèi)的特征 向量,這些特征向量即與使用者個(gè)人發(fā)音習(xí)慣相關(guān),之后識別系統(tǒng)利用此特征向量, 輔以一音素模型的群組架構(gòu),以建構(gòu)出一調(diào)整參數(shù)。舉例而言,可采用最大后機(jī)率 估測法(Maxim咖a posteriori estimation, MAP)、最大相似度線性回歸法(Maximum Likelihood Linear Regression, MLLR)禾口向量場平滑化(Vector-Field Smoothing, VFS)的綜合方式,來達(dá)到各種訓(xùn)練聲音數(shù)據(jù)下的最佳調(diào)適效果。其中MLLR和VFS 演算法,采用分群的方法來克服機(jī)率分布模型的調(diào)適數(shù)據(jù)不足或缺乏的問題,當(dāng)某 一機(jī)率分布模型數(shù)據(jù)不足時(shí),就可以參考該機(jī)率分布模型(例如HMM語音模型)同一群組的其它具有特定關(guān)聯(lián)性的機(jī)率分布模型,來調(diào)整該機(jī)率分布模型,而各機(jī)率分 布模型的特定關(guān)聯(lián)性便以建立一群組架構(gòu)來表示。為了避免分群群組中仍有數(shù)據(jù)不 足或缺乏的現(xiàn)象,分群群組將被建立為樹狀結(jié)構(gòu),若某一群組數(shù)據(jù)不足時(shí),可往上 追溯,與另一群組合并,若數(shù)據(jù)還是不足時(shí),則再往上追溯,直到用以調(diào)適識別模 型的一群組內(nèi)有足夠的數(shù)據(jù)為止。請參考圖3,圖3為一群組架構(gòu)3的示意圖,分群的方法是使用現(xiàn)有的的 k-means演算法,將語音數(shù)據(jù)的音素模型分成5個(gè)子群組300、 301、 302、 303及 304,在此不再詳述。然后采用自下至上(bottom-up)方式增強(qiáng)各個(gè)子群組間的關(guān) 系,使一群組內(nèi)有足夠的數(shù)據(jù)以調(diào)適識別模型。利用這些子群組間的相似度(即距 離或最大相似度),結(jié)合成父群組305、 306、 307及308,進(jìn)而往上建構(gòu)一個(gè)樹狀 結(jié)構(gòu),完成此群組架構(gòu)。上述的方法可視實(shí)際情況而調(diào)整,并非用以限制本發(fā)明的 范圍。使用者的口音(即語言傾向)的關(guān)系,使用者"勿"及"〈〈" 的發(fā)音是很相近的,所以在此群組架構(gòu)中,便可將"勿"及"〈〈"的模型視為在同一子群組300中的兩個(gè)音素模型,而音素模型"勿"及"〈〈"便可視為特定關(guān)聯(lián)性 的語音,只要被擷取出的特征向量中包含與"勿"及"〈〈"有關(guān)的特征向量,這些 有關(guān)"勿"及"〈〈"的特征向量也會被用以調(diào)適同一群組內(nèi)的音素模型。因此本實(shí)施例即可根據(jù)如上述的群組架構(gòu),整合調(diào)整參數(shù)及音素模型,以調(diào)整 預(yù)設(shè)的識別模型,因此調(diào)整參數(shù)實(shí)際上已根據(jù)使用者的口音被分群,所以在此較佳 實(shí)施例中,只要預(yù)設(shè)的識別模型中有"關(guān)機(jī)"及"打電話"的指令識別模型,且使 用者發(fā)出的語音中有包含"勿"或"〈〈",便會調(diào)整音素模型"力"及"〈〈",這樣 也連帶調(diào)整了包含音素模型"勿"及"〈〈"的"關(guān)機(jī)"及"打電話"指令識別模型。 換句話說,所有包含相同音素模型的識別模型,都可以一并連帶調(diào)整,而調(diào)適后的 識別模型便可視為由特定的音素模型所建構(gòu)。由上述說明可知,本發(fā)明可通過較少的語音數(shù)據(jù)調(diào)整識別模型,利用音素模型 的群組架構(gòu),當(dāng)使用者在念出某一語音時(shí),連帶調(diào)整與此語音相關(guān)的音素模型,進(jìn) 而調(diào)整指令的識別模型,使使用者輸入較少的語音數(shù)據(jù)便可調(diào)整所有的識別模型。本發(fā)明的另一較佳實(shí)施例為一提升個(gè)人語音識別率的模塊4,用于一可攜式電 子裝置(如手機(jī)),模塊4包含一識別模型400、 一調(diào)整參數(shù)模型401及一整合模 塊402,可利用如前述較佳實(shí)施例的方法,改善語音識別率。識別模型400是由一音素模型所建構(gòu),用以對一使用者所發(fā)送的指令語音進(jìn)行 識別,此音素模型與前述較佳實(shí)施例所述的音素模型相同,在此不加贅述。而調(diào)整 參數(shù)模型401是根據(jù)使用者的語音數(shù)據(jù)所建構(gòu),此調(diào)整參數(shù)模型401包含一如前述 較佳實(shí)施例所述的群組架構(gòu),此群組架構(gòu)是根據(jù)音素模型間的特定關(guān)聯(lián)性所形成, 此群組架構(gòu)如前述較佳實(shí)施例所述的群組架構(gòu),在此不再贅言。此調(diào)整參數(shù)模型 401的建構(gòu),是擷取使用者根據(jù)一特定的文字?jǐn)?shù)據(jù)庫所發(fā)出的多個(gè)語音數(shù)據(jù)的特征 向量,輔以群組架構(gòu)而得。特定文字?jǐn)?shù)據(jù)庫的設(shè)計(jì)目的,是使使用者發(fā)出與構(gòu)成指 令語音的音素模型相關(guān)的語音,舉例而言,特定的文字可為一指令,如"打電話"、 "關(guān)機(jī)"等,亦可為一段特定文字,如"房間里有電話"、"天氣真好"等。針對相 同文字,不同使用者的發(fā)音亦有所不同。整合模塊402用以整合音素模型及調(diào)整參數(shù)模型,以調(diào)適識別模型,其調(diào)整方式如前述較佳實(shí)施例所述,在此不加贅述。除了圖4所描繪的操作及功能外,模塊4亦能執(zhí)行前述方法實(shí)施例的所有步驟。 所屬技術(shù)領(lǐng)域具有通常知識者可直接了解模塊4如何基于前述方法實(shí)施例以執(zhí)行 這些步驟,在此不加贅述。由上述可知,本發(fā)明可將音素模型做分類,以產(chǎn)生一群組架構(gòu),并根據(jù)此群組 架構(gòu),利用與使用者相關(guān)的調(diào)整參數(shù)以調(diào)整音素模型,借此也連帶調(diào)整了識別模型。因此本發(fā)明可克服現(xiàn)有的指令語音識別方法的缺點(diǎn),通過輸入較少的語音,即可調(diào) 適識別模型,以提升個(gè)人語音識別率。上述的實(shí)施例僅用來例舉本發(fā)明的實(shí)施態(tài)樣,以及闡釋本發(fā)明的技術(shù)特征, 并非用來限制本發(fā)明的范疇。任何熟悉此技術(shù)者可輕易完成的改變或均等性的安排 均屬于本發(fā)明所主張的范圍,本發(fā)明的權(quán)利范圍應(yīng)以本申請權(quán)利要求范圍為準(zhǔn)。
      權(quán)利要求
      1.一種提升個(gè)人語音識別率的方法,用于一可攜式電子裝置,該可攜式裝置,具有一預(yù)設(shè)的識別模型,該識別模型是根據(jù)至少一音素模型所建構(gòu),以對一使用者所發(fā)送的至少一指令語音,進(jìn)行識別;該方法包含下列步驟建構(gòu)一特定的文字?jǐn)?shù)據(jù)庫,與該指令語音所對應(yīng)的文字相關(guān);擷取該使用者根據(jù)該文字?jǐn)?shù)據(jù)庫所發(fā)出的多個(gè)語音數(shù)據(jù),以建構(gòu)出一調(diào)整參數(shù);以及整合該至少一音素模型及該調(diào)整參數(shù),以調(diào)適該識別模型。
      2. 根據(jù)權(quán)利要求1所述的方法,其特征在于該建構(gòu)一調(diào)整參數(shù)的步驟,是擷取 該多個(gè)語音數(shù)據(jù)的特征向量,并針對該至少一音素模型,建立一群組架構(gòu)。
      3. 根據(jù)權(quán)利要求2所述的方法,其特征在于該建構(gòu)一調(diào)整參數(shù)的步驟,是根據(jù) 特定關(guān)聯(lián)性的語音,建立該群組架構(gòu)。
      4. 根據(jù)權(quán)利要求2所述的方法,其特征在于該調(diào)適識別模型的步驟,是根據(jù)該 群組架構(gòu),以對該至少一音素模型及該調(diào)整參數(shù),進(jìn)行整合。
      5. 根據(jù)權(quán)利要求1所述的方法,其特征在于該識別模型是由至少一非特定的音 素模型所建構(gòu)。
      6. —種提升個(gè)人語音識別率的模塊,用于一可攜式電子裝置,包含-一識別模型,預(yù)設(shè)于該可攜式電子裝置中,該識別模型是由至少一音素模型所 建構(gòu),是用以對一使用者所發(fā)送的至少一指令語音,進(jìn)行識別;一調(diào)整參數(shù)模型,包含一群組架構(gòu),該群組架構(gòu)與一使用者的一語言傾向無關(guān);及一整合模塊,整合該至少一音素模型及該調(diào)整參數(shù)模型,以調(diào)適該識別模型。
      7. 根據(jù)權(quán)利要求6所述的模塊,其特征在于該群組架構(gòu),是根據(jù)該至少一音素 模型的特定關(guān)聯(lián)性所形成。
      8. 根據(jù)權(quán)利要求6所述的模塊,其特征在于該識別模型是由至少一非特定的音 素模型所建構(gòu)。
      全文摘要
      本發(fā)明是一種提升個(gè)人語音識別率的方法及模塊,用于一可攜式電子裝置,此可攜式裝置具有一預(yù)設(shè)的識別模型,此識別模型是由一音素模型所建構(gòu),用以對一使用者所發(fā)送的至少一指令語音,進(jìn)行識別,此方法包含下列步驟建構(gòu)一特定的文字?jǐn)?shù)據(jù)庫,與此指令語音所對應(yīng)的文字相關(guān);擷取此使用者根據(jù)此文字?jǐn)?shù)據(jù)庫所發(fā)出的多個(gè)語音數(shù)據(jù),以建構(gòu)出一調(diào)整參數(shù);以及整合此音素模型及此調(diào)整參數(shù),以調(diào)適此識別模型。根據(jù)上述步驟,使用者可以有效的調(diào)整識別模型,以提升個(gè)人語音識別率。
      文檔編號G10L15/00GK101320561SQ20071010989
      公開日2008年12月10日 申請日期2007年6月5日 優(yōu)先權(quán)日2007年6月5日
      發(fā)明者何泰軒, 劉進(jìn)榮, 徐志文, 高鴻宗 申請人:賽微科技股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1