基于人工智能的字母音素轉(zhuǎn)換模型生成方法及裝置的制造方法

文檔序號(hào)：9826926閱讀：1455來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于人工智能的字母音素轉(zhuǎn)換模型生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域，尤其涉及一種基于人工智能的字母音素轉(zhuǎn)換模型生成方法及裝置。
【背景技術(shù)】
[0002] 人工智能(Artificial Intelligence)，英文縮寫(xiě)為AI。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括機(jī)器人、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。其中，人工智能最重要的方面就是語(yǔ)音識(shí)別技術(shù)。
[0003 ]字母到音素的轉(zhuǎn)換模型（grapheme-to-phoneme，g2p)是英文語(yǔ)音合成中十分重要的處理模塊，用于對(duì)接收到的單詞中的字母轉(zhuǎn)換成對(duì)應(yīng)音素?，F(xiàn)有技術(shù)中，通過(guò)深度神經(jīng)網(wǎng) 絡(luò)技術(shù)來(lái)訓(xùn)練g2p模型，能夠得到比基于統(tǒng)計(jì)語(yǔ)言模型更好的應(yīng)用效果。
[0004] 由于g2p模型的目標(biāo)是將單詞轉(zhuǎn)換成對(duì)應(yīng)的音素序列，而實(shí)際存在的單詞數(shù)量也是相對(duì)固定的，也就是10萬(wàn)個(gè)單詞左右。但是，g2p訓(xùn)練模型所需的數(shù)據(jù)量是相對(duì)固定的。通過(guò)深度神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練g2p模型的過(guò)程完全不同于聲學(xué)模型的訓(xùn)練，具體如下：
[0005] 通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)模型時(shí)，由于可以不斷地增加訓(xùn)練數(shù)據(jù)，因此神經(jīng)網(wǎng)絡(luò)的層數(shù)以及每一層的單元數(shù)可以不斷增大，以此帶來(lái)更好的性能。但對(duì)于g2p模型的訓(xùn)練來(lái) 講，如果增大網(wǎng)絡(luò)層數(shù)以及每一層的單元數(shù)，但訓(xùn)練數(shù)據(jù)量還是相對(duì)不變的話，很容易造成過(guò)擬合現(xiàn)象的發(fā)生。所謂過(guò)擬合現(xiàn)象就是指，訓(xùn)練出來(lái)的g2p模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好，但在測(cè)試數(shù)據(jù)上卻表現(xiàn)得不如訓(xùn)練數(shù)據(jù)那樣好。
[0006] 然而，如果選擇一個(gè)較小的網(wǎng)絡(luò)來(lái)訓(xùn)練g2p模型，可以得到一個(gè)性能相對(duì)可以接受的g2p模型，但這樣的網(wǎng)絡(luò)的層數(shù)以及每一層的單元數(shù)都會(huì)相對(duì)較小，不如深層神經(jīng)網(wǎng)絡(luò)那樣擁有更強(qiáng)的學(xué)習(xí)能力和泛化能力。

【發(fā)明內(nèi)容】

[0007] 本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0008] 為此，本申請(qǐng)的第一個(gè)目的在于提出一種基于人工智能的字母音素轉(zhuǎn)換模型生成方法，該方法應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)，生成字母音素轉(zhuǎn)換模型，提高了字母音素轉(zhuǎn)換模型的學(xué)習(xí)能力和泛化能力，避免了過(guò)擬合現(xiàn)象。
[0009] 本申請(qǐng)的第二個(gè)目的在于提出一種基于人工智能的字母音素轉(zhuǎn)換模型生成裝置。
[0010] 為達(dá)上述目的，本申請(qǐng)第一方面實(shí)施例提出了一種基于人工智能的字母音素轉(zhuǎn)換模型生成方法，包括:在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過(guò)程中，按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選，獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)；應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞，更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;對(duì)所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理，生成字母音素轉(zhuǎn)換模型。
[0011] 本申請(qǐng)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法，通過(guò)在應(yīng)用神經(jīng)網(wǎng) 絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過(guò)程中，按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選，獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)；應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞，更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;對(duì) 所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理，生成字母音素轉(zhuǎn)換模型。由此，實(shí)現(xiàn) 了應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)，生成字母音素轉(zhuǎn)換模型，提高了字母音素轉(zhuǎn)換模型的學(xué)習(xí)能力和泛化能力，并且避免了過(guò)擬合現(xiàn)象。
[0012] 為達(dá)上述目的，本申請(qǐng)第二方面實(shí)施例提出了一種基于人工智能的字母音素轉(zhuǎn)換模型生成裝置，包括:處理模塊，用于在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過(guò)程中，按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選，獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)；訓(xùn)練模塊，用于應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò) 訓(xùn)練對(duì)應(yīng)的單詞，更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;生成模塊，用于對(duì)所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理，生成字母音素轉(zhuǎn)換模型。
[0013] 本申請(qǐng)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成裝置，通過(guò)在應(yīng)用神經(jīng)網(wǎng) 絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過(guò)程中，按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選，獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)；應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞，更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;對(duì) 所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理，生成字母音素轉(zhuǎn)換模型。由此，實(shí)現(xiàn) 了應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)，生成字母音素轉(zhuǎn)換模型，提高了字母音素轉(zhuǎn)換模型的學(xué)習(xí)能力和泛化能力，并且避免了過(guò)擬合現(xiàn)象。
【附圖說(shuō)明】
[0014] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中：
[0015] 圖1是本申請(qǐng)一個(gè)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法的流程圖；
[0016]圖2是二層神經(jīng)網(wǎng)絡(luò)不意圖；
[0017] 圖3是加入防止過(guò)擬合技術(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)示意圖；
[0018] 圖4是本申請(qǐng)一個(gè)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019] 下面詳細(xì)描述本申請(qǐng)的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本申請(qǐng)，而不能理解為對(duì)本申請(qǐng)的限制。
[0020] 下面參考附圖描述本申請(qǐng)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法及裝置。
[0021] 圖1是本申請(qǐng)一個(gè)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法的流程圖。
[0022] 如圖1所示，該基于人工智能的字母音素轉(zhuǎn)換模型生成方法包括：
[0023] 步驟101，在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過(guò) 程中，按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選，獲取用于訓(xùn)練每個(gè) 單詞的保留節(jié)點(diǎn)。
[0024] 步驟102,應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞，更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重。
[0025]步驟103,對(duì)所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理，生成字母音素轉(zhuǎn)換模型。
[0026] 具體地，為了使得訓(xùn)練出的g2p模型能夠擁有更強(qiáng)的泛化能力，本發(fā)明采用了深度神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練得到g2p模型。并且在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過(guò)程中，通過(guò)對(duì)網(wǎng)絡(luò)中部分節(jié)點(diǎn)的隱藏來(lái)防止模型過(guò)擬合。
[0027] 需要解釋的是，應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)，生成字母音素轉(zhuǎn)換模型，并且防止生成的字母音素轉(zhuǎn)換模型出現(xiàn)過(guò)擬合現(xiàn)象。其中，用于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)為深度神經(jīng)網(wǎng)絡(luò)，在不同的訓(xùn)練場(chǎng)景中可以采用不同的模型，本實(shí)施例對(duì)此不作限制。例如：可以采用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)（Long-Short Term Memory,LSTM)等。
[0028] 深度神經(jīng)網(wǎng)絡(luò)包括三層：第一層為輸入層、最后一層為輸出層、中間的為隱層，有的神經(jīng)網(wǎng)絡(luò)具有一個(gè)隱層，有的神經(jīng)網(wǎng)絡(luò)具有多個(gè)隱層，每層都有節(jié)點(diǎn)。針對(duì)訓(xùn)練數(shù)據(jù)中單詞量的大小，可以適應(yīng)調(diào)整用于訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)大小，具體包括調(diào)整深度神經(jīng) 網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)，以及每層的節(jié)點(diǎn)數(shù)量。
[0029] 為了防止模型過(guò)擬合，本發(fā)明在每一次對(duì)輸入單詞的訓(xùn)練過(guò)程中，按照預(yù)設(shè)的節(jié) 點(diǎn)比例對(duì)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選，獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)。
[0030] 需要強(qiáng)調(diào)的是，節(jié)點(diǎn)比例反映出訓(xùn)練過(guò)程中對(duì)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的簡(jiǎn)化程度，在訓(xùn)練之前，可以根據(jù)訓(xùn)練數(shù)據(jù)中的單詞數(shù)量調(diào)整神經(jīng)網(wǎng)絡(luò)的層數(shù)、每層節(jié)點(diǎn)數(shù)、以及預(yù)設(shè)的節(jié)點(diǎn)比例。
[0031] 需要注意的是，在不同的應(yīng)用場(chǎng)景中可以采用不同的節(jié)點(diǎn)比例設(shè)置方式隨機(jī)的對(duì) 訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行篩選，獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)，舉例說(shuō)明如下： [0032]第一種示例:節(jié)點(diǎn)隱藏比例
[0033]具體地，根據(jù)預(yù)設(shè)的節(jié)點(diǎn)隱藏比例，隨機(jī)將神經(jīng)網(wǎng)絡(luò)中每層隱層節(jié)點(diǎn)中與節(jié)點(diǎn)隱藏比例對(duì)應(yīng)數(shù)量的部分節(jié)點(diǎn)進(jìn)行隱藏處理。進(jìn)而，將每層隱層節(jié)點(diǎn)中沒(méi)有隱藏的部分節(jié)點(diǎn) 作為用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)。
[0034]第二種示例:節(jié)點(diǎn)保留比例
[0035] 根據(jù)預(yù)設(shè)的節(jié)點(diǎn)保留比例，隨機(jī)將神經(jīng)網(wǎng)絡(luò)中每層隱層節(jié)點(diǎn)中與節(jié)點(diǎn)保留比例對(duì) 應(yīng)數(shù)量的部分節(jié)點(diǎn)進(jìn)行保留處理，作為用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)。
[0036] 進(jìn)而，應(yīng)用與保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞，更新子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重。
[0037] 也就是說(shuō)，在模型訓(xùn)練中，不使用隱藏的節(jié)點(diǎn)（非保留節(jié)點(diǎn)），但是會(huì)保留它們所對(duì) 應(yīng)的權(quán)重，只是在這次訓(xùn)練中不再更新這些權(quán)重。當(dāng)下次訓(xùn)練時(shí)，又重新隨機(jī)地按照一定比例隱藏隱層的一些節(jié)點(diǎn)。如此周而復(fù)始。這種策略之所以能夠達(dá)到抗過(guò)擬合的原因，就是因為，每次訓(xùn)練的時(shí)候，在隱藏一些節(jié)點(diǎn)后，實(shí)際上剩下的網(wǎng)絡(luò)是一個(gè)相對(duì)原網(wǎng)絡(luò)較小的網(wǎng) 絡(luò)，這樣的網(wǎng)絡(luò)基本不會(huì)過(guò)擬合。
[0038] 最后，對(duì)所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理，生成字母音素轉(zhuǎn) 換模型。
[0039] 可以理解的是，而每次訓(xùn)練時(shí)都隨機(jī)地隱藏不同的節(jié)點(diǎn)實(shí)際上就是得到了很多小的網(wǎng)絡(luò)，最后的結(jié)果可以認(rèn)為是對(duì)這些小網(wǎng)絡(luò)取平均的方式，而這是一種很有效的抗過(guò)擬合的方式。需要注意的是:上面所述的隱藏節(jié)點(diǎn)，不是真的刪除，只是在當(dāng)前訓(xùn)練時(shí)不使用這些節(jié)點(diǎn)，而在下次訓(xùn)練時(shí)，還會(huì)使用。
[0040] 為了更加清楚的說(shuō)明上述過(guò)程，通過(guò)圖2和圖3為例說(shuō)明如下：
[0041] 圖2是三層神經(jīng)網(wǎng)絡(luò)示意圖，如圖2所示，輸入層為3個(gè)節(jié)點(diǎn)，隱層為6個(gè)節(jié)點(diǎn)，輸出層為2個(gè)節(jié)點(diǎn)。
[0042] 圖3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳志杰;康永國(guó);
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

上一篇：車(chē)輛中的語(yǔ)音識(shí)別系統(tǒng)及其方法
上一篇：轟鳴器電路的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于人工智能的字母音素轉(zhuǎn)換模型生成方法及裝置的制造方法