本發(fā)明涉及卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用領(lǐng)域,尤其是一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法。
背景技術(shù):
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,已成為當(dāng)前語音分析和圖像識別領(lǐng)域的研究熱點。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。輸入圖像通過和三個可訓(xùn)練的濾波器和可加偏置進行卷積,卷積后在c1層產(chǎn)生三個特征映射圖,然后特征映射圖中每組的四個像素再進行求和,加權(quán)值,加偏置,通過一個sigmoid函數(shù)得到三個s2層的特征映射圖。這些映射圖再經(jīng)過濾波得到c3層。這個層級結(jié)構(gòu)再和s2一樣產(chǎn)生s4。最終,這些像素值被光柵化,并連接成一個向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸出。
一般地,c層為特征提取層,每個神經(jīng)元的輸入與前一層的局部感受野相連,并提取該局部的特征,一旦該局部特征被提取后,它與其它特征間的位置關(guān)系也隨之確定下來;s層是特征映射層,網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射為一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。
此外,由于一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù),降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)中的每一個特征提取層(c-層)都緊跟著一個用來求局部平均與二次提取的計算層(s-層),這種特有的兩次特征提取結(jié)構(gòu)使網(wǎng)絡(luò)在識別時對輸入樣本有較高的畸變?nèi)萑棠芰Α?/p>
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于,提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法,能夠?qū)Ψ窖砸纛l聲譜圖片進行分類和識別。
為解決上述技術(shù)問題,本發(fā)明提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法,包括如下步驟:
(1)建立包含多地方言的樣本集,對樣本進行預(yù)處理,并進行標注;
(2)將訓(xùn)練集和測試集中的所有圖片縮放成預(yù)定大小的彩色圖,并為每張圖片賦予標簽信息,標簽信息表示對應(yīng)的圖片所屬的縣級市;
(3)建立卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)各層次依次為輸入層、多個卷積層、全連接層和輸出層,使用梯度下降法和反向傳播算法訓(xùn)練所屬卷積神經(jīng)網(wǎng)絡(luò);
(4)訓(xùn)練完成后,得到訓(xùn)練過程中的錯誤率下降趨勢圖。
優(yōu)選的,步驟(1)中,對樣本集進行預(yù)處理,將音頻文件轉(zhuǎn)換成聲譜圖,并去掉聲譜圖中的空白邊緣。
優(yōu)選的,步驟(1)中,樣本集包括多個地方的方言樣本。
優(yōu)選的,步驟(2)中,圖片統(tǒng)一縮放成227×227的彩色圖片。
優(yōu)選的,步驟(3)中,卷積神經(jīng)網(wǎng)絡(luò)為經(jīng)典的alexnet網(wǎng)絡(luò)結(jié)構(gòu),在該網(wǎng)絡(luò)中,第一層為輸入層,接受大小為227×227的彩色圖像作為輸入,最后一層為輸出層,共n個結(jié)點,n表示需要分類的方言數(shù)據(jù)集的類別總數(shù)。
優(yōu)選的,步驟(3)中,梯度下降算法的具體步驟為:從任一點開始,沿該點梯度的反方向運動一段距離,再沿新位置的梯度反方向運行一段距離,如此迭代。解一直朝下坡最陡的方向運動,希望能運動到函數(shù)的全局最小點,即使得誤差值最小的點。
優(yōu)選的,步驟(3)中,反向傳播算法的具體步驟為:當(dāng)使用梯度下降法找到誤差的最小值之后,從網(wǎng)絡(luò)的最后一層依次向前更新權(quán)值,用反向傳播的方法更新權(quán)值,即鏈式求導(dǎo)法則,鏈式求導(dǎo)法則如下:
優(yōu)選的,步驟(4)中,訓(xùn)練樣本和測試樣本,即分批次對所有樣本進行訓(xùn)練,不斷更新權(quán)值,直到目標函數(shù)的值收斂于一個穩(wěn)定區(qū)域內(nèi)的值,即錯誤率收斂于一個穩(wěn)定值。
本發(fā)明的有益效果為:使用卷積神經(jīng)網(wǎng)絡(luò)對二維圖像進行分類,可取得良好的分類效果,很大程度上提高對方言的分類準確率。
附圖說明
圖1為本發(fā)明的方法流程示意圖。
圖2為本發(fā)明的卷積神經(jīng)網(wǎng)絡(luò)用語方言分類的目標函數(shù)及錯誤率的變化趨勢圖。
具體實施方式
如圖1所示,一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法,包括如下步驟:
(1)建立包含多地方言的樣本集,對樣本進行預(yù)處理,并進行標注;對樣本集進行預(yù)處理,將音頻文件轉(zhuǎn)換成聲譜圖,并去掉聲譜圖中的空白邊緣;樣本集包括多個地方的方言樣本;
(2)將訓(xùn)練集和測試集中的所有圖片縮放成預(yù)定大小的彩色圖,并為每張圖片賦予標簽信息,標簽信息表示對應(yīng)的圖片所屬的縣級市;圖片統(tǒng)一縮放成227×227的彩色圖片;
(3)建立卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)各層次依次為輸入層、多個卷積層、全連接層和輸出層,使用梯度下降法和反向傳播算法訓(xùn)練所屬卷積神經(jīng)網(wǎng)絡(luò);
(4)分批次對所有樣本進行訓(xùn)練,不斷更新權(quán)值,直到目標函數(shù)的值收斂于一個穩(wěn)定區(qū)域內(nèi)的值,即錯誤率收斂于一個穩(wěn)定值;訓(xùn)練完成后,得到訓(xùn)練過程中的錯誤率下降趨勢圖。
卷積神經(jīng)網(wǎng)絡(luò)為經(jīng)典的alexnet網(wǎng)絡(luò)結(jié)構(gòu),在該網(wǎng)絡(luò)中,第一層為輸入層,接受大小為227×227的彩色圖像作為輸入,最后一層為輸出層,共n個結(jié)點,n表示需要分類的方言數(shù)據(jù)集的類別總數(shù)。
梯度下降算法的具體步驟為:從任一點開始,沿該點梯度的反方向運動一段距離,再沿新位置的梯度反方向運行一段距離,如此迭代。解一直朝下坡最陡的方向運動,希望能運動到函數(shù)的全局最小點,即使得誤差值最小的點。
反向傳播算法的具體步驟為:當(dāng)使用梯度下降法找到誤差的最小值之后,從網(wǎng)絡(luò)的最后一層依次向前更新權(quán)值,用反向傳播的方法更新權(quán)值,即鏈式求導(dǎo)法則,鏈式求導(dǎo)法則如下:
實驗條件:現(xiàn)選取一臺計算機進行方言分類,該計算機的配置有intel(r)處理器(3.30ghz)和32gb隨機存取存儲器(ram),gtx970gpu,64位操作系統(tǒng),編程語言用的是matlab(r2015a版本)。
實驗對象:方言數(shù)據(jù)庫包含灰度圖像數(shù)據(jù)庫與彩色圖像數(shù)據(jù)庫,本發(fā)明中采用彩色圖像數(shù)據(jù)庫圖像進行實驗,所分類的是江蘇70個地方的方言,因此共有70個類,每個類別都包含200幅圖像,每幅圖像大小為227×227。在每一類圖像中隨機選取160幅作為訓(xùn)練圖像,剩下的40幅作為測試圖像。
實驗步驟:
步驟1、將方言音頻文件轉(zhuǎn)換成聲譜圖,并去掉聲譜圖的空白邊緣,然后將圖片調(diào)整為227×227的彩色圖片。
步驟2、將所有訓(xùn)練和測試圖片做標注。
步驟3、在matconvnet中alexnet網(wǎng)絡(luò)結(jié)構(gòu)中,修改部分參數(shù),使得網(wǎng)絡(luò)結(jié)構(gòu)與方言數(shù)據(jù)庫匹配。
步驟4、準備就緒后,將標注的圖片送入網(wǎng)絡(luò)中,開始運行程序。
步驟5、程序會輸出每一張圖片識別的錯誤率,程序完成時,會輸出整個運行過程中訓(xùn)練和測試的錯誤率的變化趨勢圖。
圖2為本發(fā)明中卷積神經(jīng)網(wǎng)絡(luò)用于方言分類的目標函數(shù)及錯誤率的變化趨勢圖;其中,橫坐標(epoch)表示訓(xùn)練的批次;左邊objective表示目標函數(shù)的變化趨勢,縱坐標表示目標函數(shù)的值;中間top1err表示準確分到其所屬類別的錯誤率的變化趨勢圖,縱坐標表示錯誤率的大??;右邊top5err為表示分到與所屬類別最接近的5個類別的錯誤率的變化趨勢圖,縱坐標表示錯誤率的大小。由于實驗過程中,我們用曲線的顏色來區(qū)分訓(xùn)練和測試過程,由于限制圖2中曲線的顏色均為黑色,由于top1err是判斷實驗準確率的關(guān)鍵標準,我們僅參考top1err的指標。top1err中上面曲線為測試過程,下面曲線為訓(xùn)練過程。top1err測試的值可以穩(wěn)定在90%。
盡管本發(fā)明就優(yōu)選實施方式進行了示意和描述,但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,只要不超出本發(fā)明的權(quán)利要求所限定的范圍,可以對本發(fā)明進行各種變化和修改。