一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法與流程

文檔序號：12802799閱讀：569來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用領(lǐng)域，尤其是一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法。

背景技術(shù)：

卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種，已成為當(dāng)前語音分析和圖像識別領(lǐng)域的研究熱點。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò)，降低了網(wǎng)絡(luò)模型的復(fù)雜度，減少了權(quán)值的數(shù)量。該優(yōu)點在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯，使圖像可以直接作為網(wǎng)絡(luò)的輸入，避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器，這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。

卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò)，每層由多個二維平面組成，而每個平面由多個獨立神經(jīng)元組成。輸入圖像通過和三個可訓(xùn)練的濾波器和可加偏置進行卷積，卷積后在c1層產(chǎn)生三個特征映射圖，然后特征映射圖中每組的四個像素再進行求和，加權(quán)值，加偏置，通過一個sigmoid函數(shù)得到三個s2層的特征映射圖。這些映射圖再經(jīng)過濾波得到c3層。這個層級結(jié)構(gòu)再和s2一樣產(chǎn)生s4。最終，這些像素值被光柵化，并連接成一個向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，得到輸出。

一般地，c層為特征提取層，每個神經(jīng)元的輸入與前一層的局部感受野相連，并提取該局部的特征，一旦該局部特征被提取后，它與其它特征間的位置關(guān)系也隨之確定下來；s層是特征映射層，網(wǎng)絡(luò)的每個計算層由多個特征映射組成，每個特征映射為一個平面，平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù)，使得特征映射具有位移不變性。

此外，由于一個映射面上的神經(jīng)元共享權(quán)值，因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù)，降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)中的每一個特征提取層(c-層)都緊跟著一個用來求局部平均與二次提取的計算層(s-層)，這種特有的兩次特征提取結(jié)構(gòu)使網(wǎng)絡(luò)在識別時對輸入樣本有較高的畸變?nèi)萑棠芰Α?/p>

技術(shù)實現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問題在于，提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法，能夠?qū)Ψ窖砸纛l聲譜圖片進行分類和識別。

為解決上述技術(shù)問題，本發(fā)明提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法，包括如下步驟：

(1)建立包含多地方言的樣本集，對樣本進行預(yù)處理，并進行標注；

(2)將訓(xùn)練集和測試集中的所有圖片縮放成預(yù)定大小的彩色圖，并為每張圖片賦予標簽信息，標簽信息表示對應(yīng)的圖片所屬的縣級市；

(3)建立卷積神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)絡(luò)各層次依次為輸入層、多個卷積層、全連接層和輸出層，使用梯度下降法和反向傳播算法訓(xùn)練所屬卷積神經(jīng)網(wǎng)絡(luò)；

(4)訓(xùn)練完成后，得到訓(xùn)練過程中的錯誤率下降趨勢圖。

優(yōu)選的，步驟(1)中，對樣本集進行預(yù)處理，將音頻文件轉(zhuǎn)換成聲譜圖，并去掉聲譜圖中的空白邊緣。

優(yōu)選的，步驟(1)中，樣本集包括多個地方的方言樣本。

優(yōu)選的，步驟(2)中，圖片統(tǒng)一縮放成227×227的彩色圖片。

優(yōu)選的，步驟(3)中，卷積神經(jīng)網(wǎng)絡(luò)為經(jīng)典的alexnet網(wǎng)絡(luò)結(jié)構(gòu)，在該網(wǎng)絡(luò)中，第一層為輸入層，接受大小為227×227的彩色圖像作為輸入，最后一層為輸出層，共n個結(jié)點，n表示需要分類的方言數(shù)據(jù)集的類別總數(shù)。

優(yōu)選的，步驟(3)中，梯度下降算法的具體步驟為：從任一點開始，沿該點梯度的反方向運動一段距離，再沿新位置的梯度反方向運行一段距離，如此迭代。解一直朝下坡最陡的方向運動，希望能運動到函數(shù)的全局最小點，即使得誤差值最小的點。

優(yōu)選的，步驟(3)中，反向傳播算法的具體步驟為：當(dāng)使用梯度下降法找到誤差的最小值之后，從網(wǎng)絡(luò)的最后一層依次向前更新權(quán)值，用反向傳播的方法更新權(quán)值，即鏈式求導(dǎo)法則，鏈式求導(dǎo)法則如下：

優(yōu)選的，步驟(4)中，訓(xùn)練樣本和測試樣本，即分批次對所有樣本進行訓(xùn)練，不斷更新權(quán)值，直到目標函數(shù)的值收斂于一個穩(wěn)定區(qū)域內(nèi)的值，即錯誤率收斂于一個穩(wěn)定值。

本發(fā)明的有益效果為：使用卷積神經(jīng)網(wǎng)絡(luò)對二維圖像進行分類，可取得良好的分類效果，很大程度上提高對方言的分類準確率。

附圖說明

圖1為本發(fā)明的方法流程示意圖。

圖2為本發(fā)明的卷積神經(jīng)網(wǎng)絡(luò)用語方言分類的目標函數(shù)及錯誤率的變化趨勢圖。

具體實施方式

如圖1所示，一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法，包括如下步驟：

(1)建立包含多地方言的樣本集，對樣本進行預(yù)處理，并進行標注；對樣本集進行預(yù)處理，將音頻文件轉(zhuǎn)換成聲譜圖，并去掉聲譜圖中的空白邊緣；樣本集包括多個地方的方言樣本；

(2)將訓(xùn)練集和測試集中的所有圖片縮放成預(yù)定大小的彩色圖，并為每張圖片賦予標簽信息，標簽信息表示對應(yīng)的圖片所屬的縣級市；圖片統(tǒng)一縮放成227×227的彩色圖片；

(4)分批次對所有樣本進行訓(xùn)練，不斷更新權(quán)值，直到目標函數(shù)的值收斂于一個穩(wěn)定區(qū)域內(nèi)的值，即錯誤率收斂于一個穩(wěn)定值；訓(xùn)練完成后，得到訓(xùn)練過程中的錯誤率下降趨勢圖。

卷積神經(jīng)網(wǎng)絡(luò)為經(jīng)典的alexnet網(wǎng)絡(luò)結(jié)構(gòu)，在該網(wǎng)絡(luò)中，第一層為輸入層，接受大小為227×227的彩色圖像作為輸入，最后一層為輸出層，共n個結(jié)點，n表示需要分類的方言數(shù)據(jù)集的類別總數(shù)。

梯度下降算法的具體步驟為：從任一點開始，沿該點梯度的反方向運動一段距離，再沿新位置的梯度反方向運行一段距離，如此迭代。解一直朝下坡最陡的方向運動，希望能運動到函數(shù)的全局最小點，即使得誤差值最小的點。

反向傳播算法的具體步驟為：當(dāng)使用梯度下降法找到誤差的最小值之后，從網(wǎng)絡(luò)的最后一層依次向前更新權(quán)值，用反向傳播的方法更新權(quán)值，即鏈式求導(dǎo)法則，鏈式求導(dǎo)法則如下：

實驗條件：現(xiàn)選取一臺計算機進行方言分類，該計算機的配置有intel(r)處理器(3.30ghz)和32gb隨機存取存儲器(ram)，gtx970gpu,64位操作系統(tǒng)，編程語言用的是matlab(r2015a版本)。

實驗對象：方言數(shù)據(jù)庫包含灰度圖像數(shù)據(jù)庫與彩色圖像數(shù)據(jù)庫，本發(fā)明中采用彩色圖像數(shù)據(jù)庫圖像進行實驗，所分類的是江蘇70個地方的方言，因此共有70個類，每個類別都包含200幅圖像，每幅圖像大小為227×227。在每一類圖像中隨機選取160幅作為訓(xùn)練圖像，剩下的40幅作為測試圖像。

實驗步驟：

步驟1、將方言音頻文件轉(zhuǎn)換成聲譜圖，并去掉聲譜圖的空白邊緣，然后將圖片調(diào)整為227×227的彩色圖片。

步驟2、將所有訓(xùn)練和測試圖片做標注。

步驟3、在matconvnet中alexnet網(wǎng)絡(luò)結(jié)構(gòu)中，修改部分參數(shù)，使得網(wǎng)絡(luò)結(jié)構(gòu)與方言數(shù)據(jù)庫匹配。

步驟4、準備就緒后，將標注的圖片送入網(wǎng)絡(luò)中，開始運行程序。

步驟5、程序會輸出每一張圖片識別的錯誤率，程序完成時，會輸出整個運行過程中訓(xùn)練和測試的錯誤率的變化趨勢圖。

圖2為本發(fā)明中卷積神經(jīng)網(wǎng)絡(luò)用于方言分類的目標函數(shù)及錯誤率的變化趨勢圖；其中，橫坐標(epoch)表示訓(xùn)練的批次；左邊objective表示目標函數(shù)的變化趨勢，縱坐標表示目標函數(shù)的值；中間top1err表示準確分到其所屬類別的錯誤率的變化趨勢圖，縱坐標表示錯誤率的大??；右邊top5err為表示分到與所屬類別最接近的5個類別的錯誤率的變化趨勢圖，縱坐標表示錯誤率的大小。由于實驗過程中，我們用曲線的顏色來區(qū)分訓(xùn)練和測試過程，由于限制圖2中曲線的顏色均為黑色，由于top1err是判斷實驗準確率的關(guān)鍵標準，我們僅參考top1err的指標。top1err中上面曲線為測試過程，下面曲線為訓(xùn)練過程。top1err測試的值可以穩(wěn)定在90％。

盡管本發(fā)明就優(yōu)選實施方式進行了示意和描述，但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，只要不超出本發(fā)明的權(quán)利要求所限定的范圍，可以對本發(fā)明進行各種變化和修改。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：伍家松;魏黎明;邱詩潔;楊淳沨;孔佑勇;朱小貝;舒華忠
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

上一篇：具有凹凸結(jié)構(gòu)的化妝用粉刷的制作方法與工藝
上一篇：一種含隕石成分的洗發(fā)液及其制備方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

卷積神經(jīng)網(wǎng)絡(luò)圖像分類相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)文本分類相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)分類器相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)分類相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)分類算法相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于卷積神經(jīng)網(wǎng)絡(luò)的方言分類方法與流程