基于變步長最小均方誤差自適應(yīng)濾波器的基因識別系統(tǒng)的制作方法

文檔序號：12803184閱讀：374來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于變步長最小均方誤差自適應(yīng)濾波器的基因識別系統(tǒng)的制作方法與工藝

本發(fā)明涉及生物信息學(xué)中對測序獲得的dna序列進行可編碼基因區(qū)域的識別和定位領(lǐng)域，具體涉及一種基于變步長最小均方誤差(lms)自適應(yīng)濾波器的基因識別系統(tǒng)。

背景技術(shù)：

現(xiàn)階段基因識別的研究取得了很多優(yōu)秀的成果，形成了許多成熟的預(yù)測系統(tǒng)，但這些系統(tǒng)主要都依托于一些經(jīng)典的機器學(xué)習(xí)標(biāo)記方法，如hmm和crf等，一般模型結(jié)構(gòu)復(fù)雜，調(diào)節(jié)參數(shù)繁多，訓(xùn)練耗時且不易存儲，同時系統(tǒng)特異性過強，不利于物種間的遷移通用。另外，針對短基因序列隨機噪聲大、特征信息稀少而識別率低等問題，也不能進行有效的抑制和解決。

為了克服上述種種問題，國內(nèi)外研究者們在數(shù)字信號處理技術(shù)、基因序列長程相關(guān)性以及統(tǒng)計特征等方面都做了大量的研究和分析，取得了不錯的研究成果。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于提供一種基于變步長最小均方誤差(lms)自適應(yīng)濾波器的基因識別系統(tǒng)，提出了變步長lms自適應(yīng)濾波器改進算法和多特征加權(quán)融合算法，并將二者集成到同一個基因識別系統(tǒng)中，進一步改善其識別性能。

為實現(xiàn)上述目的，本發(fā)明采取的技術(shù)方案為：

一種基于變步長最小均方誤差自適應(yīng)濾波器的基因識別系統(tǒng)，包括變步長lms自適應(yīng)濾波器算法改進單元和基因結(jié)構(gòu)多特征加權(quán)融合算法處理單元；所述的變步長lms自適應(yīng)濾波器算法改進單元，用于通過變步長lms自適應(yīng)改進算法對基因序列進行濾波處理，得到隨機噪聲較少、周期3行為較強的基因特征；所述的基因結(jié)構(gòu)多特征加權(quán)融合算法處理單元，用于通過多特征加權(quán)融合策略，對基因序列進行特征提取，從而得到表達能力更強的特征向量。

研究表明，外顯子編碼區(qū)域?qū)?yīng)的功率譜曲線在其π/3處通?？梢杂^測到明顯的波峰，而非編碼區(qū)序列對應(yīng)的功率譜曲線則觀測不到如此波峰。假設(shè)系統(tǒng)輸出為y(n)，分別定義其一階、二階變量為

e1(n)＝y(tǒng)(n)-y(n-1)

e2(n)＝e1(n)-e1(n-1)

因為輸出y(n)中的波峰部分通常表示算法預(yù)測的外顯子區(qū)域，對算法識別性能而言至關(guān)重要，所以著重改善算法對波峰曲線上升部分的預(yù)測十分必要。在波峰曲線處于上升階段時，可以適當(dāng)減小步長因子，以提高算法識別的準(zhǔn)確性；而在其他部分，可以適當(dāng)增大步長因子，以促使系統(tǒng)快速收斂并具備更強的實時追蹤能力。依據(jù)函數(shù)微分的幾何定義，曲線從波谷上升到波峰的階段其斜率必有e1(n)＞0，而其曲線斜率的變化趨勢可能通常要經(jīng)歷一個由小變大再變小的過程。在曲線斜率增長變快時，希望調(diào)整步長相應(yīng)越小，而曲線斜率增長變慢，則調(diào)整步長相應(yīng)逐漸增大。為了滿足這一要求，提出系統(tǒng)輸出反饋與步長因子新的函數(shù)關(guān)聯(lián)關(guān)系，公式定義如下

其中，u0為初始步長，k為常數(shù)，且有1≤k＜1/u0λmax，λmax為輸入信號自相關(guān)矩陣最大的特征值。

另外，一般lms自適應(yīng)濾波器基因識別算法研究中，通常定義a、c、g、t四種堿基對應(yīng)的濾波器輸出信號的平方和為y(n)，有

y(n)＝|ya(n)|²+|yc(n)|²+|yg(n)|²+|yt(n)|²，

在實際情況中，四種堿基對外顯子的預(yù)測結(jié)果的影響可能不盡相同，造成

ya(n)，yc(n)，yg(n)，yt(n)對總輸出y(n)的貢獻比率也應(yīng)該各有不同。由仿真研究表明，堿基g、c的影響貢獻率往往大于堿基a、t的影響，同時引入的噪聲也相對更少。為了清晰表示出這種不同，提出根據(jù)基因序列g(shù)c含量與at含量的比值作為權(quán)重重新定義系統(tǒng)的輸出，即

其中tb＞0，分別對應(yīng)四種堿基的加權(quán)系數(shù)，且默認(rèn)有tg＝tc＝1，ta＝tt＝1。

基因結(jié)構(gòu)多特征加權(quán)融合算法處理單元的主要設(shè)計思想是依據(jù)單一特征在同一統(tǒng)計分析方法下，對基因編碼區(qū)識別的表征能力的強弱或者說影響貢獻的大小，即ac指標(biāo)，對所選擇的基因結(jié)構(gòu)多種特征進行加權(quán)融合，形成可統(tǒng)一維度大小的復(fù)合特征向量。本系統(tǒng)主要涉及四種編碼區(qū)特征，分別為：堿基組成成分、堿基位置相關(guān)性、密碼子使用頻率以及周期3行為。具體實現(xiàn)步驟如下：

1)、在同一統(tǒng)計分析方法下，分別單獨使用上述提到的四種統(tǒng)計特征，訓(xùn)練判別模型并計算其對應(yīng)的近似相關(guān)系數(shù)(ac)的算法評價指標(biāo)，可記作feaaci，0≤i≤3。

2)、選取四種單一特征指標(biāo)最小的值，令各個特征的ac指標(biāo)值分別除以最小指標(biāo)值做歸一化處理，其結(jié)果值作為對應(yīng)特征的權(quán)值，表達式記為

其中，feaaci分別對應(yīng)上述四種統(tǒng)計特征的ac評估指標(biāo)值，wi表示四種特征歸一化后對應(yīng)的權(quán)系數(shù)。

3)、將四種特征中的每一個特征量與其對應(yīng)的權(quán)值相乘，組合成一個75維的多特征融合向量繼續(xù)用于基因識別的算法研究，表達式可記為

其中，feaveci表示第i個特征向量，wi表示第i個特征對應(yīng)的權(quán)系數(shù)，fusionvec表示加權(quán)融合后的特征向量。注意，這里所有的單一特征分量維數(shù)不盡相同，融合前，需為每一特征量設(shè)定固定填充位置，其余位置用0填充，統(tǒng)一擴充到75維。

本發(fā)明具有以下有益效果：

提出了變步長lms自適應(yīng)濾波器改進算法和多特征加權(quán)融合算法，并將二者集成到同一個基因識別系統(tǒng)中，進一步改善其識別性能。

附圖說明

圖1為本發(fā)明實施例中變步長lms改進算法處理過程小結(jié)。

圖2為本發(fā)明實施例中改進的多特征加權(quán)融合算法相應(yīng)的處理框圖。

圖3為本發(fā)明實施例中結(jié)合上述兩種算法改進的基因識別系統(tǒng)的單序列識別流程圖。

具體實施方式

為了使本發(fā)明的目的及優(yōu)點更加清楚明白，以下結(jié)合實施例對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

e1(n)＝y(tǒng)(n)-y(n-1)；

e2(n)＝e1(n)-e1(n-1)；

其中，u0為初始步長，k為常數(shù)，且有1≤k＜1/u0λmax，λmax為輸入信號自相關(guān)矩陣最大的特征值。

另外，一般lms自適應(yīng)濾波器基因識別算法研究中，通常定義a、c、g、t四種堿基對應(yīng)的濾波器輸出信號的平方和為y(n)，有

y(n)＝|ya(n)|²+|yc(n)|²+|yg(n)|²+|yt(n)|²，

在實際情況中，四種堿基對外顯子的預(yù)測結(jié)果的影響可能不盡相同，造成ya(n)，yc(n)，yg(n)，yt(n)對總輸出y(n)的貢獻比率也應(yīng)該各有不同。由仿真研究表明，堿基g、c的影響貢獻率往往大于堿基a、t的影響，同時引入的噪聲也相對更少。為了清晰表示出這種不同，提出根據(jù)基因序列g(shù)c含量與at含量的比值作為權(quán)重重新定義系統(tǒng)的輸出，即

其中tb＞0，分別對應(yīng)四種堿基的加權(quán)系數(shù)，且默認(rèn)有tg＝tc＝1，ta＝tt＝1。該部分完整的算法處理過程如附圖1所示。

其中，feaaci分別對應(yīng)上述四種統(tǒng)計特征的ac評估指標(biāo)值，wi表示四種特征歸一化后對應(yīng)的權(quán)系數(shù)。

3)、將四種特征中的每一個特征量與其對應(yīng)的權(quán)值相乘，組合成一個75維的多特征融合向量繼續(xù)用于基因識別的算法研究，表達式可記為

實施例

以單條dna序列輸入為例，默認(rèn)系統(tǒng)已經(jīng)預(yù)先從配置文件中加載了相關(guān)模型的訓(xùn)練參數(shù)值，其識別流程如圖3所示。系統(tǒng)開始每次讀取一條未知的輸入序列，先統(tǒng)計其中a、c、g、t四種堿基的組成成份，計算gc含量與at含量的比值，更新各堿基對應(yīng)濾波器輸出的權(quán)值并保存，以便于在計算序列n/3處總功率譜或信噪比值時，對單一堿基的濾波器功率譜輸出加權(quán)。再以單個堿基為步長滑動處理，每向前滑動一個堿基位置，判斷是否抵達序列的終點，如果反饋結(jié)果為是，說明整條序列已經(jīng)處理完備，系統(tǒng)會自動對其進行一些必要的后處理，再輸出預(yù)測結(jié)果，并退出程序；如果反饋為否，會以該位置為中心，截取長度為m的序列片段(假如長度不足m，系統(tǒng)默認(rèn)會以對稱和隨機原則生成相關(guān)堿基加以補充)，可以用多線程同時計算上述四種特征向量，其中對于周期3特征向量的計算，從流程圖可以看到，是由lms自適應(yīng)濾波處理之后，再由第一步保存的濾波器輸出權(quán)值加權(quán)求和而成(參照圖1所示算法處理過程)。然后加權(quán)融合四種特征量(加權(quán)融合算法參照圖2所示框圖)，獲得對應(yīng)的多維特征向量，計算fisher線性分類結(jié)果，與訓(xùn)練的閾值比較，如果大于，則相應(yīng)位置堿基用1替代，否則用0替代。之后，向前滑動一個堿基位置，繼續(xù)上述處理。

關(guān)于系統(tǒng)模型參數(shù)的訓(xùn)練，圖3表示的系統(tǒng)中因為涉及到多特征融合和fisher線性判別分類器，需要訓(xùn)練保存的參數(shù)值比較多，如上述四種特征融合的權(quán)值參數(shù)，75維的fisher分類器的權(quán)值向量以及一個用于二值化預(yù)測結(jié)果的閾值參數(shù)。其訓(xùn)練策略采用5折交叉驗證，即獲取足夠量的特定種類的基因標(biāo)記序列數(shù)據(jù)集，隨機均分為5個互不相交的子集，每次抽取一組子集作為測試數(shù)據(jù)集，其余混合用于訓(xùn)練模型。按標(biāo)記抽取訓(xùn)練集中的編碼區(qū)，作為外顯子訓(xùn)練數(shù)據(jù)集，其他剩余的非編碼部分統(tǒng)一作為內(nèi)含子訓(xùn)練數(shù)據(jù)集。測試集也依此處理。依照圖2所示的多特征提取和加權(quán)融合的算法處理過程，訓(xùn)練、保存模型參數(shù)，再在測試集上進行評估，記錄其對應(yīng)的近似相關(guān)系數(shù)指標(biāo)ac值。5次循環(huán)操作之后，選擇ac指標(biāo)最大的那組，即平均測試誤差最小的組作為系統(tǒng)的模型參數(shù)，寫入系統(tǒng)配置文件。

關(guān)于fisher線性分類閾值模型的選擇，采用已有的概率平均法，即分別求出訓(xùn)練集中所有外顯子和內(nèi)含子對應(yīng)的特征評估值的平均值與標(biāo)準(zhǔn)偏差，如功率譜、信噪比等，按類別相乘再求和，并除以外顯子和內(nèi)含子的平均值之和，其比值即為所得到的閾值參數(shù)。

為了完整說明我們實現(xiàn)的基因識別系統(tǒng)，在上述兩種改進單元之外，需要再引入兩個處理單元，分別為基因數(shù)據(jù)預(yù)處理單元和預(yù)測結(jié)果輸出單元。所述的基因數(shù)據(jù)預(yù)處理單元，主要是對獲取的dna序列進行必要的預(yù)處理操作，如序列中含有未知堿基n或者n，則通過隨機概率生成的方式，將其以a、c、g、t四種堿基的某一項作替換；如序列長度低于某一閾值，則通過不斷復(fù)制拼接原序列的方式擴展序列長度，最后拼接進去的原序列，如果使總長度大于閾值，則多余的部分直接截斷舍棄，如果總長度尚小于閾值，不足的部分則以隨機概率生成的方式進行補充。然后將處理后的基因數(shù)據(jù)作為系統(tǒng)的輸入數(shù)據(jù)。所述的預(yù)測結(jié)果輸出單元，主要利用提取到的特征向量進行預(yù)測，并做必要的后處理操作，即先給定特定閾值，用0、1元素二值化預(yù)測結(jié)果(1表示是外顯子編碼區(qū)中堿基，0表示是非編碼區(qū)中的堿基)，再把預(yù)測結(jié)果中，兩處連1之間相夾的長度小于30bp的連0重置為1，最后將長度小于30bp的連1重置為0，統(tǒng)計記錄各個連1區(qū)間的起始和終止位置，作為匹配的外顯子預(yù)測范圍輸出

以上所述僅是本發(fā)明的優(yōu)選實施方式，應(yīng)當(dāng)指出，對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以作出若干改進和潤飾，這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭睿;徐勇;張健
技術(shù)所有人：哈爾濱工業(yè)大學(xué)深圳研究生院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

最小均方誤差相關(guān)技術(shù)

最小均方誤差估計相關(guān)技術(shù)

最小二乘法誤差分析相關(guān)技術(shù)

最小均方誤差準(zhǔn)則相關(guān)技術(shù)

最小均方誤差算法相關(guān)技術(shù)

最小誤差法閾值分割相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于變步長最小均方誤差自適應(yīng)濾波器的基因識別系統(tǒng)的制作方法